基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法及裝置的制造方法
【專利摘要】本發(fā)明的實施例提供了基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法和裝置。神經(jīng)網(wǎng)絡模型包括特征提取神經(jīng)網(wǎng)絡、第一神經(jīng)網(wǎng)絡和第二神經(jīng)網(wǎng)絡,目標跟蹤方法包括:S120,將待處理視頻輸入至特征提取神經(jīng)網(wǎng)絡,以提取待處理視頻的特征數(shù)據(jù);S140,將待處理視頻的特征數(shù)據(jù)輸入至第一神經(jīng)網(wǎng)絡,以獲得待處理視頻中的至少一個目標的邊界框;以及S160,將待處理視頻的特征數(shù)據(jù)和邊界框輸入至第二神經(jīng)網(wǎng)絡,從而獲得邊界框的標識符,以跟蹤待處理視頻中的至少一個目標,其中標識符用于指示至少一個目標。上述目標跟蹤方法和裝置能夠針對視頻更好地完成目標的檢測和跟蹤,提高了目標跟蹤的速度和準確性。
【專利說明】
基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法及裝置
技術領域
[0001]本發(fā)明涉及圖像處理領域,更具體地涉及一種基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法及裝置。
【背景技術】
[0002]隨著監(jiān)控攝像頭越來越普及,通過攝像頭對重點場景的安防監(jiān)控的等需求也越來越普及。這類需求中最急切的是對目標(例如行人、車輛等)的準確檢測和跟蹤。檢測和跟蹤視頻場景中的每一個目標是很多應用最基本且最重要的環(huán)節(jié)。簡而言之,準確、高效地定位和跟蹤視頻場景中的每一個目標在諸如監(jiān)控等實際應用中有著非常重要的意義。
[0003]現(xiàn)有的目標跟蹤方法通常分為兩個獨立的步驟。首先,針對待處理視頻中的每一幀分別做行人檢測。然后,根據(jù)行人檢測的結果來單獨做跟蹤。這會造成重復計算從而導致計算時間增加,影響運算速度,并且還會導致待處理視頻的目標檢測跟蹤結果不能相互優(yōu)化從而影響檢測跟蹤的準確性。
【發(fā)明內(nèi)容】
[0004]考慮到上述問題而提出了本發(fā)明。根據(jù)本發(fā)明一方面,提供了一種基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法,其中所述神經(jīng)網(wǎng)絡模型包括特征提取神經(jīng)網(wǎng)絡、第一神經(jīng)網(wǎng)絡和第二神經(jīng)網(wǎng)絡,所述目標跟蹤方法包括:
[0005]S120,將待處理視頻輸入至所述特征提取神經(jīng)網(wǎng)絡,以提取所述待處理視頻的特征數(shù)據(jù);
[0006]S140,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的至少一個目標的邊界框;以及
[0007]S160,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第二神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標,其中所述標識符用于指示所述至少一個目標。
[0008]示例性地,所述第一神經(jīng)網(wǎng)絡包括第一子神經(jīng)網(wǎng)絡和第二子神經(jīng)網(wǎng)絡,所述步驟S140包括:
[0009]S142,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡,以獲得所述邊界框的粗略位置;以及
[0010]S144,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡,以獲得所述邊界框的準確位置和指示所述邊界框內(nèi)包括所述至少一個目標的概率值。
[0011]示例性地,所述第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡,所述步驟S160包括:
[0012]將所述特征數(shù)據(jù)和所述邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度;
[0013]根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度;以及
[0014]將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標。
[0015]示例性地,所述第一神經(jīng)網(wǎng)絡和/或所述特征提取神經(jīng)網(wǎng)絡包括卷積神經(jīng)網(wǎng)絡。
[0016]示例性地,所述目標跟蹤方法還包括以下步驟:
[0017]使用訓練視頻訓練所述神經(jīng)網(wǎng)絡模型,其中,在所述訓練視頻中,針對訓練目標標注了邊界框和標識符,所述標識符用于指示所述訓練目標;
[0018]其中,所述使用訓練視頻訓練所述神經(jīng)網(wǎng)絡模型包括:
[0019]S112,將所述訓練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡,以提取所述訓練視頻的特征數(shù)據(jù);
[0020]S114,將所述訓練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框,并且根據(jù)所標注的邊界框和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框計算檢測損失函數(shù)值;
[0021]SI 16,將所述訓練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至所述第二神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框的標識符,并根據(jù)所標注的標識符和所述第二神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框的標識符計算跟蹤損失函數(shù)值;以及
[0022]S118,在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)以及所述第一神經(jīng)網(wǎng)絡的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡的參數(shù)并且轉(zhuǎn)所述步驟SI 12,否則,停止對所述神經(jīng)網(wǎng)絡模型的訓練并獲得訓練好的所述神經(jīng)網(wǎng)絡模型以用于跟蹤目標。
[0023]示例性地,所述檢測損失函數(shù)值包括檢測交叉熵和檢測回歸損失函數(shù)值,所述步驟S118包括:
[0024]根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)和所述第一神經(jīng)網(wǎng)絡的參數(shù)。
[0025]示例性地,所述跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值,所述步驟S118包括:
[0026]根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)、所述第一神經(jīng)網(wǎng)絡的參數(shù)和所述第二神經(jīng)網(wǎng)絡的參數(shù)。
[0027]示例性地,所述第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡,所述步驟SI 16包括:
[0028]將所述訓練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述訓練視頻的不同幀中的邊界框之間的外觀相似度;
[0029]根據(jù)所述外觀相似度和所述訓練視頻中的不同幀中的邊界框之間的距離計算所述訓練視頻的不同幀中的邊界框之間的距離相似度;
[0030]將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,以獲得所述訓練目標的邊界框的標識符;以及[0031 ]根據(jù)所標注的標識符和所獲得的所述訓練目標的邊界框的標識符,計算所述跟蹤損失函數(shù)值。
[0032]示例性地,所述目標跟蹤方法還包括:
[0033]S180,根據(jù)所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標識符,分析所述至少一個目標的屬性和/或動作。
[0034]示例性地,所述步驟S180包括:
[0035]將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標識符輸入至第一卷積神經(jīng)網(wǎng)絡,經(jīng)由全連接層,輸出所述至少一個目標的屬性和/或動作。
[0036]根據(jù)本發(fā)明另一方面,還提供了一種基于神經(jīng)網(wǎng)絡模型的目標跟蹤裝置,其中所述神經(jīng)網(wǎng)絡模型包括特征提取神經(jīng)網(wǎng)絡、第一神經(jīng)網(wǎng)絡和第二神經(jīng)網(wǎng)絡,所述目標跟蹤裝置包括:
[0037]第一特征提取模塊,用于將待處理視頻輸入至所述特征提取神經(jīng)網(wǎng)絡,以提取所述待處理視頻的特征數(shù)據(jù);
[0038]檢測模塊,用于將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的至少一個目標的邊界框;以及
[0039]跟蹤模塊,用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第二神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標,其中所述標識符用于指示所述至少一個目標。
[0040]示例性地,所述第一神經(jīng)網(wǎng)絡包括第一子神經(jīng)網(wǎng)絡和第二子神經(jīng)網(wǎng)絡,所述檢測豐吳塊包括:
[0041]邊界框初定單元,用于將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡,以獲得所述邊界框的粗略位置;以及
[0042]邊界框確定單元,用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡,以獲得所述邊界框的準確位置和指示所述邊界框內(nèi)包括所述至少一個目標的概率值。
[0043]示例性地,所述第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡,所述跟蹤豐吳塊包括:
[0044]外觀相似度計算單元,用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度;
[0045]距離相似度計算單元,用于根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度;以及
[0046]標識符確定單元,用于將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標。
[0047]示例性地,所述第一神經(jīng)網(wǎng)絡和/或所述特征提取神經(jīng)網(wǎng)絡包括卷積神經(jīng)網(wǎng)絡。
[0048]示例性地,所述目標跟蹤裝置還包括:訓練模塊,用于使用訓練視頻訓練所述神經(jīng)網(wǎng)絡模型,其中,在所述訓練視頻中,針對訓練目標標注了邊界框和標識符,所述標識符用于指示所述訓練目標,所述訓練模塊包括:
[0049]訓練特征提取模塊,用于將所述訓練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡,以提取所述訓練視頻的特征數(shù)據(jù);
[0050]檢測訓練模塊,用于將所述訓練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框,并且根據(jù)所標注的邊界框和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框計算檢測損失函數(shù)值;
[0051 ]跟蹤訓練模塊,用于將所述訓練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至所述第二神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框的標識符,并根據(jù)所標注的標識符和所述第二神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框的標識符計算跟蹤損失函數(shù)值;以及
[0052]調(diào)整模塊,用于在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)以及所述第一神經(jīng)網(wǎng)絡的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡的參數(shù);否則,停止對所述神經(jīng)網(wǎng)絡模型的訓練并獲得訓練好的所述神經(jīng)網(wǎng)絡模型以用于跟蹤目標。
[0053]示例性地,所述檢測損失函數(shù)值包括檢測交叉熵和檢測回歸損失函數(shù)值,所述調(diào)整模塊用于根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)和所述第一神經(jīng)網(wǎng)絡的參數(shù)。
[0054]示例性地,所述跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值,所述調(diào)整模塊用于根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)、所述第一神經(jīng)網(wǎng)絡的參數(shù)和所述第二神經(jīng)網(wǎng)絡的參數(shù)。
[0055]示例性地,所述第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡,所述跟蹤訓練t吳塊包括:
[0056]外觀相似度訓練計算單元,用于將所述訓練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述訓練視頻的不同幀中的邊界框之間的外觀相似度;
[0057]距離相似度訓練計算單元,用于根據(jù)所述外觀相似度和所述訓練視頻中的不同幀中的邊界框之間的距離計算所述訓練視頻的不同幀中的邊界框之間的距離相似度;
[0058]標識符訓練獲得單元,用于將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,以獲得所述訓練目標的邊界框的標識符;以及
[0059]跟蹤損失函數(shù)值計算單元,用于根據(jù)所標注的標識符和所獲得的所述訓練目標的邊界框的標識符,計算所述跟蹤損失函數(shù)值。
[0060]示例性地,所述目標跟蹤裝置還包括:
[0061]分析模塊,用于根據(jù)所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標識符,分析所述至少一個目標的屬性和/或動作。
[0062]示例性地,所述分析模塊用于將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標識符輸入至第一卷積神經(jīng)網(wǎng)絡,經(jīng)由全連接層,輸出所述至少一個目標的屬性和/或動作。
[0063]在上述基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法和裝置中,目標檢測和目標跟蹤共用視頻的相同特征數(shù)據(jù),并且這兩個過程互相影響、促進和優(yōu)化,從而能夠顯著提高目標跟蹤的速度和準確性。
【附圖說明】
[0064]通過結合附圖對本發(fā)明實施例進行更詳細的描述,本發(fā)明的上述以及其它目的、特征和優(yōu)勢將變得更加明顯。附圖用來提供對本發(fā)明實施例的進一步理解,并且構成說明書的一部分,與本發(fā)明實施例一起用于解釋本發(fā)明,并不構成對本發(fā)明的限制。在附圖中,相同的參考標號通常代表相同或相似部件或步驟。
[0065]圖1示出了用于實現(xiàn)根據(jù)本發(fā)明實施例的基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法和裝置的示例電子設備的示意性框圖;
[0066]圖2示出了根據(jù)本發(fā)明一個實施例的基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法的示意性流程圖;
[0067]圖3示出了根據(jù)本發(fā)明一個實施例的目標檢測的示意性流程圖;
[0068]圖4示出了根據(jù)本發(fā)明一個實施例的根據(jù)目標檢測結果進行目標跟蹤的示意性流程圖;
[0069]圖5示出了根據(jù)本發(fā)明一個實施例的根據(jù)目標檢測結果進行目標跟蹤的網(wǎng)絡流的示意圖;
[0070]圖6示出了根據(jù)本發(fā)明另一個實施例的基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法的示意性流程圖;
[0071]圖7示出了根據(jù)本發(fā)明一個實施例的使用訓練視頻訓練神經(jīng)網(wǎng)絡模型的示意性流程圖;
[0072]圖8示出了根據(jù)本發(fā)明一個實施例的將訓練視頻的特征數(shù)據(jù)和訓練目標的邊界框輸入至第二神經(jīng)網(wǎng)絡并根據(jù)訓練目標的所標注的標識符和獲得的訓練目標的邊界框的標識符計算跟蹤損失函數(shù)值的示意性流程圖;
[0073]圖9示出了根據(jù)本發(fā)明另一實施例的基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法的示意性流程圖;
[0074]圖10示出了根據(jù)本發(fā)明一個實施例的基于神經(jīng)網(wǎng)絡模型的目標跟蹤裝置的示意性框圖;
[0075]圖11示出了根據(jù)本發(fā)明一個實施例的檢測模塊的示意性框圖;
[0076]圖12示出了根據(jù)本發(fā)明一個實施例的跟蹤模塊的示意性框圖;
[0077]圖13示出了根據(jù)本發(fā)明另一個實施例的基于神經(jīng)網(wǎng)絡模型的目標跟蹤裝置的示意性框圖;
[0078]圖14示出了根據(jù)本發(fā)明一個實施例的訓練模塊的示意性框圖;
[0079]圖15示出了根據(jù)本發(fā)明一個實施例的跟蹤訓練模塊的示意性框圖;以及
[0080]圖16示出了根據(jù)本發(fā)明實施例的基于神經(jīng)網(wǎng)絡模型的目標跟蹤系統(tǒng)的示意性框圖。
【具體實施方式】
[0081]為了使得本發(fā)明的目的、技術方案和優(yōu)點更為明顯,下面將參照附圖詳細描述根據(jù)本發(fā)明的示例實施例。顯然,所描述的實施例僅僅是本發(fā)明的一部分實施例,而不是本發(fā)明的全部實施例,應理解,本發(fā)明不受這里描述的示例實施例的限制?;诒景l(fā)明中描述的本發(fā)明實施例,本領域技術人員在沒有付出創(chuàng)造性勞動的情況下所得到的所有其它實施例都應落入本發(fā)明的保護范圍之內(nèi)。
[0082]首先,參照圖1來描述用于實現(xiàn)本發(fā)明實施例的基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法和裝置的示例電子設備的示意性框圖100。
[0083]如圖1所示,電子設備100包括一個或多個處理器102、一個或多個存儲裝置104、輸入裝置106和輸出裝置108,這些組件通過總線系統(tǒng)110和/或其它形式的連接機構(未示出)互連。應當注意,圖1所示的電子設備100的組件和結構只是示例性的,而非限制性的,根據(jù)需要,所述電子設備也可以具有其他組件和結構。
[0084]所述處理器102可以是中央處理單元(CPU)或者具有數(shù)據(jù)處理能力和/或指令執(zhí)行能力的其它形式的處理單元,并且可以控制所述電子設備100中的其它組件以執(zhí)行期望的功能。
[0085]所述存儲裝置104可以包括一個或多個計算機程序產(chǎn)品,所述計算機程序產(chǎn)品可以包括各種形式的計算機可讀存儲介質(zhì),例如易失性存儲器和/或非易失性存儲器。所述易失性存儲器例如可以包括隨機存取存儲器(RAM)和/或高速緩沖存儲器(cache)等。所述非易失性存儲器例如可以包括只讀存儲器(R0M)、硬盤、閃存等。在所述計算機可讀存儲介質(zhì)上可以存儲一個或多個計算機程序指令,處理器102可以運行所述程序指令,以實現(xiàn)下文所述的本發(fā)明實施例中(由處理器實現(xiàn))的計算機功能以及/或者其它期望的功能。在所述計算機可讀存儲介質(zhì)中還可以存儲各種應用程序和各種數(shù)據(jù),例如所述應用程序使用和/或產(chǎn)生的各種數(shù)據(jù)等。
[0086]所述輸入裝置106可以是用來接收用戶所輸入的指令以及采集數(shù)據(jù)的裝置,并且可以包括鍵盤、鼠標、麥克風、觸摸屏和攝像頭等中的一個或多個。
[0087]所述輸出裝置108可以向外部(例如用戶)輸出各種信息(例如圖像或聲音),并且可以包括顯示器、揚聲器等中的一個或多個。
[0088]上述輸入裝置106和輸出裝置108主要用于與用戶交互,電子設備100也可以不包括二者。
[0089]下面,將參考圖2描述根據(jù)本發(fā)明一個實施例的基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法 200。
[0090]神經(jīng)網(wǎng)絡(Neural Network,簡寫為NN)是一種模仿動物神經(jīng)網(wǎng)絡行為特征、進行分布式并行信息處理的算法數(shù)學模型。神經(jīng)網(wǎng)絡依靠模型的復雜程度,通過調(diào)整神經(jīng)網(wǎng)絡內(nèi)部大量節(jié)點之間相互連接的關系,從而達到處理信息的目的。
[0091]在本發(fā)明的實施例中,將神經(jīng)網(wǎng)絡模型用于視頻中的目標檢測和跟蹤。優(yōu)選地,該神經(jīng)網(wǎng)絡是深度神經(jīng)網(wǎng)絡。深度神經(jīng)網(wǎng)絡能夠很好地利用大數(shù)據(jù)的信息,并且高效地在并行平臺上得到很好的效果。
[0092]對視頻的目標跟蹤處理基本包括檢測和跟蹤兩個過程。檢測和跟蹤這兩個過程相輔相成。檢測的結果往往可以利用跟蹤的結果來優(yōu)化;反之,跟蹤的結果也可以利用到優(yōu)化的檢測的結果。因此,將檢測和跟蹤這兩個過程整合在一個框架中,共用一些視頻特征數(shù)據(jù),并利用結果之間的互相優(yōu)化,能夠有效提高目標跟蹤精度并且加快視頻處理速度。根據(jù)本發(fā)明的一個實施例,神經(jīng)網(wǎng)絡模型包括特征提取神經(jīng)網(wǎng)絡、第一神經(jīng)網(wǎng)絡和第二神經(jīng)網(wǎng)絡。特征提取神經(jīng)網(wǎng)絡主要用于提取視頻的特征數(shù)據(jù),第一神經(jīng)網(wǎng)絡主要用于接收特征提取神經(jīng)網(wǎng)絡提取的視頻的特征數(shù)據(jù)以進行視頻中的目標檢測,第二神經(jīng)網(wǎng)絡主要用于接收特征提取神經(jīng)網(wǎng)絡提取的視頻的特征數(shù)據(jù)和第一神經(jīng)網(wǎng)絡的目標檢測結果,以進行視頻中的目標跟蹤。
[0093]具體地,如圖2所示,目標跟蹤方法200包括步驟S220、步驟S240和步驟S260。
[0094]在步驟S220中,將待處理視頻輸入至特征提取神經(jīng)網(wǎng)絡,以提取所述待處理視頻的特征數(shù)據(jù)。
[0095]可以將待處理視頻的原始數(shù)據(jù)或經(jīng)壓縮的視頻數(shù)據(jù)輸入至特征提取神經(jīng)網(wǎng)絡。然后,利用特征提取神經(jīng)網(wǎng)絡獲得待處理視頻的特征數(shù)據(jù)。待處理視頻的該特征數(shù)據(jù)可以用于輸入到第一神經(jīng)網(wǎng)絡和第二神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡適于處理復雜的、無法簡單地用函數(shù)處理的計算。而視頻數(shù)據(jù)本身不僅數(shù)據(jù)量大,而且數(shù)據(jù)沒有簡單的規(guī)律性,利用特征提取神經(jīng)網(wǎng)絡可以更好地提取待處理視頻的特征數(shù)據(jù),以用其有效地代表待處理視頻本身。并且,將特征提取神經(jīng)網(wǎng)絡所提取到的待處理視頻的該特征數(shù)據(jù)輸入至第一神經(jīng)網(wǎng)絡和第二神經(jīng)網(wǎng)絡共用,可以減少重復計算,節(jié)約計算資源,提高運算速度。特征提取神經(jīng)網(wǎng)絡可以包括卷積神經(jīng)網(wǎng)絡。卷積神經(jīng)網(wǎng)絡適于準確提取視頻的特征數(shù)據(jù),從而保證目標跟蹤的準確性。
[0096]在步驟S240中,將步驟S220所提取的待處理視頻的特征數(shù)據(jù)輸入至第一神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的至少一個目標的邊界框(bounding box)。
[0097]目標是視頻中的跟蹤對象。示例性地,在一些應用場景中,跟蹤的目標是視頻中出現(xiàn)的行人、車輛等。目標的邊界框用于給出該目標在視頻幀中的位置信息。例如將目標框定在邊界框內(nèi)部??蛇x地,每個邊界框內(nèi)包括一個目標。邊界框可以是矩形的,其位置可以用矩形的對頂角的位置坐標來表示。因此,邊界框可用于目標檢測。
[0098]神經(jīng)網(wǎng)絡模型的第一神經(jīng)網(wǎng)絡主要用于針對視頻進行目標檢測。在目標檢測過程中,可將視頻的每一幀的特征數(shù)據(jù)逐一輸入至第一神經(jīng)網(wǎng)絡。第一神經(jīng)網(wǎng)絡可以包括卷積神經(jīng)網(wǎng)絡。優(yōu)選地,第一神經(jīng)網(wǎng)絡是用于大規(guī)模圖像識別的深度卷積神經(jīng)網(wǎng)絡。將待處理視頻的視頻幀的特征數(shù)據(jù)輸入至第一神經(jīng)網(wǎng)絡后,第一神經(jīng)網(wǎng)絡可以檢測視頻幀中的目標并輸出一系列與所檢測目標對應的邊界框。可以理解,視頻幀中可以包括一個或多個目標。
[0099]在步驟S260中,將步驟S220所提取的待處理視頻的特征數(shù)據(jù)和步驟S240所獲得的邊界框輸入至第二神經(jīng)網(wǎng)絡,從而獲得邊界框的標識符,以跟蹤待處理視頻中的至少一個目標。
[0100]神經(jīng)網(wǎng)絡模型的第二神經(jīng)網(wǎng)絡主要用于針對視頻進行目標跟蹤。對于視頻,可將特征提取神經(jīng)網(wǎng)絡中獲得的連續(xù)數(shù)幀(例如連續(xù)10幀)的視頻的特征數(shù)據(jù)和第一神經(jīng)網(wǎng)絡中獲得的邊界框輸入至第二神經(jīng)網(wǎng)絡,第二神經(jīng)網(wǎng)絡可以根據(jù)來自第一神經(jīng)網(wǎng)絡的邊界框的相似度(例如,距離相似度以及外觀相似度)計算并輸出視頻中各個邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標。
[0101 ]標識符用于指示或標識目標。換言之,目標的標識符用于標識該目標是哪個目標,即目標的身份信息。獲得了邊界框的標識符,即可獲得邊界框內(nèi)的目標是哪一個目標的信息。對于視頻的任意不同的視頻幀,如果其中的某些不同的邊界框相似度(例如,距離相似度以及外觀相似度)很大,則可以認為這些邊界框中的目標為同一目標,即標識符相同。標識了相同標識符的目標在不同視頻幀中的位置表明了視頻中該目標的行動軌跡。因此,通過第二神經(jīng)網(wǎng)絡得到的視頻中各個邊界框的標識符,可以實現(xiàn)對視頻中的至少一個目標的跟蹤。
[0102]在上述基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法和裝置中,特征提取神經(jīng)網(wǎng)絡所提取的視頻的特征數(shù)據(jù)不僅為第一網(wǎng)絡所用,還為第二神經(jīng)網(wǎng)絡所用,避免了計算開銷的浪費,提高了整個算法的計算效率,節(jié)省了計算時間。同時,目標檢測和目標跟蹤這兩個過程互相促進和影響,能夠顯著提高目標跟蹤的速度和準確性。
[0103]可選地,目標跟蹤方法200中所述的用于目標檢測的第一神經(jīng)網(wǎng)絡包括第一子神經(jīng)網(wǎng)絡和第二子神經(jīng)網(wǎng)絡。圖3示出了根據(jù)本發(fā)明一個實施例的目標檢測(如上步驟S240)的示意性流程圖。如圖3所示,目標檢測步驟S240可以包括步驟S342和S344。
[0104]在步驟S342中,將從特征提取神經(jīng)網(wǎng)絡中得到的待處理視頻的特征數(shù)據(jù)輸入至第一子神經(jīng)網(wǎng)絡,以獲得邊界框的粗略位置。第一子神經(jīng)網(wǎng)絡用于根據(jù)待處理視頻的特征數(shù)據(jù)進行實時目標粗檢測并獲得邊界框的粗略位置。邊界框的粗略位置標識了目標在視頻幀中的可能位置或大概位置。第一子神經(jīng)網(wǎng)絡可以是區(qū)域建議網(wǎng)絡(Reg1n ProposalNetwork,簡稱RPN)。區(qū)域建議網(wǎng)絡可以包括卷積神經(jīng)網(wǎng)絡,用于向第二子神經(jīng)網(wǎng)絡提供邊界框的粗略位置。
[0105]在步驟S344中,將待處理視頻的特征數(shù)據(jù)和第一子神經(jīng)網(wǎng)絡獲得的邊界框的粗略位置輸入至第二子神經(jīng)網(wǎng)絡,以獲得所述邊界框的準確位置和指示所述邊界框內(nèi)包括至少一個目標的概率值。
[Ο?Ο?] 第二子神經(jīng)網(wǎng)絡可以包括三層全連接(fully connected)層,其可以根據(jù)待處理視頻的特征數(shù)據(jù)和邊界框的粗略位置確定所述邊界框的準確位置并針對每個邊界框給出一個概率值。該概率值可以表示對應的邊界框內(nèi)部確實包括目標的概率。該概率值可以用于后續(xù)的目標跟蹤過程,在一個示例中,目標跟蹤過程可以僅利用概率值高于預定閾值的邊界框,由此,提供更準確的跟蹤結果。
[0107]通過步驟S342和步驟S344來給出邊界框的準確位置,第一子神經(jīng)網(wǎng)絡和第二子神經(jīng)網(wǎng)絡共用特征提取神經(jīng)網(wǎng)絡提取到的特征數(shù)據(jù),從而在一定計算速度下不僅能夠得到邊界框的準確位置,還能夠得到該邊界框的可信度。
[0108]可選地,目標跟蹤方法200中所述的用于目標跟蹤的第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡。圖4示出了根據(jù)本發(fā)明一個實施例的目標跟蹤(如上步驟S260)的示意性流程圖。如圖4所示,目標跟蹤步驟S260可以包括步驟S462、步驟S464和步驟S466。
[0109]在步驟S462中,將步驟220中由特征提取神經(jīng)網(wǎng)絡所提取的待處理視頻的特征數(shù)據(jù)和步驟240所獲得的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度。
[0110]邊界框是第一神經(jīng)網(wǎng)絡得到的目標檢測的結果。第三子神經(jīng)網(wǎng)絡基于待處理視頻的特征數(shù)據(jù)和目標檢測結果(以目標的邊界框表示所述檢測結果),獲得不同視頻幀中的邊界框之間的外觀相似度。邊界框的外觀相似度主要表征了邊界框中的目標的外觀差異性,例如大小差異、紋理差異、顏色差異等。其中,邊界框中目標的大小可以根據(jù)邊界框在視頻幀中所占有的像素個數(shù)來確定。
[0111]在步驟S464中,根據(jù)上述外觀相似度和待處理視頻的不同幀中的邊界框之間的距離計算待處理視頻中的不同幀中的邊界框之間的距離相似度。
[0112]距離相似度可以根據(jù)邊界框之間的外觀相似度以及邊界框在視頻幀的空間中的距離等因素來計算。視頻幀的空間是一個二維空間,可以以視頻幀中的任意一點為坐標原點將邊界框的中心作為該邊界框在該原點下的坐標位置。在一個示例中,不同幀中的邊界框之間的距離可以用不同幀中的邊界框的坐標位置之間的歐式距離來定義。一般而言,不同的邊界框在不同的視頻幀之間的距離越小、外觀相似度越大,則所述邊界框在不同幀之間的距離相似度越大那么其屬于同一目標的概率越大,即,該不同的邊界框的標識符相同的概率越大。
[0113]在步驟S466中,將外觀相似度和距離相似度輸入至第四子神經(jīng)網(wǎng)絡,從而確定邊界框的標識符,以跟蹤待處理視頻中的所述至少一個目標。
[0114]在一個示例中,第四子神經(jīng)網(wǎng)絡是網(wǎng)絡流神經(jīng)網(wǎng)絡,其基于網(wǎng)絡流的方法來實現(xiàn)其功能。下面詳細描述該方法。網(wǎng)絡流神經(jīng)網(wǎng)絡適于進行非線性的目標跟蹤。其不僅保證了跟蹤精度,還保證了跟蹤速度。本領域普通技術人員可以理解,在此,網(wǎng)絡流作為一種示例性方法進行描述,其不構成對本發(fā)明的限制。
[0115]在網(wǎng)絡流中,每個視頻幀中的邊界框即是網(wǎng)絡流的一個頂點。網(wǎng)絡流的邊只在不同視頻幀之間建立。邊并非一定要在相鄰的視頻幀之間建立,也可以在不相鄰的視頻幀之間建立。
[0116]如圖5中大的矩形框代表視頻幀,如圖5所示,從左至右示出了3個連續(xù)的視頻幀(應該理解的是,這里還可以使用不連續(xù)的視頻幀;此外,3個視頻幀也只是示例性的)。每個視頻幀內(nèi)包括2或3個邊界框,如圖5中大的矩形框內(nèi)的小矩形框所示。換言之,每個視頻幀內(nèi)檢測出了 2或3個目標。特別注意,在圖5中間的大矩形框表示的視頻幀中,虛線所示的小矩形框為應檢測出但實際未能檢測出的邊界框??梢岳斫?,該邊界框內(nèi)的目標在該視頻幀中被其前方的目標所遮擋,所以在實際計算中第一神經(jīng)網(wǎng)絡未能輸出該邊界框。視頻框下面是根據(jù)視頻幀建立的網(wǎng)絡流模型。每個頂點對應一個矩形框,頂點之間的連線是網(wǎng)絡流的邊。即,不同視頻幀的邊界框會邊相連。如圖5中所示,基于上述情況,第二個視頻幀中只有兩個頂點。
[0117]可選地,如果兩個視頻幀的時間間隔過大,則不在二者之間建立邊。優(yōu)選地,從時間上來講,可以跨越5至9幀建立邊。以建立邊的、間隔最大的幀之間的幀數(shù)是6的情況為例來說明,第I幀可以和第2幀、第3幀、第4幀、第5幀、第6幀、第7幀和第8幀來建立邊。第I幀和第8幀是間隔最大的幀,二者之間的幀間隔數(shù)是6。對建立邊的視頻幀的時間距離進行適當限定,可以有效避免網(wǎng)絡流的圖模型過大,從而減少計算量。
[0118]在一個示例中,網(wǎng)絡流中邊的邊權可定義如下:
[0119]ff_i j = d(B_i,B_j)+αΑ(B_i,B_j)
[0120]其中表示不同幀中的兩個邊界框。d()表示邊界框的距離相似度,A()表示邊界框的外觀相似度。(I表示用于調(diào)節(jié)距離相似度和外觀相似度之間的關系的參數(shù)值。
[0121]可以理解,邊權表示了兩個不同幀中的邊界框之間的總的相似度。根據(jù)該邊權可以給每個邊界框一個特定的標識符。邊權越大,則相似度越高,兩個邊界框標識為同一個標識符的概率越大。根據(jù)計算結果,將具有最大邊權的邊連接的邊界框標識為同一個標識符,即具有相同標識符的邊界框指示的是同一個目標,從而實現(xiàn)了對目標的跟蹤。
[0122]綜合外觀相似度和距離相似度兩個參數(shù)來確定邊界框的標識符,進而進行目標跟蹤,保證了目標跟蹤的準確性。
[0123]圖6示出了根據(jù)本發(fā)明另一實施例的基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法600。如圖6所示,與目標跟蹤方法200相比,目標跟蹤方法600增加了使用訓練視頻訓練神經(jīng)網(wǎng)絡模型的步驟S610。目標跟蹤方法600中的步驟S620、步驟S640、和步驟S660分別與目標跟蹤方法200中的步驟S220、步驟S240、和步驟S260相對應,為了簡潔,在此不再贅述。
[0124]神經(jīng)網(wǎng)絡模型的訓練要基于訓練視頻進行神經(jīng)網(wǎng)絡的參數(shù)的調(diào)整。在訓練視頻中,標注了目標的邊界框和標識符??梢岳斫猓吔缈驑俗R了訓練目標的位置。該標識符標識了訓練目標是哪一個。該標注過程可以是人工標注過程,還可以是機器標注過程??梢哉J為所標注的邊界框和標識符都是客觀且準確的。
[0125]通過該步驟S610,期望獲得一個神經(jīng)網(wǎng)絡模型,以利用該神經(jīng)網(wǎng)絡模型對視頻進行準確的目標跟蹤。通過該神經(jīng)網(wǎng)絡模型獲得的邊界框?qū)谝曨l幀中的真實目標。換言之,通過該神經(jīng)網(wǎng)絡模型獲得的邊界框的標識符與實際目標是一致的。由此,該神經(jīng)網(wǎng)絡模型可以保證在其使用過程中可以獲得理想的目標跟蹤結果。
[0126]圖7示出了根據(jù)本發(fā)明一個實施例的使用訓練視頻訓練神經(jīng)網(wǎng)絡模型(步驟S610)的示意性流程圖。
[0127]在步驟S712中,將訓練視頻輸入至神經(jīng)網(wǎng)絡模型的特征提取神經(jīng)網(wǎng)絡,以提取訓練視頻的特征數(shù)據(jù)。
[0128]在步驟S714中,將訓練視頻的特征數(shù)據(jù)輸入至神經(jīng)網(wǎng)絡模型的第一神經(jīng)網(wǎng)絡以獲得訓練目標的邊界框,并且根據(jù)所標注的邊界框和第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框計算第一神經(jīng)網(wǎng)絡的檢測損失函數(shù)值。
[0129]可選地,第一神經(jīng)網(wǎng)絡所獲得的訓練目標的邊界框與所標注的邊界框差異越大,那么檢測損失函數(shù)值越大,這表明越需要調(diào)整特征提取神經(jīng)網(wǎng)絡和第一神經(jīng)網(wǎng)絡的當前參數(shù)。檢測損失函數(shù)值可以包括檢測交叉熵和檢測回歸損失函數(shù)值。
[0130]在步驟S716中,將訓練視頻的特征數(shù)據(jù)和步驟S715中第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至神經(jīng)網(wǎng)絡模型的第二神經(jīng)網(wǎng)絡以獲得訓練目標的邊界框的標識符,并根據(jù)訓練目標的所標注的標識符和第二神經(jīng)網(wǎng)絡所獲得的所述訓練目標的邊界框的標識符計算跟蹤損失函數(shù)值。在一個實施例中,跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值。
[0131 ]期望所獲得的標識符對應視頻幀中的實際的相應目標,以對視頻進行準確的目標跟蹤。如前所述,認為訓練視頻中所標注的標識符客觀準確地標識了視頻幀中訓練目標的位置??蛇x地,所獲得的標識符與所標注的標識符差異越大,那么跟蹤損失函數(shù)值越大,這表明越需要調(diào)整特征提取神經(jīng)網(wǎng)絡和第二神經(jīng)網(wǎng)絡的當前參數(shù),同時,為了在目標跟蹤中實現(xiàn)跟蹤結果對檢測結果的優(yōu)化,還可以利用跟蹤損失函數(shù)值同時調(diào)整特征提取神經(jīng)網(wǎng)絡的參數(shù)、第一神經(jīng)網(wǎng)絡的參數(shù)和第二神經(jīng)網(wǎng)絡的當前參數(shù)。
[0132]在步驟S718中,在檢測損失函數(shù)值和跟蹤損失函數(shù)值不滿足預設條件的情況和/或步驟S610的總迭代次數(shù)小于第一閾值的情況下,同時調(diào)整特征提取神經(jīng)網(wǎng)絡的參數(shù)以及第一神經(jīng)網(wǎng)絡的參數(shù)和/或第二神經(jīng)網(wǎng)絡的參數(shù)并且轉(zhuǎn)步驟S712;否則,停止對神經(jīng)網(wǎng)絡模型的訓練并獲得訓練好的神經(jīng)網(wǎng)絡模型。該訓練好的神經(jīng)網(wǎng)絡模型即可用于目標跟蹤,即用于上述目標跟蹤方法600。換言之,將檢測損失函數(shù)值和跟蹤損失函數(shù)值二者均滿足預設條件以及迭代次數(shù)大于或等于第一閾值這兩個條件中的一個或二者作為步驟S610執(zhí)行結束的條件。
[0133]如前所述,檢測損失函數(shù)值可以包括檢測交叉熵和檢測回歸損失函數(shù)值。示例性地,步驟S718可以包括:根據(jù)檢測交叉熵和檢測回歸損失函數(shù)值的加權和,同時調(diào)整特征提取神經(jīng)網(wǎng)絡的參數(shù)和第一神經(jīng)網(wǎng)絡的參數(shù)。可以首先計算檢測交叉熵和檢測回歸損失函數(shù)值的加權和。然后判斷檢測交叉熵和檢測回歸損失函數(shù)值的加權和是否滿足預設條件和/或迭代次數(shù)是否滿足預設條件。例如,可以通過判斷檢測交叉熵和檢測回歸損失函數(shù)值的加權和是否小于第二閾值來確定其是否滿足預設條件。如果不滿足,那么同時調(diào)整特征提取神經(jīng)網(wǎng)絡的參數(shù)和第一神經(jīng)網(wǎng)絡的參數(shù),以使檢測交叉熵和檢測回歸損失函數(shù)值的加權和更小。
[0134]此外,跟蹤損失函數(shù)值可以包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值。示例性地,步驟S718可以包括:根據(jù)跟蹤交叉熵和跟蹤回歸損失函數(shù)值的加權和,同時調(diào)整特征提取神經(jīng)網(wǎng)絡的參數(shù)、第一神經(jīng)網(wǎng)絡的參數(shù)和第二神經(jīng)網(wǎng)絡的參數(shù)??梢允紫扔嬎愀櫧徊骒睾透櫥貧w損失函數(shù)值的加權和。然后判斷跟蹤交叉熵和跟蹤回歸損失函數(shù)值的加權和是否分別滿足預設條件和/或迭代次數(shù)是否滿足預設條件。例如,可以通過判斷跟蹤交叉熵和跟蹤回歸損失函數(shù)值的加權和是否小于第三閾值來確定其是否滿足預設條件。如果不滿足,那么同時調(diào)整特征提取神經(jīng)網(wǎng)絡的參數(shù)、第一神經(jīng)網(wǎng)絡的參數(shù)和第二神經(jīng)網(wǎng)絡的參數(shù),以使跟蹤交叉熵和跟蹤回歸損失函數(shù)值的加權和更小。在一個實施例中,使用跟蹤損失函數(shù)值來同時調(diào)整提取神經(jīng)網(wǎng)絡的參數(shù)、第一神經(jīng)網(wǎng)絡的參數(shù)和第二神經(jīng)網(wǎng)絡的參數(shù),可以實現(xiàn)用跟蹤結果對檢測結果的優(yōu)化。例如,對于圖5所示的中間幀中的目標被遮擋的情況,利用跟蹤結果,可以實現(xiàn)對目標被遮擋的情況的檢測的優(yōu)化,即可以利用被遮擋目標的跟蹤結果,獲得該目標被遮擋前后的兩幀,根據(jù)該目標在被遮擋前后兩幀中的位置LI和L2,可以對這兩個位置取距離平均值得到平均位置信息L,從而將該平均位置信息L作為該幀在被遮擋的幀中的檢測位置,以實現(xiàn)對檢測結果的優(yōu)化。
[0135]如上所述,迭代次數(shù)可以作為步驟S610執(zhí)行結束的一個依據(jù)。特別是經(jīng)過數(shù)次迭代,檢測損失函數(shù)值和跟蹤損失函數(shù)值仍無法滿足期望要求時,迭代次數(shù)作為步驟S610結束的依據(jù)可以避免大量無謂計算,提高計算效率和速度。
[0136]對于預設條件沒有完全滿足的情況,同時調(diào)整特征提取神經(jīng)網(wǎng)絡的參數(shù)、第一神經(jīng)網(wǎng)絡的參數(shù)和/或第二神經(jīng)網(wǎng)絡的參數(shù)。換言之,將神經(jīng)網(wǎng)絡模型作為一個整體,來調(diào)整其中的參數(shù)。然后,通過再次執(zhí)行步驟S712、步驟S714和步驟S716,基于具有更新參數(shù)的特征提取神經(jīng)網(wǎng)絡、第一神經(jīng)網(wǎng)絡和第二神經(jīng)網(wǎng)絡,重新計算新的檢測損失函數(shù)值和跟蹤損失函數(shù)值,然后再次判斷預設條件是否已經(jīng)滿足,在預設條件不滿足的情況下,繼續(xù)調(diào)整提取神經(jīng)網(wǎng)絡的參數(shù)、第一神經(jīng)網(wǎng)絡的參數(shù)和/或第二神經(jīng)網(wǎng)絡的參數(shù);在預設條件獲得滿足的情況下,停止對所述神經(jīng)網(wǎng)絡模型的訓練并獲得訓練好的所述神經(jīng)網(wǎng)絡模型以用于跟蹤目標。
[0137]總之,在步驟S610中,重復執(zhí)行步驟S712、步驟S714、步驟S716和S718,直至預設條件均已經(jīng)滿足,則步驟S610執(zhí)行結束,此時所獲得的神經(jīng)網(wǎng)絡模型即可用于針對視頻的目標跟蹤。
[0138]在上述步驟S610中,同時對特征提取神經(jīng)網(wǎng)絡以及用于目標檢測的第一神經(jīng)網(wǎng)絡和/或用于目標跟蹤的第二神經(jīng)網(wǎng)絡進行訓練,它們互相促進和影響。由此,能夠獲得更理想的神經(jīng)網(wǎng)絡模型,來針對視頻更好地完成目標跟蹤,顯著提高了目標跟蹤的速度和準確性。
[0139]如上所述,第二神經(jīng)網(wǎng)絡可以包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡。圖8示出了根據(jù)本發(fā)明一個實施例的將訓練視頻的特征數(shù)據(jù)和第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至第二神經(jīng)網(wǎng)絡并根據(jù)訓練目標的所標注的標識符和第二神經(jīng)網(wǎng)絡獲得的訓練目標的邊界框的標識符計算跟蹤損失函數(shù)值(如上步驟S716)的示意性流程圖。如圖8所示,步驟S716可以包括步驟S716a、S716b、S716c和S716d。
[0140]在步驟S716a中,將訓練視頻的特征數(shù)據(jù)和步驟S714中第一神經(jīng)網(wǎng)絡獲得的訓練目標的邊界框輸入至第三子神經(jīng)網(wǎng)絡,以獲得訓練視頻的不同幀中的邊界框之間的外觀相似度。
[0141]可以理解,第三子神經(jīng)網(wǎng)絡的參數(shù)可以是固定的,也可以是可調(diào)的。如果屬于后者,那么可以在神經(jīng)網(wǎng)絡模型訓練的過程中,與特征提取神經(jīng)網(wǎng)絡和第一神經(jīng)網(wǎng)絡同時調(diào)整。
[0142]在步驟S716b中,根據(jù)所述外觀相似度和所述訓練視頻中的不同幀中的邊界框之間的距離,計算訓練視頻的不同幀中的邊界框之間的距離相似度。
[0143]在步驟S716c中,將步驟S716a所計算的外觀相似度和步驟S716b所計算的距離相似度輸入至第四子神經(jīng)網(wǎng)絡,以獲得所述訓練目標的邊界框的標識符。
[0144]在步驟S716d中,根據(jù)所標注的標識符和步驟S716c所獲得的所述訓練目標的邊界框的標識符,計算第二神經(jīng)網(wǎng)絡的跟蹤損失函數(shù)值。在一個示例中,跟蹤損失函數(shù)值與所標注的標識符和所獲得的所述訓練目標的邊界框的標識符之間的差異大小成正比。
[0145]上述利用所獲得的訓練目標的標識符與所標注的訓練目標的標識符之間的差異的方法計算跟蹤損失函數(shù)值的方法,保證了跟蹤損失函數(shù)值得計算精度。根據(jù)該跟蹤損失函數(shù)值所訓練的神經(jīng)網(wǎng)絡模型能夠更準確地進行目標跟蹤。
[0146]在一個示例中,由任意監(jiān)控攝像頭采集視頻,并根據(jù)本發(fā)明的目標跟蹤方法來分析處理該視頻,以對視頻中出現(xiàn)的目標(例如,行人、車輛等)進行檢測和跟蹤??蛇x地,監(jiān)控攝像頭針對目標區(qū)域以一定俯視角來采集視頻。示例性地,根據(jù)本發(fā)明實施例的目標跟蹤方法可以在具有存儲器和處理器的設備、裝置或者系統(tǒng)中實現(xiàn),例如服務器。監(jiān)控攝像頭可以與實現(xiàn)本發(fā)明的目標跟蹤方法的設備、裝置或者系統(tǒng)直接連接或間接連接,例如經(jīng)由網(wǎng)絡連接。該網(wǎng)絡可以是有線網(wǎng)絡或無線網(wǎng)絡??蛇x地,該監(jiān)控攝像頭還可以與實現(xiàn)本發(fā)明的目標跟蹤方法的設備、裝置或者系統(tǒng)集成在一起。例如,本發(fā)明的目標跟蹤方法由一個計算處理單元來實現(xiàn)??梢詫⒃撚嬎闾幚韱卧傻奖O(jiān)控攝像頭內(nèi),由此,監(jiān)控攝像頭所采集的視頻可以直接傳輸?shù)接嬎闾幚韱卧M行后續(xù)檢測和跟蹤分析。
[0147]上述目標跟蹤方法,顯著提高了目標檢測和跟蹤的準確性。此外,該目標跟蹤方法執(zhí)行速度快,進而保證了目標檢測和跟蹤的實時性。
[0148]圖9示出了根據(jù)本發(fā)明另一實施例的基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法900。與圖2所示的目標跟蹤方法200相比,該目標跟蹤方法900增加了步驟S980。
[0149]在步驟S980中,根據(jù)步驟S920所提取的待處理視頻的特征數(shù)據(jù)、步驟S940所獲得的邊界框和步驟S960所獲得的標識符,分析所跟蹤的至少一個目標的屬性和/或動作。示例性地,所述屬性可以包括諸如年齡、性別、身高、體重和穿著等屬性信息。所述動作可以包括諸如摔倒、招手和走路等動作信息。
[0150]示例性地,可以首先將步驟S920所提取的待處理視頻的每一幀的特征數(shù)據(jù)、步驟S940所獲得的邊界框和步驟S960所獲得的標識符輸入至第一卷積神經(jīng)網(wǎng)絡,然后經(jīng)由例如兩個全連接層,以獲取幀屬性分析結果??蛇x地,對于多個視頻幀,可以將所有幀的幀屬性分析結果進行池化(pool),輸出最終屬性分析結果。
[0151]動作分析可以采用與屬性分析類似的方式,先后利用卷積神經(jīng)網(wǎng)絡,經(jīng)由全連接層,從而獲得動作的開始幀和結束幀,進而獲得動作的類別。
[0152]在另外一個實施例中,還可以根據(jù)步驟S920所提取的待處理視頻的特征數(shù)據(jù)、步驟S940所獲得的邊界框和步驟S960所獲得的標識符以及步驟S980獲得的屬性分析結果識別所跟蹤的目標。例如,可以將所檢測的目標與數(shù)據(jù)庫中存儲的對象進行比較,從而識別目標的具體身份。例如,數(shù)據(jù)庫中可以預存犯罪分子的相關圖像數(shù)據(jù)以及屬性信息,可以將所具有相同屬性信息的檢測到的行人與數(shù)據(jù)庫中的相關圖像數(shù)據(jù)和其它數(shù)據(jù)進行比較,以確定行人是否為在逃的犯罪分子。
[0153]這里,基于檢測和跟蹤結果給出了一些相關的智能分析應用,提高了用戶體驗。在分析過程中,通過直接利用特征提取神經(jīng)網(wǎng)絡獲得的待處理視頻的特征數(shù)據(jù),從而減少了計算量,提高了計算速度。
[0154]圖10示出了根據(jù)本發(fā)明一個實施例的基于神經(jīng)網(wǎng)絡模型的目標跟蹤裝置1000的示意性框圖。該神經(jīng)網(wǎng)絡模型包括特征提取神經(jīng)網(wǎng)絡、第一神經(jīng)網(wǎng)絡和第二神經(jīng)網(wǎng)絡。如圖10所示,目標跟蹤裝置1000包括第一特征提取模塊1020、檢測模塊1040和跟蹤模塊1060。
[0155]第一特征提取模塊1020用于將待處理視頻輸入至所述特征提取神經(jīng)網(wǎng)絡,以提取所述待處理視頻的特征數(shù)據(jù)。特征提取神經(jīng)網(wǎng)絡可以包括卷積神經(jīng)網(wǎng)絡。第一特征提取模塊1020可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個實施例的目標跟蹤方法中的步驟S220。
[0156]檢測模塊1040用于將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的至少一個目標的邊界框。第一神經(jīng)網(wǎng)絡可以包括卷積神經(jīng)網(wǎng)絡。檢測模塊1040可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個實施例的目標跟蹤方法中的步驟S240。
[0157]跟蹤模塊1060用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第二神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標,其中所述標識符用于指示所述至少一個目標。跟蹤模塊1060可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個實施例的目標跟蹤方法中的步驟S260。
[0158]在上述基于神經(jīng)網(wǎng)絡模型的目標跟蹤裝置1000中,目標檢測和目標跟蹤均利用視頻的相同特征數(shù)據(jù)并且這兩個過程互相促進和優(yōu)化,能夠顯著提高目標跟蹤的速度和準確性。
[0159]圖11示出了根據(jù)本發(fā)明一個實施例的檢測模塊1040的示意性框圖。如圖11所示,所述檢測模塊1040可以包括邊界框初定單元1042和邊界框確定單元1044。在此實施例中,第一神經(jīng)網(wǎng)絡包括第一子神經(jīng)網(wǎng)絡和第二子神經(jīng)網(wǎng)絡。
[0160]邊界框初定單元1042用于將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡,以獲得所述邊界框的粗略位置。所述邊界框初定單元1042可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實施例的目標跟蹤方法的步驟S342。
[0161]邊界框確定單元1044用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡,以獲得所述邊界框的準確位置和指示所述邊界框內(nèi)包括所述至少一個目標的概率值。所述邊界框確定單元1044可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實施例的目標跟蹤方法的步驟S344。
[0162]圖12示出了根據(jù)本發(fā)明一個實施例的跟蹤模塊1060的示意性框圖。如圖12所示,所述跟蹤模塊1060可以包括外觀相似度計算單元1262、距離相似度計算單元1264和標識符確定單元1266。在一個實施例中,第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡。
[0163]外觀相似度計算單元1262用于將由特征提取神經(jīng)網(wǎng)絡提取的所述待處理視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度。邊界框的外觀相似度主要表征了邊界框中的目標的外觀差異性,例如大小差異、紋理差異、顏色差異等。外觀相似度計算單元1262可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實施例的目標跟蹤方法的步驟S462。
[0164]距離相似度計算單元1264用于根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度。所述距離相似度計算單元1264可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實施例的目標跟蹤方法的步驟S464。
[0165]標識符確定單元1266用于將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標。在一個示例中,第四子神經(jīng)網(wǎng)絡是網(wǎng)絡流神經(jīng)網(wǎng)絡,其基于網(wǎng)絡流的方法來實現(xiàn)其功能。所述標識符確定單元1266可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實施例的目標跟蹤方法的步驟S466。在一個示例中,網(wǎng)絡流中連接不同視頻幀中的不同邊界框的邊的邊權可定義如下:
[0166]W」j = d (B」,B_ j) +αΑ (B」,B_ j)
[0167]其中表示不同幀中的兩個邊界框。d()表示邊界框的距離相似度,A()表示邊界框的外觀相似度。(I表示用于調(diào)節(jié)距離相似度和外觀相似度之間的關系的參數(shù)值。
[0168]可以理解,邊權表示了不同幀中的兩個邊界框之間的總的相似度。根據(jù)該邊權可以給每個邊界框一個特定的標識符。邊權越大,則相似度越高,兩個邊界框標識為同一個標識符的概率越大。根據(jù)計算結果,將具有最大邊權的邊連接的邊界框標識為同一個標識符,即具有相同標識符的邊界框指示的是同一個目標,從而實現(xiàn)了對目標的跟蹤。
[0169]圖13示出了根據(jù)本發(fā)明另一個實施例的基于神經(jīng)網(wǎng)絡模型的目標跟蹤裝置1300的示意性框圖。與目標跟蹤裝置1000相比,增加了訓練模塊1310。
[0170]訓練模塊1310用于使用訓練視頻訓練所述神經(jīng)網(wǎng)絡模型。在訓練視頻中,針對訓練目標標注了邊界框和標識符,所述標識符用于指示所述訓練目標。所述訓練模塊1310可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實施例的目標跟蹤方法的步驟S610。
[0171]圖14示出了根據(jù)本發(fā)明一個實施例的訓練模塊1310的示意性框圖。如圖14所示,訓練模塊1310包括訓練特征提取模塊1412、檢測訓練模塊1414、跟蹤訓練模塊1416和調(diào)整模塊1418。
[0172]訓練特征提取模塊1412用于將訓練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡,以提取所述訓練視頻的特征數(shù)據(jù)。訓練特征提取模塊1412可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個實施例的目標跟蹤方法中的步驟S712。
[0173]檢測訓練模塊1414用于將所述訓練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框,并且根據(jù)所標注的邊界框和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框計算第一神經(jīng)網(wǎng)絡的檢測損失函數(shù)值。所述檢測損失函數(shù)值可以包括檢測交叉熵和檢測回歸損失函數(shù)值。檢測訓練模塊1412可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個實施例的目標跟蹤方法中的步驟S714。
[0174]跟蹤訓練模塊1416用于將所述訓練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至所述第二神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框的標識符,并根據(jù)所述訓練目標的所標注的標識符和所述第二神經(jīng)網(wǎng)絡獲得的訓練目標的邊界框的標識符計算跟蹤損失函數(shù)值。在一個實施例中,跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值。跟蹤訓練模塊1416可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個實施例的目標跟蹤方法中的步驟S716。
[0175]調(diào)整模塊1418用于在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)以及所述第一神經(jīng)網(wǎng)絡的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡的參數(shù);否則,停止對神經(jīng)網(wǎng)絡模型的訓練并獲得訓練好的所述神經(jīng)網(wǎng)絡模型以用于跟蹤目標。調(diào)整模塊1418可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個實施例的目標跟蹤方法中的步驟S718。
[0176]示例性地,調(diào)整模塊1418可以用于根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)和所述第一神經(jīng)網(wǎng)絡的參數(shù)。
[0177]示例性地,調(diào)整模塊1418還可以用于根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)、所述第一神經(jīng)網(wǎng)絡的參數(shù)和所述第二神經(jīng)網(wǎng)絡的參數(shù)。
[0178]圖15示出了根據(jù)本發(fā)明一個實施例的跟蹤訓練模塊1416的示意性框圖。如圖15所示,跟蹤訓練模塊1416進一步包括外觀相似度訓練計算單元、距離相似度訓練計算單元、標識符訓練獲得單元和跟蹤損失函數(shù)值計算單元。如前所述,第二神經(jīng)網(wǎng)絡可以包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡。
[0179]外觀相似度訓練計算單元用于將所述訓練視頻的特征數(shù)據(jù)和第一神經(jīng)網(wǎng)絡獲得的訓練目標的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述訓練視頻的不同幀中的邊界框之間的外觀相似度。外觀相似度訓練計算單元可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個實施例的目標跟蹤方法中的步驟S716a。
[0180]距離相似度訓練計算單元用于根據(jù)所述外觀相似度和所述訓練視頻中的不同幀中的邊界框之間的距離計算所述訓練視頻的不同幀中的邊界框之間的距離相似度。距離相似度訓練計算單元可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個實施例的目標跟蹤方法中的步驟S716b。
[0181]標識符訓練獲得單元用于將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,以獲得所述訓練目標的邊界框的標識符。標識符訓練確定單元可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個實施例的目標跟蹤方法中的步驟S716c。
[0182]跟蹤損失函數(shù)值計算單元用于根據(jù)所標注的標識符和標識符訓練獲得單元所獲得的所述訓練目標的邊界框的標識符,計算所述跟蹤損失函數(shù)值。跟蹤損失函數(shù)值計算單元可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明一個實施例的目標跟蹤方法中的步驟S716d。
[0183]可選地,上述目標跟蹤裝置1000還可以包括分析模塊(未示出),用于根據(jù)所述特征提取神經(jīng)網(wǎng)絡提取的待處理視頻的特征數(shù)據(jù)、所述第一神經(jīng)網(wǎng)絡獲得的邊界框和所述第二神經(jīng)網(wǎng)絡獲得的所述邊界框的標識符,分析所跟蹤的目標的屬性和/或動作??蛇x地,所述分析模塊用于將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標識符輸入至第一卷積神經(jīng)網(wǎng)絡,經(jīng)由全連接層,輸出所述至少一個目標的屬性和/或動作。所述分析模塊可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn),并且可以執(zhí)行根據(jù)本發(fā)明實施例的目標跟蹤方法的步驟S980。
[0184]本領域普通技術人員通過閱讀上文關于基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法的詳細描述,能夠理解上述基于神經(jīng)網(wǎng)絡模型的目標跟蹤裝置的結構、實現(xiàn)以及優(yōu)點,因此這里不再贅述。
[0185]本領域普通技術人員可以意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。
[0186]圖16示出了根據(jù)本發(fā)明實施例的目標跟蹤系統(tǒng)1600的示意性框圖。該目標跟蹤系統(tǒng)1600可以用于執(zhí)行基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法,所述神經(jīng)網(wǎng)絡模型包括特征提取神經(jīng)網(wǎng)絡、第一神經(jīng)網(wǎng)絡和第二神經(jīng)網(wǎng)絡。目標跟蹤系統(tǒng)1600包括輸入裝置1610、存儲裝置1620、處理器1630以及輸出裝置1640。
[0187]所述輸入裝置1610用于接收用戶所輸入的操作指令以及采集數(shù)據(jù)。輸入裝置1610可以包括鍵盤、鼠標、麥克風、觸摸屏和攝像頭等中的一個或多個。
[0188]所述存儲裝置1620存儲用于實現(xiàn)根據(jù)本發(fā)明實施例的目標跟蹤方法的相應步驟的程序代碼。
[0189]所述處理器1630用于運行所述存儲裝置1620中存儲的程序代碼,以執(zhí)行根據(jù)本發(fā)明實施例的目標跟蹤方法的相應步驟,并且用于實現(xiàn)根據(jù)本發(fā)明實施例的目標跟蹤裝置中的第一特征提取模塊1020、檢測模塊1040和跟蹤模塊1060。
[0190]在一個實施例中,在所述程序代碼被所述處理器1630運行時使所述目標跟蹤系統(tǒng)1600執(zhí)行以下步驟:
[0191]S220,將待處理視頻輸入至特征提取神經(jīng)網(wǎng)絡,以提取所述待處理視頻的特征數(shù)據(jù)。
[0192]S240,將步驟S220所提取的待處理視頻的特征數(shù)據(jù)輸入至第一神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的至少一個目標的邊界框。
[0193]S260,將步驟S220所提取的待處理視頻的特征數(shù)據(jù)和步驟S240所獲得的邊界框輸入至第二神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤待處理視頻中的所述至少一個目標,其中所述標識符用于指示所述至少一個目標。
[0194]示例性地,所述第一神經(jīng)網(wǎng)絡包括第一子神經(jīng)網(wǎng)絡和第二子神經(jīng)網(wǎng)絡。在所述程序代碼被所述處理器1630運行時使所述目標跟蹤系統(tǒng)1600執(zhí)行步驟S240包括:
[0195]S342,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡,以獲得所述邊界框的粗略位置;以及
[0196]S344,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡,以獲得所述邊界框的準確位置和指示所述邊界框內(nèi)包括所述至少一個目標的概率值。
[0197]示例性地,所述第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡。在所述程序代碼被所述處理器1630運行時使所述目標跟蹤系統(tǒng)1600執(zhí)行的步驟S260包括:
[0198]S462,將所述特征數(shù)據(jù)和所述邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度;
[0199]S464,根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度;以及
[0200]S466,將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標。
[0201]示例性地,所述第一神經(jīng)網(wǎng)絡和/或所述特征提取神經(jīng)網(wǎng)絡包括卷積神經(jīng)網(wǎng)絡。
[0202]示例性地,在所述程序代碼被所述處理器1630運行時還使所述目標跟蹤系統(tǒng)1600執(zhí)行以下步驟:
[0203]S610,使用訓練視頻訓練所述神經(jīng)網(wǎng)絡模型,其中,在所述訓練視頻中,針對訓練目標標注了邊界框和標識符,所述標識符用于指示所述訓練目標;
[0204]其中,S610,使用訓練視頻訓練所述神經(jīng)網(wǎng)絡模型包括:
[0205]S712,將所述訓練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡,以提取所述訓練視頻的特征數(shù)據(jù);
[0206]S714,將所述訓練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框,并且根據(jù)所標注的邊界框和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框計算檢測損失函數(shù)值;
[0207]S716,將所述訓練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至所述第二神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框的標識符,并根據(jù)所述訓練目標的所標注的標識符和所述第二神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框的標識符計算跟蹤損失函數(shù)值;
[0208]S718,在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)以及所述第一神經(jīng)網(wǎng)絡的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡的參數(shù)并且轉(zhuǎn)所述步驟S712,否則,停止對所述神經(jīng)網(wǎng)絡模型的訓練并獲得訓練好的所述神經(jīng)網(wǎng)絡模型以用于跟蹤目標。
[0209]示例性地,所述第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡。在所述程序代碼被所述處理器1630運行時使所述目標跟蹤系統(tǒng)1600執(zhí)行步驟S716包括:
[0210]將所述訓練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述訓練視頻的不同幀中的邊界框之間的外觀相似度;
[0211]根據(jù)所述外觀相似度和所述訓練視頻中的不同幀中的邊界框之間的距離計算所述訓練視頻的不同幀中的邊界框之間的距離相似度;
[0212]將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,以獲得所述訓練目標的邊界框的標識符;以及
[0213]根據(jù)所標注的標識符和所獲得的所述訓練目標的邊界框的標識符,計算所述跟蹤損失函數(shù)值。
[0214]示例性地,所述檢測損失函數(shù)值包括檢測交叉熵和檢測回歸損失函數(shù)值。在所述程序代碼被所述處理器1630運行時使所述目標跟蹤系統(tǒng)1600執(zhí)行步驟S718包括:
[0215]根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)和所述第一神經(jīng)網(wǎng)絡的參數(shù)。
[0216]示例性地,所述跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值。在所述程序代碼被所述處理器1630運行時使所述目標跟蹤系統(tǒng)1600執(zhí)行步驟S718包括:
[0217]根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)、所述第一神經(jīng)網(wǎng)絡的參數(shù)和所述第二神經(jīng)網(wǎng)絡的參數(shù)。
[0218]示例性地,在所述程序代碼被所述處理器1630運行時還使所述目標跟蹤系統(tǒng)1600執(zhí)行以下步驟:
[0219]S980,根據(jù)所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標識符,分析所述至少一個目標的屬性和/或動作。
[0220]示例性地,在所述程序代碼被所述處理器1630運行時使所述目標跟蹤系統(tǒng)1600執(zhí)行步驟S980包括:
[0221]將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標識符輸入至第一卷積神經(jīng)網(wǎng)絡,經(jīng)由全連接層,輸出所述至少一個目標的屬性和/或動作。
[0222]此外,根據(jù)本發(fā)明實施例,還提供了一種存儲介質(zhì),在所述存儲介質(zhì)上存儲了程序指令,在所述程序指令被計算機或處理器運行時用于執(zhí)行本發(fā)明實施例的目標跟蹤方法的相應步驟,并且用于實現(xiàn)根據(jù)本發(fā)明實施例的目標跟蹤裝置中的相應模塊。所述存儲介質(zhì)例如可以包括智能電話的存儲卡、平板電腦的存儲部件、個人計算機的硬盤、只讀存儲器(ROM)、可擦除可編程只讀存儲器(EPROM)、便攜式緊致盤只讀存儲器(CD-ROM)、USB存儲器、或者上述存儲介質(zhì)的任意組合。所述計算機可讀存儲介質(zhì)可以是一個或多個計算機可讀存儲介質(zhì)的任意組合。
[0223]在一個實施例中,所述神經(jīng)網(wǎng)絡模型包括特征提取神經(jīng)網(wǎng)絡、第一神經(jīng)網(wǎng)絡和第二神經(jīng)網(wǎng)絡。所述計算機程序指令在被計算機或處理器運行時使所述計算機或處理器執(zhí)行以下步驟:
[0224]S220,將待處理視頻輸入至所述特征提取神經(jīng)網(wǎng)絡,以提取所述待處理視頻的特征數(shù)據(jù);
[0225]S240,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的至少一個目標的邊界框;以及
[0226]S260,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第二神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標,其中所述標識符用于指示所述至少一個目標。
[0227]示例性地,第一神經(jīng)網(wǎng)絡包括第一子神經(jīng)網(wǎng)絡和第二子神經(jīng)網(wǎng)絡。在所述計算機程序指令在被所述計算機或處理器運行時使計算機或處理器執(zhí)行的步驟S240包括:
[0228]S342,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡,以獲得所述邊界框的粗略位置;以及
[0229]S344,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡,以獲得所述邊界框的準確位置和指示所述邊界框內(nèi)包括所述至少一個目標的概率值。
[0230]示例性地,所述第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡。在所述計算機程序指令在被所述計算機或處理器運行時使計算機或處理器執(zhí)行的步驟S260包括:
[0231]S462,將所述特征數(shù)據(jù)和所述邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度;
[0232]S464,根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度;以及
[0233]S466,將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標。
[0234]示例性地,所述第一神經(jīng)網(wǎng)絡和/或所述特征提取神經(jīng)網(wǎng)絡包括卷積神經(jīng)網(wǎng)絡。
[0235]示例性地,所述計算機程序指令在被計算機或處理器運行時還使所述計算機或處理器執(zhí)行以下步驟:
[0236]S610,使用訓練視頻訓練所述神經(jīng)網(wǎng)絡模型,其中,在所述訓練視頻中,針對訓練目標標注了邊界框和標識符,所述標識符用于指示所述訓練目標;
[0237]其中,在所述計算機程序指令在被所述計算機或處理器運行時使計算機或處理器執(zhí)行步驟S610包括:
[0238]S712,將所述訓練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡,以提取所述訓練視頻的特征數(shù)據(jù);
[0239]S714,將所述訓練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框,并且根據(jù)所標注的邊界框和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框計算檢測損失函數(shù)值;
[0240]S716,將所述訓練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至所述第二神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框的標識符,并根據(jù)所述訓練目標的所標注的標識符和所述第二神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框的標識符計算跟蹤損失函數(shù)值;以及
[0241]S718,在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)以及所述第一神經(jīng)網(wǎng)絡的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡的參數(shù)并且轉(zhuǎn)所述步驟S712,否則,停止對所述神經(jīng)網(wǎng)絡模型的訓練并獲得訓練好的所述神經(jīng)網(wǎng)絡模型以用于跟蹤目標。
[0242]示例性地,所述第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡。在所述計算機程序指令在被所述計算機或處理器運行時使計算機或處理器執(zhí)行步驟S716包括:
[0243]將所述訓練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述訓練視頻的不同幀中的邊界框之間的外觀相似度;
[0244]根據(jù)所述外觀相似度和所述訓練視頻中的不同幀中的邊界框之間的距離計算所述訓練視頻的不同幀中的邊界框之間的距離相似度;
[0245]將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,以獲得所述訓練目標的邊界框的標識符;以及
[0246]根據(jù)所標注的標識符和所獲得的所述訓練目標的邊界框的標識符,計算所述跟蹤損失函數(shù)值。
[0247]示例性地,所述檢測損失函數(shù)值包括檢測交叉熵和檢測回歸損失函數(shù)值。在所述計算機程序指令在被所述計算機或處理器運行時使計算機或處理器執(zhí)行步驟S718包括:
[0248]根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)和所述第一神經(jīng)網(wǎng)絡的參數(shù)。
[0249]示例性地,所述跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值。在所述計算機程序指令在被所述計算機或處理器運行時使計算機或處理器執(zhí)行步驟S718包括:
[0250]根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)、所述第一神經(jīng)網(wǎng)絡的參數(shù)和所述第二神經(jīng)網(wǎng)絡的參數(shù)。
[0251 ]示例性地,所述計算機程序指令在被計算機或處理器運行時還執(zhí)行以下步驟:
[0252]S980,根據(jù)所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標識符,分析所述至少一個目標的屬性和/或動作。
[0253]示例性地,在所述計算機程序指令在被所述計算機或處理器運行時使計算機或處理器執(zhí)行步驟S980包括:
[0254]將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標識符輸入至第一卷積神經(jīng)網(wǎng)絡,經(jīng)由全連接層,輸出所述至少一個目標的屬性和/或動作。
[0255]根據(jù)本發(fā)明實施例的目標跟蹤裝置中的各模塊可以通過根據(jù)本發(fā)明實施例的處理器運行在存儲器中存儲的計算機程序指令來實現(xiàn),或者可以在根據(jù)本發(fā)明實施例的計算機程序產(chǎn)品的計算機可讀存儲介質(zhì)中存儲的計算機指令被計算機運行時實現(xiàn)。
[0256]根據(jù)本發(fā)明實施例的目標跟蹤方法及裝置、電子設備以及存儲介質(zhì),能夠針對視頻更好地完成目標的檢測和跟蹤。顯著提高了目標跟蹤的速度和準確性。
[0257]盡管這里已經(jīng)參考附圖描述了示例實施例,應理解上述示例實施例僅僅是示例性的,并且不意圖將本發(fā)明的范圍限制于此。本領域普通技術人員可以在其中進行各種改變和修改,而不偏離本發(fā)明的范圍和精神。所有這些改變和修改意在被包括在所附權利要求所要求的本發(fā)明的范圍之內(nèi)。
[0258]本領域普通技術人員可以意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。
[0259]在本申請所提供的幾個實施例中,應該理解到,所揭露的設備和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的設備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個設備,或一些特征可以忽略,或不執(zhí)行。
[0260]在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。
[0261]類似地,應當理解,為了精簡本發(fā)明并幫助理解各個發(fā)明方面中的一個或多個,在對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該本發(fā)明的的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如相應的權利要求書所反映的那樣,其發(fā)明點在于可以用少于某個公開的單個實施例的所有特征的特征來解決相應的技術問題。因此,遵循【具體實施方式】的權利要求書由此明確地并入該【具體實施方式】,其中每個權利要求本身都作為本發(fā)明的單獨實施例。
[0262]本領域的技術人員可以理解,除了特征之間相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
[0263]此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0264]本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的目標跟蹤裝置中的一些模塊的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0265]應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
[0266]以上所述,僅為本發(fā)明的【具體實施方式】或?qū)Α揪唧w實施方式】的說明,本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi),可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。本發(fā)明的保護范圍應以權利要求的保護范圍為準。
【主權項】
1.一種基于神經(jīng)網(wǎng)絡模型的目標跟蹤方法,其中所述神經(jīng)網(wǎng)絡模型包括特征提取神經(jīng)網(wǎng)絡、第一神經(jīng)網(wǎng)絡和第二神經(jīng)網(wǎng)絡,所述目標跟蹤方法包括: S120,將待處理視頻輸入至所述特征提取神經(jīng)網(wǎng)絡,以提取所述待處理視頻的特征數(shù)據(jù); S140,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的至少一個目標的邊界框;以及 S160,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第二神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標,其中所述標識符用于指示所述至少一個目標。2.如權利要求1所述的目標跟蹤方法,其中,所述第一神經(jīng)網(wǎng)絡包括第一子神經(jīng)網(wǎng)絡和第二子神經(jīng)網(wǎng)絡,所述步驟S140包括: S142,將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡,以獲得所述邊界框的粗略位置;以及 S144,將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡,以獲得所述邊界框的準確位置和指示所述邊界框內(nèi)包括所述至少一個目標的概率值。3.如權利要求1所述的目標跟蹤方法,其中,所述第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡,所述步驟S160包括: 將所述特征數(shù)據(jù)和所述邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度; 根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度;以及 將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標。4.如權利要求1或2所述的目標跟蹤方法,其中,所述第一神經(jīng)網(wǎng)絡和/或所述特征提取神經(jīng)網(wǎng)絡包括卷積神經(jīng)網(wǎng)絡。5.如權利要求1所述的目標跟蹤方法,所述目標跟蹤方法還包括以下步驟: 使用訓練視頻訓練所述神經(jīng)網(wǎng)絡模型,其中,在所述訓練視頻中,針對訓練目標標注了邊界框和標識符,所述標識符用于指示所述訓練目標; 其中,所述使用訓練視頻訓練所述神經(jīng)網(wǎng)絡模型包括: S112,將所述訓練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡,以提取所述訓練視頻的特征數(shù)據(jù); S114,將所述訓練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框,并且根據(jù)所標注的邊界框和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框計算檢測損失函數(shù)值; SI 16,將所述訓練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至所述第二神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框的標識符,并根據(jù)所標注的標識符和所述第二神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框的標識符計算跟蹤損失函數(shù)值;以及S118,在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)以及所述第一神經(jīng)網(wǎng)絡的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡的參數(shù)并且轉(zhuǎn)所述步驟S112,否則,停止對所述神經(jīng)網(wǎng)絡模型的訓練并獲得訓練好的所述神經(jīng)網(wǎng)絡模型以用于跟蹤目標。6.如權利要求5所述的目標跟蹤方法,其中,所述檢測損失函數(shù)值包括檢測交叉熵和檢測回歸損失函數(shù)值,所述步驟SI 18包括: 根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)和所述第一神經(jīng)網(wǎng)絡的參數(shù)。7.如權利要求5所述的目標跟蹤方法,其中,所述跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值,所述步驟S118包括: 根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)、所述第一神經(jīng)網(wǎng)絡的參數(shù)和所述第二神經(jīng)網(wǎng)絡的參數(shù)。8.如權利要求5所述的目標跟蹤方法,其中,所述第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡,所述步驟S116包括: 將所述訓練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述訓練視頻的不同幀中的邊界框之間的外觀相似度; 根據(jù)所述外觀相似度和所述訓練視頻中的不同幀中的邊界框之間的距離計算所述訓練視頻的不同幀中的邊界框之間的距離相似度; 將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,以獲得所述訓練目標的邊界框的標識符;以及 根據(jù)所標注的標識符和所獲得的所述訓練目標的邊界框的標識符,計算所述跟蹤損失函數(shù)值。9.如權利要求1至3任一權利要求所述的目標跟蹤方法,所述目標跟蹤方法還包括: S180,根據(jù)所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標識符,分析所述至少一個目標的屬性和/或動作。10.如權利要求9所述的目標跟蹤方法,其中,所述步驟S180進一步包括: 將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標識符輸入至第一卷積神經(jīng)網(wǎng)絡,經(jīng)由全連接層,輸出所述至少一個目標的屬性和/或動作。11.一種基于神經(jīng)網(wǎng)絡模型的目標跟蹤裝置,其中所述神經(jīng)網(wǎng)絡模型包括特征提取神經(jīng)網(wǎng)絡、第一神經(jīng)網(wǎng)絡和第二神經(jīng)網(wǎng)絡,所述目標跟蹤裝置包括: 第一特征提取模塊,用于將待處理視頻輸入至所述特征提取神經(jīng)網(wǎng)絡,以提取所述待處理視頻的特征數(shù)據(jù); 檢測模塊,用于將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的至少一個目標的邊界框;以及 跟蹤模塊,用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第二神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標,其中所述標識符用于指示所述至少一個目標。12.如權利要求11所述的目標跟蹤裝置,其中,所述第一神經(jīng)網(wǎng)絡包括第一子神經(jīng)網(wǎng)絡和第二子神經(jīng)網(wǎng)絡,所述檢測模塊包括: 邊界框初定單元,用于將所述待處理視頻的特征數(shù)據(jù)輸入至所述第一子神經(jīng)網(wǎng)絡,以獲得所述邊界框的粗略位置;以及 邊界框確定單元,用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框的粗略位置輸入至所述第二子神經(jīng)網(wǎng)絡,以獲得所述邊界框的準確位置和指示所述邊界框內(nèi)包括所述至少一個目標的概率值。13.如權利要求11所述的目標跟蹤裝置,其中,所述第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡,所述跟蹤模塊包括: 外觀相似度計算單元,用于將所述待處理視頻的特征數(shù)據(jù)和所述邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述待處理視頻中的不同幀中的邊界框之間的外觀相似度; 距離相似度計算單元,用于根據(jù)所述外觀相似度和所述不同幀中的邊界框之間的距離計算所述待處理視頻中的所述不同幀中的邊界框之間的距離相似度;以及 標識符確定單元,用于將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,從而獲得所述邊界框的標識符,以跟蹤所述待處理視頻中的所述至少一個目標。14.如權利要求11或12所述的目標跟蹤裝置,其中,所述第一神經(jīng)網(wǎng)絡和/或所述特征提取神經(jīng)網(wǎng)絡包括卷積神經(jīng)網(wǎng)絡。15.如權利要求11所述的目標跟蹤裝置,所述目標跟蹤裝置還包括訓練模塊,用于使用訓練視頻訓練所述神經(jīng)網(wǎng)絡模型,其中,在所述訓練視頻中,針對訓練目標標注了邊界框和標識符,所述標識符用于指示所述訓練目標,所述訓練模塊包括: 訓練特征提取模塊,用于將所述訓練視頻輸入至所述特征提取神經(jīng)網(wǎng)絡,以提取所述訓練視頻的特征數(shù)據(jù); 檢測訓練模塊,用于將所述訓練視頻的特征數(shù)據(jù)輸入至所述第一神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框,并且根據(jù)所標注的邊界框和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框計算檢測損失函數(shù)值; 跟蹤訓練模塊,用于將所述訓練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至所述第二神經(jīng)網(wǎng)絡以獲得所述訓練目標的邊界框的標識符,并根據(jù)所標注的標識符和所述第二神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框的標識符計算跟蹤損失函數(shù)值;以及 調(diào)整模塊,用于在所述檢測損失函數(shù)值和/或所述跟蹤損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于第一閾值的情況下,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)以及所述第一神經(jīng)網(wǎng)絡的參數(shù)和/或所述第二神經(jīng)網(wǎng)絡的參數(shù);否則,停止對所述神經(jīng)網(wǎng)絡模型的訓練并獲得訓練好的所述神經(jīng)網(wǎng)絡模型以用于跟蹤目標。16.如權利要求15所述的目標跟蹤裝置,其中,所述檢測損失函數(shù)值包括檢測交叉熵和檢測回歸損失函數(shù)值,所述調(diào)整模塊用于根據(jù)所述檢測交叉熵和所述檢測回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)和所述第一神經(jīng)網(wǎng)絡的參數(shù)。17.如權利要求15所述的目標跟蹤裝置,其中,所述跟蹤損失函數(shù)值包括跟蹤交叉熵和跟蹤回歸損失函數(shù)值,所述調(diào)整模塊用于根據(jù)所述跟蹤交叉熵和所述跟蹤回歸損失函數(shù)值的加權和,同時調(diào)整所述特征提取神經(jīng)網(wǎng)絡的參數(shù)、所述第一神經(jīng)網(wǎng)絡的參數(shù)和所述第二神經(jīng)網(wǎng)絡的參數(shù)。18.如權利要求15所述的目標跟蹤裝置,其中,所述第二神經(jīng)網(wǎng)絡包括第三子神經(jīng)網(wǎng)絡和第四子神經(jīng)網(wǎng)絡,所述跟蹤訓練模塊包括: 外觀相似度訓練計算單元,用于將所述訓練視頻的特征數(shù)據(jù)和所述第一神經(jīng)網(wǎng)絡獲得的所述訓練目標的邊界框輸入至所述第三子神經(jīng)網(wǎng)絡,以獲得所述訓練視頻的不同幀中的邊界框之間的外觀相似度; 距離相似度訓練計算單元,用于根據(jù)所述外觀相似度和所述訓練視頻中的不同幀中的邊界框之間的距離計算所述訓練視頻的不同幀中的邊界框之間的距離相似度; 標識符訓練獲得單元,用于將所述外觀相似度和所述距離相似度輸入至所述第四子神經(jīng)網(wǎng)絡,以獲得所述訓練目標的邊界框的標識符;以及 跟蹤損失函數(shù)值計算單元,用于根據(jù)所標注的標識符和所獲得的所述訓練目標的邊界框的標識符,計算所述跟蹤損失函數(shù)值。19.如權利要求11至13任一權利要求所述的目標跟蹤裝置,其中,所述目標跟蹤裝置還包括: 分析模塊,用于根據(jù)所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標識符,分析所述至少一個目標的屬性和/或動作。20.如權利要求19所述的目標跟蹤裝置,其中,所述分析模塊用于將所述待處理視頻的特征數(shù)據(jù)、所述邊界框和所述標識符輸入至第一卷積神經(jīng)網(wǎng)絡,經(jīng)由全連接層,輸出所述至少一個目標的屬性和/或動作。
【文檔編號】G06N3/08GK105976400SQ201610306250
【公開日】2016年9月28日
【申請日】2016年5月10日
【發(fā)明人】俞剛, 李超, 何奇正, 陳牧歌, 彭雨翔, 印奇
【申請人】北京曠視科技有限公司, 北京小孔科技有限公司