一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法
【專利摘要】本發(fā)明公開了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法,包括下述步驟:構(gòu)建標(biāo)注了每幀行人位置的監(jiān)控視頻數(shù)據(jù)集;對標(biāo)注了每幀行人位置的監(jiān)控視頻數(shù)據(jù)集進行人工擴充,得到訓(xùn)練集樣本;對訓(xùn)練集樣本進行分組,得到多個訓(xùn)練組;構(gòu)建多目標(biāo)跟蹤網(wǎng)絡(luò);將各訓(xùn)練組以序列為單位輸入多目標(biāo)跟蹤網(wǎng)絡(luò)進行訓(xùn)練;將待測視頻數(shù)據(jù)輸入訓(xùn)練后的多目標(biāo)跟蹤網(wǎng)絡(luò),進行前向傳播,得到多個目標(biāo)的運動軌跡。本發(fā)明通過采用原始數(shù)據(jù)以及人工擴充后的大量數(shù)據(jù)端到端地對所提出的網(wǎng)絡(luò)模型進行訓(xùn)練,在一個統(tǒng)一的神經(jīng)網(wǎng)絡(luò)架構(gòu)下完成了數(shù)據(jù)關(guān)聯(lián)和軌跡估計等復(fù)雜任務(wù),在不同方向、光照條件、形變等復(fù)雜環(huán)境條件下,均能有效地對目標(biāo)運動軌跡進行跟蹤。
【專利說明】
一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及計算機視覺和機器學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法。
【背景技術(shù)】
[0002]智能監(jiān)控系統(tǒng)是當(dāng)今監(jiān)控行業(yè)的一個重點發(fā)展方向,主要是依靠計算機視覺和機器學(xué)習(xí)等技術(shù)對監(jiān)控攝像頭拍攝下的畫面進行自動地分析,通過對行人的運動軌跡進行跟蹤,從而判斷出人群的狀態(tài)、行人的流量等,可以提前預(yù)警緊急事件的發(fā)生,給管理部門提供充足的應(yīng)對時間。
[0003]深度學(xué)習(xí)于2006年正式提出,是近年來機器學(xué)習(xí)里面的一個熱門領(lǐng)域,起源于多層人工神經(jīng)網(wǎng)絡(luò),目前已成功應(yīng)用于計算機視覺、自然語言處理和智能搜索等領(lǐng)域。其中循環(huán)神經(jīng)網(wǎng)絡(luò)在機器翻譯和自然語言處理等領(lǐng)域已經(jīng)取得了令人矚目的成就,在很多應(yīng)用上都有所建樹,相比傳統(tǒng)方法有了很大的提升。循環(huán)神經(jīng)網(wǎng)絡(luò)的一個特點就是對于序列信號的有效處理,而視覺目標(biāo)跟蹤所使用的視頻也是一種序列信號,所以自然地想到用循環(huán)神經(jīng)網(wǎng)絡(luò)來進行視覺目標(biāo)跟蹤。
[0004]在視覺目標(biāo)跟蹤領(lǐng)域,其應(yīng)用前景雖然十分廣泛,但由于其涉及到的算法任務(wù)十分復(fù)雜,現(xiàn)有技術(shù)主要包含了以下三個技術(shù)難點:目標(biāo)未知,隨著時間目標(biāo)數(shù)量在改變,對所有出現(xiàn)的目標(biāo)進行連續(xù)的狀態(tài)估計,數(shù)據(jù)關(guān)聯(lián)的離散組合問題。傳統(tǒng)方法往往只能針對特定的場景進行大量的參數(shù)調(diào)優(yōu),而且模型十分復(fù)雜,訓(xùn)練困難。
【發(fā)明內(nèi)容】
[0005]本發(fā)明為解決現(xiàn)有技術(shù)中需對各跟蹤目標(biāo)的針對性參數(shù)調(diào)優(yōu)、在不同方向、光照條件、形變等復(fù)雜環(huán)境條件下無法有效地對目標(biāo)運動軌跡進行跟蹤等問題,提供了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法。
[0006]為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
[0007]—種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法,其特征在于包括下述步驟:
[0008]步驟1:構(gòu)建標(biāo)注了每幀行人位置的監(jiān)控視頻數(shù)據(jù)集;
[0009]步驟2:對標(biāo)注了每幀行人位置的監(jiān)控視頻數(shù)據(jù)集進行人工擴充,得到訓(xùn)練集樣本;
[0010]步驟3:對訓(xùn)練集樣本進行分組,得到多個訓(xùn)練組;
[0011]步驟4:構(gòu)建多目標(biāo)跟蹤網(wǎng)絡(luò);
[0012]步驟5:將各訓(xùn)練組以序列為單位輸入多目標(biāo)跟蹤網(wǎng)絡(luò)進行訓(xùn)練;
[0013]步驟6:將待測視頻數(shù)據(jù)輸入訓(xùn)練后的多目標(biāo)跟蹤網(wǎng)絡(luò),進行前向傳播,得到多個目標(biāo)的運動軌跡。
[0014]上述方案中,所述步驟I包括通過網(wǎng)絡(luò)公共數(shù)據(jù)集取得監(jiān)控視頻數(shù)據(jù),將監(jiān)控視頻數(shù)據(jù)中的每個行人目標(biāo)在每幀中的位置標(biāo)注出來,對不同目標(biāo)加以編號,得到標(biāo)注了每幀行人位置的監(jiān)控視頻數(shù)據(jù)集。
[0015]上述方案中,所述步驟2中對所述監(jiān)控視頻數(shù)據(jù)集進行人工擴充的方法包括對原始視頻數(shù)據(jù)進行人工擾動,人工擾動的方法包括對行人運動軌跡進行鏡像翻轉(zhuǎn)、對視頻圖像進行隨機平移、隨機旋轉(zhuǎn)。
[0016]上述方案中,所述步驟2中對所述監(jiān)控視頻數(shù)據(jù)集進行人工擴充的方法包括從所述監(jiān)控視頻數(shù)據(jù)集中學(xué)習(xí)到軌跡模型,具體的,通過對所述監(jiān)控視頻數(shù)據(jù)集中行人運動軌跡的初始位置和平均速度兩個變量估計其概率分布,然后通過對所述概率分布進行采樣生成多個虛擬運動軌跡。
[0017]上述方案中,所述步驟2中對所述監(jiān)控視頻數(shù)據(jù)集進行人工擴充的方法包括通過物理建模模擬真實場景下的行人目標(biāo)運動,生成不同角度位置的相機拍攝的目標(biāo)運動軌跡。
[0018]上述方案中,所述步驟4中所述多目標(biāo)跟蹤網(wǎng)絡(luò)由RNN單元構(gòu)成的跟蹤管理網(wǎng)絡(luò)和由多個LSTM單元構(gòu)成的數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)組成,所述跟蹤管理網(wǎng)絡(luò)隱含300個隱含單元,所述數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)包含500個隱含單元。
[0019]上述方案中,所述RNN單元在t時刻的輸入包括當(dāng)前狀態(tài)Xt、存在概率et、度量標(biāo)準(zhǔn)向量Zt+1和數(shù)據(jù)關(guān)聯(lián)向量At+1,所述RNN單元在t時刻的輸出為t+Ι時刻的4個有關(guān)值,包括所有目標(biāo)t+Ι時刻的預(yù)測狀態(tài)x*t+1、所有目標(biāo)t+Ι時刻的更新狀態(tài)Xt+1、對每個目標(biāo)軌跡是否為真的概率估計^+1與4的絕對誤差Λ+1;
[0020]上述方案中,所述的每個LSTM單元對應(yīng)一個檢測目標(biāo),所述LSTM單元在t時刻的輸入包括t-Ι時刻的隱含狀態(tài)h、單元狀態(tài)c和矩陣Ct+i= I xt+1-zt+i 12,所述LSTM單元在t時刻的輸出包括每個目標(biāo)對應(yīng)于所有度量標(biāo)準(zhǔn)的概率分布A1。
[0021]本發(fā)明的有益效果是:
[0022]I)本發(fā)明所述基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法,通過采用原始數(shù)據(jù)以及人工擴充后的大量數(shù)據(jù)端到端地對所提出的網(wǎng)絡(luò)模型進行訓(xùn)練,相對于傳統(tǒng)方法,首次在多目標(biāo)跟蹤領(lǐng)域采用了端到端的模型,避免了對各跟蹤目標(biāo)的針對性參數(shù)調(diào)優(yōu)。
[0023]2)本發(fā)明能夠一個統(tǒng)一的神經(jīng)網(wǎng)絡(luò)架構(gòu)下完成了數(shù)據(jù)關(guān)聯(lián)和軌跡估計等復(fù)雜任務(wù),簡化了視頻數(shù)據(jù)分析的過程。
[0024]3)本發(fā)明在不同方向、光照條件、形變等復(fù)雜環(huán)境條件下,均能有效地對目標(biāo)運動軌跡進行跟蹤,跟蹤效果良好。
【附圖說明】
[0025]圖1為本發(fā)明所述的多目標(biāo)跟蹤流程圖;
[0026]圖2為本發(fā)明所述的跟蹤網(wǎng)絡(luò)結(jié)構(gòu)圖。
【具體實施方式】
[0027]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明作進一步地詳細(xì)描述。
[0028]下面結(jié)合圖1-2對本發(fā)明作詳細(xì)說明。
[0029]參見圖1,一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法,步驟如下:
[0030]步驟I:構(gòu)建標(biāo)注了每幀行人位置的監(jiān)控視頻數(shù)據(jù)集。具體的,將監(jiān)控視頻數(shù)據(jù)中的每個行人目標(biāo)在每幀中的位置標(biāo)注出來,對不同目標(biāo)加以編號,得到標(biāo)注了每幀行人位置的監(jiān)控視頻數(shù)據(jù)集;優(yōu)選的,可通過MOTChanllenge等網(wǎng)絡(luò)公共數(shù)據(jù)集獲取了監(jiān)控視頻數(shù)據(jù)。
[0031]步驟2:對標(biāo)注了每幀行人位置的監(jiān)控視頻數(shù)據(jù)集進行人工擴充,得到訓(xùn)練集樣本。具體的,最終得到訓(xùn)練集樣本包含100,000個20幀的視頻序列,擴充視頻數(shù)據(jù)集包含以下三種方式:
[0032](I)對原始視頻數(shù)據(jù)進行人工擾動,包括對運動軌跡進行鏡像翻轉(zhuǎn)、對視頻圖像進行隨機平移、隨機旋轉(zhuǎn)等。
[0033](2)從原始視頻中學(xué)習(xí)到軌跡模型,對軌跡的初始位置和平均速度兩個變量估計其概率分布,然后通過對這個概率分布進行采樣生成多個虛擬運動軌跡。
[0034](3)通過物理建模模擬真實場景下的行人目標(biāo)運動,生成不同角度位置的相機拍攝的目標(biāo)運動軌跡。
[0035]步驟3:對訓(xùn)練集樣本進行分組,得到多個訓(xùn)練組;優(yōu)選的,可以10個樣本為一組劃分為不同的訓(xùn)練組。
[0036]步驟4:構(gòu)建多目標(biāo)跟蹤網(wǎng)絡(luò);所述網(wǎng)絡(luò)由RNN單元構(gòu)成的跟蹤管理網(wǎng)絡(luò)和由多個LSTM單元構(gòu)成的數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)組成,所述跟蹤管理網(wǎng)絡(luò)隱含300個隱含單元,所述數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)包含500個隱含單元;所述RNN單元在t時刻的輸入包括當(dāng)前狀態(tài)Xt、存在概率et、度量標(biāo)準(zhǔn)向量Zt+1和數(shù)據(jù)關(guān)聯(lián)向量At+1,所述RNN單元在t時刻的輸出為t+Ι時刻的4個有關(guān)值,包括所有目標(biāo)t+Ι時刻的預(yù)測狀態(tài)Λ+1、所有目標(biāo)t+Ι時刻的更新狀態(tài)Xt+1、對每個目標(biāo)軌跡是否為真的概率估計et+Aet的絕對誤差Λ+ι;所述LSTM單元在t時刻的輸入包括t-Ι時刻的隱含狀態(tài)h、單元狀態(tài)c和矩陣Ct+1= I xt+1-zt+i 12,所述LSTM單元在t時刻的輸出包括每個目標(biāo)對應(yīng)于所有度量標(biāo)準(zhǔn)的概率分布A1。
[0037]步驟5:將各訓(xùn)練組以序列為單位輸入多目標(biāo)跟蹤網(wǎng)絡(luò)進行訓(xùn)練;優(yōu)選的,訓(xùn)練過程中可采用RMSprop算法來最小化loss函數(shù),初始學(xué)習(xí)率為0.0003,每20,000次迭代后降低5%。最大迭代次數(shù)設(shè)置為200,000次;優(yōu)選的,取一個20幀長的監(jiān)控視頻序列作為測試樣本,首先根據(jù)圖像尺寸將其歸一化到[-0.5,0.5],然后將該視頻序列輸入網(wǎng)絡(luò),即可輸出每幀的目標(biāo)位置和目標(biāo)判別,即是每個行人目標(biāo)的運動軌跡。
[0038]步驟6:將待測視頻數(shù)據(jù)輸入測試后的多目標(biāo)跟蹤網(wǎng)絡(luò),進行前向傳播,得到多個目標(biāo)的運動軌跡。
[0039]以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1.一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法,其特征在于包括下述步驟: 步驟1:構(gòu)建標(biāo)注了每幀行人位置的監(jiān)控視頻數(shù)據(jù)集; 步驟2:對標(biāo)注了每幀行人位置的監(jiān)控視頻數(shù)據(jù)集進行人工擴充,得到訓(xùn)練集樣本; 步驟3:對訓(xùn)練集樣本進行分組,得到多個訓(xùn)練組; 步驟4:構(gòu)建多目標(biāo)跟蹤網(wǎng)絡(luò); 步驟5:將各訓(xùn)練組以序列為單位輸入多目標(biāo)跟蹤網(wǎng)絡(luò)進行訓(xùn)練; 步驟6:將待測視頻數(shù)據(jù)輸入訓(xùn)練后的多目標(biāo)跟蹤網(wǎng)絡(luò),進行前向傳播,得到多個目標(biāo)的運動軌跡。2.根據(jù)權(quán)利要求1所述的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法,其特征在于,所述步驟I包括通過網(wǎng)絡(luò)公共數(shù)據(jù)集取得監(jiān)控視頻數(shù)據(jù),將監(jiān)控視頻數(shù)據(jù)中的每個行人目標(biāo)在每幀中的位置標(biāo)注出來,對不同目標(biāo)加以編號,得到標(biāo)注了每幀行人位置的監(jiān)控視頻數(shù)據(jù)集。3.根據(jù)權(quán)利要求1所述的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法,其特征在于,所述步驟2中對所述監(jiān)控視頻數(shù)據(jù)集進行人工擴充的方法包括對原始視頻數(shù)據(jù)進行人工擾動,人工擾動的方法包括對行人運動軌跡進行鏡像翻轉(zhuǎn)、對視頻圖像進行隨機平移、隨機旋轉(zhuǎn)。4.根據(jù)權(quán)利要求1所述的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法,其特征在于,所述步驟2中對所述監(jiān)控視頻數(shù)據(jù)集進行人工擴充的方法包括從所述監(jiān)控視頻數(shù)據(jù)集中學(xué)習(xí)到軌跡模型,具體的,通過對所述監(jiān)控視頻數(shù)據(jù)集中行人運動軌跡的初始位置和平均速度兩個變量估計其概率分布,然后通過對所述概率分布進行采樣生成多個虛擬運動軌跡。5.根據(jù)權(quán)利要求1所述的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法,其特征在于,所述步驟2中對所述監(jiān)控視頻數(shù)據(jù)集進行人工擴充的方法包括通過物理建模模擬真實場景下的行人目標(biāo)運動,生成不同角度位置的相機拍攝的目標(biāo)運動軌跡。6.根據(jù)權(quán)利要求1所述的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法,其特征在于,所述步驟4中所述多目標(biāo)跟蹤網(wǎng)絡(luò)為端對端神經(jīng)網(wǎng)絡(luò),所述網(wǎng)絡(luò)由RNN單元構(gòu)成的跟蹤管理網(wǎng)絡(luò)和由多個LSTM單元構(gòu)成的數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)組成,所述跟蹤管理網(wǎng)絡(luò)隱含300個隱含單元,所述數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)包含500個隱含單元。7.根據(jù)權(quán)利要求6所述的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法,其特征在于,所述RNN單元在t時刻的輸入包括當(dāng)前狀態(tài)Xt、存在概率Et、度量標(biāo)準(zhǔn)向量Zt+l和數(shù)據(jù)關(guān)聯(lián)向量At+l,所述RNN單元在t時刻的輸出為t+Ι時刻的4個有關(guān)值,包括所有目標(biāo)t+Ι時刻的預(yù)測狀態(tài)x*t+1、所有目標(biāo)t+1時刻的更新狀態(tài)Xt+1、對每個目標(biāo)軌跡是否為真的概率估計^+1與4的絕對誤差 ε%+ι。8.根據(jù)權(quán)利要求6所述的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤方法,其特征在于,所述的每個LSTM單元對應(yīng)一個檢測目標(biāo),所述LSTM單元在t時刻的輸入包括t-Ι時刻的隱含狀態(tài)h、單元狀態(tài)c和矩陣Ct+1= I xt+1-zt+i 12,所述LSTM單元在t時刻的輸出包括每個目標(biāo)對應(yīng)于所有度量標(biāo)準(zhǔn)的概率分布A1。
【文檔編號】G06K9/00GK106022239SQ201610317720
【公開日】2016年10月12日
【申請日】2016年5月13日
【發(fā)明人】李鴻升, 范峻銘, 周輝, 胡歡, 曹濱
【申請人】電子科技大學(xué)