本發(fā)明涉及智能監(jiān)控技術(shù)領(lǐng)域,具體涉及一種指定物體跟蹤方法。
背景技術(shù):
指定物體跟蹤是計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的一個(gè)熱點(diǎn)和基礎(chǔ)問(wèn)題,所謂指定物體跟蹤就是,用戶(hù)可以在輸入視頻中任意指定一個(gè)目標(biāo),標(biāo)記出目標(biāo)在視頻中的位置,目標(biāo)矩形框大小以及在視頻中的初始幀,跟蹤系統(tǒng)就可以在輸入視頻初始幀之后的第二幀視頻開(kāi)始,對(duì)用戶(hù)指定的目標(biāo)進(jìn)行跟蹤,每幀跟蹤完成后,輸出目標(biāo)在視頻中的位置坐標(biāo)和矩形框大小。指定物體跟蹤和指定物體跟蹤系統(tǒng)可以被廣泛應(yīng)用到工業(yè)生產(chǎn)和生活的很多領(lǐng)域,包括智能機(jī)器人平臺(tái)(無(wú)人機(jī)),視頻監(jiān)控系統(tǒng),工業(yè)流水線,智能汽車(chē)(輔助駕駛)等。例如,使用帶攝像頭的無(wú)人機(jī)跟蹤并跟拍用戶(hù)指定的人,車(chē)輛或者其他目標(biāo);在視頻監(jiān)控系統(tǒng)中跟蹤用戶(hù)標(biāo)記的可疑物體或行人;在工業(yè)流水線上跟蹤指定的工業(yè)零件;在智能汽車(chē)的輔助駕駛系統(tǒng)中跟蹤指定車(chē)輛跟車(chē)行駛。
從工業(yè)生產(chǎn)和生活的實(shí)際應(yīng)用場(chǎng)景出發(fā),指定物體跟蹤與其它目標(biāo)跟蹤問(wèn)題相比有其特有的一些要求:
任意指定物體,指定物體跟蹤算法要求跟蹤的目標(biāo)類(lèi)型,大小,形狀,顏色具有任意性,可對(duì)用戶(hù)輸入的任意目標(biāo)進(jìn)行跟蹤。因此并不局限于單一類(lèi)型的目標(biāo)跟蹤,如人臉,行人,汽車(chē)等。
準(zhǔn)確度高,通常要求指定物體的跟蹤系統(tǒng)必須同時(shí)具有高的準(zhǔn)確性和實(shí)時(shí)的處理速度。在指定目標(biāo)跟蹤的過(guò)程中需要對(duì)目標(biāo)的位置和大小進(jìn)行準(zhǔn)確的估計(jì),通常成功跟蹤到目標(biāo)時(shí)交集占并集比率(IOU,Intersection over Union)>50%;IOU過(guò)低或者偏離目標(biāo),就不能有效完成跟蹤任務(wù)。
高處理速度,跟蹤系統(tǒng)需要具有實(shí)時(shí)的處理速度才能在實(shí)際的工業(yè)現(xiàn)場(chǎng)和生活場(chǎng)景中使用,通常需要跟蹤算法達(dá)到每秒處理25-30幀以上的處理速度。
平臺(tái)計(jì)算資源限制,由于指定目標(biāo)跟蹤系統(tǒng)的硬件資源一般非常有限,在完成目標(biāo)跟蹤任務(wù)的同時(shí)還要進(jìn)行其它任務(wù)的處理,因此該類(lèi)型的算法不宜占用過(guò)多的計(jì)算資源和存儲(chǔ)資源。
目前現(xiàn)有的目標(biāo)跟蹤技術(shù)一般可以分為三類(lèi),第一類(lèi)是使用特定目標(biāo)的檢測(cè)器先檢測(cè)出目標(biāo),然后進(jìn)行跟蹤。第二類(lèi)是基于目標(biāo)跟蹤算法,使用手工設(shè)計(jì)的特征描述目標(biāo),并通過(guò)在線學(xué)習(xí)建立目標(biāo)的模型,在跟蹤過(guò)程中更新目標(biāo)的模型。第三類(lèi)是基于復(fù)雜的深度學(xué)習(xí)網(wǎng)絡(luò),完成對(duì)目標(biāo)特征的建模,然后使用深度學(xué)習(xí)在線更新目標(biāo)模型,完成跟蹤任務(wù)。
由于跟蹤目標(biāo)具有任意性,所以特定目標(biāo)的檢測(cè)和跟蹤系統(tǒng)很難被應(yīng)用來(lái)解決此類(lèi)問(wèn)題。例如目前已經(jīng)非常成熟的人臉跟蹤方法,或者行人跟蹤方法都是針對(duì)特定目標(biāo)設(shè)計(jì)的,很難被推廣到任意目標(biāo)的跟蹤。
由于在視頻中目標(biāo)的形狀可能發(fā)生變化,光照突變,目標(biāo)遮擋,目標(biāo)快速運(yùn)動(dòng)等因素的影響,基于傳統(tǒng)特征例如目標(biāo)邊緣,目標(biāo)顏色的跟蹤系統(tǒng)很難在復(fù)雜環(huán)境中取得高的跟蹤精度。
目前現(xiàn)有的指定目標(biāo)跟蹤算法一般需要經(jīng)過(guò)復(fù)雜的計(jì)算,具有較高的時(shí)間復(fù)雜度和空間復(fù)雜度。很難做到對(duì)目標(biāo)的實(shí)時(shí)跟蹤以及占用少的硬件資源。
跟蹤目標(biāo)的初始化,需要提供目標(biāo)的矩形框,操作比較復(fù)雜,一般需要暫停視頻或者在待跟蹤目標(biāo)慢速時(shí)進(jìn)行標(biāo)注。
綜上所述,指定目標(biāo)的跟蹤問(wèn)題非常困難和具有挑戰(zhàn)性,很難做到高跟蹤精度同時(shí)兼具實(shí)時(shí)的處理速度和小的硬件資源消耗。
現(xiàn)有技術(shù)中的一種指定目標(biāo)跟蹤方法,如CN 104574445 A;該方法包括:在初始化幀中,設(shè)計(jì)一個(gè)特殊的映射環(huán)節(jié)將圖像轉(zhuǎn)換成多向量混合特征;采用提取的多向量混合特征訓(xùn)練多向量相關(guān)濾波器;針對(duì)隨后的序列圖像,采用訓(xùn)練好的多向量相關(guān)濾波器生成所有搜索位置的置信圖;選取置信圖的峰值為目標(biāo)位置,對(duì)此位置像第一步相同的方式提取多向量混合特征,并在線更新相關(guān)濾波器,能夠?qū)崿F(xiàn)快速跟蹤。
在上述現(xiàn)有技術(shù)中,CN104574445 A中使用了相關(guān)濾波器來(lái)在線訓(xùn)練目標(biāo)的外觀模型。雖然還是使用傳統(tǒng)特征,但是在特征提取過(guò)程中加入了在線有監(jiān)督學(xué)習(xí),因此可以得到對(duì)目標(biāo)外觀更好的特征表達(dá)。同時(shí),由于使用了相關(guān)濾波器來(lái)進(jìn)行訓(xùn)練,大大縮短了模型訓(xùn)練時(shí)間。然而,由于使用的依然是傳統(tǒng)特征,其目標(biāo)表達(dá)能力依然有限。同時(shí),在跟蹤過(guò)程中如果目標(biāo)大小發(fā)生變化,該方法不能檢測(cè)出目標(biāo)大小的變化,因此會(huì)影響跟蹤的準(zhǔn)確性和穩(wěn)定性。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種指定物體跟蹤方法和指定物體跟蹤裝置,用于實(shí)現(xiàn)對(duì)被跟丟的人體的繼續(xù)跟蹤。
本發(fā)明提供一種指定物體跟蹤方法,包括:
獲取當(dāng)前幀中跟蹤目標(biāo)的位置信息;
根據(jù)所述位置信息確定所述跟蹤目標(biāo)的第一搜索區(qū)域Rorg;
根據(jù)所述第一搜索區(qū)域Rstd確定第一混合特征Zfea,所述第一混合特征Zfea包括:卷積神經(jīng)網(wǎng)絡(luò)特征Zcnn、方向梯度直方圖HOG特征Zhog和顏色特征Zlab;
以所述第一混合特征Zfea作為輸入,計(jì)算目標(biāo)模板tmpl,所述目標(biāo)模板tmpl用于將所述跟蹤目標(biāo)的特征信息轉(zhuǎn)化為位置信息;
獲取下一幀中所述跟蹤目標(biāo)在相同的所述位置信息下的M個(gè)第二搜索區(qū)域Rsi,所述M為大于或等于3的整數(shù),所述M個(gè)第二搜索區(qū)域Rsi分別對(duì)應(yīng)M個(gè)不同的搜索尺寸;
根據(jù)所述M個(gè)第二搜索區(qū)域Rsi確定M個(gè)分別對(duì)應(yīng)的第二混合特征圖Zsi;
根據(jù)所述目標(biāo)模板tmpl和所述第二混合特征圖Zsi計(jì)算所述跟蹤目標(biāo)的特征響應(yīng)圖Rmapsi;
確定所述特征響應(yīng)圖Rmapsi中濾波響應(yīng)最大的特征點(diǎn)的位置為所述跟蹤目標(biāo)的位置。
由上可見(jiàn),本發(fā)明實(shí)施例在確認(rèn)跟蹤目標(biāo)之后,根據(jù)跟蹤目標(biāo)的位置信息確定第一搜索區(qū)域,再根據(jù)所述第一搜索區(qū)域確定第一混合特征;其中,所述第一混合特征包括:卷積神經(jīng)網(wǎng)絡(luò)特征、HOG特征和顏色特征;以所述第一混合特征作為輸入,計(jì)算目標(biāo)模板;然后,獲取下一幀中所述跟蹤目標(biāo)在相同的所述位置信息下的M個(gè)第二搜索區(qū)域,并根據(jù)所述M個(gè)第二搜索區(qū)域確定M個(gè)分別對(duì)應(yīng)的第二混合特征圖;最后,根據(jù)所述目標(biāo)模板和所述第二混合特征圖計(jì)算所述跟蹤目標(biāo)的特征響應(yīng)圖,確定所述特征響應(yīng)圖中濾波響應(yīng)最大的特征點(diǎn)的位置為所述跟蹤目標(biāo)的位置,完成跟蹤目標(biāo)的跟蹤。為了適應(yīng)各種復(fù)雜的跟蹤場(chǎng)景,本發(fā)明實(shí)施例將卷積神經(jīng)網(wǎng)絡(luò)特征和HOG特征,LAB顏色特征級(jí)聯(lián)起來(lái),可進(jìn)一步提升跟蹤效果,提高跟蹤的準(zhǔn)確率。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹。顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種指定物體跟蹤方法一個(gè)實(shí)施例流程示意圖;
圖2為本發(fā)明實(shí)施例提供的一種指定物體跟蹤方法另一個(gè)實(shí)施例流程示意圖;
圖3為本發(fā)明實(shí)施例提供的加權(quán)混合特征圖;
圖4為本發(fā)明實(shí)施例提供的快速相鄰尺度搜索策略圖。
具體實(shí)施方式
為使得本發(fā)明的發(fā)明目的、特征、優(yōu)點(diǎn)能夠更加的明顯和易懂,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而非全部實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明的說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)“第一”、“第二”、“第三”“第四”等(如果存在)是用于區(qū)別類(lèi)似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例如能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤4送?,術(shù)語(yǔ)“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒(méi)有清楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
實(shí)施例一
本發(fā)明實(shí)例提供一種指定物體跟蹤方法。如圖1所示,本發(fā)明實(shí)施例中的指定物體跟蹤方法包括:
步驟101、獲取當(dāng)前幀中跟蹤目標(biāo)的位置信息;
在步驟101中,指定物體跟蹤裝置獲取當(dāng)前幀中跟蹤目標(biāo)的位置信息。在實(shí)際應(yīng)用中的,在跟蹤視頻實(shí)時(shí)播放時(shí),用戶(hù)實(shí)時(shí)對(duì)跟蹤視頻中的當(dāng)前幀進(jìn)行標(biāo)注,標(biāo)注出跟蹤目標(biāo)的矩形框,指定物體跟蹤裝置獲取所述矩形框中跟蹤目標(biāo)對(duì)應(yīng)的位置信息。
具體的,所述位置信息包括:所述跟蹤目標(biāo)的中心點(diǎn)坐標(biāo)(x,y)、寬度信息w和高度信息h。
步驟102、根據(jù)所述位置信息確定所述跟蹤目標(biāo)的第一搜索區(qū)域;
在步驟102中,指定物體跟蹤裝置根據(jù)所述位置信息確定所述跟蹤目標(biāo)的第一搜索區(qū)域Rorg,所述第一搜索區(qū)域?yàn)楫?dāng)前幀對(duì)應(yīng)的搜索區(qū)域。Rorg的高h(yuǎn)R=pad*h,寬wR=pad*w;其中,pad值表示搜索區(qū)域相對(duì)于跟蹤目標(biāo)的矩形框的大小倍數(shù),該pad值可以取2.5。
具體的,指定物體跟蹤裝置可以以所述跟蹤目標(biāo)的中心點(diǎn)坐標(biāo)(x,y)為中心,并根據(jù)所述寬度信息w和高度信息h的比例確定所述跟蹤目標(biāo)的第一搜索區(qū)域Rorg。
可以理解的是,在實(shí)際應(yīng)用中,第一搜索區(qū)域的確定方式可以有多種,本發(fā)明實(shí)施例僅舉出一種實(shí)現(xiàn)方式,該實(shí)現(xiàn)方式不應(yīng)理解為本發(fā)明實(shí)施例的唯一實(shí)現(xiàn)方法。
步驟103、根據(jù)所述第一搜索區(qū)域確定第一混合特征;
在步驟103中,指定物體跟蹤裝置根據(jù)所述第一搜索區(qū)域Rstd確定第一混合特征Zfea,請(qǐng)參閱圖3,上述第一混合特征Zfea包括:卷積神經(jīng)網(wǎng)絡(luò)特征Zcnn、方向梯度直方圖(HOG,Histogram of Oriented Gradient)特征Zhog和顏色特征Zlab。
示例性的,在實(shí)際應(yīng)用中,上述第一混合特征Zfea可以具體為a*Zcnn,,(1-a)*Zhog,或者(1-a)*Zlab,其中,a為權(quán)重系數(shù),控制卷積神經(jīng)網(wǎng)絡(luò)特征和傳統(tǒng)特征(邊緣,顏色)之間的比重。
具體的,所述卷積神經(jīng)網(wǎng)絡(luò)特征Zcnn可以通過(guò)對(duì)所述第一搜索區(qū)域Rstd進(jìn)行卷積網(wǎng)絡(luò)的濾波得到;在實(shí)際應(yīng)用中,在得到第一搜索區(qū)域后,可以在該區(qū)域中利用多域卷積神經(jīng)網(wǎng)絡(luò)的視覺(jué)跟蹤(MDNet,Multi-Domain Convolutional Neural Networks for Visual Tracking)訓(xùn)練得到的卷積網(wǎng)絡(luò)的第一層濾波器進(jìn)行濾波。
因?yàn)镸DNet的卷積層特征可以學(xué)習(xí)到前景目標(biāo)的共性特征,所以這種卷積神經(jīng)網(wǎng)絡(luò)提取的特征更適合完成任意目標(biāo)的跟蹤任務(wù),可以獲得更高的跟蹤精度。
具體的,HOG特征Zhog和顏色特征Zlab可以從歸一化的第一搜索區(qū)域中提取得到。
步驟104、以所述第一混合特征作為輸入,計(jì)算目標(biāo)模板;
在步驟104中,指定物體跟蹤裝置以所述第一混合特征Zfea作為輸入,計(jì)算目標(biāo)模板tmpl,所述目標(biāo)模板tmpl用于將所述跟蹤目標(biāo)的特征信息轉(zhuǎn)化為位置信息,從而實(shí)現(xiàn)對(duì)跟蹤目標(biāo)的跟蹤。在實(shí)際應(yīng)用中,目標(biāo)模板可以為一個(gè)權(quán)重矩陣,把跟蹤目標(biāo)的特征矩陣映射成跟蹤目標(biāo)的位置分布矩陣。
示例性的,在實(shí)際應(yīng)用中,目標(biāo)模板tmpl可以為其中,公式中的⊙表示矩陣元素相乘,公式中的除法為矩陣元素相除,公式中的λ為正則化參數(shù),公式中的表示對(duì)應(yīng)變量的快速傅里葉變換(FFT,F(xiàn)ast Fourier Transformation),公式中的*表示復(fù)數(shù)的共軛,公式中的是經(jīng)過(guò)FFT變換后的高斯核。
可以理解的是,在實(shí)際應(yīng)用中,目標(biāo)模板tmpl可以有多種表現(xiàn)形式,本發(fā)明實(shí)施例僅舉出一種實(shí)現(xiàn)方式,該實(shí)現(xiàn)方式不應(yīng)理解為本發(fā)明實(shí)施例的唯一實(shí)現(xiàn)方法。
步驟105、獲取下一幀中所述跟蹤目標(biāo)在相同的所述位置信息下的M個(gè)第二搜索區(qū)域;
在步驟105中,指定物體跟蹤裝置獲取下一幀中所述跟蹤目標(biāo)在相同的所述位置信息下的M個(gè)第二搜索區(qū)域RSi,所述M為大于或等于3的整數(shù),所述M個(gè)第二搜索區(qū)域RSi分別對(duì)應(yīng)M個(gè)不同的搜索尺寸。
其中,第二搜索區(qū)域?yàn)橄乱粠瑘D像對(duì)應(yīng)的搜索區(qū)域,且所述第二搜索區(qū)域可以有多個(gè),在實(shí)際應(yīng)用中,為了能實(shí)時(shí)檢測(cè)出目標(biāo)大小,M=3是最小的尺度變化量化量。取M=5,7,9….等較大的M值可以獲得更精確的目標(biāo)大小信息,但是會(huì)損失運(yùn)算速度,影響跟蹤算法的速度。
步驟106、根據(jù)所述M個(gè)第二搜索區(qū)域確定M個(gè)分別對(duì)應(yīng)的第二混合特征圖;
在步驟106中,指定物體跟蹤裝置根據(jù)所述M個(gè)第二搜索區(qū)域RSi確定M個(gè)分別對(duì)應(yīng)的第二混合特征圖ZSi。具體的,所述第二混合特征圖也包括卷積神經(jīng)網(wǎng)絡(luò)特征、HOG特征和顏色特征;并且,根據(jù)第二搜索區(qū)域確定第二混合特征圖的方式可以參數(shù)上述步驟103相似,此次不再贅述。
步驟107、根據(jù)所述目標(biāo)模板和所述第二混合特征圖計(jì)算所述跟蹤目標(biāo)的特征響應(yīng)圖;
在步驟107中,指定物體跟蹤裝置根據(jù)所述目標(biāo)模板tmpl和所述第二混合特征圖ZSi計(jì)算所述跟蹤目標(biāo)的特征響應(yīng)圖Rmapsi。
示例性的,指定物體跟蹤裝置可以以所述目標(biāo)模板tmpl和所述第二混合特征圖ZSi作為輸入,根據(jù)公式Rmapsi=FFT-1(tmpl⊙FFT(Zsi))計(jì)算特征響應(yīng)圖Rmapsi。
可以理解的是,在實(shí)際應(yīng)用中,計(jì)算特征響應(yīng)圖的計(jì)算方式可以有多種,本發(fā)明實(shí)施例僅舉出一種實(shí)現(xiàn)方式,該實(shí)現(xiàn)方式不應(yīng)理解為本發(fā)明實(shí)施例的唯一實(shí)現(xiàn)方法。
步驟108、確定所述特征響應(yīng)圖中濾波響應(yīng)最大的特征點(diǎn)的位置為所述跟蹤目標(biāo)的位置。
在步驟108中,指定物體跟蹤裝置確定所述特征響應(yīng)圖Rmapsi中濾波響應(yīng)最大的特征點(diǎn)的位置為所述跟蹤目標(biāo)的位置。
具體的,在實(shí)際應(yīng)用中,指定物體跟蹤裝置分別確定每一個(gè)搜索尺度對(duì)應(yīng)的特征響應(yīng)圖Rmapsi中濾波響應(yīng)最大的特征點(diǎn)的位置Lsi(x,y)=argmax(x,y)Rmapsi(x,y);再在M個(gè)搜索尺度對(duì)應(yīng)的最大的特征點(diǎn)的位置中,確定濾波響應(yīng)最大的特征點(diǎn)為所述跟蹤目標(biāo)的位置(xt,yt)=maxsi(Lsi(x,y))。
本發(fā)明實(shí)施例中,在確認(rèn)跟蹤目標(biāo)之后,根據(jù)跟蹤目標(biāo)的位置信息確定第一搜索區(qū)域,再根據(jù)所述第一搜索區(qū)域確定第一混合特征;其中,所述第一混合特征包括:卷積神經(jīng)網(wǎng)絡(luò)特征、HOG特征和顏色特征;以所述第一混合特征作為輸入,計(jì)算目標(biāo)模板;然后,獲取下一幀中所述跟蹤目標(biāo)在相同的所述位置信息下的M個(gè)第二搜索區(qū)域,并根據(jù)所述M個(gè)第二搜索區(qū)域確定M個(gè)分別對(duì)應(yīng)的第二混合特征圖;最后,根據(jù)所述目標(biāo)模板和所述第二混合特征圖計(jì)算所述跟蹤目標(biāo)的特征響應(yīng)圖,確定所述特征響應(yīng)圖中濾波響應(yīng)最大的特征點(diǎn)的位置為所述跟蹤目標(biāo)的位置,完成跟蹤目標(biāo)的跟蹤。為了適應(yīng)各種復(fù)雜的跟蹤場(chǎng)景,本發(fā)明實(shí)施例將卷積神經(jīng)網(wǎng)絡(luò)特征和HOG特征,LAB顏色特征級(jí)聯(lián)起來(lái),可進(jìn)一步提升跟蹤效果,提高跟蹤的準(zhǔn)確率。
需要說(shuō)明的是,本發(fā)明實(shí)施例中的指定物體跟蹤方法可以由指定物體跟蹤裝置執(zhí)行。上述指定物體跟蹤裝置可以集成在機(jī)器人、監(jiān)控終端或其它終端中,此處不作限定。
實(shí)施例二
請(qǐng)參閱圖2,在實(shí)際應(yīng)用中,由于指定目標(biāo)跟蹤系統(tǒng)的硬件資源一般非常有限,在完成目標(biāo)跟蹤任務(wù)的同時(shí)還要進(jìn)行其它任務(wù)的處理,因此該類(lèi)型的算法不宜占用過(guò)多的計(jì)算資源和存儲(chǔ)資源,本發(fā)明實(shí)施例做了相應(yīng)的優(yōu)化,具體包括:
步驟201、獲取當(dāng)前幀中跟蹤目標(biāo)的位置信息;
在步驟201中,指定物體跟蹤裝置獲取當(dāng)前幀中跟蹤目標(biāo)的位置信息。在實(shí)際應(yīng)用中的,在跟蹤視頻實(shí)時(shí)播放時(shí),用戶(hù)實(shí)時(shí)對(duì)跟蹤視頻中的當(dāng)前幀進(jìn)行標(biāo)注,標(biāo)注出跟蹤目標(biāo)的矩形框,指定物體跟蹤裝置獲取所述矩形框中跟蹤目標(biāo)對(duì)應(yīng)的位置信息。
具體的,所述位置信息包括:所述跟蹤目標(biāo)的中心點(diǎn)坐標(biāo)(x,y)、寬度信息w和高度信息h。
步驟202、根據(jù)所述位置信息確定所述跟蹤目標(biāo)的第一搜索區(qū)域;
在步驟202中,指定物體跟蹤裝置根據(jù)所述位置信息確定所述跟蹤目標(biāo)的第一搜索區(qū)域Rorg,所述第一搜索區(qū)域?yàn)楫?dāng)前幀對(duì)應(yīng)的搜索區(qū)域。Rorg的高h(yuǎn)R=pad*h,寬wR=pad*w;其中,pad值表示搜索區(qū)域相對(duì)于跟蹤目標(biāo)的矩形框的大小倍數(shù),該pad值可以取2.5。
具體的,指定物體跟蹤裝置可以以所述跟蹤目標(biāo)的中心點(diǎn)坐標(biāo)(x,y)為中心,并根據(jù)所述寬度信息w和高度信息h的比例確定所述跟蹤目標(biāo)的第一搜索區(qū)域Rorg。
可以理解的是,在實(shí)際應(yīng)用中,第一搜索區(qū)域的確定方式可以有多種,本發(fā)明實(shí)施例僅舉出一種實(shí)現(xiàn)方式,該實(shí)現(xiàn)方式不應(yīng)理解為本發(fā)明實(shí)施例的唯一實(shí)現(xiàn)方法。
步驟203、根據(jù)所述寬度信息和高度信息確定所述第一搜索區(qū)域的縮放尺度值;
在步驟203中,指定物體跟蹤裝置根據(jù)所述寬度信息和高度信息確定所述第一搜索區(qū)域的縮放尺度值。具體的,指定物體跟蹤裝置根據(jù)所述跟蹤目標(biāo)的寬度信息w和高度信息h,確定所述跟蹤目標(biāo)的長(zhǎng)邊LR,所述跟蹤目標(biāo)的長(zhǎng)邊LR為所述第一搜索區(qū)域中長(zhǎng)度最長(zhǎng)的邊框線段;然后,再根據(jù)所述跟蹤目標(biāo)的長(zhǎng)邊LR確定所述第一搜索區(qū)域Rorg的縮放尺度值SR。
示例性的,所述長(zhǎng)邊LR可以根據(jù)公式LR=max(hR,wR)確定,在本發(fā)明實(shí)施例中,跟蹤目標(biāo)的長(zhǎng)邊被限制為固定長(zhǎng)度LR_max??s放尺度值SR可以根據(jù)公式SR=LR_max/LR確定。
在本發(fā)明實(shí)施例中,針對(duì)輸入目標(biāo)任意,以及算法實(shí)時(shí)性的要求,將輸入目標(biāo)矩形保持比例映射為長(zhǎng)邊固定大小,短邊按照長(zhǎng)邊縮放比例縮放。這樣可以把目標(biāo)按照比例縮小,減少程序計(jì)算特征以及計(jì)算目標(biāo)模板的時(shí)間。
步驟204、根據(jù)所述縮放尺度值將所述第一搜索區(qū)域縮放為第一標(biāo)準(zhǔn)搜索區(qū)域;
在步驟204中,指定物體跟蹤裝置根據(jù)所述縮放尺度值SR將所述第一搜索區(qū)域Rorg縮放為第一標(biāo)準(zhǔn)搜索區(qū)域Rstd,所述第一標(biāo)準(zhǔn)搜索區(qū)域?yàn)殚L(zhǎng)邊固定大小的搜索區(qū)域。具體的,Rstd的高和寬為(hstd,wstd)=(hR*SR,wR*SR)。
步驟205、對(duì)第一標(biāo)準(zhǔn)搜索區(qū)域中的圖像進(jìn)行卷積網(wǎng)絡(luò)的濾波;
在步驟205中,指定物體跟蹤裝置對(duì)第一標(biāo)準(zhǔn)搜索區(qū)域Rstd中的圖像進(jìn)行卷積網(wǎng)絡(luò)的濾波,得到卷積神經(jīng)網(wǎng)絡(luò)特征Zcnn。
在實(shí)際應(yīng)用中,在得到第一標(biāo)準(zhǔn)搜索區(qū)域后,可以在該區(qū)域中利用MDNet訓(xùn)練得到的卷積網(wǎng)絡(luò)的第一層濾波器進(jìn)行濾波。因?yàn)镸DNet的卷積層特征可以學(xué)習(xí)到前景目標(biāo)的共性特征,所以這種卷積神經(jīng)網(wǎng)絡(luò)提取的特征更適合完成任意目標(biāo)的跟蹤任務(wù),可以獲得更高的跟蹤精度。
具體的,濾波后得到的卷積神經(jīng)網(wǎng)絡(luò)特征Zcnn的大小為hZ*wZ*cZ,其中hZ,wZ為卷積神經(jīng)網(wǎng)絡(luò)特征的高和寬,cZ為卷積神經(jīng)網(wǎng)絡(luò)特征的通道數(shù)。
步驟206、對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)特征進(jìn)行空間降維和通道降維;
在步驟206中,指定物體跟蹤裝置對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)特征Zcnn進(jìn)行空間降維和通道降維。示例性的,卷積神經(jīng)網(wǎng)絡(luò)特征圖的空間降維,對(duì)得到的卷積神經(jīng)網(wǎng)絡(luò)特征Zcnn的每一個(gè)通道分別進(jìn)行4*4Max pooling(最大值池化操作),將其寬,高降低為Zcnn的一半,從而將空間維度降低為Zcnn的四分之一。卷積神經(jīng)網(wǎng)絡(luò)特征的通道降維,對(duì)空間降維后的卷積神經(jīng)網(wǎng)絡(luò)特征圖進(jìn)行降維,將特征圖的特征通道數(shù)降到cZ_min=32。經(jīng)過(guò)空間以及通道降維后的特征卷積Zmin的維度降低為(0.5*hZ,0.5*wZ,cZ_min)。
在本發(fā)明實(shí)施例中,由于原始的卷積神經(jīng)網(wǎng)絡(luò)提取的第一層特征維度較高,直接用于跟蹤,在特征提取以及后續(xù)處理過(guò)程中會(huì)大大降低處理速度。同時(shí),在獲取的首層卷積神經(jīng)網(wǎng)絡(luò)的特征中,存在大量的冗余,包括空間冗余和通道冗余。在原來(lái)的網(wǎng)絡(luò)中由于存在多層神經(jīng)網(wǎng)絡(luò),冗余信息可以在后面被消除掉。因此,本發(fā)明實(shí)施例通過(guò)空間降維和通道降維結(jié)合的方式來(lái)消除空間冗余和減少特征通道,從而達(dá)到在保證跟蹤性能的前提下,大大提升了跟蹤速度。
步驟207、根據(jù)所述第一標(biāo)準(zhǔn)搜索區(qū)域提取方向梯度直方圖HOG特征和顏色特征;
在步驟207中,指定物體跟蹤裝置根據(jù)所述第一標(biāo)準(zhǔn)搜索區(qū)域Rstd提取方向梯度直方圖HOG特征Zlog和顏色特征Zlab。示例性的,指定物體跟蹤裝置可以提取核大小為(4×4)的HOG特征Zlog,得到維度為(0.5*hZ,0.5*wZ,chog)的特征矩陣。特征的通道數(shù)為chog=31;指定物體跟蹤裝置可以提取核大小為(4×4)的LAB顏色特征Zlab,特征的維度為(0.5*hZ,0.5*wZ,clabg),其中顏色特征的通道數(shù)為clab=15。
步驟208、輸出第一混合特征;
在步驟208中,指定物體跟蹤裝置根據(jù)預(yù)算權(quán)重將所述卷積神經(jīng)網(wǎng)絡(luò)特征Rstd、所述HOG特征Zlog和所述顏色特征Zlab配置為第一混合特征Zfea。
示例性的,上述第一混合特征Zfea具體可以為:a*Zcnn,(1-a)*Zhog,或者(1-a)*Zlab,其中,a為權(quán)重系數(shù),控制卷積神經(jīng)網(wǎng)絡(luò)特征和傳統(tǒng)特征(邊緣,顏色)之間的比重。
步驟209、以所述第一混合特征作為輸入,計(jì)算目標(biāo)模板;
在步驟209中,指定物體跟蹤裝置以所述第一混合特征Zfea作為輸入,計(jì)算目標(biāo)模板tmpl,所述目標(biāo)模板tmpl用于將所述跟蹤目標(biāo)的特征信息轉(zhuǎn)化為位置信息,從而實(shí)現(xiàn)對(duì)跟蹤目標(biāo)的跟蹤。在實(shí)際應(yīng)用中,目標(biāo)模板可以為一個(gè)權(quán)重矩陣,把跟蹤目標(biāo)的特征矩陣映射成跟蹤目標(biāo)的位置分布矩陣。
示例性的,在實(shí)際應(yīng)用中,目標(biāo)模板tmpl可以為其中,公式中的⊙表示矩陣元素相乘,公式中的除法為矩陣元素相除,公式中的λ為正則化參數(shù),公式中的表示對(duì)應(yīng)變量的快速傅里葉變換,公式中的*表示復(fù)數(shù)的共軛,公式中的是經(jīng)過(guò)FFT變換后的高斯核。
可以理解的是,在實(shí)際應(yīng)用中,目標(biāo)模板tmpl可以有多種表現(xiàn)形式,本發(fā)明實(shí)施例僅舉出一種實(shí)現(xiàn)方式,該實(shí)現(xiàn)方式不應(yīng)理解為本發(fā)明實(shí)施例的唯一實(shí)現(xiàn)方法。
步驟210、獲取下一幀中所述跟蹤目標(biāo)在相同的所述位置信息下的M個(gè)第二搜索區(qū)域;
在步驟210中,指定物體跟蹤裝置獲取下一幀中所述跟蹤目標(biāo)在相同的所述位置信息下的M個(gè)第二搜索區(qū)域RSi,所述M為大于或等于3的整數(shù),所述M個(gè)第二搜索區(qū)域RSi分別對(duì)應(yīng)M個(gè)不同的搜索尺寸。
其中,第二搜索區(qū)域?yàn)橄乱粠瑘D像對(duì)應(yīng)的搜索區(qū)域,且所述第二搜索區(qū)域可以有多個(gè),在實(shí)際應(yīng)用中,為了能實(shí)時(shí)檢測(cè)出目標(biāo)大小,M=3是最小的尺度變化量化量。取M=5,7,9….等較大的M值可以獲得更精確的目標(biāo)大小信息,但是會(huì)損失運(yùn)算速度,影響跟蹤算法的速度。
示例性的,請(qǐng)參閱圖4,本發(fā)明實(shí)施例以M=3為例進(jìn)行說(shuō)明。其中,Ri∈{RS-1,RS0,RS+1},i∈{-1,0,1}。RS0的大小與前一幀搜索區(qū)域的大小一樣。RS1為(x,y,w,h),RS+1為(x,y,w*Sstep,h*Sstep),RS-1為(x,y,w/Sstep,h/Sstep),其中,Sstep為尺度變化因子,Sstep=1.05;所述尺度因子為擴(kuò)大或者縮小搜索區(qū)域的系數(shù),用于生成不同尺度的搜索區(qū)域。
指定物體跟蹤裝置將提取到的不同尺度的搜索區(qū)域Ri∈{RS-1,RS0,RS+1}歸一化到指定大小(hstd,wstd),從而得到歸一化的搜索區(qū),RstdSi={RstdS-1,RstdS0,RstdS+1}。
步驟211、根據(jù)所述M個(gè)第二搜索區(qū)域確定M個(gè)分別對(duì)應(yīng)的第二混合特征圖;
在步驟211中,指定物體跟蹤裝置根據(jù)所述M個(gè)第二搜索區(qū)域RSi確定M個(gè)分別對(duì)應(yīng)的第二混合特征圖ZSi。在RstdSi∈{RstdS-1,RstdS0,RstdS+1}上提取帶權(quán)重的級(jí)聯(lián)的混合特征Z=wcnn*Zcnn+whog*Zhog+wlab*Zlab。得到各個(gè)尺度搜索區(qū)域相對(duì)應(yīng)的混合特征Zi∈{ZS-1,ZS0,ZS+1}。
步驟212、根據(jù)所述目標(biāo)模板和所述第二混合特征圖計(jì)算所述跟蹤目標(biāo)的特征響應(yīng)圖;
在步驟212中,指定物體跟蹤裝置根據(jù)所述目標(biāo)模板tmpl和所述第二混合特征圖Zst計(jì)算所述跟蹤目標(biāo)的特征響應(yīng)圖Rmapsi。
示例性的,指定物體跟蹤裝置可以以所述目標(biāo)模板tmpl和所述第二混合特征圖Zst作為輸入,根據(jù)公式Rmapsi=FFT-1(tmpl⊙FFT(Zsi))計(jì)算特征響應(yīng)圖Rmapsi。
可以理解的是,在實(shí)際應(yīng)用中,計(jì)算特征響應(yīng)圖的計(jì)算方式可以有多種,本發(fā)明實(shí)施例僅舉出一種實(shí)現(xiàn)方式,該實(shí)現(xiàn)方式不應(yīng)理解為本發(fā)明實(shí)施例的唯一實(shí)現(xiàn)方法。
步驟213、確定所述特征響應(yīng)圖中濾波響應(yīng)最大的特征點(diǎn)的位置為所述跟蹤目標(biāo)的位置;
在步驟213中,指定物體跟蹤裝置確定所述特征響應(yīng)圖Rmapsi中濾波響應(yīng)最大的特征點(diǎn)的位置為所述跟蹤目標(biāo)的位置。
具體的,在實(shí)際應(yīng)用中,指定物體跟蹤裝置分別確定每一個(gè)搜索尺度對(duì)應(yīng)的特征響應(yīng)圖Rmapsi中濾波響應(yīng)最大的特征點(diǎn)的位置Lsi(x,y)=argmax(x,y)Rmapsi(x,y);再在M個(gè)搜索尺度對(duì)應(yīng)的最大的特征點(diǎn)的位置中,確定濾波響應(yīng)最大的特征點(diǎn)為所述跟蹤目標(biāo)的位置(xt,yt)=maxsi(Lsi(x,y))。
步驟214、獲取所述濾波響應(yīng)最大的特征點(diǎn)對(duì)應(yīng)的搜索尺度,以及所述搜索尺度對(duì)應(yīng)的特征圖;
指定物體跟蹤裝置獲取所述濾波響應(yīng)最大的特征點(diǎn)對(duì)應(yīng)的搜索尺度St,以及所述搜索尺度St對(duì)應(yīng)的特征圖Zst。
步驟215、使用所述特征圖更新所述目標(biāo)模板;
指定物體跟蹤裝置使用所述特征圖Zst更新所述目標(biāo)模板tmpl,由于目標(biāo)在跟蹤過(guò)程中會(huì)不斷變化,所以需要使用目標(biāo)當(dāng)前特征圖不斷更新目標(biāo)模板。
步驟216、根據(jù)更新后的目標(biāo)模板判斷所述跟蹤目標(biāo)是否走出視頻區(qū)域;
指定物體跟蹤裝置根據(jù)更新后的目標(biāo)模板tmpl判斷所述跟蹤目標(biāo)是否走出視頻區(qū)域,若是,則停止跟蹤算法;若否,則執(zhí)行步驟217。
步驟217、檢測(cè)用戶(hù)是否停止跟蹤;
指定物體跟蹤裝置檢測(cè)用戶(hù)是否停止跟蹤,若是,則停止跟蹤算法;若否,則返回執(zhí)行步驟210,在下一幀中提取尺度為St+i,i∈{-1,0,1}的三個(gè)不同尺度的搜索區(qū)域。
本發(fā)明實(shí)施例具有以下有益效果:
1、本發(fā)明實(shí)施例針對(duì)輸入目標(biāo)任意,以及算法實(shí)時(shí)性的要求,將輸入目標(biāo)矩形保持比例映射為長(zhǎng)邊固定大小,短邊按照長(zhǎng)邊縮放比例縮放。可以把目標(biāo)按照比例縮小,減少程序計(jì)算特征以及計(jì)算目標(biāo)模板的時(shí)間。
2、本發(fā)明實(shí)施例使用MDNet的卷積神經(jīng)網(wǎng)絡(luò)的第一層特征作為輸入,由于MDNet的卷積層特征可以學(xué)習(xí)到前景目標(biāo)的共性特征,所以這種卷積神經(jīng)網(wǎng)絡(luò)提取的特征更適合完成任意目標(biāo)的跟蹤任務(wù),可以獲得更高的跟蹤精度。
3、本發(fā)明實(shí)施例使用空間降維和通道降維結(jié)合的方式來(lái)消除空間冗余和減少特征通道,從而達(dá)到在保證跟蹤性能的前提下,大大提升了跟蹤速度。
4、為了適應(yīng)各種復(fù)雜的跟蹤場(chǎng)景,卷積神經(jīng)網(wǎng)絡(luò)特征可以和HOG特征,LAB顏色特征級(jí)聯(lián)起來(lái),共同作為輸入。進(jìn)一步提升跟蹤效果。由于卷積神經(jīng)網(wǎng)絡(luò)特征已經(jīng)經(jīng)過(guò)了降維處理,因此加HOG和LAB特征后不會(huì)增加很多處理時(shí)間。
5、通常視頻采集的速度可以達(dá)到25~30fps,因此物體在靠近或者原理攝像頭的過(guò)程中不會(huì)尺度快速變大或者變小。在本發(fā)明實(shí)施例中,只依據(jù)現(xiàn)在的搜索區(qū)域大小,對(duì)其做變大和變小兩個(gè)尺度的處理,然后將不同尺度的搜索區(qū)域歸一化到目標(biāo)模型大小。目標(biāo)模型只在當(dāng)前尺度下生成。這樣只需要生成一個(gè)尺度的目標(biāo)模型,同時(shí)待檢測(cè)的區(qū)域只包含當(dāng)前尺度和兩個(gè)臨近尺度,可以進(jìn)一步提升處理速度。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。
需要說(shuō)明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)便描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其它順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定都是本發(fā)明所必須的。
在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其它實(shí)施例的相關(guān)描述。
以上為對(duì)本發(fā)明所提供的一種指定物體跟蹤方法的描述,對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明實(shí)施例的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。