本發(fā)明涉及目標(biāo)跟蹤技術(shù)領(lǐng)域,具體涉及一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法及裝置。
背景技術(shù):
目標(biāo)跟蹤技術(shù)在智能安防領(lǐng)域、車載輔助系統(tǒng)或者軍事領(lǐng)域等都有著十分廣泛的應(yīng)用。目標(biāo)跟蹤技術(shù)通常先檢測出目標(biāo),然后對檢測出的目標(biāo)進(jìn)行跟蹤。例如,在多目標(biāo)跟蹤過程中,需要對多個目標(biāo)進(jìn)行管理,由于每個目標(biāo)都有各自的生存周期,即從目標(biāo)出現(xiàn)到目標(biāo)消失,每個目標(biāo)在生命周期中正常跟蹤狀態(tài)與丟失狀態(tài)如何進(jìn)行正確轉(zhuǎn)換,目標(biāo)被遮擋或者在某一幀沒有被檢測到,以及每幀檢測到的新目標(biāo)如何與已有的跟蹤目標(biāo)進(jìn)行關(guān)聯(lián)。在目標(biāo)跟蹤過程中,出現(xiàn)目標(biāo)交叉或粘連時容易發(fā)生目標(biāo)合并以及目標(biāo)間的漂移從而導(dǎo)致目標(biāo)標(biāo)識互換的情況;或者由于目標(biāo)與背景的漂移導(dǎo)致假目標(biāo);或者當(dāng)目標(biāo)在快速運動時出現(xiàn)目標(biāo)跟斷的情況,或者在前后關(guān)聯(lián)時同一目標(biāo)沒有關(guān)聯(lián)上,又產(chǎn)生新的目標(biāo)標(biāo)識,導(dǎo)致同一目標(biāo)出現(xiàn)兩個目標(biāo)標(biāo)識的情況。
現(xiàn)有目標(biāo)跟蹤方法中對目標(biāo)狀態(tài)的管理,大多通過人工規(guī)則對目標(biāo)狀態(tài)進(jìn)行處理,當(dāng)遇到不同情況時設(shè)置不同的規(guī)則流程,對于上述目標(biāo)跟蹤過程中出現(xiàn)的較多復(fù)雜的實際情況,現(xiàn)有目標(biāo)跟蹤方法的準(zhǔn)確度較低。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題在于克服現(xiàn)有目標(biāo)跟蹤狀態(tài)根據(jù)人工規(guī)則處理準(zhǔn)確度較低的缺陷。
本發(fā)明提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法,包括:
獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型;
利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息;
從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息;
根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確;
當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。
優(yōu)選地,所述從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息,包括:
確定目標(biāo)狀態(tài);
計算幀間相似性;
根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性,計算獎勵值;
根據(jù)所述獎勵值,選擇具有最大獎勵值的軌跡;
根據(jù)最大獎勵值輸出所述最大獎勵值對應(yīng)的軌跡信息。
優(yōu)選地,所述確定目標(biāo)狀態(tài),包括:
根據(jù)所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息,確定目標(biāo)狀態(tài)。
優(yōu)選地,所述計算幀間相似性,包括:利用式(1)計算幀間相似性:
f(s)=Wφ(s)+b (1)
式(1)中,s表示目標(biāo)狀態(tài),φ(s)表示目標(biāo)狀態(tài)的向量,W和b為權(quán)重。
優(yōu)選地,所述根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性,計算獎勵值,包括:利用式(2)計算獎勵值:
R(s,a)=y(tǒng)(a)(Wφ(s)+b) (2)
式(2)中,a表示跟蹤動作,y(a)表示跟蹤動作a對應(yīng)的權(quán)重系數(shù)。
本發(fā)明還提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練裝置,包括:
獲取單元,用于獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型;
輸出單元,用于利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息;
選擇單元,用于從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息;
判斷單元,用于根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確;
更新單元,用于當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。
優(yōu)選地,所述選擇單元包括:
狀態(tài)確定子單元,用于確定目標(biāo)狀態(tài);
相似性計算子單元,用于計算幀間相似性;
獎勵值計算子單元,用于根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性,計算獎勵值;
選擇子單元,用于根據(jù)所述獎勵值,選擇具有最大獎勵值的軌跡;
輸出子單元,用于根據(jù)最大獎勵值輸出所述最大獎勵值對應(yīng)的軌跡信息。
優(yōu)選地,所述確定目標(biāo)狀態(tài),包括:
根據(jù)所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息,確定目標(biāo)狀態(tài)。
優(yōu)選地,所述計算幀間相似性,包括:利用式(1)計算幀間相似性:
f(s)=Wφ(s)+b (1)
式(1)中,s表示目標(biāo)狀態(tài),φ(s)表示目標(biāo)狀態(tài)的向量,W和b為權(quán)重。
優(yōu)選地,所述根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性,計算獎勵值,包括:利用式(2)計算獎勵值:
R(s,a)=y(tǒng)(a)(Wφ(s)+b) (2)
式(2)中,a表示跟蹤動作,y(a)表示跟蹤動作a對應(yīng)的權(quán)重系數(shù)。
本發(fā)明技術(shù)方案,具有如下優(yōu)點:
本發(fā)明提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法及裝置,通過獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型;利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息;從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息;根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確;當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。該發(fā)明通過目標(biāo)在不同狀態(tài)下的已知軌跡信息不斷更新所述跟蹤狀態(tài)模型,實現(xiàn)訓(xùn)練所述跟蹤狀態(tài)模型的目的,從而實現(xiàn)不同情況下自動對目標(biāo)的跟蹤狀態(tài)進(jìn)行轉(zhuǎn)換。
附圖說明
為了更清楚地說明本發(fā)明具體實施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對具體實施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施方式,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法的流程圖;
圖2為一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練裝置的示意圖;
圖3為目標(biāo)跟蹤狀態(tài)轉(zhuǎn)換的流程圖。
具體實施方式
下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
在本發(fā)明的描述中,需要說明的是,術(shù)語“中心”、“上”、“下”、“左”、“右”、“豎直”、“水平”、“內(nèi)”、“外”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。此外,術(shù)語“第一”、“第二”、“第三”僅用于描述目的,而不能理解為指示或暗示相對重要性。
在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,還可以是兩個元件內(nèi)部的連通,可以是無線連接,也可以是有線連接。對于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
此外,下面所描述的本發(fā)明不同實施方式中所涉及的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互結(jié)合。
實施例1
本實施例提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法,該方法的流程圖如圖1所示。包括如下步驟:
S1:獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型。所述已知軌跡信息可以包括目標(biāo)的軌跡位置和目標(biāo)特征。所述目標(biāo)的跟蹤狀態(tài)模型包括相似性方程和獎勵函數(shù)。
具體地,所述不同狀態(tài)可以包括假設(shè)狀態(tài)、正常狀態(tài)、丟失狀態(tài)和刪除狀態(tài)。所述假設(shè)狀態(tài)是指當(dāng)目標(biāo)初次出現(xiàn)時,將其作為待跟蹤的目標(biāo)。優(yōu)選地,為防止目標(biāo)提取或檢測帶來的誤檢等造成的干擾,只有一幀出現(xiàn)的目標(biāo)并不立即將其作為待跟蹤的目標(biāo),只有在同一場景中前后連續(xù)多幀都出現(xiàn)該目標(biāo)時,才將其作為待跟蹤的目標(biāo)。所述正常狀態(tài)是指目標(biāo)在視頻序列的前后幀中都被檢測關(guān)聯(lián)到,則該目標(biāo)處于正常跟蹤狀態(tài)。優(yōu)選地,當(dāng)目標(biāo)的外觀發(fā)生變化時,需要對目標(biāo)進(jìn)行更新。所述丟失狀態(tài)是由于目標(biāo)被遮擋或者在某一幀沒有被檢測到等原因,使得目標(biāo)在某一幀沒有被跟蹤到。此時將目標(biāo)狀態(tài)轉(zhuǎn)換為丟失狀態(tài),同時保留該目標(biāo)在上一時刻被跟蹤到時的目標(biāo)特征。所述刪除狀態(tài)是指對于處于丟失狀態(tài)的目標(biāo),持續(xù)一段時間沒有再次被檢測到,則可以判定該目標(biāo)已經(jīng)離開場景。此時將目標(biāo)刪除,不再跟蹤。被跟蹤的目標(biāo)可以在多個狀態(tài)之間進(jìn)行轉(zhuǎn)換,狀態(tài)的轉(zhuǎn)換構(gòu)成一系列的動作集合。
S2:利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息。
S3:從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息。具體地,當(dāng)獲得目標(biāo)在當(dāng)前狀態(tài)s下輸出的軌跡信息時,根據(jù)所述當(dāng)前狀態(tài)s的向量執(zhí)行動作a,則所述目標(biāo)從當(dāng)前狀態(tài)s轉(zhuǎn)移到下一狀態(tài)sNext,同時接收到所述目標(biāo)跟蹤狀態(tài)模型的獎勵函數(shù)的反饋。
S4:根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確。將所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息進(jìn)行對比,具體地,可以通過坐標(biāo)位置信息進(jìn)行對比。當(dāng)目標(biāo)在一個狀態(tài)下的坐標(biāo)位置信息和相應(yīng)狀態(tài)的已知坐標(biāo)位置信息不一致時,判定所述目標(biāo)的跟蹤狀態(tài)不正確。
S5:當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。根據(jù)已知軌跡信息對所述相似性方程和獎勵函數(shù)進(jìn)行更新。
本發(fā)明提供的目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法,通過獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型;利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息;從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息;根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確;當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。該發(fā)明通過目標(biāo)在不同狀態(tài)下的已知軌跡信息不斷更新所述跟蹤狀態(tài)模型,實現(xiàn)訓(xùn)練所述跟蹤狀態(tài)模型的目的,從而實現(xiàn)不同情況下自動對目標(biāo)的跟蹤狀態(tài)進(jìn)行轉(zhuǎn)換。
作為一個具體的實施方式,上述步驟S3包括以下子步驟:
S31:確定目標(biāo)狀態(tài)。根據(jù)所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息,確定目標(biāo)狀態(tài)。
具體地,從新目標(biāo)出現(xiàn)被檢測到,進(jìn)入假設(shè)狀態(tài),會有兩種狀態(tài)可以轉(zhuǎn)換:正常狀態(tài)和丟失狀態(tài),其動作分別是a1和a2,如圖3所示。
對處于正常狀態(tài)下的目標(biāo),可以采用光流跟蹤方法,對跟蹤到的光流采用前后反饋的對稱性驗證以及相似性度量。將檢測結(jié)果與已有跟蹤結(jié)果關(guān)聯(lián),可以通過計算跟蹤的預(yù)測位置與檢測框的重疊度,避免關(guān)聯(lián)到誤檢,也可采用多種特征包括但不限于兩者質(zhì)心的L2距離、重疊度及梯度等。正常狀態(tài)下可以轉(zhuǎn)換的狀態(tài)有持續(xù)保持正常狀態(tài),或者由于遮擋或目標(biāo)離開視野進(jìn)入丟失狀態(tài),例如可以是短暫丟失狀態(tài),其動作分別是a3和a4。
對每個處于短暫丟失狀態(tài)的目標(biāo),計算與當(dāng)前檢測結(jié)果的相似度,通過匈牙利算法進(jìn)行數(shù)據(jù)關(guān)聯(lián),判斷是繼續(xù)處于短暫丟失狀態(tài),還是關(guān)聯(lián)重新出現(xiàn)的檢測框,轉(zhuǎn)回跟蹤的正常狀態(tài),其動作分別是a5和a6。
優(yōu)選地,對于短暫丟失狀態(tài)下的目標(biāo),可以轉(zhuǎn)換的狀態(tài)還包括丟失狀態(tài),其動作是a7;對于長期丟失狀態(tài)下的目標(biāo),可以轉(zhuǎn)換的狀態(tài)為丟失狀態(tài)或刪除狀態(tài),其動作是a8。
S32:計算幀間相似性。具體地,可以根據(jù)式(1)所示的相似性方程計算幀間相似性。
f(s)=Wφ(s)+b (1)
式(1)中,s表示目標(biāo)狀態(tài),φ(s)表示目標(biāo)狀態(tài)的向量,W和b為權(quán)重。
作為一個具體的實施方式,對于處于丟失狀態(tài)的目標(biāo)t和檢測結(jié)果d,使用相似性方程預(yù)測是否關(guān)聯(lián)??梢跃唧w展開相似性方程如下:
w1φ1(T,dk)+...+wnφn(T,dk)+b
其中,T表示目標(biāo)軌跡,dk表示當(dāng)前幀檢測到的第k個目標(biāo)。W1,W2,…Wn,b各權(quán)重是通過學(xué)習(xí)得到的,給出已知視頻序列中目標(biāo)的真值軌跡以及初始化相似性方程,跟蹤目標(biāo)并收集來自真值位置的反饋,其中各系數(shù)初始值是隨機(jī)產(chǎn)生的。
通過一系列特征表示來度量T與dk之間的相似度,選擇相似度最大的結(jié)果作為目標(biāo)在當(dāng)前幀跟蹤到的位置,從而實現(xiàn)利用數(shù)據(jù)關(guān)聯(lián)進(jìn)行目標(biāo)跟蹤的目的。其中特征度量從表觀appearance、運動模型motion、空間位置location等進(jìn)行描述。具體地,當(dāng)w1φ1(T,dk)+...+wnφn(T,dk)+b≥0時,目標(biāo)軌跡T與第k個目標(biāo)dk關(guān)聯(lián);否則不關(guān)聯(lián)。
S33:根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性,計算獎勵值;
根據(jù)式(2)所示的獎勵函數(shù)計算獎勵值:
R(s,a)=y(tǒng)(a)(Wφ(s)+b) (2)
式(2)中,y(a)表示執(zhí)行動作a時的權(quán)重系數(shù),所述跟蹤動作可以包括上述a1至a8中的任意一個。y(a)作為各動作的權(quán)重系數(shù),取值可以為0、1、-1。例如,在跟蹤目標(biāo)處于假設(shè)狀態(tài),當(dāng)動作為a1時,y(a)=1;當(dāng)動作為a2時,y(a)=-1;其它動作時為0。
其中后一項(W,b)定義了SVM(Support Vector Machine,支持向量機(jī))的分類超平面。在機(jī)器學(xué)習(xí)領(lǐng)域,SVM是一個有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識別、分類以及回歸分析。將檢測結(jié)果的置信度、目標(biāo)所在位置及尺度作為特征,通過標(biāo)注數(shù)據(jù)學(xué)習(xí)得到權(quán)重W及b。
優(yōu)選地,可以定義不同狀態(tài)下的具體獎勵函數(shù)。
例如,假設(shè)狀態(tài)下的獎勵函數(shù)如式(3)所示:
跟蹤正常狀態(tài)下的獎勵函數(shù)如式(4)所示:
式(4)中,emedFB表示光流跟蹤中所有前向-后向誤差的中值,e0表示最低可以接受的誤差,Omean表示跟蹤的預(yù)測位置和檢測框的重疊度,O0為同一目標(biāo)時位置框的重疊閾值。y(a)為各動作的權(quán)重系數(shù)。例如,當(dāng)動作為a3時,y(a)=1;當(dāng)動作為a4時,y(a)=-1。
丟失狀態(tài)下的獎勵函數(shù)如式(5)所示:
式(5)中,M指當(dāng)前幀中檢測到M個目標(biāo)結(jié)果,處于丟失狀態(tài)的目標(biāo)需要與其中的每個目標(biāo)進(jìn)行相似度判斷,y(a)表示執(zhí)行動作a時的權(quán)重系數(shù)。例如,當(dāng)動作為a6時,y(a)=1;當(dāng)動作為a5時,y(a)=-1。
對于關(guān)聯(lián)上檢測結(jié)果的目標(biāo),將其轉(zhuǎn)入正常跟蹤狀態(tài),并利用檢測結(jié)果更新目標(biāo);未關(guān)聯(lián)上的,保持該目標(biāo)的丟失狀態(tài)。
當(dāng)前檢測出的目標(biāo),未與已有的跟蹤目標(biāo)匹配上的,認(rèn)為是新進(jìn)入的目標(biāo),將該目標(biāo)轉(zhuǎn)入假設(shè)狀態(tài),作為待跟蹤的新目標(biāo),進(jìn)行后續(xù)的跟蹤。
S34:根據(jù)所述獎勵值,選擇具有最大獎勵值的軌跡。通過有效策略學(xué)習(xí)進(jìn)行狀態(tài)轉(zhuǎn)換,從而使得整個過程中的獎勵回報最大,也即實現(xiàn)了目標(biāo)準(zhǔn)確的跟蹤。
S35:根據(jù)最大獎勵值輸出所述最大獎勵值對應(yīng)的軌跡信息。
根據(jù)更新相似性方程來提高跟蹤性能。在對數(shù)據(jù)關(guān)聯(lián)產(chǎn)生錯誤決策的時候,對相似性方程進(jìn)行更新,有利于收集難樣例訓(xùn)練數(shù)據(jù)來訓(xùn)練相似性方程。比如目標(biāo)與新檢測的結(jié)果產(chǎn)生了錯誤的關(guān)聯(lián),通過調(diào)整系數(shù),將錯誤進(jìn)行糾正。當(dāng)決策過程能夠成功的跟蹤目標(biāo)時,完成對相似性方程即目標(biāo)跟蹤狀態(tài)模型的訓(xùn)練,實現(xiàn)根據(jù)模型自動對跟蹤的目標(biāo)進(jìn)行狀態(tài)轉(zhuǎn)換,同時使得狀態(tài)轉(zhuǎn)換過程中的獎勵反饋值最大,也即實現(xiàn)了對目標(biāo)的準(zhǔn)確跟蹤。
實施例2
本實施例提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練裝置,該裝置的示意圖如圖2所示。包括:
獲取單元10,用于獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型。所述已知軌跡信息可以包括目標(biāo)的軌跡位置和目標(biāo)特征。所述目標(biāo)的跟蹤狀態(tài)模型包括相似性方程和獎勵函數(shù)。
輸出單元20,用于利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息。
選擇單元30,用于從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息。具體地,當(dāng)獲得目標(biāo)在當(dāng)前狀態(tài)s下輸出的軌跡信息時,根據(jù)所述當(dāng)前狀態(tài)s的向量執(zhí)行動作a,則所述目標(biāo)從當(dāng)前狀態(tài)s轉(zhuǎn)移到下一狀態(tài)sNext,同時接收到所述目標(biāo)跟蹤狀態(tài)模型的獎勵函數(shù)的反饋。
判斷單元40,用于根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確。將所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息進(jìn)行對比,具體地,可以通過坐標(biāo)位置信息進(jìn)行對比。當(dāng)目標(biāo)在一個狀態(tài)下的坐標(biāo)位置信息和相應(yīng)狀態(tài)的已知坐標(biāo)位置信息不一致時,判定所述目標(biāo)的跟蹤狀態(tài)不正確。
更新單元50,用于當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。根據(jù)已知軌跡信息對所述相似性方程和獎勵函數(shù)進(jìn)行更新。
本發(fā)明提供的目標(biāo)跟蹤狀態(tài)模型訓(xùn)練裝置,通過獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型;利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息;從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息;根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確;當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。該發(fā)明通過目標(biāo)在不同狀態(tài)下的已知軌跡信息不斷更新所述跟蹤狀態(tài)模型,實現(xiàn)訓(xùn)練所述跟蹤狀態(tài)模型的目的,從而實現(xiàn)不同情況下自動對目標(biāo)的跟蹤狀態(tài)進(jìn)行轉(zhuǎn)換。
作為一個具體的實施方式,選擇單元30包括:
狀態(tài)確定子單元,用于確定目標(biāo)狀態(tài)。根據(jù)所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息,確定目標(biāo)狀態(tài)。
相似性計算子單元,用于計算幀間相似性。具體地,可以根據(jù)式(1)所示的相似性方程計算幀間相似性。
f(s)=Wφ(s)+b (1)
式(1)中,s表示目標(biāo)狀態(tài),φ(s)表示目標(biāo)狀態(tài)的向量,W和b為權(quán)重。
獎勵值計算子單元,用于根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性,計算獎勵值。具體地,可以根據(jù)式(2)所示的獎勵函數(shù)計算獎勵值:
R(s,a)=y(tǒng)(a)(Wφ(s)+b) (2)
式(2)中,y(a)表示執(zhí)行動作a時的權(quán)重系數(shù),所述跟蹤動作可以包括上述a1至a8中的任意一個。y(a)作為各動作的權(quán)重系數(shù),取值可以為0、1、-1。例如,在跟蹤目標(biāo)處于假設(shè)狀態(tài),當(dāng)動作為a1時,y(a)=1;當(dāng)動作為a2時,y(a)=-1;其它動作時為0。
選擇子單元,用于根據(jù)所述獎勵值,選擇具有最大獎勵值的軌跡。通過有效策略學(xué)習(xí)進(jìn)行狀態(tài)轉(zhuǎn)換,從而使得整個過程中的獎勵回報最大,也即實現(xiàn)了目標(biāo)準(zhǔn)確的跟蹤。
輸出子單元,用于根據(jù)最大獎勵值輸出所述最大獎勵值對應(yīng)的軌跡信息。
根據(jù)更新相似性方程來提高跟蹤性能。在對數(shù)據(jù)關(guān)聯(lián)產(chǎn)生錯誤決策的時候,對相似性方程進(jìn)行更新,有利于收集難樣例訓(xùn)練數(shù)據(jù)來訓(xùn)練相似性方程。比如目標(biāo)與新檢測的結(jié)果產(chǎn)生了錯誤的關(guān)聯(lián),通過調(diào)整系數(shù),將錯誤進(jìn)行糾正。當(dāng)決策過程能夠成功的跟蹤目標(biāo)時,完成對相似性方程即目標(biāo)跟蹤狀態(tài)模型的訓(xùn)練,實現(xiàn)根據(jù)模型自動對跟蹤的目標(biāo)進(jìn)行狀態(tài)轉(zhuǎn)換,同時使得狀態(tài)轉(zhuǎn)換過程中的獎勵反饋值最大,也即實現(xiàn)了對目標(biāo)的準(zhǔn)確跟蹤。
顯然,上述實施例僅僅是為清楚地說明所作的舉例,而并非對實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。