亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法及裝置與流程

文檔序號:12721184閱讀:373來源:國知局
一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法及裝置與流程

本發(fā)明涉及目標(biāo)跟蹤技術(shù)領(lǐng)域,具體涉及一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法及裝置。



背景技術(shù):

目標(biāo)跟蹤技術(shù)在智能安防領(lǐng)域、車載輔助系統(tǒng)或者軍事領(lǐng)域等都有著十分廣泛的應(yīng)用。目標(biāo)跟蹤技術(shù)通常先檢測出目標(biāo),然后對檢測出的目標(biāo)進(jìn)行跟蹤。例如,在多目標(biāo)跟蹤過程中,需要對多個目標(biāo)進(jìn)行管理,由于每個目標(biāo)都有各自的生存周期,即從目標(biāo)出現(xiàn)到目標(biāo)消失,每個目標(biāo)在生命周期中正常跟蹤狀態(tài)與丟失狀態(tài)如何進(jìn)行正確轉(zhuǎn)換,目標(biāo)被遮擋或者在某一幀沒有被檢測到,以及每幀檢測到的新目標(biāo)如何與已有的跟蹤目標(biāo)進(jìn)行關(guān)聯(lián)。在目標(biāo)跟蹤過程中,出現(xiàn)目標(biāo)交叉或粘連時容易發(fā)生目標(biāo)合并以及目標(biāo)間的漂移從而導(dǎo)致目標(biāo)標(biāo)識互換的情況;或者由于目標(biāo)與背景的漂移導(dǎo)致假目標(biāo);或者當(dāng)目標(biāo)在快速運動時出現(xiàn)目標(biāo)跟斷的情況,或者在前后關(guān)聯(lián)時同一目標(biāo)沒有關(guān)聯(lián)上,又產(chǎn)生新的目標(biāo)標(biāo)識,導(dǎo)致同一目標(biāo)出現(xiàn)兩個目標(biāo)標(biāo)識的情況。

現(xiàn)有目標(biāo)跟蹤方法中對目標(biāo)狀態(tài)的管理,大多通過人工規(guī)則對目標(biāo)狀態(tài)進(jìn)行處理,當(dāng)遇到不同情況時設(shè)置不同的規(guī)則流程,對于上述目標(biāo)跟蹤過程中出現(xiàn)的較多復(fù)雜的實際情況,現(xiàn)有目標(biāo)跟蹤方法的準(zhǔn)確度較低。



技術(shù)實現(xiàn)要素:

本發(fā)明要解決的技術(shù)問題在于克服現(xiàn)有目標(biāo)跟蹤狀態(tài)根據(jù)人工規(guī)則處理準(zhǔn)確度較低的缺陷。

本發(fā)明提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法,包括:

獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型;

利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息;

從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息;

根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確;

當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。

優(yōu)選地,所述從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息,包括:

確定目標(biāo)狀態(tài);

計算幀間相似性;

根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性,計算獎勵值;

根據(jù)所述獎勵值,選擇具有最大獎勵值的軌跡;

根據(jù)最大獎勵值輸出所述最大獎勵值對應(yīng)的軌跡信息。

優(yōu)選地,所述確定目標(biāo)狀態(tài),包括:

根據(jù)所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息,確定目標(biāo)狀態(tài)。

優(yōu)選地,所述計算幀間相似性,包括:利用式(1)計算幀間相似性:

f(s)=Wφ(s)+b (1)

式(1)中,s表示目標(biāo)狀態(tài),φ(s)表示目標(biāo)狀態(tài)的向量,W和b為權(quán)重。

優(yōu)選地,所述根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性,計算獎勵值,包括:利用式(2)計算獎勵值:

R(s,a)=y(tǒng)(a)(Wφ(s)+b) (2)

式(2)中,a表示跟蹤動作,y(a)表示跟蹤動作a對應(yīng)的權(quán)重系數(shù)。

本發(fā)明還提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練裝置,包括:

獲取單元,用于獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型;

輸出單元,用于利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息;

選擇單元,用于從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息;

判斷單元,用于根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確;

更新單元,用于當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。

優(yōu)選地,所述選擇單元包括:

狀態(tài)確定子單元,用于確定目標(biāo)狀態(tài);

相似性計算子單元,用于計算幀間相似性;

獎勵值計算子單元,用于根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性,計算獎勵值;

選擇子單元,用于根據(jù)所述獎勵值,選擇具有最大獎勵值的軌跡;

輸出子單元,用于根據(jù)最大獎勵值輸出所述最大獎勵值對應(yīng)的軌跡信息。

優(yōu)選地,所述確定目標(biāo)狀態(tài),包括:

根據(jù)所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息,確定目標(biāo)狀態(tài)。

優(yōu)選地,所述計算幀間相似性,包括:利用式(1)計算幀間相似性:

f(s)=Wφ(s)+b (1)

式(1)中,s表示目標(biāo)狀態(tài),φ(s)表示目標(biāo)狀態(tài)的向量,W和b為權(quán)重。

優(yōu)選地,所述根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性,計算獎勵值,包括:利用式(2)計算獎勵值:

R(s,a)=y(tǒng)(a)(Wφ(s)+b) (2)

式(2)中,a表示跟蹤動作,y(a)表示跟蹤動作a對應(yīng)的權(quán)重系數(shù)。

本發(fā)明技術(shù)方案,具有如下優(yōu)點:

本發(fā)明提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法及裝置,通過獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型;利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息;從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息;根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確;當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。該發(fā)明通過目標(biāo)在不同狀態(tài)下的已知軌跡信息不斷更新所述跟蹤狀態(tài)模型,實現(xiàn)訓(xùn)練所述跟蹤狀態(tài)模型的目的,從而實現(xiàn)不同情況下自動對目標(biāo)的跟蹤狀態(tài)進(jìn)行轉(zhuǎn)換。

附圖說明

為了更清楚地說明本發(fā)明具體實施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對具體實施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施方式,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法的流程圖;

圖2為一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練裝置的示意圖;

圖3為目標(biāo)跟蹤狀態(tài)轉(zhuǎn)換的流程圖。

具體實施方式

下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。

在本發(fā)明的描述中,需要說明的是,術(shù)語“中心”、“上”、“下”、“左”、“右”、“豎直”、“水平”、“內(nèi)”、“外”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。此外,術(shù)語“第一”、“第二”、“第三”僅用于描述目的,而不能理解為指示或暗示相對重要性。

在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,還可以是兩個元件內(nèi)部的連通,可以是無線連接,也可以是有線連接。對于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。

此外,下面所描述的本發(fā)明不同實施方式中所涉及的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互結(jié)合。

實施例1

本實施例提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法,該方法的流程圖如圖1所示。包括如下步驟:

S1:獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型。所述已知軌跡信息可以包括目標(biāo)的軌跡位置和目標(biāo)特征。所述目標(biāo)的跟蹤狀態(tài)模型包括相似性方程和獎勵函數(shù)。

具體地,所述不同狀態(tài)可以包括假設(shè)狀態(tài)、正常狀態(tài)、丟失狀態(tài)和刪除狀態(tài)。所述假設(shè)狀態(tài)是指當(dāng)目標(biāo)初次出現(xiàn)時,將其作為待跟蹤的目標(biāo)。優(yōu)選地,為防止目標(biāo)提取或檢測帶來的誤檢等造成的干擾,只有一幀出現(xiàn)的目標(biāo)并不立即將其作為待跟蹤的目標(biāo),只有在同一場景中前后連續(xù)多幀都出現(xiàn)該目標(biāo)時,才將其作為待跟蹤的目標(biāo)。所述正常狀態(tài)是指目標(biāo)在視頻序列的前后幀中都被檢測關(guān)聯(lián)到,則該目標(biāo)處于正常跟蹤狀態(tài)。優(yōu)選地,當(dāng)目標(biāo)的外觀發(fā)生變化時,需要對目標(biāo)進(jìn)行更新。所述丟失狀態(tài)是由于目標(biāo)被遮擋或者在某一幀沒有被檢測到等原因,使得目標(biāo)在某一幀沒有被跟蹤到。此時將目標(biāo)狀態(tài)轉(zhuǎn)換為丟失狀態(tài),同時保留該目標(biāo)在上一時刻被跟蹤到時的目標(biāo)特征。所述刪除狀態(tài)是指對于處于丟失狀態(tài)的目標(biāo),持續(xù)一段時間沒有再次被檢測到,則可以判定該目標(biāo)已經(jīng)離開場景。此時將目標(biāo)刪除,不再跟蹤。被跟蹤的目標(biāo)可以在多個狀態(tài)之間進(jìn)行轉(zhuǎn)換,狀態(tài)的轉(zhuǎn)換構(gòu)成一系列的動作集合。

S2:利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息。

S3:從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息。具體地,當(dāng)獲得目標(biāo)在當(dāng)前狀態(tài)s下輸出的軌跡信息時,根據(jù)所述當(dāng)前狀態(tài)s的向量執(zhí)行動作a,則所述目標(biāo)從當(dāng)前狀態(tài)s轉(zhuǎn)移到下一狀態(tài)sNext,同時接收到所述目標(biāo)跟蹤狀態(tài)模型的獎勵函數(shù)的反饋。

S4:根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確。將所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息進(jìn)行對比,具體地,可以通過坐標(biāo)位置信息進(jìn)行對比。當(dāng)目標(biāo)在一個狀態(tài)下的坐標(biāo)位置信息和相應(yīng)狀態(tài)的已知坐標(biāo)位置信息不一致時,判定所述目標(biāo)的跟蹤狀態(tài)不正確。

S5:當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。根據(jù)已知軌跡信息對所述相似性方程和獎勵函數(shù)進(jìn)行更新。

本發(fā)明提供的目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法,通過獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型;利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息;從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息;根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確;當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。該發(fā)明通過目標(biāo)在不同狀態(tài)下的已知軌跡信息不斷更新所述跟蹤狀態(tài)模型,實現(xiàn)訓(xùn)練所述跟蹤狀態(tài)模型的目的,從而實現(xiàn)不同情況下自動對目標(biāo)的跟蹤狀態(tài)進(jìn)行轉(zhuǎn)換。

作為一個具體的實施方式,上述步驟S3包括以下子步驟:

S31:確定目標(biāo)狀態(tài)。根據(jù)所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息,確定目標(biāo)狀態(tài)。

具體地,從新目標(biāo)出現(xiàn)被檢測到,進(jìn)入假設(shè)狀態(tài),會有兩種狀態(tài)可以轉(zhuǎn)換:正常狀態(tài)和丟失狀態(tài),其動作分別是a1和a2,如圖3所示。

對處于正常狀態(tài)下的目標(biāo),可以采用光流跟蹤方法,對跟蹤到的光流采用前后反饋的對稱性驗證以及相似性度量。將檢測結(jié)果與已有跟蹤結(jié)果關(guān)聯(lián),可以通過計算跟蹤的預(yù)測位置與檢測框的重疊度,避免關(guān)聯(lián)到誤檢,也可采用多種特征包括但不限于兩者質(zhì)心的L2距離、重疊度及梯度等。正常狀態(tài)下可以轉(zhuǎn)換的狀態(tài)有持續(xù)保持正常狀態(tài),或者由于遮擋或目標(biāo)離開視野進(jìn)入丟失狀態(tài),例如可以是短暫丟失狀態(tài),其動作分別是a3和a4。

對每個處于短暫丟失狀態(tài)的目標(biāo),計算與當(dāng)前檢測結(jié)果的相似度,通過匈牙利算法進(jìn)行數(shù)據(jù)關(guān)聯(lián),判斷是繼續(xù)處于短暫丟失狀態(tài),還是關(guān)聯(lián)重新出現(xiàn)的檢測框,轉(zhuǎn)回跟蹤的正常狀態(tài),其動作分別是a5和a6。

優(yōu)選地,對于短暫丟失狀態(tài)下的目標(biāo),可以轉(zhuǎn)換的狀態(tài)還包括丟失狀態(tài),其動作是a7;對于長期丟失狀態(tài)下的目標(biāo),可以轉(zhuǎn)換的狀態(tài)為丟失狀態(tài)或刪除狀態(tài),其動作是a8。

S32:計算幀間相似性。具體地,可以根據(jù)式(1)所示的相似性方程計算幀間相似性。

f(s)=Wφ(s)+b (1)

式(1)中,s表示目標(biāo)狀態(tài),φ(s)表示目標(biāo)狀態(tài)的向量,W和b為權(quán)重。

作為一個具體的實施方式,對于處于丟失狀態(tài)的目標(biāo)t和檢測結(jié)果d,使用相似性方程預(yù)測是否關(guān)聯(lián)??梢跃唧w展開相似性方程如下:

w1φ1(T,dk)+...+wnφn(T,dk)+b

其中,T表示目標(biāo)軌跡,dk表示當(dāng)前幀檢測到的第k個目標(biāo)。W1,W2,…Wn,b各權(quán)重是通過學(xué)習(xí)得到的,給出已知視頻序列中目標(biāo)的真值軌跡以及初始化相似性方程,跟蹤目標(biāo)并收集來自真值位置的反饋,其中各系數(shù)初始值是隨機(jī)產(chǎn)生的。

通過一系列特征表示來度量T與dk之間的相似度,選擇相似度最大的結(jié)果作為目標(biāo)在當(dāng)前幀跟蹤到的位置,從而實現(xiàn)利用數(shù)據(jù)關(guān)聯(lián)進(jìn)行目標(biāo)跟蹤的目的。其中特征度量從表觀appearance、運動模型motion、空間位置location等進(jìn)行描述。具體地,當(dāng)w1φ1(T,dk)+...+wnφn(T,dk)+b≥0時,目標(biāo)軌跡T與第k個目標(biāo)dk關(guān)聯(lián);否則不關(guān)聯(lián)。

S33:根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性,計算獎勵值;

根據(jù)式(2)所示的獎勵函數(shù)計算獎勵值:

R(s,a)=y(tǒng)(a)(Wφ(s)+b) (2)

式(2)中,y(a)表示執(zhí)行動作a時的權(quán)重系數(shù),所述跟蹤動作可以包括上述a1至a8中的任意一個。y(a)作為各動作的權(quán)重系數(shù),取值可以為0、1、-1。例如,在跟蹤目標(biāo)處于假設(shè)狀態(tài),當(dāng)動作為a1時,y(a)=1;當(dāng)動作為a2時,y(a)=-1;其它動作時為0。

其中后一項(W,b)定義了SVM(Support Vector Machine,支持向量機(jī))的分類超平面。在機(jī)器學(xué)習(xí)領(lǐng)域,SVM是一個有監(jiān)督的學(xué)習(xí)模型,通常用來進(jìn)行模式識別、分類以及回歸分析。將檢測結(jié)果的置信度、目標(biāo)所在位置及尺度作為特征,通過標(biāo)注數(shù)據(jù)學(xué)習(xí)得到權(quán)重W及b。

優(yōu)選地,可以定義不同狀態(tài)下的具體獎勵函數(shù)。

例如,假設(shè)狀態(tài)下的獎勵函數(shù)如式(3)所示:

跟蹤正常狀態(tài)下的獎勵函數(shù)如式(4)所示:

式(4)中,emedFB表示光流跟蹤中所有前向-后向誤差的中值,e0表示最低可以接受的誤差,Omean表示跟蹤的預(yù)測位置和檢測框的重疊度,O0為同一目標(biāo)時位置框的重疊閾值。y(a)為各動作的權(quán)重系數(shù)。例如,當(dāng)動作為a3時,y(a)=1;當(dāng)動作為a4時,y(a)=-1。

丟失狀態(tài)下的獎勵函數(shù)如式(5)所示:

式(5)中,M指當(dāng)前幀中檢測到M個目標(biāo)結(jié)果,處于丟失狀態(tài)的目標(biāo)需要與其中的每個目標(biāo)進(jìn)行相似度判斷,y(a)表示執(zhí)行動作a時的權(quán)重系數(shù)。例如,當(dāng)動作為a6時,y(a)=1;當(dāng)動作為a5時,y(a)=-1。

對于關(guān)聯(lián)上檢測結(jié)果的目標(biāo),將其轉(zhuǎn)入正常跟蹤狀態(tài),并利用檢測結(jié)果更新目標(biāo);未關(guān)聯(lián)上的,保持該目標(biāo)的丟失狀態(tài)。

當(dāng)前檢測出的目標(biāo),未與已有的跟蹤目標(biāo)匹配上的,認(rèn)為是新進(jìn)入的目標(biāo),將該目標(biāo)轉(zhuǎn)入假設(shè)狀態(tài),作為待跟蹤的新目標(biāo),進(jìn)行后續(xù)的跟蹤。

S34:根據(jù)所述獎勵值,選擇具有最大獎勵值的軌跡。通過有效策略學(xué)習(xí)進(jìn)行狀態(tài)轉(zhuǎn)換,從而使得整個過程中的獎勵回報最大,也即實現(xiàn)了目標(biāo)準(zhǔn)確的跟蹤。

S35:根據(jù)最大獎勵值輸出所述最大獎勵值對應(yīng)的軌跡信息。

根據(jù)更新相似性方程來提高跟蹤性能。在對數(shù)據(jù)關(guān)聯(lián)產(chǎn)生錯誤決策的時候,對相似性方程進(jìn)行更新,有利于收集難樣例訓(xùn)練數(shù)據(jù)來訓(xùn)練相似性方程。比如目標(biāo)與新檢測的結(jié)果產(chǎn)生了錯誤的關(guān)聯(lián),通過調(diào)整系數(shù),將錯誤進(jìn)行糾正。當(dāng)決策過程能夠成功的跟蹤目標(biāo)時,完成對相似性方程即目標(biāo)跟蹤狀態(tài)模型的訓(xùn)練,實現(xiàn)根據(jù)模型自動對跟蹤的目標(biāo)進(jìn)行狀態(tài)轉(zhuǎn)換,同時使得狀態(tài)轉(zhuǎn)換過程中的獎勵反饋值最大,也即實現(xiàn)了對目標(biāo)的準(zhǔn)確跟蹤。

實施例2

本實施例提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練裝置,該裝置的示意圖如圖2所示。包括:

獲取單元10,用于獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型。所述已知軌跡信息可以包括目標(biāo)的軌跡位置和目標(biāo)特征。所述目標(biāo)的跟蹤狀態(tài)模型包括相似性方程和獎勵函數(shù)。

輸出單元20,用于利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息。

選擇單元30,用于從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息。具體地,當(dāng)獲得目標(biāo)在當(dāng)前狀態(tài)s下輸出的軌跡信息時,根據(jù)所述當(dāng)前狀態(tài)s的向量執(zhí)行動作a,則所述目標(biāo)從當(dāng)前狀態(tài)s轉(zhuǎn)移到下一狀態(tài)sNext,同時接收到所述目標(biāo)跟蹤狀態(tài)模型的獎勵函數(shù)的反饋。

判斷單元40,用于根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確。將所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息進(jìn)行對比,具體地,可以通過坐標(biāo)位置信息進(jìn)行對比。當(dāng)目標(biāo)在一個狀態(tài)下的坐標(biāo)位置信息和相應(yīng)狀態(tài)的已知坐標(biāo)位置信息不一致時,判定所述目標(biāo)的跟蹤狀態(tài)不正確。

更新單元50,用于當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。根據(jù)已知軌跡信息對所述相似性方程和獎勵函數(shù)進(jìn)行更新。

本發(fā)明提供的目標(biāo)跟蹤狀態(tài)模型訓(xùn)練裝置,通過獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型;利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo),得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息;從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中,選擇一個狀態(tài)下的軌跡信息;根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息,判斷所述目標(biāo)的跟蹤狀態(tài)是否正確;當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時,更新所述跟蹤狀態(tài)模型。該發(fā)明通過目標(biāo)在不同狀態(tài)下的已知軌跡信息不斷更新所述跟蹤狀態(tài)模型,實現(xiàn)訓(xùn)練所述跟蹤狀態(tài)模型的目的,從而實現(xiàn)不同情況下自動對目標(biāo)的跟蹤狀態(tài)進(jìn)行轉(zhuǎn)換。

作為一個具體的實施方式,選擇單元30包括:

狀態(tài)確定子單元,用于確定目標(biāo)狀態(tài)。根據(jù)所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息,確定目標(biāo)狀態(tài)。

相似性計算子單元,用于計算幀間相似性。具體地,可以根據(jù)式(1)所示的相似性方程計算幀間相似性。

f(s)=Wφ(s)+b (1)

式(1)中,s表示目標(biāo)狀態(tài),φ(s)表示目標(biāo)狀態(tài)的向量,W和b為權(quán)重。

獎勵值計算子單元,用于根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性,計算獎勵值。具體地,可以根據(jù)式(2)所示的獎勵函數(shù)計算獎勵值:

R(s,a)=y(tǒng)(a)(Wφ(s)+b) (2)

式(2)中,y(a)表示執(zhí)行動作a時的權(quán)重系數(shù),所述跟蹤動作可以包括上述a1至a8中的任意一個。y(a)作為各動作的權(quán)重系數(shù),取值可以為0、1、-1。例如,在跟蹤目標(biāo)處于假設(shè)狀態(tài),當(dāng)動作為a1時,y(a)=1;當(dāng)動作為a2時,y(a)=-1;其它動作時為0。

選擇子單元,用于根據(jù)所述獎勵值,選擇具有最大獎勵值的軌跡。通過有效策略學(xué)習(xí)進(jìn)行狀態(tài)轉(zhuǎn)換,從而使得整個過程中的獎勵回報最大,也即實現(xiàn)了目標(biāo)準(zhǔn)確的跟蹤。

輸出子單元,用于根據(jù)最大獎勵值輸出所述最大獎勵值對應(yīng)的軌跡信息。

根據(jù)更新相似性方程來提高跟蹤性能。在對數(shù)據(jù)關(guān)聯(lián)產(chǎn)生錯誤決策的時候,對相似性方程進(jìn)行更新,有利于收集難樣例訓(xùn)練數(shù)據(jù)來訓(xùn)練相似性方程。比如目標(biāo)與新檢測的結(jié)果產(chǎn)生了錯誤的關(guān)聯(lián),通過調(diào)整系數(shù),將錯誤進(jìn)行糾正。當(dāng)決策過程能夠成功的跟蹤目標(biāo)時,完成對相似性方程即目標(biāo)跟蹤狀態(tài)模型的訓(xùn)練,實現(xiàn)根據(jù)模型自動對跟蹤的目標(biāo)進(jìn)行狀態(tài)轉(zhuǎn)換,同時使得狀態(tài)轉(zhuǎn)換過程中的獎勵反饋值最大,也即實現(xiàn)了對目標(biāo)的準(zhǔn)確跟蹤。

顯然,上述實施例僅僅是為清楚地說明所作的舉例,而并非對實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1