一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法及裝置與流程

文檔序號：12721184閱讀：373來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及目標(biāo)跟蹤技術(shù)領(lǐng)域，具體涉及一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法及裝置。

背景技術(shù)：

目標(biāo)跟蹤技術(shù)在智能安防領(lǐng)域、車載輔助系統(tǒng)或者軍事領(lǐng)域等都有著十分廣泛的應(yīng)用。目標(biāo)跟蹤技術(shù)通常先檢測出目標(biāo)，然后對檢測出的目標(biāo)進(jìn)行跟蹤。例如,在多目標(biāo)跟蹤過程中，需要對多個目標(biāo)進(jìn)行管理，由于每個目標(biāo)都有各自的生存周期，即從目標(biāo)出現(xiàn)到目標(biāo)消失，每個目標(biāo)在生命周期中正常跟蹤狀態(tài)與丟失狀態(tài)如何進(jìn)行正確轉(zhuǎn)換，目標(biāo)被遮擋或者在某一幀沒有被檢測到，以及每幀檢測到的新目標(biāo)如何與已有的跟蹤目標(biāo)進(jìn)行關(guān)聯(lián)。在目標(biāo)跟蹤過程中，出現(xiàn)目標(biāo)交叉或粘連時容易發(fā)生目標(biāo)合并以及目標(biāo)間的漂移從而導(dǎo)致目標(biāo)標(biāo)識互換的情況；或者由于目標(biāo)與背景的漂移導(dǎo)致假目標(biāo)；或者當(dāng)目標(biāo)在快速運動時出現(xiàn)目標(biāo)跟斷的情況，或者在前后關(guān)聯(lián)時同一目標(biāo)沒有關(guān)聯(lián)上，又產(chǎn)生新的目標(biāo)標(biāo)識，導(dǎo)致同一目標(biāo)出現(xiàn)兩個目標(biāo)標(biāo)識的情況。

現(xiàn)有目標(biāo)跟蹤方法中對目標(biāo)狀態(tài)的管理，大多通過人工規(guī)則對目標(biāo)狀態(tài)進(jìn)行處理，當(dāng)遇到不同情況時設(shè)置不同的規(guī)則流程，對于上述目標(biāo)跟蹤過程中出現(xiàn)的較多復(fù)雜的實際情況，現(xiàn)有目標(biāo)跟蹤方法的準(zhǔn)確度較低。

技術(shù)實現(xiàn)要素：

本發(fā)明要解決的技術(shù)問題在于克服現(xiàn)有目標(biāo)跟蹤狀態(tài)根據(jù)人工規(guī)則處理準(zhǔn)確度較低的缺陷。

本發(fā)明提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法，包括：

獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型；

利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo)，得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息；

從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中，選擇一個狀態(tài)下的軌跡信息；

根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息，判斷所述目標(biāo)的跟蹤狀態(tài)是否正確；

當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時，更新所述跟蹤狀態(tài)模型。

優(yōu)選地，所述從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中，選擇一個狀態(tài)下的軌跡信息，包括：

確定目標(biāo)狀態(tài)；

計算幀間相似性；

根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性，計算獎勵值；

根據(jù)所述獎勵值，選擇具有最大獎勵值的軌跡；

根據(jù)最大獎勵值輸出所述最大獎勵值對應(yīng)的軌跡信息。

優(yōu)選地，所述確定目標(biāo)狀態(tài)，包括：

根據(jù)所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息，確定目標(biāo)狀態(tài)。

優(yōu)選地，所述計算幀間相似性，包括：利用式(1)計算幀間相似性：

f(s)＝Wφ(s)+b (1)

式(1)中，s表示目標(biāo)狀態(tài)，φ(s)表示目標(biāo)狀態(tài)的向量，W和b為權(quán)重。

優(yōu)選地，所述根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性，計算獎勵值，包括：利用式(2)計算獎勵值：

R(s,a)＝y(tǒng)(a)(Wφ(s)+b) (2)

式(2)中，a表示跟蹤動作，y(a)表示跟蹤動作a對應(yīng)的權(quán)重系數(shù)。

本發(fā)明還提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練裝置，包括：

獲取單元，用于獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型；

輸出單元，用于利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo)，得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息；

選擇單元，用于從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中，選擇一個狀態(tài)下的軌跡信息；

判斷單元，用于根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息，判斷所述目標(biāo)的跟蹤狀態(tài)是否正確；

更新單元，用于當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時，更新所述跟蹤狀態(tài)模型。

優(yōu)選地，所述選擇單元包括：

狀態(tài)確定子單元，用于確定目標(biāo)狀態(tài)；

相似性計算子單元，用于計算幀間相似性；

獎勵值計算子單元，用于根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性，計算獎勵值；

選擇子單元，用于根據(jù)所述獎勵值，選擇具有最大獎勵值的軌跡；

輸出子單元，用于根據(jù)最大獎勵值輸出所述最大獎勵值對應(yīng)的軌跡信息。

優(yōu)選地，所述確定目標(biāo)狀態(tài)，包括：

根據(jù)所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息，確定目標(biāo)狀態(tài)。

優(yōu)選地，所述計算幀間相似性，包括：利用式(1)計算幀間相似性：

f(s)＝Wφ(s)+b (1)

式(1)中，s表示目標(biāo)狀態(tài)，φ(s)表示目標(biāo)狀態(tài)的向量，W和b為權(quán)重。

優(yōu)選地，所述根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性，計算獎勵值，包括：利用式(2)計算獎勵值：

R(s,a)＝y(tǒng)(a)(Wφ(s)+b) (2)

式(2)中，a表示跟蹤動作，y(a)表示跟蹤動作a對應(yīng)的權(quán)重系數(shù)。

本發(fā)明技術(shù)方案，具有如下優(yōu)點：

本發(fā)明提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法及裝置，通過獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型；利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo)，得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息；從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中，選擇一個狀態(tài)下的軌跡信息；根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息，判斷所述目標(biāo)的跟蹤狀態(tài)是否正確；當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時，更新所述跟蹤狀態(tài)模型。該發(fā)明通過目標(biāo)在不同狀態(tài)下的已知軌跡信息不斷更新所述跟蹤狀態(tài)模型，實現(xiàn)訓(xùn)練所述跟蹤狀態(tài)模型的目的，從而實現(xiàn)不同情況下自動對目標(biāo)的跟蹤狀態(tài)進(jìn)行轉(zhuǎn)換。

附圖說明

為了更清楚地說明本發(fā)明具體實施方式或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對具體實施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖是本發(fā)明的一些實施方式，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1為一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法的流程圖；

圖2為一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練裝置的示意圖；

圖3為目標(biāo)跟蹤狀態(tài)轉(zhuǎn)換的流程圖。

具體實施方式

下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實施例是本發(fā)明一部分實施例，而不是全部的實施例。基于本發(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護(hù)的范圍。

在本發(fā)明的描述中，需要說明的是，術(shù)語“中心”、“上”、“下”、“左”、“右”、“豎直”、“水平”、“內(nèi)”、“外”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系，僅是為了便于描述本發(fā)明和簡化描述，而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作，因此不能理解為對本發(fā)明的限制。此外，術(shù)語“第一”、“第二”、“第三”僅用于描述目的，而不能理解為指示或暗示相對重要性。

在本發(fā)明的描述中，需要說明的是，除非另有明確的規(guī)定和限定，術(shù)語“安裝”、“相連”、“連接”應(yīng)做廣義理解，例如，可以是固定連接，也可以是可拆卸連接，或一體地連接；可以是機(jī)械連接，也可以是電連接；可以是直接相連，也可以通過中間媒介間接相連，還可以是兩個元件內(nèi)部的連通，可以是無線連接，也可以是有線連接。對于本領(lǐng)域的普通技術(shù)人員而言，可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。

此外，下面所描述的本發(fā)明不同實施方式中所涉及的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互結(jié)合。

實施例1

本實施例提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法，該方法的流程圖如圖1所示。包括如下步驟：

S1：獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型。所述已知軌跡信息可以包括目標(biāo)的軌跡位置和目標(biāo)特征。所述目標(biāo)的跟蹤狀態(tài)模型包括相似性方程和獎勵函數(shù)。

具體地，所述不同狀態(tài)可以包括假設(shè)狀態(tài)、正常狀態(tài)、丟失狀態(tài)和刪除狀態(tài)。所述假設(shè)狀態(tài)是指當(dāng)目標(biāo)初次出現(xiàn)時，將其作為待跟蹤的目標(biāo)。優(yōu)選地，為防止目標(biāo)提取或檢測帶來的誤檢等造成的干擾，只有一幀出現(xiàn)的目標(biāo)并不立即將其作為待跟蹤的目標(biāo)，只有在同一場景中前后連續(xù)多幀都出現(xiàn)該目標(biāo)時，才將其作為待跟蹤的目標(biāo)。所述正常狀態(tài)是指目標(biāo)在視頻序列的前后幀中都被檢測關(guān)聯(lián)到，則該目標(biāo)處于正常跟蹤狀態(tài)。優(yōu)選地，當(dāng)目標(biāo)的外觀發(fā)生變化時，需要對目標(biāo)進(jìn)行更新。所述丟失狀態(tài)是由于目標(biāo)被遮擋或者在某一幀沒有被檢測到等原因，使得目標(biāo)在某一幀沒有被跟蹤到。此時將目標(biāo)狀態(tài)轉(zhuǎn)換為丟失狀態(tài)，同時保留該目標(biāo)在上一時刻被跟蹤到時的目標(biāo)特征。所述刪除狀態(tài)是指對于處于丟失狀態(tài)的目標(biāo)，持續(xù)一段時間沒有再次被檢測到，則可以判定該目標(biāo)已經(jīng)離開場景。此時將目標(biāo)刪除，不再跟蹤。被跟蹤的目標(biāo)可以在多個狀態(tài)之間進(jìn)行轉(zhuǎn)換，狀態(tài)的轉(zhuǎn)換構(gòu)成一系列的動作集合。

S2：利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo)，得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息。

S3：從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中，選擇一個狀態(tài)下的軌跡信息。具體地，當(dāng)獲得目標(biāo)在當(dāng)前狀態(tài)s下輸出的軌跡信息時，根據(jù)所述當(dāng)前狀態(tài)s的向量執(zhí)行動作a，則所述目標(biāo)從當(dāng)前狀態(tài)s轉(zhuǎn)移到下一狀態(tài)sNext，同時接收到所述目標(biāo)跟蹤狀態(tài)模型的獎勵函數(shù)的反饋。

S4：根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息，判斷所述目標(biāo)的跟蹤狀態(tài)是否正確。將所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息進(jìn)行對比，具體地，可以通過坐標(biāo)位置信息進(jìn)行對比。當(dāng)目標(biāo)在一個狀態(tài)下的坐標(biāo)位置信息和相應(yīng)狀態(tài)的已知坐標(biāo)位置信息不一致時，判定所述目標(biāo)的跟蹤狀態(tài)不正確。

S5：當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時，更新所述跟蹤狀態(tài)模型。根據(jù)已知軌跡信息對所述相似性方程和獎勵函數(shù)進(jìn)行更新。

本發(fā)明提供的目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法，通過獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型；利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo)，得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息；從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中，選擇一個狀態(tài)下的軌跡信息；根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息，判斷所述目標(biāo)的跟蹤狀態(tài)是否正確；當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時，更新所述跟蹤狀態(tài)模型。該發(fā)明通過目標(biāo)在不同狀態(tài)下的已知軌跡信息不斷更新所述跟蹤狀態(tài)模型，實現(xiàn)訓(xùn)練所述跟蹤狀態(tài)模型的目的，從而實現(xiàn)不同情況下自動對目標(biāo)的跟蹤狀態(tài)進(jìn)行轉(zhuǎn)換。

作為一個具體的實施方式，上述步驟S3包括以下子步驟：

S31：確定目標(biāo)狀態(tài)。根據(jù)所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息，確定目標(biāo)狀態(tài)。

具體地，從新目標(biāo)出現(xiàn)被檢測到，進(jìn)入假設(shè)狀態(tài)，會有兩種狀態(tài)可以轉(zhuǎn)換：正常狀態(tài)和丟失狀態(tài)，其動作分別是a1和a2，如圖3所示。

對處于正常狀態(tài)下的目標(biāo)，可以采用光流跟蹤方法，對跟蹤到的光流采用前后反饋的對稱性驗證以及相似性度量。將檢測結(jié)果與已有跟蹤結(jié)果關(guān)聯(lián)，可以通過計算跟蹤的預(yù)測位置與檢測框的重疊度，避免關(guān)聯(lián)到誤檢，也可采用多種特征包括但不限于兩者質(zhì)心的L2距離、重疊度及梯度等。正常狀態(tài)下可以轉(zhuǎn)換的狀態(tài)有持續(xù)保持正常狀態(tài)，或者由于遮擋或目標(biāo)離開視野進(jìn)入丟失狀態(tài)，例如可以是短暫丟失狀態(tài)，其動作分別是a3和a4。

對每個處于短暫丟失狀態(tài)的目標(biāo)，計算與當(dāng)前檢測結(jié)果的相似度，通過匈牙利算法進(jìn)行數(shù)據(jù)關(guān)聯(lián)，判斷是繼續(xù)處于短暫丟失狀態(tài)，還是關(guān)聯(lián)重新出現(xiàn)的檢測框，轉(zhuǎn)回跟蹤的正常狀態(tài),其動作分別是a5和a6。

優(yōu)選地，對于短暫丟失狀態(tài)下的目標(biāo)，可以轉(zhuǎn)換的狀態(tài)還包括丟失狀態(tài)，其動作是a7；對于長期丟失狀態(tài)下的目標(biāo)，可以轉(zhuǎn)換的狀態(tài)為丟失狀態(tài)或刪除狀態(tài)，其動作是a8。

S32：計算幀間相似性。具體地，可以根據(jù)式(1)所示的相似性方程計算幀間相似性。

f(s)＝Wφ(s)+b (1)

式(1)中，s表示目標(biāo)狀態(tài)，φ(s)表示目標(biāo)狀態(tài)的向量，W和b為權(quán)重。

作為一個具體的實施方式，對于處于丟失狀態(tài)的目標(biāo)t和檢測結(jié)果d，使用相似性方程預(yù)測是否關(guān)聯(lián)?？梢跃唧w展開相似性方程如下：

w₁φ₁(T,d_k)+...+w_nφ_n(T,d_k)+b

其中，T表示目標(biāo)軌跡，d_k表示當(dāng)前幀檢測到的第k個目標(biāo)。W₁，W₂，…Wn，b各權(quán)重是通過學(xué)習(xí)得到的，給出已知視頻序列中目標(biāo)的真值軌跡以及初始化相似性方程，跟蹤目標(biāo)并收集來自真值位置的反饋，其中各系數(shù)初始值是隨機(jī)產(chǎn)生的。

通過一系列特征表示來度量T與d_k之間的相似度，選擇相似度最大的結(jié)果作為目標(biāo)在當(dāng)前幀跟蹤到的位置，從而實現(xiàn)利用數(shù)據(jù)關(guān)聯(lián)進(jìn)行目標(biāo)跟蹤的目的。其中特征度量從表觀appearance、運動模型motion、空間位置location等進(jìn)行描述。具體地，當(dāng)w₁φ₁(T,d_k)+...+w_nφ_n(T,d_k)+b≥0時，目標(biāo)軌跡T與第k個目標(biāo)d_k關(guān)聯(lián)；否則不關(guān)聯(lián)。

S33：根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性，計算獎勵值；

根據(jù)式(2)所示的獎勵函數(shù)計算獎勵值：

R(s,a)＝y(tǒng)(a)(Wφ(s)+b) (2)

式(2)中，y(a)表示執(zhí)行動作a時的權(quán)重系數(shù)，所述跟蹤動作可以包括上述a1至a8中的任意一個。y(a)作為各動作的權(quán)重系數(shù)，取值可以為0、1、-1。例如，在跟蹤目標(biāo)處于假設(shè)狀態(tài)，當(dāng)動作為a1時，y(a)＝1；當(dāng)動作為a2時，y(a)＝-1；其它動作時為0。

其中后一項(W,b)定義了SVM(Support Vector Machine，支持向量機(jī))的分類超平面。在機(jī)器學(xué)習(xí)領(lǐng)域，SVM是一個有監(jiān)督的學(xué)習(xí)模型，通常用來進(jìn)行模式識別、分類以及回歸分析。將檢測結(jié)果的置信度、目標(biāo)所在位置及尺度作為特征，通過標(biāo)注數(shù)據(jù)學(xué)習(xí)得到權(quán)重W及b。

優(yōu)選地，可以定義不同狀態(tài)下的具體獎勵函數(shù)。

例如，假設(shè)狀態(tài)下的獎勵函數(shù)如式(3)所示：

跟蹤正常狀態(tài)下的獎勵函數(shù)如式(4)所示：

式(4)中，e_medFB表示光流跟蹤中所有前向-后向誤差的中值，e₀表示最低可以接受的誤差，O_mean表示跟蹤的預(yù)測位置和檢測框的重疊度，O₀為同一目標(biāo)時位置框的重疊閾值。y(a)為各動作的權(quán)重系數(shù)。例如，當(dāng)動作為a3時，y(a)＝1；當(dāng)動作為a4時，y(a)＝-1。

丟失狀態(tài)下的獎勵函數(shù)如式(5)所示：

式(5)中，M指當(dāng)前幀中檢測到M個目標(biāo)結(jié)果，處于丟失狀態(tài)的目標(biāo)需要與其中的每個目標(biāo)進(jìn)行相似度判斷，y(a)表示執(zhí)行動作a時的權(quán)重系數(shù)。例如，當(dāng)動作為a6時，y(a)＝1；當(dāng)動作為a5時，y(a)＝-1。

對于關(guān)聯(lián)上檢測結(jié)果的目標(biāo)，將其轉(zhuǎn)入正常跟蹤狀態(tài)，并利用檢測結(jié)果更新目標(biāo)；未關(guān)聯(lián)上的，保持該目標(biāo)的丟失狀態(tài)。

當(dāng)前檢測出的目標(biāo)，未與已有的跟蹤目標(biāo)匹配上的，認(rèn)為是新進(jìn)入的目標(biāo)，將該目標(biāo)轉(zhuǎn)入假設(shè)狀態(tài)，作為待跟蹤的新目標(biāo)，進(jìn)行后續(xù)的跟蹤。

S34：根據(jù)所述獎勵值，選擇具有最大獎勵值的軌跡。通過有效策略學(xué)習(xí)進(jìn)行狀態(tài)轉(zhuǎn)換，從而使得整個過程中的獎勵回報最大，也即實現(xiàn)了目標(biāo)準(zhǔn)確的跟蹤。

S35：根據(jù)最大獎勵值輸出所述最大獎勵值對應(yīng)的軌跡信息。

根據(jù)更新相似性方程來提高跟蹤性能。在對數(shù)據(jù)關(guān)聯(lián)產(chǎn)生錯誤決策的時候，對相似性方程進(jìn)行更新，有利于收集難樣例訓(xùn)練數(shù)據(jù)來訓(xùn)練相似性方程。比如目標(biāo)與新檢測的結(jié)果產(chǎn)生了錯誤的關(guān)聯(lián)，通過調(diào)整系數(shù)，將錯誤進(jìn)行糾正。當(dāng)決策過程能夠成功的跟蹤目標(biāo)時，完成對相似性方程即目標(biāo)跟蹤狀態(tài)模型的訓(xùn)練，實現(xiàn)根據(jù)模型自動對跟蹤的目標(biāo)進(jìn)行狀態(tài)轉(zhuǎn)換，同時使得狀態(tài)轉(zhuǎn)換過程中的獎勵反饋值最大，也即實現(xiàn)了對目標(biāo)的準(zhǔn)確跟蹤。

實施例2

本實施例提供一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練裝置，該裝置的示意圖如圖2所示。包括：

獲取單元10，用于獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型。所述已知軌跡信息可以包括目標(biāo)的軌跡位置和目標(biāo)特征。所述目標(biāo)的跟蹤狀態(tài)模型包括相似性方程和獎勵函數(shù)。

輸出單元20，用于利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo)，得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息。

選擇單元30，用于從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中，選擇一個狀態(tài)下的軌跡信息。具體地，當(dāng)獲得目標(biāo)在當(dāng)前狀態(tài)s下輸出的軌跡信息時，根據(jù)所述當(dāng)前狀態(tài)s的向量執(zhí)行動作a，則所述目標(biāo)從當(dāng)前狀態(tài)s轉(zhuǎn)移到下一狀態(tài)sNext，同時接收到所述目標(biāo)跟蹤狀態(tài)模型的獎勵函數(shù)的反饋。

判斷單元40，用于根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息，判斷所述目標(biāo)的跟蹤狀態(tài)是否正確。將所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息進(jìn)行對比，具體地，可以通過坐標(biāo)位置信息進(jìn)行對比。當(dāng)目標(biāo)在一個狀態(tài)下的坐標(biāo)位置信息和相應(yīng)狀態(tài)的已知坐標(biāo)位置信息不一致時，判定所述目標(biāo)的跟蹤狀態(tài)不正確。

更新單元50，用于當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時，更新所述跟蹤狀態(tài)模型。根據(jù)已知軌跡信息對所述相似性方程和獎勵函數(shù)進(jìn)行更新。

本發(fā)明提供的目標(biāo)跟蹤狀態(tài)模型訓(xùn)練裝置，通過獲取視頻序列中目標(biāo)在不同狀態(tài)下的已知軌跡信息和所述目標(biāo)的跟蹤狀態(tài)模型；利用所述跟蹤狀態(tài)模型跟蹤所述視頻序列中的目標(biāo)，得到所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息；從所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息中，選擇一個狀態(tài)下的軌跡信息；根據(jù)所述一個狀態(tài)下的軌跡信息和相應(yīng)狀態(tài)的所述已知軌跡信息，判斷所述目標(biāo)的跟蹤狀態(tài)是否正確；當(dāng)所述目標(biāo)的跟蹤狀態(tài)不正確時，更新所述跟蹤狀態(tài)模型。該發(fā)明通過目標(biāo)在不同狀態(tài)下的已知軌跡信息不斷更新所述跟蹤狀態(tài)模型，實現(xiàn)訓(xùn)練所述跟蹤狀態(tài)模型的目的，從而實現(xiàn)不同情況下自動對目標(biāo)的跟蹤狀態(tài)進(jìn)行轉(zhuǎn)換。

作為一個具體的實施方式，選擇單元30包括：

狀態(tài)確定子單元，用于確定目標(biāo)狀態(tài)。根據(jù)所述跟蹤狀態(tài)模型在不同狀態(tài)下輸出的軌跡信息，確定目標(biāo)狀態(tài)。

相似性計算子單元，用于計算幀間相似性。具體地，可以根據(jù)式(1)所示的相似性方程計算幀間相似性。

f(s)＝Wφ(s)+b (1)

式(1)中，s表示目標(biāo)狀態(tài)，φ(s)表示目標(biāo)狀態(tài)的向量，W和b為權(quán)重。

獎勵值計算子單元，用于根據(jù)所述目標(biāo)狀態(tài)和所述幀間相似性，計算獎勵值。具體地，可以根據(jù)式(2)所示的獎勵函數(shù)計算獎勵值：

R(s,a)＝y(tǒng)(a)(Wφ(s)+b) (2)

選擇子單元，用于根據(jù)所述獎勵值，選擇具有最大獎勵值的軌跡。通過有效策略學(xué)習(xí)進(jìn)行狀態(tài)轉(zhuǎn)換，從而使得整個過程中的獎勵回報最大，也即實現(xiàn)了目標(biāo)準(zhǔn)確的跟蹤。

輸出子單元，用于根據(jù)最大獎勵值輸出所述最大獎勵值對應(yīng)的軌跡信息。

顯然，上述實施例僅僅是為清楚地說明所作的舉例，而并非對實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說，在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：譙帥;彭莉;張如高
技術(shù)所有人：博康智能信息技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種用于床墊的制冷制熱管路的制作方法與工藝
上一篇：一種防水陸地泵的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

多目標(biāo)規(guī)劃模型相關(guān)技術(shù)

目標(biāo)規(guī)劃模型相關(guān)技術(shù)

混合高斯模型目標(biāo)跟蹤相關(guān)技術(shù)

怎樣做模型相關(guān)技術(shù)

掃描儀無目標(biāo)裝置相關(guān)技術(shù)

eve目標(biāo)標(biāo)記裝置相關(guān)技術(shù)

3d化工裝置模型相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種目標(biāo)跟蹤狀態(tài)模型訓(xùn)練方法及裝置與流程