本發(fā)明涉及計(jì)算機(jī)視覺(jué),計(jì)算機(jī)圖形圖像技術(shù)領(lǐng)域。
背景技術(shù):
視覺(jué)目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究課題,其主要任務(wù)是獲取目標(biāo)連續(xù)的位置、外觀(guān)和運(yùn)動(dòng)等信息,進(jìn)而為進(jìn)一步的語(yǔ)義層分析(如行為識(shí)別、場(chǎng)景理解等)提供基礎(chǔ)。目標(biāo)跟蹤研究被廣泛應(yīng)用于智能監(jiān)控、人機(jī)交互、自動(dòng)控制系統(tǒng)等領(lǐng)域,具有很強(qiáng)的實(shí)用價(jià)值。目前,目標(biāo)跟蹤方法主要包括經(jīng)典目標(biāo)跟蹤方法和深度學(xué)習(xí)目標(biāo)跟蹤方法。
經(jīng)典的目標(biāo)跟蹤方法主要分為生成式方法(generativemethods)和判別式方法(discriminativemethods)兩類(lèi)。生成式方法假設(shè)目標(biāo)可以通過(guò)某種生成過(guò)程或者模型進(jìn)行表達(dá),如主成分分析(pca),稀疏編碼(sparsecoding)等,然后將跟蹤問(wèn)題視為在感興趣的區(qū)域中尋找最可能的候選項(xiàng)。這些方法旨在設(shè)計(jì)一種利于魯棒目標(biāo)跟蹤的圖像表示方法。不同于生成式方法,判別式方法將跟蹤視為一個(gè)分類(lèi)或者一種連續(xù)的對(duì)象檢測(cè)問(wèn)題,其任務(wù)是將目標(biāo)從圖像背景中分辨出來(lái)。這類(lèi)方法同時(shí)利用目標(biāo)和背景信息,是目前主要研究的一類(lèi)方法。判別式方法通常包含兩個(gè)主要的步驟,第一步是通過(guò)選擇能夠辨別目標(biāo)和背景的視覺(jué)特征訓(xùn)練得到一個(gè)分類(lèi)器及其決策規(guī)則,第二步是在跟蹤過(guò)程中將該分類(lèi)器用于對(duì)視場(chǎng)內(nèi)的每一個(gè)位置進(jìn)行評(píng)價(jià)并確定最有可能的目標(biāo)位置。隨后將目標(biāo)框移動(dòng)到該位置并重復(fù)這樣的過(guò)程,進(jìn)而實(shí)現(xiàn)跟蹤,該框架被用于設(shè)計(jì)出各種形式的跟蹤算法??傮w來(lái)看,經(jīng)典跟蹤方法的主要優(yōu)勢(shì)在于運(yùn)行速度和對(duì)輔助數(shù)據(jù)較少的依賴(lài),同時(shí)它們也需要在跟蹤的準(zhǔn)確性與實(shí)時(shí)性之間做出權(quán)衡。
深度學(xué)習(xí)(deeplearning)是近年來(lái)機(jī)器學(xué)習(xí)研究的熱點(diǎn),由于其強(qiáng)大的特征表達(dá)能力和不斷發(fā)展的數(shù)據(jù)集和硬件支持,深度學(xué)習(xí)已在許多方面取得了驚人的成功,例如語(yǔ)音識(shí)別、圖像識(shí)別、目標(biāo)檢測(cè)、視頻分類(lèi)等。深度學(xué)習(xí)目標(biāo)跟蹤研究發(fā)展也十分迅速,但由于目標(biāo)跟蹤中先驗(yàn)知識(shí)的缺乏和實(shí)時(shí)性的要求,使得需要大量訓(xùn)練數(shù)據(jù)和參數(shù)計(jì)算為基礎(chǔ)的深度學(xué)習(xí)技術(shù)在這方面難以得到充分的施展,具有很大的探索空間。從目前的研究成果來(lái)看,深度學(xué)習(xí)跟蹤方法主要應(yīng)用了自編碼器網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),其研究主要有兩種思路,一種是對(duì)網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí)再進(jìn)行在線(xiàn)微調(diào),另一種是改造深度網(wǎng)絡(luò)的結(jié)構(gòu)以適應(yīng)跟蹤的要求。自編碼器網(wǎng)絡(luò)(ae)是典型的非監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò),因其特征學(xué)習(xí)能力和抗噪聲性能被首先應(yīng)用到目標(biāo)跟蹤中。綜合來(lái)看,自編碼器網(wǎng)絡(luò)比較直觀(guān)且體量適中,是一種優(yōu)秀的非監(jiān)督深度學(xué)習(xí)模型,在跟蹤中最先得以應(yīng)用并取得了較好的效果。與自編碼器網(wǎng)絡(luò)不同,卷積神經(jīng)網(wǎng)絡(luò)(cnn)是一種監(jiān)督型的前饋神經(jīng)網(wǎng)絡(luò),它包含多個(gè)循環(huán)交替進(jìn)行的卷積、非線(xiàn)性變換和降采樣操作,在模式識(shí)別特別是計(jì)算機(jī)視覺(jué)任務(wù)中體現(xiàn)出非常強(qiáng)大的性能??傮w來(lái)看,深度學(xué)習(xí)相比于經(jīng)典方法具有更強(qiáng)大的特征表達(dá)能力,其跟蹤方法中有關(guān)訓(xùn)練集的選取,網(wǎng)絡(luò)的選擇與結(jié)構(gòu)的改進(jìn),算法的實(shí)時(shí)性,以及應(yīng)用遞歸神經(jīng)網(wǎng)絡(luò)等方面仍需要進(jìn)一步的研究。
為了能夠適應(yīng)目標(biāo)的變化,跟蹤方法通常都需要在線(xiàn)更新相應(yīng)的模型,然而目標(biāo)外觀(guān)的變化狀態(tài)會(huì)極大地影響模型學(xué)習(xí)的準(zhǔn)確性,即便在準(zhǔn)確定位了目標(biāo)位置的情況下,如果模型對(duì)目標(biāo)外觀(guān)狀態(tài)未加辨別的學(xué)習(xí)將會(huì)因不斷累積的學(xué)習(xí)錯(cuò)誤而造成跟蹤漂移。
鑒于此,本發(fā)明提出一種基于在線(xiàn)狀態(tài)學(xué)習(xí)與估計(jì)的目標(biāo)跟蹤方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于在線(xiàn)狀態(tài)學(xué)習(xí)與估計(jì)的目標(biāo)跟蹤方法,它能有效地解決目標(biāo)外觀(guān)變化時(shí)的模型學(xué)習(xí)和跟蹤漂移問(wèn)題,實(shí)現(xiàn)實(shí)時(shí)穩(wěn)定的目標(biāo)跟蹤。
該方法首先構(gòu)建一個(gè)目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò),該網(wǎng)絡(luò)由特征提取網(wǎng)絡(luò)和回歸網(wǎng)絡(luò)兩部分組成,特征提取網(wǎng)絡(luò)為預(yù)訓(xùn)練網(wǎng)絡(luò)alexnet,回歸網(wǎng)絡(luò)為遞歸神經(jīng)網(wǎng)絡(luò)(rnn網(wǎng)絡(luò))。在初始網(wǎng)絡(luò)訓(xùn)練過(guò)程中,使用初始訓(xùn)練集和隨機(jī)梯度下降法對(duì)目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練完成后網(wǎng)絡(luò)獲得了對(duì)目標(biāo)進(jìn)行定位和狀態(tài)估計(jì)的初始能力。在跟蹤過(guò)程中,目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行正向處理,網(wǎng)絡(luò)將直接輸出該圖像對(duì)應(yīng)的目標(biāo)相關(guān)信息,其中獲得的目標(biāo)概率和狀態(tài)信息決定網(wǎng)絡(luò)是否進(jìn)行在線(xiàn)學(xué)習(xí),而目標(biāo)位置和大小信息實(shí)現(xiàn)對(duì)目標(biāo)的定位,從而實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象的跟蹤。
本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的,具體包括如下步驟:
步驟一、目標(biāo)選?。?/p>
從初始圖像中選擇并確定要跟蹤的目標(biāo)對(duì)象。目標(biāo)選取過(guò)程可以通過(guò)運(yùn)動(dòng)目標(biāo)檢測(cè)方法自動(dòng)提取,也可以通過(guò)人機(jī)交互方法手動(dòng)指定。
步驟二、構(gòu)建目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò):
目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)將圖像規(guī)則化為一個(gè)統(tǒng)一的大小后作為其輸入,該網(wǎng)絡(luò)包括兩個(gè)部分構(gòu)成,前部分為特征提取網(wǎng)絡(luò),后部分為回歸網(wǎng)絡(luò)。這里特征提取網(wǎng)絡(luò)采用可公開(kāi)獲得的預(yù)訓(xùn)練網(wǎng)絡(luò)alexnet,該網(wǎng)絡(luò)共有25層,是在包含120萬(wàn)個(gè)訓(xùn)練圖像的大規(guī)模數(shù)據(jù)集imagenet上訓(xùn)練獲得的深度網(wǎng)絡(luò)。而回歸網(wǎng)絡(luò)采用遞歸神經(jīng)網(wǎng)絡(luò)(rnn網(wǎng)絡(luò))對(duì)目標(biāo)進(jìn)行位置回歸和狀態(tài)估計(jì)。這里將目標(biāo)可能的外觀(guān)狀態(tài)劃分為自變化狀態(tài)和干擾狀態(tài)兩大類(lèi),自變化狀態(tài)包含由目標(biāo)自身的運(yùn)動(dòng)引起的外觀(guān)變化狀態(tài),如旋轉(zhuǎn)、扭曲等,干擾狀態(tài)包括由背景干擾或者場(chǎng)景變化引起的目標(biāo)外觀(guān)變化狀態(tài),如遮擋、光照變化等。因此將rnn網(wǎng)絡(luò)的輸出設(shè)計(jì)為包含目標(biāo)的概率,位置,大小和狀態(tài)信息,具體有七個(gè)節(jié)點(diǎn),這些節(jié)點(diǎn)分別對(duì)應(yīng)目標(biāo)的概率po,目標(biāo)的中心點(diǎn)橫坐標(biāo)xo,目標(biāo)的中心點(diǎn)縱坐標(biāo)yo,目標(biāo)的寬度wo,目標(biāo)的高度ho,目標(biāo)的自變化狀態(tài)s1,以及目標(biāo)的干擾狀態(tài)s2。
步驟三、初始訓(xùn)練集生成與網(wǎng)絡(luò)訓(xùn)練:
初始訓(xùn)練集的生成包括兩個(gè)部分,一個(gè)部分為目前可公開(kāi)獲得的有標(biāo)注視頻數(shù)據(jù)集或者圖像序列集,另一個(gè)部分則是根據(jù)初始圖像來(lái)人工合成跟蹤序列,具體包括兩個(gè)方面的工作,一方面將初始圖像中的目標(biāo)對(duì)象進(jìn)行變換,包括平移、旋轉(zhuǎn)、扭曲和遮擋(遮擋物在背景中選取)等操作,另一方面對(duì)整個(gè)場(chǎng)景進(jìn)行循環(huán)移動(dòng),由此可獲得大量模擬的跟蹤序列。初始訓(xùn)練集中包含的所有圖像均標(biāo)記其對(duì)應(yīng)的目標(biāo)概率,位置,大小和狀態(tài)信息,與目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)的各輸出節(jié)點(diǎn)對(duì)應(yīng)。然后,使用初始訓(xùn)練集對(duì)目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練過(guò)程中特征提取網(wǎng)絡(luò)的參數(shù)保持不變,只訓(xùn)練回歸網(wǎng)絡(luò)的參數(shù),訓(xùn)練方法采用目前已廣泛使用的深度網(wǎng)絡(luò)訓(xùn)練方法,即隨機(jī)梯度下降法(sgd)。訓(xùn)練完成后網(wǎng)絡(luò)將獲得對(duì)目標(biāo)進(jìn)行定位和狀態(tài)估計(jì)的初始能力。
步驟四、圖像輸入:
在實(shí)時(shí)處理情況下,提取通過(guò)攝像頭采集并保存在存儲(chǔ)區(qū)的視頻圖像,作為要進(jìn)行跟蹤的輸入圖像;在離線(xiàn)處理情況下,將已采集的視頻文件分解為多個(gè)幀組成的圖像序列,按照時(shí)間順序,逐個(gè)提取幀圖像作為輸入圖像。如果輸入圖像為空,則整個(gè)流程中止。
步驟五、目標(biāo)定位與狀態(tài)估計(jì):
將輸入圖像規(guī)則化為目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)輸入端所需的大小,然后輸入該網(wǎng)絡(luò),網(wǎng)絡(luò)經(jīng)過(guò)正向處理后將直接輸出該圖像對(duì)應(yīng)的目標(biāo)概率,目標(biāo)的位置,大小和狀態(tài),即目標(biāo)的概率,目標(biāo)的中心點(diǎn)橫坐標(biāo),目標(biāo)的中心點(diǎn)縱坐標(biāo),目標(biāo)的寬度,目標(biāo)的高度,目標(biāo)的自變化狀態(tài),以及目標(biāo)的干擾狀態(tài)。由此得到目標(biāo)的位置和大小,完成對(duì)目標(biāo)的定位,跟蹤完成。如果網(wǎng)絡(luò)輸出的目標(biāo)概率po>θp(θp=0.8),并且目標(biāo)的自變化狀態(tài)s1>θs1(θs1=0.8),目標(biāo)的干擾狀態(tài)s2<θs2(θs2=0.5),則跳轉(zhuǎn)到步驟六,否則跳轉(zhuǎn)到步驟四。
步驟六、網(wǎng)絡(luò)在線(xiàn)學(xué)習(xí):
將目標(biāo)的概率po調(diào)整為po=1,將目標(biāo)的自變化狀態(tài)s1調(diào)整為s1=1,將目標(biāo)的干擾狀態(tài)s2調(diào)整為s2=0,然后用當(dāng)前圖像對(duì)目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練方法與步驟三相同,由此網(wǎng)絡(luò)獲得更新,實(shí)現(xiàn)網(wǎng)絡(luò)的在線(xiàn)學(xué)習(xí)。
本發(fā)明方法的技術(shù)流程圖如圖1所示。在初始網(wǎng)絡(luò)訓(xùn)練過(guò)程中,使用初始訓(xùn)練集和隨機(jī)梯度下降法對(duì)目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練完成后網(wǎng)絡(luò)獲得了對(duì)目標(biāo)進(jìn)行定位和狀態(tài)估計(jì)的初始能力。在跟蹤過(guò)程中,目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行正向處理,網(wǎng)絡(luò)將直接輸出該圖像對(duì)應(yīng)的目標(biāo)相關(guān)信息,其中獲得的目標(biāo)概率和狀態(tài)信息決定網(wǎng)絡(luò)是否進(jìn)行在線(xiàn)學(xué)習(xí),而目標(biāo)位置和大小信息實(shí)現(xiàn)對(duì)目標(biāo)的定位,從而實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象的跟蹤。
本發(fā)明的優(yōu)點(diǎn)和積極效果:提出一種基于在線(xiàn)狀態(tài)學(xué)習(xí)與估計(jì)的目標(biāo)跟蹤方法。該方法首先構(gòu)建一個(gè)目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò),該網(wǎng)絡(luò)由特征提取網(wǎng)絡(luò)和回歸網(wǎng)絡(luò)兩部分組成,特征提取網(wǎng)絡(luò)為預(yù)訓(xùn)練網(wǎng)絡(luò)alexnet,回歸網(wǎng)絡(luò)為遞歸神經(jīng)網(wǎng)絡(luò)(rnn網(wǎng)絡(luò))。在初始網(wǎng)絡(luò)訓(xùn)練過(guò)程中,使用初始訓(xùn)練集和隨機(jī)梯度下降法對(duì)目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練完成后網(wǎng)絡(luò)獲得了對(duì)目標(biāo)進(jìn)行定位和狀態(tài)估計(jì)的初始能力。在跟蹤過(guò)程中,目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行正向處理,網(wǎng)絡(luò)將直接輸出該圖像對(duì)應(yīng)的目標(biāo)相關(guān)信息,其中獲得的目標(biāo)概率和狀態(tài)信息決定網(wǎng)絡(luò)是否進(jìn)行在線(xiàn)學(xué)習(xí),而目標(biāo)位置和大小信息實(shí)現(xiàn)對(duì)目標(biāo)的定位,從而實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象的跟蹤。由于利用了深度學(xué)習(xí)其強(qiáng)大的特征學(xué)習(xí)能力,本發(fā)明能夠處理復(fù)雜的跟蹤場(chǎng)景,實(shí)現(xiàn)準(zhǔn)確的目標(biāo)跟蹤,同時(shí)基于回歸的方法避免了大量的位置搜索,目標(biāo)定位的速度得到很大的提高,可以實(shí)現(xiàn)實(shí)時(shí)的目標(biāo)跟蹤。此外,本發(fā)明方法不僅可以用于單目標(biāo)跟蹤,通過(guò)對(duì)網(wǎng)絡(luò)進(jìn)行相應(yīng)的改進(jìn)(如輸出端),還可以擴(kuò)展用于多目標(biāo)的跟蹤。
附圖說(shuō)明
圖1為本發(fā)明方法的技術(shù)流程圖
圖2為目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)示意圖
具體實(shí)施方式
本發(fā)明的方法可用于目標(biāo)跟蹤的各種場(chǎng)合,如智能視頻分析,自動(dòng)人機(jī)交互,交通視頻監(jiān)控,無(wú)人車(chē)輛駕駛,生物群體分析,以及流體表面測(cè)速等。
以智能視頻分析為例:智能視頻分析包含許多重要的自動(dòng)分析任務(wù),如行為分析,異常報(bào)警,視頻壓縮等,而這些工作的基礎(chǔ)則是能夠進(jìn)行穩(wěn)定的目標(biāo)跟蹤??梢圆捎帽景l(fā)明提出的跟蹤方法實(shí)現(xiàn),具體來(lái)說(shuō),首先建立一個(gè)目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò),如圖2所示,然后在初始網(wǎng)絡(luò)訓(xùn)練過(guò)程中,使用初始訓(xùn)練集和隨機(jī)梯度下降法對(duì)目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練完成后網(wǎng)絡(luò)即可獲得對(duì)目標(biāo)進(jìn)行定位和狀態(tài)估計(jì)的初始能力。在跟蹤過(guò)程中,目標(biāo)定位與狀態(tài)估計(jì)網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行正向處理,網(wǎng)絡(luò)將直接輸出該圖像對(duì)應(yīng)的目標(biāo)相關(guān)信息,其中獲得的目標(biāo)概率和狀態(tài)信息決定網(wǎng)絡(luò)是否進(jìn)行在線(xiàn)學(xué)習(xí),而目標(biāo)位置和大小信息實(shí)現(xiàn)對(duì)目標(biāo)的定位,從而實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象的跟蹤。由于利用了深度學(xué)習(xí)其強(qiáng)大的特征學(xué)習(xí)能力,本發(fā)明能夠處理復(fù)雜的跟蹤場(chǎng)景,實(shí)現(xiàn)準(zhǔn)確的目標(biāo)跟蹤,同時(shí)基于回歸的方法避免了大量的位置搜索,目標(biāo)定位的速度得到很大的提高,可以實(shí)現(xiàn)實(shí)時(shí)的目標(biāo)跟蹤。此外,本發(fā)明方法不僅可以用于單目標(biāo)跟蹤,通過(guò)對(duì)網(wǎng)絡(luò)進(jìn)行相應(yīng)的改進(jìn)(如輸出端),還可以擴(kuò)展用于多目標(biāo)的跟蹤。
本發(fā)明方法可通過(guò)任何計(jì)算機(jī)程序設(shè)計(jì)語(yǔ)言(如c語(yǔ)言)編程實(shí)現(xiàn),基于本方法的跟蹤系統(tǒng)軟件可在任何pc或者嵌入式系統(tǒng)中實(shí)現(xiàn)實(shí)時(shí)目標(biāo)跟蹤應(yīng)用。