本發(fā)明屬于計算機視覺和神經(jīng)生物學(xué)領(lǐng)域,具體涉及一種模擬視覺皮質(zhì)機制的視頻目標跟蹤方法。
背景技術(shù):
生物激勵模型(Biologically inspired model,BIM)是由Serre等人依據(jù)神經(jīng)生理學(xué)家Hubel和Wiesel對視覺皮質(zhì)研究成果的基礎(chǔ)上建立。BIM的特征提取是一個4分層結(jié)構(gòu)模型,4層結(jié)構(gòu)分別命名為S1、C1、S2和C2。S1和C1層對應(yīng)視覺皮質(zhì)的V1層,提取能容忍平移變換的目標紋理特征;S2和C2層對應(yīng)視覺皮質(zhì)的MST區(qū),提取能夠區(qū)分目標的類特征。由于BIM以神經(jīng)生理學(xué)研究成果作為基礎(chǔ),相比其他人工提取的特征具有不可比擬的優(yōu)越性,此模型被廣泛應(yīng)用于計算機視覺任務(wù),例如行為識別、年齡識別、場景識別等。隨著高性能GPU和分布式系統(tǒng)的開發(fā),將BIM用于視頻目標跟蹤任務(wù)成為可能。
視頻目標跟蹤的研究主要步驟為:目標檢測,目標外觀模型的建立以及對目標的快速搜索。第一步需要從背景圖像中對目標進行準確定位,這一環(huán)節(jié)現(xiàn)在已作為一個獨立的研究方向;第二步是提取能夠自適應(yīng)目標外觀變化的特征來建立目標的外觀模型,所選特征可以包含目標的顏色、形狀、紋理等信息;第三步設(shè)計高效的搜索策略,快速的定位目標。目前主要有以下搜索算法:粒子濾波、光流法、均值平移算法等。
近年來視頻目標跟蹤算法研究取得了很大的進展,獲得不錯的跟蹤效果。但模擬視覺皮質(zhì)機制的目標跟蹤算法卻少有研究,將BIM引入目標跟蹤算法能夠使計算機實現(xiàn)更加符合人類視覺皮質(zhì)的工作機制,達到精確度高、魯棒性好的跟蹤效果。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)存在的問題和迫切需求,本發(fā)明提供了一種視頻目標跟蹤方法及系統(tǒng),其目的在于,利用BIM建立目標的外觀模型并引入跟蹤框架,使得計算機能夠模擬視覺皮質(zhì)工作機制穩(wěn)健地跟蹤目標。
一種模擬視覺皮質(zhì)機制的視頻目標跟蹤方法,包括離線訓(xùn)練和在線跟蹤兩個階段;
所述離線訓(xùn)練階段包括以下步驟:
(11)構(gòu)建跟蹤目標圖像的正負樣本集;
(12)對正負樣本建立圖像金字塔,提取圖像金字塔的BIM特征,依據(jù)BIM特征進行第一輪的分類器訓(xùn)練,按照分類器訓(xùn)練得到的權(quán)重大小篩選特征以降低特征維數(shù);
(13)利用降低特征維數(shù)后的BIM特征進行第二輪的分類器訓(xùn)練;
所述在線跟蹤階段包括以下步驟:
(21)對待檢測圖像初始化檢測區(qū)域,建立檢測區(qū)域的圖像金字塔;
(22)對檢測區(qū)域的圖像金字塔提取BIM特征,將其送入步驟(13)訓(xùn)練好的分類器,分類器輸出檢測區(qū)域的判定結(jié)果;在提取BIM特征的過程中得到多個匹配子塊,利用匹配子塊預(yù)測目標候選區(qū)域;
(23)依據(jù)分類器判定結(jié)果從候選區(qū)域中迭代選出潛在目標區(qū)域;
(24)從潛在目標區(qū)域中選取目標區(qū)域概率最大者即為最終的目標區(qū)域。
進一步地,所述步驟(12)的具體實現(xiàn)方式為:
(121)對每一個樣本建立圖像金字塔并提取BIM特征,包括S1層特征、S2層特征、S3層特征和S4層特征;
所述S1層特征的計算方式為:將圖像金字塔通過S1層計算單元計算的結(jié)果定義為S1層特征;S1層計算單元是4個Gabor濾波器構(gòu)成的濾波器組,表示為:
x0=xcosθ+ysinθ,
y0=-xsinθ+ycosθ
式中,F(xiàn)(x,y,θ)表示濾波器在坐標(x,y)處所對應(yīng)的響應(yīng)值,θ控制濾波器的方向,取值分別為4個方向?qū)?yīng)4個Gabor濾波器;γ表示濾波器的長寬比,σ表示濾波器的帶寬,λ表示濾波器的波長;
所述C1層特征的計算方式為:將S1層特征通過C1計算單元的計算結(jié)果定義為C1層特征;C1層計算單元對輸入的S1層特征對應(yīng)的局部鄰域內(nèi)提取最大值,計算單元設(shè)定的局部鄰域為從S1層特征對應(yīng)的圖像金字塔中提取的一個局部金字塔;
所述S2層特征的計算方式為:將C1層特征通過S2層計算單元的計算結(jié)果定義為S2層特征,S2層計算單元計算C1層金字塔中的特征子塊X與每個子塊模板之間的相似性度,所述是從多個樣本的C1層特征上隨機抽取的子塊,d為抽取子塊的數(shù)量;所述相似度函數(shù)定義為:式中,
所述C2層特征的計算方式為:將S2層特征通過C2層計算單元的計算結(jié)果定義為C2層特征,C2層計算單元計算C1層金字塔中每一個特征子塊的相似度響應(yīng)全局最大值;
(122)篩選特征子塊
將C2層特征送入分類器訓(xùn)練,利用分類器的特征選擇能力,對d個子塊模板根據(jù)分類器訓(xùn)練得到的對應(yīng)權(quán)重大小進行排序,選擇最大的k個子塊模板用于第二輪的分類器訓(xùn)練,k<d。
進一步地,所述步驟(22)的具體實現(xiàn)方式為:
(221)對檢測區(qū)域的圖像金字塔提取BIM特征,將其送入步驟(13)訓(xùn)練好的分類器,分類器輸出檢測區(qū)域的判定結(jié)果;
(222)對檢測區(qū)域的圖像金字塔提取BIM特征,得到k個子塊模板對應(yīng)的最佳匹配子塊,利用匹配子塊預(yù)測目標的候選區(qū)域,具體的實現(xiàn)方式為:
令檢測區(qū)域的圖像金字塔底層的幾何中心為(x,y)坐標原點,匹配子塊的中心相對坐標原點的向量定義為匹配子塊相對于坐標原點的坐標位置(dx,dy),令兩子塊模板之間的距離為Dij,i,j=1,…,k,其對應(yīng)匹配子塊之間的距離為D′ij;計算當前幀的目標尺度因子median()對所有的比值取中位數(shù),提高尺度計算的魯棒性;根據(jù)每個匹配子塊預(yù)測目標的中心位置構(gòu)建以目標的中心位置為中心的目標候選區(qū)域,由這些目標候選區(qū)域構(gòu)成的集合稱為候選集合。
進一步地,所述步驟(23)的具體實現(xiàn)方式為:
(231)從候選集合中隨機選擇一個目標候選區(qū)域。
(232)若分類器輸出判定為目標,則從所有候選區(qū)域中選取離當前目標候選區(qū)域最近的候選區(qū)域作為潛在目標區(qū)域,并從候選集合中剔除潛在目標區(qū)域以及遠離檢測區(qū)域的候選樣本;否則,計算遠離當前檢測區(qū)域的候選區(qū)域的中心位置均值,選擇距離此均值最近的候選區(qū)域作為潛在目標區(qū)域,并從候選集合中剔除潛在目標區(qū)域以及靠近當前檢測區(qū)域的候選區(qū)域;
(233)對步驟(232)選定的潛在目標區(qū)域提取BIM特征,將其送入步驟(13)訓(xùn)練好的分類器,分類器輸出潛在目標區(qū)域的判定結(jié)果;在提取BIM特征的過程中,S2層和C2層的計算可能會找到新的匹配子塊,對新的匹配子塊執(zhí)行與步驟(222)類似的操作,得到新的目標候選區(qū)域,將新的目標候選區(qū)域加入到候選集合;
(234)判定候選集合是否為空,若是,則進入步驟(24),否則返回步驟(231)。
進一步地,所述步驟(24)從潛在目標區(qū)域中選取對應(yīng)分類器判定結(jié)果表明最有可能為目標區(qū)域者即為最終的目標區(qū)域。
本發(fā)明通過上述步驟將BIM用于視頻目標跟蹤,相較于現(xiàn)有的技術(shù),具有如下的優(yōu)點:
相較于其他目標特征提取方法,BIM提取的特征完全模擬視覺皮質(zhì)工作,更符合生物捕獲目標的一般特性,具有魯棒性好的特點;C1層中的子塊是一種局部特征,具有定位局部遮擋目標的功能,而C2層特征是一種全局特征,雖然沒有定位功能但是經(jīng)過機器學(xué)習(xí)卻有很強的區(qū)分目標和背景的能力。本發(fā)明將這兩種特征結(jié)合起來,能夠發(fā)揮各自的優(yōu)勢,既能提高跟蹤的速度,也能確保跟蹤的精度。
附圖說明
圖1為本發(fā)明視頻目標跟蹤方法實現(xiàn)流程圖;
圖2為本發(fā)明BIM特征提取流程圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。
為了幫助對本發(fā)明技術(shù)方案的理解,首先對涉及的技術(shù)術(shù)語進行解釋說明:
BIM模型:生物激勵模型,包括4層結(jié)構(gòu),分別為S1層、C1層、S2層和C2層。其中,S代表視覺皮質(zhì)中的簡單細胞,C代表視覺皮質(zhì)中的復(fù)雜細胞。樣本經(jīng)過S1層和C1層得到是視覺初級特征,接著經(jīng)過S2和C2層得到的是視覺高級特征。
圖像金字塔:圖像金字塔是一個以金字塔結(jié)構(gòu)排列的圖像集合,集合中所有的圖像都源于同一個原始圖像,而且是通過對原始圖像連續(xù)降采樣獲得,直到達到指定的最低分辨率才停止降采樣。
圖1為本發(fā)明視頻目標跟蹤方法實現(xiàn)流程圖,包括離線訓(xùn)練和在線跟蹤兩個階段,具體實現(xiàn)步驟如下:
(1)離線訓(xùn)練步驟:
(11)選擇正負樣本。
正樣本表示目標,在視頻初始幀手動摳取目標區(qū)域,為了能讓分類器識別局部遮擋的目標,用白色的方塊對目標區(qū)域進行隨機遮擋,白色塊的大小取值為[8,0.5*min(w,h)],其中w,h分別為目標的寬度和高度。為了提高對正樣本的識別能力,從CALTECH 101圖像庫中選擇與帶跟蹤目標同類的樣本,提高正樣本的多樣性。
負樣本表示非目標,在初始視頻幀中從背景區(qū)域提取,負樣本的區(qū)域大小可以大于目標的尺寸,最后歸一化到目標的尺寸。為了增加負樣本的代表性,也可以從CALTECH 101圖像庫中選擇與目標外觀相近的其他類圖像。
(12)第一輪離線學(xué)習(xí)。
(121)對樣本建立圖像金字塔,并提取BIM特征。
圖2為本發(fā)明BIM特征提取流程圖。
S1層具體為:
S1層中的計算單元是4個Gabor濾波器構(gòu)成濾波器組:
x0=xcosθ+ysinθ,
y0=-xsinθ+ycosθ
式中,F(xiàn)(x,y,θ)表示濾波器在坐標(x,y)處所對應(yīng)的響應(yīng)值,θ控制濾波器的方向,取值分別為4個方向?qū)?yīng)4個Gabor濾波器;γ表示濾波器的長寬比,σ表示濾波器的帶寬,λ表示濾波器的波長,這三個參數(shù)根據(jù)人眼感受野的物理特性確定,均為常數(shù)。
S1層計算單元排列成與輸入圖像相似的金字塔結(jié)構(gòu),使得計算單元能夠在輸入的圖像金字塔所有尺度和位置上進行計算。將圖像金字塔通過S1層計算單元計算的結(jié)果定義為S1層特征。
C1層具體為:
C1層是一個匯聚層,C1層中的計算單元同樣排列為金字塔結(jié)構(gòu),每個計算單元對輸入的S1層特征對應(yīng)的局部鄰域內(nèi)提取最大值。計算單元設(shè)定的局部鄰域為從S1層特征對應(yīng)的圖像金字塔中提取的一個兩層結(jié)構(gòu)的局部金字塔范圍,局部金字塔的底層大小為2Δs×2Δs。C1層計算單元所計算的區(qū)域相互重疊,重疊寬度為Δs。將S1層特征通過C1計算單元的計算結(jié)果定義為C1層特征。
為了提取接下來的S2層特征,需要從大量樣本的C1層特征上隨機抽取不同尺寸的方形子塊作為子塊模板子塊模板的尺寸n為經(jīng)驗值,譬如為(4,8,12,16);抽取的子塊可以來自于C1層輸出金字塔的不同尺度層,d為抽取子塊的數(shù)量,一般大于1000。
S2層具體為:
S2層計算輸入的C1層金字塔中的子塊X與每個子塊模板Pi之間的相似性度量。相似度函數(shù)定義為:式中,取值僅僅與子塊的尺寸n有關(guān)。
C2層具體為:
C2層也是一個匯聚層,通過計算每一個特征子塊的相似度響應(yīng)全局最大值,得到C2層特征,C2層的計算結(jié)果是一個d維的向量。
(122)篩選特征子塊
C2層特征送入分類器訓(xùn)練,分類器可以選擇SVM或者Adaboost。利用分類器的特征選擇能力,對d個子塊模板根據(jù)分類器訓(xùn)練得到的對應(yīng)權(quán)重大小進行排序,選擇最大的k個子塊模板作為目標跟蹤的外觀模型。
本發(fā)明以SVM分類器實現(xiàn)為例。將提取的C2特征送入SVM分類器訓(xùn)練,得到分類器的判別函數(shù)為:式中,權(quán)重ωi,對應(yīng)支撐向量權(quán)重ωi以及偏置b由訓(xùn)練得到。選擇最大的k個權(quán)重ωi所對應(yīng)的子塊模板xi,k取100。這100個子塊還將用于第二輪訓(xùn)練。
(13)第二輪離線訓(xùn)練。
第二輪離線訓(xùn)練的流程與第一輪訓(xùn)練流程基本一致,所有樣本建立圖像金字塔后依次經(jīng)過S1,C1,S2和C2層計算單元的計算,輸出的C2層特征傳遞給分類器進行訓(xùn)練。不同之處在于S2層中使用的子塊模板為步驟(122)篩選后的子塊模板,使得輸出的C2層特征維數(shù)大大減小。而第二輪訓(xùn)練得到的分類器將用于在線跟蹤階段用于識別目標。
(2)在線跟蹤步驟:
為了提高跟蹤器的搜索效率,本發(fā)明采用一個迭代過程搜索目標。搜索的過程如下:初始化目標檢測區(qū)域。根據(jù)BIM的S2層和C2層計算,尋找所有子塊模板的最佳匹配,同時計算檢測區(qū)域的分類器分數(shù)。利用匹配子塊預(yù)測目標的位置,得到目標候選位區(qū)域集合;迭代檢測候選區(qū)域,每次迭代僅僅檢測一個候選區(qū)域,提取檢測區(qū)域的BIM特征并計算分類器分數(shù)檢測。迭代中候選樣本的選擇策略由上一次迭代的分類器分數(shù)決定。在檢測過程中,對S2和C2層計算中新產(chǎn)生的子塊匹配進行子塊預(yù)測,將新的預(yù)測結(jié)果加入到候選樣本集合,同時剔除樣本集合中一些不可靠的樣本以減少迭代的次數(shù)。當候選樣本集合中沒有樣本需要檢測時,迭代終止。對所有檢測的候選樣本的分類器分數(shù)進行排序,并確定最終的跟蹤結(jié)果。
(21)初始化檢測區(qū)域。
對待檢測圖像初始化檢測區(qū)域,建立檢測區(qū)域的圖像金字塔。如果當前是第一幀或者上一幀無法定位目標時,使用目標檢測來初始化檢測區(qū)域。如果是連續(xù)跟蹤過程中,則可以使用上一幀跟蹤結(jié)果所確定的區(qū)域作為檢測區(qū)域。
(22)對檢測區(qū)域的圖像金字塔提取BIM特征,將其送入步驟(13)訓(xùn)練好的分類器,分類器輸出檢測區(qū)域的判定結(jié)果;在提取BIM特征的過程中得到多個匹配子塊,利用匹配子塊預(yù)測目標候選區(qū)域。
(221)對檢測區(qū)域的圖像金字塔提取BIM特征,將其送入步驟(13)訓(xùn)練好的分類器,分類器輸出檢測區(qū)域的判定結(jié)果,即分類器分數(shù)。
(222)初始化候選集合
對檢測區(qū)域的圖像金字塔提取BIM特征,得到k個子塊模板對應(yīng)的最佳匹配子塊。利用匹配子塊預(yù)測目標的候選區(qū)域:令檢測區(qū)域的圖像金字塔底層的幾何中心為(x,y)坐標原點,匹配子塊的中心相對坐標原點的向量定義為匹配子塊相對于坐標原點的坐標位置(dx,dy),令子塊模板之間的距離為Dij,i,j=1,…,k,其對應(yīng)匹配子塊之間的距離為D′ij計算當前幀的目標尺度因子median()對所有的比值取中位數(shù),提高尺度計算的魯棒性;根據(jù)每個匹配子塊預(yù)測目標的中心位置構(gòu)建以目標的中心位置為中心的目標候選區(qū)域。由這些目標候選區(qū)域構(gòu)成的集合稱為候選集合。
(23)依據(jù)分類器判定結(jié)果從候選區(qū)域中迭代選出潛在目標區(qū)域。
(231)從候選集合中選擇一個目標候選區(qū)域。
(232)依據(jù)分類器分數(shù)S(x)判定該目標候選區(qū)域是否含有目標,若判定結(jié)果為是,則認為該候選區(qū)域靠近目標,否則,該候選區(qū)域遠離目標。譬如,認定分類器分數(shù)S(x)非負則對應(yīng)為目標,反之,為非目標。那么,在本步驟中,若S(x)≥0,認定目標非常接近檢測區(qū)域,則從所有候選區(qū)域中選取離當前目標候選區(qū)域最近的候選區(qū)域作為潛在目標區(qū)域,并從候選集合中剔除潛在目標區(qū)域以及遠離檢測區(qū)域的候選樣本。若S(x)<0,認定目標不在當前目標候選區(qū)域附近,則計算遠離當前檢測區(qū)域的候選區(qū)域的中心位置均值,選擇距離此均值最近的候選區(qū)域作為潛在目標區(qū)域,并從候選集合中剔除潛在目標區(qū)域以及靠近當前檢測區(qū)域的候選區(qū)域。
(233)對步驟(232)選定的潛在目標區(qū)域提取BIM特征,將其送入步驟(13)訓(xùn)練好的分類器,分類器輸出潛在目標區(qū)域的判定結(jié)果。在提取BIM特征的過程中,S2層和C2層的計算可能會找到新的匹配子塊。對新的匹配子塊執(zhí)行與步驟(222)類似的操作,得到新的目標候選區(qū)域,將新的目標候選區(qū)域加入到候選集合。
(234)判定候選集合是否為空,若是,則進入步驟(24),否則返回步驟(231)。
(24)選取為目標區(qū)域概率最大者即為最終的目標區(qū)域。譬如,認定分類器分數(shù)S(x)非負則對應(yīng)為目標,反之,為非目標。那么,在本步驟中,若max(S(x))≥0,則選擇最大分類器分數(shù)的結(jié)果作為最終的跟蹤結(jié)果;若max(S(x))<0,則當前幀無法找到目標。
本領(lǐng)域的技術(shù)人員容易理解,以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。