本發(fā)明涉及計算機視覺領域,尤其涉及一種基于外觀模型的學習型視覺追蹤方法。
背景技術:
:視覺追蹤的應用很廣,包括視頻監(jiān)控和人機交互。因為存在大的非剛性形變、目標外觀變化、嚴重遮擋以及未知的相機運動,如何進行準確高效的視覺追蹤還是一個有挑戰(zhàn)的問題。視覺追蹤分為兩類:有區(qū)分度的識別和生成識別。有區(qū)分度的識別,是把追蹤任務當成一種劃分前景、背景的二元分類問題,根據(jù)當前幀來學習分類器并對之后的幀進行分類。生成識別方法根據(jù)之前的目標學習目標外觀模型,當有新的幀到來的時候,選擇最接近目標模型的候選樣本作為真實目標。近年來,提出了一些新的目標建模方法,例如基于子空間的目標表示和基于稀疏表示的外觀模型。在視覺追蹤研究領域中,建立可靠的目標外觀模型相當重要。因為通常使用矩形邊界框對目標進行定位,所以傳統(tǒng)的建模方法通常把邊界框中的圖像區(qū)域當成真實目標。然而,在實際應用中,邊界框內部不可避免地存在一些背景噪聲,對于非剛性的目標而言尤其嚴重,影響結果的準確性。本發(fā)明的視覺追蹤方法通過把前景劃分的過程精細化,即假設前景區(qū)域包含一些可以解釋為可靠的目標區(qū)域的正包集,利用可靠的目標區(qū)域來構建目標模型,克服上述缺陷。本發(fā)明對多實例學習(MIL)范式的一般假設進行了推廣。MIL的基本假設是:如果包中至少有一個實例是正的,該包就是正的;如果所有的實例都是負的,該包就是負的。通過把圖像幀分為一些互不重疊的超像素區(qū)域,直觀發(fā)現(xiàn)在目標框內至少有一個超像素區(qū)域是正的,邊界框外的所有的超像素區(qū)域都是負的。因此,這種情況符合MIL的假設。技術實現(xiàn)要素:本發(fā)明的目的在于針對上述技術存在的缺陷,提供了一種基于外觀模型的學習型視覺追蹤方法,該方法首先把圖像幀劃分成若干超像素區(qū)域,然后把分割后的超像素區(qū)域聚為正包集和負包集;最后使用一個貪心搜索算法來學習每個包的分布。本發(fā)明的建模方法在學習過程中沒有使用迭代,而是通過一種多示例的學習任務對外觀模型進行了建模,克服了基于邊界框建模方法自身的局限性,提高了計算效率,能夠適用于實時的目標追蹤應用;此外,提出了一個兩步的過程來進行置信度的劃分,保證了置信度劃分的有效性,從而大大提高了目標追蹤的準確性。本發(fā)明是通過如下技術方案實現(xiàn)的,一種基于外觀模型的學習型視覺追蹤方法,其特征在于:該方法包括以下步驟:步驟1:學習前景背景集:對訓練中的幀進行過分割,整個過程符合(MIL)范式,使用正包來對邊界框內部的目標進行建模,同時用負包集來表示背景;采用凈化后的包來學習目標中的每一塊,使得外觀模型獲得更準確的前景劃分結果;步驟2:學習包集分布:采用貪心搜索算法獲取正包集和負包集的數(shù)目,并分別對獲取到的每個正包集和負包集進行學習;步驟3:學習每個包集的權重:給更有辨識度的塊分配更大的權重,使正包集和負包集的邊緣得到最大化;步驟4:對后續(xù)的幀進行判斷:步驟4.1:對于一個新的幀,首先獲取搜索區(qū)域并抽取出搜索區(qū)域內的N個超像素;步驟4.2:然后為上述每個超像素分配一個超像素值,進而獲得每個超像素的置信度;步驟4.3:根據(jù)公式生成一些候選的目標狀態(tài),已知,目標狀態(tài)與目標區(qū)域相對應,把候選的目標區(qū)域歸一化成相同的尺寸;步驟4.4:當對該新的幀追蹤完之后,把追蹤完的該新的幀的信息加到訓練集中,去掉最老的信息;每U幀更新一次外觀模型。其中,所述步驟2中的貪心搜索算法過程為:首先,進行初始化,把訓練集第一幀目標區(qū)域中的每一個像素當成一個獨立的包;然后,把后續(xù)幀中的超像素劃分給最近的包;接著,對含有冗余信息的多余的包集進行合并、優(yōu)化;最后,得到正包集的高斯分布和負包集的分布。所述步驟4.2中為每個超像素分配一個超像素值得過程為:首先為每個超像素分配二進制類標簽,然后對二進制類標簽進行定義,使得每一個超像素被分配了正標簽或負標簽。本發(fā)明有益效果是:1、本發(fā)明提出了一種基外觀模型的學習型新穎的目標建模方法,把已知圖像分解成一些互相不遮擋的超像素區(qū)域之后,把邊界框內部的超像素標定為正包,把邊界外部的超像素標定為負包,克服了基于邊界框建模方法自身的局限性。2、通過在模板學習的過程中尋找一種貪心算法舍棄迭代,適用于實時目標追蹤應用,提高了計算效率。3、提出了一個兩步的過程來進行置信度的劃分,避免了不可靠的劃分,提高了追蹤的性能,從而達到比之前的方法計算起來更快,而且實驗效果優(yōu)于平均水平的效果,大大提高了目標追蹤的準確性。附圖說明圖1是本發(fā)明所述方法的流程圖。具體實施方式下面結合附圖1對本發(fā)明做進一步說明。一種基于外觀模型的學習型視覺追蹤方法,其特征在于,該方法包括以下步驟:步驟1:學習前景背景集:對訓練中的幀進行過分割,整個過程符合(MIL)范式,使用正包來對邊界框內部的目標進行建模,同時用負包集來表示背景;通過正負包的信息,可以估計目標的位置;假設正的包集跟負的包集是獨立的,置信度的劃分可以用下面的方法來判定:C(ri)=p(l(ri)=1|B+)p(l(ri)=1|B-),其中,B+和B-代表正包集和負包集;為了去掉邊界框中的負超像素集,需要計算邊界框中的超像素是背景的可能性,超像素對之間的距離可以定義如下:其中,代表邊界框內的第i個超像素的特征向量,代表邊界框外的第j個超像素的特征向量;使用一個預先定義的閾值λd,特征之間的距離可以被量化為一個二值問題,公式如下:indij=1Dij<λd0Dij≥λd,]]>其中,1代表著兩個超像素很相似;根據(jù)下面的公式來判定當前的超像素是否因為從正樣本中移除:其中,Ni代表與邊界框內部的超像素相似的數(shù)目,No代表與邊界框外部的超像素相似的數(shù)目;當ρr大于λr的時候,當前的超像素就會被移除,進入負包集中;最后,采用凈化后的包來學習目標中的每一塊,使得外觀模型獲得更準確的前景劃分結果。步驟2:學習包集分布:采用貪心搜索算法獲取正/負包集的數(shù)目并對給定的正/負包集B+/B-進行學習,具體過程為:首先,進行初始化,把訓練集第一幀目標區(qū)域中的每一個像素當成一個獨立的包,然后,把后續(xù)幀中的超像素劃分給最近的包,計算公式如下:其中,indi代表第i個超像素屬于的包,代表第一幀中的的第j個超像素,這樣就可以獲得正包集和負包集接著,計算正包集中的第i個元素bi的平均值和個數(shù)其中 代表平均值;假設兩幀之間沒有突變,則可以確定每一個包集都含有一定成分的目標或背景,然而,因為第一幀的超像素跟別的幀的超像素在特征空間中是相似的,所以包集存在冗余信息,這會導致目標區(qū)域被劃分成到幾個包集中,因此,需要對多余的包進行合并,矩陣M+用來代表兩個包合并的可能性,公式如下:M+={mij+},mij+=1||μi+-μj+||2≤λd0||μi+-μj+||2>λd]]>其中,1代表這兩個幀可以合并,0代表不可以;在合并之前,初始的正包集是其中是初始集中的第i個正包;我們試圖找到的子集來覆蓋所有的包,該子集定義為其中包含中的一個或多個包,指代M+,根據(jù)變量y來進行該優(yōu)化過程,公式如下:yj=1sj+⋐Bo+0otherwise]]>最優(yōu)解滿足如下的約束條件:minΣj=1myj]]>s.t.Σj:bk+∈sj+yj≥1,k=1,2,...,n]]>該約束條件能夠確保每個包至少能包括的一個子集,上面的公式是典型的集和覆蓋問題,存在多項式難度。因此,為了尋找一個可行解,采用了一種集覆蓋貪心算法來求解,該貪心算法的計算復雜度是O(lnn+1),其中n是原始集中的包數(shù);最后,獲得了正包集的高斯分布和負包集的分布,參數(shù)(μ,σ)可以在每個集合中進行更新。步驟3:學習每個包集的權重:給更有辨識度的塊分配更大的權重,使正包集和負包集的邊緣得到最大化;計算包的區(qū)分度公式如下:BS(fi+,fj-)=14(ui+-uj-)σi+2+σj-2+12ln(σi+2+σj-22σi+σj-)]]>使用來表示特征和所有的負特征的最小聚類,并利用下面的公式來分配權重:ωi+=exp(BSmin(fi+))Σj=1n+exp(BSmin(fj+))]]>類似地,負包的權重可以用下面的公式獲得:該權重的分配過程能夠最大化正包和負包的邊緣。步驟4:對后續(xù)的幀進行判斷:步驟4.1:對于一個新的幀It+1,首先獲取搜索區(qū)域Rt+1={ct+1,lt+1},其中,ct+1=(xt,yt),lt+1=λlmax(ht,wt),(ht,wt)表示幀It中目標的高和寬;然后抽取出Rt+1內的N個超像素步驟4.2:為上述每個超像素分配一個超像素值,首先為每個超像素分配二進制類標簽,獲得正包集B+和負包集B-,定義這意味著和B+的距離;類似地,定義然后,對二進制類標簽進行定義,公式為:l(rt+1n)=1ifmin(a+)≤min(a-)0ifmin(a+)>min(a-),]]>基于該公式,每一個超像素被分配了正標簽或負標簽;最后,求取每個超像素的置信度,置信度公式如下:C^(rt+1n)=Σi=1n+ωi+exp(-||ft+1n-μi+||2σi+2)ifl(rt+1n)=1Σi=1n-ωi-exp(-||ft+1n-μi-||2σi-2)ifl(rt+1n)=0;]]>其中,n,wi,μi和σi是正特征分布或是負特征分布的參數(shù),因為超像素之間是互不遮擋的,可以獲得搜索區(qū)域Rt+1中的置信度圖并且讓ct+1(i,j)代表位置(i,j)的置信度,本實施例中,假設搜索區(qū)域外的置信度是-1;步驟4.3:根據(jù)公式高斯分布的運動模型,生成一些候選的目標狀態(tài)已知,其中狀態(tài)與候選圖像區(qū)域對應,把候選的目標區(qū)域歸一化成相同的尺寸;狀態(tài)的置信度公式為:為了處理尺度變換,對Ck進行加權,可以獲得其中,代表候選區(qū)域的尺寸;狀態(tài)可以通過如下公式計算:最大化該公式,可以獲得最優(yōu)解;步驟4.4:當對該新的幀It+1追蹤完之后,把追蹤完的該新的幀的信息加到訓練集中,去掉最老的信息;每U幀更新一次外觀模型,本實施例中訓練集的長度是L。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內的所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范圍之內。當前第1頁1 2 3