本發(fā)明屬于計(jì)算機(jī)視覺領(lǐng)域,具體涉及智能監(jiān)控領(lǐng)域。
背景技術(shù):
:基于視頻的目標(biāo)精細(xì)輪廓跟蹤技術(shù)在計(jì)算機(jī)視覺領(lǐng)域中是一個(gè)備受關(guān)注且發(fā)展迅速的領(lǐng)域,該技術(shù)是計(jì)算機(jī)視覺領(lǐng)域最基礎(chǔ)的技術(shù)之一,可以得到目標(biāo)輪廓的跟蹤結(jié)果。上層算法進(jìn)一步根據(jù)目標(biāo)輪廓跟蹤結(jié)果進(jìn)行分析和處理,來實(shí)現(xiàn)對場景的理解、對目標(biāo)動作的識別以及對人體行為的識別等應(yīng)用。該技術(shù)的廣泛的應(yīng)用前景和很高的研究價(jià)值激發(fā)了國內(nèi)外研究人員的濃厚興趣。對視頻中目標(biāo)的精細(xì)輪廓跟蹤被認(rèn)為是一個(gè)二分類的問題,目前國內(nèi)外已經(jīng)出現(xiàn)了很多相關(guān)的算法,比如基于水平集的方法,該方法將運(yùn)動的估計(jì)和目標(biāo)的分割分成了兩個(gè)單獨(dú)的階段,但是在很多攝像頭運(yùn)動的視頻中,對運(yùn)動的估計(jì)很難得到好的跟蹤效果。為了解決有攝像頭運(yùn)動的情況,人們提出來一種基于圖割的方法,該方法將多個(gè)線索函數(shù)融合到一起,目標(biāo)的運(yùn)動信息通常是其中一個(gè)重要的線索函數(shù),然而背景的運(yùn)動場通常會干擾目標(biāo)的運(yùn)動信息,使得跟蹤的目標(biāo)輪廓不準(zhǔn)確。還有一些半自動的分割方法,這些方法需要人為的標(biāo)定一些目標(biāo)和背景區(qū)域,這就在很大程度上限制了其應(yīng)用領(lǐng)域。目前已知的各種對目標(biāo)精細(xì)輪廓的跟蹤算法現(xiàn)在仍然存在很多缺陷,這些算法都是針對某種特定的場景,還沒有一種通用的算法能夠在大多數(shù)場景下適用。技術(shù)實(shí)現(xiàn)要素:本發(fā)明所要解決的技術(shù)問題是,提供一種具有普適性的高效準(zhǔn)確的目標(biāo)精細(xì)輪廓跟蹤方法。本發(fā)明為解決上述技術(shù)問題所采用的技術(shù)方案是,一種基于低秩稀疏表達(dá)的目標(biāo)精細(xì)輪廓跟蹤方法,其特征在于,包括以下步驟:1)初始化步驟:1-1)將視頻的第1幀圖像將分割成超像素;1-2)對分割成超像素后的圖像提取局部對數(shù)歐式距離協(xié)方差矩陣L2ECM特征X;1-3)將第1幀圖像的L2ECM特征進(jìn)行目標(biāo)與背景的區(qū)分,從而得到模板D,之后進(jìn)入步驟2;D=[DO,DB],其中DO表示模板D的目標(biāo)特征,DB表示模板D的背景特征;2)跟蹤步驟:2-1)對視頻中第t幀圖像分割成超像素并提取L2ECM特征得到圖像的特征矩陣X,t=2,3,…,求解第t幀圖像的低秩稀疏系數(shù)矩陣Z:argminZ,E(‖Z‖*+β‖Z‖1+γ‖E‖1)s.t.X=Dt-1*Z+E其中,argminZ,E表示取使目標(biāo)函數(shù)最小時(shí)的Z與E,s.t.表示約束條件,Dt-1表示第t-1幀的模板D,E為圖像噪聲;β、γ是經(jīng)驗(yàn)常數(shù),分別表示矩陣Z和矩陣E的稀疏性的權(quán)重,‖‖*表示核范數(shù),‖‖1表示一范數(shù);Z=[ZO,ZB],其中ZO表示模板D的目標(biāo)特征低秩稀疏系數(shù)矩陣,ZB表示模板D的背景特征的低秩稀疏系數(shù)矩陣;2-2)求視頻中第t幀圖像的目標(biāo)顯著性特征和目標(biāo)表觀特征2-3)求視頻中第t幀圖像中超像素之間的相關(guān)性ψ(ui,uk,Ii,Ij):ψ(ui,uj,Ii,Ij)=δ(ui≠uj)ϵ+exp(-μ||Ii-Ij||2)1+ϵ]]>其中,Ii,Ij表示第t幀圖像中的第i、j個(gè)原始像素點(diǎn),ui,uj表示第t幀圖像中的第i、j個(gè)原始像素點(diǎn)對應(yīng)的類別,1表示類別為目標(biāo),0表示類別為背景;ε為拉普拉斯平滑系數(shù),exp為指數(shù)函數(shù),‖‖2為二范數(shù)的平方,μ表示第t幀圖像中第i個(gè)像素點(diǎn)四鄰域像素值的平均值;沖擊函數(shù)2-4)利用標(biāo)顯著性特征、目標(biāo)表觀特征和超像素之間的相關(guān)性構(gòu)造能量函數(shù)模型E(u),再使用最大流-最小割算法求解能量函數(shù)模型E(u)得到目標(biāo)區(qū)域和背景區(qū)域分割結(jié)果u*:u*=argminE(u)I為第t幀圖像,Ii,Ij表示第t幀圖像中的第i、j個(gè)原始像素點(diǎn),Ω表示第i個(gè)像素點(diǎn)的四鄰域;表示目標(biāo)顯著性特征或目標(biāo)表觀特征,k=1或2,表示特征類別,當(dāng)k=1,為目標(biāo)顯著性特征,當(dāng)k=2,為目標(biāo)表觀特征;λk為經(jīng)驗(yàn)權(quán)重;2-5)利用目標(biāo)區(qū)域和背景區(qū)域分割結(jié)果u*更新第t幀圖像的模板D,更新t=t+1,返回步驟2-1)處理視頻中的下一幀圖像。本發(fā)明從視頻中目標(biāo)的本質(zhì)特性去分析,得到了視頻前后兩幀之間目標(biāo)和背景的關(guān)系,所以能夠應(yīng)用在大多數(shù)場景下,此方法的創(chuàng)新之處在于:在目標(biāo)精細(xì)跟蹤的問題中使用超像素對含有跟蹤目標(biāo)的圖像進(jìn)行分塊,每一個(gè)超像素被看做一個(gè)點(diǎn),這降低了計(jì)算的復(fù)雜度;將對目標(biāo)的跟蹤問題建模為矩陣的低秩稀疏表達(dá)的問題,得到稀疏表達(dá)的系數(shù)之后,利用能量最小化的方法來分割目標(biāo)和背景,提出新的能量函數(shù)模型的決策函數(shù),在能量最小化方法中使用該決策函數(shù)作為目標(biāo)和背景分割結(jié)果的依據(jù)。本發(fā)明的有益效果是,計(jì)算復(fù)雜度低,具有普適性實(shí)現(xiàn)目標(biāo)精細(xì)輪廓跟蹤。附圖說明圖1為超像素示意圖;圖2為低秩稀疏表達(dá)示意圖。具體實(shí)施方式1:超像素,超像素的分割和特征的提取為現(xiàn)有成熟算法。超像素是指在圖像中由一系列位置相鄰且顏色、亮度、紋理等特征相似的像素點(diǎn)組成的小區(qū)域,這些小區(qū)域大多保留了進(jìn)一步進(jìn)行圖像分割的有效信息,且一般不會破壞圖像中物體的邊界信息。在我們的算法中用于對圖像進(jìn)行分塊,使得一團(tuán)位置相鄰且特征相似的像素可以用一個(gè)超像素來表示。本文中使用的超像素分割方法SLIC算法詳見“SLICSuperpixelsComparedtoState-of-the-artSuperpixelMethods”一文。2:L2ECM特征,局部對數(shù)歐式距離協(xié)方差矩陣LocalLog-EuclideanCovarianceMatrix,該特征的提取為現(xiàn)有成熟算法。對于一幅圖像,使用它的原始特征構(gòu)造成公式1所示的形式,其中I(x,y)表示圖像I中(x,y)位置的像素值,|·|表示絕對值,Ix(x,y)和Iy(x,y)分別表示對x和y方向的一階偏導(dǎo)數(shù),Ixx(x,y)和Iyy(x,y)分別表示對x和y方向的二階偏導(dǎo)數(shù)。對于一個(gè)超像素s,令其中(xi,yi)∈s,d表示原始特征的長度,表示d維空間,Ns表示超像素s中包含的像素的個(gè)數(shù),那么Gs是一個(gè)大小為dxNs的矩陣,Gs的每一列是一個(gè)原始特征計(jì)算Gs的協(xié)方差矩陣Cs,那么Cs是一個(gè)d×d的矩陣,它的緯度和Ns無關(guān)。為了避免計(jì)算協(xié)方差矩陣之間在黎曼空間中的測地線距離,我們將Cs轉(zhuǎn)換為歐式空間中的log(Cs),由于log(Cs)矩陣的對稱性,我們?nèi)og(Cs)矩陣的一半(上三角矩陣)排列成一個(gè)向量就構(gòu)成了L2ECM特征,那么一個(gè)超像素對應(yīng)的L2ECM特征的長度為3:低秩稀疏表達(dá)。低秩稀疏表達(dá)是指用一個(gè)低秩的并且稀疏的矩陣來表示一個(gè)目標(biāo)。在視頻中,當(dāng)前幀中的一個(gè)超像素可以用上一幀中的超像素的線性組合來表示。我們用ft表示當(dāng)前幀圖像,即待跟蹤的圖像,用ft-1表示視頻中的上一幀圖像,利用ft-1中目標(biāo)的分割的結(jié)果,構(gòu)建一個(gè)模板集D。D是一個(gè)ds×Nt-1的矩陣,其中ds代表一個(gè)超像素的特征維度,Nt-1為ft-1中超像素的個(gè)數(shù)。為了更清晰的表達(dá),我們將D的所有列進(jìn)行重新組合,使得D=[DO,DB],其中Do表示所有的目標(biāo)的特征,DB表示所有的背景的特征。將ft中所有的超元素構(gòu)成樣本集X=[x1,x2,…,xNt],則X是一個(gè)ds×Nt的矩陣,其中Nt為ft中超像素的個(gè)數(shù)。在不考慮噪聲的情況下,X中的任意一列xi都可以用D的線性組合來表示,即X=D*Z。加上噪聲E之后,我們可以將這種關(guān)系寫成矩陣的形式如下:X=D*Z+EZ的每一列表示X的對應(yīng)的一列用D的線性組合進(jìn)行表示的系數(shù),低秩稀疏系數(shù)矩陣Z稱之為表達(dá)子。對應(yīng)于D被分解成DO和DB,表達(dá)子Z也被分解成ZO和ZB,如圖2所示。X=DODBZOZB+E]]>1)根據(jù)視頻中圖像的連續(xù)性可知,ft中很多元素具有很大的相似性,也就是說,樣本集中的很多元素都可以用模板集進(jìn)行相同的表達(dá),因此最終的表達(dá)子Z應(yīng)為低秩矩陣。2)為了盡可能用最相似的模板來表達(dá)ft中的各個(gè)元素,即Z的每一列中不為0的元素盡可能少,因此最終的表達(dá)子Z應(yīng)為稀疏矩陣。3)圖像中的噪聲可以用稀疏模型進(jìn)行擬合,因此E也應(yīng)為稀疏矩陣。超像素的低秩稀疏表達(dá)是本算法的關(guān)鍵步驟,我們利用這個(gè)低秩稀疏的矩陣來作為分割目標(biāo)區(qū)域和背景區(qū)域的依據(jù)。采用增廣拉格朗日乘數(shù)法即可求解得到表達(dá)子Z與噪聲E:argminZ,E(||Z||*+β||Z||1+γ||E||1)s.t.X=Dt-1*Z+E]]>其中β、γ是常數(shù),分別表示矩陣Z和矩陣E的稀疏性的權(quán)重,β=2,γ=2,‖Z‖*表示矩陣Z的核范數(shù),‖Z‖1表示矩陣Z的一范數(shù),‖E‖1表示矩陣E的一范數(shù)。argminZ,E表示取使目標(biāo)函數(shù)最小時(shí)的Z與E,s.t.表示約束條件,Dt-1表示第t-1幀的模板D。4:目標(biāo)顯著性特征,該特征的計(jì)算也有成熟算法。本發(fā)明為了更好的準(zhǔn)確性,適應(yīng)更多更復(fù)雜的場景,提出一種新的目標(biāo)顯著性特征算法。稀疏低秩這個(gè)模型的物理意義是對于當(dāng)前幀圖像中的一個(gè)超像素,到上一幀的所有超像素中去找到最相似的一個(gè)超像素,稀疏和低秩能保證找到的是最相似的那一個(gè)。我們需要利用Z來建立當(dāng)前幀圖像中每個(gè)超像素的概率模型,使得當(dāng)前幀圖像中的目標(biāo)對應(yīng)的超像素能夠具有較大的概率,背景對應(yīng)的超像素具有較小的概率。圖像中目標(biāo)顯著性特征中第i個(gè)超像素的顯著性特征Ti的計(jì)算方法是:Ti=exp(-max(ZiB)max(ZiO))]]>表示模板D的背景特征的低秩稀疏系數(shù)矩陣ZB的第i列,對應(yīng)第i個(gè)超像素,表示模板D的目標(biāo)特征的低秩稀疏系數(shù)矩陣Zo的第i列,max為取最大值。Ti表示X中第i列對應(yīng)的超像素屬于目標(biāo)的概率,超像素中的每一個(gè)原始像素屬于目標(biāo)的概率等于這個(gè)超像素屬于目標(biāo)的概率,每一個(gè)超像素中的原始像素屬于目標(biāo)的概率等于Ti。Ti表示一個(gè)超像素的顯著性,一個(gè)超像素里面每一個(gè)原始像素的顯著性等于這個(gè)超像素的顯著性。5:目標(biāo)表觀特征,該特征的計(jì)算也有成熟算法?;谀繕?biāo)與背景的直方圖為圖像中每個(gè)像素建立顏色的概率分布。我們根據(jù)上一幀分割的結(jié)果,在YUV空間中分別建立目標(biāo)與背景的顏色直方圖,并且將此直方圖通過高斯濾波器進(jìn)行平滑。6:能量函數(shù)模型。對于一個(gè)輸入圖像I,{Ii}和{ui}分別表示原始像素和類別標(biāo)簽的集合,如果Ii屬于目標(biāo)區(qū)域則ui=1,反之ui=0。目標(biāo)的精細(xì)分割結(jié)合了目標(biāo)顯著性特征和目標(biāo)表觀特征這兩個(gè)線索函數(shù),這樣可得到分割結(jié)果。其中,表示目標(biāo)的顯著性特征和表觀特征兩個(gè)線索函數(shù),k=1或2,表示特征類別,當(dāng)k=1,為目標(biāo)顯著性特征,當(dāng)k=2,為目標(biāo)表觀特征;λk為經(jīng)驗(yàn)權(quán)重;I為當(dāng)前圖像,Ii,Ij表示當(dāng)前圖像中的第i、j個(gè)原始像素點(diǎn),Ω表示第i個(gè)像素點(diǎn)的四鄰域;ψ(ui,uj,Ii,Ij)表示像素之間的相關(guān)性:ψ(ui,uj,Ii,Ij)=δ(ui≠uj)ϵ+exp(-μ||Ii-Ij||2)1+ϵ]]>Ii,Ij表示第t幀圖像中的第u、j個(gè)原始像素點(diǎn),ui,uj表示第t幀圖像中的第i、j個(gè)原始像素點(diǎn)對應(yīng)的類別,1表示類別為目標(biāo),0表示類別為背景;ε為拉普拉斯平滑系數(shù),ε=1,exp為指數(shù)函數(shù),‖‖2為二范數(shù)的平方,μ表示第t幀圖像中第i個(gè)像素點(diǎn)四鄰域像素值的平均值;四鄰域是數(shù)字圖像中的一個(gè)概念,表示一個(gè)像素周圍的上下左右四個(gè)像素。利用標(biāo)顯著性特征、目標(biāo)表觀特征和超像素之間的相關(guān)性構(gòu)造能量函數(shù)模型E(u),再使用最大流-最小割算法求解能量函數(shù)模型E(u)得到目標(biāo)區(qū)域和背景區(qū)域分割結(jié)果i*。本發(fā)明具體操作步驟如下:首先是初始化步驟:步驟1、對于視頻的第1幀圖像,使用SLIC算法將圖像分割成超像素,設(shè)置超像素的最大個(gè)數(shù)為200。步驟2、對分割成超像素后的圖像提取L2ECM特征,對于彩色圖像,有RGB三個(gè)通道,所以每一個(gè)超像素對應(yīng)的L2ECM特征是一個(gè)120維的列向量。假設(shè)整幅圖像分割成N個(gè)超像素,則圖像對應(yīng)的特征是120xN的矩陣。步驟3、結(jié)合第一幀圖像的輪廓信息,將這個(gè)120xN的矩陣按照定義3中的DO和DB進(jìn)行排列,得到模板D。至此初始化結(jié)束,下面開始跟蹤的步驟:步驟4、從視頻的第2幀圖像開始,和步驟1、2一樣得到圖像對應(yīng)的L2ECM特征,求解低秩稀疏系數(shù)矩陣Z。步驟5、求得目標(biāo)顯著性特征和目標(biāo)表觀特征步驟6、求得像素之間的相關(guān)性ψ(ui,uj,Ii,Ij)。步驟7、利用和ψ(ui,u,Ii,Ij)構(gòu)造能量函數(shù)模型,并使用最大流-最小割算法求解該模型,得到目標(biāo)區(qū)域和背景區(qū)域的分割結(jié)果u*:u*=argminE(u)。步驟8、利用得到的目標(biāo)區(qū)域和背景區(qū)域來更新模板D,然后回到步驟4,處理視頻中的下一幀圖像。當(dāng)前第1頁1 2 3