本發(fā)明涉及機器視覺技術(shù)領(lǐng)域,具體是一種雜亂背景下人體動作特征的檢測方法。
背景技術(shù):
基于視覺的人體動作識別技術(shù)是視頻理解中的一個重要研究課題,在智能視頻監(jiān)控、基于內(nèi)容的視頻標(biāo)注與檢索、智能人機交互接口和動畫合成等領(lǐng)域有著深遠的理論研究意義和廣泛的應(yīng)用前景。
目前簡單場景下的人體簡單動作的識別已經(jīng)取得了一定的進展,而復(fù)雜場景下的人體動作識別仍面臨很多困難。在現(xiàn)實環(huán)境中,由于受到雜亂背景、遮擋和光照變化等因素的影響,人體動作識別準(zhǔn)確度不高。常見的特征可分為靜態(tài)特征、動態(tài)特征、時空特征和描述性特征。靜態(tài)特征的形式主要有人體目標(biāo)的尺寸大小、輪廓、顏色邊緣等,靜態(tài)特征可以較好的表示出人體目標(biāo)的整體信息,可為動作識別提供有用線索,但是,靜態(tài)特征非常依賴背景分割的效果,在雜亂背景場景中,各類靜態(tài)特征的提取并不容易;動態(tài)特征方法不考慮人體結(jié)構(gòu)的任何形狀信息,而是直接從圖像序列中提取出目標(biāo)運動信息(如運動方向、軌跡、位置、速度等)來表征運動狀態(tài),運動特征提取的最典型的代表是光流法。動態(tài)特征通常對噪聲、顏色和紋理變化很敏感,且計算復(fù)雜度較高。時空特征指將一段視頻作為一個3維空間中的時空體來分析和處理,常見的時空特征有harris3d檢測子、cuboid檢測子等,時空特征在尺度、方向和光照的改變下依然具有良好的穩(wěn)定性,但時空興趣點檢測與物體運動變化突變有關(guān),容易受到背景物體運動所帶來的影響??偟膩碚f,時空特征作為一種局部特征,由于不需要不需要人體位置或者身體部位的任何先驗知識,因此可以避免進行前景與背景之間的分割等一系列預(yù)處理,是目前比較常用的一種人體動作特征提取方法。
時空特征雖然是一種稀疏特征檢測方法,但過少的特征點會丟失重要的運動信息,影響到后續(xù)步驟對行為識別的準(zhǔn)確度。在對雜亂背景中的人體動作進行特征檢測時,大部分時空特征檢測方法檢測到的特征點很多位于背景上,誤檢測率較高。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種準(zhǔn)確性好的雜亂背景下人體動作特征的檢測方法,以解決上述背景技術(shù)中提出的問題。
為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種雜亂背景下人體動作特征的檢測方法,具體步驟如下:
(1)在空域上采用kadir提出的一種基于信息熵的顯著點檢測方法檢測空域興趣點;
(2)對檢測到的空域興趣點進行背景興趣點抑制;
(3)在時域上使用1dgabor濾波器濾波,得到候選時空特征點;
(4)對時空特征點響應(yīng)函數(shù)進行非極大值抑制處理后,響應(yīng)函數(shù)局部極大值處的點為最終特征點。
作為本發(fā)明進一步的方案:所述步驟(1)中檢測空域興趣點,具體是指對于視頻序列中的每一幀圖像,采用kadir提出的一種基于信息熵的顯著點檢測方法進行興趣點檢測,提取出空域興趣點。
作為本發(fā)明進一步的方案:空域興趣點檢測后,將所有非零角點響應(yīng)強度的點作為第一個特征點集cσ,其中σ為空間尺度;接著,對cσ進行背景興趣點抑制;背景興趣點抑制方法包括如下步驟:
1)對每一個興趣點,選取一個鄰域抑制掩碼ssm來估計mask中所有像素點對中心點的影響,當(dāng)前興趣點位于ssm中心;
2)引入梯度權(quán)重因子△θ,σ(x,xu,v),其定義為:
△θ,σ(x,xu,v)=|cos(θσ(x)-θσ(xu,v))|(公式1)
其中,θσ(x)和θσ(xu,v)分別為點x≡(x,y)和點xu,v≡(x-u,y-v)的梯度,當(dāng)θσ(x)和θσ(xu,v)同向時,權(quán)重因子取得最大值△θ,σ=1,權(quán)重因子取值隨著角度差遞減,當(dāng)兩個梯度方向正交時,權(quán)重因子取得最小值△θ,σ=0;
3)對于每一個興趣點cσ(x),定義一個抑制系數(shù)tσ(x),tσ(x)的值為像素鄰域梯度值加權(quán)和,其定義為:
tσ(x)=∫∫ωcσ(xu,v)×△θ,σ(x,xu,v)dudv(公式2)
4)再引入一個興趣點強度算子cα,σ(x),定義為:
cα,σ(x)=h(cσ(x)-α×tσ(x))(公式3)
其中,α取值越大,得到的特征點越少,當(dāng)z為負數(shù)時,h(z)=0,否則h(z)=z;
5)對cα,σ(x)進行非極大值抑制后得到最終的空間興趣點isp。
作為本發(fā)明進一步的方案:所述公式3中的α取值范圍在[1,1.4]區(qū)間。
作為本發(fā)明再進一步的方案:所述步驟(3)中得到候選時空特征點的具體步驟如下:視頻圖像序列經(jīng)過空域特征檢測和背景興趣點抑制后,在時域上,對視頻序列進行1dgabor濾波,并計算其時空響應(yīng)函數(shù)的值,響應(yīng)值大于某一閾值時,該點作為候選時空特征點;其響應(yīng)函數(shù)為:
r=(isp*hev)2+(isp*hod)2(公式4)
其中,isp為背景興趣點抑制后的空域興趣點響應(yīng)值;hev和hod為一對正交的gabor濾波器,分別定義為:
參數(shù)τ為時域上的尺度因子。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
本發(fā)明在空域上采用基于信息熵的興趣點檢測方法,所以檢測到的特征點的位置不局限于人體運動突變位置或周期性運動部位,因此可以檢測到更為豐富的特征點,能夠包含更加豐富的人體動作信息;通過對背景興趣點進行抑制,使得檢測到的特征點大部分位于人體,解決現(xiàn)有人體動作特征檢測方法檢測到的特征點過于稀疏以及在雜亂背景下進行特征點檢測時誤檢測率過高的問題,有效的提高了特征點檢測的準(zhǔn)確性,為后續(xù)正確的識別人體動作提供保障。
附圖說明
圖1為本發(fā)明提供的一種雜亂背景下人體動作特征檢測方法的算法流程圖。
具體實施方式
下面結(jié)合具體實施方式對本專利的技術(shù)方案作進一步詳細地說明。
請參閱圖1,一種雜亂背景下人體動作特征的檢測方法,具體步驟如下:
(1)在空域上采用kadir提出的一種基于信息熵的顯著點檢測方法檢測空域興趣點;
(2)對檢測到的空域興趣點進行背景興趣點抑制;
(3)在時域上使用1dgabor濾波器濾波,得到候選時空特征點;
(4)對時空特征點響應(yīng)函數(shù)進行非極大值抑制處理后,響應(yīng)函數(shù)局部極大值處的點為最終特征點。
所述步驟(1)中檢測空域興趣點,具體是指對于視頻序列中的每一幀圖像,采用kadir提出的一種基于信息熵的顯著點檢測方法進行興趣點檢測,提取出空域興趣點。
空域興趣點檢測后,將所有非零角點響應(yīng)強度的點作為第一個特征點集cσ,其中σ為空間尺度;接著,對cσ進行背景興趣點抑制;背景興趣點抑制方法包括如下步驟:
1)對每一個興趣點,選取一個鄰域抑制掩碼ssm來估計mask中所有像素點對中心點的影響,當(dāng)前興趣點位于ssm中心;
2)引入梯度權(quán)重因子△θ,σ(x,xu,v),其定義為:
△θ,σ(x,xu,v)=|cos(θσ(x)-θσ(xu,v))|(公式1)
其中,θσ(x)和θσ(xu,v)分別為點x≡(x,y)和點xu,v≡(x-u,y-v)的梯度,當(dāng)θσ(x)和θσ(xu,v)同向時,權(quán)重因子取得最大值△θ,σ=1,權(quán)重因子取值隨著角度差遞減,當(dāng)兩個梯度方向正交時,權(quán)重因子取得最小值△θ,σ=0;
3)對于每一個興趣點cσ(x),定義一個抑制系數(shù)tσ(x),tσ(x)的值為像素鄰域梯度值加權(quán)和,其定義為:
tσ(x)=∫∫ωcσ(xu,v)×△θ,σ(x,xu,v)dudv(公式2)
4)再引入一個興趣點強度算子cα,σ(x),定義為:
cα,σ(x)=h(cσ(x)-α×tσ(x))(公式3)
其中,α取值越大,得到的特征點越少,α取值范圍在[1,1.4]區(qū)間,效果最好;當(dāng)z為負數(shù)時,h(z)=0,否則h(z)=z;
5)對cα,σ(x)進行非極大值抑制后得到最終的空間興趣點isp。
所述步驟(3)中得到候選時空特征點的具體步驟如下:視頻圖像序列經(jīng)過空域特征檢測和背景興趣點抑制后,在時域上,對視頻序列進行1dgabor濾波,并計算其時空響應(yīng)函數(shù)的值,響應(yīng)值大于某一閾值時,該點作為候選時空特征點;其響應(yīng)函數(shù)為:
r=(isp*hev)2+(isp*hod)2(公式4)
其中,isp為背景興趣點抑制后的空域興趣點響應(yīng)值;hev和hod為一對正交的gabor濾波器,分別定義為:
參數(shù)τ為時域上的尺度因子。
下面通過本發(fā)明的實施例和對比例來進一步說明本發(fā)明的檢測方法以及效果,本發(fā)明實施例中未詳述部分均按現(xiàn)有方法進行計算和處理。
對比例選擇dollar提出的cuboid檢測方法。測試數(shù)據(jù)選用kth數(shù)據(jù)集中的walking視頻和youtube數(shù)據(jù)集中的horse_riding視頻。其中,walking視頻為簡單背景,horse_riding為雜亂背景。
本實施例具體實現(xiàn)方式如下:
首先讀入測試用的視頻數(shù)據(jù),對視頻圖像序列中每一幀圖像用kadir提出的一種基于信息熵的顯著點檢測方法檢測空域興趣點,將所有非零角點響應(yīng)強度的點作為第一個特征點集cσ。其中,空間尺度σ取值范圍選擇1-11。
接著,對cσ進行背景興趣點抑制。背景興趣點抑制方法包括如下步驟:
對每一個興趣點,選取一個大小為3×3的鄰域抑制掩碼ssm來估計mask中所有像素點的對中心點的影響,當(dāng)前興趣點位于ssm中心。
α取1.4,計算興趣點強度cα,σ(x),對cα,σ(x)進行非極大值抑制后得到最終的空間興趣點isp。
視頻圖像序列經(jīng)過空域特征檢測和背景興趣點抑制后,在時域上,對視頻序列進行1dgabor濾波,并計算其時空響應(yīng)函數(shù)的值r。
其中,參數(shù)τ=10,ω=τ/4。
得到候選時空特征點后,需要對其進行非極大值抑制。在一定閾值范圍內(nèi)通過非極大值抑制處理后,響應(yīng)函數(shù)局部極大值處的點為人體動作特征點。
從特征檢測結(jié)果可以看出,本方法用于人體動作特征檢測是有效的。無論是在簡單背景場景下,還是雜亂背景場景下,本方法都能檢測到比較豐富的人體動作特征,這對于后續(xù)的識別是很有幫助的。在雜亂背景場景下,dollar提出的cuboid檢測方法檢測到的特征點有較大一部分位置背景上,特征點檢測的準(zhǔn)確性較低,而本方法檢測到的特征點雖然也有極少數(shù)位于背景上,但大多數(shù)都位于期望的區(qū)域中,檢測準(zhǔn)確率較高。
本發(fā)明在空域上采用基于信息熵的興趣點檢測方法,所以檢測到的特征點的位置不局限于人體運動突變位置或周期性運動部位,因此可以檢測到更為豐富的特征點,能夠包含更加豐富的人體動作信息;通過對背景興趣點進行抑制,使得檢測到的特征點大部分位于人體,解決現(xiàn)有人體動作特征檢測方法檢測到的特征點過于稀疏以及在雜亂背景下進行特征點檢測時誤檢測率過高的問題,有效的提高了特征點檢測的準(zhǔn)確性,為后續(xù)正確的識別人體動作提供保障。
上面對本專利的較佳實施方式作了詳細說明,但是本專利并不限于上述實施方式,在本領(lǐng)域的普通技術(shù)人員所具備的知識范圍內(nèi),還可以在不脫離本專利宗旨的前提下作出各種變化。