本發(fā)明屬于視頻處理技術(shù)領(lǐng)域,特別涉及一種行為識別方法,可用于視頻監(jiān)控復(fù)雜環(huán)境中對視頻行為的描述。
背景技術(shù):
在行為識別領(lǐng)域,人工局部特征已經(jīng)成為一種有效的特征表示方式。局部特征不需要特定的算法來檢測人體部位,并且對復(fù)雜背景,光照變化和視頻噪聲等影響具有魯棒性。
典型的局部特征包括:時空興趣點stip、立方體和稠密軌跡,通常與梯度方向直方圖hog、光流方向直方圖hof、3d梯度方向直方圖hog3d、運動邊界直方圖mbh、和擴展的加速魯棒特征esurf等描述子結(jié)合使用。
局部特征的提取主要包含兩個步驟:首先發(fā)掘行為視頻中顯著和信息豐富的運動區(qū)域,然后在運動區(qū)域周圍提取描述子。在上述人工局部特征中,基于稠密軌跡的特征在各種具有挑戰(zhàn)的數(shù)據(jù)庫中獲得了較好的性能。事實上,上述描述子均為基于單個特征的1維直方圖表示,并沒有考慮到不同特征之間的聯(lián)合統(tǒng)計特性。然而,這些統(tǒng)計特性對于行為識別也許是非常重要的。
目前已提出的獲取特征之間相關(guān)性的方法有:
(1)guok,ishwarp,konradj.actionrecognitionfromvideousingfeaturecovariancematrices[j].ieeetransactionsonimageprocessing,2013,22(6):2479-2494,這種方法將協(xié)方差矩陣運用到兩種局部特征集合,一種來自運動目標(biāo)的輪廓序列,另一種來自光流,并應(yīng)用一個稀疏線性表示的框架來實現(xiàn)行為識別。然而,該方法需要對視頻進(jìn)行精確分割,這對真實場景中的視頻是非常困難的。
(2)bilinskip,bremondf.videocovariancematrixlogarithmforhumanactionrecognitioninvideos[c]//ijcai2015-24thinternationaljointconferenceonartificialintelligence(ijcai).2015,這種方法在稠密軌跡的基礎(chǔ)上,提出視頻協(xié)方差矩陣對數(shù)(vcml)描述子,來模擬不同底層靜態(tài)特征之間線性關(guān)系。該方法雖然考慮到了不同特征之間的關(guān)系,但只考慮了靜態(tài)特征,并未考慮行為主體的動態(tài)特征,無法準(zhǔn)確描述行為的運動,導(dǎo)致行為識別結(jié)果的準(zhǔn)確率低。
技術(shù)實現(xiàn)要素:
本發(fā)明目的在于針對上述已有技術(shù)的不足,提出一種基于稠密軌跡協(xié)方差描述子的行為識別方法,以獲取準(zhǔn)確描述視頻中行為主體的運動信息,并在此基礎(chǔ)上獲取不同特征之間的聯(lián)合統(tǒng)計特性,從而增強對視頻行為的描述能力,進(jìn)一步提高行為識別的準(zhǔn)確率。
實現(xiàn)本發(fā)明的技術(shù)關(guān)鍵是在對底層特征集合求協(xié)方差矩陣的過程中不僅以位置信息和梯度作為靜態(tài)特征,而且計算了梯度、光流和運動邊界的時間導(dǎo)數(shù)作為運動特征,由此構(gòu)造了基于稠密軌跡的協(xié)方差矩陣描述子,具體步驟包括如下:
(1)對視頻序列進(jìn)行稠密采樣,計算采樣點處的稠密光流f,設(shè)光流閾值為tflow;
(2)將光流f大小大于設(shè)定閾值tflow的采樣點視為特征點,對特征點進(jìn)行篩選,再對篩選后的特征點進(jìn)行追蹤,以獲取長度為l的行為主體運動軌跡,在每一幀中以每一個運動軌跡點為中心選取w×h大小的圖像塊,得到大小為w×h×l的隨軌跡彎曲的軌跡立方體;
(3)對軌跡立方體中的每一個像素點,提取d維底層特征;
(4)將軌跡立方體中視頻幀i對應(yīng)的空間區(qū)域表示為ri,用ri中所有像素點提取的d維底層特征構(gòu)成特征向量集合{f(k,i)∈rd}k=1,...,n,其中,n表示ri中像素點的個數(shù),接著計算其協(xié)方差矩陣ci;
(5)通過log-euclidean度量方式將協(xié)方差矩陣投影到歐式空間,獲取矩陣對數(shù)log(ci),并將該矩陣的上三角部分轉(zhuǎn)換為一個矢量vec(log(ci));
(6)將大小為w×h×l的軌跡立方體,均分為w×h×l的m個子塊,利用(5)中獲取的矢量計算每個軌跡子塊的描述子
(7)串接m個軌跡子塊的描述子,以獲取基于稠密軌跡的協(xié)方差矩陣描述子,dcmdt=[dsub_1,dsub_2,...,dsub_i,...,dsub_m]t,其中,dsub_i表示第i個軌跡子塊的描述子,i∈[1,m],[·]t表示轉(zhuǎn)置;
(8)將所有視頻基于稠密軌跡的協(xié)方差矩陣描述子分為訓(xùn)練集vftr和測試集vfte,采用bow方法進(jìn)行編碼,得到訓(xùn)練集的碼字直方圖vhtr和測試集的碼字直方圖vhte;
(9)利用訓(xùn)練集的碼字直方圖vhtr訓(xùn)練svm分類模型,將測試集的碼字直方圖vhte輸入到訓(xùn)練好的svm分類模型中進(jìn)行測試,獲取行為識別結(jié)果。
本發(fā)明與現(xiàn)有技術(shù)相比具有以下優(yōu)點:
1)本發(fā)明在稠密軌跡的基礎(chǔ)上,將梯度、光流和運動邊界的時間導(dǎo)數(shù)作為底層運動特征,準(zhǔn)確反映了運動部位的速度信息,獲取了運動目標(biāo)和邊界的加速度信息,有利于行為識別結(jié)果的提高。
2)本發(fā)明通過計算靜態(tài)和動態(tài)底層特征之間的協(xié)方差矩陣,構(gòu)造了基于稠密軌跡的協(xié)方差矩陣描述子,考慮了底層特征之間的相關(guān)性,這種特征之間的聯(lián)合統(tǒng)計信息,能夠提高對復(fù)雜環(huán)境中視頻行為的描述能力。
附圖說明
圖1是本發(fā)明的實現(xiàn)流程圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明的實施作進(jìn)一步詳細(xì)描述。
參照圖1,本發(fā)明的基于稠密軌跡協(xié)方差描述子的行為識別步驟如下:
步驟1,對視頻序列進(jìn)行稠密采樣,計算采樣點處的稠密光流f。
(1.1)對視頻幀每隔w個像素進(jìn)行網(wǎng)格采樣獲取采樣點,參數(shù)w的值設(shè)為5;
(1.2)對(1.1)中獲取的采樣點采用gunnar
(1.2a)將圖像中每個像素的鄰域像素值表示為一個二次多項式:
f(x)=xtax+btx+c,
其中,f(x)表示與鄰域x對應(yīng)的像素值,a為對稱矩陣,b為一個向量,c代表了偏移量,這些參數(shù)可通過加權(quán)的最小二乘法進(jìn)行估計得到;
(1.2b)將當(dāng)前視頻幀的圖像表示為:
f1(x)=xta1x+b1tx+c1,
其中,a1,b1和c1分別表示當(dāng)前視頻幀圖像對應(yīng)的對稱矩陣,向量和偏移量;
(1.2c)將當(dāng)前視頻幀后面一個視頻幀的圖像表示為:
其中,z表示當(dāng)前視頻幀圖像到后面一個視頻幀圖像發(fā)生的全局位移,a2,b2和c2分別表示當(dāng)前視頻幀后面一個視頻幀圖像對應(yīng)的對稱矩陣,向量和偏移量;
(1.2d)根據(jù)(1.2c)中二次多項式對應(yīng)系數(shù)相等性質(zhì),得出全局位移:
步驟2,對特征點進(jìn)行篩選并進(jìn)行跟蹤,得到稠密軌跡,獲取隨軌跡彎曲的軌跡立方體。
在復(fù)雜的行為環(huán)境中通常存在攝像頭運動,由攝像頭運動產(chǎn)生的特征點會對由行為主體運動產(chǎn)生的特征點產(chǎn)生干擾,影響行為識別的效果,因此,需要對特征點進(jìn)行篩選,去除由攝像頭運動產(chǎn)生的特征點,具體步驟如下:
(2.1)設(shè)光流閾值為tflow=0.4,將光流f大小大于設(shè)定閾值tflow的采樣點視為特征點,將其保留下來并計入特征點數(shù)目numfeat,否則將其舍去;若剩下的特征點數(shù)目超過設(shè)定的閾值tfeat,即numfeat>tfeat,則認(rèn)為該視頻幀存在攝像頭運動,此時,對運動特征點的光流采用dbscan算法進(jìn)行聚類,進(jìn)一步移除攝像頭運動的干擾,其中,
(2.2)經(jīng)過(2.1)進(jìn)行特征點篩選后,在隨后的連續(xù)幀圖像中對特征點進(jìn)行跟蹤,獲取長度為l的軌跡,軌跡的長度限制為l=15,在每一幀中以每一個運動軌跡點為中心選取w×h大小的圖像塊,得到大小為w×h×l的隨軌跡彎曲的軌跡立方體,w=32,h=32。
步驟3,對軌跡立方體中的每一個像素點提取d維底層特征。
(3.1)對軌跡立方體中的每個點p,采用一維sobel算子[-1,0,1]計算空間梯度,得到x和y方向的梯度px和py,以反映點p的外觀信息,其計算式如下:
(3.2)以(3.1)獲取的梯度為基礎(chǔ),對兩個連續(xù)的梯度采用[-1,1]的時間濾波器計算時間偏導(dǎo),以獲取梯度邊界信息:
由于人體梯度邊界的變化,反映運動部位的速度,強調(diào)運動邊緣邊界,故可通過px和py對時間方向t的偏導(dǎo)數(shù)pt,x和pt,y來計算梯度邊界的變化信息,計算式如下:
(3.3)將光流f沿x和y方向的分量分別表示為u和v,采用[-1,1]的時間濾波器,計算u在時間方向t上的偏導(dǎo)數(shù)ft,x和v在時間方向t上的偏導(dǎo)數(shù)ft,y,它們反映運動部位的加速度信息,計算如下式:
(3.4)計算光流f的運動邊界,計算過程如下:
利用一維sobel算子[-1,0,1],分別計算u沿水平方向的導(dǎo)數(shù)
(3.5)計算運動邊界的時間偏導(dǎo),以反映目標(biāo)運動邊界的速度變化,計算過程如下:
利用[-1,1]的時間濾波器,分別計算
(3.6)對于行為識別而言,除了(3.1)~(3.5)中計算的像素點p的梯度、梯度的時間導(dǎo)數(shù)、光流的時間導(dǎo)數(shù)和運動邊界的時間導(dǎo)數(shù)外,p的空間位置x和y也是有用的信息,因此也作為底層特征,將x,y,px,py,pt,x、pt,y及其幅值和方向角,ft,x、ft,y及其幅值和方向角,ut,x、ut,y及其幅值和方向角,vt,x、vt,y及其幅值和方向角進(jìn)行串接構(gòu)成d=20維的特征向量,由此,將每個p可通過d維的底層特征來表示。
步驟4,將軌跡立方體中視頻幀i對應(yīng)的空間區(qū)域表示為ri,獲取ri的特征向量集合,并對其計算協(xié)方差矩陣。
通過步驟3獲取底層特征后,對每個特征的方差以及不同特征之間的協(xié)方差進(jìn)行編碼,可以得到一個更加緊湊的特征表示,故通過計算特征向量集合的協(xié)方差矩陣來實現(xiàn),具體步驟如下:
(4.1)對ri中所有像素點提取d維底層特征,構(gòu)成特征向量集合{f(k,i)∈rd}k=1,...,n,其中,n表示ri中像素點個數(shù),n=w×h,d為底層特征的維數(shù);
(4.2)通過下式計算特征向量集合的協(xié)方差矩陣:
其中,f(k,i)表示ri的特征向量集合中的第k個特征向量,k∈[1,n],μi為特征向量均值,
步驟5,將協(xié)方差矩陣投影到歐式空間,獲取ri的特征表示。
協(xié)方差矩陣可以表示為一個連通的黎曼流形,為了方便進(jìn)一步地對基于協(xié)方差矩陣的描述子進(jìn)行聚類并構(gòu)造碼書,需要通過log-euclidean度量方式將協(xié)方差矩陣投影到歐式空間,具體步驟如下:
(5.1)對協(xié)方差矩陣進(jìn)行奇異值分解,得到u,v和σ,其中,u為左奇異矩陣,v為右奇異矩陣,σ=diag(λ1,λ2,...,λj,...,λd)為由奇異值構(gòu)成的對角矩陣,λj為ci的第j個奇異值,j∈[1,d],奇異值的個數(shù)為d,diag(·)表示構(gòu)成對角矩陣;
(5.2)利用u,v和σ計算矩陣對數(shù)log(ci):
log(ci)=u·log(σ)·vt=u·diag(log(λ1),log(λ2),...,log(λj),...,log(λd))·vt;
(5.3)取矩陣的上三角部分vec(log(ci))來表示ri,其中,vec(·)表示將矩陣的上三角部分轉(zhuǎn)換為一個矢量,因為協(xié)方差矩陣是一個d×d維的對稱矩陣,由d(d+1)/2個值決定,所以取上三角部分可以獲取更加緊湊的形式。
步驟6,通過ri的特征表示計算每個軌跡子塊的描述子。
將一個w×h×l的軌跡立方體均分為w×h×l的m個子塊,為了使每個子塊均有一個緊湊的表示,將子塊中所有ri特征表示的平均矢量作為子塊的描述子:
其中,l為軌跡子塊的幀長度,l=5,m=l/l。
步驟7,將m個軌跡子塊的描述子串接,得到基于稠密軌跡的協(xié)方差矩陣描述子:
dcmdt=[dsub_1,dsub_2,...,dsub_i,...,dsub_m]t,
其中,dsub_i表示第i個軌跡子塊的描述子,i∈[1,m],[·]t表示轉(zhuǎn)置。
步驟8,對協(xié)方差矩陣描述子進(jìn)行bow編碼,獲取碼字直方圖。
將所有視頻基于稠密軌跡的協(xié)方差矩陣描述子分為訓(xùn)練集vftr和測試集vfte,采用k-means聚類算法對訓(xùn)練集vftr進(jìn)行聚類,得到包含k個碼字的碼書,k=1000,將訓(xùn)練集vftr和測試集vfte分別映射到碼書中,得到訓(xùn)練集的碼字直方圖vhtr和測試集的碼字直方圖vhte。
步驟9,訓(xùn)練線性svm分類模型,進(jìn)行行為識別。
利用訓(xùn)練集的碼字直方圖vhtr訓(xùn)練線性svm分類模型,將測試集的碼字直方圖vhte輸入到訓(xùn)練好的線性svm分類模型中進(jìn)行測試,獲取行為識別結(jié)果。
本發(fā)明的效果可通過以下實驗結(jié)果進(jìn)一步說明;
用本發(fā)明對較為復(fù)雜的標(biāo)準(zhǔn)人體行為數(shù)據(jù)庫ucf-sports進(jìn)行行為識別實驗,得到94%的識別正確率,實驗結(jié)果證明了本發(fā)明的有效性。
以上描述僅是本發(fā)明的一個具體實例,不構(gòu)成對本發(fā)明的任何限制,顯然對于本領(lǐng)域的專業(yè)人員來說,在了解了本發(fā)明內(nèi)容和原理后,都有可能在不背離本發(fā)明原理、結(jié)構(gòu)的情況下,進(jìn)行形式和細(xì)節(jié)上的各種修正和改變,但是,這些基于本發(fā)明思想的修正和改變?nèi)栽诒景l(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。