本發(fā)明涉及圖像處理和模式識(shí)別領(lǐng)域,尤其涉及一種基于層級(jí)化特征學(xué)習(xí)的動(dòng)作識(shí)別方法。
背景技術(shù):
計(jì)算機(jī)視覺技術(shù)是一種通過對(duì)人類視覺的模擬,將現(xiàn)實(shí)中的二維圖像或三維視頻通過處理和分析實(shí)現(xiàn)對(duì)周圍環(huán)境信息的識(shí)別與理解。在當(dāng)前圖像視頻日益成為人們獲取視覺信息的手段的背景下,計(jì)算機(jī)視覺技術(shù)得到了很好的發(fā)展。作為計(jì)算機(jī)視覺研究領(lǐng)域的一部分,基于視覺信息的人體動(dòng)作分析與識(shí)別成為了當(dāng)前熱門的研究方向之一。人體動(dòng)作識(shí)別是指通過計(jì)算機(jī)視覺技術(shù)和機(jī)器學(xué)習(xí)方法對(duì)圖像序列或者視頻中的人體行為進(jìn)行識(shí)別。近幾年來,人體動(dòng)作識(shí)別廣泛的應(yīng)用于智能監(jiān)控、視頻檢索、人機(jī)交互、行為分析、虛擬現(xiàn)實(shí)等方面,已取得了良好的進(jìn)展。
在對(duì)樣本進(jìn)行特征提取與建模的過程中,人體動(dòng)作識(shí)別方法可以分為兩種:基于時(shí)空整體的方法與基于時(shí)間序列的方法。在基于時(shí)空整體的研究方法中,研究者將視頻數(shù)據(jù)看成是一個(gè)三維時(shí)空立方體,而人體動(dòng)作就存在于這個(gè)時(shí)空數(shù)據(jù)中。在基于相同動(dòng)作具有相似的時(shí)空數(shù)據(jù)的假設(shè)中(如參考文獻(xiàn)[1]),通過提取視頻數(shù)據(jù)中的前景部分,進(jìn)行數(shù)據(jù)重組,然后通過比較每個(gè)視頻數(shù)據(jù)中的前景數(shù)據(jù)的相似性來進(jìn)行動(dòng)作的識(shí)別。通過采用分層的均值漂移算法使得視頻中具有相似顏色的立方體聚集在一起(如參考文獻(xiàn)[2]),對(duì)視頻數(shù)據(jù)實(shí)現(xiàn)了3-D自動(dòng)分割。然后在分割后的數(shù)據(jù)中尋找與動(dòng)作模型最為匹配的子集實(shí)現(xiàn)動(dòng)作識(shí)別。通過基于人體運(yùn)動(dòng)軌跡可以進(jìn)行動(dòng)作識(shí)別(如參考文獻(xiàn)[3])。將視頻中的人體運(yùn)動(dòng)的變化看作是在時(shí)空中變化的軌跡線,不同的運(yùn)動(dòng)在一定程度上形成的軌跡線是不同的,這樣就可以利用軌跡線來描述動(dòng)作。他們將人體手部在三維運(yùn)動(dòng)軌跡的時(shí)空曲率值保存在了二維的運(yùn)動(dòng)軌跡上,將軌跡作為動(dòng)作的特征表達(dá),得到了一種具有角度不變性的人體動(dòng)作識(shí)別方法。利用對(duì)人體動(dòng)作過程中提取人體重要關(guān)節(jié)(如參考文獻(xiàn)[4])例如頭,手,足等的運(yùn)動(dòng)軌跡,根據(jù)相似不變性來判斷動(dòng)作樣本之間的相似度。近幾年,基于時(shí)空整體方法中應(yīng)用最為廣泛的是利用時(shí)空興趣點(diǎn)對(duì)人體動(dòng)作進(jìn)行表征。時(shí)空興趣點(diǎn)特征可以捕捉到人體的外觀以及運(yùn)動(dòng)的局部顯著性。由于興趣點(diǎn)的局部特性,它對(duì)視頻中的復(fù)雜背景,尺度變化以及動(dòng)作的種類的多樣性等都具有很好的魯棒性。常用的時(shí)空興趣點(diǎn)有STIP特征(如參考文獻(xiàn)[5]),他們將二維圖像Harris角點(diǎn)檢測(cè)方法(如參考文獻(xiàn)[6])擴(kuò)展到了3-D時(shí)空中Harris3D,并且通過用HOG和HOF的聯(lián)合表征作為興趣點(diǎn)的描述子。Cuboids興趣點(diǎn)特征(如參考文獻(xiàn)[7])通過利用在時(shí)域上進(jìn)行Gabor濾波來增加檢測(cè)到的興趣點(diǎn)的個(gè)數(shù),同時(shí)采用高于興趣點(diǎn)檢測(cè)尺度6倍的周圍空間的信息進(jìn)行亮度梯度描述,得到描述子。采用密集采樣以及軌跡追蹤的方法(如參考文獻(xiàn)[8])進(jìn)行特征點(diǎn)的選取,同時(shí)利用梯度,光流以及運(yùn)動(dòng)邊界直方圖作為描述子,得到了基于密度軌跡的特征。。還有很多像三維尺度不變性特征(3-dimentional Scale-Invariant Feature Transform,3D-SIFT)(如參考文獻(xiàn)[9]),加速魯棒性特征(Speeded Up Robust Feature,SURF)(如參考文獻(xiàn)[10]),Mosift(如參考文獻(xiàn)[11]),應(yīng)用也很廣泛。
在基于時(shí)間序列的方法中,研究者們將視頻看作是一個(gè)圖像序列,序列中的每個(gè)圖像都包含了人體動(dòng)作特征。通過一定序列的對(duì)比,判斷動(dòng)作的類別。由于人體動(dòng)作隨著個(gè)體的不同會(huì)有一定的差異性,比如幅度和速度等,基于此動(dòng)態(tài)時(shí)間規(guī)劃算法(如參考文獻(xiàn)[12])可以較好的解決這個(gè)問題。而利用隱馬爾可夫模型(Hidden Markov Model,HMM)對(duì)人體動(dòng)作進(jìn)行識(shí)別(如參考文獻(xiàn)[13])的過程中,他們將視頻中的每幀圖形作為一個(gè)特征向量,然后對(duì)這些特征向量進(jìn)行HMM建模,找到序列之間的隱含的狀態(tài)轉(zhuǎn)移關(guān)系,建立基于狀態(tài)的模型,然后對(duì)動(dòng)作進(jìn)行識(shí)別。此外通過應(yīng)用多個(gè)HMM生成了耦合隱馬爾科夫模型(CHMM)(如參考文獻(xiàn)[14]),對(duì)多人之間的交互動(dòng)作進(jìn)行了建模。在基于時(shí)間序列中,另一個(gè)應(yīng)用比較廣泛的是條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)(如參考文獻(xiàn)[15]),CRF模型可以將動(dòng)作序列分割成多個(gè)連續(xù)的單元,根據(jù)相鄰單元間的轉(zhuǎn)換規(guī)則來對(duì)人體動(dòng)作進(jìn)行識(shí)別。為了應(yīng)對(duì)不同的時(shí)序模型,很多研究工作對(duì)CRF進(jìn)行了擴(kuò)展,例如:隱態(tài)CRF(如參考文獻(xiàn)[16])動(dòng)態(tài)CRF(如參考文獻(xiàn)[17]),半馬爾科夫隨機(jī)場(chǎng)模型(如參考文獻(xiàn)[18])等。
在動(dòng)作識(shí)別領(lǐng)域中主要面臨著以下挑戰(zhàn):
1、人體動(dòng)作形態(tài)各異。在一個(gè)動(dòng)作序列中,不同的人由于習(xí)慣的原因?qū)τ谕瑯拥膭?dòng)作,表現(xiàn)往往不同,這給動(dòng)作識(shí)別增加了難度。同時(shí),不同的設(shè)備,不同的動(dòng)作種類,都會(huì)導(dǎo)致動(dòng)作形態(tài)在序列上呈現(xiàn)多樣化。提出一種對(duì)人體動(dòng)作形態(tài)具有魯棒性的檢測(cè)方式,對(duì)人體動(dòng)作的識(shí)別至關(guān)重要。
2、動(dòng)作背景復(fù)雜。為了與現(xiàn)實(shí)情況相切合,很多動(dòng)作序列樣本的錄制環(huán)境不僅僅包含簡(jiǎn)單,固定的背景,很多都來自于復(fù)雜多變的環(huán)境,復(fù)雜的背景對(duì)于人體動(dòng)作建模來說是一個(gè)非常大的挑戰(zhàn)。
3、現(xiàn)有的人體動(dòng)作識(shí)別的特征存在的缺點(diǎn)是,大部分都是基于手工設(shè)計(jì)的特征,具有普遍的使用性,但是對(duì)于動(dòng)作樣本的獨(dú)特性,沒能很好的捕捉到,如何基于樣本本身學(xué)到特征來表征動(dòng)作樣本,對(duì)于動(dòng)作識(shí)別來說至關(guān)重要。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種基于層級(jí)化特征學(xué)習(xí)的動(dòng)作識(shí)別方法,本發(fā)明解決了由于手工設(shè)計(jì)的特征不能根據(jù)動(dòng)作樣本的差異性捕捉樣本自身的特性使得相同動(dòng)作類別表現(xiàn)差異大,提取的特征單一,模型學(xué)習(xí)難度大的問題,詳見下文描述:
一種基于層級(jí)化特征學(xué)習(xí)的動(dòng)作識(shí)別方法,所述動(dòng)作識(shí)別方法包括以下步驟:
將訓(xùn)練集區(qū)域塊的特征聚類,利用詞袋模型對(duì)所有區(qū)域塊進(jìn)行特征重表征,得到高層塊的特征,將一個(gè)視頻中所有塊的特征進(jìn)行均值池化,得到視頻序列的特征集;
利用支持向量機(jī)對(duì)視頻序列的特征集建模,得到模型參數(shù);
選取測(cè)試集中的動(dòng)作序列作為測(cè)試序列,通過兩層的聚類以及詞袋模型,提取動(dòng)作序列的特征,將特征輸入模型中,得到動(dòng)作序列的動(dòng)作類別號(hào)。
所述動(dòng)作識(shí)別方法還包括:
從動(dòng)作視頻數(shù)據(jù)集的每一類中挑選出訓(xùn)練視頻序列和候選預(yù)測(cè)視頻序列。
所述訓(xùn)練視頻序列分為大小相等的時(shí)空塊,根據(jù)這些塊的像素信息構(gòu)建塊的協(xié)方差特征,作為塊的初始化特征,構(gòu)成動(dòng)作數(shù)據(jù)集。
所述層級(jí)化特征學(xué)習(xí)具體為:
利用聚類方法對(duì)訓(xùn)練集中的塊進(jìn)行聚類,然后利用詞袋模型對(duì)所有的塊進(jìn)行特征重表征,得到底層塊的特征;
通過池化將以底層塊為中心,在它周圍的所有塊的底層特征進(jìn)行融合,得到空間上比底層塊更大的區(qū)域塊的特征表征。
本發(fā)明提供的技術(shù)方案的有益效果是:本方法通過基于層級(jí)化特征學(xué)習(xí)的動(dòng)作識(shí)別方法來提取具有更好分辨度以及更豐富的特征來進(jìn)行動(dòng)作特征表征,使得模型的學(xué)習(xí)更加高效,提高了動(dòng)作識(shí)別的識(shí)別率;通過實(shí)驗(yàn)驗(yàn)證,本方法取得了較高的準(zhǔn)確率,滿足了實(shí)際應(yīng)用中的多種需要。
附圖說明
圖1為一種基于層級(jí)化特征學(xué)習(xí)的動(dòng)作識(shí)別方法的流程圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
實(shí)施例1
為了解決動(dòng)作識(shí)別中手工特征不能挖掘出樣本之間的差異信息以及特征不豐富的問題,導(dǎo)致動(dòng)作識(shí)別效率不高,本發(fā)明實(shí)施例提供了一種基于層級(jí)化特征學(xué)習(xí)的動(dòng)作識(shí)別方法,參見圖1,該動(dòng)作識(shí)別方法包括以下步驟:
101:將訓(xùn)練集區(qū)域塊的特征聚類,利用詞袋模型對(duì)所有區(qū)域塊進(jìn)行特征重表征,得到高層塊的特征,將一個(gè)視頻中所有塊的特征進(jìn)行均值池化,得到視頻序列的特征集;
102:利用支持向量機(jī)對(duì)視頻序列的特征集建模,得到模型參數(shù);
103:選取測(cè)試集中的動(dòng)作序列作為測(cè)試序列,通過兩層的聚類以及詞袋模型,提取動(dòng)作序列的特征,將特征輸入模型中,得到動(dòng)作序列的動(dòng)作類別號(hào)。
其中,動(dòng)作識(shí)別方法還包括:
從動(dòng)作視頻數(shù)據(jù)集的每一類中挑選出訓(xùn)練視頻序列和候選預(yù)測(cè)視頻序列。
所述訓(xùn)練視頻序列分為大小相等的時(shí)空塊,根據(jù)這些塊的像素信息構(gòu)建塊的協(xié)方差特征,作為塊的初始化特征,構(gòu)成動(dòng)作數(shù)據(jù)集。
其中,所述層級(jí)化特征學(xué)習(xí)具體為:
利用聚類方法對(duì)訓(xùn)練集中的塊進(jìn)行聚類,然后利用詞袋模型對(duì)所有的塊進(jìn)行特征重表征,得到底層塊的特征;
通過池化將以底層塊為中心,在它周圍的所有塊的底層特征進(jìn)行融合,得到空間上比底層塊更大的區(qū)域塊的特征表征。
綜上所述,本發(fā)明實(shí)施例提供了一種基于層級(jí)化特征學(xué)習(xí)的動(dòng)作識(shí)別方法,本方法通過對(duì)視頻序列進(jìn)行分塊,然后利用訓(xùn)練集學(xué)習(xí)每一層的特征表征,并進(jìn)行建模,在應(yīng)用過程中,輸入動(dòng)作候選序列,對(duì)其提取層級(jí)化特征并建立利用建立的模型進(jìn)行動(dòng)作類別的的預(yù)測(cè),獲得了較好的識(shí)別結(jié)果,提高了動(dòng)作識(shí)別的識(shí)別率。
實(shí)施例2
下面結(jié)合圖1,具體的計(jì)算原理對(duì)實(shí)施例1中的方案進(jìn)行詳細(xì)的介紹,詳見下文描述:
201:從動(dòng)作視頻數(shù)據(jù)集的每一類中挑選出訓(xùn)練視頻序列和候選預(yù)測(cè)視頻序列;
其中,訓(xùn)練集中的動(dòng)作序列的選取可通過人工挑選或在類內(nèi)隨機(jī)挑選等方法,如果在該動(dòng)作集上已有分好的訓(xùn)練集和測(cè)試集,則按照分好的樣本作為訓(xùn)練集和測(cè)試集。
202:將所有的訓(xùn)練視頻序列分為大小相等的WxWxT的時(shí)空塊,根據(jù)這些塊的像素信息構(gòu)建塊的協(xié)方差特征,作為塊的初始化特征,構(gòu)成動(dòng)作數(shù)據(jù)集
其中,N為數(shù)據(jù)集中動(dòng)作序列的總數(shù)量,i為動(dòng)作序列樣本的序號(hào),為第i個(gè)動(dòng)作序列在第一層的內(nèi)容,表示取值為實(shí)數(shù)的D*Ti維空間,D為時(shí)空塊初始化特征的維數(shù),Ti為第i個(gè)動(dòng)作序列中時(shí)空塊的個(gè)數(shù)。
其中,D1的維數(shù)與所選取的初始化特征有關(guān),本發(fā)明實(shí)施例對(duì)此不做限制。yi為樣本標(biāo)簽,其取值為Y={1,2,...,M},值為1代表該樣本序列包含的動(dòng)作類別為1,值為2代表該樣本序列包含的動(dòng)作類別為2,M代表數(shù)據(jù)集中動(dòng)作類別的總數(shù);不失一般性,本發(fā)明實(shí)施例對(duì)所有動(dòng)作樣本中的時(shí)空塊進(jìn)行協(xié)方差特征的(如參考文獻(xiàn)[21])提取。
203:利用聚類方法對(duì)訓(xùn)練集中的塊進(jìn)行聚類,然后利用詞袋模型對(duì)所有的塊進(jìn)行特征重表征,得到底層塊的特征;
其中,本步驟所解決的問題是動(dòng)作識(shí)別中樣本初始特征處理及再表征的問題,具體體現(xiàn)為將輸入的初始化特征進(jìn)行學(xué)習(xí),通過學(xué)習(xí)到新的特征空間的轉(zhuǎn)換矩陣,將初始化特征映射到新的特征空間中,通過對(duì)樣本再表征,得到學(xué)習(xí)后的樣本的特征集
常用的方法有k-means聚類,稀疏編碼等方式,本發(fā)明實(shí)施例對(duì)特征空間的學(xué)習(xí)以及再表征的選擇不做限制。
204:通過池化將以底層塊為中心,在它周圍的所有塊的底層特征進(jìn)行融合,得到空間上比底層塊更大的區(qū)域塊的特征表征;
其中,池化操作是將中心塊位置周圍的信息融合在一起,使得學(xué)習(xí)大的特征既具有局部性,又包含了周圍的時(shí)空信息,豐富了特征。一般的,池化操作包含均值池化、求和池化以及最大值池化等操作,本發(fā)明實(shí)施例對(duì)此不做限制。
205:通過將訓(xùn)練集區(qū)域塊的特征進(jìn)行聚類,然后利用詞袋模型對(duì)所有區(qū)域塊進(jìn)行特征重表征,得到高層塊的特征,將一個(gè)視頻中所有塊的特征進(jìn)行均值池化,得到一個(gè)視頻序列的特征集
206:利用支持向量機(jī)對(duì)視頻序列的特征集進(jìn)行建模,得到模型參數(shù);
207:選取測(cè)試集中的動(dòng)作序列作為測(cè)試序列,通過兩層的聚類以及詞袋模型,提取動(dòng)作序列的特征,將特征輸入模型中,得到動(dòng)作序列的動(dòng)作類別號(hào)。
綜上所述,本發(fā)明實(shí)施例利用層級(jí)化特征學(xué)習(xí)方法得到的特征,具有較好的魯棒性,保留了現(xiàn)有人工特征中沒有的特征點(diǎn)周圍的局部信息,層層升華,得到全局的特征。提高了特征中的信息量,進(jìn)一步提高了動(dòng)作識(shí)別的準(zhǔn)確性,取得了較好的結(jié)果。
實(shí)施例3
下面結(jié)合具體的計(jì)算公式對(duì)實(shí)施例1和2中的方案進(jìn)行進(jìn)一步地論述,詳見下文描述:
一、不失一般性,本發(fā)明實(shí)施例選取協(xié)方差矩陣作為塊的初始化特征。
采用了協(xié)方差矩陣作為塊的初始化特征,表達(dá)式如下:
I(x,y,t)為在塊(x,y,t)的位置上的像素點(diǎn)的值,分別表示的是當(dāng)前點(diǎn)的像素值分別對(duì)x,y,t一階偏導(dǎo),分別表示相對(duì)應(yīng)的二階導(dǎo)數(shù),最終,通過這10種信息,生成了在點(diǎn)x,y,t位置上的點(diǎn)的表征F(x,y,t)。由于是以塊為最小的信息載體,所以當(dāng)有了單一的點(diǎn)的描述信息后,通過利用協(xié)方差描述子來初始化塊的表征,協(xié)方差的公式如下:
其中,n代表塊中的像素的個(gè)數(shù),n=S×S×T,Fi=F(xi,yi,ti)為塊中點(diǎn)的表征。最終通過對(duì)塊中的所有點(diǎn)通過協(xié)方差的方法進(jìn)行整合,生成塊的初始化描述子CI。CI是一個(gè)矩陣,維數(shù)為維數(shù)(Fi)×維數(shù)(Fi),假設(shè)Fi是一個(gè)10維的向量,CI為10×10的協(xié)方差矩陣。
二、底層特征學(xué)習(xí)過程如下:
協(xié)方差矩陣是一個(gè)特殊類型的黎曼流形。對(duì)稱正定矩陣(Symmetric Positive Denfinite,SPD)的非歐氏結(jié)構(gòu)可以應(yīng)用于對(duì)不同協(xié)方差矩陣之間的度量。利用微分同胚將SPD流形嵌入到傳統(tǒng)的歐氏空間中,在詞典學(xué)習(xí)以及編碼的過程中將對(duì)稱正定矩陣的流形幾何應(yīng)用其中。在一個(gè)黎曼流形(M,g)空間中,任意一個(gè)點(diǎn)P的切空間為TpM,TpM表示為通過點(diǎn)P的所有切向量。切向量空間中平滑變化的相關(guān)公式為公式g是一個(gè)對(duì)于任意p∈TpM都具有正定,對(duì)稱,雙線性的性質(zhì),對(duì)于幾何變化具有一定的魯棒性。對(duì)于切向量空間與流形空間的轉(zhuǎn)換的算子分別為e指數(shù)變換expP(·)∶TpM→M,將切向量△映射為流形空間的一個(gè)點(diǎn)X,對(duì)數(shù)變換將流形空間中的點(diǎn)映射為切向量空間中的一個(gè)向量,expP(·)和logP(·)變換是一對(duì)逆變換。expP(·)變換可以使得切向量△的長(zhǎng)度等于X與P的測(cè)地距離。
對(duì)于將歐氏空間的數(shù)據(jù)轉(zhuǎn)換為流形空間中,可以運(yùn)用Karcher均值來代替算數(shù)均值求解Xi與Xj之間的距離(參考文獻(xiàn)[19])。Karcher均值通過下式來求解:
其中,是相關(guān)的測(cè)地距離的計(jì)算公式。然而在計(jì)算Karcher均值的過程中。需要在流形空間與切向量空間中轉(zhuǎn)換,這對(duì)于具有大量訓(xùn)練數(shù)據(jù)來說,需要消耗的時(shí)間是巨大的。在計(jì)算中,每一次向切向量空間的映射都需要計(jì)算Cholesky因式分解,對(duì)于一個(gè)d×d的協(xié)方差矩陣來說,時(shí)間的復(fù)雜度為Ο(d3)。
對(duì)于實(shí)數(shù)d×d的SPD矩陣,表示為它形成了在數(shù)學(xué)中具有群結(jié)構(gòu)的實(shí)流形,稱為李群(Lie Group),所以對(duì)于可以運(yùn)用黎曼流形中的性質(zhì)以及所有相關(guān)的幾何概念。在上的仿射不變黎曼度量(Affine Invariant Riemannian Metric,AIRM),在該度量下的對(duì)數(shù)變換與對(duì)數(shù)變換為(參考文獻(xiàn)[20]):
對(duì)于對(duì)稱正定矩陣X來說,以上兩式的結(jié)果可以由奇異值分解(Singular Value Decompostion)得到。假設(shè)定義對(duì)角線矩陣為diag(λ1,λ2,…,λd)同時(shí)滿足X奇異值分解為X=Udiag(λi)UT,則上式可以重新寫為:
由此可以得到具有流形結(jié)構(gòu)的對(duì)稱正定矩陣X的對(duì)數(shù)和e指數(shù)的變換算子方程式,即從流形空間到切向量空間的變換與逆變換。在本文中的流形空間學(xué)習(xí)特征的方法中,將d×d的對(duì)稱矩陣從空間映射為切向量空間,從流形空間轉(zhuǎn)為向量空間,這樣就可以應(yīng)用歐氏空間中的計(jì)算方法。在給定一個(gè)對(duì)稱正定矩陣X,它的對(duì)數(shù)歐氏向量表征是唯一的(如參考文獻(xiàn)[21]),定義為:α=Vec(log(X))這其中Vec(B),B∈Sym(d)定義為:
通過將正交對(duì)稱矩陣訓(xùn)練數(shù)據(jù)集映射為向量,則每個(gè)塊的初始化特征即為h1=Vec(B)。
三高層塊的特征學(xué)習(xí)過程如下:
不失一般性的,選取k-means算法進(jìn)行聚類同時(shí)利用矢量量化的方法進(jìn)行特征表征。
k均值聚類方法通過按照內(nèi)類方差和最小的原則將特征空間中的n個(gè)特征點(diǎn)指定為k類,如下式所示。
在上式中,Ci表示中心為μi的第i個(gè)聚類類別,表示第S層的特征屬于類別Ci的數(shù)據(jù)點(diǎn)。k-means算法的具體步驟:
(1)初始化聚類中心。在特征空間中隨機(jī)選取或者按照一定規(guī)則選取k個(gè)初始中心;
(2)將每個(gè)特征點(diǎn)歸類。計(jì)算每個(gè)特征點(diǎn)與聚類中心的距離,按距離最短將特征點(diǎn)分配到k個(gè)初始中心點(diǎn);
(3)更新聚類中心點(diǎn)。根據(jù)第二步的結(jié)果,利用每個(gè)中心點(diǎn)所屬的特征點(diǎn)重新計(jì)算,得到新的聚類中心;
(4)重復(fù)(2)、(3)操作直到滿足收斂的條件為止,輸出聚類的結(jié)果D。
矢量量化是通過計(jì)算特征點(diǎn)與詞典中每個(gè)詞的距離關(guān)系來對(duì)樣本中的特征點(diǎn)進(jìn)行統(tǒng)計(jì),根據(jù)特征點(diǎn)編碼中與詞典中詞數(shù)目的關(guān)系,對(duì)于每一個(gè)特征描述子x來說,經(jīng)過詞典D={d1,d2,…dK}編碼方法φ得到樣本表征φ(x)。兩個(gè)方法的計(jì)算公式如下:
在用矢量化編碼的過程中,計(jì)算特征點(diǎn)與詞典中每個(gè)詞的距離,取使得它們兩之間距離最小的那個(gè)詞dmin,新建一個(gè)零向量,僅將零向量中dmin的位置為1,最終這個(gè)向量φ(x)就是該特征點(diǎn)的表征。
具體實(shí)現(xiàn)時(shí),還可以采用其他的算法解決上述的時(shí)空塊初始化,初始化特征表征以及高層特征學(xué)習(xí)等問題,本發(fā)明實(shí)施例僅給出一個(gè)具體的實(shí)例進(jìn)行說明,對(duì)具體的算法實(shí)現(xiàn)步驟本發(fā)明實(shí)施例不做限制。
實(shí)施例4
下面結(jié)合具體的實(shí)驗(yàn)對(duì)實(shí)施例1和2中的方案進(jìn)行可行性驗(yàn)證,詳見下文描述:
實(shí)驗(yàn)所采用的人體動(dòng)作數(shù)據(jù)庫(kù)來自由瑞典皇家理工學(xué)院KTH錄制的數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)一紅包含了598個(gè)在四個(gè)不同環(huán)境下錄制的視頻序列,分別由25個(gè)志愿者做6個(gè)不同的動(dòng)作,每個(gè)動(dòng)作重復(fù)一定的時(shí)間。該數(shù)據(jù)庫(kù)中視頻數(shù)據(jù)的分辨率為160×120,幀率為25fps,視頻中每幀的圖像為灰度圖.其中訓(xùn)練樣本集有382個(gè)樣本,測(cè)試集有216個(gè)樣本。動(dòng)作數(shù)據(jù)庫(kù)的錄制環(huán)境和數(shù)據(jù)采集設(shè)備的信息及參數(shù)設(shè)置可參考文獻(xiàn)(如參考文獻(xiàn)[22]),本發(fā)明實(shí)施例對(duì)此不作贅述。
經(jīng)過文獻(xiàn)查詢,采用現(xiàn)有技術(shù)中的特征如Cuboid、HOG3D、Dense HOF等特征進(jìn)行動(dòng)作識(shí)別準(zhǔn)確了可達(dá)到90%。通過本發(fā)明實(shí)施例進(jìn)行層級(jí)化特征學(xué)習(xí)的方法,動(dòng)作識(shí)別準(zhǔn)確率達(dá)到了91.7%。其結(jié)果優(yōu)于所述的特征,證明了方法的可行性和有效性。
綜上所述,本發(fā)明實(shí)施例提出了一種層級(jí)化特征學(xué)習(xí)的動(dòng)作識(shí)別算法,本方法從動(dòng)作視頻數(shù)據(jù)集的每一類中挑選出訓(xùn)練視頻序列和候選預(yù)測(cè)視頻序列,將所有的訓(xùn)練視頻序列分為大小相等的WxWxT的時(shí)空塊,根據(jù)這些塊的像素信息構(gòu)建塊的協(xié)方差特征,作為塊的初始化特征,構(gòu)成動(dòng)作數(shù)據(jù)集;在此基礎(chǔ)上,通過層級(jí)化的學(xué)習(xí)方法豐富特征信息,得到視頻序列的特征;最后利用分類器學(xué)習(xí)模型參數(shù),找到特征空間中的分割面,最終使得識(shí)別結(jié)果較為理想。
參考文獻(xiàn):
[1]Bobick AF,Davis J W.The recognition of human movement using temporal templates.IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(3):257-267.
[2]Ke Y,Sukthankar R,Hebert M.Spatio-temporal shape and flow correlation for action recognition.Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2007.
[3]Rao C,Shah M.View-invariance in action recognition.IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2001(2):316-322.
[4]Sheikh Y,Sheikh M,Shah M.Exploring the Space of a Human Action.IEEE International Conference on Computer Vision.2005.
[5]Laptev I.On space-time interest points.International Journal of Computer Vision,2005,64(2-3):107-123.
[6]Dollár P,Rabaud V,Cottrell G,et al.Behavior recognition via sparse spatio temporal features.Visual Surveillance and Performance Evaluation of Tracking and Surveillance,2nd Joint IEEE International Workshop on.IEEE,2005:65-72.
[7]Andrews S,Tsochantaridis I,Hofmann T.Support vector machines for multiple-instance learning.Advances in neural information processing systems.2002:561-568.
[8]Wang H, A,Schmid C,et al.Action recognition by dense trajectories.IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2011:3169-3176.
[9]Scovanner P,Ali S,Shah M.A3-dimensional sift descriptor and its application to action recognition.Proceedings of the 15th international conference on Multimedia.ACM,2007:357-360.
[10]Bay H,Tuytelaars T,Van Gool L.Surf:Speeded up robust features.Computer vision–ECCV.Springer Berlin Heidelberg,2006:404-417.
[11]Chen M,Hauptmann A.Mosift:Recognizing human actions in surveillance videos.2009.
[12]Morency L P,Quattoni A,Darrell T.Latent-dynamic discriminative models for continuous gesture recognition.IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2007:1-8.
[13]Yamato J,Ohya J,Ishii K.Recognizing human action in time-sequential images using hidden markov model.1992IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE,1992:379-385.
[14]Brand M,Oliver N,Pentland A.Coupled hidden Markov models for complex action recognition.Proceedings.IEEE Computer Society Conference on Computer Vision and Pattern Recognition.1997:994-999.
[15]Wang J,Liu P,She M,etal.Human action categorization using conditional random field.Robotic Intelligence In Informationally Structured Space,2011IEEE Workshop,2011:131-135.
[16]Wang H,Schmid C.Action recognition with improved trajectories.IEEE International Conference on Computer Vision.2013:3551-3558.
[17]Liu J,Kuipers B,Savarese S.Recognizing human actions by attributes.IEEE Conference on Computer Vision and Pattern Recognition.2011:3337-3344.
[18]Wang J,Zucker J D.Solving multiple-instance problem:A lazy learning approach.2000.
[19]Klaser A, M,Schmid C.A spatio-temporal descriptor based on 3d-gradients.19th British Machine Vision Conference.British Machine Vision Association,2008:275:1-10.
[20]Pennec X.Intrinsic statistics on Riemannian manifolds:Basic too ls for geometric measurements.Journal ofMathematical Imaging and Vision,2006,25(1):127-154.
[21]Faraki M,Palhang M,Sanderson C.Log-Euclidean bag of words for human action recognition.IET Computer Vision,2014,9(3):331-339.
[22]C.Schüldt,I.Laptev,and B.Caputo.Recognizing human actions:A local SVM approach.In 17thInternational Conference onPatternRecognition,pages 32–36,2004.
本發(fā)明實(shí)施例對(duì)各器件的型號(hào)除做特殊說明的以外,其他器件的型號(hào)不做限制,只要能完成上述功能的器件均可。
本領(lǐng)域技術(shù)人員可以理解附圖只是一個(gè)優(yōu)選實(shí)施例的示意圖,上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。