本發(fā)明涉及計算機視覺行為識別技術(shù)領(lǐng)域,特別是一種基于雙層條件隨機場(double-layerconditionalrandomfieldsmodelforhumanactionrecognition,dl-crfs)的人體行為識別方法。
背景技術(shù):
視頻序列中的人體行為識別是一項涉及計算機視覺、模式識別及人工智能等多領(lǐng)域的研究課題,因其在商業(yè)、醫(yī)療和體育等領(lǐng)域中廣泛的應(yīng)用價值,一直是人們研究的熱點。
文獻[koppulahs,guptar,saxenaa.learninghumanactivitiesandobjectaffordancesfromrgb-dvideos[j].internationaljournalofroboticsresearch,2013,32(8):951-970.]根據(jù)人體行為的復(fù)雜程度將人體行為分為高級行為(high-levelactivity)和簡單行為(action)。簡單行為指過程中最多只有一個交互物體的不可分割的行為,一般持續(xù)時間很短,例如:接觸、放置、打開、關(guān)閉等。高級行為指由一系列連續(xù)的簡單行為構(gòu)成的復(fù)雜行為,例如烹飪食物,它一般包含了打開(微波爐)、接觸(食物)、移動(食物)、放置(食物)、關(guān)閉(微波爐)。同時,這說明對于視頻中一個序列的簡單行為,具有兩層意義的相關(guān)性:簡單行為內(nèi)部潛在的相關(guān)性,例如移動食物,移動水杯,不同的交互物體具有不同含義,并且有些交互物體不具備移動特性,例如只有關(guān)閉或者打開門,而不能移動(門);一系列的連續(xù)簡單行為之間具有相關(guān)性,例如關(guān)閉(微波爐)一定是在打開(微波爐)之后的某一時刻發(fā)生。所以當(dāng)以識別簡單行為通過建模上述兩層意義的相關(guān)性,提高人體行為識別的準(zhǔn)確率。
近幾年,針對室內(nèi)場景視頻的人體簡單行為識別研究(以下均稱為行為識別研究)主要使用概率圖模型的方法對人體行為進行分類解析。根據(jù)學(xué)習(xí)方法的不同,常見的概率圖模型主要分為兩種結(jié)構(gòu):生成模型和判決模型。生成模型:首先建模樣本數(shù)據(jù)的聯(lián)合概率分布p(x,y),然后再得到條件概率p(y|x),常見的生成模型有:隱馬爾可夫模型(hiddenmarkovmodel)、貝葉斯網(wǎng)絡(luò)(dbns)、半馬爾可夫模型(semi-markovmodels)。生成模型明顯的不足之處在于,當(dāng)輸入的樣本數(shù)據(jù)之間存在較為復(fù)雜的相關(guān)性時,聯(lián)合分布的建模將變得復(fù)雜甚至不準(zhǔn)確。相反,判決模型對條件概率p(y|x)建模,例如隱條件隨機場(hiddencrfs)、環(huán)狀條件隨機場(loopycrfs),它不需要考慮輸入樣本數(shù)據(jù)之間的復(fù)雜性,就可以衍生出準(zhǔn)確而有效的推斷。因此對于視頻序列的人體行為識別,判決模型有利于融合從視頻中提取的不同特征。
在判決模型中,線性條件隨機場由于可以運用精確推理方法計算,有效、穩(wěn)健而備受歡迎,但是它只能捕捉人體行為狀態(tài)之間的低階相關(guān)性,而不能有效的捕捉目標(biāo)行為狀態(tài)內(nèi)部的潛在結(jié)構(gòu)和人體行為狀態(tài)之間的高階相關(guān)性,例如物體與行為在空間維結(jié)構(gòu)信息、行為與行為之間在時間維上的語義信息。所以,現(xiàn)有的行為識別研究加入隱狀態(tài)來建模行為復(fù)雜的語義信息。實驗結(jié)果證明通過判別模型中隱狀態(tài)確實捕捉到行為的語義信息,從而提高行為識別的準(zhǔn)確。文獻[hun,englebienneg,louz,etal.learninglatentstructureforactivityrecognition[c]//ieeeinternationalconferenceonroboticsandautomation.ieee,2014:1048-1053.]從rgb-d視頻中提取人體姿態(tài)特征和物體信息,通過在條件隨機場模型加入隱狀態(tài)來捕捉視頻中人體行為的上下文語義信息。文獻[wangl,qiaoy,tangx.la-tenthierarchicalmodeloftemporalstructureforcomplexactivityclassification.[j].ieeetransactionsonimageprocessingapublicationoftheieeesignalprocessingsociety,2014,23(2):810.]提出了一種將子行為作為隱狀態(tài)來識別復(fù)雜的高級行為的分層模型。文獻[chatzissp,demirisy.theinfinite-orderconditionalrandomfieldmodelforsequentialdatamodeling[j].ieeetransactionsonpatternanalysis&machineintelligence,2013,35(6):1523-1534.]提出了一種無窮階條件隨機場對序列化數(shù)據(jù)建模,同時使用了一種序列記憶(sequencememorizer)的方法建模標(biāo)簽序列中無窮階的相關(guān)性。然而上述現(xiàn)有的基于概率圖模型的行為識別方法,都未曾同時考慮人體行為狀態(tài)內(nèi)部的潛在結(jié)構(gòu)和人體行為狀態(tài)之間的高階相關(guān)性,仍然存在識別準(zhǔn)確率低的問題。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是克服現(xiàn)有技術(shù)的不足而提供一種基于雙層條件隨機場的人體行為識別方法,將人體姿態(tài)和交互物體作為預(yù)測行為標(biāo)簽的內(nèi)部的潛在結(jié)構(gòu)——中間狀態(tài),建立一個包含底層輸入數(shù)據(jù)、中間狀態(tài)和預(yù)測行為標(biāo)簽的底層條件隨機場,以豐富人體行為內(nèi)部的潛在結(jié)構(gòu);將全局特征作為頂層輸入數(shù)據(jù),建立頂層輸入數(shù)據(jù)和預(yù)測行為標(biāo)簽的頂層條件隨機場,以捕捉行為之間的高階相關(guān)性;最終構(gòu)成完整的雙層條件隨機場模型。
本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:
根據(jù)本發(fā)明提出的一種基于雙層條件隨機場的人體行為識別方法,包括以下步驟:
步驟a、獲取包含人體行為rgb視頻信息和深度信息的rgb-d訓(xùn)練視頻樣本,并將每個訓(xùn)練視頻樣本分割為多個連續(xù)的視頻段;
步驟b、從獲取得到的深度信息中提取出行為動作主體人的人體骨架結(jié)構(gòu)信息;聯(lián)合rgb視頻信息和人體骨架結(jié)構(gòu)信息兩種數(shù)據(jù)源,從中提取人體姿態(tài)特征、交互物體的形狀和位置特征,以及人體和交互物體的相對位置特征;對上述特征進行處理得到行為表示特征和全局特征;
步驟c、構(gòu)建行為表示特征、人體姿態(tài)和交互物體組成的中間狀態(tài)、預(yù)測行為標(biāo)簽序列三部分鏈接而成的底層條件隨機場;構(gòu)建全局特征和預(yù)測行為標(biāo)簽序列鏈接而成的頂層條件隨機場,結(jié)合底層和頂層條件隨機場構(gòu)建完整視頻段的雙層條件隨機場模型;
步驟d、將步驟c建立的雙層條件隨機場模型融合為一個線性的概率圖模型,并對該線性的概率圖模型應(yīng)用精確推理方法計算出最優(yōu)的預(yù)測行為標(biāo)簽序列;
步驟e,利用最大-間隔算法,加入精確推理的過程,通過標(biāo)準(zhǔn)的結(jié)構(gòu)化svm學(xué)習(xí)步驟d中得到的線性的概率圖模型的最優(yōu)參數(shù);
步驟f,根據(jù)步驟c構(gòu)建的雙層條件隨機場模型和步驟e學(xué)習(xí)得到的最優(yōu)參數(shù),輸入測試視頻樣本的數(shù)據(jù),從而識別出測試視頻樣本中對應(yīng)的行為標(biāo)簽。
作為本發(fā)明所述的一種基于雙層條件隨機場的人體行為識別方法進一步優(yōu)化方案,所述步驟b中:
聯(lián)合rgb視頻信息和人體骨架結(jié)構(gòu)信息兩種數(shù)據(jù)源,從中提取人體姿態(tài)特征、交互物體的形狀和位置特征,以及人體和交互物體的相對位置特征,將上述特征串聯(lián)后得到的行為表示特征x={x1,···,xt,···,xt}作為底層輸入數(shù)據(jù),其中,1≤t≤t,t表示分割視頻段的數(shù)目,xt表示第t個視頻段的行為表示特征;
將交互物體完全出現(xiàn)或部分出現(xiàn)在各個視頻段中的得分串聯(lián),得到的全局特征xa作為頂層輸入數(shù)據(jù)。
作為本發(fā)明所述的一種基于雙層條件隨機場的人體行為識別方法進一步優(yōu)化方案,所述步驟c中人體姿態(tài)和交互物體組成的中間狀態(tài),采用k-means聚類法處理底層輸入數(shù)據(jù),經(jīng)過十次k-means聚類,初始化中間狀態(tài)ht和ot;其中,ht和ot分別表示第t個視頻段的人體姿態(tài)和交互物體。
作為本發(fā)明所述的一種基于雙層條件隨機場的人體行為識別方法進一步優(yōu)化方案,所述步驟c中雙層條件隨機場模型的勢能函數(shù)ψ(y,h,o,x,xa;ω),其具體表示如下:
其中,t表示訓(xùn)練視頻樣本分割后的第t個視頻段,xa表示該訓(xùn)練樣本的全局特征,ω1、ω2、ω3、ω4均表示模型的參數(shù),yt表示第t個視頻段的預(yù)測行為標(biāo)簽;
作為本發(fā)明所述的一種基于雙層條件隨機場的人體行為識別方法進一步優(yōu)化方案,所述步驟d中計算出最優(yōu)的預(yù)測行為標(biāo)簽序列,所述最優(yōu)的預(yù)測行為標(biāo)簽序列
其中,y表示訓(xùn)練視頻樣本的行為標(biāo)簽序列的集合。
作為本發(fā)明所述的一種基于雙層條件隨機場的人體行為識別方法進一步優(yōu)化方案,求解
將雙層條件隨機場模型中的yt,ht,ot合并為聯(lián)合狀態(tài)(yt,ht,ot),因此底層的模型結(jié)構(gòu)看作一個線性條件隨機場;由于底層和頂層具有相同的輸出,因此將底層和頂層兩個條件隨機場融合為一個線性結(jié)構(gòu);從而求解最優(yōu)的預(yù)測行為標(biāo)簽序列轉(zhuǎn)變?yōu)檫f歸的動態(tài)規(guī)劃過程:
將此過程遍歷整個視頻,記錄每次勢能函數(shù)得到最大得分時的y1,···yt,···yt-1,,最后得到第t視頻段的預(yù)測行為標(biāo)簽:
作為本發(fā)明所述的一種基于雙層條件隨機場的人體行為識別方法進一步優(yōu)化方案,所述步驟e包含以下子步驟:
步驟e1,概率圖模型的最優(yōu)參數(shù)ω由下述正則項表達式計算:
其中,λ為均衡權(quán)重值,n表示訓(xùn)練視頻樣本的總數(shù),yi、
步驟e2,對
其中,松弛變量ξi表示第i個訓(xùn)練視頻樣本的替代損失函數(shù),y表示訓(xùn)練視頻樣本的行1標(biāo)簽序列的集合,hi、oi、xi、
步驟e3,將損失函數(shù)作為概率圖模型中的額外的一部分因子,采用步驟d中精確推理方法計算
作為本發(fā)明所述的一種基于雙層條件隨機場的人體行為識別方法進一步優(yōu)化方案,所述步驟a具體如下:采用kinect深度傳感器獲取人體行為的rgb-d訓(xùn)練視頻樣本;將每個訓(xùn)練視頻樣本分割為具有統(tǒng)一長度的多個連續(xù)的視頻段。
本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:本發(fā)明基于雙層條件隨機場的人體行為識別方法,在建模時引入并增加了當(dāng)前行為動作相關(guān)因素內(nèi)部的潛在結(jié)構(gòu)和序列行為動作之間的高階相關(guān)性,對行為動作過程中包含的人體外形差異、復(fù)雜場景和交互物體等都具有顯著的魯棒性,在一定程度上能提高人體行為動作的識別準(zhǔn)確度。
附圖說明
圖1是本發(fā)明基于雙層條件隨機場的人體行為識別方法的流程圖示意圖。
圖2是本發(fā)明提出的雙層條件隨機場的模型示意圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明的技術(shù)方案做進一步的詳細(xì)說明:
為解決背景技術(shù)中提出的問題,本發(fā)明引入雙層條件隨機場模型(dl-crfs),通過底層和頂層兩個模塊分別同時捕捉人體行為狀態(tài)內(nèi)部的潛在結(jié)構(gòu)和人體行為狀態(tài)之間的高階相關(guān)性。
如圖1所示是本發(fā)明基于雙層條件隨機場的人體行為識別方法的流程圖示意圖:
步驟a、獲取包含人體行為rgb視頻信息和深度信息的rgb-d訓(xùn)練視頻樣本,并將每個訓(xùn)練視頻樣本分割為多個連續(xù)的視頻段。
步驟b,特征提?。豪胦penni從獲取得到的深度信息中提取出行為動作主體人的人體骨架結(jié)構(gòu)信息。聯(lián)合rgb視頻信息和人體骨架結(jié)構(gòu)信息兩種數(shù)據(jù)源,從中提取人體姿態(tài)特征、交互物體的形狀和位置特征,以及人體和交互物體的相對位置特征;對上述特征進行處理、得到行為表示特征和全局特征;
步驟b1,將人體姿態(tài)特征、交互物體的形狀和位置特征,以及人體和交互物體的相對位置特征,串聯(lián)后得到的行為表示特征作為底層輸入數(shù)據(jù)。
步驟b2,將交互物體完全出現(xiàn)或部分出現(xiàn)在各個視頻段中的得分串聯(lián),得到的全局特征作為頂層輸入數(shù)據(jù)。
步驟b3,采用現(xiàn)有的k-means聚類法[y.zhuang,y.rui,t.s.huang,ands.mehrotra,"adaptivekeyframeextractionusingunsupervisedclustering."pp.866-870]處理底層輸入數(shù)據(jù),經(jīng)過十次k-means聚類,初始化中間表示變量ht和ot,其中,t表示分割視頻段的數(shù)目,xt表示第t個視頻段的行為表示特征
步驟c,dl-crfs模型構(gòu)建:構(gòu)建當(dāng)行為表示特征、人體姿態(tài)和交互物體組成的中間狀態(tài)、預(yù)測行為標(biāo)簽三部分鏈接而成的底層條件隨機場;構(gòu)建全局特征和預(yù)測行為標(biāo)簽序列鏈接而成的頂層條件隨機場,結(jié)合底層和頂層條件隨機場構(gòu)建完整視頻段的雙層條件隨機場模型。
結(jié)合圖2定義雙層條件隨機場模型的目標(biāo)函數(shù)和勢能函數(shù)。針對底層(bottomlayer)輸入數(shù)據(jù)x、頂層(toplayer)輸入數(shù)據(jù)xa,其對應(yīng)的目標(biāo)層(target-statelayer)的行為標(biāo)簽序列y的概率可以表示為如下目標(biāo)函數(shù):
其中,ψ(y,h,o,x,xa;ω)∈r為雙層條件隨機場模型的勢能函數(shù),衡量x、xa、中間層(intermediatelayer)的人體姿態(tài)h和交互物體o,以及預(yù)測行為標(biāo)簽序列y之間的相關(guān)性,ω為模型參數(shù)。為實現(xiàn)底層和頂層條件隨機場的作用,勢能函數(shù)ψ(y,h,o,x,xa;ω)由兩部分組成:
其中,t=1,···,t表示訓(xùn)練視頻樣本分割后的第t個視頻段,ω1、ω2、ω3、ω4均表示模型的參數(shù),xt、yt、ht、ot分別表示第t個視頻段的行為表示特征、預(yù)測行為標(biāo)簽、人體姿態(tài)和交互物體,
步驟c1,在底層條件隨機場中,首先直接建模行為表示特征與中間狀態(tài)、預(yù)測行為標(biāo)簽之間的依賴性,從而避免其他任何條件假設(shè);其次建模預(yù)測行為標(biāo)簽和中間狀態(tài)的耦合性;最后建模人體姿態(tài)和交互物體之間相關(guān)性。
1.行為表示特征xt和中間狀態(tài)、預(yù)測行為標(biāo)簽的聯(lián)合狀態(tài)(yt,ht,ot)的依賴性:
其中,
2.預(yù)測行為標(biāo)簽yt和中間狀態(tài)ht和ot的耦合性:
ψ2(yt,ht,ot;ω2)=ω2(yt,ht,ot)(4)
3.人體姿態(tài)ht和交互物體ot之間相關(guān)性:
ψ3(ht,ot;ω3)=ω3(ht,ot)(5)
步驟c2,在頂層條件隨機場中,建模在全局特征xa的限制下當(dāng)前時刻的預(yù)測行為標(biāo)簽yt與前一時刻的預(yù)測行為標(biāo)簽yt-1之間的相關(guān)性:
ψ4(yt-1,yt,xa;ω4)=ω4(yt-1,yt,xa)(6)
步驟d、模型推理:將雙層條件隨機場模型中的yt,ht,ot的聯(lián)合狀態(tài)(yt,ht,ot)看做一個整體,不考慮其內(nèi)部結(jié)構(gòu),底層結(jié)構(gòu)將變?yōu)榫€性條件隨機場,所以提出雙層條件隨機場模型可以看作由底層和頂層兩個線性條件隨機場組成,通過公式(5),我們將底層和頂層融合為一個整體的線性結(jié)構(gòu),因此精確推理在我們模型中是可控制的。
在給定圖模型和參數(shù)ω的情況下,通過精確推理找出能夠最大化目標(biāo)函數(shù)的y:
直接對公式(7)求解是一個n-p難題,本發(fā)明根據(jù)線性條件隨機場的維特比解法,將公式(7)轉(zhuǎn)變?yōu)檫f歸的動態(tài)規(guī)劃問題:
y0是初始值,設(shè)為0;
將此過程迭代整個視頻,計算勢能函數(shù)的最大得分并記錄每次迭代結(jié)果y1,···yt,···yt-1,,最后得到第t個視頻段的預(yù)測行為標(biāo)簽
根據(jù)公式(8)再反向推到出
步驟e,dl-crfs參數(shù)學(xué)習(xí):采用最大-間隔算法(max-margin),學(xué)習(xí)所構(gòu)造的雙層條件隨機場模型的參數(shù)。在訓(xùn)練數(shù)據(jù)集
步驟e1,本發(fā)明中模型學(xué)習(xí)的目的為找出最優(yōu)的模型參數(shù)ω,使得預(yù)測行為標(biāo)簽和實際標(biāo)簽的差異最小。為防止過擬合現(xiàn)象,本發(fā)明給出對應(yīng)的正則項表達式:
其中λ為均衡權(quán)重值,
其中,ti表示第i個訓(xùn)練視頻樣本分割視頻段的數(shù)目,
步驟e2,對
其中,松弛變量ξi表示第i個訓(xùn)練視頻樣本的替代損失函數(shù),y表示訓(xùn)練視頻樣本的行為標(biāo)簽序列的集合,hi、oi、xi、
步驟e3,將損失函數(shù)
步驟f、將測試視頻樣本經(jīng)過步驟a、b處理,得到相應(yīng)的測試視頻樣本的數(shù)據(jù),根據(jù)步驟c建模的雙層條件隨機場和步驟e學(xué)習(xí)得到的參數(shù),輸入測試視頻樣本的數(shù)據(jù),從識別出測試視頻樣本中對應(yīng)的行為標(biāo)簽。
以上實施例僅為說明本發(fā)明的技術(shù)思想,不能以此限定本發(fā)明的保護范圍,凡是按照本發(fā)明提出的技術(shù)思想,在技術(shù)方案基礎(chǔ)上所做的任何改動,均落入本發(fā)明保護范圍之內(nèi)。