本發(fā)明屬于計(jì)算機(jī)視覺(jué)中的行為識(shí)別領(lǐng)域,涉及一種人類的行為識(shí)別方法。
背景技術(shù):
識(shí)別圖像或視頻中的人類行為在計(jì)算機(jī)視覺(jué)中是一個(gè)基本的問(wèn)題,這在許多應(yīng)用如運(yùn)動(dòng)視頻分析,監(jiān)控系統(tǒng)和視頻檢索中至關(guān)重要。最近的工作中,深度學(xué)習(xí)明顯提高了行為識(shí)別的性能。然而,這些工作不適用于處理包含多人互動(dòng)的數(shù)據(jù)。首先,他們專注于分給每個(gè)圖像一個(gè)行為標(biāo)簽,這不適用于包含多個(gè)行為類別的圖像。第二,他們忽視了人之間的相互關(guān)系為識(shí)別復(fù)雜的人類活動(dòng)像握手,戰(zhàn)斗和足球比賽等提供了重要的語(yǔ)境信息。
技術(shù)實(shí)現(xiàn)要素:
為了克服已有人類的行為識(shí)別方式的無(wú)法適用于多個(gè)行為類別的圖像、無(wú)法識(shí)別交互行為的不足,本發(fā)明提供了一種適用于多個(gè)行為類別的圖像、能夠識(shí)別交互行為的用于人類行為識(shí)別的深度聯(lián)合結(jié)構(gòu)化和結(jié)構(gòu)化學(xué)習(xí)方法。
本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:
一種用于人類行為識(shí)別的深度聯(lián)合結(jié)構(gòu)化和結(jié)構(gòu)化學(xué)習(xí)的方法,所述方法包括以下步驟:
1)構(gòu)造聯(lián)合結(jié)構(gòu)和結(jié)構(gòu)公式化
假設(shè)有一組n個(gè)訓(xùn)練樣本I表示一張圖像,a是圖像中所有人的行為標(biāo)簽的集合;如果圖像包含m個(gè)個(gè)體,則a=[a1,…,am],矩陣E=(eij)∈{0,1}m×m是一個(gè)嚴(yán)格的上三角矩陣,表示圖像中所有個(gè)體的相互關(guān)系結(jié)構(gòu);eij=0意味著在人i和人j之間沒(méi)有交互,而eij=1指示人i和人j彼此交互;
為了預(yù)測(cè)a和E,最大化下面的潛在函數(shù):
這里w=[w0,w1,w2]T是訓(xùn)練期間要學(xué)習(xí)的模型參數(shù),函數(shù)φ(·),μ(·)和ψ(·)用于計(jì)算三種類型的聯(lián)合特征,φ給出了圖像和行為標(biāo)簽的聯(lián)合特征;μ計(jì)算所述圖像和所述交互標(biāo)簽e的聯(lián)合特征;ψ輸出圖像和兩個(gè)個(gè)體的行為標(biāo)簽a的聯(lián)合特征表示;
2)特征表示
使用空間網(wǎng)絡(luò)從圖像中的人體區(qū)域提取深層卷積神經(jīng)網(wǎng)絡(luò)CNN特征,將空間網(wǎng)絡(luò)的fc6層的輸出作為深度特征,使用梯度直方圖HOG和光流直方圖特征HOF來(lái)進(jìn)一步增強(qiáng)特征表示;CNN,HOG和HOF特征被連接以表示圖像中的個(gè)人行為或交互關(guān)系,使用這種特征為每個(gè)數(shù)據(jù)集訓(xùn)練兩個(gè)線性支持向量機(jī)分類器,一個(gè)用于分類個(gè)人行為,另一個(gè)用于分類交互關(guān)系,使用組合特征來(lái)計(jì)算公式(1)中的聯(lián)合特征,為此,計(jì)算
這里dα,d∈是用訓(xùn)練好的SVM分類器分類包含個(gè)人行為和交互關(guān)系得到的決策值表示的向量,并且所有運(yùn)算符表示基于向量的元素計(jì)算;
sα(a)表示一個(gè)人的行為為a的判別分?jǐn)?shù)。s∈(e)表示1兩個(gè)人有交互的判別分值或不在交互的分值,公式(1)中的聯(lián)合特征由下式定義:
φ(I,a)=1α(a)·Sα(a) (4)
μ(I,a)=1∈(e)·S∈(e) (5)
ψ(I,ai,aj)=1τ(ai,aj,pi,pj,rij) (6)
這里1α(a)∈{0,1}a是指示符向量,在位置a時(shí)取值1,,其他位置取0的。同樣,1∈(e)在位置e取1,在別處取0,1τ(·)在索引位置ai,aj,pi,pj,rij時(shí)取1,其中pi,pj表示人i和人j的姿勢(shì),rij表示人j與人i的相對(duì)位置;為了計(jì)算rij,將圍繞人j的區(qū)域劃分為六個(gè)子區(qū)域,并且每個(gè)子區(qū)域被分配一個(gè)相對(duì)位置,rij是包圍邊界框i的中心的子區(qū)域的ID;
3)訓(xùn)練模型的參數(shù)
給定n個(gè)訓(xùn)練樣本,使用max-margin-style公式進(jìn)行訓(xùn)練:
這里ξ表示松弛變量,C是確定增加模型復(fù)雜性和減少對(duì)訓(xùn)練數(shù)據(jù)的不正確預(yù)測(cè)之間的權(quán)衡的常數(shù);標(biāo)簽成本,即不正確預(yù)測(cè)的懲罰由下式給出:
其中δ(·)是指示功能,如果測(cè)試條件為真則給出1,否則輸出0;
4)訓(xùn)練和預(yù)測(cè)中的相關(guān)推理
在訓(xùn)練的每次迭代期間,針對(duì)每個(gè)訓(xùn)練示例解決以下?lián)p失增強(qiáng)推理:
由于潛在函數(shù)F的表達(dá),成本項(xiàng)Δ被吸收到公式(1)中的兩個(gè)一元項(xiàng)中,因此,問(wèn)題(10)與優(yōu)化是同質(zhì)的:
進(jìn)一步,所述步驟4)中,交替搜索標(biāo)簽空間和結(jié)構(gòu)空間,在每次迭代期間,算法依次執(zhí)行以下兩個(gè)步驟:
4.1)固定結(jié)構(gòu)并通過(guò)循環(huán)信任傳播解決剩余問(wèn)題,以找到的解;
4.2)固定標(biāo)簽并解決剩余的整數(shù)線性規(guī)劃ILP問(wèn)題(11),找到的解;
其中a*表示在第一步驟中發(fā)現(xiàn)的解,向(11)中添加兩種類型的約束,這導(dǎo)致另外兩個(gè)ILP問(wèn)題:
其中||Z||0是Z的L0范數(shù);
(11),(12),(13)分別是沒(méi)有約束的,最大邊數(shù)約束和節(jié)點(diǎn)度約束的ILP問(wèn)題,分別用ILP-NoC,ILP-MNE和ILP-NDC表示;
對(duì)于每對(duì)(i,j)i,j∈{1,…,m},i<j,考慮輸出
如果V0>V1,設(shè)置eij=0,否則把(i,j)放到候選隊(duì)列中;接下來(lái),根據(jù)候選的V1值以降序?qū)?shù)組進(jìn)行排序,然后從頭到尾訪問(wèn)這個(gè)數(shù)組,對(duì)于當(dāng)前對(duì)(s,t),如果在ILP-NDC中沒(méi)有違反約束,設(shè)置est=1;否則設(shè)置est=0。
本發(fā)明提出一個(gè)簡(jiǎn)單但有效的框架,以有監(jiān)督的方式,來(lái)聯(lián)合學(xué)習(xí)人類互動(dòng)結(jié)構(gòu)和結(jié)構(gòu)化標(biāo)簽。為此,通過(guò)深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征表達(dá)式來(lái)表示個(gè)人行為和交互行為,并提出了一種高效的推理算法來(lái)估計(jì)標(biāo)簽和圖形結(jié)構(gòu)。
本發(fā)明的有益效果主要表現(xiàn)在:適用于多個(gè)行為類別的圖像、能夠識(shí)別交互行為。
具體實(shí)施方式
下面對(duì)本發(fā)明作進(jìn)一步描述。
一種用于人類行為識(shí)別的深度聯(lián)合結(jié)構(gòu)化和結(jié)構(gòu)化學(xué)習(xí)的方法,包括以下步驟:
1)構(gòu)造聯(lián)合結(jié)構(gòu)和結(jié)構(gòu)公式化
假設(shè)有一組n個(gè)訓(xùn)練樣本這里I表示一張圖像,a是圖像中所有人的行為標(biāo)簽的集合。如果圖像包含m個(gè)個(gè)體,則a=[a1,…,am]。矩陣E=(eij)∈{0,1}m×m是一個(gè)嚴(yán)格的上三角矩陣,表示圖像中所有個(gè)體的相互關(guān)系結(jié)構(gòu)。具體地,eij=0意味著在人i和人j之間沒(méi)有交互,而eij=1指示人i和人j彼此交互。事實(shí)上,a和E可以被認(rèn)為是對(duì)人類活動(dòng)的直接描述。通過(guò)這種表示,識(shí)別系統(tǒng)不僅能夠回答問(wèn)題1)他們?cè)谧鍪裁矗夷軌蚧卮饐?wèn)題2)它們之間的相互作用關(guān)系是什么。
為了預(yù)測(cè)a和E,最大化下面的潛在函數(shù):
這里w=[w0,w1,w2]T是訓(xùn)練期間要學(xué)習(xí)的模型參數(shù)。函數(shù)φ(·),μ(·)和ψ(·)用于計(jì)算三種類型的聯(lián)合特征。φ給出了觀察信息(即圖像)和行為標(biāo)簽的聯(lián)合特征;μ計(jì)算所述圖像和所述交互標(biāo)簽e的聯(lián)合特征;ψ輸出圖像和兩個(gè)個(gè)體的行為標(biāo)簽a的聯(lián)合特征表示。在該公式中,任何成對(duì)特征可以通過(guò)將二進(jìn)制變量eij打開(kāi)(eij=1或關(guān)閉(eij=0)來(lái)包括或排除。直觀地,從上述模型中排除成對(duì)項(xiàng)(通過(guò)設(shè)置e=0)表示相關(guān)人沒(méi)有彼此交互。包括這樣的項(xiàng)不是信息性的,并且將使模型的訓(xùn)練復(fù)雜化。這個(gè)模型的目的是獲得行為標(biāo)簽和交互關(guān)系的聯(lián)合優(yōu)化。例如,如果知道人u和人v正在交互,將他們的行為標(biāo)簽預(yù)測(cè)為(握手-握手)而不是(握手-吻)更合理。
公式(1)在兩個(gè)方面表現(xiàn)新穎。首先,添加新項(xiàng)(即第二項(xiàng))來(lái)促進(jìn)交互結(jié)構(gòu)的學(xué)習(xí)。這種簡(jiǎn)單的修改使得能夠更好地識(shí)別個(gè)人行為和交互關(guān)系,部分是因?yàn)榕c之前僅使用高級(jí)特征的方法相比,它結(jié)合高級(jí)信息(即公式(1)中的第三項(xiàng))和低級(jí)特征(即第二項(xiàng))來(lái)明確地估計(jì)結(jié)構(gòu)。第二,用深層卷積神經(jīng)網(wǎng)絡(luò)計(jì)算聯(lián)合特征,其能力在人類行為識(shí)別中沒(méi)有得到很好的探索。總的來(lái)說(shuō),此公式優(yōu)于公共數(shù)據(jù)集的最好方法。
2)特征表示
通過(guò)深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)到的特征和手工制作的特征相結(jié)合。使用空間網(wǎng)絡(luò)從圖像中的人體區(qū)域提取CNN特征??臻g網(wǎng)絡(luò)捕獲了靜止圖像的靜態(tài)外觀。由于其良好的性能,將空間網(wǎng)絡(luò)的fc6層的輸出作為深度特征。使用梯度直方圖和光流直方圖(HoG和HoF)特征來(lái)進(jìn)一步增強(qiáng)特征表示。HoF是從相鄰幀中提取的,這是對(duì)不捕獲運(yùn)動(dòng)線索的CNN特征和HoG特征的良好補(bǔ)充。為了計(jì)算HoF,提取扭曲光流。最后,CNN,HOG和HOF特征被連接以表示圖像中的個(gè)人行為或交互關(guān)系。使用這種特征為每個(gè)數(shù)據(jù)集訓(xùn)練兩個(gè)線性支持向量機(jī)(SVM)分類器,一個(gè)用于分類個(gè)人行為,另一個(gè)用于分類交互關(guān)系。注意,其目的是使用組合特征來(lái)計(jì)算公式(1)中的聯(lián)合特征。為此,計(jì)算
這里dα,d∈是用訓(xùn)練好的SVM分類器分類包含個(gè)人行為和交互關(guān)系得到的決策值表示的向量,并且所有運(yùn)算符表示基于向量的元素計(jì)算。
sα(a)表示一個(gè)人的行為為a的判別分?jǐn)?shù)。s∈(e)表示1兩個(gè)人有交互的判別分值(當(dāng)e=1時(shí))或不在交互的分值(當(dāng)e=0時(shí))。公式(1)中的聯(lián)合特征由下式定義:
φ(I,a)=1α(a)·Sα(a) (4)
μ(I,a)=1∈(e)·S∈(e) (5)
ψ(I,ai,aj)=1τ(ai,aj,pi,pj,rij) (6)
這里1α(a)∈{0,1}a是指示符向量,在位置a時(shí)取值1,,其他位置取0的。同樣,1∈(e)在位置e取1,在別處取0,1τ(·)在索引位置ai,aj,pi,pj,rij時(shí)取1,其中pi,pj表示人i和人j的姿勢(shì),rij表示人j與人i的相對(duì)位置。在本文中,將人體姿勢(shì)分為五類,即p∈{profile left,profile right,frontal left,frontal right,backwards}。為了計(jì)算rij,將圍繞人j的區(qū)域劃分為六個(gè)子區(qū)域,并且每個(gè)子區(qū)域被分配{overlap,adjacentleft(right),nearleft(right),far}中的一個(gè)相對(duì)位置。rij是包圍邊界框i的中心的子區(qū)域的ID。
3)訓(xùn)練模型的參數(shù)
給定n個(gè)訓(xùn)練樣本,目的是訓(xùn)練用于行為識(shí)別的判別模型。如通常所做的,使用以下的max-margin-style公式進(jìn)行訓(xùn)練:
這里ξ表示松弛變量,C是確定增加模型復(fù)雜性和減少對(duì)訓(xùn)練數(shù)據(jù)的不正確預(yù)測(cè)之間的權(quán)衡的常數(shù)。確定“最佳”C的常見(jiàn)策略是交叉驗(yàn)證。標(biāo)簽成本,即不正確預(yù)測(cè)的懲罰由下式給出:
其中δ(·)是指示功能,如果測(cè)試條件為真則給出1,否則輸出0。
把這種公式稱為聯(lián)合結(jié)構(gòu)和結(jié)構(gòu)化學(xué)習(xí)(JSSL),因?yàn)樗蛩阃瑫r(shí)學(xué)習(xí)結(jié)構(gòu)標(biāo)簽a和交互結(jié)構(gòu)E。很容易發(fā)現(xiàn)公式(7)是凸的,可以通過(guò)切平面算法或基于子梯度的方法有效地求解w。
4)訓(xùn)練和預(yù)測(cè)中的相關(guān)推理
在訓(xùn)練的每次迭代期間,必須針對(duì)每個(gè)訓(xùn)練示例解決以下?lián)p失增強(qiáng)推理:
由于潛在函數(shù)F的表達(dá),成本項(xiàng)Δ可以被吸收到公式(1)中的兩個(gè)一元項(xiàng)中。因此,問(wèn)題(10)與下面的優(yōu)化是同質(zhì)的:
知道訓(xùn)練的模型w,這個(gè)優(yōu)化實(shí)際上是預(yù)測(cè)問(wèn)題。換句話說(shuō),可以使用相同的算法來(lái)解決損失增加的推斷和預(yù)測(cè)問(wèn)題。然而,這種優(yōu)化通常是NP完全問(wèn)題。引入多個(gè)輔助變量和約束,可以把它近似到雙線性規(guī)劃問(wèn)題。本發(fā)明提出一個(gè)簡(jiǎn)單而有效的算法來(lái)近似解決這樣的問(wèn)題。
本發(fā)明的算法交替搜索標(biāo)簽空間和結(jié)構(gòu)空間。在每次迭代期間,算法依次執(zhí)行以下兩個(gè)步驟:
1.固定結(jié)構(gòu)并通過(guò)循環(huán)信任傳播解決剩余問(wèn)題,以找到的解。
2.固定標(biāo)簽并解決剩余的整數(shù)線性規(guī)劃(1LP)問(wèn)題(11),找到的解。
其中a*表示在第一步驟中發(fā)現(xiàn)的解。為了確保稀疏性,我們向(11)中添加兩種類型的約束,這導(dǎo)致另外兩個(gè)ILP問(wèn)題:
其中||Z||0是Z的L0范數(shù)。
實(shí)際上,(11),(12),(13)分別是沒(méi)有約束的,最大邊數(shù)約束和節(jié)點(diǎn)度約束的ILP問(wèn)題,分別用ILP-NoC,ILP-MNE和ILP-NDC表示。很容易發(fā)現(xiàn)ILP-NoC和ILP-MNE是容易解決的,總是能找到確切的解決方案。
本發(fā)明近似解決ILP-NDC。該算法維護(hù)交互的候選陣列。對(duì)于每對(duì)(i,j)i,j∈{1,…,m},i<j,考慮輸出
如果V0>V1,設(shè)置eij=0,否則把(i,j)放到候選隊(duì)列中。接下來(lái),根據(jù)候選的V1值以降序?qū)?shù)組進(jìn)行排序。然后從頭到尾訪問(wèn)這個(gè)數(shù)組。對(duì)于當(dāng)前對(duì)(s,t),如果在ILP-NDC中沒(méi)有違反約束,設(shè)置est=1;否則設(shè)置est=0。
本發(fā)明提出了一個(gè)聯(lián)合學(xué)習(xí)交互結(jié)構(gòu)和結(jié)構(gòu)化標(biāo)簽的方法。本發(fā)明的公式基于低級(jí)圖像信息和高級(jí)上下文信息,以監(jiān)督的方式明確地學(xué)習(xí)人類交互關(guān)系。本發(fā)明已經(jīng)包括通過(guò)深層卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征,并且發(fā)現(xiàn)這樣的特征能夠增強(qiáng)對(duì)人類個(gè)人行為和交互的識(shí)別。使用max-margin-style訓(xùn)練方法來(lái)學(xué)習(xí)模型參數(shù),并提出了一種有效的算法來(lái)解決相關(guān)的推理問(wèn)題。