本發(fā)明涉及一種情感識(shí)別方法,尤其是涉及一種基于表情和行為雙模態(tài)結(jié)合的人類自然狀態(tài)情感識(shí)別方法。
背景技術(shù):
豐富的情感表達(dá)是人類相互了解的有效途徑,更是人類區(qū)別于其他生物的特質(zhì)之一。隨著計(jì)算機(jī)技術(shù)的發(fā)展,利用機(jī)器實(shí)現(xiàn)各種場(chǎng)景中人類情感的自動(dòng)識(shí)別將越來(lái)越多的影響人類的日常生活,也是人工智能領(lǐng)域研究的關(guān)鍵課題之一。它在心理學(xué)、臨床醫(yī)學(xué)、智能人機(jī)互動(dòng)、社會(huì)安全、遠(yuǎn)程教育、商業(yè)信息統(tǒng)計(jì)等領(lǐng)域都具有非常廣泛的應(yīng)用。人類情感的智能感知可通過(guò)圖像、語(yǔ)言、文本、姿態(tài)和生理信號(hào)等多種途徑,基于視覺(jué)信息的人類情感智能認(rèn)知不僅具有無(wú)接觸、適用范圍廣等特點(diǎn),且類似于人的情感捕獲方式,因此具有更加廣泛的發(fā)展前景和更加廣闊的應(yīng)用領(lǐng)域。
近年來(lái)已有的人類情感視覺(jué)智能認(rèn)知方法主要依據(jù)正面人臉表情,雖存在少量針對(duì)自然狀態(tài)下各種角度人臉表情的情感識(shí)別方法,但其正確識(shí)別率都不超過(guò)50%。有研究顯示,在某些情況下,身體姿態(tài)傳遞的情感信息內(nèi)容比面部表情更為豐富。尤其是針對(duì)“害怕”和“生氣”,“害怕”和“高興”這些基于面部表情常常出現(xiàn)混淆的情緒進(jìn)行分辨時(shí),行為姿態(tài)能夠給出更為正確的判斷。但是,行為姿態(tài)的情感表達(dá)方式受年齡、性別及文化影響存在差異,單純依據(jù)行為姿態(tài)實(shí)現(xiàn)情感認(rèn)知識(shí)別率較低。目前,尚沒(méi)有自然狀態(tài)下單純依據(jù)行為姿態(tài)進(jìn)行情感認(rèn)知的研究成果發(fā)表。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于表情和行為雙模態(tài)結(jié)合的人類自然狀態(tài)情感識(shí)別方法,能夠有效提高在自然狀態(tài)下的人的常見(jiàn)情感(包括高興、傷心、驚訝、恐懼、生氣、厭惡六種)的機(jī)器視覺(jué)認(rèn)知正確率,具有識(shí)別精度高且速率快、拍攝限制少、容易實(shí)現(xiàn)等優(yōu)點(diǎn)。
本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):
一種基于表情和行為雙模態(tài)結(jié)合的人類自然狀態(tài)情感識(shí)別方法,該方法的情感認(rèn)知對(duì)象為自然狀態(tài)拍攝的人,而非實(shí)驗(yàn)樣本中擺拍狀態(tài)的人,該方法包括以下步驟:
S1:建立兩級(jí)分類模式的情感認(rèn)知架構(gòu),其中第一級(jí)分類模式為情感認(rèn)知粗分類,第二級(jí)分類模式為情感認(rèn)知細(xì)分類,同時(shí)通過(guò)大量圖像的脫機(jī)訓(xùn)練建立對(duì)應(yīng)情感認(rèn)知粗分類的人體軀干運(yùn)動(dòng)特征庫(kù)以及對(duì)應(yīng)情感認(rèn)知細(xì)分類的人臉表情特征庫(kù);
S2:對(duì)視頻輸入的自然姿態(tài)人體圖像進(jìn)行人體區(qū)域檢測(cè),并將檢測(cè)到的人體區(qū)域分為人臉子區(qū)域和人體軀干子區(qū)域;
S3:對(duì)步驟S2獲取的人體軀干子區(qū)域的圖像進(jìn)行特征點(diǎn)提取,并根據(jù)不同時(shí)刻各幀圖像內(nèi)的特征點(diǎn)獲取特征點(diǎn)運(yùn)動(dòng)軌跡,采用聚類方法由特征點(diǎn)運(yùn)動(dòng)軌跡獲取反映人體行為的主運(yùn)動(dòng)軌跡,從主運(yùn)動(dòng)軌跡中提取出人體軀干運(yùn)動(dòng)特征;
S4:基于人體軀干運(yùn)動(dòng)特征庫(kù),將步驟S3獲取的人體軀干運(yùn)動(dòng)特征與步驟S1獲取的人體軀干運(yùn)動(dòng)特征庫(kù)相匹配,獲得情感認(rèn)知粗分類結(jié)果;
S5:對(duì)步驟S2獲取的人臉子區(qū)域的圖像進(jìn)行人臉表情特征提?。?/p>
S6:以步驟S4獲取的情感認(rèn)知粗分類結(jié)果為基礎(chǔ),從步驟S1獲取的人臉表情特征庫(kù)查找與步驟S5獲取的人臉表情特征相匹配的人臉表情特征,輸出對(duì)應(yīng)查找出的人臉表情特征的情感認(rèn)知細(xì)分類結(jié)果。
所述情感認(rèn)知粗分類分為:興奮情緒、低落情緒、不確定情緒;
所述情感認(rèn)知細(xì)分類分為高興、驚訝、傷心、恐懼、生氣、厭惡;
在情感認(rèn)知粗分類中,將高興和驚訝劃分為興奮情緒,將傷心、恐懼、生氣和厭惡劃分為低落情緒,當(dāng)情感認(rèn)知粗分類結(jié)果為興奮情緒的概率和情感認(rèn)知粗分類結(jié)果為低落情緒的概率的差值低于設(shè)定的概率閾值時(shí),則該情感認(rèn)知粗分類結(jié)果判斷為不確定情緒。
所述設(shè)定的概率閾值取值為18%~22%。
以各幀圖像間的特征點(diǎn)運(yùn)動(dòng)向量為隱狀態(tài),所述人體軀干運(yùn)動(dòng)特征庫(kù)中包括與興奮情緒和低落情緒對(duì)應(yīng)的隱狀態(tài)時(shí)間變化模型。
所述步驟S3具體為:
301:對(duì)步驟S2獲取的人體軀干子區(qū)域的圖像進(jìn)行特征點(diǎn)提?。?/p>
302:將各幀圖像內(nèi)的相匹配的特征點(diǎn)逐幀連接后形成特征點(diǎn)軌跡;
303:根據(jù)任意兩個(gè)特征點(diǎn)軌跡在各幀圖像所屬特征點(diǎn)相對(duì)距離平均值進(jìn)行聚類,得到聚類后特征點(diǎn)軌跡的軌跡分類;
304:取各軌跡分類中所有特征點(diǎn)軌跡的各幀圖像所屬特征點(diǎn)平均坐標(biāo)位置為主軌跡特征點(diǎn),各主軌跡特征點(diǎn)逐幀連接后形成各軌跡分類的主運(yùn)動(dòng)軌跡;
305:從各軌跡分類的主運(yùn)動(dòng)軌跡中提取出人體軀干運(yùn)動(dòng)特征。
所述步驟302中根據(jù)設(shè)定的軌跡長(zhǎng)度閾值,刪除長(zhǎng)度小于軌跡長(zhǎng)度閾值的特征點(diǎn)軌跡。
所述步驟303中刪除各幀圖像中無(wú)法連續(xù)匹配的孤立聚類。
所述特征點(diǎn)表示為其中,si表示第i個(gè)特征點(diǎn)的坐標(biāo),表示第i個(gè)特征點(diǎn)在t時(shí)刻的運(yùn)動(dòng)速度向量。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
1)本發(fā)明方法建立兩級(jí)分類模式的情感認(rèn)知架構(gòu),由人體軀干運(yùn)動(dòng)特征獲得情感認(rèn)知粗分類結(jié)果,再結(jié)合情感認(rèn)知粗分類結(jié)果和人臉表情特征獲得情感認(rèn)知細(xì)分類結(jié)果,相比現(xiàn)有單一人臉特征識(shí)別的方式,本發(fā)明方法加入人體軀干運(yùn)動(dòng)特征,可以更精準(zhǔn)地識(shí)別出人類自然狀態(tài)下的情感,且相比現(xiàn)有全局搜索來(lái)識(shí)別的方式,本發(fā)明方法在得到粗分類的基礎(chǔ)上再進(jìn)行細(xì)分類,采用局部最優(yōu)的搜索方式,識(shí)別精度高且效率快,同時(shí)相比現(xiàn)有三種或三種以上特征識(shí)別的方式,本發(fā)明僅需要考慮表情和行為兩種模態(tài),涉及的參數(shù)更少,得到的識(shí)別結(jié)果依然很準(zhǔn)確,解決自然狀態(tài)下基于機(jī)器視覺(jué)的人類情感識(shí)別率較低的問(wèn)題。
2)本發(fā)明方法對(duì)情感被識(shí)別的人的活動(dòng)不存在任何影響。本發(fā)明方法在提取人體姿態(tài)特征時(shí)采用了軌跡特征,受拍攝角度影響較小,更好地提取出人體軀干運(yùn)動(dòng)特征;在提取人臉特征前進(jìn)行了人臉姿態(tài)的恢復(fù)和定位,則可適用于多種拍攝角度得到的人臉圖像,因此本發(fā)明方法對(duì)被識(shí)別人的活動(dòng)和拍攝角度沒(méi)有特殊要求,能夠適用于各種自然行為狀態(tài)下的人的情感識(shí)別,而現(xiàn)有情感識(shí)別方法大多只適用于正面人臉的擺拍樣本。
3)本發(fā)明方法在情感認(rèn)知粗分類中,建立容錯(cuò)機(jī)制,當(dāng)情感認(rèn)知粗分類結(jié)果為興奮情緒的概率和情感認(rèn)知粗分類結(jié)果為低落情緒的概率的差值低于設(shè)定的概率閾值時(shí),則該情感認(rèn)知粗分類結(jié)果判斷為不確定情緒,為后續(xù)細(xì)分類的精度提供可靠的保證。
4)本發(fā)明方法對(duì)特征點(diǎn)軌跡分別進(jìn)行聚類、求均值以及濾除誤差,使得從主運(yùn)動(dòng)軌跡中提取的人體軀干運(yùn)動(dòng)特征可以準(zhǔn)確地反應(yīng)人體自然狀態(tài)下的運(yùn)動(dòng)特征,受拍攝角度影響較小,為后續(xù)粗分類結(jié)果的精度提供可靠的保證。
5)本發(fā)明方法對(duì)拍攝視頻的清晰度沒(méi)有特別要求,可采用普通攝像頭拍攝。由于分類器最終基于人體姿態(tài)的特征點(diǎn)軌跡聚類特征,及人臉的LBP特征,因此不要求輸入高清圖像。
6)本發(fā)明方法適用于各種不同室內(nèi)室外環(huán)境拍攝的圖像。本發(fā)明方法提取的特征對(duì)光線不敏感,因此適用于室內(nèi)外不同環(huán)境。
7)整個(gè)識(shí)別過(guò)程由設(shè)備自動(dòng)完成,結(jié)果客觀快速。算法全自動(dòng),運(yùn)算過(guò)程不需要人為干預(yù)。
附圖說(shuō)明
圖1為本發(fā)明方法流程圖;
圖2為不同類型測(cè)試樣本對(duì)比示意圖;
其中,圖(2a)為正面臉部表情識(shí)別樣本示意圖,圖(2b)為實(shí)驗(yàn)室采集測(cè)試狀態(tài)人體情緒表達(dá)樣本示意圖,圖(2c)為本發(fā)明針對(duì)的自然狀態(tài)人體情緒表達(dá)樣本示意圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。本實(shí)施例以本發(fā)明技術(shù)方案為前提進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和具體的操作過(guò)程,但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。
如圖1所示,一種基于表情和行為雙模態(tài)結(jié)合的人類自然狀態(tài)情感識(shí)別方法包括以下步驟:
S1:建立兩級(jí)分類模式的情感認(rèn)知架構(gòu),其中:第一級(jí)分類模式為情感認(rèn)知粗分類,情感認(rèn)知粗分類分為:興奮情緒、低落情緒、不確定情緒;第二級(jí)分類模式為情感認(rèn)知細(xì)分類,情感認(rèn)知細(xì)分類分為高興、驚訝、傷心、恐懼、生氣、厭惡;在情感認(rèn)知粗分類中,將高興和驚訝劃分為興奮情緒,將傷心、恐懼、生氣和厭惡劃分為低落情緒,當(dāng)情感認(rèn)知粗分類結(jié)果為興奮情緒的概率和情感認(rèn)知粗分類結(jié)果為低落情緒的概率的差值低于設(shè)定的概率閾值時(shí),則該情感認(rèn)知粗分類結(jié)果判斷為不確定情緒,設(shè)定的概率閾值取值為18%~22%,本實(shí)施例中取20%;
同時(shí)收集包含完整人形區(qū)域的情感表達(dá)視頻,通過(guò)分析多個(gè)數(shù)據(jù)庫(kù)及網(wǎng)絡(luò)數(shù)據(jù)源中的情感自然表達(dá)場(chǎng)景,以及在日常生活中的實(shí)地拍攝記錄,確定固定視角下常見(jiàn)六種情感的肢體行為和臉部表情表達(dá)方式,收集不同角度的拍攝視頻圖像,如圖(2c)所示,通過(guò)大量圖像的脫機(jī)訓(xùn)練建立具有代表性的人體情感樣本序列集,具體包括:對(duì)應(yīng)情感認(rèn)知粗分類的人體軀干運(yùn)動(dòng)特征庫(kù)以及對(duì)應(yīng)情感認(rèn)知細(xì)分類的人臉表情特征庫(kù)。通過(guò)圖(2a)、(2b)、(2c)的對(duì)比,可知:相比圖(2a)的實(shí)驗(yàn)室里正臉情緒識(shí)別以及圖(2b)的實(shí)驗(yàn)室里固定擺放姿勢(shì)情緒識(shí)別,本發(fā)明方法針對(duì)的是自然狀態(tài)人體情緒識(shí)別問(wèn)題,是一種基于固定攝像頭觀測(cè)的針對(duì)自然狀態(tài)下的人類高興、傷心、驚訝、恐懼、生氣、厭惡六種情感采用雙模態(tài)實(shí)現(xiàn)的智能認(rèn)知方法。
其中,在情感認(rèn)知粗分類中,以各幀圖像間的特征點(diǎn)運(yùn)動(dòng)向量為隱狀態(tài),定義“興奮情緒”和“低落情緒”的隱狀態(tài)時(shí)間變化模型(即隱馬爾可夫模型),大量圖像訓(xùn)練隱狀態(tài)時(shí)間變化模型后得到人體軀干運(yùn)動(dòng)特征庫(kù)。
S2:輸入固定攝像頭采集的待檢測(cè)自然姿態(tài)人體圖像視頻,利用分類器SVM(Support Vector Machine,支持向量機(jī))學(xué)習(xí)并檢測(cè)圖像序列中的人形部分,區(qū)分人臉子區(qū)域和人體軀干子區(qū)域。
S3:對(duì)步驟S2獲取的人體軀干子區(qū)域的圖像進(jìn)行特征點(diǎn)提取,并根據(jù)不同時(shí)刻各幀圖像內(nèi)的特征點(diǎn)獲取特征點(diǎn)運(yùn)動(dòng)軌跡,采用聚類方法對(duì)特征點(diǎn)運(yùn)動(dòng)軌跡進(jìn)行聚類,連接同一軌跡聚類中各幀特征點(diǎn)聚類的中心形成反映人體行為的主運(yùn)動(dòng)軌跡,從主運(yùn)動(dòng)軌跡中提取出人體軀干運(yùn)動(dòng)特征。
步驟S3具體為:
301:在步驟S2獲取的人體軀干子區(qū)域中提取角點(diǎn),即特征點(diǎn)。
302:依據(jù)KLT(Kanade-Lucas-Tomasi)算法,將各幀圖像內(nèi)的相匹配的特征點(diǎn)逐幀連接后形成特征點(diǎn)軌跡,根據(jù)設(shè)定的軌跡長(zhǎng)度閾值,刪除長(zhǎng)度小于軌跡長(zhǎng)度閾值的特征點(diǎn)軌跡,即去除中途斷裂的過(guò)短軌跡,設(shè)定的軌跡長(zhǎng)度閾值以圖像的幀數(shù)為尺度;
幀中各特征點(diǎn)表示為其中,si表示第i個(gè)特征點(diǎn)的坐標(biāo),表示第i個(gè)特征點(diǎn)在t時(shí)刻的運(yùn)動(dòng)速度向量。
303:基于相關(guān)濾波(Coherent Filtering)算法,根據(jù)任意兩個(gè)特征點(diǎn)軌跡在各幀圖像所屬特征點(diǎn)相對(duì)距離平均值進(jìn)行聚類,刪除各幀圖像中無(wú)法連續(xù)匹配的孤立聚類,即去除各幀中無(wú)法連續(xù)匹配的孤立聚類,得到聚類后特征點(diǎn)軌跡的軌跡分類。
304:取各軌跡分類中所有特征點(diǎn)軌跡的各幀圖像所屬特征點(diǎn)平均坐標(biāo)位置為主軌跡特征點(diǎn),各主軌跡特征點(diǎn)逐幀連接后形成各軌跡分類的主運(yùn)動(dòng)軌跡。
305:從各軌跡分類的主運(yùn)動(dòng)軌跡中提取出人體軀干運(yùn)動(dòng)特征。
S4:基于人體軀干運(yùn)動(dòng)特征庫(kù),根據(jù)步驟S3獲取的人體軀干運(yùn)動(dòng)特征輸入HCRFs(hidden conditional random fields,隱條件隨機(jī)場(chǎng))分類器進(jìn)行情緒類型識(shí)別,輸出情感認(rèn)知粗分類結(jié)果。
S5:對(duì)步驟S2獲取的人臉子區(qū)域的圖像進(jìn)行姿態(tài)定位和正面姿態(tài)恢復(fù),提取人臉表情特征。
步驟S5具體為:
501:檢測(cè)人臉區(qū)域,利用3D人臉模型進(jìn)行3D到2D圖像的最優(yōu)投影匹配,確定視頻幀中人臉的2D定位點(diǎn)坐標(biāo),根據(jù)臉部定位點(diǎn)坐標(biāo)確定鼻子、眼角、嘴角定位點(diǎn),以鼻尖、眼角、嘴角的定位坐標(biāo)為基準(zhǔn)進(jìn)行仿射變換,完成臉部缺失區(qū)域的恢復(fù),得到正面姿態(tài)恢復(fù)后的正面臉部圖像。
基于3DMM的人臉姿態(tài)定位及恢復(fù):3DMM指3D形變模型,是描述3D臉部區(qū)域最為成功的人臉模型之一。為了實(shí)現(xiàn)3DMM與臉部2D圖像的匹配,首先需要采用弱透視投影的方法將臉部模型投影到圖像平面中:
s2d=fPR(α,β,γ)(S+t3d)
其中,s2d是3D點(diǎn)在圖像平面中的坐標(biāo),f為尺度因子,P為正交投影矩陣R為3×3旋轉(zhuǎn)矩陣,S為3DMM臉部模型,t3d為轉(zhuǎn)換向量,α,β,γ為三維坐標(biāo)。整個(gè)轉(zhuǎn)換過(guò)程為通過(guò)參數(shù)估計(jì)實(shí)現(xiàn)3D點(diǎn)在2D平面的真實(shí)投影坐標(biāo)s2dt與s2d的距離最小化。
502:基于正面臉部圖像,將臉部表情變化時(shí)間幀作為z軸建立臉部表情三維空間,對(duì)空間中所有臉部表情進(jìn)行大小和位置歸一化預(yù)處理,采用LBP-TOP(Local Binary Patterns from Three Orthogonal Panels)算子提取空間特征,基于空間金字塔匹配模型實(shí)現(xiàn)特征描述,輸出人臉表情特征。
空間金字塔匹配模型采用基礎(chǔ)特征提取、抽象、再抽象的過(guò)程實(shí)現(xiàn)特征的自適應(yīng)選擇。參考階層式匹配追蹤算法(HMP)的設(shè)計(jì),采用三層架構(gòu)的形式。首先,特征提取區(qū)域?yàn)橐欢ù笮〉臅r(shí)空三維立方體,輸入值為立方體中i×n×k大小的像素三維鄰域。采用基于三維梯度的特征描述子實(shí)現(xiàn)各三維鄰域的基礎(chǔ)特征描述,由此建立自學(xué)習(xí)稀疏編碼特征架構(gòu)的第一層:“特征描述層”。設(shè)重構(gòu)矩陣為M維,建立空間稀疏編碼描述,并在每一次編碼描述后更新重構(gòu)矩陣。實(shí)現(xiàn)第二層“編碼層”。在第三層“匯聚層”,合并所有像素鄰域,通過(guò)空間金字塔匯聚算法(Spatial Pyramid Pooling)建立歸一化稀疏統(tǒng)計(jì)特征向量描述。
S6:在情感粗分類的基礎(chǔ)上,選取對(duì)應(yīng)步驟S4獲取的情感認(rèn)知粗分類結(jié)果的人臉表情特征庫(kù),輸入步驟S5獲取的基于空間金字塔匹配模型的人臉表情特征描述,從選取的人臉表情特征庫(kù)查找與人臉表情特征相匹配的人臉表情特征,利用條件隨機(jī)域(CRFs,Conditional Random Fields)分類器輸出對(duì)應(yīng)查找出的人臉表情特征的情感認(rèn)知細(xì)分類結(jié)果,完成最終情感的高興、傷心、驚訝、恐懼、生氣、厭惡分類。