本發(fā)明涉及到特征提取方法和分類判別,屬于模式識別領(lǐng)域,具體地說是一種基于多特征描述及D-S證據(jù)融合的情感識別方法。
背景技術(shù):
現(xiàn)如今,計算機視覺和人工智能發(fā)展相當迅速,人機交互應(yīng)運而生,人類迫切希望計算機具有同人類一樣的感情,可以理解人類的情感,這就要求將情感維度引入人機交互,使計算機具有情感感知和識別能力。
情感的表達可以通過多種方式實現(xiàn),主要包括面部表情、姿勢動作、言語等。其中,面部表情是通過采集人臉面部圖像獲得,姿勢動作是通過手部、頭部等運動產(chǎn)生,言語也是情感表達的一個重要渠道。人類通過多種模態(tài)與外界進行情感交流,與此同時,外界也通過不同方式獲知人類的情感狀態(tài)。
既然人類的情感狀態(tài)是通過多種方式表達的,那么僅通過單模態(tài)進行情感識別就會存在一定的局限性,雙模態(tài)或者多種模態(tài)的情感識別正逐漸成為目前研究的主流趨勢。
體積局部二值模式(Volume Local Binary Pattern,VLBP)是一種被廣泛應(yīng)用于視頻紋理提取的描述算法,具有對光照及情感變化的魯棒性。但是VLBP特征是由二進制序列的十進制編碼得到的,這樣會使得語義上相似的特征經(jīng)十進制編碼后相差很大,導致相似的特征無法落入直方圖鄰近的區(qū)域,最終導致直方圖分布過于稀疏。同時,VLBP特征的維數(shù)也比較大,特征維數(shù)隨鄰域個數(shù)呈指數(shù)增長。這些因素都會使得VLBP特征的性能大大降低。
技術(shù)實現(xiàn)要素:
本發(fā)明為避免上述現(xiàn)有技術(shù)存在的不足之處,提出一種復合時空特征的雙模態(tài)視頻情感識別方法,以期利用復合時空特征對情感視頻進行充分描述,降低時間復雜度,提高情感識別的準確率。
本發(fā)明為解決技術(shù)問題采用如下技術(shù)方案:
本發(fā)明一種復合時空特征的雙模態(tài)視頻情感識別方法的特點是按如下步驟進行:
步驟1、對人臉表情與上身姿態(tài)數(shù)據(jù)庫中已知情感類別的Q個情感視頻進行預處理
步驟1.1、獲得任意第q個情感視頻的每一幀圖像,并進行歸一化處理和直方圖均衡化處理,從而得到像素為L1×W1的第i個上身姿態(tài)圖像集,從而獲得包含Q個上身姿態(tài)圖像集的集合;1≤q≤Q;
步驟1.2、利用Haar-like小波特征和積分圖方法對所述第q個上身姿態(tài)圖像集中的每一幅圖像進行人臉區(qū)域檢測,并對檢測到的人臉區(qū)域采用雙向灰度積分投影法進行眼睛定位,再對定位后的人臉區(qū)域進行歸一化處理和直方圖均衡化處理,從而獲得像素為L2×W2的第q個人臉表情圖像集;從而獲得包含Q個人臉表情圖像集的集合;
步驟1.3、利用k-means聚類算法將所述第q個上身姿態(tài)圖像集中的所有圖像聚為k類,分別選取k類的k幅中心圖像組成第q個上身姿態(tài)圖像序列,從而獲得包含Q個上身姿態(tài)圖像序列的集合;k≥3;
利用k-means聚類算法將所述第q個人臉表情圖像集中的所有圖像聚為k類,分別選取k類的k幅中心圖像組成第q個人臉表情圖像序列,從而獲得包含Q個人臉表情圖像序列的集合;
步驟1.4、以所述第q個上身姿態(tài)圖像序列作為第q個上身姿態(tài)樣本,以包含Q個上身姿態(tài)圖像序列的集合作為上身姿態(tài)樣本集;
以所述第q個人臉表情圖像序列作為第q個人臉表情樣本,以包含Q個人臉表情圖像序列的集合作為人臉表情樣本集;
從所述上身姿態(tài)樣本集中選取N個上身姿態(tài)樣本作為上身姿態(tài)訓練集;剩余Q-N作為上身姿態(tài)測試集;1<N<Q;
從所述人臉表情樣本集中選取N個上身姿態(tài)樣本作為人臉表情訓練集;剩余Q-N作為人臉表情測試集;
步驟2、時空局部三值模式矩的特征提取
步驟2.1、以所述上身姿態(tài)測試集和所述人臉表情測試集中的任意一個包含k幅中心圖像的樣本作為一個時空體;
將所述時空體中的每一幅中心圖像進行相同大小的均勻分塊,得到W個分塊;并將每一幅中心圖像的相同位置上的分塊組成包含k個分塊的子時空體,從而W個子時空體;
步驟2.2、計算任意一個子時空體中第t個分塊的中心像素值gt(i,j)的能量值EASM,從而獲得任意一個子時空體的第t個分塊的所有中心像素值的能量值;進而獲得所有子時空體的所有分塊的所有中心像素值的能量值,i=1,2,…,L1或i=1,2,…,L2;j=1,2,…,W1或j=1,2,…,W2;t=2,3,…,k-1;
步驟2.2.1、以中心像素值gt(i,j)為中心的p鄰域窗口及第t-1個和第t+1個分塊的像素窗口構(gòu)成p鄰域像素值向量0≤p≤7;
步驟2.2.2、利用式(1)計算第m個分塊上的p鄰域窗口中第n個鄰域的像素值與中心像素值gt(i,j)之間的對比度值
式(1)中,表示第m個分塊上的p鄰域窗口的第n個鄰域的像素值;n=0,1,…,p-1;
m=t-1,t,t+1;
步驟2.2.3、統(tǒng)計中心像素值gt(i,j)的對比度值,并利用式(2)求取均值
步驟2.2.4、利用式(3)計算方差S:
步驟2.2.5、利用式(4)近似估計閾值ε:
步驟2.2.6、利用式(5)將所述p鄰域像素值向量T進行二值化處理,獲得像素二值向量:
式(5)中,s(x)表示自變量為x的三值化函數(shù),并有:
步驟2.2.7、利用式(7)將所述像素二值向量V表示成一個3×p矩陣M:
步驟2.2.8、對所述矩陣M縱向統(tǒng)計字符的跳變次數(shù),得到矩陣M的灰度共生矩陣其中,au,v表示從u跳變到v的次數(shù);u,v={-1,0,1};
步驟2.2.9、利用式(8)計算能量表達式EASM:
步驟2.3、獲得所述時空體的TSLTPM直方圖特征;
步驟2.3.1、定義內(nèi)循環(huán)變量w,初始化t=2;
步驟2.3.2、初始化w=1;
步驟2.3.3、對第w個子時空體的第t分塊的中心像素值的能量值按升序進行排序,并對排序后的每一種能量值的個數(shù)進行統(tǒng)計,從而獲得第w個子時空體中第t個分塊的TSLTPM直方圖特征;
步驟2.3.4、判斷w=1是否成立,若成立,則將w+1賦值給w后,返回步驟2.3.3執(zhí)行,否則,將第w個子時空體的第t個分塊的TSLTPM直方圖特征與第w-1個子時空體的第t個分塊的TSLTPM直方圖特征進行級聯(lián)后,再執(zhí)行步驟2.3.5;
步驟2.3.5、將w+1賦值給w后,判斷w>W(wǎng)是否成立,若成立,執(zhí)行步驟2.3.6;否則,返回步驟2.3.3;
步驟2.3.6、將t+1賦值給t后,判斷t>k-1是否成立,若成立,則執(zhí)行步驟2.3.7;否則,返回步驟2.3.2;
步驟2.3.7、判斷t=2是否成立,若成立,則將t+1賦值給t后,返回步驟2.3.2執(zhí)行,否則,將W個子時空體的第t個分塊的TSLTPM直方圖特征與W個子時空體的第t-1個分塊的TSLTPM直方圖特征進行級聯(lián)后,再執(zhí)行步驟2.3.8;
步驟2.3.8、將t+1賦值給t后,判斷t>k-1是否成立,若成立,執(zhí)行步驟2.4;否則,返回步驟2.3.2;
步驟2.4、重復步驟2.1~步驟2.3,從而獲得所述上身姿態(tài)樣本集和所述人臉表情樣本集中所有樣本的TSLTPM直方圖特征;
步驟3、三維梯度方向直方圖的特征提??;
步驟3.1、計算任意一個子時空體中第t個分塊的中心像素點的灰度值g(i,j,t)的HOG特征值,從而獲得任意一個子時空體的第t個分塊的所有中心像素點的灰度值的HOG特征值;進而獲得所有子時空體的所有分塊的所有中心像素點的灰度值的HOG特征值;
步驟3.1.1、計算任意一個子時空體中第t個分塊的中心像素點的灰度值g(i,j,t)g(i,j,t)的梯度值;
步驟3.1.2、計算中心像素點的灰度值g(i,j,t)的梯度幅值;
步驟3.1.3、計算中心像素點的灰度值g(i,j,t)的梯度方向;
步驟3.2、獲得所述時空體的3DHOG直方圖特征;
步驟3.2.1、將[0,360°]平均劃分為N個方向,并初始化t=2;
步驟3.2.2、初始化w=1;
步驟3.2.3、按照N×3個方向量化區(qū)間對第w個子時空體的第t分塊的中心像素點的灰度值g(i,j,t)的梯度幅值進行投票統(tǒng)計,從而得到第w個子時空體中第t個分塊的3DHOG直方圖特征;
步驟3.2.4、判斷w=1是否成立,若成立,則將w+1賦值給w后,返回步驟3.2.3執(zhí)行,否則,將第w個子時空體的第t個分塊的3DHOG直方圖特征與第w-1個子時空體的第t個分塊的3DHOG直方圖特征進行級聯(lián)后,再執(zhí)行步驟3.2.5;
步驟3.2.5;將w+1賦值給w后,判斷w>W(wǎng)是否成立,若成立,執(zhí)行步驟3.2.6;否則,返回步驟3.2.3;
步驟3.2.6、將t+1賦值給t后,判斷t>k-1是否成立,若成立,則執(zhí)行步驟3.2.7;否則,返回步驟3.2.2;
步驟3.2.7、判斷t=2是否成立,若成立,則將t+1賦值給t后,返回步驟3.2.2執(zhí)行,否則,將W個子時空體的第t個分塊的3DHOG直方圖特征與W個子時空體的第t-1個分塊的3DHOG直方圖特征進行級聯(lián)后,再執(zhí)行步驟3.2.8;
步驟3.2.8、將t+1賦值給t后,判斷t>k-1是否成立,若成立,執(zhí)行步驟3.3;否則,返回步驟3.2.2;
步驟3.3、重復步驟3.1和步驟3.2,從而獲得所述上身姿態(tài)樣本集和所述人臉表情樣本集中所有樣本的3DHOG直方圖特征;
步驟4、上身姿態(tài)復合時空特征集和人臉表情復合時空特征集的構(gòu)造;
步驟4.1、將所述上身姿態(tài)樣本集中的任一樣本的TSLTPM直方圖特征和3DHOG直方圖特征進行級聯(lián),從而構(gòu)成相應(yīng)樣本的上身姿態(tài)復合時空特征;進而獲得上身姿態(tài)復合時空特征集;
步驟4.2、將所述人臉表情樣本集中的任一樣本的TSLTPM直方圖特征和3DHOG直方圖特征進行級聯(lián),從而構(gòu)成相應(yīng)樣本的人臉表情復合時空特征;進而獲得人臉表情復合時空特征集;
步驟5、使用D-S證據(jù)理論判決規(guī)則對復合時空特征測試集進行分類;
步驟5.1、計算所述上身姿態(tài)復合時空特征測試集中任意一個測試樣本的上身姿態(tài)復合時空特征與所述上身姿態(tài)復合時空特征訓練集中每一個訓練樣本的上身姿態(tài)復合時空特征的歐式距離;從而獲得每一類情感類別的上身姿態(tài)最小歐式距離;
步驟5.2、對每一類情感類別的上身姿態(tài)最小歐式距離進行歸一化處理,得到歸一化后的上身姿態(tài)最小歐式距離;
步驟5.3、將每一類情感類別的歸一化后的上身姿態(tài)最小歐式距離作為每一類情感類別的上身姿態(tài)基本概率分配值;
步驟5.4、重復步驟5.1~步驟5.3,同樣獲得每一類情感類別的人臉表情基本概率分配值;
步驟5.5、將所有情感類別的上身姿態(tài)基本概率分配值和人臉表情基本概率分配值用D-S證據(jù)理論進行融合,得到融合后的每一類情感類別的基本概率分配函數(shù)值;
步驟5.6、選取最大基本概率分配函數(shù)值所對應(yīng)的情感類別作為測試樣本的情感類別。
與已有技術(shù)相比,本發(fā)明的有益效果體現(xiàn)在:
1、本發(fā)明從時間和空間角度進行考慮,將視頻中的人臉表情和上身姿態(tài)看成由每幀圖像沿時間軸堆疊而成的三維時空體;提出人臉表情結(jié)合上身姿態(tài)的雙模態(tài)情感識別方法,克服了單一模態(tài)情感識別的局限性,從而得到更加可靠的情感識別結(jié)果。
2、本發(fā)明從視頻幀的原始圖像中提取出表情序列和姿態(tài)序列,可以不用對其進行目標追蹤、分割等一系列常規(guī)視頻圖像處理的環(huán)節(jié),就可以達到較好的實驗效果,從而極大地降低了時間復雜度和計算復雜度。
3、本發(fā)明從視頻幀序列中直接提取時空特征,不需要對視頻幀時間對齊,避免了視頻幀序列持續(xù)時間不同所造成的后果,同時特征維數(shù)小,極大地減少了計算量,對光照表現(xiàn)一定的魯棒性等特性。
4、本發(fā)明針對視頻情感識別中存在運算復雜度高的缺點,提出一種基于時空局部二值模式矩的視頻特征提取方法;該方法可以快速提取視頻圖像的時空特征,維數(shù)低,且能有效識別情感狀態(tài)。同時,與三維方向梯度直方圖特征組合成復合時空特征來描述情感視頻,可以有效提取圖像邊緣和方向信息,彌補了單一特征的局限性,形成很好的互補模式。
5、本發(fā)明利用D-S證據(jù)理論對來自人臉表情和上身姿態(tài)兩種模態(tài)的數(shù)據(jù)信息進行融合,并使用曲線擬合來構(gòu)造基本概率分配函數(shù)(BPA),能夠有效弱化信息的不完整性及錯誤數(shù)據(jù)對識別的不良影響,克服了單一模態(tài)的局限性,使得系統(tǒng)最終獲得了較高的識別率和可靠性。
附圖說明
圖1為本發(fā)明系統(tǒng)流程圖;
圖2為現(xiàn)有技術(shù)中人臉檢測示意圖;
圖3為現(xiàn)有技術(shù)直方圖均衡化示意圖;
圖4a為本發(fā)明面部表情TSLTPM特征計算過程示意圖;
圖4b為本發(fā)明面部表情3DHOG特征計算過程示意圖。
圖5為現(xiàn)有技術(shù)中FABO雙模態(tài)情感數(shù)據(jù)庫的部分樣本圖;
圖6為本發(fā)明幀集合大小與平均識別率關(guān)系圖;
圖7為本發(fā)明分塊大小與平均識別率關(guān)系圖。
具體實施方式
本實施例中,如圖1所示,一種復合時空特征的雙模態(tài)視頻情感識別方法,包括如下步驟:1對現(xiàn)有體積局部二值模式算法擴展成時空三值模式,獲取人臉表情和上身姿態(tài)的時空局部三值模式矩紋理特征;2為彌補紋理特征缺乏圖像邊緣和方向信息的表達,本發(fā)明進一步融合三維梯度方向直方圖特征來增強對情感視頻的描述,將兩種特征組合成復合時空特征;3使用D-S證據(jù)聯(lián)合規(guī)則將兩種模態(tài)的信息進行融合,獲得情感識別結(jié)果。具體的說是按如下步驟進行:
步驟1、對人臉表情與上身姿態(tài)數(shù)據(jù)庫中已知情感類別的Q個情感視頻進行預處理
步驟1.1、獲得任意第q個情感視頻的每一幀圖像,并進行歸一化處理和直方圖均衡化處理,從而得到像素為L1×W1的第i個上身姿態(tài)圖像集,從而獲得包含Q個上身姿態(tài)圖像集的集合;1≤q≤Q;
步驟1.2、利用Haar-like小波特征和積分圖方法對第q個上身姿態(tài)圖像集中的每一幅圖像進行人臉區(qū)域檢測,并對檢測到的人臉區(qū)域采用雙向灰度積分投影法進行眼睛定位,再對定位后的人臉區(qū)域進行歸一化處理和直方圖均衡化處理,從而獲得像素為L2×W2的第q個人臉表情圖像集;從而獲得包含Q個人臉表情圖像集的集合如圖2和圖3所示;
步驟1.3、利用k-means聚類算法將第q個上身姿態(tài)圖像集中的所有圖像聚為k類,分別選取k類的k幅中心圖像組成第q個上身姿態(tài)圖像序列,從而獲得包含Q個上身姿態(tài)圖像序列的集合;k≥3;
利用k-means聚類算法將第q個人臉表情圖像集中的所有圖像聚為k類,分別選取k類的k幅中心圖像組成第q個人臉表情圖像序列,從而獲得包含Q個人臉表情圖像序列的集合;
步驟1.4、以第q個上身姿態(tài)圖像序列作為第q個上身姿態(tài)樣本,以包含Q個上身姿態(tài)圖像序列的集合作為上身姿態(tài)樣本集;
以第q個人臉表情圖像序列作為第q個人臉表情樣本,以包含Q個人臉表情圖像序列的集合作為人臉表情樣本集;
從上身姿態(tài)樣本集中選取N個上身姿態(tài)樣本作為上身姿態(tài)訓練集;剩余Q-N作為上身姿態(tài)測試集;1<N<Q;
從人臉表情樣本集中選取N個上身姿態(tài)樣本作為人臉表情訓練集;剩余Q-N作為人臉表情測試集;
步驟2、時空局部三值模式矩的特征提取
現(xiàn)有技術(shù)體積局部二值模式應(yīng)用到視頻幀特征提取上,特征維數(shù)大,對光照及噪聲魯棒性差等問題,本發(fā)明提出一種新的特征描述算法-時空局部三值模式矩(temporal-spatial local ternary pattern moment,TSLTPM);
步驟2.1、以上身姿態(tài)測試集和人臉表情測試集中的任意一個包含k幅中心圖像的樣本作為一個時空體;
將時空體中的每一幅中心圖像進行相同大小的均勻分塊,得到W個分塊;并將每一幅中心圖像的相同位置上的分塊組成包含k個分塊的子時空體,從而W個子時空體;
步驟2.2、計算任意一個子時空體中第t個分塊的中心像素值gt(i,j)的能量值EASM,從而獲得任意一個子時空體的第t個分塊的所有中心像素值的能量值;進而獲得所有子時空體的所有分塊的所有中心像素值的能量值,i=1,2,…,L1或i=1,2,…,L2;j=1,2,…,W1或j=1,2,…,W2;t=2,3,…,k-1;
步驟2.2.1、以中心像素值gt(i,j)為中心的p鄰域窗口及第t-1個和第t+1個分塊的像素窗口構(gòu)成p鄰域像素值向量0≤p≤7;
步驟2.2.2、利用式(1)計算第m個分塊上的p鄰域窗口中第n個鄰域的像素值與中心像素值gt(i,j)之間的對比度值
式(1)中,表示第m個分塊上的p鄰域窗口的第n個鄰域的像素值;n=0,1,…,p-1;
m=t-1,t,t+1;
步驟2.2.3、統(tǒng)計中心像素值gt(i,j)的對比度值,并利用式(2)求取均值
步驟2.2.4、利用式(3)計算方差S:
步驟2.2.5、利用式(4)近似估計閾值ε:
步驟2.2.6、利用式(5)將p鄰域像素值向量T進行二值化處理,獲得像素二值向量:
式(5)中,s(x)表示自變量為x的三值化函數(shù),并有:
步驟2.2.7、利用式(7)將像素二值向量V表示成一個3×p矩陣M:
步驟2.2.8、對矩陣M縱向統(tǒng)計字符的跳變次數(shù),得到矩陣M的灰度共生矩陣其中,au,v表示從u跳變到v的次數(shù);u,v={-1,0,1};
步驟2.2.9、利用式(8)計算能量表達式EASM:
步驟2.3、獲得時空體的TSLTPM直方圖特征;
步驟2.3.1、定義內(nèi)循環(huán)變量w,初始化t=2;
步驟2.3.2、初始化w=1;
步驟2.3.3、對第w個子時空體的第t分塊的中心像素值的能量值按升序進行排序,并對排序后的每一種能量值的個數(shù)進行統(tǒng)計,從而獲得第w個子時空體中第t個分塊的TSLTPM直方圖特征,如圖4a和圖4b所示;
步驟2.3.4、判斷w=1是否成立,若成立,則將w+1賦值給w后,返回步驟2.3.3執(zhí)行,否則,將第w個子時空體的第t個分塊的TSLTPM直方圖特征與第w-1個子時空體的第t個分塊的TSLTPM直方圖特征進行級聯(lián)后,再執(zhí)行步驟2.3.5;
步驟2.3.5、將w+1賦值給w后,判斷w>W(wǎng)是否成立,若成立,執(zhí)行步驟2.3.6;否則,返回步驟2.3.3;
步驟2.3.6、將t+1賦值給t后,判斷t>k-1是否成立,若成立,則執(zhí)行步驟2.3.7;否則,返回步驟2.3.2;
步驟2.3.7、判斷t=2是否成立,若成立,則將t+1賦值給t后,返回步驟2.3.2執(zhí)行,否則,將W個子時空體的第t個分塊的TSLTPM直方圖特征與W個子時空體的第t-1個分塊的TSLTPM直方圖特征進行級聯(lián)后,再執(zhí)行步驟2.3.8;
步驟2.3.8、將t+1賦值給t后,判斷t>k-1是否成立,若成立,執(zhí)行步驟2.4;否則,返回步驟2.3.2;
步驟2.4、重復步驟2.1~步驟2.3,從而獲得上身姿態(tài)樣本集和人臉表情樣本集中所有樣本的TSLTPM直方圖特征;包括:
由上身姿態(tài)訓練集中所有樣本的TSLTPM直方圖特征構(gòu)成上身姿態(tài)TSLTPM訓練特征集;由人臉表情訓練集中所有樣本的TSLTPM直方圖特征構(gòu)成人臉表情TSLTPM訓練特征集;
由上身姿態(tài)測試集中所有樣本的TSLTPM直方圖特征構(gòu)成上身姿態(tài)TSLTPM測試特征集;由人臉表情測試集中所有樣本的TSLTPM直方圖特征構(gòu)成人臉表情TSLTPM測試特征集;
步驟3、三維梯度方向直方圖的特征提??;
考慮到TSLTPM特征缺乏對圖像邊緣和方向信息的表達,三維方向梯度直方圖用來描述時空域局部像素的分布,可以有效提取圖像邊緣和方向信息;
步驟3.1、計算任意一個子時空體中第t個分塊的中心像素點的灰度值g(i,j,t)的HOG特征值,從而獲得任意一個子時空體的第t個分塊的所有中心像素點的灰度值的HOG特征值;進而獲得所有子時空體的所有分塊的所有中心像素點的灰度值的HOG特征值;
步驟3.1.1、計算任意一個子時空體中第t個分塊的中心像素點的灰度值g(i,j,t)的梯度:
步驟3.1.2、計算中心像素點的灰度值g(i,j,t)在三個平面上的梯度幅值mxy(i,j,t)、mxt(i,j,t)、myt(i,j,t):
步驟3.1.3、計算中心像素點的灰度值g(i,j,t)在三個平面上的梯度方向θxy(i,j,t)、θxt(i,j,t)、θyt(i,j,t):
步驟3.2、獲得時空體的3DHOG直方圖特征將[0,360°]平均劃分為N個方向,按照N×3
個方向量化區(qū)間對梯度幅值mxy(i,j,t)、mxt(i,j,t)、myt(i,j,t)進行投票統(tǒng)計;這樣使得子
時空體可以得到3個一維方向梯度向量h=[hxy,hxt,hyt],其中
hxy=[k1,k2,…,kn],hxt=[kn+1,kn+2,…,k2n],hyt=[k2n+1,k2n+2,…,k3n];ki為任一方向下梯度幅
值的和值;1≤i≤3n;具體計算步驟如下:
步驟3.2.1、初始化t=2;
步驟3.2.2、初始化w=1;
步驟3.2.3、按照N×3個方向量化區(qū)間對第w個子時空體的第t分塊的中心像素點的灰度值g(i,j,t)的梯度幅值進行投票統(tǒng)計,從而得到第w個子時空體中第t個分塊的3DHOG直方圖特征,如圖5所示;
步驟3.2.4、判斷w=1是否成立,若成立,則將w+1賦值給w后,返回步驟3.2.3執(zhí)行,否則,將第w個子時空體的第t個分塊的3DHOG直方圖特征與第w-1個子時空體的第t個分塊的3DHOG直方圖特征進行級聯(lián)后,再執(zhí)行步驟3.2.5;
步驟3.2.5;將w+1賦值給w后,判斷w>W(wǎng)是否成立,若成立,執(zhí)行步驟3.2.6;否則,返回步驟3.2.3;
步驟3.2.6、將t+1賦值給t后,判斷t>k-1是否成立,若成立,則執(zhí)行步驟3.2.7;否則,返回步驟3.2.2;
步驟3.2.7、判斷t=2是否成立,若成立,則將t+1賦值給t后,返回步驟3.2.2執(zhí)行,否則,將W個子時空體的第t個分塊的3DHOG直方圖特征與W個子時空體的第t-1個分塊的3DHOG直方圖特征進行級聯(lián)后,再執(zhí)行步驟3.2.8;
步驟3.2.8、將t+1賦值給t后,判斷t>k-1是否成立,若成立,執(zhí)行步驟3.3;否則,返回步驟3.2.2;
步驟3.3、重復步驟3.1和步驟3.2,從而獲得上身姿態(tài)樣本集和人臉表情樣本集中所有樣本的3DHOG直方圖特征;包括:
由上身姿態(tài)訓練集中所有樣本的3DHOG直方圖特征構(gòu)成上身姿態(tài)3DHOG訓練特征集;由人臉表情訓練集中所有樣本的3DHOG直方圖特征構(gòu)成人臉表情3DHOG訓練特征集;
由上身姿態(tài)測試集中所有樣本的3DHOG直方圖特征構(gòu)成上身姿態(tài)3DHOG測試特征集;由人臉表情測試集中所有樣本的3DHOG直方圖特征構(gòu)成人臉表情3DHOG測試特征集;
步驟4、上身姿態(tài)復合時空特征集和人臉表情復合時空特征集的構(gòu)造;
步驟4.1、將上身姿態(tài)樣本集中的任一樣本的TSLTPM直方圖特征和3DHOG直方圖特征進行級聯(lián),從而構(gòu)成相應(yīng)樣本的上身姿態(tài)復合時空特征;進而獲得上身姿態(tài)復合時空特征集;包括:
由上身姿態(tài)測試集中所有樣本的上身姿態(tài)復合時空特征構(gòu)成上身姿態(tài)復合時空特征測試集;由上身姿態(tài)訓練集中所有樣本的上身姿態(tài)復合時空特征構(gòu)成上身姿態(tài)復合時空特征訓練集;
步驟4.2、將人臉表情樣本集中的任一樣本的TSLTPM直方圖特征和3DHOG直方圖特征進行級聯(lián),從而構(gòu)成相應(yīng)樣本的人臉表情復合時空特征;進而獲得人臉表情復合時空特征集;包括:
由人臉表情測試集中所有樣本人臉表情復合時空特征構(gòu)成人臉表情復合時空特征測試集;由人臉表情訓練集中所有樣本的人臉表情復合時空特征構(gòu)成人臉表情復合時空特征訓練集;
步驟5、使用D-S證據(jù)理論判決規(guī)則對復合時空特征測試集進行分類;
步驟5.1、計算上身姿態(tài)復合時空特征測試集中任意一個測試樣本的上身姿態(tài)復合時空特征與上身姿態(tài)復合時空特征訓練集中每一個訓練樣本的上身姿態(tài)復合時空特征的歐式距離;從而獲得每一類情感類別的上身姿態(tài)最小歐式距離,計算公式如下:
步驟5.2、對每一類情感類別的上身姿態(tài)最小歐式距離進行歸一化處理,得到歸一化后的上身姿態(tài)最小歐式距離,歸一化公式如下:
式(13)中:α={人臉表情,上身姿態(tài)},β表情情感的類別,Z表情情感的類別總數(shù);
步驟5.3、構(gòu)造指數(shù)函數(shù)y=exp(-13(x+0.06)2)+0.074,將每一類情感類別的歸一化后的上身姿態(tài)最小歐式距離作為x帶入指數(shù)函數(shù),完成歸一化后的最終歐式距離d‘α,β到基本概率分配值的映射,即如下式:
mα(μβ)=exp(-13(dα,β+0.06)2)+0.074 (14)
由上述(14)式基本概率分配函數(shù)構(gòu)造的不確定性分配函數(shù)mi(θ)如下:
步驟5.4、重復步驟5.1~步驟5.3,同樣獲得每一類情感類別的人臉表情基本概率分配值;
步驟5.5、將所有情感類別的上身姿態(tài)基本概率分配值和人臉表情基本概率分配值用D-S證據(jù)理論進行融合,得到融合后的每一類情感類別的基本概率分配函數(shù)值,公式如下計算;
式(16)中,m1(Aα)和m2(Bβ)分別表示上身姿態(tài)模態(tài)和人臉表情的基本概率分配值,
K稱為矛盾因子,反映了每個證據(jù)之間的沖突程度;
步驟5.6、選取融合后的最大基本概率分配函數(shù)值所對應(yīng)的情感類別作為測試樣本的情感類別。
實施例:
為了驗證本發(fā)明的有效性,實驗采用目前唯一公開的雙模態(tài)數(shù)據(jù)庫:FABO表情和姿態(tài)雙模態(tài)數(shù)據(jù)庫。由于該數(shù)據(jù)庫本身未完全進行標注,所以本發(fā)明在實驗過程中選擇樣本數(shù)較多且情感類別相對均勻的12個人進行相關(guān)實驗。所選樣本共包括高興、害怕、生氣、厭煩和不確定5類情感,全部已進行標注,其中姿態(tài)和表情各有238個樣本。本文實驗是在Windows XP系統(tǒng)下(雙核CPU2.53GHz內(nèi)存2G),使用VC6.0+OpenCV1.0實現(xiàn)的。實驗中將人臉表情圖片幀和上身姿態(tài)圖片幀分別統(tǒng)一大小為96×96像素和128×96像素。表情圖片和姿態(tài)圖片統(tǒng)一大小后的部分圖像如圖6所示。
實驗1視頻幀集合大小測試
在情感判別的預處理過程中,k均值聚類視頻幀集合的大小直接影響后續(xù)的特征提取和判別。視頻幀選擇較少,會造成表情和姿態(tài)特征提取不充分;若選擇較多,則會增加時間復雜度,同時產(chǎn)生過多的冗余信息,直接影響后續(xù)的情感識別。當幀集合大小為3~7時,本發(fā)明的識別性能如圖7所示。
實驗2分塊大小測試
對表情和姿態(tài)提取復合特征時,圖像的分塊數(shù)會對識別性能產(chǎn)生一定的影響。圖3給出了分塊大小與平均識別率的大小關(guān)系。從圖7可以看出,表情取6×6分塊,姿態(tài)取4×4分塊時,識別效果最優(yōu)。
實驗3單模態(tài)情感識別實驗
在將表情和姿態(tài)兩種模態(tài)進行融合判別前,首先對其進行單獨的情感識別實驗。由于FABO數(shù)據(jù)庫中不同情感類別數(shù)大小不均勻,本發(fā)明在實驗中保證測試每種樣本類別個數(shù)的情況下隨機選取測試樣本,訓練樣本庫和測試樣本數(shù)庫中5種情感(高興,害怕,生氣,厭煩,不確定)的樣本數(shù)分別為(26,13,46,6,44)和(20,15,30,8,30),表情序列和姿態(tài)序列相對應(yīng)。為了增加實驗結(jié)果的可信度,每組實驗進行3次,最終結(jié)果取平均值。表1和表2分別給出表情和姿態(tài)兩種單模態(tài)在3次實驗下對5種不同情感的識別性能對比。
表1表情單模態(tài)情感識別的實驗結(jié)果
表2姿態(tài)單模態(tài)情感識別的實驗結(jié)果
為了進一步驗證復合特征的有效性,將其分別與融合之前的特征算法和其他論文中的方法進行對比,比較結(jié)果如表3所示。
表3基于單模態(tài)的不同特征提取方法的平均識別率比較
實驗4雙模態(tài)情感識別實驗
表4給出表情和姿態(tài)兩種單模態(tài)利用D-S證據(jù)理論進行融合之后的識別率為96.86%,高于表情單模態(tài)的83.06%和姿態(tài)單模態(tài)的94.78%(來自表3數(shù)據(jù)),說明了融合表情和姿態(tài)進行情感識別的有效性。在情感識別中,表情和姿態(tài)對情感識別具有不同的貢獻,表情主要表現(xiàn)為人臉面部的情感,而姿態(tài)主要表現(xiàn)為人體動作的情感,兩種情感表達方式具有相互輔助相互補充的作用,將兩種模態(tài)相融合,準確率和穩(wěn)定性得到明顯提高。另外,本發(fā)明利用D-S證據(jù)理論,以歐氏距離構(gòu)造BPA,根據(jù)組合規(guī)則,融合來自表情和姿態(tài)兩種模態(tài)的識別信息,能夠?qū)崿F(xiàn)較弱分類(單模態(tài))決策對較強分類(雙模態(tài))決策的有效支持,從而可以進一步提高識別準確率和可靠性。
表4不同融合方法的平均識別率對比
綜上,本方法從人臉表情和上身姿態(tài)兩個角度進行情感識別,對人臉表情和上身姿態(tài)提取復合時空特征,首先然后利用D-S證據(jù)理論融合兩種模態(tài)的情感信息,彌補了單一模態(tài)進行情感識別的局限性,將視頻中的面部表情和上身姿態(tài)看成由每幀圖像沿時間軸堆疊而成的三維時空體,從而得到更為可靠、準確的結(jié)果。