亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于語(yǔ)音、表情與姿態(tài)的三模態(tài)情感識(shí)別方法與流程

文檔序號(hào):12551373閱讀:395來(lái)源:國(guó)知局
一種基于語(yǔ)音、表情與姿態(tài)的三模態(tài)情感識(shí)別方法與流程

本發(fā)明涉及一種情感識(shí)別方法,特別是涉及一種基于語(yǔ)音、表情與姿態(tài)的三模態(tài)情感識(shí)別方法,屬于圖像處理與模式識(shí)別技術(shù)領(lǐng)域。



背景技術(shù):

人類情感在人類交流方面扮演著至關(guān)重要的角色,其傳遞的信息非常豐富。隨著科學(xué)技術(shù)和人類社會(huì)的不斷進(jìn)步,智能機(jī)器步入了千家萬(wàn)戶,能感知人類情感并做出相應(yīng)反映的人機(jī)交互領(lǐng)域迫切地需要得到發(fā)展。至于如何有效地進(jìn)行人機(jī)交互,首要的關(guān)鍵點(diǎn)在于如何使機(jī)器正確地識(shí)別出人類所表達(dá)出的情感,即所謂的情感識(shí)別。

人類的情感狀態(tài)可以被人為地分成一些類別,如悲傷、高興、厭惡、恐懼、驚嚇等,有關(guān)情感分類識(shí)別的研究也取得了一定的進(jìn)展。但遺憾的是,現(xiàn)今存在的情感識(shí)別技術(shù)大多是針對(duì)一個(gè)或兩個(gè)模態(tài)的。單單只利用某一種模態(tài)的信息來(lái)預(yù)測(cè)情感的方式,稱為單模態(tài)情感識(shí)別。在現(xiàn)實(shí)生活中,人類情感的表達(dá)方式是多種多樣的,在說(shuō)話的同時(shí),我們會(huì)做出相應(yīng)的表情,有時(shí)還會(huì)伴隨著一些肢體動(dòng)作。所以,從現(xiàn)實(shí)的人類情感交互的過(guò)程中,我們可以看到,單一模態(tài)的情感信息是不完善且不豐富的,對(duì)于情感的準(zhǔn)確判別是遠(yuǎn)遠(yuǎn)不夠的,各個(gè)模態(tài)的情感信息之間是相輔相成,缺一不可的。

由于多模態(tài)特征數(shù)據(jù)的龐大性與復(fù)雜性,導(dǎo)致在后期處理的時(shí)候可能遭遇實(shí)時(shí)性及穩(wěn)定性不足的問(wèn)題,因此利用特征降維及歸一化技術(shù),我們可以對(duì)特征進(jìn)行一定的篩選與優(yōu)化,同時(shí)借助于特征融合方法將各個(gè)模態(tài)的情感特征相互融合起來(lái),以使其更能反映出樣本的真實(shí)特性,增加了系統(tǒng)的實(shí)時(shí)性與魯棒性。

目前,人工智能領(lǐng)域得到了飛速的發(fā)展,如何讓冰冷的機(jī)器順利地感知人類表達(dá)出來(lái)的情感是學(xué)術(shù)界的一項(xiàng)熱門(mén)課題。然而現(xiàn)今還只停留在單模態(tài)如表情或語(yǔ)音的情感識(shí)別上,能綜合各種模態(tài)的情感信息的情感識(shí)別方法還有待發(fā)展。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明所要解決的技術(shù)問(wèn)題是:提供一種基于語(yǔ)音、表情與姿態(tài)的三模態(tài)情感識(shí)別方法,解決了現(xiàn)有技術(shù)不能充分利用人類表達(dá)情感過(guò)程中各模態(tài)情感信息的問(wèn)題,為人機(jī)交互領(lǐng)域的情感識(shí)別系統(tǒng)開(kāi)辟出一條新的途徑。

本發(fā)明為解決上述技術(shù)問(wèn)題采用以下技術(shù)方案:

一種基于語(yǔ)音、表情與姿態(tài)的三模態(tài)情感識(shí)別方法,包括如下步驟:

步驟1,獲取不同情感分類的語(yǔ)音、表情與姿態(tài)三種模態(tài)的圖像,并將各個(gè)模態(tài)的圖像與各自的情感類別標(biāo)簽一一對(duì)應(yīng),建立三模態(tài)情感數(shù)據(jù)庫(kù),將庫(kù)中不同情感分類各個(gè)模態(tài)的圖像分為訓(xùn)練樣本和測(cè)試樣本;

步驟2,分別對(duì)各個(gè)模態(tài)的訓(xùn)練樣本和測(cè)試樣本進(jìn)行情感特征提取,然后進(jìn)行降維處理,構(gòu)建各個(gè)模態(tài)訓(xùn)練樣本和測(cè)試樣本的特征矩陣;并對(duì)訓(xùn)練樣本、測(cè)試樣本各個(gè)模態(tài)的特征矩陣分別進(jìn)行歸一化;

步驟3,將訓(xùn)練樣本、測(cè)試樣本各個(gè)模態(tài)歸一化后的特征矩陣相互融合起來(lái),得到訓(xùn)練樣本、測(cè)試樣本融合后的特征矩陣;

步驟4,利用訓(xùn)練樣本融合后的特征矩陣識(shí)別測(cè)試樣本融合后的特征矩陣中各測(cè)試樣本的類別,得到各測(cè)試樣本的分類結(jié)果。

作為本發(fā)明的一種優(yōu)選方案,步驟1所述不同情感分類包括:悲傷、高興、厭惡、恐懼、驚嚇、中性。

作為本發(fā)明的一種優(yōu)選方案,步驟2所述對(duì)訓(xùn)練樣本、測(cè)試樣本各個(gè)模態(tài)的特征矩陣分別進(jìn)行歸一化,具體步驟如下:

以語(yǔ)音特征矩陣為例,降維處理后的訓(xùn)練樣本和測(cè)試樣本的語(yǔ)音特征矩陣分別記為Vtr(d1行n列)和Vte(d1行m列),n、m分別為訓(xùn)練樣本、測(cè)試樣本的數(shù)目,d1為語(yǔ)音情感特征降維后的維數(shù);

在所有n個(gè)訓(xùn)練樣本的d1維特征向量中,求出每一維特征的最大值,即

其中,λj,max表示Vtr中第j行的最大元素值,Vtrj,p表示Vtr的第j行第p列元素;

用λj,max對(duì)特征矩陣Vtr的第j行作歸一化處理,即

其中,表示歸一化的特征矩陣Vtr的第j行第p列元素;

依據(jù)每一維特征的最大元素值,同樣對(duì)測(cè)試樣本的特征矩陣Vte的每一維特征作歸一化處理,得到表示歸一化的Vtej,q,Vtej,q表示Vte的第j行第q列元素;

對(duì)降維處理后的表情、姿態(tài)特征矩陣進(jìn)行同樣的處理,將歸一化后的語(yǔ)音、表情和姿態(tài)對(duì)應(yīng)的訓(xùn)練樣本和測(cè)試樣本的特征矩陣分別表示為和

作為本發(fā)明的一種優(yōu)選方案,所述步驟3的具體步驟如下:

31、求解如下最優(yōu)化問(wèn)題,得到三個(gè)映射變換ω123,使得經(jīng)過(guò)映射后的特征矩陣中的類內(nèi)相關(guān)性最大并且類間相關(guān)性最??;最優(yōu)化問(wèn)題為:

其中,分別表示歸一化后的語(yǔ)音、表情和姿態(tài)對(duì)應(yīng)的訓(xùn)練樣本的特征矩陣,Cw,Cb分別表示類內(nèi)相關(guān)矩陣、類間相關(guān)矩陣,且

其中,I=[1,1,…,1]T,nrc表示第r個(gè)模態(tài)中第c類表情的樣本個(gè)數(shù),s表示類別總數(shù);

上述最優(yōu)化問(wèn)題的解表示為:

其中,

ω=[ω1T2T3T]T,上式求解得到的ρ值中選擇最大的ρ值ρmax所對(duì)應(yīng)的ω;

32、將訓(xùn)練樣本和測(cè)試樣本經(jīng)過(guò)歸一化后的各個(gè)模態(tài)特征矩陣的特征向量首尾串接起來(lái),用Futr和Fute來(lái)表示,其中,

33、將訓(xùn)練樣本融合后的特征矩陣表示為Fitr=ω~TFutr,同樣的,測(cè)試樣本融合后的特征矩陣表示為Fite。

作為本發(fā)明的一種優(yōu)選方案,所述步驟4的具體步驟如下:

在得到訓(xùn)練樣本融合后的特征矩陣Fitr后,利用訓(xùn)練樣本的類別標(biāo)簽組成的列向量T=[T1,T2,…,Tn]T(Tp∈{1,2,…,s},p=1,2,…,n),求解下列優(yōu)化問(wèn)題:

其中,c∈{1,2,…,s},s表示類別總數(shù),n為訓(xùn)練樣本數(shù)目,為懲罰因子,F(xiàn)itrp為Fitr的第p行的數(shù)據(jù),φ(Fitrp)表示將Fitrp向高維空間進(jìn)行映射,解上述優(yōu)化問(wèn)題,得到s個(gè)不同的參數(shù)ψ和b,判定測(cè)試樣本類別的判決函數(shù)為:

其中,F(xiàn)iteq為Fite的第q行的數(shù)據(jù),q∈{1,2,…,m},F(xiàn)ite為測(cè)試樣本融合后的特征矩陣,φ(Fitep)表示將Fitep向高維空間進(jìn)行映射,將判決函數(shù)的值最大的c所對(duì)應(yīng)的類別作為測(cè)試樣本的分類結(jié)果,用identity(Fiteq)表示。

本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:

1、本發(fā)明通過(guò)三種模態(tài)情感特征之間的相互融合及特征選擇技術(shù)的應(yīng)用,減少了數(shù)據(jù)的冗余性,加強(qiáng)了數(shù)據(jù)之間的關(guān)聯(lián)性,在情感識(shí)別過(guò)程中,能有效地對(duì)情感進(jìn)行分類,提高了情感識(shí)別的準(zhǔn)確率,為人機(jī)交互領(lǐng)域的情感交流系統(tǒng)提供了一種新的方法和途徑。

2、本發(fā)明綜合利用了人類情感表達(dá)過(guò)程中的三種模態(tài)的情感信息,相比于單模態(tài)的情感預(yù)測(cè),具有更高的準(zhǔn)確性和客觀性。

3、本發(fā)明對(duì)特征降維技術(shù)與特征融合方法的應(yīng)用,減少了數(shù)據(jù)的冗余性,增強(qiáng)了數(shù)據(jù)之間的相關(guān)性,進(jìn)一步提高了情感識(shí)別的準(zhǔn)確率,并改善了系統(tǒng)的實(shí)時(shí)性。

附圖說(shuō)明

圖1是本發(fā)明基于語(yǔ)音、表情與姿態(tài)的三模態(tài)情感識(shí)別方法的流程圖。

圖2是本發(fā)明三模態(tài)情感數(shù)據(jù)庫(kù)中的部分圖像示例。

具體實(shí)施方式

下面詳細(xì)描述本發(fā)明的實(shí)施方式,所述實(shí)施方式的示例在附圖中示出。下面通過(guò)參考附圖描述的實(shí)施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。

如圖1所示,本發(fā)明基于語(yǔ)音、表情與姿態(tài)的三模態(tài)情感識(shí)別方法的實(shí)現(xiàn)主要包含以下步驟:

步驟1:建立三模態(tài)情感數(shù)據(jù)庫(kù)

庫(kù)中的數(shù)據(jù)收集過(guò)程如下:

由10位參與人員在一塊藍(lán)色背景下輪流表達(dá)6種情感:悲傷、高興、厭惡、恐懼、驚嚇、中性。在此過(guò)程中,分別用語(yǔ)音記錄儀與攝像機(jī)記錄下參與人員的語(yǔ)音,表情與姿態(tài)的表達(dá)過(guò)程,并將各個(gè)模態(tài)的數(shù)據(jù)與其對(duì)應(yīng)的情感類別標(biāo)簽歸類在一起,從而建立此三模態(tài)情感數(shù)據(jù)庫(kù),其部分圖像示例如圖2所示。

步驟2:對(duì)各個(gè)模態(tài)的樣本進(jìn)行特征提取

對(duì)各模態(tài)特征的提取方法及特征種類,描述如下:

對(duì)于語(yǔ)音信號(hào)特征的提取,主要是利用一個(gè)開(kāi)源的語(yǔ)音特征提取工具箱openSMILE來(lái)實(shí)現(xiàn)的。利用openSMILE提取了1582維的語(yǔ)音情感特征(The INTERSPEECH 2010 Paralinguistic Challenge feature set)。對(duì)于面部表情信號(hào)特征的提取,提取了16560維的Gabor情感特征,然后利用主成分分析(pca)方法將其降維到131維。對(duì)于姿態(tài)特征的提取,利用EyeWeb平臺(tái)來(lái)對(duì)姿態(tài)進(jìn)行跟蹤,得到運(yùn)動(dòng)量QoM(Quantity of Motion)、肢體的收縮指數(shù)CI(Contraction Index)、運(yùn)動(dòng)速率VEL(Velocity)、運(yùn)動(dòng)加速度ACC(Acceleration)、和手心的運(yùn)動(dòng)線FL(Fluidity)等幾個(gè)指標(biāo),最終得到80維的姿態(tài)情感特征。

步驟3:對(duì)提取得到的特征進(jìn)行預(yù)處理

分別對(duì)各個(gè)模態(tài)的訓(xùn)練樣本和測(cè)試樣本提取出不同的情感特征,然后進(jìn)行降維處理,用d1,d2,d3維的特征向量來(lái)表示,由s個(gè)類別的n個(gè)訓(xùn)練樣本和m個(gè)測(cè)試樣本的特征向量分別構(gòu)建出各個(gè)模態(tài)的情感特征矩陣:得到的訓(xùn)練樣本和測(cè)試樣本的語(yǔ)音特征矩陣分別用Vtr(d1行n列)和Vte(d1行m列)來(lái)表示,同樣的,表情特征矩陣分別用Ftr(d2行n列)和Fte(d2行m列)來(lái)表示,姿態(tài)特征矩陣分別用Etr(d3行n列)和Ete(d3行m列)來(lái)表示。

對(duì)訓(xùn)練樣本和測(cè)試樣本的各個(gè)模態(tài)的情感特征矩陣分別進(jìn)行歸一化,這里以語(yǔ)音情感特征為例,設(shè)經(jīng)過(guò)歸一化后的訓(xùn)練樣本和測(cè)試樣本的語(yǔ)音特征矩陣分別為和則具體步驟如下:

在所有n個(gè)訓(xùn)練樣本的d1維特征向量中,求出每一維特征的最大值,即

其中,Vtrj,p表示特征矩陣Vtr的第j行第p列元素,λj,max表示特征矩陣Vtr中第j行的最大元素值,即第j維特征的最大值。

用λj,max對(duì)特征矩陣Vtr的第j行作歸一化處理,即

其中,表示歸一化的特征矩陣Vtr的第j行第p列元素。

依據(jù)每一維特征的λj,max,對(duì)測(cè)試樣本的特征矩陣Vte的每一維特征作歸一化處理,即

其中,Vtej,q表示測(cè)試樣本的特征矩陣Vte的第j行第q列元素,表示歸一化的Vtej,q。

依據(jù)以上步驟,對(duì)表情和姿態(tài)的情感特征進(jìn)行同樣的處理,將歸一化后的各模態(tài)訓(xùn)練樣本和測(cè)試樣本的特征矩陣分別表示為和

步驟4:將各個(gè)模態(tài)的情感特征相互融合起來(lái)

首先需要找到三個(gè)映射變換ω123,使得經(jīng)過(guò)映射后的特征矩陣中的類內(nèi)相關(guān)性最大并且類間相關(guān)性最小,這里可以將其表述為如下的最優(yōu)化問(wèn)題:

其中,Cw,Cb分別表示類內(nèi)相關(guān)矩陣、類間相關(guān)矩陣,且

其中,I=[1,1,…,1]T,nrc表示第r個(gè)模態(tài)中第c類表情的樣本個(gè)數(shù),s表示類別總數(shù)。

上述最優(yōu)化問(wèn)題的解可以寫(xiě)作:

其中,

ω=[ω1T2T3T]T,假設(shè)由上式得到了t個(gè)特征值,將其中第t個(gè)特征值記為ρt;特征值在選擇區(qū)分度高的特征的過(guò)程中發(fā)揮了關(guān)鍵作用:較大的特征值對(duì)應(yīng)區(qū)分度較高的特征,這些特征可以有效地最大化類內(nèi)相關(guān)并且最小化類間相關(guān),在此,我們選擇最大的特征值所對(duì)應(yīng)的ω

將訓(xùn)練樣本和測(cè)試樣本的經(jīng)過(guò)歸一化后的各個(gè)模態(tài)每個(gè)樣本的特征向量首尾串接起來(lái),用Futr和Fute來(lái)表示,其中,

最后得到融合后的特征矩陣Fitr=ω~TFutr,將利用此方法得到的訓(xùn)練樣本的融合后的特征矩陣表示為Fitr,同樣的,對(duì)測(cè)試樣本的情感特征也用此方法得到融合后的特征矩陣表示為Fite。

步驟5:將得到的預(yù)測(cè)模型用于測(cè)試樣本類別標(biāo)簽值的判定

在得到融合后的訓(xùn)練樣本的情感特征矩陣Fitr后,利用訓(xùn)練樣本的類別標(biāo)簽組成的列向量T=[T1,T2,…,Tn]T(Tp∈{1,2,…,s},p=1,2,…,n),求解下列優(yōu)化問(wèn)題:

其中,c∈{1,2,…,s},n為訓(xùn)練樣本數(shù)量,作為懲罰因子可以降低訓(xùn)練誤差,F(xiàn)itrp為Fitr的第p行的數(shù)據(jù),即第p個(gè)樣本的數(shù)據(jù),φ(Fitrp)將Fitrp向高維空間進(jìn)行映射,解此最優(yōu)化問(wèn)題,可以得到s個(gè)不同的ψ和b,然后判定測(cè)試樣本的類別為:

其中,F(xiàn)iteq為Fite的第q行的數(shù)據(jù),即第q個(gè)樣本的數(shù)據(jù),q∈{1,2,…,m},即在s個(gè)判決函數(shù)的值中尋找最大值,將判決函數(shù)的值最大的c所對(duì)應(yīng)的類別作為測(cè)試樣本的分類結(jié)果,用identity(Fiteq)表示。

以上實(shí)施例僅為說(shuō)明本發(fā)明的技術(shù)思想,不能以此限定本發(fā)明的保護(hù)范圍,凡是按照本發(fā)明提出的技術(shù)思想,在技術(shù)方案基礎(chǔ)上所做的任何改動(dòng),均落入本發(fā)明保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1