本發(fā)明涉及情感識(shí)別,具體涉及一種基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別方法。
背景技術(shù):
1、情感是人大腦的高級(jí)活動(dòng),是人類的一種復(fù)雜的心理和生理狀態(tài)。隨著深度學(xué)習(xí)理論的蓬勃發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、前饋神經(jīng)網(wǎng)絡(luò)等經(jīng)典網(wǎng)絡(luò)及其變種的模型在單模態(tài)情感識(shí)別任務(wù)中大放異彩;然而社交網(wǎng)絡(luò)的持續(xù)發(fā)展,使得人們表達(dá)情感的形式也愈發(fā)多元,并且不同個(gè)體情感表達(dá)的方式存在差異,傳統(tǒng)單一的情感識(shí)別模型,如僅僅使用語音信號(hào)的時(shí)域、頻域以及相關(guān)聯(lián)特性,已經(jīng)不足以鑒別復(fù)雜的情感信息;并且,特別是語音這類依賴于單模態(tài)數(shù)據(jù)統(tǒng)計(jì)學(xué)特征的情感識(shí)別方法倚靠人類對(duì)聲音信號(hào)的提取技術(shù)的發(fā)展,這一方法不僅需要分階段單獨(dú)處理,繁瑣復(fù)雜;且不具有情感識(shí)別任務(wù)相關(guān)的特性,容易成為后續(xù)模型學(xué)習(xí)的瓶頸。為此多模態(tài)情感識(shí)別應(yīng)運(yùn)而生,多模態(tài)情感識(shí)別是一種打破模態(tài)間數(shù)據(jù)壁壘,融合多種數(shù)據(jù)特征來進(jìn)行情感識(shí)別的方式。一般多模態(tài)情感識(shí)別方法會(huì)在語音信號(hào)中,加入文本信息、面部表情,從而傳達(dá)出更加豐富的情感,捕獲更多可能蘊(yùn)含在語音之中的信息。但現(xiàn)有的一些多模態(tài)情感識(shí)別方法,過分重視不同模態(tài)特征的融合,忽略對(duì)單一模態(tài)所蘊(yùn)含的豐富情感信息的學(xué)習(xí),導(dǎo)致模型的底層網(wǎng)絡(luò)對(duì)單模態(tài)情感信息的學(xué)習(xí)不夠充分;在特征處理階段采取拼接,權(quán)重相加等方式進(jìn)行融合,過于簡(jiǎn)單粗暴,存在信息丟失的問題,此外將情感特征和非情感特征(說話人、性別等信息)混雜在一起,輸入至上層融合模塊以及分類器,造成模型分類的困難。另外,一些多模態(tài)情感識(shí)別方法會(huì)采用多個(gè)分類器對(duì)不同的模態(tài)進(jìn)行預(yù)測(cè)打分,通過投票的方法得到最終的情感預(yù)測(cè)結(jié)果;該方案容易造成模型參數(shù)量過大,帶來巨大的性能開銷。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述問題,本發(fā)明提供了一種基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別方法,構(gòu)建并訓(xùn)練多模態(tài)情感識(shí)別模型,將待識(shí)別數(shù)據(jù)輸入訓(xùn)練好的多模態(tài)情感識(shí)別模型輸出識(shí)別結(jié)果;所述多模態(tài)情感識(shí)別模型包括自注意力編碼器、第一交叉注意力編碼器、第二注意力編碼器、門控單元和mlp分類器;
2、所述多模態(tài)情感識(shí)別模型的訓(xùn)練過程包括以下步驟:
3、s1.獲取模態(tài)數(shù)據(jù),所述模態(tài)數(shù)據(jù)包括語音模態(tài)數(shù)據(jù)及其對(duì)應(yīng)的文本模態(tài)數(shù)據(jù);采用預(yù)訓(xùn)練模型對(duì)模態(tài)數(shù)據(jù)進(jìn)行特征嵌入得到嵌入特征,所述嵌入特征包括語音嵌入特征和文本嵌入特征;
4、s2.將嵌入特征輸入自注意力編碼器得到模態(tài)內(nèi)表征,所述模態(tài)內(nèi)表征包括語音模態(tài)內(nèi)表征和文本模態(tài)內(nèi)表征;
5、s3.將模態(tài)內(nèi)表征和嵌入特征輸入第一交叉注意力編碼器得到增強(qiáng)表征,所述增強(qiáng)表征包括語音增強(qiáng)表征和文本增強(qiáng)表征;
6、s4.對(duì)增強(qiáng)表征進(jìn)行降維操作得到情感約束表征,所述情感約束表征包括語音情感約束表征和文本情感約束表征;根據(jù)情感約束表征計(jì)算情感約束損失;
7、s5.采用第二注意力編碼器處理增強(qiáng)表征得到交互表征,所述交互表征包括語音交互表征和文本交互表征;
8、s6.采用門控單元融合增強(qiáng)表征和交互表征得到融合表征,所述融合表征包括語音融合表征和文本融合表征;將語音融合表征和文本融合表征拼接得到融合情感表征;
9、s7.對(duì)融合情感表征進(jìn)行最大池化得到全局特征,將全局特征輸入mlp分類器得到每一情感類別得分;然后計(jì)算情感分類損失和監(jiān)督對(duì)比損失;
10、s8.將情感約束損失、情感分類損失和監(jiān)督對(duì)比損失進(jìn)行加權(quán)求和得到總損失,根據(jù)總損失對(duì)模型參數(shù)進(jìn)行優(yōu)化,直至模型參數(shù)收斂。
11、本發(fā)明的有益效果:
12、相比現(xiàn)階段使用的特征提取和模型訓(xùn)練兩階段方法而言,本發(fā)明使用預(yù)訓(xùn)練模型生成語音和文本模態(tài)的嵌入表示進(jìn)行端到端模型訓(xùn)練的方法,簡(jiǎn)化了模型前端模塊的設(shè)計(jì)復(fù)雜度。另外通過凍結(jié)預(yù)訓(xùn)練模型的參數(shù)的方法能夠避免“災(zāi)難性遺忘”問題同時(shí)減少模型的訓(xùn)練開銷。
13、相較于基于單一的語音模態(tài)數(shù)據(jù)進(jìn)行情感的預(yù)測(cè)方法相比,本發(fā)明結(jié)合了語音和文本兩種模態(tài)數(shù)據(jù)進(jìn)行全面的學(xué)習(xí)和交互,情感信息更全面,彌補(bǔ)了單一特征的固有缺陷,使得模型的魯棒性更強(qiáng),準(zhǔn)確率更高。
14、現(xiàn)有的一些多模態(tài)情感識(shí)別方法,過分強(qiáng)調(diào)多模態(tài)特征的融合,忽視對(duì)單一模態(tài)所蘊(yùn)含的豐富情感信息的學(xué)習(xí),導(dǎo)致模型的底層網(wǎng)絡(luò)對(duì)模態(tài)的學(xué)習(xí)不夠充分,未能充分挖掘單模態(tài)的潛力。本發(fā)明強(qiáng)調(diào)通過設(shè)計(jì)合理網(wǎng)絡(luò)模塊結(jié)構(gòu)和交互方式進(jìn)行有效的模態(tài)內(nèi)特征學(xué)習(xí),設(shè)計(jì)了一個(gè)模態(tài)內(nèi)學(xué)習(xí)模塊(由兩路并行的自注意力編碼器和交叉注意力編碼器組成)將通用的語音和文本表示轉(zhuǎn)換到與情感分類任務(wù)強(qiáng)相關(guān)的表示;其中,本發(fā)明為了確保底層模塊充分學(xué)習(xí)語音和文本中的情感信息,以情感標(biāo)簽為約束,使該模塊學(xué)得與情感強(qiáng)相關(guān)的表示,避免了模態(tài)學(xué)習(xí)丟失和語義不一致性問題。同時(shí)設(shè)計(jì)多模態(tài)特征融合模塊(由兩路并行的交叉注意力編碼器和門控單元組成)進(jìn)行多模態(tài)特征對(duì)齊和交互,得到相互補(bǔ)充的情感融合表示,最終通過設(shè)計(jì)多個(gè)訓(xùn)練目標(biāo)(loss)對(duì)模型進(jìn)行聯(lián)合訓(xùn)練,使得模型能夠?qū)W習(xí)到在特征空間中高度可分的情感表示,其中,本發(fā)明采用標(biāo)簽平滑技術(shù)和監(jiān)督對(duì)比學(xué)習(xí)進(jìn)行多目標(biāo)聯(lián)合訓(xùn)練,通過引入多個(gè)訓(xùn)練目標(biāo)有效地約束了模型,提升了類別的區(qū)分度,并同時(shí)提高了模型的泛化能力。
1.一種基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別方法,其特征在于,構(gòu)建并訓(xùn)練多模態(tài)情感識(shí)別模型,將待識(shí)別數(shù)據(jù)輸入訓(xùn)練好的多模態(tài)情感識(shí)別模型輸出識(shí)別結(jié)果;所述多模態(tài)情感識(shí)別模型包括自注意力編碼器、第一交叉注意力編碼器、第二交叉注意力編碼器、門控單元和mlp分類器;
2.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別方法,其特征在于,步驟s1具體包括:
3.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別方法,其特征在于,所述自注意力編碼器采用transformer編碼器;將語音嵌入特征和文本嵌入特征分布輸入自注意力編碼器,得到語音模態(tài)內(nèi)表征和文本模態(tài)內(nèi)表征。
4.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別方法,其特征在于,所述第一交叉注意力編碼器包括一個(gè)多頭交叉注意力層和一個(gè)前饋層,其中在多頭交叉注意力層中以模態(tài)內(nèi)表征作為queries,以嵌入特征作為keys和values,通過多頭交叉注意力機(jī)制進(jìn)行學(xué)習(xí);步驟s3具體包括:
5.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別方法,其特征在于,步驟s4具體包括:
6.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別方法,其特征在于,步驟s5采用第二交叉注意力編碼器處理增強(qiáng)表征得到交互表征具體包括:
7.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別方法,其特征在于,步驟s6具體包括:
8.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的多模態(tài)情感識(shí)別方法,其特征在于,情感分類損失的計(jì)算公式為: