一種基于Transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法

文檔序號：40388905發(fā)布日期：2024-12-20 12:11閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于多模態(tài)情感識別，具體涉及一種基于transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法。

背景技術(shù)：

1、情感識別是人工智能領(lǐng)域的一個重要組成。它主要致力于探索如何借助一系列數(shù)學(xué)處理方法對輸入數(shù)據(jù)進(jìn)行深度分析，從而使計算機(jī)能夠精準(zhǔn)捕捉人類的情感狀態(tài)。通過構(gòu)建這樣的情感識別系統(tǒng)，人們將更有希望打造一種自然且無障礙的人機(jī)交互環(huán)境。情感識別一般可以分為直接情感識別和間接情感識別兩類。直接情感識別主要涉及對多種模態(tài)信息的使用，包括文本、語音、圖像、視頻等。間接情感識別主要依賴于監(jiān)測人類的生理反應(yīng)進(jìn)行隱式情感識別，包括眼動信號、肢體動作信號、腦電信號、心電信號等。當(dāng)人類的情感狀態(tài)發(fā)生變化時，往往伴隨著多種信息的變化。不同模態(tài)的信息往往具有高度的關(guān)聯(lián)性，從而綜合地作用于人類情感識別。因此，將多種模態(tài)的情感信息整合作用于情感計算的多模態(tài)情感識別研究具有重要的意義。

2、在早期的情感識別領(lǐng)域，研究人員大多采用單模態(tài)情感識別技術(shù)來實現(xiàn)人類情感的識別。單模態(tài)情感識別指的是僅利用單一類型的數(shù)據(jù)源來識別和理解情感的過程。通常情況下，這種單一數(shù)據(jù)源可以是語音、文本、圖像等。由于情緒是通過多種方式表達(dá)的，人類可以通過綜合面部表情、言語或其它信息來感知他人的情緒或意圖。因此，基于多模態(tài)信息的情感識別領(lǐng)域受到越來越多的關(guān)注。在多模態(tài)情感識別研究的初期，研究人員大多采用傳統(tǒng)的機(jī)器模型的方法進(jìn)行特征提取，如隱馬爾可夫模型(hmm)、高斯混合模型(gmm)等。然而，這些模型只能研究有限的情感語境信息，并不能充分利用人類情感變化緩慢、對語境信息依賴性強(qiáng)的特點(diǎn)。

3、近年來，隨著深度學(xué)習(xí)算法的快速發(fā)展，基于深度學(xué)習(xí)的情感識別技術(shù)展現(xiàn)了全新的活力。深度學(xué)習(xí)技術(shù)使得研究人員能夠從多模態(tài)數(shù)據(jù)中提取復(fù)雜的模態(tài)信息和微妙的細(xì)微差距，從而促進(jìn)對復(fù)雜情感表達(dá)的深層次理解。2021年，cao等人為了更好的捕獲高情感區(qū)分度特征，利用堆疊網(wǎng)絡(luò)hnsd構(gòu)建了一個多模態(tài)情感識別系統(tǒng)。2023年，xie等人提出了一種基于多任務(wù)學(xué)習(xí)和注意力機(jī)制的多模態(tài)情感識別方法，并在cmu-mosi和cmu-mosei數(shù)據(jù)庫上分別獲得85.36％和84.61％的情感識別率。2024年，li等人提出了一個具有跨模態(tài)約束的多模態(tài)共享網(wǎng)絡(luò)來實現(xiàn)連續(xù)情感識別任務(wù)。

4、語音和文本作為人類日常生活的情感信息的重要表現(xiàn)形式，為多模態(tài)情感識別系統(tǒng)提供了關(guān)鍵的判斷信息?？紤]到實際情況下語音和文本信息的異構(gòu)性，多模態(tài)情感識別技術(shù)能否有效地獲取語音和文本數(shù)據(jù)中的關(guān)鍵情感信息和互補(bǔ)信息，能否將提取到的語音和文本信息進(jìn)行有效地融合，這些都將影響著多模態(tài)情感識別系統(tǒng)的性能。

技術(shù)實現(xiàn)思路

1、本發(fā)明目的在于針對上述現(xiàn)有技術(shù)的缺陷和不足，提出了一種基于transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法，通過引入基于transformer的模態(tài)內(nèi)感知模塊，捕獲各個模態(tài)內(nèi)部的長距離依賴關(guān)系，實現(xiàn)情感特征的局部感知學(xué)習(xí)，降低深度特征中的冗余信息，還通過引入基于transformer的模態(tài)間交互融合模塊來捕捉不同模態(tài)間信息依賴關(guān)系，獲得融合后的多模態(tài)全局信息，充分利用了不同模態(tài)信息的互補(bǔ)性。本發(fā)明實現(xiàn)了對多模態(tài)情感識別的有效并行計算，提高了訓(xùn)練速度和識別性能，且具有更好的泛化能力和實用性。

2、本發(fā)明為解決其技術(shù)問題所采用的技術(shù)方案是：一種基于transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法，所述該方法包括如下步驟：

3、步驟1：對原始輸入的語音和文本模態(tài)分別進(jìn)行淺層特征提取，并引入梅爾譜圖-alexnet分支來彌補(bǔ)語音特征中空間信息的不足；

4、步驟2：將所提取的各類淺層特征輸入到深度編碼網(wǎng)絡(luò)獲取深層特征，針對文本模態(tài)，構(gòu)建grus網(wǎng)絡(luò)進(jìn)行深度編碼，針對語音模態(tài)，構(gòu)建cnns網(wǎng)絡(luò)進(jìn)行深度編碼，針對梅爾譜圖，構(gòu)建梅爾譜圖-alexnet分支；

5、步驟3：將深度編碼后的文本特征、多尺度話語級語音特征和梅爾譜圖特征輸入到基于transformer的模態(tài)內(nèi)感知模塊，獲取對模態(tài)內(nèi)關(guān)鍵情感信息的感知學(xué)習(xí)特征；

6、步驟4：將感知學(xué)習(xí)文本特征、感知學(xué)習(xí)多尺度語音特征和感知學(xué)習(xí)梅爾譜圖特征輸入到基于transformer的模態(tài)間交叉融合模塊，采用梅爾譜圖作為復(fù)用數(shù)據(jù)信息進(jìn)行交互融合，不同模態(tài)信息之間能夠進(jìn)行互補(bǔ)，將結(jié)果輸入情感分類器進(jìn)行情感判別分類；

7、步驟5：對所提出的一種基于transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法進(jìn)行性能評估。

8、進(jìn)一步地，所述步驟1的具體步驟包括：

9、步驟1-1：將各條文本信息通過word2vec子網(wǎng)絡(luò)，獲取300維話語級的文本特征向量；

10、步驟1-2：對每條語音信號采用不同的幀長進(jìn)行預(yù)處理，其中幀長分別取256、512，并使用librosa進(jìn)行特征提取，將不同尺度的語音特征進(jìn)行融合，得到750維多尺度話語級語音特征；

11、步驟1-3：采用librosa生成窗口大小為25ms，步長為10ms的梅爾譜圖并裁剪為224×224的大小，以獲得均勻大小的輸入，獲取語音信號中的時頻空間情感信息。

12、進(jìn)一步地，所述步驟2的具體步驟包括：

13、步驟2-1：輸入300維的word2vec特征到grus網(wǎng)絡(luò)，輸出為經(jīng)過1個masking層、2個gru層、1個dropout層提取后的深層特征；

14、步驟2-2：將750維的多尺度話語級語音特征輸入到由2個一維卷積塊組成的cnns網(wǎng)絡(luò)，其中，每個卷積塊包含1個一維卷積層、1個relu激活層和1個最大池化層；

15、步驟2-3：將224×224的梅爾譜圖輸入到預(yù)訓(xùn)練的alexnet網(wǎng)絡(luò)進(jìn)行深度編碼，設(shè)置alexnet網(wǎng)絡(luò)的最后一層全連接層的濾波器個數(shù)為300，獲得300維的梅爾譜圖信息。

16、進(jìn)一步地，所述步驟3的具體步驟包括：

17、步驟3-1：將深度編碼后的文本特征、多尺度話語級語音特征和梅爾譜圖特征分別輸入到transformer模塊運(yùn)算，提高模型對模態(tài)內(nèi)信息的感知學(xué)習(xí)效果；

18、步驟3-2：對通過transformer模塊運(yùn)算后得到的特征信息采用tanh層進(jìn)行非線性變化，進(jìn)一步增加感知模塊對于數(shù)據(jù)的捕獲能力，同時對來自transformer模塊的數(shù)據(jù)信息進(jìn)行sigmod函數(shù)運(yùn)算，使得特征數(shù)據(jù)的概率映射到(0，1)的區(qū)間；

19、步驟3-3：將上述步驟3-2兩輸出采用哈達(dá)瑪積運(yùn)算實現(xiàn)相同維度特征數(shù)據(jù)的逐元素乘積，獲得模態(tài)內(nèi)感知學(xué)習(xí)的輸出；

20、步驟3-4：考慮到各個模態(tài)數(shù)據(jù)的維度信息，分別在各個模態(tài)分支添加flatten層，進(jìn)行模態(tài)數(shù)據(jù)的拉平操作。

21、進(jìn)一步地，所述步驟3-1中，transformer模塊運(yùn)算的具體方法包括如下步驟：

22、步驟3-1-1：將深度編碼的文本特征和深度編碼的多尺度話語級語音特征輸入transformer_1模塊進(jìn)行運(yùn)算，其中，transformer_1模塊的層數(shù)為4，隱藏單元維度設(shè)置為128，前饋神經(jīng)網(wǎng)絡(luò)中隱藏層的維度為512，多頭注意力機(jī)制的頭數(shù)目為8，輸入形狀為300×256，位置編碼的最大長度為1000；

23、步驟3-1-2：深度編碼的梅爾譜圖特征輸入到transformer_2模塊，其參數(shù)與transformer_1的參數(shù)設(shè)置基本相同，不同的在于transformer_2的輸入形狀為300×512。

24、進(jìn)一步地，所述步驟4的具體步驟包括：

25、步驟4-1：將不同模態(tài)的信息輸入到多模態(tài)門控融合機(jī)制，采用梅爾譜圖作為復(fù)用數(shù)據(jù)信息進(jìn)行交互融合，得到文本-梅爾譜圖信息和多尺度語音-梅爾譜圖信息；

26、步驟4-2：將輸出的文本-梅爾譜圖信息和多尺度語音-梅爾譜圖信息分別輸入到transformer模塊中進(jìn)行特征計算，其中，transformer模塊的層數(shù)為4，隱藏單元維度設(shè)置為128，前饋神經(jīng)網(wǎng)絡(luò)中隱藏層的維度為512，多頭注意力機(jī)制的頭數(shù)目為8，輸入形狀為300×256，位置編碼的最大長度為1000；

27、步驟4-3：通過sigmoid函數(shù)進(jìn)行加權(quán)值計算，獲取transformer特征信息的激活值，對樣本數(shù)據(jù)中關(guān)鍵情感特征信息進(jìn)行有效篩選；

28、步驟4-4：將上述特征信息的激活值與transformer特征信息進(jìn)行哈達(dá)瑪積運(yùn)算，并通過concat操作獲得最終的多模態(tài)情感特征表征。

29、進(jìn)一步地，所述步驟5中，對所提出的一種基于transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法進(jìn)行性能評估的具體方法包括如下步驟：

30、步驟5-1：將基于transformer模態(tài)內(nèi)感知和模態(tài)間門控交互的多模態(tài)情感識別方法和基于模態(tài)內(nèi)感知和模態(tài)間門控交互的多模態(tài)情感識別方法進(jìn)行對比實驗，驗證基于transformer模態(tài)內(nèi)感知模塊的有效性；

31、步驟5-2：將基于transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法與基于transformer模態(tài)內(nèi)感知和模態(tài)間門控交互的多模態(tài)情感識別方法進(jìn)行對比實驗，驗證基于transformer模態(tài)間交叉融合模塊的有效性；

32、有益效果：

33、1、本發(fā)明提出了基于transformer的模態(tài)內(nèi)感知模塊，利用transformer的自注意力機(jī)制實現(xiàn)情感特征的局部學(xué)習(xí)，降低深度特征中的冗余信息，實現(xiàn)特征的有效篩選。

34、2、本發(fā)明為了融合未對齊的多模態(tài)序列信息，充分利用不同模態(tài)信息的互補(bǔ)性，本發(fā)明引入了基于transformer的模態(tài)間交互融合模塊，該模塊用來探索不同模態(tài)間信息依賴關(guān)系，獲得融合后的多模態(tài)全局信息。

35、3、本發(fā)明通過transformer機(jī)制可以實現(xiàn)序列內(nèi)信息依賴關(guān)系的建模，實現(xiàn)完全的并行計算，并提高訓(xùn)練速度和識別性能，且具有更好的泛化能力和實用性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫林慧,蘇繼綺,王靜,李平安,葉蕾
技術(shù)所有人：南京郵電大學(xué)
我是此專利的發(fā)明人

上一篇：一種計算機(jī)生產(chǎn)用殼體噴涂裝置的制作方法
上一篇：一種魚塘用增氧機(jī)控制器的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于Transformer模態(tài)內(nèi)感知和模態(tài)間交叉融合的多模態(tài)情感識別方法