本申請涉及信息技術(shù)和通信,主要涉及一種基于多模態(tài)對比學(xué)習(xí)的蒙語情感識別方法。
背景技術(shù):
1、在人工智能領(lǐng)域,情感識別已成為一個極具挑戰(zhàn)性和價(jià)值的研究領(lǐng)域。尤其是對于多模態(tài)情感識別,它涉及到從視頻、音頻和文本等多種數(shù)據(jù)源中提取情感信號。針對蒙語這樣的低資源語言,開發(fā)有效的多模態(tài)情感識別技術(shù)尤為重要,因?yàn)檫@可以促進(jìn)語言技術(shù)的多樣性和包容性,同時也對實(shí)際應(yīng)用如教育、媒體監(jiān)控和客戶服務(wù)等領(lǐng)域提供支持。情感分類問題通常分為固定類別與開放集零樣本分類。固定類別分類這一方法通常依賴于大量標(biāo)注好的訓(xùn)練數(shù)據(jù),通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)(cnn)或循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn),來識別圖像中的標(biāo)準(zhǔn)情感標(biāo)簽。固定類別分類的挑戰(zhàn)在于如何處理非標(biāo)準(zhǔn)表情或文化特定的情感表達(dá),這在蒙語視頻中尤為常見。開放集零樣本分類技術(shù)使得模型能識別訓(xùn)練階段未見過的情感類別,通常依賴于算法的泛化能力。實(shí)現(xiàn)這一目標(biāo)的技術(shù)之一是零樣本學(xué)習(xí),它通過理解情感的高層語義屬性來推斷未知類別。此外,引入外部知識庫和語義網(wǎng)絡(luò),如詞匯網(wǎng)絡(luò)(wordnet)或知識圖網(wǎng)絡(luò)(conceptnet),可以幫助模型理解情感之間的關(guān)系,從而提高其識別新情感的能力。
2、情感分類問題主要有兩種形式:一種是固定類別的分類,另一種是開放集零樣本分類。固定類別的分類方法主要依賴于大量已標(biāo)注的訓(xùn)練數(shù)據(jù),通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以識別圖像中的標(biāo)準(zhǔn)情感標(biāo)簽,然而這種方法難以處理蒙語視頻圖像中非標(biāo)準(zhǔn)表情或特定文化背景下的情感表達(dá)。另一方面,開放集零樣本分類技術(shù)則讓模型具備了識別訓(xùn)練階段未曾見過的情感類別的能力,這種方法通過理解和把握情感的高層語義屬性,從而推斷出未知的情感類別。
技術(shù)實(shí)現(xiàn)思路
1、針對目前的現(xiàn)有技術(shù)中存在的問題,本申請?zhí)岢隽艘环N高可靠性可編程智能消息處理方法和裝置。
2、根據(jù)本發(fā)明的一方面,提出了一種基于多模態(tài)對比學(xué)習(xí)的蒙語情感識別方法,包括:
3、s1、收集蒙語資料,構(gòu)造圖文對數(shù)據(jù)集,利用bpe字節(jié)對編碼算法對所述蒙語資料進(jìn)行詞切分生成語言模型,利用roberta模型結(jié)構(gòu)對所述語言模型進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練模型;
4、s2、所述預(yù)訓(xùn)練模型第一階段初始化為chinese-clip圖像塔,利用凍結(jié)圖像編碼器對訓(xùn)練數(shù)據(jù)集中的圖像參數(shù)進(jìn)行凍結(jié),得到凍結(jié)參數(shù)的圖像數(shù)據(jù);利用文本編碼器讀出所述訓(xùn)練數(shù)據(jù)集中的高質(zhì)量文本表示,利用對比損失函數(shù)對所述凍結(jié)參數(shù)的圖像數(shù)據(jù)和所述高質(zhì)量文本表示進(jìn)行對比損失優(yōu)化;
5、s3、所述預(yù)訓(xùn)練模型第二階段初始化為蒙語語言預(yù)訓(xùn)練roberta模型,利用開放圖像編碼器解凍所述第一階段中凍結(jié)的圖像參數(shù),再次利用對比損失函數(shù)對圖像數(shù)據(jù)和蒙語文本數(shù)據(jù)進(jìn)行對比損失優(yōu)化。
6、進(jìn)一步的,所述圖文對數(shù)據(jù)集的采集具體步驟包括:遍歷所述蒙語資料中的圖像,將選中的圖像與其配對的文本組合為正樣本對,與其他所有文本組合為負(fù)樣本對,從而構(gòu)造出所述圖文對數(shù)據(jù)集。
7、在預(yù)訓(xùn)練階段,在蒙語新聞網(wǎng)站中收集蒙語資料,構(gòu)造大規(guī)模的圖文對數(shù)據(jù)集。圖文對數(shù)據(jù)集結(jié)合了視覺和文本兩種不同的信息源,使得模型能夠同時從圖像和相關(guān)文本描述中學(xué)習(xí),從而理解更復(fù)雜的概念和上下文,即多模態(tài)信息融合。
8、進(jìn)一步的,所述圖文對數(shù)據(jù)集進(jìn)一步構(gòu)造訓(xùn)練數(shù)據(jù)集,具體步驟包括:利用chinese-clip刪除所述圖文對數(shù)據(jù)集中分?jǐn)?shù)低于0.3、少于5個字符或超過50個字符的樣本,同時將帶有特定文本表達(dá)的樣本列為黑名單,剩下的樣本數(shù)據(jù)調(diào)整分辨率為vit-l/14@336px模型結(jié)構(gòu)支持的336*336,構(gòu)成訓(xùn)練數(shù)據(jù)集。
9、其中,vit-l/14@336px模型是指vision?transformer(vit)的一個特定變體,其中"l"代表large,"14"指的是圖像被分割成14×14的補(bǔ)丁(patch),而"@336px"表示該模型接受的輸入圖像大小為336像素×336像素。
10、vit-l/14一個較大的模型配置,會有更多的層和更大的參數(shù)量,以實(shí)現(xiàn)更高的準(zhǔn)確度。輸入圖像大小為336像素×336像素,相比于標(biāo)準(zhǔn)的224×224或其他尺寸,可以提供更詳細(xì)的圖像信息。
11、其中,chinese-clip的工作原理是通過對比學(xué)習(xí)的方式,將文本和圖像編碼為相同的向量空間,使得語義上相關(guān)的文本和圖像在向量空間中彼此靠近。這樣,模型就能夠?qū)W會在語義層面上將文本和圖像關(guān)聯(lián)起來。
12、進(jìn)一步的,所述對比損失函數(shù)采用infonce?loss,具體公式表示為:
13、
14、其中,q表示正樣本,p表示負(fù)樣本,k表示負(fù)樣本的數(shù)量,表示溫度系數(shù),表示第i個負(fù)樣本,i的范圍為0到k,exp表示指數(shù)函數(shù)。
15、對比損失函數(shù)采用infonce?loss是為了學(xué)習(xí)一個共同的嵌入空間,其中文本和圖像可以被映射到一起,以便于它們可以根據(jù)語義相似性相互檢索或匹配。
16、同時,可以概率計(jì)算,使用softmax函數(shù)將這些相似度分?jǐn)?shù)轉(zhuǎn)換為概率分布。這樣,正樣本將有較高的概率值,而負(fù)樣本將有較低的概率值。
17、根據(jù)本發(fā)明的第二方面,提出了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有一或多個計(jì)算機(jī)程序,該一或多個計(jì)算機(jī)程序被計(jì)算機(jī)處理器執(zhí)行時實(shí)施上述的方法。
18、本申請實(shí)施例中的上述一個或多個技術(shù)方案,至少具有如下技術(shù)效果之一:
19、本發(fā)明方法能夠高效地將中文語義遷移至蒙語語義,同時在特征空間中實(shí)現(xiàn)齊蒙語語義與圖像語義對齊。蒙語多模態(tài)情感識別技術(shù)的發(fā)展將大大促進(jìn)人工智能領(lǐng)域的多樣性和包容性,為蒙語使用者提供更貼心、更智能的服務(wù),同時推動相關(guān)技術(shù)在全球范圍內(nèi)的應(yīng)用和發(fā)展。通過不斷的技術(shù)創(chuàng)新和應(yīng)用實(shí)踐,我們可以期待未來人機(jī)交互領(lǐng)域?qū)⒏尤诵曰?、智能化。將這些技術(shù)應(yīng)用到實(shí)際中,如在線客戶服務(wù)可以通過情感識別來改進(jìn)服務(wù)質(zhì)量,教育領(lǐng)域中,教師可以根據(jù)學(xué)生的情緒狀態(tài)調(diào)整教學(xué)策略。在安全監(jiān)控領(lǐng)域,情感識別可以幫助預(yù)測并防范潛在的沖突和危險(xiǎn)行為。
1.一種基于多模態(tài)對比學(xué)習(xí)的蒙語情感識別方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的蒙語情感識別方法,其特征在于,所述圖文對數(shù)據(jù)集的采集具體步驟包括:遍歷所述蒙語資料中的圖像,將選中的圖像與其配對的文本組合為正樣本對,與其他所有文本組合為負(fù)樣本對,從而構(gòu)造出所述圖文對數(shù)據(jù)集。
3.根據(jù)權(quán)利要求1或2所述的蒙語情感識別方法,其特征在于,利用所述圖文對數(shù)據(jù)集,進(jìn)一步構(gòu)造訓(xùn)練數(shù)據(jù)集,具體步驟包括:利用chinese-clip刪除所述圖文對數(shù)據(jù)集中分?jǐn)?shù)低于0.3、少于5個字符或超過50個字符的樣本,同時將帶有特定文本表達(dá)的樣本列為黑名單,剩下的樣本數(shù)據(jù)調(diào)整分辨率為vit-l/14@336px模型結(jié)構(gòu)支持的336*336,構(gòu)成訓(xùn)練數(shù)據(jù)集。
4.根據(jù)權(quán)利要求1所述的蒙語情感識別方法,其特征在于,所述對比學(xué)習(xí)損失函數(shù)采用infonce?loss,具體公式表示為:
5.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時實(shí)施如權(quán)利要求1-4中任一項(xiàng)所述的方法。
6.一種計(jì)算系統(tǒng),其特征在于,包括處理器和存儲器,所述處理器被配置為執(zhí)行如權(quán)利要求1-4中任一項(xiàng)所述的方法。