一種應(yīng)用于移動終端的語音情感識別方法

文檔序號：7804385閱讀：253來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種應(yīng)用于移動終端的語音情感識別方法
【專利摘要】本發(fā)明為一種用以提取語音情感信息的方法，其特征在于通過數(shù)據(jù)采集或通信過程，由移動電話、計算機(jī)、錄音筆等設(shè)備采集或傳輸語音數(shù)據(jù)，并由說話人無關(guān)及說話人相關(guān)兩種方法識別說話人情感。本發(fā)明中采用的說話人無關(guān)情感信息提取方法由語音數(shù)據(jù)庫錄制以及語音情感建模兩部分構(gòu)成。其中語音數(shù)據(jù)庫部分作為訓(xùn)練情感識別器的基準(zhǔn)，包含至少一個情感語音數(shù)據(jù)庫；語音情感建模部分用以建立作為情感識別器的語音情感模型。本發(fā)明中采用的說話人相關(guān)情感信息提取方法準(zhǔn)確率可達(dá)80％，其通過統(tǒng)計學(xué)方式調(diào)整內(nèi)部參數(shù)從而識別語音信號中的情感。該方法能夠以描述基本情感的一組特殊參數(shù)來識別其他復(fù)雜情感。
【專利說明】一種應(yīng)用于移動終端的語音情感識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種人類情感識別方法，主要涉及信號處理、模式識別和情感計算領(lǐng)域。
【背景技術(shù)】
[0002]隨著計算機(jī)運算能力不斷提高，人工智能及模式識別算法不斷發(fā)展，讓計算機(jī)擁有與人交流的能力已不再遙不可及。在人與人的日常交流中，語音作為一種主要信息載體，承載著大量說話人所表達(dá)的信息。傳統(tǒng)的語音識別算法僅關(guān)注語音的文字內(nèi)容及其含義，而忽略了語音中包含的情感。
[0003]情感計算是研究計算機(jī)對人類情感的感知和表達(dá)等方式方法的研究領(lǐng)域。情感在人際交流中起著彌足輕重的作用，通過情感交流，交談雙方可以加深彼此了解及信任，以及創(chuàng)造更和諧的交流環(huán)境等。情感計算賦予計算機(jī)以感受人類情感的能力。由于說話人語音特征會隨著其情緒狀態(tài)而產(chǎn)生不同變化，其中包含大量情感信息，因此借助模式識別等技術(shù)，通過分析語音信號，發(fā)掘與情感相關(guān)的信息并判斷說話人的情感狀態(tài)的語音情感識別技術(shù)在情感計算和人機(jī)交互中均具有重要意義。
[0004]目前針對語音情感識別技術(shù)的研究多停留在理論階段，實際應(yīng)用尚少。此外，由于識別精度和普適程度往往難以平衡，現(xiàn)有的理論研究多偏重其中一點，即采用說話人相關(guān)的識別方法提高識別率，以及說話人無關(guān)的識別方法提高普適性。而在實際應(yīng)用中針對這一問題仍缺乏行之有效的解決方法。
[0005]將情感識別方法應(yīng)用于如智能手機(jī)、平板電腦等移動終端，可以令使用者與設(shè)備之間的交互更加自然和諧，使屏幕兩端的用戶以直觀的方式表達(dá)和感受對方的情感；同時也能夠提供基于移動設(shè)備的用戶情感監(jiān)測平臺，以用戶負(fù)面情感為觸發(fā)信息實時監(jiān)測危險事件，保障人身安全。

【發(fā)明內(nèi)容】

[0006]本發(fā)明為一種用于移動計算平臺的語音情感識別的方法，通過處理語音數(shù)據(jù)，識別用戶當(dāng)前通過語音表達(dá)的主要情感。通過結(jié)合說話人無關(guān)和說話人相關(guān)兩種語音情感識別方式，極大提高了本方法在應(yīng)用過程中的識別精度和普適能力。
[0007]語音情感識別方法包括如下步驟，如圖1所示:
[0008]a)通過輸入預(yù)定的錄音腳本，記錄環(huán)境信息，獲取語音數(shù)據(jù)，對語音數(shù)據(jù)作可用性判別及情感類別劃分等步驟，錄制情感語音數(shù)據(jù)庫，作為情感識別器的基準(zhǔn)；
[0009]b)通過提取情感語音數(shù)據(jù)庫中語音數(shù)據(jù)的特征信息，選取特定的特征組合，經(jīng)特征降維構(gòu)成訓(xùn)練集；建立多層結(jié)構(gòu)的情感識別器，以訓(xùn)練集訓(xùn)練情感識別器等步驟建立和訓(xùn)練說話人無關(guān)識別器；
[0010]c)通過獲取數(shù)據(jù)庫中的語音數(shù)據(jù)對應(yīng)的個人信息，構(gòu)建個性化情感模型，建立情感識別器，然后根據(jù)數(shù)據(jù)庫中的語音數(shù)據(jù)校準(zhǔn)情感識別器內(nèi)部參數(shù)，訓(xùn)練情感識別器，從而獲得說話人相關(guān)識別器。
[0011]d)通過語音采集設(shè)備獲取用戶語音數(shù)據(jù)；
[0012]e)對該用戶的語音數(shù)據(jù)進(jìn)行分析，判斷該語音數(shù)據(jù)是否能被說話人相關(guān)識別器處理，若是，則使用說話人相關(guān)識別器進(jìn)行情感識別，并進(jìn)行步驟g);若否，則進(jìn)行步驟f);
[0013]f)使用說話人無關(guān)識別器進(jìn)行情感識別；
[0014]g)得到情感識別結(jié)果。
[0015]本發(fā)明的特點在于其所使用的情感識別方法具有較高的識別準(zhǔn)確率，一般情況下不低于80%。該方法所建立的模型通過采用一定數(shù)量的特殊參數(shù)(特征)將數(shù)據(jù)庫中的條目同某種特定情緒相關(guān)聯(lián)的方式識別情感。為了追求更高的可信度及精度，所用的特征以統(tǒng)計形式表示。本系統(tǒng)由錄音設(shè)備、處理器、傳輸系統(tǒng)及具備情感識別能力的電子接收設(shè)備等構(gòu)成。該系統(tǒng)可以以圖像、文字等數(shù)據(jù)形式傳輸識別結(jié)果。在開始使用前，本系統(tǒng)需要采集說話人的情感語音進(jìn)行簡短的校準(zhǔn)。
【專利附圖】

【附圖說明】
[0016]圖1為本語音情感識別方法流程圖
[0017]圖2為本方法所提取的特征之一，逐幀自相關(guān)密度；
[0018]圖3為多層識別器結(jié)構(gòu)示意圖；
[0019]圖4為由支持向量機(jī)獲得的特征在高維空間中的可分性表達(dá)；
[0020]圖5為多層人工神經(jīng)網(wǎng)絡(luò)拓?fù)鋱D；
[0021]圖6為多層識別器各層識別率結(jié)果；
[0022]圖7為一種典型應(yīng)用場景；
[0023]圖8為用以表達(dá)正向情感的圖像序列；
[0024]圖9為用以表達(dá)說話人情感狀態(tài)的花瓣圖，圖中每一片“花瓣”的長度代表一種情感的強(qiáng)度；從左至右依次表示“較強(qiáng)的情緒平衡狀態(tài)”，“較弱的情緒平衡狀態(tài)”及“情緒失衡狀態(tài)”；
[0025]圖10為各種情感在AV情感空間中的表示；
[0026]圖11情感識別算法的核心分類決策系統(tǒng)模型示意圖；
【具體實施方式】
[0027]本發(fā)明的所采用的情感識別方法分為三個階段:情感的識別，情感的解析，情感的傳輸。采用激活度-優(yōu)勢度(ArouSal-ValenCe，AV)情感空間所定義的規(guī)則作為識別標(biāo)準(zhǔn)。AV情感空間由兩個坐標(biāo)軸所構(gòu)成的平面表示，其中A為激活度(包含正向和反向)，V為優(yōu)勢度(包含正向和反向)，如圖10所示。本發(fā)明中所采用的情感識別方法具備新穎性，其不針對大量說話人做統(tǒng)計分析，不通過確定與情感相關(guān)的參數(shù)的平均值識別情感。在傳統(tǒng)的基于統(tǒng)計分析的情感識別方法中，同一情感可能會有多種表示方式，其會受到語音的聲調(diào)、說話人的個性、聲道特性、發(fā)音時間等諸多因素的影響，并且難以給出確切的客觀描述。本發(fā)明具有兩種不同的情感識別方法:說話人不相關(guān)的識別方法，其具有不依賴個性化信息且易于使用的優(yōu)點；說話人相關(guān)的識別方法，其與說話人的身份密切相關(guān)，并且可以應(yīng)用于復(fù)雜場景。兩種方法相互補(bǔ)償，因此顯著提高了情感識別結(jié)果的準(zhǔn)確性和普適程度。[0028]本發(fā)明所包含的情感語音數(shù)據(jù)庫錄制過程，需要考慮到語音數(shù)據(jù)的自然度、情感極性、情感強(qiáng)度等多種特征。為了盡量提高語音數(shù)據(jù)的自然度，減小控制條件對于被試者的影響，在獲取數(shù)據(jù)之前需要對實驗環(huán)境進(jìn)行簡要處理，如調(diào)整環(huán)境溫濕度、燈光亮度、噪聲程度等，使其接近于日常生活環(huán)境。另外，對如生氣、驚訝等高強(qiáng)度情感進(jìn)行采集時，需要進(jìn)行合理的誘導(dǎo)，使被試者進(jìn)入適當(dāng)?shù)那楦袪顟B(tài)。在采集過程中，應(yīng)嚴(yán)格遵循數(shù)據(jù)庫采集規(guī)范，對于采集系統(tǒng)的操作應(yīng)由專人負(fù)責(zé)。對于獲取的語音數(shù)據(jù)，應(yīng)逐條作可用性判別及情感類別劃分，將所得結(jié)果同語音數(shù)據(jù)一起錄入數(shù)據(jù)庫中。
[0029]本發(fā)明所包含的兩種情感識別方法如下所述:
[0030]方法一為說話人無關(guān)情感識別方法，其包含數(shù)據(jù)庫建立，特征提取，特征維數(shù)約減，多層識別器的構(gòu)造與分類器選擇等步驟。數(shù)據(jù)庫(或稱作語料庫)中包含由多位年齡、背景不同的說話人所錄制的、表達(dá)不同情感的語音條目組成。語音條目，并作為特征提取的原始材料。特征提取過程為從語音信號中提取與情感相關(guān)的多種參數(shù)，即特征。為了達(dá)到更好的魯棒性和精度，本方法中采用多種特征，其中一種特征(自相關(guān)密度)如圖2所示。提取后的特征由循環(huán)特征選取算法及Fisher比率作為依據(jù)，組合成不同的特征集。Fisher比率由如下公式計算:
[0031]F = diag(Sa./Sb)
[0032]其中
【權(quán)利要求】
1.一種用于移動計算平臺的語音情感識別的方法；以說話人無關(guān)和說話人相關(guān)兩種方式處理語音信息，識別說話人當(dāng)前通過語音表達(dá)的主要情感，包括以下步驟: a)錄制情感語音數(shù)據(jù)庫，作為情感識別器的基準(zhǔn)； b)建立和訓(xùn)練說話人無關(guān)識別器，并構(gòu)建多層識別器模型； c)建立和訓(xùn)練說話人相關(guān)識別器，以情感語音數(shù)據(jù)庫或用戶個性化信息作為基準(zhǔn)，校正識別器內(nèi)部參數(shù)； d)獲取用戶語音數(shù)據(jù)； e)對該用戶的語音數(shù)據(jù)進(jìn)行分析，判斷該語音數(shù)據(jù)是否能被說話人相關(guān)識別器處理，若是，則使用說話人相關(guān)識別器進(jìn)行情感識別，并進(jìn)行步驟g);若否，則進(jìn)行步驟f); f)使用說話人無關(guān)識別器進(jìn)行情感識別； g)得到情感識別結(jié)果。
2.如權(quán)利要求1所述的方法，錄制情感語音數(shù)據(jù)庫的步驟包括: 1)輸入預(yù)定的錄音腳本； 2)記錄錄音環(huán)境的信息； 3)根據(jù)錄音腳本的要求，獲取語音數(shù)據(jù)； 4)對語音數(shù)據(jù)作可用性判別，將適用數(shù)據(jù)收錄進(jìn)數(shù)據(jù)庫； 5)對每條數(shù)據(jù)作情感類別劃分，并進(jìn)行標(biāo)定； 6)重復(fù)步驟3)至5)，直至獲取情感語音數(shù)據(jù)庫的全部語音數(shù)據(jù)。
3.如權(quán)利要求1所述的方法，說話人無關(guān)識別器的建立和訓(xùn)練過程如下: 1)提取情感語音數(shù)據(jù)庫中語音數(shù)據(jù)的特征信息； 2)選取特定的特征組合，構(gòu)成特征集； 3)對特征集進(jìn)行特征降維，得到訓(xùn)練集； 4)由多個情感分類器建立說話人無關(guān)情感識別器，該情感識別器為多層結(jié)構(gòu)，每一層將語音信號的情感類別進(jìn)行逐層細(xì)分； 5)使用上述訓(xùn)練集訓(xùn)練情感識別器。
4.如權(quán)利要求1所述的方法，說話人相關(guān)識別器的建立和訓(xùn)練過程如下: 1)獲取數(shù)據(jù)庫中的語音數(shù)據(jù)對應(yīng)的個人信息； 2)根據(jù)該個人信息，構(gòu)建個性化情感模型，建立情感識別器； 3)根據(jù)數(shù)據(jù)庫中的語音數(shù)據(jù)校準(zhǔn)情感識別器內(nèi)部參數(shù)，訓(xùn)練情感識別器。
5.如權(quán)利要求1所述的方法，在步驟d)與步驟e)之間，包括如下步驟: 1)獲取用戶周圍的環(huán)境信息，自動調(diào)整情感識別器的參數(shù)； 2)對所獲取的語音數(shù)據(jù)進(jìn)行降噪處理及針對所述環(huán)境信息的優(yōu)化處理。
6.如權(quán)利要求2所述的方法，記錄錄音環(huán)境的信息包括環(huán)境溫度，濕度，噪聲水平，亮度。
7.如權(quán)利要求3所述的方法，特征信息包括:能量，過零率，基頻，共振峰，頻譜質(zhì)心，截斷頻率，自相關(guān)密度，分形維數(shù)，Mel倒譜系數(shù)。
8.如權(quán)利要求4所述的方法，個人信息包括:性別，年齡，職業(yè)，國籍。
9.如權(quán)利要求1-8任意之一所述的方法,可用于:智能設(shè)備，該設(shè)備可感知用戶以語音所表達(dá)的情感，進(jìn)而改變該智能設(shè)備的行為邏輯，使用戶通過語音情感控制該智能設(shè)備；或自動報警設(shè)備，該設(shè)備可感知語音中危險情感，并實時傳輸至監(jiān)控中心；或醫(yī)療設(shè)備，協(xié)同醫(yī)用電子系統(tǒng)監(jiān)控患者的情緒狀態(tài)，并實時顯示、監(jiān)控、處理并存儲患者的情感數(shù)據(jù) 。
【文檔編號】H04M1/725GK104036776SQ201410218988
【公開日】2014年9月10日申請日期:2014年5月22日優(yōu)先權(quán)日:2014年5月22日
【發(fā)明者】毛峽, 阿爾伯托·羅貝塔, 陳立江, 安東尼奧·托特拉, 彭一平, 馬修·都德斯卡都, 保羅·馬爾切利尼申請人:毛峽, 阿爾伯托·羅貝塔

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：毛峽;阿爾伯托·羅貝塔;陳立江;安東尼奧·托特拉;彭一平;馬修·都德斯卡都;保羅·馬爾切利尼
技術(shù)所有人：毛峽;阿爾伯托·羅貝塔
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音情感識別相關(guān)技術(shù)

2016移動終端市場分析相關(guān)技術(shù)

手機(jī)語音識別功能相關(guān)技術(shù)

語音情感識別源代碼相關(guān)技術(shù)

語音情感識別研究現(xiàn)狀相關(guān)技術(shù)

語音情感識別華科相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種應(yīng)用于移動終端的語音情感識別方法