一種應(yīng)用于移動終端的語音情感識別方法
【專利摘要】本發(fā)明為一種用以提取語音情感信息的方法,其特征在于通過數(shù)據(jù)采集或通信過程,由移動電話、計算機(jī)、錄音筆等設(shè)備采集或傳輸語音數(shù)據(jù),并由說話人無關(guān)及說話人相關(guān)兩種方法識別說話人情感。本發(fā)明中采用的說話人無關(guān)情感信息提取方法由語音數(shù)據(jù)庫錄制以及語音情感建模兩部分構(gòu)成。其中語音數(shù)據(jù)庫部分作為訓(xùn)練情感識別器的基準(zhǔn),包含至少一個情感語音數(shù)據(jù)庫;語音情感建模部分用以建立作為情感識別器的語音情感模型。本發(fā)明中采用的說話人相關(guān)情感信息提取方法準(zhǔn)確率可達(dá)80%,其通過統(tǒng)計學(xué)方式調(diào)整內(nèi)部參數(shù)從而識別語音信號中的情感。該方法能夠以描述基本情感的一組特殊參數(shù)來識別其他復(fù)雜情感。
【專利說明】一種應(yīng)用于移動終端的語音情感識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種人類情感識別方法,主要涉及信號處理、模式識別和情感計算領(lǐng)域。
【背景技術(shù)】
[0002]隨著計算機(jī)運算能力不斷提高,人工智能及模式識別算法不斷發(fā)展,讓計算機(jī)擁有與人交流的能力已不再遙不可及。在人與人的日常交流中,語音作為一種主要信息載體,承載著大量說話人所表達(dá)的信息。傳統(tǒng)的語音識別算法僅關(guān)注語音的文字內(nèi)容及其含義,而忽略了語音中包含的情感。
[0003]情感計算是研究計算機(jī)對人類情感的感知和表達(dá)等方式方法的研究領(lǐng)域。情感在人際交流中起著彌足輕重的作用,通過情感交流,交談雙方可以加深彼此了解及信任,以及創(chuàng)造更和諧的交流環(huán)境等。情感計算賦予計算機(jī)以感受人類情感的能力。由于說話人語音特征會隨著其情緒狀態(tài)而產(chǎn)生不同變化,其中包含大量情感信息,因此借助模式識別等技術(shù),通過分析語音信號,發(fā)掘與情感相關(guān)的信息并判斷說話人的情感狀態(tài)的語音情感識別技術(shù)在情感計算和人機(jī)交互中均具有重要意義。
[0004]目前針對語音情感識別技術(shù)的研究多停留在理論階段,實際應(yīng)用尚少。此外,由于識別精度和普適程度往往難以平衡,現(xiàn)有的理論研究多偏重其中一點,即采用說話人相關(guān)的識別方法提高識別率,以及說話人無關(guān)的識別方法提高普適性。而在實際應(yīng)用中針對這一問題仍缺乏行之有效的解決方法。
[0005]將情感識別方法應(yīng)用于如智能手機(jī)、平板電腦等移動終端,可以令使用者與設(shè)備之間的交互更加自然和諧,使屏幕兩端的用戶以直觀的方式表達(dá)和感受對方的情感;同時也能夠提供基于移動設(shè)備的用戶情感監(jiān)測平臺,以用戶負(fù)面情感為觸發(fā)信息實時監(jiān)測危險事件,保障人身安全。
【發(fā)明內(nèi)容】
[0006]本發(fā)明為一種用于移動計算平臺的語音情感識別的方法,通過處理語音數(shù)據(jù),識別用戶當(dāng)前通過語音表達(dá)的主要情感。通過結(jié)合說話人無關(guān)和說話人相關(guān)兩種語音情感識別方式,極大提高了本方法在應(yīng)用過程中的識別精度和普適能力。
[0007]語音情感識別方法包括如下步驟,如圖1所示:
[0008]a)通過輸入預(yù)定的錄音腳本,記錄環(huán)境信息,獲取語音數(shù)據(jù),對語音數(shù)據(jù)作可用性判別及情感類別劃分等步驟,錄制情感語音數(shù)據(jù)庫,作為情感識別器的基準(zhǔn);
[0009]b)通過提取情感語音數(shù)據(jù)庫中語音數(shù)據(jù)的特征信息,選取特定的特征組合,經(jīng)特征降維構(gòu)成訓(xùn)練集;建立多層結(jié)構(gòu)的情感識別器,以訓(xùn)練集訓(xùn)練情感識別器等步驟建立和訓(xùn)練說話人無關(guān)識別器;
[0010]c)通過獲取數(shù)據(jù)庫中的語音數(shù)據(jù)對應(yīng)的個人信息,構(gòu)建個性化情感模型,建立情感識別器,然后根據(jù)數(shù)據(jù)庫中的語音數(shù)據(jù)校準(zhǔn)情感識別器內(nèi)部參數(shù),訓(xùn)練情感識別器,從而獲得說話人相關(guān)識別器。
[0011]d)通過語音采集設(shè)備獲取用戶語音數(shù)據(jù);
[0012]e)對該用戶的語音數(shù)據(jù)進(jìn)行分析,判斷該語音數(shù)據(jù)是否能被說話人相關(guān)識別器處理,若是,則使用說話人相關(guān)識別器進(jìn)行情感識別,并進(jìn)行步驟g);若否,則進(jìn)行步驟f);
[0013]f)使用說話人無關(guān)識別器進(jìn)行情感識別;
[0014]g)得到情感識別結(jié)果。
[0015]本發(fā)明的特點在于其所使用的情感識別方法具有較高的識別準(zhǔn)確率,一般情況下不低于80%。該方法所建立的模型通過采用一定數(shù)量的特殊參數(shù)(特征)將數(shù)據(jù)庫中的條目同某種特定情緒相關(guān)聯(lián)的方式識別情感。為了追求更高的可信度及精度,所用的特征以統(tǒng)計形式表示。本系統(tǒng)由錄音設(shè)備、處理器、傳輸系統(tǒng)及具備情感識別能力的電子接收設(shè)備等構(gòu)成。該系統(tǒng)可以以圖像、文字等數(shù)據(jù)形式傳輸識別結(jié)果。在開始使用前,本系統(tǒng)需要采集說話人的情感語音進(jìn)行簡短的校準(zhǔn)。
【專利附圖】
【附圖說明】
[0016]圖1為本語音情感識別方法流程圖
[0017]圖2為本方法所提取的特征之一,逐幀自相關(guān)密度;
[0018]圖3為多層識別器結(jié)構(gòu)示意圖;
[0019]圖4為由支持向量機(jī)獲得的特征在高維空間中的可分性表達(dá);
[0020]圖5為多層人工神經(jīng)網(wǎng)絡(luò)拓?fù)鋱D;
[0021]圖6為多層識別器各層識別率結(jié)果;
[0022]圖7為一種典型應(yīng)用場景;
[0023]圖8為用以表達(dá)正向情感的圖像序列;
[0024]圖9為用以表達(dá)說話人情感狀態(tài)的花瓣圖,圖中每一片“花瓣”的長度代表一種情感的強(qiáng)度;從左至右依次表示“較強(qiáng)的情緒平衡狀態(tài)”,“較弱的情緒平衡狀態(tài)”及“情緒失衡狀態(tài)”;
[0025]圖10為各種情感在AV情感空間中的表示;
[0026]圖11情感識別算法的核心分類決策系統(tǒng)模型示意圖;
【具體實施方式】
[0027]本發(fā)明的所采用的情感識別方法分為三個階段:情感的識別,情感的解析,情感的傳輸。采用激活度-優(yōu)勢度(ArouSal-ValenCe,AV)情感空間所定義的規(guī)則作為識別標(biāo)準(zhǔn)。AV情感空間由兩個坐標(biāo)軸所構(gòu)成的平面表示,其中A為激活度(包含正向和反向),V為優(yōu)勢度(包含正向和反向),如圖10所示。本發(fā)明中所采用的情感識別方法具備新穎性,其不針對大量說話人做統(tǒng)計分析,不通過確定與情感相關(guān)的參數(shù)的平均值識別情感。在傳統(tǒng)的基于統(tǒng)計分析的情感識別方法中,同一情感可能會有多種表示方式,其會受到語音的聲調(diào)、說話人的個性、聲道特性、發(fā)音時間等諸多因素的影響,并且難以給出確切的客觀描述。本發(fā)明具有兩種不同的情感識別方法:說話人不相關(guān)的識別方法,其具有不依賴個性化信息且易于使用的優(yōu)點;說話人相關(guān)的識別方法,其與說話人的身份密切相關(guān),并且可以應(yīng)用于復(fù)雜場景。兩種方法相互補(bǔ)償,因此顯著提高了情感識別結(jié)果的準(zhǔn)確性和普適程度。[0028]本發(fā)明所包含的情感語音數(shù)據(jù)庫錄制過程,需要考慮到語音數(shù)據(jù)的自然度、情感極性、情感強(qiáng)度等多種特征。為了盡量提高語音數(shù)據(jù)的自然度,減小控制條件對于被試者的影響,在獲取數(shù)據(jù)之前需要對實驗環(huán)境進(jìn)行簡要處理,如調(diào)整環(huán)境溫濕度、燈光亮度、噪聲程度等,使其接近于日常生活環(huán)境。另外,對如生氣、驚訝等高強(qiáng)度情感進(jìn)行采集時,需要進(jìn)行合理的誘導(dǎo),使被試者進(jìn)入適當(dāng)?shù)那楦袪顟B(tài)。在采集過程中,應(yīng)嚴(yán)格遵循數(shù)據(jù)庫采集規(guī)范,對于采集系統(tǒng)的操作應(yīng)由專人負(fù)責(zé)。對于獲取的語音數(shù)據(jù),應(yīng)逐條作可用性判別及情感類別劃分,將所得結(jié)果同語音數(shù)據(jù)一起錄入數(shù)據(jù)庫中。
[0029]本發(fā)明所包含的兩種情感識別方法如下所述:
[0030]方法一為說話人無關(guān)情感識別方法,其包含數(shù)據(jù)庫建立,特征提取,特征維數(shù)約減,多層識別器的構(gòu)造與分類器選擇等步驟。數(shù)據(jù)庫(或稱作語料庫)中包含由多位年齡、背景不同的說話人所錄制的、表達(dá)不同情感的語音條目組成。語音條目,并作為特征提取的原始材料。特征提取過程為從語音信號中提取與情感相關(guān)的多種參數(shù),即特征。為了達(dá)到更好的魯棒性和精度,本方法中采用多種特征,其中一種特征(自相關(guān)密度)如圖2所示。提取后的特征由循環(huán)特征選取算法及Fisher比率作為依據(jù),組合成不同的特征集。Fisher比率由如下公式計算:
[0031]F = diag(Sa./Sb)
[0032]其中
【權(quán)利要求】
1.一種用于移動計算平臺的語音情感識別的方法;以說話人無關(guān)和說話人相關(guān)兩種方式處 理語音信息,識別說話人當(dāng)前通過語音表達(dá)的主要情感,包括以下步驟: a)錄制情感語音數(shù)據(jù)庫,作為情感識別器的基準(zhǔn); b)建立和訓(xùn)練說話人無關(guān)識別器,并構(gòu)建多層識別器模型; c)建立和訓(xùn)練說話人相關(guān)識別器,以情感語音數(shù)據(jù)庫或用戶個性化信息作為基準(zhǔn),校正識別器內(nèi)部參數(shù); d)獲取用戶語音數(shù)據(jù); e)對該用戶的語音數(shù)據(jù)進(jìn)行分析,判斷該語音數(shù)據(jù)是否能被說話人相關(guān)識別器處理,若是,則使用說話人相關(guān)識別器進(jìn)行情感識別,并進(jìn)行步驟g);若否,則進(jìn)行步驟f); f)使用說話人無關(guān)識別器進(jìn)行情感識別; g)得到情感識別結(jié)果。
2.如權(quán)利要求1所述的方法,錄制情感語音數(shù)據(jù)庫的步驟包括: 1)輸入預(yù)定的錄音腳本; 2)記錄錄音環(huán)境的信息; 3)根據(jù)錄音腳本的要求,獲取語音數(shù)據(jù); 4)對語音數(shù)據(jù)作可用性判別,將適用數(shù)據(jù)收錄進(jìn)數(shù)據(jù)庫; 5)對每條數(shù)據(jù)作情感類別劃分,并進(jìn)行標(biāo)定; 6)重復(fù)步驟3)至5),直至獲取情感語音數(shù)據(jù)庫的全部語音數(shù)據(jù)。
3.如權(quán)利要求1所述的方法,說話人無關(guān)識別器的建立和訓(xùn)練過程如下: 1)提取情感語音數(shù)據(jù)庫中語音數(shù)據(jù)的特征信息; 2)選取特定的特征組合,構(gòu)成特征集; 3)對特征集進(jìn)行特征降維,得到訓(xùn)練集; 4)由多個情感分類器建立說話人無關(guān)情感識別器,該情感識別器為多層結(jié)構(gòu),每一層將語音信號的情感類別進(jìn)行逐層細(xì)分; 5)使用上述訓(xùn)練集訓(xùn)練情感識別器。
4.如權(quán)利要求1所述的方法,說話人相關(guān)識別器的建立和訓(xùn)練過程如下: 1)獲取數(shù)據(jù)庫中的語音數(shù)據(jù)對應(yīng)的個人信息; 2)根據(jù)該個人信息,構(gòu)建個性化情感模型,建立情感識別器; 3)根據(jù)數(shù)據(jù)庫中的語音數(shù)據(jù)校準(zhǔn)情感識別器內(nèi)部參數(shù),訓(xùn)練情感識別器。
5.如權(quán)利要求1所述的方法,在步驟d)與步驟e)之間,包括如下步驟: 1)獲取用戶周圍的環(huán)境信息,自動調(diào)整情感識別器的參數(shù); 2)對所獲取的語音數(shù)據(jù)進(jìn)行降噪處理及針對所述環(huán)境信息的優(yōu)化處理。
6.如權(quán)利要求2所述的方法,記錄錄音環(huán)境的信息包括環(huán)境溫度,濕度,噪聲水平,亮度。
7.如權(quán)利要求3所述的方法,特征信息包括:能量,過零率,基頻,共振峰,頻譜質(zhì)心,截斷頻率,自相關(guān)密度,分形維數(shù),Mel倒譜系數(shù)。
8.如權(quán)利要求4所述的方法,個人信息包括:性別,年齡,職業(yè),國籍。
9.如權(quán)利要求1-8任意之一所述的方法,可用于:智能設(shè)備,該設(shè)備可感知用戶以語音所表達(dá)的情感,進(jìn)而改變該智能設(shè)備的行為邏輯, 使用戶通過語音情感控制該智能設(shè)備;或 自動報警設(shè)備,該設(shè)備可感知語音中危險情感,并實時傳輸至監(jiān)控中心;或醫(yī)療設(shè)備,協(xié)同醫(yī)用電子系統(tǒng)監(jiān)控患者的情緒狀態(tài),并實時顯示、監(jiān)控、處理并存儲患者的情感數(shù)據(jù) 。
【文檔編號】H04M1/725GK104036776SQ201410218988
【公開日】2014年9月10日 申請日期:2014年5月22日 優(yōu)先權(quán)日:2014年5月22日
【發(fā)明者】毛峽, 阿爾伯托·羅貝塔, 陳立江, 安東尼奧·托特拉, 彭一平, 馬修·都德斯卡都, 保羅·馬爾切利尼 申請人:毛峽, 阿爾伯托·羅貝塔