本發(fā)明屬于語音情感識別領(lǐng)域,涉及一種基于冗余特征和多詞典表示的語音情感識別方法及系統(tǒng)。
背景技術(shù):
語音作為最主要的交流手段之一,在新型的人機(jī)交互領(lǐng)域受到越來越廣泛的關(guān)注。若想讓計(jì)算機(jī)理解人類的意思,就要讓計(jì)算機(jī)模仿人們最常見的溝通方式。如今人類的溝通方式已經(jīng)變得多種多樣,而人們最主要的交流方式就是說話。人在說話時,便將自己的情感隱藏在語音信號之中,所以語音是人在表達(dá)自己情感和想法的最好媒介。語音情感識別是實(shí)現(xiàn)基于語音的智人工交互的重要步驟之一,因此讓計(jì)算機(jī)有效地識別人類話語中的情感,對于更好地實(shí)現(xiàn)人機(jī)交互是一個行之有效的方法。
我國在語音情感識別領(lǐng)域的研究還是取得了重大的進(jìn)展,國內(nèi)許多高校和國家重點(diǎn)實(shí)驗(yàn)室都對語音情感識別進(jìn)行了深入的分析與研究。從2000年起,清華大學(xué)的蔡紅蓮教授對超音段特征進(jìn)行了深入的研究,并使用高斯混合模型(GMM)和概率神經(jīng)網(wǎng)絡(luò)(PNN)分類器對漢語的普通話情感進(jìn)行識別。最后的結(jié)果表明,超音段特征能較好地將不同的情感狀態(tài)區(qū)分開來,他們的實(shí)驗(yàn)中識別結(jié)果準(zhǔn)確率達(dá)到了76.7%。從2001年起,東南大學(xué)的趙力教授針對驚奇、悲傷、高興、憤怒4種語音情感信號的小樣本數(shù)據(jù),提出了將語音情感的全局特征和時序基頻(F0)特征相結(jié)合的方式來進(jìn)行語音情感識別,并取得了較好的識別結(jié)果,識別率達(dá)到80%。
在情感特征提取方面,由于某些情感的相似性,單一類型的特征不能將語音情感進(jìn)行很好的區(qū)分,因而尋找合適的情感特征組合有利于系統(tǒng)性能的進(jìn)一步改善。
在特征表示或分類方面,基于詞典的表示方法受到了廣泛的關(guān)注,這是因?yàn)樵~典具有強(qiáng)大的表示能力并且具有自適應(yīng)學(xué)習(xí)能力。然而,在當(dāng)前基于詞典表示的方法中,絕大多數(shù)方法都只使用一個詞典,因而表示能力受到限制。
為了解決當(dāng)前方法中存在的特征抽取和表示的不足,本發(fā)明提出了冗余特征抽取方案和多詞典表示方法,并提出了基于冗余特征和多詞典表示的語音情感識別系統(tǒng)。一些詞典用于分解,另一些詞典用于綜合表示。利用多個詞典,從而可以充分挖掘冗余特征中的區(qū)分性特征,又可以適當(dāng)?shù)叵鞒卣魅哂鄮淼牟焕绊?;同時基于多詞典的表示使分類更容易,可以基于類別重構(gòu)誤差最小化來簡單地完成分類識別任務(wù)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是針對當(dāng)前單一類型特征的有限區(qū)分能力和單詞典表示的有限表示能力,提供一種基于冗余特征和多詞典表示的語音情感識別方法。該方法提取基音頻率特征(F0)、超音段響度(Loudness)特征、譜特征中的MEL頻率子帶能量系數(shù)(MFBECS)特征、線性譜頻率(LSF)特征以及小波變換后的多尺度特征,并將這些特征組合在一起形成冗余特征,然后基于這些冗余特征學(xué)習(xí)多類多個分析和綜合詞典對,并選取具有最小重構(gòu)誤差的那一對詞典的類別作為測試語音的情感類別,最終提高語音情感識別率。
為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
一種基于冗余特征和多詞典表示的語音情感識別系統(tǒng),包括以下步驟:
(1)對訓(xùn)練樣本庫中每個語音情感信號進(jìn)行預(yù)處理,得到語音情感數(shù)據(jù)幀。
(2)對(1)中的語音情感數(shù)據(jù)幀進(jìn)行基音頻率特征、超音段響度特征、譜特征中的MEL頻率子帶能量系數(shù)特征、線性譜頻率特征以及多尺度小波變換特征抽取,并進(jìn)行特征組合,得到訓(xùn)練樣本的冗余特征向量。
(3)對(2)中所提取的情感冗余特征向量進(jìn)行歸一化并用主成分分析法(PCA)進(jìn)行降維,再進(jìn)行表示詞典和分析詞典學(xué)習(xí),得到多詞典對。
(4)對測試樣本語音情感信號進(jìn)行預(yù)處理,如(2)中的特征提取,并形成冗余特征向量,再進(jìn)行歸一化以及PCA降維。
(5)使用學(xué)習(xí)到的多類多字典對來對(4)中的測試樣本冗余特征向量進(jìn)行重構(gòu),并根據(jù)最小重構(gòu)誤差所對應(yīng)的詞典對的類別來對該語音情感樣本的類別進(jìn)行判別。
所述步驟(1)中的預(yù)處理步驟如下:
(11)對語音情感信號的音頻文件進(jìn)行解碼處理,將其轉(zhuǎn)換成PCM格式的波形文件,再對語音情信號進(jìn)行重采樣處理。
(12)對(11)中得到的語音信號預(yù)加重處理,提高情感信號的高頻分量。
(13)對(12)中得到的語音信號進(jìn)行漢明窗分幀處理。
所述步驟(2)中的冗余特征抽取以及歸一化和PCA降維具體步驟如下:
對預(yù)處理后的語音情感信號進(jìn)行響度(Loudness)特征、譜特征中的MFBECS特征和LSF特征提取。
對(13)中預(yù)處理后的每一幀情感信號進(jìn)行傅里葉變換,求得時域點(diǎn)對應(yīng)的頻譜,并對每個頻率及其所有倍頻諧波成分進(jìn)行疊加。疊加公式如下所示:
其中,R為要考慮的諧波數(shù)量,本發(fā)明中該參數(shù)取15;參數(shù)c的作用是在統(tǒng)計(jì)諧波總和能量時,降低諧波能量的影響,本發(fā)明中該值取0.85。
針對諧波疊加的能量,在給定的基頻范圍內(nèi)(fmin,fmax)進(jìn)行極大值的尋找。為了提取更準(zhǔn)確的F0特征,為了消除二倍頻的影響,本發(fā)明提出改進(jìn)的諧波和計(jì)算公式如下:
利用上述公式從而完成F0特征提取。
(24)使用Gabor帶通濾波器對(13)中預(yù)處理后的語音情感數(shù)據(jù)幀進(jìn)行十七個臨界帶的濾波處理。Gabor帶通濾波器的具體公式如下所示:
其中,Sx為輸入的語音情感信號的方差,Sy的取值為1。
(25)對每個情感數(shù)據(jù)幀的每一個臨界帶進(jìn)行三層小波包變換(WPT),從而獲得相應(yīng)的小波系數(shù)。
(26)對17個臨界帶的每個小波系數(shù)進(jìn)行自相關(guān)系數(shù)的計(jì)算,從而得到多尺度小波變換特征,共136維。
完成基于小波變換的多尺度特征提取。
(27)直接將以上得到的不同的情感特征首尾相連形成一個較長的列向量,從而得到情感特征組合,也就是冗余情感特征。
所述步驟(3)中的多類多詞典對學(xué)習(xí)的具體步驟如下:
對所提取的冗余情感特征向量進(jìn)行歸一化以及PCA降維。
(31)使用訓(xùn)練樣本的語音情感的冗余特征數(shù)據(jù)構(gòu)建情感模型。本發(fā)明引進(jìn)變量XK,使得Xk=PkYk,對目標(biāo)函數(shù)進(jìn)行優(yōu)化。目標(biāo)函數(shù)為:
其中Dk=[d1,d2…dl]∈Rd×l,Pk∈Rl×d分別表示第k類訓(xùn)練樣本得到的合成字典和分析字典。D=[D1,…Dk,…DC]是合成字典,P=[P1,…Pk,…PC]是分析字典。其中C類的訓(xùn)練樣本數(shù)據(jù)d表示訓(xùn)練樣本的特征維數(shù),NK表示第k類的樣本總個數(shù),λ為標(biāo)量參數(shù),N表示訓(xùn)練樣本的總個數(shù)di是合成矩陣D的第i個列向量。
(33)使用訓(xùn)練樣本數(shù)據(jù)訓(xùn)練字典對,得到合成字典D以及分析字典P。具體步驟如下:
步驟1.輸入:C個目標(biāo)類的訓(xùn)練語音情感樣本構(gòu)成的數(shù)據(jù)矩陣Y=[Y1,…YK,…YC],所需的參數(shù)λ、λ1及/(字典的個數(shù))。
步驟2.初始化:隨機(jī)初始化Dk∈Rd×l和Pk∈Rl×d,這兩個矩陣均具有歸一化的F范數(shù)。
步驟3.固定D與P,使用公式對X進(jìn)行更新。
步驟4.固定D與X,使用公式對P進(jìn)行更新。
步驟5.固定X與P,使用公式對D進(jìn)行更新。
步驟6.斷定是否收斂。若收斂,則轉(zhuǎn)到步驟7;否則步驟3,繼續(xù)對D、P、X進(jìn)行更新。
步驟7.輸出:分析字典P,合成字典D。
所述步驟(4)中的測試樣本語音情感信號預(yù)處理、冗余特征提取、歸一化以及PCA降維的具體步驟如下:
對測試樣本語音情感信號進(jìn)行預(yù)處理并抽取響度(Loudness)特征、MFBECS特征、LSF特征、F0特征以及小波變換特征,將得到的情感特征首尾相接形成一個列向量,也就是冗余特征,再進(jìn)行歸一化以及PCA降維。
所述步驟(5)中使用得到的字典對對測試樣本進(jìn)行重構(gòu)的具體步驟如下:
使用得到的字典對來對測試樣本進(jìn)行重構(gòu),并根據(jù)最小重構(gòu)誤差來對該語音情感樣本的類別進(jìn)行判別。
具體的基于多類多詞典對表示的分類過程如下:
步驟1.輸入:C個目標(biāo)類的語音情感訓(xùn)練樣本構(gòu)成的數(shù)據(jù)為Y=[Y1,Y2…YJ,…YC],以及測試樣本數(shù)據(jù)矩陣A=[x1,x2…xk,…xN]∈Rd×N。
步驟2.使用式Y(jié)k≈DPY=D1P1Tk+D2P2Yk+…DkPkYk+…DCPCYk進(jìn)行求解合成字典D與分析字典P。對于測試樣本數(shù)據(jù)中的每一個測試樣本x∈Rd,重復(fù)進(jìn)行如下步驟3與步驟4。
步驟3.對于每一類k,k=1,2,…,C,重復(fù)進(jìn)行下面兩個步驟
(1)計(jì)算重構(gòu)的樣本xrecons(k)=DkPkx。
(2)計(jì)算原測試樣本x與重構(gòu)樣本之間的殘差rk(x)=||x-xrecons(k)||2。
步驟4.輸出:
本發(fā)明的創(chuàng)新之處在于:
本發(fā)明提出冗余特征抽取方案,包括小波特征、F0特征、響度(Loudness)特征、譜特征中的MFBECS特征和LSF特征;然后利用抽取的冗余特征進(jìn)行多類多詞典表示學(xué)習(xí),最后利用重構(gòu)誤差最小的詞典對所對應(yīng)的類別對輸入語音情感進(jìn)行分類識別。與傳統(tǒng)使用單一或少數(shù)特征進(jìn)行情感識別的方法不同,本發(fā)明綜合利用了各種特征的區(qū)分能力,有利于提高系統(tǒng)的識別準(zhǔn)確度;同時與傳統(tǒng)的基于單個詞典的表示方法不同,本發(fā)明提出了綜合詞典和分析詞典的多詞典對學(xué)習(xí)方法,并利用多詞典的較強(qiáng)表示能力來進(jìn)一步提高語音情感識別的準(zhǔn)確度??傊?,本發(fā)明既能綜合利用冗余特征的區(qū)分能力,又能利用多詞典的強(qiáng)大表示能力來提高語音情感的識別準(zhǔn)確率。
附圖說明
圖1是小波特征提取流程圖
圖2是語音情感識別流程圖
具體實(shí)施方式
以下將結(jié)合附圖所示的各實(shí)施方式對本發(fā)明進(jìn)行詳細(xì)描述。但這些實(shí)施方式并不限制本發(fā)明,本領(lǐng)域的普通技術(shù)人員根據(jù)這些實(shí)施方式所做出的結(jié)構(gòu)、方法、或功能上的變換均包含在本發(fā)明的保護(hù)范圍內(nèi)。
本發(fā)明公開了一種基于冗余特征和多詞典表示的語音情感識別系統(tǒng),具體實(shí)施步驟包括:
(1)對訓(xùn)練樣本庫中每個語音情感信號進(jìn)行預(yù)處理,得到語音情感數(shù)據(jù)幀。
(2)對(1)中的語音情感數(shù)據(jù)幀進(jìn)行小波特征、F0特征、響度特征、MFBECS特征和LSF特征抽取,并進(jìn)行特征首尾相接而形成冗余特征,從而得到訓(xùn)練樣本特征向量。
(3)對(2)中所提取的情感特征向量進(jìn)行歸一化以及使用主成分分析法進(jìn)行降維,再進(jìn)行多詞典對表示學(xué)習(xí),從而得到詞典對。
(4)對測試樣本語音情感信號進(jìn)行預(yù)處理,如(2)中的特征提取,并時行特征向量組合,再進(jìn)行歸一化以及PCA降維。
(5)使用得到的詞典對來對(4)中得到的測試樣本進(jìn)行重構(gòu),并根據(jù)最小重構(gòu)誤差來對該語音情感樣本的類別進(jìn)行判別。
所述步驟(1)中的預(yù)處理步驟如下:
(11)對語音情感信號的音頻文件進(jìn)行解碼處理,將其轉(zhuǎn)換成PCM格式的波形文件,再對語音情信號進(jìn)行重采樣處理。
(12)對(11)中得到的語音信號預(yù)加重處理,提高情感信號的高頻分量。
(13)對(12)中得到的語音信號進(jìn)行漢明窗分幀處理。
所述步驟(2)中的特征提取及特征組合以及歸一化以及PCA降維具體步驟如下:
對預(yù)處理后的語音情感信號進(jìn)行響度特征、MFBECS特征和LSF特征提取。
對(13)中預(yù)處理后的每一幀情感信號進(jìn)行傅里葉變換,求得時域點(diǎn)對應(yīng)的頻譜,并對每個頻率及其所有倍頻諧波成分進(jìn)行疊加。疊加公式如下所示。
其中,R為要考慮的諧波數(shù)量,本發(fā)明中該參數(shù)取15;參數(shù)c的作用是在統(tǒng)計(jì)諧波總和能量時,降低諧波能量的影響,本發(fā)明中該值取0.85。
針對諧波疊加的能量,在給定的基頻范圍內(nèi)(fmin,fmax)進(jìn)行極大值的尋找。為了提取更準(zhǔn)確的F0特征,為了消除二倍頻的影響,改進(jìn)的諧波和計(jì)算公式如下:
完成基于改進(jìn)算法的F0特征提取。
(24)使用Gabor帶通濾波器對(13)中預(yù)處理后的語音情感數(shù)據(jù)幀進(jìn)行十七個臨界帶的濾波處理。Gabor帶通濾波器的具體公式如下所示:
其中,Sx為輸入的語音情感信號的方差,Sy的取值為1。
(25)對每個情感數(shù)據(jù)幀的每一個臨界帶進(jìn)行三層小波包變換,從而獲得相應(yīng)的小波系數(shù)。
(26)對17個臨界帶的每個小波系數(shù)進(jìn)行自相關(guān)系數(shù)的計(jì)算并作為特征,從而得到小波特征,共136維特征。
完成基于臨界帶多分辨率分析的小波特征提取。
(27)直接將以上得到的不同的情感特征組成一個列向量,從而得到冗余的情感特征組合。
所述步驟(3)中的基于多詞典對表示的語音情感識別的具體步驟如下:
對所提取的冗余情感特征向量進(jìn)行歸一化以及PCA降維。
(32)使用訓(xùn)練樣本的語音情感的特征數(shù)據(jù)構(gòu)建情感模型。使用訓(xùn)練樣本的語音情感的特征數(shù)據(jù)構(gòu)建情感模型。本發(fā)明引進(jìn)變量XK,使得Xk=PkYk,對目標(biāo)函數(shù)進(jìn)行優(yōu)化。目標(biāo)函數(shù)為。
其中Dk=[d1,d2…dl]∈Rd×l,Pk∈Rl×d分別表示第k類訓(xùn)練樣本得到的合成字典和分析字典。D=[D1,…Dk,…DC]是合成字典,P=[P1,…Pk,…PC]是分析字典。其中C類的訓(xùn)練樣本數(shù)據(jù)d表示訓(xùn)練樣本的特征維數(shù),NK表示第k類的樣本總個數(shù),λ為標(biāo)量參數(shù),N表示訓(xùn)練樣本的總個數(shù)di是合成矩陣D的第i個列向量。
(33)使用訓(xùn)練樣本數(shù)據(jù)訓(xùn)練詞典對,得到合成詞典D以及分析詞典P。具體步驟如下:
步驟1.輸入:C個目標(biāo)類的訓(xùn)練語音情感樣本構(gòu)成的數(shù)據(jù)矩陣Y=[Y1,…YK,…YC],所需的參數(shù)λ、λ1及/(字典的個數(shù))。
步驟2.初始化:隨機(jī)初始化Dk∈Rd×l和Pk∈Rl×d,這兩個矩陣均具有歸一化的F范數(shù)。
步驟3.固定D與P,使用公式對X進(jìn)行更新。
步驟4.固定D與X,使用公式對P進(jìn)行更新。
步驟5.固定X與P,使用公式對D進(jìn)行更新。
步驟6.斷定是否收斂。若收斂,則轉(zhuǎn)到步驟7;否則步驟3,繼續(xù)對D、P、X進(jìn)行更新。
步驟7.輸出:分析字典P,合成字典D。
所述步驟(4)中的測試樣本語音情感信號進(jìn)行預(yù)處理,特征提取,并進(jìn)行特征向量組合,再進(jìn)行歸一化以及PCA降維的具體步驟如下:
對測試樣本語音情感信號行預(yù)處理,并抽取響度(Loudness)特征、譜特征中的MFBECS特征、LSF特征、F0特征和基于臨界帶多分辨率分析的小波特征,并將得到的冗余情感特征組成一個列向量,再進(jìn)行歸一化以及PCA降維。
所述步驟(5)中的使用得到的詞典對來對測試樣本進(jìn)行重構(gòu)的具體步驟如下:
(51)使用得到的詞典對來對測試樣本進(jìn)行重構(gòu),并根據(jù)最小重構(gòu)誤差來對該語音情感樣本的類別進(jìn)行判別。
具體基于多類多字典對表示的分類過程如下:
步驟1.輸入:C個目標(biāo)類的語音情感訓(xùn)練樣本構(gòu)成的數(shù)據(jù)為Y=[Y1,Y2…Yj,…YC],以及測試樣本數(shù)據(jù)矩陣A=[x1,x2…xk,…xN]∈Rd×N。
步驟2.使用式Y(jié)k≈DPY=D1P1Yk+D2P2Yk+…DkPkYk+…DCPCYk進(jìn)行求解合成字典D與分析字典P。對于測試樣本數(shù)據(jù)中的每一個測試樣本x∈Rd,重復(fù)進(jìn)行如下步驟3與步驟4。
步驟3.對于每一類k,k=1,2,…,C,重復(fù)進(jìn)行下面兩個步驟
(1)計(jì)算重構(gòu)的樣本xrecons(k)=DkPkx。
(2)計(jì)算原測試樣本x與重構(gòu)樣本之間的殘差rk(x)=||x-xrecons(k)||2。
步驟4.輸出:
本發(fā)明效果可以通過以下實(shí)驗(yàn)進(jìn)一步說明:
1)實(shí)驗(yàn)條件
實(shí)驗(yàn)仿真環(huán)境為:Matlab(R14a),主頻3.01GHZ的處理器上RAM為4GB的PC機(jī)上。
2)實(shí)驗(yàn)內(nèi)容
2.1)實(shí)驗(yàn)數(shù)據(jù)來源
本實(shí)驗(yàn)使用三個公開且被廣泛使用的語音情感數(shù)據(jù)庫來進(jìn)行語音情感識別問題的研究,即Emodb語音情感數(shù)據(jù)庫和Polish語音情感數(shù)據(jù)庫及eNTERFACE’05情感數(shù)據(jù)庫。
Emodb語音情感數(shù)據(jù)庫由10位演員(5男5女)對七種常見的情感進(jìn)行模擬,得到的音頻文件格式為單通道、采樣精度為16比特、采樣率為16HKZ的wav音頻文件。這些情感語句的語義皆為中性,不帶情感傾向,并且使用日??谡Z化的風(fēng)格。該數(shù)據(jù)庫有535個德語語句,包含七種情感,即憤怒(anger)、難過(sadness)、快樂(happy)、恐懼(fear)、平靜(neutral)、厭惡(disgust)、無聊(bordem),這七種情感的個數(shù)分別為127、62、71、69、79、46,該數(shù)據(jù)庫中每種情感樣本數(shù)據(jù)不是均等分配的。
Polish語音情感數(shù)據(jù)庫,由8位演員(4男4女)對六種情感進(jìn)行模擬,得到的音頻文件格式為單通道、采樣精度為16比特、采樣率為44.1HKZ的wav音頻文件。該數(shù)據(jù)庫有240個波蘭語語句,包含六種情感,即憤怒(anger)、難過(sadness)、快樂(happy)、恐懼(fear)、平靜(neutral)、無聊(bordem),這六種情感的個數(shù)均為40。
eNTERFACE’05情感數(shù)據(jù)庫是一個音視頻結(jié)合的情感數(shù)據(jù)庫,由42位演員(34男8女)對六種情感進(jìn)行模擬。本文采用ffmpeg將其進(jìn)行轉(zhuǎn)換,得到音頻文件格式為單通道、采樣精度為16比特、采樣率為16HKZ的wav音頻文件。該數(shù)據(jù)庫有1260個英語語句,包含六種情感,即憤怒(anger)、難過(sadness)、快樂(happy)、恐懼(fear)、吃驚(surprise)、厭惡(disgust),這六種情感的個數(shù)均為210。
2.2)實(shí)驗(yàn)步驟:
首先對訓(xùn)練樣本庫中每個語音情感信號進(jìn)行預(yù)處理,得到語音情感數(shù)據(jù)幀。然后對語音情感數(shù)據(jù)幀抽取小波特征、F0特征提取、響度(Loudness)特征、MFBECS特征和LSF特征。并進(jìn)行特征組合形成冗余特征向量,從而得到訓(xùn)練樣本特征向量。之后用情感特征向量進(jìn)行多類多詞典對表示學(xué)習(xí),得到多詞典對。再對測試樣本語音情感信號進(jìn)行預(yù)處理,如之前訓(xùn)練樣本一樣的特征提取,并形成特征向量組合,再進(jìn)行歸一化以及PCA降維。使用得到的多詞典對對測試樣本進(jìn)行重構(gòu),并根據(jù)最小重構(gòu)誤差來對該語音情感樣本的類別進(jìn)行判別。采用的是五次交叉驗(yàn)證的方法對時間性能進(jìn)行測試。
實(shí)驗(yàn)結(jié)果分析
以下是本發(fā)明方法與基于稀疏表示的方法(SRC)、支持向量機(jī)方法(SVM)、聯(lián)合稀疏低秩方法(Joint Sparse Low-Rank Representation(JSLRR))、協(xié)同表示方法(collaborative representation(CRC))的比較結(jié)果。
表1 Emodb語音情感數(shù)據(jù)庫上的不同識別方法的帶權(quán)重的平均準(zhǔn)確率(WA)結(jié)果比較(%)
表2 Emodb語音情感數(shù)據(jù)庫上的不同識別方法的不帶權(quán)重的平均準(zhǔn)確率(UA)結(jié)果比較(%)
表3Polish語音情感數(shù)據(jù)庫上的不同識別方法的識別結(jié)果比較(%)
表4 eNTERFACE’05語音情感數(shù)據(jù)庫上的不同識別方法的識別結(jié)果比較(%)
從表1,2,3,4中的結(jié)果可以看出本發(fā)明方法在在不同的語音情感數(shù)據(jù)庫上的識別率高于其他的識別方法。
以下結(jié)果是采用五次交叉驗(yàn)證的方法對不同的識別方法時間性能的測試:
表5不同識別方法在Emodb語音情感數(shù)據(jù)庫的時間性能比較
表6不同識別方法在Polish語音情感數(shù)據(jù)庫的時間性能比較
表7不同識別方法在eNTERFACE’05語音情感數(shù)據(jù)庫的時間性能比較
從表5,6,7中可以看出在對識別率有一定要求的條件下,本發(fā)明方法的訓(xùn)練時間相比SVM與JLSRR方法的訓(xùn)練時間少,而且本發(fā)明方法的測試時間也比SRC、CRC、SVM、JSLRR的測試時間要少,從而就可以說明本發(fā)明方法在解決語音情感識別問題上,不僅在識別準(zhǔn)確率方面具有較好的性能,在運(yùn)算時間方面上同樣具有較好的性能。
應(yīng)當(dāng)理解,雖然本說明書按照實(shí)施方式加以描述,但并非每個實(shí)施方式僅包含一個獨(dú)立的技術(shù)方案,說明書的這種敘述方式僅僅是為清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說明書作為一個整體,各實(shí)施方式中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實(shí)施方式。
上文所列出的一系列的詳細(xì)說明僅僅是針對本發(fā)明的可行性實(shí)施方式的具體說明,它們并非用以限制本發(fā)明的保護(hù)范圍,凡未脫離本發(fā)明技藝精神所作的等效實(shí)施方式或變更均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。