本發(fā)明涉及語音處理、識別技術(shù),特別涉及一種基于集成深度信念網(wǎng)絡(luò)的語音情感識別方法。
背景技術(shù):
語音情感識別的目的就在于讓計算機能夠通過用戶的語音來準確分析出用戶的情感狀態(tài),從而基于這樣的情感狀態(tài)去產(chǎn)生更加精準的反饋,基本的情感狀態(tài)包括生氣、高興、傷心、驚訝、害怕、厭惡以及平靜。語音情感識別有重要的應(yīng)用價值,比如在客服工作上,可以通過收集客戶的語音信息實時了解客戶的情感狀態(tài),也可以了解服務(wù)人員的情感狀態(tài),從而提升工作的質(zhì)量和客戶的滿意度;在醫(yī)療領(lǐng)域則可以通過長時間的收集病人的語音信息來了解病人的情感狀態(tài),在病人負面情緒比重較大的時候可以針對性地進行一些藥物治療和心理輔導(dǎo);而在平時的生活中,一個實時反饋情感狀態(tài)的工具可以提醒使用者更好地控制自己的情感,減少負面情緒影響生活的幾率,促進人與人間的和睦相處。因此,語音情感識別技術(shù)可以應(yīng)用到許多不同的領(lǐng)域之中,為我們的工作提供有價值的參考依據(jù),也有助于日常生活中人與人間的和睦相處。
語音情感識別的主要步驟包括語音信息特征提取和分類器設(shè)計。而分類器就是依靠機器學(xué)習(xí)算法來實現(xiàn),效果比較顯著的有支持向量機(SVM)、神經(jīng)網(wǎng)絡(luò)、K最近鄰算法(KNN)、高斯混合模型、隨機森林、集成學(xué)習(xí)等等。國內(nèi)外學(xué)者在解決語音情感識別問題時,大都采用這些分類算法,但是這些分類算法極大地依賴于對語音情感的特征抽取,而目前采用的特征抽取方法是人工設(shè)計的,再通過特征選擇算法剔除冗余或者不相關(guān)的特征,得出最優(yōu)或者次優(yōu)特征子集,這一步驟的目的一方面是提高識別準確率,另一方面是降低特征的維數(shù),從而提升模型訓(xùn)練速度。這個過程極大地依賴人工專家的經(jīng)驗和反復(fù)實驗完成的,不僅工作量大,而且很難找到一種最優(yōu)的語音情感特征表達,從而影響了語音情感識別的效果。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種識別準確率高的基于集成深度信念網(wǎng)絡(luò)的語音情感識別方法。
本發(fā)明的目的通過下述技術(shù)方案實現(xiàn):一種基于集成深度信念網(wǎng)絡(luò)的語音情感識別方法,步驟如下:
S1、獲取深度信念網(wǎng)絡(luò)分類器,其中該深度信念網(wǎng)絡(luò)分類器包括M個深度信念網(wǎng)絡(luò)模型以及M個深度信念網(wǎng)絡(luò)模型輸出端共同連接的分類器;所述M個深度信念網(wǎng)絡(luò)模型及M個深度信念網(wǎng)絡(luò)模型輸出端共同連接的分類器經(jīng)過語音情感識別數(shù)據(jù)庫數(shù)據(jù)集訓(xùn)練后得到深度信念網(wǎng)絡(luò)分類器;
S2、獲取待測語音信號的特征向量;
S3、在測試時,將待測語音信號的特征向量輸入步驟S1獲取到的深度信念網(wǎng)絡(luò)分類器中,獲得語音情感類別。
優(yōu)選的,所述步驟S1中深度信念網(wǎng)絡(luò)分類器獲取過程具體如下:
S11、針對語音情感識別數(shù)據(jù)庫抽取特征,獲取到語音情感識別數(shù)據(jù)庫中每個樣本對應(yīng)的特征向量,從語音情感識別數(shù)據(jù)庫抽取一部分樣本作為驗證集;
S12、設(shè)置子空間規(guī)模M以及子空間中每個樣本特征向量每次被抽取的維度n;
S13、針對每個樣本的特征向量進行M次的隨機抽取組成M個子空間,即每次每個樣本特征向量被抽取部分組合構(gòu)成一個子空間,一個子空間對應(yīng)形成一個新的訓(xùn)練集;其中每次針對每個樣本特征向量隨機抽取的維度為n維;
S14、生成M個深度信念網(wǎng)絡(luò)模型,并且在M個深度信念網(wǎng)絡(luò)模型輸出端共同連接一個分類器,采用步驟S12中獲取的M個新的訓(xùn)練集分別對對應(yīng)的M個深度信念網(wǎng)絡(luò)模型及M個深度信念網(wǎng)絡(luò)模型輸出端共同連接的分類器進行訓(xùn)練,得到一個深度信念網(wǎng)絡(luò)分類器;
S15、子空間規(guī)模M以步長X值遍歷X1~X2值,每個樣本特征向量被抽取的維度n以步長Z值遍歷Z1~Z2值,然后分別通過步驟S13至步驟S14獲取到對應(yīng)的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]個深度信念網(wǎng)絡(luò)分類器;
S16、采用步驟S11中獲取到的驗證集針對S15獲取到的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]個深度信念網(wǎng)絡(luò)分類器分別進行驗證,然后選取出識別準確率最高的一個深度信念網(wǎng)絡(luò)分類器。
優(yōu)選的,M個深度信念網(wǎng)絡(luò)模型輸出端共同連接的分類器為基于徑向基核的支持向量機。
更進一步的,所述深度信念網(wǎng)絡(luò)模型為基于受限玻爾茲曼機RBM分層組成,其中每層RBM神經(jīng)元數(shù)目為80個,受限玻爾茲曼機層的學(xué)習(xí)率為0.001,外層多層前向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率為0.08,不工作比率的值為0.1。
更進一步的,所述X1值為5,X2值為30,X值為5;即步驟S15中子空間規(guī)模M以步長5遍歷5~30,
更進一步的,所述Z1值為50,Z2值為950,Z值為150,即所述步驟S15中每個樣本特征向量被抽取的特征維度n以步長150遍歷50~950;分別通過步驟S13至步驟S14獲取到對應(yīng)60個深度信念網(wǎng)絡(luò)分類器。
更進一步的,所述深度信念網(wǎng)絡(luò)分類器中,M個深度信念網(wǎng)絡(luò)模型的輸出經(jīng)融合后輸入至M個深度信念網(wǎng)絡(luò)模型輸出端所連接的分類器中。
更進一步的,M個深度信念網(wǎng)絡(luò)模型輸出的融合采用簡單投票法。
優(yōu)選的,所述深度信念網(wǎng)絡(luò)模型為基于受限玻爾茲曼機RBM分層組成;所述步驟S13中新的訓(xùn)練集對深度信念網(wǎng)絡(luò)模型進行訓(xùn)練的過程具體如下:
S131、在深度信念網(wǎng)絡(luò)模型第一個RBM層中,輸入的值為新的訓(xùn)練集中每個樣本對應(yīng)的特征向量,輸出的值則是預(yù)訓(xùn)練后經(jīng)過RBM變換出來的特征;
S132、在接下來的所有RBM層中,當前RBM層的輸入為前一個RBM層的輸出,而當前RBM的輸出則作為下一個RBM層的輸入,如此重復(fù)訓(xùn)練各個RBM層;
S133、將所有訓(xùn)練好的RBM參數(shù)分別作為每層神經(jīng)網(wǎng)絡(luò)的初始化參數(shù),之后通過BP算法自頂向下對所有RBM參數(shù)進行微調(diào),直到將誤差減小到一定范圍,則訓(xùn)練終止。
本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點及效果:
(1)本發(fā)明方法由M個深度信念網(wǎng)絡(luò)模型及M個深度信念網(wǎng)絡(luò)模型輸出端共同連接的分類器經(jīng)過語音情感識別數(shù)據(jù)庫數(shù)據(jù)集訓(xùn)練后構(gòu)成深度信念網(wǎng)絡(luò)分類器,然后將待測語音信號的特征向量輸出至深度信念網(wǎng)絡(luò)分類器中,通過深度信念網(wǎng)絡(luò)分類器獲取到最終的語音情感類別。本發(fā)明方法深度信念網(wǎng)絡(luò)分類器集成了多個深度信念網(wǎng)絡(luò)模型,然后將多個深度信念網(wǎng)絡(luò)模型的輸出融合后輸入至分類器中,通過分類器獲得到最終結(jié)果,具有語音情感識別準確率高的優(yōu)點,并且減少了語音情感特征提取對人的依賴性,能夠能識別出多種語言的語音情感,應(yīng)用廣泛。
(2)本發(fā)明方法中針對每個樣本的特征向量進行M次的隨機抽取組成M個子空間,一個子空間對應(yīng)形成一個新的訓(xùn)練集;其中每次針對每個樣本特征向量隨機抽取的維度為n維;通過M個子空間對應(yīng)的M個新的訓(xùn)練集訓(xùn)練M個深度信念網(wǎng)絡(luò)模型及它們輸出端共同連接的分類器,以得到一個深度信念網(wǎng)絡(luò)分類器,本發(fā)明方法中將子空間規(guī)模M以一定步長遍歷多個值,將每個樣本特征向量隨機抽取的維度n以一定步長遍歷多個值,針對于不同的M值和n值,通過本發(fā)明方法能夠獲取到多個深度信念網(wǎng)絡(luò)分類器,本發(fā)明方法通過驗證集針對多個深度信念網(wǎng)絡(luò)分類器進行驗證,選取出識別準確率最高的深度信念網(wǎng)絡(luò)分類器作為本發(fā)明方法最終的深度信念網(wǎng)絡(luò)分類器,通過本發(fā)明方法能夠選取出最優(yōu)的深度信念網(wǎng)絡(luò)分類器,大大提高了本發(fā)明方法的語音情感識別準確率。
(3)本發(fā)明方法中深度信念網(wǎng)絡(luò)分類器中M個深度信念網(wǎng)絡(luò)模型分別有M個新的訓(xùn)練集訓(xùn)練得到,其中M個新的訓(xùn)練集為語音情感識別數(shù)據(jù)中每個樣本的特征向量進行M次的隨機抽取組成的,因此M個新的訓(xùn)練集為不同的訓(xùn)練集,因此對應(yīng)訓(xùn)練得到的M個深度信念網(wǎng)絡(luò)模型的結(jié)構(gòu)為不同的,本發(fā)明方法利用多個結(jié)構(gòu)差異化的M個深度信念網(wǎng)絡(luò)模型集成識別,能夠獲得更好的語音情感識別性能,進一步提高語音情感識別的準確率。
附圖說明
圖1是本發(fā)明方法中深度信念網(wǎng)絡(luò)分類器的生成框圖。
圖2是RBM結(jié)構(gòu)圖。
圖3是深度信念網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)圖。
具體實施方式
下面結(jié)合實施例及附圖對本發(fā)明作進一步詳細的描述,但本發(fā)明的實施方式不限于此。
實施例
本實施例公開了一種基于集成深度信念網(wǎng)絡(luò)的語音情感識別方法,步驟如下:
S1、獲取深度信念網(wǎng)絡(luò)分類器,其中該深度信念網(wǎng)絡(luò)分類器包括M個深度信念網(wǎng)絡(luò)(DBN)模型以及M個深度信念網(wǎng)絡(luò)模型輸出端共同連接的一個分類器;M個深度信念網(wǎng)絡(luò)模型及M個深度信念網(wǎng)絡(luò)模型輸出端共同連接的一個分類器經(jīng)過語音情感識別數(shù)據(jù)庫數(shù)據(jù)集訓(xùn)練后得到深度信念網(wǎng)絡(luò)分類器;本實施例中M個深度信念網(wǎng)絡(luò)模型輸出端共同連接的一個分類器可為基于徑向基核的支持向量機SVW。
本步驟中深度信念網(wǎng)絡(luò)分類器獲取過程具體如下:
S11、針對語音情感識別數(shù)據(jù)庫抽取特征,獲取到語音情感識別數(shù)據(jù)庫中每個樣本對應(yīng)的特征向量,從語音情感識別數(shù)據(jù)庫抽取一部分樣本作為驗證集。
S12、設(shè)置子空間規(guī)模M以及子空間中每個樣本特征向量被抽取的維度n;子空間規(guī)模M指的是子空間的個數(shù)。
S13、針對語音情感識別數(shù)據(jù)庫中的每個樣本的特征向量進行M次的隨機抽取組成M個子空間,分別為第一子空間、第二子空間、…、第M子空間,即每次每個樣本特征向量被抽取部分組合構(gòu)成一個子空間,一個子空間對應(yīng)形成一個新的訓(xùn)練集;其中每次針對每個樣本特征向量隨機抽取的維度為n維,本實施例中一個子空間中包括所有樣本的特征向量中的n維。
S14、生成M個深度信念網(wǎng)絡(luò)模型,分別第一深度信念網(wǎng)絡(luò)模型、第二深度信念網(wǎng)絡(luò)模型、…、第M深度信念網(wǎng)絡(luò)模型,并且在M個深度信念網(wǎng)絡(luò)模型輸出端共同連接一個分類器,采用步驟S12中獲取的M個新的訓(xùn)練集分別對對應(yīng)的M個深度信念網(wǎng)絡(luò)模型及M個深度信念網(wǎng)絡(luò)模型輸出端共同連接的分類器進行訓(xùn)練,得到一個深度信念網(wǎng)絡(luò)分類器;該深度信念網(wǎng)絡(luò)分類器生成過程具體如圖1中所示。
S15、子空間規(guī)模M以步長X值遍歷X1~X2值,每個樣本特征向量被抽取的維度n以步長Z值遍歷Z1~Z2值,然后分別通過步驟S13至步驟S14獲取到對應(yīng)的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]個深度信念網(wǎng)絡(luò)分類器;
S16、采用步驟S11中獲取到的驗證集針對S15獲取到的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]個深度信念網(wǎng)絡(luò)分類器分別進行驗證,然后選取出識別準確率最高的一個深度信念網(wǎng)絡(luò)分類器。
S2、獲取待測語音信號的特征向量。
S3、在測試時,將待測語音信號的特征向量輸入步驟S1獲取到的深度信念網(wǎng)絡(luò)分類器中,獲得語音情感類別。
本實施例深度信念網(wǎng)絡(luò)分類器中M個深度信念網(wǎng)絡(luò)模型的輸出經(jīng)簡單投票法融合后輸入至M個深度信念網(wǎng)絡(luò)模型輸出端所連接的分類器中,最后通過分類器輸出結(jié)果。
語音情感特征包括三大類:分別是韻律特征、音質(zhì)特征以及譜特征。本實施例選取的語音特征包含國際標準語音特征集INTERSPEECH2010的基準特征外,還包括特征LPCC(線性預(yù)測倒譜系數(shù))、ZCPA(語音的上升過零率和非線性幅度)、PLP(感知線性預(yù)測參數(shù))和HuWSF特征。
本實施例中步驟S15中X1為5,X2為30,X為5,Z1為50,Z2為950,Z為150;即步驟S15中子空間規(guī)模M以步長5遍歷5~30,每個樣本特征向量被抽取的維度n以步長150遍歷50~950,那么分別通過步驟S13至步驟S14獲取到對應(yīng)60個深度信念網(wǎng)絡(luò)分類器。
本實施例深度信念網(wǎng)絡(luò)模型為基于受限玻爾茲曼機RBM分層組成;其中RBM的結(jié)構(gòu)如圖2所示,中V層為可視層,負責(zé)接收外部特征的輸入,H層為隱層,負責(zé)輸出編碼后的數(shù)據(jù)。RBM的作用主要有兩個,其一是降維,亦即是通過RBM的編碼對原始特征進行組合選擇,得到新的特征向量;其二是通過無監(jiān)督學(xué)習(xí)的方式去最大限度的擬合輸入數(shù)據(jù),并將得到的RBM參數(shù)值作為BP神經(jīng)網(wǎng)絡(luò)的初始化參數(shù),這樣做的好處在于能夠避免BP神經(jīng)網(wǎng)絡(luò)由于隨機初始化參數(shù)選擇不當而導(dǎo)致的陷入局部極小值的問題。而這兩個方面的作用都是基于RBM在預(yù)訓(xùn)練過程中對其輸入數(shù)據(jù)進行最大程度的擬合。
步驟S13中新的訓(xùn)練集對深度信念網(wǎng)絡(luò)模型進行訓(xùn)練的過程具體如下:
S131、在深度信念網(wǎng)絡(luò)模型第一個RBM層中,輸入的值為新的訓(xùn)練集中每個樣本對應(yīng)的特征向量,輸出的值則是預(yù)訓(xùn)練后經(jīng)過RBM變換出來的特征。
S132、在接下來的所有RBM層中,當前RBM的輸入為前一個RBM層的輸出,而當前RBM層的輸出則作為下一個RBM層的輸入,如此重復(fù)訓(xùn)練各個RBM層。
S133、將所有訓(xùn)練好的RBM參數(shù)分別作為每層神經(jīng)網(wǎng)絡(luò)的初始化參數(shù),之后通過BP(back propagation,反向傳播)算法自頂向下對所有RBM參數(shù)進行微調(diào),直到將誤差減小到一定范圍,則訓(xùn)練終止;其中誤差減小到一定范圍指的是誤差減小到可接受的范圍。
本實施案例中,如圖3所示,如果訓(xùn)練集中數(shù)據(jù)是帶有標簽進行訓(xùn)練的,則頂層RBM中顯層上出現(xiàn)的Y1,Y2是代表訓(xùn)練數(shù)據(jù)的標簽值,比如EMODB數(shù)據(jù)庫有7個情感標簽,那就對應(yīng)7個神經(jīng)元,每個訓(xùn)練數(shù)據(jù)標簽對應(yīng)的神經(jīng)元會被置為1,其余置零。如果訓(xùn)練集中數(shù)據(jù)沒有對應(yīng)標簽,則去掉這些標簽神經(jīng)元。深度信念網(wǎng)絡(luò)模型由于每一層都是用RBM進行預(yù)訓(xùn)練,所以其參數(shù)已經(jīng)比較接近最優(yōu)值,這時再通過BP反向傳播算法進行微調(diào)一方面可以讓RBM的參數(shù)相對于整個DBN來說更優(yōu),另一方面不會陷入局部極小值的問題,而殘差傳播的問題由于參數(shù)是通過預(yù)訓(xùn)練得到的,所以即便調(diào)整不到也不會像傳統(tǒng)神經(jīng)網(wǎng)絡(luò)一樣對性能帶來重大的影響。
本實施例中選用的深度信念網(wǎng)絡(luò)模型中每次RBM的神經(jīng)元數(shù)目為80個,受限玻爾茲曼機層的學(xué)習(xí)率為0.001,外層多層前向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率為0.08,DropoutFraction(不工作比率)為0.1。
在EMODB、CASIA和SAVE數(shù)據(jù)庫下,如表1所示為本實施例基于集成深度信念網(wǎng)絡(luò)的語音情感識別方法ESDBNS和現(xiàn)有方法SLDBN(單層深度信任網(wǎng)絡(luò))、DLDBN(雙層深度信任網(wǎng)絡(luò))、TLDBN(三層深度信任網(wǎng)絡(luò))、KNN(基于K個最近鄰的分類器)、基于線性核的SVM、集成分類器中效果最優(yōu)的基分類器(記為BASE)的識別準確率;其中深度信念網(wǎng)絡(luò)的配置除了層數(shù)外,其余沿用與本實施例識別方法一致的配置,即每層神經(jīng)元為80個,RBM的學(xué)習(xí)率為0.001,外層多層前向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率為0.08,隨機抽樣比例DropoutFraction的值為0.1。
表1
其中EMODB、CASIA和SAVEE分別作為語音情感識別數(shù)據(jù)庫;EMODB為標準的德語語音數(shù)據(jù)庫、CASIA為中科院自動化所的漢語數(shù)據(jù)庫、SAVEE為英語視聽表情情感數(shù)據(jù)庫。情感類別為生氣、討厭、害怕、高興、中性、傷心和驚訝。這三個數(shù)據(jù)庫的數(shù)據(jù)在基于情感標簽的分布上都是比較平衡的。其中評價標準WA準確率(加權(quán)精度):
WA=(識別準確樣本總數(shù))/所有測試樣本總數(shù);
從表1中可以看出,本實施例方法的識別準確率最高。
當數(shù)據(jù)庫為FAU時,如表2所示,為如表1所示為本實施例基于集成深度信念網(wǎng)絡(luò)的語音情感識別方法ESDBNS和現(xiàn)有方法SLDBN、DLDBN、TLDBN、KNN、基于線性核的SVM以及集成分類器中效果最優(yōu)的基礎(chǔ)分類器Base的識別準確率;
表2
其中FAU數(shù)據(jù)庫是一個由德國兒童錄制而成的語音情感數(shù)據(jù)庫,評價標準UA不加權(quán)精度(Unweighted Accuracy):
UA=(所有類別精度和)/(類別個數(shù));
從表2中可以看出,在FAU數(shù)據(jù)庫下,本實施例方法的識別準確率最高。
上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受上述實施例的限制,其他的任何未背離本發(fā)明的精神實質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護范圍之內(nèi)。