專利名稱:基于壓縮感知的魯棒性語音情感識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音處理、模式識別領(lǐng)域,特別是涉及一種基于壓縮感知的魯棒性語音情感識別方法。
背景技術(shù):
人類的語言不僅包含了文字符號信息,同時也攜帶著人們的感情和情緒等信息。如何讓計算機(jī)通過語音信號自動分析和判斷說話人的情感狀態(tài),即所謂的“語音情感識別”方面的研究已成為語音處理、模式識別等領(lǐng)域的熱點。該研究的最終目的就是要賦予計算機(jī)情感智能,使得計算機(jī)像人一樣能進(jìn)行自然、親切和生動地交互。該研究在人工智能、機(jī)器人技術(shù)、自然人機(jī)交互技術(shù)等領(lǐng)域具有重要的應(yīng)用價值。目前,對于語音情感識別的研究基本上是以安靜環(huán)境中錄制的情感語料作為情感分析和研究對象。然而,自然環(huán)境中的情感語音通常都會受到噪聲的干擾,包含了不同程度的噪聲。因此,對于噪聲背景下的魯棒性語音情感識別方面的研究更接近實際,更具有應(yīng)用價值。但對于噪聲背景下的魯棒性語音情感識別研究,目前這方面的研究文獻(xiàn)甚少。語音情感自動識別技術(shù)主要包括兩個問題一是情感特征提取問題,即提取何種有效的語音特征參數(shù)用于情感識別;二是情感識別方法問題,即采用何種有效的模式識別方法對包含某種情感的語句所屬的情感類別進(jìn)行分類(見專利鄒采榮,一種基于支持向量機(jī)的語音情感識別方法-申請?zhí)?專利號2006100973016)。目前,在情感特征提取方面,語音情感識別中常用的情感特征參數(shù)是韻律特征和音質(zhì)特征,前者包括基頻、振幅和發(fā)音持續(xù)時間,后者包括共振峰、頻帶能量分布、諧波噪聲比以及短時抖動參數(shù)等。但是,這些特征參數(shù)本身所表現(xiàn)出來的抗噪聲效果非常有限。因此,僅僅使用韻律特征和音質(zhì)特征,難以在噪聲背景下獲得較好的語音情感識別性能。為了提高特征參數(shù)的抗噪聲效果,有必要提取其它類型的特征參數(shù)如譜特征,將其與韻律特征和音質(zhì)特征相融合。一種代表性的譜特征就是能夠反映人耳聽覺特性的梅爾頻率倒譜系數(shù)(MFCC)0在情感識別方法方面,現(xiàn)已經(jīng)成功應(yīng)用于語音情感識別的方法主要包括線性判別分類器(LDC)、K近鄰法(KNN)、人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)(SVM)。但這些識別方法對噪聲比較敏感,難以獲得較好的魯棒性語音情感識別性能。因此,有必要發(fā)展新的高性能的魯棒性語音情感識別方法。再介紹壓縮感知(CS)技術(shù)。壓縮感知(CS)(見文獻(xiàn)E.J. Candes, M. B. ffakin. An introduction tocompressive sampling.1EEE Signal Processing Magazine, 2008, 25(2): 21-30)作為一種全新的信號處理和采樣理論,其核心思想是,只要信號是可以壓縮的,或者在某個變換域是稀疏的,則就可以采用一個與變換基不相關(guān)的觀測矩陣將變換所得到的高維信號投影到一個低維空間上,然后通過求解一個最優(yōu)化問題就可從這些少量的投影當(dāng)中以高概率重構(gòu)出原信號。在該理論框架下,采樣速率不再決定于信號的帶寬,而決定于信息在信號中的結(jié)構(gòu)和內(nèi)容。壓縮感知(CS)研究的初衷是用于信號的壓縮和表不,但其最稀疏的表不具有很好的判別性,可用于構(gòu)建分類器(見文獻(xiàn)Guha T, Ward RK. Learning SparseRepresentations for Human Action Recognition.1EEE Transactions on PatternAnalysis and Machine Intelligence, 2012,34(8): 1576-1588·)。目前,在已有的語音情感識別研究文獻(xiàn)中,還未見采用壓縮感知理論中的稀疏表示的判別性作為語音情感識別的魯棒性識別方法。本發(fā)明就是利用壓縮感知理論中的稀疏表示的判別性來實現(xiàn)噪聲背景下的魯棒性語音情感識別。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了克服上述現(xiàn)有情感識別技術(shù)的不足,提供一種基于壓縮感知的魯棒性語音情感識別方法,用于實現(xiàn)噪聲背景下的魯棒性語音情感識別。本發(fā)明所采用的技術(shù)方案是一種基于壓縮感知的魯棒性語音情感識別方法,該方法包含如下步驟產(chǎn)生含噪聲的情感語音樣本、建立聲學(xué)特征提取模塊、構(gòu)建稀疏表不分類器模型、輸出語音情感識別結(jié)果;(I)產(chǎn)生含噪聲的情感語音樣本,包括將情感語音樣本庫的所有語音樣本,分為訓(xùn)練樣本和測試樣本兩部分,然后對每一個訓(xùn)練樣本和測試樣本都添加高斯白噪聲,從而產(chǎn)生含噪聲的情感語音樣本;(2)建立聲學(xué)特征提取模塊,包括將含噪聲的情感語音樣本進(jìn)行聲學(xué)特征提取,該聲學(xué)特征提取模塊包括三部分韻律特征參數(shù)提取、音質(zhì)特征參數(shù)提取、梅爾頻率倒譜系數(shù)MFCC提?。?2-1)韻律特征參數(shù)提取,包括基頻、振幅和發(fā)音持續(xù)時間;(2-2)音質(zhì)特征參數(shù)提取,包括共振峰、頻帶能量分布、諧波噪聲比和短時抖動參數(shù);(2-3)梅爾頻率倒譜系數(shù)MFCC提取,包括提取13維MFCC特征及其一階和二階導(dǎo)數(shù)參數(shù),然后計算出它們的平均值和標(biāo)準(zhǔn)差;(3)構(gòu)建稀疏表示分類器模型,包括通過聲學(xué)特征提取模塊,每一個情感語音樣本都對應(yīng)著一個由提取的聲學(xué)特征參數(shù)所構(gòu)成的特征矢量;將所有情感語音樣本所對應(yīng)的特征矢量都輸入到稀疏表示分類器中,用于構(gòu)建稀疏表不分類器模型;構(gòu)建稀疏表示分類器的方法是,首先采用稀疏分解的方法,用訓(xùn)練樣本對測試樣本進(jìn)行最稀疏表示,即把訓(xùn)練樣本看作為一組基,通過求解1-范數(shù)最小化的方法得到測試樣本的最稀疏表示系數(shù),最后用測試樣本與稀疏表示后的殘差來進(jìn)行分類;(4)輸出語音情感識別結(jié)果,包括通過稀疏表示分類器的訓(xùn)練和測試,輸出語音情感識別結(jié)果,情感識別測試中采用10次交叉檢驗技術(shù),即所有語句被平分為10份,每次使用其中的9份數(shù)據(jù)用于訓(xùn)練,剩下的I份數(shù)據(jù)用于測試,這樣的識別實驗過程相應(yīng)重復(fù)10次,最后取10次的平均值作為識別結(jié)果。
所述的基頻采用自相關(guān)法提取出情感語音的基頻軌跡曲線,然后計算出該基頻曲線的10個統(tǒng)計學(xué)參數(shù),包括最大值、最小值、變化范圍、上四分位數(shù)、中位數(shù)、下四分位數(shù)、內(nèi)四分極值、平均值、標(biāo)準(zhǔn)差、平均絕對斜度;所述的振幅采用平方求和方法求取,提取振幅相關(guān)的9個統(tǒng)計學(xué)參數(shù),包括平均值、標(biāo)準(zhǔn)差、最大值、最小值、變化范圍、上四分位數(shù)、中位數(shù)、下四分位數(shù)、內(nèi)四分極值;所述的發(fā)音持續(xù)時間發(fā)音持續(xù)時間表征不同情感語音的說話時間構(gòu)造上的差異性,提取發(fā)音持續(xù)時間相關(guān)的參數(shù)6個,包括發(fā)音持續(xù)總時間、有聲發(fā)音持續(xù)時間、無聲發(fā)音持續(xù)時間、有聲與無聲時間的比值、有聲與發(fā)音總時間的比值、無聲與發(fā)音總時間的比值。所述共振峰采用伯格Burg法計算出情感語音的14階線性預(yù)測系數(shù)LPC,再用峰值檢出法計算出第一、第二、第三共振峰F1、F2、F3的平均值、標(biāo)準(zhǔn)差、中位數(shù)以及這三個共振峰的中位數(shù)所占的帶寬,共提取出12個共振峰相關(guān)特征參數(shù);所述頻帶能量分布提取出5個不同頻帶的能量分布參數(shù)SED,即O — 500Hz的頻帶能量平均值SED5(i(1、500 - 1000Hz的頻帶能量平均值SED_、1000 — 2500Hz的頻帶能量平均值SED25(i(1、2500 - 4000Hz的頻帶能量平均值SED4citltl、4000 — 5000Hz的頻帶能量平均
值 SED5000 ;所述諧波噪聲比提取諧波噪聲比HNR的平均值、標(biāo)準(zhǔn)差、最小值、最大值、變化范圍,其計算公式為
權(quán)利要求
1.一種基于壓縮感知的魯棒性語音情感識別方法,其特征在于,該方法包含如下步驟 產(chǎn)生含噪聲的情感語音樣本、建立聲學(xué)特征提取模塊、構(gòu)建稀疏表示分類器模型、輸出語音情感識別結(jié)果; (1)產(chǎn)生含噪聲的情感語音樣本,包括 將情感語音樣本庫的所有語音樣本,分為訓(xùn)練樣本和測試樣本兩部分,然后對每一個訓(xùn)練樣本和測試樣本都添加高斯白噪聲,從而產(chǎn)生含噪聲的情感語音樣本; (2)建立聲學(xué)特征提取模塊,包括 將含噪聲的情感語音樣本進(jìn)行聲學(xué)特征提取,該聲學(xué)特征提取模塊包括三部分韻律特征參數(shù)提取、音質(zhì)特征參數(shù)提取、梅爾頻率倒譜系數(shù)MFCC提??; (2-1)韻律特征參數(shù)提取,包括基頻、振幅和發(fā)音持續(xù)時間; (2-2)音質(zhì)特征參數(shù)提取,包括共振峰、頻帶能量分布、諧波噪聲比和短時抖動參數(shù);(2-3)梅爾頻率倒譜系數(shù)MFCC提取,包括提取13維MFCC特征及其一階和二階導(dǎo)數(shù)參數(shù),然后計算出它們的平均值和標(biāo)準(zhǔn)差; (3)構(gòu)建稀疏表不分類器模型,包括 通過聲學(xué)特征提取模塊,每一個情感語音樣本都對應(yīng)著一個由提取的聲學(xué)特征參數(shù)所構(gòu)成的特征矢量;將所有情感語音樣本所對應(yīng)的特征矢量都輸入到稀疏表示分類器中,用于構(gòu)建稀疏表不分類器模型; 構(gòu)建稀疏表示分類器的方法是,首先采用稀疏分解的方法,用訓(xùn)練樣本對測試樣本進(jìn)行最稀疏表示,即把訓(xùn)練樣本看作為一組基,通過求解1-范數(shù)最小化的方法得到測試樣本的最稀疏表示系數(shù),最后用測試樣本與稀疏表示后的殘差來進(jìn)行分類; (4)輸出語音情感識別結(jié)果,包括 通過稀疏表示分類器的訓(xùn)練和測試,輸出語音情感識別結(jié)果,情感識別測試中采用10次交叉檢驗技術(shù),即所有語句被平分為10份,每次使用其中的9份數(shù)據(jù)用于訓(xùn)練,剩下的I份數(shù)據(jù)用于測試,這樣的識別實驗過程相應(yīng)重復(fù)10次,最后取10次的平均值作為識別結(jié)果O
2.如權(quán)利要求1所述的基于壓縮感知的魯棒性語音情感識別方法,其特征是 所述的基頻采用自相關(guān)法提取出情感語音的基頻軌跡曲線,然后計算出該基頻曲線的10個統(tǒng)計學(xué)參數(shù),包括最大值、最小值、變化范圍、上四分位數(shù)、中位數(shù)、下四分位數(shù)、內(nèi)四分極值、平均值、標(biāo)準(zhǔn)差、平均絕對斜度; 所述的振幅采用平方求和方法求取,提取振幅相關(guān)的9個統(tǒng)計學(xué)參數(shù),包括平均值、標(biāo)準(zhǔn)差、最大值、最小值、變化范圍、上四分位數(shù)、中位數(shù)、下四分位數(shù)、內(nèi)四分極值; 所述的發(fā)音持續(xù)時間發(fā)音持續(xù)時間表征不同情感語音的說話時間構(gòu)造上的差異性,提取發(fā)音持續(xù)時間相關(guān)的參數(shù)6個,包括發(fā)音持續(xù)總時間、有聲發(fā)音持續(xù)時間、無聲發(fā)音持續(xù)時間、有聲與無聲時間的比值、有聲與發(fā)音總時間的比值、無聲與發(fā)音總時間的比值。
3.如權(quán)利要求1所述的基于壓縮感知的魯棒性語音情感識別方法,其特征是, 所述共振峰采用伯格Burg法計算出情感語音的14階線性預(yù)測系數(shù)LPC,再用峰值檢出法計算出第一、第二、第三共振峰Fl、F2、F3的平均值、標(biāo)準(zhǔn)差、中位數(shù)以及這三個共振峰的中位數(shù)所占的帶寬,共提取出12個共振峰相關(guān)特征參數(shù);所述頻帶能量分布提取出5個不同頻帶的能量分布參數(shù)SED,即O — 500Hz的頻帶能量平均值SED5(i(1、500 — 1000Hz的頻帶能量平均值SEDiciciciUOOO — 2500Hz的頻帶能量平均值SED25(i(1、2500 - 4000Hz的頻帶能量平均值SED4citltl、4000 — 5000Hz的頻帶能量平均值SED5000 ; 所述諧波噪聲比提取諧波噪聲比HNR的平均值、標(biāo)準(zhǔn)差、最小值、最大值、變化范圍,其計算公式為
4.如權(quán)利要求1所述的基于壓縮感知的魯棒性語音情感識別方法,其特征是,所述構(gòu)建稀疏表示分類器的方法,具體步驟如下 給定某一類的訓(xùn)練樣本,測試樣本看作為同類訓(xùn)練樣本的線性組合,即
5.如權(quán)利要求1所述的基于壓縮感知的魯棒性語音情感識別方法,其特征是 所述稀疏表示分類器的訓(xùn)練和測試,包括以下步驟 (4-1)用訓(xùn)練樣本的特征矢量對每一類情感測試樣本進(jìn)行最稀疏表示,即給定一類情感的測試樣本,通過求解(式7)的L-1范數(shù)最優(yōu)化問題獲取其權(quán)向量a ; (4-2)對每一類情感(i=l, 2,…,7)的測試樣本ytest,先近似重構(gòu)出一個新樣本,將其記為
6.如權(quán)利要求1-6任一項所述的基于壓縮感知的魯棒性語音情感識別方法,其特征是,所述的情感語音樣本庫中選取生氣、高興、悲傷、害怕、討厭、厭煩以及無情感七種情感語音樣本。
全文摘要
本發(fā)明公開了一種基于壓縮感知的魯棒性語音情感識別方法,包含如下步驟產(chǎn)生含噪聲的情感語音樣本、建立聲學(xué)特征提取模塊、構(gòu)建稀疏表示分類器模型、輸出語音情感識別結(jié)果;有益效果是充分考慮到自然環(huán)境中的情感語音通常會受到噪聲的影響,提供一種噪聲背景下的魯棒性語音情感識別方法;充分考慮到不同類型特征參數(shù)的有效性,將特征參數(shù)的提取從韻律特征和音質(zhì)特征兩方面,擴(kuò)充到梅爾頻率倒譜系數(shù)MFCC,進(jìn)一步提高特征參數(shù)的抗噪聲效果;利用壓縮感知理論中的稀疏表示的判別性,提供一種高性能的基于壓縮感知理論的魯棒性語音情感識別方法。
文檔編號G10L25/63GK103021406SQ20121055158
公開日2013年4月3日 申請日期2012年12月18日 優(yōu)先權(quán)日2012年12月18日
發(fā)明者趙小明, 張石清 申請人:臺州學(xué)院, 趙小明, 張石清