一種考慮語音中多線性群組稀疏特性的情緒特征提取方法

文檔序號：2819057閱讀：657來源：國知局

專利名稱：一種考慮語音中多線性群組稀疏特性的情緒特征提取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于提高語音情緒識別性能的語音情緒特征提取方法，屬于語音信號處理技術(shù)領(lǐng)域。
背景技術(shù)：
語音是人們在日常生活中進行交流的最便捷的方式之一，這也使得研究人員積極探索如何利用語音作為人和機器之間進行交流的工具。除了傳統(tǒng)的語音識別等人機交互模式外，說話人的情緒也是一種重要的交互信息，機器能夠自動識別理解說話人的情緒是人機交互智能化的重要標志之一。語音情緒識別在信號處理和智能人機交互領(lǐng)域具有重要的價值，有著很多潛在的應用。在人機交互方面，通過計算機識別說話人的情緒可以提高系統(tǒng)的親切性和準確性，例如遠程教育系統(tǒng)可以通過識別學生的情緒及時調(diào)整課程，從而提升教學效果；在電話呼叫中心和移動通信中，可以及時獲取用戶的情緒信息，提高服務的質(zhì)量；車載系統(tǒng)可以通過情緒識別檢測司機的精力是否集中，并做出相應的輔助警示。在醫(yī)學方面，基于語音的情緒識別可以作為一種工具，幫助醫(yī)生對病人的病情進行診斷。對于語音情緒識別來說，一個重要的問題就是如何提取出有效的特征用來表示不同的情緒。按照傳統(tǒng)的特征提取方法，通常會將一段語音信號分成多幀，以便得到近似平穩(wěn)的信號。從每一幀獲取的周期性特征稱為局部特征，例如基音、能量等，其優(yōu)點是現(xiàn)有的分類器能夠利用局部特征較為準確的估計出不同情緒狀態(tài)的參數(shù)，缺點是特征維數(shù)和樣本數(shù)較多，影響到特征提取和分類的速度。通過對整個句子的特征進行統(tǒng)計得到特征稱為全局特征，其優(yōu)點是能夠獲得較好的分類精度和速度，但是丟失了語音信號的時序信息，容易出現(xiàn)訓練樣本不足的問題。一般情況下，語音情緒識別常用的特征有以下幾類連續(xù)聲學特征、譜特征、基于Teager能量算子的特征等等。根據(jù)心理學和韻律學等的研究結(jié)果，說話人的情緒在語音中最直觀的特征就是韻律連續(xù)特征，如基音、能量、說話的速率等。對應的全局特征包括基音或者能量的均值、中位數(shù)、標準偏差、最大值、最小值等，以及第一、第二共振峰等等。譜特征提供了語音信號中的有用的頻率信息，也是語音情緒識別中重要的特征提取方式。常用的譜特征包括線性預測系數(shù)(LPC)、線性預測倒譜系數(shù)(LPCC)、美爾頻率倒譜系數(shù)(MFCC)、感知加權(quán)線性預測(PLP)等等。語音是由發(fā)聲系統(tǒng)中的非線性空氣流產(chǎn)生的，Teager能量算子(TEO)是Teager 等人提出的一種能夠快速跟蹤聲門周期內(nèi)信號能量變化的運算操作，用于分析語音的精細結(jié)構(gòu)。不同的情緒狀態(tài)下，肌肉的伸縮情況會影響發(fā)聲系統(tǒng)中空氣流的運動，根據(jù) Bou-Ghazale等人的研究結(jié)果可以知道，基于TEO的特征可以用來檢測語音中的緊張情緒。根據(jù)眾多實驗評估結(jié)果，對于語音情緒識別來說，要針對不同的分類任務來選擇合適的特征表征，基于Teager能量的特征適合于檢測語音信號中的緊張情緒；連續(xù)聲學特征則適合區(qū)分高喚醒情緒(high-arousal emotion)和低喚醒情緒(low-arousalemotion);而對于多類的情緒分類任務，譜特征是最適合的語音表征，如果將譜特征與連續(xù)聲學特征結(jié)合，或者考慮多種因素的關(guān)聯(lián)分析，也能夠達到提高分類精度的目的。在語音情緒特征提取和選擇完成之后的另外一個重要階段就是分類。目前模式識別領(lǐng)域中各種分類器都被用來對語音情緒特征進行分類，包括隱馬爾科夫模型(HMM)、高斯混合模型(GMM)、支持向量機(SVM)、線性判別分析(LDA)和集成分類器等等。隱馬爾科夫模型是在語音情緒識別中應用的最廣泛的識別器之一，這得益于它在語音信號中的普遍應用，尤其適用于處理具有時序結(jié)構(gòu)的數(shù)據(jù)，從目前的研究結(jié)果來看，基于隱馬爾科夫模型的情緒識別系統(tǒng)能夠提供較高分類準確率。高斯混合模型可以看作是只有一個狀態(tài)的隱馬爾科夫模型，非常適合于對多元分布進行建模，Breazeal等人利用GMM作為分類器應用于 KISMET語音數(shù)據(jù)庫，對五類情緒進行分類識別。支持向量機已經(jīng)被廣泛應用模式識別領(lǐng)域，其基本原理是通過核函數(shù)將特征投影到高維空間使得特征線性可分，相比HMM和GMM，它具有訓練算法全局最優(yōu)以及存在依賴于數(shù)據(jù)的泛化邊界的優(yōu)點，不少研究結(jié)果是利用支持向量機作為語音情緒識別的分類器并取得了較好的分類效果。如圖I所示，傳統(tǒng)的基于譜特征的語音情緒識別方法通常采用以下步驟I)對輸入的語音信號進行預處理，包括加窗、濾波、預加重等；2)對信號進行短時傅立葉變換，通過美爾三角窗進行濾波，然后求對數(shù)譜(取 log)；3)利用離散余弦變換計算倒譜，然后加權(quán)，求倒譜均值減，計算差分；4)利用高斯混合模型(GMM)進行訓練，獲得不同情緒的模型；5)通過訓練得到的情緒模型，對測試數(shù)據(jù)進行識別，得到識別準確率。目前針對兩類情緒分類，如負面情緒和中立情緒，已經(jīng)達到了相對較好的分類精度，但是對于多類情緒的分類，由于數(shù)據(jù)的不平衡性，只考慮單一因素(頻率或者時間)等原因，使得特征可區(qū)分性較差，情緒分類精度相對較低，這使得基于語音的情緒識別系統(tǒng)應用受到限制。

發(fā)明內(nèi)容
針對傳統(tǒng)語音情緒識別中的特征提取只考慮單一因素，如頻率或者時間，使得特征可區(qū)分性較差的問題，本發(fā)明提出一種考慮語音中多線性群組稀疏特性、用于語音情緒識別并能夠提高多類情緒識別準確率的語音情緒特征提取方法。本發(fā)明的考慮語音中多線性群組稀疏特性的情緒特征提取方法，是考慮語音信號中包括時間、頻率、尺度和方向信息的多重因素，利用多線性群組稀疏分解的方法進行特征提取，通過不同尺度和方向的Gabor函數(shù)對語音信號能量譜進行多線性表征，利用群組稀疏張量分解方法求解特征投影矩陣，計算頻率階上的特征投影，經(jīng)過離散余弦變換對特征去相關(guān)，通過差分獲得特征的一階和二階差分系數(shù)；具體包括以下步驟(I)采集語音信號s (t)(通過麥克風等設備采集)，利用短時傅里葉變換將s (t) 變換到時頻域，得到信號的時頻表示S (f，t)和能量譜P (f，t)；(2)利用具有不同尺度和方向的二維Gabor函數(shù)對能量譜進行卷積濾波,Gabor函數(shù)定義如下
權(quán)利要求
1.一種考慮語音中多線性群組稀疏特征的語音情緒特征提取方法，其特征是考慮語音信號中包括時間、頻率、尺度和方向信息的多重因素，利用多線性群組稀疏分解的方法進行特征提取，通過不同尺度和方向的Gabor函數(shù)對語音信號能量譜進行多線性表征，利用群組稀疏張量分解方法求解特征投影矩陣，計算頻率階上的特征投影，經(jīng)過離散余弦變換對特征去相關(guān)，計算特征的一階和二階差分系數(shù)，具體包括以下步驟(1)采集語音信號s(t)，利用短時傅里葉變換將s (t)變換到時頻域，得到信號的時頻表示S(f，t)和能量譜P (f，t)；(2)利用具有不同尺度和方向的二維Gabor函數(shù)對能量譜進行卷積濾波，Gabor函數(shù)定義如下
2.根據(jù)權(quán)利要求I所述的基于多線性群組稀疏特征的語音情緒特征提取方法，其特征是所述計算投影矩陣U(i)，i = 1,L I的具體的分解過程如下，這里i表示階(對應不同因素)的索引，1 = 5:①采用交替最小均方或者隨機初始KU(i)^ O, i = 1,L, I ；②對投影矩陣U⑴，i= 1，L I的每個列向量4), i = 1，L，I，k = 1，L，K進行歸一化；③誤差目標函數(shù)
全文摘要
本發(fā)明公開了一種考慮語音中多線性群組稀疏特性的情緒特征提取方法，該方法考慮語音信號中包括時間、頻率、尺度和方向信息的多重因素，利用多線性群組稀疏分解的方法進行特征提取，通過不同尺度和方向的Gabor函數(shù)對語音信號能量譜進行多線性表征，利用群組稀疏張量分解方法求解特征投影矩陣，計算頻率階上的特征投影，經(jīng)過離散余弦變換對特征去相關(guān)，最終計算特征的一階和二階差分系數(shù)，得到語音情緒特征。本發(fā)明考慮語音信號中的時間、頻率、尺度和方向等因素用于情緒的特征提取，利用群組稀疏張量分解方法進行特征投影，最終提高了多類語音情緒識別的準確率。
文檔編號G10L19/06GK102592593SQ20121009152
公開日2012年7月18日申請日期2012年3月31日優(yōu)先權(quán)日2012年3月31日
發(fā)明者劉琚, 吳強, 孫建德申請人:山東大學

完整全部詳細技術(shù)資料下載