亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于hmm/sofmnn混合模型的語(yǔ)音情感識(shí)別方法

文檔序號(hào):2818989閱讀:265來(lái)源:國(guó)知局
專利名稱:基于hmm/sofmnn混合模型的語(yǔ)音情感識(shí)別方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種語(yǔ)音情感識(shí)別方法,尤其是涉及一種基于HMM/S0FMNN混合模型的語(yǔ)音情感識(shí)別方法。
背景技術(shù)
人的語(yǔ)音信號(hào)中包含著豐富的情感信息,通過(guò)對(duì)語(yǔ)音信號(hào)的分析來(lái)識(shí)別人的情感是當(dāng)前一個(gè)十分活躍的研究課題。語(yǔ)音情感識(shí)別就是從語(yǔ)音信號(hào)中識(shí)別出說(shuō)話人的情感信息,比如“喜、怒、哀、樂(lè)”等。語(yǔ)音情感識(shí)別在自然人機(jī)交互、安全系統(tǒng)自動(dòng)監(jiān)管等方面有著廣泛的應(yīng)用前景。語(yǔ)音情感識(shí)別是一個(gè)模式識(shí)別問(wèn)題,大部分模式識(shí)別和分類方法都被嘗試用于語(yǔ)
音中情感的自動(dòng)識(shí)別。隱馬爾可夫模型(HMM)作為語(yǔ)音信號(hào)的一種較為理想的統(tǒng)計(jì)模型,已經(jīng)在語(yǔ)音處理領(lǐng)域獲得了廣泛的應(yīng)用,并逐漸被應(yīng)用到語(yǔ)音情感識(shí)別領(lǐng)域。隱馬爾可夫過(guò)程是一種雙重隨機(jī)過(guò)程,人的言語(yǔ)過(guò)程實(shí)際上就是這樣一種雙重隨機(jī)過(guò)程。HMM合理地模仿了這一過(guò)程,很好地描述了語(yǔ)音信號(hào)的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語(yǔ)音模型。但HMM方法有需要語(yǔ)音信號(hào)的先驗(yàn)統(tǒng)計(jì)知識(shí),分類決策能力較弱等缺點(diǎn),由于僅考慮了特征的類內(nèi)變化,而忽略了類間重疊性,僅根據(jù)各累積概率的最大值作類別判斷,而忽略了各個(gè)模式之間的相似特性,因而影響了系統(tǒng)的識(shí)別性能,其自適應(yīng)能力、魯棒性都不
理相因此要進(jìn)一步提高語(yǔ)音情感識(shí)別率,就要對(duì)HMM模型進(jìn)行改進(jìn)。

發(fā)明內(nèi)容
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種克服了 HMM本身難以解決的模式類別間的相互重疊問(wèn)題,而且彌補(bǔ)了 S0FMNN(自組織特征映射神經(jīng)網(wǎng)絡(luò))在獲取時(shí)序信息方面的不足,提高了語(yǔ)音情感識(shí)別率的基于HMM/S0FMNN混合模型的語(yǔ)音情感識(shí)別方法。本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)一種基于HMM/S0FMNN混合模型的語(yǔ)音情感識(shí)別方法,其特征在于,該方法將HMM和SOFMNN模型相結(jié)合對(duì)語(yǔ)音情感進(jìn)行識(shí)別,其具體包括以下步驟I)建立情感語(yǔ)音數(shù)據(jù)庫(kù);2)進(jìn)行語(yǔ)音信號(hào)預(yù)處理包括預(yù)加重處理、去噪和分幀加窗;3)語(yǔ)音情感特征提取包括提取語(yǔ)音信號(hào)的時(shí)間、能量、振幅、基頻和共振峰; 4)利用HMM/S0FMNN混合模型訓(xùn)練與識(shí)別。所述的步驟I)建立情感語(yǔ)音數(shù)據(jù)庫(kù)具體為,首先邀請(qǐng)實(shí)驗(yàn)者參加錄音,其中包括高興,傷心,生氣,害怕,驚訝五類情感,組成錄制情感語(yǔ)音數(shù)據(jù)庫(kù);然后從影視剪輯中選取典型的情感語(yǔ)音片段,其中包括高興,傷心,生氣,害怕和驚訝五類情感語(yǔ)料,組成剪輯情感語(yǔ)音數(shù)據(jù)庫(kù),最終將這兩種情感語(yǔ)音數(shù)據(jù)庫(kù)綜合起來(lái),完成情感語(yǔ)音數(shù)據(jù)庫(kù)的建立。所述的步驟2)進(jìn)行語(yǔ)音信號(hào)預(yù)處理具體為,通過(guò)具有6db/oct梯度的高頻增強(qiáng)型濾波器,利用Z變換,用一階數(shù)字濾波器來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重處理,經(jīng)過(guò)去噪以及分幀之后的語(yǔ)音信號(hào)為s(n) = O,…,N-1,那么乘上窗長(zhǎng)N = 23. 22ms (256點(diǎn))的漢明窗后就變成s' (n) = s(n)*w(n)
"(Οπη、w (η)定義如下
權(quán)利要求
1.一種基于HMM/SOFMNN混合模型的語(yǔ)音情感識(shí)別方法,其特征在于,該方法將HMM和SOFMNN模型相結(jié)合對(duì)語(yǔ)音情感進(jìn)行識(shí)別,其具體包括以下步驟 . 1)建立情感語(yǔ)音數(shù)據(jù)庫(kù); . 2)進(jìn)行語(yǔ)音信號(hào)預(yù)處理包括預(yù)加重處理、去噪和分幀加窗; . 3)語(yǔ)音情感特征提取包括提取語(yǔ)音信號(hào)的時(shí)間、能量、振幅、基頻和共振峰; . 4)利用HMM/S0FMNN混合模型訓(xùn)練與識(shí)別。
2.根據(jù)權(quán)利要求I所述的一種基于HMM/S0FMNN混合模型的語(yǔ)音情感識(shí)別方法,其特征在于,所述的步驟I)建立情感語(yǔ)音數(shù)據(jù)庫(kù)具體為,首先邀請(qǐng)實(shí)驗(yàn)者參加錄音,其中包括高興,傷心,生氣,害怕,驚訝五類情感,組成錄制情感語(yǔ)音數(shù)據(jù)庫(kù);然后從影視剪輯中選取典型的情感語(yǔ)音片段,其中包括高興,傷心,生氣,害怕和驚訝五類情感語(yǔ)料,組成剪輯情感語(yǔ)音數(shù)據(jù)庫(kù),最終將這兩種情感語(yǔ)音數(shù)據(jù)庫(kù)綜合起來(lái),完成情感語(yǔ)音數(shù)據(jù)庫(kù)的建立。
3.根據(jù)權(quán)利要求I所述的一種基于HMM/S0FMNN混合模型的語(yǔ)音情感識(shí)別方法,其特征在于,所述的步驟2)進(jìn)行語(yǔ)音信號(hào)預(yù)處理具體為,通過(guò)具有6db/oct梯度的高頻增強(qiáng)型濾波器,利用Z變換,用一階數(shù)字濾波器來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重處理,經(jīng)過(guò)去噪以及分幀之后的語(yǔ)音信號(hào)為s(n) = O,…,N-1,那么乘上窗長(zhǎng)N = 23. 22ms (256點(diǎn))的漢明窗后就變成s' (n) = s (n) *w (n)
4.根據(jù)權(quán)利要求I所述的一種基于HMM/S0FMNN混合模型的語(yǔ)音情感識(shí)別方法,其特征在于,所述的步驟3)語(yǔ)音情感特征提取具體包括 A)、時(shí)間參數(shù) 提取短時(shí)過(guò)零率,即一幀語(yǔ)音中語(yǔ)音信號(hào)波形穿過(guò)橫軸的次數(shù); 提取語(yǔ)速,即應(yīng)用基于頻帶方差的端點(diǎn)檢測(cè)算法,檢測(cè)有聲幀與無(wú)聲幀,以無(wú)聲部分時(shí)間t與發(fā)音持續(xù)時(shí)間T的比值來(lái)計(jì)算出無(wú)聲部分時(shí)間比率P = t/T,從而衡量語(yǔ)音信號(hào)的語(yǔ)速; B)、基音頻率包括平均基音頻率、基頻變化范圍和基音頻率的平均變化率; 采用窗長(zhǎng)23. 22ms (256點(diǎn)),窗移IOms的漢明窗,截止頻率為900Hz的低通濾波器,采用自相關(guān)分析法來(lái)對(duì)每一幀進(jìn)行基音周期估計(jì),然后對(duì)基頻進(jìn)行中值濾波和線性平滑處理,求出情感語(yǔ)音信號(hào)的平滑的基頻軌跡曲線,分析不同情感信號(hào)基頻軌跡的變化情況,找出不同情感的基頻構(gòu)造特征; C)、能量參數(shù)即短時(shí)平均能量; 首先求出語(yǔ)音信號(hào)各樣本點(diǎn)值的平方,然后樣本點(diǎn)通過(guò)濾波器輸出由短時(shí)能量構(gòu)成的時(shí)間序列,采用窗長(zhǎng)N = 23. 22ms (256點(diǎn))的漢明窗,在滿足對(duì)語(yǔ)音振幅瞬間變化的細(xì)節(jié)進(jìn)行了有效平滑的前提下,保證了短時(shí)能量的明顯變化; D)、振幅參數(shù)包括短時(shí)平均振幅和振幅平均變化率; 首先選擇一幀語(yǔ)音,計(jì)算該幀語(yǔ)音取樣值的絕對(duì)值的和,得到該幀語(yǔ)音的平均振幅,對(duì)整段語(yǔ)音的各個(gè)分幀分別計(jì)算平均振幅,便可以得到整段語(yǔ)音的短時(shí)平均振幅序列; E)、共振峰參數(shù)包括共振峰頻率的平均值、共振峰頻率的平均變化率和前三個(gè)共振峰頻率; 首先用線性預(yù)測(cè)法求出預(yù)測(cè)系數(shù),然后用預(yù)測(cè)系數(shù)估計(jì)出聲道的頻響曲線,再用峰值檢出法計(jì)算出各共振峰的頻率。
5.根據(jù)權(quán)利要求4所述的一種基于HMM/SOFMNN混合模型的語(yǔ)音情感識(shí)別方法,其特征在于,所述的步驟B)中的采用自相關(guān)分析法來(lái)對(duì)每一幀進(jìn)行基音周期估計(jì)具體包括以下步驟 a)用900Hz低通濾波器對(duì)一幀語(yǔ)音信號(hào)X(n)進(jìn)行濾波,并去掉開頭20個(gè)輸出值不用(置 0),得到 X' (n); b)分別求X'(n)的前部90個(gè)樣點(diǎn)和后部90個(gè)樣點(diǎn)的最大幅度,并取其中較小的一個(gè),乘以因子O. 68作為門限電平Q ; c)對(duì)X'(η)分別進(jìn)行中心削波和三電平削波,即
6.根據(jù)權(quán)利要求1所述的一種基于HMM/SOFMNN混合模型的語(yǔ)音情感識(shí)別方法,其特征在于,所述的步驟4)利用HMM/SOFMNN混合模型訓(xùn)練與識(shí)別具體包括以下步驟 41)HMM狀態(tài)分割 根據(jù)HMM模型,對(duì)于每一種情感類別,首先建立對(duì)應(yīng)的隱馬爾可夫模型λ = (π,Α,B),狀態(tài)分割采用Viterbi算法,Viterbi譯碼器用于生成最佳的狀態(tài)序列,在訓(xùn)練時(shí),每個(gè)樣本的最佳狀態(tài)序列由各種情感的HMM模型產(chǎn)生,識(shí)別時(shí),先求出樣本通過(guò)不同的HMM的觀察概率,然后求出各個(gè)模型對(duì)應(yīng)的規(guī)整的特征向量,選擇前三個(gè)最大輸出似然概率對(duì)應(yīng)的HMM規(guī)整特征向量與上述這三類的中心矢量距離最短的特征向量作為輸入SOFMNN節(jié)點(diǎn)的矢量; 42)特征向量規(guī)整即對(duì)同一狀態(tài)利用空間正交基函數(shù)展開的方法進(jìn)行規(guī)整,生成等維的語(yǔ)音特征矢量; HMM模型對(duì)應(yīng)的Markov鏈由若干狀態(tài)組成,可以表示為i = 1,2,…,n,設(shè)第i個(gè)狀態(tài)對(duì)應(yīng)的特征向量有M個(gè),表示為向量集L代表特征參數(shù)向量的維數(shù),把每個(gè)特征向量按行排列可以得到如下的矩陣C
全文摘要
本發(fā)明涉及一種基于HMM/SOFMNN混合模型的語(yǔ)音情感識(shí)別方法,該方法將HMM和SOFMNN模型相結(jié)合對(duì)語(yǔ)音情感進(jìn)行識(shí)別,其具體包括以下步驟1)建立情感語(yǔ)音數(shù)據(jù)庫(kù);2)進(jìn)行語(yǔ)音信號(hào)預(yù)處理包括預(yù)加重處理、去噪和分幀加窗;3)語(yǔ)音情感特征提取包括提取語(yǔ)音信號(hào)的時(shí)間、能量、振幅、基頻和共振峰;4)利用HMM/SOFMNN混合模型訓(xùn)練與識(shí)別。與現(xiàn)有技術(shù)相比,本發(fā)明克服了HMM本身難以解決的模式類別間的相互重疊問(wèn)題,而且彌補(bǔ)了SOFMNN在獲取時(shí)序信息方面的不足,提高了語(yǔ)音情感識(shí)別率。
文檔編號(hào)G10L15/14GK102890930SQ201110202579
公開日2013年1月23日 申請(qǐng)日期2011年7月19日 優(yōu)先權(quán)日2011年7月19日
發(fā)明者高玨, 孫柏林, 施建剛, 孫弘剛, 袁健, 陳開 , 佘俊, 許華虎, 何永義 申請(qǐng)人:上海上大海潤(rùn)信息系統(tǒng)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1