一種滬語語音識別信息處理方法

文檔序號：2823977閱讀：364來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種滬語語音識別信息處理方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語音識別方法，尤其是涉及一種滬語語音識別信息處理方法。
技術(shù)背景
在語音識別方面最早進行的是說話人的識別，主要集中在單純的人耳聽辨，真正的語音識別是研究采用語音信號線性預(yù)測編碼技術(shù)和動態(tài)時間規(guī)整技術(shù)，主要是對于孤立字，采用的是模板匹配的技術(shù)。我國從1987年開始才對普通話進行語音識別方面的研究，然后對于方言口音，方言的識別發(fā)展相對滯后。滬語在音系結(jié)構(gòu)，韻律特征，語言語法方面都不同于普通話。不能簡單借用識別普通話的方法來識別滬語。而且普通話的識別模型采用了經(jīng)典的HMM，該方法會導(dǎo)致時空復(fù)雜度高的問題。發(fā)明內(nèi)容
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種識別速度高的滬語語音識別信息處理方法。
本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn)
一種滬語語音識別信息處理方法，其特征在于，包括以下步驟
1)聲音輸入設(shè)備輸入滬語信號；
2)預(yù)處理模塊對輸入的滬語語音信號進行預(yù)處理；
3)特征提取模塊提取出反映信號特征的特征參數(shù)；
4)訓(xùn)練模塊將用戶輸入若干次訓(xùn)練語音信號，經(jīng)過預(yù)處理和特征參數(shù)提取后得到特征矢量參數(shù)，然后通過特征建模模塊建立訓(xùn)練語音的參考模型庫，或?qū)δＰ蛶熘械膮⒖寄Ｐ妥鬟m應(yīng)性修正；
5)識別模塊將輸入語音的特征矢量參數(shù)和參考模型庫中的模型進行相似度進行比較，將相似度最高的模型的輸入作為識別候選結(jié)果輸出；
6)后處理模塊對步驟5)中的識別候選結(jié)構(gòu)通過語音知識處理得到最終的識別結(jié)果；
7)最終的識別結(jié)果通過聲音輸出設(shè)備輸出。
所述的步驟幻中的預(yù)處理包括對含噪語音信號進行端點檢測，語音分幀以及預(yù)加重處理。
所述的步驟3)中的提取出反映信號特征的特征參數(shù)步驟如下
1)選取基音周期、共振峰和基于聽覺特性的Mel頻率倒譜系數(shù)作為特征參數(shù)；
2)對語音信號進行低通濾波后，以設(shè)定取樣頻率進行采樣，最后以設(shè)定的滯后時間逐幀計算短時相關(guān)系數(shù)，得到基音周期；
3)直接對語音信號求離散傅里葉變換，用DFT譜來提取語音信號的共振峰參數(shù)；
4)用M個Mel帶通濾波器進行濾波，將每個濾波器的輸出取對數(shù)，得到相應(yīng)頻帶的對數(shù)功率譜，并進行反離散余弦變換，得到L維Mel頻率倒譜系數(shù)，取前12維Mel頻率倒譜3系數(shù)。
所述的步驟4)中的參考模型為GMM和半連續(xù)HMM模型，該模型包括滬語語音的訓(xùn)練數(shù)據(jù)庫和由數(shù)據(jù)庫生成的碼本，結(jié)合碼本和訓(xùn)練數(shù)據(jù)庫，來計算聲學(xué)模型的混合加權(quán)值，最后生成GMM和半連續(xù)HMM模型。
所述的步驟6)中的語音知識處理包括語言模型、詞法、句法處理。
與現(xiàn)有技術(shù)相比，本發(fā)明具有基于多通道的GMM和半連續(xù)HMM的滬語聲學(xué)模型，該模型一定程度上解決了 HMM模型時空復(fù)雜度高，復(fù)雜性等問題，基于多通道更加精確了各個附加權(quán)值的估計，提高了識別速度。

圖1為本發(fā)明的流程圖2為本發(fā)明的硬件結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細(xì)說明。
實施例
如圖1所示，一種滬語語音識別信息處理方法，其特征在于，包括以下步驟
步驟101、聲音輸入設(shè)備1輸入滬語信號；
步驟102、預(yù)處理模塊21對輸入的滬語語音信號進行預(yù)處理，其主要對含噪語音信號進行端點檢測，語音分幀以及預(yù)加重處理；
步驟103、特征提取模塊22選取基音周期、共振峰和基于聽覺特性的Mel頻率倒譜系數(shù)作為特征參數(shù)，基音周期含有豐富的音調(diào)信息，共振峰和基于聽覺特性的Mel頻率倒譜系數(shù)在本質(zhì)上反映了語音音色，是最為重要的特征參數(shù)；
步驟104、由于語音信號的基音頻率一般都在500Hz以下，即使女高音C調(diào)最高也不超過ΙΚΗζ，特征提取模塊22用一個帶寬為IKHz的低通濾波器對語音信號濾波，然后以2KHz取樣頻率進行采樣，最后以IOms的滯后時間逐幀計算短時相關(guān)系數(shù)，每幀長度為 20ms。，得到基音周期；
步驟105、特征提取模塊22直接對語音信號求離散傅里葉變換，用DFT譜來提取語音信號的共振峰參數(shù)，但是直接DFT的譜要受基頻諧波的影響，最大值只能出現(xiàn)在諧波頻率上，因而共振峰測定誤差較大。為了消除基頻諧波的影響，可以采用同態(tài)解卷技術(shù)，經(jīng)過同態(tài)濾波后得到平滑的譜，這樣簡單地檢測峰值就可以直接提取共振峰參數(shù)；
步驟106、特征提取模塊22用M個Mel帶通濾波器進行濾波，由于每個頻帶中分量的作用在人耳中是疊加的，因此將每個濾波器頻帶內(nèi)的能量進行疊加，這時第k個濾波器輸出功率譜。將每個濾波器的輸出取對數(shù)，得到相應(yīng)頻帶的對數(shù)功率譜，并進行反離散余弦變換，得到L維MFCC。但是由于前若干個維以及最后若干維的MFCC對語音的區(qū)分性能較大，通常取前12維的MFCC。
步驟107、訓(xùn)練模塊23將用戶輸入若干次訓(xùn)練語音信號，經(jīng)過預(yù)處理和特征參數(shù)提取后得到特征矢量參數(shù)，然后通過特征建模模塊建立訓(xùn)練語音的參考模型庫，或?qū)δＰ蛶熘械膮⒖寄Ｐ妥鬟m應(yīng)性修正，參考模型為GMM和半連續(xù)HMM模型，該模型包括滬語語音的訓(xùn)練數(shù)據(jù)庫和由數(shù)據(jù)庫生成的碼本，結(jié)合碼本和訓(xùn)練數(shù)據(jù)庫，來計算聲學(xué)模型的混合加權(quán)值，最后生成GMM和半連續(xù)HMM模型；
步驟108、識別模塊M將輸入語音的特征矢量參數(shù)和參考模型庫中的模型進行相似度進行比較，將相似度最高的模型的輸入作為識別候選結(jié)果輸出；
步驟109、后處理模塊25對步驟108中的識別候選結(jié)構(gòu)通過語音知識處理得到最終的識別結(jié)果；
步驟110、最終的識別結(jié)果通過聲音輸出設(shè)備3輸出。
如圖2所示，本發(fā)明的硬件設(shè)備包括聲音輸入設(shè)備1、處理器2、聲音輸出設(shè)備3，所述的處理器2包括預(yù)處理模塊21、特征提取模塊22、訓(xùn)練模塊23、識別模塊M、后處理模塊 25，所述的聲音輸入設(shè)備1與預(yù)處理模塊21連接，所述的特征提取模塊22分別與訓(xùn)練模塊 23、識別模塊M連接，所述的訓(xùn)練模塊23與識別模塊24連接，所述的識別模塊對、后處理模塊25、聲音輸出設(shè)備3依次連接。
權(quán)利要求
1.一種滬語語音識別信息處理方法，其特征在于，包括以下步驟1)聲音輸入設(shè)備輸入滬語信號；2)預(yù)處理模塊對輸入的滬語語音信號進行預(yù)處理；3)特征提取模塊提取出反映信號特征的特征參數(shù)；4)訓(xùn)練模塊將用戶輸入若干次訓(xùn)練語音信號，經(jīng)過預(yù)處理和特征參數(shù)提取后得到特征矢量參數(shù)，然后通過特征建模模塊建立訓(xùn)練語音的參考模型庫，或?qū)δＰ蛶熘械膮⒖寄Ｐ妥鬟m應(yīng)性修正；5)識別模塊將輸入語音的特征矢量參數(shù)和參考模型庫中的模型進行相似度進行比較，將相似度最高的模型的輸入作為識別候選結(jié)果輸出；6)后處理模塊對步驟5)中的識別候選結(jié)構(gòu)通過語音知識處理得到最終的識別結(jié)果；7)最終的識別結(jié)果通過聲音輸出設(shè)備輸出。
2.根據(jù)權(quán)利要求1所述的一種滬語語音識別信息處理方法，其特征在于，所述的步驟2)中的預(yù)處理包括對含噪語音信號進行端點檢測，語音分幀以及預(yù)加重處理。
3.根據(jù)權(quán)利要求1所述的一種滬語語音識別信息處理方法，其特征在于，所述的步驟3)中的提取出反映信號特征的特征參數(shù)步驟如下1)選取基音周期、共振峰和基于聽覺特性的Mel頻率倒譜系數(shù)作為特征參數(shù)；2)對語音信號進行低通濾波后，以設(shè)定取樣頻率進行采樣，最后以設(shè)定的滯后時間逐幀計算短時相關(guān)系數(shù)，得到基音周期；3)直接對語音信號求離散傅里葉變換，用DFT譜來提取語音信號的共振峰參數(shù)；4)用M個Mel帶通濾波器進行濾波，將每個濾波器的輸出取對數(shù)，得到相應(yīng)頻帶的對數(shù)功率譜，并進行反離散余弦變換，得到L維Mel頻率倒譜系數(shù)，取前12維Mel頻率倒譜系數(shù)。
4.根據(jù)權(quán)利要求1所述的一種滬語語音識別信息處理方法，其特征在于，所述的步驟4)中的參考模型為GMM和半連續(xù)HMM模型，該模型包括滬語語音的訓(xùn)練數(shù)據(jù)庫和由數(shù)據(jù)庫生成的碼本，結(jié)合碼本和訓(xùn)練數(shù)據(jù)庫，來計算聲學(xué)模型的混合加權(quán)值，最后生成GMM和半連續(xù)HMM模型。
5.根據(jù)權(quán)利要求1所述的一種滬語語音識別信息處理方法，其特征在于，所述的步驟 6)中的語音知識處理包括語言模型、詞法、句法處理。
全文摘要
本發(fā)明涉及一種滬語語音識別信息處理方法，包括以下步驟1)聲音輸入設(shè)備輸入滬語信號；2)預(yù)處理模塊對輸入的滬語語音信號進行預(yù)處理；3)特征提取模塊提取出反映信號特征的特征參數(shù)；4)訓(xùn)練模塊將用戶輸入若干次訓(xùn)練語音信號，經(jīng)過預(yù)處理和特征參數(shù)提取后得到特征矢量參數(shù)，然后通過特征建模模塊建立訓(xùn)練語音的參考模型庫；5)識別模塊將輸入語音的特征矢量參數(shù)和參考模型庫中的模型進行相似度進行比較，將相似度最高的模型的輸入作為識別候選結(jié)果輸出；6)后處理模塊對步驟5)中的識別候選結(jié)構(gòu)通過語音知識處理得到最終的識別結(jié)果；7)最終的識別結(jié)果通過聲音輸出設(shè)備輸出。與現(xiàn)有技術(shù)相比，本發(fā)明具有識別速度高等優(yōu)點。
文檔編號G10L15/02GK102543073SQ20101058336
公開日2012年7月4日申請日期2010年12月10日優(yōu)先權(quán)日2010年12月10日
發(fā)明者孫弘剛, 施建剛, 許華虎, 陽誠海, 陳開申請人:上海上大海潤信息系統(tǒng)有限公司

完整全部詳細(xì)技術(shù)資料下載