專利名稱:一種滬語語音識別信息處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音識別方法,尤其是涉及一種滬語語音識別信息處理方法。
技術(shù)背景
在語音識別方面最早進行的是說話人的識別,主要集中在單純的人耳聽辨,真正的語音識別是研究采用語音信號線性預(yù)測編碼技術(shù)和動態(tài)時間規(guī)整技術(shù),主要是對于孤立字,采用的是模板匹配的技術(shù)。我國從1987年開始才對普通話進行語音識別方面的研究, 然后對于方言口音,方言的識別發(fā)展相對滯后。滬語在音系結(jié)構(gòu),韻律特征,語言語法方面都不同于普通話。不能簡單借用識別普通話的方法來識別滬語。而且普通話的識別模型采用了經(jīng)典的HMM,該方法會導(dǎo)致時空復(fù)雜度高的問題。發(fā)明內(nèi)容
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種識別速度高的滬語語音識別信息處理方法。
本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn)
一種滬語語音識別信息處理方法,其特征在于,包括以下步驟
1)聲音輸入設(shè)備輸入滬語信號;
2)預(yù)處理模塊對輸入的滬語語音信號進行預(yù)處理;
3)特征提取模塊提取出反映信號特征的特征參數(shù);
4)訓(xùn)練模塊將用戶輸入若干次訓(xùn)練語音信號,經(jīng)過預(yù)處理和特征參數(shù)提取后得到特征矢量參數(shù),然后通過特征建模模塊建立訓(xùn)練語音的參考模型庫,或?qū)δP蛶熘械膮⒖寄P妥鬟m應(yīng)性修正;
5)識別模塊將輸入語音的特征矢量參數(shù)和參考模型庫中的模型進行相似度進行比較,將相似度最高的模型的輸入作為識別候選結(jié)果輸出;
6)后處理模塊對步驟5)中的識別候選結(jié)構(gòu)通過語音知識處理得到最終的識別結(jié)果;
7)最終的識別結(jié)果通過聲音輸出設(shè)備輸出。
所述的步驟幻中的預(yù)處理包括對含噪語音信號進行端點檢測,語音分幀以及預(yù)加重處理。
所述的步驟3)中的提取出反映信號特征的特征參數(shù)步驟如下
1)選取基音周期、共振峰和基于聽覺特性的Mel頻率倒譜系數(shù)作為特征參數(shù);
2)對語音信號進行低通濾波后,以設(shè)定取樣頻率進行采樣,最后以設(shè)定的滯后時間逐幀計算短時相關(guān)系數(shù),得到基音周期;
3)直接對語音信號求離散傅里葉變換,用DFT譜來提取語音信號的共振峰參數(shù);
4)用M個Mel帶通濾波器進行濾波,將每個濾波器的輸出取對數(shù),得到相應(yīng)頻帶的對數(shù)功率譜,并進行反離散余弦變換,得到L維Mel頻率倒譜系數(shù),取前12維Mel頻率倒譜3系數(shù)。
所述的步驟4)中的參考模型為GMM和半連續(xù)HMM模型,該模型包括滬語語音的訓(xùn)練數(shù)據(jù)庫和由數(shù)據(jù)庫生成的碼本,結(jié)合碼本和訓(xùn)練數(shù)據(jù)庫,來計算聲學(xué)模型的混合加權(quán)值, 最后生成GMM和半連續(xù)HMM模型。
所述的步驟6)中的語音知識處理包括語言模型、詞法、句法處理。
與現(xiàn)有技術(shù)相比,本發(fā)明具有基于多通道的GMM和半連續(xù)HMM的滬語聲學(xué)模型,該模型一定程度上解決了 HMM模型時空復(fù)雜度高,復(fù)雜性等問題,基于多通道更加精確了各個附加權(quán)值的估計,提高了識別速度。
圖1為本發(fā)明的流程圖2為本發(fā)明的硬件結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細(xì)說明。
實施例
如圖1所示,一種滬語語音識別信息處理方法,其特征在于,包括以下步驟
步驟101、聲音輸入設(shè)備1輸入滬語信號;
步驟102、預(yù)處理模塊21對輸入的滬語語音信號進行預(yù)處理,其主要對含噪語音信號進行端點檢測,語音分幀以及預(yù)加重處理;
步驟103、特征提取模塊22選取基音周期、共振峰和基于聽覺特性的Mel頻率倒譜系數(shù)作為特征參數(shù),基音周期含有豐富的音調(diào)信息,共振峰和基于聽覺特性的Mel頻率倒譜系數(shù)在本質(zhì)上反映了語音音色,是最為重要的特征參數(shù);
步驟104、由于語音信號的基音頻率一般都在500Hz以下,即使女高音C調(diào)最高也不超過ΙΚΗζ,特征提取模塊22用一個帶寬為IKHz的低通濾波器對語音信號濾波,然后以2KHz取樣頻率進行采樣,最后以IOms的滯后時間逐幀計算短時相關(guān)系數(shù),每幀長度為 20ms。,得到基音周期;
步驟105、特征提取模塊22直接對語音信號求離散傅里葉變換,用DFT譜來提取語音信號的共振峰參數(shù),但是直接DFT的譜要受基頻諧波的影響,最大值只能出現(xiàn)在諧波頻率上,因而共振峰測定誤差較大。為了消除基頻諧波的影響,可以采用同態(tài)解卷技術(shù),經(jīng)過同態(tài)濾波后得到平滑的譜,這樣簡單地檢測峰值就可以直接提取共振峰參數(shù);
步驟106、特征提取模塊22用M個Mel帶通濾波器進行濾波,由于每個頻帶中分量的作用在人耳中是疊加的,因此將每個濾波器頻帶內(nèi)的能量進行疊加,這時第k個濾波器輸出功率譜。將每個濾波器的輸出取對數(shù),得到相應(yīng)頻帶的對數(shù)功率譜,并進行反離散余弦變換,得到L維MFCC。但是由于前若干個維以及最后若干維的MFCC對語音的區(qū)分性能較大,通常取前12維的MFCC。
步驟107、訓(xùn)練模塊23將用戶輸入若干次訓(xùn)練語音信號,經(jīng)過預(yù)處理和特征參數(shù)提取后得到特征矢量參數(shù),然后通過特征建模模塊建立訓(xùn)練語音的參考模型庫,或?qū)δP蛶熘械膮⒖寄P妥鬟m應(yīng)性修正,參考模型為GMM和半連續(xù)HMM模型,該模型包括滬語語音的訓(xùn)練數(shù)據(jù)庫和由數(shù)據(jù)庫生成的碼本,結(jié)合碼本和訓(xùn)練數(shù)據(jù)庫,來計算聲學(xué)模型的混合加權(quán)值,最后生成GMM和半連續(xù)HMM模型;
步驟108、識別模塊M將輸入語音的特征矢量參數(shù)和參考模型庫中的模型進行相似度進行比較,將相似度最高的模型的輸入作為識別候選結(jié)果輸出;
步驟109、后處理模塊25對步驟108中的識別候選結(jié)構(gòu)通過語音知識處理得到最終的識別結(jié)果;
步驟110、最終的識別結(jié)果通過聲音輸出設(shè)備3輸出。
如圖2所示,本發(fā)明的硬件設(shè)備包括聲音輸入設(shè)備1、處理器2、聲音輸出設(shè)備3,所述的處理器2包括預(yù)處理模塊21、特征提取模塊22、訓(xùn)練模塊23、識別模塊M、后處理模塊 25,所述的聲音輸入設(shè)備1與預(yù)處理模塊21連接,所述的特征提取模塊22分別與訓(xùn)練模塊 23、識別模塊M連接,所述的訓(xùn)練模塊23與識別模塊24連接,所述的識別模塊對、后處理模塊25、聲音輸出設(shè)備3依次連接。
權(quán)利要求
1.一種滬語語音識別信息處理方法,其特征在于,包括以下步驟1)聲音輸入設(shè)備輸入滬語信號;2)預(yù)處理模塊對輸入的滬語語音信號進行預(yù)處理;3)特征提取模塊提取出反映信號特征的特征參數(shù);4)訓(xùn)練模塊將用戶輸入若干次訓(xùn)練語音信號,經(jīng)過預(yù)處理和特征參數(shù)提取后得到特征矢量參數(shù),然后通過特征建模模塊建立訓(xùn)練語音的參考模型庫,或?qū)δP蛶熘械膮⒖寄P妥鬟m應(yīng)性修正;5)識別模塊將輸入語音的特征矢量參數(shù)和參考模型庫中的模型進行相似度進行比較, 將相似度最高的模型的輸入作為識別候選結(jié)果輸出;6)后處理模塊對步驟5)中的識別候選結(jié)構(gòu)通過語音知識處理得到最終的識別結(jié)果;7)最終的識別結(jié)果通過聲音輸出設(shè)備輸出。
2.根據(jù)權(quán)利要求1所述的一種滬語語音識別信息處理方法,其特征在于,所述的步驟2)中的預(yù)處理包括對含噪語音信號進行端點檢測,語音分幀以及預(yù)加重處理。
3.根據(jù)權(quán)利要求1所述的一種滬語語音識別信息處理方法,其特征在于,所述的步驟3)中的提取出反映信號特征的特征參數(shù)步驟如下1)選取基音周期、共振峰和基于聽覺特性的Mel頻率倒譜系數(shù)作為特征參數(shù);2)對語音信號進行低通濾波后,以設(shè)定取樣頻率進行采樣,最后以設(shè)定的滯后時間逐幀計算短時相關(guān)系數(shù),得到基音周期;3)直接對語音信號求離散傅里葉變換,用DFT譜來提取語音信號的共振峰參數(shù);4)用M個Mel帶通濾波器進行濾波,將每個濾波器的輸出取對數(shù),得到相應(yīng)頻帶的對數(shù)功率譜,并進行反離散余弦變換,得到L維Mel頻率倒譜系數(shù),取前12維Mel頻率倒譜系數(shù)。
4.根據(jù)權(quán)利要求1所述的一種滬語語音識別信息處理方法,其特征在于,所述的步驟4)中的參考模型為GMM和半連續(xù)HMM模型,該模型包括滬語語音的訓(xùn)練數(shù)據(jù)庫和由數(shù)據(jù)庫生成的碼本,結(jié)合碼本和訓(xùn)練數(shù)據(jù)庫,來計算聲學(xué)模型的混合加權(quán)值,最后生成GMM和半連續(xù)HMM模型。
5.根據(jù)權(quán)利要求1所述的一種滬語語音識別信息處理方法,其特征在于,所述的步驟 6)中的語音知識處理包括語言模型、詞法、句法處理。
全文摘要
本發(fā)明涉及一種滬語語音識別信息處理方法,包括以下步驟1)聲音輸入設(shè)備輸入滬語信號;2)預(yù)處理模塊對輸入的滬語語音信號進行預(yù)處理;3)特征提取模塊提取出反映信號特征的特征參數(shù);4)訓(xùn)練模塊將用戶輸入若干次訓(xùn)練語音信號,經(jīng)過預(yù)處理和特征參數(shù)提取后得到特征矢量參數(shù),然后通過特征建模模塊建立訓(xùn)練語音的參考模型庫;5)識別模塊將輸入語音的特征矢量參數(shù)和參考模型庫中的模型進行相似度進行比較,將相似度最高的模型的輸入作為識別候選結(jié)果輸出;6)后處理模塊對步驟5)中的識別候選結(jié)構(gòu)通過語音知識處理得到最終的識別結(jié)果;7)最終的識別結(jié)果通過聲音輸出設(shè)備輸出。與現(xiàn)有技術(shù)相比,本發(fā)明具有識別速度高等優(yōu)點。
文檔編號G10L15/02GK102543073SQ20101058336
公開日2012年7月4日 申請日期2010年12月10日 優(yōu)先權(quán)日2010年12月10日
發(fā)明者孫弘剛, 施建剛, 許華虎, 陽誠海, 陳開 申請人:上海上大海潤信息系統(tǒng)有限公司