專利名稱:語音識別系統(tǒng)中基于快速噪聲估計的特征補償方法
技術領域:
本發(fā)明涉及一種語音識別系統(tǒng)中基于快速噪聲估計的特征補償方法,具體涉及到 用一個含有較少高斯單元的高斯混合模型快速估計噪聲參數(shù),用一個含有較多高斯單元的 高斯混合模型從含噪測試語音中估計純凈語音特征向量的特征補償方法,屬于語音識別技 術領域。
背景技術:
目前,語音識別系統(tǒng)在實驗室理想環(huán)境下已經(jīng)取得了很好的性能。然而,在實際環(huán) 境中,背景噪聲和信道失真往往是不可避免的,它們會導致實際應用環(huán)境中提取的特征向 量與預先訓練的聲學模型嚴重失配,識別器的性能會急劇惡化,甚至有可能完全失效。因 此,研究語音識別的環(huán)境補償技術,減小環(huán)境失配對語音識別系統(tǒng)的影響,提高語音識別系 統(tǒng)在實際環(huán)境中的性能,具有非常重要的意義。
一般來說,環(huán)境補償技術可劃分為前端特征補償和后端模型補償。特征補償對測 試環(huán)境下的語音特征進行補償,使之與訓練環(huán)境下的聲學模型相匹配。模型補償對訓練環(huán) 境下的聲學模型進行調(diào)整,使之與測試環(huán)境相匹配,直接對測試語音進行識別。與后端模型 補償相比,前端特征補償技術具有計算量小、實現(xiàn)靈活、與后端識別器無關的優(yōu)點,因而其 應用范圍更為廣泛。
在實際應用中,難以保證每段測試語音都有足夠多的靜音幀來估計噪聲參數(shù)。為 了及時跟蹤環(huán)境的變化,往往需要從含噪測試語音中提取噪聲參數(shù)。然而,訓練環(huán)境與測試 環(huán)境之間的環(huán)境變換關系是非線性的,噪聲參數(shù)沒有閉式解。矢量泰勒級數(shù)(VTS = Vector Taylor Series)是一種有效的噪聲魯棒技術,可以很好地逼近由噪聲導致的非線性環(huán)境變 換關系。但是基于VTS的噪聲參數(shù)估計涉及較多的矩陣運算,其計算量與語音模型的高斯 單元數(shù)目成正比。由于在特征補償中,用于噪聲估計的語音模型同時也用于估計純凈語音 特征向量。為了充分描述語音的分布,保證純凈語音估計的精度,用于特征補償?shù)恼Z音模型 必須包含足夠多的高斯單元。因而,基于VTS的特征補償方法的計算量較大,難以在嵌入式 系統(tǒng)等獨立終端上實時實現(xiàn)。發(fā)明內(nèi)容
發(fā)明目的針對現(xiàn)有技術中存在的問題與不足,本發(fā)明提供一種語音識別系統(tǒng)中 基于快速噪聲估計的特征補償方法。
技術方案一種語音識別系統(tǒng)中基于快速噪聲估計的特征補償方法,其主要特點 是將特征補償中的噪聲參數(shù)估計和純凈語音估計分離開來,噪聲估計和純凈語音估計用不 同的高斯混合模型(GMM:Gaussian Mixture Model)實現(xiàn)。一個含有較少高斯單元的高斯 混合模型GMM用于從含噪測試語音中提取噪聲參數(shù);另一個含有較多高斯單元的高斯混 合模型GMM用于與估得的單高斯噪聲模型進行模型組合,得到與當前測試環(huán)境匹配的含噪 GMM;最后用含噪GMM計算含噪測試語音的后驗概率,用最小均方誤差(MMSE:Minimum MeanSquared Error)方法從含噪測試語音中估計純凈語音特征向量。
語音識別系統(tǒng)中基于快速噪聲估計的特征補償方法,具體包括訓練階段和測試階 段兩個部分;
訓練階段的具體步驟包括
(I)從純凈訓練語音中提取純凈語音特征向量,采用美爾頻率倒譜系數(shù) (MFCC:Mel-Frequency Cepstral Coefficients)作為語音的特征參數(shù);
(2)用全部訓練語音的MFCC進行GMM訓練,生成兩個GMM:第一 GMM含有較少的高 斯單元,用于噪聲估計;第二 GMM含有較多的高斯單元,用于模型組合和純凈語音估計;
(3)用每個基本語音單元的訓練語音進行聲學模型訓練,生成每個基本語音單元 的隱馬爾可夫模型(HMM:Hidden Markov Model);
測試階段的具體步驟包括
(4)從含噪測試語音中提取含噪語音MFCC ;
(5)用第一 GMM從含噪語音MFCC中提取噪聲參數(shù),包括噪聲的高斯均值向量和協(xié) 方差矩陣;
(6)用估得的噪聲參數(shù)對第二 GMM的均值和方差進行參數(shù)變換,計算含噪測試語 音的后驗概率,用麗SE方法估計純凈語音MFCC ;
(7)用每個語音單元的HMM對純凈語音MFCC進行聲學解碼,即可得到識別結果。
有益效果與現(xiàn)有技術相比,本發(fā)明提供的語音識別系統(tǒng)中基于快速噪聲估計的 特征補償方法,將特征補償中的噪聲參數(shù)估計和純凈語音估計分離開來,噪聲參數(shù)估計和 純凈語音估計分別用不同的語音模型實現(xiàn),可以在減小計算量的同時,保證純凈語音估計 的精度。
圖1為本發(fā)明實施例的基于快速噪聲估計的特征補償框架;
圖2為本發(fā)明實施例的基于快速噪聲估計的語音識別系統(tǒng)結構。
具體實施方式
下面結合具體實施例,進一步闡明本發(fā)明,應理解這些實施例僅用于說明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領域技術人員對本發(fā)明的各種等價 形式的修改均落于本申請所附權利要求所限定的范圍。
如圖1所示,一個含有較少高斯單元的高斯混合模型GMMl用于從含噪測試語音中 提取噪聲參數(shù);另一個含有較多高斯單元的高斯混合模型GMM2用于與估得的單高斯噪聲 模型進行模型組合,得到與當前測試環(huán)境匹配的含噪GMM ;最后用含噪GMM計算含噪測試語 音的后驗概率,用最小均方誤差方法從含噪測試語音中估計純凈語音特征向量。
如圖2所示,基于快速噪聲估計的特征補償方法主要包括訓練階段和測試階段。 訓練階段主要完成GMM訓練和HMM訓練工作;測試階段主要完成噪聲參數(shù)估計和純凈語音 估計工作。
1、GMM 訓練
采用GMM對語音的分布進行建模,用全部訓練語音生成兩個GMM =GMMl和GMM2。GMMl含有較少的高斯單元,用于噪聲估計;GMM2含有較多的高斯單元,用于純凈語音估計。 GMMl和GMM2的協(xié)方差矩陣均取對角陣。
2、HMM 訓練
本發(fā)明采用連續(xù)密度HMM對語音識別的每個基本語音單元進行建模,用每個基本語音單元的訓練語音生成該基本語音單元的HMM。HMM的數(shù)目取決于語音單元的數(shù)目。所有HMM的協(xié)方差矩陣也取對角陣。
3、噪聲參數(shù)估計
在倒譜域,含噪語音特征向量y與純凈語音特征向量X的關系可以表示為
y = x+Clog (1+exp ((T1 (n-χ)))
(I)
其中,η表示加性噪聲倒譜特征向量,C和C—1分別表示離散余弦變換 (DCT!Discrete Cosine Transform)矩陣及其逆矩陣。將式(I)在x的均值P x和η的初始均值μ η(ι附近,用一階VTS展開,得到
權利要求
1.一種語音識別系統(tǒng)中基于快速噪聲估計的特征補償方法,其特征在于,包括如下步驟(1)采用美爾頻率倒譜系數(shù)作為語音識別系統(tǒng)的特征參數(shù),特征補償?shù)哪康氖菑暮霚y試語音中提取純凈語音MFCC ;(2)在訓練階段,用高斯混合模型對語音的分布進行建模,用全部訓練語音生成兩個 GMM :第一 GMM 和第二 GMM ;(3)用單高斯模型對背景噪聲進行建模,為了實時跟蹤環(huán)境的變化,單高斯噪聲模型的均值向量和協(xié)方差矩陣從含噪測試語音中提??;(4)用第一GMM從含噪測試語音MFCC中提取噪聲參數(shù),包括噪聲的高斯均值向量和協(xié)方差矩陣;(5)用估得的噪聲參數(shù)對第二GMM2的均值和方差進行參數(shù)變換,即對單高斯噪聲模型和第二 GMM進行模型組合,得到第二 GMM的含噪語音均值和方差;(6)用第二GMM的含噪語音均值和方差計算含噪測試語音的后驗概率,用最小均方誤差方法估計純凈語音MFCC ;(7)純凈語音特征向量的一階動態(tài)系數(shù)和二階動態(tài)系數(shù)不直接從含噪測試語音中估計,而是通過對估得的靜態(tài)系數(shù)作時域差分得到。
2.根據(jù)權利要求1所述的語音識別系統(tǒng)中基于快速噪聲估計的特征補償方法,其特征在于用于噪聲參數(shù)估計的第一高斯混合模型含有較少的高斯單元,因而其計算量較小,可以從含噪測試語音中快速估計噪聲的均值和方差。
3.根據(jù)權利要求1所述的語音識別系統(tǒng)中基于快速噪聲估計的特征補償方法,其特征在于用于純凈語音估計的第二高斯混合模型含有較多的高斯單元,可以充分描述語音的分布,因而可以得到準確的純凈語音估計值。
4.根據(jù)權利要求1所述的語音識別系統(tǒng)中基于快速噪聲估計的特征補償方法,其特征在于用于噪聲參數(shù)估計和純凈語音估計的高斯混合模型的協(xié)方差矩陣均取對角陣。
5.根據(jù)權利要求1所述的語音識別系統(tǒng)中基于快速噪聲估計的特征補償方法,其特征在于第一 GMM和第二 GMM只對特征向量的靜態(tài)系數(shù)進行建模,不考慮動態(tài)系數(shù);基于第一 GMM的噪聲參數(shù)估計和基于第二 GMM的純凈語音估計也只計算噪聲和語音的靜態(tài)系數(shù);純凈語音特征向量的動態(tài)系數(shù)通過對估得的靜態(tài)系數(shù)作時域差分得到。
全文摘要
本發(fā)明公開一種語音識別系統(tǒng)中基于快速噪聲估計的特征補償方法,其主要特點是將特征補償中的噪聲參數(shù)估計和純凈語音估計分離開來,噪聲估計和純凈語音估計用不同的高斯混合模型實現(xiàn)。一個含有較少高斯單元的高斯混合模型GMM用于從含噪測試語音中提取噪聲參數(shù);另一個含有較多高斯單元的高斯混合模型GMM用于與估得的單高斯噪聲模型進行模型組合,得到與當前測試環(huán)境匹配的含噪GMM;最后用含噪GMM計算含噪測試語音的后驗概率,用最小均方誤差方法從含噪測試語音中估計純凈語音特征向量。本發(fā)明可以在減小計算量的同時,保證純凈語音估計的精度。
文檔編號G10L15/14GK103000174SQ20121048693
公開日2013年3月27日 申請日期2012年11月26日 優(yōu)先權日2012年11月26日
發(fā)明者呂勇 申請人:河海大學