本發(fā)明涉及到將待識別語音的倒譜特征參數分解為若干個頻帶的子信號,對每個頻帶的子信號分別進行特征補償,再將補償后的各頻帶倒譜特征合成為完整倒譜特征參數的多頻帶魯棒特征補償方法,屬于語音識別
技術領域:
。
背景技術:
:在噪聲環(huán)境下,語音識別系統(tǒng)的性能往往會下降,這是因為背景噪聲會使測試環(huán)境下提取的特征參數與預先訓練的聲學模型不匹配。因此,在實際應用中,需要采取一些補償技術減小噪聲對語音識別系統(tǒng)的影響,提高語音識別系統(tǒng)的識別率。一般來說,噪聲補償技術可以用于前端特征域,也可以用于后端模型域。前者對噪聲環(huán)境下提取的特征參數進行補償,從含噪測試語音中估計純凈語音的特征向量;后者利用測試環(huán)境下的少量自適應數據對預先訓練的純凈語音聲學模型的參數進行調整,使之與測試環(huán)境相匹配。與后端模型補償相比,前端特征補償具有計算量小、易于實現的優(yōu)點,因而在手持終端等便攜式設備中得到了廣泛應用。語音信號的頻譜具有明顯的共振峰結構,其能量非均勻地分布在各個頻帶上,大部分能量集中在低頻段,較少分布在高頻段。因此,含噪語音的低頻段具有較高的信噪比,高頻段具有較低的信噪比。此外,加性背景噪聲對語音的干擾通常各自發(fā)生在相對獨立的頻帶上,可以認為能量集中在某個頻帶上的噪聲只影響本頻帶的語音譜,對其他頻帶的語音沒有影響。而語音識別系統(tǒng)中廣泛采用的倒譜參數對語音信號的對數譜進行了離散余弦變換(DCT:DiscreteCosineTransform),因此任一頻帶上的噪聲都會影響整個倒譜特征參數。因此,本發(fā)明在帶限噪聲環(huán)境下,對各頻帶上的噪聲分別進行補償,得到各頻帶上的子特征參數,再將其合成為完整倒譜特征參數,可以得到更好的特征補償效果。技術實現要素:發(fā)明目的:針對現有技術中存在的問題,本發(fā)明提供一種基于多頻帶特征補償的魯棒語音識別方法,將待識別語音的倒譜特征參數分解為若干個頻帶的子信號,對每個頻帶的子信號分別進行特征補償,再將補償后的各頻帶倒譜特征合成為完整倒譜特征參數。技術方案:一種基于多頻帶特征補償的魯棒語音識別方法,首先對噪聲環(huán)境下提取的美爾頻率倒譜系數(MFCC:MelFrequencyCepstralCoefficients)在倒譜域直接進行分解,得到四個頻帶的子MFCC;然后,在各個頻帶上用預先訓練的高斯混合模型(GMM:GaussianMixtureModel)對本頻帶的子MFCC進行特征補償,得到較為純凈的子特征參數;最后,對四個頻帶的子MFCC進行特征組合,得到純凈語音的完整MFCC。具體步驟如下:(1)將純凈訓練語音的MFCC在倒譜域直接分解為四個頻帶的子MFCC:MFCC1~MFCC4,并用每個頻帶的全部子MFCC訓練生成該頻帶的GMM,得到GMM1~GMM4;(2)對含噪輸入語音進行聲學預處理和特征提取,得到各幀信號的MFCC;(3)在倒譜域,對每幀信號的MFCC進行特征分解,得到低頻子特征參數和高頻子特征參數(4)將每幀信號的低頻子特征參數再次分解為低頻特征參數和高頻特征參數(5)將每幀信號的高頻子特征參數再次分解為低頻特征參數和高頻特征參數這樣就將含噪輸入語音的倒譜特征分解為四個頻帶的子信號;(6)在每個頻帶上,用該頻帶的GMM對子MFCC進行特征補償,從含噪語音中估計該頻帶的純凈語音子特征參數;(7)對四個頻帶上估得的純凈語音子MFCC進行特征組合,得到純凈語音完整的MFCC。本發(fā)明采用上述技術方案,具有以下有益效果:本發(fā)明可以提高帶限噪聲環(huán)境下語音識別系統(tǒng)的識別性能,提高系統(tǒng)的噪聲魯棒性。附圖說明圖1為基于多頻帶特征補償的魯棒語音識別框架圖,主要包括特征提取、特征分解、GMM訓練、特征補償和特征組合模塊。具體實施方式下面結合具體實施例,進一步闡明本發(fā)明,應理解這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領域技術人員對本發(fā)明的各種等價形式的修改均落于本申請所附權利要求所限定的范圍。基于多頻帶特征補償的魯棒語音識別方法,具體步驟如下:(1)將純凈訓練語音的MFCC在倒譜域直接分解為四個頻帶的子MFCC:MFCC1~MFCC4,并用每個頻帶的全部子MFCC訓練生成該頻帶的GMM,得到GMM1~GMM4;(2)對含噪輸入語音進行聲學預處理和特征提取,得到各幀信號的MFCC;(3)在倒譜域,對每幀信號的MFCC進行特征分解,得到低頻子特征參數和高頻子特征參數(4)將每幀信號的低頻子特征參數再次分解為低頻特征參數和高頻特征參數即附圖中的MFCC1和MFCC2;(5)將每幀信號的高頻子特征參數再次分解為低頻特征參數和高頻特征參數即附圖中的MFCC3和MFCC4,這樣就將含噪輸入語音的倒譜特征分解為四個頻帶的子信號;(6)在每個頻帶上,用該頻帶的GMM對子MFCC進行特征補償,從含噪語音中估計該頻帶的純凈語音子特征參數;(7)對四個頻帶上估得的純凈語音子MFCC進行特征組合,得到純凈語音完整的MFCC。如圖1所示,主要包括特征提取、特征分解、GMM訓練、特征補償和特征組合模塊。下面逐一詳細說明附圖中各主要模塊的具體實施方案。1、特征分解設第t幀語音的MFCC為ct,ct=[ct(0),ct(1),…,ct(12)]T,這里只考慮前13維靜態(tài)倒譜特征參數,則ct可以通過下式分解為低頻子特征參數和高頻子特征參數ctL(m)=ct(m-1)+ct(m)+ct(m+1)3,m=1,2,...,11ct(0)+ct(1)2,m=0ct(11)+ct(12)2,m=12---(1)]]>ctH(m)=2ct(m)-ct(m-1)-ct(m+1)3,m=1,2,...,11ct(0)-ct(1)2,m=0ct(12)-ct(11)2,m=12---(2)]]>由式(1)和式(2)可知,只要將和相加,即可恢復ct。對和分別再次進行低頻和高頻分解,得到它們的子特征參數和這樣就將ct分解為四個頻帶的子信號分別記為和2、GMM訓練用純凈訓練語音每個頻帶的子倒譜特征進行模型訓練,生成該頻帶的高斯混合模型:b(cti,x)=Σm=1Mai,m{(2π)-D2|Σi,x,m|-1/2exp[-12(cti,x-μi,x,m)TΣi,x,m-1(cti,x-μi,x,m)]}---(3)]]>其中,表示第t幀純凈語音的第i個頻帶的倒譜特征向量;ai,m、μi,x,m和Σi,x,m分別表示第i個頻帶GMM的第m個高斯單元的混合系數、均值向量和協方差矩陣,D表示特征向量的維數。3、特征補償從語音的間隙期估得子頻帶噪聲參數μi,n和Σi,n后,即可用式(4)和式(5)更新第i個頻帶GMM的均值向量和斜方差矩陣:μi,y,m=Clog[exp(C-1μi,x,m)+exp(C-1μi,n)](4)Σi,y,m=(I-Ui,m)Σi,x,m(I-Ui,m)T+Ui,mΣi,nUi,mT(5)其中,μi,y,m和Σi,y,m分別表示該GMM的含噪語音均值和方差;I為單位矩陣,C和C-1分別表示DCT矩陣及其逆矩陣;Ui,m的表達式為:Ui,m=Cdiag(exp(C-1(μi,n-μi,x,m))1+exp(C-1(μi,n-μi,x,m)))C-1---(6)]]>其中,diag()表示以括號中的向量為對角元素的對角矩陣。得到每個子頻帶的含噪語音GMM后,即可用下式估計該頻帶的純凈語音倒譜特征向量:c^ti,x≈cti,y-Σm=1Mγ‾i,m(t)(Clog(1+exp(C-1(μi,n-μi,x,m))))---(7)]]>其中,表示給定測試環(huán)境第i個頻帶GMM的參數集第t幀觀測向量屬于該GMM第m個高斯單元的后驗概率。4、特征組合在每個頻帶上估得其純凈語音的倒譜特征向量后,即可對其進行特征組合,恢復完整的純凈語音倒譜特征向量c^tx=Σi=14c^ti,x---(8)]]>當前第1頁1 2 3