專利名稱:抗噪聲語音識別用語音增強-特征加權(quán)-對數(shù)譜相加方法
技術(shù)領(lǐng)域:
抗噪聲語音識別用語音增強—特征加權(quán)—對數(shù)譜相加方法屬于語音識別技術(shù)領(lǐng)域。
背景技術(shù):
基于HMM(Hidden Markov Model)的概率統(tǒng)計識別方法是目前自動語音識別(ASRAutomatic Speech Recognition)研究中最常用的模型框架。具有里程碑意義的HMM被引入語音識別領(lǐng)域,由于它能較好的描述語音的產(chǎn)生機理,并且有比較簡明的模型估計(訓(xùn)練)與狀態(tài)搜索算法,極大的促進了語音識別技術(shù)的發(fā)展。
隱含馬爾可夫模型可以看成是一個有限狀態(tài)自動機,見圖1,這是一個最常用地HMM的拓撲結(jié)構(gòu)。在每一個離散時刻,對應(yīng)任意第t幀語音,它只能處于有限多種狀態(tài)中的某一種狀態(tài)。假設(shè)允許出現(xiàn)的狀態(tài)有U種,記之為Su,u=1~U。若自動機在第t幀語音時所處的狀態(tài)用q(t)表示,那么q(t)只能等于S1~SU中的某一個,這可表述為q(t)∈{S1~SU},t。如果此自動機在t=1時開始運行,那么以后每一幀所處的狀態(tài)以概率方式取決于初始狀態(tài)概率矢量π和狀態(tài)轉(zhuǎn)移概率矩陣A。對于任意幀t,(t≥1),自動機的狀態(tài)q(t)取S1~SU中哪一種的概率只取決于前一幀t-1時所處的狀態(tài),而與更前的任意幀所取的狀態(tài)無關(guān)。這樣,由此產(chǎn)生的狀態(tài)序列q(1),q(2),q(3),…是一條一階馬爾可夫鏈。此系統(tǒng)在任意幀t時所處的狀態(tài)q(t)隱藏在系統(tǒng)內(nèi)部,不為外界所見,外界只能得到系統(tǒng)在該狀態(tài)下提供的隨機輸出(在這里是語音信號),隱含馬爾可夫模型由此得名。
我們知道,語音信號具有短時平穩(wěn)特性。為此,可以將語音劃分為不同的短時段,每段對應(yīng)于HMM的一個狀態(tài),段與段之間的遷移可以用HMM中狀態(tài)到狀態(tài)的轉(zhuǎn)移來表示。每個狀態(tài)具有特定的模型參數(shù),可以描述一幀語音的平穩(wěn)的統(tǒng)計特性,如果下一幀語音具有相同的統(tǒng)計特性,則狀態(tài)不轉(zhuǎn)移,或者說下一個狀態(tài)仍然跳到本狀態(tài),反之如果下一幀語音的統(tǒng)計特性變化了,則下一個狀態(tài)會跳到與該段語音統(tǒng)計特性相符的狀態(tài)。
由上可以看出,隱含馬爾可夫模型是建立在一定物理意義上的數(shù)學(xué)模型,其中的各狀態(tài)相對于發(fā)音器官在人說話中所經(jīng)歷的每個相對穩(wěn)定的過程,比較貼切的描述了語音信號的時變性和準(zhǔn)平穩(wěn)性。圖1示出了HMM對輸入語音的描述。圖中語音為中文的“他去無錫市”。我們同時用相應(yīng)的音子來標(biāo)注輸入語音。各音子標(biāo)注相對于一個HMM。我們在圖中示出了一個從左到右的HMM拓撲結(jié)構(gòu)。各狀態(tài)有相應(yīng)的輸出概率分布。狀態(tài)1和狀態(tài)9分別為起始狀態(tài)和終止?fàn)顟B(tài),它們用來將不同的HMM串接起來,只是一個不占時間的過渡狀態(tài),本身并不產(chǎn)生對外的輸出。我們用實線畫出了不同標(biāo)注劃分的語音倒譜均值。
為表述方便,直接用狀態(tài)編號i,j表示狀態(tài)集合{S1~SU}中的第i個和第j個狀態(tài),U表示模型狀態(tài)總數(shù)。A-狀態(tài)轉(zhuǎn)移概率矩陣,元素為
aij=P(j|i),1≤i,j≤U (1)表示由狀態(tài)i到狀態(tài)j的概率。根據(jù)轉(zhuǎn)移概率的定義,我們有,在圖1的最常用的具有由左到右拓撲結(jié)構(gòu)的HMM中,A實際上為一雙線對角陣。B-輸出概率密度
p(yt|q(t)=i)=N(yt;μi,∑i)表示在狀態(tài)q(t)=i,對于觀測語音特征yt的似然值。語音信號特征的概率分布可以用高斯函數(shù)來逼近,其中yt=[yt1,yt2,…,ytR]是R維觀測特征矢量,μi=[μi1,μi2,…μiR],分別是高斯函數(shù)N(yt;μi,∑i)的均值和方差,由于yt=[yt1,yt2,…,ytR]一般是經(jīng)過正交變換得到的,所以高斯分布的協(xié)方差矩陣用對角陣來描述,并且多維高斯分布可以寫成多個一維高斯分布連乘的形式。π-各狀態(tài)的起始概率分布
元素πi∈
。在圖1所示的HMM中,狀態(tài)1是唯一的起始狀態(tài),所以π1=1,其余狀態(tài)的起始概率均為0。
以上參數(shù)是通過訓(xùn)練過程得到的。訓(xùn)練將通過訓(xùn)練語音數(shù)據(jù)來調(diào)整上述參數(shù),也就獲得了語音特征的統(tǒng)計信息。訓(xùn)練結(jié)束后,就可以進行識別了。
基于HMM的語音識別是將輸入的語音特征序列Y=[y1,y2,…,yT],根據(jù)最大似然準(zhǔn)則,搜索出最佳狀態(tài)序列,從而揭開HMM的隱含部分,其中T是待識別的語音的長度,即有T個語音幀的特征。這個問題的解決通常采用Viterbi算法。定義為給定模型參數(shù),部分觀測y1y2…yt,部分路徑q1q2…qt-1,qt=i的最大輸出對數(shù)似然值,其中λ表示訓(xùn)練得到的HMM語音模型。
初始化δ1(i)=logπi+log[p(y1|q(1)=i)]且1(i)=0 (5)
迭代
終止最大概率
最佳路徑的最后的狀態(tài)
通過回溯依次求最佳路徑上的其它路徑
可以看出,δt(i)用來記錄在時刻t各狀態(tài)產(chǎn)生部分輸出的最大概率,而t(j)則用來記錄路徑的連接信息。
目前純凈語音識別已達到一個比較成熟的階段,以IBM的Via Voice為代表,對連續(xù)語音的識別率可達到90%以上,但是對背景噪聲和輸入話筒有較嚴(yán)格的要求,否則系統(tǒng)性能將會有很大的下降。造成這種情況的原因是訓(xùn)練環(huán)境和識別環(huán)境的失配?,F(xiàn)在很多識別系統(tǒng)的參數(shù)都是在實驗室環(huán)境中訓(xùn)練得到的,訓(xùn)練語音大多是在安靜背景下,通過高質(zhì)量麥克風(fēng)采集的。而到了實際的應(yīng)用場合,由于多種因素的影響,識別語音不可避免的會和系統(tǒng)參數(shù)存在失配,從而造成實際性能和實驗室中的性能的大相徑庭。
造成語音識別中測試與訓(xùn)練環(huán)境的失配的原因有很多,包括說話人本身的心情,說話人周圍的噪聲,錄音時的信道,錄音時的背景噪聲,信號傳遞時的信道和接收端的背景噪聲等。抗噪聲語音識別只考慮接收背景噪聲和卷積信道對語音信號的影響,失配模型如圖2所示。
目前抗噪聲問題是語音識別領(lǐng)域中的一個熱點。無處不在的噪聲帶來了訓(xùn)練環(huán)境和識別環(huán)境的失配,從而造成識別器性能的急劇下降??乖肼曊Z音識別的目標(biāo)就是要消除這種失配,使識別性能盡可能的接近在訓(xùn)練環(huán)境下的性能。由于現(xiàn)在的語音識別系統(tǒng)普遍采用基于HMM的統(tǒng)計模型,所以噪聲帶來的失配可以映射到如圖3所示的三個空間。
在圖3中,訓(xùn)練和識別的失配表現(xiàn)在信號、特征值、模型三個空間。在信號空間,Sx代表訓(xùn)練環(huán)境下的原始語音,Sy代表識別環(huán)境下的語音,兩種環(huán)境下語音信號的失配由失真函數(shù)Ds()表示。語音信號在經(jīng)過特征提取過程后,信號空間的失配必然也會表現(xiàn)到特征空間,F(xiàn)x是訓(xùn)練語音的特征,F(xiàn)y是測試語音的特征,其失配用失真函數(shù)Df()來表示。最后,特征Fx用來訓(xùn)練HMM得到模型Mx,而和特征Fy相匹配的模型應(yīng)為My,這種在模型上的失配用失真函數(shù)Dm()表示。
抗噪聲語音識別的方法可以從圖3中三個不同的角度來考慮,在研究過程中,基本形成了如下幾類做法
一.信號空間的處理。采用信號處理方法提高語音識別系統(tǒng)抗噪聲性能,如利用語音增強技術(shù)和麥克風(fēng)陣列來提高輸入信號的信噪比。
二.特征空間的處理。主要是結(jié)合人耳聽覺的知識,提取對噪聲干擾不敏感的穩(wěn)健性語音特征,如感知線性預(yù)測系數(shù)(PLPPerceptive Linear Predictive)。
三.模型空間處理。即利用噪聲的統(tǒng)計特性,對理想環(huán)境下訓(xùn)練得到的語音模型進行校正,使之適用于特定的識別環(huán)境,如并行模型補償(PMCParallel Model Compensation)和對數(shù)譜相加法(LALog-Add)。
這些方法在弱背景噪聲環(huán)境下有效地提高了系統(tǒng)的識別性能,而在強背景噪聲環(huán)境下識別精度還是急劇下降。本發(fā)明正是要解決低信噪比噪聲環(huán)境下的語音識別問題。
把信號空間的最小均方誤差(MMSEMinimum Mean Square Error)增強處理和模型空間的對數(shù)譜相加(LALog-Add)補償算法相融合,我們得到了一種解決方案,稱之為MMSE-LA方案,它可以顯著的提高低信噪比環(huán)境下的識別精度。本發(fā)明還在特征空間提出了一種新的特征加權(quán)算法,并利用MMSE增強方法,給出了有效的權(quán)重計算公式,從而提出了多空間信號處理的MMSE-FW-LA方案,F(xiàn)W指特征加權(quán)(Feature Weight),即同時在信號空間、特征空間和模型空間消除噪聲引起的訓(xùn)練和識別環(huán)境的失配。
由于MMSE-LA和MMSE-FW-LA兩種方案都涉及到Mel頻段倒譜系數(shù)(MFCCMelFrequency Cepstral Coefficient)這一目前比較常用的聲學(xué)特征,有必要事先予以介紹。
自動語音識別(ASRAutomatic Speech Recognition)是給定一段語音信號,由機器從中提取信息并確定語言含義的過程,它首先要從語音信號中提取能夠反映語音本質(zhì)、有利于識別并適于計算機處理的聲學(xué)特征矢量。聲學(xué)特征的發(fā)展經(jīng)歷了從時域到頻域,再到倒譜域的過程,并且越來越多的結(jié)合了人耳聽覺系統(tǒng)的知識。Mel頻段倒譜系數(shù)(MFCCMel-Frequency Cepstral Coefficient)是目前比較常用的聲學(xué)特征。我們首先描述它的提取過程,如圖4所示。
分幀和加窗分幀利用了語音信號的短時平穩(wěn)特性。通過分幀,可以把語音當(dāng)作平穩(wěn)隨機信號進行分析。相鄰的語音幀通過一定的重疊來保證各幀之間的相關(guān)信息。加窗的目的是減小頻率混疊,通常是Hamming窗。
其中N等于幀長,h(n)表示hamming窗在第n個樣點上的系數(shù)。y(n)表示采樣后的原始語音,分幀后表示為
其中t表示幀號,n表示當(dāng)前幀的樣點序號。加漢明窗之后表示為
yw(n,t)=y(tǒng)(n,t)×h(n),n=1,…,N (13)
FFT快速傅立葉變換由于語音短時頻譜對感知語音起決定性的作用,利用FFT逐幀將語音變換到頻譜域,表達形式為
Y(k,t)=Y(jié)(k,t)e∠Y(k,t)=FFT{yw(n,t)},k=1,...,Nfft (14)
其中Y(k,t)和e∠Y(k,t)分別表示頻譜域第k個頻點的幅度和相位,Nfft是FFT變換的點數(shù)。
求功率譜由于語音的短時譜幅度對感知語音起主導(dǎo)作用,而短時相位相對來說在聽覺上并不很重要,因此可以計算功率譜幅度,而忽略相位的影響,表達形式為
Yp(k,t)=|Y(k,t)|2,k=1,...,Nfft (15)
Mel-Scaled濾波器組Mel頻段劃分是在對聽覺模型的研究基礎(chǔ)上提出的。Mel-Scaled頻率fmel與線性頻率fHz的關(guān)系為Mel濾波器組如圖5所示。首先利用式(16)將線性頻率,即FFT變換后的頻率變換到Mel頻率上,并在Mel頻率上進行均勻分段。M表示功率譜域上Mel-Scaled濾波器組的個數(shù),也即Mel頻率上的分段個數(shù)其中Melm表示第m個Mel分段頻率,F(xiàn)S是信號的采樣頻率,然后將Mel分段頻率映射回線性頻率
Linm=(exp(Melm/1127)-1)×700,m=1,..,M (18)其中Linm表示第m個Mel分段頻率對應(yīng)的線性頻率,計算Mel濾波器組在各線性頻點上的抽頭系數(shù)
其中Hm(k)表示第m個Mel濾波器在第k個線性頻點上的抽頭系數(shù),fk表示第k個頻點的頻率值
fk=k×FS/Nfft,k=1,..,Nfft (20)提取的Mel譜特征為其中MBank(m,t)表示提取的第t幀語音的第m維Mel譜特征。
對數(shù)譜表示考慮到人的聽覺特性,如對聲音響度的感覺是與聲強的對數(shù)值呈線性關(guān)系的,我們對Mel-Scaled濾波器組的輸出取對數(shù),得到對數(shù)譜特征參數(shù)(log-Spectra)。
FBank(m,t)=log(MBank(m,t)),m=1,..,M(22)其中FBank(m,t)表示提取的第t幀語音的第m維對數(shù)譜特征。
離散余弦變換(DCT)DCT具有類似正交變換的效果,能夠使語音特征向量各維之間相關(guān)性減??;此外還能夠使特征向量維數(shù)降低,進一步起到特征提取和特征壓縮的作用。由于離散余弦變換使特征向量各維之間互不相關(guān),所以可用對角陣來表示各維向量之間的協(xié)方差矩陣。在這種情況下,對角化的協(xié)方差矩陣對于計算來說相當(dāng)于降低了一維,計算量大大降低,許多高效的算法可以得以實現(xiàn)。離散余弦變換定義為其中,
表示提取的第t幀語音的第r維倒譜系數(shù)。由于經(jīng)過DCT變換后,M維倒譜系數(shù)的后幾維很小,因此可以降低特征向量維數(shù),在識別計算中只取倒譜系數(shù)的前R維。
倒譜加權(quán)由于低維和高維的倒譜系數(shù)對噪聲比較敏感,所以通常采用升余弦形式的帶通函數(shù)對倒譜系數(shù)進行加權(quán),在一定程度可以提高系統(tǒng)的穩(wěn)健性。其中L為加權(quán)濾波器寬度。加權(quán)后的倒譜系數(shù)為此加權(quán)過程稱為倒譜濾波。c(r,t)稱為靜態(tài)MFCC特征。
動態(tài)系數(shù)反映了語音譜中的動態(tài)信息。它們分別通過如下的公式計算而得其中Δc(r,t)表示一階MFCC特征系數(shù),Δt表示幀間距。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種低信噪比環(huán)境下使用的抗噪聲識別用語音增強—特征加權(quán)—對數(shù)譜相加方法。
特征加權(quán)算法的出發(fā)點是認為噪聲在不同時段,不同頻率對語音造成的損傷是不一樣的。即在語音的時間-頻率表示中(語譜圖),有的區(qū)域受噪聲污染的程度小一點,從這些區(qū)域提取出來的特征有比較高的置信度,在識別過程中具有比較高的鑒別能力;與之相反,那些從受噪聲污染大的區(qū)域提取出來的特征,將對識別造成干擾,是識別率下降的主要原因。
在基于HMM的統(tǒng)計識別方法中,獲得和利用的先驗知識越多,識別的結(jié)果就越準(zhǔn)確。特征加權(quán)算法利用了噪聲在不同時間-頻率區(qū)域?qū)φZ音的損傷程度信息,有效的提高了噪聲環(huán)境下的識別性能,即根據(jù)短時段語音各維特征提取空間的局部信噪比,給出特征的置信度估計,即權(quán)重,并對識別算法進行修改,將權(quán)重信息代人識別過程。
特征加權(quán)算法需要解決以下兩個問題
1.如何估計特征的置信度,并給出權(quán)重計算公式。
2.如何將特征加權(quán)過程嵌入到基于HMM的識別框架中。
從MFCC特征的提取過程(圖4)中,可以看出在進行DCT變換之前,我們稱之為對數(shù)譜特征,它的每一維數(shù)據(jù)都和含噪語音在當(dāng)前短時段的某個局部頻率區(qū)間相聯(lián)系。因此各維對數(shù)譜特征的置信度可以通過此區(qū)間的局部信噪比進行估計。
在語音增強技術(shù)中,基于語音短時譜幅度(STSAShort Time Spectral Amplitude)估計的方法利用了語音在聽覺方面的一個重要特性,即語音短時頻譜對感知語音起決定性的作用,其中語音的短時譜幅度又是起主導(dǎo)作用的,而語音的短時相位相對來說在聽覺上并不很重要。因此,基于STSA估計的語音增強方法一般只增強語音的STSA,而直接把帶噪語音的相位作為增強語音的相位。圖6給出了該類方法的一般框圖。
噪聲語音與純凈語音在時域的疊加為含噪語音,即含噪語音可以表示為
y(n)=x(n)+d(n) (28)
其中x(n)是純凈語音,d(n)是加性背景噪聲,且兩者互不相關(guān)。識別和增強處理都需要將語音按短時段進行劃分,經(jīng)過分幀和加窗處理后,公式(4.1)表示為
yw(n,t)=xw(n,t)+dw(n,t),1≤n≤N(29)其中N為語音幀的長度,t是幀序號。d(n,t),x(n,t),y(n,t)的短時離散頻譜幅度和短時離散功率譜幅度分別用D(k,t),X(k,t),Y(k,t)和Dp(k,t),Xp(k,t),Yp(k,t)表示,其中1≤k≤Nfft表示各個頻點,Nfft為一幀快速傅立葉變換(FFT)的長度。
基于STSA估計的語音增強方法有一個通用的增強估計公式。其中G(k,t)稱為第t幀中第k個頻點的增益系數(shù),在不同的增強方法中有不同的函數(shù)表達形式。
表示X(k,t)的估計,即增強后語音的短時譜幅度。MMSE方法的核心是計算純凈語音短時譜幅度X(k,t)的最小均方誤差估計,在語音和噪聲頻譜的高斯分布假設(shè)下,增益系數(shù)可以表示為其中ζ(k,t),γ(k,t)分別稱為先驗信噪比和后驗信噪比,Ψ(a1,a2,a3)為合流超幾何函數(shù),可以利用級數(shù)求和計算其中,a1=-0.5,a2=1,
可以看出,代表局部信噪比的ζ(k,t)和γ(k,t)越大,增益系數(shù)G(k,t)也越大,反之亦然。因此G(k,t)可以作為局部信噪比的度量,用于特征權(quán)重的計算。
由于特征權(quán)重是在對數(shù)譜域和每一維特征相關(guān)的,因此我們從對數(shù)譜特征的提取過程(圖4)得到借鑒,計算特征權(quán)重。然后進行規(guī)范化,使這里Hm(k)是圖5中功率譜域中第m個三角濾波器在第k個頻譜分量上的系數(shù),見公式(19),而wm(t)表示第t幀語音提取的第m維對數(shù)譜特征的權(quán)重。M是Mel濾波器的個數(shù),也即對數(shù)譜特征的維數(shù)。
圖7給出了在0dB加性高斯白噪聲環(huán)境下,某幀濁音段語音26維對數(shù)譜特征的失配情況(圖7a)和采用上述方法得到的特征權(quán)重(圖7b)??梢钥闯鍪湓酱?,權(quán)重越小,反之亦然。特別是特征權(quán)重在反映語音內(nèi)容信息的兩個共振峰頻率附近有明顯的峰值,突出這部分信息將有利于提高語音的識別精度。
在語音無聲段,采用上述方法得到的特征權(quán)重與特征的實際失配情況不符,我們不對其進行特征加權(quán),即令各維特征的權(quán)重為1。
雖然我們是在對數(shù)譜域?qū)μ卣鬟M行加權(quán),但由于對數(shù)譜特征進行識別的性能不如倒譜特征,而且倒譜特征具有維數(shù)低,各維數(shù)據(jù)近似不相關(guān)等特性,可以簡化語音模型和減少識別運算量,因此在我們的特征加權(quán)識別算法中,依然采用倒譜域的MFCC特征。
識別程序采用Viterbi譯碼算法,即尋找最大對數(shù)似然輸出狀態(tài)序列
因此特征加權(quán)算法的核心在于獲得針對特征失配,具有魯棒性的對數(shù)似然計算公式。將公式(3)代入對數(shù)似然計算公式為了便于表述特征加權(quán)算法,令μc表示高斯分布的均值矢量,∑c表示方差矩陣,上標(biāo)c表示倒譜域。由于倒譜特征各維之間的近似不相關(guān)特性,可以令∑c為對角矩陣。R維特征矢量yyc在此高斯模型下的對數(shù)概率似然值為其中c(∑c)表示與ytc無關(guān)的常數(shù)項,可以看出c(∑c)對應(yīng)于式(4-8)中的,而dcT∑c-1dc對應(yīng)于
在對數(shù)譜域進行特征加權(quán)非常直觀,它的公式如下其中ytl表示第t幀M維對數(shù)譜特征,權(quán)重矩陣W=diag{w1(t),w2(t),.,wm(t)..},元素wm(t)是第m維對數(shù)譜特征的權(quán)重,上標(biāo)l表示對數(shù)譜域。
綜合公式(36)和(37),可以得到倒譜域上的特征加權(quán)對數(shù)似然計算公式公式(38)的意義可以表述為首先在倒譜域計算倒譜特征和狀態(tài)均值的差值矢量,將其變換到對數(shù)譜域進行加權(quán),然后再變換回倒譜特征進行識別。其中矩陣Tr表示圖4中的DCT變換和倒譜加權(quán),即從對數(shù)譜特征到MFCC特征的線性變換。即DCT矩陣和倒譜加權(quán)對角陣的乘積,倒譜加權(quán)對角陣的對角元素的前R維是倒譜加權(quán)系數(shù),而后面的M-R維為0。Tr-1是它的逆變換,可以表示為具體來說,由于我們識別時采用的MFCC特征的維數(shù)R小于對數(shù)譜特征維數(shù)M,在進行這種特征轉(zhuǎn)換時,我們對MFCC特征增加維數(shù),增加的各維特征數(shù)據(jù)用0代替;在識別過程中,仍采用R維的MFCC特征。
在基于HMM的識別框架下,噪聲所帶來的測試和識別環(huán)境的失配可以映射到三個空間,即信號、特征和模型空間??乖肼曊Z音識別的方法也是從這三個方面考慮的。本發(fā)明對這三個空間的抗噪聲語音識別技術(shù)進行融合,提出多空間信號處理的抗噪聲語音識別方案,期望在低信噪比加性噪聲環(huán)境下進一步提高識別精度。
含噪語音經(jīng)過MMSE處理后,得到的純凈語音的估計值與真值之間存在一定的誤差,我們稱之為剩余噪聲,可以表示為其中
和x(n)分別表示剩余噪聲和純凈語音在第n個樣點上的值,
表示x(n)的估計值,為了消除這部分剩余噪聲帶來的訓(xùn)練和測試環(huán)境的失配,我們考慮在模型空間進行純凈語音訓(xùn)練模型的噪聲補償。MMSE增強后的剩余噪聲保持了一定的準(zhǔn)平穩(wěn)特性,我們可以用一個單高斯?fàn)顟B(tài)分布的HMM來描述,模型空間我們采用了Log-Add方法,只對純凈語音訓(xùn)練模型的狀態(tài)均值進行補償,在不影響識別率的前提下,極大地降低了計算復(fù)雜度,同時不需要對剩余噪聲進行模型訓(xùn)練,而只需要估計剩余噪聲的特征均值,這些都有利于方案的實時實現(xiàn)。
由于剩余噪聲存在于各個語音幀,而語音僅存在于非噪聲幀,所以對于噪聲幀來說,,其中
表示純凈語音在第t幀中第k個頻點上的譜幅度的估計值,而
是剩余噪聲在第t幀中第k個頻點上的譜幅度,即剩余噪聲的短時譜幅度在各噪聲幀中等于增強后語音的短時譜幅度。利用信號空間MMSE語音增強時獲得的噪聲幀檢測信息,對所有從這些增強后的噪聲幀中提取的MFCC特征求均值,便可以獲得用于Log-Add模型補償?shù)氖S嘣肼暤奶卣骶怠?
本發(fā)明提出的多空間融合抗噪聲語音識別技術(shù)可以簡述如下
選擇MMSE法對含噪語音進行前端語音增強。首先是因為它的計算復(fù)雜度低,可以實時地處理;其次是因為它在處理過程中提供的輔助信息(增益系數(shù))可以比較準(zhǔn)確的估計對數(shù)譜特征的權(quán)重,反映各維特征的失配情況;最后,MMSE增強處理對語音的損傷比較小,處理后的剩余噪聲保持原有的準(zhǔn)平穩(wěn)特性,有利于后面的模型補償。
選擇前面提出的特征加權(quán)算法,利用信號空間增強算法獲得的譜幅度增益值估計對數(shù)譜特征的權(quán)重,并將此權(quán)重信息引入識別過程。
選擇算法復(fù)雜度較低的對數(shù)譜相加(Log-Add)補償算法,即將純凈語音模型和噪聲模型的MFCC特征均值分量在對數(shù)譜域相加,從而得到補償后的含噪語音模型的對數(shù)譜均值。與經(jīng)典的并行模型補償(PMC)算法相比,它只對模型的均值,而不對方差進行補償,計算量遠遠小于PMC,但可以達到基本相同的識別精度。此外Log-Add算法不僅可以補償靜態(tài)MFCC的均值,而且可以補償動態(tài)與高階MFCC。其中,
和
分別表示補償后的模型在對數(shù)譜域的靜態(tài)和動態(tài)狀態(tài)均值;μl和Δμl表示純凈語音訓(xùn)練得到的模型在對數(shù)譜域的靜態(tài)和動態(tài)狀態(tài)均值;
是剩余噪聲的特征均值;上標(biāo)l表示對數(shù)譜域;下標(biāo)m代表第m維特征。
由于我們是在MFCC倒譜域得到純凈語音訓(xùn)練模型的狀態(tài)均值和剩余噪聲特征均值,而實際的模型補償是在對數(shù)譜域進行,這同樣需要進行對數(shù)譜特征和MFCC特征之間的轉(zhuǎn)換,與特征加權(quán)算法相同,即對低維的MFCC特征增加維數(shù),并利用線性變換Tr和Tr-1進行轉(zhuǎn)換。即
μl=Tr-1μc,Δμl=Tr-1Δμc,
。其中,
μc、Δμc和
分別表示
μl、Δμl和
對應(yīng)的MFCC倒譜特征,上標(biāo)c表示MFCC倒譜域。最后得到剩余噪聲補償后的語音模型在各狀態(tài)下的靜態(tài)和動態(tài)MFCC均值。
為了簡便計算,我們用單高斯?fàn)顟B(tài)分布的HMM描述剩余噪聲模型,模型補償時只需要剩余噪聲的特征均值,因此不需要對噪聲模型進行離線訓(xùn)練,有利于識別方案的實時處理。
MMSE-FW-LA方案的算法流程如圖8所示1.首先輸入含噪語音和純凈語音訓(xùn)練得到的語音模型,對含噪語音進行分幀和加窗,并做 FFT變換到頻域。2.進行語音間歇,即噪聲段檢測,并估計噪聲的功率譜幅度。3.用MMSE法估計純凈語音的短時譜幅度,并保留譜幅度增益系數(shù)。4.利用上一步得到的譜幅度增益系數(shù)計算對數(shù)譜特征的權(quán)重。5.利用第三步得到的增強語音的短時譜幅度,即純凈語音短時譜幅度的估計值提取MFCC 特征。6.利用第二步得到的無聲段劃分信息,和上一步得到的增強語音的MFCC特征,計算剩余 噪聲的MFCC特征均值。7.在模型空間,用Log-Add法對純凈語音訓(xùn)練得到的語音模型做剩余噪聲補償。這里利用 了上一步得到的剩余噪聲的MFCC特征均值。8.將第五步得到的增強語音的MFCC特征參數(shù)、上一步得到的剩余噪聲補償后的語音模型 以及第四步得到的對數(shù)譜特征權(quán)重輸入基于特征加權(quán)的識別解碼器。9.得到識別結(jié)果。
本發(fā)明的特征在于它依次含有以下步驟
(1).初始化Mel濾波器組在各線性頻點k上的抽頭系數(shù)Hm(k),以及對數(shù)譜特征與MFCC(Mel頻段倒譜系數(shù))特征的轉(zhuǎn)換矩陣Tr和Tr-1其中k=1,2,..,Nfft/2,NFft是FFT的頻點數(shù);m=1,2,..,M,M是Mel濾波器的個數(shù)。
(2).輸入含噪語音和純凈語音經(jīng)訓(xùn)練得到的模型參數(shù)
μc純凈語音訓(xùn)練得到的模型狀態(tài)在MFCC倒譜域下的靜態(tài)特征均值;
Δμc純凈語音訓(xùn)練得到的模型狀態(tài)在MFCC倒譜域下的動態(tài)特征均值;
(3).分幀、加窗
若采樣后的原始語音為y(n),漢明(hamming)窗在第n個采樣點上的系數(shù)
N等于幀長,則分幀后的原始語音信號為
t表示幀號,加上漢明窗后的原始語音信號為
yw(n,t)=y(tǒng)(n,t)×h(n),n=1,…,N
(4).快速傅立葉變換FFT
由于語音短時頻譜對感知語音起決定性的作用,利用FFT逐幀將語音變換到頻譜域
Y(k,t)=Y(jié)(k,t)e∠Y(k,l)=FFT{yw(n,t)},k=1,...,Nfft
Nfft是FFT變換的點數(shù)。
(5).噪聲幀檢測和噪聲譜幅度估計
(5.1).設(shè)定前10幀起始段含噪語音為噪聲幀,輸入當(dāng)前第t幀含噪語音的短時譜幅度;
(5.2).若當(dāng)前幀為起始段噪聲幀,則前t幀噪聲功率譜幅度的估計值為
并在當(dāng)前幀為第10幀時輸出起始段噪聲譜幅度的估計值
計算用于區(qū)分噪聲幀和含噪語音幀的判決門限x
(5.3).若當(dāng)前幀不是起始段噪聲幀,則當(dāng)前幀t的判決值
(5.3.1)若ρ<x,則判決為含噪語音中的噪聲幀,其噪聲功率譜幅度估計值為
并輸出;
(5.3.2).若ρ≥x,則判決為非噪聲幀,即含有噪聲的語音幀,其噪聲功率譜幅度為
并輸出;
(6).用取決于先驗信噪比ζ和后驗信噪比γ的譜幅度增益系數(shù)G(k,t)計算純凈語音短時譜幅度的估計值,以及相應(yīng)的第t幀第m個對數(shù)譜特征的權(quán)重wm(t)
(6.1).輸入當(dāng)前第t幀含噪語音的短時譜幅度;
(6.2).計算當(dāng)前幀t第k個頻點的后驗信噪比,Yp(k,t)為含噪語音的功率譜幅度,
為估計的噪聲功率譜幅度。
(6.2.1).如果當(dāng)前幀t=1,則初始化當(dāng)前幀第k個頻點的先驗信噪比為ζ(k,t)=0.1;
(6.2.2).如果當(dāng)前幀t>1,則利用上一幀的先驗和當(dāng)前幀的后驗信噪比,通過滑動平均估計得到當(dāng)前幀第k個頻點的先驗信噪比
ζ(k,t)=0.98×ζ(k,t-1)+0.02×[γ(k,t)-1]
(6.3).當(dāng)前幀t第k個頻點的譜幅度增益系數(shù)利用級數(shù)求和,計算得到
其中a1=-0.5,a2=1,
(6.4).相應(yīng)的純凈語音短時譜幅度的估計值為
(6.5).重新計算當(dāng)前幀第k個頻點的先驗信噪比
(6.6).計算完當(dāng)前幀t第k個頻點(1≤k≤Nfft/2+1)的G(k,t)、
和ζ(k,t)值。
(6.7).計算當(dāng)前幀t第m個對數(shù)譜特征的權(quán)重
(6.8).計算當(dāng)前幀共M個對數(shù)譜特征的的權(quán)重,M是對數(shù)譜特征的維數(shù)。
(6.9).計算完t=1,2,...,T各幀中的
和wm(t);
(6.10).輸出所有相應(yīng)的純凈語音短時譜幅度估計值
和對數(shù)譜特征的權(quán)重wm(t);
(7).MFCC特征提取
(7.1).輸入純凈語音短時譜幅度估計值
(7.2).計算功率譜
(7.3).Mel濾波
(7.4).對數(shù)譜特征FBank(m,t)=log(MBank(m,t)),m=1,..,M
(7.5).DCT倒譜表示
其中,r=2,…,M,并取前R維特征矢量
(7.6).倒譜加權(quán)
其中,r=1,…,R,L為加權(quán)濾波器寬度;
(7.7).計算動態(tài)系數(shù)
,Δt表示幀間距;
(7.8).輸出c(r,t)和Δc(r,t);
(8).判斷待識別語句是否輸入完畢t=T?
(9).若判斷為待識別語句已經(jīng)輸入完畢,則計算噪聲幀,即剩余噪聲的靜態(tài)MFCC特征平均值,剩余噪聲的定義如下其中x(n)表示純凈語音在第n個樣點上的值,
表示x(n)增強后的估計值。由于剩余噪聲存在于各個語音幀,而語音僅存在于非噪聲幀,所以對于噪聲幀來說,即剩余噪聲的短時譜幅度在各噪聲幀中等于增強后語音的短時譜幅度,我們可以利用下式計算剩余噪聲的靜態(tài)MFCC特征均值
其中噪聲幀包括起始段10幀和后面判決的噪聲幀,r=1,2,..,R。
(10).Log-Add對數(shù)譜相加模型補償
(10.1).輸入剩余噪聲的MFCC特征均值并轉(zhuǎn)換到對數(shù)譜域
(10.2).輸入純凈語音訓(xùn)練模型的狀態(tài)均值,并轉(zhuǎn)換到對數(shù)譜域μl=Tr-1μc,Δμl=Tr-1Δμc;
(10.3).Log-Add模型補償,m=1,2,..,M
(10.4).把補償?shù)哪P蜖顟B(tài)轉(zhuǎn)換到MFCC倒譜域
(10.5).當(dāng)狀態(tài)輸入完畢,輸出剩余噪聲補償后的語音模型;(11).特征加權(quán)的維特比識別譯碼
(11.1).輸入剩余噪聲補償后的語音模犁、增強語音當(dāng)前幀MFCC特征
、對數(shù)譜特征權(quán)重wm(t);
(11.2).計算觀測幀在候選狀態(tài)下的對數(shù)概率似然值
(11.2.1).在MFCC倒譜域計算MFCC特征與可選狀態(tài)的狀態(tài)均值的矢量差
(11.2.2).把差矢量變換到對數(shù)譜特征域dl=Tr-1dc;
(11.2.3).在對數(shù)譜域進行加權(quán),并變換回MFCC倒譜域
(11.2.4).計算對數(shù)概率似然值其中∑c為倒譜域的狀態(tài)方差矩陣,且為對角陣∑c=Diag{σi1,σi2,...,σir..},c表示倒譜域,i表示狀態(tài);c(∑c)表示與
無關(guān)的常數(shù)項,對應(yīng),R是倒譜特征的維數(shù)。
(11.3).初始化Viterbi譯碼后,再迭代,計算完t=1,2,...,T幀;
(11.4).計算最大概率和最佳路徑的終止?fàn)顟B(tài)
(11.5)通過回溯依次輸出最佳路徑上的其他狀態(tài)
,t=T-1,...,1;
(12).輸出識別結(jié)果,結(jié)束。使用證明它達到了預(yù)期目標(biāo)。
使用證明它達到了預(yù)期目標(biāo)。
圖1HMM在語音識別中的應(yīng)用。
圖2環(huán)境噪聲模型。
圖3訓(xùn)練和識別的失配。
圖4MFCC特征提取過程。
圖5Mel濾波器組構(gòu)造圖。
圖6基于STSA估計的語音增強框圖。
圖7信噪比0dB白噪聲環(huán)境下對數(shù)譜特征失配和權(quán)重示意圖
a26維對數(shù)譜矢量;
b26維對數(shù)譜矢量權(quán)重。
圖8MMSE-FW-LA方案算法流程圖。
圖9MMSE-LA方案主程序流程圖。
圖10MMSE-FW-LA方案主程序流程圖。
圖11噪聲段檢測/噪聲功率譜幅度估計核心程序流程圖
圖12語音增強和特征權(quán)重計算核心程序流程圖。
圖13MFCC特征提取算法框圖。
圖14Log-Add模型補償核心流程圖。
圖15特征加權(quán)的維特比識別譯碼核心程序流程圖。
圖16低信噪比白噪聲環(huán)境下,前端MMSE增強、特征加權(quán)和Log-Add模型補償?shù)目乖肼曌R別性能比較。
圖17低信噪比白噪聲環(huán)境下,特征加權(quán)分別和前端MMSE增強、Log-Add模型補償融合后的抗噪聲識別精度比較。
圖18低信噪比白噪聲環(huán)境下,MMSE-FW-LA與MMSE-LA方案的抗噪聲識別性能比較。
圖19低信噪比汽車噪聲環(huán)境下,前端MMSE增強、特征加權(quán)和Log-Add模型補償?shù)目乖肼曌R別性能比較。
圖20低信噪比汽車噪聲環(huán)境下,特征加權(quán)分別和前端MMSE增強、Log-Add模型補償融合后的抗噪聲識別精度比較。
圖21低信噪比汽車噪聲環(huán)境下,MMSE-FW-LA與MMSE-LA方案的抗噪聲識別性能比較。
從圖9、10可以看出,MMSE-FW-LA和MMSE-LA方案的主程序流程基本相同,只是多了一個對數(shù)譜特征權(quán)重計算模塊,并且識別時采用特征加權(quán)的維特比譯碼器。整個算法流程包括五個核心模塊噪聲幀檢測和噪聲功率譜幅度估計模塊、MMSE語音增強和對數(shù)譜特征權(quán)重估計、MFCC特征提取、Log-Add模型補償和特征加權(quán)的維特比譯碼算法。
圖11給出了噪聲幀判決和噪聲的短時譜幅度估計模塊的流程圖,輸入為含噪語音當(dāng)前幀的短時譜幅度,輸出是噪聲幀的判決結(jié)果和經(jīng)過當(dāng)前幀估計更新后的噪聲功率譜幅度。噪聲幀檢測采用了基于能量的檢測方法。
由于待識別的含噪語音開頭總有一個無聲段,因此我們將前10幀語音判決為噪聲幀,噪聲的功率譜幅度的估計值為其中Y(k,s)表示輸入的含噪語音短時譜幅度,然后計算判決門限其中表示粗估的噪聲譜幅度,函數(shù)從第11幀開始,需要進行噪聲幀檢測判決,首先計算判決參數(shù)如果ρ<x,判決為噪聲幀,此時需要重新估計噪聲功率譜幅度即進行系數(shù)為0.98的平滑估計。如果ρ≥x,則不做噪聲功率譜幅度的重新估計
圖12給出MMSE語音增強和對數(shù)譜特征權(quán)重估計模塊的流程圖,其輸入是含噪語音當(dāng)前幀的短時譜幅度,輸出為增強后語音的短時譜幅度,即純凈語音的短時譜幅度的估計,和對數(shù)譜特征權(quán)重。由于計算短時譜幅度增益系數(shù)需要計算含噪語音在當(dāng)前頻點的先驗和后驗信噪比,如式(31)所示在實際運算中,先驗信噪比可以通過滑動平均估計得到
ζ(k,t)=0.98×ζ(k,t-1)+0.02×[γ(k,t)-1] (50)后驗信噪比可以直接計算得到
為估計的噪聲功率譜幅度,參見圖11。
圖13給出了MFCC特征提取模塊的程序流程圖,輸入為增強語音的譜幅度值,輸出為增強語音的MFCC特征參數(shù)。
圖14給出了Log-Add模型補償核心流程圖,輸入為純凈語音訓(xùn)練得到的語音模型和剩余噪聲的MFCC特征均值,輸出為剩余噪聲補償后的語音模型。
圖15給出了特征加權(quán)的維特比識別譯碼核心程序流程圖,輸入為經(jīng)過MMSE增強的語音特征、對數(shù)譜特征權(quán)重和剩余噪聲補償后的語音模型,輸出為識別結(jié)果。
本發(fā)明內(nèi)容主要討論強背景噪聲環(huán)境下的抗噪聲語音識別,識別系統(tǒng)針對非特定人連續(xù)語音數(shù)字串,具體的實驗描述如下
基線系統(tǒng)(BaseLine)
為了便于進行實驗結(jié)果的比較,我們首先搭建了一個連續(xù)語音識別系統(tǒng),它由三個模塊組成MFCC特征提取、訓(xùn)練模塊和識別模塊。
基線系統(tǒng)采用的特征是26維的MFCC_0_D特征。其中MFCC表示除c(1,t)之外的靜態(tài)倒譜,0表示反映語音能量信息的c(1,t)譜,D表示根據(jù)靜態(tài)倒譜或MFCC_0求出的一階倒譜。MFCC特征的參數(shù)設(shè)置如下
語音短時幀的長度為20ms,即N=320;幀交疊為10ms,即160個采樣點。短時幀F(xiàn)FT的點數(shù)Nfft=512。
Mel濾波器的個數(shù)為M=26。
靜態(tài)的MFCC參數(shù)個數(shù)為R=13。
倒譜加權(quán)系數(shù)L=22。
由于是小詞匯量連續(xù)語音識別,基線系統(tǒng)采用12個連續(xù),狀態(tài)無跨越由左到右的HMM字模型(‘one’~‘nine’,‘oh’,‘zero’and ‘sil’),每個模型有8個狀態(tài),各個狀態(tài)的特征概率分布用單個對角化多維高斯分布來近似。
語音數(shù)據(jù)庫
實驗的訓(xùn)練和測試語音數(shù)據(jù)庫為TI-Digits。TI-Digits由Texas Instruments公司設(shè)計,用來訓(xùn)練和測試非特定人英文數(shù)字串語音識別系統(tǒng),共有326人(111個成年男性,114個成年女性,50個男孩,51個女孩),每人77個數(shù)字串發(fā)音。實驗訓(xùn)練使用TIDigit庫中15個說話人的500句話,識別測試使用庫中與訓(xùn)練無關(guān)的4個人的100句話。語音數(shù)據(jù)的采樣率為16KHz,采樣比特為16bit。
噪聲數(shù)據(jù)庫
實驗用的噪聲來自Noise-92數(shù)據(jù)庫,含噪語音是在信噪比-5dB到15dB的范圍內(nèi)每間隔5dB疊加噪聲得到。噪聲數(shù)據(jù)的采樣率也為16KHz,采樣比特為16bit。信噪比(SNR)按下式計算其中Ps和Pn分別為信號和噪聲的線性功率。
軟硬件平臺
實驗程序運行在Pentium□450機器上,內(nèi)存為128M,選用的操作系統(tǒng)是Windows 2000。實驗使用的抗噪聲語音識別系統(tǒng)包括前端增強、特征提取、模型訓(xùn)練、噪聲補償、識別程序和相應(yīng)的性能評測軟件。
識別性能評價標(biāo)準(zhǔn)
對于語音識別系統(tǒng)來說,評價系統(tǒng)性能的主要指標(biāo)是識別率,也稱為識別精度(Accuracy),當(dāng)然還有其它的一些標(biāo)準(zhǔn),如識別速度,詞匯量大小等。由于我們的實驗是噪聲環(huán)境下的小詞匯量連接詞語音識別,實驗?zāi)康氖窃u測各種抗噪聲語音識別方法的優(yōu)劣,因此主要考慮識別率這一項指標(biāo)。
對于WN個要識別的字,識別系統(tǒng)出現(xiàn)了WS個替代錯誤,WD個刪除錯誤以及WI個插入錯誤,識別精度(Accuracy)定義為
%accuracy=[(WN-WD-WS-WI)/WN]×100% (53)
針對不同噪聲
對特征加權(quán)算法和前端MMSE增強、Log-Add模型補償進行抗噪聲性能的比較,特別提出,在我們的特征加權(quán)算法中,只對靜態(tài)特征進行加權(quán);
將特征空間的加權(quán)處理分別與信號空間的前端MMSE語音增強和模型空間的Log-Add模型補償相融合,分析算法融合后的抗噪聲性能;
對本發(fā)明提出的MMSE-FW-LA方案和MMSE-LA方案進行比較。高斯白噪聲(white)
表1高斯白噪聲環(huán)境下采用不同方法的識別精度其中,Baseline表示未采用任何抗噪聲措施的基線系統(tǒng)的識別精度,MMSE、FW和LA分別代表前端MMSE增強,特征加權(quán)和Log-Add模型補償。短接符-表示方法之間的融合。首先我們比較前端MMSE增強,特征加權(quán)和Log-Add模型補償方法的抗噪聲識別性能,如圖16所示
前端MMSE增強、特征加權(quán)與Log-Add模型補償都改善了噪聲環(huán)境下的識別性能;
Log-Add模型補償在整個信噪比區(qū)間里都優(yōu)于前端MMSE增強;
在高背景噪聲環(huán)境下(SNR<5dB),特征加權(quán)算法是優(yōu)于Log-Add模型補償?shù)模貏e是在 信噪比0dB時,識別精度提高了12%
然后將特征空間的加權(quán)處理分別與前端MMSE增強和Log-Add模型補償融合,比較它們識別性能。如圖17所示
特征加權(quán)與前端MMSE增強和Log-Add模型補償相融合,相比它們單獨處理,都比較明 顯地提高了識別精度;
特征加權(quán)與前端MMSE增強的融合,在低信噪比時(SNR<15dB)優(yōu)于和Log-Add模型補 償?shù)娜诤?;比較MMSE-FW-LA方案與MMSE-LA方案,如圖18所示
MMSE-LA和MMSE-FW-LA方案都顯著地提高了噪聲環(huán)境下的識別精度,在信噪比-5dB 時,MMSE-LA的識別精度達到了65.33%,MMSE-FW-LA更是高達81%。
融合信號、特征和模型三個空間抗噪聲語音識別技術(shù)的MMSE-FW-LA方案優(yōu)于僅在信 號和模型兩個空間進行融合的MMSE-LA方案,而且信噪比越低,多空間抗噪聲技術(shù)融 合的優(yōu)勢就越明顯。如信噪比-5dB時,MMSE-FW-LA的識別精度比MMSE-LA提高了 15%。汽車噪聲(leopard)
表2汽車噪聲環(huán)境下采用不同方法的識別精度
同樣,Baseline表示未采用任何抗噪聲措施的基線系統(tǒng)的識別精度,MMSE、FW和LA分別代表前端MMSE增強,特征加權(quán)和Log-Add模型補償。短接符-表示方法之間的融合。
首先我們比較前端MMSE增強,特征加權(quán)和Log-Add模型補償方法的抗噪聲識別性能,如圖19所示
前端MMSE增強和Log-Add模型補償都比較明顯地提高了識別精度,特別是Log-Add模型補償在整個信噪比區(qū)間里都優(yōu)于前端MMSE增強;
特征加權(quán)與前端MMSE增強和Log-Add模型補償相比,識別精度明顯下降。主要原因是在特征加權(quán)算法沒有對無聲段語音有效處理,結(jié)果導(dǎo)致起伏比較明顯的汽車噪聲在無聲段引入很多插入錯誤,造成識別率的降低;
特征加權(quán)與基線系統(tǒng)(Baseline)相比,識別性能還是有所改善。說明在語音的有聲段,特征權(quán)重的估計和加權(quán)處理是有效的。然后比較特征空間的加權(quán)處理分別與前端MMSE增強和Log-Add模型補償融合后的抗噪聲識別性能。如圖20所示
與特征空間的加權(quán)處理相融合,比較明顯地提高了前端MMSE增強和Log-Add模型補償?shù)目乖肼曌R別性能。在信噪比為-5dB時,識別精度分別提高了3.33%和18.67%。
在信噪比低于10dB時,Log-Add模型補償與特征加權(quán)的融合效果優(yōu)于前端MMSE增強,這剛好與高斯白噪聲環(huán)境下的情況不同;比較MMSE-FW-LA方案與MMSE-LA方案,如圖21所示
MMSE-LA和MMSE-FW-LA方案在信噪比低于5dB時顯著地提高了噪聲環(huán)境下的識別精度,如在信噪比-5dB時,MMSE-LA和MMSE-FW-LA的識別率都高于80%;在信噪比高于5dB時,也適度地改善了識別器的性能。
多融合了特征空間抗噪聲語音識別技術(shù)的MMSE-FW-LA方案優(yōu)于MMSE-LA方案,在-5dB到15dB范圍內(nèi),識別精度平均提高將近2%。
從實驗結(jié)果可以看出,特征加權(quán)算法可以有效的提高低信噪比環(huán)境下識別精度,優(yōu)于前端的MMSE增強和Log-Add模型補償;更為重要的是,由于前端語音增強技術(shù)、特征加權(quán)和模型補償算法分別針對噪聲在信號、特征和模型空間造成的失配進行處理,因此不同方法可以相互融合,整體地提高語音識別系統(tǒng)的抗噪聲性能。本發(fā)明提出的MMSE-FW-LA方案融合了多空間抗噪聲識別技術(shù),很大幅度的提高了強背景噪聲環(huán)境下的識別精度,在SNR為-5dB的高斯白噪聲和汽車噪聲環(huán)境下,識別精度都達到了80%,而且從算法復(fù)雜度來看,MMSE-FW-LA方案的前端增強和特征權(quán)重估計相互融合,選用了計算量較低的MMSE估計方法,模型補償不需要對噪聲模型進行離線估計,這些都有利于此方案的實時處理。因此,本發(fā)明提出的MMSE-FW-LA方案具有很強的實用性。
權(quán)利要求
1.抗噪聲語音識別用語音增強-特征加權(quán)-對數(shù)譜相加方法,含有計算機上運行的語音增強-對數(shù)譜相加方法,其特征在于,它依次含有以下步驟
(1).初始化Mel濾波器組在各線性頻點k上的抽頭系數(shù)Hm(k),以及對數(shù)譜特征與MFCC(Mel頻段倒譜系數(shù))特征的轉(zhuǎn)換矩陣Tr和Tr-1其中k=1,2,...,Nfft2,Nfft所是FFT的頻點數(shù)m=1,2,..,M,M是Mel濾波器的個數(shù)。
(2).輸入含噪語音和純凈語音經(jīng)訓(xùn)練得到的模型參數(shù)
μc純凈語音訓(xùn)練得到的模型狀態(tài)在MFCC倒譜域下的靜態(tài)特征均值;
δμc純凈語音訓(xùn)練得到的模型狀態(tài)在MFCC倒譜域下的動態(tài)特征均值;
(3).分幀、加窗
若采樣后的原始語音為y(n),漢明(hamming)窗在第n個采樣點上的系數(shù)N等于幀長,則分幀后的原始語音信號為t表示幀號,加上漢明窗后的原始語音信號為yw(n,t)=y(tǒng)(n,t)×h(n),n=1,…,N
(4).快速傅立葉變換FFT
由于語音短時頻譜對感知語音起決定性的作用,利用FFT逐幀將語音變換到頻譜域Nfft是FFT變換的點數(shù)。
(5).噪聲幀檢測和噪聲譜幅度估計
(5.1).設(shè)定前10幀起始段含噪語音為噪聲幀,輸入當(dāng)前第t幀含噪語音的短時譜幅度
(5.2).若當(dāng)前幀為起始段噪聲幀,則前t幀噪聲功率譜幅度的估計值為并在當(dāng)前幀為第10幀時輸出起始段噪聲譜幅度的估計值計算用于區(qū)分噪聲幀和含噪語音幀的判決門限x
(5.3).若當(dāng)前幀不是起始段噪聲幀,則當(dāng)前幀t的判決值
(5.3.1)若ρ<x,則判決為含噪語音中的噪聲幀,其噪聲功率譜幅度估計值為
并輸出;
(5.3.2).若ρ≥x,則判決為非噪聲幀,即含有噪聲的語音幀,其噪聲功率譜幅
度為
并輸出;
(6).用取決于先驗信噪比ζ和后驗信噪比γ的譜幅度增益系數(shù)G(k,t)計算純凈語音短時譜幅度的估計值,以及相應(yīng)的第t幀第m個對數(shù)譜特征的權(quán)重wm(t)
(6.1).輸入當(dāng)前第t幀含噪語音的短時譜幅度;
(6.2).計算當(dāng)前幀t第k個頻點的后驗信噪比,Yp(k,t)為含噪語音的功率譜幅度,
為估計的噪聲功率譜幅度。
(6.2.1).如果當(dāng)前幀t=1,則初始化當(dāng)前幀第k個頻點的先驗信噪比為
ζ(k,t)=0.1;
(6.2.2).如果當(dāng)前幀t>1,則利用上一幀的先驗和當(dāng)前幀的后驗信噪比,通過滑
動平均估計得到當(dāng)前幀第k個頻點的先驗信噪比
ζ(k,t)=0.98×ζ(k,t-1)+0.02×[γ(k,t)-1]
(6.3).當(dāng)前幀t第k個頻點的譜幅度增益系數(shù)利用級數(shù)求和,計算得到其中a1=-0.5,a2=1,
(6.4).相應(yīng)的純凈語音短時譜幅度的估計值為
(6.5).重新計算當(dāng)前幀第k個頻點的先驗信噪比
(6.6).計算完當(dāng)前幀t第k個頻點(1≤k≤Nfft/2+1)的G(k,t)、
和ζ(k,t)值。
(6.7).計算當(dāng)前幀t第m個對數(shù)譜特征的權(quán)重
(6.8).計算當(dāng)前幀共M個對數(shù)譜特征的的權(quán)重,M是對數(shù)譜特征的維數(shù)。
(6.9).計算完t=1,2,...,T各幀中的
和wm(t);
(6.10).輸出所有相應(yīng)的純凈語音短時譜幅度估計值
和對數(shù)譜特征的權(quán)重
wm(t);
(7).MFCC特征提取
(7.1).輸入純凈語音短時譜幅度估計值
(7.2).計算功率譜,k=1,...,Nfft;
(7.3).Mel濾波
(7.4).對數(shù)譜特征FBank(m,t)=log(MBank(m,t)),m=1,..,M
(7.5).DCT倒譜表示其中,并取前R維特征矢量
(7.6).倒譜加權(quán)其中,r=1,…,R,L為加權(quán)濾波器寬度;
(7.7).計算動態(tài)系數(shù),Δt表示幀間距;
(7.8).輸出c(r,t)和Δc(r,t);
(8).判斷待識別語句是否輸入完畢t=T?
(9).若判斷為待識別語句已經(jīng)輸入完畢,則計算噪聲幀,即剩余噪聲的靜態(tài)MFCC特征平均值,剩余噪聲的定義如下其中x(n)表示純凈語音在第n個樣點上的值,
表示x(n)增強后的估計值。由于剩余噪聲存在于各個語音幀,而語音僅存在于非噪聲幀,所以對于噪聲幀來說,即剩余噪聲的短時譜幅度在各噪聲幀中等于增強后語音的短時譜幅度,我們可以利用下式計算剩余噪聲的靜態(tài)MFCC特征均值
其中噪聲幀包括起始段10幀和后面判決的噪聲幀,r=1,2,..,R。
(10).Log-Add對數(shù)譜相加模型補償
(10.1).輸入剩余噪聲的MFCC特征均值并轉(zhuǎn)換到對數(shù)譜域
(10.2).輸入純凈語音訓(xùn)練模型的狀態(tài)均值,并轉(zhuǎn)換到對數(shù)譜域μl=Tr-1μc,
Δμl=Tr-1Δμc;
(10.3).Log-Add模型補償
(10.4).把補償?shù)哪P蜖顟B(tài)轉(zhuǎn)換到MFCC倒譜域
(10.5).當(dāng)狀態(tài)輸入完畢,輸出剩余噪聲補償后的語音模型;
(11).特征加權(quán)的維特比識別譯碼
(11.1).輸入剩余噪聲補償后的語音模型、增強語音當(dāng)前幀MFCC特征
、對數(shù)譜特征權(quán)重wm(t);
(11.2).計算觀測幀在候選狀態(tài)下的對數(shù)概率似然值
(11.2.1).在MFCC倒譜域計算MFCC特征與可選狀態(tài)的狀態(tài)均值的矢量差
(11.2.2).把差矢量變換到對數(shù)譜特征域dl=Tr-1dc;
(11.2.3).在對數(shù)譜域進行加權(quán),并變換回MFCC倒譜域dc=TrWdl;
(11.2.4).計算對數(shù)概率似然值
其中∑c為倒譜域的狀態(tài)方差矩陣,且為對角陣∑c=Diag{σi1,σi2,..,σir..},c表示倒譜
域,i表示狀態(tài);C(∑c)表示與
無關(guān)的常數(shù)項,對應(yīng),R是倒譜
特征的維數(shù)。
(11.3).初始化Viterbi譯碼后,再迭代,計算完t=1,2,...,T幀;
(11.4).計算最大概率和最佳路徑的終止?fàn)顟B(tài)
(11.5)通過回溯依次輸出最佳路徑上的其他狀態(tài)
(12).輸出識別結(jié)果,結(jié)束。
全文摘要
抗噪聲語音識別用語音增強-特征加權(quán)-對數(shù)譜相加方法屬于語音識別技術(shù)領(lǐng)域,其特征在于它是一種融合多空間抗噪聲語音識別技術(shù),即MMSE(最小均方差增強)-FW(特征加權(quán))-LA(對數(shù)譜相加)的方法,它根據(jù)短時段語音各維特征提取空間的局部信噪比,給出特征的置信度估計,即權(quán)重,并對識別算法進行修改,把權(quán)重信息代入識別過程。尤其是前端語音增強技術(shù)、特征加權(quán)和對數(shù)譜相加模型補償算法分別針對噪聲在信號、特征和模型空間造成的失配進行處理,從而整體地提高了語音識別系統(tǒng)的抗噪聲性能。在SNR(信噪比)為-5dB的高斯白噪聲和汽車噪聲這種強背景噪聲環(huán)境下,識別率都達到了80%,而且前端增強和特征權(quán)重估計相互融合,選用了計算量較低的MMSE法,模型補償也不需要對噪聲模型進行離線估計。
文檔編號G10L15/20GK1397929SQ0212414
公開日2003年2月19日 申請日期2002年7月12日 優(yōu)先權(quán)日2002年7月12日
發(fā)明者曹志剛, 許濤 申請人:清華大學(xué)