專利名稱:用于抗噪聲語音識別的在線參數(shù)直方圖正態(tài)化的制作方法
技術(shù)領(lǐng)域:
本發(fā)明大體上涉及語音處理領(lǐng)域,更具體地說,涉及抗噪聲語音識別。
背景技術(shù):
語音識別技術(shù)允許通信網(wǎng)絡(luò)的用戶例如在不需要使用鍵盤敲入單詞的情況下訪問計算機或手持電子裝置。具體地說,口語系統(tǒng)提供用戶-計算機交互,這使人與機器之間能夠進行自然的對話。
語音識別系統(tǒng)大致上劃分為特征提取器(前端)和識別器(后端)。前端算法將輸入語音波形信號轉(zhuǎn)換成特征參數(shù),同時保留了用于語音識別的必要信息,該特征參數(shù)提供了輸入語音的壓縮表示。后端算法執(zhí)行實際的識別任務(wù),將特征參數(shù)作為輸入并執(zhí)行模板匹配操作,將特征與要識別的可能單詞或其它語音單位的參考模板相比。
在語音識別系統(tǒng)中,通常前端用于將特征參數(shù)而不是將編碼的語音波形傳送到語音識別后端。具體地說,當(dāng)在分布式語音識別(DSR)系統(tǒng)中進行語音識別處理時,特征參數(shù)需要的用于無線電傳輸?shù)膸捝儆诰幋a的語音波形所需的帶寬,因此,可利用數(shù)據(jù)信道將特征參數(shù)發(fā)送到自動語音識別(ASR)服務(wù)器。這不需要使用高比特率語音信道。在嵌入式系統(tǒng)、如移動終端中,前端將語音特征以比初始采樣語音更適合識別的形式提供給后端。
歐洲電信標準協(xié)會(ETSI)已經(jīng)建立了用于DSR信號處理的標準。在ETSI ES 201 108 V1.1.2中,公布了一種用于前端特征提取及其傳輸?shù)臉藴仕惴?。該標準算法針對每個10ms語音幀計算具有十四個分量的特征向量。尤其是,此ETSI公布涵蓋了前端特征提取算法以產(chǎn)生Mel頻率倒譜系數(shù)(MFCC)。盡管如ETSI公布中所公開的標準算法是為無線傳輸設(shè)計的,但是這種基本方法可應(yīng)用于例如嵌入手持電子裝置中的語音識別系統(tǒng)。倒譜是用于信號的功率譜的對數(shù)的離散余弦變換的術(shù)語,mel頻率卷繞是非線性地修改頻譜的傅立葉變換表示的標度的過程。根據(jù)對數(shù)幅度譜的mel頻率卷繞后的傅立葉變換表示,計算一組倒譜系數(shù)或參數(shù)以表示語音信號。所提取的倒譜系數(shù)或參數(shù)稱為特征向量。將這些特征向量傳送到后端識別器以執(zhí)行實際概率估算和分類,以便識別所講的字。由于不同的講話者具有不同的聲音、語速、口音及可能影響語音識別系統(tǒng)的其它因素,因此具有優(yōu)質(zhì)的特征向量以確保語音識別的良好性能是重要的。此外,環(huán)境噪聲和失真也可能使特征向量的質(zhì)量變壞,并影響到語音識別系統(tǒng)的性能。
目前,通過訓(xùn)練聲學(xué)模型來提高語音識別系統(tǒng)的性能,該模型利用相對無噪聲的語音數(shù)據(jù)使純凈語音條件下的性能最佳。
圖1顯示標準MFCC前端。如圖所示,通過頻譜轉(zhuǎn)換(FFT)將輸入語音變換成一組譜系數(shù)。譜系數(shù)由Mel換算模型來換算。通常,前端每10ms產(chǎn)生一個特征向量(幀)。在Mel換算后,語音信號表示為N(N=22)維向量,其中各分量對應(yīng)于該頻段的譜能量。在Mel換算之后,對Mel向量分量應(yīng)用非線性變換(對數(shù))。然后采用離散余弦變換(DCT)對信號去相關(guān)。采用微分器通過取向量的一階和二階導(dǎo)數(shù)來獲取連續(xù)幀之間的信息。最后,應(yīng)用倒譜域特征向量正態(tài)化以減少訓(xùn)練條件和測試條件之間的失配。
當(dāng)這類語音識別系統(tǒng)用于高噪聲環(huán)境、例如汽車中時,背景噪聲可能導(dǎo)致聲學(xué)模型與語音數(shù)據(jù)之間的失配?,F(xiàn)在,利用直方圖正態(tài)化技術(shù)來減少這種失配。在譜系數(shù)的直方圖中,橫坐標對應(yīng)于譜值,而縱坐標值對應(yīng)于相應(yīng)譜值的似然性。在嘈雜的環(huán)境中,例如快速行駛的汽車中,特征向量可因噪聲而變化,并變得與在安靜環(huán)境中獲取的結(jié)果不同。因此,測試頻譜信號的直方圖的形狀和位置明顯與訓(xùn)練頻譜信號的那些直方圖的形狀和位置不同。在前端中,如圖l所示,在倒譜域中通過特征向量正態(tài)化來補償特征中的這些變化。此方法稱為倒譜域特征向量正態(tài)化,是一種改善抗噪聲性的有效方法。然而,它具有一些缺點。當(dāng)在失真的(有噪聲的)頻譜信號上應(yīng)用DCT時,該失真會擴散到所有倒譜參數(shù)。即使環(huán)境噪聲局限在某個頻段,但是噪聲在DCT過程之后將會影響所有倒譜系數(shù)。因此,即便倒譜域特征向量正態(tài)化有效地消除了不同環(huán)境之間的失配,但正態(tài)化信號將始終具有在所有倒譜系數(shù)中的噪聲殘余。
Mammone等人(美國專利No.6038528)公開了一種語音處理方法,其中,倒譜參數(shù)正態(tài)化是基于倒譜系數(shù)的仿射變換。此方法涉及倒譜變換后的系數(shù),因此也對噪聲能量向倒譜分量的擴散敏感。
Molau等人(“Histogram based Normalization in the Acoustic FeatureSpace”,ASRU 2001 Workshop on Automatic Speech Recognition andUnderstanding,2001)以及Hilger等人(“Quantile Based HistogramEqualization for Noise Robust Recognition”,EUROSPEECH 2001,pp.1135-1138)公開了兩種脫機直方圖正態(tài)化技術(shù),其中需要將訓(xùn)練數(shù)據(jù)的直方圖和測試數(shù)據(jù)的直方圖提前發(fā)送到后端。這些技術(shù)是不切實際的,因為需要更多的關(guān)于直方圖的分布的數(shù)據(jù)。此外,根據(jù)Hilger等人的方法需要通常持續(xù)幾秒的一次發(fā)言的延遲(語音輸入和語音識別之間)。根據(jù)Molau等人的方法也是不切實際的,因為它需要所有的數(shù)據(jù)均來自相同的測試講話人。
提供一種性能改善的語音識別前端是有利且合乎需要的,在該前端中,與噪聲能量的擴散相關(guān)的問題可減到最小,而且語音輸入和語音識別之間的延遲也適當(dāng)?shù)乜s短。
發(fā)明概述根據(jù)本發(fā)明的第一方面,提供一種改善語音識別系統(tǒng)中的抗噪聲性的方法,該系統(tǒng)包括用于從輸入語音提取語音特征的前端和用于根據(jù)所提取特征進行語音識別的后端,其中前端包括對輸入語音作出響應(yīng)、用以提供表示在多個時刻的輸入語音的數(shù)據(jù)的裝置;對數(shù)據(jù)作出響應(yīng)、用以在頻譜上將數(shù)據(jù)轉(zhuǎn)換成具有值的相關(guān)概率分布的多個譜系數(shù)、以便提供表示譜系數(shù)的譜數(shù)據(jù)的裝置;以及對譜數(shù)據(jù)作出響應(yīng)、用于對譜系數(shù)執(zhí)行去相關(guān)轉(zhuǎn)換、以便提供所提取的特征的裝置。此方法的特征在于獲取在不同時刻的譜系數(shù)值的概率分布的參數(shù)表示;根據(jù)一個或多個參考值修改參數(shù)表示;以及根據(jù)修改后的參數(shù)表示來調(diào)整至少一個譜系數(shù),以便在去相關(guān)轉(zhuǎn)換之前改變譜數(shù)據(jù)。
根據(jù)本發(fā)明,將訓(xùn)練語音的多個譜系數(shù)用于匹配,并且此方法的特征還在于一個或多個參考值包括根據(jù)高斯近似法得到的訓(xùn)練語音的譜系數(shù)的平均值和標準偏差。
根據(jù)本發(fā)明,參數(shù)表示包括譜系數(shù)的各種值的平均值和標準偏差。
根據(jù)本發(fā)明的第二方面,提供一種用于具有后端的語音識別系統(tǒng)中的語音識別前端,該前端從輸入語音中提取語音特征,以使后端可以根據(jù)所提取的特征來識別輸入語音,所述前端包括對輸入語音作出響應(yīng)、用以提供表示在多個時刻的輸入語音的數(shù)據(jù)的裝置;用于在頻譜上將數(shù)據(jù)轉(zhuǎn)換成具有值的相關(guān)概率分布的多個譜系數(shù)、以便提供表示譜系數(shù)的譜數(shù)據(jù)的裝置;以及用于對譜系數(shù)執(zhí)行去相關(guān)轉(zhuǎn)換、以便向后端提供所提取的特征的裝置。所述前端的特征在于對譜系數(shù)作出響應(yīng)的裝置,用于獲取在不同時刻的譜系數(shù)值的概率分布的參數(shù)表示,用于根據(jù)一個或多個參考值修改參數(shù)表示,以及用于根據(jù)修改后的參數(shù)表示調(diào)整至少一個譜系數(shù),以便在去相關(guān)轉(zhuǎn)換執(zhí)行之前改變譜數(shù)據(jù)。
根據(jù)本發(fā)明的第三方面,提供一種包括用于從網(wǎng)元接收語音數(shù)據(jù)的后端的通信系統(tǒng)中的網(wǎng)元,該網(wǎng)元包括接收輸入語音的話音輸入裝置;以及對輸入語音作出響應(yīng)的前端,用于從輸入語音中提取語音特征,從而提供表示語音特征的語音數(shù)據(jù),以使后端可根據(jù)該語音特征識別所述輸入語音,其中前端包括對輸入語音作出響應(yīng)、用以提供表示在多個時刻的輸入語音的數(shù)據(jù)的裝置;用于在頻譜上將數(shù)據(jù)轉(zhuǎn)換成多個譜系數(shù),以便提供表示具有值的相關(guān)概率分布的譜系數(shù)的譜數(shù)據(jù)的裝置;以及用于對譜系數(shù)執(zhí)行去相關(guān)轉(zhuǎn)換、以便提供所提取的特征的裝置。網(wǎng)元的特征在于,該前端還包括對譜系數(shù)作出響應(yīng)的裝置,該裝置用于獲取在不同時刻的譜系數(shù)值的概率分布的參數(shù)表示,根據(jù)一個或多個參考值修改參數(shù)表示,以及根據(jù)修改后的參數(shù)表示調(diào)整至少一個譜系數(shù),以便在去相關(guān)轉(zhuǎn)換執(zhí)行之前改變譜數(shù)據(jù)。
根據(jù)本發(fā)明的第四方面,提供一種在語音識別前端中使用的計算機程序,用以從輸入語音中提取語音特征,以使語音識別后端可根據(jù)所提取的特征來識別輸入語音,其中該前端包括對輸入語音作出響應(yīng)的裝置,用以提供表示在多個時刻的輸入語音的數(shù)據(jù);用于在頻譜上將數(shù)據(jù)轉(zhuǎn)換成多個具有值的相關(guān)概率分布的譜系數(shù)、以便提供表示譜系數(shù)的譜數(shù)據(jù)的裝置;以及用于對譜系數(shù)執(zhí)行去相關(guān)轉(zhuǎn)換、以便提供所提取的特征的裝置。所述計算機程序的特征在于一種算法,用于生成在不同時刻的譜系數(shù)值的概率分布的參數(shù)表示,根據(jù)一個或多個參考值修改參數(shù)表示,以及根據(jù)修改后的參數(shù)表示調(diào)整至少一個譜系數(shù),以便在去相關(guān)轉(zhuǎn)換執(zhí)行之前改變譜數(shù)據(jù)。
附圖簡介圖1是說明現(xiàn)有技術(shù)的MFCC前端的框圖。
圖2是說明根據(jù)本發(fā)明的MFCC前端的框圖。
圖3表示一個無噪聲話語與有噪聲的相同話語的第7個log-Mel帶的軌跡。
圖4表示圖3的軌跡的直方圖。
圖5表示一個無噪聲話語與有噪聲的相同話語的第21個log-Mel帶的軌跡。
圖6表示圖5的軌跡的直方圖。
圖7是說明包括具有根據(jù)本發(fā)明的語音識別前端的網(wǎng)元以及語音識別后端的通信系統(tǒng)的框圖。
本發(fā)明的最佳實施方式如背景部分中所論述的,當(dāng)在已失真的譜信號上進行DCT時,失真會擴散到所有倒譜參數(shù)中。因此,在DCT(在倒譜域中)之后的特征向量正態(tài)化并未消除噪聲向倒譜系數(shù)中的擴散。本發(fā)明的主要目的是提供一種將輸入語音的特征與訓(xùn)練語音的特征匹配而不受噪聲在倒譜系數(shù)中擴散的影響的方法。此目的可通過在譜域而非倒譜域中執(zhí)行直方圖正態(tài)化步驟來達到。這意味著,在失真(噪聲)擴散到所有倒譜系數(shù)中之前執(zhí)行正態(tài)化。具體地說,在DCT變換之前以及最好是在對數(shù)壓縮之后執(zhí)行直方圖正態(tài)化(當(dāng)然也可以在對數(shù)壓縮之前執(zhí)行),如圖2所示。圖2是表示根據(jù)本發(fā)明的DSR前端10的框圖。如圖2所示,輸入語音100被預(yù)處理塊20處理成幀形式的語音樣本102。對語音樣本應(yīng)用塊30中的FFT以計算輸入語音信號的幅度譜。FFT塊30的輸出是多個譜系數(shù)104。在Mel換算后,譜系數(shù)被轉(zhuǎn)換成N維向量106,該向量的各分量對應(yīng)于該頻段的譜能量。Mel濾波的輸出106經(jīng)過塊50中的自然對數(shù)函數(shù)的運算。塊50的輸出108稱為對數(shù)壓縮后的Mel濾波器組輸出。當(dāng)對數(shù)壓縮的Mel濾波器組輸出108的值對照各值的似然性繪出曲線時,得到譜信號的直方圖。根據(jù)本發(fā)明,在塊60中采用高斯近似法將譜信號的直方圖正態(tài)化成訓(xùn)練集62的直方圖。利用計算機軟件程序64根據(jù)以下結(jié)合等式1-4介紹的正態(tài)化算法來執(zhí)行此正態(tài)化過程。接著通過去相關(guān)模型70將正態(tài)化的譜信號110轉(zhuǎn)換成一組倒譜系數(shù)112。塊70的輸出還受到塊80中的倒譜域特征向量正態(tài)化。如圖2所示的參考標號120表示要傳送到后端的所提取的特征(未示出)。應(yīng)當(dāng)指出,如塊70中進行的這種去相關(guān)可被理解為任何減少輸入信號樣本之間相關(guān)性的處理或變換。例如,DCT、FFT、WT(小波變換)都是這種變換。
與將每個倒譜系數(shù)正態(tài)化成零平均值和一方差的現(xiàn)有技術(shù)倒譜域正態(tài)化方法相比,本發(fā)明重點在于恢復(fù)譜域中原始純凈的訓(xùn)練分布。
正態(tài)化算法根據(jù)本發(fā)明,此算法最好是基于訓(xùn)練和測試直方圖的高斯近似法。不過,也可以采用其它近似法,例如χ分布、平均分布以及泊松分布。高斯算法僅需要少量的參數(shù)向量用于估算,以便得到平均值(μ)和標準偏差(σ)向量的估算值。如圖2所示,由于用于估算的參數(shù)數(shù)量少,因此可以在線方式執(zhí)行正態(tài)化。本發(fā)明是高效的,部分是因為可以在相對較短的時間幀內(nèi)得到足量的數(shù)據(jù),從而可靠地估算正態(tài)化參數(shù)。
關(guān)于訓(xùn)練集,利用對數(shù)譜向量分量計算平均值μtrain和標準偏差σtrain。這些值是據(jù)以判斷識別階段中的正態(tài)化的目標值。對于測試譜信號,平均值μtest和標準偏差σtest被分別初始化為μtrain和σtrain的值。通過利用38幀超前緩沖器估算當(dāng)前語音數(shù)據(jù)的參數(shù),正態(tài)化中所用的值按照如下等式變化μtest=αMean*μtest+(1-αMean)*MEL (1)(σtest)2=αVar*(σtest)2+(1-αVar*(MEL)2(2)其中MEL是原始log-Mel值,αMean和αVar是值在0和1之間的系數(shù)。依照如下等式得到log-Mel的正態(tài)化值MEL′=(σtrai/σtest)*(MEL-μtest)+μtrain(3)等式3表示正態(tài)化log-Mel值和原始log-Mel值之間的映射。應(yīng)當(dāng)指出,用于獲取估算值的幀數(shù)可以不同(例如,19、10或者甚至5或更少)。類似地,可以根據(jù)需要調(diào)整αMean和αVar的值(例如,在0.05和0.20之間)。此外,幀不必是連續(xù)的。例如,僅選擇每第二或第三幀來進行估算。
為使這種映射較不主動,可以采用加權(quán)因子w。當(dāng)w=1時,不進行映射。當(dāng)w=0時,將測試分布完全映射到訓(xùn)練分布。實際中,選擇0和1之間固定的w值。通過加權(quán)因子,按照如下等式計算修改后的log-Mel值MEL″=wMEL+(1-w)MEL′ (4)當(dāng)采用0和1之間的加權(quán)值、例如0.7-0.9或0.1-0.3時,正態(tài)化處理僅將帶噪聲特征分布部分地“移向”訓(xùn)練數(shù)據(jù)分布。
也可以分別映射平均值和標準偏差,即用于調(diào)整平均值的量不同于用于調(diào)整標準偏差的量。為此,需要定義兩個加權(quán)因子一個針對平均值,而另一個針對標準偏差。否則,根據(jù)等式3和4進行映射,即,將標準偏差朝向其參考值改變第一相對量,使平均值朝向其參考值改變第二相對量。
為說明正態(tài)化的log-Mel值與原始log-Mel值之間的映射,在圖3-6中顯示了一個話語發(fā)音的第7個和第21個log-Mel帶的軌跡和直方圖。各圖中均顯示了無噪聲和有噪聲曲線。這些圖說明噪聲數(shù)據(jù)的軌跡和直方圖如何不同于相應(yīng)的無噪聲數(shù)據(jù)。當(dāng)與圖4和6中的直方圖相比時,可以發(fā)現(xiàn)特定的汽車噪聲對第7個log-Mel帶的破壞超過對第21個log-Mel帶的破壞。這主要是因為第7個log-Mel帶的無噪聲和有噪聲直方圖之間的分離比第21個log-Mel帶的無噪聲和有噪聲直方圖之間的分離遠。通常,應(yīng)當(dāng)逐帶地進行直方圖正態(tài)化,因為對特定帶的破壞隨噪聲譜而變。然而,可以僅正態(tài)化那些看似更容易受到噪聲破壞的帶。因此,當(dāng)特定帶的近似直方圖與訓(xùn)練集的直方圖大不相同時,僅對該帶的直方圖執(zhí)行正態(tài)化。而不必對其它帶進行正態(tài)化。
圖3顯示了一個話語的第7個log-Mel帶的軌跡軌跡1是無噪聲話語的軌跡,軌跡2是在加入汽車噪聲之后的相同話語的軌跡。在圖4中,曲線A和曲線B分別是軌跡1和軌跡2的直方圖。圖5顯示了一個話語的第21個log-Mel帶的軌跡軌跡3是無噪聲話語的軌跡,軌跡4是在加入汽車噪聲之后的相同話語的軌跡。在圖6中,曲線C和曲線D分別是軌跡3和軌跡4的直方圖。應(yīng)當(dāng)指出,在圖4和6中,直方圖僅表示值的概率分布或log-Mel值出現(xiàn)的似然性,這是分別根據(jù)圖3和5的數(shù)據(jù)得到的估算值。
試驗結(jié)果用四種語言在多語言的孤立字識別任務(wù)(名稱撥號)中進行測試。訓(xùn)練數(shù)據(jù)集包含來自這些語言的數(shù)據(jù),但是沒有一個測試話語或講話者用于訓(xùn)練。表I顯示不具有講話者自適應(yīng)的速率,表II包括當(dāng)采用最大值A(chǔ)經(jīng)驗(MAP)講話者自適應(yīng)時的速率。注意,僅在測試階段中使用高斯譜正態(tài)化。針對訓(xùn)練的數(shù)據(jù)用標準MFCC前端加上倒譜正態(tài)化來處理。
英國英語 法語
德語西班牙語
表I英國英語 法語
德語 西班牙語
表II如表I和表II所示的實驗結(jié)果是采用前述正態(tài)化算法從多語言的孤立字識別任務(wù)中獲取的。具體而言,在等式1、2和4中的系數(shù)的值是αMean=αVar=0.985,w=0.8。這些值在整個測試過程中保持不變。已發(fā)現(xiàn),前端系統(tǒng)對αMean和αVar不是非常敏感。還采用受不穩(wěn)定噪聲(例如自助餐廳噪聲)污染的語音話語對本發(fā)明進行測試,但是識別精度并未提高。因此,得出的結(jié)論是,本發(fā)明可以改善在安靜的環(huán)境中以及在準穩(wěn)定噪聲環(huán)境(例如汽車噪聲)中的識別性能。
本發(fā)明勝過現(xiàn)有技術(shù)方法的主要優(yōu)點包括1.在嘈雜環(huán)境中的識別精度得到明顯提高,而沒有降低無噪聲語音環(huán)境中的性能;2.針對每個話語在線(塊60中)估算正態(tài)化參數(shù),同時合理地縮短了所引入的算法延遲;3.對于靜態(tài)存儲器的需要是可以忽略的-只需要存儲兩個表示無噪聲訓(xùn)練統(tǒng)計數(shù)據(jù)的參數(shù)向量(2×22值);4.運行期存儲量的增加小,需要緩存38個譜幀;5.譜域中的在線直方圖正態(tài)化與現(xiàn)有倒譜域特征向量正態(tài)化(塊80)兼容;以及6.當(dāng)與MAP講話者自適應(yīng)一起使用時,識別速率也得到提高。
可在獨個裝置的語音識別系統(tǒng)或分布式語音識別系統(tǒng)中實現(xiàn)語音識別特征。在任一情況中,系統(tǒng)包括前端和后端。在分布式系統(tǒng)中后端一般駐留在網(wǎng)絡(luò)中,而前端駐留在用戶裝置中。在獨個裝置的語音識別系統(tǒng)中,前端和后端都嵌入同一裝置中。根據(jù)本發(fā)明改善語音識別中抗噪聲性的方法特別適用于嵌入式系統(tǒng)。因此,根據(jù)本發(fā)明的抗噪聲前端可用于臺式計算機或文字處理器,這使用戶例如可以用口述的方式來撰寫文件。前端可用于手持電子裝置中,這使用戶可以例如利用話音將文本項輸入裝置中。前端可用于智能家用電器,使之識別來自任何用戶的字和短語,以便它可實施例如所請求的功能。前端也可用于智能住宅、智能服裝、智能家具等。然而,根據(jù)本發(fā)明的前端也適用于分布式系統(tǒng)。例如,如圖7所示,前端可用于作為網(wǎng)元的移動終端中。
圖7是表示通信系統(tǒng)1的框圖。系統(tǒng)1具有終端或網(wǎng)元5,用于將表示語音特征120的語音數(shù)據(jù)130傳送到后端裝置90中,以便進行語音識別。如圖7所示,網(wǎng)元5包括用于接收來自例如用戶的輸入語音100的話音輸入裝置80。前端10根據(jù)結(jié)合圖2所介紹的過程從輸入語音100中提取語音特征120。如果必要的話,利用比特流格式化模型82將所提取的特征120轉(zhuǎn)換成語音數(shù)據(jù)130以便傳輸。在后端90中,語音數(shù)據(jù)接收器92所收到的語音數(shù)據(jù)經(jīng)過后端語音識別器94處理,用以提供表示輸入語音的信號。字或文本生成裝置96用來提供所識別的輸入語音的聲音或顯示文本。
應(yīng)當(dāng)指出,在DCT變換之前,最好是在對數(shù)壓縮之后,實施根據(jù)本發(fā)明優(yōu)選實施例的直方圖正態(tài)化步驟。然而,也可以在對數(shù)壓縮之前實施直方圖正態(tài)化步驟。此外,不是對識別參數(shù)進行調(diào)整,而是可利用輸入語音參數(shù)的概率分布對用于識別的模板進行調(diào)整,從而獲得實質(zhì)上相同的效果。
盡管已經(jīng)就本發(fā)明的優(yōu)選實施例描述了本發(fā)明,但是本領(lǐng)域的技術(shù)人員會理解,在不脫離本發(fā)明的范圍的前提下,可以在其形式和細節(jié)方面作出前述和各種其它的變化、省略以及偏差。
權(quán)利要求
1.一種改善語音識別系統(tǒng)中的抗噪聲性的方法,所述系統(tǒng)包括用于從輸入語音提取語音特征的前端和用于根據(jù)所述提取的特征進行語音識別的后端,其中所述前端包括對所述輸入語音作出響應(yīng)、用以提供表示在多個時刻的所述輸入語音的數(shù)據(jù)的裝置;對所述數(shù)據(jù)段作出響應(yīng)、用以在頻譜上將所述數(shù)據(jù)段轉(zhuǎn)換成具有值的相關(guān)概率分布的多個譜系數(shù)、以便提供表示所述譜系數(shù)的譜數(shù)據(jù)的裝置;以及對所述譜數(shù)據(jù)作出響應(yīng)、用以對所述譜系數(shù)執(zhí)行去相關(guān)轉(zhuǎn)換、以便提供所述提取的特征的裝置,特征在于獲取所述譜系數(shù)的值的概率分布的參數(shù)表示;根據(jù)一個或多個參考值修改所述參數(shù)表示;以及根據(jù)所述修改后的參數(shù)表示調(diào)整至少一個所述譜系數(shù),以便在所述去相關(guān)轉(zhuǎn)換之前改變所述譜數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,其特征在于,把訓(xùn)練語音的多個譜系數(shù)用于匹配,所述方法的特征還在于所述一個或多個參考值包括所述訓(xùn)練語音的譜系數(shù)的平均值。
3.如權(quán)利要求2所述的方法,其特征在于,所述一個或多個參考值還包括所述訓(xùn)練語音的譜系數(shù)的標準偏差。
4.如權(quán)利要求1至3中任一項所述的方法,其特征還在于,所述參數(shù)表示包括所述譜系數(shù)的值的概率分布的平均值。
5.如權(quán)利要求1至3中任一項所述的方法,其特征還在于,所述參數(shù)表示包括所述譜系數(shù)的值的概率分布的標準偏差。
6.如權(quán)利要求1至3中任一項所述的方法,其特征還在于,根據(jù)高斯近似法來獲取所述參數(shù)表示。
7.如權(quán)利要求3所述的方法,其特征在于,所述訓(xùn)練語音的所述譜系數(shù)具有值的另一概率分布,所述方法的特征還在于根據(jù)所述另一個概率分布的高斯近似來獲取所述平均值和所述標準偏差。
8.一種用于具有后端的語音識別系統(tǒng)中的語音識別前端,所述前端從輸入語音中提取語音特征,以便使所述后端可根據(jù)所述提取的特征識別所述輸入語音,所述前端包括對所述輸入語音作出響應(yīng)、用于提供表示在多個時刻的所述輸入語音的數(shù)據(jù)的裝置;用于在頻譜上將所述數(shù)據(jù)轉(zhuǎn)換成具有值的相關(guān)概率分布的多個譜系數(shù)、以便提供表示所述譜系數(shù)的譜數(shù)據(jù)的裝置;以及用于對所述譜系數(shù)執(zhí)行去相關(guān)轉(zhuǎn)換、以便向所述后端提供所述提取的特征的裝置,特征在于對所述譜系數(shù)作出響應(yīng)的裝置,該裝置用于獲取所述譜的值的概率分布的參數(shù)表示,根據(jù)一個或多個參考值修改所述參數(shù)表示,以及根據(jù)所述修改后的參數(shù)表示調(diào)整至少一個所述譜系數(shù),以便在所述去相關(guān)轉(zhuǎn)換執(zhí)行之前改變所述譜數(shù)據(jù)。
9.如權(quán)利要求8所述的前端,其特征在于,把訓(xùn)練語音的多個譜系數(shù)用于匹配,所述系統(tǒng)的特征還在于所述一個或多個參考值包括所述訓(xùn)練語音的所述譜系數(shù)的平均值。
10.如權(quán)利要求9所述的前端,其特征在于,所述一個或多個參考值還包括所述訓(xùn)練語音的所述譜系數(shù)的標準偏差。
11.如權(quán)利要求8至10中任一項所述的前端,其特征還在于所述參數(shù)表示包括所述譜系數(shù)的值的概率分布的平均值。
12.如權(quán)利要求8至10中任一項所述的前端,其特征還在于所述參數(shù)表示包括所述譜系數(shù)的值的概率分布的標準偏差。
13.如權(quán)利要求8至10中任一項所述的前端,其特征還在于,所述參數(shù)表示是根據(jù)高斯近似法獲得的。
14.如權(quán)利要求10所述的前端,其特征在于,所述訓(xùn)練語音的所述譜系數(shù)具有值的另一個概率分布,所述前端的特征還在于根據(jù)所述另一個概率分布的高斯近似來獲取所述平均值和所述標準偏差。
15.一種通信系統(tǒng)中的網(wǎng)元,所述通信系統(tǒng)包括用于從所述網(wǎng)元接收語音數(shù)據(jù)的后端,所述網(wǎng)元包括用于接收輸入語音的話音輸入裝置;以及對所述輸入語音作出響應(yīng)的前端,用于從所述輸入語音提取語音特征,用以提供表示所述語音特征的語音數(shù)據(jù),以便使所述后端可根據(jù)所述語音特征來識別所述輸入語音,其中所述前端包括對所述輸入語音作出響應(yīng)、用以提供表示在多個時刻的所述輸入語音的數(shù)據(jù)的裝置;用于在頻譜上將所述數(shù)據(jù)轉(zhuǎn)換成多個譜系數(shù)、以便提供表示具有值的相關(guān)概率分布的所述譜系數(shù)的譜數(shù)據(jù)的裝置;以及用于對所述譜系數(shù)執(zhí)行去相關(guān)轉(zhuǎn)換、以便提供所述提取的特征的裝置,所述網(wǎng)元的特征在于所述前端還包括對所述譜系數(shù)作出響應(yīng)的裝置,用于獲取所述譜系數(shù)的值的概率分布的參數(shù)表示,根據(jù)一個或多個參考值修改所述參數(shù)表示,以及根據(jù)所述修改后的參數(shù)表示調(diào)整至少一個所述譜系數(shù),以便在所述去相關(guān)轉(zhuǎn)換執(zhí)行之前改變所述譜數(shù)據(jù)。
16.如權(quán)利要求15所述的網(wǎng)元,其特征在于,把訓(xùn)練語音的多個譜系數(shù)用于匹配,所述網(wǎng)元的特征還在于所述一個或多個參考值包括所述訓(xùn)練語音的所述譜系數(shù)的平均值。
17.如權(quán)利要求16所述的網(wǎng)元,其特征還在于所述一個或多個參考值還包括所述訓(xùn)練語音的所述譜系數(shù)的標準偏差。
18.如權(quán)利要求15至17中任一項所述的網(wǎng)元,其特征還在于所述參數(shù)表示包括所述譜系數(shù)的值的概率分布的平均值。
19.如權(quán)利要求15至17中任一項所述的網(wǎng)元,其特征還在于所述參數(shù)表示包括所述譜系數(shù)的值的概率分布的標準偏差。
20.如權(quán)利要求15至17中任一項所述的網(wǎng)元,其特征還在于所述參數(shù)表示是根據(jù)高斯近似法獲得的。
21.如權(quán)利要求17所述的網(wǎng)元,其特征在于,所述訓(xùn)練語音的譜系數(shù)具有值的另一概率分布,所述方法的特征還在于根據(jù)所述另一個概率分布的高斯近似來獲取所述平均值和所述標準偏差。
22.一種在語音識別前端中用于從輸入語音中提取語音特征、以便使語音識別后端可根據(jù)所提取的特征來識別所述輸入語音的計算機程序,其中所述前端包括對所述輸入語音作出響應(yīng)、用以提供表示在多個時刻的所述輸入語音的數(shù)據(jù)的裝置;用于在頻譜上將所述數(shù)據(jù)轉(zhuǎn)換成具有值的相關(guān)概率分布的多個譜系數(shù)、以便提供表示所述譜系數(shù)的譜數(shù)據(jù)的裝置;以及用于對所述譜系數(shù)執(zhí)行去相關(guān)轉(zhuǎn)換、以便提供所述提取的特征的裝置,所述計算機程序的特征在于一種算法,用于產(chǎn)生所述譜系數(shù)的值的概率分布的參數(shù)表示,根據(jù)一個或多個參考值修改所述參數(shù)表示,以及根據(jù)所述修改后的參數(shù)表示調(diào)整至少一個所述譜系數(shù),以便在去相關(guān)轉(zhuǎn)換執(zhí)行之前改變所述譜數(shù)據(jù)。
23.如權(quán)利要求22所述的計算機程序,其中,把訓(xùn)練語音的多個譜系數(shù)用于匹配,所述計算機程序的特征還在于所述一個或多個參考值包括所述訓(xùn)練語音的所述譜系數(shù)的平均值。
24.如權(quán)利要求23所述的計算機程序,其特征還在于所述一個或多個參考值包括所述訓(xùn)練語音的所述譜系數(shù)的標準偏差。
25.如權(quán)利要求22至24中任一項所述的計算機程序,其特征還在于所述參數(shù)表示包括所述譜系數(shù)的值的概率分布的平均值。
26.如權(quán)利要求22至24中任一項所述的計算機程序,其特征還在于所述參數(shù)表示包括所述譜系數(shù)的值的概率分布的標準偏差。
27.如權(quán)利要求22至24中任一項所述的計算機程序,其特征還在于所述參數(shù)表示是根據(jù)高斯近似法獲得的。
28.如權(quán)利要求24所述的計算機程序,其中所述訓(xùn)練語音的系數(shù)具有值的另一個概率分布,所述計算機程序的特征還在于根據(jù)所述另一個概率分布的高斯近似來獲取所述平均值和所述標準偏差。
全文摘要
一種用于提高語音識別中的抗噪聲性的方法,其中,前端用于從輸入語音中提取語音特征,以及提供多個換算的譜系數(shù)。采用高斯近似法將換算的譜系數(shù)的直方圖正態(tài)化成訓(xùn)練集的直方圖。隨后通過去相關(guān)模塊將正態(tài)化的譜系數(shù)轉(zhuǎn)換成一組倒譜系數(shù),并進一步進行倒譜域的特征向量正態(tài)化。
文檔編號G10L15/20GK1650349SQ03809428
公開日2005年8月3日 申請日期2003年4月28日 優(yōu)先權(quán)日2002年4月30日
發(fā)明者H·哈維里寧, I·基斯 申請人:諾基亞有限公司