專利名稱:對(duì)噪聲相對(duì)健全的語音識(shí)別系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及到語音識(shí)別,特別涉及到在噪聲環(huán)境中的特定說話人識(shí)別技術(shù)。
背景技術(shù):
噪聲環(huán)境中的語音識(shí)別是一個(gè)經(jīng)長期研究仍有待解決的任務(wù)。這種任務(wù)的特征是以下參數(shù)1.識(shí)別是因人而異的,由用戶在一個(gè)指定的“訓(xùn)練對(duì)話”中講話的說話語調(diào)產(chǎn)生參考模板;2.希望將訓(xùn)練語調(diào)的數(shù)量減少到最小數(shù)量(1-3),在現(xiàn)有技術(shù)中,這樣能使動(dòng)態(tài)時(shí)間彎曲(DTW)匹配算法比隱藏馬爾可夫模型(HMM)算法更加有效3.要識(shí)別的短語是單字;4.訓(xùn)練階段是相對(duì)低噪聲的,而識(shí)別中需要應(yīng)付附加的環(huán)境噪聲;5.在用戶按下講話(PTT)按鈕開始講話的瞬時(shí)之前,環(huán)境噪聲對(duì)于系統(tǒng)是未知的;6.環(huán)境噪聲同時(shí)具有穩(wěn)態(tài)和非穩(wěn)態(tài)成分;以及7.系統(tǒng)只有有限的快速存取存儲(chǔ)器,不可能以實(shí)時(shí)和字識(shí)別的方式針對(duì)所有參考模板運(yùn)行DTW匹配算法。因而就需要兩階段處理,第一階段是聲音活動(dòng)檢測器(VAD),而第二階段是一個(gè)DTW匹配器。
在識(shí)別階段由噪聲帶來的主要困難有兩個(gè)1.訓(xùn)練和識(shí)別階段之間在聲學(xué)上失配;以及2.在識(shí)別階段中,VAD估算的字終結(jié)點(diǎn)不準(zhǔn)確。
這兩個(gè)問題會(huì)導(dǎo)致識(shí)別誤差。
在現(xiàn)有技術(shù)中有許多針對(duì)聲學(xué)失配問題的技術(shù)。值得一提的是Jean-ClaudeJunqua和Jean-Paul Haton的Robustness in Automatic SpeechRecognition,Kluwer Academic Publishers,1996。Erell等人的美國專利US5,778,342提供了一種技術(shù)。
現(xiàn)有技術(shù)很少涉及到終結(jié)點(diǎn)不準(zhǔn)確的問題。一種解決方案是采取不嚴(yán)格終結(jié)點(diǎn)DTW的形式,可參見下文Lawrence Rabiner和Biing-Hwang Juang的Fundamentals of SpeechRecognition,Prentice Hall,1993;Ilan D.Shallom,Raziel Haimi-Cohen和Tal Golan的“Dynamic TimeWarping with Boundaries Constraint Relaxation”,IEEE Conference inIsrael,1989,pagesl-4;以及Nakadai等人的美國專利US5,732,394。
在普通DTW中,從講話開始到終結(jié)點(diǎn)的頻譜參數(shù)序列被當(dāng)作輸入語言模式來存儲(chǔ)。DTW運(yùn)算用未知的語言模式與每個(gè)參考模板相匹配,并且計(jì)算二者之間的距離值。這是用
圖1A的曲線來執(zhí)行的,可作為簡要的參考。輸入語言模式的各幀被放在X軸上,而現(xiàn)行參考模式的各幀被放在Y軸上。通過曲線做一條從左下角起始到右上角終結(jié)的路徑,將這些角定義為測試和參考語調(diào)的終結(jié)點(diǎn)。
然而,在參照?qǐng)D1B所示的不嚴(yán)格終結(jié)點(diǎn)解決方案中,DTW路徑不僅限于起始或終結(jié)于測試和參考語調(diào)的嚴(yán)格的終結(jié)點(diǎn)。而是這一路徑可以在這些角的一個(gè)給定范圍(delta和Qmax_delta)內(nèi)起始和終結(jié)。這種方法真正消除了終結(jié)點(diǎn)不準(zhǔn)確造成的一些誤差。
然而,不嚴(yán)格終結(jié)點(diǎn)解決方案存在幾個(gè)缺點(diǎn)。作為簡要參考的圖2表示了缺點(diǎn)之一如果有兩個(gè)詞匯字,且一個(gè)字和第二個(gè)字的一部分相似(用圖中標(biāo)有“匹配”的一段來表示),識(shí)別系統(tǒng)就可能錯(cuò)誤地指示第一(較長)字的語調(diào)和第二(較短)字的參考模板匹配。
不嚴(yán)格終結(jié)點(diǎn)方法的其他缺點(diǎn)有別于具體的方法。例如,在Shallom的文章中,需要用路徑長度對(duì)DTW柵格也就是DTW累計(jì)得分上的每一點(diǎn)進(jìn)行規(guī)范化,因?yàn)檫@種不嚴(yán)格的起始點(diǎn)允許有多個(gè)不同長度的路徑。長度規(guī)范化會(huì)帶來標(biāo)準(zhǔn)DTW中不存在的極大的計(jì)算量。另外,由于規(guī)范化,用于最佳匹配路徑的標(biāo)準(zhǔn)DTW解決方案實(shí)際上并不是最佳的。例如在美國專利US5,732,394中計(jì)算量就很大,因?yàn)閷?duì)每一對(duì)測試和參考模式而不只一個(gè)都要執(zhí)行若干次DTW匹配運(yùn)算。
在以下文章中給出了對(duì)不嚴(yán)格終結(jié)點(diǎn)問題的其他解決方案Tom Claes和Dirk Van Compemolle的“SNR-Normalization for RobustSpeech Recognition”,ICASSP96,1996,pages331-334;Vijay Raman和Vidhya Ramanujam的“Robusmess Issues andSolutions in Speech Recognition Based Telephony Services”,ICASSP97,1997,pages1523-1526;以及Olli Viikki和Kari Laurila的“Noise Robust HMM-Based SpeechRecognition Using Segmental Cepstral Feature VectorNormalization”,ESCANATO Workshop on Robust Speech Recognition forUnknown Communication Channels,1997,pages107-110。
這些出版物中的方案是實(shí)時(shí)運(yùn)行在輸入語言上的單級(jí)HMM式系統(tǒng),沒有VAD。為了處理噪聲片段,用噪聲的HMM模型將字的HMM模型連接在兩端,構(gòu)成完整語調(diào)的一個(gè)復(fù)合模型。
上述方案有兩個(gè)缺點(diǎn)(a)對(duì)上述項(xiàng)目(2)到(7)所限定的任務(wù)不能采取這種方案;以及(b)一次的方案在處理聲學(xué)失配時(shí)會(huì)有效率上的損失(問題1),因?yàn)樵谝淮嗡惴ㄖ袥]有噪聲電平的精確信息。這是因?yàn)樽纸K結(jié)點(diǎn)在識(shí)別之前是不確定的,因而就不能從無語音片段中估算噪聲。這種不準(zhǔn)確的噪聲估算會(huì)導(dǎo)致識(shí)別誤差。
在B.Patrick Landell,Robert E.Wohlford和Lawrence G.Bahler的名為“ Improved Speech Recognition in Noise”,ICASSP86,TOKYO,1986,pages749-751的文章中提出了另一種現(xiàn)有技術(shù)的方法,在一個(gè)DTW式系統(tǒng)中也使用了連接的噪聲-語音-噪聲模型。同樣,這種想法是采用加在語音模板上的噪聲模板并且用完整語調(diào)匹配連接的模板,從而在DTW匹配中避免使用終結(jié)點(diǎn)。另外,為了對(duì)付聲學(xué)失配問題而做這樣的假設(shè),在語調(diào)開始之前,系統(tǒng)已經(jīng)對(duì)噪聲有所了解,因此,在開始匹配處理之前,參考模板就可以適應(yīng)噪聲。
在Landell等人的文章中沒有提到噪聲模板是如何構(gòu)成的以及如何針對(duì)連接的噪聲-語音-噪聲模板實(shí)現(xiàn)DTW匹配。與HMM的直截了當(dāng)?shù)姆椒ú煌?,它在DTW中是一種間接的問題,因?yàn)镈TW隊(duì)列限制是嚴(yán)格的,但是仍然沒有關(guān)于噪聲模板持續(xù)時(shí)間的準(zhǔn)確知識(shí),因?yàn)樵谡f話人按下PTT之后說出這個(gè)字時(shí)對(duì)噪聲還是一無所知的。
另外,Landell等人的文章假設(shè)在說話人按下PTT按鈕之前可以用以往觀測到的噪聲來估算噪聲聲學(xué)特征。按照Landell等人為空軍飛機(jī)座艙所設(shè)計(jì)的系統(tǒng),這種環(huán)境中的噪聲是相當(dāng)恒定的,因此,這種方式可能就足夠了。然而,如果噪聲是變化的,例如是在按常規(guī)使用移動(dòng)電話時(shí)遇到的噪聲,這種過去的估算往往是不準(zhǔn)確的,并且會(huì)導(dǎo)致識(shí)別誤差。
在所有語音識(shí)別應(yīng)用中,例如是按姓名語音撥號(hào),要排斥會(huì)導(dǎo)致錯(cuò)誤識(shí)別的不成詞匯或是發(fā)音不準(zhǔn)的語調(diào)是很重要的。這通常是通過設(shè)置一個(gè)識(shí)別得分(例如DTW或HMM得分)的門限來完成的,也就是說,只有得分與門限相比足夠大時(shí)才采納這一識(shí)別結(jié)果。
如果不同時(shí)犧牲一些對(duì)構(gòu)成詞匯、正確發(fā)音的語調(diào)的排斥,往往就難以有效地排斥不成詞匯或錯(cuò)誤發(fā)音的語調(diào)。其困難在于最佳匹配得分值的變化很大?,F(xiàn)有技術(shù)中用來改善HMM系統(tǒng)排斥能力的已知方法主要包括采用一種“通用語音”模板(可參見上文所述的Raman的文章,美國專利US5,732,394及Richard C.Rose和Douglas B.Paul的文章“A HiddenMarkov Model Based Keyword RecognitionSystem”,ICASSP’90,1990,page129)。或者是例如Herve Bourlard,BartD’hoore和Jean-Marc Boite在文章“Optimizing Recognition and RejectionPerformancein Wordspotting Systems”,ICASSP'94,1994,page1-373中所述,采用門限代替選擇模板可以改善排斥能力。
盡管這種得分規(guī)范化方法在一定程度上對(duì)由于特定語調(diào)減少造成的可變性是有效的,仍然存在由于環(huán)境可變性造成的問題。測試語調(diào)和模板之間的匹配在噪聲條件下肯定要比在安靜條件下的匹配差。由此就會(huì)給排斥機(jī)制帶來一個(gè)問題。假設(shè)是按照在安靜條件下排斥不成詞匯的字和對(duì)構(gòu)成詞匯的字的錯(cuò)誤檢測兩者之間的最佳折衷來設(shè)置規(guī)范化得分的排斥門限。但是,在噪聲條件下,這種折衷有可能并不是最佳的。在這種情況下就可能要放松門限,以便減少對(duì)構(gòu)成詞匯的字的錯(cuò)誤檢測的數(shù)量,即使要犧牲一些對(duì)不成詞匯的字的排斥能力。
解決這一問題的辦法是讓門限適應(yīng)聲學(xué)條件,例如美國專利US5,778,342中所述將門限作為信噪比的函數(shù)。這種辦法需要根據(jù)沒有語音的波形段估算噪聲,這樣就需要知道語音終結(jié)點(diǎn),而所知的終結(jié)點(diǎn)又不夠精確。例如,如果干擾噪聲是一種和語音局部重疊的短脈沖,VAD就可能將這種脈沖錯(cuò)誤地識(shí)別成語音的一部分。而超過終結(jié)點(diǎn)的信號(hào)不會(huì)包含噪聲脈沖,SNR估算器就會(huì)過高地估計(jì)SNR,導(dǎo)致排斥門限不合適。
在特定說話人系統(tǒng)中還有另一個(gè)可變性得分的來源,允許用戶記錄一個(gè)字或是兩個(gè)連接的字。例如在按姓名用語音起動(dòng)的撥號(hào)中,用戶可以記錄姓、名或是全名。在前兩種情況下,語調(diào)中包含一個(gè)字,而后一種情況下則包含兩個(gè)字。雙字語調(diào)在發(fā)音時(shí)往往具有更多的變化(例如兩個(gè)字之間停頓的時(shí)間會(huì)有明顯變化),因此,DTW或HMM匹配得分就會(huì)和單字語調(diào)的發(fā)音有所不同。例如,在標(biāo)準(zhǔn)DTW系統(tǒng)中,單字發(fā)音的得分往往比雙字語調(diào)要高。(這就說明即使DTW評(píng)分是按照DTW路徑長度對(duì)累計(jì)得分進(jìn)行規(guī)范化,雙字語調(diào)也要比單字長)。這樣就會(huì)造成排斥機(jī)制上的問題,因?yàn)殡p字語調(diào)比單字語調(diào)更容易被排斥。這種過分排斥從性能的觀點(diǎn)來看是不“合理”的,因?yàn)椴怀稍~匯的雙字語調(diào)不象單字語調(diào)那樣容易被采納。
發(fā)明概述本發(fā)明的目的是要提供一種對(duì)噪聲相對(duì)健全的特定說話人語音識(shí)別系統(tǒng)及方法。
本發(fā)明的目的是提供一種方法,在說話語調(diào)附近用參考模板適應(yīng)根據(jù)輸入聲音估算的噪聲信號(hào),并且在這樣一種適應(yīng)噪聲的參考模板上改編DTW操作。
按照本發(fā)明的實(shí)施例提供了一種語音識(shí)別系統(tǒng),它包括語言符號(hào)編制器,噪聲估算器,模板填充器(padder),噪聲適配器和一個(gè)動(dòng)態(tài)時(shí)間彎曲(DTW)單元。語言符號(hào)編制器產(chǎn)生代表一個(gè)輸入測試語調(diào)和輸入測試語調(diào)前、后的至少一幀的一個(gè)展寬的測試語言符號(hào)。用噪聲估算器估算展寬的測試語言符號(hào)的噪聲量。模板填充器用參考模板開頭或結(jié)尾的至少一個(gè)空白幀填充各個(gè)參考模板。噪聲適配器用噪聲量適配每一個(gè)填充的參考模板,從而產(chǎn)生具有噪聲幀的適應(yīng)噪聲的參考模板,隨便空白幀原先在哪里,在講話時(shí)讓噪聲適應(yīng)語音。DTW單元將展寬的語言符號(hào)和一個(gè)噪聲適配的參考模板相比較,執(zhí)行噪聲適配DTW操作,在與一個(gè)噪聲幀相比較時(shí),不使用持續(xù)時(shí)間的限制。本發(fā)明還包括用這種系統(tǒng)所執(zhí)行的方法。
另外,按照本發(fā)明的最佳實(shí)施例,估算器包括一個(gè)噪聲平均器,它通過對(duì)展寬的語言符號(hào)的低能量幀取平均值來估算噪聲結(jié)構(gòu)。估算器還可以包括一個(gè)能量平均器,它通過對(duì)展寬的語言符號(hào)的高能量幀的能量級(jí)取平均值來估算峰值能量。
進(jìn)而,按照本發(fā)明的最佳實(shí)施例,噪聲適配器包括一個(gè)增益單元和/或一個(gè)調(diào)節(jié)器。增益單元為填充的參考模板提供一個(gè)與展寬的測試語言符號(hào)的峰值能量和平均噪聲能量之差有關(guān)的峰值能量級(jí)。調(diào)節(jié)器通過加入噪聲來調(diào)節(jié)增益提升的參考模板,從而產(chǎn)生適應(yīng)噪聲的參考模板。
另外,按照本發(fā)明的最佳實(shí)施例,系統(tǒng)中包括一個(gè)決定單元,用來決定許多參考模板中哪一個(gè)與輸入測試語調(diào)最匹配。
再有,按照本發(fā)明的最佳實(shí)施例,決定單元包括一個(gè)用來確定語音得分(Epd_Score)的得分確定器,得分是成功路徑中累計(jì)得分的部分,它僅僅涉及到按照路徑長度規(guī)范化的語音幀,而這一路徑僅僅是比較語音幀。
進(jìn)而,按照本發(fā)明的最佳實(shí)施例,得分確定器包括一個(gè)規(guī)范器,按照一個(gè)平均得分Av_Score來規(guī)范語音得分Epd_Score。平均得分Av_Score可以是一個(gè)先驗(yàn)平均得分和成功型模板的不成功模板的得分的函數(shù)。它也可以是信噪比的函數(shù)。確定器中可以包括一個(gè)校正器,用信噪比和/或長度校正函數(shù)來校正規(guī)范化的語音得分。
附圖簡述依照以下結(jié)合附圖的詳細(xì)說明就能理解和更加充分地認(rèn)識(shí)本發(fā)明,在附圖中圖1A,1B和2是現(xiàn)有技術(shù)的動(dòng)態(tài)時(shí)間彎曲(DTW)操作中的三種不同的示意圖;圖3的框圖表示按照本發(fā)明的一個(gè)最佳實(shí)施例構(gòu)成和工作的一種語音識(shí)別器;
圖4的示意圖表示用來解釋本發(fā)明工作方式的測試語調(diào)中的能量;圖5A的示意圖表示一個(gè)測試語調(diào)和兩個(gè)額外的空白幀,可用來解釋本發(fā)明的工作方式;圖5B的示意圖表示圖5A的信號(hào)的一種噪聲適配方案,可用來解釋本發(fā)明的工作方式;圖6的框圖表示構(gòu)成圖3所示系統(tǒng)中一部分的噪聲和峰值能量估算器;圖7的示意圖表示本發(fā)明的噪聲適配DTW運(yùn)算;圖8A,8B和8C的示意圖表示以前的平均得分,SNR校正和長度校正曲線,可用來解釋本發(fā)明的工作方式。
發(fā)明詳述參見圖3所示的本發(fā)明的系統(tǒng)。該系統(tǒng)包括一個(gè)特征提取器50,特征緩沖器52,聲音活動(dòng)檢測器(VAD)54,模板數(shù)據(jù)庫56,兩個(gè)特征變換器58A和58B,一個(gè)比較單元60和一個(gè)決定單元62。按照本發(fā)明的最佳實(shí)施例,比較單元62是一個(gè)噪聲適配的動(dòng)態(tài)時(shí)間彎曲(DTW)單元,并且該系統(tǒng)還包括一個(gè)模板填充器64,一個(gè)寬語言符號(hào)編制器66,一個(gè)噪聲和峰值能量估算器68,和一個(gè)增益及增益和噪聲適配器70,以下會(huì)一一具體描述。
在工作中,特征提取器50提取諸如每一幀輸入信號(hào)的自動(dòng)校正系數(shù)或?yàn)V波器組能量等等特征,并且將其提供給聲音活動(dòng)檢測器54和特征緩沖器52。緩沖器52按照幀的順序存儲(chǔ)每一幀的特征,按照預(yù)定長度的時(shí)間保留這些幀的記錄。聲音活動(dòng)檢測器54可以采用任何適當(dāng)?shù)臋z測器,例如是G729B靜默壓縮方案中的一種,它可以確定講話開始和結(jié)束的幀。將這些終結(jié)點(diǎn)提供給語言符號(hào)編制器66,從緩沖器52中提取一個(gè)寬語言符號(hào)。
以下簡要地參照?qǐng)D4,圖中表示存儲(chǔ)在緩沖器52中的數(shù)據(jù)。具體地說,圖4描繪了每一幀的第一自動(dòng)校正系數(shù),并且表示由聲音活動(dòng)檢測器54指示的終結(jié)點(diǎn)。標(biāo)準(zhǔn)的語言符號(hào)被定義為終結(jié)點(diǎn)之間的一組幀。按照本發(fā)明的最佳實(shí)施例,寬語言符號(hào)編制器66還要從標(biāo)準(zhǔn)語言符號(hào)的某一側(cè)提取X幀,典型的X值是8。這樣,寬語言符號(hào)就包括VAD起始點(diǎn)之前的X幀到VAD終結(jié)點(diǎn)之后的X幀。利用這些額外的幀來克服聲音活動(dòng)檢測器54帶來的任何誤差,特別是那些由于VAD估算的終結(jié)點(diǎn)不準(zhǔn)確造成的誤差。
參見圖3,寬語言符號(hào)具備特征變換器58A及噪聲和峰值能量估算器68。特征變換器58A將寬語言符號(hào)的特征變換成DTW單元60所需的倒頻譜特征。從一種特征到另一種特征的變換是公知的,因而無需在此進(jìn)一步解釋。
噪聲和峰值能量估算器68確定寬語言符號(hào)中的噪聲結(jié)構(gòu)和峰值能量等級(jí)。將其提供給增益和噪聲適配器70,以便用類似于寬語言符號(hào)中找到的噪聲結(jié)構(gòu)和增益等級(jí)來提供無噪聲的模板。
按照本發(fā)明的最佳實(shí)施例,無噪聲模板在與合適的增益等級(jí)和噪聲結(jié)構(gòu)適配之前在某一端用一個(gè)空白幀填充;這是由模板填充器64來執(zhí)行的。填充和適配工作由可供簡要參照的圖5A和5B來表示。圖5A表示用信號(hào)70的某一端帶有空白幀72(其中沒有信號(hào))的無噪聲模板代表的信號(hào)70。在噪聲和增益適配之后,清白的信號(hào)70變成了有噪聲的信號(hào)74,而空白幀72變成了有噪聲的幀76。為了匹配寬語言符號(hào),增益等級(jí)通常也要改變。
再參見圖3,寬并且經(jīng)過噪聲/增益適配的模板被提供給特征變換器58B,變換成DTW單元60所需的倒頻譜特征。后者將表現(xiàn)的寬語言符號(hào)與表現(xiàn)的每一個(gè)寬并且經(jīng)過噪聲/增益適配的模板相比較,并且為每一次比較提供一個(gè)得分。將結(jié)果提供給決定單元62,由它通過一定的措施來確定哪一個(gè)比較最好。
以下參見圖6,它表示噪聲和峰值能量估算器68的工作方式??梢圆捎萌魏芜m當(dāng)?shù)哪芰亢驮肼暯Y(jié)構(gòu)估算方式;圖6所示的方法假設(shè)每一幀的特征是自動(dòng)校正系數(shù),其中的第一系數(shù)用R0表示,并且代表這一幀中的能量等級(jí)。
為了確定噪聲結(jié)構(gòu),僅有具備最低能量的寬語言符號(hào)幀才子以考慮,并且用來計(jì)算一個(gè)平均噪聲特征。為了找到具有最低能量的幀,要按照增加能量值R0對(duì)這些幀分類(步80),并且要按照能量值的順序從最低到最高存儲(chǔ)具有最低能量值R0的N個(gè)幀,典型的N是10。然后從具有最低能量值R0的第一幀開始逐漸向上回顧這N個(gè)幀,直至到達(dá)能量等級(jí)比最低能量值高出預(yù)定系數(shù)K例如是3dB的一幀M。其算式可以表示為find Mfor which R0(M)>K R0(1)然后根據(jù)第一M-1自動(dòng)校正矢量(也就是幀1到幀M-1)確定噪聲特征(步84)。例如,可以將M-1個(gè)自動(dòng)校正矢量放在一起取平均值。然后根據(jù)所得的噪聲特征來確定噪聲能量R0n。
峰值能量估算也是按照類似的方法確定的,但是要考慮到具有最高能量的幀。為了找出具有最高能量的幀,通過遞減能量值R0對(duì)這些幀分類(步86),然后從具有最高能量值的頂上的一幀R0(top)開始回顧頂上的N個(gè)幀(步88),并且逐漸下移直到能量等級(jí)比最高能量值降低了預(yù)定系數(shù)C例如是0.5dB的一幀Q。其算式可以表示為find Q for which R0(Q)<C R0(top)然后將峰值能量R0(峰值)確定為頂上的Q-1個(gè)能量值R0的平均值。值得注意的是,由這一運(yùn)算來產(chǎn)生展寬的測試語言符號(hào)的測試峰值能量R0t。對(duì)每一個(gè)參考模板按照脫線的類似運(yùn)算方式來產(chǎn)生參考峰值能量R0r。將后者存儲(chǔ)在模板數(shù)據(jù)庫56中(圖3)。
再參見圖3,增益和噪聲適配器70分別采用噪聲特征及測試和參考峰值能量R0t和R0r來適配填充的無噪聲模板。在這種特征是自動(dòng)校正函數(shù)(ACF)的情況下,美國專利US5,778,342描述了一種采用平均值而不是峰值能量的變換方式。本發(fā)明的變換方式是Rr’=(<R0t>-<R0n>)/<R0r>×Rr+<Rn>
這其中Rr=參考ACF矢量[R0…R10]<Rn>=估算的噪聲ACF矢量<R0t>=估算的測試峰值能量<R0r>=估算的參考峰值能量<R0n>=估算的噪聲能量=<Rn(0)>
Rr’=噪聲和增益適配的參考ACF矢量[R’0…R’10]也可以采用其他變換方式,以濾波器組能量為特征,例如B.A.Mellor和A.P.Varga在ICASSP’93,1993,pp.II-87-II90發(fā)表的文章“Noise Maskingin a Transform Domain”和US4,933,976中所述。
從中可以看出,上述公式和噪聲適配一道執(zhí)行增益適配,由參考模板接收峰值能量等級(jí),它相當(dāng)于用參考峰值能量R0r規(guī)范化的沒有噪聲能量的測試峰值能量(R0t-R0n)。必要時(shí)也可以單獨(dú)執(zhí)行增益適配,或者是完全不執(zhí)行。
噪聲適配的DTW單元60將包括語音和來自兩側(cè)的噪聲的展寬的測試語調(diào)和一個(gè)噪聲適配的模板相比較。參見圖7,圖中表示DTW柵格和一個(gè)采樣路徑。(Y軸上)第一和最末的幀是用測試語調(diào)的低能量幀估算的“噪聲”幀,而展寬的語言符號(hào)在X軸上。
無論在路徑中的何處比較測試語言符號(hào)幀和無噪聲幀,本發(fā)明都是用標(biāo)準(zhǔn)隊(duì)列限制來執(zhí)行標(biāo)準(zhǔn)DTW操作。然而,如果在某一位置上和一個(gè)參考噪聲幀相比較,就沒有時(shí)間限制。這就意味著路徑只能水平地向右移動(dòng)一個(gè)不受限制的幀數(shù),或者是與右側(cè)一幀和上面一幀對(duì)稱地移動(dòng)。這種方式對(duì)可以對(duì)準(zhǔn)噪聲幀的展寬的測試邊沿上的幀數(shù)沒有限制。
按照DTW的標(biāo)準(zhǔn),對(duì)參考模板的得分w-score是成功路徑的累計(jì)得分,包括按照全累計(jì)長度規(guī)范化的噪聲幀。語音得分Epd-Score是成功路徑這部分累計(jì)的得分,它僅僅是按照僅僅比較語音幀的路徑長度規(guī)范化的語音幀(不包括噪聲幀)的得分。
再參見圖3,決定單元62根據(jù)整個(gè)路徑的TDW得分w-score來確定最佳匹配,此處的最佳模板被定義為得分最小的模板,然而,最佳模板也不一定能提供好的結(jié)果。這時(shí),決定單元62還要根據(jù)最佳匹配模板的語音得分Epd-Score,對(duì)所有其它模板的平均得分,以及作為最佳模板加工后的測試語調(diào)的SNR及其長度的函數(shù)的校正項(xiàng)目來確定是否采納或是排斥這一結(jié)果。
通過規(guī)范化的方式,在對(duì)所有其它模板的平均得分的基礎(chǔ)上,Epd Score必須明顯地小于平均得分。從這一點(diǎn)來看,可以將平均得分作為通用語音的模型,類似于現(xiàn)有技術(shù)的HMM系統(tǒng)中采用的模型。如果模板的詞匯量足夠大,平均得分就能很好地反映對(duì)一個(gè)通用語音模板的得分。然而,在具有用戶產(chǎn)生的詞匯量的特定說話人識(shí)別系統(tǒng)中,詞匯量可能只有幾個(gè)字,因此,對(duì)所有其它模板的平均得分不能很好地反映對(duì)一個(gè)通用語音模板的得分。為此,計(jì)算的平均得分是通過模擬確定的一個(gè)先驗(yàn)值和實(shí)際平均得分的混合物。這種混合能防止平均得分過小或是過大??晒┖喴獏⒄盏膱D8A表示一種先驗(yàn)的平均得分,它是一個(gè)片段SNR即SegSNR的函數(shù),這一函數(shù)是通過在一個(gè)大數(shù)據(jù)庫的基礎(chǔ)上進(jìn)行模擬而確定的。從圖8A中可以看出,先驗(yàn)的平均得分隨著片段SNR的增大而減小。
片段SNR是測試語調(diào)在DTW所獲得的終結(jié)點(diǎn)之間的信噪比,而終結(jié)點(diǎn)是根據(jù)與最佳模板Best Template的匹配來確定的。具體地說,終結(jié)點(diǎn)是指向最佳模板Best Template的DTW路徑上的那些測試語調(diào)幀,這一路徑的入口是第一參考語音幀(或者說出口是最后一個(gè)參考語音幀)。片段SNR即SegSNR是DTW獲得的終結(jié)點(diǎn)之間的測試語調(diào)的平均記錄能量,它小于終結(jié)點(diǎn)外側(cè)的測試語調(diào)的平均記錄能量。
如果規(guī)范化得分Norm Score小于一個(gè)門限等級(jí)Th,采納/排斥算法就采納這一最佳匹配結(jié)果。規(guī)范化得分被定義為由兩個(gè)校正值校正的最佳得分Best Score與平均得分Av_Score的比值,一個(gè)校正值是信號(hào)對(duì)噪聲(SNR_corr),另一個(gè)是長度(length_corr),算式如下Norm_Score=Best_Score/Av_Score-SNR_corr-length_corr最佳得分是對(duì)最佳模板Best_Template的Epd_Score值。
平均得分是基于這樣兩個(gè)值a_priori_av_score(SegSNR)和Sum_Score。先驗(yàn)平均得分是利用片段SNR值SegSNR從圖8A的先驗(yàn)平均得分函數(shù)中選擇的,Sum_Score是對(duì)不能與最佳模板的字匹配的那些詞匯中的字的P個(gè)模板的語音得分Epd_Score之和。這樣,連接作為最佳模板的同一個(gè)字的最佳模板和其它模板不被用來產(chǎn)生Sum_Score。
平均得分的具體定義是Av_Score=(w1(a_priori_av_score(SegSNR)+Sum_Score)/(w1+P)式中的w1是a_priori_av_score的加權(quán)。
SNR校正值SNR_corr是片段SNR的一個(gè)由參數(shù)控制的分段線性函數(shù)。參數(shù)SNR1和SNR2是根據(jù)一個(gè)大語音數(shù)據(jù)通過實(shí)驗(yàn)確定的。參數(shù)“Delta Score”被留做一個(gè)調(diào)節(jié)參數(shù),以滿足特定的應(yīng)用。例如,如果將delta_score設(shè)置為零,就根本沒有SNR校正。在這種情況下,在有噪聲的條件下可以象安靜條件下一樣排斥不成詞匯的字,其代價(jià)是會(huì)明顯地增加對(duì)構(gòu)成詞匯的字的排斥。在其它極端情況下,可以這樣來設(shè)置“Delta Score”值,讓有噪聲條件下對(duì)構(gòu)成詞匯的字的排斥比例接近于安靜條件下的排斥比例,其代價(jià)是被排斥的不成詞匯的字很少。最佳方案可能是采用一個(gè)中間值,在兩種要求之間取得折衷。
長度校正值length_corr是可供簡要參照的圖8C所示的一種由參數(shù)控制的測試語調(diào)長度的分段線性函數(shù)。這些參數(shù)是由圖8中用來確定所有參數(shù)的大語音數(shù)據(jù)庫通過實(shí)驗(yàn)來確定的。
本發(fā)明并非僅限于本文所述的具體實(shí)施例,這對(duì)于本領(lǐng)域的技術(shù)人員是顯而易見的。本發(fā)明的范圍可以由權(quán)利要求書來確定。
按照條約第19條的修改1.一種語音識(shí)別方法,其包括以下步驟產(chǎn)生一個(gè)展寬的測試語言符號(hào),它代表一個(gè)輸入測試語調(diào)和上述輸入測試語調(diào)前、后的至少一幀;估算上述展寬的測試語言符號(hào)的噪聲量;至少在每個(gè)參考模板的開頭或是結(jié)尾用至少一個(gè)空白幀填充多個(gè)上述參考模板;用每個(gè)上述填充的參考模板適配上述噪聲量,上述適配包括估算上述參考模板和上述展寬的測試語言符號(hào)的峰值能量;提高上述填充的參考模板的等級(jí),使其峰值能量等級(jí)等于上述展寬的測試語言符號(hào)的上述峰值能量與一個(gè)平均噪聲能量之差;以及通過添加上述噪聲來調(diào)整上述提高增益的參考模板,并且執(zhí)行噪聲適配的DTW運(yùn)算,將上述展寬的語言符號(hào)與上述噪聲適配的參考模板之一相比較,在和一個(gè)上述噪聲幀相比較時(shí)不采用時(shí)間限制。
2.按照權(quán)利要求1的方法,其特征是上述估算峰值能量的步驟包括對(duì)上述展寬的語言符號(hào)的高能量幀的能量等級(jí)取平均值,從中估算上述峰值能量。
3.一種語音識(shí)別系統(tǒng),其包括語言符號(hào)編制器,用來產(chǎn)生代表一個(gè)輸入測試語調(diào)和上述輸入測試語調(diào)前、后的至少一幀的一個(gè)展寬的測試語言符號(hào);噪聲估算器,用來估算展寬的測試語言符號(hào)的噪聲量;模板填充器,用參考模板開頭或結(jié)尾的至少一個(gè)空白幀填充各個(gè)參考模板;噪聲適配器,用上述噪聲量適配每一個(gè)上述填充的參考模板,上述噪聲適配器包括
峰值能量估算器,用來估算上述參考模板和上述展寬的測試語言符號(hào)的峰值能量;增益單元,用于將上述填充的參考模板提高一個(gè)等級(jí),使其峰值能量等于上述展寬的測試語言符號(hào)的上述峰值能量和平均噪聲能量之差;以及一個(gè)調(diào)節(jié)器,通過加入上述噪聲來調(diào)節(jié)上述增益提高的參考模板,從而產(chǎn)生噪聲適配的參考模板;以及一個(gè)DTW單元,用來執(zhí)行噪聲適配DTW操作,將上述展寬的語言符號(hào)和一個(gè)上述噪聲適配的參考模板相比較,在與一個(gè)上述噪聲幀相比較時(shí),不使用持續(xù)時(shí)間的限制。
4.按照權(quán)利要求3的系統(tǒng),其特征是上述峰值估算器包括一個(gè)峰值能量平均器,對(duì)上述展寬的語言符號(hào)的高能量幀的能量等級(jí)取平均值,從中估算上述峰值能量。
權(quán)利要求
1.一種語音識(shí)別方法,其包括以下步驟產(chǎn)生一個(gè)展寬的測試語言符號(hào),它代表一個(gè)輸入測試語調(diào)和上述輸入測試語調(diào)前、后的至少一幀;估算上述展寬的測試語言符號(hào)的噪聲量;至少在每個(gè)參考模板的開頭或是結(jié)尾用至少一個(gè)空白幀填充多個(gè)上述參考模板;用每個(gè)上述填充的參考模板適配上述噪聲量,從而產(chǎn)生噪聲適配的參考模板,隨便空白幀原先在哪里,在講話時(shí)讓噪聲適應(yīng)語音;以及執(zhí)行噪聲適配的DTW運(yùn)算,將上述展寬的語言符號(hào)和上述噪聲適配的參考模板之一相比較,在和一個(gè)上述噪聲幀相比較時(shí)不采用時(shí)間限制。
2.按照權(quán)利要求1的方法,其特征是上述估算噪聲量的步驟中包括以下步驟,對(duì)上述展寬的語言符號(hào)的低能量幀取平均值,從中估算噪聲結(jié)構(gòu)。
3.按照權(quán)利要求2的方法,其特征是上述適配步驟中包括以下步驟,通過添加上述噪聲來調(diào)整上述參考模板,從而產(chǎn)生上述噪聲適配的參考模板。
4.按照權(quán)利要求2的方法,其特征是上述適配步驟還包括以下步驟估算上述參考模板和上述展寬的測試語言符號(hào)的峰值能量;提高上述填充的參考模板的等級(jí),使其峰值能量等級(jí)等于上述展寬的測試語言符號(hào)的上述峰值能量與一個(gè)平均噪聲能量之差;以及通過添加上述噪聲來調(diào)整上述提高增益的參考模板,從而產(chǎn)生上述噪聲適配的參考模板。
5.按照權(quán)利要求4的方法,其特征是上述估算峰值能量的步驟包括以下步驟,對(duì)上述展寬的語言符號(hào)的高能量幀的能量等級(jí)取平均值,從中估算上述峰值能量。
6.按照權(quán)利要求1的方法,其特征是還包括一個(gè)決定步驟,決定多個(gè)參考模板當(dāng)中哪一個(gè)能最佳匹配上述輸入測試語調(diào)。
7.按照權(quán)利要求6的方法,其特征是上述決定步驟中包括以下步驟,確定一個(gè)語音得分Epd_Score,它是成功路徑中累計(jì)得分的部分,它僅僅涉及到按照路徑長度規(guī)范化的語音幀,而這一路徑僅僅是比較語音幀。
8.按照權(quán)利要求7的方法,其特征是上述決定步驟中包括以下步驟,用一個(gè)平均得分Av_Score來規(guī)范語音得分Epd_Score。
9.按照權(quán)利要求8的方法,其特征是上述平均得分Av_Score是一個(gè)先驗(yàn)平均得分和成功型模板中的不成功模板的得分的函數(shù)。
10.按照權(quán)利要求9的方法,其特征在于先驗(yàn)平均得分是信噪比的函數(shù)。
11.按照權(quán)利要求8的方法,其特征是還包括一個(gè)校正步驟,用一個(gè)信號(hào)對(duì)噪聲校正函數(shù)來校正規(guī)范化的語音得分。
12.按照權(quán)利要求8的方法,其特征是還包括一個(gè)校正步驟,用一個(gè)長度校正函數(shù)來校正規(guī)范化的語音得分。
13.按照權(quán)利要求8的方法,其特征是還包括一個(gè)校正步驟,用一個(gè)信號(hào)對(duì)噪聲和長度校正函數(shù)來校正規(guī)范化的語音得分。
14.一種語音識(shí)別系統(tǒng),其包括語言符號(hào)編制器,用來產(chǎn)生代表一個(gè)輸入測試語調(diào)和上述輸入測試語調(diào)前、后的至少一幀的一個(gè)展寬的測試語言符號(hào);噪聲估算器,用來估算展寬的測試語言符號(hào)的噪聲量;模板填充器,用參考模板開頭或結(jié)尾的至少一個(gè)空白幀填充各個(gè)參考模板;噪聲適配器,用上述噪聲量適配每一個(gè)上述填充的參考模板,從而產(chǎn)生具有噪聲幀的噪聲適配的參考模板,隨便空白幀原先在哪里,在講話時(shí)讓噪聲適配語音;以及一個(gè)DTW單元,將上述展寬的語言符號(hào)和一個(gè)上述噪聲適配的參考模板相比較,執(zhí)行噪聲適配DTW操作,在與一個(gè)上述噪聲幀相比較時(shí),不使用持續(xù)時(shí)間的限制。
15.按照權(quán)利要求14的系統(tǒng),其特征是上述估算器包括一個(gè)噪聲平均器,用于對(duì)展寬的語言符號(hào)的低能量幀取平均值,從中估算噪聲結(jié)構(gòu)。
16.按照權(quán)利要求15的系統(tǒng),其特征是上述噪聲適配器包括一個(gè)調(diào)節(jié)器,通過加入上述噪聲來調(diào)節(jié)上述參考模板,產(chǎn)生上述噪聲適配的參考模板。
17.按照權(quán)利要求15的系統(tǒng),其特征是上述噪聲適配器包括峰值能量估算器,用來估算上述參考模板和上述展寬的測試語言符號(hào)的峰值能量;增益單元,用于將上述填充的參考模板提高一個(gè)等級(jí),使其峰值能量等于上述展寬的測試語言符號(hào)的上述峰值能量和平均噪聲能量之差;以及一個(gè)調(diào)節(jié)器,通過加入上述噪聲來調(diào)節(jié)上述增益提高的參考模板,從而產(chǎn)生上述噪聲適配的參考模板。
18.按照權(quán)利要求17的系統(tǒng),其特征是上述峰值能量估算器還包括一個(gè)峰值能量平均器,用來對(duì)上述展寬的語言符號(hào)的高能量幀的能量級(jí)取平均值,從中估算上述峰值能量。
19.按照權(quán)利要求14的系統(tǒng),其特征是包括一個(gè)決定單元,用來決定許多參考模板中哪一個(gè)與上述輸入測試語調(diào)最匹配。
20.按照權(quán)利要求19的系統(tǒng),其特征是上述決定單元包括一個(gè)用來確定語音得分Epd_Score的得分確定器,得分是成功路徑中累計(jì)得分的部分,它僅僅涉及到按照路徑長度規(guī)范化的語音幀,而這一路徑僅僅是比較語音幀。
21.按照權(quán)利要求20的系統(tǒng),其特征是上述得分確定器包括一個(gè)規(guī)范器,按照一個(gè)平均得分Av_Score來規(guī)范語音得分Epd_Score。
22.按照權(quán)利要求21的系統(tǒng),其特征是平均得分Av_Score是一個(gè)先驗(yàn)平均得分和成功型模板的不成功模板的得分的函數(shù)。
23.按照權(quán)利要求22的系統(tǒng),其特征在于先驗(yàn)平均得分是信噪比的函數(shù)。
24.按照權(quán)利要求21的系統(tǒng),其特征是還包括一個(gè)校正器,用一個(gè)信號(hào)對(duì)噪聲校正函數(shù)來校正規(guī)范化的語音得分。
25.按照權(quán)利要求21的系統(tǒng),其特征是還包括一個(gè)校正器,用一個(gè)長度校正函數(shù)來校正規(guī)范化的語音得分。
26.按照權(quán)利要求21的系統(tǒng),其特征是還包括一個(gè)校正器,用一個(gè)信號(hào)對(duì)噪聲和長度校正函數(shù)來校正規(guī)范化的語音得分。
全文摘要
語音識(shí)別采用一個(gè)寬語言符號(hào)編制器(66),增益和噪聲適配器(70)和一種噪聲適配的動(dòng)態(tài)時(shí)間彎曲(60)。寬語言符號(hào)編制器產(chǎn)生用輸入測試語調(diào)前、后的至少一個(gè)空白幀擴(kuò)展的一個(gè)填充的測試語言符號(hào)。增益和噪聲適配器用噪聲和增益量適配每一個(gè)填充的參考模板,產(chǎn)生具有噪聲幀的適配的參考模板,隨便空白幀原先在哪里,在講話時(shí)讓噪聲適配語音。在噪聲適配的模板上執(zhí)行動(dòng)態(tài)時(shí)間彎曲(DTW)。
文檔編號(hào)G10L15/20GK1335978SQ00802564
公開日2002年2月13日 申請(qǐng)日期2000年1月3日 優(yōu)先權(quán)日1999年1月6日
發(fā)明者阿多姆·艾瑞爾 申請(qǐng)人:D.S.P.C.科技有限公司