專(zhuān)利名稱(chēng):聲音識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及傳輸系統(tǒng)等中抗噪聲和失真干擾的聲音識(shí)別系統(tǒng)。
背景技術(shù):
在傳統(tǒng)技術(shù)中,在例如包含在汽車(chē)中的導(dǎo)航儀器等那樣的電子設(shè)備中,能夠進(jìn)行人機(jī)通信的聲音識(shí)別系統(tǒng)已經(jīng)引起人們注意。如圖3所示,根據(jù)信息處理算法構(gòu)成的聲音識(shí)別系統(tǒng)是眾所周知的。
聲音識(shí)別系統(tǒng)首先利用隱式馬爾可夫模型(Hidden Markov Model,HMM)生成由字或子字(音素、音節(jié)等)組成的聲學(xué)模型(聲音HMM),當(dāng)發(fā)出要識(shí)別的聲音Ra時(shí)生成相對(duì)于講話(huà)聲音Ra而言是倒頻譜的時(shí)間序列的觀察值序列Ra(cep),將觀察值序列Ra(cep)與聲音HMM相對(duì)照,選擇給出最大似然的聲音HMM,并輸出它作為識(shí)別結(jié)果。
更詳細(xì)地說(shuō),聲音識(shí)別系統(tǒng)配置了遵照HMM方法生成上述聲音HMM的聲音HMM生成部分5,該聲音HMM生成部分5包括聲音數(shù)據(jù)庫(kù)1、逐幀分割單元2、倒頻譜運(yùn)算單元3、和練習(xí)(training)單元4。
逐幀分割單元2將已經(jīng)經(jīng)過(guò)實(shí)驗(yàn)采集的和存儲(chǔ)在聲音數(shù)據(jù)庫(kù)1中的、測(cè)試對(duì)象的大量聲音數(shù)據(jù)劃分成每一個(gè)由10至20msec左右組成的幀,倒頻譜運(yùn)算單元3運(yùn)算各個(gè)用倒頻譜表示的逐幀數(shù)據(jù),從而獲得倒頻譜的時(shí)間序列Rm(cep)。
接著,練習(xí)單元4進(jìn)行處理,以練習(xí)作為聲音的特征(特征矢量)的倒頻譜的時(shí)間序列Rm(cep),并使其反映到聲學(xué)模型(聲音HMM)的參數(shù)上,從而事先生成由字或子字組成的聲音HMM6。
當(dāng)真正進(jìn)行講話(huà)時(shí),逐幀分割單元7象逐幀分割單元2那樣,將講話(huà)聲音的數(shù)據(jù)Ra劃分成供輸入用的幀,倒頻譜運(yùn)算單元8一個(gè)接著一個(gè)地運(yùn)算各個(gè)逐幀講話(huà)聲音數(shù)據(jù),從而生成作為倒頻譜時(shí)間序列的觀察值序列Ra(cep)。
并且,對(duì)照單元9將觀察值序列Ra(cep)與用字或子字表示的聲音HMM相對(duì)照,輸出與觀察值序列Ra(cep)相比具有最大似然的聲音HMM,作為聲音識(shí)別的結(jié)果。
然而,在圖3所示的聲音識(shí)別系統(tǒng)中,當(dāng)采集聲音數(shù)據(jù)Rm以生成聲音HMM6時(shí),會(huì)采集已經(jīng)受到麥克風(fēng)和電子傳輸系統(tǒng)中受可積性失真影響的聲音數(shù)據(jù)Rm,而其中的問(wèn)題在于,難以滿(mǎn)意地生成準(zhǔn)確的聲音HMM6。
另外,當(dāng)發(fā)出要識(shí)別的講話(huà)聲音Ra時(shí),諸如室內(nèi)噪聲、背景噪聲等的可加性噪聲,和諸如從嘴巴到麥克風(fēng)的空間傳輸特性、麥克風(fēng)和電子傳輸系統(tǒng)中的傳輸特性等的可積性失真,都對(duì)觀察值序列Ra(cep)產(chǎn)生負(fù)面影響,其中,這樣的問(wèn)題在于聲音識(shí)別率降低了。
為了解決這些和其它問(wèn)題,構(gòu)筑幾乎不受可加性噪聲和可積性失真影響的聲音識(shí)別系統(tǒng),即,抗干擾聲音識(shí)別系統(tǒng)是基本課題。
為了對(duì)付上述題目,本發(fā)明已經(jīng)作了嘗試,通過(guò)將HMM合成法應(yīng)用于可加性噪聲和將倒頻譜平均歸一化法(cepstrum means normalization method,CMN)應(yīng)用于可積性失真,實(shí)現(xiàn)抗干擾聲音識(shí)別系統(tǒng)。
圖4是顯示聲音識(shí)別系統(tǒng)結(jié)構(gòu)的方塊圖。聲音識(shí)別系統(tǒng)配置了聲音HMM10、初始噪聲HMM17、初始合成HMM16和自適應(yīng)HMM26,其中,當(dāng)發(fā)出要識(shí)別的聲音時(shí),由對(duì)照單元29以字或子字為單位將已經(jīng)通過(guò)發(fā)出的聲音獲得的、作為倒頻譜時(shí)間序列的觀察值序列RNa(cep)與自適應(yīng)HMM26相互對(duì)照,并輸出相對(duì)于觀察值序列RNa(cep)具有最大似然的自適應(yīng)HMM,作為聲音識(shí)別的結(jié)果。
并且,由于如果應(yīng)用HMM合成法的話(huà),就會(huì)增加計(jì)算量,因此,為了通過(guò)減少運(yùn)算量而實(shí)現(xiàn)高速處理,應(yīng)用基于泰勒展開(kāi)的模型自適應(yīng)法。也就是說(shuō),通過(guò)提供雅可比矩陣計(jì)算單元19來(lái)試圖減少運(yùn)算量,雅可比矩陣計(jì)算單元19計(jì)算所謂“雅可比矩陣J”的泰勒展開(kāi)一階導(dǎo)數(shù)矩陣。
上述聲音HMM10是通過(guò)HMM方法,利用采集的并不包括任何可加性噪聲的講話(huà)聲音Rm事先生成的聲學(xué)模型。也就是說(shuō),聲音HMM10是通過(guò)根據(jù)與圖3所示的聲音HMM生成部分5的方法相似的HMM方法進(jìn)行處理事先生成的。
此外,通過(guò)實(shí)驗(yàn)采集消聲室中測(cè)試對(duì)象的講話(huà)聲音Rm,生成不受可加性噪聲影響的聲音HMM10。但是,由于無(wú)法消除麥克風(fēng)和電子傳輸系統(tǒng)等中可積性失真帶來(lái)的影響,聲音HMM10成為可積性失真帶來(lái)的影響仍然存在的聲學(xué)模型。
因此,在假定經(jīng)實(shí)驗(yàn)采集的講話(huà)聲音Rm由純聲音Sm(不包含任何可加性噪聲和可積性失真的聲音)和可積性失真Hm組成的情況下,如果用線性譜域(lin)表示講話(huà)聲音Rm,那么,它可以用純聲音Sm與可積性失真Hm相乘所得的線性譜積來(lái)表示,即,Rm(lin)=Sm(lin)Hm(lin)。此外,如果用倒頻譜域(cep)表示講話(huà)聲音Rm,那么,它可以用純聲音Sm與可積性失真Hm相加所得的倒頻譜和來(lái)表示,即,Rm(cep)=Sm(cep)+Hm(cep)。
并且,如果用線性譜域(lin)表示聲音HMM10,那么,它可以用Rm(lin)=Sm(lin)Hm(lin)來(lái)表示。而如果用倒頻譜域(cep)表示聲音HMM10,那么,它可以用Rm(cep)=Sm(cep)+Hm(cep)來(lái)表示。
上述初始噪聲HMM17是將非講話(huà)期間的聲音(對(duì)應(yīng)于可加性噪聲)收集起來(lái)作為初始噪聲數(shù)據(jù)Nm,并利用初始噪聲數(shù)據(jù)Nm練習(xí)的聲學(xué)模型,初始噪聲HMM17是通過(guò)與圖3所示的聲音HMM生成部分5中的處理相似的處理事先生成的。因此,如果用線性譜域(lin)表示初始噪聲HMM17,它就變成Nm(lin),而如果用倒頻譜域(cep)表示初始噪聲HMM17,它就變成Nm(cep)。
初始合成HMM16是通過(guò)下列處理生成的。
將倒頻譜域(cep)中的聲音(聲學(xué)模型)Rm(cep)=Sm(cep)+Hm(cep)從聲音HMM10提供到平均計(jì)算單元11和減法器12,平均計(jì)算單元11通過(guò)對(duì)用于練習(xí)聲學(xué)模型的聲音數(shù)據(jù)庫(kù)中的特征矢量求平均,和利用CMN法對(duì)聲音HMM的平均矢量求平均,獲得可積性失真的估計(jì)值Hm^(cep),并將其提供給減法器12。因此,在減法器12中進(jìn)行Rm(cep)-Hm^(cep)的運(yùn)算,減法器12輸出消除了可積性失真的估計(jì)值Hm^(cep)的聲音Sm′(cep)。
這里,通過(guò)進(jìn)行估計(jì)值Hm^(cep)幾乎等于可積性失真Hm(cep)的近似,假設(shè)已經(jīng)獲得了排除了任何可積性失真干擾的聲音Sm′(cep)。
接著,倒頻譜逆變換單元13將倒頻譜域中的聲音Sm′(cep)變換成線性譜域中的聲音Sm′(lin),并將其提供給加法器14,同時(shí),倒頻譜逆變換單元13將從初始噪聲HMM17中輸出的、倒頻譜域中的初始噪聲Nm(cep)變換成線性譜域中的初始聲音Nm(lin),并將其提供給加法器14,因而,加法器14通過(guò)將聲音Sm′(lin)與線性譜域中的初始噪聲Nm(lin)相加,生成疊加了可加性噪聲的聲音Rm′(lin)=Sm′(lin)+Hm′(lin),并將其提供給倒頻譜變換單元15。
并且,倒頻譜變換單元15將附加了可加性噪聲的聲音Rm′(lin)變換成倒頻譜域中的附加了可加性噪聲的聲音Rm′(cep),并生成初始合成HMM16。
于是,使初始合成HMM16變成具有附加了可加性噪聲的聲音Rm′(cep)的特征的聲學(xué)模型。該聲學(xué)模型表示如下Rm′(cep)=cep[cep-1[Sm(cep)+Hm(cep)-Hm^(cep)]+Nm(lin)]=cep[Sm′(lin)+Nm(lin)]cep[Sm(lin)+Nm(lin)]……(1)此外,在上述表達(dá)式中,cep[]表示在倒頻譜變換單元15中實(shí)現(xiàn)的倒頻譜變換,和cep-1[]表示由倒頻譜逆變換單元13和18實(shí)現(xiàn)的倒頻譜逆變換。
接著,對(duì)雅可比矩陣計(jì)算單元19加以描述。如上所述,提供雅可比矩陣計(jì)算單元19是為了減少計(jì)算量。在假設(shè)實(shí)際使用環(huán)境中的可加性噪聲Na(cep)與初始噪聲HMM17中的初始噪聲Nm(cep)之間的變化量ΔNm(cep)=Na(cep)-Nm(cep)很微小的情況下,通過(guò)泰勒展開(kāi)獲得合成模型與噪聲譜的變化量ΔNm(cep)相對(duì)應(yīng)的變化量,其中,依照獲得的變化量來(lái)補(bǔ)償初始合成模型16。并且,使通過(guò)補(bǔ)償獲得的聲學(xué)模型變成自適應(yīng)HMM26。
更詳細(xì)地說(shuō),線性譜表示如下Rm(lin)=Sm(lin)+Nm(lin) ……(2)此處,Sm(lin)是不包括可積性失真和可加性噪聲的純聲音Sm的線性譜;Rm(lin)是不包括可積性失真,但包括可加性噪聲的聲音Rm的線性譜;和Nm(lin)是可加性噪聲Nm的線性譜。
此外,如果用倒頻譜域中的術(shù)語(yǔ)表示包括可加性噪聲的聲音Rm,那么,下列表達(dá)式成立Rm(cep)=IDCT[log(exp(DCT[Sm(cep)])+exp(DCT[Nm(cep)]))]……(3)其中,IDCT[]是離散余弦逆變換,DCT[]是離散余弦變換,log()是對(duì)數(shù)變換,和exp()是指數(shù)變換。
假設(shè)純聲音Sm不變化而在實(shí)際講話(huà)環(huán)境中可加性噪聲在Nm到Na范圍內(nèi)變化,初始合成模型ΔRm(cep)中的變化量,即作為包括Na的聲音的Rmc(cep)和作為包括倒頻譜域中Nm的聲音的Rm(cep)之間的差值,能夠近似地從表達(dá)式(3)的泰勒展開(kāi)的一階導(dǎo)數(shù)項(xiàng)得到,如下面的表達(dá)式(4)所示。ΔRm(cep)=∂Rm(cep)∂Nm(cep)ΔNm(cep)=J(ΔNm(cep))......(4)]]>其中Rm(cep)/Nm(cep)是雅可比矩陣,并且ΔNm(cep)=Na(cep)-Nm(cep)是在實(shí)際講話(huà)環(huán)境中的可加性噪聲與在倒頻譜域中的初始噪聲中的可加性噪聲之間的差值。
表達(dá)式(4)還可以如下面的表達(dá)式(5)所示來(lái)表達(dá)。Rmc(cep)=Rm(cep)+∂Rm(cep)∂Nm(cep)(Na(cep)-Nm(cep))]]>=IDCT[log(exp(DCT[Sm(cep)])+exp(DCT[Na(cep)]))] ……(5)雅可比矩陣的第I行和第J列的元素通過(guò)下面的表達(dá)式(6)來(lái)計(jì)算。[J]ij=Σk=1pRm'(cep)kNm(cep)kFik-1Fkj......(6)]]>其中Fkj是余弦變換矩陣的第k行第j列的元素,而Fik-1是余弦逆變換矩陣的第i行第k列的元素。
因此,雅可比矩陣計(jì)算單元19能夠通過(guò)利用從加法器14中接收的在線性譜域中的疊加了可加性噪聲的聲音Rm(lin)和從倒頻譜逆變換單元18接收的在線性譜域中的初始噪聲Nm(lin),依照表達(dá)式(6)事先計(jì)算出雅可比矩陣。
根據(jù)在實(shí)際講話(huà)環(huán)境中生成的可加性噪聲可以自適應(yīng)地補(bǔ)償初始合成HMM16。初始合成模型的變化量能夠通過(guò)將可加性噪聲之間的變化量ΔNm(cep)與雅可比矩陣J相乘而獲得。因此,可以通過(guò)將合成模型中的變化量附加到初始合成模型中生成自適應(yīng)模型。
接著,對(duì)生成自適應(yīng)HMM26的處理加以描述。
隨著用戶(hù)打開(kāi)配備在聲音識(shí)別系統(tǒng)中的講話(huà)開(kāi)始開(kāi)關(guān)(未示出),麥克風(fēng)(未示出)采集講話(huà)聲音,并且逐幀分割單元20以指定的時(shí)間間隔為單位分割講話(huà)聲音的數(shù)據(jù)Ra。進(jìn)一步,倒頻譜運(yùn)算單元21將數(shù)據(jù)Ra變成倒頻譜域(cep)中的講話(huà)聲音數(shù)據(jù)Ra(cep)。
首先,隨著用戶(hù)打開(kāi)上述講話(huà)開(kāi)始開(kāi)關(guān),轉(zhuǎn)換單元22在實(shí)際開(kāi)始講話(huà)之前的非講話(huà)期間內(nèi)切換到觸點(diǎn)“a”一側(cè)。因此,在用戶(hù)試圖講話(huà)的環(huán)境中背景噪聲(可加性噪聲)Na的倒頻譜Na(cep)通過(guò)轉(zhuǎn)換單元22提供給減法器23。
減法器23從背景噪聲Na的倒頻譜Na(cep)中減去初始噪聲Nm的倒頻譜Nm(cep),并將相減的結(jié)果Na(cep)-Nm(cep)提供給乘法器24,其中乘法器24將上述相減結(jié)果Na(cep)-Nm(cep)與雅可比矩陣J相乘,并將相乘結(jié)果J[Na(cep)-Nm(cep)]提供給加法器25。加法器25以字或子字為單位將相乘結(jié)果J[Na(cep)-Nm(cep)]加入初始合成HMM16的聲學(xué)模型Rm^(cep)中,從而,生成已經(jīng)得到實(shí)際講話(huà)環(huán)境中的背景噪聲Na自適應(yīng)補(bǔ)償?shù)淖赃m應(yīng)HMM26。也就是說(shuō),如果用倒頻譜域(cep)中的術(shù)語(yǔ)表示自適應(yīng)HMM26,那么,下列表達(dá)式成立Radp(cep)=Rm′(cep)+J[Na(cep)-Nm(cep)]cep[Sm(lin)+Na(lin)] ……(7)此外,在表達(dá)式(7)中,cep[]表示倒頻譜變換。
因此,當(dāng)生成自適應(yīng)HMM26生成時(shí),轉(zhuǎn)換單元22切換到觸點(diǎn)“b”一側(cè),并輸入要識(shí)別的講話(huà)聲音Ra,作為倒頻譜域中的講話(huà)聲音Ra(cep)。這里,如果假設(shè)講話(huà)聲音Ra(cep)包含純聲音Sa、可積性失真Ha、和可加性噪聲Na的線性譜的Sa(lin)、Ha(lin)和Na(lin),那么,倒頻譜域中的講話(huà)聲音Ra(cep)表示成Ra(cep)=cep[Sa(lin)Ha(lin)+Na(lin)]
因此,平均計(jì)算單元27通過(guò)CMN法獲得可積性失真Ha(cep)的估計(jì)值Ha^(cep),減法器28從講話(huà)聲音Ra(cep)中減去估計(jì)值Ha^(cep),其中,將相減的結(jié)果Ra(cep)-Ha^(cep)提供給對(duì)照單元29,作為觀察值序列RNa(cep)。
并且,對(duì)照單元29以字或子字為單位將觀察值序列RNa(cep)與自適應(yīng)HMM26相對(duì)照,并輸出相對(duì)于觀察值序列RNa(cep)具有最大似然的自適應(yīng)HMM,作為識(shí)別的結(jié)果。也就是說(shuō),觀察值序列RNa(cep)可以用下列表達(dá)式來(lái)表示。
RNa(cep)=Ra(cep)-Ha^(cep)=cep[sa(lin)Ha(lin)Ha^(lin)+Na(lin)Ha^(lin)]]]> 通過(guò)將上述表達(dá)式(8)所表示的、觀察值序列的特征矢量RNa(cep)與上述表達(dá)式(7)所示的自適應(yīng)HMM26 Radp(cep)的那些特征矢量相對(duì)照,實(shí)現(xiàn)聲音識(shí)別。
但是,在如圖4所示的、本發(fā)明人提出的聲音識(shí)別系統(tǒng)中,通過(guò)將自適應(yīng)HMM26與講話(huà)聲音的觀察值序列Radp(cep)相對(duì)照,實(shí)現(xiàn)聲音識(shí)別。然而,問(wèn)題在于還沒(méi)有建立起作為對(duì)應(yīng)觀察值序列RNa(cep)的充分模型的自適應(yīng)HMM26。
也就是說(shuō),在將上述表達(dá)式(7)與上述表達(dá)式(8)相比較的情況下,自適應(yīng)HMM 26的特征在于,將可加性噪聲的線性譜Na(lin)加入純聲音的線性譜Sm(lin)當(dāng)中,并將其轉(zhuǎn)換成倒頻譜。但是,觀察值序列RNa(cep)的特征在于,將可加性噪聲的線性譜Na(lin)與可積性失真的線性譜Ha^(lin)之比Na(lin)/Ha^(lin)加入純聲音的線性譜Sm(lin)當(dāng)中,并將其變換倒倒頻譜域中。
因此,自適應(yīng)HMM26不是那種可以完全消除可積性失真帶來(lái)的影響的模型。這樣,在對(duì)照單元29將自適應(yīng)HMM26與觀察值序列RNa(cep)相對(duì)照的情況下,會(huì)出現(xiàn)自適應(yīng)HMM26不能完全模仿觀察值序列RNa(cep)的情況。最后,存在著無(wú)法提高聲音識(shí)別率的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明的目的是克服這些和其它問(wèn)題,為此,提供一種抗可加性噪聲和可積性失真干擾的聲音識(shí)別系統(tǒng)。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的聲音識(shí)別系統(tǒng)包括聲音模型,從事先采集的和包含可積性失真的聲音中生成;噪聲模型,從事先采集的可加性噪聲中生成;第一估計(jì)單元,估計(jì)包含在聲音模型中的可積性失真;合成聲音模型,根據(jù)附加了噪聲的聲音生成,所述附加了噪聲的聲音是通過(guò)將聲音模型、第一估計(jì)單元估計(jì)的可積性失真的第一估計(jì)值和噪聲模型的可加性噪聲合成在一起的處理獲得的;計(jì)算單元,根據(jù)噪聲模型的可加性噪聲和附加了噪聲的聲音計(jì)算雅可比矩陣;第二估計(jì)單元,估計(jì)包含在講話(huà)聲音中的可積性失真;第一運(yùn)算單元,通過(guò)將在非講話(huà)期間生成的可加性噪聲、噪聲模型的可加性噪聲和第二估計(jì)單元估計(jì)的可積性失真的第二估計(jì)值合成在一起的處理,獲得噪聲變化量,同時(shí)將噪聲變化量與計(jì)算單元計(jì)算的雅可比矩陣相乘;自適應(yīng)模型,通過(guò)將第一運(yùn)算單元獲得的相乘結(jié)果與合成聲音模型合成在一起的處理生成;和第二運(yùn)算單元,通過(guò)將講話(huà)聲音、第二估計(jì)單元估計(jì)的可積性失真的第二估計(jì)值合成在一起的處理,生成觀察值序列;其中,聲音識(shí)別是通過(guò)將觀察值序列與自適應(yīng)模型相對(duì)照實(shí)現(xiàn)的。
根據(jù)如上所述構(gòu)成的聲音識(shí)別系統(tǒng),通過(guò)將含有可積性失真的聲音模型、由第一估計(jì)單元估計(jì)的可積性失真的第一估計(jì)值和噪聲模型的可加性噪聲合成在一起的處理,生成附加了噪聲的聲音,并從附加了噪聲的聲音中生成合成聲音模型。
此外,通過(guò)將在非講話(huà)期間生成的可加性噪聲、噪聲模型的可加性噪聲和第二估計(jì)單元估計(jì)的噪聲(可積性失真)的第二估計(jì)值合成在一起的處理,生成噪聲變化量。
此外,從噪聲模型的可加性噪聲和附加了噪聲的聲音(即,通過(guò)將含有可積性失真的聲音模型、由第一估計(jì)單元估計(jì)的可積性失真的第一估計(jì)值和噪聲模型的可加性噪聲合成在一起的處理獲得的聲音)中計(jì)算出雅可比矩陣。
通過(guò)將噪聲變化量與雅可比矩陣相乘的結(jié)果與合成聲音模型合成在一起的處理,生成自適應(yīng)模型。也就是說(shuō),自適應(yīng)模型成為含有合成聲音模型以及噪聲變化量和雅可比矩陣的信息的模型。
當(dāng)發(fā)出聲音時(shí),第二運(yùn)算單元通過(guò)將由第二估計(jì)單元估計(jì)的可積性失真的第二估計(jì)值與包括可積性失真和可加性噪聲的講話(huà)聲音合成在一起的處理,生成觀察值序列。
并且,通過(guò)將觀察值序列與自適應(yīng)模型相對(duì)照,實(shí)現(xiàn)聲音識(shí)別。
這里,與觀察值序列相對(duì)照的自適應(yīng)模型包括與包含在觀察值序列中的噪聲成分相匹配的噪聲成分。因此,如果將上述觀察值序列與自適應(yīng)模型相對(duì)照,則可以抵消由噪聲成分帶來(lái)的影響,和能產(chǎn)生與將聲音模型的純聲音與發(fā)出的純聲音相對(duì)照所得的效果幾乎相同的效果。因此,可以實(shí)現(xiàn)抗可積性失真和可加性噪聲干擾的合適聲音識(shí)別系統(tǒng)。
此外,為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的聲音識(shí)別系統(tǒng)包括聲音模型,從事先采集的包含可積性失真的聲音中生成;噪聲模型,從事先采集的可加性噪聲中生成;第一估計(jì)單元,估計(jì)包含在聲音模型中的可積性失真;第二估計(jì)單元,根據(jù)識(shí)別結(jié)果,估計(jì)包括在聲音模型中的包含根據(jù)講話(huà)聲音變化的誤差的可積性失真;第一運(yùn)算單元,將噪聲模型的可加性噪聲與第一估計(jì)單元估計(jì)的可積性失真的第一估計(jì)值合成在一起;合成聲音模型,根據(jù)通過(guò)將第一運(yùn)算單元的合成結(jié)果與聲音模型合成在一起的處理所得的附加了噪聲的聲音生成;計(jì)算單元,從第一運(yùn)算單元所得的合成結(jié)果和附加了噪聲的聲音中計(jì)算雅可比矩陣;第三估計(jì)單元,估計(jì)包括在講話(huà)聲音中的包含根據(jù)講話(huà)聲音變化的誤差的可積性失真;第二運(yùn)算單元,通過(guò)將在非講話(huà)期間生成的可加性噪聲、第一運(yùn)算單元所得的合成結(jié)果、第二估計(jì)單元估計(jì)的包含根據(jù)講話(huà)聲音變化的誤差的可積性失真的第二估計(jì)值和第三估計(jì)單元估計(jì)的包含根據(jù)講話(huà)聲音變化的誤差的可積性失真的第三估計(jì)值合成在一起的處理,獲取噪聲變化量,同時(shí)通過(guò)計(jì)算單元將噪聲變化量與雅可比矩陣相乘;自適應(yīng)模型,通過(guò)將第二運(yùn)算單元獲得的相乘結(jié)果與合成聲音模型合成在一起的處理生成;和第三運(yùn)算單元,通過(guò)將講話(huà)聲音與第三估計(jì)單元估計(jì)的包含根據(jù)講話(huà)聲音變化的誤差的可積性失真的第三估計(jì)值合成在一起的處理,生成觀察值序列;其中,聲音識(shí)別是通過(guò)將觀察值序列與自適應(yīng)模型相對(duì)照實(shí)現(xiàn)的。
根據(jù)如上所述構(gòu)成的聲音識(shí)別系統(tǒng),通過(guò)將噪聲變化量與雅可比矩陣相乘的結(jié)果與合成聲音模型合成在一起的處理,生成自適應(yīng)模型。也就是說(shuō),自適應(yīng)模型成為包括合成聲音模型、噪聲變化量和雅可比矩陣的信息的模型。
并且,當(dāng)發(fā)出聲音時(shí),第三估計(jì)單元通過(guò)將由第二估計(jì)單元估計(jì)的可積性失真的第三估計(jì)值、由第三估計(jì)單元估計(jì)的可積性失真的第三估計(jì)值和包括可積性失真和可加性噪聲的講話(huà)聲音合成在一起的處理,生成觀察值序列,通過(guò)將觀察值序列與自適應(yīng)模型相對(duì)照,實(shí)現(xiàn)聲音識(shí)別。
這里,與觀察值序列相對(duì)照的自適應(yīng)模型包括與包含在觀察值序列中的噪聲成分相匹配的噪聲成分。因此,如果將上述觀察值序列與自適應(yīng)模型相對(duì)照,則可以抵消由噪聲成分帶來(lái)的影響,和能產(chǎn)生與將聲音模型的純聲音與發(fā)出的純聲音相對(duì)照所得的效果幾乎相同的效果。因此,可以實(shí)現(xiàn)抗可積性失真和可加性噪聲干擾的合適聲音識(shí)別系統(tǒng)。
圖1是顯示根據(jù)第一實(shí)施例的聲音識(shí)別系統(tǒng)的結(jié)構(gòu)的方塊圖;圖2是顯示根據(jù)第二實(shí)施例的聲音識(shí)別系統(tǒng)的結(jié)構(gòu)的方塊圖;圖3是顯示傳統(tǒng)技術(shù)中的聲音識(shí)別系統(tǒng)的結(jié)構(gòu)的方塊圖;和圖4是顯示當(dāng)開(kāi)發(fā)本發(fā)明的聲音識(shí)別系統(tǒng)時(shí),本發(fā)明人設(shè)計(jì)和研究的聲音識(shí)別系統(tǒng)的結(jié)構(gòu)的方塊圖。
具體實(shí)施例方式
下面參照附圖,對(duì)本發(fā)明的實(shí)施例加以描述。此外,圖1是顯示根據(jù)本發(fā)明的聲音識(shí)別系統(tǒng)的第一實(shí)施例的結(jié)構(gòu)的方塊圖,和圖2是顯示第二實(shí)施例的結(jié)構(gòu)的方塊圖。
首先,在描述第一和第二實(shí)施例之前,對(duì)參考符號(hào)加以描述。
假設(shè)用于生成如后所述的聲音HMM10、時(shí)間域中的聲音是Rm,用于生成初始噪聲HMM17的在時(shí)間域中的可加性噪聲是Nm,和在實(shí)際發(fā)出聲音中的時(shí)間域中的講話(huà)聲音是Ra。
另外,上述聲音Rm是事先采集的,并由可積性失真Hm和不包括噪聲的純聲音Sm組成。此外,講話(huà)聲音是Ra由可積性失真Ha、可加性噪聲Na和不包括噪聲的純聲音Sa組成。另外,當(dāng)不發(fā)出聲音時(shí)的,諸如室內(nèi)噪聲之類(lèi)的背景噪聲被稱(chēng)為Na。
并且,線性譜域中的信息用(lin)表示,倒頻譜域中的信息用(cep)表示。例如,倒頻譜域中初始噪聲HMM17的聲學(xué)模型的標(biāo)記被稱(chēng)為Nm(cep),線性譜域中初始噪聲HMM17的聲學(xué)模型的標(biāo)記被稱(chēng)為Nm(lin)。第一實(shí)施例現(xiàn)在參照?qǐng)D1,對(duì)第一實(shí)施例加以描述。另外,在圖1中,與圖4中相應(yīng)部分相同或相似的那些部分給予相同的標(biāo)號(hào)。
聲音識(shí)別系統(tǒng)配置了聲音HMM10、初始噪聲HMM17、初始合成HMM16、用于當(dāng)產(chǎn)生時(shí)顯著減少運(yùn)算或計(jì)算量的雅可比矩陣計(jì)算單元19和自適應(yīng)HMM26,其中,當(dāng)發(fā)出要識(shí)別的聲音時(shí),由對(duì)照單元29以字或子字為單位將從發(fā)出的聲音獲得的、作為倒頻譜時(shí)間序列的觀察值序列RNa(cep)與自適應(yīng)HMM26相對(duì)照,并輸出相對(duì)于觀察值序列RNa(cep)具有最大似然的自適應(yīng)HMM,作為聲音識(shí)別的結(jié)果。
聲音HMM10是通過(guò)HMM方法,利用經(jīng)過(guò)實(shí)驗(yàn)采集的和不包括可加性噪聲的聲音Rm事先生成的聲學(xué)模型。但是,雖然通過(guò)實(shí)驗(yàn)采集消聲室中測(cè)試對(duì)象的聲音Rm,生成不受可加性噪聲帶來(lái)的影響的聲音HMM10,但由于無(wú)法消除麥克風(fēng)和電子傳輸系統(tǒng)等中可積性失真帶來(lái)的影響,因此,聲音HMM10是可積性失真帶來(lái)的影響仍然存在的那一種。
因此,如果用線性譜域(lin)表示聲音HMM10,那么,它可以用純聲音Sm和可積性失真Hm的線性譜Sm(lin)和Hm(lin)的乘積Rm(lin)=Sm(lin)Hm(lin)來(lái)表示,并且如果用倒頻譜域(cep)表示聲音HMM10,那么,它可以用純聲音Sm和可積性失真Hm的倒頻譜Sm(cep)和Hm(cep)的和Rm(cep)=Sm(cep)+Hm(cep)來(lái)表示。
初始噪聲HMM17是通過(guò)上述實(shí)驗(yàn)將非講話(huà)期間的聲音(相當(dāng)于可加性噪聲)收集起來(lái)作為初始噪聲數(shù)據(jù)Nm,并利用初始噪聲數(shù)據(jù)Nm事先練習(xí)的聲學(xué)模型。因此,如果用線性譜域(lin)表示初始噪聲HMM17,它就變成Nm(lin),而如果用倒頻譜域(cep)表示初始噪聲HMM17,它就變成Nm(cep)。
初始合成HMM16是通過(guò)將線性譜域中聲音HMM10的聲學(xué)模型和初始噪聲HMM17的聲學(xué)模型相加,并將相加結(jié)果變換成倒頻譜域中的聲學(xué)模型事先生成的。
也就是說(shuō),在發(fā)出實(shí)際要識(shí)別的聲音之前,將聲音(聲學(xué)模型)Rm(cep)=Sm(cep)+Hm(cep)從聲音HMM10提供到平均計(jì)算單元11和減法器12。平均計(jì)算單元11利用CMN方法獲得可積性失真Hm(cep)的估計(jì)值Hm^(cep),接著,減法器12進(jìn)行Rm(cep)-Hm^(cep)的運(yùn)算,從而生成從中消除了可積性失真的估計(jì)值Hm^(cep)的聲音Sm′。另外,倒頻譜逆變換單元13將倒頻譜域中的聲音Sm′(cep)變換成線性譜域中的聲音Sm′(lin),同時(shí),倒頻譜逆變換單元18將來(lái)自初始噪聲HMM17的、倒頻譜域中的初始噪聲Nm(cep)(初始噪聲的聲學(xué)模型)變換成線性譜域中的初始聲音Nm(lin),和加法器14將線性譜域中的聲音Sm′(lin)與初始噪聲Nm(lin)相加,從而生成附加了可加性噪聲的聲音Rm′(lin)=Sm′(lin)+Nm(lin)。并且,倒頻譜變換單元15將附加了可加性噪聲的聲音Rm′(lin)變換成倒頻譜域中的附加了可加性噪聲的聲音Rm′(cep),其中生成初始合成HMM16。
因此,使初始合成HMM16變成了具有如上述表達(dá)式(1)所表示的附加了可加性噪聲的聲音Rm′(cep)的特征的聲學(xué)模型。
雅可比矩陣計(jì)算單元19輸入由倒頻譜逆變換單元18生成的初始噪聲Nm(lin)和由加法器14生成的附加了可加性噪聲的聲音Rm′(lin),并將這些線性譜域中的初始噪聲Nm(lin)和附加了可加性噪聲的聲音Rm′(lin)變換成倒頻譜域中的那些相應(yīng)量。通過(guò)將這些量引入上述表達(dá)式(6)中,每個(gè)用于子字的合成HMM事先生成作為泰勒展開(kāi)的一階導(dǎo)數(shù)矩陣的雅可比矩陣J=Rm′(cep)/Nm(cep)。
自適應(yīng)HMM26是通過(guò)響應(yīng)于用戶(hù)打開(kāi)配備在聲音識(shí)別系統(tǒng)中的講話(huà)開(kāi)始開(kāi)關(guān)(未示出),在真正開(kāi)始講話(huà)之前經(jīng)麥克風(fēng)(未示出)采集的并與可加性噪聲相對(duì)應(yīng)的背景噪聲,自適應(yīng)地補(bǔ)償初始合成HMM16而生成的聲學(xué)模型,其中自適應(yīng)HMM26是在開(kāi)始真正的講話(huà)之前事先生成的。
另外,聲音識(shí)別系統(tǒng)配置了逐幀分割單元20、倒頻譜運(yùn)算單元21、轉(zhuǎn)換單元22、加法器和減法器23、乘法器24、加法器25、平均計(jì)算單元27、和減法器28。
當(dāng)通過(guò)打開(kāi)上述講話(huà)開(kāi)始開(kāi)關(guān)使麥克風(fēng)進(jìn)入聲音收集狀態(tài)時(shí),逐幀分割單元20接收從麥克風(fēng)輸出的并經(jīng)過(guò)模擬-數(shù)字轉(zhuǎn)換的背景噪聲Na(對(duì)應(yīng)于可加性噪聲)和講話(huà)聲音Ra的輸入,并在逐幀地分割它們之后,按照指定的間隔輸出。
倒頻譜運(yùn)算單元21將逐幀背景噪聲Na和講話(huà)聲音Ra變換成倒頻譜,生成和輸出背景噪聲Na和講話(huà)聲音Ra的倒頻譜Na(cep)和Ra(cep)。
轉(zhuǎn)換單元22在打開(kāi)上述講話(huà)開(kāi)始開(kāi)關(guān)真正開(kāi)始講話(huà)之前的非講話(huà)期間內(nèi)切換到觸點(diǎn)“a”一側(cè),從而,將背景噪聲的倒頻譜Na(cep)提供給加法器和減法器23一側(cè)。并且,轉(zhuǎn)換單元22在真正開(kāi)始講話(huà)期間切換到觸點(diǎn)“b”一側(cè),從而將講話(huà)聲音的倒頻譜Ra(cep)提供給平均計(jì)算單元27和加法器28一側(cè)。
平均計(jì)算單元27通過(guò)CMN方法運(yùn)算幾種講話(huà)聲音的倒頻譜Ra(cep)以便獲得平均值,并獲得包含在倒頻譜Ra(cep)中的可積性失真Ha的估計(jì)值Ha^(cep)。
此外,平均計(jì)算單元27配置了諸如半導(dǎo)體存儲(chǔ)器之類(lèi)的存儲(chǔ)估計(jì)值Ha^(cep)的存儲(chǔ)單元(未示出),和每當(dāng)操作講話(huà)開(kāi)始開(kāi)關(guān)時(shí),存儲(chǔ)單元輸出在最后一次發(fā)出聲音時(shí)已經(jīng)獲得的估計(jì)值Ha^(cep),并且利用此時(shí)的講話(huà)聲音將估計(jì)值Ha^(cep)更新和存儲(chǔ)新的估計(jì)值Ha^(cep)。
加法器和減法器23通過(guò)在倒頻譜域中進(jìn)行運(yùn)算,從背景噪聲Na(cep)中減去可積性失真Ha的估計(jì)值Ha^(cep)和初始噪聲Nm(cep),從而獲得由下列表達(dá)式表示的可加性噪聲倒頻譜變化量Namh(cep),將其提供給乘法器24。Namh(cep)=Na(cep)-Ha^(cep)-Nm(cep) ……(9)乘法器24將可加性噪聲倒頻譜變化量Namh(cep)與雅可比矩陣J相乘,將相乘結(jié)果J[Namh(cep)]=J[Na(cep)-Ha^(cep)-Nm(cep)]提供給加法器25。
加法器25以字或子字為單位將上述相乘結(jié)果J[Namh(cep)]與初始合成HMM16的聲學(xué)模型Rm′(cep)相加,從而生成已經(jīng)通過(guò)在實(shí)際講話(huà)環(huán)境中背景噪聲Na自適應(yīng)補(bǔ)償?shù)淖赃m應(yīng)HMM16。也就是說(shuō),如果用倒頻譜域(cep)中的術(shù)語(yǔ)表示自適應(yīng)HMM16,那么,下列表達(dá)式成立Radp′(cep)=Rm′(cep)+J[Namh(cep)]=Rm′(cep)+J[Na(cep)-Ha^(cep)-Nm(cep)]=cep[Sm(lin)+Na(lin)Na^(lin)]......(10)]]>此外,上面表達(dá)式(10)中的cep[]表示倒頻譜變換。
接著,對(duì)這樣的聲音識(shí)別系統(tǒng)的操作加以描述。
首先,如上所述,在開(kāi)始真正的聲音識(shí)別之前,事先準(zhǔn)備好聲音HMM10、初始噪聲HMM17和初始合成HMM16,并且,由雅可比矩陣計(jì)算單元19準(zhǔn)備雅可比矩陣J。
接著,隨著用戶(hù)打開(kāi)講話(huà)開(kāi)始開(kāi)關(guān),麥克風(fēng)(未示出)進(jìn)入聲音收集狀態(tài),轉(zhuǎn)換單元22在開(kāi)始真正講話(huà)之前的非講話(huà)期間內(nèi)切換到觸點(diǎn)“a”一側(cè),其中輸入背景噪聲Na。因此,背景噪聲Na的倒頻譜Na(cep)通過(guò)逐幀分割單元20、倒頻譜運(yùn)算單元21和轉(zhuǎn)換單元22提供給加法器和減法器23。進(jìn)一步,將來(lái)自平均計(jì)算單元27的、在最后一次講話(huà)中已經(jīng)獲得的、可積性失真的估計(jì)值Ha^(cep)給予加法器和減法器23,并且從初始噪聲HMM17提供初始噪聲Nm(cep)。
而且,加法器和減法器23獲取上述表達(dá)式(9)所表示的可加性噪聲倒頻譜變化量Namh(cep),乘法器24將這個(gè)可加性噪聲倒頻譜變化量Namh(cep)與雅可比矩陣J相乘。接著,加法器25以字或子字為單位將相乘結(jié)果J[Namh(cep)]與初始合成HMM16相加,從而生成自適應(yīng)HMM26。
然后,當(dāng)自適應(yīng)HMM26的生成已完成時(shí),轉(zhuǎn)換單元22切換到觸點(diǎn)“b”一側(cè)。隨著用戶(hù)真正發(fā)出聲音,逐幀分割單元20和倒頻譜運(yùn)算單元21使講話(huà)聲音Ra變成倒頻譜域中的講話(huà)聲音Ra(cep),并通過(guò)轉(zhuǎn)換單元22將其提供給平均計(jì)算單元27。
從而,平均計(jì)算單元27通過(guò)CMN方法,重新生成包含在講話(huà)聲音Ra(cep)中的可積性失真Ha在倒頻譜域中的估計(jì)值Ha^(cep),并存儲(chǔ)它。同時(shí),將重新生成的估計(jì)值Ha^(cep)提供給加法器和減法器28。
而且加法器和減法器28通過(guò)從講話(huà)聲音Ra(cep)中減去估計(jì)值Ha^(cep),生成消除了可積性失真的觀察值序列RNa(cep)=Ra(cep)-Ha^(cep),對(duì)照單元29以字或子字為單元將觀察值序列RNa(cep)與自適應(yīng)HMM26相對(duì)照,其中輸出獲得了最大似然的自適應(yīng)HMM,作為聲音識(shí)別的結(jié)果。
這里,正如上述表達(dá)式(8)所示的,觀察值序列RNa(cep)的特征在于,將可加性噪聲的線性譜Na(lin)與可積性失真的線性譜Ha^(lin)之比Na(lin)/Ha^(lin)加入純聲音的線性譜Sa(lin)當(dāng)中,并將其轉(zhuǎn)換成倒頻譜。另一方面,正如上述表達(dá)式(10)所示的,自適應(yīng)HMM26的特征在于,將可加性噪聲的線性譜Na(lin)與可積性失真的線性譜Ha^(lin)之比Na(lin)/Ha^(lin)加入純聲音的線性譜Sm(lin)當(dāng)中,并將其轉(zhuǎn)換成倒頻譜。
也就是說(shuō),由于使自適應(yīng)HMM26的噪聲譜和觀察值序列RNa(cep)的噪聲譜兩者都變成了Na(lin)/Ha^(lin),因此,自適應(yīng)HMM26變成與觀察值序列RNa(cep)相匹配的聲學(xué)模型。
此外,由于當(dāng)對(duì)照單元29將觀察值序列RNa(cep)與自適應(yīng)HMM26相對(duì)照時(shí),兩個(gè)噪聲譜都是Na(lin)/Ha^(lin),因此,自適應(yīng)HMM26和觀察值序列RNa(cep)的噪聲(可加性噪聲和可積性失真)所帶來(lái)的影響基本上相互抵消,可以將純聲音Sm(cep)與純講話(huà)聲音Sa(cep)相對(duì)照,其中聲音識(shí)別率可以得到進(jìn)一步的提高。
因此,根據(jù)本實(shí)施例的聲音識(shí)別系統(tǒng),可以使自適應(yīng)HMM26變成與當(dāng)真正講話(huà)出現(xiàn)時(shí)獲得的觀察值序列RNa(cep)相匹配的聲學(xué)模型,并將其構(gòu)造成能夠?qū)Ω犊杉有栽肼暫涂煞e性失真。因此,這種聲音識(shí)別系統(tǒng)是抗可加性噪聲和可積性失真干擾的,并且可以提高聲音識(shí)別率。此外,由于已經(jīng)實(shí)現(xiàn)了足以應(yīng)用雅可比矩陣的配置,因此,可以顯著地縮短聲音識(shí)別所需的時(shí)間。第二實(shí)施例下面參照?qǐng)D2,對(duì)根據(jù)第二實(shí)施例的聲音識(shí)別系統(tǒng)加以描述。此外,在圖2中,給予與圖1中相應(yīng)部分相同或相似的那些部分以相同的標(biāo)號(hào)。
在圖2中,對(duì)與第一實(shí)施例不同的那些點(diǎn)作如下描述。根據(jù)第二實(shí)施例的聲音識(shí)別系統(tǒng)配置了兩個(gè)平均計(jì)算單元11a和11b、加法器12a、加法器和減法器23a、和加法器30。
另外,沒(méi)有提供圖1所示的減法器12。因此,聲音HMM10在倒頻譜域中的聲音Rm(cep)被直接提供給倒頻譜逆變換單元13。
第一平均計(jì)算單元11a通過(guò)獲取聲音HMM10的平均矢量的總平均值,獲得大量聲音HMM的平均值,并獲得可積性失真的估計(jì)值Hm1^(cep)。
通過(guò)對(duì)在最后一次講話(huà)中進(jìn)行Ha^估計(jì)(如后所述)用的講話(huà)聲音的范圍(相當(dāng)于過(guò)去數(shù)次講話(huà))內(nèi)的與識(shí)別結(jié)果相對(duì)應(yīng)的子字聲音HMM的平均矢量求平均,第二平均計(jì)算單元11b生成包括真正可積性失真Hm(cep)和根據(jù)講話(huà)聲音變化的可積性失真的誤差Hme(cep)的可積性失真的新估計(jì)值Hm2^(cep)=Hm(cep)+Hme(cep)。
加法器12a將來(lái)自初始噪聲HMM17的初始噪聲Nm(cep)與來(lái)自第一平均計(jì)算單元11a的估計(jì)值Hm1^(cep)相加,并將相加結(jié)果Nmb(cep)=Nm(cep)+Hm1^(cep)提供給加法器和減法器23a和倒頻譜逆變換單元18。
除了來(lái)自上述加法器12a的相加結(jié)果Nmh(cep)之外,還將來(lái)自第二平均計(jì)算單元11b的估計(jì)值Hm2^(cep)給予加法器和減法器23a。并且,還將來(lái)自平均計(jì)算單元27的估計(jì)值Ha^(cep)、和非講話(huà)期間的背景噪聲Na(cep)給予加法器和減法器23a,從而,加法器和減法器23a生成如下列表達(dá)式(11)所表示的、用于生成自適應(yīng)HMM26的可加性噪聲倒頻譜變化量Namh′(cep)。
Namh′(cep)=Na(cep)+Hm2^(cep)-Ha^(cep)-Nmh(cep)=Na(cep)+Hm2^(cep)-Ha^(cep)-Nm(cep)-Hm1^(cep) ……(11)如上所示,本實(shí)施例的初始合成HMM16是通過(guò)由加法器12a已經(jīng)生成的相加結(jié)果Nmh(cep)、和還沒(méi)有消除來(lái)自聲音HMM10的可積性失真Hm的聲音Rm(cep)事先生成的。也就是說(shuō),倒頻譜逆變換單元13將還沒(méi)有消除可積性失真Hm的聲音Rm(cep)變換成線性譜域中的聲音Rm(lin),和倒頻譜逆變換單元18將上述相加結(jié)果Nmh(cep)變換成線性譜域中的相加結(jié)果Nmh(lin)。并且,加法器14將Rm(lin)與Nmh(lin)彼此相加。倒頻譜變換單元15將通過(guò)加法器14生成的附加了可加性噪聲的聲音Rmh(lin)=Rm(lin)+Nmh(lin)變換成倒頻譜域中的附加了可加性噪聲的聲音Rmh(cep),從而生成初始合成HMM16。
因此,初始合成HMM16由下列表達(dá)式(12)表示。
Rmh(cep)=Rm(cep)+Nm(cep)+Hm1^(cep)=Sn(cep)+Hm(cep)+Nm(cep)+Hm1^(cep)=cep[Rmh(lin)]=cep[Sm(lin)Hm(lin)+Nm(lin)Hm1^(lin)] ……(12)
此外,表達(dá)式(12)中的cep[]表示倒頻譜變換。
在根據(jù)本實(shí)施例的平均計(jì)算單元27中,如果講話(huà)聲音Ra的倒頻譜Ra(cep)是在講話(huà)期間通過(guò)轉(zhuǎn)換單元22的觸點(diǎn)“b”提供的,那么,隨講話(huà)聲音變化的可積性失真的誤差Hae(cep)包括在附加到Ra(cep)中的真正可積性失真Ha(cep)中,可積性失真的估計(jì)值由Ha^(cep)=Ha(cep)+Hae(cep)表示。
因此,圖2所示的平均計(jì)算單元27與圖1所示的第一實(shí)施例的平均計(jì)算單元27不同之處在于,假設(shè)上面的Ha^(cep)等于Ha(cep),而假設(shè)本實(shí)施例的Ha^(cep)等于Ha(cep)+Hqe(cep),其中Hae是隨講話(huà)的內(nèi)容而改變的可積性失真的估計(jì)值的誤差。如果識(shí)別結(jié)果是正確的,則使講話(huà)的內(nèi)容與識(shí)別結(jié)果相同。當(dāng)估計(jì)Hm2^時(shí),通過(guò)利用識(shí)別結(jié)果,用于估計(jì)Ha^的講話(huà)內(nèi)容被使用。因此,建立了HaeHme,并且從而隨講話(huà)聲音而變化的可積性失真中的誤差能夠假設(shè)等同于Hm2^和Ha^。
根據(jù)本發(fā)明的雅可比矩陣計(jì)算單元19接收由倒頻譜逆變換單元18生成的噪聲Nmh(lin)和加法器14生成的附加了可加性噪聲的聲音Rmh(lin),并將其引入到上述表達(dá)式(6)中,其中泰勒展開(kāi)的一階導(dǎo)數(shù)J=Rm(cep)/Nm(cep)是作為雅可比矩陣J事先產(chǎn)生的。
并且,乘法器24將雅可比矩陣J與來(lái)自加法器和減法器23a的可加性噪聲的倒頻譜變化量Namh′(cep)相乘,并將相乘結(jié)果J[Namh′(cep)]提供給加法器25。進(jìn)一步,加法器25將相乘結(jié)果J[Namh′(cep)]與初始合成HMM16相加,從而生成自適應(yīng)HMM26。
此外,根據(jù)上述表達(dá)式(11),使相乘結(jié)果J[Namh′(cep)]變成J[Na(cep)+Hm2^(cep)-Ha^(cep)-Nm(cep)-Hm1^(cep)],于是,自適應(yīng)HMM 26成為Radp′(cep)=Rmh(cep)+J[Na(cep)+Hm2^(cep)-Ha^(cep)-Nm(cep)-Hm1^(cep)]=ecp[Sm(lin)Hm(lin)+Na(lin)Hm2^(lin)Ha^(lin)]......(13)]]>加法器30將來(lái)自第二平均計(jì)算單元11b的估計(jì)值Hm2^(cep)與由加法器和減法器28提供的講話(huà)聲音Ra(cep)與估計(jì)值Ha^(cep)之間的差值Ra(cep)-Ha^(cep)相加,生成觀察值序列RNah(cep)=Ra(cep)-Ha^(cep)+Hm2^(cep),并將其提供給對(duì)照單元29。
因此,如表達(dá)式(14)所示,觀察值序列RNah(cep)成為RNah(cep)=Ra(cep)-Ha^(cep)+Hm2^(cep)=cep[Sa(lin)Ha(lin)Hm2^(lin)Ha^(lin)+Na(lin)Hm2^(lin)Ha^(lin)]]]>=cep[Sa(lin)Ha(lin)Hm(lin)Hae(cep)Ha(lin)Hme(cep)+Na(lin)Hm2^(lin)Ha^(lin)]]]>=cep[Sa(lin)Hm(lin)+Na(lin)Hm2^(lin)Ha^(lin)]......(14)]]>下面對(duì)如上所述構(gòu)成的聲音識(shí)別系統(tǒng)的操作加以描述。
首先,如上所述,在開(kāi)始真正的聲音識(shí)別之前,事先準(zhǔn)備好聲音HMM10、初始噪聲HMM17和初始合成HMM16,并且,由雅可比矩陣計(jì)算單元19準(zhǔn)備雅可比矩陣J。
隨著用戶(hù)打開(kāi)講話(huà)開(kāi)始開(kāi)關(guān),麥克風(fēng)(未示出)進(jìn)入聲音收集狀態(tài),轉(zhuǎn)換單元22在開(kāi)始真正講話(huà)之前的非講話(huà)期間內(nèi)切換到觸點(diǎn)“a”一側(cè),其中輸入背景噪聲Na。因此,背景噪聲Na的倒頻譜Na(cep)通過(guò)逐幀分割單元20、倒頻譜運(yùn)算單元21和轉(zhuǎn)換單元22提供給加法器和減法器23a。進(jìn)一步,將平均計(jì)算單元27在最后一次講話(huà)中已經(jīng)獲得的可積性失真的估計(jì)值Ha^(cep)提供給加法器和減法器23a。同時(shí),將來(lái)自加法器12a的噪聲Nmh(cep)和來(lái)自第二平均計(jì)算單元11b的估計(jì)值Hm2^(cep)也提供給它。通過(guò)對(duì)在最后一次講話(huà)中進(jìn)行Ha^估計(jì)(如后所述)用的講話(huà)聲音范圍(相當(dāng)于過(guò)去數(shù)次講話(huà))內(nèi)的與識(shí)別結(jié)果相對(duì)應(yīng)的子字聲音HMM的平均矢量求平均,可以估計(jì)出HM2^(cep)。
并且,加法器和減法器23a獲取上述表達(dá)式(11)所表示的可加性噪聲的倒頻譜變化量Namh′(cep),乘法器24將這個(gè)可加性噪聲的倒頻譜變化量Namh′(cep)與雅可比矩陣J相乘。接著,加法器25以字或子字為單位將相乘結(jié)果J[Namh′(cep)]與初始合成HMM16相加,生成自適應(yīng)HMM26。
然后,當(dāng)自適應(yīng)HMM26的生成已完成時(shí),轉(zhuǎn)換單元22切換到觸點(diǎn)“b”一側(cè)。隨著用戶(hù)真正發(fā)出聲音,逐幀分割單元20將講話(huà)聲音Ra分割成幀,并且倒頻譜運(yùn)算單元21使講話(huà)聲音Ra變成倒頻譜域中的講話(huà)聲音Ra(cep),其中通過(guò)轉(zhuǎn)換單元22將其提供給平均計(jì)算單元27和減法器28。
從而,平均計(jì)算單元27更新和存儲(chǔ)可積性失真Ha在倒頻譜域中的估計(jì)值Ha^(cep)。在更新之前,將最后一次講話(huà)中估計(jì)出來(lái)的Ha^(cep)提供給加法器和減法器28。
加法器和減法器28通過(guò)從講話(huà)聲音Ra(cep)中減去估計(jì)值Ha^(cep),生成消除了可積性失真的觀察值序列RNah(cep)=Ra(cep)-Ha^(cep),對(duì)照單元29以字或子字為單元將觀察值序列RNah(cep)與自適應(yīng)HMM26相對(duì)照,其中輸出具有最大似然的自適應(yīng)HMM,作為聲音識(shí)別的結(jié)果。
這里,觀察值序列RNah(cep)由上述表達(dá)式(14)來(lái)表示,和自適應(yīng)HMM26由上述表達(dá)式(13)來(lái)表示。也就是說(shuō),由于觀察值序列RNah(cep)的噪聲譜和自適應(yīng)HMM 26的噪聲譜變成了Na(lin)Hm2^(lin)/Ha^(lin),因此,自適應(yīng)HMM26變成與觀察值序列RNa(cep)相匹配的聲學(xué)模型。
此外,當(dāng)對(duì)照單元29將觀察值序列RNa(cep)與自適應(yīng)HMM26相對(duì)照時(shí),由于噪聲譜Na(lin)Hm2^(lin)/Ha^(lin)對(duì)于RNa(cep)與自適應(yīng)HMM26是相同的,所以,可積性失真Hm(cep)疊加在純聲音Sm(cep)上面的聲音Sm(cep)Hm(cep)與可積性失真Ha(cep)疊加在純聲音Sa(cep)上面的聲音Sa(cep)Ha(cep)相互對(duì)照。因此,可以通過(guò)基本抵消Na(lin)Hm2^(lin)/Ha^(lin)的影響來(lái)對(duì)它們加以對(duì)照,并且,可以通過(guò)基本抵消由于可積性失真Hm(cep)和Ha(cep)帶來(lái)的影響來(lái)對(duì)它們加以對(duì)照。也就是說(shuō),可以基本抵消可加性噪聲和可積性失真兩者帶來(lái)的影響,其中,由于可以將純聲音Sm(cep)與純聲音Sa(cep)相互對(duì)照,因此,可以進(jìn)一步提高聲音識(shí)別率。
因此,根據(jù)本實(shí)施例的聲音識(shí)別系統(tǒng),可以使自適應(yīng)HMM26變成與在真正講話(huà)時(shí)獲得的觀察值序列RNah(cep)相匹配的聲學(xué)模型,同時(shí),由于系統(tǒng)被構(gòu)造成足以對(duì)付可加性噪聲和可積性失真,因此,這種聲音識(shí)別系統(tǒng)是抗可加性噪聲和可積性失真干擾的,其中聲音識(shí)別率可以得到提高。此外,由于實(shí)現(xiàn)了足以應(yīng)用雅可比矩陣的配置,因此,可以顯著縮短聲音識(shí)別所需的時(shí)間。
在上述第一和第二實(shí)施例的描述中,諸如聲音與噪聲相加和聲音與噪聲相減之類(lèi)的運(yùn)算是在線性譜域和倒頻譜域中實(shí)現(xiàn)的,在本說(shuō)明書(shū)中,術(shù)語(yǔ)“合成”指的是加法和減法的運(yùn)算。因此,例如,即使在圖2中的減法器28中的Ha^(cep)與Ra(cep)相減也可以描述為“Ra(cep)和Ha^(cep)的合成”或“合成Ra(cep)和Ha^(cep)”。
如上所述,本發(fā)明的聲音識(shí)別系統(tǒng)被構(gòu)造成能從聲音模型和噪聲模型中生成合成聲音模型,同時(shí),根據(jù)用作參考模型的合成聲音模型生成事先包括可積性失真和可加性噪聲的信息的自適應(yīng)模型,其中,當(dāng)真正開(kāi)始講話(huà)時(shí),通過(guò)將從講話(huà)聲音中生成的觀察值序列和自適應(yīng)模型相對(duì)照來(lái)實(shí)現(xiàn)聲音識(shí)別,和把自適應(yīng)模型構(gòu)造成能與觀察值序列相匹配。因此,可以提供抗可積性失真和可加性噪聲干擾的和能夠充分進(jìn)行聲音識(shí)別的聲音識(shí)別系統(tǒng)。
此外,可以提供最好被構(gòu)造成通過(guò)利用雅可比矩陣在運(yùn)算量或計(jì)算量方面顯著減少的聲音識(shí)別系統(tǒng),從而可以提供高速聲音識(shí)別系統(tǒng)。
權(quán)利要求
1.一種聲音識(shí)別系統(tǒng),包括聲音模型,從事先采集的、包含可積性失真的聲音中生成;噪聲模型,從事先采集的可加性噪聲中生成;第一估計(jì)單元,估計(jì)包含在聲音模型中的可積性失真的第一估計(jì)值;合成聲音模型,根據(jù)附加了噪聲的聲音生成,所述聲音是通過(guò)合成聲音模型、可積性失真的第一估計(jì)值和噪聲模型的可加性噪聲進(jìn)行處理而得到的;計(jì)算單元,根據(jù)噪聲模型的可加性噪聲和附加了噪聲的聲音計(jì)算雅可比矩陣;第二估計(jì)單元,估計(jì)包含在講話(huà)聲音中的可積性失真的第二估計(jì)值;第一運(yùn)算單元,通過(guò)將在非講話(huà)期間生成的可加性噪聲、噪聲模型的可加性噪聲、和第二估計(jì)單元估計(jì)的可積性失真的第二估計(jì)值合成在一起的處理,獲得噪聲變化量,所述第一運(yùn)算單元同時(shí)將噪聲變化量與計(jì)算單元計(jì)算的雅可比矩陣相乘;自適應(yīng)模型,通過(guò)將第一運(yùn)算單元獲得的相乘結(jié)果與合成聲音模型合成在一起的處理生成;和第二運(yùn)算單元,通過(guò)將講話(huà)聲音與第二估計(jì)單元估計(jì)的可積性失真的第二估計(jì)值合成在一起的處理,生成觀察值序列;其中,聲音識(shí)別是通過(guò)將觀察值序列與自適應(yīng)模型相對(duì)照實(shí)現(xiàn)的。
2.根據(jù)權(quán)利要求1所述的聲音識(shí)別系統(tǒng),其中,第一估計(jì)單元通過(guò)從倒頻譜域中非講話(huà)期間生成的可加性噪聲中減去噪聲模型的可加性噪聲和由第二估計(jì)單元估計(jì)的可積性失真的第二估計(jì)值,實(shí)現(xiàn)合成處理。
3.一種聲音識(shí)別系統(tǒng),包括聲音模型,從事先采集的、包含可積性失真的聲音中生成;噪聲模型,從事先采集的可加性噪聲中生成;第一估計(jì)單元,估計(jì)包含在聲音模型中的可積性失真的第一估計(jì)值;第二估計(jì)單元,根據(jù)識(shí)別結(jié)果,估計(jì)聲音模型中包含隨講話(huà)聲音變化的誤差的可積性失真的第二估計(jì)值;第一運(yùn)算單元,將噪聲模型的可加性噪聲與第一估計(jì)單元估計(jì)的可積性失真值合成在一起;合成聲音模型,根據(jù)通過(guò)將第一運(yùn)算單元的合成結(jié)果與聲音模型合成在一起的處理所得的附加了噪聲的聲音生成;計(jì)算單元,從第一運(yùn)算單元所得的合成結(jié)果和附加了噪聲的聲音中計(jì)算雅可比矩陣;第三估計(jì)單元,估計(jì)真正講話(huà)聲音中包含隨真正講話(huà)聲音變化的誤差的可積性失真的第三估計(jì)值;第二運(yùn)算單元,通過(guò)將在非講話(huà)期間生成的可加性噪聲、第一運(yùn)算單元所得的合成結(jié)果、第二估計(jì)單元估計(jì)的第二估計(jì)值、和第三估計(jì)單元估計(jì)的的第三估計(jì)值合成在一起的處理,獲取噪聲變化量,同時(shí)第二運(yùn)算單元將噪聲變化量與計(jì)算單元計(jì)算的雅可比矩陣相乘;自適應(yīng)模型,通過(guò)將第二運(yùn)算單元獲得的相乘結(jié)果與合成聲音模型合成在一起的處理生成;和第三運(yùn)算單元,通過(guò)將真正講話(huà)聲音與第二估計(jì)單元估計(jì)的第二估計(jì)值和第三估計(jì)單元估計(jì)的第三估計(jì)值合成在一起的處理,生成觀察值序列;其中,聲音識(shí)別是通過(guò)將觀察值序列與自適應(yīng)模型相對(duì)照實(shí)現(xiàn)的。
4.根據(jù)權(quán)利要求3所述的聲音識(shí)別系統(tǒng),其中,第二運(yùn)算單元通過(guò)從倒頻譜域中非講話(huà)期間生成的可加性噪聲中加上第二估計(jì)單元估計(jì)的第二估計(jì)值,減去第一運(yùn)算單元產(chǎn)生的合成結(jié)果以及第三估計(jì)單元估計(jì)的第三估計(jì)值,實(shí)現(xiàn)合成處理。
5.一種聲音識(shí)別方法,包括下列步驟從事先采集的和包含可積性失真的聲音中生成聲音模型;從事先采集的可加性噪聲中生成噪聲模型;估計(jì)包含在聲音模型中的可積性失真的第一估計(jì)值;將聲音模型、可積性失真的第一估計(jì)值和噪聲模型的可加性噪聲合成在一起,以從附加了噪聲的聲音中生成合成聲音模型;根據(jù)噪聲模型的可加性噪聲和附加了噪聲的聲音,計(jì)算雅可比矩陣;估計(jì)包含在講話(huà)聲音中的可積性失真的第二估計(jì)值;將在非講話(huà)期間生成的可加性噪聲、噪聲模型的可加性噪聲、和第二估計(jì)值合成在一起,獲得噪聲變化量,將噪聲變化量與雅可比矩陣相乘;將在相乘步驟中獲得的相乘結(jié)果與合成聲音模型合成在一起,生成自適應(yīng)模型;和將講話(huà)聲音與第二估計(jì)值合成在一起,生成觀察值序列;將觀察值序列與自適應(yīng)模型相對(duì)照,以實(shí)現(xiàn)聲音識(shí)別。
6.根據(jù)權(quán)利要求5所述的聲音識(shí)別方法,其中,合成步驟從倒頻譜域中非講話(huà)期間產(chǎn)生的可加性噪聲中減去噪聲模型的可加性噪聲和由第二估計(jì)單元估計(jì)的可積性失真的第二估計(jì)值。
7.一種聲音識(shí)別方法,包括下列步驟從事先采集的和包含可積性失真的聲音中生成聲音模型;從事先采集的可加性噪聲中生成噪聲模型;估計(jì)包含在聲音模型中的可積性失真的第一估計(jì)值;根據(jù)識(shí)別結(jié)果,估計(jì)聲音模型中包含隨講話(huà)聲音變化的誤差的可積性失真的第二估計(jì)值;將噪聲模型的可加性噪聲與可積性失真的第一估計(jì)值合成在一起;將第一合成步驟中所得的合成結(jié)果與聲音模型合成在一起,以從附加了噪聲的聲音中生成合成聲音模型;從第一合成步驟中所得的合成結(jié)果和附加了噪聲的聲音中計(jì)算雅可比矩陣;估計(jì)真正講話(huà)聲音中包含隨真正講話(huà)聲音變化的誤差的可積性失真的第三估計(jì)值;將在非講話(huà)期間生成的可加性噪聲、第一運(yùn)算步驟所得的合成結(jié)果、第二估計(jì)值、和第三估計(jì)值合成在一起,獲取噪聲變化量,將噪聲變化量與雅可比矩陣相乘;將在相乘步驟中所得的相乘結(jié)果與合成聲音模型合成在一起,生成自適應(yīng)模型;和將真正講話(huà)聲音、第二估計(jì)值和第三估計(jì)值合成在一起,生成觀察值序列;將觀察值序列與自適應(yīng)模型相對(duì)照,實(shí)現(xiàn)聲音識(shí)別。
8.根據(jù)權(quán)利要求3所述的聲音識(shí)別方法,其中,第三合成步驟通過(guò)從倒頻譜域中非講話(huà)期間生成的可加性噪聲中加上第二估計(jì)值,減去第一合成結(jié)果以及第三估計(jì)值。
全文摘要
從含有可積性失真和可加性噪聲的初始噪聲HMM的聲音HMM10中生成初始合成HMM16,同時(shí)由雅可比矩陣計(jì)算單元19計(jì)算雅可比矩陣J。將可積性失真的估計(jì)值Ha^(cep)、可加性噪聲Na(cep)和初始噪聲HMM17的可加性噪聲Nm(cep)合成所得的噪聲變化量Namh(cep)與雅可比矩陣相乘,其中將相乘結(jié)果和初始合成HMM16進(jìn)行合成,并生成自適應(yīng)HMM26。從而可以事先生成與從真正講話(huà)聲音中生成的觀察值序列RNa(cep)相匹配的自適應(yīng)HMM26。當(dāng)通過(guò)將觀察值序列RNa(cep)與自適應(yīng)HMM26對(duì)照進(jìn)行聲音識(shí)別時(shí),抵消了可積性失真和可加性噪聲的影響,其中可以獲得與利用純聲音實(shí)現(xiàn)聲音識(shí)別的情況等效的效果,并可以實(shí)現(xiàn)抗干擾的聲音識(shí)別系統(tǒng)。
文檔編號(hào)G10L15/06GK1345030SQ0114061
公開(kāi)日2002年4月17日 申請(qǐng)日期2001年9月18日 優(yōu)先權(quán)日2000年9月18日
發(fā)明者瀨尾尋, 駒村光彌, 外山聰一 申請(qǐng)人:日本先鋒公司