專利名稱:語音識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別系統(tǒng),尤其涉及對噪聲不敏感的揚(yáng)聲器自適應(yīng)類型語音識別系統(tǒng)。
背景技術(shù):
在相關(guān)技術(shù)中,例如,在圖9中所示的系統(tǒng)作為揚(yáng)聲器自適應(yīng)語音識別系統(tǒng)是眾所周知的。
這個語音識別系統(tǒng)裝備有未指定揚(yáng)聲器的預(yù)先準(zhǔn)備的標(biāo)準(zhǔn)聲音模型100中,并且通過利用從指定揚(yáng)聲器發(fā)出的輸入語音產(chǎn)生的輸入信號Sc的特征向量和標(biāo)準(zhǔn)聲音模型100來準(zhǔn)備揚(yáng)聲器自適應(yīng)聲音模型200,通過使系統(tǒng)適應(yīng)指定揚(yáng)聲器的語音來進(jìn)行語音識別。
當(dāng)準(zhǔn)備自適應(yīng)聲音模型200的時候,相應(yīng)于指定文本(句子或者音節(jié))Tx的標(biāo)準(zhǔn)向量Va從標(biāo)準(zhǔn)聲音模型100提供到路徑搜索部分4和揚(yáng)聲器適配部分5,并且實(shí)際上,通過由指定的揚(yáng)聲器發(fā)出指定文本Tx,輸入輸入信號Sc。
然后,在加性噪聲減少部分1除去包括在輸入信號Sc中的加性噪聲之后,特征向量生成部分2生成表示輸入信號Sc的特征量的特征向量序列Vcf。進(jìn)一步的,倍增噪聲除去部分3除去來自特征向量序列Vcf的倍增噪聲,并且生成從中除去加性噪聲和倍增噪聲的特征向量序列Vc。特征向量序列Vc被提供給路徑搜索部分4和揚(yáng)聲器適配部分5。
以這種方式,當(dāng)將標(biāo)準(zhǔn)向量Va和實(shí)際發(fā)出的輸入信號Sc的特征向量序列Vc提供給路徑搜索部分4和揚(yáng)聲器適配部分5的時候,路徑搜索部分4比較特征向量序列Vc和標(biāo)準(zhǔn)向量Va。然后,發(fā)現(xiàn)用于每個音節(jié)的特征向量序列Vc的出現(xiàn)概率,和從一個音節(jié)到另一個音節(jié)的狀態(tài)遷移概率。此后,當(dāng)揚(yáng)聲器適配部分5依據(jù)出現(xiàn)概率和狀態(tài)遷移概率來補(bǔ)償標(biāo)準(zhǔn)向量Va的時候,準(zhǔn)備適應(yīng)于指定揚(yáng)聲器特有的語音(輸入信號)特征的揚(yáng)聲器自適應(yīng)聲音模型200。
然后,使揚(yáng)聲器自適應(yīng)聲音模型200適應(yīng)由通過指定揚(yáng)聲器的發(fā)出的聲音產(chǎn)生的輸入信號。此后,當(dāng)指定揚(yáng)聲器任意發(fā)聲的時候,從發(fā)出的聲音產(chǎn)生的輸入信號的特征向量與揚(yáng)聲器自適應(yīng)聲音模型200的自適應(yīng)向量進(jìn)行對照,并且以使給予最高似真的揚(yáng)聲器自適應(yīng)聲音模型200生成識別結(jié)果的方式進(jìn)行語音識別。
在這方面,在上述傳統(tǒng)的適配器類型語音識別系統(tǒng)中,當(dāng)準(zhǔn)備自適應(yīng)聲音模型200的時候,加性噪聲減少部分1利用頻譜減法除去加性噪聲,倍增噪聲減少部分3利用CMN(倒譜方式規(guī)格化)方法除去倍增噪聲,因此,準(zhǔn)備了不受噪聲影響的揚(yáng)聲器自適應(yīng)聲音模型200。
即,加性噪聲減少部分1在找到輸入信號Sc的頻譜之后從輸入信號Sc的頻譜中除去加性噪聲的頻譜。倍增噪聲減少部分3在找到輸入信號Sc的倒譜的時間平均值之后從輸入信號Sc的倒譜中減去時間平均值。
然而,同樣在任何一個頻譜減法和CMN方法中,很難只除去噪聲。因?yàn)橐灿衼G失了通過揚(yáng)聲器適配補(bǔ)償?shù)奶赜袚P(yáng)聲器的發(fā)音的特征信息的情況,所以不能準(zhǔn)備適當(dāng)?shù)膿P(yáng)聲器自適應(yīng)聲音模型200。因此,存在降低語音識別率的問題。
發(fā)明內(nèi)容
本發(fā)明的一個目的是提供對噪聲不敏感的揚(yáng)聲器自適應(yīng)類型語音識別系統(tǒng),以便達(dá)到語音識別速率的增加。
為了實(shí)現(xiàn)上述目的,提供了語音識別系統(tǒng),包括具有依據(jù)語音信息產(chǎn)生的標(biāo)準(zhǔn)向量的標(biāo)準(zhǔn)聲音模型;用于從由與指定文本相對應(yīng)的發(fā)出語音生成的輸入信號中減少噪聲以便生成第一特征向量的第一特征向量生成部分;用于從具有噪聲的輸入信號中生成第二特征向量的第二特征向量生成部分;和用于根據(jù)第一特征向量、第二特征向量和標(biāo)準(zhǔn)向量生成自適應(yīng)向量并且準(zhǔn)備適合于發(fā)出語音的揚(yáng)聲器自適應(yīng)聲音模型的準(zhǔn)備部分。
依據(jù)本發(fā)明,準(zhǔn)備部分比較第一特征向量和標(biāo)準(zhǔn)向量以便獲得路徑搜索結(jié)果;和準(zhǔn)備部分依據(jù)路徑搜索結(jié)果配位第二特征向量和標(biāo)準(zhǔn)向量以便生成自適應(yīng)向量。
依據(jù)本發(fā)明,噪聲包括加性噪聲和倍增噪聲。
依據(jù)本發(fā)明,第一特征向量生成部分包括用于從輸入信號中降低加性噪聲的加性噪聲減少部分。
依據(jù)本發(fā)明,加性噪聲減少部分將一變換應(yīng)用到輸入信號以便生成第一頻譜并且從第一頻譜中減去相應(yīng)于加性噪聲的加性噪聲頻譜。
依據(jù)本發(fā)明,第一特征向量生成部分包括用于將倒譜計算應(yīng)用到加性噪聲減少信號的倒譜計算器。
依據(jù)本發(fā)明,第一特征向量生成部分包括用于通過從第一特征向量中減去倍增噪聲來減少倍增噪聲的倍增噪聲減少部分。
依據(jù)本發(fā)明,第一特征向量包括多個時間序列第一特征向量;和倍增噪聲減少部分計算時間序列第一特征向量的時間平均值,用于估計倍增噪聲。
依據(jù)本發(fā)明,第二特征向量生成部分至少對第二頻譜應(yīng)用倒譜計算以便生成第二特征向量。
依據(jù)這樣的結(jié)構(gòu),在揚(yáng)聲器適配的情況下,第一特征向量生成部分生成除了圍繞揚(yáng)聲器的外圍環(huán)境的加性噪聲或者諸如本語音識別系統(tǒng)自身的傳輸噪聲這樣的倍增噪聲以外的第一特征向量。第二特征向量生成部分生成包括圍繞揚(yáng)聲器的外圍環(huán)境的加性噪聲或者諸如本語音識別系統(tǒng)自身的傳輸噪聲這樣的倍增噪聲的特征的第二特征向量。然后,準(zhǔn)備部分通過依據(jù)不包括噪聲的第一特征向量和包括噪聲的第二特征向量補(bǔ)償標(biāo)準(zhǔn)向量來生成自適應(yīng)向量。因此,采用的向量生成適應(yīng)揚(yáng)聲器語音的更新的揚(yáng)聲器自適應(yīng)聲音模型。
如上所述,依據(jù)不包括噪聲的特征向量和包括噪聲的特征向量,可以補(bǔ)償在標(biāo)準(zhǔn)聲音模型中的標(biāo)準(zhǔn)向量。因此,能夠準(zhǔn)備與實(shí)際發(fā)音環(huán)境相一致的揚(yáng)聲器自適應(yīng)聲音模型,并且能夠?qū)崿F(xiàn)對噪聲敏感和具有較高語音識別率的語音識別系統(tǒng)。
進(jìn)一步的,第二特征向量生成部分生成特征向量而不用除去加性噪聲或者倍增噪聲,并且特征向量用于揚(yáng)聲器適配。因此,不用除去初始語音的特征信息,并且能夠生成適當(dāng)?shù)膿P(yáng)聲器自適應(yīng)聲音模型。
圖1是表示本發(fā)明實(shí)施例的語音識別系統(tǒng)結(jié)構(gòu)的方框圖;圖2是典型地表示標(biāo)準(zhǔn)聲音模型結(jié)構(gòu)的表格;圖3是表示在揚(yáng)聲器適配的時候在特征向量生成部分12中生成的特征向量序列[si,M]的表格;圖4是表示在揚(yáng)聲器適配的時候從倍增噪聲減少部分9輸出的特征向量序列[ci,M]的表格;圖5是表示依據(jù)幀數(shù)和狀態(tài)數(shù)的特征向量序列[ci,M]和標(biāo)準(zhǔn)向量[a0,M]的對應(yīng)關(guān)系圖表;圖6是表示特征向量序列[ci,M]、標(biāo)準(zhǔn)向量[a0,M]、幀數(shù)和狀態(tài)數(shù)的關(guān)系表格;圖7是表示由揚(yáng)聲器適配生成的平均特征向量和標(biāo)準(zhǔn)向量的關(guān)系的圖表;圖8是表示在更新之后揚(yáng)聲器自適應(yīng)聲音模型的內(nèi)容表格;圖9是表示在相關(guān)技術(shù)中揚(yáng)聲器適配類型語音識別系統(tǒng)的結(jié)構(gòu)方框圖。
具體實(shí)施例方式
參考附圖,下面將結(jié)合附圖描述本發(fā)明。在這方面,圖1是表示依據(jù)本發(fā)明的實(shí)施例的語音識別系統(tǒng)結(jié)構(gòu)方框圖。
在圖1中,語音識別系統(tǒng)包括通過利用隱藏馬爾可夫模型(HMM)預(yù)先準(zhǔn)備的未指定的揚(yáng)聲器的標(biāo)準(zhǔn)聲音模型(在下文,稱為[標(biāo)準(zhǔn)語音HMM])300和由揚(yáng)聲器適配準(zhǔn)備的揚(yáng)聲器適配聲音模型(在下文,稱為[自適應(yīng)語音HMM])400。
在這方面,為了容易地理解本發(fā)明的實(shí)施例,標(biāo)準(zhǔn)語音HMM300的狀態(tài)數(shù)定義為1。此外,標(biāo)準(zhǔn)語音HMM300具有用于每個音節(jié)的出現(xiàn)概率分布,并且出現(xiàn)概率分布的平均向量將成為標(biāo)準(zhǔn)向量。
因此,如圖2典型所示,標(biāo)準(zhǔn)語音HMM300具有用于每個音節(jié)的M維標(biāo)準(zhǔn)向量 。即,當(dāng)準(zhǔn)備標(biāo)準(zhǔn)語音HMM300的時候,例如,為每個預(yù)定時間構(gòu)造在無聲環(huán)境下從通過一個或者多個揚(yáng)聲器(未指定的揚(yáng)聲器)發(fā)出的語音中生成的語音數(shù)據(jù)。構(gòu)成的語音數(shù)據(jù)進(jìn)行連續(xù)的倒譜操作,以便在倒譜域中生成用于每個音節(jié)的多幀的特征向量序列。獲得用于多幀的特征向量序列的平均值準(zhǔn)備了由每個音節(jié)的標(biāo)準(zhǔn)向量 組成的標(biāo)準(zhǔn)語音HMM300。
在這里,標(biāo)準(zhǔn)向量 的變量n表示識別每個音節(jié)的狀態(tài)數(shù),變量M表示向量的維數(shù)。例如,相應(yīng)于狀態(tài)數(shù)n=1的日語音節(jié)[A]被表示為M維標(biāo)準(zhǔn)向量 ,相應(yīng)于狀態(tài)數(shù)n=2的日語音節(jié)[I]被表示為M維標(biāo)準(zhǔn)向量 。相同的規(guī)則對應(yīng)地應(yīng)用如下,余下的音節(jié)也被表示為以狀態(tài)數(shù)n區(qū)別的M維標(biāo)準(zhǔn)向量 。
在將在后面描述的揚(yáng)聲器適配的時候,將預(yù)先確定的句子或者音節(jié)的指定正丈Tx提供給標(biāo)準(zhǔn)語音HMM300,相應(yīng)于構(gòu)成指定正文Tx的音節(jié)的標(biāo)準(zhǔn)向量 依照字節(jié)的排列順序被提供給路徑搜索部分10和揚(yáng)聲器適配部分11。
例如,當(dāng)提供日語[KONNICHIWA]的指定正文Tx的時候,相應(yīng)于表示[KO]、[N]、[NI]、[CHI]、[WA]的各自狀態(tài)數(shù)n=10,46,22,17,44的標(biāo)準(zhǔn)向量[a10,1,a10,2,a10,3,....a10,M]、[a46,1,a46,2,a46,3,....a46,M]、[a22,1,a22,2,a22,3,....a22,M]、[a17,1,a17,2,a17,3,....a17,M]和[a44,1,a44,2,a44,3,....a44,M]按順序被提供給路徑搜索部分10和揚(yáng)聲器適配部分11。
此外,本發(fā)明的語音識別系統(tǒng)裝配有組幀部分6,加性噪聲減少部分7,特征向量生成部分8,倍增噪聲減少部分9,和特征向量生成部分12。
當(dāng)指定揚(yáng)聲器實(shí)際上在揚(yáng)聲器適配的時候發(fā)出指定正文Tx的時候,組幀部分6將從發(fā)出的語音中生成的輸入信號Sc分成用于每個預(yù)定時間(例如,10-20毫秒)的幀,并且將它輸出到加性噪聲減少部分7、13和特征向量生成部分12。
加性噪聲減少部分7對被分成每個幀的每個構(gòu)成的輸入信號Scf連續(xù)進(jìn)行傅立葉變換以便生成用于每幀的頻譜。此外,在頻譜域中除去包括在每個頻譜中的加性噪聲以便輸出頻譜。
特征向量生成部分8在不具有用于每幀的加性噪聲的頻譜上執(zhí)行倒譜操作以便在倒譜域中生成特征向量序列[ci,M]’。在這方面,特征向量序列[ci,M]’的變量i表示順序(號),變量M表示維數(shù)。
倍增噪聲減少部分9通過利用CMN方法從特征向量序列[ci,M]’中除去倍增噪聲。即,由特征向量生成部分8為每幀i獲得的多個向量特征序列[ci,M]’是用于每維的平均時間。當(dāng)從每個特征向量[ci,M]’中減去由此獲得的M維時間平均值[c^M]以便生成從中除去倍增噪聲的特征向量序列[ci,M]的時候,由此生成的特征向量序列[ci,M]被提供給路徑搜索部分10。
當(dāng)為從組幀部分6輸出的幀分開的每個成幀輸入信號Scf連續(xù)進(jìn)行傅立葉變換的時候,特征向量生成部分12生成幀頻譜。此外,當(dāng)每個頻譜為每個幀執(zhí)行倒譜操作的時候,在倒譜域中生成特征向量序列[si,M],并且提供到揚(yáng)聲器適配部分11。在這方面,特征向量序列[si,M]的變量i表示用于每個幀的順序,變量M表示維數(shù)。
如此,將指定正文Tx、標(biāo)準(zhǔn)向量[an,M]和特征向量[ci,M]提供給路徑搜索部分10。將指定正文Tx、標(biāo)準(zhǔn)向量[an,M]和特征向量[si,M]提供給揚(yáng)聲器適配部分11。
路徑搜索部分10比較標(biāo)準(zhǔn)向量[an,M]和特征向量序列[ci,M],并且判斷指定正文Tx的哪個音節(jié)對應(yīng)每幀的特征向量序列[ci,M]。將路徑搜索結(jié)果Dv提供給揚(yáng)聲器適配部分11。
揚(yáng)聲器適配部分11依據(jù)路徑搜索結(jié)果Dv將來自特征向量生成部分12的特征向量序列[si,M]分成每個音節(jié)。然后,獲得用于每維的關(guān)于每個劃分音節(jié)的特征向量序列[si,M]的平均值。最后,生成用于每個音節(jié)的平均特征向量[s^n,M]。
此外,揚(yáng)聲器適配部分11找到在相應(yīng)于指定正文Tx的每個音節(jié)的標(biāo)準(zhǔn)向量[an,M]和平均特征向量[s^n,M]之間的差分向量[dn,M]。然后,對這些差分向量[dn,M]進(jìn)行平均操作致使發(fā)現(xiàn)表示指定揚(yáng)聲器的特征的M維運(yùn)動向量[mM]。此外,通過將運(yùn)動向量[mM]增加到來自標(biāo)準(zhǔn)語音HMM300的所有語音的標(biāo)準(zhǔn)向量[an,M]上來生成所有音節(jié)的自適應(yīng)向量[xn,M]。利用這些自適應(yīng)向量[xn,M]更新自適應(yīng)語音HMM300。
接下來,結(jié)合圖2-圖8,將詳細(xì)描述路徑搜索部分10和揚(yáng)聲器適配部分11的功能。
在這方面,日語[KONNICHIWA]的指定正文Tx用作典型例子。
此外,定義從揚(yáng)聲器發(fā)出的日語[KONNICHIWA]的輸入信號Sc被組幀部分6分成30幀并且被輸入。
如圖2所示,標(biāo)準(zhǔn)語音HMM300準(zhǔn)備作為相應(yīng)于多個音節(jié)的每一個的未指定揚(yáng)聲器的標(biāo)準(zhǔn)向量[an,M]。此外,通過狀態(tài)數(shù)n將每個音節(jié)分類。
此外,如圖2所示,在揚(yáng)聲器適配以前將自適應(yīng)語音HMM400設(shè)定為與標(biāo)準(zhǔn)語音HMM300的標(biāo)準(zhǔn)向量[an,M]相同的內(nèi)容(默認(rèn)設(shè)置)。
在揚(yáng)聲器適配處理的開始,將日語[KONNICHIWA]的指定正文Tx提供到標(biāo)準(zhǔn)語音HMM300。然后,將相應(yīng)于表示音節(jié)[KO]的狀態(tài)數(shù)n=10的標(biāo)準(zhǔn)向量[a10,1,a10,2,a10,3,....a10,M],相應(yīng)于表示音節(jié)[N]的狀態(tài)數(shù)n=46的標(biāo)準(zhǔn)向量[a46,1,a46,2,a46,3,....a46,M],相應(yīng)于表示音節(jié)[NI]的狀態(tài)數(shù)n=22的標(biāo)準(zhǔn)向量[a22,1,a22,2,a22,3,....a22,M],相應(yīng)于表示音節(jié)[CHI]的狀態(tài)數(shù)n=17的標(biāo)準(zhǔn)向量[a17,1,a17,2,a17,3,....a17,M],相應(yīng)于表示音節(jié)[WA]的狀態(tài)數(shù)n=44的標(biāo)準(zhǔn)向量[944,1,a44,2,a44,3,....a44,M]提供給路徑搜索部分10和揚(yáng)聲器適配部分11。
接下來,當(dāng)揚(yáng)聲器發(fā)出[KONNICHIWA]的時候,組幀部分6依據(jù)時間的流逝將輸入信號Sc分成30幀,并且輸出被劃分的輸入信號Sc。然后,特征向量生成部分12依據(jù)每個幀的順序生成成幀的輸入信號Scf的特征向量[s1,1,s1,2,s1,3,....s1,M]-[s30,1,s30,2,s30,3,....s30,M],并且提供給揚(yáng)聲器適配部分11。
即,如圖3典型所示,特征向量生成部分12生成i=1-30的30幀特征向量序列[si,M]=[s1,1,s1,2,s1,3,....s1,M]-[s30,1,s30,2,s30,3,....s30,M],并且提供給揚(yáng)聲器適配部分11。
另一方面,處理系統(tǒng)包括加性噪聲減少部分7,特征向量生成部分8,和倍增噪聲減少部分9。在處理系統(tǒng)中,依據(jù)從組幀部分6提供的每個幀的成幀輸入信號Scf來生成i=1-30的30幀特征向量序列[ci,M]=[c1,1,c1,2,c1,3,....c1,M]-[c30,1,c30,2,c30,3,....c30,M],并且提供給路徑搜索部分10。即,如圖4典型所示,通過倍增噪聲減少部分9將用于30幀的特征向量序列[ci,M]=[c1,1,c1,2,c1,3,....c1,M]-[c30,1,c30,2,c30,3,....c30,M]提供給路徑搜索部分10。
路徑搜索部分10利用維特比算法或者向前向后算法的方法比較用于30幀的特征向量序列[ci,M]和相應(yīng)于指定正文Tx的每個音節(jié)的標(biāo)準(zhǔn)向量[an,M],并且找到在用于每個幀的每個時刻哪個音節(jié)對應(yīng)于特征向量序列[ci,M]。
由此,如圖5所示,將30幀的每個幀數(shù)i配位(coordinate)到表示[KONNICHIWA]的每個音節(jié)的每個狀態(tài)數(shù)n。然后,將配位的結(jié)果作為路徑搜索結(jié)果Dv提供給揚(yáng)聲器適配部分11。
揚(yáng)聲器適配部分11依據(jù)路徑搜索結(jié)果Dv將特征向量[s1,1,s1,2,s1,3,....s1,M]-[s30,1,s30,2,s30,3,....s30,M]配位到[a10,1,a10,2,a10,3,....a10,M],[a46,1,a46,2,a46,3,....a46,M],[a22,1,a22,2,a22,3,....a22,M],[a17,1,a17,2,a17,3,....a17,M],[a44,1,a44,2,a44,3,....a44,M]。
即,如圖6所示,標(biāo)準(zhǔn)向量[a10,1,a10,2,a10,3,....a10,M]被配位到相應(yīng)于通過路徑搜索獲得的音節(jié)[KO]的幀數(shù)i=1-6的特征向量[s1,1,s1,2,s1,3,....s1,M]-[s6,1,s6,2,s6,3,....s6,M]。標(biāo)準(zhǔn)向量[a46,1,a46,2,a46,3,....a46,M]被配位到相應(yīng)于音節(jié)[N]的幀數(shù)i=7-10的特征向量[s7,1,s7,2,s7,3,....s7,M]-[s10,1,s10,2,s10,3,....s10,M]。
此外,標(biāo)準(zhǔn)向量[a22,1,a22,2,a22,3,....a22,M]被配位到相應(yīng)于音節(jié)[NI]的幀數(shù)i=11-14的特征向量[s11,1,s11,2,s11,3,....s11,M]-[s14,1,s14,2,s14,3,....s14,M]。標(biāo)準(zhǔn)向量[a17,1,a17,2,a17,3,....a17,M]被配位到相應(yīng)于音節(jié)[CHI]的幀數(shù)i=15-18的特征向量[s15,1,s15,2,s15,3,....s15,M]-[s18,1,s18,2,s18,3,....s18,M]。標(biāo)準(zhǔn)向量[a44,1,a44,2,a44,3,....a44,M]被配位到相應(yīng)于音節(jié)[WA]的幀數(shù)i=19-30的特征向量[s19,1,s19,2,s19,3,....s19,M]-[s30,1,s30,2,s30,3,....s30,M]。
接下來,揚(yáng)聲器適配部分11將如圖6所示的用于30幀的特征向量[s1,1,s1,2,s1,3,....s1,M]-[s30,1,s30,2,s30,3,....s30,M]分開用于[KO]、[N]、[NI]、[CHI]、[WA]的每個音節(jié)。如圖7所示,通過獲得用于每個被劃分的特征向量的平均來生成用于[KO]、[N]、[NI]、[CHI]、[WA]的每個音節(jié)的平均特征向量[s^n,M]。
即,如圖6所示關(guān)于相應(yīng)于音節(jié)[KO]的第一至第六幀(幀數(shù)K=6)的特征向量[s1,1,s1,2,s1,3,....s1,M]-[s6,1,s6,2,s6,3,....s6,M]的第一維的6個元素s1,1-s6,1相加,如由下列表達(dá)式(1)所示,并且通過用幀數(shù)K=6乘以相加值(s1,1+s2,1+s3,1+s4,1+s5,1+s6,1)獲得平均特征向量[s^n,M]的第一維元素s^n,1。進(jìn)一步的,關(guān)于二維的6個元素用相同的方法,獲得相加值(s1,2+s2,2+s3,2+s4,2+s5,2+s6,2)。然后,通過用幀數(shù)K=6乘以它來獲得平均特征向量[s^n,M]的第二維元素s^n,2。在下面中以相同的方式,獲得直到M維的6個元素s1,M-s1,M的元素s^n,M,并且生成相應(yīng)于音節(jié)[KO]的由M維的元素s^n,1-s^n,M組成的M維平均特征向量[s^n,1,s^n,2,s^n,3,…s^n,M]。
s^n,M=(s1,1+s2,1+s3,1+s4,1+s5,1+s6,1)/K ....(1)其中在表達(dá)式(1)中的變量K是在每個音節(jié)中的幀數(shù);變量n是區(qū)別每個音節(jié)的狀態(tài)數(shù);和變量M表示維數(shù)。
因此,在表達(dá)式(1)中變量n是n=10,相應(yīng)于音節(jié)[KO]的M維平均特征向量是[s^10,1,s^10,2,s^10,3,…s^10,M]。
進(jìn)一步的,以相同的方法也可以獲得相應(yīng)于剩余音節(jié)[N]的平均特征向量[s^46,1,s^46,2,s^46,3,…s^46,M],相應(yīng)于音節(jié)[NI]的平均特征向量[s^22,1,s^22,2,s^22,3,…s^22,M],相應(yīng)于音節(jié)[CHI]的平均特征向量[s^17,1,s^17,2,s^17,3,…s^17,M],和相應(yīng)于音節(jié)[WA]的平均特征向量[s^44,1s^44,2,s^44,3,…s^44,M]。
接下來,依據(jù)下一個表達(dá)式(2),分別獲得在相應(yīng)于每個音節(jié)[KO]、[N]、[NI]、[CHI]、[WA]的平均特征向量[s^10,1,s^10,2,s^10,3,…s^10,M],[s^46,1,s^46,2,s^46,3,…s^46,M],[s^22,1,s^22,2,s^22,3,…s^22,M],[s^17,1,s^17,2,s^17,3,…s^17,M],[s^44,1,s^44,2,s^44,3,…s^44,M]和標(biāo)準(zhǔn)向量[a10,1,a10,2,a10,3,....a10,M],[a46,1,a46,2,a46,3,....a46,M],[a22,1,a22,2,a22,3,....a22,M],[a17,1,a17,2,a17,3,....a17,M]和[a44,1,a44,2,a44,3,....a44,M]之間的差分向量[d10,1,....d10,M],[d46,1,....d46,M],[d22,1,....d22,M],[d17,1,....d17,M],[d44,1,....d44,M]。
dn,j=s^n,j-an,j… (2)其中在表達(dá)式(2)中的變量n表示相應(yīng)于每個音節(jié)[KO]、[N]、[NI]、[CHI]、[WA]的狀態(tài)數(shù)n=10,46,22,17,44;和變量j表示向量的每一維j=1-M。
然后,將獲得的差分向量[d10,1,....d10,M],[d46,1,....d46,M],[d22,1,....d22,M],[d17,1,....d17,M]和[d44,1,....d44,M]應(yīng)用到下面的表達(dá)式(3)。從用于每維的平均中獲得[KO]、[N]、[NI]、[CHI]、[WA]這5個(V=5)音節(jié)的M維運(yùn)動向量[mM]=[m1,m2,…mM]。mj=1vΣndn,j----(3)]]>其中在表達(dá)式(3)中變量j表示向量的每一位j=1-M;變量n表示相應(yīng)于每個音節(jié)[KO]、[N]、[NI]、[CHI]、[WA]的狀態(tài)數(shù)n=10,46,22,17,44;和變量V表示音節(jié)的編號(V=5)。
這樣獲得的運(yùn)動向量[m1,m2,…mM]表示指定揚(yáng)聲器的特征。然后,如下個操作表達(dá)式(4)所示,從運(yùn)動向量[mM]加上所有音節(jié)的標(biāo)準(zhǔn)向量[an,M]中獲得具有揚(yáng)聲器特有特征的自適應(yīng)向量[xn,M],此外,如圖8所示,通過利用所獲得的自適應(yīng)向量[xn,M]更新自適應(yīng)語音HMM400來完成揚(yáng)聲器自適應(yīng)的處理。
=[an,M]+[mM]....(4)在上文描述了自適應(yīng)語音HMM400具有相應(yīng)于[KONNICHIWA]的指定正文Tx的揚(yáng)聲器適配。然而,當(dāng)自適應(yīng)語音HMM400具有相應(yīng)于包括其他音節(jié)的指定正文Tx的揚(yáng)聲器適配的時候,在自適應(yīng)語音HMM400中的所有音節(jié)也能夠具有揚(yáng)聲器適配。
接著,在揚(yáng)聲器適配生成自適應(yīng)語音HMM400以后,當(dāng)指定揚(yáng)聲器處理任意的發(fā)聲的時候,組幀部分6將以與上述相同的方法將輸入信號Sc分成用于每個預(yù)定時間(例如,10-20毫秒)的幀。然后,組幀部分6依據(jù)經(jīng)過的時間輸出每個幀的組成輸入信號Scf,并且提供給加性噪聲減少部分13。
加性噪聲減少部分13以上述加性噪聲減少部分7相同的方式對分成幀的每個成幀輸入信號Scf進(jìn)行傅立葉變換產(chǎn)生每幀的頻譜。此外,加性噪聲減少部分13除去在頻譜領(lǐng)域中除去包括在每個頻譜中的加性噪聲,并且將頻譜輸出到特征向量生成部分14。
特征向量生成部分14以與在上述特征向量生成部分8中相同的方式對不具有用于幀的加性噪聲的頻譜進(jìn)行倒譜操作,在頻譜域中生成特征向量序列[yi,M]’,并且輸出到倍增噪聲減少部分15。
倍增噪聲減少部分15以在上述倍增噪聲減少部分9中相同的方式通過利用CMN方法從特征向量序列[yi,M]’中除去倍增噪聲,將不具有倍增噪聲的M維特征向量序列[yi,M]提供給識別部分16。這里,特征向量序列[yi,M]的變量i表示幀數(shù)。
如上所述,當(dāng)將根據(jù)從實(shí)際發(fā)出的語音中產(chǎn)生的輸入信號的特征向量序列[yi,M]提供給識別部分16的時候,識別部分16對照特征向量序列[yi,M]和在處理揚(yáng)聲器適配的自適應(yīng)語音HMM400的自適應(yīng)向量[xn,M],輸出給予最高似真的自適應(yīng)語音HMM400作為識別結(jié)果。
如上所示,依據(jù)本發(fā)明的語音識別系統(tǒng),當(dāng)指定揚(yáng)聲器根據(jù)揚(yáng)聲器適配發(fā)出指定正文Tx的時候,加性噪聲減少部分7、特征向量生成部分8和倍增噪聲減少部分9生成從中除去加性噪聲和倍增噪聲的特征向量序列[ci,M]。特征向量生成部分12依據(jù)包括加性噪聲和倍增噪聲的成幀輸入信號Scf生成特征向量序列[si,M]。路徑搜索部分10和揚(yáng)聲器自適應(yīng)部分11依據(jù)這些特征向量序列[ci,M]、特征向量序列[si,M]和標(biāo)準(zhǔn)向量[ai,M]生成自適應(yīng)向量[xi,M]。在其中處理揚(yáng)聲器適配的自適應(yīng)向量[xi,M]更新自適應(yīng)語音HMM400。
因此,包括在圍繞指定揚(yáng)聲器的外圍環(huán)境的噪聲(加性噪聲)或者本語音識別系統(tǒng)自身的傳送噪聲(倍增噪聲)的特征中的特征向量序列[si,M]被用于揚(yáng)聲器適配。因此,能夠從對噪聲不敏感并且語音識別率很高的語音識別系統(tǒng)中生成符合實(shí)際發(fā)聲環(huán)境的自適應(yīng)語音HMM400。
此外,在相關(guān)技術(shù)的揚(yáng)聲器適配類型語音識別系統(tǒng)中,在揚(yáng)聲器適配的時候,從中除去加性噪聲和倍增噪聲的特征向量的生成丟失了通過揚(yáng)聲器適配補(bǔ)償?shù)膿P(yáng)聲器特有的發(fā)聲的特征信息。有不能準(zhǔn)備合適的揚(yáng)聲器自適應(yīng)聲音模型的問題。
另一方面,依據(jù)本發(fā)明的語音識別系統(tǒng),特征向量生成部分12生成特征向量序列[si,M]而不用除去加性噪聲和倍增噪聲。沒有丟失通過揚(yáng)聲器適配補(bǔ)償?shù)膿P(yáng)聲器特有的發(fā)聲特征信息,因?yàn)樘卣飨蛄啃蛄衃si,M]被用于揚(yáng)聲器適配。因此,能夠準(zhǔn)備合適的揚(yáng)聲器自適應(yīng)聲音模型以便增加語音識別率。
在這方面,在本發(fā)明中,已經(jīng)描述準(zhǔn)備基于象日語[AIUEO]這樣的音節(jié)的自適應(yīng)語音HMM400。然而,并不局限于只有音節(jié),而是能夠準(zhǔn)備基于音素的自適應(yīng)語音HMM400。
此外,在本發(fā)明中,用了一個簡單的例子作為例子,描述了揚(yáng)聲器適配的方法。然而,本發(fā)明的揚(yáng)聲器適配的方法能夠適用于在其中標(biāo)準(zhǔn)向量[an,M]配位到揚(yáng)聲器適配的特征向量[si,M]或者[ci,M]的其他各種揚(yáng)聲器適配的方法。因此,能夠生成揚(yáng)聲器自適應(yīng)聲音模型。
如上所述,依據(jù)本發(fā)明的語音識別系統(tǒng),當(dāng)處理揚(yáng)聲器適配的時候,生成從中除去加性噪聲和倍增噪聲的特征向量和包括加性噪聲或者倍增噪聲的特征的特征向量。依據(jù)不包括噪聲的特征向量和包括噪聲的特征向量,補(bǔ)償標(biāo)準(zhǔn)向量。因?yàn)闇?zhǔn)備適應(yīng)于揚(yáng)聲器特有的發(fā)聲的揚(yáng)聲器自適應(yīng)聲音模型,所以能夠生成適用于實(shí)際發(fā)聲環(huán)境的揚(yáng)聲器自適應(yīng)聲音模型。
此外,因?yàn)樘卣飨蛄勘挥糜趽P(yáng)聲器適配而不用除去加性噪聲或者倍增噪聲,沒有丟失通過揚(yáng)聲器適配補(bǔ)償?shù)膿P(yáng)聲器特有的發(fā)聲的特征信息。因此,能夠生成勝任的揚(yáng)聲器自適應(yīng)聲音模型。
因此,能夠獲得加強(qiáng)噪聲并且語音識別率高的語音識別系統(tǒng)。
權(quán)利要求
1.一種語音識別系統(tǒng),包括標(biāo)準(zhǔn)聲音模型,具有依據(jù)語音信息生成的標(biāo)準(zhǔn)向量;第一特征向量生成部分,用于減少來自從相應(yīng)于指定正文的發(fā)出語音生成的輸入信號的噪聲,生成第一特征向量;第二特征向量生成部分,用于從具有噪聲的輸入信號生成第二特征向量;和準(zhǔn)備部分,用于根據(jù)第一特征向量、第二特征向量和標(biāo)準(zhǔn)向量生成自適應(yīng)向量,并且準(zhǔn)備適用于發(fā)出的語音的揚(yáng)聲器自適應(yīng)聲音模型。
2.依據(jù)權(quán)利要求1的語音識別系統(tǒng),其中準(zhǔn)備部分比較第一特征向量和標(biāo)準(zhǔn)向量以便獲得路徑搜索結(jié)果;和準(zhǔn)備部分依據(jù)路徑搜索結(jié)果配位第二特征向量和標(biāo)準(zhǔn)向量以便生成自適應(yīng)向量。
3.依據(jù)權(quán)利要求1的語音識別系統(tǒng),其中噪聲包括加性噪聲和倍增噪聲。
4.依據(jù)權(quán)利要求3的語音識別系統(tǒng),其中第一特征向量生成部分包括用于減少輸入信號中加性噪聲的加性噪聲減少部分,以生成加性噪聲減少的信號。
5.依據(jù)權(quán)利要求4的語音識別系統(tǒng),其中加性噪聲減少部分將一變換應(yīng)用到輸入信號以便生成第一頻譜并且從第一頻譜中減去相應(yīng)于加性噪聲的加性噪聲頻譜。
6.依據(jù)權(quán)利要求4的語音識別系統(tǒng),其中第一特征向量生成部分包括用于將倒譜計算應(yīng)用到加性噪聲減少的信號的倒譜計算器。
7.依據(jù)權(quán)利要求6的語音識別系統(tǒng),其中第一特征向量生成部分包括用于通過從第一特征向量減去倍增噪聲來減少倍增噪聲的倍增噪聲刪除部分。
8.依據(jù)權(quán)利要求7的語音識別系統(tǒng),其中第一特征向量包括多個時間序列第一特征向量;和倍增噪聲減少部分計算時間序列第一特征向量的時間平均,用于估計倍增噪聲。
9.依據(jù)權(quán)利要求1的語音識別系統(tǒng),其中第二特征向量生成部分將傅至少將倒譜計算應(yīng)用到輸入信號以生成第二特征向量。
全文摘要
在揚(yáng)聲器適配的時候,第一特征向量生成部分(7,8,9)生成從中除去加性噪聲和倍增噪聲的特征向量。第二特征向量生成部分(12)生成包括加性噪聲和倍增噪聲的特征的特征向量序列[S
文檔編號G10L15/00GK1346125SQ0113799
公開日2002年4月24日 申請日期2001年9月29日 優(yōu)先權(quán)日2000年9月29日
發(fā)明者谷島潔, 外山聰一 申請人:日本先鋒公司