專利名稱:感知語(yǔ)音特征話語(yǔ)識(shí)別系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明總地涉及自動(dòng)語(yǔ)音識(shí)別系統(tǒng),及更具體地涉及一感知語(yǔ)音的處理及不變化的以元音為基礎(chǔ)的語(yǔ)音特征方式(regime),以實(shí)現(xiàn)精確及強(qiáng)健(robust)的自動(dòng)話語(yǔ)識(shí)別。
背景技術(shù):
現(xiàn)代自動(dòng)話語(yǔ)識(shí)別(ASR)系統(tǒng)已發(fā)展30年以上且已有可觀的進(jìn)步。然而,仍存在兩個(gè)顯著的問(wèn)題強(qiáng)健度問(wèn)題通常涉及在說(shuō)話環(huán)境中的不利條件,例如背景噪音、語(yǔ)音失真、及個(gè)人的發(fā)音強(qiáng)健度的影響,及精確度問(wèn)題,涉及輸入語(yǔ)音的誤認(rèn)。解決這些問(wèn)題一般需要非常昂貴的硬體花費(fèi)及空間,且因此一般通常是不可實(shí)行的。
對(duì)于強(qiáng)健度的問(wèn)題,已有許多嘗試方法利用電子及機(jī)械裝置以濾除噪音,改良信噪比及提高信號(hào)增益,但是這些系統(tǒng)具有計(jì)算復(fù)雜度(例如增加噪音的復(fù)合模型頻譜)及檢測(cè)器設(shè)置的不靈活性(例如消去噪音的麥克風(fēng))的問(wèn)題。相對(duì)于單純機(jī)械定向的噪音感知,通過(guò)人類的話語(yǔ)感知是相對(duì)清晰的,在不佳的環(huán)境中可實(shí)現(xiàn)高識(shí)別精確度。例如,對(duì)于低于20 dB的輸入SNR,常規(guī)的ASR系統(tǒng)的識(shí)別精確度被顯著地降低,但是人類可容易地識(shí)別信號(hào)性質(zhì)低達(dá)0 dB SNR的話語(yǔ)。當(dāng)吵雜時(shí),信號(hào)失真有時(shí)造成人類的嚴(yán)重話語(yǔ)誤辨(除非信號(hào)本身的振幅太低),及個(gè)人發(fā)聲強(qiáng)健度特性(至少對(duì)說(shuō)母語(yǔ)者而言)一般不會(huì)造成顯著的感知問(wèn)題。因此,已進(jìn)行許多嘗試以發(fā)展話語(yǔ)識(shí)別系統(tǒng)來(lái)模仿主要為兩種形式的人類的話語(yǔ)感知。第一種是仿制人類聽(tīng)覺(jué)系統(tǒng)的功能性(例如電子耳蝸的基底膜及發(fā)育),但此系統(tǒng)因?yàn)閬?lái)自神經(jīng)系統(tǒng)及未知的聽(tīng)神經(jīng)核之間的交互作用的多個(gè)反饋路徑而被復(fù)雜化,使得這些嘗試?yán)碚撋鲜菬o(wú)瑕的但實(shí)踐中是受到限制的。第二種嘗試?yán)萌斯ど窠?jīng)網(wǎng)絡(luò)(ANN)以抽取話語(yǔ)特征、處理動(dòng)態(tài)非線形話語(yǔ)信號(hào),或與統(tǒng)計(jì)識(shí)別器組合。但是ANN系統(tǒng)具有龐大運(yùn)算要求的缺點(diǎn),使得大的詞匯系統(tǒng)不實(shí)用。
所有ASR皆要求使用頻譜分析模型以使聲音信號(hào)參數(shù)收化,以致于與參考頻譜信號(hào)的比較可用于進(jìn)行話語(yǔ)識(shí)別。線形預(yù)測(cè)編碼(LPC)在具有所謂的全極(all-pole)模型化約束的話語(yǔ)結(jié)構(gòu)上進(jìn)行頻譜分析。此為一般以Xn(eiω)表示的頻譜表示法,其是約束成σ/A(eiω)形式,其中A(eiωU)為如下所述的具有z-變換的pth次多項(xiàng)式A(z)=1+a1z-1+a2z-2+...+apz-pLPC頻譜分析單元的輸出為系數(shù)(LPC參數(shù))的矢量,其參數(shù)地界定全極模型的頻譜,此模型在話語(yǔ)取樣幀的時(shí)間周期上與信號(hào)頻譜最匹配?,F(xiàn)有的話語(yǔ)識(shí)別系統(tǒng)一般是利用具有全極模型約束的LPC。然而,在全極頻譜的極位置通常通過(guò)在波谷區(qū)段的噪音的出現(xiàn)受到影響,此噪音的出現(xiàn)若顯著的話,可顯著地使信號(hào)劣化。
普通話涵蓋數(shù)萬(wàn)個(gè)各別的字符,其各自發(fā)音為一單音節(jié)詞,從而提供ASR系統(tǒng)的獨(dú)特基礎(chǔ)。然而,普通話(及實(shí)際上中文的其他方言)為一種具有以四種詞匯音調(diào)之一或一自然音調(diào)發(fā)音的各別字音節(jié)的音調(diào)語(yǔ)言。存在408個(gè)基本音節(jié)及考慮到音調(diào)變化,總共有1345個(gè)不同的音調(diào)音節(jié)。因此,獨(dú)特字符的數(shù)目約為發(fā)音的數(shù)十倍,使得發(fā)生許多僅可依據(jù)話語(yǔ)內(nèi)容解析的同音字。基本的音節(jié)各自包含一輔音(起始音)音素(總共21個(gè))及元音(vowel)(末尾音)音素(總共37個(gè))。常規(guī)的ASR系統(tǒng)首先利用不同的處理技術(shù)檢測(cè)輔音音素、元音音素及音調(diào)。接著,為了增進(jìn)識(shí)別精確度,選擇一組較高可能性的候選音節(jié),及將此組候選音節(jié)與最后選擇的內(nèi)容核對(duì)?,F(xiàn)有技術(shù)中已知大部分的話語(yǔ)識(shí)別系統(tǒng)主要是依賴元音識(shí)別,因?yàn)橐寻l(fā)現(xiàn)元音比輔音的差異性大。因此,精確的元音識(shí)別最能精確進(jìn)行話語(yǔ)識(shí)別。
發(fā)明內(nèi)容
本發(fā)明為一種用于精確及強(qiáng)健的話語(yǔ)識(shí)別的完整系統(tǒng)及方法,它們以將三種感知處理技術(shù)應(yīng)用至話語(yǔ)的傅里葉頻譜為基礎(chǔ),以通過(guò)將感知頻譜投射至一組參考的元音頻譜矢量以供輸入至話語(yǔ)識(shí)別器來(lái)實(shí)現(xiàn)清晰的感知頻譜及該感知頻譜的精確識(shí)別。本發(fā)明包含一感知話語(yǔ)處理器,用于感知地處理輸入的話語(yǔ)頻譜矢量以供產(chǎn)生一感知頻譜;一存儲(chǔ)裝置,用于存儲(chǔ)多個(gè)參考頻譜矢量;及一語(yǔ)音特征映射器,其與該感知話語(yǔ)處理器及該存儲(chǔ)裝置耦合,用于將該感知頻譜映射至該多個(gè)參考頻譜矢量。
附圖簡(jiǎn)要說(shuō)明
圖1為顯示根據(jù)本發(fā)明的話語(yǔ)識(shí)別系統(tǒng)的各個(gè)步驟及元件的方框圖;圖2為說(shuō)明遮蔽音調(diào)及通過(guò)遮蔽音調(diào)產(chǎn)生的遮蔽器的時(shí)域圖;圖3為最低可聽(tīng)見(jiàn)區(qū)域(MAF)及等響度曲線的頻域圖;圖4為顯示頻率標(biāo)度及美-標(biāo)度之間關(guān)系圖;圖5為顯示根據(jù)本發(fā)明的感知特性的序列及處理以產(chǎn)生感知頻譜的流程圖;圖6(a)為根據(jù)本發(fā)明的普通話元音″i″的傅里葉頻譜,(b)顯示遮蔽效應(yīng)的結(jié)果,(c)顯示MAF處理的結(jié)果,以及(d)顯示美-標(biāo)度再取樣的結(jié)果;圖7為根據(jù)本發(fā)明測(cè)量識(shí)別率對(duì)信噪比(SNR)的實(shí)驗(yàn)圖;圖8為說(shuō)明根據(jù)本發(fā)明的遮蔽勝利者全取(Winner-Take-All)電路800的實(shí)施例的示意圖;圖9為說(shuō)明根據(jù)本發(fā)明的用于產(chǎn)生相對(duì)于不同電壓的電流的分段線形電阻器PWLn;圖10為說(shuō)明根據(jù)本發(fā)明的遮蔽器的電流輸出的圖形;圖11為說(shuō)明根據(jù)本發(fā)明的通過(guò)畫出對(duì)應(yīng)至不同PWLs的節(jié)點(diǎn)電壓的包絡(luò)(envelope)抽取的圖形;圖12為根據(jù)本發(fā)明的一具體實(shí)施例的單一遮蔽WTA單元的整體結(jié)構(gòu)概要圖;
圖13為根據(jù)本發(fā)明的說(shuō)明差異的靜態(tài)(stationary)元音″i″及非靜態(tài)元音″ai″的頻譜圖;圖14為根據(jù)本發(fā)明的非靜態(tài)元音″ai″的美-標(biāo)度頻率表示的頻譜;圖15(a)顯示投射類似性與沿著具有預(yù)定加權(quán)數(shù)的參考矢量c(k)的方向的輸入矢量x的投射成正比;以及圖15(b)顯示在頻譜上類似的參考元音″i″及″iu″的情況;圖16(a)為說(shuō)明投射類似性的矢量圖,及圖16(b)及圖16(c)說(shuō)明根據(jù)本發(fā)明的相對(duì)投射類似性;圖17為根據(jù)本發(fā)明的普通話元音″ai″的語(yǔ)音特征輪廓圖;圖18(a)顯示相對(duì)于元音″i″(深色點(diǎn))及元音″iu″(淺色點(diǎn))的a(8)(縱軸)及對(duì)a(6)(橫軸)的投射類似性;圖18(b)顯示投射類似性(無(wú)相對(duì)投射類似性)及對(duì)于相同元音的參考頻譜的本發(fā)明語(yǔ)音特征方案的可辨別性的比較;圖19為根據(jù)本發(fā)明具有λ作為一參數(shù)的″iu″語(yǔ)音特征相對(duì)于″i″語(yǔ)音特征的圖;圖20為根據(jù)本發(fā)明的對(duì)于添加白噪聲至輸入的話語(yǔ)信號(hào)而非添加至任何訓(xùn)練組的實(shí)驗(yàn)的識(shí)別率相對(duì)于SNR的圖;圖21為根據(jù)本發(fā)明的利用九個(gè)普通話元音及投射類似性作為輸入的三個(gè)噪音話語(yǔ)測(cè)試的實(shí)驗(yàn)的識(shí)別率相對(duì)于SNR結(jié)果的圖;圖22為根據(jù)本發(fā)明的外部識(shí)別率(%)(使用不同的說(shuō)話者)相對(duì)于內(nèi)部識(shí)別率(%)(使用單一說(shuō)話者)的圖;以及圖23為根據(jù)本發(fā)明的噪音話語(yǔ)識(shí)別率(%)(環(huán)境噪音)相對(duì)于內(nèi)部識(shí)別率(%)(其中具有較理想的收聽(tīng)條件)的圖。
具體實(shí)現(xiàn)方式本發(fā)明的基本觀念出自人類話語(yǔ)及感知作用的心理學(xué)及生理學(xué)。更明確地,噪音及聲音的人類感知作用及其差異性至少部分是人類話語(yǔ)的人類生理學(xué)感知作用的函數(shù)。本發(fā)明利用話語(yǔ)識(shí)別的心理學(xué)方面的感知頻譜及生理學(xué)方面的語(yǔ)音特征狀況。這些因素組合成可同時(shí)實(shí)現(xiàn)強(qiáng)健性及精確性的自動(dòng)話語(yǔ)識(shí)別系統(tǒng)。圖1為本發(fā)明的較佳具體實(shí)施例的方框圖,顯示話語(yǔ)識(shí)別系統(tǒng)的各個(gè)步驟及元件。取樣話語(yǔ)101被輸入快速傅立葉變換(FFT)分析儀111,其輸出取樣話語(yǔ)的傅立葉頻譜,此傅立葉頻譜接著輸入至感知話語(yǔ)處理器112,其輸出一感知頻譜103,此感知頻譜接著輸入至語(yǔ)音特征映射器113,其可輸出一語(yǔ)音特征,此語(yǔ)音特征接著輸入至連續(xù)HMM識(shí)別器114。感知話語(yǔ)處理器包含遮蔽操縱裝置121、最大可聽(tīng)見(jiàn)的區(qū)域(MAF)曲線儀122,以及美-標(biāo)度再取樣器123。語(yǔ)音特征映射器113包含投射類似性發(fā)生器131及相對(duì)投射類似性發(fā)生器132,其接著輸入至選擇器133,其在各個(gè)對(duì)應(yīng)至輸入頻譜矢量(是否具有帶有超過(guò)一個(gè)的參考頻譜矢量的高投射類似性,在下文中更完整地描述)的頻譜字符的輸出之間選擇。
自動(dòng)話語(yǔ)識(shí)別系統(tǒng)取樣話語(yǔ)信號(hào)的分量波的振幅的離散傅立葉變換運(yùn)算的話語(yǔ)頻譜的取樣點(diǎn)。通過(guò)擴(kuò)音器產(chǎn)生的話語(yǔ)波形的參數(shù)化是以任何波可通過(guò)簡(jiǎn)單的正弦及余弦波的組合所代表的事實(shí)為基礎(chǔ);波的組合最佳是由反傅立葉變換獲得g(t)=∫-∞∞G(t)ei2πftdf]]>其中傅立葉系數(shù)是通過(guò)傅立葉變換獲得G(f)=∫-∞∞g(t)e-i2πftdt]]>其給出在頻率f下,波的分量(振幅)的相對(duì)強(qiáng)度,在頻率空間中的波頻譜。因?yàn)槭噶恳嗑哂蟹至?,其可通過(guò)正弦及余弦函數(shù)代表,話語(yǔ)信號(hào)亦可通過(guò)頻譜矢量描述。對(duì)實(shí)際計(jì)算而言,使用離散傅立葉變換G(nτN)=Σk=0N-1[τ·g(kτ)e-i2πknN]]]>其中k為各個(gè)取樣值的放置次序,τ為讀取值之間的間隔,以及N是讀取值的總數(shù)(取樣大小)。取樣話語(yǔ)101是通過(guò)″取樣″話語(yǔ)波形所產(chǎn)生,該“取樣”是通過(guò)在波頻譜上取出足量的點(diǎn)以便利用FFT進(jìn)行足夠精確的振幅計(jì)算。快速傅立葉變換(FFT)分析儀111通過(guò)使用離散傅立葉變換及有效地采取一是列的捷徑以產(chǎn)生波的傅立葉頻譜102,該捷徑是自三角函數(shù)的循環(huán)性導(dǎo)出的遞歸量的觀測(cè)值為基礎(chǔ),其容許一計(jì)算的結(jié)果可用于另一計(jì)算,從而降低所需計(jì)算的總數(shù)。
利用于遮蔽操縱裝置121的遮蔽效應(yīng)為觀察到的現(xiàn)象,該現(xiàn)象為某些聲音當(dāng)有其他暫時(shí)且頻譜上相近的較大聲音時(shí)變成無(wú)法聽(tīng)見(jiàn)。遮蔽效應(yīng)可通過(guò)人類主觀的反應(yīng)來(lái)測(cè)量。圖2為頻域圖,顯示通過(guò)1kHz、80 dB純音調(diào)(小圓200)產(chǎn)生的遮蔽音調(diào)的振幅(實(shí)線201)。任何低于實(shí)線101的信號(hào)將為無(wú)法聽(tīng)見(jiàn)的且若頻率接近遮蔽音調(diào),將更嚴(yán)重地受到限制,限制作用朝向高頻率較大。圖3為最小可聽(tīng)見(jiàn)區(qū)域(MAF)的頻率域圖,低于該最小可聽(tīng)見(jiàn)區(qū)域則聲音信號(hào)太弱而無(wú)法被人感知(虛線300)及相等的響度曲線301、302、303、304及305。為了將客觀的聲音信號(hào)振幅轉(zhuǎn)譯成人類主觀的響度,信號(hào)的特定頻率分量的振幅必須被重正規(guī)化成如下述的MAF曲線L(dB)=M(dB)-MAF其中L和M分別為聲音信號(hào)的頻率分量的響度及振幅,以及MAF為MAF在該頻率下的值。在本發(fā)明的另一具體實(shí)施例中,一給定頻率分量的振幅被經(jīng)重正規(guī)化成所有相等的響度曲線301等。為了描述人類主觀的音高感覺(jué),頻率標(biāo)度被調(diào)整成感知頻率標(biāo)度,稱為美-標(biāo)度。在美-標(biāo)度中,低頻率頻譜帶比高頻率頻譜帶顯著。圖4為顯示由下式表示的赫茲(或頻率)標(biāo)度及美-標(biāo)度之間關(guān)系的圖美=2595×log(1+f/700)其中f為信號(hào)頻率。
在本發(fā)明的一具體實(shí)施例中,上述感知特征的序列及處理以產(chǎn)生感知頻譜被顯示于圖5的流程圖中。步驟501為輸入至步驟502的FFT產(chǎn)生結(jié)果,其去除聲音信號(hào)的所有頻率分量,該聲音信號(hào)是根據(jù)聲音信號(hào)的先前及目前幀中最后的遮蔽器通過(guò)較響的鄰近聲音所掩蓋。步驟503為根據(jù)MAF曲線的聲音信號(hào)的各個(gè)頻率分量的振幅的重正規(guī)化及步驟504為頻率分量通過(guò)再取樣轉(zhuǎn)換成美-標(biāo)度。步驟的順序是為了計(jì)算效率而設(shè)計(jì)且對(duì)聽(tīng)覺(jué)通路而言不需要是相同順序。熟悉這項(xiàng)技術(shù)人員應(yīng)可了解步驟501、502、503,及504的任何次序是涵蓋在本發(fā)明的預(yù)期范圍內(nèi)。步驟501、502、503,及504的結(jié)果如圖6所示,其中(a)為普通話元音“i“的傅立葉頻譜,(b)為步驟502遮蔽效應(yīng)的結(jié)果,(c)為步驟503的MAF處理的結(jié)果,及(d)為美-標(biāo)度再取樣的結(jié)果。圖6(b)顯示遮蔽效應(yīng)去除位于400Hz至2kHz之間的大多數(shù)頻率分量,大幅度地減少待處理的信息量及去除顯著量的背景噪音。圖6(c)顯示低及高頻率分量被顯著地衰減及圖6(d)顯示根據(jù)本發(fā)明的較佳具體實(shí)施例的例示元音″i″的感知頻譜。在另一具體實(shí)施例中,低頻分量,其帶有最多的元音信息,比其他頻率更精細(xì)地被取樣。最終的感知頻譜僅保留頻譜的包絡(luò),以致于單獨(dú)傳送關(guān)于發(fā)音部位的形狀的重要信息。音高信息亦有利地去除,因?yàn)槠鋵?duì)于元音識(shí)別并非必要。步驟502,遮蔽效應(yīng),不同于現(xiàn)有的全極(all-pole)頻譜模型。全極(all-pole)模型在頻譜中產(chǎn)生凹面平滑的谷形,而本發(fā)明則產(chǎn)生尖銳的邊緣。當(dāng)頻譜由噪音所污染時(shí),在全極頻譜中的極的位置一般透過(guò)谷區(qū)域中噪音的出現(xiàn)而被影響。在本發(fā)明中,大部分谷形區(qū)域的噪音是通過(guò)遮蔽器去除,因此實(shí)現(xiàn)較清楚的信號(hào)。
圖7為測(cè)量識(shí)別率對(duì)信噪比(SNR)的實(shí)驗(yàn)圖。與FFT頻譜包絡(luò)曲線(SE)比較,感知頻譜曲線(PS)造成顯著較低的SNR及較高的識(shí)別率。遮蔽效應(yīng)(遮蔽)及MAF重正規(guī)化及遮蔽本身亦顯著地增進(jìn)識(shí)別率及與SE相比減少噪音。
噪音遮蔽為一現(xiàn)象,從而當(dāng)有一暫時(shí)的及頻譜上鄰近較響度的音調(diào)出現(xiàn)時(shí),較弱的音調(diào)變成不可聽(tīng)見(jiàn)的。已知聽(tīng)覺(jué)神經(jīng)原是以各自的共鳴頻率的次序(嗜張力(tonotopic)組織)設(shè)置,以致能抑制對(duì)應(yīng)于側(cè)邊聽(tīng)神經(jīng)原的抑制作用的鄰近頻率分量的感知作用。神經(jīng)原的活性依賴于神經(jīng)原的輸入以及鄰近神經(jīng)原的抑制作用及刺激作用。具有較強(qiáng)輸出的神經(jīng)原將經(jīng)由突觸連接作用而抑制側(cè)邊的鄰近神經(jīng)原。假設(shè)神經(jīng)原i具有最強(qiáng)的輸入刺激,神經(jīng)原i將接著抑制其鄰近神經(jīng)原最多以及刺激其本身最多。因?yàn)樵诖藚^(qū)域中的其他神經(jīng)原與神經(jīng)原i是非競(jìng)爭(zhēng)性的(″啞的″),僅有神經(jīng)原i產(chǎn)生輸出。此生存下來(lái)的神經(jīng)原i在所謂的勝利者全取(Winner-Take-All(WTA))的神經(jīng)網(wǎng)絡(luò)稱為″勝利者″,此神經(jīng)網(wǎng)絡(luò)合理地僅延伸至定域化區(qū)域,因?yàn)閷?duì)更遠(yuǎn)的神經(jīng)原而言,交互作用變得較弱。WTA網(wǎng)絡(luò)的“總體”模型為一電路,具有n個(gè)神經(jīng)原,各自由兩個(gè)nMOS晶體管代表,所有的都耦合在一節(jié)點(diǎn)處。當(dāng)輸入刺激利用至晶體管的電流以平行的方式刺激時(shí),節(jié)點(diǎn)的電壓電平依據(jù)于具有最高電流輸入的晶體管(神經(jīng)原)而定。在平衡中,偏壓電流流經(jīng)有效地抑制所有其他神經(jīng)原的輸出電流的勝利者神經(jīng)原。通過(guò)分離具有串聯(lián)的電阻器的晶體管,及偏壓各個(gè)晶體管,電流可被定域化。
圖8說(shuō)明根據(jù)本發(fā)明的勝利者全取電路800的一具體實(shí)施例。電流源Ik輸入電流至nMOS晶體管對(duì)T1k、T2k,產(chǎn)生晶體管電壓Vk,及節(jié)點(diǎn)電壓VCk。成片段的線性晶體管PWLn被串聯(lián)耦合于節(jié)點(diǎn)801、802、803之間,這些節(jié)點(diǎn)被耦合至連接至二極管的nMOS晶體管T3k。成片段的線性晶體管PWLn產(chǎn)生如圖9所示的電流相對(duì)于不同電壓圖,且產(chǎn)生所觀察到的遮蔽效應(yīng)的非對(duì)稱抑制特性(參見(jiàn)圖1)。所進(jìn)行的實(shí)驗(yàn)利用一256單元(神經(jīng)原/晶體管對(duì))SPICE刺激。圖10為根據(jù)本發(fā)明的遮蔽器的電流輸出圖,該電流輸出是通過(guò)簡(jiǎn)單的音調(diào)輸入至700nA的神經(jīng)原編號(hào)30及100nA至其他單元而生成的,其中可實(shí)現(xiàn)所觀察到的遮蔽效應(yīng)的不對(duì)稱性。輸入至本發(fā)明的元音頻譜產(chǎn)生勝利頻譜分量(最高輸出電流),其并非僅抑制鄰近頻譜分量,亦吸收鄰近的偏壓電流,因此增加“勝利者”擁有的輸出電流及增加共振峰抽取的有效性?!肮舱穹濉迨嵌x特征(在聲音頻譜中的波峰)并因此愈顯著者,話語(yǔ)識(shí)別愈佳。再者,分量被清楚地量化,各自為基頻的諧波。用于分辨不同音素的信息被攜載在話語(yǔ)頻譜的包絡(luò)中。本發(fā)明的遮蔽WTA系統(tǒng)進(jìn)一步自輸入的話語(yǔ)中抽取頻譜包絡(luò)。圖8中的節(jié)點(diǎn)電壓VCk呈現(xiàn)輸入電流Ik的平滑頻譜包絡(luò)。若所討論的神經(jīng)原對(duì)應(yīng)至頻譜谷形,接著神經(jīng)原的電流輸出將通過(guò)其鄰近波峰所抑制,但節(jié)點(diǎn)電壓將也增加(如上述),因此可實(shí)現(xiàn)對(duì)應(yīng)于輸入頻譜的包絡(luò)的以平滑節(jié)點(diǎn)電壓。圖11顯示包絡(luò)抽取。實(shí)線的曲線為對(duì)應(yīng)至不同PWL的節(jié)點(diǎn)電壓及虛線曲線為無(wú)阻抗處。
圖12為根據(jù)本發(fā)明的一具體實(shí)施例的單一遮蔽WTA單元的概念示意點(diǎn)。三個(gè)nMOS晶體管M1、M2及M3,一PWL R電阻器,一電壓緩沖器,MOS電容器MS及兩電流鏡MI1及MI2。在一編程階段中,輸入電壓被存儲(chǔ)在MOS電容器M5;M4轉(zhuǎn)換電壓成電流,以供經(jīng)由電流鏡MI1輸入。在操作中,電壓輸出通過(guò)單位增益緩沖器緩沖,并接著耦合至輸出總線。輸出電流通過(guò)電流鏡MI2被復(fù)制并傳送至電流輸出總線。輸出電流接著通過(guò)線形接地電阻器PWL R轉(zhuǎn)換成電壓。PWL R具有對(duì)電流方向改變敏感的電阻(圖9),感知遮蔽曲線(圖2),以及向左電阻相對(duì)于向右電阻的比率可達(dá)100。兩個(gè)nMOS晶體管M1及M2作為用于兩電流方向的無(wú)源電阻器,具有一比較器COMP在M1及M2之間切換,依電壓降的符號(hào)而定(通過(guò)柵壓調(diào)整這些電阻)。本發(fā)明的該具體實(shí)施例是利用支持電路(為了穩(wěn)定性、信號(hào)增益,及避免泄流),在UMCTM0.5微米雙-多雙-金屬(ouble-poly double-metal)CMOS過(guò)程中實(shí)現(xiàn)的。電壓輸出產(chǎn)生頻譜包絡(luò)及電流輸出產(chǎn)生頻譜共振峰。利用本發(fā)明的遮蔽WTA電路,元音″ai″的共振峰可清楚地由頻譜中看出,甚至是在輸入信號(hào)中具有增添的噪音情況下。
在本發(fā)明的遮蔽WTA網(wǎng)絡(luò)的較佳具體實(shí)施例中,以模擬平行處理系統(tǒng)被較有利地利用以與其他ASR系統(tǒng)的其他元件整合。例如,帶通濾波器層被耦合至上游以致能提供輸入至遮蔽WTA網(wǎng)絡(luò)。
語(yǔ)音特征映射器113(圖1)包含投射類似性發(fā)生器131及相對(duì)投射類似性發(fā)生器132,它們饋給語(yǔ)音特征發(fā)生器133,后者產(chǎn)生用于根據(jù)本發(fā)明的較佳具體實(shí)施例的話語(yǔ)識(shí)別抽取的語(yǔ)音特征。語(yǔ)音特征抽取是基于人類話語(yǔ)的生理學(xué)(相對(duì)于基于人類話語(yǔ)的心理學(xué)方面的上述感知頻譜)。當(dāng)人類說(shuō)話時(shí),空氣是由肺部推出以刺激聲帶。發(fā)音部位接著根據(jù)所欲發(fā)出的聲音形成壓力波。對(duì)于一些元音而言,發(fā)音部位的形狀在整個(gè)清晰發(fā)音過(guò)程中保持未改變,以致于頻譜形狀及時(shí)呈現(xiàn)靜態(tài)。對(duì)其他元音而言,清晰發(fā)音由發(fā)音部位的形狀開(kāi)始,其逐漸地改變,且接著定位至另一形狀。對(duì)于靜態(tài)元音而言,頻譜形狀確定音素的識(shí)別及這些形狀被用作為語(yǔ)音特征映射中的參考頻譜。然而,非靜態(tài)元音,一般具有兩或三個(gè)參考元音區(qū)段及在這些元音之間的過(guò)渡區(qū)段。圖13為靜態(tài)元音″i″及非靜態(tài)元音″ai″的頻譜,說(shuō)明差異。圖14為非靜態(tài)元音″ai″的頻譜及美-標(biāo)度頻率表示,顯示具有類似于元音″a″的頻譜的初始相,位移至類似于元音″e(cuò)″的頻譜及最后定位在類似元音″i″的頻譜。本發(fā)明的較佳具體實(shí)施例利用9個(gè)靜態(tài)元音以作為參考元音,以形成所有37個(gè)普通話元音的基礎(chǔ)。表1顯示37個(gè)普通話元音音素及9個(gè)參考音素。9個(gè)參考音素的頻譜是由c(i)代表,其中i=1、2、...9及各自為通過(guò)平均一訓(xùn)練組的特定參考元音的所有幀而計(jì)算的64-維量矢量(或在反傅立葉變換中的波分量)。
為了減少饋給CHMM識(shí)別器114的數(shù)據(jù)維量,在本發(fā)明的一具體實(shí)施例中,語(yǔ)音特征映射器113自64-維量的頻譜矢量產(chǎn)生9個(gè)特征。語(yǔ)音特征映射器113首先計(jì)算輸入頻譜對(duì)9個(gè)參考頻譜矢量的類似性,接著計(jì)算另一組介于輸入頻譜與72對(duì)參考頻譜矢量之間的72個(gè)相對(duì)類似性。通過(guò)組合這些類似性可實(shí)現(xiàn)最后一組的9個(gè)語(yǔ)音特征。不同于常規(guī)的分類方案,其將輸入頻譜分類成參考頻譜中的一者,本發(fā)明定量地規(guī)格化相對(duì)于9個(gè)參考頻譜的輸入頻譜的形狀(亦規(guī)格化發(fā)音部位的形狀)。本發(fā)明的語(yǔ)音特征映射為經(jīng)由類似性測(cè)量的特征抽取(或維量降低)的方法。本發(fā)明的較佳具體實(shí)施例利用基于投射的兩種形式的類似性測(cè)量;投射類似性及相對(duì)投射類似性。
圖15(a)顯示投射類似性,與沿著具有預(yù)定加權(quán)數(shù)的參考矢量c(k)方向的輸入矢量x的投射成正比,可由下式表示a(k)=Σwi(k)·xi·ci(k)||c(k)||]]>其中k=1、...、9以及||c(k)||=(Σi=164(ci(k))2]]>及加權(quán)因子是由下式表示wi(k)=ci(k)/σi(k)Σi=164ci(k)/σi(k)]]>其中i=1、2、...、64及k=1、2、...、9以及σi(k)為對(duì)應(yīng)于kth參考元音的總體中維量i的標(biāo)準(zhǔn)偏差。在加權(quán)因子wi(k)中,σi(k)用作為常數(shù),其使得在所有9個(gè)參考矢量中的所有維量具有相同方差。在加權(quán)因子的ci(k)項(xiàng)強(qiáng)調(diào)具有較大振幅的頻譜分量。此組對(duì)應(yīng)至每一參考矢量的加權(quán)數(shù)被正規(guī)化。
對(duì)許多情況而言,上述的投射類似性是足以用于精確的話語(yǔ)識(shí)別。但圖15(b)顯示頻譜上相似的參考元音″i″及″iu″的情況,其中在這些類似參考元音上的輸入矢量的投射類似性將都為大及話語(yǔ)輸入將為頻譜上相似于類似的音素,從而需要進(jìn)一步的區(qū)分以實(shí)現(xiàn)精確的話語(yǔ)識(shí)別?!跋鄬?duì)投射類似性″僅抽取決定性的頻譜分量,從而實(shí)現(xiàn)較佳的區(qū)分作用。為了解說(shuō)容易,圖16為一矢量圖,說(shuō)明用于二維矢量的相對(duì)投射類似性。當(dāng)然,所有多維矢量是在本發(fā)明的預(yù)期范圍內(nèi)。輸入矢量x接近兩類似的參考矢量c(k)及c(l),稍微較接近c(diǎn)(k),但在投射上的差異不大,如圖16(a)所示。通過(guò)c(k)-c(l)表示的界于c(k)及c(l)之間的差異對(duì)于輸入話語(yǔ)矢量x的分類具有決定性。圖16(b)及16(c)顯示x-c(l)在c(k)-c(l)上的投射是大于x-c(k)在c(l)-c(k)上的投射,以及其等的差異是較x單獨(dú)在c(k)及在c(l)上的投射之間的差異顯著。利用此觀察,相對(duì)于c(l)的輸入矢量x在c(k)的統(tǒng)計(jì)上加權(quán)投射為q(k,l)=Σi=164vi(k,l)·(xi-ci(l))·(ci(k)-ci(l))||c(k)-c(l)||]]>其中k=1、...、9,1≠k,以及||c(k)-c(l)||=Σi=164(ci(k)-ci(l))2.]]>正規(guī)化加權(quán)數(shù)因子由下式表示vi(k,l)=|ci(k)-ci(l)|/(σi(k))2+(σi(l))2Σi=164|ci(k)-ci(l)|/(σi(k))2+(σi(l))2]]>其中i=1、...、64;k=1、...、9,1≠k。加權(quán)因子用于強(qiáng)調(diào)此具有大差異的兩參考矢量的這些分量及用于使差異在所有維量中相等。在q(k,l)為負(fù)數(shù)的情況中,為了控制動(dòng)態(tài)范圍及為了維持識(shí)別輸入矢量所需的線索,負(fù)的q(k,l)被設(shè)定為一小正值以及正值的q(k,l)不改變(單極傾斜函數(shù))。相對(duì)于c(l)的x在c(k)上的相對(duì)投射類似性被定義為r(k,l)=q(k,l)q(k,l)+q(l,k)]]>其中k=1、...、9,1≠k。因此,總共有8×9=72個(gè)相對(duì)的投射類似性,其與9個(gè)投射類似性一起界定本發(fā)明的較佳具體實(shí)施例的語(yǔ)音特征。
在本發(fā)明的一較佳具體實(shí)施例中,投射類似性及相對(duì)投射類似性的整合以辨認(rèn)話語(yǔ)是利用一譜系分類,其中投射類似性通過(guò)選擇具有較大的x在c(k)上的投射值,換言之,對(duì)a(k)而言為大值的的候選對(duì)象來(lái)確定第一粗略分類。候選對(duì)象被進(jìn)一步使用成對(duì)的相對(duì)投射類似性進(jìn)行篩選。然而,若第一粗略分類未適當(dāng)?shù)卣{(diào)整,可能未選擇到良好的候選對(duì)象。
在本發(fā)明的較佳具體實(shí)施例中,投射類似性及相對(duì)投射類似性是通過(guò)語(yǔ)音特征映射而被積分,其利用方案(a)相對(duì)投射類似性被利用用于任何兩具有大投射類似性的參考矢量;以及(b)否則,投射類似性可單獨(dú)使用。此將不僅產(chǎn)生更精確的話語(yǔ)識(shí)別,亦可更有效率地計(jì)算。語(yǔ)音特征被定義為p(k)=1λa(k)+1λΣl=1,l=k9(r(k,l)p(l)-r(l,k)p(k))]]>其中k=1、2、...、9及λ為定標(biāo)因子,用于控制交叉耦合或橫向抑制的程度。對(duì)上述兩參考矢量的方程式的解法(為了說(shuō)明的簡(jiǎn)化性)由下式所示p(k)p(l)=λa(k)+(a(k)+a(l))r(k,l)λa(l)+(a(k)+a(l))r(l,k).]]>對(duì)于a(k)及a(l)二者皆大且具有可比較的振幅的情況下,假設(shè)x較接近歐幾里得范數(shù)感覺(jué)中的c(k),x與c(k)之間的距離較小,所以r(k,l)大于r(l,k)。若λ相對(duì)地小,接著p(k)/p(l)接近r(k,l)/r(l,k),其是通過(guò)r(k,l)及r(l,k),相對(duì)投射類似性而被確定。對(duì)于a(k)及a(l)中只有一者為大時(shí),假設(shè)a(k)為大,則r(k,l)及r(l,k)分別接近于1及0以及p(k)/p(l)≈(λ+1)a(k)+a(l)λa(l),]]>其通過(guò)a(k)及a(l)被確定。對(duì)于第三及最后一種可能情況,其中a(k)及a(l)皆小,p(k)∝λa(k)+(a(k)+a(l))r(k,l)以及p(l)∝λa(l)+(a(k)+a(l))r(l,k).因?yàn)閍(k)及a(l)皆小,以及r(k,l)及r(l,k)小于1,因此p(k)及p(l)亦小且可忽略。定義r(k,k)=λ+Σl=1,l=k9r(l,k)]]>其中k=1、2、...、9,接著上述p(k)的方程式可寫成矩陣形式 對(duì)于k=1、2、...、9的語(yǔ)音特征p(k)通過(guò)在兩側(cè)乘上上述矩陣的倒數(shù)而解出。
圖17為普通話元音″ai″的語(yǔ)音特征輪廓圖,開(kāi)始時(shí)最大的語(yǔ)音特征為″a″,接著轉(zhuǎn)移成元音″e(cuò)″及最后″i″變成最大的語(yǔ)音特征。在450ms后,語(yǔ)音特征″u″變成可見(jiàn),雖然相當(dāng)短且不顯著。本發(fā)明經(jīng)由解體成基本的9個(gè)元音實(shí)現(xiàn)顯著的識(shí)別力。通過(guò)利用相對(duì)投射類似性以增進(jìn)類似參考元音之間的識(shí)別力,甚至可實(shí)現(xiàn)更高的話語(yǔ)識(shí)別精確性。圖18(a)顯示對(duì)元音″i″(深色點(diǎn))及元音″iu″(淺色點(diǎn))的a(8)(″iu″,縱軸)及a(6)(″i″,橫軸)的投射類似性。對(duì)投射類似性單獨(dú)而言,識(shí)別力不大因?yàn)椴煌舴浅=咏谝黄?,如圖18(a)所示。然而,當(dāng)本發(fā)明的語(yǔ)音特征圖被利用用于″i″(p(6),深色陰影)及″iu″(p(8),淺色陰影)時(shí),識(shí)別力被大大地提高,如由圖18(b)所示的元音的顯著分離可看出。
人類通過(guò)數(shù)種譜系部分識(shí)別來(lái)感知話語(yǔ)。本發(fā)明包含部分識(shí)別,因?yàn)槿缟衔闹蟹讲攀黾?,元音被解體成9個(gè)參考元音的區(qū)段。再者,當(dāng)聆聽(tīng)時(shí),人類忽略許多無(wú)關(guān)的信息。本發(fā)明的9個(gè)參考元音用于摒棄許多無(wú)關(guān)的信息。因此,本發(fā)明具體化人類話語(yǔ)感知的特征以實(shí)現(xiàn)較高的話語(yǔ)識(shí)別。
本發(fā)明中的語(yǔ)音特征p(k)的識(shí)別力是通過(guò)標(biāo)度因子λ的給定值來(lái)控制。如上述p(k)的方程式所示,若λ大時(shí),相對(duì)投射類似性r(k,l)的總和被λ壓倒。圖19為″iu″語(yǔ)音特征(p(8))相對(duì)于″i″語(yǔ)音特征(p(6))的圖,以λ作為參數(shù),該參數(shù)隨著灰度的增加具有較大值。λ的較小值使分布分散遠(yuǎn)離對(duì)角線(其代表無(wú)識(shí)別力),使得兩元音更能識(shí)別,從而改良識(shí)別精確性。然而,對(duì)λ而言,太小值將造成散亂,其難以通過(guò)多維量高斯函數(shù)在連續(xù)HMM(CHMM)識(shí)別器114(圖1)中形成模型,造成不良的識(shí)別精確性。因此,本發(fā)明有利地利用標(biāo)度因子λ的值以最優(yōu)化識(shí)別力,同時(shí)限制散亂。
連續(xù)的隱藏馬爾可夫模型識(shí)別器114(圖1)利用特征化話語(yǔ)圖形幀的頻譜特性的統(tǒng)計(jì)方法,前提為話語(yǔ)信號(hào)可被特征化為參數(shù)的隨機(jī)過(guò)程且推測(cè)過(guò)程的參數(shù)可以精確的方式測(cè)定。可觀察到的馬爾可夫模型為其中各狀態(tài)是對(duì)應(yīng)至確定性可觀察到的事件(例如,是否為雨天或晴天),以及模型的輸出為在每一瞬間下的狀態(tài)組(例如,當(dāng)下雨的天數(shù)),其中各個(gè)狀態(tài)是對(duì)應(yīng)至可觀察到的事件。隱藏馬爾可夫模型,另一方面,為雙重嵌入的推測(cè)過(guò)程(例如在窗簾后擲超過(guò)一個(gè)銅板),具有基礎(chǔ)的推測(cè)過(guò)程,其并非直接可觀察到(隱藏在窗簾后),但可僅通過(guò)另一組推理過(guò)程(銅板投擲)觀察到,其產(chǎn)生觀察的序列。因此,對(duì)于離散的符號(hào)的觀察,HMM的特征在于(a)在模型中狀態(tài)的數(shù)目,(b)每一狀態(tài)的不同觀察符號(hào)的數(shù)目(例如字母大小),(c)狀態(tài)-過(guò)渡機(jī)率分布,(d)觀察符號(hào)機(jī)率分布,以及(e)初始狀態(tài)分布。本發(fā)明利用隔離的字識(shí)別器,用于V個(gè)隔離的待識(shí)別的字的系統(tǒng)中(每一字通過(guò)不同的HMM被模型化),具有每個(gè)字的訓(xùn)練組的K發(fā)聲(通過(guò)一或多者說(shuō)話者說(shuō)出),其中每一發(fā)聲構(gòu)成此字的特征的某些代表的一觀察序列。對(duì)字匯中的每一字v而言,對(duì)上述(c)、(d)及(e)的HMM參數(shù)必須估計(jì)成最優(yōu)化對(duì)用于vth字的訓(xùn)練組值的匹配。本發(fā)明通過(guò)經(jīng)由話語(yǔ)的感知頻譜及語(yǔ)音特征分析的觀察序列的測(cè)量來(lái)識(shí)別每個(gè)未知的字。后面接著通過(guò)所有可能模型的模型似然性的機(jī)率計(jì)算,且最后選擇具有最高模型似然性的字。機(jī)率計(jì)算一般是利用最大似然性路徑(韋特比算法)而被執(zhí)行。對(duì)HMM的詳細(xì)說(shuō)明,參考Rabiner &Juang,F(xiàn)undamentals of Speech Recognition,第321-389頁(yè),Prentice-Hall Signal Processing Series,1993。
由于本發(fā)明的感知話語(yǔ)處理器112及語(yǔ)音特征映射器113,輸入至連續(xù)HMM識(shí)別器114的語(yǔ)音特征104優(yōu)于常規(guī)的ASR系統(tǒng),從而產(chǎn)生更強(qiáng)健及精確的話語(yǔ)識(shí)別。圖20為添加白噪音至輸入話語(yǔ)信號(hào)而未在任何訓(xùn)練組中的實(shí)驗(yàn)的識(shí)別率相對(duì)于SNR的圖。圖20(a)顯示辨認(rèn)列于頂部(top)候選對(duì)象以符合話語(yǔ)輸入的結(jié)果,以及圖20(b)是用于頂部三個(gè)候選對(duì)象(因?yàn)樵S多同音字,一些話語(yǔ)必須根據(jù)內(nèi)容進(jìn)一步區(qū)分)。圖的左手側(cè)上方為最佳話語(yǔ)識(shí)別表現(xiàn)的區(qū)域。標(biāo)示PF(PS)的曲線代表語(yǔ)音特征加上感知頻譜處理結(jié)果(換言之,本發(fā)明)及最遠(yuǎn)至左上方。PF(SE)代表語(yǔ)音特征(FFT頻譜包絡(luò))(亦即,利用感知頻譜但無(wú)感知頻譜處理的話語(yǔ)處理)且是下一個(gè)最佳者。MCEP代表現(xiàn)有話語(yǔ)頻譜的參數(shù)化方法,已知為美-標(biāo)度逆譜(cepstral)系數(shù)及相對(duì)于本發(fā)明的系統(tǒng)較不能不受噪音影響。CEP代表單獨(dú)的逆譜系數(shù),無(wú)美-標(biāo)度轉(zhuǎn)換,且至證實(shí)美-標(biāo)度的有效性的MCEP的右方更大。REF(反射系數(shù))及LPC(線性預(yù)測(cè)編碼)為其他現(xiàn)有的話語(yǔ)識(shí)別方法,所得結(jié)果較不理想。因此,可看出本發(fā)明實(shí)現(xiàn)話語(yǔ)識(shí)別的精確性及強(qiáng)健度。圖21為識(shí)別率相對(duì)于SNR的圖,為三噪音話語(yǔ)測(cè)試的另一實(shí)驗(yàn)的結(jié)果,利用9個(gè)普通話元音及投射類似性作為連續(xù)HMM114的輸入,導(dǎo)致增進(jìn)的識(shí)別精確性。PF(PS)代表本發(fā)明再次產(chǎn)生最佳的結(jié)果。PRJS(PS)代表感知頻譜的投射類似性(亦即,無(wú)語(yǔ)音特征處理的本發(fā)明),以及PS為單獨(dú)的感知頻譜(亦即,無(wú)語(yǔ)音特征處理的投射類似性計(jì)算)。本發(fā)明不僅實(shí)現(xiàn)較強(qiáng)健及精確的話語(yǔ)識(shí)別,亦比傳統(tǒng)方法可實(shí)現(xiàn)較高的計(jì)算效率,因?yàn)樵捳Z(yǔ)頻譜參數(shù)化被從典型的64降至9。語(yǔ)音特征映射亦較不受噪音影響,部分是因?yàn)槠渲攸c(diǎn)在決定性的頻譜分量且忽略由噪音造成的失真。
為了證明本發(fā)明可有效地改良話語(yǔ)識(shí)別,圖22為外部識(shí)別率(%)(使用不同的說(shuō)話者)相對(duì)于內(nèi)部識(shí)別率(%)(使用單一說(shuō)話者)的圖。朝向右手邊上方角落的點(diǎn)證實(shí)最佳的強(qiáng)健度及精確性。再者,與所有其他者相較,PF(PS)顯示最佳的結(jié)果。圖23為噪音話語(yǔ)識(shí)別率(%)(環(huán)境噪音)相對(duì)于內(nèi)部識(shí)別率(%)(其中具有較理想的聆聽(tīng)條件)的圖。朝向右手邊上方角落的點(diǎn)證實(shí)最佳的強(qiáng)健度及精確性。與其他現(xiàn)有話語(yǔ)識(shí)別方法相較,PF(PS)再次顯示出最佳的結(jié)果。
雖然上文中已完整說(shuō)明特定的具體實(shí)施例,可使用不同的改良、替代性結(jié)構(gòu)及等效物。例如,雖然在本文中的例子顯示的是普通話中文,本發(fā)明的技術(shù)思想是適用于任何具有音節(jié)的語(yǔ)言。再者,任何技術(shù),無(wú)論是模擬的、數(shù)字的、數(shù)值的或硬件處理器皆可有利地使用。因此,上述的描述及說(shuō)明不應(yīng)對(duì)通過(guò)后附權(quán)利要求定義的本發(fā)明的范圍造成限制。
權(quán)利要求
1.一種用于處理輸入話語(yǔ)頻譜矢量的話語(yǔ)處理系統(tǒng),其包含感知話語(yǔ)處理器,用于感知地處理輸入話語(yǔ)頻譜矢量以產(chǎn)生感知頻譜;存儲(chǔ)裝置,用于存儲(chǔ)多個(gè)參考頻譜矢量;以及語(yǔ)音特征映射器,其與該感知話語(yǔ)處理器及該存儲(chǔ)裝置耦合,用于將該感知的頻譜映射至該多個(gè)參考頻譜矢量上。
2.根據(jù)權(quán)利要求1的話語(yǔ)處理系統(tǒng),其中該感知話語(yǔ)處理器包含遮蔽操縱裝置,用于噪音遮蔽輸入話語(yǔ)頻譜矢量以產(chǎn)生經(jīng)遮蔽的輸入話語(yǔ)頻譜矢量;最小可聽(tīng)見(jiàn)的區(qū)域曲線重正規(guī)化器,耦合至該遮蔽操縱裝置,用于將對(duì)應(yīng)至最小可聽(tīng)見(jiàn)的區(qū)域的該經(jīng)遮蔽的輸入話語(yǔ)頻譜矢量重正規(guī)化,以產(chǎn)生重正規(guī)化的經(jīng)遮蔽的輸入話語(yǔ)頻譜矢量,以及美-標(biāo)度再取樣器,耦合至該最小可聽(tīng)見(jiàn)的區(qū)域曲線重正規(guī)化器,用于轉(zhuǎn)換該重正規(guī)化的經(jīng)遮蔽的輸入話語(yǔ)頻譜矢量成美-標(biāo)度。
3.根據(jù)權(quán)利要求1的話語(yǔ)處理系統(tǒng),其中該語(yǔ)音特征映射器包含投射類似性發(fā)生器,耦合至該存儲(chǔ)裝置,用于產(chǎn)生該輸入頻譜矢量到該多個(gè)參考頻譜矢量上的多個(gè)投射類似性計(jì)算;相對(duì)投射類似性發(fā)生器,耦合至該存儲(chǔ)裝置,用于產(chǎn)生該輸入頻譜矢量到該多個(gè)參考頻譜矢量上的多個(gè)相對(duì)投射類似性計(jì)算;以及選擇器,耦合至該投射類似性發(fā)生器及該相對(duì)投射類似性發(fā)生器,用于自對(duì)應(yīng)至該輸入話語(yǔ)頻譜矢量在該多個(gè)參考頻譜矢量上的投射類似性及相對(duì)投射類似性的相對(duì)值的該投射類似性發(fā)生器計(jì)算及該相對(duì)投射類似性發(fā)生器計(jì)算之間選擇一投射類似性。
4.根據(jù)權(quán)利要求3的話語(yǔ)處理系統(tǒng),其中該多個(gè)參考頻譜矢量是由多個(gè)靜態(tài)元音組成。
5.根據(jù)權(quán)利要求4的話語(yǔ)處理系統(tǒng),其中該多個(gè)靜態(tài)元音是由9個(gè)靜態(tài)的普通話元音組成。
6.一種用于識(shí)別一經(jīng)取樣的話語(yǔ)頻譜矢量的話語(yǔ)識(shí)別系統(tǒng),其包含快速傅立葉變換分析儀,用于產(chǎn)生經(jīng)取樣的話語(yǔ)頻譜矢量的傅立葉變換,感知話語(yǔ)處理器,耦合至該快速傅立葉變換分析儀,用于處理該傅立葉變換以產(chǎn)生感知頻譜;存儲(chǔ)裝置,用于存儲(chǔ)多個(gè)參考頻譜矢量;以及語(yǔ)音特征映射器,其與該感知話語(yǔ)處理器及該存儲(chǔ)裝置耦合,用于將該感知頻譜映射至該多個(gè)參考頻譜矢量,從而選擇至少一與該感知頻譜有最大類似性的參考矢量;以及連續(xù)HMM識(shí)別器,耦合至該語(yǔ)音特征映射器,用于識(shí)別該至少一個(gè)參考矢量。
7.根據(jù)權(quán)利要求6的話語(yǔ)識(shí)別系統(tǒng),其中該多個(gè)參考頻譜矢量是由多個(gè)靜態(tài)元音組成。
8.根據(jù)權(quán)利要求7的話語(yǔ)識(shí)別系統(tǒng),其中該多個(gè)靜態(tài)元音是由9個(gè)靜態(tài)的普通話元音組成。
9.一種用于處理一輸入話語(yǔ)頻譜矢量的話語(yǔ)處理方法,包含下述步驟感知地處理輸入話語(yǔ)頻譜矢量以產(chǎn)生感知頻譜;存儲(chǔ)多個(gè)參考頻譜矢量;以及將該感知頻譜映射至該多個(gè)參考頻譜矢量上。
10.根據(jù)權(quán)利要求9的話語(yǔ)處理方法,其中該感知地處理步驟進(jìn)一步包含下述步驟噪音遮蔽輸入話語(yǔ)頻譜矢量以產(chǎn)生經(jīng)遮蔽的輸入話語(yǔ)頻譜矢量;將對(duì)應(yīng)至最小可聽(tīng)見(jiàn)的區(qū)域的該經(jīng)遮蔽的輸入話語(yǔ)頻譜矢量重正規(guī)化,以產(chǎn)生重正規(guī)化的經(jīng)遮蔽的輸入話語(yǔ)頻譜矢量,以及轉(zhuǎn)換該重正規(guī)化的經(jīng)遮蔽的輸入話語(yǔ)頻譜矢量成美-標(biāo)度。
11.根據(jù)權(quán)利要求9的話語(yǔ)處理方法,其中該映射步驟進(jìn)一步包含下述步驟產(chǎn)生該輸入頻譜矢量到該多個(gè)參考頻譜矢量上的多個(gè)投射類似性計(jì)算;產(chǎn)生該輸入頻譜矢量到該多個(gè)參考頻譜矢量上的多個(gè)相對(duì)投射類似性計(jì)算;以及自對(duì)應(yīng)至該輸入話語(yǔ)頻譜矢量在該多個(gè)參考頻譜矢量上的投射類似性及相對(duì)投射類似性的相對(duì)值的該投射類似性發(fā)生器計(jì)算及該相對(duì)投射類似性發(fā)生器計(jì)算之間選擇一投射類似性。
12.根據(jù)權(quán)利要求11的話語(yǔ)處理方法,其中該多個(gè)參考頻譜矢量由多個(gè)靜態(tài)元音組成。
13.根據(jù)權(quán)利要求12的話語(yǔ)處理方法,其中該多個(gè)靜態(tài)元音由9個(gè)靜態(tài)的普通話元音組成。
14.一種經(jīng)取樣的輸入話語(yǔ)頻譜矢量的話語(yǔ)識(shí)別方法,其包含有步驟利用快速傅立葉變換分析儀,產(chǎn)生該經(jīng)取樣的輸入話語(yǔ)頻譜矢量的傅立葉變換;通過(guò)處理該傅立葉變換以產(chǎn)生感知頻譜;存儲(chǔ)多個(gè)參考頻譜矢量;將該感知頻譜映射至該多個(gè)參考頻譜矢量上;選擇至少一個(gè)與該感知頻譜有最大類似性的參考矢量;以及利用一連續(xù)HMM識(shí)別器識(shí)別該至少一個(gè)參考矢量。
15.根據(jù)權(quán)利要求14的話語(yǔ)識(shí)別方法,其中該多個(gè)參考頻譜矢量由多個(gè)靜態(tài)元音組成。
16.根據(jù)權(quán)利要求15的話語(yǔ)識(shí)別方法,其中該多個(gè)靜態(tài)元音由9個(gè)靜態(tài)的普通話元音組成。
全文摘要
一種用于精確及強(qiáng)健的話語(yǔ)識(shí)別的完整系統(tǒng)及方法,其以將三種感知處理技術(shù)應(yīng)用至話語(yǔ)傅里葉頻譜為基礎(chǔ),以通過(guò)將感知頻譜投射至一組參考元音頻譜矢量上以供輸入至話語(yǔ)識(shí)別器以實(shí)現(xiàn)清晰的感知頻譜及該感知頻譜的精確識(shí)別。本發(fā)明包含一感知話語(yǔ)處理器,用于感知地處理輸入的話語(yǔ)頻譜矢量以產(chǎn)生一感知頻譜;一存儲(chǔ)裝置,用于存儲(chǔ)多個(gè)參考頻譜矢量;及一語(yǔ)音特征映射器,其與該感知話語(yǔ)處理器及該存儲(chǔ)裝置耦合,用于將該感知的頻譜映射至該多個(gè)參考頻譜矢量上。
文檔編號(hào)G10L15/00GK1400583SQ0112405
公開(kāi)日2003年3月5日 申請(qǐng)日期2001年8月8日 優(yōu)先權(quán)日2001年8月8日
發(fā)明者卜令楷, 闕志達(dá) 申請(qǐng)人:韋爾博泰克公司