專(zhuān)利名稱(chēng):用于語(yǔ)音識(shí)別的動(dòng)態(tài)調(diào)節(jié)的訓(xùn)練方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)語(yǔ)音識(shí)別,更具體地說(shuō),涉及訓(xùn)練一種計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。
借助于計(jì)算機(jī)系統(tǒng)迅速和準(zhǔn)確地識(shí)別人類(lèi)語(yǔ)音早就是計(jì)算機(jī)系統(tǒng)開(kāi)發(fā)者長(zhǎng)期追求的目標(biāo)。由這樣一種計(jì)算機(jī)語(yǔ)音識(shí)別(CSR)系統(tǒng)產(chǎn)生的益處是顯著的。例如,與其把文件用鍵盤(pán)打入計(jì)算機(jī)系統(tǒng)中,倒不如人簡(jiǎn)單地讀出文件的詞,并且CSR系統(tǒng)識(shí)別詞且存儲(chǔ)每個(gè)詞的字母,就象已經(jīng)用鍵盤(pán)打出詞一樣。由于人們一般說(shuō)得比打字快,所以能提高效率。而且,人們不必學(xué)習(xí)如何打字。計(jì)算機(jī)還能用于許多這樣的用途中,在因?yàn)槿说氖置τ诖蜃种獾娜蝿?wù)而無(wú)法使用的場(chǎng)合中。
典型的CSR系統(tǒng)借助于把讀出的發(fā)音與詞匯中每個(gè)詞的模型相比較來(lái)識(shí)別詞。把其模型與發(fā)音匹配最好的詞識(shí)別為講出的詞。CSR系統(tǒng)將每個(gè)詞看作一個(gè)組成該詞的音素序列的模型。為了識(shí)別發(fā)音,CSR系統(tǒng)辨別一個(gè)詞序列,該序列的音素與發(fā)音很好地匹配。然而,這些音素可能與組成詞的音素對(duì)應(yīng)得不準(zhǔn)確。因而,CSR系統(tǒng)一般使用概率分析,以確定哪個(gè)詞最接近地對(duì)應(yīng)于辨別的音素。
當(dāng)識(shí)別發(fā)音時(shí),CSR系統(tǒng)把代表發(fā)音的模擬信號(hào)轉(zhuǎn)換成用來(lái)進(jìn)一步處理的更適用形式。CSR系統(tǒng)首先把模擬信號(hào)轉(zhuǎn)換成數(shù)字形式。CSR系統(tǒng)然后對(duì)該數(shù)字形式采用信號(hào)處理技術(shù),如快速傅里葉變換(FFT)、線(xiàn)性預(yù)測(cè)編碼(LPC)、或?yàn)V波器組,以抽取發(fā)音的適當(dāng)參數(shù)表示。通常使用的表示是一個(gè)帶有代表在各間隔(稱(chēng)為“幀”)處的頻帶和/或能帶的FFT或LPC系數(shù)的“特征向量”。諸間隔依據(jù)計(jì)算機(jī)系統(tǒng)的計(jì)算容量和識(shí)別過(guò)程的希望準(zhǔn)確度可短可長(zhǎng)。典型間隔可能在10毫秒的范圍內(nèi)。就是說(shuō),CSR系統(tǒng)對(duì)于每10毫秒的發(fā)音產(chǎn)生一個(gè)特征向量。每幀一般25毫秒長(zhǎng)。因此,每10毫秒產(chǎn)生一個(gè)25毫秒長(zhǎng)的幀。在連續(xù)的幀之間有重疊。
為了便于特征向量的處理,把每個(gè)特征向量量化成有限數(shù)量(例如256個(gè))的“量化向量”之一。就是說(shuō),CSR系統(tǒng)定義多個(gè)選擇為代表特征向量典型或平均范圍的量化向量。CSR系統(tǒng)然后把每個(gè)特征向量與每一個(gè)量化向量相比較,并且選擇最接近類(lèi)似于特征向量的量化向量,以表示特征向量。每個(gè)量化向量唯一地由一個(gè)數(shù)辨別(例如在1與256之間),這個(gè)數(shù)稱(chēng)作“代碼字”。當(dāng)一個(gè)特征向量表示為量化向量時(shí),有信息丟失,因?yàn)槎鄠€(gè)不同的特征向量映到相同的量化向量上。為了保證這種信息丟失不會(huì)嚴(yán)重影響識(shí)別,CSR系統(tǒng)可以定義幾千或幾百萬(wàn)個(gè)量化向量。存儲(chǔ)這樣大數(shù)量的量化向量的定義所需的存儲(chǔ)量會(huì)相當(dāng)大。因而,為了減小所需的存儲(chǔ)量,CSR系統(tǒng)將特征向量分段,并且把每段量化成小數(shù)量(例如256個(gè))量化向量之一。因而,每個(gè)特征向量由用于每個(gè)段的量化向量(由一個(gè)代碼字辨別)表示。為了解釋簡(jiǎn)單起見(jiàn),描述沒(méi)有將特征向量分段并因而每個(gè)特征向量(或幀)僅有一個(gè)代碼字的CSR系統(tǒng)。
如以上討論的那樣,讀出的發(fā)音經(jīng)常與詞的模型對(duì)應(yīng)得不準(zhǔn)確。找到準(zhǔn)確對(duì)應(yīng)性的困難歸因于語(yǔ)音中的巨大變化,語(yǔ)音不能由詞模型完全和準(zhǔn)確地捕捉。這些變化例如是由講話(huà)者的音調(diào)、人講話(huà)的速度和音高、講話(huà)者的當(dāng)前健康狀況(例如感冒)、講話(huà)者的年齡和性別等等產(chǎn)生的。使用概率技術(shù)的CSR系統(tǒng)在準(zhǔn)確識(shí)別語(yǔ)音方面,比尋找準(zhǔn)確對(duì)應(yīng)的技術(shù)更成功。
通常用于語(yǔ)音識(shí)別的這樣一種概率技術(shù)是隱藏馬爾可夫(Markov)模型。CSR系統(tǒng)可以把隱藏馬爾可夫模型(“HMM”)用于詞匯中的每個(gè)詞。用于詞的HMM包括由其能導(dǎo)出代碼字的任何序列對(duì)應(yīng)于該詞的概率的概率信息。因而,為了識(shí)別發(fā)音,CSR系統(tǒng)把發(fā)音轉(zhuǎn)換成一個(gè)代碼字序列,并且然后把HMM用于每個(gè)詞,以確定詞對(duì)應(yīng)于發(fā)音的概率。CSR系統(tǒng)把發(fā)音識(shí)別為具有最高概率的詞。
HMM由一個(gè)狀態(tài)圖表示。狀態(tài)圖傳統(tǒng)上用來(lái)確定系統(tǒng)接收一個(gè)輸入序列后處于的狀態(tài)。狀態(tài)圖包括狀態(tài)和源狀態(tài)與目標(biāo)狀態(tài)之間的過(guò)渡段。每個(gè)過(guò)渡段與一個(gè)輸入有關(guān),該輸入指示當(dāng)系統(tǒng)接收到該輸入且處于源狀態(tài)時(shí),系統(tǒng)將過(guò)渡到目標(biāo)狀態(tài)。這樣一種狀態(tài)圖,例如能由識(shí)別代碼字每個(gè)序列的系統(tǒng)使用,這些代碼字組成詞匯中的詞。當(dāng)系統(tǒng)處理每個(gè)代碼字時(shí),系統(tǒng)根據(jù)當(dāng)前狀態(tài)和正在處理的代碼字確定下一個(gè)狀態(tài)。在這個(gè)例子中,狀態(tài)圖可能具有對(duì)應(yīng)于每個(gè)詞的一定最終狀態(tài)。然而,如果表示一個(gè)詞的多種發(fā)音,那么每個(gè)詞可能具有多個(gè)最終狀態(tài)。如果在處理代碼字之后,系統(tǒng)處于對(duì)應(yīng)于一個(gè)詞的最終狀態(tài),那么能把代碼字的序列識(shí)別為最終狀態(tài)的詞。
然而,一個(gè)HMM具有與對(duì)于每個(gè)代碼字從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的每個(gè)過(guò)渡段有關(guān)的概率。例如,如果HMM處于狀態(tài)2,那么某一代碼字導(dǎo)致從當(dāng)前狀態(tài)過(guò)渡到下一狀態(tài)的概率可能是.1,而相同代碼字導(dǎo)致從當(dāng)前狀態(tài)過(guò)渡到下一不同狀態(tài)的概率可能是.2。類(lèi)似地,另一個(gè)不同代碼字導(dǎo)致從當(dāng)前狀態(tài)過(guò)渡到下一狀態(tài)的概率可能是.1。由于HMM具有與其狀態(tài)圖有關(guān)的概率,所以對(duì)于給定的代碼字序列的最終狀態(tài)的確定僅能用概率表示。因而,為了確定對(duì)于一個(gè)代碼字序列的每個(gè)可能最終狀態(tài)的概率,需要辨別用于HMM狀態(tài)圖的狀態(tài)的每個(gè)可能序列,并且需要計(jì)算有關(guān)的概率。狀態(tài)的每個(gè)這種序列稱(chēng)為狀態(tài)路徑。
為了簡(jiǎn)化識(shí)別,與其使用帶有表示對(duì)于每個(gè)可能詞用于代碼字的每個(gè)可能序列的概率的大狀態(tài)圖的HMM,倒不如CSR系統(tǒng)用HMM表示每個(gè)可能的語(yǔ)音單元,并且把每個(gè)詞表示為語(yǔ)音單元序列。傳統(tǒng)上,語(yǔ)音單元就是音素。然而,已經(jīng)使用了其他語(yǔ)音單元,如句素(Senones)。(見(jiàn)Hwang等,“用句素預(yù)測(cè)未知的三音素(Predicting Unseen Triphones withSenones)”,Proc.ICASSP’93,1993年,卷Ⅱ,第311-314頁(yè)。)對(duì)于用于每個(gè)語(yǔ)音單元的HMM,CSR系統(tǒng)通過(guò)連接用于組成詞的音素的HMM和估計(jì)生成的HMM,來(lái)估計(jì)表示某一詞的音素序列的概率。
每個(gè)HMM包含對(duì)于每個(gè)狀態(tài)中每個(gè)代碼字將導(dǎo)致彼此狀態(tài)過(guò)渡的概率。與每個(gè)狀態(tài)過(guò)渡有關(guān)的概率由用于該狀態(tài)的代碼字依賴(lài)輸出概率、和用于狀態(tài)的代碼字無(wú)關(guān)過(guò)渡概率表示。用于狀態(tài)的代碼字依賴(lài)輸出概率反映在代碼字序列導(dǎo)致HMM處于該狀態(tài)之后,音素將包含該代碼字作為下一個(gè)代碼字的可能性。狀態(tài)的代碼字無(wú)關(guān)過(guò)渡概率指示HMM將從該狀態(tài)過(guò)渡到每個(gè)下一狀態(tài)的概率。因而,當(dāng)輸入代碼字時(shí)HMM將從當(dāng)前狀態(tài)過(guò)渡到下一狀態(tài)的概率,是從當(dāng)前狀態(tài)到下一狀態(tài)的過(guò)渡概率與用于接收代碼字的輸出概率的乘積。
圖1表明用于音素的樣本HMM。HMM包含三個(gè)狀態(tài)和離開(kāi)每個(gè)狀態(tài)的兩個(gè)過(guò)渡段。一般地,CSR系統(tǒng)使用相同的狀態(tài)圖表示每個(gè)音素,但帶有音素依賴(lài)輸出和過(guò)渡概率.根據(jù)這種HMM,過(guò)渡僅出現(xiàn)在過(guò)渡至相同狀態(tài)或模擬語(yǔ)音左至右本性的下一個(gè)狀態(tài)。每個(gè)狀態(tài)帶有包含輸出和過(guò)渡概率的相關(guān)的輸出概率表和過(guò)渡概率表。如圖1中所示,當(dāng)HMM處于狀態(tài)2時(shí),用于代碼字5的輸出概率是.1,而當(dāng)HMM處于狀態(tài)2時(shí),到狀態(tài)3的過(guò)渡概率是.8。因而,當(dāng)接收代碼字5時(shí)HMM從狀態(tài)2過(guò)渡到狀態(tài)3的概率是.08(即.1×.8)。
為了確定代碼字序列表示音素的概率,CSR系統(tǒng)可以產(chǎn)生概率網(wǎng)格。用于音素的HMM的概率網(wǎng)格表示用于對(duì)代碼字序列的每個(gè)可能狀態(tài)路徑的概率計(jì)算。概率網(wǎng)格包含用于對(duì)序列中每個(gè)代碼字HMM可能處于其中的每個(gè)可能狀態(tài)的節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)包含至今處理過(guò)的代碼字將使HMM處于與該節(jié)點(diǎn)有關(guān)的狀態(tài)中的累計(jì)概率。具體代碼字的節(jié)點(diǎn)中的概率之和指示至今處理過(guò)的代碼字表示音素字首部分的可能性。
圖2是表明概率網(wǎng)格的圖。概率網(wǎng)格表示當(dāng)處理代碼字序列“7、5、2、1、2”時(shí),用于圖l中所示HMM的每個(gè)可能狀態(tài)的概率計(jì)算。橫軸對(duì)應(yīng)于代碼字,而縱軸對(duì)應(yīng)于HMM的狀態(tài)。網(wǎng)格的每個(gè)節(jié)點(diǎn)包含每個(gè)源狀態(tài)的概率乘以輸出和過(guò)渡概率時(shí)的最大概率,而不是概率之和。例如,節(jié)點(diǎn)201包含8.6E-6的概率,該概率是3.6E-4×.01×.9和1.4E-3×.03×.2的最大值。有許多引導(dǎo)到任何節(jié)點(diǎn)的不同狀態(tài)路徑(即狀態(tài)序列)。例如,節(jié)點(diǎn)201可以通過(guò)狀態(tài)路徑“1、2、3、3、”“1、2、2、3、”和“1、l、2、3、”到達(dá)。每個(gè)狀態(tài)路徑具有當(dāng)處理代碼字序列時(shí)HMM跟隨該狀態(tài)路徑的概率。每個(gè)節(jié)點(diǎn)中的概率是引導(dǎo)到節(jié)點(diǎn)的每個(gè)狀態(tài)路徑的概率中的最大值。這些最大概率用于如下討論的維特比(Viterbi)對(duì)準(zhǔn)。
圖3表明用于詞的概率網(wǎng)格??v軸對(duì)應(yīng)于用于組成詞的音素的HMM的狀態(tài)的連接。節(jié)點(diǎn)301表示詞的最終狀態(tài),并且包含引導(dǎo)到該節(jié)點(diǎn)的所有狀態(tài)路徑的最大概率。圖3中的加粗線(xiàn)表示其終點(diǎn)在節(jié)點(diǎn)301處的最大概率的狀態(tài)路徑。在一定的用途中(例如訓(xùn)練CSR系統(tǒng)),辨別具有引導(dǎo)到具體節(jié)點(diǎn)的最大概率的狀態(tài)路徑是有益的。一種用來(lái)辨別這樣一種狀態(tài)路徑的熟知算法是維特比算法。在維特比算法已經(jīng)確定了到最終狀態(tài)的最大概率狀態(tài)路徑之后,有可能在網(wǎng)格中從最終節(jié)點(diǎn)回追且確定最大概率狀態(tài)路徑上的前一個(gè)節(jié)點(diǎn),一路回到開(kāi)始狀態(tài)。例如,其終點(diǎn)在圖2節(jié)點(diǎn)203處的最大概率的狀態(tài)路徑是“1、2、2、2、2、3”。當(dāng)概率網(wǎng)格表示組成詞的音素時(shí),那么每個(gè)狀態(tài)能依據(jù)音素和音素中的狀態(tài)辨別。
CSR系統(tǒng)的準(zhǔn)確度部分地取決于用于每個(gè)音素的HMM的輸出和過(guò)渡概率準(zhǔn)確度。典型的CSR系統(tǒng)“訓(xùn)練”CSR系統(tǒng),從而輸出和過(guò)渡概率準(zhǔn)確地反映普通講話(huà)者的語(yǔ)音。在訓(xùn)練期間,CSR系統(tǒng)從各講話(huà)者大量各種各樣的詞收集代碼字序列。這樣選擇詞,從而很多次讀出每個(gè)音素。根據(jù)這些代碼字序列,CSR系統(tǒng)計(jì)算用于每個(gè)HMM的輸出和過(guò)渡概率。各種用來(lái)計(jì)算這些概率的迭代計(jì)算法是熟知的,并且在Huang等的“用于語(yǔ)音識(shí)別的隱藏馬爾克夫模型”(Edinburgh University Press,1990年)中,進(jìn)行了描述。
然而,伴隨這種訓(xùn)練技術(shù)的一個(gè)問(wèn)題是,這樣的普通HMM可能不準(zhǔn)確地模擬其語(yǔ)音模式與普通模式不同的人們的語(yǔ)音。一般地說(shuō),每個(gè)人都具有不同于普通模式的一定語(yǔ)音模式。因此,CSR系統(tǒng)允許講話(huà)者訓(xùn)練HMM,以適應(yīng)講話(huà)者的語(yǔ)音模式。在這樣的訓(xùn)練中,CSR系統(tǒng)通過(guò)使用由系統(tǒng)的實(shí)際用戶(hù)讀出的訓(xùn)練發(fā)音來(lái)細(xì)化HMM參數(shù),如輸出和過(guò)渡概率及由代碼字表示的量化向量。通過(guò)使用用戶(hù)提供的數(shù)據(jù)以及由大量講話(huà)者無(wú)關(guān)數(shù)據(jù)產(chǎn)生的信息和參數(shù)兩者,導(dǎo)出適應(yīng)的參數(shù)。因而,概率反映講話(huà)者依賴(lài)特征。在Huang和Lee的“關(guān)于講話(huà)者無(wú)關(guān)的、講話(huà)者依賴(lài)的、和講話(huà)者適應(yīng)的語(yǔ)音識(shí)別(On Speaker-Independent,Speaker-Dependent,andSpeaker-Adaptive Speech Recognition)”,Proc.ICASSP’91,1991年,第877-880頁(yè)中描述了一種這樣的訓(xùn)練技術(shù)。
一般通過(guò)向講話(huà)者呈現(xiàn)大量各種預(yù)選的詞,來(lái)訓(xùn)練CSR系統(tǒng)。選擇這些詞,以保證能收集語(yǔ)音對(duì)應(yīng)于每個(gè)音素的代表性樣本。就這種代表性樣本而言,CSR系統(tǒng)能保證,不準(zhǔn)確反映講話(huà)者的音素發(fā)音的任何HMM能被適當(dāng)?shù)匦薷?。?dāng)進(jìn)行另外的訓(xùn)練時(shí),例如因?yàn)橹v話(huà)者不滿(mǎn)意識(shí)別的準(zhǔn)確度,CSR系統(tǒng)就把另外的預(yù)選詞呈現(xiàn)給講話(huà)者。
盡管預(yù)選詞的使用能提供適當(dāng)?shù)挠?xùn)練,但講話(huà)者可能對(duì)于必須讀出大量的詞感到灰心。的確,由于詞預(yù)選成包括每個(gè)音素,所以要求講話(huà)者高效地讀出其音素以可接受的準(zhǔn)確度被模擬的詞。因此,使訓(xùn)練系統(tǒng)能動(dòng)態(tài)地選擇用于訓(xùn)練的、將趨于優(yōu)化訓(xùn)練準(zhǔn)確度的、和減小要求講話(huà)者讀出的詞數(shù)量的詞,將是有益的。
本發(fā)明涉及一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的方法和系統(tǒng)。每個(gè)詞由語(yǔ)音識(shí)別系統(tǒng)模擬為包含音素的單元。訓(xùn)練系統(tǒng)收集其相應(yīng)詞是已知的讀出發(fā)音。訓(xùn)練系統(tǒng)根據(jù)讀出的發(fā)音辨別哪些語(yǔ)音單元由語(yǔ)音識(shí)別系統(tǒng)模擬得不準(zhǔn)確。訓(xùn)練系統(tǒng)然后選擇包含用于語(yǔ)音識(shí)別系統(tǒng)訓(xùn)練的所辨別語(yǔ)音單元的詞。
在本發(fā)明的一個(gè)方面,語(yǔ)音識(shí)別系統(tǒng)把每個(gè)詞模擬為一個(gè)音素序列,并且具有用于每個(gè)音素的HMM。訓(xùn)練系統(tǒng)通過(guò)把每個(gè)發(fā)音的每個(gè)代碼字與已知詞的音素對(duì)準(zhǔn),來(lái)辨別哪些音素模擬得不準(zhǔn)確,收集的發(fā)音根據(jù)音素模型對(duì)應(yīng)于這些已知的詞。訓(xùn)練系統(tǒng)然后通過(guò)估計(jì)每個(gè)代碼字對(duì)準(zhǔn)的音素并且把代碼字與其他音素相比較,來(lái)計(jì)算準(zhǔn)確模擬音素的準(zhǔn)確度指示。
圖1表明用于音素的樣本HMM。
圖2是表明概率網(wǎng)格的圖。
圖3表明用于一個(gè)詞的概率網(wǎng)格。
圖4表示每個(gè)代碼字與音素的對(duì)準(zhǔn)。
圖5A表示每個(gè)音素包含每個(gè)代碼字的概率。
圖5B表示用于每個(gè)代碼字的每個(gè)音素的等級(jí)。
圖5C表示用于每幀的代碼字的每個(gè)音素的等級(jí)。
圖6表示與音素對(duì)準(zhǔn)的代碼字的普通等級(jí)的樣本計(jì)算。
圖7是在其上運(yùn)行一種最佳訓(xùn)練系統(tǒng)的計(jì)算機(jī)系統(tǒng)的方塊圖。
圖8是訓(xùn)練系統(tǒng)的流程圖。
圖9是根據(jù)HMM的準(zhǔn)確度用來(lái)排列音素的程序的流程圖。
本發(fā)明提供了一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練計(jì)算機(jī)語(yǔ)音識(shí)別(CSR)系統(tǒng)的詞的方法和系統(tǒng)。在一個(gè)實(shí)施例中,訓(xùn)練系統(tǒng)辨別哪些語(yǔ)音單元,如音素,由CSR系統(tǒng)模擬得最不準(zhǔn)確。訓(xùn)練系統(tǒng)然后辨別包含一個(gè)或多個(gè)這些最不準(zhǔn)確模擬音素的詞。訓(xùn)練系統(tǒng)提示講話(huà)者讀出這些辨別的詞。訓(xùn)練系統(tǒng)然后對(duì)應(yīng)于讀出的詞修改音素的模型。通過(guò)選擇包含模擬得最不準(zhǔn)確的音素的詞,訓(xùn)練系統(tǒng)能集中訓(xùn)練其模型偏離講話(huà)者的實(shí)際語(yǔ)音模式最大的模型。而且,不要求講話(huà)者讀出已經(jīng)準(zhǔn)確模擬的詞。
訓(xùn)練系統(tǒng)通過(guò)估計(jì)由講話(huà)者讀出的、其對(duì)應(yīng)詞是已知的各種發(fā)音,來(lái)確定哪些音素模擬得最不準(zhǔn)確。訓(xùn)練系統(tǒng)把發(fā)音轉(zhuǎn)換成代碼詞,然后在語(yǔ)音識(shí)別期間通過(guò)一個(gè)稱(chēng)為把代碼字與音素對(duì)準(zhǔn)的過(guò)程,來(lái)確定能把每個(gè)代碼字考慮成哪個(gè)音素的部分。一旦對(duì)準(zhǔn)完成,訓(xùn)練系統(tǒng)就在識(shí)別代碼字是音素的部分時(shí),為每個(gè)代碼字確定對(duì)準(zhǔn)音素的模型的準(zhǔn)確度。例如,如果一個(gè)代碼字與一個(gè)音素對(duì)準(zhǔn),并且模型預(yù)測(cè)與其他音素相比該代碼字在該音素內(nèi)的概率非常低,則該模型在識(shí)別該代碼字為該音素的部分時(shí)的準(zhǔn)確度較低。在確定用于每個(gè)代碼字的音素模型的準(zhǔn)確度之后,訓(xùn)練系統(tǒng)計(jì)算模型在識(shí)別對(duì)準(zhǔn)代碼字是音素的部分時(shí)的總準(zhǔn)確度??倻?zhǔn)確度能通過(guò)平均用于與該音素對(duì)準(zhǔn)的每個(gè)代碼字的準(zhǔn)確度來(lái)計(jì)算。這些具有最低總準(zhǔn)確度的音素模擬得最不準(zhǔn)確。
訓(xùn)練系統(tǒng)選擇用來(lái)訓(xùn)練的、包括模擬得最不準(zhǔn)確的音素的詞。訓(xùn)練系統(tǒng)可以使用幾種不同的選擇技術(shù)。訓(xùn)練系統(tǒng)可以辨別一定數(shù)量的模擬得最不準(zhǔn)確的音素。訓(xùn)練系統(tǒng)然后可以選擇任何包含至少一個(gè)辨別音素的詞??商鎿Q地,訓(xùn)練系統(tǒng)最好選擇包含多于一個(gè)辨別音素的詞,以減小講話(huà)者需要讀出以在辨別音素上訓(xùn)練的詞的數(shù)量。而且,訓(xùn)練系統(tǒng)最好選擇常說(shuō)的詞,以有助于保證講話(huà)者不讀出講話(huà)者可能不熟悉的生僻詞。
訓(xùn)練系統(tǒng)通過(guò)首先產(chǎn)生用于代碼字和已知詞的概率網(wǎng)格,把代碼字序列與詞的音素對(duì)準(zhǔn)。訓(xùn)練系統(tǒng)然后辨別引導(dǎo)到最可幾狀態(tài)的最可幾狀態(tài)路徑。這樣一種狀態(tài)路徑的辨別最好使用基于維特比的算法。訓(xùn)練系統(tǒng)然后使用狀態(tài)路徑辨別哪些代碼字能識(shí)別為哪些音素(與之對(duì)準(zhǔn)的)的部分。
訓(xùn)練系統(tǒng)或通過(guò)具體提示訓(xùn)練的講話(huà)者,或者通過(guò)保存由CSR系統(tǒng)誤識(shí)別的發(fā)音以及正確的詞,能收集在確定音素模型準(zhǔn)確度時(shí)所用的語(yǔ)音。具體提示一般發(fā)生在訓(xùn)練對(duì)話(huà)期間。訓(xùn)練系統(tǒng)通過(guò)提示講話(huà)者讀出各種預(yù)選的詞而開(kāi)始,并然后相應(yīng)修改模型。訓(xùn)練系統(tǒng)然后選擇包含識(shí)別得最不準(zhǔn)確的音素的詞,并且提示講話(huà)者讀出這些詞,且相應(yīng)修改模型。訓(xùn)練系統(tǒng)能反復(fù)進(jìn)行這種修改。如果收集的語(yǔ)音是誤識(shí)別的發(fā)音,那么訓(xùn)練系統(tǒng)最初會(huì)選擇包含那些確定為模擬得最不準(zhǔn)確的誤識(shí)別發(fā)音的音素的詞。能通過(guò)把發(fā)音與誤識(shí)別詞的音素對(duì)準(zhǔn)與正確詞的音素對(duì)準(zhǔn)相比較來(lái)確定哪個(gè)音素模型模擬得最不準(zhǔn)確。在導(dǎo)出音素模型準(zhǔn)確度的量度時(shí)能使用的因素包括在誤識(shí)別詞中音素不正確識(shí)別的次數(shù)、和正確與不正確音素模型的概率值的差。使用誤識(shí)別發(fā)音的優(yōu)點(diǎn)在于,訓(xùn)練是基于講話(huà)者在通常說(shuō)話(huà)期間實(shí)際使用的詞中的音素。
一種最佳的CSR系統(tǒng)還自動(dòng)地確定何時(shí)應(yīng)該進(jìn)行訓(xùn)練。通常,講話(huà)者認(rèn)為難以進(jìn)行訓(xùn)練對(duì)話(huà)。因此,他們不可能著手訓(xùn)練對(duì)話(huà),除非識(shí)別系統(tǒng)的準(zhǔn)確度存在重大問(wèn)題。而且,訓(xùn)練是如此困難,以致于講話(huà)者會(huì)經(jīng)常修改其語(yǔ)音模式以匹配模型。為了使訓(xùn)練過(guò)程更加講話(huà)者友好,CSR系統(tǒng)能定期地或者當(dāng)確定足夠多的句素被不準(zhǔn)確地模擬而認(rèn)為訓(xùn)練是必要時(shí),自動(dòng)地著手一個(gè)短期訓(xùn)練對(duì)話(huà)。例如,能以每天為基礎(chǔ)自動(dòng)地著手訓(xùn)練對(duì)話(huà),或者當(dāng)注意到20個(gè)句素與模型匹配得不夠準(zhǔn)確時(shí)著手進(jìn)行。
本發(fā)明的技術(shù)還能在例如當(dāng)講話(huà)者學(xué)習(xí)一門(mén)新語(yǔ)言時(shí)用來(lái)把詞的適當(dāng)發(fā)音教授給講話(huà)者。指導(dǎo)系統(tǒng)與其認(rèn)為音素模擬得的不準(zhǔn)確,倒不如認(rèn)為音素被講話(huà)者錯(cuò)誤地讀出。因而,一旦辨別到發(fā)音最不準(zhǔn)確的音素,指導(dǎo)系統(tǒng)就特別強(qiáng)調(diào)教給講話(huà)者如何發(fā)音帶有這些音素的詞。而且,指導(dǎo)系統(tǒng)根據(jù)使用模擬音素計(jì)算的讀出音素的準(zhǔn)確度,將講話(huà)者的發(fā)音分級(jí)。
在一個(gè)最佳實(shí)施例中,訓(xùn)練系統(tǒng)根據(jù)給定音素包含一個(gè)給定代碼字的聲學(xué)模型概率確定,該音素包含該代碼字的可能性。對(duì)于每個(gè)代碼詞,訓(xùn)練系統(tǒng)根據(jù)音素的概率排列每個(gè)音素。就是說(shuō),具有最大概率的音素分配到最高等級(jí)(即等級(jí)1)。然后當(dāng)計(jì)算模型的準(zhǔn)確度時(shí),使用這些等級(jí)。特別是,訓(xùn)練系統(tǒng)使用與它對(duì)準(zhǔn)的所有代碼字來(lái)計(jì)算音素的平均等級(jí)。訓(xùn)練系統(tǒng)然后選擇包含具有用于訓(xùn)練的低平均等級(jí)的那些音素的詞。
圖4-6表明各音素的準(zhǔn)確度計(jì)算。這個(gè)例子表明基于一個(gè)詞的讀出的計(jì)算。然而,在實(shí)際中,這樣一種計(jì)算可能基于多個(gè)詞。輸入詞包括音素10、12、和2。訓(xùn)練系統(tǒng)把相應(yīng)發(fā)音劃分成具有如下代碼字的15幀5、10、255、2、3、50、32、256、6、4、6、10、2、3、和5。訓(xùn)練系統(tǒng)然后把代碼字與音素對(duì)準(zhǔn)。圖4表示每個(gè)代碼字與音素的對(duì)準(zhǔn)。表401帶有一根對(duì)應(yīng)于音素的橫軸、和一根對(duì)應(yīng)于幀的縱軸。表的項(xiàng)指示每個(gè)音素與其對(duì)準(zhǔn)的代碼字。代碼字5、10、255、和2與音素10對(duì)準(zhǔn);代碼字3、50、32、256、6、和4與音素12對(duì)準(zhǔn);及代碼字6、10、2、3、和5與音素2對(duì)準(zhǔn)。
圖5A表示聲學(xué)模型代碼字/音素概率表。該表帶有一根對(duì)應(yīng)于代碼字的縱軸、和一根對(duì)應(yīng)于音素的橫軸。表中的每項(xiàng)包含相應(yīng)音素包含該代碼詞的概率。例如,音素10包含代碼字6的概率是.01,而音素3包含代碼字5的概率是.04。每行列的概率之和是1。
圖5B表示代碼字/音素等級(jí)表。這個(gè)表包含對(duì)于每個(gè)代碼字的、該代碼字相對(duì)于每個(gè)音素的概率的等級(jí)。例如,代碼字6對(duì)于音素10具有等級(jí)為33,這意味著代碼字6在32個(gè)其他音素中的可能性比在音素10中的大,而且代碼字6在音素10中的可能性比在7個(gè)其他音素中的大(假定總共40個(gè)音素)。因而,表的每等級(jí)包含具有從1至40的數(shù)的項(xiàng)。
音素用于每個(gè)代碼字的等級(jí)能以幾種方式產(chǎn)生。例如,對(duì)于每幀,CSR系統(tǒng)能辨別音素能產(chǎn)生用于該幀的代碼字的聲學(xué)模型概率。對(duì)于該幀,具有最大概率的音素分配到等級(jí)1,具有第二大概率的音素分配到等級(jí)2,以此類(lèi)推。能根據(jù)來(lái)自代碼字/音素概率表的信息動(dòng)態(tài)地計(jì)算等級(jí)。圖5C表示用于每幀的代碼字的每個(gè)音素的等級(jí)。用于一幀的這些等級(jí)能通過(guò)按減小順序動(dòng)態(tài)地將對(duì)于該幀用于所有音素的概率分類(lèi)來(lái)產(chǎn)生。另外,依據(jù)可存儲(chǔ)的量,能一次產(chǎn)生該等級(jí),如代碼字/概率等級(jí)表中所示。
圖6表示使用與音素對(duì)準(zhǔn)的幀對(duì)這些音素的平均等級(jí)的樣本計(jì)算。表601帶有一根對(duì)應(yīng)于音素的橫軸、和一根對(duì)應(yīng)于輸入發(fā)音的代碼字的縱軸。表的每項(xiàng)包含用于對(duì)準(zhǔn)代碼字的相應(yīng)音素的等級(jí)。例如,代碼字5、10、255、和2與音素10對(duì)準(zhǔn),并且對(duì)于這些代碼字音素10分別具有等級(jí)19、31、15和1。表的底部包含等級(jí)的和、對(duì)準(zhǔn)代碼字的計(jì)數(shù)、及平均等級(jí)。例如,對(duì)于音素10等級(jí)的和是66,對(duì)準(zhǔn)代碼字的計(jì)數(shù)是4,及對(duì)于音素10平均等級(jí)因此是16。如表所示,對(duì)于音素12平均等級(jí)是13,而對(duì)于音素2平均等級(jí)是19。由于音素12具有最高的平均等級(jí),所以CSR系統(tǒng)認(rèn)為該音素比其他兩個(gè)音素模擬得更準(zhǔn)確。反之,由于音素2具有最低的平均等級(jí),所以CSR系統(tǒng)認(rèn)為該音素比其他兩個(gè)音素模擬得更不準(zhǔn)確,并且最好選擇該音素用于訓(xùn)練。
圖7是在其上運(yùn)行一種最佳訓(xùn)練系統(tǒng)的計(jì)算機(jī)系統(tǒng)的方塊圖。計(jì)算機(jī)系統(tǒng)700包含一個(gè)存儲(chǔ)器701、一個(gè)中央處理單元702、存儲(chǔ)裝置703、及顯示裝置704。訓(xùn)練系統(tǒng)可以永久地存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上,如磁盤(pán)上,并且裝入用于執(zhí)行的計(jì)算機(jī)系統(tǒng)的存儲(chǔ)器中。一種最佳的CSR系統(tǒng)包括一個(gè)識(shí)別元件705、一個(gè)HMM元件706、和一個(gè)訓(xùn)練元件710。HMM元件包含一個(gè)用于每個(gè)音素的隱藏馬爾克夫模型、和每個(gè)詞對(duì)其音素的映象。訓(xùn)練元件包含一個(gè)樣本收集元件711、一個(gè)代碼字/音素對(duì)準(zhǔn)元件712、一個(gè)音素排列元件713、及一個(gè)詞選擇元件714。樣本收集元件或通過(guò)具體提示用戶(hù)、或收集誤識(shí)別的發(fā)音來(lái)收集發(fā)音的各種樣本和其相應(yīng)的詞。樣本收集元件把發(fā)音轉(zhuǎn)換成代碼字。代碼字/音素對(duì)準(zhǔn)元件接收代碼字和其相應(yīng)的詞,并且使用HMM把每個(gè)代碼字與詞的音素對(duì)準(zhǔn)。音素排列元件使用代碼字與音素的對(duì)準(zhǔn),以使用與音素對(duì)準(zhǔn)的代碼字計(jì)算這些音素的平均等級(jí)。詞選擇元件然后使用平均等級(jí)從可用的詞匯(末表示)中選擇詞。
圖8是訓(xùn)練系統(tǒng)的流程圖。在步驟801,訓(xùn)練系統(tǒng)根據(jù)用于每個(gè)音素的HMM的準(zhǔn)確度排列所有音素,如圖9中所描述的那樣。在步驟802,訓(xùn)練系統(tǒng)辨別模擬得最不準(zhǔn)確的音素,即具有較低等級(jí)的那些音素。在步驟803,訓(xùn)練系統(tǒng)根據(jù)辨別的音素選擇用于訓(xùn)練的詞。在步驟804,訓(xùn)練系統(tǒng)提示講話(huà)者讀出選擇詞的每一個(gè)。在步驟805,訓(xùn)練系統(tǒng)根據(jù)用于選擇詞的發(fā)音修改HMM。
圖9是根據(jù)HMM的準(zhǔn)確度用來(lái)排列音素的程序的流程圖。在一個(gè)實(shí)施例中,這個(gè)程序通過(guò)提示講話(huà)者讀出訓(xùn)練詞來(lái)收集發(fā)音,以在排列時(shí)使用。程序然后計(jì)算每個(gè)音素準(zhǔn)確度的指示。在步驟901,程序從第一個(gè)訓(xùn)練詞開(kāi)始選擇下一個(gè)訓(xùn)練詞。訓(xùn)練詞可以是預(yù)先建立的、或預(yù)先定義的訓(xùn)練詞的集合,或者可以動(dòng)態(tài)地預(yù)先選擇。在步驟902,如果已經(jīng)選擇所有的訓(xùn)練詞,那么程序繼續(xù)到步驟911,否則程序繼續(xù)到步驟903。在步驟903,程序提示講話(huà)者讀出選擇的詞,并且接收相應(yīng)的發(fā)音。在步驟904,程序把發(fā)音轉(zhuǎn)換成代碼字序列。在步驟905,程序把每個(gè)代碼字與每個(gè)最可能對(duì)應(yīng)的詞的音素對(duì)準(zhǔn)。在步驟906-910,程序循環(huán)選擇每個(gè)代碼字和累計(jì)與該代碼字對(duì)準(zhǔn)的音素的等級(jí)。在步驟906,程序從第一個(gè)代碼字開(kāi)始選擇下一個(gè)。在步驟907,如果已經(jīng)選擇所有的代碼字,那么程序循環(huán)到步驟901,以選擇下一個(gè)訓(xùn)練詞,否則程序繼續(xù)到步驟908。在步驟908,程序在對(duì)準(zhǔn)代碼字的范圍內(nèi)辨別音素的等級(jí)。在步驟909,程序累計(jì)用于對(duì)準(zhǔn)音素的辨別等級(jí)。在步驟910,程序增大與該音素對(duì)準(zhǔn)的代碼字的數(shù)量計(jì)數(shù),并且循環(huán)到906以選擇下一個(gè)代碼字。在步驟911,程序通過(guò)把累計(jì)等級(jí)除以計(jì)數(shù)來(lái)計(jì)算每個(gè)音素的平均等級(jí),并且返回。
盡管按照最佳實(shí)施例已經(jīng)描述了本發(fā)明,但不打算把本發(fā)明限于這些實(shí)施例。在本發(fā)明的實(shí)質(zhì)范圍內(nèi)的改進(jìn)對(duì)于熟悉本專(zhuān)業(yè)的技術(shù)人員將是顯而易見(jiàn)的。例如,盡管按照識(shí)別離散的語(yǔ)音發(fā)音描述了本發(fā)明,但本發(fā)明能容易地用于連續(xù)的語(yǔ)音識(shí)別系統(tǒng)中。此外,本發(fā)明的技術(shù)能用于不使用隱藏馬爾克夫模型的識(shí)別系統(tǒng)。而且,使用產(chǎn)生代碼字的聲學(xué)模型概率之外的量度,如通過(guò)使用用識(shí)別器的音素誤識(shí)別的計(jì)數(shù),也能計(jì)算音素的等級(jí)。根據(jù)求和的不同級(jí)而不是幀級(jí)能計(jì)算語(yǔ)音單元的等級(jí)。例如,以語(yǔ)音段級(jí)能求和等級(jí),這里語(yǔ)音段包括多個(gè)幀或語(yǔ)音的可變長(zhǎng)度時(shí)段。以粒度的不同級(jí),如音素、在音素中的狀態(tài)、句素、一種在上下文依賴(lài)音素中的狀態(tài)、或完整的詞本身,能計(jì)算語(yǔ)音單元的等級(jí),和進(jìn)行在選擇用于訓(xùn)練的詞中的語(yǔ)音單元的選擇。上下文依賴(lài)音素可以取決于多個(gè)周?chē)羲鼗蛟~的上下文。也可以把一個(gè)完整的詞考慮為在訓(xùn)練時(shí)用于模擬和選擇的單元。當(dāng)詞匯大小較小時(shí),或者當(dāng)某些詞經(jīng)常使用并且可能混淆時(shí),如英語(yǔ)字母和數(shù)字,使用完整的詞作為單元是便利的。CSR系統(tǒng)能使用等級(jí)之外的準(zhǔn)確度量度。例如,CSR系統(tǒng)可以使用音素概率與用于該幀的最好音素概率的差值或比值。而且,使用求平均之外的技術(shù),如計(jì)算跨過(guò)多個(gè)出現(xiàn)的相同語(yǔ)音單元的準(zhǔn)確度度量的最大值、最小值、或加權(quán)和,能組合跨過(guò)不同幀的等級(jí)或準(zhǔn)確度量度信息。最后,CSR系統(tǒng)能使用關(guān)于音素模型準(zhǔn)確度的收集信息(總稱(chēng)為誤差分布),以改進(jìn)識(shí)別過(guò)程本身。例如,如果誤差分布表示識(shí)別該音素模型的機(jī)會(huì)在其已知出現(xiàn)期間較小,如由誤差分布辨別的那樣,則在識(shí)別期間能增大語(yǔ)音單元的概率。本發(fā)明的范圍由如下的權(quán)利要求書(shū)限定。
權(quán)利要求
1.一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的計(jì)算機(jī)系統(tǒng)中的方法,該語(yǔ)音識(shí)別系統(tǒng)用來(lái)識(shí)別多個(gè)詞,該語(yǔ)音識(shí)別系統(tǒng)具有組成每個(gè)詞的音素的指示,該語(yǔ)音識(shí)別系統(tǒng)具有用于每個(gè)音素的模型,每個(gè)模型用來(lái)產(chǎn)生代碼字的每個(gè)可能序列對(duì)應(yīng)于模擬的音素的概率,該方法包括對(duì)于每個(gè)代碼字,根據(jù)代碼字將作為音素的部分讀出的概率排列音素;收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音;對(duì)于每個(gè)收集的發(fā)音,把收集的發(fā)音轉(zhuǎn)換成代碼字序列;及根據(jù)音素模型,把代碼字序列中的每個(gè)代碼字與收集發(fā)音對(duì)應(yīng)的已知詞的音素對(duì)準(zhǔn);對(duì)于每個(gè)音素,對(duì)于在每一個(gè)收集發(fā)音中與音素對(duì)準(zhǔn)的所有代碼字,累計(jì)該音素的等級(jí);及通過(guò)把累計(jì)的等級(jí)除以在收集發(fā)音中與該音素對(duì)準(zhǔn)的代碼字的總數(shù),計(jì)算該音素的平均等級(jí);辨別具有低平均等級(jí)的音素;及選擇包含辨別音素的詞,作為用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞。
2.根據(jù)權(quán)利要求1所述的方法,其中模型是隱藏馬爾克夫模型。
3.根據(jù)權(quán)利要求1所述的方法,其中對(duì)準(zhǔn)使用一種基于維特比的對(duì)準(zhǔn)算法。
4.根據(jù)權(quán)利要求1所述的方法,包括把選擇的詞呈現(xiàn)給講話(huà)者以便訓(xùn)練。
5.根據(jù)權(quán)利要求4所述的方法,其中在詞將由講話(huà)者讀出的概率下,最好選擇選出的詞。
6.根據(jù)權(quán)利要求1所述的方法,其中音素的辨別包括辨別多于一個(gè)具有低平均等級(jí)的音素,并且其中選擇過(guò)程選擇包含多于一個(gè)辨別音素的詞。
7.根據(jù)權(quán)利要求6所述的方法,包括把選擇的詞呈現(xiàn)給講話(huà)者以便訓(xùn)練。
8.根據(jù)權(quán)利要求7所述的方法,其中每個(gè)詞具有指示該詞將由講話(huà)者讀出的概率的語(yǔ)言模型概率,及其中按基于選擇詞的語(yǔ)言模型概率的順序,把選擇的詞呈現(xiàn)給講話(huà)者。
9.一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的計(jì)算機(jī)系統(tǒng)中的方法,該語(yǔ)音識(shí)別系統(tǒng)用來(lái)識(shí)別多個(gè)詞,該語(yǔ)音識(shí)別系統(tǒng)具有組成每個(gè)詞的語(yǔ)音單元的指示,該語(yǔ)音識(shí)別系統(tǒng)具有用于每個(gè)語(yǔ)音單元的模型,每個(gè)模型用來(lái)產(chǎn)生特征向量的每個(gè)可能序列對(duì)應(yīng)于模擬的語(yǔ)音單元的概率,該方法包括收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音;對(duì)于每個(gè)收集的發(fā)音,把收集的發(fā)音轉(zhuǎn)換成特征向量序列;及根據(jù)已知詞的語(yǔ)音單元的模型,把特征向量序列中的每個(gè)特征向量與收集發(fā)音所對(duì)應(yīng)的已知詞的語(yǔ)音單元對(duì)準(zhǔn);從與每個(gè)語(yǔ)音單元對(duì)準(zhǔn)的特征向量中,辨別哪些語(yǔ)音單元模擬得最不準(zhǔn)確;及選擇包含辨別音素的詞,作為用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞。
10.根據(jù)權(quán)利要求9所述的方法,其中哪些語(yǔ)音單元模擬得最不準(zhǔn)確的辨別包括根據(jù)對(duì)準(zhǔn)語(yǔ)音單元和特征向量計(jì)算幀準(zhǔn)確度度量;及通過(guò)組合基于該語(yǔ)音單元的幀準(zhǔn)確度度量,計(jì)算對(duì)于每個(gè)獨(dú)特語(yǔ)音單元的組合準(zhǔn)確度度量。
11.根據(jù)權(quán)利要求10所述的方法,其中幀準(zhǔn)確度度量是特征向量包含在特征向量與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率,與特征向量包含在任何語(yǔ)音單元內(nèi)的最大概率的比值。
12.根據(jù)權(quán)利要求10所述的方法,其中幀準(zhǔn)確度度量是特征向量包含在特征向量與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率,與特征向量包含在任何語(yǔ)音單元內(nèi)的最大概率的差值。
13.根據(jù)權(quán)利要求10所述的方法,其中幀準(zhǔn)確度度量是每個(gè)語(yǔ)音單元基于這些與語(yǔ)音單元對(duì)準(zhǔn)的向量幀將作為語(yǔ)音單元的部分讀出的概率的等級(jí)。
14.根據(jù)權(quán)利要求13所述的方法,其中與語(yǔ)音單元對(duì)準(zhǔn)的這些特征向量將作為語(yǔ)音單元的部分讀出的概率是聲學(xué)模型概率。
15.根據(jù)權(quán)利要求13所述的方法,其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的平均值。
16.根據(jù)權(quán)利要求13所述的方法,其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的最大值。
17.根據(jù)權(quán)利要求13所述的方法,其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的最小值。
18.根據(jù)權(quán)利要求13所述的方法,其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的加權(quán)平均值。
19.根據(jù)權(quán)利要求9所述的方法,其中哪些語(yǔ)音單元模擬得最不準(zhǔn)確的辨別是基于在識(shí)別期間誤識(shí)別的詞的分析。
20.根據(jù)權(quán)利要求9所述的方法,其中語(yǔ)音單元是一個(gè)音素。
21.根據(jù)權(quán)利要求9所述的方法,其中語(yǔ)音單元是一個(gè)句素。
22.根據(jù)權(quán)利要求9所述的方法,其中語(yǔ)音單元是一個(gè)上下文依賴(lài)的音素狀態(tài)。
23.根據(jù)權(quán)利要求9所述的方法,其中語(yǔ)音單元是一個(gè)詞。
24.根據(jù)權(quán)利要求9所述的方法,其中特征向量是量化向量。
25.根據(jù)權(quán)利要求9所述的方法,包括根據(jù)選擇詞來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)。
26.根據(jù)權(quán)利要求25所述的方法,其中訓(xùn)練包括產(chǎn)生指示對(duì)于每個(gè)語(yǔ)音單元用于每個(gè)特征向量的概率的、反映在訓(xùn)練期間模型與所讀出的詞之間差別的誤差分布。
27.根據(jù)權(quán)利要求26所述的方法,其中誤差分布的概率在語(yǔ)音識(shí)別期間分解成模型的概率。
28.一種用來(lái)將詞的發(fā)音教給講話(huà)者的計(jì)算機(jī)系統(tǒng)中的方法,每個(gè)詞用語(yǔ)音方法由語(yǔ)音單元表示,每個(gè)語(yǔ)音單元具有用來(lái)產(chǎn)生特征向量的各序列對(duì)應(yīng)于模擬的語(yǔ)音單元的概率的模型,該方法包括收集來(lái)自講話(huà)者的其相應(yīng)詞是已知的多個(gè)讀出發(fā)音;對(duì)于每個(gè)收集的發(fā)音,把收集的發(fā)音轉(zhuǎn)換成特征向量序列;及根據(jù)已知詞的語(yǔ)音單元的模型,把特征向量序列中的每個(gè)特征向量與收集發(fā)音對(duì)應(yīng)的已知詞的語(yǔ)音單元對(duì)準(zhǔn);從與每個(gè)語(yǔ)音單元對(duì)準(zhǔn)的特征向量中,辨別講話(huà)者讀得不準(zhǔn)確的語(yǔ)音單元;及選擇包含辨別音素的詞,作為用來(lái)教講話(huà)者的詞。
29.根據(jù)權(quán)利要求28所述的方法,包括把選擇的詞呈現(xiàn)給講話(huà)者。
30.根據(jù)權(quán)利要求29所述的方法,包括接收對(duì)應(yīng)于每個(gè)讀出詞的語(yǔ)音發(fā)音和估計(jì)接收語(yǔ)音發(fā)音的準(zhǔn)確度。
31.根據(jù)權(quán)利要求28所述的方法,其中哪些語(yǔ)音單元模擬得最不準(zhǔn)確的辨別包括根據(jù)對(duì)準(zhǔn)語(yǔ)音單元和特征向量計(jì)算幀準(zhǔn)確度度量;及通過(guò)組合基于該語(yǔ)音單元的幀準(zhǔn)確度度量,計(jì)算對(duì)于每個(gè)獨(dú)特語(yǔ)音單元的組合準(zhǔn)確度度量。
32.根據(jù)權(quán)利要求31所述的方法,其中幀準(zhǔn)確度度量是特征向量包含在特征向量與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率,與特征向量包含在任何語(yǔ)音單元內(nèi)的最大概率的比值。
33.根據(jù)權(quán)利要求31所述的方法,其中幀準(zhǔn)確度度量是特征向量包含在特征向量與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率,與特征向量包含在任何語(yǔ)音單元內(nèi)的最大概率的差值。
34.根據(jù)權(quán)利要求31所述的方法,其中幀準(zhǔn)確度度量是基于這些與語(yǔ)音單元對(duì)準(zhǔn)的向量幀將作為語(yǔ)音單元的部分讀出的概率的每個(gè)語(yǔ)音單元等級(jí)。
35.根據(jù)權(quán)利要求34所述的方法,其中與語(yǔ)音單元對(duì)準(zhǔn)的這些特征向量將作為語(yǔ)音單元的部分讀出的概率是聲學(xué)模型概率。
36.根據(jù)權(quán)利要求34所述的方法,其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的平均值。
37.根據(jù)權(quán)利要求34所述的方法,其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的最大值。
38.根據(jù)權(quán)利要求34所述的方法,其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的最小值。
39.根據(jù)權(quán)利要求34所述的方法,其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的加權(quán)平均值。
40.根據(jù)權(quán)利要求28所述的方法,其中語(yǔ)音單元是一個(gè)音素。
41.根據(jù)權(quán)利要求28所述的方法,其中語(yǔ)音單元是一個(gè)句素。
42.根據(jù)權(quán)利要求28所述的方法,其中特征向量是量化向量。
43.一種用來(lái)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的計(jì)算機(jī)系統(tǒng)中的方法,該語(yǔ)音識(shí)別系統(tǒng)用來(lái)識(shí)別多個(gè)詞,讀出的每個(gè)詞帶有語(yǔ)音單元,該方法包括接收對(duì)其確定相應(yīng)詞的多個(gè)讀出發(fā)音;對(duì)于接收讀出發(fā)音的確定詞的每一個(gè)的每個(gè)語(yǔ)音單元,確定語(yǔ)音識(shí)別系統(tǒng)在識(shí)別確定詞內(nèi)的語(yǔ)音單元時(shí)的上下文依賴(lài)準(zhǔn)確度;對(duì)于每個(gè)語(yǔ)音單元,根據(jù)上下文依賴(lài)準(zhǔn)確度確定語(yǔ)音識(shí)別系統(tǒng)在識(shí)別語(yǔ)音單元時(shí)的上下文無(wú)關(guān)準(zhǔn)確度;及選擇包含確定具有最低上下文無(wú)關(guān)準(zhǔn)確度的語(yǔ)音單元的詞,用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)。
44.根據(jù)權(quán)利要求36所述的方法,其中語(yǔ)音單元是一個(gè)音素。
45.根據(jù)權(quán)利要求36所述的方法,其中語(yǔ)音單元是一個(gè)句素。
46.根據(jù)權(quán)利要求36所述的方法,其中語(yǔ)音單元是一個(gè)上下文依賴(lài)的音素狀態(tài)。
47.根據(jù)權(quán)利要求36所述的方法,其中語(yǔ)音單元是一個(gè)詞。
48.根據(jù)權(quán)利要求43所述的方法,其中根據(jù)用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的上下文依賴(lài)準(zhǔn)確度來(lái)選擇詞。
49.根據(jù)權(quán)利要求43所述的方法,其中語(yǔ)音識(shí)別系統(tǒng)具有用于每個(gè)語(yǔ)音單元、指示量化向量序列對(duì)應(yīng)于語(yǔ)音單元的概率的模型,并且其中上下文依賴(lài)準(zhǔn)確度的確定包括對(duì)于每個(gè)接收的發(fā)音,把讀出的發(fā)音轉(zhuǎn)換成量化向量序列;根據(jù)用于確定詞的語(yǔ)音單元的模型,把序列中的每個(gè)量化向量與所確定詞的語(yǔ)音單元對(duì)準(zhǔn);及辨別每個(gè)對(duì)準(zhǔn)量化向量作為與該向量與之對(duì)準(zhǔn)的語(yǔ)音單元的部分而讀出的概率,其中辨別的概率用來(lái)確定上下文依賴(lài)準(zhǔn)確度。
50.根據(jù)權(quán)利要求43所述的方法,包括把選擇的詞呈現(xiàn)給講話(huà)者以便訓(xùn)練。
51.根據(jù)權(quán)利要求50所述的方法,其中每個(gè)詞具有指示該詞將要讀出的概率的語(yǔ)言模型概率,及其中按基于詞的語(yǔ)言模型概率的順序,把選擇的詞呈現(xiàn)給講話(huà)者。
52.根據(jù)權(quán)利要求43所述的方法,其中詞的選擇包括選擇具有多于一個(gè)具有所確定上下文依賴(lài)準(zhǔn)確度較低的語(yǔ)音單元的詞。
53.根據(jù)權(quán)利要求52所述的方法,包括把選擇的詞呈現(xiàn)給講話(huà)者以便訓(xùn)練。
54.根據(jù)權(quán)利要求53所述的方法,其中每個(gè)詞具有指示該詞將要讀出的概率的語(yǔ)言模型概率,及其中按基于選擇詞的語(yǔ)言模型概率的順序,把選擇的詞呈現(xiàn)給講話(huà)者。
55.根據(jù)權(quán)利要求43所述的方法,其中多個(gè)讀出發(fā)音的接收出現(xiàn)在識(shí)別過(guò)程期間,并且其中識(shí)別過(guò)程定期要求講話(huà)者在選擇的詞上訓(xùn)練。
56.根據(jù)權(quán)利要求55所述的方法,其中重復(fù)地進(jìn)行訓(xùn)練和識(shí)別。
57.根據(jù)權(quán)利要求43所述的方法,其中多個(gè)讀出發(fā)音的接收出現(xiàn)在識(shí)別過(guò)程期間,并且其中當(dāng)識(shí)別過(guò)程辨別到這時(shí)識(shí)別過(guò)程不正確地識(shí)別一定部分的讀出發(fā)音時(shí),自動(dòng)提示在選擇的詞上進(jìn)行訓(xùn)練。
58.根據(jù)權(quán)利要求43所述的方法,其中多個(gè)讀出發(fā)音的接收出現(xiàn)在識(shí)別過(guò)程期間,并且其中在識(shí)別過(guò)程期間誤識(shí)別接收的讀出發(fā)音。
59.一種包含用來(lái)使計(jì)算機(jī)系統(tǒng)教講話(huà)者詞的發(fā)音的指令的計(jì)算機(jī)可讀介質(zhì),每個(gè)讀出的詞帶有語(yǔ)音單元,該介質(zhì)的特征在于從講話(huà)者接收其相應(yīng)詞是已知的多個(gè)讀出發(fā)音;由讀出發(fā)音辨別哪些語(yǔ)音單元由講話(huà)者讀得不準(zhǔn)確;及選擇包含辨別語(yǔ)音單元的詞,用來(lái)教講話(huà)者。
60.根據(jù)權(quán)利要求59所述的計(jì)算機(jī)可讀介質(zhì),包括把選擇的詞呈現(xiàn)給講話(huà)者。
61.根據(jù)權(quán)利要求60所述的計(jì)算機(jī)可讀介質(zhì),包括接收對(duì)應(yīng)于呈現(xiàn)給講話(huà)者每個(gè)讀出詞的讀出發(fā)音、和估計(jì)所接收讀出發(fā)音的準(zhǔn)確度。
62.根據(jù)權(quán)利要求59所述的計(jì)算機(jī)可讀介質(zhì),其中語(yǔ)音單元是一個(gè)音素。
63.根據(jù)權(quán)利要求59所述的計(jì)算機(jī)可讀介質(zhì),其中語(yǔ)音單元是一個(gè)句素。
64.一種包含用來(lái)使計(jì)算機(jī)系統(tǒng)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的指令的計(jì)算機(jī)可讀介質(zhì),該語(yǔ)音識(shí)別系統(tǒng)用來(lái)識(shí)別多個(gè)詞,該語(yǔ)音識(shí)別系統(tǒng)具有組成每個(gè)詞的語(yǔ)音單元的指示,該語(yǔ)音識(shí)別系統(tǒng)具有用于每個(gè)語(yǔ)音單元的模型,每個(gè)模型用來(lái)指示特征向量的每個(gè)可能序列對(duì)應(yīng)于模擬的語(yǔ)音單元的概率,該介質(zhì)的特征在于接收確定相應(yīng)詞的多個(gè)讀出發(fā)音;對(duì)于每個(gè)收集的發(fā)音,把收集的發(fā)音轉(zhuǎn)換成特征向量序列;及根據(jù)確定詞的語(yǔ)音單元模型,把特征向量序列中的每個(gè)特征向量與和收集發(fā)音對(duì)應(yīng)的確定詞的語(yǔ)音單元對(duì)準(zhǔn);由與每個(gè)語(yǔ)音單元對(duì)準(zhǔn)的特征向量,辨別哪些模擬得最不準(zhǔn)確的語(yǔ)音單元;及選擇包含辨別音素的詞,作為用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞。
65.根據(jù)權(quán)利要求64所述的計(jì)算機(jī)可讀介質(zhì),其中哪些語(yǔ)音單元模擬得最不準(zhǔn)確的辨別包括根據(jù)與語(yǔ)音單元對(duì)準(zhǔn)的那些特征向量將作為語(yǔ)音單元的部分讀出的概率,計(jì)算每個(gè)語(yǔ)音單元的等級(jí)。
66.根據(jù)權(quán)利要求65所述的計(jì)算機(jī)可讀介質(zhì),其中與語(yǔ)音單元對(duì)準(zhǔn)的那些特征向量將作為語(yǔ)音單元的部分讀出的概率是聲學(xué)模型概率。
67.根據(jù)權(quán)利要求64所述的計(jì)算機(jī)可讀介質(zhì),包括根據(jù)選擇的詞訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)。
68.根據(jù)權(quán)利要求67所述的計(jì)算機(jī)可讀介質(zhì),其中訓(xùn)練包括產(chǎn)生指示對(duì)于每個(gè)語(yǔ)音單元用于每個(gè)特征向量的概率的、反映在訓(xùn)練期間模型與所讀出的詞之間差別的誤差分布。
69.根據(jù)權(quán)利要求68所述的計(jì)算機(jī)可讀介質(zhì),其中誤差分布的概率在語(yǔ)音識(shí)別期間分解成模型的概率。
70.一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的計(jì)算機(jī)系統(tǒng)中的方法,每個(gè)詞包括語(yǔ)音單元,該方法包括收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音;從讀出發(fā)音中,辨別哪些語(yǔ)音單元由語(yǔ)音識(shí)別系統(tǒng)模擬得最不準(zhǔn)確;及選擇包含辨別語(yǔ)音發(fā)音的詞,用于語(yǔ)音識(shí)別系統(tǒng)的訓(xùn)練。
71.根據(jù)權(quán)利要求70所述的方法,其中語(yǔ)音單元是一個(gè)音素。
72.根據(jù)權(quán)利要求70所述的方法,其中語(yǔ)音單元是一個(gè)句素。
73.根據(jù)權(quán)利要求70所述的方法,其中語(yǔ)音單元是一個(gè)上下文依賴(lài)的音素狀態(tài)。
74.根據(jù)權(quán)利要求70所述的方法,其中語(yǔ)音單元是一個(gè)詞。
75.根據(jù)權(quán)利要求70所述的方法,其中語(yǔ)音識(shí)別系統(tǒng)具有用于每個(gè)語(yǔ)音單元的指示量化向量序列對(duì)應(yīng)于語(yǔ)音單元的概率的模型,并且其中辨別包括對(duì)于每個(gè)收集的發(fā)音,把收集的發(fā)音轉(zhuǎn)換成量化向量序列;根據(jù)用于確定詞的語(yǔ)音單元的模型,把序列中的每個(gè)量化向量與已知詞的語(yǔ)音單元對(duì)準(zhǔn);及辨別每個(gè)對(duì)準(zhǔn)量化向量作為與該向量對(duì)準(zhǔn)的音素的部分而讀出的概率。
76.根據(jù)權(quán)利要求70所述的方法,包括把選擇的詞呈現(xiàn)給講話(huà)者以便訓(xùn)練。
77.根據(jù)權(quán)利要求76所述的方法,其中每個(gè)詞具有指示該詞將要讀出的概率的語(yǔ)言模型概率,及其中按基于詞的語(yǔ)言模型概率的順序,把選擇的詞呈現(xiàn)給講話(huà)者。
78.根據(jù)權(quán)利要求70所述的方法,其中詞的選擇包括選擇具有多于一個(gè)不準(zhǔn)確模擬的語(yǔ)音單元的詞。
79.根據(jù)權(quán)利要求78所述的方法,包括把選擇的詞呈現(xiàn)給講話(huà)者以便訓(xùn)練。
80.根據(jù)權(quán)利要求79所述的方法,其中每個(gè)詞具有指示該詞將要讀出的概率的語(yǔ)言模型概率,及其中按基于選擇詞的語(yǔ)言模型概率的順序,把選擇的詞呈現(xiàn)給講話(huà)者。
81.根據(jù)權(quán)利要求70所述的方法,其中多個(gè)讀出發(fā)音的接收在識(shí)別過(guò)程期間出現(xiàn),并且其中識(shí)別過(guò)程定期地要求講話(huà)者在選擇詞上訓(xùn)練。
82.根據(jù)權(quán)利要求81所述的方法,其中重復(fù)地進(jìn)行訓(xùn)練和識(shí)別。
83.根據(jù)權(quán)利要求70所述的方法,其中多個(gè)讀出發(fā)音的接收在識(shí)別過(guò)程期間出現(xiàn),并且其中當(dāng)識(shí)別過(guò)程辨別到這時(shí)識(shí)別過(guò)程不正確地識(shí)別一定部分的讀出發(fā)音時(shí),在選擇的詞上進(jìn)行訓(xùn)練。
84.根據(jù)權(quán)利要求70所述的方法,其中多個(gè)讀出發(fā)音的接收在識(shí)別過(guò)程期間出現(xiàn),并且其中在識(shí)別過(guò)程期間接收的讀出發(fā)音被誤識(shí)別。
85.根據(jù)權(quán)利要求70所述的方法,其中哪些語(yǔ)音單元模擬得不準(zhǔn)確的辨別包括把讀出發(fā)音的特征向量對(duì)準(zhǔn)語(yǔ)音單元;根據(jù)對(duì)準(zhǔn)的語(yǔ)音單元和特征向量計(jì)算對(duì)于每個(gè)特征向量的幀準(zhǔn)確度度量;及通過(guò)組合基于該語(yǔ)音單元的幀準(zhǔn)確度度量,計(jì)算對(duì)于每個(gè)獨(dú)特語(yǔ)音單元的組合準(zhǔn)確度度量。
86.根據(jù)權(quán)利要求85所述的方法,其中幀準(zhǔn)確度度量是該幀的讀出發(fā)音包含在讀出發(fā)音與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率,與該幀的讀出發(fā)音包含在任何語(yǔ)音單元內(nèi)的最大概率的比值。
87.根據(jù)權(quán)利要求85所述的方法,其中幀準(zhǔn)確度度量是該幀的讀出發(fā)音包含在讀出發(fā)音與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率,與該幀的讀出發(fā)音包含在任何語(yǔ)音單元內(nèi)的最大概率的差值。
88.根據(jù)權(quán)利要求85所述的方法,其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的平均值。
89.根據(jù)權(quán)利要求85所述的方法,其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的最大值的平均值。
90.根據(jù)權(quán)利要求85所述的方法,其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的最小值。
91.根據(jù)權(quán)利要求85所述的方法,其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的加權(quán)平均值之和。
92.根據(jù)權(quán)利要求70所述的方法,其中哪些語(yǔ)音單元模擬得不準(zhǔn)確的辨別包括計(jì)數(shù)在識(shí)別期間在一個(gè)誤識(shí)別詞中識(shí)別一個(gè)語(yǔ)音單元的次數(shù)。
93.根據(jù)權(quán)利要求70所述的方法,其中哪些語(yǔ)音單元模擬得不準(zhǔn)確的辨別包括計(jì)數(shù)在識(shí)別期間在一個(gè)正確詞中未識(shí)別一個(gè)語(yǔ)音單元的次數(shù)。
94.根據(jù)權(quán)利要求70所述的方法,其中哪些語(yǔ)音單元模擬得不準(zhǔn)確的辨別是基于正確與不正確音素模型的概率值之間的差。
95.根據(jù)權(quán)利要求70所述的方法,其中語(yǔ)音單元是一個(gè)上下文依賴(lài)音素。
96.根據(jù)權(quán)利要求70所述的方法,其中語(yǔ)音單元是一個(gè)詞。
97.根據(jù)權(quán)利要求70所述的方法,其中哪些語(yǔ)音單元模擬得不準(zhǔn)確的辨別包括把讀出語(yǔ)音的幀的序列與語(yǔ)音單元對(duì)準(zhǔn),和根據(jù)幀的對(duì)準(zhǔn)序列包含在該語(yǔ)音單元中的概率,計(jì)算語(yǔ)音單元的等級(jí)。
98.一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的計(jì)算機(jī)系統(tǒng),每個(gè)詞包括語(yǔ)音單元,該計(jì)算機(jī)系統(tǒng)包括一個(gè)樣本收集元件,收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音,并且把讀出發(fā)音轉(zhuǎn)換成代碼字;一個(gè)對(duì)準(zhǔn)元件,把代碼字與每個(gè)詞的語(yǔ)音單元對(duì)準(zhǔn);一個(gè)語(yǔ)音單元排列元件,由讀出的發(fā)音辨別哪些語(yǔ)音單元由語(yǔ)音識(shí)別系統(tǒng)模擬得不準(zhǔn)確;及一個(gè)詞選擇元件,選擇包含辨別發(fā)音的詞,用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)。
99.根據(jù)權(quán)利要求98所述的計(jì)算機(jī)系統(tǒng),其中語(yǔ)音識(shí)別系統(tǒng)具有對(duì)于每個(gè)語(yǔ)音單元的指示量化向量序列對(duì)應(yīng)于語(yǔ)音單元的概率的模型;其中對(duì)準(zhǔn)元件根據(jù)用于確定詞的語(yǔ)音單元的模型,把每個(gè)代碼字與確定詞的語(yǔ)音單元對(duì)準(zhǔn);及其中語(yǔ)音單元排列元件辨別每個(gè)對(duì)準(zhǔn)代碼字作為代碼字與其對(duì)準(zhǔn)的語(yǔ)音單元的部分讀出的概率。
100.根據(jù)權(quán)利要求98所述的計(jì)算機(jī)系統(tǒng),其中每個(gè)詞具有指示該詞將要讀出的概率的語(yǔ)言模型概率,及包括一個(gè)按基于詞的語(yǔ)言模型概率的順序、把選擇的詞呈現(xiàn)給講話(huà)者的呈現(xiàn)元件。
101.根據(jù)權(quán)利要求98所述的計(jì)算機(jī)系統(tǒng),其中詞選擇元件選擇具有多個(gè)模擬得不準(zhǔn)確的語(yǔ)音單元的詞。
102.一種用來(lái)估計(jì)識(shí)別系統(tǒng)在識(shí)別詞時(shí)的準(zhǔn)確度的計(jì)算機(jī)識(shí)別系統(tǒng)中的方法,每個(gè)詞包括語(yǔ)音單元,該方法包括收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音;及通過(guò)把讀出發(fā)音的幀與語(yǔ)音單元對(duì)準(zhǔn)、和根據(jù)該幀的讀出語(yǔ)音包含在讀出語(yǔ)音與之對(duì)準(zhǔn)的語(yǔ)音單元中的概率來(lái)計(jì)算用于每幀的幀準(zhǔn)確度度量,來(lái)辨別每個(gè)語(yǔ)音單元的準(zhǔn)確度。
103.根據(jù)權(quán)利要求102所述的方法,其中幀準(zhǔn)確度度量是該幀的讀出發(fā)音包含在讀出發(fā)音與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率,與該幀的讀出發(fā)音包含在任何語(yǔ)音單元內(nèi)的最大概率的比值。
104.根據(jù)權(quán)利要求102所述的方法,其中幀準(zhǔn)確度度量是該幀的讀出發(fā)音包含在讀出發(fā)音與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率,與該幀的讀出發(fā)音包含在任何語(yǔ)音單元內(nèi)的最大概率的差值。
105.根據(jù)權(quán)利要求102所述的方法,其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的平均值。
106.根據(jù)權(quán)利要求102所述的方法,其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的最大值。
107.根據(jù)權(quán)利要求102所述的方法,其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的最小值。
108.根據(jù)權(quán)利要求102所述的方法,其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的加權(quán)平均值。
109.根據(jù)權(quán)利要求102所述的方法,其中計(jì)算包括計(jì)數(shù)在識(shí)別期間在一個(gè)誤識(shí)別詞中未識(shí)別一個(gè)語(yǔ)音單元的次數(shù)。
110.根據(jù)權(quán)利要求102所述的方法,其中計(jì)算包括計(jì)數(shù)在識(shí)別期間在一個(gè)正確詞中未識(shí)別一個(gè)語(yǔ)音單元的次數(shù)。
111.根據(jù)權(quán)利要求102所述的方法,其中語(yǔ)音單元是一個(gè)上下文依賴(lài)音素。
112.根據(jù)權(quán)利要求102所述的方法,其中語(yǔ)音單元是一個(gè)詞。
113.根據(jù)權(quán)利要求102所述的方法,其中語(yǔ)音單元是一個(gè)音素的狀態(tài)。
114.根據(jù)權(quán)利要求102所述的方法,其中語(yǔ)音單元是一個(gè)句素。
115.一種用來(lái)估計(jì)識(shí)別系統(tǒng)在識(shí)別詞時(shí)的準(zhǔn)確度的計(jì)算機(jī)識(shí)別系統(tǒng)中的方法,每個(gè)詞包括語(yǔ)音單元,該方法包括收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音;及通過(guò)把讀出發(fā)音的幀與語(yǔ)音單元對(duì)準(zhǔn)、和計(jì)數(shù)在識(shí)別期間在一個(gè)正確詞中未識(shí)別一個(gè)語(yǔ)音單元的次數(shù),來(lái)辨別每個(gè)語(yǔ)音單元的準(zhǔn)確度。
116.一種用來(lái)估計(jì)識(shí)別系統(tǒng)在識(shí)別詞時(shí)的準(zhǔn)確度的計(jì)算機(jī)識(shí)別系統(tǒng)中的方法,每個(gè)詞包括語(yǔ)音單元,該方法包括收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音;及通過(guò)把讀出發(fā)音的幀與語(yǔ)音單元對(duì)準(zhǔn)、和計(jì)數(shù)在識(shí)別期間在一個(gè)誤識(shí)別詞中未識(shí)別一個(gè)語(yǔ)音單元的次數(shù),來(lái)辨別每個(gè)語(yǔ)音單元的準(zhǔn)確度。
全文摘要
一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的方法和系統(tǒng)。語(yǔ)音識(shí)別系統(tǒng)使用隱藏的馬爾克夫模型模擬每個(gè)音素,并且把每個(gè)詞表示為音素的一個(gè)序列。訓(xùn)練系統(tǒng)根據(jù)相應(yīng)代碼字將作為音素的部分讀出的概率排列用于每幀的每個(gè)音素。訓(xùn)練系統(tǒng)收集其相應(yīng)詞是已知的讀出發(fā)音。訓(xùn)練系統(tǒng)然后把每個(gè)發(fā)音的代碼字與它認(rèn)為是其部分的音素對(duì)準(zhǔn)。訓(xùn)練系統(tǒng)然后使用對(duì)準(zhǔn)幀的對(duì)準(zhǔn)代碼字來(lái)計(jì)算對(duì)于每個(gè)音素的平均等級(jí)。最后,訓(xùn)練系統(tǒng)選擇包含具有低等級(jí)的音素的詞用于訓(xùn)練。
文檔編號(hào)G10L15/14GK1223739SQ97195936
公開(kāi)日1999年7月21日 申請(qǐng)日期1997年6月27日 優(yōu)先權(quán)日1996年6月28日
發(fā)明者曉-文·洪, 學(xué)東·D·黃, 眉-宇·黃, 勵(lì)·蔣, 云-成·鞠, 米林德·V·馬哈賈, 米切爾·J·若扎克 申請(qǐng)人:微軟公司