用于語(yǔ)音識(shí)別的動(dòng)態(tài)調(diào)節(jié)的訓(xùn)練方法和系統(tǒng)的制作方法

文檔序號(hào)：2820405閱讀：442來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專(zhuān)利名稱(chēng)：用于語(yǔ)音識(shí)別的動(dòng)態(tài)調(diào)節(jié)的訓(xùn)練方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)語(yǔ)音識(shí)別，更具體地說(shuō)，涉及訓(xùn)練一種計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。
借助于計(jì)算機(jī)系統(tǒng)迅速和準(zhǔn)確地識(shí)別人類(lèi)語(yǔ)音早就是計(jì)算機(jī)系統(tǒng)開(kāi)發(fā)者長(zhǎng)期追求的目標(biāo)。由這樣一種計(jì)算機(jī)語(yǔ)音識(shí)別(CSR)系統(tǒng)產(chǎn)生的益處是顯著的。例如，與其把文件用鍵盤(pán)打入計(jì)算機(jī)系統(tǒng)中，倒不如人簡(jiǎn)單地讀出文件的詞，并且CSR系統(tǒng)識(shí)別詞且存儲(chǔ)每個(gè)詞的字母，就象已經(jīng)用鍵盤(pán)打出詞一樣。由于人們一般說(shuō)得比打字快，所以能提高效率。而且，人們不必學(xué)習(xí)如何打字。計(jì)算機(jī)還能用于許多這樣的用途中，在因?yàn)槿说氖置τ诖蜃种獾娜蝿?wù)而無(wú)法使用的場(chǎng)合中。
典型的CSR系統(tǒng)借助于把讀出的發(fā)音與詞匯中每個(gè)詞的模型相比較來(lái)識(shí)別詞。把其模型與發(fā)音匹配最好的詞識(shí)別為講出的詞。CSR系統(tǒng)將每個(gè)詞看作一個(gè)組成該詞的音素序列的模型。為了識(shí)別發(fā)音，CSR系統(tǒng)辨別一個(gè)詞序列，該序列的音素與發(fā)音很好地匹配。然而，這些音素可能與組成詞的音素對(duì)應(yīng)得不準(zhǔn)確。因而，CSR系統(tǒng)一般使用概率分析，以確定哪個(gè)詞最接近地對(duì)應(yīng)于辨別的音素。
當(dāng)識(shí)別發(fā)音時(shí)，CSR系統(tǒng)把代表發(fā)音的模擬信號(hào)轉(zhuǎn)換成用來(lái)進(jìn)一步處理的更適用形式。CSR系統(tǒng)首先把模擬信號(hào)轉(zhuǎn)換成數(shù)字形式。CSR系統(tǒng)然后對(duì)該數(shù)字形式采用信號(hào)處理技術(shù)，如快速傅里葉變換(FFT)、線(xiàn)性預(yù)測(cè)編碼(LPC)、或?yàn)V波器組，以抽取發(fā)音的適當(dāng)參數(shù)表示。通常使用的表示是一個(gè)帶有代表在各間隔(稱(chēng)為“幀”)處的頻帶和/或能帶的FFT或LPC系數(shù)的“特征向量”。諸間隔依據(jù)計(jì)算機(jī)系統(tǒng)的計(jì)算容量和識(shí)別過(guò)程的希望準(zhǔn)確度可短可長(zhǎng)。典型間隔可能在10毫秒的范圍內(nèi)。就是說(shuō)，CSR系統(tǒng)對(duì)于每10毫秒的發(fā)音產(chǎn)生一個(gè)特征向量。每幀一般25毫秒長(zhǎng)。因此，每10毫秒產(chǎn)生一個(gè)25毫秒長(zhǎng)的幀。在連續(xù)的幀之間有重疊。
為了便于特征向量的處理，把每個(gè)特征向量量化成有限數(shù)量(例如256個(gè))的“量化向量”之一。就是說(shuō)，CSR系統(tǒng)定義多個(gè)選擇為代表特征向量典型或平均范圍的量化向量。CSR系統(tǒng)然后把每個(gè)特征向量與每一個(gè)量化向量相比較，并且選擇最接近類(lèi)似于特征向量的量化向量，以表示特征向量。每個(gè)量化向量唯一地由一個(gè)數(shù)辨別(例如在1與256之間)，這個(gè)數(shù)稱(chēng)作“代碼字”。當(dāng)一個(gè)特征向量表示為量化向量時(shí)，有信息丟失，因?yàn)槎鄠€(gè)不同的特征向量映到相同的量化向量上。為了保證這種信息丟失不會(huì)嚴(yán)重影響識(shí)別，CSR系統(tǒng)可以定義幾千或幾百萬(wàn)個(gè)量化向量。存儲(chǔ)這樣大數(shù)量的量化向量的定義所需的存儲(chǔ)量會(huì)相當(dāng)大。因而，為了減小所需的存儲(chǔ)量，CSR系統(tǒng)將特征向量分段，并且把每段量化成小數(shù)量(例如256個(gè))量化向量之一。因而，每個(gè)特征向量由用于每個(gè)段的量化向量(由一個(gè)代碼字辨別)表示。為了解釋簡(jiǎn)單起見(jiàn)，描述沒(méi)有將特征向量分段并因而每個(gè)特征向量(或幀)僅有一個(gè)代碼字的CSR系統(tǒng)。
如以上討論的那樣，讀出的發(fā)音經(jīng)常與詞的模型對(duì)應(yīng)得不準(zhǔn)確。找到準(zhǔn)確對(duì)應(yīng)性的困難歸因于語(yǔ)音中的巨大變化，語(yǔ)音不能由詞模型完全和準(zhǔn)確地捕捉。這些變化例如是由講話(huà)者的音調(diào)、人講話(huà)的速度和音高、講話(huà)者的當(dāng)前健康狀況(例如感冒)、講話(huà)者的年齡和性別等等產(chǎn)生的。使用概率技術(shù)的CSR系統(tǒng)在準(zhǔn)確識(shí)別語(yǔ)音方面，比尋找準(zhǔn)確對(duì)應(yīng)的技術(shù)更成功。
通常用于語(yǔ)音識(shí)別的這樣一種概率技術(shù)是隱藏馬爾可夫(Markov)模型。CSR系統(tǒng)可以把隱藏馬爾可夫模型(“HMM”)用于詞匯中的每個(gè)詞。用于詞的HMM包括由其能導(dǎo)出代碼字的任何序列對(duì)應(yīng)于該詞的概率的概率信息。因而，為了識(shí)別發(fā)音，CSR系統(tǒng)把發(fā)音轉(zhuǎn)換成一個(gè)代碼字序列，并且然后把HMM用于每個(gè)詞，以確定詞對(duì)應(yīng)于發(fā)音的概率。CSR系統(tǒng)把發(fā)音識(shí)別為具有最高概率的詞。
HMM由一個(gè)狀態(tài)圖表示。狀態(tài)圖傳統(tǒng)上用來(lái)確定系統(tǒng)接收一個(gè)輸入序列后處于的狀態(tài)。狀態(tài)圖包括狀態(tài)和源狀態(tài)與目標(biāo)狀態(tài)之間的過(guò)渡段。每個(gè)過(guò)渡段與一個(gè)輸入有關(guān)，該輸入指示當(dāng)系統(tǒng)接收到該輸入且處于源狀態(tài)時(shí)，系統(tǒng)將過(guò)渡到目標(biāo)狀態(tài)。這樣一種狀態(tài)圖，例如能由識(shí)別代碼字每個(gè)序列的系統(tǒng)使用，這些代碼字組成詞匯中的詞。當(dāng)系統(tǒng)處理每個(gè)代碼字時(shí)，系統(tǒng)根據(jù)當(dāng)前狀態(tài)和正在處理的代碼字確定下一個(gè)狀態(tài)。在這個(gè)例子中，狀態(tài)圖可能具有對(duì)應(yīng)于每個(gè)詞的一定最終狀態(tài)。然而，如果表示一個(gè)詞的多種發(fā)音，那么每個(gè)詞可能具有多個(gè)最終狀態(tài)。如果在處理代碼字之后，系統(tǒng)處于對(duì)應(yīng)于一個(gè)詞的最終狀態(tài)，那么能把代碼字的序列識(shí)別為最終狀態(tài)的詞。
然而，一個(gè)HMM具有與對(duì)于每個(gè)代碼字從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的每個(gè)過(guò)渡段有關(guān)的概率。例如，如果HMM處于狀態(tài)2，那么某一代碼字導(dǎo)致從當(dāng)前狀態(tài)過(guò)渡到下一狀態(tài)的概率可能是.1，而相同代碼字導(dǎo)致從當(dāng)前狀態(tài)過(guò)渡到下一不同狀態(tài)的概率可能是.2。類(lèi)似地，另一個(gè)不同代碼字導(dǎo)致從當(dāng)前狀態(tài)過(guò)渡到下一狀態(tài)的概率可能是.1。由于HMM具有與其狀態(tài)圖有關(guān)的概率，所以對(duì)于給定的代碼字序列的最終狀態(tài)的確定僅能用概率表示。因而，為了確定對(duì)于一個(gè)代碼字序列的每個(gè)可能最終狀態(tài)的概率，需要辨別用于HMM狀態(tài)圖的狀態(tài)的每個(gè)可能序列，并且需要計(jì)算有關(guān)的概率。狀態(tài)的每個(gè)這種序列稱(chēng)為狀態(tài)路徑。
為了簡(jiǎn)化識(shí)別，與其使用帶有表示對(duì)于每個(gè)可能詞用于代碼字的每個(gè)可能序列的概率的大狀態(tài)圖的HMM，倒不如CSR系統(tǒng)用HMM表示每個(gè)可能的語(yǔ)音單元，并且把每個(gè)詞表示為語(yǔ)音單元序列。傳統(tǒng)上，語(yǔ)音單元就是音素。然而，已經(jīng)使用了其他語(yǔ)音單元，如句素(Senones)。(見(jiàn)Hwang等，“用句素預(yù)測(cè)未知的三音素(Predicting Unseen Triphones withSenones)”,Proc.ICASSP’93,1993年，卷Ⅱ，第311-314頁(yè)。)對(duì)于用于每個(gè)語(yǔ)音單元的HMM,CSR系統(tǒng)通過(guò)連接用于組成詞的音素的HMM和估計(jì)生成的HMM，來(lái)估計(jì)表示某一詞的音素序列的概率。
每個(gè)HMM包含對(duì)于每個(gè)狀態(tài)中每個(gè)代碼字將導(dǎo)致彼此狀態(tài)過(guò)渡的概率。與每個(gè)狀態(tài)過(guò)渡有關(guān)的概率由用于該狀態(tài)的代碼字依賴(lài)輸出概率、和用于狀態(tài)的代碼字無(wú)關(guān)過(guò)渡概率表示。用于狀態(tài)的代碼字依賴(lài)輸出概率反映在代碼字序列導(dǎo)致HMM處于該狀態(tài)之后，音素將包含該代碼字作為下一個(gè)代碼字的可能性。狀態(tài)的代碼字無(wú)關(guān)過(guò)渡概率指示HMM將從該狀態(tài)過(guò)渡到每個(gè)下一狀態(tài)的概率。因而，當(dāng)輸入代碼字時(shí)HMM將從當(dāng)前狀態(tài)過(guò)渡到下一狀態(tài)的概率，是從當(dāng)前狀態(tài)到下一狀態(tài)的過(guò)渡概率與用于接收代碼字的輸出概率的乘積。

圖1表明用于音素的樣本HMM。HMM包含三個(gè)狀態(tài)和離開(kāi)每個(gè)狀態(tài)的兩個(gè)過(guò)渡段。一般地，CSR系統(tǒng)使用相同的狀態(tài)圖表示每個(gè)音素，但帶有音素依賴(lài)輸出和過(guò)渡概率．根據(jù)這種HMM，過(guò)渡僅出現(xiàn)在過(guò)渡至相同狀態(tài)或模擬語(yǔ)音左至右本性的下一個(gè)狀態(tài)。每個(gè)狀態(tài)帶有包含輸出和過(guò)渡概率的相關(guān)的輸出概率表和過(guò)渡概率表。如圖1中所示，當(dāng)HMM處于狀態(tài)2時(shí)，用于代碼字5的輸出概率是.1，而當(dāng)HMM處于狀態(tài)2時(shí)，到狀態(tài)3的過(guò)渡概率是.8。因而，當(dāng)接收代碼字5時(shí)HMM從狀態(tài)2過(guò)渡到狀態(tài)3的概率是.08(即.1×.8)。
為了確定代碼字序列表示音素的概率，CSR系統(tǒng)可以產(chǎn)生概率網(wǎng)格。用于音素的HMM的概率網(wǎng)格表示用于對(duì)代碼字序列的每個(gè)可能狀態(tài)路徑的概率計(jì)算。概率網(wǎng)格包含用于對(duì)序列中每個(gè)代碼字HMM可能處于其中的每個(gè)可能狀態(tài)的節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)包含至今處理過(guò)的代碼字將使HMM處于與該節(jié)點(diǎn)有關(guān)的狀態(tài)中的累計(jì)概率。具體代碼字的節(jié)點(diǎn)中的概率之和指示至今處理過(guò)的代碼字表示音素字首部分的可能性。
圖2是表明概率網(wǎng)格的圖。概率網(wǎng)格表示當(dāng)處理代碼字序列“7、5、2、1、2”時(shí)，用于圖l中所示HMM的每個(gè)可能狀態(tài)的概率計(jì)算。橫軸對(duì)應(yīng)于代碼字，而縱軸對(duì)應(yīng)于HMM的狀態(tài)。網(wǎng)格的每個(gè)節(jié)點(diǎn)包含每個(gè)源狀態(tài)的概率乘以輸出和過(guò)渡概率時(shí)的最大概率，而不是概率之和。例如，節(jié)點(diǎn)201包含8.6E-6的概率，該概率是3.6E-4×.01×.9和1.4E-3×.03×.2的最大值。有許多引導(dǎo)到任何節(jié)點(diǎn)的不同狀態(tài)路徑(即狀態(tài)序列)。例如，節(jié)點(diǎn)201可以通過(guò)狀態(tài)路徑“1、2、3、3、”“1、2、2、3、”和“1、l、2、3、”到達(dá)。每個(gè)狀態(tài)路徑具有當(dāng)處理代碼字序列時(shí)HMM跟隨該狀態(tài)路徑的概率。每個(gè)節(jié)點(diǎn)中的概率是引導(dǎo)到節(jié)點(diǎn)的每個(gè)狀態(tài)路徑的概率中的最大值。這些最大概率用于如下討論的維特比(Viterbi)對(duì)準(zhǔn)。
圖3表明用于詞的概率網(wǎng)格?？v軸對(duì)應(yīng)于用于組成詞的音素的HMM的狀態(tài)的連接。節(jié)點(diǎn)301表示詞的最終狀態(tài)，并且包含引導(dǎo)到該節(jié)點(diǎn)的所有狀態(tài)路徑的最大概率。圖3中的加粗線(xiàn)表示其終點(diǎn)在節(jié)點(diǎn)301處的最大概率的狀態(tài)路徑。在一定的用途中(例如訓(xùn)練CSR系統(tǒng))，辨別具有引導(dǎo)到具體節(jié)點(diǎn)的最大概率的狀態(tài)路徑是有益的。一種用來(lái)辨別這樣一種狀態(tài)路徑的熟知算法是維特比算法。在維特比算法已經(jīng)確定了到最終狀態(tài)的最大概率狀態(tài)路徑之后，有可能在網(wǎng)格中從最終節(jié)點(diǎn)回追且確定最大概率狀態(tài)路徑上的前一個(gè)節(jié)點(diǎn)，一路回到開(kāi)始狀態(tài)。例如，其終點(diǎn)在圖2節(jié)點(diǎn)203處的最大概率的狀態(tài)路徑是“1、2、2、2、2、3”。當(dāng)概率網(wǎng)格表示組成詞的音素時(shí)，那么每個(gè)狀態(tài)能依據(jù)音素和音素中的狀態(tài)辨別。
CSR系統(tǒng)的準(zhǔn)確度部分地取決于用于每個(gè)音素的HMM的輸出和過(guò)渡概率準(zhǔn)確度。典型的CSR系統(tǒng)“訓(xùn)練”CSR系統(tǒng)，從而輸出和過(guò)渡概率準(zhǔn)確地反映普通講話(huà)者的語(yǔ)音。在訓(xùn)練期間，CSR系統(tǒng)從各講話(huà)者大量各種各樣的詞收集代碼字序列。這樣選擇詞，從而很多次讀出每個(gè)音素。根據(jù)這些代碼字序列，CSR系統(tǒng)計(jì)算用于每個(gè)HMM的輸出和過(guò)渡概率。各種用來(lái)計(jì)算這些概率的迭代計(jì)算法是熟知的，并且在Huang等的“用于語(yǔ)音識(shí)別的隱藏馬爾克夫模型”(Edinburgh University Press,1990年)中，進(jìn)行了描述。
然而，伴隨這種訓(xùn)練技術(shù)的一個(gè)問(wèn)題是，這樣的普通HMM可能不準(zhǔn)確地模擬其語(yǔ)音模式與普通模式不同的人們的語(yǔ)音。一般地說(shuō)，每個(gè)人都具有不同于普通模式的一定語(yǔ)音模式。因此，CSR系統(tǒng)允許講話(huà)者訓(xùn)練HMM，以適應(yīng)講話(huà)者的語(yǔ)音模式。在這樣的訓(xùn)練中，CSR系統(tǒng)通過(guò)使用由系統(tǒng)的實(shí)際用戶(hù)讀出的訓(xùn)練發(fā)音來(lái)細(xì)化HMM參數(shù)，如輸出和過(guò)渡概率及由代碼字表示的量化向量。通過(guò)使用用戶(hù)提供的數(shù)據(jù)以及由大量講話(huà)者無(wú)關(guān)數(shù)據(jù)產(chǎn)生的信息和參數(shù)兩者，導(dǎo)出適應(yīng)的參數(shù)。因而，概率反映講話(huà)者依賴(lài)特征。在Huang和Lee的“關(guān)于講話(huà)者無(wú)關(guān)的、講話(huà)者依賴(lài)的、和講話(huà)者適應(yīng)的語(yǔ)音識(shí)別(On Speaker-Independent,Speaker-Dependent,andSpeaker-Adaptive Speech Recognition)”,Proc.ICASSP’91,1991年，第877-880頁(yè)中描述了一種這樣的訓(xùn)練技術(shù)。
一般通過(guò)向講話(huà)者呈現(xiàn)大量各種預(yù)選的詞，來(lái)訓(xùn)練CSR系統(tǒng)。選擇這些詞，以保證能收集語(yǔ)音對(duì)應(yīng)于每個(gè)音素的代表性樣本。就這種代表性樣本而言，CSR系統(tǒng)能保證，不準(zhǔn)確反映講話(huà)者的音素發(fā)音的任何HMM能被適當(dāng)?shù)匦薷?。?dāng)進(jìn)行另外的訓(xùn)練時(shí)，例如因?yàn)橹v話(huà)者不滿(mǎn)意識(shí)別的準(zhǔn)確度，CSR系統(tǒng)就把另外的預(yù)選詞呈現(xiàn)給講話(huà)者。
盡管預(yù)選詞的使用能提供適當(dāng)?shù)挠?xùn)練，但講話(huà)者可能對(duì)于必須讀出大量的詞感到灰心。的確，由于詞預(yù)選成包括每個(gè)音素，所以要求講話(huà)者高效地讀出其音素以可接受的準(zhǔn)確度被模擬的詞。因此，使訓(xùn)練系統(tǒng)能動(dòng)態(tài)地選擇用于訓(xùn)練的、將趨于優(yōu)化訓(xùn)練準(zhǔn)確度的、和減小要求講話(huà)者讀出的詞數(shù)量的詞，將是有益的。
本發(fā)明涉及一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的方法和系統(tǒng)。每個(gè)詞由語(yǔ)音識(shí)別系統(tǒng)模擬為包含音素的單元。訓(xùn)練系統(tǒng)收集其相應(yīng)詞是已知的讀出發(fā)音。訓(xùn)練系統(tǒng)根據(jù)讀出的發(fā)音辨別哪些語(yǔ)音單元由語(yǔ)音識(shí)別系統(tǒng)模擬得不準(zhǔn)確。訓(xùn)練系統(tǒng)然后選擇包含用于語(yǔ)音識(shí)別系統(tǒng)訓(xùn)練的所辨別語(yǔ)音單元的詞。
在本發(fā)明的一個(gè)方面，語(yǔ)音識(shí)別系統(tǒng)把每個(gè)詞模擬為一個(gè)音素序列，并且具有用于每個(gè)音素的HMM。訓(xùn)練系統(tǒng)通過(guò)把每個(gè)發(fā)音的每個(gè)代碼字與已知詞的音素對(duì)準(zhǔn)，來(lái)辨別哪些音素模擬得不準(zhǔn)確，收集的發(fā)音根據(jù)音素模型對(duì)應(yīng)于這些已知的詞。訓(xùn)練系統(tǒng)然后通過(guò)估計(jì)每個(gè)代碼字對(duì)準(zhǔn)的音素并且把代碼字與其他音素相比較，來(lái)計(jì)算準(zhǔn)確模擬音素的準(zhǔn)確度指示。
圖1表明用于音素的樣本HMM。
圖2是表明概率網(wǎng)格的圖。
圖3表明用于一個(gè)詞的概率網(wǎng)格。
圖4表示每個(gè)代碼字與音素的對(duì)準(zhǔn)。
圖5A表示每個(gè)音素包含每個(gè)代碼字的概率。
圖5B表示用于每個(gè)代碼字的每個(gè)音素的等級(jí)。
圖5C表示用于每幀的代碼字的每個(gè)音素的等級(jí)。
圖6表示與音素對(duì)準(zhǔn)的代碼字的普通等級(jí)的樣本計(jì)算。
圖7是在其上運(yùn)行一種最佳訓(xùn)練系統(tǒng)的計(jì)算機(jī)系統(tǒng)的方塊圖。
圖8是訓(xùn)練系統(tǒng)的流程圖。
圖9是根據(jù)HMM的準(zhǔn)確度用來(lái)排列音素的程序的流程圖。
本發(fā)明提供了一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練計(jì)算機(jī)語(yǔ)音識(shí)別(CSR)系統(tǒng)的詞的方法和系統(tǒng)。在一個(gè)實(shí)施例中，訓(xùn)練系統(tǒng)辨別哪些語(yǔ)音單元，如音素，由CSR系統(tǒng)模擬得最不準(zhǔn)確。訓(xùn)練系統(tǒng)然后辨別包含一個(gè)或多個(gè)這些最不準(zhǔn)確模擬音素的詞。訓(xùn)練系統(tǒng)提示講話(huà)者讀出這些辨別的詞。訓(xùn)練系統(tǒng)然后對(duì)應(yīng)于讀出的詞修改音素的模型。通過(guò)選擇包含模擬得最不準(zhǔn)確的音素的詞，訓(xùn)練系統(tǒng)能集中訓(xùn)練其模型偏離講話(huà)者的實(shí)際語(yǔ)音模式最大的模型。而且，不要求講話(huà)者讀出已經(jīng)準(zhǔn)確模擬的詞。
訓(xùn)練系統(tǒng)通過(guò)估計(jì)由講話(huà)者讀出的、其對(duì)應(yīng)詞是已知的各種發(fā)音，來(lái)確定哪些音素模擬得最不準(zhǔn)確。訓(xùn)練系統(tǒng)把發(fā)音轉(zhuǎn)換成代碼詞，然后在語(yǔ)音識(shí)別期間通過(guò)一個(gè)稱(chēng)為把代碼字與音素對(duì)準(zhǔn)的過(guò)程，來(lái)確定能把每個(gè)代碼字考慮成哪個(gè)音素的部分。一旦對(duì)準(zhǔn)完成，訓(xùn)練系統(tǒng)就在識(shí)別代碼字是音素的部分時(shí)，為每個(gè)代碼字確定對(duì)準(zhǔn)音素的模型的準(zhǔn)確度。例如，如果一個(gè)代碼字與一個(gè)音素對(duì)準(zhǔn)，并且模型預(yù)測(cè)與其他音素相比該代碼字在該音素內(nèi)的概率非常低，則該模型在識(shí)別該代碼字為該音素的部分時(shí)的準(zhǔn)確度較低。在確定用于每個(gè)代碼字的音素模型的準(zhǔn)確度之后，訓(xùn)練系統(tǒng)計(jì)算模型在識(shí)別對(duì)準(zhǔn)代碼字是音素的部分時(shí)的總準(zhǔn)確度?？倻?zhǔn)確度能通過(guò)平均用于與該音素對(duì)準(zhǔn)的每個(gè)代碼字的準(zhǔn)確度來(lái)計(jì)算。這些具有最低總準(zhǔn)確度的音素模擬得最不準(zhǔn)確。
訓(xùn)練系統(tǒng)選擇用來(lái)訓(xùn)練的、包括模擬得最不準(zhǔn)確的音素的詞。訓(xùn)練系統(tǒng)可以使用幾種不同的選擇技術(shù)。訓(xùn)練系統(tǒng)可以辨別一定數(shù)量的模擬得最不準(zhǔn)確的音素。訓(xùn)練系統(tǒng)然后可以選擇任何包含至少一個(gè)辨別音素的詞?？商鎿Q地，訓(xùn)練系統(tǒng)最好選擇包含多于一個(gè)辨別音素的詞，以減小講話(huà)者需要讀出以在辨別音素上訓(xùn)練的詞的數(shù)量。而且，訓(xùn)練系統(tǒng)最好選擇常說(shuō)的詞，以有助于保證講話(huà)者不讀出講話(huà)者可能不熟悉的生僻詞。
訓(xùn)練系統(tǒng)通過(guò)首先產(chǎn)生用于代碼字和已知詞的概率網(wǎng)格，把代碼字序列與詞的音素對(duì)準(zhǔn)。訓(xùn)練系統(tǒng)然后辨別引導(dǎo)到最可幾狀態(tài)的最可幾狀態(tài)路徑。這樣一種狀態(tài)路徑的辨別最好使用基于維特比的算法。訓(xùn)練系統(tǒng)然后使用狀態(tài)路徑辨別哪些代碼字能識(shí)別為哪些音素(與之對(duì)準(zhǔn)的)的部分。
訓(xùn)練系統(tǒng)或通過(guò)具體提示訓(xùn)練的講話(huà)者，或者通過(guò)保存由CSR系統(tǒng)誤識(shí)別的發(fā)音以及正確的詞，能收集在確定音素模型準(zhǔn)確度時(shí)所用的語(yǔ)音。具體提示一般發(fā)生在訓(xùn)練對(duì)話(huà)期間。訓(xùn)練系統(tǒng)通過(guò)提示講話(huà)者讀出各種預(yù)選的詞而開(kāi)始，并然后相應(yīng)修改模型。訓(xùn)練系統(tǒng)然后選擇包含識(shí)別得最不準(zhǔn)確的音素的詞，并且提示講話(huà)者讀出這些詞，且相應(yīng)修改模型。訓(xùn)練系統(tǒng)能反復(fù)進(jìn)行這種修改。如果收集的語(yǔ)音是誤識(shí)別的發(fā)音，那么訓(xùn)練系統(tǒng)最初會(huì)選擇包含那些確定為模擬得最不準(zhǔn)確的誤識(shí)別發(fā)音的音素的詞。能通過(guò)把發(fā)音與誤識(shí)別詞的音素對(duì)準(zhǔn)與正確詞的音素對(duì)準(zhǔn)相比較來(lái)確定哪個(gè)音素模型模擬得最不準(zhǔn)確。在導(dǎo)出音素模型準(zhǔn)確度的量度時(shí)能使用的因素包括在誤識(shí)別詞中音素不正確識(shí)別的次數(shù)、和正確與不正確音素模型的概率值的差。使用誤識(shí)別發(fā)音的優(yōu)點(diǎn)在于，訓(xùn)練是基于講話(huà)者在通常說(shuō)話(huà)期間實(shí)際使用的詞中的音素。
一種最佳的CSR系統(tǒng)還自動(dòng)地確定何時(shí)應(yīng)該進(jìn)行訓(xùn)練。通常，講話(huà)者認(rèn)為難以進(jìn)行訓(xùn)練對(duì)話(huà)。因此，他們不可能著手訓(xùn)練對(duì)話(huà)，除非識(shí)別系統(tǒng)的準(zhǔn)確度存在重大問(wèn)題。而且，訓(xùn)練是如此困難，以致于講話(huà)者會(huì)經(jīng)常修改其語(yǔ)音模式以匹配模型。為了使訓(xùn)練過(guò)程更加講話(huà)者友好，CSR系統(tǒng)能定期地或者當(dāng)確定足夠多的句素被不準(zhǔn)確地模擬而認(rèn)為訓(xùn)練是必要時(shí)，自動(dòng)地著手一個(gè)短期訓(xùn)練對(duì)話(huà)。例如，能以每天為基礎(chǔ)自動(dòng)地著手訓(xùn)練對(duì)話(huà)，或者當(dāng)注意到20個(gè)句素與模型匹配得不夠準(zhǔn)確時(shí)著手進(jìn)行。
本發(fā)明的技術(shù)還能在例如當(dāng)講話(huà)者學(xué)習(xí)一門(mén)新語(yǔ)言時(shí)用來(lái)把詞的適當(dāng)發(fā)音教授給講話(huà)者。指導(dǎo)系統(tǒng)與其認(rèn)為音素模擬得的不準(zhǔn)確，倒不如認(rèn)為音素被講話(huà)者錯(cuò)誤地讀出。因而，一旦辨別到發(fā)音最不準(zhǔn)確的音素，指導(dǎo)系統(tǒng)就特別強(qiáng)調(diào)教給講話(huà)者如何發(fā)音帶有這些音素的詞。而且，指導(dǎo)系統(tǒng)根據(jù)使用模擬音素計(jì)算的讀出音素的準(zhǔn)確度，將講話(huà)者的發(fā)音分級(jí)。
在一個(gè)最佳實(shí)施例中，訓(xùn)練系統(tǒng)根據(jù)給定音素包含一個(gè)給定代碼字的聲學(xué)模型概率確定，該音素包含該代碼字的可能性。對(duì)于每個(gè)代碼詞，訓(xùn)練系統(tǒng)根據(jù)音素的概率排列每個(gè)音素。就是說(shuō)，具有最大概率的音素分配到最高等級(jí)(即等級(jí)1)。然后當(dāng)計(jì)算模型的準(zhǔn)確度時(shí)，使用這些等級(jí)。特別是，訓(xùn)練系統(tǒng)使用與它對(duì)準(zhǔn)的所有代碼字來(lái)計(jì)算音素的平均等級(jí)。訓(xùn)練系統(tǒng)然后選擇包含具有用于訓(xùn)練的低平均等級(jí)的那些音素的詞。
圖4-6表明各音素的準(zhǔn)確度計(jì)算。這個(gè)例子表明基于一個(gè)詞的讀出的計(jì)算。然而，在實(shí)際中，這樣一種計(jì)算可能基于多個(gè)詞。輸入詞包括音素10、12、和2。訓(xùn)練系統(tǒng)把相應(yīng)發(fā)音劃分成具有如下代碼字的15幀5、10、255、2、3、50、32、256、6、4、6、10、2、3、和5。訓(xùn)練系統(tǒng)然后把代碼字與音素對(duì)準(zhǔn)。圖4表示每個(gè)代碼字與音素的對(duì)準(zhǔn)。表401帶有一根對(duì)應(yīng)于音素的橫軸、和一根對(duì)應(yīng)于幀的縱軸。表的項(xiàng)指示每個(gè)音素與其對(duì)準(zhǔn)的代碼字。代碼字5、10、255、和2與音素10對(duì)準(zhǔn)；代碼字3、50、32、256、6、和4與音素12對(duì)準(zhǔn)；及代碼字6、10、2、3、和5與音素2對(duì)準(zhǔn)。
圖5A表示聲學(xué)模型代碼字/音素概率表。該表帶有一根對(duì)應(yīng)于代碼字的縱軸、和一根對(duì)應(yīng)于音素的橫軸。表中的每項(xiàng)包含相應(yīng)音素包含該代碼詞的概率。例如，音素10包含代碼字6的概率是.01，而音素3包含代碼字5的概率是.04。每行列的概率之和是1。
圖5B表示代碼字/音素等級(jí)表。這個(gè)表包含對(duì)于每個(gè)代碼字的、該代碼字相對(duì)于每個(gè)音素的概率的等級(jí)。例如，代碼字6對(duì)于音素10具有等級(jí)為33，這意味著代碼字6在32個(gè)其他音素中的可能性比在音素10中的大，而且代碼字6在音素10中的可能性比在7個(gè)其他音素中的大(假定總共40個(gè)音素)。因而，表的每等級(jí)包含具有從1至40的數(shù)的項(xiàng)。
音素用于每個(gè)代碼字的等級(jí)能以幾種方式產(chǎn)生。例如，對(duì)于每幀，CSR系統(tǒng)能辨別音素能產(chǎn)生用于該幀的代碼字的聲學(xué)模型概率。對(duì)于該幀，具有最大概率的音素分配到等級(jí)1，具有第二大概率的音素分配到等級(jí)2，以此類(lèi)推。能根據(jù)來(lái)自代碼字/音素概率表的信息動(dòng)態(tài)地計(jì)算等級(jí)。圖5C表示用于每幀的代碼字的每個(gè)音素的等級(jí)。用于一幀的這些等級(jí)能通過(guò)按減小順序動(dòng)態(tài)地將對(duì)于該幀用于所有音素的概率分類(lèi)來(lái)產(chǎn)生。另外，依據(jù)可存儲(chǔ)的量，能一次產(chǎn)生該等級(jí)，如代碼字/概率等級(jí)表中所示。
圖6表示使用與音素對(duì)準(zhǔn)的幀對(duì)這些音素的平均等級(jí)的樣本計(jì)算。表601帶有一根對(duì)應(yīng)于音素的橫軸、和一根對(duì)應(yīng)于輸入發(fā)音的代碼字的縱軸。表的每項(xiàng)包含用于對(duì)準(zhǔn)代碼字的相應(yīng)音素的等級(jí)。例如，代碼字5、10、255、和2與音素10對(duì)準(zhǔn)，并且對(duì)于這些代碼字音素10分別具有等級(jí)19、31、15和1。表的底部包含等級(jí)的和、對(duì)準(zhǔn)代碼字的計(jì)數(shù)、及平均等級(jí)。例如，對(duì)于音素10等級(jí)的和是66，對(duì)準(zhǔn)代碼字的計(jì)數(shù)是4，及對(duì)于音素10平均等級(jí)因此是16。如表所示，對(duì)于音素12平均等級(jí)是13，而對(duì)于音素2平均等級(jí)是19。由于音素12具有最高的平均等級(jí)，所以CSR系統(tǒng)認(rèn)為該音素比其他兩個(gè)音素模擬得更準(zhǔn)確。反之，由于音素2具有最低的平均等級(jí)，所以CSR系統(tǒng)認(rèn)為該音素比其他兩個(gè)音素模擬得更不準(zhǔn)確，并且最好選擇該音素用于訓(xùn)練。
圖7是在其上運(yùn)行一種最佳訓(xùn)練系統(tǒng)的計(jì)算機(jī)系統(tǒng)的方塊圖。計(jì)算機(jī)系統(tǒng)700包含一個(gè)存儲(chǔ)器701、一個(gè)中央處理單元702、存儲(chǔ)裝置703、及顯示裝置704。訓(xùn)練系統(tǒng)可以永久地存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上，如磁盤(pán)上，并且裝入用于執(zhí)行的計(jì)算機(jī)系統(tǒng)的存儲(chǔ)器中。一種最佳的CSR系統(tǒng)包括一個(gè)識(shí)別元件705、一個(gè)HMM元件706、和一個(gè)訓(xùn)練元件710。HMM元件包含一個(gè)用于每個(gè)音素的隱藏馬爾克夫模型、和每個(gè)詞對(duì)其音素的映象。訓(xùn)練元件包含一個(gè)樣本收集元件711、一個(gè)代碼字/音素對(duì)準(zhǔn)元件712、一個(gè)音素排列元件713、及一個(gè)詞選擇元件714。樣本收集元件或通過(guò)具體提示用戶(hù)、或收集誤識(shí)別的發(fā)音來(lái)收集發(fā)音的各種樣本和其相應(yīng)的詞。樣本收集元件把發(fā)音轉(zhuǎn)換成代碼字。代碼字/音素對(duì)準(zhǔn)元件接收代碼字和其相應(yīng)的詞，并且使用HMM把每個(gè)代碼字與詞的音素對(duì)準(zhǔn)。音素排列元件使用代碼字與音素的對(duì)準(zhǔn)，以使用與音素對(duì)準(zhǔn)的代碼字計(jì)算這些音素的平均等級(jí)。詞選擇元件然后使用平均等級(jí)從可用的詞匯(末表示)中選擇詞。
圖8是訓(xùn)練系統(tǒng)的流程圖。在步驟801，訓(xùn)練系統(tǒng)根據(jù)用于每個(gè)音素的HMM的準(zhǔn)確度排列所有音素，如圖9中所描述的那樣。在步驟802，訓(xùn)練系統(tǒng)辨別模擬得最不準(zhǔn)確的音素，即具有較低等級(jí)的那些音素。在步驟803，訓(xùn)練系統(tǒng)根據(jù)辨別的音素選擇用于訓(xùn)練的詞。在步驟804，訓(xùn)練系統(tǒng)提示講話(huà)者讀出選擇詞的每一個(gè)。在步驟805，訓(xùn)練系統(tǒng)根據(jù)用于選擇詞的發(fā)音修改HMM。
圖9是根據(jù)HMM的準(zhǔn)確度用來(lái)排列音素的程序的流程圖。在一個(gè)實(shí)施例中，這個(gè)程序通過(guò)提示講話(huà)者讀出訓(xùn)練詞來(lái)收集發(fā)音，以在排列時(shí)使用。程序然后計(jì)算每個(gè)音素準(zhǔn)確度的指示。在步驟901，程序從第一個(gè)訓(xùn)練詞開(kāi)始選擇下一個(gè)訓(xùn)練詞。訓(xùn)練詞可以是預(yù)先建立的、或預(yù)先定義的訓(xùn)練詞的集合，或者可以動(dòng)態(tài)地預(yù)先選擇。在步驟902，如果已經(jīng)選擇所有的訓(xùn)練詞，那么程序繼續(xù)到步驟911，否則程序繼續(xù)到步驟903。在步驟903，程序提示講話(huà)者讀出選擇的詞，并且接收相應(yīng)的發(fā)音。在步驟904，程序把發(fā)音轉(zhuǎn)換成代碼字序列。在步驟905，程序把每個(gè)代碼字與每個(gè)最可能對(duì)應(yīng)的詞的音素對(duì)準(zhǔn)。在步驟906-910，程序循環(huán)選擇每個(gè)代碼字和累計(jì)與該代碼字對(duì)準(zhǔn)的音素的等級(jí)。在步驟906，程序從第一個(gè)代碼字開(kāi)始選擇下一個(gè)。在步驟907，如果已經(jīng)選擇所有的代碼字，那么程序循環(huán)到步驟901，以選擇下一個(gè)訓(xùn)練詞，否則程序繼續(xù)到步驟908。在步驟908，程序在對(duì)準(zhǔn)代碼字的范圍內(nèi)辨別音素的等級(jí)。在步驟909，程序累計(jì)用于對(duì)準(zhǔn)音素的辨別等級(jí)。在步驟910，程序增大與該音素對(duì)準(zhǔn)的代碼字的數(shù)量計(jì)數(shù)，并且循環(huán)到906以選擇下一個(gè)代碼字。在步驟911，程序通過(guò)把累計(jì)等級(jí)除以計(jì)數(shù)來(lái)計(jì)算每個(gè)音素的平均等級(jí)，并且返回。
盡管按照最佳實(shí)施例已經(jīng)描述了本發(fā)明，但不打算把本發(fā)明限于這些實(shí)施例。在本發(fā)明的實(shí)質(zhì)范圍內(nèi)的改進(jìn)對(duì)于熟悉本專(zhuān)業(yè)的技術(shù)人員將是顯而易見(jiàn)的。例如，盡管按照識(shí)別離散的語(yǔ)音發(fā)音描述了本發(fā)明，但本發(fā)明能容易地用于連續(xù)的語(yǔ)音識(shí)別系統(tǒng)中。此外，本發(fā)明的技術(shù)能用于不使用隱藏馬爾克夫模型的識(shí)別系統(tǒng)。而且，使用產(chǎn)生代碼字的聲學(xué)模型概率之外的量度，如通過(guò)使用用識(shí)別器的音素誤識(shí)別的計(jì)數(shù)，也能計(jì)算音素的等級(jí)。根據(jù)求和的不同級(jí)而不是幀級(jí)能計(jì)算語(yǔ)音單元的等級(jí)。例如，以語(yǔ)音段級(jí)能求和等級(jí)，這里語(yǔ)音段包括多個(gè)幀或語(yǔ)音的可變長(zhǎng)度時(shí)段。以粒度的不同級(jí)，如音素、在音素中的狀態(tài)、句素、一種在上下文依賴(lài)音素中的狀態(tài)、或完整的詞本身，能計(jì)算語(yǔ)音單元的等級(jí)，和進(jìn)行在選擇用于訓(xùn)練的詞中的語(yǔ)音單元的選擇。上下文依賴(lài)音素可以取決于多個(gè)周?chē)羲鼗蛟~的上下文。也可以把一個(gè)完整的詞考慮為在訓(xùn)練時(shí)用于模擬和選擇的單元。當(dāng)詞匯大小較小時(shí)，或者當(dāng)某些詞經(jīng)常使用并且可能混淆時(shí)，如英語(yǔ)字母和數(shù)字，使用完整的詞作為單元是便利的。CSR系統(tǒng)能使用等級(jí)之外的準(zhǔn)確度量度。例如，CSR系統(tǒng)可以使用音素概率與用于該幀的最好音素概率的差值或比值。而且，使用求平均之外的技術(shù)，如計(jì)算跨過(guò)多個(gè)出現(xiàn)的相同語(yǔ)音單元的準(zhǔn)確度度量的最大值、最小值、或加權(quán)和，能組合跨過(guò)不同幀的等級(jí)或準(zhǔn)確度量度信息。最后，CSR系統(tǒng)能使用關(guān)于音素模型準(zhǔn)確度的收集信息(總稱(chēng)為誤差分布)，以改進(jìn)識(shí)別過(guò)程本身。例如，如果誤差分布表示識(shí)別該音素模型的機(jī)會(huì)在其已知出現(xiàn)期間較小，如由誤差分布辨別的那樣，則在識(shí)別期間能增大語(yǔ)音單元的概率。本發(fā)明的范圍由如下的權(quán)利要求書(shū)限定。
權(quán)利要求
1．一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的計(jì)算機(jī)系統(tǒng)中的方法，該語(yǔ)音識(shí)別系統(tǒng)用來(lái)識(shí)別多個(gè)詞，該語(yǔ)音識(shí)別系統(tǒng)具有組成每個(gè)詞的音素的指示，該語(yǔ)音識(shí)別系統(tǒng)具有用于每個(gè)音素的模型，每個(gè)模型用來(lái)產(chǎn)生代碼字的每個(gè)可能序列對(duì)應(yīng)于模擬的音素的概率，該方法包括對(duì)于每個(gè)代碼字，根據(jù)代碼字將作為音素的部分讀出的概率排列音素；收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音；對(duì)于每個(gè)收集的發(fā)音，把收集的發(fā)音轉(zhuǎn)換成代碼字序列；及根據(jù)音素模型，把代碼字序列中的每個(gè)代碼字與收集發(fā)音對(duì)應(yīng)的已知詞的音素對(duì)準(zhǔn)；對(duì)于每個(gè)音素，對(duì)于在每一個(gè)收集發(fā)音中與音素對(duì)準(zhǔn)的所有代碼字，累計(jì)該音素的等級(jí)；及通過(guò)把累計(jì)的等級(jí)除以在收集發(fā)音中與該音素對(duì)準(zhǔn)的代碼字的總數(shù)，計(jì)算該音素的平均等級(jí)；辨別具有低平均等級(jí)的音素；及選擇包含辨別音素的詞，作為用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞。
2．根據(jù)權(quán)利要求1所述的方法，其中模型是隱藏馬爾克夫模型。
3．根據(jù)權(quán)利要求1所述的方法，其中對(duì)準(zhǔn)使用一種基于維特比的對(duì)準(zhǔn)算法。
4．根據(jù)權(quán)利要求1所述的方法，包括把選擇的詞呈現(xiàn)給講話(huà)者以便訓(xùn)練。
5．根據(jù)權(quán)利要求4所述的方法，其中在詞將由講話(huà)者讀出的概率下，最好選擇選出的詞。
6．根據(jù)權(quán)利要求1所述的方法，其中音素的辨別包括辨別多于一個(gè)具有低平均等級(jí)的音素，并且其中選擇過(guò)程選擇包含多于一個(gè)辨別音素的詞。
7．根據(jù)權(quán)利要求6所述的方法，包括把選擇的詞呈現(xiàn)給講話(huà)者以便訓(xùn)練。
8．根據(jù)權(quán)利要求7所述的方法，其中每個(gè)詞具有指示該詞將由講話(huà)者讀出的概率的語(yǔ)言模型概率，及其中按基于選擇詞的語(yǔ)言模型概率的順序，把選擇的詞呈現(xiàn)給講話(huà)者。
9．一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的計(jì)算機(jī)系統(tǒng)中的方法，該語(yǔ)音識(shí)別系統(tǒng)用來(lái)識(shí)別多個(gè)詞，該語(yǔ)音識(shí)別系統(tǒng)具有組成每個(gè)詞的語(yǔ)音單元的指示，該語(yǔ)音識(shí)別系統(tǒng)具有用于每個(gè)語(yǔ)音單元的模型，每個(gè)模型用來(lái)產(chǎn)生特征向量的每個(gè)可能序列對(duì)應(yīng)于模擬的語(yǔ)音單元的概率，該方法包括收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音；對(duì)于每個(gè)收集的發(fā)音，把收集的發(fā)音轉(zhuǎn)換成特征向量序列；及根據(jù)已知詞的語(yǔ)音單元的模型，把特征向量序列中的每個(gè)特征向量與收集發(fā)音所對(duì)應(yīng)的已知詞的語(yǔ)音單元對(duì)準(zhǔn)；從與每個(gè)語(yǔ)音單元對(duì)準(zhǔn)的特征向量中，辨別哪些語(yǔ)音單元模擬得最不準(zhǔn)確；及選擇包含辨別音素的詞，作為用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞。
10．根據(jù)權(quán)利要求9所述的方法，其中哪些語(yǔ)音單元模擬得最不準(zhǔn)確的辨別包括根據(jù)對(duì)準(zhǔn)語(yǔ)音單元和特征向量計(jì)算幀準(zhǔn)確度度量；及通過(guò)組合基于該語(yǔ)音單元的幀準(zhǔn)確度度量，計(jì)算對(duì)于每個(gè)獨(dú)特語(yǔ)音單元的組合準(zhǔn)確度度量。
11．根據(jù)權(quán)利要求10所述的方法，其中幀準(zhǔn)確度度量是特征向量包含在特征向量與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率，與特征向量包含在任何語(yǔ)音單元內(nèi)的最大概率的比值。
12．根據(jù)權(quán)利要求10所述的方法，其中幀準(zhǔn)確度度量是特征向量包含在特征向量與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率，與特征向量包含在任何語(yǔ)音單元內(nèi)的最大概率的差值。
13．根據(jù)權(quán)利要求10所述的方法，其中幀準(zhǔn)確度度量是每個(gè)語(yǔ)音單元基于這些與語(yǔ)音單元對(duì)準(zhǔn)的向量幀將作為語(yǔ)音單元的部分讀出的概率的等級(jí)。
14．根據(jù)權(quán)利要求13所述的方法，其中與語(yǔ)音單元對(duì)準(zhǔn)的這些特征向量將作為語(yǔ)音單元的部分讀出的概率是聲學(xué)模型概率。
15．根據(jù)權(quán)利要求13所述的方法，其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的平均值。
16．根據(jù)權(quán)利要求13所述的方法，其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的最大值。
17．根據(jù)權(quán)利要求13所述的方法，其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的最小值。
18．根據(jù)權(quán)利要求13所述的方法，其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的加權(quán)平均值。
19．根據(jù)權(quán)利要求9所述的方法，其中哪些語(yǔ)音單元模擬得最不準(zhǔn)確的辨別是基于在識(shí)別期間誤識(shí)別的詞的分析。
20．根據(jù)權(quán)利要求9所述的方法，其中語(yǔ)音單元是一個(gè)音素。
21．根據(jù)權(quán)利要求9所述的方法，其中語(yǔ)音單元是一個(gè)句素。
22．根據(jù)權(quán)利要求9所述的方法，其中語(yǔ)音單元是一個(gè)上下文依賴(lài)的音素狀態(tài)。
23．根據(jù)權(quán)利要求9所述的方法，其中語(yǔ)音單元是一個(gè)詞。
24．根據(jù)權(quán)利要求9所述的方法，其中特征向量是量化向量。
25．根據(jù)權(quán)利要求9所述的方法，包括根據(jù)選擇詞來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)。
26．根據(jù)權(quán)利要求25所述的方法，其中訓(xùn)練包括產(chǎn)生指示對(duì)于每個(gè)語(yǔ)音單元用于每個(gè)特征向量的概率的、反映在訓(xùn)練期間模型與所讀出的詞之間差別的誤差分布。
27．根據(jù)權(quán)利要求26所述的方法，其中誤差分布的概率在語(yǔ)音識(shí)別期間分解成模型的概率。
28．一種用來(lái)將詞的發(fā)音教給講話(huà)者的計(jì)算機(jī)系統(tǒng)中的方法，每個(gè)詞用語(yǔ)音方法由語(yǔ)音單元表示，每個(gè)語(yǔ)音單元具有用來(lái)產(chǎn)生特征向量的各序列對(duì)應(yīng)于模擬的語(yǔ)音單元的概率的模型，該方法包括收集來(lái)自講話(huà)者的其相應(yīng)詞是已知的多個(gè)讀出發(fā)音；對(duì)于每個(gè)收集的發(fā)音，把收集的發(fā)音轉(zhuǎn)換成特征向量序列；及根據(jù)已知詞的語(yǔ)音單元的模型，把特征向量序列中的每個(gè)特征向量與收集發(fā)音對(duì)應(yīng)的已知詞的語(yǔ)音單元對(duì)準(zhǔn)；從與每個(gè)語(yǔ)音單元對(duì)準(zhǔn)的特征向量中，辨別講話(huà)者讀得不準(zhǔn)確的語(yǔ)音單元；及選擇包含辨別音素的詞，作為用來(lái)教講話(huà)者的詞。
29．根據(jù)權(quán)利要求28所述的方法，包括把選擇的詞呈現(xiàn)給講話(huà)者。
30．根據(jù)權(quán)利要求29所述的方法，包括接收對(duì)應(yīng)于每個(gè)讀出詞的語(yǔ)音發(fā)音和估計(jì)接收語(yǔ)音發(fā)音的準(zhǔn)確度。
31．根據(jù)權(quán)利要求28所述的方法，其中哪些語(yǔ)音單元模擬得最不準(zhǔn)確的辨別包括根據(jù)對(duì)準(zhǔn)語(yǔ)音單元和特征向量計(jì)算幀準(zhǔn)確度度量；及通過(guò)組合基于該語(yǔ)音單元的幀準(zhǔn)確度度量，計(jì)算對(duì)于每個(gè)獨(dú)特語(yǔ)音單元的組合準(zhǔn)確度度量。
32．根據(jù)權(quán)利要求31所述的方法，其中幀準(zhǔn)確度度量是特征向量包含在特征向量與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率，與特征向量包含在任何語(yǔ)音單元內(nèi)的最大概率的比值。
33．根據(jù)權(quán)利要求31所述的方法，其中幀準(zhǔn)確度度量是特征向量包含在特征向量與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率，與特征向量包含在任何語(yǔ)音單元內(nèi)的最大概率的差值。
34．根據(jù)權(quán)利要求31所述的方法，其中幀準(zhǔn)確度度量是基于這些與語(yǔ)音單元對(duì)準(zhǔn)的向量幀將作為語(yǔ)音單元的部分讀出的概率的每個(gè)語(yǔ)音單元等級(jí)。
35．根據(jù)權(quán)利要求34所述的方法，其中與語(yǔ)音單元對(duì)準(zhǔn)的這些特征向量將作為語(yǔ)音單元的部分讀出的概率是聲學(xué)模型概率。
36．根據(jù)權(quán)利要求34所述的方法，其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的平均值。
37．根據(jù)權(quán)利要求34所述的方法，其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的最大值。
38．根據(jù)權(quán)利要求34所述的方法，其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的最小值。
39．根據(jù)權(quán)利要求34所述的方法，其中組合準(zhǔn)確度量度是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)特征向量包含在該語(yǔ)音單元內(nèi)的概率的加權(quán)平均值。
40．根據(jù)權(quán)利要求28所述的方法，其中語(yǔ)音單元是一個(gè)音素。
41．根據(jù)權(quán)利要求28所述的方法，其中語(yǔ)音單元是一個(gè)句素。
42．根據(jù)權(quán)利要求28所述的方法，其中特征向量是量化向量。
43．一種用來(lái)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的計(jì)算機(jī)系統(tǒng)中的方法，該語(yǔ)音識(shí)別系統(tǒng)用來(lái)識(shí)別多個(gè)詞，讀出的每個(gè)詞帶有語(yǔ)音單元，該方法包括接收對(duì)其確定相應(yīng)詞的多個(gè)讀出發(fā)音；對(duì)于接收讀出發(fā)音的確定詞的每一個(gè)的每個(gè)語(yǔ)音單元，確定語(yǔ)音識(shí)別系統(tǒng)在識(shí)別確定詞內(nèi)的語(yǔ)音單元時(shí)的上下文依賴(lài)準(zhǔn)確度；對(duì)于每個(gè)語(yǔ)音單元，根據(jù)上下文依賴(lài)準(zhǔn)確度確定語(yǔ)音識(shí)別系統(tǒng)在識(shí)別語(yǔ)音單元時(shí)的上下文無(wú)關(guān)準(zhǔn)確度；及選擇包含確定具有最低上下文無(wú)關(guān)準(zhǔn)確度的語(yǔ)音單元的詞，用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)。
44．根據(jù)權(quán)利要求36所述的方法，其中語(yǔ)音單元是一個(gè)音素。
45．根據(jù)權(quán)利要求36所述的方法，其中語(yǔ)音單元是一個(gè)句素。
46．根據(jù)權(quán)利要求36所述的方法，其中語(yǔ)音單元是一個(gè)上下文依賴(lài)的音素狀態(tài)。
47．根據(jù)權(quán)利要求36所述的方法，其中語(yǔ)音單元是一個(gè)詞。
48．根據(jù)權(quán)利要求43所述的方法，其中根據(jù)用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的上下文依賴(lài)準(zhǔn)確度來(lái)選擇詞。
49．根據(jù)權(quán)利要求43所述的方法，其中語(yǔ)音識(shí)別系統(tǒng)具有用于每個(gè)語(yǔ)音單元、指示量化向量序列對(duì)應(yīng)于語(yǔ)音單元的概率的模型，并且其中上下文依賴(lài)準(zhǔn)確度的確定包括對(duì)于每個(gè)接收的發(fā)音，把讀出的發(fā)音轉(zhuǎn)換成量化向量序列；根據(jù)用于確定詞的語(yǔ)音單元的模型，把序列中的每個(gè)量化向量與所確定詞的語(yǔ)音單元對(duì)準(zhǔn)；及辨別每個(gè)對(duì)準(zhǔn)量化向量作為與該向量與之對(duì)準(zhǔn)的語(yǔ)音單元的部分而讀出的概率，其中辨別的概率用來(lái)確定上下文依賴(lài)準(zhǔn)確度。
50．根據(jù)權(quán)利要求43所述的方法，包括把選擇的詞呈現(xiàn)給講話(huà)者以便訓(xùn)練。
51．根據(jù)權(quán)利要求50所述的方法，其中每個(gè)詞具有指示該詞將要讀出的概率的語(yǔ)言模型概率，及其中按基于詞的語(yǔ)言模型概率的順序，把選擇的詞呈現(xiàn)給講話(huà)者。
52．根據(jù)權(quán)利要求43所述的方法，其中詞的選擇包括選擇具有多于一個(gè)具有所確定上下文依賴(lài)準(zhǔn)確度較低的語(yǔ)音單元的詞。
53．根據(jù)權(quán)利要求52所述的方法，包括把選擇的詞呈現(xiàn)給講話(huà)者以便訓(xùn)練。
54．根據(jù)權(quán)利要求53所述的方法，其中每個(gè)詞具有指示該詞將要讀出的概率的語(yǔ)言模型概率，及其中按基于選擇詞的語(yǔ)言模型概率的順序，把選擇的詞呈現(xiàn)給講話(huà)者。
55．根據(jù)權(quán)利要求43所述的方法，其中多個(gè)讀出發(fā)音的接收出現(xiàn)在識(shí)別過(guò)程期間，并且其中識(shí)別過(guò)程定期要求講話(huà)者在選擇的詞上訓(xùn)練。
56．根據(jù)權(quán)利要求55所述的方法，其中重復(fù)地進(jìn)行訓(xùn)練和識(shí)別。
57．根據(jù)權(quán)利要求43所述的方法，其中多個(gè)讀出發(fā)音的接收出現(xiàn)在識(shí)別過(guò)程期間，并且其中當(dāng)識(shí)別過(guò)程辨別到這時(shí)識(shí)別過(guò)程不正確地識(shí)別一定部分的讀出發(fā)音時(shí)，自動(dòng)提示在選擇的詞上進(jìn)行訓(xùn)練。
58．根據(jù)權(quán)利要求43所述的方法，其中多個(gè)讀出發(fā)音的接收出現(xiàn)在識(shí)別過(guò)程期間，并且其中在識(shí)別過(guò)程期間誤識(shí)別接收的讀出發(fā)音。
59．一種包含用來(lái)使計(jì)算機(jī)系統(tǒng)教講話(huà)者詞的發(fā)音的指令的計(jì)算機(jī)可讀介質(zhì)，每個(gè)讀出的詞帶有語(yǔ)音單元，該介質(zhì)的特征在于從講話(huà)者接收其相應(yīng)詞是已知的多個(gè)讀出發(fā)音；由讀出發(fā)音辨別哪些語(yǔ)音單元由講話(huà)者讀得不準(zhǔn)確；及選擇包含辨別語(yǔ)音單元的詞，用來(lái)教講話(huà)者。
60．根據(jù)權(quán)利要求59所述的計(jì)算機(jī)可讀介質(zhì)，包括把選擇的詞呈現(xiàn)給講話(huà)者。
61．根據(jù)權(quán)利要求60所述的計(jì)算機(jī)可讀介質(zhì)，包括接收對(duì)應(yīng)于呈現(xiàn)給講話(huà)者每個(gè)讀出詞的讀出發(fā)音、和估計(jì)所接收讀出發(fā)音的準(zhǔn)確度。
62．根據(jù)權(quán)利要求59所述的計(jì)算機(jī)可讀介質(zhì)，其中語(yǔ)音單元是一個(gè)音素。
63．根據(jù)權(quán)利要求59所述的計(jì)算機(jī)可讀介質(zhì)，其中語(yǔ)音單元是一個(gè)句素。
64．一種包含用來(lái)使計(jì)算機(jī)系統(tǒng)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的指令的計(jì)算機(jī)可讀介質(zhì)，該語(yǔ)音識(shí)別系統(tǒng)用來(lái)識(shí)別多個(gè)詞，該語(yǔ)音識(shí)別系統(tǒng)具有組成每個(gè)詞的語(yǔ)音單元的指示，該語(yǔ)音識(shí)別系統(tǒng)具有用于每個(gè)語(yǔ)音單元的模型，每個(gè)模型用來(lái)指示特征向量的每個(gè)可能序列對(duì)應(yīng)于模擬的語(yǔ)音單元的概率，該介質(zhì)的特征在于接收確定相應(yīng)詞的多個(gè)讀出發(fā)音；對(duì)于每個(gè)收集的發(fā)音，把收集的發(fā)音轉(zhuǎn)換成特征向量序列；及根據(jù)確定詞的語(yǔ)音單元模型，把特征向量序列中的每個(gè)特征向量與和收集發(fā)音對(duì)應(yīng)的確定詞的語(yǔ)音單元對(duì)準(zhǔn)；由與每個(gè)語(yǔ)音單元對(duì)準(zhǔn)的特征向量，辨別哪些模擬得最不準(zhǔn)確的語(yǔ)音單元；及選擇包含辨別音素的詞，作為用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞。
65．根據(jù)權(quán)利要求64所述的計(jì)算機(jī)可讀介質(zhì)，其中哪些語(yǔ)音單元模擬得最不準(zhǔn)確的辨別包括根據(jù)與語(yǔ)音單元對(duì)準(zhǔn)的那些特征向量將作為語(yǔ)音單元的部分讀出的概率，計(jì)算每個(gè)語(yǔ)音單元的等級(jí)。
66．根據(jù)權(quán)利要求65所述的計(jì)算機(jī)可讀介質(zhì)，其中與語(yǔ)音單元對(duì)準(zhǔn)的那些特征向量將作為語(yǔ)音單元的部分讀出的概率是聲學(xué)模型概率。
67．根據(jù)權(quán)利要求64所述的計(jì)算機(jī)可讀介質(zhì)，包括根據(jù)選擇的詞訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)。
68．根據(jù)權(quán)利要求67所述的計(jì)算機(jī)可讀介質(zhì)，其中訓(xùn)練包括產(chǎn)生指示對(duì)于每個(gè)語(yǔ)音單元用于每個(gè)特征向量的概率的、反映在訓(xùn)練期間模型與所讀出的詞之間差別的誤差分布。
69．根據(jù)權(quán)利要求68所述的計(jì)算機(jī)可讀介質(zhì)，其中誤差分布的概率在語(yǔ)音識(shí)別期間分解成模型的概率。
70．一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的計(jì)算機(jī)系統(tǒng)中的方法，每個(gè)詞包括語(yǔ)音單元，該方法包括收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音；從讀出發(fā)音中，辨別哪些語(yǔ)音單元由語(yǔ)音識(shí)別系統(tǒng)模擬得最不準(zhǔn)確；及選擇包含辨別語(yǔ)音發(fā)音的詞，用于語(yǔ)音識(shí)別系統(tǒng)的訓(xùn)練。
71．根據(jù)權(quán)利要求70所述的方法，其中語(yǔ)音單元是一個(gè)音素。
72．根據(jù)權(quán)利要求70所述的方法，其中語(yǔ)音單元是一個(gè)句素。
73．根據(jù)權(quán)利要求70所述的方法，其中語(yǔ)音單元是一個(gè)上下文依賴(lài)的音素狀態(tài)。
74．根據(jù)權(quán)利要求70所述的方法，其中語(yǔ)音單元是一個(gè)詞。
75．根據(jù)權(quán)利要求70所述的方法，其中語(yǔ)音識(shí)別系統(tǒng)具有用于每個(gè)語(yǔ)音單元的指示量化向量序列對(duì)應(yīng)于語(yǔ)音單元的概率的模型，并且其中辨別包括對(duì)于每個(gè)收集的發(fā)音，把收集的發(fā)音轉(zhuǎn)換成量化向量序列；根據(jù)用于確定詞的語(yǔ)音單元的模型，把序列中的每個(gè)量化向量與已知詞的語(yǔ)音單元對(duì)準(zhǔn)；及辨別每個(gè)對(duì)準(zhǔn)量化向量作為與該向量對(duì)準(zhǔn)的音素的部分而讀出的概率。
76．根據(jù)權(quán)利要求70所述的方法，包括把選擇的詞呈現(xiàn)給講話(huà)者以便訓(xùn)練。
77．根據(jù)權(quán)利要求76所述的方法，其中每個(gè)詞具有指示該詞將要讀出的概率的語(yǔ)言模型概率，及其中按基于詞的語(yǔ)言模型概率的順序，把選擇的詞呈現(xiàn)給講話(huà)者。
78．根據(jù)權(quán)利要求70所述的方法，其中詞的選擇包括選擇具有多于一個(gè)不準(zhǔn)確模擬的語(yǔ)音單元的詞。
79．根據(jù)權(quán)利要求78所述的方法，包括把選擇的詞呈現(xiàn)給講話(huà)者以便訓(xùn)練。
80．根據(jù)權(quán)利要求79所述的方法，其中每個(gè)詞具有指示該詞將要讀出的概率的語(yǔ)言模型概率，及其中按基于選擇詞的語(yǔ)言模型概率的順序，把選擇的詞呈現(xiàn)給講話(huà)者。
81．根據(jù)權(quán)利要求70所述的方法，其中多個(gè)讀出發(fā)音的接收在識(shí)別過(guò)程期間出現(xiàn)，并且其中識(shí)別過(guò)程定期地要求講話(huà)者在選擇詞上訓(xùn)練。
82．根據(jù)權(quán)利要求81所述的方法，其中重復(fù)地進(jìn)行訓(xùn)練和識(shí)別。
83．根據(jù)權(quán)利要求70所述的方法，其中多個(gè)讀出發(fā)音的接收在識(shí)別過(guò)程期間出現(xiàn)，并且其中當(dāng)識(shí)別過(guò)程辨別到這時(shí)識(shí)別過(guò)程不正確地識(shí)別一定部分的讀出發(fā)音時(shí)，在選擇的詞上進(jìn)行訓(xùn)練。
84．根據(jù)權(quán)利要求70所述的方法，其中多個(gè)讀出發(fā)音的接收在識(shí)別過(guò)程期間出現(xiàn)，并且其中在識(shí)別過(guò)程期間接收的讀出發(fā)音被誤識(shí)別。
85．根據(jù)權(quán)利要求70所述的方法，其中哪些語(yǔ)音單元模擬得不準(zhǔn)確的辨別包括把讀出發(fā)音的特征向量對(duì)準(zhǔn)語(yǔ)音單元；根據(jù)對(duì)準(zhǔn)的語(yǔ)音單元和特征向量計(jì)算對(duì)于每個(gè)特征向量的幀準(zhǔn)確度度量；及通過(guò)組合基于該語(yǔ)音單元的幀準(zhǔn)確度度量，計(jì)算對(duì)于每個(gè)獨(dú)特語(yǔ)音單元的組合準(zhǔn)確度度量。
86．根據(jù)權(quán)利要求85所述的方法，其中幀準(zhǔn)確度度量是該幀的讀出發(fā)音包含在讀出發(fā)音與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率，與該幀的讀出發(fā)音包含在任何語(yǔ)音單元內(nèi)的最大概率的比值。
87．根據(jù)權(quán)利要求85所述的方法，其中幀準(zhǔn)確度度量是該幀的讀出發(fā)音包含在讀出發(fā)音與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率，與該幀的讀出發(fā)音包含在任何語(yǔ)音單元內(nèi)的最大概率的差值。
88．根據(jù)權(quán)利要求85所述的方法，其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的平均值。
89．根據(jù)權(quán)利要求85所述的方法，其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的最大值的平均值。
90．根據(jù)權(quán)利要求85所述的方法，其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的最小值。
91．根據(jù)權(quán)利要求85所述的方法，其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的加權(quán)平均值之和。
92．根據(jù)權(quán)利要求70所述的方法，其中哪些語(yǔ)音單元模擬得不準(zhǔn)確的辨別包括計(jì)數(shù)在識(shí)別期間在一個(gè)誤識(shí)別詞中識(shí)別一個(gè)語(yǔ)音單元的次數(shù)。
93．根據(jù)權(quán)利要求70所述的方法，其中哪些語(yǔ)音單元模擬得不準(zhǔn)確的辨別包括計(jì)數(shù)在識(shí)別期間在一個(gè)正確詞中未識(shí)別一個(gè)語(yǔ)音單元的次數(shù)。
94．根據(jù)權(quán)利要求70所述的方法，其中哪些語(yǔ)音單元模擬得不準(zhǔn)確的辨別是基于正確與不正確音素模型的概率值之間的差。
95．根據(jù)權(quán)利要求70所述的方法，其中語(yǔ)音單元是一個(gè)上下文依賴(lài)音素。
96．根據(jù)權(quán)利要求70所述的方法，其中語(yǔ)音單元是一個(gè)詞。
97．根據(jù)權(quán)利要求70所述的方法，其中哪些語(yǔ)音單元模擬得不準(zhǔn)確的辨別包括把讀出語(yǔ)音的幀的序列與語(yǔ)音單元對(duì)準(zhǔn)，和根據(jù)幀的對(duì)準(zhǔn)序列包含在該語(yǔ)音單元中的概率，計(jì)算語(yǔ)音單元的等級(jí)。
98．一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的計(jì)算機(jī)系統(tǒng)，每個(gè)詞包括語(yǔ)音單元，該計(jì)算機(jī)系統(tǒng)包括一個(gè)樣本收集元件，收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音，并且把讀出發(fā)音轉(zhuǎn)換成代碼字；一個(gè)對(duì)準(zhǔn)元件，把代碼字與每個(gè)詞的語(yǔ)音單元對(duì)準(zhǔn)；一個(gè)語(yǔ)音單元排列元件，由讀出的發(fā)音辨別哪些語(yǔ)音單元由語(yǔ)音識(shí)別系統(tǒng)模擬得不準(zhǔn)確；及一個(gè)詞選擇元件，選擇包含辨別發(fā)音的詞，用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)。
99．根據(jù)權(quán)利要求98所述的計(jì)算機(jī)系統(tǒng)，其中語(yǔ)音識(shí)別系統(tǒng)具有對(duì)于每個(gè)語(yǔ)音單元的指示量化向量序列對(duì)應(yīng)于語(yǔ)音單元的概率的模型；其中對(duì)準(zhǔn)元件根據(jù)用于確定詞的語(yǔ)音單元的模型，把每個(gè)代碼字與確定詞的語(yǔ)音單元對(duì)準(zhǔn)；及其中語(yǔ)音單元排列元件辨別每個(gè)對(duì)準(zhǔn)代碼字作為代碼字與其對(duì)準(zhǔn)的語(yǔ)音單元的部分讀出的概率。
100．根據(jù)權(quán)利要求98所述的計(jì)算機(jī)系統(tǒng)，其中每個(gè)詞具有指示該詞將要讀出的概率的語(yǔ)言模型概率，及包括一個(gè)按基于詞的語(yǔ)言模型概率的順序、把選擇的詞呈現(xiàn)給講話(huà)者的呈現(xiàn)元件。
101．根據(jù)權(quán)利要求98所述的計(jì)算機(jī)系統(tǒng)，其中詞選擇元件選擇具有多個(gè)模擬得不準(zhǔn)確的語(yǔ)音單元的詞。
102．一種用來(lái)估計(jì)識(shí)別系統(tǒng)在識(shí)別詞時(shí)的準(zhǔn)確度的計(jì)算機(jī)識(shí)別系統(tǒng)中的方法，每個(gè)詞包括語(yǔ)音單元，該方法包括收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音；及通過(guò)把讀出發(fā)音的幀與語(yǔ)音單元對(duì)準(zhǔn)、和根據(jù)該幀的讀出語(yǔ)音包含在讀出語(yǔ)音與之對(duì)準(zhǔn)的語(yǔ)音單元中的概率來(lái)計(jì)算用于每幀的幀準(zhǔn)確度度量，來(lái)辨別每個(gè)語(yǔ)音單元的準(zhǔn)確度。
103．根據(jù)權(quán)利要求102所述的方法，其中幀準(zhǔn)確度度量是該幀的讀出發(fā)音包含在讀出發(fā)音與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率，與該幀的讀出發(fā)音包含在任何語(yǔ)音單元內(nèi)的最大概率的比值。
104．根據(jù)權(quán)利要求102所述的方法，其中幀準(zhǔn)確度度量是該幀的讀出發(fā)音包含在讀出發(fā)音與其對(duì)準(zhǔn)的語(yǔ)音單元內(nèi)的概率，與該幀的讀出發(fā)音包含在任何語(yǔ)音單元內(nèi)的最大概率的差值。
105．根據(jù)權(quán)利要求102所述的方法，其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的平均值。
106．根據(jù)權(quán)利要求102所述的方法，其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的最大值。
107．根據(jù)權(quán)利要求102所述的方法，其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的最小值。
108．根據(jù)權(quán)利要求102所述的方法，其中幀準(zhǔn)確度度量是與該語(yǔ)音單元對(duì)準(zhǔn)的每個(gè)幀的讀出發(fā)音包含在該語(yǔ)音單元內(nèi)的概率的加權(quán)平均值。
109．根據(jù)權(quán)利要求102所述的方法，其中計(jì)算包括計(jì)數(shù)在識(shí)別期間在一個(gè)誤識(shí)別詞中未識(shí)別一個(gè)語(yǔ)音單元的次數(shù)。
110．根據(jù)權(quán)利要求102所述的方法，其中計(jì)算包括計(jì)數(shù)在識(shí)別期間在一個(gè)正確詞中未識(shí)別一個(gè)語(yǔ)音單元的次數(shù)。
111．根據(jù)權(quán)利要求102所述的方法，其中語(yǔ)音單元是一個(gè)上下文依賴(lài)音素。
112．根據(jù)權(quán)利要求102所述的方法，其中語(yǔ)音單元是一個(gè)詞。
113．根據(jù)權(quán)利要求102所述的方法，其中語(yǔ)音單元是一個(gè)音素的狀態(tài)。
114．根據(jù)權(quán)利要求102所述的方法，其中語(yǔ)音單元是一個(gè)句素。
115．一種用來(lái)估計(jì)識(shí)別系統(tǒng)在識(shí)別詞時(shí)的準(zhǔn)確度的計(jì)算機(jī)識(shí)別系統(tǒng)中的方法，每個(gè)詞包括語(yǔ)音單元，該方法包括收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音；及通過(guò)把讀出發(fā)音的幀與語(yǔ)音單元對(duì)準(zhǔn)、和計(jì)數(shù)在識(shí)別期間在一個(gè)正確詞中未識(shí)別一個(gè)語(yǔ)音單元的次數(shù)，來(lái)辨別每個(gè)語(yǔ)音單元的準(zhǔn)確度。
116．一種用來(lái)估計(jì)識(shí)別系統(tǒng)在識(shí)別詞時(shí)的準(zhǔn)確度的計(jì)算機(jī)識(shí)別系統(tǒng)中的方法，每個(gè)詞包括語(yǔ)音單元，該方法包括收集其相應(yīng)詞是已知的多個(gè)讀出發(fā)音；及通過(guò)把讀出發(fā)音的幀與語(yǔ)音單元對(duì)準(zhǔn)、和計(jì)數(shù)在識(shí)別期間在一個(gè)誤識(shí)別詞中未識(shí)別一個(gè)語(yǔ)音單元的次數(shù)，來(lái)辨別每個(gè)語(yǔ)音單元的準(zhǔn)確度。
全文摘要
一種用來(lái)動(dòng)態(tài)選擇用來(lái)訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)的詞的方法和系統(tǒng)。語(yǔ)音識(shí)別系統(tǒng)使用隱藏的馬爾克夫模型模擬每個(gè)音素,并且把每個(gè)詞表示為音素的一個(gè)序列。訓(xùn)練系統(tǒng)根據(jù)相應(yīng)代碼字將作為音素的部分讀出的概率排列用于每幀的每個(gè)音素。訓(xùn)練系統(tǒng)收集其相應(yīng)詞是已知的讀出發(fā)音。訓(xùn)練系統(tǒng)然后把每個(gè)發(fā)音的代碼字與它認(rèn)為是其部分的音素對(duì)準(zhǔn)。訓(xùn)練系統(tǒng)然后使用對(duì)準(zhǔn)幀的對(duì)準(zhǔn)代碼字來(lái)計(jì)算對(duì)于每個(gè)音素的平均等級(jí)。最后,訓(xùn)練系統(tǒng)選擇包含具有低等級(jí)的音素的詞用于訓(xùn)練。
文檔編號(hào)G10L15/14GK1223739SQ97195936
公開(kāi)日1999年7月21日申請(qǐng)日期1997年6月27日優(yōu)先權(quán)日1996年6月28日
發(fā)明者曉－文·洪, 學(xué)東·D·黃, 眉－宇·黃, 勵(lì)·蔣, 云-成·鞠, 米林德·V·馬哈賈, 米切爾·J·若扎克申請(qǐng)人:微軟公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曉-文.洪;學(xué)東.D.黃;眉-宇.黃;勵(lì).蔣;云-成.鞠;米林德.V.馬哈賈;米切爾.J.若扎克
技術(shù)所有人：微軟公司
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

hmm用于語(yǔ)音識(shí)別相關(guān)技術(shù)

語(yǔ)音識(shí)別訓(xùn)練數(shù)據(jù)相關(guān)技術(shù)

語(yǔ)音識(shí)別模型訓(xùn)練相關(guān)技術(shù)

語(yǔ)音識(shí)別相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于語(yǔ)音識(shí)別的動(dòng)態(tài)調(diào)節(jié)的訓(xùn)練方法和系統(tǒng)的制作方法