專利名稱:一種訓(xùn)練語音識(shí)別系統(tǒng)的方法和實(shí)踐該方法的裝置特別是手提電話設(shè)備的制作方法
發(fā)明的背景本發(fā)明涉及對(duì)多項(xiàng)編碼系統(tǒng)訓(xùn)練一語音識(shí)別系統(tǒng)的方法。所說的方法包括下列步驟-由用戶個(gè)人提出一語音項(xiàng);-認(rèn)定在所說編碼系統(tǒng)中所說被提出語音項(xiàng)的特征;-在所查到的特征的控制下,將所說被提出語音項(xiàng)插入該編碼系統(tǒng)中;-重復(fù)這些步驟,直到達(dá)到該編碼系統(tǒng)的充分條件。
語音識(shí)別已成為一個(gè)商業(yè)上的熱門的課目。它尋求在高度復(fù)雜的專業(yè)系統(tǒng)中,也在基本消費(fèi)裝置和裝置中都有應(yīng)用。后者的個(gè)別例子是手提電話;某些這樣裝置是可受語音控制的,而語音代表數(shù)字;如像接通、停止、結(jié)束、保持這樣的標(biāo)準(zhǔn)電話用語,以及進(jìn)而有關(guān)的詞和短語。其他可適用的語音項(xiàng)可以是個(gè)人的姓名、公司名稱,以及如像老板、妻子和秘書這樣的詞,它們能加快或簡(jiǎn)化撥號(hào)。當(dāng)然,相同的詞匯在其他語言中也有應(yīng)用。已發(fā)現(xiàn),如此基本不受約束的專用語的使用特別會(huì)產(chǎn)生很多混淆。例如,某些名詞會(huì)有互相類似性。并且,某些名詞發(fā)音像標(biāo)準(zhǔn)用語,即使拼寫時(shí)不同。例如,wife(妻子)很難同five(5)相匹別,荷蘭語的詞Acht或Agt(8)既用作一姓氏也用作一個(gè)村莊的名字。此外,混淆也出現(xiàn)交叉語言中。例如,one(英語,1)-wann(德語,何時(shí) )sept(法語,7)-set(英語,設(shè)置)huit(法語,8)-wie(德語,如何 )dix(法語,10)-this(英語,這個(gè))因此,已認(rèn)識(shí)到一種需要,這種需要就是對(duì)一種混淆概率保持為最小的可控方式維持儲(chǔ)存的編碼系統(tǒng)而言,要給出所討論的系統(tǒng)的實(shí)際性能。歐洲專利申請(qǐng)EP 601876披露了一個(gè)系統(tǒng),其中一個(gè)會(huì)引起混淆的新短語被阻止儲(chǔ)存。
發(fā)明的概要本發(fā)明已認(rèn)識(shí)到早期的系統(tǒng)太不靈活,因此本發(fā)明的目的之一是以保持靈活性又使混淆的可能性最小的方式來管理儲(chǔ)存的數(shù)據(jù)庫。現(xiàn)在相應(yīng)地,本發(fā)明以所說的斷然確定實(shí)際提出的語言項(xiàng)和所有已在編碼系統(tǒng)中的項(xiàng)之間的相似性為特征。其中,同一個(gè)別儲(chǔ)存項(xiàng)過度的相似性產(chǎn)生一應(yīng)急過程,該過程提供給所說用戶個(gè)人一個(gè)選擇。這個(gè)選擇就是要不忽略實(shí)際的語音項(xiàng),或要不以刪除該個(gè)別儲(chǔ)存項(xiàng)為代價(jià)代之插入實(shí)際提出的語音項(xiàng)。
本發(fā)明也涉及包括用于對(duì)多項(xiàng)編碼系統(tǒng)訓(xùn)練語音識(shí)別系統(tǒng)的裝置的電話設(shè)備。該電話設(shè)備還包括-為接收由用戶個(gè)人提出的語音項(xiàng)的輸入裝置;-在所說的編碼系統(tǒng)中對(duì)所說的被提出語音項(xiàng)進(jìn)行特征認(rèn)定裝置;-為在由所說的特征認(rèn)定裝置查出的特征控制下將所說的語音項(xiàng)插入到編碼系統(tǒng)中的插入裝置;-為重復(fù)這些步驟直到編碼系統(tǒng)的充分條件達(dá)到為止的重復(fù)裝置;-電話功能裝置,具有由所說的語音識(shí)別系統(tǒng)的輸出饋送的控制輸入裝置,以在非訓(xùn)練狀態(tài)下根據(jù)已接收到的語音項(xiàng)接收已識(shí)別的控制數(shù)據(jù)。
這種電話設(shè)備的特征為,所說的區(qū)別性認(rèn)定裝置被安排為確定實(shí)際給出項(xiàng)和所有已在編碼系統(tǒng)中的項(xiàng)之間的相似性。其中,與一個(gè)別儲(chǔ)存項(xiàng)的不適當(dāng)相似性產(chǎn)生一應(yīng)急過程,該過程提供給用戶個(gè)人一種,在忽略實(shí)際給出的語音項(xiàng)和在刪除該個(gè)別儲(chǔ)存項(xiàng)為大代價(jià)情況下交替插入實(shí)際給出的語音項(xiàng)之間的選擇。
自然而然,聲控電話機(jī)已尋求到在按鈕撥號(hào)不方便的狀況下的用法,如在照明不充分的條件下;或用戶具有僅一只手空間著,或甚至需要兩手空間的裝置。本發(fā)明的其他便利方面被列舉在相關(guān)的權(quán)利要求中。
附圖的簡(jiǎn)要說明本發(fā)明的這些和其他方面以及優(yōu)點(diǎn)將參考優(yōu)選實(shí)施例的詳細(xì)披露,特別是參考如下附圖再被詳細(xì)地討論。這些圖表示
圖1手提電話的方框圖;圖2本方法的流程圖;圖3A-3C例舉各種相似性配置。
優(yōu)選實(shí)施例的詳細(xì)說明圖1是手提電話的方框圖,一般如歐洲專利EP 494526B1中所披露的。該圖有包括接收路徑和發(fā)射路徑的裝置3,兩路徑都同天線轉(zhuǎn)換器30耦合。接受路徑包含級(jí)聯(lián)的可調(diào)諧射頻濾波器31、混頻器32、可轉(zhuǎn)換中頻濾波器33、檢波器34、時(shí)分多路存取(TDMA)控制器35、語音編碼譯碼器36和揚(yáng)聲器37。發(fā)射路徑包含級(jí)聯(lián)的傳聲器27、語音編碼譯碼器36、TDMA控制器35、調(diào)制器38、偏置振蕩器39、混頻器40和功率放大器41。微處理器42提供控制電話3的功能。各種通常特性,例如使得調(diào)諧到一具體頻率通道的綜合器43的控制,控制TDMA的控制器35;掃描小鍵盤22;以及控制直觀顯示器21,未在這里做更詳細(xì)地說明,這樣的功能本身在本專業(yè)中已相當(dāng)了解。包括非易失存儲(chǔ)部分45和易失存儲(chǔ)部分46的存儲(chǔ)器44被聯(lián)接到微處理器42。非易失存儲(chǔ)部分45包含一電話功能程序。此外,該裝置還包括電源引線48和49,它們與可更換電池組51互連,給該裝置供電。作為寓意,僅微處理器42的供電被示出。
圖2是根據(jù)本發(fā)明的方法的流程圖。在框50,裝置的訓(xùn)練過程被開始。例如,在手提電話中,這要求任何進(jìn)行的呼叫已被終止。接著,包含語音識(shí)別程序的訓(xùn)練應(yīng)用程序,例如通過一相關(guān)的控制按鈕(未在圖1中示出),被開始。語音識(shí)別可以為與用戶有關(guān)的或與用戶無關(guān)的應(yīng)用來訓(xùn)練。在框52,第一語音項(xiàng)被輸入,它可以代表單個(gè)詞或一串分開的詞;此外,一手工輸入被送入,它表示輸入項(xiàng)的含意,例如,這是否是縮位撥號(hào)的標(biāo)志。為簡(jiǎn)便起見,沒考慮用于將語音連接到特定電話功能方面的具體過程。在方框54中,語音項(xiàng)被分析和模型化。例如,裝置可以依次請(qǐng)求3個(gè)訓(xùn)練例。如果模型化發(fā)信號(hào)通知非O.K.屬性,則系統(tǒng)返回到方框52。如果模型化為O.K.,則在方框58語音項(xiàng)被同所有在裝置的語音數(shù)據(jù)庫中的適當(dāng)儲(chǔ)存項(xiàng)比較。這種比較可按照各種在本專業(yè)中已知的方法完成。這些方法如在下列文獻(xiàn)中所介紹美國專利序號(hào)07/860,199(PHD 89158)、美國專利序號(hào)08/425,305(PHD 91136)、美國專利序號(hào)08/312,495(PHD 91137),美國專利序號(hào)08/563,853(PHD91138)、美國專利序號(hào)08/203,105(PHD 93034)和美國專利序號(hào)08/587,190,全部提供給現(xiàn)在的受讓人。每次這樣的比較將產(chǎn)生一個(gè)相似性指示項(xiàng)。這個(gè)指示項(xiàng)可以是一標(biāo)量,或者是以多于一維定義的量。在方框60,這些相似性被評(píng)定,并且如果適用,一些臨界的相似性被選作進(jìn)一步考慮。在方框62,任何過度的相似性被估計(jì)某些太接近的相似性被判定為過度的。如果并非過度的,在方框74,新項(xiàng)有足夠的特征,并被插入到語音數(shù)據(jù)庫中。因此,根據(jù)相繼的接收有關(guān)的語音項(xiàng),語音項(xiàng)能夠被識(shí)別和轉(zhuǎn)換成基礎(chǔ)數(shù)據(jù)。在方框70,檢測(cè)這是否是最后一個(gè)被輸入的項(xiàng)。結(jié)束由擊鍵、時(shí)間推移或任何其他適當(dāng)?shù)姆椒▉斫o出信號(hào)。如果是這樣的話,則系統(tǒng)運(yùn)行到方框72,并終止訓(xùn)練。換言之,一個(gè)新的語音項(xiàng)能夠在方框52被輸入。
如果在方框62發(fā)現(xiàn)任何不適當(dāng)?shù)南嗨菩?,則系統(tǒng)運(yùn)行到方框64,并給用戶個(gè)人提供2個(gè)或更多個(gè)彼此非常相像的語音項(xiàng)間的選擇。在方框66,系統(tǒng)提供給用戶個(gè)人替換或不替換先前的項(xiàng)的選擇。如果替換,在方框68中舊的項(xiàng)被替換。如果不替換,在方框76新的項(xiàng)被忽略。在兩者的情況下,系統(tǒng)都進(jìn)行到方框70。
圖3A-3C例舉各種相似性配置。在所有的3個(gè)圖中,有2個(gè)先前語音項(xiàng)A和B。它們被表示在一虛擬空間中。該空間表示各種距離或相似性,大的距離意指小的相似性,反之亦然。在這里,為教化目的,經(jīng)常量化距離的復(fù)數(shù)用2維平面內(nèi)的幾何距離表示。新提出的語音項(xiàng)用C表示。在圖3A中,C和A或B之間的距離足以不出現(xiàn)過度的相似性。所以,C可以被插入。在圖3B中,C接近A,但離B足夠遠(yuǎn)。這意味著,用戶有在庫中或是選擇A,或是選擇C,但不能兩者都選擇。在圖3C中,在C和A、B兩者均很相似,所以用戶可以在或A和B都保持或兩者中擇一之間作選擇,而對(duì)C單獨(dú)進(jìn)行選擇。在某些情況下,當(dāng)用于撥號(hào)的數(shù)字也以語音的形式被輸入時(shí),刪除被儲(chǔ)存語音項(xiàng)的子系統(tǒng),如在手提電話應(yīng)用中的“0”到“9”的數(shù)字,可以被阻止。注意某個(gè)相似性可以依賴另一相似性,所以前者可以以一種隱含的方式被確定。
權(quán)利要求
1.一種用于對(duì)多項(xiàng)編碼系統(tǒng)的訓(xùn)練語音識(shí)別系統(tǒng)的方法,所說的方法包括下列步驟-由用戶個(gè)人給出一語音項(xiàng);-認(rèn)定所說的給出語音項(xiàng)在所說的編碼系統(tǒng)中的區(qū)別性;-在所查到的區(qū)別性的控制下,插入所說的提出的語音項(xiàng)到該編碼系統(tǒng)中;-重復(fù)這些步驟直到達(dá)到編碼系統(tǒng)的充分條件為止,該方法的特征為,所說的認(rèn)定確定在實(shí)際給出的語音項(xiàng)和所有已在編碼系統(tǒng)中的項(xiàng)之間的相似性,其中同一個(gè)別儲(chǔ)存項(xiàng)的過度相似性產(chǎn)生應(yīng)急過程,其提供給所說的用戶個(gè)人一種在忽略實(shí)際給出的語音項(xiàng)和在刪除該個(gè)別已儲(chǔ)存項(xiàng)為大代價(jià)情況下交替插入該實(shí)際提出的語音項(xiàng)之間的選擇。
2.按權(quán)利要求1中的一種方法,進(jìn)一步地限制所說的編碼系統(tǒng),其中所說的相似性是相對(duì)于所有的已儲(chǔ)存的項(xiàng)來確定的,但所說的刪除對(duì)于已儲(chǔ)存語音項(xiàng)的特定的一小部分是被阻止的。
3.一種用于對(duì)多項(xiàng)編碼系統(tǒng)的訓(xùn)練語音識(shí)別系統(tǒng)的裝置,包括-用于接收用戶個(gè)人給出的語音項(xiàng)的輸入裝置;-在所說的編碼系統(tǒng)中的所說的給出語音項(xiàng)的區(qū)別性認(rèn)定裝置;-用于在由所說的區(qū)別性認(rèn)定裝置發(fā)現(xiàn)的區(qū)別性的控制下將所說的提出語音項(xiàng)插入到編碼系統(tǒng)中的插入裝置;-用于重復(fù)這些步驟直到達(dá)到編碼系統(tǒng)的充分條件為止的重復(fù)控制裝置,-該裝置的特征為,所說的特征認(rèn)定裝置確定實(shí)際提出的語音項(xiàng)和所有已在編碼系統(tǒng)中的項(xiàng)之間的相似性,其中與一個(gè)別儲(chǔ)存項(xiàng)的過度相似產(chǎn)生一應(yīng)急過程,其提供給用戶個(gè)人在忽略實(shí)際給出的語音項(xiàng)和在刪除該個(gè)別儲(chǔ)存項(xiàng)為大代價(jià)情況下交替插入實(shí)際給出的項(xiàng)之間的選擇。
4.一種包含用于對(duì)多項(xiàng)編碼系統(tǒng)的訓(xùn)練語音識(shí)別系統(tǒng)的裝置的電話設(shè)備,包括-用于接收由用戶個(gè)人給出的語音項(xiàng)的輸入裝置;-在所說的編碼系統(tǒng)中的所說的給出語音項(xiàng)的區(qū)別性認(rèn)定裝置;-用于在由所說的區(qū)別性認(rèn)定裝置發(fā)現(xiàn)的區(qū)別性的控制下將所說的提出語音項(xiàng)插入到編碼系統(tǒng)中的插入裝置;-用于重復(fù)這些步驟直到達(dá)到編碼系統(tǒng)的充分條件為止的重復(fù)控制裝置,-電話功能裝置,具有由所說的語音識(shí)別系統(tǒng)的輸出饋送的控制輸入裝置,以在非訓(xùn)練狀態(tài)下根據(jù)已接收到的語音項(xiàng)接收已識(shí)別的控制數(shù)據(jù),該電話設(shè)備的特征為,所說的區(qū)別性認(rèn)定裝置被安排為確定實(shí)際給出的語音項(xiàng)和所有已在編碼系統(tǒng)中的項(xiàng)之間的相似性,其中與一個(gè)別儲(chǔ)存項(xiàng)的過度相似性產(chǎn)生一應(yīng)急過程,其提供給所說的用戶個(gè)人一種在忽略實(shí)際給出的語音項(xiàng)和在刪除該個(gè)別儲(chǔ)存項(xiàng)為大代價(jià)情況下交替插入實(shí)際給出的語音項(xiàng)之間的選擇。
全文摘要
為對(duì)多項(xiàng)編碼系統(tǒng)訓(xùn)練語音識(shí)別,執(zhí)行如下步驟:由用戶個(gè)人提出一語音項(xiàng),并認(rèn)定其在編碼系統(tǒng)中的特征。在查出的特征的控制下該語音項(xiàng)被插入該編碼系統(tǒng)中。這些步驟被重復(fù)直到達(dá)到編碼系統(tǒng)的充分條件為止。特別地,認(rèn)定確定在實(shí)際提出的語音項(xiàng)和所有已在該編碼系統(tǒng)中的項(xiàng)之間的相似性,其中與一個(gè)別儲(chǔ)存項(xiàng)的過度相似性產(chǎn)生一應(yīng)急過程。這意味著提供給用戶個(gè)人一種在忽略實(shí)際給出的語音項(xiàng)和在刪除該個(gè)別儲(chǔ)存項(xiàng)為大代價(jià)情況下交替插入實(shí)際給出的語音項(xiàng)之間的選擇。
文檔編號(hào)G10L15/06GK1216137SQ97193828
公開日1999年5月5日 申請(qǐng)日期1997年12月8日 優(yōu)先權(quán)日1996年12月24日
發(fā)明者B·吉爾豪蒙, G·米特 申請(qǐng)人:皇家菲利浦電子有限公司