專利名稱:用于語(yǔ)音識(shí)別的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于語(yǔ)音識(shí)別的方法,其中分析用戶的語(yǔ)音信號(hào),以識(shí)別包含在該語(yǔ)音信號(hào)中的語(yǔ)音信息,以及在測(cè)試過(guò)程內(nèi)把具有最大可能匹配的識(shí)別結(jié)果再次轉(zhuǎn)換成語(yǔ)音信號(hào)并輸出給用戶,以便驗(yàn)證和/或校正。本發(fā)明還涉及一種語(yǔ)音識(shí)別系統(tǒng),包括用于檢測(cè)用戶的語(yǔ)音信號(hào)的裝置,包括語(yǔ)音識(shí)別裝置,用于分析檢測(cè)的語(yǔ)音信號(hào),以識(shí)別在該語(yǔ)音信號(hào)中包含的語(yǔ)音信息和確定具有最大可能匹配的識(shí)別結(jié)果;以及語(yǔ)音輸出裝置,用于在測(cè)試過(guò)程內(nèi)再次把最大可能的識(shí)別結(jié)果轉(zhuǎn)換成語(yǔ)音信息并將其輸出給用戶,以便驗(yàn)證和/或校正。
背景技術(shù):
語(yǔ)音識(shí)別系統(tǒng)通常以這樣一種方式操作,即,首先在頻譜或者在時(shí)間上分析語(yǔ)音信號(hào),并且然后將分析過(guò)的語(yǔ)音信號(hào)在分段中與具有已知語(yǔ)音信息的可行信號(hào)序列的不同模型進(jìn)行比較。為此,語(yǔ)音輸出裝置通常包括不同的可行信號(hào)序列例如語(yǔ)言上有意義的詞的完備庫(kù)。每次通過(guò)將接收的語(yǔ)音信號(hào)與可行模型進(jìn)行比較,搜索最佳匹配語(yǔ)音信號(hào)的給定分段的模型,以獲得識(shí)別結(jié)果。通常,對(duì)于每個(gè)模型,計(jì)算屬于語(yǔ)音信號(hào)的相應(yīng)關(guān)聯(lián)分段的概率。對(duì)于語(yǔ)音信號(hào)涉及長(zhǎng)文本如一個(gè)或多個(gè)句子的情況,在分析和計(jì)算各個(gè)模型怎樣匹配語(yǔ)音信號(hào)的相關(guān)分段的概率期間,也考慮語(yǔ)法和/或語(yǔ)言規(guī)則。因而保證不僅長(zhǎng)語(yǔ)音信號(hào)的各個(gè)分段合適地匹配可用的相關(guān)模型,而且還考慮其中語(yǔ)音信號(hào)分段出現(xiàn)的語(yǔ)境(context),以獲得更切合實(shí)際的總體識(shí)別結(jié)果,從而減少錯(cuò)誤引用。然而,仍然存在口語(yǔ)文本的某些句子、句子的部分或者詞不被正確理解的殘留概率。
因此,對(duì)于大多數(shù)應(yīng)用,必需給予語(yǔ)音識(shí)別系統(tǒng)的用戶測(cè)試識(shí)別結(jié)果以及在需要時(shí)對(duì)其進(jìn)行校正的機(jī)會(huì)。這特別地在相關(guān)用戶未獲得關(guān)于入口項(xiàng)的直接反饋的情況下是必需的,例如,在其中用戶說(shuō)了隨后以書面文本的形式或者以另一機(jī)器可讀形式(以下簡(jiǎn)稱之為文本形式)存儲(chǔ)的長(zhǎng)文本的應(yīng)用中是必需的。這方面的典型實(shí)例是其中消息被首先轉(zhuǎn)換成文本形式的口授系統(tǒng)(dictation)或者應(yīng)用,隨后經(jīng)由通信網(wǎng)絡(luò)例如作為電子郵件、傳真或者SMS處理或者傳播該文本形式。這種類型的進(jìn)一步應(yīng)用涉及自動(dòng)翻譯系統(tǒng),其中語(yǔ)音信號(hào)首先被轉(zhuǎn)換成文本形式,此后根據(jù)該文本形式翻譯成不同語(yǔ)言,并最終把翻譯的文本再次轉(zhuǎn)換成語(yǔ)音信號(hào),以便借助于語(yǔ)音輸出裝置進(jìn)行輸出。在鏈接到PC的傳統(tǒng)口授系統(tǒng)中,可以在PC的顯示屏幕上以文本形式直接顯示識(shí)別結(jié)果,所以用戶可以借助于傳統(tǒng)編輯功能來(lái)校正該文本。然而,該校正方法不適合于不提供識(shí)別文本的可視顯示可能性的應(yīng)用,例如當(dāng)使用沒有合適顯示裝置的裝置(如“常規(guī)”電話機(jī))時(shí),或者不適合于針對(duì)部分視力者的應(yīng)用。在這種情況下,必需以用戶具有確認(rèn)或者校正識(shí)別結(jié)果可能性的方式經(jīng)由自動(dòng)語(yǔ)音輸出裝置(例如,文本-語(yǔ)音生成器)向用戶輸出相關(guān)識(shí)別結(jié)果,即以語(yǔ)音的形式輸出識(shí)別結(jié)果。
這種類型的方法例如被描述在US6219628B1中。該引用的文件提到了校正的若干可能性。根據(jù)一種可能性,為用戶重現(xiàn)整個(gè)識(shí)別消息,并且如果識(shí)別結(jié)果不對(duì)應(yīng)于實(shí)際說(shuō)出的消息,則用戶再一次說(shuō)出此消息。該方法不是非常令人滿意,特別是在識(shí)別錯(cuò)誤引用相對(duì)高的環(huán)境中,例如當(dāng)在存在顯著噪聲的情況下說(shuō)出文本時(shí),這是因?yàn)橛脩綦S后可能不得不多次說(shuō)出整個(gè)消息,以便最終獲得期望結(jié)果。根據(jù)第二版本,在語(yǔ)音信號(hào)的分析期間,對(duì)于語(yǔ)音信號(hào)的給定分段,自動(dòng)地確定相應(yīng)的確定性因子。接著,僅向用戶再次輸出具有低確定性因子的那些文本分段,即,錯(cuò)誤出現(xiàn)的概率最高的分段。然而,以此方式不能完全地檢驗(yàn)文本。根據(jù)第三版本,安排為按分段重現(xiàn)文本,例如按詞或者句子重現(xiàn)文本,并且在分段的每個(gè)結(jié)尾上插入等待間隔;然后用戶有機(jī)會(huì)單獨(dú)確認(rèn)或者拒絕每個(gè)單獨(dú)分段,例如通過(guò)詞“yes(是)”或“no(否)”來(lái)確認(rèn)或拒絕。如果用戶在暫停期間對(duì)于延長(zhǎng)的時(shí)段保持沉默,則該沉默被解釋為確認(rèn)。就用戶拒絕重現(xiàn)的分段而言,用戶有機(jī)會(huì)再一次說(shuō)出該整個(gè)分段。
顯然該第三版本已經(jīng)節(jié)省了用戶相當(dāng)大的時(shí)間量,并且比其中必須再次說(shuō)出整個(gè)文本的第一版本更舒適。但是,它仍然具有用戶可能又必需多次說(shuō)出將被校正的分段的缺陷,即,尤其在高錯(cuò)誤引用發(fā)生的困難識(shí)別的環(huán)境中。該方法例如當(dāng)在用戶對(duì)于文本的一部分特別異常發(fā)音(例如,由于用戶的方言)的情況下涉及其它問(wèn)題,語(yǔ)音識(shí)別系統(tǒng)沒有最佳可用模型,所以即使在若干次說(shuō)出該文本時(shí),也產(chǎn)生不正確的識(shí)別結(jié)果作為最大可能的識(shí)別結(jié)果。
發(fā)明內(nèi)容
本發(fā)明的目的是改善用于語(yǔ)音識(shí)別的方法和用于以這樣的方式所描述類型的語(yǔ)音識(shí)別的系統(tǒng),能夠以更快和更簡(jiǎn)單的對(duì)用戶也更加舒適的方式執(zhí)行對(duì)未被正確理解的語(yǔ)音信號(hào)的校正。
本發(fā)明的目的是這樣實(shí)現(xiàn)的在分析期間,直接生成多個(gè)可替代識(shí)別結(jié)果,即生成至少一個(gè)利用下一個(gè)最高概率與待識(shí)別的語(yǔ)音信號(hào)匹配的可替代識(shí)別結(jié)果。然后以用戶可以在提供的識(shí)別結(jié)果不正確的情況下中斷輸出的方式進(jìn)行測(cè)試過(guò)程期間的輸出。對(duì)于在中斷之前最后輸出的相關(guān)識(shí)別結(jié)果的分段,隨后以語(yǔ)音的形式再次自動(dòng)輸出可替代識(shí)別結(jié)果的對(duì)應(yīng)分段,以便用戶選擇。接著,根據(jù)用戶選擇的可替代識(shí)別結(jié)果之一的分段,校正所提供的識(shí)別結(jié)果中的相關(guān)分段。最后,對(duì)于待識(shí)別的語(yǔ)音信號(hào)的剩余的后續(xù)分段,繼續(xù)該測(cè)試過(guò)程。
該方法利用以下事實(shí),即語(yǔ)音識(shí)別裝置無(wú)論如何必需測(cè)試多個(gè)關(guān)于其概率的替代識(shí)別結(jié)果,以確定最大可能的識(shí)別結(jié)果。語(yǔ)音識(shí)別裝置現(xiàn)在生成n個(gè)最佳句子或詞假設(shè)曲線作為可替代識(shí)別結(jié)果并且在例如緩沖存儲(chǔ)器中存儲(chǔ)這些可替代識(shí)別結(jié)果,以用于進(jìn)一步測(cè)試過(guò)程,而不是在分析期間再次拒絕較小可能的結(jié)果。語(yǔ)音識(shí)別裝置所做的附加工作量?jī)H僅是非常小的。在測(cè)試過(guò)程期間,該附加信息可用來(lái)為相關(guān)用戶針對(duì)識(shí)別結(jié)果中的不正確識(shí)別分段提供替換物。由于各種替換物的概率在許多情況下僅僅略微不同,因此用戶將從替換物中發(fā)現(xiàn)正確識(shí)別結(jié)果通常具有相當(dāng)高的概率。用戶隨后可以簡(jiǎn)單地選擇該正確替換物,而不必再次說(shuō)出相關(guān)文本分段。這消除了為了校正而再次說(shuō)出的文本分段再次被不正確識(shí)別的風(fēng)險(xiǎn)。
測(cè)試過(guò)程期間識(shí)別結(jié)果的輸出可以以這樣的方式進(jìn)行,即每次在給定分段之后插入短暫的暫停,并且在這些暫停中例如通過(guò)詞“stop(停止)”或者“no(不)”檢查用戶是否拒絕識(shí)別結(jié)果的最后分段。然而,在識(shí)別結(jié)果輸出期間,最好永久地監(jiān)視用戶的話音活動(dòng)。只要用戶在輸出期間說(shuō)話,就中斷輸出。這意味著使用了所謂的“插嘴(barge-in)”方法。這樣,在輸出期間可以省去不必要的暫停,所以可以非??焖俚亟Y(jié)束測(cè)試過(guò)程。
為了在語(yǔ)音輸出期間在用戶發(fā)聲的情況下(這引起輸出中斷,即使未打算這樣做,但是因?yàn)槔鐚?duì)于其他人出現(xiàn)在房間中而預(yù)定如此)避免中斷識(shí)別結(jié)果的語(yǔ)音輸出,安排成用戶可以通過(guò)說(shuō)出給定命令比如“繼續(xù)”立即繼續(xù)輸出,而不必首先收聽各種可替代識(shí)別結(jié)果。
根據(jù)非常有益的版本,如果用戶不選擇可替代識(shí)別結(jié)果的任何分段,則向用戶輸出請(qǐng)求信號(hào),因?yàn)槔缢凶R(shí)別結(jié)果都是不正確的,因而請(qǐng)求用戶再次說(shuō)出相關(guān)分段,以便校正。
對(duì)于提供的可替代識(shí)別結(jié)果的選擇,具有各種可能性。
根據(jù)第一版本,識(shí)別結(jié)果被連續(xù)輸出,并且接著等候用戶是否確認(rèn)識(shí)別結(jié)果。在確認(rèn)情況下,可替代識(shí)別結(jié)果被接受為正確的。否則,輸出下一個(gè)可替代識(shí)別結(jié)果。
根據(jù)第二版本,所有可替代識(shí)別結(jié)果或可替代識(shí)別結(jié)果的相關(guān)分段被連續(xù)相繼輸出,并且用戶隨后選擇適當(dāng)?shù)淖R(shí)別結(jié)果。每個(gè)可替代識(shí)別結(jié)果最好隨后與指示符(例如數(shù)字或者字母)一起輸出,該指示符與相關(guān)識(shí)別結(jié)果相關(guān)聯(lián)。然后,用戶可以通過(guò)講出例如相關(guān)數(shù)字或字母簡(jiǎn)單地輸入指示符來(lái)執(zhí)行各種可替代識(shí)別結(jié)果的相關(guān)分段的選擇。
在再一個(gè)優(yōu)選版本中,將通信終端的鍵控信號(hào)例如電話機(jī)的DTMF信號(hào)與指示符相關(guān)聯(lián)。然后通過(guò)啟動(dòng)通信終端的有關(guān)按鍵來(lái)執(zhí)行一個(gè)分段的選擇。這提供了進(jìn)行識(shí)別結(jié)果的選擇而不使用中間的進(jìn)一步語(yǔ)音識(shí)別操作的優(yōu)點(diǎn),所以排除了由此引入的任何錯(cuò)誤。
作為選擇,插嘴方法還可用于可替代識(shí)別結(jié)果的輸出。這意味著在此情況下,輸出可替代識(shí)別結(jié)果的分段而不暫停,并且在輸出正確識(shí)別結(jié)果時(shí),用戶只說(shuō)“停止”或“是”或者類似用語(yǔ)。
在非常有利的版本中校正分段之后,針對(duì)其匹配待識(shí)別的相關(guān)語(yǔ)音信號(hào)的可能性,再次評(píng)價(jià)各種識(shí)別結(jié)果,也就是,同時(shí)考慮已校正的分段以及所有以前確認(rèn)或者校正的分段。然后,通過(guò)輸出在重新評(píng)價(jià)之后具有最高概率的識(shí)別結(jié)果的后續(xù)分段,繼續(xù)測(cè)試過(guò)程。作為根據(jù)待識(shí)別的語(yǔ)音信號(hào)的所有以前校正或者確認(rèn)的部分重新評(píng)價(jià)的結(jié)果,在語(yǔ)境相關(guān)概率分析中,仍然可以在測(cè)試過(guò)程期間永久地改善識(shí)別結(jié)果,從而降低在后續(xù)階段必需校正的概率。
當(dāng)長(zhǎng)文本或消息將被識(shí)別時(shí),各種可能性可用于完成測(cè)試過(guò)程。
根據(jù)一個(gè)版本,僅僅在用戶輸入整個(gè)文本之后,才執(zhí)行測(cè)試過(guò)程。例如,用戶借助于適當(dāng)?shù)拿钊纭癳nd(結(jié)束)”等可以用信號(hào)通知已完整說(shuō)出期望文本的事實(shí)。
根據(jù)再一個(gè)版本,在輸入整個(gè)文本的一部分之后,已執(zhí)行測(cè)試過(guò)程。這提供了文本的已驗(yàn)證或校正的部分能夠有可能地在應(yīng)用的其它組成部分中進(jìn)行進(jìn)一步處理或者存儲(chǔ)在存儲(chǔ)器中的優(yōu)點(diǎn),因而語(yǔ)音識(shí)別系統(tǒng)不會(huì)仍然被負(fù)重?fù)?dān)。例如,每當(dāng)?shù)竭_(dá)文本或語(yǔ)音信號(hào)部分的給定長(zhǎng)度和/或當(dāng)給定持續(xù)時(shí)間的語(yǔ)音暫停發(fā)生時(shí)和/或當(dāng)用戶借助于特定命令指定時(shí),對(duì)于文本的在前輸入部分都能夠執(zhí)行測(cè)試過(guò)程。
根據(jù)本發(fā)明的語(yǔ)音識(shí)別系統(tǒng)必須包括用于執(zhí)行根據(jù)本發(fā)明方法的語(yǔ)音識(shí)別裝置,其以這樣的方式被構(gòu)成在分析期間,它生成許多可替代識(shí)別結(jié)果并輸出或者存儲(chǔ)這樣的結(jié)果,對(duì)于以任何方式輸出的最大可能匹配識(shí)別結(jié)果,這樣的結(jié)果以下一個(gè)最高概率匹配待識(shí)別的語(yǔ)音信號(hào)。此外,語(yǔ)音識(shí)別系統(tǒng)需要用于在測(cè)試過(guò)程中由用戶中斷輸出的裝置以及對(duì)話控制裝置,對(duì)于在中斷之前最后輸出的相關(guān)識(shí)別結(jié)果的分段,該對(duì)話控制裝置自動(dòng)地輸出可替代識(shí)別結(jié)果的對(duì)應(yīng)分段。而且,該語(yǔ)音識(shí)別系統(tǒng)應(yīng)包括用于選擇可替代識(shí)別結(jié)果的提供分段之一的裝置,以及用于根據(jù)所選擇的可替代識(shí)別結(jié)果的對(duì)應(yīng)分段首先校正識(shí)別結(jié)果中相關(guān)分段的校正裝置。
至于可替代識(shí)別結(jié)果的選擇應(yīng)當(dāng)借助于通信終端的鍵控信號(hào)來(lái)進(jìn)行,該語(yǔ)音識(shí)別系統(tǒng)應(yīng)當(dāng)包括用于接收這樣的鍵控信號(hào)的適當(dāng)接口,用于識(shí)別并使用該鍵控信號(hào)來(lái)選擇一個(gè)提供分段。
借助于計(jì)算機(jī)上或者設(shè)備的語(yǔ)音控制器中的適當(dāng)軟件,基本上可以有利地實(shí)現(xiàn)根據(jù)本發(fā)明的語(yǔ)音識(shí)別系統(tǒng)。例如,語(yǔ)音識(shí)別裝置和對(duì)話控制裝置可以全部以軟件模塊的形式來(lái)實(shí)現(xiàn)。用于基于計(jì)算機(jī)可讀文本生成語(yǔ)音的裝置例如所謂的TTS變換器(文本-語(yǔ)音變換器)也可以借助于適當(dāng)軟件來(lái)實(shí)現(xiàn)。該系統(tǒng)僅僅需要包括用于語(yǔ)音輸入的設(shè)施,例如具有合適放大器的麥克風(fēng),和用于語(yǔ)音輸出的設(shè)施,例如具有適當(dāng)放大器的揚(yáng)聲器。
該語(yǔ)音識(shí)別系統(tǒng)隨后可以出現(xiàn)在能夠經(jīng)由通常的通信網(wǎng)到達(dá)的服務(wù)器中,該通常的通信網(wǎng)例如是電話網(wǎng)或者因特網(wǎng)。在此情況下,當(dāng)語(yǔ)音輸入裝置和語(yǔ)音輸出裝置即麥克風(fēng)、揚(yáng)聲器和相關(guān)放大器存在于經(jīng)由相關(guān)網(wǎng)絡(luò)連接到語(yǔ)音識(shí)別系統(tǒng)的服務(wù)器的用戶的通信終端中時(shí),就足夠了。而且,還可以是語(yǔ)音識(shí)別系統(tǒng)不實(shí)施于單一設(shè)備中,例如不在單一服務(wù)器上實(shí)現(xiàn)。系統(tǒng)的各個(gè)組成部分可以反而位于經(jīng)由合適的網(wǎng)絡(luò)互連的不同位置中。根據(jù)本發(fā)明的語(yǔ)音識(shí)別系統(tǒng)可以與非常特殊的應(yīng)用例如把通信系統(tǒng)中的話音郵件消息轉(zhuǎn)換成SMS消息或電子郵件的應(yīng)用相關(guān)聯(lián)。然而,該語(yǔ)音識(shí)別系統(tǒng)可以替代地用作多個(gè)不同應(yīng)用的服務(wù)系統(tǒng),由此對(duì)于多個(gè)應(yīng)用形成相關(guān)應(yīng)用的用戶的接口。
下面將根據(jù)附圖所示的實(shí)施例詳細(xì)描述本發(fā)明。其中圖1是根據(jù)本發(fā)明的語(yǔ)音識(shí)別系統(tǒng)的示意性方框圖;和圖2顯示了說(shuō)明校正方法的流程圖。
具體實(shí)施例方式
圖1所示的語(yǔ)音識(shí)別系統(tǒng)1的實(shí)施例包括經(jīng)由放大器3連接麥克風(fēng)2的輸入端14。語(yǔ)音識(shí)別系統(tǒng)1也包括經(jīng)由放大器5連接揚(yáng)聲器4的輸出端16,以輸出語(yǔ)音信號(hào)。麥克風(fēng)2和相關(guān)聯(lián)的放大器3以及揚(yáng)聲器4和相關(guān)聯(lián)的放大器5形成遠(yuǎn)離語(yǔ)音識(shí)別系統(tǒng)1并且經(jīng)由通信網(wǎng)如電話網(wǎng)與語(yǔ)音識(shí)別系統(tǒng)1通信的設(shè)備的一部分。
通信終端也包括鍵盤6,經(jīng)由該鍵盤能夠生成例如DTMF(雙音多頻)信號(hào)的聲信號(hào);這些信號(hào)也可以經(jīng)由語(yǔ)音信號(hào)信道被施加到語(yǔ)音識(shí)別系統(tǒng)的輸入端14上。
經(jīng)由放大器3從麥克風(fēng)2到達(dá)輸入端14上的語(yǔ)音信號(hào)S1被語(yǔ)音識(shí)別系統(tǒng)1轉(zhuǎn)換成可讀或者機(jī)器可讀文本,并且傳送到應(yīng)用15,例如,以便傳送SMS消息或者電子郵件,此應(yīng)用隨后相應(yīng)地處理和/或發(fā)送所述文本數(shù)據(jù)。
為此,在輸入側(cè)上,聲信號(hào)首先到達(dá)所謂的話音活動(dòng)檢測(cè)器(VAD)12,該VAD 12僅測(cè)試輸入信號(hào),以確定是否存在來(lái)自用戶的輸入語(yǔ)音信號(hào)SI或者該信號(hào)是否僅涉及背景噪聲等。語(yǔ)音信號(hào)SI隨后被施加給語(yǔ)音識(shí)別裝置7,該裝置7以常規(guī)方式分析語(yǔ)音信號(hào)SI,以識(shí)別其中包含的語(yǔ)音信息,并確定具有最大可能匹配的識(shí)別結(jié)果。
根據(jù)本發(fā)明,語(yǔ)音識(shí)別裝置7被以這樣的方式安排,即,除了利用最高概率匹配待識(shí)別的語(yǔ)音識(shí)別信號(hào)SI的識(shí)別結(jié)果之外,還生成利用下一個(gè)最高概率匹配待識(shí)別的語(yǔ)音識(shí)別信號(hào)SI的多個(gè)可替代識(shí)別結(jié)果。
以最高概率匹配待識(shí)別的語(yǔ)音信號(hào)SI的識(shí)別結(jié)果隨后以文本格式被施加給對(duì)話控制裝置10,該裝置10將此最大可能的識(shí)別結(jié)果傳送給文本-語(yǔ)音生成器(TTS生成器)9。可替代識(shí)別結(jié)果還可以直接施加給對(duì)話控制裝置10,在該對(duì)話控制裝置10中緩存這些可替代識(shí)別結(jié)果,或者可以通過(guò)語(yǔ)音識(shí)別裝置7將這些結(jié)果存儲(chǔ)在單獨(dú)的存儲(chǔ)器8中,無(wú)論何時(shí)可以由對(duì)話控制器10訪問(wèn)該單獨(dú)的存儲(chǔ)器。在用于用戶的驗(yàn)證和/或校正的測(cè)試過(guò)程中,利用TTS生成器9,隨后將最大可能的識(shí)別結(jié)果轉(zhuǎn)換成語(yǔ)音信號(hào),并且經(jīng)由放大器5和揚(yáng)聲器4以語(yǔ)音的形式進(jìn)行輸出。
下面將結(jié)合圖2詳細(xì)說(shuō)明此測(cè)試過(guò)程的確切執(zhí)行。
在步驟I中,該方法從上述的語(yǔ)音輸入開始。隨后,在該方法的步驟II中,確定各種可替代識(shí)別結(jié)果,并且在該方法的步驟III中最終評(píng)價(jià)這些識(shí)別結(jié)果,以確定哪些識(shí)別結(jié)果最佳匹配待識(shí)別的語(yǔ)音信號(hào)SI。接著,在該方法的步驟IV中,在分段中輸出最大可能的識(shí)別結(jié)果,所述分段中的輸出連續(xù)進(jìn)行,以致于用戶不能識(shí)別各個(gè)分段本身。各個(gè)分段可以是例如一個(gè)句子的各個(gè)詞或者詞假設(shè)曲線,或者是一個(gè)句子的部分或者詞假設(shè)曲線的部分。
在每個(gè)分段之后,在該方法的步驟V中測(cè)試用戶是否中斷輸出。這例如當(dāng)用戶在識(shí)別結(jié)果輸出期間相應(yīng)地表達(dá)他/她自己時(shí)是可能的。由VAD 12立即識(shí)別用戶的話音活動(dòng),該VAD 12通過(guò)相應(yīng)的控制信號(hào)SC停止TTS生成器9,并且同時(shí)將控制信號(hào)SC也施加給對(duì)話控制裝置10,以使后者也登記用戶對(duì)輸出的中斷。如果沒有中斷發(fā)生,則測(cè)試是否已經(jīng)到達(dá)輸入文本的末尾(方法的步驟VI)。如果是這種情況,則認(rèn)為識(shí)別結(jié)果已經(jīng)被用戶驗(yàn)證,并且把識(shí)別結(jié)果施加給應(yīng)用15(該方法的步驟VII)。如果還沒有到達(dá)文本的末尾,則繼續(xù)最大可能識(shí)別結(jié)果的輸出。
然而,如果在該方法的步驟V中登記了中斷,則在該方法的步驟VIII中首先確定涉及哪個(gè)不正確的分段。為了簡(jiǎn)化起見,在此假定這是已最后輸出的分段,即正好在用戶中斷輸出之前輸出的分段。
在可替代識(shí)別結(jié)果未被存儲(chǔ)在對(duì)話控制裝置10本身中的情況下,對(duì)話控制裝置10隨后訪問(wèn)緩存器8并確定對(duì)應(yīng)于在該方法的步驟VIII中確定的不正確分段的可替代識(shí)別結(jié)果的對(duì)應(yīng)分段。對(duì)應(yīng)分段或者可替代識(shí)別結(jié)果則與指示符(例如數(shù)字1至0)相關(guān)聯(lián)。
經(jīng)由TTS生成器9,可替代分段隨后可每次以語(yǔ)音形式與相關(guān)聯(lián)的指示符一起輸出給用戶(該方法的步驟IX)。
最后,在該方法的步驟X中,用戶可以通過(guò)在鍵盤6上按下對(duì)應(yīng)于指示符的按鍵,從可替代識(shí)別結(jié)果中選擇合適的分段。按壓該按鍵生成DTMF信號(hào),該DTMF信號(hào)經(jīng)由語(yǔ)音信道被傳送給語(yǔ)音識(shí)別系統(tǒng)1的輸入端14。該DTMF信號(hào)隨后由并行連接到語(yǔ)音識(shí)別裝置7的DTMF識(shí)別器13識(shí)別。DTMF識(shí)別器13將相應(yīng)的選擇信號(hào)SA輸出給對(duì)話控制裝置10,該信號(hào)觸發(fā)校正單元11,從而利用選擇的可替代識(shí)別結(jié)果的相關(guān)分段替代不正確識(shí)別的分段(該方法的步驟XI)。在識(shí)別DTMF信號(hào)時(shí),DTMF識(shí)別單元13還可以把一個(gè)信號(hào)施加給語(yǔ)音識(shí)別裝置7,以停用語(yǔ)音識(shí)別裝置7,從而它不會(huì)不必要地試圖分析DTMF信號(hào)。
在成功校正之后,在該方法的步驟XII中重新評(píng)價(jià)所有的識(shí)別結(jié)果,即重新評(píng)價(jià)最大可能識(shí)別結(jié)果和可替代識(shí)別結(jié)果。最好,在語(yǔ)音識(shí)別裝置7中執(zhí)行該重新評(píng)價(jià),該語(yǔ)音識(shí)別裝置7還能夠訪問(wèn)緩存器8或者從對(duì)話控制裝置10接收此目的所要求的數(shù)據(jù)。識(shí)別結(jié)果的此語(yǔ)境相關(guān)重新評(píng)價(jià)考慮所有以前驗(yàn)證或者校正的分段,表示考慮了以下事實(shí)對(duì)于相關(guān)分段,概率每次為100%,而對(duì)于所有可替代分段,概率為0%。因而,可以實(shí)現(xiàn)例如,根據(jù)已知分段,拒絕那些沒有該先驗(yàn)知識(shí)而具有高概率的假設(shè),而原始具有低概率的其它假設(shè)現(xiàn)在變成非??赡艿?。結(jié)果,顯著減少了后續(xù)分段輸出中的錯(cuò)誤引用,并因而加速了整個(gè)校正方法。此外或作為選擇,還可以考慮用戶發(fā)聲中可靠識(shí)別的部分,用于語(yǔ)言模型和/或聲音模型的自適應(yīng)。
要再次注意的是,所述的語(yǔ)音識(shí)別系統(tǒng)和方法的執(zhí)行僅涉及到本發(fā)明的特定實(shí)施例,并且本領(lǐng)域熟練技術(shù)人員將能夠以各種方式來(lái)修改語(yǔ)音識(shí)別系統(tǒng)和方法。例如,對(duì)于可替代識(shí)別結(jié)果中沒有一個(gè)分段被認(rèn)為是正確的情況,在方法中插入用戶有機(jī)會(huì)再次說(shuō)出該分段的步驟是非常可能的也是切合實(shí)際的。借助于語(yǔ)音輸入而不是借助于允許DTMF鍵盤6來(lái)執(zhí)行選擇也是可能的,或者鍵盤發(fā)射其它信號(hào),這些信號(hào)經(jīng)由單獨(dú)的數(shù)據(jù)信道被施加給語(yǔ)音識(shí)別系統(tǒng)1,該語(yǔ)音識(shí)別系統(tǒng)1隨后可以處理該信號(hào),這也是可能的。類似地,測(cè)試過(guò)程內(nèi)語(yǔ)音輸出的中斷還可以借助于特定DTMF信號(hào)等來(lái)進(jìn)行。
權(quán)利要求
1.一種用于語(yǔ)音識(shí)別的方法,其中分析用戶的語(yǔ)音信號(hào),以識(shí)別包含在該語(yǔ)音信號(hào)中的語(yǔ)音信息,以及在測(cè)試過(guò)程中將具有最大可能匹配的識(shí)別結(jié)果再次轉(zhuǎn)換成語(yǔ)音信號(hào)并輸出給用戶,以便驗(yàn)證和/或校正,其特征在于,在分析期間生成多個(gè)可替代識(shí)別結(jié)果,所述可替代識(shí)別結(jié)果以下一個(gè)最高概率匹配待識(shí)別的語(yǔ)音信號(hào),并且在測(cè)試過(guò)程中以這樣的方式進(jìn)行輸出,即在提供的識(shí)別結(jié)果不正確的情況下,用戶可以中斷輸出,并且對(duì)于在中斷之前最后已輸出的相關(guān)識(shí)別結(jié)果的分段,自動(dòng)輸出可替代識(shí)別結(jié)果的的對(duì)應(yīng)分段,以便用戶選擇,而且最后根據(jù)選擇的可替代識(shí)別結(jié)果的對(duì)應(yīng)分段,校正所提供的識(shí)別結(jié)果中的相關(guān)分段,此后對(duì)于待識(shí)別的語(yǔ)音信號(hào)的剩余的后續(xù)分段,繼續(xù)此測(cè)試過(guò)程。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在測(cè)試過(guò)程內(nèi)在識(shí)別結(jié)果的輸出期間,永久地監(jiān)視用戶的話音活動(dòng),并且響應(yīng)于用戶的語(yǔ)音信號(hào)的接收而中斷輸出。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,如果未選擇可替代識(shí)別結(jié)果的分段,則輸出請(qǐng)求用戶再次說(shuō)出相關(guān)分段的請(qǐng)求信號(hào),以便校正。
4.根據(jù)權(quán)利要求1至3之一所述的方法,其特征在于,將每個(gè)可替代識(shí)別結(jié)果與指示符相關(guān)聯(lián),并且在測(cè)試過(guò)程期間,可替代識(shí)別結(jié)果的相關(guān)分段每次與相關(guān)聯(lián)的指示符一起輸出,而且通過(guò)輸入指示符來(lái)進(jìn)行可替代識(shí)別結(jié)果的分段的選擇。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,指示符是數(shù)字或者字母。
6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,將指示符與通信終端的鍵控信號(hào)相關(guān)聯(lián),并且通過(guò)激活通信終端的相關(guān)按鍵,進(jìn)行可替代識(shí)別結(jié)果的分段的選擇。
7.根據(jù)權(quán)利要求1至6之一所述的方法,其特征在于,在校正測(cè)試過(guò)程內(nèi)輸出的分段之后,根據(jù)其匹配待識(shí)別的相關(guān)語(yǔ)音信號(hào)的概率,重新評(píng)價(jià)各個(gè)識(shí)別結(jié)果,即,同時(shí)考慮最后校正的分段和/或已經(jīng)在以前確認(rèn)或者校正的分段,此測(cè)試過(guò)程通過(guò)輸出在重新評(píng)價(jià)之后呈現(xiàn)最高概率的識(shí)別結(jié)果的下一分段而繼續(xù)。
8.根據(jù)權(quán)利要求1至7之一所述的方法,其特征在于,僅僅在用戶終止整個(gè)文本的輸入之后,才進(jìn)行測(cè)試過(guò)程。
9.根據(jù)權(quán)利要求1至7之一所述的方法,其特征在于,在用戶輸入完整文本的一部分之后,已進(jìn)行測(cè)試過(guò)程。
10.一種語(yǔ)音識(shí)別系統(tǒng)(1),包括用于檢測(cè)用戶的語(yǔ)音信號(hào)的裝置(2);語(yǔ)音識(shí)別裝置(7),用于分析檢測(cè)的語(yǔ)音信號(hào)(SI),以識(shí)別包含在該語(yǔ)音信號(hào)(SI)中的語(yǔ)音信息,并用于確定具有最大可能匹配的識(shí)別結(jié)果,和語(yǔ)音輸出裝置(9),用于在測(cè)試過(guò)程內(nèi)再次把最大可能的識(shí)別結(jié)果轉(zhuǎn)換成語(yǔ)音信息,并將其輸出給用戶,以便驗(yàn)證和/或校正,其特征在于,該語(yǔ)音識(shí)別裝置(7)被以這樣的方式構(gòu)造,即,在分析期間,它生成以下一個(gè)最高概率匹配待識(shí)別的語(yǔ)音信號(hào)(SI)的多個(gè)可替代識(shí)別結(jié)果,并且該語(yǔ)音識(shí)別系統(tǒng)(1)包括用于由用戶在測(cè)試過(guò)程期間中斷輸出的裝置(12),對(duì)話控制裝置(10),對(duì)于在中斷之前最后輸出的相關(guān)識(shí)別結(jié)果的分段,自動(dòng)地輸出可替代識(shí)別結(jié)果的各個(gè)對(duì)應(yīng)分段,用于選擇可替代識(shí)別結(jié)果的提供分段之一的裝置(6,13),和校正單元(11),用于根據(jù)所選擇的可替代識(shí)別結(jié)果的對(duì)應(yīng)分段校正下一個(gè)輸出的識(shí)別結(jié)果中的相關(guān)分段。
11.一種計(jì)算機(jī)程序產(chǎn)品,包括程序代碼裝置,用于當(dāng)在計(jì)算機(jī)上運(yùn)行該程序時(shí),執(zhí)行根據(jù)權(quán)利要求1至9之一所述的方法的所有步驟。
全文摘要
給出一種語(yǔ)音識(shí)別系統(tǒng)的描述,其中分析用戶的語(yǔ)音信號(hào),以識(shí)別包含在該語(yǔ)音信號(hào)中的語(yǔ)音信息。在測(cè)試過(guò)程中,具有最大可能匹配的識(shí)別結(jié)果被再次轉(zhuǎn)換成語(yǔ)音信號(hào),以便輸出給用戶,用于驗(yàn)證和校正。在分析期間,生成以下一個(gè)最高概率匹配待識(shí)別的語(yǔ)音信號(hào)的多個(gè)可替代識(shí)別結(jié)果。以這樣的方式執(zhí)行測(cè)試過(guò)程內(nèi)的輸出,即,在不正確識(shí)別結(jié)果輸出的情況下,用戶可以中斷輸出。在此情況下,對(duì)于在中斷之前最后輸出的相關(guān)識(shí)別結(jié)果的分段,自動(dòng)輸出可替代識(shí)別結(jié)果的各個(gè)對(duì)應(yīng)分段,以便用戶可以從中進(jìn)行選擇。隨后,根據(jù)所選的可替代識(shí)別結(jié)果的對(duì)應(yīng)分段,校正提供的識(shí)別結(jié)果中的相關(guān)分段。最后,對(duì)于待識(shí)別的語(yǔ)音信號(hào)的剩余的后續(xù)分段,繼續(xù)該測(cè)試過(guò)程。也描述了相應(yīng)的語(yǔ)音識(shí)別系統(tǒng)。
文檔編號(hào)G10L15/00GK1708783SQ200380102509
公開日2005年12月14日 申請(qǐng)日期2003年10月24日 優(yōu)先權(quán)日2002年11月2日
發(fā)明者A·庫(kù)伊曼 申請(qǐng)人:皇家飛利浦電子股份有限公司