專利名稱:一種根據(jù)輔助信息提高語音識別的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音撥號系統(tǒng),特別是涉及提高語音撥號系統(tǒng)的性能。
背景技術(shù):
語音撥號系統(tǒng)需要具有語音識別能力來處理語音命令。在移動電話上,用戶可以利用語音識別技術(shù)容易地?fù)艹鲆粋€電話號碼。例如,用戶可以通過說出移動電話通訊薄中一個聯(lián)系人名字的方式來啟動對該聯(lián)系人的呼叫。語音撥號系統(tǒng)通過語音識別技術(shù)處理這個名字并自動撥打正確的號碼。
為了讓語音撥號系統(tǒng)正確地識別出要撥打的電話號碼,用戶必須清楚地說出聯(lián)系人的名字。但是,例如聲音失真,發(fā)音錯誤,以及背景噪音都可能導(dǎo)致語音撥號系統(tǒng)錯誤理解期望的聯(lián)系人。因此,語音撥號系統(tǒng)可以實現(xiàn)一個系統(tǒng),在該系統(tǒng)中,給用戶的輸入語音分配一個置信度值。也就是說,該置信度值顯示了語音撥號系統(tǒng)所確定的期望聯(lián)系人假定的正確度。一個低的置信度值可能表明為了撥出正確的電話號碼必須采取進(jìn)一步的措施,例如,語音撥號系統(tǒng)可以要求用戶重新說一遍要撥打的聯(lián)系人的名字。當(dāng)然,在具體實施時,也可以用一個度量值來替代上述置信度值的作用,當(dāng)語音得到好的識別的時候,該度量值的值就低,而當(dāng)錯誤識別的可能性大時,該度量值的值就高。這可被稱為“不確定性”的度量。不確定性度量值取高值可能表明為了撥出正確的號碼必須采取進(jìn)一步的措施。雖然這兩種度量在表面上看是不同的,但它們在系統(tǒng)中起到相同的作用。
發(fā)明內(nèi)容
一種提高在遠(yuǎn)端位置的語音識別器識別結(jié)果的方法包括在相同的遠(yuǎn)端位置接收來自用戶的輸入語音。根據(jù)輸入語音決定一個或者一個以上候選匹配。在另一個實施方案中,所述一個或者一個以上候選匹配代表了所有可能候選的完整列表,并且根據(jù)輸入語音對這個列表進(jìn)行了排序。提示用戶輸入與上述輸入語音相關(guān)聯(lián)的輔助數(shù)據(jù)。從用戶接收輔助數(shù)據(jù)。根據(jù)輸入語音和輔助數(shù)據(jù),從所述一個或者一個以上候選匹配中選出一個候選。
在本發(fā)明的另一方面,一種提高電子設(shè)備上語音識別器識別結(jié)果的方法包括在該電子設(shè)備接收來自用戶的輸入語音。輸入的語音在語音識別器進(jìn)行解釋。根據(jù)輸入的語音,從多個候選記錄中確定了一個或者一個以上候選記錄。在另一個實施方案中,所述一個或者一個以上候選匹配代表了可能候選的完整列表,并且根據(jù)輸入的語音對這個列表進(jìn)行了排序。根據(jù)輸入的語音為所述一個或一個以上候選記錄生成置信度度量值。如果置信度度量值小于一個閾值,則提示用戶輸入與輸入語音相關(guān)的輔助數(shù)據(jù)。在該設(shè)備接收用戶的輔助數(shù)據(jù)。根據(jù)輸入語音和輔助數(shù)據(jù)從所述一個或者一個以上候選記錄中挑選出一個候選記錄。
在本發(fā)明的另一方面,一個基于輸入語音來撥打電話的系統(tǒng)包括一個語音識別器,該語音識別器接收遠(yuǎn)端用戶的輸入語音。一個數(shù)據(jù)庫包含多項記錄。一個控制器可以與語音識別器和數(shù)據(jù)庫通信,根據(jù)輸入語音從所述多項紀(jì)錄中選出一個或者一個以上候選記錄。該控制器根據(jù)輸入語音和所述一個或者一個以上候選記錄間的模糊度確定輔助數(shù)據(jù),并提示用戶輸入所述的輔助數(shù)據(jù)。
從下文的詳細(xì)描述中,可以清楚地看出本發(fā)明應(yīng)用的更多領(lǐng)域。需要指出的是,所述的詳細(xì)描述和具體例子,在說明本發(fā)明的優(yōu)選實施方案的同時,目的僅在于示意,而非對本發(fā)明范圍的限制。
本發(fā)明將通過詳細(xì)描述和附圖而得到更全面的了解,附圖中圖1為根據(jù)本發(fā)明的一種語音撥號系統(tǒng)的流程圖;圖2為根據(jù)本發(fā)明的一種移動設(shè)備的功能模塊圖;圖3為根據(jù)本發(fā)明的結(jié)合了基于歷史置信度度量值的語音撥號系統(tǒng)的流程圖;圖4為根據(jù)本發(fā)明的一種自動接線總機(jī)的功能模塊圖。
具體實施例方式
下文對有關(guān)優(yōu)選實施方案的描述本質(zhì)上僅屬示例,而無意構(gòu)成對本發(fā)明、本發(fā)明的應(yīng)用或者用途的限制。
如圖1所示,在步驟12,用戶說出一個聯(lián)系人的名字,從而觸發(fā)了語音撥號算法10。語音撥號系統(tǒng)10解釋輸入的聯(lián)系人名字,并將該輸入聯(lián)系人名字和通訊簿中的一個聯(lián)系人名字聯(lián)系起來。在步驟14,語音撥號系統(tǒng)10確定輸入聯(lián)系人名字的置信度度量值。在步驟16,語音撥號系統(tǒng)判斷該置信度度量值是否大于閾值。如果該置信度度量值大于閾值,則語音撥號系統(tǒng)10在步驟18按照該聯(lián)系人的名字得到他的電話號碼并呼出。例如,語音撥號系統(tǒng)10可以要求置信度度量值大于一個特定的閾值,比如60%。該閾值可以預(yù)先設(shè)定或者可被用戶修改。
如果上述置信度度量值小于所述閾值,但是不小于一個最小的閾值,那么,在步驟20,語音撥號系統(tǒng)10要求用戶確認(rèn)其口呼的聯(lián)系人名字是否被正確解釋。例如,語音撥號系統(tǒng)10可能會重復(fù)一遍該聯(lián)系人的名字,然后要求用戶回答“是”或者“否”。如果用戶回答“是”,則語音撥號系統(tǒng)10可以繼續(xù)上述的電話呼叫,并在步驟18撥出經(jīng)過確認(rèn)的聯(lián)系人名字對應(yīng)的電話號碼。如果用戶回答“否”,則在步驟22,語音撥號系統(tǒng)10要求用戶輸入輔助信息。作為替代,如果置信度度量值小于所述最小的閾值,則語音撥號系統(tǒng)10將忽略步驟20而直接轉(zhuǎn)到步驟22。系統(tǒng)10可能會要求用戶用鍵盤和/或語音命令來輸入輔助信息。例如,語音撥號系統(tǒng)10可能要求用戶口呼或者用鍵盤輸入要撥打聯(lián)系人的詞首字母。用戶也可以用其他的合適方式輸入輔助信息,比如鼠標(biāo)、觸控板,觸摸屏或者觸控筆。在另外一個實施方案中,語音撥號系統(tǒng)10可能會在要求輸入語音的步驟12之前要求用戶輸入鍵盤信息。在此實施方案下,語音撥號系統(tǒng)10可以根據(jù)鍵盤輸入限定的約束解釋輸入的語音。
在步驟24,語音撥號系統(tǒng)10處理輔助信息來確定正確的聯(lián)系人名字,然后運行到步驟18。如果該輔助信息仍不足以確定正確的聯(lián)系人名字,則需要采取進(jìn)一步的動作。例如,語音撥號系統(tǒng)10可以返回到步驟22以要求附加的輔助信息。在另外一個實施方案中,語音撥號系統(tǒng)10可以返回到步驟12并要求用戶重新說出要撥打的聯(lián)系人的名字。在另一個實施方案中,語音撥號系統(tǒng)10可能無法正確地確定輸入的語音。在此情況下,語音撥號系統(tǒng)10可以引導(dǎo)用戶到接線員那里獲得進(jìn)一步的幫助。例如,如果輔助信息不足以幫助確認(rèn)聯(lián)系人,則語音撥號系統(tǒng)10可以在步驟26增加一個計數(shù)器的值,并檢驗。如果該計數(shù)器的值沒有達(dá)到一個預(yù)先設(shè)定的定點,則語音撥號系統(tǒng)10可以繼續(xù)在步驟22要求輸入輔助信息。如果計數(shù)器的值已經(jīng)達(dá)到所述定點,則語音撥號系統(tǒng)10可以在步驟28將用戶引導(dǎo)到接線員。
語音撥號系統(tǒng)10根據(jù)在步驟12輸入的初始口呼聯(lián)系人名字的模糊度來決定要求什么樣的輔助信息。例如,如果要撥打的聯(lián)系人的名字是“JohnSmith”,并且在通訊簿中有多條紀(jì)錄都有詞首字母“J”和“S”,那么要求用戶輸入詞首字母可能不會有多大幫助。在這種情況下,語音撥號系統(tǒng)10可以要求用戶輸入其他的一些輔助信息,例如要撥打聯(lián)系人的姓的前三個字母。或者,語音撥號系統(tǒng)10可以要求用戶輸入要撥打的聯(lián)系人的電話區(qū)號。
語音撥號系統(tǒng)10在步驟22中所要求的輔助信息減到最少。也就是說,語音撥號系統(tǒng)將在保證足以確認(rèn)撥打聯(lián)系人名字的前提下要求盡可能少的信息輸入,然后繼續(xù)呼叫。如果步驟14確定的初始的置信度度量值是充分的,語音撥號系統(tǒng)將不會要求輔助信息。如果語音撥號系統(tǒng)10要求鍵盤輸入,則語音撥號系統(tǒng)10將要求把要撥打的聯(lián)系人從候選聯(lián)系人的前N個最佳(N-best)列表中區(qū)分出來所需要的最少數(shù)量的鍵盤按鍵操作。例如,如果要撥打的聯(lián)系人和相似紀(jì)錄的前三個字母都是“smi”,則語音撥號系統(tǒng)10可以要求用戶輸入期望聯(lián)系人名字的前四個字母。或者,語音撥號系統(tǒng)10可能僅僅要求用戶用鍵盤輸入聯(lián)系人的名字,并且隨著按鍵的輸入自動地選擇正確的聯(lián)系人。也就是說,如果用戶開始輸入輔助信息,只要足夠的信息被輸入,則語音撥號系統(tǒng)10會立刻自動選出正確的聯(lián)系人名字。語音撥號系統(tǒng)10也可以在用戶輸入先前要求的信息的時候動態(tài)地要求一些不同類型的輔助信息。
在另外一個實施方案中,語音撥號系統(tǒng)10可以對一些混淆的或者發(fā)音扭曲的輸入語音進(jìn)行補(bǔ)償。語音識別器可能在開始的時候不正確地識別輸入語音。當(dāng)用戶的輔助信息輸入以后,輸入的語音將被語音識別器重新解釋。語音識別器將在輔助信息限定的約束范圍內(nèi)解釋輸入語音。照此方式,語音撥號系統(tǒng)10也可以補(bǔ)償發(fā)音錯誤。
在另外一個實施方案中,語音撥號系統(tǒng)10可以補(bǔ)償用戶手工輸入中的拼寫錯誤和排字錯誤。例如,語音撥號系統(tǒng)10可以判斷出輔助信息與聯(lián)系人列表或數(shù)據(jù)庫中的信息不一致。因此,系統(tǒng)10可以包含一個算法來判斷輔助信息和數(shù)據(jù)庫或者聯(lián)系人列表之間的大約匹配度,并最終考慮輸入語音。
圖2所示的是帶有語音撥號系統(tǒng)10的移動設(shè)備30。所述移動設(shè)備可以是移動手機(jī),PDA,或者其他適當(dāng)設(shè)備。用戶口呼聯(lián)系人名字或者其他的音頻輸入到移動設(shè)備30的音頻輸入裝置32中。語音識別器34解釋所述音頻輸入??刂破?6把輸入語音通過識別器34識別后得到的結(jié)果和數(shù)據(jù)庫38中的聯(lián)系人名字進(jìn)行比較。控制器36根據(jù)比較結(jié)果產(chǎn)生一個置信度度量值。
如果置信度度量值大于一個閾值,則控制器36撥出該聯(lián)系人的電話號碼。如果該置信度度量值小于或者等于該閾值,則控制器36要求用戶進(jìn)行“是”或者“否”確認(rèn)。如果用戶沒有回答“是”,則控制器36確定向用戶要求什么樣的輔助信息。也就是說,控制器36根據(jù)所解釋出的聯(lián)系人名字和期望的聯(lián)系人名字之間可能出現(xiàn)的模糊度,確定希望獲得的輔助信息。輔助信息包括(但不僅限于),拼寫、詞首字母和電話區(qū)號。期望的輔助信息可以通過顯示屏40以視覺方式傳遞給用戶,或者通過音頻輸出裝置或者揚聲器42告訴用戶。用戶可以通過口頭的方式將輔助信息輸入到音頻輸入裝置32中,或者通過鍵盤44以手動方式鍵入輔助信息。控制器36根據(jù)所述輔助信息確定正確的聯(lián)系人名字。作為一種替代方式,控制器36也可以省略(forego)“是”或“否”要求確認(rèn)的步驟。例如,如果置信度度量值大于第二個閾值,控制器36可以確定一個特定聯(lián)系人名字是正確的,從而自動撥打該聯(lián)系人相應(yīng)的電話號碼。
除了聯(lián)系人的名字,用戶也可以把本發(fā)明應(yīng)用于其他的一些應(yīng)用。在一個實施方案中,用戶可以請求導(dǎo)航信息。用戶將一個位置或者地方的名字輸入到音頻輸入裝置32中。語音識別器34解釋所述音頻輸入??刂破?6把識別器34所解釋的音頻輸入和數(shù)據(jù)庫38中的位置列表進(jìn)行比較。控制器36可以要求與導(dǎo)航相關(guān)的輔助信息。比如,如果用戶輸入一個城市名稱,那么在發(fā)現(xiàn)不止一個州有該城市名稱的情況下,則控制器36要求輸入該城市所屬州的簡稱。在另外一個實施方案中,用戶可以通過向音頻輸入裝置32口呼一個公司的名稱,請求該公司的信息??刂破?6可能會要求輸入諸如公司股票簡稱之類的輔助信息。在又另一個實施方案中,用戶也可以從一個特定的來源處請求電子郵件或者語音郵件。
一個基于歷史記錄的語音撥號系統(tǒng)50可能包含如圖3所示的基于歷史紀(jì)錄的置信度度量值。一些特定的名字和其它口呼輸入被錯誤識別發(fā)生的頻率可能比其他的輸入更頻繁。而且,有一些特定呼叫者或者說話者的語音可能更難以被識別。例如,在步驟52用戶對一個移動電話或者其它裝置口呼一個聯(lián)系人的名字,由語音識別器進(jìn)行解釋;在步驟54,基于歷史記錄的語音撥號系統(tǒng)50判斷N-best列表中的聯(lián)系人名字是否存在以前曾被錯誤識別的情況。例如,基于歷史記錄的語音撥號系統(tǒng)50可能包含一個歷史記錄模塊,在該模塊中,保存了所有曾經(jīng)被錯誤識別過的名字。另外一種情形是,上述歷史記錄模塊可以包含了一些已知的難于識別的名字,比如外國的名字或者具有不尋常發(fā)音的名字。也可以說,一些特殊的名字或者單詞被硬編碼在系統(tǒng)50中,以標(biāo)明它們?nèi)菀妆换煜?。例如,名字“Ryan”和“Brian”可以自動地被識別為容易相互混淆的名字。如果歷史記錄模塊沒有指明列表中任何一個名字曾經(jīng)被誤識過或者是已知的識別困難的名字,則基于歷史記錄的語音撥號系統(tǒng)50可以在步驟56進(jìn)入語音撥號系統(tǒng)。否則,基于歷史記錄的語音撥號系統(tǒng)50繼續(xù)執(zhí)行步驟58。
在步驟58,一個置信度估計模塊在部分程度上根據(jù)歷史記錄模塊跟蹤的名字來確定基于歷史的置信度度量值。上述基于歷史的置信度度量值是基于以前的識別過程中被錯誤識別的名字。也可以說,如果n-best列表中包含了任何識別困難或者以前曾經(jīng)被錯誤識別的名字,則基于歷史紀(jì)錄的語音撥號系統(tǒng)50就假定上述輸入的語音可能已經(jīng)被錯誤地識別了。所以,典型的置信度度量可能已經(jīng)不能滿足要求,置信度的閾值可能做出相應(yīng)的調(diào)整。通過這樣方式的處理,基于歷史記錄的語音撥號系統(tǒng)50保證了潛在的可能被錯誤識別的輸入語音都經(jīng)過輔助信息的確認(rèn)。在步驟60,進(jìn)一步的動作被用來檢驗輸入的語音。例如,在N-BEST列表中的識別困難的名字可以自動要求輔助信息的確認(rèn)。
在另外一個實施方案中,基于歷史記錄的語音撥號系統(tǒng)50可能不要求確定置信度度量值。也就是說,基于歷史紀(jì)錄的語音撥號系統(tǒng)50可以省略步驟58,而是采用另外的標(biāo)準(zhǔn)來補(bǔ)償識別困難的名字。例如,如果在N-BEST列表中存在識別困難的名字,則基于歷史記錄的語音撥號系統(tǒng)50可以自動要求輸入輔助信息,而不管識別結(jié)果置信度度量值的大小。
現(xiàn)在參見圖4,語音撥號服務(wù)或者目錄70可以采用本發(fā)明來幫助那些說話不容易被識別的呼叫者撥打電話。用戶可能撥打自動接線總機(jī),例如專用交換機(jī)(PBX)交換系統(tǒng)72。用戶可以通過電話基礎(chǔ)網(wǎng)絡(luò)74來訪問PBX 72。PBX72通過一條或者多條外線76和電話網(wǎng)路74連接。外部電話機(jī)78可以通過一個唯一的電話號碼到達(dá)。此外,一個或者多個內(nèi)部電話機(jī)80可以通過電話線82連接到PBX72??梢苑峙浣o每個電話機(jī)80一個唯一的分機(jī)號碼。一個語音撥號服務(wù)器84和PBX72相連,使呼叫者可以通過語音撥號接到內(nèi)部的電話機(jī)80或者外部的電話機(jī)78。也就是說,呼叫者可以從外部電話機(jī)78呼叫內(nèi)部電話機(jī)80,也可以從內(nèi)部電話機(jī)80呼叫外部電話機(jī)78,并且/或者內(nèi)部電話機(jī)80的呼叫者可以呼叫內(nèi)部其他的電話機(jī)80。在另外一個實施方案中,外部呼叫者可以聯(lián)系PBX72或者類似的接線總機(jī)來呼叫其他的外部電話機(jī)。一個關(guān)于語音撥號服務(wù)器的具體例子可以參見提交日期為1996年9月30的專利申請?zhí)枮?930336的美國專利申請,該專利申請的全部內(nèi)容被引用于此。
一個外部電話機(jī)78或者內(nèi)部電話機(jī)80的用戶通過PBX72連接到語音撥號服務(wù)器84。語音撥號服務(wù)器84接收用戶的語音輸入。例如,一個用戶可能請求連接到一個特定聯(lián)系人。該語音撥號服務(wù)器84包含一個語音識別器86。語音識別器86解釋來自用戶的輸入請求。語音撥號服務(wù)器從聯(lián)系人數(shù)據(jù)庫88中確定候選聯(lián)系人的一個N-best列表。該N-best列表中的每個可能的聯(lián)系人具有一個置信度度量值。語音撥號服務(wù)器可以通過PBX 72要求用戶輸入輔助信息來確定正確的聯(lián)系人。語音撥號服務(wù)器84除了包含通用的與說話人無關(guān)的語音模型外,還包含多個為一些說話人特征,比如說話人性別和口音,所特有的語音模型。所述語音模型可以在這類說話人語音的基礎(chǔ)上加以配置。語音撥號服務(wù)器84可以基于語音模型90的信息改變置信度度量值。語音模型90的輸出結(jié)果可以動態(tài)地和用戶提供的輔助信息結(jié)合以更有效地確定出正確的聯(lián)系人。此外,語音撥號服務(wù)器84可以包含多個針對不同用戶的語音模型。語音撥號服務(wù)器84可以根據(jù)輸入的語音為特定的用戶動態(tài)地選擇語音模型。一種替代方式是,語音撥號服務(wù)器84可以基于一個特定用戶先前的呼叫為其選擇一個語音模型,例如,語音撥號服務(wù)器84可以包含針對不同口音和方言的語音模型。
如圖4所示,語音撥號服務(wù)70可以被用來從一個大的可能聯(lián)系人列表中確定一個聯(lián)系人。當(dāng)一個移動電話或者其他設(shè)備本身駐留的聯(lián)系人列表長度可能受到限制的情況下,目錄或者交換系統(tǒng)可以負(fù)責(zé)長度不確定的聯(lián)系人列表的存儲。因而,語音撥號系統(tǒng)70根據(jù)用戶的輸入語音確定的N-best列表可能非常大。本發(fā)明的輔助信息就可以用來快速地縮小候選聯(lián)系人的列表,從而使語音撥號系統(tǒng)70可以確定出正確的聯(lián)系人。需要指出的是,類似的語音撥號系統(tǒng)可以用來把各種類型電話設(shè)備的用戶連接到期望的聯(lián)系人。例如,一個移動電話用戶可以連接到位于遠(yuǎn)端的語音撥號系統(tǒng)或者服務(wù)器,以便利用本發(fā)明來聯(lián)系其他的用戶。
上述對本發(fā)明的描述本質(zhì)上僅屬示例,因此并未偏離本發(fā)明要旨的變化仍應(yīng)在本發(fā)明的范圍之中。這樣的變化不應(yīng)當(dāng)被視為對本發(fā)明的精髓和范圍的偏離。
(按照條約第19條的修改)1.一種提高語音識別器的識別結(jié)果的方法,包括如下步驟接收來自用戶的輸入語音;根據(jù)所述輸入語音確定一個或者一個以上候選匹配;通過評估在所述確定一個或者一個以上候選匹配的步驟后存在的模糊度,產(chǎn)生要求用戶輸入輔助數(shù)據(jù)的提示,并且裁剪所述提示,引導(dǎo)用戶提供旨在消除所述模糊度的附加信息;接收用戶響應(yīng)所述提示而輸入的輔助數(shù)據(jù);根據(jù)所述輸入語音和所述輔助數(shù)據(jù)從所述的一個或者一個以上候選的匹配中選出一個匹配。
2.如權(quán)利要求1所述的方法,其特征在于包括在語音識別器中對所述的輸入語音進(jìn)行解釋。
3.如權(quán)利要求1所述的方法,其特征在于包括根據(jù)輸入語音為所述的一個或者一個以上候選的匹配產(chǎn)生置信度度量值。
4.如權(quán)利要求3所述的方法,其特征在于,如果所述的置信度度量值小于閾值,則提示用戶輸入所述的輔助數(shù)據(jù)。
5.如權(quán)利要求1所述的方法,其特征在于,所述的輔助數(shù)據(jù)是組成上述輸入語音的字母數(shù)字字符集的一個子集。
6.如權(quán)利要求1所述的方法,其特征在于,所述的輔助數(shù)據(jù)是區(qū)域號碼,位置,或者一個名字的詞首字母中的至少一個。
7.如權(quán)利要求1所述的方法,其特征在于,所述接收輔助數(shù)據(jù)的步驟包括通過口語和手寫輸入中的至少一種方式接收所述輔助數(shù)據(jù)。
8.如權(quán)利要求7所述的方法,其特征在于,所述手寫輸入包括來自鍵盤,觸控板,觸摸屏和觸控筆中的至少一個的輸入。
9.如權(quán)利要求1所述的方法,其特征在于包括提示用戶對所選擇的候選匹配進(jìn)行確認(rèn)的步驟。
10.如權(quán)利要求1所述的方法,其特征在于包括在用戶和與所述一個或一個以上候選匹配中的所述一個匹配關(guān)聯(lián)的實體之間建立通訊的步驟。
11.如權(quán)利要求10所述的方法,其特征在于,所述建立通訊包括發(fā)起電話呼叫,電子郵件消息,語音郵件消息和文本消息中的至少一個。
12.如權(quán)利要求10所述的方法,其特征在于,所述的實體是公司,政府
權(quán)利要求
1.一種提高位于遠(yuǎn)端位置的語音識別器的識別結(jié)果的方法,包括如下步驟在所述遠(yuǎn)端位置接收來自用戶的輸入語音;根據(jù)所述輸入語音確定一個或者一個以上候選的匹配;提示用戶輸入與上述輸入語音相關(guān)的輔助數(shù)據(jù);接收來自用戶的輔助數(shù)據(jù);根據(jù)所述輸入語音和所述輔助數(shù)據(jù)從所述的一個或者一個以上候選的匹配中選出一個匹配。
2.如權(quán)利要求1所述的方法,其特征在于包括在語音識別器中對所述的輸入語音進(jìn)行解釋。
3.如權(quán)利要求1所述的方法,其特征在于包括根據(jù)輸入語音為所述的一個或者一個以上候選的匹配產(chǎn)生置信度度量值。
4.如權(quán)利要求3所述的方法,其特征在于,如果所述的置信度度量值小于閾值,則提示用戶輸入所述的輔助數(shù)據(jù)。
5.如權(quán)利要求1所述的方法,其特征在于,所述的輔助數(shù)據(jù)是組成上述輸入語音的字母數(shù)字字符集的一個子集。
6.如權(quán)利要求1所述的方法,其特征在于,所述的輔助數(shù)據(jù)是區(qū)域號碼,位置,或者一個名字的詞首字母中的至少一個。
7.如權(quán)利要求1所述的方法,其特征在于,所述接收輔助數(shù)據(jù)的步驟包括通過口語和手寫輸入中的至少一種方式接收所述輔助數(shù)據(jù)。
8.如權(quán)利要求7所述的方法,其特征在于,所述手寫輸入包括來自鍵盤,觸控板,觸摸屏和觸控筆中的至少一個的輸入。
9.如權(quán)利要求1所述的方法,其特征在于包括提示用戶對所選擇的候選匹配進(jìn)行確認(rèn)的步驟。
10.如權(quán)利要求1所述的方法,其特征在于包括在用戶和與所述一個或一個以上候選匹配中的所述一個匹配關(guān)聯(lián)的實體之間建立通訊的步驟。
11.如權(quán)利要求10所述的方法,其特征在于,所述建立通訊包括發(fā)起電話呼叫,電子郵件消息,語音郵件消息和文本消息中的至少一個。
12.如權(quán)利要求10所述的方法,其特征在于,所述的實體是公司,政府機(jī)構(gòu),一個或者多個人,位置和服務(wù)中的至少一個。
13.如權(quán)利要求1所述的方法,其特征在于,所述的輔助數(shù)據(jù)和所述輸入語音的模糊度有關(guān)。
14.如權(quán)利要求3所述的方法,其特征在于包括根據(jù)針對所述用戶的語音模型修改置信度度量值的步驟。
15.如權(quán)利要求1所述的方法,其特征在于,確定一個或者一個以上候選匹配的步驟包括根據(jù)所述一個或者一個以上候選匹配的識別歷史記錄來確定一個或者一個以上候選匹配的步驟,其中所述的識別歷史記錄表明了在所述的一個或者一個以上候選匹配中,是否存在語音識別器難于解釋的匹配。
16.如權(quán)利要求15所述的方法,其特征在于還包括基于輸入語音及識別歷史記錄來為所述一個或者一個以上候選匹配產(chǎn)生置信度度量值;如果上述的置信度度量值小于閾值,提示用戶輸入輔助信息。
17.如權(quán)利要求16所述的方法,其特征在于還包括基于所述的識別歷史記錄來調(diào)整所述置信度度量值和所述閾值中的至少一個的步驟。
18.如權(quán)利要求1所述的方法,其特征在于,所述的遠(yuǎn)端位置為一個目錄協(xié)助服務(wù)。
19.如權(quán)利要求1所述的方法,其特征在于還包括根據(jù)從用戶接收的輔助信息中的排字錯誤和拼寫錯誤中的至少一個,在輔助數(shù)據(jù)和所述一個或者一個以上候選匹配中確定一個近似符合的匹配。
20.如權(quán)利要求1所述的方法,其特征在于還包括根據(jù)輔助數(shù)據(jù)和輸入語音中的發(fā)音錯誤中的至少一個,在輸入語音和所述一個或者一個以上候選匹配中確定一個近似符合的匹配。
21.如權(quán)利要求2所述的方法,其特征在于,所述的語音識別器在部分程度上根據(jù)所述輔助數(shù)據(jù)來解釋輸入的語音。
22.如權(quán)利要求1所述的方法,其特征在于還包括向用戶提供和所述一個或者一個以上候選匹配中的所述一個匹配關(guān)聯(lián)的實體的有關(guān)信息。
23.如權(quán)利要求22所述的方法,其特征在于,所述的實體是公司,政府機(jī)構(gòu),一個或者多個人,位置和服務(wù)中的至少一個。
24.如權(quán)利要求22所述的方法,其特征在于,所述的信息包括與所述實體有關(guān)的導(dǎo)航信息,目錄協(xié)助信息,公司信息和聯(lián)系人信息中的至少一個。
25.如權(quán)利要求1所述的方法,其特征在于還包括提示用戶輸入信息,以便發(fā)送到與所述一個或者一個以上候選匹配中的所述一個匹配關(guān)聯(lián)的實體。
26.如權(quán)利要求25所述的方法,其特征在于,所述的實體是公司,政府機(jī)構(gòu),一個或者多個人,位置,和服務(wù)中的至少一個。
27.如權(quán)利要求1所述的方法,其特征在于,所述的輸入語音是所述一個或者一個以上候選匹配的子集。
28.一種提高位于電子設(shè)備中的語音識別器的識別結(jié)果的方法,包括如下步驟在上述設(shè)備中接收來自用戶的輔助信息;根據(jù)所述的輔助信息確定一個或者一個以上候選匹配;提示用戶輸入與所述輔助數(shù)據(jù)相關(guān)的輸入語音;接收來自用戶的輸入語音;根據(jù)所述的輸入語音和輔助數(shù)據(jù)從所述的一個或者一個以上候選匹配中選出一個匹配。
29.如權(quán)利要求28所述的方法,其特征在于,所述的輔助數(shù)據(jù)是組成所述輸入語音的字母數(shù)字字符集的子集。
30.如權(quán)利要求28所述的方法,其特征在于,所述的輔助數(shù)據(jù)是區(qū)域號碼,位置,以及一個名字的詞首字母中的至少一個。
31.如權(quán)利要求28所述的方法,其特征在于,接收所述輔助數(shù)據(jù)的步驟包括通過口語輸入和手工輸入的至少一個方式接收所述輔助數(shù)據(jù)。
32.如權(quán)利要求31所述的方法,其特征在于,所述的手工輸入包括來自鍵盤,觸控板,觸摸屏和觸控筆中的至少一個的輸入。
33.如權(quán)利要求28所述的方法,其特征在于,還包括在語音識別器中解釋輸入語音的步驟,其中所述語音識別器根據(jù)所述的輔助數(shù)據(jù)來識別所述的輸入語音。
34.如權(quán)利要求33所述的方法,其特征在于,所述的語音識別器在部分程度上根據(jù)所述的輔助數(shù)據(jù)來解釋所述的輸入語音。
35一種提高位于電子設(shè)備中的語音識別器的識別結(jié)果的方法,包括如下步驟在所述設(shè)備中接收來自用戶的輸入語音;根據(jù)上述的輸入語音從多個候選記錄中確定一個或者一個以上候選記錄;在所述設(shè)備中接收來自用戶的輔助數(shù)據(jù);根據(jù)所述的輸入語音和輔助數(shù)據(jù)從所述的一個或者一個以上候選記錄中選出一個記錄。
36.如權(quán)利要求35所述的方法,其特征在于,還包括在語音識別器中解釋所述輸入語音的步驟。
37.如權(quán)利要求35所述的方法,其特征在于,該方法還包括根據(jù)所述的輸入語音為所述一個或者一個以上候選記錄生成置信度度量值。
38.如權(quán)利要求37所述的方法,其特征在于,如果所述的置信度度量值低于閾值,提示用戶輸入所述的輔助數(shù)據(jù)。
39.如權(quán)利要求35所述的方法,其特征在于,所述的多個候選記錄在所述設(shè)備上組成一個數(shù)據(jù)庫。
40.如權(quán)利要求35所述的方法,其特征在于,所述的輔助數(shù)據(jù)是組成所述輸入語音的字母數(shù)字字符集的一個子集。
41.如權(quán)利要求35所述的方法,其特征在于,所述的輔助數(shù)據(jù)是區(qū)域號碼,位置,一個名字的詞首字母中的至少一個。
42.如權(quán)利要求35所述的方法,其特征在于,所述的設(shè)備是移動電話和個人數(shù)據(jù)助理中的至少一個。
43.如權(quán)利要求35所述的方法,其特征在于,該方法還包括提示用戶對選擇的候選記錄進(jìn)行確認(rèn)的步驟。
44.如權(quán)利要求35所述的方法,其特征在于,接收所述輔助數(shù)據(jù)的步驟包括通過口語輸入和手寫輸入中的至少一種方式接收所述輔助數(shù)據(jù)。
45.如權(quán)利要求44所述的方法,其特征在于,手寫輸入包括從鍵盤,觸控板,觸摸屏和觸控筆中的至少一個進(jìn)行的輸入。
46.如權(quán)利要求35所述的方法,其特征在于,還包括提示用戶輸入信息,以便發(fā)送到與所述一個或者一個以上候選匹配中的所述一個匹配關(guān)聯(lián)的實體。
47.如權(quán)利要求35所述的方法,其特征在于,還包括在用戶和與所述的一個或者一個以上候選匹配中的所述一個匹配關(guān)聯(lián)的實體之間建立通訊的步驟。
48.如權(quán)利要求47所述的方法,其特征在于,所述建立的通訊包括發(fā)起電話呼叫,電子郵件消息,語音郵件消息和文本消息中的至少一個。
49.如權(quán)利要求35所述的方法,其特征在于,還包括向用戶提供和所述一個或者一個以上候選匹配中的所述一個匹配關(guān)聯(lián)的實體的有關(guān)信息。
50.如權(quán)利要求49所述的方法,其特征在于,所述的實體是公司,政府機(jī)構(gòu),一個或者多個人,位置和服務(wù)中的至少一個。
51.如權(quán)利要求49所述的方法,其特征在于,所述的信息包括與所述實體有關(guān)的導(dǎo)航信息,目錄協(xié)助信息,公司信息和聯(lián)系人信息中的至少一個。
52.如權(quán)利要求47所述的方法,其特征在于,所述的實體是公司,政府機(jī)構(gòu),一個或者多個人,位置和服務(wù)中的至少一個。
53.如權(quán)利要求46所述的方法,其特征在于,所述的實體是公司,政府機(jī)構(gòu),一個或者多個人,位置和服務(wù)中的至少一個。
54.一種根據(jù)輸入語音來引導(dǎo)電話呼叫的系統(tǒng),包括從遠(yuǎn)端用戶接收輸入語音的語音識別器;包含多個記錄的數(shù)據(jù)庫;一個控制器,與語音識別器和數(shù)據(jù)庫通訊,以便根據(jù)上述的輸入語音從數(shù)據(jù)庫的多個記錄中選出一個或者一個以上候選記錄,其中控制器根據(jù)輸入語音和所述一個或者一個以上候選記錄間的模糊度確定輔助數(shù)據(jù),并提示所述用戶輸入所述的輔助數(shù)據(jù)。
55.如權(quán)利要求54所述的系統(tǒng),其特征在于,所述控制器生成一個置信度度量值,其中如果所述的置信度度量值低于閾值,那么該控制器向用戶發(fā)出提示。
56.如權(quán)利要求54所述的系統(tǒng),其特征在于,包含一個或者多個語音模型,其中所述控制器根據(jù)所述的一個或者多個語音模型,所述的輸入語音和輔助數(shù)據(jù),來選出所述一個或者一個以上候選記錄。
57.如權(quán)利要求54所述的系統(tǒng),其特征在于,所述的輔助數(shù)據(jù)為組成上述輸入語音的字母數(shù)字字符集的一個子集。
58.如權(quán)利要求54所述的系統(tǒng),其特征在于,所述控制器根據(jù)輸入語音和輔助數(shù)據(jù)中的至少一個撥打電話號碼和分機(jī)號之一。
全文摘要
一種提高語音識別器識別結(jié)果的方法利用輔助信息對識別結(jié)果進(jìn)行確認(rèn)。用戶輸入語音到駐留在移動設(shè)備或者遠(yuǎn)端服務(wù)器上的語音識別器。語音識別器根據(jù)輸入語音確定識別結(jié)果。為所述識別結(jié)果計算出一個置信度度量值。如果該置信度度量值小于閾值,則向用戶提示輸入輔助數(shù)據(jù)。該輔助數(shù)據(jù)根據(jù)輸入語音和識別結(jié)果之間的模糊度動態(tài)地被確定;通過輔助數(shù)據(jù)把輸入語音和潛在的不正確識別結(jié)果區(qū)分開來。輔助數(shù)據(jù)可以是組成輸入語音的字母數(shù)字字符集的子集,或者其他的一些和想得到的結(jié)果有關(guān)聯(lián)的數(shù)據(jù),比如電話區(qū)號或者位置。用戶可以通過說話的方式提供這些輔助數(shù)據(jù),也可以通過鍵盤,觸控板,觸摸屏和觸控筆等設(shè)備手工輸入這些信息。
文檔編號G10L15/22GK1842842SQ200480024817
公開日2006年10月4日 申請日期2004年7月30日 優(yōu)先權(quán)日2003年8月29日
發(fā)明者J-C·詹奎, R·庫恩, M·康特立尼, R·切蓋爾瓦瑞恩 申請人:松下電器產(chǎn)業(yè)株式會社