從語音識別系統(tǒng)的詞匯表中確定假設(shè)列表的方法

文檔序號：2829547閱讀：269來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：從語音識別系統(tǒng)的詞匯表中確定假設(shè)列表的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于從語音識別系統(tǒng)的詞匯表中確定假設(shè)列表的方法和計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù)：
從可預(yù)定的詞匯表中可以識別單個單詞或者單詞鏈的語音識別系統(tǒng)通常被用于通過口頭命令來操作電話機(jī)或者操作汽車裝備的與安全不相關(guān)的部件。其它公知的實(shí)例涉及由動手術(shù)的醫(yī)生來操作手術(shù)顯微鏡和操作個人計(jì)算機(jī)。
在操作汽車導(dǎo)航系統(tǒng)時，例如可以通過語音輸入來通知所希望的目標(biāo)位置。在此，地名的輸入是一種特別的挑戰(zhàn)。在德國有在70000與80000之間的地點(diǎn)，這些地點(diǎn)可被考慮作為駕車的目標(biāo)。利用單個單詞識別來解決該任務(wù)由于缺乏上下文信息是一種對語音識別系統(tǒng)的技術(shù)的極其高的要求。出于該原因，但是也為了輸入用戶不知道其正確發(fā)音的(諸如國外的)城市名，提供用字母拼讀解決方案，在這些用字母拼讀解決方案中要求用戶說出所希望的目標(biāo)位置的開頭若干字母。
在這種方法中，用戶通過用開頭字母拼讀(Anbuchstabieren)將目標(biāo)位置通知給導(dǎo)航系統(tǒng)。借助所識別的字母序列，通過導(dǎo)航系統(tǒng)從該大量的所有地點(diǎn)中確定那些其開頭字母相似于所識別的字母序列的地點(diǎn)。在選擇列表中按照相似性來排列地點(diǎn)，提供給用戶用于進(jìn)一步進(jìn)行選擇。用戶可以隨后再次通過語音輸入或者通過鍵盤來說明所希望的目標(biāo)位置。
在該方法中不利之處在于，對于所輸入的字母序列由系統(tǒng)以相應(yīng)的相似性在語音識別系統(tǒng)的詞匯表中識別多個錄入項(xiàng)，并且因此可能只給用戶呈現(xiàn)了很長的假設(shè)列表，用于進(jìn)行選擇。如果用戶然后認(rèn)識到，由他所說出的字母的數(shù)量顯然還不夠，則他只能通過重新按壓所謂的按鍵通話鍵來重新啟動識別并且說出更大量的字母。

發(fā)明內(nèi)容
因此，給本發(fā)明提出了以下的任務(wù)，即說明一種用于從語音識別系統(tǒng)的詞匯表中確定假設(shè)列表的方法，通過該方法實(shí)現(xiàn)了通過用戶的安全和快速的應(yīng)用。
根據(jù)本發(fā)明，通過具有在權(quán)利要求1和權(quán)利要求9中所說明的特征的方法和計(jì)算機(jī)程序產(chǎn)品來解決該任務(wù)。在從屬權(quán)利要求中說明了本發(fā)明的有利的擴(kuò)展方案。
按照本發(fā)明，在用于從語音識別系統(tǒng)的詞匯表中確定假設(shè)列表的方法中，由用戶來拼讀要識別的單詞的開頭字母。確定所識別的字母序列和語音識別系統(tǒng)的詞匯表的錄入項(xiàng)之間的相似性的距離量度(Abstandsmass)。然后進(jìn)行下列措施之一當(dāng)多個所確定的距離量度之間的差低于可預(yù)定的第一值時，由語音識別系統(tǒng)請求用戶繼續(xù)拼讀要識別的單詞的字母。當(dāng)可預(yù)定的距離量度超出可預(yù)定的第二值時，由語音識別系統(tǒng)請求用戶重復(fù)拼讀要識別的單詞的開頭字母。當(dāng)多個所確定的距離量度之間的差超出可預(yù)定的第一值和/或可預(yù)定的距離量度低于可預(yù)定的第二值時，在顯示裝置上給用戶示出具有所確定的錄入項(xiàng)的假設(shè)列表，用于進(jìn)行選擇。通過本發(fā)明方法，因此以有利的方式建議了一種啟發(fā)式方法，該啟發(fā)式方法控制了，是否由語音識別系統(tǒng)提議用戶繼續(xù)用字母拼讀、重復(fù)用字母拼讀或者給用戶提供選擇列表。由此不再要求由用戶在長的假設(shè)列表中搜索，并且因此是較少費(fèi)時的。因此，可以由用戶更快速和更安全地來進(jìn)行所希望的目標(biāo)位置的輸入，因?yàn)樵撚脩糨^少被要求輸入或由于輸入而被轉(zhuǎn)移注意力。
根據(jù)本發(fā)明的有利的改進(jìn)方案，為了確定所識別的字母序列和詞匯表的錄入項(xiàng)之間的相似性的距離量度而確定兩個字母的相似性的距離值。對于該距離量度，將字母序列的各字母的距離值與相應(yīng)錄入項(xiàng)的相對應(yīng)字母的距離值進(jìn)行合計(jì)。這僅是一種用于確定所識別的字母序列和詞匯表的錄入項(xiàng)之間的相似性的距離量度的可能性。
確定所識別的字母序列和詞匯表的錄入項(xiàng)之間的相似性的距離量度的其它可能性在于，例如在單詞中間允許斷開字母拼讀的附加條件下，將萊文斯坦距離(Levensteinabstand)用作距離量度。
萊文斯坦距離是作為最小數(shù)量的原子變化的兩個字符鏈之間的差別的量度，該原子變化是必需的，以便將第一字符鏈轉(zhuǎn)換成第二字符鏈。原子變化例如是單個字母的插入、清除和替代。通常給原子變化分配費(fèi)用，并且因此通過合計(jì)單個費(fèi)用獲得了兩個字符鏈的距離或相似性的一種量度。
根據(jù)本發(fā)明的其它有利的改進(jìn)方案，除了假設(shè)列表之外也在顯示裝置上示出了所識別的字母。由此，可以有利的方式給用戶響應(yīng)，已識別了多少個字母，和必要時在本發(fā)明的可選的擴(kuò)展方案中通過可預(yù)定的符號來表征，用何種可靠性已識別了一字母。
在實(shí)施根據(jù)本發(fā)明的計(jì)算機(jī)程序產(chǎn)品時，通過用于從語音識別系統(tǒng)的詞匯表中確定假設(shè)列表的程序流程控制設(shè)備識別了要由用戶拼讀開頭字母來識別的單詞。確定了所識別的字母序列和語音識別系統(tǒng)的詞匯表的錄入項(xiàng)之間的相似性的距離量度。最后采取下列措施之一當(dāng)多個所確定的距離量度之間的差低于可預(yù)定的第一值時，由語音識別系統(tǒng)請求用戶繼續(xù)拼讀要識別的單詞的字母。當(dāng)可預(yù)定的距離量度超出可預(yù)定的第二值時，由語音識別系統(tǒng)請求用戶重復(fù)拼讀要識別的單詞的開頭字母。當(dāng)多個所確定的距離量度之間的差超出可預(yù)定的第一值和/或可預(yù)定的距離量度低于可預(yù)定的第二值時，在顯示裝置上給用戶示出具有所確定的錄入項(xiàng)的假設(shè)列表，用于進(jìn)行選擇。

以下在實(shí)施例上借助附圖來詳細(xì)闡述本發(fā)明。其中圖1示出了針對語音識別系統(tǒng)和用戶之間的交互作用的過程的三種可能的替換方案的示意圖，圖2示出了用于從語音識別系統(tǒng)的詞匯表中確定假設(shè)列表的方法流程的示意圖。
具體實(shí)施例方式
作為本發(fā)明的實(shí)施例，圖1a示出了當(dāng)假設(shè)列表中的多個單詞在與所識別的字母序列的相似性方面幾乎沒有區(qū)別時的語音識別系統(tǒng)與用戶之間的交互作用的過程。在該實(shí)例中想輸入目標(biāo)位置“柏林”的用戶說出了字母“BER”101。語音識別系統(tǒng)識別了字母序列BER，并且示出了詞匯表中的利用該字母序列所找到的錄入項(xiàng)的假設(shè)列表，102。由于假設(shè)列表中的單個錄入項(xiàng)在其與字母序列的相似性方面幾乎沒有區(qū)別，所以由系統(tǒng)請求用戶繼續(xù)用字母拼讀，103。用戶于是附加地將字母“LI”104灌輸?shù)皆撓到y(tǒng)中。基于所識別的字母序列BERLI，語音識別系統(tǒng)編排了新的假設(shè)列表，105，該假設(shè)列表短得多并且因此對于用戶更清楚。
圖1b示出了當(dāng)從假設(shè)列表中沒有一個錄入項(xiàng)具有與所識別的字母序列的足夠的相似性時的語音識別系統(tǒng)和用戶之間的交互作用的可能的過程。想輸入柏林作為目標(biāo)位置的用戶將“BERLI”106作為字母序列灌輸?shù)皆撓到y(tǒng)中。由語音識別系統(tǒng)識別了字母序列BRLEDICK，并且示出了從該錯誤識別的字母序列中推導(dǎo)出來的假設(shè)列表，107。由系統(tǒng)確定，具有最好相似性量度的假設(shè)列表中的錄入項(xiàng)的相似性總還是不夠的。因而由語音識別系統(tǒng)請求用戶重復(fù)輸入字母序列，108。用戶重新將字母序列“BERLI”109輸入到系統(tǒng)中。系統(tǒng)僅在正確識別的字母序列BERLI的基礎(chǔ)上編排新的和短得多的假設(shè)列表，110。由此可以修正錯誤識別的字母序列，其中也可以通過將字母拼讀識別的聲音精度包括在內(nèi)來擴(kuò)展本方法，以便及早識別由于強(qiáng)烈的背景噪聲或者附加噪聲所引起的錯誤識別。
圖1c示出當(dāng)多個不同的字母具有與所識別的字母序列高的相似性時的語音識別系統(tǒng)和用戶之間的交互作用的過程。想去往奧伯豪森(Oberhausen)的用戶將“OBER”111作為字母序列灌輸?shù)皆撓到y(tǒng)中。語音識別系統(tǒng)對于所灌輸?shù)淖帜窸識別了發(fā)音相似的字母O和U，并且將所灌輸?shù)淖帜窧引向發(fā)音相似的字母B和W。這由系統(tǒng)利用星形符號來表征，112?；诩僭O(shè)列表中的錄入項(xiàng)之間的大的相似性，由語音識別系統(tǒng)請求繼續(xù)用字母拼讀，113。此后，用戶將字母序列“HAU”灌輸?shù)较到y(tǒng)中，114。通過附加的信息，系統(tǒng)現(xiàn)在明確地識別了字母O和B，在此期間現(xiàn)在不再明確地識別字母R、H和U，115。又向用戶發(fā)出繼續(xù)用字母拼讀的請求，116。在由用戶輸入了字母“SE”117之后，現(xiàn)在由系統(tǒng)編排包括所希望的目標(biāo)位置作為第一錄入項(xiàng)的假設(shè)列表118。
作為其它的實(shí)施例，圖2示出一種用于從語音識別系統(tǒng)的詞匯表中確定假設(shè)列表的方法的可能的流程。用戶要么通過按壓按鍵通話鍵以相應(yīng)的輸入對話來啟動字母拼讀識別，201，要么直接由以前的對話步驟得到輸入。語音識別系統(tǒng)例如通過“蜂鳴聲(Beep)”發(fā)信號通知準(zhǔn)備好接收字母序列，202。用戶拼讀所希望的目標(biāo)位置或者所希望的目標(biāo)城市的開頭若干字母，203。本發(fā)明不是只限于導(dǎo)航目標(biāo)的語音輸入，而是可用于任何字母拼讀任務(wù)。這例如即使在移動通信設(shè)備的地址簿中也可能是這種情況。系統(tǒng)將詞匯表的單詞的假設(shè)列表與其與所識別的字母序列的相似性一起計(jì)算出來，204。當(dāng)最好的假設(shè)的相似性太小時，盡管純粹的聲音的字母識別已足夠，仍然存在大約通過強(qiáng)烈的背景噪聲或者副駕駛的插話引起的錯誤輸入，或者由于另外的原因，該識別曾是有缺陷的，205。當(dāng)多個假設(shè)的相似性幾乎相等時，所說的字母的數(shù)量是不夠的，206。當(dāng)單個假設(shè)在與所識別的字母序列的相似性方面以足夠的量度互相區(qū)別時，這些假設(shè)的有關(guān)其與所識別的序列的相似性方面的空間因而是相當(dāng)稀少的，系統(tǒng)決定，字母的數(shù)量是足夠的，207。
如果相似性太小，則建議用戶重新啟動字母拼讀過程，208。如果單個錄入項(xiàng)的相似性之間的區(qū)別足夠，則系統(tǒng)顯示出傳統(tǒng)的選擇列表，209。系統(tǒng)可選地在第一行中顯示出字母的假定的序列。未曾明確識別的字母或者針對其在詞匯表的錄入項(xiàng)中對于該位置存在多個相似字母的字母通過特殊符號“*”來示出。在該實(shí)例中，在列表中示出了最好識別的開頭序列，210。如果假設(shè)列表的錄入項(xiàng)之間的相似性幾乎相等，則系統(tǒng)請求用戶繼續(xù)用字母拼讀，211。從在方法結(jié)束時所示出的假設(shè)列表中，用戶以傳統(tǒng)的形式從該列表中選出他所希望的目標(biāo)位置，212，用戶是通過語音輸入行號或者通過觸覺選擇來選出。
本發(fā)明不限于此處所述的實(shí)施例。
權(quán)利要求
1.用于從語音識別系統(tǒng)的詞匯表中確定假設(shè)列表的方法，在該方法中，由用戶拼讀要識別的單詞的開頭字母，并且確定所識別的字母序列和語音識別系統(tǒng)的詞匯表的錄入項(xiàng)之間的相似性的距離量度，其中進(jìn)行下列措施之一-當(dāng)多個所確定的距離量度之間的差低于可預(yù)定的第一值時，由所述語音識別系統(tǒng)請求用戶繼續(xù)拼讀要識別的單詞的字母，-當(dāng)可預(yù)定的距離量度超出可預(yù)定的第二值時，由所述語音識別系統(tǒng)請求用戶重復(fù)拼讀要識別的單詞的開頭字母，-當(dāng)多個所確定的距離量度之間的差超出所述可預(yù)定的第一值和/或可預(yù)定的距離量度低于所述可預(yù)定的第二值時，在顯示裝置上給用戶示出具有所確定的錄入項(xiàng)的假設(shè)列表，用于進(jìn)行選擇。
2.按權(quán)利要求1所述的方法，其中，為了確定所識別的字母序列和所述詞匯表的錄入項(xiàng)之間的相似性的距離量度，確定兩個字母的相似性的距離值，對于所述距離量度，將所述字母序列的各字母的距離值和相應(yīng)詞匯表錄入項(xiàng)的相對應(yīng)的字母的距離值進(jìn)行合計(jì)。
3.按權(quán)利要求2所述的方法，其中，確定兩個字母的發(fā)音相似性的距離值。
4.按以上權(quán)利要求之一所述的方法，其中，考慮萊文斯坦距離(Levensteinabstand)作為距離量度。
5.按以上權(quán)利要求之一所述的方法，其中，除了所述假設(shè)列表之外，也在所述顯示裝置上示出所識別的字母。
6.按權(quán)利要求5所述的方法，其中，在所述顯示裝置上通過可預(yù)定的符號表征地示出了未明確地識別出的字母或者對其在詞匯表中在各自的位置上存在著相似的字母的字母。
7.按以上權(quán)利要求之一所述的方法，其中，由所述語音識別系統(tǒng)以聲音和/或可視的形式實(shí)現(xiàn)所述請求。
8.按以上權(quán)利要求之一所述的方法，其中，當(dāng)所述假設(shè)列表中的假設(shè)的數(shù)量超出第三值時，由所述語音識別系統(tǒng)請求用戶繼續(xù)進(jìn)行所述要識別的單詞的字母拼讀。
9.計(jì)算機(jī)程序產(chǎn)品，該計(jì)算機(jī)程序產(chǎn)品可被裝載到程序流程控制設(shè)備的工作存儲器中并且具有至少一個代碼段，在實(shí)施該計(jì)算機(jī)程序產(chǎn)品時，為了從語音識別系統(tǒng)的詞匯表中確定假設(shè)列表，由用戶拼讀要識別的單詞的開頭字母，并且確定所識別的字母序列和所述語音識別系統(tǒng)的詞匯表的錄入項(xiàng)之間的相似性的距離量度，其中，如果所述計(jì)算機(jī)程序產(chǎn)品在所述程序流程控制設(shè)備中運(yùn)行，則進(jìn)行下列措施之一，-當(dāng)多個所確定的距離量度之間的差低于可預(yù)定的第一值時，由所述語音識別系統(tǒng)請求用戶繼續(xù)拼讀要識別的單詞的字母，-當(dāng)可預(yù)定的距離量度超出可預(yù)定的第二值時，由語音識別系統(tǒng)請求用戶重復(fù)拼讀要識別的單詞的開頭字母，-當(dāng)多個所確定的距離量度之間的差超出所述可預(yù)定的第一值和/或可預(yù)定的距離量度低于所述可預(yù)定的第二值時，在顯示裝置上給用戶示出具有所確定的錄入項(xiàng)的假設(shè)列表，用于進(jìn)行選擇。
全文摘要
本發(fā)明說明一種用于從語音識別系統(tǒng)的詞匯表中確定假設(shè)列表的方法，在該方法中，由用戶拼讀要識別的單詞的開頭字母，并且確定所識別的字母序列和語音識別系統(tǒng)的詞匯表的錄入項(xiàng)之間的相似性的距離量度，其中進(jìn)行下列措施之一當(dāng)多個所確定的距離量度之間的差低于可預(yù)定的第一值時，由所述語音識別系統(tǒng)請求用戶繼續(xù)拼讀要識別的單詞的字母。當(dāng)可預(yù)定的距離量度超出可預(yù)定的第二值時，由所述語音識別系統(tǒng)請求用戶重復(fù)拼讀要識別的單詞的開頭字母。當(dāng)多個所確定的距離量度之間的差超出所述可預(yù)定的第一值和/或可預(yù)定的距離量度低于所述可預(yù)定的第二值時，在顯示裝置上給用戶示出具有所確定的錄入項(xiàng)的假設(shè)列表，用于進(jìn)行選擇。
文檔編號G10L15/22GK1892818SQ20061009568
公開日2007年1月10日申請日期2006年6月29日優(yōu)先權(quán)日2005年6月29日
發(fā)明者S·海登雷希, N·昆斯特曼恩申請人:西門子公司

完整全部詳細(xì)技術(shù)資料下載