亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于語(yǔ)音識(shí)別的方法

文檔序號(hào):2831794閱讀:307來(lái)源:國(guó)知局
專利名稱:用于語(yǔ)音識(shí)別的方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種用于對(duì)具有多個(gè)表達(dá)部分的表達(dá)進(jìn)行語(yǔ)音識(shí)別的方法。本發(fā)明此 外涉及一種適于執(zhí)行相應(yīng)方法的語(yǔ)音識(shí)別設(shè)備;以及一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序 產(chǎn)品促使在受程序控制的語(yǔ)音識(shí)別設(shè)備上執(zhí)行語(yǔ)音識(shí)別方法。
背景技術(shù)
作為對(duì)人機(jī)接口的補(bǔ)充的用于語(yǔ)音識(shí)別的方法有越來(lái)越廣泛的應(yīng)用領(lǐng)域。在移動(dòng) 終端設(shè)備(例如移動(dòng)電話)的情況下命令識(shí)別或者從地址薄中選擇項(xiàng)現(xiàn)在是標(biāo)準(zhǔn)功能范 圍。尤其是也在機(jī)動(dòng)車中使用語(yǔ)音識(shí)別系統(tǒng),以便例如得到用于導(dǎo)航裝置的開(kāi)始和目標(biāo)設(shè)定。 常用的語(yǔ)音識(shí)別方法例如基于所謂的隱馬爾可夫模型 (Hidden-Markov-Modellen),該隱馬爾可夫模型雖然使得能夠進(jìn)行不依賴于講話者的語(yǔ)音 識(shí)別,然而造成了高的計(jì)算花費(fèi)。因?yàn)橛绕涫窃跈C(jī)動(dòng)車中經(jīng)常使用只具有有限計(jì)算和存儲(chǔ) 資源的所謂的嵌入式系統(tǒng)作為計(jì)算機(jī),所以必須經(jīng)常執(zhí)行簡(jiǎn)化了的語(yǔ)音識(shí)別。尤其是對(duì)用 于待辨識(shí)的搜索項(xiàng)的搜索空間的限制一般導(dǎo)致對(duì)計(jì)算性能和存儲(chǔ)容量的較低要求。但是, 相應(yīng)的搜索空間限制以及因此對(duì)資源的節(jié)約經(jīng)常伴隨有不太可靠的語(yǔ)音識(shí)別和/或用戶 的不太舒適的操作。 在DE 10207895A1中例如說(shuō)明了一種用于語(yǔ)音識(shí)別的方法,其中對(duì)于多部分表達(dá) 或命令的輸入提出逐級(jí)的語(yǔ)音識(shí)別。在那里規(guī)定,例如在輸入城市名稱并且隨后輸入街道 名稱的情況下,首先對(duì)具有所說(shuō)出的街道名稱的單個(gè)表達(dá)進(jìn)行語(yǔ)音識(shí)別,該語(yǔ)音識(shí)別作為 命中列表(Trefferliste)在顯示器上被顯示給用戶。然后,在用戶確認(rèn)之后,可以為另一 語(yǔ)音識(shí)別確定適合于該城市名稱的第二詞匯表,該第二詞匯表比城市名稱和街道名稱的組 合造成更小的存儲(chǔ)器需求。然而,不利的是,用戶必須首先記錄對(duì)于城市名稱的識(shí)別結(jié)果, 并且必須手動(dòng)地從命中列表中進(jìn)行選擇。 此外,特別期望的是,在唯一的對(duì)于用戶來(lái)說(shuō)可感覺(jué)到的步驟中借助于語(yǔ)音識(shí)別 來(lái)識(shí)別完整的地址輸入并且向用戶直接顯示全部目標(biāo)地址的選擇,其中該地址輸入例如包 括城市名稱、街道名稱以及名牌號(hào)碼。通常,待識(shí)別的表達(dá)的相應(yīng)延長(zhǎng)由于有許多表達(dá)部分 (城市名稱、街道名稱、門牌號(hào)碼)而伴隨有對(duì)相應(yīng)語(yǔ)音識(shí)別設(shè)備的存儲(chǔ)性能和計(jì)算性能明 顯更高的要求。所以,在過(guò)去,盡可能只通過(guò)語(yǔ)音識(shí)別來(lái)識(shí)別短的命令或者命令序列并且示 出給用戶。

發(fā)明內(nèi)容
因此,本發(fā)明的任務(wù)是,提供一種改進(jìn)的用于語(yǔ)音識(shí)別的方法。
該任務(wù)通過(guò)根據(jù)權(quán)利要求1的用于語(yǔ)音識(shí)別的方法來(lái)解決。 相應(yīng)地提供一種用于對(duì)具有多個(gè)待識(shí)別的表達(dá)部分的待識(shí)別的表達(dá)進(jìn)行語(yǔ)音識(shí) 別的方法。在此,首先對(duì)所選擇的第一表達(dá)部分執(zhí)行部分語(yǔ)音識(shí)別,并且根據(jù)通過(guò)部分語(yǔ)音
4識(shí)別所識(shí)別出的針對(duì)第一表達(dá)部分的命中詞選擇來(lái)執(zhí)行對(duì)表達(dá)的第一和其它表達(dá)部分的語(yǔ)音識(shí)別。 雖然待識(shí)別的表達(dá)包括多個(gè)不同的表達(dá)部分,例如由城市名稱加街道名稱加門牌號(hào)碼所組成的目標(biāo)地址的說(shuō)出,但是不必要的是,用戶對(duì)確定的表達(dá)部分或者所識(shí)別出的表達(dá)部分進(jìn)行確認(rèn)。因?yàn)槭紫葟目傮w表達(dá)中選擇一個(gè)表達(dá)部分,所以可以根據(jù)上下文使用針對(duì)部分語(yǔ)音識(shí)別的、例如主要涉及城市名稱的較小的詞匯表。從第一部分語(yǔ)音識(shí)別的對(duì)于用戶來(lái)說(shuō)感覺(jué)不到的中間結(jié)果中得出相應(yīng)的上下文。通過(guò)部分語(yǔ)音識(shí)別所識(shí)別出的命中詞選擇使得能夠例如使總體表達(dá)重新經(jīng)受語(yǔ)音識(shí)別,所述語(yǔ)音識(shí)別由于通過(guò)部分語(yǔ)音識(shí)別的預(yù)先選擇而相對(duì)于由城市名稱、街道名稱和門牌號(hào)碼所組成的所有可能組合需要明顯減小了的詞匯表。也隨之出現(xiàn)對(duì)存儲(chǔ)容量和計(jì)算容量的較低要求。 在該方法的變型方案中,借助于隱馬爾可夫模型來(lái)使第一表達(dá)部分經(jīng)受部分語(yǔ)音識(shí)別。在此,利用填充數(shù)據(jù)來(lái)覆蓋其余的表達(dá)部分以用于部分語(yǔ)音識(shí)別。也被稱為垃圾數(shù)據(jù)的所述填充數(shù)據(jù)只造成用于創(chuàng)建根據(jù)隱馬爾可夫模型的相應(yīng)的詞匯表的小的存儲(chǔ)需求和計(jì)算需求。如果例如待識(shí)別的部分表達(dá)位于表達(dá)的開(kāi)始,如在通過(guò)城市名稱來(lái)輸入地址的情況下那樣,則在隱馬爾可夫模型的范圍內(nèi)利用數(shù)據(jù)庫(kù)的已知城市名稱來(lái)訓(xùn)練一定數(shù)目的在時(shí)間上首先得到的音素,而利用垃圾或者填充音素來(lái)訓(xùn)練其它的所得到的表達(dá)部分。在第二語(yǔ)音識(shí)別步驟中,可以通過(guò)由搜索詞匯、例如街道名稱所構(gòu)成的搜索詞來(lái)代替在第一部分語(yǔ)音識(shí)別步驟中利用填充數(shù)據(jù)所占用的表達(dá)部分。因此,在總體表達(dá)經(jīng)受語(yǔ)音識(shí)別的第二語(yǔ)音識(shí)別步驟中,已經(jīng)可以明顯限制詞匯表,因?yàn)橹恍柰ㄟ^(guò)隱馬爾可夫模型與針對(duì)借助于部分語(yǔ)音識(shí)別所識(shí)別出的第一表達(dá)部分的命中詞選擇一致的可能的搜索項(xiàng)進(jìn)行建模。原則上,第一語(yǔ)音識(shí)別級(jí)所基于的第一表達(dá)部分位于什么時(shí)間位置在此不起任何作用。即使待識(shí)別的第一表達(dá)部分由其它表達(dá)部分包圍的表達(dá)也可以通過(guò)根據(jù)本發(fā)明的語(yǔ)音識(shí)別方法來(lái)處理。 此外可以使第一表達(dá)部分通過(guò)確定總體表達(dá)在時(shí)間上的能量變化被識(shí)別出并且經(jīng)受部分語(yǔ)音識(shí)別。 一般,表達(dá)部分可以通過(guò)可檢測(cè)到的講話暫停來(lái)相互分開(kāi),從而表達(dá)的在某些時(shí)刻特別低的能量可以用作表達(dá)部分之間的間隙的指示器。還可以使用公知的語(yǔ)音活動(dòng)識(shí)別方法以用于確定表達(dá)中的第一表達(dá)部分。 優(yōu)選地,用于語(yǔ)音識(shí)別的方法包括下列方法步驟中的一個(gè)或者多個(gè)
-記錄(Aufnehmen)表達(dá),所述表達(dá)包括多個(gè)表達(dá)部分; _提供第一詞匯表,所述第一詞匯表包括由搜索詞、音素組合和/或轉(zhuǎn)移概率組成的第一列表;-借助于所提供的第一詞匯表來(lái)執(zhí)行對(duì)所記錄的表達(dá)的所選擇的第一表達(dá)部分的部分語(yǔ)音識(shí)別以用于從搜索詞列表中確定命中詞選擇;-根據(jù)命中詞選擇提供第二詞匯表,其中所述第二詞匯表包括由多個(gè)搜索詞的搜索詞組合、音素組合和/或轉(zhuǎn)移概率所組成的列表;-借助于所述第二詞匯表來(lái)執(zhí)行對(duì)所記錄的表達(dá)的語(yǔ)音識(shí)別以用于從搜索詞組合列表中確定命中詞選擇。 對(duì)表達(dá)的記錄例如可以通過(guò)麥克風(fēng)和連接在后面的模擬/數(shù)字轉(zhuǎn)換器來(lái)進(jìn)行,所述模擬/數(shù)字轉(zhuǎn)換器為其它的計(jì)算單元、例如嵌入式系統(tǒng)中的CPU提供數(shù)字表達(dá)。第一詞匯表例如通過(guò)控制裝置或者計(jì)算裝置來(lái)創(chuàng)建,所述控制裝置或者計(jì)算裝置對(duì)具有搜索詞和該搜索詞的相應(yīng)音素標(biāo)注(Phonemtranskription)的數(shù)據(jù)庫(kù)進(jìn)行訪問(wèn)。語(yǔ)音識(shí)別詞匯表的提供通常要求高的計(jì)算性能和/或用于中間存儲(chǔ)對(duì)于語(yǔ)音識(shí)別來(lái)說(shuō)可讀取并可處理的詞匯表的大量的存儲(chǔ)空間,其中所述語(yǔ)音識(shí)別例如是以軟件實(shí)施的形式存在的。
在與現(xiàn)有技術(shù)不同不通過(guò)由用戶進(jìn)行的驗(yàn)證或者確認(rèn)來(lái)發(fā)起的第二語(yǔ)音識(shí)別步驟中,向第二詞匯表添加關(guān)于來(lái)自部分語(yǔ)音識(shí)別的命中詞的其它信息。這例如可以包括創(chuàng)建詞匯表,所述詞匯表向來(lái)自部分識(shí)別步驟的所識(shí)別出的最佳城市名稱附加相應(yīng)的符合的街道名稱。 例如可設(shè)想,存在包括一個(gè)國(guó)家的所有城市名稱以及所有街道名稱和所屬門牌號(hào)碼的數(shù)據(jù)庫(kù)。除了填充數(shù)據(jù)之外,對(duì)于部分語(yǔ)音識(shí)別來(lái)說(shuō)必要的第一詞匯表只須訪問(wèn)作為上位概念的城市或者地點(diǎn)名稱。然后,作為第二語(yǔ)音識(shí)別步驟中的其它概念,附加街道名稱和門牌號(hào)碼作為下位概念。但是,并不是所有可從數(shù)據(jù)庫(kù)中提取出的街道名稱都對(duì)于語(yǔ)音識(shí)別來(lái)說(shuō)是相關(guān)的,而是只有那些被分配給作為上位概念的城市名稱的并且被部分語(yǔ)音識(shí)別辨識(shí)為命中詞的街道名稱才是相關(guān)的。 有利地,在根據(jù)本發(fā)明的用于語(yǔ)音識(shí)別的方法的變型方案中,在讀入第二詞匯表之前,從存儲(chǔ)器中刪除第一詞匯表。因此,尤其是在嵌入式系統(tǒng)的情況下保證了高效的存儲(chǔ)器利用。 為了更高效地利用相應(yīng)語(yǔ)音識(shí)別系統(tǒng)的資源,規(guī)定該語(yǔ)音識(shí)別方法的另一種變型方案,即在首先執(zhí)行的部分語(yǔ)音識(shí)別的情況下所確定的表達(dá)和/或表達(dá)部分的特征在對(duì)其它表達(dá)部分和/或總體表達(dá)進(jìn)行語(yǔ)音識(shí)別的情況下被再次使用。 尤其是考慮在部分語(yǔ)音識(shí)別或者詞匯表創(chuàng)建的情況下所計(jì)算的MFCC特征和/發(fā)射概率。MFCC( = Mel Frequency C印stral Coefficients,Mel頻率倒譜系數(shù))被理解為所得到的音頻表達(dá)的可計(jì)算的特征。根據(jù)普遍公知的方法進(jìn)行對(duì)MFCC的確定,所述方法可以由語(yǔ)音識(shí)別系統(tǒng)的相應(yīng)的經(jīng)過(guò)編程的CPU來(lái)執(zhí)行。因此,在對(duì)總體表達(dá)的第二語(yǔ)音識(shí)別步驟中的再次使用例如減少了語(yǔ)音識(shí)別的計(jì)算花費(fèi)。同樣可以使用MFCC的變型或者衍生。
本發(fā)明還提供一種具有權(quán)利要求18的特征的語(yǔ)音識(shí)別設(shè)備。 所述語(yǔ)音識(shí)別設(shè)備優(yōu)選地具有耦合到數(shù)據(jù)庫(kù)裝置上的控制裝置和存儲(chǔ)器裝置。在此,數(shù)據(jù)庫(kù)裝置提供詞匯表的搜索詞和/或該搜索詞的音素標(biāo)注。數(shù)據(jù)庫(kù)裝置例如可以被設(shè)計(jì)為移動(dòng)存儲(chǔ)器,例如DVD、SD存儲(chǔ)卡、USB棒、CD-ROM或者其它公知的存儲(chǔ)裝置。用于導(dǎo)航系統(tǒng)或者其它語(yǔ)音識(shí)別應(yīng)用的相應(yīng)的數(shù)據(jù)庫(kù)例如以SAMPA格式來(lái)運(yùn)行。在此,SAMPA代表SpeechAssessment Method Phonetic Alphabet (語(yǔ)音評(píng)價(jià)方法音標(biāo)字母)。這對(duì)應(yīng)于音標(biāo)字母,其將機(jī)器可讀編碼表示為語(yǔ)音學(xué)字母的ASCII符號(hào)。 此外,本發(fā)明提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品促使在受程序控制的語(yǔ)音識(shí)別設(shè)備上執(zhí)行用于語(yǔ)音識(shí)別的前述方法。在此,可設(shè)想例如以在計(jì)算機(jī)可讀的數(shù)據(jù)載體上存儲(chǔ)的計(jì)算機(jī)程序的形式來(lái)實(shí)現(xiàn)該計(jì)算機(jī)程序產(chǎn)品。例如可以考慮CD-ROM、軟盤、DVD、USB棒、存儲(chǔ)卡或者其它存儲(chǔ)裝置以及由服務(wù)器提供可下載的文件。


本發(fā)明的其它有利的擴(kuò)展方案和改進(jìn)方案是從屬權(quán)利要求以及下述實(shí)施例的主題。此外,參照附圖借助于實(shí)施例進(jìn)一步闡述本發(fā)明。在此
圖1示出語(yǔ)音識(shí)別設(shè)備的示意性框圖; 圖2示出用于語(yǔ)音識(shí)別的方法的第一變型方案的流程 圖3示出用于語(yǔ)音識(shí)別的方法的第二變型方案的流程 圖4示出多部分表達(dá)的示意性表示;
圖5示意性示出搜索詞數(shù)據(jù)庫(kù)的分層結(jié)構(gòu); 圖6a,6b示出在執(zhí)行用于語(yǔ)音識(shí)別的方法時(shí)語(yǔ)音識(shí)別設(shè)備中的時(shí)序圖的實(shí)例。
具體實(shí)施例方式
在實(shí)施例中,相同或功能相同的元件配備有同樣的附圖標(biāo)記,除非另有說(shuō)明。
圖1示出語(yǔ)音識(shí)別設(shè)備1的示意性框圖。語(yǔ)音識(shí)別設(shè)備1例如可以被實(shí)施為用于汽車應(yīng)用(例如用于導(dǎo)航系統(tǒng))的嵌入式系統(tǒng)。設(shè)置有控制裝置2、例如微處理器或者CPU,該控制裝置2優(yōu)選地是可編程的并且具有內(nèi)部存儲(chǔ)器、例如緩沖存儲(chǔ)器13。此外設(shè)置有存儲(chǔ)器裝置5,該存儲(chǔ)器裝置5例如具有RAM存儲(chǔ)器6和ROM存儲(chǔ)器7。 ROM存儲(chǔ)器例如可以具有用于CPU 2的操作系統(tǒng)或者控制程序。存儲(chǔ)器5和CPU 2相互耦合,這在圖1中作為通信和數(shù)據(jù)總線3示出。在此可設(shè)想,將數(shù)據(jù)庫(kù)4例如安放在車輛的行李箱中并且在CPU2與數(shù)據(jù)庫(kù)4之間經(jīng)由車輛總線系統(tǒng)(例如I2C總線)來(lái)進(jìn)行數(shù)據(jù)通信。還可設(shè)想,傳輸數(shù)據(jù)庫(kù)4中的某些數(shù)據(jù)記錄以用于暫時(shí)在存儲(chǔ)器裝置5的RAM存儲(chǔ)器中形成語(yǔ)音識(shí)別詞匯表。 此外,在通信和數(shù)據(jù)總線3上耦合有模擬/數(shù)字轉(zhuǎn)換器9,在該模擬/數(shù)字轉(zhuǎn)換器9上連接有麥克風(fēng)8。因此,表達(dá)A由麥克風(fēng)8記錄并由模擬/數(shù)字轉(zhuǎn)換器9以數(shù)字化形式提供??刂蒲b置或CPU 2協(xié)調(diào)在存儲(chǔ)器5中的存放。此外,語(yǔ)音識(shí)別設(shè)備l可以具有輸入裝置10和輸出裝置11。這例如在實(shí)施GUI (Graphic User Interface,圖形用戶界面)時(shí)被實(shí)現(xiàn)。作為輸入裝置,可以考慮例如鍵盤、旋鈕或者其它觸覺(jué)輸入裝置。作為輸出裝置ll,例如顯示器或者語(yǔ)音輸出是可能的。 尤其是CPU 2、存儲(chǔ)器5和模擬/數(shù)字轉(zhuǎn)換器9連同合適的數(shù)據(jù)通信總線3經(jīng)常被實(shí)施為嵌入式系統(tǒng)。在此希望盡可能少的制造和空間花費(fèi),以便相應(yīng)的CPU或者微處理器通常以從300至600MHz的時(shí)鐘頻率來(lái)運(yùn)行。然而,還可設(shè)想其它值。作為RAM存儲(chǔ)器,經(jīng)常是64至128MB存儲(chǔ)元件就足夠了 。這些鑒于CPU 2的計(jì)算容量和存儲(chǔ)資源5的有限資源決定了一種特別節(jié)省資源的用于語(yǔ)音識(shí)別的方法。 然而,各個(gè)表達(dá)部分的順序輸入和確認(rèn)(例如,首先是城市,并且在進(jìn)一步的輸入請(qǐng)求之后是街道名稱和門牌號(hào)碼形式的地址)是麻煩的,雖然由此可以限制在語(yǔ)音識(shí)別時(shí)要使用的詞匯表的大小。 在圖2中示出了用于對(duì)多部分表達(dá)進(jìn)行語(yǔ)音識(shí)別的改進(jìn)方法的示意性流程圖。在此圖解說(shuō)明兩級(jí)方法,其中首先在步驟S1中或者在識(shí)別級(jí)S1中進(jìn)行部分語(yǔ)音識(shí)別,然后在隨后級(jí)S2中進(jìn)行總體語(yǔ)音識(shí)別。 在第一步驟SI中,識(shí)別被限制于總體表達(dá)的一個(gè)表達(dá)部分,并且其余的表達(dá)部分例如通過(guò)垃圾模型(Milllmodell)或者填充數(shù)據(jù)來(lái)覆蓋。以為導(dǎo)航系統(tǒng)輸入目標(biāo)地址為例,在第一識(shí)別步驟S1中,通過(guò)部分語(yǔ)音識(shí)別只在主動(dòng)詞匯表(aktives Vokabular)中保持城市名稱。街道名稱和門牌號(hào)碼通過(guò)垃圾模型或者填充音素來(lái)建模。這例如可以在隱馬爾可夫模型的范圍內(nèi)進(jìn)行。 在用于語(yǔ)音識(shí)別的隱馬爾可夫模型(HMM)中,觀察在音素序列中從一個(gè)音素到下一音素的轉(zhuǎn)移概率。音素是語(yǔ)音系統(tǒng)的有意義區(qū)別的最小單元。在此,隱馬爾可夫模型由參數(shù)A = (A, B, n )表征,其中A = {aij}表示從一個(gè)(隱蔽的)狀態(tài)i到狀態(tài)j的轉(zhuǎn)移概率,n = {nj表示狀態(tài)i的開(kāi)始概率,并且B二 {bj表示觀察i的概率,其中相應(yīng)的狀態(tài)i在時(shí)刻t發(fā)射觀察0t。在隱馬爾可夫模型中,音素序列被記錄并且概率被確定,以該概率根據(jù)HMM可以產(chǎn)生所記錄的音素變化(Phonemverlauf)。在此,每個(gè)HMM例如對(duì)應(yīng)于一個(gè)類,因此可以通過(guò)選出最高概率來(lái)將所記錄的音素序列分配給一個(gè)類或一個(gè)詞或者詞序。
借助于公知的隱馬爾可夫技術(shù)可以實(shí)現(xiàn)不依賴于講話者的語(yǔ)音識(shí)別。為此,訓(xùn)練針對(duì)語(yǔ)音的音素的隱馬爾可夫模型。在此,一般使用在語(yǔ)音識(shí)別環(huán)境中所記錄的大的搜索詞,該搜索詞被記錄到數(shù)據(jù)庫(kù)中。相應(yīng)的數(shù)據(jù)庫(kù)具有例如城市名稱的搜索詞和音素標(biāo)注。公知的是例如SAMPA標(biāo)注。于是,在通常的語(yǔ)音識(shí)別算法中,依賴于上下文、例如通過(guò)三音子來(lái)對(duì)音素進(jìn)行建模。在此,根據(jù)前面的音素和后續(xù)的音素對(duì)當(dāng)前音素有區(qū)別地進(jìn)行建模。
通常,動(dòng)態(tài)地生成用于語(yǔ)音識(shí)別算法或者相應(yīng)設(shè)立的語(yǔ)音識(shí)別裝置的詞匯表,其中語(yǔ)音識(shí)別裝置例如是圖1中通過(guò)操作系統(tǒng)或者控制程序所設(shè)立的CPU2。為此,首先必需說(shuō)明待識(shí)別的搜索詞的音素序列并且以對(duì)于語(yǔ)音識(shí)別來(lái)說(shuō)可理解的形式來(lái)編譯。即,將從數(shù)據(jù)庫(kù)4中提取出的搜索詞的音素序列轉(zhuǎn)換為狀態(tài)序列。在此,搜索詞的數(shù)量越大,則在例如通過(guò)CPU2來(lái)進(jìn)行詞匯表創(chuàng)建時(shí)計(jì)算花費(fèi)就越多。對(duì)于第一語(yǔ)音識(shí)別級(jí)、也就是部分語(yǔ)音識(shí)別的步驟Sl,這只針對(duì)例如位于德國(guó)的城市名稱來(lái)執(zhí)行。這大約有70000個(gè)搜索詞。對(duì)于第二級(jí)中或步驟S2中的總體語(yǔ)音識(shí)別,重新創(chuàng)建識(shí)別詞匯表,然而該識(shí)別詞匯表在輸入目標(biāo)地址的該實(shí)例中不必再包括所有可能的街道名稱和城市名稱以及門牌號(hào)碼,而是明顯地有所減少。在德國(guó)存在大約370000個(gè)街道名稱。然而,通過(guò)對(duì)街道名稱進(jìn)行部分語(yǔ)音識(shí)別的第一識(shí)別級(jí)將該數(shù)目從370000個(gè)搜索詞減少到只剩200到15000個(gè)詞。如果例如在第一步驟S1中確定N個(gè)命中詞,則在第二步驟中僅僅編排用于執(zhí)行語(yǔ)音識(shí)別的如下詞匯表所述詞匯表包括對(duì)于N個(gè)命中城市名稱來(lái)說(shuō)相關(guān)的街道名稱。在每個(gè)城市名稱平均有30個(gè)街道的情況下,在對(duì)于城市有N = 10個(gè)命中詞時(shí),得出在200個(gè)至15000個(gè)詞之間的詞匯表。在此,柏林以13000個(gè)街道被認(rèn)為是最大的城市。 因此,在用于對(duì)所得到的具有多個(gè)表達(dá)部分的表達(dá)進(jìn)行總體語(yǔ)音識(shí)別的第二語(yǔ)音識(shí)別步驟S2的情況下, 一般需要比在第一部分語(yǔ)音識(shí)別步驟Sl中更小的詞匯表,因?yàn)樵诘诙襟ES2中僅僅顧及N個(gè)最佳的城市名稱。此外,在語(yǔ)法方面可以顧及城市名稱與所屬街道名稱之間的其它邏輯聯(lián)系。例如有可能的是,在具有不同城市名稱的不同城市中,雖然存在同樣的街道名稱,但是門牌號(hào)碼的數(shù)目不同??梢栽谡Z(yǔ)法方面針對(duì)語(yǔ)音識(shí)別來(lái)實(shí)施這種邏輯聯(lián)系。 為了進(jìn)一步改進(jìn)識(shí)別詞匯表的創(chuàng)建,有可能的是,已分配有特別大數(shù)目的街道名稱的用于城市名稱的街道詞匯表已經(jīng)被預(yù)編譯并且被中間存儲(chǔ)。只具有少數(shù)街道(例如少于可預(yù)先給定的閾值)的城市一般具有較小的街道詞匯表,也可以在線地在運(yùn)行語(yǔ)音識(shí)別時(shí)創(chuàng)建該街道詞匯表。然而,在對(duì)街道詞匯表進(jìn)行預(yù)編譯的情況下,從CPU方面較快的訪問(wèn)是有可能的。此外,由此減少相應(yīng)語(yǔ)音識(shí)別系統(tǒng)的存儲(chǔ)需求,因?yàn)橹淮鎯?chǔ)特別大的詞匯表,
8庫(kù)中詢問(wèn)音素來(lái)在線地直接創(chuàng)建。 在圖3中示出了用于語(yǔ)音識(shí)別的兩級(jí)方法的變型方案。在第一步驟T1中記錄表達(dá)。這例如可以借助圖1中所示的語(yǔ)音識(shí)別系統(tǒng)通過(guò)麥克風(fēng)8與模擬/數(shù)字轉(zhuǎn)換器9來(lái)進(jìn)行。相應(yīng)數(shù)據(jù)可以以數(shù)字方式被存放在存儲(chǔ)器5中,并且在此優(yōu)選地被存放在RAM存儲(chǔ)器6中。在此,存儲(chǔ)過(guò)程可以由被設(shè)計(jì)為可編程的并且由R0M存儲(chǔ)器7中的操作系統(tǒng)控制的CPU2來(lái)協(xié)調(diào)。 在后續(xù)步驟T2中,加載或在線地創(chuàng)建部分詞匯表。為此,搜索詞(例如城市名稱)及其相應(yīng)的音素標(biāo)注從數(shù)據(jù)庫(kù)4被加載并且被存放在存儲(chǔ)器6中。然后,在步驟S1中創(chuàng)建相應(yīng)的部分詞匯表以用于執(zhí)行真正的語(yǔ)音識(shí)別或部分語(yǔ)音識(shí)別。 如已經(jīng)在開(kāi)始時(shí)所闡述的那樣,在例如借助于HMM模型來(lái)執(zhí)行語(yǔ)音識(shí)別算法時(shí),可以用填充數(shù)據(jù)來(lái)覆蓋表達(dá)部分,在這些表達(dá)部分處預(yù)計(jì)存在首先是不相關(guān)的街道名稱和門牌號(hào)碼。 在圖4中示意性地示出了具有不同表達(dá)部分Al-A5的表達(dá)A。圖形表示示出由麥克風(fēng)所記錄的聲波隨時(shí)間t變化的振幅。用戶例如輸入完整的搜索項(xiàng)"Mtochen(慕尼黑)Otto-Hahn-Ring(環(huán)路)Sechs(六號(hào))"。該地址說(shuō)明可以被領(lǐng)會(huì)為五部分的表達(dá)A。在此,城市名稱"Miinchen"對(duì)應(yīng)于第一表達(dá)部分Al, "Otto"對(duì)應(yīng)于第二表達(dá)部分A2, "Hahn"對(duì)應(yīng)于第三表達(dá)部分A3, "Ring"對(duì)應(yīng)于第四表達(dá)部分A4,并且門牌號(hào)碼"Sechs"對(duì)應(yīng)于第五表達(dá)部分A5。在此,語(yǔ)音輸出"Milnchen"從時(shí)刻^持續(xù)到時(shí)刻t2,"0tto"從時(shí)刻t2持續(xù)到t3, "Hahn"從時(shí)刻t3持續(xù)到t4, "Ring"從時(shí)刻t4持續(xù)到t5,并且"Sechs"從時(shí)刻t5持續(xù)到 存在辨識(shí)表達(dá)部分的不同可能性。例如,可以創(chuàng)建HMM模型,其中假設(shè)第一表達(dá)部分A1對(duì)應(yīng)于城市名稱,由此示出其余表達(dá)部分、即街道和門牌號(hào)碼的上位概念。在此例如可以創(chuàng)建所謂的"垃圾模型(Garbage-Modelle)",該垃圾模型具有數(shù)據(jù)庫(kù)中的城市名稱的音素、例如"Mtochen"和其它的填充數(shù)據(jù)音素。例如可以對(duì)用于語(yǔ)音識(shí)別的不同路徑進(jìn)行建模 .. ............ 〈Miinchl ingen〉〈Miil 1〉〈Miil 1〉〈Miil 1〉〈Miil 1>
〈Mtochh£iusenXMiillXMiill> 在對(duì)應(yīng)于表達(dá)、即在一個(gè)句子中并且沒(méi)有中斷地輸入完整的目標(biāo)地址的、完整的音素序列中,預(yù)計(jì)不對(duì)應(yīng)于城市名稱的音素部分被填充數(shù)據(jù)覆蓋。這在關(guān)于圖4示出的實(shí)例中可以是那些跟隨在預(yù)先給定數(shù)目的開(kāi)始音素之后的表達(dá)部分。通過(guò)建立用于語(yǔ)音識(shí)別的相應(yīng)HMM模型,其中只顧及相關(guān)的表達(dá)部分、即對(duì)于第一步驟來(lái)說(shuō)相關(guān)的第一表達(dá)部分A1,可以使用比對(duì)于HMM模型來(lái)說(shuō)小得多的詞匯表并且因此較小的存儲(chǔ)空間,其中該HMM模型必須顧及所有表達(dá)部分A1-A5的所有音素。 還可設(shè)想,通過(guò)對(duì)表達(dá)進(jìn)行能量測(cè)量來(lái)確定不同表達(dá)部分A1-A5的開(kāi)始和結(jié)束。在所說(shuō)出的詞之間,經(jīng)常出現(xiàn)暫?;蛘咚a(chǎn)生的聲音的特別小的能量。在圖4中特別在時(shí)刻^,^,^,^,^和te情況如此。這種最小量的確定因此可以用于確定不同表達(dá)部分之間的界線。然而,還公知其它標(biāo)準(zhǔn)化的語(yǔ)音活動(dòng)識(shí)別。為了確定詞界線,使用所謂的VAD (VoiceActivity Detection,語(yǔ)音活動(dòng)檢測(cè))方法。原則上,對(duì)于第一語(yǔ)音識(shí)別步驟Sl而言用于
9確定相應(yīng)表達(dá)部分的任意方法都是有可能的。 通常的語(yǔ)音識(shí)別方法具有連續(xù)的步驟,如特性或特征計(jì)算、發(fā)射計(jì)算以及搜索。在特征計(jì)算的情況下,所得到的音頻信號(hào)被轉(zhuǎn)換為特征、例如MFCC特征??梢詮囊纛l信號(hào)中提取該一般被標(biāo)準(zhǔn)化的特征以用于真正的語(yǔ)音識(shí)別??梢岳缤ㄟ^(guò)將所得到的音頻信號(hào)或所得到的表達(dá)首先劃分為塊或者窗來(lái)計(jì)算MFCC。然后,對(duì)每個(gè)窗執(zhí)行傅立葉變換并且生成幅度譜(Betragspektrum)。對(duì)該幅度譜求對(duì)數(shù),以便模仿人類的聽(tīng)覺(jué)。在一般情況下大量的出現(xiàn)的頻帶被組合為少量頻帶、例如40個(gè)頻帶。然后,執(zhí)行離散余弦變換或者進(jìn)行主分量分析。普遍公知MFCC的計(jì)算。 在隨后的語(yǔ)音識(shí)別步驟中,將所計(jì)算的特征(例如MFCC)與通過(guò)HMM所產(chǎn)生的向
量進(jìn)行比較。由此得出HMM中的段的偏移的間隔或者度量。這也被稱為發(fā)射或者發(fā)射概率。
語(yǔ)音識(shí)別所基于的詞匯表具有狀態(tài)序列,該狀態(tài)序列具有段的相互連接。在最后的搜索步
驟中,為了從詞匯表或搜索詞匯中確定識(shí)別結(jié)果或者命中詞,執(zhí)行基于識(shí)別詞匯表的發(fā)射
并且在必要時(shí)基于語(yǔ)法或者語(yǔ)音模型的搜索。為了在HMM模型的詞匯表中辨識(shí)所得到的表
達(dá)或所得到的表達(dá)部分,例如可以進(jìn)行樹(shù)型搜索,但是也可設(shè)想其它搜索算法。 因此,步驟S1中的部分語(yǔ)音識(shí)別提供對(duì)于城市名稱具有N個(gè)列表一致
(ListenUbereinstimmung)的命中列表。在圖5中,這在左側(cè)被示出。作為可能的命中詞,
部分語(yǔ)音識(shí)別得出例如"Miinchen"Hl, "Miinchlingen"H2和直到"Miinchhausen" HN的其它項(xiàng)。 參照?qǐng)D3,現(xiàn)在在步驟T3中可以從存儲(chǔ)器中刪除詞匯表。在步驟T4中,現(xiàn)在創(chuàng)建用于語(yǔ)音識(shí)別方法的第二級(jí)的另一詞匯表并且將其寫入存儲(chǔ)器中。通過(guò)讀出屬于命中詞H1-HN的城市名稱的街道名稱來(lái)創(chuàng)建相應(yīng)的識(shí)別詞匯表。 在圖5的中間列中,對(duì)于第一命中詞Milnchen H1需要M個(gè)街道名稱。在相應(yīng)地分層組織的數(shù)據(jù)庫(kù)中,為"Miinchen" Hl例如分配有項(xiàng)SN11-SNIM。對(duì)于次優(yōu)命中詞H2 "Miinchlingen",在數(shù)據(jù)庫(kù)中存在O個(gè)街道名稱SN21-SN20。對(duì)于第N個(gè)命中詞HN "Miinchhausen",在數(shù)據(jù)庫(kù)中存在項(xiàng)SNN1-SNNP。此夕卜,為了識(shí)別目標(biāo)輸入"MiinchenOtto-Hahn-Ring 6"的完整語(yǔ)音識(shí)別,還需要各個(gè)街道名稱SN11-SN1M, SN21-SN20和SNN1-SNNP的門牌號(hào)碼。在此不需要為每個(gè)街道名稱使用詞匯表的最大可能數(shù)目的門牌號(hào)碼。更確切地說(shuō),可以顧及,例如Miinchen中的ArabellastaP e SN11具有100個(gè)門牌號(hào)碼NB111-NB11Q,其中Q = 100。在另一城市中,另一數(shù)目的門牌號(hào)碼是可能的。MiinchenHl中的Zweigweg SN1M例如只具有四個(gè)門牌號(hào)碼NB1M1-NB1MR,其中R = 4。
類似地,用于總體語(yǔ)音識(shí)別、即總體表達(dá)A的詞匯表只利用搜索詞(即城市名稱、街道名稱和門牌號(hào)碼)的組合來(lái)編排和編譯,如根據(jù)第一部分語(yǔ)音識(shí)別結(jié)果、即命中詞H1-HN所需的。通過(guò)用于識(shí)別總體表達(dá)A的識(shí)別詞匯表的這種劇烈減小,可以利用資源短缺的計(jì)算機(jī)系統(tǒng)或者在資源短缺的計(jì)算機(jī)系統(tǒng)上進(jìn)行實(shí)施。此外,通過(guò)減少數(shù)據(jù)庫(kù)4與嵌入式系統(tǒng)14之間的待傳輸?shù)臄?shù)據(jù),用于初始化語(yǔ)音識(shí)別的傳送時(shí)間也更短。
然后,在隨后的總體語(yǔ)音識(shí)別步驟S2中,例如通過(guò)HMM語(yǔ)音識(shí)別來(lái)獲得具有命中詞的相應(yīng)結(jié)果。這在步驟T5中例如通過(guò)諸如顯示器的輸出裝置示出給用戶。由于在步驟S2中的總體語(yǔ)音識(shí)別的情況下有限的搜索空間、即專門預(yù)先給定的減小的詞匯表,識(shí)別速率也特別高,因?yàn)橥ㄟ^(guò)在第二級(jí)中對(duì)識(shí)別詞匯表的專門選擇和創(chuàng)建,不合邏輯的或者不可
10能的搜索詞組合被排除在外或者至少受到抑制。 為了進(jìn)一步減少CPU2的計(jì)算負(fù)荷,此外可以規(guī)定再次使用在步驟S1的部分語(yǔ)音識(shí)別中已經(jīng)進(jìn)行過(guò)的計(jì)算、例如特征(諸如MFCC)的確定,并且在步驟S2中的詞匯表創(chuàng)建和/或總體語(yǔ)音識(shí)別時(shí)顧及到該計(jì)算。來(lái)自第一部分語(yǔ)音識(shí)別步驟Sl的特征或者發(fā)射概率可以被中間存儲(chǔ)并且在第二總體語(yǔ)音識(shí)別步驟S2中被再次使用。由此避免將會(huì)是冗余的多重計(jì)算。 除了在用于機(jī)動(dòng)車的導(dǎo)航系統(tǒng)中進(jìn)行目標(biāo)輸入的實(shí)例以外,還可設(shè)想其它的應(yīng)用可能性。例如可以在應(yīng)該是受語(yǔ)音控制的MP3播放器或者一般的音頻再現(xiàn)裝置的情況下,讓用戶說(shuō)出由藝術(shù)家、專輯和標(biāo)題組成的完整語(yǔ)句,并且首先對(duì)涉及藝術(shù)家的表達(dá)部分進(jìn)行部分語(yǔ)音識(shí)別。然后,在第二語(yǔ)音識(shí)別步驟中,明顯減小了的識(shí)別詞匯表范圍是有可能的。用戶在任何情況下都不必將總體表達(dá)手動(dòng)地分成單個(gè)部分或者確認(rèn)各個(gè)表達(dá)部分。在此,在待識(shí)別的許多部分或多部分的表達(dá)的情況下,所示出的方法使得能夠進(jìn)行特別舒適的并且用戶有好的語(yǔ)音識(shí)別。 圖6A和6B示出根據(jù)本發(fā)明的變形方案的兩級(jí)語(yǔ)音識(shí)別方法的可能的時(shí)序圖。在此,時(shí)間軸從上向下延伸,其中四條平行虛線被動(dòng)作或方法步驟占用,這些動(dòng)作或方法步驟由語(yǔ)音識(shí)別系統(tǒng)或語(yǔ)音識(shí)別設(shè)備的不同的元件或者裝置(如例如在圖1中所示出的)來(lái)執(zhí)行。 對(duì)此示出語(yǔ)音識(shí)別單元2,該語(yǔ)音識(shí)別單元2例如可以由CPU連同合適的程序設(shè)計(jì)例如通過(guò)R0M存儲(chǔ)器7中的語(yǔ)音識(shí)別軟件來(lái)實(shí)現(xiàn)。為了簡(jiǎn)便起見(jiàn),該方框配備有附圖標(biāo)記2。為共同使用的存儲(chǔ)器、例如RAM存儲(chǔ)器6分配第二條垂直的虛線。為如下單元4分配第三條垂直的虛線,該單元4為識(shí)別裝置或者識(shí)別軟件提供用于詞匯表的相應(yīng)音素。這例如可以直接由數(shù)據(jù)庫(kù)4提供,或者借助于合適的程序設(shè)計(jì)也由CPU通過(guò)提供所謂的音素服務(wù)的程序部分來(lái)供應(yīng)。右側(cè)的垂直虛線被分配給輸入/輸出裝置12、例如GUI,該GUI可以例如被實(shí)施為觸摸屏或者組合的鍵盤_顯示器_單元。 例如在步驟R1中通過(guò)由用戶通過(guò)GUI12輸入國(guó)家標(biāo)識(shí)來(lái)開(kāi)始該語(yǔ)音識(shí)別方法。該輸入被傳輸給識(shí)別單元2。在下文中,例如程序部分被理解為識(shí)別單元,該程序部分在可編程計(jì)算機(jī)裝置、如CPU2上實(shí)現(xiàn)語(yǔ)音識(shí)別功能。然后,識(shí)別單元2在步驟T21中開(kāi)始向數(shù)據(jù)庫(kù)或音素服務(wù)4詢問(wèn)用于相應(yīng)國(guó)家的相應(yīng)的第一詞匯表。在語(yǔ)音識(shí)別的第一級(jí)中有必要的是,在例如對(duì)于導(dǎo)航系統(tǒng)進(jìn)行目標(biāo)輸入的實(shí)例中,創(chuàng)建用于城市名稱的部分詞匯表,其中如果將HMM模型用于語(yǔ)音識(shí)別,則其余的表達(dá)部分、S卩那些不與涉及城市名稱的期望表達(dá)部分相對(duì)應(yīng)的表達(dá)部分在HMM模型的范圍內(nèi)利用垃圾數(shù)據(jù)來(lái)建模。 CPU或識(shí)別單元2向音素?cái)?shù)據(jù)庫(kù)4或音素服務(wù)4發(fā)送相應(yīng)的音素詢問(wèn)R2。于是,在步驟R3中將必要的音素和/或其它說(shuō)明寫入語(yǔ)音識(shí)別設(shè)備1的共同使用的存儲(chǔ)器6中,其中所述其它說(shuō)明可能對(duì)于語(yǔ)音識(shí)別軟件來(lái)說(shuō)是必需的。所使用的存儲(chǔ)區(qū)域相對(duì)于完整的數(shù)據(jù)庫(kù)4是小的,因?yàn)橹粚?duì)城市名稱、即一個(gè)表達(dá)部分進(jìn)行主動(dòng)建模,而要記錄的表達(dá)的其余表達(dá)部分在第一識(shí)別步驟中都是不重要的。在將必要的音素?cái)?shù)據(jù)寫入存儲(chǔ)器之后,這在步驟R4中利用確認(rèn)信號(hào)(Quittungssignal)或者完成命令來(lái)結(jié)束。音素服務(wù)4同樣向識(shí)別單元提供確認(rèn)信號(hào)R5,該識(shí)別單元于是在后續(xù)步驟R6中從共同使用的存儲(chǔ)器6中讀出現(xiàn)有的音素?cái)?shù)據(jù)。
相應(yīng)的識(shí)別軟件或者識(shí)別裝置2現(xiàn)在在步驟T22中創(chuàng)建用于執(zhí)行第一部分語(yǔ)音識(shí)別的第一詞匯表,例如對(duì)于HMM模型來(lái)說(shuō),利用垃圾或者填充數(shù)據(jù)用于不會(huì)顧及的表達(dá)部分。然后可以在步驟R7中釋放用于音素?cái)?shù)據(jù)的存儲(chǔ)區(qū)域。這被通知給音素服務(wù)單元4。在步驟R4之后,部分語(yǔ)音識(shí)別完全準(zhǔn)備就緒。 因此可以在步驟8中例如通過(guò)GUI12向用戶傳輸輸入請(qǐng)求。 一種可能性,用戶通過(guò)"Push-to-Talk(按鍵通話)"說(shuō)出導(dǎo)航系統(tǒng)的完整的目標(biāo)地址。這在步驟T1中進(jìn)行。在此,用戶在完整的語(yǔ)句中輸入總的目標(biāo)地址,而不通過(guò)GUI進(jìn)行其它輸入。在Push-to-Talk的情況下,語(yǔ)音輸入的開(kāi)始由用戶通過(guò)信號(hào)、例如按鈕按下來(lái)通知識(shí)別單元。由此,表達(dá)的固定定義的開(kāi)端被預(yù)先給定,這降低了計(jì)算花費(fèi),因?yàn)椴槐匕嘿F地確定表達(dá)開(kāi)端,其中所述表達(dá)待由識(shí)別單元或軟件來(lái)識(shí)別。 因此,在步驟R9中開(kāi)始第一部分語(yǔ)音識(shí)別以用于從詞匯表中確定搜索詞的命中列表,該詞匯表在這種情況下包括N個(gè)具有最佳城市名稱的命中詞的列表。具有第一命中詞H1-HN的示例性列表在圖5中示出。該語(yǔ)音識(shí)別的第一級(jí)在步驟Sl中的結(jié)果也可以選擇性地在步驟RIO中由GUI顯示。然而,這不是強(qiáng)制性必需的,因?yàn)檎Z(yǔ)音識(shí)別在第二級(jí)中也自動(dòng)地顧及其它表達(dá)部分、即那些涉及街道名稱和門牌號(hào)碼的表達(dá)部分。為此必須首先為語(yǔ)音識(shí)別單元2提供新的詞匯表。 因此,在步驟Rll中針對(duì)涉及語(yǔ)音識(shí)別的第一級(jí)的第一命中詞Hl的街道名稱和/或門牌號(hào)碼進(jìn)行對(duì)音素?cái)?shù)據(jù)的詢問(wèn)。相應(yīng)的音素?cái)?shù)據(jù)在步驟R12中被傳輸?shù)焦餐褂玫拇鎯?chǔ)器6中,這在步驟R7中被確認(rèn)并且在步驟R14中被通知給識(shí)別單元2。在步驟R15中,識(shí)別單元2讀取相應(yīng)的音素?cái)?shù)據(jù)并且在步驟T41中創(chuàng)建用于語(yǔ)音識(shí)別的第二級(jí)的詞匯表,該詞匯表涉及第一級(jí)的第一命中詞Hl。 類似地,在步驟R16中向音素?cái)?shù)據(jù)庫(kù)4詢問(wèn)其它命中詞(例如第二命中詞H2)的街道名稱數(shù)據(jù)。在步驟R17中,相應(yīng)音素?cái)?shù)據(jù)又被寫入存儲(chǔ)器中,這在步驟R18被確認(rèn),并且在步驟R19中由音素?cái)?shù)據(jù)庫(kù)通知給識(shí)別裝置2。因此,音素?cái)?shù)據(jù)庫(kù)或者音素服務(wù)4確認(rèn)成功地將所詢問(wèn)的音素?cái)?shù)據(jù)傳輸?shù)阶R(shí)別單元2的存儲(chǔ)器6中。借助于現(xiàn)有音素?cái)?shù)據(jù)和對(duì)建立用于識(shí)別單元的詞匯表來(lái)說(shuō)所需要的可選的其它數(shù)據(jù),識(shí)別單元在步驟T42中創(chuàng)建用于語(yǔ)音識(shí)別的第二級(jí)的詞匯表,例如在圖5中借助于街道名稱SN21-SN20和門牌號(hào)碼NB21 l-NB21S以及NB201-NB20T所示出的那樣。相應(yīng)的音素?cái)?shù)據(jù)詢問(wèn)和詞匯表創(chuàng)建現(xiàn)在針對(duì)第一識(shí)別級(jí)的所有命中詞H1-HN進(jìn)行。借助于這樣建立起來(lái)的識(shí)別詞匯表,現(xiàn)在可以對(duì)總體表達(dá)進(jìn)行語(yǔ)音識(shí)別的第二級(jí)。 表達(dá)例如可以同樣在存儲(chǔ)器6中以數(shù)字化的形式被存放。因此,識(shí)別單元2在步驟R20中詢問(wèn)表達(dá),并且執(zhí)行第二語(yǔ)音識(shí)別步驟或者第二語(yǔ)音識(shí)別級(jí)S2。這利用根據(jù)第一識(shí)別級(jí)的結(jié)果被創(chuàng)建的詞匯表來(lái)進(jìn)行。最后,在步驟R21中進(jìn)行命中詞顯示,該命中詞顯示例如可以在圖4中所示的表達(dá)的情況下包括針對(duì)目標(biāo)地址的如下可能性
Miinchen Otto-Hahn-Ring 6,
Miinchen 0tto_Hahn_Ring 60,
Miinchen 0tto_Hahn_Weg 6,
Miinchen 0tto_Hahn_Ring 16。 用于語(yǔ)音識(shí)別的方法的上述變型方案減小了對(duì)于識(shí)別尤其是多部分表達(dá)來(lái)說(shuō)所需的詞匯表。因此,即使是資源短缺的嵌入式系統(tǒng)也能夠?qū)崿F(xiàn)不依賴于講話者的語(yǔ)音識(shí)別。在兩個(gè)或者可選地多個(gè)步驟中執(zhí)行對(duì)具有多個(gè)表達(dá)部分的復(fù)雜表達(dá)的語(yǔ)音識(shí)別。根據(jù)第一步驟的識(shí)別結(jié)果,創(chuàng)建后續(xù)步驟的詞匯表。雖然基本上借助于兩個(gè)識(shí)別級(jí)或者識(shí)別步驟闡
述了本發(fā)明,但是也可以容易地一般化(Verall gemeinerung)為多個(gè)步驟。在識(shí)別大詞匯時(shí),各個(gè)步驟或者識(shí)別級(jí)的詞匯表大小分別被明顯減小。 此外,用于語(yǔ)音識(shí)別的多級(jí)方法所具有的優(yōu)點(diǎn)是數(shù)據(jù)庫(kù)對(duì)相應(yīng)的音素?cái)?shù)據(jù)或者詞匯表數(shù)據(jù)進(jìn)行加載的時(shí)間減少。使具有多個(gè)表達(dá)部分的較長(zhǎng)表達(dá)經(jīng)受語(yǔ)音識(shí)別的傳統(tǒng)識(shí)別器必須在語(yǔ)音識(shí)別開(kāi)始時(shí)加載具有總體復(fù)雜性的完整的詞匯表。這加重了相應(yīng)的數(shù)據(jù)或通信總線的負(fù)載并且需要特別大的存儲(chǔ)器。通過(guò)根據(jù)本發(fā)明的變型方案的兩級(jí)或多級(jí)語(yǔ)音識(shí)別,只需要小的存儲(chǔ)空間,并且數(shù)據(jù)總線上的相應(yīng)音素?cái)?shù)據(jù)或詞匯表數(shù)據(jù)的傳輸有所減少。 通過(guò)使用來(lái)自第一識(shí)別步驟的前幾個(gè)、例如N個(gè)命中詞,識(shí)別速率與通常的策略相比也有所改進(jìn),其中在通常的策略的情況下,對(duì)于第一表達(dá)部分和第二表達(dá)部分執(zhí)行獨(dú)立的識(shí)別方法。這可以在具有上位概念(如城市名稱)和進(jìn)一步分配的概念(如街道名稱和門牌號(hào)碼)的分層數(shù)據(jù)庫(kù)的情況下尤其通過(guò)使用邏輯聯(lián)系或者一致性檢查而發(fā)生。如果在第一識(shí)別級(jí)中例如確定N = 20個(gè)命中詞,其中表達(dá)是"MiinchenOtto-Hahn-Ring6"并且例如由于干擾情況"Mtochen"只在第十八個(gè)位置處被識(shí)別,則如果在其余地點(diǎn)、如Miinchlingen或者M(jìn)iinchhausen處或者不存在街道名稱"Otto-Hahn-Ring"或者只存在其它的門牌號(hào)碼,則組合"Milnchen Otto-Hahn-Ring 6 "仍然在第二級(jí)中作為最佳命中詞出現(xiàn)。因此,第一和第二識(shí)別級(jí)的聯(lián)系提供復(fù)雜的多部分表達(dá)的特別可靠的語(yǔ)音識(shí)別。
因此,上述方法與通常的識(shí)別方法相比提供改進(jìn)的識(shí)別速率。需要減小了的存儲(chǔ)需求和計(jì)算需求。因?yàn)樵~匯表和音素?cái)?shù)據(jù)有所減少,所以數(shù)據(jù)總線負(fù)擔(dān)有更少的數(shù)據(jù)傳送。對(duì)音素?cái)?shù)據(jù)和/或部分詞匯表的訪問(wèn)更快,因?yàn)椴糠衷~匯表、例如具有許多街道名稱的特別大城市的街道名稱詞匯表可以被中間存儲(chǔ)。例如對(duì)應(yīng)于具有少量街道的小城市的詞匯表部分可以動(dòng)態(tài)地在線生成并且不必被預(yù)編譯。通過(guò)對(duì)于用戶來(lái)說(shuō)一級(jí)起作用的對(duì)待識(shí)別的復(fù)雜輸入表達(dá)的語(yǔ)音識(shí)別,目標(biāo)地址的輸入時(shí)間縮短。不需要由用戶進(jìn)行多級(jí)或者確認(rèn)過(guò)程。 雖然借助于語(yǔ)音識(shí)別方法的優(yōu)選實(shí)施例和變型方案來(lái)闡述了本發(fā)明,但是本發(fā)明并不限于此,而是可以多方面進(jìn)行修改。借助于導(dǎo)航系統(tǒng)的目標(biāo)輸入的前述示例可以改變。至少每當(dāng)包括多個(gè)表達(dá)部分的表達(dá)被分層組織時(shí)、即每當(dāng)例如第一表達(dá)部分是其它表達(dá)部分的上位概念時(shí),本發(fā)明可以改進(jìn)語(yǔ)音識(shí)別。就此而言,在圖5中示出的分支樹(shù)可以涉及各
種應(yīng)用,例如所提及的在音樂(lè)播放設(shè)備的情況下對(duì)音樂(lè)作品的搜索,其中可以使用例如表演者作為上位概念、使用專輯并且最后使用磁道號(hào)或者歌曲號(hào)作為進(jìn)一步的概念。表達(dá)部
分的數(shù)目及其在表達(dá)中的布置也可以改變。待識(shí)別的第一表達(dá)部分例如也可以位于總體表達(dá)的最后。
1權(quán)利要求
一種用于對(duì)待識(shí)別的表達(dá)(A)進(jìn)行語(yǔ)音識(shí)別的方法,所述表達(dá)(A)具有多個(gè)待識(shí)別的表達(dá)部分(A1-A5),其中對(duì)所選擇的第一表達(dá)部分(A1)進(jìn)行部分語(yǔ)音識(shí)別(S1)并且根據(jù)通過(guò)所述部分語(yǔ)音識(shí)別(S1)所識(shí)別出的針對(duì)第一表達(dá)部分(A1)的命中詞選擇來(lái)執(zhí)行對(duì)所述表達(dá)(A)的第一(A1)和其它表達(dá)部分(A2-A5)的語(yǔ)音識(shí)別(S2)。
2. 根據(jù)權(quán)利要求1所述的方法,其中借助于隱馬爾可夫模型來(lái)使所述第一表達(dá)部分(Al)經(jīng)受部分語(yǔ)音識(shí)別(Sl),在 所述隱馬爾可夫模型的情況下,利用填充數(shù)據(jù)來(lái)覆蓋其余的表達(dá)部分(A2-A5)以用于部分 語(yǔ)音識(shí)別(SI)。
3. 根據(jù)權(quán)利要求1或2所述的方法,其中所述第一表達(dá)部分(Al)通過(guò)確定所述表達(dá)(A)在時(shí)間上的能量變化被識(shí)別出并 且經(jīng)受部分語(yǔ)音識(shí)別(SI)。
4. 根據(jù)權(quán)利要求1-3之一所述的方法,其中所述第一表達(dá)部分(Al)通過(guò)所述表達(dá)(A)中的語(yǔ)音活動(dòng)識(shí)別被確定并且經(jīng)受部 分語(yǔ)音識(shí)別(SI)。
5. 根據(jù)權(quán)利要求1-4之一所述的方法,其中根據(jù)通過(guò)部分語(yǔ)音識(shí)別(SI)所識(shí)別出的針對(duì)所述第一表達(dá)部分(Al)的命中詞 (Hl-HN)選擇來(lái)執(zhí)行對(duì)總體表達(dá)的語(yǔ)音識(shí)別(S2)。
6. 根據(jù)前述權(quán)利要求之一所述的方法, 其中執(zhí)行下列方法步驟中的至少一個(gè)a) 記錄(Tl)表達(dá)(A),所述表達(dá)(A)包括多個(gè)表達(dá)部分(Al-A5);b) 提供第一詞匯表(T2),所述第一詞匯表包括由搜索詞、音素組合和/或轉(zhuǎn)移概率組 成的第一列表;c) 借助于所提供的第一詞匯表(SI)來(lái)執(zhí)行對(duì)所記錄的表達(dá)(A)的所選擇的第一表達(dá) 部分(Al)的部分語(yǔ)音識(shí)別(SI)以用于從搜索詞列表中確定命中詞(Hl-HN)選擇;d) 根據(jù)命中詞(Hl-HN)選擇提供第二詞匯表(T4),其中所述第二詞匯表包括由多個(gè)搜 索詞的搜索詞組合、音素組合和/或轉(zhuǎn)移概率所組成的列表;e) 借助于所述第二詞匯表來(lái)執(zhí)行對(duì)所記錄的表達(dá)(A)的語(yǔ)音識(shí)別(S2)以用于從搜索 詞組合列表中確定命中詞選擇。
7. 根據(jù)權(quán)利要求6所述的方法,其中所述命中詞(Hl-HN)選擇由搜索詞構(gòu)成,所述搜索詞對(duì)應(yīng)于第一詞匯表中針對(duì)部 分表達(dá)(Al)最可能的命中詞。
8. 根據(jù)權(quán)利要求6或7所述的方法,其中所述命中詞選擇由搜索詞組合構(gòu)成,所述搜索詞組合對(duì)應(yīng)于第二詞匯表中針對(duì)所 記錄的表達(dá)(A)最可能的命中詞。
9. 根據(jù)前述權(quán)利要求5-7之一所述的方法,其中所述第二詞匯表對(duì)應(yīng)于搜索詞組合,所述搜索詞組合通過(guò)將附加詞和/或附加詞 序分配給部分語(yǔ)音識(shí)別的命中詞(Hl-HN)來(lái)構(gòu)成。
10. 根據(jù)前述權(quán)利要求5-8之一所述的方法,其中所述方法被設(shè)計(jì)用于識(shí)別數(shù)據(jù)庫(kù)(4)的所說(shuō)出的項(xiàng),其中所述數(shù)據(jù)庫(kù)(4)被分層建立并且為相應(yīng)的上位概念分配其它概念,所述其它概念被分配有其它的下位概念。
11. 根據(jù)權(quán)利要求10所述的方法,其中所述上位概念包括城市名稱,所述其它概念包括街道名稱,并且所述其它的下位 概念包括門牌號(hào)碼。
12. 根據(jù)前述權(quán)利要求5-ll之一所述的方法,其中所述第二詞匯表具有總體表達(dá)的總體詞匯表的子選擇,并且從具有總體詞匯表的 其它搜索詞的第一詞匯表的搜索詞列表中所選擇的命中詞組合被從第二詞匯表中排除。
13. 根據(jù)前述權(quán)利要求5-12之一所述的方法,其中在執(zhí)行部分語(yǔ)音識(shí)別(Sl)之后,從存儲(chǔ)器中刪除(T3)第一詞匯表,并且讀入(T4) 第二詞匯表。
14. 根據(jù)前述權(quán)利要求之一所述的方法,其中在部分語(yǔ)音識(shí)別(Sl)的情況下所確定的所述表達(dá)(A)和/或表達(dá)部分(Al)的特 征、尤其是確定的MFCC特征和/或所計(jì)算的發(fā)射概率在對(duì)其它表達(dá)部分(A2-A5)和/或總 體表達(dá)(A)進(jìn)行語(yǔ)音識(shí)別(S2)的情況下被再次使用。
15. 根據(jù)前述權(quán)利要求之一所述的方法, 其中所述第一表達(dá)部分(Al)位于待識(shí)別的表達(dá)(A)的開(kāi)端。
16. 根據(jù)前述權(quán)利要求之一所述的方法, 其中對(duì)第二詞匯表的至少部分進(jìn)行預(yù)編譯。
17. 根據(jù)權(quán)利要求12和16所述的方法,其中針對(duì)總體詞匯表的部分詞匯表計(jì)算并存儲(chǔ)隱馬爾可夫模型的參照向量。
18. —種語(yǔ)音識(shí)別設(shè)備(1),其被設(shè)計(jì)為實(shí)施根據(jù)權(quán)利要求1-17之一所述的方法。
19. 根據(jù)權(quán)利要求18所述的語(yǔ)音識(shí)別設(shè)備(1), 其中所述語(yǔ)音識(shí)別設(shè)備被實(shí)施為尤其是用于汽車領(lǐng)域的嵌入式系統(tǒng)。
20. 根據(jù)權(quán)利要求18或19所述的語(yǔ)音識(shí)別設(shè)備(1),其中所述語(yǔ)音識(shí)別設(shè)備(1)具有耦合到數(shù)據(jù)庫(kù)裝置(4)上的控制裝置(2)和存儲(chǔ)器裝 置(5),其中所述數(shù)據(jù)庫(kù)裝置(4)提供詞匯表的搜索詞和/或該搜索詞的音素標(biāo)注。
21. 根據(jù)權(quán)利要求18-20之一所述的語(yǔ)音識(shí)別設(shè)備(1), 其中所述語(yǔ)音識(shí)別設(shè)備被設(shè)計(jì)為尤其是用于機(jī)動(dòng)車的導(dǎo)航系統(tǒng)的部分。
22. 根據(jù)權(quán)利要求18-21之一所述的語(yǔ)音識(shí)別設(shè)備(1),其中所述語(yǔ)音識(shí)別設(shè)備(1)被設(shè)計(jì)為移動(dòng)電話的部分和/或尤其是MP3播放器的音頻 再現(xiàn)裝置的部分。
23. —種機(jī)動(dòng)車,尤其是汽車,其具有根據(jù)前述權(quán)利要求之一所述的語(yǔ)音識(shí)別設(shè)備(1)。
24. —種計(jì)算機(jī)程序產(chǎn)品,其促使在受程序控制的語(yǔ)音識(shí)別設(shè)備(1)上執(zhí)行根據(jù)權(quán)利 要求1-17之一所述的方法。
全文摘要
本發(fā)明涉及一種用于對(duì)待識(shí)別的表達(dá)(A)進(jìn)行語(yǔ)音識(shí)別的方法,所述表達(dá)(A)具有多個(gè)待識(shí)別的表達(dá)部分(A1-A5),其中對(duì)所選擇的第一表達(dá)部分(A1)進(jìn)行部分語(yǔ)音識(shí)別(S1)并且根據(jù)通過(guò)部分語(yǔ)音識(shí)別(S1)所識(shí)別出的針對(duì)第一表達(dá)部分(A1)的命中詞選擇來(lái)執(zhí)行對(duì)表達(dá)(A)的第一(A1)和其它表達(dá)部分(A2-A5)的語(yǔ)音識(shí)別(S2)。
文檔編號(hào)G10L15/04GK101755301SQ200880025088
公開(kāi)日2010年6月23日 申請(qǐng)日期2008年6月18日 優(yōu)先權(quán)日2007年7月18日
發(fā)明者B·利特爾, J·F·吉塔特佩雷斯, M·萬(wàn)丁格爾 申請(qǐng)人:斯沃克斯公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1