借助于語音輸入能夠控制的、具有功能裝置和多個語音識別模塊的輔助系統(tǒng)的制作方法

文檔序號：12288462閱讀：409來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

借助于語音輸入能夠控制的、具有功能裝置和多個語音識別模塊的輔助系統(tǒng)的制作方法

本發(fā)明處于自動化、電子技術(shù)和數(shù)據(jù)處理的領(lǐng)域內(nèi)并且能夠以特殊的好處在操作設(shè)備時使用，所述設(shè)備用在車輛或者其他運輸工具內(nèi)并且可以在語音控制的情況下使用，以便僅僅最小程度地占去對其他重要任務(wù)、例如車輛的駕駛進(jìn)行處理的用戶的注意力和操縱能力。例如這樣的輔助系統(tǒng)用于操作機動車中的裝置、例如導(dǎo)航系統(tǒng)和多媒體設(shè)備。

背景技術(shù)：

在語音控制下，例如車輛的駕駛員可以向其導(dǎo)航設(shè)備發(fā)出指示并且將所述指示與地址說明聯(lián)系起來。類似的指示可以結(jié)合電話機來進(jìn)行，從而可以說出收信人或者目標(biāo)電話號碼并且可以告知電話機，應(yīng)該用這個號碼做什么，例如是否要給這個電話號碼打電話或者是否要在所說明的電話號碼下面編制新的電話簿記錄。

相應(yīng)的語音識別方法在這期間如此得到發(fā)展，從而可以比較可靠地識別指示和地址。但是一旦用于指示和數(shù)據(jù)庫內(nèi)容、例如道路名稱的發(fā)音規(guī)則不再清楚的話，這樣的技術(shù)設(shè)備就碰到了極限。這樣的情況可能在下述情況下容易出現(xiàn)，駕駛員開著他的車到了外國，在那里講一種他并不掌握或者掌握得不好的語言。

經(jīng)?？尚械氖?，至少對于導(dǎo)航系統(tǒng)來說將一個國家的道路名稱以本地語言加以保存。此外，經(jīng)常也翻譯成另一種講得多的語言。但是難以保證，對于在可能的目標(biāo)國里的用戶的所有可考慮的母語來說——所述用戶可能會在所述目標(biāo)國里移動——將相應(yīng)的本國道路名稱按照發(fā)音以用戶的母語或者家鄉(xiāng)語言保存在數(shù)據(jù)庫中。

于是可以通過不同語言的發(fā)音相似性來嘗試：還是以目標(biāo)國的未掌握的語言為地址說明分配語音輸入，但是為此要使用不小的計算開銷并且由此要使用一種計算能力，該計算能力在通常在機動車內(nèi)所使用的嵌入式系統(tǒng)中不可用。

已經(jīng)部分地公開了用于掌控這些問題的解決嘗試。因此，在歐洲專利申請1975923 A1中介紹，為所說出的輸入內(nèi)容的特定元素編制所謂的混淆-或者相似性矩陣，該混淆-或者相似性矩陣表示一個詞與另一種語言的特定的其他詞的混淆可能性。根據(jù)這個混淆矩陣，可以借助于分配矩陣來最終嘗試為所說出的指令的特定元素分配具有提高了可能性的正確含義。但是，在這種情況下，似乎要類似地對所說出的消息的所有元素進(jìn)行處理，并且似乎針對所述元素中的每個元素的含義分配也允許用于不同語言的假設(shè)。由此，尤其對于組合的指令來說，含義分配十分麻煩而且復(fù)雜。

從美國專利申請2002/0091518 A1中公開了一種語音識別裝置，在該語音識別裝置中在區(qū)別特定的交流情況之后有選擇地使用兩個語音識別模塊。規(guī)則似乎是相同的，根據(jù)這些規(guī)則在各個模塊中進(jìn)行語音識別。

技術(shù)實現(xiàn)要素：

在現(xiàn)有技術(shù)的背景下，本發(fā)明的任務(wù)是，提供一種具有語音識別裝置的輔助系統(tǒng)，所述語音識別裝置在使用盡可能少的資源的情況下能夠跨語言地并且以盡可能高的精度/準(zhǔn)確度來識別語音輸入。

本發(fā)明用本發(fā)明的按照權(quán)利要求1的特征來解決。從屬權(quán)利要求說明了本發(fā)明的有利的設(shè)計方案。

與之相應(yīng)地，本發(fā)明涉及一種至少能夠部分地借助于語音輸入來控制的輔助系統(tǒng)，該輔助系統(tǒng)具有功能裝置和語音識別裝置，其中所述語音識別裝置具有至少一個第一語音識別模塊和第二語音識別模塊，所述第一語音識別模塊按照第一規(guī)則系統(tǒng)為語音輸入分配含義，并且第二語音識別模塊按照第二規(guī)則系統(tǒng)為語音輸入分配含義，其中分別根據(jù)所述兩個語音識別模塊之一的結(jié)果來確定，所述第一語音識別模塊處理語音輸入的哪些語段，所述第二語音識別模塊處理哪些語段。

按照本發(fā)明的輔助系統(tǒng)例如可以具有用于機動車的導(dǎo)航系統(tǒng)或者具有用于車內(nèi)或者車外的移動電話或者其他能夠語音控制的裝置的控制單元的多媒體控制系統(tǒng)來作為功能裝置。在所述語音識別裝置中使用兩個語音識別模塊，所述語音識別模塊根據(jù)不同的規(guī)則系統(tǒng)對語音輸入進(jìn)行解釋。這一點成為可能，可以讓所述兩個語音識別模塊以不同的語言或者根據(jù)不同的發(fā)音規(guī)則對語音輸入進(jìn)行處理。這一點成為可能，因為在現(xiàn)代的嵌入式系統(tǒng)中，剛好有足夠的計算機能力可供使用，以便同時或者交疊地運行多個語音識別模塊或者間歇地在其之間切換。由此可以將語音輸入劃分為多個語段，所述語段可以根據(jù)不同的規(guī)則系統(tǒng)通過不同的語音識別模塊來處理。將語音輸入劃分為語段的做法例如可以根據(jù)以下標(biāo)準(zhǔn)來進(jìn)行：第一部分以由語音識別模塊所掌握的用戶語言來輸入并且而后也被識別，而第二個語段則以另一種語言或者根據(jù)另一種語言的發(fā)音規(guī)則來輸入。這一點尤其是有利的，如果所述語音輸入的一部分涉及應(yīng)該在地址數(shù)據(jù)庫里、例如在導(dǎo)航系統(tǒng)中的地理地址或者移動通信裝置中的電話號碼中找到的說明。

本發(fā)明在此可以有利地通過以下方式來設(shè)計：所述語音識別模塊為了將含義分配給所述語段而使用來源于不同語言的規(guī)則。

本發(fā)明的一種有利的設(shè)計方案規(guī)定，所述語音識別模塊，根據(jù)其結(jié)果來確定所述語段，如此辨別語段，尤其是將所述語音輸入如此劃分為語段，使得所述語段中的至少一個第一語段基本上識別為工作指令，并且對于所述語段中的至少一個第二語段假定在地址數(shù)據(jù)庫中的記錄，該記錄尤其具有地名和路名或者地名和特殊地點(POI或者興趣點)的名稱。

確定所述語段、例如按照時間長度將所述語音輸入劃分為合適的部分的語音識別模塊，為此可以首先將語音輸入的部分與以所設(shè)定的用戶語言說出的可能的工作指令進(jìn)行比較，并且，一旦獲得與工作指令達(dá)到足夠的相似性就將相應(yīng)的、具有所述工作指令的語段與所述語音輸入的剩余部分隔開。然后所述語音輸入的剩余部分、也就是例如第二語段，可以被輸出給另一個語音識別模塊，以進(jìn)行進(jìn)一步處理。

在此可以連續(xù)地、也就是順序地，但是也可以交疊地或者同時在多個語音識別模塊中進(jìn)行處理。在同時處理時，所述兩個語音模塊可以在語音輸入中尋找優(yōu)選有待由其處理的語段并且相應(yīng)地建議劃分為語段。如果所建議的語段的劃分一致，那就可以根據(jù)相應(yīng)的建議來對所述語音輸入進(jìn)行劃分。如果由所述語音識別模塊所建議的語段劃分不一致，則可以規(guī)定，所述語音識別模塊之一在關(guān)于所述劃分進(jìn)行判定時具有優(yōu)先地位。

一般來說，一種專門識別工作指令的語音識別模塊可以以較大數(shù)目的用戶語言在沒有較大的開銷的情況下來運行。而旨在用于對所說出的、來自地址數(shù)據(jù)庫的地址進(jìn)行識別的語音識別數(shù)據(jù)則通常僅僅以十分有限數(shù)目的語言存在，因為對在數(shù)據(jù)庫中所保存的地址的發(fā)音的描述通常僅僅以本國語言來提供。

但是例如可以預(yù)先規(guī)定，所述地址或者名稱以源語言或者以流行的語言、例如英語、德語或者法語來發(fā)音，其中至少可以以主要考慮的語言作為輔助語言將相應(yīng)的發(fā)音描述保存到所述數(shù)據(jù)庫。這然后會引起以下優(yōu)點：相應(yīng)的數(shù)據(jù)庫不必翻譯成每種要考慮的用戶語言。這例如在一些國家中是有利的，這些國家與像例如大不列顛那樣的國家相比使用不太流行的語言、例如瑞典語或者挪威語。

此外，本發(fā)明的一種有利的設(shè)計方案規(guī)定，通過由使用者選擇的語言來設(shè)定語音識別模塊，根據(jù)所述語音識別模塊的結(jié)果確定/辨別語段。

此外可以有利地規(guī)定，所述語音識別模塊，根據(jù)其結(jié)果確定/辨別語段，是被設(shè)計用于對工作指令進(jìn)行識別的模塊。

以用戶語言來工作的語音識別模塊經(jīng)常具有比被設(shè)計用于以輔助語言對數(shù)據(jù)庫記錄進(jìn)行識別的語音識別模塊好的識別率。

但是也可以規(guī)定，所述語音識別模塊，根據(jù)其結(jié)果確定/辨別語段，被設(shè)計用于對地址數(shù)據(jù)庫中的記錄進(jìn)行識別。

此外，本發(fā)明的一種有利的設(shè)計方案規(guī)定，所述第一語音識別模塊根據(jù)所述輔助系統(tǒng)的第一用戶語言的規(guī)則和發(fā)音規(guī)則為語段分配含義、尤其是工作指令。

此外，可以有利地規(guī)定，所述第二語音識別模塊根據(jù)與第一用戶語言不同的第一輔助語言的規(guī)則、尤其是發(fā)音規(guī)則來為語段分配含義。

在此，尤其可以規(guī)定，所述第二語音識別模塊根據(jù)與第一用戶語言不同的第二輔助語言的規(guī)則、尤其是發(fā)音規(guī)則來為語段分配含義。

為了盡可能好地識別含義內(nèi)容，可以規(guī)定，也按照不同的規(guī)則系統(tǒng)為有待識別的語段分配不同的含義內(nèi)容，并且隨后按照所定義的度量標(biāo)準(zhǔn)(Metrik)來選擇最有可能的含義內(nèi)容。

在此也可以規(guī)定，相應(yīng)地按照至少兩種不同的輔助語言的發(fā)音規(guī)則來為有待識別的語段分別分配含義，并且按照所定義的度量標(biāo)準(zhǔn)來選擇最有可能的含義。

本發(fā)明也可以有利地通過以下方式來設(shè)計：在考慮到當(dāng)前所使用的用戶語言的情況下由所述輔助系統(tǒng)來選擇所述第一輔助語言并且尤其也選擇所述第二輔助語言。在此假設(shè)，所述輔助系統(tǒng)的用戶選擇一種他比較好地掌握的語言來作為用戶語言。由此可以推斷出與所述用戶語言不同的其他語言，但是所述其他語言的發(fā)音例如與所述用戶語言的發(fā)音比較類似并且所述其他語言供所述第二語音識別模塊的運行所用。例如，如果用戶將意大利語選擇作為使用語言，而意大利語沒有供所述第二語音識別模塊所用，那么對于所述第二語音識別模塊來說選擇西班牙語來作為輔助語言，因為掌握意大利語的用戶的西班牙語的發(fā)音可能比其英語的發(fā)音好。

如果例如瑞典語和丹麥語供識別地址數(shù)據(jù)庫中的地址所用并且如果用戶選擇了德語作為使用語言，那么例如作為輔助語言賦予瑞典語以優(yōu)先權(quán)，因為瑞典語的發(fā)音規(guī)則可能比丹麥語的發(fā)音規(guī)則更加類似于德語的發(fā)音規(guī)則。

但是也可以規(guī)定，能夠由用戶來選擇所述第一輔助語言并且尤其也能夠由用戶來選擇所述第二輔助語言。由此能夠?qū)⒖赡芑菊莆账鲚o助語言之一的用戶的偏好或者可能特殊的能力考慮在內(nèi)。

此外，本發(fā)明涉及一種輔助系統(tǒng)，也涉及一種用于運行上面所描述的類型的輔助系統(tǒng)的方法。

附圖說明

下面借助于實施例在附圖中示出本發(fā)明并且接下來對其進(jìn)行解釋。

在此：

圖1示意性地示出了具有用戶和輔助系統(tǒng)的機動車的示意圖；

圖2以示意形式示出了語音識別裝置；

圖3示出了被劃分為多個語段的語音輸入；

圖4示出了語音識別方法的第一流程圖；并且

圖5示出了語音識別方法的第二流程圖。

具體實施方式

圖1示意性地示出了一機動車1，該機動車具有坐在其中的用戶2以及輔助系統(tǒng)3，所述輔助系統(tǒng)僅僅示意地被勾畫出來并且包括車輛導(dǎo)航系統(tǒng)。所述輔助系統(tǒng)3具有語音輸入裝置4、語音識別裝置5以及用于真正導(dǎo)航的功能裝置6。而后例如GPS模塊與所述功能裝置相連接或者該功能裝置包括所述GPS模塊，所述GPS模塊確定車輛的瞬時位置/當(dāng)前位置、將其與目的地聯(lián)系起來并且從中確定線路或者導(dǎo)航指示并且將其輸出給駕駛員。

在圖2中示意性地更為詳細(xì)地示出了所述語音識別裝置5。該語音識別裝置5與麥克風(fēng)7相連接，由該麥克風(fēng)將由聲學(xué)信號通過該麥克風(fēng)已經(jīng)轉(zhuǎn)化為模擬的電信號的信號傳送到模數(shù)轉(zhuǎn)換器8中。所述信號從模數(shù)轉(zhuǎn)換器到達(dá)象征性地通過三角形示出的語音識別模塊9、10處。這兩個示出的語音識別模塊9、10相應(yīng)地形成所述語音識別裝置5的部件。

所述第一語音識別模塊9具有輸入部9a以及存儲裝置9b。所述輸入部9a按照一種算法將所述信號分解為矢量，使得這些矢量能夠被識別并且可以與在所述存儲裝置9b中所保存的參考矢量進(jìn)行比較。用于分解成矢量的算法例如可以包括傅里葉變換，使得所述矢量的要素意味著或者包括某些頻率分量的幅度，或者所述算法也可以包括多項式分解，使得所述矢量的各個分量意味著多項式分量，或者是兩種方法的組合或者也可以是另一種從現(xiàn)有技術(shù)中已知的、用于將聲學(xué)數(shù)據(jù)映射到音位上的方法。在表示出語音數(shù)據(jù)的特征之后，可以將所述語音數(shù)據(jù)與在所述存儲裝置9b中所保存的語音數(shù)據(jù)進(jìn)行比較，并且可以為所述語音數(shù)據(jù)分配由音位構(gòu)成的組合，所述音位根據(jù)預(yù)先給定的度量標(biāo)準(zhǔn)與基準(zhǔn)參量具有最大的相似性。

在此在所述存儲裝置9b中例如也包含了導(dǎo)航指令，例如“我想去…”或者“請向…行駛”或者“導(dǎo)航去…”等等。

所述第一語音識別模塊9由此可以確定，它是否識別所述語音輸入的部分作為導(dǎo)航指令。成功做到這一點的可能性比較高，因為對于所述導(dǎo)航的這個部分來說通常許多用戶語言可供使用，因而用戶可能會以其母語來說話并且由此正確發(fā)音并且對語音輸入進(jìn)行識別的可能性較高。

如果識別到導(dǎo)航指令，那么通常就剩下所述語音輸入的部分，該部分與地址相對應(yīng)并且并不總是能夠通過所述第一語音識別模塊9來識別。所述第一語音識別模塊9可以將這個語段與它已經(jīng)識別的語段分開，并且為進(jìn)行進(jìn)一步分析而將其傳輸給所述第二語音識別模塊10。但是所述兩個語音識別模塊——所述第一語音識別模塊9和所述第二語音識別模塊10也可以同時訪問所述語音輸入、也就是訪問通過所述模數(shù)轉(zhuǎn)換器來輸出的信號，使得所述語音模塊中的每個語音模塊可以識別，它可以成功地分析的語音輸入的部分。

所述第二語音識別模塊10按照本發(fā)明可以用與所述第一語音識別模塊不同的語音錄音數(shù)據(jù)(Lautumschriftdaten)來工作，這意味著，在將所述信號與地址數(shù)據(jù)庫10b中的記錄進(jìn)行比較時，可以以與所述用戶語言不同的語言、也就是例如第一輔助語言來發(fā)音。由此將所述語音信號按照以不是用戶語言的輔助語言的語音錄音與所述數(shù)據(jù)庫9b的記錄進(jìn)行比較。這例如可以是地址數(shù)據(jù)目錄的原始語言，也就是說對于瑞典語的地址目錄來說(也就是該地址目錄包含瑞典語的路名)這可能就是瑞典語。但是，瑞典語的路名的發(fā)音也可以根據(jù)英語的發(fā)音規(guī)則來作為基礎(chǔ)，或者所述發(fā)音也可以按照另一種可供使用的輔助語言來作為基礎(chǔ)。

通常在此必須假設(shè)，用戶的發(fā)音比在使用所述語音輸入的一部分的情況下更大地偏離以第一種或者第二種輔助語言進(jìn)行的理想發(fā)音，其中所述語音輸入的那部分以用戶語言來進(jìn)行并且通過所述第一語音識別模塊9來處理。但是，在為此所作的補償中，對于地址輸入來說沒有像在比較自由地輸入導(dǎo)航指令時那樣預(yù)料到如此多種多樣的、通過詞形變化或者其他改動引起的變化。

對于所述第二語音識別模塊10的分析任務(wù)來說，也將所述語音信號與不同的、在所述數(shù)據(jù)庫10b中所保存的語音錄音進(jìn)行比較，并且分配與所選擇的語段的語音信號最相似的記錄。在此，語音錄音也可以考慮同時用不同的輔助語言，在上面所介紹的實例中以英語和瑞典語，并且在與所述語音輸入的相似性方面彼此進(jìn)行比較，以便找到最佳匹配。在通過所述兩個語音識別模塊9、10對所述語音輸入的語段進(jìn)行處理之后，將相應(yīng)地通過所述語音識別模塊來分配的含義內(nèi)容組合起來，并且可以將其輸出給輸出裝置11，所述輸出裝置可以包括例如形式為屏幕的光學(xué)顯示器11a以及例如形式為揚聲器11b的聲學(xué)的輸出單元。于是，所識別的語段可以像它們已經(jīng)被識別了一樣再次被輸出，以便要求用戶來確認(rèn)。在確認(rèn)之后，將所識別的含義內(nèi)容傳輸給真正的功能裝置，所述功能裝置確定所述導(dǎo)航數(shù)據(jù)庫中的地址的地理位置并且與當(dāng)前位置建立關(guān)系。

圖3示意性地示出了一種語音輸入12，該語音輸入包含隨著時間(通過時間箭頭t示出)變化的聲學(xué)信號或者電信號，并且所述語音輸入能夠劃分為不同的語段12a、12b。也可以在一段語音輸入中存在二個以上、例如三個或者四個語段。

圖4示意性地示出了一種方法流程，在該方法流程中在第一步驟13中在按本發(fā)明的輔助系統(tǒng)內(nèi)由用戶說出的語音輸入，由麥克風(fēng)將其記錄下來并且將其轉(zhuǎn)換為電信號或者電信號曲線。在第二方法步驟14中，由第一語音識別模塊9以用戶語言來分析所輸入的語音信號，為語段——所述第一語音識別可以為該語段分配含義——分配含義內(nèi)容，并且將其余的語段傳輸給所述第二語音識別模塊，或者，如果所述語音信號作為整體同時由所述兩個語音識別模塊9、10來處理，那就在該時刻由所述第一語音識別模塊向所述第二語音識別模塊發(fā)送所述第二語音識別模塊在處理時應(yīng)該采用哪個語段的信息。

在可以與所述第二步驟14同時進(jìn)行或者在所述第二步驟14之后進(jìn)行的第三步驟15中，通過所述第二語音識別模塊10對所述語音信號的、未通過所述第一語音識別模塊9來處理的語段進(jìn)行分析。同樣為這個語段分配了一種含義，并且在第四步驟16中將所述第一和第二語音識別模塊9、10的所分配的含義內(nèi)容組合成總體解釋并且在第五步驟17中將其輸出。

圖5詳細(xì)地示出了一種過程，在該過程中使所述語音識別裝置適合于具有地址記錄的數(shù)據(jù)庫相匹配。例如在下述情形下會是這種情況，駕駛員通知導(dǎo)航設(shè)備：下一個目的地在另一個國家。

首先，輸入以下信息來作為輸入信號：要使用新的地址數(shù)據(jù)庫或者使用已經(jīng)用過的地址數(shù)據(jù)庫的新的以往未使用的部分。在第一步驟18中獲知，是否可以以在輔助系統(tǒng)的所使用的用戶語言來使用所述新的數(shù)據(jù)庫。如果是這種情況，則轉(zhuǎn)到方法過程19，其中以用戶語言對所述語音輸入的全部內(nèi)容、也就是說所有不同的語段進(jìn)行分析。

如果在所述新的數(shù)據(jù)庫中所述用戶語言得不到支持，則跳到步驟20，在該步驟中確定，所述新的數(shù)據(jù)庫是否支持以多種語言來識別地址數(shù)據(jù)。如果不是這種情況，則進(jìn)行到第二方法流程21，然后在該第二方法流程中所述第二語音識別模塊以唯一可供使用的語言識別地址數(shù)據(jù)，而所述第一語音識別模塊繼續(xù)以所述輔助系統(tǒng)的用戶語言來工作，而后以不同的語言對所輸入的語音信號的兩個語段進(jìn)行處理。

如果多種不同的語言被所述新的數(shù)據(jù)庫支持，也就是說，如果用于所述地址的語音錄音以不同的語言而存在，則跳到第三方法步驟22，在該第三方法步驟中確定，當(dāng)前用戶是否偏愛被新的數(shù)據(jù)庫所支持的語言中的一種語言。如果是這種情況，那這種語言被設(shè)定用于在第三方法流程23的范圍內(nèi)由所述第二語音識別模塊10進(jìn)行的處理。接下來關(guān)于包含導(dǎo)航指令的第一語段通過所述第一語音識別模塊以所述用戶語言對所述語音信號進(jìn)行分析，而包含地址數(shù)據(jù)的第二語段則以被用戶所偏愛的語言通過所述第二語音識別模塊來處理。

如果用戶沒有輸入由其偏愛的語言并且在所述系統(tǒng)中不存在所偏愛的語言，則從所述第三方法步驟23跳到第四方法步驟24，在該第四方法步驟中將預(yù)先給定的、被新的數(shù)據(jù)庫支持的輔助語言用于所述第二語音識別模塊的分析活動，而所述第一語音識別模塊則以所述用戶語言對語段進(jìn)行分析。

原則上，按照本發(fā)明的系統(tǒng)由此允許用戶一方面以用戶語言發(fā)出導(dǎo)航指令并且進(jìn)行地址輸入，并且如果所述用戶語言不能用于地址輸入，則對于所述地址可以使用其他的語言(輔助語言)。可以通過第二語音識別模塊以輔助語言來對地址進(jìn)行識別，而在第一語音識別模塊中則以用戶語言對工作指令進(jìn)行識別。通過在實施第一識別過程之后實施第二識別過程這種方式，沒有提高數(shù)據(jù)處理系統(tǒng)的負(fù)荷率。

但是，這兩個語音識別模塊也可以并行地工作。在這種情況下要忍受提高了的系統(tǒng)負(fù)荷率。但是，所述第二語音識別模塊必須將其以輔助語言所識別的語段與應(yīng)該以用戶語言來處理并且所述第二語言識別模塊沒有識別出的語段分開。

在一種順序地對不同語段進(jìn)行處理的變型方案中，可以首先通過以用戶語言來工作的第一語音識別模塊來識別語音信號并且將其劃分為第一和第二語段，其中所述第一語段可以以所述用戶語言并且所述第二語段可以以輔助語言來處理/識別。在劃分兩個語段時的不準(zhǔn)確性可能會提高潛在的錯誤率，因為可能在接下來的處理步驟中，如果所述第二語音識別模塊根據(jù)輔助語言的規(guī)則來實施識別，那就可能將所述語音信號的一部分作為不可識別的語段來拋棄。如果首先通過所述第一語音識別模塊來識別工作指令——該工作指令在所述語音信號中包圍所述第二語段中的地址部分或者在該地址部分之前——并且將原文一同轉(zhuǎn)交給所述第二語音識別模塊，那么對于所述第一語段與所述第二語段之間的過渡的建模以及通過所述第二語音識別模塊對所述第二語段進(jìn)行的識別就得到了簡化。為此，可以將所述語音信號的、已經(jīng)通過所述第一語音識別模塊識別的部分轉(zhuǎn)換為對所述第二語音識別模塊來說能夠識別的形式、也就是例如輔助語言的語音錄音，使得所述第二語音識別模塊也識別所述語音信號的、不必由其進(jìn)行分析的部分。由此在所述第二語音識別模塊內(nèi)能夠?qū)崿F(xiàn)對于整個語音信號的建模，由此提高所述第二語段中的地址部分的識別可靠性。對用于所述第二語音識別模塊的第一語段的額外的建模僅僅微不足道地提高了時間上的處理開銷，因為已經(jīng)知道了所述第一語段的內(nèi)容。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3