語音對話系統(tǒng)中用于結果仲裁的系統(tǒng)和方法

文檔序號：2827634閱讀：251來源：國知局

語音對話系統(tǒng)中用于結果仲裁的系統(tǒng)和方法
【專利摘要】本發(fā)明涉及一種用于仲裁語音對話結果的方法，包括：從環(huán)境內的用戶接收語音發(fā)音；從第一源接收與語音發(fā)音相關聯(lián)的第一識別結果和第一置信水平；從第二源接收與語音發(fā)音相關聯(lián)的第二識別結果和第二置信水平；接收與用戶相關聯(lián)的人機界面（HMI）信息；基于第一置信水平、第二置信水平和HMI信息中的至少一個，在第一識別結果和第二識別結果之間進行選擇。
【專利說明】語音對話系統(tǒng)中用于結果仲裁的系統(tǒng)和方法
[0001]相關申請的交叉引用
本申請要求享有2013年7月12日提交的美國臨時專利申請61/845798的優(yōu)先權，該臨時申請的全部內容在此通過弓I用并入本申請中。

【技術領域】
[0002]本發(fā)明【技術領域】總體涉及語音系統(tǒng)，并且更具體而言涉及在可用的語音識別結果之間進行選擇的方法和系統(tǒng)。

【背景技術】
[0003]車輛語音對話系統(tǒng)(或“語音系統(tǒng)”)基于由車輛的乘客所發(fā)出的語音來執(zhí)行語音識別及其它。語音發(fā)音通常包括命令，這些命令與車輛的一個或多個特征以及車輛可訪問的其它系統(tǒng)進行通信或者對它們進行控制。語音系統(tǒng)響應于語音發(fā)音生成語音命令，并且在一些情況下，響應于語音識別而生成語音命令，其需要進一步的信息以便執(zhí)行語音識別。
[0004]越來越多地，可以通過用戶環(huán)境內的多個裝置以及外部可用服務器來提供語音識別功能。在車輛語音對話系統(tǒng)的情境中，例如，由用戶的移動裝置(通過駐留在移動裝置上的一個或多個應用?、車輛的車載語音系統(tǒng)、以及外部第三方服務器(其通過網(wǎng)絡聯(lián)接到車載通信網(wǎng)絡)同時獲得語音識別結果并非罕見。此外，系統(tǒng)產(chǎn)生語音識別結果所需要的時間以及與這些結果相關聯(lián)的置信水平可能差別很大。
[0005]因此，期望提供在語音系統(tǒng)中用于選擇或“仲裁”語音識別結果的改善的方法和系統(tǒng)。另外，本發(fā)明的其它所期望的特征和特性將從結合附圖以及前述【技術領域】和【背景技術】的下述詳細說明和權利要求變得清楚。

【發(fā)明內容】

[0006]根據(jù)一個實施例的用于仲裁語音對話結果的方法包括:從環(huán)境內的用戶接收語音發(fā)音；從第一源接收與語音發(fā)音相關聯(lián)的第一識別結果和第一置信水平；從第二源接收與語音發(fā)音相關聯(lián)的第二識別結果和第二置信水平；接收與用戶相關聯(lián)的人機界面(腿〗)信息；基于第一置信水平、第二置信水平和腿I信息中的至少一個，在第一識別結果和第二識別結果之間進行選擇。
[0007]根據(jù)一個實施例的車輛中的用于仲裁語音對話結果的系統(tǒng)包括:語義解釋模塊、快捷模塊和結果選擇模塊。語義解釋模塊構造成從環(huán)境內的用戶接收語音發(fā)音，從第一源接收與語音發(fā)音相關聯(lián)的第一識別結果和第一置信水平，以及從第二源接收與語音發(fā)音相關聯(lián)的第二識別結果和第二置信水平?？旖菽K構造成當?shù)谝恢眯潘礁哂陂撝禃r選擇第一識別結果。結果選擇模塊構造成當?shù)谝恢眯潘酱笥诘诙眯潘讲⑶业谝恢眯潘讲桓哂陂撝禃r選擇第一識別結果。
[0008]此外，本發(fā)明還涉及以下技術方案。
[0009]1.一種用于仲裁語音對話結果的方法，所述方法包括: 從環(huán)境內的用戶接收語音發(fā)音；
從第一源接收與所述語音發(fā)音相關聯(lián)的第一識別結果和第一置信水平；
從第二源接收與所述語音發(fā)音相關聯(lián)的第二識別結果和第二置信水平；
接收與所述用戶相關聯(lián)的人機界面(腿1)信息；
基于所述第一置信水平、所述第二置信水平和所述冊I信息中的至少一個，在所述第一識別結果和所述第二識別結果之間進行選擇。
[0010]2.如技術方案1所述的方法，其中，在所述第一識別結果和所述第二識別結果之間進行選擇包括如果所述第一置信水平高于閾值則選擇所述第一識別結果。
[0011]3.如技術方案2所述的方法，進一步包括，如果所述第一置信水平不高于所述閾值并且所述第一置信水平大于所述第二置信水平，則選擇所述第一識別結果。
[0012]4.如技術方案1所述的方法，其中，所述第一識別結果的至少一部分是預定的識別結果。
[0013]5.如技術方案1所述的方法，其中，所述第一識別結果中的每一個包括與對應的槽類型相關聯(lián)的一個或多個語言槽。
[0014]6.如技術方案5所述的方法，其中，所述語言槽類型包括人名和地址中的至少一個。
[0015]7.如技術方案1所述的方法，其中，在所述第一識別結果和所述第二識別結果之間進行選擇包括基于隱馬爾科夫模型進行選擇。
[0016]8.一種車輛中用于仲裁語音對話結果的系統(tǒng)，所述系統(tǒng)包括:
語義解釋模塊，所述語義解釋模塊構造成從環(huán)境內的用戶接收語音發(fā)音，從第一源接收與所述語音發(fā)音相關聯(lián)的第一識別結果和第一置信水平，以及從第二源接收與所述語音發(fā)音相關聯(lián)的第二識別結果和第二置信水平；
快捷模塊，所述快捷模塊構造成當所述第一置信水平高于閾值時選擇所述第一識別結果；以及
結果選擇模塊，所述結果選擇模塊構造成當所述第一置信水平大于所述第二置信水平并且所述第一置信水平不高于所述閾值時選擇所述第一識別結果。
[0017]9.如技術方案4所述的系統(tǒng)，其中，所述結果選擇模塊構造成接收!III狀態(tài)信息，并且還構造成部分地基于所述腿I狀態(tài)信息選擇所述第一識別結果。
[0018]10.如技術方案8所述的系統(tǒng)，其中，所述第一識別結果的至少一部分是預定的識別結果。
[0019]11.如技術方案8所述的系統(tǒng)，其中，所述第一識別結果中的每一個包括與對應的槽類型相關聯(lián)的一個或多個語言槽。
[0020]12.如技術方案11所述的系統(tǒng)，其中，所述語言槽類型包括人名和地址中的至少一個。
[0021]13.如技術方案11所述的系統(tǒng)，其中，在所述第一識別結果和所述第二識別結果之間進行選擇包括基于隱馬爾科夫模型進行選擇。
[0022]14.如技術方案10所述的系統(tǒng)，還包括事件計時器模塊，所述事件計時器模塊構造成確定當所述第一識別結果被接收時相關聯(lián)的第一時間，確定當所述第二識別結果被接收時相關聯(lián)的第二時間，并且，所述結果選擇模塊構造成部分地基于所述第一時間和所述第二時間來選擇所述第一識別結果。
[0023]15.如技術方案14所述的系統(tǒng)，還包括輸出模塊，所述輸出模塊構造成為用戶提供所選擇的第一識別結果，并且為所述事件計時器模塊提供重置信號。
[0024]16.一種非暫時性計算機可讀介質，所述計算機可讀介質承載軟件指令，所述軟件指令構造成使得處理器通過執(zhí)行以下步驟來仲裁語音對話結果:
從環(huán)境內的用戶接收語音發(fā)音；
從第一源接收與所述語音發(fā)音相關聯(lián)的第一識別結果和第一置信水平；
從第二源接收與所述語音發(fā)音相關聯(lián)的第二識別結果和第二置信水平；
接收與所述用戶相關聯(lián)的人機界面(腿1)信息；
基于所述第一置信水平、所述第二置信水平和所述冊I信息中的至少一個，在所述第一識別結果和所述第二識別結果之間進行選擇。
[0025]17.如技術方案16所述的計算機可讀介質，其中，所述軟件指令還使得所述處理器:如果所述第一置信水平高于閾值則選擇所述第一識別結果，從而在所述第一識別結果和所述第二識別結果之間進行選擇。
[0026]18.如技術方案16所述的計算機可讀介質，其中，所述軟件指令還使得所述處理器:如果所述第一置信水平不高于所述閾值并且所述第一置信水平大于所述第二置信水平，則選擇所述第一識別結果。
[0027]19.如技術方案16所述的計算機可讀介質，其中，所述第一識別結果中的每一個包括與對應的槽類型相關聯(lián)的一個或多個語言槽。
[0028]20.如技術方案16所述的計算機可讀介質，其中，所述語言槽類型包括人名和地址中的至少一個。

【專利附圖】

【附圖說明】
[0029]以下將結合所附的附圖描述示例性實施例，其中相同的附圖標記表示相同的元件，并且其中:
圖1是根據(jù)各個示例性實施例的包括語音系統(tǒng)的車輛的功能性框圖；
圖2是描述根據(jù)一個實施例的方法的流程圖；以及圖3是示出根據(jù)示例性實施例的語音識別仲裁系統(tǒng)的功能性框圖。

【具體實施方式】
[0030]以下的詳細描述本質上僅是示例性的且并不意在限制其應用和用途。另外，不應被在前述【技術領域】、【背景技術】、
【發(fā)明內容】
或以下的詳細描述中所給出的任何明示或暗示的理論所束縛。如本文中所用，術語“模塊”是指專用集成電路(八310、電子電路、處理器(共享，專用或成組的)以及執(zhí)行一種或多種軟件或固件程序的存儲器、組合邏輯電路和丨或提供所述功能的其它適合的構件。
[0031]現(xiàn)在參考圖1，根據(jù)本文描述的主題的示例性實施例，在車輛12內設有語音對話系統(tǒng)(或簡稱“語音系統(tǒng)”)10?？傮w而言，語音系統(tǒng)10通過人機界面模塊(1111) 14為一個或多個車輛系統(tǒng)提供語音識別、對話管理以及語音生成，人機界面模塊14構造成由一個或多個用戶40 (例如，駕駛員、乘客等)來操作(或與其交互這樣的車輛系統(tǒng)可包括例如電話系統(tǒng)16、導航系統(tǒng)18、媒體系統(tǒng)20、遠程信息系統(tǒng)22、網(wǎng)絡系統(tǒng)24以及可包括依賴語音的應用的任何其它車輛系統(tǒng)。在一些實施例中，一個或多個車輛系統(tǒng)通信地聯(lián)接到網(wǎng)絡(例如，專屬網(wǎng)絡、％網(wǎng)絡等),提供與一個或多個后端服務器26的數(shù)據(jù)通信。
[0032]在車輛12內還可以存在一個或多個移動裝置50，包括各種智能電話、平板電腦、功能型電話等。移動裝置50還可以通過適當?shù)臒o線連接(例如，藍牙或)通信地聯(lián)接到冊114，使得移動裝置50上駐留的一個或多個應用能夠通過！11114被用戶40訪問。因此，用戶40將通常能夠訪問在三個不同平臺上運行的應用:在車輛系統(tǒng)自身內執(zhí)行的應用，在移動裝置50上配置的應用，以及在后端服務器26上駐留的應用。此外，這些應用中的一個或多個可以根據(jù)它們各自語音對話系統(tǒng)操作，并且因此多個裝置能夠在不同程度上響應于用戶40所說出的請求。
[0033]語音系統(tǒng)10通過通信總線和丨或其它數(shù)據(jù)通信網(wǎng)絡29 (例如，有線的、短距離無線或長距離無線)與車輛系統(tǒng)14、16、18、20、22、24和26通信。通信總線可以是例如控制器局域網(wǎng)絡(…幻總線、本地互聯(lián)網(wǎng)絡([爪)總線等。將認識到的是，語音系統(tǒng)10可以用于包括一個或多個依賴語音的應用的基于車輛的環(huán)境和非基于車輛的環(huán)境，并且本文提供的基于車輛的示例被闡述而不失一般性。
[0034]如圖所示，語音系統(tǒng)10包括語音理解模塊32、對話管理器模塊34和語音生成模塊
35。這些功能模塊可以實現(xiàn)為分開的系統(tǒng)或組合的、集成的系統(tǒng)。總體而言，腿I模塊14從用戶40接收聲學信號(或稱“語音發(fā)音”)41，該聲學信號41被提供給語音理解模塊32。
[0035]語音理解模塊32包括構造成使用合適的語音識別技術處理來自冊I模塊14 (通過一個或多個麥克風52接收)的語音發(fā)音的硬件和/或軟件的任意組合，合適的語音識別技術包括例如自動語音識別和語義解碼(或口語理解(義們)。使用這些技術，語音理解模塊32由語音發(fā)音生成可能結果的結果列表(或多個列表?33。在一個實施例中，結果列表33包括一個或多個句子假設，句子假設代表了可能由用戶40說出的發(fā)音集合(例如，發(fā)音41)上的可能性分布。列表33可以米用例如X最佳列表的形式。在各個實施例中,語音理解模塊32使用存儲在數(shù)據(jù)庫中的預定可能(即一如丨丨加^! ￠0881)31111:168)生成結果列表(“語音識別結果”或簡稱“結果”)33。例如，預定可能可以是存儲在電話簿中的名字或號碼、存儲在地址簿中的名字或地址、存儲在音樂目錄中的歌曲名、專輯或藝術家，等等。在一個實施例中，語音理解模塊32采用前端特征提取，接著是隱馬爾科夫模型(目)以及評分機制。如以下更加詳細所述，語音理解模塊32可以在從多個裝置和/或系統(tǒng)接收到的多個語音識別結果之間仲裁，以產(chǎn)生最終的結果列表33。
[0036]對話管理器模塊34包括構造成基于列表33來管理交互序列以及選擇將要說給用戶的語音提示42的硬件和/或軟件的任意組合。當列表包含多于一個可能的結果時，對話管理器模塊34使用消除歧義策略，以便管理與用戶的提示對話，使得能夠確定所識別的結果。根據(jù)示例性實施例，對話管理器模塊34能夠管理對話上下文，如以下更加詳細所述。
[0037]語音生成模塊35包括構造成基于由對話管理器34所確定的對話來生成給用戶40的語音提示42的硬件和/或軟件的任意組合。在此方面，語音生成模塊35將通常提供自然語言生成(祖和語音合成，或文本至語音轉換(^幻。
[0038]結果列表33包括代表可能結果的一個或多個要素。在各實施例中，列表的各要素包括一個或多個“槽”，根據(jù)應用，每個槽與語言槽類型相關聯(lián)。例如，如果應用支持打電話給電話簿聯(lián)系人(例如，“呼叫允匕00,),則每個要素可以包括帶有名字、中間名、和/或姓氏的槽類型的槽。在另一示例中，如果應用支持導航(例如，“去1111陽光大道”)，則每個要素可以包括帶有房子號碼和大街名稱等的槽類型的槽。在各實施例中，槽和槽類型可以存儲在數(shù)據(jù)庫中，并且可以由任何一個所示系統(tǒng)訪問。列表33的每個要素或槽與置信分數(shù)相關聯(lián)。
[0039]除了語音對話之外，用戶40還可以通過各種按鈕、開關、觸摸屏用戶界面元件、姿態(tài)(例如，由車輛12內所設置的一個或多個攝像機所識別的手勢)等與冊114交互。在一個實施例中，按鈕54 (例如，“按下講話”按鈕或簡稱為“講話按鈕”)設置在一個或多個用戶40容易夠到的范圍內。例如，按鈕54可以嵌入在方向盤56中。
[0040]現(xiàn)在參考圖3，現(xiàn)在將結合圖2中描述的示例性仲裁方法200來描述根據(jù)一個實施例的語音識別仲裁系統(tǒng)300。在一些實施例中，系統(tǒng)300被實現(xiàn)為圖1所描述的語音理解模塊32的一部分。在其它實施例中，系統(tǒng)300駐留在圖1中所描述的一個或多個其它模塊中。
[0041]在所示的實施例中，系統(tǒng)300包括事件計時器模塊308、語義解釋模塊310、快捷模塊312、結果選擇模塊314、當前狀態(tài)信息306、以及輸出模塊318。事件計時器模塊308構造成接受多個語音識別結果(或簡稱“結果”)301-305 (步驟202，圖2?。語音識別結果301-305可以由多個源獲得和/或可以對應于通過多個語音識別技術所產(chǎn)生的結果。例如，結果301可能對應于通過統(tǒng)計語言模型(300的應用產(chǎn)生的結果，而結果302可能對應于通過有限狀態(tài)語法(53(0應用于同一語音發(fā)音而產(chǎn)生的結果。類似地，結果303可以由車載(或“嵌入的”)語音識別系統(tǒng)產(chǎn)生，諸如導航系統(tǒng)，而結果305可能由外部服務器(例如，圖1中的服務器26)產(chǎn)生。
[0042]事件計時器模塊308構造成接收各個結果301-305，并且確定接收到每個結果的時間(步驟204，圖2?。即，例如，結果301可能在特定時間(例如，發(fā)音被提交用于解釋的時間)之后的200毫秒(咖)被接收，而結果305 (來自外部服務器)可能在該特定時間之后的
3.0秒被接收。
[0043]語義解釋模塊310構造成接收結果301-305以及來自事件計時器模塊308的計時信息，并且構造成應用適當?shù)姆椒ㄒ员愦_定可應用于所接收結果的對話上下文和/或各種“槽”，如上所述(步驟206，圖2?。即，語義解釋模塊310構造成確定所接收結果的語義含義，并且還確定每個解釋的置信水平。語義解釋模塊310還可以從一個或多個源接收之前解釋的結果，例如來自外部服務器的結果305。
[0044]快捷模塊312構造成從各個源接收解釋的結果，并且確定(步驟208)是否被解釋的結果之一具有充分高的置信度(即，高于預先確定的閾值如果是，則解釋的結果被直接傳遞給輸出模塊318(步驟210),從而避免可能由接下來的處理所帶來的任何延遲。如同可由本領域技術人員理解的，預先確定的閾值可以根據(jù)結果301-305以及語義解釋模塊310的性質而變化。
[0045]在步驟208，如果確定沒有解釋的結果的置信度水平高于預先確定的閾值，則結果選擇模塊314基于與每個結果相關聯(lián)的置信度水平以及腿I狀態(tài)信息306在解釋的結果之間進行選擇(步驟211，圖2\在此方面，冊1狀態(tài)信息306包括與圖1的冊114的當前操作模式相關的任何信息。這種信息可能包括例如，觸摸屏上的當前屏幕，環(huán)境內的任何按鈕(例如，講話按鈕)的狀態(tài)，用戶是否正在與特定互聯(lián)網(wǎng)主機(例如，60006等)
交互，用戶是否正在與媒體交互，當前對話狀態(tài)，正顯示給用戶的內容，與車輛的狀態(tài)相關的信息(例如，靜止或移動),等等。使用腿I狀態(tài)信息306允許結果選擇模塊314做出更智能的選擇。例如，如果用戶正在與外部服務器上的(^00816 1叩8交互，則結果選擇模塊314將典型地等待外部結果305被接收，即使這些結果可能比來自其它源的結果更晚地被接收至I』(因為顯然用戶希望使用特定地來自該服務器的結果
[0046]輸出模塊318構造成提供所選擇的解釋結果330作為輸出(即，來自快捷模塊312的快捷結果或者來自結果選擇模塊314的所選擇結果在此方面，結果330可能對應于圖1中所示出的結果列表33。輸出模塊318還構造成重置事件計時器模塊308(即，將等待計時器設置回零
[0047]根據(jù)一個實施例，與系統(tǒng)300的操作有關的歷史數(shù)據(jù)被用于訓練系統(tǒng)300的各個構件，例如，更新語義解釋模塊310和結果選擇模塊314所用的模型。
[0048]盡管已經(jīng)在前述詳細說明中給出了至少一個示例性實施例，但應該懂得存在很多變化。還應當意識到，一個或多個示例性實施例僅是示例，并不意在以任何方式限制本發(fā)明的范圍、應用或構造。相反，前述詳細說明為本領域技術人員提供了一種簡便的方法來實施一個或多個示例性實施例。應當理解，在不偏離由權利要求書及其法律等同物闡明的本發(fā)明范圍的情況下，可對元件的功能和布置作出各種改變。
【權利要求】
1.一種用于仲裁語音對話結果的方法，所述方法包括: 從環(huán)境內的用戶接收語音發(fā)音；從第一源接收與所述語音發(fā)音相關聯(lián)的第一識別結果和第一置信水平；從第二源接收與所述語音發(fā)音相關聯(lián)的第二識別結果和第二置信水平；接收與所述用戶相關聯(lián)的人機界面(HMI)信息；基于所述第一置信水平、所述第二置信水平和所述HMI信息中的至少一個，在所述第一識別結果和所述第二識別結果之間進行選擇。
2.如權利要求1所述的方法，其中，在所述第一識別結果和所述第二識別結果之間進行選擇包括如果所述第一置信水平高于閾值則選擇所述第一識別結果。
3.如權利要求2所述的方法，進一步包括，如果所述第一置信水平不高于所述閾值并且所述第一置信水平大于所述第二置信水平，則選擇所述第一識別結果。
4.如權利要求1所述的方法，其中，所述第一識別結果的至少一部分是預定的識別結果O
5.如權利要求1所述的方法，其中，所述第一識別結果中的每一個包括與對應的槽類型相關聯(lián)的一個或多個語言槽。
6.如權利要求5所述的方法，其中，所述語言槽類型包括人名和地址中的至少一個。
7.如權利要求1所述的方法，其中，在所述第一識別結果和所述第二識別結果之間進行選擇包括基于隱馬爾科夫模型進行選擇。
8.—種車輛中用于仲裁語音對話結果的系統(tǒng)，所述系統(tǒng)包括: 語義解釋模塊，所述語義解釋模塊構造成從環(huán)境內的用戶接收語音發(fā)音，從第一源接收與所述語音發(fā)音相關聯(lián)的第一識別結果和第一置信水平，以及從第二源接收與所述語音發(fā)音相關聯(lián)的第二識別結果和第二置信水平；快捷模塊，所述快捷模塊構造成當所述第一置信水平高于閾值時選擇所述第一識別結果；以及結果選擇模塊，所述結果選擇模塊構造成當所述第一置信水平大于所述第二置信水平并且所述第一置信水平不高于所述閾值時選擇所述第一識別結果。
9.如權利要求4所述的系統(tǒng)，其中，所述結果選擇模塊構造成接收HMI狀態(tài)信息，并且還構造成部分地基于所述HMI狀態(tài)信息選擇所述第一識別結果。
10.如權利要求8所述的系統(tǒng)，其中，所述第一識別結果的至少一部分是預定的識別結果O
【文檔編號】G10L15/28GK104282305SQ201410329815
【公開日】2015年1月14日申請日期:2014年7月11日優(yōu)先權日:2013年7月12日
【發(fā)明者】R.D.辛斯三世申請人:通用汽車環(huán)球科技運作有限責任公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：R.D.辛斯三世
技術所有人：通用汽車環(huán)球科技運作有限責任公司
我是此專利的發(fā)明人

上一篇：樂音產(chǎn)生裝置、電子樂器以及樂音產(chǎn)生方法
上一篇：音樂品質檢測方法和裝置制造方法

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音對話系統(tǒng)相關技術

speak2me語音對話系統(tǒng)相關技術

智能語音對話系統(tǒng)相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音對話系統(tǒng)中用于結果仲裁的系統(tǒng)和方法