專利名稱:公共對話管理系統(tǒng)驅(qū)動多個應(yīng)用的方法
技術(shù)領(lǐng)域:
本發(fā)明總體涉及一種用于通過公共的至少部分基于語音的對話管理系統(tǒng)來驅(qū)動多個應(yīng)用的方法以及用于驅(qū)動多個應(yīng)用的對話管理系統(tǒng)。
人機接口領(lǐng)域的近來發(fā)展已經(jīng)導(dǎo)致借助于應(yīng)用和應(yīng)用用戶之間的對話來管理或驅(qū)動的技術(shù)設(shè)備或應(yīng)用的廣泛使用。大多數(shù)對話管理系統(tǒng)是基于可視信息的顯示和在用戶部分上的手動交互。例如,用戶利用個人數(shù)字助理而能夠進(jìn)入對話或?qū)υ捔饕员阌媱澕s會或讀取輸入的郵件。通過對話管理系統(tǒng)發(fā)布提示來執(zhí)行該對話,其中用戶借助于筆或鍵盤輸入來響應(yīng)所述提示。用戶能夠請求所述應(yīng)用以報告正在出現(xiàn)的或者在不久的將來將出現(xiàn)的事件。例如,個人數(shù)字助理能夠向用戶提示即將到來的約會或重要日子??梢栽陲@示器上圖形表示所述提示,并且該提示伴有諸如嘟嘟聲、咻咻聲或相似的人工聲響那樣聽得見的提示,以便引起用戶的注意并且提示他看顯示器以便看見應(yīng)用所傳遞的消息或提示??梢詫⑼活愋偷泥洁铰暬蜻葸萋曈米鳛橐话阋鹱⒁獾脑O(shè)備,或者可以使用幾種不同類型的聲音以指示不同類型的事件。在播放術(shù)語中,所述的嘟嘟聲通常被稱為“耳標(biāo)(earcon)”,即圖標(biāo)的可聽到的等價物。
只要在用戶和唯一一個應(yīng)用之間執(zhí)行所述對話,記住哪一個耳標(biāo)或嘟嘟聲與哪一個事件有關(guān)并不是特別困難。然而,如果對話管理系統(tǒng)管理用戶和多個應(yīng)用之間的對話,那么由于用于指示不同類型事件的聲音通常被限于嘟嘟聲和其他人工發(fā)生電子噪聲,所以會變得相當(dāng)混亂。用戶會被混淆并且將一種類型的聲音誤認(rèn)為是另一種,從而曲解該對話流。
然而,至少部分的基于語音的對話管理系統(tǒng)允許用戶進(jìn)入一種與應(yīng)用的單向或雙向的口頭對話。用戶能夠發(fā)布口頭命令并且從對話系統(tǒng)接收可視或聽得見的反饋。一種所述的實例是家用電子管理系統(tǒng),其中用戶發(fā)布口頭命令以激活例如視頻記錄器那樣的設(shè)備。另一實例可以是車輛中導(dǎo)航設(shè)備或另一設(shè)備的操作,其中用戶詢問設(shè)備的問題或者向設(shè)備發(fā)出命令,其給出響應(yīng)或反過來提出問題。更先進(jìn)的對話管理系統(tǒng)能夠發(fā)布口頭提示并且解釋口頭用戶輸入。例如如果用戶希望檢查他的電子郵箱的狀態(tài),他可以說“檢查我的郵箱”,對話管理系統(tǒng)在轉(zhuǎn)發(fā)必要的命令給應(yīng)用和解釋報告回的結(jié)果之后會適當(dāng)?shù)鼗卮稹澳阌朽]件”或者“郵箱是空的”。然而,這種口頭反饋會使人憤怒,即使其被限制成簡潔的短語時也能夠激怒人,特別是如果對話管理系統(tǒng)同時驅(qū)動多個應(yīng)用。例如,如果對話管理系統(tǒng)控制個人數(shù)字助理、個人計算機、電話、家庭娛樂系統(tǒng)和新聞及天氣服務(wù)之間的對話,那么以類似于“來自于某某先生的呼叫”、“天氣持續(xù)晴好”、“拜仁慕尼黑和皇家馬德里之間的比賽5分鐘后在頻道XYZ上開始-我應(yīng)當(dāng)記錄它嗎?”、“在接下來的兩周中檢查與牙科醫(yī)生的約會-你想預(yù)約嗎?”以及“5分鐘后與互聯(lián)網(wǎng)連接超時”等等的語音反饋持續(xù)質(zhì)問用戶。用戶最終會被正在輸出的音量分心,即使該消息是相關(guān)的、該信息已經(jīng)被專門請求的。
在Nitin Sawnhey于1998年在Massachusetts Institute ofTechnology所作的理學(xué)碩士論文“Contextual Awareness,Messaging andCommunication in Nomadic Audio Environments”中進(jìn)行了一種嘗試,試圖提供一種經(jīng)由作為語音反饋的伴隨物的聽覺圖標(biāo)而向用戶告知應(yīng)用的狀態(tài)的對話管理系統(tǒng)。該草案描述了一種能夠與遠(yuǎn)程服務(wù)器對接的便攜設(shè)備。通過通常戴在用戶翻領(lǐng)上的便攜音頻設(shè)備而能夠報告服務(wù)器上激活的一個或多個程序的狀態(tài)。該設(shè)備限于僅從在所述遠(yuǎn)程服務(wù)器上運行的不同程序中接收消息并且監(jiān)控這些程序的活動(所有相似的屬性),從而能夠?qū)嶋H上將它們認(rèn)為是單個應(yīng)用。但是在該草案中并沒有預(yù)見通過其中用戶既能監(jiān)控又能控制這些不同應(yīng)用的公共對話系統(tǒng)進(jìn)行的多個獨立應(yīng)用的實際驅(qū)動,甚至是不同屬性的應(yīng)用的實際驅(qū)動。
所以,本發(fā)明的一個目標(biāo)是提供一種容易、廉價的方法,確保用戶進(jìn)行不同應(yīng)用之間舒適和簡單的區(qū)別,其中用戶使用公共對話管理系統(tǒng)和不同的應(yīng)用程序進(jìn)行交互,該方法尤其確保了用戶將不會把預(yù)定用于一個應(yīng)用的命令錯誤地發(fā)布到另一個應(yīng)用。
為此目的,本發(fā)明提供一種通過公共對話管理系統(tǒng)來驅(qū)動多個應(yīng)用的方法,其中向每一應(yīng)用分配唯一的聽覺圖標(biāo)集,并且其中公共對話管理系統(tǒng)通過在對話流的特定點上聽得見的重放從應(yīng)用唯一的聽覺圖標(biāo)集中選擇的相關(guān)聽覺圖標(biāo)而向用戶告知該應(yīng)用的狀態(tài)?!奥犛X圖標(biāo)”可以是任意類型的聲音或用于描述來自應(yīng)用的特定類型的反饋的專用聲音塊,諸如人工短音塊(耳標(biāo))或者類似于現(xiàn)實聲音的聲音塊,諸如相關(guān)聲音的錄音。
根據(jù)本發(fā)明的對話管理系統(tǒng)包括輸入檢測裝置,用于檢測用戶對系統(tǒng)的輸入;聲音輸出裝置,用于輸出聽得見的提示;核心對話引擎,用于通過解釋用戶輸入和產(chǎn)生輸出提示來協(xié)調(diào)對話流;應(yīng)用接口,用于對話管理系統(tǒng)和應(yīng)用之間的通信;被分配給應(yīng)用的唯一的聽覺圖標(biāo)集的源;以及聽覺圖標(biāo)管理單元,用于從與應(yīng)用相對應(yīng)的唯一的聽覺圖標(biāo)集中選擇在對話流中的特定點處用于重放的相關(guān)聽覺圖標(biāo)。
使用根據(jù)本發(fā)明的對話管理系統(tǒng)來驅(qū)動多個應(yīng)用,用戶能夠很容易地區(qū)分來自于不同應(yīng)用的不同類型的反饋。由于應(yīng)用所報告回的每一類型的反饋伴有唯一意義的聽覺聲音,用戶很容易將其與相應(yīng)的應(yīng)用相關(guān)聯(lián),所以用戶沒有被混淆的危險,并且將不會把一種類型的反饋與另一種類型的反饋弄錯。唯一的聽覺圖標(biāo)使用戶總是知曉有關(guān)他當(dāng)前正在交互的應(yīng)用的信息。這確保了用戶不會把預(yù)定用于一個應(yīng)用的命令錯誤地發(fā)布到另一個應(yīng)用。因此,本發(fā)明特別有利于專門的語音控制的對話管理系統(tǒng);或者特別有利于這樣一種應(yīng)用,其中對于用戶而言,必須看屏幕以跟蹤對話是行不通的或者危險的,所述系統(tǒng)諸如是用戶不能轉(zhuǎn)移對交通的注意力的自動導(dǎo)航系統(tǒng),或外科醫(yī)生在總是知曉該手術(shù)過程狀態(tài)的同時必須保持集中精力于正在進(jìn)行的手術(shù)過程的計算機輔助外科手術(shù)過程。因此,本發(fā)明允許通過公共對話系統(tǒng)來驅(qū)動甚至不同屬性的多個獨立的應(yīng)用以及允許用戶監(jiān)控和控制該應(yīng)用。
從屬權(quán)利要求特別公開了本發(fā)明的優(yōu)選實施例和特征,借助于此,根據(jù)方法權(quán)利要求的特征而能夠進(jìn)一步開發(fā)該系統(tǒng)。
可以將根據(jù)本發(fā)明的對話管理系統(tǒng)結(jié)合到已存在的設(shè)備中,諸如PC、電視、錄像機等等,并且將家庭和/或辦公室環(huán)境中運行的各種應(yīng)用的狀態(tài)告知用戶。在優(yōu)選的實施例中,將對話管理系統(tǒng)實施為具有諸如機器人或優(yōu)選為人的物理形態(tài)的獨立設(shè)備??梢詫υ捪到y(tǒng)實現(xiàn)為例如DE10249060A1所述的以如下方式構(gòu)造的專用設(shè)備具有示意性面部特征的可移動部分能夠面向用戶,給出該設(shè)備正傾聽用戶的印象。甚至可以以如下方式構(gòu)建對話管理系統(tǒng)當(dāng)用戶從一個房間到另一房間時,其能夠伴隨著用戶??梢越柚陔娎|來實現(xiàn)對話管理系統(tǒng)和個別應(yīng)用之間的接口。優(yōu)選的是,以無線方式來實現(xiàn)該接口,諸如紅外線、藍(lán)牙等等,這樣對話管理系統(tǒng)基本上保持可移動,并且并非限制于定位在其用于驅(qū)動的應(yīng)用附近。如果無線接口足夠的可達(dá)到范圍(reach),那么能夠很容易地使用對話管理系統(tǒng)來為位于建筑物中不同房間的設(shè)備控制多個應(yīng)用,所述建筑諸如辦公大樓或私人住宅。優(yōu)選地在專用應(yīng)用接口單元中管理對話管理系統(tǒng)和個別應(yīng)用之間的接口。在此,通過將根據(jù)口頭用戶輸入而解釋的任何命令或指令轉(zhuǎn)發(fā)到每一應(yīng)用并且通過從應(yīng)用接收預(yù)定用于用戶的反饋來管理應(yīng)用和對話管理系統(tǒng)之間的通信。應(yīng)用接口單元能夠以并行的方式處理幾個應(yīng)用。
由對話管理系統(tǒng)所驅(qū)動的應(yīng)用可以是作為軟件而在個人計算機、網(wǎng)絡(luò),或任何由處理器或簡單電路控制的電子設(shè)備(諸如家用的加熱系統(tǒng)、微波爐等等)上運行的程序。同樣,可以理解應(yīng)用能夠控制通常不受控于處理器的機械的或物理的設(shè)備或?qū)ο蟆K鲈O(shè)備或?qū)ο罂梢约兇鉃橐环N機械設(shè)備或?qū)ο?,例如信箱。所述對象可以具備適當(dāng)?shù)膫鞲衅骱偷綄υ捁芾硐到y(tǒng)的接口,這樣例如當(dāng)信投入到信箱時通知對話管理系統(tǒng)。然后通過適當(dāng)?shù)穆犛X圖標(biāo)而將該事件通知給用戶,諸如驛車?yán)嚷?。所以對話管理系統(tǒng)的用戶在沒有實際前往或看到的情況下能夠知道是否接收到郵政投遞。根據(jù)本發(fā)明的對話管理系統(tǒng)的所述應(yīng)用對于生活在高層公寓樓中的用戶或者對于身體殘疾的用戶來說是特別有利的。根據(jù)季節(jié)而能夠由用戶再編程的諸如家用類型加熱系統(tǒng)之類的加熱系統(tǒng)可以由根據(jù)本發(fā)明的對話管理系統(tǒng)控制。用戶在外出休假之前借助于口頭命令利用對話管理系統(tǒng)能夠容易地再編程加熱系統(tǒng),從而省略了花費時間手動再編程的必要性。對話管理系統(tǒng)能夠向用戶報告加熱系統(tǒng)的狀態(tài),從而相關(guān)的提示可以伴有適當(dāng)?shù)穆犛X圖標(biāo)。也能夠?qū)?yīng)用理解為基本的電子設(shè)備,諸如對講機或電話。在此,對話管理系統(tǒng)可以通過適當(dāng)?shù)慕涌谶B接到對講機或電話,并且在用戶實際上起初沒有開門或拿起電話接聽器的情況下通過發(fā)送適當(dāng)?shù)穆犛X圖標(biāo)(例如來訪者在門口敲擊門的木頭的聲音)以將事件告知用戶,從而能夠幫助用戶應(yīng)付來訪者或打進(jìn)來的電話。
用戶對對話管理系統(tǒng)的輸入可以是有聲的,這樣通過輸入檢測裝置(例如麥克風(fēng))記錄用戶的口頭命令或注釋。如果對話管理系統(tǒng)并非只能語音控制,那么輸入檢測裝置或許還包括鍵盤、鼠標(biāo)、或多個按鈕,借助于它們,用戶能夠向系統(tǒng)輸入命令。一種先進(jìn)的輸入檢測裝置甚至特征在于用于感測用戶移動的照相機,這樣用戶通過手勢(例如通過揮動他的手或搖動他的頭)而與對話管理系統(tǒng)進(jìn)行通信。對話管理系統(tǒng)解釋用戶輸入,確定預(yù)定要使用該用戶輸入的應(yīng)用,并且將用戶輸入轉(zhuǎn)換成該應(yīng)用能夠理解的恰當(dāng)形式。
分析口頭用戶輸入的內(nèi)容,借助于核心對話引擎將來自應(yīng)用的反饋轉(zhuǎn)換成輸出提示。對話管理系統(tǒng)通過聲音輸出裝置(優(yōu)選為一個或多個揚聲器)與用戶進(jìn)行通信,以輸出聽得見的提示,該聽得見的提示是響應(yīng)于來自應(yīng)用的反饋而由核心對話引擎產(chǎn)生的。
核心對話引擎包括用于執(zhí)行語音識別和語音合成的普通步驟的一些單元或模塊,諸如語言理解單元,語音合成單元等等。對話控制單元解釋由語言理解單元所識別的文本,識別預(yù)定使用它的應(yīng)用,并且將其轉(zhuǎn)換為適于由該應(yīng)用處理的形式。此外,對話控制單元對從應(yīng)用到來的反饋進(jìn)行分析并且將從與該應(yīng)用相關(guān)聯(lián)的唯一的聽覺圖標(biāo)集中選擇的適當(dāng)?shù)穆犛X圖標(biāo)轉(zhuǎn)發(fā)到輸出聲音裝置。聽得見的提示包括聽覺圖標(biāo),其被理解為用于描述來自應(yīng)用的特定類型反饋的專用聲音塊。
應(yīng)用使用聽覺圖標(biāo)以指示對話流期間的任何事件,或者指示發(fā)生用戶可能感興趣的特定事件,諸如電子郵件的到達(dá)。此外例如如果用戶無意中聽到提示,可以使用聽覺圖標(biāo)來指示該應(yīng)用正等待用戶響應(yīng)。優(yōu)選的是,使用聽覺圖標(biāo)以指示應(yīng)當(dāng)告知用戶的應(yīng)用操作狀態(tài)的任何改變。
應(yīng)用特征在于在應(yīng)用能夠向用戶提供關(guān)于其狀態(tài)或活動的反饋的任何情況下使用的完整聽覺圖標(biāo)集。在本發(fā)明的優(yōu)選實施例中,應(yīng)用向?qū)υ捁芾硐到y(tǒng)提供其聽覺圖標(biāo)集的副本,以及任何相關(guān)的指令或有關(guān)恰當(dāng)使用或重放每一個聽覺圖標(biāo)的附帶信息。通過對話管理系統(tǒng)在聽覺圖標(biāo)管理單元中管理這些圖標(biāo),該單元了解哪一個聽覺圖標(biāo)被分配給哪一個應(yīng)用,以及使用每一聽覺圖標(biāo)的反饋類型。對話管理系統(tǒng)在用戶和應(yīng)用之間對話流的開始階段獲得整個聽覺圖標(biāo)集,或者一旦首次激活或安裝該應(yīng)用就獲得整個聽覺圖標(biāo)集,并且聽覺圖標(biāo)管理單元將有關(guān)聽覺圖標(biāo)及其相關(guān)指令的所有信息存儲在本地存儲器中以在隨后的時間點上使用。以這種方式,對話管理系統(tǒng)確保其具有不管在對話流期間會出現(xiàn)什么情況可以需要向用戶提供適當(dāng)反饋的任何聽覺圖標(biāo)。
可替換地,對話管理系統(tǒng)首先請求應(yīng)用為其集合中的每一聽覺圖標(biāo)僅提供相關(guān)的識別信息,諸如唯一描述性的名稱或號碼,以及與不同聽覺圖標(biāo)相關(guān)聯(lián)的一些使用指令。然后,僅當(dāng)必要時,對話管理系統(tǒng)請求每一聽覺圖標(biāo),以便減少存儲器成本。對話管理系統(tǒng)基于先前的對話流同樣確定在不久的將來為特定應(yīng)用請求哪一種類型的聽覺圖標(biāo),并且其預(yù)先從應(yīng)用中請求該聽覺圖標(biāo)。
對于一種不利用預(yù)定義的聽覺圖標(biāo)集的應(yīng)用來說,對話管理系統(tǒng)能夠提供適當(dāng)?shù)募?。為此目的,對話管理系統(tǒng)能夠確定應(yīng)用的屬性并判定適當(dāng)?shù)穆犛X圖標(biāo)集,或者用戶會選擇自己定義聽覺圖標(biāo)。他通過定位數(shù)字形式的聲音塊來實現(xiàn)此,例如通過從互聯(lián)網(wǎng)上下載或者從音帶或歌曲中提取適當(dāng)?shù)穆曇魤K,或者他使用記錄裝置來記錄聲音塊并且將該記錄傳遞給對話管理系統(tǒng)。例如,他記錄或獲得快速驅(qū)動的一級方程式賽車的記錄,將該記錄傳遞該對話管理系統(tǒng),在該對話管理系統(tǒng)中通過聽覺圖標(biāo)管理單元而將所述記錄存儲到本地存儲器,并且指定無論何時用于提供運動新聞的應(yīng)用報告一級方程式賽車的最新消息,就播放該聲音塊。用戶也可以有利地使用對話管理系統(tǒng)的麥克風(fēng)以記錄適當(dāng)?shù)穆曇魤K。在本發(fā)明優(yōu)選的實施例中,對話管理系統(tǒng)具有連接到諸如USB棒、存儲卡之類的便攜存儲器或者連接到諸如互聯(lián)網(wǎng)之類的外部網(wǎng)絡(luò)以便定位和下載作為聽覺圖標(biāo)使用的聲音塊的適當(dāng)接口。
在本發(fā)明特別優(yōu)選的實施例中,對話管理系統(tǒng)能夠向應(yīng)用提供具有其所需要的一些聽覺圖標(biāo)。例如,可以是應(yīng)用僅處理一或兩個聽覺圖標(biāo),例如來指示處理的開始,或者指示發(fā)生差錯,需要引起用戶的注意。然而,對于用戶和應(yīng)用之間直觀和簡單理解的對話流而言,這種少的選擇不是足夠的。在該情況下,對話管理系統(tǒng)從可用的選擇中選擇適當(dāng)?shù)穆犛X圖標(biāo)集,并且將它們分配給應(yīng)用。而且,可以是兩個或多個應(yīng)用在它們的清單中具有相似或相同的聽覺圖標(biāo)。為了避免如果同時激活兩個應(yīng)用可能出現(xiàn)的用戶部分上的任何混淆,對話管理系統(tǒng)以某種方式修改這些聽覺圖標(biāo),或者通過不同的、同樣適當(dāng)?shù)穆犛X圖標(biāo)來替換這些聽覺圖標(biāo)。例如,在載入新的應(yīng)用的時候,對話管理系統(tǒng)檢查與新的應(yīng)用相關(guān)的聽覺圖標(biāo),并且將它們與已經(jīng)分配給另一個應(yīng)用的聽覺圖標(biāo)相比較。如果任何一個新的聽覺圖標(biāo)與任何一個現(xiàn)有的聽覺圖標(biāo)相同或者非常相似,那么對話管理系統(tǒng)優(yōu)選地告知用戶,并且如果其有可用的,就建議適當(dāng)?shù)奶鎿Q。如果沒有適當(dāng)可替換的聽覺圖標(biāo)可使用,那么對話管理系統(tǒng)會提示用戶輸入適當(dāng)?shù)奶鎿Q。
應(yīng)用使用以便向用戶提供聽得到的反饋的聽覺圖標(biāo)實例是開始聽覺圖標(biāo),當(dāng)激活或者從備用狀態(tài)重新激活用戶和應(yīng)用之間的對話流時就開始播放;和結(jié)束聽覺圖標(biāo),當(dāng)結(jié)束、去激活或者使用戶和應(yīng)用之間的對話流處于備用模式的時候播放。開始聽覺圖標(biāo)本身應(yīng)該反映應(yīng)用的屬性,而結(jié)束聽覺圖標(biāo)可以僅僅是以逆順序播放的開始圖標(biāo)的聲音。應(yīng)用也可以使用信息性聽覺圖標(biāo),其聲音包含一些有關(guān)應(yīng)用屬性或者與該聽覺圖標(biāo)相關(guān)聯(lián)的實際反饋類型的線索。例如,用于提供天氣預(yù)報更新的應(yīng)用可以播放具有與天氣相關(guān)的聲音的聽覺圖標(biāo),諸如暴風(fēng)雨天氣的風(fēng)、下雨天氣的雨點和晴朗天氣的鳥聲。聽覺圖標(biāo)的其他實例是那些在應(yīng)用激活的時間期間提供狀態(tài)或信息更新的聽覺圖標(biāo)。例如,運行個人數(shù)字助理的應(yīng)用具有一些聽覺圖標(biāo),其用于向用戶提供涉及約會、到來的郵件、報告的到期日等等不同類型的狀態(tài)反饋。例如,個人數(shù)字助理使用適當(dāng)?shù)穆犛X圖標(biāo)向用戶重復(fù)提醒即將到來的約會,隨著約會的臨近,提醒變得越來月持久。
在本發(fā)明優(yōu)選的實施例中,用戶可以通過向用戶簡檔輸入適當(dāng)?shù)男畔碇付ㄔ趯υ捔髌陂g他喜歡聽哪個應(yīng)用的哪個聽覺圖標(biāo)。他也可以指定聽覺圖標(biāo)的音量,以及在對話流期間聽覺圖標(biāo)被播放的次數(shù)。另外,他能夠向不同的應(yīng)用分配優(yōu)先級,以便來自于對講機的反饋獲取的優(yōu)先級高于諸如個人數(shù)字助理那樣的應(yīng)用。通過這種方法,如果在對話流中較高和較低優(yōu)先級應(yīng)用同時報告反饋,用戶確保他將始終被告知較高優(yōu)先級的應(yīng)用。規(guī)律地或在聽覺圖標(biāo)管理單元進(jìn)行的每一次修改之后,能夠咨詢用戶簡檔以確定是否應(yīng)該重放聽覺圖標(biāo)、期望的音量、以及在該對話流期間能夠重放該聽覺圖標(biāo)的次數(shù)。
在進(jìn)一步優(yōu)選的實施例中,對話管理系統(tǒng)通過解釋對話流而能夠推出用戶偏愛。例如,如果應(yīng)用借助于適當(dāng)?shù)穆犛X圖標(biāo)報告即將到來的約會的提醒,并且用戶回復(fù)“我知道,我知道”,那么對話管理系統(tǒng)能夠?qū)⑵浣忉尀檫@表明用戶不需要再次的提醒,并且抑制下次由應(yīng)用所啟動的該反饋的聽覺圖標(biāo)。在用戶簡檔中也可以通過用戶來指定對話管理系統(tǒng)部分上“智能”解釋的水平。例如對一個以上用戶所使用的對話管理系統(tǒng)而言,優(yōu)選地配置多個用戶簡檔,這樣每一用戶具有自身的私有用戶簡檔,在該簡檔中,用戶能夠指定他自己的個人偏愛。
根據(jù)本發(fā)明的對話管理系統(tǒng)通過實現(xiàn)軟件模塊或計算機程序產(chǎn)品而能夠執(zhí)行上述的一些處理步驟。所述計算機程序產(chǎn)品可以直接載入到可編程的對話管理系統(tǒng)的存儲器。諸如核心對話引擎、應(yīng)用接口單元和聽覺圖標(biāo)管理單元之類的一些單元或模決因此能夠以計算機程序模塊的形式來實現(xiàn)。由于可以在硬件設(shè)備的處理器上編碼任一所需的軟件或算法,所以現(xiàn)有的電子設(shè)備能夠很容易地受益于本發(fā)明的特征。作為替換,以上述方式來處理用戶輸入和輸出提示的單元或塊同樣能夠使用硬件模塊來實現(xiàn)。
結(jié)合附圖以進(jìn)行隨后的詳細(xì)描述,這些詳細(xì)描述將使得本發(fā)明其他目的和特征變得顯而易見。然而,應(yīng)該理解,附圖僅僅是說明性的,而非對本發(fā)明的限制,對于本發(fā)明的限制應(yīng)當(dāng)參考后附的權(quán)利要求書。
單個圖,
圖1是根據(jù)本發(fā)明實施例的對話管理系統(tǒng)的示意性方框圖。
在附圖的描述中,不排除實現(xiàn)本發(fā)明的其他可能性,系統(tǒng)被示為用戶設(shè)備(例如家庭對話系統(tǒng))的一部分。為清楚起見,圖形中不包括用戶和本發(fā)明之間的接口。
圖1示出了具有用于與多個外部應(yīng)用A1、A2、A3…、An進(jìn)行通信的多個接口的對話管理系統(tǒng)1。以簡化方式而被示為塊的應(yīng)用A1、A2、A3…、An事實上能夠是任一種類的用戶愿意被告知或者用戶愿意以某種方式控制的“應(yīng)用”或“功能”。在該實施例中,除了別的以外,應(yīng)用A1、A2、A3…、An可以包括個人數(shù)字助理A1、新聞和天氣服務(wù)A2和電話A3。
對話管理系統(tǒng)1的特征在于應(yīng)用接口10,用于處理對話管理系統(tǒng)1和應(yīng)用A1、A2、A3…、An之間傳遞的輸入和輸出信息。此外,其特征在于,當(dāng)將播放一些聽覺圖標(biāo)時,對話管理系統(tǒng)1能夠獲得來自于每一應(yīng)用A1、A2、A3…、An的有關(guān)任何聽覺圖標(biāo)的信息。該信息被存儲在聽覺圖標(biāo)管理單元11中。在該實例中,例如當(dāng)啟動或引導(dǎo)其中一個應(yīng)用A1時,該應(yīng)用A1可以向?qū)υ捁芾硐到y(tǒng)1自動提供與它的聽覺圖標(biāo)集相關(guān)的所有相關(guān)信息。另一應(yīng)用A3可以預(yù)先僅提交有關(guān)其聽覺圖標(biāo)的描述性信息,并且一旦在對話流實際需要聽覺圖標(biāo)的情況下請求,就提交單個聽覺圖標(biāo)。當(dāng)需要時,或者當(dāng)啟動應(yīng)用A1、A2、A3…、An時,對話管理系統(tǒng)1能夠請求應(yīng)用A1、A2、A3…、An提供與一個或多個聽覺圖標(biāo)相關(guān)的信息。
并非所有的應(yīng)用在其處理中具有完整的適當(dāng)?shù)穆犛X圖標(biāo)集。一些應(yīng)用根本就沒有任何聽覺圖標(biāo),并且一些應(yīng)用甚至具有相同的聽覺圖標(biāo)。為處理所述情況,聽覺圖標(biāo)管理單元11通過從預(yù)定義的聽覺圖標(biāo)13的集合中選擇適當(dāng)?shù)囊恍┒軌驅(qū)⒙犛X圖標(biāo)分配給應(yīng)用A2。對于所述應(yīng)用而言,用戶更希望讓聽覺圖標(biāo)管理單元11向應(yīng)用A2分配特定的聲音記錄。例如,當(dāng)天氣服務(wù)A2報告晴朗天氣時,用戶喜歡聽鳥鳴的聲音。如果預(yù)報暴風(fēng)雨的天氣,那么用戶喜歡聽打雷的聲音。用戶可以經(jīng)由用戶接口15以適當(dāng)?shù)母袷捷斎脒@些記錄作為音頻數(shù)據(jù),并且讓聽覺圖標(biāo)管理單元11將它們分配到天氣服務(wù)應(yīng)用A2。向聽覺圖標(biāo)管理單元11提供所述記錄的另一種方式是經(jīng)由適當(dāng)?shù)慕涌?4從外部計算機或諸如互聯(lián)網(wǎng)那樣的網(wǎng)絡(luò)12下載它們。
這些獲得聽覺圖標(biāo)信息的不同方式允許對話管理系統(tǒng)1收集其所需的所有信息,以便在對話流中重放所需的相關(guān)聽覺圖標(biāo)。
在該實例中,對話流由附圖中未示出的用戶與對話管理系統(tǒng)1所驅(qū)動的各種應(yīng)用A1、A2、A3…、An之間的通信組成。用戶通過麥克風(fēng)5向?qū)υ捁芾硐到y(tǒng)1發(fā)布口頭命令或請求。該口頭命令或請求在輸入檢測裝置4中記錄和數(shù)字化,所述輸入檢測裝置4將已記錄的語音輸入傳遞到核心對話引擎8。該引擎8包括用于執(zhí)行語音識別所包括的普通步驟的一些塊-音頻接口塊20在將輸入語音信號轉(zhuǎn)發(fā)到自動語音識別器21之前對其執(zhí)行一些必要的數(shù)字信號處理。其從輸入音頻信號中提取任何可識別的語音分量并且將這些語音分量轉(zhuǎn)發(fā)到語言理解塊22。在語言理解塊22中,用戶的口頭命令或請求被分析相關(guān)性并且以適當(dāng)?shù)姆绞絺鬟f到對話控制器23,該對話控制器23將用戶輸入轉(zhuǎn)換為能夠被適當(dāng)?shù)膽?yīng)用A1、A2、A3…、An執(zhí)行的命令或請求。
如果需要從用戶獲得一些進(jìn)一步的信息,例如,如果自動語音識別器21和語言理解塊22不能夠分析或理解口頭命令,或者如果不能夠?qū)⒖陬^命令應(yīng)用到激活應(yīng)用A1、A2、A3…、An中的任何一個,那么對話控制器23產(chǎn)生適當(dāng)?shù)恼埱蟛⑶覍⑦@些請求轉(zhuǎn)發(fā)到語音產(chǎn)生器24,這些請求在語音產(chǎn)生器中被合成為語音。音頻接口塊20對輸出語音信號執(zhí)行必要的數(shù)字信號處理,然后在諸如揚聲器之類的聲音輸出裝置6中轉(zhuǎn)換以給出聽得見的聲音7。
在圖1的對話管理系統(tǒng)所控制的對話流的典型實例中,用戶希望向他的個人數(shù)字助理A1的日記中輸入一約會。他需要做的僅僅是說“輸入在下周一上午11點預(yù)約稅金顧問”。核心對話引擎8將所述命令轉(zhuǎn)換成適當(dāng)?shù)男问讲⑶覍⑵涮峤坏絺€人數(shù)字助理應(yīng)用A1。如果可以在沒有任何問題的情況下將約會輸入到個人數(shù)字助理A1,那么向?qū)υ捁芾硐到y(tǒng)1報告適當(dāng)?shù)姆答仯鰧υ捁芾硐到y(tǒng)1選擇適當(dāng)?shù)淖C實反饋輸出,諸如輸出口頭的“OK”或者“Roger”。
如果在那天的同一時間已經(jīng)排定了約會,那么個人數(shù)字助理A1向?qū)υ捁芾硐到y(tǒng)1(在該系統(tǒng)中應(yīng)用接口10和/或?qū)υ捒刂破?3解釋該應(yīng)用的響應(yīng))返回報告,并且選擇適當(dāng)?shù)穆犛X圖標(biāo)(例如撞擊鈸的聲音)以向用戶指示新的約會與已經(jīng)輸入的約會沖突。另外,對話控制器23觸發(fā)產(chǎn)生適當(dāng)?shù)奶崾?,例如“你已?jīng)與某某先生在上午11點有約會”??蛇x的是,如果用戶不希望詳細(xì)的反饋,那么用戶可以撤消提示輸出。
在該實例中,用戶在用戶簡檔中指定他的有關(guān)重放聽覺圖標(biāo)的偏愛以制定或配置到以下程度,即他希望被告知有關(guān)他所使用的應(yīng)用中出現(xiàn)的事件以及哪些應(yīng)用被給予了對話流中較高的優(yōu)先級。這些偏愛持續(xù)直到在隨后的某時間上由用戶改變,或者它們或許是暫時的屬性。例如,用戶會告訴對話管理系統(tǒng)在一定的時間段內(nèi)如何反應(yīng)。例如,當(dāng)用戶說“除非確實重要,在接下來的兩個小時中不要打斷我”的時候,對話管理系統(tǒng)抑制在隨后的兩個小時期間出現(xiàn)的次要事件的報告,諸如自動天氣更新,并且將所有相對不重要的事件推遲兩個小時,諸如即將到來的已排定約會的24小時提醒-“明天下午3點約會牙科醫(yī)生”。在指定時間期間僅僅相對重要的事件諸如已經(jīng)排定的約會“在15分鐘內(nèi)與指導(dǎo)者約見”或者由電話應(yīng)用A3中所標(biāo)記的來自客戶的重要電話呼叫會打斷用戶。對話管理系統(tǒng)通過檢查用戶簡檔3中所指定的信息來判定什么是重要的以及什么是相對不重要的。
如果兩個或多個應(yīng)用指示在同一時間播放聽覺圖標(biāo),那么其他的偏愛可以指定給予應(yīng)用的優(yōu)先級。在該情況中,用戶在用戶簡檔13中指定電話A3將被分配比新聞和天氣服務(wù)A2高的優(yōu)先級。如果新聞和天氣服務(wù)A2正打算給出其自動的新聞更新,并且呼入呼叫在同一時間到達(dá),那么應(yīng)用接口10確認(rèn)電話應(yīng)用A3具有較高的優(yōu)先級,并且抑制新聞和天氣服務(wù)A2的聽覺圖標(biāo),其可以被延遲到在隨后的時間點上輸出。
盡管以優(yōu)選實施例和其變形的形式描述了本發(fā)明,但是應(yīng)該理解在不脫離發(fā)明范圍的情況下能夠進(jìn)行另外的修改和變化,例如可以將聽覺圖標(biāo)管理單元實現(xiàn)為核心對話引擎的一部分,或者結(jié)合到諸如對話控制器那樣的另一模塊中。在本發(fā)明的一個實施例中,對話系統(tǒng)在處理一些發(fā)聲之后能夠確定當(dāng)前用戶的聲音質(zhì)量,或者用戶通過輸入識別代碼而可以使得自己被所述系統(tǒng)認(rèn)出,然后可以使用識別代碼以訪問所存儲的用戶簡檔信息,進(jìn)而又可以使用所述用戶簡檔信息以產(chǎn)生用于音頻接口的適當(dāng)?shù)目刂茀?shù)。
為簡單起見,整個申請中,應(yīng)該理解的是,所使用的“一”或“一個”不排除多個,并且“包括”不排除其他的步驟或元件。所使用的“單元”或“模塊”不限制以單個單元或模塊來實現(xiàn)。
權(quán)利要求
1.一種通過公共對話管理系統(tǒng)(1)來驅(qū)動多個應(yīng)用(A1、A2、A3…、An)的方法,其中將唯一的聽覺圖標(biāo)集(S1、S2、S3…、Sn)分配給每一應(yīng)用(A1、A2、A3…、An),并且其中公共對話管理系統(tǒng)(1)通過在對話流的特定點上重放從相應(yīng)應(yīng)用(A1、A2、A3…、An)的唯一的聽覺圖標(biāo)集(S1、S2、S3…、Sn)中選擇的相關(guān)聽覺圖標(biāo)(I1、I2、I3…、In)而向用戶告知應(yīng)用(A1、A2、A3…、An)的狀態(tài)。
2.根據(jù)權(quán)利要求1的方法,其中,重放應(yīng)用(A1、A2、A3…、An)的聽覺圖標(biāo)(I1、I2、I3…、In)以向用戶指示應(yīng)用(A1、A2、A3…、An)的操作狀態(tài)的改變。
3.根據(jù)權(quán)利要求1或2的方法,其中,應(yīng)用(A1、A2、A3…、An)將聽覺圖標(biāo)集(S1、S2、S3…、Sn)以及涉及其使用的相關(guān)指令提交到對話管理系統(tǒng)(1)。
4.根據(jù)權(quán)利要求3的方法,其中,對話管理系統(tǒng)(1)獲得應(yīng)用(A1、A2、A3…、An)的個別聽覺圖標(biāo)(I1、I2、I3…、In)的識別信息和相關(guān)指令,并且一旦請求,對話管理系統(tǒng)(1)從應(yīng)用(A1、A2、A3…、An)中檢索該聽覺圖標(biāo)(I1、I2、I3…、In)。
5.根據(jù)權(quán)利要求3的方法,其中,在用戶和應(yīng)用(A1、A2、A3…、An)之間的對話流一開始或者一旦激活或安裝應(yīng)用(A1、A2、A3…、An),對話管理系統(tǒng)(1)就獲取應(yīng)用(A1、A2、A3…、An)的完整的聽覺圖標(biāo)集(S1、S2、S3…、Sn)。
6.根據(jù)先前任一權(quán)利要求的方法,其中,對話管理系統(tǒng)(1)通過修改應(yīng)用(A1、A2、A3…、An)的聽覺圖標(biāo)集(S1、S2、S3…、Sn)中非唯一的聽覺圖標(biāo)(I1、I2、I3…、In)和/或從聽覺圖標(biāo)的集合(13)中選擇用于應(yīng)用(A1、A2、A3…、An)的唯一聽覺圖標(biāo)(I1、I2、I3…、In)而向應(yīng)用(A1、A2、A3…、An)提供唯一的聽覺圖標(biāo)集(S1、S2、S3…、Sn)。
7.根據(jù)先前任一權(quán)利要求的方法,其中,用戶和應(yīng)用(A1、A2、A3…、An)之間對話流中用于重放的聽覺圖標(biāo)集(S1、S2、S3…、Sn)包括用于在對話流開始處重放的至少一個唯一開始聽覺圖標(biāo)和/或用于在對話流結(jié)束處重放的至少一個唯一的結(jié)束聽覺圖標(biāo)。
8.根據(jù)先前任一權(quán)利要求的方法,其中,用于在用戶和應(yīng)用(A1、A2、A3…、An)之間的對話流中重放的聽覺圖標(biāo)集(S1、S2、S3…、Sn)包括用于在對話流期間在特定點上重放的多個唯一的提供信息的聽覺圖標(biāo)(I1、I2、I3…、In),其中每一聽覺圖標(biāo)(I1、I2、I3…、In)描述來自應(yīng)用(A1、A2、A3…、An)的一種特定類型的反饋。
9.根據(jù)先前任一權(quán)利要求的方法,其中,在用戶簡檔(3)中為用戶指定聽覺圖標(biāo)(I1、I2、I3…、In)和/或聽覺圖標(biāo)(I1、I2、I3…、In)的重放特性。
10.一種用于驅(qū)動多個應(yīng)用(A1、A2、A3…、An)的對話管理系統(tǒng)(1),包括輸入檢測裝置(4),用于檢測對系統(tǒng)的用戶輸入(5);聲音輸出裝置(6),用于輸出可聽到的提示(7);核心對話引擎(8),用于通過解釋用戶輸入(5)和產(chǎn)生輸出提示(7)來協(xié)調(diào)對話流;應(yīng)用接口(10),用于對話管理系統(tǒng)(1)和應(yīng)用(A1、A2、A3…、An)之間的通信;被分配給應(yīng)用(A1、A2、A3…、An)的唯一的聽覺圖標(biāo)集(S1、S2、S3…、Sn)的源;以及聽覺圖標(biāo)管理單元(11),用于從與應(yīng)用(A1、A2、A3…、An)相對應(yīng)的唯一的聽覺圖標(biāo)集(S1、S2、S3…、Sn)中選擇在對話流中的特定點處用于重放的相關(guān)聽覺圖標(biāo)(I1、I2、I3…、In)。
11.根據(jù)權(quán)利要求11的對話管理系統(tǒng)(1),包括允許用戶輸入聽覺圖標(biāo)(I1、I2、I3…、In)的裝置(15)。
12.根據(jù)權(quán)利要求11或12的對話管理系統(tǒng)(1),包括接口(14),其用于從外部源(12)中獲得聽覺圖標(biāo)集(S1、S2、S3…、Sn)或個別的聽覺圖標(biāo)(I1、I2、I3…、In)。
13.一種可直接載入到可編程的對話管理系統(tǒng)(1)的存儲器中的計算機程序產(chǎn)品,包括當(dāng)所述產(chǎn)品在對話管理系統(tǒng)(1)中運行時,用于執(zhí)行根據(jù)權(quán)利要求1至10所述方法的步驟的軟件代碼部分。
全文摘要
本發(fā)明描述一種通過公共對話管理系統(tǒng)(1)來驅(qū)動多個應(yīng)用(A
文檔編號G10L15/26GK1938757SQ200580010093
公開日2007年3月28日 申請日期2005年3月21日 優(yōu)先權(quán)日2004年3月29日
發(fā)明者T·波爾特勒, B·施特里夫克爾克, J·特弗魯格特 申請人:皇家飛利浦電子股份有限公司