專利名稱:提供可由操作員干預支持的人機對話的方法和設備的制作方法
背景技術:
本發(fā)明涉及在按照由一個用戶相繼提交的用戶言語項目執(zhí)行一個用戶交互式系統(tǒng)的計算機程序的相繼段的同時執(zhí)行人機對話的方法,相繼的用戶言語項目是對由系統(tǒng)給用戶提出的相繼的系統(tǒng)言語項目的反應而產(chǎn)生,每一個這樣的系統(tǒng)言語項目相應于一個各自的程序段,所述方法包括下述相繼步驟a.由系統(tǒng)向用戶提交相應于一個程序段的一個系統(tǒng)言語項目,b.由系統(tǒng)識別由用戶提交給系統(tǒng)的一個用戶言語項目。
這類方法在轉讓給本發(fā)明的受讓人的美國專利4959864(PHN11266)中公開。已知技術在所述對話期間記錄用戶的異議數(shù),且當所述異議的評分達到一個特定的分數(shù)級時,該系統(tǒng)自動地和無需入照應地轉移到一個更為明確的反應級。本發(fā)明發(fā)現(xiàn),盡管在開發(fā)對話的組織(由程序代表的)時采取的各種考慮,在許多場合下許多用戶仍不能正確地與機器反應,使得對話無效。另一方面,切換到與操作員直接對話,有時使使用人員感到受支配。此外,操作員的干預常常需要操作員執(zhí)行對話直到其結束。在這一方面,本發(fā)明將允許操作員不僅能進入對話,而且也可再次離開對話,而不使后者的結構令使用人員不快,對話不能充分進行的主要原因是在一定的情況下機器非常難于理解用戶,這或者是由于用戶不理解機器的問題,或更為經(jīng)常的是由于語音識別對該特定用戶不夠有效而引起。后一問題可由用戶的語言特征引起,例如外國人或其它口音;或由系統(tǒng)問題引起,例如在電話應答系統(tǒng)的情況中,線路質量不好。
發(fā)明總述因此,除了其它目的之外,本發(fā)明的一個目的是根據(jù)前敘提供一種方法,其中系統(tǒng)轉移到另一人機交互對話級的過程多多少少保持為不可見的?,F(xiàn)在根據(jù)一個方面,本發(fā)明的特點在于,對所述識別結果的評價和回復到部分a,同時,在所述識別基礎上在多個這樣的程序段之中選擇每一個與后繼系統(tǒng)言語項目有關的程序段,和在所述評價的基礎上保持與所述對話相關的進展分數(shù),并且在一個特定的進展分數(shù)級的控制下,許可系統(tǒng)操作員以非強制性的方式干預所述對話。以這種方式,機器仿佛掩蓋了操作員的動作,而同時允許操作員干預,或者產(chǎn)生可正確識另的項目,或者產(chǎn)生基于正確理解對話過程的那些項目。
優(yōu)點是,本方法包括并行執(zhí)行多個對話,同時比較和分等每一個與各所述對話有關的單獨的進展分數(shù)級,并且在一個特定的進展分數(shù)的控制下在所述對話中分等,使得系統(tǒng)操作員以非強制性的方式干預有關的對話。以這種方式,一個或多個操作人員可以監(jiān)視多個并行執(zhí)行的對話,同時,機器指示出最需要人干預的一個或多個對話,比如通過一個相對緩慢的進展。另一可選方案為,在某些對話中,像有關學習系統(tǒng)的對話,相反對進行最快的對話可以保證干預。
優(yōu)點是,所述許可能讓系統(tǒng)操作員通過模擬一個提交給系統(tǒng)的用戶言語項目模仿用戶??梢酝ㄟ^鍵盤執(zhí)行干預,但是常常最快和最有效的是直接由操作員口答來代換一個用戶提供的項目,例如對一個問題的回答。特別當用戶對回答的關鍵詞,例如一個市鎮(zhèn)的名字說錯或通常當用戶語音減弱時,優(yōu)點將十分明顯。另一方面,利用鼠標或鍵盤的機械輸入有時更為適宜。
本發(fā)明也涉及實現(xiàn)這種方法的設備。本發(fā)明的其它優(yōu)點在有關權利要求中敘述。
下面參考優(yōu)選實施例的公開,特別是參考附圖,詳細討論本發(fā)明的這些方面和其它方面及其優(yōu)點,附圖中
圖1表示一個根據(jù)本發(fā)明的多對話系統(tǒng);圖2表示一個根據(jù)本發(fā)明的流程圖;圖3表示本發(fā)明的一個功能框圖。
優(yōu)選實施例的詳細公開下面參考一個火車線路查詢系統(tǒng)公開本發(fā)明的一個優(yōu)選實施例。而許多其它的對話環(huán)境也是適宜的,像其它查詢系統(tǒng),例如一個電話目錄查詢系統(tǒng)、或對家用電器或填寫稅務表格問題的幫助臺等。另一個環(huán)境應該是基于一個對話結構的學習系統(tǒng)。在一個查詢系統(tǒng)中,機器一般提出一系列問題以發(fā)現(xiàn)用戶最終需要什么信息,而在另外的環(huán)境中,問題和回答之間的分布較少對稱。
圖1表示了一個根據(jù)本發(fā)明實現(xiàn)一個查詢系統(tǒng)的多對話系統(tǒng)。該系統(tǒng)能夠在一個操作員的監(jiān)視下維持三個并行的對話。在實踐中,這些數(shù)字不受限制。該系統(tǒng)不必在其它方面一致,原因是如地理距離,用戶特性和不同的操作員的技能可能起一定的作用。該系統(tǒng)有三個雙向用戶接口設備20-24,它們獨自操作一條音頻通道。接口設備可以有一個揚聲器和一個話筒。另一解決方案是這些接口設備連接到一條可以是ISDN的電話線上,它提供數(shù)字數(shù)據(jù)的傳輸。可選的另一方案是它們?yōu)榛蚨嗷蛏傩璩掷m(xù)顯示的關鍵信息,像運行時間表、被識別的市鎮(zhèn)名或車費數(shù)額,補充一個視頻輸出通道。元件26-30是模擬音頻通道和系統(tǒng)中其余部分中的數(shù)字數(shù)據(jù)處理的接口;在ISDN環(huán)境中,這些不一定需要?,F(xiàn)在采樣音頻輸入并將其數(shù)字化。輸出分組被轉變?yōu)槟M信號,需要的話還進行濾波???1、32、33是語音識別器。對于根據(jù)本實施例建立在德國的系統(tǒng),這些識別器可以識別1100個車站名的語匯和900個其它的詞,像時間和一天中時間的限定詞(例如“早”、“下午”,日期和月份),一組對該項應用關鍵的術語,像“快車”、“快”、“頭等”等等,最后是一組普通的詞,這些被識別的術語以發(fā)音序列和以位串碼的形式輸出???4、36、38代表各自的對話控制設備,它們解釋在各種不同的水平上識別的結果(下面將討論),并決定對話的狀態(tài)。如果需要進一步的問題,那么產(chǎn)生這些問題并輸出到相關的框26、28、30,以便提交給用戶。如果控制設備確定它知道用戶實際想要的項目,該項目也提交給該用戶。框40、42、44跟蹤到目前的識別過程,例如,它們可能存儲用戶言語項目,或者以提交給操作員監(jiān)聽的形式,或者以被識別的文本形式,后者由操作員在圖中未明確示出的操作員視像顯示器上查看。另外每一框40-44保存一個有關進展的分數(shù);這可能以一個數(shù)字的形式或其它形式實現(xiàn)???0-44輸出到操作員控制系統(tǒng)52。該操作員控制系統(tǒng)可以是一個配置齊全的工作站,帶有雙向輔助音頻通道(未示出),或只帶有在這種工作站上通常配備的設備的一部分。在工作站上,各個處理的進展分數(shù)自動從“壞”到“好”分等,選擇最小進展以可見方式提交給操作員,最好以質量順序,這樣操作員立即能知道哪個對話是最慢的。這種提交方式可以通過顯示由機器和用戶以文本方式最新交換的言語項目來進行,在用戶的場合只要能被識別。另一提交方式是以實際交換的形式重放該言語項目,或者以它們正常的速度,或者可選高于它們的正常速度。這樣做常常能暴露系統(tǒng)難以識別的用戶言語項目。操作員可以選擇一個對話,比如通過移光標到一個有關的顯示區(qū)域。接著,操作員可以通過線46、48、50提交模擬用戶項目到系統(tǒng)。如圖所示,它們以鍵入用戶回答的形式連接到有關的對話控制設備框34、36、38。另一種方式為操作員以一種為明晰起見而未顯示出來的方式用語言把模擬用戶言語項目提交給有關的語音識別器框31、32、33。如果操作員的這種提交有助于所處理的對話的進展,則該用戶將收到一個機器言語項目,其最合于它自己的需要。在許多情況下,這將使操作員另外的干預變得多余。以相似的方式,框52可以代表兩個或更多個工作站,以便每一個操作員可以獨立地干預進行過慢的各自的對話。
現(xiàn)在,用戶言語項目(在本實施例中它們通常為對機器產(chǎn)生的問題的回答)的識別可以有不同的結果1.未收到語音這作為言語間歇處理,系統(tǒng)將等待一段時間。如果間歇過長,重復最后一個問題;2.未識別到有用內(nèi)容;3.未識別到期待的類別,例如一個“您想乘幾等車?”的問題答以“星期三”;在這種情況下,系統(tǒng)在“我不理解您的回答”后,重復最后一個問題。但是,一個未期待的回答可能對另一個問題是合理的回答,例如對由系統(tǒng)要提出的下一個問題。在后一情況下,下一系統(tǒng)問題包括最新回答的內(nèi)容作為限定語,而用戶對其肯定的回答使識別的內(nèi)容保存起來以供以后使用。
4.未識別到合理的內(nèi)容,例如指定一個不合邏輯的迂回路線;在這種情況下也進行第3條的步驟。
5.識別到一個合理的和期待的用戶言語項目。之后,如果合適的話系統(tǒng)對用戶提出下一問題。
針對上面列出的識別結果之一而產(chǎn)生的機器言語項目可能有不同的特征。不過一般說來它們以一種詢問的形式列出,而且包含有已被識別的,有時是嘗試性的元素。這種重復的效果是用戶常常只需要說一個或很少幾個詞。即使用戶用額外的語言補充這種最少需要的信息,后者的識別與否對對話的進展并非關鍵。另外,在火車線路查詢系統(tǒng)中,每一個機器產(chǎn)生的最后的結果是一個特定的火車線路,它只有有限的一組參數(shù),像開離車站和時間到達車站和時間中間路線和換乘站車等頭等,二等特征本地車,半快車,快車其它臥車,餐車這意味著系統(tǒng)只需要使這些問題相對于每一個這樣的參量得以回答,和只要它們是適當?shù)?。這種有限的需求使得對話結構相對簡單。因此,對話控制設備負責相繼獲得對最后結果而言所有必需的參量方面的回答,以便使最終回答由盡可能少的火車線路組成,一般不多于兩個。特定類型的機器問題是您想從哪個車站出發(fā)或到哪個車站?這里機器負責識別目的站名,和維持在詞語“從-到”和兩個站名之間的正確連接。在識別到標志出發(fā)點或目的地的組合的一方之后,機器提出旅行的另一端的問題您想從(到)哪個車站到(從)<目的(出發(fā))車站名>?在識別到兩個組合后,系統(tǒng)詢問需要的日子和時間,同時重復該次旅行的兩個限定語。當系統(tǒng)對收到的回答不十分肯定的話,它可能重復那么說您想從<站名>到<站名>?以這種方式系統(tǒng)相繼識別不同的參量以確定目標連接。如果用戶的申明超出實際回答的問題之外,但與所選擇的路線有關,這些項目將被保存在系統(tǒng)中并在下一個問題時重復。
現(xiàn)在,在框40-44維護一個各種對話的進展分數(shù)。在這里各種策略都是適宜的。第一種是累計在對話中未導致任何進展的回答后提交給用戶的重復問題的數(shù)目。在充分識別的和充分有效的回答的情況下它可以與復位累計的和相結合或不結合。第二種策略是累計由機器提出的問題的總數(shù)目。如果這個數(shù)目太大,則可證明該對話進行得太慢。各種其它的策略對本技術領域熟練的實踐者來說是敞開的。
圖2表示按照本發(fā)明的方法的示例流程圖。圖中,只示出一個用戶的處理,因為有關并行的多個對話的硬件實現(xiàn)已經(jīng)在圖1中表示過。另外,為明晰起見,僅介紹一個基本的系統(tǒng)。實踐中,產(chǎn)生對話的程序結構要復雜的多。為更為廣泛地公開這樣的系統(tǒng),參見德國專利申請P4432632.7,相應于美國系列號08/...,...(PHD94120),其轉讓給本發(fā)明的受讓人,結合在此作為參考??梢岳斫?,圖2中各種元件也可以以軟件實現(xiàn)?,F(xiàn)在在圖中,框60表示只有一個對話(或可能是這種情況)的系統(tǒng)的初始化。框62表示由系統(tǒng)輸出一個介紹信息。框64表示由系統(tǒng)產(chǎn)生第一個問題“您想去哪兒?”。本實施例涉及有關起始點已知的系統(tǒng),例如由于訪問者的位置已知。在框66,系統(tǒng)試圖識別下一接收到的回答為目的站名。如參考圖1說明的,可能得到各種不可識別的或不合邏輯的回答。在任一這種情況下,系統(tǒng)走向框68,并要求用戶重新說明他的目的地。如果問題是回答不可識別,則機器的聲明可能使其內(nèi)容適應于實際接收到的回答,例如“<站名>是您現(xiàn)在的車站;您想去哪兒?”,以防止用戶不經(jīng)心給出起始位置。當用戶已經(jīng)給出起始位置時,相似的短語也可以應用。
如果已識別的信息不包含相關車站的名字,“我不理解您的回答,您想去哪兒?”,在站名的識別模棱兩可的場合,例如兩個車站有幾乎相同的名字時,“請重復您的回答”,如果識別到一個正確的目的車站名,系統(tǒng)走到框70并檢查識別的車站名是否是唯一的車站,或給定始發(fā)站,僅有一個單一的車站是相關的。結論是肯定的話,系統(tǒng)走到框78。在一個特定的城市有多于一個車站時,也可能出現(xiàn)否定的結論。因此,在框72系統(tǒng)請求用戶指定那一個車站是有關目的車站。在框74,系統(tǒng)檢查是否已識別到一個正確的指示。如果沒有,執(zhí)行一個關于框66、68的相似的循環(huán),為明晰起見,該循環(huán)未示出。如果已經(jīng)識別到一個正確的車站名,系統(tǒng)走到框78。這里,請求用戶指定旅游時間,其以類似于在框64-74中的目的站名的方式處理。在框80,請求用戶指定路線。在框82,請求用戶指定其它事項,例如是頭等車還是二等車。在框84,系統(tǒng)輸出必需的信息,可能以顯示屏或用硬拷貝的方式。在框86,這次對話結束。在框88,對話終止。系統(tǒng)也可能給出各種另外的語音輸出,例如以文字重復識別的回答,給用戶提供二元選擇,等等,但是這些不代表本發(fā)明特有的元素。當類似框68后的框發(fā)出進展太慢的信號時,操作員可能干預。在這種情形下,當操作員完全接管時,可能離開圖2的流程圖,但是根據(jù)本發(fā)明,操作員也可能只是模擬一個用戶項目,因此流程圖以和在識別到一個正確的回答時完全一樣的方式被經(jīng)過。實際做的對處理進展的測量,可以根據(jù)像框68這樣的重復框被起動的次數(shù)進行。這些數(shù)字可以連續(xù)累計。各種類型的非標準的或慢的進展可能發(fā)出各自不同的進展分數(shù)信號。另一可選方案為,一個由系統(tǒng)為保證相繼的旅行參量而測量的快速進展時期,可以實際減少分數(shù),因此改變所涉及的處理的等級。如同前面所述,像78到82這樣的框不必按照線性順序配置,可以并行安排,以便可以幾乎在對話處理的任何階段調用它們的功能。然后把每一個被識別的參量作為尋找的火車線路的一個最終參量而儲存。應該指出,本發(fā)明并不涉及特有的對話結構,而是涉及當進度太慢(或太快)時所采取的措施。
圖3表示本發(fā)明的一個功能框圖,特別涉及識別過程。元件94是連接到電話接口96的一條電話線???8表示語音識別子過程,它將輸出一串臨時的識別詞。該串可以是一個多路并行串,其中有多于一個的結果是適合的,并且可以有格子結構的特征。框100表示語音理解子過程。這里,根據(jù)它們的意義評價被識別的詞,例如一個站名是否結合了方向限定詞“到”或“從”,或一個時間或時間間隔指示而識別???02表示對話控制子過程,它把由框100理解的語音與根據(jù)由系統(tǒng)最新提供的一個或多個問題而期待的信息比較。考慮到這一點,選擇要提供給用戶的下一個問題,也有可能是最后的回答。此外,對話控制子系統(tǒng)在框112中維持一個進展分數(shù)。在框102的控制下,語音輸出框104產(chǎn)生合適的語音項目通過接口96輸出。所示回路對每一個各自的對話實現(xiàn)一次。對共享或分離的硬件的映射未予考慮。項106表示一個操作員話筒???08是一個語音識別子過程;框110是一個語音理解子過程。后者輸出到對話控制子過程,以模擬一個用戶項目來加強所涉及的對話的進展。操作員控制子系統(tǒng)以未示出的方式通過訊問進展分數(shù)存儲框112,可以選擇一個或多個當前活動的對話作為操作員干預的候選項。又一次,框108、110可以映射在與另外的(子)過程共享的硬件上。
權利要求
1.在按照由用戶提交的相繼的用戶言語項目執(zhí)行一個用戶交互式系統(tǒng)的相繼的計算機程序段的同時,實現(xiàn)人機對話的一種方法,相繼的用戶言語項目是對由系統(tǒng)提交給用戶的相繼的系統(tǒng)言語項目的反應而產(chǎn)生的,每一個這樣的系統(tǒng)言語項目相應于一個各自的程序段,所述方法包括以下相繼的步驟a.由系統(tǒng)向用戶提交一個相應于一個程序段的系統(tǒng)言語項目;b.由系統(tǒng)識別由用戶提交給系統(tǒng)的一個用戶言語項目;其特征在于c.評價所述識別結果并回復到部分a,同時根據(jù)所述識別,在多個這樣的程序段中選擇每一個與一個后繼的系統(tǒng)言語項目有關的一個,和根據(jù)所述評價保持與所述對話有關的一個進展分數(shù),并在一個特定的進展分數(shù)級的控制下允許系統(tǒng)操作員以非強制性方式干預所述對話。
2.在對每一個對話按照由其各自的用戶提交的相繼的用戶言語項目執(zhí)行一個用戶交互式系統(tǒng)的有關的共享計算機程序的相繼段的同時實現(xiàn)多個并行的人機對話的方法,相繼的用戶言語項目是對由系統(tǒng)提交給該用戶的相繼的系統(tǒng)言語項目的反應而產(chǎn)生,每一這樣的系統(tǒng)言語項目相應于一個各自的程序段,所述方法對每一對話包括以下相繼步驟a.由系統(tǒng)向用戶提交一個相應于一個程序段的系統(tǒng)言語項目;b.由系統(tǒng)識別由用戶提交給系統(tǒng)的一個用戶言語項目;c.評價所述識別結果并回復到部分a,同時根據(jù)所述識別,在多個這樣的程序段中選擇每一與一個后繼的系統(tǒng)言語項目有關的一段,和根據(jù)所述評價保持與每一各自所述對話關聯(lián)的一個進展分數(shù);所述方法包括比較和分等單獨的進展分數(shù)級,每一個都與各自的所述對話有關,和在一個特定的進展分數(shù)的控制下在所述對話中分等,從而允許系統(tǒng)操作員以非強制性方式干預有關的對話。
3.如權利要求1或2所要求的方法,其中所述許可可使系統(tǒng)操作員借助提交給系統(tǒng)的一個模擬用戶言語項目模擬一個用戶。
4.如權利要求1或2所要求的方法,其中所述許可可使系統(tǒng)操作員借助提交給系統(tǒng)的一個機械輸入的用戶項目模擬一個用戶。
5.如權利要求3或4所要求的方法,其中所述系統(tǒng)傳遞的被識別的用戶言語項目被保存起來,以便系統(tǒng)操作員重新審查。
6.如權利要求3或4或5所要求的方法,其中所述系統(tǒng)傳遞的接收到的用戶言語項目被保存起來為系統(tǒng)操作員第二次審查。
7.如權利要求6中所要求的方法,其中所述第二次審查以比人語音的標準速度提高的速度實現(xiàn)。
8.在按照由用戶提交的相繼的用戶言語項目執(zhí)行一個用戶交互式系統(tǒng)的相繼的計算機程序段的同時實現(xiàn)人機對話的計算機設備,相繼的用戶言語項目對由系統(tǒng)提交給用戶的相繼的系統(tǒng)言語項目的反應而產(chǎn)生,每一個這樣的系統(tǒng)項目相應于一個各自的程序段,所述設備包括a.給用戶提交一個相應于一個程序段的系統(tǒng)言語項目的提交設備;b.識別由用戶提交的一個用戶言語項目的識別設備;其特征在于c.由所述識別設備為評價所述識別的結果而供應的評價設備,其具有為啟動所述提交設備,并回復到部分a的啟動設備,同時根據(jù)所述識別,在多個這樣的程序段中選擇與一個后繼的系統(tǒng)言語項目有關的一個程序段的啟動設備,和具有由所述評價設備為根據(jù)所述評價保持與所述對話有關的一個進展分數(shù)而供應的評分設備,和具有為在一個特定的進展分數(shù)級的控制下輸出一個許可信號以允許系統(tǒng)操作員以非強制性的方式干預所述對話的一個許可輸出設備。
9.如權利要求8所要求的設備,其中所述評價設備、識別設備和評價設備以多路方式執(zhí)行,以便允許同時支持多個并行的人機對話,所述評價設備進一步包括分等設備,為將多個進展分數(shù)分等為與各自所述對話關聯(lián)的每一個,所述許可輸出設備由所述分等設備供給。
全文摘要
執(zhí)行一個用戶交互式系統(tǒng)的計算機程序的相繼段。用戶對系統(tǒng)提出的像問題這樣的言語項目提交相繼的像回答這樣的言語項目。每一個問題都相應于一個各自的程序段。如果可能和適宜的話,識別用戶項目,提出下一個機器項目。評價識別結果,并根據(jù)該評價保持一個進展分數(shù)。如果進展分數(shù)達到一個特定的級,系統(tǒng)將允許操作員以非強制性的方式干預對話。如果并行地監(jiān)視多個對話,則這種許可是根據(jù)對話進展的分等實現(xiàn)的。可以以言語方式、或者以機械輸入的方式模擬一個用戶項目來實現(xiàn)對對話的干預。
文檔編號G10L15/22GK1147871SQ96190136
公開日1997年4月16日 申請日期1996年1月5日 優(yōu)先權日1995年1月18日
發(fā)明者A·J·尼曼, H·奧斯特, P·比斯廷, M·厄德 申請人:菲利浦電子有限公司