可以使用實時評分系統(tǒng)或其他技術(shù)判斷用戶問題或命令的代理組成、上下文和/或領(lǐng)域?;谶@種判斷,所述系統(tǒng)可以觸發(fā)一個或多個代理,以響應(yīng)所述用戶的問題或命令。所述代理可以產(chǎn)生一個或多個請求并迅速地返回格式化的應(yīng)答。因此,用戶可以收到對一組問題的直接應(yīng)答,每個問題都具有不同的應(yīng)答或上下文。在某些情況下,包括所述請求結(jié)果的可用信息可能不足以回答所提出的問題。在這樣的情況下,可以向所述用戶詢問一個或多個后續(xù)問題以解決歧義性。然后可以提出若干附加請求,再提供適當?shù)膽?yīng)答。在這些情況下,所述系統(tǒng)可以使用上下文信息、用戶概況信息和/或領(lǐng)域特定的信息,以便使為了所需的與所述用戶的互動最少。
[0037]如果所述領(lǐng)域或上下文得分的置信度不夠高,無法確保可靠的應(yīng)答,所述系統(tǒng)可以請求所述用戶驗證所述問題或命令被正確理解。一般來說,可以用短語表達所述問題以指明所述問題的上下文,包括全部準則或參數(shù)。如果所述用戶證實所述問題是正確的,所述系統(tǒng)就可以開始產(chǎn)生應(yīng)答。否則,或者所述用戶能夠?qū)⒃紗栴}重新用短語表達,也許添加了附加信息以消除歧義性,或者所述系統(tǒng)可以詢問一個或更多的問題以嘗試解決所述歧義性也可以采取其他行動。
[0038]根據(jù)本發(fā)明的一個方面,所述系統(tǒng)可以接受任何自然語言的問題或命令,結(jié)果可能會招致歧義的請求。為了幫助用戶闡明簡潔的問題和命令,所述系統(tǒng)可以支持聲音查詢語言。所述語言可以幫助用戶連同所述參數(shù)或準則一起清楚地指定所述問題或命令的若干關(guān)鍵字或上下文。所述系統(tǒng)可以提供內(nèi)建的訓(xùn)練能力以幫助所述用戶學(xué)習(xí)如何闡明其問題和命令的最好方法。
[0039]為了使對用戶問題和命令的應(yīng)答似乎更自然,所述系統(tǒng)可以采用一種或多種動態(tài)可調(diào)用的個性和/或情感模型。個性和情感模型具有特定的特征,仿真真實人類的行為特征。這些特征的實例包括同情、憤怒和幫助以及相關(guān)聯(lián)的情緒。所述個性還會使應(yīng)答的若干方面隨機化,正如真實人類的行為。這種行為包括所用術(shù)語和使信息顯示次序的隨機化。調(diào)用所述個性和/或情緒的特征時使用了概率或模糊集決策和匹配的方法,使用了若干準貝1J,包括所述問題的上下文、所述用戶互動的歷史、用戶偏愛、可用的信息源、從所述源得到的應(yīng)答。
[0040]根據(jù)本發(fā)明的另一個方面,可以采用專用過程,以長文本串、表格、列表或其他長應(yīng)答集的形式表達信息。以羅列方式簡單地表達長信息集也許認為不自然,或者不符合大多數(shù)用戶的心意。所述系統(tǒng)可以使用概率或模糊集匹配的方法,提取有關(guān)信息并優(yōu)先呈現(xiàn)這些子集。此外所述系統(tǒng)可以提供的命令允許用戶瀏覽所述列表,找到所述列表中的關(guān)鍵字或關(guān)鍵信息,或者完全停止處理所述列表。
[0041]除了處理用戶問題和命令的能力之外,本發(fā)明可以為所述系統(tǒng)或為其他設(shè)備提供本地或遠程的控制功能。用戶可以本地或遠程地啟動命令??赡苡袌?zhí)行遠程操作的幾種技術(shù),例如使用電話或其他聲頻連接。也可以使用其他遠程命令技術(shù)。處理這些命令的方式可以與處理問題的方式幾乎一致。一種差異是所述命令的結(jié)果通常是動作而不是應(yīng)答。本發(fā)明支持的控制操作實例包括:找到并播放音樂、電影、游戲或其他娛樂媒體、控制家用電器或者其他電子或電子機械設(shè)備、安全系統(tǒng)控制、聲頻、文本和視頻會議(包括IP語音會議)、操作集成的消息環(huán)境以及其他控制操作。
[0042]通過使用可選的模擬或數(shù)字電話接口或者數(shù)字網(wǎng)絡(luò)接口,本發(fā)明能夠提供對計算機或/和連接到所述計算機的輔助設(shè)備遠程控制的能力。例如,如果所述計算機經(jīng)過接口連接著一臺或多臺輔助設(shè)備,遠程用戶就能夠使用這種能力遠程地控制或編排所述輔助設(shè)備的操作。例如,這能夠錄制電視節(jié)目、檢查家庭安全系統(tǒng)的狀態(tài)、檢查語音郵件消息、聽取和響應(yīng)電子郵件消息等等,不一而足。對于每位用戶命令的口頭表達,所述系統(tǒng)都可以執(zhí)行許多步驟,可能包括:
[0043]?通過在多種多樣真實環(huán)境中運行的語音識別,捕獲所述用戶的命令;
[0044]?對所述命令進行語法分析和解釋;
[0045]?確定所述命令的領(lǐng)域和上下文,調(diào)用適當?shù)馁Y源,包括若干代理;
[0046]籲為所述系統(tǒng)或外部設(shè)備制定設(shè)備專用的命令;
[0047]籲將命令路由到所述系統(tǒng)或外部設(shè)備,包括連接到數(shù)據(jù)網(wǎng)絡(luò)的外部設(shè)備;
[0048]?接收并處理命令的結(jié)果,包括錯誤;以及
[0049]籲可選地向用戶提供應(yīng)答,指示所述命令的成功或失敗,并且可能包括狀態(tài)信息。
[0050]所述系統(tǒng)可以和范圍廣泛的平臺環(huán)境結(jié)合使用。這些環(huán)境可以包括:作為PC、便攜式或可佩戴計算機或其他計算機的外圍設(shè)備、嵌入在PC或其他計算機中、在個人數(shù)字助理上比如帶有無線網(wǎng)絡(luò)功能的PDA、在專用的設(shè)備中比如條形碼掃描器或支付終端、在無線電話上以及其他平臺。如果本發(fā)明用于具有定位功能的移動或便攜式設(shè)備,本發(fā)明就能夠使用該位置數(shù)據(jù)作為用戶問題上下文的一部分。用戶可以在一臺或多臺設(shè)備上使用所述系統(tǒng)。在這種情況下,所述用戶的歷史和概況信息可以在多臺設(shè)備之間定期地或以其他方式同步。
[0051]根據(jù)本發(fā)明的另一個方面,所述系統(tǒng)可以部署在使用代理、數(shù)據(jù)、信息、用戶概況和歷史的公共基礎(chǔ)的若干設(shè)備的網(wǎng)絡(luò)中。然后每個用戶都能夠在網(wǎng)絡(luò)上配備所需設(shè)備的任何位置處互動并接收所述相同的服務(wù)和應(yīng)用程序。例如,使用本發(fā)明并連接到網(wǎng)絡(luò)的多臺設(shè)備可以放置在遍及家庭、商家地點或其他位置的不同位置處。在這樣的情況下,所述系統(tǒng)可以使用由所述用戶所涉及具體設(shè)備的位置,作為所詢問問題上下文的一部分。
[0052]根據(jù)本發(fā)明的一個實施例,所述系統(tǒng)可以支持在不同時間訪問所述系統(tǒng)的多個用戶。根據(jù)本發(fā)明的另一個實施例,所述系統(tǒng)可以支持以交錯或重疊方式在同一對話期間訪問所述系統(tǒng)的多個用戶。所述系統(tǒng)可以依據(jù)名字、聲音或其他特征識別出所述多名用戶,并且可以調(diào)用每個用戶的正確概況。如果多個用戶正在重疊或交錯對話中訪問所述系統(tǒng),所述系統(tǒng)可以識別出所述多個用戶并可以調(diào)用一個或多個對應(yīng)概況。對于需要安全保護的應(yīng)用,驗證所述多個用戶時可以使用聲波紋匹配、密碼或許可證短語匹配以及其他安全保護。
[0053]當多個用戶處于交錯對話中時,所述系統(tǒng)可以使用概率或模糊集決策方法適度地為每個用戶解決沖突。這種過程可以仿真人類對待來自多個源的多個問題時會采用的方式。例如,所述系統(tǒng)可以在時間上首先回答簡短的問題,而在時間上隨后回答較長的問題。作為替代,在其他配置之中,所述系統(tǒng)可以依據(jù)收到問題的次序回答問題。
[0054]給定了對領(lǐng)域特定行為、用戶特定行為和領(lǐng)域特定信息的需要,根據(jù)本發(fā)明的另一個方面,所述系統(tǒng)可以允許用戶和內(nèi)容提供商雙方擴展所述系統(tǒng)的能力、向本地數(shù)據(jù)源添加數(shù)據(jù)以及向網(wǎng)絡(luò)數(shù)據(jù)源添加引用。為了允許覆蓋盡可能廣的論題范圍,所述系統(tǒng)可以允許第三方內(nèi)容開發(fā)商開發(fā)、發(fā)行和銷售專門的即領(lǐng)域特定的系統(tǒng)程序和信息。通過創(chuàng)建新的數(shù)據(jù)管理器、改寫現(xiàn)有數(shù)據(jù)管理器、向代理或數(shù)據(jù)庫添加新數(shù)據(jù)以及添加或修改到信息源的鏈接,可以創(chuàng)建內(nèi)容。這種信息的發(fā)行對所述用戶興趣和使用歷史敏感,以及對他們是否愿意支付敏感。
[0055]根據(jù)本發(fā)明的另一個方面,所述系統(tǒng)可以允許用戶傳播他們的知識而不編程。所述系統(tǒng)包括的機制可以允許用戶在他們具體專長領(lǐng)域中張貼和發(fā)行數(shù)據(jù)管理器和信息,以便改進系統(tǒng)性能。此外,用戶可以按他們自己的偏愛擴展所述系統(tǒng)并進行配置、向他們的概況添加信息以定義新問題或查詢、擴展和修改現(xiàn)有的問題和查詢、添加新數(shù)據(jù)源、更新數(shù)據(jù)源、設(shè)置優(yōu)先選擇以及規(guī)定結(jié)果的顯示參數(shù)。
[0056]由于本發(fā)明可以在許多環(huán)境中運行,包括具有背景噪聲、點噪聲源和人們持續(xù)會話的環(huán)境,所以可以對話音輸入進行濾波。本發(fā)明可以使用例如或者一維或者二維的陣列話筒接收人類話音。所述陣列話筒可以是固定的,也可以采用動態(tài)射束形成技術(shù)??梢哉{(diào)整所述陣列模式以使所述用戶方向上的增益最大并使點噪聲源無效。然后可以利用模擬或數(shù)字濾波器處理所述話筒收到的話音,以便優(yōu)化帶寬、消去回聲并陷波消除窄帶噪聲源。濾波之后,所述系統(tǒng)可以使用可變速率采樣以使編碼后話音的保真度最高,同時使所需帶寬最小。在所述編碼后話音經(jīng)過無線網(wǎng)絡(luò)或鏈接傳輸?shù)那闆r下,這種過程尤其有用。
[0057]本發(fā)明的某些實例應(yīng)用包括但是不限于以下各項:
[0058]?白頁和黃頁查找以找到商家和個人的電子郵件地址、電話號碼、街道地址以及其他信息;
[0059]?每位用戶的個人地址簿、日歷本和待辦事項本;
[0060]籲通過話音和其他通信控制功能進行自動電話撥號、讀取和發(fā)送電子郵件和頁面;
[0061]?地圖、定位和定向應(yīng)用;
[0062]?電影或其他娛樂預(yù)告,評論信息以及購票;
[0063]籲電視、廣播或其他家庭娛樂時間表,評論信息和來自本地或遠程用戶的設(shè)備控制;
[0064]?本地區(qū)或其他地點的天氣信息;
[0065]籲股票和其他投資信息,包括價格、公司報告、概況、公司信息、商務(wù)新聞報道、公司報告、分析、價格警報、新聞警報、資產(chǎn)組合報告、資產(chǎn)組合計劃等;
[0066]?航班或其他定期運輸信息和售票;
[0067]?旅店預(yù)定,租車和其他旅行服務(wù);
[0068]?本地、國內(nèi)和國際新聞信息,包括按主題或地點的受關(guān)注標題、故事摘要、故事全文、故事的音頻和視頻檢索和播放;籲體育成績、新聞報道、時間表、警報、統(tǒng)計表、背景和歷史信息等;
[0069]籲交互預(yù)訂多媒體信息頻道的能力,包括體育、新聞、商務(wù)、不同類型的音樂和娛樂、使用用戶特定偏愛提取并顯示信息;籲對所使用或發(fā)表的信息或內(nèi)容進行版權(quán)管理;
[0070]籲占星術(shù)、每日笑話和喜劇、縱橫拼字謎的檢索和顯示以及有關(guān)的娛樂或消費;
[0071]籲食譜、進餐計劃、營養(yǎng)信息和計劃、購貨單和與家庭組織有關(guān)的其他活動;
[0072]籲作為拍賣和在線購物的接口,并且所述系統(tǒng)可以管理付款或電子錢夾;
[0073]?管理網(wǎng)絡(luò)通信和會議,包括電信、電子郵件、即時消息、IP語音通信和會議、局域和廣域視頻音頻會議、頁面和警報傳送話音;
[0074]?對播放列表的定位、選擇、管理以及對來自本地或網(wǎng)絡(luò)源互動娛樂的播放控制,包括:點播視頻、數(shù)字音頻比如MP3格式材料、互動游戲、網(wǎng)絡(luò)廣播和視頻廣播;
[0075]?對家庭、商家和其他用戶團體的組織和日程表管理,包括:會議、約會和事件的管理;以及
[0076]?使用本地和網(wǎng)絡(luò)資料的互動教育節(jié)目,課程資料等級基于用戶概況設(shè)置,并且包括互動多媒體課程、宗教指導(dǎo)、計算器、字典和拼寫、語言訓(xùn)練、外語翻譯、百科全書以及其他參考資料。
[0077]應(yīng)當認識到,對于本發(fā)明若干特點的以上陳述并非試圖囊括或限制由參考本全部公開材料所認識到的其適當范圍以及其合理地顯而易見的若干變種和擴展。
【附圖說明】
[0078]將要連同附圖參考本發(fā)明的若干優(yōu)選和替代實施例介紹本發(fā)明,其中:
[0079]圖1是根據(jù)本發(fā)明一個實施例的總圖解視圖;
[0080]圖2是一幅示意框圖,顯示了根據(jù)本發(fā)明一個實施例的代理架構(gòu);
[0081]圖3是根據(jù)本發(fā)明一個實施例的高級別過程,用于接收基于自然語言語音的查詢和/或命令并產(chǎn)生應(yīng)答;
[0082]圖4A是根據(jù)本發(fā)明一個實施例的過程,用于接收基于自然語言語音的查詢和/或命令并產(chǎn)生應(yīng)答;
[0083]圖4B是根據(jù)本發(fā)明一個實施例的過程,用于接收基于自然語言語音的命令,以便在本地或遠程地控制設(shè)備功能;
[0084]圖5是根據(jù)本發(fā)明一個實施例的過程,用于正確地解釋用戶的口頭表達;
[0085]圖6是根據(jù)本發(fā)明一個實施例的過程,用于確定要調(diào)用的恰當領(lǐng)域代理以及將要提交到該代理的恰當格式化的查詢和/或命令;
[0086]圖7展示了根據(jù)本發(fā)明一個實施例,集中地保持上下文的圖。
【具體實施方式】
[0087]對于在人與機器之間的自然人請求-應(yīng)答互動的障礙包括:自然語言詢問可能在其定義上不完整。不僅如此,為了恰當?shù)亟忉屓舾蓡栴}和/或命令,可能需要先前問題的上下文、領(lǐng)域知識和/或用戶的興趣和偏愛歷史。因此,自然語言問題無法容易地轉(zhuǎn)錄為機器可處理的形式?;旌狭诉@個難題時,自然語言問題可能會模糊或主觀。在這些情況下,可能難以形成機器可處理的查詢并返回自然語言應(yīng)答。
[0088]為了使機器(如計算機設(shè)備)正確地響應(yīng)以自然語言形式所提交的問題和命令,在已經(jīng)對自然形式的問題或命令進行了語法分析和解釋之后,可以表達為機器可處理的查詢和算法。若干算法描述這些機器應(yīng)當如何集合數(shù)據(jù)以響應(yīng)這些問題或命令。取決于這些問題或命令的性質(zhì),也許沒有一組簡單的查詢和算法將返回適當?shù)膽?yīng)答。為了實現(xiàn)完整應(yīng)答可能需要啟動幾種查詢和算法,甚至可能需要將這些查詢和算法環(huán)環(huán)相扣即連接起來。此外,任何單一可用源都不會包含產(chǎn)生完整應(yīng)答所需要的完全結(jié)果集。因此,為了訪問有的位于本地有的位于遠程的多個數(shù)據(jù)源,可以產(chǎn)生多個查詢和/或算法,也許分為幾個部分。有的數(shù)據(jù)源、查詢和/或算法可能不返回有用的結(jié)果,或者根本不返回任何結(jié)果。
[0089]返回的有用結(jié)果往往嵌入在其他信息中,并且可能需要從所述其他信息中提取。例如,可能需要從文本字符串、表格、列表、頁面、視頻流或其他信息中的大量其他信息里“分解出”幾個關(guān)鍵字或數(shù)字。與此同時,為了處