自動調(diào)整用戶界面以用于免提交互的制作方法
【專利摘要】本發(fā)明公開了一種用于諸如虛擬助理之類的系統(tǒng)的用戶界面,所述用戶界面被自動調(diào)整以用于免提使用。通過自動或手動部件來檢測免提情境,并且所述系統(tǒng)對復(fù)雜交互系統(tǒng)的多個(gè)階段進(jìn)行調(diào)整以修改所述用戶體驗(yàn)從而反映此類情境的特定限制。本發(fā)明的所述系統(tǒng)因此允許諸如虛擬助理之類的復(fù)雜系統(tǒng)的單個(gè)具體實(shí)施,以動態(tài)地提供用戶界面元素并更改用戶界面行為,從而在不妨礙所述相同系統(tǒng)的針對手持使用的用戶體驗(yàn)的情況下允許免提使用。
【專利說明】自動調(diào)整用戶界面以用于免提交互
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及多模態(tài)用戶界面,并且更具體地講,涉及包括基于語音的模態(tài)和視覺模態(tài)這兩者的用戶界面。
【背景技術(shù)】
[0002]許多現(xiàn)有操作系統(tǒng)和設(shè)備使用語音輸入作為用戶可借以控制操作的模態(tài)。一個(gè)實(shí)例為語音命令系統(tǒng),其將具體言語命令映射成操作,例如以通過講出人名來發(fā)起電話號碼的撥號。另一個(gè)實(shí)例為交互式語音響應(yīng)(IVR)系統(tǒng),其允許人們通過諸如自動電話服務(wù)臺之類的電話來訪問靜態(tài)信息。
[0003]許多語音命令和IVR系統(tǒng)在范圍上相對狹窄且僅可處理預(yù)定的一組語音命令。此夕卜,其輸出通常獲自固定的一組響應(yīng)。
[0004]一種智能自動助理,在本文中也稱為虛擬助理,能夠在人與計(jì)算機(jī)之間提供改進(jìn)的接口,包括自然語言輸入的處理。此類助理可如2011年I月10日提交的相關(guān)美國實(shí)用專利申請序列號12/987,982的“Intelligent Automated Assistant”所述來實(shí)施,所述申請的全部公開內(nèi)容以引用方式并入本文,此類助理允許用戶使用自然語言(以語音和/或文本的形式)與設(shè)備或系統(tǒng)交互。此類助理解譯用戶輸入,將用戶的意圖實(shí)施為任務(wù)以及這些任務(wù)的參數(shù),執(zhí)行服務(wù)以支持這些任務(wù),并產(chǎn)生對用戶而言可理解的輸出。
[0005]虛擬助理能夠使用通用語音和自然語言理解技術(shù)以識別更大范圍的輸入,從而能夠生成與用戶的對話。一些虛擬助理可以模式的組合生成輸出,所述模式包括言語反應(yīng)和書面文本,并且所述虛擬助理還可提供允許屏幕上元素的直接操控的圖形用戶界面(GUI)。然而,用戶可能無法始終處于他/或她可利用此類視覺輸出或直接操控界面的情況。例如,用戶可能正在駕駛或操作機(jī)械,或者可能具有視力殘疾,或者可能只是對視覺界面不適應(yīng)或不熟悉。
[0006]用戶閱讀屏幕或通過接觸(包括使用鍵盤、鼠標(biāo)、觸摸屏、指向設(shè)備等)與設(shè)備進(jìn)行交互的能力的缺失或限制的任何情況在本文中稱為“免提情境”。例如,在用戶試圖在駕駛的同時(shí)操作設(shè)備的情況下,如上文所提及,用戶可聽到語音輸出并使用其聲音進(jìn)行響應(yīng),但出于安全原因,不應(yīng)閱讀小號字體,觸擊菜單,或輸入文本。
[0007]免提情境對諸如虛擬助理之類的復(fù)雜系統(tǒng)的構(gòu)建者提出了特殊挑戰(zhàn)。用戶要求無論是否在免提情境下均全面獲取設(shè)備的特征。然而,如果未考慮免提操作中固有的特定限制,則可引起設(shè)備或系統(tǒng)的實(shí)用性和可用性兩者受到限制的情況,并且可甚至通過使用戶從諸如操作車輛的主要任務(wù)中分心而妨礙安全性。
【發(fā)明內(nèi)容】
[0008]根據(jù)本發(fā)明的各種實(shí)施例,諸如虛擬助理之類的系統(tǒng)的用戶界面被自動調(diào)整以適于免提使用。通過自動或手動部件來檢測免提情境,并且所述系統(tǒng)對復(fù)雜的交互系統(tǒng)的各個(gè)階段進(jìn)行調(diào)整以修改用戶體驗(yàn)以反映此類情境的特定限制。本發(fā)明的系統(tǒng)因此允許虛擬助理或其他復(fù)雜系統(tǒng)的單個(gè)具體實(shí)施以動態(tài)地提供用戶界面元素并更改用戶界面行為,以在不妨礙相同系統(tǒng)的針對手持使用的用戶體驗(yàn)的情況下允許免提使用。
[0009]例如,在各種實(shí)施例中,本發(fā)明的系統(tǒng)提供用于調(diào)節(jié)虛擬助理的操作的機(jī)制,使得該系統(tǒng)以允許用戶完成其任務(wù)而不必閱讀屏幕上的細(xì)節(jié)的方式提供輸出。此外,在各種實(shí)施例中,虛擬助理可提供用于接收語音輸入的機(jī)制,以作為閱讀、輕敲、點(diǎn)擊、鍵入或執(zhí)行通常使用圖形用戶界面實(shí)現(xiàn)的其他功能的替代形式。
[0010]在各種實(shí)施例中,本發(fā)明的系統(tǒng)在允許與免提情境相關(guān)的特定要求和限制的同時(shí)提供與常規(guī)圖形用戶界面的基礎(chǔ)功能性相同(或近似)的基礎(chǔ)功能性。更一般地講,本發(fā)明的系統(tǒng)在有利于免提情境中的操作的同時(shí)允許核心功能性保持基本上相同。在一些實(shí)施例中,根據(jù)本發(fā)明的技術(shù)構(gòu)建的系統(tǒng)允許用戶在單個(gè)會話中的一些情況下在免提模式與常規(guī)(“手持”)模式之間自由選擇。例如,可將相同界面制作成可適應(yīng)于辦公室環(huán)境和移動車輛這兩者,其中系統(tǒng)隨著環(huán)境變化而動態(tài)地對用戶界面行為做出必要的更改。
[0011]根據(jù)本發(fā)明的各種實(shí)施例,可實(shí)施任何數(shù)量的機(jī)制以用于針對免提情境調(diào)整虛擬助理的操作。在各種實(shí)施例中,虛擬助理是如2011年I月10日提交的美國實(shí)用專利申請序列號為12/987,982的“Intelligent Automated Assistant”的智能自動助理,所述申請的全部公開內(nèi)容以引用的方式并入本文。此類助理使用自然語言對話以整合的會話方式與用戶交互,并在適合獲取信息或執(zhí)行各種動作時(shí)調(diào)用外部服務(wù)。
[0012]根據(jù)本發(fā)明的各種實(shí)施例,虛擬助理可被配置為、設(shè)計(jì)為和/或可操作以檢測免提情境并在執(zhí)行各種不同類型的操作、功能性和/或特征的過程中相應(yīng)地調(diào)節(jié)其操作,和/或?qū)ζ渖习惭b有虛擬助理的電子設(shè)備的多個(gè)特征、操作和應(yīng)用程序進(jìn)行組合。在一些實(shí)施例中,本發(fā)明的虛擬助理可檢測免提情境并在接收輸入、提供輸出、參與用戶的對話、和/或基于所辨識的意圖執(zhí)行(或發(fā)起)動作時(shí)相應(yīng)地調(diào)節(jié)其操作。
[0013]可例如通過激活和/或與電子設(shè)備上可用的任何應(yīng)用程序或服務(wù)以及通過諸如互聯(lián)網(wǎng)之類的電子網(wǎng)絡(luò)而可用的服務(wù)交互來執(zhí)行動作。在各種實(shí)施例中,可通過應(yīng)用程序編程接口(API)或由任何其他合適的一個(gè)或多個(gè)機(jī)制執(zhí)行外部服務(wù)的此類激活。以此方式,根據(jù)本發(fā)明的各種實(shí)施例實(shí)施的虛擬助理可針對電子設(shè)備的多種不同應(yīng)用程序和功能并相對于通過互聯(lián)網(wǎng)而可用的服務(wù)提供免提使用環(huán)境。如在上文所引用的相關(guān)專利申請中所述,此類虛擬助理的使用可為用戶減輕以下負(fù)擔(dān):了解哪種功能性在設(shè)備上以及在聯(lián)網(wǎng)型服務(wù)上可用;如何與此類服務(wù)交互以獲取他/或她所想要的內(nèi)容;以及如何解譯從此類服務(wù)接收的輸出;相反,本發(fā)明的助理可充當(dāng)用戶與此類多樣化服務(wù)之間的媒介。
[0014]此外,在各種實(shí)施例中,本發(fā)明的虛擬助理提供一種會話界面,用戶可發(fā)現(xiàn)該會話界面比常規(guī)圖形用戶界面更直觀且更簡潔。用戶可部分地根據(jù)免提或手持情境是否激活來使用多個(gè)可用輸入和輸出機(jī)制中的任一者以會話對話的形式與助理交互。此類輸入和輸出機(jī)制的實(shí)例不受限制地包括語音、圖形用戶界面(按鈕和鏈接)、文本輸入等。可使用多個(gè)不同平臺中的任一者實(shí)施該系統(tǒng),所述平臺為諸如設(shè)備AP1、web、電子郵件等或它們的任何組合??稍谝月犛X和/或視覺的方式呈現(xiàn)會話的情境中向用戶呈現(xiàn)附加輸入請求??刹捎枚唐诤烷L期存儲器,使得可鑒于給定會話內(nèi)的先前事件和通信以及關(guān)于用戶的歷史和簡況信息而在正確的情境中解譯用戶輸入。
[0015]在各種實(shí)施例中,本發(fā)明的虛擬助理可控制電子設(shè)備的各種特征和操作。例如,虛擬助理可通過API或通過其他手段調(diào)用與設(shè)備上的功能性和應(yīng)用程序交互的服務(wù),以執(zhí)行換句話講可能使用設(shè)備上的常規(guī)用戶界面發(fā)起的功能和操作。此類功能和操作可包括例如設(shè)置警報(bào)、撥打電話、發(fā)送文本信息或電子郵件信息、添加日歷事件,等等。此類功能和操作可作為插件功能在用戶與助理之間的會話對話的情境中執(zhí)行。此類功能和操作可由用戶在此類對話的情境中指定,或者它們可基于對話的情境而自動執(zhí)行。本領(lǐng)域的技術(shù)人員將認(rèn)識到,助理可由此被用作發(fā)起和控制電子設(shè)備上的各種操作的機(jī)制。通過收集造成與用戶當(dāng)前情況有關(guān)的干擾的情境證據(jù),并通過相應(yīng)地調(diào)節(jié)用戶界面的操作,本發(fā)明的系統(tǒng)能夠呈現(xiàn)用于啟用虛擬助理的免提操作的機(jī)制以實(shí)施用于控制所述設(shè)備的此類機(jī)制。
[0016]根據(jù)一些實(shí)施例,一種方法包括在處理器處檢測免提情境是否激活。該方法還包括在輸出設(shè)備處提示用戶進(jìn)行輸入。該方法還包括在輸入設(shè)備處接收用戶輸入。該方法還包括在處理器處解譯所接收的用戶輸入以獲得用戶意圖的表示;至少部分地基于所獲得的用戶意圖的表示來識別至少一個(gè)任務(wù)以及所述任務(wù)的至少一個(gè)參數(shù);使用所述至少一個(gè)參數(shù)執(zhí)行所述至少一個(gè)任務(wù)以得到結(jié)果;基于所得到的結(jié)果生成對話響應(yīng)。該方法還包括在輸出設(shè)備處輸出所生成的對話響應(yīng)。響應(yīng)于檢測到設(shè)備在免提情景中,以與跟免提情境相關(guān)的限制相一致的方式執(zhí)行以下步驟中的至少一者:提示用戶進(jìn)行輸入,接收用戶輸入,解譯接收的用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成對話響應(yīng)。
[0017]根據(jù)一些實(shí)施例,電子設(shè)備包括一個(gè)或多個(gè)處理器、存儲器和一個(gè)或多個(gè)程序;所述一個(gè)或多個(gè)程序存儲在存儲器中并被配置為由所述一個(gè)或多個(gè)處理器執(zhí)行,并且所述一個(gè)或多個(gè)程序包括用于執(zhí)行任一上文所述方法的操作的指令。根據(jù)一些實(shí)施例,計(jì)算機(jī)可讀存儲介質(zhì)中已存儲了指令;在由電子設(shè)備執(zhí)行時(shí),所述指令使設(shè)備執(zhí)行任一上文所述方法的操作。根據(jù)一些實(shí)施例,電子設(shè)備包括用于執(zhí)行任一上文所述方法的操作的部件。根據(jù)一些實(shí)施例,用于電子設(shè)備的信息處理裝置包括用于執(zhí)行任一上文所述方法的操作的部件。
[0018]根據(jù)一些實(shí)施例,電子設(shè)備包括被配置為檢測免提情境是否激活的處理單元。電子設(shè)備還包括耦接至處理單元并被配置為提示用戶進(jìn)行輸入的輸出單元,以及耦接至處理單元并被配置為接收用戶輸入的輸入單元。處理單元進(jìn)一步被配置為:解譯所接收的用戶輸入以得到用戶意圖的表示;至少部分地基于所得到的用戶意圖的表示來識別至少一個(gè)任務(wù)以及所述任務(wù)的至少一個(gè)參數(shù);使用所述至少一個(gè)參數(shù)執(zhí)行所述至少一個(gè)任務(wù)以得到結(jié)果;基于所得到的結(jié)果生成對話響應(yīng);以及使輸出設(shè)備輸出所生成的對話響應(yīng)。響應(yīng)于檢測到設(shè)備在免提情景中,以與跟免提情境相關(guān)的限制相一致的方式執(zhí)行以下步驟中的至少一者:提示用戶進(jìn)行輸入,接收用戶輸入,解譯接收的用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成對話響應(yīng)。
【專利附圖】
【附圖說明】
[0019]附圖連同說明書一起示出了本發(fā)明的若干實(shí)施例,用于說明根據(jù)實(shí)施例的本發(fā)明的原理。本領(lǐng)域的技術(shù)人員將認(rèn)識到,附圖中所示的特定實(shí)施例僅是示例性的,并不旨在限制本發(fā)明的范圍。
[0020]圖1為屏幕截圖,示出了根據(jù)現(xiàn)有技術(shù)的用于閱讀文本信息的手持界面的實(shí)例。[0021]圖2為屏幕截圖,示出了用于響應(yīng)于文本信息的界面的實(shí)例。
[0022]圖3A和3B為一系列屏幕截圖,示出了用于回復(fù)文本信息的語音聽寫界面的實(shí)例。
[0023]圖4為根據(jù)一個(gè)實(shí)施例的屏幕截圖,示出了用于接收文本信息的界面的實(shí)例。
[0024]圖5A至為根據(jù)本發(fā)明的實(shí)施例的一系列屏幕截圖,示出了多模態(tài)虛擬助理的操作的實(shí)例,其中用戶在免提情境中接收和回復(fù)文本信息。
[0025]圖6A至6C為根據(jù)本發(fā)明的實(shí)施例的一系列屏幕截圖,示出了多模態(tài)虛擬助理的操作的實(shí)例,其中用戶在免提情境中修改文本信息。
[0026]圖7為根據(jù)一個(gè)實(shí)施例的流程圖,示出了支持免提情境的動態(tài)檢測和調(diào)整的虛擬助理的操作的方法。
[0027]圖8為根據(jù)一個(gè)實(shí)施例示出了虛擬助理系統(tǒng)的實(shí)例的框圖。
[0028]圖9為根據(jù)至少一個(gè)實(shí)施例的框圖,示出了適用于實(shí)施虛擬助理的至少一部分的計(jì)算設(shè)備。
[0029]圖10為根據(jù)至少一個(gè)實(shí)施例的框圖,示出了用于在獨(dú)立計(jì)算系統(tǒng)上實(shí)施虛擬助理的至少一部分的架構(gòu)。
[0030]圖11為根據(jù)至少一個(gè)實(shí)施例的框圖,示出了用于在分布式計(jì)算網(wǎng)絡(luò)上實(shí)施虛擬助理的至少一部分的架構(gòu)。
[0031]圖12為描繪了系統(tǒng)架構(gòu)的框圖,示出了多種不同類型的客戶端和操作模式。
[0032]圖13為根據(jù)一個(gè)實(shí)施例的框圖,描繪了彼此通信以實(shí)施本發(fā)明的客戶端和服務(wù)器。
[0033]圖14為根據(jù)一些實(shí)施例的電子設(shè)備的功能框圖。
【具體實(shí)施方式】
[0034]根據(jù)本發(fā)明的各種實(shí)施例,結(jié)合虛擬助理的操作,來檢測免提情境并相應(yīng)地調(diào)整虛擬助理的用戶界面,以使用戶在免提情境下能夠與助理有意義地交互。
[0035]出于描述的目的,術(shù)語“虛擬助理”相當(dāng)于術(shù)語“智能自動助理”,這兩個(gè)術(shù)語均指執(zhí)行以下功能中的一者或多者的任何信息處理系統(tǒng):
[0036].以語音形式和/或文本形式解譯人類語言輸入;
[0037].將用戶意圖的表示實(shí)踐為可執(zhí)行的形式,諸如使用步驟和/或參數(shù)的任務(wù)表示;
[0038].通過調(diào)用程序、方法、服務(wù)、API等來執(zhí)行任務(wù)表示;以及
[0039].以語言形式和/或圖表形式生成對用戶的輸出響應(yīng)。
[0040]在如于2011年I月10日提交的相關(guān)美國實(shí)用專利申請序列號為12/987,982的“Intelligent Automated Assistant”中描述了此類虛擬助理的實(shí)例,所述申請的全部公開內(nèi)容以引用的方式并入本文。
[0041]現(xiàn)在將參照如附圖中所示的示例性實(shí)施例詳細(xì)描述各種技術(shù)。在以下描述中,闡述了許多具體細(xì)節(jié)以便提供對本文所述或引用的一個(gè)或多個(gè)方面和/或特征的徹底理解。然而,對于本領(lǐng)域的技術(shù)人員將顯而易見的是,本文所述或引用的一個(gè)或多個(gè)方面和/或特征可以在不具有這些具體細(xì)節(jié)中的一些或全部的情況下實(shí)踐。在其他情況下,為了不使本文所述或引用的方面和/或特征費(fèi)解,沒有詳細(xì)描述熟知的處理步驟和/或結(jié)構(gòu)。
[0042]在本專利申請中可描述一個(gè)或多個(gè)不同的發(fā)明。此外,對于本文所述的一個(gè)或多個(gè)發(fā)明,許多實(shí)施例可在本專利申請中描述并且僅出于示例性目的而呈現(xiàn)。所描述的實(shí)施例在任何意義上均非旨在進(jìn)行限制。一個(gè)或多個(gè)所述發(fā)明可廣泛地適用于許多實(shí)施例,正如通過公開內(nèi)容所顯而易見的。這些實(shí)施例被足夠詳細(xì)地描述以使本領(lǐng)域的技術(shù)人員能夠?qū)嵺`一個(gè)或多個(gè)所述發(fā)明,并且應(yīng)當(dāng)理解,可使用其他實(shí)施例,并可在不脫離一個(gè)或多個(gè)所述發(fā)明的范圍的情況下進(jìn)行結(jié)構(gòu)修改、邏輯修改、軟件修改、電氣修改和其他修改。因此,本領(lǐng)域的技術(shù)人員將認(rèn)識到,可在各種變型和更改的情況下實(shí)踐一個(gè)或多個(gè)所述發(fā)明。可參照一個(gè)或多個(gè)特定實(shí)施例或圖示來描述一個(gè)或多個(gè)所述發(fā)明的具體特征,所述實(shí)施例或圖示形成本公開內(nèi)容的一部分,并且其中以說明的方式示出了一個(gè)或多個(gè)所述發(fā)明的特定實(shí)施例。然而,應(yīng)當(dāng)理解,此類特征不限于參照所述的特征的一個(gè)或多個(gè)特定實(shí)施例或圖示中的使用。本公開內(nèi)容既不是一個(gè)或多個(gè)所述發(fā)明的所有實(shí)施例的字面描述,也不是必須存在于所有實(shí)施例中的一個(gè)或多個(gè)所述發(fā)明的特征的列表。
[0043]在本專利申請中提供的章節(jié)的標(biāo)頭和本專利申請的標(biāo)題僅為了方便起見,不應(yīng)被視為以任何方式限制本公開內(nèi)容。
[0044]除非另有明確規(guī)定,彼此通信的設(shè)備不需要是彼此連續(xù)通信的。此外,彼此通信的設(shè)備可直接通信或通過一個(gè)或多個(gè)媒介間接通信。
[0045]多個(gè)組件彼此通信的實(shí)施例的描述并非暗示需要所有此類組件。相反,描述了多種可選組件以示出一個(gè)或多個(gè)所述發(fā)明的大量可行實(shí)施例。
[0046]此外,盡管可以相繼順序描述工藝、方法步驟、算法等,但此類工藝、方法和算法可被配置為以任何合適的順序工作。換句話講,可在本專利申請中描述的步驟的任何序列或順序并未自身地和自行地指示要求以該順序來執(zhí)行步驟。此外,一些步驟盡管被描述或暗示為非同時(shí)地發(fā)生(例如,因?yàn)橐粋€(gè)步驟在另一步驟之后描述),但是也可同時(shí)執(zhí)行。此外,通過在附圖中的圖示而進(jìn)行的過程的說明并不意指所示的過程不包括它的其他變型形式和修改形式,并不是意指所示的過程或其任何步驟是一個(gè)或多個(gè)所述發(fā)明所必需的,也并不意指所示的過程是優(yōu)選的。
[0047]在描述單個(gè)設(shè)備或物件時(shí),將顯而易見的是,可使用不止一個(gè)設(shè)備/物件(無論其是否配合)來代替單個(gè)設(shè)備/物件。類似地,在描述不止一個(gè)設(shè)備或物件(無論其是否配合)的情況下,將顯而易見的是,可使用單個(gè)設(shè)備/物件來代替所述不止一個(gè)設(shè)備或物件。
[0048]設(shè)備的功能性和/或特征可通過未明確描述為具有此類功能性/特征的一個(gè)或多個(gè)其他設(shè)備而可供選擇地體現(xiàn)。因此,一個(gè)或多個(gè)所述發(fā)明的其他實(shí)施例不必包括設(shè)備本身。
[0049]有時(shí)為了清楚起見,將以單數(shù)形式描述本文所述或引用的技術(shù)和機(jī)制。然而,應(yīng)當(dāng)指出的是,除非另外指明,特定實(shí)施例包括技術(shù)的多次迭代或機(jī)制的多個(gè)例示。
[0050]盡管是在用于實(shí)施智能自動助理(又稱作虛擬助理)的技術(shù)的上下文內(nèi)描述,但應(yīng)理解,也可在涉及與軟件進(jìn)行的人類和/或計(jì)算機(jī)化交互技術(shù)的其他領(lǐng)域中部署且/或應(yīng)用本文所述的各種方面和技術(shù)。
[0051]與虛擬助理技術(shù)(例如,可由本文所述的一個(gè)或多個(gè)虛擬助理系統(tǒng)實(shí)施例使用、由本文所述的一個(gè)或多個(gè)虛擬助理系統(tǒng)實(shí)施例提供、和/或在本文所述的一個(gè)或多個(gè)虛擬助理系統(tǒng)實(shí)施例處實(shí)施的虛擬助理技術(shù))有關(guān)的其他方面在以下一個(gè)或多個(gè)申請中公開,這些申請的全部公開內(nèi)容以引用的方式并入本文:[0052].于2011年I月10日提交的美國實(shí)用專利申請序列號為12/987,982的“Intelligent Automated Assistant”;
[0053].于2010年I月18日提交的美國臨時(shí)專利申請序列號為61/295,774的“Intelligent Automated Assistant”;
[0054]?于2011 年9月 30 日提交的標(biāo)題為“Using Context Information to FacilitateProcessing of Commands in a Virtual Assistant,,;
[0055].于2006年9月8日提交的美國專利申請序列號為11/518,292的“Method AndApparatus for Building an Intelligent Automated Assistant,,;
[0056]?于2009年6月12日提交的美國臨時(shí)專利申請序列號為61/186,414的“Systemand Method for Semantic Auto-Completion,,。
[0057]硬件架構(gòu)
[0058]通常,可在硬件上或在軟件與硬件的組合上實(shí)施本文公開的虛擬助理技術(shù)。例如,可在操作系統(tǒng)內(nèi)核中、單獨(dú)的用戶過程中、綁定到網(wǎng)絡(luò)應(yīng)用程序中的庫包中、特別構(gòu)造的機(jī)器上、和/或網(wǎng)絡(luò)接口卡上實(shí)施所述技術(shù)。在具體實(shí)施例中,可在諸如操作系統(tǒng)之類的軟件中或在操作系統(tǒng)上運(yùn)行的應(yīng)用程序中實(shí)施本文公開的技術(shù)。
[0059]可在可編程機(jī)器上實(shí)施本文公開的一個(gè)或多個(gè)虛擬助理實(shí)施例中的至少一些的一個(gè)或多個(gè)軟件/硬件混合具體實(shí)施,所述可編程機(jī)器由存儲在存儲器中的計(jì)算機(jī)程序選擇性地激活或重新配置。此類網(wǎng)絡(luò)設(shè)備可具有可被配置或設(shè)計(jì)為使用不同類型的網(wǎng)絡(luò)通信協(xié)議的多個(gè)網(wǎng)絡(luò)接口。這些機(jī)器中的一些的通用架構(gòu)通過本文公開的說明書描述而顯現(xiàn)。根據(jù)具體實(shí)施例,可在一個(gè)或多個(gè)通用網(wǎng)絡(luò)主機(jī)機(jī)器上實(shí)施本文公開的各種虛擬助理實(shí)施例的至少一些所述特征和/或功能性,所述通用網(wǎng)絡(luò)主機(jī)機(jī)器為諸如終端用戶計(jì)算機(jī)系統(tǒng)、計(jì)算機(jī)、網(wǎng)絡(luò)服務(wù)器或服務(wù)器系統(tǒng)、移動計(jì)算設(shè)備(例如,個(gè)人數(shù)字助理、移動電話、智能手機(jī)、膝上型計(jì)算機(jī)、平板電腦等)、消費(fèi)電子設(shè)備、音樂播放器、或任何其他合適的電子設(shè)備、路由器、交換機(jī)等,或它們的任何組合。在至少一些實(shí)施例中,可在一個(gè)或多個(gè)虛擬化計(jì)算環(huán)境(例如,網(wǎng)絡(luò)計(jì)算云等等)中實(shí)施本文公開的各種虛擬助理實(shí)施例的至少一些特征和/或功能性。
[0060]現(xiàn)在參見圖9,其示出了描繪適于實(shí)施本文所公開的至少一部分所述虛擬助理特征和/或功能性的計(jì)算設(shè)備60的框圖。計(jì)算設(shè)備60可以是例如終端用戶計(jì)算機(jī)系統(tǒng)、網(wǎng)絡(luò)服務(wù)器或服務(wù)器系統(tǒng)、移動計(jì)算設(shè)備(例如,個(gè)人數(shù)字助理、移動電話、智能手機(jī)、膝上型計(jì)算機(jī)、平板電腦,等等)、消費(fèi)電子設(shè)備、音樂播放器、或任何其他合適的電子設(shè)備,或它們的任何組合或部分。計(jì)算設(shè)備60可適于通過諸如互聯(lián)網(wǎng)之類的通信網(wǎng)絡(luò),使用此類通信的已知協(xié)議,與其他計(jì)算設(shè)備無線地或有線地通信,所述其他計(jì)算設(shè)備為諸如客戶端和/或服務(wù)器。
[0061]在一個(gè)實(shí)施例中,計(jì)算設(shè)備60包括中央處理單元(CPU) 62、接口 68和總線67 (諸如外圍組件互連(PCI)總線)。當(dāng)在適當(dāng)?shù)能浖蚬碳目刂葡鹿ぷ鲿r(shí),CPU62可負(fù)責(zé)實(shí)施與特殊配置的計(jì)算設(shè)備或機(jī)器的功能相關(guān)聯(lián)的特定功能。例如,在至少一個(gè)實(shí)施例中,用戶的個(gè)人數(shù)字助理(PDA)或智能手機(jī)可被配置或設(shè)計(jì)為用作使用CPU62、存儲器61、65和一個(gè)或多個(gè)接口 68的虛擬助理系統(tǒng)。在至少一個(gè)實(shí)施例中,可使CPU62在軟件模塊/組件的控制下執(zhí)行不同類型的虛擬助理功能和/或操作中的一者或多者,所述軟件模塊/組件例如可包括操作系統(tǒng)和任何適當(dāng)?shù)膽?yīng)用程序軟件、驅(qū)動程序等。
[0062]CPU62可包括一個(gè)或多個(gè)處理器63,所述處理器諸如例如得自Motorola或Intel系列微處理器或MIPS系列微處理器的處理器。在一些實(shí)施例中,一個(gè)或多個(gè)處理器63可包括用于控制計(jì)算設(shè)備60的操作的特別設(shè)計(jì)的硬件(例如,專用集成電路(ASIC)、電可擦除可編程只讀存儲器(EEPROM)、現(xiàn)場可編程門陣列(FPGA)等)。在一個(gè)具體實(shí)施例中,存儲器61 (諸如非易失性隨機(jī)存取存儲器(RAM)和/或只讀存儲器(ROM))也形成CPU62的一部分。然而,也存在可將存儲器耦接到系統(tǒng)的許多不同方式。內(nèi)存塊61可用于多種目的,諸如例如高速緩存和/或存儲數(shù)據(jù)、編程指令等。
[0063]如本文所用,術(shù)語“處理器”并不僅限于本領(lǐng)域中稱為處理器的那些集成電路,而是泛指微控制器、微型計(jì)算機(jī)、可編程邏輯控制器、專用集成電路、和任何其他可編程電路。
[0064]在一個(gè)實(shí)施例中,接口 68被提供為接口卡(有時(shí)稱為“線路卡”)。通常,所述接口控制通過計(jì)算網(wǎng)絡(luò)進(jìn)行的數(shù)據(jù)包的發(fā)送和接收,并且有時(shí)支持與計(jì)算設(shè)備60 —起使用的其他外圍設(shè)備。在可提供的接口中有Ethernet接口、幀中繼接口、電纜接口、DSL接口、令牌環(huán)接口等。此外,可提供各種類型的接口,諸如例如通用串行總線(USB)、串行、Ethernet、火線、PC1、并行、射頻(RF)、Bluetooth?、近場通信(例如,使用近場磁學(xué))、802.11 (WiFi)、幀中繼、TCP/IP、ISDN、快速Ethernet接口、千兆位Ethernet接口、異步傳輸模式(ATM)接口、高速串行接口(HSSI)接口、銷售點(diǎn)(POS)接口、光纖數(shù)據(jù)分布式接口(FDDI),等等。通常,此類接口 68可包括適于與合適介質(zhì)通信的端口。在一些情況下,所述接口還可包括獨(dú)立處理器,并且在一些情況下包括易失性存儲器和/或非易失性存儲器(例如,RAM)。
[0065]盡管圖9所示的系統(tǒng)示出了用于實(shí)施本文所述的本發(fā)明技術(shù)的計(jì)算設(shè)備60的一個(gè)特定架構(gòu),但其絕不是可實(shí)施本文所述的特征和技術(shù)中的至少一部分的唯一設(shè)備架構(gòu)。例如,可使用具有一個(gè)或任何數(shù)量的處理器63的架構(gòu),并且此類處理器63可存在于單個(gè)設(shè)備中或者分布在任何數(shù)量的設(shè)備中。在一個(gè)實(shí)施例中,單個(gè)處理器63處理通信以及路由計(jì)算。在各種實(shí)施例中,不同類型的虛擬助理特征和/或功能性可實(shí)施于虛擬助理系統(tǒng)中,所述虛擬助理系統(tǒng)包括客戶端設(shè)備(諸如運(yùn)行客戶端軟件的個(gè)人數(shù)字助理或智能手機(jī))和一個(gè)或多個(gè)服務(wù)器系統(tǒng)(諸如,下文更詳細(xì)地描述的服務(wù)器系統(tǒng))。
[0066]不考慮網(wǎng)絡(luò)設(shè)備配置,本發(fā)明的系統(tǒng)可采用一個(gè)或多個(gè)存儲器或存儲器模塊(諸如,例如內(nèi)存塊65),所述存儲器或存儲器模塊被配置為存儲用于通用網(wǎng)絡(luò)操作的數(shù)據(jù)、程序指令、和/或與本文所述的虛擬助理技術(shù)的功能性有關(guān)的其他信息。程序指令可控制例如操作系統(tǒng)和/或一個(gè)或多個(gè)應(yīng)用程序的操作。一個(gè)或多個(gè)存儲器也可被配置為用來存儲數(shù)據(jù)結(jié)構(gòu)、關(guān)鍵字分類信息、廣告信息、用戶點(diǎn)擊和印象信息、和/或本文所述的其他特定非程序信息。
[0067]由于此類信息和程序指令可用于實(shí)施本文所述的系統(tǒng)/方法,因此至少一些網(wǎng)絡(luò)設(shè)備實(shí)施例可包括非暫時(shí)性機(jī)器可讀存儲介質(zhì),所述非暫時(shí)性機(jī)器可讀存儲介質(zhì)例如可被配置或設(shè)計(jì)為存儲用于執(zhí)行本文所述的各種操作的程序指令、狀態(tài)信息等。此類非暫時(shí)性機(jī)器可讀存儲介質(zhì)的實(shí)例包括但不限于諸如硬盤、軟盤和磁帶之類的磁介質(zhì);諸如CD-ROM磁盤之類的光學(xué)介質(zhì);諸如軟式光盤之類的磁光介質(zhì);和經(jīng)特別配置以存儲并執(zhí)行程序指令的硬件設(shè)備,所述硬件設(shè)備為諸如只讀存儲器設(shè)備(ROM)、閃存存儲器、憶阻器存儲器、隨機(jī)存取存儲器(RAM),等等。程序指令的實(shí)例包括諸如由編譯器產(chǎn)生的機(jī)器代碼和包含較高級代碼的文件,所述較高級代碼可由計(jì)算機(jī)使用解譯器執(zhí)行。
[0068]在一個(gè)實(shí)施例中,在獨(dú)立計(jì)算系統(tǒng)上實(shí)施本發(fā)明的系統(tǒng)。現(xiàn)在參見圖10,其根據(jù)至少一個(gè)實(shí)施例示出了框圖,該框圖描繪用于在獨(dú)立計(jì)算系統(tǒng)上實(shí)施虛擬助理的至少一部分的架構(gòu)。計(jì)算設(shè)備60包括一個(gè)或多個(gè)處理器63,所述處理器運(yùn)行用于實(shí)施多模態(tài)虛擬助理1002的軟件。輸入設(shè)備1206可以是適于接收用戶輸入的任何類型,包括例如鍵盤、觸摸屏、鼠標(biāo)、觸摸板、軌跡球、五路開關(guān)、操縱桿、和/或它們的任何組合。設(shè)備60還可包括諸如例如麥克風(fēng)之類的語音輸入設(shè)備1211。輸出設(shè)備1207可以是屏幕、揚(yáng)聲器、打印機(jī)、和/或它們的任何組合。存儲器1210可以是具有如本領(lǐng)域中已知的結(jié)構(gòu)和架構(gòu)的隨機(jī)存取存儲器以供一個(gè)或多個(gè)處理器63在運(yùn)行軟件的過程中使用。存儲設(shè)備1208可以是用于以數(shù)字形式存儲數(shù)據(jù)的任何磁存儲設(shè)備、光學(xué)存儲設(shè)備和/或電存儲設(shè)備;實(shí)例包括閃存存儲器、磁性硬盤驅(qū)動機(jī)、⑶-ROM、和/或諸如此類。
[0069]在另一個(gè)實(shí)施例中,在分布式計(jì)算網(wǎng)絡(luò)上實(shí)施本發(fā)明的系統(tǒng),所述分布式計(jì)算網(wǎng)絡(luò)為諸如具有任何數(shù)量的客戶端和/或服務(wù)器的分布式計(jì)算網(wǎng)絡(luò)?,F(xiàn)在參見圖11,其根據(jù)至少一個(gè)實(shí)施例示出了描繪一種架構(gòu)的框圖,所述架構(gòu)用于在分布式計(jì)算網(wǎng)絡(luò)上實(shí)施虛擬助理的至少一部分。
[0070]在圖11中所示的布置中,提供了任意數(shù)量的客戶端1304 ;每個(gè)客戶端1304可運(yùn)行軟件以用于實(shí)施本發(fā)明的客戶端側(cè)部分。此外,可提供任意數(shù)量的服務(wù)器1340以用于處理從客戶端1304接收的請求。客戶端1304和服務(wù)器1340可通過諸如互聯(lián)網(wǎng)之類的電子網(wǎng)絡(luò)1361彼此通信??墒褂萌魏我阎木W(wǎng)絡(luò)協(xié)議來實(shí)施網(wǎng)絡(luò)1361,所述網(wǎng)絡(luò)協(xié)議包括例如有線協(xié)議和/或無線協(xié)議。
[0071]此外,在一個(gè)實(shí)施例中,服務(wù)器1340可在需要時(shí)調(diào)用外部服務(wù)1360以獲得附加信息或涉及存儲關(guān)于與特定用戶進(jìn)行先前交互的數(shù)據(jù)。與外部服務(wù)1360進(jìn)行的通信可例如通過網(wǎng)絡(luò)1361發(fā)生。在各種實(shí)施例中,外部服務(wù)1360包括與硬件設(shè)備自身相關(guān)或安裝在硬件設(shè)備上的網(wǎng)絡(luò)啟用服務(wù)和/或功能性。例如,在助理1002被實(shí)施于智能手機(jī)或其他電子設(shè)備上的一個(gè)實(shí)施例中,助理1002可獲得存儲在日歷應(yīng)用程序(“app”)、聯(lián)系人、和/或其他資源中的信息。
[0072]在各種實(shí)施例中,助理1002可控制安裝有所述助理的電子設(shè)備的許多特征和操作。例如,助理1002可通過API或通過其他手段調(diào)用與設(shè)備上的功能性和應(yīng)用程序交互的外部服務(wù)1360,以執(zhí)行換句話講可能使用設(shè)備上的常規(guī)用戶界面而發(fā)起的功能和操作。此類功能和操作可包括例如設(shè)置警報(bào)、進(jìn)行電話呼叫、發(fā)送文本信息或電子郵件信息、添加日歷事件,等等。此類功能和操作可作為插件功能在用戶與助理1002之間的會話對話的情境中執(zhí)行。此類功能和操作可由用戶在此類對話的情境中指定,或者它們可基于對話的情境而自動執(zhí)行。本領(lǐng)域的技術(shù)人員將認(rèn)識到,助理1002可由此用來作為用于發(fā)起和控制電子設(shè)備上的各種操作的控制機(jī)制,所述控制機(jī)制可用作諸如按鈕或圖形用戶界面之類的常規(guī)機(jī)制的替代形式。
[0073]例如,用戶可將諸如“我需要在明天上午8點(diǎn)醒來”的輸入提供給助理1002。一旦助理1002確定了用戶的意圖,助理1002便可使用本文所述的技術(shù)來調(diào)用外部服務(wù)1360以與設(shè)備上的鬧鐘功能或應(yīng)用程序交互。助理1002代表用戶設(shè)置警報(bào)。以此方式,用戶可使用助理1002替代用于設(shè)置警報(bào)或執(zhí)行設(shè)備上的其他功能的常規(guī)機(jī)制。如果用戶的請求不明確或需要進(jìn)一步澄清,助理1002可使用本文所述的各種技術(shù),包括主動引導(dǎo)、改述、建議等,并且所述技術(shù)可適于免提情境,使得調(diào)用正確的服務(wù)1360并執(zhí)行預(yù)期的操作。在一個(gè)實(shí)施例中,助理1002可在調(diào)用服務(wù)1360以執(zhí)行功能之前,向用戶提示確認(rèn)和/或請求來自任何合適源的附加情境信息。在一個(gè)實(shí)施例中,用戶可選擇性地禁用助理1002的調(diào)用特定服務(wù)1360的能力,或者如果需要,可禁用所有此類服務(wù)調(diào)用。
[0074]本發(fā)明的系統(tǒng)可采用多種不同類型的客戶端1304和操作模式中的任一者實(shí)施。現(xiàn)在參見圖12,其示出了描繪系統(tǒng)架構(gòu)的框圖,所述框圖示出了多種不同類型的客戶端1304和操作模式。本領(lǐng)域的技術(shù)人員將認(rèn)識到,圖12所示的各種類型的客戶端1304和操作模式僅是示例性的,并且可利用除所描繪的那些之外的客戶端1304和/或操作模式來實(shí)施本發(fā)明的系統(tǒng)。此外,系統(tǒng)可獨(dú)立地或以任何組合的方式包括此類客戶端1304和/或操作模式中的任一者或全部。所示實(shí)例包括:
[0075]?具有輸入/輸出設(shè)備和/或傳感器的計(jì)算機(jī)設(shè)備1402??蛻舳私M件可部署在任何此類計(jì)算機(jī)設(shè)備1402上??墒褂脀eb瀏覽器1304A或用于通過網(wǎng)絡(luò)1361啟用與服務(wù)器1340的通信的其他軟件應(yīng)用程序來實(shí)施至少一個(gè)實(shí)施例。輸入和輸出信道可以是任何類型,包括例如視覺和/或聽覺信道。例如,在一個(gè)實(shí)施例中,可使用基于語音的通信方法實(shí)施本發(fā)明的系統(tǒng),從而允許助理的實(shí)施例供盲人使用,該系統(tǒng)的web瀏覽器的等效形式由語音驅(qū)動并使用語音進(jìn)行輸出。
[0076].具有I/O和傳感器的移動設(shè)備1406,可針對所述移動設(shè)備將客戶端實(shí)施為移動設(shè)備上的應(yīng)用1304B。這包括但不限于移動電話、智能手機(jī)、個(gè)人數(shù)字助理、平板型設(shè)備、聯(lián)網(wǎng)游戲控制臺等。
[0077].具有I/O和傳感器的消費(fèi)電器1410,可針對所述消費(fèi)電器將客戶端實(shí)施為電器上的嵌入式應(yīng)用1304C。
[0078].具有儀表板界面和傳感器的汽車和其他車輛1414,可針對所述汽車和其他車輛將客戶端實(shí)施為嵌入式系統(tǒng)應(yīng)用1304D。這包括但不限于汽車導(dǎo)航系統(tǒng)、語音控制系統(tǒng)、車載娛樂系統(tǒng)等。
[0079].諸如路由器的聯(lián)網(wǎng)計(jì)算設(shè)備1418或者駐留在網(wǎng)絡(luò)上或與網(wǎng)絡(luò)交互的任何其他設(shè)備,可針對所述設(shè)備將客戶端實(shí)施為設(shè)備駐留應(yīng)用1304E。
[0080]?電子郵件客戶端1424,針對所述電子郵件客戶端,助理的實(shí)施例通過電子郵件模態(tài)服務(wù)器1426連接。電子郵件模態(tài)服務(wù)器1426充當(dāng)通信橋梁,例如將來自用戶的輸入作為電子郵件信息發(fā)送至助理并將來自助理的輸出作為回復(fù)發(fā)送至用戶。
[0081]?即時(shí)通訊客戶端1428,針對所述即時(shí)通訊客戶端,助理的實(shí)施例通過信息接發(fā)模態(tài)服務(wù)器1430連接。信息接發(fā)模態(tài)服務(wù)器1430充當(dāng)通信橋梁,將來自用戶的輸入作為信息發(fā)送至助理并將來自助理的輸出作為回復(fù)中的信息發(fā)送至用戶。
[0082].語音電話1432,針對所述語音電話,助理的實(shí)施例通過互聯(lián)網(wǎng)語音協(xié)議(VoIP)模態(tài)服務(wù)器1434連接。VoIP模態(tài)服務(wù)器1434充當(dāng)通信橋梁,將來自用戶的輸入作為對助理講的語音并將來自助理的輸出作為回復(fù)中的例如作為合成語音發(fā)送至用戶。
[0083]對于包括但不限于電子郵件、即時(shí)通訊、論壇、群組聊天會話、實(shí)時(shí)幫助或客戶支持會話等的信息接發(fā)平臺而言,助理1002可充當(dāng)會話中的參與者。助理1002可使用本文針對一對一交互所描述的一種或多種技術(shù)和方法監(jiān)視會話并回復(fù)個(gè)體或群組。[0084]在各種實(shí)施例中,用于實(shí)施本發(fā)明的技術(shù)的功能性可分布到任何數(shù)量的客戶端和/或服務(wù)器組件中。例如,可結(jié)合本發(fā)明來實(shí)施各種軟件模塊以用于執(zhí)行各種功能,并且此類模塊可以各種方式實(shí)施以在服務(wù)器和/或客戶端組件上運(yùn)行。此類布置的其他細(xì)節(jié)在2011年I月10日提交的相關(guān)美國實(shí)用專利申請序列號為12/987,982的“IntelligentAutomated Assistant”中提供,所述申請的全部公開內(nèi)容以引用的方式并入本文。
[0085]在圖13的實(shí)例中,將輸入引導(dǎo)功能性和輸出處理功能性分配到客戶端1304和服務(wù)器1340中,輸入引導(dǎo)的客戶端部分2794a以及輸出處理的客戶端部分2792a位于客戶端1304處,并且輸入引導(dǎo)的服務(wù)器部分2794b以及輸出處理的服務(wù)器部分2792b位于服務(wù)器1340處。以下組件位于服務(wù)器1340處:
[0086].完整詞匯表2758b ;
[0087].語言模式識別器的完整庫2760b ;
[0088].短期個(gè)人存儲器的主檔版本2752b ;
[0089].長期個(gè)人存儲器的主檔版本2754b。
[0090]在一個(gè)實(shí)施例中,客戶端1304以本地方式保持這些組件的子組和/或部分,以改進(jìn)響應(yīng)性并減少對網(wǎng)絡(luò)通信的依賴??筛鶕?jù)熟知的高速緩存管理技術(shù)保持和更新此類子組和/或部分。此類子組和/或部分包括例如:
[0091].詞匯表的子組2758a ;
[0092].語言模式識別器 的庫的子組2760a ;
[0093].短期個(gè)人存儲器的高速緩存2752a ;
[0094].長期個(gè)人存儲器的高速緩存2754a。
[0095]可將附加的組件作為服務(wù)器1340的一部分來實(shí)施,所述附加的組件包括例如:
[0096].語言解譯程序2770 ;
[0097].對話流程處理器2780 ;
[0098]?輸出處理器2790;
[0099].域?qū)嶓w數(shù)據(jù)庫2772 ;
[0100]?任務(wù)流程模型2786;
[0101]?服務(wù)編排2782;
[0102]?服務(wù)能力模型2788。
[0103]服務(wù)器1340在需要時(shí)通過與外部服務(wù)1360交互獲得附加信息。
[0104]現(xiàn)在參見圖14,其示出了根據(jù)一些實(shí)施例的電子設(shè)備2000的功能框圖。設(shè)備的功能塊可由硬件、軟件、或硬件與軟件的組合來實(shí)施以執(zhí)行本發(fā)明的原理。本領(lǐng)域的技術(shù)人員理解的是,圖14所描述的功能塊可進(jìn)行組合或者分離成子塊以實(shí)施如上文所述的本發(fā)明的原理。因此,本文的描述可支持本文所述的功能塊的任何可能的組合或分離或進(jìn)一步的定義。
[0105]如圖14所示,電子設(shè)備2000包括處理單元2006。在一些實(shí)施例中,處理單元2006包括情境檢測單元2008、用戶輸入解譯單元2010、任務(wù)和參數(shù)識別單元2012、任務(wù)執(zhí)行單元2014、以及對話響應(yīng)生成單元2016。電子設(shè)備2000還包括耦接至處理單元并被配置為提示用戶進(jìn)行輸入的輸出單元2002。電子設(shè)備還包括耦接至處理單元并被配置為接收用戶輸入的輸入單元2003。在一些實(shí)施例中,電子設(shè)備2000還包括被配置為從設(shè)備2000的一個(gè)或多個(gè)傳感器和/或電子設(shè)備2000外部的傳感器/設(shè)備接收數(shù)據(jù)的通信單元2004,所述電子設(shè)備2000外部的傳感器/設(shè)備為諸如環(huán)境狀況傳感器、外圍設(shè)備、車輛的車載系統(tǒng)、位置傳感器(例如,GPS傳感器)、速度傳感器等。
[0106]處理單元被配置為:檢測免提情境是否激活(例如,借助情境檢測單元2008);解譯所接收的用戶輸入以得到用戶意圖的表示(例如,借助用戶輸入解譯單元2010);至少部分地基于所得到的用戶意圖的表示來識別至少一個(gè)任務(wù)以及所述任務(wù)的至少一個(gè)參數(shù)(例如,借助任務(wù)和參數(shù)識別單元2012);使用所述至少一個(gè)參數(shù)執(zhí)行所述至少一個(gè)任務(wù)以得到結(jié)果(例如,借助任務(wù)執(zhí)行單元2014);基于所得到的結(jié)果生成對話響應(yīng)(例如,借助對話響應(yīng)生成單元2016);以及使輸出設(shè)備輸出所生成的對話響應(yīng)(例如,借助輸出單元
2002)。響應(yīng)于檢測到設(shè)備在免提情境中(例如,借助情境檢測單元2008),以與跟免提情境相關(guān)的限制相一致的方式執(zhí)行以下步驟中的至少一者:提示用戶進(jìn)行輸入,接收用戶輸入,解譯接收的用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成對話響應(yīng)(例如,通過輸入單元2003、輸出單元2002和/或處理單元2006)。
[0107]在一些實(shí)施例中,在至少兩個(gè)交互模式可用于用戶與計(jì)算設(shè)備進(jìn)行交互的情況下,響應(yīng)于檢測到設(shè)備在免提情境中,使用適于免提操作的第一交互模式執(zhí)行以下步驟中的至少一者:提示用戶進(jìn)行輸入,接收用戶輸入,解譯接收的用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成對話響應(yīng)(例如,借助處理單元2006的一個(gè)或多個(gè)單元);以及響應(yīng)于檢測到設(shè)備不在免提情境中,使用不適于免提操作的第二交互模式執(zhí)行以下步驟中的至少一者:提示用戶進(jìn)行輸入,接收用戶輸入,解譯接收的用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成對話響應(yīng)(例如,借助處理單元2006的一個(gè)或多個(gè)單元)。
[0108]在一些實(shí)施例中,處理單元2006進(jìn)一步被配置為通過檢測指示在選自以下各項(xiàng)的至少一者中的限制的狀況來檢測免提情境是否激活(例如,借助情境檢測單元2008):用戶查看由計(jì)算設(shè)備呈現(xiàn)的視覺輸出的能力;用戶與由計(jì)算設(shè)備呈現(xiàn)的圖形用戶界面進(jìn)行交互的能力;用戶使用計(jì)算設(shè)備的物理組件的能力;用戶在計(jì)算設(shè)備上執(zhí)行觸摸輸入的能力;用戶在計(jì)算設(shè)備上激活開關(guān)的能力;以及用戶在計(jì)算設(shè)備上使用鍵盤的能力。
[0109]在一些實(shí)施例中,輸出單元2002被配置為通過以下操作來提示用戶進(jìn)行輸入:響應(yīng)于檢測到設(shè)備不在免提情境中,通過不適于免提情境的第一輸出模式提示用戶;以及響應(yīng)于檢測到設(shè)備在免提情境中,通過適于免提情境的第二輸出模式提示用戶。在一些實(shí)施例中,第一輸出模式為視覺輸出模式。在一些實(shí)施例中,第二輸出模式為聽覺輸出模式。
[0110]在一些實(shí)施例中,通過視覺輸出模式提示用戶(例如,借助輸出單元2002)包括在顯示屏上顯示提示;并且通過聽覺輸出模式提示用戶(例如,借助輸出單元2002)包括輸出語音提示。
[0111]在一些實(shí)施例中,處理單元2006被配置為,響應(yīng)于檢測到設(shè)備在免提情境中,使用與免提操作相關(guān)的詞匯表解譯所接收的用戶輸入(例如,借助用戶解譯單元2010)。
[0112]在一些實(shí)施例中,響應(yīng)于檢測到設(shè)備在免提情境中,處理單元2006被配置為執(zhí)行與免提操作相關(guān)的至少一個(gè)任務(wù)流程識別步驟(例如,借助任務(wù)執(zhí)行單元2014)。在一些實(shí)施例中,執(zhí)行與免提操作相關(guān)的至少一個(gè)任務(wù)流程識別步驟包括通過基于語音的界面提示用戶檢查和確認(rèn)所輸入的內(nèi)容(例如,借助輸出單元2002和/或輸入單元2003)。[0113]在一些實(shí)施例中,處理單元2006進(jìn)一步被配置為使用聽覺輸出來執(zhí)行所述至少一個(gè)任務(wù)流程步驟(例如,借助任務(wù)執(zhí)行單元2014和/或輸出單元2002)。在一些實(shí)施例中,處理單元2006進(jìn)一步被配置為通過執(zhí)行從適用于免提情境的一組有限的可用任務(wù)流程步驟中選擇的至少一個(gè)任務(wù)流程步驟來執(zhí)行所述至少一個(gè)任務(wù)流程識別步驟(例如,借助任務(wù)執(zhí)行單元2014)。
[0114]在一些實(shí)施例中,響應(yīng)于檢測到設(shè)備在免提情境中,處理單元2006被配置為以基于語音的輸出模式生成對話響應(yīng)(例如,借助對話響應(yīng)生成單元2016)。
[0115]在一些實(shí)施例中,處理單元2006被配置為通過以語音形式改述用戶輸入的至少一部分而以基于語音的輸出模式生成對話響應(yīng)(例如,借助對話響應(yīng)生成單元2016)。在一些實(shí)施例中,處理單元2006被配置為通過使用多個(gè)嗓音(voice)區(qū)分所改述(paraphrase)的用戶輸入與其他語音輸出來生成語音,從而以基于語音的輸出模式生成對話響應(yīng)(例如,借助對話響應(yīng)生成單元2016)。在一些實(shí)施例中,處理單元2006被配置為通過將對話模板與個(gè)人數(shù)據(jù)的至少一項(xiàng)進(jìn)行組合而以基于語音的輸出模式生成對話響應(yīng)(例如,借助對話響應(yīng)生成單元2016)。
[0116]在一些實(shí)施例中,處理單元2006被配置為通過執(zhí)行選自以下各項(xiàng)中的至少一個(gè)過程來檢測免提情境是否激活:接收指定免提情境的用戶輸入(例如,借助輸入單元
2003);從至少一個(gè)傳感器接收指示與免提情境相關(guān)的環(huán)境狀況的數(shù)據(jù)(例如,借助通信單元2004);檢測與免提情境相關(guān)的外圍設(shè)備的連接(例如,借助通信單元2004);檢測與免提情境不相關(guān)的外圍設(shè)備的斷開(例如,借助通信單元2004);檢測與車輛的車載系統(tǒng)的通信(例如,借助通信單元2004);檢測當(dāng)前位置(例如,借助通信單元2004);以及檢測當(dāng)前速度(例如,借助通信單元2004)。
[0117]在一些實(shí)施例中,輸出單元2002被配置為通過會話界面提示用戶;并且輸入單元2003被配置為通過會話界面接收用戶輸入。在一些實(shí)施例中,輸入單元2003被配置為接收語音輸入;并且處理單元2006被配置為將語音輸入轉(zhuǎn)換為文本表示(例如,借助用戶輸入解譯單元2010)。
[0118]概念架構(gòu)
[0119]現(xiàn)在參見圖8,其示出了多模態(tài)虛擬助理1002的具體示例性實(shí)施例的簡化框圖。如上文所引用的相關(guān)美國實(shí)用專利申請中更詳細(xì)地描述,多模態(tài)虛擬助理1002的不同實(shí)施例可被配置為、設(shè)計(jì)為和/或可操作以提供通常涉及虛擬助理技術(shù)的各種不同類型的操作、功能性和/或特征。此外,如本文更詳細(xì)地描述,本文所公開的多模態(tài)虛擬助理1002的各種操作、功能性和/或特征中的多個(gè)可為與多模態(tài)虛擬助理1002交互的不同實(shí)體賦予或提供不同類型的優(yōu)點(diǎn)和/或有益效果??墒褂蒙衔乃龅挠布軜?gòu)中的任一者,或者使用不同類型的硬件架構(gòu),來實(shí)施圖8所示的實(shí)施例。
[0120]例如,根據(jù)不同實(shí)施例,多模態(tài)虛擬助理1002可被配置為、設(shè)計(jì)為和/或可操作以提供各種不同類型的操作、功能性和/或特征,諸如例如下列中的一者或多者(或它們的組合):
[0121].自動執(zhí)行可通過互聯(lián)網(wǎng)獲得的數(shù)據(jù)和服務(wù)的應(yīng)用程序以發(fā)現(xiàn)、找到、從中選擇、購買、預(yù)定或訂購產(chǎn)品和服務(wù)。除了將使用這些數(shù)據(jù)和服務(wù)的過程自動化之外,多模態(tài)虛擬助理1002還可立刻啟用數(shù)據(jù)和服務(wù)的各種來源的組合使用。例如,它可將來自多個(gè)評論網(wǎng)站的關(guān)于產(chǎn)品的信息進(jìn)行組合,核查多個(gè)經(jīng)銷商的價(jià)格和可獲得性,以及核查產(chǎn)品的位置和時(shí)間約束條件,并幫助用戶找到針對其問題的個(gè)性化解決方案。
[0122].使可通過互聯(lián)網(wǎng)獲得的數(shù)據(jù)和服務(wù)的使用自動化以發(fā)現(xiàn)、調(diào)查、從中選擇、預(yù)定以及以其他方式了解將要做的事情(包括但不限于電影、活動、表演、展覽、演出和景點(diǎn))。將要去的地方(包括但不限于旅行目的地、酒店和其他將要駐留的地方、地標(biāo)以及其他有趣的地點(diǎn),等等);將要吃喝的地方(諸如飯店和酒吧)、與其他人見面的時(shí)間和地點(diǎn);以及可在互聯(lián)網(wǎng)上找到的任何其他娛樂或社交源。
[0123].通過自然語言對話啟用應(yīng)用程序和服務(wù)的操作,所述應(yīng)用程序和服務(wù)以其他方式由具有包括搜索(包括基于位置的搜索)在內(nèi)的圖形用戶界面的專用應(yīng)用程序提供;導(dǎo)航(地圖和方向);數(shù)據(jù)庫查找(諸如通過名稱或其他屬性找到企業(yè)或人員);獲得天氣狀況和預(yù)測,核查市場物品的價(jià)格或財(cái)務(wù)事務(wù)的狀態(tài);監(jiān)視交通或航班的狀態(tài);獲取并更新日歷和時(shí)間表;管理提醒、警示、任務(wù)和項(xiàng)目;通過電子郵件或其他信息接發(fā)平臺進(jìn)行通信;以及以本地或遠(yuǎn)程的方式操作設(shè)備(例如,撥打電話、控制光照和溫度、控制家庭安防設(shè)備、播放音樂或視頻,等等)。在一個(gè)實(shí)施例中,多模態(tài)虛擬助理1002可用于發(fā)起、操作和控制設(shè)備上可用的許多功能和應(yīng)用程序。
[0124].提供對于活動、產(chǎn)品、服務(wù)、娛樂源、時(shí)間管理、或受益于以自然語言進(jìn)行的交互式對話以及對數(shù)據(jù)和服務(wù)的自動獲取的任何其他類型的建議服務(wù)的個(gè)人建議。
[0125]根據(jù)不同的實(shí)施例,各種類型的功能、操作、動作和/或由多模態(tài)虛擬助理1002提供的其他特征中的至少一部分可在一個(gè)或多個(gè)客戶端系統(tǒng)、一個(gè)或多個(gè)服務(wù)器系統(tǒng)和/或它們的組合加以實(shí)施。 [0126]根據(jù)不同的實(shí)施例,各種類型的功能、操作、動作和/或由多模態(tài)虛擬助理1002提供的其他特征中的至少一部分可使用情境信息來解譯并實(shí)施用戶輸入,如本文更詳細(xì)地描述。
[0127]例如,在至少一個(gè)實(shí)施例中,多模態(tài)虛擬助理1002可以操作以在執(zhí)行特定任務(wù)和/或操作時(shí)利用和/或生成各種不同類型的數(shù)據(jù)和/或其他類型的信息。這可包括例如輸入數(shù)據(jù)/信息和/或輸出數(shù)據(jù)/信息。例如,在至少一個(gè)實(shí)施例中,多模態(tài)虛擬助理1002可以操作以獲取、處理和/或換句話講利用來自一個(gè)或多個(gè)不同類型的來源的信息,所述來源為諸如例如一個(gè)或多個(gè)本地和/或遠(yuǎn)程存儲器、設(shè)備和/或系統(tǒng)。此外,在至少一個(gè)實(shí)施例中,多模態(tài)虛擬助理1002可以操作以生成一個(gè)或多個(gè)不同類型的輸出數(shù)據(jù)/信息,所述輸出數(shù)據(jù)/信息例如可存儲在一個(gè)或多個(gè)本地和/或遠(yuǎn)程設(shè)備和/或系統(tǒng)的存儲器中。
[0128]可由多模態(tài)虛擬助理1002訪問和/或利用的不同類型的輸入數(shù)據(jù)/信息的實(shí)例可包括但不限于下列中的一者或多者(或它們的組合):
[0129]?語音輸入:來自移動設(shè)備,諸如移動電話和平板電腦、具有麥克風(fēng)的計(jì)算機(jī)、藍(lán)牙耳機(jī)、汽車語音控制系統(tǒng),通過電話系統(tǒng)、錄音應(yīng)答服務(wù)、音頻語音郵件整合信息接發(fā)服務(wù)、諸如時(shí)鐘收音機(jī)的具有語音輸入的消費(fèi)應(yīng)用程序、電話臺、家庭娛樂控制系統(tǒng)、以及游戲控制臺。
[0130]?來自計(jì)算機(jī)或移動設(shè)備上的鍵盤、遙控器或其他消費(fèi)電子設(shè)備上的小鍵盤的文本輸入,發(fā)送至助理的電子郵件信息、發(fā)送至助理的即時(shí)信息或類似短信,在多用戶游戲環(huán)境中從玩家接收到的文本,以及在信息饋送中進(jìn)行流處理的文本。[0131]?來自傳感器或基于位置的系統(tǒng)的位置信息。實(shí)例包括移動電話上的全球定位系統(tǒng)(GPS)和輔助GPS(A-GPS)。在一個(gè)實(shí)施例中,位置信息與明確的用戶輸入組合。在一個(gè)實(shí)施例中,本發(fā)明的系統(tǒng)能夠基于已知的地址信息以及當(dāng)前位置確定檢測用戶何時(shí)在家。以此方式,可做出某些推論,所述推論有關(guān)與用戶不在家時(shí)相比,用戶在家時(shí)可能感興趣的信息的類型,以及根據(jù)用戶是否在家代表他或她調(diào)用的服務(wù)和動作的類型。
[0132]?來自客戶端設(shè)備上的時(shí)鐘的時(shí)間信息。這可包括例如來自電話或其他客戶端設(shè)備的指示本地時(shí)間和時(shí)區(qū)的時(shí)間。此外,可在用戶請求的情境中使用時(shí)間,諸如例如以解譯諸如“在一小時(shí)內(nèi)”和“今晚”的短語。
[0133].羅盤、加速器、陀螺儀和/或行進(jìn)速度數(shù)據(jù)、以及來自移動或手持式設(shè)備或嵌入式系統(tǒng)的其他傳感器數(shù)據(jù),所述嵌入式系統(tǒng)為諸如汽車控制系統(tǒng)。這還可包括來自電器和游戲控制臺的遙控器的設(shè)備定位數(shù)據(jù)。
[0134].點(diǎn)擊和菜單選擇以及來自具有圖形用戶界面(GUI)的任何設(shè)備上的GUI的其他事件。其他實(shí)例包括對觸摸屏的觸摸。
[0135]?來自傳感器和其他數(shù)據(jù)驅(qū)動型觸發(fā)器的事件,諸如鬧鐘、日歷警示、價(jià)格更改觸發(fā)器、位置觸發(fā)器、從服務(wù)器到設(shè)備的推送通知,等等。
[0136]對本文所述的實(shí)施例的輸入還包括用戶交互歷史的情境,包括對話和請求歷史。
[0137]如在上文所引用的相關(guān)美國實(shí)用專利申請中所述,可由多模態(tài)虛擬助理1002生成許多不同類型的輸出數(shù)據(jù)/信息。這些可包括但不限于下列中的一者或多者(或它們的組合):
[0138].直接發(fā)送至輸出設(shè)備和/或設(shè)備的用戶界面的文本輸出;
[0139].通過電子郵件發(fā)送至用戶的文本和圖形;
[0140].通過信息接發(fā)服務(wù)發(fā)送至用戶的文本和圖形;
[0141].可包括下列中的一者或多者(或它們的組合)的語音輸出:
[0142]ο合成語音;
[0143]ο抽樣語音
[0144]O已記錄的信息;
[0145].具有照片、豐富文本、視頻、聲音和超鏈接的信息的圖形布局(例如,在web瀏覽器中呈現(xiàn)的內(nèi)容);
[0146].用于控制設(shè)備上的物理動作(諸如使設(shè)備打開或關(guān)閉、發(fā)出聲音、改變顏色、振動、控制光等)的致動器輸出;
[0147].調(diào)用設(shè)備上的其他應(yīng)用程序,諸如調(diào)用映射應(yīng)用程序、電話語音撥號、發(fā)送電子郵件或即時(shí)信息、播放媒體、在日歷、任務(wù)管理器和記事本應(yīng)用程序以及其他應(yīng)用程序中編制條目;
[0148].用于控制由一個(gè)設(shè)備附接或控制的設(shè)備的物理動作的致動器輸出,所述物理動作為諸如操作遠(yuǎn)程照相機(jī)、控制輪椅、在遠(yuǎn)程揚(yáng)聲器上播放音樂、在遠(yuǎn)程顯示器上播放視
Mr等等。
[0149]可理解的是,圖 8的多模態(tài)虛擬助理1002僅是可實(shí)施的、來自許多各種不同的虛擬助理系統(tǒng)實(shí)施例中的一個(gè)實(shí)例。與例如圖8的示例性虛擬助理系統(tǒng)實(shí)施例中所示的那些相比,虛擬助理系統(tǒng)的其他實(shí)施例(未示出)可包括附加的、更少的和/或不同的組件/特征。
[0150]多模態(tài)虛擬助理1002可包括多種不同類型的組件、設(shè)備、模塊、工藝、系統(tǒng)等,其例如可通過使用硬件、和/或硬件與軟件的組合來實(shí)施和/或?qū)嵗@?,如在圖8的示例性實(shí)施例中所示,助理1002可包括一個(gè)或多個(gè)以下類型的系統(tǒng)、組件、設(shè)備工藝等(或它們的組合):
[0151]?一個(gè)或多個(gè)激活本體1050 ;
[0152].一個(gè)或多個(gè)激活的輸入引導(dǎo)組件2794(可包括客戶端部分2794a及服務(wù)器部分2794b);
[0153].一個(gè)或多個(gè)短期個(gè)人存儲器組件2752(可包括主檔版本2752b和高速緩存2752a);
[0154].一個(gè)或多個(gè)長期個(gè)人存儲器組件2754(可包括主檔版本2754b和高速緩存2754a);[0155].一個(gè)或多個(gè)域模型組件2756 ;
[0156].一個(gè)或多個(gè)詞匯表組件2758 (可包括完整詞匯表2758b和子組2758a);
[0157].一個(gè)或多個(gè)語言模式識別器組件2760 (可包括全庫2760b和子組2760a);
[0158].一個(gè)或多個(gè)語言解譯程序組件2770 ;
[0159].—個(gè)或多個(gè)域?qū)嶓w數(shù)據(jù)庫2772 ;
[0160].一個(gè)或多個(gè)對話流程處理器組件2780 ;
[0161 ].一個(gè)或多個(gè)服務(wù)編排組件2782 ;
[0162].一個(gè)或多個(gè)服務(wù)組件2784 ;
[0163].一個(gè)或多個(gè)任務(wù)流程模型組件2786 ;
[0164].一個(gè)或多個(gè)對話流程模型組件2787 ;
[0165].一個(gè)或多個(gè)服務(wù)模型組件2788 ;
[0166].一個(gè)或多個(gè)輸出處理器組件2790。
[0167]在某些基于客戶端/服務(wù)器的實(shí)施例中,這些組件中的一些或全部可分布在客戶端1304與服務(wù)器1340之間。此類組件進(jìn)一步描述于上文所引用的相關(guān)美國實(shí)用專利申請中。
[0168]在一個(gè)實(shí)施例中,虛擬助理1002通過任何合適的輸入模態(tài)接收用戶輸入2704,包括例如觸摸屏輸入、鍵盤輸入、語音輸入、和/或它們的任何組合。在一個(gè)實(shí)施例中,助理1002還接收情境信息1000,該情境信息1000可包括事件情境、應(yīng)用程序情境、個(gè)人聲音情境、和/或其他形式的情境,如于2011年9月30日提交的相關(guān)美國實(shí)用專利申請序列號為 13/250,854 的標(biāo)題為 “Using Context Information to Facilitate Processing ofCommands in a Virtual Assistant”中所述,所述申請的全部公開內(nèi)容以引用的方式并入本文。如果適用,情境信息1000還包括可用于根據(jù)本文所述的技術(shù)來調(diào)整用戶界面的免提情境。
[0169]在根據(jù)本文所述的技術(shù)來處理用戶輸入2704和情境信息1000時(shí),虛擬助理1002生成用于呈現(xiàn)給用戶的輸出2708??筛鶕?jù)任何合適的輸出模態(tài)生成輸出2708 ;如果合適,可由免提情境以及其他因素通知所述合適的輸出模態(tài)。輸出模態(tài)的實(shí)例包括如屏幕上呈現(xiàn)的視覺輸出、聽覺輸出(其可包括語音輸出和/或嗶嗶聲以及其他聲音)、觸覺輸出(諸如振動)、和/或它們的任何組合。
[0170]與圖8所示的各種組件的操作有關(guān)的附加細(xì)節(jié)在2011年I月10日提交的相關(guān)美國實(shí)用專利申請序列號為12/987,982的“Intelligent Automated Assistant”中提供,所述申請的全部公開內(nèi)容以引用的方式并入本文。
[0171]針對免提情境調(diào)整用戶界面
[0172]出于示例性目的,在本文中以舉例的方式描述本發(fā)明。然而,本領(lǐng)域的技術(shù)人員將認(rèn)識到,實(shí)例中描繪的特定輸入和輸出機(jī)制僅旨在示出用戶與助理1002之間的一種可能的交互,并且不旨在限制所要求保護(hù)的本發(fā)明的范圍。此外,在可供選擇的實(shí)施例中,本發(fā)明可在不必涉及多模態(tài)虛擬助理1002的情況下在設(shè)備中實(shí)施;相反,在不脫離僅在權(quán)利要求中限定的本發(fā)明的本質(zhì)特征的情況下,本發(fā)明的功能可在任何合適設(shè)備上運(yùn)行的操作系統(tǒng)或應(yīng)用程序中直接實(shí)施。
[0173]現(xiàn)在參見圖1,其示出了根據(jù)現(xiàn)有技術(shù)的屏幕截圖,該屏幕截圖示出了用于閱讀文本信息的常規(guī)手持界面169的實(shí)例。如圖1所示的圖形用戶界面(GUI)通常需要用戶能夠閱讀細(xì)微細(xì)節(jié),諸如氣泡圖171中所示的信息文本,并且通過在文本字段172中鍵入并觸擊發(fā)送按鈕173來進(jìn)行響應(yīng)。在許多設(shè)備中,此類動作要求觀看并觸摸屏幕,因此不適合在本文稱作免提情境的某些情境中執(zhí)行。
[0174]現(xiàn)在參見圖2,其示出了屏幕截圖,該屏幕截圖示出了用于響應(yīng)于文本信息171的界面170的實(shí)例。響應(yīng)于用戶在文本字段172中觸擊來呈現(xiàn)虛擬鍵盤270,從而允許通過在對應(yīng)于按鍵的屏幕的區(qū)域上觸擊而在文本字段172中輸入文本。在輸入文本信息之后,用戶觸擊發(fā)送按鈕173。如果用戶希望通過講話來輸入文本,他或她可觸擊語音按鈕271,這會調(diào)用語音聽寫界面以用于接收語音輸入并將其轉(zhuǎn)換為文本。因此,按鈕271提供一種機(jī)制,用戶可通過該機(jī)制來指示他或她是否在免提情境中。
[0175]現(xiàn)在參見圖3A和3B,其示出了一系列屏幕截圖,所述屏幕截圖示出了界面175的實(shí)例,其中語音聽寫界面用于回復(fù)文本信息171。例如在用戶觸擊語音按鈕271之后,呈現(xiàn)屏幕370。麥克風(fēng)圖標(biāo)372指示設(shè)備已準(zhǔn)備接受語音輸入。用戶輸入語音,所述語音通過麥克風(fēng)或類似設(shè)備的語音輸入設(shè)備1211被接收。用戶觸擊“完成”按鈕371以指示他或她已結(jié)束語音輸入。
[0176]使用任何熟知的語音至文本算法或系統(tǒng),將語音輸入轉(zhuǎn)換為文本。語音至文本的功能性可駐留在設(shè)備60上或服務(wù)器上。在一個(gè)實(shí)施例中,使用例如可得自NuanceCommunications, Inc.(Burlington, Massachusetts)的 Nuance 識別器來實(shí)施語音至文本的功能性。
[0177]如圖3B所示,轉(zhuǎn)換的結(jié)果可在字段172中示出??沙尸F(xiàn)鍵盤270以允許用戶編輯字段172中的生成的文本。如果用戶對輸入的文本滿意,他或她觸擊“發(fā)送”按鈕173以使文本信息被發(fā)送。
[0178]在結(jié)合圖2、3A和3B描述的實(shí)例中,多個(gè)操作要求用戶查看顯示屏和/或提供觸摸輸入。此類操作包括:
[0179].閱讀顯示屏上的文本信息171 ;
[0180].觸摸按鈕271以進(jìn)入語音輸入模式;
[0181].觸摸“完成”按鈕371以指示語音輸入結(jié)束;[0182].查看由用戶的語音輸入生成的已轉(zhuǎn)換文本;
[0183].觸摸“發(fā)送”按鈕173以發(fā)送信息。
[0184]在本發(fā)明的一個(gè)實(shí)施例中,用于接受和處理語音輸入的機(jī)制被整合到設(shè)備60中以降低在免提情境中用戶與顯示屏進(jìn)行交互和/或使用觸摸界面的需求。從而,本發(fā)明的系統(tǒng)因此能夠提供用于在免提情境中交互的、改進(jìn)的用戶界面。
[0185]現(xiàn)在參見圖4和5A至其示出了根據(jù)其中免提情境被識別的一個(gè)實(shí)施例的一系列屏幕截圖,所述屏幕截圖示出了用于接收和回復(fù)文本信息的界面的實(shí)例;因此在該實(shí)例中,根據(jù)本發(fā)明的技術(shù),降低了用戶與屏幕交互的需求。
[0186]在圖4中,屏幕470描繪了在設(shè)備60處于鎖定模式時(shí)所接收的文本信息471。用戶可根據(jù)已知技術(shù)來激活滑塊472以回復(fù)信息471或換句話講與信息471交互。然而,在該實(shí)例中,可能看不到和/或接觸不到設(shè)備60,或客戶可能無法與設(shè)備60交互,例如如果他或她正在駕駛或者參與某個(gè)其他活動。如本文所述,多模態(tài)虛擬助理1002提供用于在此類免提情境中接收和回復(fù)信息471的功能性。
[0187]在一個(gè)實(shí)施例中,安裝在設(shè)備60上的視覺助理1002自動檢測免提情境。此類檢測可通過確定一個(gè)場景或情況的任何手段而發(fā)生;在所述場景或情況中,用戶可能難以或無法與設(shè)備60的屏幕交互或者正確操作GUI。
[0188]例如但不受限制地,可基于以下任一者單獨(dú)地或以任何組合的形式進(jìn)行免提情境的確定:
[0189]?來自傳感器的 數(shù)據(jù)(包括例如羅盤、加速器、陀螺儀、速度計(jì)、環(huán)境光線傳感器、藍(lán)牙連接檢測器、時(shí)鐘、WiFi信號檢測器、麥克風(fēng)等);
[0190].例如通過GPS確定設(shè)備60在某個(gè)地理位置內(nèi);
[0191]?來自時(shí)鐘的數(shù)據(jù)(例如,可將免提情境指定為在每天的某個(gè)時(shí)間和/或在每周的某天是激活的);
[0192].預(yù)定義參數(shù)(例如,用戶或管理員可在檢測到任何狀況或狀況的組合時(shí)指定免提情境是激活的);
[0193]?藍(lán)牙或其他無線I/O設(shè)備的連接(例如,如果檢測到與正在移動的車輛的藍(lán)牙啟用界面的連接);
[0194].可指示用戶在移動的車輛中或正在駕駛汽車的任何其他信息;
[0195].附接外圍設(shè)備的存在或不存在,所述附接外圍設(shè)備包括頭戴式受話器、耳機(jī)、由適配器電纜連接的用品等;
[0196].確定用戶不與設(shè)備60接觸或非常接近;
[0197].用于觸發(fā)與助理1002的交互的特定信號(例如,用戶將設(shè)備握持到耳邊的運(yùn)動姿勢,或者對藍(lán)牙設(shè)備上的按鈕的按壓,或者對附接音頻設(shè)備上的按鈕的按壓);
[0198]?對詞的連續(xù)流中的特定詞的檢測(例如,助理1002可被配置為正在聽取命令,以及在用戶呼叫其名稱或說出諸如“計(jì)算機(jī)! ”的某個(gè)命令時(shí)被調(diào)用);該特定命令可指示免提情境是否激活。
[0199]在其他實(shí)施例中,用戶可手動地指示免提情境是激活的或未激活的,和/或可將免提情境計(jì)劃為在每天的某個(gè)時(shí)間和/或在每周的某天激活和/或解除激活。
[0200]在一個(gè)實(shí)施例中,當(dāng)在免提情境下接收文本信息470時(shí),多模態(tài)虛擬助理1002使設(shè)備60輸出音頻指示,諸如嗶嗶聲或鈴音,從而指示文本信息的接收。如上文所述,用戶可根據(jù)已知技術(shù)來激活滑塊472以回復(fù)信息471或換句話講與信息471交互(例如,如果未正確地檢測到免提模式,或者如果用戶選擇停止駕駛或換句話講使他或她自己可與設(shè)備60進(jìn)行手動交互)。作為另外一種選擇,用戶可參與與助理1002的語音對話,以啟用以免提方式與助理1002的交互。
[0201 ] 在一個(gè)實(shí)施例中,用戶通過適用于免提情境的任何合適機(jī)制發(fā)起語音對話。例如,在用戶正在駕駛配備有藍(lán)牙的車輛并且設(shè)備60與車輛進(jìn)行通信的環(huán)境中,易于觸及的按鈕(例如,安裝在汽車方向盤上的按鈕)可以是可用的。按壓該按鈕會發(fā)起與助理1002的語音對話,并且允許用戶通過藍(lán)牙連接以及通過安裝在車輛中的麥克風(fēng)和/或揚(yáng)聲器與助理1002通信。作為另外一種選擇,用戶可通過按壓設(shè)備60自身上或者耳機(jī)上或者任何其他外圍設(shè)備上的按鈕,或者通過執(zhí)行某個(gè)其他與眾不同的動作向助理1002發(fā)送用戶希望發(fā)起語音對話的信號。又如,用戶可講出助理1002可以理解的并發(fā)起語音對話的命令。本領(lǐng)域的技術(shù)人員將認(rèn)識到,可提供許多其他技術(shù)以用于允許用戶容易發(fā)起與助理1002的語音對話。優(yōu)選地,用于發(fā)起語音對話的機(jī)制不需要用戶方面的手-眼協(xié)作,從而允許用戶專注于主要任務(wù)(諸如駕駛),并且/或者可由具有殘疾的個(gè)體執(zhí)行(所述殘疾會阻止、妨礙、約束或限制他的或她的與諸如圖2、3A和3B中所示的GUI交互的能力)。
[0202]一旦已發(fā)起語音對話,助理1002便聽取語音輸入。在一個(gè)實(shí)施例中,助理1002通過在免提情境下容易由用戶檢測到的某個(gè)輸出機(jī)制來確認(rèn)語音輸入。一個(gè)實(shí)例為音頻嗶嗶聲或鈴音,和/或在車輛儀表板上的即使在駕駛時(shí)也容易被用戶看到的和/或通過某個(gè)其他機(jī)制看到的視覺輸出。使用已知的語音識別技術(shù)來處理語音輸入。助理1002然后執(zhí)行由語音輸入所指示的一個(gè)或多個(gè)動作。在一個(gè)實(shí)施例中,助理1002提供可通過揚(yáng)聲器(在設(shè)備60中或安裝在車輛中)、頭戴式受話器等輸出的語音輸出以便繼續(xù)與用戶的音頻對話。例如,助理1002可朗讀文本信息、電子郵件信息等的內(nèi)容,并且可以語音形式向用戶提供選項(xiàng)。
[0203]例如,如果用戶說“朗讀我的新信息”,則助理1002可使設(shè)備60發(fā)出確認(rèn)鈴音。助理1002然后可發(fā)出諸如“您收到來自Tom Devon的新信息的語音輸出。信息為:‘嘿,你去觀看比賽嗎?’”。可由助理1002使用用于將文本轉(zhuǎn)換為語音的任何已知技術(shù)來生成語音輸出。在一個(gè)實(shí)施例中,使用例如可得自Nuance Communications, Inc.(Burlington, Massachusetts)的Nuance發(fā)聲器實(shí)施文本至語音功能性。
[0204]現(xiàn)在參見圖5A,其示出了屏幕截圖570的實(shí)例,該屏幕截圖570示出了在用戶與助理1002的言語交換正在發(fā)生時(shí)可呈現(xiàn)在設(shè)備60的屏幕上的輸出。在某種免提情況下,用戶可看到屏幕但不能容易地觸摸屏幕,例如,如果在車輛的導(dǎo)航系統(tǒng)的顯示屏上正在復(fù)制設(shè)備60的屏幕上的輸出。語音會話的視覺回顯,如圖5A至所示,可幫助用戶驗(yàn)證他或她的語音輸入已被助理1002正確且準(zhǔn)確地理解,并且可進(jìn)一步幫助用戶理解助理1002的語音回復(fù)。然而,此類視覺回顯是可選的,并且本發(fā)明可在設(shè)備60的屏幕上或其他地方無任何視覺顯示的情況下實(shí)施。因此,用戶可僅通過語音輸入和輸出,或者通過視覺和語音輸入和/或輸出的組合,來與助理1002交互。
[0205]在該實(shí)例中,助理1002顯示并講出提示571。響應(yīng)于用戶輸入,助理1002在顯示器上和/或以語音形式重復(fù)用戶輸入572。助理然后引入傳入的文本信息573并朗讀。在一個(gè)實(shí)施例中,文本信息還可顯示在屏幕上。
[0206]如圖5B所示,在向用戶朗讀傳入的信息之后,助理1002然后告訴用戶,用戶可“回復(fù)或再次朗讀”574。另外,在一個(gè)實(shí)施例中,以語音形式(即,以言語的方式)提供此類輸出。以此方式,本發(fā)明的系統(tǒng)以一種非常適合免提情境的方式通知用戶可用的動作,該方式不要求用戶觀看文本字段、按鈕和/或鏈接且不要求通過觸摸屏幕上的對象或與屏幕上的對象交互而進(jìn)行的直接操控。如圖5B所示,在一個(gè)實(shí)施例中,在屏幕上回顯語音輸出574 ;然而,不要求語音輸出的此類顯示。在一個(gè)實(shí)施例中,在屏幕上顯示的回顯信息根據(jù)熟知機(jī)制自動向上滾動。
[0207]在實(shí)例中,用戶說“回復(fù)是的,我將在六點(diǎn)到那里”。如圖5B所示,在一個(gè)實(shí)施例中,用戶的語音輸入被回顯575,以便用戶可核查語音輸入是否已被正確理解。此外,在一個(gè)實(shí)施例中,助理1002以聽覺形式重復(fù)用戶的語音輸入,以便即使他或她不能看到屏幕,用戶仍可驗(yàn)證對他的或她的命令的理解。因此,本發(fā)明的系統(tǒng)提供一種機(jī)制,用戶可通過該機(jī)制全部在免提情境中發(fā)起回復(fù)命令、創(chuàng)建響應(yīng)并驗(yàn)證命令和已創(chuàng)建的響應(yīng)已被正確理解,且不要求用戶以不可行的或不太適合當(dāng)前操作環(huán)境的方式查看屏幕或與設(shè)備60交互。
[0208]在一個(gè)實(shí)施例中,助理1002通過復(fù)述信息提供對用戶的已創(chuàng)建的文本信息的進(jìn)一步驗(yàn)證。在該實(shí)例中,助理1002以言語的方式說“您對Tom Devon的回復(fù)是:‘是的,我將在六點(diǎn)到那里’ ”。在一個(gè)實(shí)施例中,引號的含義通過在嗓音和/或節(jié)律方面的改變來傳達(dá)。例如,字符串“您對Tom Devon的回復(fù)是”能夠以諸如男性聲音的一種嗓音講出,而字符串“是的,我將在六點(diǎn)到那里”能夠以諸如女性聲音的另一種嗓音講出。作為另外一種選擇,可使用相同的嗓音,但采用不同的節(jié)律以傳達(dá)引號。
[0209]在一個(gè)實(shí)施例中,助理1002提供語音交換的視覺回顯,如圖5B和5C中所示。圖5B和5C示出了回顯助理1002的“您對Tom Devon的回復(fù)是”的語音輸出的信息576。圖5C示出了正在創(chuàng)建的文本信息的匯總577,包括接收人以及信息的內(nèi)容。在圖5C中,先前的信息已向上滾離屏幕,但可根據(jù)已知機(jī)制通過向下滾動查看?!鞍l(fā)送”按鈕578發(fā)送信息;取消按鈕579取消信息。在一個(gè)實(shí)施例中,用戶還可通過講出諸如“發(fā)送”或“取消”的關(guān)鍵字來發(fā)送或取消信息。作為另外一種選擇,助理1002可生成諸如“是否準(zhǔn)備發(fā)送? ”的語音提示;另外,在輸出語音提示的同時(shí),可示出具有按鈕578、579的顯示570。用戶然后可通過觸摸按鈕578、579或者通過應(yīng)答語音提示指示他或她希望做什么。可以允許“是”或“否”響應(yīng)的格式發(fā)出提示,使得用戶不需要使用任何特殊詞匯表來使他的或她的意圖被了解。
[0210]在一個(gè)實(shí)施例中,助理1002可例如通過生成諸如“好的,將發(fā)送您的信息”的語音輸出確認(rèn)用戶的語音命令以發(fā)送信息。如圖所示,該語音輸出可連同將要發(fā)送的文本信息的匯總581 —起在屏幕570上回顯580。
[0211]上文所述的語音交換,結(jié)合可選視覺回顯,示出了助理1002借以在多模態(tài)界面中提供冗余輸出的實(shí)例。以此方式,助理1002能夠支持一系列情境,包括免視、免提、以及完
全手持。
[0212]該實(shí)例還示出了機(jī)制,所顯示的輸出以及語音輸出可通過所述機(jī)制彼此不同以反映其不同情境。該實(shí)例還示出了方式,用于響應(yīng)的替代機(jī)構(gòu)通過該方式變得可用。例如,在助理說“是否準(zhǔn)備發(fā)送? ”并顯示圖5C所示的顯示屏570之后,用戶可說出詞“發(fā)送”或“是”,或者觸擊屏幕上的“發(fā)送”按鈕578。這些動作的任一者將以相同的方式被助理1002解譯,并且將使文本信息被發(fā)送。因此,本發(fā)明的系統(tǒng)提供相對于用戶的與助理1002交互的高度靈活性。
[0213]現(xiàn)在參見圖6A至6C,其示出了一系列屏幕截圖,所述屏幕截圖示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的多模態(tài)虛擬助理1002的操作的實(shí)例,其中用戶在免提情境中修改文本信息577,例如進(jìn)行錯(cuò)誤校正或添加更多內(nèi)容。在涉及直接操控的視覺界面中,諸如在上文結(jié)合圖3A和3B所述的視覺界面中,用戶可在虛擬鍵盤270上鍵入以編輯文本字段172的內(nèi)容并由此修改文本信息577。由于此類操作在免提情境中可能不可行,因此多模態(tài)虛擬助理1002提供一種機(jī)制,文本信息577的此類編輯通過該機(jī)制可通過會話界面中的語音輸入和輸出而發(fā)生。
[0214]在一個(gè)實(shí)施例中,一旦創(chuàng)建了文本信息577 (例如基于用戶的語音輸入),多模態(tài)虛擬助理1002便生成通知用戶已準(zhǔn)備發(fā)送信息并詢問用戶是否應(yīng)發(fā)送信息的言語輸出。如果用戶通過言語或直接操控輸入指示他或她不準(zhǔn)備發(fā)送信息,則多模態(tài)虛擬助理1002生成語音輸出以通知用戶可用選項(xiàng),諸如發(fā)送、取消、檢查或修改信息。例如,助理1002可以說“好的,將不進(jìn)行發(fā)送。接下來,您可以發(fā)送、取消、檢查或修改?!?br>
[0215]如圖6A所示,在一個(gè)實(shí)施例中,多模態(tài)虛擬助理1002通過顯示信息770回顯語音輸出,以視覺的方式通知用戶對于文本信息577的可用選項(xiàng)。在一個(gè)實(shí)施例中,在可編輯字段773中顯示文本信息577,以指示用戶可通過在字段773內(nèi)觸擊來編輯信息577,同時(shí)還有分別用于發(fā)送或取消文本信息577的按鈕578、579。在一個(gè)實(shí)施例中,在可編輯字段773中觸擊會調(diào)用虛擬鍵盤(類似于圖3B所示的虛擬鍵盤)以允許通過直接操控來編輯。 [0216]用戶可通過提供語音輸入與助理1002交互。因此,響應(yīng)于助理1002的提供用于與文本信息577交互的選項(xiàng)的語音信息,用戶可以說“修改”。助理1002識別所述語音文本并以提示用戶講出已修改信息的言語信息進(jìn)行響應(yīng)。例如,助理1002可以說“好的…您希望在信息中說什么? ”,然后開始聽取用戶的響應(yīng)。圖6B示出了可以結(jié)合此類語音提示進(jìn)行顯示的屏幕570的實(shí)例。另外,用戶的語音文本,連同助理1002的提示772 —起,以視覺的方式被回顯771。
[0217]在一個(gè)實(shí)施例中,一旦用戶已以此方式提示,用戶的后續(xù)語音輸入的準(zhǔn)確內(nèi)容便被解譯作為該文本信息的內(nèi)容,從而避開對用戶命令的正常自然語言解譯。用戶的語音輸入被假設(shè)為在以下情況下完成:在檢測到輸入中的足夠長的暫停時(shí),或者在檢測到指示輸入已完成的具體詞時(shí),或者在檢測到用戶已按壓按鈕或激活某個(gè)其他命令以指示他或她已結(jié)束講出文本信息時(shí)。在一個(gè)實(shí)施例中,助理1002然后以語音形式復(fù)述輸入文本信息,并且可任選地如圖6C所示回顯該輸入文本信息。助理1002提供諸如“您是否準(zhǔn)備發(fā)送? ”的語音提示,該語音提示也可如圖6C所示在屏幕上被回顯770。用戶可然后通過說“取消”、“發(fā)送”、“是”或“否”來回復(fù),它們的任一者均可被助理1002正確解譯。作為另外一種選擇,用戶可按壓屏幕上的按鈕578或579以調(diào)用所需操作。
[0218]在一個(gè)實(shí)施例中,通過以此方式提供用于修改文本信息577的機(jī)制,本發(fā)明的系統(tǒng)提供適用于免提情境的流程,該流程與手持方法整合在一起,使得用戶可在每個(gè)階段自由選擇交互的模式。此外,在一個(gè)實(shí)施例中,助理1002針對總流程中的特定步驟調(diào)整其自然語言處理機(jī)制;例如,如上文所述,在某種情況下,助理1002可進(jìn)入一種模式,在該模式中,助理1002在已提示用戶講出文本信息時(shí)避開對用戶命令的正常自然語言解譯。
[0219]通
[0220]在一個(gè)實(shí)施例中,多模態(tài)虛擬助理1002檢測免提情境并調(diào)整其操作的一個(gè)或多個(gè)階段以修改免提操作的用戶體驗(yàn)。如上文所述,免提情境的檢測可以各種方式應(yīng)用以影響多模態(tài)虛擬助理1002的操作?,F(xiàn)在參見圖7,其示出了根據(jù)一個(gè)實(shí)施例的流程圖,該流程圖描繪了支持免提情境的動態(tài)檢測和調(diào)整的虛擬助理1002的操作的方法10??山Y(jié)合多模態(tài)虛擬助理1002的一個(gè)或多個(gè)實(shí)施例實(shí)施方法10。如圖7所示,根據(jù)一個(gè)實(shí)施例,可在多模態(tài)虛擬助理1002中的各個(gè)處理階段使用免提情境。
[0221]在至少一個(gè)實(shí)施例中,方法10可操作以執(zhí)行和/或?qū)嵤└鞣N不同類型的功能、操作、動作和/或其他特征,諸如例如下列中的一者或多者(或它們的組合):
[0222].執(zhí)行用戶與多模態(tài)虛擬助理1002之間的會話界面的界面控制流程循環(huán)。方法10的至少一次迭代可用作會話中的重疊。會話界面是在其中用戶和助理1002以會話的方式通過來回說話而通信的界面。
[0223]?為多模態(tài)虛擬助理1002提供執(zhí)行性控制流程。即,該程序控制輸入的收集、輸入的處理、輸出的生成、以及向用戶輸出的呈現(xiàn)。
[0224].協(xié)調(diào)多模態(tài)虛擬助理1002的組件之間的通信。即,它可指導(dǎo)在何處將一個(gè)組件的輸出饋送到另一個(gè)組件中以及在何處可能出現(xiàn)來自環(huán)境和環(huán)境上的動作的總輸入。
[0225]在至少一些實(shí)施例中,還可在計(jì)算機(jī)網(wǎng)絡(luò)的其他設(shè)備和/或系統(tǒng)處實(shí)施方法10的部分。
[0226]根據(jù)具體實(shí)施例,通過一個(gè)或多個(gè)處理器63的使用和/或硬件和/或硬件與軟件的其他組合可同時(shí)實(shí)施和/或發(fā)起方法10的多個(gè)實(shí)例或線程。在至少一個(gè)實(shí)施例中,可在一個(gè)或多個(gè)客戶端1304、一個(gè)或多個(gè)服務(wù)器1340、和/或它們的組合來實(shí)施方法10的一個(gè)或多個(gè)或選定部分。
[0227]例如,在至少一些實(shí)施例中,可由軟件組件、網(wǎng)絡(luò)服務(wù)、數(shù)據(jù)庫等或者它們的任何組合來執(zhí)行、實(shí)施和/或發(fā)起方法10的各個(gè)方面、特征和/或功能性。
[0228]根據(jù)不同的實(shí)施例,可響應(yīng)于對滿足一個(gè)或多個(gè)不同類型的標(biāo)準(zhǔn)(諸如例如最小閾值標(biāo)準(zhǔn))的一個(gè)或多個(gè)狀況或事件的檢測,來發(fā)起方法10的一個(gè)或多個(gè)不同線程或?qū)嵗?,所述?biāo)準(zhǔn)用于觸發(fā)方法10的至少一個(gè)實(shí)例的發(fā)起??捎|發(fā)方法的一個(gè)或多個(gè)不同線程或?qū)嵗陌l(fā)起和/或?qū)嵤┑臓顩r或事件的各種類型的實(shí)例可包括但不限于下列中的一者或多者(或它們的組合):
[0229].與多模態(tài)虛擬助理1002的實(shí)例的用戶會話,諸如例如但不限于下列中的一者或
多者:
[0230]ο移動設(shè)備應(yīng)用程序正在啟動,例如正在實(shí)施多模態(tài)虛擬助理1002的實(shí)施例的移動設(shè)備應(yīng)用程序;
[0231]ο計(jì)算機(jī)應(yīng)用程序正在啟動,例如正在實(shí)施多模態(tài)虛擬助理1002的實(shí)施例的應(yīng)用程序;
[0232]O移動設(shè)備上的專用按鈕已按壓,諸如“語音輸入按鈕”;
[0233]O附接至計(jì)算機(jī)或移動設(shè)備的外圍設(shè)備上的按鈕,所述外圍設(shè)備為諸如耳機(jī)、電話耳機(jī)或基站、GPS導(dǎo)航系統(tǒng)、消費(fèi)電器、遙控器、或具有可能與調(diào)用輔助相關(guān)的按鈕的任何其他設(shè)備;
[0234]ο已啟動從web瀏覽器到實(shí)施多模態(tài)虛擬助理1002的網(wǎng)站的web會話;
[0235]ο啟動從現(xiàn)有web瀏覽器會話內(nèi)到實(shí)施多模態(tài)虛擬助理1002的網(wǎng)站的交互,例如,在所述網(wǎng)站中多模態(tài)虛擬助理1002被請求;
[0236]ο將電子郵件信息發(fā)送至正在調(diào)停與多模態(tài)虛擬助理1002的實(shí)施例的通信的模態(tài)服務(wù)器1426 ;
[0237]ο將文本信息發(fā)送至正在調(diào)停與多模態(tài)虛擬助理1002的實(shí)施例的通信的模態(tài)服務(wù)器1426 ;
[0238]ο向正在調(diào)停與多模態(tài)虛擬助理1002的實(shí)施例的通信的模態(tài)服務(wù)器1434進(jìn)行電話呼叫;
[0239]ο將諸如警示或通知的事件發(fā)送至正在提供多模態(tài)虛擬助理1002的實(shí)施例的應(yīng)用程序。
[0240].在提供多模態(tài)虛擬助理1002的設(shè)備打開和/或啟動時(shí)。
[0241]根據(jù)不同的實(shí)施例,可手動地、自動地、靜態(tài)地、動態(tài)地、同時(shí)地和/或它們的組合來發(fā)起和/或?qū)嵤┓椒?0的一個(gè)或多個(gè)不同線程或?qū)嵗?。此外,可以一個(gè)或多個(gè)不同時(shí)間間隔(例如,在具體時(shí)間間隔期間、以定期的周期性間隔、以不定期的周期性間隔、根據(jù)需要,等等)發(fā)起方法10的不同實(shí)例和/或?qū)嵤├?br>
[0242]在至少一個(gè)實(shí)施例中,方法10的給定實(shí)例在執(zhí)行特定任務(wù)和/或操作(包括如本文所述的對免提情境的檢測)時(shí),可利用和/或生成各種不同類型的數(shù)據(jù)和/或其他類型的信息。數(shù)據(jù)還可包括任何其他類型的輸入數(shù)據(jù)/信息和/或輸出數(shù)據(jù)/信息。例如,在至少一個(gè)實(shí)施例中,方法10的至少一個(gè)實(shí)例可獲取、處理和/或以其他方式利用來自一個(gè)或多個(gè)不同類型的來源的信息,所述來源諸如例如一個(gè)或多個(gè)數(shù)據(jù)庫。在至少一個(gè)實(shí)施例中,可通過與一個(gè)或多個(gè)本地和/或遠(yuǎn)程存儲器設(shè)備通信來訪問數(shù)據(jù)庫信息的至少一部分。此夕卜,方法10的至少一個(gè)實(shí)例可生成一個(gè)或多個(gè)不同類型的輸出數(shù)據(jù)/信息,所述輸出數(shù)據(jù)/信息例如可存儲在本地存儲器和/或遠(yuǎn)程存儲器設(shè)備中。
[0243]在至少一個(gè)實(shí)施例中,可使用一個(gè)或多個(gè)不同類型的初始化參數(shù)來執(zhí)行方法10的給定實(shí)例的初始配置。在至少一個(gè)實(shí)施例中,可通過與一個(gè)或多個(gè)本地和/或遠(yuǎn)程存儲器設(shè)備的通信來訪問初始化參數(shù)的至少一部分。在至少一個(gè)實(shí)施例中,提供至方法10的實(shí)例的初始化參數(shù)的至少一部分可對應(yīng)于和/或可得自于輸入數(shù)據(jù)/信息。
[0244]在圖7的特定實(shí)施例中,假設(shè)單個(gè)用戶正在通過網(wǎng)絡(luò)從具有語音輸入功能的客戶端應(yīng)用程序訪問多模態(tài)虛擬助理1002的實(shí)例。在一個(gè)實(shí)施例中,助理1002安裝在諸如移動計(jì)算設(shè)備、個(gè)人數(shù)字助理、移動電話、智能手機(jī)、膝上型計(jì)算機(jī)、平板電腦、消費(fèi)電子設(shè)備、音樂播放器等設(shè)備60上。助理1002結(jié)合用戶界面而操作,該用戶界面允許用戶通過語音輸入和輸出以及圖形用戶界面的直接操控和/或顯示(例如通過觸摸屏)與助理1002交互。
[0245]設(shè)備60具有當(dāng)前狀態(tài)11,該當(dāng)前狀態(tài)可被分析以檢測20其是否在免提情境中??苫跔顟B(tài)11使用任何適用的檢測機(jī)制或機(jī)制的組合,無論是自動的還是手動的,來檢測20免提情境。上文闡述了實(shí)例。
[0246]在檢測20到免提情境時(shí),可將該信息添加至可用于通知助理的各個(gè)過程的其他情境信息1000,如在2011年9月30日提交的標(biāo)題為“Using Context Information toFacilitate Processing of Commands in a Virtual Assistant,,的相關(guān)美國實(shí)用專利申請序列號13/250,854中所述,所述申請的全部公開內(nèi)容以引用的方式并入本文。
[0247]語音輸入被引導(dǎo)并解譯100。引導(dǎo)可包括以任何合適的模式呈現(xiàn)提示。因此,根據(jù)是否檢測到免提情境,在各種實(shí)施例中,助理1002可提供多個(gè)輸入模式中的一者或多者。這些可包括例如:
[0248].用于鍵入輸入的界面,其可調(diào)用激活的已鍵入輸入引導(dǎo)程序;
[0249].用于語音輸入的界面,其可調(diào)用激活的語音輸入引導(dǎo)程序。
[0250].用于從菜單中選擇輸入的界面,其可調(diào)用激活的基于⑶I的輸入引導(dǎo)。
[0251]例如,如果檢測到免提情境,則可通過鈴音或其他聽覺提示來引導(dǎo)語音輸入,并且可將用戶的語音解譯為文本。然而,本領(lǐng)域的技術(shù)人員將認(rèn)識到,可提供其他輸入模式。
[0252]步驟100的輸出可為一組輸入語音的文本的候選解譯。由語言解譯程序2770 (也稱為自然語言處理程序,或NLP)處理200這一組候選解譯,語言解譯程序2770解析文本輸入并生成一組對用戶意圖的可能語義解譯。
[0253]在步驟300中,將用戶意圖的該一個(gè)或多個(gè)表示傳遞至對話流程處理器2780,該對話流程處理器實(shí)施對話和流程分析程序的實(shí)施例以將用戶意圖實(shí)踐為任務(wù)步驟。對話流程處理器2780確定意圖的哪種解譯是最可能的,將該解譯映射至域模型的實(shí)例以及任務(wù)模型的參數(shù),并確定任務(wù)流程中的下一個(gè)流程步驟。如果合適,選擇適于免提操作的一個(gè)或多個(gè)任務(wù)流程步驟310。例如,如上文所述,在檢測到免提情境時(shí),用于修改文本信息的一個(gè)或多個(gè)任務(wù)流程步驟可以不同。
[0254]在步驟400中,執(zhí)行已識別的一個(gè)或多個(gè)流程步驟。在一個(gè)實(shí)施例中,由代表用戶請求而調(diào)用一組服務(wù)的服務(wù)編排組件2782來執(zhí)行一個(gè)或多個(gè)流程步驟的調(diào)用。在一個(gè)實(shí)施例中,這些服務(wù)針對共同結(jié)果提供一些數(shù)據(jù)。
[0255]在步驟500中,生成對話響應(yīng)。在一個(gè)實(shí)施例中,對話響應(yīng)生成500受到免提情境的狀態(tài)的影響。因此,在檢測到免提情境時(shí),可選擇510不同和/或附加對話單元以用于使用音頻信道來呈現(xiàn)。例如,諸如“是否準(zhǔn)備發(fā)送? ”的附加提示可以言語的方式講出而不一定在屏幕上顯示。在一個(gè)實(shí)施例中,免提情境的檢測可影響附加輸入520的提示,例如以驗(yàn)證輸入。
[0256]在步驟700中,向用戶呈現(xiàn)多模態(tài)輸出(其在一個(gè)實(shí)施例中包括言語和視覺內(nèi)容),然后用戶可任選地使用語音輸入再次響應(yīng)。
[0257]如果,在查看和/或聽到響應(yīng)之后,用戶完成790,則方法結(jié)束。如果用戶未完成,則通過返回至步驟100發(fā)起循環(huán)的另一次迭代。
[0258]如本文所述,情境信息1000,包括檢測到的免提情境,可被系統(tǒng)的各種組件用來影響方法10的各個(gè)步驟。例如,如圖7所示,情境1000,包括免提情境,可在步驟100、200、300、310、500、510和/或520中使用。然而,本領(lǐng)域的技術(shù)人員將認(rèn)識到,情境信息1000的使用,包括免提情境的使用,不限于這些特定步驟,并且在不脫離本發(fā)明的本質(zhì)特征的情況下,系統(tǒng)還可在其他點(diǎn)使用情境信息。對情境1000在助理1002的操作的各種步驟中的使用的進(jìn)一步描述在2011年9月30日提交的標(biāo)題為“Using Context Information toFacilitate Processing of Commands in a Virtual Assistant,,的相關(guān)美國實(shí)用專利申請序列號13/250,854中以及在于2009年6月5日提交的相關(guān)美國實(shí)用專利申請序列號12/479,477的“Contextual Voice Commands”中提供,這兩個(gè)申請的全部公開內(nèi)容以引用方式并入本文。
[0259]此外,本領(lǐng)域的技術(shù)人員將認(rèn)識到,與圖7描繪的具體實(shí)施例中所示的那些相比,方法10的不同實(shí)施例可包括附加特征和/或操作,和/或可省去在圖7的具體實(shí)施例中所示的方法10的特征和/或操作的至少一部分。
[0260]針對免提情境調(diào)整步驟100、200、300、310、500、510和/或520在下文更詳細(xì)地描述。
[0261]針對免提情境調(diào)整輸入引導(dǎo)和解譯100
[0262]可以多種方式中的任一種,單獨(dú)地或以任何組合的方式,來調(diào)整語音輸入的引導(dǎo)和解譯100使其適于免提情境。如上文所述,在一個(gè)實(shí)施例中,如果檢測到免提情境,則可通過鈴音或其他聽覺提示引導(dǎo)語音輸入,并可將用戶的語音解譯為文本。通常,多模態(tài)虛擬助理1002可提供用于音頻輸入的多個(gè)可能機(jī)制(諸如例如,連接藍(lán)牙的麥克風(fēng)或其他附接外圍設(shè)備)以及用于調(diào)用助理1002的多個(gè)可能機(jī)制(諸如例如,按壓外圍設(shè)備上的按鈕或接近設(shè)備60使用運(yùn)動姿勢)。與如何調(diào)用助理1002和/或哪個(gè)機(jī)制正用于音頻輸入有關(guān)的信息可用于指示免提情境是否激活并可用于更改免提體驗(yàn)。更具體地講,此類信息可用于指導(dǎo)步驟100以將特定音頻路徑用于輸入和輸出。
[0263]此外,在檢測到免提情境時(shí),可改變使用音頻輸入設(shè)備的方式。例如,在手持模式中,界面可要求用戶按壓按鈕或做出身體姿勢以使助理1002開始聽取語音輸入。相比之下,在免提模式中,界面可在助理1002的每個(gè)輸出實(shí)例之后連續(xù)提示輸入,或者可允許在兩個(gè)方向上的連續(xù)語音(在助理1002仍在講話期間允許用戶中斷助理1002)。
[0264]針對免提情境調(diào)整自然語言處理200
[0265]例如通過添加對尤其適用于免提操作的某些語音響應(yīng)的支持,自然語言處理(NLP) 200可適于免提情境。此類響應(yīng)可包括例如“是”、“朗讀信息”以及“修改”。在一個(gè)實(shí)施例中,除支持在手持情況中可用的語音命令之外還可提供對此類響應(yīng)的支持。因此,例如在一個(gè)實(shí)施例中,用戶能夠通過講出出現(xiàn)在屏幕上的命令來操作圖形用戶界面(例如,在標(biāo)記為“發(fā)送”的按鈕出現(xiàn)在屏幕上時(shí),可提供支持以用于理解語音詞“發(fā)送”及其語義等效形式)。在免提情境中,可識別附加命令以考慮用戶可能無法查看屏幕的事實(shí)。
[0266]免提情境的檢測還可更改助理1002對詞的解譯。例如,在免提情境中,助理1002可經(jīng)調(diào)諧以識別命令“靜音! ”及其語義變型形式,并且響應(yīng)于此類評論而關(guān)閉所有音頻輸出。在非免提情境中,此類命令可能因?yàn)椴幌嚓P(guān)而被忽略。
[0267]針對免提情境調(diào)整任務(wù)流程300
[0268]步驟300可以多種方式中的任一種,單獨(dú)地或以組合的形式,針對免提情境來進(jìn)行調(diào)整,該步驟300包括識別將要執(zhí)行的與用戶意圖相關(guān)的一個(gè)或多個(gè)任務(wù)、一個(gè)或多個(gè)任務(wù)的一個(gè)或多個(gè)參數(shù)、和/或任務(wù)流程步驟300。
[0269]在一個(gè)實(shí)施例中,選擇適于免提操作的一個(gè)或多個(gè)附加任務(wù)流程步驟310來用于操作。實(shí)例包括用于以言語的方式檢查和確認(rèn)內(nèi)容的步驟。此外,在免提情境中,助理1002可朗讀否則會在顯示屏上呈現(xiàn)的結(jié)果的列表??商峁┭哉Z命令以用于與列表中的各個(gè)項(xiàng)交互。例如,如果將要向用戶呈現(xiàn)多個(gè)傳入的文本信息并檢測到免提情境,則已識別的任務(wù)流程步驟可包括單獨(dú)地大聲朗讀每個(gè)文本信息,并在每個(gè)信息之后暫停以允許用戶提供語音命令。
[0270]在一個(gè)實(shí)施例中,可針對免提情境修改任務(wù)流程。例如,用于在記事本應(yīng)用程序中做筆記的任務(wù)流程通常可能涉及提示內(nèi)容并立即將該內(nèi)容添加至記事本。此類操作可能在手持環(huán)境中是適合的;在手持環(huán)境中,內(nèi)容立即顯示在視覺界面中并且可立即用于通過直接操控而進(jìn)行修改。然而,在檢測到免提情境時(shí),可修改任務(wù)流程,例如以言語的方式檢查內(nèi)容并允許在將內(nèi)容添加至記事本之前對內(nèi)容進(jìn)行修改。這允許用戶在錯(cuò)誤被存儲到永久性文件中之前捕捉語音聽寫錯(cuò)誤。
[0271]在一個(gè)實(shí)施例中,還可將免提情境用于限制在給定時(shí)間被允許的任務(wù)。例如,可實(shí)施一個(gè)策略以當(dāng)用戶的設(shè)備在免提情境或者諸如駕駛車輛的特定免提情境中時(shí)禁止正在播放的視頻。
[0272]在一個(gè)實(shí)施例中,助理1002可使本公開的整個(gè)域和/或僅在免提情境中適用的任務(wù)是可用的。實(shí)例包括便利性模式,諸如為視力受限者或手的使用受限者設(shè)計(jì)的那些。這些便利性模式包括作為免提替代形式實(shí)施的命令,所述命令用于在給定應(yīng)用程序平臺上操作任意GUI,例如以識別諸如“按壓按鈕”或“向上滾動”的命令。僅在免提模式中適用的其他任務(wù)包括與免提體驗(yàn)自身有關(guān)的任務(wù),諸如“使用汽車藍(lán)牙套件”或“減慢[文本至語音輸出]”。
[0273]針對免提情境調(diào)整對話生成500
[0274]在各種實(shí)施例中,可使用多種技術(shù)的任一者來修改對話生成500以適應(yīng)于免提情境。
[0275]在手持界面中,助理1002對用戶輸入的解譯可以書面形式回顯;然而,在免提模式中,用戶可能看不到此類反饋。因此,在一個(gè)實(shí)施例中,在檢測到免提情境時(shí),助理1002使用文本至語音(TTS)的技術(shù)來改述用戶輸入。此類改述可以是選擇性的;例如,在發(fā)送文本信息之前,助理1002可講出文本信息,使得即便用戶不能看到顯示屏,他或她也可驗(yàn)證文本信息的內(nèi)容。
[0276]任務(wù)和/或流程特定的對話可促使確定何時(shí)改述用戶的語音以及改述語音的哪些部分。例如,響應(yīng)于用戶的諸如“朗讀我的新信息”的語音命令,在一個(gè)實(shí)施例中,助理1002不改述命令,因?yàn)橥ㄟ^助理1002的響應(yīng)(朗讀信息)可顯而易見命令已被理解。然而,在其他情況下,諸如當(dāng)用戶輸入未在步驟100中被識別或未在步驟200中被理解時(shí),助理1002可嘗試改述用戶的語音輸入,以便告知用戶為什么該輸入未被理解。例如,助理1002可以說“未理解‘朗住我的謝息’。請?jiān)俅螄L試?!?br>
[0277]在一個(gè)實(shí)施例中,信息的言語改述可將對話模板與設(shè)備上的個(gè)人數(shù)據(jù)進(jìn)行組合。例如,在一個(gè)實(shí)施例中,在朗讀文本信息時(shí),助理1002將語音輸出模板與形式的變量一起使用,“您收到來自$人的新信息。信息為:$信息?!蹦0逯械淖兞靠捎捎脩魯?shù)據(jù)替代,然后通過在設(shè)備60上運(yùn)行的程序轉(zhuǎn)換為語音。在一個(gè)于客戶端/服務(wù)器環(huán)境中實(shí)施本發(fā)明的實(shí)施例中,此類技術(shù)可幫助保護(hù)用戶的隱私,同時(shí)仍允許使輸出個(gè)性化,因?yàn)閭€(gè)人數(shù)據(jù)可保留在設(shè)備60上并可在接收來自服務(wù)器的輸出模板時(shí)填入。
[0278]在一個(gè)實(shí)施例中,在檢測到免提情境時(shí),可選擇針對免提情境特殊定制的不同和/或附加對話單元510以用于使用音頻信道來呈現(xiàn)。用于確定選擇哪個(gè)對話單元的代碼或規(guī)則對免提情境的細(xì)節(jié)而言可能是敏感的。以此方式,可調(diào)整并擴(kuò)展通用對話生成組件,以在不必針對不同免提情況構(gòu)建單獨(dú)的用戶體驗(yàn)的情況下,支持各種免提變型形式。
[0279]在一個(gè)實(shí)施例中,可使用為音頻(語音詞)輸出模態(tài)而定制的文本,對生成文本的相同機(jī)制以及GUI輸出單元添加注釋。例如:
[0280].在一個(gè)實(shí)施例中,可通過使用TTS朗讀對話生成組件的全部書面對話響應(yīng),針對免提情境來調(diào)整對話生成組件。
[0281].在一個(gè)實(shí)施例中,可通過在TTS上逐字地朗讀對話生成組件的一些書面對話響應(yīng),并且針對其他對話響應(yīng)使用TTS變型形式,來調(diào)整對話生成組件以用于免提情境。
[0282].在一個(gè)實(shí)施例中,此類注釋支持使用戶數(shù)據(jù)與對話生成分開的變量替代模板機(jī)制。
[0283].在一個(gè)實(shí)施例中,可使用指示如何以言語的方式通過TTS改述圖形用戶界面元素的文本,對圖形用戶界面元素進(jìn)行注釋。
[0284]?在一個(gè)實(shí)施例中,可調(diào)諧TTS文本,以便嗓音、講話速率、音高、停頓和/或其他參數(shù)被用于以言語的方式傳達(dá)否則將會在標(biāo)點(diǎn)符號或視覺呈現(xiàn)中傳達(dá)的東西。例如,與用于其他對話單元相比,在復(fù)述用戶的話時(shí)所使用的嗓音可為不同的嗓音,或可使用不同的節(jié)律。又如,嗓音和/或節(jié)律可根據(jù)是否正在講出內(nèi)容或指令而不同。又如,可在具有不同含義的文本的區(qū)段之間插入停頓以有助于理解。例如,在改述信息并詢問確認(rèn)時(shí),可在內(nèi)容改述“您的信息內(nèi)容是…”以及確認(rèn)提示“是否準(zhǔn)備發(fā)送? ”之間插入停頓。 [0285]在一個(gè)實(shí)施例中,可使用與使用如上文針對免提情境所述的TTS類似的機(jī)制來增強(qiáng)非免提情境。例如,對話可生成除書面文本和⑶I元素之外的僅言語提示。例如,在一些情況下,助理1002可以言語方式說“要發(fā)送嗎? ”以延展“發(fā)送”按鈕的屏幕上顯示。在一個(gè)實(shí)施例中,用于免提和非免提情境這兩者的TTS輸出可針對每種情況定制。例如,當(dāng)在免提情境中時(shí),助理1002可使用更長的停頓。
[0286]在一個(gè)實(shí)施例中,免提情境的檢測還可用于確定是否以及何時(shí)自動提示用戶進(jìn)行響應(yīng)。例如,當(dāng)助理1002與用戶之間的交互為同步性質(zhì)使得一方在講話而另一方在聽取時(shí),做出關(guān)于在助理1002已講完之后助理1002是否及何時(shí)應(yīng)自動開始聽取來自用戶的語音輸入的設(shè)計(jì)決定。免提情境的細(xì)節(jié)可用于針對對話的該自動啟動聽取屬性實(shí)施各種策略。實(shí)例不受限制地包括:
[0287]?始終自動啟動聽??;
[0288].僅在免提情境中自動啟動聽取;
[0289].僅針對某些任務(wù)流程步驟和對話狀態(tài)自動啟動聽?。?br>
[0290].僅針對免提情境中的某些任務(wù)流程步驟和對話狀態(tài)自動啟動聽取。
[0291]在其他實(shí)施例中,免提情境的檢測還可影響關(guān)于對話的其他參數(shù)的選擇,諸如例如:
[0292].為用戶提供的選項(xiàng)列表的長度;
[0293].是否朗讀列表;
[0294].應(yīng)詢問具有單值答案的問題,還是詢問具有多值答案的問題;
[0295].是否提示僅可使用直接操控界面給出的數(shù)據(jù);
[0296]因此,在各種實(shí)施例中,一旦被檢測到,免提情境便是系統(tǒng)側(cè)參數(shù),該系統(tǒng)側(cè)參數(shù)可用于調(diào)整諸如多模態(tài)虛擬助理1002之類的復(fù)雜系統(tǒng)的各個(gè)處理步驟。本文所述的各種方法為針對免提情境對助理1002的通用程序進(jìn)行調(diào)整以通過相同的基礎(chǔ)系統(tǒng)來支持一系列用戶體驗(yàn)提供了方法。
[0297]在于2011 年 9 月 30 日提交的標(biāo)題為 “Using Context Information toFacilitate Processing of Commands in a Virtual Assistant,,的相關(guān)美國實(shí)用專利申請序列號13/250,854中描述了用于收集、通信、表示及獲取情境的各種機(jī)制,所述申請的全部公開內(nèi)容以引用方式并入本文。本領(lǐng)域的技術(shù)人員將認(rèn)識到,此類技術(shù)也適用于免提情境。
[0298]使用案例
[0299]以下使用案例作為助理1002在免提情境中的操作實(shí)例而呈現(xiàn)。本領(lǐng)域的技術(shù)人員將認(rèn)識到,這些使用案例是示例性的,并且僅出于示例性目的而呈現(xiàn)。
[0300]電話使用案例
[0301]在一個(gè)實(shí)施例中,當(dāng)在免提情境中時(shí),助理1002允許用戶(如果用戶可以指定被呼叫人)可在不觸擊或 碼(由用戶敘述的數(shù)字)呼叫,等等??捎筛郊拥恼Z音提示解決歧義。下面示出了實(shí)例。
[0302]實(shí)例1:呼叫聯(lián)系人,清楚
[0303].用戶的語音輸入:“呼叫亞當(dāng).史密斯”
[0304].助理1002的語音輸出:“正在呼叫亞當(dāng).史密斯,移動電話?!?br>
[0305].撥打電話
[0306]針對以下使用案例的任一者,將發(fā)生類似的交互:
[0307].通過姓名呼叫聯(lián)系人(“呼叫亞當(dāng).史密斯”)
[0308].通過姓名、非默認(rèn)電話號碼呼叫聯(lián)系人(“呼叫亞當(dāng).史密斯移動電話”)
[0309].通過號碼呼叫(“呼叫800 555 1212”)
[0310].通過關(guān)系別名呼叫聯(lián)系人(“呼叫我媽媽”)
[0311].通過位置別名呼叫聯(lián)系人(“致電家中”)
[0312].通過FaceTime呼叫(“與亞當(dāng).史密斯視頻通話”)
[0313].通過情景回電(“給他回電”)
[0314]實(shí)例2:取消電話呼叫
[0315].用戶的語音輸入:“呼叫亞當(dāng).史密斯”
[0316].助理1002的語音輸出:“正在呼叫亞當(dāng).史密斯,移動電話。”
[0317]?用戶注意到呼叫的人不正確;用戶按壓一次歸位按鈕以取消呼叫,或者說“停止”
[0318].呼叫被取消
[0319]實(shí)例3:通過姓名呼叫,歧義的
[0320].用戶的語音輸入:“呼叫亞當(dāng)”
[0321]?助理1002的語音輸出:“找到針對〈嗓音改變 > 亞當(dāng)〈嗓音改變 > 的多個(gè)匹配”
[0322].助理1002的視覺輸出:“找到針對〈嗓音改變 > 亞當(dāng)〈嗓音改變 > 的多個(gè)匹配”
[0323].助理1002的語音輸出:朗讀名稱
[0324].助理1002的視覺輸出:[0325]消歧菜單
[0326]亞當(dāng).善耶住宅
[0327]亞當(dāng).桑德勒住宅
[0328]亞當(dāng)?史密斯移動電話
[0329].用戶的語音輸入:“亞當(dāng).善耶”
[0330].助理1002的語音輸出:“正在呼叫亞當(dāng).善耶”
[0331]?撥打電話
[0332]實(shí)例4:通過姓名呼叫,雙重歧義的
[0333].用戶的語音輸入:“呼叫保羅”
[0334].助理1002的語音輸出:“找到針對〈嗓音改變 > 保羅〈嗓音改變 > 的多個(gè)匹配”
[0335].助理1002的視覺輸出:“找到針對〈嗓音改變 > 保羅〈嗓音改變 > 的多個(gè)匹配”
[0336].助理1002的語音輸出:朗讀名稱
[0337].助理1002的視覺輸出: [0338]消歧菜單
[0339]保羅.侯爾登住宅
[0340]保羅.馬庫斯iPhone
[0341]保羅.馬庫斯移動電話
[0342]保羅.馬庫斯住宅
[0343]譜布羅.皮卡索住宅
[0344].用戶的語音輸入:“保羅.馬庫斯”
[0345].助理1002的語音輸出:“保羅.馬庫斯的哪個(gè)號碼:iPhone、移動電話、還是住宅? ”
[0346].助理1002的視覺輸出:“保羅.馬庫斯的哪個(gè)號碼? ”
[0347].助理1002的視覺輸出:
[0348]消歧菜單
[0349]保羅.馬庫斯iPhone
[0350]保羅?馬庫斯移動電話
[0351]保羅.馬庫斯住宅
[0352].用戶的語音輸入:“移動電話”
[0353].助理1002的語音輸出:“正在呼叫保羅.馬庫斯〈停頓 > 移動電話”
[0354].撥打電話
[0355]實(shí)例5:通討名稱呼叫企業(yè),無歧2
[0356].用戶的語音輸入:“呼叫舊金山的索尼娛樂中心”
[0357].助理1002的語音輸出:“找到第四大街的AMC洛斯娛樂中心16”
[0358].助理1002的視覺輸出:“找到第四大街的AMC洛斯娛樂中心16”
[0359].助理1002的視覺輸出:
[0360]本地搜索代碼段
[0361]AMC洛斯娛樂中心16
[0362]舊金山第四大街101[0363](888)262-4386
[0364]<取消按鈕X呼叫按鈕>
[0365].助理1002的語音輸出:“要撥打電話嗎? ”
[0366]?用戶的語音輸入:“呼叫”
[0367].助理1002的語音輸出:“正在呼叫AMC洛斯娛樂中心16”
[0368].撥打電話
[0369]實(shí)例6:通討名稱呼叫企業(yè),多個(gè)兀配
[0370]?用戶的語音輸入:“呼叫沃爾格林”
[0371].助理1002的語音輸出:“找到針對〈嗓音改變 > 沃爾格林〈嗓音改變 > 的多個(gè)匹配”
[0372].助理1002的視覺輸出:“找到針對〈嗓音改變 > 沃爾格林〈嗓音改變 > 的多個(gè)匹配”
[0373].助理1002的視覺輸出:
[0374]本地搜索代碼段的列表
[0375]沃爾格林的羅斯戈托店
[0376]羅斯戈托,北桑托克魯茲大街423號
[0377]沃爾格林
[0378]加州,坎貝爾,坎貝爾大街1570號
[0379]沃爾格林
[0380]加州,庫比蒂諾,波靈格道20011號
[0381]沃爾格林
[0382]加州,圣何塞,薩拉托格大街1334號
[0383]沃爾格林
[0384]加州,圣何塞,優(yōu)金大街2680號
[0385].助理1002的語音輸出:“要為您朗讀嗎? ”
[0386]?用戶的語音輸入:“是”
[0387].助理1002的語音輸出:“位于羅斯戈托的北桑托克魯茲大街423號的沃爾格林羅斯戈托店〈停頓>2.位于坎貝爾的坎貝爾大街1570號的沃爾格林〈停頓>3....[0388].用戶的語音輸入:“位于庫比蒂諾的那家”
[0389].助理1002的語音輸出:“正在呼叫位于庫比蒂諾的沃爾格林”
[0390].撥打電話
[0391]實(shí)例6:在汽車中講行預(yù)定呼叫
[0392]?用戶開始駕車回家
[0393].助理1002發(fā)出車內(nèi)提醒的鈴音
[0394].助理1002的視覺輸出:
[0395]提醒警示
[0396]呼叫亞當(dāng).史密斯
[0397]〈關(guān)閉按鈕X呼叫按鈕〉
[0398].用戶的語音輸入:“朗讀”[0399].助理1002的語音輸出:“您有呼叫亞當(dāng).史密斯的提醒”
[0400].用戶的語音輸入:“現(xiàn)在呼叫”
[0401].助理1002的語音輸出:“正在呼叫亞當(dāng).史密斯,移動電話”
[0402].撥打電話
[0403]實(shí)例7:播放新語音郵件
[0404].用戶的語音輸入:“播放語音郵件”
[0405].助理1002的語音輸出:“您有三封新語音郵件信息”
[0406].助理1002播放語音郵件,一次一封,并提示”
[0407]SMS文本信息發(fā)送使用案例
[0408]實(shí)例8:朗讀單個(gè)文本信肩、警示
[0409].助理1002的音頻輸出:朗讀一個(gè)或多個(gè)警示;或者生成指示傳入文本信息的聲
[0410].助理1002的視覺輸出:
[0411]文本信肩、
[0412]瑪麗.理查德
[0413]今晚有空一起吃晚飯嗎?
[0414]〈關(guān)閉按鈕X回復(fù)按鈕〉
[0415].用戶的語音輸入:“朗讀”
[0416].助理1002的語音輸出:“來自瑪麗.理查德的信息〈嗓音改變 > 今晚有空一起吃晚飯嗎? ”
[0417]實(shí)例9:回復(fù)文本信息(接續(xù)實(shí)例8)
[0418].用戶的語音輸入:“回復(fù)〈停頓 > 當(dāng)然,8點(diǎn)怎樣? ”
[0419].助理1002的語音輸出:“瑪麗.理查德回復(fù)信息〈嗓音改變 > 當(dāng)然8點(diǎn)怎樣”
[0420].助理1002的視覺輸出:
[0421]至:瑪麗.理杳德
[0422]當(dāng)然8點(diǎn)怎樣
[0423]<取消按鈕X發(fā)送按鈕>
[0424].用戶的語音輸入:“發(fā)送”
[0425].助理1002的音頻輸出:“正在發(fā)送”;或者生成發(fā)送文本信息的聲音
[0426]實(shí)例10:向一個(gè)接收人發(fā)送文本信息
[0427].用戶的語音輸入:“告訴麗薩我將遲到15分鐘”
[0428].助理1002的語音輸出:“準(zhǔn)備向麗薩.剛扎蕾絲發(fā)送文本信息〈嗓音改變 > 我將遲到15分鐘”
[0429].助理1002的視覺輸出:
[0430]文本信肩、
[0431]至:麗薩?剛扎蕾絲
[0432]我將遲到15分鐘
[0433]<取消按鈕X發(fā)送按鈕>
[0434]. 用戶的語音輸入:“發(fā)送”[0435].助理1002的音頻輸出:“正在發(fā)送”;或者生成發(fā)送文本信息聲音
[0436]實(shí)例11:向一個(gè)接收人發(fā)送文本信息,有歧義
[0437].用戶的語音輸入:“向亞當(dāng)發(fā)送文本信息,信息為在哪里會面? ”
[0438]?助理1002的語音輸出:“找到針對〈嗓音改變 > 亞當(dāng)〈嗓音改變 > 的多個(gè)匹配”
[0439].助理1002的語音輸出:朗讀名稱
[0440].助理1002的視覺輸出:
[0441]消歧菜單
[0442]亞當(dāng).善耶住宅
[0443]亞當(dāng).桑德拉住宅
[0444]亞當(dāng).史密斯移動電話
[0445].用戶的語音輸入:“亞當(dāng).善耶”
[0446].助理1002的語音輸出:“亞當(dāng).善耶”
[0447].助理1002的視覺輸出: [0448]文本信肩、
[0449]至:亞當(dāng).善耶
[0450]在哪里會面?
[0451]<取消按鈕X發(fā)送按鈕>
[0452].助理1002的語音輸出:“準(zhǔn)備向亞當(dāng).善耶發(fā)送文本信息〈嗓音改變 > 在哪里會面?”
[0453].用戶的語音輸入:“發(fā)送”
[0454].助理1002的音頻輸出:“正在發(fā)送”;或者生成發(fā)送文本信息聲音
[0455]實(shí)例12:通過信息應(yīng)用程序朗讀SMS信息
[0456].助理1002的視覺輸出:
[0457]文本信肩、
[0458]貝蒂?瓊.比亞羅斯基
[0459]您可以稱呼我南菌
[0460]<關(guān)閉按鈕X回復(fù)按鈕>
[0461].用戶的語音輸入:“朗讀”
[0462].助理1002的語音輸出:“來自貝蒂?瓊.比亞羅斯基的信息〈嗓音改變 > 您可以稱呼我南茜”
[0463]實(shí)例13:在信肩、應(yīng)用程序的情境中回復(fù)(接續(xù)實(shí)例12)
[0464].用戶的語音輸入:“回復(fù)〈停頓 > 你好南茜”
[0465].助理1002的語音輸出:“準(zhǔn)備向貝蒂.瓊.比亞羅斯基回復(fù)信息〈嗓音改變>你好南茜”
[0466].助理1002的視覺輸出:
[0467]至:貝蒂?掠.比亞羅斯某
[0468]你好南菌
[0469]<取消按鈕X發(fā)送按鈕>
[0470].用戶的語音輸入:“發(fā)送”[0471].助理1002的音頻輸出:“正在發(fā)送”;或者生成發(fā)送文本信息聲音
[0472]實(shí)例14:朗讀所有未讀SMS信息
[0473].助理1002的視覺輸出:
[0474]梅勒妮?哈勃(I)
[0475]貝蒂?瓊.比亞羅斯基(3)
[0476]奧德麗.法博(I)
[0477].用戶的語音輸入:“朗讀我的新信息”
[0478].助理1002的語音輸出:“您有4條新信息。來自梅勒妮.哈勃〈嗓音改變> 一起吃晚飯?jiān)鯓樱俊赐nD〉來自貝蒂?瓊.比亞羅斯基,您有2條信息?!赐nD>1.<嗓音改變〉我的名字叫邁克吉爾?!赐nD>2.〈嗓音改變〉我自稱為里爾。〈停頓>3.〈嗓音改變>您可以稱呼我南茜”
[0479]實(shí)例15:在信肩、應(yīng)用程序的情境中通過名稱回復(fù)
[0480].用戶的語音輸入:“告訴奧德麗我將遲到15分鐘”
[0481].助理1002的語音輸出:“準(zhǔn)備向奧德麗.法博發(fā)送文本信息〈嗓音改變 > 我將遲到15分鐘”
[0482].助理1002的視覺輸出:
_3]文本信肩、
[0484]至:奧德麗.法博
[0485]我將遲到15分鐘
[0486]<取消按鈕X發(fā)送按鈕>
[0487].助理1002的語音輸出:“要發(fā)送嗎? ”
[0488]?用戶的語音輸入:“是”
[0489].助理1002的音頻輸出:“正在發(fā)送”;或者生成發(fā)送文本信息聲音
[0490]實(shí)例16:向多個(gè)接收人發(fā)送文本信息
[0491]在一個(gè)實(shí)施例中,這項(xiàng)任務(wù)被確定為在免提情境范圍之外。因此,助理1002恢復(fù)為觸擊以用于消歧。
[0492].用戶的語音輸入:“告訴麗薩、保羅和南茜我們的重要會面我將遲到15分鐘”
[0493].助理1002的語音輸出:“請?jiān)谶@些人中選擇”
[0494].助理1002的視覺輸出:用于選擇多個(gè)接收人的⑶I
[0495].用戶通過⑶I選擇接收人
[0496].助理1002的語音輸出:“準(zhǔn)備向麗薩.剛扎蕾絲、保羅.馬庫斯和奧德麗.法博發(fā)送文本信息〈嗓音改變 > 我們的重要會面我將遲到15分鐘”
[0497].助理1002的視覺輸出:
[0498]文本信肩、
[0499]至:麗薩.剛扎蕾絲、保羅.馬庫斯、奧德麗.法博[0500]我們的重要會面我將遲到15分鐘
[0501]<取消按鈕X發(fā)送按鈕>
[0502].用戶的語音輸入:“發(fā)送”
[0503].助理1002的音頻輸出:“正在發(fā)送”;或者生成發(fā)送文本信息聲音[0504]警示和提醒使用案例
[0505]實(shí)例17:朗讀單個(gè)提醒警示
[0506].助理1002發(fā)出提醒鈴音
[0507].助理1002的視覺輸出:
[0508]提醒
[0509]呼叫瑪麗.理查德
[0510]〈關(guān)閉按鈕X呼叫按鈕〉
[0511]?用戶的語音輸入:“朗讀”
[0512].助理1002的語音輸出:“呼叫瑪麗.理查德的提醒”
[0513]實(shí)例18:執(zhí)行提醒警示(接續(xù)實(shí)例17)
[0514]?用戶的語音輸入:“呼叫”
[0515].助理1002的語音輸出:“正在呼叫瑪麗.理查德,移動電話”
[0516]?撥打電話
[0517]實(shí)例19:借助警示創(chuàng)律新提醒
[0518].用戶的語音輸入:“提醒我在下午5點(diǎn)呼叫鮑伯.瓊斯”
[0519].助理1002的語音輸出:“請確認(rèn):在今天下午5點(diǎn)〈嗓音改變 > 呼叫鮑伯.瓊斯<嗓音改變 > 的提醒”
[0520].助理1002的視覺輸出:
[0521]請確認(rèn)提醒
[0522]呼叫鮑伯.瓊斯
[0523]提醒時(shí)間:今天下午5點(diǎn)
[0524]<取消X保存>
[0525].停頓
[0526].助理1002的語音輸出:“是否正確? ”
[0527].用戶的語音輸入:“是,保存”
[0528].助理1002的語音輸出:“您的提醒已保存”
[0529]實(shí)例20:不借助警示PI創(chuàng)律新提醒
[0530].用戶的語音輸入:“提醒我?guī)姘被蛘摺坝浀脦姘?br>
[0531].助理1002的語音輸出:“請確認(rèn):記得帶面包”
[0532].助理1002的視 覺輸出:
[0533]請確認(rèn)提醒
[0534]帶面包
[0535]<取消X保存>
[0536].停頓
[0537].助理1002的語音輸出:“是否正確? ”
[0538]?用戶的語音輸入:“是的”
[0539].助理1002的語音輸出:“將其添加到您的待辦事項(xiàng)列表”
[0540]日歷使用案例
[0541]實(shí)例21:創(chuàng)建簡單預(yù)約(給定描述和日期/時(shí)間)[0542].用戶的語音輸入:“預(yù)定在明天2點(diǎn)會面以規(guī)劃公司野餐”
[0543].助理1002的語音輸出:“在您的日歷上將其設(shè)置為明天下午2點(diǎn)”
[0544].助理1002的視覺輸出:
[0545]描沭:規(guī)劃公司野餐
[0546]時(shí)間:明天下午2點(diǎn)
[0547]實(shí)例22:創(chuàng)建簡單預(yù)約(無給定描述)
[0548].用戶的語音輸入:“明天下午2點(diǎn)與卡羅爾見面”
[0549].助理1002的語音輸出:“在您的日歷上將其設(shè)置為明天下午2點(diǎn)”
[0550].助理1002的視覺輸出:
[0551]描述:會面
[0552]時(shí)間:明天下午2點(diǎn)
[0553]實(shí)例23:創(chuàng)建簡單預(yù)約(無給定時(shí)間)
[0554].用戶的語音輸入:“下周四的牙醫(yī)預(yù)約”
[0555].助理1002的語音輸出:“下周四的什么時(shí)間? ”
[0556].用戶的語音輸入:“下午3點(diǎn)”
[0557].助理1002的語音輸出:“在您的日歷上將其設(shè)置為下周四下午3點(diǎn)”
[0558].助理1002的視覺輸出:
[0559]描沭:牙醫(yī)預(yù)約
[0560]時(shí)間:下周四下午3點(diǎn)
[0561]實(shí)例24:創(chuàng)建簡單預(yù)約(無給定日期或時(shí)間)
[0562].用戶的語音輸入:“預(yù)定會面以規(guī)劃公司野餐”
[0563].助理1002的語音輸出:“您將想要何時(shí)會面”
[0564].助理1002的視覺輸出:可編輯的預(yù)約表
[0565].用戶的語音輸入:“周二下午3點(diǎn)”
[0566].助理1002的語音輸出:“在您的日歷上將其設(shè)置為周二下午3點(diǎn)”
[0567].助理1002的視覺輸出:
[0568]描述:會面以規(guī)劃公司野餐
[0569]時(shí)間:周二下午3點(diǎn)
[0570]本領(lǐng)域的技術(shù)人員將認(rèn)識到,上述實(shí)例對免提情境在特定情況下的使用僅是示例性的。附加使用包括例如地圖、播放諸如音樂之類的媒體,等等。
[0571]已結(jié)合可行的實(shí)施例以具體細(xì)節(jié)對本發(fā)明進(jìn)行了描述。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明可在其他實(shí)施例中實(shí)踐。首先,組件的特定命名、術(shù)語的大寫、屬性、數(shù)據(jù)結(jié)構(gòu)或者任何其他編程或結(jié)構(gòu)方面并不是強(qiáng)制性的或重要的,并且用于實(shí)施本發(fā)明或其特征的機(jī)制可具有不同的名稱、格式或協(xié)議。此外,可如所述通過硬件和軟件的組合,或者完全在硬件元素中,或者完全在軟件元素中,來實(shí)施系統(tǒng)。另外,本文所述的各種系統(tǒng)組件之間的功能性的特定劃分僅為示例性的而并非強(qiáng)制性的;由單個(gè)系統(tǒng)組件執(zhí)行的功能可相反地由多個(gè)組件執(zhí)行,并且由多個(gè)組件執(zhí)行的功能可相反地由單個(gè)組件執(zhí)行。
[0572]在各種實(shí)施例中,本發(fā)明可實(shí)施為用于單獨(dú)地或以任何組合的方式執(zhí)行上文所述技術(shù)的系統(tǒng)或方法。在另一個(gè)實(shí)施例中,本發(fā)明可實(shí)施為包括非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì)和計(jì)算機(jī)程序代碼的計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品在該介質(zhì)上編碼,以用于使計(jì)算設(shè)備或其他電子設(shè)備中的處理器執(zhí)行上文所述的技術(shù)。
[0573]本說明書中提及“一個(gè)實(shí)施例”或“實(shí)施例”是指,結(jié)合實(shí)施例所描述的特定特征、結(jié)構(gòu)或特性被包括在本發(fā)明的至少一個(gè)實(shí)施例中。本說明書中多處出現(xiàn)短語“在一個(gè)實(shí)施例中”,這并不一定代表它們?nèi)恐竿粚?shí)施例。
[0574]上文的一些部分以算法和操作符號表示的形式在計(jì)算設(shè)備的存儲器內(nèi)的數(shù)據(jù)位上呈現(xiàn)。這些算法描述和表示是數(shù)據(jù)處理領(lǐng)域的那些技術(shù)人員使用的方式以最有效地將其工作實(shí)質(zhì)傳達(dá)給本領(lǐng)域其他技術(shù)人員。算法在這里被視為并通常被視為導(dǎo)致所需結(jié)果的步驟(指令)的自相一致的序列。這些步驟要求物理量的物理操控。通常,但不一定,這些量呈能夠被存儲、傳輸、組合、比較和換句話講被操控的電信號、磁信號或光學(xué)信號的形式。有時(shí),主要出于慣用原因,簡便地將這些信號稱作位、值、元素、符號、字符、術(shù)語、數(shù)字等等。此夕卜,在不喪失一般性的同時(shí),有時(shí)還簡便地將物理量的物理操控所要求的步驟的某些布置稱為模塊或代碼設(shè)備。
[0575]然而,應(yīng)當(dāng)牢記的是,所有這些以及類似的術(shù)語都與適當(dāng)?shù)奈锢砹肯嚓P(guān)聯(lián),并且只是應(yīng)用于這些量的方便標(biāo)簽。除非另有如從以下討論明確的具體規(guī)定,否則應(yīng)理解的是,在整個(gè)說明書中,利用諸如“處理”或“計(jì)算”或“計(jì)算出”或“顯示”或“確定”等術(shù)語的討論是指計(jì)算機(jī)系統(tǒng)或類似電子計(jì)算模塊和/或設(shè)備的動作和過程,所述計(jì)算機(jī)系統(tǒng)或類似電子計(jì)算模塊和/或設(shè)備在計(jì)算機(jī)系統(tǒng)存儲器或寄存器或其他此類信息存儲器、傳輸或顯示設(shè)備內(nèi)操控及轉(zhuǎn)換以物理(電子)量呈現(xiàn)的數(shù)據(jù)。
[0576]本發(fā)明的某些方面包括算法形式的本文所述的處理步驟和指令。應(yīng)當(dāng)指出的是,本發(fā)明的處理步驟和指令可在軟件、固件和/或硬件中體現(xiàn),并且當(dāng)在軟件中體現(xiàn)時(shí),可進(jìn)行下載以駐留在由各種操作系統(tǒng)使用的不同平臺上并通過所述平臺操作。
[0577]本發(fā)明還涉及用于執(zhí)行本文的操作的裝置。該裝置可特別構(gòu)造用于所需用途,或者其可包括通用計(jì)算設(shè)備,所述通用計(jì)算設(shè)備由存儲在計(jì)算設(shè)備中的計(jì)算機(jī)程序選擇性地激活或重新配置。此類計(jì)算機(jī)程序可存儲于計(jì)算機(jī)可讀存儲介質(zhì),諸如但不限于任何類型的盤,包括軟盤、光盤、CD-ROM、磁光盤、只讀存儲器(ROM)、隨機(jī)存取存儲器(RAM)、EPR0M、EEPR0M、磁卡或光卡、專用集成電路(ASIC)、或適用于存儲電子指令的任何類型的介質(zhì),并且每一者均耦接至計(jì)算機(jī)系統(tǒng)總線。此外,本文所涉及的計(jì)算設(shè)備還可包括單個(gè)處理器,或可以是為了提高計(jì)算能力而采用多個(gè)處理器設(shè)計(jì)的架構(gòu)。
[0578]本文呈現(xiàn)的算法和顯示并不固有地與任何特定計(jì)算設(shè)備、可視化系統(tǒng)或其他裝置有關(guān)。還可根據(jù)本文的教導(dǎo)內(nèi)容將各種通用系統(tǒng)與程序一起使用,或者可簡便地構(gòu)造更專業(yè)化的裝置以執(zhí)行所需的方法步驟。各種這些系統(tǒng)的所需結(jié)構(gòu)從本文提供的描述中將顯而易見。此外,在不參照任何特定編程語言的情況下描述了本發(fā)明。應(yīng)當(dāng)理解,各種編程語言均可用于實(shí)施本文所述的本發(fā)明的教導(dǎo)內(nèi)容,并且上文對具體語言的任何引用提供用于對本發(fā)明的實(shí)現(xiàn)及最佳模式的公開。
[0579]因此,在各種實(shí)施例中,本發(fā)明可實(shí)施為軟件、硬件和/或用于控制計(jì)算機(jī)系統(tǒng)、計(jì)算設(shè)備或其他電子設(shè)備的其他元素,或它們的任何組合或多者。根據(jù)本領(lǐng)域所熟知的技術(shù),此類電子設(shè)備可包括例如處理器、輸入設(shè)備(諸如鍵盤、鼠標(biāo)、觸摸板、觸控板、操縱桿、軌跡球、麥克風(fēng)和/或它們的任何組合)、輸出設(shè)備(諸如屏幕、揚(yáng)聲器等)、存儲器、長期存儲器(諸如磁性存儲器、光學(xué)存儲器等)和/或網(wǎng)絡(luò)連接。此類電子設(shè)備可以是便攜式的或非便攜式的。可用于實(shí)施本發(fā)明的電子設(shè)備的實(shí)例包括:移動電話、個(gè)人數(shù)字助理、智能手機(jī)、信息亭(kiosk)、臺式計(jì)算機(jī)、膝上型計(jì)算機(jī)、平板電腦、消費(fèi)電子設(shè)備、消費(fèi)娛樂設(shè)備;音樂播放器;照相機(jī);電視;機(jī)頂盒;電子游戲單元;等等。用于實(shí)施本發(fā)明的電子設(shè)備可使用任何操作系統(tǒng),諸如例如可得自Apple Inc.(Cupertino, California)的iOS或MacOS,或適于在設(shè)備上使用的任何其他操作系統(tǒng)。
[0580]雖然已結(jié)合有限數(shù)量的實(shí)施例對本發(fā)明進(jìn)行了描述,但得益于上述描述的本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可設(shè)計(jì)出不脫離如本文所述的本發(fā)明范圍的其他實(shí)施例。此外,應(yīng)當(dāng)指出,本說明書中所使用的語言的選擇主要基于可讀性和指導(dǎo)性目的,并且所述語言的選擇并不是用來描繪或限制本發(fā)明的主題。因此,本發(fā)明的公開內(nèi)容對于權(quán)利要求中所闡述的本發(fā)明的范圍旨在是示例性的,而非限制性的。
【權(quán)利要求】
1.一種用于解譯用戶輸入以在具有至少一個(gè)處理器的計(jì)算設(shè)備上執(zhí)行任務(wù)的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括: 在處理器處,檢測免提情境是否激活; 在輸出設(shè)備處,提示用戶進(jìn)行輸入; 在輸入設(shè)備處,接收用戶輸入; 在所述處理器處,解譯所接收的用戶輸入以得到用戶意圖的表示; 在所述處理器處,至少部分地基于所得到的用戶意圖的表示,識別至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù); 在所述處理器處,使用所述至少一個(gè)參數(shù)執(zhí)行所述至少一個(gè)任務(wù),以得到結(jié)果; 在所述 處理器處,基于所得到的結(jié)果生成對話響應(yīng);以及 在所述輸出設(shè)備處,輸出所生成的對話響應(yīng); 其中,響應(yīng)于檢測到所述設(shè)備在免提情境中,以與跟所述免提情境相關(guān)的限制相一致的方式執(zhí)行以下步驟中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng)。
2.根據(jù)權(quán)利要求1所述的方法,其中至少兩個(gè)交互模式可用于用戶與所述計(jì)算設(shè)備進(jìn)行交互,并且其中: 響應(yīng)于檢測到所述設(shè)備在免提情境中,使用適于免提操作的第一交互模式執(zhí)行以下步驟中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng);以及 響應(yīng)于檢測到所述設(shè)備不在免提情境中,使用不適于免提操作的第二交互模式執(zhí)行以下步驟中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng)。
3.根據(jù)權(quán)利要求1-2中任一項(xiàng)所述的方法,其中,檢測免提情境是否激活包括檢測指示選自在以下各項(xiàng)的至少一者中的限制的狀況: 用戶查看由所述計(jì)算設(shè)備呈現(xiàn)的視覺輸出的能力; 用戶與由所述計(jì)算設(shè)備呈現(xiàn)的圖形用戶界面交互的能力; 用戶使用所述計(jì)算設(shè)備的物理組件的能力; 用戶在所述計(jì)算設(shè)備上執(zhí)行觸摸輸入的能力; 用戶在所述計(jì)算設(shè)備上激活開關(guān)的能力;和 用戶在所述計(jì)算設(shè)備上使用鍵盤的能力。
4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其中,提示所述用戶進(jìn)行輸入包括: 響應(yīng)于檢測到所述設(shè)備不在免提情境中,通過不適于所述免提情境的第一輸出模式提示所述用戶;以及 響應(yīng)于檢測到所述設(shè)備在免提情境中,通過適于所述免提情境的第二輸出模式提示所述用戶。
5.根據(jù)權(quán)利要求4所述的方法,其中: 通過第一輸出模式提示所述用戶包括通過視覺輸出模式提示所述用戶;以及 通過第二輸出模式提示所述用戶包括通過聽覺輸出模式提示所述用戶。
6.根據(jù)權(quán)利要求5所述的方法,其中:通過視覺輸出模式提示所述用戶包括在顯示屏上顯示提示;以及 通過聽覺輸出模式提示所述用戶包括輸出語音提示。
7.根據(jù)權(quán)利要求1-6中任一項(xiàng)所述的方法,其中,解譯所接收的用戶輸入包括: 響應(yīng)于檢測到所述設(shè)備在免提情境中,使用與免提操作相關(guān)的詞匯表解譯所接收的用戶輸入。
8.根據(jù)權(quán)利要求1-7中任一項(xiàng)所述的方法,其中,識別至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù)包括:響應(yīng)于檢測到所述設(shè)備在免提情境中,執(zhí)行與免提操作相關(guān)的至少一個(gè)任務(wù)流程識別步驟。
9.根據(jù)權(quán)利要求8所述的方法,其中,執(zhí)行與免提操作相關(guān)的至少一個(gè)任務(wù)流程識別步驟包括通過基于語音的界面來提示所述用戶檢查和確認(rèn)輸入的內(nèi)容。
10.根據(jù)權(quán)利要求8-9中任一項(xiàng)所述的方法,其中,執(zhí)行與免提操作相關(guān)的至少一個(gè)任務(wù)流程識別步驟包括使用聽覺輸出執(zhí)行至少一個(gè)任務(wù)流程步驟。
11.根據(jù)權(quán)利要求8-10中任一項(xiàng)所述的方法,其中,執(zhí)行與免提操作相關(guān)的至少一個(gè)任務(wù)流程識別步驟包括執(zhí)行從適用于所述免提情境的一組有限的可用任務(wù)流程步驟中選擇的至少一個(gè)任務(wù)流程步驟。
12.根據(jù)權(quán)利要求1-11中任一項(xiàng)所述的方法,其中,生成對話響應(yīng)包括:響應(yīng)于檢測到所述設(shè)備在免提情境中,以基于語音的輸出模式生成對話響應(yīng)。
13.根據(jù)權(quán)利要求12所述的方法,其中,以基于語音的輸出模式生成對話響應(yīng)包括以語音形式改述所述用戶輸入的至少一部分。
14.根據(jù)權(quán)利要求13所述的方法,其中,以基于語音的輸出模式生成對話響應(yīng)還包括使用多個(gè)嗓音區(qū)分所改述的用戶輸入與其他語音輸出來生成語音。
15.根據(jù)權(quán)利要求13-14中任一項(xiàng)所述的方法,其中,以基于語音的輸出模式生成對話響應(yīng)包括將對話模板與個(gè)人數(shù)據(jù)的至少一項(xiàng)進(jìn)行組合。
16.根據(jù)權(quán)利要求1所述的方法,其中,檢測免提情境是否激活包括選自以下各項(xiàng)中的至少一者: 接收指定免提情境的用戶輸入; 從至少一個(gè)傳感器接收指示與免提情境相關(guān)的環(huán)境狀況的數(shù)據(jù); 檢測與免提情境相關(guān)的外圍設(shè)備的連接; 檢測與免提情境不相關(guān)的外圍設(shè)備的斷開; 檢測與車輛的車載系統(tǒng)的通信; 檢測當(dāng)前位置;以及 檢測當(dāng)前速度。
17.根據(jù)權(quán)利要求1-16中任一項(xiàng)所述的方法,其中: 提示所述用戶包括通過會話界面提示所述用戶;并且 接收用戶輸入包括通過所述會話界面接收用戶輸入。
18.根據(jù)權(quán)利要求1-17中任一項(xiàng)所述的方法,其中,接收用戶輸入包括: 接收語音輸入;以及 將所述語音輸入轉(zhuǎn)換為文本表不。
19.根據(jù)權(quán)利要求1-18中任一項(xiàng)所述的方法,其中,所述計(jì)算設(shè)備包括選自以下各項(xiàng)中的至少一者: 電話; 智能手機(jī); 平板電腦; 膝上型計(jì)算機(jī); 個(gè)人數(shù)字助理; 臺式計(jì)算機(jī); ?目息亨; 消費(fèi)電子設(shè)備; 消費(fèi)娛樂設(shè)備; 音樂播放器; 照相機(jī); 電視; 電子游戲單元;和 機(jī)頂盒。
20.一種用于解譯用戶輸入以在具有至少一個(gè)處理器的計(jì)算設(shè)備上執(zhí)行任務(wù)的計(jì)算機(jī)程序產(chǎn)品,包括: 非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì);和 在所述介質(zhì)上編碼的計(jì)算機(jī)程序代碼,所述計(jì)算機(jī)程序代碼被 配置為使至少一個(gè)處理器執(zhí)行以下步驟: 檢測免提情境是否激活; 使輸出設(shè)備提示用戶進(jìn)行輸入; 通過輸入設(shè)備接收用戶輸入; 解譯所接收的用戶輸入以得到用戶意圖的表示; 至少部分地基于所得到的用戶意圖的表示來識別至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù); 使用所述至少一個(gè)參數(shù)執(zhí)行所述至少一個(gè)任務(wù),以得到結(jié)果; 基于所得到的結(jié)果生成對話響應(yīng);以及 使所述輸出設(shè)備輸出所生成的對話響應(yīng); 其中,響應(yīng)于檢測到所述設(shè)備在免提情境中,所述計(jì)算機(jī)程序代碼被配置為使至少一個(gè)處理器以與跟所述免提情境相關(guān)的限制相一致的方式執(zhí)行以下步驟中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng)。
21.根據(jù)權(quán)利要求20所述的計(jì)算機(jī)程序產(chǎn)品,其中,至少兩個(gè)交互模式可用于用戶與所述計(jì)算設(shè)備進(jìn)行交互,并且其中: 響應(yīng)于檢測到所述設(shè)備在免提情境中,所述計(jì)算機(jī)程序代碼被配置為使至少一個(gè)處理器使用適于免提操作的第一交互模式執(zhí)行以下步驟中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng);以及響應(yīng)于檢測到所述設(shè)備不在免提情境中,所述計(jì)算機(jī)程序代碼被配置為使至少一個(gè)處理器使用不適于免提操作的第二交互模式執(zhí)行以下步驟中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng)。
22.根據(jù)權(quán)利要求20-21中任一項(xiàng)所述的計(jì)算機(jī)程序產(chǎn)品,其中,被配置為使至少一個(gè)處理器檢測免提情境是否激活的所述計(jì)算機(jī)程序代碼包括被配置為使至少一個(gè)處理器檢測指示選自在以下各項(xiàng)中的至少一者中的限制的狀況的計(jì)算機(jī)程序代碼: 用戶查看由所述計(jì)算設(shè)備呈現(xiàn)的視覺輸出的能力; 用戶與由所述計(jì)算設(shè)備呈現(xiàn)的圖形用戶界面交互的能力; 用戶使用所述計(jì)算設(shè)備的物理組件的能力; 用戶在所述計(jì)算設(shè)備上執(zhí)行觸摸輸入的能力; 用戶在所述計(jì)算設(shè)備上激活開關(guān)的能力;和 用戶在所述計(jì)算設(shè)備上使用鍵盤的能力。
23.根據(jù)權(quán)利要求20-22中任一項(xiàng)所述的計(jì)算機(jī)程序產(chǎn)品,其中,被配置為使輸出設(shè)備提示用戶進(jìn)行輸入的所述計(jì)算機(jī)程序代碼包括: 被配置為使輸出設(shè)備響應(yīng)于檢測到所述設(shè)備不在免提情境中來通過不適于所述免提情境的第一輸出模式提示所述用戶的計(jì)算機(jī)程序代碼;和 被配置為使輸出設(shè)備響應(yīng)于檢測到所述設(shè)備在免提情境中來通過適于所述免提情境的第二輸出模式提示所述用戶的計(jì)算機(jī)程序代碼。
24.根據(jù)權(quán)利要求20-23中任一項(xiàng)所述的計(jì)算機(jī)程序產(chǎn)品,其中,被配置為使至少一個(gè)處理器解譯所接收的用戶輸入的所述計(jì)算機(jī)程序代碼包括: 被配置為使至少一個(gè)處理器響應(yīng)于檢測到所述設(shè)備在免提情境中來使用與免提操作相關(guān)的詞匯表解譯所接收的用戶輸入的計(jì)算機(jī)程序代碼。
25.根據(jù)權(quán)利要求20-24中任一項(xiàng)所述的計(jì)算機(jī)程序產(chǎn)品,其中,被配置為使至少一個(gè)處理器識別至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù)的所述計(jì)算機(jī)程序代碼包括被配置為使至少一個(gè)處理器響應(yīng)于檢測到所述設(shè)備在免提情境中來執(zhí)行與免提操作相關(guān)的至少一個(gè)任務(wù)流程識別步驟的計(jì)算機(jī)程序代碼。
26.根據(jù)權(quán)利要求20-25中任一項(xiàng)所述的計(jì)算機(jī)程序產(chǎn)品,其中,被配置為使至少一個(gè)處理器生成對話響應(yīng)的所述計(jì)算機(jī)程序代碼包括被配置為使至少一個(gè)處理器響應(yīng)于檢測到所述設(shè)備在免提情境中而以基于語音的輸出模式生成對話響應(yīng)的計(jì)算機(jī)程序代碼。
27.根據(jù)權(quán)利要求20所述的計(jì)算機(jī)程序產(chǎn)品,其中,被配置為使至少一個(gè)處理器檢測免提情境是否激活的所述計(jì)算機(jī)程序代碼包括被配置為使至少一個(gè)處理器執(zhí)行選自以下各項(xiàng)中的至少一者的計(jì)算機(jī)程序代碼: 接收指定免提情境的用戶輸入; 從至少一個(gè)傳感器接收指示與免提情境相關(guān)的環(huán)境狀況的數(shù)據(jù); 檢測與免提情境相關(guān)的外圍設(shè)備的連接; 檢測與免提情境不相關(guān)的外圍設(shè)備的斷開; 檢測與車輛的車載系統(tǒng)的通信; 檢測當(dāng)前位置;以及檢測當(dāng)前速度。
28.根據(jù)權(quán)利要求20-27中任一項(xiàng)所述的計(jì)算機(jī)程序產(chǎn)品,其中: 被配置為使輸出設(shè)備提示所述用戶的所述計(jì)算機(jī)程序代碼包括被配置為使輸出設(shè)備通過會話界面提示所述用戶的計(jì)算機(jī)程序代碼;并且 被配置為使至少一個(gè)處理器接收用戶輸入的所述計(jì)算機(jī)程序代碼包括被配置為使至少一個(gè)處理器通過所述會話界面接收用戶輸入的計(jì)算機(jī)程序代碼。
29.根據(jù)權(quán)利要求20-28中任一項(xiàng)所述的計(jì)算機(jī)程序產(chǎn)品,其中,被配置為使至少一個(gè)處理器接收用戶輸入的所述計(jì)算機(jī)程序代碼包括: 被配置為使至少一個(gè)處理器接收語音輸入的計(jì)算機(jī)程序代碼;和 被配置為使至少一 個(gè)處理器將所述語音輸入轉(zhuǎn)換為文本表示的計(jì)算機(jī)程序代碼。
30.根據(jù)權(quán)利要求20-29中任一項(xiàng)所述的計(jì)算機(jī)程序產(chǎn)品,其中,所述計(jì)算設(shè)備包括選自以下各項(xiàng)的至少一者: 電話; 智能手機(jī); 平板電腦; 膝上型計(jì)算機(jī); 個(gè)人數(shù)字助理; 臺式計(jì)算機(jī); ?目息亨; 消費(fèi)電子設(shè)備; 消費(fèi)娛樂設(shè)備; 音樂播放器; 照相機(jī); 電視; 電子游戲單元;和 機(jī)頂盒。
31.一種用于解譯用戶輸入以在計(jì)算設(shè)備上執(zhí)行任務(wù)的系統(tǒng),包括: 輸出設(shè)備,所述輸出設(shè)備被配置為提示用戶進(jìn)行輸入; 輸入設(shè)備,所述輸入設(shè)備被配置為接收用戶輸入; 至少一個(gè)處理器,所述處理器通信地耦接到所述輸出設(shè)備和所述輸入設(shè)備并被配置為執(zhí)行以下步驟: 檢測免提情境是否激活; 解譯所接收的用戶輸入以得到用戶意圖的表示; 至少部分地基于所得到的用戶意圖的表示來識別至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù); 使用所述至少一個(gè)參數(shù)執(zhí)行所述至少一個(gè)任務(wù),以得到結(jié)果;以及 基于所得到的結(jié)果生成對話響應(yīng);并且 其中,所述輸出設(shè)備進(jìn)一步被配置為輸出所生成的對話響應(yīng); 并且其中,響應(yīng)于檢測到所述設(shè)備在免提情境中,以與跟所述免提情境相關(guān)的限制相一致的方式執(zhí)行以下操作中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng)。
32.根據(jù)權(quán)利要求31所述的系統(tǒng),其中,至少兩個(gè)交互模式可用于用戶交互,并且其中: 響應(yīng)于檢測到所述設(shè)備在免提情境中,使用適于免提操作的第一交互模式執(zhí)行以下操作中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng);以及 響應(yīng)于檢測到所述設(shè)備不在免提情境中,使用不適于免提操作的第二交互模式執(zhí)行以下操作中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收用戶輸入,識別所述至少一個(gè)任務(wù)和所述 任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng)。
33.根據(jù)權(quán)利要求31-32中任一項(xiàng)所述的系統(tǒng),其中,所述至少一個(gè)處理器被配置為通過檢測指示在選自以下各項(xiàng)的至少一者中的限制的狀況來檢測免提情境是否激活: 用戶查看由所述輸出設(shè)備呈現(xiàn)的視覺輸出的能力; 用戶與由所述輸出設(shè)備呈現(xiàn)的圖形用戶界面交互的能力; 用戶使用所述計(jì)算設(shè)備的物理組件的能力; 用戶在所述輸入設(shè)備上執(zhí)行觸摸輸入的能力; 用戶在所述計(jì)算設(shè)備上激活開關(guān)的能力;和 用戶在所述計(jì)算設(shè)備上使用鍵盤的能力。
34.根據(jù)權(quán)利要求31-33中任一項(xiàng)所述的系統(tǒng),其中,所述輸出設(shè)備被配置為通過以下操作來提示用戶進(jìn)行輸入: 響應(yīng)于檢測到所述設(shè)備不在免提情境中,通過不適于所述免提情境的第一輸出模式提示所述用戶;以及 響應(yīng)于檢測到所述設(shè)備在免提情境中,通過適于所述免提情境的第二輸出模式提示所述用戶。
35.根據(jù)權(quán)利要求34所述的系統(tǒng),其中: 所述第一輸出模式包括視覺輸出模式;并且 所述第二輸出模式包括聽覺輸出模式; 并且其中,所述輸出設(shè)備包括: 顯示屏,所述顯示屏被配置為通過所述視覺輸出模式提示所述用戶;和 揚(yáng)聲器,所述揚(yáng)聲器被配置為通過所述聽覺輸出模式提示所述用戶。
36.根據(jù)權(quán)利要求35所述的系統(tǒng),其中: 所述顯示屏被配置為顯示視覺提示;并且 所述揚(yáng)聲器被配置為輸出語音提示。
37.根據(jù)權(quán)利要求31-36中任一項(xiàng)所述的系統(tǒng),其中,響應(yīng)于檢測到所述設(shè)備在免提情境中,所述至少一個(gè)處理器被配置為使用與免提操作相關(guān)的詞匯表來解譯所接收的用戶輸入。
38.根據(jù)權(quán)利要求31-37中任一項(xiàng)所述的系統(tǒng),其中,響應(yīng)于檢測到所述設(shè)備在免提情境中,所述至少一個(gè)處理器被配置為通過執(zhí)行與免提操作相關(guān)的至少一個(gè)任務(wù)流程識別步驟來識別至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù)。
39.根據(jù)權(quán)利要求31-38中任一項(xiàng)所述的系統(tǒng),其中,響應(yīng)于檢測到所述設(shè)備在免提情境中,所述至少一個(gè)處理器被配置為以基于語音的輸出模式生成所述對話響應(yīng)。
40.根據(jù)權(quán)利要求31-39中任一項(xiàng)所述的系統(tǒng),其中,所述至少一個(gè)處理器被配置為基于選自以下各項(xiàng)中的至少一者檢測免提情境是否激活: 指定免提情境的用戶輸入; 來自至少一個(gè)傳感器的指示與免提情境相關(guān)的環(huán)境狀況的數(shù)據(jù); 與免提情境相關(guān)的外圍設(shè)備的連接; 與免提情境不相關(guān)的外圍設(shè)備的斷開; 與車輛的車載系統(tǒng)的通信; 當(dāng)前位置;和 當(dāng)前速度。
41.根據(jù)權(quán)利要求31-40中任一項(xiàng)所述的系統(tǒng),其中: 所述輸出設(shè)備被配置為通過會話界面提示所述用戶;并且 所述輸入設(shè)備被配置為通過所述會話界面接收用戶輸入。
42.根據(jù)權(quán)利要求31-41中任一項(xiàng)所述的系統(tǒng),其中: 所述輸入設(shè)備包括被配置為接收語音輸入的麥克風(fēng);并且 所述至少一個(gè)處理器被配置為將所述語音輸入轉(zhuǎn)換為文本表示。
43.根據(jù)權(quán)利要求31-42中任一項(xiàng)所述的系統(tǒng),其中,所述計(jì)算設(shè)備包括選自以下各項(xiàng)的至少一者: 電話; 智能手機(jī); 平板電腦; 膝上型計(jì)算機(jī); 個(gè)人數(shù)字助理; 臺式計(jì)算機(jī); ?目息亨; 消費(fèi)電子設(shè)備; 消費(fèi)娛樂設(shè)備; 音樂播放器; 照相機(jī); 電視; 電子游戲單元;和 機(jī)頂盒。
44.一種電子設(shè)備,包括: 用于檢測免提情境是否激活的部件; 用于提示用戶進(jìn)行輸入的部件; 用于接收用戶輸入的部件; 用于解譯所接收的用戶輸入以得到用戶意圖的表示的部件;用于至少部分地基于所得到的用戶意圖的表示來識別至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù)的部件; 用于使用所述至少一個(gè)參數(shù)來執(zhí)行所述至少一個(gè)任務(wù)以得到結(jié)果的部件; 用于基于所得到的結(jié)果生成對話響應(yīng)的部件;和 用于輸出所生成的對話響應(yīng)的部件; 其中,響應(yīng)于檢測到所述設(shè)備在免提情境中,以與跟所述免提情境相關(guān)的限制相一致的方式執(zhí)行以下步驟中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng)。
45.一種用于電子設(shè)備的信息處理裝置,包括: 用于檢測免提情境是否激活的部件; 用于提示用戶進(jìn)行輸入的部件; 用于接收用戶輸入的部件; 用于解譯所接收的用戶輸入以得到用戶意圖的表示的部件; 用于至少部分地基于所得到的用戶意圖的表示來識別至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù)的部件; 用于使用所述至少一個(gè)參數(shù)來執(zhí)行所述至少一個(gè)任務(wù)以得到結(jié)果的部件; 用于基于所得到的結(jié)果生成對話響應(yīng)的部件;和 用于輸出所生成的對話響應(yīng)的部件; 其中,響應(yīng)于檢測到所述設(shè)備在免提情境中,以與跟所述免提情境相關(guān)的限制相一致的方式執(zhí)行以下步驟中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng)。
46.—種電子設(shè)備,包括: 處理單元,所述處理單元被配置為檢測免提情境是否激活; 輸出單元,所述輸出單元耦接到所述處理單元并被配置為提示用戶進(jìn)行輸入; 輸入單元,所述輸入單元耦接到所述處理單元并被配置為接收用戶輸入; 所述處理單元進(jìn)一步被配置為: 解譯所接收的用戶輸入以得到用戶意圖的表示; 至少部分地基于所得到的用戶意圖的表示來識別至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù); 使用所述至少一個(gè)參數(shù)執(zhí)行所述至少一個(gè)任務(wù),以得到結(jié)果; 基于所得到的結(jié)果生成對話響應(yīng);以及 使所述輸出設(shè)備輸出所生成的對話響應(yīng); 其中,響應(yīng)于檢測到所述設(shè)備在免提情境中,以與跟所述免提情境相關(guān)的限制一致的方式執(zhí)行以下步驟中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收的用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng)。
47.根據(jù)權(quán)利要求46所述的電子設(shè)備,其中,至少兩個(gè)交互模式可用于用戶與所述計(jì)算設(shè)備進(jìn)行交互,并且其中: 響應(yīng)于檢測到所述設(shè)備在免提情境中,使用適于免提操作的第一交互模式執(zhí)行以下步驟中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng);以及 響應(yīng)于檢測到所述設(shè)備不在免提情境中,使用不適于免提操作的第二交互模式執(zhí)行以下步驟中的至少一者:提示所述用戶進(jìn)行輸入,接收用戶輸入,解譯所述接收用戶輸入,識別所述至少一個(gè)任務(wù)和所述任務(wù)的至少一個(gè)參數(shù),以及生成所述對話響應(yīng)。
48.根據(jù)權(quán)利要求46-47中任一項(xiàng)所述的電子設(shè)備,其中,所述處理單元進(jìn)一步被配置為通過檢測指示在選自以下各項(xiàng)的至少一者中的限制的狀況來檢測免提情境是否激活: 用戶查看由所述計(jì)算設(shè)備呈現(xiàn)的視覺輸出的能力; 用戶與由所述計(jì)算設(shè)備呈現(xiàn)的圖形用戶界面交互的能力; 用戶使用所述計(jì)算設(shè)備的物理組件的能力; 用戶在所述計(jì)算設(shè)備上執(zhí)行觸摸輸入的能力; 用戶在所述計(jì)算設(shè)備上激活開關(guān)的能力;和 用戶在所述計(jì)算設(shè)備上使用鍵盤的能力。
49.根據(jù)權(quán)利要求46-48中任一項(xiàng)所述的電子設(shè)備,其中,所述輸出單元被配置為通過以下操作提示用戶進(jìn)行輸入: 響應(yīng)于檢測到所述設(shè)備不在免提情境中,通過不適于所述免提情境的第一輸出模式提示所述用戶;以及 響應(yīng)于檢測到所述設(shè)備在免提情境中,通過適于所述免提情境的第二輸出模式提示所述用戶。
50.根據(jù)權(quán)利要求49所述的電子設(shè)備,其中: 通過第一輸出模式提示所述用戶包括通過視覺輸出模式提示所述用戶;以及 通過第二輸出模式提示所述用戶包括通過聽覺輸出模式提示所述用戶。
51.根據(jù)權(quán)利要求5所述的電子設(shè)備,其中: 通過視覺輸出模式提示所述用戶包括在顯示屏上顯示提示;以及 通過聽覺輸出模式提示所述用戶包括輸出語音提示。
52.根據(jù)權(quán)利要求46-51中任一項(xiàng)所述的電子設(shè)備,其中,所述處理單元被配置為,響應(yīng)于檢測到所述設(shè)備在免提情境中,使用與免提操作相關(guān)的詞匯表來解譯所接收的用戶輸入。
53.根據(jù)權(quán)利要求46-52中任一項(xiàng)所述的電子設(shè)備,其中,響應(yīng)于檢測到所述設(shè)備在免提情境中,所述處理單元被配置為執(zhí)行與免提操作相關(guān)的至少一個(gè)任務(wù)流程識別步驟。
54.根據(jù)權(quán)利要求53所述的電子設(shè)備,其中,執(zhí)行與免提操作相關(guān)的至少一個(gè)任務(wù)流程識別步驟包括通過基于語音的界面提示所述用戶檢查和確認(rèn)所輸入的內(nèi)容。
55.根據(jù)權(quán)利要求53-54中任一項(xiàng)所述的電子設(shè)備,其中,所述處理單元進(jìn)一步被配置為使用聽覺輸出執(zhí)行所述至少一個(gè)任務(wù)流程步驟。
56.根據(jù)權(quán)利要求53-55中任一項(xiàng)所述的電子設(shè)備,其中,所述處理單元進(jìn)一步被配置為通過執(zhí)行從適用于所述免提情境的一組有限的可用任務(wù)流程步驟中選擇的至少一個(gè)任務(wù)流程步驟來執(zhí)行所述至少一個(gè)任務(wù)流程識別步驟。
57.根據(jù)權(quán)利要求46-56中任一項(xiàng)所述的電子設(shè)備,其中,響應(yīng)于檢測到所述設(shè)備在免提情境中,所述處理單元被配置為以基于語音的輸出模式生成所述對話響應(yīng)。
58.根據(jù)權(quán)利要求57所述的電子設(shè)備,其中,所述處理單元被配置為通過以語音形式改述所述用戶輸入的至少一部分而以所述基于語音的輸出模式生成所述對話響應(yīng)。
59.根據(jù)權(quán)利要求58所述的電子設(shè)備,其中,所述處理單元被配置為通過使用多個(gè)嗓音區(qū)分所改述的用戶輸入與其他語音輸出來生成語音,從而以所述基于語音的輸出模式生成所述對話響應(yīng)。
60.根據(jù)權(quán)利要求58-59中任一項(xiàng)所述的電子設(shè)備,其中,所述處理單元被配置為通過將對話模板與個(gè)人數(shù)據(jù)的至少一項(xiàng)進(jìn)行組合而以所述基于語音的輸出模式生成所述對話響應(yīng)。
61.根據(jù)權(quán)利要求46所述的電子設(shè)備,其中,所述處理單元被配置為通過執(zhí)行選自以下各項(xiàng)中的至少一個(gè)過程來檢測免提情境是否激活: 接收指定免提情境的用戶輸入; 從至少一個(gè)傳感器接收指示與免提情境相關(guān)的環(huán)境狀況的數(shù)據(jù); 檢測與免提情境相關(guān)的外圍設(shè)備的連接; 檢測與免提情境不相關(guān)的外圍設(shè)備的斷開; 檢測與車輛的車載系統(tǒng)的通信; 檢測當(dāng)前位置;以及 檢測當(dāng)前速度。
62.根據(jù)權(quán)利要求46-61中任一項(xiàng)所述的電子設(shè)備,其中: 所述輸出單元被配置為通過會話界面提示所述用戶;并且 所述輸入單元被配置為通過所述會話界面接收用戶輸入。
63.根據(jù)權(quán)利要求46-62中任一項(xiàng)所述的電子設(shè)備,其中: 所述輸入單元被配置為接收語音輸入;并且 所述處理單元被配置為將所述語音輸入轉(zhuǎn)換為文本表示。
64.一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲用于由電子設(shè)備的一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求1-19的所述方法中的任一項(xiàng)的指令。
65.—種電子設(shè)備,所述電子設(shè)備包括一個(gè)或多個(gè)處理器和存儲用于由所述一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序的存儲器,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求1-19的所述方法中的任一項(xiàng)的指令。
66.—種電子設(shè)備,所述電子設(shè)備包括用于執(zhí)行權(quán)利要求1-19的所述方法中的任一項(xiàng)的部件。
67.一種用于電子設(shè)備的信息處理裝置,包括用于執(zhí)行權(quán)利要求1-19的所述方法中的任一項(xiàng)的部件。
【文檔編號】H04M1/725GK103959751SQ201280058606
【公開日】2014年7月30日 申請日期:2012年9月20日 優(yōu)先權(quán)日:2011年9月30日
【發(fā)明者】托馬斯·羅伯特·格魯貝爾, 哈里·J·薩德勒 申請人:蘋果公司