專(zhuān)利名稱(chēng):用于實(shí)現(xiàn)分布式多模式應(yīng)用的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明主題總體上涉及分布式應(yīng)用,尤其涉及在客戶(hù)端-服務(wù)器系統(tǒng)環(huán)境中實(shí)現(xiàn) 的分布式多模式應(yīng)用。
背景技術(shù):
用戶(hù)界面“模式(modality) ”可被定義為用戶(hù)和電子裝置之間交互的方式,其中交 互是通過(guò)裝置的用戶(hù)界面實(shí)現(xiàn)的。用戶(hù)界面模式可通過(guò)與特定類(lèi)型的人類(lèi)可感知信息(例 如,可通過(guò)視覺(jué)、聲音或觸摸感知的信息)和/或人類(lèi)所生成的信息(例如,通過(guò)話音或其 它物理動(dòng)作所生成的信息)相關(guān)聯(lián)的硬件和軟件的組合來(lái)實(shí)現(xiàn)。例如,一種類(lèi)型的用戶(hù)界 面模式為“視覺(jué)模式”,其可以通過(guò)顯示屏以及用于在顯示屏上生成視覺(jué)顯示的相關(guān)聯(lián)硬件 和軟件來(lái)實(shí)現(xiàn)。視覺(jué)模式還可以使用各種促進(jìn)用戶(hù)與視覺(jué)顯示進(jìn)行交互的輸入裝置來(lái)實(shí) 現(xiàn),諸如使得用戶(hù)能夠(例如,使用滾動(dòng)機(jī)制、觸摸屏或箭頭按鍵)選擇視覺(jué)顯示中所呈現(xiàn) 信息、(例如,使用鍵盤(pán))向視覺(jué)顯示的區(qū)域中輸入信息和/或?qū)⒁曈X(jué)顯示的焦點(diǎn)從一個(gè)區(qū) 域改變?yōu)榱硪粎^(qū)域的輸入裝置。另一種類(lèi)型的用戶(hù)界面模式為“語(yǔ)音模式”,其可以使用麥 克風(fēng)、揚(yáng)聲器以及適于接收人類(lèi)話音并對(duì)其進(jìn)行數(shù)字化和/或輸出音頻信息(例如,音頻提 示或其它音頻信息)的相關(guān)聯(lián)硬件和軟件來(lái)實(shí)現(xiàn)。其它類(lèi)型的用戶(hù)界面模式包括例如手勢(shì) 模式和筆模式,僅給出兩個(gè)示例。為了通過(guò)“單模式”裝置提供改善的使用性,許多電子裝置包括“多模式”用戶(hù)界 面,這是提供多于一種的用戶(hù)界面模式的用戶(hù)界面。例如,電子裝置可提供視覺(jué)模式和語(yǔ)音 模式。這樣的裝置例如可以同時(shí)輸出視覺(jué)信息(例如,所顯示信息)和相關(guān)聯(lián)的音頻信息 (例如,音頻提示),和/或裝置可使得用戶(hù)能夠按照用戶(hù)需要通過(guò)話音、鍵盤(pán)或其二者來(lái)輸 入信息。通常,具有多模式用戶(hù)界面的裝置提供改善的用戶(hù)體驗(yàn),原因在于用戶(hù)可以選擇他 或她與裝置進(jìn)行交互的模式。例如,在用戶(hù)希望不使用手進(jìn)行交互的情況下,諸如當(dāng)打字過(guò) 于耗時(shí)和/或當(dāng)用戶(hù)(例如,由于關(guān)節(jié)炎和其它一些身體缺陷)永久性或者在某些情況下 (例如,在用戶(hù)戴著手套和/或用戶(hù)的手上有其它任務(wù)時(shí))被造成不便時(shí),可能希望使用語(yǔ) 音模式的交互。相反,例如在要呈現(xiàn)復(fù)雜信息的情況下,在需要聽(tīng)覺(jué)隱私時(shí),在存在噪聲約 束時(shí)和/或在存在(例如當(dāng)用戶(hù)具有嚴(yán)重口音、講話障礙和/或聽(tīng)力受損時(shí))永久性或在 某些情況下(例如,在存在明顯背景噪聲或噪聲約束時(shí))聽(tīng)覺(jué)約束時(shí),可能希望使用視覺(jué)模 式的交互。多模式用戶(hù)界面可以連同在聯(lián)網(wǎng)環(huán)境(例如,客戶(hù)端-服務(wù)器系統(tǒng)環(huán)境)中操作 的應(yīng)用一起實(shí)現(xiàn)。在這樣的情況下,用戶(hù)與客戶(hù)端裝置(例如,蜂窩電話或計(jì)算機(jī))上的多 模式用戶(hù)界面進(jìn)行交互,并且客戶(hù)端裝置通過(guò)網(wǎng)絡(luò)與一個(gè)或多個(gè)其它裝置或平臺(tái)(例如, 服務(wù)器)進(jìn)行通信。在這樣的聯(lián)網(wǎng)環(huán)境中,已經(jīng)實(shí)現(xiàn)了兩種基本技術(shù)來(lái)設(shè)計(jì)支持多模式用 戶(hù)界面的客戶(hù)端-服務(wù)器系統(tǒng)部件,尤其是支持適于至少提供視覺(jué)和語(yǔ)音模式的用戶(hù)界面 的系統(tǒng)部件。使用“嵌入式”技術(shù),基本上所有與多種模式相關(guān)聯(lián)的必要硬件和軟件都包括 在客戶(hù)端裝置自身之中。例如,客戶(hù)端裝置可以包括適于執(zhí)行音頻相關(guān)任務(wù)的軟件和硬件,除其它之外,音頻相關(guān)任務(wù)諸如話音處理、話音識(shí)別和/或話音合成。通常,這樣的音頻相 關(guān)任務(wù)需要特殊處理器或處理引擎(例如,數(shù)字信號(hào)處理器)和相當(dāng)數(shù)量的存儲(chǔ)器(例如, 用于存儲(chǔ)與音頻相關(guān)任務(wù)相關(guān)聯(lián)的表和軟件)。使用“分布式”技術(shù),與一個(gè)或多個(gè)模式相 關(guān)聯(lián)的一些處理可以被轉(zhuǎn)換到另一處理部件,諸如遠(yuǎn)程服務(wù)器。例如,當(dāng)用戶(hù)講話時(shí),音頻 數(shù)據(jù)可以從客戶(hù)端裝置發(fā)送到遠(yuǎn)程服務(wù)器,并且遠(yuǎn)程服務(wù)器可以執(zhí)行一些或全部音頻相關(guān) 任務(wù)并且向客戶(hù)端裝置返回?cái)?shù)據(jù)、錯(cuò)誤消息和/或處理結(jié)果。每種技術(shù)都具有其優(yōu)勢(shì)和缺點(diǎn)。例如,如剛剛提到的,一些常規(guī)分布式技術(shù)的優(yōu)勢(shì) 在于與多模式用戶(hù)界面相關(guān)聯(lián)的一些計(jì)算密集處理(例如,音頻相關(guān)任務(wù))可從客戶(hù)端裝 置轉(zhuǎn)換出來(lái)到另一個(gè)處理部件(例如,遠(yuǎn)程服務(wù)器)。因此,客戶(hù)端裝置可以不包括專(zhuān)門(mén)的 處理器或處理引擎(例如,數(shù)字信號(hào)處理器)以及額外的存儲(chǔ)器以便實(shí)現(xiàn)從客戶(hù)端裝置所 轉(zhuǎn)移的任務(wù)。這意味著可以以比實(shí)現(xiàn)嵌入式技術(shù)的客戶(hù)端裝置更為成本有效的方式來(lái)設(shè)計(jì) 客戶(hù)端裝置(例如,該裝置可被設(shè)計(jì)為“瘦”客戶(hù)端)。然而,使用常規(guī)的分布式技術(shù),需要在客戶(hù)端和服務(wù)器之間對(duì)各種模式的狀態(tài)進(jìn) 行同步。多個(gè)模式的狀態(tài)之間的一致同步難以跨網(wǎng)絡(luò)實(shí)現(xiàn)。更具體地,除其它之外,使用常 規(guī)的分布式技術(shù),視覺(jué)模式和語(yǔ)音模式之間的同步由于網(wǎng)絡(luò)通信所固有的延遲時(shí)間而是不 可靠的。例如,當(dāng)用戶(hù)口頭向數(shù)據(jù)輸入?yún)^(qū)域提供輸入時(shí),客戶(hù)端裝置向服務(wù)器發(fā)送反映口頭 輸入的數(shù)據(jù)并且在視覺(jué)顯示能夠被更新以顯示話音識(shí)別結(jié)果之前等待要由服務(wù)器返回的 話音識(shí)別結(jié)果。在一些情況下,更新視覺(jué)顯示以反映口頭提供的輸入可能無(wú)法以充分及時(shí) 的方式進(jìn)行,并且視覺(jué)和語(yǔ)音模式可能變得不同步。此外,使用常規(guī)分布式技術(shù)實(shí)現(xiàn)多模式 用戶(hù)界面典型地是使用非標(biāo)準(zhǔn)協(xié)議和非常規(guī)的內(nèi)容編寫(xiě)技術(shù)來(lái)執(zhí)行的。因此,這樣的技術(shù) 還沒(méi)有被多數(shù)載體或應(yīng)用設(shè)計(jì)人員所欣然接受。因此,所需要的是可以促進(jìn)瘦客戶(hù)端設(shè)計(jì)并且使用標(biāo)準(zhǔn)協(xié)議和常規(guī)內(nèi)容編寫(xiě)技 術(shù),以及可以克服常規(guī)分布式技術(shù)所固有同步問(wèn)題的多模式用戶(hù)界面方法和設(shè)備。本發(fā)明 主題的其它特征和特性將通過(guò)后續(xù)結(jié)合附圖和此背景的詳細(xì)描述和所附權(quán)利要求而變得 顯而易見(jiàn)。
隨后將結(jié)合以下附圖對(duì)本發(fā)明主題進(jìn)行描述,其中相同的附圖標(biāo)記表示相同部 件,并且圖1是依據(jù)示例性實(shí)施例的適于實(shí)現(xiàn)分布式多模式應(yīng)用的系統(tǒng)的簡(jiǎn)化示圖;圖2是依據(jù)示例性實(shí)施例的用于發(fā)起和進(jìn)行多模式應(yīng)用會(huì)話的方法的流程圖;圖3是依據(jù)示例性實(shí)施例的用于執(zhí)行多模式應(yīng)用會(huì)話發(fā)起的方法的流程圖;圖4是依據(jù)示例性實(shí)施例的在客戶(hù)端裝置上呈現(xiàn)的視覺(jué)標(biāo)記的示例;圖5是依據(jù)示例性實(shí)施例的用于執(zhí)行語(yǔ)音服務(wù)器所生成的事件的操作處理的方 法的流程圖;并且圖6是依據(jù)示例性實(shí)施例的用于執(zhí)行客戶(hù)端所生成的事件的操作處理的方法的 流程圖。
具體實(shí)施例方式實(shí)施例包括用于實(shí)現(xiàn)分布式多模式應(yīng)用的方法和設(shè)備。這些實(shí)施例可促進(jìn)使用標(biāo) 準(zhǔn)協(xié)議和常規(guī)內(nèi)容編寫(xiě)技術(shù),并且還可以克服一些常規(guī)分布式技術(shù)所固有的同步問(wèn)題。此 外,這些實(shí)施例可以結(jié)合“瘦客戶(hù)端”類(lèi)型的裝置一起來(lái)使用。如這里所使用的,術(shù)語(yǔ)“多模式”表示適于實(shí)現(xiàn)多種用戶(hù)界面模式。術(shù)語(yǔ)“分布式 多模式應(yīng)用”、“多模式應(yīng)用”和“分布式應(yīng)用”可以互換使用以表示在客戶(hù)端裝置(例如,客 戶(hù)端裝置102,圖1)上提供多模式用戶(hù)界面的軟件應(yīng)用,并且其包括在不同平臺(tái)(例如,客 戶(hù)端裝置102、應(yīng)用服務(wù)器104和/或語(yǔ)音服務(wù)器106,圖1)上的獨(dú)立運(yùn)行時(shí)間環(huán)境中執(zhí)行 的不同組件,其中不同平臺(tái)通過(guò)網(wǎng)絡(luò)(例如,網(wǎng)絡(luò)108,圖1)進(jìn)行互連。在一個(gè)實(shí)施例中,分布式多模式應(yīng)用適于在具有客戶(hù)端-服務(wù)器系統(tǒng)體系(例如, 系統(tǒng)100,圖1)的系統(tǒng)中執(zhí)行。如這里所使用的,術(shù)語(yǔ)“客戶(hù)端”或“客戶(hù)端裝置”可互換使 用以表示適于執(zhí)行與分布式多模式應(yīng)用相關(guān)聯(lián)的處理實(shí)體、電子裝置或應(yīng)用(例如,客戶(hù) 端瀏覽器和/或客戶(hù)端側(cè)應(yīng)用組件)。此外,客戶(hù)端裝置適于經(jīng)由網(wǎng)絡(luò)訪問(wèn)與分布式多模式 應(yīng)用相關(guān)聯(lián)并且由一個(gè)或多個(gè)遠(yuǎn)程服務(wù)器所提供的一個(gè)或多個(gè)服務(wù)。術(shù)語(yǔ)“服務(wù)器”表示執(zhí)行針對(duì)一個(gè)或多個(gè)網(wǎng)絡(luò)連接的客戶(hù)端的服務(wù)或者響應(yīng)于客 戶(hù)端或服務(wù)器所發(fā)出的請(qǐng)求的其它服務(wù)的處理實(shí)體、電子裝置或應(yīng)用。術(shù)語(yǔ)“應(yīng)用服務(wù)器” 和“AS”表示適于發(fā)起與分布式多模式應(yīng)用會(huì)話相關(guān)聯(lián)的數(shù)據(jù)和控制鏈路的建立并且對(duì)與 應(yīng)用會(huì)話相關(guān)聯(lián)的各種“視圖”之間的同步進(jìn)行控制的服務(wù)器。術(shù)語(yǔ)“模式服務(wù)器”表示適 于執(zhí)行與一個(gè)或多個(gè)用戶(hù)界面模式相關(guān)聯(lián)的服務(wù)器側(cè)應(yīng)用組件的服務(wù)器。術(shù)語(yǔ)“語(yǔ)音服務(wù) 器”和“VS”表示專(zhuān)門(mén)適用于執(zhí)行與語(yǔ)音模式相關(guān)聯(lián)的服務(wù)器側(cè)應(yīng)用組件的模式服務(wù)器。雖 然以下的描述包括對(duì)其中包括語(yǔ)音服務(wù)器以支持語(yǔ)音模式的系統(tǒng)的詳細(xì)描述,但是所要理 解的是,在其它實(shí)施例中,可以在系統(tǒng)中包括另外或可替換地支持其它類(lèi)型用戶(hù)界面模式 (例如,手勢(shì)模式、筆模式等)的其它類(lèi)型的模式服務(wù)器。將貫穿本描述使用分布式多模式應(yīng)用的特定示例,以便促進(jìn)示例性實(shí)施例的理 解。所要理解的是,說(shuō)明性示例并不被認(rèn)為是將實(shí)施例的范圍僅局限于該示例。在示例性 實(shí)施例中,分布式多模式應(yīng)用適于支持視覺(jué)模式和語(yǔ)音模式??蛻?hù)端裝置包括“允許多模式 的”瀏覽器和/或客戶(hù)端側(cè)應(yīng)用組件,其中任一個(gè)或其二者適于對(duì)使得客戶(hù)端裝置呈現(xiàn)視 覺(jué)顯示的機(jī)器代碼進(jìn)行解釋?zhuān)曈X(jué)顯示包括客戶(hù)端裝置能夠通過(guò)視覺(jué)模式和語(yǔ)音模式接收 針對(duì)其的輸入數(shù)據(jù)的至少一個(gè)顯示元素。在一個(gè)實(shí)施例中,機(jī)器代碼包括在多模式頁(yè)面中 和/或被多模式頁(yè)面所引用,當(dāng)被解釋時(shí),機(jī)器代碼使得客戶(hù)端裝置呈現(xiàn)多個(gè)用戶(hù)交互顯 示(例如,用于城市、州、街道號(hào)碼和街道名稱(chēng)的數(shù)據(jù)輸入?yún)^(qū)域)。如這里所使用的,正如那些術(shù)語(yǔ)被本領(lǐng)域技術(shù)人員所理解的那樣,術(shù)語(yǔ)“解釋”表 示解釋和/或執(zhí)行。如這里所使用的,術(shù)語(yǔ)“機(jī)器代碼”表示標(biāo)記(例如,以標(biāo)準(zhǔn)通用標(biāo)記 語(yǔ)言(SGML)、可擴(kuò)展標(biāo)記語(yǔ)言(XML)、超文本標(biāo)記語(yǔ)言(HTML)、可擴(kuò)展HTML (XHTML)、動(dòng)態(tài) HTML (DHTML)、VoiceXML、語(yǔ)音應(yīng)用語(yǔ)言標(biāo)記(SALT)、可縮放矢量圖形(SVG)和/或各種其它 標(biāo)記語(yǔ)言編寫(xiě)的標(biāo)記)、腳本(例如,JavaScript代碼)、編譯的代碼(例如,編譯的C/C++、 Java, Lisp、Fortran, Pascal等)和/或其它信息,其可由計(jì)算機(jī)處理器(例如,客戶(hù)端裝 置102、應(yīng)用服務(wù)器104和/或語(yǔ)音服務(wù)器106,圖1)容易地執(zhí)行或解釋。再次參見(jiàn)這里所討論的示例性多模式應(yīng)用,客戶(hù)端裝置的用戶(hù)能夠?qū)?yīng)用當(dāng)前“聚焦”于其上的顯示元素(例如,所選擇的或者光標(biāo)在其中閃爍的元素)輸入信息,和/或 可以改變焦點(diǎn)(例如,通過(guò)選擇另一元素)。在一個(gè)實(shí)施例中,用戶(hù)可以按照需要使用視覺(jué) 模式或語(yǔ)音模式對(duì)顯示元素輸入信息。例如,當(dāng)用戶(hù)使用客戶(hù)端裝置的鍵盤(pán)輸入信息時(shí),該 動(dòng)作對(duì)應(yīng)于使用視覺(jué)模式輸入數(shù)據(jù),并且信息將作為文本在視覺(jué)視圖聚焦于其上的數(shù)據(jù)輸 入?yún)^(qū)域中呈現(xiàn)。一旦提交信息(例如,通過(guò)按壓“輸入”或移動(dòng)光標(biāo)),視覺(jué)顯示就可以被更 新以反映不同的焦點(diǎn)??商鎿Q地,用戶(hù)可以使用語(yǔ)音模式輸入信息(例如,用戶(hù)可以講出城市名稱(chēng))。當(dāng) 其發(fā)生時(shí),在一個(gè)實(shí)施例中,客戶(hù)端裝置通過(guò)音頻數(shù)據(jù)路徑向語(yǔ)音服務(wù)器發(fā)送表示該話音 的音頻數(shù)據(jù)。在一個(gè)實(shí)施例中,語(yǔ)音服務(wù)器適于執(zhí)行話音識(shí)別器,其根據(jù)與客戶(hù)端裝置所解 釋的機(jī)器代碼(例如,與客戶(hù)端側(cè)應(yīng)用組件相關(guān)聯(lián)的多模式頁(yè)面或代碼)相對(duì)應(yīng)的話音對(duì) 話來(lái)評(píng)估所接收的語(yǔ)音數(shù)據(jù)。話音識(shí)別器可以生成話音識(shí)別結(jié)果(或錯(cuò)誤),在一個(gè)實(shí)施例 中,語(yǔ)音服務(wù)器可經(jīng)由應(yīng)用服務(wù)器將其傳遞給客戶(hù)端裝置。根據(jù)各個(gè)實(shí)施例,客戶(hù)端裝置接 著可以在相應(yīng)數(shù)據(jù)區(qū)域中將話音識(shí)別結(jié)果作為文本進(jìn)行呈現(xiàn),并且語(yǔ)音視圖和視覺(jué)試圖的 狀態(tài)可被更新和同步。當(dāng)語(yǔ)音視圖和視覺(jué)視圖的狀態(tài)同步時(shí),語(yǔ)音服務(wù)器所解釋的話音對(duì) 話部分對(duì)應(yīng)于客戶(hù)端裝置所解釋的機(jī)器代碼部分。如以下將要詳細(xì)描述的,實(shí)施例包括用于根據(jù)用戶(hù)使用任一種模式輸入信息的能 力對(duì)視覺(jué)視圖和語(yǔ)音視圖進(jìn)行同步的方法。在各個(gè)實(shí)施例中,即使視覺(jué)視圖的狀態(tài)保存在 客戶(hù)端裝置上,而語(yǔ)音視圖的狀態(tài)保存在語(yǔ)音服務(wù)器上,這也是始終可以實(shí)現(xiàn)的。雖然以新 的方式,但是可以使用標(biāo)準(zhǔn)協(xié)議和常規(guī)內(nèi)容編寫(xiě)技術(shù)來(lái)實(shí)現(xiàn)同步,由此促進(jìn)和鼓勵(lì)各種分 布式多模式應(yīng)用的研發(fā)。圖1是依據(jù)示例性實(shí)施例的適于實(shí)現(xiàn)分布式多模式應(yīng)用的系統(tǒng)100的簡(jiǎn)化示圖。 系統(tǒng)100包括多個(gè)系統(tǒng)實(shí)體,在一個(gè)實(shí)施例中,其包括至少一個(gè)客戶(hù)端裝置102、應(yīng)用服務(wù) 器104(AS)和語(yǔ)音服務(wù)器106 (VS)。如以下將要詳細(xì)說(shuō)明的,在這些系統(tǒng)實(shí)體之間建立各 種數(shù)據(jù)和控制路徑,并且系統(tǒng)實(shí)體遵循各種通信協(xié)議,以便支持在系統(tǒng)100內(nèi)實(shí)現(xiàn)分布式 多模式應(yīng)用。如這里所使用的,術(shù)語(yǔ)“多模式應(yīng)用會(huì)話”可被定義為分布式多模式應(yīng)用的實(shí) 例。在一個(gè)實(shí)施例中,多模式應(yīng)用會(huì)話包括客戶(hù)端裝置102所進(jìn)行的對(duì)機(jī)器代碼(例如,與 客戶(hù)端側(cè)應(yīng)用組件114和/或一個(gè)或多個(gè)相關(guān)多模式頁(yè)面115的群組相關(guān)聯(lián)的機(jī)器代碼) 的解釋(例如,執(zhí)行和/或解釋),以及語(yǔ)音服務(wù)器106所進(jìn)行的對(duì)一個(gè)或多個(gè)相應(yīng)話音對(duì) 話的群組的解釋。雖然僅圖示出一個(gè)客戶(hù)端裝置102,但是系統(tǒng)100可以包括多個(gè)類(lèi)似或不同類(lèi)型 的客戶(hù)端裝置。例如,客戶(hù)端裝置102可以形成從裝置群組中所選擇的電子裝置的一部分, 給出一些示例,裝置群組包括蜂窩電話、無(wú)線電裝置、尋呼機(jī)、個(gè)人數(shù)字助理(PDA)、個(gè)人導(dǎo) 航裝置(PND)、移動(dòng)計(jì)算機(jī)系統(tǒng)(例如,車(chē)輛或飛機(jī)計(jì)算機(jī)系統(tǒng))、計(jì)算機(jī)(例如,膝上計(jì)算 機(jī)、筆記本或臺(tái)式計(jì)算機(jī))以及在計(jì)算機(jī)上實(shí)現(xiàn)的通過(guò)互聯(lián)網(wǎng)協(xié)議傳送語(yǔ)音(VoIP)電話, 但并不局限于此。客戶(hù)端裝置102包括處理子系統(tǒng)和數(shù)據(jù)存儲(chǔ)子系統(tǒng),并且可以是便攜式或固定電 子裝置。對(duì)于任一種裝置而言,客戶(hù)端裝置102可以包括適于在不能對(duì)其使用線路供電的 情況下提供能量的電池子系統(tǒng)??蛻?hù)端裝置102可適于使用各種有線和/或無(wú)線通信技 術(shù)通過(guò)一個(gè)或多個(gè)網(wǎng)絡(luò)108進(jìn)行通信。因此,客戶(hù)端裝置102可以包括有線和無(wú)線網(wǎng)絡(luò)接口中的任意一種或者其二者??蛻?hù)端裝置102還可以包括各種用戶(hù)接口輸入裝置(例如, 鍵盤(pán)、按鍵、撥號(hào)盤(pán)、觸摸屏、麥克風(fēng)、指示裝置(例如,鼠標(biāo)或觸摸板)和輸入筆)以及各 種用戶(hù)接口輸出裝置(例如,顯示屏、揚(yáng)聲器、音頻輸出插孔、頭戴式耳機(jī)、耳套、機(jī)械震動(dòng) 裝置)。在一個(gè)實(shí)施例中,與視覺(jué)模式相關(guān)聯(lián)的用戶(hù)接口裝置包括從包括視覺(jué)顯示器、觸摸 屏、鍵盤(pán)、按鍵、撥號(hào)盤(pán)、指示裝置和輸入筆的裝置的組中所選擇的任意一個(gè)或多個(gè)裝置。在 一個(gè)實(shí)施例中,與語(yǔ)音模式相關(guān)聯(lián)的用戶(hù)接口裝置包括從包括麥克風(fēng)、揚(yáng)聲器、音頻輸出插 孔、頭戴式耳機(jī)、耳套的裝置的組中所選擇的任意一個(gè)或多個(gè)裝置。在一個(gè)實(shí)施例中,客戶(hù)端裝置102可適于執(zhí)行客戶(hù)端中間件110、客戶(hù)端瀏覽器 112和/或客戶(hù)端側(cè)應(yīng)用組件114的一個(gè)或多個(gè)實(shí)例。如這里所使用的,術(shù)語(yǔ)“中間件”表 示在不同實(shí)體(例如,客戶(hù)端、服務(wù)器或其它處理實(shí)體)上運(yùn)行的軟件組件和/或應(yīng)用之間 提供接口的計(jì)算機(jī)軟件。在一個(gè)實(shí)施例中,客戶(hù)端中間件110適于跨網(wǎng)絡(luò)108在客戶(hù)端瀏 覽器112和/或客戶(hù)端側(cè)應(yīng)用組件114和一個(gè)或多個(gè)服務(wù)器(例如,應(yīng)用服務(wù)器104和語(yǔ) 音服務(wù)器106)之間提供接口。客戶(hù)端瀏覽器112適于結(jié)合客戶(hù)端側(cè)應(yīng)用組件114 一起訪問(wèn)客戶(hù)端裝置102上的 機(jī)器代碼(例如,多模式頁(yè)面115),并且進(jìn)一步對(duì)機(jī)器代碼進(jìn)行解釋。在特定實(shí)施例中,客 戶(hù)端瀏覽器112適于訪問(wèn)至少一個(gè)多模式頁(yè)面115,并且對(duì)多模式頁(yè)面115中的機(jī)器代碼 (例如,標(biāo)記、腳本和其它信息)進(jìn)行解釋。如這里所使用的,術(shù)語(yǔ)“多模式頁(yè)面”是指表示 在客戶(hù)端裝置102上視覺(jué)表現(xiàn)并且用戶(hù)可以通過(guò)任意的多種模式(例如,語(yǔ)音模式和視覺(jué) 模式)對(duì)其輸入信息和/或指示選擇的至少一個(gè)用戶(hù)交互顯示元素的信息集合。例如,多 模式頁(yè)面115可以包括網(wǎng)頁(yè)、文檔、文件、表單、列表或者其它類(lèi)型的信息集合,但是并不局 限于此。當(dāng)被解釋時(shí),多模式頁(yè)面115可以使得客戶(hù)端裝置呈現(xiàn)一個(gè)或多個(gè)用戶(hù)交互顯示 元素。如這里所使用的,除其它之外,“用戶(hù)交互顯示元素”例如可以包括文本輸入?yún)^(qū)域、可 選擇元素(例如,按鈕或復(fù)選框)和/或交互式文本,但并不局限于此。例如,連同一個(gè)或 多個(gè)用戶(hù)交互顯示元素一起,多模式頁(yè)面還可以包括其它信息和/或元素,諸如文本信息、 圖像(例如,靜態(tài)或動(dòng)畫(huà)圖像)、音頻信息、視頻、超級(jí)鏈接、元數(shù)據(jù)和腳本。在一個(gè)實(shí)施例中,多模式頁(yè)面115包括標(biāo)記,其使得客戶(hù)端瀏覽器112和/或客 戶(hù)端側(cè)應(yīng)用組件114(或其它句法分析軟件)執(zhí)行一個(gè)或多個(gè)嵌入或引用腳本(例如, JavaScript代碼)。腳本可以嵌入在多模式頁(yè)面115內(nèi),或者腳本可以在多模式頁(yè)面115 內(nèi)進(jìn)行引用,并且客戶(hù)端瀏覽器112和/或客戶(hù)端側(cè)應(yīng)用組件114可以從外部源(例如,服 務(wù)器)或者從本地存儲(chǔ)器(例如,從客戶(hù)端裝置102上的高速緩存)訪問(wèn)腳本。在可選實(shí) 施例中,腳本可以在客戶(hù)端側(cè)應(yīng)用組件114而不是多模式頁(yè)面115內(nèi)嵌入或引用。在一個(gè) 實(shí)施例中,如后續(xù)將結(jié)合圖2-6詳細(xì)描述的,腳本可適于使得客戶(hù)端裝置102為了各種原因 向應(yīng)用服務(wù)器104發(fā)送異步請(qǐng)求。在以下描述中,在許多情況下,當(dāng)客戶(hù)端裝置102被認(rèn)為 向應(yīng)用服務(wù)器104發(fā)送控制消息時(shí),這可以被解釋為客戶(hù)端裝置102向應(yīng)用服務(wù)器104發(fā) 出異步請(qǐng)求。類(lèi)似地,當(dāng)應(yīng)用服務(wù)器104被認(rèn)為向客戶(hù)端裝置102發(fā)送控制消息時(shí),這可以 被解釋為應(yīng)用服務(wù)器104向客戶(hù)端裝置102之前所發(fā)送的異步請(qǐng)求發(fā)出響應(yīng)。在一個(gè)實(shí)施 例中,異步請(qǐng)求作為異步超文本傳輸協(xié)議(HTTP)請(qǐng)求被發(fā)出,并且響應(yīng)為HTTP響應(yīng)。在一個(gè)實(shí)施例中,可以使用AJAX (異步JavaScript和可擴(kuò)展標(biāo)記語(yǔ)言(XML))技 術(shù)來(lái)開(kāi)發(fā)客戶(hù)端側(cè)應(yīng)用組件114和/或多模式頁(yè)面115,并且由此其可包括適于發(fā)出異步請(qǐng)求(例如,異步HTTP請(qǐng)求)并且處理針對(duì)那些請(qǐng)求的響應(yīng)(例如,HTTP響應(yīng))的XML標(biāo)記 和JavaScript。在其它實(shí)施例中,可以使用其它類(lèi)型的編程、腳本和/或標(biāo)記語(yǔ)言來(lái)開(kāi)發(fā)客 戶(hù)端側(cè)應(yīng)用組件114和/或多模式頁(yè)面115。如這里所使用的,術(shù)語(yǔ)“標(biāo)記語(yǔ)言”表示對(duì)可嵌入在信息集合(例如,多模式頁(yè)面 115或其它機(jī)器代碼)內(nèi)的信息(例如,標(biāo)記或其它機(jī)器代碼)所定義的句法規(guī)則的集合, 并且除其它之外,其在元素呈現(xiàn)在電子裝置上時(shí)向句法分析軟件(例如,客戶(hù)端瀏覽器112 和/或客戶(hù)端側(cè)應(yīng)用組件114)指示顯示元素的結(jié)構(gòu)、布局和/或其它特征(例如,文本或 其它內(nèi)容)。例如,與標(biāo)記語(yǔ)言相關(guān)聯(lián)的標(biāo)記可以包括表示標(biāo)記、過(guò)程標(biāo)記和/或描述標(biāo)記 (也稱(chēng)作“語(yǔ)義”標(biāo)記),但并不局限于此??梢栽诟鱾€(gè)實(shí)施例中使用的標(biāo)記語(yǔ)言包括SGML、 XML、HTML、XHTML、DHTML、VoiceXML、SALT、SVG以及各種其它標(biāo)記語(yǔ)言,但并不局限于此??蛻?hù)端瀏覽器112包括軟件程序,其適于執(zhí)行多模式頁(yè)面(例如,多模式頁(yè)面115) 內(nèi)的機(jī)器代碼(例如,標(biāo)記)的句法分析和/或以使得客戶(hù)端裝置102能夠呈現(xiàn)文本、圖像、 視頻、音樂(lè)和/或在機(jī)器代碼和/或客戶(hù)端側(cè)應(yīng)用組件114內(nèi)表示或引用的其它信息的方 式與客戶(hù)端側(cè)應(yīng)用組件114進(jìn)行交互。在各個(gè)實(shí)施例中,客戶(hù)端瀏覽器112可以包括HTML/ XHTML瀏覽器、無(wú)線應(yīng)用協(xié)議(WAP)瀏覽器、定制應(yīng)用和/或可商業(yè)獲得的瀏覽器(給出幾 個(gè)不例,例如,Internet ExpIorer、Mozilia Firefox、Safari、Opera 和 Netscape),但并不 局限于此。在特定實(shí)施例中,客戶(hù)端瀏覽器112為XHTML瀏覽器,其支持JavaScript執(zhí)行 和HTTP網(wǎng)絡(luò)通信,并且其還具有音頻處理能力??蛻?hù)端瀏覽器112是“允許多模式的”,在 一個(gè)實(shí)施例中,這表示客戶(hù)端瀏覽器112適于解釋與多模式應(yīng)用相關(guān)聯(lián)的機(jī)器代碼??蛻?hù)端側(cè)應(yīng)用組件114包括計(jì)算機(jī)軟件應(yīng)用。在一個(gè)實(shí)施例中,客戶(hù)端側(cè)應(yīng)用組 件以瀏覽器支持的語(yǔ)言(例如,SGML、XML、HTML、XHTML、DHTML或其它標(biāo)記語(yǔ)言)進(jìn)行編碼 并且依賴(lài)于客戶(hù)端瀏覽器112而使得應(yīng)用組件可以執(zhí)行。在其它實(shí)施例中,客戶(hù)端側(cè)應(yīng)用 組件114可以不依賴(lài)于客戶(hù)端瀏覽器112而使得應(yīng)用組件可以執(zhí)行??梢蚤_(kāi)發(fā)多種不同類(lèi) 型的客戶(hù)端側(cè)應(yīng)用組件114,給出幾個(gè)示例,例如包括與地圖應(yīng)用、導(dǎo)航應(yīng)用和搜索應(yīng)用相 關(guān)聯(lián)的應(yīng)用組件??蛻?hù)端裝置102可以通過(guò)一個(gè)或多個(gè)網(wǎng)絡(luò)108與應(yīng)用服務(wù)器104和語(yǔ)音服務(wù)器 106進(jìn)行通信。例如,網(wǎng)絡(luò)108可以包括分組交換網(wǎng)絡(luò)和/或電路交換網(wǎng)絡(luò),并且更具體地, 可以包括互聯(lián)網(wǎng)、個(gè)人局域網(wǎng)(PAN)、局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、寬帶LAN(WLAN)、蜂窩電 話網(wǎng)絡(luò)、無(wú)線電網(wǎng)絡(luò)、衛(wèi)星通信網(wǎng)絡(luò)、公共交換電話網(wǎng)(PSTN)中的一個(gè)或多個(gè)和/或任意的 適于使得能夠在各個(gè)系統(tǒng)實(shí)體之間進(jìn)行信息交換的各種其它類(lèi)型的網(wǎng)絡(luò)。網(wǎng)絡(luò)108可適于 使用任意的各種有線或無(wú)線通信協(xié)議在系統(tǒng)實(shí)體之間交換信息。應(yīng)用服務(wù)器104 (AS)適于執(zhí)行用于客戶(hù)端裝置102的各種服務(wù)。在一個(gè)實(shí)施例中, 如以下將更為詳細(xì)地描述的,應(yīng)用服務(wù)器104適于執(zhí)行AS中間件116和AS服務(wù)118的一 個(gè)或多個(gè)實(shí)例。在一個(gè)實(shí)施例中,AS中間件116適于為分別在服務(wù)器至服務(wù)器連接140和 網(wǎng)絡(luò)108兩端的語(yǔ)音服務(wù)器106和客戶(hù)端裝置102提供接口。在一個(gè)實(shí)施例中,AS服務(wù)118包括會(huì)話通信建立軟件,其適于連同多模式應(yīng)用會(huì) 話一起發(fā)起客戶(hù)端裝置102、應(yīng)用服務(wù)器104和語(yǔ)音服務(wù)器106之間的各種數(shù)據(jù)和控制路徑 120、122、124的建立。例如,與多模式應(yīng)用會(huì)話相關(guān)聯(lián)的數(shù)據(jù)和控制路徑可包括AS/客戶(hù)端 控制路徑120、AS/VS控制路徑122和VS/客戶(hù)端音頻數(shù)據(jù)路徑124。在一個(gè)實(shí)施例中,客戶(hù)端裝置102和應(yīng)用服務(wù)器104可以經(jīng)由AS/客戶(hù)端控制路徑120交換信息,并且客戶(hù)端裝置 102和語(yǔ)音服務(wù)器106可以經(jīng)由VS/客戶(hù)端音頻數(shù)據(jù)路徑124交換信息,其中AS/客戶(hù)端控 制路徑120和VS/客戶(hù)端音頻數(shù)據(jù)路徑124的至少一部分建立在一個(gè)或多個(gè)網(wǎng)絡(luò)108上。 應(yīng)用服務(wù)器104和語(yǔ)音服務(wù)器106可以經(jīng)由AS/VS控制路徑122交換信息,AS/VS控制路 徑122的至少一部分建立在服務(wù)器至服務(wù)器連接140上,服務(wù)器至服務(wù)器連接140可以包 括直接、硬線鏈路,或者其可以通過(guò)一個(gè)或多個(gè)有線或無(wú)線網(wǎng)絡(luò)或者其它媒介實(shí)體來(lái)實(shí)現(xiàn)。在一個(gè)實(shí)施例中,在客戶(hù)端裝置102和應(yīng)用服務(wù)器104之間連同多模式應(yīng)用會(huì)話 一起交換的控制消息使用適用于網(wǎng)絡(luò)108的通信協(xié)議在網(wǎng)絡(luò)108上交換。因此,網(wǎng)絡(luò)108作 為客戶(hù)端裝置102和應(yīng)用服務(wù)器104之間的控制路徑。該控制路徑在這里被一致稱(chēng)作AS/ 客戶(hù)端控制路徑120,即使所定義的路由路徑可以并非通過(guò)網(wǎng)絡(luò)108專(zhuān)用于會(huì)話,并且在客 戶(hù)端裝置102和應(yīng)用服務(wù)器104之間交換的每個(gè)消息通過(guò)網(wǎng)絡(luò)108的物理路由可以隨消息 而有所不同。因此,如這里所使用的,“AS/客戶(hù)端控制路徑”可以被定義為表示消息可以沿 其在與客戶(hù)端裝置102相關(guān)聯(lián)的IP地址和/或端口和與應(yīng)用服務(wù)器104相關(guān)聯(lián)的IP地址 和/或端口之間進(jìn)行交換的任意一條或多條通過(guò)網(wǎng)絡(luò)108 (或者其它一些通信介質(zhì))的路 徑。類(lèi)似地,“AS/VS控制路徑”可被定義為表示與應(yīng)用服務(wù)器104相關(guān)聯(lián)的IP地址和/或 端口和與語(yǔ)音服務(wù)器106相關(guān)聯(lián)的IP地址和/或端口之間的任意一條或多條路徑(其可 以橫貫網(wǎng)絡(luò)或者不橫貫網(wǎng)絡(luò))。此外,“VS/客戶(hù)端音頻數(shù)據(jù)路徑”可被定義為表示音頻數(shù) 據(jù)可以沿其在與語(yǔ)音服務(wù)器106相關(guān)聯(lián)的IP地址和/或端口和與客戶(hù)端裝置102相關(guān)聯(lián) 的IP地址和/或端口之間進(jìn)行交換的任意一條或多條通過(guò)網(wǎng)絡(luò)108 (或者其它一些通信介 質(zhì))的路徑。在一個(gè)實(shí)施例中,AS/客戶(hù)端控制路徑120和VS/客戶(hù)端音頻數(shù)據(jù)路徑124彼 此不同,原因在于在會(huì)話期間為AS/客戶(hù)端控制路徑120分配的客戶(hù)端IP地址和/或端口 不同于在會(huì)話期間為VS/客戶(hù)端音頻數(shù)據(jù)路徑124分配的客戶(hù)端IP地址和/或端口。此 外,為AS/客戶(hù)端控制路徑120分配的應(yīng)用服務(wù)器IP地址和/或端口不同于為VS/客戶(hù)端 音頻數(shù)據(jù)路徑124分配的語(yǔ)音服務(wù)器IP地址和/或端口,這種情況是由于應(yīng)用服務(wù)器104 和語(yǔ)音服務(wù)器106彼此不同。如之前所提到的,與客戶(hù)端裝置102所呈現(xiàn)的多模式頁(yè)面和/或在客戶(hù)端裝置102 上執(zhí)行的客戶(hù)端側(cè)應(yīng)用組件相關(guān)聯(lián)的機(jī)器代碼適于發(fā)出異步請(qǐng)求(例如,異步HTTP請(qǐng)求), 異步請(qǐng)求由應(yīng)用服務(wù)器104通過(guò)AS/客戶(hù)端控制路徑120接收。AS服務(wù)118適于依據(jù)請(qǐng)求 執(zhí)行處理和/或其它任務(wù),并且適當(dāng)通過(guò)AS/客戶(hù)端控制路徑向客戶(hù)端裝置102返回響應(yīng) (例如,HTTP響應(yīng))。此外,通過(guò)經(jīng)由AS/客戶(hù)端控制路徑120和AS/VS控制路徑122傳輸 的控制消息,AS服務(wù)118適于對(duì)客戶(hù)端裝置102上所保存的視覺(jué)視圖的狀態(tài)和語(yǔ)音服務(wù)器 106上所保存的語(yǔ)音視圖的狀態(tài)之間的同步進(jìn)行控制。本質(zhì)上,視覺(jué)視圖和語(yǔ)音視圖的同步 包括向客戶(hù)端裝置102和語(yǔ)音服務(wù)器106提供信息,信息使得客戶(hù)端裝置102上的機(jī)器代 碼的解釋能夠與語(yǔ)音服務(wù)器106上相應(yīng)話音對(duì)話136的機(jī)器代碼的解釋相同步。從另一方 面來(lái)說(shuō),視覺(jué)視圖和語(yǔ)音視圖的同步包括向客戶(hù)端裝置102和語(yǔ)音服務(wù)器106提供信息,信 息使得客戶(hù)端裝置102上的視覺(jué)視圖的執(zhí)行狀態(tài)能夠與語(yǔ)音服務(wù)器106上的語(yǔ)音視圖的執(zhí) 行狀態(tài)相同步。以下將更為詳細(xì)地描述用于執(zhí)行這種同步的方法。語(yǔ)音服務(wù)器106是模式服務(wù)器,其尤其適于連同分布式多模式應(yīng)用會(huì)話一起執(zhí)行 話音處理相關(guān)的任務(wù)。如之前所提到的,在其它實(shí)施例中,可以將其它類(lèi)型的模式服務(wù)器集成到系統(tǒng)中。語(yǔ)音服務(wù)器106適于執(zhí)行VS中間件130、VS瀏覽器/對(duì)話解釋器132 (以下 稱(chēng)作VS瀏覽器132)和話音識(shí)別器134的一個(gè)或多個(gè)實(shí)例。由于其形成分布式應(yīng)用的服務(wù) 器側(cè)的部分,所以話音識(shí)別器134可被認(rèn)為是VS側(cè)的應(yīng)用組件。在其它實(shí)施例中,可以實(shí) 現(xiàn)其它類(lèi)型的VS側(cè)應(yīng)用組件。VS中間件130適于為分別在服務(wù)器至服務(wù)器連接140和/或網(wǎng)絡(luò)108兩端的VS瀏 覽器132和其它服務(wù)器(例如,應(yīng)用服務(wù)器104)和/或客戶(hù)端裝置102之間提供接口。VS 瀏覽器132是使得語(yǔ)音服務(wù)器106能夠在多模式應(yīng)用會(huì)話的背景下訪問(wèn)并解釋話音對(duì)話(例 如,話音對(duì)話136)、連同解釋話音對(duì)話一起發(fā)送和接收音頻數(shù)據(jù),發(fā)出異步請(qǐng)求(例如,異步 HTTP請(qǐng)求),以及接收并處理響應(yīng)(例如,HTTP響應(yīng))的軟件程序。在各個(gè)實(shí)施例中,VS瀏 覽器106可以包括定制或可商業(yè)獲得的瀏覽器或者適于解釋與語(yǔ)音模式提供相關(guān)聯(lián)的標(biāo)記 的其它應(yīng)用程序(例如,VoiceXML, SALT和/或各種其它標(biāo)記語(yǔ)言),但并不局限于此。如剛才所提到的,VS瀏覽器132可以訪問(wèn)和解釋話音對(duì)話136。如這里所使用的, “話音對(duì)話”可被解釋為表示與可能的話音識(shí)別結(jié)果和/或音頻提示的集合相關(guān)聯(lián)的信息集 合。根據(jù)各個(gè)實(shí)施例,話音對(duì)話可包括適于在一個(gè)或多個(gè)階段收集和/或提供音頻數(shù)據(jù)的 機(jī)器代碼。例如,話音對(duì)話可以包括網(wǎng)頁(yè)、文檔、文件、列表或者其它類(lèi)型的信息集合,但是 并不局限于此。例如,話音對(duì)話還可以包括其它信息和/或元素,諸如文本信息、元數(shù)據(jù)、機(jī) 器代碼和腳本。雖然以下所描述的實(shí)施例包括由語(yǔ)音服務(wù)器106所訪問(wèn)(例如,下載)的 話音對(duì)話,但是所要理解的是,在其它實(shí)施例中,話音對(duì)話可以被實(shí)現(xiàn)為存在于語(yǔ)音服務(wù)器 106上的機(jī)器代碼,并且其并不需要被下載或訪問(wèn)。在一個(gè)實(shí)施例中,話音對(duì)話136包括機(jī)器代碼,其中機(jī)器代碼可以包括語(yǔ)音服務(wù) 器106可以容易地解釋的編譯代碼、標(biāo)記和/或其它信息。在一個(gè)實(shí)施例中,話音對(duì)話136 可以包括標(biāo)記,其使得VS瀏覽器132訪問(wèn)和/或執(zhí)行一個(gè)或多個(gè)嵌入或引用的腳本(例 如,JavaScript代碼)。腳本可嵌入在話音對(duì)話136之內(nèi),或者VS瀏覽器132可以訪問(wèn)來(lái) 自外部源(例如,服務(wù)器)或來(lái)自本地存儲(chǔ)器(例如,來(lái)自語(yǔ)音服務(wù)器106上的高速緩存) 的腳本。除其它之外,腳本可以包括適于調(diào)用話音識(shí)別器134以試圖基于所接收的音頻數(shù) 據(jù)確定話音識(shí)別結(jié)果,恢復(fù)或生成音頻提示和/或發(fā)出異步請(qǐng)求(例如,對(duì)于話音對(duì)話的異 步HTTP請(qǐng)求或其它類(lèi)型的請(qǐng)求)的腳本。在一個(gè)實(shí)施例中,話音對(duì)話136可以使用AJAX 技術(shù)進(jìn)行開(kāi)發(fā),并且由此可以包括適于發(fā)出異步請(qǐng)求的標(biāo)記(例如,VoiceXML和/或SALT 標(biāo)記)和JavaScript。在其它實(shí)施例中,話音識(shí)別136可以使用其它類(lèi)型的編程語(yǔ)言、腳本 語(yǔ)言和/或標(biāo)記語(yǔ)言進(jìn)行開(kāi)發(fā)。話音識(shí)別器134是可以被VS瀏覽器132所調(diào)用的軟件應(yīng)用程序,并且其適于接收 音頻數(shù)據(jù)(例如,以壓縮、未壓縮、編碼、未編碼或解碼格式),使用音頻數(shù)據(jù)執(zhí)行話音識(shí)別 算法以便試圖確定話音識(shí)別結(jié)果(例如,所識(shí)別話音的指示),并且返回話音識(shí)別結(jié)果或者 指示沒(méi)有確定結(jié)果。如這里所使用的,術(shù)語(yǔ)“音頻數(shù)據(jù)”表示話音或其它可聽(tīng)聲音的數(shù)字化 表示(通常為“音頻”),其中數(shù)字化音頻表示可以包括壓縮、未壓縮、編碼、未編碼和/或解 碼格式的所采樣話音或其它可聽(tīng)聲音。音頻數(shù)據(jù)還可以包括到表格或包括音頻數(shù)據(jù)的其它 數(shù)據(jù)結(jié)構(gòu)之中的指針,其中表格可以被應(yīng)用服務(wù)器102、語(yǔ)音服務(wù)器106和/或客戶(hù)端裝置 102所訪問(wèn)。話音識(shí)別器134可以連同一個(gè)或多個(gè)話音庫(kù)138或者其它話音識(shí)別資源(例 如,語(yǔ)法、n-gram序列、統(tǒng)計(jì)語(yǔ)言模型或其它話音識(shí)別資源)一起執(zhí)行,其中話音識(shí)別資源可以基于所解釋的特定話音對(duì)話136而被訪問(wèn)。在一個(gè)實(shí)施例中,語(yǔ)音服務(wù)器106經(jīng)由AS/VS控制路徑122與應(yīng)用服務(wù)器104進(jìn) 行通信。此外,語(yǔ)音服務(wù)器106和客戶(hù)端裝置102可以經(jīng)由VS/客戶(hù)端音頻數(shù)據(jù)路徑124 直接交換音頻數(shù)據(jù)。在一個(gè)實(shí)施例中,可以使用分組_數(shù)據(jù)通信協(xié)議通過(guò)VS/客戶(hù)端音頻 數(shù)據(jù)路徑流傳輸音頻數(shù)據(jù)。可替換地,可以使用電路交換或一鍵對(duì)講(push-to-talk,PTT) 通信方法通過(guò)VS/客戶(hù)端音頻數(shù)據(jù)路徑124交換音頻數(shù)據(jù)。雖然可以在其它實(shí)施例中實(shí)現(xiàn) 其它協(xié)議(例如,傳輸控制協(xié)議(TCP)等),但是在一個(gè)實(shí)施例中,使用一種版本的實(shí)時(shí)傳輸 協(xié)議/實(shí)時(shí)傳輸控制協(xié)議(RTP/RTCP)通過(guò)VS/客戶(hù)端音頻數(shù)據(jù)路徑124傳送音頻數(shù)據(jù)。應(yīng)用服務(wù)器104和語(yǔ)音服務(wù)器106彼此不同,不同在于應(yīng)用服務(wù)器104和語(yǔ)音服 務(wù)器106執(zhí)行不同處理,并且通過(guò)AS/VS控制路徑122交換影響那些處理的性能的控制消 息。此外,客戶(hù)端裝置102和應(yīng)用服務(wù)器104之間的AS/客戶(hù)端控制路徑120不同于客戶(hù) 端裝置102和語(yǔ)音服務(wù)器106之間的VS/客戶(hù)端音頻數(shù)據(jù)路徑124,不同至少在于客戶(hù)端裝 置使用不同地址(例如,不同的IP地址)對(duì)應(yīng)用服務(wù)器104和語(yǔ)音服務(wù)器106進(jìn)行尋址。 此外,客戶(hù)端裝置102可以使用與用來(lái)和語(yǔ)音服務(wù)器106交換音頻數(shù)據(jù)的通信協(xié)議不同的 通信協(xié)議來(lái)和應(yīng)用服務(wù)器104交換控制消息。在一個(gè)實(shí)施例中,應(yīng)用服務(wù)器104和語(yǔ)音服 務(wù)器106可以在物理上不同的硬件上實(shí)現(xiàn),硬件可以共同設(shè)置或者不共同設(shè)置。在另一實(shí) 施例中,如以下詳細(xì)描述的,雖然仍然通過(guò)AS/VS控制路徑122在兩個(gè)服務(wù)器之間交換各種 控制消息,但是應(yīng)用服務(wù)器104和語(yǔ)音服務(wù)器106可以在至少部分共享的硬件上實(shí)現(xiàn)。如之前所提到的,本發(fā)明主題的實(shí)施例適于對(duì)與分布式多模式應(yīng)用會(huì)話相關(guān)聯(lián)的 視覺(jué)視圖和語(yǔ)音視圖進(jìn)行同步。“視覺(jué)視圖”的狀態(tài)由客戶(hù)端裝置102連同多模式頁(yè)面(例 如,多模式頁(yè)面115)的解釋一起保存,而“語(yǔ)音視圖”的狀態(tài)則由語(yǔ)音服務(wù)器106連同與多 模式頁(yè)面相關(guān)聯(lián)的話音對(duì)話(例如,話音對(duì)話136) —起保存。術(shù)語(yǔ)“視覺(jué)視圖”和“視覺(jué)視 圖狀態(tài)”可以被定義為瀏覽器(例如,客戶(hù)端瀏覽器112)當(dāng)前解釋或者等待解釋的多模式 頁(yè)面內(nèi)所包括或訪問(wèn)的機(jī)器代碼和/或當(dāng)前執(zhí)行的客戶(hù)端側(cè)應(yīng)用組件內(nèi)所包括或訪問(wèn)的 機(jī)器代碼。例如,當(dāng)前的視覺(jué)視圖狀態(tài)可以對(duì)應(yīng)于與視覺(jué)顯示當(dāng)前聚焦于其上的單個(gè)頁(yè)面 元素相關(guān)聯(lián)的機(jī)器代碼,單個(gè)頁(yè)面元素在視覺(jué)顯示上可以作為被標(biāo)以高亮、光標(biāo)在那里閃 爍或者在那里設(shè)置有一些其它焦點(diǎn)指示的頁(yè)面元素來(lái)表示。術(shù)語(yǔ)“語(yǔ)音視圖”和“語(yǔ)音視圖 狀態(tài)”可以被定義為瀏覽器(例如,VS瀏覽器132)當(dāng)前執(zhí)行或者等待執(zhí)行的話音對(duì)話內(nèi)所 包括或訪問(wèn)的機(jī)器代碼。例如,當(dāng)前語(yǔ)音視圖狀態(tài)可以對(duì)應(yīng)于使得語(yǔ)音服務(wù)器等待接收作 為對(duì)呈現(xiàn)在客戶(hù)端裝置102上的顯示元素的輸入的音頻數(shù)據(jù)的機(jī)器代碼?,F(xiàn)在將結(jié)合圖2-6對(duì)用于發(fā)起和進(jìn)行多模式應(yīng)用會(huì)話的方法實(shí)施例進(jìn)行描述。將 在特定類(lèi)型的分布式多模式應(yīng)用的示例的背景下對(duì)這些實(shí)施例進(jìn)行描述,以便促進(jìn)各個(gè)實(shí) 施例的說(shuō)明和理解。示例性應(yīng)用為地圖應(yīng)用,其包括適于使得多模式頁(yè)面內(nèi)所表示的元素 通過(guò)客戶(hù)端瀏覽器的解釋而呈現(xiàn)在客戶(hù)端裝置上的客戶(hù)端側(cè)應(yīng)用組件??蛻?hù)端側(cè)應(yīng)用組件 (例如,地圖應(yīng)用程序)和客戶(hù)端瀏覽器是“允許多模式的”,其意味著它們均適于支持使用 多種模式來(lái)識(shí)別和/或提供用戶(hù)交互的用戶(hù)界面,并且客戶(hù)端瀏覽器尤其適于在分布式應(yīng) 用會(huì)話的支持下與一個(gè)或多個(gè)遠(yuǎn)程服務(wù)器交換消息并理解消息。在可選實(shí)施例中,客戶(hù)端 瀏覽器可以適于解釋多模式頁(yè)面而無(wú)需來(lái)自客戶(hù)端側(cè)應(yīng)用組件的發(fā)起(例如,當(dāng)用戶(hù)直接 發(fā)起客戶(hù)端瀏覽器的實(shí)例并且使得客戶(hù)端瀏覽器下載并解釋多模式頁(yè)面時(shí))。在再一個(gè)可
14選實(shí)施例中,客戶(hù)端側(cè)應(yīng)用組件可以執(zhí)行一些或所有客戶(hù)端瀏覽器任務(wù),并且/或者客戶(hù) 端側(cè)應(yīng)用組件可以包括一些或所有本將包括在多模式頁(yè)面內(nèi)的機(jī)器代碼。因此,可以利用 或者無(wú)需多模式頁(yè)面來(lái)執(zhí)行實(shí)施例。雖然其將被理解為落入本發(fā)明主題的范圍之內(nèi),但是 將不在此對(duì)這些實(shí)施例進(jìn)行詳細(xì)討論。該實(shí)例將包括以數(shù)據(jù)輸入表單的形式顯示多模式頁(yè)面的客戶(hù)端裝置,其中數(shù)據(jù)輸 入表單包括多個(gè)可填充的數(shù)據(jù)輸入?yún)^(qū)域(例如,城市、州、街道號(hào)碼、街道地址),用戶(hù)可以 使用視覺(jué)模式或語(yǔ)音模式中的任一種或其二者向其中輸入目標(biāo)位置的地址信息。一旦提交 了所輸入的信息,系統(tǒng)就可以提供地圖信息,地圖信息使得客戶(hù)端裝置能夠顯示包括目標(biāo) 位置的地圖。所要理解的是,也可以連同其它類(lèi)型的分布式多模式應(yīng)用(除其它之外,例如 搜索和導(dǎo)航應(yīng)用)一起使用該實(shí)施例。在所給出的示例中,多種模式包括視覺(jué)模式和語(yǔ)音模式。在客戶(hù)端裝置上,視覺(jué)模 式可以使用顯示屏以及用于生成視覺(jué)顯示的相關(guān)聯(lián)的硬件和軟件來(lái)實(shí)現(xiàn)。視覺(jué)模式也可以 使用鍵盤(pán)和/或一個(gè)或多個(gè)其它用戶(hù)界面輸入裝置在客戶(hù)端裝置上實(shí)現(xiàn),用戶(hù)界面輸入裝 置使得用戶(hù)能夠通過(guò)與視覺(jué)顯示和/或其它用戶(hù)界面數(shù)據(jù)裝置的交互進(jìn)行選擇、輸入信息 和/或采取其它動(dòng)作(例如,改變焦點(diǎn))。語(yǔ)音模式可以使用麥克風(fēng)、揚(yáng)聲器以及適于接收 人類(lèi)話音并對(duì)其進(jìn)行數(shù)字化和/或輸出音頻信息的相關(guān)聯(lián)的硬件和軟件來(lái)實(shí)現(xiàn)。在所給出的示例中,用戶(hù)可以通過(guò)觀看視覺(jué)顯示并且使用鍵盤(pán)或其它輸入裝置向 視覺(jué)顯示的區(qū)域輸入信息(或者進(jìn)行選擇)來(lái)與用戶(hù)界面的視覺(jué)模式(例如,視覺(jué)顯示) 進(jìn)行交互。此外,用戶(hù)可以通過(guò)收聽(tīng)音頻提示和/或講話與用戶(hù)界面的語(yǔ)音模式進(jìn)行交互, 以便提供與其上設(shè)置有視覺(jué)顯示焦點(diǎn)的頁(yè)面元素相關(guān)聯(lián)的信息。所要理解的是,在可選實(shí) 施例中,分布式多模式應(yīng)用可適于允許多于視覺(jué)模式和語(yǔ)音模式的模式集合。將在以下描述的圖2圖示了依據(jù)實(shí)施例的用于發(fā)起和進(jìn)行多模式應(yīng)用會(huì)話的整 體處理。圖2并非意在對(duì)發(fā)明主題的范圍進(jìn)行限制,而是要提供用于理解結(jié)合圖3、5和6 圖示和描述的更為詳細(xì)的處理描述的整體背景。圖2是依據(jù)示例性實(shí)施例的用于發(fā)起和進(jìn)行多模式應(yīng)用會(huì)話的方法的流程圖。該 方法在框202開(kāi)始,其中客戶(hù)端裝置接收到應(yīng)當(dāng)發(fā)起多模式應(yīng)用會(huì)話的指示。在各個(gè)實(shí)施 例中,多模式應(yīng)用會(huì)話可以由客戶(hù)端側(cè)應(yīng)用組件(例如,地圖應(yīng)用的客戶(hù)端側(cè)的部分)和/ 或客戶(hù)端瀏覽器的實(shí)例所發(fā)起。例如,客戶(hù)端裝置的用戶(hù)可以發(fā)起適于由其自身或者連同 客戶(hù)端瀏覽器一起呈現(xiàn)視覺(jué)顯示的客戶(hù)端側(cè)應(yīng)用組件的實(shí)例,視覺(jué)顯示包括至少一個(gè)可以 使用視覺(jué)模式或語(yǔ)音模式對(duì)其輸入數(shù)據(jù)的顯示元素。可替換地,用戶(hù)可以發(fā)起客戶(hù)端瀏覽 器的實(shí)例,并且可以向客戶(hù)端瀏覽器指示用戶(hù)希望瀏覽器訪問(wèn)或下載多模式頁(yè)面,當(dāng)被解 釋時(shí),多模式頁(yè)面使得客戶(hù)端裝置呈現(xiàn)視覺(jué)顯示。例如,用戶(hù)可以提供用戶(hù)輸入以導(dǎo)航到多 模式頁(yè)面。一旦客戶(hù)端裝置接收到應(yīng)當(dāng)發(fā)起多模式應(yīng)用會(huì)話的指示,如以下將結(jié)合圖3更為 詳細(xì)地描述的,通過(guò)客戶(hù)端裝置、應(yīng)用服務(wù)器和會(huì)話服務(wù)器之間的交互在框204發(fā)起多模 式應(yīng)用會(huì)話。發(fā)起多模式應(yīng)用會(huì)話包括在客戶(hù)端裝置和語(yǔ)音服務(wù)器之間建立音頻數(shù)據(jù)路 徑(例如,VS/客戶(hù)端音頻數(shù)據(jù)路徑124,圖1),將通過(guò)其在多模式應(yīng)用會(huì)話期間交換音頻 數(shù)據(jù)。此外,在實(shí)施例中,發(fā)起多模式應(yīng)用會(huì)話包括通過(guò)客戶(hù)端裝置和應(yīng)用服務(wù)器之間的第 一控制路徑(例如,AS/客戶(hù)端控制路徑120,圖1)在客戶(hù)端裝置和應(yīng)用服務(wù)器之間交換信息,并且通過(guò)應(yīng)用服務(wù)器和語(yǔ)音服務(wù)器之間的第二控制路徑(例如,AS/VS控制路徑122,圖 1)在應(yīng)用服務(wù)器和語(yǔ)音服務(wù)器之間交換信息。如將要結(jié)合圖5和6更為詳細(xì)地描述的,在多模式應(yīng)用會(huì)話期間,將通過(guò)音頻數(shù)據(jù) 路徑在客戶(hù)端裝置和語(yǔ)音服務(wù)器之間交換音頻數(shù)據(jù),并且將通過(guò)第一和第二控制路徑在客 戶(hù)端裝置、應(yīng)用服務(wù)器和語(yǔ)音服務(wù)器之間交換控制信息。控制信息使得視覺(jué)視圖和語(yǔ)音視 圖的狀態(tài)時(shí)間的同步能夠在整個(gè)會(huì)話期間始終得以保持。響應(yīng)于語(yǔ)音服務(wù)器和客戶(hù)端裝置所生成的事件在各個(gè)系統(tǒng)實(shí)體之間交換音頻數(shù) 據(jù)和控制信息,事件被分別稱(chēng)作“VS所生成的事件”和“客戶(hù)端所生成的事件”。VS所生成 的事件和客戶(hù)端所生成的事件可以影響語(yǔ)音視圖和/或視覺(jué)視圖的狀態(tài)。VS所生成的事件 和客戶(hù)端所生成的事件可以在進(jìn)行多模式應(yīng)用會(huì)話的任意時(shí)刻發(fā)生。如將要結(jié)合圖5更為 詳細(xì)地描述的,當(dāng)發(fā)生VS所生成的事件時(shí),在框206執(zhí)行VS所生成的事件的操作處理。此 外,如將要結(jié)合圖6更為詳細(xì)地描述的,當(dāng)發(fā)生客戶(hù)端所生成的事件時(shí),在框208執(zhí)行客戶(hù) 端所生成的事件的操作處理。雖然框206和208被圖示為順序發(fā)生,但是這些處理也可以 并行或者以相反順序發(fā)生,并且任一個(gè)或者兩個(gè)處理可以在進(jìn)行多模式應(yīng)用會(huì)話時(shí)多次發(fā) 生。如圖2所示,直至如框210所描繪的多模式應(yīng)用處理終止,對(duì)VS所生成的事件和客戶(hù) 端所生成的事件進(jìn)行操作的處理都持續(xù)執(zhí)行。圖3是依據(jù)示例性實(shí)施例的用于執(zhí)行多模式應(yīng)用會(huì)話發(fā)起的方法(例如,處理 204,圖2)的流程圖。如之前結(jié)合圖2的處理202所描述的,在一個(gè)實(shí)施例中,可以在客戶(hù) 端裝置接收到應(yīng)當(dāng)發(fā)起多模式應(yīng)用會(huì)話的指示時(shí)發(fā)起多模式應(yīng)用會(huì)話。例如,當(dāng)用戶(hù)開(kāi)啟 適于解釋或執(zhí)行機(jī)器代碼的客戶(hù)端側(cè)應(yīng)用組件或?yàn)g覽器時(shí)發(fā)起多模式應(yīng)用會(huì)話,機(jī)器代碼 使得客戶(hù)端裝置呈現(xiàn)可以使用視覺(jué)模式、語(yǔ)音模式或其二者對(duì)其輸入數(shù)據(jù)的一個(gè)或多個(gè)顯 示元素。在一個(gè)實(shí)施例中,除其它動(dòng)作之外,可以在用戶(hù)開(kāi)啟適于解釋多模式頁(yè)面的客戶(hù)端 側(cè)應(yīng)用組件或?yàn)g覽器時(shí)和/或用戶(hù)選擇到多模式頁(yè)面的超級(jí)鏈接時(shí)發(fā)起多模式應(yīng)用會(huì)話。在框302中,客戶(hù)端裝置通過(guò)AS/客戶(hù)端控制路徑(例如,AS/客戶(hù)端控制路徑 120,圖1)向應(yīng)用服務(wù)器發(fā)送一條或多條控制消息,控制消息包括客戶(hù)端音頻路徑信息,其 中客戶(hù)端音頻路徑信息指定與客戶(hù)端裝置希望與語(yǔ)音服務(wù)器建立的音頻數(shù)據(jù)路徑(例如, VS/客戶(hù)端數(shù)據(jù)路徑124,圖1)相關(guān)的描述性特征。例如,客戶(hù)端音頻路徑信息可以包括描 述客戶(hù)端側(cè)應(yīng)用組件和/或客戶(hù)端瀏覽器所支持的(多種)音頻格式、(多種)比特率和 /或(多種)音頻類(lèi)型,所需的(多種)音頻編解碼的信息,和/或諸如要用于在多模式應(yīng) 用會(huì)話期間通過(guò)音頻數(shù)據(jù)路徑下載到客戶(hù)端裝置的音頻數(shù)據(jù)(這里稱(chēng)作“下行鏈路音頻數(shù) 據(jù)”)的客戶(hù)端裝置IP地址和端口號(hào)之類(lèi)的客戶(hù)端側(cè)音頻地址信息,但是并不局限于此。在 另一個(gè)實(shí)施例中,在向應(yīng)用服務(wù)器發(fā)送客戶(hù)端音頻路徑信息之前,客戶(hù)端裝置可以通過(guò)AS/ 客戶(hù)端控制路徑向應(yīng)用服務(wù)器發(fā)送應(yīng)用發(fā)起消息。例如,應(yīng)用發(fā)起消息可以包括應(yīng)用標(biāo)識(shí) 符、客戶(hù)端證書(shū)和/或其它信息。在框304中,應(yīng)用服務(wù)器接收客戶(hù)端裝置所發(fā)送的客戶(hù)端音頻路徑信息,并且發(fā) 起客戶(hù)端裝置和語(yǔ)音服務(wù)器之間的音頻數(shù)據(jù)路徑(例如,VS/客戶(hù)端音頻數(shù)據(jù)路徑124,圖 1)的建立。在一個(gè)實(shí)施例中,這包括應(yīng)用服務(wù)器建立與語(yǔ)音服務(wù)器的AS/VS控制路徑(例 如,AS/VS控制路徑122,圖1)。應(yīng)用服務(wù)器接著通過(guò)AS/VS控制路徑向語(yǔ)音服務(wù)器發(fā)送一 條或多條控制消息,控制消息包括一些或所有的客戶(hù)端音頻路徑信息。
在框306中,語(yǔ)音服務(wù)器接收并存儲(chǔ)應(yīng)用服務(wù)器所發(fā)送的客戶(hù)端音頻路徑信息。 語(yǔ)音服務(wù)器接著通過(guò)AS/VS控制路徑向應(yīng)用服務(wù)器發(fā)送一條或多條控制消息,控制消息包 括VS音頻路徑信息。在一個(gè)實(shí)施例中,VS音頻路徑信息指定與VS/客戶(hù)端音頻數(shù)據(jù)路徑 相關(guān)的附加描述性特征。例如,VS音頻路徑信息可以包括語(yǔ)音服務(wù)器所支持的(多種)音 頻格式、(多種)比特率和/或(多種)音頻類(lèi)型,所需的(多種)音頻編解碼,和/或諸 如要用于在多模式應(yīng)用會(huì)話期間通過(guò)VS/客戶(hù)端音頻數(shù)據(jù)路徑上傳到語(yǔ)音服務(wù)器的音頻 數(shù)據(jù)(這里稱(chēng)作“上行鏈路音頻數(shù)據(jù)”)的IP地址和端口號(hào)之類(lèi)的VS側(cè)音頻地址信息,但 是并不局限于此。在框308中,應(yīng)用服務(wù)器接收語(yǔ)音服務(wù)器所發(fā)送的VS音頻路徑信息。應(yīng)用服務(wù)器 接著通過(guò)AS/客戶(hù)端控制路徑向客戶(hù)端裝置發(fā)送一條或多條控制消息,控制消息包括一些 或所有的VS音頻路徑信息。在框310中,客戶(hù)端裝置接收并存儲(chǔ)應(yīng)用服務(wù)器所發(fā)送的VS 音頻路徑信息。在此,客戶(hù)端裝置和語(yǔ)音服務(wù)器均了解應(yīng)當(dāng)彼此發(fā)送音頻數(shù)據(jù)的IP地址和 端口。換句話說(shuō),語(yǔ)音服務(wù)器知道以什么地址發(fā)送下行鏈路音頻數(shù)據(jù),而客戶(hù)端裝置知道以 什么地址發(fā)送上行鏈路音頻數(shù)據(jù)。因此,在此,在語(yǔ)音服務(wù)器和客戶(hù)端裝置之間建立了雙向 的音頻數(shù)據(jù)路徑。在可選實(shí)施例中,可以在語(yǔ)音服務(wù)器和客戶(hù)端裝置之間建立單向音頻數(shù) 據(jù)路徑。例如,可以建立其中僅從客戶(hù)端裝置向語(yǔ)音服務(wù)器發(fā)送上行鏈路音頻數(shù)據(jù)的音頻 數(shù)據(jù)路徑,在這種情況下,并不向語(yǔ)音服務(wù)器提供客戶(hù)端音頻路徑信息。在另一實(shí)施例中, 可以建立一鍵對(duì)講(PTT)信道,其使得客戶(hù)端裝置或語(yǔ)音服務(wù)器能夠在任意給定時(shí)刻通過(guò) VS/客戶(hù)端音頻數(shù)據(jù)路徑發(fā)送音頻數(shù)據(jù)。在框312中,客戶(hù)端裝置通過(guò)AS/客戶(hù)端控制路徑向應(yīng)用服務(wù)器發(fā)送控制消息,控 制消息包括多模式應(yīng)用信息。在一個(gè)實(shí)施例中,多模式應(yīng)用信息包括標(biāo)識(shí)客戶(hù)端裝置所要 準(zhǔn)備執(zhí)行的多模式應(yīng)用的信息。在另一個(gè)實(shí)施例中,多模式應(yīng)用信息包括用于與客戶(hù)端裝 置準(zhǔn)備執(zhí)行的多模式應(yīng)用相關(guān)聯(lián)的至少一個(gè)多模式頁(yè)面(例如,多模式頁(yè)面115,圖1)和/ 或至少一個(gè)話音對(duì)話(例如,話音對(duì)話136,圖1)的引用(例如,統(tǒng)一資源定位符(URL))。在框314中,應(yīng)用服務(wù)器接收多模式應(yīng)用信息。應(yīng)用服務(wù)器接著可以根據(jù)多模式 應(yīng)用信息確定用于至少一個(gè)多模式頁(yè)面以及對(duì)于至少一個(gè)話音對(duì)話的引用(例如,URL)。 在一個(gè)實(shí)施例中,應(yīng)用服務(wù)器接著可以通過(guò)AS/VS控制路徑向語(yǔ)音服務(wù)器發(fā)送用于話音對(duì) 話的引用(例如,(多個(gè))URL)。語(yǔ)音服務(wù)器接著可以下載或訪問(wèn)與(多個(gè))引用相對(duì)應(yīng)的 (多個(gè))話音對(duì)話。在可選實(shí)施例中,應(yīng)用服務(wù)器可以基于(多個(gè))引用取得(多個(gè))話音 對(duì)話,并且可以將(多個(gè))話音對(duì)話通過(guò)AS/VS控制路徑發(fā)送到語(yǔ)音服務(wù)器。此外,應(yīng)用服 務(wù)器可以取得(多個(gè))多模式頁(yè)面并且通過(guò)AS/客戶(hù)端控制路徑將其發(fā)送到客戶(hù)端裝置。在框316中,客戶(hù)端裝置接收多模式頁(yè)面并發(fā)起對(duì)其的解釋?zhuān)⑶以诳蛻?hù)端裝置 上的呈現(xiàn)多模式頁(yè)面內(nèi)所包括的視覺(jué)標(biāo)記。例如,客戶(hù)端瀏覽器或客戶(hù)端側(cè)應(yīng)用組件可以 對(duì)多模式頁(yè)面內(nèi)所包括的視覺(jué)標(biāo)記進(jìn)行解釋?zhuān)⑶铱梢砸罁?jù)視覺(jué)標(biāo)記在與客戶(hù)端裝置相關(guān) 聯(lián)的顯示裝置上顯示一個(gè)或多個(gè)頁(yè)面元素。圖4是依據(jù)示例性實(shí)施例的在客戶(hù)端裝置400上呈現(xiàn)的視覺(jué)標(biāo)記的示例。在所圖 示的示例中,一部分視覺(jué)標(biāo)記以四個(gè)多模式顯示元素401、402、403、404的形式進(jìn)行呈現(xiàn), 其中每一個(gè)均包括文本標(biāo)簽(例如,“城市”、“州”、“街道號(hào)碼”和“街道名稱(chēng)”)以及數(shù)據(jù)輸 入?yún)^(qū)域。
再次參見(jiàn)圖3,在框318中,客戶(hù)端裝置通過(guò)AS/客戶(hù)端控制路徑發(fā)送控制消息, 其指示客戶(hù)端裝置已經(jīng)發(fā)起了對(duì)多模式頁(yè)面的解釋(例如,客戶(hù)端裝置已經(jīng)發(fā)起了多模式 應(yīng)用的執(zhí)行)和/或已經(jīng)發(fā)起了與多模式會(huì)話相關(guān)聯(lián)的其它機(jī)器代碼的執(zhí)行。在此,視覺(jué) 視圖為初始狀態(tài)。在視覺(jué)視圖的初始狀態(tài),客戶(hù)端裝置可以等待接收與話音相對(duì)應(yīng)的音頻 信號(hào)并將其數(shù)字化,并且通過(guò)VS/客戶(hù)端音頻數(shù)據(jù)路徑向語(yǔ)音服務(wù)器發(fā)送與數(shù)字化的音頻 信號(hào)相對(duì)應(yīng)的上行鏈路音頻數(shù)據(jù)。除此之外或可替換地,在視覺(jué)視圖的初始狀態(tài),客戶(hù)端裝 置可以等待從應(yīng)用服務(wù)器接收額外的控制消息,和/或等待通過(guò)VS/客戶(hù)端音頻數(shù)據(jù)路徑 來(lái)自語(yǔ)音服務(wù)器的下行鏈路音頻數(shù)據(jù),并且使用與客戶(hù)端裝置相關(guān)聯(lián)的音頻輸出裝置(例 如,揚(yáng)聲器、耳機(jī)或頭戴式耳機(jī))呈現(xiàn)下行鏈路音頻數(shù)據(jù)。在框320中,應(yīng)用服務(wù)器接收控制消息,控制消息指示客戶(hù)端裝置已經(jīng)發(fā)起了對(duì) 多模式頁(yè)面或者與多模式應(yīng)用會(huì)話相關(guān)聯(lián)的其它機(jī)器代碼的解釋?zhuān)⑶覒?yīng)用服務(wù)器通過(guò) AS/VS控制路徑向語(yǔ)音服務(wù)器發(fā)送控制消息,其命令語(yǔ)音服務(wù)器開(kāi)始解釋話音對(duì)話。在框 322中,語(yǔ)音服務(wù)器接著開(kāi)始解釋話音對(duì)話。在此,語(yǔ)音視圖處于與視覺(jué)視圖的初始狀態(tài)相 同步的初始狀態(tài)。在語(yǔ)音視圖的初始狀態(tài)中,語(yǔ)音服務(wù)器可以等待接收來(lái)自應(yīng)用服務(wù)器的 額外的控制消息,和/或可以等待接收通過(guò)VS/客戶(hù)端音頻數(shù)據(jù)路徑來(lái)自客戶(hù)端裝置的上 行鏈路音頻數(shù)據(jù)。接著完成初始化和開(kāi)始多模式應(yīng)用會(huì)話的處理。在此,視覺(jué)視圖處于第一狀態(tài),其 中客戶(hù)端裝置已經(jīng)到達(dá)其對(duì)與多模式會(huì)話(例如,多模式頁(yè)面和/或客戶(hù)端側(cè)應(yīng)用組件) 相關(guān)聯(lián)的機(jī)器代碼進(jìn)行解釋的點(diǎn),其在此等待用戶(hù)經(jīng)由視覺(jué)模式或語(yǔ)音模式進(jìn)行輸入,或 者其在此等待來(lái)自語(yǔ)音服務(wù)器的下行鏈路音頻數(shù)據(jù)。此外,語(yǔ)音視圖處于第一狀態(tài),其中語(yǔ) 音服務(wù)器已經(jīng)到達(dá)其對(duì)與多模式會(huì)話(例如,話音對(duì)話)相關(guān)聯(lián)的機(jī)器代碼進(jìn)行解釋的點(diǎn), 其在此等待來(lái)自應(yīng)用服務(wù)器的控制輸入或者其在此等待來(lái)自客戶(hù)端裝置的上行鏈路音頻。圖3圖示了用于執(zhí)行多模式應(yīng)用會(huì)話發(fā)起的方法的特定實(shí)施例。如利用這里(例 如,在圖5和6中)所描述的其它方法,所圖示的處理順序可以與所圖示和描述的有所不 同,在其它實(shí)施例中,一些處理和/或消息可以被合并在一起,和/或一些處理和/或消息 可以被一起排除。例如,在用于執(zhí)行多模式應(yīng)用會(huì)話發(fā)起的方法的可選實(shí)施例中,圖3的步 驟302和312可以被組合在一起(例如,客戶(hù)端裝置可以連同多模式應(yīng)用信息一起向語(yǔ)音 服務(wù)器發(fā)送音頻路徑信息)。在其它的可選實(shí)施例中,處理304的全部或部分可以被排除, 諸如在客戶(hù)端裝置和/或語(yǔ)音服務(wù)器已經(jīng)加載了與多模式應(yīng)用會(huì)話相關(guān)聯(lián)的機(jī)器代碼時(shí) (例如,使得不必要下載機(jī)器代碼)。在再一個(gè)可選實(shí)施例中,客戶(hù)端裝置和語(yǔ)音服務(wù)器可 以直接通信以建立VS/客戶(hù)端音頻數(shù)據(jù)路徑(例如,客戶(hù)端裝置可以發(fā)起到語(yǔ)音服務(wù)器的 呼叫線路,并且可以利用會(huì)話標(biāo)識(shí)符建立VS/客戶(hù)端音頻數(shù)據(jù)路徑,會(huì)話標(biāo)識(shí)符被發(fā)送到 應(yīng)用服務(wù)器)。如之前結(jié)合圖2的框206和208所討論的,在發(fā)起多模式應(yīng)用會(huì)話之后,會(huì)發(fā)生至 少兩種類(lèi)型的事件,其會(huì)影響語(yǔ)音視圖和/或視覺(jué)視圖的狀態(tài)。這些事件類(lèi)型包括VS所生 成的事件和客戶(hù)端所生成的事件。圖5和6分別圖示了 VS所生成的事件的操作處理和客 戶(hù)端所生成的事件的操作處理的實(shí)施例。圖5是依據(jù)示例性實(shí)施例的用于執(zhí)行VS所生成的事件的操作處理(例如,處理 206,圖2)的方法的流程圖。術(shù)語(yǔ)“VS所生成的事件”可以被定義為在語(yǔ)音服務(wù)器上發(fā)生的
18事件,其可以準(zhǔn)許語(yǔ)音視圖的狀態(tài)變化。例如,除其它之外,各種VS所生成的事件可以包括 話音識(shí)別事件、超時(shí)事件以及下載或訪問(wèn)其它語(yǔ)音對(duì)話,但并不局限于此。在一個(gè)實(shí)施例中,方法在框502開(kāi)始,其中客戶(hù)端裝置通過(guò)其用戶(hù)界面接收到可 以表示用戶(hù)發(fā)音(例如,用戶(hù)話音)的信號(hào)。客戶(hù)端裝置接著可以對(duì)信號(hào)進(jìn)行數(shù)字化和處理 以生成表示信號(hào)的上行鏈路音頻數(shù)據(jù),并且可以通過(guò)音頻數(shù)據(jù)路徑(例如,VS/客戶(hù)端音頻 數(shù)據(jù)路徑124,圖1)將上行鏈路音頻數(shù)據(jù)發(fā)送到語(yǔ)音服務(wù)器。用戶(hù)話音可以對(duì)應(yīng)于單個(gè)顯 示元素(例如,話音可以是對(duì)應(yīng)于顯示元素402的“伊利諾伊(Illinois)”的發(fā)音,圖4),或 者對(duì)應(yīng)于多于一個(gè)的顯示元素(例如,話音可以是對(duì)應(yīng)于顯示元素401和402的“芝加哥, 伊利諾伊”的發(fā)音,圖4)。在各個(gè)實(shí)施例中,可以通過(guò)分組交換或電路交換網(wǎng)絡(luò)建立音頻數(shù) 據(jù)路徑。在通過(guò)分組交換網(wǎng)絡(luò)建立音頻數(shù)據(jù)路徑的實(shí)施例中,客戶(hù)端裝置對(duì)音頻數(shù)據(jù)進(jìn)行 分組化,并且在尋址到客戶(hù)端裝置在多模式應(yīng)用會(huì)話發(fā)起處理(例如,圖3的處理)期間所 接收的語(yǔ)音服務(wù)器IP地址和端口的一個(gè)或多個(gè)消息中發(fā)送音頻數(shù)據(jù)。在框504中,語(yǔ)音服務(wù)器接收上行鏈路音頻數(shù)據(jù)。響應(yīng)于上行鏈路音頻數(shù)據(jù)的接 收,語(yǔ)音服務(wù)器可以執(zhí)行話音識(shí)別處理,其中語(yǔ)音服務(wù)器試圖識(shí)別上行鏈路音頻數(shù)據(jù)所表 示的話音(例如,發(fā)音)。在一個(gè)實(shí)施例中,這包括由話音識(shí)別器(例如,話音識(shí)別器134, 圖1)處理上行鏈路音頻數(shù)據(jù)。在一個(gè)實(shí)施例中,話音識(shí)別器可以訪問(wèn)與語(yǔ)音視圖當(dāng)時(shí)有效 (then-current)的狀態(tài)相關(guān)聯(lián)的話音識(shí)別資源,其中話音識(shí)別資源可以包括與和語(yǔ)音視圖 當(dāng)時(shí)有效的狀態(tài)相關(guān)聯(lián)的發(fā)音集合相關(guān)聯(lián)的數(shù)據(jù)。例如,再次參見(jiàn)圖4,數(shù)據(jù)“芝加哥”已經(jīng) 被填到第一顯示元素401 (例如,“城市”顯示元素)的數(shù)據(jù)輸入?yún)^(qū)域中。光標(biāo)被顯示在第二 顯示元素402 (例如,“州”顯示元素)的數(shù)據(jù)輸入?yún)^(qū)域中,其指示視覺(jué)視圖的當(dāng)前焦點(diǎn),或者 視覺(jué)視圖的狀態(tài)。當(dāng)視覺(jué)視圖和語(yǔ)音視圖同步時(shí),語(yǔ)音視圖的狀態(tài)將對(duì)應(yīng)于等待接收與州 名稱(chēng)的用戶(hù)發(fā)音相對(duì)應(yīng)的音頻數(shù)據(jù)的語(yǔ)音服務(wù)器。由于存在州名稱(chēng)的有限集合,所以可以 在話音識(shí)別器訪問(wèn)與對(duì)應(yīng)于州名稱(chēng)的有限集合的發(fā)音集合相關(guān)聯(lián)的話音識(shí)別資源時(shí)提升 話音識(shí)別器的魯棒性。除其它變量之外,話音識(shí)別資源可適于利用州名稱(chēng)的各種不同的發(fā) 音方式和/或表示男性和女性話音特征的數(shù)據(jù)來(lái)識(shí)別話音。在框506中,確定話音是否被識(shí)別。當(dāng)語(yǔ)音服務(wù)器無(wú)法將上行鏈路音頻數(shù)據(jù)與可 識(shí)別話音相關(guān)聯(lián)時(shí)(例如,音頻數(shù)據(jù)并不對(duì)應(yīng)于可接受錯(cuò)誤極限內(nèi)的任何單個(gè)州名稱(chēng)),語(yǔ) 音服務(wù)器可以確定話音沒(méi)有被識(shí)別。在這樣的情況下,在框508中,語(yǔ)音服務(wù)器可以通過(guò) AS/VS控制路徑向應(yīng)用服務(wù)器發(fā)送控制消息,其指示發(fā)生了話音識(shí)別錯(cuò)誤。在框510中,應(yīng) 用服務(wù)器接著可以通過(guò)AS/客戶(hù)端控制路徑向客戶(hù)端裝置發(fā)送指示錯(cuò)誤的控制消息。在框 511中,一旦接收到錯(cuò)誤指示,客戶(hù)端裝置就可以呈現(xiàn)錯(cuò)誤消息,其向用戶(hù)指示用戶(hù)的輸入 話音沒(méi)有被識(shí)別。在各個(gè)實(shí)施例中,客戶(hù)端裝置可以將錯(cuò)誤消息作為音頻提示和/或在視 覺(jué)顯示上顯示的消息來(lái)呈現(xiàn)??蛻?hù)端裝置接著可以提示用戶(hù)重新輸入數(shù)據(jù)或者可以采取其 它一些動(dòng)作(或不采取動(dòng)作),并且方法可以結(jié)束。再次參見(jiàn)框506,當(dāng)語(yǔ)音服務(wù)器確定了上行鏈路數(shù)據(jù)對(duì)應(yīng)于可識(shí)別話音時(shí)(例如, 音頻數(shù)據(jù)對(duì)應(yīng)于所識(shí)別的州名稱(chēng)),在框512中,語(yǔ)音服務(wù)器可以生成識(shí)別事件(例如,VS 所生成的事件),并且可以通過(guò)AS/VS控制路徑向應(yīng)用服務(wù)器發(fā)送控制消息,其向應(yīng)用服 務(wù)器通知識(shí)別事件。在一個(gè)實(shí)施例中,識(shí)別事件包括話音被識(shí)別的指示(例如,二進(jìn)制數(shù) 值)和話音識(shí)別結(jié)果,話音識(shí)別結(jié)果可以包括所識(shí)別話音的指示(例如,所識(shí)別州名稱(chēng)的指示)。在可選實(shí)施例中,識(shí)別事件還可以包括一個(gè)或多個(gè)其它的話音識(shí)別結(jié)果,并且可能包 括每個(gè)話音識(shí)別結(jié)果的關(guān)聯(lián)強(qiáng)度指示(例如,每個(gè)結(jié)果為正確結(jié)果的可能性的指示)。在 各個(gè)實(shí)施例中,所識(shí)別話音的指示可以包括所識(shí)別話音的文本表示、到可能識(shí)別結(jié)果的表 (例如,列出州名稱(chēng)的表)中的索引,或者一些其它類(lèi)型的指示符。在框514中,應(yīng)用服務(wù)器 接著可以通過(guò)AS/客戶(hù)端控制路徑發(fā)送控制消息,其包括從語(yǔ)音服務(wù)器所接收的控制消息 中所包括或者從其得出的信息(例如,指示識(shí)別事件的消息)。例如,控制消息還可以包括 話音被識(shí)別的指示以及話音識(shí)別結(jié)果(例如,所識(shí)別話音的指示)。雖然在一個(gè)實(shí)施例中,音頻數(shù)據(jù)的接收和識(shí)別可以觸發(fā)語(yǔ)音服務(wù)器產(chǎn)生VS所生 成的事件,但是在其它實(shí)施例中,其它條件也可以觸發(fā)語(yǔ)音服務(wù)器產(chǎn)生VS所生成的事件。 例如,當(dāng)語(yǔ)音視圖處于其等待接收音頻數(shù)據(jù)的狀態(tài)中時(shí),語(yǔ)音服務(wù)器可以在預(yù)定超時(shí)周期 內(nèi)沒(méi)有接收到音頻數(shù)據(jù)時(shí)產(chǎn)生VS所生成的事件,但是并不局限于此。在這樣的情況下,在 框512中發(fā)送的VS至AS控制消息可以通知應(yīng)用服務(wù)器其它類(lèi)型的事件,并且在框514中 發(fā)送的AS至客戶(hù)端控制消息進(jìn)而可以通知客戶(hù)端裝置其它類(lèi)型的事件??蛻?hù)端裝置可以 根據(jù)事件類(lèi)型采取動(dòng)作。雖然其它類(lèi)型的VS所生成的事件沒(méi)有在此詳細(xì)討論,但是實(shí)施例 的范圍意在包括其它類(lèi)型的VS所生成的事件。在框514中,一旦應(yīng)用服務(wù)器向客戶(hù)端裝置發(fā)送了控制消息,在框516中,客戶(hù)端 裝置就接收控制消息,并且處理話音識(shí)別結(jié)果。此外,客戶(hù)端裝置根據(jù)話音識(shí)別結(jié)果更新 視覺(jué)顯示,并且通過(guò)AS/客戶(hù)端控制路徑向應(yīng)用服務(wù)器發(fā)送控制消息以指示更新已經(jīng)完成 和/或客戶(hù)端裝置準(zhǔn)備接收指示VS所生成的事件的另一消息。例如,如果話音識(shí)別結(jié)果以 不同于所識(shí)別話音的文本表示的一些形式進(jìn)行傳送,則客戶(hù)端裝置可以確定文本表示(例 如,客戶(hù)端裝置可以在話音識(shí)別結(jié)果標(biāo)識(shí)了表中的條目時(shí)查找文本表示)。再次參見(jiàn)圖4, 例如,如果話音識(shí)別結(jié)果被處理為文本“伊利諾伊”,則客戶(hù)端裝置可以在第二顯示元素402 的數(shù)據(jù)輸入?yún)^(qū)域中顯示“伊利諾伊”。當(dāng)識(shí)別結(jié)果對(duì)應(yīng)于多于一個(gè)的顯示元素時(shí),客戶(hù)端裝 置可以在多于一個(gè)的相應(yīng)數(shù)據(jù)輸入?yún)^(qū)域中顯示數(shù)據(jù)(例如,當(dāng)識(shí)別結(jié)果指示“芝加哥”和 “伊利諾伊”的識(shí)別話音時(shí),如果“芝加哥”未被顯示,則客戶(hù)端裝置可以在顯示元素401中 顯示“芝加哥”,并且在顯示元素402中顯示“伊利諾伊”)。此外,客戶(hù)端裝置可以通過(guò)將光 標(biāo)移動(dòng)到第三顯示元素403的數(shù)據(jù)輸入?yún)^(qū)域來(lái)自動(dòng)(例如,無(wú)需進(jìn)一步的用戶(hù)交互)改變 視覺(jué)視圖上的焦點(diǎn)。在改變焦點(diǎn)的背景下,客戶(hù)端裝置可以通過(guò)完成其對(duì)與第二顯示元素 402相關(guān)聯(lián)的標(biāo)記的解釋?zhuān)⑶彝ㄟ^(guò)發(fā)起對(duì)與第三顯示元素403相關(guān)聯(lián)的標(biāo)記的解釋來(lái)進(jìn) 行視覺(jué)視圖的狀態(tài)變化。再次參見(jiàn)圖5,在框518中,客戶(hù)端裝置確定是否已經(jīng)發(fā)生了視覺(jué)視圖的狀態(tài)轉(zhuǎn) 換。例如,如之前的段落中所描述的,狀態(tài)變換可以在視覺(jué)視圖的焦點(diǎn)已經(jīng)被改變時(shí)發(fā)生。 當(dāng)沒(méi)有發(fā)生狀態(tài)變換時(shí),方法可以結(jié)束。當(dāng)已經(jīng)發(fā)生狀態(tài)變換時(shí),在框520中,客戶(hù)端裝置 通過(guò)AS/客戶(hù)端控制路徑向應(yīng)用服務(wù)器發(fā)送指示已經(jīng)發(fā)生狀態(tài)變換的控制消息。在可選實(shí) 施例中,在框520中發(fā)送的控制消息內(nèi)的信息可以與在框516中發(fā)送的控制消息內(nèi)的信息 相結(jié)合,并且/或者應(yīng)用服務(wù)器可以基于其它信息項(xiàng)目的接收推斷任一信息項(xiàng)目(換句話 說(shuō),當(dāng)應(yīng)用服務(wù)器接收到更新完成的指示時(shí),其可以推斷發(fā)生了狀態(tài)變換,反之亦然)。在框522中,應(yīng)用服務(wù)器接收指示已經(jīng)發(fā)生狀態(tài)轉(zhuǎn)移的信息,并且通過(guò)AS/VS控制 路徑向語(yǔ)音服務(wù)器發(fā)送控制消息,其包括將使得語(yǔ)音服務(wù)器發(fā)起語(yǔ)音視圖的狀態(tài)變換的信息。例如,在一個(gè)實(shí)施例中,控制消息中的信息可以是來(lái)自應(yīng)用服務(wù)器的使得語(yǔ)音服務(wù)器進(jìn) 行語(yǔ)音視圖狀態(tài)變換的指令。在另一實(shí)施例中,控制消息中的信息可以是已經(jīng)發(fā)生了視覺(jué) 視圖狀態(tài)轉(zhuǎn)換的指示,并且語(yǔ)音服務(wù)器可以相應(yīng)確定是否進(jìn)行語(yǔ)音視圖狀態(tài)轉(zhuǎn)換。在框524中,語(yǔ)音服務(wù)器從應(yīng)用服務(wù)器接收控制消息,并且作為響應(yīng),進(jìn)行語(yǔ)音視 圖狀態(tài)轉(zhuǎn)換。此外,語(yǔ)音服務(wù)器可以經(jīng)由AS/VS控制路徑向應(yīng)用服務(wù)器發(fā)送控制消息,其指 示已經(jīng)發(fā)生了狀態(tài)轉(zhuǎn)換。例如,再次參見(jiàn)圖4,語(yǔ)音服務(wù)器可以完成其對(duì)與等待和第二顯示 元素402相關(guān)的音頻數(shù)據(jù)相關(guān)聯(lián)的機(jī)器代碼的解釋?zhuān)⑶铱梢园l(fā)起對(duì)與等待和第三顯示元 素403的音頻數(shù)據(jù)相關(guān)聯(lián)的機(jī)器代碼和/或與通過(guò)VS/客戶(hù)端音頻數(shù)據(jù)路徑向客戶(hù)端裝置 發(fā)送下行鏈路音頻數(shù)據(jù)(例如,音頻提示)相關(guān)聯(lián)的機(jī)器代碼的解釋。當(dāng)在框526中確定了語(yǔ)音視圖的當(dāng)前狀態(tài)包括向客戶(hù)端裝置發(fā)送音頻提示時(shí),接 著在框528中,語(yǔ)音服務(wù)器通過(guò)VS/客戶(hù)端音頻數(shù)據(jù)路徑向客戶(hù)端裝置發(fā)送適當(dāng)?shù)囊纛l提 示作為下行鏈路音頻數(shù)據(jù)。例如,當(dāng)焦點(diǎn)已經(jīng)被改變到地上那顯示元素403時(shí),與第三顯示 元素403相關(guān)聯(lián)的機(jī)器代碼可以使得語(yǔ)音服務(wù)器通過(guò)VS/客戶(hù)端音頻數(shù)據(jù)路徑向客戶(hù)端裝 置發(fā)送音頻提示,其包括與“請(qǐng)說(shuō)出街道號(hào)碼”相對(duì)應(yīng)的音頻數(shù)據(jù)或者一些類(lèi)似音頻提示。 一旦接收到音頻數(shù)據(jù),客戶(hù)端裝置就可以諸如通過(guò)在客戶(hù)端裝置的音頻輸出裝置上輸出對(duì) 應(yīng)于提示的可聽(tīng)信號(hào)來(lái)呈現(xiàn)音頻提示。接著,圖5的方法可以結(jié)束。圖5所示的方法的實(shí)施例與在發(fā)生VS所生成的事件時(shí)執(zhí)行的處理相關(guān),其會(huì)影響 視覺(jué)視圖或語(yǔ)音視圖中任一個(gè)或其二者的狀態(tài)。如之前所討論的,客戶(hù)端裝置也可以生成 事件,其可以影響視覺(jué)視圖和/或語(yǔ)音視圖的狀態(tài)。在這樣的情況下,在一個(gè)實(shí)施例中,執(zhí) 行客戶(hù)端所生成的事件的操作處理。圖6是依據(jù)示例性實(shí)施例的用于執(zhí)行客戶(hù)端所生成的事件的操作處理(例如,處 理208,圖2)的方法的流程圖。術(shù)語(yǔ)“客戶(hù)端所生成的事件”可以被定義為在客戶(hù)端生發(fā)生 的事件,其可以準(zhǔn)許視覺(jué)視圖的狀態(tài)改變。例如,除其它之外,各種客戶(hù)端所生成的事件可 以包括視覺(jué)視圖的焦點(diǎn)改變,使用鍵盤(pán)輸入數(shù)據(jù)以及下載或訪問(wèn)另一個(gè)多模式頁(yè)面,但是 并不局限于此。在一個(gè)實(shí)施例中,方法在框602開(kāi)始,其中客戶(hù)端裝置通過(guò)其視覺(jué)模式接收到用 戶(hù)輸入,用戶(hù)輸入可以準(zhǔn)許視覺(jué)視圖的狀態(tài)變化和/或視覺(jué)顯示的更新。例如,用戶(hù)可以 使用客戶(hù)端裝置的滾動(dòng)或指示機(jī)制來(lái)選擇與視覺(jué)視圖當(dāng)前聚焦于其上的不同顯示元素和/ 或數(shù)據(jù)輸入?yún)^(qū)域。如另一個(gè)示例,用戶(hù)例如可以使用鍵盤(pán)使得文本被輸入到視覺(jué)視圖當(dāng)前 聚焦于其上的數(shù)據(jù)輸入?yún)^(qū)域之中,并且諸如可以通過(guò)按壓“輸入”鍵(例如,“輸入”鍵406, 圖4)或者通過(guò)提供其它一些指示來(lái)指示數(shù)據(jù)完成了到數(shù)據(jù)區(qū)域的插入。如又另一個(gè)示例, 用戶(hù)諸如可以通過(guò)指示通過(guò)用戶(hù)界面導(dǎo)航到另一多模式頁(yè)面,或者通過(guò)提交當(dāng)前頁(yè)面內(nèi)所 包括的信息而使得客戶(hù)端信息請(qǐng)求或訪問(wèn)另一個(gè)多模式頁(yè)面,信息諸如通過(guò)按壓“提交”鍵 (例如,“提交”鍵408,圖4)或者通過(guò)提供一些其它指示來(lái)提交。當(dāng)客戶(hù)端裝置接收到可以準(zhǔn)許視覺(jué)顯示更新和/或視覺(jué)視圖狀態(tài)改變的用戶(hù)輸 入時(shí),在框604中,客戶(hù)端裝置可以生成客戶(hù)端所生成的事件,并且可以通過(guò)AS/客戶(hù)端控 制路徑向應(yīng)用服務(wù)器發(fā)送控制消息,其就客戶(hù)端所生成的事件通知應(yīng)用服務(wù)器。在一個(gè)實(shí) 施例中,客戶(hù)端所生成的事件包括事件類(lèi)型的指示(例如,文本輸入、焦點(diǎn)改變、多模式頁(yè) 面改變)以及事件細(xì)節(jié)的指示。例如,仍然參見(jiàn)圖4,當(dāng)客戶(hù)端裝置已經(jīng)接收到用于數(shù)據(jù)輸入?yún)^(qū)域402的“伊利諾伊”文本輸入時(shí),控制消息可以指示文本輸入類(lèi)型的事件,并且可以 包括所輸入文本“伊利諾伊”的指示。在各個(gè)實(shí)施例中,所輸入文本的指示可以包括所輸入 數(shù)據(jù)的文本表示、到有效條目的表中的索引(例如,列有州名稱(chēng)的表)或者其它一些類(lèi)型的 指示符。如另一個(gè)示例,當(dāng)客戶(hù)端裝置已經(jīng)接收到將焦點(diǎn)改變到數(shù)據(jù)輸入?yún)^(qū)域404的用戶(hù) 輸入時(shí),控制消息可以包括焦點(diǎn)改變類(lèi)型的事件(例如,從數(shù)據(jù)輸入?yún)^(qū)域403上的當(dāng)前焦點(diǎn) 改變?yōu)閿?shù)據(jù)輸入?yún)^(qū)域404上的不同焦點(diǎn)),并且可以包括標(biāo)識(shí)數(shù)據(jù)輸入?yún)^(qū)域404的信息。在框606中,應(yīng)用服務(wù)器從客戶(hù)端裝置接收控制消息,并且如以下所描述對(duì)控制 消息進(jìn)行處理。在框608中,應(yīng)用服務(wù)器生成響應(yīng)控制消息并通過(guò)AS/客戶(hù)端控制路徑將 其發(fā)送到客戶(hù)端裝置,響應(yīng)控制消息可以包括使得客戶(hù)端裝置更新視覺(jué)顯示和/或?qū)⒁曈X(jué) 視圖轉(zhuǎn)換為另一狀態(tài)的信息。例如,當(dāng)客戶(hù)端所生成的事件指示文本輸入時(shí)(例如,用戶(hù)在 鍵盤(pán)上輸入了 “伊利諾伊”并且選擇了 “輸入”),控制消息可以命令客戶(hù)端裝置改變視覺(jué)視 圖的狀態(tài)以便在如果有下一個(gè)順序數(shù)據(jù)輸入?yún)^(qū)域的情況下與其相對(duì)應(yīng),和/或可以命令客 戶(hù)端裝置通過(guò)將光標(biāo)移動(dòng)到下一個(gè)順序數(shù)據(jù)輸入?yún)^(qū)域(例如,執(zhí)行焦點(diǎn)改變)來(lái)更新視覺(jué) 顯示。在一個(gè)實(shí)施例中,如果客戶(hù)端所生成的事件指示客戶(hù)端已經(jīng)向最后的數(shù)據(jù)輸入?yún)^(qū)域 中輸入了文本,則控制消息可以命令客戶(hù)端采取一些其它動(dòng)作(例如,發(fā)起所輸入信息的 地圖繪制或者轉(zhuǎn)換到新的頁(yè)面)。當(dāng)客戶(hù)端所生成的事件指示焦點(diǎn)改變而沒(méi)有文本輸入時(shí), 控制消息可以命令客戶(hù)端裝置改變視覺(jué)視圖的狀態(tài)以對(duì)應(yīng)于用戶(hù)所選擇的顯示元素(其 不必為下一個(gè)順序元素),和/或可以命令客戶(hù)端裝置通過(guò)將光標(biāo)移動(dòng)到對(duì)應(yīng)于用戶(hù)所選 擇的顯示元素的數(shù)據(jù)輸入?yún)^(qū)域中以更新視覺(jué)顯示。在框610中,客戶(hù)端裝置從應(yīng)用服務(wù)器接收控制消息,并相應(yīng)地進(jìn)行響應(yīng)。例如, 客戶(hù)端裝置可以通過(guò)移動(dòng)光標(biāo)更新視覺(jué)顯示,和/或可以轉(zhuǎn)換視覺(jué)視圖的狀態(tài)以對(duì)應(yīng)于視 覺(jué)顯示當(dāng)前應(yīng)當(dāng)聚焦于其上的顯示元素。例如,仍然參見(jiàn)圖4,當(dāng)應(yīng)用服務(wù)器已經(jīng)向客戶(hù)端 裝置指示其應(yīng)當(dāng)更新視覺(jué)顯示并且轉(zhuǎn)換視覺(jué)視圖的狀態(tài)時(shí),客戶(hù)端裝置可以按照命令通過(guò) 更新視覺(jué)顯示并且轉(zhuǎn)換視覺(jué)視圖的狀態(tài)進(jìn)行響應(yīng)。例如,如果客戶(hù)端裝置被命令將視覺(jué)視 圖的焦點(diǎn)改變到顯示元素403,則客戶(hù)端裝置可以通過(guò)完成其對(duì)與第二顯示元素402相關(guān) 聯(lián)的機(jī)器代碼的解釋(例如,等待用戶(hù)經(jīng)由視覺(jué)模式或語(yǔ)音模式對(duì)第二顯示元素402的輸 入,和/或等待來(lái)自語(yǔ)音服務(wù)器的音頻提示),并且通過(guò)發(fā)起對(duì)與第三顯示元素403相關(guān)聯(lián) 的機(jī)器代碼的解釋(例如,等待用戶(hù)經(jīng)由視覺(jué)模式或語(yǔ)音模式對(duì)第三顯示元素403的輸入, 和/或等待來(lái)自語(yǔ)音服務(wù)器的音頻提示)來(lái)進(jìn)行視覺(jué)視圖的狀態(tài)轉(zhuǎn)換。與框608和610并行或者在其之前或之后,在框612中,應(yīng)用服務(wù)器可以通過(guò)AS/ VS控制路徑向語(yǔ)音服務(wù)器發(fā)送控制消息,其通過(guò)包括在框606中應(yīng)用服務(wù)器從客戶(hù)端裝置 接收的控制消息中所包括或者從其得出的信息來(lái)指示客戶(hù)端所生成的事件。例如,如之前 所描述的,控制消息還可以包括客戶(hù)端所生成的事件的類(lèi)型的指示以及事件細(xì)節(jié)的指示。在框614中,語(yǔ)音服務(wù)器從應(yīng)用服務(wù)器接收控制消息,并且例如通過(guò)適當(dāng)設(shè)置一 個(gè)或多個(gè)數(shù)值、識(shí)別音頻提示、進(jìn)行語(yǔ)音視圖狀態(tài)改變和/或下載或訪問(wèn)另一個(gè)話音對(duì)話 對(duì)消息進(jìn)行處理。例如,仍然參見(jiàn)圖4,當(dāng)應(yīng)用服務(wù)器已經(jīng)向語(yǔ)音服務(wù)器指示了客戶(hù)端裝置 已經(jīng)接收到對(duì)數(shù)據(jù)輸入?yún)^(qū)域402的文本輸入“伊利諾伊”并且視覺(jué)顯示的焦點(diǎn)已經(jīng)改變?yōu)?數(shù)據(jù)輸入403時(shí),語(yǔ)音服務(wù)器可以存儲(chǔ)所輸入文本的指示已用于未來(lái)引用(例如,在確定話 音識(shí)別資源以便在后續(xù)話音識(shí)別處理期間使用時(shí)),并且可以將語(yǔ)音視圖的狀態(tài)改變?yōu)榕c視覺(jué)視圖相同步。例如,如果視覺(jué)視圖的焦點(diǎn)已經(jīng)改變,則語(yǔ)音服務(wù)器可以通過(guò)完成其對(duì)與 第二顯示元素402相關(guān)聯(lián)的機(jī)器代碼的解釋(例如,等待關(guān)于第二顯示元素402的音頻數(shù) 據(jù)和/或生成針對(duì)第二顯示元素402的音頻提示),并且通過(guò)發(fā)起對(duì)與已經(jīng)針對(duì)其改變焦點(diǎn) 的顯示元素(例如,第三顯示元素403)相關(guān)聯(lián)的機(jī)器代碼的解釋來(lái)進(jìn)行視覺(jué)視圖的狀態(tài)改 變。與已經(jīng)針對(duì)其改變焦點(diǎn)的顯示元素相關(guān)聯(lián)的機(jī)器代碼可以包括與等待該顯示元素的音 頻數(shù)據(jù)相關(guān)聯(lián)的機(jī)器代碼和/或與通過(guò)VS/客戶(hù)端音頻數(shù)據(jù)路徑向客戶(hù)端裝置發(fā)送下行鏈 路音頻數(shù)據(jù)相關(guān)聯(lián)的機(jī)器代碼,這可以包括與該顯示元素相關(guān)聯(lián)的音頻提示。在框616中,當(dāng)確定了語(yǔ)音視圖的當(dāng)前狀態(tài)包括向客戶(hù)端裝置發(fā)送音頻提示時(shí), 接著在框618中,語(yǔ)音服務(wù)器通過(guò)VS/客戶(hù)端音頻數(shù)據(jù)路徑向客戶(hù)端裝置發(fā)送適當(dāng)?shù)囊纛l 提示作為下行鏈路音頻數(shù)據(jù)。例如,當(dāng)焦點(diǎn)已經(jīng)被改變到第三顯示元素403時(shí),與第三顯示 元素403相關(guān)聯(lián)的機(jī)器代碼可以使得語(yǔ)音服務(wù)器通過(guò)VS/客戶(hù)端音頻數(shù)據(jù)路徑向客戶(hù)端裝 置發(fā)送音頻提示,其包括對(duì)應(yīng)于“請(qǐng)說(shuō)出街道號(hào)碼”相對(duì)應(yīng)的音頻數(shù)據(jù)或者一些類(lèi)似音頻提 示。一旦接收到音頻數(shù)據(jù),客戶(hù)端裝置就可以諸如通過(guò)在客戶(hù)端裝置的音頻輸出裝置上輸 出對(duì)應(yīng)于提示的可聽(tīng)信號(hào)來(lái)呈現(xiàn)音頻提示。在一個(gè)實(shí)施例中,客戶(hù)端裝置并不呈現(xiàn)提示直 至客戶(hù)端裝置已經(jīng)完成了框610。接著,圖6的方法可以結(jié)束?,F(xiàn)在,已經(jīng)在以上對(duì)用于實(shí)現(xiàn)分布式多模式應(yīng)用的方法和設(shè)備的實(shí)施例進(jìn)行了描 述。以上的詳細(xì)描述本質(zhì)上僅為示例性的而并非意在將本發(fā)明主題或者本發(fā)明主題的應(yīng)用 和使用限制為所描述的實(shí)施例。此外,并非意在通過(guò)之前的背景技術(shù)或詳細(xì)描述中所給出 的任意理論限定范圍。由應(yīng)用服務(wù)器所執(zhí)行的方法的實(shí)施例包括通過(guò)應(yīng)用服務(wù)器和語(yǔ)音服務(wù)器之間的 應(yīng)用服務(wù)器/語(yǔ)音服務(wù)器控制路徑,從語(yǔ)音服務(wù)器接收已經(jīng)基于從客戶(hù)端裝置通過(guò)客戶(hù)端 裝置和語(yǔ)音服務(wù)器之間的音頻數(shù)據(jù)路徑發(fā)送到語(yǔ)音服務(wù)器的上行鏈路音頻數(shù)據(jù)對(duì)話音進(jìn) 行了識(shí)別的指示的步驟。上行鏈路音頻數(shù)據(jù)表示通過(guò)客戶(hù)端裝置的語(yǔ)音模式所接收的模擬 音頻信號(hào),并且語(yǔ)音服務(wù)器不同于應(yīng)用服務(wù)器。方法還包括通過(guò)應(yīng)用服務(wù)器和客戶(hù)端裝置 之間的應(yīng)用服務(wù)器/客戶(hù)端控制路徑,向客戶(hù)端裝置發(fā)送消息的步驟,消息包括話音的識(shí) 別結(jié)果并且使得客戶(hù)端裝置更新視覺(jué)顯示以反映識(shí)別結(jié)果。客戶(hù)端裝置所執(zhí)行的方法的另一實(shí)施例包括基于對(duì)使得客戶(hù)端裝置呈現(xiàn)視覺(jué)顯 示的機(jī)器代碼的解釋來(lái)呈現(xiàn)視覺(jué)顯示的步驟,其中視覺(jué)顯示包括可由客戶(hù)端裝置通過(guò)視覺(jué) 模式和語(yǔ)音模式對(duì)其接收輸入數(shù)據(jù)的至少一個(gè)顯示元素。方法還包括通過(guò)語(yǔ)音模式接收 話音,對(duì)話音進(jìn)行數(shù)字化以生成與至少一個(gè)顯示元素的一個(gè)或多個(gè)顯示元素相對(duì)應(yīng)的上行 鏈路音頻數(shù)據(jù),并且通過(guò)客戶(hù)端裝置和語(yǔ)音服務(wù)器之間的音頻數(shù)據(jù)路徑將上行鏈路音頻數(shù) 據(jù)發(fā)送到語(yǔ)音服務(wù)器的步驟。方法還包括通過(guò)應(yīng)用服務(wù)器和客戶(hù)端裝置之間的應(yīng)用服務(wù) 器/客戶(hù)端控制路徑從應(yīng)用服務(wù)器接收話音識(shí)別結(jié)果的步驟,其中話音識(shí)別結(jié)果基于已經(jīng) 對(duì)上行鏈路音頻數(shù)據(jù)執(zhí)行了話音識(shí)別處理的語(yǔ)音服務(wù)器,并且音頻數(shù)據(jù)路徑不同于應(yīng)用服 務(wù)器/客戶(hù)端控制路徑,并且語(yǔ)音服務(wù)器不同于應(yīng)用服務(wù)器。方法還包括根據(jù)話音識(shí)別結(jié) 果更新視覺(jué)顯示的一個(gè)或多個(gè)顯示元素。系統(tǒng)實(shí)施例包括客戶(hù)端裝置、語(yǔ)音服務(wù)器和應(yīng)用服務(wù)器??蛻?hù)端裝置適于顯示可 通過(guò)視覺(jué)模式和語(yǔ)音模式對(duì)其接收輸入數(shù)據(jù)的至少一個(gè)顯示元素,并且當(dāng)通過(guò)語(yǔ)音模式接 收到作為話音的輸入數(shù)據(jù)時(shí),通過(guò)客戶(hù)端裝置和語(yǔ)音服務(wù)器之間的音頻數(shù)據(jù)路徑向語(yǔ)音服務(wù)器發(fā)送表示話音的上行鏈路音頻數(shù)據(jù)。語(yǔ)音服務(wù)器適于基于上行鏈路音頻數(shù)據(jù)確定話音 是否被識(shí)別,并且當(dāng)話音被識(shí)別時(shí),通過(guò)應(yīng)用服務(wù)器和語(yǔ)音服務(wù)器之間的應(yīng)用服務(wù)器/語(yǔ) 音服務(wù)器控制路徑向應(yīng)用服務(wù)器發(fā)送話音被識(shí)別的指示。應(yīng)用服務(wù)器適于接收話音被識(shí)別 的指示,并且基于指示,通過(guò)應(yīng)用服務(wù)器和客戶(hù)端裝置之間的應(yīng)用服務(wù)器/客戶(hù)端控制路 徑向客戶(hù)端裝置發(fā)送話音識(shí)別結(jié)果,其中應(yīng)用服務(wù)器/客戶(hù)端控制路徑不同于音頻數(shù)據(jù)路 徑。任意權(quán)利要求中的文本序列并不意味著處理步驟必須根據(jù)這樣的序列以時(shí)間或 邏輯順序來(lái)執(zhí)行,除非被權(quán)利要求的語(yǔ)言特別限定。處理步驟可以以任意順序進(jìn)行互換和 /或可以并行執(zhí)行,而并不會(huì)背離本發(fā)明主題的范圍。此外,所要理解的是,以上被描述為 在系統(tǒng)部件之間進(jìn)行交換的各種不同消息內(nèi)的信息可以組合到單個(gè)消息中,和/或特定消 息內(nèi)的信息可以被劃分到多個(gè)消息中。此外,消息可以由系統(tǒng)部件以與以上所描述的順序 不同的順序發(fā)送。此外,用于描述不同部件之間的關(guān)系的諸如“連接到”或“耦合到”之類(lèi) 的詞語(yǔ)并不意味著必須在這些部件之間進(jìn)行直接的物理連接。例如,兩個(gè)部件可以以物理、 電、邏輯或任意其它方式通過(guò)一個(gè)或多個(gè)額外部件彼此連接,而并不會(huì)背離本發(fā)明主題的 范圍。本領(lǐng)域技術(shù)人員將要理解的是,可以使用任意的各種不同技術(shù)和技能來(lái)表示信息 和信號(hào)。例如,可以貫穿以上描述所引用的數(shù)據(jù)、指令、命令、信息、信號(hào)、比特、符號(hào)和芯片 可以由電壓、電流、電磁波、磁場(chǎng)或粒子、光場(chǎng)或粒子或者其任意組合來(lái)表示。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)進(jìn)一步意識(shí)到,結(jié)合這里所公開(kāi)的實(shí)施例所描述的各種說(shuō)明 性邏輯框、模塊、電路和算法步驟可以被實(shí)現(xiàn)為電子硬件、計(jì)算機(jī)軟件或其二者的組合。為 了清楚描述硬件和軟件的互換性,各種圖示組件、框、模塊、電路和步驟已經(jīng)在以上在其功 能方面進(jìn)行了一般性描述。這些功能是否被實(shí)現(xiàn)為硬件或軟件取決于施加于整體系統(tǒng)上的 特定應(yīng)用和設(shè)計(jì)。技術(shù)人員可以針對(duì)每種特定應(yīng)用以各種方式實(shí)現(xiàn)所描述的功能,但是這 些實(shí)施方式的結(jié)果不應(yīng)當(dāng)被解釋為導(dǎo)致背離本發(fā)明主題的范圍。結(jié)合這里所公開(kāi)的實(shí)施例所描述的各種說(shuō)明性邏輯框和模塊可以利用通用處理 器、數(shù)字信號(hào)處理器(DSP)、專(zhuān)用集成電路(ASIC)、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)或其它可編 程邏輯器件、離散門(mén)或晶體管邏輯、離散硬件組件或者被設(shè)計(jì)為實(shí)現(xiàn)這里所描述的功能的 其任意組合來(lái)實(shí)現(xiàn)或執(zhí)行。通用處理器可以是微處理器,但是可替換地,處理器可以使任意 的傳統(tǒng)處理器、控制器、微控制器或狀態(tài)機(jī)。處理器也可以被實(shí)現(xiàn)為計(jì)算裝置的組合,諸如 DSP和微處理器的組合、多個(gè)微處理器的組合、與DSP核相結(jié)合的一個(gè)或多個(gè)微處理器的組 合或者任意其它這樣的配置。結(jié)合這里所公開(kāi)的實(shí)施例所描述的方法或算法的步驟可以直接以硬件、處理器所 執(zhí)行的一個(gè)或多個(gè)軟件模塊或者以二者的組合來(lái)實(shí)現(xiàn)。軟件模塊可以存在于隨機(jī)訪問(wèn)存 儲(chǔ)器、閃存、只讀存儲(chǔ)器(ROM)、可擦除可編程ROM(EPROM)、電EPR0M、寄存器、硬盤(pán)、便攜式 磁盤(pán)、緊致盤(pán)ROM(CD-ROM)或者本領(lǐng)域已知的任意其它形式的存儲(chǔ)介質(zhì)中。示例性存儲(chǔ)介 質(zhì)耦合到處理器以使得處理器能夠從存儲(chǔ)介質(zhì)讀取信息并且向其寫(xiě)入信息。以可替換的方 式,存儲(chǔ)介質(zhì)可以集成到處理器中。處理器和存儲(chǔ)介質(zhì)可以存在于ASIC中。ASIC可以存在 于用戶(hù)終端中。以可替換的方式,處理器和存儲(chǔ)介質(zhì)可以作為離散組件存在于用戶(hù)終端中。雖然已經(jīng)在以上的詳細(xì)描述中對(duì)至少一個(gè)示例性實(shí)施例進(jìn)行了描述,但是應(yīng)當(dāng)意
24識(shí)到存在多種變化形式。還應(yīng)當(dāng)意識(shí)到的是,一個(gè)或多個(gè)示例性實(shí)施例僅為示例,而并非旨 在以任何方式對(duì)本發(fā)明主題的范圍、應(yīng)用性或配置進(jìn)行限制。相反,以上的詳細(xì)描述將為本 領(lǐng)域技術(shù)人員提供用于實(shí)現(xiàn)本發(fā)明主題的示例性實(shí)施例的常規(guī)方案,所要理解的是可以在 示例性實(shí)施例中所描述的部件功能和設(shè)置方面進(jìn)行各種變化而不會(huì)背離如所附權(quán)利要求 及其法律等同物體所給出的本發(fā)明主題的范圍。
權(quán)利要求
一種由應(yīng)用服務(wù)器執(zhí)行的方法,所述方法包括步驟通過(guò)應(yīng)用服務(wù)器和語(yǔ)音服務(wù)器之間的應(yīng)用服務(wù)器/語(yǔ)音服務(wù)器控制路徑,從所述語(yǔ)音服務(wù)器接收已經(jīng)基于從客戶(hù)端裝置通過(guò)所述客戶(hù)端裝置和所述語(yǔ)音服務(wù)器之間的音頻數(shù)據(jù)路徑發(fā)送到所述語(yǔ)音服務(wù)器的上行鏈路音頻數(shù)據(jù)識(shí)別了話音的指示,其中所述上行鏈路音頻數(shù)據(jù)表示通過(guò)所述客戶(hù)端裝置的語(yǔ)音模式所接收的用戶(hù)發(fā)音,并且其中所述語(yǔ)音服務(wù)器不同于所述應(yīng)用服務(wù)器;以及通過(guò)所述應(yīng)用服務(wù)器和所述客戶(hù)端裝置之間的應(yīng)用服務(wù)器/客戶(hù)端控制路徑,向所述客戶(hù)端裝置發(fā)送消息,所述消息包括對(duì)所述話音的識(shí)別結(jié)果并且使得所述客戶(hù)端裝置更新視覺(jué)顯示以反映所述識(shí)別結(jié)果。
2.如權(quán)利要求1所述的方法,進(jìn)一步包括步驟通過(guò)以下步驟建立所述音頻數(shù)據(jù)路徑通過(guò)所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑,從所述客戶(hù)端裝置接收客戶(hù)端音頻路徑信 息,其中所述客戶(hù)端音頻路徑信息包括所述語(yǔ)音服務(wù)器用于通過(guò)所述音頻數(shù)據(jù)路徑向所述 客戶(hù)端裝置發(fā)送下行鏈路音頻數(shù)據(jù)的地址信息;通過(guò)所述應(yīng)用服務(wù)器/語(yǔ)音服務(wù)器控制路徑,從所述語(yǔ)音服務(wù)器接收語(yǔ)音服務(wù)器音頻 路徑信息,其中所述語(yǔ)音服務(wù)器音頻路徑信息包括所述客戶(hù)端裝置用于通過(guò)所述音頻數(shù)據(jù) 路徑向所述語(yǔ)音服務(wù)器發(fā)送所述上行鏈路音頻數(shù)據(jù)的地址信息;通過(guò)所述應(yīng)用服務(wù)器/語(yǔ)音服務(wù)器控制路徑,向所述語(yǔ)音服務(wù)器發(fā)送所述客戶(hù)端音頻 路徑信息;以及通過(guò)所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑,向所述客戶(hù)端裝置發(fā)送所述語(yǔ)音服務(wù)器音頻 路徑信息。
3.如權(quán)利要求1所述的方法,進(jìn)一步包括通過(guò)所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑,向所述客戶(hù)端裝置發(fā)送多模式頁(yè)面,其中當(dāng) 被解釋時(shí),所述多模式頁(yè)面使得所述客戶(hù)端裝置呈現(xiàn)所述視覺(jué)顯示,所述視覺(jué)顯示包括至 少一個(gè)顯示元素,其中對(duì)所述至少一個(gè)顯示元素的輸入數(shù)據(jù)可由所述客戶(hù)端裝置通過(guò)視覺(jué) 模式和所述語(yǔ)音模式接收。
4.如權(quán)利要求1所述的方法,進(jìn)一步包括通過(guò)所述應(yīng)用服務(wù)器/語(yǔ)音服務(wù)器控制路 徑向所述語(yǔ)音服務(wù)器發(fā)送對(duì)話音對(duì)話的引用。
5.如權(quán)利要求1所述的方法,進(jìn)一步包括通過(guò)所述應(yīng)用服務(wù)器/語(yǔ)音服務(wù)器控制路 徑向所述語(yǔ)音服務(wù)器發(fā)送話音對(duì)話。
6.如權(quán)利要求1所述的方法,進(jìn)一步包括步驟通過(guò)所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑,從所述客戶(hù)端裝置接收所述客戶(hù)端裝置已 經(jīng)發(fā)起機(jī)器代碼的解釋的指示,所述機(jī)器代碼的解釋使得所述客戶(hù)端裝置呈現(xiàn)所述視覺(jué)顯 示,所述視覺(jué)顯示包括至少一個(gè)顯示元素,其中對(duì)所述至少一個(gè)顯示元素的輸入數(shù)據(jù)可由 所述客戶(hù)端裝置通過(guò)視覺(jué)模式和所述語(yǔ)音模式接收;以及通過(guò)所述應(yīng)用服務(wù)器/語(yǔ)音服務(wù)器控制路徑,向所述語(yǔ)音服務(wù)器發(fā)送使得所述語(yǔ)音服 務(wù)器開(kāi)始解釋與所述客戶(hù)端裝置所解釋的所述機(jī)器代碼相關(guān)聯(lián)的話音對(duì)話的指令。
7.如權(quán)利要求1所述的方法,進(jìn)一步包括步驟通過(guò)所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑,從所述客戶(hù)端裝置接收所述客戶(hù)端裝置已經(jīng)根據(jù)所述識(shí)別結(jié)果更新了所述視覺(jué)顯示的指示;以及通過(guò)所述應(yīng)用服務(wù)器/語(yǔ)音服務(wù)器控制路徑,向所述語(yǔ)音服務(wù)器發(fā)送消息以指示所述 客戶(hù)端裝置已經(jīng)更新了所述視覺(jué)顯示。
8.如權(quán)利要求1所述的方法,進(jìn)一步包括步驟通過(guò)所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑,從所述客戶(hù)端裝置接收呈現(xiàn)在所述客戶(hù)端裝 置上的所述視覺(jué)顯示內(nèi)的當(dāng)前焦點(diǎn)已經(jīng)被改變?yōu)椴煌裹c(diǎn)的指示,其中所述不同焦點(diǎn)指示 所述視覺(jué)顯示的顯示元素,其中對(duì)所述顯示元素的輸入數(shù)據(jù)當(dāng)前可由所述客戶(hù)端裝置通過(guò) 視覺(jué)模式和所述語(yǔ)音模式接收;以及通過(guò)所述應(yīng)用服務(wù)器/語(yǔ)音服務(wù)器控制路徑,向所述語(yǔ)音服務(wù)器發(fā)送消息,所述消息 包括將使得所述語(yǔ)音服務(wù)器執(zhí)行與所述不同焦點(diǎn)相對(duì)應(yīng)的機(jī)器代碼的信息。
9.如權(quán)利要求1所述的方法,進(jìn)一步包括步驟通過(guò)所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑,從所述客戶(hù)端裝置接收已經(jīng)發(fā)生了準(zhǔn)許對(duì)所 述客戶(hù)端裝置上所呈現(xiàn)的所述視覺(jué)顯示進(jìn)行更新的客戶(hù)端所生成的事件的指示;通過(guò)所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑,向所述客戶(hù)端裝置發(fā)送使得所述客戶(hù)端裝置 基于所述客戶(hù)端所生成的事件更新所述視覺(jué)顯示的信息;以及通過(guò)所述應(yīng)用服務(wù)器/語(yǔ)音服務(wù)器控制路徑,向所述語(yǔ)音服務(wù)器發(fā)送指令,所述指令 包括指示所述客戶(hù)端所生成的事件的信息。
10.一種由客戶(hù)端裝置執(zhí)行的方法,所述方法包括步驟基于對(duì)使得所述客戶(hù)端裝置呈現(xiàn)視覺(jué)顯示的機(jī)器代碼的解釋來(lái)呈現(xiàn)所述視覺(jué)顯示,其 中所述視覺(jué)顯示包括至少一個(gè)顯示元素,其中對(duì)所述至少一個(gè)顯示元素的輸入數(shù)據(jù)可由所 述客戶(hù)端裝置通過(guò)視覺(jué)模式和語(yǔ)音模式接收; 通過(guò)所述語(yǔ)音模式接收表示用戶(hù)發(fā)音的信號(hào);對(duì)所述信號(hào)進(jìn)行數(shù)字化以生成與所述至少一個(gè)顯示元素的一個(gè)或多個(gè)顯示元素相對(duì) 應(yīng)的上行鏈路音頻數(shù)據(jù);通過(guò)所述客戶(hù)端裝置和語(yǔ)音服務(wù)器之間的音頻數(shù)據(jù)路徑,將所述上行鏈路音頻數(shù)據(jù)發(fā) 送到所述語(yǔ)音服務(wù)器;通過(guò)應(yīng)用服務(wù)器和所述客戶(hù)端裝置之間的應(yīng)用服務(wù)器/客戶(hù)端控制路徑,從所述應(yīng)用 服務(wù)器接收話音識(shí)別結(jié)果,其中所述話音識(shí)別結(jié)果基于已經(jīng)對(duì)所述上行鏈路音頻數(shù)據(jù)執(zhí)行 了話音識(shí)別處理的所述語(yǔ)音服務(wù)器,并且其中所述音頻數(shù)據(jù)路徑不同于所述應(yīng)用服務(wù)器/ 客戶(hù)端控制路徑,并且其中所述語(yǔ)音服務(wù)器不同于所述應(yīng)用服務(wù)器;以及 根據(jù)所述話音識(shí)別結(jié)果更新所述視覺(jué)顯示的所述一個(gè)或多個(gè)顯示元素。
11.如權(quán)利要求10所述的方法,進(jìn)一步包括通過(guò)所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑,從所述應(yīng)用服務(wù)器接收多模式頁(yè)面,其中所 述多模式頁(yè)面包括機(jī)器代碼,并且其中通過(guò)對(duì)所述多模式頁(yè)面內(nèi)的標(biāo)記形式的機(jī)器代碼進(jìn) 行解釋來(lái)執(zhí)行所述視覺(jué)顯示的呈現(xiàn)。
12.如權(quán)利要求10所述的方法,進(jìn)一步包括通過(guò)所述音頻數(shù)據(jù)路徑,從所述語(yǔ)音服務(wù)器接收下行鏈路音頻數(shù)據(jù),其中所述下行鏈 路音頻數(shù)據(jù)包括音頻提示;以及在所述客戶(hù)端裝置的音頻輸出裝置上呈現(xiàn)所述音頻提示。
13.如權(quán)利要求10所述的方法,進(jìn)一步包括通過(guò)所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑,向所述應(yīng)用服務(wù)器發(fā)送客戶(hù)端音頻路徑信 息,其中所述客戶(hù)端音頻路徑信息包括所述語(yǔ)音服務(wù)器用于通過(guò)所述音頻數(shù)據(jù)路徑向所述 客戶(hù)端裝置發(fā)送下行鏈路音頻數(shù)據(jù)的地址信息;以及通過(guò)所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑,從所述應(yīng)用服務(wù)器接收語(yǔ)音服務(wù)器音頻路徑 信息,其中所述語(yǔ)音服務(wù)器音頻路徑信息包括所述客戶(hù)端裝置用于通過(guò)所述音頻數(shù)據(jù)路徑 向所述語(yǔ)音服務(wù)器發(fā)送所述上行鏈路音頻數(shù)據(jù)的地址信息。
14.如權(quán)利要求10所述的方法,進(jìn)一步包括接收準(zhǔn)許對(duì)所述客戶(hù)端裝置上所呈現(xiàn)的所述視覺(jué)顯示進(jìn)行更新的用戶(hù)輸入;基于接收所述用戶(hù)輸入,通過(guò)所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑,向所述應(yīng)用服務(wù)器 發(fā)送已經(jīng)發(fā)生了客戶(hù)端所生成的事件的指示;以及通過(guò)所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑,從所述應(yīng)用服務(wù)器接收使得所述客戶(hù)端裝置 基于所述客戶(hù)端所生成的事件更新所述視覺(jué)顯示的信息。
15.如權(quán)利要求14所述的方法,其中接收所述用戶(hù)輸入包括接收所述用戶(hù)已經(jīng)選擇了與視覺(jué)視圖當(dāng)前聚焦于其上的顯示元素不同的另一個(gè)顯示 元素的指示。
16.如權(quán)利要求10所述的方法,進(jìn)一步包括接收所述用戶(hù)已經(jīng)使用所述客戶(hù)端裝置的鍵盤(pán)向用于一個(gè)或多個(gè)顯示元素的數(shù)據(jù)輸 入?yún)^(qū)域中輸入了文本的指示。
17. 一種系統(tǒng),包括客戶(hù)端裝置,其適于顯示至少一個(gè)顯示元素,其中對(duì)所述至少一個(gè)顯示元素的輸入數(shù) 據(jù)可通過(guò)視覺(jué)模式和語(yǔ)音模式接收,并且當(dāng)通過(guò)所述語(yǔ)音模式接收到作為話音的輸入數(shù)據(jù) 時(shí),其通過(guò)所述客戶(hù)端裝置和語(yǔ)音服務(wù)器之間的音頻數(shù)據(jù)路徑向所述語(yǔ)音服務(wù)器發(fā)送表示 所述話音的上行鏈路音頻數(shù)據(jù);語(yǔ)音服務(wù)器,其適于基于所述上行鏈路音頻數(shù)據(jù)確定所述話音是否被識(shí)別,并且當(dāng)所 述話音被識(shí)別時(shí),通過(guò)應(yīng)用服務(wù)器和所述語(yǔ)音服務(wù)器之間的應(yīng)用服務(wù)器/語(yǔ)音服務(wù)器控制 路徑向所述應(yīng)用服務(wù)器發(fā)送所述話音被識(shí)別的指示;以及應(yīng)用服務(wù)器,其適于接收所述話音已被識(shí)別的指示,并且基于所述指示通過(guò)所述應(yīng)用 服務(wù)器和所述客戶(hù)端裝置之間的應(yīng)用服務(wù)器/客戶(hù)端控制路徑向所述客戶(hù)端裝置發(fā)送話 音識(shí)別結(jié)果,其中所述應(yīng)用服務(wù)器/客戶(hù)端控制路徑不同于所述音頻數(shù)據(jù)路徑。
18.如權(quán)利要求17所述的系統(tǒng),其中所述應(yīng)用服務(wù)器進(jìn)一步適于通過(guò)所述應(yīng)用服務(wù)器 /客戶(hù)端控制路徑從所述客戶(hù)端裝置接收第一音頻路徑信息,并且通過(guò)所述應(yīng)用服務(wù)器/ 語(yǔ)音服務(wù)器控制路徑從所述語(yǔ)音服務(wù)器接收第二音頻路徑信息,其中所述第一音頻路徑信 息包括將要用于通過(guò)所述音頻數(shù)據(jù)路徑將下行鏈路音頻數(shù)據(jù)從所述語(yǔ)音服務(wù)器發(fā)送到所 述客戶(hù)端裝置的客戶(hù)端互聯(lián)網(wǎng)協(xié)議(IP)地址,并且其中所述第二音頻路徑信息包括將要 用于通過(guò)所述音頻數(shù)據(jù)路徑將上行鏈路音頻數(shù)據(jù)從所述客戶(hù)端裝置發(fā)送到所述語(yǔ)音服務(wù) 器的語(yǔ)音服務(wù)器IP地址,并且其中所述應(yīng)用服務(wù)器進(jìn)一步適于通過(guò)所述應(yīng)用服務(wù)器/語(yǔ)音 服務(wù)器控制路徑向所述語(yǔ)音服務(wù)器發(fā)送所述第一音頻路徑信息,并且通過(guò)所述應(yīng)用服務(wù)器 /客戶(hù)端控制路徑向所述客戶(hù)端裝置發(fā)送所述第二音頻路徑信息,來(lái)發(fā)起所述音頻數(shù)據(jù)路徑的建立。
19.如權(quán)利要求17所述的系統(tǒng),其中所述客戶(hù)端裝置是從包括蜂窩電話、無(wú)線電裝置、 尋呼機(jī)、個(gè)人數(shù)字助理、個(gè)人導(dǎo)航裝置、移動(dòng)計(jì)算機(jī)系統(tǒng)、車(chē)輛計(jì)算機(jī)系統(tǒng)、飛機(jī)計(jì)算機(jī)系 統(tǒng)、計(jì)算機(jī)、膝上計(jì)算機(jī)、筆記本計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)以及在計(jì)算機(jī)上實(shí)現(xiàn)的通過(guò)互聯(lián)網(wǎng)協(xié) 議傳送語(yǔ)音(VoIP)電話的裝置的組中所選擇的裝置。
20.如權(quán)利要求17所述的系統(tǒng),其中所述應(yīng)用服務(wù)器和所述語(yǔ)音服務(wù)器彼此的不同在 于所述應(yīng)用服務(wù)器和所述語(yǔ)音服務(wù)器執(zhí)行不同的處理,并且交換影響所述應(yīng)用服務(wù)器/ 語(yǔ)音服務(wù)器控制路徑上的不同處理的性能的控制消息。
全文摘要
系統(tǒng)實(shí)施例包括客戶(hù)端裝置(102)、語(yǔ)音服務(wù)器(106)和應(yīng)用服務(wù)器(104)。語(yǔ)音服務(wù)器不同于應(yīng)用服務(wù)器??蛻?hù)端裝置呈現(xiàn)(316)包括可通過(guò)視覺(jué)模式和語(yǔ)音模式對(duì)其接收輸入數(shù)據(jù)的至少一個(gè)顯示元素的視覺(jué)顯示??蛻?hù)端裝置可通過(guò)語(yǔ)音模式接收話音并且通過(guò)音頻數(shù)據(jù)路徑(124)向語(yǔ)音服務(wù)器發(fā)送(502)表示話音的上行鏈路音頻數(shù)據(jù)。應(yīng)用服務(wù)器通過(guò)應(yīng)用服務(wù)器/語(yǔ)音服務(wù)器控制路徑(122)從語(yǔ)音服務(wù)器接收(514)話音識(shí)別結(jié)果。應(yīng)用服務(wù)器通過(guò)應(yīng)用服務(wù)器/客戶(hù)端控制路徑(120)向客戶(hù)端裝置發(fā)送(514)包括話音識(shí)別結(jié)果的消息??蛻?hù)端裝置根據(jù)話音識(shí)別結(jié)果更新(516)一個(gè)或多個(gè)顯示元素。
文檔編號(hào)G06F15/16GK101911041SQ200880123620
公開(kāi)日2010年12月8日 申請(qǐng)日期2008年12月19日 優(yōu)先權(quán)日2007年12月31日
發(fā)明者喬納森·R·恩格斯瑪, 詹姆斯·C·費(fèi)爾蘭斯, 阿努阿伊·昆努梅爾·恩奈 申請(qǐng)人:摩托羅拉公司