亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

資源受限設(shè)備中離線語義處理的便利化的制作方法

文檔序號:11406745閱讀:187來源:國知局
資源受限設(shè)備中離線語義處理的便利化的制造方法與工藝



背景技術(shù):

基于語音的用戶界面越來越多地用于計算機和其它電子設(shè)備的控制中?;谡Z音的用戶界面的一個特別有用的應(yīng)用是與諸如移動電話、手表、平板計算機、頭戴式設(shè)備、虛擬或增強現(xiàn)實設(shè)備等的便攜式電子設(shè)備一起使用。另一個有用的應(yīng)用是與車載電子系統(tǒng)(例如包含導(dǎo)航和音頻功能的車輛系統(tǒng))一起使用。另一個有用的應(yīng)用是與傳統(tǒng)上不與計算機相關(guān)聯(lián)的設(shè)備和其它設(shè)備,諸如與“物聯(lián)網(wǎng)”(iot)類別相關(guān)聯(lián)的照明、電器、加熱和管道、安全系統(tǒng)等等的一起使用。通常該應(yīng)用的特征在于在期望鼓勵用戶保持專注于其它任務(wù)的情況下,例如當用戶正在駕駛或步行時,限制更傳統(tǒng)的鍵盤或觸摸屏輸入和/或使用的非傳統(tǒng)形式因素。

基于語音的用戶界面繼續(xù)從僅僅理解簡單和直接命令的早期的基本界面演變?yōu)楦鼜?fù)雜的界面,其響應(yīng)自然語言請求并且可以理解場境并且管理來回對話或與用戶的會話。許多基于語音的用戶界面包括將人類語音的音頻記錄轉(zhuǎn)換為文本的初始講話到文本轉(zhuǎn)換,和分析文本以試圖確定用戶請求的含義的語義分析?;谟脩粲涗浀恼Z音的確定的含義,可以采取動作,諸如執(zhí)行搜索或以其它方式控制計算機或其它電子設(shè)備。

基于語音的用戶界面的計算資源需求(例如,在處理器和/或存儲器資源方面)可以是相當大的,并且結(jié)果,一些傳統(tǒng)的基于語音的用戶界面方法在由相對低功率的客戶端設(shè)備接收和記錄語音輸入的情況下采用客戶端-服務(wù)器架構(gòu),通過諸如因特網(wǎng)的網(wǎng)絡(luò)將記錄傳送到用于講話到文本轉(zhuǎn)換和語義處理的在線服務(wù),并且通過在線服務(wù)并發(fā)送回客戶端設(shè)備生成適當?shù)捻憫?yīng)。在線服務(wù)可以投入大量的計算資源來處理語音輸入,使得能夠?qū)崿F(xiàn)比在客戶端設(shè)備內(nèi)本地實現(xiàn)的更復(fù)雜的講話識別和語義分析功能。然而,客戶端-服務(wù)器方法在處理語音輸入時必然要求客戶端在線(即,與在線服務(wù)通信)。特別是在移動和車輛應(yīng)用中,可能無法在所有時間和在所有位置保證連續(xù)的在線連接,因此每當設(shè)備“離線”并且因此未連接到在線服務(wù)時,可能在客戶端設(shè)備中禁用客戶端-服務(wù)器基于語音的用戶界面。



技術(shù)實現(xiàn)要素:

本說明書總體上涉及有助于資源受限的啟用語音的設(shè)備中的離線語義處理的各種實現(xiàn)。在此描述的各種實現(xiàn)例如可以使得能夠或者有助于提供更穩(wěn)健的啟用語音的設(shè)備,其能夠有效處理基于語音的查詢,無論該設(shè)備是否接入網(wǎng)絡(luò)。而且,即使在設(shè)備沒有接入網(wǎng)絡(luò)的情況下,設(shè)備可以能夠處理基于語音的查詢,而不需要接入網(wǎng)絡(luò),從而節(jié)省了與這樣的接入相關(guān)聯(lián)的處理和帶寬。此外,在一些實例中,資源受限啟用語音的設(shè)備可以能夠響應(yīng)于基于語音的查詢與利用網(wǎng)絡(luò)接入相比更快地執(zhí)行動作,特別是當僅僅慢速和/或差質(zhì)量的到網(wǎng)絡(luò)的連接可用時。

這種設(shè)備的離線語義處理器利用具有減少的資源要求的離線語法模型來解析由設(shè)備接收的基于語音的查詢。在一些實現(xiàn)中,離線語法模型可以被更新以包括在所謂的“長尾”基于語音的查詢和可由資源受限設(shè)備使用離線語法模型執(zhí)行的響應(yīng)動作之間的映射。以這種方式,用戶可以向與用戶的個人計算設(shè)備相關(guān)聯(lián)的離線語義處理器使用的離線語法添加定制的查詢動作映射。

因此,在一些實施方式中,一種方法可以包括:對在資源受限設(shè)備處發(fā)布的查詢進行語義處理,以識別可由資源受限設(shè)備執(zhí)行的一個或多個候選響應(yīng)動作;分析候選響應(yīng)動作執(zhí)行統(tǒng)計以從一個或多個候選響應(yīng)動作中選擇合格響應(yīng)動作,其中候選響應(yīng)動作執(zhí)行統(tǒng)計與在發(fā)布查詢之后通過資源受限設(shè)備的一個或多個候選響應(yīng)動作的執(zhí)行有關(guān);以及更新存儲在資源受限設(shè)備中的離線語法模型以包括所發(fā)布的查詢和合格響應(yīng)動作之間的映射,其中離線語法模型將查詢映射到在離線時由資源受限設(shè)備可執(zhí)行的動作。由此可以改進資源受限設(shè)備的能力、性能和效率。

在一些實現(xiàn)中,該方法還可以包括提供建議執(zhí)行相應(yīng)的一個或多個候選動作的一個或多個提示作為向操作資源受限設(shè)備的用戶的輸出。在一些實現(xiàn)中,分析可以包括分析與用戶對一個或多個提示的響應(yīng)有關(guān)的統(tǒng)計。在一些實現(xiàn)中,一個或多個提示可以包括可選擇的圖形元素。在一些實現(xiàn)中,一個或多個提示可以包括聽覺或觸覺提示。

在一些實現(xiàn)中,該方法還可以包括將離線語法模型傳送到資源受限設(shè)備以供資源受限設(shè)備存儲,并且在離線時由資源受限設(shè)備的語義處理器使用。在一些實現(xiàn)中,將離線語法模型傳送到資源受限設(shè)備動態(tài)地更新存儲在資源受限設(shè)備中的離線語法模型。

在一些實現(xiàn)中,所發(fā)布的查詢可以是基于語音的查詢,并且離線語法模型將基于語音的查詢映射到動作。在一些實現(xiàn)中,該方法還可以包括收集指示與操作資源受限設(shè)備的用戶相關(guān)聯(lián)的通過多個資源受限設(shè)備一個或多個候選動作的執(zhí)行的數(shù)據(jù)。在一些實現(xiàn)中,分析統(tǒng)計數(shù)據(jù)可以基于收集的數(shù)據(jù)。

在一些實現(xiàn)中,語義處理可以使用在線語法模型來執(zhí)行,其中離線語法模型相對于在線語法模型具有減少的資源需求。在一些實現(xiàn)中,該方法還可以包括限制對資源受限設(shè)備的一個或多個映射、發(fā)布的查詢和離線語法的訪問。

此外,一些實現(xiàn)包括一種裝置,該裝置包括存儲器和一個或多個處理器,其可操作以執(zhí)行存儲在存儲器中的指令,其中指令被配置為執(zhí)行前述方法中的任何一個。一些實現(xiàn)還包括存儲可由一個或多個處理器執(zhí)行上述方法中的任一個的計算機指令的非暫時性計算機可讀存儲介質(zhì)。

應(yīng)當理解,在此更詳細地描述的前述概念和附加概念的所有組合被認為是本文所公開的主題的一部分。例如,出現(xiàn)在本公開內(nèi)容結(jié)尾處的所要求保護的主題的所有組合被認為是本文所公開的主題的一部分。

附圖說明

圖1示出了計算機系統(tǒng)的示例架構(gòu)。

圖2是示例分布式語音輸入處理環(huán)境的框圖。

圖3是示出使用圖2的環(huán)境處理語音輸入的示例方法的流程圖。

圖4示出了用于在動作域中處理語音輸入的示例語法模型。

圖5是示出構(gòu)建和/或更新離線語法模型的示例方法的流程圖。

具體實施方式

在下文討論的實現(xiàn)中,資源受限的啟用語音的設(shè)備的離線語義處理器利用具有減少的資源要求的離線語法模型來解析由設(shè)備接收的基于語音的查詢。在一些實現(xiàn)中,離線語法模型可以被更新以包括在所謂的“長尾(longtail)”基于語音的查詢和可由資源受限設(shè)備使用離線語法模型執(zhí)行的響應(yīng)動作之間的映射。如本文所使用的,“長尾查詢”是在查詢的搜索量中唯一的或相對不頻繁地發(fā)生的查詢。在一些情況下,長尾查詢可以是字面上長(例如,包括相對大量的令牌),但這不是必需的。作為示例,基于語音的查詢“播放<藝術(shù)家姓名>”可以由大群體的許多用戶使用以啟動特定藝術(shù)家的回放,并且因此將不被認為是長尾查詢。相比之下,假設(shè)一個特定用戶嘗試使用諸如“我真的對于某些<藝術(shù)家姓名>感動”的短語來啟動藝術(shù)家的回放。后一個查詢可能有資格作為長尾查詢(除非在未來大量用戶開始以同樣的方式使用它)。

下文討論關(guān)于所選擇的實現(xiàn)的進一步細節(jié)。然而,應(yīng)當理解,可以設(shè)想其它實現(xiàn),因此本文公開的實現(xiàn)不是排他的。

示例硬件和軟件環(huán)境

現(xiàn)在轉(zhuǎn)到附圖,其中在幾個視圖中相同的附圖標記表示相同的部件,圖1是示例計算機系統(tǒng)10中的電子部件的框圖。系統(tǒng)10通常包括經(jīng)由總線子系統(tǒng)14與多個外圍設(shè)備通信的至少一個處理器12。這些外圍設(shè)備可以包括存儲子系統(tǒng)16,例如,存儲器子系統(tǒng)18和文件存儲子系統(tǒng)20、用戶界面輸入設(shè)備22、用戶界面輸出設(shè)備24和網(wǎng)絡(luò)接口子系統(tǒng)26。輸入和輸出設(shè)備允許用戶與系統(tǒng)10交互。網(wǎng)絡(luò)接口子系統(tǒng)26提供連接到外部網(wǎng)絡(luò)的接口,以及耦合到其它計算機系統(tǒng)中的相應(yīng)接口設(shè)備。

在一些實現(xiàn)中,用戶界面輸入設(shè)備22可以包括鍵盤,諸如鼠標、軌跡球、觸摸板或圖形輸入板的指示設(shè)備、掃描儀、結(jié)合到顯示器中的觸摸屏、諸如語音識別系統(tǒng)的音頻輸入設(shè)備、麥克風(fēng)和/或其它類型的輸入設(shè)備。一般來說,術(shù)語“輸入設(shè)備”的使用旨在包括將信息輸入到計算機系統(tǒng)10中或通信網(wǎng)絡(luò)上的所有可能類型的設(shè)備和方式。

用戶界面輸出設(shè)備24可以包括顯示子系統(tǒng)、打印機、傳真機或諸如音頻輸出設(shè)備的非可視顯示器。顯示子系統(tǒng)可以包括陰極射線管(crt)、諸如液晶顯示器(lcd)的平板裝置、投影裝置或用于產(chǎn)生可見圖像的一些其它機構(gòu)。顯示子系統(tǒng)還可以例如經(jīng)由音頻輸出設(shè)備提供非視覺顯示。一般來說,術(shù)語“輸出設(shè)備”的使用旨在包括從計算機系統(tǒng)10向用戶或向另一機器或計算機系統(tǒng)輸出信息的所有可能類型的設(shè)備和方式。

存儲子系統(tǒng)16存儲提供本文所述的一些或全部模塊的功能的編程和數(shù)據(jù)結(jié)構(gòu)。例如,存儲子系統(tǒng)16可以包括用于執(zhí)行下文公開的方法的所選方面的邏輯。

這些軟件模塊通常由處理器12單獨執(zhí)行或與其它處理器組合執(zhí)行。在存儲子系統(tǒng)16中使用的存儲器子系統(tǒng)18可以包括多個存儲器,包括用于在程序執(zhí)行期間存儲指令和數(shù)據(jù)的主隨機存取存儲器(ram)28和其中存儲固定指令的只讀存儲器(rom)30。文件存儲子系統(tǒng)20可以為程序和數(shù)據(jù)文件提供持久存儲,并且可以包括硬盤驅(qū)動器、軟盤驅(qū)動器以及相關(guān)聯(lián)的可移動介質(zhì)、cd-rom驅(qū)動器、光驅(qū)動器或可移動介質(zhì)盒。實現(xiàn)某些實現(xiàn)的功能的模塊可以由文件存儲子系統(tǒng)20存儲在存儲子系統(tǒng)16中或者由處理器12可訪問的其它機器中。

總線子系統(tǒng)14提供用于允許系統(tǒng)10的各種組件和子系統(tǒng)按照預(yù)期彼此通信的機制。雖然總線子系統(tǒng)14被示意性地示出為單個總線,但是總線子系統(tǒng)的替代實現(xiàn)可以使用多個總線。

系統(tǒng)10可以是各種類型的,包括移動設(shè)備、便攜式電子設(shè)備、嵌入式設(shè)備、臺式計算機、膝上型計算機、平板計算機、可穿戴設(shè)備、工作站、服務(wù)器、計算集群、刀片服務(wù)器、服務(wù)器群或任何其它數(shù)據(jù)處理系統(tǒng)或計算設(shè)備。另外,由系統(tǒng)10實現(xiàn)的功能可以分布在通過一個或多個網(wǎng)絡(luò)彼此互連的多個系統(tǒng)中,例如在客戶端服務(wù)器、對等或其它網(wǎng)絡(luò)布置中。由于計算機和網(wǎng)絡(luò)的不斷變化的性質(zhì),圖1中描繪的系統(tǒng)10的描述僅旨在用于說明一些實現(xiàn)的具體實例。系統(tǒng)10的許多其它配置可能具有比圖1所示的計算機系統(tǒng)更多或更少的組件。

下文討論的實現(xiàn)可以包括實現(xiàn)本文所公開的功能的各種組合的一個或多個方法。其它實現(xiàn)可以包括存儲可由處理器執(zhí)行以執(zhí)行諸如本文描述的方法中的一個或多個的方法的指令的非暫時性計算機可讀存儲介質(zhì)。其它實現(xiàn)可以包括含有存儲器和一個或多個處理器的裝置,處理器可操作以執(zhí)行存儲在存儲器中的指令,以執(zhí)行諸如本文描述的一個或多個方法。

以下描述的各種程序代碼可以基于其在特定實現(xiàn)中實現(xiàn)的應(yīng)用來標識。然而,應(yīng)當理解,以下的任何特定程序命名僅僅是為了方便。此外,給定其中計算機程序可以被組織成例程、過程、方法、模塊、對象等的無窮多種方式,以及可以在駐留的各種軟件層之間分配程序功能性的各種方式在典型的計算機(例如,操作系統(tǒng)、庫、api、應(yīng)用、小程序等)內(nèi),但是應(yīng)當理解,一些實現(xiàn)可以不限于本文所描述的程序功能的特定組織和分配。

此外,將理解,可以由任何程序代碼執(zhí)行或在任何例程、工作流等中執(zhí)行的本文描述的各種操作可以被組合、拆分、重新排序、省略、順序執(zhí)行或者并行和/或補充其它技術(shù),因此,一些實現(xiàn)不限于本文所描述的特定操作順序。

分布式語音輸入處理環(huán)境

圖2示出了示例分布式語音輸入處理環(huán)境50,例如用于與諸如在線搜索服務(wù)54的在線服務(wù)通信的啟用語音的設(shè)備52。在下文討論的實現(xiàn)中,例如,啟用語音的設(shè)備52描述為諸如蜂窩電話或平板計算機的移動設(shè)備。然而,其它實現(xiàn)可以利用各種其它啟用語音的設(shè)備,因此以下對移動設(shè)備的引用僅僅是為了簡化下面的討論的目的。無數(shù)其它類型的啟用語音的設(shè)備可以使用本文描述的功能,包括例如膝上型計算機、手表、頭戴式設(shè)備、虛擬或增強現(xiàn)實設(shè)備、其它可佩戴設(shè)備、音頻/視頻系統(tǒng)、導(dǎo)航系統(tǒng)、車輛以及其它的車載系統(tǒng)等。此外,許多這樣的啟用語音的設(shè)備可以被認為是資源受限的,因為這些設(shè)備的存儲器和/或處理能力可能基于技術(shù)、經(jīng)濟或其它原因而被限制,特別是當與可以將幾乎無限的計算資源用于單個任務(wù)的基于在線或基于云的服務(wù)的能力相比時。一些這樣的設(shè)備也可以被認為是離線設(shè)備,只要這樣的設(shè)備能夠在至少一部分時間“離線”操作并且不與在線服務(wù)連接,例如基于這樣的設(shè)備在正常使用情況下可能時常經(jīng)歷臨時網(wǎng)絡(luò)連接中斷。

在一些實現(xiàn)中的在線搜索服務(wù)54可以被實現(xiàn)為采用云基礎(chǔ)設(shè)施的基于云的服務(wù),例如使用運行適于處理來自多個用戶的大量請求的軟件的高性能計算機的服務(wù)器群或集群。在所示的實現(xiàn)中,在線搜索服務(wù)54能夠查詢一個或多個數(shù)據(jù)庫以定位所請求的信息,例如以提供包括所請求的信息的網(wǎng)站的列表。在線搜索服務(wù)54可以不限于基于語音的搜索,并且還可以能夠處理其它類型的搜索,例如基于文本的搜索、基于圖像的搜索等。在其它實現(xiàn)中,在線系統(tǒng)不必處理搜索,并且可以限于處理針對非搜索動作的基于語音的請求,諸如設(shè)置警報或提醒、管理列表、經(jīng)由電話、文本、電子郵件等發(fā)起與其它用戶的通信,或者執(zhí)行通過語音輸入發(fā)起的其它動作。為了本公開的目的,基于語音的請求和其它形式的語音輸入可以統(tǒng)稱為基于語音的查詢,而不管基于語音的查詢是否試圖發(fā)起搜索,提出問題,發(fā)布命令等。因此,一般來說,例如包括一個或多個詞或短語的任何語音輸入可以被認為是在所示實現(xiàn)的場境內(nèi)的基于語音的查詢。

在圖2的實現(xiàn)中,由啟用語音的設(shè)備52接收的語音輸入由啟用語音的應(yīng)用(或“app”)56處理,在一些實現(xiàn)中,啟用語音的應(yīng)用可以是搜索應(yīng)用。在其它實現(xiàn)中,可以在啟用語音的設(shè)備的操作系統(tǒng)或固件內(nèi)處理語音輸入。所示實現(xiàn)中的應(yīng)用56包括語音動作模塊58、在線接口模塊60和呈現(xiàn)/同步模塊62。語音動作模塊58接收對于應(yīng)用的語音輸入,并協(xié)調(diào)語音輸入的分析和啟用語音的設(shè)備52的用戶的一個或多個動作的執(zhí)行。在線接口模塊60提供與在線搜索服務(wù)54的接口,包括將語音輸入轉(zhuǎn)發(fā)到服務(wù)54并接收對其的響應(yīng)。例如經(jīng)由視覺顯示器、說出的音頻或適合于特定啟用語音的設(shè)備的其它反饋接口,呈現(xiàn)/同步模塊62管理對對用戶的響應(yīng)的呈現(xiàn)。另外,在一些實現(xiàn)中,模塊62還處理與在線搜索服務(wù)54的同步,例如,每當響應(yīng)或動作影響在線搜索服務(wù)中為用戶維護的數(shù)據(jù)時(例如,其中語音輸入請求創(chuàng)建在基于云的日歷中維護的約會)。

應(yīng)用56依賴于各種中間件、框架、操作系統(tǒng)和/或固件模塊來處理語音輸入,包括例如流傳輸語音到文本模塊64和語義處理器模塊66,語義處理器模塊66包括解析器模塊68、對話管理器模塊70和動作構(gòu)建器模塊72。

模塊64接收例如以數(shù)字音頻數(shù)據(jù)形式的語音輸入的音頻記錄,并將數(shù)字音頻數(shù)據(jù)轉(zhuǎn)換成一個或多個文本詞或短語(本文中也稱為“令牌”)。在所示的實現(xiàn)中,模塊64也是流傳輸模塊,使得語音輸入在逐個令牌的基礎(chǔ)上并且實時地或接近實時地被轉(zhuǎn)換成文本,使得令牌可以有效地與用戶的講話同時地,并且因此在用戶宣布完整的說出的請求之前,從模塊64輸出。模塊64可以依賴于一個或多個本地存儲的離線聲音和/或語言模型74,其與語言中的詞序列一起建模音頻信號和語言中的發(fā)聲單元之間的關(guān)系。在一些實現(xiàn)中,可以使用單個模型74,而在其它實現(xiàn)中,可以支持多個模型,例如以支持多種語言、多個揚聲器等。

盡管模塊64將講話轉(zhuǎn)換為文本,但是為了制定適當?shù)捻憫?yīng)的目的,模塊66嘗試辨別由模塊64輸出的文本的語義或含義。解析器模塊68例如依賴于一個或多個離線語法模型76來將文本映射到特定動作,并且識別限制這些動作的執(zhí)行的屬性,例如,對這樣的動作的輸入變量。在一些實現(xiàn)中,可以使用單個模型76,而在其它實現(xiàn)中,可以支持多個模型,例如以支持不同的動作或動作域(即,相關(guān)動作的集合,例如通信相關(guān)動作、搜索相關(guān)動作、音頻/視覺相關(guān)動作、日歷相關(guān)動作、設(shè)備控制相關(guān)動作等)。

作為示例,離線語法模型76可以支持諸如“設(shè)置提醒”的動作,該動作具有指定要設(shè)置什么類型的提醒的提醒類型參數(shù),指定與提醒相關(guān)聯(lián)的一個或多個項目的項目參數(shù),以及指定激活提醒并提醒用戶的時間的時間參數(shù)。解析器模塊64可以接收諸如“提醒我”、“拿取”、“面包”和“工作之后”的令牌序列,并將令牌序列映射到設(shè)置具有提醒類型參數(shù)集被設(shè)置為“購物提醒”、項目參數(shù)被設(shè)置為“面包”以及時間參數(shù)被設(shè)置為“5:00pm”的提醒的動作,使得在那天下午5點,用戶接收到“購買面包”的提醒。

解析器模塊68還可以結(jié)合對話管理器模塊70一起工作,對話管理器模塊70管理與用戶的對話。在該場境中,對話是指與兩個個體之間的對話類似的一組語音輸入和響應(yīng)。因此,模塊70維護對話的“狀態(tài)”,以使得在處理隨后的語音輸入時能夠使用從先前語音輸入中的用戶獲得的信息。因此,例如,如果用戶要說“提醒我拿取面包”,則可以生成回答以說“好的,你希望何時提醒?”,使得隨后的“工作之后”的語音輸入將被綁回到原始請求以創(chuàng)建提醒。

動作構(gòu)建器模塊72從解析器模塊68接收表示語音輸入解釋的解析的文本,并且生成動作以及任何相關(guān)聯(lián)的參數(shù),用于由啟用語音的應(yīng)用56的模塊62處理。動作構(gòu)建器模塊72可以依賴于一個或多個離線動作模型78,其結(jié)合了用于從解析的文本創(chuàng)建動作的各種規(guī)則。在一些實現(xiàn)中,例如,動作可以被定義為函數(shù)f,使得f(it)=au,其中t表示輸入解釋的類型,并且u表示輸出動作的類型。因此f可以包括彼此映射的多個輸入對(t、u),例如,作為f(it)=au,其中it是類型t的輸入proto變量,au是輸出模塊宗量或參數(shù)類型u。應(yīng)當理解,一些參數(shù)可以被直接接收作為語音輸入,而一些參數(shù)可以以其它方式,例如基于用戶的位置、人口統(tǒng)計信息或者基于用戶特有的其它信息來確定。例如,如果用戶要說“提醒我在雜貨店拿取面包”,則在沒有諸如用戶的當前位置、用戶在工作和家之間的已知路線、用戶的普通雜貨店等附加信息的情況下可能無法確定位置參數(shù)。

應(yīng)當理解,在一些實現(xiàn)中,模型74、76和78可以組合成更少的模型或分成另外的模型,如模塊64、68、70和72的功能性。此外,模型74-78在本文中被稱為離線模型,只要模型被本地存儲在啟用語音的設(shè)備52上并且因此當設(shè)備52不與在線搜索服務(wù)54通信時可離線訪問。

此外,在線搜索服務(wù)54通常包括用于處理語音輸入的補充功能,例如使用依賴于各種聲學(xué)/語言、語法和/或動作模型82的基于語音的查詢處理器80。將理解,在一些實現(xiàn)中,特別是當啟用語音的設(shè)備52是資源受限設(shè)備時,基于語音的查詢處理器80和由此使用的模型82可以實現(xiàn)比本地的啟用語音的設(shè)備52更復(fù)雜和計算資源密集的語音處理功能。然而,在其它實現(xiàn)中,可以不使用補充的在線功能。

在一些實現(xiàn)中,可以支持在線和離線功能,例如使得每當設(shè)備與在線服務(wù)通信時使用在線功能,而當不存在連接時使用離線功能。在其它實現(xiàn)中,可以將不同的動作或動作域分配給在線和離線功能,而在其它實現(xiàn)中,可以僅在離線功能未能充分處理特定語音輸入時使用在線功能。

例如,圖3示出了可以由啟用語音的設(shè)備52執(zhí)行以處理語音輸入的語音處理例程100。例程100在框102中通過接收例如以數(shù)字音頻信號形式的語音輸入開始。在該實現(xiàn)中,進行初始嘗試以將語音輸入轉(zhuǎn)發(fā)到在線搜索服務(wù)(框104)。如果例如由于缺乏連接或缺乏來自在線搜索服務(wù)的響應(yīng)而不成功,則框106將控制傳遞到框108以將語音輸入轉(zhuǎn)換為文本令牌(框108,例如使用圖2的模塊64),解析文本令牌(框110,例如使用圖2的模塊68),并且從解析的文本構(gòu)建動作(框112,例如使用圖2的模塊72)。然后,所得到的動作用于執(zhí)行客戶端側(cè)呈現(xiàn)和同步(框114,例如,使用圖2的模塊62),并且語音輸入的處理完成。

返回到框106,如果將語音輸入轉(zhuǎn)發(fā)到在線搜索服務(wù)的嘗試成功,則框106繞過框108-112并直接將控制傳遞到框114以執(zhí)行客戶端側(cè)呈現(xiàn)和同步。然后語音輸入的處理完成。應(yīng)當理解,在其它實現(xiàn)中,如上所述,可以在在線處理之前嘗試離線處理,例如,當語音輸入可以在本地處理時避免不必要的數(shù)據(jù)通信。

用于資源受限離線設(shè)備的動態(tài)可更新離線語法模型

如上所述,在一些實現(xiàn)中,啟用語音的設(shè)備可能是資源受限的,并且可能缺乏在線服務(wù)的原始計算能力和/或存儲能力。與實現(xiàn)基于語音的用戶界面相關(guān)的許多復(fù)雜性體現(xiàn)在實現(xiàn)這種功能的各種模塊所使用的模型中,包括例如將文本映射到動作的語法模型。

在這方面,語法模型可以指代適于將一個或多個文本詞或短語(這里統(tǒng)稱為“令牌”)映射到要由設(shè)備實現(xiàn)的一個或多個動作的任何數(shù)據(jù)結(jié)構(gòu)。映射到特定動作的文本詞或短語也可以被認為構(gòu)成映射到動作的不同的基于語音的查詢。語法模型可以被實現(xiàn)為例如轉(zhuǎn)變狀態(tài)圖或其它合適的數(shù)據(jù)結(jié)構(gòu)。此外,可以以多種方式生成語法模型,例如,通過編程、通過訓(xùn)練等。

動作可以指實際上可以由特定設(shè)備執(zhí)行的任何操作,諸如執(zhí)行搜索、發(fā)出呼叫、發(fā)送文本消息、發(fā)送電子郵件、設(shè)置提醒、獲取方向、設(shè)置約會、改變設(shè)備設(shè)置、創(chuàng)建筆記、播放歌曲或視頻、改變音量等。在一些實現(xiàn)中,動作可以被聚組為被稱為動作域的集合,例如通信動作域(用于發(fā)出呼叫、發(fā)送短信等)、媒體動作域(用于播放歌曲、播放視頻等)、規(guī)劃動作域(用于創(chuàng)建提醒、創(chuàng)建約會等)以及導(dǎo)航動作域(用于顯示地圖、獲取方向等)等等。將理解的是,對于不同的語言,對于不同的揚聲器以及對于不同的最終用戶應(yīng)用,語法模型可以變化。

語法模型的效用至少部分地基于為不同動作創(chuàng)建的不同映射的數(shù)量。語言是不斷發(fā)展的,并且不同的說話者可以說不同的指令以例如基于年齡、國家、地區(qū)等的差異來執(zhí)行相同的動作。然而,在語法模型內(nèi)實現(xiàn)的映射的數(shù)量通常增加了存儲模型所需的存儲量,以及識別模型中的特定映射所需的處理時間和資源量。

給定在許多在線服務(wù)中可用的廣泛的計算資源,許多這樣的服務(wù)使用能夠處理各種映射的大而復(fù)雜的語法模型。例如,圖4示出了被實現(xiàn)為有限狀態(tài)轉(zhuǎn)變圖的示例語法模型120的一部分,該有限狀態(tài)轉(zhuǎn)變圖包含映射到具有項目、時間日期和位置參數(shù)128、130和132的“創(chuàng)建購物提醒”動作126的多個狀態(tài)122和轉(zhuǎn)變124。如圖所示,支持多個令牌以用于觸發(fā)提醒(例如,“提醒我”、“設(shè)置提醒”、“不要讓我忘記”等)以及用于指定提醒是購物提醒(例如,“停在商店以獲得”、“購買”、“拿取”、“獲得”、“抓一些”、“停下來并拿取”等),導(dǎo)致大量的潛在映射并且因此是可以用于創(chuàng)建購物提醒的同義短語或基于語音的查詢。

此外,對于每個參數(shù)128、130、132,可以在語法模型內(nèi)映射大量的潛在值。對于項目列表128,例如,無數(shù)的產(chǎn)品名稱和描述134是可能的(例如,“面包”、“牛奶”等),包括項目的通用術(shù)語以及特定品牌名稱。對于時間日期參數(shù)130,可以支持與時間和/或日期相關(guān)聯(lián)的各種短語136,包括數(shù)值(例如“6:00pm”)和非數(shù)值(例如,“工作后”、“明天上午”等)。對于位置參數(shù)132,可以指定地址(例如,“101主街道”)、通用位置(例如,“雜貨店”)、企業(yè)名稱(例如,特定雜貨店)等。在一些實現(xiàn)中,一個或多個參數(shù)可以是可選的。另外,在一些實現(xiàn)中,可以基于非語音數(shù)據(jù),例如,當前gps位置、用戶最喜歡的商業(yè)、用戶的典型工作時間的知識等,來定義一個或多個參數(shù),并且在一些情況下基于語音和非語音數(shù)據(jù)的組合(例如,其中用戶指示“雜貨店”,并且該輸入與用戶的已知回家路線相結(jié)合,用于識別沿著路線的特定雜貨店)。此外,在一些實現(xiàn)中,可以基于對話或會話導(dǎo)出參數(shù),使得參數(shù)至少部分地從先前語音輸入推測。

圖形120僅表示可以包括在語法模型中的潛在映射的小子集,并且應(yīng)當理解,為了覆蓋可能從用戶接收的基于語音的查詢的所有可能的變化,對于所有那些可能的變化的映射將需要被并入到語法模型中。在線服務(wù),沒有了單獨的計算機和電子設(shè)備的許多資源限制,具有包含大量映射以最大化語法模型的有用性的資本。因此,然而,由在線服務(wù)(這里稱為“在線”語法模型)使用的語法模型通常太大和/或太處理器密集而不能用于單獨的計算機和電子設(shè)備,特別是許多對基于語音的用戶界面最需要的設(shè)備類型。

然而,在本文所討論的實現(xiàn)中,離線語法模型可以被生成為更小和/或更少的過程密集型以在資源受限的啟用語音的離線設(shè)備中使用,從而適應(yīng)設(shè)備的存儲器和/或處理限制。此外,除了或代替由大量用戶經(jīng)由多個資源受限設(shè)備頻繁發(fā)布的基于語音的查詢之外,離線語法模型可以基于由一個或多個特定用戶在一個或多個特定資源受限設(shè)備處發(fā)布的基于語音的查詢來生成。結(jié)果,離線語法模型可取地包括針對少量的特定資源受限設(shè)備和/或這種資源受限設(shè)備的有限數(shù)量的用戶定制的基于語音的查詢,使得離線語義處理器將可取地響應(yīng)于可能在特定資源受限設(shè)備處使用的基于語音的查詢,同時與在線語法模型相比具有減少的資源需求。

在各種實現(xiàn)中,可以基于在基于語音的查詢的發(fā)布之后在資源受限設(shè)備處的動作執(zhí)行的統(tǒng)計分析,來構(gòu)建離線語法模型。例如,在一些實現(xiàn)中,在資源受限設(shè)備處發(fā)布的查詢可以被語義地處理以識別可由資源受限設(shè)備執(zhí)行的一個或多個候選響應(yīng)動作??梢苑治鏊^的“候選響應(yīng)動作執(zhí)行統(tǒng)計”,以從一個或多個候選響應(yīng)動作中選擇合格響應(yīng)動作。候選響應(yīng)動作執(zhí)行統(tǒng)計可以涉及在查詢發(fā)布之后通過資源受限設(shè)備的一個或多個候選響應(yīng)動作的執(zhí)行。合格響應(yīng)動作可以是在基于語音的查詢之后由設(shè)備執(zhí)行的動作。此外,在一些實現(xiàn)中,在基于語音的查詢之后的動作的執(zhí)行可能要求滿足一個或多個合格準則。例如,合格準則可以指的是在發(fā)布的查詢和執(zhí)行的動作之間的相關(guān)性(例如,該相關(guān)性高于閾值)。相關(guān)性可以取決于例如一個或多個以下的因素:在語音查詢和動作執(zhí)行之間經(jīng)過的時間,是否存在任何介于中間的動作,是否響應(yīng)于由設(shè)備提供的提示導(dǎo)致動作的執(zhí)行,以及對其提供提示的候選動作的數(shù)量。在一些示例中,合格準則可以直接關(guān)聯(lián)于一個或多個上述因素。例如,如果在查詢的發(fā)布和動作的執(zhí)行之間經(jīng)過的時間低于閾值和/或沒有介于中間的動作,則執(zhí)行的動作可以被認為是合格動作。類似的,如果響應(yīng)于由設(shè)備提供的提示導(dǎo)致動作被執(zhí)行,則執(zhí)行的動作可以被認為是合格動作。

存儲在資源受限設(shè)備中的離線語法模型,其可以將查詢映射到資源受限設(shè)備可執(zhí)行的動作,可以隨后被更新以包括所發(fā)布的查詢和合格響應(yīng)動作之間的映射。因此,不是由在線語法模型支持的所有查詢都被并入到離線語法模型中,而是減少了離線語法模型的存儲器占位和使用離線語法模型所需的處理要求,以更好地解決離線設(shè)備的資源受限。

例如,圖5示出了適合于由在線或離線服務(wù)執(zhí)行以至少部分地基于候選響應(yīng)動作執(zhí)行統(tǒng)計的分析來構(gòu)建離線語法模型的例程150。例程150可以由處理基于語音的查詢的相同服務(wù)執(zhí)行,或者可以完全是不同的服務(wù)。此外,例程150可以用于初始生成離線語法模型,或者生成用于替換先前生成的離線語法模型的更新的離線語法模型。

例程150的框152-156類似于圖3所示的例程100的各種框。在框152處,例如以數(shù)字音頻信號的形式,接收語音輸入。在框154處,語音輸入被轉(zhuǎn)換為文本令牌(例如,使用圖2的模塊64和/或82)。在框110處,可解析文本令牌(例如,使用圖2的模塊68和/或82)。

在框158處,可以例如通過資源受限設(shè)備52的模塊64、68和72,或者如果在線,由模塊82,識別潛在地響應(yīng)于發(fā)布的查詢的一個或多個候選動作。在在一些實現(xiàn)中,在框158處執(zhí)行的候選響應(yīng)動作的識別可以以與框112的操作類似的方式執(zhí)行。假設(shè)用戶發(fā)布特定的長尾查詢,例如“小子,我肯定可以去搞一些瘋狂發(fā)型?!闭Z義處理器(例如,圖2中的66或82)可以使用諸如來自知識圖的實體標識等各種技術(shù)來確定“瘋狂發(fā)型”是指音樂藝術(shù)家?;谠摯_定,可以進一步確定設(shè)備52的下一個邏輯動作(即,候選響應(yīng)動作)將是打開音樂播放器并播放由瘋狂發(fā)型樂隊錄制的音樂。

在各種實現(xiàn)中,可以存在識別的多個潛在響應(yīng)候選動作。例如,可以存在由特定藝術(shù)家播放音樂的多個選項。流傳輸應(yīng)用可以通過一個或多個網(wǎng)絡(luò)將來自與藝術(shù)家(和/或與類似音樂品味相關(guān)聯(lián)的音樂)相關(guān)聯(lián)的流“頻道”的音樂流傳輸?shù)劫Y源受限設(shè)備。另一音樂播放器應(yīng)用可以播放在資源受限設(shè)備上本地存儲的音樂。在這種情況下,打開應(yīng)用程序來播放瘋狂發(fā)型樂隊將構(gòu)成潛在響應(yīng)查詢“小子,我肯定可以去搞一些瘋狂發(fā)型?!钡暮蜻x操作。

許多用戶可以操作多個資源受限的設(shè)備,例如作為協(xié)調(diào)的“生態(tài)系統(tǒng)”的一部分,在此,用戶可以發(fā)布長尾基于語音的查詢。例如,用戶可以操作移動電話和智能手表。在一些情況下,智能手表可以使用低功率和/或短距離無線技術(shù)(諸如藍牙、wi-fi等)連接到移動電話,但這不是必需的。如果用戶在設(shè)備之一處發(fā)布長尾基于語音的查詢(例如,對智能手表的麥克風(fēng)說話),則用戶可能期望在該同一設(shè)備或在另一設(shè)備處執(zhí)行響應(yīng)動作。因此,在各種實現(xiàn)中,可以在框158處識別在一個或兩個設(shè)備處可執(zhí)行的一個或多個候選響應(yīng)動作。

在一些實施例中,并且如在框160處所示,可以在資源受限設(shè)備52處向用戶提供與在框158處識別的一個或多個候選響應(yīng)動作相對應(yīng)的一個或多個提示。每個提示可以建議執(zhí)行在資源受限設(shè)備52處的相應(yīng)候選響應(yīng)動作。提示可以以各種形式出現(xiàn),諸如音頻、視覺和/或觸覺(例如,振動)反饋。例如,并且繼續(xù)上述場景,可以向用戶呈現(xiàn)兩個可選擇的圖形元素,一個用于啟動流傳輸播放器以播放brucespringsteen頻道,另一個用于發(fā)起本地存儲的brucespringsteen內(nèi)容的回放。

提示可以以各種形式和方式在資源受限的設(shè)備上呈現(xiàn)(例如,輸出)。例如,在一些實現(xiàn)中,可以在另一應(yīng)用的圖形用戶界面的一部分處呈現(xiàn)提示。應(yīng)用可以是例如web瀏覽器、社交媒體應(yīng)用、智能個人助理應(yīng)用等。提示可以被可視地呈現(xiàn)為彈出、超鏈接(在外觀上是文本或圖形)和/或作為用戶可以選擇、忽略和/或拒絕的所謂的“卡”。另外或可替代地,可以可聽地呈現(xiàn)提示。例如,響應(yīng)于可能存在多個候選響應(yīng)動作的基于語音的查詢,資源受限設(shè)備可以可聽地輸出類似于“你是否意欲執(zhí)行動作x或執(zhí)行動作y?”的東西。

此外,并且如上所述,一些用戶可以操作多個設(shè)備作為單個協(xié)調(diào)生態(tài)系統(tǒng)的一部分。在一些這樣的實現(xiàn)中,可以在多個設(shè)備中的一個或多個處提供一個或多個提示。假設(shè)用戶在她的智能手表處發(fā)布基于語音的查詢“查找去位置x的方向”。雖然智能手表可以具有顯示器,但是如果用戶正在駕駛或騎自行車,則用戶可能不期望對顯示器上呈現(xiàn)的視覺提示做出響應(yīng)。然而,用戶的移動電話可以具有揚聲器,或者可以與諸如由用戶佩戴的車輛立體聲或藍牙耳機的另一音頻設(shè)備配對。這種揚聲器可以適于向用戶提供可聽提示。在這種情況下,響應(yīng)于用戶在她的智能手表上發(fā)布基于語音的查詢,用戶的電話可以使得向用戶提供可聽到的提示,例如“你是指城市a或城市b中的位置x?”

在框162處,可以從由用戶操作的一個或多個資源受限設(shè)備收集候選響應(yīng)動作執(zhí)行統(tǒng)計。在各種實現(xiàn)中,候選響應(yīng)動作執(zhí)行統(tǒng)計可以涉及和/或指示在框158處識別的一個或多個候選響應(yīng)動作的執(zhí)行。在各種實現(xiàn)中,資源受限設(shè)備可以例如通過在發(fā)布基于語音的查詢之后以各種時間間隔觀察和記錄用戶行為來收集這些統(tǒng)計。在一些實現(xiàn)中,資源受限設(shè)備可以觀察和記錄與在框160處提供的提示的用戶響應(yīng)(或其缺乏)有關(guān)的各種數(shù)據(jù),諸如用戶對提示做出響應(yīng)有多快,用戶是否解除提示并且使得資源受限設(shè)備執(zhí)行替代動作等。

在框164處,可以分析在框162處收集的候選響應(yīng)動作執(zhí)行統(tǒng)計。如果在框160處沒有提供提示,則在發(fā)布查詢之后,一個或多個觀察到的與一個或多個資源受限設(shè)備的用戶交互可以構(gòu)成所發(fā)布的查詢與一個或多個潛在響應(yīng)動作之間相關(guān)的間接(例如,視情況而定的)證據(jù)。但是假設(shè)在發(fā)布基于語音的查詢和發(fā)起任何候選響應(yīng)動作之間經(jīng)過了相對長的時間段。這可能不太可能是那么相關(guān),特別是如果在中間,用戶操作一個或多個資源受限設(shè)備以執(zhí)行在框158處未被識別為候選響應(yīng)動作的一個或多個動作。

假設(shè)用戶發(fā)布特定的長尾查詢,例如“小子,我肯定可以去搞一些springsteen”。如上所述,資源受限設(shè)備52的模塊64、68和72,或者如果在線的話,模塊82可以識別涉及brucespringsteen的音樂的回放的一個或多個候選響應(yīng)動作。例如,一個候選響應(yīng)動作可以是打開流傳輸應(yīng)用以流傳輸brucespringsteen頻道;另一個可能是打開一個音樂播放器應(yīng)用來回放本地存儲的brucespringsteen歌曲。如果在框162處收集的統(tǒng)計指示在發(fā)布基于語音的查詢之后,用戶立即打開流傳輸音樂播放器應(yīng)用以流傳輸brucespringsteen頻道,則在框164處,可以確定在發(fā)布的用戶查詢和流傳輸應(yīng)用之間存在比在所發(fā)布的查詢和用于播放本地存儲的音樂的音樂播放器之間更強的相關(guān)性。

另外或可替代地,假設(shè)在框160處提供了一個或多個提示。用戶對一個或多個提示的響應(yīng),是否是以選擇圖形圖標的形式還是以提供對可聽提示的語音響應(yīng)的形式,可以進行分析。因為響應(yīng)于所發(fā)布的查詢而提供提示,所以對提示的肯定用戶響應(yīng)可以提供所發(fā)布的查詢與由提示發(fā)起的動作之間的相關(guān)性的更直接的證據(jù)。除了用戶是否響應(yīng)提示之外,還可以評估用戶對提示的響應(yīng)有多快,有多少個替代提示要響應(yīng)等。

基于框164處的分析,在框166處,可以識別所發(fā)布的查詢和一個或多個候選響應(yīng)動作之間的一個或多個映射。在一些實現(xiàn)中,資源受限設(shè)備52可以將所識別的一個或多個映射傳送回模塊82(或另一在線組件)。在映射包含或暗示機密信息(例如,操作車庫門的密碼)的情況下,映射可以在傳輸之前被匿名化。附加地或可替代地,用戶可以配置設(shè)備52以將設(shè)備52處的映射保持為私有映射,而不向模塊82提供映射。

在框168處,可以更新由用戶操作的一個或多個資源受限設(shè)備使用的一個或多個離線語法模型(例如,圖2中的76)(例如,在設(shè)備52和/或模塊82處)以包括在框166處識別的一個或多個映射。例如,離線語法可以在模塊82處被封裝并且被分發(fā)到一個或多個資源受限的啟用語音的離線設(shè)備(例如,使用不同的長尾基于語音的查詢的由特定用戶操作的多個設(shè)備)。一個或多個離線資源受限設(shè)備可以繼而接收和解包封裝的離線語法模型,并將模型存儲在各個設(shè)備上。封裝可以用于壓縮離線語法模型以減少傳輸尺寸并且另外以可由相應(yīng)設(shè)備使用的方式格式化模型。因此,資源受限設(shè)備此后可以在離線或甚至在在線時利用離線語法來處理基于語音的查詢。

除了或代替例程150來構(gòu)建初始離線語法模型之外,例程150還可用于更新離線語法模型,例如以更好地跟蹤使用隨時間的變化,以并入用于特定用戶的額外的長尾基于語音的查詢等。這樣的更新可以被認為是動態(tài)更新,因為資源受限設(shè)備可以被更新為系統(tǒng)更新、應(yīng)用更新的一部分或者另外相對于用戶隱藏的后臺更新。

在一些實現(xiàn)中,除了一個或多個離線語法模型之外,長尾查詢和響應(yīng)動作之間的映射可以并入到在線語法模型中。這樣,如果新用戶發(fā)布先前識別并映射到不同用戶的長尾查詢,則可以將相同的映射添加到由新用戶操作的一個或多個資源受限設(shè)備使用的一個或多個離線語法。然而,在一些實現(xiàn)中,用戶可以選擇退出這樣的協(xié)作以保持其潛在敏感的長尾查詢的隱私、匿名和/或安全性。

雖然本文已經(jīng)描述和示出了若干實現(xiàn),但是可以使用用于執(zhí)行功能和/或獲得結(jié)果和/或本文所述的一個或多個優(yōu)點的各種其它裝置和/或結(jié)構(gòu),這樣的變化和/或修改被認為在本文所描述的實現(xiàn)的范圍內(nèi)。更一般地,本文所述的所有參數(shù)、尺寸、材料和構(gòu)造意在是示例性的,并且實際參數(shù)、尺寸、材料和/或構(gòu)造將取決于使用教導(dǎo)的具體應(yīng)用或應(yīng)用。本領(lǐng)域技術(shù)人員將認識到或者能夠僅使用傳統(tǒng)實驗來確定本文所述的具體實現(xiàn)的許多等同物。因此,應(yīng)當理解,前述實現(xiàn)僅以示例的方式給出,并且在所附權(quán)利要求及其等同物的范圍內(nèi),可以以與具體描述和要求保護的方式不同的方式實施實現(xiàn)。本公開的實現(xiàn)涉及本文所述的每個單獨的特征,系統(tǒng),物品,材料,套件和/或方法。此外,如果這些特征、系統(tǒng)、制品、材料、套件和/或方法不相互矛盾,則兩個或更多個此類特征、系統(tǒng)、制品、材料、套件和/或方法的任何組合包括在本公開的范圍內(nèi)。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1