專利名稱:基于場境的語音識別語法選擇的制作方法
技術(shù)領(lǐng)域:
本說明書涉及語音識別。
背景技術(shù):
多模式應(yīng)用可以接受多種類型或模式的輸入。例如,多模式應(yīng)用可以從用戶接 受諸如鍵入命令和鼠標點擊的輸入;然而,多模式應(yīng)用還可以接受諸如語音輸入的其它 形式的輸入。語音識別系統(tǒng)可以使用包括特定詞匯表的語法來解釋語音輸入。某些多模式應(yīng)用實現(xiàn)表格填充模型,其中應(yīng)用中的不同輸入字段與不同語法相 關(guān)聯(lián)。例如,多模式應(yīng)用可以將包括名稱的詞匯表的“名稱”語法與接受人的名稱的
“名稱”字段相關(guān)聯(lián)。在某人用他或她的鼠標選擇“名稱”字段時,多模式應(yīng)用可以選 擇與該字段相關(guān)聯(lián)的“名稱”語法。
發(fā)明內(nèi)容
總的來說,本文檔描述了選擇用于在語音識別中使用的語法,其中該語法基于 隱式場境(context)信息來選擇,所述隱式場境信息基于一個或多個用戶行為。在第一總括方面,描述了一種計算機實現(xiàn)的方法。該方法包括接收從與第一計 算設(shè)備相關(guān)聯(lián)的非語言用戶行為取得的地理信息。該非語言用戶行為暗示用戶對地理位 置感興趣。該方法還包括使用取得的地理信息來識別與該地理位置相關(guān)聯(lián)的語法,以及 輸出語法指示符以供在選擇所識別的語法對來自用戶的話音輸入進行語音識別處理中使 用。在第二總括方面,描述了一種計算機實現(xiàn)的方法,其包括基于與計算設(shè)備相關(guān) 聯(lián)的用戶行為接收場境信息,其中語音識別處理器不提示(unprompted)該用戶行為。該 方法包括基于該場境信息取得地理位置,識別與該地理位置相關(guān)聯(lián)的語法,以及輸出語 法標識符以供在選擇所述語法用來處理來自所述用戶的話音輸入中使用在又一個總括方面,描述了一個系統(tǒng)。該系統(tǒng)包括基于與第一計算設(shè)備相關(guān)聯(lián) 的非語言用戶行為來接收場境信息的接口。該非語言用戶行為暗示用戶對地理感興趣。 該系統(tǒng)還包括用于識別與從所接收的場境信息取得的地理位置相關(guān)聯(lián)的語法的裝置,以 及配置為使用所識別的語法來解釋從用戶接收的話音輸入的語音識別服務(wù)器。在此描述的系統(tǒng)和技術(shù)可以提供以下優(yōu)勢的一個或多個。首先,系統(tǒng)可以通過 識別語法的適當子集而不是使用更大的普通語法來提高識別話音輸入的速度。額外地, 選擇語法的子集對于在與該子集相關(guān)聯(lián)的特定場境內(nèi)給定的話音命令可以提高語音識別 的準確性。系統(tǒng)還可以減少在語音識別過程中的用戶交互量。此外,可以以對用戶透明 的方式(例如,基于與軟件應(yīng)用的用戶交互而不是基于對語音識別系統(tǒng)的提示的明確用 戶回答)選擇額外或新的語法。在下面的附圖和描述中闡述了一個或多個實施例的細節(jié)。其它特征和優(yōu)勢從描 述和附圖、以及從權(quán)利要求將是顯而易見的。
圖1是用于選擇在計算機實現(xiàn)的語音識別中使用的語法的示例性系統(tǒng)的圖。圖2是在選擇用于語音識別的語法中使用的示例性客戶端和示例性音頻處理系 統(tǒng)的圖。圖3是用于基于場境信息來選擇語法的示例性方法的流程圖。圖4示出了用于客戶端的與音頻處理系統(tǒng)交互的用戶界面的示例性截屏。圖5是可以用于實現(xiàn)所描述的系統(tǒng)和方法的計算設(shè)備的框圖。在各個附圖中相同的參考符號指示相同的元素。
具體實施例方式本文檔描述了用于選擇在話音識別中使用的語法的系統(tǒng)和技術(shù)。更具體地,應(yīng) 用可以基于用戶與運行該應(yīng)用的設(shè)備如何交互來生成場境信息。所述設(shè)備可以將所述場 境信息傳送給語音識別系統(tǒng)。語音識別系統(tǒng)可以識別與所述場境信息相關(guān)聯(lián)的特定語 法,并且可以隨后在對從所述設(shè)備接收的話音輸入(例如,來自所述設(shè)備的用戶的語音 命令)進行音頻識別中使用所識別的語法。在一些實施方式中,場境信息包括地理信息。如果用戶使用蜂窩電話上的移動 瀏覽器來查看地圖,則該蜂窩電話可以將與所述地圖顯示的地理位置有關(guān)的信息傳送給 語音識別系統(tǒng)。語音識別系統(tǒng)可以基于所接收的信息來識別所述地理位置,以及可以選 擇與所述地理位置相關(guān)聯(lián)的語法,所述語法包括詞的詞匯表、句法等。語音識別系統(tǒng)可 以使用所選擇的語法來解釋隨后從所述蜂窩電話接收的話音輸入。用戶可以選擇允許與該用戶相關(guān)聯(lián)的設(shè)備(例如,通過分配給該用戶的唯一標 識符-諸如cookie)與語音識別系統(tǒng)共享場境信息。如果用戶不選擇共享場境信息,則語 音識別系統(tǒng)可以使用默認語法或為用于在選擇在語音識別處理中使用的特定語法時使用 的地理或其它場境信息明確提示用戶。圖1是用于選擇在計算機實現(xiàn)的語音識別中使用的語法的示例性系統(tǒng)100的圖。 在一些實施方式中,示例性系統(tǒng)100基于作為用戶行為的結(jié)果生成的隱式場境信息來選 擇語法。系統(tǒng)100包括客戶端設(shè)備102、語法選擇服務(wù)器104和語音識別服務(wù)器106。在圖1的實施方式中,客戶端102將場境信息傳送給語法選擇服務(wù)器104,其使 用所述場境信息來選擇語法。語法選擇服務(wù)器將與所選擇的語法有關(guān)的信息發(fā)送給語音 識別服務(wù)器106,其使用所選擇的語法來解釋從客戶端102接收的音頻輸入。例如,客戶端102可以是正在運行移動瀏覽器108的蜂窩電話。用戶可以將搜 索輸入到移動瀏覽器以識別出售“冰屋”的企業(yè)。瀏覽器可以顯示示出了位于加拿大的 南、北達科他州和明尼蘇達州的相關(guān)企業(yè)的地圖。用戶可能先前已輸入了由瀏覽器使用 來識別用于在地圖上示出的位置的位置標識符,諸如郵編。用戶可以在先前會話中輸入 位置標識符,以及瀏覽器可以存儲標識符以供在隨后會話中使用(例如,位置標識符可 以作為cookie被存儲在客戶端上)。在其它實施方式中,蜂窩電話運行專用應(yīng)用108,而不是移動瀏覽器108。例 如,專用應(yīng)用108可以不能夠瀏覽網(wǎng)頁,但是可以被配置為與諸如在線地圖應(yīng)用的特定遠程應(yīng)用對接。在蜂窩電話102上運行的移動瀏覽器或另一個應(yīng)用如標記“1”的箭頭所指示可 以將隱式地理信息114傳送給語法選擇服務(wù)器。在一些實施方式中,場境信息包括基于 移動瀏覽器108顯示的地圖的隱式地理信息114。例如,隱式地理信息114可以包括識別 所顯示的地圖的中心的坐標。在該示例中,地圖的中心與在明尼蘇達州的中間的位置一致。語法選擇服務(wù)器104可以基于所接收的場境信息來選擇116語法。在一些實施 方式中,如果場境信息包括地理信息114,則語法選擇服務(wù)器可以訪問識別與地理位置相 關(guān)聯(lián)的語法112的數(shù)據(jù)存儲110。特定語法可以與特定地理位置相關(guān)聯(lián)。語法112中的每一個可以包括和與相應(yīng)的地理位置相關(guān)聯(lián)的詞匯表相對應(yīng)的詞 匯表。例如,與明尼蘇達州明尼阿波利斯相關(guān)聯(lián)的語法可以包括描述位于明尼阿波利斯 或與明尼阿波利斯關(guān)聯(lián)地發(fā)生的企業(yè)、興趣點、事件、新聞等的詞或短語。在圖1中,隱式地理信息114包括位于明尼蘇達州的中間的位置的坐標。語法 選擇服務(wù)器識別錨定在最接近于明尼蘇達州的中間的位置處或具有在該位置處的中心的 語法。語法選擇服務(wù)器如標記“2A”和“2B”的箭頭所指示可以生成識別語法的信息 118。在一些實施方式中,然后,語法選擇服務(wù)器104如標記“3”的箭頭所指示將所 識別的語法信息118傳送給語音識別服務(wù)器106。用戶可以對蜂窩電話102說話,蜂窩電話102如箭頭“4”所指示將話音輸入 120傳送給語音識別服務(wù)器106。語音識別服務(wù)器106可以使用語法選擇服務(wù)器104已識 別的語法來解釋話音輸入120。識別服務(wù)器106可以基于話音輸入來執(zhí)行一個或多個動作。在一些實施方式 中,語音識別服務(wù)器106如標記“5”的箭頭所指示可以基于話音輸入將響應(yīng)傳送回蜂窩 電話102。例如,蜂窩電話102的用戶可以可聽見地請求對“Paul Bunyan”的新搜索。 蜂窩電話102可以將話音搜索請求傳送給語音識別服務(wù)器106。由于用戶當前在移動瀏覽 器108上查看(或先前查看過)的地圖以明尼蘇達州為中心,所以語音識別服務(wù)器106使 用錨定在明尼蘇達州的中心附近的位置處或以該位置為中心的語法。語音識別服務(wù)器106 使用該語法來搜索與話音輸入“Paul Bunyan”相對應(yīng)的聲音、詞、短語。在一些實施 方式中,由于詞語“Paul Bunyan”相對于世界的其它部分同與明尼蘇達州相關(guān)聯(lián)的信息 更頻繁地關(guān)聯(lián),所以錨定在明尼蘇達州附近或之內(nèi)的語法可以包括用于解釋名稱“Paul Bunyan,,的信息。語音識別服務(wù)器106可以傳送文本“Paul Bunyan",其對應(yīng)于來自蜂窩電話102
的話音輸入。蜂窩電話102可以在移動瀏覽器108上顯示所接收的文本。如果用戶認可 語音識別服務(wù)器106執(zhí)行的翻譯,則瀏覽器可以通過將文本“Paul Bunyan”作為搜索詞 語提交給搜索引擎來發(fā)起新的搜索。在其它實施方式中,語音識別服務(wù)器106可以在沒 有來自蜂窩電話102的用戶的認可的情況下使用詞語“PaulBunyan”來發(fā)起搜索。語音 識別服務(wù)器106可以在先前沒有傳送從話音輸入識別的文本的情況下將來自搜索的結(jié)果 傳送給蜂窩電話102。圖1的標記箭頭指示在系統(tǒng)100中發(fā)生的事件的示例性序列。然而,事件的發(fā)生不限于所示的序列。例如,序列中的一個或多個步驟可以并行發(fā)生。圖2是在選擇用于語音識別的語法中使用的示例性客戶端200和示例性音頻處理 系統(tǒng)202的圖??蛻舳?00和音頻處理系統(tǒng)202可以使用在一些實施方式中可以包括因 特網(wǎng)和蜂窩網(wǎng)絡(luò)的網(wǎng)絡(luò)204來通信??蛻舳?00可以包括進而包括應(yīng)用環(huán)境208的蜂窩 電話或其它移動設(shè)備206。應(yīng)用環(huán)境208可以包括因特網(wǎng)瀏覽器210、麥克風(fēng)接口 212以 及GPS收發(fā)器接口 214。音頻處理系統(tǒng)202可以包括提供音頻處理系統(tǒng)202與客戶端200 的接口的多模式服務(wù)器216、語法選擇服務(wù)器218以及語音識別服務(wù)器220。應(yīng)用環(huán)境208內(nèi)的應(yīng)用可以生成或識別地理聯(lián)系信息222,并且將該信息傳送給 多模式服務(wù)器216。例如,GPS收發(fā)器接口 214可以基于蜂窩電話206的位置從GPS收發(fā) 器接收GPS坐標。GPS收發(fā)器接口 214可以將GPS坐標信息傳送給多模式服務(wù)器216。在一些實施方式中,GPS坐標信息可以附加為包括在瀏覽器210提交給多模式 服務(wù)器216的超文本傳輸協(xié)議(HTTP) POST命令中的統(tǒng)一資源定位符(URI)的部分。在 使用不同于瀏覽器的應(yīng)用的其它實施方式中,應(yīng)用可以生成HTTP GET命令,其中命令 中的URI包括GPS坐標信息(或其它場境信息)。在另一個實施方式中,GPS坐標或 其它場境信息不附加在URI中,而是作為二進制信息包括在HTTP請求(例如,GET或 POST)的主體中。在另一個示例中,瀏覽器210可以傳送與瀏覽器210顯示的項有關(guān)的地理場境信 息。例如,如果用戶查看包括百慕大群島的多次提及的網(wǎng)頁,則瀏覽器210可以傳送指 定百慕大群島的地理場境信息。多模式服務(wù)器216可以接收地理場境信息222,并且可以將該信息轉(zhuǎn)送給語法選 擇服務(wù)器218。語法選擇服務(wù)器218可以包括反向地理編碼器224,其使用地理場境信息 222來識別位置。例如,如果地理場境信息222包括GPS坐標,則反向地理編碼器224 可以使用在坐標和地理位置之間的已存儲的映射來確定對應(yīng)于GPS坐標的位置。在一些實施方式中,語法選擇服務(wù)器包括將特定位置與特定語法相關(guān)聯(lián)的語法 索引226。例如,語法索引226將位置“百慕大群島”與包括與該位置相關(guān)聯(lián)的詞匯表、 句法等的百慕大語法相關(guān)聯(lián)。語法選擇服務(wù)器218通過識別與反向地理編碼器224識別的位置相關(guān)聯(lián)的語法, 使用語法索引226來選擇語法。語法索引可以在使用語法ID的情況下識別語法中的每一 個。語法選擇服務(wù)器218可以將所選擇的語法ID 228傳送給多模式服務(wù)器216,其進 而可以將語法ID 228轉(zhuǎn)送給語音識別系統(tǒng)。在圖2中未示出的其它實施方式中,反向地 理編碼器224可以識別并且返回與最靠近所識別的位置的位置相關(guān)聯(lián)的語法,然后將用 于該語法的所選擇的語法ID 228傳送給多模式服務(wù)器216。語音識別系統(tǒng)可以使用語法ID來加載所識別的語法以供在隨后的音頻處理中使 用。例如,語音識別服務(wù)器可以將對語法的請求232傳送給數(shù)據(jù)存儲230,其中請求232 包括語法ID 228。數(shù)據(jù)存儲可以返回語法ID 232指定的語法234。語音識別服務(wù)器可以使用語法234來解釋隨后從蜂窩電話206接收的音頻。例 如,用戶可以說出搜索詞語,其由蜂窩電話206內(nèi)的麥克風(fēng)接收。麥克風(fēng)接口 212可以 將音頻236從麥克風(fēng)傳送到多模式服務(wù)器216。
7
多模式服務(wù)器216可以將音頻236傳送給語音識別服務(wù)器220,其使用音頻解碼 器238來解釋音頻236。例如,音頻解碼器238可以加載語法234來將音頻236處理成文 本表示。例如,語音識別服務(wù)器220可以使用文本表示來發(fā)起搜索引擎(未示出)的搜 索。在另一個示例中,可以將已解釋的音頻作為文本240傳送給多模式服務(wù)器216。多 模式服務(wù)器216可以將文本240傳送回蜂窩電話206。蜂窩電話106可以使用應(yīng)用環(huán)境 208中的瀏覽器210或另一個應(yīng)用來顯示文本。在一些實施方式中,客戶端200基于新的用戶交互來提交新的地理場境信息。 例如,如果用戶改變位置,則蜂窩電話206內(nèi)的GPS收發(fā)器可以將新的GPS坐標傳送給 多模式服務(wù)器216。在另一個示例中,用戶可以查看與不同的位置相關(guān)聯(lián)的地圖。瀏覽 器210可以將新的地圖位置傳送給多模式服務(wù)器216。音頻處理系統(tǒng)可以基于新的地理場 境信息來選擇新的語法,并且基于該新的語法來解釋所接收的音頻。盡管將多模式服務(wù)器216、語法選擇服務(wù)器218和語音識別服務(wù)器220圖示為獨 立設(shè)備,但是可以將服務(wù)器組合成單個設(shè)備或可以使用多個設(shè)備來實現(xiàn)單個服務(wù)器。圖3是用于基于場境信息來選擇語法的示例性方法300的流程圖。在方法300 的示例實施方式中使用系統(tǒng)200和202。然而,包括系統(tǒng)100的其它系統(tǒng)可以實現(xiàn)方法 300。在步驟302,在客戶端200和音頻處理系統(tǒng)202之間創(chuàng)建會話。例如,蜂窩電 話206可以(例如,基于HTTP協(xié)議)建立與多模式服務(wù)器216的通信會話。例如,可 以在瀏覽器訪問用于搜索引擎的web接口(例如,搜索網(wǎng)頁、交互式地圖、允許用戶搜索 托管在站點上的簡檔的社交聯(lián)網(wǎng)站點等)時建立會話。在另一個實施方式中,在蜂窩電 話206上起動特定應(yīng)用時,建立會話。例如,可以在蜂窩電話206上起動專用地圖程序 時發(fā)起會話。在可選步驟304,接收用戶ID。例如,蜂窩電話206可以包括將cookie存儲在 蜂窩電話的存儲器內(nèi)的移動瀏覽器。Cookie可以包括識別蜂窩電話的用戶的標識符。音 頻處理系統(tǒng)202可能響應(yīng)于移動瀏覽器與音頻處理系統(tǒng)202或音頻處理系統(tǒng)202可以訪問 的另一個服務(wù)器的早先交互,先前已將用戶ID傳送給瀏覽器。例如,用戶可以訪問包括 用于搜索引擎的接口的網(wǎng)頁。搜索引擎可以向用戶發(fā)布唯一標識符。音頻處理系統(tǒng)202 可以訪問搜索引擎存儲的標識符的列表。在步驟306,接收場境信息。例如,多模式服務(wù)器216接收地理場境信息,諸如 指定移動設(shè)備206的當前位置的GPS坐標。在一些實施方式中,多模式服務(wù)器216可以接收其它場境信息,諸如特定于應(yīng) 用的場境信息??蛻舳?02可以傳送指定用戶訪問哪個應(yīng)用的信息。例如,信息可以指 定用戶正與瀏覽器應(yīng)用交互。此外,信息可以包括應(yīng)用的用戶先前執(zhí)行的過去導(dǎo)航或其 它行為的歷史。例如,場境信息可以指定用戶已通過指定郵編來請求過地圖、在給定的 地圖上縮小、在地圖上向西導(dǎo)航了大約200英里、請求了對地圖的衛(wèi)星查看、請求了在 地圖上顯示興趣點等。在另一個實施方式中,多模式服務(wù)器216可以接收與運行于客戶端200上的應(yīng) 用顯示的項有關(guān)的場境信息,所述客戶端200可以是臺式機。例如,用戶可以查看包括 諸如財經(jīng)新聞內(nèi)容、娛樂新聞內(nèi)容、技術(shù)新聞內(nèi)容等的數(shù)種類型的內(nèi)容的門戶網(wǎng)頁。如果用戶的光標懸停于財經(jīng)新聞內(nèi)容上,則計算設(shè)備可以從環(huán)繞光標的區(qū)域提取信息(例 如,可以提取光標的中心的一定半徑內(nèi)的文本)??梢詫⑺崛〉男畔⒌牟糠只蛉堪?在傳送給多模式服務(wù)器的場境信息中。在步驟308,基于所接收的場境信息來選擇語法。例如,語法選擇服務(wù)器218可 以選擇包括在所接收的場境信息中的財經(jīng)詞匯表的語法,所述場境信息指示用戶的鼠標 正懸停于網(wǎng)頁上的描述財經(jīng)信息的內(nèi)容上。更具體的,語法選擇服務(wù)器218內(nèi)的分類模 塊(未示出)可以對提取的內(nèi)容分類。語法選擇服務(wù)器218可以將產(chǎn)生于對提取的內(nèi)容 的分類的一個或多個關(guān)鍵詞與通過語法索引226與語法相關(guān)聯(lián)的關(guān)鍵詞相匹配。在另一個示例中,語法選擇服務(wù)器218可以選擇與特定地理相關(guān)聯(lián)的語法,其 中特定地理對應(yīng)于指示蜂窩電話206的當前位置的GPS坐標。在又一個示例中,如果所接收的場境信息指定用戶正與特定應(yīng)用交互,則語法 選擇服務(wù)器218可以選擇包括特定于應(yīng)用的詞匯表的語法。例如,如果用戶正與(例如, 駐存于客戶端200上或托管并經(jīng)由瀏覽器210訪問的)日歷應(yīng)用交互,則語法選擇服務(wù)器 218可以選擇包括特定于日歷的詞匯表和特定于日歷的語法規(guī)則的語法。語法選擇服務(wù)器218還可以使用所接收的用戶ID來選擇語法。在一些實施方式 中,可以基于用戶的過去Web搜索歷史來構(gòu)建語法。例如,如果用戶頻繁執(zhí)行與考古學(xué) 相關(guān)聯(lián)的過去web搜索查詢,則語法創(chuàng)建器(未示出)可以構(gòu)建用于該用戶的包括與考古 學(xué)相關(guān)聯(lián)的詞匯表、句法等的個性化語法。在一些實施方式中,可以使用一種或多種類型的場境信息來選擇多于一個語 法。例如,從用戶查看的項取得的場境信息可以與兩個或更多個語法關(guān)聯(lián)。在這種情況 下,語法選擇服務(wù)器可以選擇多個語法以供語音識別時使用。在步驟310,可以接收音頻。例如,設(shè)備206的用戶可以對著設(shè)備206的麥克風(fēng) 說話。麥克風(fēng)接口 212可以將麥克風(fēng)捕捉到的話音傳送給語音識別服務(wù)器220。在步驟312,可以使用先前選擇的語法來解釋所接收的音頻。例如,語音識別服 務(wù)器220可以訪問存儲語法的數(shù)據(jù)結(jié)構(gòu)來選擇語法選擇服務(wù)器218識別的語法。音頻解 碼器238可以使用所選擇的語法來解釋所接收的音頻。在步驟314,確定會話是否超時。例如,在步驟302在客戶端200和音頻處理系 統(tǒng)220之間建立的會話可以具有時限。如果超過時限,則方法300可以結(jié)束。在另一個 實施方式中,如果會話超時,則音頻處理系統(tǒng)202提示客戶端200建立新的會話。在一 些實施方式中,限制會話時間可以阻止客戶端獨占音頻處理系統(tǒng),尤其在客戶端長時間 處于非活動狀態(tài)時。在步驟316,確定場境是否已改變。例如,用戶可以改變位置。如果用戶移動 到新的位置,則GPS收發(fā)器可以響應(yīng)于反映新的位置而更新GPS坐標??梢匀缦惹芭c步 驟306和隨后步驟相關(guān)聯(lián)地描述的來接收并處理新的場境信息。在另一個示例中,用戶 可以訪問不同的應(yīng)用,或使用同一應(yīng)用來查看不同的數(shù)據(jù)。應(yīng)用的改變或?qū)?yīng)用的使用 可以發(fā)起對新的場境信息的傳送。如果場境信息沒有改變,則方法300可以重復(fù)以步驟310開始的步驟。例如, 音頻處理系統(tǒng)202可以繼續(xù)使用先前選擇的語法來解釋任何接收的音頻。圖4示出了用于客戶端的與基于場境信息來選擇語法的音頻處理系統(tǒng)交互的用戶界面的示例性截屏。截屏400包括地圖402。用戶可以啟用客戶端的瀏覽器,并且登 錄到諸如GOOGLE地圖或YAHOO !地圖的在線交互式地圖服務(wù)。用戶可以通過輸入郵 編、區(qū)號、城市和州或其它位置標識符來指定到地圖的位置。例如,用戶可以輸入郵編 95661。地圖服務(wù)然后可以傳送加州羅斯維爾的相應(yīng)地圖以在瀏覽器上顯示。瀏覽器(或瀏覽器顯示的網(wǎng)頁)可以呈現(xiàn)搜索選項窗口 404。用戶可以與搜索 選項窗口 404交互來發(fā)起對企業(yè)、興趣點、位置等的搜索,并且可以在地圖402上顯示結(jié) 果。搜索選項窗口 404如選項406所指示可以接受“輸入的”搜索。例如,用戶可以 使用小鍵盤來選擇選項406。替選地,用戶可以說出選擇“輸入新的搜索”。用戶然后 可以經(jīng)由小鍵盤輸入搜索。搜索選項窗口如選項408所指示還可以接受口語搜索。例如,用戶可以使用小 鍵盤或通過說出選擇來選擇選項408。截屏410示出了在用戶選擇了指示用戶期望說出新的搜索的選項408后顯示的示 例性界面。在該示例中,客戶端可視地提示用戶說出企業(yè)的類型或企業(yè)名稱。圖412圖 示了用戶說出搜索詞語“Fry' s”。在其它實施方式中,客戶端可以提示用戶說出諸如興趣點、地理位置等的其它 詞語。在又其它實施方式中,沒有可視地提示用戶說出搜索,但是用戶可以自行發(fā)起 搜索。例如,瀏覽器可以顯示顯示技術(shù)新聞的網(wǎng)頁。用戶可以說“搜索AJAX”。在 又其它實施方式中,客戶端可以可聽見地提示用戶輸入或說出搜索或其它話音輸入。在另一個實施方式中,用戶可以按下設(shè)備上的鍵-諸如蜂窩電話上的“接聽呼 叫”鍵-來指示用戶意欲發(fā)起語音搜索。用戶可以在說話時按住該鍵,或通過按住該鍵 預(yù)定時長來發(fā)起搜索。在后者實施方式中,語音搜索可以在沒有檢測到語音信號的情況 下經(jīng)過預(yù)定時間量后終止。盡管在先前截屏中沒有指示,但是客戶端可以傳送與客戶端顯示的地圖402有 關(guān)的地理信息。音頻處理系統(tǒng)可以選擇與該地理信息相關(guān)聯(lián)的語法以供解釋響應(yīng)于截屏 410中顯示的提示所接收的音頻時使用。截屏416示出了基于口語搜索詞語“Fry' S”的已解釋的音頻。用戶可以使用 小鍵盤或通過說出例如與解釋的每一個相關(guān)聯(lián)的數(shù)字來選擇可能的解釋中的一個。截屏 418示出了加州羅斯維爾的地圖402以及識別Fry' s電子商店的位置的圖釘圖標420。圖5是作為客戶端或作為服務(wù)器或多個服務(wù)器的可以用于實現(xiàn)本文檔中描述的 系統(tǒng)和方法的計算設(shè)備500、550的框圖。計算設(shè)備500意在表示各種形式的數(shù)字計算 機,諸如膝上型機、臺式機、工作站、個人數(shù)字助理、服務(wù)器、刀片服務(wù)器、大型機以 及其它適當?shù)挠嬎銠C。計算設(shè)備550意在表示各種形式的移動設(shè)備,諸如個人數(shù)字助 理、蜂窩電話、智能手機以及其它相似的計算設(shè)備。額外地,計算設(shè)備500或550可以包 括通用串行總線(USB)閃存驅(qū)動。USB閃存驅(qū)動可以存儲操作系統(tǒng)和其它應(yīng)用。USB閃 存驅(qū)動可以包括輸入/輸出組件,諸如無線發(fā)送器或可以被插入另一個計算設(shè)備的USB 端口的USB連接器。在此示出的組件、其連接和關(guān)系以及其功能意在只是示例性的,并 且并不意在限制在本文檔中描述和/或主張的本發(fā)明的實施方式。計算設(shè)備500包括處理器502、存儲器504、存儲設(shè)備506、連接到存儲器504和高速擴展端口 510的高速接口 508以及連接到低速總線514和存儲設(shè)備506的低速接口 512。組件502、504、506、508、510和512中的每一個使用各種總線互連,并且可以視 情況被安裝在公共主板上或以其它方式安裝。處理器502可以處理用于在計算設(shè)備500內(nèi) 執(zhí)行的指令,包括存儲在存儲器504中或存儲設(shè)備506上用來在諸如耦接到高速接口 508 的顯示516的外部輸入/輸出設(shè)備上顯示GUI的圖形信息的指令。在其它實施方式中, 可以視情況使用多個處理器和/或多個總線以及多個存儲器和存儲器類型。并且,可以 連接多個計算設(shè)備500,其中每一個設(shè)備提供部分必需操作(例如,作為服務(wù)器簇、刀片 服務(wù)器組或多處理器系統(tǒng))。存儲器504存儲在計算設(shè)備500內(nèi)的信息。在一個實施方式中,存儲器504是 易失性存儲器單元。在另一個實施方式中,存儲器504是非易失性存儲器單元。存儲器 504還可以是另一種形式的計算機可讀介質(zhì),諸如磁或光盤。存儲設(shè)備506能夠為計算設(shè)備500提供海量存儲。在一個實施方式中,存儲設(shè) 備506可以是或包含計算機可讀介質(zhì),諸如軟盤設(shè)備、硬盤設(shè)備、光盤設(shè)備或帶設(shè)備、 閃存或其它相似的固態(tài)存儲器設(shè)備、或設(shè)備陣列,包括在存儲區(qū)域網(wǎng)絡(luò)或其它配置中的 設(shè)備。計算機程序產(chǎn)品可以被有形地包含在信息載體中。計算機程序產(chǎn)品還可以包含在 被執(zhí)行時執(zhí)行諸如上述那些方法的一個或多個方法的指令。信息載體是計算機或機器可 讀介質(zhì),諸如存儲器504、存儲設(shè)備506、在處理器502上的存儲器或傳播信號。高速控制器508管理關(guān)于計算設(shè)備500的帶寬密集型操作,而低速控制器512管 理較低帶寬密集型操作。職責(zé)的這樣的分配只是示例性的。在一個實施方式中,高速控 制器508 (例如通過圖形處理器或加速器)耦接到存儲器504、顯示516,以及耦接到可以 接受各種擴展卡(未示出)的高速擴展端口 510。在該實施方式中,低速控制器512耦接 到存儲設(shè)備506和低速擴展端口 514。可以包括各種通信端口(例如USB、藍牙、以太 網(wǎng)、無線以太網(wǎng))的低速擴展端口可以耦接到諸如鍵盤、指示設(shè)備、掃描儀的一個或多 個輸入/輸出設(shè)備,或例如通過網(wǎng)絡(luò)適配器耦接到諸如交換機或路由器的聯(lián)網(wǎng)設(shè)備。計算設(shè)備500可以如圖中所示以多種不同的形式實現(xiàn)。例如,計算設(shè)備500可以 被實現(xiàn)為標準服務(wù)器520或更多時間被實現(xiàn)在一組這樣的服務(wù)器中。計算設(shè)備500還可 以被實現(xiàn)為機架服務(wù)器系統(tǒng)524的一部分。另外,計算設(shè)備500可以在諸如膝上型計算 機522的個人計算機中實現(xiàn)。替選地,來自計算設(shè)備500的組件可以與諸如設(shè)備550的移 動設(shè)備(未示出)中的其它組件相結(jié)合。這樣的設(shè)備中的每一個可以包含計算設(shè)備500、 550中的一個或多個,以及整個系統(tǒng)可以由相互通信的多個計算設(shè)備500、550組成。除其它組件外,計算設(shè)備550包括處理器552、存儲器564、諸如顯示554的輸 入/輸出設(shè)備、通信接口 566以及收發(fā)器568。設(shè)備550還可以提供有諸如微驅(qū)動或其它 設(shè)備的存儲設(shè)備以提供額外的存儲。組件550、552、564、554、566和568中的每一個 使用各種總線互連,以及組件中的數(shù)個可以視情況被安裝在公共主板上或以其它方式安 裝。處理器552可以執(zhí)行在計算設(shè)備550內(nèi)的指令,包括存儲在存儲器564中的指 令。處理器可以被實現(xiàn)為包括獨立和多個模擬和數(shù)字處理器的芯片的芯片集。額外地, 處理器可以使用多個體系結(jié)構(gòu)中的任何來實現(xiàn)。例如,處理器410可以是CISC(復(fù)雜指 令集計算機)處理器、RISC (精簡指令集計算機)處理器或MISC (最小指令集計算機)處理器。處理器可以提供例如對設(shè)備550的其它組件的協(xié)調(diào),諸如對用戶接口、由設(shè)備 550運行的應(yīng)用以及設(shè)備550的無線通信的控制。處理器552可以通過耦接到顯示554的控制接口 558和顯示接口 556與用戶通 信。顯示554可以是例如TFT(薄膜晶體管液晶顯示)顯示或OLED(有機發(fā)光二極管) 顯示或其它適當?shù)娘@示技術(shù)。顯示接口 556可以包括用于驅(qū)動顯示554向用戶呈現(xiàn)圖形和 其它信息的適當?shù)碾娐?。控制接?558可以從用戶接收命令并且將命令進行轉(zhuǎn)換以提交 給處理器552。另外,可以提供與處理器552通信的外部接口 562,以使得設(shè)備550能夠 與其它設(shè)備進行近區(qū)域通信。外部接口 562可以例如在一些實施方式中提供有線通信, 或在其它實施方式中提供無線通信,以及還可以使用多個接口。存儲器564存儲在計算設(shè)備550內(nèi)的信息。存儲器564可以被實現(xiàn)為計算機可 讀介質(zhì)、易失性存儲器單元或非易失性存儲器單元中的一個或多個。還可以提供擴展存 儲器574并且通過可以包括例如SIMM(單列直插內(nèi)存模塊)卡接口的擴展接口 572將其 連接到設(shè)備550。這樣的擴展存儲器574可以為設(shè)備550提供額外的存儲空間,或還可以 存儲用于設(shè)備550的應(yīng)用或其它信息。具體地,擴展存儲器574可以包括指令來實現(xiàn)或 補充上述過程,以及還可以包括安全信息。因此,擴展存儲器574可以例如作為用于設(shè) 備550的安全模塊提供,以及可以被編程有允許安全使用設(shè)備550的指令。另外,安全 應(yīng)用以及額外的信息可以經(jīng)由SIMM卡提供,諸如以不可非法侵入的方式將標識信息放 置在SIMM卡上。存儲器可以如下所述包括例如閃存和/或NVRAM存儲器。在一個實施方式中, 將計算機程序產(chǎn)品有形地包含在信息載體中。計算機程序產(chǎn)品包含在被執(zhí)行時執(zhí)行諸如 上述那些方法的一個或多個方法的指令。信息載體是計算機或機器可讀介質(zhì),諸如存儲 器564、擴展存儲器574、在處理器552上的存儲器或可以例如通過收發(fā)器568或外部接 口 562接收的傳播信號。 設(shè)備550可以在需要的情況下通過可以包括數(shù)字信號處理電路的通信接口 566無 線地通信。通信接口 566可以提供在各種模式或協(xié)議下的通信,諸如GSM語音通話、 SMS> EMS 或 MMS 消息、CDMA、TDMA、PDC> WCDMA、CDMA2000 或 GPRS
等??梢岳缤ㄟ^射頻收發(fā)器568來發(fā)生這樣的通信。另外,諸如使用藍牙、WiFi或 其它這樣的收發(fā)器(未示出),可以發(fā)生短程通信。另外,GPS (全球定位系統(tǒng))接收器 模塊570可以向設(shè)備550提供可以由運行在設(shè)備550上的應(yīng)用視情況使用的額外的導(dǎo)航和 位置相關(guān)的無線數(shù)據(jù)。設(shè)備550還可以使用音頻編解碼器560可聽見地通信,音頻編解碼器560可以從 用戶接收口語信息并且將其轉(zhuǎn)換為可使用的數(shù)字信息。同樣,音頻編解碼器560可以諸 如通過例如在設(shè)備550的送受話器中的揚聲器,為用戶生成可聽見的聲音。這樣的聲音 可以包括來自語音電話呼叫的聲音,可以包括已記錄的聲音(例如,語音消息、音樂文 件等)以及還可以包括由在設(shè)備550上操作的應(yīng)用生成的聲音。計算設(shè)備550可以如圖中所示以多種不同的形式實現(xiàn)。例如,計算設(shè)備550可 以被實現(xiàn)為蜂窩電話580。計算設(shè)備550還可以被實現(xiàn)為智能電話582、個人數(shù)字助理或 其它相似的移動設(shè)備的部分??梢栽跀?shù)字電子電路、集成電路、專門設(shè)計的ASIC(專用集成電路)、計算機硬件、固件、軟件和/或以上的組合中實現(xiàn)在此描述的系統(tǒng)和技術(shù)的各種實施方式。這些 各種實施方式可以包括在可編程系統(tǒng)上可執(zhí)行和/或可解釋的一個或多個計算機程序中 的實施方式,所述可編程系統(tǒng)包括至少一個可編程處理器,其可以是專用或通用的,被 耦接以從存儲系統(tǒng)、至少一個輸入設(shè)備和至少一個輸出設(shè)備接收數(shù)據(jù)和指令以及向存儲 系統(tǒng)、至少一個輸入設(shè)備和至少一個輸出設(shè)備傳送數(shù)據(jù)和指令。這些計算機程序(也被稱為程序、軟件、軟件應(yīng)用或代碼)包括用于可編程處理 器的機器指令,并且可以以高級程序和/或面向?qū)ο蟮木幊陶Z言、和/或匯編/機器語言 來實現(xiàn)。如在此所使用的,術(shù)語“機器可讀介質(zhì)”、“計算機可讀介質(zhì)”是指用于向可 編程處理器提供機器指令和/或數(shù)據(jù)的任何計算機程序產(chǎn)品、裝置和/或設(shè)備(例如,磁 盤、光盤、存儲器、可編程邏輯設(shè)備(PLD)),包括接收作為機器可讀信號的機器指令的 機器可讀介質(zhì)。術(shù)語“機器可讀信號”是指用于向可編程處理器提供機器指令和/或數(shù) 據(jù)的任何信號。為了提供與用戶的交互,在此描述的系統(tǒng)和技術(shù)可以在具有下述的計算機上實 現(xiàn)用于向用戶顯示信息的顯示設(shè)備(例如,CRT (陰極射線管)或LCD (液晶顯示)監(jiān) 視器),以及用戶通過其可以向計算機提供輸入的鍵盤和指示設(shè)備(例如,鼠標或跟蹤 球)。也可以使用其它類型的設(shè)備來提供與用戶的交互;例如,提供給用戶的反饋可以 是任何形式的感知反饋(例如,視覺反饋、聽覺反饋或觸覺反饋);以及可以以任何形 式,包括聲學(xué)的、話音的或觸覺的輸入,接收來自用戶的輸入。在此描述的系統(tǒng)和技術(shù)可以在包括后端組件(例如作為數(shù)據(jù)服務(wù)器)、或包括 中間件組件(例如應(yīng)用服務(wù)器)、或包括前端組件(例如具有用戶通過其可以與在此描 述的系統(tǒng)和技術(shù)的實施方式交互的圖形用戶界面或Web瀏覽器的客戶端計算機)、或者 這樣的后端、中間件或前端組件的任何組合的計算系統(tǒng)中實現(xiàn)。系統(tǒng)的組件可以通過 任何形式或介質(zhì)的數(shù)字數(shù)據(jù)通信(例如通信網(wǎng)絡(luò))互連。通信網(wǎng)絡(luò)的示例包括局域網(wǎng) ("LAN")、廣域網(wǎng)(“WAN")、對等網(wǎng)絡(luò)(具有自組或靜態(tài)成員)、網(wǎng)格計算基礎(chǔ) 設(shè)施以及因特網(wǎng)。計算系統(tǒng)可以包括客戶端和服務(wù)器??蛻舳撕头?wù)器通常彼此遠離并且典型地 通過通信網(wǎng)絡(luò)交互??蛻舳撕头?wù)器的關(guān)系依靠在各個計算機上運行并且彼此具有客戶 端_服務(wù)器關(guān)系的計算機程序產(chǎn)生。盡管在上面詳細描述了一些實施方式,但是其它修改是可能的。例如,可以基 于用戶查看的文本來取得用于選擇地理位置的地理信息。例如,用戶可以訪問描述偉大 俄克拉荷馬州的網(wǎng)站。Web瀏覽器(或其它應(yīng)用)可以傳送指示用戶對俄克拉荷馬感興 趣的地理信息。在一些實施方式中,如果出現(xiàn)閾值數(shù)量的與俄克拉荷馬有關(guān)的單詞,則 web瀏覽器(或其它應(yīng)用)僅傳送地理信息。在另一個實施方式中,用于選擇地理位置的地理信息基于用戶輸入的文本。例 如,用戶可以將諸如“野火”和“加利福尼亞”的搜索詞語輸入到搜索引擎界面中。語 法選擇器還可以將這些與詞語關(guān)聯(lián)以識別加利福尼亞內(nèi)的特定位置。例如,來自搜索引 擎用戶的聚組的最近搜索結(jié)果可以指示結(jié)果通常包括加利福尼亞圣地亞哥的提及。語法 選擇器可以基于最近搜索結(jié)果來識別錨定在圣地亞哥附近的語法。額外地,盡管關(guān)于蜂窩電話或其它便攜式設(shè)備內(nèi)的GPS能力描述了定位設(shè)備的當前位置,但是可以使用其它基于位置的檢測系統(tǒng)。例如,移動設(shè)備的位置還可以經(jīng) 由起源蜂窩小區(qū)(COO)移動定位技術(shù)、到達時間差(TDOA)信號檢測技術(shù)、到達時間 (TOA)技術(shù)、到達角(AoA)測量技術(shù)、增強型觀察時間差(EOTD)技術(shù)等來確定。在其它實施方式中,語法創(chuàng)建器可以基于用戶發(fā)送或接收的電子郵件來編輯用 于用戶的個性化語法。語法選擇服務(wù)器可以基于從客戶端接收的用戶ID選擇要使用的個 性化語法。另外,圖中所描繪的邏輯流不需要所示的特定順序或相繼順序才能獲得期望的 結(jié)果。另外,可以提供其它步驟,或可以從所描述的流程除去步驟,以及可以將其它組 件添加到所描述的系統(tǒng)或從所描述的系統(tǒng)移除組件。因此,其它實施方式在權(quán)利要求的 范圍內(nèi)。
權(quán)利要求
1.一種計算機實現(xiàn)的方法,包括接收從與第一計算設(shè)備相關(guān)聯(lián)的非語言用戶行為取得的地理信息,其中所述非語言 用戶行為暗示用戶對地理位置感興趣;使用所取得的地理信息來識別與所述地理位置相關(guān)聯(lián)的語法;以及輸出語法指示符以供在選擇所識別的語法對來自所述用戶的話音輸入進行語音識別 處理中使用。
2.如權(quán)利要求1所述的方法, 到所述地理位置。
3.如權(quán)利要求2所述的方法,
4.如權(quán)利要求1所述的方法, 聯(lián)的地圖。
5.如權(quán)利要求4所述的方法, 理位置。
6.如權(quán)利要求5所述的方法, 理位置。
7.如權(quán)利要求1所述的方法, 聯(lián)的文本。
8.如權(quán)利要求1所述的方法, 聯(lián)的文本。
9.如權(quán)利要求1所述的方法,進一步包括接收與所述用戶相關(guān)聯(lián)的用戶標識符。
10.如權(quán)利要求9所述的方法,進一步包括識別與所述用戶標識符相關(guān)聯(lián)的用戶語 法,以及將用戶語法指示符輸出到語音識別處理器以供在選擇所述用戶語法對來自所述 用戶的所述話音輸入進行語音識別處理中使用。
11.如權(quán)利要求10所述的方法,進一步包括基于所述用戶的過去互聯(lián)網(wǎng)搜索歷史來生 成所述用戶語法。
12.如權(quán)利要求10所述的方法,進一步包括基于與所述用戶相關(guān)聯(lián)的電子郵件來生成 所述用戶語法。
13.如權(quán)利要求1所述的方法,進一步包括接收非語言用戶行為的列表。
14.如權(quán)利要求13所述的方法,進一步包括基于所述列表來識別應(yīng)用場境,以及識別 與所述應(yīng)用場境相關(guān)聯(lián)的應(yīng)用場境語法。
15.如權(quán)利要求14所述的方法,進一步包括輸出應(yīng)用場境標識符以供在選擇所述應(yīng)用 場境語法對來自所述用戶的所述話音輸入進行語音識別處理中使用。
16.如權(quán)利要求13所述的方法,其中所述非語言用戶行為的列表包括與用戶在應(yīng)用內(nèi) 的導(dǎo)航相關(guān)聯(lián)的標識符。
17.如權(quán)利要求16所述的方法,其中所述列表包括所述用戶選擇的應(yīng)用菜單項。
18.如權(quán)利要求1所述的方法,進一步包括如果額外的非語言行為暗示所述用戶的 新的興趣,則選擇不同的語法,其中所述不同的語法基于所述新的興趣。
19.一種計算機實現(xiàn)的方法,包括基于與計算設(shè)備相關(guān)聯(lián)的用戶行為接收場境信息,其中語音識別處理器不提示所述 其中所述非語言用戶行為包括將所述第一計算設(shè)備移動其中所接收的地理信息包括全球定位系統(tǒng)(GPS)數(shù)據(jù)。 其中所述非語言用戶行為包括查看與所述地理位置相關(guān)進一步包括將在所述地圖的中心處的位置選擇為所述地進一步包括基于所查看的地圖的縮放水平來選擇所述地其中所述非語言用戶行為包括查看與所述地理位置相關(guān)其中所述非語言用戶行為包括輸入與所述地理位置相關(guān)用戶行為;基于所述場境信息取得地理位置; 識別與所述地理位置相關(guān)聯(lián)的語法;以及輸出語法標識符以供在選擇所述語法用來處理來自所述用戶的話音輸入中使用。
20.—種系統(tǒng),包括接口,所述接口用于基于與第一計算設(shè)備相關(guān)聯(lián)的非語言用戶行為來接收場境信 息,其中所述非語言用戶行為暗示用戶對地理感興趣;裝置,所述裝置用于識別與從所接收的場境信息取得的地理位置相關(guān)聯(lián)的語法;以及語音識別服務(wù)器,所述語音識別服務(wù)器被配置為使用所識別的語法來解釋從所述用 戶接收的話音輸入。
全文摘要
除其它外,本說明書的主題可以實現(xiàn)在包括以下的方法中接收從與第一計算設(shè)備相關(guān)聯(lián)的非語言用戶行為取得的地理信息。非語言用戶行為暗示用戶對地理位置感興趣。該方法還包括使用取得的地理信息來識別與該地理位置相關(guān)聯(lián)的語法,以及輸出語法指示符以供在選擇所識別的語法對來自用戶的話音輸入進行語音識別處理中使用。
文檔編號G01C21/00GK102016502SQ200980115721
公開日2011年4月13日 申請日期2009年3月6日 優(yōu)先權(quán)日2008年3月7日
發(fā)明者大衛(wèi)·P·辛格爾頓, 德巴基特·高什 申請人:谷歌公司