038]因?yàn)殡娙輦鞲衅鲾?shù)據(jù)只是檢測(cè)到了觸摸,或者基于設(shè)備狀態(tài)數(shù)據(jù)和包括電容傳感器數(shù)據(jù)在內(nèi)的傳感器數(shù)據(jù)的任何加權(quán)或未加權(quán)組合,規(guī)則或概率模型112確定用戶可能發(fā)起話音輸入。輸入數(shù)據(jù)和指示推斷輸出的數(shù)據(jù)被存儲(chǔ)在服務(wù)器106上作為歷史數(shù)據(jù)114,以用于生成或改變規(guī)則或者訓(xùn)練由規(guī)則或概率模型引擎112使用的模型。
[0039]在狀態(tài)“iv”,基于此推斷,服務(wù)器106向移動(dòng)設(shè)備104傳送消息121,向移動(dòng)設(shè)備104指示用戶可能發(fā)起話音輸入,和/或應(yīng)當(dāng)開始對(duì)音頻的預(yù)測(cè)性錄制。對(duì)輸入數(shù)據(jù)的收集以及對(duì)用戶是否想要發(fā)起話音輸入的推斷可以發(fā)生一次,可以重復(fù)特定的次數(shù)或者以特定間隔重復(fù),可以重復(fù)直到發(fā)生預(yù)定事件,或者可以重復(fù)直到第N次確定用戶可能發(fā)起用戶輸入。
[0040]移動(dòng)設(shè)備104處理消息121,并且作為響應(yīng)發(fā)起預(yù)測(cè)性錄音,這例如是通過(guò)發(fā)起移動(dòng)設(shè)備104的錄音功能,該錄音功能錄制用戶105說(shuō)出的話以及在說(shuō)話之前、期間或之后出現(xiàn)的背景音頻。在此示例中,預(yù)測(cè)性錄音使得移動(dòng)設(shè)備104錄制用戶作為話音輸入而說(shuō)出的話122“方向”,以及在用戶說(shuō)出話語(yǔ)122之前出現(xiàn)的背景音頻的短暫(例如,兩秒)部分。
[0041 ]話語(yǔ)122和背景音頻的部分由移動(dòng)設(shè)備104轉(zhuǎn)換為音頻信號(hào)124,它從移動(dòng)設(shè)備104被傳送給服務(wù)器106。除了音頻信號(hào)124之外,可以向服務(wù)器106傳送其他信息,諸如由移動(dòng)設(shè)備104生成的音頻信號(hào)124的候選轉(zhuǎn)錄,或者指示在用戶開始說(shuō)話之前被錄制的背景音頻錄音的持續(xù)時(shí)間的數(shù)據(jù)。
[0042]在某些實(shí)現(xiàn)中,移動(dòng)設(shè)備104還傳送可以為語(yǔ)音識(shí)別引擎110提供與音頻信號(hào)124相關(guān)聯(lián)的上下文的信息。例如,移動(dòng)設(shè)備104可以提供瀏覽器的內(nèi)容或者瀏覽器內(nèi)容的URI(例如,用于確定最常見的項(xiàng)、主標(biāo)題或者其他內(nèi)容信息)、用戶的位置(例如,使用內(nèi)置導(dǎo)航傳感器被確定)或者估計(jì)的用戶速度(例如,用戶是乘車還是步行,等等)。
[0043]服務(wù)器使用語(yǔ)音識(shí)別引擎110生成音頻信號(hào)124的一個(gè)或多個(gè)轉(zhuǎn)錄,并且使用搜索引擎111標(biāo)識(shí)與該轉(zhuǎn)錄相關(guān)的資源。在其他實(shí)現(xiàn)中,語(yǔ)音識(shí)別引擎110、搜索引擎111或者規(guī)則或概率模型引擎112的全部或部分功能可以由移動(dòng)設(shè)備104執(zhí)行。
[0044]如上文示例,與例如需要通過(guò)按壓按鈕發(fā)起話音輸入而要求用戶顯式發(fā)起話音輸入的系統(tǒng)相比,系統(tǒng)100至少可以實(shí)現(xiàn)三個(gè)優(yōu)點(diǎn)。對(duì)于第一個(gè)優(yōu)點(diǎn),語(yǔ)音識(shí)別被用于轉(zhuǎn)錄在例如各種有噪聲環(huán)境中輸入的話,例如當(dāng)用戶在喧鬧的房間(例如,咖啡館)中、走在街上或者存在廣播或電視的情況下輸入的話。為了過(guò)濾該噪聲,某些降噪算法要求來(lái)自該環(huán)境的、沒(méi)有用戶語(yǔ)音的音頻樣本。通過(guò)在用戶發(fā)起話音輸入之前(例如,在用戶按壓按鈕之前)預(yù)測(cè)性地預(yù)先錄音,這種背景錄音變得可用于降噪算法,從而改善識(shí)別精度。
[0045]對(duì)于第二個(gè)優(yōu)點(diǎn),當(dāng)用戶例如通過(guò)在已經(jīng)開始說(shuō)話之后按壓按鈕或者在他們結(jié)束說(shuō)話之前釋放按鈕而發(fā)起話音輸入時(shí)通常是不精確的。預(yù)測(cè)性錄音更好地確保話音輸入的開始不被丟失,并且記錄和轉(zhuǎn)錄用戶的所有話,這再次改善了識(shí)別精度。
[0046]對(duì)于第三個(gè)優(yōu)點(diǎn),某些移動(dòng)設(shè)備在用戶顯式地發(fā)起話音輸入的時(shí)刻與聲音子系統(tǒng)被啟動(dòng)和實(shí)際錄音開始的時(shí)刻之間具有明顯的延遲。通過(guò)預(yù)測(cè)性地預(yù)先錄音,識(shí)別精度將被改善,因?yàn)樵撗舆t的影響可以被解決和克服。
[0047]與持續(xù)錄音以便在用戶開始輸入之前捕獲音頻的系統(tǒng)相比,系統(tǒng)100也提供了附加的優(yōu)點(diǎn)。特別地,系統(tǒng)不需要移動(dòng)設(shè)備101和104持續(xù)地運(yùn)行將消耗電池并且縮短移動(dòng)設(shè)備電池續(xù)航時(shí)間的麥克風(fēng)預(yù)放大器、模數(shù)轉(zhuǎn)換器(ADC)以及處理器電路。因此,除了改進(jìn)的識(shí)別精度之外,系統(tǒng)10提供了移動(dòng)設(shè)備101和104的延長(zhǎng)電池續(xù)航時(shí)間和增強(qiáng)的總體用戶體驗(yàn)。
[0048]圖2示出了一個(gè)示例性過(guò)程200。簡(jiǎn)而言之,過(guò)程200包括:建立指示移動(dòng)設(shè)備狀態(tài)的狀態(tài)數(shù)據(jù)以及由移動(dòng)設(shè)備的一個(gè)或多個(gè)傳感器感測(cè)到的傳感器數(shù)據(jù)以作為輸入數(shù)據(jù);向輸入數(shù)據(jù)應(yīng)用規(guī)則或者概率模型;基于向輸入數(shù)據(jù)應(yīng)用規(guī)則或者概率模型而推斷移動(dòng)設(shè)備的用戶可能發(fā)起話音輸入;以及響應(yīng)于推斷用戶可能發(fā)起話音輸入而調(diào)用移動(dòng)設(shè)備的一個(gè)或多個(gè)功能。
[0049]更具體地,當(dāng)過(guò)程200開始(201)時(shí),建立指示移動(dòng)設(shè)備狀態(tài)的數(shù)據(jù)和由移動(dòng)設(shè)備的一個(gè)或多個(gè)傳感器感測(cè)到的數(shù)據(jù)以作為輸入數(shù)據(jù)(202)。輸入數(shù)據(jù)可以被持續(xù)地獲取(例如,接收或生成),或者可以基于從服務(wù)器接收到開始獲取輸入數(shù)據(jù)的信號(hào)而被獲取。在另一示例中,輸入數(shù)據(jù)可以基于事件的發(fā)生(例如,時(shí)間的經(jīng)過(guò))而被獲取,或者在檢測(cè)到移動(dòng)設(shè)備已經(jīng)被開機(jī)或者開始移動(dòng)之后被獲取。
[0050]指示移動(dòng)設(shè)備狀態(tài)的數(shù)據(jù)以及由移動(dòng)設(shè)備的傳感器感測(cè)到的數(shù)據(jù)可以包括未處理數(shù)據(jù)和/或已處理數(shù)據(jù)。例如,數(shù)據(jù)可以包括傳感器讀數(shù)(例如,由加速計(jì)輸出的數(shù)值),或者數(shù)值的有意義的解釋(例如,對(duì)該數(shù)值指示或表示什么的計(jì)算機(jī)生成的文本描述)。此外,指示移動(dòng)設(shè)備狀態(tài)的數(shù)據(jù)可以包括指示當(dāng)前狀態(tài)和/或近期狀態(tài)的數(shù)據(jù),并且由傳感器感測(cè)到的數(shù)據(jù)可以包括當(dāng)前或近期數(shù)據(jù)。
[0051]簡(jiǎn)略參考圖3,指示移動(dòng)設(shè)備狀態(tài)的數(shù)據(jù)(S卩,數(shù)據(jù)301)可以包括指示移動(dòng)設(shè)備的顯示器是打開還是關(guān)閉的數(shù)據(jù)302,或者指示移動(dòng)設(shè)備是在鎖定模式還是未鎖定模式中運(yùn)行的數(shù)據(jù)304。附加地或備選地,數(shù)據(jù)可以包括指示在移動(dòng)設(shè)備上執(zhí)行的一個(gè)或多個(gè)應(yīng)用的數(shù)據(jù)305、指示話音搜索應(yīng)用是否正在移動(dòng)設(shè)備上執(zhí)行的數(shù)據(jù)306、指示由移動(dòng)設(shè)備的用戶選擇的字段是否支持話音文本輸入的數(shù)據(jù)307、和/或指示移動(dòng)設(shè)備的用戶是否正在操作移動(dòng)設(shè)備的輸入機(jī)制(例如,在小鍵盤上鍵入,或者操作鼠標(biāo)或軌跡球)的數(shù)據(jù)309。在某些實(shí)現(xiàn)中,如果數(shù)據(jù)305指示兩個(gè)或更多應(yīng)用正在移動(dòng)設(shè)備上執(zhí)行,該數(shù)據(jù)可以包括那個(gè)應(yīng)用目前是活躍的指示,或者哪個(gè)應(yīng)用在移動(dòng)設(shè)備的顯示區(qū)域的頂層的指示。設(shè)備狀態(tài)數(shù)據(jù)可以包括指示移動(dòng)設(shè)備的一個(gè)或多個(gè)狀態(tài)的任何其他數(shù)據(jù)310。使用規(guī)則或模型324,設(shè)備狀態(tài)數(shù)據(jù)301可以被規(guī)則引擎或者概率模型引擎用于確定用戶是否已經(jīng)激活或者正在激活指示將要到來(lái)的話音輸入的軟件,并且基于此確定提供推斷325。
[0052]瓷碗,由移動(dòng)設(shè)備的一個(gè)或多個(gè)傳感器感測(cè)到的數(shù)據(jù)(S卩,數(shù)據(jù)311)可以包括有移動(dòng)設(shè)備的小鍵盤傳感器所感測(cè)到的數(shù)據(jù)312(即,物理“話音搜索”按鈕是否被按壓)、由移動(dòng)設(shè)備的位置確定傳感器感測(cè)到的數(shù)據(jù)314(例如,由GPS、慣性導(dǎo)航、航位推測(cè)或者蜂窩網(wǎng)絡(luò)或W1-Fi三角測(cè)量模塊確定的用戶是否離家、移動(dòng)或者在途中)、由移動(dòng)設(shè)備的加速計(jì)感測(cè)到的數(shù)據(jù)315、由移動(dòng)設(shè)備的磁力計(jì)感測(cè)到的數(shù)據(jù)316(即,設(shè)備相對(duì)于地的朝向)、由移動(dòng)設(shè)備的光傳感器感測(cè)到的數(shù)據(jù)317(即,設(shè)備是否在用戶的口袋中)、由移動(dòng)設(shè)備的近距離傳感器感測(cè)到的數(shù)據(jù)319、由移動(dòng)設(shè)備的電容傳感器感測(cè)到的數(shù)據(jù)320、由移動(dòng)設(shè)備的觸摸傳感器感測(cè)到的數(shù)據(jù)321(即,用戶是否正握著移動(dòng)設(shè)備)和/或從任何其他傳感器獲取的數(shù)據(jù)322。使用規(guī)則或模型324,傳感器數(shù)據(jù)可以由規(guī)則引擎或者概率模型引擎用來(lái)確定設(shè)備處于指示將要到來(lái)的話音輸入的物理位置或者朝向,并且基于此確定提供推斷325。
[0053]返回圖2,規(guī)則或概率模型被應(yīng)用于輸入數(shù)據(jù)(204),以生成用戶是否可能發(fā)起話音輸入的推斷。在基于規(guī)則的方法中,可以向輸入數(shù)據(jù)應(yīng)用規(guī)則以輸出用戶是否可能發(fā)起話音輸入的指示,其中傳感器數(shù)據(jù)和設(shè)備狀態(tài)數(shù)據(jù)的不同組合將提供不同的結(jié)果。例如,移動(dòng)設(shè)備可以具有物理搜索按鈕,其通常需要兩秒鐘按壓來(lái)發(fā)起話音搜索。規(guī)則可以規(guī)定:當(dāng)電容傳感器指示移動(dòng)設(shè)備正被握住并且設(shè)備處于未鎖定狀態(tài)時(shí),只要物理搜索按鈕被按下預(yù)測(cè)性預(yù)錄音就可以開始,而無(wú)需等待經(jīng)過(guò)兩秒鐘的時(shí)間。
[0054]在另一示例中,規(guī)則可以規(guī)定:當(dāng)屏幕是打開并且移動(dòng)設(shè)備處于可以利用一次按鈕按壓或者一個(gè)姿態(tài)來(lái)觸發(fā)話音搜索的狀態(tài)時(shí),例如當(dāng)話音搜索框在屏幕上可見時(shí)或者在話音輸入“輸入方法編輯器(me)”在屏幕上可見時(shí),預(yù)測(cè)性的預(yù)錄音可以開始。如果觸摸傳感器可用,可以使用觸摸傳感器數(shù)據(jù)來(lái)檢測(cè)到用戶正握住設(shè)備,在這種情況下可以啟動(dòng)滾動(dòng)音頻緩沖區(qū)。
[0055]同樣或者作為替代,上文描述的任何以及所有數(shù)據(jù)類型可以被用作對(duì)概率模型的輸入。然而,取代針對(duì)輸入數(shù)據(jù)的每個(gè)可能組合而定義特定的結(jié)果,概率模型可以生成針對(duì)輸入數(shù)據(jù)的每個(gè)項(xiàng)的得分,并且可以在公式(I)中記載的條件