話音輸入的預(yù)測(cè)性音頻預(yù)錄制的制作方法
【專利說(shuō)明】話音輸入的預(yù)測(cè)性音頻預(yù)錄制
[0001]相關(guān)申請(qǐng)交叉引用
[0002]本申請(qǐng)是國(guó)際申請(qǐng)?zhí)枮镻CT/US2011/029009、國(guó)際申請(qǐng)日為2011年03月18日、國(guó)家階段申請(qǐng)?zhí)枮?01180016100.8的發(fā)明專利申請(qǐng)的分案申請(qǐng)。
[0003]本申請(qǐng)要求2010年3月26 日提交的名為“PREDICTIVE PRE-RECORDING OF AUD1FOR VOICE INPUT”的美國(guó)申請(qǐng)序列號(hào)12/732,827的優(yōu)先權(quán),在此通過(guò)引用并入其公開內(nèi)容。
技術(shù)領(lǐng)域
[0004]本說(shuō)明書總體上涉及搜索引擎。
【背景技術(shù)】
[0005]由于因特網(wǎng)上可獲得的信息量已經(jīng)急劇增長(zhǎng),用戶在很多時(shí)候難以形成有效的搜索查詢來(lái)定位特定的相關(guān)信息。近年來(lái),搜索引擎提供商之間的競(jìng)爭(zhēng)已經(jīng)導(dǎo)致搜索引擎算法以及用于接收查詢和顯示搜索結(jié)果的用戶界面的加速演進(jìn)。
[0006]可以使用各種機(jī)制向搜索引擎提供查詢。例如,用戶可以使用計(jì)算設(shè)備上的鍵盤向搜索框鍵入查詢項(xiàng),并且可以隨后將該查詢項(xiàng)提交給搜索引擎。用戶可以通過(guò)拖動(dòng)地圖而隱式地定義查詢,以獲得地圖的顯示部分上存在的興趣點(diǎn)的注解。而且,當(dāng)使用具有小鍵盤或者虛擬鍵盤的移動(dòng)設(shè)備(例如,智能電話、音樂(lè)播放器或者平板式計(jì)算機(jī))時(shí),用戶可以向麥克風(fēng)說(shuō)出查詢項(xiàng)。
【發(fā)明內(nèi)容】
[0007]總體上,本說(shuō)明書中描述的主題的一個(gè)創(chuàng)新方面可以實(shí)現(xiàn)為一種方法,包括動(dòng)作:當(dāng)預(yù)測(cè)用戶可能發(fā)起話音輸入時(shí)在移動(dòng)設(shè)備上發(fā)起背景音頻錄制,即使該移動(dòng)設(shè)備被鎖定或者處于休眠模式。通過(guò)在預(yù)測(cè)用戶可能發(fā)起話音輸入時(shí)而不是等到用戶實(shí)際發(fā)起話音輸入時(shí)發(fā)起背景音頻錄制,避免了話音輸入的前部截?cái)?,并且提高了語(yǔ)音識(shí)別精度。此外,預(yù)測(cè)音頻預(yù)錄制節(jié)省了移動(dòng)設(shè)備的電池壽命,并且允許在不適用連續(xù)錄音緩沖的情況下捕獲與輸入音頻。
[0008]總體上,本說(shuō)明書中描述的主題的另一創(chuàng)新方面可以實(shí)現(xiàn)為一種方法,包括動(dòng)作:建立指示移動(dòng)設(shè)備狀態(tài)的狀態(tài)數(shù)據(jù)以及由移動(dòng)設(shè)備的一個(gè)或多個(gè)傳感器感測(cè)到的傳感器數(shù)據(jù)以作為輸入數(shù)據(jù);向輸入數(shù)據(jù)應(yīng)用規(guī)則或者概率模型;基于向輸入數(shù)據(jù)應(yīng)用規(guī)則或者概率模型而推斷移動(dòng)設(shè)備的用戶可能發(fā)起話音輸入;以及響應(yīng)于推斷用戶可能發(fā)起話音輸入而調(diào)用移動(dòng)設(shè)備的一個(gè)或多個(gè)功能。
[0009]此方面的其他實(shí)施例包括對(duì)應(yīng)的系統(tǒng)、設(shè)備和編碼在計(jì)算機(jī)存儲(chǔ)設(shè)備上被配置為執(zhí)行該方法的動(dòng)作的計(jì)算機(jī)程序。
[0010]這些以及其他實(shí)施例每個(gè)都可以可選地包括以下一個(gè)或多個(gè)特征。例如,調(diào)用移動(dòng)設(shè)備的一個(gè)或多個(gè)功能可以進(jìn)一步包括:啟動(dòng)背景音頻錄制;狀態(tài)數(shù)據(jù)可以包括指示移動(dòng)設(shè)備的顯示器是被打開還是關(guān)閉的數(shù)據(jù)、指示移動(dòng)設(shè)備是在鎖定模式還是未鎖定模式運(yùn)行的數(shù)據(jù)、指示在移動(dòng)設(shè)備上執(zhí)行的一個(gè)或多個(gè)應(yīng)用的數(shù)據(jù)、指示話音搜索應(yīng)用是否正在移動(dòng)設(shè)備上執(zhí)行的數(shù)據(jù)、指示用戶所選擇的字段是否被允許話音文本輸入的數(shù)據(jù)或者指示用戶是否正在操作移動(dòng)設(shè)備的輸入機(jī)制的數(shù)據(jù);狀態(tài)數(shù)據(jù)可以包括:指示移動(dòng)設(shè)備的當(dāng)前狀態(tài)或者近期狀態(tài)的數(shù)據(jù);傳感器數(shù)據(jù)可以包括由移動(dòng)設(shè)備的小鍵盤傳感器感測(cè)到的數(shù)據(jù)、由移動(dòng)設(shè)備的位置確定傳感器感測(cè)到的數(shù)據(jù)、由移動(dòng)設(shè)備的加速計(jì)感測(cè)到的數(shù)據(jù)、由移動(dòng)設(shè)備的磁力計(jì)感測(cè)到的數(shù)據(jù)、由移動(dòng)設(shè)備的光傳感器感測(cè)到的數(shù)據(jù)、由移動(dòng)設(shè)備的近距離傳感器感測(cè)到的數(shù)據(jù)、由移動(dòng)設(shè)備的電容傳感器感測(cè)到的數(shù)據(jù)或者由移動(dòng)設(shè)備的觸摸傳感器感測(cè)到的數(shù)據(jù);動(dòng)作可以包括建立傳感器數(shù)據(jù)作為輸入數(shù)據(jù),這可以包括:建立由移動(dòng)設(shè)備的第一傳感器感測(cè)到的數(shù)據(jù)作為輸入數(shù)據(jù),并且調(diào)用移動(dòng)設(shè)備的一個(gè)或多個(gè)功能可以包括:響應(yīng)于推斷用戶可能發(fā)起話音輸入而激活移動(dòng)設(shè)備的第二傳感器;動(dòng)作還可以包括:建立狀態(tài)數(shù)據(jù)、由移動(dòng)設(shè)備的第一傳感器感測(cè)到的數(shù)據(jù)以及由移動(dòng)設(shè)備的第二傳感器感測(cè)到的數(shù)據(jù)作為附加輸入數(shù)據(jù),向附加輸入數(shù)據(jù)應(yīng)用附加規(guī)則或者附加概率模型,基于向附加輸入數(shù)據(jù)應(yīng)用附加規(guī)則或附加概率模型而推斷用戶仍然可能發(fā)起話音輸入;以及響應(yīng)于推斷用戶仍然可能發(fā)起話音輸入而啟動(dòng)背景音頻錄制;向輸入數(shù)據(jù)應(yīng)用規(guī)則或概率模型可以包括:確定與輸入數(shù)據(jù)相關(guān)聯(lián)的得分,并且推斷用戶可能發(fā)起話音輸入可以包括:確定與輸入數(shù)據(jù)相關(guān)聯(lián)的得分滿足預(yù)定閾值;向輸入數(shù)據(jù)應(yīng)用規(guī)則或概率模型可以包括:向輸入數(shù)據(jù)應(yīng)用規(guī)則;向輸入數(shù)據(jù)應(yīng)用規(guī)則或概率模型可以包括:向輸入數(shù)據(jù)應(yīng)用概率模型;動(dòng)作可以包括:基于向輸入數(shù)據(jù)應(yīng)用規(guī)則或概率模型而推斷不清楚用戶是否可能發(fā)起話音輸入,響應(yīng)于推斷不清楚用戶是否可能發(fā)起話音輸入而指示移動(dòng)設(shè)備收集附加狀態(tài)數(shù)據(jù)或者附加傳感器數(shù)據(jù),以及向輸入數(shù)據(jù)和附加狀態(tài)數(shù)據(jù)或附加傳感器數(shù)據(jù)應(yīng)用規(guī)則或概率模型,其中推斷用戶可能發(fā)起話音輸入進(jìn)一步基于向輸入數(shù)據(jù)以及附加狀態(tài)數(shù)據(jù)或附加傳感器數(shù)據(jù)應(yīng)用規(guī)則或者概率模型;動(dòng)作可以包括:使用歷史狀態(tài)數(shù)據(jù)或者歷史傳感器數(shù)據(jù)來(lái)生成規(guī)則或者訓(xùn)練概率模型;推斷用戶可能發(fā)起話音輸入進(jìn)一步可以包括:由移動(dòng)設(shè)備推斷用戶可能發(fā)起話音輸入;推斷用戶可能發(fā)起話音輸入可以包括:由服務(wù)器推斷用戶可能發(fā)起話音輸入;和/或動(dòng)作可以包括:在移動(dòng)設(shè)備與服務(wù)器之間傳送音頻信號(hào)和持續(xù)時(shí)間數(shù)據(jù),其中持續(xù)時(shí)間數(shù)據(jù)指示在用戶開始說(shuō)話之前錄制的音頻信號(hào)中編碼的背景音頻錄制。
[0011]本說(shuō)明書中描述的主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在附圖和下文描述中記載。通過(guò)說(shuō)明書、附圖和權(quán)利要求,主題的其他潛在特征、方面和優(yōu)點(diǎn)將變得明顯。
【附圖說(shuō)明】
[0012]圖1和圖3是用于話音輸入的音頻預(yù)錄制的框圖。
[0013]圖2是一個(gè)示例過(guò)程的流程圖。
[0014]相似的編號(hào)始終表不對(duì)應(yīng)的部分。
【具體實(shí)施方式】
[0015]圖1是說(shuō)明用于話音輸入的預(yù)測(cè)音頻預(yù)錄制的框圖。具體地,圖1示出了一個(gè)系統(tǒng)100,包括屬于用戶102( “Jim”)的移動(dòng)客戶端通信設(shè)備101、屬于用戶105( “Bob”)的移動(dòng)客戶端通信設(shè)備104以及服務(wù)器106。移動(dòng)設(shè)備101和104通過(guò)一個(gè)或多個(gè)網(wǎng)絡(luò)107(示為網(wǎng)絡(luò)107a和107b)連接至服務(wù)器106。網(wǎng)絡(luò)107是諸如內(nèi)網(wǎng)或者蜂窩電話網(wǎng)絡(luò)的專用網(wǎng)絡(luò)、諸如因特網(wǎng)的公共網(wǎng)絡(luò)或其某些組合。圖1還示出了設(shè)備101與服務(wù)器106之間在時(shí)序狀態(tài)“a”和“b”中的第一示例交互以及設(shè)備104與服務(wù)器106之間在時(shí)序狀態(tài)“i”到V’中的第二示例交互。
[0016]起初,說(shuō)明書中使用的“項(xiàng)”(或“查詢項(xiàng)”)包括一個(gè)或多個(gè)完整的或部分的單詞、字符或者字符串;“查詢搜索”包括當(dāng)用戶請(qǐng)求搜索引擎執(zhí)行搜索時(shí)提交給搜索引擎的一個(gè)或多個(gè)查詢項(xiàng)。項(xiàng)可以由用戶使用小鍵盤鍵入,或者在話音查詢的情況下,用戶說(shuō)出或者以其他方式提供話音輸入,話音輸入在被提交給搜索引擎之前由語(yǔ)音識(shí)別引擎轉(zhuǎn)錄。
[0017]除其他之外,搜索的“結(jié)果”(或者“搜索結(jié)果”)包括同一資源標(biāo)識(shí)符(“URI”),其指示被搜索引擎確定為響應(yīng)于搜索查詢的資源。搜索結(jié)果可以包括其他內(nèi)容,諸如相應(yīng)資源的標(biāo)題、預(yù)覽圖像、用戶排名、地圖或方向、描述,或者已經(jīng)從對(duì)應(yīng)資源中被自動(dòng)或手動(dòng)提取或以其他方式與其關(guān)聯(lián)的文本段。
[0018]在描述的示例中,移動(dòng)客戶端通信設(shè)備101和104是移動(dòng)電話,其包括允許各自用戶發(fā)起話音輸入的功能。例如,移動(dòng)設(shè)備101和104可以執(zhí)行這樣的應(yīng)用,該應(yīng)用顯示搜索框,并且在檢測(cè)到用戶選擇物理的“話音搜索”按鈕或者用戶界面“話音搜索”控件之后通過(guò)麥克風(fēng)進(jìn)行錄音,生成音頻信號(hào),并且將音頻信號(hào)提交給語(yǔ)音識(shí)別引擎或者搜索引擎。在其他示例中,移動(dòng)客戶端通信設(shè)備101和104是平板式計(jì)算機(jī)、膝上型計(jì)算機(jī)、個(gè)人數(shù)字助理器(PDA)、移動(dòng)音頻播放器、全球定位系統(tǒng)(GPS)接收器或者包括一個(gè)或多個(gè)處理器和一個(gè)或多個(gè)麥克風(fēng)等的其他設(shè)備。
[0019]服務(wù)器106可被實(shí)現(xiàn)為一個(gè)或多個(gè)計(jì)算設(shè)備,其包括:一個(gè)或多個(gè)處理器109;語(yǔ)音識(shí)別引擎110,用于處理針對(duì)搜索引擎111的話音查詢的;規(guī)則或概率模型引擎112(例如,規(guī)則引擎、概率模型引擎或其任意組合),用于向輸入數(shù)據(jù)應(yīng)用規(guī)則或概率模型以推斷(或以其他方式確定)是否應(yīng)當(dāng)調(diào)用移動(dòng)客戶端通信設(shè)備的一個(gè)或多個(gè)功能。推斷例如可以指示用戶要開始說(shuō)話的概率高于預(yù)定閾值。
[0020]服務(wù)器106還存儲(chǔ)與設(shè)備101和104和/或其他移動(dòng)客戶端通信設(shè)備有關(guān)的歷史數(shù)據(jù)114。例如,歷史數(shù)據(jù)1