話音輸入的預(yù)測(cè)性音頻預(yù)錄制的制作方法_3

文檔序號(hào)：9809970閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>話音輸入的預(yù)測(cè)性音頻預(yù)錄制的制作方法

038]因?yàn)殡娙輦鞲衅鲾?shù)據(jù)只是檢測(cè)到了觸摸，或者基于設(shè)備狀態(tài)數(shù)據(jù)和包括電容傳感器數(shù)據(jù)在內(nèi)的傳感器數(shù)據(jù)的任何加權(quán)或未加權(quán)組合，規(guī)則或概率模型112確定用戶可能發(fā)起話音輸入。輸入數(shù)據(jù)和指示推斷輸出的數(shù)據(jù)被存儲(chǔ)在服務(wù)器106上作為歷史數(shù)據(jù)114，以用于生成或改變規(guī)則或者訓(xùn)練由規(guī)則或概率模型引擎112使用的模型。
[0039]在狀態(tài)“iv”，基于此推斷，服務(wù)器106向移動(dòng)設(shè)備104傳送消息121，向移動(dòng)設(shè)備104指示用戶可能發(fā)起話音輸入，和/或應(yīng)當(dāng)開始對(duì)音頻的預(yù)測(cè)性錄制。對(duì)輸入數(shù)據(jù)的收集以及對(duì)用戶是否想要發(fā)起話音輸入的推斷可以發(fā)生一次，可以重復(fù)特定的次數(shù)或者以特定間隔重復(fù)，可以重復(fù)直到發(fā)生預(yù)定事件，或者可以重復(fù)直到第N次確定用戶可能發(fā)起用戶輸入。
[0040]移動(dòng)設(shè)備104處理消息121，并且作為響應(yīng)發(fā)起預(yù)測(cè)性錄音，這例如是通過(guò)發(fā)起移動(dòng)設(shè)備104的錄音功能，該錄音功能錄制用戶105說(shuō)出的話以及在說(shuō)話之前、期間或之后出現(xiàn)的背景音頻。在此示例中，預(yù)測(cè)性錄音使得移動(dòng)設(shè)備104錄制用戶作為話音輸入而說(shuō)出的話122“方向”，以及在用戶說(shuō)出話語(yǔ)122之前出現(xiàn)的背景音頻的短暫(例如，兩秒)部分。
[0041 ]話語(yǔ)122和背景音頻的部分由移動(dòng)設(shè)備104轉(zhuǎn)換為音頻信號(hào)124，它從移動(dòng)設(shè)備104被傳送給服務(wù)器106。除了音頻信號(hào)124之外，可以向服務(wù)器106傳送其他信息，諸如由移動(dòng)設(shè)備104生成的音頻信號(hào)124的候選轉(zhuǎn)錄，或者指示在用戶開始說(shuō)話之前被錄制的背景音頻錄音的持續(xù)時(shí)間的數(shù)據(jù)。
[0042]在某些實(shí)現(xiàn)中，移動(dòng)設(shè)備104還傳送可以為語(yǔ)音識(shí)別引擎110提供與音頻信號(hào)124相關(guān)聯(lián)的上下文的信息。例如，移動(dòng)設(shè)備104可以提供瀏覽器的內(nèi)容或者瀏覽器內(nèi)容的URI(例如，用于確定最常見的項(xiàng)、主標(biāo)題或者其他內(nèi)容信息)、用戶的位置(例如，使用內(nèi)置導(dǎo)航傳感器被確定)或者估計(jì)的用戶速度(例如，用戶是乘車還是步行，等等)。
[0043]服務(wù)器使用語(yǔ)音識(shí)別引擎110生成音頻信號(hào)124的一個(gè)或多個(gè)轉(zhuǎn)錄，并且使用搜索引擎111標(biāo)識(shí)與該轉(zhuǎn)錄相關(guān)的資源。在其他實(shí)現(xiàn)中，語(yǔ)音識(shí)別引擎110、搜索引擎111或者規(guī)則或概率模型引擎112的全部或部分功能可以由移動(dòng)設(shè)備104執(zhí)行。
[0044]如上文示例，與例如需要通過(guò)按壓按鈕發(fā)起話音輸入而要求用戶顯式發(fā)起話音輸入的系統(tǒng)相比，系統(tǒng)100至少可以實(shí)現(xiàn)三個(gè)優(yōu)點(diǎn)。對(duì)于第一個(gè)優(yōu)點(diǎn)，語(yǔ)音識(shí)別被用于轉(zhuǎn)錄在例如各種有噪聲環(huán)境中輸入的話，例如當(dāng)用戶在喧鬧的房間(例如，咖啡館)中、走在街上或者存在廣播或電視的情況下輸入的話。為了過(guò)濾該噪聲，某些降噪算法要求來(lái)自該環(huán)境的、沒(méi)有用戶語(yǔ)音的音頻樣本。通過(guò)在用戶發(fā)起話音輸入之前(例如，在用戶按壓按鈕之前)預(yù)測(cè)性地預(yù)先錄音，這種背景錄音變得可用于降噪算法，從而改善識(shí)別精度。
[0045]對(duì)于第二個(gè)優(yōu)點(diǎn)，當(dāng)用戶例如通過(guò)在已經(jīng)開始說(shuō)話之后按壓按鈕或者在他們結(jié)束說(shuō)話之前釋放按鈕而發(fā)起話音輸入時(shí)通常是不精確的。預(yù)測(cè)性錄音更好地確保話音輸入的開始不被丟失，并且記錄和轉(zhuǎn)錄用戶的所有話，這再次改善了識(shí)別精度。
[0046]對(duì)于第三個(gè)優(yōu)點(diǎn)，某些移動(dòng)設(shè)備在用戶顯式地發(fā)起話音輸入的時(shí)刻與聲音子系統(tǒng)被啟動(dòng)和實(shí)際錄音開始的時(shí)刻之間具有明顯的延遲。通過(guò)預(yù)測(cè)性地預(yù)先錄音，識(shí)別精度將被改善，因?yàn)樵撗舆t的影響可以被解決和克服。
[0047]與持續(xù)錄音以便在用戶開始輸入之前捕獲音頻的系統(tǒng)相比，系統(tǒng)100也提供了附加的優(yōu)點(diǎn)。特別地，系統(tǒng)不需要移動(dòng)設(shè)備101和104持續(xù)地運(yùn)行將消耗電池并且縮短移動(dòng)設(shè)備電池續(xù)航時(shí)間的麥克風(fēng)預(yù)放大器、模數(shù)轉(zhuǎn)換器(ADC)以及處理器電路。因此，除了改進(jìn)的識(shí)別精度之外，系統(tǒng)10提供了移動(dòng)設(shè)備101和104的延長(zhǎng)電池續(xù)航時(shí)間和增強(qiáng)的總體用戶體驗(yàn)。
[0048]圖2示出了一個(gè)示例性過(guò)程200。簡(jiǎn)而言之，過(guò)程200包括:建立指示移動(dòng)設(shè)備狀態(tài)的狀態(tài)數(shù)據(jù)以及由移動(dòng)設(shè)備的一個(gè)或多個(gè)傳感器感測(cè)到的傳感器數(shù)據(jù)以作為輸入數(shù)據(jù)；向輸入數(shù)據(jù)應(yīng)用規(guī)則或者概率模型;基于向輸入數(shù)據(jù)應(yīng)用規(guī)則或者概率模型而推斷移動(dòng)設(shè)備的用戶可能發(fā)起話音輸入；以及響應(yīng)于推斷用戶可能發(fā)起話音輸入而調(diào)用移動(dòng)設(shè)備的一個(gè)或多個(gè)功能。
[0049]更具體地，當(dāng)過(guò)程200開始(201)時(shí)，建立指示移動(dòng)設(shè)備狀態(tài)的數(shù)據(jù)和由移動(dòng)設(shè)備的一個(gè)或多個(gè)傳感器感測(cè)到的數(shù)據(jù)以作為輸入數(shù)據(jù)(202)。輸入數(shù)據(jù)可以被持續(xù)地獲取(例如，接收或生成)，或者可以基于從服務(wù)器接收到開始獲取輸入數(shù)據(jù)的信號(hào)而被獲取。在另一示例中，輸入數(shù)據(jù)可以基于事件的發(fā)生(例如，時(shí)間的經(jīng)過(guò))而被獲取，或者在檢測(cè)到移動(dòng)設(shè)備已經(jīng)被開機(jī)或者開始移動(dòng)之后被獲取。
[0050]指示移動(dòng)設(shè)備狀態(tài)的數(shù)據(jù)以及由移動(dòng)設(shè)備的傳感器感測(cè)到的數(shù)據(jù)可以包括未處理數(shù)據(jù)和/或已處理數(shù)據(jù)。例如，數(shù)據(jù)可以包括傳感器讀數(shù)(例如，由加速計(jì)輸出的數(shù)值)，或者數(shù)值的有意義的解釋(例如，對(duì)該數(shù)值指示或表示什么的計(jì)算機(jī)生成的文本描述)。此外，指示移動(dòng)設(shè)備狀態(tài)的數(shù)據(jù)可以包括指示當(dāng)前狀態(tài)和/或近期狀態(tài)的數(shù)據(jù)，并且由傳感器感測(cè)到的數(shù)據(jù)可以包括當(dāng)前或近期數(shù)據(jù)。
[0051]簡(jiǎn)略參考圖3，指示移動(dòng)設(shè)備狀態(tài)的數(shù)據(jù)(S卩，數(shù)據(jù)301)可以包括指示移動(dòng)設(shè)備的顯示器是打開還是關(guān)閉的數(shù)據(jù)302，或者指示移動(dòng)設(shè)備是在鎖定模式還是未鎖定模式中運(yùn)行的數(shù)據(jù)304。附加地或備選地，數(shù)據(jù)可以包括指示在移動(dòng)設(shè)備上執(zhí)行的一個(gè)或多個(gè)應(yīng)用的數(shù)據(jù)305、指示話音搜索應(yīng)用是否正在移動(dòng)設(shè)備上執(zhí)行的數(shù)據(jù)306、指示由移動(dòng)設(shè)備的用戶選擇的字段是否支持話音文本輸入的數(shù)據(jù)307、和/或指示移動(dòng)設(shè)備的用戶是否正在操作移動(dòng)設(shè)備的輸入機(jī)制(例如，在小鍵盤上鍵入，或者操作鼠標(biāo)或軌跡球)的數(shù)據(jù)309。在某些實(shí)現(xiàn)中，如果數(shù)據(jù)305指示兩個(gè)或更多應(yīng)用正在移動(dòng)設(shè)備上執(zhí)行，該數(shù)據(jù)可以包括那個(gè)應(yīng)用目前是活躍的指示，或者哪個(gè)應(yīng)用在移動(dòng)設(shè)備的顯示區(qū)域的頂層的指示。設(shè)備狀態(tài)數(shù)據(jù)可以包括指示移動(dòng)設(shè)備的一個(gè)或多個(gè)狀態(tài)的任何其他數(shù)據(jù)310。使用規(guī)則或模型324，設(shè)備狀態(tài)數(shù)據(jù)301可以被規(guī)則引擎或者概率模型引擎用于確定用戶是否已經(jīng)激活或者正在激活指示將要到來(lái)的話音輸入的軟件，并且基于此確定提供推斷325。
[0052]瓷碗，由移動(dòng)設(shè)備的一個(gè)或多個(gè)傳感器感測(cè)到的數(shù)據(jù)(S卩，數(shù)據(jù)311)可以包括有移動(dòng)設(shè)備的小鍵盤傳感器所感測(cè)到的數(shù)據(jù)312(即，物理“話音搜索”按鈕是否被按壓)、由移動(dòng)設(shè)備的位置確定傳感器感測(cè)到的數(shù)據(jù)314(例如，由GPS、慣性導(dǎo)航、航位推測(cè)或者蜂窩網(wǎng)絡(luò)或W1-Fi三角測(cè)量模塊確定的用戶是否離家、移動(dòng)或者在途中)、由移動(dòng)設(shè)備的加速計(jì)感測(cè)到的數(shù)據(jù)315、由移動(dòng)設(shè)備的磁力計(jì)感測(cè)到的數(shù)據(jù)316(即，設(shè)備相對(duì)于地的朝向)、由移動(dòng)設(shè)備的光傳感器感測(cè)到的數(shù)據(jù)317(即，設(shè)備是否在用戶的口袋中)、由移動(dòng)設(shè)備的近距離傳感器感測(cè)到的數(shù)據(jù)319、由移動(dòng)設(shè)備的電容傳感器感測(cè)到的數(shù)據(jù)320、由移動(dòng)設(shè)備的觸摸傳感器感測(cè)到的數(shù)據(jù)321(即，用戶是否正握著移動(dòng)設(shè)備)和/或從任何其他傳感器獲取的數(shù)據(jù)322。使用規(guī)則或模型324，傳感器數(shù)據(jù)可以由規(guī)則引擎或者概率模型引擎用來(lái)確定設(shè)備處于指示將要到來(lái)的話音輸入的物理位置或者朝向，并且基于此確定提供推斷325。
[0053]返回圖2，規(guī)則或概率模型被應(yīng)用于輸入數(shù)據(jù)(204)，以生成用戶是否可能發(fā)起話音輸入的推斷。在基于規(guī)則的方法中，可以向輸入數(shù)據(jù)應(yīng)用規(guī)則以輸出用戶是否可能發(fā)起話音輸入的指示，其中傳感器數(shù)據(jù)和設(shè)備狀態(tài)數(shù)據(jù)的不同組合將提供不同的結(jié)果。例如，移動(dòng)設(shè)備可以具有物理搜索按鈕，其通常需要兩秒鐘按壓來(lái)發(fā)起話音搜索。規(guī)則可以規(guī)定:當(dāng)電容傳感器指示移動(dòng)設(shè)備正被握住并且設(shè)備處于未鎖定狀態(tài)時(shí)，只要物理搜索按鈕被按下預(yù)測(cè)性預(yù)錄音就可以開始，而無(wú)需等待經(jīng)過(guò)兩秒鐘的時(shí)間。
[0054]在另一示例中，規(guī)則可以規(guī)定:當(dāng)屏幕是打開并且移動(dòng)設(shè)備處于可以利用一次按鈕按壓或者一個(gè)姿態(tài)來(lái)觸發(fā)話音搜索的狀態(tài)時(shí)，例如當(dāng)話音搜索框在屏幕上可見時(shí)或者在話音輸入“輸入方法編輯器(me)”在屏幕上可見時(shí)，預(yù)測(cè)性的預(yù)錄音可以開始。如果觸摸傳感器可用，可以使用觸摸傳感器數(shù)據(jù)來(lái)檢測(cè)到用戶正握住設(shè)備，在這種情況下可以啟動(dòng)滾動(dòng)音頻緩沖區(qū)。
[0055]同樣或者作為替代，上文描述的任何以及所有數(shù)據(jù)類型可以被用作對(duì)概率模型的輸入。然而，取代針對(duì)輸入數(shù)據(jù)的每個(gè)可能組合而定義特定的結(jié)果，概率模型可以生成針對(duì)輸入數(shù)據(jù)的每個(gè)項(xiàng)的得分，并且可以在公式(I)中記載的條件

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁(yè)1 2 3 4 5

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

音頻錄制軟件相關(guān)技術(shù)

音頻錄制相關(guān)技術(shù)

電腦音頻錄制軟件相關(guān)技術(shù)

錄制音頻的軟件相關(guān)技術(shù)

音頻錄制軟件哪個(gè)好相關(guān)技術(shù)

電腦音頻錄制相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

話音輸入的預(yù)測(cè)性音頻預(yù)錄制的制作方法_3