語音識別功率管理的制作方法

文檔序號：9291752閱讀：457來源：國知局

語音識別功率管理的制作方法
【專利說明】
【背景技術】
[0001]計算裝置可包含語音識別能力。例如，計算裝置可捕獲音頻輸入并使用聲學模型和語言模型來識別語音。聲學模型用來生成假設，其中基于語音的聲學特征，聲音子字單元(例如，音素等)對應于語音。語言模型基于所說語音所用語言的詞匯特征來確定使用聲學模型生成的哪個假設最有可能是語音的抄本。計算裝置也能夠針對具體的語音識別應用來處理識別的語音。例如，有限的語法或自然語言處理技術可用來處理語音。
[0002]附圖簡述
[0003]參考以下詳細說明，結合附圖，將更易于了解、同時更好地理解本公開的各方面以及隨之而來的很多優(yōu)點，在附圖中:
[0004]圖1為描繪說明性功率管理子系統(tǒng)的示意圖。
[0005]圖2為描繪包括功率管理子系統(tǒng)的說明性用戶計算裝置的示意圖。
[0006]圖3為描繪用于語音識別功率管理的說明性例行程序的流程圖，所述語音識別功率管理可由圖1的功率管理子系統(tǒng)實施。
[0007]圖4A、圖4B和圖4C為描繪分布式語音識別系統(tǒng)的說明性操作的狀態(tài)圖。
[0008]圖5為描繪說明性用戶接口的直觀圖，所述用戶接口可由包括功率管理子系統(tǒng)的用戶計算裝置提供。
[0009]詳細說明
[0010]在語音識別的一些當前方法中，語音識別能力被分配到分布式計算環(huán)境中的一個或多個計算裝置上。在這些方法的一個具體實例中，第一計算裝置可配置來捕獲音頻輸入，并且可通過網(wǎng)絡將音頻輸入傳輸?shù)降诙嬎阊b置。第二計算裝置可對音頻輸入執(zhí)行語音識另IJ，并且生成音頻輸入中包含的語音的抄本。語音的抄本隨后可通過網(wǎng)絡從第二計算裝置傳輸回到第一計算裝置。在其他當前方法中，第一計算裝置可配置來捕獲音頻輸入并獨立地轉錄音頻輸入。
[0011]在這些和其他當前方法中，第一計算裝置可配置來保持在持續(xù)活動狀態(tài)。在這種持續(xù)活動狀態(tài)下，第一計算裝置可連續(xù)不斷地維持到第二計算裝置的網(wǎng)絡連接。第一計算裝置也可繼續(xù)為用來實施自身的語音識別能力的任何硬件提供電力。這些方法的一個缺點尤其在于，第一計算裝置用來維持持續(xù)活動狀態(tài)而消耗的能量可能是無法接受的。對于依賴電池電力的移動計算裝置而言，這種能量需求特別成問題。當前方法中還有其他問題。
[0012]因此，本公開的方面涉及語音識別的功率管理。計算裝置可配有功率管理子系統(tǒng)，所述功率管理子系統(tǒng)選擇性地啟用或停用計算裝置的一個或多個模塊。此啟用可響應于音頻輸入，所述音頻輸入包括一個或多個預先指定的所說字詞，本文中有時稱為“關鍵字”。促使啟用一個或多個部件的關鍵字在本文中有時稱為“喚醒字”，而促使停用一個或多個部件的關鍵字在本文中有時稱為“休眠字”。在一個特定實例中，計算裝置可包括選擇性地啟用的網(wǎng)絡接口模塊，所述網(wǎng)絡接口模塊在啟用時會消耗能量以使得計算裝置連接到第二計算裝置，諸如，語音識別服務器或其他計算裝置。功率管理子系統(tǒng)可處理音頻輸入以確定音頻輸入是否包含喚醒字，并且響應于確定音頻輸入包括喚醒字而啟用網(wǎng)絡接口模塊。啟用網(wǎng)絡接口模塊之后，功率管理子系統(tǒng)可使音頻輸入傳輸?shù)秸Z音識別服務器以進行處理。
[0013]功率管理子系統(tǒng)自身可包括一個或多個選擇性地啟用的模塊。在一些實施例中，一個或多個選擇性地啟用的模塊被實施為專用硬件(諸如集成電路、數(shù)字信號處理器或其他類型的處理器)，其可從功能相對較少的低功率停用狀態(tài)切換到功能相對較多的高功率啟用狀態(tài)，并且反之亦然。在其他實施例中，一個或多個模塊被實施為軟件，其包含由一個或多個通用處理器執(zhí)行的計算機可執(zhí)行代碼。通過啟用(或停用)通用處理器可啟用(或停用)軟件模塊，所述通用處理器配置來或能夠執(zhí)行軟件中包含的計算機可執(zhí)行代碼。在另外的實施例中，功率管理系統(tǒng)包括一個或多個硬件模塊以及一個或多個軟件模塊。
[0014]功率管理子系統(tǒng)可還包括與一個或多個選擇性地啟用的模塊通信的控制模塊。此控制模塊在本文中有時稱為“功率管理模塊”，并且可包括上述硬件或軟件中的任一個。功率管理模塊可使啟用或停用功率管理子系統(tǒng)的模塊。在一些實施例中，至少部分基于計算裝置中包括的音頻輸入模塊獲得的音頻輸入的特征，功率管理模塊啟用或停用一個或多個模塊。例如，功率管理子系統(tǒng)的模塊可確定一個或多個值，例如，所述值可包括音頻輸入的能量水平或音量；對應于語音出現(xiàn)在音頻輸入中的可能性的分數(shù)；對應于關鍵字出現(xiàn)在語音中的可能性的分數(shù)；以及其他值。模塊可將一個或多個值傳送到功率管理模塊，所述功率管理模塊可與另一模塊通信以使該模塊啟用，或者與從中接收一個或多個值的模塊通信以使所述模塊和/或其他模塊停用。然而，在其他實施例中，第一選擇性地啟用的模塊可直接與第二選擇性地啟用的模塊通信，以使該模塊啟用。在此類實施例中，無需功率管理模塊。在另外的實施例中，功率管理子系統(tǒng)可配有一個或多個模塊，其中一個或多個模塊中的至少一些彼此通信，但不與功率管理模塊通信。
[0015]在一個示例性實施方案中，功率管理子系統(tǒng)可包括音頻檢測模塊，所述音頻檢測模塊可配置來確定計算裝置獲得的音頻輸入的能量水平或音量。盡管音頻檢測模塊可持續(xù)監(jiān)測音頻輸入，但功率管理子系統(tǒng)的其余部件可保持在低功率非活動狀態(tài)，直到被啟用為止(被功率管理模塊或另一不同模塊啟用)。如果音頻檢測模塊確定音頻輸入滿足閾值能量水平或音量，則語音檢測模塊可被啟用以確定音頻輸入是否包含語音。如果語音檢測模塊確定音頻輸入包含語音，則功率管理子系統(tǒng)中包括的語音處理模塊可被啟用。語音處理模塊可確定語音是否包含喚醒字，并且可任選地對語音分類，以確定特定的用戶是否說出所述喚醒字。如果語音處理模塊確定語音包含喚醒字，那么應用處理模塊可被啟用，所述應用處理模塊可實施存儲在計算裝置的存儲器中的語音識別應用模塊。例如，語音識別應用可包括智能代理前端，諸如，如2011年I月10日申請并于2012年I月19日公開為美國公布號 2012/0016678 的“智能自動助理(Intelligent Automated Assistant) ” 中所描述的智能代理前端。該專利申請的公開內(nèi)容以全文引用的方式并入本文中。選擇性地啟用的網(wǎng)絡接口模塊也可被啟用，如上文所述，并且音頻輸入可被傳輸?shù)竭h程計算裝置，以便進行處理。下文相對于圖3更詳細地論述了此示例性實施方案?；蛘撸β使芾碜酉到y(tǒng)可響應于檢測到喚醒字而啟用處理單元，所述處理單元實施計算裝置的任何裝置上的語音識別能力。
[0016]通過選擇性地啟用計算裝置的模塊，功率管理子系統(tǒng)可有利地提高計算裝置的能量效率。通過選擇性地啟用一個或多個自身的模塊，功率管理子系統(tǒng)還可提高計算裝置的能量效率。盡管對于依賴電池電力的計算裝置而言，此類實施方案尤其有利，但可能需要功率管理的所有計算裝置均可受益于本公開的原理。
[0017]現(xiàn)在轉到圖1，示出可包括在計算裝置中的說明性功率管理子系統(tǒng)100。功率管理子系統(tǒng)100可包括模/數(shù)轉換器102 ;存儲器緩沖模塊104 ;音頻檢測模塊106 ;語音檢測模塊108 ;語音處理模塊110 ;應用處理模塊112 ;以及功率管理模塊120。存儲器緩沖模塊104可與音頻檢測模塊106、語音檢測模塊108、語音處理模塊110、應用處理模塊112以及網(wǎng)絡接口模塊206通信。功率管理模塊120同樣可與音頻檢測模塊106、語音檢測模塊108、語音處理模塊110、應用處理模塊112以及網(wǎng)絡接口模塊206通信。
[0018]模/數(shù)轉換器102可接收來自音頻輸入模塊208的音頻輸入。下文相對于圖2還詳細地論述音頻輸入模塊208。模/數(shù)轉換器102可配置來將模擬音頻輸入轉換成數(shù)字音頻輸入，以便由功率管理子系統(tǒng)100的其他部件處理。在音頻輸入模塊208獲得數(shù)字音頻輸入(例如，音頻輸入模塊208包括數(shù)字麥克風或其他數(shù)字音頻輸入裝置)的實施例中，模/數(shù)轉換器102可任選地從功率管理子系統(tǒng)100中省去。因此，音頻輸入模塊208可將音頻輸入直接提供到功率管理子系統(tǒng)100的其他模塊。
[0019]存儲器緩沖模塊104可包含配置來存儲數(shù)字音頻輸入的一個或多個存儲器緩沖區(qū)。音頻輸入模塊208獲得的音頻輸入(并且如果是模擬音頻輸入，則由模/數(shù)轉換器102轉換成數(shù)字形式)可被記錄到存儲器緩沖模塊104。記錄到存儲器緩沖模塊104的音頻輸入可由功率管理子系統(tǒng)100的其他模塊存取，以便由這些模塊處理，如本文中進一步論述。
[0020]存儲器緩沖模塊104的一個或多個存儲器緩沖區(qū)可包括硬件存儲器緩沖區(qū)、軟件存儲器緩沖區(qū)或者兩者。一個或多個存儲器緩沖區(qū)可具有相同的容量或不同的容量。存儲器緩沖模塊104的存儲器緩沖區(qū)可經(jīng)選擇以存儲，其他模塊可取決于所述音頻輸入而啟用。例如，如果只有音頻檢測模塊106活動，那么音頻輸入可被存儲到容量相對較小的硬件存儲器緩沖區(qū)。然而，如果其他模塊被啟用，諸如，語音檢測模塊108、語音處理模塊110、應用處理模塊112和/或網(wǎng)絡接口模塊206，那么音頻輸入可存儲到容量相對較大的軟件存儲器緩沖區(qū)。在一些實施例中，存儲器緩沖模塊104包含環(huán)形緩沖區(qū)，其中音頻輸入可按照音頻輸入模塊208獲得其的順序進行記錄和重寫。
[0021]音頻檢測模塊106可處理音頻輸入，以確定音頻輸入的能量水平。在一些實施例中，音頻檢測模塊106包括低功率數(shù)字信號處理器(或其他類型的處理器)，所述處理器配置來確定所獲得的音頻輸入的能量水平(諸如，音量、強度、振幅等)并且將音頻輸入的能量水平與能量水平閾值相比較。能量水平閾值可根據(jù)用戶輸入來設置，或者可由功率管理子系統(tǒng)100自動設置，如下文相對于圖3進一步論述。在一些實施例中，音頻檢測模塊106還配置來確定音頻輸入的能量水平至少在閾值持續(xù)時間內(nèi)滿足閾值。在此類實施例中，持續(xù)時間相對較短的高能量音頻輸入可對應于相對不可能包含語音的突發(fā)噪音，它們可被忽略并且不被功率管理子系統(tǒng)100的其他部件處理。
[0022]如果音頻檢測模塊106確定所獲得的音頻輸入的能量水平滿足能量水平閾值，那么它可與功率管理模塊120通信，以指導功率管理模塊120啟用語音檢測模塊108?；蛘撸纛l檢測模塊106可將能量水平傳送到功率管理模塊120，并且功率管理模塊120可將所述能量水平與能量水平閾值相比較(且任選地與閾值持續(xù)時間相比較)，以確定是否啟用語音檢測模塊108。在另一替代方案中，音頻檢測模塊106可直接與語音檢測模塊108通信以將其啟用。任選地，響應于音頻檢測模塊106確定音頻輸入的能量水平滿足閾值，功率管理模塊120 (或音頻檢測模塊106)可指導音頻輸入模塊208提高其采樣率(無論是以幀速率還是位速率測量)。
[0023]語音檢測模塊108可處理音頻輸入，以確定音頻輸入是否包含語音。在一些實施例中，語音檢測模塊108包括低功率數(shù)字信號處理器(或其他類型的處理器)，所述處理器配置來實施一個或多個技術，以便確定音頻輸入是否包含語音。在一些實施例中，語音檢測模塊108應用話音活動檢測(VAD)技術。此類技術可基于音頻輸入的各個量化方面確定語音是否存在于音頻輸入中，所述量化

完整全部詳細技術資料下載

當前第1頁1 2 3 4 5 6

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：肯尼思·約翰·巴斯耶;休·埃文·塞克-瓦爾克;托尼·大衛(wèi);賴因哈德·克內(nèi)澤爾;杰弗瑞·彭羅德·亞當斯;斯坦·魏德納·薩爾瓦多;馬赫什·克里希納穆爾蒂;
技術所有人：亞馬遜技術有限公司;
我是此專利的發(fā)明人

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音識別功率管理的制作方法