用于關(guān)鍵字檢測的自適應(yīng)音頻幀處理的制作方法
【專利說明】用于關(guān)鍵字檢測的自適應(yīng)音頻幀處理
[0001]優(yōu)先權(quán)的主張
[0002]本申請案主張共同擁有的2013年5月7日申請的第61/820,464號美國臨時專利申請案、2013年7月26日申請的第61/859,048號美國臨時專利申請案以及2013年12月10日申請的第14/102,097號美國非臨時專利申請案的優(yōu)先權(quán),上述申請案中的每一者的內(nèi)容以全文引用的方式明確地并入本文中。
技術(shù)領(lǐng)域
[0003]本發(fā)明大體上涉及移動裝置中的語音辨識,且更明確地說,涉及處理輸入聲音來檢測移動裝置中的目標關(guān)鍵字。
【背景技術(shù)】
[0004]最近,例如智能電話和平板計算機等移動裝置的使用已變得普遍。這些裝置通常提供經(jīng)由無線網(wǎng)絡(luò)的話音和數(shù)據(jù)通信功能性。另外,此類移動裝置通常包含提供為增強用戶方便而設(shè)計的多種功能的其它特征。
[0005]正越來越多地使用的所述特征中的一者為話音助理功能。話音助理功能允許移動裝置接收話音命令,并響應(yīng)于所述話音命令而運行各種應(yīng)用程序。舉例來說,來自用戶的話音命令允許移動裝置呼叫所要的電話號碼,播放音頻文件,拍攝圖片,搜索因特網(wǎng),或獲得天氣信息,而無對移動裝置的物理操縱。
[0006]在常規(guī)移動裝置中,通常響應(yīng)于從輸入聲音檢測到目標關(guān)鍵字而激活話音助理功能。目標關(guān)鍵字的檢測通常涉及從輸入聲音提取聲音特征,以及一次使所述聲音特征中的一個標準化。然而,以此方式循序地使所述聲音特征標準化可能導(dǎo)致從輸入聲音檢測目標關(guān)鍵字的延遲。另一方面,在具有有限電力供應(yīng)的移動裝置中,可立刻執(zhí)行聲音特征的標準化。然而,在此情況下,此標準化通常導(dǎo)致大量的進程負載,這要花費一些時間來返回到正常進程負載,同時耗盡電源。
【發(fā)明內(nèi)容】
[0007]本發(fā)明提供用于從移動裝置中的輸入聲音檢測目標關(guān)鍵字的方法和設(shè)備。
[0008]根據(jù)本發(fā)明的一個方面,揭示一種從輸入聲音檢測目標關(guān)鍵字以激活移動裝置中的功能的方法。在此方法中,在緩沖器中接收第一多個聲音特征,且在所述緩沖器中接收第二多個聲音特征。當(dāng)在所述緩沖器中接收到所述第二多個聲音特征中的每一者時,從所述緩沖器處理第一數(shù)目個所述聲音特征。所述第一數(shù)目個所述聲音特征包含兩個或多個聲音特征。另外,所述方法可包含為所述經(jīng)處理的聲音特征中的至少一者確定關(guān)鍵字得分,以及在所述關(guān)鍵字得分中的至少一者大于閾值得分的情況下,將所述輸入聲音檢測為目標關(guān)鍵字。本發(fā)明還描述設(shè)備、裝置、系統(tǒng)、裝置組合以及與此方法有關(guān)的計算機可讀媒體。
[0009]根據(jù)本發(fā)明的另一方面,一種移動裝置包含緩沖器、特征處理單元、關(guān)鍵字得分計算單元以及關(guān)鍵字檢測單元。所述緩沖器經(jīng)配置以存儲第一多個聲音特征和第二多個聲音特征。所述特征處理單元經(jīng)配置以處理來自緩沖器的第一數(shù)目個聲音特征,而所述緩沖器接收第二多個聲音特征中的每一者。所述第一數(shù)目個所述聲音特征包含兩個或多個聲音特征。關(guān)鍵字得分計算單元經(jīng)配置以為所述經(jīng)處理的聲音特征中的每一者確定關(guān)鍵字得分。如果所述關(guān)鍵字得分中的至少一者大于閾值得分,那么關(guān)鍵字檢測單元經(jīng)配置以將輸入聲首檢測為目標關(guān)鍵字。
【附圖說明】
[0010]當(dāng)結(jié)合附圖閱讀時,將參考以下詳細描述來理解本發(fā)明的發(fā)明性方面的實施例。
[0011]圖1說明根據(jù)本發(fā)明一個實施例響應(yīng)于從輸入聲音檢測到目標關(guān)鍵字而激活移動裝置中的話音助理應(yīng)用程序。
[0012]圖2說明根據(jù)本發(fā)明一個實施例的經(jīng)配置以從輸入聲音流檢測目標關(guān)鍵字并激活話音助理單元的移動裝置的框圖。
[0013]圖3說明根據(jù)本發(fā)明一個實施例的經(jīng)配置以通過處理來自特征緩沖器的多個聲音特征,同時在所述特征緩沖器中接收下一個聲音特征來檢測目標關(guān)鍵字的話音激活單元的框圖。
[0014]圖4說明根據(jù)本發(fā)明一個實施例的將輸入聲音流分段成多個幀并從所述幀提取多個聲音特征的圖。
[0015]圖5說明根據(jù)本發(fā)明一個實施例的展示在從!\到Tm的時間周期內(nèi)從特征提取器接收到且輸出到特征處理單元的聲音特征的特征緩沖器的圖。
[0016]圖6A是根據(jù)本發(fā)明一個實施例的在移動裝置中執(zhí)行以從輸入聲音流檢測目標關(guān)鍵字來激活移動裝置中的功能的方法的流程圖。
[0017]圖6B是根據(jù)本發(fā)明一個實施例的在移動裝置中執(zhí)行的用于在已檢索并標準化先前的聲音特征之后,在特征緩沖器包含小于第一數(shù)目個聲音特征時,循序地接收和標準化一序列聲音特征的方法的流程圖。
[0018]圖7是根據(jù)本發(fā)明一個實施例的在移動裝置中執(zhí)行的用于基于移動裝置的資源信息來調(diào)整將由特征處理單元標準化的若干聲音特征的方法的流程圖。
[0019]圖8說明其中基于移動裝置的可用資源來調(diào)整指示將由特征處理單元標準化的若干聲音特征的第一數(shù)目的示例性圖表。
[0020]圖9說明根據(jù)本發(fā)明一個實施例的經(jīng)配置以跳過在從特征緩沖器檢索到的第一數(shù)目個聲音特征之中的一或多個聲音特征的標準化的特征處理單元的圖。
[0021]圖10是根據(jù)本發(fā)明一個實施例的用于基于當(dāng)前聲音特征與先前聲音特征之間的差異來確定是否對當(dāng)前聲音特征執(zhí)行標準化的方法的流程圖。
[0022]圖11是根據(jù)本發(fā)明一個實施例的在移動裝置中執(zhí)行的用于基于移動裝置的資源信息來調(diào)整第一數(shù)目個聲音特征之中將標準化的聲音特征的數(shù)目的方法的流程圖。
[0023]圖12說明根據(jù)本發(fā)明另一實施例的其中根據(jù)移動裝置的可用資源來調(diào)整指示第一數(shù)目個聲音特征之中將標準化的聲音特征的數(shù)目的示例性圖表。
[0024]圖13說明其中可根據(jù)一些實施例來實施用于從輸入聲音檢測目標關(guān)鍵字來激活功能的方法和設(shè)備的示例性移動裝置的框圖。
【具體實施方式】
[0025]圖1說明根據(jù)本發(fā)明一個實施例的響應(yīng)于從輸入聲音檢測到目標關(guān)鍵字來激活移動裝置120中的話音助理應(yīng)用程序130。為了激活話音助理應(yīng)用程序130,用戶110說出目標關(guān)鍵字,其由移動裝置捕獲。當(dāng)移動裝置120檢測到目標關(guān)鍵字時,激活話音助理應(yīng)用程序130以在顯示器單元上或通過移動裝置120的揚聲器單元輸出消息,例如“需要幫助嗎?,,。
[0026]作為響應(yīng),用戶110可通過激活說出其它話音命令,經(jīng)由話音助理應(yīng)用程序130來激活移動裝置120的各種功能。舉例來說,用戶可通過說出話音命令“播放音樂”來激活音樂播放器140。盡管所說明的實施例響應(yīng)于檢測到目標關(guān)鍵字而激活話音助理應(yīng)用程序130,但其也可響應(yīng)于檢測相關(guān)聯(lián)的目標關(guān)鍵字來激活任何其它應(yīng)用程序或功能。在一個實施例中,移動裝置120可通過從緩沖器檢索多個聲音特征以供處理,同時產(chǎn)生和接收下一個聲音特征到所述緩沖器中,來檢測目標關(guān)鍵字,如下文將更詳細地描述。
[0027]圖2說明根據(jù)本發(fā)明一個實施例的經(jīng)配置以從輸入聲音流210檢測目標關(guān)鍵字并激活話音助理單元238的移動裝置120的框圖。如本文所使用,術(shù)語“聲音流”指代一序列一或多個聲音信號或聲音數(shù)據(jù)。另外,術(shù)語“目標關(guān)鍵字”指代可用來激活移動裝置120中的功能或應(yīng)用程序的一或多個字或聲音的任何數(shù)字或模擬表示。移動裝置120包含聲音傳感器220、處理器230、I/O單元240、存儲單元250和通信單元260。移動裝置120可為配備有聲音捕獲和處理能力的任何合適裝置,例如蜂窩式電話、智能電話、膝上型計算機、平板個人計算機、游戲裝置、多媒體播放器等。
[0028]處理器230包含數(shù)字信號處理器(DSP) 232和話音助理單元238,且可為用于管理和操作移動裝置120的應(yīng)用程序處理器或中央處理單元(CPU)。DSP 232包含語音檢測器234和話音激活單元236。在一個實施例中,DSP 232為用于減少處理聲音流時的電力消耗的低電力處理器。在此配置中,DSP 232中的話音激活單元236經(jīng)配置以在輸入聲音流210中檢測到目標關(guān)鍵字時,激活話音助理單元238。盡管在所示出的實施例中,話音激活單元236經(jīng)配置以激活話音助理單元238,但其也可激活可與目標關(guān)鍵字相關(guān)聯(lián)的任何功能或應(yīng)用程序。
[0029]聲音傳感器220可經(jīng)配置以接收輸入聲音流210,并將其提供給DSP 232中的語音檢測器234。聲音傳感器220可包含可用來接收、捕獲、感測和/或檢測輸入聲音流210的一或多個麥克風(fēng)或任何其它類型的聲音傳感器。另外,聲音傳感器220可使用任何合適的軟件和/或硬件來執(zhí)行此類功能。
[0030]在一個實施例中,聲音傳感器220可經(jīng)配置以根據(jù)工作周期來周期性地接收輸入聲音流210。在此情況下,聲音傳感器220可確定輸入聲音流210的接收到的部分是否大于閾值聲音強度。當(dāng)輸入聲音流210的接收到的部分大于閾值聲音強度時,聲音傳感器220激活語音檢測器234,并將所述接收到的部分提供給DSP 232中的語音檢測器234?;蛘?,在不確定接收到的部分是否超過閾值聲音強度的情況下,聲音傳感器220可周期性地接收輸入聲音流的一部分,并激活語音檢測器234以將所述接收到的部分提供給語音檢測器234。[0031 ] 為了在檢測目標關(guān)鍵字中使用,存儲單元250存儲目標關(guān)鍵字以及關(guān)于與目標關(guān)鍵字的多個部分相關(guān)聯(lián)的多個狀態(tài)的狀態(tài)信息。在一個實施例中,可將所述目標關(guān)鍵字分為多個基本聲音單元,例如音子、音位或其子單元,且可基于所述基本聲音單元產(chǎn)生表示所述目標關(guān)鍵字的多個部分。接著在馬爾可夫鏈模型(例如隱馬爾可夫模型(HMM)、半馬爾可夫模型(SMM)或其組合)下使目標關(guān)鍵字的每一部分與狀態(tài)相關(guān)聯(lián)。狀態(tài)信息可包含從所述狀態(tài)中的每一者到包含其本身的下一狀態(tài)的轉(zhuǎn)變信息。存儲單元250可使用任何合適的存儲或存儲器裝置來實施,例如RAM (隨機存取存儲器)、ROM(只讀存儲器)、EEPROM (電可擦除可編程只讀存儲器)、快閃存儲器或固態(tài)驅(qū)動器(SSD)。
[0032]DSP 232中的語音檢測器234在被激活時,從聲音傳感器220接收輸入聲音流210的所述部分。在一個實施例中,語音檢測器234從接收到的部分提取多個聲音特征,并通過使用任何合適的聲音分類方法(例如基于高斯混合模型(GMM)的分類器、神經(jīng)網(wǎng)絡(luò)、HMM、圖形模型以及支持向量機(SVM))來確定所提取的聲音特征是否指示所關(guān)注的聲音,例如人類語音。如果確定接收到的部分為所關(guān)注的聲音,那么語音檢測器234激活話音激活單元236,且將輸入聲音流的所述接收到的部分以及其余部分提供給話音激活單元236。在一些其它實施例中,DSP 232中可省略語音檢測器234。在此情況下,當(dāng)接收到