在存在背景噪聲的情況下的語音活動(dòng)檢測(cè)的制作方法
【專利摘要】在語音處理系統(tǒng)中,在平均信噪比SNR計(jì)算中對(duì)于背景噪聲中的突然改變作出補(bǔ)償。可單獨(dú)或結(jié)合對(duì)所述平均SNR加權(quán)而使用SNR離群值濾波。可在計(jì)算所述SNR平均之前在每頻帶的所述SNR上施加自適應(yīng)權(quán)重。所述加權(quán)函數(shù)可為噪聲電平、噪聲類型和/或瞬時(shí)SNR值的函數(shù)。另一加權(quán)機(jī)制應(yīng)用零值濾波或離群值濾波,其將特定頻帶中的權(quán)重設(shè)定為零。此特定頻帶可表征為展現(xiàn)比其它頻帶中的所述SNR高幾倍的SNR的頻帶。
【專利說明】在存在背景噪聲的情況下的語音活動(dòng)檢測(cè)
[0001] 相關(guān)申請(qǐng)案的奪叉參考
[0002] 本申請(qǐng)案依據(jù)35U. S. C. § 119 (e)的權(quán)益主張2012年1月20日申請(qǐng)的第 61/588, 729號(hào)臨時(shí)專利申請(qǐng)案的優(yōu)先權(quán)。此臨時(shí)專利申請(qǐng)案全文以引用的方式明確地并入 本文中。
【背景技術(shù)】
[0003] 對(duì)于在噪聲環(huán)境中發(fā)生通信的應(yīng)用,可能需要使所要語音信號(hào)與背景噪聲分離。 噪聲可界定為干擾所要信號(hào)或以其它方式使所要信號(hào)降級(jí)的所有信號(hào)的組合。背景噪聲可 包含在聲學(xué)環(huán)境內(nèi)產(chǎn)生的許多噪聲信號(hào),例如其他人的背景對(duì)話,以及從所要信號(hào)和/或 其它信號(hào)的任一者產(chǎn)生的反射和回響。
[0004] 例如語音活動(dòng)檢測(cè)器(VAD)等信號(hào)活動(dòng)檢測(cè)器可用于使電子裝置中的不必要處 理的量最小化。語音活動(dòng)檢測(cè)器可遵循麥克風(fēng)選擇性地控制一個(gè)或一個(gè)以上信號(hào)處理階 段。舉例來說,記錄裝置可實(shí)施語音活動(dòng)檢測(cè)器以使對(duì)噪聲信號(hào)的處理和記錄最小化。語音 活動(dòng)檢測(cè)器可在無語音活動(dòng)的周期期間解除激勵(lì)或以其它方式解除激活信號(hào)處理和記錄。 類似地,例如智能電話、移動(dòng)電話、個(gè)人數(shù)字助理(PDA)、膝上型計(jì)算機(jī),或任何便攜式計(jì)算 裝置等通信裝置可實(shí)施語音活動(dòng)檢測(cè)器以便減少向噪聲信號(hào)分配的處理功率,且減少發(fā)射 或以其它方式傳送到遠(yuǎn)程目的地裝置的噪聲信號(hào)。語音活動(dòng)檢測(cè)器可在無語音活動(dòng)的周期 期間解除激勵(lì)或解除激活語音處理和發(fā)射。
[0005] 語音活動(dòng)檢測(cè)器令人滿意地操作的能力可能由于改變?cè)肼晽l件且噪聲條件具有 顯著噪聲能量而被阻止。當(dāng)將語音活動(dòng)檢測(cè)集成于經(jīng)受動(dòng)態(tài)噪聲環(huán)境的移動(dòng)裝置中時(shí),語 音活動(dòng)檢測(cè)器的性能可能進(jìn)一步復(fù)雜化。移動(dòng)裝置可在相對(duì)無噪聲的環(huán)境下操作,或可在 相當(dāng)大噪聲條件下操作,其中噪聲能量與語音能量近似。動(dòng)態(tài)噪聲環(huán)境的存在使得語音活 動(dòng)決策變得復(fù)雜。
[0006] 常規(guī)上,語音活動(dòng)檢測(cè)器將輸入幀分類為背景噪聲或活動(dòng)語音。活動(dòng)/不活動(dòng) 分類允許語音譯碼器利用典型電話對(duì)話中通常存在的談話突峰之間的暫停。在高信噪比 (SNR)(例如,SNR>30dB)下,簡單的能量量度適于準(zhǔn)確地檢測(cè)用于在最小位速率下編碼的 語音不活動(dòng)片段,借此滿足較低位速率要求。然而,在低SNR下,語音活動(dòng)檢測(cè)器的性能顯 著降級(jí)。舉例來說,在低SNR下,保守VAD可產(chǎn)生增加的錯(cuò)誤語音檢測(cè),從而導(dǎo)致較高平均 編碼速率。激進(jìn)VAD可錯(cuò)過檢測(cè)活動(dòng)語音片段,借此導(dǎo)致語音質(zhì)量的損失。
[0007] 大多數(shù)當(dāng)前VAD技術(shù)使用長期SNR來估計(jì)用于執(zhí)行關(guān)于輸入幀是背景噪聲還是活 動(dòng)語音的VAD決策的閾值(稱為VAD_THR)。在低SNR下或在快速變化的非靜止噪聲下,平 滑的長期SNR將產(chǎn)生不準(zhǔn)確VAD_THR,從而導(dǎo)致錯(cuò)過語音的增加可能性或錯(cuò)誤語音檢測(cè)的 增加可能性。并且,一些VAD技術(shù)(例如,自適應(yīng)多速率寬帶或AMR-WB)對(duì)于例如汽車噪聲 等靜止類型的噪聲較好工作,但對(duì)于低SNR(例如,SNR< 15dB)下的非靜止噪聲產(chǎn)生極高 語音活動(dòng)因數(shù)(歸因于廣泛錯(cuò)誤檢測(cè))。
[0008] 因此,語音活動(dòng)的錯(cuò)誤指示可導(dǎo)致處理和發(fā)射噪聲信號(hào)。對(duì)噪聲信號(hào)的處理和發(fā) 射可產(chǎn)生不良的用戶體驗(yàn),尤其是在歸因于語音活動(dòng)檢測(cè)器指示無語音活動(dòng),噪聲發(fā)射周 期不時(shí)地被不活動(dòng)周期打斷的情況下。相反,不良的語音活動(dòng)檢測(cè)可導(dǎo)致語音信號(hào)的相當(dāng) 大部分的丟失。語音活動(dòng)的初始部分的丟失可導(dǎo)致用戶需要有規(guī)律地重復(fù)對(duì)話的部分,這 是不合需要的情形。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明針對(duì)補(bǔ)償平均SNR( S卩,SNRavg)計(jì)算中的背景噪聲中突然改變。在一實(shí)施方 案中,帶內(nèi)的SNR值可通過離群值濾波和/或施加權(quán)重而選擇性調(diào)整。SNR離群值濾波可單 獨(dú)或與為平均SNR加權(quán)結(jié)合使用。還提供子帶內(nèi)的自適應(yīng)方法。
[0010] 在一實(shí)施方案中,VAD可包括在還包含俘獲聲音的一個(gè)或一個(gè)以上麥克風(fēng)的移動(dòng) 電話內(nèi)或耦合到所述移動(dòng)電話。所述裝置將傳入聲音信號(hào)劃分為時(shí)間塊,或分析幀或部分。 時(shí)間(或幀)中每一片段的持續(xù)時(shí)間足夠短使得信號(hào)的頻譜包絡(luò)保持相對(duì)靜止。
[0011] 在一實(shí)施方案中,為平均SNR加權(quán)。自適應(yīng)權(quán)重在計(jì)算平均SNR之前施加在每頻 帶SNR上。加權(quán)函數(shù)可為噪聲電平、噪聲類型和/或瞬時(shí)SNR值的函數(shù)。
[0012] 另一加權(quán)機(jī)制應(yīng)用零值濾波或離群值濾波,其將特定頻帶中的權(quán)重設(shè)定為零。此 特定頻帶可表征為展現(xiàn)比其它頻帶中的SNR高幾倍的SNR的頻帶。
[0013] 在一實(shí)施方案中,執(zhí)行SNR離群值濾波包括以單調(diào)次序?qū)㈩l帶中的經(jīng)修改瞬時(shí) SNR值分類,確定頻帶中的哪些為離群值頻帶,以及通過將與離群值頻帶相關(guān)聯(lián)的權(quán)重設(shè)定 為零而更新自適應(yīng)加權(quán)函數(shù)。
[0014] 在一實(shí)施方案中,使用子帶中的自適應(yīng)方法。代替于邏輯上組合子帶VAD決策,自 適應(yīng)加權(quán)子帶中的閾值與平均SNR之間的差。確定每一子帶中VAD閾值與平均SNR之間的 差。將權(quán)重施加到每一差值,且將經(jīng)加權(quán)差值相加在一起。可通過將結(jié)果與另一閾值(例 如,零)比較而確定是否存在語音活動(dòng)。
[0015] 提供此概述是為了以簡化形式介紹下文中在詳細(xì)描述內(nèi)容中進(jìn)一步描述的概念 選擇。此概述不希望指明所主張標(biāo)的物的關(guān)鍵特征或本質(zhì)特征,也不希望用于限制所主張 標(biāo)的物的范圍。
【專利附圖】
【附圖說明】
[0016] 當(dāng)結(jié)合附圖閱讀時(shí)將更好地理解以上概述以及說明性實(shí)施例的以下詳細(xì)描述。出 于說明實(shí)施例的目的,圖式中展示實(shí)施例的實(shí)例構(gòu)造;然而,實(shí)施例不限于所揭示的特定方 法和手段。圖中:
[0017] 圖1是VAD閾值(VAD_THR)與可在估計(jì)VAD閾值時(shí)使用的長期SNR(SNR_LT)的映 射曲線的實(shí)例;
[0018] 圖2是說明語音活動(dòng)檢測(cè)器的實(shí)施方案的框圖;
[0019] 圖3是對(duì)可在檢測(cè)語音活動(dòng)時(shí)使用的平均SNR加權(quán)的方法的實(shí)施方案的操作流 程;
[0020] 圖4是可在檢測(cè)語音活動(dòng)時(shí)使用的SNR離群值濾波的方法的實(shí)施方案的操作流 程;
[0021] 圖5是錯(cuò)誤檢測(cè)期間每頻帶經(jīng)分類SNR的概率分布函數(shù)(PDF)的實(shí)例;
[0022] 圖6是用于檢測(cè)在存在背景噪聲的情況下的語音活動(dòng)的方法的實(shí)施方案的操作 流程;
[0023] 圖7是可在檢測(cè)語音活動(dòng)時(shí)使用的方法的實(shí)施方案的操作流程;
[0024] 圖8是實(shí)例移動(dòng)臺(tái)的圖;以及
[0025] 圖9展示示范性計(jì)算環(huán)境。
【具體實(shí)施方式】
[0026] 參考且并入有圖式的以下詳細(xì)描述描述并說明了一個(gè)或一個(gè)以上特定實(shí)施例。展 示并充分詳細(xì)地描述了這些實(shí)施例(提供這些實(shí)施例并非用以限制而是僅用以示范和教 示)以使得所屬領(lǐng)域的技術(shù)人員能夠?qū)嵺`所主張的內(nèi)容。因此,為簡潔起見,所述描述可省 略所屬領(lǐng)域的技術(shù)人員已知的某些信息。
[0027] 在許多語音處理系統(tǒng)中,語音活動(dòng)檢測(cè)通常從例如麥克風(fēng)信號(hào)(例如,移動(dòng)電話 的麥克風(fēng)信號(hào))等音頻輸入信號(hào)估計(jì)。語音活動(dòng)檢測(cè)是例如聲碼器和語音辨識(shí)裝置等許多 語音處理裝置中的重要功能。語音活動(dòng)檢測(cè)分析可在時(shí)域或頻域中執(zhí)行。在存在背景噪聲 的情況下且在低SNR下,頻域VAD通常比時(shí)域VAD優(yōu)選。頻域VAD具有分析頻段的每一者 中的SNR的優(yōu)點(diǎn)。在典型的頻域VAD中,首先語音信號(hào)分段為幀,例如10到30ms長。接下 來,時(shí)域語音幀使用N點(diǎn)FFT(快速傅里葉變換)變換到頻域。第一半(即,N/2)頻段劃分 為若干頻帶,例如Μ頻帶。頻譜段到頻帶的此分組通常模擬人類聽覺系統(tǒng)的關(guān)鍵頻帶結(jié)構(gòu)。 作為一實(shí)例,對(duì)于以每秒16, 000樣本取樣的寬帶語音,假設(shè)Ν = 256點(diǎn)FFT且Μ = 20頻帶。 第一頻帶可含有Ν1頻譜段,第二頻帶可含有Ν2頻譜段,等等。
[0028] 第m頻帶中每頻帶的平均能量Eeb (m)通過將每一頻帶內(nèi)的FFT頻段的量值相加而 計(jì)算。接下來,使用等式(1)計(jì)算每頻帶的SNR:
[0029]
【權(quán)利要求】
1. 一種用于檢測(cè)在存在背景噪聲的情況下的語音活動(dòng)的方法,其包括: 在移動(dòng)臺(tái)的語音活動(dòng)檢測(cè)器處接收聲音的一個(gè)或一個(gè)以上輸入幀; 確定所述輸入幀的每一者的至少一個(gè)噪聲特性; 基于所述噪聲特性確定多個(gè)頻帶; 基于所述噪聲特性確定每頻帶的信噪比SNR值; 確定至少一個(gè)離群值頻帶; 基于所述至少一個(gè)離群值頻帶確定加權(quán); 在每頻帶的所述SNR上應(yīng)用所述加權(quán);以及 使用每頻帶的所述經(jīng)加權(quán)SNR檢測(cè)語音活動(dòng)的存在與否。
2. 根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括執(zhí)行SNR離群值濾波。
3. 根據(jù)權(quán)利要求1所述的方法,其中每一噪聲特性包括噪聲電平變化、噪聲類型或瞬 時(shí)SNR值的至少一者。
4. 根據(jù)權(quán)利要求3所述的方法,其中基于所述噪聲特性確定所述多個(gè)頻帶包括基于所 述噪聲電平變化或所述噪聲類型的至少一者確定所述多個(gè)頻帶。
5. 根據(jù)權(quán)利要求3所述的方法,其中確定每頻帶的所述SNR值包括基于所述噪聲電平 變化或所述噪聲類型的至少一者確定每頻帶的經(jīng)修改瞬時(shí)SNR值。
6. 根據(jù)權(quán)利要求5所述的方法,其中確定每頻帶的所述經(jīng)修改瞬時(shí)SNR值包括: 使用每頻帶信號(hào)能量的過去估計(jì)值基于所述輸入幀的至少所述瞬時(shí)SNR選擇性地使 每頻帶信號(hào)能量的當(dāng)前估計(jì)值平滑; 使用每頻帶噪聲能量的過去估計(jì)值基于至少所述噪聲電平變化和所述噪聲類型選擇 性地使每頻帶噪聲能量的當(dāng)前估計(jì)值平滑;以及 確定每頻帶信號(hào)能量的經(jīng)平滑估計(jì)值與噪聲能量的經(jīng)平滑估計(jì)值的比率。
7. 根據(jù)權(quán)利要求6所述的方法,其中所述頻帶的任一者中的經(jīng)修改瞬時(shí)SNR大于所述 頻帶的剩余者中的經(jīng)修改瞬時(shí)SNR的和。
8. 根據(jù)權(quán)利要求5所述的方法,其中基于所述至少一個(gè)離群值頻帶確定所述加權(quán)包括 基于所述噪聲電平變化、所述噪聲類型、所述離群值頻帶的位置或每頻帶的所述經(jīng)修改瞬 時(shí)SNR值的至少一者確定自適應(yīng)加權(quán)函數(shù)。
9. 根據(jù)權(quán)利要求8所述的方法,其中在每頻帶的所述SNR上應(yīng)用所述加權(quán)包括在每頻 帶的所述經(jīng)修改瞬時(shí)SNR上應(yīng)用所述自適應(yīng)加權(quán)函數(shù)。
10. 根據(jù)權(quán)利要求9所述的方法,其進(jìn)一步包括: 通過將所述頻帶上所述經(jīng)加權(quán)經(jīng)修改瞬時(shí)SNR相加而確定每輸入幀的經(jīng)加權(quán)平均 SNR ;以及 將所述經(jīng)加權(quán)平均SNR與閾值比較以檢測(cè)信號(hào)或語音活動(dòng)存在與否。
11. 根據(jù)權(quán)利要求10所述的方法,其中將所述經(jīng)加權(quán)平均SNR與閾值比較以檢測(cè)信號(hào) 或語音活動(dòng)存在與否包括: 確定每一頻帶中所述經(jīng)加權(quán)平均SNR與所述閾值之間的差; 將權(quán)重施加到每一差值; 將所述經(jīng)加權(quán)差值相加在一起;以及 通過將所述相加的經(jīng)加權(quán)差值與另一閾值比較而確定是否存在語音活動(dòng)。
12. 根據(jù)權(quán)利要求11所述的方法,其中所述閾值為零,且如果所述相加的經(jīng)加權(quán)差值 大于零,那么確定存在語音活動(dòng)且否則確定不存在語音活動(dòng)。
13. 根據(jù)權(quán)利要求8所述的方法,其進(jìn)一步包括執(zhí)行SNR離群值濾波,包括: 將所述頻帶中的所述經(jīng)修改瞬時(shí)SNR值以單調(diào)次序分類; 確定所述頻帶中哪些為所述離群值頻帶;以及 通過將與所述離群值頻帶相關(guān)聯(lián)的權(quán)重設(shè)定為零而更新所述自適應(yīng)加權(quán)函數(shù)。
14. 一種用于檢測(cè)在存在背景噪聲的情況下的語音活動(dòng)的設(shè)備,其包括: 用于接收聲音的一個(gè)或一個(gè)以上輸入幀的裝置; 用于確定所述輸入幀的每一者的至少一個(gè)噪聲特性的裝置; 用于基于所述噪聲特性確定多個(gè)頻帶的裝置; 用于基于所述噪聲特性確定每頻帶的信噪比SNR值的裝置; 用于確定至少一個(gè)離群值頻帶的裝置; 用于基于所述至少一個(gè)離群值頻帶確定加權(quán)的裝置; 用于在每頻帶的所述SNR上應(yīng)用所述加權(quán)的裝置;以及 用于使用每頻帶的所述經(jīng)加權(quán)SNR檢測(cè)語音活動(dòng)的存在與否的裝置。
15. 根據(jù)權(quán)利要求14所述的設(shè)備,其進(jìn)一步包括用于執(zhí)行SNR離群值濾波的裝置。
16. 根據(jù)權(quán)利要求14所述的設(shè)備,其中每一噪聲特性包括噪聲電平變化、噪聲類型或 瞬時(shí)SNR值的至少一者。
17. 根據(jù)權(quán)利要求16所述的設(shè)備,其中所述用于基于所述噪聲特性確定所述多個(gè)頻帶 的裝置包括用于基于所述噪聲電平變化或所述噪聲類型的至少一者確定所述多個(gè)頻帶的 裝直。
18. 根據(jù)權(quán)利要求16所述的設(shè)備,其中所述用于確定每頻帶的所述SNR值的裝置包括 用于基于所述噪聲電平變化或所述噪聲類型的至少一者確定每頻帶的經(jīng)修改瞬時(shí)SNR值 的裝置。
19. 根據(jù)權(quán)利要求18所述的設(shè)備,其中所述用于確定每頻帶的所述經(jīng)修改瞬時(shí)SNR值 的裝置包括: 用于使用每頻帶信號(hào)能量的過去估計(jì)值基于所述輸入幀的至少所述瞬時(shí)SNR選擇性 地使每頻帶信號(hào)能量的當(dāng)前估計(jì)值平滑的裝置; 用于使用每頻帶噪聲能量的過去估計(jì)值基于至少所述噪聲電平變化和所述噪聲類型 選擇性地使每頻帶噪聲能量的當(dāng)前估計(jì)值平滑的裝置;以及 用于確定每頻帶信號(hào)能量的經(jīng)平滑估計(jì)值與噪聲能量的經(jīng)平滑估計(jì)值的比率的裝置。
20. 根據(jù)權(quán)利要求19所述的設(shè)備,其中所述頻帶的任一者中的經(jīng)修改瞬時(shí)SNR大于所 述頻帶的剩余者中的經(jīng)修改瞬時(shí)SNR的和。
21. 根據(jù)權(quán)利要求18所述的設(shè)備,其中所述用于基于所述至少一個(gè)離群值頻帶確定所 述加權(quán)的裝置包括用于基于所述噪聲電平變化、所述噪聲類型、所述離群值頻帶的位置或 每頻帶的所述經(jīng)修改瞬時(shí)SNR值的至少一者確定自適應(yīng)加權(quán)函數(shù)。
22. 根據(jù)權(quán)利要求21所述的設(shè)備,其中所述用于在每頻帶的所述SNR上應(yīng)用所述加權(quán) 的裝置包括用于在每頻帶的所述經(jīng)修改瞬時(shí)SNR上應(yīng)用所述自適應(yīng)加權(quán)函數(shù)的裝置。
23. 根據(jù)權(quán)利要求22所述的設(shè)備,其進(jìn)一步包括: 用于通過將所述頻帶上的所述經(jīng)加權(quán)經(jīng)修改瞬時(shí)SNR相加而確定每輸入幀的經(jīng)加權(quán) 平均SNR的裝置;以及 用于將所述經(jīng)加權(quán)平均SNR與閾值比較以檢測(cè)信號(hào)或語音活動(dòng)存在與否的裝置。
24. 根據(jù)權(quán)利要求23所述的設(shè)備,其中所述用于將所述經(jīng)加權(quán)平均SNR與閾值比較以 檢測(cè)信號(hào)或語音活動(dòng)存在與否的裝置包括: 用于確定每一頻帶中的所述經(jīng)加權(quán)平均SNR與所述閾值之間的差的裝置; 用于將權(quán)重施加到每一差值的裝置; 用于將所述經(jīng)加權(quán)差值相加在一起的裝置;以及 用于通過將所述相加的經(jīng)加權(quán)差值與另一閾值比較而確定是否存在語音活動(dòng)的裝置。
25. 根據(jù)權(quán)利要求24所述的設(shè)備,其中所述閾值為零,且如果所述相加的經(jīng)加權(quán)差值 大于零,那么確定存在語音活動(dòng)且否則確定不存在語音活動(dòng)。
26. 根據(jù)權(quán)利要求21所述的設(shè)備,其進(jìn)一步包括用于執(zhí)行SNR離群值濾波的裝置,包 括: 用于將所述頻帶中所述經(jīng)修改瞬時(shí)SNR值以單調(diào)次序分類的裝置; 用于確定所述頻帶中哪些為所述離群值頻帶的裝置;以及 用于通過將與所述離群值頻帶相關(guān)聯(lián)的權(quán)重設(shè)定為零而更新所述自適應(yīng)加權(quán)函數(shù)的 裝直。
27. -種包括指令的計(jì)算機(jī)可讀媒體,所述指令致使計(jì)算機(jī): 接收聲音的一個(gè)或一個(gè)以上輸入幀; 確定所述輸入幀的每一者的至少一個(gè)噪聲特性; 基于所述噪聲特性確定多個(gè)頻帶; 基于所述噪聲特性確定每頻帶的信噪比SNR值; 確定至少一個(gè)離群值頻帶; 基于所述至少一個(gè)離群值頻帶確定加權(quán); 在每頻帶的所述SNR上應(yīng)用所述加權(quán);以及 使用每頻帶的所述經(jīng)加權(quán)SNR檢測(cè)語音活動(dòng)的存在與否。
28. 根據(jù)權(quán)利要求27所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括致使所述計(jì)算機(jī)執(zhí)行SNR 離群值濾波的計(jì)算機(jī)可執(zhí)行指令。
29. 根據(jù)權(quán)利要求27所述的計(jì)算機(jī)可讀媒體,其中每一噪聲特性包括噪聲電平變化、 噪聲類型或瞬時(shí)SNR值的至少一者。
30. 根據(jù)權(quán)利要求29所述的計(jì)算機(jī)可讀媒體,其中所述致使所述計(jì)算機(jī)基于所述噪聲 特性確定所述多個(gè)頻帶的指令包括致使所述計(jì)算機(jī)基于所述噪聲電平變化或所述噪聲類 型的至少一者確定所述多個(gè)頻帶的指令。
31. 根據(jù)權(quán)利要求29所述的計(jì)算機(jī)可讀媒體,其中所述致使所述計(jì)算機(jī)確定每頻帶的 所述SNR值的指令包括致使所述計(jì)算機(jī)基于所述噪聲電平變化或所述噪聲類型的至少一 者確定每頻帶的經(jīng)修改瞬時(shí)SNR值的指令。
32. 根據(jù)權(quán)利要求31所述的計(jì)算機(jī)可讀媒體,其中所述致使所述計(jì)算機(jī)確定每頻帶的 所述經(jīng)修改瞬時(shí)SNR值的指令包括致使所述計(jì)算機(jī)進(jìn)行以下操作的指令: 使用每頻帶信號(hào)能量的過去估計(jì)值基于所述輸入幀的至少所述瞬時(shí)SNR選擇性地使 每頻帶信號(hào)能量的當(dāng)前估計(jì)值平滑; 使用每頻帶噪聲能量的過去估計(jì)值基于至少所述噪聲電平變化和所述噪聲類型選擇 性地使每頻帶噪聲能量的當(dāng)前估計(jì)值平滑;以及 確定每頻帶信號(hào)能量的經(jīng)平滑估計(jì)值與噪聲能量的經(jīng)平滑估計(jì)值的比率。
33. 根據(jù)權(quán)利要求32所述的計(jì)算機(jī)可讀媒體,其中所述頻帶的任一者中的經(jīng)修改瞬時(shí) SNR大于所述頻帶的剩余者中的經(jīng)修改瞬時(shí)SNR的和。
34. 根據(jù)權(quán)利要求31所述的計(jì)算機(jī)可讀媒體,其中所述致使所述計(jì)算機(jī)基于所述至少 一個(gè)離群值頻帶確定所述加權(quán)的指令包括致使所述計(jì)算機(jī)基于所述噪聲電平變化、所述噪 聲類型、所述離群值頻帶的位置或每頻帶的所述經(jīng)修改瞬時(shí)SNR值的至少一者確定自適應(yīng) 加權(quán)函數(shù)的指令。
35. 根據(jù)權(quán)利要求34所述的計(jì)算機(jī)可讀媒體,其中所述致使所述計(jì)算機(jī)在每頻帶的所 述SNR上應(yīng)用所述加權(quán)的指令包括致使所述計(jì)算機(jī)在每頻帶的所述經(jīng)修改瞬時(shí)SNR上應(yīng)用 所述自適應(yīng)加權(quán)函數(shù)的指令。
36. 根據(jù)權(quán)利要求35所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括致使所述計(jì)算機(jī)進(jìn)行以下 操作的計(jì)算機(jī)可執(zhí)行指令: 通過將所述頻帶上的所述經(jīng)加權(quán)經(jīng)修改瞬時(shí)SNR相加而確定每輸入幀的經(jīng)加權(quán)平均 SNR ;以及 將所述經(jīng)加權(quán)平均SNR與閾值比較以檢測(cè)信號(hào)或語音活動(dòng)存在與否。
37. 根據(jù)權(quán)利要求36所述的計(jì)算機(jī)可讀媒體,其中所述致使所述計(jì)算機(jī)將所述經(jīng)加權(quán) 平均SNR與閾值比較以檢測(cè)信號(hào)或語音活動(dòng)存在與否的指令包括致使所述計(jì)算機(jī)進(jìn)行以 下操作的指令: 確定每一頻帶中的所述經(jīng)加權(quán)平均SNR與所述閾值之間的差; 將權(quán)重施加到每一差值; 將所述經(jīng)加權(quán)差值相加在一起;以及 通過將所述相加的經(jīng)加權(quán)差值與另一閾值比較而確定是否存在語音活動(dòng)。
38. 根據(jù)權(quán)利要求37所述的計(jì)算機(jī)可讀媒體,其中所述閾值為零,且如果所述相加的 經(jīng)加權(quán)差值大于零,那么確定存在語音活動(dòng)且否則確定不存在語音活動(dòng)。
39. 根據(jù)權(quán)利要求34所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括致使所述計(jì)算機(jī)執(zhí)行SNR 離群值濾波的計(jì)算機(jī)可執(zhí)行指令,包括: 將所述頻帶中所述經(jīng)修改瞬時(shí)SNR值以單調(diào)次序分類; 確定所述頻帶中哪些為所述離群值頻帶;以及 通過將與所述離群值頻帶相關(guān)聯(lián)的權(quán)重設(shè)定為零而更新所述自適應(yīng)加權(quán)函數(shù)。
40. -種用于檢測(cè)在存在背景噪聲的情況下的語音活動(dòng)的語音活動(dòng)檢測(cè)器,其包括: 接收器,其接收聲音的一個(gè)或一個(gè)以上輸入幀; 處理器,其確定所述輸入幀的每一者的至少一個(gè)噪聲特性,且基于所述噪聲特性確定 多個(gè)頻帶; 信噪比SNR模塊,其基于所述噪聲特性確定每頻帶的SNR值; 離群值濾波器,其確定至少一個(gè)離群值頻帶; 加權(quán)模塊,其基于所述至少一個(gè)離群值頻帶確定加權(quán),且在每頻帶的所述SNR上應(yīng)用 所述加權(quán);以及 決策模塊,其使用每頻帶的所述經(jīng)加權(quán)SNR檢測(cè)語音活動(dòng)的存在與否。
41. 根據(jù)權(quán)利要求40所述的語音活動(dòng)檢測(cè)器,其中所述離群值濾波器執(zhí)行SNR離群值 濾波。
42. 根據(jù)權(quán)利要求40所述的語音活動(dòng)檢測(cè)器,其中每一噪聲特性包括噪聲電平變化、 噪聲類型或瞬時(shí)SNR值的至少一者。
43. 根據(jù)權(quán)利要求42所述的語音活動(dòng)檢測(cè)器,其中所述處理器基于所述噪聲電平變化 或所述噪聲類型的至少一者確定所述多個(gè)頻帶。
44. 根據(jù)權(quán)利要求42所述的語音活動(dòng)檢測(cè)器,其中所述SNR計(jì)算模塊基于所述噪聲電 平變化或所述噪聲類型的至少一者確定每頻帶的經(jīng)修改瞬時(shí)SNR值。
45. 根據(jù)權(quán)利要求44所述的語音活動(dòng)檢測(cè)器,其中所述SNR計(jì)算模塊: 使用每頻帶信號(hào)能量的過去估計(jì)值基于所述輸入幀的至少所述瞬時(shí)SNR選擇性地使 每頻帶信號(hào)能量的當(dāng)前估計(jì)值平滑; 使用每頻帶噪聲能量的過去估計(jì)值基于至少所述噪聲電平變化和所述噪聲類型選擇 性地使每頻帶噪聲能量的當(dāng)前估計(jì)值平滑;以及 確定每頻帶信號(hào)能量的經(jīng)平滑估計(jì)值與噪聲能量的經(jīng)平滑估計(jì)值的比率。
46. 根據(jù)權(quán)利要求45所述的語音活動(dòng)檢測(cè)器,其中所述頻帶的任一者中的經(jīng)修改瞬時(shí) SNR大于所述頻帶的剩余者中的經(jīng)修改瞬時(shí)SNR的和。
47. 根據(jù)權(quán)利要求44所述的語音活動(dòng)檢測(cè)器,其中所述加權(quán)模塊基于所述噪聲電平變 化、所述噪聲類型、所述離群值頻帶的位置或每頻帶的所述經(jīng)修改瞬時(shí)SNR值的至少一者 確定自適應(yīng)加權(quán)函數(shù)。
48. 根據(jù)權(quán)利要求47所述的語音活動(dòng)檢測(cè)器,其中所述加權(quán)模塊在每頻帶的所述經(jīng)修 改瞬時(shí)SNR上應(yīng)用所述自適應(yīng)加權(quán)函數(shù)。
49. 根據(jù)權(quán)利要求48所述的語音活動(dòng)檢測(cè)器,其中所述SNR計(jì)算模塊通過將所述頻帶 上所述經(jīng)加權(quán)經(jīng)修改瞬時(shí)SNR相加而確定每輸入幀的經(jīng)加權(quán)平均SNR,且所述決策模塊將 所述經(jīng)加權(quán)平均SNR與閾值比較以檢測(cè)信號(hào)或語音活動(dòng)存在與否。
50. 根據(jù)權(quán)利要求49所述的語音活動(dòng)檢測(cè)器,其中所述決策模塊確定每一頻帶中的所 述經(jīng)加權(quán)平均SNR與所述閾值之間的差,將權(quán)重施加到每一差值,將所述經(jīng)加權(quán)差值相加 在一起,且通過將所述相加的經(jīng)加權(quán)差值與另一閾值比較而確定是否存在語音活動(dòng)。
51. 根據(jù)權(quán)利要求50所述的語音活動(dòng)檢測(cè)器,其中所述閾值為零,且如果所述相加的 經(jīng)加權(quán)差值大于零,那么所述決策模塊確定存在語音活動(dòng)且否則確定不存在語音活動(dòng)。
52. 根據(jù)權(quán)利要求47所述的語音活動(dòng)檢測(cè)器,其中所述離群值濾波器將所述頻帶中所 述經(jīng)修改瞬時(shí)SNR值以單調(diào)次序分類,確定所述頻帶中哪些為所述離群值頻帶,且通過將 與所述離群值頻帶相關(guān)聯(lián)的權(quán)重設(shè)定為零而更新所述自適應(yīng)加權(quán)函數(shù)。
【文檔編號(hào)】G10L25/84GK104067341SQ201380005605
【公開日】2014年9月24日 申請(qǐng)日期:2013年1月8日 優(yōu)先權(quán)日:2012年1月20日
【發(fā)明者】芬卡特拉曼·斯里尼瓦沙·阿提, 文卡特什·克里希南 申請(qǐng)人:高通股份有限公司