一種基于噪聲功率譜Gamma分布統(tǒng)計模型的有音區(qū)檢測方法

文檔序號：9752222閱讀：745來源：國知局

一種基于噪聲功率譜Gamma分布統(tǒng)計模型的有音區(qū)檢測方法
【技術領域】
[0001] 本發(fā)明涉及語音信號處理技術領域，更具體地，涉及一種基于噪聲功率譜Gamma分布統(tǒng)計模型的有音區(qū)檢測方法。
【背景技術】
[0002] 活動語音檢測(Voice Activation Detection，VAD)，又稱有音區(qū)檢測，是一種從傳輸語音信號中識別和消除長時間靜音期(或者說從聲音信號流里檢測出有用信號）的技術。VAD技術的應用能避免無用信號的傳輸，從而降低了語音信號編碼速率和節(jié)省了通信帶寬，而且有利于維護語音端到端的時延、減少移動通信設備的能耗和加強噪聲抑制能力，因此VAD被廣泛用于語音編碼、語音識別和語音增強等語音處理算法中。
[0003] 基于統(tǒng)計模型的VAD算法是常用一種VAD方法，該方法假定語言和噪聲分別服從某種統(tǒng)計分布模型，然后用似然比測試來檢測活動語音。在該算法中，常用的假設統(tǒng)計模型為 Gaussian或Laplacian模型，不能較好地體現噪聲PSD分布的拖尾特性，而這種拖尾特征的缺失在非平穩(wěn)噪聲環(huán)境下表現得尤為突出，使得基于該假設統(tǒng)計模型的VAD算法不利于處理Babble等非平穩(wěn)噪聲。因此，采用合適的統(tǒng)計模型來實現VAD技術，是改善統(tǒng)計模型VAD算法性能的關鍵。

【發(fā)明內容】

[0004] 針對基于Gaussian或Laplacian統(tǒng)計模型的VAD算法不能很好擬合噪聲PSD分布特性而且不利于處理Babble等非平穩(wěn)噪聲的問題，本發(fā)明提出了一種基于噪聲功率譜Gamma 分布統(tǒng)計模型的有音區(qū)檢測方法。
[0005] 為解決上述技術問題，本發(fā)明的技術方案如下：
[0006] -種基于噪聲功率譜Ga_a分布統(tǒng)計模型的有音區(qū)檢測方法，包括：
[0007] 1)獲取含噪語音的信號z(n)，并進行分幀處理，得到第k幀含噪的語音zk(n);
[0008] 2)計算第k語音幀頻率為心時的功率譜密度(PSD)估計值PzzWfO ;
[0009] 3)對PSD估計值Pzz,k(f i)進行高通濾波，得到高頻帶的PSD估計值P' zz,k(f i);判斷當前語音幀是否為純噪聲，若是，則更新第k幀噪聲頻率為fi的PSD值Pvv.kaO為高頻帶的 PSD估計值并跳轉到步驟4);否則，則不更新噪聲fV頻率的PSD值PvvWfi)跳轉到步驟4);
[0010] 4)對噪聲h頻率的PSD估計值Ρνν,^ω求指數平均值，計算噪聲PSD估計值 Ρνν,ι^ω的平方再取指數平均得噪聲方差值
[0011] 5)用高頻帶PSD估計值P、z,k(fi)和噪聲PSD指數平均值之.,(>；)計算信噪比 (Signal Noise Ratio，SNR)測量值魏(/；)并求其指數平均值％(乂），噪聲PSD指數平均值 (/)結合噪聲方差值varvk(fi)計算有音區(qū)檢測(Voice Activation Detection,VAD)閾值％(fl)，再求其指數平均值圮;
[0012] 6)SNR測量值得指數平均也(/;)與VAD閾值的指數平均?U/;)進行比較，比較結果通過Hangover方法得出最終的VAD判決。
[0013] 優(yōu)選的，所述步驟2)采用低方差頻譜估計的Welch方法來估計語音幀的PSD值，該 PSD估計值用于SNR測量值和VAD閾值的計算。
[0014] 優(yōu)選的，所述步驟3)通過對PSD估計值Pzz,k(f〇進行高通濾波，得到高頻帶的PSD估計值Pilkai);檢測當前VAD值是否為0,若VAD = 0,則判斷當前幀為純噪聲并更新噪聲PSD 估計值Pvv,k(fi)，即將高頻PSD估計值P' zz,k(fi)賦值給噪聲PSD估計值Pvv,k(fi);若VAD矣0，貝丨J不更新噪聲PSD估計值P vv,k(f 1)，保留上一次更新的噪聲PSD估計值Pvv,k(fi)。
[0015] 優(yōu)選的，所述步驟6)通過SNR測量值的指數平均4(/丨)與VAD閾值的指數平均值 AU:)進行比較來作出VAD判決，若則VAD=1，由此判斷該語音幀處于有音區(qū)，反之，則VAD = 0,認為該語音幀為純噪聲;依據相鄰語音幀之間強相關性，進行VAD閾值判斷后串接Hangover方法來降低錯誤拒絕率。
[0016] 與現有技術相比，本發(fā)明技術方案的有益效果是：本發(fā)明采用伽馬分布(Gamma Distribution)作為噪聲PSD的統(tǒng)計模型，更好地擬合噪聲PSD的長拖尾特性，克服了原基于 Gaussian統(tǒng)計模型VAD算法的不足，改進統(tǒng)計模型VAD算法性能。
【附圖說明】
[0017] 圖1為基于噪聲功率譜伽瑪分布(Gamma Distribution)統(tǒng)計模型判決閾值更新的 VAD方法示意圖；
[0018] 圖2在Babble噪聲環(huán)境下性噪比為20dB時本發(fā)明VAD算法的檢測結果(紅色方框所畫區(qū)域為有音區(qū)）。
【具體實施方式】
[0019] 附圖僅用于示例性說明，不能理解為對本專利的限制;為了更好說明本實施例，附圖某些部件會有省略、放大或縮小，并不代表實際產品的尺寸；
[0020] 對于本領域技術人員來說，附圖中某些公知結構及其說明可能省略是可以理解的。下面結合附圖和實施例對本發(fā)明的技術方案做進一步的說明。
[0021] 如圖1所示，一種基于噪聲功率譜Gamma分布統(tǒng)計模型的有音區(qū)檢測方法，其過程為:獲取含噪語音信號z(n)進行分幀處理，得到第k幀含噪語音z k(n);采用Welch方法計算第k語音幀fi頻率的PSD估計值?％15(〖1);? 22,1{(￡1)經高通濾波后得到高頻?30估計值1^^,1{ (fi)，隨后判斷當前語音幀是否為純噪聲，即VAD值是否為0,若是，則更新噪聲第k幀h頻率的PSD估計值Pvv,k(fi)，將P^zWfi)賦值給P vv,k(fi)，否則，不更新噪聲第k幀fi頻率的PSD估計值Pvv,k(fi);計算噪聲PSD估計值的指數平均值H/；)，用噪聲PSD估計值Pvv, Jfi)的平方并取指數平均得方差值varvk(f〇。按照信噪比測量值定義計算得到SNR測量值％(/)并求指數平均值％(.//);用基于Ga_a*布統(tǒng)計模型的閾值更新公式來計算VAD閾值nk(fi)，并取其指數平均值％U)。比較％(/;)和么(/)，并采用Hangover來方法得出最終VAD判決。
[0022] 信噪比測量值的計算公式為：
[0023]
(1)
[0024] 式中，P' zz,k(fi)為語音幀的PSD值Λ.,".//1為噪聲的PSD指數平均值。
[0025] 比較SNR測量值指數平均值也(乂')和閾值指數平均值AC/；)的所用判決式如下：
[0026]
(2)
[0027]其中，出代表檢測到活動語音，而Ho代表檢測到靜音(純噪聲），即：當SNR的指數平均大于閾值的指數平均時，檢測到的是語音，VAD值為1;反之則當前幀為純噪聲，VAD值為0。
[0028] 本發(fā)明所用的基于噪聲功率譜Gamma分布統(tǒng)計模型VAD判決閾值更新表達式如下：
[0029] (4)
[0030] 式中，gaminv為MATLAB中的伽瑪分布CDF逆函數來求閾值，表達式為：
[0031] X = gaminv(P,A,B) (5)
[0032] 式(5)的A和B分別為伽瑪分布的形狀參數和尺度參數。
[0033] PFA為純噪聲的虛警概率(也就是將噪聲誤判成語音的概率），定義如下：
[0034]
[0035] varvk為噪聲方差，PwWfO和之.,_(/;)分別為噪聲的PSD值及其指數平均值。
[0036]圖2為本發(fā)明算法對一段性噪比為20dB的含Babble噪聲語音進行VAD檢測的結果 (紅色方框所畫區(qū)域為有音區(qū)）。從圖中可以看出本發(fā)明算法能準確地區(qū)分出含噪語音的語音成分和噪聲成分(非語音成分）。
[0037]針對基于Gauss ian分布統(tǒng)計模型的VAD算法不能很好地擬合噪聲PSD分布的長拖尾特性和非平穩(wěn)噪聲環(huán)境下VAD檢測效果差等缺點，本發(fā)明提出了一種基于噪聲功率譜 Gamma分布統(tǒng)計模型的VAD算法，該算法對噪聲PSD分布具有較好的擬合效果，并且能在非平穩(wěn)噪聲環(huán)境下準確地檢測出語音信號的說話音成分和噪聲成分(非語音成分）。
[0038]顯然，本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例，而并非是對本發(fā)明的實施方式的限定。對于所屬領域的普通技術人員來說，在上述說明的基礎上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換和改進等，均應包含在本發(fā)明權利要求的保護范圍之內。
【主權項】
1. 一種基于噪聲功率譜Gamma分布統(tǒng)計模型的有音區(qū)檢測方法，其特征在于，包括W下步驟： 1) 獲取含噪語音的信號z(n)，并進行分帖處理，得到第k帖含噪的語音zk(n); 2) 計算第k語音帖頻率為f 1時的功率譜密度(PSD)估計值Pzz,k(f 1); 3) 對PSD估計值Pzz,k(fi)進行高通濾波，得到高頻帶的PSD估計值P^zz,k(fi);判斷當前語音帖是否為純噪聲，若是，則將第k帖噪聲頻率為fi的PSD值Pvv,k(fi)更新為高頻帶的PSD估計值P/zz,k(f 1)并跳轉到步驟4);否則，則不更新第k帖噪聲頻率為f 1的PSD值Pvv,k(f 1)固齡到步驟4); 4) 對第k帖噪聲頻率為fi的PSD估計值Pvv,k(fi)求指數平均值4^(別:，計算PSD估計值 Pvv,k(fi)的平方再取指數平均得噪聲方差值varvk化）； 5) 用高頻帶PSD估計值P'ZZ,k(fi)和噪聲PSD指數平均值AdU)計算信噪比（SNR)巧慢值換說)并求其指數平均值孩-a)，噪聲PSD指數平均值4^別結合噪聲方差值varvk(fi) 計算有音區(qū)檢測(VAD)闊值％化），再求其指數平均值(乂）； 6. SNR現慢值得指數平均病(乂）與VAD闊值的指數平瑚如(./;)進行比較，比較結果通過化ngover方法得出最終的VAD判決。2. 根據權利要求1所述的檢測方法，其特征在于，所述步驟2)采用低方差頻譜估計的 Welch方法來估計語音帖的PSD值，該PSD估計值用于SNR測量值和VAD闊值的計算。3. 根據權利要求1所述的檢測方法，其特征在于，所述步驟3)通過對PSD估計值Pzz,k(fi) 進行高通濾波，得到高頻帶的PSD估計值P^zz,k(fi);檢測當前VAD值是否為0,若VAD = O,則判斷當前帖為純噪聲并更新噪聲PSD估計值Pvv,k(fi)，即將高頻PSD估計值P^zz,k(fi)賦值給噪聲PSD估計值Pvv, k (fi);若VAD辛0，則不更新噪聲PSD估計值Pvv, k (fi )，保留上一次更新的噪聲 PSD 估計值 Pvv,k(fi)。4. 根據權利要求1所述的檢測方法，其特征在于，所述步驟6)通過SNR現慢值的指數平均錢(策)與VAD闊值的指數平均值布(乂）進行比較來作出VAD判決，若病(./；)>成(乂）則VAD =1，由此判斷該語音帖處于有音區(qū)，反之，則VAD = O,認為該語音帖為純噪聲;依據相鄰語音帖之間強相關性，進行VAD闊值判斷后串接化ngover方法來降低錯誤拒絕率。
【專利摘要】本發(fā)明公開了一種基于噪聲功率譜Gamma分布統(tǒng)計模型的有音區(qū)檢測(Voice？Activation？Detection,？VAD)方法，屬于語音信號處理技術領域?，F有基于統(tǒng)計模型的VAD算法通常不考慮語音統(tǒng)計信息，僅僅利用噪聲功率譜(Power？Spectral？Density，PSD)的統(tǒng)計模型來檢測活動語音，常用的噪聲PSD統(tǒng)計模型為左右對稱的Gaussian模型，不能較好地體現噪聲PSD分布的長拖尾特性，不利于處理Babble等非平穩(wěn)噪聲。本發(fā)明采用伽瑪分布（Gamma？Distribution）作為噪聲分布統(tǒng)計模型，比高斯分布（Gaussian？Distribution）和瑞利分布（Rayleigh？Distribution）具有更好的長拖尾特性擬合效果，改進后的VAD算法性能更優(yōu)。
【IPC分類】G10L25/78
【公開號】CN105513614
【申請?zhí)枴緾N201510885221
【發(fā)明人】李宇, 林勝義, 譚洪舟
【申請人】廣東順德中山大學卡內基梅隆大學國際聯合研究院, 中山大學
【公開日】2016年4月20日
【申請日】2015年12月3日

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：李宇;林勝義;譚洪舟;
技術所有人：廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學;
我是此專利的發(fā)明人

上一篇：硬盤盤片消磁模塊和消磁粉碎一體機和硬盤消磁方法
上一篇：一種禽畜咳嗽聲監(jiān)測預警方法及裝置的制造方法

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于噪聲功率譜Gamma分布統(tǒng)計模型的有音區(qū)檢測方法