一種基于噪聲功率譜Gamma分布統(tǒng)計模型的有音區(qū)檢測方法
【技術領域】
[0001] 本發(fā)明涉及語音信號處理技術領域,更具體地,涉及一種基于噪聲功率譜Gamma分 布統(tǒng)計模型的有音區(qū)檢測方法。
【背景技術】
[0002] 活動語音檢測(Voice Activation Detection,VAD),又稱有音區(qū)檢測,是一種從 傳輸語音信號中識別和消除長時間靜音期(或者說從聲音信號流里檢測出有用信號)的技 術。VAD技術的應用能避免無用信號的傳輸,從而降低了語音信號編碼速率和節(jié)省了通信帶 寬,而且有利于維護語音端到端的時延、減少移動通信設備的能耗和加強噪聲抑制能力,因 此VAD被廣泛用于語音編碼、語音識別和語音增強等語音處理算法中。
[0003] 基于統(tǒng)計模型的VAD算法是常用一種VAD方法,該方法假定語言和噪聲分別服從某 種統(tǒng)計分布模型,然后用似然比測試來檢測活動語音。在該算法中,常用的假設統(tǒng)計模型為 Gaussian或Laplacian模型,不能較好地體現噪聲PSD分布的拖尾特性,而這種拖尾特征的 缺失在非平穩(wěn)噪聲環(huán)境下表現得尤為突出,使得基于該假設統(tǒng)計模型的VAD算法不利于處 理Babble等非平穩(wěn)噪聲。因此,采用合適的統(tǒng)計模型來實現VAD技術,是改善統(tǒng)計模型VAD算 法性能的關鍵。
【發(fā)明內容】
[0004] 針對基于Gaussian或Laplacian統(tǒng)計模型的VAD算法不能很好擬合噪聲PSD分布特 性而且不利于處理Babble等非平穩(wěn)噪聲的問題,本發(fā)明提出了一種基于噪聲功率譜Gamma 分布統(tǒng)計模型的有音區(qū)檢測方法。
[0005] 為解決上述技術問題,本發(fā)明的技術方案如下:
[0006] -種基于噪聲功率譜Ga_a分布統(tǒng)計模型的有音區(qū)檢測方法,包括:
[0007] 1)獲取含噪語音的信號z(n),并進行分幀處理,得到第k幀含噪的語音zk(n);
[0008] 2)計算第k語音幀頻率為心時的功率譜密度(PSD)估計值PzzWfO ;
[0009] 3)對PSD估計值Pzz,k(f i)進行高通濾波,得到高頻帶的PSD估計值P' zz,k(f i);判斷 當前語音幀是否為純噪聲,若是,則更新第k幀噪聲頻率為fi的PSD值Pvv.kaO為高頻帶的 PSD估計值并跳轉到步驟4);否則,則不更新噪聲fV頻率的PSD值PvvWfi)跳轉到步 驟4);
[0010] 4)對噪聲h頻率的PSD估計值Ρνν,^ω求指數平均值,計算噪聲PSD估計值 Ρνν,ι^ω的平方再取指數平均得噪聲方差值
[0011] 5)用高頻帶PSD估計值P、z,k(fi)和噪聲PSD指數平均值之.,(>;)計算信噪比 (Signal Noise Ratio,SNR)測量值魏(/;)并求其指數平均值%(乂),噪聲PSD指數平均值 (/)結合噪聲方差值varvk(fi)計算有音區(qū)檢測(Voice Activation Detection,VAD)閾 值%(fl),再求其指數平均值圮;
[0012] 6)SNR測量值得指數平均也(/;)與VAD閾值的指數平均?U/;)進行比較,比較結果 通過Hangover方法得出最終的VAD判決。
[0013] 優(yōu)選的,所述步驟2)采用低方差頻譜估計的Welch方法來估計語音幀的PSD值,該 PSD估計值用于SNR測量值和VAD閾值的計算。
[0014] 優(yōu)選的,所述步驟3)通過對PSD估計值Pzz,k(f〇進行高通濾波,得到高頻帶的PSD估 計值Pilkai);檢測當前VAD值是否為0,若VAD = 0,則判斷當前幀為純噪聲并更新噪聲PSD 估計值Pvv,k(fi),即將高頻PSD估計值P' zz,k(fi)賦值給噪聲PSD估計值Pvv,k(fi);若VAD矣0, 貝丨J不更新噪聲PSD估計值P vv,k(f 1),保留上一次更新的噪聲PSD估計值Pvv,k(fi)。
[0015] 優(yōu)選的,所述步驟6)通過SNR測量值的指數平均4(/丨)與VAD閾值的指數平均值 AU:)進行比較來作出VAD判決,若則VAD=1,由此判斷該語音幀處于有音區(qū), 反之,則VAD = 0,認為該語音幀為純噪聲;依據相鄰語音幀之間強相關性,進行VAD閾值判斷 后串接Hangover方法來降低錯誤拒絕率。
[0016] 與現有技術相比,本發(fā)明技術方案的有益效果是:本發(fā)明采用伽馬分布(Gamma Distribution)作為噪聲PSD的統(tǒng)計模型,更好地擬合噪聲PSD的長拖尾特性,克服了原基于 Gaussian統(tǒng)計模型VAD算法的不足,改進統(tǒng)計模型VAD算法性能。
【附圖說明】
[0017] 圖1為基于噪聲功率譜伽瑪分布(Gamma Distribution)統(tǒng)計模型判決閾值更新的 VAD方法示意圖;
[0018] 圖2在Babble噪聲環(huán)境下性噪比為20dB時本發(fā)明VAD算法的檢測結果(紅色方框所 畫區(qū)域為有音區(qū))。
【具體實施方式】
[0019] 附圖僅用于示例性說明,不能理解為對本專利的限制;為了更好說明本實施例,附 圖某些部件會有省略、放大或縮小,并不代表實際產品的尺寸;
[0020] 對于本領域技術人員來說,附圖中某些公知結構及其說明可能省略是可以理解 的。下面結合附圖和實施例對本發(fā)明的技術方案做進一步的說明。
[0021] 如圖1所示,一種基于噪聲功率譜Gamma分布統(tǒng)計模型的有音區(qū)檢測方法,其過程 為:獲取含噪語音信號z(n)進行分幀處理,得到第k幀含噪語音z k(n);采用Welch方法計算 第k語音幀fi頻率的PSD估計值?%15(〖1);? 22,1{(£1)經高通濾波后得到高頻?30估計值1^^,1{ (fi),隨后判斷當前語音幀是否為純噪聲,即VAD值是否為0,若是,則更新噪聲第k幀h頻率 的PSD估計值Pvv,k(fi),將P^zWfi)賦值給P vv,k(fi),否則,不更新噪聲第k幀fi頻率的PSD估 計值Pvv,k(fi);計算噪聲PSD估計值的指數平均值H/;),用噪聲PSD估計值Pvv, Jfi)的平 方并取指數平均得方差值varvk(f〇。按照信噪比測量值定義計算得到SNR測量值%(/)并 求指數平均值%(.//);用基于Ga_a*布統(tǒng)計模型的閾值更新公式來計算VAD閾值nk(fi),并 取其指數平均值%U)。比較%(/;)和么(/),并采用Hangover來方法得出最終VAD判決。
[0022] 信噪比測量值的計算公式為:
[0023]
(1)
[0024] 式中,P' zz,k(fi)為語音幀的PSD值Λ.,".//1為噪聲的PSD指數平均值。
[0025] 比較SNR測量值指數平均值也(乂')和閾值指數平均值AC/;)的所用判決式如下:
[0026]
(2)
[0027]其中,出代表檢測到活動語音,而Ho代表檢測到靜音(純噪聲),即:當SNR的指數平 均大于閾值的指數平均時,檢測到的是語音,VAD值為1;反之則當前幀為純噪聲,VAD值為0。
[0028] 本發(fā)明所用的基于噪聲功率譜Gamma分布統(tǒng)計模型VAD判決閾值更新表達式如下:
[0029] (4)
[0030] 式中,gaminv為MATLAB中的伽瑪分布CDF逆函數來求閾值,表達式為:
[0031] X = gaminv(P,A,B) (5)
[0032] 式(5)的A和B分別為伽瑪分布的形狀參數和尺度參數。
[0033] PFA為純噪聲的虛警概率(也就是將噪聲誤判成語音的概率),定義如下:
[0034]
[0035] varvk為噪聲方差,PwWfO和之.,_(/;)分別為噪聲的PSD值及其指數平均值。
[0036]圖2為本發(fā)明算法對一段性噪比為20dB的含Babble噪聲語音進行VAD檢測的結果 (紅色方框所畫區(qū)域為有音區(qū))。從圖中可以看出本發(fā)明算法能準確地區(qū)分出含噪語音的語 音成分和噪聲成分(非語音成分)。
[0037]針對基于Gauss ian分布統(tǒng)計模型的VAD算法不能很好地擬合噪聲PSD分布的長拖 尾特性和非平穩(wěn)噪聲環(huán)境下VAD檢測效果差等缺點,本發(fā)明提出了一種基于噪聲功率譜 Gamma分布統(tǒng)計模型的VAD算法,該算法對噪聲PSD分布具有較好的擬合效果,并且能在非平 穩(wěn)噪聲環(huán)境下準確地檢測出語音信號的說話音成分和噪聲成分(非語音成分)。
[0038]顯然,本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對 本發(fā)明的實施方式的限定。對于所屬領域的普通技術人員來說,在上述說明的基礎上還可 以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本 發(fā)明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發(fā)明權利要求 的保護范圍之內。
【主權項】
1. 一種基于噪聲功率譜Gamma分布統(tǒng)計模型的有音區(qū)檢測方法,其特征在于,包括W下 步驟: 1) 獲取含噪語音的信號z(n),并進行分帖處理,得到第k帖含噪的語音zk(n); 2) 計算第k語音帖頻率為f 1時的功率譜密度(PSD)估計值Pzz,k(f 1); 3) 對PSD估計值Pzz,k(fi)進行高通濾波,得到高頻帶的PSD估計值P^zz,k(fi);判斷當前語 音帖是否為純噪聲,若是,則將第k帖噪聲頻率為fi的PSD值Pvv,k(fi)更新為高頻帶的PSD估 計值P/zz,k(f 1)并跳轉到步驟4);否則,則不更新第k帖噪聲頻率為f 1的PSD值Pvv,k(f 1)固齡到 步驟4); 4) 對第k帖噪聲頻率為fi的PSD估計值Pvv,k(fi)求指數平均值4^(別:,計算PSD估計值 Pvv,k(fi)的平方再取指數平均得噪聲方差值varvk化); 5) 用高頻帶PSD估計值P'ZZ,k(fi)和噪聲PSD指數平均值AdU)計算信噪比(SNR)巧慢 值換說)并求其指數平均值孩-a),噪聲PSD指數平均值4^別結合噪聲方差值varvk(fi) 計算有音區(qū)檢測(VAD)闊值%化),再求其指數平均值(乂); 6. SNR現慢值得指數平均病(乂)與VAD闊值的指數平瑚如(./;)進行比較,比較結果通過 化ngover方法得出最終的VAD判決。2. 根據權利要求1所述的檢測方法,其特征在于,所述步驟2)采用低方差頻譜估計的 Welch方法來估計語音帖的PSD值,該PSD估計值用于SNR測量值和VAD闊值的計算。3. 根據權利要求1所述的檢測方法,其特征在于,所述步驟3)通過對PSD估計值Pzz,k(fi) 進行高通濾波,得到高頻帶的PSD估計值P^zz,k(fi);檢測當前VAD值是否為0,若VAD = O,則判 斷當前帖為純噪聲并更新噪聲PSD估計值Pvv,k(fi),即將高頻PSD估計值P^zz,k(fi)賦值給噪 聲PSD估計值Pvv, k (fi);若VAD辛0,則不更新噪聲PSD估計值Pvv, k (fi ),保留上一次更新的噪 聲 PSD 估計值 Pvv,k(fi)。4. 根據權利要求1所述的檢測方法,其特征在于,所述步驟6)通過SNR現慢值的指數平 均錢(策)與VAD闊值的指數平均值布(乂)進行比較來作出VAD判決,若病(./;)>成(乂)則VAD =1,由此判斷該語音帖處于有音區(qū),反之,則VAD = O,認為該語音帖為純噪聲;依據相鄰語 音帖之間強相關性,進行VAD闊值判斷后串接化ngover方法來降低錯誤拒絕率。
【專利摘要】本發(fā)明公開了一種基于噪聲功率譜Gamma分布統(tǒng)計模型的有音區(qū)檢測(Voice?Activation?Detection,?VAD)方法,屬于語音信號處理技術領域?,F有基于統(tǒng)計模型的VAD算法通常不考慮語音統(tǒng)計信息,僅僅利用噪聲功率譜(Power?Spectral?Density,PSD)的統(tǒng)計模型來檢測活動語音,常用的噪聲PSD統(tǒng)計模型為左右對稱的Gaussian模型,不能較好地體現噪聲PSD分布的長拖尾特性,不利于處理Babble等非平穩(wěn)噪聲。本發(fā)明采用伽瑪分布(Gamma?Distribution)作為噪聲分布統(tǒng)計模型,比高斯分布(Gaussian?Distribution)和瑞利分布(Rayleigh?Distribution)具有更好的長拖尾特性擬合效果,改進后的VAD算法性能更優(yōu)。
【IPC分類】G10L25/78
【公開號】CN105513614
【申請?zhí)枴緾N201510885221
【發(fā)明人】李宇, 林勝義, 譚洪舟
【申請人】廣東順德中山大學卡內基梅隆大學國際聯合研究院, 中山大學
【公開日】2016年4月20日
【申請日】2015年12月3日