專利名稱:基于多模型和聽覺特性的麥克風(fēng)陣列后濾波語音增強(qiáng)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及麥克風(fēng)陣列的信號子空間方法、聽覺掩蔽效應(yīng)及后濾波器的設(shè)計(jì)。
背景技術(shù):
現(xiàn)實(shí)生活中的語音常常受到環(huán)境中噪聲的影B向,多通道語音增強(qiáng)方法在近些年 來受到了廣泛的關(guān)注。麥克風(fēng)陣列語音增強(qiáng)方法相對于單通道語音增強(qiáng)方法的優(yōu)勢在于 它可以利用多路信號之間的相關(guān)性更準(zhǔn)確地估計(jì)信號的特性,從而達(dá)到更好的語音增強(qiáng)效 果。其中,麥克風(fēng)陣列后濾波語音增強(qiáng)方法更是由于其出色的降噪性能近年來得到了廣泛 的使用。Simmer等(參考文獻(xiàn)1 :K. Uwe Simmer, et al, "Post-filtering techniques'', inMicrophone Arrays, M.Brandstein and D.Ward, Eds.New York :Springer, ch. 3, pp. 36-60,2001.)證明了最小均方誤差意義下的最優(yōu)多通道語音增強(qiáng)解可分解為一個(gè)最小 方差非畸變響應(yīng)波束形成器加上一個(gè)單通道的維納后濾波器的形式。盡管理論上證明了后 濾波方法的最優(yōu)性,但在實(shí)際應(yīng)用中,由于很難精確地估計(jì)出語音信號和噪聲信號的功率 譜來得到理想的后濾波器,限制了后濾波方法的性能。所以,合理的后濾波器設(shè)計(jì),準(zhǔn)確的 信號功率譜估計(jì)都可以使得語音增強(qiáng)方法的性能得到大幅的提高。Zelinski(參考文獻(xiàn)2 : R. Zelinski,"A microphone array with adaptive post-filteringfor noise reduction in reverberant rooms", in Proc. of ICASSP-88,1988, Vol. 5, pp. 2578-2581.)假設(shè)各個(gè)陣 元上的噪聲信號是不相關(guān)的,提出了一種后濾波器設(shè)計(jì)方法。但由于實(shí)際環(huán)境中,陣元噪聲 之間是存在一定相關(guān)性的,所以該方法性能較差。McCowan(參考文獻(xiàn)3 :Iain A.McCowan, Herv6Bourlard,"Microphone array post-filter based on noise field coherence", IEEETransaction on Speech and Audio Processing,Vol. ll,pp. 709_715,Nov. 2003.)考
慮了噪聲之間的相關(guān)性,利用散射噪聲場的特性,提出了一種后濾波器設(shè)計(jì)方法,具有較好 的語音增強(qiáng)性能。但由于其方法是基于散射噪聲場假設(shè)的,所以,當(dāng)實(shí)際場合中的噪聲場不 符合散射噪聲場時(shí),該方法性能會有明顯的下降。本發(fā)明利用人耳的聽覺掩蔽效應(yīng),提出了 一種基于聽覺感知特性的后濾波器設(shè)計(jì)方法。為了更準(zhǔn)確地估計(jì)噪聲功率譜,本發(fā)明將帶 噪信號空間分解為信號子空間和噪聲子空間,提出了用目標(biāo)語音信號信號存在概率最大化 來估計(jì)子空間維度的方法,合理地估計(jì)出信號子空間和噪聲子空間的維度,在噪聲子空間 上,提出了用條件概率估計(jì)噪聲功率譜的方法。實(shí)驗(yàn)證明,本發(fā)明所提出的噪聲估計(jì)方法比 以往的噪聲估計(jì)方法更為準(zhǔn)確,所提出的基于聽覺感知特性的后濾波器也比傳統(tǒng)的后濾波 器更為有效。
假設(shè)由L個(gè)麥克風(fēng)組成的陣列上接收到的帶噪語音信號向量的頻域表示為X = [Xp…,XJH。由陣列輸入信號的加權(quán)相加得到的增強(qiáng)后的語音信號的頻域表示如下
Y = wHX = wH[Sd+N] (1) 其中,模型w是陣列加權(quán)系數(shù),S是目標(biāo)信號,d二 …,cyT是傳播向量,N二 [K,…,NJH是噪聲信號向量,[,]H為共軛轉(zhuǎn)置算子。
誤差信號e = SiHX的功率為
步驟d :利用條件概率估計(jì)噪聲功率譜; 步驟e :根據(jù)信號子空間維度和噪聲功率譜估計(jì),利用聽覺掩蔽效應(yīng),基于信號子 空間估計(jì)得到各頻點(diǎn)的聽覺掩蔽閾值; 步驟f :根據(jù)噪聲功率譜、聽覺掩蔽閾值,結(jié)合拉格朗日乘子估計(jì)后濾波器,使得 增強(qiáng)語音中的殘余噪聲小于人耳的聽覺掩蔽閾值,從而消除殘余噪聲影響,并使目標(biāo)語音 信號的畸變盡可能的小,完成麥克風(fēng)陣列后濾波語音增強(qiáng)。
其中,所述對功率譜矩陣進(jìn)行特征值分解,包括 利用特征值分解將帶噪語音信號空間分為兩個(gè)子空間,即信號子空間包含目標(biāo) 語音信號和噪聲;噪聲子空間只包含噪聲;把帶噪語音信號X在時(shí)幀t和頻率k的功率譜矩陣d^(k, t)特征值分解為 ①xx(k,t) = UAXXUH = U(Ass+(j)ra(k, t)I)UH 其中,X = S+N, X為帶噪語音信號,S為目標(biāo)語音信號,N為噪聲;Axx為特征值降 序排列的帶噪語音信號功率譜特征值矩陣,Ass為特征值降序排列的目標(biāo)語音信號功率譜 特征值矩陣,U為特征向量矩陣,4ffl(k, t)為時(shí)幀t和頻率k的噪聲功率,I為L階單位陣, [,]H為共軛轉(zhuǎn)置算子。 其中,所述確定信號子空間維度是取最合適的Q值使得帶噪語音中目標(biāo)語音信號 存在的概率最大;利用條件概率計(jì)算,步驟包括
定義互斥事件H。和& : 事件H。帶噪語音信號中,只存在噪聲,不存在目標(biāo)語音信號;
事件^ :帶噪語音信號中,目標(biāo)語音信號與噪聲同時(shí)存在;
信號子空間維度Q定義為 argjiaxP ) | 其中,S(k,t)是目標(biāo)語音信號信號在第t幀的第k個(gè)頻率點(diǎn)上的功率譜,P。)是
目標(biāo)語音信號譜的分布函數(shù),argmax( )是尋找具有最大評分的參數(shù)值的算子。 其中,所述基于譜的平穩(wěn)性,自適應(yīng)選擇帶噪語音信號中噪聲功率譜分布模型,包
括以下步驟 步驟cl :定義一個(gè)用來表述功率譜的平穩(wěn)性的判別函數(shù)Q :
1 丄
丄lx
丄一 2 ,=e+i ' SP, Q為幾何平均"-2)^[幾,,對算術(shù)平均_^ ^義,的比值,其中 是帶噪語
V '.=2+1 丄-2 '=。+1 ' ■
音信號功率譜特征值矩陣A^的第i個(gè)特征值,i G {Q+l,…,L}是特征值的下標(biāo),Q的 值在0到1之間; 步驟c2 :根據(jù)判別函數(shù)值與預(yù)設(shè)閾值比較,確定適用在帶噪語音信號中的噪聲功 率譜分布模型。
其中,所述根據(jù)判別函數(shù)值與預(yù)設(shè)閾值的比較步驟包括
步驟c21 :確定兩個(gè)預(yù)設(shè)閾值^禾P Q2, ^ < Q2 ; 步驟c22 :比較判別函數(shù)與預(yù)設(shè)閾值,特別地,如果判別函數(shù)小于預(yù)設(shè)閾值Q"則 選用零均值高斯分布;如果判別大于預(yù)設(shè)閾值02,則選用伽瑪分布;否則選用拉普拉斯分 布。 其中,利用條件概率估計(jì)噪聲功率譜的步驟包括 對于每一幀帶噪語音信號,它只含有噪聲的概率是P (4 I X),即含有噪聲又含有目 標(biāo)語音信號的概率是P(H」X);針對這兩種情況,分別估計(jì)噪聲功率譜如下
6<formula>formula see original document page 7</formula> 其中,(/^和(^v分別是噪聲在互斥事件H。和&發(fā)生情況下的功率譜,i G {1, L}是特征值的下標(biāo); 根據(jù)條件概率公式,噪聲功率譜估計(jì)如下
AW
其中,所述估計(jì)聽覺掩蔽閾值的步驟包括
步驟fl :將聽覺頻率范圍0-15500Hz劃分為若干個(gè)關(guān)鍵子頻帶; 步驟f2 :分別計(jì)算每個(gè)子頻帶中的聽覺掩蔽閾值。
其中,所述計(jì)算每個(gè)子頻帶中的聽覺掩蔽閾值是計(jì)算各子頻帶上各頻點(diǎn)的能量, 計(jì)算人耳基膜對于各頻段聲音的傳播系數(shù),然后將各子頻帶上各頻點(diǎn)的能量和各頻段聲音
的傳播系數(shù)兩者相乘得到人耳基膜上的激勵(lì)能量值,再根據(jù)人耳基膜上的激勵(lì)能量值與聽 覺掩蔽閾值的函數(shù)關(guān)系計(jì)算得到掩蔽閾值。
其中,所述結(jié)合拉格朗日乘子估計(jì)后濾波器G的步驟如下 步驟fa :在殘余噪聲功率小于掩蔽閾值的約束條件下,最小化目標(biāo)語音信號的畸 變,以此建立最優(yōu)化問題; 步驟fb :結(jié)合拉格朗日乘子求解,得到后濾波器的最優(yōu)估計(jì); 步驟fc :帶入聽覺掩蔽閾值和噪聲功率譜估計(jì),完成后濾波器的設(shè)計(jì)。
本發(fā)明的有益效果本發(fā)明利用人耳的聽覺掩蔽效應(yīng)提出了一種合理的折中方
案,設(shè)計(jì)了一種新的基于聽覺感知特性的后濾波器。傳統(tǒng)的噪聲估計(jì)方法是基于VAD的噪
聲估計(jì)方法,也就是檢測出帶噪語音中的純噪聲幀,用這些幀上的平均功率譜來估計(jì)語音
與噪聲混合幀上的噪聲功率譜。由于噪聲是變化的,各幀上的噪聲實(shí)際上是不同的。所以,
基于VAD的噪聲估計(jì)方法用純噪聲幀上的平均噪聲功率譜來估計(jì)所有幀上的噪聲功率譜
會導(dǎo)致較大的估計(jì)誤差。針對這一情況,本發(fā)明提出了一種基于帶噪信號子空間分解的噪
聲功率譜估計(jì)方法,在每一幀信號上都估計(jì)噪聲功率譜,極大的減少了噪聲估計(jì)誤差。接
著,本發(fā)明利用人耳的聽覺掩蔽效應(yīng)設(shè)計(jì)后濾波器,使得增強(qiáng)后語音中的殘余噪聲被目標(biāo) 語音所掩蔽,在降噪的同時(shí)也減少了目標(biāo)語音的失真。
本發(fā)明進(jìn)一步的特色和優(yōu)點(diǎn)將參考說明性的附圖在下面描述。 圖1示出一個(gè)應(yīng)用基于多模型和聽覺特性的麥克風(fēng)陣列后濾波語音增強(qiáng)方法的 示例流程圖; 圖2是一個(gè)確定信號子空間維度方法的流程圖3是一個(gè)確定帶噪語音信號中噪聲功率譜分布模型的流程圖; 圖4是一個(gè)利用條件概率估計(jì)噪聲功率譜的流程圖;
圖5是一個(gè)計(jì)算聽覺掩蔽閾值的流程圖; 圖6是一個(gè)設(shè)計(jì)后濾波器的流程圖。
具體實(shí)施例方式
應(yīng)當(dāng)理解,不同示例以及附圖的下列詳細(xì)說明不是意在把本發(fā)明限制于特殊的說 明性實(shí)施例;被描述的說明性實(shí)施例僅僅是例證本發(fā)明的各個(gè)步驟,其范圍由附加的權(quán)利 要求來定義。 本發(fā)明利用人耳的聽覺掩蔽效應(yīng)提出了一種合理的折中方案,設(shè)計(jì)了一種新的基
于聽覺感知特性的后濾波器。人耳的聽覺掩蔽效應(yīng)是指,在通常情況下,目標(biāo)語音信號信號
是強(qiáng)信號,而背景噪聲相對較弱,這樣聽覺系統(tǒng)會根據(jù)具體的目標(biāo)語音信號信號確定頻域
上的聽覺掩蔽閾值,如果使濾波后的殘余噪聲限制在人耳的聽覺掩蔽閾值之下,那么該噪
聲就不會被人耳感知,從而實(shí)現(xiàn)對帶噪語音信號的增強(qiáng)。具體的步驟如下 —種新的基于多模型和聽覺特性的麥克風(fēng)陣列后濾波語音增強(qiáng)方法,包括下列步
驟 步驟a:通過L個(gè)麥克風(fēng)組成的麥克風(fēng)陣列采集帶噪聲的多路語音信號,把各路帶 噪聲的語音信號進(jìn)行時(shí)域?qū)R,使用短時(shí)離散傅里葉變換將對齊后的各路信號表示成復(fù)數(shù) 值的頻率信號形式,計(jì)算麥克風(fēng)陣列多路信號的功率譜矩陣并對此功率譜矩陣進(jìn)行特征值 分解得到特征值矩陣和特征向量矩陣; 步驟b :通過極大化帶噪語音信號中目標(biāo)語音信號的存在概率,確定信號子空間 的維度Q ; 步驟C :基于譜的平穩(wěn)性,自適應(yīng)選擇帶噪語音信號中噪聲功率譜分布模型;
步驟d :利用條件概率估計(jì)噪聲功率譜; 步驟e :根據(jù)信號子空間維度和噪聲功率譜估計(jì),利用聽覺掩蔽效應(yīng),基于信號子 空間估計(jì)得到各頻點(diǎn)的聽覺掩蔽閾值; 步驟f :根據(jù)噪聲功率譜、聽覺掩蔽閾值,結(jié)合拉格朗日乘子估計(jì)后濾波器,使得 增強(qiáng)語音中的殘余噪聲小于人耳的聽覺掩蔽閾值,從而消除殘余噪聲影響,并使目標(biāo)語音 信號的畸變盡可能的小,完成麥克風(fēng)陣列后濾波語音增強(qiáng)。 通常使用的噪聲估計(jì)方法是基于VAD的噪聲估計(jì)方法。也就是檢測出帶噪語音中
的純噪聲幀,用這些幀上的平均功率譜來估計(jì)語音與噪聲混合幀上的噪聲功率譜。由于噪
聲是變化的,各幀上的噪聲實(shí)際上是不同的。所以,基于VAD的噪聲估計(jì)方法用純噪聲幀上
的平均噪聲功率譜來估計(jì)所有幀上的噪聲功率譜會導(dǎo)致較大的估計(jì)誤差。 針對這一情況,本發(fā)明步驟b)和步驟d)采用了一種基于帶噪信號子空間分解的
方法來估計(jì)噪聲子空間的維度和噪聲功率譜,在每一幀信號上都估計(jì)噪聲功率譜,極大地
減少了噪聲估計(jì)誤差。 在目標(biāo)語音信號與噪聲不相關(guān)的假設(shè)下,帶噪語音信號在時(shí)幀t和頻率k的功率 譜矩陣。xx(k, t)可表示為目標(biāo)語音信號信號功率譜矩陣。ss(k, t)和噪聲信號功率譜矩 陣①麗(k, t)之和: Oxx(k, t) = Oss(k, t)+ (k, t) (6) 對于麥克風(fēng)陣列信號而言,可假設(shè)各陣元上噪聲信號的自功率譜相等,而陣元間
噪聲信號不相關(guān),則下式成立 Offl(k, t)=小NN(k, t)I (7)
其中,I為L階單位矩陣,ctNN(k, t)為單通道噪聲的自功率譜。
令目標(biāo)語音信號功率譜矩陣的特征值分解為
Oss(k, t) = UASSUH (8) 其中,A^為特征值降序排列的特征值矩陣,U為對應(yīng)的特征向量矩陣,Q為矩陣的 秩,且Q《L。 利用特征值分解可將帶噪信號空間分為兩個(gè)子空間信號子空間(包含目標(biāo)語音 信號和噪聲)和噪聲子空間(只包含噪聲)。設(shè)帶噪信號功率譜矩陣特征值分解為
①xx (k, t) = U A XXUH = U (A ss+小麗(k, t) I) UH (9) Axx為特征值降序排列的帶噪語音信號功率譜特征值矩陣,I為L階單位陣。
本發(fā)明提出了從噪聲子空間中估計(jì)得到噪聲自功率譜小^的方法。首先需要確定 信號子空間的維度Q和噪聲子空間維度P。 在步驟b)中,提供了一種通過極大化帶噪語音信號中目標(biāo)語音信號的存在概率
來確定Q的方法,即取最合適的Q值使得目標(biāo)語音信號存在的概率最大。 利用條件概率計(jì)算,定義互斥事件H。和& : 事件H。帶噪語音信號中,只存在噪聲,不存在目標(biāo)語音信號; 事件^ :帶噪語音信號中,目標(biāo)語音信號與噪聲同時(shí)存在; 信號子空間維度Q定義為argjiax戶(S(^:力IA) (10) 其中,S(k,t)是目標(biāo)語音信號信號在第t幀的第k個(gè)頻率點(diǎn)上的功率譜,P。)是
目標(biāo)語音信號譜的分布函數(shù),argmax( )是尋找具有最大評分的參數(shù)值的算子。 步驟c)提供了一種基于譜的平穩(wěn)性選擇帶噪語音信號中噪聲功率譜分布模型的
自適應(yīng)方法。該方法包括下列步驟 首先,定義判別函數(shù)Q
信號功率譜特征值矩陣A^的第i個(gè)特征值,i G {Q+l,, L}是特征值的下標(biāo),Q的值 在0到1之間。 然后,確定兩個(gè)預(yù)設(shè)閾值,^和QJQ工〈Q》,比較判別函數(shù)與預(yù)設(shè)閾值,特別 地,如果判別函數(shù)小于預(yù)設(shè)閾值Q"則選用零均值高斯分布;如果判別大于預(yù)設(shè)閾值Q2, 則選用伽瑪分布;否則選用拉普拉斯分布。 在步驟d)中,提供了一種利用條件概率估計(jì)噪聲功率譜的方法。對于每一幀帶 噪語音信號,它只含有噪聲的概率是P(H。|X),即含有噪聲又含有目標(biāo)語音信號的概率是 P(H」X);針對這兩種情況,分別估計(jì)噪聲功率譜如下
<formula>formula see original document page 10</formula>
(12)
{1,, L}是特征值的下標(biāo),^^和《^分別是噪聲在互斥事件H0和H1 其中,i
發(fā)生情況下的功率譜。 根據(jù)條件概率公式,噪聲功率譜估計(jì)方法如下<L =戶(H。 I "vC +尸(A I "《w (13) 步驟e)提供了一種根據(jù)信號子空間維度和噪聲功率譜估計(jì),利用聽覺掩蔽效應(yīng),
基于信號子空間估計(jì)得到各頻點(diǎn)的聽覺掩蔽閾值的方法。 聽覺頻率范圍是0到15500Hz,覆蓋了24個(gè)臨界子頻帶,需要在每個(gè)子頻帶中計(jì)算聽覺掩蔽閾值。首先計(jì)算各子頻帶上各頻點(diǎn)的能量,再計(jì)算人耳基膜對于各頻段聲音的傳播系數(shù),然后將各子頻帶上各頻點(diǎn)的能量和各頻段聲音的傳播系數(shù)兩者相乘得到人耳基膜上的激勵(lì)能量值。最后,根據(jù)人耳基膜上的激勵(lì)能量值與聽覺掩蔽閾值的函數(shù)關(guān)系,再進(jìn)一步計(jì)算得到掩蔽閾值。 步驟f)提供了一種根據(jù)噪聲功率譜、聽覺掩蔽閾值,結(jié)合拉格朗日乘子估計(jì)后濾波器G(eJ")的方法。使得增強(qiáng)語音中的殘余噪聲小于人耳的聽覺掩蔽閾值,從而消除殘余噪聲影響,并使目標(biāo)語音信號的畸變盡可能的小。完成麥克風(fēng)陣列后濾波語音增強(qiáng)。 假設(shè)最小方差非畸變響應(yīng)波束形成器的輸出信號為》(y"),目標(biāo)語音信號信號為
S(ej"),后濾波增強(qiáng)后的語音信號與目標(biāo)語音信號信號的誤差可表述如下 = G(e乂"^y") —5"(e,) = [G(e^)-l]SO^) + C (y (14) 其中,i^y"為》o加)中的噪音。 式(14)中的第一項(xiàng)描述了增強(qiáng)語音中目標(biāo)語音信號的畸變,第二項(xiàng)描述了增強(qiáng)語音中殘余噪聲的大小??捎?jì)算出一個(gè)合適的后濾波器G(eJ")使得增強(qiáng)語音中的殘余噪聲小于人耳的聽覺掩蔽閾值,從而消除其影響。針對式(14),本發(fā)明提出如下目標(biāo)約束
mi《=[G(,)-1]2 Wffl)2+G(,)2》(y"2 (15)
約束條件
G(e聲)2々(?"2^C^ (16)
其中,c^為聽覺掩蔽閾值。
用拉格朗日乘子法求解,令
/ = £r + 〃(G(e, )2麵,)2 - C,,'r) (17)
G(O
其中,P是拉格朗日乘子。令J對G(eJ")求導(dǎo),并使其為零,可得
>人一.
(18) 由式(18)可看出在本發(fā)明的目標(biāo)約束下,基于聽覺感知特性的后濾波器在表達(dá)形式上就是更合理地估計(jì)了噪聲的維納濾波器。
令J對P求導(dǎo),并使其為零,可得<formula>formula see original document page 11</formula>
由(18)和(19)兩式相等,可得<formula>formula see original document page 11</formula>
(19) <formula>formula see original document page 11</formula>(20) 將(20)帶入(18),并用式(13)中的4v代替^一。)2 ,得到本文所提的基于聽覺感知特性的后濾波器如下
<formula>formula see original document page 11</formula> (21)<formula>formula see original document page 11</formula> 在圖1中出一個(gè)應(yīng)用基于多模型和聽覺特性的麥克風(fēng)陣列后濾波語音增強(qiáng)方法
流程圖。系統(tǒng)包括至少兩個(gè)麥克風(fēng)ioi的麥克風(fēng)陣列。 麥克風(fēng)陣列的麥克風(fēng)可能有不同的排列,特別地,麥克風(fēng)101被置于一排,其中每
個(gè)麥克風(fēng)和相鄰近的麥克風(fēng)有預(yù)設(shè)距離。例如,兩個(gè)麥克風(fēng)之間的距離可能大約是5厘米。
對于不同的應(yīng)用環(huán)境和技術(shù)要求,麥克風(fēng)陣列可能被安裝在適當(dāng)?shù)奈恢谩?從麥克風(fēng)101采集的語音信號被送到信號處理單元102。在送往信號處理單元之
前,語音信號可以經(jīng)過低通濾波器來預(yù)處理語音信號。 信號處理單元102對不同麥克風(fēng)輸采集的語音信號進(jìn)行延遲補(bǔ)償以實(shí)現(xiàn)時(shí)域?qū)R。使用短時(shí)離散傅里葉變換將對齊后的各麥克風(fēng)信號表示成復(fù)數(shù)值的頻率信號形式,計(jì)算麥克風(fēng)陣列采集的多路帶噪語音信號在時(shí)幀t、頻率k的功率譜矩陣Oxx(k,t)并對此矩陣進(jìn)行特征值分解,得到特征值矩陣An和特征向量矩陣U。 在接下來的步驟103中,利用特征值矩陣A^通過極大化帶噪語音信號中目標(biāo)語音信號的存在概率的方法,確定信號子空間的維度Q。 接著,步驟104利用信號子空間的維度Q,基于譜的平穩(wěn)性,自適應(yīng)選擇帶噪語音信號中噪聲功率譜分布模型。 步驟105利用信號子空間維度Q和噪聲功率譜分布模型,根據(jù)條件概率估計(jì)噪聲功率譜。 步驟106利用信號子空間維度和噪聲功率譜估計(jì),根據(jù)聽覺掩蔽效應(yīng),基于信號子空間估計(jì)得到各頻點(diǎn)的聽覺掩蔽閾值。 最后,步驟107利用噪聲功率譜估計(jì)和聽覺掩蔽閾值,結(jié)合拉格朗日乘子設(shè)計(jì)后濾波器。 在圖2,說明了一個(gè)確定信號子空間維度的方法的流程,該方法對應(yīng)于圖1中的步驟103。 經(jīng)過步驟101和步驟102,麥克風(fēng)陣列采集的語音信號已經(jīng)通過時(shí)域?qū)R,短時(shí)傅里葉變換。并對多路帶噪語音信號的功率譜①n進(jìn)行特征值分解,得到特征值矩陣A^和特征向量矩陣U。由(9)式,帶噪信號功率譜特征值矩陣被分解為信號功率譜特征值與噪聲功率譜特征值的和,Q是信號子空間的維度。
0139] 在第一步驟201中,初始化信號子空間的維度Q,令其為1。
0140] 接下來,步驟202更新噪聲功率譜和目標(biāo)語音信號功率譜。由于帶噪語音信號功率譜特征值矩陣An是降序排列,并假設(shè)信號強(qiáng)度大于噪聲,所以當(dāng)信號子空間的維度為Q時(shí),噪聲的功率為
1
《
0141] 0柳=
丄-
0142]0143]
0144]
0145]0146]
0147]
0148]0149]
其中,i G {Q+l,…,U是特征值的下標(biāo)。而目標(biāo)語音信號的功率為
2 一
(22)
1 、
L /=1
(23)
其中,i G {1,…,Q1是特征值的下標(biāo)。那么,目標(biāo)語音信號的方差為
、—我
1 2丄Z
e臺
義義,-?W)2 - s
2 = 16>i
(24)
其中,其中,i G {1,…,Q1是特征值的下標(biāo)。
步驟203從高斯模型、拉普拉斯模型和伽瑪模型中任意選擇-
來描述目標(biāo)語音
'^號的譜分布。計(jì)算目標(biāo)語音信號的條件概率Pc;(S(k,t) IH》,特別地,當(dāng)選擇高斯模型時(shí),
1 f f(A:力1
0150] A(S(A:力I^):
argmaxP(S(A:力l巧)。
0151 ] 步驟204實(shí)現(xiàn)變量Q和j的自加運(yùn)算0152] Q = Q+l
0153] 接著步驟205判斷循環(huán)終止條件Q > L,特別地,當(dāng)條件不滿足時(shí),返回步驟202 ;否則進(jìn)行步驟206。
0154] 步驟206利用本發(fā)明的(10)式,最終確定了信號子空間的維度Q,即0155]
0156] 在圖3中,說明了一個(gè)確定帶噪語音信號中噪聲功率譜分布模型的流程圖。該方法對應(yīng)于圖1中的步驟104。
0157] 高斯模型、拉普拉斯模型和伽瑪模型都可以被用來描述語音信號和噪聲信號的譜系數(shù),但是對于不同的噪聲類型其噪聲特性也會有所不同,所以模型選擇應(yīng)根據(jù)目標(biāo)噪聲的特性有針對性的進(jìn)行。在本示例中,根據(jù)計(jì)算機(jī)風(fēng)扇噪聲的統(tǒng)計(jì)數(shù)據(jù)給出了一種基于譜的平穩(wěn)性進(jìn)行模型選擇的方法。
0158] 在步驟301中,由(11)式計(jì)算出判別函數(shù)值Q 。
0159] 步驟302判斷判別函數(shù)值Q是否小于Qp如果判斷結(jié)果為真,則選擇高斯模型;否則執(zhí)行步驟303,判斷判別函數(shù)值Q是否小于02,如果判斷結(jié)果為真,則選擇拉普拉斯模型;否則選擇伽瑪模型。的模型自適應(yīng)選擇算法,是基于在對大量計(jì)算機(jī)風(fēng)扇噪聲實(shí)驗(yàn)數(shù)據(jù)統(tǒng)
計(jì)的結(jié)果。實(shí)驗(yàn)發(fā)現(xiàn)高斯模型在Q取較小值時(shí)為最優(yōu)模型,在Q值較大時(shí),拉普拉斯模型
最優(yōu),而伽瑪模型總的平均噪聲估計(jì)誤差是最小的。據(jù)此,本發(fā)明進(jìn)行模型選擇如下
' 高斯模型,OSQS""w^Z-j拉普拉斯模型,q〈Q^Q2 (25)伽瑪模型,Q2<Q21 在圖4中,說明了一個(gè)利用條件概率估計(jì)噪聲功率譜的方法流程圖。該方法對應(yīng)于圖1中的步驟105。 步驟401計(jì)算帶噪語音信號起始段純噪聲幀的平均功率譜w;;。 步驟402計(jì)算計(jì)算當(dāng)前幀的功率譜 0'
AW
1 £=》,
其中,i G {1, *",L}是特征值的下標(biāo)。
接下來步驟403計(jì)算當(dāng)前幀功率譜與純噪聲功率譜的比值
丄cw
r =
麗 步驟403到步驟408共同完成了條件概率P(H^X)的計(jì)算。首先比較r與設(shè)定閾值a的大小,a取略大于1的較小值,特別地,a取為1.2。當(dāng)r〈 a時(shí),當(dāng)前幀更可能為純噪聲幀,所以P(H。IX)應(yīng)取較大的值,本發(fā)明設(shè)置其下限為0.8。如果當(dāng)r〉 a,當(dāng)前幀更可能是語音幀,此時(shí)P(H。IX)應(yīng)取一個(gè)合適的值。由于信號的能量在各個(gè)頻率上分布式不均勻的,所以,這里根據(jù)不同的頻率取不同的P(H。IX)值。在低頻時(shí),P(H。IX)的值應(yīng)大于高頻的值,因?yàn)樾盘柕哪芰看蠖嗉性诘皖l區(qū)域。即
1 、 P(//。|X)=
max
1
1
,0.8
^1.2
r >1.2
(26)
^ />義 其中,f^是高低頻的界限頻率,!^和|32是加權(quán)系數(shù)
步驟409計(jì)算條件概率P諷| X) = l-P (H。 | X)。
估計(jì)值^ 在圖5中,說明了一種計(jì)算聽覺掩蔽閾值的方法的流程圖。該方法對應(yīng)于圖1中的步驟106。為了將信號中的噪聲掩蔽掉,從而實(shí)現(xiàn)對目標(biāo)語音信號信號的增強(qiáng),需要將噪聲限制在該閾值以下。 步驟501將0到15500Hz的人耳聽覺范圍劃分為24個(gè)子頻帶,以便于在每個(gè)子頻帶中計(jì)算聽覺掩蔽閾值。
得到條件概率P(H。IX)和P(H」X)以后,步驟410利用(13)式得到噪聲功率譜的 在步驟502中,利用步驟206所得的信號子空間維度,計(jì)算了各頻點(diǎn)的能量。H(j, b)表示的是第j個(gè)子頻帶內(nèi)第b個(gè)頻點(diǎn)上的能量,可根據(jù)信號子空間特征值和特征向量計(jì) 算出來。
<formula>formula see original document page 14</formula>
0178] 其中,、=1^,. -0,為目標(biāo)語音信號功率譜矩陣的特征值估計(jì),仏,i為信號子空間 的第i個(gè)基,i G {1,…,Q}是特征值的下標(biāo)mean( )為取均值算子。 0179] SF(j)是表達(dá)第j個(gè)子頻帶上人耳基膜傳播特性的函數(shù),j € 在步驟503中,計(jì)算每個(gè)子頻帶的傳播函數(shù)
<formula>formula see original document page 14</formula>接下來,步驟504計(jì)算表征人耳基膜上能量的激勵(lì)能〗 C<formula>formula see original document page 14</formula>0186] 其中,O(j)是偏移量,j G {1, ,24}表示第j個(gè)子頻帶。
0187] 在圖6中,說明了一個(gè)設(shè)計(jì)后濾波器的流程圖。該方法對應(yīng)于圖1中的步驟107。 0188] 在保證增強(qiáng)后的語音中殘余噪聲的功率低于聽覺掩蔽閾值的條件下,為使目標(biāo)語 音信號信號的畸變達(dá)到最小。 0189] 步驟601描述有約束的最優(yōu)化問題,如下 目標(biāo)
<formula>formula see original document page 14</formula>
約束條件
步驟602利用拉格朗日乘子法求解,令
令J對G(eJ")和ii分別求導(dǎo),并使其為零,可得 S(O2
<formula>formula see original document page 14</formula>
步驟603求解此方程子,得到后濾波器的最優(yōu)估計(jì),即 =- 1
<formula>formula see original document page 14</formula>
0200] 再將步驟410得到的噪聲功率譜估計(jì)(^^和505得到的聽覺掩蔽閾值Cthr帶入,步 驟604完成后濾波器的設(shè)計(jì)。
根據(jù)本說明書,本發(fā)明進(jìn)一步的修改和變化對于所述領(lǐng)域的技術(shù)人員是顯而易見 的。因此,本說明將被視為說明性的并且其目的是向所屬領(lǐng)域技術(shù)人員講授用于執(zhí)行本發(fā) 明的一般方法。應(yīng)當(dāng)理解,本說明書示出和描述的本發(fā)明的形式就被看作是當(dāng)前的優(yōu)選實(shí) 施例。
權(quán)利要求
一種基于多模型和聽覺特性的麥克風(fēng)陣列后濾波語音增強(qiáng)方法,其特征在于,包括下列步驟步驟a通過L個(gè)麥克風(fēng)組成的麥克風(fēng)陣列采集帶噪聲的多路語音信號,把各路帶噪聲的語音信號進(jìn)行時(shí)域?qū)R,使用短時(shí)離散傅里葉變換將對齊后的各路信號表示成復(fù)數(shù)值的頻率信號形式,計(jì)算麥克風(fēng)陣列多路信號的功率譜矩陣并對此功率譜矩陣進(jìn)行特征值分解得到特征值矩陣和特征向量矩陣;步驟b通過極大化帶噪語音信號中目標(biāo)語音信號的存在概率,確定信號子空間的維度Q,且Q≤L;步驟c基于譜的平穩(wěn)性,自適應(yīng)選擇帶噪語音信號中噪聲功率譜分布模型;步驟d利用條件概率估計(jì)噪聲功率譜;步驟e根據(jù)信號子空間維度和噪聲功率譜估計(jì),利用聽覺掩蔽效應(yīng),基于信號子空間估計(jì)得到各頻點(diǎn)的聽覺掩蔽閾值;步驟f根據(jù)噪聲功率譜、聽覺掩蔽閾值,結(jié)合拉格朗日乘子估計(jì)后濾波器,使得增強(qiáng)語音中的殘余噪聲小于人耳的聽覺掩蔽閾值,從而消除殘余噪聲影響,并使目標(biāo)語音信號的畸變盡可能的小,完成麥克風(fēng)陣列后濾波語音增強(qiáng)。
2. 如權(quán)利要求1所述的方法,其特征在于,所述對功率譜矩陣進(jìn)行特征值分解,包括 利用特征值分解將帶噪語音信號空間分為兩個(gè)子空間,即信號子空間包含目標(biāo)語音信號和噪聲;噪聲子空間只包含噪聲;把帶噪語音信號X在時(shí)幀t和頻率k的功率譜矩陣 。xx(k, t)特征值分解為Oxx(k, t) = UAXXUH = U(Ass+cj)ffl(k, t)I)UH其中,X = S+N, X為帶噪語音信號,S為目標(biāo)語音信號,N為噪聲;Axx為特征值降序排 列的帶噪語音信號功率譜特征值矩陣,Ass為特征值降序排列的目標(biāo)語音信號功率譜特征 值矩陣,U為特征向量矩陣,4NN(k, t)為時(shí)幀t和頻率k的噪聲功率,I為L階單位陣,[ ]H為共軛轉(zhuǎn)置算子。
3. 如權(quán)利要求1所述的方法,其特征在于,所述確定信號子空間維度是取最合適的Q值 使得帶噪語音中目標(biāo)語音信號存在的概率最大;利用條件概率計(jì)算,步驟包括定義互斥事件H。和& :事件H。帶噪語音信號中,只存在噪聲,不存在目標(biāo)語音信號; 事件^ :帶噪語音信號中,目標(biāo)語音信號與噪聲同時(shí)存在; 信號子空間維度Q定義為argmax尸(S(A;,f)li^)其中,s(k, t)是目標(biāo)語音信號信號在第t幀的第k個(gè)頻率點(diǎn)上的功率譜,p(O是目標(biāo)語音信號譜的分布函數(shù),argmax( )是尋找具有最大評分的參數(shù)值的算子。
4. 如權(quán)利要求1所述的方法,其特征在于,所述基于譜的平穩(wěn)性,自適應(yīng)選擇帶噪語音 信號中噪聲功率譜分布模型,包括以下步驟步驟cl :定義一個(gè)用來表述功率譜的平穩(wěn)性的判別函數(shù)Q :<formula>formula see original document page 3</formula>艮P, Q為幾何平均&e)f[義;r,對算術(shù)平均T^i義A的比值,其中、是帶噪語音信號功率譜特征值矩陣A^的第i個(gè)特征值,i G {Q+l,, L}是特征值的下標(biāo),Q的值在 0到1之間;步驟C2 :根據(jù)判別函數(shù)值與預(yù)設(shè)閾值比較,確定適用在帶噪語音信號中的噪聲功率譜 分布模型。
5. 如權(quán)利要求4所述的方法,其特征在于,所述根據(jù)判別函數(shù)值與預(yù)設(shè)閾值的比較步驟包括步驟C21 :確定兩個(gè)預(yù)設(shè)閾值&和Q2, & < Q2 ;步驟c22 :比較判別函數(shù)與預(yù)設(shè)閾值,特別地,如果判別函數(shù)小于預(yù)設(shè)閾值Q"則選用 零均值高斯分布;如果判別大于預(yù)設(shè)閾值02,則選用伽瑪分布;否則選用拉普拉斯分布。
6. 如權(quán)利要求1所述的方法,其特征在于,利用條件概率估計(jì)噪聲功率譜的步驟包括 對于每一幀帶噪語音信號,它只含有噪聲的概率是P (H。 IX),即含有噪聲又含有目標(biāo)語音信號的概率是P(H」X);針對這兩種情況,分別估計(jì)噪聲功率譜如下<formula>formula see original document page 3</formula>其中,0^和^U分別是噪聲在互斥事件H。和&發(fā)生情況下的功率譜,i G {1,…,U是 特征值的下標(biāo);根據(jù)條件概率公式,噪聲功率譜估計(jì)如下層
7. 如權(quán)利要求1所述的方法,其特征在于,所述估計(jì)聽覺掩蔽閾值的步驟包括 步驟fl :將聽覺頻率范圍0-15500Hz劃分為若干個(gè)關(guān)鍵子頻帶;步驟f2 :分別計(jì)算每個(gè)子頻帶中的聽覺掩蔽閾值。
8. 如權(quán)利要求7所述的方法,其特征在于,所述計(jì)算每個(gè)子頻帶中的聽覺掩蔽閾值是計(jì)算各子頻帶上各頻點(diǎn)的能量,計(jì)算人耳基膜對于各頻段聲音的傳播系數(shù),然后將各子頻 帶上各頻點(diǎn)的能量和各頻段聲音的傳播系數(shù)兩者相乘得到人耳基膜上的激勵(lì)能量值,再根 據(jù)人耳基膜上的激勵(lì)能量值與聽覺掩蔽閾值的函數(shù)關(guān)系計(jì)算得到掩蔽閾值。
9. 如權(quán)利要求1所述的方法,其特征在于,所述結(jié)合拉格朗日乘子估計(jì)后濾波器G的步驟如下步驟fa:在殘余噪聲功率小于掩蔽閾值的約束條件下,最小化目標(biāo)語音信號的畸變, 以此建立最優(yōu)化問題;步驟fb :結(jié)合拉格朗日乘子求解,得到后濾波器的最優(yōu)估計(jì); 步驟fc :帶入聽覺掩蔽閾值和噪聲功率譜估計(jì),完成后濾波器的設(shè)計(jì)。
全文摘要
本發(fā)明公開了一種基于多模型和聽覺特性的麥克風(fēng)陣列后濾波語音增強(qiáng)方法。針對影響麥克風(fēng)陣列后濾波語音增強(qiáng)性能的兩個(gè)重要因素對于信號參數(shù)的準(zhǔn)確估計(jì)和在增加降噪性能與減少語音畸變之間合適的折中,本發(fā)明的方案包括下列步驟對麥克風(fēng)陣列采集到的信號進(jìn)行時(shí)域?qū)R,短時(shí)傅里葉變換和功率譜的特征值分解;通過極大化帶噪語音信號中目標(biāo)語音信號的存在概率,來確定信號子空間的維度;基于譜的平穩(wěn)性,自適應(yīng)選擇帶噪語音信號中噪聲功率譜的分布模型;利用條件概率估計(jì)噪聲功率譜;基于信號子空間估計(jì)聽覺掩蔽閾值;根據(jù)聽覺感知特性,結(jié)合拉格朗日乘子估計(jì)后濾波器。
文檔編號G10L21/02GK101778322SQ20091025039
公開日2010年7月14日 申請日期2009年12月7日 優(yōu)先權(quán)日2009年12月7日
發(fā)明者劉文舉, 李超, 程寧 申請人:中國科學(xué)院自動化研究所