本發(fā)明涉及一種基于混響環(huán)境下麥克風陣列波束形成方法。
背景技術:
波束成形技術已經(jīng)在語音通信系統(tǒng)、電話會議、語音識別和助聽器等方面有著廣泛應用,波束成形作為空間濾波器,從由一組麥克風接收的混合信號中提取目標信號。目前,波束形成器有固定波束形成、最小方差無失真響應(minimum variance distortionless response,MVDR)等經(jīng)典的寬帶波束形成器,但存在陣列響應頻率不變性較差、主瓣寬度因頻率增大而減小、信號畸變等現(xiàn)象。為了解決寬帶波束的畸變,目前出現(xiàn)了最小二乘方法、凸優(yōu)化方法、特殊陣列結構方法、空間響應約束方法等,這些方法雖然改善了頻率不變性,但是對于混響環(huán)境應用,上述的方法并不滿足要求。
在封閉的空間環(huán)境中的目標語音信號通常會受到混響和噪聲影響導致語音信號失真,因此抑制混響是目前語音信號處理當中的一個熱點問題。近年來研究成熟的抑制或者去除混響的方法包括:逆濾波器方法、廣義奇異值分解方法等。其中,逆濾波方法根據(jù)房間脈沖響應,設計相應的逆濾波器,通過對混響信號的逆濾波恢復出目標語音信號;而廣義奇異值分解方法是估計房間脈沖響應,并且通過匹配濾波實現(xiàn)逆卷積。以上去混響的方法只能去除前期混響,且均沒有考慮語音信號在空間上的信息。雖然具有空間指向性的線性約束最小方差波束形成方法(linear constrained minimum variance beamformer,LCMV)在理論上能夠去除混響,但是計算復雜度較高,實際上難以實現(xiàn)。
技術實現(xiàn)要素:
針對上述問題,本發(fā)明提供一種基于混響環(huán)境下麥克風陣列波束形成方法,可有效抑制麥克風陣列混響問題,是一種適用于任意陣列結構的波束形成方法。
為實現(xiàn)上述技術目的,達到上述技術效果,本發(fā)明通過以下技術方案實現(xiàn):
一種基于混響環(huán)境下麥克風陣列波束形成方法,包括如下步驟:
步驟1、獲取麥克風接收到的信號:
設在封閉的室內環(huán)境下,由N個相同的全向性麥克風組成均勻線陣,有M個語音信號,位置為rm,m=1,…,M,其中,目標語音信號位置為r1,其余位置的信號為干擾信號,N>M,則第n個麥克風接收到的信號xn(k)表示為:
式中,Hnm,l是第m個語音到第n個麥克風、長度為l的房間沖激響應,且n=1,…,N,l=1,…,L;L為房間沖激響應的長度;sm(k)是第m個語音信號,vn(k)是第n個麥克風接收到的噪聲;k表示離散時間;
步驟2、對第n個麥克風接收到的信號xn(k)進行分幀加窗處理,得第n個麥克風接收到的加窗信號xnw(k);下標w表示加窗處理;
步驟3、對第n個麥克風接收到的加窗信號xnw(k)進行第i個頻率點的傅里葉變換,得xnw(ωi,k):
式中,sm(ωi,k)和vn(ωi,k)分別是sm(k)、vn(k)所對應的第k幀信號短時譜;
步驟4、基于維納濾波的方法獲得的輸出信號:
式中,W(ωi)是第i個頻率點的維納濾波器的系數(shù),是在維納濾波輸出信號的第i個頻率帶中的第k幀信號,i∈[1,I],I表示離散頻率點的總數(shù),為整數(shù);vn(ωi,k)也即在第n個麥克風接收信號的第i個頻率帶中的第k幀噪聲信號;
步驟5、通過基于維納濾波的LCMV波束形成方法獲得麥克風陣列波束形成器的輸出信號其中Wn,opt(ω)是第n個麥克風陣列響應的最優(yōu)權向量,是第n個麥克風接收的信號在整個頻率帶中的維納濾波輸出信號。
優(yōu)選,步驟2中的窗函數(shù)采用漢明窗函數(shù)w(k),且w(k)=0.5(1-cos(2πk))。
優(yōu)選,步驟3中的傅里葉變換為短時傅里葉變換:通過在I個均等間隔的頻率點上對頻率變量ω進行采樣,即ωi=2πi/I,得到一個短時傅里葉變換其中q是漢明窗移動的長度。
優(yōu)選,步驟4中,維納濾波器系數(shù)W(ωi)的確定方法為:
式中,Φss(ωi)為目標語音信號在第i個頻率點的自功率譜,Φxx(ωi)為麥克風接收信號在第i個頻率點的自功率譜。
優(yōu)選,混響環(huán)境下維納濾波的LCMV分頻波束形成方法中麥克風陣列響應的最優(yōu)權向量獲取步驟如下:
1)計算麥克風陣列接收信號的自功率譜Φxx(ω)和維納濾波器系數(shù)W(ωi),得到維納濾波器輸出
2)將室內環(huán)境下的干擾抑制作為約束條件,則波束形成器分頻帶響應約束條件為:
式中,CN表示N維復數(shù)域;是頻率響應權向量;(·)*T表示共軛轉置;是高頻段頻率響應權向量,上標lcmv1表示低頻段的LCMV波束形成方法,是高頻段頻率響應權向量,上標lcmv2表示高頻段LCMV波束形成方法,是麥克風陣列接收到的信號的自功率譜,H1n,l表示目標語音信號方向的第n個麥克風、長度為l的房間沖激響應向量;Hnm,l表示第m個語音信號方向的第n個麥克風、長度為l的房間沖激響應向量;GD1(ω)為從目標語音信號點到線陣參考點麥克風的波束形成器輸出的直達路徑低頻響應函數(shù),下標D1表示目標語音信號低頻段;GD2(ω)為從目標語音信號點到線陣參考點麥克風的波束形成器輸出的直達路徑高頻響應,下標D2表示目標語音信號高頻段;
3)根據(jù)LCMV準則,通過維納濾波器輸出語音信號的頻域信息分別計算出高頻段和低頻段最優(yōu)權值,其中:
式中,維納濾波器輸出信號向量;是第n個麥克風接收的信號在整個頻率帶中的維納濾波輸出信號;H是房間沖激響應向量,H=[H1n,l,Hmn,l],則基于分頻維納濾波器的LCMV波束形成的最優(yōu)權向量Wn,opt(ω)為:
式中,α是矩陣加權系數(shù),是正常數(shù)。
優(yōu)選,設實際環(huán)境中接收信號的頻率范圍是(ωmin,ωmax),ω0是ωmin和ωmax的平均值,則高頻和低頻的劃分方法為:當ω>ω0為高頻段,當ω≤ω0為低頻段。
本發(fā)明的有益效果是:
本發(fā)明首先通過從空域濾波角度出發(fā)將自由場推廣到混響場,對麥克風陣列接收到的信號進行短時傅里葉變換,得到具有空域信息和頻域信息的麥克風陣列接收信號,然后將接收到的麥克風陣列信號輸入到各個通道維納濾波器中進行頻域處理,最后通過維納濾波器輸出語音信號的頻域信息,使用麥克風陣列線性約束最小方差(Linear constrained minimum variance,LCMV)波束形成方法并由拉格朗日乘子法分別計算高頻段和低頻段最優(yōu)權向量,從混響語音中分離出語音直達聲語音信號。本發(fā)明方法可有效抑制麥克風陣列混響問題,是一種適用于任意陣列結構的波束形成方法。
附圖說明
圖1是本發(fā)明基于全頻維納濾波器的線性約束最小方差波束形成的結構圖;
圖2是本發(fā)明基于分頻維納濾波器的線性約束最小方差波束形成的結構圖;
圖3是消聲室內的實驗布局設置;
圖4是目標語音信號的示意圖;
圖5是麥克風陣列通道1接收信號的示意圖;
圖6是全頻波束形成方法的效果圖;
圖7是本發(fā)明分頻去混響方法的效果圖。
具體實施方式
下面結合附圖和具體的實施例對本發(fā)明技術方案作進一步的詳細描述,以使本領域的技術人員可以更好的理解本發(fā)明并能予以實施,但所舉實施例不作為對本發(fā)明的限定。
如圖1-7所示,一種基于混響環(huán)境下麥克風陣列波束形成方法,包括如下步驟:
步驟1、獲取麥克風接收到的信號:
設在封閉的室內環(huán)境下,由N個相同的全向性麥克風組成均勻線陣,有M個語音信號,位置為rm,m=1,…,M,其中,目標語音信號位置為r1,其余位置的信號為干擾信號,N>M,則第n個麥克風接收到的信號xn(k)表示為:
式中,Hnm,l是第m個語音到第n個麥克風、長度為l的房間沖激響應,且n=1,…,N,l=1,…,L;L為房間沖激響應的長度;sm(k)是第m個語音信號,vn(k)是第n個麥克風接收到的噪聲;k表示離散時間。
步驟2、對第n個麥克風接收到的信號xn(k)進行分幀加窗處理,得第n個麥克風接收到的加窗信號xnw(k);下標w表示加窗處理,窗函數(shù)可以采用漢明窗函數(shù)w(k),且w(k)=0.5(1-cos(2πk))。
步驟3、對第n個麥克風接收到的加窗信號xnw(k)進行第i個頻率點的傅里葉變換,得xnw(ωi,k):
式中,sm(ωi,k)和vn(ωi,k)分別是sm(k)、vn(k)所對應的第k幀信號短時譜。
步驟3中的傅里葉變換為短時傅里葉變換:本發(fā)明通過在I個均等間隔的頻率點上對頻率變量ω進行采樣,即ωi=2πi/I,得到一個短時傅里葉變換其中q是漢明窗移動的長度。
步驟4、基于維納濾波的方法獲得的輸出信號
式中,W(ωi)是第i個頻率點的維納濾波器的系數(shù),是在維納濾波輸出信號的第i個頻率帶中的第k幀信號,i∈[1,I],I表示離散頻率點的總數(shù),為整數(shù);vn(ωi,k)也即在第n個麥克風接收信號的第i個頻率帶中的第k幀噪聲信號。
維納濾波器系數(shù)W(ωi)的確定方法為:
式中,Φss(ωi)為目標語音信號在第i個頻率點的自功率譜,Φxx(ωi)為麥克風接收信號在第i個頻率點的自功率譜。
步驟5、通過基于維納濾波的LCMV波束形成方法獲得麥克風陣列波束形成器的輸出信號其中Wn,opt(ω)是第n個麥克風陣列響應的最優(yōu)權向量,是第n個麥克風接收的信號在整個頻率帶中的維納濾波輸出信號。
在封閉環(huán)境內,麥克風陣列采集到的語音信號不僅僅包含直達路徑傳播的信號,而且包含了由于房間反射而產(chǎn)生的延遲衰減信號,這種多徑傳播效應在接收信號中引入導致譜失真,稱為混響。
本發(fā)明對麥克風陣列接收到的信號進行分幀加窗的短時傅里葉變換之后,計算接收信號的自功率譜,由這些短時功率譜估計得到維納濾波器的系數(shù),最后將接收到的麥克風陣列信號輸入到各個通道維納濾波器中進行頻域處理。
如圖1所示,基于維納濾波的LCMV全頻波束形成方法中麥克風陣列響應的最優(yōu)權向量獲取步驟如下:
1)計算麥克風陣列接收信號的自功率譜Φxx(ω)和維納濾波器系數(shù)W(ωi),得到維納濾波器輸出由維納濾波器理論可知,最佳濾波器系數(shù)W(ωi)為:
Φxx(ωi)=E[|x(ωi,k)|2]
Φvv(ωi)=E[|v(ωi,k)|2]
Φss(ωi)=Φxx(ωi)-Φvv(ωi)
式中,Φss(ωi)為目標語音信號在第i個頻率點的自功率譜,Φxx(ωi)為麥克風接收信號在第i個頻率點的自功率譜,Φvv(ωi)為噪聲信號在第i個頻率點的自功率譜,單通道接收的信號x(ωi,k),單通道接收的噪聲信號v(ωi,k)。
2)將室內環(huán)境下的干擾抑制作為約束條件:在麥克風陣列各個通道信號經(jīng)過維納濾波器輸出增強信號這時各個通道內的混響得到一定程度的衰減,為了滿足能夠在室內達到干擾抑制和降噪的理想性能,則波束形成器全頻帶響應應滿足條件為:
式中,CN表示N維復數(shù)域;表示頻率響應權向量,上標lcmv表示線性約束最小方差波束形成方法,下標n表示第n個麥克風;(·)*T表示共軛轉置;是麥克風陣列接收到的信號的自功率譜,H是房間沖激響應向量,H=[H1n,l,Hnm,l]T,H1n,l表示目標語音信號方向的第n個麥克風、長度為l的房間沖激響應向量,Hnm,l表示第m個語音信號方向的第n個麥克風、長度為l的房間沖激響應向量;G(ω)表示從目標語音信號點到線陣參考點麥克風的波束形成器輸出的直達路徑傳遞函數(shù),且G(ω)=[GD(ω)0]T,標D表示目標語音信號;vn(ω)表示第n個麥克風接收信號的噪聲向量;需要說明的是奇數(shù)個麥克風線陣的參考點取為中間的麥克風,偶數(shù)個麥克風取為最內的兩個麥克風的連線的中垂線;
3)求解最優(yōu)權向量為:
式中,是麥克風陣列接收到的信號的自功率譜的矩陣求逆運算。
基于維納濾波的LCMV全頻波束形成方法抑制混響影響的效果較差,主要是由于該方法沒有考慮不同頻率的語音信號產(chǎn)生混響的差異性,因此本發(fā)明方法充分考慮不同頻率語音信號產(chǎn)生混響的差異性,給出了一種改進的基于分頻維納濾波器的LCMV波束形成結構,如圖2所示。按圖2,本發(fā)明方法優(yōu)化波束形成器權向量步驟如下:
1)計算麥克風陣列接收信號的自功率譜Φxx(ω)和維納濾波器系數(shù)W(ωi),得到維納濾波器輸出
2)將室內環(huán)境下的干擾抑制作為約束條件,則本發(fā)明方法給出的波束形成器分頻帶響應約束條件為:
式中,CN表示N維復數(shù)域;是頻率響應權向量;是高頻段頻率響應權向量,上標lcmv1表示低頻段的LCMV波束形成方法,是高頻段頻率響應權向量,上標lcmv2表示高頻段LCMV波束形成方法,是麥克風陣列接收到的信號的自功率譜,H1nl表示目標語音信號方向的第n個麥克風、長度為l的房間沖激響應向量;Hnm,l表示第m個語音信號方向的第n個麥克風、長度為l的房間沖激響應向量;GD1(ω)為從目標語音信號點到線陣參考點麥克風的波束形成器輸出的直達路徑低頻響應函數(shù),下標D1表示目標語音信號低頻段;GD2(ω)為從目標語音信號點到線陣參考點麥克風的波束形成器輸出的直達路徑高頻響應,下標D2表示目標語音信號高頻段;需說明:高頻段和低頻段可根據(jù)實際情況進行分頻,因為實際環(huán)境中接收信號的頻率范圍可以通過分析得到頻率分布在一定范圍內,本發(fā)明采用分頻方法如下:設實際環(huán)境中接收信號的頻率范圍是(ωmin,ωmax),ω0是ωmin和ωmax的平均值,即ω0=(ωmin+ωmax)/2,當ω>ω0為高頻段,當ω≤ω0為低頻段;
3)根據(jù)LCMV準則,通過維納濾波器輸出語音信號的頻域信息分別計算出高頻段和低頻段最優(yōu)權值,其中:
式中,維納濾波器輸出信號向量;是第n個麥克風接收的信號在整個頻率帶中的維納濾波輸出信號;H是房間沖激響應向量,H=[H1n,l,Hmn,l],這時基于分頻維納濾波器的LCMV波束形成的最優(yōu)權向量Wn,opt(ω)為:
式中,α是矩陣加權系數(shù),是正常數(shù)。
本發(fā)明性能評價如下:采用分段信噪比(SNRseg)和語音質量評估(Perceptual evaluation of speech quality,PESQ),用于評估語音去混響的性能。
分段信噪比定義為
式中,s(k)是第k個時間幀無混響的直達目標語音信號,分別是第k個時間幀增強的目標語音信號。
對于PESQ分數(shù),它是由ITU-T為3.2GHz的手機電話和窄帶語音編解碼器(ITU,2000,2003)的語音質量評估的建議,它是由平均干擾值Dind和平均的線性組合獲得的對稱干擾值Aind,則PESQ定義為:
PESQ=4.5-0.1Dind-0.0309Aind
本發(fā)明的效果可以通過以下實施例來說明:
實驗環(huán)境的布局設置如圖3所示,采用了一個由7個全向麥克風組成的線陣,其位置分別為(2.0,3.0,1.4),(2.1,3.0,1.4),(2.2,3.0,1.4),(2.3,3.0,1.4),(2.4,3.0,1.4),(2.5,3.0,1.4),(2.6,3.0,1.4)(坐標值的測量單位是米,m);為了模擬目標語音,在位置(3.7,2.0,1.4)m處放置一個人工嘴,播放一段事先錄制好的男聲語音信號,如圖3中所示的單個目標語音信號。
本發(fā)明的含混響語音是通過消聲室中測得標準方向目標語音和實際會場測得房間脈沖響應做卷積得到混響信號,采樣率為8kHz,實際會場總的混響時間為2s。將待處理的含混響語音信號分幀變成頻域,通過維納濾波器得到高低頻段語音信號;然后再將高低頻段的語音信號輸入到LCMV濾波器中進行分頻段去混響。圖5是麥克風陣列通道1接收含混響的語音信號。
實施例結果,如圖4-7所示:
從圖5和圖4的波形時域圖對比可以看出混響信號比原先干凈信號多出了很多部分,根據(jù)混響的定義多出的部分是疊加在原始干凈語音信號上的混響部分。圖6是全頻帶方法處理的效果,比較圖7是本發(fā)明分頻方法處理后的效果,波形時域圖的波峰波谷和原始干凈語音信號相比更加明顯,可以明顯的看出去混響的效果。
從圖5和圖4的語譜圖對比可以看出,圖5含混響語譜圖的深色重疊區(qū)域較多,特別是低頻部分前后覆蓋嚴重不利于語音識別應用。圖6是全頻帶方法處理的語譜圖,比較圖7是本發(fā)明分頻去混響效果的語譜圖,相較于圖5顏色變淺,能量降低,且與圖3原始語音信號的語譜圖相似度較高,代表著去混響的效果比較好。
下面采用兩個評價標準,即分段信噪比和語音質量評估,來定量的評價目標語音去混響的性能,如表1所示。
表1分頻和全頻方法去混響性能對比表
從表1中可以得出,分頻去混響比全頻去混響的分段信噪比提高3.2dB;語音質量評估的得分兩者相當,但是對比含混響目標語音分數(shù)提高了0.2左右。這個表明本發(fā)明方法的效性。
本發(fā)明首先通過從空域濾波角度出發(fā)將自由場推廣到混響場,對麥克風陣列接收到的信號進行短時傅里葉變換,得到具有空域信息和頻域信息的麥克風陣列接收信號,然后將接收到的麥克風陣列信號輸入到各個通道維納濾波器中進行頻域處理,最后通過維納濾波器輸出語音信號的頻域信息使用麥克風陣列線性約束最小方差波束形成方法(LCMV)并由拉格朗日乘子法分別計算高頻段和低頻段最優(yōu)權向量,從混響語音中分離出語音直達聲語音信號??捎行б种汽溈孙L陣列混響問題,是一種適用于任意陣列結構的波束形成方法。
本發(fā)明方法基于每個頻段上混響時間不同的特性,在麥克風陣列接收信號的各個通道維納濾波器中進行分頻處理,將波束形成方法應用到高低頻域的子帶中,提高了去混響的精度。實測實驗結果表明,本發(fā)明方法去混響效果更加有效。本發(fā)明方法可廣泛應用于多通道語音增強、人機語音交互系統(tǒng)、助聽器、車載免提語音通信、遠程電視會議系統(tǒng)以及機器人聽覺等諸多領域。
以上僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內容所作的等效結構或者等效流程變換,或者直接或間接運用在其他相關的技術領域,均同理包括在本發(fā)明的專利保護范圍內。