專利名稱:基于嵌套子陣列的后置濾波與譜減法聯(lián)合語音增強方法
技術(shù)領(lǐng)域:
本發(fā)明涉及到計算機語音信號處理領(lǐng)域,更具體地說,本發(fā)明涉及一種基 于嵌套子陣列的后置濾波與譜減法聯(lián)合語音增強方法,尤其適用于室內(nèi)嘈雜環(huán) 境中話音信號的增強。
背景技術(shù):
語音增強(SpeechEnhancement)技術(shù)就是對帶噪的語音進行相關(guān)處理,從 中提取盡可能純凈的原始語音,以改善接收端語音質(zhì)量,提高語音的清晰度、 可懂度和舒適度,使人易于接受或提高語音處理系統(tǒng)的性能。常用在自動語音 識別系統(tǒng)、車載非手持式電話、多媒體會議、無線通信、場景錄音、軍事竊聽、 助聽設(shè)備和智能機器人等領(lǐng)域。語音增強技術(shù)的研究發(fā)展已有四十多年的歷史, 傳統(tǒng)的方法皆是基于單一麥克風的系統(tǒng),其拾音范圍、指向性變化、噪聲抑制 能力等問題都受到一定的限制?;邴溈孙L陣列的自適應(yīng)語音增強技術(shù)融合了 陣列信號處理技術(shù)、語音信號處理技術(shù)以及多通道信號采集技術(shù)等多項關(guān)鍵技 術(shù)。其技術(shù)優(yōu)勢在于它不僅可以利用語音信號的時域和頻域特性,而且可以利 用其空間信息來實現(xiàn)對噪聲的消除,達到增強和純化語音的目的?;邴溈孙L 陣列的語音增強方法典型的工作流程如圖l所示,具體描述如下-
1) 根據(jù)應(yīng)用要求設(shè)計麥克風陣列結(jié)構(gòu);
2) 利用麥克風陣列接收到的多通道語音信號的時間、頻率、空間信息, 對語音信號的起始、結(jié)束端點進行檢測,同時估計通道之間的時間延 遲,估計信號空間方位信息;
3) 采用語音增強算法對多通道信號進行處理,實現(xiàn)語音信號的增強。 前述步驟l)中的麥克風陣列結(jié)構(gòu)設(shè)計是一項關(guān)鍵的步驟。傳統(tǒng)的陣列結(jié)構(gòu)
有均勻線陣、非均勻線陣、均勻圓陣和球面陣列等。陣列結(jié)構(gòu)的設(shè)計與多通道 信號模型的選擇有密切關(guān)系。
陣列信號模型分為近場模型和遠場模型,其最大區(qū)別在于在遠場模型中, 各陣元接收到的信號幅度被認為是相同的,有相位差;而近場模型則需要考慮傳播路徑的不同帶來的信號幅度衰減,即近場模型除了要考慮信源的到達方向 之外,還必須考慮信源到各個麥克風的距離。在近場情況下,通常采用球面波 前模型,來代替遠場的平面波前模型。
與時域采樣定理類似,為了防止出現(xiàn)空間混迭現(xiàn)象,基于麥克風陣列傳感 器空間釆樣也需要滿足一定的條件,稱為空間采樣定理,描述為式(l)-
<formula>formula see original document page 5</formula> (1)
其中,"是相鄰麥克風陣元間的直線距離,A為聲波的波長。只有空間采樣率足 夠高,才能避免空間混迭。然而,如果陣元距離過小,則是才采樣,采用較多 的麥克風傳感器并不能提供更多的信號空間信息。
此外,信號源與麥克風陣列之間距離也將影響信號模型的建立。定義r為聲 源到麥克風陣列中心的直線距離,丄為線性麥克風陣列的總長度。如果滿足式
(2),則符合遠場條件;反之,則需采用近場模型。
<formula>formula see original document page 5</formula> (2)
對于一個均勻線性麥克風陣列,采用遠場平面波模型,則第m個麥克風的 輸出離散信號可表示為
<formula>formula see original document page 5</formula> (3)
其中,^h]為聲源信號,A 為第m個麥克風接收到的信號與聲源信號之間的樣 本點延遲,77j"]為第m個麥克風接收到的噪聲信號。
A^為第m個麥克風接收到的信號與聲源信號之間的時間延遲,則有如下關(guān)
系式-
<formula>formula see original document page 5</formula> (4)
式(4)中,乂為采樣頻率,c為聲波在空間傳播的速度。
前述步驟2)中的語音端點檢測(Voice Activity Detection, VAD)步驟可視不 同語音增強算法或增或減。魯棒的VAD方法對實現(xiàn)噪聲信號的統(tǒng)計特征估計, 以及后續(xù)的語音增強算法的性能都具有重要的作用。通常辦法是采用單一通道 的基于短時能量的VAD方法、基于過零率的VAD方法、基于線性預(yù)測系統(tǒng)的VAD方法等等。此外,基于陣列結(jié)構(gòu)的端點檢測方法常用的有基于波束形成
器的VAD方法、基于相位向量的VAD方法以及基于GSC的空間VAD方法。
前述步驟3)中,語音增強技術(shù)主要可分為基于單一麥克風的方法和基于麥 克風陣列的方法,其中基于單一麥克風的方法最成熟也最簡單有效的是譜減法 語音增強算法;而基于麥克風陣列的方法目前廣泛采用的有a)固定波束形成 器(Fixed B醒fo謹g, FBF); b)自適應(yīng)波束形成器(Adaptive Beamforming, ABF); c)具有自適應(yīng)后置濾波器的波束形成法(Microphone Arrays with Adaptive Postfiltering); d)廣義旁瓣消除法(Generalized Sidelobe Canceller, GSC)等等。 除此之外, 一些改進的算法、聯(lián)合的算法也層出不窮。常用的有將譜減法與固 定波束形成器相結(jié)合的語音增強方法;固定波束形成器與自適應(yīng)后置濾波聯(lián)合 語音增強方法;基于空間傳輸函數(shù)的廣義旁瓣消除語音增強方法等。常用的基 于時延-累加波束形成
前述的譜減法(Spectral Subtraction, SS)語音增強算法是經(jīng)典的單一通道語 音增強方法之一,是1979年由美國猶他大學(xué)(University of Utah) Steven F. Boll 教授提出的一種普遍應(yīng)用于單通道含加性噪聲的語音增強算法。如圖2所示, 該方法通過對受污染的語音信號和估計的噪聲信號的短時幅度譜進行相減處 理,獲得純凈的語音信號,其效果相當于在變換域?qū)胝Z音信號進行了某種 均衡化處理。然而,實際中噪聲的頻譜服從高斯分布,噪聲的幀功率譜變化范 圍很寬,在頻域中的最大、最小值之比往往達到幾個數(shù)量級,而最大值與均值 之比也達6-8倍。因此,在減去噪聲譜之后,會有較大的功率譜分量的剩余部分, 在頻譜上呈現(xiàn)隨機出現(xiàn)的尖峰,在聽覺上形成殘留噪聲。這種噪聲具有一定節(jié) 奏起伏感,稱為"音樂噪聲"。此外,在譜減算法中語音的各個部分受到的影響 是不同的。摩擦音由于其特征與噪聲相似,在處理過程中會和噪聲一起被抑制。 鼻音能量較低,其功率譜的幅度與噪聲接近,增強效果遠不如濁音。譜減法的 衰減作用使語音的非濁音部分和高頻部分減弱,這就是增強后語音的可懂度下 降的原因。
時延-累加波束形成器(Delay-and-Sum Beamformer, DSBF)是一種典型的 固定波束形成器,分為時延補償和加權(quán)求和兩部分。如圖3所示,采用遠場模 型,假設(shè)噪聲為加性噪聲,以第m通道接收到的信號為例,其表達式為^["]"["-A";J + "J"] (5)
利用時延估計算法得到語音信號在各通道的時間延遲,再采用時延補償將
各通道信號在時域?qū)R,得到
= + (6)
對各通道信號進行加權(quán)求和,即得到波束形成輸出信號-
y["] = 2X["],w["] (7)
在波束形成算法中,準確的時延估計是多通道語音增強的基礎(chǔ)。延遲-累加 波束形成器具有系統(tǒng)簡單、算法魯棒、計算量小的優(yōu)點,可應(yīng)用于實際系統(tǒng)。
該算法在理論上可獲得101ogH)M的信噪比提高。所以要獲得好的語音增強,則 要采用較多的麥克風陣元。另外,此算法有隱藏的前提條件,即需要獲得精確 的時間延遲估計A^、入射信號為窄帶信號、不存在空間傳輸損耗和反射信號和 混響信號,算法主要的不足在于算法對于空間多于一個語音聲源或者方向性 噪聲、混響干擾嚴重的情況,其性能下降很快,此外,對信號的不同頻率成分, 其響應(yīng)不同,通常低頻部分空間分辨率比較差,高頻部分相對較好。
1988年,R. Zelinski提出了在延遲-累加波束形成器的輸出后端增加一個后 置自適應(yīng)維納濾波器(Wiener Filter)的方法,形成了經(jīng)典的后置濾波器語音增 強算法(Delay-and-Sum Beamforming with an Additional Postfiltering)。后置自適 應(yīng)濾波方法結(jié)合線性自適應(yīng)波束形成器(ABF)和后置濾波器(Postfilter),利 用線性ABF的空間濾波特性和后置濾波器的非相干噪聲抑制特性,可以同時達 到空間濾波和頻率濾波語音增強的效果,進一步提高輸出信噪比。
后置自適應(yīng)濾波的作用是對延遲-累加方法獲取的信號采用自適應(yīng)維納濾波 法進一步估計出目標語音。其主要思想是假設(shè)
1) 每個通道接收到的語音信號與噪聲信號是不相關(guān)的;
2) 陣列中不同麥克風接收到的噪聲信號是不相關(guān)的;
3) 每個麥克風接收到的噪聲信號的功率譜密度相同。如圖4所示,經(jīng)時延補償后,做傅里葉變換轉(zhuǎn)換到頻域,各個麥克風通道 的信號包括目標語音信號和噪聲信號,加權(quán)后
W)=『m(/)[S(/) + ^(/)] (8)
y(/)=2X(/)
(9)
基于前述三個假設(shè),分別計算各通道的譜密度和通道間互譜密度可以得到 O朋(/)=五ft^(/)(S(/) + 7,(/))][^(/)(S(/) +;;,(/))]}
+ W(/勿,(/)] W(/)W/) + W(/k(/)]] =K(/)|20,,(/) + K(/)「Ow,(/)
=K(/)f[^(/) + <EV,(/)]
(10)
氣"(/)=^[w(/)(s(/)+",(/))][R'(/)諷/)+",(/)):
,W(/艮(/)
根據(jù)維納濾波器的最佳傳遞函數(shù)表達式
(12)
通過求輸入各通道的目標信號和噪聲信號的自相關(guān)譜密度和互相關(guān)譜密度可以 分別得到傳遞函數(shù)的分子和分母。
由式(io)和式(11)可以分別得到^,(/)和Om(/) +①J/),艮P-
<formula>formula see original document page 8</formula>從而,可得到后置自適應(yīng)維納濾波器的傳遞函數(shù)估計值
<formula>formula see original document page 9</formula>
其中,M表示通道數(shù)目,51(0為取實部運算,*為共軛算子,^(/)為各麥克風 通道的信號延遲-累加的權(quán)重,艮P:
<formula>formula see original document page 9</formula>(16) 則自適應(yīng)維納濾波器輸出的目標語音信號的估計值為
<formula>formula see original document page 9</formula>(17)
由上述公式可見,后置自適應(yīng)維納濾波方法不受噪聲源的個數(shù)限制。但該
方法由于是基于假設(shè)條件2),即陣列中不同麥克風接收到的噪聲信號是不相關(guān) 的,而實際上,各麥克風陣列各通道接收到的噪聲信號的互相關(guān)函數(shù)只有在高 頻情況下才能被基本忽略,在低頻情況下,各通道接收到的噪聲信號的互相關(guān) 較為明顯,并不能被忽略,因而該方法與固定波束形成算法一樣,對于信號的 高頻部分增強效果較好,低頻部分增強效果較差。
可見,譜減法和后置濾波法各有優(yōu)劣,單獨采用一種方法無法達到理想的 語音增強效果,需要一種對于低頻和高頻語音信號都適用的算法進行處理。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決目前在多通道語音增強技術(shù)中均勻陣列對寬頻帶 的語音信號的頻率響應(yīng)性能不一致的問題,且傳統(tǒng)的語音增強方法也存在高頻 段和低頻段難以兼顧的問題。
為了解決上述技術(shù)問題,本發(fā)明提出了一種基于嵌套式子陣列的后置濾波 與譜減法相結(jié)合的語音增強方法。本發(fā)明所采取的技術(shù)方案是
第一步設(shè)計兩個均勻子陣列嵌套的麥克風陣列用于多通道信號的采集;
所述基于嵌套子陣列的多通道語音信號至少包括五個通道語音信號;第二步檢測語音信號的起始、結(jié)束端點,估計純噪聲信號的功率譜; 第三步估計語音信號在各通道的時間延遲;
第四步對各通道語音信號進行時延補償,將各通道語音信號在時域?qū)R; 第五步用傅里葉變換將各通道信號從時域轉(zhuǎn)換到頻域;
第六步估計純凈語音信號的自功率譜和帶噪語音信號的自功率譜,得到 維納濾波器的頻響函數(shù);
第七步對于兩子陣列的信號,分別用固定波束形成器將各子陣列的每個 通道的信號進行波束形成;
第八步分別將兩個子陣列的輸出波束進行低通濾波和高通濾波;
第九步對濾波后的兩子陣列的輸出波束進行譜減法或后置維納濾波法處 理,實現(xiàn)語音增強;
第十步將兩路增強后的波束交疊相加,進行反傅里葉變換,得到時域里 增強后的語音信號。
本發(fā)明具有如下優(yōu)點
1) 嵌套子陣列對寬頻帶的空間語音信號具有較好的頻率響應(yīng);
2) 陣列結(jié)構(gòu)簡單,利用公共的陣元減少了陣列的尺寸,算法的運算復(fù)雜度 較小;
3) 采用多通道后置濾波語音增強算法僅對目標語音信號的高頻部分進行 增強處理,避免了后置濾波語音增強算法對低頻段的語音信號增強性能 下降的問題;
4) 算法易于實現(xiàn),計算量小,適用于PC機平臺和嵌入式平臺。
圖1.典型的語音增強方法步驟圖
圖2.幅度譜減法語音增強方法流程圖
圖3.延遲-累加波束形成器流程圖
圖4.后置自適應(yīng)維納濾波語音增強方法流程圖
圖5.基于嵌套子陣列的后置濾波與譜減法聯(lián)合語音增強方法流程圖
圖6.嵌套子陣列設(shè)計圖
具體實施例方式
基于嵌套子陣列的后置濾波與譜減法聯(lián)合語音增強方法的流程框圖如圖5 所示,其中由多通道信號采集、時延補償、波束形成、后置自適應(yīng)濾波四部分 組成。下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細描述。本實施案例 并不限制本發(fā)明,對于本技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明原理的前 提下,還可以做出若干改進和變化,這些改進和變化也應(yīng)視為本發(fā)明的保護范 圍之內(nèi)。
本實施安全運行在普通PC機上,具體配置如下
CPU: Celeron 2.80GHz 內(nèi)存1GHz
操作系統(tǒng)Windows XP Professional Edition 運行環(huán)境MathWorks MATLAB R2006b
采用本發(fā)明的實施案例,針對室內(nèi)環(huán)境中的聲源特性及噪聲場特性,采用 散射噪聲場(Diffiise Noise Field)模型和嵌套子陣列(Harmonically Nested Subarrays, HNSA)模型,對實際環(huán)境中的多通道含噪語音信號進行建模。通過 由7個全指向性麥克風組成的兩個子陣列嵌套結(jié)構(gòu)的陣列采集空間中的語音信 號,每個子陣列包含5個陣元,則M-5,用x;,["]和x二[n]分別表示小子陣列 (Small)和大子陣列(Large)的某一通道的信號,且/ = 1,...,5, 7 = 1,…,5。由 于嵌套性,其中部分麥克風通道共用
對于式(5)和式(6)所給出的信號模型,延時補償后,再經(jīng)過傅里葉變換,兩 個子陣列某一通道的頻域信號表達式-
<formula>formula see original document page 11</formula>(19)
<formula>formula see original document page 11</formula>(20) 其中,S(/)是純凈語音信號的傅里葉變換,^(/)和^(/)分別兩子陣列第Z通道和第y通道的噪聲的傅里葉變換,^是幀長<
對大小兩子陣列分別做累加波束形成
rs(/)=4i>s,(/) (21)
&(/)=會1>&(/) (22)
將波束形成輸出i;(/)和K(/)分別通過高通(HP) FIR濾波器和低通(LP) FIR濾波器,得到K(/)和將寬頻帶的語音信號分成兩個頻段分別用不同 的語音增強算法進行處理。
對于低頻信號,采用如圖4所示的譜減法進行去噪增強
A(/)H之'(/)卜"/) 。"
其中,&(/)是經(jīng)過譜減法去噪后的目標語音信號的估計值,"/)是采用語音 活動檢測方法在非語音段估計的噪聲信號的幅度平均值。
而對于高頻信號,采用如圖6和圖1所示的后置自適應(yīng)維納濾波法進行語 音增強。對于子陣列中任意兩通道/和,z、y,帶噪語音信號的自功率譜密度 和互功率譜密度分別為
①早,C/V^(/) + (D卿(/) (24)
c^," (/) = £{X(/)Z;(/)} = ^(/) + O邵(/) + Os". (/) + (/) ( 25)
基于前述后置自適應(yīng)維納濾波法的三個假設(shè)條件,各通道的噪聲信號互不 相關(guān),且與聲源信號也不相關(guān),貝U:
0怖(/)=氣,(/) = 0柳,(/) = 0
(26)
且每個麥克風接收到的噪聲信號的功率譜密度相同,定義為:
0卿(/) = <1>,(/) = (1)"/)
則式(24)和式(")可改寫為
。早,(/) = ^(/) + ^(/)
12
(27)
(28)其中
6早,(/) = :|^,(/)|
2 M-l A/
(29)
(30)
(31)
考慮實際情況中的信號短時平穩(wěn)性,F(xiàn)FT的長度L是有限的,因而式(25) 中的后三項不可能為0,而是趨近于0的一個復(fù)數(shù)。由于信號功率譜OJ/)只可 能是正實數(shù),所以得到
",) ,te^S曹,(32)
此外,各通道的信號是通過一種迭代平滑的方式處理得到的。對于某一頻 率點t,定義一個長度為2戶+ l的平滑區(qū)間[A:-/7,A: + / ],貝U
2/7 + l,=_p
(33)
(34)
(35)
綜合考慮精度和計算量之間的關(guān)系,通常取p-l或2。
則通過高通濾波器后的輸出信號《(/)再通過自適應(yīng)維納濾波器,得到增強
后的高頻段的語音信號
式-(/) = &'(/) (36)
將高、低兩頻率段的語音信號進行交疊相加傅里葉綜合(Fourier Synthesis Overlap-Add),轉(zhuǎn)換成時域內(nèi)增強后的語音信號5["]。
權(quán)利要求
1、一種采用嵌套子陣列的后置濾波譜減法聯(lián)合的語音增強方法,用于室內(nèi)環(huán)境的多通道語音信號增強,其特征在于,所述方法包括1)設(shè)計兩個均勻子陣列嵌套的麥克風陣列用于多通道信號的采集;2)檢測語音信號的起始、結(jié)束端點,估計純噪聲信號的功率譜;3)估計語音信號在各通道的時間延遲;4)對各通道語音信號進行時延補償,將各通道語音信號在時域?qū)R;5)用傅里葉變換將各通道信號從時域轉(zhuǎn)換到頻域;6)估計純凈語音信號的自功率譜和帶噪語音信號的自功率譜,得到維納濾波器的頻響函數(shù);7)對于兩子陣列的信號,分別用固定波束形成器將各子陣列的每個通道的信號進行波束形成;8)分別將兩個子陣列的輸出波束進行低通濾波和高通濾波;9)對濾波后的兩子陣列的輸出波束進行譜減法或后置維納濾波法處理,實現(xiàn)語音增強;10)將兩路增強后的波束交疊相加,進行反傅里葉變換,得到時域里增強后的語音信號。
2、 根據(jù)權(quán)利要求1所述的嵌套子陣列的麥克風陣列結(jié)構(gòu),其特征在于,步驟 (l)所述的,每個子陣列是都是間距固定的均勻線性陣列,且大子陣列的間 距是小子陣列間距的2倍,部分陣元可共用。
3、 根據(jù)權(quán)利要求1或2所述的將兩子陣列波束形成后的語音信號進行低通濾 波或高通濾波,其特征在于,步驟(8)所述的,對大子陣列各通道波束形成 后的語音信號進行低通濾波,對小子陣列各通道波束形成后的語音信號進 行高通濾波,使得語音信號在整個頻率帶上都有較好的頻率響應(yīng)。
4、 根據(jù)權(quán)利要求1或3所述的分別用譜減法和后置維納濾波器對兩子陣列的 輸出波束進行增強處理,其特征在于,步驟(9)所述的,用功率譜減法對低 通濾波后的輸出波束進行譜相減處理,實現(xiàn)語音信號低頻部分的增強;用 所述的后置維納濾波器對高通濾波后的輸出波束進行濾波,實現(xiàn)語音信號 高頻部分的增強。
5、 根據(jù)權(quán)利要求1或2所述的采用嵌套子陣列的后置濾波譜減法聯(lián)合語音增強方法,其特征在于,所述多通道語音信號至少包括五個通道語音信號。
全文摘要
本發(fā)明公開了一種基于嵌套子陣列的自適應(yīng)后置濾波與譜減法聯(lián)合的語音增強方法,適用于室內(nèi)環(huán)境,包括車載環(huán)境的多通道語音信號的增強。由于本發(fā)明考慮到了語音信號的寬帶非平穩(wěn)特性,基于麥克風陣列多通道語音增強方法對于語音信號的頻率響應(yīng)不一致,且在實際噪聲場環(huán)境中,各通道噪聲之間的相關(guān)性等問題,通過由間距不等的子陣列嵌套構(gòu)成的麥克風陣列采集語音信號,并將各子陣列波束形成后的語音信號分成高頻段和低頻段,采用不同的語音增強算法進行處理,優(yōu)勢互補,提高了語音增強的效果。
文檔編號G10L21/02GK101447190SQ200810068000
公開日2009年6月3日 申請日期2008年6月25日 優(yōu)先權(quán)日2008年6月25日
發(fā)明者波 萬, 璟 趙, 鄒月嫻 申請人:北京大學(xué)深圳研究生院