專利名稱:基于聽覺感知特性的信號子空間麥克風(fēng)陣列語音增強方法
技術(shù)領(lǐng)域:
本發(fā)明涉及麥克風(fēng)陣列的信號子空間方法、人耳聽覺掩蔽效應(yīng)及后濾波器的設(shè)計。
背景技術(shù):
麥克風(fēng)陣列語音增強方法近年來得到了廣泛的研究。其中,信號子空間算法具有出色的消除加性寬帶噪聲的能力。信號子空間算法將帶噪信號空間分解為信號子空間(包含目標語音信號和噪聲)和噪聲子空間(只包含噪聲),并在信號子空間中估計出目標語音信號。信號子空間算法的核心在于合理地估計線性濾波器,其要點之一是準確地估計信號子空間維度和噪聲功率譜。對信號子空間語音增強方法的研究已證明該方法具有很好的語音增強性能。盡管信號子空間算法性能優(yōu)越,但想要完全消除噪聲,依然具有相當?shù)碾y度。通常,信號子空間算法消噪以后,增強語音中依然會存在一定的殘余噪聲,這些噪聲降低了語音的感知質(zhì)量。為了盡量減少殘余噪聲對目標語音信號的影響,人們在大量的實驗基礎(chǔ)上發(fā)現(xiàn)人耳的聽覺掩蔽效應(yīng)能夠用來達到這一目標。人耳的聽覺掩蔽效應(yīng)是指,在通常情況下,目標語音信號信號是強信號,而背景噪聲相對較弱,這樣人耳聽覺系統(tǒng)會根據(jù)具體的目標語音信號信號確定頻域上的聽覺掩蔽閾值,如果使濾波后的殘余噪聲限制在人耳的聽覺掩蔽閾值之下,那么該噪聲就不會被人耳感知。經(jīng)過多年來的研究,這一聽覺效應(yīng)被有效地應(yīng)用在了語音增強方法中。只要將增強后的語音中的殘余噪聲的量限制在一定的范圍內(nèi),就能使其在目標語音信號的掩蔽下不被人耳感知,從而實現(xiàn)對目標語音信號的增強。
信號子空間算法的原理在于通過特征值分解的方法將帶噪信號空間分解成兩個子空間信號子空間(包含目標語音信號和噪聲)和噪聲子空間(只包含噪聲),然后在信號子空間上恢復(fù)出目標語音信號。這樣做的原因在于語音信號能夠被建模成一些基向量的線性組合。通常,純凈語音信號功率譜矩陣的一些特征值非常接近于零,這表明純凈語音信號的能量只分布在某些基向量上。信號子空間算法的噪聲假設(shè)為白噪聲(有色噪聲可通過預(yù)白化的方法予以白化),白噪聲的所有特征值都是正的,噪聲能量分布在帶噪信號的所有基向量上。所以,由帶噪信號的基所組成的空間可分解成一個信號子空間(包含目標語音信號和噪聲)和一個噪聲子空間(只包含噪聲)。相應(yīng)地,在信號子空間上就可以恢復(fù)出目標語音信號,而噪聲子空間由于不包含目標語音信號則可以不用考慮。
假設(shè)由L個麥克風(fēng)組成的陣列上接收到的帶噪語音信號向量的頻域表示為X =[Xp…,XJH。由陣列輸入信號的加權(quán)相加得到的增強后的語音信號的頻域表示如下
<formula>formula see original document page 4</formula>
其中,w二 [Wl,…,Wl]h是系數(shù)向量,S是目標語音信號,N是噪聲,[']h為共軛轉(zhuǎn)置算子。 設(shè)Rx為帶噪信號的功率譜矩陣,Rs為目標語音信號的功率譜矩陣,RN為噪聲的功率譜矩陣。在目標語音信號與噪聲信號不相關(guān)的假設(shè)下,有
<formula>formula see original document page 4</formula>
《 00 0_
其中,^為QXQ的滿秩矩陣。G可表述如下
G = As(As+crX)-1
其中,Aw 二diag(h,…,為L階拉格朗日乘子矩陣.G為L階對角矩陣,對角線元素gi可表述如下
(7)
(8) g,= <
、
if f = g +
0,
其中,Pi為第i個拉格朗日乘子,
工
(9)
{1,…,U是下標。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的問題,本發(fā)明的目的在于對線性濾波器進行估計,利用人耳的聽覺掩蔽效應(yīng)設(shè)計一種新的基于聽覺感知特性的線性濾波器,由此,本發(fā)明提供一種基于聽覺感知特性的信號子空間麥克風(fēng)陣列語音增強方法。 為達成所述目的,本發(fā)明提供一種基于聽覺感知特性的信號子空間麥克風(fēng)陣列語音增強方法,該方法的具體步驟如下 步驟a:通過麥克風(fēng)陣列采集帶噪聲的多路語音信號,把各路帶噪語音信號進行時域?qū)R,使用短時離散傅里葉變換將對齊后的各路信號表示成復(fù)數(shù)值的頻率信號形式,計算麥克風(fēng)陣列多路信號的功率譜矩陣并對此功率譜矩陣進行特征值分解,得到特征值矩陣和特征向量矩陣; 步驟b :對功率譜矩陣的特征值矩陣進行假設(shè)檢驗,確定信號子空間維度Q ; 步驟C :在噪聲子空間上,利用噪聲子空間中的噪聲功率譜要小于信號子空間中
的帶噪信號功率譜的特點,通過條件概率求期望的方法估計出噪聲功率譜; 步驟d:利用噪聲子空間維度P和噪聲功率譜估計,根據(jù)人耳聽覺掩蔽效應(yīng),基于
信號子空間估計得到各頻點的聽覺掩蔽閾值,噪聲子空間維度表示為P = L-Q,L是麥克風(fēng)
陣列中麥克風(fēng)的個數(shù); 步驟e :根據(jù)噪聲功率譜、聽覺掩蔽閾值,結(jié)合拉格朗日乘子估計線性濾波器,實
現(xiàn)基于聽覺感知特性的信號子空間麥克風(fēng)陣列語音增強。 其中,所述對功率譜矩陣進行特征值分解,包括 設(shè)定帶噪語音信號X為X = S+N, 那么,功率譜矩陣Rx表示為 & = "AX"H = C/(AS + c4/)C/H 其中,S為目標語音信號,N為噪聲,Rx為帶噪語音信號功率譜矩陣,Ax為特征值降序排列的帶噪語音信號功率譜特征值矩陣,As為特征值降序排列的目標語音信號功率譜特征值矩陣,U為特征向量矩陣,c4為白噪聲功率,I為L階單位陣,[,]H為共軛轉(zhuǎn)置算子。 其中,所述假設(shè)檢驗是在原假設(shè)H。特征值矩陣Ax的后L-Q個特征值全部相等成
立的前提下,取最小的信號子空間維度Q值。
其中,判斷原假設(shè)是否能夠成立的步驟包括如下 原假設(shè)H。特征值矩陣A x的后L-Q個特征值全部相等; 對立假設(shè)& :特征值矩陣Ax的后L-Q個特征值中至少有兩個特征值不同; 信號子空間維度定義為 arg max (0卜2 log [F(i/0 )/F(/^ )] 2 ze2 a) 式中,-21og[F(H。)/F(H》]近似的服從自由度為9 = L_Q_1的卡方分布,a為置信度,F(xiàn)(H。)禾卩F(H》是特征值的分布函數(shù);即取滿足-210§^(//。)/7^/1)]2;^的最大L-Q值為噪聲子空間維度P,argmax(O是尋找具有最大評分的參數(shù)值的算子,Z"為e自由度的卡方分布置信度為a時的接受域下界。 其中,所述特征值的分布函數(shù)F(H。)和F(H》采用高斯模型。 其中,對于由噪聲子空間維度的估計錯誤產(chǎn)生的噪聲功率譜估計的誤差,使用一個補償因子進行補償;補償因子為噪聲功率譜估計的期望值與噪聲功率與估計的比值。將噪聲功率譜估計除以補償因子,得到修正后的噪聲功率譜估計。
其中,所述估計聽覺掩蔽閾值的步驟包括 步驟ea :將人耳聽覺頻率范圍0-15500Hz劃分為若干個關(guān)鍵子頻帶;
步驟eb :分別計算每個子頻帶中的聽覺掩蔽閾值。 其中,所述計算每個子頻帶中的聽覺掩蔽閾值是計算各子頻帶上各頻點的能量,計算人耳基膜對于各頻段聲音的傳播系數(shù),然后將各子頻帶上各頻點的能量和各頻段聲音的傳播系數(shù)兩者相乘得到人耳基膜上的激勵能量值。再根據(jù)人耳基膜上的激勵能量值與聽覺掩蔽閾值的函數(shù)關(guān)系計算得到掩蔽閾值。 其中,所述結(jié)合拉格朗日乘子估計線性濾波器的步驟如下 步驟el :根據(jù)頻域到特征值域的變換關(guān)系,把聽覺掩蔽閾值映射到特征值域上;
步驟e2 :估計拉格朗日乘子,以使線性濾波后得到的殘余噪聲的功率譜特征值小于特征值域上的聽覺掩蔽閾值; 步驟e3:進一步設(shè)計出極小化語音畸變的一個線性濾波器H,使得增強語音中的殘余噪聲小于人耳的聽覺掩蔽閾值,從而消除殘余噪聲影響,并使目標語音信號的畸變最小化。 本發(fā)明的有益效果傳統(tǒng)的信號子空間方法確定子空間維度的方法通常是設(shè)一個固定閾值,信號子空間的維度就是大于該閾值的特征值的個數(shù)。這種確定子空間維度的方法在實際應(yīng)用中效果較差,因為閾值的設(shè)定具有較大的人為性,而且通常不能隨著信號的改變而自適應(yīng)地調(diào)整。這導(dǎo)致了子空間維度估計常出現(xiàn)較大誤差,降低了信號子空間方法的性能。針對這一情況,本發(fā)明采用了一種通過假設(shè)檢驗來確定噪聲子空間維度的方法,極大地減小了子空間維度估計的誤差。為準確地估計噪聲功率譜,考慮到噪聲子空間中的噪聲功率譜要小于信號子空間中的帶噪信號功率譜的特點,本發(fā)明用條件概率來估計噪聲功
率譜。本發(fā)明利用基于信號子空間估計聽覺掩蔽閾值的方法。將噪聲限制在該閾值以下,就可以將噪聲掩蔽掉,從而實現(xiàn)對目標語音信號信號的增強。本發(fā)明根據(jù)人耳聽覺感知特性設(shè)計線性濾波器,能夠在特征值域上應(yīng)用聽覺掩蔽效應(yīng),需要將聽覺掩蔽閾值Ctto映射到特征值域上。
本發(fā)明進一步的特色和優(yōu)點將參考說明性的附圖在下面描述。 圖1示出一個基于聽覺感知特性的信號子空間麥克風(fēng)陣列語音增強方法的示例流程圖; 圖2是一個通過假設(shè)檢驗來確定噪聲子空間維度的流程圖; 圖3是一個在噪聲子空間上通過條件概率的方法估計出噪聲功率譜的流程圖; 圖4是一個計算人耳聽覺掩蔽閾值的流程圖; 圖5是一個估計線性濾波器的流程圖。
具體實施例方式
應(yīng)當理解,不同示例以及附圖的下列詳細說明不是意在把本發(fā)明限制于特殊的說明性實施例;被描述的說明性實施例僅僅是例證本發(fā)明的各個步驟,其范圍由附加的權(quán)利要求來定義。 本發(fā)明利用人耳的聽覺掩蔽效應(yīng)設(shè)計了一種新的基于聽覺感知特性的線性濾波器,人耳的聽覺掩蔽效應(yīng)是指,在通常情況下,目標語音信號信號是強信號,而背景噪聲相對較弱,這樣人耳聽覺系統(tǒng)會根據(jù)具體的目標語音信號信號確定頻域上的聽覺掩蔽閾值,如果使濾波后的殘余噪聲限制在人耳的聽覺掩蔽閾值之下,那么該噪聲就不會被人耳感知,從而實現(xiàn)對帶噪語音信號的增強。 傳統(tǒng)的信號子空間方法確定子空間維度的方法通常是設(shè)一個固定閾值,信號子空
間的維度就是大于該閾值的特征值的個數(shù)。這種確定子空間維度的方法在實際應(yīng)用中效果
較差,因為閾值的設(shè)定具有較大的人為性,而且通常不能隨著信號的改變而自適應(yīng)地調(diào)整。
這導(dǎo)致了子空間維度估計常出現(xiàn)較大誤差,降低了信號子空間方法的性能。 針對這一情況,本發(fā)明步驟b)采用了一種通過假設(shè)檢驗來確定噪聲子空間維度
的方法,極大地減小了子空間維度估計的誤差。本發(fā)明的方法利用噪聲子空間本身的特點,
即白噪聲子空間上噪聲功率譜應(yīng)該相等。由于Ax中的特征值是降序排列的,先假設(shè)噪聲
子空間維度是P二 l,然后依次增加噪聲子空間的維度值,測試Ax中最后L-Q個特征值是
否相等,取符合相等條件的最大值為噪聲子空間的維度P,這樣就可以較為準確地估計出噪
聲子空間維度,進而得到信號子空間維度Q。 利用這一思想,本發(fā)明提出了采用條件假設(shè)來估計噪聲子空間維度的方法,提出原假設(shè)和對立假設(shè)如下 原假設(shè)H。特征值矩陣A x的后L-Q個特征值全部相等; 對立假設(shè)& :特征值矩陣Ax的后L-Q個特征值中至少有兩個特征值不同; 假設(shè)特征值服從高斯分布,則分布函數(shù)可表述如下
<formula>formula see original document page 8</formula>
其中,A^^diag(A;^,…,^》,tr[.]是求跡算子,i G {Q+1,…,U是特征值的 令A(yù)
口,i;、 ,、 =I + / , ,hi為、相對于^的偏差,,)<formula>formula see original document page 8</formula>
其中,i G {Q+l, ***,L}是特征值的下標。
h近似地服從均值為零,方差為2^2的高斯分布。所以,_21og [F (H。) /F (H》]近似地服從自由度為9 二L-Q-1的卡方分布。確定置信度a,取滿足-21og[F(/f。)/FC^)]2^,a的最大L-q值為噪聲子空間維度P,進而得到信號子空間維度q,其中,;^a為e自由度的卡 方分布置信度為a時的接受域下界。 在步驟c)中,提供了一種在噪聲子空間上通過條件概率估計出噪聲功率譜的方 法。為準確地估計噪聲功率譜,考慮到噪聲子空間中的噪聲功率譜要小于信號子空間中的 帶噪信號功率譜的特點,本發(fā)明用條件概率來估計噪聲功率譜。首先定義兩個重要參數(shù)
1
£ — 1 2其中,i g {q+i,…,u是特征值的下標。i;應(yīng)取小于r^的值,所以本發(fā)明用條
件概率給出噪聲功率譜估計如下
二五L義w l入w <、+w = =
-^血
1
(12)
1 —S 2;'
入
卜e 式中,f ( )是概率密度函數(shù),由于噪聲子空間維度的過估計或欠估計會導(dǎo)致噪聲 功率譜的估計誤差,這一誤差可以用一個補償因子來解決。 步驟d)提供了一種基于信號子空間估計聽覺掩蔽閾值的方法。將噪聲限制在該
閾值以下,就可以將噪聲掩蔽掉,從而實現(xiàn)對目標語音信號信號的增強。 人耳聽覺頻率范圍是0到15500Hz,覆蓋了24個關(guān)鍵子頻帶,需要在每個子頻帶中
計算聽覺掩蔽閾值。首先計算各子頻帶上各頻點的能量,再計算人耳基膜對于各頻段聲音
的傳播系數(shù),然后將各子頻帶上各頻點的能量和各頻段聲音的傳播系數(shù)兩者相乘得到人耳
基膜上的激勵能量值。最后,根據(jù)人耳基膜上的激勵能量值與聽覺掩蔽閾值的函數(shù)關(guān)系,再
進一步計算得到掩蔽閾值。 步驟e)提供了一種根據(jù)人耳聽覺感知特性設(shè)計線性濾波器的方法。為了能夠在 特征值域上應(yīng)用聽覺掩蔽效應(yīng),需要將聽覺掩蔽閾值Cthr映射到特征值域上。F. Jabloun和 B. Champagne在"Incorporating the HumanHearing Properties in the Signal Subspace Approach for SpeechEnhancement"("人耳聽覺特性在語音增強的信號子空間方法中的應(yīng) 用"),IEEE Trans. Speech Audio Process.Vol.il, No. 6, pp. 700-708, 2003中,根據(jù)頻域 到特征值域的變換關(guān)系,給出聽覺掩蔽閾值Cthr到特征值域上的映射如下被目標語音信號掩蔽掉'
0097
接下來,需要計算增強后語音中的殘余噪聲能量,以使其低于掩蔽能量值而被目
標語音信號掩蔽。殘余噪聲Xr可由帶噪輸入信號中的噪聲線性濾波后得到,即》-iiV。計
算殘余噪聲》的功率譜矩陣如下
,Z (14)
其中,I為L階單位陣,A》二As(As+c^Aj-'S/[As(A"(^A》—T為L階對角 其第i個對角元素為
0098, 0099: 0100:
0101: 0102: 0103:
矩陣,
0095'
0096
,咖
其中,e = [ e "
e。]H為特征值域的掩蔽能j
(13)
:,在掩蔽能量之下的噪聲將會
0104,
0105]
掩蔽能』
0106: 0107:
0108:
0109: oho:
o川■
-=
、義s, +〃'<5^-為掩蔽噪聲,應(yīng)使A》,. 《0/
值的下標??傻?br>
'e i為特征值域上第
《々
1/2
(15)
個掩蔽能量值,
(16)
{1,…,U是
考慮到應(yīng)使P i > O,本實施例取
1/2
if if
《2 01/2
》0 <0
(17)
(18)
0112,
0113: 0114:
音增強方法流程圖
o,
式中,i G {1,…,U是下標。
將(17)式代入到(9)式中,得到對角矩陣G的對角線元素gi的估計如下 __^_
l + max(cf /2_l,0)' 0,
式中,i G {1,…,U是下標。
將G代入到(7)式中,即可得到所需的線性濾波器H。
在圖1中給出一個應(yīng)用基于多統(tǒng)計模型和人耳聽覺特性的麥克風(fēng)陣列后濾波語 系統(tǒng)包括至少兩個麥克風(fēng)101的麥克風(fēng)陣列。麥克風(fēng)陣列的麥克風(fēng)可
if '、l,…,e if / = 2 + 1,---,工
能有不同的排列,特別地,麥克風(fēng)101被置于一排,其中每個麥克風(fēng)和相鄰近的麥克風(fēng)有預(yù) 定距離。例如,兩個麥克風(fēng)之間的距離可能大約是5厘米。對于不同的應(yīng)用環(huán)境和技術(shù)要 求,麥克風(fēng)陣列可能被安裝在適當?shù)奈恢谩?從麥克風(fēng)101采集的語音信號被送到信號處理單元102。在送往信號處理單元之前,語音信號可以經(jīng)過低通濾波器來預(yù)處理語音信號。 信號處理單元102對不同麥克風(fēng)輸采集的語音信號進行延遲補償以實現(xiàn)時域?qū)?齊。使用短時離散傅里葉變換將對齊后的各麥克風(fēng)信號表示成復(fù)數(shù)值的頻率信號形式,計 算麥克風(fēng)陣列輸入信號的功率譜矩陣并對此矩陣進行特征值分解,得到特征值矩陣和特征 向量矩陣。 在接下來的步驟103中,對功率譜矩陣的特征值矩陣Ay進行假設(shè)檢驗,確定信號 子空間維度。 接著,步驟104在噪聲子空間上,利用噪聲子空間中的噪聲功率譜要小于信號子
空間中的帶噪信號功率譜的特點,通過條件概率求期望的方法估計出噪聲功率譜。 步驟105利用步驟103得到的信號子空間維度和步驟104得到的噪聲功率譜估
計,根據(jù)人耳聽覺掩蔽效應(yīng),基于信號子空間估計得到各頻點的聽覺掩蔽閾值。 步驟106利用步驟104得到的噪聲功率譜估計和步驟105得到的聽覺掩蔽閾值,
結(jié)合拉格朗日乘子估計線性濾波器,實現(xiàn)基于聽覺感知特性的信號子空間麥克風(fēng)陣列語音增強。 在圖2,說明了一個確定信號子空間維度的方法的流程,該方法對應(yīng)于圖1中的步 驟103。 在該方法之前,經(jīng)過步驟101和步驟102,麥克風(fēng)陣列采集的語音信號已經(jīng)通過時 域?qū)R,短時傅里葉變換,計算信號功率譜并對此矩陣進行特征值分解,得到特征值矩陣和 特征向量矩陣。由(4)式可知,帶噪信號功率譜特征值矩陣被分解為信號功率譜特征值與 噪聲功率譜特征值的和,Q是信號子空間的維度。
步驟201,初始化Q,令其為L-1,即使P = 1。 接下來,步驟202由(11)式更新-21og[F(H。)/F(H》]的計算結(jié)果。
由于-21og[F(H。)/F(H》]近似地服從自由度為9 = L-Q-1的卡方分布。步驟203 中,預(yù)先確定置信度a,判斷-21og[F(H。)/F(H》]是否大于;^ 。特別地,當條件滿足時,進 行步驟204,Q完成一次自減運算;否則進行步驟205。 Q自減運算的目的是為了逐步增大噪 聲子空間的維度P,自減完成后再回到步驟202。 步驟205實際上是找出了滿足條件-2bg[F(i/。)/F(^)] 2《J勺最大L-Q值為噪 聲子空間維度P,進而信號子空間維度Q定義為ai:g,x(0 |-2bg[F(/f。)/F諷)]2《a) (19)
式中,argmax( )是尋找具有最大評分的參數(shù)值的算子。 在圖3中,說明了一個在噪聲子空間上通過條件概率的方法估計出噪聲功率譜的 流程圖。該方法對應(yīng)于圖1中的步驟104。 為準確地估計噪聲功率譜,考慮到噪聲子空間中的噪聲功率譜要小于信號子空間 中的帶噪信號功率譜的特點,利用步驟205得到的信號子空間維度Q,步驟301計算兩個重
要參數(shù)^ =^7^ S 、和lw =7^2>x , i G {1,…,L}是下標。 由于^^&^ ,步驟302利用條件概率估計噪聲功率譜,在此重寫(12)式
1-3
—V義W
=-
1-,7
(20) 噪聲子空間維度的過估計或欠估計會導(dǎo)致噪聲功率譜的估計誤差,這一誤差可以 用一個補償因子來解決。步驟303計算補償因子B(Q)。 糊=
(21)
其中,^^為預(yù)估噪聲功率譜,可根據(jù)VAD方法得到。
步驟304利用補償因子完成對噪聲功率譜估計的校正,如下
1
卿)
-cr;
(22) 在圖4中,說明了一種計算人耳聽覺掩蔽閾值的方法的流程圖。該方法對應(yīng)于圖 1中的步驟105。為了將信號中的噪聲掩蔽掉,從而實現(xiàn)對目標語音信號信號的增強,需要 將噪聲限制在該閾值以下。 估計目標語音信號的強度需要用到信號子空間的基向量,所以根據(jù)步驟205得到 的信號子空間維度,將特征向量矩陣U分解為兩個子矩陣仏和仏,其中,仏G C^^為信號 子空間的基,^ G C"a—Q)為噪聲子空間的基。 人耳聽覺頻率范圍是O到15500Hz,覆蓋了若干個關(guān)鍵子頻帶,步驟401把其分成 了24個子頻帶。需要在每個子頻帶中計算聽覺掩蔽閾值。 E(j,b)表示的是第j個子頻帶內(nèi)第b個頻點上的能量,可根據(jù)信號子空間特征值 和特征向量計算出來。在步驟402中,計算了各頻點的能量
。2 2、 = mean — (23) 其中,、-c^為目標語音信號功率譜矩陣的特征值估計,仏,i為信號子空間 的第i個基,iG {1,…,Q1是下標,mean(O為取均值算子。 SF(j)是表達第j個子頻帶上人耳基膜傳播特性的函數(shù),j G {1, ,24}。 在步驟403中,計算每個子頻帶的傳播函數(shù)
^ {1,…,24H24)
SF(力=15,81 + 7.50. + 0.474) -17.50 + (_/ + 0.474)2, j
接下來,步驟404計算表征人耳基膜上能量的激勵能: C(j,b) = SF(j)*E(j,b), j G {1, ...,24} (25) 步驟405,計算聽覺掩蔽閾值
iogl0|caw|-
10
百
(26)
其中,O(j)是偏移量,j G {1, ,24}表示第j個子頻帶。
在圖5中,說明了一個估計線性濾波器的流程圖。該方法對應(yīng)于圖1中的步驟106。 為了能夠在特征值域上應(yīng)用聽覺掩蔽效應(yīng),需要將聽覺掩蔽閾值Ctto映射到特征
12值域上。步驟501根據(jù)頻域到特征值域的變換關(guān)系,由(13)式計算特征值域上的聽覺掩蔽
閾值e = [^,…,%]H。 接下來,步驟502利用(18)式計算得到對角矩陣G的對角線元素gi的估計, i G {1,…,U是對角線元素的下標。 最終,步驟503將G矩陣代入(7)式中,即可得到所需的線性濾波器H。 根據(jù)本說明書,本發(fā)明進一步的修改和變化對于所述領(lǐng)域的技術(shù)人員是顯而易見
的。因此,本說明將被視為說明性的并且其目的是向所屬領(lǐng)域技術(shù)人員講授用于執(zhí)行本發(fā)
明的一般方法。應(yīng)當理解,本說明書示出和描述的本發(fā)明的形式就被看作是當前的優(yōu)選實施例。
權(quán)利要求
一種基于聽覺感知特性的信號子空間麥克風(fēng)陣列語音增強方法,包括下列步驟步驟a通過麥克風(fēng)陣列采集帶噪聲的多路語音信號,把各路帶噪語音信號進行時域?qū)R,使用短時離散傅里葉變換將對齊后的各路信號表示成復(fù)數(shù)值的頻率信號形式,計算麥克風(fēng)陣列多路信號的功率譜矩陣并對此功率譜矩陣進行特征值分解,得到特征值矩陣和特征向量矩陣;步驟b對功率譜矩陣的特征值矩陣進行假設(shè)檢驗,確定信號子空間維度Q;步驟c在噪聲子空間上,利用噪聲子空間中的噪聲功率譜要小于信號子空間中的帶噪信號功率譜的特點,通過條件概率求期望的方法估計出噪聲功率譜;步驟d利用噪聲子空間維度P和噪聲功率譜估計,根據(jù)人耳聽覺掩蔽效應(yīng),基于信號子空間估計得到各頻點的聽覺掩蔽閾值,噪聲子空間維度表示為P=L-Q,L是麥克風(fēng)陣列中麥克風(fēng)的個數(shù);步驟e根據(jù)噪聲功率譜、聽覺掩蔽閾值,結(jié)合拉格朗日乘子估計線性濾波器,實現(xiàn)基于聽覺感知特性的信號子空間麥克風(fēng)陣列語音增強。
2. 如權(quán)利要求1所述的信號子空間麥克風(fēng)陣列語音增強方法,其特征在于,所述對功率譜矩陣進行特征值分解,包括設(shè)定帶噪語音信號X為X = S+N,那么,功率譜矩陣Rx表示為其中,S為目標語音信號,N為噪聲,Rx為帶噪語音信號功率譜矩陣,Ax為特征值降序排列的帶噪語音信號功率譜特征值矩陣,As為特征值降序排列的目標語音信號功率譜特征值矩陣,U為特征向量矩陣,c4為白噪聲功率,I為L階單位陣,[ ]H為共軛轉(zhuǎn)置算子。
3. 如權(quán)利要求1所述的信號子空間麥克風(fēng)陣列語音增強方法,其特征在于,所述假設(shè)檢驗是在原假設(shè)H。特征值矩陣Ax的后L-Q個特征值全部相等成立的前提下,取最小的信號子空間維度Q值。
4. 如權(quán)利要求3所述的信號子空間麥克風(fēng)陣列語音增強方法,其特征在于,判斷原假設(shè)是否能夠成立的步驟包括如下原假設(shè)H。特征值矩陣Ax的后L-Q個特征值全部相等;對立假設(shè)^ :特征值矩陣Ax的后L-Q個特征值中至少有兩個特征值不同;信號子空間維度定義為arg max (0 I-2 log [F(仏)/F(巧)]2 Ze2 a)式中,-21og[F(H。)/F(H》]近似的服從自由度為e = L-Q-l的卡方分布,a為置信度,F(xiàn)(H。)禾PF(H》是特征值的分布函數(shù);即取滿足-21og[F(仏)/F(/Z);^《a的最大L-Q值為噪聲子空間維度P,argmax。)是尋找具有最大評分的參數(shù)值的算子,%二為9自由度的卡方分布置信度為a時的接受域下界。
5. 如權(quán)利要求4所述的信號子空間麥克風(fēng)陣列語音增強方法,其特征在于,所述特征值的分布函數(shù)F(H。)和F(H》采用高斯模型。
6. 如權(quán)利要求1所述的信號子空間麥克風(fēng)陣列語音增強方法,其特征在于,對于由噪聲子空間維度的估計錯誤產(chǎn)生的噪聲功率譜估計的誤差,使用一個補償因子進行補償;補償因子為噪聲功率譜估計的期望值與噪聲功率與估計的比值;將噪聲功率譜估計除以補償因子,得到修正后的噪聲功率譜估計。
7. 如權(quán)利要求1所述的信號子空間麥克風(fēng)陣列語音增強方法,其特征在于,所述估計聽覺掩蔽閾值的步驟包括步驟ea :將人耳聽覺頻率范圍0-15500Hz劃分為若干個關(guān)鍵子頻帶;步驟eb :分別計算每個子頻帶中的聽覺掩蔽閾值。
8. 如權(quán)利要求7所述的信號子空間麥克風(fēng)陣列語音增強方法,其特征在于,所述計算每個子頻帶中的聽覺掩蔽閾值是計算各子頻帶上各頻點的能量,計算人耳基膜對于各頻段聲音的傳播系數(shù),然后將各子頻帶上各頻點的能量和各頻段聲音的傳播系數(shù)兩者相乘得到人耳基膜上的激勵能量值;再根據(jù)人耳基膜上的激勵能量值與聽覺掩蔽閾值的函數(shù)關(guān)系計算得到掩蔽閾值。
9. 如權(quán)利要求1所述的信號子空間麥克風(fēng)陣列語音增強方法,其特征在于,所述結(jié)合拉格朗日乘子估計線性濾波器的步驟如下步驟el :根據(jù)頻域到特征值域的變換關(guān)系,把聽覺掩蔽閾值映射到特征值域上;步驟e2 :估計拉格朗日乘子,以使線性濾波后得到的殘余噪聲的功率譜特征值小于特征值域上的聽覺掩蔽閾值;步驟e3 :進一步設(shè)計出極小化語音畸變的一個線性濾波器H,使得增強語音中的殘余噪聲小于人耳的聽覺掩蔽閾值,從而消除殘余噪聲影響,并使目標語音信號的畸變最小化。
全文摘要
本發(fā)明公開了一種基于聽覺感知特性的信號子空間麥克風(fēng)陣列語音增強方法。本發(fā)明在改進傳統(tǒng)的麥克風(fēng)陣列信號子空間語音增強方法的基礎(chǔ)上,充分結(jié)合了人耳的聽覺掩蔽效應(yīng)。信號子空間的算法核心在于合理地估計線性濾波器,其要點包括準確的估計信號子空間維度和噪聲功率譜,合理地估計拉格朗日乘子。對此,本發(fā)明提出了一套行之有效的解決方案。該方案包括下列步驟對麥克風(fēng)陣列采集到的信號進行時域?qū)R,短時傅里葉變換和功率譜的特征值分解;通過假設(shè)檢驗來確定噪聲子空間維度;在噪聲子空間上,通過條件概率的方法估計出噪聲功率譜;基于信號子空間估計聽覺掩蔽閾值;根據(jù)人耳聽覺感知特性,結(jié)合拉格朗日乘子估計線性濾波器。
文檔編號G10L21/02GK101777349SQ200910249800
公開日2010年7月14日 申請日期2009年12月8日 優(yōu)先權(quán)日2009年12月8日
發(fā)明者劉文舉, 李超, 程寧 申請人:中國科學(xué)院自動化研究所