本發(fā)明涉及語(yǔ)音信號(hào)處理技術(shù)領(lǐng)域,具體地,涉及一種基于聲學(xué)矢量傳感器高階波束形成技術(shù)增強(qiáng)目標(biāo)語(yǔ)音的裝置及其方法。
背景技術(shù):
在實(shí)際環(huán)境中,麥克風(fēng)在拾取語(yǔ)音信號(hào)時(shí),不可避免地會(huì)受到來(lái)自周?chē)h(huán)境噪聲、傳輸媒介噪聲、通信設(shè)備內(nèi)部電噪聲、房間混響以及其它說(shuō)話(huà)人的話(huà)音干擾,因此拾取語(yǔ)音的質(zhì)量受到影響。語(yǔ)音增強(qiáng)技術(shù)是語(yǔ)音處理領(lǐng)域的核心技術(shù)之一,能夠?qū)崿F(xiàn)從帶噪語(yǔ)音中提取干凈的目標(biāo)語(yǔ)音,以改善接收端語(yǔ)音質(zhì)量,提高語(yǔ)音的清晰度、可懂度和舒適度,使人易于接受或提高語(yǔ)音處理系統(tǒng)的性能。
基于單個(gè)麥克風(fēng)的語(yǔ)音增強(qiáng)技術(shù)的研究已經(jīng)有四十多年的歷史。但是實(shí)際情況中,噪聲總是來(lái)自于四面八方,且其與語(yǔ)音信號(hào)在時(shí)間和頻譜上常常是相互交疊的,再加上回波和混響的影響,利用單麥克風(fēng)增強(qiáng)感興趣的聲音并有效抑制背景噪聲和方向性強(qiáng)干擾是相當(dāng)困難的。引入麥克風(fēng)陣列技術(shù)后,語(yǔ)音增強(qiáng)技術(shù)取得了很大突破。相比傳統(tǒng)的單一麥克風(fēng)語(yǔ)音增強(qiáng)技術(shù),麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)可以利用語(yǔ)音信號(hào)的空間信息來(lái)形成波束,實(shí)現(xiàn)對(duì)干擾噪聲的消除,能夠保證在語(yǔ)音信息損失最小的條件下實(shí)現(xiàn)噪聲抑制(j.benesty,s.makino,andj.e.chen,speechenhancement.berlin,.germany:springer,2005.)。因此近十多年來(lái),麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)已成為了語(yǔ)音增強(qiáng)技術(shù)的研究熱點(diǎn)和關(guān)鍵技術(shù)。然而,目前大多數(shù)的麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)的性能都是正比于陣列所用麥克風(fēng)數(shù)目的,因此該種技術(shù)的研究往往采用較多麥克風(fēng)的陣列,有的麥克風(fēng)陣列甚至使用數(shù)百個(gè)麥克風(fēng),而較多的麥克風(fēng)數(shù)目造成麥克風(fēng)陣列的體積也較大,最典型的案例是mit搭建的用于噪聲消除和語(yǔ)音增強(qiáng)的麥克風(fēng)陣列使用了1020個(gè)麥克風(fēng),其陣列孔徑有幾米長(zhǎng)。因此麥克風(fēng)陣列技術(shù)噪聲抑制性能雖好,但由于其設(shè)備體積大,算法運(yùn)算復(fù)雜度高,故在實(shí)際應(yīng)用時(shí)受到了許多限制。
聲學(xué)矢量傳感器(acousticvectorsensor,avs)作為音頻信號(hào)采集器。與常用的聲壓麥克風(fēng)相比,avs在結(jié)構(gòu)上具有其特殊性:一顆avs由2到3個(gè)正交放置的壓力梯度傳感器和1個(gè)全向壓力傳感器構(gòu)成(a.nehoraiande.paldi,"vector-sensorarrayprocessingforelectromagneticsourcelocalization,"signalprocessing,ieeetransactionson,vol.42,pp.376-398,1994.),它的空間結(jié)構(gòu)緊湊,傳感器近似同位放置,各個(gè)傳感器接收到的音頻信號(hào)無(wú)時(shí)延差別。對(duì)于理想的avs,各通道接收信號(hào)存在三角函數(shù)關(guān)系,因此,僅單顆avs就能夠?qū)崿F(xiàn)單個(gè)或者多個(gè)的空間聲源到達(dá)方向的估計(jì)。隨著移動(dòng)互聯(lián)網(wǎng)和智能機(jī)器人等應(yīng)用需求的不斷增長(zhǎng),具有更小體積的avs,必將使之在眾多場(chǎng)景中替代常規(guī)麥克風(fēng)陣列技術(shù),成為未來(lái)音頻傳感和噪聲抑制的最佳解決方案之一。
為便于描述,以二維場(chǎng)景為例進(jìn)行說(shuō)明,即只利用avs中2個(gè)正交同位放置的壓力梯度傳感器采集音頻信號(hào)的場(chǎng)景。實(shí)際應(yīng)用中,可同理推廣至三維場(chǎng)景或利用更多傳感器的情形。在二維場(chǎng)景下,其梯度傳感器輸出的信號(hào)模型可表示為:
其中xavs(t)=[xu(t)xv(t)]t是avs的輸出信號(hào),navs(t)=[nu(t)nv(t)]t是傳感器穩(wěn)態(tài)背景噪聲,s(t)是目標(biāo)聲源信號(hào),ni(t)為干擾源信號(hào),i為干擾源的數(shù)目。a(φs)=[usvs]t=[cosφssinφs]t是目標(biāo)聲源的導(dǎo)向矢量,同理干擾源的導(dǎo)向矢量為a(φi)=[uivi]t=[cosφisinφi]t。
基于avs的空間匹配波束形成器(spacialmatchedfilter,smf)的輸出可表示為:
smf波束形成器(k.t.wong,h.chi,"beampatternsofanunderwateracousticvectorhydrophonelocatedawayfromanyreflectingboundary,"ieeejournalofoceanicengineering,vol.27,no.33,pp.628-637,july2002)能夠在目標(biāo)方向形成波束,其權(quán)值矢量與目標(biāo)信號(hào)源的導(dǎo)向矢量的指向是一致的。當(dāng)對(duì)目標(biāo)信源到達(dá)角度φs方向進(jìn)行波束形成時(shí),smf的權(quán)值ws通常的解表示為:
ws=a(φs)/(||ah(φs)||||a(φs)||)(3)
該波束形成器對(duì)任意角度φ的聲源,波束響應(yīng)可表示為:
由波束響應(yīng)可知smf波束形成器能夠一定程度抑制非目標(biāo)方向的干擾聲源,但是由于smf的目標(biāo)波束較寬,對(duì)干擾方向的抑制效果十分有限,難以滿(mǎn)足實(shí)際應(yīng)用。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服單通道語(yǔ)音增強(qiáng)方法由于無(wú)法利用聲源的空間方位信息難以抑制空間干擾噪聲以及傳統(tǒng)麥克風(fēng)陣列的語(yǔ)音增強(qiáng)方法受限于陣列體積過(guò)大和計(jì)算復(fù)雜難以便攜設(shè)備的缺陷和不足,提供一種增強(qiáng)目標(biāo)語(yǔ)音的裝置,該裝置能夠利用聲源方位信息有效抑制空間干擾源和背景噪聲,對(duì)目標(biāo)方向語(yǔ)音加以增強(qiáng),增強(qiáng)后的目標(biāo)語(yǔ)音失真度小,聽(tīng)覺(jué)感知評(píng)價(jià)得分較高;同時(shí)該裝置具有較低的計(jì)算復(fù)雜度,極具在小型設(shè)備上的應(yīng)用和推廣優(yōu)勢(shì)。
為了達(dá)到上述目的,本發(fā)明提供一種增強(qiáng)目標(biāo)語(yǔ)音的裝置,所述裝置包括用于采集音頻信號(hào)的聲學(xué)矢量傳感器,所述裝置還包括:
高階空間匹配波束形成器,用于進(jìn)一步收窄空間匹配波束形成器的目標(biāo)波束;
零陷濾波器,用于對(duì)非目標(biāo)方向的干擾聲源進(jìn)行自動(dòng)跟蹤或者定位,并調(diào)整所述高階空間匹配波束形成器在主要干擾方向形成零陷;
后置維納濾波器,用于濾除殘余噪聲;
所述聲學(xué)矢量傳感器將采集到的音頻信號(hào)通過(guò)依次相連接的所述高階空間匹配波束形成器、零陷濾波器以及后置維納濾波器進(jìn)行波束處理,即對(duì)于提取的目標(biāo)方向語(yǔ)音信號(hào)首先通過(guò)所述高階空間匹配波束形成器對(duì)其進(jìn)行波束進(jìn)一步收窄處理,其次通過(guò)所述零陷濾波器對(duì)收窄后的波束在主要干擾方向形成零陷,最后利用所述后置維納濾波器濾除殘余噪聲,從而獲得增強(qiáng)的目標(biāo)方向語(yǔ)音。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述高階空間匹配波束形成器在任意時(shí)頻下的權(quán)值whos為:
其中,
根據(jù)本發(fā)明的一個(gè)實(shí)施例,當(dāng)噪聲水平較小時(shí),所述高階空間匹配波束形成器在任意時(shí)頻(k,l)下的權(quán)值whos(φs,φ,bwn,k,l)為:
其中,
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述
占空間總信號(hào)功率的比率。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述零陷濾波器在任意時(shí)頻(k,l)下的權(quán)值wni(φi,φ,bwni,k,l)為:
其中,φi為主要干擾聲源的到達(dá)角度,φ為起主要作用的聲源到達(dá)角度,φd(k,l)=φ,bwni根據(jù)經(jīng)驗(yàn)取值為128。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述后置維納濾波器在任意時(shí)頻(k,l)下的權(quán)值wpf(k,l)為:
其中,利用所述高階空間匹配波束形成器和零陷濾波器對(duì)接收信號(hào)的各通道信號(hào)做波束形成處理,并提取初步增強(qiáng)的目標(biāo)語(yǔ)音時(shí)頻譜,其輸出為ys,利用空間匹配波束形成器對(duì)接收信號(hào)的各通道原始信號(hào)做固定波束形成處理,其輸出為ym,
本發(fā)明的另外一個(gè)目的還在于提供一種增強(qiáng)目標(biāo)語(yǔ)音的方法,所述方法包括以下步驟:
a1:對(duì)聲學(xué)矢量傳感器中的各梯度傳感器輸出數(shù)據(jù)加窗分幀,進(jìn)行短時(shí)傅里葉變換,分別得到各通道傳感器的時(shí)頻譜數(shù)據(jù);
a2:根據(jù)所述步驟a1中得到的各通道時(shí)頻譜數(shù)據(jù)獲得各通道傳感器間的相互數(shù)據(jù)比isdr,并根據(jù)所得的isdr值求得任意時(shí)頻點(diǎn)占支配地位的聲源到達(dá)角度估計(jì);
a3:對(duì)所述步驟a1中所得的各通道時(shí)頻譜數(shù)據(jù)計(jì)算聲源功率譜的空間分布,并利用目標(biāo)方向的功率譜與空間總功率譜的比率配置高階空間匹配濾波階數(shù);
a4:在短時(shí)傅里葉變換域,根據(jù)所述步驟a2獲得目標(biāo)聲源到達(dá)角度和各時(shí)頻點(diǎn)處占支配地位的聲源到達(dá)角度,以及根據(jù)所述步驟a3中獲得的所述濾波階數(shù),計(jì)算空間匹配波束形成器的高階系數(shù),完成高階空間匹配波束形成器的設(shè)計(jì);
a5:根據(jù)所述步驟a3中的聲源功率譜的空間分布信息進(jìn)一步獲得主要干擾聲源的到達(dá)角度;
a6:根據(jù)所述步驟a5中獲得的主要干擾聲源的到達(dá)角度以及根據(jù)所述步驟a2獲得各時(shí)頻點(diǎn)處占支配地位的聲源到達(dá)角度,從而獲得零陷濾波系數(shù),完成零陷濾波器的設(shè)計(jì);
a7:利用所述步驟a4設(shè)計(jì)的高階空間匹配波束形成器以及所述步驟a6設(shè)計(jì)的零陷濾波器對(duì)所述步驟a1中各通道原始數(shù)據(jù)進(jìn)行濾波,并提取初步增強(qiáng)的目標(biāo)聲源的時(shí)頻譜;再根據(jù)目標(biāo)聲源到達(dá)角度獲得固定波束形成器權(quán)向量,對(duì)所述步驟a1中的各通道原始數(shù)據(jù)進(jìn)行固定波束形成;從而獲得后置維納濾波器的權(quán)值,完成后置維納濾波器的設(shè)計(jì);
a8:通過(guò)所述步驟a7設(shè)計(jì)的所述后置維納濾波器對(duì)所述固定波束形成器的輸出進(jìn)行濾波,并對(duì)濾波后的數(shù)據(jù)進(jìn)行傅里葉反變換,用疊接相加法重建增強(qiáng)后的目標(biāo)聲源時(shí)域信號(hào)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述步驟a7中,所述固定波束形成器的輸出為所述后置維納濾波器的輸入,并利用所述高階空間匹配波束形成器和零陷濾波器對(duì)接收信號(hào)的各通道信號(hào)做波束形成處理,并提取初步增強(qiáng)的目標(biāo)語(yǔ)音時(shí)頻譜,獲得信號(hào)輸出為ys;利用所述空間匹配波束形成器對(duì)接收信號(hào)的各通道原始信號(hào)做固定波束形成處理,獲得信號(hào)輸出為ym;將ys和ym的互功率譜作為分子,將ym的自功率譜作為分母,兩者比值即為所述后置維納濾波器的權(quán)值。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述步驟a2中,根據(jù)獲得各通道傳感器間的相互數(shù)據(jù)比isdr值,利用三角函數(shù)關(guān)系求得任意時(shí)頻點(diǎn)占支配地位的聲源到達(dá)角度估計(jì)。
本發(fā)明相對(duì)于現(xiàn)有技術(shù),具有以下有益效果:本發(fā)明增強(qiáng)目標(biāo)語(yǔ)音的裝置及其方法能夠在多人說(shuō)話(huà)的環(huán)境下有效地增強(qiáng)目標(biāo)方向的語(yǔ)音,抑制干擾語(yǔ)音,同時(shí)抑制背景噪聲;其次,本發(fā)明采用聲學(xué)矢量傳感器采集語(yǔ)音信號(hào),體積小,易于在小型設(shè)備上集成,同時(shí)算法復(fù)雜度較低,易于實(shí)時(shí)運(yùn)行在運(yùn)算能力有限的嵌入式平臺(tái)上;最后本發(fā)明的目標(biāo)語(yǔ)音增強(qiáng)方法不依賴(lài)任何先驗(yàn)知識(shí),實(shí)用性和可靠性強(qiáng)。
附圖說(shuō)明
圖1是本發(fā)明增強(qiáng)目標(biāo)語(yǔ)音的裝置的結(jié)構(gòu)示意圖;
圖2為本發(fā)明實(shí)施例示意圖;
圖3為本發(fā)明實(shí)施例示意圖;
圖4為本發(fā)明實(shí)施例示意圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖,對(duì)本發(fā)明作進(jìn)一步地詳細(xì)說(shuō)明,但本發(fā)明的實(shí)施方式不限于此。
如圖1所示為本發(fā)明一種增強(qiáng)目標(biāo)語(yǔ)音的裝置的結(jié)構(gòu)示意圖,該裝置包括用于采集音頻信號(hào)的聲學(xué)矢量傳感器、用于進(jìn)一步收窄空間匹配波束形成器的目標(biāo)波束的高階空間匹配波束形成器、用于對(duì)非目標(biāo)方向的干擾聲源進(jìn)行自動(dòng)跟蹤或者定位,并調(diào)整所述高階空間匹配波束形成器在主要干擾方向形成零陷的零陷濾波器以及用于濾除殘余噪聲的后置維納濾波器。該聲學(xué)矢量傳感器將采集到的音頻信號(hào)通過(guò)依次相連接的高階空間匹配波束形成器、零陷濾波器以及后置維納濾波器進(jìn)行波束處理,即對(duì)于提取的目標(biāo)方向語(yǔ)音信號(hào)首先通過(guò)高階空間匹配波束形成器對(duì)其進(jìn)行波束進(jìn)一步收窄處理,其次通過(guò)零陷濾波器對(duì)收窄后的波束在主要干擾方向形成零陷,最后利用后置維納濾波器濾除殘余噪聲,從而獲得增強(qiáng)的目標(biāo)方向語(yǔ)音。
本發(fā)明還提供了一種增強(qiáng)目標(biāo)語(yǔ)音的方法,該方法包括以下步驟:
a1:對(duì)聲學(xué)矢量傳感器中的各梯度傳感器輸出數(shù)據(jù)加窗分幀,進(jìn)行短時(shí)傅里葉變換,分別得到各通道傳感器的時(shí)頻譜數(shù)據(jù);
a2:根據(jù)步驟a1中得到的各通道時(shí)頻譜數(shù)據(jù)獲得各通道傳感器間的相互數(shù)據(jù)比isdr,并根據(jù)所得的isdr值利用三角函數(shù)可以求得任意時(shí)頻點(diǎn)占支配地位的聲源到達(dá)角度估計(jì);
a3:對(duì)步驟a1中所得的各通道時(shí)頻譜數(shù)據(jù)計(jì)算聲源功率譜的空間分布,并利用目標(biāo)方向的功率譜與空間總功率譜的比率配置高階空間匹配濾波階數(shù);
a4:在短時(shí)傅里葉變換域,根據(jù)步驟a2獲得目標(biāo)聲源到達(dá)角度和各時(shí)頻點(diǎn)處占支配地位的聲源到達(dá)角度,以及根據(jù)步驟a3中獲得的所述濾波階數(shù),計(jì)算空間匹配波束形成器的高階系數(shù),完成高階空間匹配波束形成器的設(shè)計(jì);
a5:根據(jù)步驟a3中的聲源功率譜的空間分布信息進(jìn)一步獲得主要干擾聲源的到達(dá)角度;
a6:根據(jù)步驟a5中獲得的主要干擾聲源的到達(dá)角度以及根據(jù)步驟a2獲得各時(shí)頻點(diǎn)處占支配地位的聲源到達(dá)角度,從而獲得零陷濾波系數(shù),完成零陷濾波器的設(shè)計(jì);
a7:利用步驟a4設(shè)計(jì)的高階空間匹配波束形成器以及步驟a6設(shè)計(jì)的零陷濾波器對(duì)步驟a1中各通道原始數(shù)據(jù)進(jìn)行濾波,并提取初步增強(qiáng)的目標(biāo)聲源的時(shí)頻譜;再根據(jù)目標(biāo)聲源到達(dá)角度獲得固定波束形成器權(quán)向量,對(duì)步驟a1中的各通道原始數(shù)據(jù)進(jìn)行固定波束形成;從而獲得后置維納濾波器的權(quán)值,完成后置維納濾波器的設(shè)計(jì);本發(fā)明實(shí)施例中,固定波束形成器的輸出為后置維納濾波器的輸入,并利用高階空間匹配波束形成器和零陷濾波器對(duì)接收信號(hào)的各通道信號(hào)做波束形成處理,并提取初步增強(qiáng)的目標(biāo)語(yǔ)音時(shí)頻譜,獲得信號(hào)輸出為ys;利用空間匹配波束形成器對(duì)接收信號(hào)的各通道原始信號(hào)做固定波束形成處理,獲得信號(hào)輸出為ym;將ys和ym的互功率譜作為分子,將ym的自功率譜作為分母,兩者比值即為后置維納濾波器的權(quán)值。
a8:通過(guò)步驟a7設(shè)計(jì)的所述后置維納濾波器對(duì)所述固定波束形成器的輸出進(jìn)行濾波,并對(duì)濾波后的數(shù)據(jù)進(jìn)行傅里葉反變換,用疊接相加法重建增強(qiáng)后的目標(biāo)聲源時(shí)域信號(hào)。
本發(fā)明的增強(qiáng)目標(biāo)語(yǔ)音的裝置中的高階空間匹配波束形成器設(shè)計(jì)如下,其濾波器權(quán)值為(針對(duì)三維的聲學(xué)矢量傳感器為例):
其中,
則高階空間匹配波束形成器的波束響應(yīng)為:
由此可見(jiàn),其波束的寬度僅與bwn有關(guān),并隨著bwn的增大而變窄,通過(guò)設(shè)置不同的bwn值能夠得到理想的波束寬度,進(jìn)而抑制干擾噪聲并增強(qiáng)目標(biāo)語(yǔ)音。其具體實(shí)現(xiàn)方式如下:
如圖2所示為兩個(gè)純凈的語(yǔ)音信號(hào),二者的空間夾角為45°,如圖3為聲學(xué)矢量傳感器的u通道和v通道拾取的混合語(yǔ)音信號(hào)。以16khz的采樣率對(duì)聲學(xué)矢量傳感器接收的信號(hào)進(jìn)行采樣,并進(jìn)行加窗分幀,分幀短時(shí)窗采用漢寧窗,窗長(zhǎng)k=1024采樣點(diǎn),傅里葉變換點(diǎn)數(shù)也為k,幀移50%,得到各通道的時(shí)頻譜數(shù)據(jù):
其中,k為傅里葉變換的頻率指數(shù),l是短時(shí)幀序號(hào)。
定義u通道傳感器與v通道傳感器之間的分量數(shù)據(jù)比(intersensordatarate,isdr)如下式:
同理,u通道傳感器與o通道傳感器間分量數(shù)據(jù)比如下式:
根據(jù)研究(李波,基于信號(hào)稀疏性的聲學(xué)矢量傳感器doa估計(jì)方法研究,碩士學(xué)位論文,北京大學(xué),2012),語(yǔ)音信號(hào)在短時(shí)傅里葉域具有較好的稀疏性。當(dāng)一段語(yǔ)音有多個(gè)說(shuō)話(huà)人出現(xiàn)時(shí),仍會(huì)有某些語(yǔ)音片段只有一個(gè)說(shuō)話(huà)人處于活躍狀態(tài)而其他所有的說(shuō)話(huà)人處于靜音狀態(tài)(短暫停頓或停歇)。即使在多個(gè)說(shuō)話(huà)人同時(shí)處于活躍狀態(tài)的片段,不同說(shuō)話(huà)人的語(yǔ)音信號(hào)能量在頻域仍有可能占據(jù)不同的離散頻率。在某個(gè)具體的時(shí)頻點(diǎn),可以近似的認(rèn)為至多只有一個(gè)信源占支配地位,其它信源的影響可以忽略。將此性質(zhì)稱(chēng)作語(yǔ)音的時(shí)頻域稀疏性。根據(jù)時(shí)頻稀疏性假設(shè),在時(shí)頻數(shù)據(jù)點(diǎn)(k,l)處至多只有一個(gè)信源占支配地位,不妨用sd(k,l)表示該信源,導(dǎo)向矢量ad(φd)=[udvd]t=[cosφdsinφd]t。考慮傳感器穩(wěn)態(tài)噪聲遠(yuǎn)小于各聲源的情況,有:
其中,ε表示分量數(shù)據(jù)比誤差分量,該誤差由假性噪聲引起,且均值為零。該時(shí)頻數(shù)據(jù)點(diǎn)(k,l)處信源doa角度與isdr有關(guān)。對(duì)γuv(k,l)求反余切,有
其中,σ大小與穩(wěn)態(tài)噪聲水平有關(guān),當(dāng)噪聲水平較小時(shí),近似認(rèn)為:
其中,由于反余切函數(shù)的值域只能對(duì)應(yīng)180°范圍,為求得360°范圍的φd角度,引入?yún)?shù)flag,其值由下式求得:
綜上,對(duì)于任意信源的到達(dá)角度φ(k,l)在時(shí)頻點(diǎn)(k,l)上的短時(shí)狀態(tài),可以用φd(k,l)來(lái)估計(jì),帶入公式(5),得:
對(duì)于bwn的取值,當(dāng)環(huán)境干擾聲源較強(qiáng)時(shí),可采取較大bwn值,但不宜過(guò)大,過(guò)大的值會(huì)導(dǎo)致目標(biāo)聲源的信息缺失。可利用φd(k,l)計(jì)算信源功率譜的空間分布,根據(jù)目標(biāo)語(yǔ)音功率占空間總信號(hào)功率的比率的情況,配置高階空間匹配濾波階數(shù)。本發(fā)明實(shí)施例中,采用如下方法配置高階空間匹配濾波階數(shù)。
首先計(jì)算空間總信號(hào)功率:
ew=sum(xu(k,l)x*u(k,l)+xv(k,l)x*v(k,l))(17)
下面計(jì)算目標(biāo)語(yǔ)音功率,因目標(biāo)語(yǔ)音未知,所以用估算為:
其中ns為一個(gè)常數(shù),與目標(biāo)語(yǔ)音估計(jì)的精度有關(guān),設(shè)置為256。于是,目標(biāo)語(yǔ)音功率占空間總信號(hào)功率的比率為:
最后求得bwn為:
其中a和b的分別取值為4和16。
根據(jù)文獻(xiàn)(石偉,基于聲學(xué)矢量傳感器的魯棒doa估計(jì)方法研究與實(shí)現(xiàn))的方法,對(duì)信源功率譜的空間分布信息進(jìn)一步計(jì)算,得到主要干擾信源的到達(dá)角度估計(jì)φi,如實(shí)時(shí)更新則表示為φi(k,l)。參照高階空間匹配波束形成器的設(shè)計(jì)思路,設(shè)計(jì)零陷濾波器如下:
其中,bwni的取值為128。
利用(16)所得高階空間匹配波束形成器和(21)所得零陷濾波器對(duì)(7)(8)(9)各通道信號(hào)做波束形成處理,提取初步增強(qiáng)的目標(biāo)語(yǔ)音時(shí)頻譜,其輸出為:
利用公式(3)中的smf波束形成期對(duì)各通道信號(hào)做固定波束形成處理,固定波束形成器輸出為:
接下來(lái)描述后置維納濾波器權(quán)值的計(jì)算。該后置維納濾波器的輸入是固定波束形成器的輸出ym,計(jì)算ys和ym的互功率譜,作為后置濾波器權(quán)值計(jì)算公式的分子,即:
其中e[.]表示統(tǒng)計(jì)均值,可采用鄰近m幀結(jié)果的平均值,m的適當(dāng)取值能夠有效降低音樂(lè)噪聲并減少語(yǔ)音失真,但取值不宜過(guò)長(zhǎng),會(huì)影響語(yǔ)音清晰度。本發(fā)明中參數(shù)m取值為2。又固定波束形成器的輸出的自功率譜為
最終的增強(qiáng)目標(biāo)語(yǔ)音時(shí)頻譜為:
y(k,l)=wpf(k,l)ym(k,l)(26)
最后對(duì)y(k,l)進(jìn)傅里葉反變換,采用疊接相加法(overlapadd)重建時(shí)域語(yǔ)音信號(hào),即獲得增強(qiáng)后的目標(biāo)語(yǔ)音,如圖4所示,為分別對(duì)兩個(gè)目標(biāo)信號(hào)方向增強(qiáng)的結(jié)果。
綜上所述,本發(fā)明的增強(qiáng)目標(biāo)語(yǔ)音的裝置通過(guò)聲學(xué)矢量傳感器在空間匹配波束形成器的權(quán)值中引入高階系數(shù),設(shè)計(jì)高階空間匹配波束形成器,進(jìn)一步收窄空間波束形成器的目標(biāo)波束,在提取目標(biāo)方向語(yǔ)音的同時(shí),較好地抑制波束外的各種干擾噪聲。針對(duì)非目標(biāo)方向的干擾聲源,能夠自動(dòng)跟蹤定位,并調(diào)整高階波束形成器在主要干擾方向形成零陷,進(jìn)一步抑制干擾聲源。最后,利用后置維納濾波器濾除殘余噪聲,獲得增強(qiáng)的目標(biāo)方向語(yǔ)音。
上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未違背本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。