本發(fā)明涉及麥克風陣列語音信號處理,尤其是涉及無直達聲條件下的麥克風陣列語音增強裝置。
背景技術:
通過將一組麥克風按一定方式布置在空間不同位置上形成麥克風陣列可獲得多通道語音信號的空間信息,從而形成麥克風陣列空間指向特性,實現(xiàn)噪聲抑制和語音增增強,改善語音信號處理性能。當前,麥克風陣列已在人機交互、智能家居、指令識別等領域得到了廣泛的研究和應用。
現(xiàn)有麥克風技術通常采用先獲取聲源方位,然后進行針對性波束對準、語音增強的處理方法,在說話人與麥克風陣列間存在直達聲路徑的環(huán)境下,由于直達聲具有最高能量,聲源定位及后續(xù)語音增強可獲得較好的性能。
中國專利zl200510105526.7公開一種使用噪聲降低的多通道自適應語音信號處理方法,該方法通過對gsc的固定波束通路增加一個自適應處理器改善信號通道的信噪比。該方法借助頻域時延估計來補償各通道時延,以使得波束對準聲源方向。該方法在獲取了聲源方向后,按照聲源方向通過阻塞矩陣形成參考噪聲通路,因此當部分語音信號成分泄漏到參考噪聲通路時將影響gsc算法的語音增強性能。
但是,隨著麥克風陣列技術在各領域的廣泛應用,在遠場人機交互、語音跟蹤等環(huán)境下有大量說話人和麥克風陣列間不存在直達聲的場景,此時,由于無法通過檢測能量最強的直達路徑來獲得聲源方位,常規(guī)麥克風陣列語音增強算法的性能受到嚴重影響。也制約了麥克風陣列技術在實際應用中的推廣,因此,研究可工作于無直達聲條件的麥克風陣列語音增強裝置對于提高麥克風陣列語音信號處理系統(tǒng)的穩(wěn)健性和實用性都具有重要意義。目前針對無直達聲條件的麥克風陣列算法及技術研究還不多見。
s.kitic,b.bertin,r.gribonval,hearingbehindwalls:localizingsourcesintheroomnextdoorwithcosparsity,2014ieeeinternationalconferenceonacoustic,speechandsignalprocessing,(icassp)中提出了一種采用分析稀疏表示(cosparse)的處理方法實現(xiàn)無直達聲條件下的語音增強,該方法基于波動方程在存在及無聲源條件下的不同稀疏建模進行匹配獲取聲源位置,運算復雜度高且需要滿足一定的理想聲場假設,隨可通過理想條件下的數(shù)值計算初步驗證該方法可行性,其性能還有待實驗驗證。
對于大量實際人機遠場交互、智能家居、語音跟蹤領域不同建筑結構如門、過道、墻體阻擋造成的無直達聲存在的場合:一方面,由于無直達聲時傳統(tǒng)廣義互相關處理輸出的相關峰由大量微弱的反射分量相關峰組成,無法通過對相關峰的檢測獲得對應聲源方向的正確到達時延差(timedifferenceofarrival,tdoa),估計聲源位置;另一方面,由于只能接收經(jīng)過多次反射獲取的微弱語音信號,語音信號信噪低,嚴重影響了傳統(tǒng)陣列語音信號處理算法的性能。因此,在不存在直達聲條件下,傳統(tǒng)麥克風陣列語音增強方法性能明顯下降,需利用其他信息來保證麥克風陣列語音增強的效果。
進一步,在通過波束域互相關獲得2個反射聲方向后,可采用本領域通用的波束對準算法進行反射聲對準增強處理,考慮到由于不存在直達聲,反射聲信號信噪比較低,本發(fā)明進一步提出通過獲得的2個反射聲方向首先進行波束成形對準初步增強;由于波束對準增強后的多個反射語音分量在相位上并不一致,無法直接進行合并增強,本裝置將多個對準增強后的反射語音輸入自適應濾波器進行反射聲增強處理并進行合并輸出,從而輸出無直達聲條件下的麥克風陣列語音增強信號。
技術實現(xiàn)要素:
本發(fā)明的目的在于提供無直達聲條件下的麥克風陣列語音增強裝置。
本發(fā)明設有麥克風陣列、波束域綜合搜索模塊、反射方向估計模塊、反射聲對準增強模塊和自適應增強模塊;所述麥克風陣列設有若干個定位麥克風和1個參考麥克風;所述麥克風陣列為5元圓形麥克風陣列,其中分布在圓周的4個定位麥克風陣元用于進行語音信號多通道采集,位于圓心的參考麥克風用于獲取參考信號經(jīng)前置放大、模數(shù)轉換后通過數(shù)據(jù)線輸出至波束域綜合搜索模塊,麥克風陣列中4個圓周定位麥克風采集的語音信號經(jīng)前置放大、模數(shù)轉換后通過數(shù)據(jù)線分別輸入波束域綜合搜索模塊和反射聲對準增強模塊;
所述波束域綜合搜索模塊對無直達聲情況下接收到的微弱語音信號分別對準各個假設反射角度并采用波束成形方法進行波束成形,獲取波束成形輸出,對各個假設反射角度對應的波束成形輸出一方面計算能量并輸出能量結果,另一方面與參考麥克風獲得的參考語音進行互相關計算輸出互相關結果,形成兩路輸出并送入反射方向估計模塊;
所述反射方向估計模塊根據(jù)波束域綜合搜索模塊輸出的各假設反射角度對應能量結果、互相關結果進行綜合比較判決,挑選出能量、互相關最優(yōu)的前兩個反射角度并輸出至反射聲對準增強模塊;
反射聲對準增強模塊根據(jù)反射方向估計模塊輸出的兩個反射角度分別對麥克風陣列中4個圓周麥克風采集的語音信號進行對準增強,通過波束成形算法進行對準增強處理,并輸出對準兩個反射角度波束成形獲得的對應波形信號,形成兩路輸出送入自適應增強模塊;
自適應增強模塊根據(jù)反射聲對準增強模塊輸出的兩路波束成形信號分別作為自適應迭代的輸入信號和訓練信號自適應增強進行自適應噪聲對消處理,并輸出增強語音信號。
本發(fā)明實現(xiàn)語音增強功能的步驟包括:麥克風陣列、波束域綜合搜索、反射方向估計、反射聲對準增強、自適應增強步驟。
波束域綜合搜索步驟對接收到麥克風陣列信號分別進行波束對準掃描,獲取每個反射角度對應的波束能量和波束信號與參考信號互相關輸出;反射方向估計步驟根據(jù)每個反射角度對應的波束能量及波束信號與參考信號互相關輸出進行反射角度搜索,獲得能量、互相關最優(yōu)的2個反射方向;反射聲對準增強步驟對反射方向估計步驟獲得的2個反射方向進行對準波束成形,獲得初步增強語音;自適應增強步驟對反射聲對準增強步驟獲得的對應2個反射方向的2路初步增強語音進行自適應迭代增強,最后輸出增強語音。
本發(fā)明提供一種簡單方便、可適應無直達聲條件的麥克風陣列語音增強裝置。針對人機交互、遠場識別、智能家居等領域存在無直達聲條件下麥克風陣列語音增強的困難,本發(fā)明提出首先結合參考麥克風的引入采用技術成熟、使用方便的波束域綜合搜索方法根據(jù)波束能量、波束信號與參考信號互相關來綜合判決獲得兩路反射語音角度,進一步考慮到無直達聲條件下反射語音信噪比低,采用自適應增強處理對兩路反射語音進行迭代增強,從而實現(xiàn)無直達聲條件下的麥克風陣列語音增強。
本發(fā)明實現(xiàn)無直達聲條件下麥克風陣列語音增強的具體思路為:首先對接收的麥克風陣列語音信號進行波束域掃描,獲取各個假設反射角度對應的波束信號,并分別計算波束能量,及波束信號與引入的參考信號之間的互相關;通過對各個反射角度對應輸出的波束能量、波束信號與參考信號互相關進行搜索獲得2個反射方向;獲得2個反射方向后進行自適應增強處理實現(xiàn)無直達聲條件下的語音增強。
基于上述考慮,本發(fā)明首先提出波束域互相關處理方法獲取反射聲方向:通過在麥克風陣列幾何中心位置增加一個參考麥克風,并建立不同來波方向條件下其他麥克風相對參考麥克風的到達時延差(tdoa)關系,并利用其他麥克風獲取的語音信號通過逐一設定反射聲方向合成對應的波束域參考信號,并獲得每一反射聲方向的波束能量;同時,通過引入的參考麥克風,對波束信號和參考信號進行互相關處理,可獲得每個設定來波方向對應的互相關輸出;通過設定門限綜合對波束能量和互相關輸出進行檢測,可從各設定方向波束成形獲得的能量、互相關輸出中根據(jù)波束能量、與參考信號互相關準則檢測出兩個最優(yōu)反射聲方向。
由于本發(fā)明提出的無直達聲條件下麥克風陣列語音增強裝置利用的是各來波方向合成語音與參考麥克風接收信號在波束域存在的相關性進行反射聲方向檢測,可有效避免不存在直達聲導致常規(guī)的信號域互相關處理性能下降的問題,結合獲取多個反射聲方向后進行對準、自適應迭代增強和合并輸出,因而可適用于無直達聲的惡劣條件下改善麥克風陣列語音增強性能。
與現(xiàn)有的麥克風陣列語音增強方法相比,本發(fā)明提出的可適應無直達聲條件下麥克風陣列語音增強裝置的突出優(yōu)點在于:由于引入?yún)⒖见溈孙L信號,采用波束掃描結合波束能量、波束信號與參考信號互相關進行判決提高無直達聲條件下的反射角估計性能;進一步,在波束域能量、互相關搜索獲得2個反射方向后,考慮到非直達聲信號信噪比低,本發(fā)明采用對2路反射信號進行自適應增強處理處理輸出最終的增強語音。
附圖說明
圖1為本發(fā)明實施例的結構框圖。
圖2為本發(fā)明實施例的5元麥克風陣列及其與微處理器連接電路圖。
圖3為本發(fā)明實施例的波束域綜合搜索時延補償波束成形原理圖。
具體實施方式
為了使本發(fā)明的技術內(nèi)容、特征、優(yōu)點更加明顯易懂,以下以本發(fā)明可適應強烈背景噪聲的麥克風陣列語音增強裝置實施例并結合附圖具體說明如下:
參見圖1,本發(fā)明實施例設有麥克風陣列1、波束域綜合搜索模塊2、反射方向估計模塊3、反射聲對準增強模塊4和自適應增強模塊5;所述麥克風陣列1設有若干個定位麥克風11和1個參考麥克風12;所述麥克風陣列1為5元圓形麥克風陣列,其中分布在圓周的4個定位麥克風陣元用于進行語音信號多通道采集,位于圓心的參考麥克風12用于獲取參考信號經(jīng)前置放大、模數(shù)轉換后通過數(shù)據(jù)線輸出至波束域綜合搜索模塊2,麥克風陣列1中4個圓周定位麥克風11采集的語音信號經(jīng)前置放大、模數(shù)轉換后通過數(shù)據(jù)線分別輸入波束域綜合搜索模塊2和反射聲對準增強模塊4。
所述波束域綜合搜索模塊2對無直達聲情況下接收到的微弱語音信號分別對準各個假設反射角度并采用波束成形方法進行波束成形,獲取波束成形輸出,對各個假設反射角度對應的波束成形輸出一方面計算能量并輸出能量結果,另一方面與參考麥克風12獲得的參考語音進行互相關計算輸出互相關結果,形成兩路輸出并送入反射方向估計模塊3;
所述反射方向估計模塊3根據(jù)波束域綜合搜索模塊2輸出的各假設反射角度對應能量結果、互相關結果進行綜合比較判決,挑選出能量、互相關最優(yōu)的前兩個反射角度并輸出至反射聲對準增強模塊4;
反射聲對準增強模塊4根據(jù)反射方向估計模塊3輸出的兩個反射角度分別對麥克風陣列1中4個圓周麥克風采集的語音信號進行對準增強,通過波束成形算法進行對準增強處理,并輸出對準兩個反射角度波束成形獲得的對應波形信號,形成兩路輸出送入自適應增強模塊5;自適應增強模塊5根據(jù)反射聲對準增強模塊4輸出的兩路波束成形信號分別作為自適應迭代的輸入信號和訓練信號自適應增強進行自適應噪聲對消處理,并輸出增強語音信號。
本發(fā)明實施例中麥克風陣列由4個圓周上等間隔排列的麥克風(m1,m2,…m4)和位于圓心的參考麥克風m0組成圓陣,圓形陣列中4個圓周麥克風采集的語音信號在波束域綜合搜索中分別對準各個反射方向進行波束成形,并分別計算波束能量,及波束信號與參考麥克風信號的互相關以進行反射方向估計。
具體地,4個圓周麥克風和1個圓心參考麥克風均由體積小、結構簡單、電聲性能好的壓強式駐極體麥克風mic0,…,mic4,njm2100運算放大器芯片構成的前置放大電路及max118模數(shù)轉換芯片構成,在本實施例中圓形麥克風陣列直徑d=0.2m。
本實施例中波束域綜合搜索模塊、反射聲方向估計模塊、反射聲對準增強模塊、自適應增強模塊均屬于數(shù)字信號處理模塊,在本實施例中采用arm9s3c2440微處理器進行軟件編程實現(xiàn)。
該麥克風陣列語音增強裝置中5元麥克風線陣與微處理器的連接方式為:5元麥克風線陣中5個麥克風輸出信號經(jīng)過圖2所示運算放大器構成的2級前置放大電路放大后輸入多通道模數(shù)轉換芯片max118,s3c2440微處理器通過io口gpb2,3,4控制max118的輸入通道端a1、a2、a3,通過定時器輸出腳tout0、tout1控制max118的讀出/寫入端口wr、rd進行采樣頻率16ksps的模數(shù)轉換,通過數(shù)據(jù)線data0至data7進行8bit模數(shù)轉換結果到s3c2440微處理器的傳送。
該麥克風陣列語音增強裝置中多通道語音信號模數(shù)轉換進入微處理器后,以軟件形式運行的各數(shù)字信號處理模塊間的數(shù)據(jù)、控制流連接方式如圖3所示,具體說明如下。
波束域綜合搜索模塊通過波束能量和波束互相關兩種指標綜合的方式進行反射角度選擇:
首先是波束能量計算:通過對麥克風陣列圓周4個麥克風陣元各通道信號采用本領域通用的波束成形算法可以對各進行對準增強獲得波束信號并計算能量。均勻圓陣波束成形原理結合圖3具體說明如下:在本發(fā)明實施例中,以圓形麥克風作為坐標原點建立極其坐標系,則依次對準假設的反射聲角度θj進行如下時延補償波束形成公式為(如圖3所示):
x'i(k)=xi(k');
k'=k+round[di,j],i=1,2,3,4;
其中:xi(k’)為時延調(diào)整前圓周麥克風陣列第i通道的采樣信號,k'為時延調(diào)整前信號采樣點的時間刻度,i為圓陣中各圓周麥克風通道的編號,i=1,2,3,4;x’i(k)為波束成形算法時延調(diào)整后圓周麥克風第i通道采樣信號,k為時延調(diào)整后信號采樣點的時間刻度;
j=1,2,3,…,18代表360度范圍內(nèi)假設的反射聲角度搜索,本實施例中將360度范圍劃分為18個反射聲角度進行搜索,則θj為第j個對應角度θj=20*j;θd為圓周麥克風第1通道圓周麥克風的固定方位角(本實施例中θd=30度);
di,j代表第i個圓周麥克風在反射聲角度θj下相對中心麥克風的時延值對應的采樣點數(shù);r為圓陣半徑,本實施例中r=0.1m;c為空氣中的聲速(本實施例中取340m/s);fs為麥克風陣列語音信號的采樣頻率(單位為hz,在本實施例中取16000hz);round()代表取整運算。
則:在計算窗長l內(nèi)(本實施例中l(wèi)=500)對各圓周麥克風接收的含噪語音對準假定反射聲角度θj波束成形可獲得對應的波束能量e(θj),j=1,2,3,…,18。
其中:n為當前采樣點,
對準假定聲發(fā)射角度θj時,波束信號與參考麥克風信號的互相關計算過程為:
其中:x0(k)為圓心麥克風獲得的參考通道信號,l為互相關計算時波束信號與參考麥克風信號之間的時延差,s為時延搜索范圍,本實施例中取為250。波束域綜合搜索模塊對每個假設的反射聲角度獲得的波束能量和互相關輸出進行綜合判決,獲得2個從波束能量、互相關綜合考慮而言最優(yōu)的反射聲角度
并采用本領域通用的波束成形算法對反射聲角度
本實施例中將對準反射角度θn1獲得的波束信號
wk+1=wk+μ·ek·rk(1)
k=1,2,...n
其中u為自適應迭代的步長因子,本實施例中取為0.002。經(jīng)過波束域綜合搜索獲得的兩路反射聲信號
本發(fā)明公開的可適應無直達聲條件的麥克風陣列語音增強裝置最大的特點在于:通過引入位于圓心的參考麥克風通道,綜合考慮波束能量、波束信號與參考通道信號互相關進行反射聲角度綜合搜索;同時,考慮到無直達聲信號,通過檢測2路反射聲信號進行自適應增強克服了反射聲信號信噪比較低的問題。綜上,本發(fā)明克服了傳統(tǒng)麥克風陣列增強方法在聲源定位、增強處理中需要依賴能量、信噪比較高的直達聲信號保證算法性能的缺點,從而可適應無直達聲信號條件下的麥克風陣列語音增強。