一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音信號(hào)拾取的信號(hào)處理方法
【專利摘要】本發(fā)明涉及一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音信號(hào)拾取的信號(hào)處理方法。(1)通過(guò)實(shí)驗(yàn)獲取ESN網(wǎng)絡(luò)的參數(shù),建立相應(yīng)的音源模型;(2)將模型用于兩種場(chǎng)合:當(dāng)模型的輸出為期望的某目標(biāo)語(yǔ)音信號(hào),輸入為該目標(biāo)語(yǔ)音源的聲環(huán)境反射聲信號(hào)和目標(biāo)語(yǔ)音信號(hào)的混合時(shí),模型可用于現(xiàn)場(chǎng)擴(kuò)聲的回聲消除;當(dāng)模型的輸出為期望的某目標(biāo)語(yǔ)音信號(hào),輸入為其它特定語(yǔ)音源的聲環(huán)境反射聲信號(hào)和目標(biāo)語(yǔ)音信號(hào)的混合時(shí),模型可用于兩個(gè)特定人間語(yǔ)音通信的回聲消除;(3)模型在實(shí)際聲環(huán)境中給目標(biāo)語(yǔ)音人使用時(shí),拾音的位置發(fā)生變化,也能抑制訓(xùn)練所指的音源信號(hào)的反射信號(hào),而輸出相應(yīng)增強(qiáng)的目標(biāo)語(yǔ)音信號(hào)。本發(fā)明克服因拾音位置移動(dòng),而造成語(yǔ)音信號(hào)質(zhì)量受到的影響。
【專利說(shuō)明】一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音信號(hào)拾取的信號(hào)處理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于室內(nèi)語(yǔ)音信號(hào)拾取的處理技術(shù),涉及通過(guò)實(shí)驗(yàn)對(duì)回聲狀態(tài)神經(jīng)網(wǎng)絡(luò)的 參數(shù)選擇和訓(xùn)練建模的數(shù)字信號(hào)處理方法,特別是一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音信號(hào)拾取的 信號(hào)處理方法。
【背景技術(shù)】
[0002] 在現(xiàn)場(chǎng)擴(kuò)聲中,消除回聲影響的涉及對(duì)象是:特定目標(biāo)語(yǔ)音和該特定目標(biāo)語(yǔ)音的 環(huán)境反射聲,主要用于提高聲增益。主要的相關(guān)技術(shù)有:(1)傳統(tǒng)技術(shù)如窄帶均衡是濾除峰 值的處理,消除反饋?zhàn)哉?;移頻法是采用對(duì)信號(hào)進(jìn)行頻譜移動(dòng)再擴(kuò)聲,用以破壞反饋?zhàn)哉駰l 件等,它們存在的一個(gè)共同問(wèn)題都是處理技術(shù)復(fù)雜,并且不利于語(yǔ)音信號(hào)的保真;(2)基于 現(xiàn)代的數(shù)字信號(hào)處理的方法則采用自適應(yīng)濾波處理的回聲抵消技術(shù)。
[0003] 在語(yǔ)音通信中,消除回聲影響的涉及對(duì)象是:特定目標(biāo)語(yǔ)音和另一個(gè)特定語(yǔ)音的 環(huán)境反射聲,主要達(dá)到語(yǔ)音增強(qiáng)的目的?;芈曄南嚓P(guān)產(chǎn)品主要在兩個(gè)方面:基于DSP平 臺(tái)的回聲消除器和基于Windows平臺(tái)的語(yǔ)音通信的回聲消除算法軟件。它們均是基于自適 應(yīng)回聲抵消技術(shù)的產(chǎn)品,回聲抵消必須精確地模擬回聲路徑,并且迅速地適應(yīng)它的變化。這 包括自適應(yīng)濾波器的結(jié)構(gòu)和自適應(yīng)算法的選擇,以及減少噪聲對(duì)算法收斂速度的影響等。 自適應(yīng)回聲抵消處理主要有以下兩方面問(wèn)題: 首先,設(shè)計(jì)主要針對(duì)以下的使用問(wèn)題:(1)處理同時(shí)通話。只有遠(yuǎn)端信號(hào)沒(méi)有近端信號(hào) 時(shí),獲得對(duì)回聲模擬的濾波器系數(shù),當(dāng)加入近端信號(hào)時(shí)等于引進(jìn)另外大的隨機(jī)分量到自適 應(yīng)過(guò)程,濾波器系數(shù)會(huì)圍繞這個(gè)中值的變化而顯著增大,導(dǎo)致性能下降。對(duì)此必須檢測(cè)近端 信號(hào)存在的關(guān)鍵元件,在同時(shí)講話時(shí)使自適應(yīng)功能停止,保持前面的濾波器系數(shù)不變。(2) 基于自適應(yīng)濾波的算法常用的LMS算法存儲(chǔ)量小、實(shí)現(xiàn)及檢測(cè)比較容易,但收斂性差;而收 斂性好的RLS算法計(jì)算量大,因此出現(xiàn)了許多它們的改進(jìn)算法,以及應(yīng)用于解決實(shí)際回聲 問(wèn)題的自適應(yīng)濾波抵消算法處理。(3)當(dāng)回聲消除算法應(yīng)用到Windows平臺(tái),必須解決采集 和播放音頻流的同步問(wèn)題。相對(duì)于傳統(tǒng)的DSP平臺(tái),現(xiàn)在的PC機(jī),擁有豐富的CPU資源和 海量的內(nèi)存資源,再?gòu)?fù)雜的回聲消除算法都可以運(yùn)行自如。但是,應(yīng)用程序很難在底層直接 控制聲卡的采集播放,獲得的是非實(shí)時(shí)的音頻流,從而帶來(lái)了采集和播放音頻流的同步問(wèn) 題。本地接收到遠(yuǎn)端的語(yǔ)音后,要把這些語(yǔ)音數(shù)據(jù)傳給回聲消除算法做參考,這是算法需要 的一個(gè)輸入信號(hào);然后再傳給聲卡,聲卡放出來(lái)后經(jīng)過(guò)回音路徑,本地再采集后傳給回聲消 除算法,是算法需要的另一個(gè)輸入信號(hào)。如果傳給回聲消除算法的兩個(gè)信號(hào)同步得不好,即 兩個(gè)信號(hào)發(fā)生幀錯(cuò)位,就很難進(jìn)行消除了。
[0004] 其次,揚(yáng)聲器與麥克風(fēng)之間聲耦合形成的聲回波自適應(yīng)濾波消除技術(shù)存在 以下的技術(shù)問(wèn)題:(1)由于延遲時(shí)間較長(zhǎng)(達(dá)到ls),需要幾千個(gè)系數(shù)的高階濾波器來(lái) 擬合,需要更多的計(jì)算資源。(2)如此長(zhǎng)的高階濾波器的穩(wěn)定性及提高其自適應(yīng)速度 都是比較困難的事情。首先,聲回波路徑由于聲學(xué)特性的變化表現(xiàn)得不平穩(wěn);其次, 聲回波是通過(guò)多經(jīng)傳播來(lái)的;再次,房間聲空間的傳播散射特性是非線性,用一般的 1^1(或Μ)線性濾波器不能較好地對(duì)其建模。(3)對(duì)于立體聲Mi¥0系統(tǒng)的聲回波抵消 問(wèn)題,目前仍然是一個(gè)重要的、富有挑戰(zhàn)性的研究課題,隨著消回聲消除技術(shù)的發(fā)展,當(dāng)前 回聲消除研究的重點(diǎn),已由電路回聲的消除,轉(zhuǎn)向了聲學(xué)回聲的消除。
[0005] 作為語(yǔ)音信號(hào)的產(chǎn)生可以米用.A通£4或Ji?模型描述,室內(nèi)揚(yáng)聲器到麥克風(fēng)的聲 信道(反射聲信號(hào)的產(chǎn)生)也可以用或模型近似描述,^模型具有以較少極點(diǎn) 較準(zhǔn)確模擬聲信道的功能。對(duì)于室內(nèi)聲信道相當(dāng)于大量駐波疊加的結(jié)果,有較多峰值,需要 較多極點(diǎn)數(shù)的I模型模擬出來(lái),而對(duì)于人聲系統(tǒng)發(fā)出的語(yǔ)音信號(hào)則通常只要很少極點(diǎn)數(shù) 的--模型就可以模擬出來(lái)。因此,如果能建立一個(gè)模型,其輸出為目標(biāo)語(yǔ)音,而輸入 為目標(biāo)語(yǔ)音和環(huán)境反射聲信號(hào)的,則抑制的是反射聲信號(hào),而相應(yīng)強(qiáng)化的是目標(biāo)語(yǔ)音信號(hào)。
[0006] 動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò),又稱遞歸神經(jīng)網(wǎng)絡(luò),由動(dòng)態(tài)神經(jīng)元組成,是針對(duì)動(dòng)態(tài)系統(tǒng)辨識(shí)研究 中發(fā)展出來(lái)的一種神經(jīng)網(wǎng)絡(luò)。動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程是不斷調(diào)整網(wǎng)絡(luò)參數(shù)(如權(quán)值等) 使網(wǎng)絡(luò)輸出逼近理想輸出的過(guò)程,是建立iMfi模型的有力工具。作為一種新型遞歸神經(jīng) 網(wǎng)絡(luò),回聲狀態(tài)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò))在非線性系統(tǒng)辨識(shí)方面較傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)有較大 改進(jìn)。首先,在穩(wěn)定性方面,可以通過(guò)預(yù)先設(shè)定儲(chǔ)備池權(quán)值矩陣的譜半徑來(lái)保證遞歸網(wǎng)絡(luò) 的穩(wěn)定性;其次,在網(wǎng)絡(luò)訓(xùn)練方面,輸出權(quán)值的確定是唯一而且是全局最優(yōu)的,因此沒(méi)有傳 統(tǒng)神經(jīng)網(wǎng)絡(luò)普遍存在的局部最小問(wèn)題,并且不存在傳統(tǒng)動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)靠誤差調(diào)整而收斂速 度慢的問(wèn)題;除此之外網(wǎng)絡(luò)避免了傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)求取時(shí)序偏微分的過(guò)程,因此 網(wǎng)絡(luò)的訓(xùn)練過(guò)程變得特別簡(jiǎn)單。
[0007] 正因?yàn)榫W(wǎng)絡(luò)在非線性系統(tǒng)辨識(shí)方面顯示出的良好性能,因此,本發(fā)明針對(duì)上 述需求,也利用ny網(wǎng)絡(luò)建立一種抑制室內(nèi)聲環(huán)境反射聲信號(hào)而增強(qiáng)輸出目標(biāo)語(yǔ)音信號(hào) 的模型。借此,在回聲消除處理中,上述自適應(yīng)濾波器所遇到的問(wèn)題將得到解決。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的目的在于提供一種解決上述自適應(yīng)濾波器抵消聲環(huán)境反射信號(hào)的方法 所存在的不足的增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音信號(hào)拾取的信號(hào)處理方法。
[0009] 為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音信號(hào)拾取的 信號(hào)處理方法,包括以下步驟: 步驟1 :確定建立的模型類型:包括第一音源模型和第二音源模型,所述第一音源模型 為抑制目標(biāo)語(yǔ)音本身在聲環(huán)境中產(chǎn)生的的反射聲信號(hào)而相應(yīng)增強(qiáng)目標(biāo)語(yǔ)音信號(hào);所述第 二音源模型為抑制另一特定人語(yǔ)音在聲環(huán)境中產(chǎn)生的反射聲信號(hào)而相應(yīng)增強(qiáng)目標(biāo)語(yǔ)音信 號(hào); 步驟2 :模型的訓(xùn)練數(shù)據(jù)源分為兩種獲取準(zhǔn)備:當(dāng)準(zhǔn)備建立第一音源模型時(shí),需獲取 目標(biāo)語(yǔ)音信號(hào)的數(shù)據(jù)采樣點(diǎn);當(dāng)準(zhǔn)備建立第二音源模型時(shí),需獲取特定人語(yǔ)音信號(hào) 和目標(biāo)語(yǔ)音信號(hào)5^〇)的數(shù)據(jù)采樣點(diǎn); 步驟3 :獲取訓(xùn)練模型用的環(huán)境反射聲信號(hào):首先,從電聲系統(tǒng)對(duì)室內(nèi)聲環(huán)境輸入激勵(lì) 信號(hào),獲取室內(nèi)聲環(huán)境的脈沖響應(yīng)信號(hào),并轉(zhuǎn)換成數(shù)字信號(hào)jK/?;其次,設(shè)定階數(shù)/?,利用 基于自相關(guān)的線性預(yù)測(cè)算法獲取全極點(diǎn)濾波器系數(shù),該全極點(diǎn)濾波器用于模擬聲環(huán)境中的 聲信道傳輸特性;再而,以準(zhǔn)備抑制的反射聲所對(duì)應(yīng)的音源信號(hào)(;?)或:? 4經(jīng)過(guò)全極點(diǎn) 濾波器獲得相應(yīng)的環(huán)境反射聲信號(hào)公/λ); 步驟4必W網(wǎng)絡(luò)參數(shù)的確定: 網(wǎng)絡(luò)的方程為:
【權(quán)利要求】
1. 一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音信號(hào)拾取的信號(hào)處理方法,其特征在于:包括以下步 驟: 步驟1 :確定建立的模型類型:包括第一音源模型和第二音源模型,所述第一音源模型 為抑制目標(biāo)語(yǔ)音本身在聲環(huán)境中產(chǎn)生的的反射聲信號(hào)而相應(yīng)增強(qiáng)目標(biāo)語(yǔ)音信號(hào);所述第 二音源模型為抑制另一特定人語(yǔ)音在聲環(huán)境中產(chǎn)生的反射聲信號(hào)而相應(yīng)增強(qiáng)目標(biāo)語(yǔ)音信 號(hào); 步驟2 :模型的訓(xùn)練數(shù)據(jù)源分為兩種獲取準(zhǔn)備:當(dāng)準(zhǔn)備建立第一音源模型時(shí),需獲取 目標(biāo)語(yǔ)音信號(hào)的數(shù)據(jù)采樣點(diǎn);當(dāng)準(zhǔn)備建立第二音源模型時(shí),需獲取特定人語(yǔ)音信號(hào) ?〇!;)和目標(biāo)語(yǔ)音信號(hào)的數(shù)據(jù)采樣點(diǎn); 步驟3 :獲取訓(xùn)練模型用的環(huán)境反射聲信號(hào):首先,從電聲系統(tǒng)對(duì)室內(nèi)聲環(huán)境輸入激勵(lì) 信號(hào),獲取室內(nèi)聲環(huán)境的脈沖響應(yīng)信號(hào),并轉(zhuǎn)換成數(shù)字信號(hào)其次,設(shè)定階數(shù)利用 基于自相關(guān)的線性預(yù)測(cè)算法獲取全極點(diǎn)濾波器系數(shù),該全極點(diǎn)濾波器用于模擬聲環(huán)境中的 聲信道傳輸特性;再而,以準(zhǔn)備抑制的反射聲所對(duì)應(yīng)的音源信號(hào)(;?)或5^?:)經(jīng)過(guò)全極點(diǎn) 濾波器獲得相應(yīng)的環(huán)境反射聲信號(hào); 步驟4必W網(wǎng)絡(luò)參數(shù)的確定: 網(wǎng)絡(luò)的方程為:
其中,/表示內(nèi)部神經(jīng)元激活函數(shù),通常取雙曲正切函數(shù),表示輸出函數(shù),典型 情況下取恒等函數(shù),if?為I'時(shí)刻儲(chǔ)備池的狀態(tài)變量,?/?為f時(shí)刻系統(tǒng)輸入向量,Γ?是 網(wǎng)絡(luò)/時(shí)刻的輸出;If為隨機(jī)產(chǎn)生并且稀疏連接的高維方陣,儲(chǔ)備池一經(jīng)產(chǎn)生,其連接 權(quán)值保持不變和#分別為網(wǎng)絡(luò)的輸入權(quán)值矩陣和輸出權(quán)值向量;lf l22A為輸出對(duì) 狀態(tài)變量連接權(quán)值向量;表示輸出的偏置項(xiàng)或代表噪聲;和隨機(jī)產(chǎn)生而且保 持不變,唯一需要調(diào)整的是輸出權(quán)值%^; 為使麥克風(fēng)取一定長(zhǎng)度的信號(hào)巾貞輸入模型后,能夠處理輸出相應(yīng)長(zhǎng)度的目標(biāo)語(yǔ)音中貞, 上述三個(gè)隨機(jī)連接權(quán)值向量的取值如下:
間; 其中,If值越小,建立狀態(tài)的時(shí)間相對(duì)越短,提高模型運(yùn)算的實(shí)時(shí)性,而y值越大模型 精確性越高,但可能使泛化能力下降;i取值為:①?zèng)Q定輸入儲(chǔ)備池的尺度,a>1 ;?0<^<1;?0<€<1; 步驟5 :以?/_ = ;(?) +^(Λ)作為|;驟網(wǎng)絡(luò)輸入,D =作為目標(biāo)期望,對(duì)篇f網(wǎng) 絡(luò)進(jìn)行訓(xùn)練,得到抑制特定音源反射聲而相應(yīng)增強(qiáng)目標(biāo)語(yǔ)音信號(hào)的模型;f'時(shí)刻,儲(chǔ)備池的 狀態(tài)變量JT的狀態(tài)方程:
對(duì)于給定非線性系統(tǒng)輸入輸出對(duì)= 利用網(wǎng)絡(luò)辨識(shí)該 系統(tǒng)的過(guò)程為:首先,初始化儲(chǔ)備池中的權(quán)值If和%;其次,輸入--激勵(lì)系統(tǒng),求得 網(wǎng)絡(luò)的各個(gè)時(shí)刻狀態(tài)響應(yīng);儲(chǔ)備池中的狀態(tài)變量與期望輸出之間是線性關(guān)系,因此網(wǎng) 絡(luò)的訓(xùn)練過(guò)程比較簡(jiǎn)單,而且解的過(guò)程不會(huì)出現(xiàn)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)常有的多個(gè)局部最小、收斂 速度慢的缺點(diǎn); 輸出權(quán)值i_f的確定采用基本的線性回歸算法:
2. 根據(jù)權(quán)利要求1所述的一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音拾取的信號(hào)處理方法,其特征在 于:所述訓(xùn)練所得的模型還能夠用于實(shí)際聲環(huán)境中聲信道變化時(shí)的目標(biāo)語(yǔ)音信號(hào)增強(qiáng),即 從麥克風(fēng)獲取的信號(hào)?/ζτι;)中包含:目標(biāo)語(yǔ)音信號(hào)、特定的環(huán)境聲反射信號(hào)輸 入模型中,獲得增強(qiáng)的目標(biāo)語(yǔ)音信號(hào)輸出,其采用liin#實(shí)現(xiàn)的代碼段如下:
3. 根據(jù)權(quán)利要求1所述的一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音拾取的信號(hào)處理方法,其特征在 于:所述步驟2中,獲取目標(biāo)語(yǔ)音信號(hào)公的數(shù)據(jù)采樣點(diǎn),其數(shù)據(jù)幀長(zhǎng)度大于625ms。
4. 根據(jù)權(quán)利要求1所述的一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音拾取的信號(hào)處理方法,其特征在 于:所述步驟3中,所述的輸入激勵(lì)信號(hào)為白噪聲脈沖、周期脈沖或贗噪聲。
5. 根據(jù)權(quán)利要求1所述的一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音拾取的信號(hào)處理方法,其特征在 于:所述步驟3中,所述聲環(huán)境的脈沖響應(yīng)信號(hào)由能夠在室內(nèi)使用范圍的任意一種揚(yáng)聲器 和麥克風(fēng)相應(yīng)位置獲取。
6. 根據(jù)權(quán)利要求1所述的一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音拾取的信號(hào)處理方法,其特征在 于:所述步驟3中,所述階數(shù)的確定過(guò)程如下: 室內(nèi)極點(diǎn)數(shù),即線性預(yù)測(cè)的階數(shù)對(duì)應(yīng)的是室內(nèi)聲駐波數(shù),其按下式估算:
式中/為估算頻率為相應(yīng)波長(zhǎng),為估算的帶寬為聲速,Λ = #7義p為室內(nèi) 容積,為室內(nèi)總表面積; 則所述階數(shù)p = MAT。
7. 根據(jù)權(quán)利要求1所述的一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音拾取的信號(hào)處理方法,其特征在 于:所述步驟3中,所述環(huán)境反射聲信號(hào)公2〇:),其是指:當(dāng)為第一音源模型時(shí),及 2〇^為由 目標(biāo)語(yǔ)音信號(hào),即由m_;) = &〇〇通過(guò)全極點(diǎn)濾波器形成;當(dāng)為第二音源模型時(shí),5·2〇ι:)為 由特定人語(yǔ)音信號(hào)(?;)通過(guò)全極點(diǎn)濾波器形成。
8. 根據(jù)權(quán)利要求1所述的一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音拾取的信號(hào)處理方法,其特征在 于:所述的網(wǎng)絡(luò)參數(shù)沒(méi)、?€、ΛΓ、Ρ由實(shí)驗(yàn)選定,具體確定過(guò)程即:(1)取沒(méi)、況 、jP滿足Λ Μ,Ο <1,0 <c <1H3W,F= 0別仍中的任意一組值,輸入訓(xùn)練數(shù)據(jù) 建模,再對(duì)模型輸入實(shí)例數(shù)據(jù),觀察處理輸出時(shí)系統(tǒng)是否穩(wěn)定,即是否存在振蕩,存在振蕩 時(shí)調(diào)小參數(shù)I?,直至模型穩(wěn)定輸出;(2)增大或減小y值,重復(fù)上一步的訓(xùn)練和仿真輸出, 達(dá)到最佳效果時(shí)以、厶、的取值,即為確定參數(shù)值。
9. 根據(jù)權(quán)利要求2所述的一種增強(qiáng)聲環(huán)境中目標(biāo)語(yǔ)音拾取的信號(hào)處理方法,其特征在 于:所述訓(xùn)練所得的模型能夠用于實(shí)際聲環(huán)境中聲信道變化時(shí)的目標(biāo)語(yǔ)音信號(hào)增強(qiáng),其是 指一旦模型建立后,拾音的位置發(fā)生變化時(shí),還能夠抑制訓(xùn)練所指的音源信號(hào)在時(shí)變聲環(huán) 境中的反射信號(hào),輸出相應(yīng)增強(qiáng)的目標(biāo)語(yǔ)音信號(hào)。
【文檔編號(hào)】G10L21/02GK104157293SQ201410427254
【公開(kāi)日】2014年11月19日 申請(qǐng)日期:2014年8月28日 優(yōu)先權(quán)日:2014年8月28日
【發(fā)明者】陳國(guó)欽 申請(qǐng)人:福建師范大學(xué)福清分校