專利名稱:多方通話中回音消除方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多方通話中回音消除方法。
背景技術(shù):
視頻會議系統(tǒng)是指兩個(gè)或兩個(gè)以上不同地方的人或群體通過傳輸線路及多媒體設(shè)備,將聲音、影像文件及文件資料互傳,達(dá)到即時(shí)且互動的溝通,以完成會議目的的系統(tǒng)。視頻會議系統(tǒng)解決了遠(yuǎn)距離溝通問題,節(jié)約了成本,提高了工作效率,已經(jīng)得到了越來越多的機(jī)構(gòu)和個(gè)人用戶的認(rèn)同。隨著互聯(lián)網(wǎng)技術(shù)和語音技術(shù)的快速發(fā)展,視頻會議系統(tǒng)已成為地理上分散的用戶(政府機(jī)構(gòu)、跨國集團(tuán)、企業(yè)、個(gè)人等)主流的遠(yuǎn)程異地通信方式。近年來,隨著通信技術(shù)的發(fā)展,人們對通信系統(tǒng)的音質(zhì)要求越來越高,主流的視頻會議系統(tǒng)已經(jīng)開始使用了雙聲道或多聲道的音頻技術(shù),立體聲音頻數(shù)據(jù)傳輸已逐漸成為主流方法。相對于單通道的音頻數(shù)據(jù),立體聲需要同時(shí)傳遞兩路音頻數(shù)據(jù),其中聲學(xué)回聲一直是影響音頻質(zhì)量的最為關(guān)鍵因素之一。通常,回音的產(chǎn)生是由于聲波反射以及麥克風(fēng)與揚(yáng)聲器的聲學(xué)耦合引起的。即來自通話一端的信號經(jīng)過通話另一端的揚(yáng)聲器播放后,同時(shí)會被該端的麥克風(fēng)采集傳回通話一端,由此導(dǎo)致通話一端的說話者能夠聽到自己的回音,進(jìn)而影響了通話質(zhì)量,嚴(yán)重時(shí)甚至?xí)a(chǎn)生嘯叫導(dǎo)致會議進(jìn)行不下去。此外,來源于麥克風(fēng)周圍環(huán)境產(chǎn)生的穩(wěn)態(tài)或非穩(wěn)態(tài)的噪音信號也對通話質(zhì)量有著很大的影響。隨著人們對通話質(zhì)量要求的提高,視頻會議系統(tǒng)中揚(yáng)聲器和麥克風(fēng)的數(shù)目也要求增多,以增強(qiáng)身臨其境的感覺。而由于揚(yáng)聲器和麥克風(fēng)的增多,聲學(xué)回音也相應(yīng)增多。如何有效消除這些聲學(xué)回音是保證通話質(zhì)量的重要因素。與單路回音消除技術(shù)相比,多路回音消除有比單路回音消除更復(fù)雜的計(jì)算和實(shí)現(xiàn)難度。目前多路回音消除主要采用自適應(yīng)消除技術(shù),多路回音消除自適應(yīng)算法的研究主要是在單路回音消除自適應(yīng)算法的技術(shù)上簡單擴(kuò)充,如把單路NLMS (Normalized Least Mean Squares,歸一化最小均方誤差)自適應(yīng)算法、RLS (Recursive Least Squares,最小二乘法)自適應(yīng)算法等擴(kuò)充到多路回音消除中。但這種線性的擴(kuò)展無法解決解不唯一、失配大等多路回音消除所存在的關(guān)鍵問題,而且算法收斂慢且達(dá)不到精度要求。針對現(xiàn)有多路回音消除方法中的不足,一些研究者也做了一定的改進(jìn),如中國專利CN200810039070.2公開了一種改善多通道音頻通話質(zhì)量的系統(tǒng)和方法,該發(fā)明采用系統(tǒng)中設(shè)置根據(jù)音頻采集裝置及音頻播放裝置的數(shù)目之乘積確定的若干個(gè)回音路徑處理模塊,每一音頻采集裝置采集的音頻信號與每一音頻播放裝置輸出的參考信號采用分級組合的方式通過回音處理模塊的處理來改善多通道音頻通話質(zhì)量。該發(fā)明雖然可在一定程度上改善通話質(zhì)量,但這種方法未考慮多路信號間的相關(guān)性,存在自適應(yīng)算法求解收斂慢,立體回聲消除失配大的問題。中國專利CN201210088640.3公開一種遠(yuǎn)程音頻交互的多路聲學(xué)回音消除方法,該發(fā)明采用對獲取輸入的多路音源聲學(xué)信號進(jìn)行聲學(xué)分離處理,然后分別對進(jìn)行聲學(xué)分離處理后的每一路信號通過自適應(yīng)濾波器進(jìn)行聲學(xué)回音消除處理,再將進(jìn)行聲學(xué)回音消除處理后的每一路聲學(xué)信號進(jìn)行組合并進(jìn)行聲學(xué)合成,最后將進(jìn)行聲學(xué)合成后的聲學(xué)信號進(jìn)行輸出。但是該方法需多次對聲學(xué)音頻信號的進(jìn)行分離處理,這必然增加音頻信號處理的計(jì)算復(fù)雜度、時(shí)間和實(shí)現(xiàn)難度,特別是當(dāng)多個(gè)與會者同時(shí)講話時(shí),其計(jì)算復(fù)雜度和實(shí)現(xiàn)難度更大,計(jì)算所需時(shí)間更長,這必然會導(dǎo)致較大的音頻信號傳輸延時(shí);另外,采用該方法對方聽眾也很難分辯出不同發(fā)言者的方位,其實(shí)際推廣應(yīng)用存在很大的局限性。總的來說,聲學(xué)回音消除仍然是一個(gè)熱門的研究課題,對多通路包括立體聲雙聲道的回音消除技術(shù)的探索成果與單路回音消除相比還相差甚遠(yuǎn),緊緊處于探索階段,還有很多理論問題、研究方法、研究手段及實(shí)現(xiàn)技術(shù)等都需要研究人員共同努力研究。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是現(xiàn)有技術(shù)存在多方通話中回音干擾的問題,提供一種新的多方通話中回音消除方法。該方法可有效消除多路聲學(xué)回音,為多方通話提供高質(zhì)量的語音通信。為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案如下:一種多方通話中回音消除方法,包括以下步驟:I)在發(fā)送端采用能接受語音或音頻信號的設(shè)備獲取多路語音信號并通過編碼器編碼;2)將編碼后的音頻數(shù)據(jù)流打包后通過網(wǎng)絡(luò)發(fā)送到接收端;3)在接收端將音頻數(shù)據(jù)解碼并基于頭相關(guān)傳輸函數(shù)處理后疊加合成為雙通路音頻信號;4)對合成的雙通路音頻信號通過回音抵消系統(tǒng)進(jìn)行回音消除處理;5)將處理后的雙通路音頻信號采用至少兩個(gè)具有語音或音頻播放能力的設(shè)備輸出;其中,所述回音抵消系統(tǒng)包括預(yù)處理模塊、語音檢測模塊、自適應(yīng)濾波模塊、殘余回音和背景噪音后處理模塊。上述技術(shù)方案中,優(yōu)選地,所述預(yù)處理模塊采用半波整流函數(shù)對每一路音頻信號進(jìn)行非線性變換。上述技術(shù)方案中,優(yōu)選地,所述殘余回音和背景噪音后處理模塊根據(jù)語音檢測模塊的判斷結(jié)果對信號進(jìn)行相應(yīng)處理,當(dāng)輸入信號被判斷為非靜音信號時(shí),殘余回音和背景噪音后處理模塊對殘余信號進(jìn)行衰減處理;否則,信號經(jīng)過殘余回音和背景噪音后處理模塊不做任何處理,直接輸出。上述技術(shù)方案中,優(yōu)選地,所述語音檢測模塊采用帶有語音活動檢測的雙向通話檢測器。更優(yōu)選地,所述雙向通話檢測器檢測到為雙端語音狀態(tài)時(shí),自適應(yīng)濾波器凍結(jié)系數(shù)更新,只完成濾波;檢測到為非雙端語音狀態(tài)時(shí),進(jìn)一步進(jìn)行語音活動檢測;所述語音活動檢測到為非靜音信號時(shí),自適應(yīng)濾波器既要進(jìn)行濾波,又要進(jìn)行系數(shù)更新,并對信號進(jìn)行殘余回音后處理;所述語音活動檢測到為靜音信號時(shí),輸出靜音指示信號。上述技術(shù)方案中,優(yōu)選地,所述自適應(yīng)濾波模塊采用基于通用計(jì)算圖形處理器的回音消除算法并行優(yōu)化。更優(yōu)選地,所述基于通用計(jì)算圖形處理器的回音消除算法中快速傅里葉變換部分在圖形處理器上執(zhí)行。
上述技術(shù)方案中,優(yōu)選地,所述步驟4)具體包括:(301)對合成的雙通路音頻信號X1和X2分別采用半波整流函數(shù)進(jìn)行非線性變換,變換后的音頻信號為X1'和x2’ ;(302)將變換后的音頻信號X/和X和近端音頻信號Y1,即近端能接受語音或音頻信號的設(shè)備拾取到的包括回音和背景噪聲,還可能包括近端講話者的語音信號,進(jìn)行經(jīng)過語音檢測模塊進(jìn)行比對,判斷當(dāng)前遠(yuǎn)近兩端的講話狀態(tài);(303)將音頻信號X/和X2’分別作為兩個(gè)自適應(yīng)濾波器的參考輸入信號,根據(jù)上一步語音檢測模塊的判斷結(jié)果進(jìn)行相應(yīng)處理,得到回聲估計(jì)值P ,;(304)從Y1中減去^ ^導(dǎo)到近端語音信號或者回音殘留信號ei ;(305)將得到的回音殘留信號ei經(jīng)過殘余回音和背景噪音后處理模塊進(jìn)一步處理后傳向遠(yuǎn)端。上述技術(shù)方案中,優(yōu)選地,所述能接受語音或音頻信號的設(shè)備為麥克風(fēng);根據(jù)空間大小和位置同時(shí)放置I個(gè)、2個(gè)、3個(gè)或4個(gè)麥克風(fēng)。上述技術(shù)方案中,優(yōu)選地,所述具有語音或音頻播放能力的設(shè)備為揚(yáng)聲器,所述具有語音或音頻播放能力的設(shè)備的個(gè)數(shù)為2個(gè)。本發(fā)明方法中,HRTF為頭相關(guān)傳輸函數(shù)(head-related transferfunctions) ;VAD為語音活動檢測(voice activity detection) ;DTD為雙向通話檢測器(double talk detector) ;GPGPU 為通用計(jì)算圖形處理器(General Purpose GraphicProcess Unit) ;FFT為快速傅里葉變換(Fast Fourier Transform) ;GPU為圖形處理器(Graphic Process Unit)。
本發(fā)明方法在接收端將音頻數(shù)據(jù)解碼并基于頭相關(guān)傳輸函數(shù)處理后疊加合成為雙通路音頻信號,充分利用了 HRTF已考慮了聲級差和時(shí)間差以及HRTF本身具有的豐富聲場信息的特點(diǎn),使得即使在視頻會議系統(tǒng)中獨(dú)立空間內(nèi)只設(shè)置單個(gè)麥克風(fēng)且多個(gè)發(fā)言者同時(shí)講話的情況下,近端與會者也能有效的區(qū)分遠(yuǎn)端發(fā)言者,獲得空間的定位感和現(xiàn)場感;本發(fā)明方法還增加了殘余回音和背景噪音后處理模塊,根據(jù)語音檢測模塊的判斷結(jié)果對信號進(jìn)行相應(yīng)處理,當(dāng)輸入信號被判斷為非靜音信號時(shí),殘余回音和背景噪音后處理模塊對殘余信號進(jìn)行衰減處理;否則,信號經(jīng)過殘余回音和背景噪音后處理模塊不做任何處理,直接輸出。本發(fā)明方法中的語音檢測模塊優(yōu)選采用帶有語音活動檢測VAD的雙向通話檢測器DTD;所述雙向通話檢測器DTD檢測到為雙端語音狀態(tài)時(shí),自適應(yīng)濾波器凍結(jié)系數(shù)更新,只完成濾波;檢測到為非雙端語音狀態(tài)時(shí),進(jìn)一步進(jìn)行語音活動檢測VAD ;所述語音活動檢測到為非靜音信號時(shí),自適應(yīng)濾波器既要進(jìn)行濾波,又要進(jìn)行系數(shù)更新,并對信號進(jìn)行殘余回音后處理;所述語音活動檢測到為靜音信號時(shí),輸出靜音指示信號。此外,本發(fā)明方法采用了最簡單而且性能較好實(shí)用的半波整流函數(shù)對音頻信號進(jìn)行預(yù)處理非線性變換,在保證不影響立體聲聽感和聲音質(zhì)量的前提下降低了輸入信號間的相關(guān)性,消除了多路回音消除解不唯一的問題;采用雙向通話檢測和語音活動檢測的雙層語音狀態(tài)檢測策略對雙端語音狀態(tài)進(jìn)行兩重判斷,減少了語音狀態(tài)被誤判的機(jī)率,提高了判斷的可靠性,保證了語音的完整性,另外在雙端語音檢測之后加入一個(gè)語音活動檢測判斷,對通話過程中出現(xiàn)的靜音進(jìn)行停止編碼和傳輸?shù)奶幚?,可有效減少音頻數(shù)據(jù)發(fā)送量,大大降低網(wǎng)絡(luò)占用率;采用基于GPGPU的回音消除算法并行優(yōu)化,將回音消除算法中FFT部分在GPU上執(zhí)行,縮短了回音消除算法的計(jì)算時(shí)間,提升了系統(tǒng)了整體性能。本發(fā)明方法在以不破壞語音完整性原則的基礎(chǔ)上,降低了網(wǎng)絡(luò)帶寬占用率,緩解了網(wǎng)絡(luò)擁塞,減少了網(wǎng)絡(luò)延遲,有效消除了遠(yuǎn)程實(shí)時(shí)語音傳輸系統(tǒng)中的多路聲學(xué)回音,大大提高和改善了語音傳輸質(zhì)量,并且使得臨場感更加真實(shí)立體,取得了較好的技術(shù)效果。
圖1為本發(fā)明的多方通話中回音消除方法流程圖。圖2為本發(fā)明的多個(gè)參與者的單音頻信號合成雙通道立體聲信號的原理示意圖。圖3為本發(fā)明的結(jié)合DTD和VAD的雙通道立體聲回音消除結(jié)構(gòu)示意圖。圖4為本發(fā)明的帶有靜音檢測的雙端語音狀態(tài)檢測流程圖。圖5為本發(fā)明的雙通道回音抵消系統(tǒng)一路回音處理過程示意圖。圖6為本發(fā)明的四聲道采集信號轉(zhuǎn)化為雙通道立體聲的原理示意圖。圖2中,Sp S2...Sn為單個(gè)麥克風(fēng)采集的遠(yuǎn)端I個(gè)、2個(gè)...η個(gè)與會者講話的語音信號,Ηη、Η12、Η21、Η22、...、Hnl、Hn2為雙耳房間脈沖響應(yīng)函數(shù),XjPX2分別為立體聲左右通路信號。圖3中,Χ1(η)和X2(η)為合成的音頻信號,X/和X為變換后的音頻信號,F(xiàn)為預(yù)處理模塊,P 回聲估計(jì)值,e (n)為回音殘留信號,y ω為麥克風(fēng)采拾的聲音信號,W1和W2為自適應(yīng)濾波器。圖5中,X1和X2為合成的音頻信號,X1'和Χ2’為變換后的音頻信號,F(xiàn)為預(yù)處理模塊,F(xiàn)FT為快速傅里葉變換,IFFT為逆快速傅里葉變換,Y1為為麥克風(fēng)采拾的聲音信號,ei為回音殘留信號。圖6中,Hn、H12、H21, H22, H31 > H32、H41、H42為4對雙耳房間脈沖響應(yīng)函,X1和X2為合成的音頻信號,MIC” MIC2、MIC3、MIC4為麥克風(fēng)。以下結(jié)合附圖對本發(fā)明做詳細(xì)說明。圖1為本發(fā)明的多方通話中回音消除方法流程圖,如圖所示,所述方法包括以下步驟:1)在發(fā)送端采用麥克風(fēng)獲取多路語音信號并通過編碼器編碼;2)將編碼后的音頻數(shù)據(jù)流打包后通過網(wǎng)絡(luò)發(fā)送到接收端;3)在接收端將音頻數(shù)據(jù)解碼并基于頭相關(guān)傳輸函數(shù)處理后疊加合成為雙通路音頻信號;4)對合成的雙通路音頻信號通過回音抵消系統(tǒng)進(jìn)行回音消除處理;5)將處理后的雙通路音頻信號采用兩個(gè)揚(yáng)聲器輸出。一般情況下,多方視頻會議系統(tǒng)中,每個(gè)與會者的房間只配置有一個(gè)麥克風(fēng),語音信號是單通路傳輸?shù)?,多個(gè)與會者同時(shí)說話的聲音會被混疊在一起,人們要想從中分辨出自己關(guān)心的那個(gè)發(fā)言者的方位是不可能的。本發(fā)明方法利用人類聽覺定位的原理和聲場理論對麥克風(fēng)采拾的遠(yuǎn)端單音頻信號采用基于頭相關(guān)傳輸函數(shù)HRTF進(jìn)行處理后,將其擴(kuò)展為兩通路的立體聲信號后饋給近端對稱放置在與會者前方的兩個(gè)揚(yáng)聲器,可產(chǎn)生與實(shí)際雙通路立體聲等效的定位效果。也可以根據(jù)空間的大小和位置,放置2個(gè)、3個(gè)或4個(gè)麥克風(fēng)采集多路音頻信號,并基于頭相關(guān)傳輸函數(shù)HRTF處理后再疊加合成,將多聲路采集信號轉(zhuǎn)化為雙通路立體聲信號后饋給近端兩個(gè)揚(yáng)聲器重放,以減少揚(yáng)聲器的數(shù)量。圖2為本發(fā)明的多個(gè)參與者的單音頻信號合成雙通道立體聲信號的原理示意圖,如圖所示,對單個(gè)麥克風(fēng)采集的遠(yuǎn)端η個(gè)與會者講話的語音信號SpS2...Sn分別用不同空間位置的多對人體頭相關(guān)傳輸函數(shù)HRTF進(jìn)行虛擬聽覺信號處理,采用語音信號Sn與雙耳房間脈沖響應(yīng)函數(shù)Hni進(jìn)行卷積,卷積后則得到合成的雙通道立體聲信號:Xni = Hni*Sn,i=l、2 ;其中,雙耳房間脈沖響應(yīng)函數(shù)Hni為HRTF定義的從點(diǎn)生源到雙耳的聲學(xué)傳遞函數(shù)
權(quán)利要求
1.一種多方通話中回音消除方法,包括以下步驟: 1)在發(fā)送端采用能接受語音或音頻信號的設(shè)備獲取多路語音信號并通過編碼器編碼; 2)將編碼后的音頻數(shù)據(jù)流打包后通過網(wǎng)絡(luò)發(fā)送到接收端; 3)在接收端將音頻數(shù)據(jù)解碼并基于頭相關(guān)傳輸函數(shù)處理后疊加合成為雙通路音頻信號; 4)對合成的雙通路音頻信號通過回音抵消系統(tǒng)進(jìn)行回音消除處理; 5)將處理后的雙通路音頻信號采用至少兩個(gè)具有語音或音頻播放能力的設(shè)備輸出; 其中,所述回音抵消系統(tǒng)包括預(yù)處理模塊、語音檢測模塊、自適應(yīng)濾波模塊、殘余回音和背景噪音后處理模塊。
2.根據(jù)權(quán)利要求1所述多方通話中回音消除方法,其特征在于所述預(yù)處理模塊采用半波整流函數(shù)對每一路音頻信號進(jìn)行非線性變換; 所述殘余回音和背景噪音后處理模塊根據(jù)語音檢測模塊的判斷結(jié)果對信號進(jìn)行相應(yīng)處理,當(dāng)輸入信號被判斷為非靜音信號時(shí),殘余回音和背景噪音后處理模塊對殘余信號進(jìn)行衰減處理;否則,信號經(jīng)過殘余回音和背景噪音后處理模塊不做任何處理,直接輸出。
3.根據(jù)權(quán)利要求1所述多方通話中回音消除方法,其特征在于所述語音檢測模塊采用帶有語音活動檢測的雙向通話檢測器。
4.根據(jù)權(quán)利要求3所述多方通話中回音消除方法,其特征在于所述雙向通話檢測器檢測到為雙端語音狀態(tài)時(shí),自適應(yīng)濾波器凍結(jié)系數(shù)更新,只完成濾波;檢測到為非雙端語音狀態(tài)時(shí),進(jìn)一步進(jìn)行語音活動檢測;所述語音活動檢測到為非靜音信號時(shí),自適應(yīng)濾波器既要進(jìn)行濾波,又要進(jìn)行系數(shù)更新,并對信號進(jìn)行殘余回音后處理;所述語音活動檢測到為靜音信號時(shí),輸出靜音指不信號。
5.根據(jù)權(quán)利要求1所述多方通話中回音消除方法,其特征在于所述自適應(yīng)濾波模塊采用基于通用計(jì)算圖形處理器的回音消除算法并行優(yōu)化。
6.根據(jù)權(quán)利要求5所述多方通話中回音消除方法,其特征在于所述基于通用計(jì)算圖形處理器的回音消除算法中快速傅里葉變換部分在圖形處理器上執(zhí)行。
7.根據(jù)權(quán)利要求1所述多方通話中回音消除方法,其特征在于所述步驟4)具體包括: (301)對合成的雙通路音頻信號X1和X2分別采用半波整流函數(shù)進(jìn)行非線性變換,變換后的音頻信號為X1'和X2’ ; (302)將變換后的音頻信號X/和X2’和近端音頻信號Y1,即近端能接受語音或音頻信號的設(shè)備拾取到的包括回音和背景噪聲,還可能包括近端講話者的語音信號,進(jìn)行經(jīng)過語音檢測模塊進(jìn)行比對,判斷當(dāng)前遠(yuǎn)近兩端的講話狀態(tài); (303)將音頻信號X/和X2’分別作為兩個(gè)自適應(yīng)濾波器的參考輸入信號,根據(jù)上一步語音檢測模塊的判斷結(jié)果進(jìn)行相應(yīng)處理,得到回聲估計(jì)值P 1; (304)從Y1中減去P彳導(dǎo)到近端語音信號或者回音殘留信號ei; (305)將得到的回音殘留信號ei經(jīng)過殘余回音和背景噪音后處理模塊進(jìn)一步處理后傳向遠(yuǎn)端。
8.根據(jù)權(quán)利要求1或7所述多方通話中回音消除方法,其特征在于所述能接受語音或音頻信號的設(shè)備為麥克風(fēng);根據(jù)空間大小和位置同時(shí)放置I個(gè)、2個(gè)、3個(gè)或4個(gè)麥克風(fēng)。
9.根據(jù)權(quán)利要求1所述多方通話中回音消除方法,其特征在于所述具有語音或音頻播放能力的設(shè)備為揚(yáng)聲 器,所述具有語音或音頻播放能力的設(shè)備的個(gè)數(shù)為2個(gè)。
全文摘要
本發(fā)明涉及一種多方通話中回音消除方法,主要解決現(xiàn)有技術(shù)存在多方通話中回音干擾的問題。本發(fā)明通過采用包括以下步驟1)在發(fā)送端采用能接受語音或音頻信號的設(shè)備獲取多路語音信號并通過編碼器編碼;2)將編碼后的音頻數(shù)據(jù)流打包后通過網(wǎng)絡(luò)發(fā)送到接收端;3)在接收端將音頻數(shù)據(jù)解碼并基于頭相關(guān)傳輸函數(shù)處理后疊加合成為雙通路音頻信號;4)對合成的雙通路音頻信號通過回音抵消系統(tǒng)進(jìn)行回音消除處理;5)將處理后的雙通路音頻信號采用至少兩個(gè)具有語音或音頻播放能力的設(shè)備輸出;其中,所述回音抵消系統(tǒng)包括預(yù)處理模塊、語音檢測模塊、自適應(yīng)濾波模塊、殘余回音和背景噪音后處理模塊的技術(shù)方案較好地解決了該問題,可用于視頻會議系統(tǒng)中。
文檔編號H04M9/08GK103152500SQ201310056409
公開日2013年6月12日 申請日期2013年2月21日 優(yōu)先權(quán)日2013年2月21日
發(fā)明者于洋, 林國夫, 張偉 申請人:中國對外翻譯出版有限公司