一種單通道語音去混響裝置的制作方法

文檔序號：2834190閱讀：290來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種單通道語音去混響裝置的制作方法
技術(shù)領(lǐng)域：
本實用新型涉及語音增強領(lǐng)域，特別涉及單通道語音去混響裝置。
背景技術(shù)：
在遠距離語音通訊中，麥克風端接收的信號容易受到環(huán)境混響的影響。比如，在房間內(nèi)，語音經(jīng)過墻面、地板和家具等多次放射，麥克風端接收到的信號是直達聲和反射聲的混合信號。這部分反射聲就是混響信號。當說話人距離麥克風比較遠，且通話環(huán)境是一個相對封閉的空間時，就很容易產(chǎn)生混響?；祉憞乐貢r，會導(dǎo)致語音不清楚，影響通話質(zhì)量。另夕卜，混響帶來的干擾，還會導(dǎo)致聲學(xué)接收系統(tǒng)性能變差，語音識別系統(tǒng)性能顯著下降等。
早期的去混響裝置主要是利用反卷積來進行去混響的。這類裝置需要提前知道準確的混響環(huán)境(房間或辦公室等)的沖激響應(yīng)或傳遞函數(shù)?；祉懎h(huán)境的沖激響應(yīng)可以通過某種特別的裝置提前測量得到，也可以通過其它裝置單獨估計得到。然后利用這個已知的混響環(huán)境沖激響應(yīng)，估計逆濾波器，實現(xiàn)對混響信號的反卷積，從而實現(xiàn)去混響。這類裝置的問題是，混響環(huán)境的沖激響應(yīng)往往很難提前獲得，且求取逆濾波器的過程本身可能引入新的不穩(wěn)定因素。另一類去混響裝置，不需要估計混響環(huán)境的沖激響應(yīng)，因此不需要計算逆濾波器和進行逆濾波運算，也被稱為盲去混響裝置。這類裝置通?；谡Z音模型假設(shè)，比如混響導(dǎo)致接收的濁音激勵脈沖發(fā)生變化，使得周期性變得不那么明顯，從而影響語音清晰度。這類裝置一般基于LPC (Linear Prediction Coding,線性預(yù)測編碼)模型,假定產(chǎn)生語音的模型是一個全極點模型，而混響或其它加性噪聲在整個系統(tǒng)中引入了新的零點，從而干擾了濁音激勵脈沖，但并不影響全極點濾波器。去混響裝置是估計信號的LPC殘差，然后按照基因同步粹發(fā)準則(pitch-synchronous clustering criterion)或峰度(Kurtosis)最大化準則等，來估計干凈的脈沖激勵序列，從而實現(xiàn)去混響。這類裝置的問題是計算復(fù)雜度往往非常高，且對于混響只影響全零點濾波器的假設(shè)，與實驗分析存在不相符的情況。利用譜減法去混響是一個較佳的方案，語音信號包括直達聲、早期反射聲和晚期反射聲，采用譜減法將晚期反射聲的功率譜從整個語音的功率譜中除去能夠提高語音質(zhì)量。但其中的關(guān)鍵問題在于晚期反射聲的譜的估計，即如何獲得比較準確的晚期反射聲的功率譜，從而在將晚期反射聲的成份有效去除的同時又不損傷語音。在單通道語音去混響中，因為只有一路麥克風信息可用，因此估計混響環(huán)境的傳遞函數(shù)或估計混響時間(RT60)非常困難。

實用新型內(nèi)容本實用新型提供的一種單通道語音去混響的裝置，以解決單通道語音去混響中估計混響環(huán)境的傳遞函數(shù)或估計混響時間困難的問題。本實用新型還公開了一種單通道語音去混響的裝置，所述裝置包括用于對輸入的單通道語音信號進行分幀，按時間順序向傅里葉變換器輸出幀信號的分巾貞器；用于對接收的當前幀進行短時傅里葉變換，獲得當前幀的功率譜和相位譜，向譜減器和譜估計器輸出當前幀的功率譜，向傅里葉逆變換器輸出當前幀的相位譜的傅里葉變換器；用于將當前幀之前的、到當前幀的距離在設(shè)置的時長范圍內(nèi)的若干幀的功率譜進行線性疊加，估計出當前幀的晚期反射聲的功率譜，向譜減器輸出估計的當前幀的晚期反射聲的功率譜的譜估計器；用于通過譜減法從傅里葉變換器獲得的當前幀的功率譜中去除從譜估計器獲得的當前幀的晚期反射聲的功率譜，得到當前幀的直達聲和早期反射聲的功率譜，向傅里葉逆變換器輸出當前幀的直達聲和早期反射聲的功率譜的譜減器；用于將從譜減器獲得的當前幀的直達聲和早期反射聲的功率譜與從傅里葉變換器獲得的當前幀的相位譜一起進行短時傅里葉逆變換，輸出當前幀去混響后的信號的傅里葉逆變換器；所述分幀器與所述傅里葉變換器連接；所述傅里葉變換器與所述譜減器、所述譜估計器和所述傅里葉逆變換器連接；所述譜估計器與譜減器連接；所述譜減器與所述傅里葉逆變換器連接。較佳地，所述譜估計器具體用于，依據(jù)晚期反射聲的衰減特性設(shè)置所述時長范圍的上限值。較佳地，所述譜估計器具體用于，依據(jù)語音相關(guān)特性及直達聲和早期反射聲在混響環(huán)境下的沖擊響應(yīng)分布區(qū)域設(shè)置所述時長范圍的下限值。較佳地，所述譜估計器具體用于，選擇所述時長范圍的上限值為0. 3秒5秒之間的值。較佳地，所述譜估計器具體用于，選擇所述時長范圍的下限值為50毫秒 80毫秒之間的值。較佳地，所述譜估計器具體用于對于當前幀之前的、到當前幀的距離在所述設(shè)置的時長范圍內(nèi)的若干幀，應(yīng)用自回歸AR模型將這些幀的功率譜中全部成分進行線性疊加估計出當前幀的晚期反射聲的功率譜。較佳地，所述譜估計器具體用于對于當前幀之前的、到當前幀的距離在所述設(shè)置的時長范圍內(nèi)的若干幀，應(yīng)用滑動平均MA模型將這些幀的功率譜中直達聲和早期反射聲成分進行線性疊加估計出當前幀的晚期反射聲的功率譜。較佳地，所述譜估計器具體用于對于當前幀之前的、到當前幀的距離在所述設(shè)置的時長范圍內(nèi)的若干幀，應(yīng)用自回歸AR模型將這些幀的功率譜中全部成分進行線性疊加，并且應(yīng)用滑動平均MA模型將這些幀的功率譜中直達聲和早期反射聲成分進行線性疊加，估計出當前幀的晚期反射聲的功率譜。本實用新型實施例的有益效果是通過選取當前幀之前的、到當前幀的距離在設(shè)置的時長范圍內(nèi)的若干幀，將這些幀的功率譜進行線性疊加估計出當前幀的晚期反射聲的功率譜，能夠不需估計混響環(huán)境的傳遞函數(shù)或混響時間，便可以估計出當前幀的晚期反射聲的功率譜，進而利用譜減法進行去混響，簡化了去混響的操作復(fù)雜度，使得實現(xiàn)更為簡單；依據(jù)語音相關(guān)特性及直達聲和早期反射聲在混響環(huán)境下的沖擊響應(yīng)分布區(qū)域設(shè)置時長范圍的下限值，能夠在去除混響的同時更好保留有用的直達聲和早期反射聲，提高話音質(zhì)量；依據(jù)晚期反射聲的衰減特性設(shè)置時長范圍的上限值，能夠在保證估計的晚期反射聲的功率譜的準確性的同時，減少疊加運算量；本實用新型實施例將上限值選擇為0. 3秒5秒之間的值，該上限值為通過實驗獲得的門限值，在混響環(huán)境發(fā)生變化時，無需調(diào)整該上限值，都能夠獲得較好的去混響效果;本實用新型實施例將下限值設(shè)置在50毫秒 80毫秒之間，在混響環(huán)境變化時，無需改變下限值，便能夠有效避開直達聲和早期反射聲進行疊加，使得疊加結(jié)果中基本不包含直達聲和早期反射聲，從而在去混響的同時保留有用的直達聲和早期反射聲，取得較好的話音質(zhì)量。上述混響環(huán)境的變化包括從無混響的消聲室到混響非常嚴重的大禮堂。

圖1為本實用新型單通道語音去混響裝置的結(jié)構(gòu)圖；圖2為真實房間的沖激響應(yīng)的示意圖；圖3為本實用新型單通道語音去混響裝置具體實施方式
的結(jié)構(gòu)圖；圖4為本實用新型實施效果示意圖，圖4 (a)為混響信號時域示意圖，圖4 (b)為去混響后的信號的時域示意圖。
具體實施方式
為使本實用新型的目的、技術(shù)方案和優(yōu)點更加清楚，下面將結(jié)合附圖對本實用新型實施方式作進一步地詳細描述。本實用新型的裝置如圖1所示，單通道語音去混響的裝置包括如下器。用于對輸入的單通道語音信號進行分幀，按時間順序向傅里葉變換器200輸出幀信號的分巾貞器100。用于對接收的當前幀進行短時傅里葉變換，獲得當前幀的功率譜和相位譜，向譜減器400和譜估計器300輸出當前幀的功率譜，向傅里葉逆變換器500輸出相位譜的傅里葉變換器200。用于將當前幀之前的、到當前幀的距離在設(shè)置的時長范圍內(nèi)的若干幀的功率譜進行線性疊加，估計出當前幀的晚期反射聲的功率譜，向譜減器400輸出估計的當前幀的晚期反射聲的功率譜的譜估計器300。用于通過譜減法從傅里葉變換器200獲得的當前幀的功率譜中去除從譜估計器300獲得的當前幀的晚期反射聲的功率譜,得到當前幀的直達聲和早期反射聲的功率譜，向傅里葉逆變換器500輸出當前幀的直達聲和早期反射聲的功率譜的譜減器400。用于將從譜減器400獲得的當前幀的直達聲和早期反射聲的功率譜與從傅里葉變換器200獲得的當前幀的相位譜一起進行短時傅里葉逆變換，輸出當前幀去混響后的信號的傅里葉逆變換器500。分幀器100與傅里葉變換器200連接；傅里葉變換器200與譜減器400、譜估計器300和傅里葉逆變換器500連接；譜估計器300與譜減器400連接；譜減器400與傅里葉逆變換器500連接。在混響環(huán)境中，麥克風采集到的信號x(t)，即單通道語音信號，是直達聲和反射聲的混合，可用如下混響模型表示X (t) = h*s (t) +n (t)其中，s(t)是從聲源發(fā)出的信號，h是從聲源位置到麥克風位置兩點之間的房間沖激響應(yīng)，*表示卷積運算，n(t)表示混響環(huán)境內(nèi)的其它加性噪聲。一個真實房間的沖激響應(yīng)，如圖2所示。可以將它劃分為3個部分，直達峰hd、早期反射he和晚期反射hi。hd和s(t)的卷積可以簡單地認為是聲源發(fā)出的信號經(jīng)過一定的延遲后在麥克風端的再現(xiàn)，對應(yīng)于X(t)中的直達聲部分。早期反射部分的沖擊響應(yīng)對應(yīng)于hd之后一段時長的部分，該時長的結(jié)束時間點為50ms至80ms中的某個時間點。一般認為這一部分和s(t)卷積所產(chǎn)生的早期反射聲對直達聲有加強和改善音質(zhì)的作用。晚期反射聲部分的沖擊響應(yīng)是去除hd和he后房間沖激響應(yīng)余下的長長的拖尾部分，這一部分與信號s(t)卷積所產(chǎn)生的反射聲，就是會對聽感造成影響的混響成份。去混響算法主要是去除這一部分的影響。因此，混響模型也可表示為X (t) = (hd+he) *s (t)+hl*s (t)+n (t)hi部分符合指數(shù)衰減模型，可用如下方程近似
權(quán)利要求1.一種單通道語音去混響裝置，其特征在于，所述裝置包括用于對輸入的單通道語音信號進行分幀，按時間順序向傅里葉變換器輸出幀信號的分中貞器；用于對接收的當前幀進行短時傅里葉變換，獲得當前幀的功率譜和相位譜，向譜減器和譜估計器輸出當前幀的功率譜，向傅里葉逆變換器輸出當前幀的相位譜的傅里葉變換器；用于將當前幀之前的、到當前幀的距離在設(shè)置的時長范圍內(nèi)的若干幀的功率譜進行線性疊加，估計出當前幀的晚期反射聲的功率譜，向譜減器輸出估計的當前幀的晚期反射聲的功率譜的譜估計器；用于通過譜減法從傅里葉變換器獲得的當前幀的功率譜中去除從譜估計器獲得的當前幀的晚期反射聲的功率譜，得到當前幀的直達聲和早期反射聲的功率譜，向傅里葉逆變換器輸出當前幀的直達聲和早期反射聲的功率譜的譜減器；用于將從譜減器獲得的當前幀的直達聲和早期反射聲的功率譜與從傅里葉變換器獲得的當前幀的相位譜一起進行短時傅里葉逆變換，輸出當前幀去混響后的信號的傅里葉逆變換器；所述分幀器與所述傅里葉變換器連接；所述傅里葉變換器與所述譜減器、所述譜估計器和所述傅里葉逆變換器連接；所述譜估計器與譜減器連接；所述譜減器與所述傅里葉逆變換器連接。
專利摘要本實用新型公開一種單通道語音去混響裝置，包括用于對輸入的單通道語音信號進行分幀，按時間順序輸出幀信號的分幀器；用于對接收的當前幀進行短時傅里葉變換，獲得當前幀的功率譜和相位譜的傅里葉變換器；用于將當前幀之前的、到當前幀的距離在設(shè)置的時長范圍內(nèi)的若干幀的功率譜進行線性疊加，估計出當前幀的晚期反射聲的功率譜的譜估計器；用于通過譜減法從功率譜中去除晚期反射聲的功率譜，得到直達聲和早期反射聲的功率譜的譜減器；用于將去除后的功率譜與獲得的當前幀的相位譜一起進行短時傅里葉逆變換，輸出當前幀去混響后的信號的傅里葉逆變換器。本實用新型能夠解決單通道語音去混響中估計混響環(huán)境的傳遞函數(shù)或估計混響時間困難的問題。
文檔編號G10L21/0208GK202887704SQ20122028768
公開日2013年4月17日申請日期2012年6月18日優(yōu)先權(quán)日2012年6月18日
發(fā)明者樓廈廈, 吳曉婕, 李波申請人:歌爾聲學(xué)股份有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：樓廈廈;吳曉婕;李波
技術(shù)所有人：歌爾聲學(xué)股份有限公司
我是此專利的發(fā)明人

上一篇：吉他拍錘的制作方法
上一篇：一種便攜式聾人語言交流機的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

單通道語音增強相關(guān)技術(shù)

去混響相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種單通道語音去混響裝置的制作方法