專利名稱:語(yǔ)音增強(qiáng)的方法
語(yǔ)音增強(qiáng)的方法
技術(shù)領(lǐng)域:
本發(fā)明提供一種語(yǔ)音增強(qiáng)的方法,尤其涉及一種基于麥克風(fēng)的語(yǔ)音增強(qiáng)的方法。背景技術(shù):
由于大量環(huán)境噪聲的存在,麥克風(fēng)采集到的語(yǔ)音信號(hào)普遍信噪比不夠高,所以需 要通過(guò)語(yǔ)音增強(qiáng)的方法來(lái)提升輸入語(yǔ)音的信噪比?,F(xiàn)有的語(yǔ)音增強(qiáng)算法多作為產(chǎn)品的附加 功能,其算法作為芯片集成的一個(gè)模塊,或采用純軟件的方式來(lái)實(shí)現(xiàn)。還沒(méi)有產(chǎn)品采用直接 實(shí)現(xiàn)將語(yǔ)音增強(qiáng)算法作為一個(gè)芯片,集成在麥克風(fēng)中,進(jìn)行消噪處理。相關(guān)技術(shù)中語(yǔ)音增強(qiáng)的方法,麥克風(fēng)的指向性不強(qiáng),傳輸器輸出的不是降噪后的 信號(hào),對(duì)殘余噪聲的衰減處理能力差。因此實(shí)有必要提供一種新型的語(yǔ)音增強(qiáng)的方法。
發(fā)明內(nèi)容本發(fā)明需解決的技術(shù)問(wèn)題是提供一種可實(shí)現(xiàn)麥克風(fēng)指向性、增強(qiáng)語(yǔ)音處理能力的 語(yǔ)音增強(qiáng)的方法。為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種語(yǔ)音增強(qiáng)的方法,該方法應(yīng)用于實(shí)時(shí)語(yǔ)音 信號(hào)處理系統(tǒng)中,所述實(shí)時(shí)語(yǔ)音信號(hào)處理系統(tǒng)包括麥克風(fēng)及集成于麥克風(fēng)中的語(yǔ)音信號(hào)處 理芯片,該方法包括以下步驟(1)芯片對(duì)語(yǔ)音增強(qiáng)系統(tǒng)輸入的帶噪語(yǔ)音信號(hào)進(jìn)行分幀,預(yù) 加重處理,經(jīng)短時(shí)傅里葉變換到頻域;(2)將變換到頻域后的帶噪語(yǔ)音信號(hào)劃分為若干頻 帶,再計(jì)算各個(gè)頻帶能量并進(jìn)行平滑,得到經(jīng)平滑后的每個(gè)頻帶內(nèi)的信號(hào)能量,所述信號(hào)能 量包括語(yǔ)音能量和噪音能量,并得到所述噪音能量的初始估計(jì)值;(3)芯片計(jì)算各個(gè)頻帶 當(dāng)前幀的后驗(yàn)信噪比,并由前一幀的先驗(yàn)信噪比估計(jì)值得到當(dāng)前幀的先驗(yàn)信噪比估計(jì)值; (4)采用計(jì)權(quán)噪聲估計(jì)法對(duì)先驗(yàn)信噪比進(jìn)行修正;(5)根據(jù)得到的修正先驗(yàn)信噪比估計(jì)值, 計(jì)算各個(gè)頻帶的衰減增益;(6)采用門限判決對(duì)增益系數(shù)進(jìn)行調(diào)整;(7)用得到的衰減增 益,對(duì)劃分到各頻帶的信號(hào)頻譜進(jìn)行處理;(8)由修正的先驗(yàn)信噪比估計(jì)值對(duì)當(dāng)前幀進(jìn)行 判決,判斷是否是噪聲;(9)根據(jù)噪聲判決對(duì)各頻帶的噪聲進(jìn)行更新;(10)芯片將處理后的 頻域信號(hào)變換到時(shí)間域,進(jìn)行去加重處理,變成輸出信號(hào)。優(yōu)選的,所述步驟(1)的分幀過(guò)程為對(duì)在時(shí)域中的帶噪語(yǔ)音信號(hào)進(jìn)行分幀,是將 帶噪語(yǔ)音信號(hào)以幀為單位等分成若干帶噪信號(hào)單元;所述帶噪信號(hào)單元由采樣點(diǎn)組成,本 發(fā)明中選取了 SKHz的采樣頻率,幀長(zhǎng)設(shè)定成10 35ms之間,任意一幀帶噪信號(hào)單元具有 的幀長(zhǎng)為256。優(yōu)選的,所述步驟(2)中的平滑過(guò)程為用如下公式計(jì)算每個(gè)子區(qū)間的能量并進(jìn) 行平滑E (m, k) = IX (m,k) 120 ≤ k≤ N-IY(m, k) = α Y(m-1, k) + (l-a )E(m, k) 0 ≤ k ≤ N_1其中,Y(m,k)表示經(jīng)平滑后的每個(gè)頻帶區(qū)間的能量,m表示當(dāng)前幀的序號(hào),k表示當(dāng)前的子帶的序號(hào),α =0.75表示平滑因子,N為選取的頻帶總數(shù),即23。
優(yōu)選的,所述步驟(4)中的計(jì)權(quán)噪聲估計(jì)方法包括以之前得到的后驗(yàn)信噪比,參 照非線性函數(shù),得到計(jì)權(quán)因子,對(duì)先驗(yàn)信噪比估計(jì)值進(jìn)行加權(quán)處理;接下來(lái),進(jìn)行衰減增益 因子的計(jì)算,這里基于前面計(jì)算得出的先驗(yàn)信噪比估計(jì)值,采用頻譜相減的方法得到衰減 因子,其具體公式如下 其中,對(duì)于不同頻帶,a為不同的常數(shù),這里考慮到,噪聲主要集中 在較低的頻帶,因此對(duì)于中低頻段和高頻,取不同的a ;所述非線性函數(shù)為 其中[取1.5 左右,丫2取 200,92取20 ;
- ν根據(jù)得到的修正先驗(yàn)信噪比估計(jì)值
計(jì)算各個(gè)頻帶的衰減增益 q (m, k) ο優(yōu)選的,操作所述步驟(6)包括首先以當(dāng)前幀先驗(yàn)信噪比為判斷,小于某一閾值 頻帶的增益系數(shù)均乘以某一調(diào)整值qm。d,這樣做可以進(jìn)一步抑制殘余噪聲;接著將所有小于 某閥值的增益系數(shù)調(diào)整到門限值qfl■,這樣做可以避免一定的語(yǔ)音失真,可以表示為如下 公式 其中qmod = 0. 1,θ G = 1. 2,qfloor = 0. 01。優(yōu)選的,操作所述步驟(8)包括每個(gè)頻帶的噪聲能量的判決與更新采用了基于 先驗(yàn)信噪比的語(yǔ)音激活檢測(cè)方法,首先判斷當(dāng)前幀是否是純?cè)肼曅盘?hào),
其中 對(duì)VAD (m)進(jìn)行判斷,并進(jìn)行噪聲更新,如下 其中η為噪聲更新判決因子,μ為平滑因子。優(yōu)選的,所述分幀后的信號(hào)利用高通濾波器進(jìn)行預(yù)加重處理,由于語(yǔ)音信號(hào)中背景噪聲在低頻部分能量一般較大,所以使用所述高通濾波器可以衰減低頻部分的分量,使 增強(qiáng)效果更好,其形式如下Η(ζ)=1-αζ-1α 一般取值在0. 75-0. 95之間。優(yōu)選的,所述時(shí)間域的信號(hào)通過(guò)低通濾波器進(jìn)行去加重處理,和前面的預(yù)加重處 理相反,這里將信號(hào)通過(guò)一個(gè)低通濾波器,最大程度的還原原有的信號(hào),濾波器的頻響如 下;H(Z)=I+α ζ-1α 一般取值在0. 75-0. 95之間。優(yōu)選的,所述預(yù)加重和去加重的系數(shù)α =0.9。優(yōu)選的,操作所述步驟(10)包括步驟(101)、逆快速傅立葉變換,把頻域的語(yǔ)音 譜變換到時(shí)間域,得到增強(qiáng)后的時(shí)域語(yǔ)音信號(hào);步驟(102)、進(jìn)行去加重處理;步驟(103)、 將增強(qiáng)后的語(yǔ)音信號(hào)的相鄰幀的重疊部分進(jìn)行相加操作。與相關(guān)技術(shù)比較,本發(fā)明降噪方法實(shí)現(xiàn)了實(shí)時(shí)的語(yǔ)音增強(qiáng)系統(tǒng),麥克風(fēng)輸出的直 接是降噪后的信號(hào),系統(tǒng)使用的降噪算法,與改進(jìn)之前的語(yǔ)音增強(qiáng)算法相比,大大提高了對(duì) 殘余噪聲的衰減,保證了語(yǔ)音可懂度,特別的,對(duì)于展覽會(huì)噪聲一類非平穩(wěn)的加性噪聲效果 有明顯提高。
圖1為本發(fā)明的實(shí)時(shí)語(yǔ)音增強(qiáng)系統(tǒng)的結(jié)構(gòu)示意圖;圖2為本發(fā)明的語(yǔ)音增強(qiáng)算法的流程示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明作進(jìn)一步說(shuō)明。如圖1,2所示,本發(fā)明的主要思想是,通過(guò)將語(yǔ)音增強(qiáng)算法集成在專用的芯片中, 并通過(guò)設(shè)計(jì)芯片與相應(yīng)麥克風(fēng)的接口與數(shù)據(jù)傳輸,形成一個(gè)實(shí)時(shí)的語(yǔ)音增強(qiáng)系統(tǒng)。語(yǔ)音信 號(hào)通過(guò)麥克風(fēng)的采集,直接由芯片中的語(yǔ)音增強(qiáng)算法處理,得到增強(qiáng)后的信號(hào),輸出供次級(jí) 使用。本發(fā)明中的語(yǔ)音增強(qiáng)算法基本步驟如下1.使用麥克風(fēng),接收外界信號(hào);2.信號(hào)送入芯片,首先完成模數(shù)轉(zhuǎn)換(如果采用數(shù)字麥克風(fēng),這一步可以省去);3.對(duì)得到的數(shù)字信號(hào)在芯片中進(jìn)行語(yǔ)音增強(qiáng)處理;4.將處理后的信號(hào)輸出。系統(tǒng)中使用的實(shí)時(shí)語(yǔ)音增強(qiáng)方法,其包括如下步驟(1)將聲音采集裝置采集到的帶噪語(yǔ)音信號(hào)送入芯片進(jìn)行分幀、預(yù)加重處理,再經(jīng) 過(guò)短時(shí)傅里葉變換到頻域;(2)將變換到頻域后的帶噪語(yǔ)音信號(hào)劃分為若干頻帶,計(jì)算各個(gè)頻帶能量并進(jìn)行 平滑,得到經(jīng)平滑后的每個(gè)頻帶內(nèi)的信號(hào)能量;(3)通過(guò)信號(hào)能量及噪聲能量估計(jì)值,計(jì)算各個(gè)頻帶當(dāng)前幀的后驗(yàn)信噪比,并由前一幀的先驗(yàn)信噪比估計(jì)值得到當(dāng)前幀的先驗(yàn)信噪比估計(jì)值;(4)對(duì)得到的先驗(yàn)信噪比估計(jì)值,采用計(jì)權(quán)噪聲估計(jì)法進(jìn)行修正;(5)根據(jù)得到的修正先驗(yàn)信噪比估計(jì)值,計(jì)算各個(gè)頻帶的衰減增益因子;(6)采用門限判決對(duì)增益系數(shù)進(jìn)行調(diào)整;(7)用得到的衰減增益,對(duì)劃分到個(gè)頻帶的信號(hào)頻譜進(jìn)行處理;(8)由修正的先驗(yàn)信噪比估計(jì)值對(duì)當(dāng)前幀進(jìn)行判決,判斷是否是噪聲;(9)根據(jù)噪聲判決結(jié)果對(duì)各頻帶的噪聲估計(jì)值進(jìn)行更新;(10)將處理后的頻域信號(hào)變換到時(shí)間域,進(jìn)行去加重處理,變成輸出信號(hào)。下面具體的實(shí)例介紹中,語(yǔ)音增強(qiáng)系統(tǒng)輸入的含噪語(yǔ)音信號(hào)的采樣率為8kHZ,精 度為16位。對(duì)在時(shí)域中的帶噪語(yǔ)音信號(hào)進(jìn)行分幀,是將帶噪語(yǔ)音信號(hào)以幀為單位等分成若干 帶噪信號(hào)單元。所述帶噪信號(hào)單元由采樣點(diǎn)組成,本發(fā)明中選取了 SKHz的采樣頻率,根據(jù) 短時(shí)譜分析的需要,幀長(zhǎng)一般設(shè)定成10 35ms之間,本實(shí)施方式以32ms分幀,即一幀帶噪 信號(hào)單元設(shè)有256個(gè)采樣點(diǎn),自然地,任意一幀帶噪信號(hào)單元具有一定的幀長(zhǎng),本發(fā)明中任 意幀的幀長(zhǎng)為256。為了防止相鄰兩幀的帶噪信號(hào)單元間的塊效應(yīng),在分幀時(shí)要使相鄰兩幀的帶噪信 號(hào)單元之間有一定的混疊部分,即,本幀數(shù)據(jù)中有D個(gè)數(shù)據(jù)為前一幀數(shù)據(jù)的部分?jǐn)?shù)據(jù),其中 混疊部分描述如下Si (n) = Cli (m, D+n) 0 彡 η < L,i = 1,2其中Si表示輸入帶噪語(yǔ)音信號(hào),i取1和2分別表示兩路信號(hào)d(m,n) = d(m-l,L+n) 0 ^ η < D其中,Cli表示當(dāng)前幀的256點(diǎn)采樣信號(hào),因?yàn)槿我庖粠拈L(zhǎng)度為256,重疊率為 75%,所以重疊部分的采樣點(diǎn)個(gè)數(shù)D = 192。相鄰幀的帶噪信號(hào)單元的第一個(gè)采樣點(diǎn)相隔的 距離L = 256-192 = 64。m表示第m幀信號(hào)。本發(fā)明相鄰兩幀的帶噪信號(hào)單元之間可以具有50% 75%的重疊率。本實(shí)施方 式選取相鄰兩幀的帶噪信號(hào)單元之間具有75%的重疊率,即以本幀的前75% (192點(diǎn))的 帶噪信號(hào)單元和前一幀后75% (192點(diǎn))的帶噪語(yǔ)音信號(hào)單元一致。分幀后的信號(hào),先經(jīng)過(guò)一個(gè)高通濾波器,作為預(yù)加重處理。由于語(yǔ)音信號(hào)中背景噪 聲在低頻部分能量一般較大,所以使用所述高通濾波器可以衰減低頻部分的分量,使增強(qiáng) 效果更好。其形式如下Η(ζ)=1-αζ-1α 一般取值在0. 75-0. 95之間,這里α = 0. 9,可以取得較好的效果。由于語(yǔ)音信號(hào)是短時(shí)平穩(wěn)的,所以可以對(duì)信號(hào)進(jìn)行分幀處理,但分幀又會(huì)帶來(lái)幀 信號(hào)邊界處的不連續(xù)造成的頻率泄露。所以這里要進(jìn)行短時(shí)傅里葉變換(STFT)。短時(shí)傅里 葉變換可以理解為對(duì)幀信號(hào)先加窗再做傅里葉變換。加窗函數(shù)的目的就是為了在做短時(shí)傅 里葉變換時(shí),減少幀信號(hào)邊界處的不連續(xù)造成的頻率泄露,從而減少“塊效應(yīng)”。這里使用了 一個(gè)長(zhǎng)度等于幀長(zhǎng)256點(diǎn)的漢明窗,它可以有效的降低吉布斯效應(yīng)的震蕩程度。漢明窗函數(shù)定義如下win (η) = {
7
0. 54-0. 46cos (2* π *n/M) 0 ≤ η ≤ M_10其余 η}短時(shí)傅里葉變換如下 其中,M = 256,為短時(shí)傅利葉變換的計(jì)算長(zhǎng)度。m表示第m幀信號(hào)。這樣就將當(dāng)前幀的帶噪語(yǔ)音信號(hào)s從時(shí)域變換到了頻率域。變換到頻域后的帶噪語(yǔ)音信號(hào)包括語(yǔ)音信號(hào)和噪聲信號(hào),該信號(hào)以幀為單位劃分 為若干頻帶,之后操作針對(duì)不同頻帶有不同的策略。接著對(duì)4kHz以下信號(hào)進(jìn)行頻帶劃分,之后的信號(hào)處理均在各個(gè)頻帶中進(jìn)行,這樣 既可以減少運(yùn)算復(fù)雜度,又可以針對(duì)不同的頻帶做不同的處理,得到更好的效果。本發(fā)明中的信號(hào)共劃分為23個(gè)頻帶。具體見表1。表123個(gè)頻帶劃分 頻帶能量估計(jì),用如下公式計(jì)算每個(gè)子區(qū)間的能量并進(jìn)行平滑E (m, k) = IX (m,k) 120 ^ k ^ N-IY(m, k) = α Y(m-1, k) + (l-a )E(m, k) 0 彡 k 彡 N_1其中,Y(m,k)表示經(jīng)平滑后的每個(gè)頻帶區(qū)間的能量,m表示當(dāng)前幀的序號(hào),k表示 當(dāng)前的子帶的序號(hào),a =0.75表示平滑因子。N為選取的頻帶總數(shù),即23。經(jīng)平滑后的每個(gè)子帶區(qū)間的能量包括語(yǔ)音能量和噪聲能量。接著,計(jì)算當(dāng)前幀信號(hào)的后驗(yàn)信噪比,如下 其中V(k)表示當(dāng)前估計(jì)的噪聲信號(hào)能量,這個(gè)值會(huì)在每幀數(shù)據(jù)處理的最后進(jìn)行 判決更新。然后基于伊弗雷_馬拉的先驗(yàn)信噪比估計(jì)公式,計(jì)算當(dāng)前幀的先驗(yàn)信噪比估計(jì)值 基于伊弗雷-馬拉的先驗(yàn)信噪比估計(jì)值,會(huì)出現(xiàn)對(duì)噪聲的過(guò)估計(jì),即對(duì)于高信噪 比的情況下,得到的信噪比估計(jì)值偏高,造成增強(qiáng)后的語(yǔ)音失真,這里采用計(jì)權(quán)噪聲估計(jì)方 法進(jìn)行修正。以之前得到的后驗(yàn)信噪比為判斷值,參照如圖3的非線性函數(shù),得到計(jì)權(quán)因子,對(duì) 先驗(yàn)信噪比估計(jì)值進(jìn)行加權(quán)處理。其中γ 取 1. 5 左右,γ 2 取 200,θ z 取 20。
接下來(lái),進(jìn)行衰減增益因子的計(jì)算。這里基于前面計(jì)算得出的先驗(yàn)信噪比估計(jì)值, 采用頻譜相減的方法得到衰減因子。其具體公式如下 q{k)=
1SNRpost其中,對(duì)于不同頻帶,a為不同的常數(shù)。這里考慮到,噪聲主要集中在較低的頻帶,因此對(duì)于中低頻段和高頻,取不同的a。本發(fā)明中對(duì)于k彡14的頻帶,即1. IkHz以下的信號(hào),a = 8. 89對(duì)于14 < k彡18的頻帶,即1. 1 2kHz之間的信號(hào),a = 6. 44對(duì)于k > 18的頻帶,即2kHz以上的信號(hào),a = 6. 21接著,對(duì)得到的增益系數(shù)進(jìn)行調(diào)整,首先以當(dāng)前幀先驗(yàn)信噪比為判斷,小于某一閾 值頻帶的增益系數(shù)均乘以某一調(diào)整值qm。d,這樣做可以進(jìn)一步抑制殘余噪聲。接著將所有小于某閥值的增益系數(shù)調(diào)整到門限值qfl。 ,這樣做可以避免一定的語(yǔ)
音失真??梢员硎緸槿缦鹿?
(lik)>q floor otherwise其中 qm。d = 0.1, θ G = 1. 2,Qfloor = 0. 01將當(dāng)前幀的各頻帶的帶噪語(yǔ)音信號(hào)X(m,k),乘以前面得到的相應(yīng)頻帶的衰減增益 因子,得到的就是該頻帶的增強(qiáng)后的語(yǔ)音信號(hào)。 其中,N = 23為頻帶總數(shù),為第k個(gè)頻帶增強(qiáng)后的語(yǔ)音信號(hào)估計(jì)值。本發(fā)明中, 每個(gè)頻帶的噪聲能量的判決與更新采用了基于先驗(yàn)信噪比的語(yǔ)音激活檢測(cè)(VAD)方法。首 先判斷當(dāng)前幀是否是純?cè)肼曅盘?hào)。 其中 對(duì)VAD(m)進(jìn)行判斷,并進(jìn)行噪聲更新,如下V(m,k) =
其中n為噪聲更新判決因子,本發(fā)明中取n =ο.οι。 μ為平滑因子,這里取μ =0.9。最后的時(shí)域變換及輸出部分進(jìn)行的操作有第一步逆快速傅里葉變換(FFT),把頻域的語(yǔ)音譜變換到時(shí)間域,得到增強(qiáng)后的 時(shí)域語(yǔ)音信號(hào)。
時(shí)域的變換用通用的逆離散傅利葉變換(IDFT)實(shí)現(xiàn)。
其中,M = 256,為幀長(zhǎng)。s為變換到時(shí)域后的全頻帶增強(qiáng)后的語(yǔ)音信號(hào)。第二步進(jìn)行去加重處理。和前面的預(yù)加重處理相反,這里將信號(hào)通過(guò)一個(gè)低通濾波器,最大程度的還原原 有的信號(hào)。濾波器的頻響如下;H(Z)=I+α ζ-1這里的系數(shù)與前面預(yù)加重處理相對(duì)應(yīng),取α =0.9。第三步將增強(qiáng)后的語(yǔ)音信號(hào)的相鄰幀的重疊部分進(jìn)行相加操作。具體的重疊部分相加可以用如下的方法來(lái)表示。
L = 64為相鄰的幀信號(hào)開始處的距離,M = 256,為幀長(zhǎng)。S’代表完成相加操作后 的最終輸出信號(hào)。與相關(guān)技術(shù)相比較,本發(fā)明提出了麥克風(fēng)集成芯片的實(shí)時(shí)語(yǔ)音增強(qiáng)系統(tǒng)解決方 案,麥克風(fēng)直接輸出的經(jīng)過(guò)語(yǔ)音增強(qiáng)的信號(hào),供下級(jí)使用,節(jié)約了另外使用相應(yīng)算法的成 本。本文提出的語(yǔ)音增強(qiáng)的方法改進(jìn)有效地利用了先驗(yàn)信噪比估計(jì)值,并對(duì)不同頻帶 采取不同處理策略,引入了計(jì)權(quán)噪聲估計(jì),及增益因子門限判決。算法可靠實(shí)時(shí),對(duì)于噪聲 信號(hào)的抑制效果十分明顯,特別改進(jìn)了算法對(duì)于展覽會(huì)噪聲一類非平穩(wěn)加性噪聲的抑制效以上所述的僅是本發(fā)明的實(shí)施方式,在此應(yīng)當(dāng)指出,對(duì)于本領(lǐng)域的普通技術(shù)人員 來(lái)說(shuō),在不脫離本發(fā)明創(chuàng)造構(gòu)思的前提下,還可以做出改進(jìn),但這些均屬于本發(fā)明的保護(hù)范圍。
權(quán)利要求
一種語(yǔ)音增強(qiáng)的方法,該方法應(yīng)用于實(shí)時(shí)語(yǔ)音信號(hào)處理系統(tǒng)中,所述實(shí)時(shí)語(yǔ)音信號(hào)處理系統(tǒng)包括麥克風(fēng)及集成于麥克風(fēng)中的語(yǔ)音信號(hào)處理芯片,其特征在于該方法包括以下步驟(1)芯片對(duì)語(yǔ)音增強(qiáng)系統(tǒng)輸入的帶噪語(yǔ)音信號(hào)進(jìn)行分幀,預(yù)加重處理,經(jīng)短時(shí)傅里葉變換到頻域;(2)將變換到頻域后的帶噪語(yǔ)音信號(hào)劃分為若干頻帶,再計(jì)算各個(gè)頻帶能量并進(jìn)行平滑,得到經(jīng)平滑后的每個(gè)頻帶內(nèi)的信號(hào)能量,所述信號(hào)能量包括語(yǔ)音能量和噪音能量,并得到所述噪音能量的初始估計(jì)值;(3)芯片計(jì)算各個(gè)頻帶當(dāng)前幀的后驗(yàn)信噪比,并由前一幀的先驗(yàn)信噪比估計(jì)值得到當(dāng)前幀的先驗(yàn)信噪比估計(jì)值;(4)采用計(jì)權(quán)噪聲估計(jì)法對(duì)先驗(yàn)信噪比進(jìn)行修正;(5)根據(jù)得到的修正先驗(yàn)信噪比估計(jì)值,計(jì)算各個(gè)頻帶的衰減增益;(6)采用門限判決對(duì)增益系數(shù)進(jìn)行調(diào)整;(7)用得到的衰減增益,對(duì)劃分到各頻帶的信號(hào)頻譜進(jìn)行處理;(8)由修正的先驗(yàn)信噪比估計(jì)值對(duì)當(dāng)前幀進(jìn)行判決,判斷是否是噪聲;(9)根據(jù)噪聲判決對(duì)各頻帶的噪聲進(jìn)行更新;(10)芯片將處理后的頻域信號(hào)變換到時(shí)間域,進(jìn)行去加重處理,變成輸出信號(hào)。
2.根據(jù)權(quán)利要求1所述的語(yǔ)音增強(qiáng)的方法,其特征在于所述步驟(1)的分幀過(guò)程為 對(duì)在時(shí)域中的帶噪語(yǔ)音信號(hào)進(jìn)行分幀,是將帶噪語(yǔ)音信號(hào)以幀為單位等分成若干帶噪信 號(hào)單元;所述帶噪信號(hào)單元由采樣點(diǎn)組成,本發(fā)明中選取了 SKHz的采樣頻率,幀長(zhǎng)設(shè)定成 10 35ms之間,任意一幀帶噪信號(hào)單元具有的幀長(zhǎng)為256。
3.根據(jù)權(quán)利要求1所述的語(yǔ)音增強(qiáng)的方法,其特征在于所述步驟(2)中的平滑過(guò)程 為用如下公式計(jì)算每個(gè)子區(qū)間的能量并進(jìn)行平滑 其中,Y(m,k)表示經(jīng)平滑后的每個(gè)頻帶區(qū)間的能量,m表示當(dāng)前幀的序號(hào),k表示當(dāng)前 的子帶的序號(hào),a =0.75表示平滑因子,N為選取的頻帶總數(shù),即23。
4.根據(jù)權(quán)利要求1所述的語(yǔ)音增強(qiáng)的方法,其特征在于所述步驟(4)中的計(jì)權(quán)噪聲 估計(jì)方法包括以之前得到的后驗(yàn)信噪比,參照非線性函數(shù),得到計(jì)權(quán)因子,對(duì)先驗(yàn)信噪比 估計(jì)值進(jìn)行加權(quán)處理;接下來(lái),進(jìn)行衰減增益因子的計(jì)算,這里基于前面計(jì)算得出的先驗(yàn)信 噪比估計(jì)值,采用頻譜相減的方法得到衰減因子,其具體公式如下 1--SNRpost其中,對(duì)于不同頻帶,a為不同的常數(shù),這里考慮到,噪聲主要集中在 較低的頻帶,因此對(duì)于中低頻段和高頻,取不同的a ;所述非線性函數(shù)為 其中Y1取1.5左右,Y2取200,9,取20;根據(jù)得到的修正先驗(yàn)信噪比估計(jì)值幻計(jì)算各個(gè)頻帶的衰減增益q(m,k)。
5.根據(jù)權(quán)利要求1所述的語(yǔ)音增強(qiáng)的方法,其特征在于操作所述步驟(6)包括首先 以當(dāng)前幀先驗(yàn)信噪比為判斷,小于某一閾值頻帶的增益系數(shù)均乘以某一調(diào)整值qm。d,這樣做 可以進(jìn)一步抑制殘余噪聲;接著將所有小于某閥值的增益系數(shù)調(diào)整到門限值qfl■,這樣做 可以避免一定的語(yǔ)音失真,可以表示為如下公式q{k) =ξ{Κ)<θα[q(k), otherwisen\Φ) > ^lfloor[q floors otherwise其中 qmod = 0. 1,θ G = 1. 2,Qfloor = 0. 01。
6.根據(jù)權(quán)利要求1所述的語(yǔ)音增強(qiáng)的方法,其特征在于操作所述步驟(8)包括每個(gè) 頻帶的噪聲能量的判決與更新采用了基于先驗(yàn)信噪比的語(yǔ)音激活檢測(cè)方法,首先判斷當(dāng)前 幀是否是純?cè)肼曅盘?hào),VADim) =-IgO +til ^ + .其中 Y (m,k) = min[SNRp。st(m,lOJOLQwJhmaxl^i^i^^OAXKr2.5]。對(duì)VAD(m)進(jìn)行判斷,并進(jìn)行噪聲更新,如下[MV{m-\,k) + {\-M)E{m,k) VAD(m)<^ _\V{m -1’ k)VAD(m) > η其中n為噪聲更新判決因子,μ為平滑因子。
7.根據(jù)權(quán)利要求1所述的語(yǔ)音增強(qiáng)的方法,其特征在于所述分幀后的信號(hào)利用高通 濾波器進(jìn)行預(yù)加重處理,由于語(yǔ)音信號(hào)中背景噪聲在低頻部分能量一般較大,所以使用所 述高通濾波器可以衰減低頻部分的分量,使增強(qiáng)效果更好,其形式如下Η(ζ) = 1-α ζ—1α 一般取值在0.75-0. 95之間。
8.根據(jù)權(quán)利要求1所述的語(yǔ)音增強(qiáng)的方法,其特征在于所述時(shí)間域的信號(hào)通過(guò)低通 濾波器進(jìn)行去加重處理,和前面的預(yù)加重處理相反,這里將信號(hào)通過(guò)一個(gè)低通濾波器,最大 程度的還原原有的信號(hào),濾波器的頻響如下;Η(ζ) = 1+α ζ—1α 一般取值在0.75-0. 95之間。
9.根據(jù)權(quán)利要求7或8所述的語(yǔ)音增強(qiáng)的方法,其特征在于所述預(yù)加重和去加重的 系數(shù)α =0.9。
10.根據(jù)權(quán)利要求1所述的語(yǔ)音增強(qiáng)的方法,其特征在于操作所述步驟(10)包括步 驟(101)、逆快速傅立葉變換,把頻域的語(yǔ)音譜變換到時(shí)間域,得到增強(qiáng)后的時(shí)域語(yǔ)音信號(hào); 步驟(102)、進(jìn)行去加重處理;步驟(103)、將增強(qiáng)后的語(yǔ)音信號(hào)的相鄰幀的重疊部分進(jìn)行 相加操作。
全文摘要
本發(fā)明提供了一種語(yǔ)音增強(qiáng)的方法,該方法包括以下步驟提供麥克風(fēng)及集成于麥克風(fēng)的語(yǔ)音信號(hào)處理芯片,麥克風(fēng)用于接收外界信號(hào);語(yǔ)音信號(hào)處理芯片用于進(jìn)行語(yǔ)音增強(qiáng)處理;對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行處理得到的頻域信號(hào)變換到時(shí)間域,進(jìn)行去加重處理,變成輸出信號(hào)。該方法可實(shí)現(xiàn)麥克風(fēng)指向性,同時(shí)處理語(yǔ)音信號(hào)的能力增強(qiáng)。
文檔編號(hào)G10L21/02GK101894563SQ201010227959
公開日2010年11月24日 申請(qǐng)日期2010年7月15日 優(yōu)先權(quán)日2010年7月15日
發(fā)明者葉利劍 申請(qǐng)人:瑞聲聲學(xué)科技(深圳)有限公司;瑞聲光電科技(常州)有限公司