用來降低語音信號中噪聲的方法和裝置的制作方法

文檔序號：2819898閱讀：318來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用來降低語音信號中噪聲的方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用來消除一語音信號中的噪聲以便抑制或降低其內(nèi)所包含的噪聲的方法和裝置。
在便攜式電話機或語音識別領(lǐng)域中，為了突出它的語音分量而必須抑制在被收集的語音信號中所包含的諸如背景噪聲或環(huán)境噪、聲之類的噪聲。作為用來突出其語音或降低該噪聲的技術(shù)，使用了一種R.J.Mcaulay和M.L.Maplass在＂使用一軟判定噪聲抑制濾波器的語音增強＂(IEEE Trans.Acoust.，Speech Signal Processing，Vol.28，pp.137 to 145，April 1980)中所披露的用于衰減系數(shù)調(diào)整的條件概率函數(shù)的技術(shù)。
在上述噪聲抑制技術(shù)中，由于一不適當(dāng)?shù)臑V波或基于一不適當(dāng)被安置的信噪比(SNR)的操作而頻繁出現(xiàn)所產(chǎn)生的不自然的聲調(diào)或失真語音。這是所不希望出現(xiàn)的現(xiàn)象，在實際操作中為了實現(xiàn)一最佳的性能，用戶不得不去調(diào)整作為一噪聲抑制裝置的參量之一的SNR。另外，利用常規(guī)的語音信號增強技術(shù)在短時間內(nèi)有效化消除SNR中對明顯變化敏感的語音信號內(nèi)的噪聲而又不產(chǎn)生失真是困難的。
這種語音增強或噪聲降低技術(shù)采用了一種通過將輸入功率或電平與一予置閾值相比較而鑒別一噪聲范圍的技術(shù)。但是，如果利用與禁止閾值跟蹤語音相關(guān)的技術(shù)使該閾值的時間常數(shù)增加，那么，就不能適當(dāng)?shù)馗S噪聲電平的變化，特別是噪聲電平的增加，從而導(dǎo)致出現(xiàn)錯誤的辨別。
為了克服這個缺點，本發(fā)明具有在日本專利申請平-6-99869(1994)中所提出的一種用來降低在一語音信號中的噪聲的噪聲降低方法。
利用這種用于語音信號的噪聲降低方法，噪聲抑制是通過根據(jù)由輸入語音信號和語音出現(xiàn)概率得到的SNR而適當(dāng)?shù)乜刂埔挥糜谟嬎阋徽Z音分量構(gòu)成的最大似然濾波來實現(xiàn)的。在計算語音出現(xiàn)概率中該方法采用了一種相應(yīng)于較少被估算噪聲頻譜的輸入語音頻譜的信號。
利用這種用于語音信號的噪聲降低方法，因為最大似然濾波是依據(jù)該輸入語音信號的SNR而被調(diào)整為一最佳抑制濾波，所以可以實現(xiàn)對于輸入語音信號的充分的噪聲減少。
但是，為了計算語音出現(xiàn)概率需要復(fù)雜和龐大的處理操作，因而希望能簡化該處理操作。
另外，在輸入語音信號中的輔音，特別是在輸入語音信號中的背景噪音中出現(xiàn)的輔音有被抑制的趨向。因而希望該輔音分量不被抑制。
因此本發(fā)明的一個目的是提供一種用于輸入語音信號的噪聲降低方法，從而使得對于該輸入語音信號的噪聲抑制的處理操作得以簡化并且可以阻止在該輸入信號中的輔音分量被抑制。
在一個方面，本發(fā)明所提供的與噪聲抑制相關(guān)的降低在一輸入語音信號中噪聲的方法包括有檢測在該輸入語音信號中所包含的輔音部分的步驟和響應(yīng)由輔音部分檢測步驟的輔音檢測的結(jié)果以一種控制方式在從輸入語音信號中消除該噪聲時抑制該噪聲降低量的步驟。
在另一方面，本發(fā)明所提供的用來降低在一語音信號中噪聲的裝置包括有一用于與噪聲抑制相關(guān)降低在的一輸入語音信號中的噪聲以便使該噪聲降低量根據(jù)一控制信號而變化的噪聲降低單元，用來檢測在輸入語音信號中所包含的一輔音部分的裝置，和用來響應(yīng)來自輔音部分檢測結(jié)果以受控方式抑制該噪聲降低量的裝置。
利用根據(jù)本發(fā)明的噪聲降低方法和裝置，因為在這樣一種方式中從輸入語音信號中檢測輔音部分并且按照所檢測的輔音從該輸入語音信號中消除噪聲從而抑制該噪聲降低量，因而使得在噪聲抑制期間除去輔音部分和防止該輔音部分的失真變?yōu)榭赡?。另外，因為輸入語音信號被轉(zhuǎn)換為頻域信號，從而使得僅僅包含在該輸入語音信號中的臨界特性可被取出用于執(zhí)行噪聲抑制的處理，因而使得減少處理操作量變?yōu)榭赡堋?br> 利用與語音信號相關(guān)的噪聲降低方法和裝置，使用在輸入語音信號的一短的范圍內(nèi)的至少一個被檢測的能量變化值、一表明在該輸入語音信號中頻率分量的分布的值和在該輸入語音信號中的零交叉數(shù)可以檢測該輔音。在檢測該輔音中，以這樣一種方式將噪聲從輸入語音信號中消除從而抑制噪聲降低量，使得在噪聲抑制期間除去輔音部分和防止該輔音部分的失真以及降低用于噪聲的處理操作量成為可能。
另外，使用本發(fā)明的噪聲降低方法和裝置，因為用于與從輸入語音信號中消除噪聲的濾波相關(guān)的濾波特性可以利用響應(yīng)于輔音部分檢測的第一值和第二值來控制，因而通過與輸入語音信號的最大SN比相一致的濾波從該輸入語音信號中消除噪聲變?yōu)榭赡?，同時在噪聲抑制期間除去輔音部分和防止輔音部分的失真以及減少用于噪聲抑制的處理操作量變?yōu)榭赡堋?br>

圖1示出了根據(jù)本發(fā)明的一噪聲降低裝置的一實施例的方框圖；圖2示出了根據(jù)本發(fā)明的用來降低在一語音信號中的噪聲的一噪聲降低方法的操作的一流程圖；圖3示出了用于圖1的實施例的能量E[K]和衰減能量Edecay[K]的一具體例子；圖4示出了用于圖1的實施例的一RMS值RMS[K]、一估計噪聲電平值MinRMS[K]和一最大RMS值MaxRMS[K]的具體例子；圖5示出了用于圖1中所示實施例的相關(guān)能量Brel[K]、一最大SNR MAXSNR[K](分貝)、一最大SNR MAXSNR[K]和作為噪聲辨別的閾值之一的值dBthresrel[K]的具體例子；圖6的圖形示出了用于圖1所示實施例的作為相對于最大SNRMaxSNR[K]所規(guī)定的一特征的NR_電平[K]；圖7示出了用于圖1所示實施例的NR[W，K]和最大噪聲降低量(dB)之間的關(guān)系；圖8說明了用于圖1所示的實施例的用來求出該輸入信號頻譜的頻段的分布值的一種方法；圖9示出了用于根據(jù)本發(fā)明降低該語音信號中的噪聲的一噪聲降低裝置的改進的方框圖。
參照附圖，將詳細說明根據(jù)本發(fā)明的用來降低語音信號中噪聲的方法和裝置。
圖1示出了根據(jù)本發(fā)明的用來降低語音信號中噪聲的一噪聲降低裝置的一實施例。
用于語音信號的該噪聲降低裝置包括有一頻譜校正單元10，作為與噪聲抑制相關(guān)的從輸入語音信號中消除噪聲從而使噪聲降低量可根據(jù)一控制信號變化的一噪聲降低單元。該用于語音信號的噪聲降低裝置還包括一輔音檢測單元41，作為用來檢測包含在輸入語音信號中的輔音部分的一輔音部分檢測裝置，和一Hn值計算單元7，作為用于響應(yīng)于由輔音部分檢測裝置所產(chǎn)生的輔音檢測結(jié)果而抑制噪聲降低量的控制裝置。
用于語音信號的該噪聲降低裝置進一步包括有一快速付里葉變換單元3作為用來將輸入語音信號變換為一在頻率軸上的信號的變換裝置。
一進入該噪聲降低的裝置的語音信號輸入端13的輸入語音信號Y(t)被提供到一成幀單元1。由成幀單元1輸出的一成幀信號Y-framej，k被提供給窗口單元2、在一噪聲估算單元5中的均方根(RMS)計算單元21、和一濾波單元8中。
窗口單元2的輸出被提供給快速付里葉變換單元3，其輸出被提供到頻譜校正單元10和頻段分離單元4。
頻段分離單元4的輸出被提供給頻譜校正單元10、在噪聲估算單元5中的噪聲頻譜估算單元26、Hn值計算單元7以及在輔音檢測單元41中的零交叉檢測單元42和音調(diào)檢測單元43。頻譜校正單元10的輸出通過快速付里葉變換單元11以及重疊和相加單元12被提供到語音信號輸出端14。
RMS計算單元21的一輸出被提供給相關(guān)能量計算單元22、最大RMS計算單元23、估算噪聲電平計算單元24、噪聲頻譜估算單元26、在輔音檢測單元41中的鄰近語音幀檢測單元44和輔音分量檢測單元45。最大RMS計算單元23的一輸出被提供給估算噪聲電平計算單元24和最大SNR計算單元25。相關(guān)能量計算單元22的一輸出被提供給噪聲頻譜估算單元26。估算噪聲電平計算單元24的一輸出被提供給濾波單元8、最大SNR計算單元25、噪聲頻譜估算單元26和NR值計算單元之6。最大SNR計算單元25的一輸出被提供給NR值計算單元6和噪聲頻譜估算單元26，噪聲頻譜估算單元26的一輸出被提供給Hn值計算單元7。
NR值計算單元6的一輸出再次被提供給NR值計算單元6，同時還提供給NR2值計算單元46。
零交叉檢測單元42的一輸出被提供給鄰近語音幀檢測單元44和輔音分量檢測單元45。音調(diào)檢測單元43的一輸出被提供給輔音分量檢測單元45。輔音分量檢測單元45的一輸出被提供給NR2值計算單元46。
NR2值計算單元46的一輸出被提供給Hn值計算單元7。
Hn值計算單元7的一輸出通過濾波單元8和頻段轉(zhuǎn)換單元9被提供給頻譜校正單元10。
后面將說明用于語音信號的噪聲降低裝置的第一實施例的操作。在下面的說明中，說明噪聲降低裝置的各種分量的操作在圖2的流程圖的各個步驟的括號內(nèi)被指明。
加到語音信號輸入端13的所提供的輸入語音信號Y(t)包括有一語音分量和一噪聲分量。該輸入語音信號Y(t)是例如為以取樣頻率FS取樣的一數(shù)字信號，它被提供給成幀單元1，在那里被分離成為每一個具有一FL取樣的幀長度的多個幀。這種分離的輸入語音信號Y[t]隨后在該幀的基礎(chǔ)上被處理。幀時間間隔(是沿時間軸的幀位移量)是FI取樣，這樣第(K＋1)幀是在作為來自第K幀的FI取樣之后開始的。作為取樣頻率和取樣數(shù)的例子說明，如果該取樣頻率FS是8KHz則80次取樣的幀間隔FI相當(dāng)于10ms，同時160次取樣的幀長度FL相當(dāng)于20ms。
在由快速付里葉變換單元3進行正交變換計算之前，窗口單元2對來自成幀單元1的每個成幀信號Y-framej，k與一窗口系數(shù)Winput相乘。和在后面所將要介紹的在基本幀信號處理操作的末級所執(zhí)行的反相FFI，一輸出信號與一窗口系數(shù)Woutput相乘。窗口系數(shù)Winput和Woutput分別由下式等式(1)和(2)所說明Winput[j]=(12-12cos(2πjFL))14,0≤j≤FL]]>.....(1)Woutput[j]=(12-12cos(2πjFL))34,0≤j≤FL]]>.....(2)
快速付里葉變換單元3隨后執(zhí)行256點快速付里葉變換操作以產(chǎn)生頻率頻譜幅值，之后該頻譜幅值由頻段分離部分4分離成例如18頻段。作為一例子這些頻段的頻率范圍示于表1
表1
如前面所說明的，來自頻率頻譜分離結(jié)果的頻段幅值變?yōu)檩斎胄盘栴l譜的幅度Y[W，K]，并被輸出到各自部分。
上述頻率范圍是基于這樣的事實，頻率越多，人類聽覺器官可感知分辨率的就變得越少。作為各個頻段的幅度，使用了在適當(dāng)頻率范圍中的最大FEt幅度。
在噪聲估算單元5中，成幀噪聲信號Y_framej，k從該語音中被分離并且認為有噪聲的一幀被檢測，同時將所估算的噪聲電平值和最大SN比提供給NR值計算單元6。通過例如三個檢測操作的組合執(zhí)行有噪聲范圍估算或有噪聲幀的檢測?，F(xiàn)在說明有噪聲范圍估算的說明性例子。
RMS計算單元21計算每幀信號的RMS值并輸出所計算的RMS值。由下式(3)計算第K幀的RMS或RMS[K]RMS[k]=1FLΣj=0FL-1(y_framej,k)2]]>.....(3)在相關(guān)能量計算單元22中，計算與來自前面幀的衰減能量有關(guān)的第K幀的相關(guān)能量，或dBre[K]，并且輸出結(jié)果值。由下面等式(4)求出相關(guān)能量(dB)，即dBre[K]dBrel[K]=10log10(Edecay[K])E[K]]]>……(4)同時從下面等式(5)和(6)求出能量值E[K]和衰減能量值Edecay[K]E[k]=Σl=1FL(y_framej,k)2]]>.....(5)Edecay[k]=max(E[k],(exp(-FI0.65*FS))*Edecay[k-1])]]>.....(6)等式(5)可以根據(jù)等式(3)被表示為FL*(RMS[K]))2。當(dāng)然，由RMS計算單元21在等式(3)的計算期間所得到的等式(5)的值可以直接地提供給相關(guān)能量計算單元21。在等式(6)中，衰減時間被置為0.65秒。
圖3示出了說明能量值E[K]和衰減能量Edecay[K]的例子。
最大RMS計算單元23求得并輸出用來估算信號電平與噪聲電平之比的最大值所必須的一最大RMS值，即最大SN比。這個最大RMS值MaxRMS[K]可由等式(7)求出MaxRMS[K]＝max(4000，RMS[K]，θ*MacRMS[K－1]＋(1－θ)*RMS[K])……(7)其中θ是一衰減常數(shù)。對于θ來說，是在3.2秒時將最大RMS值衰減1/e所使用即θ＝0.993769所使用的這樣一個值。
估算噪聲電平計算單元24求得并輸出適用來求解背景噪聲電平的一最小RMS值。這個估算噪聲電平值minRMS[K]是在當(dāng)前時間點之前的五個局部最小值的最小值，即滿足于等式(8)的五個值中的最小值(RMS[K]＜0.6*MaxRMS[K]和RMS[K] ＜4000和RMS[K] ＜RMS[K＋1]和RMS[K] ＜RMS[K－1]和RMS[K] ＜RMS[K－2]或(RMS[K]＜MinRMS)該估算的噪聲電平值minRMS[K]的設(shè)置使得與語音無關(guān)的背景噪聲上升。對于高噪聲電平來說這個上升比值是按指數(shù)規(guī)律上升的，同時為了獲得一更顯著的上升對于低噪聲電平使用了一固定上升比。
圖4示出了說明RMS值RMS[K]、估算噪聲電平值minRMS[K]和最大RMS值MaxRMS[K]的例子。
最大SNR計算單元25通過下面等式(9)利用最大RMS值和估算的噪聲電平值來估算和計算最大SN比MaxSNR[K]MaxSNR[k]=20log10(MaxRMS[k]MinRMS[k])-1]]>……(9)根據(jù)最大SNR值MaxSNR，計算在從0到1的表示相關(guān)噪聲電平的一范圍內(nèi)的一標(biāo)準化參數(shù)NR_|eve|。對于NR_|eve|，使用下面的函數(shù) ……(10)現(xiàn)在說明噪聲頻譜會算單元26的操作。在相關(guān)能量計算單元22、估算噪聲電平計算單元24和最大SNR計算單元25中求得的各個值是用來辨別來自該背景噪聲的語音的。如果下面的條件((RMS[K]＜noiseRMsthres[K])或(dBrel[K]＞dBthres[K]))和(RMS[K]＜RMS[K－1]＋200)……(11)這里NoiseRMSthres[K]＝1.05＋0.45*NR_level[K]×MinRMS[K]dBthres rel[K]＝max(MaxSNR[K]-4.0，0.9*MaxSNR[K]是有效的，則在第K幀中的信號被分類為背景噪聲。因此被分類為背景噪聲的幅度被作為該噪聲頻譜的一時間平均估算值N(W，K)被計算和輸出。
圖5示出了說明在式11中所示的相關(guān)能量(dB)即作為用于噪聲辨別的閾值之一的dBrel[K]、最大SNR[K]和dBthresrel的例子。
圖6示出了在等式10中作為MaxSNR[K]的一函數(shù)的NR_level[K]。
如果第K幀是被分類為背景噪聲或噪聲，則該噪聲頻譜N[W，K]的平均估算值由下面等式(12)所計算的當(dāng)前幀的信號的輸入信號頻譜的幅度Y[W，K]可更新N[W，K]＝a*max(N[W，K－1]，Y[W，K])＋(1－a)*min(N[W，K－1]，Y[W，K])……(12)α=exp(-FI0.5*FS)]]>這里W是在頻段分離中的具體的頻段數(shù)。
如果第K幀被分類為語音，則N[W，K－1]的值被直接地用于N[W，K]。
NR值計算單元6計算NR[W，K]，它是一用來禁止該濾波響應(yīng)來自突然變化的值，并且輸出所產(chǎn)生的值NR[W，K]，這個NR[W，K]是一從0到1范圍內(nèi)的值并由等式(13)來確定 ……(13)
在等式(13)中，adj[W，K]是用于考慮如下所述的效果并由等式(14)所確定的一個參數(shù)δNR＝0.004adj[W，K]＝min(adj1[K]，adj2[K]－adj3[W，K]……(14)在等式(14)中，adj1[K]是一具有通過如下所述的濾波抑制在高SNR處的噪聲抑制效果的效果的值，并由下述等式(15)來確定adj1[k]=(1-MaxSNR[K]-291429≤MaxSNR[K]<430otherwise1MaxSNR[K]<29]]>……(15)在等式(14)中，adj2[K]是一具有通過上述濾波操作相對于一極低的噪聲電平或一極高的噪聲電平抑制該噪聲抑制速率的效果的值，并由下述等式來確定
……(16)在等式(14)中ajd3[K]是一具有在2375Hz和4000Hz之間從18dB到15dB抑制最大噪聲降低量的效果的值，并由下面等式(17)來確定adj3[W,K]=(0.059415(w-2375)4000-23750W<2375Hzotherwise]]>……(17)同時，如圖7所示，可以看出上述NR[W，K]的值和以dB表示的最大噪聲降低量的值之間的關(guān)系在該dB范圍內(nèi)基本為線性。
在圖1的輔音檢測部分41中，該輔音分量是根據(jù)輸入信號頻譜Y[W，K]的幅度Y在幀基礎(chǔ)上被檢測的。按照輔音檢測的結(jié)果，計算表明該輔音作用的值CE[K]并輸出這樣被計算的值CE[K]。現(xiàn)在來說明輔音檢測的一個例子。
在零交叉部分42，符號從正反轉(zhuǎn)為負或從負反轉(zhuǎn)為正的Y[W，K]的相鄰取樣之間的部分或在兩個具有相反符號的取樣之間存在有一具有值為0的取樣的部分被作為零交叉而被檢測(步驟S3)。從幀到幀地檢測零交叉部分的數(shù)并且輸出零交叉數(shù)C[K]。
在音調(diào)檢測單元43，音調(diào)，即表明Y[W，K]的頻率的分量的一值，例如在高區(qū)域輸入信號頻譜的平均電平t＇與在低區(qū)域輸入信號頻譜的平均電平b＇之比或t＇/b＇(＝音調(diào)[K]，被檢測(步驟S2)并被輸出。值t＇和b＇是假設(shè)由等式(18)確定的其誤差函數(shù)ERR(fc，b，t)為最小值的值t和bminf0-2...b,iϵRNR-3Err(fc,b,t)=Σw=0fc(Ymax[w,k]-b)2+Σw=fc+1NR-1(Ymax[w,k]]]>……(18)在上述等式(18)中，NB代表頻段數(shù)，Ymax[W，K]代表在一頻譜W中的Y[W，K]的最大值和fc代表一高區(qū)域和一低區(qū)域相互分離的點。在圖8中，Y[W，K]的頻率fc的低端的一平均值是b，同時Y[W，K]的頻率fc的高端的一平均值是t。
在鄰近語音幀檢測單元44中，基于RMS值和零交叉檢測在一語音聲音被檢測的幀的附近的幀，也就是一鄰近語音幀(步驟S4)。按照這個幀數(shù)，根據(jù)下面等式(19)產(chǎn)生作為輸出的鄰近音節(jié)幀的數(shù)spch-prox[K] ……(19)在輔音分量檢測單元45，根據(jù)零交叉數(shù)、鄰近語音幀數(shù)、音調(diào)和RMS值檢測在每幀的Y[W，K]中的輔音分量(步驟S5)。該輔音檢測結(jié)果被作為表明輔音效果的值CE[K]而被輸出。該值CE[K]由下式(20)確定 ……(20)符號C1、C2、C3、C4.1至C4.7的確定如表2中所示
表2
在上述表2中，CDS0、CDS1、CDS2、T、ZlOW和Zhigh是確定輔音檢測靈敏度的常數(shù)。例如，CDS0＝CDS1＝CDS2＝1.41，T＝20，Zlow＝20和Zhigh＝75。再有，在式(20)中假定E是從0到1的一個值，例如為0.7。調(diào)整濾波器響應(yīng)曲線使得E值越接近于0，則越逼近于常用的輔音抑制量，反之，E值越接近于1，則越逼近于常用的輔音抑制量的最小值。
在上述表2中，符號C1有效表明該幀的信號電平大于最小噪聲電平。另一方面，符號C2有效表明上述幀的零交叉數(shù)大于一予置零交叉數(shù)(在20之內(nèi))，同時符號C3有效表明上述幀是在從其中語音聲音被檢測的一幀計數(shù)的T幀之內(nèi)(在20幀范圍內(nèi))。
符號C4.1有效規(guī)定信號電平是在上述幀的范圍內(nèi)變化，4.2有效表明上述幀是由于該語音信號改變而出現(xiàn)的一幀之后所出現(xiàn)的一幀和經(jīng)受信號電平的變化的一幀。符號C4.3有效表明上述幀是由于該語音信號的變化而出現(xiàn)的二幀之后所出現(xiàn)的一幀和經(jīng)受信號電平變化的一幀。符號4.4有效表明在上述幀中零交叉數(shù)大于零交叉Zhigh的一予置數(shù)，在上述幀中是在75之內(nèi)。符號C4.5有效規(guī)定該音調(diào)值是在上述幀內(nèi)變化，同時符號4.6有效表明上述幀是由于該語音信號的變化而出現(xiàn)的一幀之后所出現(xiàn)的一幀和音調(diào)值經(jīng)受變化的一幀。符號C4.7有效表明上述幀是由于該語音信號變化出現(xiàn)的二幀之后所出現(xiàn)的一幀和經(jīng)受音調(diào)值變化的一幀。
根據(jù)式(20)，包含輔音分量的幀的條件是對于符號C1至C3的條件被滿足，tone[K]大于0.6和C1至C4.7的條件中的至少一個條件被滿足。
參見圖1，NR2值計算單元46根據(jù)式(21)從上述值NR[W，K]和表明輔音效果CE[K]的上述值計算NR2[W，K]并輸出該值NR2[W，K]NR2[W，K]＝(1.0－CE[K])*NR[W，K]……(21)Hn值計算單元7是一根據(jù)頻段分離輸入信號頻譜的幅度Y[W，K]、噪聲頻譜的時間平均估算值N[W，K]和上述值NR2[W，K]用來降低該頻段分離輸入信號的幅度Y[W，K]用來降低該頻段分離輸入信號的幅度Y[W，K]中的噪聲分量的一予置濾波。值Y[W，K]響應(yīng)于N[W，K]被轉(zhuǎn)換成一予置濾波。值Y[W，K]響應(yīng)于N[W，K]被轉(zhuǎn)換成一濾波響應(yīng)Hn[W，K]并被輸出。根據(jù)下面等式(22)計算值Hn[W，K]Hn[W，K]＝1－2*NR[W，K]－NR22[W，K])*(1－H[W][S/N＝r])……(22)在上述等式(22)中，值H[W][S/N＝r]是當(dāng)SNR被固定在值r時等效于噪聲抑制濾波器的最佳特性，并由下面等式(23)求得H[w][S/N=γ]=12(1+1-1x2[w,k])*PH1|Yw)S/N-γ]+Gmin+P(HO|YN)1]]>……(23)
同時，根據(jù)值Y[W，K]/N[W，K]，這個值可在先地求出并列在一表中。同時，在等式(19)中x[W，K]等效于Y[W，K]/N[W，K]，而Gmin是一表示H[W][S/N＝r]的最小增益的參數(shù)并假定為一例如-18dB的值。另一方面，p(Hi/Yw)[S/N＝r]和p(H0/Yw)[S/N＝r]是指明每個輸入信號頻譜的幅值Y[W，K]的狀態(tài)的參數(shù)，而p(H1/Yw)[S/N＝r]是指明Y(W，K)中共同混合有語音分量和噪聲分量的狀態(tài)的參數(shù)和p(H0/Yw)[S/N＝r]是一指明在Y(W，K)中僅包含有噪聲分量的參數(shù)。根據(jù)等式(24)來計算這些值P(H1|Yw)(S/N-γ)=1-P(HO|Yw)[S/N-γ]=P(H1)*(exp(-γ2))*P(H1)*(exp(-γ2))*I0(2:γ:x[w,])]]>.....(24)其中p(H1)＝p(H0)＝0.5。
從等式(20)可見，p(H1/Yw)[S/N＝r]和P(H0/Yw)[S/N＝r]是x[W，K]的函數(shù)，而I0(2*r*x[W，K])是一貝塞爾(Bessel)函數(shù)并根據(jù)r和[W，K]的值來求出。P(H1)和P(H0)固定為0.5。通過上述的簡化參數(shù)，與常數(shù)方法相比其處理量可降低到大約五分之一。
濾波單元8沿著頻率軸和時間軸執(zhí)行用來平滑Hn[W，K]的濾波，這樣產(chǎn)生一種平滑的信號Ht-Smooth[W，K]作為一輸出信號。在沿頻率軸方向的濾波具有降低信號Hn[W，K]的有效沖擊響應(yīng)長度的作用。這就阻止了在該頻域中由于來自一濾波器實現(xiàn)乘法運算導(dǎo)致周期回旋而產(chǎn)生的混淆。在沿時間軸方向上的濾波具有限制在抑制突然的噪聲產(chǎn)生中在濾波器特性中的變化速率。
首先說明沿頻率軸方向上的濾波。在每個波段的Hn[W，K]中執(zhí)行中值濾波。這種方法如下面等式(25)和(26)所示步驟1H1[W，K]＝max(median(Hn[W－i，K]，Hn[W，K]，Hn[W＋1，K]，Hn[W，K]……(25)步驟2H2[W，K]＝min(median(H1[W－i，K]，H1[W，K]，H1[W＋1，K]，H1[W，K]……(26)如果在等式(25)和(26)中，(W－1)或(W＋1)不存在，則分別H1[W，K]和Hn[W，K]和H2[W，K]＝H1[W，K][W，K]。
如果在步驟中(W－1)或(W＋1)不存在，則H1[W，K]是無有單一的或單獨的零(0)頻段的Hn[W，K]，反之，在步驟2中，H2[W，K]是沒有單一的、單獨的或突出頻段的H1[W，K]。在這種方式中，Hn[W，K]被轉(zhuǎn)換成H2[W，K]。
接著說明沿時間軸方向上的濾波。對于在沿時間軸方向的濾波，事實上考慮該輸入信號包括三種分量，即語音、背景噪聲和表示該語音的上升部分的瞬變狀態(tài)的瞬變狀態(tài)。如等式(27)所示，語音信號Hspeech[W，K]是沿時間軸而被平滑Hspeech[W，K]＝0.7*Hz[W，K]＋0.3*Hz[W，K－1]……(27)在沿該軸的方向上所平滑的背景噪聲如等式(28)所示Hnoise[W，K]＝0.7*Min－H＋0.3*Max_H……(28)在上述等式(24)中，Min-H和Max-H可分別由Min-H＝min[H2[W，K]，H2[W，K－1]和Max_H＝max(H2[W，K]，H2[W，K－1])求得。
在瞬變狀態(tài)的信號在沿時間軸方向上不被平滑。
利用上述被平滑的信號，由等式(29)產(chǎn)生一被平滑的輸出信號Ht＝smooth；Ht－smooth[W，K]＝(1－atr)(a sp*Hspeech[W，K]＋(1－a sp)*Hnoise[W，K]＋atr*H2[W，K]……(29)在上述等式(29)中，a sp和a tr可以分別由等式(30)和(31)求得 ……(30)這里SNRinst=RMSlocal[K]RMSlocal[K-1]]]> ……(31)這里δrms=RMSlocal[K]RMSlocal[K-1]]]>RMSlocal[k]=1FI*Σj=FI/2FL-FI/2(y-framej,k)2]]>然后，在頻段轉(zhuǎn)換單元中，來自濾波單元8的用于18個頻段的平滑信號Ht-smooth[W，K]通過插入例如一128頻段信號的H128[W，K]而被擴散，并將其輸出。這種轉(zhuǎn)換例如通過二級來執(zhí)行，分別由零階保持和由低通濾波型插入執(zhí)行從18到64頻段和從64到128頻段的擴展。
頻譜校正單元10隨后按比例放大通過用執(zhí)行頻譜校正即噪聲分量降低的方法由FFT單元3用上述信號H128[W，K]所得的成幀信號Y_frmaej，k的快速付里葉變換所獲得的FFT系數(shù)的實數(shù)和虛數(shù)部分，并輸出其結(jié)果信號。其結(jié)果是無須相位變化就可校正各頻段幅度。
為了輸出其所產(chǎn)生的經(jīng)過IFFT的信號，反相FFT單元11隨后對頻譜校正單元10的輸出信號執(zhí)行反相FFT重疊和相加單元12重疊和相加該幀基IFFT處理的信號的幀邊界部分。在語音信號輸出端14上輸出所產(chǎn)生的輸出語音信號。
圖9示出了根據(jù)本發(fā)明的一種用來對一語音信號執(zhí)行噪聲降低方法的另一實施例。與圖1所示的噪聲降低裝置共同使用的部分或元件用相同的標(biāo)號示出并且為了簡明起見省略了其操作的描述。
用于語音信號的噪聲降低裝置包括用來與抑制噪聲相關(guān)的從輸入語音信號中除去噪聲的便使該噪聲降低量依據(jù)控制信號而可改變的作為一噪聲降低單元的一頻譜校正單元。該用于語音信號的噪聲降低裝置還包括有一用來計算CE值、adj1、adj2和adj3值的作為用來檢測包含在輸入語音信號中的輔音部分的檢測裝置的一計算單元32，和作為響應(yīng)于由輔音部分檢測裝置所產(chǎn)生的輔音檢測的結(jié)果用來控制噪聲降低量的抑制的控制裝置的一Hn值計算單元7。
該用于語音信號的噪聲降低裝置進一步包括有作為用來將輸入語音信號變換為在頻率軸上的信號的變換裝置的一快速付里葉變換裝置3。
在用來產(chǎn)生噪聲抑制濾波特性的發(fā)生單元35中具有用來計算adj1、adj2和adj3的計算單元7和計算單元32，頻段分離單元4將該頻譜的幅值分離成例如18個頻段，并且將基本頻段幅度Y[W，K]輸出到用來計算信號特性的計算單元31、噪聲頻譜估算單元26和初始濾波響應(yīng)計算單元33。
用于計算信號特性的計算單元31根據(jù)自成幀單元1輸出的值Y-framej，k和由頻段分離單元4輸出的值Y[W，K]計算基本幀噪聲電平值MinRMS[K]、估算噪聲電平值MinRMS[K]、最大RMS值MaxRMS[K]、零交叉的數(shù)ZC[K]、音調(diào)值tone[K]和近似語音幀的數(shù)spch-prox[K]，并且向噪聲頻譜估算單元26和向adj1、adj2和adj3計算單元32提供這些值。
CE值和adj1、adj2和adj3值計算單元32根據(jù)RMS[K]、MinRMS[K]和MaxRMS[K]計算adj1[K]、adj2[K]和adj3[W，K]的值，同時根據(jù)值ZC[K]、tone[K]、spch-prox[K]和MinRMS[K]計算在指明輔音作用的該語音信號中的CF[K]值，并且向NR值和NR2值計算單元36提供這比值。
初始濾波響應(yīng)計算單元33將自噪聲頻譜估算單元26輸出的時間平均噪聲值N[W，K]和自頻段分離單元4輸出的Y[W，K]提供給濾波抑制曲線表單元34用來按照在該濾波抑制曲線表單元34中所存貯的Y[W，K]和N[W，K]求出H[W，K]的值以向Hn值計算單元7傳送這種求出的值。在濾波抑制曲線表單元34中存貯一用于H[W，K]值的表。
由圖1和9所示的噪聲降低裝置所得到的輸出語音信號被提供給例如用于便攜式電話機的編碼電路或提供給一語音識別裝置。另外，在該便攜式電話機的一譯碼器輸出信號上可以執(zhí)行該噪聲抑制。
根據(jù)本發(fā)明的用于語音信號的噪聲降低裝置的效果如圖10所示，其中縱坐標(biāo)和橫坐標(biāo)分別代表每幀的信號的RMS電平和每幀的幀號。該幀以20ms的間隔被分隔。
原始語音信號和相應(yīng)于由汽車的噪聲或稱之為汽車噪音所覆蓋的這個語音的信號分別由圖10中的曲線A和B表示。可以看出對于所有的幀號來說曲線A的RMS電平高于或等于曲線B，也就是說與噪聲相混合的信號的能量值通常較高。
對于曲線C和D來說，在具有幀號約為15的區(qū)域a1，具有幀號約為60的區(qū)域a2、具有幀號約為60到65的區(qū)域a3、具有幀號約為100到105的區(qū)域a4、具有幀號約為110的區(qū)域a5、具有幀號約為150到160的區(qū)域a6和具有幀號約為175到180的區(qū)域a7中，曲線C的RMS電平高于曲線D的RSM電平。也就是，在相應(yīng)于區(qū)域a1至a7的幀號的信號中噪聲降低被抑制。
利用根據(jù)圖2中所示的實施例的用于語音信號的噪聲降低方法，在值tone[K]的檢測之后該語音信號的零交叉被檢測，它是一表明頻域信號的幅度分布的數(shù)。但是，這并不對本發(fā)明有所限制，因為值tone[K]可以在檢測零交叉之后被檢測或者值tone[K]和零交叉可以同時地被檢測。
權(quán)利要求
1.一種為了噪聲抑制而降低在一輸入語音信號中的噪聲的方法包括有步驟檢測在該輸入語音信號中所包含的輔音部分；和響應(yīng)從所述輔音部分檢測步驟的輔音檢測結(jié)果在從所述輸入語音信號消除噪聲時以一受控方式抑制該噪聲降低量。
2.如權(quán)利要求1所述的噪聲降低方法進一步包括有將輸入語音信號轉(zhuǎn)換成一頻域信號的步驟，其中所述以一受控方式抑制該噪聲降低量的步驟是一根據(jù)響應(yīng)于在所述輔音部分檢測步驟中所產(chǎn)生的輔音檢測結(jié)果由變換步驟所得到的輸入信號頻譜而設(shè)置可變控制濾波特性的步驟。
3.如權(quán)利要求1所述的噪聲降低方法，其中檢測輔音部分的步驟是一使用在輸入語音信號的一短區(qū)域中的至少一個能量的變化、一指明在輸入語音信號中的頻率分量的分布的值和在所述輸入語音信號中的零交叉數(shù)而在所述輸入語音信號中被檢測的一語音信號部分的附近檢測輔音的步驟。
4.如權(quán)利要求3所述的噪聲降低方法，其中所述指明在該輸入語音信號中頻率分量的分布的值是根據(jù)在一高區(qū)域該輸入語音信號頻譜的平均值與在一低區(qū)域該輸入語音信號頻譜的平均值之比得到的。
5.如權(quán)利要求2所述的噪聲降低方法，其中所述濾波特性是由根據(jù)由所述變換步驟所得到的輸入語音信號頻譜與包括在所述輸入信號頻譜中的一估算的噪聲頻譜之比所求出的第一值和根據(jù)輸入信號頻譜的信號值與估算的噪聲電平之比的最大值所求出的第二值、估算的噪聲頻譜和表明輔音檢測的結(jié)果的一輔音效果系數(shù)來控制的。
6.一種用來降低在一語音信號中的噪聲的裝置包括有一為了噪聲抑制而降低在一輸入語音信號中的噪聲以便使噪聲降低量按照一控制信號而變化的噪聲降低單元；用來檢測在該輸入語音信號中所包含的一輔音部分的裝置；和用來響應(yīng)于自所述輔音部分檢測步驟的輔音檢測結(jié)果而一受控方式抑制該噪聲降低量的裝置。
7.如權(quán)利要求6所述的噪聲降低裝置進一步包括有用來將輸入信號變換為一頻域信號的裝置，其中所述輔音部分檢測裝置檢測由所述變換裝置得到的來自輸入信號頻譜的輔音。
8.如權(quán)利要求6所述的噪聲降低裝置，其中所述控制裝置按照輔音檢測的結(jié)果可變換控制確定該噪聲降低計算的濾波特性。
9.如權(quán)利要求8所述的噪聲降低裝置，其中所述濾波特性是由根據(jù)輸入語音信號頻譜在所述輸入信號頻譜中所包含的估算噪聲頻譜的比值所求出的第一值和根據(jù)輸入信號頻譜的信號值與估算噪聲頻譜之比的最大值所求出的第二值、估算噪聲頻譜和表明輔音檢測結(jié)果的一輔音效果系數(shù)所控制的。
10.如權(quán)利要求8所述的噪聲降低裝置，其中該輔音部分檢測裝置利用在該輸入語音信號中的一短區(qū)域中的至少一個能量的變化、一指明在輸入語音信號中的頻率分量的分布值和在所述輸入語音信號中的零交叉數(shù)而在所述輸入語音信號中所檢測的一語音信號部分的附近檢測輔音。
11.如權(quán)利要求10所述的噪聲降低裝置，其中指明在該輸入語音信號中的頻率分量的分布的值是根據(jù)在一高區(qū)域中的輸入語音信號頻譜的平均值和在一低區(qū)域中的輸入語音信號頻譜的平均值而得到的。
全文摘要
一種用來降低在一語音信號中的噪聲的方法和裝置能夠抑制在該輸入信號中的噪聲并能簡化其過程。該裝置包括一用來將輸入語音信號轉(zhuǎn)換為一頻域信號的快速付里葉變換單元3和一用于控制與為了消除來自輸入語音信號中的噪聲而使用的濾波相關(guān)的濾波特性的Hn值計算單元7。該裝置還包括一通過與由Hn值計算單元7所產(chǎn)生的濾波特性相一致的濾波來降低該輸入語音信號的頻譜校正單元10。該Hn值計算單元7響應(yīng)于由快速付里葉變換單元3所得到的輸入信號頻譜的以幀為基礎(chǔ)的最大SN比而的一值和一估算噪聲電平計算該Hn值并且響應(yīng)于該Hn值控制在頻譜校正單元10中的用來消除噪聲的處理。
文檔編號G10L15/20GK1141548SQ96105920
公開日1997年1月29日申請日期1996年2月17日優(yōu)先權(quán)日1995年2月17日
發(fā)明者J·陳, 西口正之申請人:索尼公司

完整全部詳細技術(shù)資料下載