增強語音質(zhì)量的方法及其裝置的制作方法

文檔序號：2822463閱讀：245來源：國知局

專利名稱：增強語音質(zhì)量的方法及其裝置的制作方法
技術領域：
本發(fā)明涉及增強語音質(zhì)量的方法和裝置。雖然本發(fā)明適合各種各樣的應用，但是它尤其適用于有效地增強語音質(zhì)量。
背景技術：
一般而言，已經(jīng)提出了各種用于增強語音質(zhì)量的方法。頻譜相減法(SSM)是多種方法中有代表性的一個。下文結合圖1解釋頻譜相減法(SSM)。
SSM是一種直接評估短時頻譜幅度的方法。在SSM中，語音被建模為一種形式，其中加入了一種由一不相關隨機變量所表示的噪聲。該語音建模由以下的公式1來表達。
(公式1)y[n]＝s[n]+d[n]在公式1中，y[n]是輸入語音。此外，假定d[n]是s[n]的不相關噪聲。因此，根據(jù)以下公式2建立了功率譜密度。
(公式2)Sγ(ejω)＝Ss(ejω)+Sd(ejω)在公式2中，Sγ(ejω)是通過短時離散時間傅立葉變換(DTFT)由公式3表示的。
(公式3)Sγ(ejω)＝|Y(ejω)|2相位是已知的，用來尋找語音幀本身的頻譜。此外，已經(jīng)證實使用實質(zhì)上與噪聲混合的噪聲語音的相位來確定語音幀的相位是沒有大的差異的。
(D.L.Wang和J.S.Lim，“相位在語音增強中的不重要性”(The unimportanceof phase in speech enhancement)IEEE聲學論文集，語音以及信號處理，卷ASSP 30，第679-681頁，1982。)(公式4)S^(ejω)=|Sy(ejω)-S^d(ejω)|1/2ejφt(ω)]]>公式4中的Sy(ejω)是由公式2得出的。并且φt(ejω)使用了帶噪聲語音的相位。這樣，可從公式4得到所要的[n]的估算值。如果沒有語音，則從噪聲中估算下文參考圖2解釋了多種語音質(zhì)量增強方法中的一種，諸如自適應線性增強器(ALE)。首先，解釋通用自適應濾波器的使用，因為ALE的發(fā)展來自一種使用自適應濾波器的方案。
當使用自適應濾波器時，在接收了兩個麥克風的輸入后，即，接收噪聲語音作為一個麥克風的輸入，并接收純噪聲作為另一個麥克風的輸入，由于兩個麥克風間的間距等，生成一個傳遞函數(shù)或其類似函數(shù)。然而，自適應濾波器移除了傳遞函數(shù)以獲得純凈的語音。
使用自適應濾波器的方法在某些情況是非常有效的，并且已經(jīng)成功地用于實際用途。然而，該方法要求安裝一對麥克風。同樣，在判斷該對麥克風應該彼此間隔多遠地放置時存在著結構性難點。這樣，在諸如移動終端等用戶設備上應用該方法是困難的。
ALE(自適應線性增強器)是對使用自適應濾波器的方法的改進，并且是一種通過留出等于信號之間的基音周期的差，在獲取自同一麥克風的信號s[n]和d[n]上執(zhí)行自適應濾波的方案。在此，基音周期對應于語音信號內(nèi)的有聲語音部分的周期。
對于有聲語音，一個周期性脈沖序列激勵一個聲道。這樣，ALE在有聲語音上施加了一個相當可觀的效果。然而，對于無聲語音，對應的語音是破碎的。
下文解釋了多種語音質(zhì)量增強方法中的一種，諸如使用自適應梳狀濾波器的方案。首先，當使用自適應梳狀濾波器時，一個類似于ALE的對應方案在有聲語音上有著更好的效果。
在有聲語音的情況下，激勵信號是周期信號。即使在脈沖序列上執(zhí)行傅立葉變換，結果也表明該脈沖序列出現(xiàn)在頻域中。這樣，在有聲語音的情況下，在基音頻率變?yōu)槎啾兜牟糠种芷谛缘爻霈F(xiàn)波峰。理所當然的是，整體頻譜輪廓是由稱為共振峰的聲道共振來表示的。
當含噪聲語音由y[n]所表示時，語音由s[n]所表示，且已去除噪聲的語音被估算為由[n]表示，由自適應梳狀濾波器增強的語音由公式5表示。
(公式5)s^[n]=Σi=-LLCjy(n-iT0)]]>在公式5中，T0表示已提取的基音周期，ci表示梳狀濾波器系數(shù)。在此，一般使用較小的值(1～6)作為值L。同時，因為噪聲通常不是周期性的，因此自適應梳狀濾波器在去除噪聲方面是有效的。然而，相關技術的語音質(zhì)量增強方法含有以下問題或缺點。
第一，如果沒有語音，則在SSM中是從噪聲估算的。然而，不能夠可靠地測量即，如果假設噪聲d[n]是穩(wěn)定信號，則只能估算即使的確如此，也不能避免頻譜根據(jù)時間的變化。尤其是，在移動終端或其類似物的情況下，因為四周的環(huán)境在不停變化，不能可靠地測量第二，ALE或使用自適應梳狀濾波器的方案在有聲語音上顯示出了優(yōu)秀的性能。然而，這些方案或方法僅僅適用于有聲信號。在將ALE或使用自適應梳狀濾波器的方案應用于無聲信號的情況下，因為有聲/無聲(V/UV)判斷的微小偏移，性能會下降。
第三，在特定語音的情況下，有聲特征出現(xiàn)在低頻，或無聲特征出現(xiàn)在高頻，由此ALE的性能下降。

發(fā)明內(nèi)容
本發(fā)明針對語音質(zhì)量的增強。
以下描述將給出本發(fā)明的其它特征和優(yōu)點，部分可從該描述中顯而易見的，或可以通過對本發(fā)明的實踐來獲知。本發(fā)明的目的和其它優(yōu)點可通過書面描述及其權利要求書以及附圖中特別指出的結構來實現(xiàn)和獲取。
為了得到這些和其他優(yōu)點并根據(jù)本發(fā)明的目的，如所實施和廣泛描述的，本發(fā)明被實施為一種用于增強語音質(zhì)量的方法，該方法包括將輸入語音劃分成有聲語音和無聲語音，在有聲語音上執(zhí)行自適應濾波以去除有聲語音的噪聲，并在無聲語音上執(zhí)行頻譜相減。
較佳地，本方法還包括在有聲語音上使用自適應濾波執(zhí)行自適應線性增強器處理來去移有聲語音的噪聲。通過自適應線性增強器處理從對應于先前的有聲語音的指定幀所估算出的噪聲頻譜的平均值用于頻譜相減。自適應濾波使用從對應于有聲語音的幀中提取的基音周期。
在本發(fā)明一個方面，該方法還包括在輸入語音上執(zhí)行低通濾波和高通濾波的至少一個，并在高通濾波的輸出上執(zhí)行自適應梳狀濾波，以去除輸出的噪聲。較佳地，當高通濾波的輸出對應于有聲語音時，執(zhí)行自適應梳狀濾波。在本發(fā)明的另一方面，低通濾波的輸出被劃分成有聲語音和無聲語音。
較佳地，從有聲語音段獲取的的噪聲頻譜數(shù)據(jù)用于頻譜相減。此外，噪聲頻譜數(shù)據(jù)是通過對噪聲頻譜求平均值所得的值，該噪聲頻譜是由通過自適應濾波從對應于先前的有聲語音的指定幀所估算的。
根據(jù)本發(fā)明另一實施例，一種用于增強語音質(zhì)量的裝置包括一用于將輸入語音劃分成有聲語音和無聲語音的判別塊、一用于在有聲語音上執(zhí)行自適應線性增強器處理以去除有聲語音的噪聲的自適應線性增強器(ALE)塊、以及一用于在無聲語音上執(zhí)行頻譜相減的頻譜相減(SS)塊。
較佳地，該裝置還包括一用于在輸入語音上執(zhí)行低通濾波以輸出到判別塊的低通濾波器，以及一用于在輸入語音上執(zhí)行高通濾波的高通濾波器。
在本發(fā)明的一個方面，該裝置還包括一用于當高通濾波器的輸出對應于有聲語音時去除來自高通濾波器的輸出的噪聲的自適應梳狀濾波器。較佳地，該自適應梳狀濾波器使用一從有聲語音提取的基音周期。
在本發(fā)明的另一方面，該裝置還包括一基音提取器，用于從有聲語音提取基音周期，其中，該基音提取器向ALE塊提供了所提取的基音周期。
較佳地，SS塊使用由ALE塊估算出的噪聲頻譜。此外，SS塊使用由ALE塊從對應于先前的有聲語音的指定幀估算出的噪聲頻譜的平均值。
根據(jù)本發(fā)明另一實施例，一種用于增強語音質(zhì)量的方法包括接收輸入語音；在輸入語音上執(zhí)行高通濾波；當高通濾波的輸出對應于有聲語音時，在高通濾波的輸出上執(zhí)行自適應梳狀濾波；在輸入語音上執(zhí)行低通濾波；當?shù)屯V波的輸出對應于有聲語音時，使用自適應梳狀濾波在低通濾波的輸出上執(zhí)行自適應線性增強器處理；以及當?shù)屯V波的輸出對應于無聲語音時，在低通濾波的輸出上執(zhí)行頻譜相減。
可以理解的是，本發(fā)明的前述概括描述和下述詳細描述是示例性和解釋性的，并旨在提供對要求保護的本發(fā)明的進一步解釋。

附圖被包括在內(nèi)以提供對本發(fā)明的進一步理解，并結合在本說明書中且作為其一部分，該附圖示出了本發(fā)明的實施例以及用于揭示本發(fā)明的原理的描述。不同附圖中由相同標號引用的本發(fā)明的特征、元件和方面表示根據(jù)一個或多個實施例的相同、等價或相似的特征、元件或方面。
圖1是示出了一個通用頻譜相減法(SSM)的框圖。
圖2是示出了一個通用自適應線性增強器(ALE)的框圖。
圖3是根據(jù)本發(fā)明一個實施例用于增強語音質(zhì)量的裝置的框圖。
圖4是示出了根據(jù)本發(fā)明的一個實施例用于增強語音質(zhì)量的方法的流程圖。
具體實施例方式
本發(fā)明涉及增強語音質(zhì)量。
現(xiàn)在將詳細參考本發(fā)明的較佳實施例，其示例在附圖中示出。只要可能的情況下，相同的參考標號將貫穿附圖來表示相同或相似的部分。
在一種根據(jù)本發(fā)明的一個實施例的增強語音質(zhì)量的方法中，在有聲語音上執(zhí)行一指定的語音質(zhì)量增強處理，而在無聲語音上使用從執(zhí)行指定的語音質(zhì)量增強處理所獲得的噪聲頻譜來執(zhí)行頻譜相減法(SSM)。
參考圖3，解釋了一種根據(jù)本發(fā)明的一個實施例用于增強語音質(zhì)量的裝置。
參考圖3，一種用于增強語音質(zhì)量的裝置包括在輸入語音y[n]上執(zhí)行低通濾波的低通濾波器(LPF)51，以及在輸入語音y[n]上執(zhí)行高通濾波的高通濾波器(HPF)50。
該裝置還包括用于處理高頻分量的自適應梳狀濾波器56。該裝置也包括有聲/無聲(U/UV)判別塊52、基音提取器53和處理低頻分量的頻譜相減塊55。此外，該裝置包括自適應線性增強器(ALE)塊54。或者，可由用于使用不同的語音質(zhì)量增強方案的裝置來替換ALE塊54。
HPF 50的輸出被輸入到自適應梳狀濾波器56。LPF 51的輸出根據(jù)有聲或無聲語音來通過使用ALE或SSM的路徑。V/UV判別塊52判斷通過LPF 51的語音是對應于有聲還是無聲語音。隨后根據(jù)V/UV判別塊52的判別結果判斷是使用ALE還是SSM。
較佳地，V/UV判別塊52向使用SSM的頻譜相減塊55傳送一個對應于語音中已經(jīng)通過LPF 51的無聲語音的幀?；蛘?，一個對應于語音中已經(jīng)通過LPF51的有聲語音的幀可被傳送給使用ALE的路徑。該使用ALE的路徑包括基音提取器53和ALE塊54。
基音提取器53從對應于已經(jīng)有聲語音的幀中提取基音周期T0，并向自適應梳狀濾波器56提供所提取的基音周期T0?；籼崛∑?3也向ALE塊54提供所提取的基音周期，其中ALE塊54為ALE使用該基音周期T0來為對應于有聲語音的幀增強語音質(zhì)量。
如上文的描述中所提及的，本發(fā)明使用ALE塊54作為根據(jù)本發(fā)明的一個實施例用于增強語音質(zhì)量的裝置。
因為其中存在基音頻率的頻率范圍對應于50～400Hz，因此確定LPF 51的截止頻率要足以包括該頻率范圍，并允許在基音周期上含有最顯著影響的一部分語音能夠通過。較佳地，截止頻率可被設置為大約800Hz。
在本發(fā)明一個實施例中，當應用ALE時，可通過重新組合400～4,000Hz的范圍來獲取含有0～4kHz帶寬的語音。這對應于含有8kHz采樣率的情況。為準備這種情況，本發(fā)明進一步使用自適應梳狀濾波器56。
本發(fā)明的自適應梳狀濾波器56去移了位于類似高頻中由基音分量表示的脈沖序列的部分之間的噪聲。較佳地，如果對應于有聲語音的純凈信號存在于高頻分量中，則自適應梳狀濾波器56即運行。
同時，使用SSM的頻譜相減塊55使用從有聲語音段獲取的噪聲頻譜數(shù)據(jù)。較佳地，頻譜相減塊55使用通過對在先前的聲語音的指定幀中估算出的噪聲頻譜求平均值所得的值。換言之，每當從有聲語音獲得噪聲頻譜時，對預定數(shù)量的幀的噪聲頻譜數(shù)據(jù)序列求平均值，來獲得噪聲頻譜數(shù)據(jù)。這樣，語音[n]可通過從頻譜相減塊55和自適應梳狀濾波器56的輸出中去除噪聲的方式來獲得。
圖4是根據(jù)本發(fā)明的一個實施例增強語音質(zhì)量的方法的框圖。參考圖4，一旦輸入了指定語音y[n](S1)，在輸入語音y[n]上執(zhí)行低通濾波(S2)和高通濾波(S3)。
其中存在基音頻率的頻率范圍通常為50～400Hz，因此，足以包括該頻率范圍并在基音周期上含有最顯著影響的語音部分經(jīng)受低通濾波。較佳地，低通濾波的截止頻率被設為大約800Hz。
隨后，識別低通濾波的輸出是對應于有聲語音還是無聲語音(S4)。如果低通濾波的輸出對應于有聲語音，則在對應于有聲語音的幀上執(zhí)行指定的語音質(zhì)量增強方法。較佳地，ALE用于用于有聲語音的語音質(zhì)量增強方法。這樣，在對應于有聲語音的幀上執(zhí)行ALE處理(S6)。
在ALE處理之前，理所當然的是從對應于有聲語音的幀上提取基音周期(S5)。所提取的基音周期用于自適應梳狀濾波(S8)和ALE處理(S6)。
然而，如果低通濾波的輸出對應于無聲語音，則在對應于無聲語音的幀上執(zhí)行頻譜相減(S9)。在執(zhí)行頻譜相減時，使用通過對由ALE處理從先前的有聲語音的指定幀估算的噪聲頻譜求平均值而獲得的值。較佳地，使用通過每當由ALE處理從有聲語音獲得噪聲頻譜時對預定數(shù)量的幀的噪聲頻譜數(shù)據(jù)序列求平均值所獲得的值。相應的值是從有聲語音中獲得的噪聲頻譜數(shù)據(jù)。
在輸入語音y[n]上執(zhí)行高通濾波所得的輸出上執(zhí)行自適應梳狀濾波，以去除輸出的噪聲(S8)。這樣，從來自低通濾波(S5)的輸出的有聲語音中提取的基音周期用于執(zhí)行自適應梳狀濾波。然而，在自適應梳狀濾波之前，判斷來自高通濾波的輸出是否對應于有聲語音(S7)。如果存在對應于有聲語音的純凈信號，則執(zhí)行自適應梳狀濾波。
這樣，語音[n]可通過從頻譜相減和自適應梳狀濾波的結果中去除噪聲的方法來獲得。根據(jù)上述的本發(fā)明，性能要比ALE或SSM所希望的要好。
在本發(fā)明中，當在含有強基音特征的低通分量上執(zhí)行ALE之后，自適應梳狀濾波器進一步在高頻分量對應于有聲語音時使用。這樣，如果低頻和高頻分別含有有聲和無聲特征，則本發(fā)明提供了有效的性能。
因為基于基音特征(也是語音的一般特征)增強了語音的質(zhì)量，因此本發(fā)明相比其他語音質(zhì)量方法(如，維納(Wiener)濾波、頻譜相減法)，對多路干擾噪聲及其類似物更有抵抗力。因此，本發(fā)明可用于使用移動終端的單個麥克風的噪聲去除以及用于使用便攜式錄音機錄制語音時的噪聲去除。本發(fā)明還可用于通用有線/無線電話或在PDA或其類似物中錄制語音時的噪聲去除。
前述實施例和優(yōu)點僅僅是示例性的，且不能被解釋為對本發(fā)明的限制。本教導可容易地應用于于其他類型的裝置。本發(fā)明的描述旨在為說明性的，并不限制權利要求書的范圍。本領域的技術人員很容易得出多種替換、修改以及變形。在權利要求書中，裝置加功能條項旨在覆蓋在此描述的執(zhí)行所述功能的結構，不僅覆蓋結構上的等價物，還覆蓋了等價的結構。
權利要求
1.一種增強語音質(zhì)量的方法，其特征在于，包括將輸入語音劃分成一有聲語音和一無聲語音；對所述有聲語音執(zhí)行自適應濾波以去除所述有聲語音的噪聲；以及對所述無聲語音執(zhí)行頻譜相減。
2.如權利要求1所述的方法，其特征在于，還包括對所述有聲語音使用所述自適應濾波執(zhí)行一自適應線性增強器處理，來去除所述有聲語音的噪聲。
3.如權利要求2所述的方法，其特征在于，通過所述自適應線性增強器處理從對應于先前的有聲語音的指定幀所估算出的噪聲頻譜的平均值被用于所述頻譜相減。
4.如權利要求1所述的方法，其特征在于，所述自適應濾波使用從對應于所述有聲語音的幀中提取的基音周期。
5.如權利要求1所述的方法，其特征在于，還包括對所述輸入語音執(zhí)行低通濾波和高通濾波中的至少一個。
6.如權利要求5所述的方法，其特征在于，還包括對所述高通濾波的輸出執(zhí)行自適應梳狀濾波來去除所述輸出的噪聲。
7.如權利要求6所述的方法，其特征在于，當所述高通濾波的輸出對應于所述有聲語音時，執(zhí)行所述自適應梳狀濾波。
8.如權利要求5所述的方法，其特征在于，所述低通濾波的輸出被劃分成有聲語音和無聲語音。
9.如權利要求1所述的方法，其特征在于，從所述有聲語音的片段獲取的噪聲頻譜數(shù)據(jù)用于所述頻譜相減。
10.如權利要求9所述的方法，其特征在于，所述噪聲頻譜數(shù)據(jù)是通過對由所述自適應濾波從對應于先前的有聲語音的指定幀所估算出的噪聲頻譜求平均值所得的值。
11.一種用于增強語音質(zhì)量的裝置，其特征在于，包括一判別塊，用于將輸入語音劃分成一有聲語音和一無聲語音；一自適應線性增強器(ALE)塊，用于對所述有聲語音執(zhí)行自適應線性增強器處理，以去除所述有聲語音的噪聲；以及一頻譜相減(SS)塊，用于對所述無聲語音執(zhí)行頻譜相減。
12.如權利要求11所述的裝置，其特征在于，還包括一低通濾波器，用于對所述輸入語音執(zhí)行低通濾波以向所述判別塊輸出；以及一高通濾波器，用于對所述輸入語音執(zhí)行高通濾波。
13.如權利要求12所述的裝置，其特征在于，還包括一自適應梳狀濾波器，用于當所述高通濾波器的輸出對應于所述有聲語音時去除來自所述高通濾波器的輸出的噪聲。
14.如權利要求13所述的裝置，其特征在于，所述自適應梳狀濾波器使用一從所述有聲語音提取的基音周期。
15.如權利要求11所述的裝置，其特征在于，還包括一基音提取器，用于從所述有聲語音提取基音周期。
16.如權利要求15所述的裝置，其特征在于，所述基音提取器向所述ALE塊提供所提取的基音周期。
17.如權利要求11所述的裝置，其特征在于，所述SS塊使用由所述ALE塊估算出的噪聲頻譜。
18.如權利要求11所述的裝置，其特征在于，所述SS塊使用由所述ALE塊從對應于先前的有聲語音的指定幀中估算出的噪聲頻譜的平均值。
19.一種用于增強語音質(zhì)量的方法，其特征在于，包括接收一輸入語音；對所述輸入語音執(zhí)行高通濾波；當所述高通濾波的輸出對應于一有聲語音時，對所述高通濾波的輸出執(zhí)行自適應梳狀濾波；對所述輸入語音執(zhí)行低通濾波；當所述低通濾波的輸出對應于所述有聲語音時，對所述低通濾波的輸出使用所述自適應梳狀濾波執(zhí)行自適應線性增強器處理；以及當所述低通濾波的輸出對應于一無聲語音時，對所述低通濾波的輸出執(zhí)行頻譜相減。
全文摘要
本發(fā)明涉及增強語音的質(zhì)量，其中，通過從無聲語音中去除噪聲來減少語音質(zhì)量衰減。本發(fā)明包括將輸入語音劃分成一有聲語音和一無聲語音，在所述有聲語音上執(zhí)行自適應濾波以去除所述有聲語音的噪聲，并且在所述無聲語音上執(zhí)行頻譜相減。
文檔編號G10L21/00GK1746974SQ20051009956
公開日2006年3月15日申請日期2005年9月7日優(yōu)先權日2004年9月7日
發(fā)明者金燦佑申請人:Lg電子株式會社

完整全部詳細技術資料下載