專利名稱:使用共振峰增強對話的方法和裝置的制作方法
技術領域:
本發(fā)明總體構(gòu)思涉及對話增強系統(tǒng),尤其涉及一種提升對話區(qū)域的共振峰而不改變聲音區(qū)域的對話增強方法和裝置。
背景技術:
通常,對話增強系統(tǒng)提高由背景噪音所降低的對話的清晰度。傳統(tǒng)的對話增強系統(tǒng)使用均衡器和消波電路以僅提高音量。然而,均衡器和消波電路將對話和背景噪音一起放大。
在授予klayman的題目為“公共演講清晰系統(tǒng)”(public address intelligibilitysystem)的第5459813號的U.S專利中公開了一種傳統(tǒng)對話增強系統(tǒng)。
如圖1所示,該傳統(tǒng)對話增強系統(tǒng)包括語音/非語音(voice/unvoice)確定器90、頻譜分析器42、壓控放大器(VCA)單元50、合成單元60、和合成器108。
參照圖1,語音/非語音確定器90使用低通濾波器來確定輸入信號是語音信號還是非語音信號。頻譜分析器42包括30個濾波器組并通過分析輸入信號的頻率分量來確定共振峰。VCA單元50根據(jù)由語音/非語音確定器90確定的語音/非語音信號通過將存儲在增益表中的增益施加到共振峰來控制共振峰的振幅。合成單元60將其振幅由VCA單元50控制的共振峰的頻率分量和其它波段合成。
由于傳統(tǒng)的對話增強系統(tǒng)在頻譜分析器42中使用許多濾波器組以分析頻率,因此用于這種分析處理的計算量很大,并且由于共振峰的增益由VCA單元50控制,所以語音信號的包絡變得扭曲。
發(fā)明內(nèi)容
本發(fā)明總體構(gòu)思在于提供一種對話增強方法和裝置,以根據(jù)基于線譜對(LSP)系數(shù)的語音區(qū)域是否存在通過增強共振峰僅增強對話而不改變聲音振幅。
本發(fā)明總體構(gòu)思的另外的方面和優(yōu)點將在下面的描述中部分提出,另外的部分,通過描述將是清楚的,或者通過實施本發(fā)明總體構(gòu)思來了解。
通過提供這樣一種對話增強方法,本發(fā)明總體構(gòu)思的上述和/或其他方面和優(yōu)點可基本實現(xiàn),該方法包括基于來自輸入信號的線性預測編碼(LPC)計算線譜對(LSP)系數(shù);根據(jù)計算出的LSP系數(shù)來確定語音區(qū)域是否存在于輸入信號中;和根據(jù)語音區(qū)域是否存在的確定從LSP系數(shù)中提取共振峰,并提升共振峰。
通過提供這樣一種對話增強方法也可實現(xiàn)本發(fā)明總體構(gòu)思的上述和/或其他方面和優(yōu)點,該方法包括合成左和右聲道的輸入信號;通過向下取樣合成的信號基于LPC提取頻譜參數(shù);根據(jù)LSP系數(shù)的接近度來確定語音區(qū)域是否存在;根據(jù)語音區(qū)域是否存在的確定從LSP系數(shù)中提取多個共振峰;在多個共振峰的中心頻率生成具有預定電平的多個波段的提升濾波器系數(shù);和如果語音區(qū)域存在于左和右聲道的輸入信號中,則使用多個波段的提升濾波器系數(shù)將輸入信號濾波。
通過提供這樣一種對話增強裝置,本發(fā)明總體構(gòu)思的上述和/或其他方面和優(yōu)點也可實現(xiàn),該裝置包括提升濾波器系數(shù)提取器,用于通過基于來自輸入信號的LPC計算LSP系數(shù)來提取多個共振峰,提取相應于多個共振峰的預定電平的提升濾波器系數(shù),并基于LSP系數(shù)的接近度確定語音區(qū)域是否存在于輸入信號中;和信號處理單元,用于根據(jù)語音區(qū)域是否存在的確定基于提升濾波器系數(shù)來增強語音區(qū)域的共振峰。
提升濾波器系數(shù)提取器可包括向下取樣器,用于以預定的倍數(shù)(multiplenumber)對輸入信號進行向下取樣;LPC提取器,用于從由向下取樣器向下取樣的信號中提取LPC系數(shù);LSP轉(zhuǎn)換器,用于將由LPC提取器提取的LPC系數(shù)轉(zhuǎn)換為LSP系數(shù);語音區(qū)域確定器,用于通過將由LSP轉(zhuǎn)換器轉(zhuǎn)換的LSP系數(shù)的接近度和閾值比較來確定語音區(qū)域是否存在;和提升濾波器系數(shù)生成器,用于從由LSP轉(zhuǎn)換器轉(zhuǎn)換的LSP系數(shù)計算多個共振峰的中心頻率,并從多個共振峰的中心頻率生成具有的相同的提升增益的提升濾波器系數(shù)。
通過結(jié)合附圖對實施例進行的下述描述,本發(fā)明總體構(gòu)思的這些和/或其他方面和優(yōu)點將會變得清楚和更易于理解,其中圖1是傳統(tǒng)的對話增強系統(tǒng)的框圖;圖2是根據(jù)本發(fā)明總體構(gòu)思的實施例的對話增強裝置的框圖;圖3是圖2的信號合成器的框圖;圖4是圖2的提升濾波器系數(shù)提取器的框圖;圖5是根據(jù)本發(fā)明總體構(gòu)思的另一實施例的對話增強方法的流程圖;圖6是用于p不連續(xù)頻率的語音的頻譜包絡的曲線圖;和圖7是經(jīng)過圖2的第一和第二處理單元的提升濾波器的語音的頻譜包絡的曲線圖。
具體實施例方式
現(xiàn)在將詳細描述本發(fā)明總體構(gòu)思的實施例,其例子表示在附圖中,其中,相同的標號始終表示相同的部件。下面參照附圖描述實施例以解釋本發(fā)明總體構(gòu)思。
圖2是根據(jù)本發(fā)明總體構(gòu)思的實施例的對話增強裝置的框圖。
參照圖2,信號合成器210將經(jīng)左和右聲道輸入的信號合成以生成合成信號。這里,左和右聲道信號包括語音信號和背景噪聲。
提升濾波器系數(shù)提取器220通過計算線譜對(LSP)系數(shù)和來自合成信號的線性預測編碼(LPC)系數(shù)來提取共振峰,從共振峰中提取提升濾波器系數(shù),基于LSP系數(shù)的接近度來確定輸入信號中是否存在語音區(qū)域,并根據(jù)語音區(qū)域是否存在的確定通過提升輸入信號來生成增強選擇模式(模式選擇信號)。
第一信號處理單元230包括具有4個由提升濾波器系數(shù)提取器220提取的提升濾波器系數(shù)被施加到其的波段的提升濾波器,并根據(jù)增強選擇模式通過控制左輸入信號來增強左輸入信號以通過4波段的提升濾波器。
第二信號處理單元240包括具有4個由提升濾波器系數(shù)提取器220提取的提升濾波器系數(shù)被施加到其的波段的提升濾波器,并根據(jù)增強選擇模式通過控制右輸入信號來增強右輸入信號以通過4波段的提升濾波器。
圖3是圖2的信號合成器210的框圖。
參照圖2和圖3,與聲學分量相比,對話分量均勻地存在于左和右聲道中。因此,左和右聲道的輸入信號分別在第一乘法器310和第二乘法器320中被乘以0.5。然后,這些信號在加法器330中相加。
圖4是圖2的提升濾波器系數(shù)提取器220的框圖。
參照圖2至圖4,對話分量在4KHz中具有主要頻率分量。向下取樣器420使用取樣頻率44.1KHz來執(zhí)行合成信號的1/5向下取樣。
LPC提取器430提取LPC系數(shù)以表達關于由向下取樣器420向下取樣的信號的語音分量的頻譜包絡。這里,在語音分量的頻譜中的4KHz中存在4個共振峰。
LSP轉(zhuǎn)換器440將由LPC提取器430提取的LPC系數(shù)轉(zhuǎn)換為LSP系數(shù)。這里,2個LSP系數(shù)表示一個共振峰。此外,共振峰越尖和越高,則相應于2個LSP系數(shù)的LSP的間隙越窄。
語音區(qū)域確定器450通過將由LSP轉(zhuǎn)換器440轉(zhuǎn)換的LSP的間隙和閾值比較來確定語音區(qū)域是否存在。即,如果LSP間隙大于閾值,則語音區(qū)域確定器450確定不存在語音區(qū)域,并生成旁路(bypass)信號,如果LSP間隙小于閾值,則語音區(qū)域確定器450確定存在語音區(qū)域,并生成提升濾波模式信號(模式選擇信號)。
提升濾波系數(shù)生成器460從由LSP轉(zhuǎn)換器440轉(zhuǎn)換的LSP系數(shù)計算第一、第二、第三、和第四共振峰的中心頻率,并從自第一、第二、第三、和第四共振峰的中心頻率生成具有提升增益的提升濾波器系數(shù)。
圖5是根據(jù)本發(fā)明總體構(gòu)思的另一個實施例的對話增強方法的流程圖。
參照圖2至圖4,在操作510中,經(jīng)左和右聲道輸入的信號被合成。這里,左和右聲道信號分別包括中心信號。
因此,左(L)和右(R)聲道信號可分別由L=Lt+Ct和R=Rt+Ct表示。這里,Lt是真L聲道信號,Rt是真R聲道信號,Ct是真中心分量。因此,合成的輸入信號可被表示為Xinput=0.5*Lt+0.5*Rt+Ct。這里,Lt≠Rt。
當聲音信號在頻域中被表達時,大部分頻率分量存在于6KHz中,并且?guī)讉€頻段占優(yōu)勢。語音共振峰可被應用于在頻域中的占優(yōu)勢的波段。通常,在語音信號中發(fā)現(xiàn)4個共振峰。此外,這些共振峰位于每1KHz中。因此,第一、第二、第三、和第四共振峰存在于4KHz中。因此,在操作520中,使用取樣頻率44.1KHz的合成信號的1/5向下取樣被執(zhí)行以減少計算量。
在操作530中,使用LPC方法從向下取樣的信號中提取LPC系數(shù)。這里,LPC方法作為使用具有全極點結(jié)構(gòu)的數(shù)字濾波器將語音生成器官中的音軌(vocal tract)的特性建模的方法,被用于在假定語音信號在具有10-20ms的短區(qū)域(short zone)中是靜止的情況下從語音信號的具有10-20ms的短區(qū)域預測數(shù)字濾波器的系數(shù)。這里,語音信號s(n)可由方程1來表示。
s(n)=Σi=1pais(n-1)+Gu(n)]]>這里,ai是將音軌建模的線性濾波器系數(shù),G是增益,u(n)是激勵信號。
線性濾波器系數(shù)表示短區(qū)域語音信號的頻率特性,更具體地講,很好的表示關于作為有意義的聲學特性的音軌的諧振頻率(共振峰)的信息。
LPC系數(shù)采用例如使用自相關系數(shù)的Durbin方法在所示的方程2至方程8中被計算。
E0=r(0)這里,E0是輸入信號的能量,r(0)是自相關系數(shù)的第一個值。
ki={r(i)-Σj=1i-1αji-1r(|i-j|)}Ei-1,1≤i≤p]]>這里,ki是第i反射系數(shù)(reflection coefficient),r(i)是第i自相關系數(shù)(autocorrelation coefficient)。因此,使用方程4和5計算線性濾波器系數(shù)。
αi(i)=ki[方程5]αj(i)=αj(i-1)-kiαi-j(i-1),1≤j≤i-1[方程6]Ei=(1-ki2)E(i-1)這里,預先使用方程7計算自相關系數(shù)r(m)。
r(m)=Σn=0N-1-ms(n)s(n+m),m=0,1,...,p]]>這里,s(n)是語音信號。
最后,LPC系數(shù)可最終由方程8表示。
αm=LPC系數(shù)=αm(p),1≤m≤p為了指示語音信號的頻譜信息,在操作540中,基于LPC系數(shù)提取LSP系數(shù)。如圖6所示,線譜對(LSP)指示用于p不連續(xù)頻率的頻譜包絡。即,LSP通過使用基于線性預測的系數(shù)從LPC模型中被獲得并被建議為通過Itakura-Saito LPC頻譜距離的LPC系數(shù)的另一個表達類型。
如方程1所示,語音信號s(n)可被表示為濾波器傳遞函數(shù)H(z)=1/A(z),其執(zhí)行語音結(jié)構(gòu)的建模。這里,A(z)等于方程9。
A(z)=1+a1z-1+....+apz-p這里,ap是第p級LPC系數(shù)。
可使用如方程10和11中所表示的A(z)來定義LSP。
P(z)=A(z)+Z-(p+1)A(z-1)[方程11]Q(z)=A(z)-Z-(p+1)A(z-1)這兩個定義的多項式P(z)和Q(z)的根被定義為LSP。
LSP系數(shù)可從LPC系數(shù)獲得,并且LPC系數(shù)可從LSP系數(shù)獲得。
此外,由于多項式P(z)是偶函數(shù),多項式Q(z)是奇函數(shù),所以功率譜 可被表示為方程12。
方程12示出A(z)的根與P(z)和Q(z)的根緊密相關。即,通過收集2或3個LSP頻率來表示共振峰頻率。此外,共振峰的帶寬可根據(jù)LSP的線對的接近度來被表達。即,參照圖6,由實線和虛線之間的間隙指示的接近度越大表示具有越窄帶寬和越大振幅的共振峰。
在操作550中,使用LSP系數(shù)來確定語音區(qū)域是否存在。在語音中,共振峰具有窄的帶寬和大的振幅。因此,使用LSP的接近度來確定語音區(qū)域是否存在。即,如果LSP間隙小于閾值,則確定存在語音區(qū)域,如果LSP的間隙大于閾值,則確定不存在語音區(qū)域。
在操作560中,如果使用LSP的接近度確定不存在語音區(qū)域,則輸入的立體聲信號如在操作582中被旁路。
在操作560中,如果使用LSP的接近度確定存在語音區(qū)域,則提升語音共振峰的操作572、574、和576被隨后執(zhí)行。
即,如果確定在輸入信號中存在語音區(qū)域,則在操作572中使用LSP系數(shù)來確定第一、第二、第三、和第四共振峰的中心頻率。
在操作574中,使用第一、第二、第三、和第四共振峰的中心頻率來獲得具有提升電平的4波段的提升濾波系數(shù)。這里,共振峰的提升電平全部相同,從而語音信號的頻譜包絡不被改變。
在操作576中,輸入的立體聲信號如左或右聲道信號經(jīng)過提升濾波器系數(shù)被施加到其的4波段的提升濾波器。圖7示出在第一、第二、第三、和第四共振峰波段710、720、730、和740具有相同提升增益的信號的LPC頻譜。
最后,如圖7所示,通過將輸入的立體聲信號經(jīng)過4波段的提升濾波器該輸入的立體聲信號的語音區(qū)域被提高。
該發(fā)明總體構(gòu)思也可實施為存儲在計算機可讀記錄介質(zhì)上的計算機可讀代碼。計算機可讀記錄介質(zhì)是能夠存儲隨后可由計算機系統(tǒng)讀取的數(shù)據(jù)的任何數(shù)據(jù)存儲設備。計算機可讀存儲介質(zhì)的例子包括只讀存儲器(ROM)、隨機存取存儲器(RAM)、CD-ROM、磁帶、軟盤、光學數(shù)據(jù)存儲設備、和載波(如通過網(wǎng)絡的數(shù)據(jù)傳輸)。計算機可讀記錄介質(zhì)也可被分布在連接在計算機系統(tǒng)上的網(wǎng)絡中,從而計算機可讀代碼以分布的方式被存儲和執(zhí)行。
如上所述,根據(jù)本發(fā)明,通過使用LPC系數(shù)預測共振峰,語音檢測/增強操作的計算量可被減少。此外,由于通過在語音信號的第一、第二、第三、和第四共振峰中設置預定增益,語音信號的包絡沒有被扭曲,因此,音質(zhì)沒有被改變。
盡管已表示和描述了本發(fā)明總體構(gòu)思的一些實施例,但是本領域的技術人員應該理解,在不脫離由所附權利要求及其等同物所限定其范圍的本發(fā)明總體構(gòu)思的原理和精神的情況下,可以對這些實施例進行修改。
權利要求
1.一種對話增強方法,包括根據(jù)來自輸入信號的線性預測編碼(LPC)計算線譜對(LSP)系數(shù);根據(jù)計算的LSP系數(shù)確定輸入信號中是否存在一個或更多的語音區(qū)域;和根據(jù)一個或更多語音區(qū)域是否存在的確定來從LSP系數(shù)中提取一個或更多共振峰,并提升共振峰。
2.如權利要求1所述的方法,其中,線譜對系數(shù)的計算包括通過將LPC模型應用到輸入信號中來提取LPC系數(shù);和使用預定的LPC模型將LPC系數(shù)轉(zhuǎn)換為LSP系數(shù)。
3.如權利要求1所述的方法,其中,語音區(qū)域是否存在的確定包括如果LSP間隙小于閾值,則確定輸入信號是語音信號;如果LSP間隙大于閾值則確定輸入信號不是語音信號。
4.如權利要求1所述的方法,其中,共振峰的提取包括如果輸入信號中存在語音區(qū)域,則使用LSP系數(shù)確定共振峰的中心頻率;在共振峰的中心頻率生成具有提升電平的提升濾波器系數(shù);和使用提升濾波器系數(shù)來提升輸入信號的共振峰。
5.如權利要求4所述的方法,其中,對每個共振峰提升電平被設置為相同的幅度。
6.如權利要求4所述的方法,還包括如果輸入信號不是語音信號,則防止共振峰被提升。
7.如權利要求1所述的方法,其中,LSP系數(shù)的計算包括根據(jù)LSP系數(shù)確定一個或更多共振峰的中心頻率;和根據(jù)中心頻率提取將被用于提升共振峰的提升濾波器系數(shù)。
8.如權利要求1所述的方法,其中,共振峰的提升包括根據(jù)提升濾波器系數(shù)將共振峰提升相同的提升電平。
9.一種對話增強方法,包括合成左和右聲道的輸入信號以生成合成的信號;通過對合成的信號向下取樣基于線性預測編碼來提取頻譜參數(shù);根據(jù)LSP間隙確定是否存在一個或更多語音區(qū)域;根據(jù)是否存在一個或更多的語音區(qū)域來從相應于頻譜參數(shù)的LSP中提取一個或更多的共振峰;在一個或更多共振峰的中心頻率生成具有預定電平的多個波段的提升濾波器系數(shù);和如果在輸入信號中存在一個或更多語音區(qū)域,則使用多個波段的提升濾波器系數(shù)將輸入信號濾波。
10.一種對話增強裝置,包括提升濾波器系數(shù)提取器,用于通過基于來自輸入信號的線性預測編碼計算LSP系數(shù)來提取一個或更多共振峰,提取相應于一個或更多共振峰的預定電平的提升濾波器系數(shù),并根據(jù)LSP間隙確定輸入信號中是否存在一個或更多語音區(qū)域;和信號處理單元,用于根據(jù)語音區(qū)域是否存在的確定基于提升濾波器系數(shù)增強語音區(qū)域的一個或更多共振峰。
11.如權利要求10所述的裝置,還包括信號合成器,用于將經(jīng)左和右聲道輸入的輸入信號合成并將合成的信號輸出到提升濾波器系數(shù)提取器。
12.如權利要求10所述的裝置,其中,提升濾波器系數(shù)提取器包括向下取樣器,用于以預定的倍數(shù)對輸入信號向下取樣;LPC提取器,用于從由向下取樣器向下取樣的信號中提取LPC系數(shù);LSP轉(zhuǎn)換器,用于將由LPC提取器提取的LPC系數(shù)轉(zhuǎn)換為LSP系數(shù);語音區(qū)域確定器,用于通過將LSP間隙和閾值比較來確定是否存在語音區(qū)域;和提升濾波器系數(shù)生成器,用于從自LSP系數(shù)計算一個或更多共振峰的中心頻率,并從一個或更多共振峰的中心頻率生成具有預定的提升增益的提升濾波器系數(shù)。
13.如權利要求12所述的裝置,其中,如果LSP間隙大于閾值,則語音區(qū)域確定器通過確定輸入信號不是語音信號生成旁路模式信號,如果LSP間隙小于閾值,則語音區(qū)域確定器通過確定輸入信號是語音信號生成提升濾波模式。
14.如權利要求10所述的裝置,其中,輸入信號處理單元包括由提升濾波器系數(shù)提取器提取的提升濾波器系數(shù)被施加到其的4波段的提升濾波器。
15.如權利要求10所述裝置,其中,輸入信號包括左聲道信號和右聲道信號,信號處理單元包括用于根據(jù)確定和提升濾波器系數(shù)增強輸入信號的左聲道信號的第一信號處理單元,和用于根據(jù)確定和提升濾波器系數(shù)增強輸入信號的右聲道信號的第二信號處理單元。
16.如權利要求10所述的裝置,其中,輸入信號包括非語音區(qū)域,信號處理單元防止相應于非語音區(qū)域的輸入信號被增強。
17.如權利要求10所述的裝置,其中,提升濾波器系數(shù)具有相同的將被施加到一個或更多共振峰上的提升增益。
18.如權利要求10所述的裝置,其中,信號處理單元包括多個提升濾波器,以將語音區(qū)域的一個或更多共振峰增強相同的電平。
19.如權利要求10所述的裝置,其中,提升濾波器系數(shù)提取器根據(jù)LSP系數(shù)確定一個或更多共振峰的中心頻率,并根據(jù)一個或更多共振峰的中心頻率提取提升濾波器系數(shù)。
20.一種包含對話增強方法的計算機可讀存儲介質(zhì),該對話增強方法包括根據(jù)來自輸入信號的線性預測編碼(LPC)計算線譜對(LSP)系數(shù);根據(jù)計算出的LSP系數(shù)來確定輸入信號中是否存在一個或更多語音區(qū)域;和根據(jù)一個或更多語音區(qū)域是否存在的確定從LSP系數(shù)提取一個或更多共振峰,并提升一個或更多共振峰。
全文摘要
一種提升對話區(qū)域的共振峰而不改變聲音區(qū)域的對話增強方法和裝置,包括基于來自輸入信號的線性預測編碼(LPC)來計算線譜對(LSP)系數(shù);基于計算出的LSP系數(shù)確定輸入信號中是否存在語音區(qū)域;和根據(jù)是否存在語音區(qū)域來從LSP系數(shù)中提取共振峰,并提升共振峰。
文檔編號G10L21/04GK1619646SQ20041009111
公開日2005年5月25日 申請日期2004年11月18日 優(yōu)先權日2003年11月21日
發(fā)明者吳潤學, 樸海光 申請人:三星電子株式會社