專利名稱:基于波形的周期性檢測器的制作方法
技術領域:
本發(fā)明涉及音調周期(pitch period)(周期性)檢測,尤其涉及用于語音活動檢測的周期性檢測器。
語音活動檢測(VAD)是檢測供給一通信系統(tǒng)話筒的噪聲音頻信號中是否存在語言活動的技術。VAD系統(tǒng)用于電信領域的許多信號處理系統(tǒng)中。例如,在全球移動通信系統(tǒng)(GSM)中,如GSM技術規(guī)范中(尤其是1994年5月的GSMO6.10——全速率語音代碼轉換中;和GSMO6.31——全速率語音通信信道的斷續(xù)傳輸中)所述的那樣,通過令語音編碼器把VAD用作斷續(xù)傳輸(DTX)原理的實現(xiàn)方式部分,增大通信處理容量。在噪聲抑制系統(tǒng)中,例如在基于波譜減法(spectralsubtraction based)方法中,VAD用來指示何時開始進行噪聲估算(和噪聲參數適配)。在噪聲語音識別中,VAD還用來通過將適量噪聲估算值加給基準模板來改善語音識別系統(tǒng)的噪聲魯棒性。
新一代GSM免提功能被設計成結合用于通過GSM網絡所進行的高品質語音傳輸的降噪算法。成功背景噪聲降低算法的關鍵部分是加強的語音活動檢測算法。選擇GSM-VAD算法用于新一代免提噪聲抑制算法,以檢測來自話筒的噪聲信號中存在語音活動與否。若將s(n)定為純語音信號,而將v(n)定為背景噪聲信號,則話筒信號樣本x(n)在語音活動過程中為x(n)=s(n)+v(n) (I)而話筒信號樣本在非語音活動過程中為x(n)=v(n) (II)尤其是在x(n)的語音/噪聲比(SNR)值為低時,例如該值是在高速公路上行駛時的汽車環(huán)境內存在的值時,對以上公式所述狀態(tài)(I)和(II)檢測非比尋常。
GSM VAD算法產生表示當前幀音頻信號歸類在哪個狀態(tài)下的信息標記。在波譜減法算法中,對以上兩個狀態(tài)的檢測很有用,該檢測對背景噪聲的特征進行估算,以便改善信噪比而不使語音信號失真。例如,見IEEE Trans.on ASSP.vol.ASSP-27(1979)第113-120頁S.F.Boll所著的“使用波譜減法抑制語音中的聲噪聲(Suppressionof Acoustic Noise in Speech Using Spectral Subtraction)”;J.Makhoul & R.McAulay所著的“從降噪的語音信號中消除噪聲”(Removal of Noise From Noise-Degraded SpeechSignals).National Academy Press,Washington,D.C.(1989);Proceedings of ICASSP-88.vol.1(1988)第481-485頁A.Varga等人所著的“基于HMM的語音識別算法的補償算法(CompensationAlgorithms for HMM Based Speech Recognition Algorithms)”;和Proceedings of EUROSPEECH Conf.,ISSN 1018-4074(1995)第1549-1553頁P.Hndel所著的“用于語音增強的低失真波譜減法(LowDistortion Spectral Subtraction for Speech Enhancement)”。
GSM VAD算法又在其運算中采用了一種自動相關函數(ACF)和得自語音編碼器的周期性信息。因此,必需在獲得所執(zhí)行的任何噪聲抑制動作之前運行語音編碼器。這種情況示于
圖1中。將數字化話筒信號樣本x(k)供給語音編碼器101,語音編碼器101又產生GSMO6.10.所規(guī)定的自動相關系數(ACF)和長期預測器滯后值(音調信息)Np。把ACF和Np信號供給VAD103。VAD103產生一個VAD判定結果,把該結果供給基于波譜減法自適應噪聲抑制(ANS)單元105的一個輸入端。ANS105的第二輸入端接收延遲形式的原始話筒信號樣本x(n)。ANS105的輸出信號是一個降噪信號,然后將該降噪信號供給第二語音編碼器107。(圖中將第二語音編碼器107示為一個分開的單元。不過,可以認為的是,第一和第二語音編碼器101、107實際上可以是運行兩次的同一個單元。)根據以上的討論,顯然,GSM VAD算法需要運行整個語音編碼器,以便能夠取出進行VAD判定所必需的短期自動相關和長期周期性信息。
通過一個長期預測器利用交叉相關算法來計算語音編碼器中的周期性信息。這些算法在計算方面代價很高,并且在免提信號處理過程中會引起不必要的延遲。對新一代編碼解碼器(例如GSM的新一代增強型全速率(EFR)編碼解碼器)來說,對一種簡單的周期性檢測器的需要問題變得更加尖銳,因為它耗占了大量的存儲器和處理能力(即,每秒需要執(zhí)行的指令數),還因為與GSM的現(xiàn)有全速率(FR)編碼解碼器相比,它顯著的增加了計算性延遲。
就延遲、計算性需要和存儲需要來說,降噪算法中VAD判定對周期性和來自語音編碼器101的ACF信息利用的采用代價很高。此外,在實現(xiàn)成功的語音傳輸之前,語音編碼器必需運行兩次。從信號中取出周期性信息也是在計算方面最昂貴的部分。因此,對于未來移動終端和配件中有效地執(zhí)行背景噪聲抑制算法來說,需要一種用來取出信號中周期性信息的復雜性較低的方法。
傳統(tǒng)的周期性檢測器如美國專利US3,920,907和US4,164,626中描述的那些檢測器主要基于對信號的模擬處理,它們未能考慮材料老化和處理時間長的問題。另外,這些專利中所述的計算性方面代價很高的技術用來處理僅僅由沒有附加噪聲的干凈信號組成的輸入信號。
其他傳統(tǒng)的周期性檢測器如美國專利US5,548,680、US4,074,069和US5,127,053中描述的那些檢測器采用了基于輸入信號的線性預測編碼(LPC)模型化的標準GSM型音調檢測器。遇有上述問題的這些技術也不能使處理適應于信號的時變特性,而是采用了非時變的估計模型參數(象LPC順序、幀長度等等)。
因此,本發(fā)明的目的是提供一種周期性檢測方法和裝置,它基于自適應信號處理,在計算方面非常簡單,并且不作關于信號的任何先驗假定(即,不管它是嘈雜的、干凈的還是有相關的)。
根據本發(fā)明的一個方面,前面和其他目的在一種用來根據一輸入信號產生周期性信息的方法和裝置中實現(xiàn)。這種技術包括通過對該輸入信號采用低通濾波和非線性濾波來產生一預處理信號,其中該預處理信號具有被突出的語言音調音軌。把一種自適應閾值算法用于該預處理信號,以產生一檢測信號,該檢測信號具有峰值被輸入信號的音調周期分開的波形片段。確定該檢測信號中峰值之間的周期以產生周期性信息。然后,關于該檢測信號中峰值之間周期的信息用來使一定標值適于被以后步驟中的自適應閾值算法所采用。該周期性信息可以用于一種電話通信系統(tǒng)中的語音活動檢測器中。
在本發(fā)明的另一個方面中,根據以下公式執(zhí)行非線性濾波
其中y(k)是低通濾波后的輸入信號的第k個樣本??梢园裯和β的值選為輸入信號一個信噪比的函數。
在本發(fā)明的又一個方面中,自適應閾值算法根據以下公式產生一個閾值信號Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>這里,y(k)是預處理信號的第k個樣本,G(i)是時間i時的定標因子,N(i)是以前執(zhí)行的自適應閾值計算步驟所產生信號中峰值之間的樣本數目。
在本發(fā)明的再一個方面中,把比例因子G(i)調整為N(i)值的函數。
在本發(fā)明的另一個方面中,調整比例因子G(i)的步驟包括以下步驟把N(i)與一預定值作比較;如果N(i)小于該預定值則增大G(i);如果N(i)大于該預定值則減小G(i)。該預定值可以是例如一個語言信號的期望平均音調周期。
通過結合附圖閱讀以下詳細描述,可以理解本發(fā)明的目的和優(yōu)點,在這些附圖中圖1是一種傳統(tǒng)語音活動檢測電路的方框圖;圖2是根據本發(fā)明的一種周期性檢測器的方框圖;圖3a和3b分別示出包括語音信息和汽車噪音的一個信號以及出自根據本發(fā)明一個方面的預處理級的結果信號。
現(xiàn)在參考附圖來描述本發(fā)明的各種特征,在這些附圖中,類似的部件用相同的參考符號標示。
本發(fā)明提供一種復雜性小的基于波形的周期性檢測器,它消除了對僅為了得到信號信號周期性信息(即,GSMO6.10中描述的長期預測滯后值Np)而運行整個語音編碼器的要求。語音活動檢測器可以替代地工作在Np值加ACF值,該Np值是用本發(fā)明周期性檢測器得到的,而ACF值是用已經在自適應噪聲抑制單元中運行的計算例程得到的。(也就是說,傳統(tǒng)的基于波譜減法的自適應噪聲抑制算法包括ACF計算作為其信號處理的一部分。這些ACF是用許多信號處理教科書中所充分描述的現(xiàn)用標準算法計算的,所以在此無需詳細描述它們。)這使得整個實施方案在存儲器的用法和處理延遲方面都很有效。
本發(fā)明周期性檢測器的典型實施例示于圖2中。如圖2所示的系統(tǒng)例如由運行一個程序的可編程處理器實現(xiàn),該程序用C語言源代碼或匯編語言代碼寫成。根據本發(fā)明的一個方面,周期性檢測基于短期波形音調計算和長期音調周期比較。參見圖2,首先通過由低通濾波器(LP)和非線性信號處理部件(NLP)組成的預處理級201運行離散音頻信號x(k),以突出語言音軌(speech pitch tracks)。LP濾波器的目的是從嘈雜的語言中取出音調頻率信號。由于找到語言中200-1000Hz范圍內的音調頻率信號,所以LP濾波器截止頻率范圍優(yōu)選選在800-1200Hz。
非線性處理函數優(yōu)選根據以下公式進行
n和β的值優(yōu)選作為嘈雜輸入信號的信噪比(SNR)函數從一速查表中選取。該SNR可以在預處理級201中受到測量,而表中的固定值可以根據經驗確定。對于低SNR值(例如汽車環(huán)境中的0-6dB)來說,較大的n值用來增強峰值,而較小的β值用來避免計算過程中的溢出。對于高SNR值來說,采用相反的策略(即采用較小的n值和較大的β值。)圖3a和3b示出預處理級201的結果。圖3a中,示出帶有汽車噪音的10dB SNR信號S1。圖3b中,示出結果信號S2,它是根據本發(fā)明預處理第一信號S1的結果。在該實例中,平均音調周期是5.25秒,且在一個采樣周期內為恒定值。
預處理級201簡化了隨后的周期性檢測并增強了魯棒性。將預處理級201的輸出供給自適應閾值計算級203,自適應閾值計算級203的輸出又供給峰值檢測級205。自適應閾值計算級203和峰值檢測級205檢測含周期性(音調)信息的波形片段。自適應閾值計算級203的目的是抑制不含關于輸入信號音調周期信息的預處理信號中的那些峰值。因而,抑制了預處理信號中具有自適應確定閾值以下的峰值的那些部分。自適應閾值計算級203的輸出應當具有由音調周期間隔開的峰值。峰值檢測級205的任務是確定自適應閾值計算級203所提供的該信號中峰值之間的樣本數目。定義為N個的這些樣本構成一幀信息。
自適應閾值計算級203根據以下公式產生一個輸出值C(y(k))
可以看出,對于幅值超過閾值Vth(i)幅值的樣本y(k)來說,自適應閾值計算級203產生一個等于輸入y(k)的輸出值。對于幅值小于閾值Vth(i)幅值的樣本y(k)來說,輸出為零。在一優(yōu)選實施例中,C(y(k))總為正值,因為預處理級201的輸出y(k)本身總為正。
優(yōu)選根據以下公式從輸入y(k)值中產生閾值電平Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>這里,G(i)是時間i時的定標因子,N(i)是幀i的幀長度。值N(i)、G(i)以及因此的Vth(i)作為嘈雜的輸入信號幅值與波譜不穩(wěn)定性(即,該信號的概率密度函數(pdf)隨時間改變的程度)的函數逐幀改變。對于每一幀來說,把N(i)的值作為來自峰值檢測級205的反饋信號。根據一個速查表把G(i)的值作為N(i)中變化的函數進行調整。根據經驗確定固定的G(i)表的值。通常,它們采用0和1之間的值,并且反過來對N(i)中的變化起作用。對于第一幀來說,可以采用推測值G(0)。隨后,可以把N(i)的反饋值與語言信號的期望平均音調周期(例如與20msec相對應的樣本數目)進行比較。然后,如果N(i)的值大于期望平均值,則減小G(i)的值。類似地,如果N(i)的值小于期望平均值,則增大G(i)的值。這樣,自適應調整自適應閾值計算級203的輸出,以便抑制不含音調周期信息的輸入信號峰值,這也不會影響不含音調周期信息的信號部分。這種對信號信息的自適應跟蹤在實現(xiàn)穩(wěn)定的周期性檢測方面是一重要因素。
如上所述,峰值檢測級205從自適應閾值計算級203中接收C(y(k))值,并且測量檢測峰值之間的周期。峰值檢測級205的輸出N(i)是檢測峰值之間的樣本數目。
把峰值檢測級205的輸出供給周期性估算級207,周期性估算級207通過對幾個(例如三個或四個)N(i)值求平均值以及檢查Np值是否接近音調周期的期望平均值來產生周期性信息Np。在本發(fā)明的另一個實施例中,周期性估算級207還檢查N(i)的各個值,以避免采用對平均周期性估算值Np有不利影響的錯誤值。
以上已經描述了具有小計算量和存儲量要求的基于波形的周期性檢測方法。自適應閾值估算用來跟蹤噪聲所影響的語音信號的幅值和波譜不穩(wěn)定性。
以上已經參照一個特定的實施例描述了本發(fā)明。不過,對本領域的那些普通技術人員來說顯而易見的是,可以以上述優(yōu)選實施例形式以外的其他具體形式實現(xiàn)本發(fā)明。這可以在不脫離本發(fā)明實質的情況下作出。該優(yōu)選實施例只是起說明作用而不應被認為有任何限制性。本發(fā)明的范圍由所附的權利要求書給出而不是由前述說明給出,落入本權利要求書范圍內的所有變換和等同物都應包含在內。
權利要求
1.一種從一輸入信號中產生周期性信息的方法,包括以下步驟通過應用低通濾波和非線性濾波而從輸入信號中去除信息來產生一個預處理信號,其中去除的信息不表示語言音調信息;根據一個自適應閾值算法轉換該預處理信號,以產生一檢測信號,該檢測信號具有峰值被輸入信號音調周期分開的波形片段;確定該檢測信號中峰值之間的一個周期,以產生周期性信息;和用關于該檢測信號中峰值之間周期的信息使一定標值適于被以后步驟中自適應閾值算法所采用。
2.權利要求1的方法,其中根據以下公式進行非線性濾波
其中y(k)是低通濾波后的輸入信號的第k個樣本。
3.權利要求2的方法,其中把n和β的值選為輸入信號一個信噪比的函數。
4.權利要求3的方法,其中自適應閾值算法根據以下公式產生一個閾值信號Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>這里,y(k)是預處理信號的第k個樣本,G(i)是時間i時的定標因子,N(i)是以前執(zhí)行的自適應閾值計算步驟所產生信號中峰值之間的樣本數目。
5.權利要求4的方法,還包括把定標因子G(i)作為N(i)值的函數而調整的步驟。
6.權利要求5的方法,其中調整比例因子G(i)的步驟包括以下步驟把N(i)與一預定值作比較;如果N(i)小于該預定值,則增大G(i);而如果N(i)大于該預定值,則減小G(i)。
7.權利要求2的方法,其中自適應閾值算法根據以下公式產生一個閾值信號Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>這里,y(k)是預處理信號的第k個樣本,G(i)是時間i時的定標因子,N(i)是以前執(zhí)行的自適應閾值計算步驟所產生信號中峰值之間的樣本數目。
8.權利要求7的方法,還包括把定標因子G(i)作為N(i)值的函數而調整的步驟。
9.權利要求8的方法,其中調整定標因子G(i)的步驟包括以下步驟把N(i)與一預定值作比較;如果N(i)小于該預定值,則增大G(i);而如果N(i)大于該預定值,則減小G(i)。
10.權利要求1的方法,其中自適應閾值算法根據以下公式產生一個閾值信號Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>這里,y(k)是預處理信號的第k個樣本,G(i)是時間i時的定標因子,N(i)是以前執(zhí)行的自適應閾值計算步驟所產生信號中峰值之間的樣本數目。
11.權利要求10的方法,還包括把定標因子G(i)作為N(i)值的函數而調整的步驟。
12.權利要求11的方法,其中調整定標因子G(i)的步驟包括以下步驟把N(i)與一預定值作比較;如果N(i)小于該預定值,則增大G(i);而如果N(i)大于該預定值,則減小G(i)。
13.一種用來從一輸入信號中產生周期性信息的裝置,包括通過應用低通濾波和非線性濾波而從輸入信號中去除信息來產生一個預處理信號的裝置,其中去除的信息不表示語言音調信息;根據一個自適應閾值算法轉換該預處理信號以產生一檢測信號的裝置,該檢測信號具有峰值被輸入信號音調周期分開的波形片段;確定該檢測信號中峰值之間的一個周期以產生周期性信息的裝置;和用關于該檢測信號中峰值之間周期的信息使一定標值適于被以后步驟中自適應閾值算法所采用的裝置。
14.權利要求13的裝置,其中根據以下公式進行非線性濾波
其中y(k)是低通濾波后的輸入信號的第k個樣本。
15.權利要求14的裝置,其中把n和β的值選為輸入信號一個信噪比的函數。
16.權利要求15的裝置,其中自適應閾值算法根據以下公式產生一個閾值信號Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>這里,y(k)是預處理信號的第k個樣本,G(i)是時間i時的定標因子,N(i)是以前執(zhí)行的自適應閾值計算步驟所產生信號中峰值之間的樣本數目。
17.權利要求16的裝置,還包括把定標因子G(i)作為N(i)值的函數而調整的裝置。
18.權利要求17的裝置,其中調整定標因子G(i)的裝置包括把N(i)與一預定值作比較的裝置;如果N(i)小于該預定值則增大G(i)的裝置;和如果N(i)大于該預定值則減小G(i)的裝置。
19.權利要求14的裝置,其中自適應閾值算法根據以下公式產生一個閾值信號Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>這里,y(k)是預處理信號的第k個樣本,G(i)是時間i時的定標因子,N(i)是以前執(zhí)行的自適應閾值計算步驟所產生信號中峰值之間的樣本數目。
20.權利要求19的裝置,還包括把定標因子G(i)作為N(i)值的函數而調整的裝置。
21.權利要求20的裝置,其中調整定標因子G(i)的裝置包括把N(i)與一預定值作比較的裝置;如果N(i)小于該預定值則增大G(i)的裝置;和如果N(i)大于該預定值則減小G(i)的裝置。
22.權利要求13的裝置,其中根據自適應閾值算法轉換預處理信號的裝置根據以下公式產生一個閾值信號Vth(i)Vth(i)=G(i)N(i)Σk=0N(i)-1y(k)]]>這里,y(k)是預處理信號的第k個樣本,G(i)是時間i時的定標因子,N(i)是以前執(zhí)行的自適應閾值計算步驟所產生信號中峰值之間的樣本數目。
23.權利要求22的裝置,還包括把定標因子G(i)作為N(i)值的函數而調整的裝置。
24.權利要求23的裝置,其中調整定標因子G(i)的裝置包括把N(i)與一預定值作比較的裝置;如果N(i)小于該預定值則增大G(i)的裝置;和如果N(i)大于該預定值則減小G(i)的裝置。
全文摘要
一種用來從一輸入信號中產生周期性信息的基于波形的技術,這種技術包括通過對該輸入信號采用低通濾波和非線性濾波來產生一預處理信號,其中該預處理信號具有被突出的語言音調音軌。把一種自適應閾值算法用于該預處理信號,以產生一檢測信號,該檢測信號具有峰值被輸入信號的音調周期分開的波形片段。確定該檢測信號中峰值之間表示周期性信息的周期。然后,關于該檢測信號中峰值之間周期的信息用來使一定標值適于被以后步驟中的自適應閾值算法所采用。該周期性信息可以用于一種電話通信系統(tǒng)中的語音活動檢測器中。
文檔編號G10L11/00GK1276897SQ98810308
公開日2000年12月13日 申請日期1998年8月7日 優(yōu)先權日1997年8月25日
發(fā)明者F·邁庫艾 申請人:艾利森電話股份有限公司