專利名稱:使用自適應(yīng)噪聲基底跟蹤的語音活動(dòng)檢測的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及在移動(dòng)應(yīng)用和無線應(yīng)用的主要領(lǐng)域中的通信系統(tǒng)的通信信號(hào)中檢測語音活動(dòng)的方法和設(shè)備,特別涉及應(yīng)用于在噪聲環(huán)境中估計(jì)活動(dòng)語音電平的自動(dòng)增益控制設(shè)備中的方法和系統(tǒng)。
背景技術(shù):
在語音信號(hào)被傳送給接聽者或者被電話答錄機(jī)記錄的通信系統(tǒng)中,無論實(shí)際的語音電平是多少,人們都期望把語音信號(hào)的電平自動(dòng)調(diào)整到預(yù)定參考電平。這樣會(huì)提高能聽度和收聽者舒適度。對(duì)應(yīng)的自動(dòng)增益控制設(shè)備的調(diào)整機(jī)制應(yīng)該把輸出電平置于參考值,而這需要對(duì)長期活動(dòng)語音電平進(jìn)行可靠的測量和估計(jì)。該控制設(shè)備還應(yīng)該能夠在語音說話期間防止背景噪聲的非理想升高。這需要一種即使存在高背景噪聲電平的情況下也能工作正常的語音活動(dòng)檢測電路(VAD),所述背景噪聲電平可能隨著時(shí)間而有相當(dāng)大的變動(dòng)。
圖1的時(shí)間相關(guān)信號(hào)圖示出了純語音信號(hào)s(上圖)和根據(jù)純語音信號(hào)生成的短期電平信號(hào)S。在這種沒有噪聲的情況下,可以通過將電平信號(hào)和一個(gè)絕對(duì)閥值進(jìn)行比較,來執(zhí)行語音活動(dòng)檢測,從而識(shí)別出具有活動(dòng)語音的段。這一般通過對(duì)信號(hào)s的輸入采樣平方(短期功率估值)或者輸入采樣的絕對(duì)值(短期電平幅度估值)施加低通濾波器或者平滑濾波器來實(shí)現(xiàn)。低通濾波器可以是用于所謂泄漏積分(leaky integration)的數(shù)字一階回歸濾波器(無限沖擊響應(yīng)(IIR)濾波器)。對(duì)于8KHz的采樣率,通常在2-5到2-7范圍之間選擇一個(gè)時(shí)間常量參數(shù)α。
為了特別強(qiáng)調(diào)語音信號(hào)的開始,該參數(shù)可以根據(jù)上升電平或者下降電平進(jìn)行轉(zhuǎn)換?,F(xiàn)在,如果純語音信號(hào)s的短期電平S高于固定的絕對(duì)閥值參數(shù)TH_A,則檢測到語音活動(dòng)。這可以由下面的表達(dá)式表示VAD=1如果S(i)-TH_A>0 (1)圖2示出了在文件EP0 110 464 B2中用作例子所描述的語音活動(dòng)檢測器的示意方框圖。根據(jù)圖1,通過輸入端E向模擬/數(shù)字(A/D)轉(zhuǎn)換器2提供帶噪聲的語音信號(hào),所述A/D轉(zhuǎn)換器以在預(yù)定采樣時(shí)刻生成采樣值x(k),其中k是整數(shù)且表示采樣值的序號(hào)。接著,采樣值x(k)被提供給噪聲基底估計(jì)單元4,所述單元4用于對(duì)接收語音信號(hào)的數(shù)字樣點(diǎn)值(即采樣值x(k))中存在的背景噪聲進(jìn)行估計(jì)。并行地,采樣值x(k)也被提供給信號(hào)功率估計(jì)單元6,所述單元6執(zhí)行計(jì)算和/或處理,從而確定接收語音信號(hào)中存在的信號(hào)功率。信號(hào)功率估計(jì)單元6中的計(jì)算和/或處理可以基于輸入采樣值的均方值的確定。接著,噪聲基底估計(jì)單元4和信號(hào)功率估計(jì)單元6的輸出被提供給比較器或者比較器單元8,所述單元8用于根據(jù)估計(jì)的噪聲基底確定一個(gè)相對(duì)閥值,并且將估計(jì)的信號(hào)功率電平和該相對(duì)閥值進(jìn)行比較。根據(jù)比較的結(jié)果,比較單元8生成一個(gè)控制信號(hào),并將該控制信號(hào)給語音活動(dòng)檢測處理單元10,所述單元10生成一個(gè)用于指示語音活動(dòng)的VAD標(biāo)記,以響應(yīng)所接收的控制信號(hào)。
因此,圖2中示出的語音活動(dòng)檢測器依賴于帶噪聲的輸入電平值和背景噪聲電平估計(jì)值的閥值比較來分配它的VAD標(biāo)記。
圖3示出了類似于圖1的時(shí)間相關(guān)信號(hào)圖,其針對(duì)帶噪聲的語音信號(hào)x包括一個(gè)穩(wěn)態(tài)背景噪聲的情況。該較穩(wěn)態(tài)背景噪聲如同一個(gè)常數(shù)偏移量被加到純語音信號(hào)電平S上,從而形成了具有噪聲的組合語音信號(hào)的短期電平X(圖3中的實(shí)線)。應(yīng)該注意的是,此處由小寫字母表示的信號(hào)對(duì)應(yīng)于從圖2的A/D轉(zhuǎn)換器獲得的實(shí)際的或者真實(shí)的采樣值,而由大寫字母表示的信號(hào)對(duì)應(yīng)于根據(jù)原始采樣信號(hào)獲得的電平信號(hào),它們分別通過對(duì)采樣平方或者幅度采樣分別進(jìn)行平滑濾波或平均濾波而獲得。
現(xiàn)在,語音活動(dòng)檢測機(jī)制應(yīng)該包括這樣的特性考慮語音信號(hào)x的活動(dòng)部分偏離背景噪聲的量,這意味著帶噪聲的語音信號(hào)x的短期電平顯著跨越估計(jì)的偏移量電平N的相對(duì)量,估計(jì)的偏移量電平N即所謂的噪聲基底(noise floor)。因此,VAD判決應(yīng)該另外還包括一個(gè)由估計(jì)的噪聲基底進(jìn)行加權(quán)的相對(duì)閥值參數(shù)TH_R,并且可以表示如下VAD=1如果X(i).TH_R-N(i)-TH_A>0 (2)在圖3中,該估計(jì)的噪聲基底N用點(diǎn)線表示,經(jīng)過噪聲加權(quán)的相對(duì)檢測閥值用虛線表示。如果為了獲得純語音信號(hào)的短期電平估計(jì)S’而首先從帶噪聲的語音信號(hào)的短期電平X中消除估計(jì)的噪聲基底N,則這可以用改變的方程表示為VAD=1如果S’(i)-(1-TH_R)X(i)-TH_A>0(3)電平分離的基本原則可以作為VAD機(jī)制應(yīng)用在很多應(yīng)用中,所述電平分離的基本原則即把穩(wěn)態(tài)噪聲基底N從語音信號(hào)的較穩(wěn)態(tài)電平中分離出來。這意味著沒有考慮語音信號(hào)和噪聲信號(hào)的其它特性,如頻譜結(jié)構(gòu)、零交叉率、信號(hào)—幅度分布等。在多數(shù)應(yīng)用中,語音和噪聲之間的充分區(qū)分可以只基于它們短期電平的不同穩(wěn)態(tài)行為。但是,噪聲在整個(gè)時(shí)間將是或多或少地恒定的假設(shè)必須在現(xiàn)實(shí)中必須經(jīng)受考驗(yàn)。確實(shí),該判決也有必要基于噪聲基底隨時(shí)間緩慢變化甚至突然改變的可能性。因此,該VAD機(jī)制應(yīng)該具有跟蹤噪聲基底的功能。跟蹤噪聲基底可以基于背景噪聲估計(jì)的更新過程,其可以使用緩慢上升/快速下降的技術(shù)來實(shí)現(xiàn),根據(jù)所述緩慢上升/快速下降的技術(shù),如果輸入電平小于噪聲基底估計(jì),則將噪聲基底直接設(shè)置為等于輸入電平。另一方面,上升的輸入電平也應(yīng)當(dāng)優(yōu)選地分配給活動(dòng)語音段,并且只是小心地用于升高背景噪聲電平估計(jì)。此目的是為了減少語音活動(dòng)檢測和背景噪聲基底更新之間的相互依賴。已經(jīng)顯示的是,實(shí)際噪聲基底的良好獨(dú)立跟蹤行為也將導(dǎo)致VAD和長期活動(dòng)語音電平估計(jì)的良好性能,并且這又提高了整體AGC性能。
在上述文件EP0 110 467 B2中,描述了使用保守更新的噪聲基底跟蹤過程,其中用一個(gè)常數(shù)增量提高噪聲基底估計(jì),只有在噪聲電平保持非常穩(wěn)定時(shí),這才是可以接受的。該過程只在噪聲基底的變化是緩和的情況下才有良好的性能。但是,噪聲基底突然增加的跟蹤性能很差。有時(shí)需要花費(fèi)幾秒鐘才能適應(yīng)新的噪聲基底。
在文件US2002/0152066 A1中描述了另外一種噪聲基底跟蹤方案,其中通過斜率因子加權(quán)過程,使得跟蹤速度在噪聲基底上升的情況下得到相當(dāng)?shù)脑黾?。選擇該斜率因子,以使得在對(duì)數(shù)域中實(shí)現(xiàn)恒定的上升時(shí)間2.8dB/s。但是,因?yàn)樵肼暬赘轮械脑鲩L量依賴于當(dāng)前實(shí)際的噪聲基底估計(jì)本身,所以在整個(gè)動(dòng)態(tài)范圍內(nèi)從來沒有可比的定時(shí)行為。這使得以一個(gè)常數(shù)斜率因子工作很困難。假如噪聲基底的第一次估計(jì)離真實(shí)的噪聲基底很遠(yuǎn),則應(yīng)該使用一個(gè)很高值的斜率因子,并且斜率隨后需要相當(dāng)?shù)販p少,以僅跟蹤小的實(shí)際偏差。
總而言之,這兩種公知的跟蹤方案在實(shí)際使用中都存在不能在整個(gè)動(dòng)態(tài)范圍內(nèi)維持性能的問題。在互相排斥的可能方案中取得一個(gè)好的折衷,即在語音活動(dòng)期間不跟蹤太多的語音電平、但能足夠快速地跟蹤一個(gè)上升的噪聲電平,仍然是一個(gè)主要問題。
發(fā)明內(nèi)容
所以本發(fā)明的目的是提供一種語音活動(dòng)檢測機(jī)制,通過該機(jī)制,噪聲基底估計(jì)的可跟蹤性能在一個(gè)寬的動(dòng)態(tài)范圍內(nèi)得到提高。
該目標(biāo)通過如權(quán)利要求1所述的一種語音活動(dòng)檢測設(shè)備以及如權(quán)利要求7所述的一種語音活動(dòng)檢測方法來獲得。
相應(yīng)地,提供了一種簡單和具魯棒性的方案,用于在語音活動(dòng)檢測中跟蹤噪聲基底。和現(xiàn)有技術(shù)方案不同,本發(fā)明獲得了寬動(dòng)態(tài)范圍以及在語音活動(dòng)檢測與快速而可靠的噪聲基底跟蹤之間實(shí)現(xiàn)了良好的相互依賴。噪聲基底估計(jì)是通過具有時(shí)變?yōu)V波系數(shù)的濾波器來實(shí)現(xiàn)的,所述濾波系數(shù)用于確定跟蹤速度。如果輸入通信信號(hào)的電平高于估計(jì)的偏移分量(即噪聲基底),則假定是一個(gè)上升的噪聲電平,故選擇濾波系數(shù)以使得跟蹤速度越來越快。另一方面,如果輸入通信信號(hào)的電平小于估計(jì)的偏移分量,則跟蹤速度可以立刻下降,從而避免估計(jì)的噪聲電平追隨(follow)語音電平的問題。因此,本方案能夠在噪聲基底突然上升期間改進(jìn)噪聲基底跟蹤,并且在一個(gè)大的動(dòng)態(tài)范圍工作良好。
根據(jù)第一方面,所述濾波裝置可以包括一個(gè)槽帶(notch)處于零頻率的槽型濾波器,并且所述限制裝置可以包括一個(gè)具有限制特性的非線性單元,所述限制特性用于抑制負(fù)信號(hào)通過所述槽型濾波器的回歸路徑的傳輸回歸。因此,通過在槽型濾波器的回歸路徑中增加非線性單元,可以保證在槽型濾波器中減去偏移分量絕不會(huì)導(dǎo)致負(fù)的輸出電平值。
根據(jù)第二方面,所述濾波裝置可以包括用于提取偏移分量的低通濾波器,并且所述限制裝置可以包括比較裝置和切換裝置,其中比較裝置用于把提取的偏移分量和通信信號(hào)進(jìn)行比較,切換裝置用于選擇提取的偏移分量或者選擇通信信號(hào),以響應(yīng)比較裝置的輸出。因此,如果輸入信號(hào)小于噪聲基底,則當(dāng)切換裝置直接把輸入電平復(fù)制成噪聲基底時(shí),低通濾波器直接估計(jì)噪聲基底。所以,可以獲得快速的向下更新。
參數(shù)控制裝置可用于如果所述通信信號(hào)電平下降到所述估計(jì)的偏移分量的電平之下,則把所述濾波參數(shù)設(shè)置為第一參數(shù),該第一參數(shù)導(dǎo)致所述估計(jì)的較低跟蹤速度;如果所述通信信號(hào)的電平高于所述估計(jì)的偏移分量的電平,則把所述濾波參數(shù)設(shè)置為第二參數(shù),該第二參數(shù)導(dǎo)致所述估計(jì)的較高跟蹤速度。具體而言,參數(shù)控制裝置可以通過濾波參數(shù)在最小值和最大值的限制范圍內(nèi)的指數(shù)自適應(yīng)來工作,而且依賴于比較裝置可以被復(fù)位成最小值。所以,濾波參數(shù)的自適應(yīng)對(duì)應(yīng)于優(yōu)選的緩慢上升/快速下降技術(shù)。因此,可以獲得在語音活動(dòng)期間對(duì)噪聲基底的穩(wěn)定估計(jì)。
現(xiàn)在結(jié)合附圖,在優(yōu)選實(shí)施例的基礎(chǔ)上描述本發(fā)明,在附圖中圖1的信號(hào)圖示出了一種對(duì)純語音進(jìn)行語音活動(dòng)檢測的原理;
圖2示出了一種現(xiàn)有技術(shù)的語音活動(dòng)檢測器裝置的方框示意圖;圖3的信號(hào)圖示出了一種對(duì)含噪聲的語音信號(hào)進(jìn)行語音活動(dòng)檢測的原理;圖4示出了一個(gè)可以執(zhí)行本發(fā)明的語音活動(dòng)檢測器裝置的方框示意圖;圖5是槽型濾波器的頻率響應(yīng)的示意圖;圖6示出了根據(jù)本發(fā)明的第一優(yōu)選實(shí)施例的非線性自適應(yīng)槽型電平濾波器的示意功能框圖;圖7示出了可在本發(fā)明的第二優(yōu)選實(shí)施例中使用的偏移量減法濾波器的示意功能框圖;圖8示出了根據(jù)第二優(yōu)選實(shí)施例的自適應(yīng)噪聲基底跟蹤濾波器的示意功能框圖;圖9的信號(hào)圖示出了根據(jù)第一優(yōu)選實(shí)施例和第二優(yōu)選實(shí)施例的具有快速跟蹤的自適應(yīng)噪聲基底估計(jì);以及圖10示出了比較不同噪聲基底估計(jì)方案的跟蹤行為的信號(hào)圖。
發(fā)明詳述下面,將基于圖4中示出的語音活動(dòng)檢測方案來描述優(yōu)選的實(shí)施例。根據(jù)圖4,通過輸入端子E提供一個(gè)帶噪音的語音信號(hào)給模/數(shù)(A/D)轉(zhuǎn)換器2,后者類似于圖2的裝置。接著,采樣值被提供給電平計(jì)算裝置42,電平計(jì)算裝置42用于計(jì)算所述采樣值的被平滑的短期電平值X。該被平滑的短期電平值X被提供給噪聲基底估計(jì)單元44,所述單元44包括限制功能部件141,并且用于估計(jì)出現(xiàn)在接收語音信號(hào)的數(shù)字樣本(即被平滑的電平值)中的背景噪聲。并行地,被平滑的短期電平值也和噪聲基底估計(jì)單元44的輸出一起被提供給參數(shù)控制單元46和語音活動(dòng)控制單元48,其中所述單元46控制噪聲基底估計(jì)單元44中提供的濾波器功能的參數(shù),所述單元48生成VAD控制信號(hào),例如,VAD標(biāo)記。
根據(jù)優(yōu)選的實(shí)施例,所提出的語音活動(dòng)檢測器通過把預(yù)定相對(duì)閥值和絕對(duì)閥值進(jìn)行組合而工作,并且,如果諸如輸入采樣的低通濾波絕對(duì)值之類的短期輸入電平值顯著高于噪聲基底估計(jì)值,則表示語音活動(dòng)。基于相對(duì)閥值,對(duì)輸入電平值進(jìn)行加權(quán),然后對(duì)其進(jìn)行噪聲基底減法。最后,絕對(duì)閥值和作為噪聲基底減法結(jié)果的純語音信號(hào)電平值相關(guān),從而生成如上述方程(2)所定義的VAD控制信號(hào)。
在下面的優(yōu)選實(shí)施例中,噪聲基底估計(jì)單元44和參數(shù)控制單元46的功能結(jié)合在單個(gè)估計(jì)處理單元40中。
噪聲基底的更新通常通過在原始采樣率的子采樣基礎(chǔ)上的降低采樣率來實(shí)現(xiàn)。圖4的噪聲基底估計(jì)單元44中執(zhí)行的噪聲基底估計(jì)通過具有至少一個(gè)時(shí)變?yōu)V波系數(shù)的濾波器來實(shí)現(xiàn),所述濾波系數(shù)確定實(shí)際的跟蹤速度。該濾波器可以用于估計(jì)或者計(jì)算噪聲基底,或者,從輸入信號(hào)電平值中直接消除噪聲基底。如果輸入電平值降到噪聲基底估計(jì)之下,則通過限制功能部件141執(zhí)行噪聲基底估計(jì)的限制,并且可以將自適應(yīng)濾波系數(shù)復(fù)位到最慢跟蹤速度值,從所述最慢跟蹤速度值起,跟蹤速度例如可以通過指數(shù)函數(shù)上升到最快跟蹤速度。
根據(jù)第一優(yōu)選實(shí)施例,噪聲基底消除使用了一個(gè)非線性自適應(yīng)槽型濾波器。因此,在噪聲基底估計(jì)單元44中獲得了純語音信號(hào)電平值S’的估值??梢园言摷冋Z音信號(hào)電平值S’和輸入電平值X直接提供給其中可以執(zhí)行VAD閥值比較的語音活動(dòng)控制單元48?;蛘?,噪聲基底估計(jì)單元44也可以通過在帶噪聲的語音電平值X中再次減去估計(jì)的純語音信號(hào)電平值S’來確定噪聲基底。
槽帶位于零頻率處的槽型濾波器消除了信號(hào)的DC分量。下述公式給出了這種通用一階回歸濾波器的差分方程和Z變換y(k)=x(k)-x(k-1)+γ·γ(k-1)(4)Hz=(z)=z-1z-γ]]>通過濾波系數(shù)γ,可以控制槽型共振(notch resonance)的銳度。假如濾波參數(shù)γ向“1”移動(dòng),則槽帶變得更加突出。反之,濾波器響應(yīng)時(shí)間將增加。
圖5示出了一個(gè)通用DC槽型濾波器在濾波參數(shù)γ的兩種不同設(shè)置下的頻率響應(yīng)。從圖5可以推斷出,與由虛線表示的濾波系數(shù)γ的較低值相比,濾波系數(shù)γ的較高值(其對(duì)應(yīng)于實(shí)線)能夠提供更加突出的濾波操作。
但是,對(duì)帶噪聲的語音電平值X直接應(yīng)用DC槽型濾波器不會(huì)有助于消除噪聲基底,因?yàn)樗皇菑?fù)合電平的DC分量。只有在確保減去常數(shù)偏移量電平絕不會(huì)導(dǎo)致負(fù)輸出電平值的情況下,才能消除噪聲基底。這可以通過在DC槽型濾波器的回歸路徑中增加具有限制曲線的非線性濾波單元來實(shí)現(xiàn)。所以,純語音信號(hào)電平值S’總是大于或者等于0的值。
圖6的示意功能框圖示出了根據(jù)本發(fā)明第一優(yōu)選實(shí)施例的估計(jì)處理單元40的一個(gè)例子,其具有非線性自適應(yīng)槽型電平濾波器。從圖6可以看出,在回歸路徑中引進(jìn)了具有限制曲線的非線性濾波單元16,并且因此提供了圖4中的限制功能部件141。限制曲線用于阻擋或抑制小于0值的信號(hào),但讓正信號(hào)通過。這保證了純語音信號(hào)電平S’總是正值。根據(jù)通常的DC槽型濾波器結(jié)構(gòu),輸入信號(hào)電平值X被直接供給算術(shù)功能部件13,通過該算術(shù)功能13,輸入信號(hào)電平值X加上延遲輸入信號(hào)電平值X(i-1),所述X(i-1)在第一延遲單元11中被延遲了一個(gè)采樣周期。此外,還加上根據(jù)上一個(gè)采樣周期的純語音信號(hào)電平值S`(i-1)生成的反饋信號(hào),從而生成實(shí)際的純語音電平信號(hào)S`(i)。反饋信號(hào)按如下方式獲得將上一個(gè)純語音電平信號(hào)S`(i-1)在第二延遲單元12中延遲一個(gè)采樣周期,然后在乘法器14中用濾波參數(shù)γ乘以或者加權(quán)延遲的信號(hào)。為了滿足在整個(gè)動(dòng)態(tài)范圍獲得良好性能的需求,使濾波參數(shù)γ成為自適應(yīng)的,如后文所述。從而獲得了非線性自適應(yīng)槽型電平濾波器。在參數(shù)控制單元46中生成自適應(yīng)濾波參數(shù)γ,其中輸出的純語音信號(hào)電平值S`(i)被供給所述參數(shù)控制單元46。鑒于純語音信號(hào)電平S`(i)已經(jīng)對(duì)應(yīng)于輸入信號(hào)電平值X(i)和噪聲基底N(i)之間差值的事實(shí),只向參數(shù)控制單元46提供純語音信號(hào)電平值就足夠了。
通過DC槽型濾波器消除DC分量或者偏移量也可被視為一種過程,在該過程中,首先通過低通濾波器操作,生成偏移分量的估計(jì),然后,從原始輸入信號(hào)中減去偏移量信號(hào),從而獲得沒有偏移量的輸出信號(hào)或者純的輸出信號(hào)。
圖7示出了與非線性DC槽型濾波操作等效的處理或者過程的示意功能框圖。此處,首先通過輸入信號(hào)x(k)的低通濾波,來獲得偏移量信號(hào)d(k)的估計(jì)。接著,減去該偏移量信號(hào)d(k)。輸入信號(hào)x(k)的低通濾波是通過IIR濾波器來獲得的,所述IIR濾波器包括兩個(gè)延遲單元20、22和兩個(gè)乘法或者加權(quán)單元24、26,延遲單元20、22具有與一個(gè)采樣周期相對(duì)應(yīng)的延遲,乘法或者加權(quán)單元24、26用于對(duì)接收信號(hào)分別乘以或者加權(quán)各自的濾波系數(shù)α和(1-α)。在減法單元29中,從原始輸入信號(hào)x(k)中減去偏移量信號(hào)d(k),從而得沒有偏移量或者純的輸出信號(hào)y(k)。圖6中所示的這個(gè)偏移量減法結(jié)構(gòu)也可以通過等價(jià)方程(4)的簡單變換來獲得。下述方程(3)對(duì)應(yīng)于圖7中的偏移量減法濾波器結(jié)構(gòu)dd(k)=(1-α)·d(k-1)+α·x(k-1)其中α=1-γ (5)y(k)=x(k)-d(k)圖8示出了根據(jù)第二優(yōu)選實(shí)施例的估計(jì)處理單元40的另一個(gè)實(shí)例,其具有自適應(yīng)噪聲基底跟蹤濾波器。該濾波器基于圖7中示出的偏移量減法濾波器結(jié)構(gòu)。
根據(jù)圖8,獲得了噪聲基底估計(jì)N,其包括上文提到的緩慢上升/快速下降技術(shù)的原理。在比較器功能部件39中,通過對(duì)輸入信號(hào)電平值X(i)進(jìn)行低通濾波而獲得的噪聲基底估計(jì)N(i)和原始的輸入信號(hào)電平值X(i)進(jìn)行比較,然后將比較結(jié)果用于控制切換功能部件35,所述切換功能部件35把噪聲基底估值N(i)或者原始輸入信號(hào)電平值X(i)切換到輸出端,作為最終的噪聲基底估計(jì)N(i)。因此,比較器功能部件39和切換功能部件35充當(dāng)了圖4中的限制功能部件141。該結(jié)構(gòu)可以通過下述方程描述N(i)=(1-α(i))·N(i-1)+α(i)·X(i) (6)N(i)=X(i)如果X(i)<N(i)類似于第一優(yōu)選實(shí)施例,濾波參數(shù)α(i)和(1-α(i))由參數(shù)控制單元46生成,其中比較功能39的輸出被供給所述參數(shù)控制單元46。
因此,通過緊記可以從輸入信號(hào)電平值X(i)中減去噪聲基底估計(jì)N(i)來獲得不含噪聲電平的語音電平估計(jì)S`(i)以及可以根據(jù)第一優(yōu)選實(shí)施例的槽型濾波器參數(shù)γ導(dǎo)出偏移量減法濾波器的參數(shù)α,則可以建立從圖6中非線性單元16的限制功能曲線到根據(jù)第二優(yōu)選實(shí)施例的噪聲基底跟蹤濾波器中的緩慢上升/快速下降技術(shù)之間的聯(lián)系。因此,這兩個(gè)實(shí)施例都使用了同樣的基本原則。在這個(gè)程度上說,使用第一優(yōu)選實(shí)施例的非線性自適應(yīng)槽型電平濾波器結(jié)構(gòu)和第二優(yōu)選實(shí)施例的自適應(yīng)噪聲基底跟蹤濾波器結(jié)構(gòu)是等價(jià)的。
圖9的時(shí)間相關(guān)信號(hào)圖示出了輸入電平信號(hào)(實(shí)線)和噪聲基底估計(jì)(虛線)。另外,打點(diǎn)的矩形信號(hào)表示圖4所示的語音控制單元48的輸出端的VAD標(biāo)記值。圖9所示的信號(hào)對(duì)于本發(fā)明的第一和第二優(yōu)選實(shí)施例都是有效的。從圖9可以看出,可以通過噪聲基底估計(jì)獲得真實(shí)噪聲基底的良好跟蹤。而且,可在第一語音期之后大約200ms的時(shí)刻看到快速下降技術(shù),其中噪聲基底估計(jì)直接追隨下降的輸入電平信號(hào)。改良的噪聲基底跟蹤性能可以提高VAD標(biāo)記值和活動(dòng)語音期的匹配。
下面,更加詳細(xì)地描述由第一和第二優(yōu)選實(shí)施例的參數(shù)控制單元46執(zhí)行的參數(shù)控制。
根據(jù)第一優(yōu)選實(shí)施例的非線性自適應(yīng)槽型電平濾波器的濾波參數(shù)γ或者根據(jù)第二優(yōu)選實(shí)施例的噪聲基底跟蹤濾波器的濾波參數(shù)α通常都影響噪聲基底估計(jì)追隨上升的輸入信號(hào)電平值X的速度。所以,這些參數(shù)的自適應(yīng)控制必須和緩慢上升/快速下降的技術(shù)相結(jié)合或者適應(yīng)。如果實(shí)際的輸入信號(hào)電平值X降到估計(jì)的噪聲基底N之下,這也表示已經(jīng)到達(dá)了噪聲基底,則應(yīng)該跟蹤速度應(yīng)該復(fù)位成很慢的值。因此,選擇相應(yīng)的低跟蹤值αmin=αslow和γmm=γslow,以避免噪聲基底估計(jì)追隨語音電平。另一方面,如果相反的情況持續(xù)的時(shí)間間隔比非穩(wěn)態(tài)語音段還長(即輸入信號(hào)電平值X高于噪聲基底估計(jì)電平N),則應(yīng)該認(rèn)為存在上升的噪聲基底,故應(yīng)使濾波參數(shù)變得越來越敏感,即通過連續(xù)增加濾波參數(shù)來提高跟蹤速度,直到到達(dá)相應(yīng)快速跟蹤值αmax=αfast和γmax=γfast為止。
濾波參數(shù)的連續(xù)改變可以基于上面兩個(gè)限制值之間的指數(shù)自適應(yīng)。為了實(shí)現(xiàn)這一點(diǎn),可以引入一個(gè)臨時(shí)狀態(tài)變量a(i),其包括一個(gè)開始值as和一個(gè)系數(shù)Ca。現(xiàn)在,根據(jù)第一優(yōu)選實(shí)施例的自適應(yīng)非線性槽型電平濾波器結(jié)構(gòu)可以在參數(shù)控制單元18中根據(jù)下面的方程(6)執(zhí)行濾波參數(shù)的更新a(i)=(1+ca)·a(i-1)如果S`(i)=X(i)-N(i)>0 (7)a(i)=as否則重新開始γ(i)=max[γmin,(γmax-a(i))]而且,根據(jù)第二優(yōu)選實(shí)施例的噪聲基底跟蹤電平濾波結(jié)構(gòu)的參數(shù)控制單元38可以根據(jù)下面的方程(7)執(zhí)行濾波參數(shù)的更新a(i)=(1+ca)·a(i-1)如果S`(i)=X(i)-N(i)>0 (8)a(i)=as否則重新開始α(i)=min[αmax,(αmin+a(i))]所述濾波參數(shù)的這種控制或設(shè)置導(dǎo)致了語音活動(dòng)期間靜態(tài)噪聲基底的穩(wěn)定估計(jì)。另一方面,對(duì)于緩慢上升/快速下降原理,追隨上升的噪聲基底的跟蹤速度得到了優(yōu)化。所以,可以在較寬的動(dòng)態(tài)范圍獲得良好的整體性能。
圖10的信號(hào)圖示出了最初描述的公知跟蹤過程和根據(jù)第一和第二優(yōu)選實(shí)施例的改進(jìn)自適應(yīng)跟蹤過程,以便于獲得不同噪聲基底估計(jì)方案的跟蹤行為的比較。
在圖10的最上方圖中,顯示了在文件EP0 110 467 B2中描述的具有恒定增量的動(dòng)態(tài)范圍噪聲基底估計(jì)。從該圖可以看出,由于噪聲基底跟蹤速度太慢,VAD標(biāo)記的值(點(diǎn)線)在噪聲基底突然上升的情況下不能追隨或者反映實(shí)際的語音期。
上面的第二個(gè)圖顯示了在文件US 2002/015266 A1中描述的具有常數(shù)斜率因子的動(dòng)態(tài)范圍噪聲基底估計(jì)。同樣,語音檢測行為在強(qiáng)跳躍噪聲基底的情況下不能滿足要求,如從t=8.000ms到t=14.000ms期間所示。
下面的兩幅圖分別涉及根據(jù)第一和第二優(yōu)選實(shí)施例的自適應(yīng)槽型濾波器結(jié)構(gòu)和噪聲基底跟蹤結(jié)構(gòu)。在用于增長噪聲基底估計(jì)所需的一個(gè)相對(duì)短的時(shí)間段后,VAD標(biāo)記和實(shí)際的語音活動(dòng)即使在強(qiáng)噪聲基底變動(dòng)的情況下也能很好地匹配。
應(yīng)該注意的是,本發(fā)明不局限于上面的優(yōu)選實(shí)施例,而是能夠應(yīng)用于任何語音活動(dòng)檢測機(jī)制。具體而言,具有較高濾波階數(shù)的其他濾波裝置也可以用于分別獲得純語音信號(hào)電平值S`或者噪聲基底估計(jì)N。圖4、6和8中示出的功能流程圖的單元可以實(shí)現(xiàn)為具有分離硬件元件的具體硬件功能部件,或者實(shí)現(xiàn)為控制信號(hào)處理器件的軟件例程。所以,優(yōu)選的實(shí)施例可以在所附的權(quán)利要求的范圍內(nèi)進(jìn)行改變。
權(quán)利要求
1.一種用于檢測通信信號(hào)中的語音活動(dòng)的設(shè)備,所述設(shè)備包括a)濾波裝置,用于對(duì)所述通信信號(hào)電平的偏移分量進(jìn)行估計(jì)或者抑制;b)參數(shù)控制裝置(46),用于根據(jù)所述濾波裝置的輸出,控制所述濾波裝置的濾波參數(shù);以及c)限制裝置(16;35,39),用于限制所述偏移分量的所述抑制或者所述估計(jì),以響應(yīng)所述濾波裝置的所述輸出。
2.根據(jù)權(quán)利要求1所述的設(shè)備,還包括用于計(jì)算所述通信信號(hào)短期電平的電平計(jì)算裝置(42)以及用于比較所述濾波裝置的輸入和輸出電平的語音活動(dòng)控制裝置(48)。
3.根據(jù)權(quán)利要求1或2所述的設(shè)備,其中,所述偏移分量是所述通信信號(hào)電平的噪聲基底分量。
4.根據(jù)前述權(quán)利要求任意之一所述的設(shè)備,其中,所述濾波裝置包括槽帶處于零頻率的槽型濾波器,并且,所述限制裝置包括具有限制特性的非線性單元(16),所述限制特性用于抑制負(fù)信號(hào)在所述槽型濾波器的回歸路徑上的傳輸。
5.根據(jù)權(quán)利要求1到3中任意之一所述的設(shè)備,其中,所述濾波裝置包括用于提取所述偏移分量的低通濾波器,并且,所述限制裝置(35,39)包括比較裝置(39)和切換裝置(35),其中所述比較裝置(39)用于比較所述提取的偏移分量和所述通信信號(hào),所述切換裝置(35)用于選擇所述提取的偏移分量和所述的通信信號(hào)中之一,以響應(yīng)所述比較裝置(39)的輸出。
6.根據(jù)前述權(quán)利要求任意之一所述的設(shè)備,其中,如果所述通信信號(hào)電平下降到所述估計(jì)的偏移分量電平之下,則所述參數(shù)控制裝置(46)把所述濾波參數(shù)設(shè)置為第一數(shù)值,該第一數(shù)值導(dǎo)致所述估計(jì)的跟蹤速度的降低,如果所述通信信號(hào)電平高于所述估計(jì)的偏移分量電平,則所述參數(shù)控制裝置(46)把所述濾波參數(shù)設(shè)置為第二數(shù)值,該第二數(shù)值導(dǎo)致所述估計(jì)的跟蹤速度的提高。
7.根據(jù)權(quán)利要求6所述的設(shè)備,其中,所述參數(shù)控制裝置(46)在預(yù)定參數(shù)值的限制范圍內(nèi)應(yīng)用所述濾波參數(shù)的指數(shù)自適應(yīng)。
8.一種用于檢測通信信號(hào)中的語音活動(dòng)的方法,所述方法包括以下步驟a)對(duì)所述通信信號(hào)電平的偏移分量進(jìn)行濾波;b)根據(jù)所述濾波步驟的結(jié)果,控制在所述濾波步驟中使用的濾波參數(shù);以及c)限制所述濾波步驟,以響應(yīng)所述濾波步驟的結(jié)果。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述濾波步驟用于通過應(yīng)用槽帶處于零頻率的濾波特性來抑制所述偏移分量,并且所述限制步驟是通過應(yīng)用抑制負(fù)信號(hào)傳輸?shù)南拗铺匦詠韴?zhí)行的。
10.根據(jù)權(quán)利要求8所述的方法,其中,所述濾波步驟用于提取所述偏移分量,并且所述限制步驟包括下列步驟將提取的偏移分量和所述通信信號(hào)電平進(jìn)行比較;以及,選擇所述提取的偏移分量和所述通信信號(hào)電平中之一,以響應(yīng)所述比較結(jié)果。
全文摘要
本發(fā)明涉及一種用于檢測通信信號(hào)中的語音活動(dòng)的方法和設(shè)備,其中提供了濾波裝置,用于估計(jì)和抑制通信信號(hào)電平的偏移分量。濾波參數(shù)是根據(jù)濾波裝置的輸出來進(jìn)行控制的。此外,響應(yīng)于濾波裝置的輸出,限制偏移分量的估計(jì)或抑制。濾波裝置可以基于非線性自適應(yīng)槽型電平濾波器或者噪聲基底跟蹤濾波器。所以,可以改進(jìn)在噪聲基底突然上升情況下噪聲基底估計(jì)的跟蹤行為,并且語音活動(dòng)檢測可以在較寬的動(dòng)態(tài)范圍內(nèi)高效地工作。
文檔編號(hào)G10L25/78GK1867965SQ200480030041
公開日2006年11月22日 申請(qǐng)日期2004年10月8日 優(yōu)先權(quán)日2003年10月16日
發(fā)明者沃爾夫?qū)げ剂_克斯 申請(qǐng)人:皇家飛利浦電子股份有限公司