專利名稱:用于控制穩(wěn)態(tài)背景噪聲的平滑的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明大體上涉及電信系統(tǒng)中的語音編碼,尤其涉及用于控制此
類系統(tǒng)中穩(wěn)態(tài)背景噪聲的平滑(smoothing)的方法和設(shè)備。
背景技術(shù):
語音編碼是獲得話音信號的緊湊(compact)表示以實現(xiàn)在帶寬受限的有線和無線信道和/或存儲裝置上的高效傳輸?shù)倪^程。當(dāng)今,語音編碼器已經(jīng)成為電信和多媒體基礎(chǔ)設(shè)施中的重要組成部分。依賴于高效語音編碼的商用系統(tǒng)包括蜂窩通信、互聯(lián)網(wǎng)協(xié)議語音(VOIP)、視頻會議、電子玩具、存檔和數(shù)字同步語音和數(shù)據(jù)(DSVD),以及眾多的基于PC的游戲和多媒體應(yīng)用。
作為連續(xù)時間信號,可以通過采樣和量化過程對語音進行數(shù)字表示。通常使用16比特或8比特量化來對語音采樣進行量化。類似于許多其他信號,語音信號包含大量冗余信息(信號中的連續(xù)采樣之間的非零互信息)或者在感知上無關(guān)的信息(收聽人無法感知的信息)。多數(shù)電信編碼器是有損耗的,這意味著合成語音在感知上類似于原始語音、但是可能在物理上不一樣。
語音編碼器將數(shù)字化語音信號轉(zhuǎn)換為經(jīng)編碼的表示,后者通常是以幀來傳送的。相應(yīng)地,語音解碼器接收經(jīng)編碼的幀并對所重構(gòu)的語音進行合成。
許多現(xiàn)代語音編碼器屬于被稱作LPC (線性預(yù)測編碼器)的一大類語音編碼器。此類編碼器的實例是3GPP FR、 EFR、 AMR和AMR-WB語音編解碼器,3GPP2 EVRC、 SMV和EVRC-WB語音編解碼器,以及諸如G.278、 G.723、 G.729等等之類的各種ITU-T編解碼器。
這些編碼器都在信號生成過程中采用合成濾波器概念。該濾波器
用于對將被再生的信號的短時頻譜進行建模,而該濾波器的輸入被假設(shè)為處理所有其他信號變化。
這些合成濾波器模型的共同特征是將被再生的信號是由定義該濾波器的參數(shù)來表示的。術(shù)語"線性預(yù)測"指的是通常用于估計濾波器參數(shù)的一類方法。因而,將被再生的信號部分由一組濾波器參數(shù)來表示并且部分由驅(qū)動濾波器的激勵信號來表示。
此類編碼概念的益處源于這樣的事實能夠用相對少的比特高效地描述濾波器和其驅(qū)動激勵信號這二者。
一個特定類別的基于LPC的編解碼器是基于綜合分析(AbS)原則。這些編解碼器在編碼器中包括了解碼器的本地復(fù)本(local copy ),并且通過在 一 組候選激勵信號之中選擇使合成的輸出信號與原始語音信號的相似性最高的激勵信號來尋找合成濾波器的驅(qū)動激勵信號。
采用此類線性預(yù)測編碼并且尤其是AbS編碼的概念已被證明對于語音信號而言是比較適用的,即使是在例如4-12kbps的低比特率的情況下也是如此。然而,當(dāng)使用此類編碼技術(shù)的移動電話的用戶沉默并且輸入信號包括環(huán)境聲音時,目前已知的編碼器難以應(yīng)對該情況,原因是它們是針對語音信號而被優(yōu)化的。當(dāng)不能識別所熟悉的聲音時(原因是它們已經(jīng)被編碼器"錯誤處理(mistreat) " 了 ),另一側(cè)的收聽者會很容易變得氣惱。
所謂的渦流(swirling )引起再生背景聲音中最為嚴(yán)重的質(zhì)量降級。該現(xiàn)象發(fā)生于具有相對穩(wěn)態(tài)的背景聲音的場景中,諸如汽車噪聲,并且是由經(jīng)解碼信號的頻譜和功率的非自然時間波動(temporalfluctuation)引起的。這些波動又是由對合成濾波器因子和其激勵信號的估計和量化不足引起的。通常,當(dāng)編解碼器比特率增加時,渦流會變小。
渦流先前已經(jīng)被認(rèn)為是一個問題,并且在文獻中已經(jīng)針對其提出了多種解決方案。美國專利5632004 [l]公開了一種所提出的解決方案。才艮據(jù)該專利,在語音不活動(inactive)期間,通過低通濾波或帶寬擴展來修改濾波器參數(shù)以使得合成的背景聲音的頻譜變化減少。美國專利5579432 [2]中進一步改進了該方法,以使得所描述的反渦流技術(shù)僅僅在檢測到背景噪聲的穩(wěn)態(tài)時才應(yīng)用。
美國專利5487087 [3]公開了另一種解決渦流問題的方法。該方法利用經(jīng)修改的信號量化方案,后者匹配信號本身和其時變這二者。特別地,設(shè)想了在不活動語音的時段(period)期間為LPC濾波器參數(shù)和信號增益參數(shù)使用此類波動減少的量化器。另 一組方法解決了由經(jīng)合成的信號的不期望的功率波動所引起
的信號質(zhì)量降級。美國專利6275798 [4]中描述了其中之一,并且該方法也是3GPP TS 26.090 [5]中所描述的AMR語音編解碼器算法的一部分。根據(jù)該公開,依賴于LPC短期頻譜的平穩(wěn)性(stationarity )來自適應(yīng)地(adaptively)對合成的濾波器激勵信號、固定的碼本組成中的至少一個分量的增益進行平滑。專利EP 1096476 [6]和專利申請EP1688920 [7]的公開中進一步研究了該方法,其中平滑操作還包含將在信號合成中使用的增益限制。US 5953697[8]中描述了將用于LPC聲碼器中的相關(guān)方法。根據(jù)該公開,控制合成濾波器的激勵信號的增益以使得經(jīng)合成語音的最大幅度剛好達到輸入語音波形包絡(luò)。
另 一類解決渦流問題的方法作為語音解碼器后的后處理器而運行。專利EP 0665530 [9]描述了一種方法,該方法在所檢測到的語音不活動期間用經(jīng)低通濾波的白噪聲和舒適噪聲信號來代替部分語音解碼器輸出信號。類似的方法在各種出版物中被采用,這些出版物公開了相關(guān)方法,這些方法用經(jīng)濾波的噪聲來代替部分語音解碼器輸出信號。
參見圖1,可縮放(scalable)或嵌入式編碼是一種編碼范例,其中,編碼是在多層中進行的。基層或核心層以低比特率對信號進行編碼,而其他層(一層在另一層之上)相對于編碼提供一定增強,這是通過從核心層一直到先前各層的所有層來實現(xiàn)的。每層增加一定額外的比特率。所生成的比特流被嵌入,這意味著較低層編碼的比特流被嵌入更高層的比特流。這一特性使得在傳輸或接收器中的任何地方丟棄屬于較高層的比特成為可能。此類經(jīng)剝離的(stripped)比特流仍能夠被解碼至保留比特的層。
當(dāng)今最常使用的可縮放語音壓縮算法是6 4 kb p s G. 711A /U律對數(shù)算法PCM編解碼器。經(jīng)8kHz采樣的G.711編解碼器將12比特或13比特線性PCM采樣轉(zhuǎn)換為8比特對數(shù)采樣。對數(shù)采樣的有序(ordered)比特表示允許偷用G.711比特流中的最低位(LSB),從而使G.711編碼器在48、 56和64kbps之間實際上是SNR可縮放的。出于帶內(nèi)控制信令的目的,將G.711編解碼器的該縮放特性用于電路交換通信網(wǎng)絡(luò)中。使用該G,711縮放特性的最近實例是3GPPTF0協(xié)議,該協(xié)議支持在傳統(tǒng)64kbps PCM鏈路上進行寬帶語音建立和傳輸。初始使用原始64kbps G.711流中的8kbps,以在不顯著影響窄帶服務(wù)質(zhì)量的情況下兼顧寬帶語音服務(wù)的呼叫建立。在呼叫建立之后,寬帶語音將使用64kbps G.711流中的16kbps。其他支持開環(huán)可縮放性的較早的語音編碼標(biāo)準(zhǔn)是G.727 (嵌入式ADPCM)以及一定程度上的G.722 (子帶ADPCM)。
可縮放語音編碼技術(shù)的更新的進展是MPEG-4標(biāo)準(zhǔn),該標(biāo)準(zhǔn)為MPEG4-CELP提供了縮放性擴展。通過傳輸額外濾波器參數(shù)信息和額外創(chuàng)新參數(shù)信息,可以增強MPE基層。國際電信聯(lián)盟標(biāo)準(zhǔn)化委員會ITU-T近期已經(jīng)結(jié)束了新的可縮放編解碼器G.729.1 (也被稱作G.729.EV)的標(biāo)準(zhǔn)化。該可縮放語音編解碼器的比特率范圍是從8kbps到32kbps。該編解碼器的主要使用場合是允許在家中或辦公室網(wǎng)關(guān)中高效地共享有限的帶寬資源,例如在若干VOIP呼叫之間共享xDSL64/128kbps上行鏈路。
可縮放語音編碼的一個最近的趨勢是為較高層提供對非語音音頻信號(諸如音樂)的編碼的支持。在此類編解碼器中,例如根據(jù)綜合分析范例(在該范例中,CELP是突出的實例),較低層僅僅采用傳統(tǒng)的語音編碼。因為此類編碼僅僅非常適合語音而對于諸如音樂之類的非語音音頻信號就不那么適合,所以上層根據(jù)用于音頻編解碼器中的編碼范例來工作。這里,上層編碼通常對下層編碼的編碼誤差有影響。
另一種涉及語音編解碼器的相關(guān)方法是所謂的頻譜傾斜補償,其是在對經(jīng)解碼的語音的自適應(yīng)后置濾波(postfiltering )的背景中進行的。其所解決的問題是補償短期或共振峰(format)后置濾波器所引入的頻譜傾斜。此類技術(shù)是例如AMR編解碼器和SMV編解碼器的一部分,并且主要目標(biāo)是語音期間的編解碼器性能而非其背景噪聲性能。SMV編解碼器在合成濾波前的加權(quán)殘值域中應(yīng)用該傾斜補償,不過并非響應(yīng)于該殘值的LPC分析。
上述任何解決渦流問題的技術(shù)的共同點是必須如此應(yīng)用它們以使得它們對渦流提供最佳可能的增強效果而不對語音再生(reproduction)的質(zhì)量造成負(fù)面影響。因而,所有這些方法Y又在實施了適當(dāng)規(guī)則時才提供益處,其中根據(jù)所述規(guī)則、依賴于待重構(gòu)的信號特性而對它們進行激活或去激活。在以下的現(xiàn)有技術(shù)中,在如何控制它們的特定方面來討論防渦流#支術(shù)。一個現(xiàn)有技術(shù)公開[10]公開了一種特定的噪聲平滑方法以及其特 定控制。該控制基于對經(jīng)解碼的信號中的背景噪聲比的估計,其又操縱(steer)該特定平滑方法中的某些增益因子。值得強調(diào)的是,不像 其他方法,該平滑方法的激活不是響應(yīng)于VAD標(biāo)記或者某些穩(wěn)態(tài)量 度(metric)而控制的。與上述現(xiàn)有技術(shù)形成對比,另一公開[ll]描述了響應(yīng)于某些穩(wěn)態(tài) 噪聲檢測器的平滑操作。不使用專用VAD,而是根據(jù)LPC參數(shù)(LSF) 的測量和能量波動以及音調(diào)(pitch)信息來進行硬判決。為了緩解將 語音幀誤分類為穩(wěn)態(tài)噪聲幀的問題,向語音突發(fā)中添加延時 (hangover)時段。另 一現(xiàn)有技術(shù)公開[9]描述了背景噪聲平滑方法的控制功能,該功 能響應(yīng)于VAD標(biāo)記而運行。為了防止語音幀纟皮宣告(declare)為不 活動,向其間噪聲平滑保持不活動的、被宣告為活動語音的信號突發(fā) 添加延時時段。為確保從背景噪聲平滑被去激活的時段到平滑被激活 的時段的平滑過渡,逐漸激活平滑至某一 固定最大程度的平滑操作。 代替部分經(jīng)解碼的語音信號的噪聲信號的功率和譜特征(高通濾波的 程度)適應(yīng)于經(jīng)解碼的語音信號中的背景噪聲電平估計。盡管如此, 平滑操作的程度,即以噪聲代替經(jīng)解碼的語音信號的量,僅僅取決于 VAD判決,而決不取決于對背景噪聲的特性(諸如平穩(wěn)性等等)的分 析。先前所提到的[4]的公開描述了用于解碼器的參數(shù)平滑方法,該解 碼器允許響應(yīng)于混頻(mix)因子而進行逐漸(增益)參數(shù)平滑。該 混頻因子是對待重構(gòu)的信號的平穩(wěn)性的指示,并且控制參數(shù)平滑,以 使得所檢測到的平穩(wěn)性越大,所執(zhí)行的平滑就越多。根據(jù)上述[10]的平滑操作控制算法的主要問題是其特別適合于 其中所描述的特定噪聲平滑器(smoother)。因此,其是否能與其他 任一種噪聲平滑方法結(jié)合使用(以及如何與其他任一種噪聲平滑方法 結(jié)合使用)都不明顯。沒有使用VAD的事實引起了特定問題,即該 方法甚至在活動的語音部分執(zhí)行信號修改,這潛在地使得語音降級或 者至少影響其再生的自然性。根據(jù)[11 ]和[9]的平滑算法的主要問題是背景噪聲平滑的程度不是逐漸依賴于將被近似的背景噪聲的特性。例如,根據(jù)完全啟用或禁 用哪種平滑操作,現(xiàn)有技術(shù)[ll]利用穩(wěn)態(tài)噪聲幀檢測。與之類似,[9] 中所公開的方法不能根據(jù)背景噪聲特性來操縱平滑方法,這樣其使用 程度較低。這意味著所述方法遭受用于那些背景噪聲類型的非自然噪 聲再生,盡管所述背景噪聲類型表現(xiàn)出不能通過所采用的噪聲平滑方 法而被適當(dāng)建模的特性,但是它們還是被分類為穩(wěn)態(tài)噪聲或不活動語 音。[4]中所公開的方法的主要問題是其強烈依賴于至少考慮了當(dāng)前 幀的當(dāng)前參數(shù)和對應(yīng)的先前參數(shù)的穩(wěn)態(tài)估計。盡管如此,在與本發(fā)明 相關(guān)的研究期間,發(fā)現(xiàn)平穩(wěn)性盡管有用,但是不能總提供關(guān)于是否希 望進行背景噪聲平滑的良好指示。此外,僅僅依賴于平穩(wěn)性度量同樣 會導(dǎo)致以下情況其中即使某些噪聲類型表現(xiàn)出不能通過所采用的噪 聲平滑方法而被適當(dāng)建模的特性,它們也被分類為穩(wěn)態(tài)噪聲。限制所有上述方法的特定問題來自于以下事實它們僅僅是解碼 器方法。由于該事實,它們在以一定準(zhǔn)確度評價背景噪聲特性方面存 在概念性問題,如果應(yīng)利用漸進分辨率來控制噪聲平滑操作,則將需 要所述準(zhǔn)確度。然而,這對于自然噪聲再生將是必需的。依賴于平穩(wěn)性度量的所有方法的共同問題是平穩(wěn)性本身是指示 統(tǒng)計信號特性(如能量和譜)在多大程度上在時間上保持不變的特性。 由于這個原因,通常通過將給定幀或子幀的統(tǒng)計特性與先前幀或子幀 的特性進行比較來計算平穩(wěn)性度量。然而,提供平穩(wěn)性度量僅在較低 程度上作為背景信號的實際感知特性的指示。特別地,平穩(wěn)性度量并 不指示信號有多么類似噪聲(noise-like),盡管如此,根據(jù)發(fā)明者的 研究,其對于好的防渦流方法而言是必不可少的參數(shù)。因此,所需要的是控制電信系統(tǒng)中的背景噪聲平滑操作語音會話 的方法和"i殳備。發(fā)明內(nèi)容本發(fā)明的 一 個目的是實現(xiàn)電信系統(tǒng)中改進的語音會話質(zhì)量。 本發(fā)明的另 一 目的是實現(xiàn)對電信系統(tǒng)中的語音會話中的穩(wěn)態(tài)背 景噪聲的改進的平滑控制。這些和其他目的是根據(jù)所附權(quán)利要求來實現(xiàn)的?;旧希谄交娦耪Z音會話中的穩(wěn)態(tài)背景噪聲的方法中,最初 對表示語音會話的信號進行接收和解碼S10,所述信號包括語音分量和背景噪聲分量這二者。此外,為該信號提供S20噪度(noisiness) 度量,并且根據(jù)所提供的噪度度量來自適應(yīng)地平滑S30背景噪聲分量。 本發(fā)明的優(yōu)點包含電信系統(tǒng)中改進的語音會話質(zhì)量。穩(wěn)態(tài)背景噪聲信號的改進的重構(gòu)信號質(zhì)量。
通過結(jié)合附圖并參見以下描述,可以清楚地理解本發(fā)明以及本發(fā) 明的其他目的和優(yōu)點,其中圖1是可縮放語音和音頻編解碼器的示意性框圖;圖2是圖示了根據(jù)本發(fā)明的背景噪聲平滑方法的實施例的流程圖;圖3是圖示了根據(jù)本發(fā)明的實施例的間接控制平滑的方法的時序 圖的示意圖;圖4是圖示了根據(jù)本發(fā)明的方法的實施例的對背景噪聲平滑的 VAD驅(qū)動激活的時序圖的示意圖;圖5是圖示了根據(jù)本發(fā)明的設(shè)備的實施例的流程圖;圖6是圖示了根據(jù)本發(fā)明的控制器設(shè)備的實施例的框圖;圖7是圖示了根據(jù)本發(fā)明的設(shè)備的實施例的框圖。縮寫AbS綜合分析ADPCM自適應(yīng)差分PCMAMR-WB自適應(yīng)多速率寬帶EVRC-WB增強可變速率寬帶編解碼器CELP碼激勵線性預(yù)測DXT不連續(xù)傳輸DSVD數(shù)字同步語音和數(shù)據(jù)ISP導(dǎo)抗"i普對(Immittance Spectral Pair)ITU-T國際電信聯(lián)盟LPC線性預(yù)測編碼器LSF線性譜頻率 MPEG運動圖〗象專家組 PCM脈沖編碼調(diào)制 SMV可選擇模式聲碼器 VAD話音活動4企測器 VOIP基于網(wǎng)際協(xié)議的語音具體實施方式
本說明書將在無線移動語音會話的背景中描述本發(fā)明。盡管如 此,其同樣適用于有線連接。在以下描述中,術(shù)語語音和話音將被作 為同義使用。因而語音會話指示電信網(wǎng)絡(luò)中至少兩個終端或節(jié)點之間 的話音/語音通信。假設(shè)語音會話總是包括兩個分量,即語音分量和背 景噪聲分量。語音分量是該會話的實際有聲(voiced)通信,其能夠 是活動的(例如一個人在講話)或者不活動的(例如該人在詞或短語 之間沉默)。背景噪聲分量是來自于講話人周圍環(huán)境的環(huán)境噪聲。該 噪聲在性質(zhì)上或多或少會是穩(wěn)態(tài)的。如上所述,語音會話的 一個問題是如何提高包含穩(wěn)態(tài)背景噪聲(或就此而言的其他任意噪聲)的環(huán)境中的語音會話質(zhì)量。根據(jù)已知方法,存在多種被頻繁采用的平滑背景噪聲的方法。盡管如此,存在這樣的風(fēng)險通過使語音分量失真或者使得剩余背景噪聲甚至更為令人煩擾,平滑操作實際上降低了語音會話的質(zhì)量或"可聽性"。在研究本發(fā)明的過程中,發(fā)現(xiàn)背景噪聲平滑僅對于某些背景信號 (諸如汽車噪聲)特別有用。對于其他背景噪聲類型(諸如串音(babble)、辦公室、重音(double taker)等等),背景噪聲平滑不 會向合成的信號提供同等程度的質(zhì)量改進,并且甚至可能使得背景噪 聲再生不自然。還發(fā)現(xiàn),"噪度"是適當(dāng)?shù)谋碚餍蕴卣?,其指示背?噪聲平滑是否能夠提供質(zhì)量增強。還發(fā)現(xiàn),噪度是比平穩(wěn)性更為充分 的特征,其中平穩(wěn)性已經(jīng)在現(xiàn)有技術(shù)方法中得以應(yīng)用。因此,本發(fā)明的主要目標(biāo)是根據(jù)背景信號的噪度度量或量度來逐 漸控制穩(wěn)態(tài)背景噪聲的平滑操作。如果在話音不活動期間,發(fā)現(xiàn)背景 信號非常類似噪聲,則使用更大程度的平滑。如果不活動信號不那么類似噪聲,則降低噪聲平滑的程度或者根本不執(zhí)行平滑。噪度度量優(yōu) 選地得自于編碼器中,并且被傳送至解碼器,在解碼器中,對噪聲平 滑的控制取決于此。盡管如此,其還能夠得自于解碼器本身。參見圖2,基本上,根據(jù)本發(fā)明的一般實施例包括對電信系統(tǒng)中 至少兩個終端之間的電信語音會話中的穩(wěn)態(tài)背景噪聲進行平滑的方 法。最初,對表示語音會話(即至少兩個移動用戶之間的有聲信息交 換)的信號進行接收和解碼SIO,所述信號能夠被描述成包括語音分 量(即實際話音)和背景噪聲分量(即環(huán)境聲音)這二者。為了在話 音不活動期間對背景噪聲進行平滑,為語音會話確定噪度度量并為該信號提供S20噪度度量。噪度度量是對穩(wěn)態(tài)背景噪聲分量的噪聲程度的度量。之后,根據(jù)所提供的噪度度量對背景噪聲分量進行自適應(yīng)地平滑S30或修改。最后,將所傳送信號的信號表示與由此經(jīng)平滑的背 景噪聲分量相合成以使得所接收到的信號的質(zhì)量得以改進。根據(jù)本發(fā)明的另一實施例,噪度量度描述信號有多么類似噪聲或 者其包含了多少隨機分量。更特別地,能夠根據(jù)信號的可預(yù)測性來定 義并描述噪度度量或量度,其中,具有強隨機分量的信號的可預(yù)測性 很差,而具有弱隨機分量的信號則更容易預(yù)測。因此,能夠通過公知 的信號的LPC預(yù)測增益Gp來定義此類噪度度量,其被定義為(1 )此處,CT〗表示背景(噪聲)信號的方差,并且C7^表示通過p階LPC分析所獲得的該信號的LPC預(yù)測誤差的方差。除了方差,還可以 通過功率或能量來定義預(yù)測增益。還已知,預(yù)測誤差方差《p和預(yù)測 誤差方差序列c7么,可作為Levinson-Durbin算法的副產(chǎn)品 而被很容易地獲得,Levinson-Durbin算法用于根據(jù)背景噪聲信號的自 相關(guān)參數(shù)序列來計算LPC參數(shù)。通常,預(yù)測增益對于具有較弱隨機分 量的信號而言比較高,而對于類似噪聲的信號而言則較低。根據(jù)本發(fā)明的優(yōu)選實施例,通過采用具有不同階數(shù)p和q的兩個 LPC預(yù)測濾波器的預(yù)測增益的比率來獲得適當(dāng)?shù)念愃频脑攵攘慷龋?中p>q,m咖'c(/7, g) = ~^ = ( 2 )G《該量度給出以下指示當(dāng)將LPC濾波器階數(shù)從q增加到p時,預(yù)測增益的增加多少。如果該信號具有低噪度則其給出高值,而如果噪度值高則給出接近1的值。適當(dāng)?shù)倪x擇是q-2而p= 16,不過LPC 階數(shù)的其他值同樣是可能的。應(yīng)當(dāng)注意到,優(yōu)選地,在編碼器側(cè)確定或計算上述噪度量度或度 量并且此后將其傳送至解碼器側(cè),并且在解碼器側(cè)提供。盡管如此, 根據(jù)解碼器側(cè)實際接收到的信號來確定或計算噪度量度同樣是可能 的(僅做微小的調(diào)整)。在編碼器側(cè)計算量度的一個優(yōu)勢是計算能夠基于未量化的 (un-quantized) LPC參數(shù),并且因此潛在地具有最佳可能解。此外, 計算該量度不需要額外的計算復(fù)雜性,原因是所需的預(yù)測誤差方差可 作為LPC分析的副產(chǎn)品而被很容易獲得(如上所述),所述LPC分 析通常在任何情況下都被執(zhí)行。在編碼器中計算量度需要該量度之后 被量化,并且需要經(jīng)量化的量度的編碼表示被傳送至解碼器,在解碼 器中,其用于控制背景噪聲平滑。噪度參數(shù)的傳輸需要某種比特率, 例如每20ms幀5比特因此250bps,這可能形成劣勢。盡管如此,考 慮到在語音不活動時段期間僅需要噪度參數(shù),所以根據(jù)特定實施例, 在活動的語音期間略過(skip)該傳輸、并且僅在不活動期間對其進 行傳送是可能的,其中在所述不活動期間,通常是能夠獲得該比特率 的,原因是編解碼器不需要與活動語音期間相同的比特率。與之類似, 考慮到以某種特定較低速率模式對無聲語音聲音和不活動聲音進行 編碼的語音編解碼器的特殊情況,提供該額外的比特率而不增加額外 成本也是可能的。盡管如此,如上所述,根據(jù)所接收到的并經(jīng)解碼的LPC參數(shù)在解 碼器側(cè)得到噪度度量是可能的。公知的提升(step-up) /降低 (step-down)過程提供了 一種用于從所接收到的LPC參數(shù)計算預(yù)測 誤差方差序列的方法,如上所述,其繼而能夠被用于計算噪度度量。應(yīng)當(dāng)指出,根據(jù)實驗性結(jié)果,本發(fā)明的噪度度量在結(jié)合特定背景 噪聲平滑方法的情況下特別有益,在研究中,該度量與所述方法相結(jié) 合。盡管如此,在結(jié)合了其他防渦流方法的情況下,將該度量與在現(xiàn) 有技術(shù)中已知的穩(wěn)態(tài)度量相結(jié)合可能是有益的。噪度度量能夠與之相 結(jié)合的一種此類度量是LPC參數(shù)相似性量度。該度量例如通過對應(yīng)的 LPC參數(shù)向量之間的 距離來評估兩個連續(xù)幀的LPC參數(shù),參數(shù)向量差異很大,則該量度會引起較大的值并且由此能夠被用作信號平穩(wěn)性的指示。還應(yīng)當(dāng)注意,除了本發(fā)明的"噪度"與現(xiàn)有技術(shù)方法的"平穩(wěn)性" 之間的上述概念性差異之外,這些度量之間還存在至少 一個另外的重 要的區(qū)別性差異。即,計算平穩(wěn)性包含得到至少當(dāng)前幀的當(dāng)前參數(shù), 并且將其與至少某個先前幀的先前參數(shù)相關(guān)。與之對照,噪度能夠被 計算為對當(dāng)前幀的即時度量而不用了解某個較早的幀。其好處是能夠 節(jié)省用于存儲來自于先前幀的狀態(tài)的存儲器。以下實施例描述了能夠根據(jù)所提供的噪度度量來控制防渦流方 法的方式。假設(shè)通過控制因子來控制平滑操作并且不限制一般性,等于1的控制因子意味著沒有平滑操作,而等于0的因子意味著最大可 能程度的平滑。根據(jù)基本實施例,所提供的噪度度量直接控制對背景噪聲信號進 行解碼期間所應(yīng)用的平滑的程度。假設(shè)通過參數(shù)7來控制平滑程度。 于是例如,根據(jù)以下示例性表達式將來自上文的噪度量度直接映射為 y是可能的v的適當(dāng)選擇是0.5并且對于//而言,是0.5與2之間的值。應(yīng)當(dāng) 注意到QW表示量化運算符,其還執(zhí)行數(shù)值范圍的限制以使得控制因 子不超過l。還應(yīng)注意,優(yōu)選地根據(jù)輸入信號的譜含量來選擇系數(shù)//。 特別地,如果編解碼器是以16kHz采樣率進行操作的寬帶編解碼器并 且輸入信號具有寬帶頻譜(0-7kHz),則該量度會引起比輸入信號 具有窄帶頻譜(0 - 3400Hz)的情況中相對更小的值。為了對該效應(yīng) 進行補償,針對寬帶含量的/z應(yīng)比針對窄帶含量的;/大。適當(dāng)選擇是 對于寬帶含量而言A-2,而對于窄帶含量而言//=0.5。盡管如此,取 決于特定情況,其他值也是可能的。因而,根據(jù)該信號是包含寬帶含 量還是窄帶含量,能夠通過參數(shù)/z來對平滑操作程度進行特殊校準(zhǔn)。影響重構(gòu)背景噪聲信號的質(zhì)量的一個重要方面是不活動時段期 間的噪度量度會非常快速地變化。如果前述噪度量度用于直接控制背 景噪聲平滑,其可能會引入不期望的信號波動。參見圖3,根據(jù)本發(fā) 明的另 一優(yōu)選實施例,噪度度量用于對背景噪聲平滑進行間接控制而 非直接控制。 一種可能性是例如利用低通濾波的噪度度量的平滑。盡管如此,這可能引起以下情況可應(yīng)用比量度所指示的程度更強的平 滑程度,其繼而可能影響合成的信號的自然性。因此,優(yōu)選原則是避 免背景噪聲平滑程度快速提高,并且另一方面,當(dāng)噪度量度突然指示 更低程度的平滑是適當(dāng)?shù)臅r候允許快速地改變。以下描述指定操縱背 景噪聲平滑的程度以便實現(xiàn)該行為的 一種優(yōu)選方法。假設(shè)通過參數(shù)^ 來控制平滑程度。不像上述直接控制,噪度度量現(xiàn)在根據(jù)以下公式來操縱間接控制參數(shù)<formula>formula see original document page 16</formula>則平滑控制參數(shù)^被設(shè)置為ymin與先前所使用的平滑控制參數(shù)/減 去某個量J之后之間的最大值<formula>formula see original document page 16</formula>該操作的效果是只要y仍大于;^,則逐步朝著^n來調(diào)整y。否則, 其等于Lin。對于該步長大小5的適當(dāng)選擇是0.05。在圖3中,所描述 的操作被直觀化。本發(fā)明者的研究已經(jīng)表明,間接或直接取決于所提供的噪度度量 的背景噪聲平滑能夠提供重構(gòu)背景噪聲信號的質(zhì)量增強。還已經(jīng)發(fā) 現(xiàn),對于質(zhì)量而言以下是很重要的確保在活動語音期間避免平滑操 作,并且背景噪聲平滑的程度不會太頻繁且太快速地改變。一個相關(guān)方面是語音活動檢測(VAD)操作,VAD操作控制是 否啟用背景噪聲平滑。理想情況下,VAD應(yīng)檢測其中啟用背景噪聲平 滑的語音信號的活動部分之間的不活動時段。盡管如此,在實際中, 不存在這樣的理想VAD,并且會發(fā)生部分活動語音被宣告為不活動或 者不活動部分被宣告為活動語音的情況。為了提供針對活動語音可能 被宣告為不活動的問題的解決方案,通常做法是例如在具有不連續(xù)傳 輸(D T X )的語音傳輸中向被宣告為活動的分段添加所謂的延時時段。 這是一種人為擴展被宣告為活動的時段的方法。其降低幀被錯誤地宣 告為不活動的可能性。已經(jīng)發(fā)現(xiàn),在控制背景噪聲平滑操作的背景中, 能夠有利地應(yīng)用對應(yīng)的原則。參見圖2和圖6,根據(jù)本發(fā)明的優(yōu)選實施例,公開了檢測語音分 量的活動狀態(tài)的另一步驟S25。之后,控制背景噪聲平滑操作并且僅 響應(yīng)于所檢測到的語音分量的不活動而發(fā)起背景噪聲平滑操作。此 外,.使用延遲或延時,這意味著僅在VAD已開始宣告幀為不活動的預(yù)定數(shù)目的幀之后才啟用背景噪聲平滑。適當(dāng)?shù)倪x擇(并非限制)是例如在啟用噪聲平滑之前、VAD已經(jīng)開始宣告幀為不活動之后等待5 幀(=100ms)。關(guān)于VAD有時會宣告非語音幀為活動的問題,發(fā)現(xiàn) 無論何時VAD宣告幀為活動,不管該VAD判決是否正確,關(guān)閉背景 噪聲平滑操作都是適當(dāng)?shù)?。此外,在亂真(spurious) VAD激活之后, 即刻恢復(fù)背景噪聲平滑(即沒有延時)是有益的。如果所檢測到活動 時段僅僅是短暫的,其例如小于或等于3幀(=60ms)。為了進一步改進背景噪聲平滑的性能,發(fā)現(xiàn)在延時時段之后逐漸 啟用背景噪聲平滑而非過于突然開啟背景噪聲平滑是有益的。為了實 現(xiàn)此類逐漸啟用,定義了漸入(phase-in)時段,在該漸入時段期間, 操縱平滑操作逐漸從非激活狀態(tài)到完全啟用狀態(tài)。假設(shè)漸入時段長為 k個幀,并且還假設(shè)當(dāng)前幀為該漸入時段中的第n個幀,則通過在其 原始值y與其對應(yīng)于平滑操作去激活(r一-l)的值之間進行內(nèi)插來 獲得用于該幀的平滑控制參數(shù)g*:應(yīng)當(dāng)注意到,僅在延時時段之后(即不是亂真VAD激活之后) 激活漸入時段是有益的。圖4圖示了示例性時序圖,其指示了平滑控制參數(shù)g申與VAD標(biāo) 記、添加的延時和漸入時段的依賴關(guān)系。此外,示出了僅當(dāng)VAD是O、 并且在延時時段之后,平滑才被啟用。圖5的流程圖中示出了利用背景噪聲平滑的語音活動驅(qū)動(VAD ) 激活來實施上述方法的過程的另 一 實施例,并且下文將對此進行解 釋。為以起點開始的每個幀(或子幀)執(zhí)行該過程。首先,檢查VAD 標(biāo)記,并且如果其具有等于1的值,則執(zhí)行活動語音路徑。此處,增 加用于活動語音幀的計數(shù)器(。然后檢查計數(shù)器是否超過 亂真VAD激活限度(」"—cow"Pe加6—Ao—/Zm),并且如果情況就是 這樣,則重置用于不活動幀的計數(shù)器(/"a"—cow^=0 ),這又是指示 在下一個不活動時段期間將要添加延時時段的信號。此后,該過程停 止。盡管如此,如果VAD標(biāo)記具有指示不活動的等于0的值,則執(zhí) 行不活動語音路徑。此處,首先增加不活動幀計數(shù)器(/"a"—。 然后4全查該計數(shù)器是否小于或等于延時限度(/"a" cow"/<=Ao),在該種情況下,執(zhí)行用于延時時段的執(zhí)行路徑。在這種情況下,噪聲平滑控制參數(shù)g^皮設(shè)定為1,這會禁用平滑。此外,用亂真VAD激活 限度對活動幀計凄t器進4亍初始化(^"—cow"f=e"a6—Ao一/i7n ),這意^未 著在后續(xù)的亂真VAD激活的情況下,仍不會禁用延時時段。此后, 該過程停止。如果不活動幀計數(shù)器大于延時限度,則檢查不活動幀是 否小于或等于延時限度加上漸入限度(/"a"—cow"f<=Ao+/ 0 。如果 情況是這樣,則執(zhí)行對漸入時段的處理,這意味著利用上述內(nèi)插(g* =力插)來獲得噪聲平滑控制參數(shù)。否則,不修改噪聲平滑控制參數(shù)。此后,利用按照噪聲平滑參數(shù)的程度執(zhí)行背景噪聲平滑過程。之后,舌史、、亡^山*;:丄a厶幼 z ^ _丄 ______丄—八、 在n去恭丄b 畜 、7 a r\ 、:狄皇且/—力^v'r夕《一f》人s^" 、/lc;f一c;"w/^" —v 乂 , A ^i^冬有卄u^ , 估5Li異 VAJJ /雙活之后,禁用延時時段。此后,該過程停止。取決于利用噪聲平滑過程所達到的質(zhì)量,其不僅在不活動語音期 間,而且在具有類似噪聲特征的無聲語音期間可引起質(zhì)量增強。因此, 在這種情況下,背景噪聲平滑的語音活動驅(qū)動激活可受益于擴展,其 不僅在不活動語音幀而且在無聲幀期間被激活。通過將所述方法與背景噪聲平滑的間接控制和背景噪聲平滑的 語音活動驅(qū)動的激活相結(jié)合,獲得本發(fā)明的優(yōu)選實施例。根據(jù)結(jié)合可縮放編解碼器的本發(fā)明的另 一 實施例,如果利用更高 速率層進行解碼,則總體上降低了平滑程度。這是因為更高速率的語 音編碼在背景噪聲時段期間通常具有更少的渦流問題。本發(fā)明特別有益的實施例能夠與平滑操作相結(jié)合,其中,結(jié)合了LPC參數(shù)平滑(例如低通濾波)和激勵信號修改。簡而言之,平滑操 作包含對表示語音會話的信號進行接收和解碼,該信號包括語音分量 和背景噪聲分量。之后,為該信號確定LPC參數(shù)和激勵信號。此后, 通過降低激勵信號的功率和鐠波動來修改所確定的激勵信號以提供 經(jīng)平滑的輸出信號。最后,根據(jù)所確定的LPC參數(shù)和激勵信號,對輸 出信號進行合成和輸出。與本發(fā)明的控制操作相結(jié)合,提供了質(zhì)量得 以改進的經(jīng)合成的語音信號。下文參考圖6和7來描述根據(jù)本發(fā)明的設(shè)備。圖6和圖7中的通 用輸入/輸出單元I/O中隱含地公開了不涉及本發(fā)明的特定工作的任意 公知的通用傳輸/接收和/或編碼/解碼功能。參見圖6,其示出了用于對電信語音會話中的穩(wěn)態(tài)背景噪聲分量的平滑進行控制的控制單元1??刂茊卧?適于接收和傳送與語音會 話相關(guān)的輸入/輸出信號。因而,控制器1包括用于處理傳入信號和傳 出信號的通用輸出/輸出1/0單元。此外,該控制器包括接收器和解碼 器單元10,其適于對包括語音分量和背景噪聲分量這二者的表示語音 會話的信號進行接收和解碼。此外,單元1包括用于提供與輸入信號相關(guān)的噪度量度的單元20。根據(jù)一個實施例,噪度單元20可適于根據(jù)所接收到的信號來實際確定噪度度量,或者根據(jù)另一實施例,適于 從電信系統(tǒng)中的某個其他節(jié)點(優(yōu)選地從所接收到的信號所源自的節(jié)點或用戶終端)接收噪度度量。此外,控制器1包括背景平滑單元30, 后者根據(jù)來自于噪度度量單元20的噪度度量來實現(xiàn)對所重構(gòu)的語音 信號的平滑。仍參見圖6,根據(jù)另一實施例,控制器設(shè)備1包括語音活動檢測 器或VAD 25,后者由附圖中的虛線框所指示。VAD 25運行以檢測信 號的語音分量的活動狀態(tài),并且將其作為另外的輸入而提供以在平滑 單元30中實現(xiàn)改進的平滑。參見圖7,控制器設(shè)備1優(yōu)選地集成在電信系統(tǒng)中的解碼器單元 中。盡管如此,如針對圖6所描述的那樣,控制器l中用于提供噪度 度量的單元可適于僅接收從電信系統(tǒng)中的另一節(jié)點傳送的噪度度量。 因而,圖7中還公開了編碼器設(shè)備。編碼器包括用于傳送和接收信號 的通用輸入/輸出單元I/O。該單元隱含地公開了所有必要的已知的用 于使得編碼器能夠運行的功能。 一種此類功能被特別公開為編碼和傳 送單元100,其用于對表示語音會話的信號進行編碼和傳送。此外, 編碼器包括單元200和單元300,單元200用于為所傳送的信號確定 噪度度量,單元300用于將所確定的噪度度量傳送至控制器1的噪度 提供單元20。本發(fā)明的優(yōu)點包括改進的背景噪聲平滑操作;對背景噪聲平滑的改進控制。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,可以對本發(fā)明進行各種修改和變化而 不脫離由所附權(quán)利要求所定義的范圍。參考文獻[1]美國專利5632004[2]美國專利5579432[3]美國專利5487087[4]美國專利6275798 Bl[5]3GPPTS 26.090, AMR語音編解碼器;代碼轉(zhuǎn)換功能[6]EP 1096476[7]EP 1688920[8]美國專利5953697[9]EP 665530 Bl[10]Tasaki等人,Post noise smoother toimprove low bit ratespeech-coding performance, IEEE Workshop on speech coding, 1999[11] Ehara等人,Noise Post-Processing Based on a Stationary Noise Generator, IEEE Workshop on speech coding, 200權(quán)利要求
1.一種對電信語音會話中的穩(wěn)態(tài)背景噪聲進行平滑的方法,其特征在于對表示語音會話的信號進行接收和解碼(S10),所述信號包括語音分量和背景噪聲分量這二者;為所述信號提供(S20)噪度度量;以及根據(jù)所述提供的噪度度量來自適應(yīng)地平滑(S30)所述背景噪聲分量。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于所述噪度度量基于 信號的可預(yù)測性。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于所述噪度度量基于 與具有不同階數(shù)的LPC分析濾波相關(guān)聯(lián)的預(yù)測誤差方差的比率。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于響應(yīng)于所檢測到的 所述輸入信號的窄帶或?qū)拵Ш慷m配所述噪度量度。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于所述平滑操作由所 述噪度度量直接控制。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于所述平滑操作由所 述噪度度量間接控制。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于所述平滑是根據(jù)平 滑控制參數(shù)來執(zhí)行的,所述平滑控制參數(shù)逐漸跟蹤所檢測到的所述噪 度度量的增加,并且即刻跟蹤所檢測到的所述噪度度量的減小。
8. 根據(jù)權(quán)利要求1所述的方法,其特征在于為所述信號的每個 幀至少執(zhí)行一次所述噪度提供步驟(S20)。
9. 根據(jù)權(quán)利要求8所述的方法,其特征在于為所述信號的每個 所述幀的每個子幀執(zhí)行所述噪度提供步驟(S20)。
10. 根據(jù)前述權(quán)利要求中任一項所述的方法,其特征在于另外的 步驟檢測(S25)所述語音分量的活動狀態(tài),以及響應(yīng)于具有不活 動狀態(tài)的所述語音分量而發(fā)起所述自適應(yīng)平滑。
11. 根據(jù)權(quán)利要求10所述的方法,其特征在于響應(yīng)于所檢測到 的不活動語音分量而以預(yù)定延遲發(fā)起所述自適應(yīng)平滑。
12. 根據(jù)權(quán)利要求11所述的方法,其特征在于在少于預(yù)定數(shù)目 的幀的亂真VAD激活之后即刻恢復(fù)所述背景噪聲平滑。
13. 根據(jù)權(quán)利要求11所述的方法,其特征在于在所述延遲結(jié)束 時逐漸發(fā)起所述平滑操作。
14. 根據(jù)權(quán)利要求10所述的方法,其特征在于響應(yīng)于檢測到活動語音分量而即刻終止所述自適應(yīng)平滑。
15. —種用于電信系統(tǒng)中的背景平滑的控制器,其特征在于 用于對表示語音會話的信號進行接收和解碼的裝置(10),所述信號包括語音分量和背景噪聲分量這二者;用于為所述信號提供噪度度量的裝置(20);以及用于根據(jù)所述提供的噪度度量來自適應(yīng)地平滑所述背景噪聲分量的裝置(30)。
16. 根據(jù)權(quán)利要求15所述的控制器,其特征在于所述噪度度量 提供裝置(20)適于從網(wǎng)絡(luò)節(jié)點接收所述噪度度量。
17. 根據(jù)權(quán)利要求15所述的控制器,其特征在于所述提供裝置 (20 )適于根據(jù)所接收到且經(jīng)解碼的LPC參數(shù)來得到用于所述信號的噪度度量。
18. 根據(jù)權(quán)利要求15所述的控制器,其特征在于用于檢測所述 語音分量的活動狀態(tài)的另外裝置(25),并且所述平滑裝置適于響應(yīng) 于具有不活動狀態(tài)的所述語音分量而發(fā)起所述自適應(yīng)平滑。
19. 根據(jù)權(quán)利要求18所述的控制器,其特征在于所述平滑裝置 (30)還適于響應(yīng)于所檢測到的不活動語音分量而以預(yù)定延遲發(fā)起所述自適應(yīng)平滑。
20. 根據(jù)權(quán)利要求18所述的控制器,其特征在于所述平滑裝置 適于在所述延遲結(jié)束時逐漸發(fā)起所述平滑操作。
21. 根據(jù)權(quán)利要求18所述的控制器,其特征在于所述平滑裝置 適于響應(yīng)于檢測到活動語音分量而即刻終止所述自適應(yīng)平滑。
22. —種電信系統(tǒng)中的解碼器設(shè)備,其特征在于 用于對表示語音會話的信號進行接收和解碼的裝置(10),所述信號包括語音分量和背景噪聲分量這二者;用于為所述信號提供噪度度量的裝置(20);以及用于根據(jù)所述提供的噪度度量來自適應(yīng)地平滑所述背景噪聲分量的裝置(30)。
23. 根據(jù)權(quán)利要求22所述的解碼器設(shè)備,其特征在于所述噪度度量提供裝置適于從網(wǎng)絡(luò)節(jié)點接收所述噪度度量。
24. 根據(jù)權(quán)利要求22所述的解碼器設(shè)備,其特征在于所述提供 裝置適于根據(jù)所接收到且經(jīng)解碼的LPC參數(shù)來得到用于所述信號的 噪度度量。
25. —種電信系統(tǒng)中的編碼器設(shè)備,其特征在于用于對去往用戶終端的表示語音會話的信號進行編碼和傳送的 裝置(100),所述信號包括語音分量和背景噪聲分量這二者; 用于為所述傳送的信號確定噪度度量的裝置(200); 用于在所述用戶終端處提供所述確定的噪度度量的裝置(300)。
全文摘要
在對電信語音會話中的穩(wěn)態(tài)背景噪聲進行平滑的方法中,最初對表示語音會話的信號進行接收和解碼S10,其中所述信號包括語音分量和背景噪聲分量。之后,為所述信號提供S20噪度度量,并且根據(jù)所提供的噪度度量來自適應(yīng)地平滑S30背景噪聲分量。
文檔編號G10L19/00GK101627426SQ200880007274
公開日2010年1月13日 申請日期2008年2月27日 優(yōu)先權(quán)日2007年3月5日
發(fā)明者S·布魯恩 申請人:艾利森電話股份有限公司