專利名稱:語音編碼中噪音魯棒分類方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及一種改進(jìn)了的語音分類的方法,具體地涉及一種語音編碼中魯棒(robust)語音分類方法。
背景技術(shù):
關(guān)于語音通信,背景噪音可能包括經(jīng)過的駕駛者、頭頂上的飛行器、諸如餐館/咖啡屋型噪音的模糊言語(babble)噪音、音樂及許多其它聽得見的噪音。蜂窩式電話技術(shù)帶來了在任何可接收和發(fā)送無線信號的地點(diǎn)都能夠進(jìn)行通信的便利。然而,所謂“蜂窩時代”的不利方面在于電話談話可能不再是私密的或不再是處于確實適于通信的區(qū)域。例如,一旦蜂窩式電話響鈴且用戶應(yīng)答,則不論用戶是在安靜的公園還是在嘈雜的風(fēng)鉆附近都實施語音通信。由此,背景噪音的影響便是蜂窩式電話用戶和供應(yīng)商主要關(guān)心的問題。
分類是語音處理中一個重要的工具。一般地,語音信號被分為多個不同的種類,原因之一是在編碼期間強(qiáng)調(diào)信號的感知的重要特征。當(dāng)語音純凈或沒有背景噪音時,較易于實現(xiàn)魯棒分類(即錯誤分類語音幀的小概率)。然而,隨著背景噪音水平的增加,對語音有效的和精確的分類就成為問題。
在電信行業(yè)中,按ITU(國際電信聯(lián)盟)標(biāo)準(zhǔn)或其它標(biāo)準(zhǔn)諸如無線GSM(全球移動通信系統(tǒng)),數(shù)字化語音并對其進(jìn)行壓縮。根據(jù)壓縮量及應(yīng)用需要的不同有很多標(biāo)準(zhǔn)。最好在發(fā)送之前對信號進(jìn)行高度的壓縮,因為隨著壓縮的增加,位速率會降低。這允許在相同的帶寬量中傳送更多的信息,因而可節(jié)省帶寬、功率和存儲器。然而,隨著位速率的降低,語音真實的再現(xiàn)變得越來越困難。例如,對于電話應(yīng)用而言(語音信號的頻率帶寬大約為3.3kHz),數(shù)字語音信號一般為16位線性或128kbits/s。ITU-T標(biāo)準(zhǔn)G.711工作在64kbits/s或線性PCM(脈沖編碼調(diào)制)數(shù)字語音信號的一半。隨著對帶寬需求的上升這些標(biāo)準(zhǔn)不斷降低位速率(例如,G.726為32kbits/s;G.728為16kbits/s;G.729為8kbits/s)。當(dāng)前正研究的標(biāo)準(zhǔn)將把位速率降低至更低的4kbits/s。
通常,基于一組參數(shù)對語音分類,且對于這些參數(shù),設(shè)置一閾值水平以便確定適當(dāng)?shù)姆诸?。?dāng)環(huán)境中存在背景噪音(例如,同時具有附加語音和噪音)時,由于該噪音,所推導(dǎo)的用于分類的參數(shù)通常重疊或增加。當(dāng)前的解決方案包括估計一給定環(huán)境中的背景噪音水平,且根據(jù)該水平改變閾值。這些技術(shù)的一個問題是這些閾值的控制向分類器增加了另一維。這增加了調(diào)節(jié)閾值的復(fù)雜性,且對于所有噪音水平找到一最優(yōu)設(shè)置一般是不現(xiàn)實的。
例如,一般推導(dǎo)的參數(shù)是與語音周期性如何相關(guān)的音調(diào)相關(guān)(pitchcorrelation)。即使是高的濁音語音,諸如元音“a”,當(dāng)存在背景噪音時,由于噪音的隨機(jī)性特征,周期性也會顯得很不明顯。
在本技術(shù)領(lǐng)域中已知有若干復(fù)雜的算法旨在基于降低的噪音信號估計參數(shù)。例如,在這樣的一個算法中,在噪音污染的信號上運(yùn)行完全噪音壓縮算法。然后針對該降低的噪音信號估計參數(shù)。然而,這些算法非常復(fù)雜且消耗數(shù)字信號處理器(DSP)的能力和存儲空間。
因此,需要一種復(fù)雜性較小的可在低位速率下使用的語音分類方法。具體地,需要一種改進(jìn)的語音分類方法,使用該方法可使參數(shù)不受背景噪音的影響。
發(fā)明內(nèi)容
本發(fā)明克服了以上概述的問題,并提供了一種改進(jìn)的語音通信的方法。具體地,本發(fā)明提供了一種在背景噪音存在的情況下用于改進(jìn)的語音分類的具有較小復(fù)雜性的方法。更具體地,本發(fā)明提供了一種在語音編碼中用于改進(jìn)的語音分類的魯棒方法,使用該方法可降低背景噪音對參數(shù)的影響。
根據(jù)本發(fā)明的一個方面,通過估計凈語音的參數(shù)獲得與背景噪音水平無關(guān)的一組均一(homogeneous)的參數(shù)。
參照以下說明、所附權(quán)利要求和附圖,本發(fā)明的這些和其它特征、方面和優(yōu)點(diǎn)將變得更易于理解,其中圖1以方塊圖的形式簡化示出在現(xiàn)有技術(shù)中語音處理的典型階段;圖2以詳細(xì)的方塊圖示出根據(jù)本發(fā)明的一示例性編碼系統(tǒng);圖3以詳細(xì)是方塊圖示出圖2的示例性決策邏輯;以及圖4為根據(jù)本發(fā)明的一示例性方法的流程圖。
具體實施例方式
本發(fā)明涉及在存在背景噪音的情況下的語音分類的改進(jìn)方法。雖然用于語音通信的方法,具體地,這里公開的分類方法尤其適合于蜂窩式電話通信,但本發(fā)明不限于此。例如,本發(fā)明的分類方法可很好地適用于多種語音通信場合,諸如PSTN(公共交換電話網(wǎng)),無線,經(jīng)由IP(因特網(wǎng)協(xié)議)的話音等。
與現(xiàn)有技術(shù)方法不同,本發(fā)明公開了一種表示輸入信號的感知的重要特征并進(jìn)行感知匹配而不是波形匹配的方法。應(yīng)當(dāng)理解,本發(fā)明表示的語音分類的方法可以是更大的語音編碼算法的一部分。語音編碼的算法為業(yè)界所廣泛知曉。應(yīng)當(dāng)理解的是,本領(lǐng)域技術(shù)人員將會認(rèn)識到在實現(xiàn)本發(fā)明之前和之后可進(jìn)行多種處理步驟(例如,語音信號可以在實際的語音編碼、基于公共幀的處理、模式相關(guān)的處理、及解碼之前被預(yù)處理)。
作為介紹,圖1以方塊圖的方式廣義地示出現(xiàn)有技術(shù)中已知的語音處理的典型階段。一般來說,語音系統(tǒng)100包括編碼器102,位流的傳送或存儲裝置104,以及解碼器106。編碼器102在系統(tǒng)中,特別是在非常低的位速率下起到關(guān)鍵作用。預(yù)發(fā)送處理在編碼器102中進(jìn)行,諸如從非語音中確定語音,推導(dǎo)參數(shù),設(shè)置閾值,及對語音幀進(jìn)行分類。典型地,對于高質(zhì)量的語音通信,重要的是編碼器(通常通過一種算法)考慮信號的類型,并基于該類型相應(yīng)地處理該信號。本發(fā)明編碼器的特定功能將在以下詳細(xì)討論,然而一般來說,編碼器把語音幀分類為許多類別。包含在類中的信息將有助于進(jìn)一步處理該語音。
編碼器壓縮該信號,且所得的位流被傳送104到接收端。傳送(無線或有線)是把位流從發(fā)送編碼器102輸送到接收解碼器106??商娲兀涣骺稍诮獯a之前被暫時存儲,以便在諸如答錄機(jī)或語音電子郵件的設(shè)備中延遲再現(xiàn)或重放。
位流在解碼器106中被解碼,以便恢復(fù)原始語音信號的采樣。一般來說,不可能實現(xiàn)所恢復(fù)的語音信號與原始信號完全等同,但是使用增強(qiáng)的特征(諸如由本發(fā)明所提供的特征),可獲得接近的采樣。在某種程度上,解碼器106可被看作是編碼器102的逆。一般來說,由編碼器102所執(zhí)行的許多功能也可在解碼器106中執(zhí)行,但是是反向的。
雖然未示出,但應(yīng)當(dāng)理解,語音系統(tǒng)100可進(jìn)一步包括話筒,以便實時接收語音信號。話筒將該語音信號提供給A/D(模擬至數(shù)字)轉(zhuǎn)換器,在此語音被轉(zhuǎn)換為數(shù)字形式,然后被傳遞給編碼器102。此外,解碼器106將該數(shù)字化的信號傳遞至D/A(數(shù)字至模擬)轉(zhuǎn)換器,在此語音被轉(zhuǎn)換回模擬形式,并被發(fā)送至揚(yáng)聲器。
如同現(xiàn)有技術(shù)那樣,本發(fā)明包括含有基于CELP(碼本激勵線性預(yù)測)模型的算法的編碼器或類似的裝置。然而,為了以低位速率(例如4kbits/s)獲得通行的質(zhì)量,該算法在某種程度上脫離已知的CELP算法的嚴(yán)格波形匹配準(zhǔn)則,而是力爭捕獲輸入信號的感知重要特征。雖然本發(fā)明可能只是eX-CELP(擴(kuò)展的CELP)算法的一個單獨(dú)部分,但全面介紹該算法的全部功能是有幫助的。
根據(jù)某些特征例如噪音狀內(nèi)容程度、尖峰狀內(nèi)容程度、濁音內(nèi)容程度、清音內(nèi)容程度、幅值譜演變(evolution of magnitude spectrum)、能量輪廓演變、及周期性演變,對輸入信號進(jìn)行分析。在編碼/量化處理過程期間該信息被用于控制加權(quán)。本方法總的原理具有以下特征通過進(jìn)行感知匹配而不是波形匹配精確表示感知的重要特征。這部分地基于以下假設(shè),即在低位速率下,波形匹配不能充分精確地來真實地捕獲該輸入信號中的所有信息。該算法,包含本發(fā)明部分,可由C-代碼或任何其它適當(dāng)?shù)臉I(yè)內(nèi)已知的計算機(jī)和設(shè)備語言,例如匯編,來實現(xiàn)。雖然結(jié)合eX-CELP算法便于描述本發(fā)明,但應(yīng)當(dāng)理解,這里公開的用于改進(jìn)的語言分類的方法可以只是一種算法的一部分,且可用于類似的已知的或尚待發(fā)現(xiàn)的算法中。
在一個實施例中,話音活動檢測(VAD)被嵌入該編碼器中,以便提供關(guān)于該輸入信號特征的信息。該VAD信息被用于控制該編碼器的若干方面,包括信號噪音比(SNR)的估計、音調(diào)估計、某些分類、譜平滑、能量平滑及增益標(biāo)準(zhǔn)化。一般來說,VAD區(qū)分語音與非語音輸入。非語音可包能括背景噪音、音樂、靜音等。基于該信息能夠估計某些參數(shù)。
現(xiàn)在參見圖2,編碼器202以方塊圖的形式示出根據(jù)本發(fā)明一個實施例的分類器204。分類器204適當(dāng)?shù)匕▍?shù)推導(dǎo)模塊206和決策邏輯208。分類可被用于在編碼期間強(qiáng)調(diào)感知的重要特征。例如,分類可用于向信號幀施加不同的權(quán)重。分類不一定影響帶寬,但它的確提供信息以改進(jìn)解碼器處(接收端)重構(gòu)信號的質(zhì)量。然而,在某些實施例中,還通過根據(jù)類別信息改變位速率而不僅是編碼處理來影響帶寬(位速率)。如果該幀是背景噪音,則它可被如此分類且可能期望保持該信號的隨機(jī)特征。然而,如果該幀是濁音語音,則重要的可能是要保持信號的周期性。對語言幀的分類向編碼器的其余部分提供信息以便能夠?qū)⒅攸c(diǎn)放在信號的重要特征上(即“加權(quán)”)。
分類基于一組推導(dǎo)的參數(shù)。本實施例中,分類器204包括參數(shù)推導(dǎo)模塊206。一旦對特定的語言幀推導(dǎo)該組參數(shù),這些參數(shù)或者單獨(dú)地或者與其它參數(shù)組合地由決策邏輯208進(jìn)行調(diào)整(measure)。決策邏輯208的細(xì)節(jié)將在以下討論,然而一般來說,決策邏輯208將這些參數(shù)與一組閾值進(jìn)行比較。
舉例來說,蜂窩式電話用戶可能在一特定的噪音環(huán)境中通信。隨著背景噪音水平的增加,該推導(dǎo)的參數(shù)可能會改變。本發(fā)明提出一種方法,該方法在該參數(shù)水平上除去了背景噪音的貢獻(xiàn),由此產(chǎn)生出一組不隨背景噪音水平改變的參數(shù)。換言之,本發(fā)明的一個實施例包括推導(dǎo)一組均一的參數(shù),而不是具有隨背景噪音水平變化的參數(shù)。這在存在背景噪音的情況下要在不同類型的語音諸如濁音語音、清音語音、和開始(onset)之間進(jìn)行區(qū)分時尤其重要。為了實現(xiàn)這一點(diǎn),仍然要對噪音污染的信號的參數(shù)進(jìn)行估計,但基于那些參數(shù)和背景噪音的信息,由于噪音的貢獻(xiàn)成分被除去。獲得凈信號(沒有噪音)的參數(shù)的估計。
繼續(xù)參考圖2,在編碼器202中接收數(shù)字語音信號用于處理。可能有這樣的情形,即編碼器210內(nèi)的其它模塊能夠適當(dāng)?shù)赝茖?dǎo)這些參數(shù)中的某些參數(shù),而不是分類器204重新推導(dǎo)這些參數(shù)。具體地,預(yù)處理的語音信號(例如這可能包括靜音強(qiáng)化、高通濾波、及背景噪音衰減),幀的音調(diào)延遲和相關(guān),及VAD信息可以被用作分類器204的輸入?yún)?shù)。可替代地,該數(shù)字化的語音信號或該信號與其它模塊參數(shù)兩者的組合被輸入到分類器204?;谶@些輸入?yún)?shù)和/或語音信號,參數(shù)推導(dǎo)模塊206推導(dǎo)一組將用于對幀進(jìn)行分類的參數(shù)。
在一實施例中,參數(shù)推導(dǎo)模塊206包括基本參數(shù)推導(dǎo)模塊212、噪音分量估計模塊214、噪音分量除去模塊216、及可選的參數(shù)推導(dǎo)模塊218。在本實施例的一個方面中,基本參數(shù)推導(dǎo)模塊212推導(dǎo)三種參數(shù),譜傾斜,絕對最大值,及音調(diào)相關(guān),它們可形成分類的基礎(chǔ)。然而應(yīng)當(dāng)理解,參數(shù)的有效處理和分析可以在最后決策之前進(jìn)行。這些最初的少數(shù)幾個參數(shù)是對具有語音和噪音分量兩者的信號的估計。以下對參數(shù)推導(dǎo)模塊206的說明包括優(yōu)選參數(shù)的例子,但是決不應(yīng)當(dāng)將其理解為限制性的。帶有伴隨方程式的參數(shù)的例子用于演示的目的,而不一定是作為唯一可用的參數(shù)和/或數(shù)學(xué)計算。實際上,本領(lǐng)域技術(shù)人員將相當(dāng)熟悉以下的參數(shù)和/或方程式,并可能知道預(yù)期落入本發(fā)明范圍的類似的或等價的替代。
譜傾斜是對第一反射系數(shù)的估計,每幀進(jìn)行四次,由下式給出
κ(k)=Σn=1L-1sk(n)·sk(n-1)Σn=0L-1sk(n)2,k=0,1,...,3,---(1)]]>其中L=80是在其上可適當(dāng)?shù)赜嬎惴瓷湎禂?shù)的窗口,而sk(n)是第k段,由下式給出sk(n)=s(k·40-20+n)·wh(n),n=0,1,...79,---(2)]]>其中wh(n)是業(yè)內(nèi)已知的一個80采樣漢明(Hamming)窗口,而s(0),s(1),...,s(159)是該預(yù)處理語音信號的當(dāng)前幀。
絕對最大值是對絕對信號最大值的跟蹤,每幀八個估計,由下式給出x(k)=max{|s(n)|,n=ns(k),ns(k)+1,...,ne(k)-1},k=0,1,...,7(3)其中ns(k)與ns(k)分別是用于在該幀的k160/8個采樣時刻搜索第k個最大值的起始點(diǎn)與結(jié)束點(diǎn)。一般來說,段的長度為音調(diào)周期的1.5倍,且這些段重疊。這樣,可獲得振幅包絡(luò)的平滑輪廓。
音調(diào)延遲的標(biāo)準(zhǔn)化的標(biāo)準(zhǔn)偏差表明該音調(diào)周期。例如,在濁音語音中,音調(diào)周期是穩(wěn)定的,而對于清音音語音它是不穩(wěn)定的σLp(m)=1μLp(m)Σl=02(Lp(m-2+l)-μLp(m))23,---(4)]]>其中LP(m)為輸入音調(diào)延遲,μLp(m)為在過去三個幀上的音調(diào)延遲的平均值,由下式給出μLp(m)=13Σl=02(Lp(m-2+l).---(5)]]>在一個實施例中,噪音分量估計模塊214由VAD控制。例如,如果VAD指示該幀是非語音幀(即背景噪音),則更新由噪音分量估計模塊214定義的參數(shù)。但是,如果VAD指示該幀是語音,則模塊214不被更新。在參數(shù)空間具有精細(xì)的時間分辨率的情況下,對由以下示例性方程式定義的參數(shù)適當(dāng)?shù)孛繋M(jìn)行八次估計/采樣。
噪音能量的游動平均(running mean)是對噪音能量的估計,由下式給出<EN.p(k)>=α1·<EN.p(k-1)>+(1-α1)·Ep′(k),(6)其中EN,P(k)是在該幀的k160/8個采樣時刻該音調(diào)周期的標(biāo)準(zhǔn)化能量。應(yīng)當(dāng)注意,在其上計算能量的這些段可能會重疊,因為音調(diào)周期一般超過20個采樣(160采樣/8)。
由下式給出噪音的譜傾斜的游動平均<κN(k)>=α1·<κN(k-1)>+(1-α1)·κ(kmod2).(7)由下式給出噪音的絕對最大值的游動平均<xN(k)>=α1·<xN(k-1)>+(1-α1)·x(k). (8)由下式給出噪音的音調(diào)相關(guān)的游動平均<RN,p(k)>=α1·<RN,p(k-1)>+(1-α1)·Rp, (9)其中RP是該幀的輸入音調(diào)相關(guān)。自適應(yīng)常數(shù)α優(yōu)選是自適應(yīng)的,雖然一個典型值為α=0.99。
背景噪音與信號比可根據(jù)下式計算
γ(k)=<EN,p(k)>Ep(k).---(10)]]>參數(shù)噪音衰減被適當(dāng)?shù)叵拗茷榭山邮艿乃?,例如大約30dB,即γ(k)={γ(k)>0.968?0.968γ(k)}(11)噪音除去模塊216根據(jù)以下示例性方程式將加權(quán)應(yīng)用到這三個基本的參數(shù)。該加權(quán)通過減去來自背景噪音的貢獻(xiàn)除去這些參數(shù)中的背景噪音分量。這提供了與任何背景噪音無關(guān)且更一致的無噪音的一組參數(shù)(加權(quán)參數(shù)),并改進(jìn)了在存在背景噪音的情況下該分類的魯棒性。
由下式估計加權(quán)的譜傾斜κw(k)=κ(k mod 2)-γ(k)·<κN(k)>. (12)由下式估計加權(quán)的絕對最大值xw(k)=x(k)-γ(k)·<xN(k)>.(13)由下式估計加權(quán)的音調(diào)相關(guān)Rw,p(k)=Rp-γ(k)·<RN.p(k)>. (14)然后可在決策邏輯208中比較這些推導(dǎo)的參數(shù)。可選地,可能期望推導(dǎo)與該具體應(yīng)用相關(guān)的一個或多個以下參數(shù)。可選模塊218包括可用來進(jìn)一步幫助對幀進(jìn)行分類的許多附加參數(shù)。同樣,以下參數(shù)和/或方程式僅用于示例性的目的,而非用于限制。
在一個實施例中,可能期望根據(jù)一個或多個先前的參數(shù)估計該幀的演變。該演變是在一個時間間隔上的估計(例如8次/幀),并且是線性近似。
作為第一階近似的斜率的加權(quán)傾斜的演變由下式給出∂κw(k)=Σl=17l·(κw(k-7+l)-κw(k-7))Σl=17l2.---(15)]]>作為第一階近似的斜率的加權(quán)最大值的演變由下式給出∂χw(k)=Σl=17l·(χw(k-7+l)-χw(k-7))Σl=17l2.---(16)]]>在另一實施例中,一旦對于該幀的示例性的八個采樣點(diǎn)更新方程式6到16的參數(shù),即可計算以下基于幀的參數(shù)最大加權(quán)音調(diào)相關(guān)(該幀的最大值),由下式給出Rw,pmax=max{Rw,p(k-7+l),l=0,1,...,7}.---(17)]]>平均加權(quán)音調(diào)相關(guān)由下式給出Rw,pavg=18Σl=07Rw,p(k-7+l).---(18)]]>平均加權(quán)音調(diào)相關(guān)的游動平均由下式給出<Rw,pavg(m)>=α2·<Rw,pavg(m-1)>+(1-α2)·Rw,pavg,---(19)]]>其中m是幀數(shù),而α2=0.75是示例性自適應(yīng)常數(shù)。
最小加權(quán)譜傾斜由下式給出κmmin=min{κw(k-7+l),l=0,1,...,7}.---(20)]]>最小加權(quán)譜傾斜的游動平均由下式給出
<κwmin(m)>=α2·<κwmin(m-1)>+(1-α2)·κwmin.---(21)]]>平均加權(quán)譜傾斜由下式給出κwavg=18Σl=07κw(k-7+l).---(22)]]>加權(quán)傾斜的最小斜率(指示該幀中負(fù)的譜傾斜方向的最大演變)由下式給出∂κwmin=min{∂κw(k-7+l),l=0,1,...7}.---(23)]]>加權(quán)譜傾斜的累積斜率(指示譜演變的總體一致性)由下式給出∂κwacc=Σl=07∂κw(k-7+l).---(24)]]>加權(quán)的最大值的最大斜率由下式給出∂χwmax=max{∂χw(k-7+l),l=0,1,...,7}.---(25)]]>加權(quán)的最大值的累積斜率由下式給出∂χwacc=Σl=07∂χw(k-7+l).---(26)]]>一般來說,由方程式23,25和26給出的參數(shù)可用來標(biāo)記一幀是否很可能包含一個開始(即,濁音語音起始點(diǎn))。由方程式4和18-22給出的參數(shù)可用來標(biāo)記一幀是否很可能是濁音語音占優(yōu)勢。
現(xiàn)在參見圖3,以方塊圖形式示出根據(jù)本發(fā)明一實施例的決策邏輯208。決策邏輯208是設(shè)計來將所有這些參數(shù)與一組閾值進(jìn)行比較的模塊。在決策邏輯208中可比較任意數(shù)量的所需參數(shù),一般表示為(1,2,...,k)。典型地,每一參數(shù)或一組參數(shù)將標(biāo)識該幀的一特定特征。例如,特征#1 302可以是語音對非語音比較檢測。在一實施例中,VAD可指示示例性特征#1。如果VAD確定該幀是語音,則該語音通常被進(jìn)一步識別為濁音(元音)或清音(例如“s”)。特征#2 304例如可以是濁音對清音語音的檢測??梢园ㄈ我鈹?shù)量的特征且該許多特征可包含一個或多個推導(dǎo)的參數(shù)。例如,一般識別的特征#M 306可以是開始檢測,且可包含從方程式23、25和26推導(dǎo)的參數(shù)。每一特征可設(shè)置一個標(biāo)志等來指示該特征已經(jīng)或尚未被識別。
優(yōu)選地在最終檢測模塊308中進(jìn)行關(guān)于該幀屬于哪一類別的最終決策。在模塊308中接收所有這些標(biāo)志并與優(yōu)先權(quán)進(jìn)行比較,所述優(yōu)先權(quán)例如VAD作為最高優(yōu)先權(quán)。在本發(fā)明中,這些參數(shù)是從語音本身推導(dǎo)來的,并且不受背景噪音的影響;因而,這些閾值一般不受變化的背景噪音的影響。一般來說,一系列“如果-則”(if-then)語句可以比較每一標(biāo)志或一組標(biāo)志。例如,假設(shè)每一特征(標(biāo)志)由一參數(shù)表示,在一個實施例中,一個“如果”語句可以是“如果參數(shù)1小于一個閾值,則歸入X類”。在另一實施例中,該語句可以是“如果參數(shù)1小于一個閾值且參數(shù)2小于一個閾值等等,則歸入X類”。在另一實施例中,該語句可以是“如果參數(shù)1乘以參數(shù)2小于一個閾值,則歸入X類”。本領(lǐng)域技術(shù)人員易于認(rèn)識到,在一適當(dāng)?shù)摹叭绻?則”語句中,可包含任意數(shù)量單獨(dú)或組合的參數(shù)。當(dāng)然,也可能有效果相等的方法用于比較這些參數(shù),所有這些都包含在本發(fā)明的范圍內(nèi)。
此外,最終決策模塊308可包含一懸垂(overhang)。這里所使用的懸垂具有業(yè)內(nèi)通用的意義。一般來說,懸垂的意思是考慮該信號類別的歷史,即在某些信號類別之后某種程度上支持(favor)相同的信號類別,例如在從濁音向清音逐漸過渡時某種程度地支持濁音類別,以便不把帶有低度濁音語音的段過早地歸類為清音。
作為示范,以下是某些示例性類別的簡要說明。應(yīng)當(dāng)理解,本發(fā)明可用于把語音分類為許多類別或類別的組合,且包含以下的說明只是為了向讀者介紹一組可能的類別。
該示例性的eX-CELP算法根據(jù)幀的主要特征把該幀分類為六類之一。這些類被標(biāo)記為0.靜音/背景噪音1.噪音狀清音語音2.清音3.開始4.爆破音,沒有使用5.不穩(wěn)定濁音6.穩(wěn)定濁音在所示的實施例中,類別4未被使用,這樣,類別的數(shù)目是6。為了有效使用編碼器中的可用信息,分類模塊可被配置為使得它最初不區(qū)分類別5和6。而這一區(qū)分是在分類器之外可獲得附加信息的另一模塊的工作期間進(jìn)行的。此外,分類模塊最初可以不檢測類別1,但可基于附加信息和對噪音狀清音語音的檢測在另一模塊工作期間引入。因而,在一實施例中,該分類模塊可區(qū)分分別使用類別號0,2,3和5的靜音/背景噪音、清音、開始及濁音。
現(xiàn)在參見圖4,示出根據(jù)本發(fā)明的一實施例的一示例性模塊流程圖。該示例性流程圖可使用C代碼或任何其它本專領(lǐng)域所知的適當(dāng)?shù)挠嬎銠C(jī)語言實現(xiàn)。一般來說,圖4所示的步驟類似于前述的公開。
數(shù)字化的語音信號被輸入到編碼器,以便處理和壓縮為位流,或者進(jìn)入到解碼器的位流以便重構(gòu)(步驟400)。信號(通常是逐幀)例如可來自蜂窩式電話(無線),因特網(wǎng)(經(jīng)由IP的話音),或電話(PSTN)。本系統(tǒng)尤其適用于低位速率應(yīng)用(4kbits/s),但也可用于其它位速率。
編碼器可包括執(zhí)行不同功能的若干模塊。例如,VAD可指示輸入信號是語音還是非語音(步驟405)。非語音典型地包括背景噪音、音樂和靜音。諸如背景噪音的非語音是穩(wěn)定的并保持穩(wěn)定。另一方面,語音具有音調(diào),因而音調(diào)相關(guān)在聲音之間發(fā)生變化。例如,“s”具有非常低的音調(diào)相關(guān),但“a”具有高的音調(diào)相關(guān)。雖然圖4示出VAD,但應(yīng)當(dāng)理解,在某些特定實施例中VAD不是必須的。某些參數(shù)可在除去噪音分量之前被推導(dǎo),且基于那些參數(shù)有可能估計出該幀是背景噪音還是語音。推導(dǎo)基本參數(shù)(步驟415),然而應(yīng)當(dāng)理解,可在編碼器內(nèi)不同的模塊中計算用于編碼的這些參數(shù)中的某些參數(shù)。為了避免冗余,在步驟415(或后繼步驟425,430)中不再重新計算這些參數(shù),但這些參數(shù)可用來推導(dǎo)進(jìn)一步的參數(shù)或只是繼續(xù)傳送到分類裝置。在這一步驟期間可推導(dǎo)許多基本參數(shù),然而就舉例來說,先前公開的方程式1-5是適用的。
來自VAD(或其相等物)的信息指示該幀是語音還是非語音。如果該幀是非語音,則噪音參數(shù)(例如噪音參數(shù)的均值)可被更新(步驟410)??赏茖?dǎo)用于步驟410的參數(shù)的方程式的多種變形,然而就舉例來說,先前公開的方程式6-11是適用的。本發(fā)明公開了一種估計凈語音的參數(shù)的分類方法。其有利的原因之一是因為不斷變化的背景噪音將不會顯著影響該優(yōu)化的閾值。無噪音參數(shù)組例如通過估計并除去參數(shù)的噪音分量(步驟425)而獲得。又就舉例而言,先前公開的方程式12-14是適用的。基于先前的步驟,可以推導(dǎo)或可以不推導(dǎo)附加的參數(shù)(步驟430)??梢钥紤]包括附加參數(shù)的多種變形,但就舉例而言先前公開的方程式15-26是適用的。
一旦推導(dǎo)所需的參數(shù),就將這些參數(shù)與一組預(yù)定的閾值進(jìn)行比較(步驟435)??蓚€別地或與其它參數(shù)組合地比較這些參數(shù)。能夠想到很多方法來比較這些參數(shù),然而如先前公開的“如果-則”語句序列是適用的。
可能期望應(yīng)用懸垂(步驟440)。這僅僅是允許分類器基于對該信號的歷史的知識支持某些類別。因而,有可能利用語音信號如何在較長時段上演變的知識?,F(xiàn)在,幀已準(zhǔn)備好根據(jù)該應(yīng)用來被分類為許多不同的類別之一(步驟445)。就舉例而言,先前公開的類別(0-6)是適用的,但決非是要限制本發(fā)明的應(yīng)用。
來自該被分類的幀的信息能夠用來進(jìn)一步處理語音(步驟450)。在一實施例中,分類被用來對該幀加權(quán)(例如步驟450),在另一實施例中,分類被用來確定位速率(未示出)。例如,常常期望保持濁音語音的周期性(步驟460),但又要保持噪音和清音語音(步驟455)的隨機(jī)性(步驟465)。對于本領(lǐng)域技術(shù)人員來說許多其它分類信息的使用將會變得明顯。一旦編碼器內(nèi)所有的過程都已經(jīng)完成,編碼器的功能結(jié)束(步驟470),且表示信號幀的位可被傳送到解碼器用于重構(gòu)??商娲?,可在解碼器中基于被解碼的參數(shù)和/或重構(gòu)的信號執(zhí)行上述的分類處理過程。
這里以功能塊組件和各處理步驟的方式對本發(fā)明進(jìn)行了說明。應(yīng)當(dāng)理解,這些功能塊可通過任意數(shù)量的被配置來執(zhí)行規(guī)定功能的硬件組件來實現(xiàn)。例如,本發(fā)明可采用多種不同的集成電路組件,例如存儲器單元,數(shù)字信號處理單元,邏輯單元,查找表等等,它們在一個或多個微處理器或其它控制裝置的控制下可執(zhí)行各種功能。此外,本領(lǐng)域技術(shù)人員將會理解,本發(fā)明可與許多數(shù)據(jù)傳輸協(xié)議結(jié)合實施,且這里所述的系統(tǒng)只是本發(fā)明的一個示例性應(yīng)用。
應(yīng)當(dāng)理解,這里所示和所述的特定實現(xiàn)方式只是本發(fā)明及其最佳方式的示例,而決非是要限制本發(fā)明的范圍。事實上,為了簡短起見,在這里可能沒有詳述用于信號處理、數(shù)據(jù)傳輸,信令,及網(wǎng)絡(luò)控制的傳統(tǒng)技術(shù),以及系統(tǒng)的其它功能方面(和系統(tǒng)的單獨(dú)操作組件的組件)。此外,這里包含的各附圖中所示的連接線路是要表示各種單元之間的示例性的功能關(guān)系和/或物理連接。應(yīng)當(dāng)注意,在實際的通信系統(tǒng)中可能存在許多可替換的或附加的功能關(guān)系或物理連接。
以上已經(jīng)結(jié)合優(yōu)選實施例對本發(fā)明進(jìn)行了說明。然而,已經(jīng)閱讀了這一公開的本領(lǐng)域技術(shù)人員將認(rèn)識到,在不背離本發(fā)明的范圍的情況下可對優(yōu)選實施例作出各種改變和修改。例如,在不背離本發(fā)明的精神的情況下可添加類似的形式。這些和其它改變或修改,都將被認(rèn)為包含在如以下權(quán)利要求所表述的本發(fā)明的范圍內(nèi)。
權(quán)利要求
1.一種用于對包含具有背景噪音水平的背景噪音部分的語音信號分類的方法,該方法包括以下步驟從該語音信號中提取參數(shù);估計該參數(shù)的噪音分量;從該參數(shù)除去該噪音分量以產(chǎn)生無噪音參數(shù);選擇預(yù)定閾值,其中選擇所述預(yù)定閾值的步驟不受所述背景噪音水平的影響;比較該無噪音參數(shù)與預(yù)定閾值;以及響應(yīng)該比較步驟將該語音信號與一個類別相關(guān)聯(lián)。
2.根據(jù)權(quán)利要求1的方法,其特征在于,還包括確定該信號是語音還是非語音的步驟。
3.根據(jù)權(quán)利要求2的方法,其特征在于,還包括如果該信號是非語音則更新噪音分量的步驟。
4.根據(jù)權(quán)利要求1的方法,其特征在于,推導(dǎo)至少一個參數(shù)來對該信號分類。
5.根據(jù)權(quán)利要求4的方法,其特征在于,推導(dǎo)一組基本參數(shù)以及至少一個噪音分量參數(shù)。
6.根據(jù)權(quán)利要求1的方法,其特征在于,所述比較步驟包括(a)使用至少一個所述參數(shù)識別該信號的至少一個特征;(b)設(shè)置標(biāo)志以指示該特征存在;(c)在最終決策模塊中接收至少一個標(biāo)志;以及(d)將一個類別與至少一個標(biāo)志相關(guān)聯(lián)。
7.根據(jù)權(quán)利要求1的方法,其特征在于,接收至少一個參數(shù)來對該信號分類。
8.根據(jù)權(quán)利要求4的方法,其特征在于,所述至少一個參數(shù)包括譜傾斜參數(shù)、音調(diào)相關(guān)參數(shù)和絕對最大值參數(shù)。
9.根據(jù)權(quán)利要求4的方法,其特征在于,所述除去步驟從所述至少一個參數(shù)中的每一個除去噪音分量以產(chǎn)生多個無噪音參數(shù)。
10.根據(jù)權(quán)利要求9的方法,其特征在于,所述比較步驟將多個無噪音參數(shù)中的每一個與多個相應(yīng)預(yù)定閾值中的每一個進(jìn)行比較。
11.根據(jù)權(quán)利要求1的方法,其特征在于,所述除去噪音分量的步驟包括對所述參數(shù)加權(quán)。
12.根據(jù)權(quán)利要求11的方法,其特征在于,對所述參數(shù)加權(quán)包括提取背景噪音成分。
13.根據(jù)權(quán)利要求1的方法,其特征在于,在所述除去步驟期間對譜傾斜參數(shù)加權(quán)以產(chǎn)生無噪音譜傾斜參數(shù),在所述除去步驟期間對音調(diào)相關(guān)參數(shù)加權(quán)以產(chǎn)生無噪音音調(diào)相關(guān)參數(shù)以及在所述除去步驟期間對絕對最大值參數(shù)加權(quán)以產(chǎn)生無噪音絕對最大值參數(shù)。
14.一種用于處理包含具有背景噪音水平的背景噪音部分的語音信號的方法,該方法包括以下步驟從該語音信號中提取一組語音參數(shù);基于該語音參數(shù)形成一組無噪音參數(shù);選擇預(yù)定的一組閾值,其中選擇所述預(yù)定的一組閾值的步驟不受所述背景噪音水平影響;比較所述無噪音參數(shù)的每一個與所述預(yù)定的一組閾值中的每個相應(yīng)閾值;以及基于比較步驟對該語音信號分類。
15.根據(jù)權(quán)利要求14的方法,其特征在于,該形成步驟包括估計該語音信號的噪音分量;以及從每個所述語音參數(shù)除去該噪音分量。
16.根據(jù)權(quán)利要求14的方法,其特征在于,所述多個參數(shù)包括譜傾斜參數(shù)、音調(diào)相關(guān)參數(shù)和絕對最大值參數(shù)。
17.一種用于對包含具有背景噪音水平的背景噪音部分的語音信號分類的語音編碼裝置,該語音編碼裝置包括參數(shù)提取模塊,配置成從語音信號提取參數(shù)以用于對該語音信號分類;參數(shù)估計模塊,配置成估計所述參數(shù)的噪音分量;噪音除去模塊,配置成從所述參數(shù)除去語音分量以產(chǎn)生無噪音參數(shù);比較模塊,配置成將無噪音參數(shù)與預(yù)定閾值進(jìn)行比較,其中所述預(yù)定閾值不受所述背景噪音水平影響;以及分類模塊,配置成響應(yīng)所述比較模塊將所述語音信號與一個類別相關(guān)聯(lián)。
18.根據(jù)權(quán)利要求17的語音編碼裝置,其特征在于,提取多個參數(shù)以對該語音信號分類。
19.根據(jù)權(quán)利要求18的語音編碼裝置,其特征在于,所述多個參數(shù)包括譜傾斜參數(shù)、音調(diào)相關(guān)參數(shù)和絕對最大值參數(shù)。
20.根據(jù)權(quán)利要求18的語音編碼裝置,其特征在于,所述噪音除去模塊從所述多個參數(shù)中的每一個除去噪音分量以產(chǎn)生多個無噪音參數(shù)。
21.根據(jù)權(quán)利要求20的語音編碼裝置,其特征在于,所述比較模塊將多個無噪音參數(shù)中的每一個與多個相應(yīng)預(yù)定閾值中的每一個進(jìn)行比較。
22.根據(jù)權(quán)利要求17的語音編碼裝置,其特征在于,所述噪音除去模塊對所述參數(shù)加權(quán)。
23.根據(jù)權(quán)利要求22的語音編碼裝置,其特征在于,對所述參數(shù)加權(quán)包括提取背景噪音成分。
全文摘要
在此提供了一種在語音編碼中進(jìn)行魯棒語音分類,特別是在存在背景噪音的情況下進(jìn)行魯棒分類的方法。推導(dǎo)一組無噪音的參數(shù),由此降低背景噪音對分類處理過程的負(fù)面影響。語音信號被識別為語音或非語音。對于該語音幀推導(dǎo)一組基本參數(shù),然后估計并除去這些參數(shù)的噪音分量。如果該幀是非語音幀,則更新噪音估計。然后將該所有參數(shù)與一組預(yù)定的閾值比較。因為已經(jīng)從參數(shù)中除去背景噪音,該組閾值很大程度上不受噪音變化的影響。幀被分類為許多類別,由此通過進(jìn)行感知匹配而不是波形匹配強(qiáng)調(diào)感知的重要特征。
文檔編號G10L19/14GK1624766SQ20041008896
公開日2005年6月8日 申請日期2001年8月17日 優(yōu)先權(quán)日2000年8月21日
發(fā)明者J·塞斯 申請人:康奈克森特系統(tǒng)公司