專利名稱:用于源控制可變比特率寬帶語音編碼的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對聲音信號、具體但不是排他地是傳送及同步這個聲音信號的語音信號的數(shù)字編碼。具體來說,本發(fā)明涉及用于可變比特率(VBR)語音編碼的信號分類及速率選擇方法。
背景技術(shù):
對于具有主觀質(zhì)量與比特率之間的良好折衷的有效數(shù)字窄帶和寬帶語音編碼技術(shù)的需求在諸如電話會議、多媒體和無線通信等各種應(yīng)用領(lǐng)域不斷增加。直到最近,限制為200-3400Hz范圍的電話帶寬主要用于語音編碼應(yīng)用。但是,與傳統(tǒng)的電話帶寬相比,寬帶語音應(yīng)用提供了通信中提高的可懂度和逼真度。范圍為50-7000Hz的帶寬已經(jīng)發(fā)現(xiàn)足以傳遞良好質(zhì)量,給予面對面交流的感覺。對于一般的音頻信號,這個帶寬提供可接受的主觀質(zhì)量,但仍然低于分別在20-16000Hz和20-20000Hz的范圍工作的FM收音機(jī)或CD的質(zhì)量。
語音編碼器把語音信號轉(zhuǎn)換為數(shù)字比特流,它通過通信信道傳送或者存儲在存儲媒體中。語音信號經(jīng)過數(shù)字化,即通常采用每個樣本16位來進(jìn)行抽樣和量化。語音編碼器的作用是采用更少量的位數(shù)來表示這些數(shù)字樣本,同時保持良好主觀語音質(zhì)量。語音解碼器或合成器對所傳送或存儲的比特流進(jìn)行操作,并將它重新轉(zhuǎn)換成聲音信號。
碼激勵線性預(yù)測(CELP)編碼是實現(xiàn)主觀質(zhì)量與比特率之間的良好折衷的一種眾所周知的技術(shù)。這種編碼技術(shù)是無線和有線兩種應(yīng)用中的若干語音編碼標(biāo)準(zhǔn)的基礎(chǔ)。在CELP編碼中,抽樣語音信號以通常稱作幀的L個樣本的連續(xù)塊來處理,其中L為通常對應(yīng)于10-30ms的預(yù)定數(shù)量。線性預(yù)測(LP)濾波器在每幀被計算和傳送。LP濾波器的計算通常需要預(yù)見,即來自后續(xù)幀的5-15ms語音段。L-樣本幀被分為稱作子幀的更小的塊。子幀數(shù)量通常為三或四個,產(chǎn)生4-10ms子幀。在各子幀中,激勵信號通常由兩個成分、即過去激勵和革新的固定碼本激勵來獲得。由過去激勵形成的成分往往稱作自適應(yīng)碼本或音調(diào)激勵。表現(xiàn)激勵信號特征的參數(shù)經(jīng)過編碼并傳送給解碼器,其中,重構(gòu)的激勵信號用作LP濾波器的輸入。
在采用碼分多址(CDMA)技術(shù)的無線系統(tǒng)中,源控制可變比特率(VBR)語音編碼的使用顯著改進(jìn)系統(tǒng)容量。在源控制VBR編碼中,編解碼器以若干比特率進(jìn)行工作,以及速率選擇模塊用于根據(jù)語音幀的性質(zhì)(例如濁音、清音、瞬態(tài)、背景噪聲)確定用于對各語音幀編碼的比特率。目標(biāo)是獲得給定平均比特率、又稱作平均數(shù)據(jù)率(ADR)上的最佳語音質(zhì)量。通過調(diào)諧速率選擇模塊以得到不同模式上的不同ADR,編解碼器可工作在不同模式,其中,編解碼器的性能隨著不斷增加的ADR而提高。工作模式由系統(tǒng)根據(jù)信道條件來強(qiáng)制實行。這使編解碼器能夠?qū)崿F(xiàn)語音質(zhì)量與系統(tǒng)容量之間的折衷機(jī)制。
通常,在CDMA系統(tǒng)的VBR編碼中,八分之一速率用于對沒有語音活動的幀(靜寂或僅有噪聲的幀)進(jìn)行編碼。當(dāng)幀為穩(wěn)定濁音或穩(wěn)定清音時,根據(jù)工作模式采用半速率或四分之一速率。如果可采用半速率,則在清音的情況下使用沒有音調(diào)碼本的CELP模型,而在濁音的情況下,信號修改用來增強(qiáng)周期性和減少音調(diào)索引的位數(shù)量。如果工作模式實行四分之一速率,則通常沒有波形匹配是可行的,因為位數(shù)量不足,以及一般應(yīng)用某種參數(shù)編碼。全速率用于開始、瞬態(tài)幀以及混合濁音幀(通常使用典型的CELP模型)。除了CDMA系統(tǒng)中的源控制編解碼器操作之外,系統(tǒng)還可限制一些語音幀中的最大比特率,以便發(fā)送帶內(nèi)信令信息(稱作半空白-突發(fā)序列信令),或者在不良信道條件中(例如靠近小區(qū)邊界)以便提高編解碼器的健壯性。這稱作半速率最大。當(dāng)速率選擇模塊選擇要編碼為全速率幀的幀,以及系統(tǒng)實行例如HR幀,則語音性能下降,因為專用HR模式不能夠有效地對開始和瞬態(tài)信號進(jìn)行編碼??商峁┝硪粋€HR(或四分之一速率(QR))編碼模型來處理這些特殊情況。
從以上描述可以看到,信號分類和速率確定對于有效的VBR編碼極為重要。速率選擇是獲得具有最佳可能質(zhì)量的最低平均數(shù)據(jù)率的關(guān)鍵部分。
發(fā)明目的一般來說,本發(fā)明的一個目的是提供用于可變速率寬帶語音編碼的改進(jìn)的信號分類和速率選擇方法;具體來說,是提供適合CDMA系統(tǒng)的用于可變速率多模式寬帶語音編碼的改進(jìn)的信號分類和速率選擇方法。
發(fā)明內(nèi)容
源控制VBR語音編碼的使用顯著提高許多通信系統(tǒng)的容量,尤其是采用CDMA技術(shù)的無線系統(tǒng)。在源控制VBR編碼中,編解碼器可按照若干比特率進(jìn)行工作,以及速率選擇模塊用于根據(jù)語音幀的性質(zhì)(例如濁音、清音、瞬態(tài)、背景噪聲)確定用于對各語音幀編碼的比特率。目標(biāo)是獲得給定平均數(shù)據(jù)率上的最佳語音質(zhì)量。通過調(diào)諧速率選擇模塊以得到不同模式上的不同ADR,編解碼器可工作在不同模式,其中,編解碼器性能隨著不斷增加的ADR而提高。在一些系統(tǒng)中,工作模式由系統(tǒng)根據(jù)信道條件來強(qiáng)制實行。這使編解碼器能夠具有語音質(zhì)量與系統(tǒng)容量之間的折衷機(jī)制。
信號分類算法分析輸入語音信號,并將各語音幀分類為一組預(yù)定類(例如背景噪聲、濁音、清音、混合濁音、瞬態(tài)等)其中之一。速率選擇算法根據(jù)語音幀的類和預(yù)期平均數(shù)據(jù)率決定要采用什么比特率和什么編碼模型。
在多模式VBR編碼中,通過定義各比特率的使用百分率來得到與不同平均數(shù)據(jù)率對應(yīng)的不同工作模式。因此,速率選擇算法根據(jù)語音幀的性質(zhì)(分類信息)和所需平均數(shù)據(jù)率來決定要用于某個語音幀的比特率。
在一些實施例中,考慮三種工作模式高級、標(biāo)準(zhǔn)和經(jīng)濟(jì)模式,如[7]中所述。高級模式采用最高ADR確保最高可實現(xiàn)質(zhì)量。經(jīng)濟(jì)模式通過采用仍然允許優(yōu)質(zhì)寬帶語音的最低ADR使系統(tǒng)容量最大。標(biāo)準(zhǔn)模式是系統(tǒng)容量與語音質(zhì)量之間的折衷,它采用高級模式和經(jīng)濟(jì)模式的ADR之間的ADR。
提供用于在CDMA-one和CDMA2000系統(tǒng)中工作的多模式可變比特率寬帶編解碼器在本文中將稱作VMR-WB編解碼器。
更明確地說,根據(jù)本發(fā)明的第一方面,提供一種對聲音進(jìn)行數(shù)字編碼的方法,包括i)從聲音的抽樣形式提供信號幀;ii)確定信號幀是活動語音幀還是不活動語音幀;iii)如果信號幀為不活動語音幀,則采用背景噪聲低比特率編碼算法對信號幀編碼;iv)如果信號幀為活動語音幀,則確定活動語音幀是否為清音幀;v)如果信號幀為清音幀,則采用清音信號編碼算法對信號幀編碼;以及vi)如果信號幀不是清音幀,則確定信號幀是否為穩(wěn)定濁音幀;vii)如果信號幀為穩(wěn)定濁音幀,則采用穩(wěn)定濁音信號編碼算法對信號幀編碼;viii)如果信號幀不是清音幀且信號幀不是穩(wěn)定濁音幀,則采用普通信號編碼算法對信號幀編碼。
根據(jù)本發(fā)明的第二方面,還提供一種對聲音進(jìn)行數(shù)字編碼的方法,包括i)從聲音的抽樣形式提供信號幀;ii)確定信號幀是活動語音幀還是不活動語音幀;iii)如果信號幀為不活動語音幀,則采用背景噪聲低比特率編碼算法對信號幀編碼;iv)如果信號幀為活動語音幀,則確定活動語音幀是否為清音幀;v)如果信號幀為清音幀,則采用清音信號編碼算法對信號幀編碼;以及vi)如果信號幀不是清音幀,則采用普通語音編碼算法對信號幀編碼。
根據(jù)本發(fā)明的第三方面,提供一種用于清音信號的分類的方法,其中下列參數(shù)中至少三個用來對清音幀分類a)濁化量度(rx);b)頻譜斜移量度(et);c)信號幀中的能量變化(dE);以及信號幀的相對能量(Erel)。
根據(jù)本發(fā)明的方法使VBR編解碼器能夠在基于碼分多址(CDMA)技術(shù)的無線系統(tǒng)以及基于IP的系統(tǒng)內(nèi)有效地工作。
最后,根據(jù)本發(fā)明的第四方面,提供一種對聲音信號編碼的裝置,包括語音編碼器,用于接收表示聲音信號的數(shù)字化聲音信號;數(shù)字化聲音信號包含至少一個信號幀;語音編碼器包括第一級分類器,用于區(qū)分活動和不活動語音幀;舒適噪聲生成器,用于對不活動語音幀編碼;第二級分類器,用于區(qū)分濁音和清音幀;清音語音編碼器;第三級分類器,用于區(qū)分穩(wěn)定和不穩(wěn)定濁音幀;濁音語音優(yōu)化編碼器;以及普通語音編碼器;該語音編碼器被配置用于輸出編碼參數(shù)的二進(jìn)制表示。
通過閱讀以下參照附圖、僅作為實例提供的、對說明性實施例的非限制性的說明,本發(fā)明的上述及其它目的、優(yōu)點和特征將會變得更加清楚。
附圖概述在附圖中
圖1是語音通信系統(tǒng)的框圖,說明根據(jù)本發(fā)明的第一方面的語音編碼和解碼裝置的使用;圖2是流程圖,說明根據(jù)本發(fā)明的第二方面的第一說明性實施例對聲音信號進(jìn)行數(shù)字編碼的方法;圖3是流程圖,說明根據(jù)本發(fā)明的第三方面的說明性實施例區(qū)分清音幀的方法;圖4是流程圖,說明根據(jù)本發(fā)明的第四方面的說明性實施例區(qū)分穩(wěn)定濁音幀的方法;圖5是流程圖,說明根據(jù)本發(fā)明的第二方面的第二說明性實施例以高級模式對聲音信號進(jìn)行數(shù)字編碼的方法;圖6是流程圖,說明根據(jù)本發(fā)明的第二方面的第三說明性實施例以標(biāo)準(zhǔn)模式對聲音信號進(jìn)行數(shù)字編碼的方法;圖7是流程圖,說明根據(jù)本發(fā)明的第二方面的第四說明性實施例以經(jīng)濟(jì)模式對聲音信號進(jìn)行數(shù)字編碼的方法;圖8是流程圖,說明根據(jù)本發(fā)明的第二方面的第五說明性實施例以可互通模式對聲音信號進(jìn)行數(shù)字編碼的方法;圖9是流程圖,說明根據(jù)本發(fā)明的第二方面的第六說明性實施例在半速率最大過程中以高級或標(biāo)準(zhǔn)模式對聲音信號進(jìn)行數(shù)字編碼的方法;圖10是流程圖,說明根據(jù)本發(fā)明的第二方面的第七說明性實施例在半速率最大過程中以經(jīng)濟(jì)模式對聲音信號進(jìn)行數(shù)字編碼的方法;圖11是流程圖,說明根據(jù)本發(fā)明的第二方面的第八說明性實施例在半速率最大過程中以可互通模式對聲音信號進(jìn)行數(shù)字編碼的方法;以及圖12是流程圖,說明根據(jù)本發(fā)明的第五方面的說明性實施例對聲音信號進(jìn)行數(shù)字編碼、以便允許VMR-WB與AMR-WB編解碼器之間互通的方法。
發(fā)明的詳細(xì)描述現(xiàn)在來看附圖的圖1,說明一種語音通信系統(tǒng)10,描述根據(jù)本發(fā)明的第一方面的說明性實施例的語音編碼和解碼的使用。語音通信系統(tǒng)10支持語音信號通過通信信道12的傳輸和再現(xiàn)。通信信道12可包括例如有線、光或光纖鏈路或者射頻鏈路。通信信道12也可以是不同傳輸媒體的組合,例如一部分光纖鏈路和一部分射頻鏈路。射頻鏈路可允許支持要求共享帶寬資源的多個并發(fā)語音通信,例如在蜂窩電話中可見到的情況?;蛘?,通信信道可由通信系統(tǒng)的單裝置實施例中的存儲裝置(未示出)所取代,它記錄和存儲編碼語音信號,供以后重放。
通信系統(tǒng)10包括編碼器裝置,其中包含在通信信道12的發(fā)射機(jī)側(cè)的麥克風(fēng)14、模數(shù)轉(zhuǎn)換器16、語音編碼器18和信道編碼器20以及在接收機(jī)側(cè)的信道解碼器22、語音解碼器24、數(shù)模轉(zhuǎn)換器26和揚聲器28。
麥克風(fēng)14產(chǎn)生模擬語音信號,它被傳送給模數(shù)(A/D)轉(zhuǎn)換器16,用于將它轉(zhuǎn)換成數(shù)字形式。語音編碼器18對數(shù)字語音信號編碼,從而產(chǎn)生一組參數(shù),它們被編碼為二進(jìn)制形式,并被傳遞給信道編碼器20??蛇x信道編碼器20對編碼參數(shù)的二進(jìn)制表示添加冗余度,然后再通過通信信道12將它們傳送。另外,在諸如分組網(wǎng)絡(luò)應(yīng)用之類的某些應(yīng)用中,在傳送之前對編碼幀分組。
在接收機(jī)側(cè),信道解碼器22利用所接收比特流中的冗余信息來檢測和糾正傳輸過程中出現(xiàn)的信道差錯。語音解碼器24把從信道解碼器20接收的比特流重新轉(zhuǎn)換為一組編碼參數(shù),用于創(chuàng)建合成語音信號。在語音解碼器24上重構(gòu)的合成語音信號在數(shù)模(D/A)轉(zhuǎn)換器26中轉(zhuǎn)換為模擬形式,并在揚聲器單元28中重放。
麥克風(fēng)14和/或A/D轉(zhuǎn)換器16在一些實施例中可由語音編碼器18的其它語音源來代替。
編碼器20和解碼器22經(jīng)過配置,以便實現(xiàn)一種用于根據(jù)本發(fā)明對語音信號編碼的方法,本文下面進(jìn)行描述。
信號分類現(xiàn)在來看圖2,說明根據(jù)本發(fā)明的第一方面的第一說明性實施例對語音信號進(jìn)行數(shù)字編碼的方法100。方法100包括根據(jù)本發(fā)明的第二方面的說明性實施例的語音信號分類方法。要注意,表達(dá)“語音信號”指的是話音信號以及可包含話音部分的任何多媒體信號、如具有語音內(nèi)容(音樂之間的語音、帶背景音樂的語音、帶特殊音響效果的語音等)的音頻。
如圖2所示,信號分類在三個步驟102、106和110進(jìn)行,其中每個步驟區(qū)分特定的信號類型。首先在步驟102,語音活動檢測器(VAD)形式的第一級分類器(未示出)區(qū)分活動和不活動語音幀。如果檢測到不活動語音幀,則編碼方法100以采用例如舒適噪聲生成(CNG)對當(dāng)前幀編碼來結(jié)束(步驟104)。如果在步驟102檢測到活動語音幀,則該幀經(jīng)過配置成區(qū)分清音幀的第二級分類器(未示出)。在步驟106,如果分類器將幀分類為清音語音信號,則編碼方法100在步驟108結(jié)束,在其中,采用對清音信號優(yōu)化的編碼技術(shù)對該幀編碼。否則,在步驟110,語音幀通過“穩(wěn)定濁音”分類模塊(未示出)形式的第三級分類器(未示出)。如果當(dāng)前幀分類為穩(wěn)定濁音幀,則采用對穩(wěn)定濁音信號優(yōu)化的編碼技術(shù)對該幀編碼(步驟112)。否則,該幀很可能包含不穩(wěn)定語音段、如濁音開始或快速發(fā)展的濁音語音信號部分,采用允許保持良好主觀質(zhì)量、具有高比特率的通用語音編碼器對該幀編碼(步驟114)。注意,如果幀的相對能量低于某個門限,則這些幀可采用普通較低速率編碼類型來編碼,從而進(jìn)一步減小平均數(shù)據(jù)率。
分類器和編碼器可采取從電子電路到芯片處理器的多種形式。
下面更詳細(xì)地說明不同類型語音信號的分類,以及公開清音和濁音語音的分類方法。
不活動語音幀的區(qū)分(VAD)不活動語音幀在步驟102采用語音活動檢測器(VAD)來區(qū)分。VAD設(shè)計是本領(lǐng)域的技術(shù)人員熟知的,本文不作更詳細(xì)的描述。VAD的一個實例在[5]中描述。
清音活動語音幀的區(qū)分語音信號的清音部分的特征在于丟失周期性,可以進(jìn)一步分為其中能量和頻譜快速變化的不穩(wěn)定幀以及這些特性保持相對穩(wěn)定的穩(wěn)定幀。
在步驟106,清音幀采用下列參數(shù)中至少三個來區(qū)分-濁化量度,它可作為平均歸一化相關(guān)性(rx)來計算;-頻譜斜移量度(et);-信號能量比(dE),用來評估幀中的幀能量變化,從而評估幀的穩(wěn)定性;以及-幀的相對能量。
濁化量度圖3說明根據(jù)本發(fā)明的第三方面的說明性實施例區(qū)分清音幀的方法200。
用來確定濁化量度的歸一化相關(guān)性作為開環(huán)音調(diào)搜索模塊214的組成部分來計算。在圖3的說明性實施例中,采用20ms幀。開環(huán)音調(diào)搜索模塊通常每10ms輸出開環(huán)音調(diào)估算值p(每幀兩次)。在方法200中,它還用來輸出歸一化相關(guān)性量度rx。以開環(huán)音調(diào)延遲對已加權(quán)語音和過去加權(quán)語音計算這些歸一化相關(guān)性。已加權(quán)語音信號sw(n)在感受加權(quán)濾波器212中計算。在這個說明性實施例中,采用適用于寬帶信號、具有固定分母的感受加權(quán)濾波器212。感受加權(quán)濾波器212的傳遞函數(shù)的一個實例由以下關(guān)系式給出W(z)=A(z/γ1)/(1-γ2z-1) 其中0<γ2<γ1≤1其中A(z)為模塊218中計算的線性預(yù)測(LP)濾波器的傳遞函數(shù),由下列關(guān)系式給出A(z)=1+Σi=1paiz-i]]>濁化量度由以下定義的平均相關(guān)性rx給出r‾x=13(rx(0)+rx(1)+rx(2))---(1)]]>其中rx(0)、rx(1)和rx(2)分別是當(dāng)前幀的前一半的歸一化相關(guān)性、當(dāng)前幀的后一半的歸一化相關(guān)性以及預(yù)見(下一幀開始)的歸一化相關(guān)性。
噪聲相關(guān)因子re可添加到等式(1)的歸一化相關(guān)性k中以便說明存在背景噪聲。存在背景噪聲時,平均歸一化相關(guān)性減小。但是,為了信號分類,這種減小不應(yīng)當(dāng)影響濁音-清音判定,因此這通過添加re進(jìn)行補(bǔ)償。應(yīng)當(dāng)注意,當(dāng)使用良好噪聲降低算法時,re實際為零。
在方法200中,使用13ms的預(yù)見。歸一化相關(guān)性rx(k)按照下式計算rx(k)=rxyrxxryy---(2)]]>其中rxy=Σi=0Lk-1x(tk+i)x(tk+i-pk)]]>rxx=Σi=0Lk-1x2(tk+i)]]>ryy=Σi=0Lk-1x2(tk+i-pk)]]>在方法200中,相關(guān)性的計算如下所述。對已加權(quán)語音信號sw(n)計算相關(guān)性rx(k)。時刻tk與當(dāng)前半幀開始相關(guān),在12800Hz抽樣率,對于k=0、1和2,分別等于0、128和256個樣本。值pk=TOL是對于半幀的所選開環(huán)音調(diào)估算值。自相關(guān)計算的長度Lk取決于音調(diào)周期。在第一實施例中,Lk的值概括如下(對于12.8kHz抽樣率)Lk=80個樣本,對于pk≤62個樣本Lk=124個樣本,對于62<pk≤122個樣本Lk=230個樣本,對于pk>122個樣本這些長度確保相關(guān)矢量長度包含至少一個音調(diào)周期,這有助于健壯的開環(huán)音調(diào)檢測。對于長音調(diào)周期(p1>122個樣本),rx(1)和rx(2)相同,即只有一個相關(guān)性被計算,因為相關(guān)矢量足夠長,使得不再需要對預(yù)見的分析。
或者,已加權(quán)語音信號可按0.2來抽取樣本,以便簡化開環(huán)音調(diào)搜索。已加權(quán)語音信號可在抽取樣本之前經(jīng)過低通濾波。在這種情況下,Lk的值由下式給出Lk=40個樣本,對于pk≤31個樣本Lk=62個樣本,對于62<pk≤61個樣本Lk=115個樣本,對于pk>61個樣本其它方法可用來計算相關(guān)性。例如,對于整個幀可以只計算一個歸一化相關(guān)性值,而不是對若干歸一化相關(guān)性求平均。此外,可以對已加權(quán)語音之外的信號、如剩余信號、語音信號或低通濾波剩余語音或已加權(quán)語音信號計算相關(guān)性。
頻譜斜移頻譜斜移參數(shù)包含關(guān)于能量的頻率分布的信息。在方法200中,頻譜斜移在頻域中估算為集中于低頻的能量與集中于高頻的能量之比。但是,也可通過不同方式來估算,例如作為語音信號的兩個第一自相關(guān)系數(shù)之比。
在方法200中,離散傅立葉變換用于在圖10的模塊210中執(zhí)行頻譜分析。頻率分析和斜移計算每幀進(jìn)行兩次。以50%重疊的方式使用256點快速傅立葉變換(FFT)。分析窗口經(jīng)過設(shè)置,使得利用整個預(yù)見。在當(dāng)前幀開始之后的24個樣本處設(shè)置第一窗口的開始。在另外128個樣本處設(shè)置第二窗口。不同的窗口可用來對輸入信號加權(quán),用于頻率分析。使用漢明窗(它相當(dāng)于正弦窗)的平方根。這個窗口尤其適合重疊-相加方法,因此,這個特定的頻譜分析可用于基于頻譜減法和重疊-相加分析/合成的可選噪聲抑制算法。由于噪聲抑制算法被認(rèn)為是本領(lǐng)域眾所周知的,因此本文不作更詳細(xì)的描述。
高頻和低頻的能量按照感受臨界頻帶[6]來計算臨界頻帶={100.0,200.0,300.0,400.0,510.0,630.0,770.0,920.0,1080.0,1270.0,1480.0,1720.0,2000.0,2320.0,2700.0,3150.0,3700.0,4400.0,5300.0,6350.0}Hz。
高頻的能量作為最后兩個臨界頻帶的能量的平均值來計算Eh=0.5(ECB(18)+ECB(19))其中ECB(i)是每個臨界頻帶的平均能量,計算如下ECB(i)=1NCB(i)Σk=0NCB(i)-1(XR2(k+ji)+XI2(k+ji)),i=0,...,19]]>其中NCB(i)是第i個頻帶中的頻率接收器(bin)的數(shù)量,XR(k)和XI(k)分別是第k個頻率接收器的實部和虛部,以及ji是第i個臨界頻帶中的第一接收器的索引。
低頻能量作為前10個臨界頻帶中的能量的平均值來計算。已經(jīng)從計算中排除了中間臨界頻帶,以便改進(jìn)區(qū)分高能量集中在低頻的幀(一般為濁音)以及高能量集中在高頻的幀(一般為清音)。在中間,能量含量不是任何類的特性,增加了判定混淆。
對于長音調(diào)周期和短音調(diào)周期以不同方式計算低頻中的能量。對于濁音女聲語音段,頻譜的諧波結(jié)構(gòu)被利用以提高濁音-清音區(qū)分。因此,對于短音調(diào)周期,El逐個接收器地計算,在求和中僅考慮充分接近語音諧波的頻率接收器。即E‾l=1cntΣk=024EBIN(k)wh(k)]]>其中EBIN(k)是前25個頻率接收器中的接收器能量(沒有考慮DC分量)。注意,這25個接收器對應(yīng)于前10個臨界頻帶。在以上求和中,僅考慮與接近音調(diào)諧波的接收器相關(guān)的項,因此,如果接收器與最接近諧波之間的距離不大于某個頻率門限(50Hz),則wh(k)設(shè)置為1,否則設(shè)置為0。計數(shù)器cnt為求和時非零項的數(shù)目。僅考慮比50Hz更接近最近諧波的接收器。因此,如果該結(jié)構(gòu)為低頻中的諧波,則只有高能量項包含在和中。另一方面,如果該結(jié)構(gòu)不是諧波,則這些項的選擇是隨機(jī)的,且和將更小。因此,甚至可檢測到具有低頻中的高能量含量的清音聲音。這種處理無法對更長的音調(diào)周期進(jìn)行,因為頻率分辨率不夠。對于大于128的音調(diào)值或者對于先驗清音聲音,低頻能量按每個臨界頻帶計算為E‾l=110Σk=09ECB(k)]]>當(dāng)rx(0)+rx(1)+re<0.6時確定先驗清音聲音,其中re值是如上所述添加到歸一化相關(guān)性中的校正值。
所得低頻和高頻能量通過從以上計算的值El和Eh中減去估算噪聲能量來得到。即Eh=Eh-NhEl=El-Nl其中Nh和Nl分別是最后2個臨界頻帶和前10個臨界頻帶中的平均噪聲能量。估算噪聲能量已經(jīng)添加到斜移計算結(jié)果中,以便說明存在背景噪聲。
最后,頻譜斜移由下式給出etilt(i)=ElEh]]>注意,頻譜斜移計算每幀執(zhí)行兩次,以便得到與每幀頻譜分析對應(yīng)的etilt(0)和etilt(1)。用于清音幀分類的平均頻譜斜移由下式給出et=13(eold+etilt(0)+etilt(1))]]>其中eold是來自前一幀的第二頻譜分析的斜移。
能量變化dE
對已降噪語音信號s(n)評估能量變化dE,其中n=0對應(yīng)當(dāng)前幀開始。根據(jù)長度32個樣本的短時間段,信號能量每個子幀評估兩次,即每幀8次。此外,還計算來自前一幀的最后32個樣本以及來自下一幀的前32個樣本的短期能量。短時間最大能量計算為Est(1)(j)=maxi=031(s2(i+32j)),j=-1,...,8,]]>其中j=-1和j=8對應(yīng)于前一幀的結(jié)尾和下一幀的開始。另一組9個最大能量通過將語音索引移位16個樣本來計算。即Est(2)(j)=maxi=031(s2(i+32j-16)),j=0,...,8.]]>連續(xù)短期段之間的最大能量變化dE作為下列的最大值來計算Est(1)(0)/Est(1)(-1)]]>若Est(1)(0)>Est(-1)]]>Est(1)(7)/Est(1)(8)]]>若Est(1)(7)>Est(8)]]>max(Est(1)(j),Est(1)(j-1))min(Est(1)(j),Est(1)(j-1))]]>對于j=1至7max(Est(2)(j),Est(2)(j-1))min(Est(2)(j),Est(2)(j-1))]]>對于j=1至8或者,其它方法可用來評估幀中的能量變化。
相對能量Erel幀的相對能量由以dB為單位的幀能量與長期平均能量之差來給出。幀能量計算為Et=10log(Σi=019ECB(i)),dB]]>其中ECB(i)是每個臨界頻帶的平均能量,如上所述。長期平均幀能量由下式給出Ef=0.99Ef+0.01Et其中初始值Ef=45dB。
因此,相對幀能量由下式給出Erel=Et-Ef相對幀能量用來識別沒有分類為背景噪聲幀或清音幀的低能量幀。這些幀可采用普通HR編碼器編碼,以便減小ADR。
清音語音分類清音語音幀的分類基于上述參數(shù),即濁化量度rx、頻譜斜移et、幀中的能量變化dE以及相對幀能量Erel。根據(jù)這些參數(shù)中的至少三個來進(jìn)行判定。判定門限根據(jù)工作模式(所需的平均數(shù)據(jù)率)來設(shè)置。基本上,對于具有較低預(yù)期數(shù)據(jù)率的工作模式,門限設(shè)置成更偏向清音分類(因為半速率或四分之一速率編碼將用于對幀進(jìn)行編碼)。清音幀通常采用清音HR編碼器進(jìn)行編碼。但是,在經(jīng)濟(jì)模式的情況下,如果滿足某些附加條件,則也可采用清音QR,以便進(jìn)一步減小ADR。
在高級模式中,如果滿足下列條件,則幀被編碼為清音HR(rx<th1)AND(et<th2)AND(dE<th3)其中,th1=0.5,th2=1,以及 在語音活動判定中,采用判定釋放延遲。因此,在活動語音周期之后,當(dāng)算法判定幀為不活動語音幀之后,本地VAD設(shè)置為零,但實際VAD標(biāo)志只有在經(jīng)過一定數(shù)量的幀(釋放延遲周期)之后才設(shè)置為零。這避免了語音偏移的剪音。在標(biāo)準(zhǔn)及經(jīng)濟(jì)模式中,如果本地VAD為零,則幀被分類為清音幀。
在標(biāo)準(zhǔn)模式中,如果本地VAD=0或者如果滿足下列條件,則幀被編碼為清音HR(rx<th4)AND(et<th5)AND((dE<th6)OR(Erel<th7))其中th4=0.695,th5=4,th6=40,以及th7=-14。
在經(jīng)濟(jì)模式中,如果本地VAD=0或者如果滿足下列條件,則幀被聲明為清音幀(rx<th8)AND(et<th9)AND((dE<th10)OR(Erel<th11))其中th8=0.695,th9=4,th10=60,以及th11=-14。
在經(jīng)濟(jì)模式中,清音幀通常編碼為清音HR。但是,如果另外還滿足以下條件,則它們也可采用清音QR來編碼如果最后幀為背景噪聲幀的清音,以及如果在幀的結(jié)尾能量集中于高頻,并且在預(yù)見中沒有檢測到可能的濁音開始,則該幀被編碼為清音QR。最后兩個條件作為下式檢測(rx(2)<th12)AND(etilt(1)<th13),其中th12=0.73,th13=3。
注意rx(2)為預(yù)見中的歸一化相關(guān)性,以及etilt(1)是跨越幀的結(jié)尾和預(yù)見的第二頻譜分析中的斜移。
方法200之外的其它方法當(dāng)然可用于區(qū)分清音幀。
穩(wěn)定濁音語音幀的區(qū)分在標(biāo)準(zhǔn)和經(jīng)濟(jì)模式的情況下,穩(wěn)定濁音幀可采用濁音HR編碼類型來編碼。
濁音HR編碼類型利用信號修改對穩(wěn)定濁音幀有效地編碼。
信號修改技術(shù)將信號的音調(diào)調(diào)整到預(yù)定的延遲曲線(contour)。然后,長期預(yù)測采用這個延遲曲線并按增益參數(shù)縮放,將過去激勵信號映射到當(dāng)前子幀。延遲曲線直接通過內(nèi)插于兩個開環(huán)音調(diào)估算值(第一個在前一幀中得到以及第二個在當(dāng)前幀中得到)之間來得到。內(nèi)插為幀的每個時刻提供延遲值。在延遲曲線可用之后,通過扭曲(warp)、改變信號的時標(biāo),將當(dāng)前要編碼的子幀中的音調(diào)調(diào)整到跟隨這個人工曲線。在不連續(xù)扭曲[1,4,5]中,信號段向左或向右移位,而沒有改變段長度。不連續(xù)扭曲要求處理所得重疊或丟失信號部分的過程。為了減少這些操作中的人工產(chǎn)物,時標(biāo)的容許變化保持較小。此外,扭曲通常采用LP剩余信號或已加權(quán)語音信號來進(jìn)行,以便減小所產(chǎn)生的失真。這些信號而不是語音信號的使用還便于檢測音調(diào)脈沖及其之間的低功率區(qū)域,從而確定用于扭曲的信號段。實際修改的語音信號通過反向濾波來產(chǎn)生。在對當(dāng)前子幀進(jìn)行信號修改之后,編碼可按照傳統(tǒng)方式繼續(xù)進(jìn)行,但采用預(yù)定延遲曲線來產(chǎn)生自適應(yīng)碼本激勵。
在本說明性實施例中,信號修改在音調(diào)和幀方面同時進(jìn)行,即,在當(dāng)前幀中每次修改一個音調(diào)周期段,使得后續(xù)語音幀與原始信號完全時間一致地開始。音調(diào)周期段由幀邊界限制。這防止在幀邊界上轉(zhuǎn)換的時間移位,從而簡化編碼器實現(xiàn),并降低已修改語音信號中的人工產(chǎn)物的風(fēng)險。這還簡化了信號修改啟用與禁用編碼類型之間的可變比特率操作,因為每個新幀與原始信號時間一致地開始。
如圖2所示,如果幀既沒有被分類為不活動語音幀,也沒有被分類為清音幀,則測試它是否為穩(wěn)定濁音幀(步驟110)。穩(wěn)定濁音幀的分類采用閉環(huán)方式與用于對穩(wěn)定濁音幀進(jìn)行編碼的信號修改過程結(jié)合進(jìn)行。
圖4說明根據(jù)本發(fā)明的第四方面的說明性實施例區(qū)分穩(wěn)定濁音幀的方法300。
信號修改中的子過程產(chǎn)生對當(dāng)前幀中的長期預(yù)測的可得到性能進(jìn)行量化的指示符。如果這些指示符的任一個處于其允許極限之外,則信號修改過程被邏輯塊之一終止。在這種情況下,原始信號保留不變,以及幀沒有被分類為穩(wěn)定濁音幀。這個綜合邏輯允許使信號修改之后所修改的語音信號的質(zhì)量最大化以及以低比特率來編碼。
步驟302的音調(diào)脈沖搜索過程對當(dāng)前幀的周期性產(chǎn)生若干指示符。因此,它之后的邏輯塊是分類邏輯的重要組件。觀察到音調(diào)周期長度的演變。邏輯塊比較所檢測音調(diào)脈沖位置的距離與內(nèi)插開環(huán)音調(diào)估算值以及與先前所檢測音調(diào)脈沖的距離。如果與開環(huán)音調(diào)估算值或者與先前音調(diào)周期長度的差異過大,則終止信號修改過程。
在步驟304,延遲曲線的選擇提供關(guān)于音調(diào)周期演變和當(dāng)前語音幀的周期性的附加信息。如果滿足條件|dn-dn-1|<0.2dn,則信號修改過程從這個塊繼續(xù)進(jìn)行,其中dn和dn-1為當(dāng)前及過去幀中的音調(diào)延遲。這實質(zhì)上意味著,對于將當(dāng)前幀分類為穩(wěn)定濁音,只容許小延遲變化。
以低比特率對受到信號修改的幀編碼時,音調(diào)周期段的形狀在整個幀上保持相似,以便允許根據(jù)長期預(yù)測的可靠信號建模,從而以低比特率編碼而沒有降低主觀質(zhì)量。在信號修改步驟306,連續(xù)段的相似性可通過當(dāng)前段與最優(yōu)位移處的目標(biāo)信號之間的歸一化相關(guān)性進(jìn)行量化。使它們與目標(biāo)信號的相關(guān)性為最大的音調(diào)周期段的移位增強(qiáng)了周期性,以及在信號修改有用時產(chǎn)生高長期預(yù)測增益。通過要求所有相關(guān)性值必須大于預(yù)定門限來保證過程的成功。如果沒有對所有段滿足這個條件,則信號修改過程終止,以及原始信號保持不變。一般來說,對于具有相等編碼性能的男性聲音,可允許略微低一些的增益門限范圍。增益門限可在VBR編解碼器的不同工作模式中改變,以便調(diào)整應(yīng)用信號修改的編碼模式的使用率,從而改變目標(biāo)平均比特率。
如上所述,根據(jù)方法100的完整速率選擇邏輯包括三個步驟,其中的每個區(qū)分特定信號類型。這些步驟之一包括信號修改算法作為其組成部分。首先,VAD區(qū)分活動和不活動語音幀。如果檢測到不活動語音幀,則分類方法結(jié)束,而該幀被視作背景噪聲,并且例如采用舒適噪聲發(fā)生器來編碼。如果檢測到活動語音幀,則該幀經(jīng)過專用于區(qū)分清音幀的第二步驟。如果幀被分類為清音語音信號,則分類鏈結(jié)束,以及該幀采用專用于清音幀的模式來編碼。在最后步驟,語音幀通過所建議的信號修改過程進(jìn)行處理,該過程在檢驗了此小節(jié)中前面所述的條件時啟用修改。在這種情況下,幀被分類為穩(wěn)定濁音幀,原始信號的音調(diào)調(diào)整到人工明確定義的延遲曲線,以及該幀采用對這些類型的幀優(yōu)化的特定模式來編碼。否則,幀可能包含不穩(wěn)定語音段,例如濁音開始或快速發(fā)展的濁音語音信號。這些幀通常要求更普通的編碼模型。這些幀通常采用普通FR編碼類型來編碼。但是,如果幀的相對能量低于某個門限,則這些幀可采用普通HR編碼類型來編碼,從而進(jìn)一步減小ADR。
CDMA多模式VBR系統(tǒng)的語音編碼和速率選擇現(xiàn)在根據(jù)本發(fā)明的說明性實施例來描述可按照速率集II工作的CDMA多模式VBR系統(tǒng)的聲音的速率選擇和數(shù)字編碼方法。
所述編解碼器基于自適應(yīng)多速率寬帶(AMR-WB)語音編解碼器,它最近由ITU-T(國際電信聯(lián)盟-電信標(biāo)準(zhǔn)化部門)選擇用于若干寬帶語音服務(wù),以及由3GPP(第三代合作項目)選擇用于GSM和W-CDMA第三代無線系統(tǒng)。AMR-WB編解碼器由九個比特率構(gòu)成,即6.6、8.85、12.65、14.25、15.85、18.25、19.85、23.05以及23.85千比特/秒。用于CDMA系統(tǒng)的基于AMR-WB的源控制VBR編解碼器允許實現(xiàn)CDMA與采用AMR-WB編解碼器的其它系統(tǒng)之間的互通。作為可適合速率集II的13.3千比特/秒全速率的最接近速率的12.65千比特/秒的AMR-WB比特率可用作CDMA寬帶VBR編解碼器與AMR-WB之間的公共速率,它將實現(xiàn)互通性而不需要碼變換(這降低語音質(zhì)量)。特別為CDMA VBR寬帶解決方案提供更低速率編碼類型,從而實現(xiàn)在速率集II框架中的有效操作。編解碼器則可在極少CDMA相關(guān)模式中采用全速率工作,但具有采用AMR-WB編解碼器實現(xiàn)與系統(tǒng)的互通性的模式。
根據(jù)本發(fā)明的實施例的編碼方法在表1中概述,并且一般稱作編碼類型。
表1.用于說明性實施例中、具有相應(yīng)比特率的編碼類型。
全速率(FR)編碼類型基于12.65千比特/秒的AMR-WB標(biāo)準(zhǔn)編解碼器。AMR-WB編解碼器的12.65千比特/秒速率的使用實現(xiàn)了能夠與采用AMR-WB編解碼器標(biāo)準(zhǔn)的其它系統(tǒng)互通的CDMA系統(tǒng)的可變比特率編解碼器的設(shè)計。每幀附加13位被添加以適合CDMA速率集II的13.3千比特/秒全速率。這些位用于在擦除幀的情況下提高編解碼器的健壯性,以及實質(zhì)上區(qū)別開普通FR與可互通FR編碼類型(它們在可互通FR中未使用)。FR編碼類型基于對一般寬帶語音信號優(yōu)化的代數(shù)碼激勵線性預(yù)測(ACELP)模型。它采用16kHz的抽樣頻率對20ms語音幀進(jìn)行操作。在進(jìn)一步處理之前,輸入信號下降抽樣到12.8kHz抽樣頻率并進(jìn)行預(yù)處理。LP濾波器參數(shù)采用46位每幀編碼一次。然后,該幀被分為四個子幀,其中,自適應(yīng)及固定碼本索引和增益每個子幀編碼一次。固定碼本采用代數(shù)碼本結(jié)構(gòu)來構(gòu)造,其中子幀中的64個位置被分為交織位置的4個軌道,以及2個帶符號脈沖放置在各軌道中。每個軌道兩個脈沖采用9位來編碼,提供每子幀總共36位。關(guān)于AMR-WB的更詳細(xì)情況可見于參考文獻(xiàn)[1]。FR編碼類型的位分配如表2所示。
表2.根據(jù)12.65千比特/秒的AMR-WB標(biāo)準(zhǔn)的普通和可互通全速率CDMA2000速率集II的位分配。
在穩(wěn)定濁音幀的情況下,使用半速率濁音編碼。半速率濁音位分配由表3給出。由于要在此通信模式中編碼的幀在特征上極有周期性,因此例如與瞬態(tài)幀相比,充分低的比特率足夠保持良好主觀質(zhì)量。使用信號修改,它允許每20ms幀僅用九位的延遲信息的有效編碼,為其它信號編碼參數(shù)節(jié)省了相當(dāng)一部分位預(yù)算。在信號修改中,迫使信號跟隨可以每幀9位傳送的特定音調(diào)曲線。長期預(yù)測的良好性能允許每5ms子幀僅使用12位用于固定碼本激勵,而沒有損害主觀語音質(zhì)量。固定碼本是代數(shù)碼本,包括各具有一個脈沖的兩個軌道,而每個軌道具有32個可能的位置。
表3.根據(jù)CDMA2000速率集II的半速率普通、濁音、清音的位分配。
在清音幀的情況下,沒有使用自適應(yīng)碼本(或音調(diào)碼本)。13位高斯碼本用于各子幀,其中,碼本增益采用每子幀6位進(jìn)行編碼。要注意,在平均比特率需要進(jìn)一步減小的情況下,清音四分之一速率可用于穩(wěn)定清音幀的情況。
普通半速率模式用于低能量段。這個普通HR模式也可用于最大半速率操作,稍后將進(jìn)行說明。普通HR的位分配如上表3所示。
例如,對于不同HR編碼器的分類信息,在普通HR的情況下,1位用于表明該幀是普通HR還是其它HR。在清音HR的情況下,2位用于分類第一位表明幀不是普通HR,以及第二位表明它是清音HR而不是濁音HR或者可互通HR(稍后進(jìn)行說明)。在濁音HR的情況下,使用3位前2位表明幀不是普通或清音HR,第三位表明幀是清音還是可互通HR。
在經(jīng)濟(jì)模式中,大部分清音幀可采用清音QR編碼器來編碼。在這種情況下,高斯碼本索引隨機(jī)產(chǎn)生,并且每子幀僅采用5位來對增益編碼。另外,LP濾波器系數(shù)采用較低比特率來量化。1位用于區(qū)分兩個四分之一速率編碼類型清音QR和CNG QR。清音編碼類型的位分配如表6所示。
可互通HR編碼類型允許處理以下一些情況CDMA系統(tǒng)對特定幀強(qiáng)制實行HR作為最大速率,而該幀已經(jīng)分類為全速率。通過在幀已經(jīng)被編碼為全速率幀之后丟棄固定碼本索引,從全速率編碼器直接得出可互通HR(表4)。在解碼器側(cè),可隨機(jī)產(chǎn)生固定碼本索引,解碼器將以好像是全速率的方式工作。這種設(shè)計的優(yōu)點在于,它使CDMA系統(tǒng)與采用AMR-WB標(biāo)準(zhǔn)的其它系統(tǒng)(例如移動GSM系統(tǒng)或W-CDMA第三代無線系統(tǒng))之間的無匯接操作過程中強(qiáng)制實行的半速率模式的影響最小。如前面所述,可互通FR編碼類型或CNG QR用于采用AMR-WB的無匯接操作(TFO)。在從CDMA2000到采用AMR-WB編解碼器的系統(tǒng)的方向的鏈路中,當(dāng)復(fù)用子層表明半速率模式的請求時,VMR-WB編解碼器將采用可互通HR編碼類型。在系統(tǒng)接口,當(dāng)接收可互通HR幀時,隨機(jī)產(chǎn)生的代數(shù)碼本索引被添加到比特流中,從而輸出12.65千比特/秒速率。接收機(jī)側(cè)的AMR-WB解碼器將它解釋為普通12.65千比特/秒幀。在另一個方向、即從采用AMR-WB編解碼器的系統(tǒng)到CDMA2000的鏈路中,如果在系統(tǒng)接口接收到半速率請求,則丟棄代數(shù)碼本索引,并添加表明可互通HR幀類型的模式位。CDMA2000側(cè)的解碼器將作為可互通HR編碼類型工作,這是VMR-WB編碼解決方案的組成部分。沒有可互通HR,則強(qiáng)迫實行的半速率模式將被解釋為幀擦除。
舒適噪聲生成(CNG)技術(shù)用于不活動語音幀的處理。在CDMA系統(tǒng)中工作時,CNG八分之一速率(ER)編碼類型用來對不活動語音幀編碼。在要求與AMR-WB語音編碼標(biāo)準(zhǔn)互通的呼叫中,無法一直使用CNG ER,因為其比特率低于在AMR-WB中為CNG解碼器傳送更新信息所需的比特率[3]。在這種情況下,采用CNG QR。但是,AMR-WB編解碼器通常在不連續(xù)傳輸模式(DTX)中工作。在不連續(xù)傳輸過程中,背景噪聲信息沒有每幀被更新。通常8個連續(xù)不活動語音幀中只有一個幀被傳送。更新幀稱作靜寂描述符(SID)[4]。DTX操作沒有用于對每幀編碼的CDMA系統(tǒng)中。因此,只有SID幀需要在CDMA側(cè)采用CNG QR來編碼,剩余的幀仍然可采用CNG ER來編碼,以便在它們未被AMR-WB對方使用時降低ADR。在CNG編碼中,只有LP濾波器參數(shù)和增益才每幀編碼一次。CNG QR的位分配在表4中給出,以及CNG ER的位分配在表5中給出。
表4.清音QR和CNG QR編碼類型的位分配
表5.CNG ER的位分配
高級模式中的信號分類和速率選擇圖5中說明根據(jù)本發(fā)明的第二方面的第二說明性實施例對聲音信號進(jìn)行數(shù)字編碼的方法400。要注意,方法400是方法100在高級模式中的特定應(yīng)用,在給定可用比特率時提供最大合成語音質(zhì)量(應(yīng)當(dāng)注意,系統(tǒng)限制特定幀的最大可用速率的情況將在單獨的小節(jié)中描述)。因此,大部分活動語音幀以全速率、即13.3千比特/秒來編碼。
與圖2所述的方法100相似,語音活動檢測器(VAD)區(qū)分活動和不活動語音幀(步驟102)。VAD算法對于所有工作模式可以相同。如果檢測到不活動語音幀(背景噪聲信號),則分類方法停止,根據(jù)CDMA速率集II,該幀采用CNG ER編碼類型以1.0千比特/秒來編碼(步驟402)。如果檢測到活動語音幀,則該幀經(jīng)過專用于區(qū)分清音幀的第二分類器(步驟404)。由于高級模式針對最佳可能質(zhì)量,因此清音幀區(qū)分極為嚴(yán)格,僅選擇高度穩(wěn)定的清音幀。清音分類規(guī)則和判定門限如以上所示。如果第二分類器把幀分類為清音語音信號,則分類方法停止,以及該幀采用為清音信號優(yōu)化的清音HR編碼類型來編碼(根據(jù)CDMA速率集II為6.2千比特/秒)(步驟408)。其它所有幀根據(jù)12.65千比特/秒的AMR-WB標(biāo)準(zhǔn)采用普通FR編碼類型來處理(步驟406)。
標(biāo)準(zhǔn)模式中的信號分類和速率選擇圖6中說明根據(jù)本發(fā)明的第二方面的第三說明性實施例對聲音信號進(jìn)行數(shù)字編碼的方法500。方法500允許語音信號的分類及其在標(biāo)準(zhǔn)模式中的編碼。
在步驟102,VAD區(qū)分活動和不活動語音幀。如果檢測到不活動語音幀,則分類方法停止,以及該幀編碼為CNG ER幀(步驟510)。如果檢測到活動語音幀,則該幀經(jīng)過專用于區(qū)分清音幀的第二級分類器(步驟404)。清音分類規(guī)則和判定門限如以上所述。如果第二級分類器把幀分類為清音語音信號,則分類方法停止,以及該幀采用清音HR編碼類型來編碼(步驟508)。否則,語音幀被傳遞到“穩(wěn)定濁音”分類模塊(步驟502)。濁音幀的區(qū)分是如上所述的信號修改算法的固有特征。如果幀適合信號修改,則它被分類為穩(wěn)定濁音幀,以及在模塊中采用為穩(wěn)定濁音信號優(yōu)化的濁音HR編碼類型來編碼(步驟506)(根據(jù)CDMA速率集II為6.2千比特/秒)。否則,幀很可能包含不穩(wěn)定語音段,例如濁音開始或快速發(fā)展的濁音語音信號。這些幀通常要求高比特率來保持良好的主觀質(zhì)量。但是,如果幀的能量低于某個門限,則這些幀可采用普通HR編碼類型來編碼。因此,如果在步驟512,第四級分類器檢測到低能量信號,則該幀采用普通HR來編碼(步驟514)。
否則,語音幀被編碼為普通FR幀(根據(jù)CDMA速率集II為13.3千比特/秒)(步驟504)。
經(jīng)濟(jì)模式中的信號分類和速率選擇圖6中說明根據(jù)本發(fā)明的第一方面的第四說明性實施例對聲音信號進(jìn)行數(shù)字編碼的方法600。作為四級分類方法的方法600允許語音信號的分類及其在經(jīng)濟(jì)模式中的編碼。
經(jīng)濟(jì)模式允許最大系統(tǒng)容量,但仍然產(chǎn)生優(yōu)質(zhì)寬帶語音。速率確定邏輯與標(biāo)準(zhǔn)模式相似,但是另外還使用了清音QR編碼類型,并且普通FR的使用被減少。
首先,在步驟102,VAD區(qū)分活動和不活動語音幀。如果檢測到不活動語音幀,則分類方法停止,以及該幀編碼為CNG ER幀(步驟402)。如果檢測到活動語音幀,則該幀經(jīng)過專用于區(qū)分所有清音幀的第二分類器(步驟106)。清音分類規(guī)則和判定門限如以上所述。如果第二分類器把幀分類為清音語音信號,則語音幀進(jìn)入第一個第三級分類器(步驟602)。第三級分類器采用上述規(guī)則檢查該幀是否處于濁音-清音轉(zhuǎn)變中。具體來說,此第三級分類器測試最后幀是否為背景噪聲幀的清音,以及是否在幀的結(jié)尾能量集中于高頻,并且在預(yù)見中沒有檢測到可能的濁音開始。如上所述,最后兩個條件作為下式來檢測(rx(2)<th12)AND(etilt(1)<th13),其中th12=0.73,th13=3,其中rx(2)為預(yù)見中的相關(guān)性,以及etilt(1)是跨越幀的結(jié)尾和預(yù)見的第二頻譜分析中的斜移。
如果幀包含濁音-清音轉(zhuǎn)變,則該幀在步驟508采用清音HR編碼類型來編碼。否則,語音幀采用清音QR編碼類型來編碼(步驟604)。沒有分類為清音的幀被傳遞到“穩(wěn)定濁音”分類模塊,它是第二個第三級分類器(步驟110)。濁音幀的區(qū)分是如前面所述的信號修改算法的固有特征。如果幀適合信號修改,則它被分類為穩(wěn)定濁音幀,并在步驟506中采用濁音HR來編碼。與標(biāo)準(zhǔn)模式相似,測試剩余的幀(沒有分類為清音或穩(wěn)定濁音)以找到低能量內(nèi)容。如果在步驟512檢測到低能量信號,則該幀在步驟514采用普通HR來編碼。否則,語音幀被編碼為普通FR幀(根據(jù)CDMA速率集II為13.3千比特/秒)(步驟504)。
可互通模式中的信號分類和速率選擇圖8中說明根據(jù)本發(fā)明的第二方面的第五說明性實施例對聲音信號進(jìn)行數(shù)字編碼的方法700。方法700允許語音信號的分類以及在可互通模式中的編碼。
可互通模式允許CDMA系統(tǒng)與采用12.65千比特/秒(或更低速率)的AMR-WB標(biāo)準(zhǔn)的其它系統(tǒng)之間的無匯接操作。在沒有CDMA系統(tǒng)施加的速率限制時,只采用可互通FR和舒適噪聲發(fā)生器。
首先,在步驟102,VAD區(qū)分活動和不活動語音幀。如果檢測到不活動語音幀,則在步驟702判定該幀是否應(yīng)當(dāng)編碼為SID幀。如前面所述,SID幀用于在DTX操作[4]期間在AMR-WB側(cè)更新CNG參數(shù)。8個不活動語音幀中通常只有一個在靜寂周期被編碼。但是,在活動語音段之后,必須在第4幀已經(jīng)發(fā)送SID更新(關(guān)于更詳細(xì)情況,參見參考文獻(xiàn)[4])。由于ER不足以對SID幀編碼,因此SID幀在步驟704采用CNG QR來編碼。SID不活動幀之外的其它幀在步驟402中采用CNG ER來編碼。在無匯接操作(TFO)中從CDMA VMR-WB到AMR-WB的方向的鏈路中,CNG ER幀在系統(tǒng)接口被丟棄,因為AMR-WB不利用它們。在相反方向,那些幀不可用(AMR-WB僅產(chǎn)生SID幀),并被聲明為幀擦除。所有活動語音幀采用實質(zhì)上為12.65千比特/秒的AMR-WB編碼標(biāo)準(zhǔn)的可互通FR編碼類型來處理(步驟706)。
半速率最大操作中的信號分類和速率選擇圖9中說明根據(jù)本發(fā)明的第二方面的第六說明性實施例對聲音信號進(jìn)行數(shù)字編碼的方法800。方法800允許語音信號的分類以及在高級和標(biāo)準(zhǔn)模式的半速率最大操作中的編碼。
如上所述,CDMA系統(tǒng)對特定幀強(qiáng)制實行最大比特率。系統(tǒng)強(qiáng)制實行的最大比特率往往限制為HR。但是,系統(tǒng)也可強(qiáng)制實行更低速率。
按照傳統(tǒng)方式在正常操作期間分類為FR的所有活動語音幀這時采用HR編碼類型來編碼。然后,分類和速率選擇機(jī)制采用濁音HR對所有這類濁音幀分類(在步驟506編碼),以及采用清音HR對所有這類清音幀分類(在步驟408編碼)。在正常操作期間分類為FR的所有剩余的幀在步驟514采用普通HR編碼類型來編碼,除了在采用可互通HR編碼類型的可互通模式中之外(圖10的步驟908)。
從圖9中可以看到,信號分類和編碼機(jī)制與標(biāo)準(zhǔn)模式中的正常操作相似。但是,普通HR(步驟514)用來代替普通FR編碼(圖5的步驟406),以及用來區(qū)分清音和濁音幀的門限更為寬松地允許盡可能多的幀采用清音HR和濁音HR編碼類型來編碼?;旧?,在高級或標(biāo)準(zhǔn)模式半速率最大操作的情況下采用經(jīng)濟(jì)模式的門限。
圖10中說明根據(jù)本發(fā)明的第一方面的第七說明性實施例對聲音信號進(jìn)行數(shù)字編碼的方法900。方法900允許語音信號的分類以及在經(jīng)濟(jì)模式的半速率最大操作中編碼。圖10的方法900與圖7的方法600相似,但采用普通FR編碼的所有幀這時采用普通HR來編碼(不需要半速率最大操作中的低能量幀分類)。圖11中說明根據(jù)本發(fā)明的第一方面的第八說明性實施例對聲音信號進(jìn)行數(shù)字編碼的方法920。方法920允許語音信號的分類以及半速率最大操作期間在可互通模式中的速率確定。由于方法920與圖8的方法700極為相似,因此這里只描述這兩種方法之間的差異。
在方法920的情況下,沒有信號相關(guān)的編碼類型(清音HR和濁音HR)可以使用,因為它們不是AMR-WB對方可理解的,并且沒有普通HR編碼可以使用。因此,半速率最大操作中的所有活動語音幀采用可互通HR編碼類型來編碼。
如果系統(tǒng)強(qiáng)制實行比HR更低的最大比特率,則沒有提供通用編碼類型以處理那些情況,主要是因為那些情況極罕見,并且這類幀可聲明為幀擦除。但是,如果最大比特率由系統(tǒng)限制為QR,并且信號被分類為清音,則可采用清音QR。但是,這僅在CDMA相關(guān)模式(高級、標(biāo)準(zhǔn)、經(jīng)濟(jì))中才是可行的,因為AMR-WB對方無法解釋QR幀。
AMR-WB與速率集II VMR-WB編解碼器之間的有效互通現(xiàn)在參照圖12、根據(jù)本發(fā)明的第四方面的說明性實施例來描述為AMR-WB與VMR-WB編解碼器之間的互通對語音信號編碼的方法1000。
更明確地說,方法1000實現(xiàn)AMR-WB標(biāo)準(zhǔn)編解碼器與例如設(shè)計用于CDMA2000系統(tǒng)的源控制VBR編解碼器(這里稱作VMR-WB編解碼器)之間的無匯接操作。在方法1000所允許的可互通模式中,VMR-WB編解碼器利用可由AMR-WB編解碼器解釋的、并且仍然在例如CDMA編解碼器中使用的速率集II比特率的范圍內(nèi)的比特率。
當(dāng)速率集II的比特率為FR 13.3、HR 6.2、QR 2.7以及ER 1.0千比特/秒時,可使用的AMR-WB編解碼器比特率在全速率中為12.65、8.85或6.6,以及在四分之一速率中為1.75千比特/秒的SID幀。12.65千比特/秒的AMR-WB是最接近CDMA2000 FR 13.3千比特/秒的比特率,并且在此說明性實施例中用作FR編解碼器。但是,當(dāng)AMR-WB用于GSM系統(tǒng)時,鏈路適配算法可能將比特率降低到8.85或6.6千比特/秒,取決于信道條件(以便將更多位分配給信道編碼)。因此,AMR-WB的8.85和6.6千比特/秒比特率可以是可互通模式的組成部分,并且可在GSM系統(tǒng)決定使用這些比特率中任一個時在CDMA2000接收機(jī)上使用。在圖12的說明性實施例中,采用三種I-FR,對應(yīng)于12.65、8.85和6.6千比特/秒的AMR-WB速率,分別表示為I-FR-12、I-FR-8以及I-FR-6。在I-FR-12中,有13個未使用位。前8位用來區(qū)別I-FR幀和普通FR幀(采用附加位來改進(jìn)幀擦除隱藏)。其它5位用來發(fā)出信號通知三種I-FR幀。在普通操作中,使用I-FR-12,以及如果GSM鏈路適配要求,則使用更低的速率。
在CDMA2000系統(tǒng)中,語音編解碼器的平均數(shù)據(jù)率直接與系統(tǒng)容量相關(guān)。因此,以語音質(zhì)量的最小損失獲得可能的最低ADR變得極為重要。AMR-WB編解碼器主要設(shè)計用于GSM蜂窩系統(tǒng)以及基于GSM演進(jìn)的第三代無線系統(tǒng)。因此,與專門設(shè)計用于CDMA2000系統(tǒng)的VBR編解碼器相比,CDMA2000系統(tǒng)的可互通模式可產(chǎn)生更高的ADR。主要原因在于-AMR-WB中缺少6.2千比特/秒的半速率模式;-AMR-WB中的SID的比特率為1.75千比特/秒,它不適合速率集II八分之一速率(ER);-AMR-WB的VAD/DTX操作采用釋放延遲的若干幀(編碼為語音幀),以便計算SID_FIRST幀。
為AMR-WB與VMR-WB編解碼器之間的互通對語音信號編碼的方法使得可以克服上述限制,并且產(chǎn)生可互通模式的減小的ADR,使得它相當(dāng)于具有相似語音質(zhì)量的CDMA2000相關(guān)模式。下面針對操作的兩個方向來描述這些方法VMR-WB編碼--AMR-WB解碼以及AMR-WB編碼--VMR-WB解碼。
VMR-WB編碼--AMR-WB解碼在CDMA VMR-WB編解碼器側(cè)編碼時,不要求AMR-WB標(biāo)準(zhǔn)的VAD/DTX/CNG操作。VAD對VMR-WB編解碼器是適當(dāng)?shù)?,并且以與在其它CDMA2000相關(guān)模式中完全相同的方式工作,也就是說,所使用的VAD釋放延遲正好與不丟失清音停頓所需的長度一樣,并且每當(dāng)VAD_flag=0(分類的背景噪聲)時,CNG編碼正在工作。
VAD/CNG操作盡可能地接近AMR DTX操作。AMR-WB編解碼器中的VAD/DTX/CNG操作按照如下方式工作。在活動語音周期之后的七個背景噪聲幀被編碼為語音幀,但VAD位設(shè)置為零(DTX釋放延遲)。然后發(fā)送SID_FIRST幀。在SID_FIRST幀中,信號沒有被編碼,以及CNG參數(shù)在解碼器上從DTX釋放延遲(7個語音幀)中導(dǎo)出。要注意,AMR-WB在短于24幀的活動語音周期之后沒有采用DTX釋放延遲,以便減少DTX釋放延遲開銷。在SID_FIRST幀之后,兩個幀作為NO_DATA幀發(fā)送(DTX),之后跟隨SID_UPDATE幀(1.75千比特/秒)。此后,7個NO_DATA幀被發(fā)送,之后跟隨SID_UPDATE幀,依此類推。這種情況繼續(xù)進(jìn)行,直至檢測到活動語音幀(VAD_flag=1)。[4]在圖12的說明性實施例中,VMR-WB編解碼器中的VAD沒有使用DTX釋放延遲?;顒诱Z音周期之后的第一背景噪聲幀以1.75千比特/秒來編碼,并以QR發(fā)送,然后有2個幀以1千比特/秒編碼(八分之一速率),以及1.75千比特/秒的另一幀以QR發(fā)送。此后,7個幀以ER發(fā)送,之后跟隨一個QR幀,依此類推。這大致對應(yīng)于AMR-WB DTX操作,但沒有使用DTX釋放延遲,以便減小ADR。
雖然此說明性實施例中所述的VMR-WB編解碼器中的VAD/CNG操作接近AMR-WB DTX操作,但可采用可進(jìn)一步減小ADR的其它方法。例如,QR CNG幀可更少頻度地發(fā)送,例如每12幀一次。此外,噪聲變化可在編碼器上評估,以及QR CNG幀可以僅當(dāng)噪聲特性變化時才發(fā)送(不是每8或12幀一次)。
為了克服AMR-WB編碼器中不存在6.2千比特/秒的半速率的限制,提供可互通半速率(I-HR),它包括把幀編碼為全速率幀,然后丟棄與代數(shù)碼本索引對應(yīng)的位(在12.65千比特/秒的AMR-WB中每幀144位)。這將比特率減小到5.45千比特/秒,它適合CDMA2000速率集II半速率。在解碼之前,已丟棄的位可隨機(jī)(即采用隨機(jī)發(fā)生器)或者偽隨機(jī)(即通過重復(fù)現(xiàn)有比特流的部分)產(chǎn)生或者以某種預(yù)定方式產(chǎn)生。當(dāng)半空白-突發(fā)序列或半速率最大請求由CDMA2000系統(tǒng)發(fā)出時,可使用I-HR。這避免了聲明語音幀為丟失幀。I-HR也可由VMR-WB編解碼器在可互通模式中用來對清音幀或者對合成語音質(zhì)量的代數(shù)碼本成分最小的幀進(jìn)行編碼。這產(chǎn)生減小的ADR。應(yīng)當(dāng)注意,在這種情況下,編碼器可選擇要在I-HR模式中編碼的幀,從而使這些幀的使用導(dǎo)致的語音質(zhì)量下降最小。
如圖12所示,在VMR-WB編碼/AMR-WB解碼的方向,語音幀采用VMR-WB編碼器1002的可互通模式來編碼,它輸出以下可能的比特率其中之一對于活動語音幀,I-FR(I-FR-12、I-FR-8或者I-FR-6);在半空白-突發(fā)序列信令的情況下或者作為一個選項對某些清音幀或者對合成語音質(zhì)量的代數(shù)碼本成分最小的幀進(jìn)行編碼的情況下,I-HR;QR CNG,對相干背景噪聲幀編碼(如上所述八個背景噪聲幀中的一個,或者當(dāng)檢測到噪聲特性的變化時);以及對于大部分背景噪聲幀(沒有編碼為QR CNG幀的背景噪聲幀),ER CNG幀。在網(wǎng)關(guān)形式的系統(tǒng)接口,執(zhí)行以下操作首先,測試由網(wǎng)關(guān)從VMR-WB編碼器接收的幀的有效性。如果它不是有效的可互通模式VMR-WB幀,則作為擦除發(fā)送(語音丟失類型的AMR-WB)。例如,如果出現(xiàn)下列條件之一,則認(rèn)為幀是無效的-如果接收到全零幀(在空白和突發(fā)序列的情況下由網(wǎng)絡(luò)使用),則該幀被擦除;-在FR幀的情況下,如果13個前置位沒有對應(yīng)I-FR-12、I-FR-8或I-FR-6,或者如果未使用位不是零,則該幀被擦除。另外,I-FR將VAD位設(shè)置為1,因此,如果所接收幀的VAD位不是1,則該幀被擦除;-在HR幀的情況下,與FR相似,如果前置位沒有對應(yīng)I-HR-12、I-HR-8或I-HR-6,或者如果未使用位不是零,則該幀被擦除。對于VAD位相同;-在QR幀的情況下,如果前置位沒有對應(yīng)于CNG QR,則該幀被擦除。此外,VMR-WB編碼器將SID_UPDATE位設(shè)置為1,以及將模式請求位設(shè)置為0010。如果情況不是這樣,則該幀被擦除;-在ER幀的情況下,如果接收到全一的幀,則該幀被擦除。此外,VMR-WB編碼器采用全零的ISF位模式(前14位)來發(fā)出空白幀信號通知。如果接收到這個模式,則該幀被擦除。
如果所接收幀為有效的可互通模式幀,則執(zhí)行以下操作-I-FR幀作為12.65、8.8或6.6千比特/秒幀被發(fā)送到AMR-WB解碼器,取決于I-FR類型;-QR CNG幀作為SID_UPDATE幀被發(fā)送到AMR-WB解碼器;-ER CNG幀作為NO_DATA幀被發(fā)送到AMR-WB解碼器;以及-通過在步驟1010產(chǎn)生丟失代數(shù)碼本索引,I-HR幀被轉(zhuǎn)換為12.65、8.85或6.6千比特/秒幀(取決于幀類型)。這些索引可隨機(jī)產(chǎn)生,或者通過重復(fù)現(xiàn)有編碼比特的部分產(chǎn)生,或者以某種預(yù)定方式產(chǎn)生。它還丟棄表示I-HR類型的位(用來區(qū)分VMR-WB編解碼器中的不同半速率類型的位)。
AMR-WB編碼--VMR-WB解碼在這個方向,方法1000由AMR-WB DTX操作限制。但是,在活動語音編碼過程中,在比特流中存在一個表明VAD_flag的位(第一數(shù)據(jù)位)(0用于DTX釋放延遲周期,1用于活動語音)。因此,網(wǎng)關(guān)上的操作可概述如下
-SID_UPDATE幀作為QR CNG幀被轉(zhuǎn)發(fā);-SID_FIRST幀和NO_DATA幀作為ER空白幀被轉(zhuǎn)發(fā);-擦除幀(語音丟失)作為ER擦除幀被轉(zhuǎn)發(fā);-在活動語音之后具有VAD_flag=0的第一幀(在步驟1012中檢驗)作為FR幀保持,但具有VAD_flag=0的后續(xù)幀則作為ER空白幀被轉(zhuǎn)發(fā);-如果網(wǎng)關(guān)在步驟1014接收到對半速率最大操作的請求(幀級信令),同時還接收到FR幀,則該幀被轉(zhuǎn)換為I-HR幀。這包括丟棄與代數(shù)碼本索引對應(yīng)的位以及添加表明I-HR幀類型的模式位。
在此說明性實施例中,在ER空白幀中,前兩個字節(jié)設(shè)置為0×00,以及在ER擦除幀中,前兩個字節(jié)設(shè)置為0×04?;旧?,前14位對應(yīng)于ISF索引,以及保留兩個模式用于表明空白幀(全零)或擦除幀(除第14位設(shè)置為1,其它全零,在十六進(jìn)制中為0×04)。在VMR-WB解碼器1004,當(dāng)檢測到空白ER幀時,它們由CNG解碼器采用最后接收的良好CNG參數(shù)來處理。一個例外是第一所接收的空白ER幀的情況(CNG解碼器初始化;仍然沒有舊CNG參數(shù)是已知的)。由于具有VAD_flag=0的第一幀作為FR傳送,因此來自這個幀的參數(shù)以及最后CNG參數(shù)用來對CNG操作初始化。在ER擦除幀的情況下,解碼器采用對已擦除幀使用的隱藏過程。
注意,在圖12所示的所述實施例中,12.65千比特/秒用于FR幀。但是,根據(jù)在不良信道條件的情況下要求使用更低速率的鏈路適配算法,同樣可使用8.85和6.6千比特/秒。例如,為了CDMA2000與GSM系統(tǒng)之間的互通,GSM系統(tǒng)中的鏈路適配模塊在不良信道條件的情況下可能決定把比特率降低到8.85或6.6千比特/秒。在這種情況下,這些更低的比特率需要包含在CDMA VMR-WB解決方案中。
以速率集I工作的CDMA VMR-WB編解碼器在速率集I中,所用比特率為對于FR,8.55千比特/秒;對于HR,4.0千比特/秒;對于QR,2.0千比特/秒;以及對于ER,800比特/秒。在這種情況下,只有6.6千比特/秒的AMR-WB編解碼器可在FR使用,以及CNG幀可以在QR(SID_UPDATE)或者其它背景噪聲幀的ER(與上述速率集II操作相似)來發(fā)送。為了克服6.6千比特/秒速率的低質(zhì)量的限制,提供8.55千比特/秒速率,它可與AMR-WB編解碼器的8.85千比特/秒比特率互通。它將被稱作速率集I可互通FR(I-FR-I)。8.85千比特/秒速率的位分配以及I-FR-I的兩種可能配置如表6所示。
表6.速率集I配置中的I-FR-I編碼類型的位分配。
在I-FR-I中,VAD_flag位和其它5位被丟棄,從而得到8.55千比特/秒速率。已丟棄的位可在解碼器或系統(tǒng)接口方便地引入,使得可采用8.85千比特/秒解碼器。若干方法可用于以對于語音質(zhì)量產(chǎn)生極小影響的方式來丟棄5位。在表6所示的配置1中,從線性預(yù)測(LP)參數(shù)量化中丟棄5位。在AMR-WB中,46位用來對ISP(導(dǎo)抗譜對)域中的LP參數(shù)量化(采用平均消除及移動平均預(yù)測)。16維ISP剩余矢量(在預(yù)測之后)采用分割多級矢量量化進(jìn)行量化。矢量分別被分割為維數(shù)9和7的2個子矢量。2個子矢量分兩級進(jìn)行量化。在第一級,各子矢量采用8位來量化。量化誤差矢量在第二級分別分割為3和2個子矢量。第二級子矢量是3、3、3、3和4維的,并分別采用6、7、7、5和5位來量化。在建議的I-FR-I模式中,最后的第二級子矢量的5位被丟棄。它們具有最小影響,因為它們對應(yīng)于頻譜的高頻部分。實際上通過將最后的第二級子矢量的索引固定為不需要被傳送的某個值,來進(jìn)行丟棄這5位的步驟。在VMR-WB編碼器的量化過程中,方便地考慮這5位索引是固定的這一事實。固定索引在系統(tǒng)接口(即在VMR-WB編碼器/AMR-WB解碼器操作過程中)或者在解碼器(即在AMR-WB編碼器/VMR-WB解碼器操作過程中)被添加。這樣,8.85千比特/秒的AMR-WB解碼器用來對速率集II-FR幀解碼。
在所述實施例的第二配置中,從代數(shù)碼本索引中丟棄5位。在8.85千比特/秒的AMR-WB中,幀被分為四個64-樣本子幀。代數(shù)激勵碼本包括將子幀分為16個位置的4個軌道以及在各軌道中放置帶符號的脈沖。每個脈沖采用5位來編碼4位用于位置,以及1位用于符號。因此,對于各子幀,使用20位代數(shù)碼本。丟棄五位的一種方式是從某個子幀中丟棄一個脈沖。例如,第4個子幀的第4個位置-軌道中的第4個脈沖。在VMR-WB編碼器中,這個脈沖可在碼本搜索過程中固定為預(yù)定值(位置和符號)。然后,這個已知的脈沖索引可在系統(tǒng)接口添加,并發(fā)送給AMR-WB解碼器。在另一個方向,這個脈沖的索引在系統(tǒng)接口被丟棄,以及在CDMA VMR-WB解碼器,脈沖索引可隨機(jī)產(chǎn)生。其它方法也可用來丟棄這些位。
為了處理CDMA2000系統(tǒng)的半空白-突發(fā)序列或半速率最大請求,可互通HR模式還提供用于速率集I編解碼器(I-HR-I)。與速率集II的情況相似,在AMR-WB編碼/VMR-WB解碼操作過程中,某些位必須在系統(tǒng)接口丟棄,或者在VMR-WB編碼/AMR-WB解碼過程中,在系統(tǒng)接口產(chǎn)生。8.85千比特/秒速率的位分配以及I-HR-I的示例配置如表7所示。
表7.速率集I配置中的I-HR-I編碼類型的示例位分配。
在建議的I-HR-I模式中,LP濾波器參數(shù)的量化中的最后2個第二級子矢量的10位在系統(tǒng)接口以類似于上述速率集II的方式被丟棄或產(chǎn)生。音調(diào)延遲僅采用整數(shù)分辨率以及采用四個子幀中的7、3、7、3位的位分配來編碼。這在AMR-WB編碼器VMR-WB解碼器操作中轉(zhuǎn)換為在系統(tǒng)接口丟棄音調(diào)的分?jǐn)?shù)部分,以及對第2和第4子幀將差分延遲剪取到3位。代數(shù)碼本索引共同被丟棄,與速率集II的I-HR解決方案中相似。信號能量信息保持不變。
速率集I可互通模式的操作的其余部分類似于以上在圖12中說明的速率集II模式的操作(根據(jù)VAD/DTX/CNG操作),本文不再詳細(xì)描述。
雖然上面已經(jīng)通過說明性實施例描述了本發(fā)明,但它可被修改,而沒有背離如所附權(quán)利要求定義的主題發(fā)明的精神和性質(zhì)。例如,雖然針對語音信號的編碼來描述本發(fā)明的說明性實施例,但應(yīng)當(dāng)記住,這些實施例也適用于除語音之外的聲音信號。
參考文獻(xiàn)[1]ITU-T建議G.722.2“采用自適應(yīng)多速率寬帶(AMR-WB)以大約16千比特/秒的語音的寬帶編碼”(Geneva,2002年)。
3GPP TS 26.190“AMR寬帶語音編解碼器;碼變換功能”(3GPP技術(shù)規(guī)范)。
3GPP TS 26.192“AMR寬帶語音編解碼器;舒適噪聲方面”(3GPP技術(shù)規(guī)范)。
3GPP TS 26.193“AMR寬帶語音編解碼器;源控制速率操作”(3GPP技術(shù)規(guī)范)。
M.Jelinek和F.Labonté“寬帶語音和音頻編碼的健壯信號/噪聲區(qū)分”(Proc.IEEE Workshop on Speech Coding,第151-153頁,Delavan,Wisconsin,USA,2000年9月)。
J.D.Johnston“采用感受噪聲標(biāo)準(zhǔn)的音頻信號的變換編碼”(IEEE Jour.On Selected Areas in Communications,vol.6,no.2,第314-323頁)。
3GPP2 C.S0030-0“寬帶擴(kuò)頻通信系統(tǒng)的可選模式聲碼器服務(wù)選項”(3GPP2技術(shù)規(guī)范)。
3GPP2 C.S0014-0“增強(qiáng)可變速率編解碼器(EVRC)”(3GPP2技術(shù)規(guī)范)。
TIA/EIA/IS-733“寬帶擴(kuò)頻通信系統(tǒng)的高速率語音服務(wù)選項17”(同樣是3GPP2技術(shù)規(guī)范C.S0020-0)。
權(quán)利要求
1.一種用于對聲音進(jìn)行數(shù)字編碼的方法,包括i)從所述聲音的抽樣形式提供信號幀;ii)確定所述信號幀是活動語音幀還是不活動語音幀;iii)如果所述信號幀為不活動語音幀,則采用背景噪聲低比特率編碼算法對所述信號幀編碼;iv)如果所述信號幀為活動語音幀,則確定所述活動語音幀是否為清音幀;v)如果所述信號幀為清音幀,則采用清音信號編碼算法對所述信號幀編碼;以及vi)如果所述信號幀不是清音幀,則確定所述信號幀是否為穩(wěn)定濁音幀;vii)如果所述信號幀為穩(wěn)定濁音幀,則采用穩(wěn)定濁音信號編碼算法對所述信號幀編碼;viii)如果所述信號幀不是清音幀而且所述信號幀不是穩(wěn)定濁音幀,則采用普通信號編碼算法對所述信號幀編碼。
2.如權(quán)利要求1所述的方法,其特征在于,所述背景噪聲低比特率編碼算法是從包括算法舒適噪聲生成(CNG)和不連續(xù)傳輸模式(DTX)的組中選取的。
3.如權(quán)利要求1所述的方法,其特征在于,在v)中,所述清音信號編碼算法為清音半速率編碼類型算法;在vii)中,所述穩(wěn)定濁音信號編碼算法為濁音半速率編碼類型算法;以及在viii)中,所述普通信號編碼算法是從包括普通全速率和普通半速率編碼類型算法的組中選取的;由此,所述已編碼聲音的所得合成語音質(zhì)量對于給定比特率被最大化。
4.如權(quán)利要求1所述的方法,其特征在于,在iii)中,所述背景噪聲低比特率編碼為八分之一速率CNG;v)所述清音信號編碼算法為清音半速率編碼類型算法;在vii)中,所述穩(wěn)定濁音信號編碼算法為濁音半速率編碼類型算法;所述方法還包括檢驗所述信號幀是否為低能量幀;如果所述信號幀是低能量幀,則采用普通半速率編碼類型算法對所述信號幀編碼;如果所述信號幀不是低能量幀,則采用普通全速率編碼類型算法對所述信號幀編碼;由此,所述已編碼聲音的所得合成語音質(zhì)量是對于有限比特率折衷的。
5.如權(quán)利要求1所述的方法,其特征在于,在iii)中,所述背景噪聲低比特率編碼為八分之一速率CNG;v)還包括確定所述信號幀是否處于濁音/清音轉(zhuǎn)變處;如果所述信號幀處于濁音/清音轉(zhuǎn)變處,則所述清音信號編碼算法為清音半速率編碼類型算法;如果所述信號幀不是處于濁音/清音轉(zhuǎn)變處,則所述清音信號編碼算法為清音四分之一速率編碼類型算法;在vii)中,所述穩(wěn)定濁音信號編碼算法為濁音半速率編碼類型算法;所述方法還包括在viii)中檢驗所述信號幀是否為低能量幀;如果所述信號幀是低能量幀,則采用普通半速率編碼類型算法對所述信號幀編碼;如果所述信號幀不是低能量幀,則采用普通全速率編碼類型算法對所述信號幀編碼;由此,所述已編碼聲音的所得合成語音質(zhì)量對于給定比特率允許最大系統(tǒng)容量。
6.如權(quán)利要求1所述的方法,其特征在于,在iii)中,所述背景噪聲低比特率編碼為八分之一速率CNG;所述普通語音編碼算法為普通半速率編碼類型算法;由此,所述方法允許在半速率最大過程中以高級或標(biāo)準(zhǔn)工作模式對所述信號幀編碼。
7.如權(quán)利要求1所述的方法,其特征在于,在iv)中,下列參數(shù)中的至少三個被用來對清音幀分類a)濁化量度(rx);b)頻譜斜移量度(et);c)所述信號幀中的能量變化(dE);以及d)所述信號幀的相對能量(Erel)。
8.如權(quán)利要求7所述的方法,其特征在于,所述頻譜斜移與所述信號幀的集中于低頻的能量與集中于高頻的能量之比成比例。
9.如權(quán)利要求8所述的方法,其特征在于,集中于低頻的所述能量和集中于高頻的所述能量按照感受臨界頻帶來計算。
10.如權(quán)利要求7所述的方法,其特征在于,rx被定義為r‾x=13(rx(0)+rx(1)+rx(2))]]>其中rx(0)、rx(1)和rx(2)分別是所述信號當(dāng)前幀的前一半的歸一化相關(guān)性、所述當(dāng)前幀的后一半的歸一化相關(guān)性以及所述信號幀之后的幀的歸一化相關(guān)性。
11.如權(quán)利要求10所述的方法,其特征在于,噪聲校正因子被添加到所述濁化量度中。
12.如權(quán)利要求7所述的方法,其特征在于,在所述高級模式中對所述聲音信號進(jìn)行數(shù)字編碼;在iv)中,每當(dāng)滿足下列條件時,所述信號幀被分類為清音幀(rx<th1)AND(et<th2)AND(dE<th3)其中th1、th2和th3為預(yù)定數(shù)值;在v)中所述信號幀被編碼為清音半速率。
13.如權(quán)利要求12所述的方法,其特征在于, 其中Ef=Et-Erel;Et=10log(Σi=019ECB(i)),dB]]>ECB(i)是所述信號幀中的每個臨界頻帶的平均能量;Ef=0.99Ef+0.01Et是所述信號幀中的長期平均幀能量,其中初始值Ef=45dB。
14.如權(quán)利要求7所述的方法,其特征在于,在所述標(biāo)準(zhǔn)模式中對所述聲音信號進(jìn)行數(shù)字編碼;在iv)中,每當(dāng)滿足下列條件時,所述信號幀被分類為清音幀(rx<th4)AND(et<th5)AND((dE<th6)OR(Erel<th7))其中th4、th5、th6和th7為預(yù)定數(shù)值;在v)中所述信號幀被編碼為清音半速率。
15.如權(quán)利要求14所述的方法,其特征在于,th4=0.695,th5=4,th6=40,以及th7=-14。
16.如權(quán)利要求7所述的方法,其特征在于,在所述經(jīng)濟(jì)模式中對所述聲音信號進(jìn)行數(shù)字編碼;在iv)中,每當(dāng)滿足下列條件時,所述信號幀被分類為清音幀(rx<th8)AND(et<th9)AND((dE<th10)OR(Erel<th11))其中th8、th9、th10和th11為預(yù)定數(shù)值;在v)中所述信號幀被編碼為清音半速率。
17.如權(quán)利要求16所述的方法,其特征在于,th8=0.695,th9=4,th10=60,以及th11=-14。
18.如權(quán)利要求7所述的方法,其特征在于,在所述經(jīng)濟(jì)模式中對所述聲音信號進(jìn)行數(shù)字編碼;在iv)中,每當(dāng)滿足下列條件時,所述信號幀被分類為清音幀(rx(2)<th12)AND(etilt(1)<th13)其中th12和th13為預(yù)定數(shù)值,rx(2)為預(yù)見幀中的歸一化相關(guān)性,以及etilt(1)為跨越所述信號幀的結(jié)尾和所述預(yù)見幀的頻譜分析中的斜移;在v)中所述信號幀被編碼為清音四分之一速率。
19.如權(quán)利要求18所述的方法,其特征在于,th12=0.73,th13=3。
20.如權(quán)利要求1所述的方法,其特征在于,從所述聲音的抽樣形式提供信號幀包括對所述聲音信號抽樣而產(chǎn)生所述信號幀。
21.如權(quán)利要求1所述的方法,其特征在于,vi)中的穩(wěn)定濁音信號分類結(jié)合信號修改方法來進(jìn)行。
22.如權(quán)利要求21所述的方法,其特征在于,所述信號修改方法涉及對所述信號幀中的長期預(yù)測的可得到性能進(jìn)行量化的多個指示符;所述修改方法包括檢驗任何所述指示符是否處于相應(yīng)預(yù)定允許極限之外;如果任何所述指示符處于所述相應(yīng)預(yù)定允許極限之外,則所述信號幀沒有被分類為穩(wěn)定濁音幀。
23.一種用于對聲音進(jìn)行數(shù)字編碼的方法,包括i)從所述聲音的抽樣形式提供信號幀;ii)確定所述信號幀是活動語音幀還是不活動語音幀;iii)如果所述信號幀為不活動語音幀,則采用背景噪聲低比特率編碼方案對所述信號幀編碼;iv)如果所述信號幀為活動語音幀,則確定所述活動語音幀是否為清音幀;v)如果所述信號幀為清音幀,則采用清音信號編碼算法對所述信號幀編碼;以及vi)如果所述信號幀不是清音幀,則采用普通語音編碼算法對所述信號幀編碼。
24.一種用于清音信號的分類的方法,其中,下列參數(shù)中的至少三個被用來對清音幀分類d)濁化量度(rx);e)頻譜斜移量度(et);f)所述信號幀中的能量變化(dE);以及g)所述信號幀的相對能量(Erel)。
25.如權(quán)利要求24所述的方法,其特征在于,所述頻譜斜移與所述信號幀的集中于低頻的能量與集中于高頻的能量之比成比例。
26.如權(quán)利要求25所述的方法,其特征在于,集中于低頻的所述能量和集中于高頻的所述能量按照感受臨界頻帶計算。
27.如權(quán)利要求24所述的方法,其特征在于,rx被定義為r‾x=13(rx(0)+rx(1)+rx(2))]]>其中rx(0)、rx(1)和rx(2)分別是所述信號當(dāng)前幀的前一半的歸一化相關(guān)性、所述當(dāng)前幀的后一半的歸一化相關(guān)性以及所述信號幀之后的幀的歸一化相關(guān)性。
28.如權(quán)利要求27所述的方法,其特征在于,噪聲校正因子被添加到所述濁化量度中。
29.如權(quán)利要求24所述的方法,其特征在于,在高級模式中對所述聲音信號進(jìn)行數(shù)字編碼;在iv)中,每當(dāng)滿足下列條件時,所述信號幀被分類為清音幀(rx<th1)AND(et<th2)AND(dE<th3),其中th1、th2和th3為預(yù)定數(shù)值;在v)中,所述信號幀被編碼為清音半速率。
30.如權(quán)利要求29所述的方法,其特征在于, 式中Ef=Et-Erel;Et=10log(Σi=019ECB(i)),dB]]>ECB(i)是所述信號幀中的每個臨界頻帶的平均能量;Ef=0.99Ef+0.01Et是所述信號幀中的長期平均幀能量,其中初始值Ef=45dB。
31.如權(quán)利要求24所述的方法,其特征在于,在標(biāo)準(zhǔn)模式中對所述聲音信號進(jìn)行數(shù)字編碼;在iv)中,每當(dāng)滿足下列條件時,所述信號幀被分類為清音幀(rx<th4)AND(et<th5)AND((dE<th6)OR(Erel<th7))其中th4、th5、th6和th7為預(yù)定數(shù)值;在v)中所述信號幀被編碼為清音半速率。
32.如權(quán)利要求31所述的方法,其特征在于,th4=0.695,th5=4,th6=40,以及th7=-14。
33.如權(quán)利要求24所述的方法,其特征在于,在經(jīng)濟(jì)模式中對所述聲音信號進(jìn)行數(shù)字編碼;在iv)中,每當(dāng)滿足下列條件時,所述信號幀被分類為清音幀(rx<th8)AND(et<th9)AND((dE<th10)OR(Erel<th11))其中th8、th9、th10和th11為預(yù)定數(shù)值;在v)中所述信號幀被編碼為清音半速率。
34.如權(quán)利要求33所述的方法,其特征在于,th8=0.695,th9=4,th10=60,以及th11=-14。
35.如權(quán)利要求24所述的方法,其特征在于,在經(jīng)濟(jì)模式中對所述聲音信號進(jìn)行數(shù)字編碼;在iv)中,每當(dāng)滿足下列條件時,所述信號幀被分類為清音幀(rx(2)<th12)AND(etilt(1)<th13)其中th12和th13為預(yù)定數(shù)值,rx(2)為預(yù)見幀中的歸一化相關(guān)性,以及etilt(1)為跨越所述信號幀的結(jié)尾和所述預(yù)見幀的頻譜分析中的斜移;在v)中所述信號幀被編碼為清音四分之一速率。
36.如權(quán)利要求35所述的方法,其特征在于,th12=0.73,th13=3。
37.一種用于對聲音信號進(jìn)行編碼的裝置,包括語音編碼器,用于接收表示所述聲音信號的數(shù)字化聲音信號;所述數(shù)字化聲音信號包含至少一個信號幀;所述語音編碼器包括第一級分類器,用于區(qū)分活動和不活動語音幀;舒適噪聲生成器,用于對不活動語音幀編碼;第二級分類器,用于區(qū)分濁音和清音幀;清音語音編碼器;第三級分類器,用于區(qū)分穩(wěn)定和不穩(wěn)定濁音幀;濁音語音優(yōu)化編碼器;以及普通語音編碼器;所述語音編碼器被配置用于輸出編碼參數(shù)的二進(jìn)制表示。
38.如權(quán)利要求37所述的裝置,其特征在于,所述第一級分類器采取語音活動檢測器(VAD)的形式。
39.如權(quán)利要求37所述的裝置,其特征在于還包括耦合到所述語音編碼器以及它們之間的所述通信信道的信道編碼器,用于在通過所述通信信道向接收機(jī)傳送所述編碼參數(shù)之前將冗余度添加到編碼參數(shù)的所述二進(jìn)制表示中。
40.如權(quán)利要求37所述的裝置,其特征在于還包括模數(shù)轉(zhuǎn)換器,用于接收所述聲音信號并將它數(shù)字化為所述數(shù)字化聲音信號。
全文摘要
本文公開了語音信號分類和編碼系統(tǒng)及方法。信號分類以三個步驟進(jìn)行,其中每個步驟區(qū)分特定的信號類型。首先,語音活動檢測器(VAD)區(qū)分活動和不活動語音幀。如果檢測到不活動語音幀(背景噪聲信號),則分類鏈結(jié)束,以及該幀采用舒適噪聲生成(CNG)來編碼。如果檢測到活動語音幀,則該幀經(jīng)過專用于區(qū)分清音幀的第二分類器。如果分類器把幀分類為清音語音信號,則分類鏈結(jié)束,以及該幀采用為清音信號優(yōu)化的編碼方法來編碼。否則,語音幀被傳遞到“穩(wěn)定濁音”分類模塊。如果幀被分類為穩(wěn)定濁音幀,則該幀采用為穩(wěn)定濁音信號優(yōu)化的編碼方法來編碼。否則,幀可能包含不穩(wěn)定語音段,例如濁音開始或快速發(fā)展的濁音語音信號。在這種情況下,通用語音編碼器以高比特率用于維持良好的主觀質(zhì)量。
文檔編號G10L21/02GK1703736SQ200380101141
公開日2005年11月30日 申請日期2003年10月9日 優(yōu)先權(quán)日2002年10月11日
發(fā)明者M·耶利內(nèi)克 申請人:諾基亞有限公司