專(zhuān)利名稱(chēng):語(yǔ)音編解碼器中用于線(xiàn)頻譜頻率矢量量化的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明主要涉及語(yǔ)音音頻信號(hào)的編碼,尤其涉及線(xiàn)頻譜頻域中線(xiàn)性預(yù)測(cè)系數(shù)的量化。
背景技術(shù):
語(yǔ)音音頻編碼算法在通信、多媒體和存儲(chǔ)器系統(tǒng)中具有廣泛地應(yīng)用。在節(jié)省傳輸和存儲(chǔ)容量的同時(shí)又能維持合成信號(hào)的高質(zhì)量,正是這種需求推動(dòng)了編碼算法的發(fā)展。編碼器的復(fù)雜程度受應(yīng)用平臺(tái)的處理能力的限制。在一些應(yīng)用如語(yǔ)音存儲(chǔ)應(yīng)用中,解碼器可以非常復(fù)雜而解碼器則應(yīng)盡可能地簡(jiǎn)單。
在典型的語(yǔ)音編碼器中,按段對(duì)輸入語(yǔ)音信號(hào)進(jìn)行處理,這些段稱(chēng)為幀。通常幀的長(zhǎng)度為10-30毫秒,后續(xù)幀中5-15毫秒的導(dǎo)前段也是可用的。幀還可進(jìn)一步分為許多子幀。對(duì)于每一幀,解碼器確定輸入信號(hào)的參數(shù)表示??蓪?shù)量化并通過(guò)通信信道傳輸或以數(shù)字形式存儲(chǔ)在存儲(chǔ)媒體中。在接收端,解碼器基于所接收的參數(shù)來(lái)解釋合成信號(hào)。
目前多個(gè)的語(yǔ)音編碼器包括線(xiàn)性預(yù)測(cè)(LP)濾波器用于產(chǎn)生激勵(lì)信號(hào)。L濾波器一般具有如下式給出的全極點(diǎn)結(jié)構(gòu)1A(z)=11+a1z-1+a2z-2+...+apz-p,---(1)]]>其中A(z)為具有非量化LP系數(shù)a1、a2、...、ap的逆濾波器,且p是的預(yù)測(cè)器的階,通常為8-12。
輸入語(yǔ)音信號(hào)按幀進(jìn)行處理。對(duì)于每個(gè)語(yǔ)音幀,編碼器利用例如Levinson-Durbin算法(參見(jiàn)“AMR語(yǔ)音編解碼器;代碼轉(zhuǎn)換功能”3G TS 26.090 v3.1.0(1999-12))確定LP系數(shù)。由于線(xiàn)頻譜頻率(LSF)表示或其它類(lèi)似的的表示如線(xiàn)頻譜對(duì)(LSP)、導(dǎo)抗頻譜頻率(ISF)和導(dǎo)抗頻譜對(duì)(ISP)等(其中所得的穩(wěn)定濾波器用階矢量表示(ordervector)表示)具備良好的量化性能,因此被用于對(duì)系數(shù)進(jìn)行量化。對(duì)于中間的子幀,可采用LSF表示對(duì)系數(shù)作線(xiàn)性?xún)?nèi)插。
為定義LSF,用逆LP濾波器A(z)多項(xiàng)式來(lái)構(gòu)造如下兩個(gè)多項(xiàng)式P(z)=A(z)+z-(p+1)A(z-1),=(1-z-1)κ(1-2z-1cosωi+z-2),·i=2,4,...,p (2)和Q(z)=A(z)-z-(p+1)A(z-1)=(1-z-1)κ(1-2z-1cosωi+z-2),i=1,3,...,p-1. (3)多項(xiàng)式P(z)和Q(z)的根稱(chēng)為L(zhǎng)SF系數(shù)。這些多項(xiàng)式的所有根均在單位園ejωi上(其中i=1,2,...p)。多項(xiàng)式P(z)和Q(z)有以下特性1)多項(xiàng)式的所有零點(diǎn)(根)均在單位園上;2)多項(xiàng)式P(z)和Q(z)的零點(diǎn)彼此交織。更具體地說(shuō),總滿(mǎn)足以下關(guān)系0=ω0<ω1<ω2<...<ωp-1<ωp<ωp+1=π (4)升序排列確保了語(yǔ)音編碼應(yīng)用中通常要求的濾波穩(wěn)定性。應(yīng)當(dāng)注意,第一個(gè)和最后一個(gè)參數(shù)總是分別為0和π,并且只需傳輸p的值。
當(dāng)語(yǔ)言編碼器中需要高效的表示法用于存儲(chǔ)LSF信息,采用矢量量化(VQ)通常再加上預(yù)測(cè)(參見(jiàn)
圖1)來(lái)將LSF量化。通常,基于先前解碼輸出值(AR(自回歸)-預(yù)測(cè)器)或先前的量化值(MA(移動(dòng)平均)-預(yù)測(cè)器)來(lái)估計(jì)預(yù)測(cè)值。
pLSFk=mLSF+Σj=1mAj(qLSFk-j-mLSF)+Σi=1nBiCBk-i---(5)]]>其中,Aj和Bi為預(yù)測(cè)矩陣,m和n為預(yù)測(cè)器的階。pLSFk、qLSFk和CBk分別為預(yù)測(cè)LSF、量化LSF和第k幀的碼本矢量。mLSK為L(zhǎng)SF矢量的均值。
在計(jì)算預(yù)測(cè)值之后,可以得到量化的LSF值
qLSFk=pLSFk+CBk, (6)其中,CBk為第k幀的最優(yōu)碼本項(xiàng)。
實(shí)際上,當(dāng)使用預(yù)測(cè)量化或約束VQ時(shí),所得的qLSFk在轉(zhuǎn)化為L(zhǎng)P系數(shù)前必須檢查其穩(wěn)定性。只有在直接VQ(非預(yù)測(cè)、單級(jí)、未分裂)的情況下,才可以設(shè)計(jì)碼本以使所得的量化矢量總是順序的。
在現(xiàn)有技術(shù)的解決方案中,濾波器的穩(wěn)定性是在經(jīng)量化和碼本選擇后通過(guò)對(duì)LSF矢量排序而得以保證的。
當(dāng)搜索最優(yōu)碼本矢量時(shí),通常要嘗試所有矢量(全搜索)并對(duì)每種情況計(jì)算一些感覺(jué)上重要的質(zhì)量度量。通常使用的搜索過(guò)程的方框圖示于圖1a。
選擇最好基于如下的頻譜失真SDiSD=1π∫0π[logS(ω)-logS^(ω)]2dω,---(7)]]>其中, 和S(ω)分別是經(jīng)量化和未經(jīng)量化的語(yǔ)音幀頻譜。因?yàn)橛?jì)算量非常大,所以可使用更簡(jiǎn)單的方法來(lái)替代。通常使用的方法是用(Wk)對(duì)LSF誤差(rLSFik)加權(quán)。例如,使用如下的加權(quán)方法(參見(jiàn)“AMR語(yǔ)音編解碼器;代碼轉(zhuǎn)換功能”3G TS26.090 v3.1.0(1999-12))對(duì)于dk<450Hz,Wk=3.347-1.547450dk]]>否則,=1.8-0.81050(450-dk)---(8)]]>其中,dk=LSFk+1-LSFk-1,其中LSF0=0Hz和LSF11=4000Hz。
這種失真測(cè)量基本上取決于LSF頻率間的距離。LSF彼此間越接近,它們所得的權(quán)重就越大。感覺(jué)上,這意味著對(duì)共振峰區(qū)域的量化更為精確。
根據(jù)失真值,將對(duì)應(yīng)最小失真值的碼本矢量選作最佳碼本索引。通常,判據(jù)為mini{SDi}=Σk=1p(LSFk-pLSFk-CBki)2Wk2,---(9)]]>正如從圖1a中可看到,首先在求和部件12中確定目標(biāo)LSF的系數(shù)LSFk和相應(yīng)的預(yù)測(cè)LSF系數(shù)pLSFk之差,進(jìn)而在另一個(gè)求和部件14中用第j個(gè)碼本項(xiàng)的相應(yīng)的剩余碼本矢量CBj1k來(lái)調(diào)整該差值。式9可簡(jiǎn)化為min{SDi}=Σk=1p(LSFk-qLSFki)2Wk2,---(10)]]>進(jìn)而可簡(jiǎn)化為mini{SDi}=Σk=1p(rLSFki)2Wk2---(11)]]>在如圖1b所示的解碼器中可較容易地看出式10和11所示的簡(jiǎn)化步驟。如圖1b所示,求和部件16用于計(jì)算量化的LSF系數(shù)。隨后,由求和部件18根據(jù)量化的LSF系數(shù)和目標(biāo)LSF系數(shù)來(lái)計(jì)算LSF誤差。
如果量化的LSF系數(shù)qLSFik沒(méi)有關(guān)于k按升序排列,那么現(xiàn)有技術(shù)的解決方案不一定能找到最佳碼本索引。圖2a-2e說(shuō)明這種問(wèn)題。為簡(jiǎn)單起見(jiàn),僅顯示了前3個(gè)LSF系數(shù)(k=1,2,3)。但是,簡(jiǎn)化的示范足以表示分裂矢量量化(split VQ)情況下相當(dāng)常見(jiàn)的第一分裂(split)。目標(biāo)LSF矢量用LSF1...LSF3來(lái)標(biāo)記,并且還顯示了基于先前幀的LSF的預(yù)測(cè)值(pLSF1...pLSF3)。如圖2a所示,一些預(yù)測(cè)值大于相應(yīng)的目標(biāo)矢量,而一些則較小。在矢量量化器剩余碼本中的第一個(gè)碼本項(xiàng)看起來(lái)像碼本矢量,如圖2b所示。利用qLSF11-3=pLSF1-3+CB11-3,計(jì)算量化LSF系數(shù)并將其示于圖2c中。為簡(jiǎn)單起見(jiàn),未使用加權(quán),即Wk=1,這樣,頻譜失真直接與目標(biāo)值和量化值(量化的LSF系數(shù))之間距離的平方或絕對(duì)值成比例。目標(biāo)值和量化值之間的距離為qLSFik,因此第一分裂的總失真為
SD1=Σk=13SDk1.---(12)]]>第二碼本項(xiàng)(未示出)可以生成如圖2d所示的量化LSF矢量(qLSF21-3)和頻譜失真(SD21-3)。當(dāng)將圖2d與圖2c相比時(shí),所得的qLSF矢量大不相同,但是總的失真幾乎相同,即(SD1≈SD2)。對(duì)于前兩個(gè)碼本項(xiàng),所得的量化LSF矢量是有序的。
為說(shuō)明有關(guān)現(xiàn)有技術(shù)量化方法的問(wèn)題,假設(shè)由第三碼本項(xiàng)(未示出)得到的量化LSF系數(shù)(qLSF31-3)和相應(yīng)的頻譜失真(SD31-3)如圖2e所示那樣分布。如圖2e所示,根據(jù)頻譜失真,總的失真(SD3=Σ1=k3SDk3]]>)的值非常大。這意味著,按照現(xiàn)有技術(shù)方法,由第一分裂得到的最佳碼本索引對(duì)應(yīng)SD1和SD2中較小的一個(gè)。然而,稍后圖4a將說(shuō)明,選定的“最優(yōu)”碼本索引不能生成最優(yōu)碼矢量。這是因?yàn)閷?duì)應(yīng)第三碼本項(xiàng)的所得的量化LSF矢量不是有序的。
一般而言,語(yǔ)音編碼器要求其中所用的線(xiàn)性預(yù)測(cè)(LP)濾波器是穩(wěn)定的。例如,如圖1a中所示的現(xiàn)有技術(shù)的碼本搜索例程可能導(dǎo)致所得的量化LSF矢量無(wú)序從而變得不穩(wěn)定。在現(xiàn)有技術(shù)中,矢量的穩(wěn)定性是通過(guò)量化后將LSF矢量排序而取得的。但是,所得的編碼矢量可能不是最優(yōu)的。
應(yīng)當(dāng)注意,頻譜(對(duì))參數(shù)矢量(如表示線(xiàn)性預(yù)測(cè)系數(shù)的線(xiàn)性頻譜對(duì)(LSP)矢量、導(dǎo)抗頻譜頻率(LSF)矢量和導(dǎo)抗頻譜對(duì)(ISP)矢量)也必須是有序的以便穩(wěn)定。
希望提供一種用于量化頻譜參數(shù)(或表示)的方法和系統(tǒng),這是有利的,其中,所得編碼矢量是最優(yōu)的。
發(fā)明概要本發(fā)明的主要目的是提供一種用于頻譜參數(shù)量化的方法和裝置,其中,在保持原來(lái)的位分配的同時(shí),選擇最優(yōu)的編碼矢量以在頻譜失真方面提高頻譜參數(shù)量化性能。此目的可以這樣達(dá)到在根據(jù)頻譜失真選擇編碼矢量之前,在頻域內(nèi)以有序方式重新排列所量化的頻譜參數(shù)矢量。
因此,根據(jù)本發(fā)明的第一方面,提供了一種在語(yǔ)音編碼器中量化頻譜參數(shù)矢量的方法,其中,線(xiàn)性預(yù)測(cè)濾波器用于計(jì)算頻域中的多個(gè)頻譜參數(shù)系數(shù),并且將多個(gè)基于先前解碼輸出值的預(yù)測(cè)頻譜參數(shù)值和多個(gè)剩余碼本矢量連同所述的多個(gè)頻譜參數(shù)系數(shù)用于估算頻譜失真,并根據(jù)頻譜失真選定最優(yōu)碼矢量,所述方法的特征在于從相應(yīng)的預(yù)測(cè)頻譜參數(shù)值和剩余碼本矢量中得到多個(gè)量化的頻譜參數(shù)系數(shù);在頻域中以有序方式對(duì)所量化的頻譜參數(shù)系數(shù)重新排列;以及從重新排列的量化頻譜參數(shù)系數(shù)和相應(yīng)的線(xiàn)頻譜頻率系數(shù)中得到頻譜失真。
最好按照表示每個(gè)所述重新排列的量化頻譜參數(shù)系數(shù)和相應(yīng)的頻譜參數(shù)系數(shù)之間差異的誤差來(lái)計(jì)算頻譜失真,其中,在根據(jù)頻譜參數(shù)系數(shù)計(jì)算頻譜失真之前先對(duì)所述誤差加權(quán)。
根據(jù)本發(fā)明,當(dāng)所量化的頻譜參數(shù)系數(shù)的重新排列是在單分裂中進(jìn)行時(shí),適用所述方法。
根據(jù)本發(fā)明,當(dāng)所量化的頻譜參數(shù)系數(shù)的重新排列是在多分裂中進(jìn)行時(shí),也適用所述方法。在這種情況下,根據(jù)每一分裂中的頻譜失真選擇最優(yōu)碼矢量。
根據(jù)本發(fā)明,當(dāng)所量化的頻譜參數(shù)系數(shù)的重新排列是在多級(jí)量化下的一級(jí)或多級(jí)中進(jìn)行時(shí),也適用所述方法。在這種情況下,根據(jù)每級(jí)中的頻譜失真選擇最優(yōu)碼矢量。各級(jí)或排序或不排序。最好提前作出哪級(jí)排序哪級(jí)不排序的選擇。否則,排序信息必須作為邊信息(side information)傳送給接收器。
根據(jù)本發(fā)明,當(dāng)量化頻譜參數(shù)系數(shù)的重新排列作為針對(duì)一定數(shù)量的預(yù)選矢量的優(yōu)化級(jí)進(jìn)行時(shí),也適用所述方法。對(duì)推薦矢量排序并且利用所公開(kāi)的方法從該預(yù)選矢量集中選擇最終的索引。
根據(jù)本發(fā)明,所述方法還適用于如下情形其中,對(duì)量化頻譜參數(shù)系數(shù)的重新排列是作為優(yōu)化級(jí)執(zhí)行的,以及不經(jīng)重新排列就可選擇(各級(jí)或各分裂的)碼本初始索引并采用所公開(kāi)的排序方法僅根據(jù)選定的最佳預(yù)選矢量來(lái)作出最終的選擇。
頻譜參數(shù)可以是線(xiàn)頻譜頻率、線(xiàn)頻譜對(duì)、導(dǎo)抗頻譜頻率、導(dǎo)抗頻譜對(duì)等。
根據(jù)本發(fā)明的第二方面,提供了一種在語(yǔ)音編碼器中量化頻譜參數(shù)矢量的裝置,其中,線(xiàn)性預(yù)測(cè)濾波器用于計(jì)算頻域中的多個(gè)頻譜參數(shù)系數(shù),并將多個(gè)基于先前解碼輸出值的預(yù)測(cè)頻譜參數(shù)值、多個(gè)剩余碼本矢量連同所述多個(gè)頻譜參數(shù)系數(shù)用于估算頻譜失真以便基于頻譜失真選擇最優(yōu)碼矢量。所述裝置的特征在于用于從相應(yīng)的預(yù)測(cè)頻譜參數(shù)值和剩余碼本矢量得到多個(gè)量化頻譜參數(shù)系數(shù)以便提供表示量化頻譜參數(shù)系數(shù)的第一信號(hào)序列的部件;用于響應(yīng)所述第一信號(hào)而在頻域中以有序方式將量化頻譜參數(shù)系數(shù)重新排列以便提供表示重新排列的量化頻譜參數(shù)系數(shù)的第二信號(hào)序列的部件;以及用于響應(yīng)所述第二信號(hào)而從所述重新排列的量化頻譜參數(shù)系數(shù)和相應(yīng)的頻譜參數(shù)系數(shù)得到頻譜失真的部件。
頻譜參數(shù)可以是線(xiàn)頻譜頻率、線(xiàn)頻譜對(duì)、導(dǎo)抗頻譜頻率、導(dǎo)抗頻譜對(duì)等。
根據(jù)本發(fā)明的第三方面,提供了一種可為解碼器提供比特流的語(yǔ)音編碼器,其中,比特流包含表示編碼參數(shù)、增益參數(shù)和基音參數(shù)的第一傳輸信號(hào)以及表示頻譜表示參數(shù)的第二傳輸信號(hào),其中,激勵(lì)搜索模塊用于提供編碼參數(shù)、增益參數(shù)和基音參數(shù),線(xiàn)性預(yù)測(cè)分析模塊用于提供多個(gè)頻域中的頻譜表示系數(shù)、多個(gè)基于先前解碼輸出值的預(yù)測(cè)頻譜表示值和多個(gè)剩余碼本矢量,此編碼器的特征在于
用于根據(jù)相應(yīng)的預(yù)測(cè)頻譜表示值和剩余碼本矢量得到多個(gè)量化頻譜表示系數(shù)以便提供表示量化頻譜表示系數(shù)的第一信號(hào)序列的部件;用于響應(yīng)所述第一信號(hào)而在頻域中以有序方式將量化頻譜表示系數(shù)重新排列以便提供表示重新排列的量化頻譜表示系數(shù)的第二信號(hào)序列的部件;以及用于響應(yīng)所述第二信號(hào)而從所述重新排列的量化頻譜表示系數(shù)和相應(yīng)的頻譜表示系數(shù)中得到頻譜失真以便提供第三信號(hào)序列的部件;用于響應(yīng)所述第三信號(hào)而根據(jù)所述頻譜失真選擇多個(gè)表示頻譜表示參數(shù)的最優(yōu)碼矢量并提供表示最優(yōu)碼矢量的第二傳輸信號(hào)的部件。
根據(jù)本發(fā)明的第四方面,提供了一種能夠接收輸入語(yǔ)音并對(duì)其預(yù)處理以便提供比特流至電信網(wǎng)絡(luò)中的至少一個(gè)基站的移動(dòng)臺(tái),其中比特流包含表示編碼參數(shù)、增益參數(shù)和基音參數(shù)的第一傳輸信號(hào)以及表示頻譜表示參數(shù)的第二傳輸信號(hào),其中,激勵(lì)搜索模塊根據(jù)預(yù)處理輸入信號(hào)來(lái)提供第一傳輸信號(hào),而線(xiàn)性預(yù)測(cè)分析模塊根據(jù)預(yù)處理輸入信號(hào)來(lái)提供頻域中的多個(gè)頻譜表示系數(shù)、多個(gè)基于先前解碼輸出值的預(yù)測(cè)頻譜表示值和多個(gè)剩余碼本矢量。所述移動(dòng)臺(tái)的特征在于用于從相應(yīng)的預(yù)測(cè)頻譜表示值和剩余碼本矢量中得到多個(gè)量化頻譜表示系數(shù)以便提供表示量化頻譜表示系數(shù)的第一信號(hào)序列的部件;用于響應(yīng)所述第一信號(hào)序列而在頻域中以有序方式將所述量化頻譜表示系數(shù)重新排列以便提供表示所述重新排列的量化頻譜表示系數(shù)的第二信號(hào)序列的部件;用于響應(yīng)所述第二信號(hào)序列而從所述重新排列的量化頻譜表示系數(shù)和相應(yīng)的頻譜表示系數(shù)中得到頻譜失真以便提供第三信號(hào)序列的部件;用于根據(jù)所述頻譜失真選擇多個(gè)表示頻譜表示參數(shù)的最優(yōu)碼矢量以便提供第二傳輸信號(hào)的部件。
在結(jié)合圖3至圖6閱讀了本說(shuō)明書(shū)之后,就可以明白本發(fā)明。
附圖簡(jiǎn)介圖1a是說(shuō)明現(xiàn)有技術(shù)的LSF量化系統(tǒng)的框圖。
圖1b是說(shuō)明具有不同系統(tǒng)部件配置的現(xiàn)有技術(shù)的LSF量化系統(tǒng)的框圖。
圖2a是說(shuō)明目標(biāo)LSF矢量和預(yù)測(cè)LSF值在頻域中的分布的示意圖。
圖2b是說(shuō)明矢量量化器剩余碼本中第一碼本項(xiàng)的示意圖。
圖2c是說(shuō)明對(duì)應(yīng)第一碼本項(xiàng)的與目標(biāo)LSF矢量相比較的量化LSF系數(shù)以及所得頻譜失真的示意圖。
圖2d是說(shuō)明對(duì)應(yīng)第二碼本項(xiàng)的量化LSF系數(shù)以及所得頻譜失真的示意圖。
圖2e是說(shuō)明對(duì)應(yīng)第三碼本項(xiàng)的量化LSF系數(shù)以及所得頻譜失真的示意圖。
圖2f是說(shuō)明對(duì)應(yīng)第四碼本項(xiàng)的量化LSF系數(shù)以及所得頻譜失真的示意圖。
圖2g是說(shuō)明對(duì)應(yīng)不同于圖2c所示第一碼本項(xiàng)的量化LSF系數(shù)以及所得頻譜失真的示意圖。
圖2h是說(shuō)明對(duì)應(yīng)不同于圖2d所示第二碼本項(xiàng)的量化LSF系數(shù)以及所得頻譜失真的示意圖。
圖3是說(shuō)明根據(jù)本發(fā)明的LSF量化系統(tǒng)的框圖。
圖4a是說(shuō)明圖2e所示的對(duì)應(yīng)第三碼本項(xiàng)的量化LSF系數(shù)以及所得頻譜失真在經(jīng)過(guò)根據(jù)本發(fā)明的LSF量化系統(tǒng)重新排列之后的示意圖。
圖4b是說(shuō)明圖2f所示的對(duì)應(yīng)第四碼本項(xiàng)的量化LSF系數(shù)以及所得頻譜失真在經(jīng)根據(jù)本發(fā)明的LSF量化系統(tǒng)重新排列之后的示意圖。
圖5是說(shuō)明包括根據(jù)本發(fā)明的用于語(yǔ)音編碼的編碼器和解碼器的語(yǔ)音編解碼器的框圖。
圖6是說(shuō)明根據(jù)本發(fā)明的用于移動(dòng)電信網(wǎng)絡(luò)中的移動(dòng)臺(tái)的示意圖。
本發(fā)明的最佳實(shí)施方式頻譜(對(duì))參數(shù)矢量是表示線(xiàn)性預(yù)測(cè)系數(shù)的矢量,以便穩(wěn)定的頻譜(對(duì))矢量總是有序的。這種表示包括線(xiàn)頻譜頻率(LSF)、線(xiàn)頻譜對(duì)(LSP)、導(dǎo)抗頻譜頻率(ISF)、導(dǎo)抗頻譜對(duì)(ISP)等。為簡(jiǎn)單起見(jiàn),就以L(fǎng)SF表示為例來(lái)對(duì)本發(fā)明進(jìn)行描述。
圖3顯示了根據(jù)本發(fā)明的LSF量化系統(tǒng)40。除圖1a所示的系統(tǒng)部件外,在求和部件16和求和部件18之間設(shè)置了排序部件20。排序部件20用于對(duì)量化LSF系數(shù)qLSFik重新排列以使其對(duì)頻率按升序分布。例如,如圖2a以及2b所示,量化LSF系數(shù)qLSF1k和qLSF2k已經(jīng)按升序排列,即qLSFi1<qLSFi2<qLSFi3,故排序部件20的功能并不影響這些量化LSF系數(shù)的分布。在這種情況下,量化LSF矢量qLSFi被說(shuō)成是順序正確的。但是,如圖2e所示,量化LSF矢量qLSF3順序錯(cuò)了,這是因?yàn)閝LSF31<qLSF32<qLSF33。如圖4a所示,在經(jīng)過(guò)排序之后,這些量化LSF系數(shù)按升序分布。
在矢量定序后,總的頻譜失真SD3(圖4a)比SD1或SD2都小。因此,包含待選的前三個(gè)幀的第一分裂的最佳碼本索引為i=3。由于進(jìn)行了排序,故在解碼器中自動(dòng)找到解碼碼本的正確順序(132),而不需要額外的信息。
排序部件20所完成的排序功能可表示如下
min{SDi}=Σk=1p(LSFk-sort(pLSFk+CBki)2Wk2]]>=Σk=1p(LSFk-sort(qLSFki))2Wk2,---(13)]]>13式還可進(jìn)一步簡(jiǎn)化為min{SDi}=Σk=1p(LSFk-qLSFs(k)i)2Wk2]]>=Σk=1p(rLSFs(k)i)2Wk2,---(14)]]>其中,s(k)是給出當(dāng)前第k個(gè)LSF分量的正確順序的置換函數(shù),以便在計(jì)算SDi前使所有的LSFik按升序排列。根據(jù)本發(fā)明,在將量化矢量排好序之后計(jì)算頻譜失真值,而不是進(jìn)行有可能導(dǎo)致無(wú)效的有序LSF矢量的剩余矢量比較。
應(yīng)當(dāng)注意,在某些情況下,使用現(xiàn)有技術(shù)搜索方法來(lái)從未按升序排列的量化LSF系數(shù)中得到最小頻譜失真SDI是有可能的。例如,如圖2f和2g中所示,第一和第二碼本項(xiàng)生成兩組不同的量化LSF系數(shù)qLSF1k和qLSF2k,而第三量化LSF系數(shù)qLSF3k與圖2e中顯示的相同。在這種情況下,雖然量化LSF系數(shù)qLSF3k未按升序排列,但還是由第三碼本項(xiàng)生成了最小頻譜失真。因此,基于最小總頻譜失真而選擇的量化LSF矢量是不穩(wěn)定的。在現(xiàn)有技術(shù)的編碼器中,在碼本選擇后可通過(guò)對(duì)量化LSF系數(shù)排序從而使不穩(wěn)定的量化LSF矢量穩(wěn)定。在此特定情況下,現(xiàn)有技術(shù)的語(yǔ)音編解碼器和根據(jù)本發(fā)明的語(yǔ)音編解碼器所得的結(jié)果是相同的。
一般而言,根據(jù)現(xiàn)有技術(shù)的方法所得的結(jié)果可能不是最優(yōu)的,因?yàn)檫€可能存在另一個(gè)順序錯(cuò)誤的量化矢量。例如,如果第四碼本項(xiàng)生成一組如圖2h所示的量化LSF系數(shù)qLSF4k,那么此量化LSF矢量在如圖2e、2f、2g以及2h所示的量化矢量中具有最大的頻譜失真。在現(xiàn)有技術(shù)碼本搜索例程中,最小的總頻譜失真是由第三碼本項(xiàng)得到的(圖2g)。
根據(jù)本發(fā)明的LSF量化方法,由排序部件20對(duì)圖2g和2h中的量化LSF系數(shù)重新排列。在對(duì)圖2h所示的量化LSF系數(shù)qLSF4k重新排列以使量化LSF系數(shù)按升序排列后,所得結(jié)果在圖4b中顯示。與圖2f、2g以及4a所示的量化LSF矢量相比,圖4b所示的量化LSF矢量具有最小頻譜失真。
上述例子已經(jīng)表明,根據(jù)現(xiàn)有技術(shù)的碼本搜索例程,量化之后執(zhí)行矢量穩(wěn)定操作(通過(guò)對(duì)LSF矢量排序)并不總是可以得到在頻譜失真方面最優(yōu)的矢量。
采用根據(jù)本發(fā)明的LSF量化方法,在選擇用于傳輸?shù)腖SF矢量之前將它們排好序。此方法總能找到最優(yōu)矢量。如果對(duì)矢量量化器碼本只進(jìn)行單分裂且在單級(jí)中完成對(duì)最優(yōu)矢量的選擇,則找到的矢量是全局最優(yōu)的。這意味著總可找到幀的提供全局最小誤差的索引i。如果采用約束矢量量化器,則不一定能找到全局最優(yōu)索引。但是,即使只在單分裂或單級(jí)內(nèi)使用本方法,仍舊提高了性能。為了能找到分裂矢量量化的更佳的全局最優(yōu)值,可采用如下方法1)采用根據(jù)本發(fā)明的預(yù)排序方法找到第一分裂的最佳碼本索引,和2)以相同的方式分別找到第二分裂、第三分裂等的最佳碼本索引。
然而,為找出更佳的解決方案,則不保存每一分裂的最優(yōu)分裂矢量量化器索引而要保存多個(gè)較好的索引。然后基于已保存的索引嘗試各分裂的所有索引組合,以及生成相應(yīng)的已排序量化LSF矢量(qLSF1...qLSFp)并計(jì)算SDi。最后,選擇碼本索引的最佳組合。
類(lèi)似的方法可如下應(yīng)用于多級(jí)向量量化器用所謂的M-best搜索法選擇若干最佳第一級(jí)量化器,再在這些量化器之后增加后續(xù)各級(jí)量化器。如果需要,則在各級(jí)對(duì)所得的qLSF排序,并計(jì)算SDi。再將碼本索引的最佳組合送到接收器中。排序可用于一個(gè)或多個(gè)內(nèi)部級(jí)。在這種情況下,解碼器必須在同一級(jí)中進(jìn)行排序以便正確地進(jìn)行解碼(可在設(shè)計(jì)階段確定要進(jìn)行排序的級(jí))。
對(duì)于分裂矢量量化器,可采用如下程序1)對(duì)第一分裂進(jìn)行最優(yōu)碼本搜索;2)對(duì)最后一個(gè)系數(shù)的誤差的加權(quán)稍小于通常所做的加權(quán);3)存儲(chǔ)多個(gè)較佳的索引以供下一階段使用;4)轉(zhuǎn)到下一分裂而不是在本分裂內(nèi)計(jì)算誤差,計(jì)算包括第一分裂的值和當(dāng)前矢量(在經(jīng)過(guò)定序過(guò)程之后)的所有組合的誤差;以及5)重復(fù)相同的過(guò)程直到計(jì)算完所有的分裂。這種方法連續(xù)執(zhí)行,以包括所選擇的一些量化值,這些量化值是目前找到的最優(yōu)值。在增加新的分裂后,所得的較長(zhǎng)矢量是有序的,并且可根據(jù)失真度確定之前分裂的索引。這樣就在一定程度上將對(duì)各分裂排序的限制效應(yīng)納入考慮。最后的系數(shù)的加權(quán)較低意味著最終的系數(shù)在定序完成之后可由后續(xù)分裂的值代替。
圖5是說(shuō)明根據(jù)本發(fā)明的語(yǔ)音編解碼器1的框圖。語(yǔ)音編解碼器1包括編碼器4和解碼器6。編碼器4包括處理單元22以對(duì)輸入語(yǔ)音信號(hào)進(jìn)行高通濾波。線(xiàn)性預(yù)測(cè)系數(shù)(LPC)分析單元26根據(jù)經(jīng)過(guò)預(yù)處理的輸入信號(hào)估計(jì)LP濾波器系數(shù)。LP系數(shù)由LPC量化單元28量化。激勵(lì)搜索單元30亦基于經(jīng)預(yù)處理的輸入信號(hào)為解碼器6提供編碼參數(shù)、增益參數(shù)以及基音參數(shù)。預(yù)處理單元22、LPC分析單元26、LPC量化單元28和激勵(lì)搜索單元30及其功能是本領(lǐng)域中已知的。本發(fā)明的編碼器4的獨(dú)有特征在于排序部件20,排序部件20用于在將LSF參數(shù)發(fā)送給解碼器6之前,對(duì)量化LSF系數(shù)重新排列以便用于頻譜失真估計(jì)。類(lèi)似地,解碼器6中的LPC量化單元40具有排序部件42,用于在由LPC內(nèi)插單元44進(jìn)行LPC內(nèi)插之前對(duì)接收的LSF系數(shù)重新排列。LPC內(nèi)插單元44、激勵(lì)產(chǎn)生單元46、LPC合成單元48以及后處理單元50也是本領(lǐng)域中已知的。
圖6是說(shuō)明本發(fā)明的移動(dòng)電話(huà)2的示意圖。如圖6所示,移動(dòng)電話(huà)具有麥克風(fēng)60,用于接收輸入語(yǔ)音并將輸入語(yǔ)音傳送給編碼器4。編碼器4具有將編碼參數(shù)、增益參數(shù)、基音參數(shù)以及LSF參數(shù)(圖5)轉(zhuǎn)換成可通過(guò)天線(xiàn)80傳輸?shù)谋忍亓?2的裝置。移動(dòng)電話(huà)2具有排序部件20,用于對(duì)量化矢量排序。
概括地說(shuō),本發(fā)明提出了一種用于提供始終穩(wěn)定的量化LSF矢量的方法和裝置。根據(jù)本發(fā)明的方法和裝置在頻譜失真方面提高了LSF量化性能,而不需要改變位分配。所述方法和裝置可推廣用于預(yù)測(cè)和非預(yù)測(cè)分裂(分區(qū))矢量量化器以及多級(jí)矢量量化器。當(dāng)使用更高階的LPC模型(p>10)時(shí),根據(jù)本發(fā)明的方法和裝置在改善語(yǔ)音編碼器的性能上效果更明顯,因?yàn)樵谶@些情況下,LSF彼此更加接近,無(wú)效排序越有可能發(fā)生。但是,同樣的方法和裝置也可用在基于低階LPC模型(p<=10)的語(yǔ)音編碼器中。
應(yīng)當(dāng)注意,如根據(jù)LSF所述的量化方法/裝置還適用于線(xiàn)性預(yù)測(cè)系數(shù)的其它表現(xiàn)形式,例如LSP、ISF、ISP以及其它類(lèi)似的頻譜參數(shù)和頻譜表示。
因此,雖然參照本發(fā)明的最佳實(shí)施例對(duì)本發(fā)明作了說(shuō)明,但本領(lǐng)域的技術(shù)人員應(yīng)理解,在不脫離本發(fā)明的精神和范圍的前提下,可在形式上和細(xì)節(jié)上對(duì)本發(fā)明進(jìn)行上述和各種其它的變化、省略以及修改。
權(quán)利要求
1.一種在語(yǔ)音編碼器中用于量化頻譜參數(shù)矢量的方法,其中,線(xiàn)性預(yù)測(cè)濾波器用于計(jì)算頻域中的多個(gè)頻譜參數(shù)系數(shù),其中,將多個(gè)基于先前解碼輸出值的預(yù)測(cè)頻譜參數(shù)值和多個(gè)剩余碼本矢量以及所述多個(gè)頻譜參數(shù)系數(shù)用于估算頻譜失真,以便基于所述頻譜失真選擇最優(yōu)碼矢量,所述方法包括以下步驟從所述相應(yīng)預(yù)測(cè)頻譜參數(shù)值和所述剩余碼本矢量中得到多個(gè)量化頻譜參數(shù)系數(shù);對(duì)所述頻域中的量化頻譜參數(shù)系數(shù)按有序方式重新排列;和從所述重新排列的量化頻譜參數(shù)系數(shù)和相應(yīng)的頻譜參數(shù)系數(shù)中得到頻譜失真。
2.如權(quán)利要求1所述的方法,其特征在于,根據(jù)表示每個(gè)所述重新排列的量化頻譜參數(shù)系數(shù)和所述相應(yīng)的頻譜參數(shù)系數(shù)之差的誤差來(lái)計(jì)算所述頻譜失真。
3.如權(quán)利要求2所述的方法,其特征還在于,在根據(jù)所述頻譜參數(shù)系數(shù)得到所述頻譜失真之前對(duì)所述誤差加權(quán)。
4.如權(quán)利要求1所述的方法,其特征在于,對(duì)所述量化頻譜參數(shù)系數(shù)的重新排列是在單分裂中進(jìn)行的。
5.如權(quán)利要求1所述的方法,其特征在于,對(duì)所述量化頻譜參數(shù)系數(shù)的重新排列是在多分裂中進(jìn)行的,并且根據(jù)每一分裂中的所述頻譜失真選擇最優(yōu)碼矢量。
6.如權(quán)利要求1所述的方法,其特征在于,所述頻譜參數(shù)包括線(xiàn)頻譜參數(shù)。
7.如權(quán)利要求1所述的方法,其特征在于,所述頻譜參數(shù)包括線(xiàn)頻譜對(duì)。
8.如權(quán)利要求1所述的方法,其特征在于,所述頻譜參數(shù)包括導(dǎo)抗頻譜頻率。
9.如權(quán)利要求1所述的方法,其特征在于,所述頻譜參數(shù)包括導(dǎo)抗頻譜對(duì)。
10.如權(quán)利要求1所述的方法,其特征在于,所述重新排列的步驟是在單級(jí)中進(jìn)行的。
11.如權(quán)利要求1所述的方法,其特征在于,對(duì)所述量化頻譜參數(shù)系數(shù)的重新排列是在最優(yōu)碼矢量選擇的多級(jí)之一中完成的,所述一些級(jí)是預(yù)先確定的并且所述最優(yōu)碼矢量選擇基于所述一些級(jí)中的所述頻譜失真。
12.如權(quán)利要求1所述的方法,其特征在于,所述量化頻譜參數(shù)系數(shù)的重新排列是在最優(yōu)碼矢量選擇的多級(jí)中的某些級(jí)中進(jìn)行的,其中,所述某些級(jí)是預(yù)先確定的并且所述最優(yōu)碼矢量選擇基于所述某些級(jí)中的所述頻譜失真。
13.如權(quán)利要求1所述的方法,其特征在于,所述量化頻譜參數(shù)系數(shù)的重新排列是在最優(yōu)碼矢量選擇的多級(jí)中進(jìn)行的,所述多級(jí)是預(yù)先確定的并且所述最優(yōu)碼矢量選擇基于所述多級(jí)中的所述頻譜失真。
14.如權(quán)利要求1所述的方法,其特征在于,所述量化頻譜參數(shù)系數(shù)的重新排列是作為針對(duì)最優(yōu)矢量選擇所用的一定數(shù)量的預(yù)選矢量的優(yōu)化級(jí)來(lái)進(jìn)行的,所述最優(yōu)矢量選擇基于所述預(yù)選矢量。
15.一種在語(yǔ)音編碼器中用于量化頻譜參數(shù)矢量的裝置,其中,將線(xiàn)性預(yù)測(cè)濾波器用于計(jì)算頻域中的多個(gè)頻譜參數(shù)系數(shù),并且將基于先前解碼輸出值的多個(gè)預(yù)測(cè)頻譜參數(shù)值、多個(gè)剩余碼本矢量和所述多個(gè)頻譜參數(shù)系數(shù)用于估算頻譜失真并根據(jù)所述頻譜失真選擇最優(yōu)碼矢量,所述裝置包括用于從所述相應(yīng)的預(yù)測(cè)頻譜參數(shù)值和所述剩余碼本矢量得到多個(gè)量化頻譜參數(shù)系數(shù)以便提供表示所述量化頻譜參數(shù)系數(shù)的第一信號(hào)序列的部件;用于響應(yīng)所述第一信號(hào)而在頻域中以有序方式將所述量化頻譜參數(shù)系數(shù)重新排列以便提供表示所述重新排列的量化頻譜參數(shù)系數(shù)的第二信號(hào)序列的部件;以及用于響應(yīng)所述第二信號(hào)而從所述重新排列的量化頻譜參數(shù)系數(shù)和所述相應(yīng)的頻譜參數(shù)系數(shù)獲得頻譜失真的部件。
16.如權(quán)利要求15所述的裝置,其特征在于,基于表示各所述重新排列的量化頻譜參數(shù)系數(shù)之間差異的誤差來(lái)計(jì)算所述頻譜失真,并且,所述頻譜失真獲得部件在得到所述頻譜失真之前根據(jù)所述頻譜參數(shù)系數(shù)對(duì)所述誤差加權(quán)。
17.如權(quán)利要求15所述的裝置,其特征在于,所述量化頻譜參數(shù)系數(shù)的重新排列是在單分裂中進(jìn)行的。
18.如權(quán)利要求15所述的裝置,其特征在于,所述量化頻譜參數(shù)系數(shù)的重新排列是在多分裂中進(jìn)行的,并且根據(jù)每一分裂中的所述頻譜失真選擇最優(yōu)碼矢量。
19.一種用于為解碼器提供比特流的語(yǔ)音編碼器,它包含表示編碼參數(shù)、增益參數(shù)和基音參數(shù)的第一傳輸信號(hào)和表示頻譜表示參數(shù)的第二傳輸信號(hào),其中,激勵(lì)搜索模塊用于提供所述編碼參數(shù)、所述增益參數(shù)以及所述基音參數(shù),線(xiàn)性預(yù)測(cè)分析模塊用于提供頻域中的多個(gè)頻譜表示系數(shù)、多個(gè)基于先前解碼輸出值的預(yù)測(cè)頻譜表示值以及多個(gè)剩余碼本矢量,所述解碼器包括用于根據(jù)所述相應(yīng)的預(yù)測(cè)頻譜表示值和所述剩余碼本矢量得到多個(gè)量化頻譜表示系數(shù)以便提供表示所述量化頻譜表示系數(shù)的第一信號(hào)序列的部件;用于響應(yīng)所述第一信號(hào)而在所述頻域中以有序方式將所述量化頻譜表示系數(shù)重新排列以便提供表示所述重新排列的量化頻譜表示系數(shù)的第二信號(hào)序列的部件;以及用于響應(yīng)所述第二信號(hào)而從所述重新排列的量化頻譜表示系數(shù)和所述相應(yīng)的頻譜表示系數(shù)中得到頻譜失真以便提供第三信號(hào)序列的部件;用于響應(yīng)所述第三信號(hào)而根據(jù)所述頻譜失真選擇多個(gè)表示所述頻譜表示參數(shù)的最優(yōu)碼矢量并提供表示最優(yōu)碼矢量的第二傳輸信號(hào)的部件。
20.一種能夠接收輸入語(yǔ)音并對(duì)其進(jìn)行預(yù)處理以便提供比特流至電信網(wǎng)絡(luò)中至少一個(gè)基站的移動(dòng)臺(tái),其中,所述比特流包括表示編碼參數(shù)、增益參數(shù)和基音參數(shù)的第一傳輸信號(hào)以及表示頻譜表示參數(shù)的第二傳輸信號(hào),其中,激勵(lì)檢索模塊用于根據(jù)所述預(yù)處理輸入信號(hào)提供所述第一傳輸信號(hào),而線(xiàn)性預(yù)測(cè)分析模塊用于根據(jù)所述預(yù)處理輸入信號(hào)提供頻域中的多個(gè)頻譜表示系數(shù)、多個(gè)基于先前解碼輸出值的預(yù)測(cè)頻譜表示值和多個(gè)剩余碼本矢量,所述移動(dòng)臺(tái)的特征在于用于從所述相應(yīng)的預(yù)測(cè)頻譜表示值和所述剩余碼本矢量中得到多個(gè)量化頻譜表示系數(shù)以便提供表示所述量化頻譜表示系數(shù)的第一信號(hào)序列的部件;用于響應(yīng)所述第一信號(hào)而在所述頻域中以有序方式將所述量化頻譜表示系數(shù)重新排列以便提供表示所述重新排列的量化頻譜表示系數(shù)的第二信號(hào)序列的部件;用于響應(yīng)所述第二信號(hào)而從所述重新排列的量化頻譜表示系數(shù)和所述相應(yīng)的頻譜表示系數(shù)中得到頻譜失真以便提供表示所述頻譜失真的第三信號(hào)序列的部件;用于響應(yīng)所述第三信號(hào)而選擇多個(gè)表示頻譜表示參數(shù)的最優(yōu)碼矢量以便提供第二傳輸信號(hào)的部件。
全文摘要
一種在語(yǔ)音編碼器中用于量化LSF矢量的方法,其中將基于先前解碼輸出值的預(yù)測(cè)LSF值連同剩余編碼本矢量和LSF系數(shù)用于估算頻譜失真。此方法包括如下步驟從相應(yīng)預(yù)測(cè)LSF值和剩余編碼本矢量中得到多個(gè)量化LSF系數(shù);以有序的方式對(duì)頻域中的量化LSF系數(shù)重新排列;根據(jù)重新排列的量化LSF系數(shù)和相應(yīng)的LSF系數(shù)得到頻譜失真;并基于頻譜失真選擇最優(yōu)碼矢量。
文檔編號(hào)G10L19/00GK1509469SQ02809829
公開(kāi)日2004年6月30日 申請(qǐng)日期2002年5月10日 優(yōu)先權(quán)日2001年5月16日
發(fā)明者A·雷莫, A 雷莫 申請(qǐng)人:諾基亞有限公司