音頻編碼方法和裝置的制作方法

文檔序號：2820537閱讀：245來源：國知局

專利名稱：音頻編碼方法和裝置的制作方法
技術領域：
本發(fā)明是關于編碼和譯碼電信號的方法和完成這樣方法的裝置。
眾所周知，以數(shù)字形式的數(shù)據(jù)的傳輸在傳送信道中提高了信操比和信息容量。這里始終存在著通過壓縮數(shù)字信號到更大的程度來進一步增加訊道容量的愿望。與音頻信號相關的是，通常應用兩個基本壓縮原理，第一個原理涉及移去源信號中的統(tǒng)計和確定冗余，而第二個原理涉及從源信號中抑制或取消到目前為止人類感受所涉及的冗余的信號成分。近來，后一原理在高質量音頻應用當中占主導地位和典型地分離音頻信號為諸頻率成分(有時稱為“子帶”)，使用預定的量化精度對每一個子帶進行分析和量化以移去不相關數(shù)據(jù)(對聽眾)。ISO(國際標準組織)MPEG(運動圖象專家組)音頻編碼標準和其它音頻編碼標準使用和進一步定義該原理。然而，MPEG(和其它標準)也使用熟稱為“適配預測”的技術以進一步減少數(shù)據(jù)率。
一適配預測的特定形式熟知為“后適配柵格預測。”Fuchs et al，“Improving MPEG Audio Coding by Backward Adaptive Linear StereoPrediction，”AES Convention，New York，Preprint 4086 Oct，1995，描述了一個這樣后適配柵格預測算法，對于每個頻率成分的每一個頻譜值，后適配柵格預測在編碼器中從那個成分的先前計算的頻譜值中產生一組預測系數(shù)(通過量化頻譜值的中間計算)。這些系數(shù)然后用來預測當前頻譜值的值。當前頻譜值和預測的頻譜值之間的誤差被確定和該誤差傳送到接收機，值得歡迎的是，在任何給定的時間，當前預測系數(shù)已經有效地從所有先前接收的樣品值當中推導出。在接收機內，系數(shù)被類似地計算和通過組合預測頻譜值和接收的誤差值獲得重構的頻譜值。
在使用后適配預測的特定算法中，經常是這樣情況，在壓縮處理和誤差值發(fā)送時，僅當正壓縮增益獲得時，才能確定完成的壓縮測量。如果不是如此，作為替換，那末傳送實際量化頻率成分信號。
新MPEG-2AAC標準使用音質模型和用1024頻率成分的后適配線性預測。值得重視的是，新MPEG-4VM標準將有類似的要求，然而，由于預測算法的復雜性，這樣大量的頻率成分造成個大量的計算總額和需要可以獲得大存儲器面積去存儲計算系數(shù)。進而，使用后適配柵格預測時，甚至當預測器被“關閉”時(例如，通過傳送誤差值不能獲得壓縮優(yōu)點時)，譯碼器必需持續(xù)地確定系數(shù)，使得需要時預測器能再次“開通”而沒有瞬時的性能變壞，這就提供了附加的計算開銷。
本發(fā)明的目標是克服或至少減輕上述諸缺點的一個或者多個。
通過使用后適配預測算法完成上述目標，該算法對要被編碼的音頻信號的相對大量頻率成分起作用和從該成分的預定量的先前接收的樣本值計算該成分的預測系數(shù)。
依照本發(fā)明的第一方面，這里提供了使用后適配預測的編碼音頻電信號的方法，該方法包括步驟為(a)接收要被編碼的音頻電信號的第一時間幀；(b)變換時間幀為頻域，以產生具有512或更多頻譜成分的頻譜；(c)接收所說音頻電信號的順序時間幀和按順序為這些幀重復步驟(b)，以產生每一頻譜成分的頻譜數(shù)據(jù)值流；(d)對于每一個所說的流，使用預定重構頻譜值流的預定數(shù)目的協(xié)方差為每一個頻譜值計算一組預測系數(shù)，使用所說一組預測系數(shù)產生預測的頻譜值，和計算預測頻譜值和相應的真實頻譜值之間的誤差，其中計算的誤差提供頻譜值流的編碼表示和所說的誤差能和預測頻譜值重新組合以獲得重構的頻譜值。
本發(fā)明的方法并不象通常后適配預測算法那樣從所有預測頻譜成分直接計算一組預測系數(shù)。這就是說，預測系數(shù)為每一個頻譜值被重新計算和不單單從前計算的一組加以適配。這樣，在當預測器被“關閉”時的周期，這就不需要持續(xù)地更新在譯碼器的系數(shù)。
正如已經公開的那樣，從預定數(shù)目的先前頻譜值計算預測系數(shù)的后適配預測算法一般并不適合于被細分為相對小數(shù)目的頻率子帶(例如32)的編碼音頻信號，但這樣的算法適合于當音頻信息被細分為相對大數(shù)目的頻率子帶(例如在MPEG-4標準草案中定義的1024)。這是因為，當大數(shù)目的子帶被定義時，預測算法的階(這是預測系數(shù)的數(shù)目)是低的和使用本發(fā)明的算法能提供高性能和對這樣的低階是計算有效的。最好，預測的階是1或2。最好，預測的階是2。
最好，所說預定數(shù)目的預先接收的連續(xù)頻譜值被用來推導相應數(shù)目的量化頻譜值。它然后是用來計算所說預測系數(shù)的量化值。
最好，從音頻信號取出的時間窗是重疊的。例如，每個窗口可以包含和鄰近窗口有50％重疊的2048個采樣點。然而，窗口可以是連續(xù)的。
在本發(fā)明的特定實施例中，一般新預測值系數(shù)可以由每一個頻譜值加以計算。然而，在另一實施例中，僅為每2個或每3個(或每其它多個)頻譜值計算預測系數(shù)和為幾個連續(xù)頻譜值使用相同系數(shù)可以在計算上更有效，在音頻信號瞬時檢測基礎上立即提供在低系數(shù)更新率(例如每兩個值)和高更新率(例如每個頻譜值)之間提供開關是更適當?shù)摹?br> 需要的編碼質量確定了用來計算每一組預測系數(shù)的預定數(shù)目的先前接收采樣點的低限制。然而，數(shù)目最好是4個或者更多。該數(shù)目的上限是由存儲器和計算限制確定的。該數(shù)目是10或少些，該預定數(shù)目最好是6。
可以使用評價預測系數(shù)任何適當?shù)姆椒?，例如自動相關方法。然而，已經發(fā)現(xiàn)，最小平方法特別有優(yōu)點。
最好，用來計算頻譜值的預測系數(shù)是線性預測系數(shù)。
值得歡迎的是，本發(fā)明趨向于使用音質補償和誤差信號的量化可以依此控制。
依照本發(fā)明的第二方面，這里提供了使用上述第一方面的方法編碼的音頻電信號的譯碼方法，譯碼方法包括步驟為接收一系列對應編碼音頻信號的誤差值為輸入信號和分離這些值為頻譜成分流；對于每一個流，使用一組預測系數(shù)確定每一個誤差值的相應預測頻譜成分值，使用該流的預定數(shù)目的先前確定連續(xù)預測頻譜成分的協(xié)方差計算預測系數(shù)，和組合誤差值和預測的頻譜值提供重構的頻譜值；和通過組合和頻率—時間變換所有流的重構頻譜值實質上重構所說音頻信號。
編碼方法的特定完成細節(jié)將在很大程度上確定譯碼方法完成細節(jié)，例如預測階，這是適當?shù)摹?br> 依照本發(fā)明的第3方面，這里提供了使用后適配預測編碼音頻電信號的裝置，該裝置包括輸入裝置，用于接收要編碼的音頻電信號；時間-頻率域變換器，用于從時間域到頻率域順序變換接收信號的時間幀以提供具有512或更多頻譜成分的頻譜；結合每一個頻譜成分的信號處理裝置，用于接收相關的頻譜值為流，使用預定數(shù)目的先前重構的頻譜值的協(xié)方差為每一個頻譜值計算一組預測系數(shù)，使用所說一組預測系數(shù)產生預測的頻譜值，計算預測值和相應真實頻譜值之間的誤差，該計算的誤差提供接收的頻譜值流的編碼表示和其中所說誤差可和預測的頻譜值重新組合以獲得重構的頻譜值。
依照本發(fā)明的第四方面，這里提供了一個使用本發(fā)明的上述第3方面的裝置編碼的音頻電信號的解碼裝置，該裝置包括輸入端，用于接收相對應編碼音頻信號的一系列誤差值；和信號處理裝置，用于分離所說一系列值為單獨的頻譜成分流和為每一個相應預測頻譜值的誤差值確定一組預測系數(shù)，信號處理裝置被如此安排以使用預定數(shù)目的先前確定連續(xù)重構頻譜值的協(xié)方差計算預測系數(shù)，信號處理裝置進而如此安排以組合每一個誤差值和相應的預測的頻譜值以提供重構的頻譜值和通過組合及頻率-時間變換所有子帶的重構的頻譜值實質上重構所說音頻信號。
依照本發(fā)明的第五個方面，這里提供了組合本發(fā)明第三和第四方面裝置的通訊系統(tǒng)。
依照本發(fā)明的第六方面，這里提供了包括依本發(fā)明的第三和第四方面裝置的移動通訊裝置。
為了更好地理解本發(fā)明和為了示出同樣的內容如何能被有效地完成，以圖為例將做出解釋。

圖1示出了依本發(fā)明的一實施例使用后適配預測的編碼音頻信號的裝置；圖2示意性地示出了對使用圖1裝置編碼的音頻信號進行解碼的裝置；和圖3示出了結合圖1和2裝置的移動電話。
參看圖1，被編碼的脈沖編碼調制(PCM)音頻輸入信號g(t)提供到編碼裝置的第一信號處理單元1的輸入端。安排第一單元1在一幀一幀的基礎上把輸入信號g(t)從時域變換到頻域，每一幀n由2048采樣值組成和相鄰幀有50％的重疊。更具體而言，單元l使用修改的離散余弦變換(MDCT)轉換信號到頻域，使得單元1的輸出由1024頻譜值Xj(n)流組成，每個流j對應著不同的頻譜成分。值得注意的是，可以使用其它變換方法，例如富里埃變換。
提供的每一數(shù)據(jù)流值Xj(n)對應著后適配預測器2的輸入，它的操作詳細描述如下。概括地說，對于每一流的每一頻譜值Xj(n)，預測器2使用依次從先前接收的流的頻譜值推導出來的并順序推導出的重構的量化頻譜值計算一組預測系數(shù)aj(n)。依次使用預測系數(shù)計算頻譜值的誤差系數(shù)ej(n)。每個流的誤差值被提供到量化器3的輸入，它是如此被安排以產生順序數(shù)字傳輸?shù)牧炕`差值
量化的誤差
提供給多路器4，它產生用于傳輸?shù)亩嗦氛`差信號9，和返饋到預測器2。
進一步提供信號處理單元5，以控制信號處理單元1和量化器3的操作，這取決于輸入音頻信號g(t)的音質特性。該單元的操作很普通，在此并不詳細描述。
對于每一個頻譜成分j，X(n)，
和
是預測器2的輸入信號，預測器輸入信號和重構量化信號，和e(n)和
是預測誤差信號和量化預測誤差信號。該組預測系數(shù)可表示為a(n)＝[a1(n)，a2(n)，…，ap(n)]T它是隨時間變化的和這里上標T表示移項。預測器2的輸出信號x(n)被計算為x^(n)=a(n)Tx~(n)=Σi=1Pai(n)x~(n-i)]]>x~(n)=[x~(n-1),x~(n-2),···,x~(n-P)]T]]>和P是預測的階，即系數(shù)。該預測量器誤差是e(n)=x(n)-x^(n)]]>和重構的量化信號是x~(n)=x^(n)+e~(n)]]>預測系數(shù)的計算是基于最小均平方預測誤差a(n)表示為a(n)＝R-1(n)r(n)這里
和符號E這里表示期望值。
值得歡迎的是，一但獲得自相關函數(shù)r(n)，通過解標準等式可以獲得線性預測器。這里表示的最小平方算法估算逐一采樣的線性預測器系數(shù)，最小平方法經常比自動相關方法給出更好的線性預測系數(shù)估算。特別是當所獲得的數(shù)據(jù)是小的時候。通過下面示出可以看到的，當預測器的階是低時，特別是僅兩階時，最小平方算法的復雜性可和現(xiàn)有技術的適配柵格算法的復雜性算法相比或少些。
再次假定，由
表示重構量化信號，對于預測階為2和塊(block)長為L、重構信號的協(xié)方差被計算為r0,0=Σi=2L-1x~2(n-i),r1,1=Σi=2L-1x~2(n-i+1),r0,1=r1,0=Σi=2L-1x~(n-i+1)x~(n-i)]]>r1=Σi=2L-1x~(n-i+2)x~(n-i),r2=Σi=2L-1x~(n-i+2)x~(n-i+1)]]>有效算法應為temp1=Σi=2L-2x~2(n-i),r0,0=x~2(n-L+1)+temp1,r1,1=temp1+x~2(n-1)]]>temp2=Σi=2L-2x~(n-i+1)x~(n-i),r0,1=r1,0=x~(n-L+1)x~(n-L+2)+temp2]]>r2=temp2+x~(n-1)x~(n),r1=Σi=2L-1x~(n-i+2)x~(n-i)]]>為方便起見，兩個線性預測系數(shù)可計算如下a1=r1,1r1-r0,1r2r0,0r1,1-r0,12,]]>a2=r0,0r2-r0,1r1r0,0r1,1-r0,12,]]>值得歡迎的是，從預定的或固定的相對小數(shù)目的先前頻譜值中推導出線性預測系數(shù)，系數(shù)的計算不取決于每一個先前接收的頻譜值。
為了提高后適配預測抗訊道錯誤和數(shù)字四舍五入錯誤的耐用程度，在獲得線性預測系數(shù)以后可以執(zhí)行波帶擴展。讓上述等式是ai，i＝0，1，2，這里a0＝1計算預測系數(shù)，帶寬的擴展操作由riai替代ai，這里r是較小于單位的常數(shù)。
從前一節(jié)中可以看出，協(xié)方差函數(shù)是一個接一個采樣加以更新。相應地，通過解標準方程也可以一個接一個采樣地獲得線性預測系數(shù)。然而，為了節(jié)約計算，線性預測系數(shù)可以以較小的頻率加以計算。例如，可每兩次采樣計算一次線性預測系數(shù)，平均預測增益的損失是可以忽略的。然而，預測增益的損失在要編碼的音頻信號的瞬間的發(fā)生是可以清楚地注意到的。當瞬間被檢測時，瞬間檢測器10因此包括了一開關，它把預測器從正?；虻拖禂?shù)更新率(例如每第二個頻譜值)轉換為高更新率(例如每個頻譜值)。在瞬間檢測完畢后，高更新率可以維持短的周期。
假定，G1表示在定標帶1內的增益，如果G1＞0，在該子帶內的預測器能被開關，這取決于整個預測增益，它計算如下
這里Ns是定標帶數(shù)，如果G補償預測量側信息所需的附加位，即G＞T1(dB)或預測增益并不劇烈地下降即G當前-G先前＜T2(dB)，完整側信息被傳送和產生正增益的預測器被打開。否則，并不使用預測器，這意指瞬間開始了。在瞬間幀被檢測后，一個接一個采樣地計算后適配預測系數(shù)，在特定數(shù)目采樣后，每第二采樣計算預測系數(shù)。
圖2示出了對使用上述詳細描述的方法的編碼信號進行譯碼的裝置。接收的多路傳輸?shù)恼`差信號9提供到分離器6的輸入端，該分離器把信號分為1024頻譜值流ej(n)。這些流然后通過信號處理單元7，對于每一個流，該單元7為每一個誤差值計算一預測或估計的頻譜值。預定數(shù)目的這些估計值依次被用來計算線性預測系數(shù)以允許為當前的采樣計算預測值。該過程與在編碼過程中描述的過程是一致的。通過組合接收的誤差信號和相應預測值獲得重構的頻譜值。提供重構的頻譜值流到進一步的處理器8，它對數(shù)據(jù)執(zhí)行MDCT以實質上再現(xiàn)初始的音頻信號。
圖3示出了裝入在它的發(fā)射機內的對使用上述編碼方法的音頻信號進行編碼的裝置12(對應圖1裝置)的移動電話11。該電話也在它的接收機內裝入了對接收的編碼電話信號進行解碼的裝置13(對應圖2的裝置)。
權利要求
1.對使用后適配預測的音頻電信號進行編碼的方法，該方法包括步驟為(a)接收第一時間幀要被編碼的音頻電信號；(b)變換時間幀為頻率域以產生具有512或更多頻譜成分的頻譜；(c)接收所說音頻電信號的順序時間幀和順序為這些幀重復步驟(b)，以為每一頻譜成分產生頻譜數(shù)據(jù)值流；(d)對于每一個所說的流，使用預定數(shù)目的流的先前確定的重構頻譜值的協(xié)方差為每一頻譜值計算一組預測系數(shù)，使用所說一組預測系數(shù)產生預測的頻譜值，和計算在預測值和相應真實頻譜值之間的誤差，其中計算的誤差提供頻譜值流的編碼的表示和組合所說的誤差和預測頻譜值以獲得重構的頻譜值。
2.權利要求1的方法，其中，預測的階是2。
3.權利要求1或2的方法包括僅在接收多個頻譜值之后重新計算預測系數(shù)和為幾個連續(xù)頻譜值使用相同的系數(shù)。
4.權利要求3的方法，其中，所說的多個是2。
5.權利要求3或4的方法包括在檢測要被編碼的音頻信號內的瞬間基礎上立即在低系數(shù)更新率和高更新率之間轉換。
6.依前述權利要求任何一個的方法，其中，所說預定數(shù)目的頻譜值是4或更多。
7.依前述權利要求任何一個的方法，其中，所說預定數(shù)目的頻譜值是10或更少。
8.依前述權利要求任何一個的方法，其中，使用最小平方法估算預測系數(shù)。
9.權利要求8的方法，當它附到權利要求2時，其中，所說的協(xié)方差被確定如下r0,0=Σi=2L-1x~2(n-i),r1,1=Σi=2L-1x~2(n-i+1),r0,1=r1,0=Σi=2L-1x~(n-i+1)x~(n-i)]]>r1=Σi=2L-1x~(n-i+2)x~(n-i),r2=Σi=2L-1x~(n-i+2)x~(n-i+1)]]>temp1=Σi=2L-2x~2(n-i),r0,0=x~2(n-L-1)+temp1,r1,1=temp1+x~2(n-1)]]>temp2=Σi=2L-2x~(n-i+1)x~(n-i),r0,1=r1,0=x~(n-L+1)x~(n-L+2)+temp2]]>r2=temp2+x~(n-1)x~(n),r1=Σi=2L-1x~(n-i+2)x~(n-i).]]>
10.依權利要求9的方法，其中，預測系數(shù)確定如下a1=r1,1r1-r0,1r2r0,0r1,1-r0,12,]]>a2=r0,0r2-r0,1r1r0,0r1,1-r0,12,]]>
11.對編碼的音頻電信號進行譯碼的方法，該譯碼方法包括步驟接收一系列對應編碼的音頻信號的誤差值為輸入信號和分離這些值為頻譜成分流；對于每一個流，使用一組預測系數(shù)確定每一個誤差值的相應的預測頻譜成分值，使用那個流的預定數(shù)目的先前確定連續(xù)預測頻譜成分的協(xié)方差計算預測系數(shù)，和組合誤差值和預測的頻譜值提供重構的頻譜值；和通過組合和頻率-時間變換所有流的重構頻譜值實質上重構所說音頻信號。
12.使用后適配預測對音頻電信號進行編碼的裝置，該裝置包括一輸入端，用于接收要編碼的音頻電信號；時間-頻率域變換器，順序地把接收的信號的接收時間幀從時域變換到頻域以提供具有512或更多頻譜成分的頻譜；與每一個頻譜成分相關的信號處理裝置，用于接收相關的頻譜值作為流，使用預定數(shù)目的預先重構的頻譜值的協(xié)方差為每一頻譜值計算一組預測系數(shù)，使用所說一組預測系數(shù)產生預測頻譜值，計算預測值和相應真實頻譜值之間的誤差，計算的誤差提供接收頻譜值流的編碼的表示和其中所說誤差和預測頻譜值重新組合以獲得重構的頻譜值。
13.對編碼的音頻電信號進行解碼的裝置，該裝置包括一輸入端，用于接收一系列對應編碼音頻信號的誤差值；和信號處理裝置，用于分離所述一系列值為單獨的頻譜成分流和為每一個對應預測頻譜值的誤差值確定一組預測系數(shù)，信號處理裝置如此構成，使得使用預定數(shù)目的先前確定連續(xù)重構的頻譜值的協(xié)方差計算預測系數(shù)，信號處理裝置進一步如此安排以組合每一個誤差值和相應的預測頻譜值以提供重構的頻譜值和通過組合及頻率-時間變換所有子帶的重構頻譜值實質上重構所說的音頻信號。
14.通訊系統(tǒng)，包括了權利要求12和權利要求13裝置的組合。
15.移動通訊裝置，包括了權利要求12和13裝置的組合。
全文摘要
對使用后適配預測的音頻信號進行編碼的方法。要被編碼的音頻電信號的第一時間幀被接收和被變換到頻域,這是使用修改的離散余弦變換完成的,產生的頻譜具有1024個頻譜成分。音頻電信號的順序時間幀然后被接收和對每一時間幀依次實行MDCT以為每一頻譜成分產生頻譜數(shù)據(jù)值流。對于每一流,使用流的預定數(shù)目的先前接收連續(xù)頻譜值為每一頻譜值計算一組預測系數(shù)。使用該組線性預測系數(shù),產生預測的頻譜值和計算預測頻譜值和相應真實頻譜值之間的誤差,計算的誤差提供頻譜值流的編碼表示。
文檔編號G10L19/00GK1199959SQ98107058
公開日1998年11月25日申請日期1998年2月6日優(yōu)先權日1997年2月7日
發(fā)明者殷林申請人:諾基亞流動電話有限公司

完整全部詳細技術資料下載