專利名稱:用于最小化感知失真的組合音頻編碼的制作方法
技術領域:
本發(fā)明涉及高質(zhì)量低比特率音頻信號編碼領域。本發(fā)明尤其涉及在感知音質(zhì)方面進行優(yōu)化的有效編碼,同時考慮到目標比特率。更具體地說,本發(fā)明涉及利用多個編碼器來進行音頻信號編碼以產(chǎn)生共同的編碼信號表示。本發(fā)明還涉及編碼器、解碼器、編碼和解碼方法、編碼音頻信號、具有表示這樣一種編碼信號的數(shù)據(jù)的存儲和傳輸介質(zhì)、以及具有編碼器和/或解碼器的音頻設備。
背景技術:
在高質(zhì)量音頻編碼中,眾所周知的是需要不同編碼方法以便為多種音頻信號提供相對于音質(zhì)對比特率而言的最佳結果。一種編碼方法可為某種類型的音頻信號提供良好的結果,然而其他類型的音頻信號會導致性能較差。對很低的比特率來說,加上噪聲模型的正弦編碼器是最有效率的,但是波形編碼技術通常會為較高比特率帶來較好的結果。
在當前的MPEG 2和MPEG 4標準中,都意識到不同編碼策略可能對不同比特率更有效這樣的問題。因而,這個標準中包括了大范圍的不同音頻編碼器,大部分音頻編碼器的目的都在于為有限范圍的比特率提供最好的結果。
然而,正常音頻信號甚至在短時期內(nèi)都會包括多種信號屬性的混合。因此,甚至幾秒的音頻信號也包括例如受正弦波音(puretones)、噪聲或瞬變現(xiàn)象所支配的較短剪輯這樣的現(xiàn)象是十分常見的。這些不同特性需要不同編碼特性以進行最佳的編碼,也就是說,根據(jù)信號的某種剪輯的比特率或品質(zhì),使用單一類型的編碼器會導致十分差的結果。
Scott Levine所做的Ph.D.[1](參見“實施方式描述”部分結尾處的參考列表)描述了一種包括在正弦(或參數(shù))編碼器與波形編碼器之間的結合的編碼器。利用參數(shù)編碼器對音頻信號的最大部分進行編碼,同時波形編碼器僅用于音頻信號的瞬變部分。在這個方案中,應用了參數(shù)編碼器和波形編碼器之間的預定分配。
Philips名義下的美國專利5,808,569描述了這樣一種編碼方案,其中利用兩種不同的編碼策略對信號的不同部分進行編碼。然而,沒有提供另一種規(guī)范來確定在不同的編碼器間如何分配比特率。
因此,現(xiàn)有技術的音頻編碼器沒有解決響應于改變音頻信號的參數(shù)而控制兩種或多種不同編碼方案的問題。
發(fā)明內(nèi)容
本發(fā)明的一個目的是提供一種靈活的音頻編碼器,其能夠為多種音頻信號特性以及為不同的目標比特率來高效率地提供高質(zhì)量的音頻編碼。
根據(jù)本發(fā)明的第一方面,這個目的是由用于對音頻信號進行編碼的音頻編碼器來實現(xiàn)的,該音頻編碼器包括 -用于產(chǎn)生第一編碼信號部分的第一編碼器, -用于產(chǎn)生第二編碼信號部分的至少第二編碼器,以及 -控制單元,包括 -估算裝置,用于相對于失真測量來對包括第一和第二編碼信號部分在內(nèi)音頻信號的共同表示進行估算,以及 -優(yōu)化裝置,用于調(diào)整第一和第二編碼器中至少一個的編碼參數(shù),并且響應于此來監(jiān)視音頻信號的共同表示的失真測量,以便根據(jù)預定標準來優(yōu)化編碼參數(shù)。
術語‘失真測量’應該被看作是音頻信號與編碼音頻信號之差的任何測量,即音頻信號的共同表示。
術語‘編碼參數(shù)’應該被寬泛地看作是可以為特定編碼器進行調(diào)整的一個或多個可能的編碼變量。這些編碼參數(shù)的性質(zhì)取決于編碼器的類型。
假定某個最大比特率限制,根據(jù)第一方面的音頻編碼器能夠為音頻信號的每個剪輯采用最佳編碼,以便最好地利用兩個共同編碼器,以得到最小的可能感知失真,即最佳的感覺品質(zhì)。尤其是通過選擇第一和第二編碼器,以便它們使用完全不同的編碼原理提供一種有效率的編碼。例如,對于具有某種信號特性的一個剪輯來說,僅利用第一編碼器所采用的總比特率就幾乎可以得到最有效率的編碼,而下一個剪輯則顯示出需要兩種編碼器的結合,以得到最佳編碼的不同特性。根據(jù)第一方面的編碼器能夠用于不同的音頻信號特性并且還能夠提供在不同的最大比特率限制下的最佳性能。眾所周知,某些編碼器在特定比特率下執(zhí)行最好。由于兩個編碼器的優(yōu)化結合而考慮到這一點,因而保證了為大范圍的目標比特率獲得最佳編碼效率。第一和第二編碼器的編碼參數(shù)最好都被優(yōu)化。
原則上,根據(jù)本發(fā)明的編碼器允許根據(jù)多種標準來優(yōu)化它的獨立編碼器的編碼參數(shù)。在一個實施方式中,優(yōu)化裝置用于調(diào)整編碼參數(shù)以便最小化失真測量,即根據(jù)這個標準,不必進行有效比特率的任何考慮就可以優(yōu)化音質(zhì)。然而,這個實施方式可以由第一和第二編碼器的預定最大總比特率的約束條件來修改。
在另一個實施方式中,優(yōu)化裝置用于通過在預定最大總比特率內(nèi),把第一和第二比特率分別分配給第一和第二編碼器而最小化失真測量。這個音頻編碼器實施方式設法在兩個編碼器之間最有效地分配總比特率,以便最小化失真。在具有固定比特率的有限集合且兩個編碼器具有恒定總比特率和的兩個編碼器的簡單實施方式中,優(yōu)化裝置只須調(diào)整在兩個編碼器之間的比特率分配。
在其他實施方式中,優(yōu)化裝置用于利用預定最大失真測量的約束條件來最小化第一和第二信號部分的總比特率。根據(jù)這個實施方式,優(yōu)化標準將最小化固定的失真測量的總比特率。
在優(yōu)選實施方式中,失真測量包括感知失真測量。術語‘感知失真測量’應該大致上被看作是質(zhì)量表示,例如根據(jù)心理聲學模型來表達出編碼信號相對于所感覺的音質(zhì)而言失真到了哪個程度。換句話說,編碼信號的感知失真的測量是用于表達聽眾所感覺的原始輸入音頻信號的衰變范圍的數(shù)值。顯然,這個測量最好被最小化以便達到編碼信號的最佳音質(zhì)的目標。
在優(yōu)選實施方式中,第一編碼器用于把音頻信號編碼成第一編碼信號部分,以及第二編碼器用于把第一殘留信號編碼成第二編碼信號部分,所述第一殘留信號解釋為音頻信號與第一編碼信號部分之差。這個實施方式描述了兩個編碼器的級聯(lián),其中第二編碼器對第一編碼器未編碼的原始信號的剩余部分進行編碼。失真測量最好基于第二殘留信號的,所述第二殘留信號解釋為第一殘留信號與第二編碼信號部分之差。這些意味著要采用兩個編碼器沒有編碼的原始音頻信號的剩余部分與原始音頻信號一同來創(chuàng)建失真測量。更一般地說,在多于兩個編碼器的級聯(lián)中,其中每個編碼器都對級聯(lián)中的它前面的編碼器的殘留信號進行編碼,把級聯(lián)中未被最后一個編碼器解碼的余下信號用作控制單元的輸入以進行優(yōu)化處理。
在另一個優(yōu)選實施方式中,音頻編碼器還包括信號分路器,其用于把音頻信號拆分成第一和第二部分,其中第一編碼器用于把第一音頻信號部分編碼成第一編碼信號部分,以及其中第二編碼器用于把第二音頻信號部分編碼成第二編碼信號部分。因而在這個實施方式中,第一和第二編碼器并行操作。例如,信號分路器包括用于把音頻信號拆分到不同頻率范圍中的濾波器組。
音頻編碼器還包括用于產(chǎn)生第三編碼信號部分的第三編碼器,其中控制單元用于處理包括第一、第二和第三編碼信號部分在內(nèi)的音頻信號的共同表示。三個編碼器可以級聯(lián)的放式并行操作,如上所述,或者采用其組合的方式。音頻編碼器可包括多于三個編碼器,即四個、五個、六個或更多編碼器。它們可以被級聯(lián)、被并聯(lián),或以級聯(lián)與并聯(lián)組合的方式被耦合。多個編碼器可以是不同類型的或者至少表示兩種不同類型。
優(yōu)化裝置最好用于根據(jù)預定標準,在第一和第二編碼器的第一和第二編碼模板的預定集合中分別選擇出用于產(chǎn)生最佳性能的一對第一和第二編碼模板。此處,‘編碼模板’應當被看作是對于特定編碼器來說意味著所調(diào)整的編碼參數(shù)的所選集合。因而,‘預定模板的集合’應當被看作是對于特定編碼器來說,意味著不同地選擇的編碼參數(shù)的集合。
第一編碼器最好包括從下述組中選擇的編碼器,所述組包括參數(shù)編碼器(例如正弦編碼器)、變換編碼器、規(guī)則脈沖激勵編碼器(Regular Pulse Excitation encoders)以及密碼本激勵線性預測編碼器(Codebook Excited Linear Prediction encoders)。第二編碼器最好包括從相同組中選擇的編碼器。第一編碼器還可以是組合編碼器。最好,第一和第二編碼器是不同類型的以便它們采用可能達到最佳的方式來相輔相成。然而,第一和第二編碼器也可以是相同類型的,但是具有不同編碼模板。
音頻編碼器最好用于接收被分成片段的音頻信號。優(yōu)化裝置最好用于在音頻信號的一個或多個連續(xù)片段上優(yōu)化編碼參數(shù)。這些片段可以是重疊的或不相重疊的。最好,在優(yōu)化處理中采用了三個或更多的連續(xù)片段。
本發(fā)明的第二方面提供了一種用于對編碼音頻信號進行解碼的音頻解碼器,該音頻解碼器包括 -用于從第一編碼信號部分中產(chǎn)生第一解碼信號部分的第一解碼器, -用于從第二編碼信號部分中產(chǎn)生第二解碼信號部分的第二解碼器,以及 -求和裝置,用于產(chǎn)生音頻信號的表示以作為第一和第二解碼信號部分的總和。
第一和第二解碼器必須是與編碼處理所使用的相同類型的。否則,它們不能對包含諸如正弦參數(shù)等等之類的編碼器特定數(shù)據(jù)的第一和第二編碼信號進行解碼。解碼器可在編碼信號每個部分上完全并行地操作。
因而,可以從與結合音頻編碼器而在前面列出的相應類型中選擇出優(yōu)選的第一和第二解碼器。
就音頻編碼器而言,解碼器還包括用于從第三編碼信號部分中產(chǎn)生第三解碼信號部分的第三解碼器,其中求和裝置用于產(chǎn)生音頻信號的表示以作為第一、第二和第三解碼信號部分的總和。音頻解碼器還可以包括第四、第五、第六或更多獨立的解碼器,每個解碼器用于對編碼音頻信號的獨立部分進行解碼。所有解碼信號部分都應當被相加以產(chǎn)生輸出音頻信號。
在第三方面中,本發(fā)明提供了一種用于對音頻信號進行編碼的方法,該方法包括以下步驟 -利用第一編碼器產(chǎn)生第一編碼信號部分, -利用第二編碼器產(chǎn)生至少一個第二編碼信號部分, -相對于失真測量而對包括第一和第二編碼信號部分在內(nèi)的音頻信號的共同表示進行估算,以及 -根據(jù)預定標準響應于所述失真測量而優(yōu)化第一和第二編碼器的編碼參數(shù)。
應用與第一方面相同的說明。
在第四方面中,本發(fā)明提供了一種對編碼音頻信號進行解碼的方法,該方法包括以下步驟 -利用第一解碼器來從第一編碼信號部分中產(chǎn)生第一解碼信號部分, -利用第二解碼器來從第二編碼信號部分中產(chǎn)生第二解碼信號部分, -把第一和第二解碼信號部分相加。
應用與第二方面相同的說明。
在第五方面中,本發(fā)明提供了一種編碼音頻信號,其包括由不同編碼器所編碼的第一和第二編碼信號部分。
編碼信號可以是具有根據(jù)標準數(shù)字音頻格式的格式的數(shù)字電信號。通過利用兩個音頻設備之間的電氣連接電纜來傳送該信號。然而,編碼信號也可以是諸如利用無線電頻率載波的空中傳播信號之類的無線電信號,或者可以是用于經(jīng)由光纖來傳送的光信號。
在第六方面中,本發(fā)明提供了一種存儲介質(zhì),其包括用于表示根據(jù)第五方面的編碼音頻信號的數(shù)據(jù)。存儲介質(zhì)最好標準音頻數(shù)據(jù)存儲介質(zhì),諸如DVD、DVD-ROM、DVD-R、DVD+RW、CD、CD-R、CD-RW、壓縮閃存(compact flash)、存儲棒(memory stick)等等。然而,它也可以是諸如計算機硬盤、計算機存儲器、軟盤等等之類的計算機數(shù)據(jù)存儲介質(zhì)。
在第七方面中,本發(fā)明提供了一種包括根據(jù)第一方面的音頻編碼器的設備。
在第八方面中,本發(fā)明提供了一種包括根據(jù)第二方面的音頻解碼器的音頻設備。
根據(jù)第七和第八方面的所有優(yōu)選設備是不同類型的音頻設備,諸如磁帶、盤或基于存儲器的錄音機和播放器,例如固態(tài)播放器、DVD播放器、計算機的音頻處理器等等。另外,它對移動電話有益。
第九和第十方面提供了計算機可讀程序代碼,即軟件,其包括分別用于實現(xiàn)根據(jù)第三和第四方面的編碼和解碼方法的算法。
在下文中參考附圖來更詳細地描述本發(fā)明,其中 圖1是第一音頻編碼器實施方式的方框圖,其包括級聯(lián)的兩個編碼器,所述編碼器用于根據(jù)每個音頻剪輯的總目標比特率的約束條件來操作, 圖2顯示了用于舉例說明用以得出感知失真測量的屏蔽曲線和誤差光譜的例子的圖表, 圖3顯示了用于舉例說明對于兩個不同的聲音例子來說第一和第二編碼器之間比特率的分配對最終總感知失真的影響的圖表, 圖4是包括兩個解碼器的音頻解碼器的方框圖, 圖5舉例說明了第二編碼器實施方式,其包括級聯(lián)的兩個編碼器,所述編碼器利用許多可能的編碼模板對每個音頻剪輯進行操作, 圖6舉例說明了在第二編碼器實施方式的兩個編碼器之間的片段和重疊的例子,以及 圖7舉例說明了包括兩個并聯(lián)操作的編碼器的第三編碼器實施方式。
雖然在本發(fā)明的范圍內(nèi)各種修改和替換形式都是可能的,但是在附圖中以示例的方式顯示了特定實施方式并且在下文中詳細地描述了所述特定實施方式。然而應當指出本發(fā)明不局限于所公開的特殊方式。相反,本發(fā)明覆蓋了在所附權利要求中所定義的本發(fā)明的精神和范圍內(nèi)的所有修改、等價體及替換。
具體實施例詳述 圖1是舉例說明第一、簡單編碼器實施方式的原理的方框圖,其包括級聯(lián)的兩個不同編碼器AE1、AE2,所述編碼器AE1、AE2以每幀固定的總目標比特率進行操作。幀被定義為一個時段,其等于單個片段或者持續(xù)時間大于單個片段。第一編碼器AE1最好包括正弦編碼器,而第二編碼器AE2包括變換編碼器。正弦編碼方法在低比特率下有效率,并且在相對低比特率下與波形編碼器相比可提供較好的音質(zhì)。變換編碼器已知需要更大的比特率需求,但是可達到比正弦編碼器更好的音質(zhì)。因而,總而言之,其組合提供一個靈活的音頻編碼器。
在圖1所示編碼方案中,由第一編碼器AE1利用目標比特率的某個比例R1來對音頻信號ε0的剪輯進行編碼。由第一編碼器AE1所占有的比特率的比例R1由控制單元CU來控制。在第一編碼器AE1中進行了正弦編碼之后,從原始輸入信號ε0中減去第一編碼信號部分E1(即非量化的正弦描述)以得到殘留信號ε1(即正弦編碼器AE1沒有建模的那部分信號)。然后由第二編碼器AE2(即波形編碼器)用總比特率的剩余部分R2來把殘留信號ε1編碼成第二編碼信號部分E2,所述總比特率的剩余部分R2用于對幀進行編碼。
在這個實施方式中,控制單元CU現(xiàn)在通過測試兩個編碼器AE1、AE2之間的比特率R1、R2的許多替換分配并且估算相對于感知失真測量的共同編碼結果,來優(yōu)化共同編碼信號E1、E2的所感覺到的音質(zhì)。感知模型最好用于提供感知失真的測量。[4]中給出了一種明確地提出預測感知失真的方式的優(yōu)選模型。典型地,這種優(yōu)化必須在逐幀基礎上完成以允許編碼器適應本地信號屬性。
控制單元CU存儲對兩個編碼器AE1、AE2之間的比特率的具體分配R1、R2的所感知失真測量,并且嘗試另一種分配直到找到最佳分配。為了這個目的,控制單元CU把第二編碼器AE2之后的誤差信號ε2與原始輸入信號ε0相比較。誤差信號或殘留信號ε2被定義為第一殘留信號ε1與第二編碼信號部分E2之差,換句話說沒有被兩個編碼器AE1、AE2編碼的最終余下信號。
在已經(jīng)測試了比特率分配R1、R2的預定集合之后,控制單元CU根據(jù)所確定的感知失真測量來判定出用于產(chǎn)生要采用的最小感知失真的比特率分配R1、R2。根據(jù)這個分配R1、R2,最終的第一和第二信號部分E1、E2(即編碼器AE1、AE2所產(chǎn)生的參數(shù)和數(shù)據(jù))分別由比特流格式器BSF進行處理以便提供編碼輸出比特流OUT。
要測試的比特率分配R1、R2的預定集合例如是總目標比特率的5%、10%、20%或25%的步長的所有組合,即R1+R2。在64kbps的目標比特率的情況下,例如(R1,R2)的集合可被選定為(0.64)、(16.48)、(32.32)、(48.64)以及(64.0)kbps。
正弦編碼器AE1比波形編碼器AE2更有效率的精確轉(zhuǎn)折點取決于要編碼的具體音頻材料;例如,例如32kbps的比特率的音頻剪輯由正弦編碼器來最有效地編碼,而在相同的比特率下,利用波形編碼器來對另一個音頻剪輯進行編碼。
如上所述,控制單元CU測試比特率分配R1、R2的全部預定集合。在替換優(yōu)化處理中,當比特率組合R1、R2產(chǎn)生低于預定標準值的感知失真的測量時,控制單元CU停止測試另一個比特率分配組合R1、R2。
因而,參考圖1所描述的實施方式將得到所包括的兩個音頻編碼器AE1、AE2的能力的最佳使用,因為音頻編碼器AE1、AE2會被用于每個具體的音頻剪輯。這導致1)為必須編碼的音頻的具體幀自動地選擇最佳音頻編碼器,2)對于其中產(chǎn)生較佳品質(zhì)的情況,允許音頻編碼器的組合使用。
第二編碼器AE2之后剩余的殘留信號ε2被用作噪聲編碼器(未顯示)的輸入信號。用這種方法,沒有被兩個編碼器AE1、AE2建模的至少一些頻譜部分可以被替代為噪聲,這通常會導致良好的品質(zhì)提高。
在第一正弦編碼器AE1的優(yōu)選實現(xiàn)中,心理聲學匹配追蹤算法[5]用于估計正弦曲線。正弦曲線的片段和分配最好根據(jù)[6]中所描述的方法來完成。
第二變換編碼器AE2的優(yōu)選實現(xiàn)基于[7]中所描述的濾波器組。第二編碼器AE2的片段繼第一編碼器AE1的片段之后或者第二編碼器AE2采用均勻片段。
第二編碼器AE2之后的殘留信號ε2最好由感知模型[4]來估算,以測量總感知失真。這一點最好通過確定原始信號IN的每個幀的屏蔽函數(shù)v(f)來完成。屏蔽函數(shù)可被理解成人類聽覺閾值的頻譜表示,假設把作為人類聽覺系統(tǒng)的輸入的所討論的音頻信號作為頻率f的函數(shù)。然后時間域殘留信號ε2用來得出作為頻率f的函數(shù)的誤差譜s(f)。如[4]的等式9所示,誤差頻譜信號與屏蔽函數(shù)的倒數(shù)的內(nèi)積提供了感知失真的良好預測算子,即感知失真D可被計算為 圖2顯示了用于舉例說明屏蔽曲線v(f)以及誤差頻譜s(f)的例子的圖表,v(f)由虛線表示、由所提及的感知模型來計算,s(f)由實線表示、其用于得出如上所指出的感知失真測量D。該圖表顯示了線性頻率標度f對以dB為單位的電平(Lp)。圖2顯示了在較低的頻率(例如100Hz左右)下,誤差信號s(f)與屏蔽曲線v(f)相比具有顯著的電平,因而這個頻率范圍有助于總感知失真D。在10-12kHz以上,上升的屏蔽曲線基本上由無聲的人類聽覺閾的上升所引起。
圖3顯示了對于不同的音頻信號的兩個圖表,其舉例說明了在音頻編碼器具有正弦編碼器和波形的情況下(諸如參考圖1所描述的那樣),總感知失真TPD對分配給正弦編碼器PBRS的一部分比特率的依賴性。不同的音頻信號表示從響板上錄的聲音(上面的圖表)以及從大鍵琴上錄的聲音(下面的圖表)。下述符號表示不同總比特率12kbps(圓)、24kbps(加號)以及48kbps(星號)。粗線表示各種總比特率的比特率分配的選擇。
如從響板(上面的圖表)中所看到的,作為比特率分配的函數(shù),感知失真十分恒定,至少在12kbps(圓)和24kbps(加號)。然而對于48kbps(星號)來說,與把大部分比特率發(fā)送給正弦編碼器相比,把大部分的比特率發(fā)送給波形編碼器顯示是有益的。對于大鍵琴(下面的圖表)來說,出現(xiàn)了不同的圖片。此時,顯然甚至在高比特率下正弦編碼器仍要接收大約一半的比特率,而在低比特率下顯然最好把全部比特率用于正弦編碼器。
要注意的是雖然通過評估和優(yōu)化全部的音頻剪輯而得到了圖3所示例子,但是這種優(yōu)化方法被認為是用在較短的音頻片段上以便可以對信號屬性更本地性地采用比特率R1、R2分配。
圖4是適合于對編碼音頻信號進行解碼的音頻解碼器的方框圖,所述編碼音頻信號例如由參考圖1所描述的音頻編碼器來編碼的音頻信號。音頻解碼器包括與第一和第二編碼器AE1、AE2的類型相對應的第一和第二解碼器AD1、AD2,以便它們適合于從編碼器AE1、AE2中接收第一和第二編碼信號部分E1、E1。在輸入比特流IN中接收解碼音頻信號,以及由比特流解碼器BSD來提取第一和第二解碼信號部分E1、E2。然后第一解碼信號部分E1被用于第一解碼器AD1,而第二解碼信號部分E2被用于第二解碼器AD2。解碼器AD1、AD2可獨立地對它們的部分進行解碼,并且然后把最終的第一和第二解碼信號部分D1、D2簡單地相加以便產(chǎn)生原始音頻信號的表示OUT。
圖5是包括級聯(lián)的第一和第二獨立編碼器AE1、AE2的另一個音頻編碼器實施方式的方框圖。其中結合第一實施方式描述的編碼方案(圖1所示)根據(jù)每個預定時段或片段的恒定總比特率(R1+R2)的約束條件來操作,這個約束條件在圖5的第二實施方式中被放寬。原則上這個第二實施方式考慮了至少第一編碼器AE1的所有可能編碼參數(shù),最好也考慮了第二編碼器AE2的所有可能編碼參數(shù),以及與圖1的第一音頻編碼器相比這也產(chǎn)生了降低的感知失真。然而,與第一音頻編碼器實施方式相比,第二音頻編碼器實施方式實現(xiàn)起來更加復雜。因而,與第一實施方式相比,第二實施方式允許適合于每個音頻信號剪輯的要求的比特率,其允許較好地優(yōu)化兩個編碼器AE1、AE2,以及因此在與大量音頻剪輯的平均相等的所考慮比特率下,第二音頻編碼器實施方式能夠?qū)崿F(xiàn)較低的感知失真,即較高的音質(zhì)。
在圖5的音頻編碼器中,第一和第二不同的編碼器AE1、AE2都適合于以許多不同的方式來對所接收的輸入信號ε0進行編碼。這些編碼選項被稱作編碼模板。例如,在正弦編碼器的情況下,一個具體編碼模板指定了用于表示輸入音頻片段的正弦曲線的一個具體集合,而不同的模板可指定正弦曲線的不同集合。因此所有可能模板的集合允許編碼器執(zhí)行每種可能的編碼操作,因而能把它的編碼應用于每個音頻剪輯。第一和第二編碼器AE1、AE2的模板分別表示為第一和第二模板T1、T2。
對于所選擇的每兩個編碼模板T1和T2來說,第一編碼器AE1都把音頻輸入信號ε0編碼成第一編碼信號部分E1。由于不完善的編碼的原因,編碼會產(chǎn)生殘留信號ε1,所述殘留信號ε1然后由第二編碼器AE2編碼成第二編碼信號部分E2。第二編碼處理再次產(chǎn)生殘留信號ε2,所述殘留信號ε2由控制單元CU利用感知模型進行估算,所述感知模型會產(chǎn)生感知失真的測量的計算。為了決定輸入音頻信號ε0的最終編碼,控制單元CU為了從產(chǎn)生最小的感知失真的測量的所允許編碼模板T1、T2的預定集合中找到編碼模板T1、T2而執(zhí)行優(yōu)化程序。為了這個目的,除感知失真的測量之外,還要考慮兩個編碼器AE1、AE2中每一個的比特率R1、R2(或其估算)。
一旦找到了最終編碼模板T1、T2,就把這些模板T1、T2用于產(chǎn)生分別由第一和第二編碼器AE1、AE2中得到的第一和第二編碼信號部分E1、E2。這些第一和第二編碼信號部分E1、E2被施加到比特流格式器BSF,所述比特流格式器BSF形成輸出比特流OUT。
第一編碼器AE1最好包括正弦編碼器,而第二編碼器AE2包括變換編碼器。感知失真D的測量最好根據(jù)[4]來計算,如結合第一編碼器實施方式而描述的那樣。
下述公式給出了控制單元CU不得不解決的優(yōu)化問題的公式定義 其中D2在ε2的基礎上被計算并且表示由感知模型(例如[4])所預測的感知失真,以及n是片段號,假定信號要按照取自總輸入信號ε0的許多短時間片段來被編碼。這個最小化問題不得不根據(jù)下述約束條件而被最小化 其中RT是目標比特率。
當采用此處所制定的方法解決了這個問題時,原則上編碼模板T1、T2的所有組合都必須被測試,以便發(fā)現(xiàn)這個最小化問題的解決方案。假定對于每個片段來說分別存在第一和第二編碼器AE1、AE2的M個編碼模板,則需要被測試的組合總數(shù)是 #=M2N 對于所有實際情況來說,這個問題不能被有效地解決,因此在下文中提出了一種更有效的解決方案。然而,中心思想仍然是解決此處提出的問題,或者解決其至少一部分變型。從約束條件最優(yōu)化理論中已知的是,可以通過把這類問題分成每個片段需要解決的若干獨立的優(yōu)化問題的方式而把這類問題重新用公式表示。這一點可根據(jù)下述約束條件來完成,所述約束條件即兩個編碼器AE1、AE2的比特率R1、R2跨越多個片段而獨立且附加。類似地,跨越多個片段的感知失真測量也必須是附加且獨立的。
要注意的是這個問題的解決會導致最小化諸如由受總比特率約束條件影響的感知失真測量所預測的感知失真。含蓄地說,對于各個片段,比特率可能會不同。另外,感知失真不會跨越多個片段恒定。然而,允許跨越多個片段的這些不同會產(chǎn)生比對每個片段來說保持比特率或感知失真恒定時更低的總感知失真。
根據(jù)以上給定的約束條件,可以通過定義需要被最小化的N個獨立的成本函數(shù)而把該問題重新用公式表示 J(T1(n),T2(n),n)=D2(T1(n),T2(n),n)+λ[R1(T1(n),n)+R2(T1(n),T2(n),n)] (I) 需要解決的問題現(xiàn)在得出了λ以便 其中把T1,2min(n)選定為下式 對問題的這種重新的解決方式的優(yōu)點在于現(xiàn)在借助于拉格朗日乘子λ把N個獨立的問題連接起來。實際上這意味著λ的初始值被選定。利用這個值,對于每個片段n獨立地解決等式(III)中給定的最小化。這些優(yōu)化之后,可檢驗是否滿足等式(II)。根據(jù)目標率RT與所使用的總比特率之差,可以采用λ。這個處理可被重復直到找到(根據(jù)等式II)最佳的或者滿意的λ值。
解決等式(III)中所說明的優(yōu)化問題隱含了為所考慮的具體片段n測試編碼模板T1、T2的所有組合。對于特定的單個編碼器AE1、AE2來說,當事先(a priori)已知超出子集范圍的模板產(chǎn)生非最優(yōu)解決方案時,通常有可能從所有可能的編碼模板T1、T2中選擇出編碼模板T1、T2的子集。對于等式(III)中給定的共同優(yōu)化,兩個編碼器AE1、AE2之間的依賴性使得難以事先從優(yōu)化處理的考慮中放棄某個編碼模板T1、T2。然而,當假定編碼模板T1已知時,因為模板T2會有秩序地應用于最后的編碼器AE2,所以有可能對優(yōu)化處理中不需要考慮的模板T2做出選擇,更具體地說,為第二編碼器AE2選擇具體的編碼模板T2不會影響第一編碼器AE1的編碼。對于第一編碼器AE1,因為T1的選擇會影響第二編碼器AE2的狀態(tài)(參見等式I,其中R2取決于T1與T2),所以這是不可能的。因此,不可能不考慮它對編碼器AE2的影響就放棄編碼器AE1的編碼模板T1。限制編碼器AE1的編碼模板T1的總集合固然更加難以實現(xiàn)。然而,為了減少計算復雜性,有可能例如通過假定第一編碼器AE1單獨地操作來限制編碼器AE1的候選模板T1的數(shù)目。
因而,實際上,通過首先選擇編碼模板T1然后計算提交給編碼器AE2的殘留ε1而解決了等式(III)中陳述的優(yōu)化問題。因為T1已知,第二編碼器AE2根據(jù)等式(III)的簡化方案進行優(yōu)化 如上所述,有可能不用考慮所有可能的編碼模板T2就能解決第二編碼器AE2的大部分選擇中的這種優(yōu)化。解決了最小化之后,可以選擇第一編碼器AE1的新模板T1直到為考慮中的片段找到等式(I)的最佳解決方案。
因而在本節(jié)中給出的解決方案可以在下列算法(A1)中被概括為加上拉格朗日乘子λ的每個片段找出最佳編碼模板T1、T2,以便滿足目標比特率。
(A1) Findλ Loop n Loop T1(n) Encode ε0 with encoder AE1 Loop T2(n) Encodeε1 with encoder AE2 Derive J′(n)(see Eq.IV) Remember best T2(n)and J′(n) End Loop T2(n) Derive J(n)(see Eq.I) Remember best T1(n),T2(n)and J(n) End Loop T1(n) End Loop n Updateλ End Findλ 在(A1)中,對T1的循環(huán)用于得出等式(III)的最佳解決方案,例如以最小化全局成本函數(shù)。作為這個問題的一部分,還有對T2的循環(huán),其最小化等式(IV)中所給出的第二編碼器AE2的成本函數(shù)。
要注意到,采用此處把該問題用公式表示的方式,同時對若干片段執(zhí)行優(yōu)化。在片段的這個集合內(nèi),允許比特率跨越多個片段發(fā)生變化。在許多實際情況中,僅同時評估片段的有限集合。有兩種選項來處理這個約束條件 1)每次為片段的每個集合確定λ,以便片段的集合內(nèi)的比特率滿足所需要的目標比特率。
2)在片段的每個集合之后采用λ以補償在比特率與過去的編碼操作中的目標比特率之間的不匹配。
在下文中假定圖5的編碼器AE1是正弦編碼器而第二編碼器AE2是變換編碼器。對于第一編碼器AE1,不會考慮所有的編碼模板T1。僅考慮最小化某個λ1(n)的成本函數(shù)的編碼模板T1 J1(n)=D1(T1(n),n)+λ1(n)R1(T1(n),n)(V) 其中D1是由第一編碼器AE1編碼之后的所測量的感知失真。
兩個編碼器AE1、AE2具有相同片段,并且在編碼和解碼階段每個編碼器AE1、AE2都采用重疊片段。因為由編碼器2編碼片段n所需的殘留信號ε1(n)取決于編碼模板T1(n-1)、T1(n)以及T1(n+1),所以這需要改良算法(A1)。
為了闡明這個問題,圖6顯示了在包括編碼模板的兩個編碼器AE1、AE2的片段之間的用三角形窗口表示的片段和重疊的例子。如在圖6中可見的那樣,第一編碼器AE1之后的殘留信號ε1(n)取決于在片段n-1、n、n+1中為第一編碼器AE1所選擇的編碼模板T1。典型地,因為片段是以連續(xù)的順序(參見算法(A1))一次一個地被優(yōu)化的,所以當片段n被優(yōu)化時編碼模板T1(n+1)不是已知的。然而,因為編碼模板T1(n-1)還取決于片段n中得出的解決方案,所以雖然它可能不是最佳解決方案,但是當片段n被優(yōu)化時編碼模板T1(n-1)是已知的。
實際解決方案是要得到諸如在前一片段(n-1)的優(yōu)化中得到的T1(n-1)。對于下一個片段,關于什么是編碼器AE1要對片段n+1進行的最終編碼而做出所通知的推測。為了這個目的,根據(jù)等式V把最近片段的平均λ1用于選擇最佳編碼模板T1(n+1)?;谶@一點,可以計算殘留信號ε1(n),并且現(xiàn)在可受根據(jù)(A1)的λ的影響而得到最佳T2(n)。
要注意的是,只有當最后確定了T1(n)然后僅找到了T2(n-1)時,ε1(n-1)的最終值才是已知的。
為了清楚起見,下面給出了算法(A1)的更詳細版本(A2),其包括以上概述的實際解決方案。(A2)得出加上拉格朗日乘子λ的每個片段的最佳編碼模板T1、T2以便滿足目標比特率??紤]片段之間的重疊。
(A2) Find λ Loop n Loop T1(n) Encodeε0(n)with encoder AE1 and T1(n) Encodeε0(n+1)with encoder AE1 and informed guess of T1(n+1) Retrieveε1(n)based onε0(n-1),ε0(n),ε0(n+1)withT1(n-1), T1(n), T1(n+1) Loop T2(n) Encodeε1(n)with encoder AE2 Derive J′(n)(see Eq.IV) Remember best T2(n)and J′(n) End Loop T2(n) Derive J(n)(see Eq.I) Remember best T1(n),T2(n) and J(n) End Loop T1(n) #Now the final solution for T1(n)has been found #the finalε1(n-1)is known and the final T2(n-1)canbe found Loop T2(n-1) Encodeε1(n-1)with encoder AE2 Derive J′(n-1)(see Eq.IV) Remember best T2(n-1) and J′(n-1) End Loop T2(n-1) End Loop n Updateλ End Findλ 現(xiàn)在描述結合圖1所示的編碼器實施方式要解決的優(yōu)化問題。在這個實施方式中,通過使λ1在N個連續(xù)片段上恒定而克服了圖5的實施方式所描述的重疊窗口的問題,并且把相應編碼模板T1(n)...T1(N),應用于編碼器AE1,每個編碼器AE1都用于最小化等式(V)。在這種情況下,首先可以得出第一編碼器AE1的所有N個片段。對于第二編碼器AE2,受λ影響,可以找到最小化等式(IV)的編碼模板T2(1)...T2(N-1)。用這種方法,可以測試若干λ1的值直到找到一個最小化等式(1)的λ1的值。可以對若干λ1的值測試這一點直到目標比特率滿足最小可能感知失真。找到片段1...N-1的解決方案之后,優(yōu)化接下來的片段N...2N-1。下面,通過保持λ恒定而考慮到片段之間的重疊,算法(A3)概括了為加上拉格朗日乘子λ的每個片段找到最佳編碼模板T1和T2以便滿足目標比特率的原理。
(A3) Findλ Loopλ1 Loop n1(1...N) Encodeε0(n1)with AE1 and useλ1 to min.J1(n1)seeEq.(V) End Loop n1 Loop n2(1...N-1) Encodeε1(n2)with AE2 and useλto min.J′(n2)see Eq.(IV) End Loop n2 Add all cost functions J(n2) Remember bestλ1 and corresp.best templates for bothencoders AE1,AE2 End Loopλ1 Remember bestλand corresponding best templates forboth encoders AE1,AE2 End Findλ 要注意到嵌套循環(huán)的數(shù)目看起來是算法(A3)比(A2)中少一個。然而這是不真實的,因為對λ1和λ進行的編碼需要附加的循環(huán),以得到相應編碼模板。
算法(A3)的優(yōu)點在于編碼器AE1、AE2的片段不需要被對齊。唯一的必要條件是由編碼器AE1編碼的時間間隔(由例如段號n=1...N所包括的)至少與每次由編碼器AE2所編碼的時間間隔一樣大。
利用對n2的循環(huán)運行至N而不是N-1的唯一差異來實現(xiàn)和測試了算法(A3)。這導致在N個片段的結尾時編碼準確度的微小降低,但是這些影響看來不會影響質(zhì)量。在實現(xiàn)中,第一編碼器AE1采用不同且靈活的片段;參見[6],而第二編碼器AE2采用固定片段。
兩個級聯(lián)的編碼器被用于迄今為止所描述的編碼器實施方式。然而,根據(jù)本發(fā)明,級聯(lián)編碼器的數(shù)目可被容易地擴展到多于兩個編碼器。兩種情況可以被區(qū)別 考慮所有編碼模板(例如不向候選模板應用限制)。在這種情況下,第一編碼器可被替代為兩個(或更多)編碼器的級聯(lián)。這些獨立編碼器中的每一個的編碼模板都會把每個片段結合成需要編碼模板的所有可能組合的編碼模板的較大集合?,F(xiàn)在就像級聯(lián)中只有兩個編碼器一樣地解決了該問題。
不是要考慮所有編碼模板,而只是考慮把諸如等式(V)中給出的成本函數(shù)最小化的那些編碼模板。在這種情況下,第二編碼器被認為是對λ進行優(yōu)化的兩個編碼器的級聯(lián)。這些‘嵌套’擴展可以被繼續(xù)直到大量的級聯(lián)編碼器。
圖7顯示了包括并行操作的兩個編碼器AE1、AE2的第三音頻編碼器實施方式。在由拆分單元SPLIT把音頻輸入信號ε0拆分成第一和第二信號部分ε1、ε2這一點上,它不同于圖5的第二編碼器實施方式,所述第一和第二信號ε1、ε2部分加在一起構成輸入信號ε0。兩個信號ε1和ε2分別施加到第一和第二編碼器AE1、AE2。
圖7的第三音頻編碼器實施方式的控制單元CU分別向第一和第二編碼器提交編碼模板T1、T2以執(zhí)行它們的編碼。因而,對于所選擇的每兩個編碼模板T1和T2來說,編碼器AE1處理第一信號部分ε01而編碼器AE2獨立地處理第二信號部分ε02。編碼器AE1、AE2分別產(chǎn)生殘留信號ε3和ε4,所述殘留信號ε3和ε4要被施加到控制單元,所述控制單元根據(jù)感知模型來計算感知失真測量,所述感知失真的測量然后要用于從所允許的編碼模板T1、T2的集合中找到最佳的編碼模板T1、T2以決定信號的最終編碼。為了這個目的,既要考慮感知失真測量還要考慮兩個編碼器AE1、AE2中每一個的比特率R1、R2(或其估計)。如第一和第二音頻編碼器實施方式所提及的那樣,可以把[4]中的模型用于計算感知失真的測量D。
下述公式給出了第三音頻編碼器實施方式中的控制單元CU不得不解決的問題的公式定義 其中D1和D2分別在ε3和ε4的基礎上被計算。假定感知失真僅僅是被相加。參數(shù)n是片段號,假定用取自總輸入信號的若干短暫的片段來對信號進行編碼。這個最小化問題不得不根據(jù)下述約束條件而被最小化 其中RT是目標比特率。
根據(jù)在前一部分給定的約束條件,可以通過定義需要被最小化的2N個獨立的成本函數(shù)而把該問題再用公式表示 J1(T1(n),n)=D1(T1(n),n)+λR1(T1(n),n)(VI) J2(T2(n),n)=D2(T2(n),n)+λR2(T2(n),n)(VII) 需要解決的問題是現(xiàn)在得出λ,以便 其中把T1min(n)和T2min(n)選定為下式 問題的這一重新闡述的優(yōu)點在于現(xiàn)在借助于拉格朗日乘子λ連接了2N個獨立的問題。實際上,這意味著選擇λ的初始值。利用這個值,可以為每個片段n和每個編碼器獨立地解決等式(IX和(X)中給定的最小化。優(yōu)化之后,可檢驗是否滿足等式(VIII)?;谀繕寺蔙T與所采用的總比特率(R1+R2)之間的差異,λ可以被修改。這個處理可被重復直到找到(根據(jù)等式VIII)最佳的(或者滿意的)λ值。
因為這個并聯(lián)情況中的優(yōu)化是單獨的并且對單個編碼器AE1、AE2獨立地進行,原則上有可能從所有可能編碼模板T1、T2中選擇出編碼模板T1、T2的子集,因為由于具體的編碼器AE1、AE2的屬性的原因事先已知超出子集范圍的模板T1、T2會導致非最佳解決方案。這是并聯(lián)編碼器與級聯(lián)編碼器相比的重要優(yōu)勢。
如上所述的并行優(yōu)化可容易地被擴展到多于兩個編碼器,如從等式(VI)到(X)中可以清楚的那樣。
在圖4的并聯(lián)編碼器的優(yōu)選實施方式中,輸入信號分路器SPLIT包括用于把音頻輸入信號的輸入片段ε0拆分成變換系數(shù)的改進離散余弦變換(MDCT)濾波器組。變換系數(shù)被分成組,每個組表示被單獨地編碼的標度因子(scale factor)。對于每個片段中的每個標度因子組來說,不得不選擇標度因子和編碼書(coding book),以便最小化受相同λ值影響的等式(VI)和(VII)中給出的成本函數(shù)??梢园巡煌幋a書設計用于各種標度因子組以最佳地把變換系數(shù)的不同統(tǒng)計用在不同標度因子組中。當在片段中間優(yōu)化了所有單個的標度因子頻帶之后,計算總比特率并且λ用于達到目標比特率。
根據(jù)本發(fā)明的編碼器和解碼器可以在具有數(shù)字信號處理器的單片機上被實現(xiàn)。然后獨立于這種設備的信號處理器能力而把芯片嵌入在音頻設備的內(nèi)部。編碼器和解碼器也可以完全地由在應用設備的主信號處理器上運行的算法來實現(xiàn)。
在權利要求中,僅是出于清楚的原因包括了參考標記。對圖中實施方式的例子的這些參考不應該看作是限制權利要求的范圍。
參考列表Scott N.Levine,″Audio Representations for DataCompression and Compressed Domain Processing″Ph.D.Dissertation,December 2,1998.Wuppermann et.al.″Transmission systemimplementing different coding principles″,US 5,808,569.S.van de Par,A.Kohlrausch,G.Charestan,R.Heusdens(2002),″A new psychoacoustical masking model foraudio coding applications″IEEE Int.Conf.Acoust,Speechand Signal Process.,Orlando,USA,2002,pp.II-1805-1808.R.Heusdens,R.Vafm,W.B.Kleijn(2002),″Sinusoidal modeling using psychoacoustical matchingpursuits″IEEE Signal Processing Lett,9(8),pp.262-265.R.Heusdens and S.van de Par(2002)″Rate-distortionoptimal sinusoidal modeling of audio and Speech usingpsychoacoustical matching pursuits″,IEEE Int.Conf.Acoust.,Speech and Signal Process.,Orlando,USA,2002,pp.11-1809-1812.J.Princen and A.Bradley(1986)″Analysis/synthesisfilter bank design based on time domain aliasingcancellation″IEEE Trans.Acoust,Speech,Signal Processing,34 pp.1153-1161。
權利要求
1.一種用于對音頻信號(ε0)進行編碼的音頻編碼器,該音頻編碼器包括
用于產(chǎn)生第一編碼信號部分(E1)的第一編碼器(AE1),
用于產(chǎn)生第二編碼信號部分(E2)的至少第二編碼器(AE2),以及
控制單元,其包括
估算裝置,用于相對于失真測量來對包括第一和第二編碼信號部分(E1,E2)在內(nèi)的音頻信號(ε0)的共同表示進行估算,以及
優(yōu)化裝置,用于調(diào)整第一和第二編碼器(AE1,AE2)至少一個的編碼參數(shù)并且響應于此而監(jiān)視音頻信號(ε0)的共同表示的失真測量,以便根據(jù)預定標準優(yōu)化編碼參數(shù)。
2.如權利要求1中所請求的音頻編碼器,其中失真測量包括感知失真測量。
3.如權利要求1中所請求的音頻編碼器,其中優(yōu)化裝置用于調(diào)整編碼參數(shù),以便最小化失真測量。
4.如權利要求3中所請求的音頻編碼器,其中優(yōu)化裝置用于根據(jù)第一和第二編碼器(AE1,AE2)的預定最大總比特率的約束條件,來最小化失真測量。
5.如權利要求4中所請求的音頻編碼器,其中優(yōu)化裝置用于通過在預定最大總比特內(nèi),分別為第一和第二編碼器(AE1,AE2)分配第一和第二比特率(R1,R2)而最小化失真測量。
6.如權利要求1中所請求的音頻編碼器,其中第一編碼器(AE1)用于把音頻信號(ε0)編碼成第一編碼信號部分(E1),以及其中第二編碼器(AE2)用于把第一殘留信號(ε1)編碼成第二編碼信號部分(E2),所述第一殘留信號(ε1)定義為音頻信號(ε0)與第一編碼信號部分(E1)之差。
7.如權利要求6中所請求的音頻編碼器,其中失真測量基于第二殘留信號(ε2),所述第二殘留信號(ε2)定義為第一殘留信號(ε1)與第二編碼信號部分(E2)之間的差。
8.一種音頻編碼器,更進一步包括用于把音頻信號(ε0)拆分成第一和第二部分(ε01,ε02)的信號分路器(SPLIT),其中第一編碼器(AE1)用于把第一音頻信號部分(ε01)編碼成第一編碼信號部分(E1),以及其中第二編碼器(AE2)用于把第二音頻信號部分(ε02)編碼成第二編碼信號部分(E2)。
9.如權利要求1中所請求的音頻編碼器,其中優(yōu)化裝置用于根據(jù)預定最大失真測量的約束條件,來最小化第一和第二信號部分(E1,E2)的總比特率。
10.如權利要求1中所請求的音頻編碼器,其中第一編碼器(AE1)包括從下述組中選擇的編碼器,所述組包括參數(shù)編碼器、變換編碼器、部分頻段編碼器、規(guī)則脈沖激勵編碼器以及密碼本激勵線性預測編碼器。
11.如權利要求1中所請求的音頻編碼器,其中第二編碼器(AE2)包括從下述組中選擇的編碼器,所述組包括參數(shù)編碼器、變換編碼器、部分頻段編碼器、規(guī)則脈沖激勵編碼器以及密碼本激勵線性預測編碼器。
12.如權利要求1中所請求的音頻編碼器,其中音頻編碼器用于接收被分成不相重疊的片段的音頻信號(ε0),以及其中優(yōu)化裝置用于跨越音頻信號(ε0)的一個或多個連續(xù)片段而優(yōu)化編碼參數(shù)。
13.如權利要求1中所請求的音頻編碼器,其中音頻編碼器用于接收被分成相重疊的片段的音頻信號(ε0),以及其中優(yōu)化裝置用于跨越音頻信號(ε0)的一個或多個連續(xù)片段而優(yōu)化編碼參數(shù)。
14.如權利要求1中所請求的音頻編碼器,更進一步包括用于產(chǎn)生第三編碼信號部分的第三編碼器,其中控制單元用于處理包括第一、第二和第三編碼信號部分在內(nèi)的音頻信號的共同表示。
15.一種用于對編碼音頻信號進行解碼的音頻解碼器,該音頻解碼器包括
-用于從第一編碼信號部分(E1)中產(chǎn)生第一解碼信號部分(D1)的第一解碼器(AD1),
-用于從第二編碼信號部分(E2)中產(chǎn)生第二解碼信號部分(D2)的第二解碼器(AD2),以及
-求和裝置,用于產(chǎn)生音頻信號的表示,以作為第一和第二解碼信號部分(D1,D2)的總和。
16.如權利要求15中所請求的音頻解碼器,其中第一解碼器(AD1)包括從下述組中選擇的解碼器,所述組包括參數(shù)解碼器、變換解碼器、部分頻段解碼器、規(guī)則脈沖激勵解碼器以及密碼本激勵線性預測解碼器。
17.如權利要求15中所請求的音頻解碼器,其中第二解碼器(AD2)包括從下述組中選擇的解碼器,所述組包括參數(shù)解碼器、變換解碼器、部分頻段解碼器、規(guī)則脈沖激勵解碼器以及密碼本激勵線性預測解碼器。
18.如權利要求15中所請求的音頻解碼器,、
更進一步包括用于從第三編碼信號部分中產(chǎn)生第三解碼信號部分的第三解碼器,其中求和裝置用于產(chǎn)生音頻信號的表示,以作為第一、第二和第三解碼信號部分的總和。
19.一種用于對音頻信號進行編碼的方法,該方法包括以下步驟
-利用第一編碼器(AE1)產(chǎn)生第一編碼信號部分(E1),
-利用第二編碼器(AE2)產(chǎn)生至少一個第二編碼信號部分(E2),
-相對于失真測量而對包括第一和第二編碼信號部分(E1,E2)在內(nèi)的音頻信號(ε0)的共同表示進行評估,以及
-根據(jù)預定標準,響應于所述失真測量而優(yōu)化第一和第二編碼器(AE1,AE2)的編碼參數(shù)。
20.一種對編碼音頻信號進行解碼的方法,該方法包括以下步驟
-利用第一解碼器(AD1)來從第一編碼信號部分中產(chǎn)生第一解碼信號部分(D1),
-利用第二解碼器(AD2)來從第二編碼信號部分中產(chǎn)生第二解碼信號部分(D2),
-把第一和第二解碼信號部分(D1,D2)相加。
21.一種編碼音頻信號,其包括由不同編碼器(AE1,AE2)編碼的第一和第二編碼信號部分(E1,E2)。
22.一種存儲介質(zhì),其包括用于表示如權利要求21中所請求的編碼音頻信號的數(shù)據(jù)。
23.一種包括如權利要求1中所請求的音頻編碼器的設備。
24.一種包括如權利要求15中所請求的音頻解碼器的設備。
25.一種計算機可讀程序代碼,用于對權利要求19的方法中所請求的音頻信號進行編碼。
26.一種計算機可讀程序代碼,用于對權利要求20的方法中所請求的編碼音頻信號進行解碼。
全文摘要
一種音頻編碼器,其中兩個或多個最好不同的編碼器進行協(xié)作以產(chǎn)生共同編碼音頻信號。根據(jù)預定標準,響應于對共同編碼音頻信號的失真的測量而優(yōu)化兩個或多個編碼器的編碼參數(shù)。失真測量最好是感知失真測量。在包括正弦和波形編碼器的編碼器實施方式中,在兩個編碼器之間分配每個音頻幀的恒定總比特率以便最小化第一和第二編碼器的感知失真。其他實施方式考慮了比僅最小化第一編碼器的感知失真的那些編碼參數(shù)更大的一組編碼參數(shù)。在一些實施方式中,通過借助于優(yōu)化獨立的編碼器的全部編碼模板(即編碼參數(shù)的復雜的集合)來優(yōu)化編碼從而最小化感知失真。獨立的編碼器可以被級聯(lián)或并聯(lián)操作或者采用它們相結合的方式。在優(yōu)化過程中最好考慮到兩個或多個音頻片段。相應的音頻解碼器包括與對音頻信號進行編碼的音頻編碼器的獨立編碼器相對應的獨立解碼器。然后把來自這些解碼器的解碼信號部分相加以產(chǎn)生最終音頻信號。因為編碼方案很靈活并且適合于每個音頻剪輯的特定需要,所以所提出的音頻編碼很有效率并且提供了一種較高的音質(zhì)。
文檔編號G10L19/00GK101124626SQ200580031446
公開日2008年2月13日 申請日期2005年9月2日 優(yōu)先權日2004年9月17日
發(fā)明者S·L·J·D·E·范德帕, N·H·范施恩德爾, V·S·科特, R·休斯登斯 申請人:皇家飛利浦電子股份有限公司