專利名稱:一種空間參數(shù)立體聲編解碼方法及其裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)字音頻壓縮編碼領(lǐng)域,特別涉及一種以參數(shù)表示空間信息的 立體聲編解碼系統(tǒng)和裝置。
技術(shù)背景數(shù)字音頻編碼起源于20世紀(jì)80年代末,以MP3(MPEG-1 Layer III)和 AAC(Advanced Audio Coding)為典型代表。此時編碼技術(shù)在立體聲的處理方面 考慮聲道間的相關(guān)性,采用和差(Mid/Side)立體聲或強度立體聲(Intensity Stereo) 處理技術(shù),然后對處理后的兩路完整的音頻信號采用獨立的編碼方法,因此碼 率與聲道數(shù)基本成正比。2002年C. Faller等人提出了一種基于空間心理聲學(xué)的參數(shù)立體聲編解碼系 統(tǒng)BCC(Binaural Cue Coding)。此系統(tǒng)在變換域提取聲道間強度差I(lǐng)LD (Interchannel Level Difference),聲道間時間差I(lǐng)TD(Interchannel Time Difference), 和聲道間相關(guān)度IC(Interchannel Coherence),其解碼器根據(jù)這些參數(shù)和下混聲道 重建多聲道的輸出。2004年J. Breebaart等人提出參數(shù)立體聲PS(Parametric Stereo) 編解碼系統(tǒng),2005年MPEG推出MPEG環(huán)繞聲(MPEG Surround)系統(tǒng)都是以 BCC為基礎(chǔ)發(fā)展起來的立體聲/多聲道編解碼系統(tǒng),其核心架構(gòu)與BCC系統(tǒng)一 致。上述空間參數(shù)編解碼系統(tǒng)相對于只采用和差立體聲和強度立體聲技術(shù)的 MP3/AAC等編解碼系統(tǒng),在性能上有明顯的提升以單聲道的碼率達到立體聲
的音質(zhì),因此在對音質(zhì)和碼流要求嚴(yán)格的音頻廣播和移動音頻中得到應(yīng)用。但 是這些空間參數(shù)編解碼系統(tǒng)最突出的問題是延時增加,編解碼端的時頻分析模塊引入了至少一幀的延時,通常在20ms到40ms之間,不利于雙向?qū)崟r通信。 因此減小空間參數(shù)立體聲編解碼的延時是本領(lǐng)域亟待解決的問題。BCC、 PS、和MPEG Surround的另一個問題是難于實現(xiàn)動態(tài)的時頻劃分。 根據(jù)空間心理聲學(xué),ILD、 ITD、和IC只有針對同一或空間上連續(xù)的聲源才有明 確的意義。上述空間參數(shù)編碼系統(tǒng)都采用子帶劃分的方式來區(qū)分信號中不同的 聲源進而提取空間參數(shù),為了避免傳送子帶劃分信息帶來的碼率增加,這種劃 分是靜態(tài)的且獨立于信號特性的。由于實際信號中各個聲源的頻譜范圍是動態(tài) 的,這種方式降低了空間參數(shù)編碼的效率。因此在不增加碼率的情況下實現(xiàn)動 態(tài)的時頻劃分是本領(lǐng)域亟待解決的另 一個問題。 發(fā)明內(nèi)容本發(fā)明的目的在于解決現(xiàn)有空間參數(shù)編解碼系統(tǒng)的不足,提供一種無附加 延時且支持動態(tài)時頻劃分的空間參數(shù)立體聲編解碼方法及其裝置,減少系統(tǒng)延 時并提高立體聲信號壓縮的效率。本發(fā)明的編碼技術(shù)解決方案包括以下步驟 步驟l,對輸入的左右兩路時域音頻信號進行下混,生成一路信號; 步驟2,對得到的下混信號進行變換音頻編碼,生成下混信號的編碼數(shù)據(jù); 步驟3,獲得與下混信號的編碼數(shù)據(jù)對應(yīng)的下混信號的反量化頻譜; 步驟4,分析頻域反量化的下混信號,將頻譜劃分成若干連續(xù)且無重疊的子帶;步驟5,以劃分的子帶為單位,提取輸入的左右兩路信號在頻域每個子帶的
空間參數(shù)信息,生成空間參數(shù)編碼數(shù)據(jù);步驟6,將下混信號的編碼數(shù)據(jù)和空間參數(shù)編碼數(shù)據(jù)按一定格式組合成一路 編碼碼流。而且,步驟1所述的下混是在時域操作,即取左右兩路音頻信號的時域平 均值作為下混信號,其中時域平均值是兩路信號在同一時刻處的樣點值之和的一半。而且,步驟1所述的下混是在頻域操作,即取左右兩路音頻信號的頻域平 均值或乘以增益系數(shù),得到頻域下混信號,其中頻域平均值是兩路信號在同一 頻點處的譜線值之和的一半,增益系數(shù)是為了調(diào)整下混信號能量而在平均值之 上乘的一個正的實數(shù)。而且,步驟3所述的下混信號的反量化頻譜,通過對下混信號的編碼數(shù)據(jù) 進行解碼獲得;或者當(dāng)變換編碼過程中生成了下混信號的反量化頻譜時,直接 從編碼過程中獲得。本發(fā)明還提供了相應(yīng)的空間參數(shù)立體聲解碼方法,依次包含以下步驟 步驟I ,將合成碼流分離成下混信號編碼數(shù)據(jù)和空間參數(shù)編碼數(shù)據(jù);步驟n,對下混信號編碼數(shù)據(jù)進行變換音頻解碼,生成頻域反量化的下混信號,同時將此信號的頻譜劃分成若干連續(xù)且無重疊的子帶;步驟m,根據(jù)空間參數(shù)編碼數(shù)據(jù)和頻域反量化的下混信號,以步驟II劃分的 子帶為單位,生成兩路包含頻域音頻信號,這兩路頻域音頻信號包含空間參數(shù) 編碼數(shù)據(jù)給定的空間信息;步驟IV,對兩路頻域音頻信號,進行時頻逆變換或綜合濾波器組濾波,生成 左右兩路時域音頻信號。
本發(fā)明提供了一種與空間參數(shù)立體聲編碼方法相應(yīng)的裝置,由下混模塊、 核心編碼模塊、核心解碼模塊、動態(tài)時頻劃分模塊、分析濾波器組、參數(shù)提取 模塊和碼流成型模塊組成,左右兩路時域音頻信號輸入下混模塊和分析濾波器 組,下混模塊的輸出接入核心編碼器,核心編碼器的輸出接入核心解碼模塊, 核心解碼模塊輸出接入動態(tài)時頻劃分模塊,動態(tài)時頻劃分模塊和分析濾波器組 的輸出接入?yún)?shù)提取模塊,核心編碼模塊的輸出和參數(shù)提取模塊的輸出接入碼 流成型模塊。而且,所述核心編碼模塊采用AAC編碼器。本發(fā)明也提供了一種與空間參數(shù)立體聲解碼方法相應(yīng)的裝置,由碼流解析 模塊、核心解碼模塊、動態(tài)時頻劃分模塊、參數(shù)合成模塊和綜合濾波器組組成, 合成碼流輸入碼流解析模塊后分離出核心解碼數(shù)據(jù)和空間參數(shù)數(shù)據(jù),核心解碼 數(shù)據(jù)輸入核心解碼模塊,核心解碼模塊的輸出經(jīng)動態(tài)時頻劃分模塊后和空間參 數(shù)數(shù)據(jù)共同輸入?yún)?shù)合成模塊,參數(shù)合成模塊的輸出接入綜合濾波器。本發(fā)明將輸入的立體聲信號直接在時域下混或利用核心編碼的時頻變換工 具在頻域下混成一路信號作為核心編碼器的輸入,從而避免單獨的時頻正反變 換帶來的附加延時;基于分析綜合法,空間參數(shù)的提取位于核心編碼之后,并且根據(jù)編碼后反量化的數(shù)據(jù)進行動態(tài)的時頻劃分,然后提取每個劃分單元的空 間參數(shù),由于編碼后反量化的數(shù)據(jù)在解碼端可以精確復(fù)現(xiàn),因此只要解碼端采 用相同的時頻劃分方法,無需傳送劃分信息,就可以得到與編碼端一致的時頻 劃分,并以每個劃分單元為單位根據(jù)空間參數(shù)合成立體聲左右兩路信號。本發(fā) 明不僅降低了空間參數(shù)編解碼系統(tǒng)的延時,而且可以實現(xiàn)在不傳送頻譜劃分信 息條件下的動態(tài)時頻劃分,使空間參數(shù)立體聲的編解碼實時性和效率都有顯著
提咼°
圖l是本發(fā)明實施例空間參數(shù)編碼流程,其中圖la為時域下混情況,圖lb 為頻域下混情況;圖2是本發(fā)明實施例空間參數(shù)解碼流程;圖3是本發(fā)明空間參數(shù)立體聲編解碼裝置基本結(jié)構(gòu);圖4是本發(fā)明實施例采用AAC為核心編碼的編碼裝置結(jié)構(gòu)圖;圖5是本發(fā)明實施例采用AAC為核心解碼的解碼裝置結(jié)構(gòu)圖。
具體實施方式
本發(fā)明提供的空間參數(shù)立體聲編碼方法包括以下步驟步驟1,對輸入的左 右兩路時域音頻信號進行下混,生成一路信號;步驟2,對得到的下混信號進行變換音頻編碼,生成下混信號的編碼數(shù)據(jù);步驟3,獲得與下混信號的編碼數(shù)據(jù)對應(yīng)的下混信號的反量化頻譜;步驟4,分析頻域反量化的下混信號,將頻譜劃分成若干連續(xù)且無重疊的子帶;步驟5,以劃分的子帶為單位,提取輸入的左右兩路信號在頻域每個子帶的 空間參數(shù)信息,生成空間參數(shù)編碼數(shù)據(jù);步驟6,將下混信號的編碼數(shù)據(jù)和空間參數(shù)編碼數(shù)據(jù)按一定格式組合成一路 編碼碼流。具體實施時一般首先對相關(guān)的左右兩路時域音頻信號進行可逆的時頻變換 或分析濾波器組濾波,生成左右兩路頻域音頻信號,時頻變換或分析濾波器組 濾波這2種處理均可。所述變換音頻編碼一般采用感知音頻編碼,感知音頻編 碼是一類基于人耳聽覺特性的變換域音頻編碼方法的統(tǒng)稱,執(zhí)行頻域下混操作 時,僅需對得到的下混信號進行感知音頻編碼中的部分。相應(yīng)進行變換解碼時, 也應(yīng)采用感知音頻解碼技術(shù)。參數(shù)立體聲是一種建立在空間心理聲學(xué)基礎(chǔ)上的立體聲編碼方法。它最大 特點是僅對一路主信號(又稱為下混信號)進行編碼,同時從立體聲信號中分 離出空間信息并參數(shù)化表示(又稱為空間參數(shù)信息)。本發(fā)明給出了效果較好的 下混信號取得方法采用時域下混時,取左右兩路音頻信號的時域平均值作為 下混信號,其中時域平均值是兩路信號在同一時刻處的樣點值之和的一半;頻 域下混操作,是指取左右兩路音頻信號的頻域平均值或乘以增益系數(shù),得到頻 域下混信號,其中頻域平均值是兩路信號在同一頻點處的譜線值之和的一半, 增益系數(shù)是為了調(diào)整下混信號能量而在平均值之上乘的一個正的實數(shù);具體實施時,可以通過編程程序?qū)崿F(xiàn)全編碼過程自動化,本發(fā)明提供實施 例的空間參數(shù)編碼流程以便實施,對于時域下混,參見圖l(a):(101) 輸入相關(guān)的左右兩路時域音頻信號,在時域下混成一路信號,去往 步驟(102);(102) 對時域下混信號進行完整的感知音頻編碼,生成下混信號的編碼數(shù) 據(jù),如果這個過程同時生成頻域反量化數(shù)據(jù),去往步驟(104),否則去往步驟 (103);(103) 對下混信號的編碼數(shù)據(jù)進行部分解碼,生成頻域反量化數(shù)據(jù),去往步驟(104);(104) 分析頻域反量化的下混信號,將頻譜劃分成若干連續(xù)且無重疊的子帶,去往步驟(105); (105) 對輸入的兩路立體聲時域信號分別進行分析濾波器組濾波,生成兩 路頻域信號,去往步驟(106);(106) 以步驟(104)的子帶劃分為單位,提取兩路頻域信號每個子帶的空間參數(shù)信息,并生成參數(shù)碼流,去往步驟(107);(107) 將步驟(102)生成的下混信號編碼數(shù)據(jù)和步驟(106)的生成的參 數(shù)編碼數(shù)據(jù)按一定的格式組合成單一的編碼碼流。對于頻域下混,參見圖1 (b):(111) 對輸入的兩路立體聲時域信號分別進行分析濾波器組濾波,生成兩路頻域信號,去往歩驟(112);(112) 對兩路頻域信號進行頻域下混,可以采用數(shù)學(xué)平均或加權(quán)平均得到 一路頻域下混信號,去往步驟(113)(113) 對頻域下混信號進行感知音頻編碼除時頻變換外的處理,包括頻域 處理和量化熵編碼,生成下混信號的編碼數(shù)據(jù),如果這個過程同時產(chǎn)生頻域反量化數(shù)據(jù),則去往步驟(115),否則去往步驟(114);(114) 對下混信號的編碼數(shù)據(jù)進行解碼,生成下混信號的頻域反量化數(shù)據(jù),去往步驟(115);(115) 分析頻域反量化信號,將頻譜劃分成連續(xù)且無重疊的子帶,去往步驟(116);(116) 以步驟(115)的子帶劃分為單位,提取兩路頻域信號每個子帶的空間 參數(shù)信息,并生成參數(shù)碼流,去往步驟(117);(117) 將步驟(113)生成的下混信號編碼數(shù)據(jù)和步驟(116)的生成的參 數(shù)編碼數(shù)據(jù)按一定的格式組合成單一的編碼碼流。 本發(fā)明實施例的空間參數(shù)編碼流程,如圖2所示,包含以下步驟(201) 輸入為單一的包含下混信號和空間參數(shù)信息的碼流,生成分離的下 混信號編碼數(shù)據(jù)和空間參數(shù)編碼數(shù)據(jù);(202) 根據(jù)步驟(201)輸出的下混信號的編碼數(shù)據(jù),進行感知音頻解碼, 生成包含量化誤差的頻域反量化的下混信號;(203) 分析步驟(202)輸出的頻域反量化的下混信號,采用空間參數(shù)立體 聲編碼的步驟(108)相同的方法,將頻譜劃分成若干連續(xù)且無重疊的子帶,去 往步驟(4);(204) 根據(jù)步驟(201)輸出的空間參數(shù)編碼數(shù)據(jù)和步驟(202)輸出的頻 域反量化下混信號,以步驟(203)給出的子帶為單位,生成兩路包含空間參數(shù) 編碼數(shù)據(jù)給定的空間信息的頻域音頻信號;(205) 根據(jù)步驟(204)給出的兩路頻域音頻信號,進行時頻逆變換或綜合 濾波器組濾波,生成左右兩路時域音頻信號。在編解碼領(lǐng)域中,可軟件方法實現(xiàn)的過程往往固化為編解碼硬件產(chǎn)品,以 便市場應(yīng)用。本發(fā)明也提供了空間參數(shù)立體聲編解碼裝置基本結(jié)構(gòu)。如圖3所 示,其中編碼端包括6個模塊下混模塊301,核心編碼模塊302,核心解碼模 塊303,動態(tài)時頻劃分模塊304,分析濾波器組305,參數(shù)提取模塊306,和碼 流成型模塊307。輸入的立體聲左右兩路信號首先經(jīng)下混模塊301形成一路信號 并作為核心編碼模塊302的輸入,其生成的數(shù)據(jù)經(jīng)核心解碼模塊303恢復(fù)為包 含量化誤差的與原下混信號近似的信號,動態(tài)時頻劃分模塊304根據(jù)這個信號 的短時特性劃分頻譜,參數(shù)提取模塊306以每個劃分單元為基本單位提取原始 左右兩路信號經(jīng)分析濾波器組305得到的頻域兩路信號間的空間參數(shù),最后碼
流成型模塊307將核心編碼模塊302和參數(shù)提取模塊306的輸出按一定的格式 組合形成解碼可識別的碼流。下混模塊301的輸入是時域立體聲左右兩路信號,輸出的一路時域信號是 左右兩路信號的均值,又被稱為下混信號。核心編碼模塊302的輸入是一路下混信號,這里核心編碼模塊可以是現(xiàn)有 的單聲道變換編碼器,如MP3和AAC等。核心編碼模塊的輸出包括兩部分, 下混信號的編碼數(shù)據(jù)和下混信號在變換域的量化索引值,這里變換域可以是子 帶域,離散傅立葉DFT域或修正余弦變換MDCT域。核心解碼模塊303的輸入是下混信號在編碼數(shù)據(jù),輸出是反量化的變換域 下混信號。這里核心解碼模塊303是與核心編碼模塊302對應(yīng)的單聲道變換解 碼器,如MP3和AAC等。與通常的單聲道變換解碼器不同的是,這里解碼過 程只需進行到反量化,不需要在進行反變換得到時域信號。動態(tài)時頻劃分模塊304的輸入是反量化變換域下混信號,根據(jù)這個信號的 特性,將其變換域譜線劃分成連續(xù)的子帶,通常是不等帶寬的?,F(xiàn)有的空間參 數(shù)編碼采用的頻域劃分通常是按人耳的聽覺特性非線性劃分的Bark帶,與信號 的特性無關(guān)。這里以Bark帶為基礎(chǔ),根據(jù)信號的短時時頻特性,對Bark帶進行 細分和合并如果一個Bark帶內(nèi)包含兩個或多個獨立聲源,則將這個Bark帶劃 分成相應(yīng)的2段或多段;如果相鄰的Bark帶都在通一個聲源的范圍內(nèi),則這些 Bark帶合并成一段。獨立聲源的判斷可以通過分析頻譜包絡(luò)、相位、和相關(guān)性 得到。分析濾波器組305的輸入是原始左右兩路時域信號,輸出是左右兩路的頻 域信號。分析濾波器組305可以采用多相正交調(diào)制濾波器組(Polyphase Quadrature Modulated Filterbank, PQMF),離散傅立葉變換(Discrete Fourier Transform, DFT),或修正調(diào)制余弦變換(Modified Discrete Fourier Transform, MDCT)。參數(shù)提取模塊306的輸入是動態(tài)的時頻劃分以及原始的左右兩路信號經(jīng)分 析濾波得到的兩路頻域信號,輸出的是針對每個劃分單元提取的空間參數(shù),包 括時間差I(lǐng)TD、強度差I(lǐng)LD、和相關(guān)度IC等。對于每個劃分單元,參數(shù)提取可 以采用現(xiàn)有的技術(shù),如BCC、 PS中參數(shù)提取的方法。碼流成型模塊306的輸入是下混的聲道的編碼數(shù)據(jù)和空間參數(shù)的編碼數(shù)據(jù), 輸出是解碼器可識別的碼流。根據(jù)給定碼流的語法結(jié)構(gòu),碼流成型模塊將上述 兩部分數(shù)據(jù)組合在一起并添加給定的標(biāo)識信息,如特定的比特位等。解碼端則包括5個模塊碼流解析模塊311,核心解碼模塊312,動態(tài)時頻 劃分模塊313,參數(shù)合成模塊314和綜合濾波器組315。解碼端的輸入是符合給 定語法結(jié)構(gòu)的碼流,首先碼流解析模塊311對輸入碼流進行解析,分離出核心 解碼數(shù)據(jù)和空間參數(shù)數(shù)據(jù),核心解碼模塊312根據(jù)核心解碼數(shù)據(jù)生成量化的變 換域下混信號,這個信號與編碼端對應(yīng)時間段的反量化變換域下混信號是精確 一致的,然后與編碼端完全一致的動態(tài)時頻劃分模塊313對其進行動態(tài)時頻劃 分,得到與編碼端完全一致的時頻劃分,最后參數(shù)合成模塊314根據(jù)時頻劃分 和空間參數(shù)數(shù)據(jù),重建每個劃分單元左右聲道的變換域信號,經(jīng)綜合濾波器組 模塊315時頻逆變換得到最終的時域立體聲信號輸出。碼流解析模塊311的輸入是編碼器產(chǎn)生的碼流,輸出是解析出的與解碼時 間段對應(yīng)的核心解碼數(shù)據(jù)和空間參數(shù)數(shù)據(jù)。碼流解析模塊根據(jù)給定的語法結(jié)構(gòu), 通過特定的標(biāo)識信息,如標(biāo)識比特位,獲得碼流中各個比特序列段的數(shù)據(jù)含義,
進而分離出核心解碼模塊和參數(shù)合成模塊所需的并且同步的數(shù)據(jù)。核心解碼模塊312的輸入是解析出的核心解碼數(shù)據(jù),輸出是反量化的變換 域下混信號。這里核心解碼模塊是與編碼端核心編碼模塊對應(yīng)的單聲道變換解碼器,如MP3和AAC等。與通常的單聲道變換解碼器不同的是,這里解碼過 程只需進行到反量化,不需要在進行反變換得到時域信號。當(dāng)編碼碼流正確傳 送到解碼端時,核心解碼模塊就可以精確恢復(fù)出編碼端反量化的變換域下混信 號,這個信號與原始變換域下混信號的差異就是量化誤差,而原始信號在解碼 端通常是無法精確重建的。動態(tài)時頻劃分模塊313的輸入是核心解碼模塊獲得的反量化的變換域下混 信號,輸出的依據(jù)當(dāng)前信號特性的變換域子帶劃分。這個模塊與編碼端的動態(tài) 時頻劃分模塊完全一致,同時輸入的反量化的變換域下混信號也是完全一致的, 因此其輸出的子帶劃分也與編碼端的子帶劃分完全一致。參數(shù)合成模塊314的輸入的反量化的變換域下混信號和子帶劃分以及空間 參數(shù)數(shù)據(jù),輸出是重建的立體聲左右兩路頻域信號。與編碼端的參數(shù)提取模塊 一樣,參數(shù)合成模塊可以采用現(xiàn)有的技術(shù),如BCC、 PS等的參數(shù)合成方法。以 每個動態(tài)劃分的子帶為單位,生成左右兩個子帶信號,使之具有給定的時間差 ITD、強度差I(lǐng)LD、和相關(guān)度IC等。綜合濾波器組模塊315的輸入是左右兩路頻域信號,輸出是左右兩路時域 信號。綜合濾波器組315是分析濾波器組305的逆變換,可以是逆多相正交調(diào) 制濾波器組(Inverse PQMF, IPQMF),逆離散傅立葉變換(Inverse DFT,工DFT), 和逆修正余弦變換(Inverse MDCT, IMDCT)。下面結(jié)合附圖4、 5對本發(fā)明的具體實施方式
作進一步說明,圖4給出了本 發(fā)明所述空間參數(shù)立體聲編碼系統(tǒng)以AAC為核心編碼器的結(jié)構(gòu),與圖5的空間參數(shù)立體聲解碼系統(tǒng)相匹配。以AAC為核心編碼器的空間參數(shù)立體聲編碼系統(tǒng)包括7個模塊,心理聲學(xué) 分析模塊401 , MDCT模塊402,下混模塊403, AAC頻域處理及量化編碼模塊404, 動態(tài)時頻劃分模塊405,參數(shù)提取模塊406,和碼流成型模塊407。時域左右聲 道信號首先經(jīng)心理聲學(xué)分析模塊401處理得到AAC編碼所需心理聲學(xué)數(shù)據(jù)和 MDCT變換長度;MDCT模塊402根據(jù)變換長度進行相應(yīng)的時頻變換得到左右聲道 的頻域數(shù)據(jù);經(jīng)下混模塊403得到一路頻域數(shù)據(jù)作為AAC頻域處理及量化熵編 碼模塊404的輸入;模塊404是AAC核心編碼,輸出下混信號的編碼碼流和頻 域反量化下混信號;動態(tài)時頻劃分模塊405根據(jù)頻域反量化下混信號給出一個 根據(jù)信號短時特性的頻譜劃分;參數(shù)提取模塊406以每個劃分單元為單位,提 取原始頻域左右聲道信號間的空間參數(shù)信息并形成空間參數(shù)碼流;最后碼流成 型模塊407將AAC下混聲道碼流和空間參數(shù)碼流組合成符合給定語法結(jié)構(gòu)的碼 流。心理聲學(xué)分析模塊401是AAC編碼器的主要模塊之一,輸入是原始左右聲 道時域信號,輸出是AAC編碼所需的心理聲學(xué)參數(shù)和MDCT變換的長度。心理聲 學(xué)參數(shù)包括感知熵,遮蔽門限等;MDCT變換的長度主要決定于信號的短時平穩(wěn) 性,對穩(wěn)態(tài)信號采用長變換,對瞬態(tài)信號采用段變換。MDCT模塊402也是AAC編碼器的主要模塊之一,輸入是原始左右聲道的時 域信號,輸出是左右聲道的頻域信號。下混模塊403是本發(fā)明實施例的特有模塊,輸入是左右兩路頻域信號,輸 出是一路頻域信號。下混可以采用簡單的數(shù)學(xué)平均,也可以在數(shù)學(xué)平均的基礎(chǔ)上引入增益控制系數(shù),以避免左右聲道頻域信號在同相或反相時帶來的信號相 互加強或抵消。AAC頻域處理及量化熵編碼模塊404是AAC編碼器的核心模塊,輸入是一路 頻域下混信號,輸入是編碼碼流和頻域反量化數(shù)據(jù)。具體的頻域處理及量化熵 編碼方法在MPEG組織的標(biāo)準(zhǔn)文檔里有詳細描述。對本發(fā)明所述的空間參數(shù)立體 聲編碼系統(tǒng),采用AAC作為核心編碼的一個重要收益就是AAC編碼過程本身就 可以生成頻域反量化數(shù)據(jù),因此省去了單獨的反量化模塊。動態(tài)時頻劃分模塊405是本發(fā)明實施例的特有模塊,輸入是頻域反量化數(shù) 據(jù),輸出是根據(jù)信號短時特性的頻譜劃分。模塊405與圖3的動態(tài)時頻劃分模 塊304的作用和處理方法一致。參數(shù)提取模塊406是本發(fā)明實施例的特有模塊,輸入是頻域左右聲道信號 以及頻譜的劃分,輸出是空間參數(shù)信號的碼流。模塊406與圖3的參數(shù)提取模 塊305的作用和處理方法一致。碼流成型模塊407是編碼器的主要模塊之一,輸入是下混信號的AAC碼流 和空間參數(shù)碼流,輸出是符合給定語法結(jié)構(gòu)的完整碼流。圖5給出了本發(fā)明所述空間參數(shù)立體聲解碼系統(tǒng)以AAC為核心解碼器的結(jié) 構(gòu),與圖4的空間參數(shù)立體聲編碼系統(tǒng)相匹配。以AAC為核心解碼器的空間參數(shù)立體聲解碼系統(tǒng)包括5個模塊碼流解析 模塊501, AAC解碼反量化以頻域逆處理模塊502,動態(tài)時頻劃分模塊503,參 數(shù)合成504,和IMDCT 505。圖4所示編碼系統(tǒng)生成的碼流傳輸?shù)浇獯a系統(tǒng),首 先碼流解析模塊501將碼流分離成兩部分,下混信號的AAC碼流和空間參數(shù)碼 流,分別傳送到AAC解碼反量化及頻域逆處理模塊502和參數(shù)合成模塊504;模 塊502根據(jù)下混信號碼流進行熵解碼,反量化,以及與AAC編碼器對應(yīng)的頻域 逆處理,得到頻域反量化的下混信號;這個信號經(jīng)動態(tài)時頻劃分模塊503分析給出根據(jù)信號短時特性的一個頻譜劃分,由于反量化信號和時頻劃分方法與編碼系統(tǒng)的精確一致,因此給出的劃分也與編碼系統(tǒng)的精確一致;參數(shù)合成模塊 504以每個劃分單元為基本單位根據(jù)空間參數(shù)信息生成左右兩路頻域信號;最后經(jīng)IMDCT變換得到時域左右聲道信號。碼流解析模塊501是解碼系統(tǒng)的主要模塊之一,輸入是碼流,輸出是下混 信號的AAC編碼碼流和空間參數(shù)碼流。碼流解析的過程就是根據(jù)給定語法結(jié)構(gòu) 將碼流切分成基本碼流單位。AAC解碼反量化及頻域逆處理模塊502是AAC解碼器的核心模塊,輸入下混 信號的碼流,輸出是頻域反量化的下混信號。具體的熵解碼,反量化,及頻域 逆處理方法可參照MPEG組織的AAC標(biāo)準(zhǔn)文檔。這里輸出的反量化信號與頻域反 量化信號是精確一致的。動態(tài)時頻劃分模塊503是本發(fā)明實施例的特有模塊,輸入是頻域反量化的 下混信號,輸出是信號的頻譜劃分。這里模塊503與模塊405是精確一致的, 因此其輸出的頻譜劃分與模塊405輸出的也是精確一致的。參數(shù)合成模塊504是本發(fā)明實施例的特有模塊,輸入是空間參數(shù)碼流,頻 域反量化的下混信號,和頻譜的劃分,輸出是兩路頻域信號。模塊504與圖3 所示系統(tǒng)的模塊314的作用和處理方法一致,輸入的兩路信號包含了編碼系統(tǒng) 傳送的空間信息。IMDCT模塊505是AAC解碼器的主要模塊之一,輸入是兩路頻域信號, 輸出是時域左右聲道信號。模塊505和MDCT模塊402構(gòu)成一對互逆的變換。
權(quán)利要求
1.一種空間參數(shù)立體聲編碼方法,其特征在于包括以下步驟步驟1,對輸入的左右兩路時域音頻信號進行下混,生成一路信號;步驟2,對得到的下混信號進行變換音頻編碼,生成下混信號的編碼數(shù)據(jù);步驟3,獲得與下混信號的編碼數(shù)據(jù)對應(yīng)的下混信號的反量化頻譜;步驟4,分析頻域反量化的下混信號,將頻譜劃分成若干連續(xù)且無重疊的子帶;步驟5,以劃分的子帶為單位,提取輸入的左右兩路信號在頻域每個子帶的空間參數(shù)信息,生成空間參數(shù)編碼數(shù)據(jù);步驟6,將下混信號的編碼數(shù)據(jù)和空間參數(shù)編碼數(shù)據(jù)按一定格式組合成一路編碼碼流。
2. 如權(quán)利要求1所述的空間參數(shù)立體聲編碼方法,其特征在于步驟1所述的 下混是在時域操作,即取左右兩路音頻信號的時域平均值作為下混信號,其中 時域平均值是兩路信號在同一時刻處的樣點值之和的一半。
3. 如權(quán)利要求1所述的空間參數(shù)立體聲編碼方法,其特征在于步驟l所述的 下混是在頻域操作,即取左右兩路音頻信號的頻域平均值或乘以增益系數(shù),得 到頻域下混信號,其中頻域平均值是兩路信號在同一頻點處的譜線值之和的一 半,增益系數(shù)是為了調(diào)整下混信號能量而在平均值之上乘的一個正的實數(shù)。
4. 如權(quán)利要求1或2或3所示的空間參數(shù)立體聲編碼方法,其特征在于步驟3 所述的下混信號的反量化頻譜,通過對下混信號的編碼數(shù)據(jù)進行解碼獲得;或 者當(dāng)變換編碼過程中生成了下混信號的反量化頻譜時,直接從編碼過程中獲得。
5. —種空間參數(shù)立體聲解碼方法,其特征在于對包含下混信號和空間參數(shù)信 息的合成碼流進行解碼,包括以下步驟步驟I ,將合成碼流分離成下混信號編碼數(shù)據(jù)和空間參數(shù)編碼數(shù)據(jù);步驟II,對下混信號編碼數(shù)據(jù)進行變換音頻解碼,生成頻域反量化的下混信 號,同時將此信號的頻譜劃分成若干連續(xù)且無重疊的子帶;步驟m,根據(jù)空間參數(shù)編碼數(shù)據(jù)和頻域反量化的下混信號,以步驟II劃分的 子帶為單位,生成兩路包含頻域音頻信號,這兩路頻域音頻信號包含空間參數(shù) 編碼數(shù)據(jù)給定的空間信息;步驟IV,對兩路頻域音頻信號,進行時頻逆變換或綜合濾波器組濾波,生成 左右兩路時域音頻信號。
6. —種空間參數(shù)立體聲編碼裝置,其特征在于由下混模塊、核心編碼模塊、 核心解碼模塊、動態(tài)時頻劃分模塊、分析濾波器組、參數(shù)提取模塊和碼流成型 模塊組成,左右兩路時域音頻信號輸入下混模塊和分析濾波器組,下混模塊的 輸出接入核心編碼器,核心編碼器的輸出接入核心解碼模塊,核心解碼模塊輸 出接入動態(tài)時頻劃分模塊,動態(tài)時頻劃分模塊和分析濾波器組的輸出接入?yún)?shù) 提取模塊,核心編碼模塊的輸出和參數(shù)提取模塊的輸出接入碼流成型模塊。
7. 如權(quán)利要求6所述的空間參數(shù)立體聲編碼方法,其特征在于所述核心編碼模塊采用AAC編碼器。
8. —種空間參數(shù)立體聲解碼裝置,其特征在于由碼流解析模塊、核心解碼模 塊、動態(tài)時頻劃分模塊、參數(shù)合成模塊和綜合濾波器組組成,合成碼流輸入碼 流解析模塊后分離出核心解碼數(shù)據(jù)和空間參數(shù)數(shù)據(jù),核心解碼數(shù)據(jù)輸入核心解 碼模塊,核心解碼模塊的輸出經(jīng)動態(tài)時頻劃分模塊后和空間參數(shù)數(shù)據(jù)共同輸入 參數(shù)合成模塊,參數(shù)合成模塊的輸出接入綜合濾波器。
全文摘要
本發(fā)明公開了空間參數(shù)立體聲編解碼方法及裝置編碼端首先將立體聲左右聲道信號在時域或頻域下混,然后下混信號傳送到變換編碼器產(chǎn)生單聲道編碼數(shù)據(jù),同時提取包含量化誤差的下混信號,并根據(jù)其短時頻譜特性將其變換域劃分為連續(xù)且不重疊的子帶,以子帶為單位提取左右聲道的空間參數(shù)。解碼端根據(jù)變換編碼數(shù)據(jù),生成與編碼端一致的包含量化誤差的下混信號并采用同樣的劃分方法得到子帶劃分,然后根據(jù)空間參數(shù)信息重建立體聲左右聲道子帶信號,反變換輸出時域立體聲信號。與現(xiàn)有技術(shù)相比,本發(fā)明沒有正反變換帶來的附加延時并且可在不傳送子帶劃分信息的條件下實現(xiàn)動態(tài)的時頻劃分,提高了空間參數(shù)立體聲編解碼的實時性和效率。
文檔編號H03M7/30GK101162904SQ200710053770
公開日2008年4月16日 申請日期2007年11月6日 優(yōu)先權(quán)日2007年11月6日
發(fā)明者婷 周, 晟 曹, 璇 李, 涂衛(wèi)平, 恒 王, 胡瑞敏, 艾浩軍, 陳水仙 申請人:武漢大學(xué)