音頻元數(shù)據(jù)的編碼變換的制作方法

文檔序號：2823230閱讀：243來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：音頻元數(shù)據(jù)的編碼變換的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及音頻編碼的領(lǐng)域。特別地，本發(fā)明涉及不同的音頻編碼方案之間的音頻元數(shù)據(jù)的編碼變換。
背景技術(shù)：
隨著數(shù)字電視和無線電系統(tǒng)的不斷增長，意圖引導(dǎo)節(jié)目響度和動態(tài)范圍的接收機側(cè)控制以及控制立體聲下混的元數(shù)據(jù)即“關(guān)于數(shù)據(jù)的數(shù)據(jù)”越來越受到重視。由于音頻數(shù)據(jù)的發(fā)射(emission)格式或傳輸(transmission)格式未必與制作(production)或回傳 (contribution)格式即在音頻信號的創(chuàng)建或后處理期間使用的編碼方案相同，因此必須找到將元數(shù)據(jù)從一種格式編碼變換為另一種格式的手段。通過將音頻編解碼器HE AAC (也稱為aacPlus)引入到幾種新的廣播系統(tǒng)中，需要解決如何最好地編碼新的元數(shù)據(jù)以及如何將預(yù)先存在的元數(shù)據(jù)編碼變換為HE AAC和從HE AAC編碼變換預(yù)先存在的元數(shù)據(jù)的問題。HE AAC (高效率高級音頻編碼)是以481cbpS立體聲在⑶音頻質(zhì)量附近提供全帶寬的現(xiàn)有技術(shù)的低比特率編解碼器。它已在HEAAC配置文件(profile)下在MPEG-4中被標準化。該配置文件以對存在于原MPEG-2 AAC定義中的若干缺點進行改善的方式對于解碼器中的元數(shù)據(jù)的任選的應(yīng)用提供增強的方式。特別地，它允許諸如DRC (動態(tài)范圍控制)、 DN(對話歸一化)之類的元數(shù)據(jù)的規(guī)范或從多聲道到立體聲的下混，所述下混被廣泛用于廣播中以在特定的收聽環(huán)境中實現(xiàn)原節(jié)目材料的適當?shù)脑佻F(xiàn)。雖然諸如HE AAC之類的編解碼器被廣泛用于廣播中，但是，在制作側(cè)以及在接收機側(cè)，不同的編碼方案是常見的。作為例子，DolbyE編碼方案被內(nèi)容制作者頻繁使用，而 Dolby數(shù)字編碼方案(也被稱為AC-3或Dolby D編碼方案)被頻繁用于劇場和家庭劇場解碼系統(tǒng)中。因此，需要不同編碼方案之間的音頻元數(shù)據(jù)的編碼變換，該編碼變換確保在制作側(cè)被初始定義的元數(shù)據(jù)以非劣化的方式到達最終的解碼系統(tǒng)。目標一般是，當比較經(jīng)受初始定義的元數(shù)據(jù)的初始編碼音頻流與經(jīng)受編碼變換的元數(shù)據(jù)的接收的音頻流時，確保通過收聽器檢測不到感知差異或者能檢測到很少的感知差異。以下發(fā)明應(yīng)對該問題，并且定義用于將元數(shù)據(jù)從一種壓縮比特流格式變換成不同的壓縮比特流格式的方法，特別是在兩種格式的成幀方式(framing)不兼容的情況下。

發(fā)明內(nèi)容
本發(fā)明描述用于將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一音頻編碼方案的第一增益元數(shù)據(jù)編碼變換成第二音頻編碼方案的第二增益元數(shù)據(jù)的方法，其中，第一和第二音頻編碼方案使用編碼塊，并且其中，各編碼塊具有至少一個相關(guān)聯(lián)的增益值。該方法包括以下步驟基于第一增益元數(shù)據(jù)的增益值選擇第二增益元數(shù)據(jù)的增益值，使得在與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻周圍的時間間隔內(nèi)，選擇第一增益元數(shù)據(jù)的最小增益值。這種第一和第二編碼方案的例子可以為Dolby E、AAC、HE AAC和/或Dolby Digital (Dolby D)及其變型，諸如Dolby Digital Plus。第一音頻編碼方案也可被稱為元數(shù)據(jù)編碼變換器的輸入處的源編碼方案，而第二音頻編碼方案也可被稱為元數(shù)據(jù)編碼變換器的輸出處的目標編碼方案。兩種編碼方案均限定與已編碼的音頻信號相關(guān)聯(lián)的元數(shù)據(jù)。典型地，基本的編碼方案將已編碼的音頻信號分段成編碼塊。取決于編碼方案，這種編碼塊可包含不同數(shù)量的已編碼信號采樣。此外，編碼塊還可覆蓋已編碼的音頻信號的不同的時間長度。通常，各編碼塊具有相關(guān)聯(lián)的元數(shù)據(jù)，所述相關(guān)聯(lián)的元數(shù)據(jù)也包含要被施加到特定編碼塊的音頻信號的增益值。另一方面，許多音頻編碼方案應(yīng)用所謂的采樣和保持行為，所述采樣和保持行為在于保持當前增益值直到接收更新的增益值的時刻。因此，在這樣的情況下，當前增益值與編碼塊相關(guān)聯(lián)，直到接收到更新的增益值。根據(jù)本發(fā)明的另一方面，用于選擇第二元數(shù)據(jù)的增益值的時間間隔由上限和下限限定。該上限和下限由分別被加到與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻和從與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻被減去的時間常數(shù)來確定。換句話說，在優(yōu)選的實施例中，該間隔圍繞與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻而對稱。該時間常數(shù)可被選擇，使得它大于或等于第一音頻編碼方案的編碼塊的時間長度和第二音頻編碼方案的編碼塊的時間長度中的最大值。如果以這種方式選擇時間常數(shù)，那么所描述的方法產(chǎn)生抵抗增益過沖和破音的經(jīng)編碼變換的增益值。在某些條件下，可以確保經(jīng)編碼變換的增益元數(shù)據(jù)決不超過源增益元數(shù)據(jù)。另一方面，時間常數(shù)也可被選擇為小于第一音頻編碼方案的編碼塊的時間長度和第二音頻編碼方案的編碼塊的時間長度中的最大值。為了實現(xiàn)源增益元數(shù)據(jù)和目標增益元數(shù)據(jù)之間的良好的匹配，這可能是有益的。在某些情況下，可能發(fā)生沒有第一增益元數(shù)據(jù)的增益值落入與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻周圍的時間間隔內(nèi)。作為例子，如果時間常數(shù)被選擇為特別小或者如果第二音頻編碼方案的編碼塊的時間長度小于第一音頻編碼方案的編碼塊的時間長度，那么可能發(fā)生這種情況。在這樣的情況下，該方法可將第二增益元數(shù)據(jù)的增益值選擇為與和第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的編碼塊之前的編碼塊相關(guān)聯(lián)的第二增益元數(shù)據(jù)的增益值。作為替代方案，該方法可將該時間間隔之前的第一增益元數(shù)據(jù)的增益值選擇作為第二增益元數(shù)據(jù)的增益值。換句話說，編碼變換器可使用音頻編碼方案的采樣和保持行為并且保持當前增益值，直到接收更新的增益值。根據(jù)本發(fā)明的另一方面，該方法可進一步被調(diào)整以適于第二音頻編碼方案允許選擇內(nèi)插第二增益元數(shù)據(jù)的相鄰增益值以形成第二增益曲線的不同的內(nèi)插曲線的情況。這種音頻編碼方案的例子是HE AAC，所述HE AAC允許選擇特別適于增益釋放的線性內(nèi)插曲線和特別適于增益攻擊的多個突兀的內(nèi)插曲線。如果第二音頻編碼方案提供這種功能，那么該方法還可包含以下步驟基于第一增益元數(shù)據(jù)的增益值來選擇第二增益元數(shù)據(jù)的兩個相鄰增益值之間的適當?shù)膬?nèi)插曲線?？衫缁诘谝辉鲆嬖獢?shù)據(jù)的兩個相鄰增益值之間的差值來選擇該適當?shù)膬?nèi)插曲線。如果例如第一源增益值(非常)高并且下一源增益值(非常)低，那么可選擇“攻擊”狀內(nèi)插曲線。另一方面，如果第一個和下一個源增益值相當類似，那么可選擇“釋放”狀內(nèi)插曲線。作為替代方案，如果第一增益曲線與第一增益元數(shù)據(jù)的增益值相關(guān)聯(lián)，其中，可通過內(nèi)插第一增益元數(shù)據(jù)的相鄰增益值獲得該第一增益曲線，那么可基于第一增益曲線的斜率來選擇該適當?shù)膬?nèi)插曲線。特別地，如果第一增益曲線的負斜率高于預(yù)定義的閾值，那么可檢測增益攻擊。換句話說，如果第一增益曲線陡峭地下降，那么可檢測增益攻擊。另一方面，如果第一增益曲線的負斜率低于預(yù)定義的閾值，那么可檢測增益釋放?；诘谝辉鲆媲€的檢測的增益攻擊或增益釋放，該方法于是選擇兩個增益元數(shù)據(jù)的兩個相鄰增益值之間的適當?shù)膬?nèi)插曲線。如以上已經(jīng)提及的，第二編碼方案可允許選擇多個“攻擊”內(nèi)插曲線(也被稱為內(nèi)插曲線圖案)。這些不同的內(nèi)插曲線圖案典型地在時間上相互延遲，并由此允許定義不同的“攻擊”時間。為了使用第二編碼方案的該功能，該方法可基于第一增益曲線的斜率的絕對值最大的位置而選擇第二增益元數(shù)據(jù)的兩個相鄰增益值之間的適當?shù)膬?nèi)插曲線。換句話說，該方法確定第一增益曲線的最陡的點并且選擇最接近該最陡的點的第二編碼方案的內(nèi)插曲線圖案。根據(jù)本發(fā)明的又一方面，第二增益元數(shù)據(jù)的增益值的選擇可不僅基于第一增益元數(shù)據(jù)的增益值的集合，而且基于整個第一增益曲線。在這樣的情況下，該方法包括以下步驟將該時間間隔內(nèi)的第一增益曲線的最小值選擇作為第二增益元數(shù)據(jù)的增益值。如果沒有第一增益元數(shù)據(jù)的增益值落入與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻周圍的時間間隔內(nèi)，那么這會是特別有用的。作為計算第一增益曲線的最小值的低復(fù)雜度替代方案，將該時間間隔內(nèi)的第一增益曲線的一組采樣的最小值選擇作為第二增益元數(shù)據(jù)的給定增益值會是有益的。第一增益曲線的該組采樣可包含落入該時間間隔內(nèi)的第二增益值的編碼塊的時刻處的第一增益曲線的采樣。另外，本發(fā)明描述了用于將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一音頻編碼方案的第一增益元數(shù)據(jù)編碼變換成第二音頻編碼方案的第二增益元數(shù)據(jù)的方法，其中，第一和第二音頻編碼方案具有不同的每編碼塊的音頻采樣數(shù)量，并且其中，各編碼塊具有相關(guān)聯(lián)的增益值。此外，相鄰編碼塊的一系列增益值被內(nèi)插以定義增益曲線。該方法包括以下步驟基于第一增益元數(shù)據(jù)的增益值來選擇第二增益元數(shù)據(jù)的增益值，使得第二增益曲線總是在第一增益曲線的下方。使用該條件，可以確保沒有破音的源音頻信號被編碼變換成也沒有破音的目標音頻信號。此外，本發(fā)明描述了用于將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一音頻編碼方案的第一增益元數(shù)據(jù)編碼變換成第二音頻編碼方案的第二增益元數(shù)據(jù)的方法，其中，第一和第二音頻編碼方案使用編碼塊，并且，各編碼塊具有相關(guān)聯(lián)的增益值。另外，第二增益曲線與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)。該方法包括以下步驟選擇第二增益元數(shù)據(jù)的增益值，使得在與第一音頻編碼方案的編碼塊相關(guān)聯(lián)的時刻處，第二增益曲線小于或等于第一增益元數(shù)據(jù)的增益值。根據(jù)本發(fā)明的另一方面，第二增益元數(shù)據(jù)的增益值的選擇可不僅基于第一增益元數(shù)據(jù)的所述一組增益值，而是基于整個第一增益曲線。在這些情況下，該方法可選擇第二增益元數(shù)據(jù)的增益值，使得在與第一音頻編碼方案的編碼塊相關(guān)聯(lián)的時刻處和/或在與第二音頻編碼方案的編碼塊相關(guān)聯(lián)的時刻處，第二增益曲線小于或等于第一增益曲線。特別是當?shù)诙纛l編碼方案的編碼塊的時間長度小于第一音頻編碼方案的編碼塊的時間長度時，這會是有益的。對于某些編碼方案，增益曲線由與相鄰的增益值和窗函數(shù)相關(guān)聯(lián)的段構(gòu)成。典型地，通過使用編碼方案的窗函數(shù)在相鄰的增益值之間進行內(nèi)插來獲得曲線段。在這樣的情況下，可通過增益值和窗函數(shù)的一組采樣來確定特定時刻處的增益曲線的上述的采樣。對于某些編碼方案，窗函數(shù)對于曲線段的全部或子集是相同的，使得可通過增益值和窗函數(shù)的有限的一組采樣來描述增益曲線。即使當使增益值選擇基于源增益曲線時，這也允許所描述的方法的低復(fù)雜度實現(xiàn)。此外，本發(fā)明還描述了實現(xiàn)上述的編碼變換方法的編碼變換系統(tǒng)。這些編碼變換系統(tǒng)可以是傳輸系統(tǒng)或消費者機頂盒的一部分。編碼變換系統(tǒng)可利用由周圍的系統(tǒng)提供的處理和存儲器裝置，但是，該編碼變換系統(tǒng)也可包含諸如CPU之類的自身的處理裝置和諸如ROM或RAM之類的存儲器裝置。作為例子，音頻編碼變換系統(tǒng)的實現(xiàn)可包含數(shù)字處理器和用于存儲用于由處理器執(zhí)行的指令的存儲器。存儲器還可存儲進入的元數(shù)據(jù)和在傳輸之前產(chǎn)生的離開的元數(shù)據(jù)。特別地，編碼塊的增益值可被存儲于存儲器中用于處理。此外，優(yōu)選具有存儲于存儲器中的第一和/或第二音頻編碼方案的窗函數(shù)或多個窗函數(shù)的采樣。可以在用于從傳輸音頻格式向用于在消費者的家中回放或記錄的音頻編碼方案進行編碼變換的機頂盒中實現(xiàn)示例性的音頻編碼變換系統(tǒng)。作為例子，可以在機頂盒中設(shè)置作為傳輸音頻編碼方案的HE AAC和作為用于回放的發(fā)射音頻編碼方案的Dolby Digital(Plus)之間的編碼變換?？梢宰鳛橛糜趶闹谱骰蚧貍饕纛l編碼格式向傳輸音頻格式進行編碼變換的頭端來實現(xiàn)用于音頻編碼變換系統(tǒng)的另一例子。作為例子，可以在這種前端系統(tǒng)中設(shè)置作為制作音頻方案的Dolby E和作為傳輸音頻編碼方案的HE AAC之間的編碼變換。應(yīng)當注意，在本文件中描述的方法和系統(tǒng)可被應(yīng)用于諸如DolbyE、也稱為Dolby D 或AC-3的Dolby Digital (Plus)、AAC (高級音頻編碼)和/或也稱為aacPlus的HE AAC (高效率AAC)之類的多種的第一和第二音頻編碼方案。此外，應(yīng)當注意，可以相互組合地使用在本文件中描述的方法和系統(tǒng)的特征。特別是，采用用于一個編碼變換方向的一種方法和用于反向編碼變換方向的另一方法會是有益的。

以下，參照附圖描述本發(fā)明的選擇的實施例圖1圖示典型的編碼變換鏈。圖2圖示音頻編解碼器的典型的編碼和解碼結(jié)構(gòu)；圖3圖示用于不同的音頻編解碼器的不同的內(nèi)插增益曲線；圖如圖示音頻編解碼器的內(nèi)插函數(shù)；
圖4b圖示與圖如的內(nèi)插函數(shù)相關(guān)聯(lián)的窗函數(shù)；圖如圖示非對稱窗函數(shù)及其相關(guān)聯(lián)的內(nèi)插函數(shù)的例子；圖5圖示一系列級聯(lián)的經(jīng)內(nèi)插的增益曲線；圖6示出圖示第一編碼變換算法的增益匹配性質(zhì)的第一例子；圖7a和圖7b示出圖示第一編碼變換算法的增益匹配性質(zhì)的第二例子；圖8示出使用第一編碼變換算法的增益元數(shù)據(jù)的編碼變換的實驗結(jié)果；圖9a和圖9b圖示第二編碼變換算法的增益匹配性質(zhì)；圖10示出使用第三編碼變換算法的增益元數(shù)據(jù)的編碼變換的實驗結(jié)果。
具體實施例方式元數(shù)據(jù)是例如在Dolby Digital、Dolby E、AAC、HE AAC或其它音頻編解碼器中與多聲道音頻比特流一起行進的“關(guān)于音頻數(shù)據(jù)的數(shù)據(jù)”。它使得廣播設(shè)備不必根據(jù)傳輸?shù)囊纛l流而連續(xù)調(diào)整和壓縮音頻水平。它還提供關(guān)于音頻流的聲學(xué)動力學(xué)的具有高的藝術(shù)自由度的音頻混合器。過去，與多聲道音頻一起工作的廣播設(shè)備常具有聲軌的平均水平落在其它節(jié)目制作(programming)之上或之下的問題。并且，當在具有立體聲或單音頻輸出的電視機上回放環(huán)繞聲音內(nèi)容時出現(xiàn)問題。使用音頻元數(shù)據(jù)，聲音工程師可全部在后期制作階段對于各種回放系統(tǒng)以不同的方式混合音頻內(nèi)容并且設(shè)定回放水平，因此，廣播設(shè)備可遞送更一致的音頻信號并且確保最重要的音頻要素通過。元數(shù)據(jù)提供若干參數(shù)，這些參數(shù)特別意圖改變向消費者的特有收聽環(huán)境遞送的節(jié)目的聲音。這些元數(shù)據(jù)參數(shù)被稱為對話水平(也稱為對話歸一化或dialnorm)、動態(tài)范圍控制和下混。雖然在技術(shù)上不是單獨的元數(shù)據(jù)參數(shù)，但是消費者的解碼器內(nèi)的下混通過特定的元數(shù)據(jù)參數(shù)被實現(xiàn)，并且，如同dialnorm和動態(tài)范圍控制那樣，在監(jiān)視和選擇實現(xiàn)下混條件的元數(shù)據(jù)參數(shù)時必須小心。制作側(cè)的聲音工程師最終負責(zé)優(yōu)化多聲道混合以用于最好地在最佳收聽環(huán)境中再現(xiàn)。但是，還應(yīng)小心確保也解決并非最佳的收聽環(huán)境。這就是在編碼變換期間元數(shù)據(jù)不畸變或者僅以有限的方式畸變十分重要的原因，以便保持在制作階段期間設(shè)計的元數(shù)據(jù)的質(zhì)量。對話水平參數(shù)向家庭解碼器提供歸一化值。該值將音頻的音量調(diào)整到預(yù)設(shè)的水平，這幫助從節(jié)目內(nèi)容到節(jié)目內(nèi)容和從媒體到媒體的水平匹配。對話水平不在節(jié)目材料上使任何壓縮或膨脹生效(assert)，而是將音頻的音量降低到標準化水平。對話水平與動態(tài)范圍控制配置文件協(xié)同工作。對話水平參數(shù)在節(jié)目的輕聲和大聲部分之間設(shè)定一種“空帶 (null band)，，。動態(tài)范圍控制(DRC，有時被稱為動態(tài)范圍壓縮或午夜模式)給予消費者用減小的動態(tài)范圍收聽節(jié)目音頻的靈活性。動態(tài)范圍的壓縮使得觀看者不干擾鄰居而觀看電視。該控制常常是任選的，并且可在諸如Dolby Digital解碼器之類的多數(shù)音頻解碼器中被關(guān)閉。動態(tài)范圍控制還被用于消費者解碼器上的常見“午夜模式”特征。在較低音量下，節(jié)目的較輕聲的部分(耳語和輕聲對話)更加難以聽到。然而，如果觀看者增大音量，那么較大聲的部分(爆炸、屏幕上的爭吵、槍擊等)變得聲音太大以至于聽起來不舒服。作為替代方案，在具有高水平的背景噪聲的環(huán)境中，節(jié)目的較安靜的部分將被環(huán)境噪聲淹沒。當在解碼器內(nèi)使動態(tài)范圍配置文件生效時，解碼器提高節(jié)目的較輕聲部分的水平同時降低大聲部分的水平，從而允許用戶不必連續(xù)搜索音量控制而欣賞影片。動態(tài)范圍控制典型地由兩個參數(shù)或“配置文件”構(gòu)成RF模式和Line模式。應(yīng)當注意，這兩個參數(shù)不改變比特流內(nèi)的編碼的音頻的內(nèi)容。它們被用于調(diào)整收聽環(huán)境內(nèi)的節(jié)目材料的極端狀況以解決優(yōu)選或必須以降低的動態(tài)范圍收聽節(jié)目的情況。RF模式被設(shè)計為用于峰值限制情況，在所述峰值限制情況中，意圖通過電視上的 RF輸入(諸如通過機頂盒的天線輸出)遞送解碼的節(jié)目。它典型地允許士48. 16dB的范圍中的動態(tài)范圍壓縮，并且也被稱為低速率DRC。Line模式提供更輕的類型的壓縮，并且也允許用戶在家庭解碼器內(nèi)調(diào)整低水平提升和高水平截斷參數(shù)。它典型地允許士OSdB的范圍中的動態(tài)范圍壓縮，并且也被稱為高速率DRC。提升和截斷的面積的調(diào)整或“縮放”允許消費者對于他們的特定的收聽環(huán)境定制音頻再現(xiàn)。下混是允許通過更少的揚聲器聲道再現(xiàn)多聲道節(jié)目的諸如DolbyDigital之類的音頻編碼器內(nèi)的特征。簡言之，下混允許消費者欣賞數(shù)字電視廣播而無需完整的5. 1聲道家庭劇場設(shè)置。如同有時以單聲道方式監(jiān)視混合以保持兼容性的立體聲混合，多聲道音頻混合要求工程師參照具有更少的揚聲器聲道的混合，以確信對于下混情況的兼容性。某些元數(shù)據(jù)參數(shù)幫助實現(xiàn)適當?shù)南禄欤瑥亩兄诖_保聲音工程師/內(nèi)容制作者的意圖將跨越這些環(huán)境而能被譯出。特別地，元數(shù)據(jù)提供對于某些揚聲器信道如何被“折疊”成所得到的下混的控制。雖然聲音工程師通常優(yōu)化多聲道混合以用于在理想收聽環(huán)境中的再現(xiàn)，但是，在選擇下混元數(shù)據(jù)參數(shù)時預(yù)覽下混條件中的混合以確保與不同回放系統(tǒng)的兼容性也是重要的。如上面概述的那樣，元數(shù)據(jù)可被用于控制解碼器中的時變增益要素等，將其用作動態(tài)范圍控制和/或用于防止破音(clipping)的音頻信號的限制手段。與在編碼器側(cè)應(yīng)用壓縮相對的，在解碼器側(cè)應(yīng)用壓縮的目的在于，以這種方式，終端用戶保留對動態(tài)范圍壓縮量的控制。對于深夜觀看，終端用戶可能會想要使用最大壓縮，而具有自己的家庭劇場的 “高保真音響愛好者”可能會優(yōu)選欣賞原劇場混合的全動態(tài)范圍。在現(xiàn)代的數(shù)字廣播鏈中，在制作、回傳和傳輸階段中使用幾種音頻格式。在原音頻混合可仍為未壓縮的線性PCM格式流的情況下，制作的終端結(jié)果常常是Dolby E格式流。使用Dolby E作為內(nèi)容制作過程中的音頻編解碼器，制作者至少具有嵌入描述整體節(jié)目響度 (DialNorm)、要用于產(chǎn)生DRC系數(shù)的壓縮器配置文件和下混的元數(shù)據(jù)參數(shù)的可能性。圖1圖示從制作中心到消費者的家庭的音頻編碼變換的示例性鏈100。在制作中心101處，音頻流典型地處于諸如Dolby E之類的最適于制作和后處理目的的音頻格式。該制作音頻流然后被編碼變換成諸如Dolby Digital(也稱為Dolby D或AC_3)之類的最適于發(fā)射目的的格式102。如果需要音頻流的傳輸或廣播，那么該發(fā)射音頻流可能需要編碼變換成諸如HE AAC之類的適當?shù)膫鬏敾驈V播格式103。該傳輸音頻流可然后在網(wǎng)絡(luò)104上被傳輸?shù)较M者家庭的多個機頂盒105。由于多數(shù)的消費者設(shè)備106需要諸如Dolby Digital之類的特定的消費者音頻格式以正確地呈現(xiàn)音頻流的事實，因此，在機頂盒105處需要從傳輸音頻流到消費者音頻流的進一步的編碼變換。應(yīng)當注意，制作、發(fā)射、傳輸和消費者音頻流格式中的一些可以是相同的。特別地，發(fā)射和消費者音頻流格式可均為Dolby Digital。換句話說，Dolby E格式流可被編碼變換成更適于在影院、家庭劇場或傳統(tǒng)的家庭立體聲中呈現(xiàn)內(nèi)容的音頻數(shù)據(jù)流。這種發(fā)射音頻數(shù)據(jù)流的一個例子是Dolby Digital流。音頻數(shù)據(jù)流格式之間的該編碼變換即制作音頻流和發(fā)射音頻流之間的編碼變換也觸發(fā)對于元數(shù)據(jù)編碼變換的需要。如果要求音頻流的傳輸或廣播，那么發(fā)射音頻流例如DolbyDigital流可要求編碼變換成諸如對于低比特率鏈路上的音頻傳輸優(yōu)化的MPEG HE-AAC音頻流之類的傳輸音頻流。并且，對于發(fā)射音頻流和傳輸音頻流之間的這種編碼變換，相關(guān)聯(lián)的元數(shù)據(jù)也需要被編碼變換。在傳輸之后，音頻數(shù)據(jù)流通常在接收機處被解碼，在消費者的前提下該接收機可以是機頂盒(STB)。特別地，如果音頻數(shù)據(jù)流是諸如環(huán)繞聲音音頻流之類的多聲道音頻流，那么將傳輸音頻流編碼變換成諸如Dolby Digital之類的消費者音頻流會是有益的。通過這樣，多聲道信號可經(jīng)由光學(xué)或同軸S/P DIF鏈路被轉(zhuǎn)發(fā)到消費者的家庭劇場或電視機中的多聲道接收機。并且，傳輸音頻流和消費者音頻流之間的該編碼變換需要相關(guān)聯(lián)的元數(shù)據(jù)之間的編碼變換。當一種格式的音頻數(shù)據(jù)流被編碼變換成另一格式的音頻數(shù)據(jù)流時，元數(shù)據(jù)也需要與其一起行進。DialNorm元數(shù)據(jù)的編碼變換典型地不表現(xiàn)出可觀的問題，原因是它通常僅在節(jié)目邊界處改變，否則基本上保持恒定。但是，由于DRC控制信號在不同的音頻格式中具有不同的成幀方式，因此DRC元數(shù)據(jù)的編碼變換不是無關(guān)痛癢的。表1列出示例性的音頻格式和編解碼器的幀長度。
權(quán)利要求
1.一種用于將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一音頻編碼方案的第一增益元數(shù)據(jù)編碼變換成第二音頻編碼方案的第二增益元數(shù)據(jù)的方法，其中所述第一和第二音頻編碼方案使用編碼塊；以及各編碼塊具有至少一個相關(guān)聯(lián)的增益值；以及其中，該方法包括以下步驟基于第一增益元數(shù)據(jù)的增益值選擇第二增益元數(shù)據(jù)的增益值，使得在與該第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻周圍的時間間隔內(nèi)，選擇第一增益元數(shù)據(jù)的最小增益值；如果沒有第一增益元數(shù)據(jù)的增益值落入與該第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻周圍的所述時間間隔內(nèi)，那么將該第二增益元數(shù)據(jù)的增益值選擇為與和該第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的編碼塊之前的編碼塊相關(guān)聯(lián)的第二增益元數(shù)據(jù)的增益值；或者緊接在所述時間間隔之前的第一增益元數(shù)據(jù)的增益值。
2.根據(jù)權(quán)利要求1的方法，其中，所述第一和第二音頻編碼方案的編碼塊覆蓋已編碼的音頻信號的不同的時間長度。
3.根據(jù)權(quán)利要求1的方法，其中，所述時間間隔的上限和下限由分別被加到與該第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻和從與該第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻被減去的時間常數(shù)來確定。
4.根據(jù)權(quán)利要求3的方法，其中，所述第一和第二音頻編碼方案的編碼塊覆蓋已編碼的音頻信號的某些時間長度，并且，所述時間常數(shù)大于或等于以下中的最大值第一音頻編碼方案的編碼塊的時間長度；和第二音頻編碼方案的編碼塊的時間長度。
5.根據(jù)權(quán)利要求3的方法，其中，所述第一和第二音頻編碼方案的編碼塊覆蓋已編碼的音頻信號的某些時間長度，并且，所述時間常數(shù)小于以下中的最大值第一音頻編碼方案的編碼塊的時間長度；和第二音頻編碼方案的編碼塊的時間長度。
6.根據(jù)權(quán)利要求1的方法，其中，所述第二音頻編碼方案允許選擇內(nèi)插第二增益元數(shù)據(jù)的相鄰增益值以形成第二增益曲線的不同的內(nèi)插曲線；并且，該方法還包括以下步驟基于第一增益元數(shù)據(jù)的增益值，選擇第二增益元數(shù)據(jù)的兩個相鄰增益值之間的適當?shù)膬?nèi)插曲線。
7.根據(jù)權(quán)利要求6的方法，其中，基于第一增益元數(shù)據(jù)的兩個相鄰增益值之間的差值來選擇所述適當?shù)膬?nèi)插曲線。
8.根據(jù)權(quán)利要求6的方法，其中第一增益曲線與第一增益元數(shù)據(jù)的增益值相關(guān)聯(lián)；以及通過內(nèi)插第一增益元數(shù)據(jù)的相鄰增益值來獲得所述第一增益曲線；以及該方法還包括以下步驟基于第一增益曲線的斜率來選擇第二增益元數(shù)據(jù)的兩個相鄰增益值之間的所述適當?shù)膬?nèi)插曲線。
9.根據(jù)權(quán)利要求8的方法，還包括以下步驟如果第一增益曲線的負斜率高于預(yù)定義的閾值，那么檢測增益攻擊；如果第一增益曲線的負斜率低于預(yù)定義的閾值，那么檢測增益釋放；以及基于檢測到的第一增益曲線的增益攻擊或增益釋放來選擇第二增益元數(shù)據(jù)的兩個相鄰增益值之間的所述適當?shù)膬?nèi)插曲線。
10.根據(jù)權(quán)利要求9的方法，其中，該方法還包括以下步驟基于第一增益曲線的斜率的絕對值最大的位置來選擇第二增益元數(shù)據(jù)的兩個相鄰增益值之間的所述適當?shù)膬?nèi)插曲線。
11.一種用于將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一音頻編碼方案的第一增益元數(shù)據(jù)編碼變換成第二音頻編碼方案的第二增益元數(shù)據(jù)的方法，其中所述第一和第二音頻編碼方案使用編碼塊；各編碼塊具有至少一個相關(guān)聯(lián)的增益值；以及第一增益曲線與第一增益元數(shù)據(jù)的增益值相關(guān)聯(lián)；以及其中，該方法包括以下步驟將與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻周圍的時間間隔內(nèi)的第一增益曲線的最小值選擇作為該第二增益元數(shù)據(jù)的增益值。
12.根據(jù)權(quán)利要求11的方法，其中選擇第一增益曲線的最小值的步驟包含選擇所述時間間隔內(nèi)的第一增益曲線的一組采樣的最小值。
13.根據(jù)權(quán)利要求12的方法，其中第一增益曲線的所述一組采樣對應(yīng)于與落入所述時間間隔內(nèi)的第二增益值的編碼塊相關(guān)聯(lián)的時刻處的第一增益曲線的采樣。
14.一種用于將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一音頻編碼方案的第一增益元數(shù)據(jù)編碼變換成第二音頻編碼方案的第二增益元數(shù)據(jù)的方法，其中所述第一和第二音頻編碼方案具有不同的每編碼塊的音頻采樣數(shù)量；各編碼塊具有至少一個相關(guān)聯(lián)的增益值；以及相鄰編碼塊的一系列增益值被內(nèi)插以定義增益曲線；以及其中，該方法包括以下步驟基于第一增益元數(shù)據(jù)的增益值來選擇第二增益元數(shù)據(jù)的增益值，使得第二增益曲線在第一增益曲線的下方。
15.一種用于將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一音頻編碼方案的第一增益元數(shù)據(jù)編碼變換成第二音頻編碼方案的第二增益元數(shù)據(jù)的方法，其中所述第一和第二音頻編碼方案使用編碼塊；各編碼塊具有至少一個相關(guān)聯(lián)的增益值；以及第一增益曲線與第一增益元數(shù)據(jù)的增益值相關(guān)聯(lián)；第二增益曲線與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)；以及其中，該方法包括以下步驟選擇第二增益元數(shù)據(jù)的增益值，使得在與第一音頻編碼方案的編碼塊相關(guān)聯(lián)的時刻處以及在與第二音頻編碼方案的編碼塊相關(guān)聯(lián)的時刻處，第二增益曲線小于或等于第一增益曲線。
16.根據(jù)權(quán)利要求15的方法，其中所述第一增益曲線由與相鄰的第一增益值和第一窗函數(shù)相關(guān)聯(lián)的段組成；以及所述第二增益曲線由與相鄰的第二增益值和第二窗函數(shù)相關(guān)聯(lián)的段組成。
17.一種用于將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一音頻編碼方案的第一增益元數(shù)據(jù)編碼變換成第二音頻編碼方案的第二增益元數(shù)據(jù)的編碼變換系統(tǒng)，其中所述第一和第二音頻編碼方案使用編碼塊；以及各編碼塊具有至少一個相關(guān)聯(lián)的增益值；以及其中，該編碼變換系統(tǒng)包括選擇裝置，用于基于第一增益元數(shù)據(jù)的增益值選擇第二增益元數(shù)據(jù)的增益值，使得在與該第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻周圍的時間間隔內(nèi)，選擇第一增益元數(shù)據(jù)的最小增益值；以及如果沒有第一增益元數(shù)據(jù)的增益值落入與該第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻周圍的所述時間間隔內(nèi)，那么將該第二增益元數(shù)據(jù)的增益值選擇為與和該第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的編碼塊之前的編碼塊相關(guān)聯(lián)的第二增益元數(shù)據(jù)的增益值；或者緊接在所述時間間隔之前的第一增益元數(shù)據(jù)的增益值。
18.一種用于將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一音頻編碼方案的第一增益元數(shù)據(jù)編碼變換成第二音頻編碼方案的第二增益元數(shù)據(jù)的編碼變換系統(tǒng)，其中所述第一和第二音頻編碼方案使用編碼塊；以及各編碼塊具有至少一個相關(guān)聯(lián)的增益值；第一增益曲線與第一增益元數(shù)據(jù)的增益值相關(guān)聯(lián)；以及其中，該編碼變換系統(tǒng)包括選擇裝置，用于將與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻周圍的時間間隔內(nèi)的第一增益曲線的最小值選擇作為該第二增益元數(shù)據(jù)的增益值。
19.一種用于將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一音頻編碼方案的第一增益元數(shù)據(jù)編碼變換成第二音頻編碼方案的第二增益元數(shù)據(jù)的編碼變換系統(tǒng)，其中所述第一和第二音頻編碼方案具有不同的每編碼塊的音頻采樣數(shù)量；各編碼塊具有相關(guān)聯(lián)的增益值；以及相鄰編碼塊的一系列增益值被內(nèi)插以定義增益曲線；以及其中，該編碼變換系統(tǒng)包括選擇裝置，用于基于第一增益元數(shù)據(jù)的增益值來選擇第二增益元數(shù)據(jù)的增益值，使得第二增益曲線在第一增益曲線的下方。
20.一種用于將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一音頻編碼方案的第一增益元數(shù)據(jù)編碼變換成第二音頻編碼方案的第二增益元數(shù)據(jù)的編碼變換系統(tǒng)，其中所述第一和第二音頻編碼方案使用編碼塊；各編碼塊具有相關(guān)聯(lián)的增益值；第一增益曲線與第一增益元數(shù)據(jù)的增益值相關(guān)聯(lián)；以及第二增益曲線與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)；以及其中，該編碼變換系統(tǒng)包括選擇裝置，用于選擇第二增益元數(shù)據(jù)的增益值，使得在與第一音頻編碼方案的編碼塊相關(guān)聯(lián)的時刻處以及在與第二音頻編碼方案的編碼塊相關(guān)聯(lián)的時刻處，第二增益曲線小于或等于第一增益曲線。
21.一種計算機程序產(chǎn)品，包括可執(zhí)行指令，所述可執(zhí)行指令用于當在計算機上被執(zhí)行時執(zhí)行權(quán)利要求1 16中的任一項的方法。
22.一種用于對接收的多媒體信號進行解碼的機頂盒，該機頂盒包含接收機，用于接收第一編碼方案的多媒體信號；編碼變換單元，用于將第一編碼方案的多媒體信號編碼變換成第二編碼方案的多媒體信號；以及發(fā)射機，用于傳輸經(jīng)編碼變換的多媒體信號；其中，所述編碼變換單元將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一編碼方案的第一增益元數(shù)據(jù)編碼變換成第二編碼方案的第二增益元數(shù)據(jù)，其中所述第一和第二音頻編碼方案使用編碼塊；以及各編碼塊具有至少一個相關(guān)聯(lián)的增益值；以及其中，所述編碼變換單元基于第一增益元數(shù)據(jù)的增益值選擇第二增益元數(shù)據(jù)的增益值，使得在與該第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻周圍的時間間隔內(nèi)，選擇第一增益元數(shù)據(jù)的最小增益值；以及如果沒有第一增益元數(shù)據(jù)的增益值落入與該第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻周圍的所述時間間隔內(nèi)，那么將該第二增益元數(shù)據(jù)的增益值選擇為與和該第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的編碼塊之前的編碼塊相關(guān)聯(lián)的第二增益元數(shù)據(jù)的增益值；或者緊接在所述時間間隔之前的第一增益元數(shù)據(jù)的增益值。
23.一種用于對接收的多媒體信號進行解碼的機頂盒，該機頂盒包含接收機，用于接收第一編碼方案的多媒體信號；編碼變換單元，用于將第一編碼方案的多媒體信號編碼變換成第二編碼方案的多媒體信號；以及發(fā)射機，用于傳輸經(jīng)編碼變換的多媒體信號；其中，所述編碼變換單元將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一編碼方案的第一增益元數(shù)據(jù)編碼變換成第二編碼方案的第二增益元數(shù)據(jù)，其中所述第一和第二音頻編碼方案使用編碼塊；以及各編碼塊具有至少一個相關(guān)聯(lián)的增益值；第一增益曲線與第一增益元數(shù)據(jù)的增益值相關(guān)聯(lián)；以及其中，該編碼變換單元將與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻周圍的時間間隔內(nèi)的第一增益曲線的最小值選擇作為該第二增益元數(shù)據(jù)的增益值。
24.一種用于對接收的多媒體信號進行解碼的機頂盒，該機頂盒包含接收機，用于接收第一編碼方案的多媒體信號；編碼變換單元，用于將第一編碼方案的多媒體信號編碼變換成第二編碼方案的多媒體信號；以及發(fā)射機，用于傳輸經(jīng)編碼變換的多媒體信號；其中，所述編碼變換單元將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一編碼方案的第一增益元數(shù)據(jù)編碼變換成第二編碼方案的第二增益元數(shù)據(jù)，其中所述第一和第二音頻編碼方案具有不同的每編碼塊的音頻采樣數(shù)量；各編碼塊具有相關(guān)聯(lián)的增益值；以及相鄰編碼塊的一系列增益值被內(nèi)插以定義增益曲線；以及其中，該編碼變換單元基于第一增益元數(shù)據(jù)的增益值來選擇第二增益元數(shù)據(jù)的增益值，使得第二增益曲線在第一增益曲線的下方。
25.一種用于對接收的多媒體信號進行解碼的機頂盒，該機頂盒包含接收機，用于接收第一編碼方案的多媒體信號；編碼變換單元，用于將第一編碼方案的多媒體信號編碼變換成第二編碼方案的多媒體信號；以及發(fā)射機，用于傳輸經(jīng)編碼變換的多媒體信號；其中，所述編碼變換單元將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一編碼方案的第一增益元數(shù)據(jù)編碼變換成第二編碼方案的第二增益元數(shù)據(jù)，其中所述第一和第二音頻編碼方案使用編碼塊；各編碼塊具有相關(guān)聯(lián)的增益值；第一增益曲線與第一增益元數(shù)據(jù)的增益值相關(guān)聯(lián)；以及第二增益曲線與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)；以及其中，該編碼變換系統(tǒng)選擇第二增益元數(shù)據(jù)的增益值，使得在與第一音頻編碼方案的編碼塊相關(guān)聯(lián)的時刻處以及在與第二音頻編碼方案的編碼塊相關(guān)聯(lián)的時刻處，第二增益曲線小于或等于第一增益曲線。
26.根據(jù)權(quán)利要求1 16中的任一項的方法，其中，所述第一和第二音頻編碼方案是以下中的一種Dolby Ε、Dolby Digital、AAC、HE AAC。
全文摘要
本發(fā)明涉及音頻編碼的領(lǐng)域。特別地，本發(fā)明涉及不同的音頻編碼方案之間的音頻元數(shù)據(jù)的編碼變換。本發(fā)明描述了用于將與動態(tài)范圍控制有關(guān)的音頻增益元數(shù)據(jù)從第一音頻編碼方案的第一增益元數(shù)據(jù)編碼變換成第二音頻編碼方案的第二增益元數(shù)據(jù)的方法和系統(tǒng)，其中，第一和第二音頻編碼方案使用編碼塊，并且其中，各編碼塊具有至少一個相關(guān)聯(lián)的增益值。該方法和系統(tǒng)基于第一增益元數(shù)據(jù)的增益值選擇第二增益元數(shù)據(jù)的增益值，使得在與第二增益元數(shù)據(jù)的增益值相關(guān)聯(lián)的時刻周圍的時間間隔內(nèi)，選擇第一增益元數(shù)據(jù)的最小增益值。
文檔編號G10L19/14GK102171755SQ200980138385
公開日2011年8月31日申請日期2009年9月17日優(yōu)先權(quán)日2008年9月30日
發(fā)明者K·M·克勞斯, W·A·席爾德巴赫申請人:杜比國際公司

完整全部詳細技術(shù)資料下載