相關(guān)申請(qǐng)的交叉引用
本申請(qǐng)要求在2013年6月19日提交的美國(guó)臨時(shí)專利申請(qǐng)61/836,865號(hào)的優(yōu)先權(quán),其全部?jī)?nèi)容通過引用合并于此。
技術(shù)領(lǐng)域
本發(fā)明涉及音頻信號(hào)處理,以及更具體地,涉及具有指示與由比特流所指示的音頻內(nèi)容有關(guān)的子流結(jié)構(gòu)和/或節(jié)目信息的元數(shù)據(jù)的音頻數(shù)據(jù)比特流的編碼和解碼。本發(fā)明的一些實(shí)施方式以被稱為杜比數(shù)字(AC-3)、杜比數(shù)字+(增強(qiáng)的AC-3或E-AC-3)或杜比E的格式中的一種格式生成或解碼音頻數(shù)據(jù)。
背景技術(shù):
杜比、杜比數(shù)字、杜比數(shù)字+、和杜比E是杜比實(shí)驗(yàn)室特許公司的商標(biāo)。杜比實(shí)驗(yàn)室提供分別被稱為杜比數(shù)字和杜比數(shù)字+的AC-3和E-AC-3的專有實(shí)現(xiàn)。
音頻數(shù)據(jù)處理單元通常以盲方式(blind fashion)操作并且不關(guān)注在數(shù)據(jù)被接收之前發(fā)生的音頻數(shù)據(jù)的處理歷史。這可以在這樣的處理框架中工作:其中單個(gè)實(shí)體進(jìn)行各種目標(biāo)媒體渲染裝置的所有的音頻數(shù)據(jù)處理和編碼而目標(biāo)媒體渲染裝置進(jìn)行編碼音頻數(shù)據(jù)的所有的解碼和渲染。然而,該盲處理在多個(gè)音頻處理單元跨多樣化的網(wǎng)絡(luò)被散布(scatter)或串聯(lián)(即,鏈)放置并且期望它們最佳地執(zhí)行其相應(yīng)類型的音頻處理的情形下不能很好地(或完全不)工作。例如,一些音頻數(shù)據(jù)可能針對(duì)高性能媒體系統(tǒng)被編碼,并且可能需要被轉(zhuǎn)換成適合于沿著媒體處理鏈的移動(dòng)設(shè)備的簡(jiǎn)化形式。因此,音頻處理單元可能不必要地對(duì)音頻數(shù)據(jù)執(zhí)行已經(jīng)被執(zhí)行過的類型的處理。例如,音量校平(leveling)單元可能對(duì)輸入音頻片斷執(zhí)行處理,不管以前是否已經(jīng)對(duì)輸入音頻片斷執(zhí)行了相同的或相似的音量校平。因此,即使當(dāng)不必要時(shí),音量校平單元也可能執(zhí)行校平。該不必要的處理還可能導(dǎo)致當(dāng)渲染音頻數(shù)據(jù)的內(nèi)容時(shí)具體特征的退化和/或消除。
技術(shù)實(shí)現(xiàn)要素:
在一類實(shí)施方式中,本發(fā)明是能夠?qū)幋a比特流進(jìn)行解碼的音頻處理單元,該編碼比特流包括比特流的至少一個(gè)幀的至少一個(gè)段中的子流結(jié)構(gòu)元數(shù)據(jù)和/或節(jié)目信息元數(shù)據(jù)(可選地還包括其他元數(shù)據(jù),例如,響度處理狀態(tài)元數(shù)據(jù))以及幀的至少一個(gè)其他段中的音頻數(shù)據(jù)。在本文中,子流結(jié)構(gòu)元數(shù)據(jù)(或“SSM”)表示編碼比特流(或編碼比特流的集合)的元數(shù)據(jù),其指示編碼比特流的音頻內(nèi)容的子流結(jié)構(gòu),并且“節(jié)目信息元數(shù)據(jù)”(或“PIM”)表示編碼音頻比特流的元數(shù)據(jù),其指示至少一個(gè)音頻節(jié)目(例如,兩個(gè)或更多個(gè)音頻節(jié)目),其中節(jié)目信息元數(shù)據(jù)指示至少一個(gè)所述節(jié)目的音頻內(nèi)容的至少一個(gè)屬性或特性(例如,指示對(duì)節(jié)目的音頻數(shù)據(jù)執(zhí)行的處理的類型或參數(shù)的元數(shù)據(jù),或指示節(jié)目的哪些通道是活動(dòng)通道(active channel)的元數(shù)據(jù))。
在典型的情況(例如,其中編碼比特流為AC-3或E-AC-3比特流)下,節(jié)目信息元數(shù)據(jù)(PIM)指示實(shí)際上不能在比特流的其他部分中攜帶的節(jié)目信息。例如,PIM可以指示在編碼(例如,AC-3或E-AC-3編碼)之前對(duì)PCM音頻所應(yīng)用的處理,音頻節(jié)目的哪些頻帶已經(jīng)使用具體的音頻編碼技術(shù)被編碼以及用于在比特流中創(chuàng)建動(dòng)態(tài)范圍壓縮(DRC)數(shù)據(jù)的壓縮簡(jiǎn)檔(profile)。
在另一類實(shí)施方式中,方法包括在比特流的每個(gè)幀(或至少一些幀中的每個(gè)幀)中將編碼音頻數(shù)據(jù)與SSM和/或PIM復(fù)用的步驟。在典型的解碼中,解碼器從比特流中提取SSM和/或PIM(包括通過對(duì)SSM和/或PIM以及音頻數(shù)據(jù)進(jìn)行分析和去復(fù)用),并且對(duì)音頻數(shù)據(jù)進(jìn)行處理以生成解碼音頻數(shù)據(jù)的流(以及在某些情況下還執(zhí)行音頻數(shù)據(jù)的自適應(yīng)處理)。在一些實(shí)施方式中,解碼音頻數(shù)據(jù)以及SSM和/或PIM從解碼器被轉(zhuǎn)發(fā)至后處理器,該后處理器被配置成使用SSM和/或PIM對(duì)解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)處理。
在一類實(shí)施方式中,本發(fā)明的編碼方法生成包括音頻數(shù)據(jù)段(例如,圖4所示的幀的AB0至AB5段或圖7所示的幀的段AB0至AB5中的全部或一些)的編碼音頻比特流(例如,AC-3或E-AC-3比特流),音頻數(shù)據(jù)段包括編碼音頻數(shù)據(jù)以及與音頻數(shù)據(jù)段時(shí)分復(fù)用的元數(shù)據(jù)段(包括SSM和/或PIM,可選地還包括其他元數(shù)據(jù))。在一些實(shí)施方式中,每個(gè)元數(shù)據(jù)段(在本文中有時(shí)稱為“容器”)具有包括元數(shù)據(jù)段報(bào)頭(可選地還包括其他強(qiáng)制性的或“核心”元素)、以及在元數(shù)據(jù)段報(bào)頭之后的一個(gè)或更多個(gè)元數(shù)據(jù)有效載荷。如果存在,SIM被包括在元數(shù)據(jù)有效載荷之一中(由有效載荷報(bào)頭標(biāo)識(shí),并且通常具有第一類型的格式)。如果存在,PIM被包括在元數(shù)據(jù)有效載荷中的另一個(gè)中(由有效載荷報(bào)頭標(biāo)識(shí),并且通常具有第二類型的格式)。類似地,元數(shù)據(jù)的每個(gè)其他類型(如果存在)被包括在元數(shù)據(jù)有效載荷中的另一個(gè)中(由有效載荷報(bào)頭標(biāo)識(shí),并且通常具有特定于元數(shù)據(jù)的類型的格式)。示例性格式允許在除了比特流的解碼期間之外的時(shí)間(例如,由解碼之后的后處理器,或由被配置成在不執(zhí)行對(duì)編碼比特流的完全解碼的情況下識(shí)別元數(shù)據(jù)的處理器)對(duì)SSM、PIM或其他元數(shù)據(jù)的方便的訪問,并且允許在比特流的解碼期間(例如,子流識(shí)別的)方便的和高效的誤差檢測(cè)和校正。例如,在不以示例性格式訪問SSM的情況下,解碼器可能錯(cuò)誤地識(shí)別與節(jié)目相關(guān)聯(lián)的子流的正確數(shù)量。元數(shù)據(jù)段中的一個(gè)元數(shù)據(jù)有效載荷可以包括SSM,元數(shù)據(jù)段中的另一元數(shù)據(jù)有效載荷可以包括PIM,并且可選地,元數(shù)據(jù)段中的至少一個(gè)其他元數(shù)據(jù)有效載荷可以包括其他元數(shù)據(jù)(例如,響度處理狀態(tài)元數(shù)據(jù)或“LPSM”)。
根據(jù)一個(gè)實(shí)施例,提供一種音頻處理單元,其包括:緩沖存儲(chǔ)器;以及至少一個(gè)處理子系統(tǒng),其耦接至緩沖存儲(chǔ)器,其中緩沖存儲(chǔ)器存儲(chǔ)編碼音頻比特流的至少一個(gè)幀,幀包括在幀的至少一個(gè)保留字段的至少一個(gè)元數(shù)據(jù)段中的節(jié)目信息元數(shù)據(jù)或子流結(jié)構(gòu)元數(shù)據(jù)以及在幀的至少一個(gè)其他段中的音頻數(shù)據(jù),其中處理子系統(tǒng)被耦接并且被配置成使用比特流的元數(shù)據(jù)執(zhí)行比特流的生成、音頻數(shù)據(jù)的解碼或音頻數(shù)據(jù)的自適應(yīng)處理中的至少一種,或使用比特流的元數(shù)據(jù)執(zhí)行比特流的音頻數(shù)據(jù)或元數(shù)據(jù)中至少之一的認(rèn)證或驗(yàn)證中的至少一種。其中,元數(shù)據(jù)段包括至少一個(gè)元數(shù)據(jù)有效載荷,元數(shù)據(jù)有效載荷包括:報(bào)頭;以及在報(bào)頭之后的,節(jié)目信息元數(shù)據(jù)的至少一部分或子流結(jié)構(gòu)元數(shù)據(jù)的至少一部分。并且其中,保留字段選自由跳過字段、addbsi字段、輔助數(shù)據(jù)字段或其組合構(gòu)成的組。
根據(jù)另一個(gè)實(shí)施例,提供一種用于對(duì)編碼音頻比特流進(jìn)行解碼的方法,該方法包括以下步驟:接收包括元數(shù)據(jù)和音頻數(shù)據(jù)的編碼音頻比特流;以及從編碼音頻比特流中提取元數(shù)據(jù)或音頻數(shù)據(jù),其中元數(shù)據(jù)是或包括節(jié)目信息元數(shù)據(jù)或子流結(jié)構(gòu)元數(shù)據(jù)。其中,編碼音頻比特流包括一系列幀并且指示至少一個(gè)音頻節(jié)目,節(jié)目信息元數(shù)據(jù)和子流結(jié)構(gòu)元數(shù)據(jù)指示節(jié)目,幀中的每個(gè)包括至少一個(gè)音頻數(shù)據(jù)段,每個(gè)音頻數(shù)據(jù)段包括音頻數(shù)據(jù)的至少一部分,幀的至少一個(gè)子集中的每個(gè)幀包括元數(shù)據(jù)段,并且每個(gè)元數(shù)據(jù)段包括節(jié)目信息元數(shù)據(jù)的至少一部分以及子流結(jié)構(gòu)元數(shù)據(jù)的至少一部分,其中,元數(shù)據(jù)段位于保留字段中,保留字段選自由跳過字段、addbsi字段、輔助數(shù)據(jù)字段或其組合構(gòu)成的組。
附圖說明
圖1是可以被配置成執(zhí)行本發(fā)明的方法的實(shí)施方式的系統(tǒng)的實(shí)施方式的框圖。
圖2是作為本發(fā)明的音頻處理單元的實(shí)施方式的編碼器的框圖。
圖3是作為本發(fā)明的音頻處理單元的實(shí)施方式的解碼器以及作為本發(fā)明的音頻處理單元的另一實(shí)施方式的耦接至解碼器的后處理器的框圖。
圖4是包括被劃分成的段的AC-3幀的圖。
圖5是包括被劃分成的段的AC-3幀的同步信息(SI)段的圖。
圖6是包括被劃分成的段的AC-3幀的比特流信息(BSI)段的圖。
圖7是包括被劃分成的段的E-AC-3幀的圖。
圖8是根據(jù)本發(fā)明的實(shí)施方式生成的包括元數(shù)據(jù)段報(bào)頭的編碼比特流的元數(shù)據(jù)段的圖,元數(shù)據(jù)段報(bào)頭包括容器同步字(在圖8中標(biāo)識(shí)為“容器同步”)以及版本和鍵ID值,之后是多個(gè)元數(shù)據(jù)有效載荷以及保護(hù)位。
符號(hào)和術(shù)語
貫穿包括權(quán)利要求在內(nèi)的本公開內(nèi)容,“對(duì)”信號(hào)或數(shù)據(jù)執(zhí)行操作(例如,對(duì)信號(hào)或數(shù)據(jù)進(jìn)行濾波、縮放、變換或施加增益)的表達(dá)用于廣義上表示對(duì)信號(hào)或數(shù)據(jù)、或?qū)π盘?hào)或數(shù)據(jù)的已處理版本(例如,對(duì)在對(duì)信號(hào)執(zhí)行操作之前已經(jīng)經(jīng)歷了初步濾波或預(yù)處理的信號(hào)的版本)直接執(zhí)行操作。
貫穿包括權(quán)利要求在內(nèi)的本公開內(nèi)容,“系統(tǒng)”的表達(dá)用于廣義上表示設(shè)備、系統(tǒng)或子系統(tǒng)。例如,實(shí)現(xiàn)解碼器的子系統(tǒng)可以稱為解碼器系統(tǒng),并且包括這樣的子系統(tǒng)的系統(tǒng)(例如,響應(yīng)于多個(gè)輸入生成X個(gè)輸出信號(hào)的系統(tǒng),在該系統(tǒng)中,子系統(tǒng)生成M個(gè)輸入并且其他X-M個(gè)輸入從外部源接收)也可以稱為解碼器系統(tǒng)。
貫穿包括權(quán)利要求在內(nèi)的本公開內(nèi)容,術(shù)語“處理器”用于廣義上表示可編程或以其他方式可配置成(例如,使用軟件或固件)對(duì)數(shù)據(jù)(例如,音頻數(shù)據(jù)或視頻數(shù)據(jù)或其他圖像數(shù)據(jù))執(zhí)行操作的系統(tǒng)或裝置。處理器的示例包括現(xiàn)場(chǎng)可編程門陣列(或其他可配置的集成電路或芯片組)、被編程和/或被以其他方式配置成對(duì)音頻數(shù)據(jù)或其他聲音數(shù)據(jù)執(zhí)行流水線處理的數(shù)字信號(hào)處理器、可編程的通用處理器或計(jì)算機(jī)以及可編程的微處理器芯片或芯片組。
貫穿包括權(quán)利要求在內(nèi)的本公開內(nèi)容,“音頻處理器”和“音頻處理單元”的表達(dá)用于可交換地廣義上表示被配置成對(duì)音頻數(shù)據(jù)進(jìn)行處理的系統(tǒng)。音頻處理單元的示例包括但不限于編碼器(例如,代碼轉(zhuǎn)換器)、解碼器、編解碼器、預(yù)處理系統(tǒng)、后處理系統(tǒng)以及比特流處理系統(tǒng)(有時(shí)稱為比特流處理工具)。
貫穿包括權(quán)利要求在內(nèi)的本公開內(nèi)容,(編碼音頻比特流的)“元數(shù)據(jù)”的表達(dá)指代與比特流的相應(yīng)的音頻數(shù)據(jù)分離的且不同的數(shù)據(jù)。
貫穿包括權(quán)利要求在內(nèi)的本公開內(nèi)容,“子流結(jié)構(gòu)元數(shù)據(jù)”(或“SSM”)的表達(dá)表示編碼音頻比特流(或編碼音頻比特流集)的元數(shù)據(jù),其指示編碼比特流的音頻內(nèi)容的子流結(jié)構(gòu)。
貫穿包括權(quán)利要求在內(nèi)的本公開內(nèi)容,“節(jié)目信息元數(shù)據(jù)”(或“PIM”)的表達(dá)表示編碼音頻比特流的元數(shù)據(jù),該編碼音頻比特流指示至少一個(gè)音頻節(jié)目(例如,兩個(gè)或更多個(gè)音頻節(jié)目),其中所述元數(shù)據(jù)指示至少一個(gè)所述節(jié)目的音頻內(nèi)容的至少一個(gè)屬性或特性(例如,指示對(duì)節(jié)目的音頻數(shù)據(jù)執(zhí)行的處理的類型或參數(shù)的元數(shù)據(jù)、或表示節(jié)目的哪些通道是活動(dòng)通道的元數(shù)據(jù))。
貫穿包括權(quán)利要求在內(nèi)的本公開內(nèi)容,“處理狀態(tài)元數(shù)據(jù)”的表達(dá)(例如,如在“響度處理狀態(tài)元數(shù)據(jù)”的表達(dá)中)指代與比特流的音頻數(shù)據(jù)相關(guān)聯(lián)的(編碼音頻比特流的)元數(shù)據(jù),指示相應(yīng)的(相關(guān)聯(lián)的)音頻數(shù)據(jù)的處理狀態(tài)(例如,已經(jīng)對(duì)音頻數(shù)據(jù)執(zhí)行了什么類型的處理),并且通常還指示音頻數(shù)據(jù)的至少一個(gè)特征或特性。處理狀態(tài)元數(shù)據(jù)與音頻數(shù)據(jù)的關(guān)聯(lián)是時(shí)間同步的。從而,當(dāng)前的(最新接收或更新的)處理狀態(tài)元數(shù)據(jù)指示相應(yīng)的音頻數(shù)據(jù)同時(shí)包括所指示的類型的音頻數(shù)據(jù)處理的結(jié)果。在一些情況下,處理狀態(tài)元數(shù)據(jù)可以包括處理歷史和/或用于所指示的類型的處理中的和/或從所指示的類型的處理中得到的參數(shù)中的一些或全部。另外,處理狀態(tài)元數(shù)據(jù)可以包括相應(yīng)的音頻數(shù)據(jù)的已經(jīng)從音頻數(shù)據(jù)中計(jì)算或提取的至少一個(gè)特征或特性。處理狀態(tài)元數(shù)據(jù)還可以包括與相應(yīng)的音頻數(shù)據(jù)的任何處理無關(guān)的或不是從相應(yīng)的音頻數(shù)據(jù)的任何處理中得到的其他元數(shù)據(jù)。例如,第三方數(shù)據(jù)、跟蹤信息、標(biāo)識(shí)符、所有權(quán)或標(biāo)準(zhǔn)信息、用戶注釋數(shù)據(jù)、用戶偏好數(shù)據(jù)等可以通過具體的音頻處理單元被添加以傳遞至其他音頻處理單元。
貫穿包括權(quán)利要求在內(nèi)的本公開內(nèi)容,“響度處理狀態(tài)元數(shù)據(jù)”(或“LPSM”)的表達(dá)表示處理狀態(tài)元數(shù)據(jù),處理狀態(tài)元數(shù)據(jù)指示相應(yīng)的音頻數(shù)據(jù)的響度處理狀態(tài)(例如,已經(jīng)對(duì)音頻數(shù)據(jù)執(zhí)行了什么類型的響度處理),并且通常還指示相應(yīng)的音頻數(shù)據(jù)的至少一個(gè)特征或特性(例如,響度)。響度處理狀態(tài)元數(shù)據(jù)可以包括不是(即,當(dāng)單獨(dú)考慮時(shí))響度處理狀態(tài)元數(shù)據(jù)的數(shù)據(jù)(例如,其他元數(shù)據(jù))。
貫穿包括權(quán)利要求在內(nèi)的本公開內(nèi)容,“通道”(或“音頻通道”)的表達(dá)表示單通道音頻信號(hào)。
貫穿包括權(quán)利要求在內(nèi)的本公開內(nèi)容,“音頻節(jié)目”的表達(dá)表示一個(gè)或更多個(gè)音頻通道的集合以及可選地還表示相關(guān)聯(lián)的元數(shù)據(jù)(例如,描述期望的空間音頻表示的元數(shù)據(jù)、和/或PIM、和/或SSM、和/或LPSM、和/或節(jié)目邊界元數(shù)據(jù))。
貫穿包括權(quán)利要求在內(nèi)的本公開內(nèi)容,“節(jié)目邊界元數(shù)據(jù)”的表達(dá)表示編碼音頻比特流的元數(shù)據(jù),其中編碼音頻比特流指示至少一個(gè)音頻節(jié)目(例如,兩個(gè)或更多個(gè)節(jié)目),并且節(jié)目邊界元數(shù)據(jù)指示至少一個(gè)所述音頻節(jié)目的至少一個(gè)邊界(開始和/或結(jié)束)在比特流中的位置。例如,(指示音頻節(jié)目的編碼音頻比特流的)節(jié)目邊界元數(shù)據(jù)可以包括指示節(jié)目的開始的位置(例如,比特流的第“N”幀的開始,或比特流的第“N”幀的第“M”個(gè)樣本位置)的元數(shù)據(jù),以及指示節(jié)目的結(jié)束的位置(例如,比特流的第“J”幀的開始,或比特流的第“J”幀的第“K”個(gè)樣本位置)的額外元數(shù)據(jù)。
貫穿包括權(quán)利要求在內(nèi)的本公開內(nèi)容,術(shù)語“耦接”或“被耦接”用于表示直接或間接連接。從而,如果第一設(shè)備耦接至第二設(shè)備,該連接可以是通過直接連接,或經(jīng)由其他設(shè)備和連接的通過間接連接。
具體實(shí)施方式
典型的音頻數(shù)據(jù)流包括音頻內(nèi)容(例如,音頻內(nèi)容的一個(gè)或更多個(gè)通道)和指示音頻內(nèi)容的至少一個(gè)特性的元數(shù)據(jù)兩者。例如,在AC-3比特流中,存在具體意在用于改變被傳送至收聽環(huán)境的節(jié)目的聲音的若干音頻元數(shù)據(jù)參數(shù)。元數(shù)據(jù)參數(shù)中的一個(gè)為DIALNORM參數(shù),其意在指示音頻節(jié)目中的對(duì)白的平均電平,并且用于確定音頻回放信號(hào)電平。
在包括一系列不同的音頻節(jié)目段(每個(gè)具有不同的DIALNORM參數(shù))的比特流的回放期間,AC-3解碼器使用每個(gè)段的DIALNORM參數(shù)執(zhí)行一種類型的響度處理,在該響度處理中AC-3解碼器修改回放電平或響度,使得該系列段的對(duì)白的感知的響度處于一致的電平。一系列編碼音頻項(xiàng)目中的每個(gè)編碼音頻段(項(xiàng)目)將(通常)具有不同的DIALNORM參數(shù),并且解碼器將對(duì)項(xiàng)目中的每個(gè)項(xiàng)目的電平進(jìn)行縮放,使得每個(gè)項(xiàng)目的對(duì)白的回放電平或響度相同或非常相似,盡管這會(huì)要求在回放期間對(duì)項(xiàng)目中的不同的項(xiàng)目應(yīng)用不同量的增益。
DIALNORM通常由用戶設(shè)置而不是自動(dòng)生成的,然而如果用戶沒有設(shè)置值則存在默認(rèn)的DIALNORM值。例如,內(nèi)容創(chuàng)建者可以使用AC-3編碼器外部的裝置進(jìn)行響度測(cè)量,然后將該結(jié)果(指示音頻節(jié)目的口語對(duì)白的響度)傳送至編碼器以設(shè)置DIALNORM值。從而,依賴于內(nèi)容創(chuàng)建者正確地設(shè)置DIALNORM參數(shù)。
對(duì)于為什么AC-3比特流中的DIALNORM參數(shù)會(huì)是錯(cuò)誤的,存在幾個(gè)不同的原因。第一,如果DIALNORM值不是由內(nèi)容創(chuàng)建者設(shè)置的,那么每個(gè)AC-3編碼器具有在比特流的生成期間使用的默認(rèn)的DIALNORM值。該默認(rèn)值可能與音頻的實(shí)際對(duì)白響度顯著不同。第二,即使內(nèi)容創(chuàng)建者測(cè)量響度并且相應(yīng)地設(shè)置DIALNORM值,可能已經(jīng)使用不符合推薦的AC-3響度測(cè)量方法的響度測(cè)量算法或計(jì)量器,產(chǎn)生不正確的DIALNORM值。第三,即使已經(jīng)使用由內(nèi)容創(chuàng)建者正確測(cè)量和設(shè)置的DIALNORM值創(chuàng)建了AC-3比特流,該AC-3比特流可能在比特流的傳輸和/或存儲(chǔ)期間已經(jīng)被改變成錯(cuò)誤值。例如,這在使用錯(cuò)誤的DIALNORM元數(shù)據(jù)信息解碼、修改然后重新編碼AC-3比特流的電視廣播應(yīng)用中并非是不常見的。從而,包括在AC-3比特流中的DIALNORM值可能是錯(cuò)誤的或不準(zhǔn)確的,因此可能對(duì)收聽體驗(yàn)的質(zhì)量有消極的影響。
此外,DIALNORM參數(shù)不指示相應(yīng)的音頻數(shù)據(jù)的響度處理狀態(tài)(例如,已經(jīng)對(duì)音頻數(shù)據(jù)執(zhí)行了什么類型的響度處理)。響度處理狀態(tài)元數(shù)據(jù)(以其在本發(fā)明的一些實(shí)施方式中被提供的格式)有助于以尤其高效的方式便利于音頻比特流的自適應(yīng)響度處理和/或音頻內(nèi)容的響度處理狀態(tài)和響度的有效性的驗(yàn)證。
盡管本發(fā)明不限于使用AC-3比特流、E-AC-3比特流或杜比E比特流,為了方便,將在生成、解碼或以其他方式處理這樣的比特流的實(shí)施方式中對(duì)其進(jìn)行描述。
AC-3編碼比特流包括元數(shù)據(jù)和音頻內(nèi)容的1至6個(gè)通道。音頻內(nèi)容是已經(jīng)使用感知音頻編碼壓縮的音頻數(shù)據(jù)。元數(shù)據(jù)包括意在用于改變被傳送至收聽環(huán)境的節(jié)目的聲音的若干音頻元數(shù)據(jù)參數(shù)。
AC-3編碼音頻比特流的每幀包含關(guān)于數(shù)字音頻的1536個(gè)樣本的音頻內(nèi)容和元數(shù)據(jù)。對(duì)于48kHz的采樣率,這表示32毫秒的數(shù)字音頻或音頻的每秒31.25幀的速率。
取決于幀是否分別包含1塊、2塊、3塊或6塊音頻數(shù)據(jù),E-AC-3編碼音頻比特流的每幀包含關(guān)于數(shù)字音頻的256、512、768或1536個(gè)樣本的音頻數(shù)據(jù)和元數(shù)據(jù)。對(duì)于48kHz的采樣率,這分別表示5.333、10.667、16或32毫秒的數(shù)字音頻或分別表示音頻的每秒189.9、93.75、62.5或31.25幀的速率。
如圖4所示,每個(gè)AC-3幀被劃分成部分(段),包括:包含(如圖5所示)同步字(SW)和兩個(gè)誤差校正字中的第一個(gè)誤差校正字(CRC1)的同步信息(SI)部分;包含大部分元數(shù)據(jù)的比特流信息(BSI)部分;包含數(shù)據(jù)壓縮音頻內(nèi)容(以及還可以包括元數(shù)據(jù))的6個(gè)音頻塊(AB0至AB5);包含在壓縮音頻內(nèi)容之后剩余的任意未使用的位的無用位段(W)(也稱為“跳過字段”);可以包含更多元數(shù)據(jù)的輔助(AUX)信息部分;以及兩個(gè)誤差校正字中的第二個(gè)誤差校正字(CRC2)。
如圖7所示,每個(gè)E-AC-3幀被劃分成部分(段),包括:包含(如圖5所示)同步字(SW)的同步信息(SI)部分;包含大部分元數(shù)據(jù)的比特流信息(BSI)部分;包含數(shù)據(jù)壓縮音頻內(nèi)容(以及還可以包括元數(shù)據(jù))的6個(gè)音頻塊(AB0至AB5);包含在壓縮音頻內(nèi)容之后剩余的任意未使用的位的無用位段(W)(也稱為“跳過字段”)(盡管僅示出了一個(gè)無用位段,不同的無用位段或跳過字段段通常可以在每個(gè)音頻塊之后);可以包含更多元數(shù)據(jù)的輔助(AUX)信息部分;以及誤差校正字(CRC)。
在AC-3(或E-AC-3)比特流中,存在具體意在用于改變被傳送至收聽環(huán)境的節(jié)目的聲音的若干音頻元數(shù)據(jù)參數(shù)。元數(shù)據(jù)參數(shù)中的一個(gè)為DIALNORM參數(shù),該DIALNORM參數(shù)被包括在BSI段中。
如圖6所示,AC-3幀的BSI段包括指示節(jié)目的DIALNORM值的5位參數(shù)(“DIALNORM”)。如果AC-3幀的音頻編碼模式(“acmod”)為0,則包括指示在同一AC-3幀中攜帶的第二音頻節(jié)目的5位參數(shù)DIALNORM值的5位參數(shù)(“DIALNORM2”),指示使用雙單通道或“1+1”通道配置。
BSI段還包括指示在“addbsie”位之后額外的比特流信息的存在(或不存在)的標(biāo)志(“addbsie”)、指示在“addbsil”值之后任何額外的比特流信息的長(zhǎng)度的參數(shù)(“addbsil”)、以及在“addbsil”值之后高達(dá)64位的額外的比特流信息(“addbsi”)。
BSI段包括在圖6中沒有具體示出的其他元數(shù)據(jù)值。
根據(jù)一類實(shí)施方式,編碼比特流指示音頻內(nèi)容的多個(gè)子流。在一些情況下,子流指示多通道節(jié)目的音頻內(nèi)容,并且子流中的每個(gè)指示節(jié)目的通道中的一個(gè)或更多個(gè)。在其他情況下,編碼音頻比特流的多個(gè)子流指示若干音頻節(jié)目——通常為“主”音頻節(jié)目(可以是多通道節(jié)目)和至少一個(gè)其他音頻節(jié)目(例如,為關(guān)于主音頻節(jié)目的評(píng)論的節(jié)目)——的音頻內(nèi)容。
指示至少一個(gè)音頻節(jié)目的編碼音頻比特流需要包括音頻內(nèi)容的至少一個(gè)“獨(dú)立”子流。獨(dú)立子流指示音頻節(jié)目的至少一個(gè)通道(例如,獨(dú)立子流可以指示常規(guī)的5.1通道音頻節(jié)目的5個(gè)全音域通道)。在本文中,該音頻節(jié)目稱為“主”節(jié)目。
在一些類型的實(shí)施方式中,編碼音頻比特流指示兩個(gè)或更多個(gè)音頻節(jié)目(“主”節(jié)目和至少一個(gè)其他音頻節(jié)目)。在這樣的情況下,比特流包括兩個(gè)或更多個(gè)獨(dú)立子流:指示主節(jié)目的至少一個(gè)通道的第一獨(dú)立子流;以及指示另一音頻節(jié)目(與主節(jié)目不同的節(jié)目)的至少一個(gè)通道的至少一個(gè)其他獨(dú)立子流。每個(gè)獨(dú)立子流可以獨(dú)立地被解碼,并且解碼器可以操作以僅對(duì)編碼比特流的獨(dú)立子流的子集(不是全部)進(jìn)行解碼。
在指示兩個(gè)獨(dú)立子流的編碼音頻比特流的典型示例中,獨(dú)立子流中的一個(gè)指示多通道主節(jié)目的標(biāo)準(zhǔn)格式揚(yáng)聲器通道(例如,5.1通道主節(jié)目的左、右、中、左環(huán)繞、右環(huán)繞全音域揚(yáng)聲器通道),而另一獨(dú)立子流指示關(guān)于主節(jié)目的單通道音頻評(píng)論(例如,導(dǎo)演關(guān)于電影的評(píng)論,其中主節(jié)目是電影的聲帶(soundtrack))。在指示多個(gè)獨(dú)立子流的編碼音頻比特流的另一示例中,獨(dú)立子流中的一個(gè)指示包括第一語言的對(duì)白的多通道主節(jié)目(例如,5.1通道主節(jié)目)的標(biāo)準(zhǔn)格式揚(yáng)聲器通道(例如,主節(jié)目的揚(yáng)聲器通道中的一個(gè)可以指示對(duì)白),而每個(gè)其他獨(dú)立子流指示對(duì)白的單通道翻譯(翻譯成不同的語言)。
可選地,指示主節(jié)目(可選地還指示至少一個(gè)其他音頻節(jié)目)的編碼音頻比特流包括音頻內(nèi)容的至少一個(gè)“從屬”子流。每個(gè)從屬子流與比特流的一個(gè)獨(dú)立子流相關(guān)聯(lián),并且指示其內(nèi)容由相關(guān)聯(lián)的獨(dú)立子流指示的節(jié)目(例如,主節(jié)目)的至少一個(gè)額外的通道(即,從屬子流指示節(jié)目的不是由相關(guān)聯(lián)的獨(dú)立子流指示的至少一個(gè)通道,而相關(guān)聯(lián)的獨(dú)立子流指示節(jié)目的至少一個(gè)通道)。
在包括獨(dú)立子流(指示主節(jié)目的至少一個(gè)通道)的編碼比特流的示例中,比特流還包括指示主節(jié)目的一個(gè)或更多個(gè)額外的揚(yáng)聲器通道的(與獨(dú)立子流相關(guān)聯(lián)的)從屬子流。這樣的額外的揚(yáng)聲器通道對(duì)由獨(dú)立子流指示的主節(jié)目通道來說是額外的。例如,如果獨(dú)立子流指示7.1通道主節(jié)目的左、右、中、左環(huán)繞、右環(huán)繞全音域揚(yáng)聲器通道,那么從屬子流可以指示主節(jié)目的其他兩個(gè)全音域揚(yáng)聲器通道。
根據(jù)E-AC-3標(biāo)準(zhǔn),E-AC-3比特流必須指示至少一個(gè)獨(dú)立子流(例如,單個(gè)AC-3比特流),并且可以指示高達(dá)8個(gè)獨(dú)立子流。E-AC-3比特流的每個(gè)獨(dú)立子流可以與高達(dá)8個(gè)從屬子流相關(guān)聯(lián)。
E-AC-3比特流包括指示比特流的子流結(jié)構(gòu)的元數(shù)據(jù)。例如,E-AC-3比特流的比特流信息(BSI)部分中的“chanmap”字段確定由比特流的從屬子流指示的節(jié)目通道的通道映射。然而,指示子流結(jié)構(gòu)的元數(shù)據(jù)常規(guī)地以如下格式包括在E-AC-3比特流中:該格式使得便于僅由E-AC-3解碼器訪問和使用(在編碼E-AC-3比特流的解碼期間);不便于在解碼之后(例如,由后處理器)或解碼之前(例如,由被配置成識(shí)別元數(shù)據(jù)的處理器)訪問和使用。而且,存在以下風(fēng)險(xiǎn):解碼器可能使用常規(guī)地包括的元數(shù)據(jù)錯(cuò)誤地識(shí)別常規(guī)的E-AC-3編碼比特流的子流,并且在本發(fā)明之前還不知道如何以這樣的格式在編碼比特流(例如,編碼E-AC-3比特流)中包括子流結(jié)構(gòu)元數(shù)據(jù),使得允許在比特流的解碼期間方便和高效的檢測(cè)和校正子流識(shí)別中的誤差。
E-AC-3比特流還可以包括關(guān)于音頻節(jié)目的音頻內(nèi)容的元數(shù)據(jù)。例如,指示音頻節(jié)目的E-AC-3比特流包括指示已經(jīng)使用譜擴(kuò)展處理(以及通道耦合編碼)以對(duì)節(jié)目的內(nèi)容進(jìn)行編碼的最小頻率和最大頻率的元數(shù)據(jù)。然而,這樣的元數(shù)據(jù)通常以如下格式包括在E-AC-3比特流中,該格式使得便于僅由E-AC-3解碼器訪問和使用(在編碼E-AC-3比特流的解碼期間);不便于在解碼之后(例如,由后處理器)或解碼之前(例如,由被配置成識(shí)別元數(shù)據(jù)的處理器)訪問和使用。而且,這樣的元數(shù)據(jù)不以如下的格式包括在E-AC-3比特流中,該格式允許在比特流的解碼期間這樣的元數(shù)據(jù)的識(shí)別的方便和高效的誤差檢測(cè)和誤差校正。
根據(jù)本發(fā)明的典型的實(shí)施方式,PIM和/或SSM(以及可選地還有其他元數(shù)據(jù),例如,響度處理狀態(tài)元數(shù)據(jù)或“LPSM”)被嵌入在音頻比特流的元數(shù)據(jù)段的一個(gè)或更多個(gè)保留字段(或槽(slot))中,該音頻比特流還包括其他段(音頻數(shù)據(jù)段)中的音頻數(shù)據(jù)。通常,比特流的每個(gè)幀的至少一個(gè)段包括PIM或SSM,并且?guī)闹辽僖粋€(gè)其他段包括相應(yīng)的音頻數(shù)據(jù)(即,其數(shù)據(jù)結(jié)構(gòu)由SSM指示的和/或其至少一個(gè)特性或?qū)傩杂蒔IM指示的音頻數(shù)據(jù))。
在一類實(shí)施方式中,每個(gè)元數(shù)據(jù)段為可以包含一個(gè)或更多個(gè)元數(shù)據(jù)有效載荷的數(shù)據(jù)結(jié)構(gòu)(在本文中有時(shí)稱為容器)。每個(gè)有效載荷包括報(bào)頭以提供存在于有效載荷中的元數(shù)據(jù)的類型的明確的指示,其中報(bào)頭包括具體的有效載荷標(biāo)識(shí)符(或有效載荷配置數(shù)據(jù))。有效載荷在容器內(nèi)的順序未被定義,使得有效載荷可以以任何順序存儲(chǔ)并且分析器必須能夠?qū)φ麄€(gè)容器進(jìn)行分析以提取相關(guān)的有效載荷而忽略不相關(guān)的或不支持的有效載荷。圖8(下面將要描述的)說明這樣的容器和容器內(nèi)的有效載荷的結(jié)構(gòu)。
當(dāng)兩個(gè)或更多個(gè)音頻處理單元需要貫穿該處理鏈(或內(nèi)容生命周期)彼此合作工作時(shí),音頻數(shù)據(jù)處理鏈中的通信元數(shù)據(jù)(例如,SSM和/或PIM和/或LPSM)尤其有用。在音頻比特流中不包括元數(shù)據(jù)的情況下,例如,當(dāng)在鏈中利用兩個(gè)或更多個(gè)音頻編解碼器并且在媒體消耗裝置的比特流路徑(或比特流的音頻內(nèi)容的渲染點(diǎn))期間多于一次地應(yīng)用單端音量時(shí),可以出現(xiàn)若干媒體處理問題,例如質(zhì)量、電平和空間退化。
根據(jù)本發(fā)明的一些實(shí)施方式,嵌入在音頻比特流中的響度處理狀態(tài)元數(shù)據(jù)(LPSM)可以被認(rèn)證和驗(yàn)證,例如以使得響度調(diào)整實(shí)體能夠證明特定節(jié)目的響度是否已經(jīng)在指定的范圍內(nèi)以及相應(yīng)的音頻數(shù)據(jù)本身是否未被修改(由此確保符合可適用的調(diào)節(jié))。包括在包括響度處理狀態(tài)元數(shù)據(jù)的數(shù)據(jù)塊中的響度值可以被讀出以對(duì)此進(jìn)行驗(yàn)證,而不再次計(jì)算響度。響應(yīng)于LPSM,管理結(jié)構(gòu)可以確定相應(yīng)的音頻內(nèi)容符合(如由LPSM指示的)響度法定的和/或管理的要求(例如,在商業(yè)廣告響度緩解法下公布的規(guī)則,也稱為“CALM”法)而不需要計(jì)算音頻內(nèi)容的響度。
圖1為示例性音頻處理鏈(音頻數(shù)據(jù)處理系統(tǒng))的框圖,在音頻處理鏈中,系統(tǒng)的元件中的一個(gè)或更多個(gè)可以根據(jù)本發(fā)明的實(shí)施方式被配置。系統(tǒng)包括如所示耦接在一起的以下元件:預(yù)處理單元、編碼器、信號(hào)分析和元數(shù)據(jù)校正單元、代碼轉(zhuǎn)換器、解碼器和預(yù)處理單元。在所示的系統(tǒng)的變型中,省略元件中的一個(gè)或更多個(gè),或包括額外的音頻數(shù)據(jù)處理單元。
在一些實(shí)現(xiàn)中,圖1的預(yù)處理單元被配置成接收包括音頻內(nèi)容的PCM(時(shí)域)樣本作為輸入,并且輸出經(jīng)處理PCM樣本。編碼器可以被配置成接收PCM樣本作為輸入,并且輸出指示音頻內(nèi)容的編碼的(例如,壓縮的)音頻比特流。指示音頻內(nèi)容的比特流的數(shù)據(jù)在本文中有時(shí)被稱為“音頻數(shù)據(jù)”。如果編碼器根據(jù)本發(fā)明的典型實(shí)施方式被配置,那么從編碼器輸出的音頻比特流包括PIM和/或SSM(可選地還包括響度處理狀態(tài)元數(shù)據(jù)和/或其他元數(shù)據(jù))以及音頻數(shù)據(jù)。
圖1的信號(hào)分析和元數(shù)據(jù)校正單元可以接收一個(gè)或更多個(gè)編碼音頻比特流作為輸入,并且通過執(zhí)行信號(hào)分析(例如,使用編碼音頻比特流中的節(jié)目邊界元數(shù)據(jù))來確定(例如,驗(yàn)證)每個(gè)編碼音頻比特流中的元數(shù)據(jù)(例如,處理狀態(tài)元數(shù)據(jù))是否正確。如果信號(hào)分析和元數(shù)據(jù)校正單元發(fā)現(xiàn)所包括的元數(shù)據(jù)是無效的,那么通常使用從信號(hào)分析中獲得的正確值替代錯(cuò)誤值。從而,從信號(hào)分析和元數(shù)據(jù)校正單元輸出的每個(gè)編碼音頻比特流可以包括校正的(或未校正的)處理狀態(tài)元數(shù)據(jù)以及編碼音頻數(shù)據(jù)。
圖1的代碼轉(zhuǎn)換器可以接收編碼音頻比特流作為輸入,并且作為響應(yīng)(例如,通過對(duì)輸入流進(jìn)行解碼并且以不同的編碼格式對(duì)解碼流進(jìn)行重新編碼)輸出修改的(例如,不同編碼的)音頻比特流。如果代碼轉(zhuǎn)換器根據(jù)本發(fā)明的典型的實(shí)施方式被配置,那么從代碼轉(zhuǎn)換器輸出的音頻比特流包括SSM和/或PIM(通常還包括其他元數(shù)據(jù))以及編碼音頻數(shù)據(jù)。元數(shù)據(jù)可以已經(jīng)被包括在輸入比特流中。
圖1的解碼器可以接收編碼的(例如,壓縮的)音頻比特流作為輸入,并且輸出(作為響應(yīng))解碼PCM音頻樣本流。如果解碼器根據(jù)本發(fā)明的典型的實(shí)施方式被配置,那么在典型的操作中,解碼器的輸出是或包括下列中的任一個(gè):
音頻樣本流,以及從輸入的編碼比特流中提取的SSM和/或PIM(通常還有其他元數(shù)據(jù))的至少一個(gè)相應(yīng)的流;或
音頻樣本流,以及根據(jù)從輸入編碼比特流中提取的SSM和/或PIM(通常還有其他元數(shù)據(jù),例如LPSM)所確定的控制位的相應(yīng)的流;或
音頻樣本流,但沒有元數(shù)據(jù)或根據(jù)元數(shù)據(jù)確定的控制位的相應(yīng)的流。在最后一種情下,解碼器可以從輸入編碼比特流中提取元數(shù)據(jù),并且對(duì)所提取的元數(shù)據(jù)執(zhí)行至少一種操作(例如,驗(yàn)證),即使沒有輸出所提取的元數(shù)據(jù)或根據(jù)元數(shù)據(jù)確定的控制位。
通過根據(jù)本發(fā)明的典型的實(shí)施方式配置圖1的后處理單元,后處理單元被配置成接收解碼的PCM音頻樣本流,并且使用與樣本一起接收的SSM和/或PIM(通常還有其他元數(shù)據(jù),例如LPSM),或根據(jù)與樣本一起接收的元數(shù)據(jù)確定的控制位對(duì)其執(zhí)行后處理(例如,音頻內(nèi)容的音量校平)。后處理單元還通常被配置成對(duì)經(jīng)后處理音頻內(nèi)容進(jìn)行渲染用于由一個(gè)或更多個(gè)揚(yáng)聲器回放。
本發(fā)明的典型的實(shí)施方式提供增強(qiáng)的音頻處理鏈,其中音頻處理單元(例如,編碼器、解碼器、代碼轉(zhuǎn)換器以及預(yù)處理單元和后處理單元)根據(jù)由通過音頻處理單元分別接收的元數(shù)據(jù)所指示的媒體數(shù)據(jù)的同時(shí)期的狀態(tài)來修改待應(yīng)用于音頻數(shù)據(jù)的其相應(yīng)的處理。
輸入到圖1系統(tǒng)的任何音頻處理單元(例如,圖1的編碼器或代碼轉(zhuǎn)換器)的音頻數(shù)據(jù)可以包括SSM和/或PIM(可選地還包括其他元數(shù)據(jù))以及音頻數(shù)據(jù)(例如,編碼音頻數(shù)據(jù))。該元數(shù)據(jù)可以根據(jù)本發(fā)明的實(shí)施方式已經(jīng)通過圖1系統(tǒng)的另一元件(或另一源,在圖1中未示出)而被包括在輸入音頻中。接收輸入音頻(具有元數(shù)據(jù))的處理單元可以被配置成對(duì)元數(shù)據(jù)執(zhí)行至少一種操作(例如,驗(yàn)證),或響應(yīng)于元數(shù)據(jù)(例如,輸入音頻的自適應(yīng)處理),并且還通常將元數(shù)據(jù)、元數(shù)據(jù)的經(jīng)處理的版本、或根據(jù)元數(shù)據(jù)確定的控制位包括在其輸出音頻中。
本發(fā)明的音頻處理單元(或音頻處理器)的典型的實(shí)施方式被配置成基于由對(duì)應(yīng)于音頻數(shù)據(jù)的元數(shù)據(jù)所指示的音頻數(shù)據(jù)的狀態(tài)來執(zhí)行音頻數(shù)據(jù)的自適應(yīng)處理。在一些實(shí)施方式中,自適應(yīng)處理是(或包括)響度處理(如果元數(shù)據(jù)指示還未對(duì)音頻數(shù)據(jù)執(zhí)行響度處理或與響度處理類似的處理),而不是(且不包括)響度處理(如果元數(shù)據(jù)指示已經(jīng)對(duì)音頻數(shù)據(jù)執(zhí)行了這樣的響度處理或與響度處理類似的處理)。在一些實(shí)施方式中,自適應(yīng)處理是或包括(例如,在元數(shù)據(jù)驗(yàn)證子單元中執(zhí)行的)元數(shù)據(jù)驗(yàn)證以確保音頻處理單元基于由元數(shù)據(jù)所指示的音頻數(shù)據(jù)的狀態(tài)來執(zhí)行音頻數(shù)據(jù)的其他自適應(yīng)處理。在一些實(shí)施方式中,該驗(yàn)證確定與音頻數(shù)據(jù)相關(guān)聯(lián)(例如,包括在具有音頻數(shù)據(jù)的比特流中)的元數(shù)據(jù)的可靠性。例如,如果驗(yàn)證元數(shù)據(jù)是可靠的,那么來自一種先前執(zhí)行的音頻處理的結(jié)果可以被重新使用并且可以避免新執(zhí)行相同類型的音頻處理。另一方面,如果發(fā)現(xiàn)元數(shù)據(jù)已經(jīng)被篡改(或以其他方式不可靠),那么據(jù)稱先前執(zhí)行的一種類型的媒體處理(如由不可靠的元數(shù)據(jù)指示的)可以由音頻處理單元重復(fù),和/或可以由音頻處理單元對(duì)元數(shù)據(jù)和/或音頻數(shù)據(jù)執(zhí)行其他處理。如果該單元確定元數(shù)據(jù)是有效的(例如,基于所提取的加密值與參考加密值的匹配),音頻處理單元還可以被配置成用信號(hào)向增強(qiáng)的媒體處理鏈下游的其他音頻處理單元通知元數(shù)據(jù)(例如,存在于媒體比特流中)是有效的。
圖2是作為本發(fā)明的音頻處理單元的實(shí)施方式的編碼器(100)的框圖。編碼器100的任何部件或元件可以以硬件或軟件或硬件與軟件的組合被實(shí)現(xiàn)為一個(gè)或更多個(gè)處理和/或一個(gè)或更多個(gè)電路(例如,ASIC、FPGA或其他集成電路)。編碼器100包括如所示地連接的幀緩沖器110、分析器111、解碼器101、音頻狀態(tài)驗(yàn)證器102、響度處理級(jí)103、音頻流選擇級(jí)104、編碼器105、填充器/格式器級(jí)107、元數(shù)據(jù)生成級(jí)106、對(duì)白響度測(cè)量子系統(tǒng)108以及幀緩沖器109。編碼器100通常還包括其他處理元件(未示出)。
編碼器100(為代碼轉(zhuǎn)換器)被配置成包括通過使用包括在輸入比特流中的響度處理狀態(tài)元數(shù)據(jù)執(zhí)行自適應(yīng)和自動(dòng)的響度處理來將輸入音頻比特流(例如,可以是AC-3比特流、E-AC-3比特流或杜比E比特流中的一個(gè))轉(zhuǎn)換成編碼輸出音頻比特流(例如,可以是AC-3比特流、E-AC-3比特流或杜比E比特流中的另一個(gè))。例如,編碼器100可以被配置成將(通常用在生產(chǎn)和廣播設(shè)備中,但不用在接收已經(jīng)被廣播的音頻節(jié)目的消費(fèi)者設(shè)備中的格式的)輸入杜比E比特流轉(zhuǎn)換成AC-3或E-AC-3格式的(適合于廣播至消費(fèi)者設(shè)備的)編碼輸出音頻比特流。
圖2的系統(tǒng)還包括編碼音頻傳送子系統(tǒng)150(其存儲(chǔ)和/或傳送從編碼器100輸出的編碼比特流)和解碼器152。從編碼器100輸出的編碼音頻比特流可以由子系統(tǒng)150(例如,以DVD或藍(lán)光光盤格式)存儲(chǔ),或由子系統(tǒng)150(可以實(shí)現(xiàn)傳輸線路或網(wǎng)絡(luò))傳輸,或可以由子系統(tǒng)150存儲(chǔ)和傳輸。解碼器152被配置成包括通過從比特流的每個(gè)幀中提取元數(shù)據(jù)(PIM和/或SSM、以及可選地還有響度處理狀態(tài)元數(shù)據(jù)和/或其他元數(shù)據(jù))(以及可選地還從比特流中提取節(jié)目邊界元數(shù)據(jù))以及生成解碼音頻數(shù)據(jù),對(duì)經(jīng)由子系統(tǒng)150接收的(由編碼器100生成的)編碼音頻比特流進(jìn)行解碼。通常,解碼器152被配置成使用PIM和/或SSM和/或LPSM(可選地還使用節(jié)目邊界元數(shù)據(jù))對(duì)解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)處理,和/或?qū)⒔獯a音頻數(shù)據(jù)和元數(shù)據(jù)轉(zhuǎn)發(fā)至被配置成使用元數(shù)據(jù)對(duì)解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)處理的后處理器。通常,解碼器152包括存儲(chǔ)(例如,以非暫態(tài)方式)從子系統(tǒng)150中接收的編碼音頻比特流的緩沖器。
編碼器100和解碼器152的各種實(shí)現(xiàn)被配置成執(zhí)行本發(fā)明的方法的不同的實(shí)施方式。
幀緩沖器110是耦接以接收編碼輸入音頻比特流的緩沖存儲(chǔ)器。在操作中,緩沖器110存儲(chǔ)(例如,以非暫態(tài)方式)編碼音頻比特流的至少一個(gè)幀,并且編碼音頻比特流的幀的序列被從緩沖器110設(shè)定到分析器111。
將分析器111耦接并配置成從包括這樣的元數(shù)據(jù)的編碼輸入音頻的每個(gè)幀中提取PIM和/或SSM、以及響度處理狀態(tài)元數(shù)據(jù)(LPSM)、以及可選地還有節(jié)目邊界元數(shù)據(jù)(和/或其他元數(shù)據(jù)),至少將LPSM(以及可選地還有節(jié)目邊界元數(shù)據(jù)和/或其他元數(shù)據(jù))設(shè)定到音頻狀態(tài)驗(yàn)證器102、響度處理級(jí)103、級(jí)106和子系統(tǒng)108,以從編碼輸入音頻中提取音頻數(shù)據(jù)并且將音頻數(shù)據(jù)設(shè)定到解碼器101。編碼器100的解碼器101被配置成對(duì)音頻數(shù)據(jù)進(jìn)行解碼以生成解碼音頻數(shù)據(jù),并且將解碼音頻數(shù)據(jù)設(shè)定到響度處理級(jí)103、音頻流選擇級(jí)104、子系統(tǒng)108以及通常還設(shè)定到狀態(tài)驗(yàn)證器102。
狀態(tài)驗(yàn)證器102被配置成對(duì)設(shè)定到其的LPSM(可選地其他元數(shù)據(jù))進(jìn)行認(rèn)證和驗(yàn)證。在一些實(shí)施方式中,LPSM是(或包括在)數(shù)據(jù)塊(中),數(shù)據(jù)塊已經(jīng)包括在輸入比特流中(例如,根據(jù)本發(fā)明的實(shí)施方式)。塊可以包括加密散列(基于散列的消息認(rèn)證代碼或“HMAC”)用于對(duì)LPSM(可選地還有其他元數(shù)據(jù))和/或(從解碼器101提供至驗(yàn)證器102的)基本的音頻數(shù)據(jù)進(jìn)行處理。在這些實(shí)施方式中,數(shù)據(jù)塊可以被數(shù)字地標(biāo)記,使得下游的音頻處理單元可以相對(duì)容易地認(rèn)證和驗(yàn)證處理狀態(tài)元數(shù)據(jù)。
例如,HMAC用于生成摘要,并且包括在本發(fā)明的比特流中的保護(hù)值可以包括該摘要。該摘要可以關(guān)于AC-3幀被如下生成:
1.在AC-3數(shù)據(jù)和LPSM被編碼之后,幀數(shù)據(jù)字節(jié)(連接的幀數(shù)據(jù)#1和幀數(shù)據(jù)#2)和LPSM數(shù)據(jù)字節(jié)用作哈希函數(shù)HMAC的輸入。沒有考慮可以存在于輔助數(shù)據(jù)字段內(nèi)的其他數(shù)據(jù)用于計(jì)算摘要。這樣的其他數(shù)據(jù)可以是既不屬于AC-3數(shù)據(jù)也不屬于LSPSM數(shù)據(jù)的字節(jié)??梢圆豢紤]包括在LPSM中的保護(hù)位用于計(jì)算HMAC摘要。
2.在計(jì)算摘要之后,被寫入比特流中的為保護(hù)位保留的字段中。
3.生成完整的AC-3幀的最后步驟是CRC校驗(yàn)的計(jì)算。這被寫在幀的結(jié)束處并且考慮屬于該幀的所有的數(shù)據(jù),包括LPSM位。
包括但不限于一個(gè)或更多個(gè)非HMAC加密方法中的任意一個(gè)的其他加密方法可以用于LPSM和/或其他元數(shù)據(jù)(例如,在驗(yàn)證器102中)的驗(yàn)證,以確保元數(shù)據(jù)和/或基本音頻數(shù)據(jù)的安全的傳輸和接收。例如,可以在接收本發(fā)明的音頻比特流的實(shí)施方式的每個(gè)音頻處理單元中執(zhí)行驗(yàn)證(使用這樣的加密方法),以確定包括在該比特流中的元數(shù)據(jù)和相應(yīng)的音頻數(shù)據(jù)是否已經(jīng)經(jīng)歷(和/或已經(jīng)產(chǎn)生)具體的處理(由元數(shù)據(jù)指示的)并且在這樣的具體的處理執(zhí)行之后是否未被修改。
狀態(tài)驗(yàn)證器102將控制數(shù)據(jù)設(shè)定到音頻流選擇級(jí)104、元數(shù)據(jù)生成器106以及對(duì)白響度測(cè)量子系統(tǒng)108,以表示驗(yàn)證操作的結(jié)果。響應(yīng)于控制數(shù)據(jù),級(jí)104可以選擇(以及傳遞至編碼器105):
響度處理級(jí)103的經(jīng)自適應(yīng)處理的輸出(例如,當(dāng)LPSM指示從解碼器101輸出的音頻數(shù)據(jù)沒有經(jīng)歷特定類型的響度處理,以及來自驗(yàn)證器102的控制位指示LPSM有效時(shí));或
從解碼器102輸出的音頻數(shù)據(jù)(例如,當(dāng)LPSM指示從解碼器101輸出的音頻數(shù)據(jù)已經(jīng)經(jīng)歷將由級(jí)103執(zhí)行的特定類型的響度處理,并且來自驗(yàn)證器102的控制位指示LPSM有效時(shí))。
編碼器100的級(jí)103被配置成基于由通過解碼器101所提取的LPSM指示的一個(gè)或更多個(gè)音頻數(shù)據(jù)特性,對(duì)從解碼器101輸出的解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理。級(jí)103可以是自適應(yīng)變換域?qū)崟r(shí)響度和動(dòng)態(tài)范圍控制處理器。級(jí)103可以接收用戶輸入(例如,用戶目標(biāo)響度/動(dòng)態(tài)范圍值或?qū)Π讱w一化值)、或其他元數(shù)據(jù)輸入(例如,一種或更多種類型的第三方數(shù)據(jù)、跟蹤信息、標(biāo)識(shí)符、所有權(quán)或標(biāo)準(zhǔn)信息、用戶注釋數(shù)據(jù)、用戶偏好數(shù)據(jù)等)和/或其他輸入(例如,來自指紋識(shí)別處理),并且使用這樣的輸入以對(duì)從解碼器101輸出的解碼音頻數(shù)據(jù)進(jìn)行處理。級(jí)103可以對(duì)指示(由通過分析器111提取的節(jié)目邊界元數(shù)據(jù)所表示的)單個(gè)音頻節(jié)目的(從解碼器101輸出的)解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理,并且可以響應(yīng)于接收到指示由通過分析器111提取的節(jié)目邊界元數(shù)據(jù)所指示的不同的音頻節(jié)目的(從解碼器101輸出的)解碼音頻數(shù)據(jù)將響度處理復(fù)位。
當(dāng)來自驗(yàn)證器102的控制位指示LPSM無效時(shí),對(duì)白響度測(cè)量子系統(tǒng)108可以操作以使用由解碼器101提取的LPSM(和/或其他元數(shù)據(jù))來確定表示對(duì)白(或其他語音)的(來自解碼器101的)解碼音頻的段的響度。當(dāng)來自驗(yàn)證器102的控制位指示LPSM有效時(shí),當(dāng)LPSM指示(來自解碼器101的)解碼音頻的對(duì)白(或其他語音)段的先前確定的響度時(shí),可以禁止對(duì)白響度測(cè)量子系統(tǒng)108的操作。子系統(tǒng)108可以對(duì)表示(通過分析器111所提取的節(jié)目邊界元數(shù)據(jù)所指示的)單個(gè)音頻節(jié)目的解碼音頻數(shù)據(jù)執(zhí)行響度測(cè)量,并且可以響應(yīng)于接收到表示由這樣的節(jié)目邊界元數(shù)據(jù)所指示的不同的音頻節(jié)目的解碼音頻數(shù)據(jù)將響度處理復(fù)位。
存在有用的工具(例如,杜比LM100響度計(jì))用于方便地和容易地對(duì)音頻內(nèi)容中的對(duì)白的電平進(jìn)行測(cè)量。本發(fā)明的APU(例如,編碼器100的級(jí)108)的一些實(shí)施方式被實(shí)現(xiàn)以包括這樣的工具(或執(zhí)行這樣的工具的功能)來對(duì)音頻比特流(例如,從編碼器100的解碼器101設(shè)定到級(jí)108的解碼AC-3比特流)的音頻內(nèi)容的平均對(duì)白響度進(jìn)行測(cè)量。
如果級(jí)108被實(shí)現(xiàn)成對(duì)音頻數(shù)據(jù)的真實(shí)平均對(duì)白響度進(jìn)行測(cè)量,那么測(cè)量可以包括將主要包含語音的音頻內(nèi)容的段分離的步驟。然后,根據(jù)響度測(cè)量算法來處理主要為語音的音頻段。對(duì)于根據(jù)AC-3比特流解碼的音頻數(shù)據(jù),該算法可以是標(biāo)準(zhǔn)的K加權(quán)響度測(cè)量(根據(jù)國(guó)際標(biāo)準(zhǔn)ITU-R BS1770)。可替代地,可以使用其他響度測(cè)量(例如,基于響度的心理聲學(xué)模型的那些測(cè)量)。
語音段的分離不是測(cè)量音頻數(shù)據(jù)的平均對(duì)白響度所必需的。然而,它提高測(cè)量的準(zhǔn)確度,并且通常提供來自聽者感知的較滿意的結(jié)果。因?yàn)椴皇撬械囊纛l內(nèi)容包含對(duì)白(語音),整個(gè)音頻內(nèi)容的響度測(cè)量可以提供語音已經(jīng)存在的音頻的對(duì)白電平的足夠的近似。
元數(shù)據(jù)生成器106生成(和/或傳遞至級(jí)107)要由級(jí)107包括在待從編碼器100輸出的編碼比特流中。元數(shù)據(jù)生成器106可以將由編碼器101和/或分析器111提取的LPSM(可選地還有LIM和/或PIM和/或節(jié)目邊界元數(shù)據(jù)和/或其他元數(shù)據(jù))傳遞至級(jí)107(例如,當(dāng)來自驗(yàn)證器102的控制位指示LPSM和/或其他元數(shù)據(jù)有效時(shí)),或生成新的LIM和/或PIM和/或LPSM和/或節(jié)目邊界元數(shù)據(jù)和/或其他元數(shù)據(jù)并且將新的元數(shù)據(jù)設(shè)定到級(jí)107(例如,當(dāng)來自驗(yàn)證器102的控制位指示由解碼器101提取的元數(shù)據(jù)無效時(shí)),或可以將由解碼器101和/或分析器111提取的元數(shù)據(jù)與新生成的元數(shù)據(jù)的組合設(shè)定到級(jí)107。元數(shù)據(jù)生成器106可以將由子系統(tǒng)108生成的響度數(shù)據(jù)以及指示由子系統(tǒng)108執(zhí)行的響度處理的類型的至少一個(gè)值包括在LPSM中,將LPSM設(shè)定到級(jí)107以用于包括在待從編碼器100輸出的編碼比特流中。
元數(shù)據(jù)生成器106可以生成用于待被包括在編碼比特流和/或待被包括在編碼比特流中的基本音頻數(shù)據(jù)中的LPSM(可選地還有其他元數(shù)據(jù))的解密、認(rèn)證或驗(yàn)證中的至少一個(gè)的控制位(可以由基于散列的消息認(rèn)證代碼或“HMAC”組成或包括基于散列的消息認(rèn)證代碼或“HMAC”)。元數(shù)據(jù)生成器106可以向級(jí)107提供這樣的保護(hù)位以用于包括在編碼比特流中。
在典型的操作中,對(duì)白響度測(cè)量子系統(tǒng)108對(duì)從解碼器101輸出的音頻數(shù)據(jù)進(jìn)行處理以響應(yīng)于音頻數(shù)據(jù)生成響度值(例如,選通的和未選通的對(duì)白響度值)和動(dòng)態(tài)范圍值。響應(yīng)于這些值,元數(shù)據(jù)生成器106可以生成響度處理狀態(tài)元數(shù)據(jù)(LPSM)以用于(由填充器/格式器107)包括在待從編碼器100輸出的編碼比特流中。
另外,可選地,或可替代地,編碼器100的子系統(tǒng)106和/或108可以執(zhí)行音頻數(shù)據(jù)的額外的分析以生成指示音頻數(shù)據(jù)的至少一個(gè)特性的元數(shù)據(jù)以用于包括在待從級(jí)107輸出的編碼比特流中。
編碼器105對(duì)從選擇級(jí)104輸出的音頻數(shù)據(jù)進(jìn)行編碼(例如,通過對(duì)其執(zhí)行壓縮),并且將編碼的音頻設(shè)定到級(jí)107以用于包括在待從級(jí)107輸出的編碼比特流中。
級(jí)107將來自編碼器105的編碼音頻和來自生成器106的元數(shù)據(jù)(包括PIM和/或SSM)進(jìn)行復(fù)用以生成待從級(jí)107中輸出的編碼比特流,優(yōu)選地使得編碼比特流具有由本發(fā)明的優(yōu)選實(shí)施方式指定的格式。
幀緩沖器109為存儲(chǔ)(例如,以非暫態(tài)方式)從級(jí)107輸出的編碼音頻比特流的至少一個(gè)幀的緩沖存儲(chǔ)器,然后編碼音頻比特流的一系列幀被從緩沖器109作為來自編碼器100的輸出設(shè)定至傳送系統(tǒng)150。
由元數(shù)據(jù)生成器106生成并且由級(jí)107包括在編碼比特流中的LPSM通常指示相應(yīng)音頻數(shù)據(jù)的響度處理狀態(tài)(例如,已經(jīng)對(duì)音頻數(shù)據(jù)執(zhí)行什么類型的響度處理)以及相應(yīng)音頻數(shù)據(jù)的響度(例如,測(cè)量的對(duì)白響度、選通和/或未選通的響度、和/或動(dòng)態(tài)范圍)。
在本文中,對(duì)音頻數(shù)據(jù)執(zhí)行的響度和/或電平測(cè)量的“選通”是指超過閾值的計(jì)算值被包括在最終測(cè)量(例如,在最終測(cè)量的值中忽略低于-60dBFS的短期響度值)中的特定電平或響度閾值。絕對(duì)值的選通是指固定的電平或響度,而相對(duì)值的選通是指依賴于當(dāng)前“未選通的”測(cè)量值的值。
在編碼器100的一些實(shí)現(xiàn)中,緩存在存儲(chǔ)器109(以及輸出至傳送系統(tǒng)150)的編碼比特流為AC-3比特流或E-AC-3比特流,并且包括音頻數(shù)據(jù)段(例如,圖4中所示的幀的AB0至AB5段)和元數(shù)據(jù)段,其中音頻數(shù)據(jù)段指示音頻數(shù)據(jù),并且元數(shù)據(jù)段中的至少一些中的每個(gè)包括PIM和/或SSM(以及可選地其他元數(shù)據(jù))。級(jí)107將元數(shù)據(jù)段(包括元數(shù)據(jù))插入到下面的格式的比特流中。包括PIM和/或SSM的元數(shù)據(jù)段中的每個(gè)元數(shù)據(jù)段被包括在比特流的無用位段(例如,圖4或圖7中所示的無用位段“W”)中,或比特流的幀的比特流信息(“BSI”)段的“addbsi”字段中,或比特流的幀的結(jié)束處的輔助數(shù)據(jù)字段(例如,圖4或圖7中所示的AUX段)。比特流的幀可以包括一個(gè)或兩個(gè)元數(shù)據(jù)段,每個(gè)元數(shù)據(jù)段包括元數(shù)據(jù),并且如果幀包括兩個(gè)元數(shù)據(jù)段,一個(gè)可以存在于幀的addbsi字段中而另一個(gè)存在于幀的AUX字段中。
在一些實(shí)施方式中,由級(jí)107插入的每個(gè)元數(shù)據(jù)段(在本文中有時(shí)稱為“容器”)具有包括元數(shù)據(jù)段報(bào)頭(可選地還包括其他強(qiáng)制的或“核心”元素)以及在元數(shù)據(jù)段報(bào)頭之后的一個(gè)或更多個(gè)元數(shù)據(jù)有效載荷的格式。如果存在,SIM被包括在元數(shù)據(jù)有效載荷中的一個(gè)有效載荷(由有效載荷報(bào)頭標(biāo)識(shí),并且通常具有第一類型的格式)中。如果存在,PIM被包括在元數(shù)據(jù)有效載荷中的另一個(gè)有效載荷(由有效載荷報(bào)頭標(biāo)識(shí),并且通常具有第二類型的格式)中。類似地,元數(shù)據(jù)的每個(gè)其他類型(如果存在)被包括在元數(shù)據(jù)有效載荷中的另一有效載荷(由有效載荷報(bào)頭標(biāo)識(shí),并且通常具有針對(duì)元數(shù)據(jù)的類型的格式)中。示例性格式使得能夠在除了解碼期間之外的時(shí)間便于訪問(例如,由解碼之后的后處理器、或由被配置成在沒有對(duì)編碼比特流執(zhí)行完全解碼的情況下識(shí)別元數(shù)據(jù)的處理器)SSM、PIM和其他元數(shù)據(jù),并且允許在比特流的解碼期間(例如,子流識(shí)別的)方便和高效的誤差檢測(cè)和校正。例如,在不以示例性格式訪問SSM的情況下,解碼器可能錯(cuò)誤地識(shí)別與節(jié)目相關(guān)聯(lián)的子流的正確數(shù)量。元數(shù)據(jù)段中的一個(gè)元數(shù)據(jù)有效載荷可以包括SSM,元數(shù)據(jù)段中的另一個(gè)元數(shù)據(jù)有效載荷可以包括PIM,以及可選地,元數(shù)據(jù)段中的至少一個(gè)其他元數(shù)據(jù)有效載荷可以包括其他元數(shù)據(jù)(例如,響度處理狀態(tài)元數(shù)據(jù)或“LPSM”)。
在一些實(shí)施方式中,(由級(jí)107)包括在編碼比特流(例如,指示至少一個(gè)音頻節(jié)目的E-AC-3比特流)的幀中的子流結(jié)構(gòu)元數(shù)據(jù)(SSM)有效載荷包括下面的格式的SSM:
有效載荷報(bào)頭,通常包括至少一個(gè)識(shí)別值(例如,指示SSM格式版本的2位值,以及可選地長(zhǎng)度、周期、計(jì)數(shù)和子流相關(guān)聯(lián)值);以及在報(bào)頭之后:
指示由比特流指示的節(jié)目的獨(dú)立子流的數(shù)量的獨(dú)立子流元數(shù)據(jù);以及
從屬子流元數(shù)據(jù),其指示:節(jié)目的每個(gè)獨(dú)立子流是否具有至少一個(gè)相關(guān)聯(lián)的從屬子流(即,至少一個(gè)從屬子流是否與所述每個(gè)獨(dú)立子流相關(guān)聯(lián)),以及如果是這樣,與節(jié)目的每個(gè)獨(dú)立子流相關(guān)聯(lián)的從屬子流的數(shù)量。
預(yù)期的是,編碼比特流的獨(dú)立子流可以指示音頻節(jié)目的揚(yáng)聲器通道集(例如,5.1揚(yáng)聲器通道音頻節(jié)目的揚(yáng)聲器通道),以及一個(gè)或更多個(gè)從屬子流中的每個(gè)(與獨(dú)立子流相關(guān)聯(lián),由從屬子流元數(shù)據(jù)指示)可以指示節(jié)目的目標(biāo)通道。然而,編碼比特流的獨(dú)立比特流通常指示節(jié)目的揚(yáng)聲器通道集,并且與獨(dú)立子流相關(guān)聯(lián)的每個(gè)從屬子流(由從屬子流元數(shù)據(jù)指示)指示節(jié)目的至少一個(gè)額外的揚(yáng)聲器通道。
在一些實(shí)施方式中,(由級(jí)107)包括在編碼比特流(例如,指示至少一個(gè)音頻節(jié)目的E-AC-3比特流)的幀中的節(jié)目信息元數(shù)據(jù)(PIM)有效載荷具有下面的格式:
有效載荷報(bào)頭,通常包括至少一個(gè)標(biāo)識(shí)值(例如,指示PIM格式版本的值,以及可選地長(zhǎng)度、周期、計(jì)數(shù)和子流相關(guān)聯(lián)值);以及在報(bào)頭之后的下面格式的PIM:
指示音頻節(jié)目的每個(gè)靜音通道和每個(gè)非靜音通道(即,節(jié)目的哪些通道包含音頻信息,而哪些通道(如果有)僅包含靜音(通常關(guān)于幀的持續(xù)時(shí)間))的活動(dòng)通道元數(shù)據(jù)。在編碼比特流是AC-3或E-AC-3比特流的實(shí)施方式中,比特流的幀中的活動(dòng)通道元數(shù)據(jù)可以結(jié)合比特流的額外的元數(shù)據(jù)(例如,幀的音頻編碼模式(“acmod”)字段,以及,如果存在,幀或相關(guān)聯(lián)的從屬子流幀中的chanmap字段)以確定節(jié)目的哪些通道包含音頻信息而哪些通道包含靜音。AC-3或E-AC-3幀的“acmod”字段指示由幀的音頻內(nèi)容指示的音頻節(jié)目的全音域通道的數(shù)量(例如,節(jié)目是1.0通道單通道節(jié)目、2.0通道立體聲節(jié)目、還是包括L、R、C、Ls、Rs全音域通道的節(jié)目),或者幀指示兩個(gè)獨(dú)立的1.0通道單通道節(jié)目。E-AC-3比特流的“chanmap”字段指示由比特流指示的從屬子流的通道映射?;顒?dòng)通道元數(shù)據(jù)可以有助于實(shí)現(xiàn)解碼器的上混合(在后處理器中)下游,例如以在解碼器的輸出處將音頻添加至包含靜音的通道;
指示節(jié)目是否被下混合(在編碼之前或在編碼期間)以及如果節(jié)目被下混合則被應(yīng)用的下混合的類型的下混合處理狀態(tài)元數(shù)據(jù)。下混合處理狀態(tài)元數(shù)據(jù)可以有助于實(shí)現(xiàn)解碼器的上混合(在后處理器中)下游,例如以使用最匹配被應(yīng)用的下混合的類型的參數(shù)對(duì)節(jié)目的音頻內(nèi)容進(jìn)行上混合。在編碼比特流是AC-3或E-AC-3比特流的實(shí)施方式中,下混合處理狀態(tài)元數(shù)據(jù)可以結(jié)合幀的音頻編碼模型(“acmod”)字段以確定應(yīng)用于節(jié)目的通道的下混合(如果有)的類型;
指示在編碼之前或在編碼期間節(jié)目是否被上混合(例如,從較小數(shù)量的通道)以及如果節(jié)目被上混合則所應(yīng)用的上混合的類型的上混合處理狀態(tài)元數(shù)據(jù)。上混合處理狀態(tài)元數(shù)據(jù)可以有助于實(shí)現(xiàn)解碼器的下混合(在后處理器中)下游,例如以與應(yīng)用于節(jié)目的上混合(例如,杜比定向邏輯、或杜比定向邏輯Ⅱ電影模式、或杜比定向邏輯Ⅱ音樂模式、或杜比專業(yè)上混合器)的類型一致的方式對(duì)節(jié)目的音頻內(nèi)容進(jìn)行下混合。在編碼比特流是E-AC-3比特流的實(shí)施方式中,上混合處理狀態(tài)元數(shù)據(jù)可以結(jié)合其他元數(shù)據(jù)(例如,幀的“strmtyp”字段的值)以確定應(yīng)用于節(jié)目的通道的上混合(如果有)的類型。(E-AC-3比特流的幀的BSI字段中的)“strmtyp”字段的值指示幀的音頻內(nèi)容是否屬于獨(dú)立流(其確定節(jié)目)或(包括多個(gè)子流或與多個(gè)子流相關(guān)聯(lián)的節(jié)目的)獨(dú)立子流,從而可以獨(dú)立于由E-AC-3比特流指示的任何其他子流被編碼,或幀的音頻內(nèi)容是否屬于(包括多個(gè)子流或與多個(gè)子流相關(guān)聯(lián)的節(jié)目的)從屬子流,從而必須結(jié)合與其相關(guān)聯(lián)的獨(dú)立子流被解碼;以及
預(yù)處理狀態(tài)元數(shù)據(jù),其指示:是否對(duì)幀的音頻內(nèi)容執(zhí)行了預(yù)處理(在生成編碼比特流的音頻內(nèi)容的編碼之前),以及如果對(duì)幀音頻內(nèi)容執(zhí)行了預(yù)處理則被執(zhí)行的預(yù)處理的類型。
在一些實(shí)現(xiàn)中,預(yù)處理狀態(tài)元數(shù)據(jù)指示:
是否應(yīng)用環(huán)繞衰減(例如,在編碼之前,音頻節(jié)目的環(huán)繞通道是否被衰減3dB),
是否(例如,在編碼之前,對(duì)音頻節(jié)目的環(huán)繞通道Ls和Rs通道)應(yīng)用90°相移,
在編碼之前,是否對(duì)音頻節(jié)目的LFE通道應(yīng)用低通濾波器,
在生成期間,是否監(jiān)視節(jié)目的LFE通道的電平以及如果監(jiān)視了節(jié)目的LFE通道的電平則LFE通道的監(jiān)視的電平相對(duì)于節(jié)目的全音域音頻通道的電平,
是否應(yīng)當(dāng)對(duì)節(jié)目的解碼音頻內(nèi)容的每個(gè)塊執(zhí)行(例如,在解碼器中)動(dòng)態(tài)范圍壓縮以及如果應(yīng)當(dāng)對(duì)節(jié)目的解碼音頻內(nèi)容的每個(gè)塊執(zhí)行動(dòng)態(tài)范圍壓縮則待被執(zhí)行的動(dòng)態(tài)范圍壓縮的類型(和/或參數(shù))(例如,該類型的預(yù)處理狀態(tài)元數(shù)據(jù)可以指示以下壓縮簡(jiǎn)檔類型中的哪個(gè)由編碼器假定以生成被包括在編碼比特流中的動(dòng)態(tài)范圍壓縮控制值:電影標(biāo)準(zhǔn)、電影輕度、音樂標(biāo)準(zhǔn)、音樂輕度或語音?;蛘撸擃愋偷念A(yù)處理狀態(tài)元數(shù)據(jù)可以指示應(yīng)當(dāng)以由被包括在編碼比特流中的動(dòng)態(tài)范圍壓縮控制值確定的方式對(duì)節(jié)目的解碼音頻內(nèi)容的每個(gè)幀執(zhí)行重動(dòng)態(tài)范圍壓縮(“compr”壓縮)),
是否使用譜擴(kuò)展和/或通道耦合編碼以對(duì)特定頻率范圍的節(jié)目?jī)?nèi)容進(jìn)行編碼,以及如果使用譜擴(kuò)展和/或通道耦合編碼以對(duì)特定頻率范圍的節(jié)目?jī)?nèi)容進(jìn)行編碼則對(duì)其執(zhí)行譜擴(kuò)展編碼的內(nèi)容的頻率分量的最小頻率和最大頻率,以及對(duì)其執(zhí)行通道耦合編碼的內(nèi)容的頻率分量的最小頻率和最大頻率。該類型的預(yù)處理狀態(tài)元數(shù)據(jù)信息可以有助于執(zhí)行解碼器的均衡(在后處理器中)下游。通道耦合信息和譜擴(kuò)展信息兩者都有助于在代碼轉(zhuǎn)換操作和應(yīng)用期間優(yōu)化質(zhì)量。例如,編碼器可以基于參數(shù)例如譜擴(kuò)展和通道耦合信息的狀態(tài)優(yōu)化其行為(包括預(yù)處理步驟例如頭戴式耳機(jī)虛擬、上混合等的自適應(yīng))。而且,編碼器可以基于進(jìn)入的(并且認(rèn)證的)元數(shù)據(jù)的狀態(tài)來動(dòng)態(tài)地修改其耦合參數(shù)和譜擴(kuò)展參數(shù)以匹配最佳值和/或?qū)⑵漶詈虾妥V擴(kuò)展參數(shù)修改成最佳值,以及
對(duì)白增強(qiáng)調(diào)整范圍數(shù)據(jù)是否包括在編碼比特流中,以及如果對(duì)白增強(qiáng)調(diào)整范圍數(shù)據(jù)包括在編碼比特流中,則在相對(duì)于音頻節(jié)目中的非對(duì)白內(nèi)容的電平調(diào)整對(duì)白內(nèi)容的電平的對(duì)白增強(qiáng)處理(例如,在解碼器的后處理器下游)的執(zhí)行期間可得到的調(diào)整的范圍。
在一些實(shí)現(xiàn)中,額外的預(yù)處理狀態(tài)元數(shù)據(jù)(例如,指示頭戴式耳機(jī)相關(guān)的參數(shù)的元數(shù)據(jù))被包括在(由級(jí)107)待從編碼器100輸出的編碼比特流的PIM有效載荷中。
在一些實(shí)現(xiàn)中,(由級(jí)107)包括在編碼比特流(例如,指示至少一個(gè)音頻節(jié)目的E-AC-3比特流)的幀中的LPSM有效載荷包括下面的格式的LPSM:
報(bào)頭(通常包括標(biāo)識(shí)LPSM有效載荷的開始的同步字,在同步字之后的至少一個(gè)標(biāo)識(shí)值,例如,在下面的表2中表示的LPSM格式版本、長(zhǎng)度、周期、計(jì)數(shù)和子流關(guān)聯(lián)值);以及
在報(bào)頭之后的:
指示相應(yīng)音頻數(shù)據(jù)指示對(duì)白或不指示對(duì)白(例如,相應(yīng)音頻數(shù)據(jù)的哪些通道指示對(duì)白)的至少一個(gè)對(duì)白指示值(例如,表2的參數(shù)“對(duì)白通道”);
指示相應(yīng)的音頻內(nèi)容是否符合響度調(diào)整的所指示的集合的至少一個(gè)響度調(diào)整符合值(例如,表2的參數(shù)“響度調(diào)整類型”);
指示已經(jīng)對(duì)相應(yīng)音頻數(shù)據(jù)執(zhí)行的響度處理的至少一種類型的至少一個(gè)響度處理值(例如,表2的參數(shù)“對(duì)白選通響度校正標(biāo)志”、“響度校正類型”中的一個(gè)或更多個(gè));以及
指示相應(yīng)音頻數(shù)據(jù)的至少一個(gè)響度(例如,峰值或平均響度)特性的至少一個(gè)響度值(例如,表2的參數(shù)“ITU相對(duì)選通響度”、“ITU語音選通響度”、“ITU(EBU 3341)短期3s響度”和“真實(shí)峰值”中的一個(gè)或更多個(gè))。
在一些實(shí)現(xiàn)中,包含PIM和/或SSM(以及可選地其他元數(shù)據(jù))的每個(gè)元數(shù)據(jù)段包含元數(shù)據(jù)段報(bào)頭(以及可選地額外的核心元素)、以及在元數(shù)據(jù)段報(bào)頭(或元數(shù)據(jù)段報(bào)頭和其他核心元素)之后的具有下面的格式的至少一個(gè)元數(shù)據(jù)有效載荷段:
有效載荷報(bào)頭,通常包括至少一個(gè)標(biāo)識(shí)值(例如,SSM或PIM格式版本、長(zhǎng)度、周期、計(jì)數(shù)和子流關(guān)聯(lián)值),以及
在有效載荷報(bào)頭之后的SSM或PIM(或另一類型的元數(shù)據(jù))。
在一些實(shí)現(xiàn)中,由級(jí)107插入至比特流的幀的無用位段/跳過字段段(或“addbsi”字段或輔助數(shù)據(jù)字段)中的元數(shù)據(jù)段(在本文中有時(shí)稱為“元數(shù)據(jù)容器”或“容器”)中的每個(gè)具有下面的格式:
元數(shù)據(jù)段報(bào)頭(通常包括標(biāo)識(shí)元數(shù)據(jù)段的開始的同步字,在同步字之后的標(biāo)識(shí)值,例如,在下面的表1中表示的版本、長(zhǎng)度、周期、擴(kuò)展的元素計(jì)數(shù)和子流關(guān)聯(lián)值);以及
在元數(shù)據(jù)段報(bào)頭之后的有助于元數(shù)據(jù)段或相應(yīng)音頻數(shù)據(jù)的元數(shù)據(jù)的至少一個(gè)的解密、認(rèn)證或驗(yàn)證中的至少一種的至少一個(gè)保護(hù)值(例如表1的HMAC摘要和音頻指紋值);以及
也在元數(shù)據(jù)段報(bào)頭之后的標(biāo)識(shí)每個(gè)下面的元數(shù)據(jù)有效載荷中的元數(shù)據(jù)的類型并且指示每個(gè)這樣的有效載荷的配置(例如,尺寸)的至少一個(gè)方面的元數(shù)據(jù)有效載荷標(biāo)識(shí)(“ID”)值和有效載荷配置值。
每個(gè)元數(shù)據(jù)有效載荷在相應(yīng)有效載荷ID值和有效載荷配置值之后。
在一些實(shí)施方式中,在幀的無用位段(或輔助數(shù)據(jù)字段或“addbsi”字段)中的元數(shù)據(jù)段中的每個(gè)具有三種等級(jí)的結(jié)構(gòu):
高等級(jí)結(jié)構(gòu)(例如,元數(shù)據(jù)段報(bào)頭),包括指示無用位(或輔助數(shù)據(jù)或addbsi)字段是否包括元數(shù)據(jù)的標(biāo)志、指示存在什么類型的元數(shù)據(jù)的至少一個(gè)ID值、以及通常還有指示(例如,每個(gè)類型的)元數(shù)據(jù)的多少位存在(如果元數(shù)據(jù)存在的話)的值??梢源嬖诘脑獢?shù)據(jù)的一種類型為PIM,可以存在的元數(shù)據(jù)的另一類型為SSM,而可以存在的元數(shù)據(jù)的其他類型為L(zhǎng)PSM、和/或節(jié)目邊界元數(shù)據(jù)、和/或媒體搜索元數(shù)據(jù);
中間等級(jí)結(jié)構(gòu),包括與每個(gè)所標(biāo)識(shí)的類型的元數(shù)據(jù)相關(guān)聯(lián)的數(shù)據(jù)(例如,元數(shù)據(jù)有效載荷報(bào)頭、保護(hù)值、以及關(guān)于每個(gè)所標(biāo)識(shí)的類型的元數(shù)據(jù)的有效載荷ID值和有效載荷配置值);以及
低等級(jí)結(jié)構(gòu),包括關(guān)于每個(gè)所標(biāo)識(shí)的類型的元數(shù)據(jù)的元數(shù)據(jù)有效載荷(例如,如果PIM被識(shí)別為正存在,一系列PIM值,和/或如果該其他類型的元數(shù)據(jù)被識(shí)別為正存在,另一類型(例如,SSM或LPSM)的元數(shù)據(jù)值)。
這樣三個(gè)等級(jí)結(jié)構(gòu)中的數(shù)據(jù)值可以被嵌套。例如,由高等級(jí)結(jié)構(gòu)和中間等級(jí)結(jié)構(gòu)標(biāo)識(shí)的每個(gè)有效載荷(例如,每個(gè)PIM、或SSM或其他數(shù)據(jù)有效載荷)的保護(hù)值可以被包括在有效載荷之后(從而在有效載荷的元數(shù)據(jù)有效載荷報(bào)頭之后),或由高等級(jí)結(jié)構(gòu)和中間等級(jí)結(jié)構(gòu)標(biāo)識(shí)的所有元數(shù)據(jù)有效載荷的保護(hù)值可以被包括在元數(shù)據(jù)段中的最終元數(shù)據(jù)有效載荷之后(從而在元數(shù)據(jù)段的所有有效載荷的元數(shù)據(jù)有效載荷報(bào)頭之后)。
在(參照?qǐng)D8的元數(shù)據(jù)段或“容器”將要描述的)一個(gè)示例中,元數(shù)據(jù)段報(bào)頭標(biāo)識(shí)4個(gè)元數(shù)據(jù)有效載荷。如圖8所示,元數(shù)據(jù)段報(bào)頭包括容器同步字(被標(biāo)識(shí)為“容器同步”)以及版本和鍵ID值。元數(shù)據(jù)段報(bào)頭之后是4個(gè)元數(shù)據(jù)有效載荷和保護(hù)位。第一有效載荷(例如,PIM有效載荷)的有效載荷ID值和有效載荷配置(例如,有效載荷尺寸)值在元數(shù)據(jù)段報(bào)頭之后,第一有效載荷本身在ID和配置值之后,第二有效載荷(例如,SSM有效載荷)的有效載荷ID值和有效載荷配置(例如,有效載荷尺寸)值在第一有效載荷之后,第二有效載荷本身在這些ID和配置值之后,第三有效載荷(例如,LPSM有效載荷)的有效載荷ID值和有效載荷配置(例如,有效載荷尺寸)值在第二有效載荷之后,第三有效載荷本身在這些ID和配置值之后,第四有效載荷的有效載荷ID值和有效載荷配置(例如,有效載荷尺寸)值在第三有效載荷之后,第四有效載荷本身在這些ID和配置值之后,而關(guān)于有效載荷中的全部或一些有效載荷(或關(guān)于高等級(jí)結(jié)構(gòu)和中間等級(jí)結(jié)構(gòu)以及有效載荷中的全部或一些有效載荷)的保護(hù)值(在圖8中被標(biāo)識(shí)為“保護(hù)數(shù)據(jù)”)在最后一個(gè)有效載荷之后。
在一些實(shí)施方式中,如果解碼器101接收根據(jù)本發(fā)明的實(shí)施方式生成的具有加密散列的音頻比特流,則解碼器被配置成根據(jù)由比特流確定的數(shù)據(jù)塊對(duì)加密散列進(jìn)行分析和檢索,其中所述塊包括元數(shù)據(jù)。驗(yàn)證器102可以使用加密散列對(duì)所接收的比特流和/或相關(guān)聯(lián)的元數(shù)據(jù)進(jìn)行驗(yàn)證。例如,如果驗(yàn)證器102基于參考加密散列與從數(shù)據(jù)塊檢索到的加密散列之間的匹配發(fā)現(xiàn)元數(shù)據(jù)是有效的,那么可以禁止處理器103對(duì)相應(yīng)的音頻數(shù)據(jù)的操作,并且使得選擇級(jí)104通過(未改變的)音頻數(shù)據(jù)。另外,可選地或可替代地,可以使用其他類型的加密技術(shù)替代基于加密散列的方法。
圖2的編碼器100可以確定(響應(yīng)于由解碼器101提取的LPSM以及可選地還響應(yīng)于節(jié)目邊界元數(shù)據(jù))后處理/預(yù)處理單元已經(jīng)(在元件105、106和107中)對(duì)待編碼的音頻數(shù)據(jù)執(zhí)行了一種類型的響度處理,因此可以(在生成器106中)創(chuàng)建包括用于先前執(zhí)行的響度處理的和/或根據(jù)先前執(zhí)行的響度處理得到的具體參數(shù)的響度處理狀態(tài)元數(shù)據(jù)。在一些實(shí)現(xiàn)中,只要編碼器知道已經(jīng)對(duì)音頻內(nèi)容執(zhí)行的處理的類型,編碼器100就可以創(chuàng)建指示對(duì)音頻內(nèi)容的處理歷史的元數(shù)據(jù)(以及將其包括在從編碼器輸出的編碼比特流中)。
圖3是為本發(fā)明的音頻處理單元的實(shí)施方式的解碼器(200)以及耦接至解碼器(200)的后處理器(300)的框圖。后處理器(300)也是本發(fā)明的音頻處理單元的實(shí)施方式。編碼器200和后處理器300的部件或元件中的任何一個(gè)可以以硬件、軟件或硬件和軟件的組合被實(shí)現(xiàn)為一個(gè)或更多個(gè)處理和/或一個(gè)或更多個(gè)電路(例如,ASIC、FPGA或其他集成電路)。解碼器200包括如所示地連接的幀緩沖器201、分析器205、音頻解碼器202、音頻狀態(tài)驗(yàn)證級(jí)(驗(yàn)證器)203以及控制位生成級(jí)204。通常,解碼器200還包括其他處理元件(未示出)。
幀緩沖器201(緩沖存儲(chǔ)器)存儲(chǔ)(例如,以非暫態(tài)方式)由解碼器200接收的編碼音頻比特流的至少一個(gè)幀。編碼音頻比特流的幀序列被從緩沖器201設(shè)定到分析器205。
耦接分析器205并且將其配置成從編碼輸入音頻的每個(gè)幀中提取PIM和/或SSM(可選地還提取其他元數(shù)據(jù),例如,LPSM),將元數(shù)據(jù)中的至少一些(例如,LPSM和節(jié)目邊界元數(shù)據(jù),如果任意一個(gè)被提取的話,和/或PIM和/或SSM)設(shè)定到音頻狀態(tài)驗(yàn)證器203和級(jí)204,將所提取的元數(shù)據(jù)設(shè)定為(例如對(duì)后處理器300的)輸出,從編碼輸入音頻中提取音頻數(shù)據(jù),以及將所提取的音頻數(shù)據(jù)設(shè)定到解碼器202。
輸入至解碼器200的編碼音頻比特流可以是AC-3比特流、E-AC-3比特流或杜比E比特流中的一個(gè)。
圖3的系統(tǒng)還包括后處理器300。后處理器300包括幀緩沖器301和包括耦接至緩沖器301的至少一個(gè)處理元件的其他處理元件(未示出)。幀緩沖器301存儲(chǔ)(例如,以非暫態(tài)方式)由后處理器300從解碼器200接收的解碼音頻比特流的至少一個(gè)幀。耦接后處理器300的處理元件并且將其配置成接收從緩沖器301輸出的解碼音頻比特流的一系列幀并且使用從解碼器200輸出的元數(shù)據(jù)和/或從解碼器200的級(jí)204輸出的控制位對(duì)其進(jìn)行自適應(yīng)處理。通常,后處理器300被配置成使用來自解碼器200的元數(shù)據(jù)對(duì)解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)處理(例如,使用LPSM值以及可選地還使用節(jié)目邊界元數(shù)據(jù)對(duì)解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)響度處理,其中自適應(yīng)處理可以基于響度處理狀態(tài)、和/或由指示單個(gè)音頻節(jié)目的音頻數(shù)據(jù)的LPSM所指示的一個(gè)或更多個(gè)音頻數(shù)據(jù)特性)。
解碼器200和后處理器300的各種實(shí)現(xiàn)被配置成執(zhí)行本發(fā)明的方法的不同的實(shí)施方式。
解碼器200的音頻解碼器202被配置成對(duì)由分析器205提取的音頻數(shù)據(jù)進(jìn)行解碼以生成解碼音頻數(shù)據(jù),并且將解碼音頻數(shù)據(jù)設(shè)定為(例如對(duì)后處理器300的)輸出。
狀態(tài)驗(yàn)證器203被配置成對(duì)設(shè)定到其的元數(shù)據(jù)進(jìn)行認(rèn)證和驗(yàn)證。在一些實(shí)施方式中,元數(shù)據(jù)為(或被包括在)已經(jīng)被包括在輸入比特流(例如,根據(jù)本發(fā)明的實(shí)施方式)中的數(shù)據(jù)塊。塊可以包括用于對(duì)元數(shù)據(jù)和/或基本音頻數(shù)據(jù)(從分析器205和/或解碼器202提供至驗(yàn)證器203)進(jìn)行處理的加密散列(基于散列的消息認(rèn)證代碼或“HMAC”)。數(shù)據(jù)塊可以在這些實(shí)施方式中被數(shù)字地標(biāo)記,使得下游的音頻處理單元可以相對(duì)容易地認(rèn)證和驗(yàn)證處理狀態(tài)元數(shù)據(jù)。
包括但不限于一個(gè)或更多個(gè)非HMAC加密方法中的任意一個(gè)的其他加密方法可以用于元數(shù)據(jù)的驗(yàn)證(例如,在驗(yàn)證器203中)以確保元數(shù)據(jù)和/或基本的音頻數(shù)據(jù)的安全的傳輸和接收。例如,驗(yàn)證(使用這樣的加密方法)可以在接收本發(fā)明的音頻比特流的實(shí)施方式的每個(gè)音頻處理單元中被執(zhí)行以確定包括在該比特流中的元數(shù)據(jù)和相應(yīng)音頻數(shù)據(jù)是否已經(jīng)經(jīng)歷(和/或產(chǎn)生于)具體的處理(由元數(shù)據(jù)所指示的)并且在這樣的具體的處理執(zhí)行之后沒有被修改。
狀態(tài)驗(yàn)證器203將控制數(shù)據(jù)設(shè)定到控制位生成器204,和/或?qū)⒖刂茢?shù)據(jù)設(shè)定為輸出(例如,設(shè)定到后處理器300)以指示驗(yàn)證操作的結(jié)果。響應(yīng)于控制數(shù)據(jù)(以及可選地從輸入比特流中提取的其他元數(shù)據(jù)),級(jí)204可以生成(以及設(shè)定到后處理器300):
指示從解碼器202輸出的解碼音頻數(shù)據(jù)已經(jīng)經(jīng)歷特定類型的響度處理(當(dāng)LPSM指示從解碼器202輸出的音頻數(shù)據(jù)已經(jīng)經(jīng)歷該特定類型的響度處理,并且來自驗(yàn)證器203的控制位指示LPSM有效時(shí))的控制位;或
指示從解碼器202輸出的解碼音頻數(shù)據(jù)應(yīng)當(dāng)經(jīng)歷特定類型的響度處理(例如,當(dāng)LPSM指示從解碼器202輸出的音頻數(shù)據(jù)沒有經(jīng)歷具體類型的響度處理,或當(dāng)LPSM指示從解碼器202輸出的音頻數(shù)據(jù)已經(jīng)經(jīng)歷該特定類型的響度處理但來自驗(yàn)證器203的控制位指示LPSM無效時(shí))的控制位。
或者,解碼器200將由解碼器202從輸入比特流中提取的元數(shù)據(jù)以及由分析器205從輸入比特流中提取的元數(shù)據(jù)設(shè)定到后處理器300,并且后處理器300使用元數(shù)據(jù)對(duì)解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)處理,或執(zhí)行元數(shù)據(jù)的驗(yàn)證,然后如果驗(yàn)證指示元數(shù)據(jù)有效,則使用元數(shù)據(jù)對(duì)解碼音頻數(shù)據(jù)執(zhí)行自適應(yīng)處理。
在一些實(shí)施方式中,如果解碼器200接收根據(jù)本發(fā)明的使用加密散列的實(shí)施方式生成的的音頻比特流,則解碼器被配置成對(duì)來自由比特流所確定的數(shù)據(jù)塊的加密散列進(jìn)行分析和檢索,所述塊包括響度處理狀態(tài)元數(shù)據(jù)(LPSM)。驗(yàn)證器203可以使用加密散列以對(duì)接收的比特流和/或相關(guān)聯(lián)的元數(shù)據(jù)進(jìn)行驗(yàn)證。例如,如果驗(yàn)證器203基于參考加密散列與從數(shù)據(jù)塊檢索的加密散列之間的匹配發(fā)現(xiàn)LPSM有效,那么可以用向下游的音頻處理單元(例如,可以是或包括音量校平單元的后處理器300)發(fā)信號(hào)以通過(未改變的)比特流的音頻數(shù)據(jù)。另外地,可選地或可替代地,可以使用其他類型的加密技術(shù)替代基于加密散列的方法。
在解碼器200的一些實(shí)現(xiàn)中,所接收(以及緩存在存儲(chǔ)器201中)的編碼比特流為AC-3比特流或E-AC-3比特流,并且包括音頻數(shù)據(jù)段(例如,圖4所示的幀的AB0至AB5段)和元數(shù)據(jù)段,其中音頻數(shù)據(jù)段指示音頻數(shù)據(jù),而元數(shù)據(jù)段中的至少一些中的每個(gè)包括PIM或SSM(或其他元數(shù)據(jù))。解碼器級(jí)202(和/或分析器205)被配置成從比特流中提取元數(shù)據(jù)。元數(shù)據(jù)段中的包括PIM和/或SSM(可選地還包括其他元數(shù)據(jù))的每個(gè)元數(shù)據(jù)段被包括在比特流的幀的無用位段中,或比特流的幀的比特流信息(“BSI”)段的“addbsi”字段中,或比特流的幀的結(jié)束處的輔助數(shù)據(jù)字段(例如,圖4所示的AUX段)中。比特流的幀可以包括一個(gè)或兩個(gè)元數(shù)據(jù)段,其中每個(gè)元數(shù)據(jù)段包括元數(shù)據(jù),并且如果幀包括兩個(gè)元數(shù)據(jù)段,一個(gè)可以存在于幀的addbsi字段中而另一個(gè)存在于幀的AUX字段中。
在一些實(shí)施方式中,緩存在緩沖器201中的比特流的每個(gè)元數(shù)據(jù)段(在本文中有時(shí)稱為“容器”)具有包括元數(shù)據(jù)段報(bào)頭(可選地還包括其他強(qiáng)制的或“核心”元素)、以及在元數(shù)據(jù)段報(bào)頭之后的一個(gè)或更多個(gè)元數(shù)據(jù)有效載荷的格式。如果存在,SIM被包括在元數(shù)據(jù)有效載荷中的一個(gè)有效載荷(由有效載荷報(bào)頭標(biāo)識(shí),并且通常具有第一類型的格式)中。如果存在,PIM被包括在元數(shù)據(jù)有效載荷中的另一個(gè)有效載荷(由有效載荷報(bào)頭標(biāo)識(shí),并且通常具有第二類型的格式)中。類似地,元數(shù)據(jù)的其他類型(如果存在)被包括在元數(shù)據(jù)有效載荷中的另一有效載荷(由有效載荷報(bào)頭標(biāo)識(shí),并且通常具有針對(duì)元數(shù)據(jù)的類型的格式)中。示例性格式使得能夠在除了解碼期間之外的時(shí)間方便訪問(例如,由解碼之后的后處理器300、或由被配置成在沒有對(duì)編碼比特流執(zhí)行完全解碼的情況下識(shí)別元數(shù)據(jù)的處理器)SSM、PIM和其他元數(shù)據(jù),并且允許在比特流的解碼期間(例如,子流識(shí)別的)方便和高效的誤差檢測(cè)和校正。例如,在不以示例性格式訪問SSM的情況下,解碼器200可能錯(cuò)誤地識(shí)別與節(jié)目相關(guān)聯(lián)的子流的正確數(shù)量。元數(shù)據(jù)段中的一個(gè)元數(shù)據(jù)有效載荷可以包括SSM,元數(shù)據(jù)段中的另一個(gè)元數(shù)據(jù)有效載荷可以包括PIM,以及可選地,元數(shù)據(jù)段中的至少一個(gè)其他元數(shù)據(jù)有效載荷可以包括其他元數(shù)據(jù)(例如,響度處理狀態(tài)元數(shù)據(jù)或“LPSM”)。
在一些實(shí)施方式中,包括在緩存在緩沖器201中的編碼比特流(例如,指示至少一個(gè)音頻節(jié)目的E-AC-3比特流)的幀中的子流結(jié)構(gòu)元數(shù)據(jù)(SSM)有效載荷包括下面的格式的SSM:
有效載荷報(bào)頭,通常包括至少一個(gè)標(biāo)識(shí)值(例如,指示SSM格式版本的2位值,以及可選地長(zhǎng)度、周期、計(jì)數(shù)和子流關(guān)聯(lián)值);以及
在報(bào)頭之后:
指示由比特流指示的節(jié)目的獨(dú)立子流的數(shù)量的獨(dú)立子流元數(shù)據(jù);以及
從屬子流元數(shù)據(jù),其指示:節(jié)目的每個(gè)獨(dú)立子流是否具有至少一個(gè)與其相關(guān)聯(lián)的從屬子流,以及如果節(jié)目的每個(gè)獨(dú)立子流具有至少一個(gè)與其相關(guān)聯(lián)的從屬子流,與節(jié)目的每個(gè)獨(dú)立子流相關(guān)聯(lián)的從屬子流的數(shù)量。
在一些實(shí)施方式中,緩存在緩沖器201中的編碼比特流(例如,指示至少一個(gè)音頻節(jié)目的E-AC-3比特流)的幀中的包括的節(jié)目信息元數(shù)據(jù)(PIM)有效載荷具有下面的格式:
有效載荷報(bào)頭,通常包括至少一個(gè)標(biāo)識(shí)值(例如,指示PIM格式版本的值,以及可選地長(zhǎng)度、周期、計(jì)數(shù)和子流關(guān)聯(lián)值);以及在報(bào)頭之后,下面的格式的PIM:
音頻節(jié)目的每個(gè)靜音通道和每個(gè)非靜音通道(即,節(jié)目的哪些通道包含音頻信息,而哪些通道(如果有)僅包含靜音(通常關(guān)于幀的持續(xù)時(shí)間))的活動(dòng)通道元數(shù)據(jù)。在編碼比特流是AC-3或E-AC-3比特流的實(shí)施方式中,比特流的幀中的活動(dòng)通道元數(shù)據(jù)可以結(jié)合比特流的額外的元數(shù)據(jù)(例如,幀的音頻編碼模式(“acmod”)字段,以及如果存在,幀或相關(guān)聯(lián)的從屬子流幀中的chanmap字段)以確定節(jié)目的哪些通道包含音頻信息而哪些通道包含靜音;
下混合處理狀態(tài)元數(shù)據(jù),其指示:節(jié)目是否被下混合(在編碼之前或在編碼期間),以及如果節(jié)目被下混合,所應(yīng)用的下混合的類型。下混合處理狀態(tài)元數(shù)據(jù)可以有助于實(shí)現(xiàn)解碼器的上混合(在后處理器300中)下游,例如以使用最匹配所應(yīng)用的下混合的類型的參數(shù)對(duì)節(jié)目的音頻內(nèi)容進(jìn)行上混合。在編碼比特流是AC-3或E-AC-3比特流的實(shí)施方式中,下混合處理狀態(tài)元數(shù)據(jù)可以結(jié)合幀的音頻編碼模型(“acmod”)字段以確定應(yīng)用于節(jié)目的通道的下混合(如果有)的類型;
上混合處理狀態(tài)元數(shù)據(jù),其指示:在編碼之前或在編碼期間節(jié)目是否被上混合(例如,從較小數(shù)量的通道),以及如果節(jié)目被上混合,所應(yīng)用的上混合的類型。上混合處理狀態(tài)元數(shù)據(jù)可以有助于實(shí)現(xiàn)解碼器的下混合(在后處理器中)下游,例如以與應(yīng)用于節(jié)目的上混合(例如,杜比定向邏輯、或杜比定向邏輯Ⅱ電影模式、或杜比定向邏輯Ⅱ音樂模式、或杜比專業(yè)上混合器)的類型一致的方式對(duì)節(jié)目的音頻內(nèi)容進(jìn)行下混合。在編碼比特流是E-AC-3比特流的實(shí)施方式中,上混合處理狀態(tài)元數(shù)據(jù)可以結(jié)合其他元數(shù)據(jù)(例如,幀的“strmtyp”字段的值)以確定應(yīng)用于節(jié)目的通道的上混合(如果有)的類型。(E-AC-3比特流的幀的BSI字段中的)“strmtyp”字段的值指示幀的音頻內(nèi)容是否屬于獨(dú)立流(其確定節(jié)目)或(包括多個(gè)子流或與多個(gè)子流相關(guān)聯(lián)的節(jié)目的)獨(dú)立子流,從而可以獨(dú)立于由E-AC-3比特流所指示的任何其他子流被編碼,或幀的音頻內(nèi)容是否屬于(包括多個(gè)子流或與多個(gè)子流相關(guān)聯(lián)的節(jié)目的)從屬子流,從而必須結(jié)合與其相關(guān)聯(lián)的獨(dú)立子流而被解碼;以及
預(yù)處理狀態(tài)元數(shù)據(jù),其指示:是否對(duì)幀的音頻內(nèi)容執(zhí)行了預(yù)處理(在生成編碼比特流的音頻內(nèi)容的編碼之前),以及如果對(duì)幀音頻內(nèi)容執(zhí)行了預(yù)處理,被執(zhí)行的預(yù)處理的類型。
在一些實(shí)現(xiàn)中,預(yù)處理狀態(tài)元數(shù)據(jù)指示:
是否應(yīng)用了環(huán)繞衰減(例如,在編碼之前,音頻節(jié)目的環(huán)繞通道是否被衰減了3dB),
是否(例如,在編碼之前對(duì)音頻節(jié)目的環(huán)繞通道Ls和Rs通道)應(yīng)用了90°相移,
在編碼之前,是否對(duì)音頻節(jié)目的LFE通道應(yīng)用了低通濾波器,
在生成期間,是否監(jiān)視節(jié)目的LFE通道的電平,以及如果監(jiān)視了節(jié)目的LFE通道的電平,相對(duì)于節(jié)目的全音域音頻通道的電平的LFE通道的監(jiān)視電平,
是否應(yīng)當(dāng)對(duì)節(jié)目的解碼音頻的每個(gè)塊執(zhí)行(例如,在解碼器中)動(dòng)態(tài)范圍壓縮,以及如果應(yīng)當(dāng)對(duì)節(jié)目的解碼音頻的每個(gè)塊執(zhí)行動(dòng)態(tài)范圍壓縮,要執(zhí)行的動(dòng)態(tài)范圍壓縮的類型(和/或參數(shù))(例如,該類型的預(yù)處理狀態(tài)元數(shù)據(jù)可以指示下面的壓縮簡(jiǎn)檔類型中的哪種類型由編碼器假定以生成被包括在編碼比特流中的動(dòng)態(tài)范圍壓縮控制值:電影標(biāo)準(zhǔn)、電影輕度、音樂標(biāo)準(zhǔn)、音樂輕度或語音?;蛘?,預(yù)處理狀態(tài)元數(shù)據(jù)的該類型可以指示應(yīng)當(dāng)以由被包括在編碼比特流中的動(dòng)態(tài)范圍壓縮控制值確定的方式對(duì)節(jié)目的解碼音頻內(nèi)容的每個(gè)幀執(zhí)行重動(dòng)態(tài)范圍壓縮(“compr”壓縮)),
是否使用譜擴(kuò)展和/或通道耦合編碼以對(duì)特定頻率范圍的節(jié)目的內(nèi)容進(jìn)行編碼,以及如果使用譜擴(kuò)展和/或通道耦合編碼以對(duì)特定頻率范圍的節(jié)目的內(nèi)容進(jìn)行編碼,對(duì)其執(zhí)行譜擴(kuò)展編碼的內(nèi)容的頻率分量的最小頻率和最大頻率,以及對(duì)其執(zhí)行通道耦合編碼的內(nèi)容的頻率分量的最小頻率和最大頻率。該類型的預(yù)處理狀態(tài)元數(shù)據(jù)信息可以有助于執(zhí)行解碼器的均衡(在后處理器中)下游。通道耦合信息和譜擴(kuò)展信息兩者也有助于在代碼轉(zhuǎn)換操作和應(yīng)用期間優(yōu)化質(zhì)量。例如,編碼器可以基于參數(shù)(例如譜擴(kuò)展和通道耦合信息)的狀態(tài)優(yōu)化其行為(包括預(yù)處理步驟例如頭戴式耳機(jī)虛擬、上混合等的自適應(yīng))。而且,編碼器可以基于進(jìn)入的(并且認(rèn)證的)元數(shù)據(jù)的狀態(tài)動(dòng)態(tài)地修改其耦合和譜擴(kuò)展參數(shù)以匹配最佳值和/或?qū)⑵漶詈虾妥V擴(kuò)展參數(shù)修改成最佳值,以及
對(duì)白增強(qiáng)調(diào)整范圍數(shù)據(jù)是否包括在編碼比特流中,以及如果對(duì)白增強(qiáng)調(diào)整范圍數(shù)據(jù)包括在編碼比特流中,在相對(duì)于音頻節(jié)目中的非對(duì)白內(nèi)容的電平調(diào)整對(duì)白內(nèi)容的電平的對(duì)白增強(qiáng)處理(例如,在解碼器的后處理器下游)的執(zhí)行期間可得到的調(diào)整范圍。
在一些實(shí)施方式中,包括在緩存在緩沖器201中的編碼比特流(例如,指示至少一個(gè)音頻節(jié)目的E-AC-3比特流)的幀中的LPSM有效載荷包括下面的格式的LPSM:
報(bào)頭(通常包括標(biāo)識(shí)LPSM有效載荷的開始的同步字,在同步字之后的至少一個(gè)標(biāo)識(shí)值,例如,在下面的表2中指示的LPSM格式版本、長(zhǎng)度、周期、計(jì)數(shù)和子流關(guān)聯(lián)值);以及
在報(bào)頭之后的:
指示相應(yīng)音頻數(shù)據(jù)指示對(duì)白或不指示對(duì)白(例如,相應(yīng)音頻數(shù)據(jù)的哪些通道指示對(duì)白)的至少一個(gè)對(duì)白表示值(例如,表2的參數(shù)“對(duì)白通道”);
指示相應(yīng)音頻內(nèi)容是否符合響度調(diào)整的所指示的集合的至少一個(gè)響度調(diào)整符合值(例如,表2的參數(shù)“響度調(diào)整類型”);
指示已經(jīng)對(duì)相應(yīng)音頻數(shù)據(jù)執(zhí)行的至少一種類型的響度處理的至少一個(gè)響度處理值(例如,表2的參數(shù)“對(duì)白選通響度校正標(biāo)志”、“響度校正類型”中的一個(gè)或更多個(gè));以及
指示相應(yīng)音頻數(shù)據(jù)的至少一個(gè)響度(例如,峰值或平均響度)特性的至少一個(gè)響度值(例如,表2的參數(shù)“ITU相對(duì)選通響度”、“ITU語音選通響度”、“ITU(EBU 3341)短期3s響度”和“真實(shí)峰值”中的一個(gè)或更多個(gè))。
在一些實(shí)現(xiàn)中,分析器205(和/或解碼器級(jí)202)被配置成從比特流的幀的無用位段或“addbsi”字段或輔助數(shù)據(jù)段中提取具有下面的格式的每個(gè)元數(shù)據(jù)段:
元數(shù)據(jù)段報(bào)頭(通常包括標(biāo)識(shí)元數(shù)據(jù)段的開始的同步字,同步字之后的標(biāo)識(shí)值,例如版本、長(zhǎng)度、周期、擴(kuò)展的元素計(jì)數(shù)和子流關(guān)聯(lián)值);以及
在元數(shù)據(jù)段報(bào)頭之后的有助于元數(shù)據(jù)段或相應(yīng)音頻數(shù)據(jù)的元數(shù)據(jù)的至少一個(gè)的解密、認(rèn)證或驗(yàn)證中的至少一種的至少一個(gè)保護(hù)值(例如,表1的HMAC摘要和音頻指紋值);以及
也在元數(shù)據(jù)段報(bào)頭之后的標(biāo)識(shí)每個(gè)下面的元數(shù)據(jù)有效載荷中的元數(shù)據(jù)的類型并且表示每個(gè)這樣的有效載荷的配置(例如,尺寸)的至少一個(gè)方面的元數(shù)據(jù)有效載荷標(biāo)識(shí)(“ID”)值和有效載荷配置值。
每個(gè)元數(shù)據(jù)有效載荷段(優(yōu)選地具有上面指定的格式)在相應(yīng)的元數(shù)據(jù)有效載荷ID值和元數(shù)據(jù)配置值之后。
更一般地,由本發(fā)明的優(yōu)選實(shí)施方式生成的編碼音頻比特流具有提供將元數(shù)據(jù)元素和子元素標(biāo)記為核心的(強(qiáng)制的)或擴(kuò)展的(可選的)元素或子元素的機(jī)制的結(jié)構(gòu)。這使得比特流(包括其元數(shù)據(jù))的數(shù)據(jù)速率能夠擴(kuò)展到大量的應(yīng)用。優(yōu)選的比特流語法的核心的(強(qiáng)制的)元素還應(yīng)當(dāng)能夠用信號(hào)通知與音頻內(nèi)容相關(guān)聯(lián)的擴(kuò)展的(可選的)元素存在于(帶中)和/或遠(yuǎn)程位置(帶外)。
要求核心元素存在于比特流的每個(gè)幀中。核心元素的一些子元素是可選的,并且可以以任何組合存在。不要求擴(kuò)展元素存在于每個(gè)幀中(以限制比特率總開銷)。從而,擴(kuò)展元素可以存在于一些幀中而不存于其他幀中。擴(kuò)展元素的一些子元素是可選的,并且可以以任何組合存在,然而,擴(kuò)展元素的一些子元素可以是強(qiáng)制的(即,如果擴(kuò)展元素存在于比特流的幀中)。
在一類實(shí)施方式中,生成(例如,通過實(shí)現(xiàn)本發(fā)明的音頻處理單元)包括一系列音頻數(shù)據(jù)段和元數(shù)據(jù)段的編碼音頻比特流。音頻數(shù)據(jù)段指示音頻數(shù)據(jù),元數(shù)據(jù)段中的至少一些中的每個(gè)包括PIM和/或SSM(以及可選地至少一種其他類型的元數(shù)據(jù)),并且音頻數(shù)據(jù)段被與元數(shù)據(jù)段時(shí)分復(fù)用。在該類中的優(yōu)選實(shí)施方式中,元數(shù)據(jù)段中的每個(gè)具有在本文中要描述的優(yōu)選的格式。
在一種優(yōu)選的格式中,編碼比特流為AC-3比特流或E-AC-3比特流,并且元數(shù)據(jù)段中的包括SSM和/或PIM的每個(gè)元數(shù)據(jù)段被包括(例如,由編碼器100的優(yōu)選的實(shí)現(xiàn)的級(jí)107)作為比特流的幀的比特流信息(“BSI”)段的“addbsi”字段(圖6所示)、或比特流的幀的輔助數(shù)據(jù)字段中、或比特流的幀的無用位段中的額外的比特流信息。
在優(yōu)選格式中,幀中的每個(gè)包括幀的無用位段(或addbsi字段)中的元數(shù)據(jù)段(在本文中有時(shí)也稱為元數(shù)據(jù)容器或容器)。元數(shù)據(jù)段具有下面表1中所示的強(qiáng)制的元素(統(tǒng)一稱為“核心元素”)(并且可以包括表1中所示的可選元素)。表1中所示的需要的元素中的至少一些被包括在元數(shù)據(jù)段的元數(shù)據(jù)段報(bào)頭中,但一些可以被包括在元數(shù)據(jù)段的其他位置:
表1
在優(yōu)選格式中,包含SSM、PIM或LPSM的每個(gè)元數(shù)據(jù)段(在編碼比特流的幀的無用位段或addbsi或輔助數(shù)據(jù)字段中)包含元數(shù)據(jù)段報(bào)頭(以及可選地額外的核心元素)、以及在元數(shù)據(jù)段報(bào)頭(或元數(shù)據(jù)段報(bào)頭和其他核心元素)之后的一個(gè)或更多個(gè)元數(shù)據(jù)有效載荷。每個(gè)元數(shù)據(jù)有效載荷包括被包括在有效載荷中的元數(shù)據(jù)有效載荷報(bào)頭(指示元數(shù)據(jù)的具體類型(例如,SSM、PIM或LPSM)),之后是具體類型的元數(shù)據(jù)。通常,元數(shù)據(jù)有效載荷報(bào)頭包括下面的值(參數(shù)):
在元數(shù)據(jù)段報(bào)頭(可以包括在表1中指定的值)之后的有效載荷ID(標(biāo)識(shí)元數(shù)據(jù)的類型,例如,SSM、PIM或LPSM);
在有效載荷ID之后的有效載荷配置值(通常指示有效載荷的大小);
以及可選地還包括額外的有效載荷配置值(例如,指示從幀的開始處到有效載荷涉及的第一音頻樣本的音頻樣本的數(shù)量的偏置值,以及有效載荷優(yōu)先權(quán)值,例如,指示其中有效載荷可以被丟棄的條件)。
通常,有效載荷的元數(shù)據(jù)具有下面的格式中的一種:
有效載荷的元數(shù)據(jù)為SSM,包括指示由比特流指示的節(jié)目的獨(dú)立子流的數(shù)量的獨(dú)立子流元數(shù)據(jù);以及從屬子流元數(shù)據(jù),其指示:節(jié)目的每個(gè)獨(dú)立子流是否具有與其相關(guān)聯(lián)的至少一個(gè)從屬子流,以及如果節(jié)目的每個(gè)獨(dú)立子流具有與其相關(guān)聯(lián)的至少一個(gè)從屬子流,與節(jié)目的每個(gè)獨(dú)立子流相關(guān)聯(lián)的從屬子流的數(shù)量;
有效載荷的元數(shù)據(jù)為PIM,包括指示音頻節(jié)目的哪些通道包含音頻信息以及哪些通道(如果有)僅包含靜音(通常關(guān)于幀的持續(xù)時(shí)間)的活動(dòng)通道元數(shù)據(jù);下混合處理狀態(tài)元數(shù)據(jù),其指示節(jié)目是否被下混合(在編碼之前或在編碼期間),以及如果節(jié)目被下混合,被應(yīng)用的下混合的類型;上混合處理狀態(tài)元數(shù)據(jù),其指示在編碼之前或在編碼期間節(jié)目是否被上混合(例如,從較小數(shù)量的通道),以及如果節(jié)目被上混合,被應(yīng)用的上混合的類型;以及預(yù)處理狀態(tài)元數(shù)據(jù),其指示是否(在生成編碼比特流的音頻內(nèi)容的編碼之前)對(duì)幀的音頻數(shù)據(jù)執(zhí)行了預(yù)處理,以及如果對(duì)幀的音頻數(shù)據(jù)執(zhí)行了預(yù)處理,執(zhí)行的預(yù)處理的類型;或
有效載荷的元數(shù)據(jù)為L(zhǎng)PSM,該LPSM具有如下面的表(表2)所指示的格式:
表2
在根據(jù)本發(fā)明而生成的編碼比特流的另一優(yōu)選格式中,比特流為AC-3比特流或E-AC-3比特流,并且元數(shù)據(jù)段中的包括PIM和/或SSM(可選地還包括至少一個(gè)其他類型的元數(shù)據(jù))的每個(gè)元數(shù)據(jù)段(例如,由編碼器100的優(yōu)選實(shí)現(xiàn)的級(jí)107)被包括在下列中的任一個(gè)中:比特流的幀的無用位段;或比特流的幀的比特流信息(“BSI”)段的“addbsi”字段(圖6所示);或比特流的幀的結(jié)束處的輔助數(shù)據(jù)字段(例如,圖4中所示的AUX段)。幀可以包括一個(gè)或兩個(gè)元數(shù)據(jù)段,元數(shù)據(jù)段中的每個(gè)包括PIM和/或SSM,并且(在一些實(shí)施方式中)如果幀包括兩個(gè)元數(shù)據(jù)段,一個(gè)可以存在于幀的addbsi字段中而另一個(gè)存在于幀的AUX字段中。每個(gè)元數(shù)據(jù)段優(yōu)選地具有參照上面的表1在上面所指定的格式(即,包括在表1中所指定的核心元素,在核心元素之后是有效載荷ID值(標(biāo)識(shí)元數(shù)據(jù)段的每個(gè)有效載荷中的元數(shù)據(jù)的類型)和有效載荷配置值,以及每個(gè)元數(shù)據(jù)有效載荷)。包括LPSM的每個(gè)元數(shù)據(jù)段優(yōu)選地具有參照上面的表1和表2在上面所指定的格式(即,包括在表1中所指定的核心元素,在核心元素之后是有效載荷ID(標(biāo)識(shí)元數(shù)據(jù)作為L(zhǎng)PSM)以及有效載荷配置值,之后是有效載荷(具有如表2中所指示的格式的LPSM數(shù)據(jù)))。
在另一優(yōu)選格式中,編碼比特流為杜比E比特流,并且元數(shù)據(jù)段中的包括PIM和/或SSM(可選地還包括其他元數(shù)據(jù))的每個(gè)元數(shù)據(jù)段為杜比E保護(hù)帶間隔的第一N樣本位置。包括這樣的包括LPSM的元數(shù)據(jù)段的杜比E比特流優(yōu)選地包括指示在SMPTE 337M前同步信號(hào)的Pd字中用信號(hào)通知的LPSM有效載荷長(zhǎng)度的值(SMPTE 337M Pa字重復(fù)頻率優(yōu)選地保持與相關(guān)聯(lián)的視頻幀速率相同)。
在優(yōu)選的格式中,其中編碼比特流為E-AC-3比特流,元數(shù)據(jù)段中的包括PIM和/或SSM(可選地還包括LPSM和/或其他元數(shù)據(jù))的每個(gè)元數(shù)據(jù)段(例如,由編碼器100的優(yōu)選實(shí)現(xiàn)的級(jí)107)被包括作為比特流的幀的無用位段或比特流信息(“BSI”)段的“addbsi”字段中的額外的比特流信息。接下來對(duì)以該優(yōu)選的格式使用LPSM對(duì)E-AC-3比特流進(jìn)行編碼的額外的方面進(jìn)行描述:
1.在E-AC-3比特流的生成期間,盡管E-AC-3編碼器(將LPSM值插入待比特流中)是“活動(dòng)的”,對(duì)于每個(gè)生成的幀(同步幀),比特流應(yīng)當(dāng)包括在幀的addbsi字段(或無用位段)中攜帶的元數(shù)據(jù)塊(包括LPSM)。要求攜帶元數(shù)據(jù)塊的比特不應(yīng)當(dāng)增加編碼器比特率(幀長(zhǎng)度);
2.每個(gè)元數(shù)據(jù)塊(包含LPSM)應(yīng)當(dāng)包含下面的信息:
響度校正類型標(biāo)志:其中,“1”指示相應(yīng)的音頻數(shù)據(jù)的響度在編碼器的上游被校正,而“0”指示響度由嵌入在編碼器中的響度校正器(例如,圖2的編碼器100的響度處理器103)校正;
語音通道:指示哪些源通道包含語音(在先前的0.5秒)。如果沒有檢測(cè)到語音,應(yīng)當(dāng)如此指示;
語音響度:指示包括語音(在先前的0.5秒)的每個(gè)相應(yīng)的音頻通道的綜合語音響度;
ITU響度:指示每個(gè)相應(yīng)音頻通道的綜合ITU BS.1770-3響度;以及
增益:解碼器中的逆變的響度復(fù)合增益(以表明可逆性);
3.當(dāng)E-AC-3編碼器(將LPSM值插入到比特流中)是“活動(dòng)的”,并且正在接收具有“信任”標(biāo)志的AC-3幀時(shí),編碼器中的響度控制器(例如,圖2的編碼器100的響度處理器103)應(yīng)當(dāng)被旁路?!靶湃蔚摹痹磳?duì)白歸一化和DRC值應(yīng)當(dāng)被傳遞(例如,由編碼器100的生成器106)至E-AC-3編碼器部件(例如,編碼器100的級(jí)107)。LPSM塊生成繼續(xù),并且響度校正類型標(biāo)志被設(shè)置成“1”。響度控制器旁路序列必須被同步至“信任”標(biāo)志出現(xiàn)的解碼AC-3幀的開始。響度控制器旁路序列應(yīng)當(dāng)被如下實(shí)現(xiàn):校平器量控制跨10個(gè)音頻塊周期(即,53.3毫秒)從值9減少到值0,并且校平器返回結(jié)束計(jì)量器控制被置于旁路模式(該操作應(yīng)當(dāng)導(dǎo)致無縫轉(zhuǎn)換)。調(diào)節(jié)器的術(shù)語“信任的”旁路暗示源比特流的對(duì)白歸一化值還在編碼的輸出端處被重新利用。(例如,若果該“信任的”源比特流具有-30的對(duì)白歸一化值,則編碼器的輸出應(yīng)當(dāng)利用-30用于輸出對(duì)白歸一化值);
4.當(dāng)E-AC-3編碼器(將LPSM值插入到比特流中)是“活動(dòng)的”,并且正在接收不具有“信任”標(biāo)志的AC-3幀時(shí),編碼器中嵌入的響度控制器(例如,圖2的編碼器100的響度處理器103)應(yīng)當(dāng)是活動(dòng)的。LPSM塊生成繼續(xù),并且響度校正類型標(biāo)志被設(shè)置成“0”。響度控制器激活序列應(yīng)當(dāng)被同步至其中“信任”標(biāo)志消失的解碼AC-3幀的開始。響度控制器激活序列應(yīng)當(dāng)被如下實(shí)現(xiàn):校平器量控制跨1個(gè)音頻塊周期(例如,5.3毫秒)從值0增加至值9,并且校平器返回結(jié)束計(jì)量器控制被置于“活動(dòng)的”模式(該操作應(yīng)當(dāng)導(dǎo)致無縫轉(zhuǎn)換,并且包括返回結(jié)束計(jì)量器綜合復(fù)位);以及
5.在編碼期間,圖形用戶接口(GUI)應(yīng)當(dāng)給用戶指示下面的參數(shù):“輸入音頻節(jié)目:[信任的/不信任的]”—該參數(shù)的狀態(tài)基于輸入信號(hào)內(nèi)的“信任”標(biāo)志的存在;以及“實(shí)時(shí)響度校正:[啟用/禁用]”—該參數(shù)的狀態(tài)基于編碼器中嵌入的響度控制器是否是活動(dòng)的。
當(dāng)對(duì)使LSPM(以優(yōu)選的格式)包括在比特流的每個(gè)幀的無用位段或跳過字段段或比特流信息(“BSI”)段的“addbsi”字段中的AC-3或E-AC-3比特流進(jìn)行解碼時(shí),解碼器應(yīng)當(dāng)對(duì)(無用位段或addbsi字段中的)LPSM塊數(shù)據(jù)進(jìn)行分析并且將全部所提取的LPSM值傳遞至圖形用戶接口(GUI)。在每幀刷新所提取的LPSM值的集合。
在根據(jù)本發(fā)明而生成的編碼比特流的另一優(yōu)選格式中,編碼比特流為AC-3比特流或E-AC-3比特流,并且元數(shù)據(jù)段中的包括PIM和/或SSM(可選地還包括LPSM和/或其他元數(shù)據(jù))的每個(gè)元數(shù)據(jù)段(例如,由編碼器100的優(yōu)選的實(shí)現(xiàn)的級(jí)107)被包括在比特流的幀的無用位段或AUX段中或作為比特流信息(“BSI”)段的“addbsi”字段(圖6所示)中的額外的比特流信息。在該格式(為關(guān)于上面參照表1和表2所描述的格式的變型)中,包含LPSM的addbsi(或AUX或無用位)字段中的每個(gè)字段包含下面的LPSM值:
表1中所指定的核心元素,之后是有效載荷ID(標(biāo)識(shí)元數(shù)據(jù)作為L(zhǎng)PSM)和有效載荷值,之后是具有下面的格式(與上面表2中所示的強(qiáng)制元素類似)的有效載荷(LPSM數(shù)據(jù)):
LPSM有效載荷的版本:指示LPSM有效載荷的版本的2位字段;
dialchan:指示包含口語對(duì)白的相應(yīng)音頻數(shù)據(jù)的左、右和/或中央通道的3位字段。dialchan字段的位分配可以如下:指示左通道中存在對(duì)白的位0被存儲(chǔ)在dialchan字段的最高有效位中;而指示中央通道中存在對(duì)白的位2被存儲(chǔ)在dialchan字段的最低有效位中。如果在節(jié)目的前0.5秒期間相應(yīng)通道包含口語對(duì)白,則dialchan字段的每個(gè)位被設(shè)置為“1”;
loudregtyp:指示節(jié)目響度符合哪個(gè)響度調(diào)整標(biāo)準(zhǔn)的4位字段。將“l(fā)oudregtyp”字段設(shè)置為“0000”指示LPSM不指示響度調(diào)整符合。例如,該字段的一個(gè)值(例如,0000)可以指示未指示符合響度調(diào)整標(biāo)準(zhǔn),該字段的另一值(例如,0001)可以指示節(jié)目的音頻數(shù)據(jù)符合ATSC A/85標(biāo)準(zhǔn),并且該字段的另一值(例如,0010)可以指示節(jié)目的音頻數(shù)據(jù)符合EBU R128標(biāo)準(zhǔn)。在該示例中,如果該字段被設(shè)置為除了“0000”之外的任何值,則有效載荷中隨后應(yīng)該是loudcorrdialgat和loudcorrtyp字段;
loudcorrdialgat:指示是否已經(jīng)應(yīng)用對(duì)白選通校正的1位字段。如果已經(jīng)使用對(duì)白選通校正了節(jié)目的響度,則loudcorrdialgat字段的值被設(shè)置為“1”。否則,被設(shè)置為“0”;
loudcorrtyp:指示對(duì)節(jié)目應(yīng)用的響度校正的類型的1位字段。如果已經(jīng)使用無限超前(基于文件的)響度校正處理校正了節(jié)目的響度,則loudcorrtyp字段的值被設(shè)置為“0”。如果已經(jīng)使用實(shí)時(shí)響度測(cè)量和動(dòng)態(tài)范圍控制的組合校正了節(jié)目的響度,則該字段的值被設(shè)置為“1”;
loudrelgate:指示相對(duì)選通節(jié)目響度(ITU)是否存在的1位字段。如果loudrelgate字段被設(shè)置為“1”,則有效載荷中隨后應(yīng)該是7位ituloudrelgat字段;
loudrelgat:指示相對(duì)選通節(jié)目響度(ITU)的7位字段。該字段指示由于正在應(yīng)用的對(duì)白歸一化和動(dòng)態(tài)范圍壓縮(DRC),在沒有任何增益調(diào)整的情況下根據(jù)ITU-R BS.1770-3而測(cè)量的音頻節(jié)目的綜合的響度。0至127的值被解釋為以0.5LKFS步長(zhǎng)的-58LKFS至+5.5LKFS;
loudspchgate:指示語音選通響度數(shù)據(jù)(ITU)是否存在的1位字段。如果loudspchgate字段被設(shè)置為“1”,則效載荷中隨后應(yīng)是7位loudspchgat字段;
loudspchgate:指示語音選通節(jié)目響度的7位字段。該字段指示由于正在應(yīng)用的對(duì)白歸一化和動(dòng)態(tài)范圍壓縮,在沒有任何增益調(diào)整的情況下根據(jù)ITU-R BS.1770-3的公式(2)而測(cè)量的整個(gè)相應(yīng)音頻節(jié)目的綜合響度。0至127的值被解釋為以0.5LKFS步長(zhǎng)的-58LKFS至+5.5LKFS;
loudstrm3e:指示短期(3秒)響度數(shù)據(jù)是否存在的1位字段。如果該字段被設(shè)置為“1”,則有效載荷中隨后應(yīng)是7位loudstrm3s字段;
loudstrm3s:指示由于正在應(yīng)用的對(duì)白歸一化和動(dòng)態(tài)范圍壓縮,在沒有任何增益調(diào)整的情況下根據(jù)ITU-R BS.1771-1而測(cè)量的相應(yīng)音頻節(jié)目的前3秒的未選通響度的7位字段。0至256的值被解釋為以0.5LKFS步長(zhǎng)的-116LKFS至+11.5LKFS;
truepke:指示真實(shí)峰值響度數(shù)據(jù)是否存在的1位字段。如果truepke字段被設(shè)置為“1”,則有效載荷中隨后應(yīng)是8位truepk字段;以及
truepk:指示由于正在應(yīng)用的對(duì)白歸一化和動(dòng)態(tài)范圍壓縮,在沒有任何增益調(diào)整的情況下根據(jù)ITU-R BS.1770-3的附件2而測(cè)量的節(jié)目真實(shí)峰值樣本值的8位字段。0至256的值被解釋為以0.5LKFS步長(zhǎng)的-116LKFS至+11.5LKFS。
在一些實(shí)施方式中,AC-3比特流或E-AC-3比特流的幀的無用位段或輔助數(shù)據(jù)(或“addbsi”)字段中的元數(shù)據(jù)段的核心元素包括元數(shù)據(jù)段報(bào)頭(通常包括標(biāo)識(shí)值,例如,版本),以及在元數(shù)據(jù)段報(bào)頭之后的:指示元數(shù)據(jù)段的元數(shù)據(jù)是否包括指紋數(shù)據(jù)(或其他保護(hù)值)的值、指示(與對(duì)應(yīng)于元數(shù)據(jù)段的元數(shù)據(jù)的音頻數(shù)據(jù)有關(guān)的)外部數(shù)據(jù)是否存在的值、關(guān)于由核心元素標(biāo)識(shí)的每種類型的元數(shù)據(jù)(例如,PIM和/或SSM和/或LPSM和/或一種類型的元數(shù)據(jù))的有效載荷ID值和有效載荷配置值、以及由元數(shù)據(jù)段報(bào)頭(或元數(shù)據(jù)段的其他核心元素)標(biāo)識(shí)的至少一種類型的元數(shù)據(jù)的保護(hù)值。元數(shù)據(jù)段的元數(shù)據(jù)有效載荷在元數(shù)據(jù)段報(bào)頭之后,并且(在有些情況下)嵌套在元數(shù)據(jù)段的核心元素內(nèi)。
本發(fā)明的實(shí)施方式可以以硬件、固件、或軟件、或硬件和軟件的組合(例如,作為可編程邏輯陣列)被實(shí)現(xiàn)。除非另外指明,作為本發(fā)明的部分而被包括在內(nèi)的算法或處理不內(nèi)在涉及任何特定的計(jì)算機(jī)或其他設(shè)備。具體地,各種通用機(jī)器可以利用根據(jù)本文中的教示而編寫的程序而被使用,或可以更加便于構(gòu)造更具體的裝置(例如,集成電路)以執(zhí)行所需要的方法步驟。從而,本發(fā)明可以以在一個(gè)或更多個(gè)可編程計(jì)算機(jī)系統(tǒng)(例如,圖1的元件、或圖2的編碼器100(或編碼器的元件)、或圖3的解碼器(或解碼器的元件)、或圖3的后處理器(或后處理器的元件)中任意一種的實(shí)施)上執(zhí)行的一個(gè)或更多個(gè)計(jì)算機(jī)程序而被實(shí)現(xiàn),每個(gè)可編程計(jì)算機(jī)系統(tǒng)包括至少一個(gè)處理器、至少一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)(包括易失性和非易失性存儲(chǔ)器和/或存儲(chǔ)元件)、至少一個(gè)輸入裝置或端口以及至少一個(gè)輸出裝置或端口。程序代碼被應(yīng)用于輸入數(shù)據(jù)以執(zhí)行本文中所描述的功能并生成輸出信息。輸出信息以已知的方式應(yīng)用于一個(gè)或更多個(gè)輸出裝置。
每個(gè)這樣的程序可以以任何期望的計(jì)算機(jī)語言(包括機(jī)器、匯編或高級(jí)過程的、邏輯的或面向?qū)ο蟮木幊陶Z言)實(shí)現(xiàn)以與計(jì)算機(jī)系統(tǒng)通信。在任何情況下,語言可以是編譯語言或解釋語言。
例如,當(dāng)由計(jì)算機(jī)軟件指令序列實(shí)現(xiàn)時(shí),本發(fā)明的實(shí)施方式的各種功能和步驟可以由在適當(dāng)?shù)臄?shù)字信號(hào)處理硬件中運(yùn)行的多線程軟件指令序列實(shí)現(xiàn),在這種情況下,實(shí)施方式的各種裝置、步驟和功能可以對(duì)應(yīng)于軟件指令的部分。
每個(gè)這樣的計(jì)算機(jī)程序優(yōu)選地存儲(chǔ)在或下載至由通用或?qū)S每删幊逃?jì)算機(jī)可讀的存儲(chǔ)介質(zhì)或裝置(例如,固態(tài)存儲(chǔ)器或介質(zhì)、磁介質(zhì)或光介質(zhì)),當(dāng)存儲(chǔ)介質(zhì)或裝置由計(jì)算機(jī)系統(tǒng)讀取以執(zhí)行本文所描述的過程時(shí),用于配置和操作計(jì)算機(jī)。本發(fā)明的系統(tǒng)還可以被實(shí)現(xiàn)為配置有(例如,存儲(chǔ))計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,這樣配置的存儲(chǔ)介質(zhì)使得計(jì)算機(jī)系統(tǒng)以特定和預(yù)先定義的方式操作以執(zhí)行本文中所描述的功能。
已經(jīng)描述了本發(fā)明的大量的實(shí)施方式。然而,應(yīng)當(dāng)理解的是,在不偏離本發(fā)明的精神和范圍的情況下可以作出各種修改。鑒于上面的教示,本發(fā)明的大量的修改和變型是可能的。應(yīng)當(dāng)理解的是,在所附權(quán)利要求的范圍內(nèi),可以與本文中具體描述的方式不同地實(shí)踐本發(fā)明。
此外,本發(fā)明還包括以下實(shí)施方式:
(1)一種音頻處理單元,包括:
緩沖存儲(chǔ)器;以及
至少一個(gè)處理子系統(tǒng),其耦接至所述緩沖存儲(chǔ)器,其中所述緩沖存儲(chǔ)器存儲(chǔ)編碼音頻比特流的至少一個(gè)幀,所述幀包括在所述幀的至少一個(gè)跳過字段的至少一個(gè)元數(shù)據(jù)段中的節(jié)目信息元數(shù)據(jù)或子流結(jié)構(gòu)元數(shù)據(jù)以及在所述幀的至少一個(gè)其他段中的音頻數(shù)據(jù),其中所述處理子系統(tǒng)被耦接并且被配置成使用所述比特流的元數(shù)據(jù)執(zhí)行所述比特流的生成、所述比特流的解碼或所述比特流的音頻數(shù)據(jù)的自適應(yīng)處理中的至少一種,或使用所述比特流的元數(shù)據(jù)執(zhí)行所述比特流的音頻數(shù)據(jù)或元數(shù)據(jù)中至少之一的認(rèn)證或驗(yàn)證中的至少一種,
其中,所述元數(shù)據(jù)段包括至少一個(gè)元數(shù)據(jù)有效載荷,所述元數(shù)據(jù)有效載荷包括:
報(bào)頭;以及
在所述報(bào)頭之后的,所述節(jié)目信息元數(shù)據(jù)的至少一部分或所述子流結(jié)構(gòu)元數(shù)據(jù)的至少一部分。
(2)根據(jù)(1)所述的音頻處理單元,其中,所述編碼音頻比特流指示至少一個(gè)音頻節(jié)目,并且所述元數(shù)據(jù)段包括節(jié)目信息元數(shù)據(jù)有效載荷,所述節(jié)目信息元數(shù)據(jù)有效載荷包括:
節(jié)目信息元數(shù)據(jù)報(bào)頭;以及
在所述節(jié)目信息元數(shù)據(jù)報(bào)頭之后的,指示所述節(jié)目的音頻內(nèi)容的至少一個(gè)屬性或特性的節(jié)目信息元數(shù)據(jù),所述節(jié)目信息元數(shù)據(jù)包括指示所述節(jié)目的每個(gè)非靜音通道和每個(gè)靜音通道的活動(dòng)通道元數(shù)據(jù)。
(3)根據(jù)(2)所述的音頻處理單元,其中,所述節(jié)目信息元數(shù)據(jù)還包括下列元數(shù)據(jù)中的至少之一:
下混合處理狀態(tài)元數(shù)據(jù),其指示:所述節(jié)目是否是下混合過的,以及在所述節(jié)目是下混合過的情況下應(yīng)用于所述節(jié)目的下混合的類型;
上混合處理狀態(tài)元數(shù)據(jù),其指示:所述節(jié)目是否是上混合過的,以及在所述節(jié)目是上混合過的情況下應(yīng)用于所述節(jié)目的上混合的類型;
預(yù)處理狀態(tài)元數(shù)據(jù),其指示:是否對(duì)所述幀的音頻內(nèi)容執(zhí)行了預(yù)處理,以及在對(duì)所述幀的音頻內(nèi)容執(zhí)行了預(yù)處理的情況下對(duì)所述音頻內(nèi)容執(zhí)行的預(yù)處理的類型;或
譜擴(kuò)展處理或通道耦合元數(shù)據(jù),其指示:是否對(duì)所述節(jié)目應(yīng)用了譜擴(kuò)展處理或通道耦合,以及在對(duì)所述節(jié)目應(yīng)用了譜擴(kuò)展處理或通道耦合的情況下應(yīng)用所述譜擴(kuò)展或通道耦合的頻率范圍。
(4)根據(jù)(1)所述的音頻處理單元,其中,所述編碼音頻比特流指示具有音頻內(nèi)容的至少一個(gè)獨(dú)立子流的至少一個(gè)音頻節(jié)目,而所述元數(shù)據(jù)段包括子流結(jié)構(gòu)元數(shù)據(jù)有效載荷,所述子流結(jié)構(gòu)元數(shù)據(jù)有效載荷包括:
子流結(jié)構(gòu)元數(shù)據(jù)有效載荷報(bào)頭;以及
在所述子流結(jié)構(gòu)元數(shù)據(jù)有效載荷報(bào)頭之后的,指示所述節(jié)目的獨(dú)立子流的數(shù)量的獨(dú)立子流元數(shù)據(jù),以及指示所述節(jié)目的每個(gè)獨(dú)立子流是否具有至少一個(gè)相關(guān)聯(lián)的從屬子流的從屬子流元數(shù)據(jù)。
(5)根據(jù)(1)所述的音頻處理單元,其中,所述元數(shù)據(jù)段包括:
元數(shù)據(jù)段報(bào)頭;
在所述元數(shù)據(jù)段報(bào)頭之后的至少一個(gè)保護(hù)值,其用于所述節(jié)目信息元數(shù)據(jù)、或所述子流結(jié)構(gòu)元數(shù)據(jù)、或與所述節(jié)目信息元數(shù)據(jù)或所述子流結(jié)構(gòu)元數(shù)據(jù)相對(duì)應(yīng)的所述音頻數(shù)據(jù)中至少之一的解密、認(rèn)證或驗(yàn)證中的至少一種;以及
在所述元數(shù)據(jù)段報(bào)頭之后的元數(shù)據(jù)有效載荷標(biāo)識(shí)值和有效載荷配置值,其中所述元數(shù)據(jù)有效載荷在所述元數(shù)據(jù)有效載荷標(biāo)識(shí)值和所述有效載荷配置值之后。
(6)根據(jù)(5)所述的音頻處理單元,其中,所述元數(shù)據(jù)段報(bào)頭包括標(biāo)識(shí)所述元數(shù)據(jù)段的開始的同步字、以及在所述同步字之后的至少一個(gè)標(biāo)識(shí)值,并且所述元數(shù)據(jù)有效載荷的所述報(bào)頭包括至少一個(gè)標(biāo)識(shí)值。
(7)根據(jù)(1)所述的音頻處理單元,其中,所述編碼音頻比特流為AC-3比特流或E-AC-3比特流。
(8)根據(jù)(1)所述的音頻處理單元,其中,所述緩沖存儲(chǔ)器以非暫態(tài)方式存儲(chǔ)所述幀。
(9)根據(jù)(1)所述的音頻處理單元,其中,所述音頻處理單元為編碼器。
(10)根據(jù)(9)所述的音頻處理單元,其中,所述處理子系統(tǒng)包括:
解碼子系統(tǒng),其被配置成接收輸入音頻比特流并且從所述輸入音頻比特流中提取輸入元數(shù)據(jù)和輸入音頻數(shù)據(jù);
自適應(yīng)處理子系統(tǒng),其被耦接并且被配置成使用所述輸入元數(shù)據(jù)對(duì)所述輸入音頻數(shù)據(jù)執(zhí)行自適應(yīng)處理,由此生成經(jīng)處理音頻數(shù)據(jù);以及
編碼子系統(tǒng),其被耦接并且被配置成響應(yīng)于所述經(jīng)處理音頻數(shù)據(jù),包括通過將所述節(jié)目信息元數(shù)據(jù)或所述子流結(jié)構(gòu)元數(shù)據(jù)包括在所述編碼音頻比特流中,來生成所述編碼音頻比特流,并且將所述編碼音頻比特流設(shè)定到所述緩沖存儲(chǔ)器。
(11)根據(jù)(1)所述的音頻處理單元,其中,所述音頻處理單元為解碼器。
(12)根據(jù)(11)所述的音頻處理單元,其中,所述處理子系統(tǒng)為耦接至所述緩沖存儲(chǔ)器并且被配置成從所述編碼音頻比特流中提取所述節(jié)目信息元數(shù)據(jù)或所述子流結(jié)構(gòu)元數(shù)據(jù)的解碼子系統(tǒng)。
(13)根據(jù)(1)所述的音頻處理單元,包括:
子系統(tǒng),其被耦接至所述緩沖存儲(chǔ)器并且被配置成:從所述編碼音頻比特流中提取所述節(jié)目信息元數(shù)據(jù)或所述子流結(jié)構(gòu)元數(shù)據(jù),以及從所述編碼音頻比特流中提取所述音頻數(shù)據(jù);以及
后處理器,其被耦接至所述子系統(tǒng)并且被配置成使用從所述編碼音頻比特流中提取的所述節(jié)目信息元數(shù)據(jù)或所述子流結(jié)構(gòu)元數(shù)據(jù)中至少之一對(duì)所述音頻數(shù)據(jù)執(zhí)行自適應(yīng)處理。
(14)根據(jù)(1)所述的音頻處理單元,其中,所述音頻處理單元為數(shù)字信號(hào)處理器。
(15)根據(jù)(1)所述的音頻處理單元,其中,所述音頻處理單元為預(yù)處理器,所述預(yù)處理器被配置成從所述編碼音頻比特流中提取所述節(jié)目信息元數(shù)據(jù)或所述子流結(jié)構(gòu)元數(shù)據(jù)以及所述音頻數(shù)據(jù),并且使用從所述編碼音頻比特流中提取的所述節(jié)目信息元數(shù)據(jù)或所述子流結(jié)構(gòu)元數(shù)據(jù)中至少之一對(duì)所述音頻數(shù)據(jù)執(zhí)行自適應(yīng)處理。
(16)一種用于對(duì)編碼音頻比特流進(jìn)行解碼的方法,所述方法包括以下步驟:
接收編碼音頻比特流;以及
從所述編碼音頻比特流中提取元數(shù)據(jù)和音頻數(shù)據(jù),其中所述元數(shù)據(jù)是或包括節(jié)目信息元數(shù)據(jù)和子流結(jié)構(gòu)元數(shù)據(jù),
其中,所述編碼音頻比特流包括一系列幀并且指示至少一個(gè)音頻節(jié)目,所述節(jié)目信息元數(shù)據(jù)和所述子流結(jié)構(gòu)元數(shù)據(jù)指示所述節(jié)目,所述幀中的每個(gè)包括至少一個(gè)音頻數(shù)據(jù)段,每個(gè)所述音頻數(shù)據(jù)段包括所述音頻數(shù)據(jù)的至少一部分,所述幀的至少一個(gè)子集中的每個(gè)幀包括元數(shù)據(jù)段,并且每個(gè)所述元數(shù)據(jù)段包括所述節(jié)目信息元數(shù)據(jù)的至少一部分以及所述子流結(jié)構(gòu)元數(shù)據(jù)的至少一部分。
(17)根據(jù)(16)所述的方法,其中,所述元數(shù)據(jù)段包括節(jié)目信息元數(shù)據(jù)有效載荷,所述節(jié)目信息元數(shù)據(jù)有效載荷包括:
節(jié)目信息元數(shù)據(jù)報(bào)頭;以及
在所述節(jié)目信息元數(shù)據(jù)報(bào)頭之后的指示所述節(jié)目的音頻內(nèi)容的至少一個(gè)屬性或特性的節(jié)目信息元數(shù)據(jù),所述節(jié)目信息元數(shù)據(jù)包括指示所述節(jié)目的每個(gè)非靜音通道和每個(gè)靜音通道的活動(dòng)通道元數(shù)據(jù)。
(18)根據(jù)(17)所述的方法,其中,所述節(jié)目信息元數(shù)據(jù)還包括下列元數(shù)據(jù)中的至少之一:
下混合處理狀態(tài)元數(shù)據(jù),其指示:所述節(jié)目是否是下混合過的,以及在所述節(jié)目是下混合過的情況下應(yīng)用于所述節(jié)目的下混合的類型;
上混合處理狀態(tài)元數(shù)據(jù),其指示:所述節(jié)目是否是上混合過的,以及在所述節(jié)目是上混合過的情況下應(yīng)用于所述節(jié)目的上混合的類型;或
預(yù)處理狀態(tài)元數(shù)據(jù),其指示:是否對(duì)所述幀的音頻內(nèi)容執(zhí)行了預(yù)處理,以及在對(duì)所述幀的音頻內(nèi)容執(zhí)行了預(yù)處理的情況下對(duì)所述音頻內(nèi)容執(zhí)行的預(yù)處理的類型。
(19)根據(jù)(16)的方法,其中,所述編碼音頻比特流指示具有音頻內(nèi)容的至少一個(gè)獨(dú)立子流的至少一個(gè)音頻節(jié)目,并且所述元數(shù)據(jù)段包括子流結(jié)構(gòu)元數(shù)據(jù)有效載荷,所述子流結(jié)構(gòu)元數(shù)據(jù)有效載荷包括:
子流結(jié)構(gòu)元數(shù)據(jù)有效載荷報(bào)頭;以及
在所述子流結(jié)構(gòu)元數(shù)據(jù)有效載荷報(bào)頭之后的,指示所述節(jié)目的獨(dú)立子流的數(shù)量的獨(dú)立子流元數(shù)據(jù)以及指示所述節(jié)目的每個(gè)獨(dú)立子流是否具有至少一個(gè)相關(guān)聯(lián)的從屬子流的從屬子流元數(shù)據(jù)。
(20)根據(jù)(16)所述的方法,其中,所述元數(shù)據(jù)段包括:
元數(shù)據(jù)段報(bào)頭;
在所述元數(shù)據(jù)段報(bào)頭之后的至少一個(gè)保護(hù)值,用于所述節(jié)目信息元數(shù)據(jù)或所述子流結(jié)構(gòu)元數(shù)據(jù)或與所述節(jié)目信息元數(shù)據(jù)和所述子流結(jié)構(gòu)元數(shù)據(jù)相對(duì)應(yīng)的所述音頻數(shù)據(jù)中至少之一的解密、認(rèn)證或驗(yàn)證中的至少一種;以及
在所述元數(shù)據(jù)段報(bào)頭之后的,包括所述節(jié)目信息元數(shù)據(jù)的所述至少一部分和所述子流結(jié)構(gòu)元數(shù)據(jù)的所述至少一部分的元數(shù)據(jù)有效載荷。
(21)根據(jù)(16)所述的方法,其中,所述編碼音頻比特流為AC-3比特流或E-AC-3比特流。
(22)根據(jù)(16)所述的方法,還包括步驟:
使用從所述編碼音頻比特流中提取的所述節(jié)目信息元數(shù)據(jù)或所述子流結(jié)構(gòu)元數(shù)據(jù)中至少之一,對(duì)所述音頻數(shù)據(jù)執(zhí)行自適應(yīng)處理。