本申請(qǐng)要求2014年10月1日提交的美國(guó)臨時(shí)專(zhuān)利申請(qǐng)No.62/058,228的優(yōu)先權(quán),該申請(qǐng)由此通過(guò)引用而全文并入。
技術(shù)領(lǐng)域
本文涉及音頻信號(hào)處理。特別地,本文涉及一種用于以帶寬高效的方式傳輸動(dòng)態(tài)范圍控制(DRC)配置文件(profile)的方法和對(duì)應(yīng)系統(tǒng)。
背景技術(shù):
媒體消費(fèi)者設(shè)備的日益普及為用于在這些設(shè)備上回放的媒體內(nèi)容的創(chuàng)作者和分發(fā)者以及這些設(shè)備的設(shè)計(jì)者和制造者創(chuàng)建了新的機(jī)會(huì)和挑戰(zhàn)。許多消費(fèi)者設(shè)備能夠回放范圍廣泛的媒體內(nèi)容類(lèi)型和格式,包括通常與用于HDTV、Blu-ray(藍(lán)光)或DVD的高質(zhì)量、寬帶寬和寬動(dòng)態(tài)范圍音頻內(nèi)容相關(guān)聯(lián)的那些。媒體處理設(shè)備可以用于在它們自己的內(nèi)部聲學(xué)換能器上或在外部換能器(比如耳機(jī)或高質(zhì)量家庭影院系統(tǒng))上回放這種類(lèi)型的音頻內(nèi)容;然而,所有這些回放系統(tǒng)和環(huán)境由于環(huán)境中的噪聲水平變化或者由于回放系統(tǒng)不失真地再現(xiàn)所需聲壓水平的能力有限而對(duì)音頻信號(hào)的動(dòng)態(tài)范圍提出了明顯不同的要求。根據(jù)環(huán)境限制動(dòng)態(tài)范圍是在范圍廣泛的具有不同渲染能力和收聽(tīng)環(huán)境的不同渲染設(shè)備上(即,在范圍廣泛的渲染模式上)提供高質(zhì)量和高可懂度的方法。
本文解決了如下技術(shù)問(wèn)題:為媒體內(nèi)容的創(chuàng)作者和分發(fā)者提供使得能夠在范圍廣泛的具有不同渲染能力的不同渲染設(shè)備上以高質(zhì)量和高可懂度再現(xiàn)音頻信號(hào)的帶寬高效的手段。
技術(shù)實(shí)現(xiàn)要素:
根據(jù)一方面,描述了一種用于生成編碼音頻信號(hào)的方法。編碼音頻信號(hào)包括幀序列。編碼音頻信號(hào)指示用于對(duì)應(yīng)的多個(gè)不同渲染模式的多個(gè)不同的動(dòng)態(tài)范圍控制(DRC)配置文件。所述方法包括將所述多個(gè)DRC配置文件中的不同DRC配置文件子集插入到幀序列的不同幀中,以使幀序列的兩個(gè)或更多個(gè)幀共同包括所述多個(gè)DRC配置文件。
根據(jù)進(jìn)一步的方面,描述了一種用于對(duì)編碼音頻信號(hào)進(jìn)行解碼的方法。編碼音頻信號(hào)包括幀序列。此外,編碼音頻信號(hào)指示用于對(duì)應(yīng)的多個(gè)不同渲染模式的多個(gè)不同的動(dòng)態(tài)范圍控制(DRC)配置文件。多個(gè)DRC配置文件中的不同DRC配置文件子集被包括在所述幀序列的不同幀中,使得所述幀序列中的兩個(gè)或更多個(gè)幀共同包括所述多個(gè)DRC配置文件。該方法包括從多個(gè)不同的渲染模式確定第一渲染模式,并且從幀序列的當(dāng)前幀內(nèi)所包括的DRC配置文件子集確定一個(gè)或多個(gè)DRC配置文件。此外,該方法包括確定所述一個(gè)或多個(gè)DRC配置文件中的至少一個(gè)是否適用于第一渲染模式。另外,該方法包括所述一個(gè)或多個(gè)DRC配置文件都不適用于第一渲染模式,則選擇默認(rèn)DRC配置文件作為當(dāng)前DRC配置文件;其中,默認(rèn)DRC配置文件的定義數(shù)據(jù)在用于對(duì)編碼音頻信號(hào)進(jìn)行解碼的解碼器處是已知的。此外,該方法包括使用當(dāng)前DRC配置文件對(duì)當(dāng)前幀進(jìn)行解碼。
根據(jù)進(jìn)一步的方面,描述了一種包括編碼音頻信號(hào)的位流。編碼音頻信號(hào)包括幀序列。編碼音頻信號(hào)指示用于對(duì)應(yīng)的多個(gè)不同渲染模式的多個(gè)不同的動(dòng)態(tài)范圍控制(DRC)配置文件。多個(gè)DRC配置文件中的不同DRC配置文件子集被包括在幀序列的不同幀中,以使幀序列中的兩個(gè)或更多個(gè)幀共同包括所述多個(gè)DRC配置文件。
根據(jù)另一方面,描述了一種用于生成編碼音頻信號(hào)的編碼器。編碼音頻信號(hào)包括幀序列。編碼音頻信號(hào)指示用于對(duì)應(yīng)的多個(gè)不同渲染模式的多個(gè)不同的動(dòng)態(tài)范圍控制(DRC)配置文件。編碼器被配置為將所述多個(gè)DRC配置文件中的不同DRC配置文件子集插入到幀序列的不同幀中,以使幀序列中的兩個(gè)或更多個(gè)幀共同包括所述多個(gè)DRC配置文件。
根據(jù)進(jìn)一步的方面,描述了一種用于對(duì)編碼音頻信號(hào)進(jìn)行解碼的解碼器。編碼音頻信號(hào)包括幀序列。編碼音頻信號(hào)指示用于對(duì)應(yīng)的多個(gè)不同渲染模式的多個(gè)不同的動(dòng)態(tài)范圍控制(DRC)配置文件。所述多個(gè)DRC配置文件中的不同DRC配置文件子集被包括在幀序列的不同幀中,以使幀序列的兩個(gè)或更多個(gè)幀共同包括所述多個(gè)DRC配置文件。所述解碼器被配置為:從所述多個(gè)不同的渲染模式確定第一渲染模式;從幀序列的當(dāng)前幀內(nèi)所包括的DRC配置文件子集確定一個(gè)或多個(gè)DRC配置文件;確定所述一個(gè)或多個(gè)DRC配置文件中的至少一個(gè)是否適用于第一渲染模式;如果所述一個(gè)或多個(gè)DRC配置文件都不適用于第一渲染模式,則選擇默認(rèn)DRC配置文件作為當(dāng)前DRC配置文件;其中,默認(rèn)DRC配置文件的定義數(shù)據(jù)在解碼器處是已知的;并且使用當(dāng)前DRC配置文件對(duì)當(dāng)前幀進(jìn)行解碼。
根據(jù)進(jìn)一步的方面,描述了一種軟件程序。所述軟件程序可以適于在處理器上執(zhí)行并且適于當(dāng)在處理器上實(shí)施時(shí)執(zhí)行本文中所概述的方法步驟。
根據(jù)另一方面,描述了一種存儲(chǔ)介質(zhì)。所述存儲(chǔ)介質(zhì)可以包括軟件程序,該軟件程序適于在處理器上執(zhí)行并且適于當(dāng)在處理器上實(shí)施時(shí)執(zhí)行本文中所概述的方法步驟。
根據(jù)進(jìn)一步的方面,描述了一種計(jì)算機(jī)程序產(chǎn)品。所述計(jì)算機(jī)程序產(chǎn)品可以包括用于當(dāng)在計(jì)算機(jī)上被執(zhí)行時(shí)執(zhí)行本文中所概述的方法步驟的可執(zhí)行指令。
應(yīng)注意,如本專(zhuān)利申請(qǐng)中所概述的包括其優(yōu)選實(shí)施例的方法和系統(tǒng)可以單獨(dú)使用或者與本文中所公開(kāi)的其他方法和系統(tǒng)組合使用。此外,本專(zhuān)利申請(qǐng)中所概述的方法和系統(tǒng)的所有方面都可以任意組合。特別地,權(quán)利要求的特征可以以任意的方式相互組合。
附圖說(shuō)明
下面以示例性方式參照附圖來(lái)對(duì)本發(fā)明進(jìn)行說(shuō)明,其中
圖1和圖2分別例示說(shuō)明示例音頻解碼器和示例音頻編碼器;
圖3和圖4例示說(shuō)明示例動(dòng)態(tài)范圍壓縮曲線;
圖5例示說(shuō)明示例幀序列;以及
圖6示出用于選擇DRC配置文件的示例方法的流程圖。
具體實(shí)施方式
如上面所指示的,本文件解決了使得音頻內(nèi)容的設(shè)計(jì)者和/或分發(fā)者能夠針對(duì)不同類(lèi)型的渲染模式控制音頻內(nèi)容的質(zhì)量和可懂度的技術(shù)問(wèn)題。示例渲染模式是家庭影院渲染模式,在家庭影院渲染模式中,在安靜的環(huán)境中使用通常允許非常寬的動(dòng)態(tài)范圍的換能器來(lái)回放音頻內(nèi)容。另一個(gè)示例渲染模式是平板模式,在平板模式中,使用例如電視機(jī)的換能器來(lái)回放音頻內(nèi)容,這些換能器通常允許與家庭影院相比縮小的動(dòng)態(tài)范圍。進(jìn)一步的示例渲染模式是便攜式揚(yáng)聲器模式,在便攜式揚(yáng)聲器模式中,使用便攜式電子設(shè)備(比如智能電話)的擴(kuò)音器來(lái)回放音頻內(nèi)容。該渲染模式的動(dòng)態(tài)范圍與以上提及的渲染模式相比通常小,并且環(huán)境往往是有噪聲的。另一個(gè)示例渲染模式是便攜式耳機(jī)模式,在便攜式耳機(jī)模式中,使用結(jié)合便攜式電子設(shè)備的耳機(jī)來(lái)回放音頻內(nèi)容。動(dòng)態(tài)范圍是受限的,但是通常高于便攜式電子設(shè)備的擴(kuò)音器提供的動(dòng)態(tài)范圍。
為了允許不同渲染模式有高質(zhì)量和高可懂度,用于不同渲染模式的不同DRC(動(dòng)態(tài)范圍控制)配置文件可以連同音頻內(nèi)容一起被提供。音頻內(nèi)容可以在幀序列中被傳輸。幀序列可以包括I(即,獨(dú)立)幀,I幀可以獨(dú)立于先前的或后續(xù)的幀被解碼。此外,幀序列可以包括通常表現(xiàn)出關(guān)于前一幀和/或后一幀的相關(guān)性的其他類(lèi)型的幀(例如,P幀和/或B幀)。幀序列中的至少一些幀可以包括用于多個(gè)不同的渲染模式的多個(gè)不同的DRC配置文件。具體地說(shuō),幀序列的I幀可以包括所述多個(gè)DRC配置文件。
通過(guò)將多個(gè)不同的DRC配置文件插入到音頻幀序列中,使得音頻解碼器能夠?yàn)樘囟ㄤ秩灸J竭x擇適當(dāng)?shù)腄RC配置文件。結(jié)果,可以確保被渲染的音頻信號(hào)具有高質(zhì)量(尤其是沒(méi)有由換能器引入的裁剪或失真)和高可懂度。
在下面,描述動(dòng)態(tài)范圍控制的各個(gè)方面。在沒(méi)有定制的動(dòng)態(tài)范圍控制的情況下,輸入音頻信息(例如,PCM采樣、QMF矩陣中的時(shí)間-頻率采樣等)通常在回放設(shè)備處以不適合于回放設(shè)備的特定回放環(huán)境(即,包括設(shè)備的物理和/或機(jī)械回放限制)的響度水平被再現(xiàn),這是因?yàn)榛胤旁O(shè)備的特定回放環(huán)境可能不同于在編碼設(shè)備處已經(jīng)針對(duì)其對(duì)編碼音頻內(nèi)容進(jìn)行編碼的目標(biāo)回放環(huán)境。
如本文中所描述的技術(shù)可以用于支持針對(duì)各種回放環(huán)境中的任何回放環(huán)境被定制的各種音頻內(nèi)容的動(dòng)態(tài)范圍控制,同時(shí)保持音頻內(nèi)容的感知質(zhì)量并且保持藝術(shù)家使該內(nèi)容適應(yīng)不同收聽(tīng)環(huán)境的意圖。
動(dòng)態(tài)范圍控制(DRC)是指隨時(shí)間變化的、與水平相關(guān)的音頻處理操作,該音頻處理操作改變(例如,壓縮、削切(cut)、擴(kuò)展、提升(boost))信號(hào)以便將音頻內(nèi)容中的響度水平的輸入動(dòng)態(tài)范圍轉(zhuǎn)換為不同于輸入動(dòng)態(tài)范圍的輸出動(dòng)態(tài)范圍。例如,在動(dòng)態(tài)范圍控制場(chǎng)景中,柔和的聲音可以被映射(例如,被提升等)到更高的響度水平,響亮的聲音可以被映射(例如,被削切等)到更低的響度水平。結(jié)果,在響度域中,響度水平的輸出范圍在這個(gè)例子中變?yōu)樾∮陧懚人降妮斎敕秶?。在一些?shí)施例中,然而,動(dòng)態(tài)范圍控制可以是可逆的,使得原始范圍被恢復(fù)。例如,可以執(zhí)行擴(kuò)展操作來(lái)恢復(fù)原始范圍,只要輸出動(dòng)態(tài)范圍中的從原始響度水平映射的映射響度水平達(dá)到或低于限幅水平,每個(gè)獨(dú)特的原始響度水平被映射到獨(dú)特的輸出響度水平,等等。
如本文中所描述的DRC技術(shù)可以用于在某些回放環(huán)境或情況下提供更好的收聽(tīng)體驗(yàn)。例如,有噪聲的環(huán)境中的柔和的聲音可能被使該柔和聲音不可聽(tīng)的噪聲掩蔽。相反,響亮的聲音在一些情況下可能是不期望的,例如,打擾鄰居(例如,在“深夜”收聽(tīng)模式內(nèi))。通常具有小形狀因子的擴(kuò)音器的許多設(shè)備不能再現(xiàn)高輸出水平的聲音,或者不能再現(xiàn)沒(méi)有可感知的失真的聲音。在一些情況下,較低信號(hào)電平可能被再現(xiàn)得低于人類(lèi)聽(tīng)覺(jué)閾值。DRC技術(shù)可以基于通過(guò)動(dòng)態(tài)范圍壓縮曲線查找的DRC增益(例如,縮放音頻振幅的縮放因子、提升比率、削切比率等)來(lái)執(zhí)行輸入響度水平到輸出響度水平的映射。
動(dòng)態(tài)范圍壓縮曲線是指如下功能(例如,查找表、曲線、多段分段線等):將從各個(gè)音頻數(shù)據(jù)幀確定的各個(gè)輸入響度水平(例如,除對(duì)話之外的聲音的輸入響度水平,等等)映射到對(duì)應(yīng)的輸出響度水平,結(jié)果映射到各個(gè)增益或用于動(dòng)態(tài)范圍控制的增益,以便將輸入響度水平轉(zhuǎn)化為對(duì)應(yīng)的輸出響度水平。各個(gè)增益中的每一個(gè)指示將應(yīng)用于信號(hào)的用于將對(duì)應(yīng)的單個(gè)輸入響度水平映射到預(yù)期的輸出響度水平的增益量。應(yīng)用各個(gè)增益之后的輸出響度水平表示在特定回放環(huán)境中各個(gè)音頻數(shù)據(jù)幀中的音頻內(nèi)容的目標(biāo)響度水平。
除了指定增益和響度水平之間的映射,動(dòng)態(tài)范圍壓縮曲線還可以包括,或者還可以設(shè)有,應(yīng)用特定增益中的特定釋放時(shí)間(release time)和增高時(shí)間(attack time)。增高是指連續(xù)時(shí)間采樣之間的信號(hào)能量(或響度)的增大,而釋放是指連續(xù)時(shí)間采樣之間的能量(或響度)的降低。增高時(shí)間(例如,10毫秒、20毫秒等)是指當(dāng)對(duì)應(yīng)信號(hào)處于增高模式時(shí)使DRC增益平滑所用的時(shí)間常數(shù)。釋放時(shí)間(例如,80毫秒、100毫秒等)是指當(dāng)對(duì)應(yīng)信號(hào)處于釋放模式時(shí)使DRC增益平滑所用的時(shí)間常數(shù)。在一些實(shí)施例中,附加地、可選地或可替代地,時(shí)間常數(shù)用于在確定DRC增益之前使信號(hào)能量(或響度)平滑。
不同的動(dòng)態(tài)范圍壓縮曲線可以對(duì)應(yīng)于不同的回放環(huán)境(即,不同的渲染模式)。例如,用于平板TV的回放環(huán)境的動(dòng)態(tài)范圍壓縮曲線可以不同于用于便攜式設(shè)備的回放環(huán)境的動(dòng)態(tài)范圍壓縮曲線?;胤旁O(shè)備可以具有兩種或更多種回放環(huán)境。例如,用于具有揚(yáng)聲器的便攜式設(shè)備的第一回放環(huán)境的第一動(dòng)態(tài)范圍壓縮曲線可以不同于用于具有耳麥的相同便攜式設(shè)備的第二回放環(huán)境的第二動(dòng)態(tài)范圍壓縮曲線。
圖1示出了音頻解碼器100的示例組件的框圖。音頻解碼器100包括數(shù)據(jù)提取器104、動(dòng)態(tài)范圍控制器106以及音頻渲染器108。數(shù)據(jù)提取器104被配置為接收編碼輸入信號(hào)102。如本文中所描述的編碼輸入信號(hào)102可以是包含被編碼(例如,壓縮等)的輸入音頻數(shù)據(jù)幀(尤其是音頻幀序列)并且可能還包含元數(shù)據(jù)的位流。該位流可以是AC-4位流。數(shù)據(jù)提取器104被配置為從編碼輸入信號(hào)102提取/解碼輸入音頻數(shù)據(jù)幀和元數(shù)據(jù)。每個(gè)輸入音頻數(shù)據(jù)幀包括多個(gè)編碼音頻數(shù)據(jù)塊,每個(gè)編碼音頻數(shù)據(jù)塊表示多個(gè)音頻采樣。每個(gè)幀表示包括一定數(shù)量的音頻采樣的(例如,恒定)時(shí)間間隔。幀大小可以隨著采樣速率和編碼數(shù)據(jù)速率而變化。音頻采樣是表示一個(gè)、兩個(gè)或更多個(gè)(音頻)頻帶或頻率范圍內(nèi)的量化音頻數(shù)據(jù)元素(例如,輸入PCM采樣、QMF矩陣中的輸入時(shí)間-頻率采樣等)。輸入音頻數(shù)據(jù)幀中的量化音頻數(shù)據(jù)元素可以表示數(shù)字(量化)域中的聲壓波。量化音頻數(shù)據(jù)元素可以涵蓋達(dá)到或低于最大可能值(例如,限幅水平、最大響度水平等)的有限范圍的響度水平。
元數(shù)據(jù)可以被音頻解碼器100用來(lái)對(duì)輸入音頻數(shù)據(jù)幀進(jìn)行處理。元數(shù)據(jù)可以包括與解碼器100將執(zhí)行的一個(gè)或多個(gè)操作相關(guān)的各種操作參數(shù)、一個(gè)或多個(gè)動(dòng)態(tài)范圍壓縮曲線(即,一個(gè)或多個(gè)DRC配置文件)、與輸入音頻數(shù)據(jù)幀中所表示的對(duì)話響度水平相關(guān)的規(guī)范化參數(shù)等。對(duì)話響度水平可以是指整個(gè)節(jié)目(例如,電影、TV節(jié)目、無(wú)線電廣播等)、節(jié)目的一部分、節(jié)目的對(duì)話等中的對(duì)話響度、節(jié)目響度、平均對(duì)話響度等的(例如,心理聲學(xué)、感知等)水平。
解碼器100或一些或全部模塊(例如,數(shù)據(jù)提取器104、動(dòng)態(tài)范圍控制器106等)的操作和功能可以響應(yīng)于從編碼輸入信號(hào)102提取的元數(shù)據(jù)而被改動(dòng)。例如,元數(shù)據(jù)——包括但不限于動(dòng)態(tài)范圍壓縮曲線、對(duì)話響度水平等——可以被解碼器100用來(lái)生成數(shù)字域中的音頻數(shù)據(jù)元素(例如,輸出PCM采樣、QMF矩陣中的輸出時(shí)間-頻率采樣等)。輸出數(shù)據(jù)元素然后可以被用來(lái)驅(qū)動(dòng)音頻通道或揚(yáng)聲器以在特定回放環(huán)境中進(jìn)行回放期間實(shí)現(xiàn)指定響度或參考再現(xiàn)水平。
動(dòng)態(tài)范圍控制器106可以被配置為接收輸入音頻數(shù)據(jù)幀中的音頻數(shù)據(jù)元素中的一些或全部以及元數(shù)據(jù),至少部分基于從編碼音頻信號(hào)102提取的元數(shù)據(jù)對(duì)輸入音頻數(shù)據(jù)幀中的音頻數(shù)據(jù)元素執(zhí)行音頻處理操作(例如,動(dòng)態(tài)范圍控制操作、增益平滑操作、增益限制操作等),等等。
特定地,動(dòng)態(tài)范圍控制器106可以包括選擇器110、響度計(jì)算器112和/或DRC增益單元114。選擇器110可以被配置為確定與解碼器100處的特定回放環(huán)境相關(guān)的揚(yáng)聲器配置(例如,家庭影院模式、平板模式、具有揚(yáng)聲器模式的便攜式設(shè)備、具有耳機(jī)模式的便攜式設(shè)備、5.1揚(yáng)聲器配置模式、7.1揚(yáng)聲器配置模式等)。揚(yáng)聲器配置也可以被稱(chēng)為渲染模式。此外,選擇器110可以被配置為從從編碼輸入信號(hào)102的元數(shù)據(jù)提取的動(dòng)態(tài)范圍壓縮曲線(即,從多個(gè)DRC配置文件)中選擇特定的動(dòng)態(tài)范圍壓縮曲線(即,DRC配置文件)。
響度計(jì)算器112可以被配置為計(jì)算輸入音頻數(shù)據(jù)幀中的音頻數(shù)據(jù)元素所表示的一種或多種類(lèi)型的響度水平。響度水平類(lèi)型的例子包括但不限于以下中的任何一個(gè):各個(gè)時(shí)間間隔上的各個(gè)通道中的各個(gè)頻帶上的各個(gè)響度水平、各個(gè)通道中的寬(或廣)頻率范圍上的寬帶(或廣帶)響度水平、從音頻數(shù)據(jù)塊或幀確定的或在音頻數(shù)據(jù)塊或幀上平滑的響度水平、從多于一個(gè)的音頻數(shù)據(jù)塊或幀確定的或在多于一個(gè)的音頻數(shù)據(jù)塊或幀上平滑的響度水平、在一個(gè)或多個(gè)時(shí)間間隔上平滑的響度水平等。這些響度水平中的零個(gè)、一個(gè)或多個(gè)可以出于解碼器100的動(dòng)態(tài)范圍控制的目的而被改變。
為了確定響度水平,響度計(jì)算器112可以確定輸入音頻數(shù)據(jù)幀中的音頻數(shù)據(jù)元素所表示的一個(gè)或多個(gè)時(shí)間相關(guān)的物理聲波性質(zhì),比如特定音頻頻率處的空間和/或局部壓力水平等。響度計(jì)算器112可以使用該一個(gè)或多個(gè)時(shí)變的物理波性質(zhì)基于對(duì)人類(lèi)響度感知進(jìn)行建模的一個(gè)或多個(gè)心理聲學(xué)函數(shù)來(lái)推導(dǎo)一種或多種類(lèi)型的響度水平。心理聲學(xué)函數(shù)可以是基于人類(lèi)聽(tīng)覺(jué)系統(tǒng)的模型構(gòu)造的非線性函數(shù),該函數(shù)將特定音頻頻率處的特定空間壓力水平轉(zhuǎn)換為/映射到用于這些特定音頻頻率的特定響度。
多個(gè)(音頻)頻率或多個(gè)頻帶上的(例如,寬帶、廣帶等)響度水平可以通過(guò)在所述多個(gè)(音頻)頻率或多個(gè)頻帶上的特定響度水平的整合而得出。可以通過(guò)使用在解碼器100中作為音頻處理操作的一部分實(shí)現(xiàn)的一個(gè)或多個(gè)平滑濾波器來(lái)獲得一個(gè)或多個(gè)時(shí)間間隔(例如,長(zhǎng)于音頻數(shù)據(jù)塊或幀中的音頻數(shù)據(jù)元素所表示的時(shí)間間隔等)上的經(jīng)時(shí)間平均的、平滑的、等等的響度水平。ITU-R BS.1770中指定了用于確定(寬帶)響度水平的另一種示例方法。ITU-R BS.1770中指定的方法對(duì)時(shí)域輸入音頻信號(hào)應(yīng)用時(shí)域?yàn)V波,然后計(jì)算輸入音頻信號(hào)的每個(gè)通道上的RMS(均方根)水平,這是在在通道上進(jìn)行整合并且對(duì)所得的響度水平進(jìn)行門(mén)控之前進(jìn)行的。
可以對(duì)每一具有一定(例如,256個(gè)等)采樣的音頻數(shù)據(jù)塊計(jì)算對(duì)于不同頻帶的特定響度水平。在將特定響度水平整合為寬帶(或廣帶)響度水平中,可以使用預(yù)濾波器來(lái)將頻率加權(quán)(例如,類(lèi)似于IECB-加權(quán)等)應(yīng)用于特定響度水平??梢詧?zhí)行兩個(gè)或更多個(gè)通道(例如,左前、右前、中心、左環(huán)繞、右環(huán)繞等)上的寬響度水平的求和以提供所述兩個(gè)或更多個(gè)通道的總體響度水平。
總體響度水平可以是指揚(yáng)聲器配置的單個(gè)通道(例如,中心等)中的寬帶(廣帶)響度水平??傮w響度水平可以是指多個(gè)通道中的寬帶(或廣帶)響度水平。所述多個(gè)通道可以是(即,用于渲染模式的)揚(yáng)聲器配置中的所有通道。附加地、可選地或可替代地,所述多個(gè)通道可以包括揚(yáng)聲器配置中的通道子集(例如,包括左前、右前和低頻效果(LFE)的通道子集;包括左環(huán)繞和右環(huán)繞的通道子集;以及包括中心的通道子集等)。
(例如,寬帶、廣帶、總體、特定等)響度水平可以用作從所選擇的動(dòng)態(tài)范圍壓縮曲線查找對(duì)應(yīng)的(例如,靜態(tài)的、預(yù)先平滑的、預(yù)先限制的、等等的)DRC增益的輸入。可以首先相對(duì)于得自從編碼音頻信號(hào)102提取的元數(shù)據(jù)的對(duì)話響度水平和/或相對(duì)于渲染模式的輸出參考水平對(duì)將用作查找DRC增益的輸入的響度水平進(jìn)行調(diào)整或規(guī)范化。在編碼音頻信號(hào)102中的音頻內(nèi)容的一部分中所表示的特定空間壓力水平被轉(zhuǎn)換為或映射到編碼音頻信號(hào)102中的音頻內(nèi)容的該部分的特定響度水平之前,可以在非響度域(例如,SPL域等)中對(duì)編碼音頻信號(hào)102中的音頻內(nèi)容的該部分執(zhí)行與調(diào)整對(duì)話響度水平/輸出參考水平相關(guān)的調(diào)整和規(guī)范化。
DRC增益單元114可以被配置有DRC算法,該DRC算法生成增益(例如,用于動(dòng)態(tài)范圍控制、用于增益限制、用于增益平滑等的增益),并且將增益應(yīng)用于輸入音頻數(shù)據(jù)幀中的音頻數(shù)據(jù)元素所表示的一種或多種類(lèi)型的響度水平以實(shí)現(xiàn)特定回放環(huán)境的目標(biāo)響度水平。如本文中所描述的增益(例如,DRC增益等)的應(yīng)用可以在響度域中發(fā)生。舉例來(lái)說(shuō),增益可以基于響度計(jì)算(其可以是在Sone,或僅例如未轉(zhuǎn)換的針對(duì)對(duì)話響度水平被補(bǔ)償?shù)腟PL值中)來(lái)生成,被平滑并且直接應(yīng)用于輸入信號(hào)。如本文中所描述的技術(shù)可以將增益應(yīng)用于響度域中的信號(hào),然后將該信號(hào)從響度域轉(zhuǎn)換回(線性)SPL域,并且通過(guò)在響度域中在增益被應(yīng)用于信號(hào)之前和之后對(duì)信號(hào)進(jìn)行評(píng)估來(lái)計(jì)算將應(yīng)用于信號(hào)的對(duì)應(yīng)增益。比率(或當(dāng)用對(duì)數(shù)dB表示來(lái)表示時(shí)的差值)然后確定用于信號(hào)的對(duì)應(yīng)增益。
DRC算法可以用多個(gè)DRC參數(shù)進(jìn)行操作。DRC參數(shù)包括對(duì)話響度水平,該對(duì)話響度水平已經(jīng)被(如在圖2的上下文下描述的)上游編碼器150計(jì)算并且被嵌入到編碼音頻信號(hào)102中,并且可以由解碼器100從編碼音頻信號(hào)102中的元數(shù)據(jù)獲得。來(lái)自上游編碼器150的對(duì)話響度水平指示平均對(duì)話響度水平(例如,每個(gè)節(jié)目的、相對(duì)于全標(biāo)度的1kHz正弦波的能量的、相對(duì)于參考矩形波的能量的、等等)。從編碼音頻信號(hào)102提取的對(duì)話響度水平可以用于減小節(jié)目間的響度水平差。在解碼器100處在相同的特定回放環(huán)境中,參考對(duì)話響度水平可以在不同節(jié)目之間被設(shè)置為相同的值?;趤?lái)自元數(shù)據(jù)的對(duì)話響度水平,DRC增益單元114可以將對(duì)話響度相關(guān)的增益應(yīng)用于節(jié)目中的每個(gè)音頻數(shù)據(jù)塊,以使在節(jié)目的多個(gè)音頻數(shù)據(jù)塊上被平均的輸出對(duì)話響度水平(或輸出參考水平)被提高/降低到節(jié)目的參考對(duì)話響度水平(例如,預(yù)先配置的、系統(tǒng)默認(rèn)的、用戶可配置的、配置文件相關(guān)的、等等的)。對(duì)話響度水平還可以用于對(duì)DRC算法進(jìn)行校準(zhǔn),尤其是,DRC算法的零帶可以被調(diào)整為對(duì)話響度水平??商娲?,期望的輸出參考水平可以用于在DRC算法被應(yīng)用于已經(jīng)應(yīng)用增益的信號(hào)時(shí)對(duì)DRC算法進(jìn)行校準(zhǔn),以使對(duì)話響度水平變?yōu)榕c期望的輸出參考水平相等。如果語(yǔ)音門(mén)控已經(jīng)被用來(lái)確定對(duì)話規(guī)范(dialnorm)參數(shù),則對(duì)話響度水平可以對(duì)應(yīng)于所謂的對(duì)話規(guī)范參數(shù)。在一些實(shí)施例中,對(duì)話響度水平對(duì)應(yīng)于不是通過(guò)使用語(yǔ)音門(mén)控、而是通過(guò)基于響度水平閾值的門(mén)控確定的對(duì)話規(guī)范參數(shù)。
DRC增益可以用于通過(guò)根據(jù)所選的動(dòng)態(tài)范圍壓縮曲線提升或削切柔和的和/或響亮的聲音中的信號(hào)部分來(lái)解決節(jié)目?jī)?nèi)的響度水平差。這些DRC增益中的一個(gè)或多個(gè)可以通過(guò)DRC算法基于所選的動(dòng)態(tài)范圍壓縮曲線以及從一個(gè)或多個(gè)對(duì)應(yīng)音頻數(shù)據(jù)塊、音頻數(shù)據(jù)幀等的確定的(例如,寬帶、廣帶、總體、特定的、等等)響度水平來(lái)計(jì)算/確定。
用于通過(guò)查找所選的動(dòng)態(tài)范圍壓縮曲線來(lái)確定(例如,靜態(tài)的、預(yù)先平滑的、預(yù)先增益限制的、等等)DRC增益的響度水平可以按短間隔(例如,大約5.3毫秒等)被計(jì)算。人類(lèi)聽(tīng)覺(jué)系統(tǒng)的整合時(shí)間(例如,大約200毫秒等)可以長(zhǎng)得多。可以用考慮了人類(lèi)聽(tīng)覺(jué)系統(tǒng)的長(zhǎng)整合時(shí)間的時(shí)間常數(shù)來(lái)使從所選的動(dòng)態(tài)范圍壓縮曲線獲得的DRC增益平滑。為了實(shí)現(xiàn)響度水平的快速變化(增大或降低)速率,可以使用短時(shí)間常數(shù)來(lái)使響度水平在與短時(shí)間常數(shù)相對(duì)應(yīng)的短時(shí)間間隔內(nèi)變化。相反,為了實(shí)現(xiàn)響度水平的緩慢變化(增大或降低)速率,可以使用長(zhǎng)時(shí)間常數(shù)來(lái)使響度水平在與長(zhǎng)時(shí)間常數(shù)相對(duì)應(yīng)的長(zhǎng)時(shí)間間隔內(nèi)改變。
人類(lèi)聽(tīng)覺(jué)系統(tǒng)可以以不同的整合時(shí)間對(duì)增大的響度水平和降低的響度水平做出反應(yīng)??梢愿鶕?jù)響度水平是將增大、還是將降低來(lái)使用不同的時(shí)間常數(shù)以使從所選的動(dòng)態(tài)范圍壓縮曲線查找的靜態(tài)DRC增益平滑。例如,與人類(lèi)視覺(jué)系統(tǒng)的特性相對(duì)應(yīng)地,增高(響度水平增大)可以用相對(duì)短的時(shí)間常數(shù)(例如,增高時(shí)間等)來(lái)平滑,而釋放(響度水平降低)可以用相對(duì)長(zhǎng)的時(shí)間常數(shù)(例如,釋放時(shí)間等)來(lái)平滑。
用于音頻內(nèi)容的一部分(例如,一個(gè)或多個(gè)音頻數(shù)據(jù)塊、音頻數(shù)據(jù)幀等)的DRC增益可以使用從音頻內(nèi)容的該部分確定的響度水平被計(jì)算得到。可以首先相對(duì)于(例如,關(guān)于、等等)從編碼音頻信號(hào)102提取的元數(shù)據(jù)中的(例如,音頻內(nèi)容是其一部分的節(jié)目中的、等等的)對(duì)話響度水平對(duì)將用于在所選的動(dòng)態(tài)范圍壓縮曲線中查找的響度水平進(jìn)行調(diào)整。
可以針對(duì)解碼器100處的特定回放環(huán)境指定或建立參考對(duì)話響度水平/輸出參考水平(例如,在“線”模式中為-31dBFS,在“RF”模式中為-20dBFS,等等)。附加地、可替代地或可選地,在一些實(shí)施例中,用戶可以被給予對(duì)于在解碼器100處設(shè)置或改變參考對(duì)話響度水平的控制。
DRC增益單元114可以被配置為確定如下這樣的對(duì)話響度相關(guān)增益,該對(duì)話響度相關(guān)增益用于音頻內(nèi)容,以使得從輸入對(duì)話響度水平變?yōu)樽鳛檩敵鰧?duì)話響度水平的參考對(duì)話響度水平。
音頻渲染器108可以被配置為在將基于DRC、增益限制、增益平滑等確定的增益應(yīng)用于從編碼音頻信號(hào)102提取的輸入音頻數(shù)據(jù)之后針對(duì)特定揚(yáng)聲器配置生成(例如,多通道的、等等)通道特定音頻數(shù)據(jù)116。通道特定音頻數(shù)據(jù)116可以用于驅(qū)動(dòng)揚(yáng)聲器配置中所表示的揚(yáng)聲器、耳機(jī)等。
附加地和/或可選地,解碼器100可以被配置為執(zhí)行與輸入音頻信號(hào)相關(guān)的處理、渲染、下混、重采樣等有關(guān)的一個(gè)或多個(gè)其他的操作。
如本文中所描述的技術(shù)可以用于與各種不同的環(huán)繞聲配置(例如,2.0、3.0、4.0、4.1、4.1、5.1、6.1、7.1、7.1、10.2、10-60揚(yáng)聲器配置、60+揚(yáng)聲器配置、對(duì)象信號(hào)或?qū)ο笮盘?hào)的組合等)以及各種不同的渲染環(huán)境配置(例如,影院、公園、歌劇院、音樂(lè)廳、酒吧、家里、禮堂等)相對(duì)應(yīng)的各種揚(yáng)聲器配置。
圖2例示說(shuō)明了示例編碼器150。編碼器150可以包括音頻內(nèi)容接口152、對(duì)話響度分析器154、DRC參考資料庫(kù)156以及音頻信號(hào)編碼器158。編碼器150可以是廣播系統(tǒng)、基于互聯(lián)網(wǎng)的內(nèi)容服務(wù)器、空中網(wǎng)絡(luò)運(yùn)營(yíng)商系統(tǒng)、電影制作系統(tǒng)等的一部分。
音頻內(nèi)容接口152可以被配置為接收音頻內(nèi)容160和音頻內(nèi)容控制輸入162,用于至少基于音頻內(nèi)容160和音頻內(nèi)容控制輸入162中的一些或全部來(lái)生成編碼音頻信號(hào)102。例如,音頻內(nèi)容接口152可以用于從內(nèi)容創(chuàng)作者、內(nèi)容提供者等接收音頻內(nèi)容160和音頻內(nèi)容控制輸入162。
音頻內(nèi)容160可以構(gòu)成僅包括音頻、包括視聽(tīng)等的總媒體數(shù)據(jù)的一些或全部。音頻內(nèi)容160可以包括節(jié)目的部分、節(jié)目、若干節(jié)目、一個(gè)或多個(gè)商業(yè)廣告等的一個(gè)或多個(gè)。
對(duì)話響度分析器154可以被配置為確定/建立音頻內(nèi)容152的一個(gè)或多個(gè)部分(例如,一個(gè)或多個(gè)節(jié)目、一個(gè)或多個(gè)商業(yè)廣告等)的一個(gè)或多個(gè)對(duì)話響度水平。音頻內(nèi)容可以用一組或多組音軌表示。音頻內(nèi)容的對(duì)話音頻內(nèi)容可以在單獨(dú)的音軌中,和/或音頻內(nèi)容的對(duì)話音頻內(nèi)容的至少一部分可以在包括非對(duì)話音頻內(nèi)容的音軌中。
音頻內(nèi)容控制輸入162可以包括以下中的一些或全部:用戶控制輸入、編碼器150外部的系統(tǒng)/設(shè)備提供的控制輸入、來(lái)自內(nèi)容創(chuàng)作者的控制輸入、來(lái)自內(nèi)容提供者的控制輸入等。例如,用戶(比如混音工程師等)可以提供/指定一個(gè)或多個(gè)動(dòng)態(tài)范圍壓縮曲線標(biāo)識(shí)符;這些標(biāo)識(shí)符可以用于從數(shù)據(jù)資料庫(kù)(比如DRC參考資料庫(kù)(156)等)檢索最適合音頻內(nèi)容160的一個(gè)或多個(gè)動(dòng)態(tài)范圍壓縮曲線。
DRC參考資料庫(kù)156可以被配置為存儲(chǔ)DRC參考參數(shù)集等。DRC參考參數(shù)集可以包括一個(gè)或多個(gè)動(dòng)態(tài)范圍壓縮曲線的定義數(shù)據(jù)等。編碼器150可以(例如,并發(fā)地)將多于一個(gè)的動(dòng)態(tài)范圍壓縮曲線編碼到編碼音頻信號(hào)102中。動(dòng)態(tài)范圍壓縮曲線中的零個(gè)、一個(gè)或多個(gè)可以是基于標(biāo)準(zhǔn)的、專(zhuān)有的、定制的、解碼器可修改的、等等。舉例來(lái)說(shuō),圖3和圖4的動(dòng)態(tài)范圍壓縮曲線可以(例如,并發(fā)地)被編碼到編碼音頻信號(hào)102中。
音頻信號(hào)編碼器158可以被配置為:從音頻內(nèi)容接口152接收音頻內(nèi)容,從對(duì)話響度分析器154接收對(duì)話響度水平,從DRC參考資料庫(kù)156檢索一個(gè)或多個(gè)DRC參考參數(shù)集(即,DRC配置文件),將音頻內(nèi)容格式化為音頻數(shù)據(jù)塊/幀,將對(duì)話響度水平、DRC參考參數(shù)集等格式化為元數(shù)據(jù)(例如,元數(shù)據(jù)容器、元數(shù)據(jù)字段、元數(shù)據(jù)結(jié)構(gòu)等),并且將音頻數(shù)據(jù)塊/幀和元數(shù)據(jù)編碼為編碼音頻信號(hào)102。
如本文中所描述的將被編碼為編碼音頻信號(hào)102的音頻內(nèi)容可以以各種方式(比如無(wú)線地、經(jīng)由有線連接、通過(guò)文件、經(jīng)由互聯(lián)網(wǎng)下載等)中的一種或多種、以各種源音頻格式中的一種或多種接收。
如本文中所描述的編碼音頻信號(hào)102可以是(例如,用于音頻廣播、音頻節(jié)目、視聽(tīng)節(jié)目、視聽(tīng)廣播等的)整個(gè)媒體數(shù)據(jù)位流的一部分。媒體數(shù)據(jù)位流可以從服務(wù)器、計(jì)算機(jī)、媒體存儲(chǔ)設(shè)備、媒體數(shù)據(jù)庫(kù)、媒體文件等訪問(wèn)。媒體數(shù)據(jù)位流可以通過(guò)一個(gè)或多個(gè)無(wú)線或有線網(wǎng)絡(luò)鏈路被廣播、發(fā)送或接收。媒體數(shù)據(jù)位流還可以通過(guò)中間介質(zhì)(比如網(wǎng)絡(luò)連接、USB連接、廣域網(wǎng)、局域網(wǎng)、無(wú)線連接、光學(xué)連接、總線、縱橫連接、串行連接等中的一個(gè)或多個(gè))被傳送。
(例如,圖1、圖2)所描述的組件中的任何一個(gè)可以實(shí)現(xiàn)為一個(gè)或多個(gè)過(guò)程和/或一個(gè)或多個(gè)IC電路(例如,ASIC、FPGA等),可以用硬件、軟件或硬件和軟件的組合實(shí)現(xiàn)。
圖3和圖4例示說(shuō)明了可以被解碼器100中的DRC增益單元104用來(lái)從輸入響度水平推導(dǎo)DRC增益的示例動(dòng)態(tài)范圍壓縮曲線。如所例示說(shuō)明的,動(dòng)態(tài)范圍壓縮曲線可以以節(jié)目中的參考響度水平(例如,輸出參考水平)為中心,以便提供適合于特定回放環(huán)境的總增益。下表中示出了動(dòng)態(tài)范圍壓縮曲線的示例定義數(shù)據(jù)(例如,在編碼音頻信號(hào)102的元數(shù)據(jù)中的定義數(shù)據(jù))(例如,包括但不限于以下中的任何一個(gè):提升比率、削切比率、增高時(shí)間、釋放時(shí)間等)。對(duì)于不同的回放環(huán)境(例如,解碼器100處),不同的配置文件(例如,標(biāo)準(zhǔn)影片(film standard)、輕松影片(film light)、標(biāo)準(zhǔn)音樂(lè)(music standard)、輕音樂(lè)(film light)、語(yǔ)音等)可以是不同的:
表1
依照以dBSPL或dBFS計(jì)的響度水平以及與dBSPL相關(guān)的以dB計(jì)的增益描述的一個(gè)或多個(gè)壓縮曲線可以被接收,而DRC增益計(jì)算是用與dBSPL響度水平具有非線性關(guān)系的不同響度表示(例如,Sone)執(zhí)行的。DRC增益計(jì)算中所用的壓縮曲線然后可以被轉(zhuǎn)換以用不同的響度表示(例如,Sone)來(lái)描述。
圖5例示說(shuō)明了包括幀序列(被編號(hào)為n+1直到n+30,其中n為整數(shù))的示例編碼音頻信號(hào)102。在例示說(shuō)明的例子中,每第5幀是I幀。在例示說(shuō)明的例子中,I幀(n+1)包括多個(gè)DRC配置文件(其被標(biāo)識(shí)為用于家庭影院、平板、便攜式HP(耳機(jī))和便攜式SP(揚(yáng)聲器)的AVR(音頻/視頻接收器))。每個(gè)DRC配置文件包括如圖3和圖4所示的動(dòng)態(tài)范圍壓縮曲線。
所述多個(gè)DRC配置文件可以被重復(fù)地插入幀序列的I幀中。這使得解碼器100可以在編碼音頻信號(hào)102啟動(dòng)時(shí)、在調(diào)諧到運(yùn)行音頻節(jié)目中和/或隨后拼接點(diǎn)之后時(shí)確定適合于編碼音頻信號(hào)102和當(dāng)前渲染模式的DRC配置文件。另一方面,DRC配置文件的全集的重復(fù)傳輸導(dǎo)致位流開(kāi)銷(xiāo)相對(duì)較高。鑒于此,提出了在編碼音頻信號(hào)102的I幀內(nèi)傳輸變化的DRC配置文件子集。
圖5例示說(shuō)明了用于將DRC配置文件插入在幀序列內(nèi)的例子。在例示說(shuō)明的例子中,只有DRC配置文件的全集中的單個(gè)DRC配置文件被插入到I幀中。插入到I幀中的DRC配置文件在I幀之間變化,并且結(jié)果,在N個(gè)I幀(在例示說(shuō)明的例子中,N=4)之后,解碼器100已經(jīng)接收到N個(gè)DRC配置文件的全集。通過(guò)這樣做,可以降低用于傳輸DRC配置文件的的全集的數(shù)據(jù)速率,同時(shí)確保解碼器100在合理的時(shí)間量?jī)?nèi)接收到DRC配置文件的全集。
圖6a和圖6b示出了用于確定用于對(duì)編碼音頻信號(hào)102的幀進(jìn)行解碼的DRC配置文件的示例方法600的流程圖。方法600可以由解碼器100(尤其是由選擇器110)執(zhí)行。當(dāng)開(kāi)始接收編碼音頻信號(hào)102時(shí),可以對(duì)解碼器100所用的DRC配置文件進(jìn)行初始化。用于對(duì)編碼音頻信號(hào)102的當(dāng)前幀進(jìn)行解碼的DRC配置文件可以被稱(chēng)為當(dāng)前DRC配置文件。因此,當(dāng)啟動(dòng)時(shí),可以對(duì)當(dāng)前DRC配置文件進(jìn)行初始化。特別地,默認(rèn)DRC配置文件(其在解碼器100處是可用的)可以被設(shè)置為用于對(duì)當(dāng)前幀進(jìn)行渲染的當(dāng)前DRC配置文件(方法步驟601)。因此,變量“profile”可以被設(shè)置為默認(rèn)DRC配置文件(profile=Default DRC Profile)。此外,解碼器100可以跟蹤先前使用的配置文件。先前使用的配置文件可以被設(shè)置為未定義的(prev_profile=undefined)。
方法600可以進(jìn)一步包括從編碼音頻信號(hào)102取得將被解碼的新幀(即,當(dāng)前幀)的步驟602。在步驟603中,驗(yàn)證新幀是否是可以包括DRC配置文件的I幀。如果新幀不是I幀,則方法600繼續(xù)進(jìn)行步驟604,并且使用當(dāng)前DRC配置文件對(duì)新幀進(jìn)行處理。此外,在方法步驟605中,將先前使用的配置文件設(shè)置為當(dāng)前DRC配置文件(prev_profile=profile)。
如果新幀是I幀,則可以在方法步驟606中檢查I幀是否包括DRC數(shù)據(jù)。舉例來(lái)說(shuō),I幀的元數(shù)據(jù)可以包括指示I幀是否包括DRC數(shù)據(jù)的標(biāo)志。如果DRC數(shù)據(jù)不存在,則方法300可以繼續(xù)進(jìn)行步驟604、605。否則,該方法可以繼續(xù)進(jìn)行方法步驟607。
在方法步驟607中,可以驗(yàn)證新幀是否是將被解碼的編碼音頻信號(hào)102的第一幀。從圖6a和圖6b的流程圖可以看出,這可以通過(guò)檢查prev_profile變量來(lái)進(jìn)行驗(yàn)證。如果prev_profile變量是未定義的,則新幀是將被解碼的第一幀。如果新幀是將被解碼的第一幀,則解碼器100可以使用除默認(rèn)DRC配置文件之外的預(yù)定義DRC配置文件。為此,新幀的元數(shù)據(jù)可以包括用于這樣的預(yù)定義DRC配置文件的標(biāo)識(shí)符(ID)。這樣的預(yù)定義DRC配置文件可以被存儲(chǔ)在解碼器100處的數(shù)據(jù)庫(kù)內(nèi)。預(yù)定義DRC配置文件的使用可以提供用于向解碼器100發(fā)信號(hào)通知待使用DRC配置文件的位率高效的手段,因?yàn)橹挥蓄A(yù)定義配置文件的ID需要被傳輸(方法步驟608)。使用ID發(fā)信號(hào)通知的預(yù)定義DRC配置文件也可以被稱(chēng)為隱式(implicit)DRC配置文件。
應(yīng)注意,在一些情況下,可能有益的是僅使用除默認(rèn)DRC配置文件之外的一個(gè)預(yù)定義DRC配置文件。在此類(lèi)情況下,解碼器100可以被配置為將profile變量設(shè)置為預(yù)定義(即,隱式)DRC配置文件,而不接收新幀的元數(shù)據(jù)內(nèi)的任何ID。
方法600可以進(jìn)一步包括驗(yàn)證新幀的元數(shù)據(jù)是否包括一個(gè)或多個(gè)顯式(explicit)DRC配置文件(步驟609)。顯式DRC配置文件可以包括用于標(biāo)識(shí)顯式DRC配置文件的ID。此外,顯式DRC配置文件通常包括如圖3和圖4所示的動(dòng)態(tài)范圍壓縮曲線的定義數(shù)據(jù)。動(dòng)態(tài)范圍壓縮曲線可以被定義為分段線性函數(shù)。此外,顯式DRC配置文件可以指示顯式DRC配置文件適用的輸出參考水平(ORL)的范圍。舉例來(lái)說(shuō),默認(rèn)DRC配置文件和/或預(yù)定義(隱式)DRC配置文件可以適用于從-31dB FS直到0dB FS的范圍內(nèi)的輸出參考水平。
渲染設(shè)備的ORL可以指示渲染設(shè)備的動(dòng)態(tài)范圍能力。通常,動(dòng)態(tài)范圍能力隨著ORL增大而降低。在ORL高的情況下,應(yīng)使用壓縮程度高的壓縮曲線,以便在不剪裁的情況下以可懂的方式來(lái)渲染音頻信號(hào)。另一方面,在ORL低的情況下,壓縮可被減小以便以高動(dòng)態(tài)范圍來(lái)渲染音頻信號(hào)。由于渲染設(shè)備的動(dòng)態(tài)范圍能力高,音頻信號(hào)的可懂度仍可以得到保證。
如果新幀的元數(shù)據(jù)包括至少一個(gè)顯式DRC配置文件,則讀取第一DRC配置文件的配置文件數(shù)據(jù)(步驟610)。此外,驗(yàn)證第一DRC配置文件的ORL的范圍是否適用于當(dāng)前使用的渲染設(shè)備(步驟611)。如果情況并非如此,則方法600繼續(xù)在新幀的元數(shù)據(jù)內(nèi)查找另一個(gè)顯式DRC配置文件。另一方面,如果顯式DRC配置文件適用于渲染設(shè)備,則可以將該顯式DRC配置文件設(shè)置為將用于對(duì)新幀進(jìn)行處理的當(dāng)前DRC配置文件(步驟614)。
方法600可以進(jìn)一步包括驗(yàn)證耳機(jī)渲染模式是否被使用以及顯式DRC配置文件是否適用于耳機(jī)渲染模式(步驟612)。另外,方法600可以包括驗(yàn)證顯式DRC配置文件與先前使用的配置文件相比是否是更新的配置文件(步驟613)。為此,可以將顯式DRC配置文件的ID與當(dāng)前使用的配置文件的ID進(jìn)行比較。通過(guò)這樣做,可以確保解碼器100總是使用最近的DRC配置文件。
使用方法600,可以確保即使解碼器100尚未接收到用于當(dāng)前渲染模式(即,用于當(dāng)前渲染設(shè)備)的DRC配置文件,解碼器100也總能識(shí)別用于對(duì)編碼音頻信號(hào)102的幀進(jìn)行渲染的DRC配置文件。此外,確保解碼器100一接收到對(duì)應(yīng)的DRC配置文件,就應(yīng)用用于當(dāng)前渲染模式的DRC配置文件。
因此,描述了用于對(duì)編碼音頻信號(hào)102進(jìn)行解碼的方法600。編碼音頻信號(hào)102包括幀序列。此外,編碼音頻信號(hào)102指示用于對(duì)應(yīng)的多個(gè)不同渲染模式的多個(gè)不同的動(dòng)態(tài)范圍控制(DRC)配置文件。針對(duì)不同渲染模式(或不同再現(xiàn)環(huán)境)的例子是用在家庭影院渲染模式中的第一DRC配置文件;用在平板渲染模式中的第二DRC配置文件;用在便攜式設(shè)備擴(kuò)音器渲染模式中的第三DRC配置文件;和/或用在耳機(jī)渲染模式中的第四DRC配置文件。DRC配置文件定義了特定的DRC行為。DRC行為可以用壓縮曲線(和時(shí)間常數(shù))和/或用DRC增益來(lái)描述。DRC增益可以是可應(yīng)用于編碼音頻信號(hào)102以部署DRC的時(shí)間等距增益。壓縮曲線可以伴隨有時(shí)間常數(shù),它們共同配置了DRC算法。DRC通常降低響亮的聲音的音量,并且放大安靜的聲音,從而壓縮音頻信號(hào)的動(dòng)態(tài)范圍以用于改進(jìn)不理想的再現(xiàn)環(huán)境中的體驗(yàn)。
幀序列通常包括形成音頻信號(hào)的多個(gè)連續(xù)的幀。音頻節(jié)目(例如,廣播TV或無(wú)線電節(jié)目)可以包括在拼接點(diǎn)處連結(jié)的多個(gè)音頻信號(hào)。舉例來(lái)說(shuō),主要音頻節(jié)目可以被廣告時(shí)間以重復(fù)的方式中斷。幀序列可以對(duì)應(yīng)于整個(gè)音頻節(jié)目。可替代地,幀序列可以對(duì)應(yīng)于形成整個(gè)音頻節(jié)目的多個(gè)音頻信號(hào)中的一個(gè)。
所述多個(gè)DRC配置文件中的不同DRC配置文件子集可以被包括在幀序列的不同幀內(nèi),以使幀序列的兩個(gè)或更多個(gè)幀共同(jointly)包括所述多個(gè)DRC配置文件。如上面所指示的,DRC配置文件在幀序列的多個(gè)幀上的分布導(dǎo)致用于用信號(hào)通知所述多個(gè)DRC配置文件的位流開(kāi)銷(xiāo)降低。
方法600可以包括從多個(gè)不同渲染模式確定第一渲染模式。特別地,可以確定哪個(gè)渲染模式被用于對(duì)編碼音頻信號(hào)102進(jìn)行渲染。此外,方法600可以包括從幀序列的當(dāng)前幀內(nèi)所包括的多個(gè)DRC配置文件確定609、610一個(gè)或多個(gè)DRC配置文件。換句話說(shuō),可以確定當(dāng)前幀內(nèi)所包括的DRC配置文件子集中的一個(gè)或多個(gè)DRC配置文件。另外,可以確定611該一個(gè)或多個(gè)DRC配置文件中的至少一個(gè)是否適用于第一渲染模式。確定611該一個(gè)或多個(gè)DRC配置文件中的至少一個(gè)是否適用于第一渲染模式可以包括:確定用于第一渲染模式的第一輸出參考水平,確定該一個(gè)或多個(gè)DRC配置文件中的DRC配置文件適用的輸出參考水平的范圍,并且確定第一輸出參考水平是否落在輸出參考水平范圍內(nèi)。
方法600可以進(jìn)一步包括:如果該一個(gè)或多個(gè)DRC配置文件都不適用于第一渲染模式,則選擇604默認(rèn)DRC配置文件作為當(dāng)前DRC配置文件。默認(rèn)DRC配置文件的定義數(shù)據(jù)在用于對(duì)編碼音頻信號(hào)102進(jìn)行解碼的解碼器100處通常是已知的。另外,方法600可以包括使用當(dāng)前DRC配置文件對(duì)當(dāng)前幀進(jìn)行解碼(和/或渲染)。因此,可以確保即使解碼器100尚未接收到特定于編碼音頻信號(hào)102的DRC配置文件,解碼器100也能使用DRC配置文件(以及動(dòng)態(tài)范圍壓縮曲線)。
可替代地或附加地,方法600可以包括:如果該一個(gè)或多個(gè)DRC配置文件中的第一DRC配置文件被確定為適用于第一渲染模式,則選擇604該第一DRC配置文件作為當(dāng)前DRC配置文件。其結(jié)果是,解碼器100被配置為解碼器100一接收到第一DRC配置文件,就使用對(duì)于編碼音頻信號(hào)102和對(duì)于第一渲染模式最優(yōu)的第一DRC配置文件。
方法600可以進(jìn)一步包括確定603、606幀序列的當(dāng)前幀是否包括該多個(gè)DRC配置文件中的一個(gè)或多個(gè)DRC配置文件,即,當(dāng)前幀是否包括DRC配置文件子集。如在圖5的上下文中所概述的,DRC配置文件子集通常被包括在幀序列的I幀內(nèi)。因此,確定603、606當(dāng)前幀是否包括該多個(gè)DRC配置文件中的一個(gè)或多個(gè)DRC配置文件或當(dāng)前幀是否包括DRC配置文件子集可以包括確定603當(dāng)前幀是否是I幀。如上面所指示的,I幀可以是可獨(dú)立于幀序列中的任何其他幀被解碼的幀。這可能是由于這樣的I幀中所包括的數(shù)據(jù)以與來(lái)自前面的幀或后續(xù)的幀的數(shù)據(jù)無(wú)關(guān)的方式被傳輸這一事實(shí)而導(dǎo)致的。特別地,I幀內(nèi)所包括的數(shù)據(jù)的編碼相對(duì)于前一幀或后一幀內(nèi)所包括的數(shù)據(jù)來(lái)說(shuō)是沒(méi)有區(qū)別的。
此外,確定603、606當(dāng)前幀是否包括所述多個(gè)DRC配置文件中的一個(gè)或多個(gè)DRC配置文件或當(dāng)前幀是否包括DRC配置文件子集可以包括驗(yàn)證606當(dāng)前幀內(nèi)所包括的DRC配置文件標(biāo)志。編碼音頻信號(hào)的位流內(nèi)的DRC配置文件提供了用于識(shí)別攜帶DRC配置文件的幀的帶寬和計(jì)算高效的手段。
方法600可以進(jìn)一步包括確定當(dāng)前幀是否指示多個(gè)隱式DRC配置文件中的一個(gè)隱式DRC配置文件。隱式DRC配置文件可以包括可以用于轉(zhuǎn)碼為E-AC-3的預(yù)定義老式壓縮曲線和時(shí)間常數(shù)。如上面所指示的,隱式DRC配置文件的定義數(shù)據(jù)在用于對(duì)輸入音頻信號(hào)102進(jìn)行解碼的解碼器100處可以是已知的。與默認(rèn)DRC配置文件相反,隱式DRC配置文件可以是特定于(如例如表1中指定的)不同類(lèi)型的音頻信號(hào)的。幀序列的當(dāng)前幀可以指示特定的隱式DRC配置文件(例如,通過(guò)使用標(biāo)識(shí)符,ID)。這可以提供用于用信號(hào)通知適合于編碼音頻信號(hào)102的DRC配置文件的帶寬高效的手段。如果確定當(dāng)前幀指示隱式DRC配置文件,則可以選擇608隱式DRC配置文件作為當(dāng)前DRC配置文件。
當(dāng)前幀的解碼可以包括使幀序列的水平等于第一渲染模式的第一輸出參考水平。此外,當(dāng)前幀的解碼可以包括使用當(dāng)前DRC配置文件內(nèi)指定的動(dòng)態(tài)范圍壓縮曲線來(lái)改動(dòng)當(dāng)前幀的響度水平。響度水平的改動(dòng)可以如在圖1的上下文中概述的那樣執(zhí)行。
根據(jù)幀序列中的幀數(shù),當(dāng)前DRC配置文件可以對(duì)應(yīng)于默認(rèn)DRC配置文件(其通常獨(dú)立于輸入音頻信號(hào)102)、對(duì)應(yīng)于隱式DRC配置文件(其可以被以有限的方式改動(dòng)以適應(yīng)輸入音頻信號(hào)102)或?qū)?yīng)于第一顯式DRC配置文件(其可能已經(jīng)被設(shè)計(jì)用于輸入音頻信號(hào)102和/或第一渲染模式)。
通常,只有幀子集包括DRC配置文件。一旦當(dāng)前DRC配置文件已經(jīng)被選擇,就可以保持當(dāng)前DRC配置文件用于對(duì)幀序列的不包括任何DRC配置文件的幀進(jìn)行解碼。此外,即使當(dāng)接收到具有DRC配置文件的幀時(shí),也可以保持當(dāng)前DRC配置文件,只要沒(méi)有比當(dāng)前DRC配置文件更新的和/或與編碼音頻信號(hào)102相關(guān)性更高的DRC配置文件被接收到(其中,所選的第一顯式DRC配置文件具有比所選的隱式DRC配置文件更高的相關(guān)性,該隱式DRC配置文件具有比默認(rèn)DRC配置文件更高的相關(guān)性)即可。通過(guò)這樣做,可以確保所用DRC配置文件的連續(xù)性和最優(yōu)性。
與用于對(duì)編碼音頻信號(hào)102進(jìn)行解碼的方法600互補(bǔ)地,描述了用于生成編碼音頻信號(hào)102或?qū)幋a音頻信號(hào)102進(jìn)行編碼的方法。編碼音頻信號(hào)102包括幀序列。此外,編碼音頻信號(hào)102指示用于對(duì)應(yīng)的多個(gè)不同渲染模式的多個(gè)不同的動(dòng)態(tài)范圍控制(DRC)配置文件。所述方法可以包括將所述多個(gè)DRC配置文件中的不同DRC配置文件子集插入到幀序列的不同幀中,以使幀序列的兩個(gè)或更多個(gè)幀共同包括所述多個(gè)DRC配置文件。換句話說(shuō),具有少于DRC配置文件總數(shù)的DRC配置文件的DRC配置文件子集可以連同幀序列的不同幀一起被提供。通過(guò)這樣做,可以減少編碼音頻信號(hào)102的開(kāi)銷(xiāo),同時(shí)將DRC配置文件的全集提供給對(duì)應(yīng)的解碼器100。換句話說(shuō),該方法的優(yōu)點(diǎn)是,編碼器150傳輸DRC的數(shù)據(jù)的自由度提高。該自由度可以用于降低位率。
幀序列可以包括I幀子序列(例如,幀序列的每第X幀可以是I幀)。不同DRC配置文件子集可以被插入到I幀子序列的不同的(例如,連續(xù)的)I幀中。為了進(jìn)一步減小帶寬,可以跳過(guò)I幀,即,I幀中的一些可以不包括任何DRC配置文件數(shù)據(jù)。
(例如,每個(gè))DRC配置文件子集可以僅包括一個(gè)DRC配置文件。特別地,多個(gè)DRC配置文件可以包括N個(gè)DRC配置文件,其中N是整數(shù),N>1。N個(gè)DRC配置文件可以被插入到幀序列中的N個(gè)不同幀中。通過(guò)這樣做,可以使傳輸DRC配置文件所需的位率最小。
所述方法可以進(jìn)一步包括將多個(gè)DRC配置文件全都插入到幀序列的第一幀(例如,音頻信號(hào)的幀序列的第一幀)中。其結(jié)果是,可以直接用正確的顯式DRC配置文件來(lái)開(kāi)始編碼音頻信號(hào)102的渲染。如上面所指示的,音頻節(jié)目可以細(xì)分為多個(gè)子音頻節(jié)目,例如,被廣告時(shí)間中斷的主要音頻節(jié)目。可能有益的是將多個(gè)DRC配置文件全都插入到每個(gè)子音頻節(jié)目的第一幀中。換句話說(shuō),可能有益的是直接在包括多個(gè)子音頻節(jié)目的音頻節(jié)目的一個(gè)或多個(gè)拼接點(diǎn)之后插入全部多個(gè)DRC配置文件。
多個(gè)DRC配置文件中的不同DRC配置文件子集可以被插入到幀序列的不同幀中,以使幀序列中的M個(gè)直接相連的幀的每個(gè)子序列共同構(gòu)成所述多個(gè)DRC配置文件,其中M是整數(shù),M>1。換句話說(shuō),多個(gè)DRC配置文件可以在M個(gè)幀的塊內(nèi)重復(fù)傳輸。其結(jié)果是,解碼器100在獲得用于編碼音頻信號(hào)102的最優(yōu)顯式DRC配置文件之前必須等待最多M個(gè)幀。
所述方法可以進(jìn)一步包括將標(biāo)志插入到幀序列的幀中,其中,該標(biāo)志指示該幀是否包括DRC配置文件。提供此類(lèi)標(biāo)志使得對(duì)應(yīng)的解碼器100能夠高效地識(shí)別包括DRC配置文件數(shù)據(jù)的幀。
多個(gè)DRC配置文件的DRC配置文件可以是包括(即,攜帶)用于定義動(dòng)態(tài)范圍壓縮曲線的定義數(shù)據(jù)的顯式DRC配置文件。如本文件中所概述的,動(dòng)態(tài)范圍壓縮曲線提供了輸入響度和輸出響度之間的映射和/或?qū)?yīng)用于音頻信號(hào)的增益。具體地說(shuō),定義數(shù)據(jù)可以包括以下中的一個(gè)或多個(gè):提升增益,其用于提升輸入響度;提升增益范圍,其指示提升增益適用的輸入響度的范圍;零帶范圍,其指示增益0dB適用的輸入響度的范圍;削切增益,其用于使輸入響度衰減;削切增益范圍,其指示削切增益適用的輸入響度的范圍;提升增益比率,其指示零增益和提升增益之間的轉(zhuǎn)變;和/或削切增益比率,其指示零增益和削切增益之間的轉(zhuǎn)變。
所述方法可以進(jìn)一步包括插入隱式DRC配置文件的指示(例如,標(biāo)識(shí)符,ID),其中,隱式DRC配置文件的定義數(shù)據(jù)通常對(duì)于編碼音頻信號(hào)102的解碼器100是已知的。隱式DRC配置文件的指示可以提供用于用信號(hào)通知被(以有限的方式)改動(dòng)以適應(yīng)編碼音頻信號(hào)102的DRC配置文件的帶寬高效的手段。
如上面所概述的,幀序列的幀通常包括音頻數(shù)據(jù)和元數(shù)據(jù)。DRC配置文件子集通常被作為元數(shù)據(jù)插入。
DRC配置文件可以包括用于定義DRC配置文件適用的輸出參考水平的范圍的定義數(shù)據(jù)。輸出參考水平通常指示渲染模式的動(dòng)態(tài)范圍。特別地,渲染模式的動(dòng)態(tài)范圍可以隨著輸出參考水平增大而縮小,反之亦然。此外,DRC配置文件的動(dòng)態(tài)范圍壓縮曲線的最大提升增益和最大削切增益可以隨著輸出參考水平增大而增大,反之亦然。因此,輸出參考水平提供了用于對(duì)于特定渲染模式選擇適當(dāng)?shù)腄RC配置文件(具有適當(dāng)?shù)膭?dòng)態(tài)范圍壓縮曲線)的高效手段。
所述方法可以進(jìn)一步包括生成包括編碼音頻信號(hào)102的位流。該位流可以是AC4位流,即,該位流可以與AC4位流格式兼容。
所述方法可以進(jìn)一步包括將用于編碼音頻信號(hào)102的顯式DRC增益插入到幀序列的幀中。特別地,適用于幀序列的特定幀的DRC增益可以被插入到該特定幀中。因此,幀序列的每個(gè)幀可以包括DRC數(shù)據(jù)分量,該DRC數(shù)據(jù)分量包括將應(yīng)用于相應(yīng)幀的一個(gè)或多個(gè)顯式DRC增益。特別地,每個(gè)幀可以包括用于不同渲染模式的不同顯式DRC增益。為此,可以在編碼器150內(nèi)應(yīng)用用于不同渲染模式的DRC算法,并且可以在編碼器150處確定用于不同渲染模式的不同DRC增益。然后可以將不同DRC增益顯式地插入在幀序列內(nèi)。其結(jié)果是,對(duì)應(yīng)的解碼器100直接應(yīng)用顯式DRC增益,而不執(zhí)行使用動(dòng)態(tài)范圍壓縮曲線的DRC算法。
因此,幀序列可以包括或可以指示用于用信號(hào)通知用于多個(gè)對(duì)應(yīng)的渲染模式的動(dòng)態(tài)范圍壓縮曲線的多個(gè)顯式DRC配置文件。所述多個(gè)DRC配置文件可以被插入到幀序列的幀中的一些(不是全部)(例如,I幀)中。此外,幀序列可以包括或可以指示用于對(duì)應(yīng)的一個(gè)或多個(gè)渲染模式的一個(gè)或多個(gè)DRC配置文件,其中,所述一個(gè)或多個(gè)DRC配置文件指示用于一個(gè)或多個(gè)渲染模式的顯式DRC增益被插入到幀序列的幀中。舉例來(lái)說(shuō),用于用信號(hào)通知顯式DRC增益的該一個(gè)或多個(gè)DRC配置文件可以包括指示顯式DRC增益是否包括在幀序列的幀中的標(biāo)志。DRC增益可以被插入到幀序列的每個(gè)幀中。特別地,每個(gè)幀可以包括將被用于對(duì)該幀進(jìn)行解碼的一個(gè)或多個(gè)DRC增益。
所述方法可以包括將用于顯式DRC增益的DRC配置文件插入到幀序列中的幀子集中。舉例來(lái)說(shuō),其DRC增益被傳輸?shù)腄RC配置文件可以指示用于顯式增益的DRC配置數(shù)據(jù)。具體地說(shuō),其DRC增益被傳輸?shù)腄RC配置文件可以包括在所有的所述DRC配置文件子集中。DRC配置數(shù)據(jù)(例如,標(biāo)志)可以指示幀序列包括用于特定渲染模式的顯式DRC增益。通過(guò)這樣做,解碼器100被通知以下事實(shí):對(duì)于特定渲染模式,顯式DRC增益將從幀序列的幀直接推導(dǎo)得到。
因此,所述方法可以進(jìn)一步包括針對(duì)特定渲染模式確定用于編碼音頻信號(hào)102的顯式DRC增益。另外,所述方法可以包括將顯式DRC增益插入到幀序列的幀中。顯式DRC增益可以被插入到幀序列中的顯式DRC增益適用的幀中。此外,幀序列中的幀可以包括在特定渲染模式內(nèi)對(duì)幀進(jìn)行解碼所需的一個(gè)或多個(gè)顯式DRC增益。
所述方法可以進(jìn)一步包括將指示用于特定渲染模式的DRC配置數(shù)據(jù)的DRC配置文件插入到幀序列中的幀子集(例如,I幀)中。DRC配置數(shù)據(jù)(包括例如標(biāo)志)可以指示以下事實(shí):對(duì)于特定渲染模式,顯式DRC增益被包括在幀序列的幀中。因此,解碼器100可以高效地確定是否使用來(lái)自多個(gè)DRC配置文件的壓縮曲線以用于用信號(hào)通知?jiǎng)討B(tài)范圍壓縮曲線或者是否使用顯式DRC增益。
用于用信號(hào)通知?jiǎng)討B(tài)范圍壓縮曲線的DRC配置文件以及指向顯式DRC配置文件的一個(gè)或多個(gè)DRC配置文件可以被包括在幀序列的I幀的專(zhuān)用語(yǔ)法元素(其被稱(chēng)為例如DRC配置文件語(yǔ)法元素)內(nèi)。
本文件中所描述的方法和系統(tǒng)可以實(shí)現(xiàn)為軟件、固件和/或硬件。某些組件可以例如實(shí)現(xiàn)為在數(shù)字信號(hào)處理器或微處理器上運(yùn)行的軟件。其他組件可以例如實(shí)現(xiàn)為硬件和/或?qū)S眉呻娐?。在所描述的方法和系統(tǒng)中遇到的信號(hào)可以存儲(chǔ)在比如隨機(jī)存取存儲(chǔ)器或光學(xué)存儲(chǔ)介質(zhì)的介質(zhì)上。它們可以經(jīng)由網(wǎng)絡(luò)(比如無(wú)線電網(wǎng)絡(luò)、衛(wèi)星網(wǎng)絡(luò)、無(wú)線網(wǎng)絡(luò)或有線網(wǎng)絡(luò)(例如,互聯(lián)網(wǎng)))傳送。使用本文件中所描述的方法和系統(tǒng)的典型設(shè)備是用于存儲(chǔ)和/或渲染音頻信號(hào)的便攜式電子設(shè)備或其他消費(fèi)者設(shè)備。