用于響度和動態(tài)范圍控制的元數(shù)據(jù)的制作方法
【專利說明】用于響度和動態(tài)范圍控制的元數(shù)據(jù)
[0001] 本非臨時專利申請要求于2013年3月29日提交的美國臨時專利申請61/806, 570 的較早提交日期的權(quán)益。
[0002] 本發(fā)明的實施例總體上涉及音頻信號的編碼和解碼以及使用與經(jīng)編碼的信號相 關聯(lián)的元數(shù)據(jù)來改善消費電子最終用戶設備中的經(jīng)解碼的信號的回放質(zhì)量。還描述了其他 實施例。
【背景技術】
[0003] 數(shù)字音頻內(nèi)容出現(xiàn)在很多不同情況中,例如包括音樂和電影文件。在大部分情況 下,對音頻信號進行編碼以用于降低數(shù)據(jù)速率的目的,使得媒體文件或流的傳輸或遞送消 耗更小的帶寬并且更快,由此允許同時進行許多其他傳輸??稍诓煌愋偷淖罱K用戶設備 中接收媒體文件或流,其中在通過內(nèi)置或可拆卸揚聲器向消費者進行呈現(xiàn)之前,對經(jīng)編碼 的音頻信號進行解碼。這樣有助于滿足消費者通過因特網(wǎng)獲得數(shù)字媒體的需求。數(shù)字音頻 節(jié)目的創(chuàng)建者和分銷者有幾種行業(yè)標準可用,可將其用于對音頻內(nèi)容進行編碼和解碼。這 包括由高級電視系統(tǒng)協(xié)會于2005年6月14日發(fā)布的數(shù)字音頻壓縮標準(AC-3, E-AC-3), 版本B,文檔A/52B ( "ATSC標準")、歐洲電信標準協(xié)會基于IS0/IEC 13818-7中的MPEG-2 傳輸流的ETSI TS 101 154數(shù)字視頻廣播(DVB)、由國際標準化組織(ISO)發(fā)布的高級音頻 編碼(AAC) ( "MPEG-2AAC 標準")以及 IS0/IEC 14496-3( "MPEG-4 音頻")。
[0004] 越來越多的最終用戶設備用于回放數(shù)字音頻,包括臺式計算機、膝上型計算機、便 攜式手持設備(例如,智能電話)、家用電視和車載媒體系統(tǒng)。這些設備具有不同的模擬信 號路徑、揚聲器和聲學環(huán)境。而且,音頻信號的動態(tài)范圍在不同節(jié)目之間有變化。此外,數(shù) 字音頻節(jié)目的生產(chǎn)者(包括創(chuàng)建者,有時甚至包括分銷者)常常希望通過以數(shù)字方式修改 音頻信號來提高其節(jié)目的平均響度,使其平均響度高若干個dB。然而,這樣做還需要降低所 得音頻信號的峰值水平,以便避免剪輯(這會導致不期望的聽覺失真)。這是使用動態(tài)范圍 控制(DRC)來實現(xiàn)的,其壓縮音頻信號的高低水平,使得所得音頻信號能夠匹配在更窄的 包絡(由此避免剪輯)內(nèi)。不過,所有這些因素都帶來一個問題:由最終用戶感知到的響度 可能會在不同最終用戶設備之間以及在同一設備上的連續(xù)節(jié)目之間都有顯著變化,從而導 致回放期間的不愉快的用戶體驗。
[0005] 軟件工具諸如Apple Inc.的SoundCheck?程序自動調(diào)節(jié)歌曲的回放音量以希望 獲得相同的感知響度,因此例如與1970年代的老歌相比,動態(tài)范圍更小但平均響度更大的 近期流行唱片會被調(diào)低。而且,音頻節(jié)目可包括與經(jīng)編碼的音頻信號相關聯(lián)并且描述相關 聯(lián)的音頻信號的元數(shù)據(jù)部分。元數(shù)據(jù)可包括由最終用戶設備中的軟件用于控制例如對話水 平、DRC和經(jīng)解碼的音頻信號的任何下混頻的信息,以便改變消費者在回放期間的體驗。
【發(fā)明內(nèi)容】
[0006] 希望有一種系統(tǒng)性但仍然靈活的方式來使用任何常規(guī)編碼/解碼(編解碼)和相 關聯(lián)的元數(shù)據(jù)構(gòu)造來控制向消費者遞送的音頻質(zhì)量。在下文中更詳細地描述了本發(fā)明的至 少如下實施例。
[0007] 在一個實施例中,一種用于對音頻信號編碼的方法包括向音頻信號應用音頻歸一 化增益值,以便產(chǎn)生歸一化信號。處理歸一化信號以針對歸一化信號來計算多個動態(tài)范圍 控制(DRC)增益值。根據(jù)若干個預定義的DRC特性中的所選擇的一個預定義的DRC特性來 計算DRC增益值。對音頻信號進行編碼,并且提供增益值作為與經(jīng)編碼的信號相關聯(lián)的元 數(shù)據(jù)。然后可在回放處理的解碼級中將所提供的DRC增益值應用于經(jīng)解碼的音頻信號,以 在回放期間調(diào)節(jié)經(jīng)解碼的音頻信號的動態(tài)范圍。
[0008] 在另一個實施例中,幾個預定義的DRC特性對于編碼器和解碼器設備是"已知" 的。將在編碼設備中使用的DRC特性索引傳送到解碼器設備。這使得最終用戶設備的解碼 器設備能夠根據(jù)本地參數(shù)來修改所提供的DRC增益值(用于壓縮經(jīng)解碼的音頻信號),該本 地參數(shù)例如用戶輸入(包括回放音量和/或響度歸一化開關設置)、用戶上下文(或使用最 終用戶設備的條件,例如深夜、車中等)和待用于回放經(jīng)解碼的音頻信號的數(shù)模轉(zhuǎn)換器和 揚聲器的動態(tài)范圍。
[0009] 在另一個實施例中,可在編碼設備中計算關于例如多聲道音頻信號的DRC壓縮版 本或下混頻版本的響度信息或響度參數(shù)。然后可提供響度信息作為與經(jīng)編碼的多聲道音頻 信號相關聯(lián)的元數(shù)據(jù)。在一個實施例中,在編碼設備處,測量輸入多聲道音頻信號的下混頻 版本的響度參數(shù),并且其中可能在先前向輸入信號應用或未應用DRC的情況下已獲得下混 頻信號。
[0010] 各種響度參數(shù)可由編碼級與例如用于在編碼級中產(chǎn)生下混頻信號的下混頻增益 一起提供,作為與輸入信號的經(jīng)編碼的版本相關聯(lián)的元數(shù)據(jù)。包含在元數(shù)據(jù)中的響度信息 可包括以下各項中的一者或多者:節(jié)目響度(如整個音頻節(jié)目的主觀響度度量中那樣,例 如根據(jù)ITU BS. 1770所計算的)、真峰值(諸如根據(jù)ITU BS. 1770所測量得)、錨定響度、響 度范圍、響度范圍上限、最大瞬時響度和短期響度。這種元數(shù)據(jù)還可包括已選擇以為輸入音 頻信號生成DRC增益值的DRC特性的索引,該DRC增益值也可包括在元數(shù)據(jù)中。
[0011] 在解碼設備中,DRC處理器能夠基于1)在元數(shù)據(jù)中獲得的DRC特性的索引,2)在 元數(shù)據(jù)中獲得的DRC增益值,和3)本地參數(shù)例如包括用戶輸入諸如音量設置和響度歸一化 開/關設置來為DRC調(diào)節(jié)或生成不同的增益值。于是,在回放處理期間可實時實現(xiàn)動態(tài)范 圍控制,而無需解碼設備計算經(jīng)解碼的音頻信號的每幀響度值(或DRC輸入水平)。在一個 實施例中,在對音頻文件或流進行解碼時,與音頻文件或流相關聯(lián)的元數(shù)據(jù)由運行于解碼 器設備中的媒體播放器讀取,并用于(在數(shù)模轉(zhuǎn)換之前)自動(即,無需用戶輸入并且對于 用戶而言是透明的)調(diào)節(jié)經(jīng)解碼的數(shù)字音頻內(nèi)容的響度。取決于用戶輸入和用戶所選擇的 回放模式的動態(tài)范圍(例如,線外揚聲器相對于內(nèi)置揚聲器),可這樣做來改善用戶回放音 頻文件或流中的內(nèi)容的體驗。
[0012] 在另一個實施例中,根據(jù)由用戶設置的回放音量和/或由編碼設備測量并經(jīng)由元 數(shù)據(jù)提供的真峰值和/或基于目標凈空(數(shù)字音頻信號的峰值水平及其剪輯水平之間的差 異)來控制解碼設備中所應用的DRC壓縮量,目標凈空值可在解碼設備中基于用戶回放音 量設置和可從用于回放的數(shù)模轉(zhuǎn)換和揚聲器設備獲得的動態(tài)范圍來計算。
[0013] 在又一個實施例中,可在解碼級中限定目標DRC特性,并且可通過i)找出使用哪 個編碼級DRC特性,以及ii)比較兩個DRC特性以確定如何修改所接收的DRC增益值來實 現(xiàn)這個目標。于是,在解碼器處基于從元數(shù)據(jù)所提取的DRC特性索引(指向由編碼器使用 的DRC特性)、在編碼級處設置的所提取的DRC增益值,并基于表示采用不同目標DRC特性 索引的特定本地條件來實時修改動態(tài)范圍調(diào)節(jié)。
[0014] 在另一個實施例中,產(chǎn)生關于DRC壓縮音頻內(nèi)容信號的響度信息和/或混頻音頻 內(nèi)容信號,并作為元數(shù)據(jù)嵌入經(jīng)編碼的多聲道數(shù)字音頻文件或流中。然后,在解碼(在解碼 級中)之后使用這一特定元數(shù)據(jù),以通過定制經(jīng)解碼的多聲道音頻內(nèi)容的下混頻來改善用 戶體驗。
[0015] 在又一個實施例中,改變解碼級中(在驅(qū)動揚聲器之前向經(jīng)解碼的音頻內(nèi)容信 號)應用的DRC壓縮量,以便避免揚聲器的輸入處的剪輯。DRC壓縮的這種變化可以是以下 各項的函數(shù):a)由用戶設置的回放音量,b)(從經(jīng)編碼的音頻文件或流提取的)真峰值和/ 或c)(在應用DRC壓縮之后)數(shù)模轉(zhuǎn)換器(DAC)的輸入處的目標凈空。例如,在低回放音 量下存在更多凈空,使得可應用更小的DRC壓縮,這繼而將允許經(jīng)解碼的音頻信號中更高 的峰值被傳送到揚聲器。
[0016] 以上
【發(fā)明內(nèi)容】
不包括本發(fā)明的所有方面的詳盡列表??梢灶A期的是,本發(fā)明包括 可根據(jù)上文概述的各個方面以及在下文的【具體實施方式】中公開并且在隨該專利申請?zhí)峤?的權(quán)利要求中特別指出的各種方面的所有的合適組合來實施的所有系統(tǒng)和方法。此類組合 具有未在上述
【發(fā)明內(nèi)容】
中具體闡述的特定優(yōu)點。
【附圖說明】
[0017] 本發(fā)明的實施例以舉例的方式進行說明,而不僅限于各個附圖的圖示,在附圖中 類似的附圖標號指示類似的元件。應當指出,本公開中提到"一"或"一個"實施例未必是 同一實施例,并且它們表示至少一個實施例。而且,可使用給定數(shù)字示出本發(fā)明多于一個實 施例的特征,并且對于給定實施例而言可不需要所有元件。
[0018] 圖1是數(shù)字音頻編碼級或編碼設備的相關部件的框圖。
[0019] 圖2示出了可用于編碼級中的幾個示例性DRC特性。
[0020] 圖3是解碼器級或解碼器設備的相關部件的框圖,尤其是在回放經(jīng)解碼的音頻信 號期間執(zhí)行的解碼器級或解碼器設備。
[0021] 圖4示出了可用于解碼級中以產(chǎn)生新的DRC增益值的幾個示例性DRC特性。
[0022] 圖5是解碼級中的部件的框圖,該部件具有接收經(jīng)解碼的多聲道音頻信號的下混 頻處理器。
[0023] 圖6示出了適用于解碼級中以產(chǎn)生新的增益值的幾個示例性DRC特性。
[0024] 圖7是適于特定下混頻情形的數(shù)字音頻編碼級或編碼設備的相關部件的框圖。
【具體實施方式】
[0025] 本文中將本發(fā)明的若干個實施例描述為數(shù)字音頻編碼和解碼中的元數(shù)據(jù)增強,以 用于在回放經(jīng)編碼的音頻文件或具有指定元數(shù)據(jù)的經(jīng)編碼的音頻流期間進行響度歸一化 和動態(tài)范圍控制(DRC)。雖然闡述了許多細節(jié),但應當理解,本發(fā)明的一些實施例可在沒有 這些細節(jié)的情況下實施。在其他情況下,未詳細示出熟知的電路、結(jié)構(gòu)和技術,以免模糊對 本【具體實施方式】的理解。例如,本文在根據(jù)MPEG標準實現(xiàn)比特率減小而編碼的上下文中描 述了特定細節(jié),但本發(fā)明的實施例還適用于其他形式的音頻編碼和解碼,包括無損數(shù)據(jù)壓 縮諸如蘋果無損音頻編解碼(ALAC)。
[0026] 參考圖1,其示出了根據(jù)本發(fā)明實施例的編碼器級或編碼器設備的框圖。可使用這 一