本公開總體上涉及一種對音頻數(shù)據(jù)進行基于元數(shù)據(jù)的動態(tài)處理以用于回放的方法,并且特別是用于確定一個或多個處理參數(shù)并將所述一個或多個處理參數(shù)應用于音頻數(shù)據(jù),以結合個性化設置(對話增強、主場解說或客場解說等)進行響度調(diào)平(leveling)和/或動態(tài)范圍壓縮。本公開進一步涉及一種將音頻數(shù)據(jù)和用于響度調(diào)平和/或動態(tài)范圍壓縮的元數(shù)據(jù)編碼到比特流中的方法。本公開還進一步涉及一種相應的解碼器和編碼器以及一種相應的系統(tǒng)和計算機程序產(chǎn)品。本公開進一步涉及一種處理音頻數(shù)據(jù)以用于回放的方法、一種用于處理音頻數(shù)據(jù)以用于回放的解碼器以及相應的計算機程序產(chǎn)品。盡管本文將特別參考該公開內(nèi)容來描述一些實施例,但是應當理解,本公開不限于這種使用領域,并且可應用于更廣泛的背景。
背景技術:
1、在整個公開內(nèi)容中對背景技術的任何討論絕不應視為承認這種技術是本領域眾所周知的或形成本領域公知常識的一部分。
2、在回放音頻內(nèi)容時,響度是個人對聲壓的體驗。在電影或電視內(nèi)容中,節(jié)目中對話的響度被發(fā)現(xiàn)是決定聽眾對節(jié)目響度的感知的最關鍵參數(shù)。
3、為了確定節(jié)目(無論是完整節(jié)目還是僅對話)的平均響度,必須對整個節(jié)目執(zhí)行分析。平均響度通常是響度合規(guī)性(compliance)所必需的(例如,美國的calm法案),并且還用于校準動態(tài)范圍控制(drc)參數(shù)。節(jié)目的動態(tài)范圍是其最安靜聲音與最響亮聲音之間的差異。節(jié)目的動態(tài)范圍取決于其內(nèi)容(例如,與紀錄片相比,動作電影可能具有不同且更寬的動態(tài)范圍),并且反映了創(chuàng)作者的意圖。然而,設備在原始動態(tài)范圍內(nèi)回放音頻內(nèi)容的能力差異很大。因此,除了響度管理之外,動態(tài)范圍控制也是提供最佳收聽體驗的另一個關鍵因素。
4、為了執(zhí)行響度管理和動態(tài)范圍控制,必須分析整個音頻節(jié)目或音頻節(jié)目片段,并且可以將所得的響度和drc參數(shù)與音頻數(shù)據(jù)或經(jīng)編碼的音頻數(shù)據(jù)一起傳遞,以在解碼器或回放設備中應用。
5、當無法在編碼之前對整個音頻節(jié)目或音頻節(jié)目片段進行分析時,例如在實時(動態(tài))編碼中,使用響度處理或調(diào)平來確保響度合規(guī)性,并且在適用的情況下根據(jù)回放要求確保潛在的動態(tài)范圍約束。這種方法提供了針對單一回放環(huán)境進行“優(yōu)化”的經(jīng)處理音頻。
6、因此,存在對基于元數(shù)據(jù)的過程的現(xiàn)有需求,該基于元數(shù)據(jù)的過程提供“原始”未處理的音頻以及附帶的元數(shù)據(jù),以允許回放設備根據(jù)設備約束、用戶要求和用戶設置(例如,音頻個性化設置)使用元數(shù)據(jù)來動態(tài)修改音頻。
7、此外,行業(yè)音頻標準包括用于實現(xiàn)響度控制和/或響度管理的描述和語法。例如,運動圖片專家組(mpeg),其是由國際標準化組織(iso)和國際電工委員會(iec)聯(lián)合建立的工作組聯(lián)盟,其為包括音頻編碼在內(nèi)的媒體編碼設定標準。mpeg是在iso/iec?sc?29下組織的,并且音頻組目前被標識為工作組(wg)6。該wg-6幫助建立了mpeg-h?3d音頻標準,該標準包括對響度控制和/或響度管理(drc)技術的兼容性,然而需要進一步修訂現(xiàn)有標準來處理上述元數(shù)據(jù)。
技術實現(xiàn)思路
1、根據(jù)本公開的第一方面,提供了一種對音頻數(shù)據(jù)進行基于元數(shù)據(jù)的動態(tài)處理以用于回放的方法。所述方法可以包括由解碼器接收比特流,所述比特流包括音頻數(shù)據(jù)和用于響度調(diào)平的元數(shù)據(jù)。所述方法可以進一步包括由所述解碼器對所述音頻數(shù)據(jù)和所述元數(shù)據(jù)進行解碼,以獲得經(jīng)解碼的音頻數(shù)據(jù)和元數(shù)據(jù)。所述方法可以進一步包括由所述解碼器基于回放條件從所述元數(shù)據(jù)中確定用于響度調(diào)平的一個或多個處理參數(shù)。所述方法可以進一步包括將所確定的一個或多個處理參數(shù)應用于所述經(jīng)解碼的音頻數(shù)據(jù),以獲得經(jīng)處理的音頻數(shù)據(jù)。并且所述方法可以包括輸出所述經(jīng)處理的音頻數(shù)據(jù)以用于回放。
2、在一些實施例中,所述元數(shù)據(jù)可以針對多個回放條件指示用于響度調(diào)平的處理參數(shù)。
3、在一些實施例中,所述確定所述一個或多個處理參數(shù)可以進一步包括基于所述回放條件確定用于動態(tài)范圍壓縮drc的一個或多個處理參數(shù)。
4、在一些實施例中,所述回放條件可以包括以下各項中的一項或多項:所述解碼器的設備類型、回放設備的特性、揚聲器的特性、揚聲器設置、背景噪聲的特性、環(huán)境噪聲的特性、在所述設備上選擇的個性化體驗和聲學環(huán)境的特性。
5、個性化體驗可以基于音頻的版本(如語言)或用戶體驗(如增強對話)。它還可以包括選擇不同體驗或角度的能力,例如選擇主隊解說與客隊解說,或者選擇主場觀眾或客場觀眾作為背景。
6、個性化體驗可以取決于先前的收聽體驗和/或收聽設備的能力?;蛘撸瑐€性化體驗可以由設備基于先前的收聽偏好進行選擇(包括通過經(jīng)由云包括外部數(shù)據(jù))。
7、個性化體驗可以被實時編碼,例如帶有主場解說和客場解說的體育運動,其中,將使用響度調(diào)平來確保音頻符合響度合規(guī)性(例如,美國的calm法案)。對于基于元數(shù)據(jù)的解決方案,將針對各種個性化體驗、設備能力中的每一者生成響度調(diào)平元數(shù)據(jù),其還可以包括drc元數(shù)據(jù)。
8、在一些實施例中,所述確定所述一個或多個處理參數(shù)可以進一步包括由所述解碼器選擇與所述回放條件相對應的drc序列集drcset、均衡器參數(shù)集eqset和下混中的至少一者。
9、在一些實施例中,所述確定所述一個或多個處理參數(shù)可以進一步包括識別指示所述至少一個所選擇的drcset、eqset和下混的元數(shù)據(jù)標識符,以從所述元數(shù)據(jù)中確定所述一個或多個處理參數(shù)。
10、在一些實施例中,所述元數(shù)據(jù)可以包括與平均響度值相關的一個或多個處理參數(shù),以及可選地與動態(tài)范圍壓縮特性相關的一個或多個處理參數(shù)。
11、在一些實施例中,所述比特流可以進一步包括用于要被應用于所述經(jīng)解碼的音頻數(shù)據(jù)的靜態(tài)響度調(diào)整的附加元數(shù)據(jù)。
12、在一些實施例中,所述比特流可以是mpeg-d?drc比特流,并且可以基于mpeg-ddrc比特流語法用信號傳輸元數(shù)據(jù)的存在。
13、在一些實施例中,unidrcconfigextension()元素可以用于攜帶元數(shù)據(jù)作為有效載荷。
14、在一些實施例中,所述元數(shù)據(jù)可以包括一個或多個元數(shù)據(jù)有效載荷,其中,每個元數(shù)據(jù)有效載荷可以包括多個參數(shù)和標識符集,每個集包括drcset標識符drcsetid、eqset標識符eqsetid和下混標識符downmixid中的至少一者和與所述集中的標識符相關的一個或多個處理參數(shù)的組合。
15、在一些實施例中,所述確定所述一個或多個處理參數(shù)可以涉及基于由所述解碼器選擇的所述至少一個drcset、eqset和下混來在所述有效載荷中的所述多個集中選擇一個集,其中,由所述解碼器確定的所述一個或多個處理參數(shù)可以是與所選擇的集中的標識符相關的所述一個或多個處理參數(shù)。
16、根據(jù)本公開的第二方面,提供了一種用于對音頻數(shù)據(jù)進行基于元數(shù)據(jù)的動態(tài)處理以用于回放的解碼器。所述解碼器可以包括被配置為執(zhí)行一種方法的一個或多個處理器和非暫態(tài)存儲器,所述方法包括由所述解碼器接收包括音頻數(shù)據(jù)和用于響度調(diào)平的元數(shù)據(jù)的比特流;由所述解碼器對所述音頻數(shù)據(jù)和所述元數(shù)據(jù)進行解碼,以獲得經(jīng)解碼的音頻數(shù)據(jù)和元數(shù)據(jù);由所述解碼器基于回放條件從所述元數(shù)據(jù)中確定用于響度調(diào)平的一個或多個處理參數(shù);將所確定的一個或多個處理參數(shù)應用于所述經(jīng)解碼的音頻數(shù)據(jù),以獲得經(jīng)處理的音頻數(shù)據(jù);以及輸出所述經(jīng)處理的音頻數(shù)據(jù)以用于回放。
17、根據(jù)本公開的第三方面,提供了一種將音頻數(shù)據(jù)和用于響度調(diào)平的元數(shù)據(jù)編碼到比特流中的方法。所述方法可以包括將原始音頻數(shù)據(jù)輸入到響度調(diào)平器中進行響度處理,以獲得經(jīng)響度處理的音頻數(shù)據(jù)作為所述響度調(diào)平器的輸出。所述方法可以進一步包括基于所述經(jīng)響度處理的音頻數(shù)據(jù)和所述原始音頻數(shù)據(jù)生成用于響度調(diào)平的所述元數(shù)據(jù)。并且所述方法可以包括將所述原始音頻數(shù)據(jù)和所述元數(shù)據(jù)編碼到所述比特流中。
18、在一些實施例中,所述方法可以進一步包括生成用于要由解碼器使用的靜態(tài)響度調(diào)整的附加元數(shù)據(jù)。
19、在一些實施例中,生成元數(shù)據(jù)可以包括將所述經(jīng)響度處理的音頻數(shù)據(jù)與所述原始音頻數(shù)據(jù)進行比較,其中,可以基于所述比較的結果生成所述元數(shù)據(jù)。
20、在一些實施例中,生成元數(shù)據(jù)可以進一步包括測量一個或多個預定義時間段內(nèi)的響度,其中,可以進一步基于所測量的響度生成所述元數(shù)據(jù)。
21、在一些實施例中,所述測量可以包括測量所述音頻數(shù)據(jù)的總體響度。
22、在一些實施例中,所述測量可以包括測量所述音頻數(shù)據(jù)中對話的響度。
23、在一些實施例中,所述比特流可以是mpeg-d?drc比特流,并且可以基于mpeg-ddrc比特流語法用信號傳輸所述元數(shù)據(jù)的存在。
24、在一些實施例中,unidrcconfigextension()元素可以用于攜帶元數(shù)據(jù)作為有效載荷。
25、在一些實施例中,所述元數(shù)據(jù)可以包括一個或多個元數(shù)據(jù)有效載荷,其中,每個元數(shù)據(jù)有效載荷可以包括多個參數(shù)和標識符集,每個集包括drcset標識符drcsetid、eqset標識符eqsetid和下混標識符downmixid中的至少一者和與所述集中的標識符相關的一個或多個處理參數(shù)的組合,并且其中,所述一個或多個處理參數(shù)可以是用于由解碼器進行響度調(diào)平的參數(shù)。
26、在一些實施例中,所述drcsetid、所述eqsetid和所述downmixid中的所述至少一者可以與要由所述解碼器選擇的drc序列集drcset、均衡器參數(shù)集eqset和下混中的至少一者相關。
27、根據(jù)本公開的第四方面,提供了一種用于將原始音頻數(shù)據(jù)和用于響度調(diào)平的元數(shù)據(jù)編碼在比特流中的編碼器。所述編碼器可以包括被配置為執(zhí)行一種方法的一個或多個處理器和非暫態(tài)存儲器,所述方法包括將原始音頻數(shù)據(jù)輸入到響度調(diào)平器中進行響度處理,以獲得經(jīng)響度處理的音頻數(shù)據(jù)作為所述響度調(diào)平器的輸出;基于所述經(jīng)響度處理的音頻數(shù)據(jù)和所述原始音頻數(shù)據(jù)生成用于響度調(diào)平的所述元數(shù)據(jù);以及將所述原始音頻數(shù)據(jù)和所述元數(shù)據(jù)編碼到所述比特流中。
28、根據(jù)本公開的第五方面,提供了一種用于將原始音頻數(shù)據(jù)和用于響度調(diào)平的元數(shù)據(jù)編碼在比特流中的編碼器和用于對音頻數(shù)據(jù)進行基于元數(shù)據(jù)的動態(tài)處理以用于回放的解碼器的系統(tǒng)。
29、根據(jù)本公開的第六方面,提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括具有指令的計算機可讀存儲介質(zhì),所述指令適于在由具有處理能力的設備執(zhí)行時使所述設備執(zhí)行一種對音頻數(shù)據(jù)進行基于元數(shù)據(jù)的動態(tài)處理以用于回放的方法或一種將音頻數(shù)據(jù)和用于響度調(diào)平的元數(shù)據(jù)編碼到比特流中的方法。
30、根據(jù)本公開的第七方面,提供了一種存儲有本文所述的計算機程序產(chǎn)品的計算機可讀存儲介質(zhì)。
31、根據(jù)本公開的第八方面,提供了一種處理音頻數(shù)據(jù)以用于回放的方法。所述方法可以包括由解碼器接收包括經(jīng)編碼的音頻數(shù)據(jù)和元數(shù)據(jù)的比特流,其中,所述元數(shù)據(jù)包括一個或多個動態(tài)范圍控制(drc)集、以及針對每個drc集的所述drc集是否被配置用于提供響度調(diào)平效果的指示。所述方法可以進一步包括由所述解碼器解析所述元數(shù)據(jù),以識別被配置用于提供所述響度調(diào)平效果的drc集。所述方法可以進一步包括由所述解碼器對所述經(jīng)編碼的音頻數(shù)據(jù)進行解碼,以獲得經(jīng)解碼的音頻數(shù)據(jù)。所述方法可以進一步包括由所述解碼器選擇被配置用于提供所述響度調(diào)平效果的所識別的drc集之一。所述方法可以進一步包括由所述解碼器將與所選擇的drc集相對應的所述一個或多個drc增益應用于所述經(jīng)解碼的音頻數(shù)據(jù),以獲得經(jīng)動態(tài)響度補償?shù)囊纛l數(shù)據(jù)。并且所述方法可以包括輸出所述經(jīng)動態(tài)響度補償?shù)囊纛l數(shù)據(jù)以用于回放。
32、在一些實施例中,所述元數(shù)據(jù)可以包括被配置用于提供所述響度調(diào)平的多個drc集,其中,所述多個drc集中的每一個還可以與一個或多個回放條件相關聯(lián),并且其中,所述選擇可以是響應于提供給所述解碼器的回放條件的指示而執(zhí)行的。
33、在一些實施例中,除了提供響度調(diào)平效果之外,所述一個或多個drc集還可以被配置為提供動態(tài)范圍控制。
34、在一些實施例中,所述回放條件可以包括以下各項中的一項或多項:所述解碼器的設備類型、回放設備的特性、揚聲器的特性、揚聲器設置、背景噪聲的特性、環(huán)境噪聲的特性和聲學環(huán)境的特性。
35、在一些實施例中,可以在指示由所述drc集提供的一個或多個效果的參數(shù)中提供所述drc集是否被配置用于提供所述響度調(diào)平效果的指示。
36、在一些實施例中,指示由所述drc集提供的一個或多個效果的所述參數(shù)可以是mpeg-d?drc比特流的drcseteffect位字段,其中,所述drcseteffect位字段的各個位對應于不同的效果,并且所述drcseteffect位字段的位之一對應于所述響度調(diào)平效果。
37、在一些實施例中,所述drc集是否被配置用于提供所述響度調(diào)平效果的指示可以是所述drc集是否被指定在響度調(diào)平比特流有效載荷中。
38、在一些實施例中,可以在先前定義的比特流語法的擴展字段中包括所述響度調(diào)平比特流有效載荷。
39、在一些實施例中,所述擴展字段可以是mpeg-d?drc比特流的unidrcconfigextension字段,并且,可以僅針對unidrcconfigexttype參數(shù)的特定值包括所述響度調(diào)平比特流有效載荷。
40、在一些實施例中,可以在所述先前定義的比特流語法的擴展字段中包括指定被配置用于提供所述響度調(diào)平效果的多個drc集的多個響度調(diào)平有效載荷。
41、在一些實施例中,所述drc集是否被配置用于提供所述響度調(diào)平效果的指示可以是先前定義的比特流語法的先前存在的配置元素的字段。
42、在一些實施例中,所述字段可以是levelingpresent參數(shù),并且所述先前存在的配置元素可以是mpeg-d?drc比特流的downmixinstructions元素、drcinstructionsbasic元素或drcinstructionsunidrc元素。
43、在一些實施例中,所述字段可以是為將來使用而保留的先前存在的字段。
44、在一些實施例中,所述drc集是否被配置用于提供所述響度調(diào)平效果的指示可以是先前定義的比特流語法的先前存在的配置元素的更新版本的字段。
45、在一些實施例中,所述字段可以是levelingpresent參數(shù),并且所述先前存在的配置元素的更新版本可以是downmixinstructionsv2元素或drcinstructionsunidrcv2元素。
46、在一些實施例中,可以通過接口向所述解碼器提供期望響度調(diào)平效果的指示,并且可以響應于通過所述接口提供給所述解碼器的所述指示而選擇所述drc集。
47、在一些實施例中,可以通過所述接口向所述解碼器提供附加期望效果的指示,所述元數(shù)據(jù)可以包括被配置為提供所述響度調(diào)平效果的多個drc集,并且所述選擇可以取決于所述附加期望效果。
48、在一些實施例中,可以通過dynamicrangecontrollerinterface有效載荷的drceffecttyperequest參數(shù)提供期望響度調(diào)平效果的指示。
49、在一些實施例中,所述元數(shù)據(jù)可以包括被配置用于向所述經(jīng)解碼的音頻數(shù)據(jù)提供靜態(tài)響度調(diào)整的一個或多個靜態(tài)響度值。
50、在一些實施例中,可以響應于所述靜態(tài)響度值中的一個或多個而將靜態(tài)響度調(diào)整應用于所述經(jīng)解碼的音頻數(shù)據(jù)或所述經(jīng)動態(tài)響度補償?shù)囊纛l數(shù)據(jù)。
51、在一些實施例中,所述drc集中的第一drc集可以被配置用于提供動態(tài)范圍控制,并且所述第一drc集可以包括表明被配置用于提供所述響度調(diào)平效果的所選擇的drc集可以被配置用于與所述第一drc集結合應用的指示。
52、在一些實施例中,所選擇的drc集可以包括與所選擇的drc集相對應的所述一個或多個drc增益是否僅可以和與所述第一drc集相對應的drc增益結合應用的指示。
53、在一些實施例中,可以從所述比特流中提取與所述第一drc集相對應的drc增益,并且將所述drc增益應用于所述經(jīng)解碼的音頻數(shù)據(jù)。
54、根據(jù)本公開的第九方面,提供了一種用于處理音頻數(shù)據(jù)以用于回放的解碼器。所述解碼器可以包括被配置為執(zhí)行如上所述的處理音頻數(shù)據(jù)以用于回放的方法的一個或多個處理器和非暫態(tài)存儲器。
55、根據(jù)本公開的第十方面,提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括具有指令的計算機可讀存儲介質(zhì),所述指令適于使設備執(zhí)行如上所述的處理音頻數(shù)據(jù)以用于回放的方法。
56、根據(jù)本公開的第十一方面,提供了一種存儲有本文所述的計算機程序產(chǎn)品的計算機可讀存儲介質(zhì)。