基于對象的音頻編碼系統(tǒng)中的通知響度估計的解碼器、編碼器及方法
【專利摘要】提供一種用于產(chǎn)生包括一個或更多個音頻輸出聲道的音頻輸出信號的解碼器。解碼器包括接收接口(110),接收接口用于接收包括多個音頻對象信號的音頻輸入信號、關(guān)于音頻對象信號的響度信息、以及指示音頻對象信號中的一個或更多個是否應(yīng)放大或衰減的呈現(xiàn)信息。此外,解碼器包括用于產(chǎn)生音頻輸出信號的一個或更多個音頻輸出聲道的信號處理器(120)。信號處理器(120)被配置成根據(jù)響度信息且根據(jù)呈現(xiàn)信息確定響度補(bǔ)償值。此外,信號處理器(120)被配置成根據(jù)呈現(xiàn)信息且根據(jù)響度補(bǔ)償值從音頻輸入信號產(chǎn)生音頻輸出信號的一個或更多個音頻輸出聲道。此外,提供一種編碼器。
【專利說明】基于對象的音頻編碼系統(tǒng)中的通知響度估計的解碼器、編碼 器及方法
[0001] 本發(fā)明涉及音頻信號編碼、處理及解碼,特別地,涉及用于基于對象的音頻編碼系 統(tǒng)中的通知響度估計的解碼器、編碼器及方法。
[0002] 近來,在音頻編碼[80:、幾(:、3厶0(:、3厶0(:1、3厶002]及通知源分離[1331、1332、1333、 ISS4、ISS5、ISS6 ]的領(lǐng)域中已提出用于包括多個音頻對象信號的音頻場景的具比特率效益 的傳輸/儲存的參數(shù)技術(shù)。這些技術(shù)旨在基于描述所傳輸/儲存的音頻場景和/或該音頻場 景中的源對象的附加邊信息(side informat ion)來重構(gòu)希望的輸出音頻場景或音頻源對 象。此重構(gòu)使用通知源分離方案而發(fā)生于解碼器中??梢詫χ貥?gòu)的對象進(jìn)行組合以產(chǎn)生輸 出音頻場景。取決于組合對象的方式,輸出場景的感知響度可以不同。
[0003] 在TV及無線電廣播中,可基于各個方面諸如峰值信號水平或響度水平來規(guī)范化各 個節(jié)目的音軌的音量水平。取決于信號的動態(tài)特性,具有相同峰值水平的兩個信號可能具 有大不相同的感知響度水平?,F(xiàn)在,在節(jié)目或頻道之間切換,信號響度的差異非常惱人,且 已成為終端用戶對廣播的抱怨的主要來源。
[0004]在現(xiàn)有技術(shù)中,已提出使用基于感知信號響度的測量將所有頻道上的所有節(jié)目類 似地規(guī)范化至共同基準(zhǔn)水平。在歐洲的一個此種推薦為EBU推薦R128 [EBU](后文稱為 R128)。
[0005] 該推薦稱,"節(jié)目響度",例如一個節(jié)目(或一個廣告或某其他有意義的節(jié)目實體) 的平均響度應(yīng)等于指定水平(允許有小的偏差)。當(dāng)愈來愈多的廣播臺符合此推薦及所要求 的規(guī)范化時,應(yīng)最小化節(jié)目及頻道之間的平均響度的差異。
[0006] 可以以若干方式進(jìn)行響度估計。存在用于估計音頻信號的感知響度的若干數(shù)學(xué)模 型。EBU推薦R128依賴于ITU-R BS.1770(后文稱為BS.1770)(參見[ITU])中提出的模型用于 響度估計。
[0007] 如前所述,例如根據(jù)EBU推薦R128,節(jié)目響度例如一個節(jié)目的平均響度應(yīng)等于指定 水平,允許有小的偏差。然而,這導(dǎo)致了進(jìn)行音頻呈現(xiàn)時的顯著問題,迄今在現(xiàn)有技術(shù)中仍 未解決。在解碼器側(cè)進(jìn)行音頻呈現(xiàn)對所接收音頻輸入信號的總體/總響度具有顯著影響。然 而,盡管進(jìn)行場景呈現(xiàn),所接收音頻信號的總響度應(yīng)保持相同。
[0008] 當(dāng)前,對于此問題不存在特定的解碼器側(cè)解決方案。
[0009] EP 2 146 522 A1([EP])涉及使用基于對象的元數(shù)據(jù)產(chǎn)生音頻輸出信號的構(gòu)思。 其生成表示至少兩個不同音頻對象信號的疊加的至少一個音頻輸出信號,但未提供對此問 題的解決方案。
[0010] W0 2008/035275 A2([BRE])描述了一種包括編碼器的音頻系統(tǒng),該編碼器在編碼 單元中編碼音頻對象,該編碼單元產(chǎn)生下混音頻信號及表示多個音頻對象的參數(shù)數(shù)據(jù)。該 下混音頻信號及參數(shù)數(shù)據(jù)被傳輸至包括解碼單元及呈現(xiàn)單元的解碼器,該解碼單元產(chǎn)生音 頻對象的近似復(fù)本且該呈現(xiàn)單元根據(jù)該音頻對象產(chǎn)生輸出信號。此外,該解碼器含有用于 產(chǎn)生被發(fā)送至編碼器的編碼修改數(shù)據(jù)的處理器。然后,該編碼器響應(yīng)于該編碼修改數(shù)據(jù)而 修改該音頻對象的編碼,且特別是修改該參數(shù)數(shù)據(jù)。該方法允許由解碼器控制對音頻對象 的操縱但完全或部分地由編碼器進(jìn)行對音頻對象的操縱。因此,可對實際的獨(dú)立的音頻對 象而非對近似復(fù)本進(jìn)行操縱,藉此提高效能。
[0011] EP 2 146 522 A1([SCH])公開了一種用于產(chǎn)生表示至少兩個不同音頻對象的疊 加的至少一個音頻輸出信號的設(shè)備,其包括用于處理音頻輸入信號以提供音頻輸入信號的 對象表示的處理器,其中此對象表示可通過使用對象下混信號對原始對象進(jìn)行參數(shù)導(dǎo)引近 似而產(chǎn)生。對象操縱器使用涉及各個音頻對象的基于音頻對象的元數(shù)據(jù)來單獨(dú)地操縱對 象,以獲得經(jīng)操縱的音頻對象。使用對象混合器對經(jīng)操縱的音頻對象進(jìn)行混合以取決于特 定呈現(xiàn)設(shè)定而最終獲得具有一個或若干個聲道信號的音頻輸出信號。
[0012] W0 2008/046531 A1([ENG])描述了一種使用多個音頻對象生成編碼對象信號的 音頻對象編碼器,其包含:下混信息產(chǎn)生器,其用于產(chǎn)生指示多個音頻對象至至少兩個下混 聲道的分配的下混信息;音頻對象參數(shù)產(chǎn)生器,其用于產(chǎn)生音頻對象的對象參數(shù);以及輸出 接口,其用于使用該下混信息及對象參數(shù)來產(chǎn)生導(dǎo)入的音頻輸出信號。音頻合成器使用下 混信息來產(chǎn)生可用于建立預(yù)定義音頻輸出配置的多個輸出聲道的輸出數(shù)據(jù)。
[0013] 希望的是無延遲地具有對輸出平均響度或平均響度改變的準(zhǔn)確估計,且當(dāng)節(jié)目不 改變或呈現(xiàn)場景不改變時,平均響度估計也應(yīng)該保持靜態(tài)。
[0014] 本發(fā)明的目標(biāo)是提供改進(jìn)的音頻信號編碼、處理及解碼構(gòu)思。本發(fā)明的目標(biāo)通過 以下來解決:根據(jù)權(quán)利要求1所述的解碼器、根據(jù)權(quán)利要求15所述的編碼器、根據(jù)權(quán)利要求 18所述的系統(tǒng)、根據(jù)權(quán)利要求19所述的方法、根據(jù)權(quán)利要求20所述的方法及根據(jù)權(quán)利要求 21所述的計算機(jī)程序。
[0015] 提供了用于估計基于對象的音頻編碼系統(tǒng)中的輸出的響度的通知方式。所提供的 構(gòu)思依賴于關(guān)于待提供至解碼器的音頻混合中的對象的響度的信息。解碼器使用此信息連 同呈現(xiàn)信息用于估計輸出信號的響度。例如,此舉允許接著估計默認(rèn)下混與呈現(xiàn)的輸出之 間的響度差異。接著可以補(bǔ)償該差異以無關(guān)于呈現(xiàn)信息而獲得輸出中的大致恒定的響度。 解碼器中的響度估計以全參數(shù)方式發(fā)生,且與基于信號的響度估計構(gòu)思相比,其在計算上 非常輕便且準(zhǔn)確。
[0016] 提供了用于使用純參數(shù)概念獲得關(guān)于特定輸出場景的響度的信息的構(gòu)思,其因此 允許在不進(jìn)行解碼器中的明確的基于信號的響度估計的情況下進(jìn)行響度處理。此外,描述 了通過MPEG[SA0C]標(biāo)準(zhǔn)化的空間音頻對象編碼(SA0C)的特定技術(shù),但所提供的構(gòu)思亦可結(jié) 合其他音頻對象編碼技術(shù)來使用。
[0017] 提供了用于產(chǎn)生包括一個或更多個音頻輸出聲道的音頻輸出信號的解碼器。該解 碼器包括接收接口,該接收接口用于接收包括多個音頻對象信號的音頻輸入信號,用于接 收關(guān)于該音頻對象信號的響度信息,且用于接收指示該音頻對象信號中的一個或更多個應(yīng) 放大還是衰減的呈現(xiàn)信息。此外,該解碼器包括用于產(chǎn)生該音頻輸出信號的一個或更多個 音頻輸出聲道的信號處理器。該信號處理器被配置成取決于該響度信息且取決于該呈現(xiàn)信 息來確定響度補(bǔ)償值。此外,該信號處理器被配置成取決于該呈現(xiàn)信息且取決于該響度補(bǔ) 償值而自該音頻輸入信號產(chǎn)生該音頻輸出信號的所述一個或更多個音頻輸出聲道。
[0018] 根據(jù)一實施方式,該信號處理器可被配置成取決于該呈現(xiàn)信息且取決于該響度補(bǔ) 償值而自該音頻輸入信號產(chǎn)生該音頻輸出信號的一個或更多個音頻輸出聲道,使得該音頻 輸出信號的響度等于該音頻輸入信號的響度,或使得該音頻輸出信號的響度比經(jīng)修改音頻 信號的響度更接近于該音頻輸入信號的響度,該經(jīng)修改音頻信號是通過根據(jù)該呈現(xiàn)信息放 大或衰減該音頻輸入信號的音頻對象信號而修改該音頻輸入信號來產(chǎn)生。
[0019] 根據(jù)另一實施方式,可將音頻輸入信號的音頻對象信號中的每個指派給兩個或更 多個組中的確切的一個組,其中所述兩個或更多個組中的每個可包括該音頻輸入信號的音 頻對象信號中的一個或更多個。在此實施方式中,該接收接口可被配置成接收所述兩個或 更多個組中的每一個組的響度值作為響度信息,其中該響度值指示該組的所述一個或更多 個音頻對象信號的原始總響度。此外,該接收接口可被配置成接收針對所述兩個或更多個 組中的至少一個組通過指示該組的一個或更多個音頻對象信號的經(jīng)修改總響度而指示應(yīng) 放大衰減該組的所述一個或更多個音頻對象信號的呈現(xiàn)信息。此外,在此實施方式中,該信 號處理器可被配置成取決于所述兩個或更多個組中的所述至少一個組中的每個的經(jīng)修改 總響度且取決于所述兩個或更多個組中的每個的原始總響度來確定該響度補(bǔ)償值。此外, 該信號處理器可被配置成取決于所述兩個或更多個組中的所述至少一個組中的每個的經(jīng) 修改總響度且取決于該響度補(bǔ)償值而自該音頻輸入信號產(chǎn)生該音頻輸出信號的一個或更 多個音頻輸出聲道。
[0020] 在特定實施方式中,所述兩個或更多個組中的至少一個組可包括該音頻對象信號 中的兩者或更多。
[0021] 此外,提供了一種編碼器。該編碼器包括基于對象的編碼單元,該基于對象的編碼 單元用于編碼多個音頻對象信號以獲得包括所述多個音頻對象信號的編碼音頻信號。此 外,該編碼器包括用于編碼關(guān)于該音頻對象信號的響度信息的對象響度編碼單元。該響度 信息包括一個或更多個響度值,其中所述一個或更多個響度值中的每個取決于該音頻對象 信號中的一個或更多個。
[0022]根據(jù)一實施方式,可將編碼音頻信號的音頻對象信號中的每個指派給兩個或更多 個組中的確切的一個組,其中所述兩個或更多個組中的每個包括該編碼音頻信號的音頻對 象信號中的一個或更多個。該對象響度編碼單元可被配置成通過確定所述兩個或更多個組 中的每一個組的響度值來確定該響度信息的所述一個或更多個響度值,其中該組的響度值 指示該組的所述一個或更多個音頻對象信號的原始總響度。
[0023]此外,提供了一種系統(tǒng)。該系統(tǒng)包括根據(jù)上述實施方式中的一個的編碼器,該編碼 器用于編碼多個音頻對象信號以獲得包括該多個音頻對象信號的編碼音頻信號,且用于編 碼關(guān)于該音頻對象信號的響度信息。此外,該系統(tǒng)包括根據(jù)上述實施方式中的一個的解碼 器,該解碼器用于產(chǎn)生包括一個或更多個音頻輸出聲道的音頻輸出信號。該解碼器被配置 成接收作為音頻輸入信號的編碼音頻信號及響度信息。此外,該解碼器被配置成還接收呈 現(xiàn)信息。此外,該解碼器被配置成取決于該響度信息且取決于該呈現(xiàn)信息來確定響度補(bǔ)償 值。此外,該解碼器被配置成取決于該呈現(xiàn)信息且取決于該響度補(bǔ)償值而自該音頻輸入信 號產(chǎn)生該音頻輸出信號的所述一個或更多個音頻輸出聲道。
[0024]此外,提供了一種用于產(chǎn)生包括一個或更多個音頻輸出聲道的音頻輸出信號的方 法。該方法包括:
[0025] -接收包括多個音頻對象信號的音頻輸入信號。
[0026] -接收關(guān)于該音頻對象信號的響度信息。
[0027] -接收指示該音頻對象信號中的一個或更多個是否應(yīng)放大或衰減的呈現(xiàn)信息。
[0028] -取決于該響度信息且取決于該呈現(xiàn)信息來確定響度補(bǔ)償值。及:
[0029] -取決于該呈現(xiàn)信息且取決于該響度補(bǔ)償值而自該音頻輸入信號產(chǎn)生該音頻輸出 信號的所述一個或更多個音頻輸出聲道。
[0030] 此外,提供了 一種用于編碼的方法。該方法包括:
[0031] -編碼包括多個音頻對象信號的音頻輸入信號。及:
[0032] -編碼關(guān)于該音頻對象信號的響度信息,其中該響度信息包括一個或更多個響度 值,其中所述一個或更多個響度值中的每個取決于該音頻對象信號中的一個或更多個。 [0033]此外,提供了一種用于在計算機(jī)或信號處理器上執(zhí)行時實施上述方法的計算機(jī)程 序。
[0034] 在所附權(quán)利要求中提供了優(yōu)選實施方式。
[0035] 下文中,參考附圖更詳細(xì)地描述了本發(fā)明的實施方式,在附圖中:
[0036] 圖1圖示了根據(jù)一實施方式的用于產(chǎn)生包括一個或更多個音頻輸出聲道的音頻輸 出信號的解碼器,
[0037]圖2圖示了根據(jù)一實施方式的編碼器,
[0038]圖3圖示了根據(jù)一實施方式的系統(tǒng),
[0039] 圖4圖示了包括SA0C編碼器及SA0C解碼器的空間音頻對象編碼系統(tǒng),
[0040] 圖5圖示了包括邊信息解碼器、對象分離器及呈現(xiàn)器的SA0C解碼器,
[0041] 圖6圖示了對響度改變的輸出信號響度估計的特征,
[0042] 圖7描繪根據(jù)一實施方式的通知響度估計,其圖示了根據(jù)一實施方式的編碼器及 解碼器的組件,
[0043] 圖8圖示了根據(jù)另一實施方式的編碼器,
[0044] 圖9圖示了根據(jù)一實施方式的關(guān)于包括旁路聲道的SA0C對話增強(qiáng)的編碼器及解碼 器,
[0045] 圖10描繪使用以參數(shù)方式估計響度改變的所提供構(gòu)思來測量響度改變及其結(jié)果 的第一圖解,
[0046] 圖11描繪使用以參數(shù)方式估計響度改變的所提供構(gòu)思來測量響度改變及其結(jié)果 的第二圖解,以及
[0047] 圖12圖示了用于進(jìn)行響度補(bǔ)償?shù)牧硪粚嵤┓绞健?br>[0048] 在詳細(xì)描述優(yōu)選實施方式之前,描述響度估計、空間音頻對象編碼(SA0C)及對話 增強(qiáng)(DE)。
[0049] 首先,描述響度估計。
[0050] 如之前所述,EBU推薦R128依賴于ITU-R BS.1770中提出的模型來進(jìn)行響度估計。 雖然將此測量用作示例,但下文所描述的構(gòu)思亦可應(yīng)用于其他響度測量。
[0051] 根據(jù)BS. 1770的響度估計操作相對簡單,且基于以下主要步驟[ITU]:
[0052] -用K濾波器(傾斜型濾波器與高通濾波器的組合)對輸入信號Xl(或多聲道信號情 況下的信號)進(jìn)行濾波以獲得信號 yi。
[0053]-計算信號71的均方能量Zl。
[0054]-在多聲道信號的情況下,應(yīng)用聲道權(quán)重61,且對經(jīng)加權(quán)信號進(jìn)行求和。則將信號 響度定義為
[0056]其中常數(shù)值c = -0.691。因此是以"LKFS"(響度,經(jīng)K加權(quán),相對于全標(biāo)度)為單位來 表示輸出,其標(biāo)度類似于分貝標(biāo)度。
[0057] 在上式中,對于聲道中的一些聲道,Gi可以例如等于1,而對于一些其他聲道Gi可以 例如為1.41。例如,若考慮左聲道、右聲道、中央聲道、左環(huán)繞聲道及右環(huán)繞聲道,則相應(yīng)的 權(quán)重Gi對于左聲道、右聲道及中央聲道可以例如為1,而對于左環(huán)繞聲道及右環(huán)繞聲道可以 例如為1.41,參見[ITU]。
[0058] 可以看出,響度值L與信號能量的對數(shù)緊密相關(guān)。
[0059] 下文中,描述空間音頻對象編碼。
[0060] 基于對象的音頻編碼構(gòu)思允許在鏈的解碼器側(cè)具有很大靈活性?;趯ο蟮囊纛l 編碼構(gòu)思的示例為空間音頻對象編碼(SA0C)。
[0061 ]圖4圖示了包括空間音頻對象編碼(SA0C)編碼器410及SA0C解碼器420的SA0C系 統(tǒng)。
[0062] SA0C編碼器410接收N個音頻對象信號S!,. . .,SN作為輸入。此外,SA0C編碼器410還 接收指令"混合信息D" :應(yīng)如何組合這些對象以獲得包括Μ個下混聲道Xi,...,XM的下混信 號。SA0C編碼器410自對象及下混過程提取一些邊信息,且傳輸此邊信息和/或?qū)⑵渑c下混 信號一起儲存。
[0063] SA0C系統(tǒng)的主要特性為:包括下混聲道Xi,...,ΧΜ的下混信號X形成語義上有意義 的信號。換言之,可以聽取下混信號。例如,若接收器不具有SA0C解碼器功能性,則接收器也 仍然可以始終將下混信號提供為輸出。
[0064] 圖5圖示了包括邊信息解碼器510、對象分離器520及呈現(xiàn)器530的SA0C解碼器。圖5 示出的SA0C解碼器例如自SA0C編碼器接收下混信號及邊信息。下混信號可視為包括音頻對 象信號的音頻輸入信號,這是因為音頻對象信號在下混信號內(nèi)混合(音頻對象信號在下混 信號的一個或更多個下混聲道內(nèi)混合)。
[0065] 然后,SA0C解碼器可以例如試圖(虛擬地)重構(gòu)原始對象,例如通過使用對象分離 器520,例如使用解碼邊信息。然后,這些(虛擬)對象重構(gòu)I" (例如,重構(gòu)的音頻對 象信號)基于呈現(xiàn)信息(例如呈現(xiàn)矩陣R)組合以產(chǎn)生音頻輸出信號Υ的Κ個音頻輸出聲道 Υι,· · ·,Υκ 〇
[0066] 通常,在SA0C中,例如,音頻對象信號例如通過使用自SA0C編碼器傳輸至SA0C解碼 器的協(xié)方差信息例如信號協(xié)方差矩陣E加以重構(gòu)。
[0067] 例如,可使用下式來在解碼器側(cè)重構(gòu)音頻對象信號:
[0068] S=GX其中G?E DH(D E DH)-1
[0069] 其中
[0070] N 音頻對象信號的數(shù)目
[0071] N|鉢 音頻對象信號的所考慮樣本的數(shù)目
[0072] Μ 下混聲道的數(shù)目,
[0073] X 下混音頻信號,大小為MX Ν|缽,
[0074] D 下混矩陣,大小為MX N
[0075] E 定義為E=X XH的大小為NXN的信號協(xié)方差矩陣
[0076] S 參數(shù)重構(gòu)的N個音頻對象信號,大小為NX Ν|?
[0077] ( · )Η自伴(赫密特)算子,其表示(·)的共輒轉(zhuǎn)置
[0078] 接著,可將呈現(xiàn)矩陣R應(yīng)用于經(jīng)重構(gòu)的音頻對象信號S以獲得音頻輸出信號Y的音 頻輸出聲道,例如根據(jù)下式:
[0079] Y = RS
[0080] 其中
[0081] K 音頻輸出信號Y的音頻輸出聲道Υ^.,.,Υκ的數(shù)目。
[0082] R 大小為ΚΧΝ的呈現(xiàn)矩陣
[0083] Υ 包括Κ個音頻輸出聲道的音頻輸出信號,大小為ΚΧΝι?
[0084] 在圖5中,例如由對象分離器520進(jìn)行對象重構(gòu)的過程加上了標(biāo)記"虛擬"或"可 選",因為其不是必須發(fā)生,但是可以通過在參數(shù)域中組合重構(gòu)與呈現(xiàn)步驟(即,將等式進(jìn)行 組合)而獲得希望的功能性。
[0085] 換言之,替代首先使用混合信息D及協(xié)方差信息Ε重構(gòu)音頻對象信號且接著將呈現(xiàn) 信息R應(yīng)用于經(jīng)重構(gòu)的音頻對象信號以獲得音頻輸出聲道Yi,...,Υκ,可將兩個步驟在單一 步驟中進(jìn)行,以使得直接自下混聲道產(chǎn)生音頻輸出聲道Υ:,...,Υκ。
[0086] 例如,可使用下式:
[0087] Y = RGX其中G ? E DH(D E DH)-、
[0088] 原理上,呈現(xiàn)信息R可請求原始音頻對象信號的任何組合。然而,在實際中,對象重 構(gòu)可能包括重構(gòu)誤差,且所請求的輸出場景可能未必能達(dá)到。作為涵蓋許多實際情況的大 致一般規(guī)則,所請求的輸出場景與下混信號差異愈大,可聽到的重構(gòu)誤差將愈大。
[0089] 下文中,描述對話增強(qiáng)(DE)??梢岳缡褂肧A0C技術(shù)來實現(xiàn)場景。應(yīng)注意,雖然名 稱"對話增強(qiáng)"提示著重于面向?qū)υ挼男盘?,但是相同原理亦可用于其他信號類型?br>[0090] 在DE場景中,系統(tǒng)中的自由度受限于該一般情況。
[0091]例如,音頻對象信號S1; ...,SN = S分組(且可能混合)為兩個元對象:前景對象 (FGO) Sfgci及背景對象(BGO) SBG0。
[0092] 此外,輸出場景Y1; . . .,YK = Y類似于下混信號X1; . . .,XM = X。更具體地,兩個信號 具有相同維度,即Κ=Μ,且最終用戶可以僅控制兩個元對象FG0及BG0的相對混合水平。更確 切而言,通過用一些標(biāo)量權(quán)重來對FG0與BG0進(jìn)行混合而獲得下混信號
[0093] X = hFGoSFGO+hBGoSBGO ,
[0094] 且類似地通過對FG0與BG0的標(biāo)量加權(quán)而獲得輸出場景:
[0095] Y = gFGoSFGO+gBGoSBGO 〇
[0096] 取決于混合權(quán)重的相對值,F(xiàn)G0與BG0之間的平衡可能改變。例如,對于設(shè)定
[0098]可以在混合中增大FG0的相對水平。若FG0為對話,則此設(shè)定提供了對話增強(qiáng)功能 性。
[0099]作為使用情況示例,BG0可以為體育場噪音及體育賽事期間的其他背景聲音,而 FG0為解說員的語音。DE功能性允許最終用戶相對于背景放大或衰減解說員的水平。
[0100] 各實施方式基于以下發(fā)現(xiàn):在廣播場景中利用SA0C技術(shù)(或類似技術(shù))能夠向最終 用戶提供擴(kuò)展的信號操縱功能性。提供了比僅改變聲道及調(diào)整播放音量更多的功能性。
[0101] 上文簡要描述了使用DE技術(shù)的一個可能性。若作為用于SA0C的下混信號的廣播信 號例如根據(jù)R128而在水平上規(guī)范化,則在不施加(SA0C)處理(或呈現(xiàn)描述與下混描述相同) 時,不同節(jié)目具有類似的平均響度。然而,當(dāng)施加某一(SA0C)處理時,輸出信號不同于默認(rèn) 下混信號,且輸出信號的響度可不同于默認(rèn)下混信號的響度。自最終用戶的角度而言,此可 導(dǎo)致以下情形:聲道或節(jié)目之間的輸出信號響度可再次具有不期望的跳躍或差異。換言之, 部分地失去了通過廣播臺施加的規(guī)范化的益處。
[0102] 此問題并非SA0C或DE場景所獨(dú)有,而是在允許最終用戶與內(nèi)容互動的其他音頻編 碼構(gòu)思中亦可能發(fā)生。然而,在許多情況下,若輸出信號與默認(rèn)下混具有不同的響度,其并 不造成任何傷害。
[0103] 如上所述,音頻輸入信號節(jié)目的總響度應(yīng)等于指定水平,允許有小的偏差。然而, 如已經(jīng)概述的那樣,此在進(jìn)行音頻呈現(xiàn)時導(dǎo)致顯著問題,因為呈現(xiàn)對所接收音頻輸入信號 的總體/總響度可具有顯著影響。然而,盡管進(jìn)行場景呈現(xiàn),所接收音頻信號的總響度應(yīng)保 持相同。
[0104] -種方法是在播放信號時估計信號的響度,且通過適當(dāng)?shù)臅r間整合構(gòu)思,在某一 時間之后該估計可以收斂至真實的平均響度。然而,收斂所需的時間從最終用戶的角度來 說是個問題。當(dāng)即使在沒有對信號施加改變時改變了響度估計,響度改變補(bǔ)償也會起作用 且改變其行為。此將導(dǎo)致輸出信號具有時變平均響度,其在感覺上相當(dāng)惱人。
[0105] 圖6圖示了響度改變時的輸出信號響度估計行為。尤其描繪了基于信號的輸出信 號響度估計,其圖示了剛剛描述的解決方案的效果。該估計相當(dāng)緩慢地接近正確估計。替代 基于信號的輸出信號響度估計,立即正確地確定輸出信號響度的通知輸出信號響度估計是 優(yōu)選的。
[0106] 具體地,在圖6中,用戶輸入(例如,對話對象的水平)通過增大其值而在時刻T改 變。真實輸出信號水平及相應(yīng)地響度在同一時刻改變。當(dāng)利用某一時間整合的時間自輸出 信號進(jìn)行輸出信號響度估計時,該估計將逐漸變化且在某一延遲之后達(dá)到正確值。在此延 遲期間,估計值不斷變化,因此不能可靠地用于進(jìn)一步處理輸出信號,例如,用于響度水平 校正。
[0107] 如已經(jīng)描述的,期望的是具有無延遲地輸出平均響度或平均響度改變的準(zhǔn)確估 計,且當(dāng)節(jié)目不改變或呈現(xiàn)場景不改變時,平均響度估計亦應(yīng)保持靜態(tài)。換言之,當(dāng)應(yīng)用某 一響度改變補(bǔ)償時,補(bǔ)償參數(shù)應(yīng)僅在節(jié)目改變或存在某用戶互動時才改變。
[0108] 圖6的最下圖解圖示了希望的行為(通知輸出信號響度估計)。輸出信號響度估計 應(yīng)在用戶輸入改變時即刻改變。
[0109] 圖2圖示了根據(jù)一實施方式的編碼器。
[0110]該編碼器包括基于對象的編碼單元210,其用于編碼多個音頻對象信號以獲得包 括所述多個音頻對象信號的編碼音頻信號。
[0111]此外,該編碼器包括對象響度編碼單元220,其用于對關(guān)于該音頻對象信號的響度 信息進(jìn)行編碼。該響度信息包括一個或更多個響度值,其中一個或更多個響度值中的每個 取決于音頻對象信號中的一個或更多個。
[0112] 根據(jù)一實施方式,編碼音頻信號的音頻對象信號中的每個被指派給兩個或更多個 組中的確切的一個組,其中兩個或更多個組中的每個包括編碼音頻信號的音頻對象信號中 的一個或更多個。該對象響度編碼單元220被配置成通過確定兩個或更多個組中的每一個 組的響度值來確定該響度信息中的一個或更多個響度值,其中該組的響度值指示該組的一 個或更多個音頻對象信號的原始總響度。
[0113] 圖1圖示了根據(jù)一實施方式的用于產(chǎn)生包括一個或更多個音頻輸出聲道的音頻輸 出信號的解碼器。
[0114] 該解碼器包括接收接口 110,其用于接收包括多個音頻對象信號的音頻輸入信號, 用于接收關(guān)于該音頻對象信號的響度信息,且用于接收指示音頻對象信號中的一個或更多 個是否應(yīng)放大或衰減的呈現(xiàn)信息。
[0115]此外,該解碼器包括信號處理器120,其用于產(chǎn)生音頻輸出信號的一個或更多個音 頻輸出聲道。信號處理器120被配置成取決于響度信息且取決于呈現(xiàn)信息來確定響度補(bǔ)償 值。此外,信號處理器120被配置成取決于呈現(xiàn)信息且取決于響度補(bǔ)償值而自音頻輸入信號 產(chǎn)生音頻輸出信號的一個或更多個音頻輸出聲道。
[0116]根據(jù)一實施方式,信號處理器110被配置成取決于呈現(xiàn)信息且取決于響度補(bǔ)償值 而自音頻輸入信號產(chǎn)生音頻輸出信號的一個或更多個音頻輸出聲道,使得音頻輸出信號的 響度等于音頻輸入信號的響度,或使得音頻輸出信號的響度比經(jīng)修改音頻信號的響度更接 近于音頻輸入信號的響度,該經(jīng)修改音頻信號是通過根據(jù)呈現(xiàn)信息修改或衰減音頻輸入信 號的音頻對象信號而修改該音頻輸入信號而產(chǎn)生的。
[0117]根據(jù)另一實施方式,音頻輸入信號的音頻對象信號中的每個被指派給兩個或更多 個組中的確切的一個組,其中兩個或更多個組中的每個包括音頻輸入信號的音頻對象信號 中的一個或更多個。
[0118] 在此實施方式中,接收接口 110被配置成接收兩個或更多個組中的每一個組的響 度值作為響度信息,其中該響度值指示該組的一個或更多個音頻對象信號的原始總響度。 此外,接收接口 110被配置成接收對于兩個或更多個組中的至少一個組通過指示該組的一 個或更多個音頻對象信號的經(jīng)修改總響度而指示該組的一個或更多個音頻對象信號是否 應(yīng)放大或衰減的呈現(xiàn)信息。此外,在此實施方式中,信號處理器120被配置成取決于兩個或 更多個組中的所述至少一個組中的每個的經(jīng)修改總響度且取決于兩個或更多個組中的每 個的原始總響度來確定響度補(bǔ)償值。此外,信號處理器120被配置成取決于兩個或更多個組 中的所述至少一個組中的每個的經(jīng)修改總響度且取決于該響度補(bǔ)償值而自該音頻輸入信 號產(chǎn)生音頻輸出信號的一個或更多個音頻輸出聲道。
[0119] 在特定實施方式中,兩個或更多個組中的至少一個組包括音頻對象信號中的兩者 或更多。
[0120] 音頻對象信號i的能量&與音頻對象信號i的響度U之間根據(jù)下式存在直接關(guān)系:
[0122]其中c為常數(shù)值。
[0123]實施方式基于以下發(fā)現(xiàn):音頻輸入信號的不同音頻對象信號可具有不同響度且因 此具有不同能量。例如,若用戶想要增大音頻對象信號的響度,則可以相應(yīng)地調(diào)整呈現(xiàn)信 息,且此音頻對象信號的響度增大增大了此音頻對象的能量。此將導(dǎo)致音頻輸出信號的響 度增大。為保持總響度恒定,需要進(jìn)行響度補(bǔ)償。換言之,需要調(diào)整將呈現(xiàn)信息應(yīng)用于音頻 輸入信號而產(chǎn)生的經(jīng)修改音頻信號。然而,音頻對象信號中的一個的放大對經(jīng)修改音頻信 號的總響度的確切影響取決于經(jīng)放大音頻對象信號例如響度增大的音頻對象信號的原始 響度。若此對象的原始響度對應(yīng)于相當(dāng)?shù)偷哪芰浚瑒t對音頻輸入信號的總響度的影響將微 乎其微。然而,若此對象的原始響度對應(yīng)于相當(dāng)高的能量,則對音頻輸入信號的總響度的影 響將是顯著的。
[0124] 可考慮兩個示例。在兩個示例中,音頻輸入信號包括兩個音頻對象信號,且在兩個 示例,通過應(yīng)用呈現(xiàn)信息,音頻對象信號中的第一個的能量增大50%。
[0125] 在第一示例中,第一音頻對象信號貢獻(xiàn)音頻輸入信號總能量的20%且第二音頻對 象信號貢獻(xiàn)音頻輸入信號總能量的80%。然而,在第二示例中,第一音頻對象,第一音頻對 象信號貢獻(xiàn)音頻輸入信號總能量的40%且第二音頻對象信號貢獻(xiàn)音頻輸入信號總能量的 60%。在兩個示例中,可以自關(guān)于音頻對象信號的響度信息得出這些貢獻(xiàn),因為響度與能量 之間存在直接關(guān)系。
[0126] 在第一示例中,第一音頻對象的能量的50%的增大導(dǎo)致通過將呈現(xiàn)信息應(yīng)用于音 頻輸入信號而產(chǎn)生的經(jīng)修改音頻信號具有的總能量為音頻輸入信號的能量的1.5X20% + 80% = 110%〇
[0127] 在第二示例中,第一音頻對象的能量的50%的增大導(dǎo)致通過將呈現(xiàn)信息應(yīng)用于音 頻輸入信號而產(chǎn)生的經(jīng)修改音頻信號具有的總能量為音頻輸入信號的能量的1.5X40% + 60% = 120%〇
[0128] 因此,在將呈現(xiàn)信息應(yīng)用于音頻輸入信號之后,在第一示例中,經(jīng)修改音頻信號的 總能量僅須減小9% (10/110)以在音頻輸入信號與音頻輸出信號兩者中獲得相等能量,而 在第二示例中,經(jīng)修改音頻信號的總能量須減小17% (20/120)。為此,可以計算響度補(bǔ)償 值。
[0129] 例如,響度補(bǔ)償值可為應(yīng)用于音頻輸出信號的所有音頻輸出聲道的標(biāo)量。
[0130] 根據(jù)一實施方式,信號處理器被配置成通過根據(jù)呈現(xiàn)信息修改或衰減音頻輸入信 號的音頻對象信號而修改音頻輸入信號來產(chǎn)生經(jīng)修改音頻信號。此外,信號處理器被配置 成通過將響度補(bǔ)償值應(yīng)用于經(jīng)修改音頻信號而產(chǎn)生音頻輸出信號,使得音頻輸出信號的響 度等于音頻輸入信號的響度,或使得音頻輸出信號的響度比經(jīng)修改音頻信號的響度更接近 于音頻輸入信號的響度。
[0131] 例如,在上文第一示例中,響度補(bǔ)償值lev可例如設(shè)定為值lcv = 10/ll,且可將放 大因子10/11應(yīng)用于根據(jù)呈現(xiàn)信息呈現(xiàn)音頻輸入聲道而產(chǎn)生的所有聲道。
[0132] 因此,例如,在上文第二示例中,響度補(bǔ)償值lev可例如設(shè)定為值lev = 10/12 = 5/ 6,且可將放大因子5/6應(yīng)用于根據(jù)呈現(xiàn)信息呈現(xiàn)音頻輸入聲道而產(chǎn)生的所有聲道。
[0133] 在其他實施方式中,可以將音頻對象信號中的每個指派給多個組中的一個,且可 針對組中的每個傳輸指示該組的音頻對象信號的總響度值的響度值。如呈現(xiàn)信息指定該等 組中的一個的能量被衰減或放大,例如,如上所述放大了 50%,則可計算總能量增加,且可 如上所述確定響度補(bǔ)償值。
[0134] 例如,根據(jù)一實施方式,音頻輸入信號的音頻對象信號中的每個被指派給作為兩 個或更多個組的確切的兩個組中的確切的一個組。音頻輸入信號的音頻對象信號中的每個 被指派給所述確切的兩個組中的前景對象組或所述確切的兩個組中的背景對象組。接收接 口 110被配置成接收前景對象組的一個或更多個音頻對象信號的原始總響度。此外,接收接 口 110被配置成接收背景對象組的一個或更多個音頻對象信號的原始總響度。此外,接收接 口 110被配置成接收針對所述確切的兩個組中的至少一個組通過指示該組的一個或更多個 音頻對象信號的經(jīng)修改總響度而指示所述至少一個組中的每個的一個或更多個音頻對象 信號是否應(yīng)放大或衰減的呈現(xiàn)信息。
[0135] 在此實施方式中,信號處理器120被配置成取決于所述至少一個組中的每個的經(jīng) 修改總響度、取決于前景對象組的一個或更多個音頻對象信號的原始總響度且取決于背景 對象組的一個或更多個音頻對象信號的原始總響度來確定響度補(bǔ)償值。此外,信號處理器 120被配置成取決于所述至少一個組中的每個的經(jīng)修改總響度且取決于該響度補(bǔ)償值而自 音頻輸入信號產(chǎn)生音頻輸出信號的一個或更多個音頻輸出聲道。
[0136] 根據(jù)一些實施方式,音頻對象信號中的每個被指派給三個或更多個組中的一個, 且接收接口可以被配置成接收三個或更多個組中的每個的響度值,該響度值指示該組的音 頻對象信號的總響度。
[0137] 根據(jù)一實施方式,為確定兩個或更多個音頻對象信號的總響度值,例如,針對每一 音頻對象信號確定對應(yīng)于響度值的能量值,對所有響度值的能量值求和以獲得能量總和, 且將對應(yīng)于該能量總和的響度值確定為兩個或更多個音頻對象信號的總響度值。例如,可 使用下式
[0139] 在一些實施方式中,針對音頻對象信號中的每個傳輸響度值,或?qū)⒁纛l對象信號 中的每個指派給一個或兩個或更多個組,其中針對組中的每個,傳輸響度值。
[0140] 然而,在一些實施方式中,對于一個或更多個音頻對象信號或?qū)τ诎ㄒ纛l對象 信號的組中的一個或更多個,不傳輸響度值。替代地,解碼器可以例如假定未傳輸其響度值 的音頻對象信號或音頻對象信號組具有預(yù)定義響度值。例如,解碼器可以使所有進(jìn)一步的 確定基于此預(yù)定義響度值。
[0141] 根據(jù)一實施方式,接收接口 110被配置成接收包括一個或更多個下混聲道的下混 信號作為音頻輸入信號,其中一個或更多個下混聲道包括音頻對象信號,且其中音頻對象 信號的數(shù)目小于一個或更多個下混聲道的數(shù)目。接收接口 110被配置成接收指示音頻對象 信號如何在一個或更多個下混聲道內(nèi)混合的下混信息。此外,信號處理器120被配置成取決 于該下混信息、取決于該呈現(xiàn)信息且取決于該響度補(bǔ)償值而自該音頻輸入信號產(chǎn)生音頻輸 出信號的一個或更多個音頻輸出聲道。在特定實施方式中,例如,信號處理器120可以被配 置成取決于下混信息而計算響度補(bǔ)償值。
[0142] 例如,下混信息可以是下混矩陣。在一實施方式中,解碼器可以是SA0C解碼器。在 這樣的實施方式中,例如,接收接口 110可以進(jìn)一步被配置成接收協(xié)方差信息,例如,如上文 所述的協(xié)方差矩陣。
[0143] 關(guān)于指示音頻對象信號中的一個或更多個是否應(yīng)放大或衰減的呈現(xiàn)信息,應(yīng)注 意,例如,指示音頻對象信號中的一個或更多個應(yīng)如何放大或衰減的信息為呈現(xiàn)信息。例 如,呈現(xiàn)矩陣R,例如,SA0C的呈現(xiàn)矩陣為呈現(xiàn)信息。
[0144] 圖3圖示了根據(jù)一實施方式的系統(tǒng)。
[0145] 該系統(tǒng)包括根據(jù)上述實施方式中的一個的編碼器310,其用于編碼多個音頻對象 信號以獲得包括該多個音頻對象信號的編碼音頻信號。
[0146] 此外,該系統(tǒng)包括根據(jù)上述實施方式中的一個的解碼器320,其用于產(chǎn)生包括一個 或更多個音頻輸出聲道的音頻輸出信號。該解碼器被配置成接收作為音頻輸入信號的編碼 音頻信號及響度信息。此外,解碼器320被配置成還接收呈現(xiàn)信息。此外,解碼器320被配置 成取決于響度信息且取決于呈現(xiàn)信息來確定響度補(bǔ)償值。此外,解碼器320被配置成取決于 該呈現(xiàn)信息且取決于該響度補(bǔ)償值而自音頻輸入信號產(chǎn)生音頻輸出信號的一個或更多個 音頻輸出聲道。
[0147] 圖7圖示了根據(jù)一實施方式的通知響度估計。在傳輸流730的左方,圖示了基于對 象的音頻編碼編碼器的組件。具體地,圖示了基于對象的編碼單元710("基于對象的音頻編 碼器")及對象響度編碼單元720( "對象響度估計")。
[0148] 傳輸流730自身包括響度信息L、下混信息D及基于對象的音頻編碼器710的輸出B。
[0149] 在傳輸流730的右方,圖示了基于對象的音頻編碼解碼器的信號處理器的組件。未 示出解碼器的接收接口。描繪了輸出響度估計器740及基于對象的音頻解碼單元750。輸出 響度估計器740可以被配置成確定響度補(bǔ)償值?;趯ο蟮囊纛l解碼單元750可以被配置成 通過應(yīng)用呈現(xiàn)信息R而自輸入至解碼器的音頻信號確定經(jīng)修改音頻信號。圖7中未示出將響 度補(bǔ)償值應(yīng)用于經(jīng)修改音頻信號以補(bǔ)償由呈現(xiàn)引起的總響度改變。
[0150] 至編碼器的輸入至少是由輸入對象S組成。該系統(tǒng)例如通過對象響度編碼單元720 估計每個對象的響度(或某其他響度相關(guān)信息,例如對象能量),且對信息L進(jìn)行傳輸和/或 儲存。(也可以將對象的響度提供為至系統(tǒng)的輸入,且可省略系統(tǒng)內(nèi)的估計步驟)。
[0151] 在圖7的實施方式中,解碼器接收至少對象響度信息及例如呈現(xiàn)信息R,呈現(xiàn)信息R 描述對象至輸出信號的混合?;谶@些信息,例如輸出響度估計器740估計輸出信號的響度 且將此信息提供為其輸出。
[0152] 下混信息D可提供為呈現(xiàn)信息,在此情況下,響度估計提供對下混信號響度的估 計。還可以將下混信息提供為至對象響度估計的輸入,且連同對象響度信息傳輸和/或儲存 該信息。然后,輸出響度估計可以同時估計下混信號的響度及所呈現(xiàn)的輸出,且將這兩個值 或其差異提供為輸出響度信息。差異值(或其倒數(shù))描述所需補(bǔ)償,所需補(bǔ)償應(yīng)該應(yīng)用于所 呈現(xiàn)輸出信號以使得其響度類似于下混信號的響度。對象響度信息可另外包含關(guān)于各個對 象之間的相關(guān)系數(shù)的信息,且此相關(guān)信息可用于輸出響度估計中以用于更準(zhǔn)確的估計。
[0153] 下文中,描述用于對話增強(qiáng)應(yīng)用的優(yōu)選實施方式。
[0154] 在對話增強(qiáng)應(yīng)用中,如上文所述,將輸入音頻對象信號分組且部分地下混以形成 兩個元對象FG0及BG0,然后,可以以普通方式對這兩個元對象FG0及BG0求和以獲得最終下 混信號。
[0155] 遵循SA0C[SA0C]的描述,將N個輸入對象信號表示為大小為NXN稱的矩陣S,且將 下混信息表示為大小為MXN的矩陣D。則下混信號可以獲得為X = DS。
[0156] 現(xiàn)在,下混信息D對于元對象可分成兩個部分
[0157] D = Dfgq+Dbgo。
[0158] 由于矩陣D的每一列對應(yīng)于原始音頻對象信號,可通過將對應(yīng)于其他元對象的列 設(shè)定為零(假定無原始對象可存在于兩個元對象上)而獲得兩個分量下混矩陣。換言之,對 應(yīng)于元對象BGO的列在Dfgq中設(shè)定為零,且對應(yīng)于元對象FGO的列在Dbgq中設(shè)定為零。
[0159] 這些新下混矩陣描述可以自輸入對象獲得兩個元對象的方式,即:
[0160] Sfgo = DfgoS 且 Sbgo = DbgoS,
[0161] 且實際下混簡化為
[0162] X = Sfgq+Sbgo。
[0163] 也可以認(rèn)為對象(例如,SA0C)解碼器試圖重構(gòu)元對象:
[0165] 且DE特定呈現(xiàn)可寫為這兩個元對象重構(gòu)的組合:
[0167] 對象響度估計將兩個元對象SFGQ及SBGQ接收為輸入,且估計其中每個的響度:Lfgo為 SFG〇的(總/總體)響度,且LBGQ為SBGQ的(總/總體)響度。傳輸和/或儲存這些響度值。
[0168] 替代地,使用元對象中的一個例如FG0作為基準(zhǔn),可以將這兩個對象的響度差異計 算為例如
[0169] Δ Lfgo = Lbgo_Lfgo〇
[0170] 然后,傳輸和/或儲存此單個值。
[0171] 圖8圖示了根據(jù)另一實施方式的編碼器。圖8的編碼器包括對象下混器811及對象 邊信息估計器812。此外,圖8的編碼器還包括對象響度編碼單元820。此外,圖8的編碼器包 括元音頻對象混合器805。
[0172] 圖8的編碼器使用中間音頻元對象作為至對象響度估計的輸入。在實施方式中,圖 8的編碼器可以被配置成產(chǎn)生兩個音頻元對象。在其他實施方式中,圖8的編碼器可以被配 置成產(chǎn)生三個或更多個音頻元對象。
[0173] 特別地,所提供的構(gòu)思提供了下述新特征:編碼器可以例如估計所有輸入對象的 平均響度。對象可以例如在所傳輸?shù)南禄煨盘杻?nèi)混合。此外,所提供的構(gòu)思提供了下述新特 征:可將對象響度及下混信息例如包含在所傳輸?shù)膶ο缶幋a邊信息中。
[0174] 例如,解碼器可使用對象編碼邊信息來(虛擬地)分離對象,且使用呈現(xiàn)信息重新 組合對象。
[0175] 此外,所提供的構(gòu)思提供了下述新特征:可以使用下混信息來估計默認(rèn)下混信號 的響度;可以使用呈現(xiàn)信息及所接收對象響度來估計輸出信號的平均響度;并且/或者可自 這兩個值估計響度改變?;蛘撸墒褂孟禄旒俺尸F(xiàn)信息自默認(rèn)下混估計響度改變,這是所提 供的構(gòu)思的另一新特征。
[0176] 此外,所提供的構(gòu)思提供了下述新特征:可修改解碼器輸出以補(bǔ)償響度改變以使 得經(jīng)修改信號的平均響度匹配默認(rèn)下混的平均響度。
[0177] 圖9中圖示了與SA0C-DE有關(guān)的特定實施方式。系統(tǒng)接收輸入音頻對象信號、下混 信息、以及對象至元對象的分組信息。基于這些信息,元音頻對象混合器905形成兩個元對 象Sfgci及Sbgci。有可能用SA0C處理的信號部分不構(gòu)成整個信號。例如,在5.1聲道配置中,SA0C 可以部署于聲道的子集中,例如部署于前聲道(左、右及中央),而其他聲道(左環(huán)繞、右環(huán)繞 及低頻效果)繞開(旁路)SA0C且如此遞送。未經(jīng)SA0C處理的這些聲道表示為X BYPASS。需要提 供可能的旁路聲道以使編碼器更準(zhǔn)確地估計響度信息。
[0178] 可以多種方式處置旁路聲道。
[0179] 例如,旁路聲道可以例如形成獨(dú)立元對象。這允許限定呈現(xiàn)以使得所有三個元對 象獨(dú)立地進(jìn)行按比例調(diào)整。
[0180] 或者,例如,旁路聲道可以例如與其他兩個元對象中的一個組合。該元對象的呈現(xiàn) 設(shè)定也控制旁路聲道部分。例如,在對話增強(qiáng)場景中,將旁路聲道與背景元對象進(jìn)行合并可 以是有意義的:Xbgci = Sbgq+Xbypass。
[0181] 或者,例如,可以例如忽略旁路聲道。
[0182] 根據(jù)實施方式,編碼器的基于對象的編碼單元210被配置成接收音頻對象信號,其 中音頻對象信號中的每個被指派給確切的兩個組中的確切的一個,其中所述確切的兩個組 中的每個包括音頻對象信號中的一個或更多個。此外,基于對象的編碼單元210被配置成對 所述確切的兩個組包含的音頻對象信號進(jìn)行下混以獲得包括一個或更多個下混音頻聲道 的下混信號作為編碼音頻信號,其中一個或更多個下混聲道的數(shù)目小于所述確切的兩個組 所包含的音頻對象信號的數(shù)目。對象響度編碼單元220被指派成接收一個或更多個其他旁 路音頻對象信號,其中一個或更多個其他旁路音頻對象信號中的每個被指派給第三組,其 中一個或更多個其他旁路音頻對象信號中的每個不被第一組包括且不被第二組包括,其中 基于對象的編碼單元210被配置成不在下混信號內(nèi)下混一個或更多個其他旁路音頻對象信 號。
[0183] 在一實施方式中,對象響度編碼單元220被配置成確定響度信息的第一響度值、第 二響度值及第三響度值,第一響度值指示第一組的一個或更多個音頻對象信號的總響度, 第二響度值指示第二組的一個或更多個音頻對象信號的總響度,且第三響度值指示第三組 的一個或更多個其他旁路音頻對象信號的總響度。在另一實施方式中,對象響度編碼單元 220被配置成確定響度信息的第一響度值及第二響度值,第一響度值指示第一組的一個或 更多個音頻對象信號的總響度,且第二響度值指示第二組的一個或更多個音頻對象信號及 第三組的一個或更多個其他旁路音頻對象信號的總響度。
[0184] 根據(jù)一實施方式,解碼器的接收接口 110被配置成接收下混信號。此外,接收接口 110被配置成接收一個或更多個其他旁路音頻對象信號,其中一個或更多個其他旁路音頻 對象信號未在該下混信號內(nèi)混合。此外,接收接口 110被配置成接收響度信息,該響度信息 指示關(guān)于在下混信號內(nèi)混合的音頻對象信號的響度的信息且指示關(guān)于未在下混信號內(nèi)混 合的一個或更多個其他旁路音頻對象信號的響度的信息。此外,信號處理器120被配置成取 決于關(guān)于在下混信號內(nèi)混合的音頻對象信號的響度的信息且取決于關(guān)于未在下混信號內(nèi) 混合的一個或更多個其他旁路音頻對象信號的響度的信息來確定響度補(bǔ)償值。
[0185] 圖9圖示了根據(jù)與SA0C-DE有關(guān)的實施方式的編碼器及解碼器,其包括旁路聲道。 特別地,圖9的編碼器包括SA0C編碼器902。
[0186] 在圖9的實施方式中,旁路聲道與另一元對象的可能組合發(fā)生在兩個"旁路包含" 塊913、914中,從而產(chǎn)生具有來自所包含的旁路聲道的所限定部分的元對象X FGQ及XBG0。
[0187] 在響度估計單元921、922、923中估計這兩個元對象的感知響度Lbypass、Lfgq及Lbgo。 然后,此響度信息在元對象響度信息估計器925中變換為適當(dāng)編碼,然后被傳輸和/或儲存。
[0188] 實際SA0C編碼器及解碼器按照預(yù)期操作,從而自對象提取對象邊信息、建立下混 信號X、且將該信息傳輸和/或儲存至解碼器??赡艿呐月仿暤肋B同其他信息一起被傳輸和/ 或儲存至解碼器。
[0189] SA0C-DE解碼器945接收增益值"對話增益"作為用戶輸入?;诖溯斎爰八邮盏?下混信息,SA0C解碼器945確定呈現(xiàn)信息。然后,SA0C解碼器945產(chǎn)生所呈現(xiàn)的輸出場景作為 信號Y。此外,其產(chǎn)生應(yīng)該應(yīng)用于可能旁路信號Xbypass的增益因子(及延遲值)。
[0190] "旁路包含"單元955連同所呈現(xiàn)的輸出場景及旁路信號一起接收此信息,且建立 完整輸出場景信號。SA0C解碼器945也產(chǎn)生一組元對象增益值,這些增益值的量取決于元對 象分組及期望的響度信息形式。
[0191] 將增益值提供至混合響度估計器960,混合響度估計器960還從編碼器接收元對象 響度信息。
[0192] 然后,混合響度估計器960能夠確定期望的響度信息,期望的響度信息包含但不限 于下混信號的響度、所呈現(xiàn)輸出場景的響度和/或下混信號與所呈現(xiàn)輸出場景之間的響度 差異。
[0193] 在一些實施方式中,響度信息自身是足夠的,而在其他實施方式中,希望的是取決 于所確定的響度信息來處理完整輸出。此處理可以例如為補(bǔ)償下混信號與所呈現(xiàn)輸出場景 之間的任何可能響度差異。例如由響度處理單元970進(jìn)行的此處理將在廣播場景中有意義, 因為其將減少所感知信號響度的改變而無關(guān)于用戶互動(對輸入"對話增益"的設(shè)定)。
[0194] 此特定實施方式中的響度相關(guān)處理包括多個新特征。特別是,F(xiàn)G0、BG0及可能的旁 路聲道在最終聲道配置中預(yù)先混合,使得可通過簡單地將兩個預(yù)先混合的信號相加在一起 而進(jìn)行下混(例如,下混矩陣系數(shù)1),這一點構(gòu)成了新特征。此外,作為另一新特征,估計FG0 與BG0的平均響度,且計算差異。此外,對象混合于所傳輸?shù)南禄煨盘栔小4送?,作為另一?特征,將響度差異信息包含至所傳輸?shù)倪呅畔ⅰ#ㄐ?此外,解碼器使用該邊信息用于(虛擬 地)分離對象,且使用基于下混信息及用戶輸入修改增益的呈現(xiàn)信息來重新組合這些對象。 此外,作為另一新特征,解碼器使用修改增益及所傳輸?shù)捻懚刃畔砉烙嬇c默認(rèn)下混相比 的系統(tǒng)輸出的平均響度的改變。
[0195] 在下文中,提供實施方式的形式描述。
[0196] 假定當(dāng)對對象求和時對象響度值的特征類似于能量值的對數(shù),即響度值必須變換 至線性域,在該處相加,且最終變換回至對數(shù)域。通過BS. 1770的定義啟示了這一點,現(xiàn)在介 紹響度測量(為簡單起見,聲道的數(shù)目設(shè)定為1,但相同原理可適用于在聲道上適當(dāng)求和的 多聲道信號)。
[0197] 具有均方能量ei的第i個K濾波信號21的響度定義為
[0198] Li = c+101ogioei,
[0199] 其中c為偏移常數(shù)。例如,c可為-0.691。由此,可通過下式自響度確定信號的能量
[0203]且此總和信號的響度由此為
[0205]若信號不是不相關(guān),則在對總和信號的能量求近似時必須考慮相關(guān)系數(shù)C1>J:
[0207]其中,第i個對象與第j個對象之間的交叉能量ei,j定義為
[0209] 其中,-1 SCy < 1為兩個對象i與j之間的相關(guān)系數(shù)。當(dāng)兩個對象不相關(guān)時,相關(guān)系 數(shù)等于〇,且當(dāng)兩個對象相同時,相關(guān)系數(shù)等于1。
[0210] 利用待在混合過程中應(yīng)用于信號的混合權(quán)重8,來進(jìn)一步擴(kuò)展該模型,即
總和信號的能量將為 ,
[0212] 且可如前所述自此獲得混合信號的響度,其中
[0213] LsuM=c+101ogi〇esuM〇
[0214] 兩個信號的響度之間的差可估計為
[0215] AL(i, j)=Li-Lj〇
[0216] 若現(xiàn)在使用如前所述的響度定義,則此可寫為
[0218]可觀察到其為信號能量的函數(shù)。若現(xiàn)在需要估計具有可能不同的混合權(quán)重g1&h1 的兩個如下表示的混合之間的響度差異
[0220]則此差可用下式進(jìn)行估計
[0222]在對象不相關(guān)的情況下(Cw = 0,Wy且(^ = 1,的'=刀,差異估計變?yōu)?br>[0224] 在下文中,考慮差編碼。
[0225] 可以將每對象響度值編碼為與所選基準(zhǔn)對象的響度的差:
[0226] Ki = Li-LREF,
[0227] 其中,LREF為基準(zhǔn)對象的響度。此編碼在不需要絕對響度值作為結(jié)果的情況下是有 益的,這是因為現(xiàn)在有必要傳輸?shù)闹瞪倭艘粋€,且響度差異估計可寫為:
[0229]或在對象不相關(guān)的情況下寫為:
[0231]在下文中,考慮了對話增強(qiáng)場景。
[0232]再次考慮對話增強(qiáng)的應(yīng)用場景。在解碼器中限定呈現(xiàn)信息的自由度僅限于改變兩 個元對象的水平。此外,假定兩個元對象不相關(guān),即CFCQ,BCQ = 0。若元對象的下混權(quán)重為hFC0 及hBGQ,且以增益fFGQ及fBGQ來呈現(xiàn)這些元對象,則相對于默認(rèn)下混的輸出響度為:
[0234] 若期望輸出與默認(rèn)下混中具有相同響度,則上式也是所需要的補(bǔ)償。
[0235] 可以認(rèn)為AL(A,B)是響度補(bǔ)償值,其可由解碼器的信號處理器120傳輸。AL(A,B) 也可以被命名為響度改變值,且因此實際補(bǔ)償值可為倒數(shù)值?;蛘?,其也可使用"響度補(bǔ)償 因子"來命名?因此,本文檔上文中提及的響度補(bǔ)償值lev將對應(yīng)于下文的值g A。
[0236] 例如,gA = l(TAL(A'B)/2()l/AL(A,B)可應(yīng)用為經(jīng)修改音頻信號的每一聲道上的放大 因子,該經(jīng)修改音頻信號是通過將呈現(xiàn)信息應(yīng)用于音頻輸入信號而產(chǎn)生的。g△的此等式在 線性域中有效。在對數(shù)域中,該等式將不同,例如1/ A L(A,B),且相應(yīng)地應(yīng)用該等式。
[0237] 若下混過程經(jīng)簡化而使得兩個元對象可以以單位權(quán)重混合以獲得下混信號,即, hFG0 = hBGQ = l,并且將兩個對象的呈現(xiàn)增益表示為gFGQ及gBGQ,則將響度改變的等式簡化為
[0239] 再次,可以認(rèn)為AL(A,B)是通過信號處理器120確定的響度補(bǔ)償值。
[0240] 通常,可以認(rèn)為gFGQ是前景對象FG0(前景對象組)的呈現(xiàn)增益,且可以認(rèn)為gBGQ是背 景對象BG0(背景對象組)的呈現(xiàn)增益。
[0241] 如前所述,可以傳輸響度差異而非絕對響度。將基準(zhǔn)響度定義為FG0元對象的響度 Lref = Lfgo,即,Kfgo = Lfg〇-Lref = 0 且Kbgo = Lbg〇-Lref = Lbgo-Lfgo?,F(xiàn)在,響度改變量為
[0243] 如同SA0C-DE中的情況那樣,也可以兩個元對象不具有各自的比例因子,而是所述 對象中的一個未經(jīng)修改,而另一個衰減以獲得對象之間的正確混合比率。在此呈現(xiàn)設(shè)定中, 輸出的響度將低于默認(rèn)混合的響度,且響度的改變?yōu)椋?br> [0247] 此形式已經(jīng)相當(dāng)簡單,且相當(dāng)無關(guān)于已使用的響度測量。唯一的現(xiàn)實要求為,響度 值應(yīng)在指數(shù)域中求和。可以傳輸/儲存信號能量值而非響度值,因為兩者具有緊密關(guān)聯(lián)。
[0248] 在上式中的每個中,可以認(rèn)為AL(A,B)是響度補(bǔ)償值,其可由解碼器的信號處理 器120傳輸。
[0249] 在下文中,考慮示例情況。通過兩個示例信號說明所提供構(gòu)思的準(zhǔn)確性。兩個信號 皆具有5.1下混,環(huán)繞及LFE聲道自SA0C處理略過。
[0250]使用兩個主要方法:一個方法("3項")具有三個元對象:FG0、BG0及旁路聲道,例 如,
[0251] X=Xfgq+Xbgq+Xbypass,
[0252] 而另一個方法("2項")具有兩個元對象,例如:
[0253] X=Xfgo+Xbgo〇
[0254] 在2項方法中,旁路聲道可例如與BG0混合在一起以進(jìn)行元對象響度估計。對兩個 (或所有三個)對象的響度以及下混信號的響度進(jìn)行估計,且將值進(jìn)行儲存。
[0255] 呈現(xiàn)指令對于這兩個方法分別具有以下形式
[0259]增益值例如根據(jù)下式來確定:
[0261] 其中FG0增益gFG〇在-24至+24dB間變化。
[0262] 呈現(xiàn)輸出場景,測量響度,且計算自下混信號響度的衰減。
[0263] 此結(jié)果用具有圓圈標(biāo)記的藍(lán)線顯示于圖10及圖11中。圖10描繪了測量的響度改變 及使用所提供構(gòu)思用于以純參數(shù)方式估計響度改變的結(jié)果的第一圖解,且圖11描繪其第二 圖解。
[0264] 接下來,使用所儲存的元對象響度值及下混信息以及呈現(xiàn)信息來以參數(shù)方式估計 自下混的衰減。用具有方形標(biāo)記的綠線圖示使用三個元對象的響度估計,且用具有星形標(biāo) 記的紅線圖示使用兩個元對象的響度估計。
[0265] 從圖中可看出,2項方法及3項方法提供了實際上相同的結(jié)果,且其皆相當(dāng)好地近 似于測量值。
[0266] 所提供的構(gòu)思展現(xiàn)多個優(yōu)點。例如,所提供的構(gòu)思允許自形成混合的分量信號的 響度來估計混合信號的響度。此舉的益處為可一次估計分量信號響度,且可針對任何混合 以參數(shù)方式獲得混合的響度估計而無需實際基于信號的響度估計。這在需要對各種混合進(jìn) 行響度估計的總體系統(tǒng)的計算效率上提供了相當(dāng)大的改進(jìn)。例如,當(dāng)最終用戶改變呈現(xiàn)設(shè) 定時,輸出的響度估計立即可用。
[0267] 在一些應(yīng)用中,例如當(dāng)符合EBU R128推薦時,整個節(jié)目的平均響度很重要。若基于 接收信號進(jìn)行接收器中的響度估計,例如在廣播場景中,則估計僅在已接收到整個節(jié)目之 后才收斂至平均響度。因此,對響度的任何補(bǔ)償將具有誤差或出現(xiàn)時間變化。當(dāng)根據(jù)所提出 的內(nèi)容來估計分量對象的響度且傳輸響度信息時,可以在接收器中無延遲地估計平均混合 響度。
[0268] 若期望輸出信號的平均響度保持(近似)恒定而無關(guān)于呈現(xiàn)信息的改變,則出于此 原因,所提供的構(gòu)思能夠確定補(bǔ)償因子。解碼器中為此而所需的計算的計算復(fù)雜性可忽略, 因此可以將該功能性添加至任何解碼器。
[0269] 存在以下情況:輸出的絕對響度水平并不重要,但重要的在于確定響度自基準(zhǔn)場 景的改變。在這樣的情況下,對象的絕對水平并不重要,而其相對水平才是重要的。這允許 將對象中的一個定義為基準(zhǔn)對象且相對于此基準(zhǔn)對象的響度表示其他對象的響度??紤]到 響度信息的傳輸和/或儲存,此舉具有一些益處。
[0270] 首先,不必傳輸基準(zhǔn)響度水平。在兩個元對象的應(yīng)用情況中,這將待傳輸?shù)臄?shù)據(jù)量 減半。第二益處涉及響度值的可能量化及表示。由于對象的絕對水平可為幾乎任何情況,因 此絕對響度值亦可幾乎為任何情況。另一方面,相對響度值被假定為具有〇平均值及圍繞平 均值的形式相當(dāng)良好的分布。各個表示形式之間的差異允許以準(zhǔn)確度潛在較高的下述方式 來限定相對表示的量化柵格,該方式中經(jīng)量化的表示形式具有相同數(shù)目的比特。
[0271] 圖12圖示了用于進(jìn)行響度補(bǔ)償?shù)牧硪粚嵤┓绞?。在圖12中,可進(jìn)行響度補(bǔ)償以例 如補(bǔ)償響度損失。為此,例如可使用來自DE+controljnfc^Wl^DEjoudness+diff^ dialogue( =Kfgq)及DE_loudness_difT_background( =Kbgq)。此處,DE_control_info可指 定高級干凈音頻"對話增強(qiáng)"(DE)控制信息
[0272] 響度補(bǔ)償是通過將增益值"g"應(yīng)用于SA0C-DE輸出信號及旁路聲道(在多聲道信號 的情況下)而實現(xiàn)。
[0273] 在圖12的實施方式中,如下進(jìn)行此操作:
[0274] 使用有限對話修改增益值來確定前景對象(FG0,例如,對話)及背景對象(BG0, 例如,周圍環(huán)境)的有效增益。此操作由"增益映射"塊1220進(jìn)行,"增益映射"塊1220產(chǎn)生增 益值 IHFG0 及 mBGOo
[0275] "輸出響度估計器"塊1230使用響度信息KFGQ及KBGQ及有效增益值m FGQ及mBGQ來估計 與默認(rèn)下混情況相比的此可能響度改變。接著將該改變映射至"響度補(bǔ)償因子",該響度補(bǔ) 償因子應(yīng)用于輸出聲道以用于產(chǎn)生最終"輸出信號"。
[0276] 應(yīng)用以下步驟來進(jìn)行響度補(bǔ)償:
[0277] -自SA0C-DE解碼器(如在條款12.8 "SA0C-DE的修改范圍控制" [DE]中所定義的)接 收受限增益值mG,且確定所應(yīng)用的FG0/BG0增益:
[0279] _獲得兀對象響度彳目息Kfgci及Kbgo。
[0280] -利用下式計算與默認(rèn)下混相比的輸出響度的改變
[0282] -計算響度補(bǔ)償增益gA = 10-Q'Q5AL。
[0283] 且N為輸出 9 聲道的總數(shù)目。在圖12中,增益調(diào)整分成兩個步驟:在可能"旁路聲道"與"SA0C-DE輸出聲 道"組合之前用mBCQ調(diào)整可能"旁路聲道"的增益,接著將共同增益g△應(yīng)用于所有經(jīng)組合聲 道。此僅為增益調(diào)整操作的一種可能重排序,而此處g將兩個增益調(diào)整步驟組合成一個增益 調(diào)整。
[0284] 將比例值g應(yīng)用于由"SA0C-DE輸出聲道" Ysaqc及可能時間對準(zhǔn)的"旁路聲道"Ybypass 組成的音頻聲道Yfull: Yfull = Ysaqc U Ybypass〇
[0285] 將比例值g應(yīng)用于音頻聲道YFULL是由增益調(diào)整單元1240進(jìn)行的。
[0286]可以認(rèn)為如上文所計算的AL是響度補(bǔ)償值。通常,mFGQ指示前景對象FG0(前景對 象組)的呈現(xiàn)增益,且mBGQ指示背景對象BG0(背景對象組)的呈現(xiàn)增益。
[0287] 盡管在設(shè)備的上下文中已描述了一些方面,但清楚的是,這些方面也代表對應(yīng)方 法的描述,其中,塊或裝置對應(yīng)于方法步驟或方法步驟的特征。類似地,在方法步驟的上下 文中所描述的各方面也代表對應(yīng)設(shè)備的對應(yīng)塊或項或特征的描述。
[0288] 創(chuàng)造性的分解信號可儲存在數(shù)字儲存介質(zhì)上或可在諸如無線傳輸介質(zhì)或有線傳 輸介質(zhì)的傳輸介質(zhì)例如因特網(wǎng)上傳輸。
[0289] 取決于某些實施要求,本發(fā)明的實施方式可在硬件中或軟件中實施??墒褂脙Υ?有電可讀控制信號的數(shù)字儲存介質(zhì)例如軟磁盤、DVD、⑶、ROM、PROM、EPROM、EEPR0M或閃存來 進(jìn)行該實施方案,該數(shù)字儲存介質(zhì)與可編程計算機(jī)系統(tǒng)協(xié)作(或能夠與可編程計算機(jī)系統(tǒng) 協(xié)作),使得進(jìn)行各個方法。
[0290] 根據(jù)本發(fā)明的一些實施方式包括具有電可讀控制信號的非易失性數(shù)據(jù)載體,其能 夠與可編程計算機(jī)系統(tǒng)協(xié)作,使得進(jìn)行本文所述方法之一。
[0291] 通常,本發(fā)明的實施方式可實施為具有程序代碼的計算機(jī)程序產(chǎn)品,當(dāng)該計算機(jī) 程序產(chǎn)品在計算機(jī)上運(yùn)行時,該程序代碼操作以用于進(jìn)行所述方法中的一個。該程序代碼 可例如儲存于機(jī)器可讀載體上。
[0292] 其他實施方式包括儲存于機(jī)器可讀載體上的用于進(jìn)行本文所述方法中的一個的 計算機(jī)程序。
[0293]換言之,本創(chuàng)造性方法的實施方式因此為具有程序代碼的計算機(jī)程序,當(dāng)該計算 機(jī)程序在計算機(jī)上運(yùn)行時,該程序代碼用于進(jìn)行本文所述的方法中的一個。
[0294] 本發(fā)明的方法的另一實施方式因此為數(shù)據(jù)載體(或數(shù)字儲存介質(zhì),或計算機(jī)可讀 介質(zhì)),其上面記錄有用于進(jìn)行本文所述方法中的一個的計算機(jī)程序。
[0295] 本創(chuàng)造性方法的另一實施方式因此為表示用于進(jìn)行本文所述方法中的一個的計 算機(jī)程序的數(shù)據(jù)流或信號序列。該數(shù)據(jù)流或信號序列可例如被配置成經(jīng)由數(shù)據(jù)通信連接例 如經(jīng)由因特網(wǎng)傳輸。
[0296] 另一實施方式包括一種處理裝置,例如計算機(jī)或可編程邏輯設(shè)備,其被配置成或 適于進(jìn)行本文所述方法中的一個。
[0297] 另一實施方式包括一種計算機(jī),其上安裝有用于進(jìn)行本文所述方法中的一個的計 算機(jī)程序。
[0298] 在一些實施方式中,一種可編程邏輯設(shè)備(例如,現(xiàn)場可編程門陣列)可用以進(jìn)行 本文所述方法的功能性中的一些或全部。在一些實施方式中,現(xiàn)場可編程門陣列可與微處 理器協(xié)作,以便進(jìn)行本文所述方法中的一個。通常,所述方法優(yōu)選地由任何硬設(shè)備進(jìn)行。 [0299]上文所述的實施方式僅示出了本發(fā)明的原理。應(yīng)理解,本文描述的布置及細(xì)節(jié)的 修改及改變對于本領(lǐng)域的技術(shù)人員來說是顯然的。因此,本發(fā)明僅受限于所附的專利權(quán)利 要求的范圍,而并非受限于本文中以對實施方式的描述和解釋的方式所展現(xiàn)的具體細(xì)節(jié)。
[0300] 參考文獻(xiàn)
[0301] [BCC]C.Faller and F·Baumgarte,"Binaural Cue Coding-Part 11: Schemes and applications",IEEE Trans.on Speech and Audio Proc.,vol.11,no.6,Nov.2003.
[0302] [EBU]EBU Recommendation R 128"Loudness normalization and permitted maximum level of audio signals",Geneva,2011.
[0303] [JSC]C.Faller,"Parametric Joint-Coding of Audio Sources",120th AES Convention, Paris,2006.
[0304] [ISS1]M.Parvaix and L.Girin:αInformed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP,2010.
[0305] [ISS2]M.Parvaix,L.Girin,J.-M.Brossier:UA watermarking-based method for informed source separation of audio signals with a single sensor',,IEEE Transactions on Audio,Speech and Language Processing,2010.
[0306] [ISS3]A.Liutkus and J.Pinel and R.Badeau and L.Girin and G.Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal,2011.
[0307] [ISS4]A.0zerov,A.LiutkusJR.BadeauJG.Richard: uInformed source separation: source coding meets source separation',,IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,2011.
[0308] [ISS5]S.Zhang and L.Girin:uAn Informed Source Separation System for Speech Signals",INTERSPEECH,2011.
[0309] [ISS6]L.Girin and J.Pinel:αInformed Audio Source Separation from Compressed Linear Stereo Mixtures",AES 42nd International Conference: Semantic Audio,2011.
[0310] [ITU]International Telecommunication Union:"Recommendation ITU-R BS.177〇-3-Algorithms to measure audio programme loudness and true-peak audio level",Geneva,2012.
[0311] [SA0Cl]J.Herre,S.Disch,J.Hilpert,0.Hellmuth:"From SAC To SAOC-Recent Developments in Parametric Coding of Spatial Audio",22nd Regional UK AES Conf erence,Cambridge,UK,Apri1 2007.
[0312] [SA0C2]J. Engdeg|rd,B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A. HSlzer, L. Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W·Oomen:"Spatial Audio Object Coding(SAOC)-The Upcoming MPEG Standard on Parametric Object Based Audio Coding",124th AES Convention,Amsterdam 2008.
[0313] [SA0C]IS0/IEC,"MPEG audio technologies-Part 2:Spatial Audio Object CodingCSAOC)" JS0/IEC JTC1/SC29/WG11(MPEG)International Standard 23003-2.
[0314] [EP]EP 2146522 A1:S.Schreiner,W.Fiesel,M.Neusinger,0·Hellmuth, R·Sperschneider,"Apparatus and method for generating audio output signals using object based metadata",2010.
[0315] [DE]IS0/IEC,"MPEG audio technologies-Part 2: Spatial Audio 0bject Coding(SAOC)-Amendment 3'Dialogue Enhancement",IS0/IEC 23003-2:2010/DAM 3, Dialogue Enhancement.
[0316] [BRE]W0 2008/035275 A2.
[0317] [SCH]EP 2 146 522 Al.
[0318] [ENG]W0 2008/046531 Al.
【主權(quán)項】
1. 一種用于產(chǎn)生包括一個或更多個音頻輸出聲道的音頻輸出信號的解碼器,其中,所 述解碼器包括: 接收接口(110),用于接收包括多個音頻對象信號的音頻輸入信號、用于接收關(guān)于所述 音頻對象信號的響度信息、以及用于接收指示所述音頻對象信號中的一個或更多個是應(yīng)放 大還是裝減的呈現(xiàn)?目息;以及 信號處理器(120),用于產(chǎn)生所述音頻輸出信號的所述一個或更多個音頻輸出聲道, 其中,所述信號處理器(120)被配置成根據(jù)所述響度信息且根據(jù)所述呈現(xiàn)信息來確定 響度補(bǔ)償值,并且 其中,所述信號處理器(120)被配置成根據(jù)所述呈現(xiàn)信息且根據(jù)所述響度補(bǔ)償值,從所 述音頻輸入信號產(chǎn)生所述音頻輸出信號的所述一個或更多個音頻輸出聲道。2. 根據(jù)權(quán)利要求1所述的解碼器,其中,所述信號處理器(120)被配置成根據(jù)所述呈現(xiàn) 信息且根據(jù)所述響度補(bǔ)償值從所述音頻輸入信號產(chǎn)生所述音頻輸出信號的所述一個或更 多個音頻輸出聲道,使得所述音頻輸出信號的響度等于所述音頻輸入信號的響度,或使得 所述音頻輸出信號的響度比經(jīng)修改音頻信號的響度更接近于所述音頻輸入信號的響度,所 述經(jīng)修改音頻信號是通過根據(jù)所述呈現(xiàn)信息放大或衰減所述音頻輸入信號的所述音頻對 象信號而修改所述音頻輸入信號來產(chǎn)生的。3. 根據(jù)權(quán)利要求2所述的解碼器, 其中,所述信號處理器(120)被配置成通過修改所述音頻輸入信號來產(chǎn)生所述經(jīng)修改 音頻信號,其中通過根據(jù)所述呈現(xiàn)信息放大或衰減所述音頻輸入信號的所述音頻對象信號 而修改所述音頻輸入信號,并且 其中,所述信號處理器(120)被配置成通過將所述響度補(bǔ)償值應(yīng)用于所述經(jīng)修改音頻 信號而產(chǎn)生所述音頻輸出信號,使得所述音頻輸出信號的響度等于所述音頻輸入信號的響 度,或使得所述音頻輸出信號的響度比所述經(jīng)修改音頻信號的響度更接近于所述音頻輸入 信號的響度。4. 根據(jù)前述權(quán)利要求之一所述的解碼器, 其中,所述音頻輸入信號的所述音頻對象信號中的每個被指派給兩個或更多個組中確 切的一個組,其中,所述兩個或更多個組中的每個組包括所述音頻輸入信號的所述音頻對 象信號中的一個或更多個, 其中,所述接收接口(110)被配置成接收所述兩個或更多個組中的每個組的響度值作 為所述響度信息, 其中,所述信號處理器(120)被配置成根據(jù)所述兩個或更多個組中的每個組的響度值 來確定所述響度補(bǔ)償值,并且 其中,所述信號處理器(120)被配置成根據(jù)所述響度補(bǔ)償值從所述音頻輸入信號產(chǎn)生 所述音頻輸出信號的所述一個或更多個音頻輸出聲道。5. 根據(jù)權(quán)利要求4所述的解碼器,其中,所述兩個或更多個組中的至少一個組包括所述 音頻對象信號中的兩個或更多個。6. 根據(jù)權(quán)利要求1至權(quán)利要求3之一所述的解碼器, 其中,所述音頻輸入信號的所述音頻對象信號中的每個被指派給多于兩個組中的確切 的一個組,其中所述多于兩個組中的每個組包括所述音頻輸入信號的所述音頻對象信號中 的一個或更多個, 其中,所述接收接口(110)被配置成接收所述多于兩個組中的每個組的響度值作為所 述響度信息, 其中,所述信號處理器(120)被配置成根據(jù)所述多于兩個組中的每個組的響度值來確 定所述響度補(bǔ)償值,并且 其中,所述信號處理器(120)被配置成根據(jù)所述響度補(bǔ)償值從所述音頻輸入信號產(chǎn)生 所述音頻輸出信號的所述一個或更多個音頻輸出聲道。7. 根據(jù)權(quán)利要求6所述的解碼器,其中,所述多于兩個組中的至少一個組包括所述音頻 對象信號中的兩個或更多個。8. 根據(jù)權(quán)利要求4至權(quán)利要求7之一所述的解碼器, 其中,所述信號處理器(120)被配置成根據(jù)下式確定所述響度補(bǔ)償值或者根據(jù)下式確定所述響度補(bǔ)償值 其中,△ L是所述響度補(bǔ)償?shù)?,其中,i指示所述音頻對象信號中的第i個音頻對象信號, 其中,U是所述第i個音頻對象信號的響度, 其中,&是所述第i個音頻對象信號的第一混合權(quán)重, 其中,lu是所述第i個音頻對象信號的第二混合權(quán)重, 其中,c是常數(shù)值,并且 其中,N是數(shù)目。9. 根據(jù)權(quán)利要求4至權(quán)利要求7之一所述的解碼器, 其中,所述信號處理器(120)被配置成根據(jù)下式確定所述響度補(bǔ)償值 其中,A L是所述響度補(bǔ)償值,其中,i指示所述音頻對象信號中的第i個音頻對象信號, 其中,&是所述第i個音頻對象信號的第一混合權(quán)重, 其中,lu是所述第i個音頻對象信號的第二混合權(quán)重, 其中,N是數(shù)目,并且 其中,I是根據(jù)下式定義的 Κ? - Li-Lref ? 其中,U是所述第i個音頻對象信號的響度,并且 其中,lref是基準(zhǔn)對象的響度。10. 根據(jù)權(quán)利要求4或權(quán)利要求5所述的解碼器, 其中,所述音頻輸入信號的所述音頻對象信號中的每個被指派給作為所述兩個或更多 個組的確切的兩個組中的確切的一個組, 其中,所述音頻輸入信號的所述音頻對象信號中的每個被指派給所述確切的兩個組中 的前景對象組或所述確切的兩個組中的背景對象組, 其中,所述接收接口( 110)被配置成接收所述前景對象組的響度值, 其中,所述接收接口( 110)被配置成接收所述背景對象組的響度值, 其中,所述信號處理器(120)被配置成根據(jù)所述前景對象組的響度值且根據(jù)所述背景 對象組的響度值來確定所述響度補(bǔ)償值,并且 其中,所述信號處理器(120)被配置成根據(jù)所述響度補(bǔ)償值從所述音頻輸入信號產(chǎn)生 所述音頻輸出信號的所述一個或更多個音頻輸出聲道。11. 根據(jù)權(quán)利要求10所述的解碼器, 其中,所述信號處理器(120)被配置成根據(jù)下式確定所述響度補(bǔ)償值其中,A L是所述響度補(bǔ)償值, 其中,Krai指示所述前景對象組的響度值, 其中,Κ_指示所述背景對象組的響度值, 其中,指示所述前景對象組的呈現(xiàn)增益,且 其中,mBCQ指示所述背景對象組的呈現(xiàn)增益。12. 根據(jù)權(quán)利要求10所述的解碼器, 其中,所述信號處理器(120)被配置成根據(jù)下式確定所述響度補(bǔ)償值其中,A L是所述響度補(bǔ)償值, 其中,L?指示所述前景對象組的響度值, 其中,LB?指示所述背景對象組的響度值, 其中,g?指示所述前景對象組的呈現(xiàn)增益,且 其中,gBG〇指示所述背景對象組的呈現(xiàn)增益。13. 根據(jù)前述權(quán)利要求之一所述的解碼器, 其中,所述接收接口(110)被配置成接收包括一個或更多個下混聲道的下混信號作為 所述音頻輸入信號,其中所述一個或更多個下混聲道包括所述音頻對象信號,并且其中所 述一個或更多個下混聲道的數(shù)目小于所述音頻對象信號的數(shù)目, 其中,所述接收接口(110)被配置成接收指示所述音頻對象信號如何混合在所述一個 或更多個下混聲道內(nèi)的下混信息, 其中,所述信號處理器(120)被配置成根據(jù)所述下混信息、根據(jù)所述呈現(xiàn)信息且根據(jù)所 述響度補(bǔ)償值,從所述音頻輸入信號產(chǎn)生所述音頻輸出信號的所述一個或更多個音頻輸出 聲道。14. 根據(jù)權(quán)利要求13所述的解碼器, 其中,所述接收接口(110)被配置成接收一個或更多個其他旁路音頻對象信號,其中, 所述一個或更多個其他旁路音頻對象信號未混合在所述下混信號內(nèi), 其中,所述接收接口(110)被配置成接收所述響度信息,所述響度信息指示關(guān)于混合在 所述下混信號內(nèi)的所述音頻對象信號的響度的信息且指示關(guān)于未混合在所述下混信號內(nèi) 的所述一個或更多個其他旁路音頻對象信號的響度的信息,并且 其中,所述信號處理器(120)被配置成根據(jù)關(guān)于混合在所述下混信號內(nèi)的所述音頻對 象信號的響度的信息且根據(jù)關(guān)于未混合在所述下混信號內(nèi)的所述一個或更多個其他旁路 音頻對象信號的響度的信息來確定所述響度補(bǔ)償值。15. -種編碼器,包括: 基于對象的編碼單元(210;710),用于對多個音頻對象信號進(jìn)行編碼以獲得包括所述 多個音頻對象信號的編碼音頻信號;以及 對象響度編碼單元(220;720;820),用于對關(guān)于所述音頻對象信號的響度信息進(jìn)行編 碼, 其中,所述響度信息包括一個或更多個響度值,其中所述一個或更多個響度值中的每 個取決于所述音頻對象信號中的一個或更多個。16. 根據(jù)權(quán)利要求15所述的編碼器, 其中,所述編碼音頻信號的所述音頻對象信號中的每個被指派給兩個或更多個組中的 確切的一個組,其中,所述兩個或更多個組中的每個組包括所述編碼音頻信號的所述音頻 對象信號中的一個或更多個, 其中,所述對象響度編碼單元(220;720;820)被配置成通過針對所述兩個或更多個組 中的每個組確定響度值來確定所述響度信息的所述一個或更多個響度值,其中所述組的所 述響度值指示所述組的所述一個或更多個音頻對象信號的總響度。17. 根據(jù)權(quán)利要求15所述的編碼器, 其中,所述基于對象的編碼單元(210;710)被配置成接收所述音頻對象信號,其中所述 音頻對象信號中的每個被指派給確切的兩個組中的確切的一個組,其中所述確切的兩個組 中的每個組包括所述音頻對象信號中的一個或更多個, 其中,所述基于對象的編碼單元(210;710)被配置成對所述確切的兩個組包括的所述 音頻對象信號進(jìn)行下混以獲得包括一個或更多個下混音頻聲道的下混信號作為所述編碼 音頻信號,其中所述一個或更多個下混聲道的數(shù)目小于所述確切的兩個組所包括的所述音 頻對象信號的數(shù)目, 其中,所述對象響度編碼單元(220; 720; 820)被指派成接收一個或更多個其他旁路音 頻對象信號,其中所述一個或更多個其他旁路音頻對象信號中的每個被指派給第三組,其 中所述一個或更多個其他旁路音頻對象信號中的每個不被所述第一組包括且不被所述第 二組包括,其中所述基于對象的編碼單元(210;710)被配置成不將所述一個或更多個其他 旁路音頻對象信號下混在所述下混信號內(nèi),并且 其中,所述對象響度編碼單元(220;720;820)被配置成確定所述響度信息的第一響度 值、第二響度值和第三響度值,所述第一響度值指示所述第一組的所述一個或更多個音頻 對象信號的總響度,所述第二響度值指示所述第二組的所述一個或更多個音頻對象信號的 總響度,且所述第三響度值指示所述第三組的所述一個或更多個其他旁路音頻對象信號的 總響度,或者,所述對象響度編碼單元(220;720;820)被配置成確定所述響度信息的第一響 度值和第二響度值,該第一響度值指示所述第一組的所述一個或更多個音頻對象信號的總 響度,且該第二響度值指示所述第二組的所述一個或更多個音頻對象信號和所述第三組的 所述一個或更多個其他旁路音頻對象信號的總響度。18. -種系統(tǒng),包括: 根據(jù)權(quán)利要求15至權(quán)利要求17之一所述的編碼器(310),用于對多個音頻對象信號進(jìn) 行編碼以獲得包括所述多個音頻對象信號的編碼音頻信號,以及 根據(jù)權(quán)利要求1至權(quán)利要求14之一所述的解碼器(320),用于產(chǎn)生包括一個或更多個音 頻輸出聲道的音頻輸出信號, 其中,所述解碼器(320)被配置成接收所述編碼音頻信號作為音頻輸入信號,以及接收 所述響度信息, 其中,所述解碼器(320)被配置成還接收呈現(xiàn)信息, 其中,所述解碼器(320)被配置成根據(jù)所述響度信息且根據(jù)所述呈現(xiàn)信息來確定響度 補(bǔ)償值,并且 其中,所述解碼器(320)被配置成根據(jù)所述呈現(xiàn)信息且根據(jù)所述響度補(bǔ)償值從所述音 頻輸入信號產(chǎn)生所述音頻輸出信號的所述一個或更多個音頻輸出聲道。19. 一種產(chǎn)生包括一個或更多個音頻輸出聲道的音頻輸出信號的方法,其中,所述方法 包括: 接收包括多個音頻對象信號的音頻輸入信號; 接收關(guān)于所述音頻對象信號的響度信息; 接收指示所述音頻對象信號中的一個或更多個是應(yīng)放大還是衰減的呈現(xiàn)信息; 根據(jù)所述響度信息且根據(jù)所述呈現(xiàn)信息來確定響度補(bǔ)償值;以及 根據(jù)所述呈現(xiàn)信息且根據(jù)所述響度補(bǔ)償值從所述音頻輸入信號產(chǎn)生所述音頻輸出信 號的所述一個或更多個音頻輸出聲道。20. -種用于編碼的方法,包括: 對包括多個音頻對象信號的音頻輸入信號進(jìn)行編碼;以及 對關(guān)于所述音頻對象信號的響度信息進(jìn)行編碼,其中所述響度信息包括一個或更多個 響度值,其中所述一個或更多個響度值中的每個取決于所述音頻對象信號中的一個或更多 個。21. -種計算機(jī)程序,當(dāng)在計算機(jī)或信號處理器上執(zhí)行時用于實施根據(jù)權(quán)利要求19或 權(quán)利要求20所述的方法。
【文檔編號】G10L19/008GK105874532SQ201480064443
【公開日】2016年8月17日
【申請日】2014年11月27日
【發(fā)明人】約尼·保盧斯, 薩沙·迪施, 哈拉爾德·富克斯, 伯恩哈德·格里爾, 奧利弗·赫爾穆特, 阿德里安·穆爾塔扎, 法爾科·里德布施, 萊昂·特倫提夫
【申請人】弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會