2014年5月16日申請(qǐng)的題為“譯碼經(jīng)分解高階立體混響(HOA)音頻信號(hào)的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美國(guó)臨時(shí)申請(qǐng)案第61/994,794號(hào);
2014年5月28日申請(qǐng)的題為“譯碼經(jīng)分解高階立體混響(HOA)音頻信號(hào)的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美國(guó)臨時(shí)申請(qǐng)案第62/004,128號(hào);
2014年7月1日申請(qǐng)的題為“譯碼經(jīng)分解高階立體混響(HOA)音頻信號(hào)的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美國(guó)臨時(shí)申請(qǐng)案第62/019,663號(hào);
2014年7月22日申請(qǐng)的題為“譯碼經(jīng)分解高階立體混響(HOA)音頻信號(hào)的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美國(guó)臨時(shí)申請(qǐng)案第62/027,702號(hào);
2014年7月23日申請(qǐng)的題為“譯碼經(jīng)分解高階立體混響(HOA)音頻信號(hào)的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美國(guó)臨時(shí)申請(qǐng)案第62/028,282號(hào);
2014年8月1日申請(qǐng)的題為“譯碼經(jīng)分解高階立體混響(HOA)音頻信號(hào)的V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)”的美國(guó)臨時(shí)申請(qǐng)案第62/032,440號(hào);
前述所列各美國(guó)臨時(shí)申請(qǐng)案中的每一者以引用的方式并入本文中,如同在本文中按其相應(yīng)全文所闡述般。
技術(shù)領(lǐng)域
本發(fā)明涉及音頻數(shù)據(jù),且更確切地說(shuō),涉及高階立體混響音頻數(shù)據(jù)的譯碼。
背景技術(shù):
高階立體混響(HOA)信號(hào)(常常由多個(gè)球諧系數(shù)(SHC)或其它分層元素表示)為聲場(chǎng)的三維表示。HOA或SHC表示可按獨(dú)立于用以播放從SHC信號(hào)再現(xiàn)的多信道音頻信號(hào)的局部揚(yáng)聲器幾何布置的方式來(lái)表示聲場(chǎng)。SHC信號(hào)還可促進(jìn)后向兼容性,此是因?yàn)榭蓪HC信號(hào)再現(xiàn)為熟知且被高度采用的多信道格式(例如,5.1音頻信道格式或7.1音頻信道格式)。SHC表示因此可實(shí)現(xiàn)對(duì)聲場(chǎng)的更好表示,其還適應(yīng)后向兼容性。
技術(shù)實(shí)現(xiàn)要素:
大體上,描述用于基于一組碼向量有效率地表示一經(jīng)分解高階立體混響(HOA)音頻信號(hào)的v-向量(所述v-向量可表示相關(guān)聯(lián)的音頻對(duì)象的空間信息,例如寬度、形狀、方向及位置)的技術(shù)。所述技術(shù)可涉及:將所述v-向量分解成碼向量的加權(quán)總和,選擇多個(gè)權(quán)重及對(duì)應(yīng)碼向量的子集,將所述權(quán)重的所述所選擇的子集量化,及將碼向量的所述所選擇的子集編索引。所述技術(shù)可提供用于譯碼HOA音頻信號(hào)的改良的位速率。
在一個(gè)方面中,一種獲得多個(gè)高階立體混響(HOA)系數(shù)的方法,所述方法包括從位流獲得指示表示向量的多個(gè)權(quán)重值的數(shù)據(jù),所述向量包含于所述多個(gè)HOA系數(shù)的經(jīng)分解版本中。所述權(quán)重值中的每一者對(duì)應(yīng)于表示所述向量的包含一組碼向量的碼向量的加權(quán)總和中的多個(gè)權(quán)重中的相應(yīng)權(quán)重。所述方法進(jìn)一步包括基于所述權(quán)重值及所述碼向量重建構(gòu)所述向量。
在另一方面中,一種經(jīng)配置以獲得多個(gè)高階立體混響(HOA)系數(shù)的裝置,所述裝置包括一或多個(gè)處理器,所述一或多個(gè)處理器經(jīng)配置以從位流獲得指示表示向量的多個(gè)權(quán)重值的數(shù)據(jù),所述向量包含于所述多個(gè)HOA系數(shù)的經(jīng)分解版本中。所述權(quán)重值中的每一者對(duì)應(yīng)于表示所述向量且包含一組碼向量的碼向量的加權(quán)總和中的多個(gè)權(quán)重中的相應(yīng)權(quán)重。所述一或多個(gè)處理器經(jīng)進(jìn)一步配置以基于所述權(quán)重值及所述碼向量重建構(gòu)所述向量。所述裝置還包括經(jīng)配置以存儲(chǔ)所述經(jīng)重建構(gòu)的向量的存儲(chǔ)器。
在另一方面中,一種經(jīng)配置以獲得多個(gè)高階立體混響(HOA)系數(shù)的裝置,所述裝置包括:用于從位流獲得指示表示向量的多個(gè)權(quán)重值的數(shù)據(jù)的裝置,所述向量包含于所述多個(gè)HOA系數(shù)的經(jīng)分解版本中,所述權(quán)重值中的每一者對(duì)應(yīng)于表示所述向量的包含一組碼向量的碼向量的加權(quán)總和中的多個(gè)權(quán)重中的相應(yīng)權(quán)重;以及用于基于所述權(quán)重值及所述碼向量重建構(gòu)所述向量的裝置。
在另一方面中,一種非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體,其具有存儲(chǔ)于其上的指令,所述指令在經(jīng)執(zhí)行時(shí)使得一或多個(gè)處理器進(jìn)行以下操作:從位流獲得指示表示向量的多個(gè)權(quán)重值的數(shù)據(jù),所述向量包含于多個(gè)高階立體混響(HOA)系數(shù)的經(jīng)分解版本中,所述權(quán)重值中的每一者對(duì)應(yīng)于表示所述向量的包含一組碼向量的碼向量的加權(quán)總和中的多個(gè)權(quán)重中的相應(yīng)權(quán)重;以及基于所述權(quán)重值及所述碼向量重建構(gòu)所述向量。
在另一方面中,一種方法包括:基于一組碼向量確定表示向量的一或多個(gè)權(quán)重值,所述向量包含于多個(gè)高階立體混響(HOA)系數(shù)的經(jīng)分解版本中,所述權(quán)重值中的每一者對(duì)應(yīng)于表示所述向量的所述碼向量的加權(quán)總和中所包含的多個(gè)權(quán)重中的相應(yīng)權(quán)重。
在另一方面中,一種裝置,其包括:存儲(chǔ)器,其經(jīng)配置以存儲(chǔ)一組碼向量;以及一或多個(gè)處理器,其經(jīng)配置以基于所述組碼向量確定表示向量的一或多個(gè)權(quán)重值,所述向量包含于多個(gè)高階立體混響(HOA)系數(shù)的經(jīng)分解版本中,所述權(quán)重值中的每一者對(duì)應(yīng)于表示所述向量的所述碼向量的加權(quán)總和中所包含的多個(gè)權(quán)重中的相應(yīng)權(quán)重。
在另一方面中,一種設(shè)備,其包括用于關(guān)于多個(gè)高階立體混響(HOA)系數(shù)執(zhí)行分解以產(chǎn)生所述HOA系數(shù)的經(jīng)分解版本的裝置。所述設(shè)備進(jìn)一步包括用于基于一組碼向量確定表示向量的一或多個(gè)權(quán)重值的裝置,所述向量包含于所述HOA系數(shù)的所述經(jīng)分解版本中,所述權(quán)重值中的每一者對(duì)應(yīng)于表示所述向量的所述碼向量的加權(quán)總和中所包含的多個(gè)權(quán)重中的相應(yīng)權(quán)重。
在另一方面中,一種非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體,其具有存儲(chǔ)于其上的指令,所述指令在經(jīng)執(zhí)行時(shí)使得一或多個(gè)處理器進(jìn)行以下操作:基于一組碼向量確定表示向量的一或多個(gè)權(quán)重值,所述向量包含于多個(gè)高階立體混響(HOA)系數(shù)的經(jīng)分解版本中,所述權(quán)重值中的每一者對(duì)應(yīng)于表示所述向量的所述碼向量的加權(quán)總和中所包含的多個(gè)權(quán)重中的相應(yīng)權(quán)重。
在另一方面中,一種解碼指示多個(gè)高階立體混響(HOA)系數(shù)的音頻數(shù)據(jù)的方法,所述方法包括確定是否關(guān)于所述多個(gè)HOA系數(shù)的經(jīng)分解版本執(zhí)行向量解量化或標(biāo)量解量化。
在另一方面中,一種經(jīng)配置以解碼指示多個(gè)高階立體混響(HOA)系數(shù)的音頻數(shù)據(jù)的裝置,所述裝置包括:存儲(chǔ)器,其經(jīng)配置以存儲(chǔ)所述音頻數(shù)據(jù);以及一或多個(gè)處理器,其經(jīng)配置以確定是否關(guān)于所述多個(gè)HOA系數(shù)的經(jīng)分解版本執(zhí)行向量解量化或標(biāo)量解量化。
在另一方面中,一種編碼音頻數(shù)據(jù)的方法,所述方法包括確定是否關(guān)于多個(gè)高階立體混響(HOA)系數(shù)的經(jīng)分解版本執(zhí)行向量量化或標(biāo)量量化。
在另一方面中,一種解碼音頻數(shù)據(jù)的方法,所述方法包括選擇多個(gè)碼簿中的一者以在關(guān)于聲場(chǎng)的經(jīng)向量量化的空間分量執(zhí)行向量解量化時(shí)使用,所述經(jīng)向量量化的空間分量經(jīng)由對(duì)多個(gè)高階立體混響系數(shù)應(yīng)用分解而獲得。
在另一方面中,一種裝置,其包括:存儲(chǔ)器,其經(jīng)配置以存儲(chǔ)多個(gè)碼簿以在關(guān)于聲場(chǎng)的經(jīng)向量量化的空間分量執(zhí)行向量解量化時(shí)使用,所述經(jīng)向量量化的空間分量經(jīng)由對(duì)多個(gè)高階立體混響系數(shù)應(yīng)用分解而獲得;以及一或多個(gè)處理器,其經(jīng)配置以選擇所述多個(gè)碼簿中的一者。
在另一方面中,一種裝置,其包括:用于存儲(chǔ)多個(gè)碼簿以在關(guān)于聲場(chǎng)的經(jīng)向量量化的空間分量執(zhí)行向量解量化時(shí)使用的裝置,所述經(jīng)向量量化的空間分量經(jīng)由對(duì)多個(gè)高階立體混響系數(shù)應(yīng)用分解而獲得;以及用于選擇所述多個(gè)碼簿中的一者的裝置。
在另一方面中,一種非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體,其具有存儲(chǔ)于其上的指令,所述指令在經(jīng)執(zhí)行時(shí)使得一或多個(gè)處理器選擇多個(gè)碼簿中的一者以在關(guān)于聲場(chǎng)的經(jīng)向量量化的空間分量執(zhí)行向量解量化時(shí)使用,所述經(jīng)向量量化的空間分量經(jīng)由對(duì)多個(gè)高階立體混響系數(shù)應(yīng)用分解而獲得。
在另一方面中,一種編碼音頻數(shù)據(jù)的方法,所述方法包括選擇多個(gè)碼簿中的一者以在關(guān)于聲場(chǎng)的空間分量執(zhí)行向量量化時(shí)使用,所述空間分量經(jīng)由對(duì)多個(gè)高階立體混響系數(shù)應(yīng)用分解而獲得。
在另一方面中,一種裝置包括:存儲(chǔ)器,其經(jīng)配置以存儲(chǔ)多個(gè)碼簿以在關(guān)于聲場(chǎng)的空間分量執(zhí)行向量量化時(shí)使用,所述空間分量經(jīng)由對(duì)多個(gè)高階立體混響系數(shù)應(yīng)用分解而獲得。所述裝置還包括經(jīng)配置以選擇所述多個(gè)碼簿中的一者的一或多個(gè)處理器。
在另一方面中,一種裝置,其包括:用于存儲(chǔ)多個(gè)碼簿以在關(guān)于聲場(chǎng)的空間分量執(zhí)行向量量化時(shí)使用的裝置,所述空間分量經(jīng)由對(duì)多個(gè)高階立體混響系數(shù)應(yīng)用基于向量的合成而獲得;以及用于選擇所述多個(gè)碼簿中的一者的裝置。
在另一方面中,一種非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體,其具有存儲(chǔ)于其上的指令,所述指令在經(jīng)執(zhí)行時(shí)使得一或多個(gè)處理器選擇多個(gè)碼簿中的一者以在關(guān)于聲場(chǎng)的空間分量執(zhí)行向量量化時(shí)使用,所述空間分量經(jīng)由對(duì)多個(gè)高階立體混響系數(shù)應(yīng)用基于向量的合成而獲得。
在附圖及以下描述中闡述所述技術(shù)的一或多個(gè)方面的細(xì)節(jié)。所述技術(shù)的其它特征、目標(biāo)及優(yōu)點(diǎn)將從所述描述及所述圖式以及從權(quán)利要求書而顯而易見。
附圖說(shuō)明
圖1為說(shuō)明具有各種階數(shù)及子階數(shù)的球諧基底函數(shù)的圖。
圖2為說(shuō)明可執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的系統(tǒng)的圖。
圖3A及3B為更詳細(xì)地說(shuō)明可執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的圖2的實(shí)例中所展示的音頻編碼裝置的不同實(shí)例的框圖。
圖4A及4B為更詳細(xì)地說(shuō)明圖2的音頻解碼裝置的不同版本的框圖。
圖5為說(shuō)明音頻編碼裝置在執(zhí)行本發(fā)明中所描述的基于向量的合成技術(shù)的各種方面中的示范性操作的流程圖。
圖6為說(shuō)明音頻解碼裝置在執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面中的示范性操作的流程圖。
圖7及8為更詳細(xì)地說(shuō)明圖3A或圖3B的音頻編碼裝置的V-向量譯碼單元的不同版本的圖。
圖9為說(shuō)明從v-向量產(chǎn)生的聲場(chǎng)的概念圖。
圖10為說(shuō)明從上文關(guān)于圖60所描述的v-向量的25階模型產(chǎn)生的聲場(chǎng)的概念圖。
圖11為說(shuō)明圖10中所展示的25階模型的每一階的加權(quán)的概念圖。
圖12為說(shuō)明上文關(guān)于圖9所描述的v-向量的5階模型的概念圖。
圖13為說(shuō)明圖12中所展示的5階模型的每一階的加權(quán)的概念圖。
圖14為說(shuō)明用以執(zhí)行奇異值分解的實(shí)例矩陣的實(shí)例尺寸的概念圖。
圖15為說(shuō)明可通過使用本發(fā)明的v-向量譯碼技術(shù)獲得的實(shí)例性能改良的圖表。
圖16為展示在根據(jù)本發(fā)明中所描述的技術(shù)執(zhí)行時(shí)的V-向量譯碼的實(shí)例的數(shù)個(gè)圖。
圖17為說(shuō)明根據(jù)本發(fā)明的V-向量的實(shí)例基于碼向量的分解的概念圖。
圖18為說(shuō)明可借以供圖10及11中的任一者或兩者的實(shí)例中所展示的V-向量譯碼單元使用16個(gè)不同的碼向量的不同方式的圖。
圖19A及19B為說(shuō)明可根據(jù)本發(fā)明中所描述的技術(shù)的各種方面使用的具有256行的碼簿的圖,其中每一行分別具有10個(gè)值及16個(gè)值。
圖20為說(shuō)明實(shí)例曲線的圖,所述實(shí)例曲線展示根據(jù)本發(fā)明中所描述的技術(shù)的各種方面的用以選擇X*數(shù)目個(gè)碼向量的閾值誤差。
圖21為說(shuō)明根據(jù)本發(fā)明的實(shí)例向量量化單元520的框圖。
圖22、24及26為說(shuō)明向量量化單元在執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面中的示范性操作的流程圖。
圖23、25及27為說(shuō)明V-向量重建構(gòu)單元在執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面中的示范性操作的流程圖。
具體實(shí)施方式
大體上,描述用于基于一組碼向量有效率地表示經(jīng)分解高階立體混響(HOA)音頻信號(hào)的v-向量(所述v-向量可表示相關(guān)聯(lián)的音頻對(duì)象的空間信息,例如寬度、形狀、方向及位置)的技術(shù)。所述技術(shù)可涉及:將所述v-向量分解成碼向量的加權(quán)總和,選擇多個(gè)權(quán)重及對(duì)應(yīng)碼向量的子集,將所述權(quán)重的所述所選擇的子集量化,及將碼向量的所述所選擇的子集編索引。所述技術(shù)可提供用于譯碼HOA音頻信號(hào)的改良的位速率。
環(huán)繞聲的演化現(xiàn)今已使得許多輸出格式可用于娛樂。這些消費(fèi)型環(huán)繞聲格式的實(shí)例大部分為“聲道”式的,此是因?yàn)槠湟阅承缀巫鶚?biāo)隱含地指定到擴(kuò)音器的饋入。消費(fèi)型環(huán)繞聲格式包含流行的5.1格式(其包含以下六個(gè)聲道:左前(FL)、右前(FR)、中心或前中心、左后或左環(huán)繞、右后或右環(huán)繞,及低頻效應(yīng)(LFE))、發(fā)展中的7.1格式、包含高度揚(yáng)聲器的各種格式,例如7.1.4格式及22.2格式(例如,用于供超高清晰度電視標(biāo)準(zhǔn)使用)。非消費(fèi)型格式可橫跨任何數(shù)目個(gè)揚(yáng)聲器(成對(duì)稱及非對(duì)稱幾何布置),其常常被稱為“環(huán)繞陣列”。此類陣列的一實(shí)例包含定位于截頂二十面體(truncated icosohedron)的拐角上的座標(biāo)處的32個(gè)擴(kuò)音器。
到未來(lái)MPEG編碼器的輸入任選地為以下三種可能格式中的一者:(i)傳統(tǒng)的基于聲道的音頻(如上文所論述),其意欲經(jīng)由處于預(yù)先指定的位置處的擴(kuò)音器播放;(ii)基于對(duì)象的音頻,其涉及用于單個(gè)音頻對(duì)象的具有含有其位置座標(biāo)(以及其它信息)的相關(guān)聯(lián)后設(shè)數(shù)據(jù)的離散脈碼調(diào)制(PCM)數(shù)據(jù);以及(iii)基于場(chǎng)景的音頻,其涉及使用球諧基底函數(shù)的系數(shù)(還被稱為“球諧系數(shù)”或SHC、“高階立體混響”或HOA及“HOA系數(shù)”)來(lái)表示聲場(chǎng)。所述未來(lái)MPEG編碼器可能更詳細(xì)地描述于國(guó)際標(biāo)準(zhǔn)化組織/國(guó)際電工委員會(huì)(ISO)/(IEC)JTC1/SC29/WG11/N13411的題為“要求針對(duì)3D音頻的提議(Call for Proposals for 3D Audio)”的文件中,所述文件于2013年1月在瑞士日內(nèi)瓦發(fā)布,且可在http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip獲得。
在市場(chǎng)中存在各種基于“環(huán)繞聲”聲道的格式。舉例來(lái)說(shuō),其范圍從5.1家庭影院系統(tǒng)(其在使起居室享有立體聲方面已獲得最大成功)到由日本廣播協(xié)會(huì)或日本廣播公司(NHK)開發(fā)的22.2系統(tǒng)。內(nèi)容創(chuàng)建者(例如,好萊塢工作室)將希望產(chǎn)生影片的音軌一次,而不花費(fèi)精力來(lái)針對(duì)每一揚(yáng)聲器配置對(duì)其進(jìn)行重混(remix)。近年來(lái),標(biāo)準(zhǔn)開發(fā)組織一直在考慮如下方式:提供到標(biāo)準(zhǔn)化位流中的編碼及后續(xù)解碼(其可為調(diào)適的且不知曉播放位置(涉及再現(xiàn)器)處的揚(yáng)聲器幾何布置(及數(shù)目)及聲學(xué)條件)。
為了向內(nèi)容創(chuàng)建者提供此類靈活性,可使用一組分層元素來(lái)表示聲場(chǎng)。所述組分層元素可指其中元素經(jīng)排序而使得一組基本低階元素提供經(jīng)模型化聲場(chǎng)的完整表示的一組元素。當(dāng)將所述組擴(kuò)展以包含高階元素時(shí),所述表示變得更詳細(xì),從而增加分辨率。
一組分層元素的實(shí)例為一組球諧系數(shù)(SHC)。以下表達(dá)式示范使用SHC進(jìn)行的對(duì)聲場(chǎng)的描述或表示:
所述表達(dá)式展示:在時(shí)間t在聲場(chǎng)的任何點(diǎn)處的壓力pi可獨(dú)特地由SHC來(lái)表示。此處,c為音速(~343m/s),為參考點(diǎn)(或觀測(cè)點(diǎn)),jn(·)為n階球面貝塞爾函數(shù),且為n階及m子階球諧基底函數(shù)??烧J(rèn)識(shí)到,方括號(hào)中的術(shù)語(yǔ)為可通過各種時(shí)間-頻率變換來(lái)近似的信號(hào)的頻域表示(即,所述變換例如離散傅立葉變換(DFT)、離散余弦變換(DCT)或小波變換。分層組的其它實(shí)例包含數(shù)組小波變換系數(shù)及其它數(shù)組多分辨率基底函數(shù)系數(shù)。
圖1為說(shuō)明從零階(n=0)到四階(n=4)的球諧基底函數(shù)的圖。如可見,對(duì)于每一階來(lái)說(shuō),存在m子階的擴(kuò)展,出于易于說(shuō)明的目的,在圖1的實(shí)例中展示了所述子階但未明確地提及。
可通過各種麥克風(fēng)陣列配置來(lái)實(shí)體地獲取(例如,記錄)SHC或替代地,可從聲場(chǎng)的基于聲道或基于對(duì)象的描述導(dǎo)出SHC。SHC表示基于場(chǎng)景的音頻,其中可將SHC輸入到音頻編碼器以獲得經(jīng)編碼SHC,所述經(jīng)編碼SHC可促成更有效率的傳輸或存儲(chǔ)。舉例來(lái)說(shuō),可使用涉及(1+4)2(25,且因此為四階)系數(shù)的四階表示。
如上文所提及,可使用麥克風(fēng)陣列從麥克風(fēng)記錄導(dǎo)出SHC??扇绾螐柠溈孙L(fēng)陣列導(dǎo)出SHC的各種實(shí)例描述于Poletti,M.的“基于球諧的三維環(huán)繞聲系統(tǒng)(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(J.Audio Eng.Soc.,第53卷,第11期,2005年11月,第1004到1025頁(yè))中。
為了說(shuō)明可如何從基于對(duì)象的描述導(dǎo)出SHC,考慮以下方程式。可將對(duì)應(yīng)于個(gè)別音頻對(duì)象的聲場(chǎng)的系數(shù)表達(dá)為:
其中i為為n階球面漢克爾函數(shù)(第二種類),且為對(duì)象的位置。知道依據(jù)頻率的對(duì)象源能量g(ω)(例如,使用時(shí)間-頻率分析技術(shù),例如,對(duì)PCM串流執(zhí)行快速傅立葉變換)允許我們將每一PCM對(duì)象及對(duì)應(yīng)位置轉(zhuǎn)換成SHC另外,可展示(因?yàn)樯鲜銮樾螢榫€性及正交分解)每一對(duì)象的系數(shù)為加成性的。以此方式,可由系數(shù)表示眾多PCM對(duì)象(例如,作為用于個(gè)別對(duì)象的系數(shù)向量的總和)?;旧?,所述系數(shù)含有關(guān)于聲場(chǎng)的信息(依據(jù)3D座標(biāo)的壓力),且上述情形表示在觀測(cè)點(diǎn)附近從個(gè)別對(duì)象到整個(gè)聲場(chǎng)的表示的變換。下文在基于對(duì)象及基于SHC的音頻譯碼的內(nèi)容脈絡(luò)中描述剩余諸圖。
圖2為說(shuō)明可執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的系統(tǒng)10的圖。如圖2的實(shí)例中所展示,系統(tǒng)10包含內(nèi)容創(chuàng)建者裝置12及內(nèi)容消費(fèi)者裝置14。雖然在內(nèi)容創(chuàng)建者裝置12及內(nèi)容消費(fèi)者裝置14的內(nèi)容脈絡(luò)中加以描述,但可在聲場(chǎng)的SHC(其還可被稱作HOA系數(shù))或任何其它分層表示經(jīng)編碼以形成表示音頻數(shù)據(jù)的位流的任何內(nèi)容脈絡(luò)中實(shí)施所述技術(shù)。此外,內(nèi)容創(chuàng)建者裝置12可表示能夠?qū)嵤┍景l(fā)明中所描述的技術(shù)的任何形式的計(jì)算裝置,包含手機(jī)(或蜂窩電話)、平板計(jì)算機(jī)、智能手機(jī)或臺(tái)式計(jì)算機(jī)(提供幾個(gè)實(shí)例)。同樣地,內(nèi)容消費(fèi)者裝置14可表示能夠?qū)嵤┍景l(fā)明中所描述的技術(shù)的任何形式的計(jì)算裝置,包含手機(jī)(或蜂窩電話)、平板計(jì)算機(jī)、智能手機(jī)、機(jī)頂盒,或臺(tái)式計(jì)算機(jī)(提供幾個(gè)實(shí)例)。
內(nèi)容創(chuàng)建者裝置12可由影片工作室或可產(chǎn)生多聲道音頻內(nèi)容以供內(nèi)容消費(fèi)者裝置(例如,內(nèi)容消費(fèi)者裝置14)的操作者消耗的其它實(shí)體來(lái)操作。在一些實(shí)例中,內(nèi)容創(chuàng)建者裝置12可由將希望壓縮HOA系數(shù)11的個(gè)別用戶操作。常常,內(nèi)容創(chuàng)建者產(chǎn)生音頻內(nèi)容連同視頻內(nèi)容。內(nèi)容消費(fèi)者裝置14可由個(gè)體來(lái)操作。內(nèi)容消費(fèi)者裝置14可包含音頻播放系統(tǒng)16,其可指能夠再現(xiàn)SHC以供作為多聲道音頻內(nèi)容播放的任何形式的音頻播放系統(tǒng)。
內(nèi)容創(chuàng)建者裝置12包含音頻編輯系統(tǒng)18。內(nèi)容創(chuàng)建者裝置12獲得呈各種格式(包含直接作為HOA系數(shù))的實(shí)況記錄7及音頻對(duì)象9,內(nèi)容創(chuàng)建者裝置12可使用音頻編輯系統(tǒng)18對(duì)實(shí)況記錄7及音頻對(duì)象9進(jìn)行編輯。麥克風(fēng)5可捕獲實(shí)況記錄7。內(nèi)容創(chuàng)建者可在編輯處理程序期間從音頻對(duì)象9再現(xiàn)HOA系數(shù)11,從而在識(shí)別聲場(chǎng)的需要進(jìn)一步編輯的各種方面的嘗試中傾聽所再現(xiàn)的揚(yáng)聲器饋入。內(nèi)容創(chuàng)建者裝置12可接著編輯HOA系數(shù)11(可能經(jīng)由操縱可供以上文所描述的方式導(dǎo)出源HOA系數(shù)的音頻對(duì)象9中的不同者間接地編輯)。內(nèi)容創(chuàng)建者裝置12可使用音頻編輯系統(tǒng)18產(chǎn)生HOA系數(shù)11。音頻編輯系統(tǒng)18表示能夠編輯音頻數(shù)據(jù)且輸出所述音頻數(shù)據(jù)作為一或多個(gè)源球諧系數(shù)的任何系統(tǒng)。
當(dāng)編輯處理程序完成時(shí),內(nèi)容創(chuàng)建者裝置12可基于HOA系數(shù)11產(chǎn)生位流21。即,內(nèi)容創(chuàng)建者裝置12包含音頻編碼裝置20,所述音頻編碼裝置20表示經(jīng)配置以根據(jù)本發(fā)明中所描述的技術(shù)的各種方面編碼或以其它方式壓縮HOA系數(shù)11以產(chǎn)生位流21的裝置。音頻編碼裝置20可產(chǎn)生位流21以供傳輸,作為一實(shí)例,跨越傳輸信道(其可為有線或無(wú)線信道、數(shù)據(jù)存儲(chǔ)裝置或其類似者)。位流21可表示HOA系數(shù)11的經(jīng)編碼版本,且可包含主要位流及另一旁側(cè)位流(其可被稱作旁側(cè)聲道信息)。
雖然在圖2中經(jīng)展示為直接傳輸?shù)絻?nèi)容消費(fèi)者裝置14,但內(nèi)容創(chuàng)建者裝置12可將位流21輸出到定位于內(nèi)容創(chuàng)建者裝置12與內(nèi)容消費(fèi)者裝置14之間的中間裝置。所述中間裝置可存儲(chǔ)位流21以供稍后遞送到可能請(qǐng)求所述位流的內(nèi)容消費(fèi)者裝置14。所述中間裝置可包括文件服務(wù)器、網(wǎng)頁(yè)服務(wù)器、臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、平板計(jì)算機(jī)、移動(dòng)電話、智能手機(jī),或能夠存儲(chǔ)位流21以供音頻解碼器稍后檢索的任何其它裝置。所述中間裝置可駐留于能夠?qū)⑽涣?1串流傳輸(且可能結(jié)合傳輸對(duì)應(yīng)視頻數(shù)據(jù)位流)到請(qǐng)求位流21的訂戶(例如,內(nèi)容消費(fèi)者裝置14)的內(nèi)容遞送網(wǎng)絡(luò)中。
替代地,內(nèi)容創(chuàng)建者裝置12可將位流21存儲(chǔ)到存儲(chǔ)媒體,例如緊密光盤、數(shù)字多功能光盤、高清晰度視頻光盤或其它存儲(chǔ)媒體,其中的大部分能夠由計(jì)算機(jī)讀取且因此可被稱作計(jì)算機(jī)可讀存儲(chǔ)媒體或非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體。在此內(nèi)容脈絡(luò)中,傳輸信道可指借以傳輸存儲(chǔ)到所述媒體的內(nèi)容的那些信道(且可包含零售商店及其它基于商店的遞送機(jī)構(gòu))。在任何情況下,本發(fā)明的技術(shù)因此在這方面不應(yīng)限于圖2的實(shí)例。
如圖2的實(shí)例中進(jìn)一步展示,內(nèi)容消費(fèi)者裝置14包含音頻播放系統(tǒng)16。音頻播放系統(tǒng)16可表示能夠播放多聲道音頻數(shù)據(jù)的任何音頻播放系統(tǒng)。音頻播放系統(tǒng)16可包含數(shù)個(gè)不同再現(xiàn)器22。再現(xiàn)器22可各自提供不同形式的再現(xiàn),其中不同形式的再現(xiàn)可包含執(zhí)行基于向量的振幅移動(dòng)(VBAP)的各種方式中的一或多者及/或執(zhí)行聲場(chǎng)合成的各種方式中的一或多者。如本文所使用,“A及/或B”意味著“A或B”,或“A及B”兩者。
音頻播放系統(tǒng)16可進(jìn)一步包含音頻解碼裝置24。音頻解碼裝置24可表示經(jīng)配置以解碼來(lái)自位流21的HOA系數(shù)11'的裝置,其中HOA系數(shù)11'可類似于HOA系數(shù)11,但歸因于經(jīng)由傳輸信道的有損操作(例如,量化)及/或傳輸而有所不同。音頻播放系統(tǒng)16可在解碼位流21之后獲得HOA系數(shù)11'且再現(xiàn)HOA系數(shù)11'以輸出擴(kuò)音器饋入25。擴(kuò)音器饋入25可驅(qū)動(dòng)一或多個(gè)擴(kuò)音器(其出于易于說(shuō)明的目的而未在圖2的實(shí)例中加以展示)。
為了選擇適當(dāng)再現(xiàn)器或在一些情況下產(chǎn)生適當(dāng)再現(xiàn)器,音頻播放系統(tǒng)16可獲得指示擴(kuò)音器的數(shù)目及/或擴(kuò)音器的空間幾何布置的擴(kuò)音器信息13。在一些情況下,音頻播放系統(tǒng)16可使用參考麥克風(fēng)且以使得動(dòng)態(tài)地確定擴(kuò)音器信息13的方式驅(qū)動(dòng)擴(kuò)音器而獲得擴(kuò)音器信息13。在其它情況下或結(jié)合擴(kuò)音器信息13的動(dòng)態(tài)確定,音頻播放系統(tǒng)16可提示用戶與音頻播放系統(tǒng)16介接且輸入擴(kuò)音器信息13。
音頻播放系統(tǒng)16可接著基于擴(kuò)音器信息13選擇音頻再現(xiàn)器22中的一者。在一些情況下,當(dāng)音頻再現(xiàn)器22中無(wú)一者在與擴(kuò)音器信息13中所指定的擴(kuò)音器幾何布置處于某一閾相似度度量(依據(jù)擴(kuò)音器幾何布置)內(nèi)時(shí),音頻播放系統(tǒng)16可基于擴(kuò)音器信息13產(chǎn)生音頻再現(xiàn)器22中的所述者。在一些情況下,音頻播放系統(tǒng)16可基于擴(kuò)音器信息13產(chǎn)生音頻再現(xiàn)器22中的一者,而不會(huì)首先試圖選擇音頻再現(xiàn)器22中的現(xiàn)有的一者。一或多個(gè)揚(yáng)聲器3可接著播放經(jīng)再現(xiàn)的擴(kuò)音器饋入25。
圖3A為更詳細(xì)地說(shuō)明可執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的圖2的實(shí)例中所展示的音頻編碼裝置20的實(shí)例的框圖。音頻編碼裝置20包含內(nèi)容分析單元26、基于向量的分解單元27及基于方向的分解單元28。盡管下文簡(jiǎn)要描述,但關(guān)于音頻編碼裝置20及壓縮或以其它方式編碼HOA系數(shù)的各種方面的更多信息可在2014年5月29日申請(qǐng)的題為“用于聲場(chǎng)的經(jīng)分解表示的內(nèi)插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的國(guó)際專利申請(qǐng)公開案第WO 2014/194099號(hào)中獲得。
內(nèi)容分析單元26表示經(jīng)配置以分析HOA系數(shù)11的內(nèi)容以識(shí)別HOA系數(shù)11表示從實(shí)況記錄產(chǎn)生的內(nèi)容還是從音頻對(duì)象產(chǎn)生的內(nèi)容的單元。內(nèi)容分析單元26可確定HOA系數(shù)11是從實(shí)際聲場(chǎng)的記錄產(chǎn)生還是從人工音頻對(duì)象產(chǎn)生。在一些情況下,當(dāng)幀式HOA系數(shù)11是從記錄產(chǎn)生時(shí),內(nèi)容分析單元26將HOA系數(shù)11傳遞到基于向量的分解單元27。在一些情況下,當(dāng)幀式HOA系數(shù)11是從合成音頻對(duì)象產(chǎn)生時(shí),內(nèi)容分析單元26將HOA系數(shù)11傳遞到基于方向的合成單元28。基于方向的合成單元28可表示經(jīng)配置以執(zhí)行對(duì)HOA系數(shù)11的基于方向的合成以產(chǎn)生基于方向的位流21的單元。
如圖3A的實(shí)例中所展示,基于向量的分解單元27可包含線性可逆變換(LIT)單元30、參數(shù)計(jì)算單元32、重新排序單元34、前景選擇單元36、能量補(bǔ)償單元38、心理聲學(xué)音頻譯碼器單元40、位流產(chǎn)生單元42、聲場(chǎng)分析單元44、系數(shù)減少單元46、背景(BG)選擇單元48、空間-時(shí)間內(nèi)插單元50及V-向量譯碼單元52。
線性可逆變換(LIT)單元30接收呈HOA聲道形式的HOA系數(shù)11,每一聲道表示與球面基底函數(shù)的給定階數(shù)、子階數(shù)相關(guān)聯(lián)的系數(shù)的塊或幀(其可表示為HOA[k],其中k可表示樣本的當(dāng)前幀或塊)。HOA系數(shù)11的矩陣可具有維度D:M×(N+1)2。
LIT單元30可表示經(jīng)配置以執(zhí)行被稱作奇異值分解的形式的分析的單元。雖然關(guān)于SVD加以描述,但可關(guān)于提供數(shù)組線性不相關(guān)的能量密集輸出的任何類似變換或分解執(zhí)行本發(fā)明中所描述的所述技術(shù)。又,本發(fā)明中對(duì)“組”的提及大體上意欲指非零組(除非特別地相反陳述),且并不意欲指包含所謂的“空組”的組的經(jīng)典數(shù)學(xué)定義。替代變換可包括常常被稱作“PCA”的主分量分析。取決于內(nèi)容脈絡(luò),可通過數(shù)個(gè)不同名稱來(lái)提及PCA,例如離散卡忽南-拉維變換(discrete Karhunen-Loeve transform)、哈特林變換(Hotelling transform)、適當(dāng)正交分解(POD)及本征值分解(EVD)(僅舉幾個(gè)實(shí)例)。有利于壓縮音頻數(shù)據(jù)的基本目標(biāo)的這些操作的性質(zhì)為多聲道音頻數(shù)據(jù)的“能量壓縮”及“解相關(guān)”。
在任何情況下,出于實(shí)例的目的,假定LIT單元30執(zhí)行奇異值分解(其再次可被稱作“SVD”),LIT單元30可將HOA系數(shù)11變換成兩組或多于兩組經(jīng)變換的HOA系數(shù)?!皵?shù)組”經(jīng)變換的HOA系數(shù)可包含經(jīng)變換的HOA系數(shù)的向量。在圖3A的實(shí)例中,LIT單元30可關(guān)于HOA系數(shù)11執(zhí)行SVD以產(chǎn)生所謂的V矩陣、S矩陣及U矩陣。在線性代數(shù)中,SVD可按如下形式表示y乘z實(shí)數(shù)或復(fù)數(shù)矩陣X(其中X可表示多聲道音頻數(shù)據(jù),例如HOA系數(shù)11)的因子分解:
X=USV*
U可表示y乘y實(shí)數(shù)或復(fù)數(shù)單位矩陣,其中U的y列被稱為多聲道音頻數(shù)據(jù)的左奇異向量。S可表示在對(duì)角線上具有非負(fù)實(shí)數(shù)的y乘z矩形對(duì)角線矩陣,其中S的對(duì)角線值被稱為多聲道音頻數(shù)據(jù)的奇異值。V*(其可表示V的共軛轉(zhuǎn)置)可表示z乘z實(shí)數(shù)或復(fù)數(shù)單位矩陣,其中V*的z列被稱為多聲道音頻數(shù)據(jù)的右奇異向量。
在一些實(shí)例中,將上文提及的SVD數(shù)學(xué)表達(dá)式中的V*矩陣表示為V矩陣的共軛轉(zhuǎn)置以反映SVD可應(yīng)用于包括復(fù)數(shù)的矩陣。當(dāng)應(yīng)用于僅包括實(shí)數(shù)的矩陣時(shí),V矩陣的復(fù)數(shù)共軛(或,換句話說(shuō),V*矩陣)可被視為V矩陣的轉(zhuǎn)置。下文為易于說(shuō)明的目的,假定:HOA系數(shù)11包括實(shí)數(shù),結(jié)果為經(jīng)由SVD而非V*矩陣輸出V矩陣。此外,雖然在本發(fā)明中表示為V矩陣,但在適當(dāng)時(shí),對(duì)V矩陣的提及應(yīng)被理解為是指V矩陣的轉(zhuǎn)置。雖然假定為V矩陣,但所述技術(shù)可按類似方式應(yīng)用于具有復(fù)數(shù)系數(shù)的HOA系數(shù)11,其中SVD的輸出為V*矩陣。因此,在這方面,所述技術(shù)不應(yīng)限于僅提供應(yīng)用SVD以產(chǎn)生V矩陣,而可包含將SVD應(yīng)用于具有復(fù)數(shù)分量的HOA系數(shù)11以產(chǎn)生V*矩陣。
以此方式,LIT單元30可關(guān)于HOA系數(shù)11執(zhí)行SVD以輸出具有維度D:M×(N+1)2的US[k]向量33(其可表示S向量及U向量的組合版本),及具有維度D:(N+1)2×(N+1)2的V[k]向量35。US[k]矩陣中的個(gè)別向量元素還可被稱為XPS(k),而V[k]矩陣中的個(gè)別向量還可被稱為v(k)。
U、S及V矩陣的分析可揭示:所述矩陣攜有或表示上文由X表示的基礎(chǔ)聲場(chǎng)的空間及時(shí)間特性。U(長(zhǎng)度為M個(gè)樣本)中的N個(gè)向量中的每一者可表示依據(jù)時(shí)間(對(duì)于由M個(gè)樣本表示的時(shí)間段)的經(jīng)正規(guī)化的分離音頻信號(hào),其彼此正交且已與任何空間特性(其還可被稱作方向信息)解耦。表示空間形狀及位置的空間特性可改為由V矩陣中的個(gè)別第i向量v(i)(k)(每一者具有長(zhǎng)度(N+1)2)表示。v(i)(k)向量中的每一者的個(gè)別元素可表示描述針對(duì)相關(guān)聯(lián)的音頻對(duì)象的聲場(chǎng)的形狀(包含寬度)及位置的HOA系數(shù)。U矩陣及V矩陣兩者中的向量經(jīng)正規(guī)化而使得其均方根能量等于單位。U中的音頻信號(hào)的能量因此由S中的對(duì)角線元素表示。將U與S相乘以形成US[k](具有個(gè)別向量元素XPS(k)),因此表示具有能量的音頻信號(hào)。進(jìn)行SVD分解以使音頻時(shí)間信號(hào)(U中)、其能量(S中)與其空間特性(V中)解耦的能力可支持本發(fā)明中所描述的技術(shù)的各種方面。另外,由US[k]與V[k]的向量乘法合成基礎(chǔ)HOA[k]系數(shù)X的模型引出貫穿此文件使用的術(shù)語(yǔ)“基于向量的分解”。
盡管描述為直接關(guān)于HOA系數(shù)11執(zhí)行,但LIT單元30可將線性可逆變換應(yīng)用于HOA系數(shù)11的導(dǎo)數(shù)。舉例來(lái)說(shuō),LIT單元30可關(guān)于從HOA系數(shù)11導(dǎo)出的功率譜密度矩陣應(yīng)用SVD。由關(guān)于HOA系數(shù)的功率譜密度(PSD)而非系數(shù)自身執(zhí)行SVD,LIT單元30可在處理器循環(huán)及存儲(chǔ)空間中的一或多者方面可能地降低執(zhí)行SVD的計(jì)算復(fù)雜性,同時(shí)實(shí)現(xiàn)相同的源音頻編碼效率,如同SVD是直接應(yīng)用于HOA系數(shù)一般。
參數(shù)計(jì)算單元32表示經(jīng)配置以計(jì)算各種參數(shù)的單元,所述參數(shù)例如相關(guān)性參數(shù)(R)、方向性質(zhì)參數(shù)及能量性質(zhì)(e)。用于當(dāng)前幀的參數(shù)中的每一者可表示為R[k]、θ[k]、r[k]及e[k]。參數(shù)計(jì)算單元32可關(guān)于US[k]向量33執(zhí)行能量分析及/或相關(guān)(或所謂的交叉相關(guān))以識(shí)別所述參數(shù)。參數(shù)計(jì)算單元32還可確定用于先前幀的參數(shù),其中先前幀參數(shù)可基于具有US[k-1]向量及V[k-1]向量的先前幀表示為R[k-1]、θ[k-1]、-1]、r[k-1]及e[k-1]。參數(shù)計(jì)算單元32可將當(dāng)前參數(shù)37及先前參數(shù)39輸出到重新排序單元34。
由參數(shù)計(jì)算單元32計(jì)算的參數(shù)可供重新排序單元34用以將音頻對(duì)象重新排序以表示其自然評(píng)估或隨時(shí)間推移的連續(xù)性。重新排序單元34可逐輪地比較來(lái)自第一US[k]向量33的參數(shù)37中的每一者與用于第二US[k-1]向量33的參數(shù)39中的每一者。重新排序單元34可基于當(dāng)前參數(shù)37及先前參數(shù)39將US[k]矩陣33及V[k]矩陣35內(nèi)的各種向量重新排序(作為一實(shí)例,使用匈牙利算法(Hungarian algorithm))以將經(jīng)重新排序的US[k]矩陣33'(其可在數(shù)學(xué)上表示為及經(jīng)重新排序的V[k]矩陣35'(其可在數(shù)學(xué)上表示為輸出到前景聲音(或占優(yōu)勢(shì)聲音--PS)選擇單元36(“前景選擇單元36”)及能量補(bǔ)償單元38。
聲場(chǎng)分析單元44可表示經(jīng)配置以關(guān)于HOA系數(shù)11執(zhí)行聲場(chǎng)分析以便有可能實(shí)現(xiàn)目標(biāo)位速率41的單元。聲場(chǎng)分析單元44可基于分析及/或基于所接收目標(biāo)位速率41,確定心理聲學(xué)譯碼器執(zhí)行個(gè)體的總數(shù)目(其可為環(huán)境或背景聲道的總數(shù)目(BGTOT)的函數(shù))及前景聲道(或換句話說(shuō),占優(yōu)勢(shì)聲道)的數(shù)目。心理聲學(xué)譯碼器執(zhí)行個(gè)體的總數(shù)目可表示為numHOATransportChannels。
再次為了可能地實(shí)現(xiàn)目標(biāo)位速率41,聲場(chǎng)分析單元44還可確定前景聲道的總數(shù)目(nFG)45、背景(或換句話說(shuō),環(huán)境)聲場(chǎng)的最小階數(shù)(NBG或替代地,MinAmbHoaOrder)、表示背景聲場(chǎng)的最小階數(shù)的實(shí)際聲道的對(duì)應(yīng)數(shù)目(nBGa=(MinAmbHoaOrder+1)2),及待發(fā)送的額外BG HOA聲道的索引(i)(其在圖3A的實(shí)例中可共同地表示為背景聲道信息43)。背景聲道信息42還可被稱作環(huán)境聲道信息43。numHOATransportChannels-nBGa后剩余的聲道中的每一者可為“額外背景/環(huán)境聲道”、“作用中的基于向量的占優(yōu)勢(shì)聲道”、“作用中的基于方向的占優(yōu)勢(shì)信號(hào)”或“完全不活動(dòng)”。在一方面中,可由兩個(gè)位以(“ChannelType”)語(yǔ)法元素形式指示聲道類型:(例如,00:基于方向的信號(hào);01:基于向量的占優(yōu)勢(shì)信號(hào);10:額外環(huán)境信號(hào);11:非作用中信號(hào))。背景或環(huán)境信號(hào)的總數(shù)目nBGa可由(MinAmbHOAorder+1)2+在用于所述幀的位流中以聲道類型形式顯現(xiàn)索引10(在上述實(shí)例中)的次數(shù)給出。
聲場(chǎng)分析單元44可基于目標(biāo)位速率41選擇背景(或換句話說(shuō),環(huán)境)聲道的數(shù)目及前景(或換句話說(shuō),占優(yōu)勢(shì))聲道的數(shù)目,從而在目標(biāo)位速率41相對(duì)較高時(shí)(例如,在目標(biāo)位速率41等于或大于512Kbps時(shí))選擇更多背景及/或前景聲道。在一方面中,在位流的標(biāo)頭區(qū)段中,numHOATransportChannels可被設(shè)置為8,而MinAmbHOAorder可被設(shè)置為1。在此情境下,在每個(gè)幀處,四個(gè)聲道可專用于表示聲場(chǎng)的背景或環(huán)境部分,而其它4個(gè)聲道可逐幀地在聲道類型上變化--例如,用作額外背景/環(huán)境聲道或前景/占優(yōu)勢(shì)聲道。前景/占優(yōu)勢(shì)信號(hào)可為基于向量或基于方向的信號(hào)中的一者,如上文所描述。
在一些情況下,用于幀的基于向量的占優(yōu)勢(shì)信號(hào)的總數(shù)目可由所述幀的位流中ChannelType索引為01的次數(shù)給出。在上述方面中,對(duì)于每個(gè)額外背景/環(huán)境聲道(例如,對(duì)應(yīng)于ChannelType 10),可在所述聲道中表示可能的HOA系數(shù)(前四個(gè)除外)中的哪一者的對(duì)應(yīng)信息。對(duì)于四階HOA內(nèi)容,所述信息可為指示HOA系數(shù)5到25的索引??稍趍inAmbHOAorder被設(shè)置為1時(shí)始終發(fā)送前四個(gè)環(huán)境HOA系數(shù)1到4,因此,音頻編碼裝置可能僅需要指示額外環(huán)境HOA系數(shù)中具有索引5到25的一者。因此可使用5位語(yǔ)法元素(對(duì)于四階內(nèi)容)發(fā)送所述信息,其可表示為“CodedAmbCoeffIdx”。在任何情況下,聲場(chǎng)分析單元44將背景聲道信息43及HOA系數(shù)11輸出到背景(BG)選擇單元36,將背景聲道信息43輸出到系數(shù)減少單元46及位流產(chǎn)生單元42,且將nFG 45輸出到前景選擇單元36。
背景選擇單元48可表示經(jīng)配置以基于背景聲道信息(例如,背景聲場(chǎng)(NBG)以及待發(fā)送的額外BG HOA聲道的數(shù)目(nBGa)及索引(i))確定背景或環(huán)境HOA系數(shù)47的單元。舉例來(lái)說(shuō),當(dāng)NBG等于一時(shí),背景選擇單元48可選擇用于具有等于或小于一的階數(shù)的音頻幀的每一樣本的HOA系數(shù)11。在此實(shí)例中,背景選擇單元48可接著選擇具有由索引(i)中的一者識(shí)別的索引的HOA系數(shù)11作為額外BG HOA系數(shù),其中將待于位流21中指定的nBGa提供到位流產(chǎn)生單元42以便使得音頻解碼裝置(例如,圖4A及4B的實(shí)例中所展示的音頻解碼裝置24)能夠從位流21解析背景HOA系數(shù)47。背景選擇單元48可接著將環(huán)境HOA系數(shù)47輸出到能量補(bǔ)償單元38。環(huán)境HOA系數(shù)47可具有維度D:M×[(NBG+1)2+nBGa]。環(huán)境HOA系數(shù)47還可被稱作“環(huán)境HOA系數(shù)47”,其中環(huán)境HOA系數(shù)47中的每一者對(duì)應(yīng)于待由心理聲學(xué)音頻譯碼器單元40編碼的單獨(dú)環(huán)境HOA聲道47。
前景選擇單元36可表示經(jīng)配置以基于nFG 45(其可表示識(shí)別前景向量的一或多個(gè)索引)選擇表示聲場(chǎng)的前景或特異分量的經(jīng)重新排序的US[k]矩陣33'及經(jīng)重新排序的V[k]矩陣35'的單元。前景選擇單元36可將nFG信號(hào)49(其可表示為經(jīng)重新排序的US[k]1,…,nFG49、FG1,…,nfG[k]49或49)輸出到心理聲學(xué)音頻譯碼器單元40,其中nFG信號(hào)49可具有維度D:M×nFG且每一者表示單聲道-音頻對(duì)象。前景選擇單元36還可將對(duì)應(yīng)于聲場(chǎng)的前景分量的經(jīng)重新排序的V[k]矩陣35'(或v(1..nFG)(k)35')輸出到空間-時(shí)間內(nèi)插單元50,其中對(duì)應(yīng)于前景分量的經(jīng)重新排序的V[k]矩陣35'的子集可表示為前景V[k]矩陣51k(其可在數(shù)學(xué)上表示為其具有維度D:(N+1)2×nFG。
能量補(bǔ)償單元38可表示經(jīng)配置以關(guān)于環(huán)境HOA系數(shù)47執(zhí)行能量補(bǔ)償以補(bǔ)償歸因于通過背景選擇單元48移除HOA聲道中的各者而產(chǎn)生的能量損失的單元。能量補(bǔ)償單元38可關(guān)于經(jīng)重新排序的US[k]矩陣33'、經(jīng)重新排序的V[k]矩陣35'、nFG信號(hào)49、前景V[k]向量51k及環(huán)境HOA系數(shù)47中的一或多者執(zhí)行能量分析,且接著基于能量分析執(zhí)行能量補(bǔ)償以產(chǎn)生經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'。能量補(bǔ)償單元38可將經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'輸出到心理聲學(xué)音頻譯碼器單元40。
空間-時(shí)間內(nèi)插單元50可表示經(jīng)配置以接收第k幀的前景V[k]向量51k及前一幀(因此為k-1記法)的前景V[k-1]向量51k-1且執(zhí)行空間-時(shí)間內(nèi)插以產(chǎn)生經(jīng)內(nèi)插的前景V[k]向量的單元。空間-時(shí)間內(nèi)插單元50可將nFG信號(hào)49與前景V[k]向量51k重新組合以恢復(fù)經(jīng)重新排序的前景HOA系數(shù)??臻g-時(shí)間內(nèi)插單元50可接著將經(jīng)重新排序的前景HOA系數(shù)除以經(jīng)內(nèi)插的V[k]向量以產(chǎn)生經(jīng)內(nèi)插的nFG信號(hào)49'??臻g-時(shí)間內(nèi)插單元50還可輸出用以產(chǎn)生經(jīng)內(nèi)插的前景V[k]向量的前景V[k]向量51k,以使得音頻解碼裝置(例如,音頻解碼裝置24)可產(chǎn)生經(jīng)內(nèi)插的前景V[k]向量且進(jìn)而恢復(fù)前景V[k]向量51k。將用以產(chǎn)生經(jīng)內(nèi)插的前景V[k]向量的前景V[k]向量51k表示為剩余前景V[k]向量53。為了確保在編碼器及解碼器處使用相同的V[k]及V[k-1](以創(chuàng)建經(jīng)內(nèi)插的向量V[k]),可在編碼器及解碼器處使用向量的經(jīng)量化/經(jīng)解量化的版本。空間-時(shí)間內(nèi)插單元50可將經(jīng)內(nèi)插的nFG信號(hào)49'輸出到心理聲學(xué)音頻譯碼器單元46且將經(jīng)內(nèi)插的前景V[k]向量51k輸出到系數(shù)減少單元46。
系數(shù)減少單元46可表示經(jīng)配置以基于背景聲道信息43關(guān)于剩余前景V[k]向量53執(zhí)行系數(shù)減少以將減少的前景V[k]向量55輸出到V-向量譯碼單元52的單元。減少的前景V[k]向量55可具有維度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。在這方面,系數(shù)減少單元46可表示經(jīng)配置以減少剩余前景V[k]向量53的系數(shù)的數(shù)目的單元。換句話說(shuō),系數(shù)減少單元46可表示經(jīng)配置以消除前景V[k]向量中具有極少或幾乎沒有方向信息的系數(shù)(其形成剩余前景V[k]向量53)的單元。在一些實(shí)例中,特異或(換句話說(shuō))前景V[k]向量的對(duì)應(yīng)于一階及零階基底函數(shù)的系數(shù)(其可表示為NBG)提供極少方向信息,且因此可將其從前景V-向量移除(經(jīng)由可被稱作“系數(shù)減少”的處理程序)。在此實(shí)例中,可提供較大靈活性以使得不僅從組[(NBG+1)2+1,(N+1)2]識(shí)別對(duì)應(yīng)于NBG的系數(shù)而且識(shí)別額外HOA聲道(其可由變量TotalOfAddAmbHOAChan表示)。
V-向量譯碼單元52可表示經(jīng)配置以執(zhí)行任何形式的量化以壓縮減少的前景V[k]向量55以產(chǎn)生經(jīng)譯碼前景V[k]向量57從而將經(jīng)譯碼前景V[k]向量57輸出到位流產(chǎn)生單元42的單元。在操作中,V-向量譯碼單元52可表示經(jīng)配置以壓縮聲場(chǎng)的空間分量(即,在此實(shí)例中為減少的前景V[k]向量55中的一或多者)的單元。V-向量譯碼單元52可執(zhí)行如由表示為“NbitsQ”的量化模式語(yǔ)法元素指示的以下12種量化模式中的任一者。
NbitsQ值 量化模式的類型
0-3: 保留
4: 向量量化
5: 無(wú)霍夫曼譯碼的標(biāo)量量化
6: 具有霍夫曼譯碼的6-位標(biāo)量量化
7: 具有霍夫曼譯碼的7-位標(biāo)量量化
8: 具有霍夫曼譯碼的8-位標(biāo)量量化
… …
16: 具有霍夫曼譯碼的16-位標(biāo)量量化
V-向量譯碼單元52還可執(zhí)行前述類型的量化模式中的任一者的預(yù)測(cè)版本,其中確定前一幀的V-向量的元素(或執(zhí)行向量量化時(shí)的權(quán)重)與當(dāng)前幀的V-向量的元素(或執(zhí)行向量量化時(shí)的權(quán)重)之間的差。V-向量譯碼單元52可接著將當(dāng)前幀與前一幀的元素或權(quán)重之間的差而非當(dāng)前幀自身的V-向量的元素的值量化。
V-向量譯碼單元52可關(guān)于減少的前景V[k]向量55中的每一者執(zhí)行多種形式的量化以獲得減少的前景V[k]向量55的多個(gè)經(jīng)譯碼版本。V-向量譯碼單元52可選擇減少的前景V[k]向量55的經(jīng)譯碼版本中的一者作為經(jīng)譯碼前景V[k]向量57。換句話說(shuō),V-向量譯碼單元52可基于本發(fā)明中所論述的準(zhǔn)則的任何組合選擇以下各者中的一者以用作輸出經(jīng)切換式量化的V-向量:未經(jīng)預(yù)測(cè)的經(jīng)向量量化的V-向量、經(jīng)預(yù)測(cè)的經(jīng)向量量化的V-向量、未經(jīng)霍夫曼譯碼的經(jīng)標(biāo)量量化的V-向量,及經(jīng)霍夫曼譯碼的經(jīng)標(biāo)量量化的V-向量。
在一些實(shí)例中,V-向量譯碼單元52可從包含向量量化模式及一或多個(gè)標(biāo)量量化模式的一組量化模式中選擇量化模式,且基于(或根據(jù))所述所選擇的模式將輸入V-向量量化。V-向量譯碼單元52可接著將以下各者中的所選擇者提供到位流產(chǎn)生單元52以用作經(jīng)譯碼前景V[k]向量57:未經(jīng)預(yù)測(cè)的經(jīng)向量量化的V-向量(例如,在權(quán)重值或指示權(quán)重值的位方面)、經(jīng)預(yù)測(cè)的經(jīng)向量量化的V-向量(例如,在誤差值或指示誤差值的位方面)、未經(jīng)霍夫曼譯碼的經(jīng)標(biāo)量量化的V-向量,及經(jīng)霍夫曼譯碼的經(jīng)標(biāo)量量化的V-向量。V-向量譯碼單元52還可提供指示量化模式的語(yǔ)法元素(例如,NbitsQ語(yǔ)法元素)及用以將V-向量解量化或以其它方式重建構(gòu)V-向量的任何其它語(yǔ)法元素。
關(guān)于向量量化,v-向量譯碼單元52可基于碼向量63譯碼減少的前景V[k]向量55以產(chǎn)生經(jīng)譯碼V[k]向量。如圖3A中所展示,v-向量譯碼單元52在一些實(shí)例中可輸出經(jīng)譯碼權(quán)重57及索引73。在這些實(shí)例中,經(jīng)譯碼權(quán)重57及索引73可一起表示經(jīng)譯碼V[k]向量。索引73可表示譯碼向量的加權(quán)總和中的哪些碼向量對(duì)應(yīng)于經(jīng)譯碼權(quán)重57中的權(quán)重中的每一者。
為了譯碼減少的前景V[k]向量55,v-向量譯碼單元52在一些實(shí)例中可基于碼向量63將減少的前景V[k]向量55中的每一者分解成碼向量的加權(quán)總和。碼向量的加權(quán)總和可包含多個(gè)權(quán)重及多個(gè)碼向量,且可表示可將權(quán)重中的每一者的乘積的總和乘以碼向量中的相應(yīng)碼向量。碼向量的加權(quán)總和中所包含的所述多個(gè)碼向量可對(duì)應(yīng)于由v-向量譯碼單元52接收的碼向量63。將減少的前景V[k]向量55中的一者分解成碼向量的加權(quán)總和可涉及確定碼向量的加權(quán)總和中所包含的權(quán)重中的一或多者的權(quán)重值。
在確定對(duì)應(yīng)于碼向量的加權(quán)總和中所包含的權(quán)重的權(quán)重值之后,v-向量譯碼單元52可譯碼權(quán)重值中的一或多者以產(chǎn)生經(jīng)譯碼權(quán)重57。在一些實(shí)例中,譯碼權(quán)重值可包含將權(quán)重值量化。在其它實(shí)例中,譯碼權(quán)重值可包含將權(quán)重值量化及關(guān)于經(jīng)量化的權(quán)重值執(zhí)行霍夫曼譯碼。在額外實(shí)例中,譯碼權(quán)重值可包含使用任何譯碼技術(shù)譯碼以下各者中的一或多者:權(quán)重值、指示權(quán)重值的數(shù)據(jù)、經(jīng)量化的權(quán)重值、指示經(jīng)量化的權(quán)重值的數(shù)據(jù)。
在一些實(shí)例中,碼向量63可為一組正規(guī)正交向量。在其它實(shí)例中,碼向量63可為一組偽正規(guī)正交向量。在額外實(shí)例中,碼向量63可為以下各者中的一或多者:一組方向向量、一組正交方向向量、一組正規(guī)正交方向向量、一組偽正規(guī)正交方向向量、一組偽正交方向向量、一組方向基底向量、一組正交向量、一組偽正交向量、一組球諧基底向量、一組經(jīng)正規(guī)化的向量,及一組基底向量。在碼向量63包含方向向量的實(shí)例中,方向向量中的每一者可具有對(duì)應(yīng)于2D或3D空間中的方向或定向輻射型樣的方向性。
在一些實(shí)例中,碼向量63可為一組預(yù)定義及/或預(yù)定碼向量63。在額外實(shí)例中,碼向量可獨(dú)立于基礎(chǔ)HOA聲場(chǎng)系數(shù)及/或并非基于基礎(chǔ)HOA聲場(chǎng)系數(shù)而產(chǎn)生。在其它實(shí)例中,當(dāng)譯碼HOA系數(shù)的不同幀時(shí),碼向量63可為相同的。在額外實(shí)例中,當(dāng)譯碼HOA系數(shù)的不同幀時(shí),碼向量63可為不同的。在額外實(shí)例中,碼向量63可替代地被稱作碼簿向量及/或候選碼向量。
在一些實(shí)例中,為了確定對(duì)應(yīng)于減少的前景V[k]向量55中的一者的權(quán)重值,v-向量譯碼單元52可針對(duì)碼向量的加權(quán)總和中的權(quán)重值中的每一者將減少的前景V[k]向量乘以碼向量63中的相應(yīng)碼向量以確定相應(yīng)權(quán)重值。在一些狀況下,為了將減少的前景V[k]向量乘以碼向量,v-向量譯碼單元52可將減少的前景V[k]向量乘以碼向量63中的相應(yīng)碼向量的轉(zhuǎn)置以確定相應(yīng)權(quán)重值。
為了將權(quán)重量化,v-向量譯碼單元52可執(zhí)行任何類型的量化。舉例來(lái)說(shuō),v-向量譯碼單元52可關(guān)于權(quán)重值執(zhí)行標(biāo)量量化、向量量化或矩陣量化。
在一些實(shí)例中,代替譯碼所有權(quán)重值以產(chǎn)生經(jīng)譯碼權(quán)重57,v-向量譯碼單元52可譯碼碼向量的加權(quán)總和中所包含的權(quán)重值的子集以產(chǎn)生經(jīng)譯碼權(quán)重57。舉例來(lái)說(shuō),v-向量譯碼單元52可將碼向量的加權(quán)總和中所包含的一組權(quán)重值量化。碼向量的加權(quán)總和中所包含的權(quán)重值的子集可指權(quán)重值的數(shù)目小于碼向量的加權(quán)總和中所包含的整組權(quán)重值中的權(quán)重值的數(shù)目的一組權(quán)重值。
在一些實(shí)例中,v-向量譯碼單元52可基于各種準(zhǔn)則選擇碼向量的加權(quán)總和中所包含的權(quán)重值的子集以進(jìn)行譯碼及/或量化。在一個(gè)實(shí)例中,整數(shù)N可表示碼向量的加權(quán)總和中所包含的權(quán)重值的總數(shù)目,且v-向量譯碼單元52可從所述組N個(gè)權(quán)重值中選擇M個(gè)最大權(quán)重值(即,最大值權(quán)重值)以形成權(quán)重值的子集,其中M為小于N的整數(shù)。以此方式,可保留對(duì)經(jīng)分解的v-向量做出相對(duì)大量貢獻(xiàn)的碼向量的貢獻(xiàn),同時(shí)可丟棄對(duì)經(jīng)分解的v-向量做出相對(duì)小量貢獻(xiàn)的碼向量的貢獻(xiàn),從而增加譯碼效率。還可使用其它準(zhǔn)則來(lái)選擇權(quán)重值的子集以用于進(jìn)行譯碼及/或量化。
在一些實(shí)例中,M個(gè)最大權(quán)重值可為來(lái)自所述組N個(gè)權(quán)重值的具有最大值的M個(gè)權(quán)重值。在其它實(shí)例中,M個(gè)最大權(quán)重值可為來(lái)自所述組N個(gè)權(quán)重值的具有最大絕對(duì)值的M個(gè)權(quán)重值。
在v-向量譯碼單元52譯碼權(quán)重值的子集及/或?qū)?quán)重值的子集量化的實(shí)例中,除指示權(quán)重值的經(jīng)量化的數(shù)據(jù)的外,經(jīng)譯碼權(quán)重57還可包含指示選擇權(quán)重值中的哪些者用于進(jìn)行量化及/或譯碼的數(shù)據(jù)。在一些實(shí)例中,指示選擇權(quán)重值中的哪些者用于進(jìn)行量化及/或譯碼的數(shù)據(jù)可包含來(lái)自對(duì)應(yīng)于碼向量的加權(quán)總和中的碼向量的一組索引中的一或多個(gè)索引。在這些實(shí)例中,對(duì)于經(jīng)選擇以用于進(jìn)行譯碼及/或量化的權(quán)重中的每一者,可將對(duì)應(yīng)于碼向量的加權(quán)總和中的權(quán)重值的碼向量的索引值包含于位流中。
在一些實(shí)例中,可基于以下表達(dá)式表示減少的前景V[k]向量55中的每一者:
其中Ωj表示一組碼向量({Ωj})中的第j碼向量,ωj表示一組權(quán)重({ωj})中的第j權(quán)重,且VFG對(duì)應(yīng)于由v-向量譯碼單元52表示、分解及/或譯碼的v-向量。表達(dá)式(1)的右側(cè)可表示包含一組權(quán)重({ωj})及一組碼向量({Ωj})的碼向量的加權(quán)總和。
在一些實(shí)例中,v-向量譯碼單元52可基于以下方程式確定權(quán)重值:
其中表示一組碼向量({Ωk})中的第k碼向量的轉(zhuǎn)置,VFG對(duì)應(yīng)于由v-向量譯碼單元52表示、分解及/或譯碼的v-向量,且ωk表示一組權(quán)重({ωk})中的第j權(quán)重。
在所述組碼向量({Ωj})正規(guī)正交的實(shí)例中,以下表達(dá)式可適用:
在這些實(shí)例中,方程式(2)的右側(cè)可簡(jiǎn)化如下:
其中ωk對(duì)應(yīng)于碼向量的加權(quán)總和中的第k權(quán)重。
對(duì)于方程式(1)中所使用的碼向量的實(shí)例加權(quán)總和,v-向量譯碼單元52可使用方程式(2)計(jì)算碼向量的加權(quán)總和中的權(quán)重中的每一者的權(quán)重值且可將所得權(quán)重表示為:
{ωk}k=1,…,25 (5)
考慮v-向量譯碼單元52選擇五個(gè)最大權(quán)重值(即,具有最大值或絕對(duì)值的權(quán)重)的實(shí)例??蓪⒋炕臋?quán)重值的子集表示為:
可使用權(quán)重值的子集以及其對(duì)應(yīng)碼向量形成估計(jì)v-向量的碼向量的加權(quán)總和,如以下表達(dá)式中所展示:
其中Ωj表示碼向量({Ωj})的子集中的第j碼向量,表示權(quán)重的子集中的第j權(quán)重,且對(duì)應(yīng)于所估計(jì)的v-向量,其對(duì)應(yīng)于由v-向量譯碼單元52分解及/或譯碼的v-向量。表達(dá)式(1)的右側(cè)可表示包含一組權(quán)重及一組碼向量({Ωj})的碼向量的加權(quán)總和。
v-向量譯碼單元52可將權(quán)重值的子集量化以產(chǎn)生經(jīng)量化的權(quán)重值,其可表示為:
可使用經(jīng)量化的權(quán)重值以及其對(duì)應(yīng)碼向量形成表示所估計(jì)的v-向量的經(jīng)量化的版本的碼向量的加權(quán)總和,如以下表達(dá)式中所展示:
其中Ωj表示碼向量({Ωj})的子集中的第j碼向量,表示權(quán)重的子集中的第j權(quán)重,且對(duì)應(yīng)于所估計(jì)的v-向量,其對(duì)應(yīng)于由v-向量譯碼單元52分解及/或譯碼的v-向量。表達(dá)式(1)的右側(cè)可表示包含一組權(quán)重及一組碼向量({Ωj})的碼向量的子集的加權(quán)總和。
前文的替代重新敘述(其大部分等效于上文所描述的敘述)可如下。可基于一組預(yù)定義碼向量譯碼V-向量。為了譯碼V-向量,將每一V-向量分解成碼向量的加權(quán)總和。碼向量的加權(quán)總和由k對(duì)預(yù)定義碼向量及相關(guān)聯(lián)權(quán)重組成:
其中Ωj表示一組預(yù)定義碼向量({Ωj})中的第j碼向量,ωj表示一組預(yù)定義權(quán)重({ωj})中的第j實(shí)數(shù)值權(quán)重,k對(duì)應(yīng)于加數(shù)的索引(其可高達(dá)7),且V對(duì)應(yīng)于經(jīng)譯碼的V-向量。k的選擇取決于編碼器。如果編碼器選擇兩個(gè)或多于兩個(gè)碼向量的加權(quán)總和,那么編碼器可選擇的預(yù)定義碼向量的總數(shù)目為(N+1)2,其中在一些實(shí)例中,預(yù)定義碼向量是從表F.2到F.11導(dǎo)出作為HOA擴(kuò)展系數(shù)。對(duì)通過F后接續(xù)句號(hào)點(diǎn)及數(shù)字表示的表格的參考是指在MPEG-H 3D音頻標(biāo)準(zhǔn)(題為“信息技術(shù)-異質(zhì)環(huán)境中的高效率譯碼及媒體遞送-第3部分:3D音頻(Information Technology-High efficiency coding and media delivery in heterogeneous environments-Part 3:3D Audio)”,ISO/IEC JTC1/SC 29,日期為2015-2-20(2015年2月20日),ISO/IEC 23008-3:2015(E),ISO/IEC JTC 1/SC 29/WG 11(文件名稱:ISO_IEC_23008-3(E)-Word_document_v33.doc))的附錄F中指定的表格。
當(dāng)N為4時(shí),使用附錄F.6中具有32個(gè)預(yù)定義方向的表格。在所有狀況下,將權(quán)重ω的絕對(duì)值關(guān)于下文所展示的表F.12中的表格之前k+1列中可見的且由相關(guān)聯(lián)的行編號(hào)索引用信號(hào)通知的預(yù)定義加權(quán)值向量量化。
將權(quán)重ω的數(shù)字正負(fù)號(hào)分別譯碼為
換句話說(shuō),在用信號(hào)通知值k之后,由指向k+1個(gè)預(yù)定義碼向量{Ωj}的k+1個(gè)索引、指向預(yù)定義加權(quán)碼簿中的k個(gè)經(jīng)量化的權(quán)重的一索引及k+1個(gè)數(shù)字正負(fù)號(hào)值sj編碼V-向量:
如果編碼器選擇碼向量的加權(quán)總和,那么結(jié)合表F.11的表格中的絕對(duì)加權(quán)值使用從表F.8導(dǎo)出的碼簿,其中在下文展示這些表格中的兩者。又,可分別譯碼加權(quán)值ω的數(shù)字正負(fù)號(hào)。
在這方面,所述技術(shù)可使得音頻編碼裝置20能夠選擇多個(gè)碼簿中的一者以在關(guān)于聲場(chǎng)的空間分量執(zhí)行向量量化時(shí)使用,所述空間分量經(jīng)由對(duì)多個(gè)高階立體混響系數(shù)應(yīng)用基于向量的合成而獲得。
此外,所述技術(shù)可使得音頻編碼裝置20能夠在多個(gè)成對(duì)碼簿中選擇以在關(guān)于聲場(chǎng)的空間分量執(zhí)行向量量化時(shí)使用,所述空間分量經(jīng)由對(duì)多個(gè)高階立體混響系數(shù)應(yīng)用基于向量的合成而獲得。
在一些實(shí)例中,V-向量譯碼單元52可基于一組碼向量確定表示向量的一或多個(gè)權(quán)重值,所述向量包含于多個(gè)高階立體混響(HOA)系數(shù)的經(jīng)分解版本中。所述權(quán)重值中的每一者可對(duì)應(yīng)于表示所述向量的碼向量的加權(quán)總和中所包含的多個(gè)權(quán)重中的相應(yīng)權(quán)重。
在這些實(shí)例中,V-向量譯碼單元52在一些實(shí)例中可將指示權(quán)重值的數(shù)據(jù)量化。在這些實(shí)例中,為了將指示權(quán)重值的數(shù)據(jù)量化,V-向量譯碼單元52在一些實(shí)例中可選擇權(quán)重值的子集以進(jìn)行量化,且將指示權(quán)重值的所選擇的子集的數(shù)據(jù)量化。在這些實(shí)例中,V-向量譯碼單元52在一些實(shí)例中可能并不將指示并未包含于權(quán)重值的所選擇的子集中的權(quán)重值的數(shù)據(jù)量化。
在一些實(shí)例中,V-向量譯碼單元52可確定一組N個(gè)權(quán)重值。在這些實(shí)例中,V-向量譯碼單元52可從所述組N個(gè)權(quán)重值中選擇M個(gè)最大權(quán)重值以形成權(quán)重值的子集,其中M小于N。
為了將指示權(quán)重值的數(shù)據(jù)量化,V-向量譯碼單元52可關(guān)于指示權(quán)重值的數(shù)據(jù)執(zhí)行標(biāo)量量化、向量量化及矩陣量化中的至少一者。除上文所提及的量化技術(shù)的外或代替上文所提及的量化技術(shù),還可執(zhí)行其它量化技術(shù)。
為了確定權(quán)重值,V-向量譯碼單元52可針對(duì)權(quán)重值中的每一者基于碼向量63中的相應(yīng)碼向量確定相應(yīng)權(quán)重值。舉例來(lái)說(shuō),V-向量譯碼單元52可將向量乘以碼向量63中的相應(yīng)碼向量以確定相應(yīng)權(quán)重值。在一些狀況下,V-向量譯碼單元52可涉及將向量乘以碼向量63中的相應(yīng)碼向量的轉(zhuǎn)置以確定相應(yīng)權(quán)重值。
在一些實(shí)例中,HOA系數(shù)的經(jīng)分解版本可為HOA系數(shù)的奇異值經(jīng)分解版本。在其它實(shí)例中,HOA系數(shù)的經(jīng)分解版本可為以下各者中的至少一者:HOA系數(shù)的經(jīng)主分量分析(PCA)版本、HOA系數(shù)的經(jīng)卡忽南-拉維變換版本、HOA系數(shù)的經(jīng)哈特林變換版本、HOA系數(shù)的經(jīng)適當(dāng)正交分解(POD)版本,及HOA系數(shù)的經(jīng)本征值分解(EVD)版本。
在其它實(shí)例中,所述組碼向量63可包含以下各者中的至少一者:一組方向向量、一組正交方向向量、一組正規(guī)正交方向向量、一組偽正規(guī)正交方向向量、一組偽正交方向向量、一組方向基底向量、一組正交向量、一組正規(guī)正交向量、一組偽正規(guī)正交向量、一組偽正交向量、一組球諧基底向量、一組經(jīng)正規(guī)化的向量,及一組基底向量。
在一些實(shí)例中,V-向量譯碼單元52可使用分解碼簿來(lái)確定用以表示V-向量(例如,減少的前景V[k]向量)的權(quán)重。舉例來(lái)說(shuō),V-向量譯碼單元52可從一組候選分解碼簿中選擇分解碼簿,且基于所選擇的分解碼簿確定表示V-向量的權(quán)重。
在一些實(shí)例中,候選分解碼簿中的每一者可對(duì)應(yīng)于一組碼向量63,所述組碼向量63可用以分解V-向量及/或確定對(duì)應(yīng)于V-向量的權(quán)重。換句話說(shuō),每一不同的分解碼簿對(duì)應(yīng)于可用以分解V-向量的一組不同的碼向量63。分解碼簿中的每一條目對(duì)應(yīng)于所述組碼向量中的向量中的一者。
分解碼簿中的所述組碼向量可對(duì)應(yīng)于用以分解V-向量的碼向量的加權(quán)總和中所包含的所有碼向量。舉例來(lái)說(shuō),所述組碼向量可對(duì)應(yīng)于表達(dá)式(1)的右側(cè)上所展示的碼向量的加權(quán)總和中所包含的所述組碼向量63({Ωj})。在此實(shí)例中,碼向量63中的每一碼向量(即,Ωj)可對(duì)應(yīng)于分解碼簿中的條目。
在一些實(shí)例中,不同的分解碼簿可具有相同數(shù)目個(gè)碼向量63。在其它實(shí)例中,不同的分解碼簿可具有不同數(shù)目個(gè)碼向量63。
舉例來(lái)說(shuō),候選分解碼簿中的至少兩者可具有不同數(shù)目個(gè)條目(即,在此實(shí)例中為碼向量63)。作為另一實(shí)例,所有候選分解碼簿可具有不同數(shù)目個(gè)條目63。作為另一實(shí)例,候選分解碼簿中的至少兩者可具有相同數(shù)目個(gè)條目63。作為額外實(shí)例,所有候選分解碼簿可具有相同數(shù)目個(gè)條目63。
V-向量譯碼單元52可基于一或多個(gè)各種準(zhǔn)則從所述組候選分解碼簿中選擇分解碼簿。舉例來(lái)說(shuō),V-向量譯碼單元52可基于對(duì)應(yīng)于每一分解碼簿的權(quán)重選擇分解碼簿。舉例來(lái)說(shuō),V-向量譯碼單元52可執(zhí)行對(duì)應(yīng)于每一分解碼簿的權(quán)重的分析(從表示V-向量的對(duì)應(yīng)加權(quán)總和)以確定在某一裕度的準(zhǔn)確度(如例如由閾值誤差定義)內(nèi)表示V-向量需要多少個(gè)權(quán)重。V-向量譯碼單元52可選擇需要最少數(shù)目個(gè)權(quán)重的分解碼簿。在額外實(shí)例中,V-向量譯碼單元52可基于基礎(chǔ)聲場(chǎng)的特性(例如,人工創(chuàng)建、自然記錄、高度分散等)選擇分解碼簿。
為了基于所選擇的碼簿確定權(quán)重(即,權(quán)重值),V-向量譯碼單元52可針對(duì)權(quán)重中的每一者選擇對(duì)應(yīng)于相應(yīng)權(quán)重(如例如由“WeightIdx”語(yǔ)法元素識(shí)別)的碼簿條目(即,碼向量),且基于所選擇的碼簿條目確定相應(yīng)權(quán)重的權(quán)重值。為了基于所選擇的碼簿條目確定權(quán)重值,V-向量譯碼單元52在一些實(shí)例中可將V-向量乘以由所選擇的碼簿條目指定的碼向量63以產(chǎn)生權(quán)重值。舉例來(lái)說(shuō),V-向量譯碼單元52可將V-向量乘以由所選擇的碼簿條目指定的碼向量63的轉(zhuǎn)置以產(chǎn)生標(biāo)量權(quán)重值。作為另一實(shí)例,方程式(2)可用以確定權(quán)重值。
在一些實(shí)例中,分解碼簿中的每一者可對(duì)應(yīng)于多個(gè)量化碼簿中的相應(yīng)量化碼簿。在這些實(shí)例中,當(dāng)V-向量譯碼單元52選擇分解碼簿時(shí),V-向量譯碼單元52還可選擇對(duì)應(yīng)于所述分解碼簿的量化碼簿。
V-向量譯碼單元52可將指示選擇哪一分解碼簿(例如,CodebkIdx語(yǔ)法元素)來(lái)譯碼減少的前景V[k]向量55中的一或多者的數(shù)據(jù)提供到位流產(chǎn)生單元42,以使得位流產(chǎn)生單元42可將此數(shù)據(jù)包含于所得位流中。在一些實(shí)例中,V-向量譯碼單元52可針對(duì)待譯碼的HOA系數(shù)的每一幀選擇分解碼簿來(lái)使用。在這些實(shí)例中,V-向量譯碼單元52可將指示選擇哪一分解碼簿來(lái)譯碼每一幀的數(shù)據(jù)(例如,CodebkIdx語(yǔ)法元素)提供到位流產(chǎn)生單元42。在一些實(shí)例中,指示選擇哪一分解碼簿的數(shù)據(jù)可為對(duì)應(yīng)于所選擇的碼簿的碼簿索引及/或識(shí)別值。
在一些實(shí)例中,V-向量譯碼單元52可選擇指示將使用多少個(gè)權(quán)重來(lái)估計(jì)V-向量(例如,減少的前景V[k]向量)的數(shù)目。指示將使用多少個(gè)權(quán)重來(lái)估計(jì)V-向量的數(shù)目還可指示將由V-向量譯碼單元52及/或音頻編碼裝置20量化及/或譯碼的權(quán)重的數(shù)目。指示將使用多少個(gè)權(quán)重來(lái)估計(jì)V-向量的數(shù)目還可被稱作待量化及/或譯碼的權(quán)重的數(shù)目。指示多少個(gè)權(quán)重的此數(shù)目可替代地表示為這些權(quán)重所對(duì)應(yīng)于的碼向量63的數(shù)目。此數(shù)目因此還可表示為用以將經(jīng)向量量化的V-向量解量化的碼向量63的數(shù)目,且可由NumVecIndices語(yǔ)法元素來(lái)表示。
在一些實(shí)例中,V-向量譯碼單元52可基于針對(duì)特定V-向量所確定的權(quán)重值選擇待針對(duì)所述特定V-向量進(jìn)行量化及/或譯碼的權(quán)重的數(shù)目。在額外實(shí)例中,V-向量譯碼單元52可基于與使用一或多個(gè)特定數(shù)目個(gè)權(quán)重估計(jì)特定V-向量相關(guān)聯(lián)的誤差選擇待針對(duì)所述V-向量進(jìn)行量化及/或譯碼的權(quán)重的數(shù)目。
舉例來(lái)說(shuō),V-向量譯碼單元52可確定與估計(jì)V-向量相關(guān)聯(lián)的誤差的最大誤差閾值,且可確定使得由所述數(shù)目個(gè)權(quán)重估計(jì)的所估計(jì)的V-向量與V-向量之間的誤差小于或等于最大誤差閾值需要多少個(gè)權(quán)重。在來(lái)自碼簿的少于全部的碼向量用于加權(quán)總和中的情況下,所估計(jì)的向量可對(duì)應(yīng)于碼向量的加權(quán)總和。
在一些實(shí)例中,V-向量譯碼單元52可基于以下方程式確定使得誤差低于閾值需要多少個(gè)權(quán)重:
其中Ωi表示第i碼向量,ωi表示第i權(quán)重,VFG對(duì)應(yīng)于由V-向量譯碼單元52分解、量化及/或譯碼的V-向量,且|x|α為值x的范數(shù),其中α為指示使用哪種類型的范數(shù)的值。舉例來(lái)說(shuō),α=1表示L1范數(shù)且α=2表示L2范數(shù)。圖20為說(shuō)明實(shí)例曲線700的圖,所述實(shí)例曲線700展示根據(jù)本發(fā)明中所描述的技術(shù)的各種方面的用以選擇X*數(shù)目個(gè)碼向量的閾值誤差。曲線700包含線702,所述線說(shuō)明誤差如何隨著碼向量的數(shù)目增加而減小。
在上文所提及的實(shí)例中,索引i在一些實(shí)例中可按次序序列將權(quán)重編索引,以使得較大量值(例如,較大絕對(duì)值)權(quán)重按有序序列出現(xiàn)于較低量值(例如,較低絕對(duì)值)權(quán)重之前。換句話說(shuō),ω1可表示最大權(quán)重值,ω2可表示次最大權(quán)重值,等等。類似地,ωX可表示最低權(quán)重值。
V-向量譯碼單元52可將指示選擇多少個(gè)權(quán)重以用于譯碼減少的前景V[k]向量55中的一或多者的數(shù)據(jù)提供到位流產(chǎn)生單元42,以使得位流產(chǎn)生單元42可將此數(shù)據(jù)包含于所得位流中。在一些實(shí)例中,V-向量譯碼單元52可針對(duì)待譯碼的HOA系數(shù)的每一幀選擇用于譯碼V-向量的權(quán)重的數(shù)目。在這些實(shí)例中,V-向量譯碼單元52可將指示選擇多少個(gè)權(quán)重以用于譯碼所選擇的每一幀的數(shù)據(jù)提供到位流產(chǎn)生單元42。在一些實(shí)例中,指示選擇多少個(gè)權(quán)重的數(shù)據(jù)可為指示選擇多少個(gè)權(quán)重以用于進(jìn)行譯碼及/或量化的數(shù)目。
在一些實(shí)例中,V-向量譯碼單元52可使用量化碼簿來(lái)將用以表示及/或估計(jì)V-向量(例如,減少的前景V[k]向量)的所述組權(quán)重量化。舉例來(lái)說(shuō),V-向量譯碼單元52可從一組候選量化碼簿中選擇量化碼簿,且基于所選擇的量化碼簿將V-向量量化。
在一些實(shí)例中,候選量化碼簿中的每一者可對(duì)應(yīng)于可用以將一組權(quán)重量化的一組候選量化向量。所述組權(quán)重可形成待使用這些量化碼簿量化的權(quán)重的向量。換句話說(shuō),每一不同的量化碼簿對(duì)應(yīng)于一組不同的量化向量,可從所述組不同的量化向量中選擇單個(gè)量化向量以將V-向量量化。
碼簿中的每一條目可對(duì)應(yīng)于一候選量化向量。候選量化向量中的每一者中的分量的數(shù)目在一些實(shí)例中可等于待量化的權(quán)重的數(shù)目。
在一些實(shí)例中,不同的量化碼簿可具有相同數(shù)目個(gè)候選量化向量。在其它實(shí)例中,不同的量化碼簿可具有不同數(shù)目個(gè)候選量化向量。
舉例來(lái)說(shuō),候選量化碼簿中的至少兩者可具有不同數(shù)目個(gè)候選量化向量。作為另一實(shí)例,所有的候選量化碼簿可具有不同數(shù)目個(gè)候選量化向量。作為另一實(shí)例,候選量化碼簿中的至少兩者可具有相同數(shù)目個(gè)候選量化向量。作為額外實(shí)例,所有的候選量化碼簿可具有相同數(shù)目個(gè)候選量化向量。
V-向量譯碼單元52可基于一或多個(gè)各種準(zhǔn)則從所述組候選量化碼簿中選擇量化碼簿。舉例來(lái)說(shuō),V-向量譯碼單元52可基于用以確定用于V-向量的權(quán)重的分解碼簿選擇用于V-向量的量化碼簿。作為另一實(shí)例,V-向量譯碼單元52可基于待量化的權(quán)重值的機(jī)率分布選擇用于V-向量的量化碼簿。在其它實(shí)例中,V-向量譯碼單元52可基于選擇以下各者的組合選擇用于V-向量的量化碼簿:用以確定用于V-向量的權(quán)重的分解碼簿,以及被視為在某一誤差閾值(例如,按照方程式14)內(nèi)表示V-向量所必要的權(quán)重的數(shù)目。
為了基于所選擇的量化碼簿將權(quán)重量化,V-向量譯碼單元52在一些實(shí)例中可確定用于基于所選擇的量化碼簿將V-向量量化的量化向量。舉例來(lái)說(shuō),V-向量譯碼單元52可執(zhí)行向量量化(VQ)以確定用于將V-向量量化的量化向量。
在額外實(shí)例中,為了基于所選擇的量化碼簿將權(quán)重量化,V-向量譯碼單元52可針對(duì)每一V-向量基于與使用量化向量中的一或多者表示V-向量相關(guān)聯(lián)的量化誤差從所選擇的量化碼簿中選擇量化向量。舉例來(lái)說(shuō),V-向量譯碼單元52可從所選擇的量化碼簿中選擇使得量化誤差最小化(例如,使得最小平方誤差最小化)的候選量化向量。
在一些實(shí)例中,量化碼簿中的每一者可對(duì)應(yīng)于多個(gè)分解碼簿中的相應(yīng)分解碼簿。在這些實(shí)例中,V-向量譯碼單元52還可基于用以確定用于V-向量的權(quán)重的分解碼簿選擇用于將與V-向量相關(guān)聯(lián)的所述組權(quán)重量化的量化碼簿。舉例來(lái)說(shuō),V-向量譯碼單元52可選擇對(duì)應(yīng)于用以確定用于V-向量的權(quán)重的分解碼簿的量化碼簿。
V-向量譯碼單元52可將指示選擇哪一量化碼簿來(lái)將對(duì)應(yīng)于減少的前景V[k]向量55中的一或多者的權(quán)重量化的數(shù)據(jù)提供到位流產(chǎn)生單元42,以使得位流產(chǎn)生單元42可將此數(shù)據(jù)包含于所得位流中。在一些實(shí)例中,V-向量譯碼單元52可針對(duì)待譯碼的HOA系數(shù)的每一幀選擇量化碼簿來(lái)使用。在這些實(shí)例中,V-向量譯碼單元52可將指示選擇哪一量化碼簿以用于將每一幀中的權(quán)重量化的數(shù)據(jù)提供到位流產(chǎn)生單元42。在一些實(shí)例中,指示選擇哪一量化碼簿的數(shù)據(jù)可為對(duì)應(yīng)于所選擇的碼簿的碼簿索引及/或識(shí)別值。
包含于音頻編碼裝置20內(nèi)的心理聲學(xué)音頻譯碼器單元40可表示心理聲學(xué)音頻譯碼器的多個(gè)執(zhí)行個(gè)體,其中的每一者用以編碼經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的nFG信號(hào)49'中的每一者的不同音頻對(duì)象或HOA聲道,以產(chǎn)生經(jīng)編碼環(huán)境HOA系數(shù)59及經(jīng)編碼nFG信號(hào)61。心理聲學(xué)音頻譯碼器單元40可將經(jīng)編碼環(huán)境HOA系數(shù)59及經(jīng)編碼nFG信號(hào)61輸出到位流產(chǎn)生單元42。
包含于音頻編碼裝置20內(nèi)的位流產(chǎn)生單元42表示將數(shù)據(jù)格式化以符合已知格式(其可指為解碼裝置已知的格式)進(jìn)而產(chǎn)生基于向量的位流21的單元。換句話說(shuō),位流21可表示以上文所描述的方式編碼的經(jīng)編碼音頻數(shù)據(jù)。位流產(chǎn)生單元42在一些實(shí)例中可表示多路復(fù)用器,其可接收經(jīng)譯碼前景V[k]向量57、經(jīng)編碼環(huán)境HOA系數(shù)59、經(jīng)編碼nFG信號(hào)61,及背景聲道信息43。位流產(chǎn)生單元42可接著基于經(jīng)譯碼前景V[k]向量57、經(jīng)編碼環(huán)境HOA系數(shù)59、經(jīng)編碼nFG信號(hào)61及背景聲道信息43產(chǎn)生位流21。以此方式,位流產(chǎn)生單元42可進(jìn)而在位流21中指定向量57以獲得位流21。位流21可包含主要或主位流及一或多個(gè)旁側(cè)聲道位流。
盡管在圖3A的實(shí)例中未展示,但音頻編碼裝置20還可包含位流輸出單元,所述位流輸出單元基于當(dāng)前幀將使用基于方向的合成還是基于向量的合成編碼而切換從音頻編碼裝置20輸出的位流(例如,在基于方向的位流21與基于向量的位流21之間切換)。位流輸出單元可基于由內(nèi)容分析單元26輸出的指示執(zhí)行基于方向的合成(作為檢測(cè)到HOA系數(shù)11是從合成音頻對(duì)象產(chǎn)生的結(jié)果)還是執(zhí)行基于向量的合成(作為檢測(cè)到HOA系數(shù)經(jīng)記錄的結(jié)果)的語(yǔ)法元素執(zhí)行所述切換。位流輸出單元可指定正確的標(biāo)頭語(yǔ)法以指示用于當(dāng)前幀以及位流21中的相應(yīng)位流的切換或當(dāng)前編碼。
此外,如上文所提及,聲場(chǎng)分析單元44可識(shí)別BGTOT環(huán)境HOA系數(shù)47,所述BGTOT環(huán)境HOA系數(shù)可基于逐個(gè)幀而改變(但時(shí)常BGTOT可跨越兩個(gè)或多于兩個(gè)鄰近(在時(shí)間上)幀保持恒定或相同)。BGTOT的改變可導(dǎo)致在減少的前景V[k]向量55中表達(dá)的系數(shù)的改變。BGTOT的改變可導(dǎo)致背景HOA系數(shù)(其還可被稱作“環(huán)境HOA系數(shù)”),其基于逐個(gè)幀而改變(但再次,時(shí)常BGTOT可跨越兩個(gè)或多于兩個(gè)鄰近(在時(shí)間上)幀保持恒定或相同)。所述改變常常導(dǎo)致由以下各者表示的對(duì)聲場(chǎng)的各方面來(lái)說(shuō)的能量的改變:額外環(huán)境HOA系數(shù)的添加或移除及系數(shù)從減少的前景V[k]向量55的對(duì)應(yīng)移除或系數(shù)到減少的前景V[k]向量55的添加。
因此,聲場(chǎng)分析單元44可進(jìn)一步確定環(huán)境HOA系數(shù)何時(shí)逐幀而改變且產(chǎn)生指示環(huán)境HOA系數(shù)的改變的旗標(biāo)或其它語(yǔ)法元素(在用以表示聲場(chǎng)的環(huán)境分量方面)(其中所述改變還可被稱作環(huán)境HOA系數(shù)的“轉(zhuǎn)變”或被稱作環(huán)境HOA系數(shù)的“轉(zhuǎn)變”)。具體來(lái)說(shuō),系數(shù)減少單元46可產(chǎn)生旗標(biāo)(其可表示為AmbCoeffTransition旗標(biāo)或AmbCoeffIdxTransition旗標(biāo)),從而將所述旗標(biāo)提供到位流產(chǎn)生單元42,以便可將所述旗標(biāo)包含于位流21中(有可能作為旁側(cè)聲道信息的部分)。
除指定環(huán)境系數(shù)轉(zhuǎn)變旗標(biāo)的外,系數(shù)減少單元46還可修改產(chǎn)生減少的前景V[k]向量55的方式。在實(shí)例中,當(dāng)確定環(huán)境HOA環(huán)境系數(shù)中的一者在當(dāng)前幀中處于轉(zhuǎn)變中時(shí),系數(shù)減少單元46可指定用于減少的前景V[k]向量55的V-向量中的每一者的向量系數(shù)(其還可被稱作“向量元素”或“元素”),其對(duì)應(yīng)于處于轉(zhuǎn)變中的環(huán)境HOA系數(shù)。同樣地,處于轉(zhuǎn)變中的環(huán)境HOA系數(shù)可添加到背景系數(shù)的BGTOT總數(shù)目或從背景系數(shù)的BGTOT總數(shù)目移除。因此,背景系數(shù)的總數(shù)目的所得改變影響以下情形:環(huán)境HOA系數(shù)包含于或不包含于位流中,及在上文所描述的第二及第三配置模式中是否針對(duì)位流中所指定的V-向量包含V-向量的對(duì)應(yīng)元素。關(guān)于系數(shù)減少單元46可如何指定減少的前景V[k]向量55以克服能量的改變的更多信息提供于2015年1月12日申請(qǐng)的題為“環(huán)境HIGHER_ORDER立體混響系數(shù)的轉(zhuǎn)變(TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS)”的美國(guó)申請(qǐng)案第14/594,533號(hào)中。
圖3B為更詳細(xì)地說(shuō)明可執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的圖3的實(shí)例中所展示的音頻編碼裝置420的另一實(shí)例的框圖。除了以下情形以外,圖3B中所展示的音頻編碼裝置420類似于音頻編碼裝置20:音頻編碼裝置420中的v-向量譯碼單元52還將權(quán)重值信息71提供到重新排序單元34。
在一些實(shí)例中,權(quán)重值信息71可包含由v-向量譯碼單元52計(jì)算的權(quán)重值中的一或多者。在其它實(shí)例中,權(quán)重值信息71可包含指示v-向量譯碼單元52選擇哪些權(quán)重以用于進(jìn)行量化及/或譯碼的信息。在額外實(shí)例中,權(quán)重值信息71可包含指示v-向量譯碼單元52不選擇哪些權(quán)重以用于進(jìn)行量化及/或譯碼的信息。除上文所提及的信息項(xiàng)目的外或代替上文所提及的信息項(xiàng)目,權(quán)重值信息71還可包含上文所提及的信息項(xiàng)目以及其它項(xiàng)目中的任一者的任何組合。
在一些實(shí)例中,重新排序單元34可基于權(quán)重值信息71(例如,基于權(quán)重值)將向量重新排序。在v-向量譯碼單元52選擇權(quán)重值的子集以進(jìn)行量化及/或譯碼的實(shí)例中,重新排序單元34在一些實(shí)例中可基于選擇權(quán)重值中的哪些權(quán)重值以用于進(jìn)行量化或譯碼(其可由權(quán)重值信息71指示)而將向量重新排序。
圖4A為更詳細(xì)地說(shuō)明圖2的音頻解碼裝置24的框圖。如圖4A的實(shí)例中所展示,音頻解碼裝置24可包含提取單元72、基于方向性的重建構(gòu)單元90及基于向量的重建構(gòu)單元92。盡管下文加以描述,但關(guān)于音頻解碼裝置24及解壓縮或以其它方式解碼HOA系數(shù)的各種方面的更多信息可在2014年5月29日申請(qǐng)的題為“用于聲場(chǎng)的經(jīng)分解表示的內(nèi)插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的國(guó)際專利申請(qǐng)公開案第WO 2014/194099號(hào)中獲得。
提取單元72可表示經(jīng)配置以接收位流21及提取HOA系數(shù)11的各種經(jīng)編碼版本(例如,基于方向的經(jīng)編碼版本或基于向量的經(jīng)編碼版本)的單元。提取單元72可確定上文所提及的指示HOA系數(shù)11是經(jīng)由各種基于方向的版本還是基于向量的版本編碼的語(yǔ)法元素。當(dāng)執(zhí)行基于方向的編碼時(shí),提取單元72可提取HOA系數(shù)11的基于方向的版本及與所述經(jīng)編碼版本相關(guān)聯(lián)的語(yǔ)法元素(其在圖4A的實(shí)例中表示為基于方向的信息91),將所述基于方向的信息91傳遞到基于方向的重建構(gòu)單元90?;诜较虻闹亟?gòu)單元90可表示經(jīng)配置以基于基于方向的信息91以HOA系數(shù)11'的形式重建構(gòu)HOA系數(shù)的單元。
當(dāng)語(yǔ)法元素指示HOA系數(shù)11是使用基于向量的合成編碼時(shí),提取單元72可提取經(jīng)譯碼前景V[k]向量(其可包含經(jīng)譯碼權(quán)重57及/或索引73)、經(jīng)編碼環(huán)境HOA系數(shù)59及經(jīng)編碼nFG信號(hào)59。提取單元72可將經(jīng)譯碼權(quán)重57傳遞到量化單元74且將經(jīng)編碼環(huán)境HOA系數(shù)59連同經(jīng)編碼nFG信號(hào)61一起傳遞到心理聲學(xué)解碼單元80。
為了提取經(jīng)譯碼權(quán)重57、經(jīng)編碼環(huán)境HOA系數(shù)59及經(jīng)編碼nFG信號(hào)59,提取單元72可獲得包含表示為CodedVVecLength的語(yǔ)法元素的HOADecoderConfig容器應(yīng)用程序。提取單元72可解析來(lái)自HOADecoderConfig容器應(yīng)用程序的CodedVVecLength。提取單元72可經(jīng)配置以在上文所描述的配置模式中的任一者中基于CodedVVecLength語(yǔ)法元素操作。
在一些實(shí)例中,提取單元72可根據(jù)以下偽碼中所呈現(xiàn)的switch敘述與用于VVectorData的以下語(yǔ)法表(其中加刪除線指示加刪除線的標(biāo)的物的移除且加底線指示加底線的標(biāo)的物相對(duì)于語(yǔ)法表的先前版本的添加)中所呈現(xiàn)的語(yǔ)法操作,如鑒于伴隨的語(yǔ)義而理解:
VVectorData(VecSigChannelIds(i))
此結(jié)構(gòu)含有用于進(jìn)行基于向量的信號(hào)合成的經(jīng)譯碼V-向量數(shù)據(jù)。
VVec(k)[i] 此為用于第i聲道的第k HOAframe()的V-向量。
VVecLength 此變量指示待讀出的向量元素的數(shù)目。
VVecCoeffId 此向量含有經(jīng)傳輸?shù)腣-向量系數(shù)的索引。
VecVal 介于0與255之間的整數(shù)值。
aVal 在解碼VVectorData期間使用的暫時(shí)變量。
huffVal 待進(jìn)行霍夫曼解碼的霍夫曼碼字。
sgnVal 此符號(hào)為在解碼期間使用的經(jīng)譯碼正負(fù)號(hào)值。
intAddVal 此符號(hào)為在解碼期間使用的額外整數(shù)值。
NumVecIndices 用以將經(jīng)向量量化的V-向量解量化的向量的數(shù)目。
WeightIdx WeightValCdbk中用以將經(jīng)向量量化的V-向量解量化的索引。
nbitsW 用于讀取WeightIdx以解碼經(jīng)向量量化的V-向量的字段大小。
WeightValCdbk 含有正實(shí)數(shù)值加權(quán)系數(shù)的向量的碼簿。如果NumVecIndices被設(shè)置為1,那么使用具有16個(gè)條目的WeightValCdbk,否則,使用具有256個(gè)條目的WeightValCdbk。
VvecIdx 用以將經(jīng)向量量化的V-向量解量化的VecDict的索引。
nbitsIdx 用于讀取個(gè)別VvecIdxs以解碼經(jīng)向量量化的V-向量的字段大小。
WeightVal 用以解碼經(jīng)向量量化的V-向量的實(shí)數(shù)值加權(quán)系數(shù)。
在前述語(yǔ)法表中,具有四種狀況(狀況0到3)的第一switch敘述提供借以依據(jù)系數(shù)的數(shù)目(VVecLength)及索引(VVecCoeffId)確定VTDIST向量長(zhǎng)度的方式。第一狀況(狀況0)指示用于VTDIST向量的所有系數(shù)(NumOfHoaCoeffs)經(jīng)指定。第二狀況(狀況1)指示僅VTDIST向量的對(duì)應(yīng)于大于MinNumOfCoeffsForAmbHOA的數(shù)目的那些系數(shù)經(jīng)指定,其可表示上文所提及的(NDIST+1)2-(NBG+1)2。另外,減去ContAddAmbHoaChan中所識(shí)別的那些NumOfContAddAmbHoaChan系數(shù)。列表ContAddAmbHoaChan指定對(duì)應(yīng)于超過階數(shù)MinAmbHoaOrder的階數(shù)的額外信道(其中“信道”是指對(duì)應(yīng)于某一階數(shù)、子階組合的特定系數(shù))。第三狀況(狀況2)指示VTDIST向量的對(duì)應(yīng)于大于MinNumOfCoeffsForAmbHOA的數(shù)目的那些系數(shù)經(jīng)指定,其可表示上文所提及的(NDIST+1)2-(NBG+1)2。VVecLength以及VVecCoeffId列表兩者對(duì)于HOAFrame上的所有VVectors皆為有效的。
在此switch敘述之后,可由NbitsQ(或,如上文所指示,nbits)來(lái)控制是執(zhí)行向量量化還是均勻標(biāo)量解量化的決策。先前,僅提議標(biāo)量量化來(lái)將Vvectors量化(例如,當(dāng)NbitsQ等于4時(shí))。雖然當(dāng)NBitsQ等于5時(shí)仍提供標(biāo)量量化,但當(dāng)(作為一個(gè)實(shí)例)NbitsQ等于4時(shí),可根據(jù)本發(fā)明中所描述的技術(shù)執(zhí)行向量量化。
換句話說(shuō),由前景音頻信號(hào)及對(duì)應(yīng)空間信息(即,在本發(fā)明的實(shí)例中,為V-向量)表示具有強(qiáng)方向性的HOA信號(hào)。在本發(fā)明中所描述的V-向量譯碼技術(shù)中,由如以下方程式給出的預(yù)定義方向向量的加權(quán)加總表示每一V-向量:
其中ωi及Ωi分別為第i加權(quán)值及對(duì)應(yīng)方向向量。
在圖16中說(shuō)明V-向量譯碼的實(shí)例。如圖16(a)中所展示,可由若干個(gè)方向向量的混合來(lái)表示原始V-向量??山又杉訖?quán)總和來(lái)估計(jì)原始V-向量,如圖16(b)中所展示,其中在圖16(e)中展示加權(quán)向量。圖16(c)及(f)說(shuō)明僅選擇IS(IS≤I)個(gè)最高加權(quán)值的狀況。可接著針對(duì)所選擇的加權(quán)值執(zhí)行向量量化(VQ)且在圖16(d)及(g)中說(shuō)明結(jié)果。
可如下來(lái)確定此v-向量譯碼方案的計(jì)算復(fù)雜性:
0.06MOPS(HOA階數(shù)=6)/0.05MOPS(HOA階數(shù)=5);且
0.03MOPS(HOA階數(shù)=4)/0.02MOPS(HOA階數(shù)=3)。
可確定ROM復(fù)雜性為16.29千字節(jié)(對(duì)于HOA階數(shù)3、4、5及6),而確定算法延遲為0個(gè)樣本。
可在上文通過使用底線展示的VVectorData語(yǔ)法表內(nèi)表示對(duì)上文提及的3D音頻譯碼標(biāo)準(zhǔn)的當(dāng)前版本的所需修改。即,在上文所提及的MPEG-H 3D音頻提議標(biāo)準(zhǔn)的CD中,通過標(biāo)量量化(SQ)或SQ后接續(xù)霍夫曼譯碼執(zhí)行V-向量譯碼。所提議的向量量化(VQ)方法的所需位可能比常規(guī)SQ譯碼方法少。對(duì)于12個(gè)參考測(cè)試項(xiàng)目,所需位平均如下:
●SQ+霍夫曼:16.25KB
●所提議的VQ:5.25KB
可將所節(jié)省的位改變用途以用于感知音頻譯碼。
換句話說(shuō),V-向量重建構(gòu)單元74可根據(jù)以下偽碼操作以重建構(gòu)V-向量:
根據(jù)前述偽碼(其中加刪除線指示加刪除線的標(biāo)的物的移除),v-向量重建構(gòu)單元74可根據(jù)關(guān)于switch敘述的偽碼基于CodedVVecLength的值確定VVecLength。基于此VVecLength,v-向量重建構(gòu)單元74可反復(fù)進(jìn)行考慮NbitsQ值的后續(xù)if/elseif敘述。當(dāng)用于第k幀的第i NbitsQ值等于4時(shí),v-向量重建構(gòu)單元74確定將執(zhí)行向量解量化。
cdbLen語(yǔ)法元素指示碼向量的辭典或碼簿中的條目的數(shù)目(其中此辭典在前述偽碼中表示為“VecDict”且表示具有cdbLen個(gè)碼簿條目的碼簿,其含有用以解碼經(jīng)向量量化的V-向量的HOA擴(kuò)展系數(shù)的向量),其基于NumVvecIndicies及HOA階數(shù)而導(dǎo)出。當(dāng)NumVvecIndicies的值等于一時(shí),從上述表F.8結(jié)合上述表F.11中所展示的8×1加權(quán)值的碼簿導(dǎo)出向量碼簿HOA擴(kuò)展系數(shù)。當(dāng)NumVvecIndicies的值大于一時(shí),結(jié)合上述表F.12中所展示的256×8加權(quán)值使用具有O個(gè)向量的向量碼簿。
盡管上文描述為使用大小為256×8的碼簿,但可使用具有不同數(shù)目個(gè)值的不同碼簿。即,代替val0到val7,可使用具有256行的碼簿,其中每一行由不同索引值(索引0到索引255)編索引且具有不同數(shù)目個(gè)值,例如值0到值9(總共十個(gè)值)或值0到值15(總共16個(gè)值)。圖19A及19B為說(shuō)明可根據(jù)本發(fā)明中所描述的技術(shù)的各種方面使用的具有256行的碼簿的圖,其中每一行分別具有10個(gè)值及16個(gè)值。
v-向量重建構(gòu)單元74可基于權(quán)重值碼簿(表示為“WeightValCdbk”,其可表示基于以下各者中的一或多者編索引的多維表:碼簿索引(在前述VVectorData(i)語(yǔ)法表中表示為“CodebkIdx”),及權(quán)重索引(在前述VVectorData(i)語(yǔ)法表中表示為“WeightIdx”))導(dǎo)出用以重建構(gòu)V-向量的每一對(duì)應(yīng)碼向量的權(quán)重值??稍谂詡?cè)聲道信息的一部分中定義此CodebkIdx語(yǔ)法元素,如以下ChannelSideInfoData(i)語(yǔ)法表中所展示。
表格-ChannelSideInfoData(i)的語(yǔ)法
前表中的加底線表示用以適應(yīng)CodebkIdx的添加的對(duì)現(xiàn)有語(yǔ)法表的改變。用于前表的語(yǔ)義如下。
此有效負(fù)載保持用于第i聲道的旁側(cè)信息。有效負(fù)載的大小及數(shù)據(jù)取決于聲道的類型。
ChannelType[i] 此元素存儲(chǔ)表95中所定義的第i聲道的類型。
ActiveDirsIds[i] 此元素使用來(lái)自附錄F.7的900個(gè)預(yù)定義均勻分布的點(diǎn)的索引指示作用中方向信號(hào)的方向。碼字0用于用信號(hào)通知方向信號(hào)的結(jié)束。
PFlag[i] 與第i聲道的基于向量的信號(hào)相關(guān)聯(lián)的用于經(jīng)標(biāo)量量化的V-向量的霍夫曼解碼的預(yù)測(cè)旗標(biāo)。
CbFlag[i] 與第i聲道的基于向量的信號(hào)相關(guān)聯(lián)的用于經(jīng)標(biāo)量量化的V-向量的霍夫曼解碼的碼簿旗標(biāo)。
CodebkIdx[i]用信號(hào)通知與第i聲道的基于向量的信號(hào)相關(guān)聯(lián)的用以將經(jīng)向量量化的V-向量解量化的特定碼簿。
NbitsQ[i] 此索引確定與第i聲道的基于向量的信號(hào)相關(guān)聯(lián)的用于數(shù)據(jù)的霍夫曼解碼的霍夫曼表。碼字5確定均勻8位解量化器的使用。兩個(gè)MSB 00確定重用前一幀(k-1)的NbitsQ[i]、PFlag[i]及CbFlag[i]數(shù)據(jù)。
bA,bB NbitsQ[i]字段的msb(bA)及第二msb(bB)。
uintC NbitsQ[i]字段的剩余兩個(gè)位的碼字。
AddAmbHoaInfoChannel(i)此有效負(fù)載保持用于額外環(huán)境HOA系數(shù)的信息。
根據(jù)VVectorData語(yǔ)法表語(yǔ)義,nbitsW語(yǔ)法元素表示用于讀取WeightIdx以解碼經(jīng)向量量化的V-向量的字段大小,而WeightValCdbk語(yǔ)法元素表示含有正實(shí)數(shù)值加權(quán)系數(shù)的向量的碼簿。如果NumVecIndices被設(shè)置為1,那么使用具有8個(gè)條目的WeightValCdbk,否則,使用具有256個(gè)條目的WeightValCdbk。根據(jù)VVectorData語(yǔ)法表,當(dāng)CodebkIdx等于零時(shí),v-向量重建構(gòu)單元74確定nbitsW等于3且WeightIdx可具有在0到7的范圍內(nèi)的值。在此情況下,碼向量辭典VecDict具有相對(duì)大量條目(例如,900個(gè))且與僅具有8個(gè)條目的權(quán)重碼簿配對(duì)。當(dāng)CodebkIdx并不等于零時(shí),v-向量重建構(gòu)單元74確定nbitsW等于8且WeightIdx可具有在0到255的范圍內(nèi)的值。在此情況下,VecDict具有相對(duì)少量條目(例如,25或32個(gè)條目)且權(quán)重碼簿中需要相對(duì)大量權(quán)重(例如,256個(gè))以確??山邮艿恼`差。以此方式,所述技術(shù)可提供成對(duì)碼簿(參考成對(duì)的所使用的VecDict及權(quán)重碼簿)??山又缦聛?lái)計(jì)算權(quán)重值(在前述VVectorData語(yǔ)法表中表示為“WeightVal”):
|WeightVal[j]=((SgnVal*2)-1)*WeightValCdbk[CodebkIdx(k)[i]][WeightIdx][j];
可接著根據(jù)上述偽碼將此WeightVal應(yīng)用于對(duì)應(yīng)碼向量以將v-向量解向量量化。
在這方面,所述技術(shù)可使得音頻解碼裝置(例如,音頻解碼裝置24)選擇多個(gè)碼簿中的一者以在關(guān)于聲場(chǎng)的經(jīng)向量量化的空間分量執(zhí)行向量解量化時(shí)使用,所述經(jīng)向量量化的空間分量經(jīng)由對(duì)多個(gè)高階立體混響系數(shù)應(yīng)用基于向量的合成而獲得。
此外,所述技術(shù)可使得音頻解碼裝置24能夠在多個(gè)成對(duì)碼簿之間選擇以在關(guān)于聲場(chǎng)的經(jīng)向量量化的空間分量執(zhí)行向量解量化時(shí)使用,所述經(jīng)向量量化的空間分量經(jīng)由對(duì)多個(gè)高階立體混響系數(shù)應(yīng)用基于向量的合成而獲得。
當(dāng)NbitsQ等于5時(shí),執(zhí)行均勻8位標(biāo)量解量化。與此對(duì)比,大于或等于6的NbitsQ值可導(dǎo)致霍夫曼解碼的應(yīng)用。上文提及的cid值可等于NbitsQ值的兩個(gè)最低有效位。上文所論述的預(yù)測(cè)模式在以上語(yǔ)法表中表示為PFlag,而HT信息位在以上語(yǔ)法表中表示為CbFlag。剩余語(yǔ)法指定解碼如何以大體上類似于上文所描述的方式的方式發(fā)生。
基于向量的重建構(gòu)單元92表示經(jīng)配置以執(zhí)行與上文關(guān)于基于向量的合成單元27所描述的操作互逆的操作以便重建構(gòu)HOA系數(shù)11'的單元。基于向量的重建構(gòu)單元92可包含v-向量重建構(gòu)單元74、空間-時(shí)間內(nèi)插單元76、前景制訂單元78、心理聲學(xué)解碼單元80、HOA系數(shù)制訂單元82及重新排序單元84。
v-向量重建構(gòu)單元74可接收經(jīng)譯碼權(quán)重57且產(chǎn)生減少的前景V[k]向量55k。v-向量重建構(gòu)單元74可將減少的前景V[k]向量55k轉(zhuǎn)遞到重新排序單元84。
舉例來(lái)說(shuō),v-向量重建構(gòu)單元74可經(jīng)由提取單元72從位流21中獲得經(jīng)譯碼權(quán)重57,且基于經(jīng)譯碼權(quán)重57及一或多個(gè)碼向量重建構(gòu)減少的前景V[k]向量55k。在一些實(shí)例中,經(jīng)譯碼權(quán)重57可包含對(duì)應(yīng)于用以表示減少的前景V[k]向量55k的一組碼向量中的所有碼向量的權(quán)重值。在這些實(shí)例中,v-向量重建構(gòu)單元74可基于整組碼向量重建構(gòu)減少的前景V[k]向量55k。
經(jīng)譯碼權(quán)重57可包含對(duì)應(yīng)于用以表示減少的前景V[k]向量55k的一組碼向量的子集的權(quán)重值。在這些實(shí)例中,經(jīng)譯碼權(quán)重57可進(jìn)一步包含指示使用多個(gè)碼向量中的哪一者來(lái)重建構(gòu)減少的前景V[k]向量55k的數(shù)據(jù),且v-向量重建構(gòu)單元74可使用由此數(shù)據(jù)指示的碼向量的一子集來(lái)重建構(gòu)減少的前景V[k]向量55k。在一些實(shí)例中,指示使用多個(gè)碼向量中的哪一者來(lái)重建構(gòu)減少的前景V[k]向量55k的數(shù)據(jù)可對(duì)應(yīng)于索引57。
在一些實(shí)例中,v-向量重建構(gòu)單元74可從位流獲得指示表示向量的多個(gè)權(quán)重值的數(shù)據(jù),所述向量包含于多個(gè)HOA系數(shù)的經(jīng)分解版本中,且基于權(quán)重值及碼向量重建構(gòu)所述向量。所述權(quán)重值中的每一者可對(duì)應(yīng)于表示所述向量的碼向量的加權(quán)總和中的多個(gè)權(quán)重中的相應(yīng)權(quán)重。
在一些實(shí)例中,為了重建構(gòu)向量,v-向量重建構(gòu)單元74可確定碼向量的加權(quán)總和,其中碼向量由權(quán)重值而加權(quán)。在其它實(shí)例中,為了重建構(gòu)所述向量,v-向量重建構(gòu)單元74可針對(duì)權(quán)重值中的每一者將權(quán)重值乘以碼向量中的相應(yīng)碼向量以產(chǎn)生多個(gè)加權(quán)碼向量中所包含的相應(yīng)加權(quán)碼向量,且將所述多個(gè)加權(quán)碼向量加總以確定所述向量。
在一些實(shí)例中,v-向量重建構(gòu)單元74可從位流中獲得指示使用多個(gè)碼向量中的哪一者來(lái)重建構(gòu)所述向量的數(shù)據(jù),且基于權(quán)重值(例如,基于CodebkIdx及WeightIdx語(yǔ)法元素從WeightValCdbk導(dǎo)出的WeightVal元素)、碼向量及指示使用多個(gè)碼向量中的哪一者(如例如由VVecIdx語(yǔ)法元素以及NumVecIndices識(shí)別)來(lái)重建構(gòu)所述向量的數(shù)據(jù)重建構(gòu)所述向量。在這些實(shí)例中,為了重建構(gòu)所述向量,v-向量重建構(gòu)單元74在一些實(shí)例中可基于指示使用多個(gè)碼向量中的哪一者來(lái)重建構(gòu)所述向量的數(shù)據(jù)選擇碼向量的子集,且基于權(quán)重值及碼向量的所選擇的子集重建構(gòu)所述向量。
在這些實(shí)例中,為了基于權(quán)重值及碼向量的所選擇的子集重建構(gòu)所述向量,v-向量重建構(gòu)單元74可針對(duì)權(quán)重值中的每一者將權(quán)重值乘以碼向量的子集中的碼向量中的相應(yīng)碼向量以產(chǎn)生相應(yīng)加權(quán)碼向量,且將多個(gè)加權(quán)碼向量加總以確定所述向量。
心理聲學(xué)解碼單元80可以與圖4A的實(shí)例中所展示的心理聲學(xué)音頻譯碼單元40互逆的方式操作,以便解碼經(jīng)編碼環(huán)境HOA系數(shù)59及經(jīng)編碼nFG信號(hào)61,且進(jìn)而產(chǎn)生經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的nFG信號(hào)49'(其還可被稱作經(jīng)內(nèi)插的nFG音頻對(duì)象49')。盡管經(jīng)展示為彼此分離,但經(jīng)編碼環(huán)境HOA系數(shù)59及經(jīng)編碼nFG信號(hào)61可能并非彼此分離,且實(shí)際上,可被指定為經(jīng)編碼聲道,如下文關(guān)于圖4B所描述。當(dāng)經(jīng)編碼環(huán)境HOA系數(shù)59及經(jīng)編碼nFG信號(hào)61一起被指定為經(jīng)編碼聲道時(shí),心理聲學(xué)解碼單元80可解碼經(jīng)編碼聲道以獲得經(jīng)解碼聲道,且接著關(guān)于經(jīng)解碼聲道執(zhí)行一種形式的聲道重新指派以獲得經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的nFG信號(hào)49'。
換句話說(shuō),心理聲學(xué)解碼單元80可獲得所有占優(yōu)勢(shì)聲音信號(hào)的經(jīng)內(nèi)插的nFG信號(hào)49'(其可表示為幀Xps(k))、表示環(huán)境HOA分量的中間表示的經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'(其可表示為幀CI,AMB(k))。心理聲學(xué)解碼單元80可基于位流21或29中所指定的語(yǔ)法元素執(zhí)行此聲道重新指派,所述語(yǔ)法元素可包含針對(duì)每一輸送聲道指定環(huán)境HOA分量的有可能含有的系數(shù)序列的索引的指派向量,及指示一組作用中V向量的其它語(yǔ)法元素。在任何情況下,心理聲學(xué)解碼單元80可將經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'傳遞到HOA系數(shù)制訂單元82且將nFG信號(hào)49'傳遞到重新排序單元84。
換句話說(shuō),心理聲學(xué)解碼單元80可獲得所有占優(yōu)勢(shì)聲音信號(hào)的經(jīng)內(nèi)插的nFG信號(hào)49'(其可表示為幀Xps(k))、表示環(huán)境HOA分量的中間表示的經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'(其可表示為幀CI,AMB(k))。心理聲學(xué)解碼單元80可基于位流21或29中所指定的語(yǔ)法元素執(zhí)行此聲道重新指派,所述語(yǔ)法元素可包含針對(duì)每一輸送聲道指定環(huán)境HOA分量的有可能含有的系數(shù)序列的索引的指派向量,及指示一組作用中V向量的其它語(yǔ)法元素。在任何情況下,心理聲學(xué)解碼單元80可將經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'傳遞到HOA系數(shù)制訂單元82且將nFG信號(hào)49'傳遞到重新排序單元84。
為了重新敘述前文,可按上文所描述的方式從基于向量的信號(hào)重新制訂HOA系數(shù)。可首先關(guān)于每一V-向量執(zhí)行標(biāo)量解量化以產(chǎn)生其中當(dāng)前幀的第i個(gè)別向量可表示為可使用線性可逆變換(例如,奇異值分解、主分量分析、卡忽南-拉維變換、哈特林變換、適當(dāng)正交分解或本征值分解)從HOA系數(shù)分解V-向量,如上文所描述。在奇異值分解的狀況下,分解還輸出S[k]及U[k]向量,所述向量可經(jīng)組合以形成US[k]。US[k]矩陣中的個(gè)別向量元素可表示為XPS(k,l)。
可關(guān)于MVEC(k)及MVEC(k-1)(其表示來(lái)自前一幀的V-向量,其中MVEC(k-1)的個(gè)別向量表示為執(zhí)行空間時(shí)間內(nèi)插。作為一個(gè)實(shí)例,由wVEC(l)控制空間內(nèi)插方法。在內(nèi)插之后,接著將第i個(gè)經(jīng)內(nèi)插的V-向量乘以第i個(gè)US[k](其表示為XPS,i(k,l))以輸出HOA表示的第i列可接著將列向量加總以制訂基于向量的信號(hào)的HOA表示。以此方式,針對(duì)幀通過關(guān)于及執(zhí)行內(nèi)插而獲得HOA系數(shù)的經(jīng)分解的經(jīng)內(nèi)插的表示,如下文進(jìn)一步詳細(xì)描述。
圖4B為更詳細(xì)地說(shuō)明音頻解碼裝置24的另一實(shí)例的框圖。音頻解碼裝置24的在圖4B中所展示的實(shí)例經(jīng)表示為音頻解碼裝置24'。除了音頻解碼裝置24'的心理聲學(xué)解碼單元902并不執(zhí)行上文所描述的聲道重新指派以外,音頻解碼裝置24'大體上類似于圖4A的實(shí)例中所展示的音頻解碼裝置24。實(shí)際上,音頻編碼裝置24'包含執(zhí)行上文所描述的聲道重新指派的單獨(dú)聲道重新指派單元904。在圖4B的實(shí)例中,心理聲學(xué)解碼單元902接收經(jīng)編碼聲道900且關(guān)于經(jīng)編碼聲道900執(zhí)行心理聲學(xué)解碼以獲得經(jīng)解碼聲道901。心理聲學(xué)解碼單元902可將經(jīng)解碼聲道901輸出到聲道重新指派單元904。聲道重新指派單元904可接著關(guān)于經(jīng)解碼聲道901執(zhí)行上文所描述的聲道重新指派以獲得經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的nFG信號(hào)49'。
空間-時(shí)間內(nèi)插單元76可以與上文關(guān)于空間-時(shí)間內(nèi)插單元50所描述的方式類似的方式操作??臻g-時(shí)間內(nèi)插單元76可接收減少的前景V[k]向量55k且關(guān)于前景V[k]向量55k及減少的前景V[k-1]向量55k-1執(zhí)行空間-時(shí)間內(nèi)插以產(chǎn)生經(jīng)內(nèi)插的前景V[k]向量55k″??臻g-時(shí)間內(nèi)插單元76可將經(jīng)內(nèi)插的前景V[k]向量55k″轉(zhuǎn)遞到淡化單元770。
提取單元72還可將指示環(huán)境HOA系數(shù)中的一者何時(shí)處于轉(zhuǎn)變中的信號(hào)757輸出到淡化單元770,所述淡化單元770可接著確定SHCBG 47'(其中SHCBG 47'還可表示為“環(huán)境HOA聲道47'”或“環(huán)境HOA系數(shù)47'”)及經(jīng)內(nèi)插的前景V[k]向量55k″的元素中的哪一者將淡入或淡出。在一些實(shí)例中,淡化單元770可關(guān)于環(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的前景V[k]向量55k″的元素中的每一者相反地操作。即,淡化單元770可關(guān)于環(huán)境HOA系數(shù)47'中的對(duì)應(yīng)環(huán)境HOA系數(shù)執(zhí)行淡入或淡出或執(zhí)行淡入或淡出兩者,同時(shí)關(guān)于經(jīng)內(nèi)插的前景V[k]向量55k″的元素中的對(duì)應(yīng)經(jīng)內(nèi)插的前景V[k]向量執(zhí)行淡入或淡出或執(zhí)行淡入與淡出兩者。淡化單元770可將經(jīng)調(diào)整的環(huán)境HOA系數(shù)47″輸出到HOA系數(shù)制訂單元82且將經(jīng)調(diào)整的前景V[k]向量55k″'輸出到前景制訂單元78。在這方面,淡化單元770表示經(jīng)配置以關(guān)于HOA系數(shù)或其導(dǎo)出項(xiàng)(例如,呈環(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的前景V[k]向量55k″的元素的形式)的各種方面執(zhí)行淡化操作的單元。
前景制訂單元78可表示經(jīng)配置以關(guān)于經(jīng)調(diào)整的前景V[k]向量55k″'及經(jīng)內(nèi)插的nFG信號(hào)49'執(zhí)行矩陣乘法以產(chǎn)生前景HOA系數(shù)65的單元。在這方面,前景制訂單元78可組合音頻對(duì)象49'(所述方式為借以表示經(jīng)內(nèi)插的nFG信號(hào)49'的另一種方式)與向量55k″'以重建構(gòu)HOA系數(shù)11'的前景(或換句話說(shuō),占優(yōu)勢(shì))方面。前景制訂單元78可執(zhí)行經(jīng)內(nèi)插的nFG信號(hào)49'乘以經(jīng)調(diào)整的前景V[k]向量55k″'的矩陣乘法。
HOA系數(shù)制訂單元82可表示經(jīng)配置以將前景HOA系數(shù)65組合到經(jīng)調(diào)整的環(huán)境HOA系數(shù)47″以便獲得HOA系數(shù)11'的單元。撇號(hào)記法反映HOA系數(shù)11'可類似于HOA系數(shù)11但與HOA系數(shù)11不相同。HOA系數(shù)11與11'之間的差可起因于歸因于有損傳輸媒體上的傳輸、量化或其它有損操作產(chǎn)生的損失。
圖5為說(shuō)明音頻編碼裝置(例如,圖3A的實(shí)例中所展示的音頻編碼裝置20)在執(zhí)行本發(fā)明中所描述的基于向量的合成技術(shù)的各種方面中的示范性操作的流程圖。最初,音頻編碼裝置20接收HOA系數(shù)11(106)。音頻編碼裝置20可調(diào)用LIT單元30,LIT單元30可關(guān)于HOA系數(shù)應(yīng)用LIT以輸出經(jīng)變換的HOA系數(shù)(例如,在SVD的狀況下,經(jīng)變換的HOA系數(shù)可包括US[k]向量33及V[k]向量35)(107)。
音頻編碼裝置20接下來(lái)可調(diào)用參數(shù)計(jì)算單元32以按上文所描述的方式關(guān)于US[k]向量33、US[k-1]向量33、V[k]及/或V[k-1]向量35的任何組合執(zhí)行上文所描述的分析以識(shí)別各種參數(shù)。即,參數(shù)計(jì)算單元32可基于經(jīng)變換的HOA系數(shù)33/35的分析確定至少一個(gè)參數(shù)(108)。
音頻編碼裝置20可接著調(diào)用重新排序單元34,重新排序單元34基于參數(shù)將經(jīng)變換的HOA系數(shù)(再次在SVD的內(nèi)容脈絡(luò)中,其可指US[k]向量33及V[k]向量35)重新排序以產(chǎn)生經(jīng)重新排序的經(jīng)變換的HOA系數(shù)33'/35'(或,換句話說(shuō),US[k]向量33'及V[k]向量35'),如上文所描述(109)。在前述操作或后續(xù)操作中的任一者期間,音頻編碼裝置20還可調(diào)用聲場(chǎng)分析單元44。如上文所描述,聲場(chǎng)分析單元44可關(guān)于HOA系數(shù)11及/或經(jīng)變換的HOA系數(shù)33/35執(zhí)行聲場(chǎng)分析以確定前景聲道的總數(shù)目(nFG)45、背景聲場(chǎng)的階數(shù)(NBG)以及待發(fā)送的額外BG HOA聲道的數(shù)目(nBGa)及索引(i)(其在圖3A的實(shí)例中可共同地表示為背景聲道信息43)(109)。
音頻編碼裝置20還可調(diào)用背景選擇單元48。背景選擇單元48可基于背景聲道信息43確定背景或環(huán)境HOA系數(shù)47(110)。音頻編碼裝置20可進(jìn)一步調(diào)用前景選擇單元36,前景選擇單元36可基于nFG 45(其可表示識(shí)別前景向量的一或多個(gè)索引)選擇表示聲場(chǎng)的前景或特異分量的經(jīng)重新排序的US[k]向量33'及經(jīng)重新排序的V[k]向量35'(112)。
音頻編碼裝置20可調(diào)用能量補(bǔ)償單元38。能量補(bǔ)償單元38可關(guān)于環(huán)境HOA系數(shù)47執(zhí)行能量補(bǔ)償以補(bǔ)償歸因于由背景選擇單元48移除HOA系數(shù)中的各種HOA系數(shù)而產(chǎn)生的能量損失(114),且進(jìn)而產(chǎn)生經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'。
音頻編碼裝置20還可調(diào)用空間-時(shí)間內(nèi)插單元50??臻g-時(shí)間內(nèi)插單元50可關(guān)于經(jīng)重新排序的經(jīng)變換的HOA系數(shù)33'/35'執(zhí)行空間-時(shí)間內(nèi)插以獲得經(jīng)內(nèi)插的前景信號(hào)49'(其還可被稱作“經(jīng)內(nèi)插的nFG信號(hào)49'”)及剩余前景方向信息53(其還可被稱作“V[k]向量53”)(116)。音頻編碼裝置20可接著調(diào)用系數(shù)減少單元46。系數(shù)減少單元46可基于背景聲道信息43關(guān)于剩余前景V[k]向量53執(zhí)行系數(shù)減少以獲得減少的前景方向信息55(其還可被稱作減少的前景V[k]向量55)(118)。
音頻編碼裝置20可接著調(diào)用V-向量譯碼單元52以按上文所描述的方式壓縮減少的前景V[k]向量55且產(chǎn)生經(jīng)譯碼前景V[k]向量57(120)。
音頻編碼裝置20還可調(diào)用心理聲學(xué)音頻譯碼器單元40。心理聲學(xué)音頻譯碼器單元40可對(duì)經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的nFG信號(hào)49'的每一向量進(jìn)行心理聲學(xué)譯碼以產(chǎn)生經(jīng)編碼環(huán)境HOA系數(shù)59及經(jīng)編碼nFG信號(hào)61。音頻編碼裝置可接著調(diào)用位流產(chǎn)生單元42。位流產(chǎn)生單元42可基于經(jīng)譯碼前景方向信息57、經(jīng)譯碼環(huán)境HOA系數(shù)59、經(jīng)譯碼nFG信號(hào)61及背景聲道信息43產(chǎn)生位流21。
圖6為說(shuō)明音頻解碼裝置(例如,圖4A中所展示的音頻解碼裝置24)在執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面中的示范性操作的流程圖。最初,音頻解碼裝置24可接收位流21(130)。在接收到位流后,音頻解碼裝置24可調(diào)用提取單元72。出于論述的目的假定位流21指示將執(zhí)行基于向量的重建構(gòu),提取單元72可解析位流以檢索上文所提及的信息,將所述信息傳遞到基于向量的重建構(gòu)單元92。
換句話說(shuō),提取單元72可按上文所描述的方式從位流21中提取經(jīng)譯碼前景方向信息57(再次,其還可被稱作經(jīng)譯碼前景V[k]向量57)、經(jīng)譯碼環(huán)境HOA系數(shù)59及經(jīng)譯碼前景信號(hào)(其還可被稱作經(jīng)譯碼前景nFG信號(hào)59或經(jīng)譯碼前景音頻對(duì)象59)(132)。
音頻解碼裝置24可進(jìn)一步調(diào)用解量化單元74。解量化單元74可對(duì)經(jīng)譯碼前景方向信息57進(jìn)行熵解碼及解量化以獲得減少的前景方向信息55k(136)。音頻解碼裝置24還可調(diào)用心理聲學(xué)解碼單元80。心理聲學(xué)音頻解碼單元80可解碼經(jīng)編碼環(huán)境HOA系數(shù)59及經(jīng)編碼前景信號(hào)61以獲得經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的前景信號(hào)49'(138)。心理聲學(xué)解碼單元80可將經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'傳遞到淡化單元770且將nFG信號(hào)49'傳遞到前景制訂單元78。
音頻解碼裝置24接下來(lái)可調(diào)用空間-時(shí)間內(nèi)插單元76。空間-時(shí)間內(nèi)插單元76可接收經(jīng)重新排序的前景方向信息55k'且關(guān)于減少的前景方向信息55k/55k-1執(zhí)行空間-時(shí)間內(nèi)插以產(chǎn)生經(jīng)內(nèi)插的前景方向信息55k″(140)??臻g-時(shí)間內(nèi)插單元76可將經(jīng)內(nèi)插的前景V[k]向量55k″轉(zhuǎn)遞到淡化單元770。
音頻解碼裝置24可調(diào)用淡化單元770。淡化單元770可接收或以其它方式獲得指示經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'何時(shí)處于轉(zhuǎn)變中的語(yǔ)法元素(例如,AmbCoeffTransition語(yǔ)法元素)(例如,從提取單元72)。淡化單元770可基于轉(zhuǎn)變語(yǔ)法元素及維持的轉(zhuǎn)變狀態(tài)信息使經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'淡入或淡出,從而將經(jīng)調(diào)整的環(huán)境HOA系數(shù)47″輸出到HOA系數(shù)制訂單元82。淡化單元770還可基于語(yǔ)法元素及維持的轉(zhuǎn)變狀態(tài)信息,及使經(jīng)內(nèi)插的前景V[k]向量55k″中的對(duì)應(yīng)一或多個(gè)元素淡出或淡入,從而將經(jīng)調(diào)整的前景V[k]向量55k″'輸出到前景制訂單元78(142)。
音頻解碼裝置24可調(diào)用前景制訂單元78。前景制訂單元78可執(zhí)行nFG信號(hào)49'乘以經(jīng)調(diào)整的前景方向信息55k″'的矩陣乘法以獲得前景HOA系數(shù)65(144)。音頻解碼裝置24還可調(diào)用HOA系數(shù)制訂單元82。HOA系數(shù)制訂單元82可將前景HOA系數(shù)65加到經(jīng)調(diào)整的環(huán)境HOA系數(shù)47″以便獲得HOA系數(shù)11'(146)。
圖7為更詳細(xì)地說(shuō)明可用于圖3A的音頻編碼裝置20中的實(shí)例v-向量譯碼單元52的框圖。v-向量譯碼單元52包含分解單元502及量化單元504。分解單元502可基于碼向量63將減少的前景V[k]向量55中的每一者分解成碼向量的加權(quán)總和。分解單元502可產(chǎn)生權(quán)重506且將權(quán)重506提供到量化單元504。量化單元504可將權(quán)重506量化以產(chǎn)生經(jīng)譯碼權(quán)重57。
圖8為更詳細(xì)地說(shuō)明可用于圖3A的音頻編碼裝置20中的實(shí)例v-向量譯碼單元52的框圖。v-向量譯碼單元52包含分解單元502、權(quán)重選擇單元510及量化單元504。分解單元502可基于碼向量63將減少的前景V[k]向量55中的每一者分解成碼向量的加權(quán)總和。分解單元502可產(chǎn)生權(quán)重514且將權(quán)重514提供到權(quán)重選擇單元510。權(quán)重選擇單元510可選擇權(quán)重514的子集以產(chǎn)生權(quán)重的一所選擇的子集516,且將權(quán)重的所選擇的子集516提供到量化單元504。量化單元504可將權(quán)重的所選擇的子集516量化以產(chǎn)生經(jīng)譯碼權(quán)重57。
圖9為說(shuō)明從v-向量產(chǎn)生的聲場(chǎng)的概念圖。圖10為說(shuō)明從上文關(guān)于圖9所描述的v-向量的25階模型產(chǎn)生的聲場(chǎng)的概念圖。圖11為說(shuō)明圖10中所展示的25階模型的每一階的加權(quán)的概念圖。圖12為說(shuō)明上文關(guān)于圖9所描述的v-向量的5階模型的概念圖。圖13為說(shuō)明圖12中所展示的5階模型的每一階的加權(quán)的概念圖。
圖14為說(shuō)明用以執(zhí)行奇異值分解的實(shí)例矩陣的實(shí)例尺寸的概念圖。如圖14中所展示,UFG矩陣包含于U矩陣中,SFG矩陣包含于S矩陣中,且VFGT矩陣包含于VT矩陣中。
在圖14的實(shí)例矩陣中,UFG矩陣具有1280乘以2的尺寸,其中1280對(duì)應(yīng)于樣本的數(shù)目,且2對(duì)應(yīng)于經(jīng)選擇用于進(jìn)行前景譯碼的前景向量的數(shù)目。U矩陣具有1280乘以25的尺寸,其中1280對(duì)應(yīng)于樣本的數(shù)目,且25對(duì)應(yīng)于HOA音頻信號(hào)中的聲道的數(shù)目。聲道的數(shù)目可等于(N+1)2,其中N等于HOA音頻信號(hào)的階數(shù)。
SFG矩陣具有尺寸2乘以2,其中每一個(gè)2對(duì)應(yīng)于經(jīng)選擇用于進(jìn)行前景譯碼的前景向量的數(shù)目。S矩陣具有25乘以25的尺寸,其中每一個(gè)25對(duì)應(yīng)于HOA音頻信號(hào)中的聲道的數(shù)目。
VFGT矩陣具有尺寸25乘以2,其中25對(duì)應(yīng)于HOA音頻信號(hào)中的聲道的數(shù)目,且2對(duì)應(yīng)于經(jīng)選擇用于進(jìn)行前景譯碼的前景向量的數(shù)目。VT矩陣具有25乘以25的尺寸,其中每一個(gè)25對(duì)應(yīng)于HOA音頻信號(hào)中的聲道的數(shù)目。
如圖14中所展示,UFG矩陣、SFG矩陣及VFGT矩陣可相乘在一起以產(chǎn)生HFG矩陣。HFG矩陣具有1280乘以25的尺寸,其中1280對(duì)應(yīng)于樣本的數(shù)目,且25對(duì)應(yīng)于HOA音頻信號(hào)中的聲道的數(shù)目。
圖15為說(shuō)明可通過使用本發(fā)明的v-向量譯碼技術(shù)獲得的實(shí)例性能改良的圖表。每一行表示一測(cè)試項(xiàng)目,且列從左到右指示測(cè)試項(xiàng)目編號(hào)、測(cè)試項(xiàng)目名稱、與測(cè)試項(xiàng)目相關(guān)聯(lián)的每一幀位數(shù)、使用本發(fā)明的實(shí)例v-向量譯碼技術(shù)中的一或多者進(jìn)行的位速率,及使用其它v-向量譯碼技術(shù)(例如,將v-向量分量標(biāo)量量化,而并不分解v-向量)獲得的位速率。如圖15中所展示,相對(duì)于并不將v-向量分解成權(quán)重及/或選擇權(quán)重的子集以進(jìn)行量化的其它技術(shù)來(lái)說(shuō),本發(fā)明的技術(shù)在一些實(shí)例中可提供位速率的顯著改良。
在一些實(shí)例中,本發(fā)明的技術(shù)可基于一組方向向量執(zhí)行V-向量量化。V-向量可由方向向量的加權(quán)總和來(lái)表示。在一些實(shí)例中,對(duì)于彼此正規(guī)正交的一組給定方向向量,v-向量譯碼單元52可計(jì)算每一方向向量的加權(quán)值。v-向量譯碼單元52可選擇N個(gè)最大值加權(quán)值{w_i},及對(duì)應(yīng)方向向量{o_i}。v-向量譯碼單元52可將對(duì)應(yīng)于所選擇的加權(quán)值及/或方向向量的索引{i}傳輸?shù)浇獯a器。在一些實(shí)例中,當(dāng)計(jì)算最大值時(shí),v-向量譯碼單元52可使用絕對(duì)值(通過忽略正負(fù)號(hào)信息)。v-向量譯碼單元52可將N個(gè)最大值加權(quán)值{w_i}量化以產(chǎn)生經(jīng)量化的加權(quán)值{w^_i}。v-向量譯碼單元52可將用于{w^_i}的量化索引傳輸?shù)浇獯a器。在解碼器處,可將經(jīng)量化的V-向量合成為sum_i(w^_i*o_i)。
在一些實(shí)例中,本發(fā)明的技術(shù)可提供性能的顯著改良。舉例來(lái)說(shuō),與使用標(biāo)量量化后接續(xù)霍夫曼譯碼的情形相比較,可獲得大約85%的位速率減小。舉例來(lái)說(shuō),標(biāo)量量化后接續(xù)霍夫曼譯碼的情形在一些實(shí)例中可能需要16.26kbps(每秒千位)的位速率,而本發(fā)明的技術(shù)在一些實(shí)例中可能能夠按2.75kbsp的位速率譯碼。
考慮使用來(lái)自碼簿的X個(gè)碼向量(及X個(gè)對(duì)應(yīng)權(quán)重)譯碼v-向量的實(shí)例。在一些實(shí)例中,位流產(chǎn)生單元42可產(chǎn)生位流21以使得由3種類別的參數(shù)來(lái)表示每一v-向量:(1)X數(shù)目個(gè)索引,每一索引指向碼向量的碼簿(例如,經(jīng)正規(guī)化的方向向量的碼簿)中的特定向量;(2)與上述索引相配的對(duì)應(yīng)(X)數(shù)目個(gè)權(quán)重;以及(3)用于上述(X)數(shù)目個(gè)權(quán)重中的每一者的正負(fù)號(hào)位。在一些狀況下,可使用又一向量量化(VQ)進(jìn)一步將X數(shù)目個(gè)權(quán)重量化。
在此實(shí)例中用于確定權(quán)重的分解碼簿可選自一組候選碼簿。舉例來(lái)說(shuō),碼簿可為8個(gè)不同碼簿中的一者。這些碼簿中的每一者可具有不同長(zhǎng)度。因此,例如,不僅用以確定6階HOA內(nèi)容的權(quán)重的大小為49的碼簿可給出使用8個(gè)不同大小的碼簿中的任一者的選項(xiàng),而且本發(fā)明的技術(shù)還可給出使用8個(gè)不同大小的碼簿中的任一者的選項(xiàng)。
用于進(jìn)行權(quán)重的VQ的量化碼簿在一些實(shí)例中還可具有與用以確定權(quán)重的可能的分解碼簿的數(shù)目相同的對(duì)應(yīng)數(shù)目個(gè)可能的碼簿。因此,在一些實(shí)例中,可能存在用于確定權(quán)重的可變數(shù)目個(gè)不同的碼簿,及用于將權(quán)重量化的可變數(shù)目個(gè)碼簿。
在一些實(shí)例中,用以估計(jì)v-向量的權(quán)重的數(shù)目(即,經(jīng)選擇用于進(jìn)行量化的權(quán)重的數(shù)目)可為可變的。舉例來(lái)說(shuō),可設(shè)置閾值誤差準(zhǔn)則,且經(jīng)選擇以用于進(jìn)行量化的權(quán)重的數(shù)目(X)可取決于達(dá)到誤差閾值,其中誤差閾值如上文在方程式(10)中所定義。
在一些實(shí)例中,可在位流中用信號(hào)通知上文所提及的概念中的一或多者??紤]以下實(shí)例:其中用以譯碼v-向量的權(quán)重的最大數(shù)目被設(shè)置為128個(gè)權(quán)重,且使用8個(gè)不同的量化碼簿來(lái)將權(quán)重量化。在此實(shí)例中,位流產(chǎn)生單元42可產(chǎn)生位流21以使得位流21中的存取幀單元指示可基于逐個(gè)幀使用的索引的最大數(shù)目。在此實(shí)例中,索引的最大數(shù)目為從0到128的數(shù)目,因此上文所提及的數(shù)據(jù)可消耗存取幀單元中的7個(gè)位。
在上文所提及的實(shí)例中,基于逐個(gè)幀,位流產(chǎn)生單元42可產(chǎn)生位流21以包含指示以下情形的數(shù)據(jù):(1)使用8個(gè)不同碼簿中的哪一者來(lái)進(jìn)行VQ(對(duì)于每個(gè)v-向量);以及(2)用以譯碼每一v-向量的索引的實(shí)際數(shù)目(X)。在此實(shí)例中,指示使用8個(gè)不同碼簿中的哪一者來(lái)進(jìn)行VQ的數(shù)據(jù)可消耗3個(gè)位。指示用以譯碼每一v-向量的索引的實(shí)際數(shù)目(X)的數(shù)據(jù)可由存取幀單元中所指定的索引的最大數(shù)目來(lái)給出。在此實(shí)例中,此數(shù)目可在0個(gè)位到7個(gè)位的范圍內(nèi)。
在一些實(shí)例中,位流產(chǎn)生單元42可產(chǎn)生位流21以包含以下各者:(1)指示選擇及傳輸哪些方向向量的索引(根據(jù)所計(jì)算的加權(quán)值);以及(2)用于每一所選擇的方向向量的加權(quán)值。在一些實(shí)例中,本發(fā)明可提供用于使用對(duì)經(jīng)正規(guī)化的球諧碼向量的碼簿的分解進(jìn)行V-向量的量化的技術(shù)。
圖17為說(shuō)明在空間域中表示的16個(gè)不同的碼向量63A到63P的圖,所述碼向量可由圖7及8中的任一者或兩者的實(shí)例中所展示的V-向量譯碼單元52使用。碼向量63A到63P可表示上文所論述的碼向量63中的一或多者。
圖18為說(shuō)明可借以供圖7及8中的任一者或兩者的實(shí)例中所展示的V-向量譯碼單元52使用16個(gè)不同的碼向量63A到63P的不同方式的圖。V-向量譯碼單元52可接收減少的前景V[k]向量55中的一者,所述減少的前景V[k]向量55是在經(jīng)再現(xiàn)到空間域之后展示且表示為V-向量55。V-向量譯碼單元52可執(zhí)行上文所論述的向量量化以產(chǎn)生V-向量55的三個(gè)不同的經(jīng)譯碼版本。V-向量55的三個(gè)不同的經(jīng)譯碼版本是在經(jīng)再現(xiàn)到空間域之后展示且表示為經(jīng)譯碼V-向量57A、經(jīng)譯碼V-向量57B及經(jīng)譯碼V-向量57C。V-向量譯碼單元52可選擇經(jīng)譯碼V-向量57A到57C中的一者作為對(duì)應(yīng)于V-向量55的經(jīng)譯碼前景V[k]向量57中的一者。
V-向量譯碼單元52可基于在圖17的實(shí)例中更詳細(xì)地展示的碼向量63A到63P(“經(jīng)譯碼向量63”)產(chǎn)生經(jīng)譯碼V-向量57A到57C中的每一者。V-向量譯碼單元52可基于如曲線300A中所展示的所有16個(gè)碼向量63產(chǎn)生經(jīng)譯碼V-向量57A,其中所有16個(gè)索引是連同16個(gè)加權(quán)值一起指定。V-向量譯碼單元52可基于碼向量63的非零子集(例如,圍封于正方形方框中且與索引2、6及7相關(guān)聯(lián)的碼向量63,如曲線300B中所展示,在給定其它索引具有加權(quán)零的情況下)產(chǎn)生經(jīng)譯碼V-向量57A。除了首先將原始的V-向量55量化以外,V-向量譯碼單元52可使用與在產(chǎn)生經(jīng)譯碼V-向量57B時(shí)使用的碼向量相同的三個(gè)碼向量63產(chǎn)生經(jīng)譯碼V-向量57C。
審閱經(jīng)譯碼V-向量57A到57C的再現(xiàn),與原始V-向量55相比較,說(shuō)明:向量量化可提供原始V-向量55的大體上類似的表示(意味著經(jīng)譯碼V-向量57A到57C中的每一者之間的誤差很可能較小)。將經(jīng)譯碼V-向量57A到57C彼此相比較還揭示了僅存在微小或輕微差異。因而,經(jīng)譯碼V-向量57A到57C中提供最好的位減少的經(jīng)譯碼V-向量很可能為經(jīng)譯碼V-向量57A到57C中可供V-向量譯碼單元52選擇的經(jīng)譯碼V-向量。在給定經(jīng)譯碼V-向量57C最可能提供最小位速率的情況下(在給定經(jīng)譯碼V-向量57C利用V-向量55的經(jīng)量化的版本同時(shí)還僅使用碼向量63中的三個(gè)碼向量的情況下),V-向量譯碼單元52可選擇經(jīng)譯碼V-向量57C作為經(jīng)譯碼前景V[k]向量57中對(duì)應(yīng)于V-向量55的經(jīng)譯碼前景V[k]向量。
圖21為說(shuō)明根據(jù)本發(fā)明的實(shí)例向量量化單元520的框圖。在一些實(shí)例中,向量量化單元520可為圖3A的音頻編碼裝置20中或圖3B的音頻編碼裝置20中的V-向量譯碼單元52的實(shí)例。向量量化單元520包含分解單元522、權(quán)重選擇及排序單元524,及向量選擇單元526。分解單元522可基于碼向量63將減少的前景V[k]向量55中的每一者分解成碼向量的加權(quán)總和。分解單元522可產(chǎn)生權(quán)重值528且將權(quán)重值528提供到權(quán)重選擇及排序單元524。
權(quán)重選擇及排序單元524可選擇權(quán)重值528的子集以產(chǎn)生權(quán)重值的所選擇的子集。舉例來(lái)說(shuō),權(quán)重選擇及排序單元524可從所述組權(quán)重值528中選擇M個(gè)最大量值權(quán)重值。權(quán)重選擇及排序單元524可基于權(quán)重值的量值進(jìn)一步將權(quán)重值的所選擇的子集重新排序以產(chǎn)生權(quán)重值的經(jīng)重新排序的所選擇的子集530,且將權(quán)重值的經(jīng)重新排序的所選擇的子集530提供到向量選擇單元526。
向量選擇單元526可從量化碼簿532中選擇M-分量向量來(lái)表示M個(gè)權(quán)重值。換句話說(shuō),向量選擇單元526可將M個(gè)權(quán)重值向量量化。在一些實(shí)例中,M可對(duì)應(yīng)于由權(quán)重選擇及排序單元524選擇以表示單個(gè)V-向量的權(quán)重值的數(shù)目。向量選擇單元526可產(chǎn)生指示經(jīng)選擇以表示M個(gè)權(quán)重值的M-分量向量的數(shù)據(jù),且將此數(shù)據(jù)提供到位流產(chǎn)生單元42作為經(jīng)譯碼權(quán)重57。在一些實(shí)例中,量化碼簿532可包含經(jīng)編索引的多個(gè)M-分量向量,且指示M-分量向量的數(shù)據(jù)可為量化碼簿532中指向所選擇的向量的索引值。在這些實(shí)例中,解碼器可包含經(jīng)類似地編索引的量化碼簿以解碼索引值。
圖22為說(shuō)明向量量化單元在執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面中的示范性操作的流程圖。如上文關(guān)于圖21的實(shí)例所描述,向量量化單元520包含分解單元522、權(quán)重選擇及排序單元524,及向量選擇單元526。分解單元522可基于碼向量63將減少的前景V[k]向量55中的每一者分解成碼向量的加權(quán)總和(750)。分解單元522可獲得權(quán)重值528且將權(quán)重值528提供到權(quán)重選擇及排序單元524(752)。
權(quán)重選擇及排序單元524可選擇權(quán)重值528的子集以產(chǎn)生權(quán)重值的所選擇的子集(754)。舉例來(lái)說(shuō),權(quán)重選擇及排序單元524可從所述組權(quán)重值528中選擇M個(gè)最大量值權(quán)重值。權(quán)重選擇及排序單元524可基于權(quán)重值的量值進(jìn)一步將權(quán)重值的所選擇的子集重新排序以產(chǎn)生權(quán)重值的經(jīng)重新排序的所選擇的子集530,且將權(quán)重值的經(jīng)重新排序的所選擇的子集530提供到向量選擇單元526(756)。
向量選擇單元526可從量化碼簿532中選擇M-分量向量來(lái)表示M個(gè)權(quán)重值。換句話說(shuō),向量選擇單元526可將M個(gè)權(quán)重值向量量化(758)。在一些實(shí)例中,M可對(duì)應(yīng)于由權(quán)重選擇及排序單元524選擇以表示單個(gè)V-向量的權(quán)重值的數(shù)目。向量選擇單元526可產(chǎn)生指示經(jīng)選擇以表示M個(gè)權(quán)重值的M-分量向量的數(shù)據(jù),且將此數(shù)據(jù)提供到位流產(chǎn)生單元42作為經(jīng)譯碼權(quán)重57。在一些實(shí)例中,量化碼簿532可包含經(jīng)編索引的多個(gè)M-分量向量,且指示M-分量向量的數(shù)據(jù)可為量化碼簿532中指向所選擇的向量的索引值。在這些實(shí)例中,解碼器可包含經(jīng)類似地編索引的量化碼簿以解碼索引值。
圖23為說(shuō)明V-向量重建構(gòu)單元在執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面中的示范性操作的流程圖。圖4A或圖4B的V-向量重建構(gòu)單元74可首先(例如)從提取單元72獲得權(quán)重值(在從位流21解析之后)(760)。V-向量重建構(gòu)單元74還可(例如)按上文所描述的方式使用在位流21中用信號(hào)通知的索引從碼簿獲得碼向量(762)。V-向量重建構(gòu)單元74可接著按上文所描述的各種方式中的一或多者基于權(quán)重值及碼向量重建構(gòu)減少的前景V[k]向量(其還可被稱作V-向量)55(764)。
圖24為說(shuō)明圖3A或圖3B的V-向量譯碼單元在執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面中的示范性操作的流程圖。V-向量譯碼單元52可獲得目標(biāo)位速率(其還可被稱作閾值位速率)41(770)。當(dāng)目標(biāo)位速率41大于256Kbps時(shí)(或任何其它經(jīng)指定、經(jīng)配置或確定的位速率)(772的“否”),V-向量譯碼單元52可確定對(duì)V-向量55應(yīng)用且接著應(yīng)用標(biāo)量量化(774)。當(dāng)目標(biāo)位速率41小于或等于256Kbps時(shí)(772的“是”),V-向量重建構(gòu)單元52可確定對(duì)V-向量55應(yīng)用且接著應(yīng)用向量量化(776)。V-向量譯碼單元52還可在位流21中用信號(hào)通知:關(guān)于V-向量55執(zhí)行標(biāo)量量化或向量量化(778)。
圖25為說(shuō)明V-向量重建構(gòu)單元在執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面中的示范性操作的流程圖。圖4A或圖4B的V-向量重建構(gòu)單元74可首先獲得指示關(guān)于V-向量55是執(zhí)行標(biāo)量量化還是向量量化的指示(例如,語(yǔ)法元素)(780)。當(dāng)語(yǔ)法元素指示并不執(zhí)行標(biāo)量量化時(shí)(782的“否”),V-向量重建構(gòu)單元74可執(zhí)行向量解量化以重建構(gòu)V-向量55(784)。當(dāng)語(yǔ)法元素指示執(zhí)行標(biāo)量量化時(shí)(782的“是”),V-向量重建構(gòu)單元74可執(zhí)行標(biāo)量解量化以重建構(gòu)V-向量55(786)。
圖26為說(shuō)明圖3A或圖3B的V-向量譯碼單元在執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面中的示范性操作的流程圖。V-向量譯碼單元52可選擇多個(gè)(意味著兩個(gè)或多于兩個(gè))碼簿中的一者以在將V-向量55向量量化時(shí)使用(790)。V-向量譯碼單元52可接著按上文關(guān)于V-向量55所描述的方式使用兩個(gè)或多于兩個(gè)碼簿中的所選擇的碼簿執(zhí)行向量量化(792)。V-向量譯碼單元52可接著在位流21中指示或以其它方式用信號(hào)通知在將V-向量55量化時(shí)使用兩個(gè)或多于兩個(gè)碼簿中的一碼簿(794)。
圖27為說(shuō)明V-向量重建構(gòu)單元在執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面中的示范性操作的流程圖。圖4A或圖4B的V-向量重建構(gòu)單元74可首先獲得關(guān)于在將V-向量55向量量化時(shí)使用的兩個(gè)或多于兩個(gè)碼簿中的一者的指示(例如,語(yǔ)法元素)(800)。V-向量重建構(gòu)單元74可接著執(zhí)行向量解量化以按上文所描述的方式使用兩個(gè)或多于兩個(gè)碼簿中的所選擇的碼簿重建構(gòu)V-向量55(802)。
所述技術(shù)的各種方面可實(shí)現(xiàn)一種在以下條項(xiàng)中闡述的裝置:
條項(xiàng)1。一種裝置,其包括:用于存儲(chǔ)多個(gè)碼簿以在關(guān)于聲場(chǎng)的空間分量執(zhí)行向量量化時(shí)使用的裝置,所述空間分量經(jīng)由對(duì)多個(gè)高階立體混響系數(shù)應(yīng)用分解而獲得;以及用于選擇所述多個(gè)碼簿中的一者的裝置。
條項(xiàng)2。根據(jù)條項(xiàng)1所述的裝置,其進(jìn)一步包括用于在包含所述經(jīng)向量量化的空間分量的位流中指定語(yǔ)法元素的裝置,所述語(yǔ)法元素識(shí)別到具有在執(zhí)行所述空間分量的所述向量量化時(shí)使用的權(quán)重值的所述多個(gè)碼簿中的所述所選擇的碼簿中的索引。
條項(xiàng)3。根據(jù)條項(xiàng)1所述的裝置,其進(jìn)一步包括用于在包含所述經(jīng)向量量化的空間分量的位流中指定語(yǔ)法元素的裝置,所述語(yǔ)法元素識(shí)別到具有在執(zhí)行所述空間分量的所述向量量化時(shí)使用的碼向量的向量辭典中的索引。
條項(xiàng)4。根據(jù)條項(xiàng)1所述的方法,其中用于選擇多個(gè)碼簿中的一者的所述裝置包括用于基于在執(zhí)行所述向量量化時(shí)使用的碼向量的一數(shù)目選擇所述多個(gè)碼簿中的所述碼簿的裝置。
所述技術(shù)的各種方面還可實(shí)現(xiàn)一種在以下條項(xiàng)中闡述的裝置:
條項(xiàng)5。一種設(shè)備,其包括:用于關(guān)于多個(gè)高階立體混響(HOA)系數(shù)執(zhí)行分解以產(chǎn)生所述HOA系數(shù)的經(jīng)分解版本的裝置,及用于基于一組碼向量確定表示向量的一或多個(gè)權(quán)重值的裝置,所述向量包含于所述HOA系數(shù)的所述經(jīng)分解版本中,所述權(quán)重值中的每一者對(duì)應(yīng)于表示所述向量的所述碼向量的加權(quán)總和中所包含的多個(gè)權(quán)重中的相應(yīng)權(quán)重。
條項(xiàng)6。根據(jù)條項(xiàng)5所述的設(shè)備,其進(jìn)一步包括用于從一組候選分解碼簿中選擇分解碼簿的裝置,其中用于基于所述組碼向量確定所述一或多個(gè)權(quán)重值的所述裝置包括用于基于由所述所選擇的分解碼簿指定的所述組碼向量確定所述權(quán)重值的裝置。
條項(xiàng)7。根據(jù)條項(xiàng)6所述的設(shè)備,其中所述候選分解碼簿中的每一者包含多個(gè)碼向量,且其中所述候選分解碼簿中的至少兩者具有不同數(shù)目個(gè)碼向量。
條項(xiàng)8。根據(jù)條項(xiàng)5所述的設(shè)備,其進(jìn)一步包括:用于產(chǎn)生位流以包含指示使用哪些碼向量來(lái)確定所述權(quán)重的一或多個(gè)索引的裝置,及用于產(chǎn)生所述位流以進(jìn)一步包含對(duì)應(yīng)于所述索引中的每一者的權(quán)重值的裝置。
可關(guān)于任何數(shù)目個(gè)不同內(nèi)容脈絡(luò)及音頻生態(tài)系統(tǒng)執(zhí)行前述技術(shù)中的任一者。下文描述數(shù)個(gè)實(shí)例內(nèi)容脈絡(luò),但所述技術(shù)應(yīng)限于所述實(shí)例內(nèi)容脈絡(luò)。實(shí)例音頻生態(tài)系統(tǒng)可包含音頻內(nèi)容、影片工作室、音樂工作室、游戲音頻工作室、基于聲道的音頻內(nèi)容、譯碼引擎、游戲音頻符尾(game audio stems)、游戲音頻譯碼/再現(xiàn)引擎,及遞送系統(tǒng)。
影片工作室、音樂工作室及游戲音頻工作室可接收音頻內(nèi)容。在一些實(shí)例中,音頻內(nèi)容可表示獲取的輸出。影片工作室可例如通過使用數(shù)字音頻工作站(DAW)輸出基于聲道的音頻內(nèi)容(例如,呈2.0、5.1及7.1)。音樂工作室可例如通過使用DAW輸出基于聲道的音頻內(nèi)容(例如,呈2.0及5.1)。在任一狀況下,譯碼引擎可基于一或多個(gè)編碼解碼器(例如,AAC、AC3、杜比真HD(Dolby True HD)、杜比數(shù)字Plus(Dolby Digital Plus)及DTS主音頻)接收及編碼基于聲道的音頻內(nèi)容以供由遞送系統(tǒng)輸出。游戲音頻工作室可例如通過使用DAW輸出一或多個(gè)游戲音頻符尾。游戲音頻譯碼/再現(xiàn)引擎可譯碼音頻符尾及/或?qū)⒁纛l符尾再現(xiàn)成基于聲道的音頻內(nèi)容以供由遞送系統(tǒng)輸出??蓤?zhí)行所述技術(shù)的另一實(shí)例內(nèi)容脈絡(luò)包括音頻生態(tài)系統(tǒng),其可包含廣播記錄音頻對(duì)象、專業(yè)音頻系統(tǒng)、消費(fèi)型裝置上捕獲、HOA音頻格式、裝置上再現(xiàn)、消費(fèi)型音頻、TV及附件,及汽車音頻系統(tǒng)。
廣播記錄音頻對(duì)象、專業(yè)音頻系統(tǒng)及消費(fèi)型裝置上捕獲皆可使用HOA音頻格式譯碼其輸出。以此方式,可使用HOA音頻格式將音頻內(nèi)容譯碼成單個(gè)表示,可使用裝置上再現(xiàn)、消費(fèi)型音頻、TV及附件及汽車音頻系統(tǒng)播放所述單個(gè)表示。換句話說(shuō),可在通用音頻播放系統(tǒng)(即,與需要例如5.1、7.1等的特定配置的情形形成對(duì)比)(例如,音頻播放系統(tǒng)16)處播放音頻內(nèi)容的單個(gè)表示。
可執(zhí)行所述技術(shù)的內(nèi)容脈絡(luò)的其它實(shí)例包含可包含獲取元件及播放元件的音頻生態(tài)系統(tǒng)。獲取元件可包含有線及/或無(wú)線獲取裝置(例如,Eigen麥克風(fēng))、裝置上環(huán)繞聲捕獲器及移動(dòng)裝置(例如,智能手機(jī)及平板計(jì)算機(jī))。在一些實(shí)例中,有線及/或無(wú)線獲取裝置可經(jīng)由有線及/或無(wú)線通信信道耦接到移動(dòng)裝置。
根據(jù)本發(fā)明的一或多個(gè)技術(shù),移動(dòng)裝置可用以獲取聲場(chǎng)。舉例來(lái)說(shuō),移動(dòng)裝置可經(jīng)由有線及/或無(wú)線獲取裝置及/或裝置上環(huán)繞聲捕獲器(例如,集成到移動(dòng)裝置中的多個(gè)麥克風(fēng))獲取聲場(chǎng)。移動(dòng)裝置可接著將所獲取聲場(chǎng)譯碼成HOA系數(shù)以用于由播放元件中的一或多者播放。舉例來(lái)說(shuō),移動(dòng)裝置的用戶可記錄(獲取聲場(chǎng))實(shí)況事件(例如,集會(huì)、會(huì)議、比賽、音樂會(huì)等),且將記錄譯碼成HOA系數(shù)。
移動(dòng)裝置還可利用播放元件中的一或多者來(lái)播放HOA經(jīng)譯碼聲場(chǎng)。舉例來(lái)說(shuō),移動(dòng)裝置可解碼HOA經(jīng)譯碼聲場(chǎng),且將使得播放元件中的一或多者重新創(chuàng)建聲場(chǎng)的信號(hào)輸出到播放元件中的一或多者。作為一實(shí)例,移動(dòng)裝置可利用無(wú)線及/或無(wú)線通信信道將信號(hào)輸出到一或多個(gè)揚(yáng)聲器(例如,揚(yáng)聲器陣列、聲棒(sound bar)等)。作為另一實(shí)例,移動(dòng)裝置可利用銜接解決方案將信號(hào)輸出到一或多個(gè)銜接臺(tái)及/或一或多個(gè)銜接的揚(yáng)聲器(例如,智能汽車及/或家庭中的聲音系統(tǒng))。作為另一實(shí)例,移動(dòng)裝置可利用頭戴式耳機(jī)再現(xiàn)將信號(hào)輸出到一組頭戴式耳機(jī)(例如)以創(chuàng)建實(shí)際的雙耳聲音。
在一些實(shí)例中,特定移動(dòng)裝置可獲取3D聲場(chǎng)并且在稍后時(shí)間播放相同的3D聲場(chǎng)。在一些實(shí)例中,移動(dòng)裝置可獲取3D聲場(chǎng),將所述3D聲場(chǎng)編碼為HOA,且將經(jīng)編碼3D聲場(chǎng)傳輸?shù)揭换蚨鄠€(gè)其它裝置(例如,其它移動(dòng)裝置及/或其它非移動(dòng)裝置)以用于播放。
可執(zhí)行所述技術(shù)的又一內(nèi)容脈絡(luò)包含可包含音頻內(nèi)容、游戲工作室、經(jīng)譯碼音頻內(nèi)容、再現(xiàn)引擎及遞送系統(tǒng)的音頻生態(tài)系統(tǒng)。在一些實(shí)例中,游戲工作室可包含可支持HOA信號(hào)的編輯的一或多個(gè)DAW。舉例來(lái)說(shuō),所述一或多個(gè)DAW可包含HOA插件及/或可經(jīng)配置以與一或多個(gè)游戲音頻系統(tǒng)一起操作(例如,工作)的工具。在一些實(shí)例中,游戲工作室可輸出支持HOA的新符尾格式。在任何狀況下,游戲工作室可將經(jīng)譯碼音頻內(nèi)容輸出到再現(xiàn)引擎,所述再現(xiàn)引擎可再現(xiàn)聲場(chǎng)以供由遞送系統(tǒng)播放。
還可關(guān)于示范性音頻獲取裝置執(zhí)行所述技術(shù)。舉例來(lái)說(shuō),可關(guān)于可包含共同地經(jīng)配置以記錄3D聲場(chǎng)的多個(gè)麥克風(fēng)的Eigen麥克風(fēng)執(zhí)行所述技術(shù)。在一些實(shí)例中,Eigen麥克風(fēng)的所述多個(gè)麥克風(fēng)可位于具有大約4cm的半徑的大體上球面球的表面上。在一些實(shí)例中,音頻編碼裝置20可集成到Eigen麥克風(fēng)中以便直接從麥克風(fēng)輸出位流21。
另一示范性音頻獲取內(nèi)容脈絡(luò)可包含可經(jīng)配置以接收來(lái)自一或多個(gè)麥克風(fēng)(例如,一或多個(gè)Eigen麥克風(fēng))的信號(hào)的制作車。制作車還可包含音頻編碼器,例如圖3A的音頻編碼器20。
在一些情況下,移動(dòng)裝置還可包含共同地經(jīng)配置以記錄3D聲場(chǎng)的多個(gè)麥克風(fēng)。換句話說(shuō),所述多個(gè)麥克風(fēng)可具有X、Y、Z分集。在一些實(shí)例中,移動(dòng)裝置可包含可旋轉(zhuǎn)以關(guān)于移動(dòng)裝置的一或多個(gè)其它麥克風(fēng)提供X、Y、Z分集的麥克風(fēng)。移動(dòng)裝置還可包含音頻編碼器,例如圖3A的音頻編碼器20。
加固型視頻捕獲裝置可進(jìn)一步經(jīng)配置以記錄3D聲場(chǎng)。在一些實(shí)例中,加固型視頻捕獲裝置可附接到參與活動(dòng)的用戶的頭盔。舉例來(lái)說(shuō),加固型視頻捕獲裝置可在用戶泛舟時(shí)附接到用戶的頭盔。以此方式,加固型視頻捕獲裝置可捕獲表示用戶周圍的動(dòng)作(例如,水在用戶身后的撞擊、另一泛舟者在用戶前方說(shuō)話,等等)的3D聲場(chǎng)。
還可關(guān)于可經(jīng)配置以記錄3D聲場(chǎng)的附件增強(qiáng)型移動(dòng)裝置執(zhí)行所述技術(shù)。在一些實(shí)例中,移動(dòng)裝置可類似于上文所論述的移動(dòng)裝置,其中添加一或多個(gè)附件。舉例來(lái)說(shuō),Eigen麥克風(fēng)可附接到上文所提及的移動(dòng)裝置以形成附件增強(qiáng)型移動(dòng)裝置。以此方式,附件增強(qiáng)型移動(dòng)裝置可捕獲3D聲場(chǎng)的較高質(zhì)量版本(與僅使用與附件增強(qiáng)型移動(dòng)裝置成一體式的聲音捕獲組件的情形相比較)。
下文進(jìn)一步論述可執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的實(shí)例音頻播放裝置。根據(jù)本發(fā)明的一或多個(gè)技術(shù),揚(yáng)聲器及/或聲棒可布置于任何任意配置中,同時(shí)仍播放3D聲場(chǎng)。此外,在一些實(shí)例中,頭戴式耳機(jī)播放裝置可經(jīng)由有線或無(wú)線連接耦接到解碼器24。根據(jù)本發(fā)明的一或多個(gè)技術(shù),可利用聲場(chǎng)的單個(gè)通用表示來(lái)在揚(yáng)聲器、聲棒及頭戴式耳機(jī)播放裝置的任何組合上再現(xiàn)聲場(chǎng)。
數(shù)個(gè)不同實(shí)例音頻播放環(huán)境還可適合于執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面。舉例來(lái)說(shuō),以下環(huán)境可為用于執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的合適環(huán)境:5.1揚(yáng)聲器播放環(huán)境、2.0(例如,立體聲)揚(yáng)聲器播放環(huán)境、具有全高前擴(kuò)音器的9.1揚(yáng)聲器播放環(huán)境、22.2揚(yáng)聲器播放環(huán)境、16.0揚(yáng)聲器播放環(huán)境、汽車揚(yáng)聲器播放環(huán)境,及具有耳掛式耳機(jī)的移動(dòng)裝置播放環(huán)境。
根據(jù)本發(fā)明的一或多個(gè)技術(shù),可利用聲場(chǎng)的單個(gè)通用表示來(lái)在前述播放環(huán)境中的任一者上再現(xiàn)聲場(chǎng)。另外,本發(fā)明的技術(shù)使得再現(xiàn)器能夠從通用表示再現(xiàn)聲場(chǎng)以供在不同于上文所描述的環(huán)境的播放環(huán)境上播放。舉例來(lái)說(shuō),如果設(shè)計(jì)考慮禁止揚(yáng)聲器根據(jù)7.1揚(yáng)聲器播放環(huán)境的恰當(dāng)放置(例如,如果不可能放置右環(huán)繞揚(yáng)聲器),那么本發(fā)明的技術(shù)使得再現(xiàn)器能夠用其它6個(gè)揚(yáng)聲器進(jìn)行補(bǔ)償,使得可在6.1揚(yáng)聲器播放環(huán)境上實(shí)現(xiàn)播放。
此外,用戶可在佩戴頭戴式耳機(jī)時(shí)觀看運(yùn)動(dòng)比賽。根據(jù)本發(fā)明的一或多個(gè)技術(shù),可獲取運(yùn)動(dòng)比賽的3D聲場(chǎng)(例如,可將一或多個(gè)Eigen麥克風(fēng)放置于棒球場(chǎng)中及/或周圍),可獲得對(duì)應(yīng)于3D聲場(chǎng)的HOA系數(shù)且將所述HOA系數(shù)傳輸?shù)浇獯a器,所述解碼器可基于HOA系數(shù)重建構(gòu)3D聲場(chǎng)且將經(jīng)重建構(gòu)的3D聲場(chǎng)輸出到再現(xiàn)器,所述再現(xiàn)器可獲得關(guān)于播放環(huán)境的類型(例如,頭戴式耳機(jī))的指示,且將經(jīng)重建構(gòu)的3D聲場(chǎng)再現(xiàn)成使得頭戴式耳機(jī)輸出運(yùn)動(dòng)比賽的3D聲場(chǎng)的表示的信號(hào)。
在上文所描述的各種情況中的每一者中,應(yīng)理解,音頻編碼裝置20可執(zhí)行方法或另外包括用以執(zhí)行音頻編碼裝置20經(jīng)配置以執(zhí)行的方法的每一步驟的裝置。在一些情況下,所述裝置可包括一或多個(gè)處理器。在一些情況下,所述一或多個(gè)處理器可表示借助于存儲(chǔ)到非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體的指令配置的專用處理器。換句話說(shuō),數(shù)組編碼實(shí)例中的每一者中的技術(shù)的各種方面可提供非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體,其具有存儲(chǔ)于其上的指令,所述指令在經(jīng)執(zhí)行時(shí)使得一或多個(gè)處理器執(zhí)行音頻編碼裝置20已經(jīng)配置以執(zhí)行的方法。
在一或多個(gè)實(shí)例中,所描述功能可以硬件、軟件、固件或其任何組合來(lái)實(shí)施。如果以軟件實(shí)施,那么所述功能可作為一或多個(gè)指令或代碼存儲(chǔ)于計(jì)算機(jī)可讀媒體上或經(jīng)由計(jì)算機(jī)可讀媒體進(jìn)行傳輸,且由基于硬件的處理單元執(zhí)行。計(jì)算機(jī)可讀媒體可包含計(jì)算機(jī)可讀存儲(chǔ)媒體,其對(duì)應(yīng)于例如數(shù)據(jù)存儲(chǔ)媒體的有形媒體。數(shù)據(jù)存儲(chǔ)媒體可為可由一或多個(gè)計(jì)算機(jī)或一或多個(gè)處理器存取以檢索用于實(shí)施本發(fā)明中所描述的技術(shù)的指令、代碼及/或數(shù)據(jù)結(jié)構(gòu)的任何可用媒體。計(jì)算機(jī)程序產(chǎn)品可包含計(jì)算機(jī)可讀媒體。
同樣,在上文所描述的各種情況中的每一者中,應(yīng)理解,音頻解碼裝置24可執(zhí)行方法或另外包括用以執(zhí)行音頻解碼裝置24經(jīng)配置以執(zhí)行的方法的每一步驟的裝置。在一些情況下,所述裝置可包括一或多個(gè)處理器。在一些情況下,所述一或多個(gè)處理器可表示借助于存儲(chǔ)到非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體的指令配置的專用處理器。換句話說(shuō),數(shù)組編碼實(shí)例中的每一者中的技術(shù)的各種方面可提供非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體,其具有存儲(chǔ)于其上的指令,所述指令在經(jīng)執(zhí)行時(shí)使得一或多個(gè)處理器執(zhí)行音頻解碼裝置24已經(jīng)配置以執(zhí)行的方法。
借助于實(shí)例而非限制,這些計(jì)算機(jī)可讀存儲(chǔ)媒體可包括RAM、ROM、EEPROM、CD-ROM或其它光盤存儲(chǔ)裝置、磁盤存儲(chǔ)裝置或其它磁性存儲(chǔ)裝置、閃存或可用來(lái)存儲(chǔ)呈指令或數(shù)據(jù)結(jié)構(gòu)形式的所要程序代碼且可由計(jì)算機(jī)存取的任何其它媒體。然而,應(yīng)理解,計(jì)算機(jī)可讀存儲(chǔ)媒體及數(shù)據(jù)存儲(chǔ)媒體不包含連接、載波、信號(hào)或其它暫時(shí)性媒體,而是針對(duì)非暫時(shí)性有形存儲(chǔ)媒體。如本文中所使用,磁盤及光盤包含緊密光盤(CD)、激光光盤、光學(xué)光盤、數(shù)字多功能光盤(DVD)、軟盤及藍(lán)光光盤,其中磁盤通常以磁性方式再生數(shù)據(jù),而光盤用激光以光學(xué)方式再生數(shù)據(jù)。以上各者的組合還應(yīng)包含于計(jì)算機(jī)可讀媒體的范圍內(nèi)。
指令可由一或多個(gè)處理器執(zhí)行,所述一或多個(gè)處理器例如一或多個(gè)數(shù)字信號(hào)處理器(DSP)、通用微處理器、專用集成電路(ASIC)、現(xiàn)場(chǎng)可編程邏輯陣列(FPGA)或其它等效的集成或離散邏輯電路系統(tǒng)。因此,如本文中所使用的術(shù)語(yǔ)“處理器”可指上述結(jié)構(gòu)或適合于實(shí)施本文中所描述的技術(shù)的任何其它結(jié)構(gòu)中的任一者。另外,在一些方面中,可在經(jīng)配置用于編碼及解碼的專用硬件及/或軟件模組內(nèi)提供本文中所描述的功能性,或?qū)⒈疚闹兴枋龅墓δ苄圆⑷胗诮M合式編碼解碼器中。又,所述技術(shù)可完全實(shí)施于一或多個(gè)電路或邏輯元件中。
本發(fā)明的技術(shù)可在廣泛多種裝置或設(shè)備中實(shí)施,所述裝置或設(shè)備包含無(wú)線手機(jī)、集成電路(IC)或一組IC(例如,芯片組)。在本發(fā)明中描述各種組件、模組或單元以強(qiáng)調(diào)經(jīng)配置以執(zhí)行所揭示技術(shù)的裝置的功能方面,但未必需要由不同硬件單元來(lái)實(shí)現(xiàn)。確切地說(shuō),如上文所描述,各種單元可與合適的軟件及/或固件一起組合于編碼解碼器硬件單元中或由互操作性硬件單元的集合提供,硬件單元包含如上文所描述的一或多個(gè)處理器。
已描述所述技術(shù)的各種方面。所述技術(shù)的這些及其它方面在所附權(quán)利要求書的范圍內(nèi)。