2014年5月16日申請(qǐng)的標(biāo)題為“較高階立體混響系數(shù)的閉環(huán)量化(CLOSED LOOP QUANTIZATION OF HIGHER ORDER AMBISONIC COEFFICIENTS)”的第61/994,493號(hào)美國(guó)臨時(shí)申請(qǐng)案;
2014年5月16日申請(qǐng)的標(biāo)題為“較高階立體混響系數(shù)的閉環(huán)量化”的第61/994,788號(hào)美國(guó)臨時(shí)申請(qǐng)案;以及
2014年5月28日申請(qǐng)的標(biāo)題為“較高階立體混響系數(shù)的閉環(huán)量化”的第62/004,082號(hào)美國(guó)臨時(shí)申請(qǐng)案,
前述所列各美國(guó)臨時(shí)申請(qǐng)案中的每一者以引用的方式并入本文中,如同在其相應(yīng)全文中所闡述般。
技術(shù)領(lǐng)域
本發(fā)明涉及音頻數(shù)據(jù),且更具體來(lái)說(shuō),涉及較高階立體混響音頻數(shù)據(jù)的量化。
背景技術(shù):
較高階立體混響(HOA)信號(hào)(常由多個(gè)球諧系數(shù)(SHC)或其它階層元素表示)是聲場(chǎng)的三維表示。HOA或SHC表示可以獨(dú)立于用以重放從SHC信號(hào)再現(xiàn)的多信道音頻信號(hào)的局部揚(yáng)聲器幾何布置的方式來(lái)表示聲場(chǎng)。SHC信號(hào)還可促進(jìn)向后兼容性,因?yàn)榭蓪HC信號(hào)再現(xiàn)為眾所周知的且被廣泛采用的多信道格式(例如,5.1音頻信道格式或7.1音頻信道格式)。SHC表示因此可實(shí)現(xiàn)對(duì)聲場(chǎng)的更好表示,其也適應(yīng)向后兼容性。
技術(shù)實(shí)現(xiàn)要素:
一般來(lái)說(shuō),本發(fā)明描述用于提供聲場(chǎng)的三維表示的HOA系數(shù)的閉環(huán)量化的技術(shù)。并非使用開(kāi)環(huán)量化過(guò)程執(zhí)行音頻對(duì)象和與音頻對(duì)象相關(guān)聯(lián)的方向信息(這兩者可從HOA系數(shù)分解)的單獨(dú)且獨(dú)立量化,音頻編碼器可至少部分地基于與所述音頻對(duì)象相關(guān)聯(lián)的經(jīng)量化方向信息而量化所述音頻對(duì)象。以此方式,經(jīng)量化音頻對(duì)象可補(bǔ)償因量化與所述音頻對(duì)象相關(guān)聯(lián)的方向信息產(chǎn)生的量化誤差。此外,與經(jīng)由開(kāi)環(huán)量化編碼的聲場(chǎng)的三維表示相比,經(jīng)由閉環(huán)量化編碼的聲場(chǎng)的三維表示可由解碼器以相對(duì)較少量化誤差來(lái)重構(gòu)。
在一個(gè)方面中,一種用于量化前景音頻信號(hào)的方法包括由至少一個(gè)處理器至少部分地基于執(zhí)行與音頻對(duì)象相關(guān)聯(lián)的方向信息的量化的結(jié)果而執(zhí)行所述音頻對(duì)象的閉環(huán)量化。
在另一方面,一種用于量化前景音頻信號(hào)的裝置包含存儲(chǔ)器。所述裝置進(jìn)一步包含至少一個(gè)處理器,其經(jīng)配置以至少部分地基于執(zhí)行與所述音頻對(duì)象相關(guān)聯(lián)的所述方向信息的量化的結(jié)果而執(zhí)行所述音頻對(duì)象的閉環(huán)量化。
在另一方面,一種用于解量化音頻對(duì)象的方法包括:由至少一個(gè)處理器至少部分地基于執(zhí)行與已經(jīng)閉環(huán)量化的音頻對(duì)象相關(guān)聯(lián)的方向信息的量化的結(jié)果而獲得所述音頻對(duì)象;以及由所述至少一個(gè)處理器解量化所述音頻對(duì)象。
在另一方面,一種用于解量化音頻對(duì)象的裝置包含存儲(chǔ)器。所述裝置進(jìn)一步包含至少一個(gè)處理器,其經(jīng)配置以:至少部分地基于執(zhí)行與已經(jīng)閉環(huán)量化的音頻對(duì)象相關(guān)聯(lián)的方向信息的量化的結(jié)果而獲得所述音頻對(duì)象;以及解量化所述音頻對(duì)象。
在附圖和以下描述中陳述所述技術(shù)的一或多個(gè)方面的細(xì)節(jié)。所述技術(shù)的其它特征、目標(biāo)及優(yōu)點(diǎn)將從所述描述及圖式以及權(quán)利要求書(shū)中顯而易見(jiàn)。
附圖說(shuō)明
圖1是說(shuō)明具有各種階及子階的球諧基底函數(shù)的圖。
圖2是說(shuō)明可執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的系統(tǒng)的圖。
圖3是更詳細(xì)說(shuō)明可執(zhí)行本發(fā)明中描述的技術(shù)的各種方面的圖2的實(shí)例中所示的音頻編碼裝置的一個(gè)實(shí)例的框圖。
圖4是更詳細(xì)說(shuō)明圖2的音頻解碼裝置的框圖。
圖5A是說(shuō)明音頻編碼裝置執(zhí)行本發(fā)明中所描述的基于向量的合成技術(shù)的各種方面的示范性操作的流程圖。
圖5B是說(shuō)明音頻編碼裝置執(zhí)行本發(fā)明中所描述的譯碼技術(shù)的各種方面的示范性操作的流程圖。
圖6A是說(shuō)明音頻解碼裝置執(zhí)行本發(fā)明中描述的技術(shù)的各種方面的示范性操作的流程圖。
圖6B是說(shuō)明音頻解碼裝置執(zhí)行本發(fā)明中所描述的譯碼技術(shù)的各種方面的示范性操作的流程圖。
圖7A和7B是說(shuō)明呈一或多個(gè)V向量形式的方向信息以及呈用于HOA信號(hào)壓縮的前景信號(hào)形式的音頻對(duì)象的閉環(huán)量化的框圖。
圖8是更詳細(xì)說(shuō)明圖3的實(shí)例中所示的音頻編碼裝置的量化單元的一個(gè)實(shí)例的框圖。
圖9是更詳細(xì)說(shuō)明圖3的實(shí)例中所示的音頻編碼裝置的量化補(bǔ)償單元的一個(gè)實(shí)例的框圖。
具體實(shí)施方式
環(huán)繞聲的演進(jìn)現(xiàn)今已使得許多輸出格式可用于娛樂(lè)。此等消費(fèi)型環(huán)繞聲格式的實(shí)例大部分為“信道”式的,這是因?yàn)槠湟阅承缀巫鴺?biāo)隱含地指定到擴(kuò)音器的饋入。消費(fèi)型環(huán)繞聲格式包含普遍的5.1格式(其包含以下六個(gè)信道:左前(FL)、右前(FR)、中心或前中心、左后或左環(huán)繞、右后或右環(huán)繞,及低頻效應(yīng)(LFE))、發(fā)展中的7.1格式、包含高度揚(yáng)聲器的各種格式,例如7.1.4格式及22.2格式(例如,用于供超高清晰電視標(biāo)準(zhǔn)使用)。非消費(fèi)型格式可涵括任何數(shù)目的揚(yáng)聲器(成對(duì)稱和非對(duì)稱幾何形狀),其常常稱為“環(huán)繞陣列”。此種陣列的一個(gè)實(shí)例包含定位在截角二十面體的拐角上的坐標(biāo)處的32個(gè)擴(kuò)音器。
到未來(lái)MPEG編碼器的輸入視情況為三個(gè)可能格式中的一者:(i)傳統(tǒng)的基于信道的音頻(如上文所論述),其意圖由處于預(yù)先指定的位置處的擴(kuò)音器播放;(ii)基于對(duì)象的音頻,其涉及用于單個(gè)音頻對(duì)象的具有含有其位置坐標(biāo)(以及其它信息)的相關(guān)聯(lián)元數(shù)據(jù)的離散脈碼調(diào)制(PCM)數(shù)據(jù);及(iii)基于場(chǎng)景的音頻,其涉及使用球面諧波基底函數(shù)的系數(shù)(也稱為“球諧系數(shù)”或SHC、“較高階立體混響”或HOA及“HOA系數(shù)”)來(lái)表示聲場(chǎng)。此未來(lái)MPEG編碼器可更詳細(xì)地描述于國(guó)際標(biāo)準(zhǔn)化組織/國(guó)際電工委員會(huì)(ISO)/(IEC)JTC1/SC29/WG11/N13411的標(biāo)題為“要求對(duì)于3D音頻的提議(Call for Proposals for 3D Audio)”的文獻(xiàn)中,該文獻(xiàn)于2013年1月在瑞士日內(nèi)瓦發(fā)布,且可在http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip獲得。
在市場(chǎng)中存在各種基于“環(huán)繞聲”信道的格式。它們的范圍(例如)是從5.1家庭影院系統(tǒng)(其在使起居室享有立體聲方面已獲得最大成功)到NHK(日本廣播協(xié)會(huì)或日本廣播公司)所開(kāi)發(fā)的22.2系統(tǒng)。內(nèi)容創(chuàng)建者(例如,好萊塢工作室)將希望產(chǎn)生電影的聲跡一次,而不花費(fèi)精力來(lái)針對(duì)每一揚(yáng)聲器配置對(duì)其進(jìn)行重混。近來(lái),標(biāo)準(zhǔn)開(kāi)發(fā)組織(Standards Developing Organizations)一直在考慮如下方式:提供到標(biāo)準(zhǔn)化位流中的編碼,以及后續(xù)解碼,其可調(diào)適且不知曉重放位置(涉及再現(xiàn)器)處的揚(yáng)聲器幾何形狀(和數(shù)目)以及聲學(xué)條件。
為向內(nèi)容創(chuàng)建者提供此種靈活性,可使用階層元素集合來(lái)表示聲場(chǎng)。所述階層元素集合可指其中元素經(jīng)排序以使得較低階元素的基礎(chǔ)集合提供模型化聲場(chǎng)的完整表示的元素集合。在所述集合擴(kuò)展以包含高階元素時(shí),所述表示變得更詳細(xì),從而增加分辨率。
階層元素集合的一個(gè)實(shí)例為球諧系數(shù)(SHC)的集合。以下表達(dá)式示范使用SHC對(duì)聲場(chǎng)的描述或表示:
所述表達(dá)式展示了在時(shí)間t處在聲場(chǎng)的任一點(diǎn)處的壓力pi可以通過(guò)SHC,唯一地表示。此處,c是聲速(~343m/s),是參考點(diǎn)(或觀察點(diǎn)),jn(·)是階數(shù)n的球面貝塞爾函數(shù),且是階數(shù)n且子階數(shù)m的球面諧波基底函數(shù)??梢哉J(rèn)識(shí)到,在方括號(hào)中的項(xiàng)是信號(hào)的頻域表示(即,),其可由各種時(shí)頻變換近似表示,例如離散傅里葉變換(DFT)、離散余弦變換(DCT)或小波變換。階層集合的其它實(shí)例包含小波變換系數(shù)的集合和多分辨率基底函數(shù)的系數(shù)的其它集合。
圖1是說(shuō)明從零階(n=0)到四階(n=4)的球諧基底函數(shù)的圖。如可看出,對(duì)于每一階,存在子階m的擴(kuò)展,出于易于說(shuō)明的目的,在圖1的實(shí)例中展示所述子階但未明確注釋。
SHC可由各種麥克風(fēng)陣列配置物理獲取(例如,記錄),或者,其可從聲場(chǎng)的基于信道或基于對(duì)象的描述導(dǎo)出。SHC表示基于場(chǎng)景的音頻,其中SHC可輸入到音頻編碼器以獲得經(jīng)編碼SHC,所述經(jīng)編碼SHC可促成更有效的發(fā)射或存儲(chǔ)。舉例來(lái)說(shuō),可使用涉及(1+4)2個(gè)(25,且因此為第四階)系數(shù)的四階表示。
如上文所指出,可使用麥克風(fēng)陣列從麥克風(fēng)記錄導(dǎo)出SHC。可如何從麥克風(fēng)陣列導(dǎo)出SHC的各種實(shí)例描述于波萊蒂·M(Poletti,M)的“基于球面諧波的三維環(huán)繞聲系統(tǒng)(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(聽(tīng)覺(jué)工程學(xué)協(xié)會(huì)會(huì)刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004-1025頁(yè))中。
為說(shuō)明可如何從基于對(duì)象的描述導(dǎo)出SHC,考慮以下等式。用于對(duì)應(yīng)于個(gè)別音頻對(duì)象的聲場(chǎng)的系數(shù)可以表達(dá)為:
其中i是是階數(shù)n的球面漢克爾函數(shù)(第二種),且是對(duì)象的位置。知道對(duì)象源能量g(ω)為頻率的函數(shù)(例如,使用時(shí)頻分析技術(shù),例如對(duì)PCM流執(zhí)行快速傅立葉變換)允許我們將每一PCM對(duì)象和對(duì)應(yīng)位置轉(zhuǎn)換為SHC此外可展示(因?yàn)橐陨鲜蔷€性且正交分解)用于每一對(duì)象的系數(shù)是加性的。以此方式,大量PCM對(duì)象可以由系數(shù)表示(例如,作為用于個(gè)別對(duì)象的系數(shù)向量的總和)?;旧希鱿禂?shù)含有關(guān)于聲場(chǎng)的信息(隨著3D坐標(biāo)而變的壓力),且以上表示在觀測(cè)點(diǎn)附近從個(gè)別對(duì)象到總體聲場(chǎng)的表示的變換。下文在基于對(duì)象和基于SHC的音頻譯碼的上下文中描述其余各圖。
圖2是說(shuō)明可執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的系統(tǒng)10的圖。如圖2的實(shí)例中所示,系統(tǒng)10包含內(nèi)容創(chuàng)建者裝置12和內(nèi)容消費(fèi)者裝置14。盡管在內(nèi)容創(chuàng)建者裝置12和內(nèi)容消費(fèi)者裝置14的上下文中描述,但可在其中聲場(chǎng)的SHC(其也可稱為HOA系數(shù))或任何其它階層表示經(jīng)編碼以形成表示音頻數(shù)據(jù)的位流的任何上下文中實(shí)施所述技術(shù)。此外,內(nèi)容創(chuàng)建者裝置12可表示能夠?qū)嵤┍景l(fā)明中所描述的技術(shù)的任何形式的計(jì)算裝置,包含手持機(jī)(或蜂窩式電話)、平板計(jì)算機(jī)、智能電話或桌上型計(jì)算機(jī)(提供幾個(gè)實(shí)例)。同樣,內(nèi)容消費(fèi)者裝置14可表示能夠?qū)嵤┍景l(fā)明中所描述的技術(shù)的任何形式的計(jì)算裝置,包含手持機(jī)(或蜂窩式電話)、平板計(jì)算機(jī)、智能電話、機(jī)頂盒,或桌上型計(jì)算機(jī)(提供幾個(gè)實(shí)例)。
內(nèi)容創(chuàng)建者裝置12可由電影工作室或可產(chǎn)生多信道音頻內(nèi)容以供內(nèi)容消費(fèi)者裝置(例如,內(nèi)容消費(fèi)者裝置14)的操作者消耗的其它實(shí)體來(lái)操作。在一些實(shí)例中,內(nèi)容創(chuàng)建者裝置12可由將希望壓縮HOA系數(shù)11的個(gè)別用戶操作。內(nèi)容創(chuàng)建者通常產(chǎn)生音頻內(nèi)容與視頻內(nèi)容。內(nèi)容消費(fèi)者裝置14可由個(gè)人操作。內(nèi)容消費(fèi)者裝置14可包含音頻重放系統(tǒng)16,其可指能夠再現(xiàn)SHC以供作為多信道音頻內(nèi)容重放的任何形式的音頻重放系統(tǒng)。
內(nèi)容創(chuàng)建者裝置12包含音頻編輯系統(tǒng)18。內(nèi)容創(chuàng)建者裝置12獲得各種格式(包含直接作為HOA系數(shù))的實(shí)況記錄7和音頻對(duì)象9,內(nèi)容創(chuàng)建者裝置12可使用音頻編輯系統(tǒng)18對(duì)其進(jìn)行編輯。麥克風(fēng)5可俘獲實(shí)況記錄7。內(nèi)容創(chuàng)建者可在編輯過(guò)程期間再現(xiàn)來(lái)自音頻對(duì)象9的HOA系數(shù)11,從而收聽(tīng)所再現(xiàn)的揚(yáng)聲器饋送以試圖識(shí)別需要進(jìn)一步編輯的聲場(chǎng)的各個(gè)方面。內(nèi)容創(chuàng)建者裝置12可接著編輯HOA系數(shù)11(可能經(jīng)由操縱可以上文所描述的方式從中導(dǎo)出源HOA系數(shù)的音頻對(duì)象9中的不同者而間接地編輯)。內(nèi)容創(chuàng)建者裝置12可采用音頻編輯系統(tǒng)18來(lái)產(chǎn)生HOA系數(shù)11。音頻編輯系統(tǒng)18表示能夠編輯音頻數(shù)據(jù)且輸出所述音頻數(shù)據(jù)作為一或多個(gè)源球諧系數(shù)的任何系統(tǒng)。
當(dāng)編輯過(guò)程完成時(shí),內(nèi)容創(chuàng)建者裝置12可基于HOA系數(shù)11產(chǎn)生位流21。也就是說(shuō),內(nèi)容創(chuàng)建者裝置12包含音頻編碼裝置20,其表示經(jīng)配置以根據(jù)本發(fā)明中描述的技術(shù)的各個(gè)方面編碼或以其它方式壓縮HOA系數(shù)11以產(chǎn)生位流21的裝置。音頻編碼裝置20可產(chǎn)生位流21以供(作為一個(gè)實(shí)例)跨越發(fā)射信道發(fā)射,所述發(fā)射信道可為有線或無(wú)線信道、數(shù)據(jù)存儲(chǔ)裝置等。位流21可表示HOA系數(shù)11的經(jīng)編碼版本,且可包含主要位流和另一旁側(cè)位流(其可稱為旁側(cè)信道信息)。
雖然在圖2中展示為直接發(fā)射到內(nèi)容消費(fèi)者裝置14,但內(nèi)容創(chuàng)建者裝置12可將位流21輸出到位于內(nèi)容創(chuàng)建者裝置12與內(nèi)容消費(fèi)者裝置14之間的中間裝置。中間裝置可存儲(chǔ)位流21以供稍后傳遞到可請(qǐng)求所述位流的內(nèi)容消費(fèi)者裝置14。所述中間裝置可包括文件服務(wù)器、網(wǎng)絡(luò)服務(wù)器、桌上型計(jì)算機(jī)、膝上型計(jì)算機(jī)、平板計(jì)算機(jī)、移動(dòng)電話、智能電話,或能夠存儲(chǔ)位流21以供音頻解碼器稍后檢索的任何其它裝置。中間裝置可駐留在能夠?qū)⑽涣?1(且可能結(jié)合發(fā)射對(duì)應(yīng)視頻數(shù)據(jù)位流)串流到請(qǐng)求位流21的訂戶(例如,內(nèi)容消費(fèi)者裝置14)的內(nèi)容傳遞網(wǎng)絡(luò)中。
或者,內(nèi)容創(chuàng)建者裝置12可將位流21存儲(chǔ)到存儲(chǔ)媒體,例如壓縮光盤、數(shù)字視頻光盤、高清視頻光盤或其它存儲(chǔ)媒體,其中大多數(shù)能夠由計(jì)算機(jī)讀取且因此可稱為計(jì)算機(jī)可讀存儲(chǔ)媒體或非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體。在此上下文中,發(fā)射信道可指代借以發(fā)射存儲(chǔ)到媒體的內(nèi)容的信道(且可包含零售商店及其它基于商店的傳遞機(jī)構(gòu))。在任何情況下,本發(fā)明的技術(shù)因此就此而言不應(yīng)限于圖2的實(shí)例。
如圖2的實(shí)例中進(jìn)一步所示,內(nèi)容消費(fèi)者裝置14包含音頻重放系統(tǒng)16。音頻重放系統(tǒng)16可表示能夠重放多信道音頻數(shù)據(jù)的任何音頻重放系統(tǒng)。音頻重放系統(tǒng)16可包含若干不同再現(xiàn)器22。再現(xiàn)器22可各自提供不同形式的再現(xiàn),其中所述不同形式的再現(xiàn)可包含執(zhí)行基于向量的振幅平移(VBAP)的各種方式中的一或多者,和/或執(zhí)行聲場(chǎng)合成的各種方式中的一或多者。如本文所使用,“A和/或B”意味著“A或B”,或“A和B”兩者。
音頻重放系統(tǒng)16可進(jìn)一步包含音頻解碼裝置24。音頻解碼裝置24可表示經(jīng)配置以解碼來(lái)自位流21的HOA系數(shù)11'的裝置,其中HOA系數(shù)11'可類似于HOA系數(shù)11但歸因于有損操作(例如,量化)和/或經(jīng)由發(fā)射信道的發(fā)射而不同。音頻重放系統(tǒng)16可隨后解碼位流21以獲得HOA系數(shù)11'且再現(xiàn)HOA系數(shù)11'以輸出擴(kuò)音器饋送25。擴(kuò)音器饋送25可驅(qū)動(dòng)一或多個(gè)擴(kuò)音器(其為便于說(shuō)明的目的在圖2的實(shí)例中未圖示)。
為了選擇適當(dāng)再現(xiàn)器或在一些情況下產(chǎn)生適當(dāng)再現(xiàn)器,音頻重放系統(tǒng)16可獲得指示擴(kuò)音器的數(shù)目和/或擴(kuò)音器的空間幾何布置的擴(kuò)音器信息13。在一些情況下,音頻重放系統(tǒng)16可使用參考麥克風(fēng)獲得擴(kuò)音器信息13且以動(dòng)態(tài)地確定擴(kuò)音器信息13的方式驅(qū)動(dòng)所述擴(kuò)音器。在其它情況下或結(jié)合動(dòng)態(tài)確定擴(kuò)音器信息13,音頻重放系統(tǒng)16可提示用戶與音頻重放系統(tǒng)16介接并輸入擴(kuò)音器信息13。
音頻重放系統(tǒng)16可隨后基于擴(kuò)音器信息13選擇音頻再現(xiàn)器22中的一者。在一些情況下,在音頻再現(xiàn)器22中無(wú)一者處于至擴(kuò)音器信息中所指定的擴(kuò)音器幾何結(jié)構(gòu)的某一閾值相似性量度(就擴(kuò)音器幾何結(jié)構(gòu)而言)內(nèi)時(shí),音頻重放系統(tǒng)16可基于擴(kuò)音器信息13產(chǎn)生音頻再現(xiàn)器22中的一者。音頻重放系統(tǒng)16可在一些情況下基于擴(kuò)音器信息13產(chǎn)生音頻再現(xiàn)器22中的一者,而不首先嘗試選擇音頻再現(xiàn)器22中的現(xiàn)有一者。一或多個(gè)揚(yáng)聲器3接著可重放經(jīng)再現(xiàn)的擴(kuò)音器饋送25。
圖3為更詳細(xì)說(shuō)明可執(zhí)行本發(fā)明中描述的技術(shù)的各種方面的圖2的實(shí)例中所示的音頻編碼裝置20的一個(gè)實(shí)例的框圖。音頻編碼裝置20包含內(nèi)容分析單元26、基于向量的分解單元27和基于方向的分解單元28。盡管下文簡(jiǎn)要描述,但關(guān)于音頻編碼裝置20及壓縮或以其它方式編碼HOA系數(shù)的各種方面的更多信息可在2014年5月29日申請(qǐng)的標(biāo)題為“用于聲場(chǎng)的經(jīng)分解表示的內(nèi)插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099號(hào)國(guó)際專利申請(qǐng)公開(kāi)案中獲得。
內(nèi)容分析單元26表示經(jīng)配置以分析HOA系數(shù)11的內(nèi)容以識(shí)別HOA系數(shù)11表示從實(shí)況記錄產(chǎn)生的內(nèi)容還是從音頻對(duì)象產(chǎn)生的內(nèi)容的單元。內(nèi)容分析單元26可確定HOA系數(shù)11是從實(shí)際聲場(chǎng)的記錄產(chǎn)生還是從人工音頻對(duì)象產(chǎn)生。在一些情況下,當(dāng)幀式HOA系數(shù)11是從記錄產(chǎn)生時(shí),內(nèi)容分析單元26將HOA系數(shù)11傳遞到基于向量的分解單元27。在一些情況下,當(dāng)幀式HOA系數(shù)11是從合成音頻對(duì)象產(chǎn)生時(shí),內(nèi)容分析單元26將HOA系數(shù)11傳遞到基于方向的分解單元28。基于方向的分解單元28可表示經(jīng)配置以執(zhí)行HOA系數(shù)11的基于方向的合成以產(chǎn)生基于方向的位流21的單元。
如在圖3的實(shí)例中所展示,基于向量的分解單元27可包含線性可逆變換(LIT)單元30、參數(shù)計(jì)算單元32、重排序單元34、前景選擇單元36、能量補(bǔ)償單元38、心理聲學(xué)音頻譯碼器單元40、位流產(chǎn)生單元42、聲場(chǎng)分析單元44、系數(shù)減少單元46、背景(BG)選擇單元48、空間-時(shí)間內(nèi)插單元50以及量化單元52。
線性可逆變換(LIT)單元30接收呈HOA信道形式的HOA系數(shù)11,每一信道表示與球面基底函數(shù)的給定階數(shù)、子階數(shù)相關(guān)聯(lián)的系數(shù)的塊或幀(其可表示為HOA[k],其中k可表示樣本的當(dāng)前幀或塊)。HOA系數(shù)11的矩陣可具有維度D:M x(N+1)2。
LIT單元30可表示經(jīng)配置以執(zhí)行被稱作奇異值分解的分析形式的單元。雖然相對(duì)于SVD加以描述,但可相對(duì)于提供數(shù)組線性不相關(guān)的能量密集輸出的任何類似變換或分解執(zhí)行本發(fā)明中所描述的技術(shù)。此外,在本發(fā)明中對(duì)“集合”的參考一般希望指代“非零”集合(除非特定地相反陳述),且并不希望指代包含所謂的“空集合”的集合的經(jīng)典數(shù)學(xué)定義。替代變換可包括常常被稱作“PCA”的主分量分析。取決于上下文,PCA可由若干不同名稱指代,例如離散卡亨南-洛維變換、霍特林變換、恰當(dāng)正交分解(POD)和本征值分解(EVD),僅舉幾例。有利于壓縮音頻數(shù)據(jù)的基本目標(biāo)的此種操作的特性為多信道音頻數(shù)據(jù)的“能量壓縮”和“去相關(guān)”。
在任何情況下,出于實(shí)例的目的,假定LIT單元30執(zhí)行奇異值分解(其再次可被稱作“SVD”),LIT單元30可將HOA系數(shù)11變換成兩個(gè)或更多個(gè)經(jīng)變換HOA系數(shù)的集合。經(jīng)變換HOA系數(shù)的“集合”可包含經(jīng)變換HOA系數(shù)的向量。在圖3的實(shí)例中,LIT單元30可相對(duì)于HOA系數(shù)11執(zhí)行SVD以產(chǎn)生所謂的V矩陣、S矩陣及U矩陣。在線性代數(shù)中,SVD可按如下形式表示y乘z實(shí)數(shù)或復(fù)數(shù)矩陣X(其中X可表示多信道音頻數(shù)據(jù),例如HOA系數(shù)11)的因子分解:
X=USV*
U可表示y乘y實(shí)數(shù)或復(fù)數(shù)單位矩陣,其中U的y列被稱為多信道音頻數(shù)據(jù)的左奇異向量。S可表示在對(duì)角線上具有非負(fù)實(shí)數(shù)的y乘z矩形對(duì)角線矩陣,其中S的對(duì)角線值被稱為多信道音頻數(shù)據(jù)的奇異值。V*(其可表示V的共軛轉(zhuǎn)置)可表示z乘z實(shí)數(shù)或復(fù)數(shù)單位矩陣,其中V*的z列被稱為多信道音頻數(shù)據(jù)的右奇異向量。
在一些實(shí)例中,以上提及的SVD數(shù)學(xué)表達(dá)式中的V*矩陣表示為V矩陣的共軛轉(zhuǎn)置以反映SVD可應(yīng)用于包括復(fù)數(shù)的矩陣。當(dāng)應(yīng)用于僅包括實(shí)數(shù)的矩陣時(shí),V矩陣的復(fù)數(shù)共軛(或換句話說(shuō),V*矩陣)可被視為V矩陣的轉(zhuǎn)置。下文中為容易說(shuō)明的目的,假定HOA系數(shù)11包括實(shí)數(shù),結(jié)果是經(jīng)由SVD而非V*矩陣輸出V矩陣。此外,盡管在本發(fā)明中表示為V矩陣,但對(duì)V矩陣的提及應(yīng)理解為在適當(dāng)?shù)那闆r下涉及V矩陣的轉(zhuǎn)置。盡管假定為V矩陣,但所述技術(shù)可以類似方式應(yīng)用于具有復(fù)數(shù)系數(shù)的HOA系數(shù)11,其中SVD的輸出為V*矩陣。因此,就此而言,所述技術(shù)不應(yīng)限于僅提供應(yīng)用SVD以產(chǎn)生V矩陣,而是可包含將SVD應(yīng)用于具有復(fù)數(shù)分量的HOA系數(shù)11以產(chǎn)生V*矩陣。
以此方式,LIT單元30可相對(duì)于HOA系數(shù)11執(zhí)行SVD以輸出具有維度D:M x(N+1)2的US[k]向量33(其可表示S向量及U向量的組合版本)及具有維度D:(N+1)2×(N+1)2的V[k]向量35。US[k]矩陣中的個(gè)別向量元素也可以被稱為XPS(k),而V[k]矩陣的個(gè)別向量也可以被稱為v(k)。
U、S及V矩陣的分析可顯示,這些矩陣攜載或表示上文由X表示的基本聲場(chǎng)的空間及時(shí)間特征。U(長(zhǎng)度為M個(gè)樣本)中的N個(gè)向量中的每一者可表示依據(jù)時(shí)間(對(duì)于由M個(gè)樣本表示的時(shí)間周期)的正規(guī)化的分離音頻信號(hào),其彼此正交且已與任何空間特征(其也可被稱作方向信息)解耦。表示空間形狀和位置(r,θ,)的空間特性可實(shí)際上由V矩陣(長(zhǎng)度(N+1)2的每一者)中的個(gè)別第i向量v(i)(k)表示。向量v(i)(k)中的每一者的個(gè)別元素可表示描述相關(guān)聯(lián)音頻對(duì)象的聲場(chǎng)的形狀(包含寬度)和位置的HOA系數(shù)。U矩陣和V矩陣中的向量均經(jīng)正規(guī)化而使得其均方根能量等于單位。U中的音頻信號(hào)的能量因而由S中的對(duì)角線元素表示。將U與S相乘以形成US[k](具有個(gè)別向量元素XPS(k)),因此表示具有能量的音頻信號(hào)。SVD分解使音頻時(shí)間信號(hào)(U中)、其能量(S中)與其空間特性(V中)解耦的能力可支持本發(fā)明中所描述的技術(shù)的各個(gè)方面。另外,通過(guò)US[k]與V[k]的向量乘法合成基本HOA[k]系數(shù)X的模型給出貫穿此文獻(xiàn)使用的術(shù)語(yǔ)“基于向量的分解”。此外,貫穿本文獻(xiàn),表示具有能量的音頻信號(hào)的US[k]可由術(shù)語(yǔ)“音頻對(duì)象”或“前景音頻信號(hào)”指代,且V[k]可被稱為“與音頻對(duì)象相關(guān)聯(lián)的方向信息”或“與前景信號(hào)相關(guān)聯(lián)的方向信息”。HOA[k]系數(shù)可被稱為HOA系數(shù),其中HOA系數(shù)=US[k]*V[k]或換句話說(shuō),HOA系數(shù)是音頻對(duì)象(US[k])和與所述音頻對(duì)象相關(guān)聯(lián)的方向信息(V[k])的乘積。
盡管描述為直接相對(duì)于HOA系數(shù)11執(zhí)行,但LIT單元30可將線性可逆變換應(yīng)用到HOA系數(shù)11的導(dǎo)出項(xiàng)。舉例來(lái)說(shuō),LIT單元30可相對(duì)于從HOA系數(shù)11導(dǎo)出的功率譜密度矩陣應(yīng)用SVD。通過(guò)相對(duì)于HOA系數(shù)的功率譜密度(PSD)而非系數(shù)自身執(zhí)行SVD,LIT單元30可在處理器循環(huán)和存儲(chǔ)空間的一或多者方面可能地降低執(zhí)行SVD的計(jì)算復(fù)雜性,同時(shí)實(shí)現(xiàn)相同的源音頻編碼效率,如同SVD是直接應(yīng)用于HOA系數(shù)一般。
參數(shù)計(jì)算單元32表示經(jīng)配置以計(jì)算各種參數(shù)的單元,所述參數(shù)例如相關(guān)性參數(shù)(R)、方向特性參數(shù)(θ、r)及能量性質(zhì)(e)。用于當(dāng)前幀的參數(shù)中的每一者可表示為R[k]、θ[k]、r[k]及e[k]。參數(shù)計(jì)算單元32可相對(duì)于US[k]向量33執(zhí)行能量分析和/或相關(guān)(或所謂的交叉相關(guān))以識(shí)別這些參數(shù)。參數(shù)計(jì)算單元32還可確定先前幀的參數(shù),其中先前幀參數(shù)可基于具有US[k-1]向量及V[k-1]向量的先前幀表示為R[k-1]、θ[k-1]、r[k-1]及e[k-1]。參數(shù)計(jì)算單元32可將當(dāng)前參數(shù)37和先前參數(shù)39輸出到重排序單元34。
由參數(shù)計(jì)算單元32計(jì)算的參數(shù)可供重排序單元34用以將音頻對(duì)象重排序以表示其自然評(píng)估或隨時(shí)間推移的連續(xù)性。重排序單元34可將來(lái)自轉(zhuǎn)向方向的第一US[k]向量33的參數(shù)37中的每一者與第二US[k-1]向量33的參數(shù)39中的每一者相比較。重排序單元34可基于當(dāng)前參數(shù)37及先前參數(shù)39對(duì)US[k]矩陣33及V[k]矩陣35內(nèi)的各種向量重排序(作為一個(gè)實(shí)例,使用匈牙利算法)以將經(jīng)重排序的US[k]矩陣33'(其可數(shù)學(xué)表示為)及經(jīng)重排序的V[k]矩陣35'(其可數(shù)學(xué)表示為)輸出到前景聲音(或突出的聲音-PS)選擇單元36(“前景選擇單元36”)及能量補(bǔ)償單元38。
聲場(chǎng)分析單元44可表示經(jīng)配置以相對(duì)于HOA系數(shù)11執(zhí)行聲場(chǎng)分析以便有可能實(shí)現(xiàn)目標(biāo)位速率41的單元。聲場(chǎng)分析單元44可基于所述分析和/或基于所接收目標(biāo)位速率41,確定心理聲學(xué)譯碼器示例的總數(shù)目(其可為環(huán)境或背景信道的總數(shù)目(BGTOT)的函數(shù))和前景信道(或換句話說(shuō),占優(yōu)勢(shì)信道)的數(shù)目。心理聲學(xué)譯碼器示例的總數(shù)可表示為numHOATransportChannels。
再次為了潛在地實(shí)現(xiàn)目標(biāo)位速率41,聲場(chǎng)分析單元44還可確定前景信道的總數(shù)(nFG)45、背景(或換句話說(shuō),環(huán)境)聲場(chǎng)的最小階數(shù)(NBG或替代地,MinAmbHoaOrder)、表示背景聲場(chǎng)的最小階數(shù)的實(shí)際信道的對(duì)應(yīng)數(shù)目(nBGa=(MinAmbHoaOrder+1)2),及要發(fā)送的額外BG HOA信道的索引(i)(其在圖3的實(shí)例中可共同地表示為背景信道信息43)。背景信道信息43也可被稱作環(huán)境信道信息43。保持來(lái)自numHOATransportChannels-nBGa的信道中的每一者可為“額外背景/環(huán)境信道”、“作用中的基于向量的占優(yōu)勢(shì)信道”、“作用中的基于方向的占優(yōu)勢(shì)信號(hào)”或“完全非作用”。在一個(gè)方面中,可通過(guò)兩個(gè)位將信道類型指示為(如“ChannelType”)語(yǔ)法元素(例如,00:基于方向的信號(hào);01:基于向量的占優(yōu)勢(shì)信號(hào);10:額外環(huán)境信號(hào);11:非作用信號(hào))。可由(MinAmbHoaOrder+1)2+索引10(在以上實(shí)例中)表現(xiàn)為用于所述幀的位流中的信道類型的的倍數(shù)而給出背景或環(huán)境信號(hào)的總數(shù)目nBGa。
聲場(chǎng)分析單元44可基于目標(biāo)位速率41選擇背景(或換句話說(shuō),環(huán)境)信道的數(shù)目及前景(或換句話說(shuō),占優(yōu)勢(shì))信道的數(shù)目,從而在目標(biāo)位速率41相對(duì)較高時(shí)(例如,在目標(biāo)位速率41等于或大于512Kbps時(shí))選擇更多背景及/或前景信道。在一個(gè)方面中,在位流的標(biāo)頭部分中,numHOATransportChannels可設(shè)定為8,而MinAmbHOAorder可設(shè)定為1。在此情境下,在每個(gè)幀處,四個(gè)信道可專用于表示聲場(chǎng)的背景或環(huán)境部分,而其它4個(gè)信道可逐幀地在信道類型上變化--例如,用作額外背景/環(huán)境信道或前景/占優(yōu)勢(shì)信道。前景/占優(yōu)勢(shì)信號(hào)可為基于向量或基于方向的信號(hào)中的一者,如上文所描述。
在一些情況下,用于幀的基于向量的占優(yōu)勢(shì)信號(hào)的總數(shù)目可通過(guò)ChannelType索引在所述幀的位流中是01的次數(shù)給出。在上述方面中,對(duì)于每個(gè)額外背景/環(huán)境信道(例如,對(duì)應(yīng)于ChannelType 10),可在所述信道中表示可能的HOA系數(shù)中的哪一者的對(duì)應(yīng)信息(超出前四)。對(duì)于四階HOA內(nèi)容,所述信息可為指示HOA系數(shù)5至25的索引。可在minAmbHOAorder設(shè)定為1時(shí)始終發(fā)送前四個(gè)環(huán)境HOA系數(shù)1至4,因此,音頻編碼裝置可能僅需要指示額外環(huán)境HOA系數(shù)中具有索引5至25中的一者。因而可使用5位語(yǔ)法元素(對(duì)于四階內(nèi)容)發(fā)送所述信息,其可表示為“CodedAmbCoeffIdx”。在任何情況下,聲場(chǎng)分析單元44將背景信道信息43及HOA系數(shù)11輸出到背景(BG)選擇單元36,將背景信道信息43輸出到系數(shù)減少單元46及位流產(chǎn)生單元42,且將nFG 45輸出到前景選擇單元36。
背景選擇單元48可表示經(jīng)配置以基于背景信道信息(例如,背景聲場(chǎng)(NBG)及要發(fā)送的額外BG HOA信道的數(shù)目(nBGa)及索引(i))確定背景或環(huán)境HOA系數(shù)47的單元。舉例來(lái)說(shuō),當(dāng)NBG等于一時(shí),背景選擇單元48可選擇具有等于或小于一的階數(shù)的音頻幀的每一樣本的HOA系數(shù)11。在此實(shí)例中,背景選擇單元48可接著選擇具有由索引(i)中的一者識(shí)別的索引的HOA系數(shù)11作為額外BG HOA系數(shù),其中將待于位流21中指定的nBGa提供到位產(chǎn)生單元42以便使得音頻解碼裝置(例如,圖2及4的實(shí)例中所展示的音頻解碼裝置24)能夠從位流21解析背景HOA系數(shù)47。背景選擇單元48可接著將環(huán)境HOA系數(shù)47輸出到能量補(bǔ)償單元38。環(huán)境HOA系數(shù)47可具有維度D:M×[(NBG+1)2+nBGa]。環(huán)境HOA系數(shù)47也可被稱作“環(huán)境HOA系數(shù)47”,其中環(huán)境HOA系數(shù)47中的每一者對(duì)應(yīng)于待由心理聲學(xué)音頻譯碼器單元40編碼的單獨(dú)環(huán)境HOA信道。
前景選擇單元36可表示經(jīng)配置以基于nFG 45(其可表示識(shí)別前景向量的一或多個(gè)索引)選擇表示聲場(chǎng)的前景或不同分量的經(jīng)重排序的US[k]矩陣33'及經(jīng)重排序的V[k]矩陣35'的單元。前景選擇單元36可將nFG信號(hào)49(其可表示為經(jīng)重排序的US[k]1,…,nFG 49、FG1,…,nfG[k]49或49)輸出到量化補(bǔ)償單元70,其中nFG信號(hào)49可具有維度D:M x nFG且各自表示單音頻對(duì)象。前景選擇單元36還可將對(duì)應(yīng)于聲場(chǎng)的前景分量的經(jīng)重排序的V[k]矩陣35'(或v(1..nFG)(k)35')輸出到空間-時(shí)間內(nèi)插單元50,其中經(jīng)重排序的V[k]矩陣35'中的對(duì)應(yīng)于前景分量的子集可表示為具有維度D((N+1)2×nFG)的前景V[k]矩陣51k(其可在數(shù)學(xué)上表示為)。
能量補(bǔ)償單元38可表示經(jīng)配置以相對(duì)于環(huán)境HOA系數(shù)47執(zhí)行能量補(bǔ)償以補(bǔ)償歸因于由背景選擇單元48移除HOA信道中的各者而產(chǎn)生的能量損失的單元。能量補(bǔ)償單元38可相對(duì)于經(jīng)重排序的US[k]矩陣33'、經(jīng)重排序的V[k]矩陣35'、nFG信號(hào)49、前景V[k]向量51k及環(huán)境HOA系數(shù)47中的一或多者執(zhí)行能量分析,且接著基于所述能量分析執(zhí)行能量補(bǔ)償以產(chǎn)生經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'。能量補(bǔ)償單元38可將經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'輸出到心理聲學(xué)音頻譯碼器元40。
空間-時(shí)間內(nèi)插單元50可表示經(jīng)配置以接收第k幀的前景V[k]向量51k及先前幀(因此為k-1記法)的前景V[k-1]向量51k-1且執(zhí)行空間-時(shí)間內(nèi)插以產(chǎn)生經(jīng)內(nèi)插的前景V[k]向量的單元??臻g-時(shí)間內(nèi)插單元50可將nFG信號(hào)49與前景V[k]向量51k重新組合以恢復(fù)經(jīng)重排序的前景HOA系數(shù)??臻g-時(shí)間內(nèi)插單元50可接著將經(jīng)重排序的前景HOA系數(shù)除以經(jīng)內(nèi)插的V[k]向量以產(chǎn)生經(jīng)內(nèi)插的nFG信號(hào)49'??臻g-時(shí)間內(nèi)插單元50還可輸出用于產(chǎn)生經(jīng)內(nèi)插前景V[k]向量的前景V[k]向量51k使得例如音頻解碼裝置24等音頻解碼裝置可產(chǎn)生經(jīng)內(nèi)插前景V[k]向量且借此恢復(fù)前景V[k]向量51k。將用于產(chǎn)生經(jīng)內(nèi)插的前景V[k]向量的前景V[k]向量51k表示為其余前景V[k]向量53。為了確保在編碼器及解碼器處使用相同的V[k]及V[k-1](以創(chuàng)建經(jīng)內(nèi)插的向量V[k]),可在編碼器及解碼器處使用向量的經(jīng)量化/經(jīng)解量化版本??臻g-時(shí)間內(nèi)插單元50可將經(jīng)內(nèi)插的nFG信號(hào)49'輸出到心理聲學(xué)音頻譯碼器單元40且將經(jīng)內(nèi)插的前景V[k]向量51k輸出到系數(shù)減少單元46。
系數(shù)減少單元46可表示經(jīng)配置以基于背景信道信息43相對(duì)于剩余前景V[k]向量53執(zhí)行系數(shù)減少以將經(jīng)減少的前景V[k]向量55輸出到量化單元52的單元。經(jīng)減少的前景V[k]向量55可具有維度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。系數(shù)減少單元46可在這方面中表示經(jīng)配置以減少其余前景V[k]向量53中的系數(shù)數(shù)目的單元。換句話說(shuō),系數(shù)減少單元46可表示經(jīng)配置以消除(形成其余前景V[k]向量53的)前景V[k]向量中的具有極少至不具有方向信息的系數(shù)的單元。在一些實(shí)例中,相異或(換句話說(shuō))前景V[k]向量的對(duì)應(yīng)于一階及零階基底函數(shù)的系數(shù)(其可表示為NBG)提供極少方向信息,且因此可從前景V向量移除(經(jīng)由可被稱作“系數(shù)減少”的過(guò)程)。在此實(shí)例中,可提供較大靈活性以不僅從集合[(NBG+1)2+1,(N+1)2]識(shí)別對(duì)應(yīng)于NBG的系數(shù)而且識(shí)別額外HOA信道(其可由變量TotalOfAddAmbHOAChan表示)。
量化單元52可表示經(jīng)配置以執(zhí)行任何形式的量化以壓縮減少的前景V[k]向量55以產(chǎn)生經(jīng)譯碼前景V[k]向量57并且將經(jīng)譯碼前景V[k]向量57輸出到位流產(chǎn)生單元42的單元。在操作中,量化單元52可表示經(jīng)配置以壓縮聲場(chǎng)的空間分量(即,在此實(shí)例中經(jīng)減少的前景V[k]向量55中的一或多者)的單元。量化單元52可執(zhí)行如通過(guò)表示為“NbitsQ”的量化模式語(yǔ)法元素指示的以下12種量化模式中的任一者:
量化單元52還可執(zhí)行前述類型的量化模式中的任一者的預(yù)測(cè)版本,其中確定先前幀的V向量的元素(或執(zhí)行向量量化時(shí)的權(quán)數(shù))與當(dāng)前幀的V向量的元素(或執(zhí)行向量量化時(shí)的權(quán)數(shù))之間的差。量化單元52可接著將當(dāng)前幀與先前幀的元素或權(quán)數(shù)之間的差而非當(dāng)前幀本身的V向量的元素的值量化。
量化單元52可相對(duì)于減少的前景V[k]向量55中的每一者執(zhí)行多種形式的量化,以獲得減少的前景V[k]向量55的多個(gè)經(jīng)譯碼版本。量化單元52可選擇減少的前景V[k]向量55的經(jīng)譯碼版本中的一者作為經(jīng)譯碼前景V[k]向量57。換句話說(shuō),量化單元52可基于本發(fā)明中論述的標(biāo)準(zhǔn)的任何組合選擇未經(jīng)預(yù)測(cè)的經(jīng)向量量化的V向量、經(jīng)預(yù)測(cè)的經(jīng)向量量化的V向量、未經(jīng)霍夫曼譯碼的經(jīng)標(biāo)量量化的V向量及經(jīng)霍夫曼譯碼的經(jīng)標(biāo)量量化的V向量中的一者,以用作經(jīng)輸出變換量化的V向量。在一些實(shí)例中,量化單元52可從包含向量量化模式及一或多個(gè)標(biāo)量量化模式的一組量化模式中選擇量化模式,且基于(或根據(jù))所述選定模式量化輸入V向量。量化單元52可接著將以下各者中的選定者提供到位流產(chǎn)生單元42以用作經(jīng)譯碼前景V[k]向量57:未經(jīng)預(yù)測(cè)的經(jīng)向量量化的V向量(例如,就權(quán)數(shù)值或指示權(quán)數(shù)值的位而言)、經(jīng)預(yù)測(cè)的經(jīng)向量量化的V向量(例如,就誤差值或指示誤差值的位而言)、未經(jīng)霍夫曼譯碼的經(jīng)標(biāo)量量化的V向量及經(jīng)霍夫曼譯碼的經(jīng)標(biāo)量量化的V向量。量化單元52還可提供指示量化模式的語(yǔ)法元素(例如,NbitsQ語(yǔ)法元素)及用于將V向量解量化或以其它方式重構(gòu)V向量的任何其它語(yǔ)法元素。
音頻編碼裝置20內(nèi)包含的量化補(bǔ)償單元70可表示經(jīng)配置以接收來(lái)自空間-時(shí)間內(nèi)插單元50的經(jīng)內(nèi)插nFG信號(hào)49'和經(jīng)內(nèi)插前景V[k]向量53以及來(lái)自量化單元52的經(jīng)譯碼前景V[k]向量57以執(zhí)行相對(duì)于nFG信號(hào)49'的量化補(bǔ)償以便補(bǔ)償因量化經(jīng)內(nèi)插前景V[k]向量53引起的量化誤差的單元。量化補(bǔ)償單元70可產(chǎn)生經(jīng)量化補(bǔ)償nFG信號(hào)60且將其輸出到心理聲學(xué)音頻譯碼器單元40。
為了確定經(jīng)量化補(bǔ)償nFG信號(hào)60,因?yàn)榻?jīng)譯碼前景V[k]向量57是矩陣,所以量化補(bǔ)償單元70可對(duì)經(jīng)譯碼前景V[k]向量57執(zhí)行偽逆函數(shù)以獲得經(jīng)譯碼前景V[k]向量57的偽逆。所述偽逆函數(shù)在一些實(shí)例中可為一般化逆函數(shù)或穆?tīng)?彭羅斯(Moore-Penrose)偽逆函數(shù)。量化補(bǔ)償單元70可計(jì)算經(jīng)譯碼前景V[k]向量57的偽逆與前景HOA系數(shù)的乘積以確定中間經(jīng)量化補(bǔ)償nFG信號(hào)。舉例來(lái)說(shuō),量化補(bǔ)償單元70可將前景HOA系數(shù)確定為經(jīng)內(nèi)插nFG信號(hào)49'與經(jīng)內(nèi)插前景V[k]向量53的乘積。通過(guò)作為經(jīng)譯碼前景V[k]向量57的偽逆與前景HOA系數(shù)的乘積而產(chǎn)生,由量化補(bǔ)償單元70產(chǎn)生的中間經(jīng)量化補(bǔ)償nFG信號(hào)可補(bǔ)償由經(jīng)譯碼前景V[k]向量57引入的量化誤差,因?yàn)橹虚g經(jīng)量化補(bǔ)償nFG信號(hào)是至少部分地基于經(jīng)譯碼前景V[k]向量57而不是經(jīng)內(nèi)插前景V[k]向量53計(jì)算的。因此,音頻編碼裝置20可進(jìn)而補(bǔ)償在量化經(jīng)量化補(bǔ)償nFG信號(hào)60時(shí)在量化經(jīng)內(nèi)插前景V[k]向量53中引入的任何誤差。
量化補(bǔ)償單元70可進(jìn)一步使當(dāng)前幀k的中間經(jīng)量化補(bǔ)償nFG信號(hào)的一部分與前一幀k-1的中間經(jīng)量化補(bǔ)償nFG信號(hào)的一部分進(jìn)行交叉淡化以產(chǎn)生經(jīng)量化補(bǔ)償nFG信號(hào)60。例如,量化補(bǔ)償單元70可使當(dāng)前幀k的中間經(jīng)量化補(bǔ)償nFG信號(hào)的前256個(gè)樣本與前一幀k-1的中間經(jīng)量化補(bǔ)償nFG信號(hào)的最后256個(gè)樣本進(jìn)行交叉淡化以產(chǎn)生大小為1024乘2的經(jīng)量化補(bǔ)償nFG信號(hào)60。在一些實(shí)例中,量化補(bǔ)償單元70可不使當(dāng)前幀k的中間經(jīng)量化補(bǔ)償nFG信號(hào)與前一幀k-1的中間經(jīng)量化補(bǔ)償nFG信號(hào)進(jìn)行交叉淡化。在此情況下,經(jīng)量化補(bǔ)償nFG信號(hào)60可與中間經(jīng)量化補(bǔ)償nFG信號(hào)相同。
音頻編碼裝置20內(nèi)包含的心理聲學(xué)音頻譯碼器單元40可表示心理聲學(xué)音頻譯碼器的多個(gè)例子,其每一者用于編碼經(jīng)能量補(bǔ)償環(huán)境HOA系數(shù)47'和經(jīng)量化補(bǔ)償nFG信號(hào)60中的每一者的不同音頻對(duì)象或HOA信道以產(chǎn)生經(jīng)編碼環(huán)境HOA系數(shù)59和經(jīng)編碼nFG信號(hào)61。產(chǎn)生經(jīng)編碼環(huán)境HOA系數(shù)59可包含執(zhí)行經(jīng)能量補(bǔ)償環(huán)境HOA系數(shù)47'的量化,且產(chǎn)生經(jīng)編碼nFG信號(hào)61可包含執(zhí)行經(jīng)量化補(bǔ)償nFG信號(hào)60的量化。心理聲學(xué)音頻譯碼器單元40可將經(jīng)編碼環(huán)境HOA系數(shù)59和經(jīng)編碼nFG信號(hào)61輸出到位流產(chǎn)生單元42。
包含于音頻編碼裝置20內(nèi)的位流產(chǎn)生單元42表示將數(shù)據(jù)格式化以符合已知格式(其可指代解碼裝置已知的格式)借此產(chǎn)生基于向量的位流21的單元。換句話說(shuō),位流21可表示以上文所描述的方式編碼的經(jīng)編碼音頻數(shù)據(jù)。位流產(chǎn)生單元42在一些實(shí)例中可表示多路復(fù)用器,其可接收經(jīng)譯碼前景V[k]向量57、經(jīng)編碼環(huán)境HOA系數(shù)59、經(jīng)編碼nFG信號(hào)61,和背景信道信息43。位流產(chǎn)生單元42可接著基于經(jīng)譯碼前景V[k]向量57、經(jīng)編碼環(huán)境HOA系數(shù)59、經(jīng)編碼nFG信號(hào)61及背景信道信息43產(chǎn)生位流21。以此方式,位流產(chǎn)生單元42可由此在位流21中指定向量57以獲得如下文關(guān)于圖7的實(shí)例更詳細(xì)描述的位流21。位流21可包含主要或主位流和一或多個(gè)旁側(cè)信道位流。
盡管在圖3的實(shí)例中未展示,但音頻編碼裝置20還可包含位流輸出單元,所述位流輸出單元基于當(dāng)前幀將使用基于方向的合成還是基于向量的合成編碼而切換從音頻編碼裝置20輸出的位流(例如,在基于方向的位流21與基于向量的位流21之間切換)。位流輸出單元可基于由內(nèi)容分析單元26輸出的指示執(zhí)行基于方向的合成(作為檢測(cè)到HOA系數(shù)11是從合成音頻對(duì)象產(chǎn)生的結(jié)果)還是執(zhí)行基于向量的合成(作為檢測(cè)到HOA系數(shù)經(jīng)記錄的結(jié)果)的語(yǔ)法元素執(zhí)行所述切換。位流輸出單元可指定正確的標(biāo)頭語(yǔ)法以指示用于當(dāng)前幀以及位流21中的相應(yīng)一者的切換或當(dāng)前編碼。
此外,如上文所提及,聲場(chǎng)分析單元44可識(shí)別BGTOT環(huán)境HOA系數(shù)47,所述BGTOT環(huán)境HOA系數(shù)可逐幀改變(但時(shí)常BGTOT可跨越兩個(gè)或更多個(gè)鄰近(在時(shí)間上)幀保持恒定或相同)。BGTOT的改變可導(dǎo)致在減少的前景V[k]向量55中表達(dá)的系數(shù)的改變。BGTOT的改變可導(dǎo)致背景HOA系數(shù)(其也可被稱作“環(huán)境HOA系數(shù)”),所述背景HOA系數(shù)逐幀改變(但再次,時(shí)常BGTOT可跨越兩個(gè)或更多個(gè)鄰近(在時(shí)間上)幀保持恒定或相同)。所述改變常常導(dǎo)致聲場(chǎng)的各方面的能量改變,所述聲場(chǎng)通過(guò)額外環(huán)境HOA系數(shù)的添加或移除及系數(shù)從減少的前景V[k]向量55的對(duì)應(yīng)移除或系數(shù)至減少的前景V[k]向量55的添加表示。
因此,聲場(chǎng)分析單元44可進(jìn)一步確定環(huán)境HOA系數(shù)何時(shí)從幀至幀改變且產(chǎn)生指示環(huán)境HOA系數(shù)的改變的旗標(biāo)或其它語(yǔ)法元素(就用于表示聲場(chǎng)的環(huán)境分量而言)(其中所述改變也可被稱作環(huán)境HOA系數(shù)的“轉(zhuǎn)變”或環(huán)境HOA系數(shù)的“轉(zhuǎn)變”)。具體而言,系數(shù)減少單元46可產(chǎn)生旗標(biāo)(其可表示為AmbCoeffTransition旗標(biāo)或AmbCoeffIdxTransition旗標(biāo)),從而將所述旗標(biāo)提供到位流產(chǎn)生單元42,使得可將所述旗標(biāo)包含在位流21中(有可能作為旁側(cè)信道信息的一部分)。
除指定環(huán)境系數(shù)轉(zhuǎn)變旗標(biāo)之外,系數(shù)減少單元46也可修改產(chǎn)生減少的前景V[k]向量55的方式。在一個(gè)實(shí)例中,在確定環(huán)境HOA環(huán)境系數(shù)中的一者在當(dāng)前幀期間處于轉(zhuǎn)變中時(shí),系數(shù)減少單元46可指定用于減少的前景V[k]向量55的V向量中的每一者的向量系數(shù)(其也可被稱作“向量元素”或“元素”),其對(duì)應(yīng)于處于轉(zhuǎn)變中的環(huán)境HOA系數(shù)。同樣,處于轉(zhuǎn)變中的環(huán)境HOA系數(shù)可添加至背景系數(shù)的BGTOT總數(shù)目或從背景系數(shù)的BGTOT總數(shù)目中移除。因此,背景系數(shù)的總數(shù)目的所得改變影響環(huán)境HOA系數(shù)是否包含于位流中,及在上文所描述的第二及第三配置模式中是否針對(duì)位流中所指定的V向量包含V向量的對(duì)應(yīng)元素。關(guān)于系數(shù)減少單元46可如何指定減少的前景V[k]向量55以克服能量的改變的更多信息提供于2015年1月12日申請(qǐng)的標(biāo)題為“環(huán)境HIGHER_ORDER立體混響系數(shù)的轉(zhuǎn)變(TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS)”的第14/594,533號(hào)美國(guó)申請(qǐng)案中。
圖4為更詳細(xì)說(shuō)明圖2的音頻解碼裝置24的框圖。如在圖4的實(shí)例中所展示,音頻解碼裝置24可包含提取單元72、基于方向性的重構(gòu)單元90及基于向量的重構(gòu)單元92。盡管下文進(jìn)行描述,但關(guān)于音頻解碼裝置24及解壓縮或以其它方式解碼HOA系數(shù)的各種方面的更多信息可在2014年5月29日申請(qǐng)的標(biāo)題為“用于聲場(chǎng)的經(jīng)分解表示的內(nèi)插(NTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099號(hào)國(guó)際專利申請(qǐng)公開(kāi)案中獲得。
提取單元72可表示經(jīng)配置以接收位流21和提取HOA系數(shù)11的各種經(jīng)編碼版本(例如,基于方向的經(jīng)編碼版本或基于向量的經(jīng)編碼版本)的單元。提取單元72可根據(jù)以上所述確定指示HOA系數(shù)11是否經(jīng)由各種基于方向的或基于向量的版本而經(jīng)編碼的語(yǔ)法元素。當(dāng)執(zhí)行基于方向的編碼時(shí),提取單元72可提取HOA系數(shù)11的基于方向的版本及與所述經(jīng)編碼版本相關(guān)聯(lián)的語(yǔ)法元素(其在圖4的實(shí)例中表示為基于方向的信息91),從而將所述基于方向的信息91傳遞到基于方向的重構(gòu)單元90?;诜较虻闹貥?gòu)單元90可表示經(jīng)配置以基于所述基于方向的信息91重構(gòu)呈HOA系數(shù)11'的形式的HOA系數(shù)的單元。位流和位流內(nèi)語(yǔ)法元素的布置在下文相對(duì)于圖7A到7J的實(shí)例更詳細(xì)描述。
當(dāng)語(yǔ)法元素指示HOA系數(shù)11使用基于向量的合成進(jìn)行編碼時(shí),提取單元72可提取經(jīng)譯碼前景V[k]向量57(其可包含經(jīng)譯碼權(quán)數(shù)及/或索引63或經(jīng)標(biāo)量量化的V向量)、經(jīng)編碼環(huán)境HOA系數(shù)59及對(duì)應(yīng)音頻對(duì)象61(其也可被稱作經(jīng)編碼nFG信號(hào)61)。音頻對(duì)象61各自對(duì)應(yīng)于向量57中的一者。提取單元72可將經(jīng)譯碼前景V[k]向量57傳遞至V向量重構(gòu)單元74,且將經(jīng)編碼環(huán)境HOA系數(shù)59以及經(jīng)編碼nFG信號(hào)61提供到心理聲學(xué)音頻解碼單元80。
V向量重構(gòu)單元74(也被稱作解量化單元)可表示經(jīng)配置以從經(jīng)編碼前景V[k]向量57重構(gòu)V向量(例如,經(jīng)減少的前景V[k]向量55k)的單元。V向量重構(gòu)單元74可以與量化單元52的方式互逆的方式操作以解量化經(jīng)編碼前景V[k]向量57以產(chǎn)生經(jīng)減少的前景V[k]向量55k。
在一些實(shí)例中,V向量重構(gòu)單元74可使當(dāng)前幀的經(jīng)譯碼前景V[k]向量57的一部分與前一幀的經(jīng)譯碼前景V[k-1]向量的一部分進(jìn)行交叉淡化以產(chǎn)生經(jīng)交叉淡化且經(jīng)量化的前景V[k]向量。舉例來(lái)說(shuō),提取單元72可使當(dāng)前幀k的經(jīng)譯碼前景V[k]向量57的前256個(gè)樣本與前一幀k-1的經(jīng)量化前景V[k-1]向量的最后256個(gè)樣本進(jìn)行交叉淡化,且解量化所述經(jīng)交叉淡化且經(jīng)量化的前景V[k]向量以產(chǎn)生經(jīng)減少的前景V[k]向量55k。
心理聲學(xué)解碼單元80可以與圖3的實(shí)例中所展示的心理聲學(xué)音頻譯碼器單元40互逆的方式操作以便對(duì)經(jīng)編碼環(huán)境HOA系數(shù)59及經(jīng)編碼nFG信號(hào)61進(jìn)行解碼且由此產(chǎn)生經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的nFG信號(hào)49'(其也可被稱作經(jīng)內(nèi)插的nFG音頻對(duì)象49')。心理聲學(xué)音頻解碼單元80可將能量補(bǔ)償環(huán)境HOA系數(shù)47'傳遞到淡化單元770且將nFG信號(hào)49'傳遞到前景制訂單元78。
空間-時(shí)間內(nèi)插單元76可以類似于上文相對(duì)于空間-時(shí)間內(nèi)插單元50所描述方式的方式操作??臻g-時(shí)間內(nèi)插單元76可接收減少的前景V[k]向量55k且相對(duì)于前景V[k]向量55k及減少的前景V[k-1]向量55k-1執(zhí)行空間-時(shí)間內(nèi)插以產(chǎn)生經(jīng)內(nèi)插的前景V[k]向量55k”??臻g-時(shí)間內(nèi)插單元76可將經(jīng)內(nèi)插的前景V[k]向量55k”轉(zhuǎn)發(fā)到淡化單元770。
提取單元72還可將指示環(huán)境HOA系數(shù)中的一者何時(shí)處于轉(zhuǎn)變中的信號(hào)757輸出到淡化單元770,所述淡化單元可接著確定SHCBG 47'(其中SHCBG 47'還可表示為“環(huán)境HOA信道47'”或“環(huán)境HOA系數(shù)47'”)及經(jīng)內(nèi)插的前景V[k]向量55k”的元素中的哪一者將淡入或淡出。在一些實(shí)例中,淡化單元770可相對(duì)于環(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的前景V[k]向量55k”的元素中的每一者相反地操作。也就是說(shuō),淡化單元770可相對(duì)于環(huán)境HOA系數(shù)47'中的對(duì)應(yīng)環(huán)境HOA系數(shù)執(zhí)行淡入或淡出或執(zhí)行淡入或淡出兩者,同時(shí)相對(duì)于經(jīng)內(nèi)插的前景V[k]向量55k”的元素中的對(duì)應(yīng)一個(gè)元素執(zhí)行淡入或淡出或執(zhí)行淡入與淡出兩者。淡化單元770可將經(jīng)調(diào)整的環(huán)境HOA系數(shù)47”輸出到HOA系數(shù)制訂單元82且將經(jīng)調(diào)整的前景V[k]向量55k”'輸出到前景制訂單元78。在這方面中,淡化單元770表示經(jīng)配置以相對(duì)于HOA系數(shù)或其衍生物的各種方面執(zhí)行淡化操作的單元,所述衍生物例如呈環(huán)境HOA系數(shù)47'和經(jīng)內(nèi)插前景V[k]向量55k”的元素的形式。
前景制訂單元78可表示經(jīng)配置以相對(duì)于經(jīng)調(diào)整的前景V[k]向量55k”'及經(jīng)內(nèi)插的nFG信號(hào)49'執(zhí)行矩陣乘法以產(chǎn)生前景HOA系數(shù)65的單元。在這方面中,前景制訂單元78可組合音頻對(duì)象49'(其為借以表示經(jīng)內(nèi)插的nFG信號(hào)49'的另一種方式)與向量55k”'以重構(gòu)HOA系數(shù)11'的前景(或換句話說(shuō),優(yōu)勢(shì))方面。前景制訂單元78可執(zhí)行經(jīng)內(nèi)插的nFG信號(hào)49'乘以經(jīng)調(diào)整的前景V[k]向量55k”'的矩陣乘法。
HOA系數(shù)制訂單元82可表示經(jīng)配置以將前景HOA系數(shù)65組合到經(jīng)調(diào)整的環(huán)境HOA系數(shù)47”以便獲得HOA系數(shù)11'的單元。撇號(hào)記法反映HOA系數(shù)11'可類似于HOA系數(shù)11但與HOA系數(shù)11不相同。HOA系數(shù)11與11'之間的差可起因于由于有損發(fā)射媒體上的發(fā)射、量化或其它有損操作而產(chǎn)生的損失。
圖5A為說(shuō)明音頻編碼裝置(例如圖3的實(shí)例中所示的音頻編碼裝置20)執(zhí)行本發(fā)明中所描述的基于向量的合成技術(shù)的各個(gè)方面的示范性操作的流程圖。最初,音頻編碼裝置20接收HOA系數(shù)11(106)。音頻編碼裝置20可調(diào)用LIT單元30,其可相對(duì)于HOA系數(shù)應(yīng)用LIT以輸出經(jīng)變換HOA系數(shù)(例如,在SVD的情況下,經(jīng)變換HOA系數(shù)可包括US[k]向量33和V[k]向量35)(107)。
音頻編碼裝置20接下來(lái)可調(diào)用參數(shù)計(jì)算單元32以按上文所描述的方式相對(duì)于US[k]向量33、US[k-1]向量33、V[k]和/或V[k-1]向量35的任何組合執(zhí)行上文所描述的分析以識(shí)別各種參數(shù)。也就是說(shuō),參數(shù)計(jì)算單元32可基于經(jīng)變換的HOA系數(shù)33/35的分析確定至少一個(gè)參數(shù)(108)。
音頻編碼裝置20可接著調(diào)用重排序單元34,重排序單元34基于參數(shù)將經(jīng)變換的HOA系數(shù)(再次在SVD的上下文中,其可指US[k]向量33及V[k]向量35)重排序以產(chǎn)生經(jīng)重排序的經(jīng)變換的HOA系數(shù)33'/35'(或,換句話說(shuō),US[k]向量33'及V[k]向量35'),如上文所描述(109)。音頻編碼裝置20可在以上操作或后續(xù)操作中的任一者期間還調(diào)用聲場(chǎng)分析單元44。聲場(chǎng)分析單元44可如上文所描述相對(duì)于HOA系數(shù)11和/或經(jīng)變換HOA系數(shù)33/35執(zhí)行聲場(chǎng)分析以確定前景信道(nFG)45的總數(shù)、背景聲場(chǎng)(NBG)的次序以及待發(fā)送的額外BG HOA信道的數(shù)目(nBGa)和指數(shù)(i)(其可在圖3的實(shí)例中統(tǒng)一表示為背景信道信息43)(109)。
音頻編碼裝置20還可調(diào)用背景選擇單元48。背景選擇單元48可基于背景信道信息43確定背景或環(huán)境HOA系數(shù)47(110)。音頻編碼裝置20可進(jìn)一步調(diào)用前景選擇單元36,前景選擇單元36可基于nFG 45(其可表示識(shí)別這些前景向量的一或多個(gè)索引)選擇表示聲場(chǎng)的前景或相異分量的經(jīng)重排序的US[k]向量33'及經(jīng)重排序的V[k]向量35'(112)。
音頻編碼裝置20可調(diào)用能量補(bǔ)償單元38。能量補(bǔ)償單元38可相對(duì)于環(huán)境HOA系數(shù)47執(zhí)行能量補(bǔ)償以補(bǔ)償歸因于由背景選擇單元48移除HOA系數(shù)的各者而導(dǎo)致的能量損失(114),且借此產(chǎn)生經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'。
音頻編碼裝置20也可調(diào)用空間-時(shí)間內(nèi)插單元50??臻g-時(shí)間內(nèi)插單元50可相對(duì)于經(jīng)重排序的經(jīng)變換HOA系數(shù)33'/35'執(zhí)行空間-時(shí)間內(nèi)插以獲得經(jīng)內(nèi)插前景信號(hào)49'(其也可被稱作“經(jīng)內(nèi)插nFG信號(hào)49'”)及剩余前景方向信息53(其也可被稱作“V[k]向量53”)(116)。音頻編碼裝置20可接著調(diào)用系數(shù)減少單元46。系數(shù)減少單元46可基于背景信道信息43執(zhí)行相對(duì)于剩余前景V[k]向量53的系數(shù)減少,以獲得減少的前景方向信息55(其也可被稱作減少的前景V[k]向量55)(118)。
音頻編碼裝置20可接著調(diào)用量化單元52以按上文所描述的方式壓縮經(jīng)縮減前景V[k]向量55且產(chǎn)生經(jīng)譯碼前景V[k]向量57(120)。
音頻編碼裝置20可調(diào)用量化補(bǔ)償單元70。量化補(bǔ)償單元70可補(bǔ)償經(jīng)譯碼前景V[k]向量57的量化誤差以產(chǎn)生經(jīng)量化補(bǔ)償nFG信號(hào)60(121)。
音頻編碼裝置20還可調(diào)用心理聲學(xué)音頻譯碼器單元40。心理聲學(xué)音頻譯碼器單元40可對(duì)經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'和經(jīng)內(nèi)插nFG信號(hào)49'的每一向量進(jìn)行心理聲學(xué)譯碼以產(chǎn)生經(jīng)編碼環(huán)境HOA系數(shù)59和經(jīng)編碼nFG信號(hào)61。音頻編碼裝置可隨后調(diào)用位流產(chǎn)生單元42。位流產(chǎn)生單元42可基于經(jīng)譯碼前景方向信息57、經(jīng)譯碼環(huán)境HOA系數(shù)59、經(jīng)譯碼nFG信號(hào)61和背景信道信息43產(chǎn)生位流21。
圖5B為說(shuō)明音頻編碼裝置執(zhí)行本發(fā)明中所描述的譯碼技術(shù)的示范性操作的流程圖。如圖5B中所示,音頻編碼裝置20的LIT單元30可將HOA系數(shù)分解為音頻對(duì)象和與音頻對(duì)象相關(guān)聯(lián)的方向信息(150)。所述音頻對(duì)象可包括表示多個(gè)球諧系數(shù)的左奇異向量的U矩陣與表示所述多個(gè)球諧系數(shù)的奇異值的S矩陣的乘積。與所述音頻對(duì)象相關(guān)聯(lián)的所述方向信息可包括表示所述多個(gè)球諧系數(shù)的右奇異向量的V矩陣。
音頻編碼裝置20的心理聲學(xué)音頻譯碼器單元40可至少部分地基于執(zhí)行與音頻對(duì)象相關(guān)聯(lián)的方向信息的量化的結(jié)果而執(zhí)行音頻對(duì)象的閉環(huán)量化(152)。音頻編碼裝置20可通過(guò)執(zhí)行與音頻對(duì)象相關(guān)聯(lián)的方向信息的量化且至少部分地基于執(zhí)行與音頻對(duì)象相關(guān)聯(lián)的方向信息的量化的結(jié)果執(zhí)行音頻對(duì)象的量化而執(zhí)行所述音頻對(duì)象的閉環(huán)量化。音頻編碼裝置20可通過(guò)至少部分地基于因執(zhí)行與音頻對(duì)象相關(guān)聯(lián)的方向信息的量化(即,量化)產(chǎn)生的量化誤差而執(zhí)行音頻對(duì)象的量化(即,量化)來(lái)執(zhí)行所述音頻對(duì)象的量化(即,量化)。
音頻編碼裝置20可至少部分地基于因執(zhí)行與音頻對(duì)象相關(guān)聯(lián)的方向信息的量化產(chǎn)生的量化誤差,通過(guò)補(bǔ)償因執(zhí)行與音頻對(duì)象相關(guān)聯(lián)的方向信息的量化產(chǎn)生的量化誤差而執(zhí)行音頻對(duì)象的量化。音頻編碼裝置20可通過(guò)至少部分地基于執(zhí)行與音頻對(duì)象相關(guān)聯(lián)的方向信息的量化的結(jié)果的偽逆而確定經(jīng)量化補(bǔ)償音頻對(duì)象且執(zhí)行所述經(jīng)量化補(bǔ)償音頻對(duì)象的量化來(lái)補(bǔ)償因執(zhí)行與音頻對(duì)象相關(guān)聯(lián)的方向信息的量化產(chǎn)生的量化誤差。
音頻編碼裝置20可至少部分地基于執(zhí)行與音頻對(duì)象相關(guān)聯(lián)的方向信息的量化的結(jié)果的偽逆,通過(guò)將經(jīng)量化補(bǔ)償音頻對(duì)象確定為較高階立體混響(HOA)系數(shù)與執(zhí)行與音頻對(duì)象相關(guān)聯(lián)的方向信息的量化的結(jié)果的偽逆的乘積而確定經(jīng)量化補(bǔ)償音頻對(duì)象。
圖6A是說(shuō)明音頻解碼裝置(例如圖4的實(shí)例中所示的音頻解碼裝置24)在執(zhí)行本發(fā)明中描述的技術(shù)的各個(gè)方面中的示范性操作的流程圖。最初,音頻解碼裝置24可接收位流21(130)。在接收到位流后,音頻解碼裝置24可即刻調(diào)用提取單元72。出于論述的目的假定位流21指示將執(zhí)行基于向量的重構(gòu),提取單元72可剖析位流以檢索上文所提及的信息,將此信息傳遞到基于向量的重構(gòu)單元92。
換句話說(shuō),提取單元72可按上文所描述的方式從位流21中提取經(jīng)譯碼前景方向信息57(再次,其也可被稱作經(jīng)譯碼前景V[k]向量57)、經(jīng)譯碼環(huán)境HOA系數(shù)59和經(jīng)譯碼前景信號(hào)(其也可被稱作經(jīng)譯碼前景nFG信號(hào)61或經(jīng)譯碼前景音頻對(duì)象59)(132)。
音頻解碼裝置24可進(jìn)一步調(diào)用V向量重構(gòu)單元74。V向量重構(gòu)單元74可對(duì)經(jīng)譯碼前景方向信息57進(jìn)行熵解碼及解量化以獲得經(jīng)減少的前景方向信息55k(136)。音頻解碼裝置24還可調(diào)用心理聲學(xué)音頻解碼單元80。心理聲學(xué)音頻解碼單元80可解碼/解量化經(jīng)編碼環(huán)境HOA系數(shù)59及經(jīng)編碼前景信號(hào)61以獲得經(jīng)能量補(bǔ)償?shù)沫h(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的前景信號(hào)49'(138)。心理聲學(xué)音頻解碼單元80可將能量補(bǔ)償環(huán)境HOA系數(shù)47'傳遞到淡化單元770且將nFG信號(hào)49'傳遞到前景制訂單元78。
音頻解碼裝置24接下來(lái)可調(diào)用空間-時(shí)間內(nèi)插單元76??臻g-時(shí)間內(nèi)插單元76可接收經(jīng)重排序的前景方向信息55k'且相對(duì)于經(jīng)減少的前景方向信息55k/55k-1執(zhí)行空間-時(shí)間內(nèi)插以產(chǎn)生經(jīng)內(nèi)插的前景方向信息55k”(140)??臻g-時(shí)間內(nèi)插單元76可將經(jīng)內(nèi)插的前景V[k]向量55k”轉(zhuǎn)發(fā)到淡化單元770。
音頻解碼裝置24可調(diào)用淡化單元770。淡化單元770可(例如,從提取單元72)接收或另外獲得指示能量補(bǔ)償環(huán)境HOA系數(shù)47'何時(shí)在轉(zhuǎn)變中的語(yǔ)法元素(例如,AmbCoeffTransition語(yǔ)法元素)。淡化單元770可基于轉(zhuǎn)變語(yǔ)法元素和維持的轉(zhuǎn)變狀態(tài)信息而淡入或淡出能量補(bǔ)償環(huán)境HOA系數(shù)47',從而將經(jīng)調(diào)整環(huán)境HOA系數(shù)47”輸出到HOA系數(shù)制訂單元82。淡化單元770還可基于語(yǔ)法元素和維持的轉(zhuǎn)變狀態(tài)信息而淡出或淡入經(jīng)內(nèi)插前景V[k]向量55k”的對(duì)應(yīng)一或多個(gè)元素,從而將經(jīng)調(diào)整前景V[k]向量55k”'輸出到前景制訂單元78(142)。
音頻解碼裝置24可調(diào)用前景制訂單元78。前景制訂單元78可執(zhí)行nFG信號(hào)49'與經(jīng)調(diào)整前景方向信息55k”'的矩陣乘法以獲得前景HOA系數(shù)65(144)。音頻解碼裝置24還可調(diào)用HOA系數(shù)制訂單元82。HOA系數(shù)制訂單元82可將前景HOA系數(shù)65與經(jīng)調(diào)整環(huán)境HOA系數(shù)47”相加以便獲得HOA系數(shù)11'(146)。
圖6B是說(shuō)明音頻解碼裝置執(zhí)行本發(fā)明中所描述的譯碼技術(shù)的示范性操作的流程圖。如圖6B中所示,音頻解碼裝置24的提取單元72可接收位流(160)。音頻解碼裝置24可至少部分地基于執(zhí)行與音頻對(duì)象相關(guān)聯(lián)的方向信息的量化的結(jié)果而獲得已經(jīng)閉環(huán)量化的音頻對(duì)象(162)。舉例來(lái)說(shuō),音頻解碼裝置24的提取單元72可解碼所述位流以獲得經(jīng)閉環(huán)量化音頻對(duì)象和經(jīng)量化方向信息。響應(yīng)于獲得音頻對(duì)象,音頻解碼裝置24可解量化所述音頻對(duì)象(164)。
在某一實(shí)例中,通過(guò)量化與音頻對(duì)象相關(guān)聯(lián)的方向信息且至少部分地基于量化與所述音頻對(duì)象相關(guān)聯(lián)的方向信息的結(jié)果量化所述音頻對(duì)象來(lái)閉環(huán)量化所述音頻對(duì)象。在一些實(shí)例中,通過(guò)量化與音頻對(duì)象相關(guān)聯(lián)的方向信息且至少部分地基于因量化與所述音頻對(duì)象相關(guān)聯(lián)的方向信息產(chǎn)生的量化誤差而量化所述音頻對(duì)象來(lái)閉環(huán)量化所述音頻對(duì)象。
在一些實(shí)例中,通過(guò)量化與音頻對(duì)象相關(guān)聯(lián)的方向信息且至少部分地基于因與所述音頻對(duì)象相關(guān)聯(lián)的方向信息的量化產(chǎn)生的量化誤差而量化所述音頻對(duì)象來(lái)閉環(huán)量化所述音頻對(duì)象,包含補(bǔ)償因執(zhí)行與所述音頻對(duì)象相關(guān)聯(lián)的方向信息的量化產(chǎn)生的量化誤差。在一些實(shí)例中,通過(guò)量化與音頻對(duì)象相關(guān)聯(lián)的方向信息、至少部分地基于量化與所述音頻對(duì)象相關(guān)聯(lián)的方向信息的結(jié)果的偽逆而確定經(jīng)量化補(bǔ)償音頻對(duì)象且量化所述經(jīng)量化補(bǔ)償音頻對(duì)象來(lái)閉環(huán)量化所述音頻對(duì)象。
在一些實(shí)例中,通過(guò)將音頻對(duì)象確定為較高階立體混響(HOA)系數(shù)與執(zhí)行與所述音頻對(duì)象相關(guān)聯(lián)的方向信息的量化的結(jié)果的偽逆的乘積來(lái)閉環(huán)量化所述音頻對(duì)象。在一些實(shí)例中,所述音頻對(duì)象和方向信息是從較高階立體混響系數(shù)分解的,所述音頻對(duì)象包括表示多個(gè)球諧系數(shù)的左奇異向量的U矩陣與表示所述多個(gè)球諧系數(shù)的奇異值的S矩陣的乘積,且與所述音頻對(duì)象相關(guān)聯(lián)的方向信息包括表示所述多個(gè)球諧系數(shù)的右奇異向量的V矩陣。
圖7A是說(shuō)明用于HOA信號(hào)壓縮的V向量和前景信號(hào)的閉環(huán)量化的框圖。此閉環(huán)量化可由圖3的實(shí)例中所示的音頻編碼裝置20和圖4的實(shí)例中所示的音頻解碼裝置24執(zhí)行。為了減少量化誤差,可量化V向量,且可通過(guò)補(bǔ)償V向量的量化誤差而量化US向量。音頻編碼裝置20可將V向量量化為Q(V),且可將新目標(biāo)信號(hào)T(US)產(chǎn)生為H與pinv(Q(V))的乘積,其中pinv(A)是A的偽逆。音頻編碼裝置20可將T(US)量化為Q(T(US))。音頻解碼裝置24可基于由Q(T(US))*Q(V)'產(chǎn)生的經(jīng)量化HOA系數(shù)Q(H)而重構(gòu)HOA系數(shù)11'。以此方式,可基于V向量的量化誤差而量化US向量。
如圖7A中所示,HFG可表示在圖7A的實(shí)例中具有1280乘21的大小的前景HOA系數(shù)400。前景HOA系數(shù)400可等于UFG、SFG和VFG的乘積,其中UFG可具有1280乘2的大小,SFG可具有2乘2的大小,且其中VFG可具有21乘2的大小。V向量VFG 402可為在圖7A的實(shí)例中具有21乘2的大小的圖3的經(jīng)減少前景V[k]向量55。原始目標(biāo)WFG=UFG*SFG 404可為在圖7A的實(shí)例中具有1280乘2的大小的圖3的經(jīng)內(nèi)插nFG信號(hào)49'。
音頻編碼裝置20可至少部分地基于前一幀408的經(jīng)量化V向量確定是否對(duì)V向量VFG 402執(zhí)行正負(fù)號(hào)改變406,如下文較詳細(xì)論述。因此,音頻編碼裝置20可至少部分地基于前一幀的經(jīng)延遲經(jīng)量化V向量408而確定是否將改變當(dāng)前幀的V向量VFG 402的正負(fù)號(hào)。音頻編碼裝置20可確定是否使V向量VFG 402改變正負(fù)號(hào)406而導(dǎo)致無(wú)正負(fù)號(hào)改變的V向量VFG 402或經(jīng)正負(fù)號(hào)改變的V向量410。音頻編碼裝置20可例如通過(guò)使用音頻編碼裝置20的量化單元52量化412無(wú)正負(fù)號(hào)改變的V向量VFG 402或經(jīng)正負(fù)號(hào)改變的V向量410,以產(chǎn)生經(jīng)量化前景V向量414,其可為圖3的經(jīng)譯碼前景V[k]向量57。音頻編碼裝置可將經(jīng)量化前景V向量414延遲416一個(gè)幀以產(chǎn)生經(jīng)延遲經(jīng)量化V向量408,以使得音頻編碼裝置20可在下一幀中使用所述經(jīng)量化V向量以確定是否對(duì)用于所述下一幀的V向量VFG執(zhí)行正負(fù)號(hào)改變。
音頻編碼裝置20可基于經(jīng)延遲經(jīng)量化V向量408確定418,其為前景HOA系數(shù)400與作為經(jīng)延遲經(jīng)量化V向量408的偽逆的的乘積。音頻編碼裝置200還可確定420,其為WFG=UFG*SFG 404與418的乘積。至少部分地基于確定420,音頻編碼裝置20可對(duì)V向量VFG 402執(zhí)行正負(fù)號(hào)改變406。舉例來(lái)說(shuō),如果420的正負(fù)號(hào)為負(fù),那么音頻編碼裝置20可對(duì)V向量VFG 402執(zhí)行正負(fù)號(hào)改變406。
音頻編碼裝置20可至少部分地基于經(jīng)量化V向量408而產(chǎn)生新的目標(biāo)422其為作為經(jīng)量化V向量408的偽逆的與可表示前景HOA系數(shù)400的HFG的乘積,使得新目標(biāo)422音頻編碼裝置20可將新目標(biāo)422延遲424一個(gè)幀以產(chǎn)生前一目標(biāo)426且可使新目標(biāo)422的第一部分(例如前256個(gè)樣本)與前一目標(biāo)426的最后部分(例如最后256個(gè)樣本)進(jìn)行交叉淡化428,以產(chǎn)生類似于圖3中的經(jīng)量化補(bǔ)償nFG信號(hào)60的經(jīng)量化補(bǔ)償目標(biāo)信號(hào)。音頻編碼裝置20可例如通過(guò)使用圖3的心理聲學(xué)音頻譯碼器單元40量化430所述經(jīng)量化補(bǔ)償目標(biāo)信號(hào)以產(chǎn)生輸出到音頻解碼裝置24的經(jīng)量化前景信號(hào)432
音頻解碼裝置24可例如從音頻編碼裝置20接收經(jīng)量化前景V向量414,且可將經(jīng)量化前景V向量414延遲416一個(gè)幀以產(chǎn)生經(jīng)延遲經(jīng)量化V向量408。音頻解碼裝置24可使當(dāng)前幀的經(jīng)量化前景V向量414的第一數(shù)目的樣本與經(jīng)延遲經(jīng)量化V向量408的最后數(shù)目的樣本交叉淡化,且可確定經(jīng)交叉淡化經(jīng)量化前景V[k]向量436與經(jīng)量化前景信號(hào)432的乘積以產(chǎn)生經(jīng)量化前景HOA系數(shù)438舉例來(lái)說(shuō),音頻解碼裝置24可使當(dāng)前幀的經(jīng)量化前景V向量414的前256個(gè)樣本與經(jīng)延遲經(jīng)量化V向量408的最后256個(gè)樣本進(jìn)行交叉淡化,且可確定經(jīng)交叉淡化經(jīng)量化前景V[k]向量436與經(jīng)量化前景信號(hào)432的乘積以產(chǎn)生經(jīng)量化前景HOA系數(shù)438音頻解碼裝置24可分解且解量化前景HOA系數(shù)438以使得揚(yáng)聲器可重放根據(jù)從經(jīng)量化前景HOA系數(shù)438分解的經(jīng)解量化音頻對(duì)象再現(xiàn)的擴(kuò)音器饋送。
圖7B是說(shuō)明用于HOA信號(hào)壓縮的V向量和前景信號(hào)的閉環(huán)量化的框圖。圖7B不同于圖7A之處在于圖7B中所示的音頻解碼裝置24不使當(dāng)前幀的經(jīng)量化前景V向量414的第一數(shù)目的樣本與經(jīng)延遲經(jīng)量化V向量408的最后數(shù)目的樣本進(jìn)行交叉淡化。圖7B還不同于圖7A之處在于如圖7B中所示的音頻編碼裝置20不使新目標(biāo)422延遲一個(gè)幀以產(chǎn)生先前目標(biāo),且因此不使新目標(biāo)422的第一部分與先前目標(biāo)4的最后部分進(jìn)行交叉淡化以產(chǎn)生經(jīng)量化補(bǔ)償目標(biāo)信號(hào)。
前景HOA系數(shù)400可等于UFG、SFG和VFG的乘積,其中UFG可具有1280乘2的大小,SFG可具有2乘2的大小,且其中VFG可具有21乘2的大小。V向量VFG 402可為在圖7A的實(shí)例中具有21乘2的大小的圖3的經(jīng)減少前景V[k]向量55。原始目標(biāo)WFG=UFG*SFG 404可為在圖7A的實(shí)例中具有1280乘2的大小的圖3的經(jīng)內(nèi)插nFG信號(hào)49'。
音頻編碼裝置20可至少部分地基于前一幀408的經(jīng)量化V向量確定是否對(duì)V向量VFG 402執(zhí)行正負(fù)號(hào)改變406,如下文較詳細(xì)論述。因此,音頻編碼裝置20可至少部分地基于前一幀的經(jīng)延遲經(jīng)量化V向量408而確定是否將改變當(dāng)前幀的V向量VFG 402的正負(fù)號(hào)。音頻編碼裝置20可確定是否使V向量VFG 402改變正負(fù)號(hào)406而導(dǎo)致無(wú)正負(fù)號(hào)改變的V向量VFG 402或經(jīng)正負(fù)號(hào)改變的V向量410。音頻編碼裝置20可例如通過(guò)使用音頻編碼裝置20的量化單元52量化412無(wú)正負(fù)號(hào)改變的V向量VFG 402或經(jīng)正負(fù)號(hào)改變的V向量410,以產(chǎn)生經(jīng)量化前景V向量414,其可為圖3的經(jīng)譯碼前景V[k]向量57。音頻編碼裝置可將經(jīng)量化前景V向量414延遲416一個(gè)幀以產(chǎn)生經(jīng)延遲經(jīng)量化V向量408,以使得音頻編碼裝置20可在下一幀中使用所述經(jīng)量化V向量以確定是否對(duì)用于所述下一幀的V向量VFG執(zhí)行正負(fù)號(hào)改變。
音頻編碼裝置20可基于經(jīng)延遲經(jīng)量化V向量408而確定418,其為前景HOA系數(shù)400與作為經(jīng)延遲經(jīng)量化V向量408的偽逆的的乘積。音頻編碼裝置200還可確定420,其為WFG=UFG*SFG 404與418的乘積。至少部分地基于確定420,音頻編碼裝置20可對(duì)V向量VFG 402執(zhí)行正負(fù)號(hào)改變406。例如,如果420的正負(fù)號(hào)為負(fù),那么音頻編碼裝置20可對(duì)V向量VFG 402執(zhí)行正負(fù)號(hào)改變406。
音頻編碼裝置20可至少部分地基于經(jīng)量化V向量408而產(chǎn)生新目標(biāo)422其為作為經(jīng)量化V向量408的偽逆的與可表示前景HOA系數(shù)400的HFG的乘積,使得新目標(biāo)422音頻編碼裝置20可量化430新目標(biāo)422以產(chǎn)生經(jīng)量化前景信號(hào)432音頻解碼裝置24可例如從音頻編碼裝置20接收經(jīng)量化前景V向量414,且可確定經(jīng)量化前景V向量414與經(jīng)量化前景信號(hào)432的乘積以產(chǎn)生經(jīng)量化前景HOA系數(shù)438音頻解碼裝置24可分解且解量化前景HOA系數(shù)438以使得揚(yáng)聲器可重放根據(jù)從經(jīng)解量化前景HOA系數(shù)438分解的經(jīng)解量化音頻對(duì)象再現(xiàn)的擴(kuò)音器饋送。
圖8是更詳細(xì)地說(shuō)明圖3的實(shí)例中所示的音頻編碼裝置20的量化單元52的框圖。在圖8的實(shí)例中,量化單元52包含均勻量化單元230、n位單元232、預(yù)測(cè)單元234、預(yù)測(cè)模式單元236(“預(yù)測(cè)模式單元236”)、類別與殘余譯碼單元238、霍夫曼表選擇單元240、延遲單元300以及正負(fù)號(hào)改變單元302。均勻量化單元230表示經(jīng)配置以相對(duì)于空間分量中的一者(其可表示經(jīng)縮減前景V[k]向量55中的任一者)執(zhí)行上文描述的均勻量化的單元。n位單元232表示經(jīng)配置以確定nbits參數(shù)或值的單元。
延遲單元300可將均勻量化單元230的結(jié)果延遲一個(gè)幀,以使得在均勻量化單元230作用于經(jīng)減少前景V[k]向量55之前,正負(fù)號(hào)改變單元302可至少部分地基于經(jīng)量化前景V[k]向量而確定是否對(duì)經(jīng)減少前景V[k]向量55執(zhí)行正負(fù)號(hào)改變。換句話說(shuō),正負(fù)號(hào)改變單元302可表示經(jīng)配置以反轉(zhuǎn)經(jīng)減少前景V[k]向量55中的一或多者的正負(fù)號(hào)(從正到負(fù)或從負(fù)到正)的單元。給定線性可逆變換的性質(zhì),V[k]向量55可從用于第k幀的HOA系數(shù)11分解以使得前一幀(或第(k-1)幀)的V[k-1]向量55中的對(duì)應(yīng)一或多者的正負(fù)號(hào)被逐個(gè)地反轉(zhuǎn)。在這方面中,有時(shí)可能需要跨越幀邊界改變正負(fù)號(hào)。因此,是否需要改變當(dāng)前幀的經(jīng)減少前景V[k]向量55的正負(fù)號(hào)可取決于前一幀的經(jīng)量化V向量。具體來(lái)說(shuō),量化單元54可將用于第k幀的HOA系數(shù)11與前一幀(k-1幀)的經(jīng)量化V向量相乘以產(chǎn)生經(jīng)延遲前景信號(hào)。量化單元54可將經(jīng)延遲前景信號(hào)與經(jīng)內(nèi)插nFG信號(hào)49'相乘。如果將經(jīng)延遲前景信號(hào)與經(jīng)內(nèi)插nFG信號(hào)49'相乘的結(jié)果為負(fù),那么正負(fù)號(hào)改變單元302可對(duì)經(jīng)減少前景V[k]向量55執(zhí)行正負(fù)號(hào)改變。
圖9是更詳細(xì)說(shuō)明圖3的實(shí)例中所示的音頻編碼裝置20的量化補(bǔ)償單元70的框圖。量化補(bǔ)償單元70可包含中間補(bǔ)償單元304、延遲單元306和交叉淡化單元308。中間補(bǔ)償單元304可對(duì)經(jīng)譯碼前景V[k]向量57執(zhí)行偽逆函數(shù)以獲得經(jīng)譯碼前景V[k]向量57的偽逆。中間補(bǔ)償單元304可進(jìn)一步計(jì)算經(jīng)譯碼前景V[k]向量57的偽逆與前景HOA系數(shù)的乘積以確定中間經(jīng)量化補(bǔ)償nFG信號(hào)。在一個(gè)實(shí)例中,中間補(bǔ)償單元304可將前景HOA系數(shù)確定為經(jīng)內(nèi)插nFG信號(hào)49'與經(jīng)內(nèi)插前景V[k]向量53的乘積。
延遲單元306可將由中間補(bǔ)償單元304產(chǎn)生的中間經(jīng)量化補(bǔ)償nFG信號(hào)延遲一個(gè)幀。交叉淡化單元308可使由中間補(bǔ)償單元304輸出的當(dāng)前幀k的中間經(jīng)量化補(bǔ)償nFG信號(hào)的一部分與由延遲單元306輸出的前一幀k-1的中間經(jīng)量化補(bǔ)償nFG信號(hào)的一部分進(jìn)行交叉淡化以產(chǎn)生經(jīng)量化補(bǔ)償nFG信號(hào)60。例如,交叉淡化單元308可使當(dāng)前幀k的中間經(jīng)量化補(bǔ)償nFG信號(hào)的前256個(gè)樣本與前一幀k-1的中間經(jīng)量化補(bǔ)償nFG信號(hào)的最后256個(gè)樣本進(jìn)行交叉淡化以產(chǎn)生大小為1024乘2的經(jīng)量化補(bǔ)償nFG信號(hào)60。
可相對(duì)于任何數(shù)目個(gè)不同情形及音頻生態(tài)系統(tǒng)執(zhí)行前述技術(shù)。下文描述多個(gè)實(shí)例情形,但所述技術(shù)不應(yīng)限于所述實(shí)例情形。一個(gè)實(shí)例音頻生態(tài)系統(tǒng)可包含音頻內(nèi)容、電影工作室、音樂(lè)工作室、游戲音頻工作室、基于信道的音頻內(nèi)容、譯碼引擎、游戲音頻原聲、游戲音頻譯碼/再現(xiàn)引擎,以及遞送系統(tǒng)。
電影工作室、音樂(lè)工作室及游戲音頻工作室可接收音頻內(nèi)容。在一些實(shí)例中,音頻內(nèi)容可表示獲取的輸出。電影工作室可例如通過(guò)使用數(shù)字音頻工作站(DAW)輸出基于信道的音頻內(nèi)容(例如,呈2.0、5.1及7.1)。音樂(lè)工作室可例如通過(guò)使用DAW輸出基于信道的音頻內(nèi)容(例如,呈2.0及5.1)。在任一情況下,譯碼引擎可基于一或多個(gè)編解碼器(例如,AAC、AC3、Dolby True HD、Dolby Digital Plus及DTS Master Audio)接收并編碼基于信道的音頻內(nèi)容以供傳遞系統(tǒng)輸出。游戲音頻工作室可例如通過(guò)使用DAW輸出一或多個(gè)游戲音頻原聲。游戲音頻譯碼/再現(xiàn)引擎可譯碼音頻原聲及或?qū)⒁纛l原聲再現(xiàn)成基于信道的音頻內(nèi)容以供傳遞系統(tǒng)輸出。可執(zhí)行所述技術(shù)的另一實(shí)例情形包括音頻生態(tài)系統(tǒng),其可包含廣播記錄音頻對(duì)象、專業(yè)音頻系統(tǒng)、消費(fèi)型裝置上捕獲、HOA音頻格式、裝置上再現(xiàn)、消費(fèi)型音頻、TV及附件及汽車音頻系統(tǒng)。
廣播記錄音頻對(duì)象、專業(yè)音頻系統(tǒng)及消費(fèi)型裝置上捕獲都可使用HOA音頻格式對(duì)其輸出進(jìn)行譯碼。以此方式,可使用HOA音頻格式將音頻內(nèi)容譯碼成單一表示,可使用裝置上再現(xiàn)、消費(fèi)型音頻、TV及附件及汽車音頻系統(tǒng)重放所述單一表示。換句話說(shuō),可在通用音頻重放系統(tǒng)(即,與需要例如5.1、7.1等的特定配置相比)(例如,音頻重放系統(tǒng)16)處重放音頻內(nèi)容的單一表示。
可執(zhí)行所述技術(shù)的情形的其它實(shí)例包含可包含獲取元件及重放元件的音頻生態(tài)系統(tǒng)。獲取元件可包含有線及/或無(wú)線獲取裝置(例如,本征麥克風(fēng))、裝置上環(huán)繞聲捕獲及移動(dòng)裝置(例如,智能電話及平板計(jì)算機(jī))。在一些實(shí)例中,有線及/或無(wú)線獲取裝置可經(jīng)由有線及/或無(wú)線通信信道耦合到移動(dòng)裝置。
根據(jù)本發(fā)明的一或多個(gè)技術(shù),移動(dòng)裝置可用于獲取聲場(chǎng)。舉例來(lái)說(shuō),移動(dòng)裝置可經(jīng)由有線及/或無(wú)線獲取裝置及/或裝置上環(huán)繞聲捕獲(例如,集成到移動(dòng)裝置中的多個(gè)麥克風(fēng))獲取聲場(chǎng)。移動(dòng)裝置可接著將所獲取聲場(chǎng)譯碼成HOA系數(shù)以用于由重放元件中的一或多者重放。舉例來(lái)說(shuō),移動(dòng)裝置的用戶可記錄實(shí)況事件(例如,集會(huì)、會(huì)議、比賽、音樂(lè)會(huì)等)(獲取實(shí)況事件的聲場(chǎng)),且將記錄譯碼至HOA系數(shù)中。
移動(dòng)裝置還可利用重放元件中的一或多者來(lái)重放經(jīng)HOA譯碼聲場(chǎng)。舉例來(lái)說(shuō),移動(dòng)裝置可對(duì)經(jīng)HOA譯碼的聲場(chǎng)進(jìn)行解碼,且將致使重放元件中的一或多者重新產(chǎn)生聲場(chǎng)的信號(hào)輸出到重放元件中的一或多者。作為一個(gè)實(shí)例,移動(dòng)裝置可利用無(wú)線及/或無(wú)線通信信道將信號(hào)輸出到一或多個(gè)揚(yáng)聲器(例如,揚(yáng)聲器陣列、聲棒等)。作為另一實(shí)例,移動(dòng)裝置可利用對(duì)接解決方案將信號(hào)輸出到一或多個(gè)對(duì)接站及/或一或多個(gè)對(duì)接揚(yáng)聲器(例如,智能汽車及/或家庭中的聲音系統(tǒng))。作為另一實(shí)例,移動(dòng)裝置可利用頭戴式耳機(jī)再現(xiàn)將信號(hào)輸出到一組頭戴式耳機(jī)(例如)以產(chǎn)生實(shí)際的立體聲聲音。
在一些實(shí)例中,特定移動(dòng)裝置可獲取3D聲場(chǎng)并且在稍后時(shí)間重放同一3D聲場(chǎng)。在一些實(shí)例中,移動(dòng)裝置可獲取3D聲場(chǎng),將3D聲場(chǎng)編碼為HOA且將經(jīng)編碼3D聲場(chǎng)發(fā)射到一或多個(gè)其它裝置(例如,其它移動(dòng)裝置及/或其它非移動(dòng)裝置)以用于重放。
可執(zhí)行所述技術(shù)的又一情形包含音頻生態(tài)系統(tǒng),其可包含音頻內(nèi)容、游戲工作室、經(jīng)譯碼音頻內(nèi)容、再現(xiàn)引擎及傳遞系統(tǒng)。在一些實(shí)例中,游戲工作室可包含可支持HOA信號(hào)的編輯的一或多個(gè)DAW。舉例來(lái)說(shuō),所述一或多個(gè)DAW可包含可經(jīng)配置以與一或多個(gè)游戲音頻系統(tǒng)一起操作(例如,工作)的HOA插件及/或工具。在一些實(shí)例中,游戲工作室可輸出支持HOA的新原聲格式。在任何情況下,游戲工作室可將經(jīng)譯碼音頻內(nèi)容輸出到再現(xiàn)引擎,所述再現(xiàn)引擎可再現(xiàn)聲場(chǎng)以供傳遞系統(tǒng)重放。
也可相對(duì)于示范性音頻獲取裝置執(zhí)行所述技術(shù)。舉例來(lái)說(shuō),可相對(duì)于可包含共同地經(jīng)配置以記錄3D聲場(chǎng)的多個(gè)麥克風(fēng)的本征麥克風(fēng)執(zhí)行所述技術(shù)。在一些實(shí)例中,本征麥克風(fēng)的所述多個(gè)麥克風(fēng)可位于具有大約4cm的半徑的實(shí)質(zhì)上球面球的表面上。在一些實(shí)例中,音頻編碼裝置20可集成到本征麥克風(fēng)中以便直接從麥克風(fēng)輸出位流21。
另一示范性音頻獲取情形可包含可經(jīng)配置以從一或多個(gè)麥克風(fēng)(例如,一或多個(gè)本征麥克風(fēng))接收信號(hào)的制作車。制作車還可包含音頻編碼器,例如圖3的音頻編碼裝置20。
在一些情況下,移動(dòng)裝置還可包含共同地經(jīng)配置以記錄3D聲場(chǎng)的多個(gè)麥克風(fēng)。換句話說(shuō),所述多個(gè)麥克風(fēng)可具有X、Y、Z分集。在一些實(shí)例中,移動(dòng)裝置可包含可旋轉(zhuǎn)以相對(duì)于移動(dòng)裝置的一或多個(gè)其它麥克風(fēng)提供X、Y、Z分集的麥克風(fēng)。移動(dòng)裝置還可包含音頻編碼器,例如圖3的音頻編碼裝置20。
加固型視頻捕獲裝置可進(jìn)一步經(jīng)配置以記錄3D聲場(chǎng)。在一些實(shí)例中,加固型視頻捕獲裝置可附接到參與活動(dòng)的用戶的頭盔。舉例來(lái)說(shuō),加固型視頻捕獲裝置可在用戶泛舟時(shí)附接到用戶的頭盔。以此方式,加固型視頻捕獲裝置可捕獲表示用戶周圍的動(dòng)作(例如,水在用戶身后的撞擊、另一泛舟者在用戶前方說(shuō)話等)的3D聲場(chǎng)。
還可相對(duì)于可經(jīng)配置以記錄3D聲場(chǎng)的附件增強(qiáng)型移動(dòng)裝置執(zhí)行所述技術(shù)。在一些實(shí)例中,移動(dòng)裝置可類似于上文所論述的移動(dòng)裝置,其中添加一或多個(gè)附件。舉例來(lái)說(shuō),本征麥克風(fēng)可附接到上文所提及的移動(dòng)裝置以形成附件增強(qiáng)型移動(dòng)裝置。以此方式,附件增強(qiáng)型移動(dòng)裝置可捕獲3D聲場(chǎng)的較高質(zhì)量版本,而不是僅使用與附件增強(qiáng)型移動(dòng)裝置成一體式的聲音捕獲組件。
下文進(jìn)一步論述可執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的實(shí)例音頻重放裝置。根據(jù)本發(fā)明的一或多個(gè)技術(shù),揚(yáng)聲器及/或聲棒在重放3D聲場(chǎng)時(shí)可布置于任何任意配置中。此外,在一些實(shí)例中,頭戴受話器重放裝置可經(jīng)由有線或無(wú)線連接耦合到音頻解碼裝置24。根據(jù)本發(fā)明的一或多個(gè)技術(shù),可利用聲場(chǎng)的單一通用表示來(lái)在揚(yáng)聲器、聲棒及頭戴式耳機(jī)重放裝置的任何組合上再現(xiàn)聲場(chǎng)。
多個(gè)不同實(shí)例音頻重放環(huán)境還可適合于執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面。舉例來(lái)說(shuō),以下環(huán)境可為用于執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的合適環(huán)境:5.1揚(yáng)聲器重放環(huán)境、2.0(例如,立體聲)揚(yáng)聲器重放環(huán)境、具有全高前擴(kuò)音器的9.1揚(yáng)聲器重放環(huán)境、22.2揚(yáng)聲器重放環(huán)境、16.0揚(yáng)聲器重放環(huán)境、汽車揚(yáng)聲器重放環(huán)境,及具有耳機(jī)重放環(huán)境的移動(dòng)裝置。
根據(jù)本發(fā)明的一或多個(gè)技術(shù),可利用聲場(chǎng)的單一通用表示來(lái)在前述重放環(huán)境中的任一者上再現(xiàn)聲場(chǎng)。另外,本發(fā)明的技術(shù)使得再現(xiàn)器能夠從通用表示再現(xiàn)聲場(chǎng)以供在除上文所描述的環(huán)境之外的重放環(huán)境上重放。舉例來(lái)說(shuō),如果設(shè)計(jì)考慮禁止揚(yáng)聲器根據(jù)7.1揚(yáng)聲器重放環(huán)境的恰當(dāng)置放(例如,如果不可能置放右環(huán)繞揚(yáng)聲器),那么本發(fā)明的技術(shù)使得再現(xiàn)器能夠以其它6個(gè)揚(yáng)聲器進(jìn)行補(bǔ)償,使得可在6.1揚(yáng)聲器重放環(huán)境上實(shí)現(xiàn)重放。
此外,用戶可在佩戴頭戴式受話器時(shí)觀看運(yùn)動(dòng)比賽。根據(jù)本發(fā)明的一或多個(gè)技術(shù),可獲取運(yùn)動(dòng)比賽的3D聲場(chǎng)(例如,可將一或多個(gè)本征麥克風(fēng)放置于棒球場(chǎng)中及/或周圍),可獲得對(duì)應(yīng)于3D聲場(chǎng)的HOA系數(shù)且將所述HOA系數(shù)發(fā)射到解碼器,所述解碼器可基于HOA系數(shù)重構(gòu)3D聲場(chǎng)且將經(jīng)重構(gòu)3D聲場(chǎng)輸出到再現(xiàn)器,并且所述再現(xiàn)器可獲得關(guān)于重放環(huán)境的類型(例如,頭戴式耳機(jī))的指示,且將經(jīng)重構(gòu)3D聲場(chǎng)再現(xiàn)成致使頭戴式耳機(jī)輸出運(yùn)動(dòng)比賽的3D聲場(chǎng)的表示的信號(hào)。
在上述各種實(shí)例中的每一者中,應(yīng)理解,音頻編碼裝置20可執(zhí)行方法,或另外包括執(zhí)行音頻編碼裝置20經(jīng)配置以執(zhí)行的方法的每一步驟的裝置。在一些情況下,所述裝置可包括一或多個(gè)處理器。在一些情況下,所述一或多個(gè)處理器可表示借助于存儲(chǔ)到非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體的指令配置的專用處理器。換句話說(shuō),編碼實(shí)例的集合中的每一者中的技術(shù)的各種方面可提供其上存儲(chǔ)有指令的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體,所述指令在執(zhí)行時(shí)致使所述一或多個(gè)處理器執(zhí)行音頻編碼裝置20已經(jīng)配置以執(zhí)行的方法。
在一或多個(gè)實(shí)例中,所描述的功能可在硬件、軟件、固件或其任何組合中實(shí)施。如果以軟件實(shí)施,那么所述功能可以作為一或多個(gè)指令或代碼在計(jì)算機(jī)可讀媒體上存儲(chǔ)或傳輸,并且由基于硬件的處理單元來(lái)執(zhí)行。計(jì)算機(jī)可讀媒體可包含計(jì)算機(jī)可讀存儲(chǔ)媒體,其對(duì)應(yīng)于例如數(shù)據(jù)存儲(chǔ)媒體等有形媒體。數(shù)據(jù)存儲(chǔ)媒體可為可由一或多個(gè)計(jì)算機(jī)或者一或多個(gè)處理器存取以檢索用于實(shí)施本發(fā)明中描述的技術(shù)的指令、代碼及/或數(shù)據(jù)結(jié)構(gòu)的任何可用媒體。計(jì)算機(jī)程序產(chǎn)品可以包含計(jì)算機(jī)可讀媒體。
同樣,在上文所描述的各種情況中的每一者中,應(yīng)理解,音頻解碼裝置24可執(zhí)行方法或另外包括用于執(zhí)行音頻解碼裝置24經(jīng)配置以執(zhí)行的方法的每一步驟的裝置。在一些情況下,所述裝置可包括一或多個(gè)處理器。在一些情況下,所述一或多個(gè)處理器可表示借助于存儲(chǔ)到非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體的指令配置的專用處理器。換句話說(shuō),編碼實(shí)例的集合中的每一者中的技術(shù)的各種方面可提供其上存儲(chǔ)有指令的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)媒體,所述指令在執(zhí)行時(shí)致使所述一或多個(gè)處理器執(zhí)行音頻解碼裝置24已經(jīng)配置以執(zhí)行的方法。
借助于實(shí)例而非限制,此類計(jì)算機(jī)可讀存儲(chǔ)媒體可包括RAM、ROM、EEPROM、CD-ROM或其它光盤存儲(chǔ)裝置、磁盤存儲(chǔ)裝置或其它磁性存儲(chǔ)裝置、快閃存儲(chǔ)器或可以用來(lái)存儲(chǔ)指令或數(shù)據(jù)結(jié)構(gòu)的形式的期望程序代碼并且可以由計(jì)算機(jī)存取的任何其它媒體。然而,應(yīng)理解,所述計(jì)算機(jī)可讀存儲(chǔ)媒體和數(shù)據(jù)存儲(chǔ)媒體并不包含連接、載波、信號(hào)或其它暫時(shí)性媒體,而是實(shí)際上針對(duì)非暫時(shí)性的有形存儲(chǔ)媒體。如本文中所使用,磁盤和光盤包含壓縮光盤(CD)、激光光盤、光學(xué)光盤、數(shù)字多功能光盤(DVD)、軟性磁盤和藍(lán)光光盤,其中磁盤通常以磁性方式再現(xiàn)數(shù)據(jù),而光盤利用激光以光學(xué)方式再現(xiàn)數(shù)據(jù)。以上各項(xiàng)的組合也應(yīng)包含在計(jì)算機(jī)可讀媒體的范圍內(nèi)。
可由例如一或多個(gè)數(shù)字信號(hào)處理器(DSP)、通用微處理器、專用集成電路(ASIC)、現(xiàn)場(chǎng)可編程邏輯陣列(FPGA)或其它等效集成或離散邏輯電路等一或多個(gè)處理器來(lái)執(zhí)行指令。因此,如本文中所使用的術(shù)語(yǔ)“處理器”可指前述結(jié)構(gòu)或適合于實(shí)施本文中所描述的技術(shù)的任一其它結(jié)構(gòu)中的任一者。另外,在一些方面中,本文中所描述的功能性可以在經(jīng)配置用于編碼和解碼的專用硬件和/或軟件模塊內(nèi)提供,或者并入在組合編解碼器中。而且,所述技術(shù)可完全實(shí)施于一或多個(gè)電路或邏輯元件中。
本發(fā)明的技術(shù)可在廣泛多種裝置或設(shè)備中實(shí)施,包括無(wú)線手持機(jī)、集成電路(IC)或一組IC(例如,芯片組)。本發(fā)明中描述各種組件、模塊或單元是為了強(qiáng)調(diào)經(jīng)配置以執(zhí)行所公開(kāi)的技術(shù)的裝置的功能方面,但未必需要由不同硬件單元實(shí)現(xiàn)。實(shí)際上,如上文所描述,各種單元可以結(jié)合合適的軟件及/或固件組合在編碼解碼器硬件單元中,或者通過(guò)互操作硬件單元的集合來(lái)提供,所述硬件單元包含如上文所描述的一或多個(gè)處理器。
已經(jīng)描述了所述技術(shù)的各種方面。所述技術(shù)的這些和其它方面在所附權(quán)利要求書(shū)的范圍內(nèi)。