亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

較高階立體混響信號之間的交叉淡化的制作方法

文檔序號:12167533閱讀:544來源:國知局
較高階立體混響信號之間的交叉淡化的制作方法與工藝

2014年5月16日申請的標(biāo)題為“較高階立體混響信號之間的交叉淡化(CROSSFADING BETWEEN HIGHER ORDER AMBISONIC SIGNALS)”的第61/994,763號美國臨時申請案;

2014年5月28日申請的標(biāo)題為“較高階立體混響信號之間的交叉淡化”的第62/004,076號美國臨時申請案;以及

2015年2月19日申請的標(biāo)題為“較高階立體混響信號之間的交叉淡化”的第62/118,434號美國臨時申請案,

前述所列各美國臨時申請案中的每一者以引用的方式并入本文中,如同在其相應(yīng)全文中所闡述般。

技術(shù)領(lǐng)域

本發(fā)明涉及音頻數(shù)據(jù),且更確切地說,涉及高階立體混響音頻數(shù)據(jù)的譯碼。



背景技術(shù):

較高階立體混響(HOA)信號(常由多個球諧系數(shù)(SHC)或其它階層元素表示)是聲場的三維表示。此HOA或SHC表示可以獨立于用以重放從此SHC信號再現(xiàn)的多信道音頻信號的局部揚聲器幾何布置的方式來表示此聲場。此SHC信號還可促進向后相容性,因為可將此SHC信號再現(xiàn)為眾所周知的且被廣泛采用的多信道格式(例如,5.1音頻信道格式或7.1音頻信道格式)。SHC表示因此可實現(xiàn)對聲場的更好表示,其也適應(yīng)向后兼容性。



技術(shù)實現(xiàn)要素:

大體上描述用于在環(huán)境HOA系數(shù)之間進行交叉淡化的技術(shù)。舉例來說,描述用于在能量補償域中在環(huán)境HOA系數(shù)的當(dāng)前集合與環(huán)境HOA系數(shù)的前一集合之間進行交叉淡化的技術(shù)。以此方式,本發(fā)明的技術(shù)可使環(huán)境HOA系數(shù)的前一集合與環(huán)境HOA系數(shù)的當(dāng)前集合之間的轉(zhuǎn)變平滑。

在一個方面中,一種方法包含:由裝置在環(huán)境球諧系數(shù)(SHC)的第一集合與環(huán)境SHC的第二集合之間進行交叉淡化以獲得經(jīng)交叉淡化環(huán)境SHC的第一集合,其中SHC的所述第一集合描述第一聲場且SHC的所述第二集合描述第二聲場。

在另一方面,一種裝置包含:一或多個處理器;以及至少一個模塊,其可由所述一或多個處理器執(zhí)行以在環(huán)境SHC的第一集合與環(huán)境SHC的第二集合之間進行交叉淡化以獲得經(jīng)交叉淡化環(huán)境SHC的第一集合,其中SHC的所述第一集合描述第一聲場且SHC的所述第二集合描述第二聲場。

在另一方面,一種裝置包含:用于獲得環(huán)境SHC的第一集合的裝置,其中SHC的所述第一集合描述第一聲場;用于獲得環(huán)境SHC的第二集合的裝置,其中SHC的所述第二集合描述第二聲場;以及用于在環(huán)境SHC的第一集合與環(huán)境SHC的第二集合之間進行交叉淡化以獲得經(jīng)交叉淡化環(huán)境SHC的第一集合的裝置。

在另一方面,一種計算機可讀存儲媒體存儲指令,所述指令當(dāng)執(zhí)行時致使裝置的一或多個處理器在環(huán)境SHC的第一集合與環(huán)境SHC的第二集合之間進行交叉淡化以獲得經(jīng)交叉淡化環(huán)境SHC的第一集合,其中SHC的所述第一集合描述第一聲場且SHC的所述第二集合描述第二聲場。

在另一方面,一種方法包括:由裝置在球諧系數(shù)(SHC)的第一集合與SHC的第二集合之間進行交叉淡化以獲得經(jīng)交叉淡化SHC的第一集合,其中SHC的所述第一集合描述第一聲場且SHC的所述第二集合描述第二聲場。

在另一方面,一種音頻解碼裝置包括存儲器,其經(jīng)配置以存儲球諧系數(shù)(SHC)的第一集合和SHC的第二集合,其中SHC的所述第一集合描述第一聲場且SHC的所述第二集合描述第二聲場。所述音頻解碼裝置進一步包括一或多個處理器,其經(jīng)配置以在SHC的所述第一集合與SHC的第二集合之間進行交叉淡化以獲得經(jīng)交叉淡化環(huán)境SHC的第一集合。

在另一方面,一種音頻編碼裝置包括存儲器,其經(jīng)配置以存儲球諧系數(shù)(SHC)的第一集合和SHC的第二集合,其中SHC的所述第一集合描述第一聲場且SHC的所述第二集合描述第二聲場。所述音頻編碼裝置還包括一或多個處理器,其經(jīng)配置以在SHC的所述第一集合與SHC的第二集合之間進行交叉淡化以獲得經(jīng)交叉淡化SHC的第一集合。

在另一方面,一種設(shè)備包括:用于存儲球諧系數(shù)(SHC)的第一集合和SHC的第二集合的裝置,其中SHC的所述第一集合描述第一聲場且SHC的所述第二集合描述第二聲場;以及用于在SHC的所述第一集合與SHC的第二集合之間進行交叉淡化以獲得經(jīng)交叉淡化SHC的第一集合的裝置。

在附圖和以下描述中陳述所述技術(shù)的一或多個方面的細節(jié)。這些技術(shù)的其它特征、目標(biāo)及優(yōu)點將從所述描述及圖式以及所附權(quán)利要求書中顯而易見。

附圖說明

圖1是說明具有各種階數(shù)及子階數(shù)的球諧基底函數(shù)的圖。

圖2是說明可執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的系統(tǒng)的圖。

圖3為更詳細說明可執(zhí)行本發(fā)明中描述的技術(shù)的各種方面的圖2的實例中所示的音頻編碼裝置的一個實例的框圖。

圖4是更詳細說明圖2的音頻解碼裝置的框圖。

圖5是說明音頻編碼裝置執(zhí)行本發(fā)明中所描述的基于向量的合成技術(shù)的各種方面的示范性操作的流程圖。

圖6是說明音頻解碼裝置在執(zhí)行本發(fā)明中描述的技術(shù)的各種方面中的示范性操作的流程圖。

圖7和8是更詳細說明可指定壓縮空間分量的位流的圖。

圖9是更詳細說明可指定壓縮空間分量的位流的一部分的圖。

圖10說明用于獲得如本文所描述的空間-時間內(nèi)插的技術(shù)的表示。

圖11是說明根據(jù)本文所述的技術(shù)的用于多維信號的依序SVD塊的人工US矩陣(US1及US2)的框圖。

圖12是說明根據(jù)本發(fā)明中所描述的技術(shù)使用奇異值分解及空間時間分量的平滑來分解較高階立體混響(HOA)信號的后續(xù)幀的框圖。

圖13是說明經(jīng)配置以執(zhí)行本發(fā)明中描述的一或多個技術(shù)的一或多個音頻編碼器和音頻解碼器的圖。

圖14是更詳細說明圖3的實例中所示的音頻編碼裝置的交叉淡化單元的框圖。

具體實施方式

環(huán)繞聲的演進現(xiàn)今已使得許多輸出格式可用于娛樂。此等消費型環(huán)繞聲格式的實例大部分為“信道”式的,這是因為其以某些幾何坐標(biāo)隱含地指定到擴音器的饋入。消費型環(huán)繞聲格式包含普遍的5.1格式(其包含以下六個信道:左前(FL)、右前(FR)、中心或前中心、左后或左環(huán)繞、右后或右環(huán)繞,及低頻效應(yīng)(LFE))、發(fā)展中的7.1格式、包含高度揚聲器的各種格式,例如7.1.4格式及22.2格式(例如,用于供超高清晰電視標(biāo)準(zhǔn)使用)。非消費型格式可涵括任何數(shù)目的揚聲器(成對稱和非對稱幾何形狀),其常常稱為“環(huán)繞陣列”。此種陣列的一個實例包含定位在截角二十面體的拐角上的坐標(biāo)處的32個擴音器。

到未來MPEG編碼器的輸入視情況為三個可能格式中的一者:(i)傳統(tǒng)的基于信道的音頻(如上文所論述),其意圖由處于預(yù)先指定的位置處的擴音器重放;(ii)基于對象的音頻,其涉及用于單個音頻對象的具有含有其位置坐標(biāo)(以及其它信息)的相關(guān)聯(lián)元數(shù)據(jù)的離散脈碼調(diào)制(PCM)數(shù)據(jù);及(iii)基于場景的音頻,其涉及使用球面諧波基底函數(shù)的系數(shù)(也稱為“球諧系數(shù)”或SHC、“較高階立體混響”或HOA及“HOA系數(shù)”)來表示聲場。此未來MPEG編碼器更詳細地描述于國際標(biāo)準(zhǔn)化組織/國際電工委員會(ISO)/(IEC)JTC1/SC29/WG11/N13411的標(biāo)題為“要求對于3D音頻的提議(Call for Proposals for 3D Audio)”的文獻中,該文獻于2013年1月在瑞士日內(nèi)瓦發(fā)布,且可在http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip獲得。

在市場中存在各種“環(huán)繞聲”基于信道的格式。它們的范圍(例如)是從5.1家庭影院系統(tǒng)(其在使起居室享有立體聲方面已獲得最大成功)到NHK(日本廣播協(xié)會或日本廣播公司)所開發(fā)的22.2系統(tǒng)。內(nèi)容創(chuàng)建者(例如,好萊塢工作室)將希望產(chǎn)生電影的聲軌一次,而不花費精力來針對每一揚聲器配置對其進行重混。近來,標(biāo)準(zhǔn)開發(fā)組織(Standards Developing Organizations)一直在考慮如下方式:提供到標(biāo)準(zhǔn)化位流中的編碼,以及后續(xù)解碼,其可調(diào)適且不知曉重放位置(涉及再現(xiàn)器)處的揚聲器幾何形狀(和數(shù)目)以及聲學(xué)條件。

為向內(nèi)容創(chuàng)建者提供此種靈活性,可使用分層要素集合來表示聲場。所述階層元素集合可指其中元素經(jīng)排序以使得較低階元素的基礎(chǔ)集合提供模型化聲場的完整表示的元素集合。在所述集合擴展以包含高階元素時,所述表示變得更詳細,從而增加分辨率。

階層元素集合的一個實例為球諧系數(shù)(SHC)的集合。以下表達式示范使用SHC對聲場的描述或表示:

所述表達式展示了在時間t處在聲場的任一點處的壓力pi可以通過SHC,唯一地表示。此處,c是聲速(~343m/s),是參考點(或觀察點),jn(·)是階數(shù)n的球面貝塞爾函數(shù),且是階數(shù)n且子階數(shù)m的球面諧波基底函數(shù)??梢哉J(rèn)識到,在方括號中的項是信號的頻域表示(即,),其可由各種時頻變換近似表示,例如離散傅里葉變換(DFT)、離散余弦變換(DCT)或小波變換。階層集合的其它實例包含小波變換系數(shù)的集合和多分辨率基底函數(shù)的系數(shù)的其它集合。

圖1是說明從零階(n=0)到四階(n=4)的球諧基底函數(shù)的圖。如可看出,對于每一階,存在子階m的擴展,出于易于說明的目的,在圖1的實例中展示所述子階但未明確注釋。

SHC可由各種麥克風(fēng)陣列配置物理獲取(例如,記錄),或者,其可從聲場的基于信道或基于對象的描述導(dǎo)出。SHC表示基于場景的音頻,其中SHC可輸入到音頻編碼器以獲得經(jīng)編碼SHC,所述經(jīng)編碼SHC可促成更有效的發(fā)射或存儲。舉例來說,可使用涉及(1+4)2個(25,且因此為第四階)系數(shù)的四階表示。

如上文所指出,可使用麥克風(fēng)陣列從麥克風(fēng)記錄導(dǎo)出SHC??扇绾螐柠溈孙L(fēng)陣列導(dǎo)出SHC的各種實例描述于波萊蒂·M(Poletti,M)的“基于球面諧波的三維環(huán)繞聲系統(tǒng)(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(聽覺工程學(xué)協(xié)會會刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004-1025頁)中。

為說明可如何從基于對象的描述導(dǎo)出SHC,考慮以下等式。用于對應(yīng)于個別音頻對象的聲場的系數(shù)可以表達為:

其中i是是階數(shù)n的球面漢克爾函數(shù)(第二種),且是對象的位置。知道對象源能量g(ω)為頻率的函數(shù)(例如,使用時頻分析技術(shù),例如對PCM流執(zhí)行快速傅立葉變換)允許我們將每一PCM對象和對應(yīng)位置轉(zhuǎn)換為SHC此外可展示(因為以上是線性且正交分解)用于每一對象的系數(shù)是加性的。以此方式,大量PCM對象可以由系數(shù)表示(例如,作為用于個別對象的系數(shù)向量的總和)。基本上,所述系數(shù)含有關(guān)于聲場的信息(隨著3D坐標(biāo)而變的壓力),且以上表示在觀測點附近從個別對象到總體聲場的表示的變換。下文在基于對象和基于SHC的音頻譯碼的上下文中描述其余各圖。

圖2是說明可執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的系統(tǒng)10的圖。如圖2的實例中所示,系統(tǒng)10包含內(nèi)容創(chuàng)建者裝置12和內(nèi)容消費者裝置14。盡管在內(nèi)容創(chuàng)建者裝置12和內(nèi)容消費者裝置14的上下文中描述,但可在其中聲場的SHC(其也可稱為HOA系數(shù))或任何其它階層表示經(jīng)編碼以形成表示音頻數(shù)據(jù)的位流的任何上下文中實施所述技術(shù)。此外,內(nèi)容創(chuàng)建者裝置12可表示能夠?qū)嵤┍景l(fā)明中所描述的技術(shù)的任何形式的計算裝置,包含手持機(或蜂窩式電話)、平板計算機、智能電話或桌上型計算機(提供幾個實例)。同樣,內(nèi)容消費者裝置14可表示能夠?qū)嵤┍景l(fā)明中所描述的技術(shù)的任何形式的計算裝置,包含手持機(或蜂窩式電話)、平板計算機、智能電話、機頂盒,或桌上型計算機(提供幾個實例)。

內(nèi)容創(chuàng)建者裝置12可由電影工作室或可產(chǎn)生多信道音頻內(nèi)容以供內(nèi)容消費者裝置(例如,內(nèi)容消費者裝置14)的操作者消耗的其它實體來操作。在一些實例中,內(nèi)容創(chuàng)建者裝置12可由將希望壓縮HOA系數(shù)11的個別用戶操作。內(nèi)容創(chuàng)建者通常產(chǎn)生音頻內(nèi)容與視頻內(nèi)容。內(nèi)容消費者裝置14可由個人操作。內(nèi)容消費者裝置14可包含音頻重放系統(tǒng)16,其可指能夠再現(xiàn)SHC以供作為多信道音頻內(nèi)容重放的任何形式的音頻重放系統(tǒng)。

內(nèi)容創(chuàng)建者裝置12包含音頻編輯系統(tǒng)18。內(nèi)容創(chuàng)建者裝置12獲得各種格式(包含直接作為HOA系數(shù))的實況記錄7和音頻對象9,內(nèi)容創(chuàng)建者裝置12可使用音頻編輯系統(tǒng)18對其進行編輯。麥克風(fēng)5可俘獲實況記錄7。內(nèi)容創(chuàng)建者可在編輯過程期間再現(xiàn)來自音頻對象9的HOA系數(shù)11,從而收聽所再現(xiàn)的揚聲器饋送以試圖識別需要進一步編輯的聲場的各個方面。內(nèi)容創(chuàng)建者裝置12可接著編輯HOA系數(shù)11(可能經(jīng)由操縱可以上文所描述的方式從中導(dǎo)出源HOA系數(shù)的音頻對象9中的不同者而間接地編輯)。內(nèi)容創(chuàng)建者裝置12可采用音頻編輯系統(tǒng)18來產(chǎn)生HOA系數(shù)11。音頻編輯系統(tǒng)18表示能夠編輯音頻數(shù)據(jù)且輸出所述音頻數(shù)據(jù)作為一或多個源球諧系數(shù)的任何系統(tǒng)。

當(dāng)編輯過程完成時,內(nèi)容創(chuàng)建者裝置12可基于HOA系數(shù)11產(chǎn)生位流21。也就是說,內(nèi)容創(chuàng)建者裝置12包含音頻編碼裝置20,其表示經(jīng)配置以根據(jù)本發(fā)明中描述的技術(shù)的各個方面編碼或以其它方式壓縮HOA系數(shù)11以產(chǎn)生位流21的裝置。音頻編碼裝置20可產(chǎn)生位流21以供(作為一個實例)跨越發(fā)射信道發(fā)射,所述發(fā)射信道可為有線或無線信道、數(shù)據(jù)存儲裝置等。位流21可表示HOA系數(shù)11的經(jīng)編碼版本,且可包含主要位流和另一旁側(cè)位流(其可稱為旁側(cè)信道信息)。

雖然在圖2中展示為直接發(fā)射到內(nèi)容消費者裝置14,但內(nèi)容創(chuàng)建者裝置12可將位流21輸出到位于內(nèi)容創(chuàng)建者裝置12與內(nèi)容消費者裝置14之間的中間裝置。中間裝置可存儲位流21以供稍后傳遞到可請求所述位流的內(nèi)容消費者裝置14。所述中間裝置可包括文件服務(wù)器、網(wǎng)絡(luò)服務(wù)器、桌上型計算機、膝上型計算機、平板計算機、移動電話、智能電話,或能夠存儲位流21以供音頻解碼器稍后檢索的任何其它裝置。中間裝置可駐留在能夠?qū)⑽涣?1(且可能結(jié)合發(fā)射對應(yīng)視頻數(shù)據(jù)位流)串流到請求位流21的訂戶(例如,內(nèi)容消費者裝置14)的內(nèi)容傳遞網(wǎng)絡(luò)中。

或者,內(nèi)容創(chuàng)建者裝置12可將位流21存儲到存儲媒體,例如壓縮光盤、數(shù)字視頻光盤、高清視頻光盤或其它存儲媒體,其中大多數(shù)能夠由計算機讀取且因此可稱為計算機可讀存儲媒體或非暫時性計算機可讀存儲媒體。在此上下文中,發(fā)射信道可指代借以發(fā)射存儲到媒體的內(nèi)容的信道(且可包含零售商店及其它基于商店的傳遞機構(gòu))。在任何情況下,本發(fā)明的技術(shù)因此就此而言不應(yīng)限于圖2的實例。

如圖2的實例中進一步所示,內(nèi)容消費者裝置14包含音頻重放系統(tǒng)16。音頻重放系統(tǒng)16可表示能夠重放多信道音頻數(shù)據(jù)的任何音頻重放系統(tǒng)。音頻重放系統(tǒng)16可包含若干不同再現(xiàn)器22。再現(xiàn)器22可各自提供不同形式的再現(xiàn),其中所述不同形式的再現(xiàn)可包含執(zhí)行基于向量的振幅平移(VBAP)的各種方式中的一或多者,和/或執(zhí)行聲場合成的各種方式中的一或多者。如本文所使用,“A和/或B”意味著“A或B”,或“A和B”兩者。

音頻重放系統(tǒng)16可進一步包含音頻解碼裝置24。音頻解碼裝置24可表示經(jīng)配置以解碼來自位流21的HOA系數(shù)11'的裝置,其中HOA系數(shù)11'可類似于HOA系數(shù)11但歸因于有損操作(例如,量化)和/或經(jīng)由發(fā)射信道的發(fā)射而不同。音頻重放系統(tǒng)16可隨后解碼位流21以獲得HOA系數(shù)11'且再現(xiàn)HOA系數(shù)11'以輸出擴音器饋送25。擴音器饋送25可驅(qū)動一或多個擴音器(其為便于說明的目的在圖2的實例中未圖示)。

為了選擇適當(dāng)再現(xiàn)器或在一些情況下產(chǎn)生適當(dāng)再現(xiàn)器,音頻重放系統(tǒng)16可獲得指示擴音器的數(shù)目和/或擴音器的空間幾何布置的擴音器信息13。在一些情況下,音頻重放系統(tǒng)16可使用參考麥克風(fēng)獲得擴音器信息13且以動態(tài)地確定擴音器信息13的方式驅(qū)動所述擴音器。在其它情況下或結(jié)合動態(tài)確定擴音器信息13,音頻重放系統(tǒng)16可提示用戶與音頻重放系統(tǒng)16介接并輸入擴音器信息13。

音頻重放系統(tǒng)16可隨后基于擴音器信息13選擇音頻再現(xiàn)器22中的一者。在一些情況下,在音頻再現(xiàn)器22中無一者處于至擴音器信息中所指定的擴音器幾何結(jié)構(gòu)的某一閾值相似性量度(就擴音器幾何結(jié)構(gòu)而言)內(nèi)時,音頻重放系統(tǒng)16可基于擴音器信息13產(chǎn)生音頻再現(xiàn)器22中的一者。音頻重放系統(tǒng)16可在一些情況下基于擴音器信息13產(chǎn)生音頻再現(xiàn)器22中的一者,而不首先嘗試選擇音頻再現(xiàn)器22中的現(xiàn)有一者。一或多個揚聲器3接著可重放經(jīng)再現(xiàn)的擴音器饋送25。

圖3為更詳細說明可執(zhí)行本發(fā)明中描述的技術(shù)的各種方面的圖2的實例中所示的音頻編碼裝置20的一個實例的框圖。音頻編碼裝置20包含內(nèi)容分析單元26、基于向量的分解單元27和基于方向的分解單元28。盡管下文簡要描述,但關(guān)于音頻編碼裝置20及壓縮或以其它方式編碼HOA系數(shù)的各種方面的更多信息可在2014年5月29日申請的標(biāo)題為“用于聲場的經(jīng)分解表示的內(nèi)插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099號國際專利申請公開案中獲得。

內(nèi)容分析單元26表示經(jīng)配置以分析HOA系數(shù)11的內(nèi)容以識別HOA系數(shù)11表示從實況記錄產(chǎn)生的內(nèi)容還是從音頻對象產(chǎn)生的內(nèi)容的單元。內(nèi)容分析單元26可確定HOA系數(shù)11是從實際聲場的記錄產(chǎn)生還是從人工音頻對象產(chǎn)生。在一些情況下,當(dāng)幀式HOA系數(shù)11是從記錄產(chǎn)生時,內(nèi)容分析單元26將HOA系數(shù)11傳遞到基于向量的分解單元27。在一些情況下,當(dāng)幀式HOA系數(shù)11是從合成音頻對象產(chǎn)生時,內(nèi)容分析單元26將HOA系數(shù)11傳遞到基于方向的合成單元28。基于方向的合成單元28可表示經(jīng)配置以執(zhí)行HOA系數(shù)11的基于方向的合成以產(chǎn)生基于方向的位流21的單元。

如在圖3的實例中所展示,基于向量的分解單元27可包含線性可逆變換(LIT)單元30、參數(shù)計算單元32、重排序單元34、前景選擇單元36、能量補償單元38、心理聲學(xué)音頻譯碼器單元40、位流產(chǎn)生單元42、聲場分析單元44、系數(shù)減少單元46、背景(BG)選擇單元48、空間-時間內(nèi)插單元50以及量化單元52。

線性可逆變換(LIT)單元30接收呈HOA信道形式的HOA 1111,每一信道表示與球面基底函數(shù)的給定階數(shù)、子階數(shù)相關(guān)聯(lián)的系數(shù)的塊或幀(其可表示為HOA[k],其中k可表示樣本的當(dāng)前幀或塊)。HOA系數(shù)11的矩陣可具有維度D:M×(N+1)2。

LIT單元30可表示經(jīng)配置以執(zhí)行被稱作奇異值分解的分析形式的單元。雖然相對于SVD加以描述,但可相對于提供數(shù)組線性不相關(guān)的能量密集輸出的任何類似變換或分解執(zhí)行本發(fā)明中所描述的技術(shù)。此外,在本發(fā)明中對“集合”的參考一般希望指代“非零”集合(除非特定地相反陳述),且并不希望指代包含所謂的“空集合”的集合的經(jīng)典數(shù)學(xué)定義。替代變換可包括常常被稱作“PCA”的主分量分析。取決于上下文,PCA可由若干不同名稱指代,例如離散卡亨南-洛維變換、霍特林變換、恰當(dāng)正交分解(POD)和本征值分解(EVD),僅舉幾例。有利于壓縮音頻數(shù)據(jù)的基本目標(biāo)的此種操作的特性為多信道音頻數(shù)據(jù)的“能量壓縮”和“去相關(guān)”。

在任何情況下,出于實例的目的,假定LIT單元30執(zhí)行奇異值分解(其再次可被稱作“SVD”),LIT單元30可將HOA系數(shù)11變換成兩個或更多個經(jīng)變換HOA系數(shù)的集合。經(jīng)變換HOA系數(shù)的“集合”可包含經(jīng)變換HOA系數(shù)的向量。在圖3的實例中,LIT單元30可相對于HOA系數(shù)11執(zhí)行SVD以產(chǎn)生所謂的V矩陣、S矩陣及U矩陣。在線性代數(shù)中,SVD可按如下形式表示y乘z實數(shù)或復(fù)數(shù)矩陣X(其中X可表示多信道音頻數(shù)據(jù),例如HOA系數(shù)11)的因子分解:

X=USV*

U可表示y乘y實數(shù)或復(fù)數(shù)單位矩陣,其中U的y列被稱為多信道音頻數(shù)據(jù)的左奇異向量。S可表示在對角線上具有非負實數(shù)的y乘z矩形對角線矩陣,其中S的對角線值被稱為多信道音頻數(shù)據(jù)的奇異值。V*(其可表示V的共軛轉(zhuǎn)置)可表示z乘z實數(shù)或復(fù)數(shù)單位矩陣,其中V*的z列被稱為多信道音頻數(shù)據(jù)的右奇異向量。

在一些實例中,以上提及的SVD數(shù)學(xué)表達式中的V*矩陣表示為V矩陣的共軛轉(zhuǎn)置以反映SVD可應(yīng)用于包括復(fù)數(shù)的矩陣。當(dāng)應(yīng)用于僅包括實數(shù)的矩陣時,V矩陣的復(fù)數(shù)共軛(或換句話說,V*矩陣)可被視為V矩陣的轉(zhuǎn)置。下文中為容易說明的目的,假定HOA系數(shù)11包括實數(shù),結(jié)果是經(jīng)由SVD而非V*矩陣輸出V矩陣。此外,盡管在本發(fā)明中表示為V矩陣,但對V矩陣的提及應(yīng)理解為在適當(dāng)?shù)那闆r下涉及V矩陣的轉(zhuǎn)置。盡管假定為V矩陣,但所述技術(shù)可以類似方式應(yīng)用于具有復(fù)數(shù)系數(shù)的HOA系數(shù)11,其中SVD的輸出為V*矩陣。因此,就此而言,所述技術(shù)不應(yīng)限于僅提供應(yīng)用SVD以產(chǎn)生V矩陣,而是可包含將SVD應(yīng)用于具有復(fù)數(shù)分量的HOA系數(shù)11以產(chǎn)生V*矩陣。

以此方式,LIT單元30可相對于HOA系數(shù)11執(zhí)行SVD以輸出具有維度D:M x(N+1)2的US[k]向量33(其可表示S向量及U向量的組合版本)及具有維度D:(N+1)2×(N+1)2的V[k]向量35。US[k]矩陣中的個別向量元素也可以被稱為XPS(k),而V[k]矩陣的個別向量也可以被稱為v(k)。

U、S及V矩陣的分析可顯示,這些矩陣攜載或表示上文由X表示的基本聲場的空間及時間特征。U(長度為M個樣本)中的N個向量中的每一者可表示依據(jù)時間(對于由M個樣本表示的時間周期)的經(jīng)正規(guī)化的分離音頻信號,其彼此正交且已與任何空間特性(其也可被稱作方向信息)解耦。表示空間形狀和位置的空間特性可實際上由V矩陣(長度(N+1)2的每一者)中的個別第i向量v(i)(k)表示。v(i)(k)向量中的每一者的個別元素可表示描述相關(guān)聯(lián)音頻對象的聲場的形狀(包含寬度)和位置的HOA系數(shù)。U矩陣和V矩陣中的向量均經(jīng)正規(guī)化而使得其均方根能量等于單位。U中的音頻信號的能量因而由S中的對角線元素表示。將U與S相乘以形成US[k](具有個別向量元素XPS(k)),因此表示具有能量的音頻信號。SVD分解使音頻時間信號(U中)、其能量(S中)與其空間特性(V中)解耦的能力可支持本發(fā)明中所描述的技術(shù)的各個方面。另外,通過US[k]與V[k]的向量乘法合成基本HOA[k]系數(shù)X的模型給出貫穿此文獻使用的術(shù)語“基于向量的分解”。

盡管描述為直接相對于HOA系數(shù)11執(zhí)行,但LIT單元30可將線性可逆變換應(yīng)用到HOA系數(shù)11的導(dǎo)出項。舉例來說,LIT單元30可相對于從HOA系數(shù)11導(dǎo)出的功率譜密度矩陣應(yīng)用SVD。通過相對于HOA系數(shù)的功率譜密度(PSD)而非系數(shù)本身執(zhí)行SVD,LIT單元30可在處理器循環(huán)及存儲空間的一或多者方面可能地降低執(zhí)行SVD的計算復(fù)雜性,同時實現(xiàn)相同的源音頻編碼效率,如同SVD是直接應(yīng)用于HOA系數(shù)一般。

參數(shù)計算單元32表示經(jīng)配置以計算各種參數(shù)的單元,所述參數(shù)例如相關(guān)性參數(shù)(R)、方向性質(zhì)參數(shù)及能量性質(zhì)(e)。用于當(dāng)前幀的參數(shù)中的每一者可表示為R[k]、θ[k]、r[k]及e[k]。參數(shù)計算單元32可相對于US[k]向量33執(zhí)行能量分析和/或相關(guān)(或所謂的交叉相關(guān))以識別這些參數(shù)。參數(shù)計算單元32還可確定先前幀的參數(shù),其中先前幀參數(shù)可基于具有US[k-1]向量及V[k-1]向量的先前幀表示為R[k-1]、θ[k-1]、r[k-1]及e[k-1]。參數(shù)計算單元32可將當(dāng)前參數(shù)37和先前參數(shù)39輸出到重排序單元34。

由參數(shù)計算單元32計算的參數(shù)可供重排序單元34用以將音頻對象重排序以表示其自然評估或隨時間推移的連續(xù)性。重排序單元34可逐輪地將來自第一US[k]向量33的參數(shù)37中的每一者與第二US[k-1]向量33的參數(shù)39中的每一者相比較。重排序單元34可基于當(dāng)前參數(shù)37及先前參數(shù)39對US[k]矩陣33及V[k]矩陣35內(nèi)的各種向量重排序(作為一個實例,使用匈牙利算法)以輸出經(jīng)重排序的US[k]矩陣33'(其可數(shù)學(xué)表示為)及經(jīng)重排序的V[k]矩陣35'(其可數(shù)學(xué)表示為)至前景聲音(或優(yōu)勢的聲音-PS)選擇單元36(“前景選擇單元36”)及能量補償單元38。

聲場分析單元44可表示經(jīng)配置以相對于HOA系數(shù)11執(zhí)行聲場分析以便有可能實現(xiàn)目標(biāo)位速率41的單元。聲場分析單元44可基于所述分析和/或基于所接收目標(biāo)位速率41,確定心理聲學(xué)譯碼器示例的總數(shù)目(其可為環(huán)境或背景信道的總數(shù)目(BGTOT)的函數(shù))和前景信道(或換句話說,占優(yōu)勢信道)的數(shù)目。心理聲學(xué)譯碼器示例的總數(shù)可表示為numHOATransportChannels。

再次為了潛在地實現(xiàn)目標(biāo)位速率41,聲場分析單元44還可確定前景信道的總數(shù)(nFG)45、背景(或換句話說,環(huán)境)聲場的最小階數(shù)(NBG或替代地,MinAmbHOAorder)、表示背景聲場的最小階數(shù)的實際信道的對應(yīng)數(shù)目(nBGa=(MinAmbHOAorder+1)2),及要發(fā)送的額外BG HOA信道的索引(i)(其在圖3的實例中可共同地表示為背景信道信息43)。背景信道信息42也可被稱作環(huán)境信道信息43。保持來自numHOATransportChannels-nBGa的信道中的每一者可為“額外背景/環(huán)境信道”、“作用中的基于向量的占優(yōu)勢信道”、“作用中的基于方向的占優(yōu)勢信號”或“完全非作用”。在一個方面中,可通過兩個位將信道類型指示為(如“ChannelType”)語法元素(例如,00:基于方向的信號;01:基于向量的占優(yōu)勢信號;10:額外環(huán)境信號;11:非作用信號)??捎?MinAmbHOAorder+1)2+索引10(在以上實例中)在用于所述幀的位流中作為信道類型出現(xiàn)的次數(shù)給出背景或環(huán)境信號的總數(shù)目nBGa。

聲場分析單元44可基于目標(biāo)位速率41選擇背景(或換句話說,環(huán)境)信道的數(shù)目及前景(或換句話說,占優(yōu)勢)信道的數(shù)目,從而在目標(biāo)位速率41相對較高時(例如,在目標(biāo)位速率41等于或大于512Kbps時)選擇更多背景及/或前景信道。在一個方面中,在位流的標(biāo)頭部分中,numHOATransportChannels可設(shè)定為8,而MinAmbHOAorder可設(shè)定為1。在此情境下,在每個幀處,四個信道可專用于表示聲場的背景或環(huán)境部分,而其它4個信道可逐幀地在信道類型上變化--例如,用作額外背景/環(huán)境信道或前景/占優(yōu)勢信道。前景/占優(yōu)勢信號可為基于向量或基于方向的信號中的一者,如上文所描述。

在一些情況下,用于幀的基于向量的占優(yōu)勢信號的總數(shù)目可通過ChannelType索引在所述幀的位流中是01的次數(shù)給出。在上述方面中,對于每個額外背景/環(huán)境信道(例如,對應(yīng)于ChannelType 10),可在所述信道中表示可能的HOA系數(shù)中的哪一者的對應(yīng)信息(超出前四)。對于四階HOA內(nèi)容,所述信息可為指示HOA系數(shù)5至25的索引。可在minAmbHOAorder設(shè)定為1時始終發(fā)送前四個環(huán)境HOA系數(shù)1至4,因此,音頻編碼裝置可能僅需要指示額外環(huán)境HOA系數(shù)中具有索引5至25中的一者。因而可使用5位語法元素(對于四階內(nèi)容)發(fā)送所述信息,其可表示為“CodedAmbCoeffIdx”。在任何情況下,聲場分析單元44將背景信道信息43、US[k]向量33和V[k]向量35輸出到基于向量的合成單元27B的一或多個其它組件,例如BG選擇單元48B。

背景選擇單元48可表示經(jīng)配置以基于背景信道信息(例如,背景聲場(NBG)及要發(fā)送的額外BG HOA信道的數(shù)目(nBGa)及索引(i))確定背景或環(huán)境VBG[k]向量35BG的單元。舉例來說,當(dāng)NBG等于一時,背景選擇單元48可將用于具有等于或小于一的階的音頻幀的每一樣本的V[k]向量35選擇為VBG[k]向量35BG。在此實例中,背景選擇單元48可接著選擇具有由索引(i)中的一者識別的索引的V[k]向量35作為額外VBG[k]向量35BG,其中將待于位流21中指定的nBGa提供到位流產(chǎn)生單元42以便使得音頻解碼裝置(例如,圖4的實例中所展示的音頻解碼裝置24)能夠從位流21剖析背景HOA系數(shù)47。背景選擇單元48接著可將VBG[k]向量35BG輸出到交叉淡化單元66的一或多個其它組件,例如能量補償單元38。VBG[k]向量35BG可具有維度D:[(NBG+1)2+nBGa]x(N+1)2。在一些實例中,背景選擇單元48還可將US[k]向量33輸出到交叉淡化單元66的一或多個其它組件,例如能量補償單元38。

能量補償單元38可表示經(jīng)配置以相對于VBG[k]向量35BG執(zhí)行能量補償以補償由于背景選擇單元48對V[k]向量35中的各種向量的移除所致的能量損失的單元。能量補償單元38可相對于經(jīng)重新排序的US[k]矩陣33'、經(jīng)重新排序的V[k]矩陣35'、nFG信號49、前景V[k]向量51k和VBG[k]向量35BG中的一或多者執(zhí)行能量分析,且接著基于此能量分析執(zhí)行能量補償以產(chǎn)生經(jīng)能量補償?shù)腣BG[k]向量35BG'。能量補償單元38可將經(jīng)能量補償VBG[k]向量35BG'輸出到基于向量的合成單元27的一或多個其它組件,例如矩陣數(shù)學(xué)單元64。在一些實例中,能量補償單元38還可將US[k]向量33輸出到交叉淡化單元66的一或多個其它組件,例如矩陣數(shù)學(xué)單元64。

矩陣數(shù)學(xué)單元64可表示經(jīng)配置以對一或多個矩陣執(zhí)行任何多種運算的單元。在圖3的實例中,矩陣數(shù)學(xué)單元64可經(jīng)配置以將US[k]向量33乘以經(jīng)能量補償VBG[k]向量35BG'以獲得經(jīng)能量補償環(huán)境HOA系數(shù)47'。矩陣數(shù)學(xué)單元64可將所確定的經(jīng)能量補償環(huán)境HOA系數(shù)47'提供到基于向量的合成單元27的一或多個其它組件,例如交叉淡化單元66。經(jīng)能量補償環(huán)境HOA系數(shù)47'可具有維度D:M x[(NBG+1)2+nBGa]。

交叉淡化單元66可表示經(jīng)配置以執(zhí)行信號之間的交叉淡化的單元。例如,交叉淡化單元66可在幀k的經(jīng)能量補償環(huán)境HOA系數(shù)47'與前一幀k-1的經(jīng)能量補償環(huán)境HOA系數(shù)47'之間進行交叉淡化以確定幀k的經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)47″。交叉淡化單元66可將確定的幀k的經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)47″輸出到基于向量的合成單元27的一或多個其它組件,例如心理聲學(xué)音頻譯碼器單元40。

在一些實例中,交叉淡化單元66可通過基于幀k-1的經(jīng)能量補償環(huán)境HOA系數(shù)47'的一部分修改幀k的經(jīng)能量補償環(huán)境HOA系數(shù)47'的一部分而在幀k的經(jīng)能量補償環(huán)境HOA系數(shù)47'與前一幀k-1的經(jīng)能量補償環(huán)境HOA系數(shù)47'之間進行交叉淡化。在一些實例中,交叉淡化單元66可在確定經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)47″時移除所述系數(shù)的一部分。下文參考圖14提供交叉淡化單元66的額外細節(jié)。

前景選擇單元36可表示經(jīng)配置以基于nFG 45(其可表示識別前景向量的一或多個索引)選擇表示聲場的前景或不同分量的經(jīng)重排序的US[k]矩陣33'及經(jīng)重排序的V[k]矩陣35'的單元。前景選擇單元36可將nFG信號49(其可表示為經(jīng)重排序的US[k]1,…,nFG 49、FG1,…,nfG[k]49或49)輸出到心理聲學(xué)音頻譯碼器單元40,其中nFG信號49可具有維度D:M x nFG且各自表示單音頻對象。前景選擇單元36還可將對應(yīng)于聲場的前景分量的經(jīng)重排序的V[k]矩陣35'(或v(1..nFG)(k)35')輸出到空間-時間內(nèi)插單元50,其中經(jīng)重排序的V[k]矩陣35'中的對應(yīng)于前景分量的子集可表示為具有維度D:(N+1)2×nFG的前景V[k]矩陣51k(其可在數(shù)學(xué)上表示為)。

空間-時間內(nèi)插單元50可表示經(jīng)配置以接收第k幀的前景V[k]向量51k和前一幀(因此為k-1記法)的前景V[k-1]向量51k-1且執(zhí)行空間-時間內(nèi)插以產(chǎn)生經(jīng)內(nèi)插前景V[k]向量的單元??臻g-時間內(nèi)插單元50可將nFG信號49與前景V[k]向量51k重新組合以恢復(fù)經(jīng)重排序的前景HOA系數(shù)??臻g-時間內(nèi)插單元50可接著將經(jīng)重排序的前景HOA系數(shù)除以經(jīng)內(nèi)插的V[k]向量以產(chǎn)生經(jīng)內(nèi)插的nFG信號49'??臻g-時間內(nèi)插單元50還可輸出前景V[k]向量51k的用于產(chǎn)生經(jīng)內(nèi)插前景V[k]向量的那些向量使得例如音頻解碼裝置24等音頻解碼裝置可產(chǎn)生經(jīng)內(nèi)插前景V[k]向量且借此恢復(fù)前景V[k]向量51k。將前景V[k]向量51k的用以產(chǎn)生經(jīng)內(nèi)插的前景V[k]向量的那些前景V[k]向量51k表示為剩余前景V[k]向量53。為了確保在編碼器和解碼器處使用相同的V[k]和V[k-1](以創(chuàng)建經(jīng)內(nèi)插的向量V[k]),可在編碼器和解碼器處使用這些的經(jīng)量化/經(jīng)解量化的版本。

就此而言,空間-時間內(nèi)插單元50可表示從第一音頻幀的一些其它部分和第二時間上在后或在前的音頻幀內(nèi)插第一音頻幀的第一部分的單元。在一些實例中,所述部分可表示為子幀,其中下文關(guān)于圖45到46E更詳細地描述如相對于子幀執(zhí)行的內(nèi)插。在其它實例中,空間-時間內(nèi)插單元50可相對于前一幀的某一最后數(shù)目的樣本和后續(xù)幀的某一第一數(shù)目的樣本操作,如相對于圖37到39更詳細描述??臻g-時間內(nèi)插單元50可在執(zhí)行此內(nèi)插時減小位流21中需要指定的前景V[k]向量51k的樣本的數(shù)目,因為前景V[k]向量51k的僅那些用于產(chǎn)生經(jīng)內(nèi)插V[k]向量的前景V[k]向量51k表示前景V[k]向量51k的子集。也就是說,為了潛在地使HOA系數(shù)11的壓縮更有效(通過減小在位流21中指定的前景V[k]向量51k的數(shù)目),本發(fā)明中所描述的技術(shù)的各個方面可提供第一音頻幀的一或多個部分的內(nèi)插,其中所述部分中的每一者可表示HOA系數(shù)11的經(jīng)分解版本。

空間-時間內(nèi)插可導(dǎo)致數(shù)個益處。首先,歸因于執(zhí)行SVD或其它LIT的逐塊性質(zhì),nFG信號49可不從幀到幀為連續(xù)的。換句話說,在LIT單元30逐幀應(yīng)用SVD的條件下,所產(chǎn)生的經(jīng)變換HOA系數(shù)中可存在特定不連續(xù)性,如例如US[k]矩陣33和V[k]矩陣35的無序性質(zhì)所證明。通過執(zhí)行此內(nèi)插,在內(nèi)插可具有潛在地減少歸因于幀邊界(或換句話說,HOA系數(shù)11分段為幀)而引入的任何假象的平滑效果的條件下可減小不連續(xù)。使用前景V[k]向量51k執(zhí)行此內(nèi)插且接著基于經(jīng)內(nèi)插前景V[k]向量51k從所恢復(fù)的經(jīng)重排序HOA系數(shù)產(chǎn)生經(jīng)內(nèi)插nFG信號49'可使歸因于逐幀運算以及歸因于對nFG信號49重排序的至少一些效果平滑化。

在操作中,空間-時間內(nèi)插單元50可內(nèi)插來自包含于第一幀中的第一多個HOA系數(shù)11的一部分的第一分解(例如,前景V[k]向量51k)和包含于第二幀中的第二多個HOA系數(shù)11的一部分的第二分解(例如,前景V[k]向量51k-1)的第一音頻幀的一或多個子幀以產(chǎn)生用于所述一或多個子幀的經(jīng)分解的經(jīng)內(nèi)插球諧系數(shù)。

在一些實例中,第一分解包括表示HOA系數(shù)11的所述部分的右奇異向量的第一前景V[k]向量51k。同樣,在一些實例中,第二分解包括表示HOA系數(shù)11的所述部分的右奇異向量的第二前景V[k]向量51k

換句話說,就球面上的正交基底函數(shù)而言,基于球諧的3D音頻可為3D壓力場的參數(shù)表示。所述表示的階數(shù)N越高,空間分辨率潛在地越高,且常常球諧(SH)系數(shù)的數(shù)目越大(總共(N+1)2個系數(shù))。對于許多應(yīng)用,可能需要系數(shù)的帶寬壓縮能夠有效地發(fā)射且存儲所述系數(shù)。在本發(fā)明中所針對的此技術(shù)可提供使用奇異值分解(SVD)的基于幀的維度減少過程。SVD分析可將系數(shù)的每一幀分解成三個矩陣U、S及V。在一些實例中,所述技術(shù)可將US[k]矩陣中的向量中的一些作為基礎(chǔ)聲場的方向分量處置。然而,當(dāng)以此方式處置時,這些向量(在U S[k]矩陣中)在幀間是不連續(xù)的--即使其表示同一相異音頻分量。當(dāng)通過變換音頻譯碼器饋入所述分量時,這些不連續(xù)性可導(dǎo)致顯著假象。

本發(fā)明中所描述的技術(shù)可解決此不連續(xù)性。即,所述技術(shù)可基于以下觀測結(jié)果:V矩陣可經(jīng)解譯為球諧域中的正交空間軸。U[k]矩陣可表示球諧(HOA)數(shù)據(jù)根據(jù)那些基底函數(shù)的投影,其中不連續(xù)性可歸因于正交的空間軸(V[k]),所述空間軸線每幀改變且因此自身為不連續(xù)的。這不同于例如傅立葉變換的類似分解,其中基底函數(shù)在一些實例中在幀間將為常數(shù)。在這些術(shù)語中,SVD可認(rèn)為是匹配追求算法。本發(fā)明中所描述的技術(shù)可使內(nèi)插單元50能夠通過在其間進行內(nèi)插而在幀間維持基底函數(shù)(V[k])之間的連續(xù)性。

如上文所指出,可相對于樣本執(zhí)行內(nèi)插。當(dāng)子幀包括樣本的單個集合時,此情況在以上描述中得以一般化。在經(jīng)由樣本和經(jīng)由子幀的內(nèi)插的兩個情況中,內(nèi)插運算可呈以下等式的形式:

在此上述等式中,內(nèi)插可以相對于單個V向量v(k)從單個V向量v(k-1)執(zhí)行,所述V向量在一個實施例中可表示來自鄰近幀k和k-1的V向量。在上述等式中,l表示執(zhí)行內(nèi)插所針對的分辨率,其中l(wèi)可指示整數(shù)樣本且l=1,…,T(其中T為樣本的長度,在所述長度內(nèi)執(zhí)行內(nèi)插且在所述長度內(nèi)需要輸出的經(jīng)內(nèi)插的向量且所述長度還指示此過程的輸出產(chǎn)生這些向量的l)。替代地,l可指示由多個樣本組成的子幀。當(dāng)(例如)將幀劃分成四個子幀時,l可包括用于所述子幀中的每一者的值1、2、3和4??山?jīng)由位流將l的值作為被稱為“CodedSpatialInterpolationTime”的字段用信號表示,使得可在解碼器中重復(fù)內(nèi)插運算。w(l)可包括內(nèi)插權(quán)數(shù)的值。當(dāng)內(nèi)插為線性的時,w(l)可隨著l而變在0與1之間線性地且單調(diào)地變化。在其它實例中,w(l)可隨著l而變以非線性但單調(diào)方式(例如,升余弦的四分之一周期)在0與1之間變化。函數(shù)w(l)可在幾個不同的函數(shù)可能性之間標(biāo)引且在位流中用信號表示為被稱為“SpatialInterpolationMethod”的字段以使得解碼器可重復(fù)相同的內(nèi)插運算。當(dāng)w(l)是接近于0的值時,輸出可由v(k-1)較高地加權(quán)或影響。而當(dāng)w(l)是接近于1的值時,其確保輸出由v(k-1)較高地加權(quán)或影響。

系數(shù)減少單元46可表示經(jīng)配置以基于背景信道信息43相對于剩余前景V[k]向量53執(zhí)行系數(shù)減少以將經(jīng)減少的前景V[k]向量55輸出到量化單元52的單元。經(jīng)減少的前景V[k]向量55可具有維度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。系數(shù)減少單元46可在這方面中表示經(jīng)配置以減少其余前景V[k]向量53中的系數(shù)數(shù)目的單元。換句話說,系數(shù)減少單元46可表示經(jīng)配置以消除(形成其余前景V[k]向量53的)前景V[k]向量中的具有極少至不具有方向信息的系數(shù)的單元。在一些實例中,相異或(換句話說)前景V[k]向量的對應(yīng)于一階及零階基底函數(shù)的系數(shù)(其可表示為NBG)提供極少方向信息,且因此可從前景V向量移除(經(jīng)由可被稱作“系數(shù)減少”的過程)。在此實例中,可提供較大靈活性以不僅從集合[(NBG+1)2+1,(N+1)2]識別對應(yīng)于NBG的系數(shù)而且識別額外HOA信道(其可由變量TotalOfAddAmbHOAChan表示)。

量化單元52可表示經(jīng)配置以執(zhí)行任何形式的量化以壓縮減少的前景V[k]向量55以產(chǎn)生經(jīng)譯碼前景V[k]向量57,從而將經(jīng)譯碼前景V[k]向量57輸出到位流產(chǎn)生單元42的單元。在操作中,量化單元52可表示經(jīng)配置以壓縮聲場的空間分量(即,在此實例中經(jīng)減少的前景V[k]向量55中的一或多者)的單元。量化單元52可執(zhí)行如通過表示為“NbitsQ”的量化模式語法元素指示的以下12種量化模式中的任一者:

16:具有霍夫曼譯碼的16位標(biāo)量量化

量化單元52還可執(zhí)行前述類型的量化模式中的任一者的預(yù)測版本,其中確定先前幀的V向量的元素(或執(zhí)行向量量化時的權(quán)數(shù))與當(dāng)前幀的V向量的元素(或執(zhí)行向量量化時的權(quán)數(shù))之間的差。量化單元52可接著將當(dāng)前幀與先前幀的元素或權(quán)數(shù)之間的差而非當(dāng)前幀本身的V向量的元素的值量化。

量化單元52可相對于減少的前景V[k]向量55中的每一者執(zhí)行多種形式的量化,以獲得減少的前景V[k]向量55的多個經(jīng)譯碼版本。量化單元52可選擇減少的前景V[k]向量55的經(jīng)譯碼版本中的一者作為經(jīng)譯碼前景V[k]向量57。換句話說,量化單元52可基于本發(fā)明中論述的標(biāo)準(zhǔn)的任何組合選擇未經(jīng)預(yù)測的經(jīng)向量量化的V向量、經(jīng)預(yù)測的經(jīng)向量量化的V向量、未經(jīng)霍夫曼譯碼的經(jīng)標(biāo)量量化的V向量及經(jīng)霍夫曼譯碼的經(jīng)標(biāo)量量化的V向量中的一者,以用作經(jīng)輸出變換量化的V向量。在一些實例中,量化單元52可從包含向量量化模式及一或多個標(biāo)量量化模式的一組量化模式中選擇量化模式,且基于(或根據(jù))所述選定模式量化輸入V向量。量化單元52可接著將以下各者中的選定者提供到位流產(chǎn)生單元52以用作經(jīng)譯碼前景V[k]向量57:未經(jīng)預(yù)測的經(jīng)向量量化的V向量(例如,就權(quán)數(shù)值或指示權(quán)數(shù)值的位而言)、經(jīng)預(yù)測的經(jīng)向量量化的V向量(例如,就誤差值或指示誤差值的位而言)、未經(jīng)霍夫曼譯碼的經(jīng)標(biāo)量量化的V向量及經(jīng)霍夫曼譯碼的經(jīng)標(biāo)量量化的V向量。量化單元52還可提供指示量化模式的語法元素(例如,NbitsQ語法元素)及用于將V向量解量化或以其它方式重構(gòu)V向量的任何其它語法元素。

音頻編碼裝置20內(nèi)包含的心理聲學(xué)音頻譯碼器單元40可表示心理聲學(xué)音頻譯碼器的多個例子,其每一者用于編碼經(jīng)能量補償環(huán)境HOA系數(shù)47'和經(jīng)內(nèi)插nFG信號49'中的每一者的不同音頻對象或HOA信道以產(chǎn)生經(jīng)編碼環(huán)境HOA系數(shù)59和經(jīng)編碼nFG信號61。心理聲學(xué)音頻譯碼器單元40可將經(jīng)編碼環(huán)境HOA系數(shù)59和經(jīng)編碼nFG信號61輸出到位流產(chǎn)生單元42。

包括于音頻編碼裝置20內(nèi)的位流產(chǎn)生單元42表示將數(shù)據(jù)格式化以符合已知格式(其可指代解碼裝置已知的格式)借此產(chǎn)生基于向量的位流21的單元。換句話說,位流21可表示以上文所描述的方式編碼的經(jīng)編碼音頻數(shù)據(jù)。位流產(chǎn)生單元42在一些實例中可表示多路復(fù)用器,其可接收經(jīng)譯碼前景V[k]向量57、經(jīng)編碼環(huán)境HOA系數(shù)59、經(jīng)編碼nFG信號61,和背景信道信息43。位流產(chǎn)生單元42可接著基于經(jīng)譯碼前景V[k]向量57、經(jīng)編碼環(huán)境HOA系數(shù)59、經(jīng)編碼nFG信號61及背景信道信息43產(chǎn)生位流21。以此方式,位流產(chǎn)生單元42可由此在位流21中指定向量57以獲得如下文關(guān)于圖7的實例更詳細描述的位流21。位流21可包含主要或主位流和一或多個旁側(cè)信道位流。

盡管在圖3的實例中未展示,但音頻編碼裝置20還可包含位流輸出單元,所述位流輸出單元基于當(dāng)前幀將使用基于方向的合成還是基于向量的合成編碼而切換從音頻編碼裝置20輸出的位流(例如,在基于方向的位流21與基于向量的位流21之間切換)。位流輸出單元可基于由內(nèi)容分析單元26輸出的指示執(zhí)行基于方向的合成(作為檢測到HOA系數(shù)11是從合成音頻對象產(chǎn)生的結(jié)果)還是執(zhí)行基于向量的合成(作為檢測到HOA系數(shù)經(jīng)記錄的結(jié)果)的語法元素執(zhí)行所述切換。位流輸出單元可指定正確的標(biāo)頭語法以指示用于當(dāng)前幀以及位流21中的相應(yīng)一者的切換或當(dāng)前編碼。

此外,如上文所提及,聲場分析單元44可識別BGTOT環(huán)境HOA系數(shù)47,所述BGTOT環(huán)境HOA系數(shù)可逐幀改變(但時常BGTOT可跨越兩個或更多個鄰近(在時間上)幀保持恒定或相同)。BGTOT的改變可導(dǎo)致在減少的前景V[k]向量55中表達的系數(shù)的改變。BGTOT的改變可導(dǎo)致背景HOA系數(shù)(其也可被稱作“環(huán)境HOA系數(shù)”),所述背景HOA系數(shù)逐幀改變(但再次,時常BGTOT可跨越兩個或更多個鄰近(在時間上)幀保持恒定或相同)。所述改變常常導(dǎo)致聲場的各方面的能量改變,所述聲場通過額外環(huán)境HOA系數(shù)的添加或移除及系數(shù)從減少的前景V[k]向量55的對應(yīng)移除或系數(shù)至減少的前景V[k]向量55的添加表示。

因此,聲場分析單元44可進一步確定環(huán)境HOA系數(shù)何時從幀至幀改變且產(chǎn)生指示環(huán)境HOA系數(shù)的改變的旗標(biāo)或其它語法元素(就用于表示聲場的環(huán)境分量而言)(其中所述改變也可被稱作環(huán)境HOA系數(shù)的“轉(zhuǎn)變”或環(huán)境HOA系數(shù)的“轉(zhuǎn)變”)。具體而言,系數(shù)減少單元46可產(chǎn)生旗標(biāo)(其可表示為AmbCoeffTransition旗標(biāo)或AmbCoeffIdxTransition旗標(biāo)),從而將所述旗標(biāo)提供到位流產(chǎn)生單元42,使得可將所述旗標(biāo)包含在位流21中(有可能作為旁側(cè)信道信息的一部分)。

除指定環(huán)境系數(shù)轉(zhuǎn)變旗標(biāo)之外,系數(shù)減少單元46也可修改產(chǎn)生減少的前景V[k]向量55的方式。在一個實例中,在確定環(huán)境HOA環(huán)境系數(shù)中的一者在當(dāng)前幀期間處于轉(zhuǎn)變中時,系數(shù)減少單元46可指定用于減少的前景V[k]向量55的V向量中的每一者的向量系數(shù)(其也可被稱作“向量元素”或“元素”),其對應(yīng)于處于轉(zhuǎn)變中的環(huán)境HOA系數(shù)。同樣,處于轉(zhuǎn)變中的環(huán)境HOA系數(shù)可添加至背景系數(shù)的BGTOT總數(shù)目或從背景系數(shù)的BGTOT總數(shù)目中移除。因此,背景系數(shù)的總數(shù)目的所得改變影響環(huán)境HOA系數(shù)是否包含于位流中,及在上文所描述的第二及第三配置模式中是否針對位流中所指定的V向量包含V向量的對應(yīng)元素。關(guān)于系數(shù)減少單元46可如何指定減少的前景V[k]向量55以克服能量的改變的更多信息提供于2015年1月12日申請的標(biāo)題為“環(huán)境較高階立體混響系數(shù)的轉(zhuǎn)變(TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS)”的第14/594,533號美國申請案中。

圖14是更詳細說明圖3的實例中所示的音頻編碼裝置20的交叉淡化單元66的框圖。交叉淡化單元66可包含混合器單元70、成幀單元71和延遲單元72。圖14說明交叉淡化單元66的僅一個實例,且其它配置是可能的。例如,成幀單元71可定位于混合器單元70之前以使得在經(jīng)能量補償環(huán)境HOA系數(shù)47'由混合器單元70接收之前移除第三部分75。

混合器單元70可表示經(jīng)配置以將多個信號組合為單個信號的單元。舉例來說,混合器單元70可組合第一信號與第二信號以產(chǎn)生經(jīng)修改信號?;旌掀鲉卧?0可通過使第一信號淡入同時使第二信號淡出來組合第一信號與第二信號?;旌掀鲉卧?0可應(yīng)用任何多種函數(shù)來使所述部分淡入和淡出。作為一個實例,混合器單元70可應(yīng)用線性函數(shù)以使第一信號淡入且應(yīng)用線性函數(shù)以使第二信號淡出。作為另一實例,混合器單元70可應(yīng)用指數(shù)函數(shù)以使第一信號淡入且應(yīng)用指數(shù)函數(shù)以使第二信號淡出。在一些實例中,混合器單元70可將不同函數(shù)應(yīng)用于信號。舉例來說,混合器單元70可應(yīng)用線性函數(shù)以使第一信號淡入且應(yīng)用指數(shù)以使第二信號淡出。在一些實例中,混合器單元70可通過使信號的一部分淡入或淡出來使信號淡入或淡出。在任何情況下,混合器單元可將經(jīng)修改信號輸出到交叉淡化單元66的一或多個其它組件,例如成幀單元71。

成幀單元71可表示經(jīng)配置以使輸入信號成幀以配合一或多個特定尺寸的單元。在例如其中輸入信號的尺寸中的一或多者大于特定尺寸中的一或多者的一些實例中,成幀單元71可通過移除輸入信號的一部分而產(chǎn)生成幀輸出信號,例如超過特定尺寸的部分。舉例來說,在特定尺寸是1024乘4且輸入信號具有1280乘4的尺寸的情況下,成幀單元71可通過移除輸入信號的256乘4部分而產(chǎn)生成幀輸出信號。在一些實例中,成幀單元71可將成幀輸出信號輸出到音頻編碼裝置20的一或多個其它組件,例如圖3的心理聲學(xué)音頻譯碼器單元40。在一些實例中,成幀單元71可將輸入信號的經(jīng)移除部分輸出到交叉淡化單元66的一或多個其它組件,例如延遲單元72。

延遲單元72可表示經(jīng)配置以存儲信號用于稍后使用的單元。舉例來說,延遲單元72可經(jīng)配置以在第一時間存儲第一信號且在第二稍后時間輸出所述第一信號。以此方式,延遲單元72可作為先進先出(FIFO)緩沖器操作。延遲單元72可在所述第二稍后時間將所述第一信號輸出到交叉淡化單元66的一或多個其它組件,例如混合器單元70。

如上文所論述,交叉淡化單元66可接收當(dāng)前幀(例如,幀k)的經(jīng)能量補償環(huán)境HOA系數(shù)47',使當(dāng)前幀的經(jīng)能量補償環(huán)境HOA系數(shù)47'與前一幀的經(jīng)能量補償環(huán)境HOA系數(shù)47'進行交叉淡化,且輸出經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)47″。如圖14中所說明,經(jīng)能量補償環(huán)境HOA系數(shù)47'可包含第一部分73、第二部分74和第三部分75。

根據(jù)本發(fā)明的一或多種技術(shù),交叉淡化單元66的混合器單元可組合(例如,在其間交叉淡化)當(dāng)前幀的經(jīng)能量補償環(huán)境HOA系數(shù)47'的第一部分73與前一幀的經(jīng)能量補償環(huán)境HOA系數(shù)47'的第三部分76以產(chǎn)生中間經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)77。混合器單元70可將所產(chǎn)生中間經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)77輸出到成幀單元71。由于在此實例中混合器單元70利用前一幀的經(jīng)能量補償環(huán)境HOA系數(shù)47'的第三部分76,因此可假定交叉淡化單元66在處理當(dāng)前幀之前是在操作中。因此,與分開地使當(dāng)前幀的US矩陣與前一幀的US矩陣進行交叉淡化且使當(dāng)前幀的V矩陣與前一幀的V矩陣進行交叉淡化相反,混合器單元70可在能量補償域中進行交叉淡化。以此方式,根據(jù)本發(fā)明的技術(shù)可減少交叉淡化單元66的計算負載、電力消耗和/或復(fù)雜性。

成幀單元71可通過在中間經(jīng)交叉淡化的能量補償環(huán)境HOA系數(shù)77的尺寸超過當(dāng)前幀的尺寸的情況下從中間經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)77移除第三部分75而確定經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)47″。舉例來說,在當(dāng)前幀的尺寸是1024乘4且中間經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)77的尺寸是1280乘4的情況下,成幀單元71可通過從中間經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)77移除第三部分75(例如,256乘4部分)而確定經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)47″。成幀單元71可將第三部分75輸出到延遲單元72用于未來使用(例如,由混合器單元70在交叉淡化后續(xù)幀的經(jīng)能量補償環(huán)境HOA系數(shù)47'時)。成幀單元71可將所確定經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)47″輸出到圖3的心理聲學(xué)音頻譯碼器單元40。以此方式,交叉淡化單元66可使前一幀與當(dāng)前幀之間的轉(zhuǎn)變平滑。

在一些實例中,交叉淡化單元66可在HOA系數(shù)任何兩個集合之間進行交叉淡化。作為一個實例,交叉淡化單元66可在HOA系數(shù)的第一集合與HOA系數(shù)的第二集合之間進行交叉淡化。作為另一實例,交叉淡化單元66可在HOA系數(shù)的當(dāng)前集合與HOA系數(shù)的先前集合之間進行交叉淡化。

圖4為更詳細說明圖2的音頻解碼裝置24的框圖。如在圖4的實例中所展示,音頻解碼裝置24可包含提取單元72、基于方向性的重構(gòu)單元90及基于向量的重構(gòu)單元92。盡管下文進行描述,但關(guān)于音頻解碼裝置24及解壓縮或以其它方式解碼HOA系數(shù)的各種方面的更多信息可在2014年5月29日申請的標(biāo)題為“用于聲場的經(jīng)分解表示的內(nèi)插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099號國際專利申請公開案中獲得。

提取單元72可表示經(jīng)配置以接收位流21和提取HOA系數(shù)11的各種經(jīng)編碼版本(例如,基于方向的經(jīng)編碼版本或基于向量的經(jīng)編碼版本)的單元。提取單元72可根據(jù)以上所述確定指示HOA系數(shù)11是否經(jīng)由各種基于方向的或基于向量的版本而經(jīng)編碼的語法元素。當(dāng)執(zhí)行基于方向的編碼時,提取單元72可提取HOA系數(shù)11的基于方向的版本及與所述經(jīng)編碼版本相關(guān)聯(lián)的語法元素(其在圖4的實例中表示為基于方向的信息91),從而將所述基于方向的信息91傳遞到基于方向的重構(gòu)單元90?;诜较虻闹貥?gòu)單元90可表示經(jīng)配置以基于所述基于方向的信息91重構(gòu)呈HOA系數(shù)11'的形式的HOA系數(shù)的單元。

當(dāng)語法元素指示HOA系數(shù)11使用基于向量的合成進行編碼時,提取單元72可提取經(jīng)譯碼前景V[k]向量57(其可包含經(jīng)譯碼權(quán)數(shù)及/或索引63或經(jīng)標(biāo)量量化的V向量)、經(jīng)編碼環(huán)境HOA系數(shù)59及對應(yīng)音頻對象61(其也可被稱作經(jīng)編碼nFG信號61)。音頻對象61各自對應(yīng)于向量57中的一者。提取單元72可將經(jīng)譯碼前景V[k]向量57傳遞至V向量重構(gòu)單元74,且將經(jīng)編碼環(huán)境HOA系數(shù)59以及經(jīng)編碼nFG信號61提供到心理聲學(xué)解碼單元80。

V向量重構(gòu)單元74可表示經(jīng)配置以從經(jīng)編碼前景V[k]向量57重構(gòu)V向量的單元。V向量重構(gòu)單元74可以與量化單元52互逆的方式操作。

心理聲學(xué)解碼單元80可以與圖3的實例中所展示的心理聲學(xué)音頻譯碼器單元40互逆的方式操作以便對經(jīng)編碼環(huán)境HOA系數(shù)59及經(jīng)編碼nFG信號61進行解碼且由此產(chǎn)生經(jīng)能量補償?shù)沫h(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的nFG信號49'(其也可被稱作經(jīng)內(nèi)插的nFG音頻對象49')。心理聲學(xué)解碼單元80可將能量補償環(huán)境HOA系數(shù)47'傳遞到淡化單元770且將nFG信號49'傳遞到前景制訂單元78。

空間-時間內(nèi)插單元76可以類似于上文相對于空間-時間內(nèi)插單元50所描述方式的方式操作。空間-時間內(nèi)插單元76可接收減少的前景V[k]向量55k且相對于前景V[k]向量55k及減少的前景V[k-1]向量55k-1執(zhí)行空間-時間內(nèi)插以產(chǎn)生經(jīng)內(nèi)插的前景V[k]向量55k″。空間-時間內(nèi)插單元76可將經(jīng)內(nèi)插的前景V[k]向量55k″轉(zhuǎn)發(fā)到淡化單元770。

提取單元72還可將指示環(huán)境HOA系數(shù)中的一者何時處于轉(zhuǎn)變中的信號757輸出到淡化單元770,所述淡化單元可接著確定SHCBG 47'(其中SHCBG 47'還可表示為“環(huán)境HOA信道47'”或“環(huán)境HOA系數(shù)47'”)及經(jīng)內(nèi)插的前景V[k]向量55k″的元素中的哪一者將淡入或淡出。在一些實例中,淡化單元770可相對于環(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的前景V[k]向量55k″的元素中的每一者相反地操作。也就是說,淡化單元770可相對于環(huán)境HOA系數(shù)47'中的對應(yīng)環(huán)境HOA系數(shù)執(zhí)行淡入或淡出或執(zhí)行淡入或淡出兩者,同時相對于經(jīng)內(nèi)插的前景V[k]向量55k″的元素中的對應(yīng)一個元素執(zhí)行淡入或淡出或執(zhí)行淡入與淡出兩者。淡化單元770可將經(jīng)調(diào)整的環(huán)境HOA系數(shù)47″輸出到HOA系數(shù)制訂單元82且將經(jīng)調(diào)整的前景V[k]向量55k″'輸出到前景制訂單元78。在這方面中,淡化單元770表示經(jīng)配置以相對于HOA系數(shù)或其衍生物(例如,呈環(huán)境HOA系數(shù)47'以及經(jīng)內(nèi)插前景V[k]向量55k″的元素的形式)的各種方面執(zhí)行淡化操作的單元。

前景制訂單元78可表示經(jīng)配置以相對于經(jīng)調(diào)整的前景V[k]向量55k″'及經(jīng)內(nèi)插的nFG信號49'執(zhí)行矩陣乘法以產(chǎn)生前景HOA系數(shù)65的單元。在這方面中,前景制訂單元78可組合音頻對象49'(其為借以表示經(jīng)內(nèi)插的nFG信號49'的另一種方式)與向量55k″'以重構(gòu)HOA系數(shù)11'的前景(或換句話說,優(yōu)勢)方面。前景制訂單元78可執(zhí)行經(jīng)內(nèi)插的nFG信號49'乘以經(jīng)調(diào)整的前景V[k]向量55k″'的矩陣乘法。

HOA系數(shù)制訂單元82可表示經(jīng)配置以將前景HOA系數(shù)65組合到經(jīng)調(diào)整的環(huán)境HOA系數(shù)47″以便獲得HOA系數(shù)11'的單元。撇號記法反映HOA系數(shù)11'可類似于HOA系數(shù)11但與HOA系數(shù)11不相同。HOA系數(shù)11與11'之間的差可起因于由于有損發(fā)射媒體上的發(fā)射、量化或其它有損操作而產(chǎn)生的損失。

圖5是說明音頻編碼裝置(例如圖3的實例中所示的音頻編碼裝置20)執(zhí)行本發(fā)明中所描述的基于向量的合成技術(shù)的各個方面的示范性操作的流程圖。最初,音頻編碼裝置20接收HOA系數(shù)11(106)。音頻編碼裝置20可調(diào)用LIT單元30,其可相對于HOA系數(shù)應(yīng)用LIT以輸出經(jīng)變換HOA系數(shù)(例如,在SVD的情況下,經(jīng)變換HOA系數(shù)可包括US[k]向量33和V[k]向量35)(107)。

音頻編碼裝置20接下來可調(diào)用參數(shù)計算單元32以按上文所描述的方式相對于US[k]向量33、US[k-1]向量33、V[k]和/或V[k-1]向量35的任何組合執(zhí)行上文所描述的分析以識別各種參數(shù)。也就是說,參數(shù)計算單元32可基于經(jīng)變換的HOA系數(shù)33/35的分析確定至少一個參數(shù)(108)。

音頻編碼裝置20可接著調(diào)用重排序單元34,重排序單元34基于參數(shù)將經(jīng)變換的HOA系數(shù)(再次在SVD的上下文中,其可指US[k]向量33及V[k]向量35)重排序以產(chǎn)生經(jīng)重排序的經(jīng)變換的HOA系數(shù)33'/35'(或,換句話說,US[k]向量33'及V[k]向量35'),如上文所描述(109)。音頻編碼裝置20可在以上操作或后續(xù)操作中的任一者期間還調(diào)用聲場分析單元44。聲場分析單元44可如上文所描述相對于HOA系數(shù)11和/或經(jīng)變換HOA系數(shù)33/35執(zhí)行聲場分析以確定前景信道(nFG)45的總數(shù)、背景聲場(NBG)的次序以及待發(fā)送的額外BG HOA信道的數(shù)目(nBGa)和指數(shù)(i)(其可在圖3的實例中統(tǒng)一表示為背景信道信息43)(109)。

音頻編碼裝置20還可調(diào)用背景選擇單元48。背景選擇單元48可基于背景信道信息43確定背景或環(huán)境HOA系數(shù)47(110)。音頻編碼裝置20可進一步調(diào)用前景選擇單元36,前景選擇單元36可基于nFG 45(其可表示識別前景向量的一或多個索引)選擇表示聲場的前景或相異分量的經(jīng)重排序的US[k]向量33'及經(jīng)重排序的V[k]向量35'(112)。

音頻編碼裝置20可調(diào)用能量補償單元38。能量補償單元38可相對于環(huán)境HOA系數(shù)47執(zhí)行能量補償以補償歸因于由背景選擇單元48移除HOA系數(shù)的各者而導(dǎo)致的能量損失,且以上文所描述的方式交叉淡化經(jīng)能量補償?shù)沫h(huán)境HOA系數(shù)47'(114)。

音頻編碼裝置20也可調(diào)用空間-時間內(nèi)插單元50??臻g-時間內(nèi)插單元50可相對于經(jīng)重排序的經(jīng)變換HOA系數(shù)33'/35'執(zhí)行空間-時間內(nèi)插以獲得經(jīng)內(nèi)插前景信號49'(其也可被稱作“經(jīng)內(nèi)插nFG信號49'”)及剩余前景方向信息53(其也可被稱作“V[k]向量53”)(116)。音頻編碼裝置20可接著調(diào)用系數(shù)減少單元46。系數(shù)減少單元46可基于背景信道信息43執(zhí)行相對于剩余前景V[k]向量53的系數(shù)減少,以獲得減少的前景方向信息55(其也可被稱作減少的前景V[k]向量55)(118)。

音頻編碼裝置20可接著調(diào)用量化單元52以按上文所描述的方式壓縮經(jīng)縮減前景V[k]向量55且產(chǎn)生經(jīng)譯碼前景V[k]向量57(120)。

音頻編碼裝置20還可調(diào)用心理聲學(xué)音頻譯碼器單元40。心理聲學(xué)音頻譯碼器單元40可對經(jīng)能量補償?shù)沫h(huán)境HOA系數(shù)47'和經(jīng)內(nèi)插nFG信號49'的每一向量進行心理聲學(xué)譯碼以產(chǎn)生經(jīng)編碼環(huán)境HOA系數(shù)59和經(jīng)編碼nFG信號61。音頻編碼裝置接著可調(diào)用位流產(chǎn)生單元42。位流產(chǎn)生單元42可基于經(jīng)譯碼前景方向信息57、經(jīng)譯碼環(huán)境HOA系數(shù)59、經(jīng)譯碼nFG信號61和背景信道信息43而產(chǎn)生位流21。

圖6是說明音頻解碼裝置(例如圖4的實例中所示的音頻解碼裝置24)在執(zhí)行本發(fā)明中描述的技術(shù)的各個方面中的示范性操作的流程圖。最初,音頻解碼裝置24可接收位流21(130)。在接收到位流后,音頻解碼裝置24可即刻調(diào)用提取單元72。出于論述的目的假定位流21指示將執(zhí)行基于向量的重構(gòu),提取單元72可剖析位流以檢索上文所提及的信息,將此信息傳遞到基于向量的重構(gòu)單元92。

換句話說,提取單元72可按上文所描述的方式從位流21中提取經(jīng)譯碼前景方向信息57(再次,其也可被稱作經(jīng)譯碼前景V[k]向量57)、經(jīng)譯碼環(huán)境HOA系數(shù)59和經(jīng)譯碼前景信號(其也可被稱作經(jīng)譯碼前景nFG信號59或經(jīng)譯碼前景音頻對象59)(132)。

音頻解碼裝置24可進一步調(diào)用解量化單元74。解量化單元74可對經(jīng)譯碼前景方向信息57進行熵解碼及解量化以獲得經(jīng)減少的前景方向信息55k(136)。音頻解碼裝置24還可調(diào)用心理聲學(xué)解碼單元80。心理聲學(xué)音頻譯碼單元80可解碼經(jīng)編碼環(huán)境HOA系數(shù)59及經(jīng)編碼前景信號61以獲得經(jīng)能量補償?shù)沫h(huán)境HOA系數(shù)47'及經(jīng)內(nèi)插的前景信號49'(138)。心理聲學(xué)解碼單元80可將能量補償環(huán)境HOA系數(shù)47'傳遞到淡化單元770且將nFG信號49'傳遞到前景制訂單元78。

音頻解碼裝置24接下來可調(diào)用空間-時間內(nèi)插單元76??臻g-時間內(nèi)插單元76可接收經(jīng)重排序的前景方向信息55k'且相對于經(jīng)減少的前景方向信息55k/55k-1執(zhí)行空間-時間內(nèi)插以產(chǎn)生經(jīng)內(nèi)插的前景方向信息55k″(140)??臻g-時間內(nèi)插單元76可將經(jīng)內(nèi)插的前景V[k]向量55k″轉(zhuǎn)發(fā)到淡化單元770。

音頻解碼裝置24可調(diào)用淡化單元770。淡化單元770可(例如,從提取單元72)接收或以其它方式獲得指示經(jīng)能量補償環(huán)境HOA系數(shù)47'何時在轉(zhuǎn)變中的語法元素(例如,AmbCoeffTransition語法元素)。淡化單元770可基于轉(zhuǎn)變語法元素和維持的轉(zhuǎn)變狀態(tài)信息而淡入或淡出能量補償環(huán)境HOA系數(shù)47',從而將經(jīng)調(diào)整環(huán)境HOA系數(shù)47″輸出到HOA系數(shù)制訂單元82。淡化單元770還可基于語法元素和維持的轉(zhuǎn)變狀態(tài)信息而淡出或淡入經(jīng)內(nèi)插前景V[k]向量55k″的對應(yīng)一或多個元素,從而將經(jīng)調(diào)整前景V[k]向量55k″'輸出到前景制訂單元78(142)。

音頻解碼裝置24可調(diào)用前景制訂單元78。前景制訂單元78可執(zhí)行nFG信號49'與經(jīng)調(diào)整前景方向信息55k″'的矩陣乘法以獲得前景HOA系數(shù)65(144)。音頻解碼裝置24還可調(diào)用HOA系數(shù)制訂單元82。HOA系數(shù)制訂單元82可將前景HOA系數(shù)65與經(jīng)調(diào)整環(huán)境HOA系數(shù)47″相加以便獲得HOA系數(shù)11'(146)。

圖7是說明圖2到4的實例中所示的位流21的部分250的圖。圖7的實例中所示的部分250可被稱為位流21的HOAConfig部分250,且包含HOAOrder字段、MinAmbHoaOrder字段、方向信息字段253、CodedSpatialInterpolationTime字段254、SpatialInterpolationMethod字段255、CodedVVecLength字段256以及增益信息字段257。如圖7的實例中所示,CodedSpatialInterpolationTime字段254可包括三位字段,SpatialInterpolationMethod字段255可包括一位字段,且CodedVVecLength字段256可包括兩位字段。

部分250還包含SingleLayer字段240和FrameLengthFactor字段242。SingleLayer字段240可表示指示是否使用多個層來表示HOA系數(shù)的經(jīng)譯碼版本或者是否使用單個層來表示HOA coefficinets的經(jīng)譯碼版本的一或多個位。FramelengthFactor字段242表示指示幀長度因數(shù)的一或多個位,其在下文相對于圖12更詳細論述。

圖8是說明根據(jù)本發(fā)明中所描述的技術(shù)的各種方面指定的實例幀249S及249T的圖。在圖8的實例中,幀249S和249T各自包含四個輸送信道275A到275D。輸送信道275A包含指示ChannelSideInfoData 154A和HOAGainCorrectionData的標(biāo)頭位。輸送信道275A還包含指示VVectorData 156A的有效負載位。輸送信道275B包含指示ChannelSideInfoData 154B和HOAGainCorrectionData的標(biāo)頭位。輸送信道275B還包含指示VVectorData 156B的有效負載位。輸送信道275C和275D不用于幀249S。幀275T在輸送信道275A到275D方面大體上類似于幀249S。

圖9是說明根據(jù)本文所描述的技術(shù)的至少一個位流的一或多個信道的實例幀的圖。位流450包含幀810A到810H,其可各自包含一或多個信道。位流450可為圖9的實例中所示的位流21的一個實例。在圖9的實例中,音頻解碼裝置24維持狀態(tài)信息,更新所述狀態(tài)信息以確定如何解碼當(dāng)前幀k。音頻解碼裝置24可利用來自配置814的狀態(tài)信息以及幀810B到810D。

換句話說,音頻編碼裝置20可在位流產(chǎn)生單元42內(nèi)包含例如維持用于對幀810A到810E中的每一者進行編碼的狀態(tài)信息的狀態(tài)機402,因為位流產(chǎn)生單元42可基于狀態(tài)機402指定用于幀810A到810E中的每一者的語法元素。

音頻解碼裝置24可同樣在位流提取單元72內(nèi)包含例如類似的狀態(tài)機402,其基于狀態(tài)機402而輸出語法元素(其中一些未在位流21中顯式地指定)。音頻解碼裝置24的狀態(tài)機402可以類似于音頻編碼裝置20的狀態(tài)機402的方式操作。因此,音頻解碼裝置24的狀態(tài)機402可維持狀態(tài)信息,基于配置814更新所述狀態(tài)信息,以及在圖9的實例中幀810B到810D的解碼。基于所述狀態(tài)信息,位流提取單元72可基于由狀態(tài)機402維持的狀態(tài)信息而提取幀810E。所述狀態(tài)信息可提供若干隱式語法元素,當(dāng)對幀810E的各種輸送信道進行解碼時音頻編碼裝置20可利用所述語法元素。

圖10說明用于獲得如本文所描述的空間-時間內(nèi)插的技術(shù)的表示。圖3的實例中所示的音頻編碼裝置20的空間-時間內(nèi)插單元50可執(zhí)行下文更詳細地描述的空間-時間內(nèi)插??臻g-時間內(nèi)插可包含在空間和時間維度兩者中獲得較高分辨率空間分量??臻g分量可基于由較高階立體混響(HOA)系數(shù)(或HOA系數(shù)也可以稱為“球諧系數(shù)”)構(gòu)成的多維信號的正交分解。

在所說明的曲線圖中,向量V1和V2表示多維信號的兩個不同空間分量的對應(yīng)向量??臻g分量可通過多維信號的逐塊分解而獲得。在一些實例中,空間分量是通過相對于較高階立體混響(HOA)音頻數(shù)據(jù)(其中此立體混響音頻數(shù)據(jù)包含塊、樣本或任何其它形式的多信道音頻數(shù)據(jù))的每一塊(其可指代幀)執(zhí)行逐塊形式的SVD而得到。變量M可用以表示音頻幀的長度(以樣本數(shù)計)。

因此,V1和V2可表示用于HOA系數(shù)11的順序塊的前景V[k]向量51k和前景V[k-1]向量51k-1的對應(yīng)向量。V1可例如表示第一幀(k-1)的前景V[k-1]向量51k-1的第一向量,而V2可表示第二且后續(xù)幀(k)的前景V[k]向量51k的第一向量。V1及V2可表示包含在多維信號中的單個音頻對象的空間分量。

用于每一x的經(jīng)內(nèi)插向量Vx是通過根據(jù)多維信號(經(jīng)內(nèi)插向量Vx可應(yīng)用于所述多維信號以平滑化時間(且因此,在一些情況下,空間)分量)的時間分量的時間片段或“時間樣本”的數(shù)目x對V1及V2進行加權(quán)而獲得。如上文所描述,采用SVD組成,可通過對每一時間樣本向量(例如,HOA系數(shù)11的樣本)與對應(yīng)經(jīng)內(nèi)插Vx進行向量除法來獲得nFG信號49的平滑。即,US[n]=HOA[n]*Vx[n]-1,其中此表示行向量乘以列向量,因而產(chǎn)生US的標(biāo)量元素。Vx[n]-1可作為Vx[n]的偽逆而獲得。

相對于V1及V2的加權(quán),歸因于在時間上在V1之后出現(xiàn)的V2,V1的權(quán)數(shù)沿著時間維度按比例較低。即,盡管前景V[k-1]向量51k-1為分解的空間分量,但時間上連續(xù)的前景V[k]向量51k隨時間推移表示空間分量的不同值。因此,V1的權(quán)數(shù)減小,而V2的權(quán)數(shù)隨著x沿著t增大而增長。此處,d1及d2表示權(quán)數(shù)。

圖11是說明根據(jù)本文所述的技術(shù)的用于多維信號的依序SVD塊的人工US矩陣(US1及US2)的框圖。經(jīng)內(nèi)插V向量可應(yīng)用于人工US矩陣的行向量以恢復(fù)原始多維信號。更具體來說,空間-時間內(nèi)插單元50可將經(jīng)內(nèi)插前景V[k]向量53的偽逆乘以nFG信號49與前景V[k]向量51k(其可表示為前景HOA系數(shù))的相乘結(jié)果以獲得K/2經(jīng)內(nèi)插樣本,其可代替nFG信號的K/2樣本用作第一K/2樣本,如U2矩陣的圖11的實例中所示。

圖12是說明根據(jù)本發(fā)明中所描述的技術(shù)使用奇異值分解及空間時間分量的平滑來分解較高階立體混響(HOA)信號的后續(xù)幀的框圖。幀n-1及幀n(其也可以表示為幀n及幀n+1)表示時間上連續(xù)的幀,其中每一幀包括1024個時間片段且具有HOA階數(shù)4,從而得出(4+1)2=25個系數(shù)??赏ㄟ^如所說明應(yīng)用經(jīng)內(nèi)插V向量而獲得為幀n-1及幀n處的經(jīng)人工平滑的U矩陣的US矩陣。每一灰色行或列向量表示一個音頻對象。

計算作用中基于向量的信號的HOA表示

通過取表示于XVECk中的基于向量的信號中的每一者且將其與其對應(yīng)(經(jīng)解量化)空間向量VVECk相乘而產(chǎn)生瞬時CVECk。每一VVECk表示于MVECk中。因而,對于N階HOA信號及M個基于向量的信號,將存在M個基于向量的信號,其中的每一者將具有由幀長度P給出的維度。這些信號可因此表示為:XVECkmn,n=0,..P-1;m=0,..M-1。對應(yīng)地,將存在M個空間向量,維度(N+1)2的VVECk。這些可表示為MVECkml,l=0,..,(N+1)2-l;m=0,..,M-1。每一基于向量的信號的HOA表示CVECkm是如下給出的矩陣向量乘法:

CVECkm=(XVECkm(MVECkm)T)T

其產(chǎn)生(N+1)2乘P的矩陣。通過將每一基于向量的信號的貢獻求和而給出完整HOA表示如下:

CVECk=m=0M-1CVECk[m]

V向量的空間-時間內(nèi)插

然而,為了維持平滑的空間-時間連續(xù)性,僅對于幀長度的部分P-B進行以上計算。改為通過使用從當(dāng)前MVECkm及先前值MVECk-1m導(dǎo)出的經(jīng)內(nèi)插集合MVECkml(m=0,..,M-1;l=0,..,(N+1)2)進行HOA矩陣的前B個樣本。此導(dǎo)致較高時間密度空間向量,因為我們?nèi)缦聦τ诿恳粫r間樣本p導(dǎo)出一向量:

MVECkmp=pB-1MVECkm+B-1-pB-1MVECk-1m,p=0,..,B-1。

對于每一時間樣本p,具有(N+1)2個維度的新HOA向量計算為:

CVECkp=(XVECkmp)MVECkmp,p=0,..,B-1

通過先前區(qū)段的P-B樣本增強這些前B個樣本以導(dǎo)致第m基于向量的信號的完整HOA表示CVECkm。

在解碼器(例如,圖5的實例中所示的音頻解碼裝置24)處,對于某些相異、前景或基于向量的優(yōu)勢聲音,可使用線性(或非線性)內(nèi)插來內(nèi)插來自前一幀的V向量及來自當(dāng)前幀的V向量以產(chǎn)生特定時間片段內(nèi)的較高分辨率(在時間上)經(jīng)內(nèi)插V向量。空間時間內(nèi)插單元76可執(zhí)行此內(nèi)插,其中空間-時間內(nèi)插單元76可接著將當(dāng)前幀中的US向量與較高分辨率經(jīng)內(nèi)插V向量相乘以產(chǎn)生所述特定時間片段內(nèi)的HOA矩陣。

或者,空間-時間內(nèi)插單元76可將US向量與當(dāng)前幀的V向量相乘以產(chǎn)生第一HOA矩陣。此外,解碼器可將US向量與來自前一幀的V向量相乘以產(chǎn)生第二HOA矩陣??臻g-時間內(nèi)插單元76可接著將線性(或非線性)內(nèi)插應(yīng)用于特定時間片段內(nèi)的第一HOA矩陣及第二HOA矩陣。假定共同輸入矩陣/向量,此內(nèi)插的輸出可匹配US向量與經(jīng)內(nèi)插V向量的乘法的輸出。

在一些實例中,將對于其執(zhí)行內(nèi)插的時間片段的大小可隨幀長度而變。換句話說,音頻編碼裝置20可經(jīng)配置以相對于某一幀長度操作或可配置以相對于若干不同幀長度操作。音頻編碼裝置20可支持的實例幀長度包含768、1024、2048和4096。不同幀長度可導(dǎo)致可能的時間片段長度的不同集合(其中可在樣本數(shù)目方面指定時間片段)。以下表指定隨幀長度(可由變量L表示)而變的可能的時間片段長度的不同集合。

在前述表中,語法元素“CodedSpatialInterpolationTime”表示指示空間內(nèi)插時間的一或多個位。如上所述,變量L表示幀長度。對于768的幀長度,可能的時間片段長度在此實例中由0、32、64、128、256、384、512和768的集合界定。用于當(dāng)前幀的一個值由CodedSpatialInterpolationTime語法元素的值指定,其中零的值指示0的時間片段長度,一的值指示32等等的時間片段長度。對于1024的幀長度,可能的時間片段長度在此實例中由0、64、128、256、384、512、768和1024的集合界定。用于當(dāng)前幀的一個值由CodedSpatialInterpolationTime語法元素的值指定,其中零的值指示0的時間片段長度,一的值指示64等等的時間片段長度。對于2048的幀長度,可能的時間片段長度由0、128、256、512、768、1024、1536和2048的集合界定。用于當(dāng)前幀的一個值由CodedSpatialInterpolationTime語法元素的值指定,其中零的值指示0的時間片段長度,一的值指示128等等的時間片段長度。對于4096的幀長度,可能的時間片段長度在此實例中由0、256、512、1024、1536、2048、3072和4096的集合界定。用于當(dāng)前幀的一個值由CodedSpatialInterpolationTime語法元素的值指定,其中零的值指示0的時間片段長度,一的值指示256等等的時間片段長度。

音頻編碼裝置20的空間-時間內(nèi)插單元50可相對于選自由幀長度L識別的對應(yīng)集合的若干不同時間片段執(zhí)行內(nèi)插??臻g-時間內(nèi)插單元50可選擇使跨越幀邊界的轉(zhuǎn)變充分平滑(例如,在信噪比方面)且需要最少數(shù)目樣本(假定內(nèi)插可為在功率、復(fù)雜性、操作等方面相對昂貴的操作)的時間片段。

空間-時間內(nèi)插單元50可以任何數(shù)目的不同方式獲得幀長度L。在一些實例中,音頻編碼裝置20以預(yù)設(shè)幀速率配置(其可經(jīng)硬譯碼,或換句話說,經(jīng)靜態(tài)地配置或手動地被配置作為配置音頻編碼裝置20以對HOA系數(shù)11進行編碼的部分)。在一些實例中,音頻編碼裝置20可基于心理聲學(xué)音頻譯碼器單元40的核心譯碼器幀長度指定幀長度。關(guān)于標(biāo)題為“信息技術(shù)-MPEG音頻技術(shù)-部分3:統(tǒng)一語音和音頻譯碼”的ISO/IEC23003-3:2012中的“coreCoderFrameLength”的論述可找到關(guān)于核心譯碼器幀長度的更多信息。

當(dāng)基于核心譯碼器幀長度確定時,音頻編碼裝置20可參考下表:

表—FrameLengthFactor定義

在前述表中,音頻編碼裝置20可設(shè)定一或多個位(由語法元素“FrameLengthFactor”表示),其指示將乘以上表的第一列中指定的核心譯碼器幀長度的因數(shù)。音頻編碼裝置20可基于各種譯碼準(zhǔn)則而選擇1、1/2和1/4的幀長度因數(shù)中的一者,或可基于以各種因數(shù)中的每一者對幀進行譯碼的嘗試而選擇因數(shù)中的一者。音頻編碼裝置20可例如確定核心譯碼器幀長度是4096且選擇1、1/2或1/4的幀長度因數(shù)。音頻編碼裝置20可在位流21的HOAConfig部分(如上相對于圖7的實例所述)中用信號表示幀長度因數(shù),其中00(二進制)的值指示1的幀長度因數(shù),01(二進制)的值指示1/2的幀長度因數(shù),且10(二進制)的值指示1/4的幀長度因數(shù)。音頻編碼裝置20還可將幀長度L確定為核心譯碼器幀長度乘以幀長度因數(shù)(例如,1、1/2或1/4)。

在這方面中,音頻編碼裝置20可至少部分地基于指示幀長度(L)的一或多個位和指示空間-時間內(nèi)插時間的一或多個位(例如,codedSpatioInterpolationTime語法元素)而獲得時間片段。音頻編碼裝置20還可通過至少部分地相對于第一多個球諧系數(shù)的第一分解和第二多個球諧系數(shù)的第二分解執(zhí)行內(nèi)插而獲得時間片段的經(jīng)分解的經(jīng)內(nèi)插球諧系數(shù)。

音頻解碼裝置24可執(zhí)行與上文相對于音頻編碼裝置20描述的那些操作大體上類似的操作。確切地說,音頻解碼裝置24的空間-時間內(nèi)插單元76可獲得隨指示幀長度因數(shù)的一或多個位(例如,frameLengthFactor語法元素)和核心譯碼器幀長度(其也可以由心理聲學(xué)音頻編碼單元40在位流21中指定)而變的幀長度??臻g-時間內(nèi)插單元76還可獲得指示空間-時間內(nèi)插時間的一或多個位(例如,CodedSpatialInterpolationTime語法元素)。空間-時間內(nèi)插單元76可使用幀長度L和codedSpatialInterpolationTim語法元素作為識別時間片段長度的鍵而在上文提到的表中執(zhí)行查找。音頻解碼裝置24接著可針對所獲得時間片段以上文所描述的方式執(zhí)行內(nèi)插。

在這方面中,音頻解碼裝置24可至少部分地基于指示幀長度(L)的一或多個位和指示空間-時間內(nèi)插時間的一或多個位(例如,codedSpatioInterpolationTime語法元素)而獲得時間片段。音頻解碼裝置24還可通過至少部分地相對于第一多個球諧系數(shù)的第一分解和第二多個球諧系數(shù)的第二分解執(zhí)行內(nèi)插而獲得時間片段的經(jīng)分解的經(jīng)內(nèi)插球諧系數(shù)。

圖13是說明經(jīng)配置以執(zhí)行本發(fā)明中描述的一或多個技術(shù)的一或多個音頻編碼器和音頻解碼器的圖。如上文所論述,SVD可用作HOA信號壓縮系統(tǒng)的基礎(chǔ)。在一些實例中,HOA信號H可經(jīng)分解為USV'('是矩陣的轉(zhuǎn)置)。在一些實例中,US和V矩陣的第一少數(shù)行可經(jīng)界定為背景信號(例如,環(huán)境信號),且US和V矩陣的第一少數(shù)列可經(jīng)界定為前景信號。在一些實例中,背景和前景信號可以類似方式交叉淡化。然而,以類似方式交叉淡化背景和前景信號可導(dǎo)致執(zhí)行冗余計算。為了減少執(zhí)行的計算且改善系統(tǒng)的其它方面,本發(fā)明描述用于背景信號的新交叉淡化算法。

在一些系統(tǒng)中,US矩陣和V矩陣分別單獨地經(jīng)交叉淡化為US_C矩陣(例如,經(jīng)交叉淡化US矩陣)和V_C矩陣(例如,經(jīng)交叉淡化V矩陣)。隨后,經(jīng)交叉淡化HOA信號H_C可經(jīng)重構(gòu)為US_C*V_C'。根據(jù)本發(fā)明的一或多種技術(shù),原始HOA信號H可經(jīng)重構(gòu)為USV'(例如,在交叉淡化之前)。接著可如貫穿本發(fā)明所描述在HOA域中執(zhí)行交叉淡化。

如上所述,幀的長度(或換句話說,樣本的數(shù)目)可變化(例如,隨核心譯碼器幀長度而變)。幀長度的差連同空間-時間內(nèi)插時間的不同集合如上文所描述可影響交叉淡化。一般來說,由CodedSpatialInterpolationTime語法元素識別的空間-時間內(nèi)插時間和幀長度L可指定將交叉淡化的樣本的數(shù)目。如圖13的實例中所示,U矩陣的大小是(L+SpatialInterpolationTime)*25,其中SpatialInterpolationTime變量表示使用上文相對于圖12所論述的表隨CodedSpatialInterpolationTime語法元素和L而變獲得的空間內(nèi)插時間。當(dāng)L等于1024且CodedSpatialInterpolationTime語法元素的值等于三時SpatialInterpolationTime的實例值可為256。當(dāng)L等于2048且CodedSpatialInterpolationTime語法元素的值等于三時將用于下文說明的目的的SpatialInterpolationTime的另一實例值可為512。在此說明性實例下,L+SpatialInterpolationTime等于2048+512或2560。

在任何情況下,背景HOA系數(shù)在此實例中具有尺寸2560*4。交叉淡化因此在前一幀的SptailInterpolationTime數(shù)目的樣本(例如,512樣本)與當(dāng)前幀的第一SptailInterpolationTime數(shù)目的樣本(例如,512樣本)之間發(fā)生。輸出因此是L個樣本,其經(jīng)AAC或USAC譯碼。因此,用于空間時間內(nèi)插V向量的SpatialInterpolationTime還可識別對其執(zhí)行交叉淡化的樣本的數(shù)目。以此方式,指示FrameLength的一個或多個位和指示空間-時間內(nèi)插時間的一或多個位可影響交叉淡化持續(xù)時間。

此外,能量補償單元38可通過將開窗函數(shù)應(yīng)用于VBG[k]向量35BG以產(chǎn)生經(jīng)能量補償VBG[k]向量35BG'而執(zhí)行能量補償以產(chǎn)生環(huán)境HOA系數(shù)47'。所述開窗函數(shù)可包括具有等于幀長度L的長度的開窗函數(shù)。在這方面中,能量補償單元38可至少部分地在指示幀長度因數(shù)的一或多個位(例如,F(xiàn)rameLengthFactor語法元素)上使用獲得的用于能量補償?shù)南嗤瑤L度L。

交叉淡化單元66的混合器單元70可組合(例如,在其間交叉淡化)當(dāng)前幀的經(jīng)能量補償環(huán)境HOA系數(shù)47'的第一部分73與前一幀的經(jīng)能量補償環(huán)境HOA系數(shù)47'的第三部分76以產(chǎn)生中間經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)77?;旌掀鲉卧?0可將所產(chǎn)生中間經(jīng)交叉淡化的經(jīng)能量補償環(huán)境HOA系數(shù)77輸出到成幀單元71。由于在此實例中混合器單元70利用前一幀的經(jīng)能量補償環(huán)境HOA系數(shù)47'的第三部分76,因此可假定交叉淡化單元66在處理當(dāng)前幀之前是在操作中。因此,與分開地使當(dāng)前幀的US矩陣與前一幀的US矩陣進行交叉淡化且使當(dāng)前幀的V矩陣與前一幀的V矩陣進行交叉淡化相反,混合器單元70可在能量補償域中進行交叉淡化。以此方式,根據(jù)本發(fā)明的技術(shù)可減少交叉淡化單元66的計算負載、電力消耗和/或復(fù)雜性。

可相對于任何數(shù)目個不同情形及音頻生態(tài)系統(tǒng)執(zhí)行前述技術(shù)。下文描述多個實例情形,但所述技術(shù)不應(yīng)限于所述實例情形。一個實例音頻生態(tài)系統(tǒng)可包含音頻內(nèi)容、電影工作室、音樂工作室、游戲音頻工作室、基于信道的音頻內(nèi)容、譯碼引擎、游戲音頻原聲、游戲音頻譯碼/再現(xiàn)引擎,以及遞送系統(tǒng)。

電影工作室、音樂工作室及游戲音頻工作室可接收音頻內(nèi)容。在一些實例中,音頻內(nèi)容可表示獲取的輸出。電影工作室可例如通過使用數(shù)字音頻工作站(DAW)輸出基于信道的音頻內(nèi)容(例如,呈2.0、5.1及7.1)。音樂工作室可例如通過使用DAW輸出基于信道的音頻內(nèi)容(例如,呈2.0及5.1)。在任一情況下,譯碼引擎可基于一或多個編解碼器(例如,AAC、AC3、Dolby True HD、Dolby Digital Plus及DTS MasterAudio)接收并編碼基于信道的音頻內(nèi)容以供傳遞系統(tǒng)輸出。游戲音頻工作室可例如通過使用DAW輸出一或多個游戲音頻原聲。游戲音頻譯碼/再現(xiàn)引擎可譯碼音頻原聲及或?qū)⒁纛l原聲再現(xiàn)成基于信道的音頻內(nèi)容以供傳遞系統(tǒng)輸出??蓤?zhí)行所述技術(shù)的另一實例情形包括音頻生態(tài)系統(tǒng),其可包含廣播記錄音頻對象、專業(yè)音頻系統(tǒng)、消費型裝置上捕獲、HOA音頻格式、裝置上再現(xiàn)、消費型音頻、TV及附件及汽車音頻系統(tǒng)。

廣播記錄音頻對象、專業(yè)音頻系統(tǒng)及消費型裝置上捕獲都可使用HOA音頻格式對其輸出進行譯碼。以此方式,可使用HOA音頻格式將音頻內(nèi)容譯碼成單一表示,可使用裝置上再現(xiàn)、消費型音頻、TV及附件及汽車音頻系統(tǒng)重放所述單一表示。換句話說,可在通用音頻重放系統(tǒng)(即,與需要例如5.1、7.1等的特定配置相比)(例如,音頻重放系統(tǒng)16)處重放音頻內(nèi)容的單一表示。

可執(zhí)行所述技術(shù)的情形的其它實例包含可包含獲取元件及重放元件的音頻生態(tài)系統(tǒng)。獲取元件可包含有線及/或無線獲取裝置(例如,本征麥克風(fēng))、裝置上環(huán)繞聲捕獲及移動裝置(例如,智能電話及平板計算機)。在一些實例中,有線及/或無線獲取裝置可經(jīng)由有線及/或無線通信信道耦合到移動裝置。

根據(jù)本發(fā)明的一或多個技術(shù),移動裝置可用于獲取聲場。舉例來說,移動裝置可經(jīng)由有線及/或無線獲取裝置及/或裝置上環(huán)繞聲捕獲(例如,集成到移動裝置中的多個麥克風(fēng))獲取聲場。移動裝置可接著將所獲取聲場譯碼成HOA系數(shù)以用于由重放元件中的一或多者重放。舉例來說,移動裝置的用戶可記錄實況事件(例如,集會、會議、比賽、音樂會等)(獲取實況事件的聲場),且將記錄譯碼至HOA系數(shù)中。

移動裝置還可利用重放元件中的一或多者來重放經(jīng)HOA譯碼聲場。舉例來說,移動裝置可對經(jīng)HOA譯碼的聲場進行解碼,且將致使重放元件中的一或多者重新產(chǎn)生聲場的信號輸出到重放元件中的一或多者。作為一個實例,移動裝置可利用無線及/或無線通信信道將信號輸出到一或多個揚聲器(例如,揚聲器陣列、聲棒等)。作為另一實例,移動裝置可利用對接解決方案將信號輸出到一或多個對接站及/或一或多個對接揚聲器(例如,智能汽車及/或家庭中的聲音系統(tǒng))。作為另一實例,移動裝置可利用頭戴式耳機再現(xiàn)將信號輸出到一組頭戴式耳機(例如)以產(chǎn)生實際的立體聲聲音。

在一些實例中,特定移動裝置可獲取3D聲場并且在稍后時間重放同一3D聲場。在一些實例中,移動裝置可獲取3D聲場,將3D聲場編碼為HOA且將經(jīng)編碼3D聲場發(fā)射到一或多個其它裝置(例如,其它移動裝置及/或其它非移動裝置)以用于重放。

可執(zhí)行所述技術(shù)的又一情形包含音頻生態(tài)系統(tǒng),其可包含音頻內(nèi)容、游戲工作室、經(jīng)譯碼音頻內(nèi)容、再現(xiàn)引擎及傳遞系統(tǒng)。在一些實例中,游戲工作室可包含可支持HOA信號的編輯的一或多個DAW。舉例來說,所述一或多個DAW可包含可經(jīng)配置以與一或多個游戲音頻系統(tǒng)一起操作(例如,工作)的HOA插件及/或工具。在一些實例中,游戲工作室可輸出支持HOA的新原聲格式。在任何情況下,游戲工作室可將經(jīng)譯碼音頻內(nèi)容輸出到再現(xiàn)引擎,所述再現(xiàn)引擎可再現(xiàn)聲場以供傳遞系統(tǒng)重放。

也可相對于示范性音頻獲取裝置執(zhí)行所述技術(shù)。舉例來說,可相對于可包含共同地經(jīng)配置以記錄3D聲場的多個麥克風(fēng)的本征麥克風(fēng)執(zhí)行所述技術(shù)。在一些實例中,本征麥克風(fēng)的所述多個麥克風(fēng)可位于具有大約4cm的半徑的實質(zhì)上球面球的表面上。在一些實例中,音頻編碼裝置20可集成到本征麥克風(fēng)中以便直接從麥克風(fēng)輸出位流21。

另一示范性音頻獲取情形可包含可經(jīng)配置以從一或多個麥克風(fēng)(例如,一或多個本征麥克風(fēng))接收信號的制作車。制作車還可包含音頻編碼器,例如圖3的音頻編碼器20。

在一些情況下,移動裝置還可包含共同地經(jīng)配置以記錄3D聲場的多個麥克風(fēng)。換句話說,所述多個麥克風(fēng)可具有X、Y、Z分集。在一些實例中,移動裝置可包含可旋轉(zhuǎn)以相對于移動裝置的一或多個其它麥克風(fēng)提供X、Y、Z分集的麥克風(fēng)。移動裝置還可包含音頻編碼器,例如圖3的音頻編碼器20。

加固型視頻捕獲裝置可進一步經(jīng)配置以記錄3D聲場。在一些實例中,加固型視頻捕獲裝置可附接到參與活動的用戶的頭盔。舉例來說,加固型視頻捕獲裝置可在用戶泛舟時附接到用戶的頭盔。以此方式,加固型視頻捕獲裝置可捕獲表示用戶周圍的動作(例如,水在用戶身后的撞擊、另一泛舟者在用戶前方說話等)的3D聲場。

還可相對于可經(jīng)配置以記錄3D聲場的附件增強型移動裝置執(zhí)行所述技術(shù)。在一些實例中,移動裝置可類似于上文所論述的移動裝置,其中添加一或多個附件。舉例來說,本征麥克風(fēng)可附接到上文所提及的移動裝置以形成附件增強型移動裝置。以此方式,附件增強型移動裝置可捕獲3D聲場的較高質(zhì)量版本,而不是僅使用與附件增強型移動裝置成一體式的聲音捕獲組件。

下文進一步論述可執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的實例音頻重放裝置。根據(jù)本發(fā)明的一或多個技術(shù),揚聲器及/或聲棒在重放3D聲場時可布置于任何任意配置中。此外,在一些實例中,頭戴受話器重放裝置可經(jīng)由有線或無線連接耦合到解碼器24。根據(jù)本發(fā)明的一或多個技術(shù),可利用聲場的單一通用表示來在揚聲器、聲棒及頭戴受話器重放裝置的任何組合上再現(xiàn)聲場。

多個不同實例音頻重放環(huán)境還可適合于執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面。舉例來說,以下環(huán)境可為用于執(zhí)行本發(fā)明中所描述的技術(shù)的各種方面的合適環(huán)境:5.1揚聲器重放環(huán)境、2.0(例如,立體聲)揚聲器重放環(huán)境、具有全高前擴音器的9.1揚聲器重放環(huán)境、22.2揚聲器重放環(huán)境、16.0揚聲器重放環(huán)境、汽車揚聲器重放環(huán)境,及具有耳機重放環(huán)境的移動裝置。

根據(jù)本發(fā)明的一或多個技術(shù),可利用聲場的單一通用表示來在前述重放環(huán)境中的任一者上再現(xiàn)聲場。另外,本發(fā)明的技術(shù)使得再現(xiàn)器能夠從通用表示再現(xiàn)聲場以供在除上文所描述的環(huán)境之外的重放環(huán)境上重放。舉例來說,如果設(shè)計考慮禁止揚聲器根據(jù)7.1揚聲器重放環(huán)境的恰當(dāng)置放(例如,如果不可能置放右環(huán)繞揚聲器),那么本發(fā)明的技術(shù)使得再現(xiàn)器能夠以其它6個揚聲器進行補償,使得可在6.1揚聲器重放環(huán)境上實現(xiàn)重放。

此外,用戶可在佩戴頭戴受話器時觀看運動比賽。根據(jù)本發(fā)明的一或多個技術(shù),可獲取運動比賽的3D聲場(例如,可將一或多個本征麥克風(fēng)放置于棒球場中及/或周圍),可獲得對應(yīng)于3D聲場的HOA系數(shù)且將所述HOA系數(shù)發(fā)射到解碼器,所述解碼器可基于HOA系數(shù)重構(gòu)3D聲場且將經(jīng)重構(gòu)3D聲場輸出到再現(xiàn)器,并且所述再現(xiàn)器可獲得關(guān)于重放環(huán)境的類型(例如,頭戴式耳機)的指示,且將經(jīng)重構(gòu)3D聲場再現(xiàn)成致使頭戴式耳機輸出運動比賽的3D聲場的表示的信號。

在上述各種實例中的每一者中,應(yīng)理解,音頻編碼裝置20可執(zhí)行方法,或另外包括執(zhí)行音頻編碼裝置20經(jīng)配置以執(zhí)行的方法的每一步驟的裝置。在一些情況下,所述裝置可包括一或多個處理器。在一些情況下,所述一或多個處理器可表示借助于存儲到非暫時性計算機可讀存儲媒體的指令配置的專用處理器。換句話說,編碼實例的集合中的每一者中的技術(shù)的各種方面可提供其上存儲有指令的非暫時性計算機可讀存儲媒體,所述指令在執(zhí)行時致使所述一或多個處理器執(zhí)行音頻編碼裝置20已經(jīng)配置以執(zhí)行的方法。

在一或多個實例中,所描述的功能可在硬件、軟件、固件或其任何組合中實施。如果以軟件實施,那么所述功能可以作為一或多個指令或代碼在計算機可讀媒體上存儲或傳輸,并且由基于硬件的處理單元來執(zhí)行。計算機可讀媒體可包含計算機可讀存儲媒體,其對應(yīng)于例如數(shù)據(jù)存儲媒體等有形媒體。數(shù)據(jù)存儲媒體可為可由一或多個計算機或者一或多個處理器存取以檢索用于實施本發(fā)明中描述的技術(shù)的指令、代碼及/或數(shù)據(jù)結(jié)構(gòu)的任何可用媒體。計算機程序產(chǎn)品可以包含計算機可讀媒體。

同樣,在上文所描述的各種情況中的每一者中,應(yīng)理解,音頻解碼裝置24可執(zhí)行方法或另外包括用于執(zhí)行音頻解碼裝置24經(jīng)配置以執(zhí)行的方法的每一步驟的裝置。在一些情況下,所述裝置可包括一或多個處理器。在一些情況下,所述一或多個處理器可表示借助于存儲到非暫時性計算機可讀存儲媒體的指令配置的專用處理器。換句話說,編碼實例的集合中的每一者中的技術(shù)的各種方面可提供其上存儲有指令的非暫時性計算機可讀存儲媒體,所述指令在執(zhí)行時致使所述一或多個處理器執(zhí)行音頻解碼裝置24已經(jīng)配置以執(zhí)行的方法。

借助于實例而非限制,此類計算機可讀存儲媒體可包括RAM、ROM、EEPROM、CD-ROM或其它光盤存儲裝置、磁盤存儲裝置或其它磁性存儲裝置、快閃存儲器或可以用來存儲指令或數(shù)據(jù)結(jié)構(gòu)的形式的期望程序代碼并且可以由計算機存取的任何其它媒體。然而,應(yīng)理解,所述計算機可讀存儲媒體和數(shù)據(jù)存儲媒體并不包含連接、載波、信號或其它暫時性媒體,而是實際上針對非暫時性的有形存儲媒體。如本文中所使用,磁盤和光盤包含壓縮光盤(CD)、激光光盤、光學(xué)光盤、數(shù)字多功能光盤(DVD)、軟性磁盤和藍光光盤,其中磁盤通常以磁性方式再現(xiàn)數(shù)據(jù),而光盤利用激光以光學(xué)方式再現(xiàn)數(shù)據(jù)。以上各項的組合也應(yīng)包含在計算機可讀媒體的范圍內(nèi)。

可由例如一或多個數(shù)字信號處理器(DSP)、通用微處理器、專用集成電路(ASIC)、現(xiàn)場可編程邏輯陣列(FPGA)或其它等效集成或離散邏輯電路等一或多個處理器來執(zhí)行指令。因此,如本文中所使用的術(shù)語“處理器”可指前述結(jié)構(gòu)或適合于實施本文中所描述的技術(shù)的任一其它結(jié)構(gòu)中的任一者。另外,在一些方面中,本文中所描述的功能性可以在經(jīng)配置用于編碼和解碼的專用硬件和/或軟件模塊內(nèi)提供,或者并入在組合編解碼器中。而且,所述技術(shù)可完全實施于一或多個電路或邏輯元件中。

本發(fā)明的技術(shù)可在廣泛多種裝置或設(shè)備中實施,包括無線手持機、集成電路(IC)或一組IC(例如,芯片組)。本發(fā)明中描述各種組件、模塊或單元是為了強調(diào)經(jīng)配置以執(zhí)行所公開的技術(shù)的裝置的功能方面,但未必需要由不同硬件單元實現(xiàn)。實際上,如上文所描述,各種單元可以結(jié)合合適的軟件及/或固件組合在編碼解碼器硬件單元中,或者通過互操作硬件單元的集合來提供,所述硬件單元包含如上文所描述的一或多個處理器。

已經(jīng)描述了所述技術(shù)的各種方面。所述技術(shù)的這些和其它方面在所附權(quán)利要求書的范圍內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1