技術(shù)領(lǐng)域
本發(fā)明涉及一種用于渲染(render)音頻聲場表示(具體地,涉及高保真度立體聲響復(fù)制格式的音頻表示)以供音頻回放的方法和設(shè)備。
背景技術(shù):
精確定位是任何空間音頻再現(xiàn)系統(tǒng)的關(guān)鍵目標。這種再現(xiàn)系統(tǒng)高度可應(yīng)用于會議系統(tǒng)、游戲或受益于3D聲音的其他虛擬環(huán)境。3D中的聲音場景可被合成或捕獲為自然聲場。聲場信號(例如,高保真度立體聲響復(fù)制(Ambisonics))攜帶期望聲場的表示。高保真度立體聲響復(fù)制格式基于聲場的球面諧波分解。雖然基本高保真度立體聲響復(fù)制格式或B格式使用階數(shù)0和1的球面諧波,所謂的高階高保真度立體聲響復(fù)制(HOA)還使用至少2階的其他球面諧波。需要解碼或渲染過程來從這種高保真度立體聲響復(fù)制格式的信號中獲得單獨的擴音器信號。在本文中將擴音器的空間布置稱為擴音器設(shè)置。然而,雖然已知的渲染方案僅適于常規(guī)的擴音器設(shè)置,任意的擴音器設(shè)置更加普遍。如果將這種渲染方案應(yīng)用于任何擴音器設(shè)置,聲音方向性受到損傷。
技術(shù)實現(xiàn)要素:
本發(fā)明描述了一種用于渲染/解碼針對于常規(guī)和非常規(guī)空間擴音器分布的音頻聲場表示的方法,其中,該渲染/解碼提供了高度改進的定位特性并節(jié)省了能量。具體地,本發(fā)明提供了用于獲得(例如HOA格式的)聲場數(shù)據(jù)的解碼矩陣的新方式。因為HOA格式描述了不直接涉及擴音器位置的聲場,且因為要獲得的擴音器信號必然處于基于通道的音頻格式,HOA信號的解碼與音頻信號的渲染始終緊密相關(guān)。因此,本發(fā)明涉及解碼和渲染聲場相關(guān)的音頻格式。
本發(fā)明的一個優(yōu)點是實現(xiàn)節(jié)能解碼以及非常好的定向特性。術(shù)語“節(jié)能”指的是在解碼之后保留HOA定向信號中的能量,使得例如將以恒定的響度感知恒定幅度定向空間掃描。術(shù)語“好的定向特性”指的是通過定向的主波瓣和較小的副波瓣來表征的揚聲器方向性,其中,與常規(guī)的渲染/解碼相比,提高了方向性。
本發(fā)明公開了針對任意的擴音器設(shè)置渲染聲場信號(例如,高階高保真度立體聲響復(fù)制(HOA)),其中,該渲染導(dǎo)致高度改進的定位特性,且是節(jié)能的。這是通過用于聲場數(shù)據(jù)的新類型的解碼矩陣以及用于獲得解碼矩陣的新方式來獲得的。在針對任意的空間擴音器設(shè)置渲染音頻聲場表示的方法中,通過以下步驟獲得針對目標擴音器的給定布置進行渲染的解碼矩陣:獲得目標揚聲器的數(shù)目及它們的位置、球面建模網(wǎng)格的位置以及HOA階數(shù),根據(jù)建模網(wǎng)格的位置和揚聲器的位置來生成混合矩陣,根據(jù)球面建模網(wǎng)格的位置和HOA階數(shù)來生成模式矩陣,根據(jù)混合矩陣和模式矩陣計算第一解碼矩陣,以及使用平滑和縮放系數(shù)來平滑和縮放第一解碼矩陣,以獲得節(jié)能的解碼矩陣。
在一個實施例中,如權(quán)利要求1中所述,本發(fā)明涉及一種用于解碼和/或渲染音頻聲場表示以供音頻回放的方法。在另一實施例中,如權(quán)利要求9中所述,本發(fā)明涉及一種用于解碼和/或渲染音頻聲場表示以供音頻回放的設(shè)備。在又一實施例中,如權(quán)利要求15中所述,本發(fā)明涉及其上存儲可執(zhí)行指令的計算機可讀介質(zhì),所述可執(zhí)行指令使計算機執(zhí)行一種用于解碼和/或渲染音頻聲場表示以供音頻回放的方法。
一般而言,本發(fā)明使用以下方案。首先,導(dǎo)出取決于用于回放的擴音器設(shè)置的平移(panning)函數(shù)。其次,針對擴音器設(shè)置中的所有擴音器,根據(jù)這些平移函數(shù)(或由平移函數(shù)所獲得的混合矩陣)計算解碼矩陣(例如,高保真度立體聲響復(fù)制解碼矩陣)。在第三步驟中,生成解碼矩陣并將其處理為是節(jié)能的。最后,對解碼矩陣濾波,以平滑擴音器平移主波瓣并抑制副波瓣。針對給定的擴音器設(shè)置,使用已濾波的解碼矩陣來渲染音頻信號。副波瓣是渲染的副作用,并在不想要的方向上提供音頻信號。因為針對給定的擴音器設(shè)置來優(yōu)化渲染,副波瓣是令人煩惱的。本發(fā)明的優(yōu)點之一是最小化副波瓣,使得擴音器信號的方向性得到改進。
根據(jù)本發(fā)明一個實施例,一種用于解碼和/或渲染音頻聲場表示以供音頻回放的方法包括以下步驟:緩沖接收到的HOA時間采樣b(t),其中,形成M個采樣的塊以及時間索引μ,對系數(shù)B(μ)進行濾波以獲得已頻率濾波的系數(shù)使用解碼矩陣(D)將所述已頻率濾波的系數(shù)渲染(33)到空間域,其中,獲得空間信號W(μ)。在一個實施例中,其他步驟包括:在延遲線中針對所述L個通道中的每個通道單獨延遲所述時間采樣w(t),其中,獲得L個數(shù)字信號,以及對所述L個數(shù)字信號進行數(shù)模(D/A)變換和放大,其中,獲得L個模擬擴音器信號。
用于渲染步驟(即,用來針對目標揚聲器的給定布置進行渲染)的解碼矩陣D是通過以下步驟獲得的:獲得目標揚聲器的數(shù)目和揚聲器的位置,確定球面建模網(wǎng)格的位置和HOA階數(shù),根據(jù)球面建模網(wǎng)格的位置和揚聲器的位置生成混合矩陣,根據(jù)球面建模網(wǎng)格的位置和HOA階數(shù)生成模式矩陣,根據(jù)混合矩陣G和模式矩陣計算第一解碼矩陣,以及利用平滑和縮放系數(shù)對第一解碼矩陣進行平滑和縮放,其中,獲得解碼矩陣。
根據(jù)另一方面,一種用于解碼和/或渲染音頻聲場表示以供音頻回放的設(shè)備包括具有用于獲得解碼矩陣D的解碼矩陣計算單元的渲染處理單元,解碼矩陣計算單元包括:用于獲得目標揚聲器的數(shù)目L的裝置和用于獲得揚聲器的位置的裝置;用于確定球面建模網(wǎng)格的位置的裝置和用于獲得HOA階數(shù)N的裝置;以及用于根據(jù)球面建模網(wǎng)格的位置和揚聲器的位置生成混合矩陣G的第一處理單元;用于根據(jù)球面建模網(wǎng)格和HOA階數(shù)N生成模式矩陣的第二處理單元;用于根據(jù)執(zhí)行對模式矩陣與厄米特轉(zhuǎn)置混合矩陣G的乘積的緊致奇異值分解的第三處理單元(其中,U、V是根據(jù)酉矩陣導(dǎo)出的,以及S是具有奇異值項的對角矩陣);用于根據(jù)來由U、V矩陣計算第一解碼矩陣的計算裝置,其中是單位矩陣或?qū)蔷仃?,所述對角矩陣是根?jù)所述具有奇異值項的對角矩陣導(dǎo)出的;以及用于利用平滑系數(shù)對第一解碼矩陣進行平滑和縮放的平滑及縮放單元,其中,獲得解碼矩陣D。
根據(jù)又一方面,一種計算機可讀介質(zhì)在其上存儲有可執(zhí)行指令,當在計算機上執(zhí)行該可執(zhí)行指令時,該可執(zhí)行指令使計算機執(zhí)行上述用于解碼音頻聲場表示以供音頻回放的方法。
當與附圖結(jié)合時,根據(jù)對以下描述和所附權(quán)利要求的考慮,本發(fā)明的其他目標、特征和優(yōu)點將變得顯而易見。
附圖說明
參考附圖對本發(fā)明的示例性實施方式進行描述,在附圖中:
圖1是根據(jù)本發(fā)明的一個實施例的方法的流程圖;
圖2是用于構(gòu)建混合矩陣G的方法的流程圖;
圖3是渲染器的框圖;
圖4是解碼矩陣生成過程的示意性步驟的流程圖;
圖5是解碼矩陣生成單元的框圖;
圖6是示例性的16個揚聲器的設(shè)置,其中,揚聲器被示出為連接的節(jié)點;
圖7是自然視角下的示例性的16個揚聲器的設(shè)置,其中,節(jié)點被示出為揚聲器;
圖8是示出比率的能量圖,該比率針對于利用現(xiàn)有技術(shù)[14]獲得的解碼矩陣的完美節(jié)能特征是恒定的,其中,N=3;
圖9是針對根據(jù)現(xiàn)有技術(shù)[14](N=3)設(shè)計的解碼矩陣的聲壓圖,其中,中心揚聲器的平移(panning)波束具有強的副波瓣;
圖10是示出比率的能量圖,該比率的波動比利用現(xiàn)有技術(shù)[2]獲得的解碼矩陣的4dB大,其中,N=3;
圖11是針對根據(jù)現(xiàn)有技術(shù)[2](N=3)設(shè)計的解碼矩陣的聲壓圖,其中,中心揚聲器的平移波束具有較小的副波瓣;
圖12是示出比率的能量圖,該比率的波動比通過根據(jù)本發(fā)明的方法或裝置獲得的1dB小,其中,利用相等的響度感知到具有恒定幅度的空間平移;
圖13是針對利用根據(jù)本發(fā)明的方法設(shè)計的解碼矩陣的聲壓圖,其中,中心揚聲器具有帶有較小副波瓣的平移波束。
具體實施方式
大體上,本發(fā)明涉及向擴音器渲染(即,解碼)聲場格式的音頻信號(例如,高階高保真度立體聲響復(fù)制(HOA)音頻信號),其中,擴音器位于對稱或不對稱、常規(guī)或非常規(guī)位置。音頻信號可適于饋送比可用擴音器更多的擴音器,例如,HOA系數(shù)的數(shù)目可以大于擴音器的數(shù)目。本發(fā)明以非常好的定向特性為解碼器提供了節(jié)能解碼矩陣,即,與利用常規(guī)解碼矩陣所獲得的揚聲器方向性波瓣相比,揚聲器方向性波瓣大體上包括更強的定向主波瓣和較小的副波瓣。節(jié)能指的是在解碼之后保留HOA方向性信號中的能量,使得例如以恒定的響度感知恒定幅度定向空間掃描。
圖1輸出了根據(jù)本發(fā)明的一個實施例的方法的流程圖。在該實施例中,用于渲染(即,解碼)HOA音頻聲場表示以供音頻回放的方法使用如下生成的解碼矩陣:首先,確定11目標擴音器的數(shù)目L、擴音器的位置球面建模網(wǎng)格和階數(shù)N(例如,HOA階數(shù))。根據(jù)揚聲器的位置和球面建模網(wǎng)格生成12混合矩陣G,以及根據(jù)球面建模網(wǎng)格和HOA階數(shù)N,生成13模式矩陣根據(jù)混合矩陣G和模式矩陣計算14第一解碼矩陣利用平滑系數(shù)平滑15第一解碼矩陣其中,獲得已平滑解碼矩陣以及利用根據(jù)已平滑解碼矩陣D獲得的縮放因子來縮放16已平滑解碼矩陣其中,獲得解碼矩陣D。在一個實施例中,平滑15和縮放16在單個步驟中執(zhí)行。
在一個實施例中,通過兩種不同方法中的一種來獲得平滑系數(shù)這取決于擴音器的數(shù)目L和HOA系數(shù)通道的數(shù)目O3D=(N+1)2。如果擴音器的數(shù)目L低于HOA系數(shù)通道的數(shù)目O3D,使用用于獲得平滑系數(shù)的新方法。
在一個實施例中,生成對應(yīng)于多個不同擴音器布置的多個解碼矩陣,并將其存儲以供后續(xù)使用。不同的擴音器布置可以在以下至少一方面不同:擴音器的數(shù)目、一個或多個擴音器的位置、以及輸入音頻信號的階數(shù)N。因此,在初始化渲染系統(tǒng)時,確定匹配解碼矩陣,根據(jù)當前需要從存儲器獲取該匹配解碼矩陣,并將其用于解碼。
在一個實施例中,通過根據(jù)執(zhí)行對模式矩陣與厄米特轉(zhuǎn)置混合矩陣GH的乘積的緊致奇異值分解(compact singular value decomposition),并根據(jù)由矩陣U、V計算第一解碼矩陣獲得解碼矩陣D。U、V是根據(jù)酉矩陣導(dǎo)出的,以及S是具有模式矩陣與厄米特轉(zhuǎn)置混合矩陣GH的乘積的緊致奇異值分解的奇異值元素的對角矩陣。根據(jù)本實施例獲得的解碼矩陣通常在數(shù)值上比利用下述備選實施例獲得的解碼矩陣更加穩(wěn)定。矩陣的厄米特轉(zhuǎn)置是該矩陣的復(fù)共軛轉(zhuǎn)置。
在備選實施例中,通過根據(jù)執(zhí)行對厄米特轉(zhuǎn)置模式矩陣與混合矩陣G的乘積的緊致奇異值分解,獲得解碼矩陣D,其中,通過導(dǎo)出第一解碼矩陣。
在一個實施例中,根據(jù)對模式矩陣和混合矩陣G執(zhí)行緊致奇異值分解,其中,通過導(dǎo)出第一解碼矩陣,其中,是通過將大于等于閾值thr的所有奇異值替換為1并將小于該閾值thr的元素替換為0,根據(jù)奇異值分解矩陣S導(dǎo)出的截斷緊致奇異值分解矩陣。閾值thr取決于奇異值分解矩陣的實際值,且示例性地,可以在0.06*S1(S的最大元素)的量級上。
在一個實施例中,根據(jù)對模式矩陣和混合矩陣G執(zhí)行緊致奇異值分解,其中,通過導(dǎo)出第一解碼矩陣。和閾值thr如上針對之前實施例所述。閾值thr通常是根據(jù)最大奇異值導(dǎo)出的。
在一個實施例中,根據(jù)HOA階數(shù)N和目標揚聲器的數(shù)目L,使用兩種不同的方法來計算平滑系數(shù):如果存在比HOA通道少的目標揚聲器,即,如果O3D=(N2+1)>L,則平滑和縮放系數(shù)對應(yīng)于常規(guī)的max rE系數(shù)集合,常規(guī)的max rE系數(shù)集合是根據(jù)階數(shù)N+1的勒讓德多項式的零導(dǎo)出的;否則如果存在足夠的目標揚聲器,即,如果O3D=(N2+1)≤L,則根據(jù)由長度等于(2N+1)且寬帶等于2N的凱撒窗的元素來構(gòu)建系數(shù)其中,縮放因子為Cf。所使用的凱撒窗的元素開始于僅被使用一次的第(N+1)個元素,并以被重復(fù)使用的后續(xù)元素繼續(xù):第(N+2)個元素被使用3次,等等。
在一個實施例中,根據(jù)已平滑的解碼矩陣來獲得縮放因子。具體地,在一個實施例中,根據(jù)以下等式獲得縮放因子
下面描述完整的渲染系統(tǒng)。本發(fā)明的主要關(guān)注點是渲染器的初始化階段,在該階段如上所述地生成解碼矩陣D。在此,主要的關(guān)注點是用于導(dǎo)出一個或多個解碼矩陣(例如,用于碼本)的技術(shù)。為了生成解碼矩陣,有多少目標擴音器可用以及它們位于何處(即,它們的位置)是已知的。
圖2示出了根據(jù)本發(fā)明的一個實施例的用于構(gòu)建混合矩陣G的方法的流程圖。在該實施例中,創(chuàng)建21僅具有零的初始混合矩陣,以及針對每個具有角方向Ωs=[θs,φs]T和半徑rs的虛擬源,執(zhí)行下面的步驟。首先,確定22環(huán)繞位置的三個擴音器l1、l2、l3,其中,采用單位半徑,且構(gòu)建23矩陣其中根據(jù)Lt=spherical_to_cartesian(R),將矩陣R變換24為笛卡爾坐標。然后,根據(jù)s=(sinΘscosφs,sinΘs sinφs,cosΘs)T構(gòu)建25虛擬源位置,且根據(jù)g=Lt-1s計算26增益g,其中,根據(jù)g=g/||g||2來歸一化27增益,且將G的對應(yīng)元素Gl,s替換為歸一化的增益:
下面一節(jié)給出對高階高保真度立體聲響復(fù)制(HOA)的簡要介紹,并定義要處理(即,針對擴音器渲染)的信號。
高階高保真度立體聲響復(fù)制(HOA)基于對感興趣的緊致區(qū)域內(nèi)的聲場的描述,該感興趣的緊致區(qū)域被假定為與聲源無關(guān)。在該情況下,在感興趣的區(qū)域內(nèi),在時間t以及位置x=[r,θ,φ]T(球面坐標:半徑r,傾角θ,方位角φ)處的聲壓p(t,x)的時空行為在物理上完全通過均勻波(homogeneous wave)等式來決定??梢允境觯筛鶕?jù)[13]將聲壓相對于時間的傅里葉變換(即,(1),其中,ω表示角頻率,且對應(yīng)于)擴展到球面諧波(SH)序列中:
在等式(2)中,Cs表示聲音的速度,以及是角波數(shù)(angular wave number)。此外,jn(·)指示第一類的且階數(shù)為n的球面貝塞爾函數(shù),以及表示階數(shù)為n且度數(shù)為m的球面諧波(SH)。與聲場有關(guān)的完整信息實際上包含在聲場系數(shù)內(nèi)。
應(yīng)該注意到,SH一般是復(fù)數(shù)取值的函數(shù)。然而,通過它們的適當線性組合,可以獲得取實數(shù)值的函數(shù),并關(guān)于這些函數(shù)執(zhí)行擴展。
關(guān)于等式(2)中的壓力聲場,可以將源場定義為:
其中,源場或幅度密度[12]D(k cs,Ω)取決于角波數(shù)和角度方向Ω=[θ,φ]T。源場可以由遠場/近場的離散/連續(xù)源組成[1]。通過以下等式,源場系數(shù)與聲場系數(shù)有關(guān)[1]:
其中,是第二類的球面漢克爾函數(shù),以及rs是相對于原點的源距離。
可以在頻域或時域中將HOA域中的信號表示為源場或聲場系數(shù)的傅里葉逆變換。下面的描述將假設(shè)使用有限數(shù)目的源場系數(shù)的時域表示:
:在n=N處截斷等式(3)中的無限序列。截斷對應(yīng)于空間帶寬限制。系數(shù)(或HOA通道)的數(shù)目被給出為:
O3D=(N+1)2對于3D (6)或?qū)τ趦H2D的描述,給出為O2D=2N+1。系數(shù)包括用于后續(xù)擴音器的再現(xiàn)的一個時間采樣t處的音頻信息。它們可被存儲或發(fā)送,并因此經(jīng)受到數(shù)據(jù)速率壓縮??赏ㄟ^具有O3D個元素的矢量b(t)來表示系數(shù)的單個時間采樣t:
以及通過矩陣來表示M個時間采樣的塊
B:=[b(tSTART+1),b(tSTART+2),..,b(tSTART+M)] (8)
可通過利用環(huán)形諧波(circular harmonic)的擴展來導(dǎo)出聲場的二維表示。這是上述的一般性描述的特殊情況,該特殊情況使用固定傾角不同的系數(shù)加權(quán)以及精簡至O2D個系數(shù)的集合(m=±n)。因此,所有下面的考慮也適用于2D表示;術(shù)語“球面”從而需要替換為術(shù)語“環(huán)形”。
在一個實施例中,將元數(shù)據(jù)與系數(shù)數(shù)據(jù)一起發(fā)送,允許明確地識別系數(shù)數(shù)據(jù)。通過所發(fā)送的元數(shù)據(jù)或因為給定的上下文,給出用于導(dǎo)出時間采樣系數(shù)矢量b(t)的所有必要信息。此外,要注意到的是,HOA階數(shù)N或O3D中的至少一個,且在一個實施例中還包括特殊標記以及用于指示近場記錄的rs,在解碼器處是已知的。接下來描述向擴音器渲染HOA信號。該節(jié)示出了解碼以及某些數(shù)學(xué)特性的基本原理。
基本解碼假設(shè):第一,平面波擴音器信號,以及第二,可以忽略從揚聲器到原點的距離??梢詫⑨槍ξ挥谇蛎娣较?l=1,...,L)處的L個擴音器所渲染的HOA系數(shù)b的時間采樣描述為[10]:
w=Db (9)
其中,表示L個揚聲器信號的時間采樣,以及解碼矩陣可通過以下等式導(dǎo)出解碼矩陣
D=Ψ+ (10)
其中,Ψ+是模式矩陣Ψ的偽取逆。模式矩陣Ψ被定義為
Ψ=[y1,...yL] (11)
其中,以及由揚聲器方向的球面諧波組成,其中,H表示復(fù)共軛轉(zhuǎn)置(也稱為厄米特)。
接下來,描述由奇異值分解(SVD)進行的矩陣的偽取逆。導(dǎo)出偽取逆的一種通用方式是首先計算緊致SVD:
Ψ=USVH (12)
其中,是根據(jù)旋轉(zhuǎn)矩陣導(dǎo)出的,以及是降序排列的奇異值S1≥S2≥…≥SK的對角矩陣,其中,K>0以及K≤min(O3D,L)。通過以下等式確定偽取逆:
其中,對于Sk具有非常小的值的不好的條件矩陣,將對應(yīng)的逆值替換為0。這被稱為截斷奇異值分解。通常,選擇關(guān)于最大奇異值S1的檢測閾值來識別要被替換為0的對應(yīng)逆值。
下面描述節(jié)能特性。通過以下等式給出HOA域中的信號能量:
E=bHb (14)
以及通過以下等式給出空間域中的對應(yīng)能量:
節(jié)能解碼器矩陣的比率是(基本)恒定的。這僅在DHD=cI時可實現(xiàn),其中,單位矩陣為I,以及常數(shù)這要求D的norm-2(范2)條件數(shù)cond(D)=1。再次地,這要求D的SVD(奇異值分解)產(chǎn)生相同的奇異值:D=USVH,其中,S=diag(SK,...,SK)。
一般而言,節(jié)能渲染器設(shè)計是本領(lǐng)域已知的。在[14]中通過以下等式提出了針對L≥O3D的節(jié)能解碼器矩陣設(shè)計:
D=V UH (16)
其中,將來自等式(13)的強制為并因此可以在等式(16)中丟棄乘積DHD=U VHV UH=I,以及比率變?yōu)?。該設(shè)計方法的好處是能量節(jié)省,該能量節(jié)省保證了同質(zhì)空間聲印象的,其中,空間平移在感知到的響度上沒有波動。該設(shè)計的缺陷是:針對不對稱的、非常規(guī)的擴音器位置(參見圖8-9),方向精確度的丟失以及較強的擴音器波束側(cè)波瓣。本發(fā)明可以克服該缺陷。
針對非常規(guī)位置的揚聲器的渲染器設(shè)計也是本領(lǐng)域已知的。在[2]中描述了針對L≥O3D和L<O3D的解碼器設(shè)計方法,該解碼器設(shè)計方法允許在再現(xiàn)方向性上以較高精確度進行渲染。該設(shè)計方法的缺陷是所導(dǎo)出的渲染器不節(jié)能(參見圖10-11)。
可以將球面卷積用于空間平滑。這是空間濾波過程,或是系數(shù)域中的窗口化(windowing)(卷積)。其目的是最小化副波瓣,稱為平移波瓣。通過原始HOA系數(shù)與帶狀系數(shù)(zonal coefficient)的加權(quán)乘積來給出新的系數(shù)[5]:
這等效于在空間域?qū)2的左卷積[5]。在[5]中,將這方便地用于在通過對HOA系數(shù)B加權(quán)來進行渲染/解碼之前對擴音器信號的定向特性進行平滑,該加權(quán)通過以下等式進行:
其中,矢量通常包含取實數(shù)值的加權(quán)系數(shù)和常數(shù)因子df。平滑的概念是隨著增加的階數(shù)索引n對HOA系數(shù)進行衰減。平滑加權(quán)系數(shù)的已知示例是所謂的maxrV、和maxrE以及同相系數(shù)[4]。第一項提供缺省的幅度波束(不重要的(trivial),長度為O3D的全1矢量),第二項提供均勻分布的角功率以及同相特征全副波瓣抑制。
下面描述所公開解決方案的其他細節(jié)和實施例。首先,在初始化、啟動行為和處理方面對渲染器架構(gòu)進行描述。
每次擴音器設(shè)置(即,擴音器的數(shù)目以及任何擴音器相對于收聽位置的位置發(fā)生改變),渲染器需要執(zhí)行初始化過程,以確定針對所支持HOA輸入信號具有的任何HOA階數(shù)的解碼矩陣組。同樣地,根據(jù)揚聲器與收聽位置之間的距離來確定延遲線的單獨揚聲器延遲dl和揚聲器增益下面描述該過程。在一個實施例中,所導(dǎo)出的解碼矩陣存儲在碼本內(nèi)。每次HOA音頻輸入特征改變,渲染器控制單元確定當前有效的特征,并從碼本選擇匹配的解碼矩陣。碼本關(guān)鍵字可以是HOA階數(shù)N,或等效地,O3D(參見等式(6))。
參考圖3解釋用于渲染的數(shù)據(jù)處理的示意性步驟,圖3示出了渲染器的處理框的框圖。它們是第一緩沖器31、頻域濾波單元32、渲染處理單元33、第二緩沖器34、用于L個通道的延遲單元35、以及數(shù)模變換器及放大器36。
首先在第一緩沖器31中存儲具有時間索引t和O3DHOA系數(shù)通道的HOA時間采樣b(t),以形成塊索引為μ的M個采樣的塊。在頻域濾波單元32中對的系數(shù)B(μ)進行頻率濾波,以獲得已頻率濾波的塊該技術(shù)已知(參見[3])用于補償球面擴音器源的距離,并用于使得可處理近場記錄。在渲染處理單元33中通過以下等式來向空間域渲染已頻率濾波的塊
其中,表示具有M個時間采樣的塊的L個通道中的空間信號。該信號在第二緩沖器34中緩沖,并被串行化,以形成在L個通道中具有時間索引t的單個時間采樣,在圖3中稱之為w(t)。這是饋送到延遲單元35中的L個數(shù)字延遲線的串行信號。延遲線補償收聽位置到延遲為dl個采樣的單獨的揚聲器l之間的不同距離。理論上,每個延遲線是FIFO(先進先出存儲器)。然后,在數(shù)模變換器及放大器36中對已延遲補償?shù)男盘?55進行D/A變換并放大,數(shù)模變換器及放大器36提供可饋送到L個擴音器的信號365??梢栽贒/A變換之前或通過在模擬域中采用揚聲器通道放大來考慮揚聲器增益補償
渲染器初始化如下進行。
首先,需要知道揚聲器的數(shù)目和位置。初始化的第一步驟是使新的揚聲器數(shù)目L及相關(guān)位置可用,其中,其中,rl是從收聽位置到揚聲器l的距離,以及和是相關(guān)球面角??蓱?yīng)用各種方法,例如,揚聲器位置的手動輸入,或使用測試信號的自動初始化??墒褂眠m當?shù)慕涌?如,已連接的移動設(shè)備或集成于設(shè)備的用于選擇預(yù)定義位置集合的用戶界面)來進行揚聲器位置的手動輸入??衫迷u估單元,使用麥克風(fēng)陣列和專用的揚聲器測試信號來進行自動初始化,以導(dǎo)出通過rmax=max(r1,...,rL)確定最大距離rmax,通過rmin=min(r1,...,rL)確定最小距離rmin。
將L個距離rl和rmax輸入到延遲線和增益補償35。通過以下等式來確定針對每個揚聲器通道dl的延遲采樣的數(shù)目:
其中,采樣速率為fs,聲音速度為c(溫度為20攝氏度時,),以及指示向下一個整數(shù)取整。為了補償針對不同rl的揚聲器增益,通過確定擴音器增益或使用聲學(xué)測量來導(dǎo)出擴音器增益
如下進行(例如,針對于碼本的)解碼矩陣的計算。圖4示出了在一個實施例中用于生成解碼矩陣的方法的示意性步驟。圖5示出了在一個實施例中用于生成解碼矩陣的對應(yīng)設(shè)備的處理框。輸入是揚聲器方向球面建模網(wǎng)格和HOA階數(shù)N。
可以將揚聲器方向表達為球面角以及通過球面角Ωs=[θs,φs]T來表達球面建模網(wǎng)格將方向的數(shù)目選擇為大于揚聲器的數(shù)目(S>L),且大于HOA系數(shù)的數(shù)目(S>O3D)。網(wǎng)格的方向應(yīng)該通過非常規(guī)則的方式來采樣單位球面。在[6]、[9]中討論了適合的網(wǎng)格,且可在[7]、[8]中找到適合的網(wǎng)格。一次性選擇網(wǎng)格作為示例,根據(jù)[6],S=324個網(wǎng)格足以用于解碼最多HOA階數(shù)N=9的矩陣。針對不同的HOA階數(shù),可以使用其他網(wǎng)格。遞增地選擇HOA階數(shù)N,以根據(jù)N=1,...,Nmax填充碼本,其中,Nmax是所支持的HOA輸入內(nèi)容的最大HOA階數(shù)。
將揚聲器方向和球面建模網(wǎng)格輸入到構(gòu)建混合矩陣框41,構(gòu)建混合矩陣框41生成其混合矩陣G。將球面建模網(wǎng)格和HOA階數(shù)N輸入到構(gòu)建模式矩陣框42,構(gòu)建模式矩陣框42生成其模式矩陣將混合矩陣G和模式矩陣輸入到構(gòu)建解碼矩陣框43,構(gòu)建解碼矩陣框43生成其解碼矩陣將該解碼矩陣輸入到平滑解碼矩陣框44,平滑解碼矩陣框44平滑并縮放解碼矩陣。下面提供其他細節(jié)。平滑解碼矩陣框44的輸出是解碼矩陣D,利用相關(guān)的關(guān)鍵字N(或備選地O3D)將解碼矩陣D存儲在碼本中。在構(gòu)建模式矩陣框42中,球面建模網(wǎng)格被用于構(gòu)建類似于等式(11)的模式矩陣:其中,要注意到的是,在[2]中將模式矩陣稱為Ξ。
在構(gòu)建混合矩陣框41中,利用來創(chuàng)建混合矩陣G。要注意到的是,在[2]中將混合矩陣G稱為W?;旌暇仃嘒的第l行由從方向到揚聲器l的針對混合S虛擬源的混合增益組成。在一個實施例中,矢量基幅度平移(VBAP)[11]被用于導(dǎo)出這些混合增益,[2]中也是如此。用于導(dǎo)出G的算法總結(jié)如下:
1利用0值來創(chuàng)建G(即,初始化G)
2針對每個s=1...S
3{
4找到圍繞位置的3個揚聲器l1,l2,l3,假設(shè)單位半徑以及構(gòu)建矩陣其中,
5在笛卡爾坐標中計算Lt=spherical_to_cartesian(R)。
6構(gòu)建虛擬源位置s=sinΘs cosφs,sinΘs sinφs,cosΘs)T。
7計算g=Lt-1s,其中
8歸一化增益:g=g/||g||2
9利用g的元素來填充G的相關(guān)元素Gl,s:
10}
在構(gòu)建解碼矩陣框43中,計算對模式矩陣與轉(zhuǎn)置混合矩陣的矩陣乘積的緊致奇異值分解。這是本發(fā)明的一個重要方面,可通過各種方式來執(zhí)行。在一個實施例中,根據(jù)以下等式來計算模式矩陣與轉(zhuǎn)置混合矩陣GT的矩陣乘積的緊致奇異值分解S:
在備選實施例中,根據(jù)以下等式來計算模式矩陣與偽逆混合矩陣G+的矩陣乘積的緊致奇異值分解S:
其中,G+是混合矩陣G的偽取逆。
在一個實施例中,創(chuàng)建對角矩陣,在該對角矩陣中,其中,第一對角元素是S的逆對角元素:以及接下來的對角元素被設(shè)置為值1(如果其中,是閾值),或被設(shè)置為值0(如果)。
發(fā)現(xiàn)適合的閾值大約是0.06。在例如±0.01的范圍內(nèi)或在±10%的范圍內(nèi)的較小偏差是可接受的。然后,如下計算解碼矩陣:
在平滑解碼矩陣框44中,平滑解碼矩陣。替代現(xiàn)有技術(shù)中已知的在解碼之前向HOA系數(shù)應(yīng)用平滑系數(shù),可以將其與解碼矩陣相組合。這節(jié)省了一個處理步驟或相應(yīng)節(jié)省了處理框。
為了針對用于HOA內(nèi)容比擴音器具有更多系數(shù)(即,O3D>L)的解碼器也獲得良好的節(jié)能特性,根據(jù)HOA階數(shù)N(O3D=(N+1)2)來選擇所應(yīng)用的平滑系數(shù)
與在[4]中一樣,針對L≥O3D,對應(yīng)于根據(jù)階數(shù)N+1的勒讓德多項式的零導(dǎo)出的max rE系數(shù)。
針對L<O3D,根據(jù)凱撒窗構(gòu)建的的系數(shù)如下所示:
其中,len=2N+1,width=2N,其中,是具有2N+1個取實數(shù)值的元素的矢量。該元素是通過凱撒窗公式創(chuàng)建的
其中,I0()表示第一類的零階修正貝塞爾函數(shù)。矢量是根據(jù)以下項構(gòu)建的:
其中,針對HOA階數(shù)索引n=0..N,每個元素具有2n+1個重復(fù),以及cf是用于在不同的HOA階數(shù)節(jié)目(program)之間保持相等的響度的恒定縮放因子。亦即,所使用的凱撒窗的元素開始于僅被使用一次的第(N+1)個元素,并以被重復(fù)使用的后續(xù)元素繼續(xù):第(N+2)個元素被使用3次,等等。
在一個實施例中,對已平滑的解碼矩陣進行縮放。在一個實施例中,在圖4a)中示出的平滑解碼矩陣框44中執(zhí)行縮放。在不同的實施例中,在圖4b)中示出的縮放矩陣框45中將縮放作為單獨步驟執(zhí)行。
在一個實施例中,根據(jù)解碼矩陣來獲得恒定縮放因子。具體地,其可根據(jù)解碼矩陣的所謂弗羅比舍范數(shù)來獲得:
其中,是(已平滑的)矩陣的第l行第q列的矩陣元素。已歸一化的矩陣是
圖5示出了根據(jù)本發(fā)明的一方面的一種用于解碼音頻聲場表示以供音頻回放的設(shè)備。該設(shè)備包括具有用于獲得解碼矩陣D的解碼矩陣計算單元140的渲染處理單元33,解碼矩陣計算單元140包括用于獲得目標揚聲器的數(shù)目L的裝置1x和用于獲得揚聲器的位置的裝置,用于確定球面建模網(wǎng)格的位置的裝置1y和用于獲得HOA階數(shù)N的裝置1z,以及用于根據(jù)球面建模網(wǎng)格的位置和揚聲器的位置生成混合矩陣G的第一處理單元141,用于根據(jù)球面建模網(wǎng)格和HOA階數(shù)N生成模式矩陣的第二處理單元142,用于根據(jù)執(zhí)行對模式矩陣與厄米特轉(zhuǎn)置混合矩陣G的乘積的緊致奇異值分解的第三處理單元143(其中,U、V是根據(jù)酉矩陣導(dǎo)出的,以及S是具有奇異值元素的對角矩陣),用于根據(jù)來由矩陣U、V計算第一解碼矩陣的計算裝置144,以及用于利用平滑系數(shù)對第一解碼矩陣進行平滑和縮放的平滑及縮放單元145(其中,獲得解碼矩陣D)。在一個實施例中,平滑及縮放單元145例如是用于平滑第一解碼矩陣的平滑單元1451(其中獲得已平滑的解碼矩陣)和用于對已平滑的解碼矩陣進行縮放的縮放單元1452(其中,獲得解碼矩陣D)。
圖6示出了節(jié)點示意圖中的示例性的16個揚聲器的設(shè)置中的揚聲器位置,其中,將揚聲器示出為已連接節(jié)點。前臺連接示出為實線,后臺連接示出為虛線。圖7通過用透視法縮小繪制的視圖的形式示出了具有16個揚聲器的相同設(shè)置。
下面描述利用圖5和圖6中的揚聲器設(shè)置獲得的示例結(jié)果。在2個球面(所有的測試方向)上以dB示出聲音信號的能量分布,以及具體地,比率的分布。示出中心揚聲器波束(圖6中的揚聲器7)作為擴音器平移波束的示例。例如,在[14]中設(shè)計的解碼器矩陣(N=3)產(chǎn)生圖8中示出的比率其提供了幾乎完美的節(jié)能特性,因為比率幾乎是恒定的:暗區(qū)(對應(yīng)于較低音量)與亮區(qū)(對應(yīng)于較高音量)之間的差異小于0.01dB。然而,如圖9中示出的,中心揚聲器的對應(yīng)平移波束具有較強的副波瓣。特別是對于偏離中心的收聽者而言,這妨礙了空間感知。
另一方面,在[2]中設(shè)計的解碼器矩陣(N=3)產(chǎn)生圖9中示出的比率在圖10中使用的刻度中,暗區(qū)對應(yīng)于下降到-2dB的較低音量,以及亮區(qū)對應(yīng)于上升到+2dB的較高音量。因此,比率示出了大于4dB的波動,這是不利的,因為以相同的響度不能感知到恒定幅度的例如從頂部到中心揚聲器位置的空間平移。然而,如圖11中示出的,中心揚聲器的對應(yīng)平移波束具有非常小的副波瓣,這對于偏離中心的收聽位置而言是有益的。
圖12示出了利用根據(jù)本發(fā)明的解碼器矩陣獲得的聲音信號的能量分布,為了易于比較,示例性地針對于N=3。(在圖12的右側(cè)示出的)比率的刻度范圍從3.15到3.45dB。因此,該比率中的波動小于0.31dB,以及聲場中的能量分布是非常均勻的。因此,以相同的響度感知到了具有恒定幅度的任何空間平移。如圖13中示出的,中心揚聲器的平移波束具有非常小的副波瓣。這對于偏離中心的收聽位置而言是有益的,在該收聽位置處,副波瓣可能是可聽到的,并因此將會是令人煩惱的。因此,本發(fā)明提供了利用[14]和[2]中的現(xiàn)有技術(shù)可獲得的組合優(yōu)點,而無需忍受其相應(yīng)缺點。
要注意到的是,在本文中只要提及揚聲器,表示的是聲音發(fā)射設(shè)備,例如擴音器。
附圖中的流程圖和/或框圖示出了根據(jù)本發(fā)明的各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的配置、操作和功能。在這一點上,流程圖或框圖中的每個框可以表示代碼的模塊、片段或部分,該代碼包括用于實現(xiàn)所指定的邏輯功能的一個或多個可執(zhí)行指令。
還應(yīng)該注意到,在一些備選實現(xiàn)中,框中提到的功能可以通過附圖中所提到的順序之外的順序來發(fā)生。例如,取決于所涉及的功能,連續(xù)示出的兩個框事實上可以實質(zhì)上同時執(zhí)行,或有時以相反的順序來執(zhí)行該框,或者可以通過備選順序執(zhí)行該框。還要注意到的是,框圖和/或流程圖示意圖的每個框,以及框圖和/或流程圖示意圖中的框組合可通過基于專用硬件的系統(tǒng)或者專用硬件和計算機指令的組合來實現(xiàn),該基于專用硬件的系統(tǒng)執(zhí)行特定功能或動作。雖然沒有明確描述,可以在任何組合或子組合中使用當前實施例。
此外,本領(lǐng)域技術(shù)人員應(yīng)該意識到的是,本原理的各方面可以體現(xiàn)為系統(tǒng)、方法或計算機可讀介質(zhì)。因此,本原理的各方面可以采用以下形式:完全硬件實施例、完全軟件實施例(包括固件、駐機軟件、微代碼等)、或組合了軟件和硬件方面(在本文中可全部統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”)的實施例。此外,本原理的各方面可以采用計算機可讀存儲介質(zhì)的形式。可以利用一個或多個計算機可讀存儲介質(zhì)的任何組合。本文中使用的計算機可讀存儲介質(zhì)被認為是非暫時存儲介質(zhì),該非暫時存儲介質(zhì)被給定了在其中存儲信息的固有能力以及從其提供對信息的獲取的固有能力。
此外,本領(lǐng)域技術(shù)人員應(yīng)該意識到,這里所呈現(xiàn)的框圖表示了體現(xiàn)本發(fā)明原理的示意性系統(tǒng)組件和/或電路的概念視圖。類似地,應(yīng)該意識到,任何流程圖、流程圖表、狀態(tài)轉(zhuǎn)移圖、偽代碼等表示各種過程,其中可以在計算機可讀存儲介質(zhì)中表示這些過程并且由計算機或處理器執(zhí)行這些過程,不管是否明確示出了這樣的計算機或處理器。
所引用的參考文獻
[1]T.D.Abhayapala.Generalized framework for spherical microphone arrays:Spatial and frequency decomposition.In Proc.IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),(accepted)Vol.X,pp.,April 2008,Las Vegas,USA.
[2]Johann-Markus Batke,F(xiàn)lorian Keiler,and Johannes Boehm.Method and device for decoding an audio soundfield representation for audio playback.International Patent Application WO2011/117399(PD100011).
[3]Daniel,Rozenn Nicol,and Sébastien Moreau.Further investigations of high order ambisonics and wavefield synthesis for holophonic sound imaging.In AES Convention Paper 5788Presented at the 114th Convention,March 2003.Paper 4795presented at the 114th Convention.
[4]Daniel.Représentation de champs acoustiques,application a la transmission et a la reproduction de scenes sonores complexes dans un contexte multimedia.PhD thesis,Universite Paris 6,2001.
[5]James R.Driscoll and Dennis M.Healy Jr.Computing Fourier transforms and convolutions on the 2-sphere.Advances in Applied Mathematics,15∶202-250,1994.
[6]Fliege.Integration nodes for the sphere.
http://www.personal.soton.ac.uk/jf1w07/nodes/nodes.html,Online,accessed 2012-06-01.
[7]Fliege and Ulrike Maier.A two-stage approach for computing cubature formulae for the sphere.Technical Report,F(xiàn)achbereich Mathematik,Dortmund,1999.
[8]R.H.Hardin and N.J.A.Sloane.Webpage:Spherical designs,spherical t-designs.http://www2.research.att.com/~njas/sphdesigns/.
[9]R.H.Hardin and N.J.A.Sloane.Mclaren’s improved snub cube and other new spherical designs in three dimensions.Discrete and Computational Geometry,15:429-441,1996.
[10]M.A.Poletti.Three-dimensional surround sound systems based on spherical harmonics.J.Audio Eng.Soc.,53(11)∶1004-1025,November 2005.
[11]Ville Pulkki.Spatial Sound Generation and Perception by Amplitude Panning Techniques.PhD thesis,Helsinki University of Technology,2001.
[12]Boaz Rafaely.Plane-wave decomposition of the sound field on a sphere by sphericalconvolution.J.Acoust.Soc.Am.,4(116):2149-2157,October 2004.
[13]Earl G.Williams.Fourier Acoustics.volume 93of Applied Mathematical Sciences.Academic Press,1999.
[14]F.Zotter,H.Pomberger,and M.Noistemig.Energy-preserving ambisonic decoding.Acta Acustica united with Acustica,98(1):37-47.January/February 2012.