本申請是申請?zhí)枮?01380025029.9、申請日為2013年5月6日、發(fā)明名稱為“壓縮和解壓縮高階高保真度立體聲響復制信號表示的方法及裝置”的發(fā)明專利申請的分案申請。
本發(fā)明涉及一種壓縮和解壓縮高階高保真度立體聲響復制(higherorderambisonics)信號表示的方法及裝置,其中以不同的方式處理方向和環(huán)境(ambient)分量。
背景技術(shù):
高階高保真度立體聲響復制(hoa)提供了以下優(yōu)點:捕獲三維空間中的特定位置附近的完整聲場,該位置被稱為“最佳聽音位置(sweetspot)”。與像立體聲或環(huán)繞聲這樣的基于信道的技術(shù)相反,這種hoa表示不依賴于具體的擴音器結(jié)構(gòu)。但是,這種靈活性以在特定擴音器結(jié)構(gòu)上回放該hoa表示所需的解碼處理為代價。
hoa基于使用截斷的球諧函數(shù)(sh)展開式的在期望的聽者位置附近的位置x的單獨的角形波數(shù)量k的氣壓的復數(shù)幅度的描述,其中,在不失一般性的情況下,可以將期望的聽者位置假設(shè)為球坐標系統(tǒng)的原點。這種表示的空間分辨率隨著該展開式的增長的最大階n提高。不幸的是,展開式系數(shù)的數(shù)量o隨階n而平方地增長,亦即o=(n+1)2。例如,使用階n=4的典型的hoa表示需要o=25個hoa系數(shù)。給出期望的采樣率fs和每個樣本的比特數(shù)量nb,傳送hoa信號表示的總的比特率按照o·fs·nb來確定,并且在針對每個樣本采用nb=16個比特,采樣率為fs=48khz的情況下的階n=4的hoa信號表示的傳輸導致19.2mbits/s的比特率。因此,壓縮hoa信號表示是非常值得做的。
關(guān)于現(xiàn)存空間音頻壓縮方法的概述可以在專利申請ep10306472.1中或者在i.elfitri、b.günel、a.m.kondoz的“multichannelaudiocodingbasedonanalysisbysynthesis”(proceedingsoftheieee,第99卷,第4期,657-670頁,2011年4月)中找到。
下面的技術(shù)與本發(fā)明更相關(guān)。
可以如v.pulkki在“spatialsoundreproductionwithdirectionalaudiocoding”(journalofaudioeng.society,第55(6)卷,503-516頁,2007年)中所述的使用方向音頻編碼(dirac)來壓縮b格式信號(等效于一階高保真度立體聲響復制表示)。在對電子會議應用提出的一個版本中,將b格式信號編碼成單個全向信號以及以單一方向形式的邊信息和針對每個頻帶的擴散參數(shù)。然而,作為結(jié)果的數(shù)據(jù)率的顯著降低以在再現(xiàn)時得到的較小的信號質(zhì)量為代價。另外,dirac受限于一階高保真度立體聲響復制表示的壓縮,其受到非常低的空間分辨率的影響。
已知的用于壓縮具有n>1的hoa表示的方法相當少。其中之一利用感知高級音頻編碼(aac)編碼解碼器對單獨的hoa系數(shù)序列進行直接編碼,參見e.hellerud、i.burnett、a.solvang、u.petersvensson的“encodinghigherorderambisonicswithaac”(第124屆aes大會,阿姆斯特丹,2008年)。然而,該方法的固有問題是永遠不會被聽到的信號的感知編碼。通常通過hoa系數(shù)序列的加權(quán)和來獲得重構(gòu)的回放信號。這是為什么當在特定的擴音器結(jié)構(gòu)上呈現(xiàn)解壓縮后的hoa表示時未屏蔽感知編碼噪聲的概率很高的原因。以更技術(shù)性的術(shù)語,感知編碼噪聲未屏蔽的主要問題是單獨的hoa系數(shù)序列之間的高度的互相關(guān)性。因為在單獨的hoa系數(shù)序列中的編碼后的噪聲信號通常彼此不相關(guān),所以可能出現(xiàn)感知編碼噪聲的結(jié)構(gòu)重疊,同時與噪聲無關(guān)的hoa系數(shù)序列在重疊處被消去。另一個問題是所提到的互相關(guān)性導致感知編碼器的效率降低。
為了將這些影響的程度最小化,在ep10306472.1中提出在感知編碼之前將hoa表示變換為空間域中的等效表示。空間域信號對應于常規(guī)的方向信號,并且如果擴音器被置于與對空間域變換假設(shè)的那些方向完全相同的方向上,則將對應于擴音器信號。
到空間域的變換降低了單獨的空間域信號之間的互相關(guān)性。然而,并未徹底消除互相關(guān)性。關(guān)于相對較高的互相關(guān)性的示例是其方向落入空間域信號所覆蓋的相鄰方向之間的方向信號。
ep10306472.1和上述的hellerud等人的論文的另一個不足是經(jīng)感知編碼的信號的數(shù)量是(n+1)2,其中,n是hoa表示的階。因此,壓縮后的hoa表示的數(shù)據(jù)率隨高保真度立體聲響復制階而平方地增長。
本發(fā)明的壓縮處理將hoa聲場表示分解為方向分量和環(huán)境分量。具體對于計算方向聲場分量,在下面描述了一種新的處理,用于估計若干主聲音方向。
關(guān)于基于高保真度立體聲響復制的方向估計的現(xiàn)存方法,上述的pulkki的論文描述了一種結(jié)合dirac編碼的方法,用于基于b格式聲場表示來估計方向。方向根據(jù)平均強度矢量獲得,其指向聲場能量流動的方向。在d.levin、s.gannot、e.a.phabets的“direction-of-arrivalestimationusingacousticvectorsensorsinthepresenceofnoise”(ieeeproc.oftheicassp,105-108頁,2011年)中提出了一種基于b格式的替代。通過搜索對引入到那個方向的波束形成器輸出信號提供最大能量的那個方向,迭代地進行方向估計。
然而,對于方向估計,兩種方法都受約束于b格式,其受到相對較低的空間分辨率的影響。另一不足之處是該估計被限制于僅僅單個主方向。
hoa表示提供了改善的空間分辨率,從而允許對若干主方向的改善的估計?,F(xiàn)存的基于hoa聲場表示對若干方向進行估計的方法相當稀少。在n.epain、c.jin、a.vanschaik的“theapplicationofcompressivesamplingtotheanalysisandsynthesisofspatialsoundfields”(127thconventionoftheaudioeng.soc.,紐約,2009年)中以及在a.wabnitz、n.epain、a.vanschaik、cjin的“timedomainreconstructionofspatialsoundfieldsusingcompressedsensing”(ieeeproc.oftheicassp,465-468頁,2011年)中提出了一種基于壓縮傳感的方法。主要想法是假設(shè)聲場是空間稀疏的,亦即由僅僅少量的方向信號構(gòu)成。在球上分配大量的測試方向之后,采用最優(yōu)化算法以便發(fā)現(xiàn)盡可能少的測試方向以及對應的方向信號,使得它們被給出的hoa表示良好地描述。與實際上由給出的hoa表示提供的空間分辨率相比,該方法提供了一種改善的空間分辨率,因為其避開了從給出的hoa表示的有限階導致的空間離差。然而,該算法的性能高度依賴于是否滿足稀疏性假設(shè)。具體地,如果聲場包括任何的較小的附加環(huán)境分量,或者如果hoa表示受到將在從多信道記錄計算時出現(xiàn)的噪聲的影響,則該方法將失敗。
另一個更直觀的方法是將給出的hoa表示變換成在b.rafaely的“plane-wavedecompositionofthesoundfieldonaspherebysphericalconvolution”(j.acoust.soc.am.,第4卷,第116號,2149-2157頁,2004年10月)中所述的空間域,然后搜索方向功率中的最大值。該方法的不足之處是環(huán)境分量的存在將導致方向功率分布的模糊,并且與不存在任何環(huán)境分量相比,將導致方向功率的最大值的移位。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的問題是提供一種hoa信號的壓縮,由此仍然保持hoa信號表示的高空間分辨率。通過在權(quán)利要求1和2中所述的方法解決該問題。在權(quán)利要求3和4中公開了利用這些方法的裝置。
本發(fā)明解決聲場的高階高保真度立體聲響復制hoa表示的壓縮。在本申請中,術(shù)語“hoa”是指所述高階高保真度立體聲響復制表示以及對應地編碼或表示后的音頻信號。估計主聲音方向,并且將hoa信號表示分解成時域中的若干主方向信號和相關(guān)的方向信息以及hoa域中的環(huán)境分量,繼之以通過降低其階來壓縮環(huán)境分量。在該分解之后,將降低了階的環(huán)境hoa分量變換到空間域,并且與方向信號一起進行感知編碼。
在接收器或解碼器側(cè),感知地解壓縮編碼后的方向信號和階降低后經(jīng)編碼的環(huán)境分量。將經(jīng)感知解壓縮的環(huán)境信號變換成降低了階的hoa域表示,繼之以階擴展。從方向信號和對應的方向信息以及從原始階的環(huán)境hoa分量重新組成總的hoa表示。
有利地,環(huán)境聲場分量可以通過具有低于原始的階的hoa表示以足夠的準確度來表示,并且主方向信號的提取確保了在壓縮和解壓縮之后仍然獲得高空間分辨率。
原則上,本發(fā)明的方法適于壓縮高階高保真度立體聲響復制hoa信號表示,所述方法包括以下步驟:
-估計主方向,其中,所述主方向估計取決于能量上的主hoa分量的方向功率分布;
-將hoa信號表示分解或解碼成時域中的若干主方向信號和相關(guān)的方向信息以及hoa域中的殘差環(huán)境分量,其中,所述殘差環(huán)境分量表示所述hoa信號表示和所述主方向信號的表示之間的差異;
-通過與所述殘差環(huán)境分量的原始階相比降低所述殘差環(huán)境分量的階來壓縮所述殘差環(huán)境分量;
-將降低了階的所述殘差環(huán)境hoa分量變換到空間域;
-對所述主方向信號和所述變換后的殘差環(huán)境hoa分量進行感知編碼。
原則上,本發(fā)明的方法適于對通過以下步驟進行了壓縮的高階高保真度立體聲響復制hoa信號表示進行解壓縮:
-估計主方向,其中,所述主方向估計取決于能量上的主hoa分量的方向功率分布;
-將hoa信號表示分解或解碼成時域中的若干主方向信號和相關(guān)的方向信息以及hoa域中的殘差環(huán)境分量,其中,所述殘差環(huán)境分量表示所述hoa信號表示和所述主方向信號的表示之間的差異;
-通過與所述殘差環(huán)境分量的原始階相比降低所述殘差環(huán)境分量的階來壓縮所述殘差環(huán)境分量;
-將降低了階的所述殘差環(huán)境分量變換到空間域;
-對所述主方向信號和所述變換后的殘差環(huán)境hoa分量進行感知編碼;
所述方法包括以下步驟:
-對所述經(jīng)感知編碼的主方向信號和所述經(jīng)感知編碼的變換后的殘差環(huán)境hoa分量進行感知解碼;
-對經(jīng)感知解碼的變換后的殘差環(huán)境hoa分量進行逆變換以便取得hoa域表示;
-對經(jīng)逆變換的殘差環(huán)境hoa分量進行階擴展以便建立原始階的環(huán)境hoa分量;
-組成所述經(jīng)感知解碼的主方向信號、所述方向信息以及所述經(jīng)原始階擴展的環(huán)境hoa分量以便取得hoa信號表示。
原則上,本發(fā)明的裝置適于壓縮高階高保真度立體聲響復制hoa信號表示,所述裝置包括:
-適于估計主方向的部件,其中,所述主方向估計取決于能量上的主hoa分量的方向功率分布;
-適于將hoa信號表示分解或解碼成時域中的若干主方向信號和相關(guān)的方向信息以及hoa域中的殘差環(huán)境分量的部件,其中,所述殘差環(huán)境分量表示所述hoa信號表示和所述主方向信號的表示之間的差異;
-適于通過與所述殘差環(huán)境分量的原始階相比降低所述殘差環(huán)境分量的階來壓縮所述殘差環(huán)境分量的部件;
-適于將降低了階的所述殘差環(huán)境分量變換到空間域的部件;
-適于對所述主方向信號和所述變換后的殘差環(huán)境hoa分量進行感知編碼的部件。
原則上,本發(fā)明的裝置適于對通過以下步驟進行了壓縮的高階高保真度立體聲響復制hoa信號表示進行解壓縮:
-估計主方向,其中,所述主方向估計取決于能量上的主hoa分量的方向功率分布;
-將hoa信號表示分解或解碼成時域中的若干主方向信號和相關(guān)的方向信息以及hoa域中的殘差環(huán)境分量,其中,所述殘差環(huán)境分量表示所述hoa信號表示和所述主方向信號的表示之間的差異;
-通過與所述殘差環(huán)境分量的原始階相比降低所述殘差環(huán)境分量的階來壓縮所述殘差環(huán)境分量;
-將降低了階的所述殘差環(huán)境分量變換到空間域;
-對所述主方向信號和所述變換后的殘差環(huán)境hoa分量進行感知編碼;
所述裝置包括:
-適于對經(jīng)感知編碼的主方向信號和經(jīng)感知編碼的變換后的殘差環(huán)境hoa分量進行感知解碼的部件;
-適于對經(jīng)感知解碼的變換后的殘差環(huán)境hoa分量進行逆變換以便取得hoa域表示的部件;
-適于對所述經(jīng)逆變換的殘差環(huán)境hoa分量進行階擴展以便建立原始階的環(huán)境hoa分量的部件;
-適于組成所述經(jīng)感知解碼的主方向信號、所述方向信息以及所述經(jīng)原始階擴展的環(huán)境hoa分量以便取得hoa信號表示的部件。
在相應的從屬權(quán)利要求中公開了本發(fā)明的有利的另外的實施例。
附圖說明
參照附圖說明本發(fā)明的示例性實施例,附圖中:
圖1是關(guān)于不同的高保真度立體聲響復制階n和角θ∈[0,π]的規(guī)一化離差函數(shù)vn(θ);
圖2是根據(jù)本發(fā)明的壓縮處理的框圖;
圖3是根據(jù)本發(fā)明的解壓縮處理的框圖。
具體實施方式
高保真度立體聲響復制信號使用球諧函數(shù)(sh)展開式描述無源區(qū)域內(nèi)的聲場。這種描述的靈活性可以歸因于聲壓的時間和空間行為基本上由波動方程確定這一物理特性。
波動方程和球諧函數(shù)展開式
為了對高保真度立體聲響復制進行更詳細的描述,下面假設(shè)球坐標系統(tǒng),其中,通過半徑r>0(亦即,到坐標原點的距離)、從極軸z測量的傾斜角θ∈[0,π]以及從x軸在x=y(tǒng)平面中測量的方位角φ∈[0,2π[來表示空間x=(r,θ,φ)t中的點。在該球坐標系統(tǒng)中,關(guān)于連通的無源區(qū)域內(nèi)的聲壓p(t,x)(其中,t表示時間)的波動方程由earlg.williams的教科書“fourieracoustics”(appliedmathematicalsciences第93卷,academicpress,1999年)給出:
其中,cs指示聲音的速度。因此,關(guān)于時間的聲壓的傅里葉變換為
其中,i表示虛數(shù)單位,根據(jù)williams的教科書可以展開成sh的級數(shù):
應當注意到,該展開式對于連通的無源區(qū)域(其對應于序列的收斂的區(qū)域)內(nèi)的所有點x均有效。
在等式(4)中,k表示由下式定義的角形波數(shù)量:
并且
另外,
其中,
關(guān)于非負次數(shù)指數(shù)m的相關(guān)聯(lián)的勒讓德函數(shù)通過勒讓德多項式pn(x)定義,如下:
對于負次數(shù)指數(shù),亦即m<0,相關(guān)聯(lián)的勒讓德函數(shù)定義如下:
繼而勒讓德多項式pn(x)(n≥0)可以使用羅德里格公式定義為:
在現(xiàn)有技術(shù)中,例如在m.poletti的“unifieddescriptionofambisonicsusingrealandcomplexsphericalharmonics”(proceedingsoftheambisonicssymposium2009,2009年6月25至27日,格拉茨,奧地利)中,還存在關(guān)于sh函數(shù)的定義,其通過關(guān)于負次數(shù)指數(shù)m的因子(-1)m從等式(6)得出。
替代地,關(guān)于時間的聲壓的傅里葉變換可以使用實數(shù)sh函數(shù)
在文獻中,存在關(guān)于實數(shù)sh函數(shù)的多種定義(例如,參見上述的poletti的論文)。一種在本文檔中應用的可行的定義由下式給出:
其中,(·)*表示復數(shù)共軛。通過將等式(6)插入到等式(11)中得到一種替代的表示:
其中,
雖然實數(shù)sh函數(shù)針對每個定義都是實數(shù)值的,但是一般地,對于對應的展開式系數(shù)
復數(shù)sh函數(shù)涉及如下實數(shù)sh函數(shù):
復數(shù)sh函數(shù)
其中,δ表示克羅內(nèi)克δ函數(shù)。使用等式(15)和等式(11)中的實數(shù)球諧函數(shù)的定義可以得出第二結(jié)果。
內(nèi)部問題和高保真度立體聲響復制系數(shù)
高保真度立體聲響復制的目的是表示坐標原點附近的聲場。在不失一般性的情況下,此處假設(shè)感興趣的這個區(qū)域為以坐標原點為中心的半徑為r的球形體,其通過集合{x|0≤r≤r}指定。關(guān)于該表示的關(guān)鍵假設(shè)是假定該球形體不包含任何聲源。找出該球形體內(nèi)的聲場表示被稱為“內(nèi)部問題”,參見上述的williams的教科書。
可以示出,關(guān)于該內(nèi)部問題,sh函數(shù)展開式系數(shù)
其中,jn(.)表示一階球貝塞爾函數(shù)。根據(jù)等式(17),其滿足關(guān)于聲場的完整信息包含在被稱為高保真度立體聲響復制系數(shù)的系數(shù)
類似地,可以對實數(shù)sh函數(shù)展開式
其中,系數(shù)
平面波分解
在中心位于坐標原點的聲音無源球形體內(nèi)的聲場可以通過從所有可能方向碰撞到該球形體上的無限數(shù)量的角形波數(shù)量k不同的平面波的重疊表示,參見上述的rafely的“plane-wavedecomposition...”論文。假設(shè)來自方向ω0的具有角形波數(shù)量k的平面波的復數(shù)幅度由d(k,ω0)給出,可以使用等式(11)和等式(19)以類似的方式示出關(guān)于實數(shù)sh函數(shù)展開式的對應的高保真度立體聲響復制系數(shù)由下式給出:
因此,關(guān)于從無限數(shù)量的角形波數(shù)量為k的平面波的重疊得到的聲場的高保真度立體聲響復制系數(shù)從等式(20)在所有可能的方向
函數(shù)d(k,ω)被稱為“幅度密度”,并且假設(shè)在單位球
其中,展開系數(shù)
通過將等式(24)插入到等式(22)中,可以看出高保真度立體聲響復制系數(shù)
在對縮放后的高保真度立體聲響復制系數(shù)
然后,在時域中,可以將等式(24)用公式表示為
時域方向信號d(t,ω)可以通過實數(shù)sh函數(shù)展開式根據(jù)下式表示
使用sh函數(shù)
假設(shè)時域信號d(t,ω)是實數(shù)值的,亦即d(t,ω)=d*(t,ω),根據(jù)等式(29)與等式(30)的比較,可以得出系數(shù)
下面,將系數(shù)
下面,還假設(shè)聲場表示通過將在下面的處理壓縮的部分更詳細地描述的這些系數(shù)給出。
注意,通過用于根據(jù)本發(fā)明的處理的系數(shù)
具有有限階的空間分辨率
實踐中,僅使用有限數(shù)量的階n≤n的高保真度立體聲響復制系數(shù)
參見上述的“plane-wavedecomposition...”論文。這可以通過使用等式(31)對來自方向ω0的單個平面波計算幅度密度函數(shù)來實現(xiàn):
其中
其中,θ表示滿足下述屬性的指向方向ω和ω0的兩個矢量之間的角
cosθ=cosθcosθ0+cos(φ-φ0)sinθsinθ0(39)
在等式(34)中,利用在等式(20)中給出的平面波的高保真度立體聲響復制系數(shù),而在等式(35)和(36)中利用一些數(shù)學理論,參見上述的“plane-wavedecomposition...”論文??梢允褂玫仁?14)示出在等式(33)中的屬性。
比較等式(37)與真實幅度密度函數(shù)
其中,δ(·)表示迪拉克δ函數(shù),從將縮放后的迪拉克δ函數(shù)替換為離差函數(shù)vn(θ)(其在按照其最大值進行了歸一化之后,針對不同的高保真度立體聲響復制階n和角θ∈[0,π],在圖1中示出),空間離差變得顯而易見。
因為對于n≥4,vn(θ)的第一個零近似地位于
對于n→∞,離差函數(shù)vn(θ)收斂到縮放后的迪拉克δ函數(shù)。在以下情況下可以看到這一點:勒讓德多項式的完整關(guān)系
與等式(35)一起使用以將關(guān)于n→∞的vn(θ)的極限表示為
在通過
定義階n≤n的實數(shù)sh函數(shù)的矢量時,其中,o=(n+1)2,并且(.)t表示轉(zhuǎn)置,等式(37)與等式(33)比較示出離差函數(shù)可以通過兩個實數(shù)sh矢量的標量乘積表示為
vn(θ)=st(ω)s(ω0)(47)
在時域中,可以將離差等效地表示為
采樣
對于一些應用,期望根據(jù)在有限數(shù)量j的離散方向ωj上的時域幅度密度函數(shù)d(t,ω)的樣本確定縮放后的時域高保真度立體聲響復制系數(shù)
其中,gj表示一些適當選取的采樣加權(quán)。相對于“analysisanddesign...”論文,近似(50)是指使用實數(shù)sh函數(shù)的時域表示而不是使用復數(shù)sh函數(shù)的頻域表示。使近似(50)變得精確的必要條件是幅度密度是有限諧函數(shù)階n的,意味著
如果該條件不滿足,則近似(50)受到空間混疊誤差的影響,參見b.rafaely的“spatialaliasinginsphericalmicrophonearrays”(ieeetransactionsonsignalprocessing,卷55,第3期,第1003-1010頁,2007年3月)。
第二必要條件需要采樣點ωj和對應的加權(quán)滿足在“analysisanddesign...”論文中給了的對應條件:
條件(51)和(52)聯(lián)合起來對于精確采樣就足夠了。
采樣條件(52)由一組線性等式組成,可以使用單個矩陣等式簡潔地用公式表示為
ψgψh=i(53)
其中,ψ表示由下式定義的模式矩陣
并且g表示在其對角線上具有加權(quán)的矩陣,亦即
g:=diag(g1,,gj)(55)
從等式(53)可以看出,滿足等式(52)的必要條件是采樣點的數(shù)量j滿足j≥o。將在j個采樣點處的時域幅度密度的值聚集到如下矢量中
w(t):=(d(t,ω1),...,d(t,ωj))(56)
并且通過下式定義縮放后的時域高保真度立體聲響復制系數(shù)的矢量
兩個矢量通過sh函數(shù)展開式(29)相關(guān)。這種關(guān)系提供了下面的線性等式系統(tǒng):
w(t)=ψhc(t)(58)
使用所引入的矢量記號,從時域幅度密度函數(shù)樣本的值計算縮放后的時域高保真度立體聲響復制系數(shù)可以寫作:
c(t)≈ψgw(t)(59)
給出固定的高保真度立體聲響復制階n,經(jīng)常無法實現(xiàn)通過計算j≥o數(shù)量的采樣點ωj和對應的加權(quán)使得滿足采樣條件等式(52)。然而,如果選取采樣點使得良好地近似采樣條件,則模式矩陣ψ的秩為o,并且其條件數(shù)低。在該情況下,存在模式矩陣ψ的偽逆
ψ+:=(ψψh)-1ψψ+(60)
并且通過下式給出從時域幅度密度函數(shù)樣本的矢量到縮放后的時域高保真度立體聲響復制系數(shù)矢量c(t)的合理近似
c(t)≈ψ+w(t)(61)
如果j=o并且模式矩陣的秩為o,則其偽逆與其逆一致,因為
ψ+=(ψψh)-1ψ=ψ-hψ-1ψ=ψ-h(62)
如果額外滿足采樣條件等式(52),則滿足
ψ-h=ψg(63)
并且兩個近似(59)和(61)是等價的并且是精確的。
可以將矢量w(t)解釋為空間時域信號的矢量。從hoa域到空間域的變換可以例如通過使用等式(58)進行。這種變換在本申請中被稱為“球諧函數(shù)變換”(sht)并且在降低了階的環(huán)境hoa分量變換到空間域時使用。隱含地假設(shè)sht的空間采樣點ωj近似地滿足在
在這些假設(shè)下,sht矩陣滿足
壓縮
本發(fā)明涉及對給出的hoa信號表示的壓縮。如上所述,將hoa表示分解成時域中的預定義數(shù)量的主方向信號以及hoa域中的環(huán)境分量,繼之以通過降低環(huán)境分量的階來壓縮環(huán)境分量的hoa表示。該操作利用如下被收聽測試支持的假設(shè):環(huán)境聲場分量可以通過具有低階的hoa表示以足夠的精確度來表示。對主方向信號的提取確保了在壓縮和對應的解壓縮之后保持高空間分辨率。
在分解之后,降低了階的環(huán)境hoa分量被變換到空間域,并且與如在專利申請ep10306472.1的exemplaryembodiments部分中所述那樣與方向信號一起被感知地編碼。
壓縮處理包括在圖2中圖示的兩個相繼步驟。在下面的壓縮的細節(jié)部分描述單獨信號的確切定義。
在圖2a中示出的第一步驟或階段中,在主方向估計器22中估計主方向,并且進行將高保真度立體聲響復制信號c(l)分解成方向分量以及殘差或環(huán)境分量,其中l(wèi)表示幀索引。在方向信號計算步驟或階段23中計算方向分量,由此高保真度立體聲響復制表示被轉(zhuǎn)換到由具有對應的方向
在圖2b中示出的第二步驟中,對方向信號x(l)和環(huán)境hoa分量ca(l)執(zhí)行感知編碼,如下:
-可以在感知編碼器27中使用任何已知的感知壓縮技術(shù)單獨地壓縮常規(guī)時域方向信號x(l)。
-在兩個子步驟或階段中執(zhí)行環(huán)境hoa域分量ca(l)的壓縮。
第一子步驟或階段25執(zhí)行將原始高保真度立體聲響復制階n降低至nred,例如nred=2,得到環(huán)境hoa分量ca,red(l)。此處,利用如下假設(shè):可以通過具有低階的hoa足夠精確地表示環(huán)境聲場分量。第二子步驟或階段26基于在專利申請ep10306472.1中所述的壓縮。通過應用球諧函數(shù)變換,將在子步驟/階段25計算的環(huán)境聲場分量的ored:=(nred+1)2個hoa信號ca,red(l)變換成空間域中的ored個等效信號wa,red(l),得到可以輸入給一組并行的感知編碼解碼器27的常規(guī)時域信號??梢詰萌魏我阎母兄幋a或壓縮技術(shù)。輸出編碼后的方向信號
有利地,可以在感知編碼器27中聯(lián)合地執(zhí)行對所有時域信號x(l)和wa,red(l)的感知壓縮,以便通過利用可能剩余的信道間相關(guān)性提高總體的編碼效率。
解壓縮
在圖3中圖示了對收到的或重放的信號的解壓縮處理。如同壓縮處理,其包括兩個相繼步驟。
在圖3a中示出的第一步驟或階段中,在感知解碼31中執(zhí)行對編碼后的方向信號
在圖3b示出的第二步驟或階段中,在hoa信號組裝器34中從方向信號
可達到的數(shù)據(jù)率降低
本發(fā)明所解決的問題是與現(xiàn)有的用于hoa表示的壓縮方法相比顯著地降低數(shù)據(jù)率。下面論述與非壓縮的hoa表示相比的可達到的壓縮率。壓縮率得自傳送階為n的非壓縮的hoa信號c(l)所需的數(shù)據(jù)率與傳送由d個經(jīng)感知編碼的方向信號和對應的方向
為了傳送非壓縮的hoa信號c(l),需要o·fs·nb的數(shù)據(jù)率。相反,傳送d個經(jīng)感知編碼的方向信號x(l)需要d·fb,cod的數(shù)據(jù)率,其中,fb,cod表示經(jīng)感知編碼的信號的比特率。類似地,傳送nred個經(jīng)感知編碼的空間域信號wa,red(l)信號需要ored·fb,cod的比特率。假設(shè)基于與采樣率fs相比低得多的速率計算方向
因此,傳送壓縮后的表示需要大約(d+ored)·fb,cod的數(shù)據(jù)率。因此,壓縮率rcompr為
例如,使用降低的hoa階nred=2并且
降低的出現(xiàn)編碼噪聲未屏蔽的概率
如在背景技術(shù)中所述,在專利申請ep10306472.1中所述的空間域信號的感知壓縮受到信號之間的剩余的相互相關(guān)性的影響,其可能導致未屏蔽感知編碼噪聲。根據(jù)本發(fā)明,主方向信號在被感知編碼之前,首先從hoa聲場表示提取將其提取。這意味著,在組成hoa表示時,在感知解碼之后,編碼噪聲具有與方向信號完全相同的空間方向性。具體地,編碼噪聲以及方向信號對任何任意方向的影響通過在具有有限階的空間分辨率部分中解釋的空間離差函數(shù)確定性地描述。換言之,在任何時刻,表示編碼噪聲的hoa系數(shù)矢量恰好是表示方向信號的hoa系數(shù)矢量的倍數(shù)。因此,噪聲hoa系數(shù)的任意加權(quán)的和將不會導致對感知編碼噪聲的任何未屏蔽。
另外,正如在ep10306472.1中所提出那樣地處理降低了階的環(huán)境分量,但是因為針對每個定義,環(huán)境分量的空間域信號在彼此之間具有相當?shù)偷南嚓P(guān)性,所以感知噪聲未屏蔽的概率很低。
改進的方向估計
本發(fā)明的方向估計取決于能量上的主hoa分量的方向功率分布。從hoa表示的秩降低了的相關(guān)性矩陣(其通過對hoa表示的相關(guān)性矩陣的特征值分解得到)計算方向功率分布。與在上述的“plane-wavedecomposition...”論文中使用的方向估計相比,提供了更準確這一優(yōu)點,因為關(guān)注于能量上的主hoa分量而不是對方向估計使用完整的hoa表示降低了方向功率分布的空間模糊。
與在上述的“theapplicationofcompressivesamplingtotheanalysisandsynthesisofspatialsoundfields”和“timedomainreconstructionofspatialsoundfieldsusingcompressedsensing”論文中提出的方向估計相比,提供了更加健壯這一優(yōu)點。原因是將hoa表示分解成方向分量和環(huán)境分量幾乎永遠不會完美的實現(xiàn),使得在方向分量中保留少量環(huán)境分量。然后,像在這兩個論文中那樣的壓縮采樣方法由于它們對環(huán)境信號的存在的高度敏感性而無法提供合理的方向估計。
有利地,本發(fā)明的方向估計不會受到該問題的影響。
hoa表示分解的替代應用
根據(jù)在上述的pulkki的論文“spatialsoundreproductionwithdiretionalaudiocoding”中所提出的,所述的將hoa表示分解成帶有相關(guān)方向信息的若干方向信號以及在hoa域中的環(huán)境分量可以用于hoa表示的信號自適應類dirac呈現(xiàn)。
可以不同地呈現(xiàn)每個hoa分量,因為兩個分量的物理特征是不同的。例如,可以使用如基于矢量的幅度搖攝(vbap)這樣的信號搖攝技術(shù)對擴音器呈現(xiàn)方向信號,參見v.pulkki的“virtualsoundsourcepositioningusingvectorbaseamplitudepanning”(journalofaudioeng.society,卷45,第6期,第456-466頁,1997年)??梢允沟靡阎臉藴蔴oa呈現(xiàn)技術(shù)呈現(xiàn)環(huán)境hoa分量。
這樣的呈現(xiàn)不限于階為“l(fā)”的高保真度立體聲響復制表示,并且因此可以被視為到階n>1的hoa表示的類dirac呈現(xiàn)的擴展。
對來自hoa信號表示的若干方向的估計可以用于任何相關(guān)類型的聲場分析。
下面的部分更詳細地描述信號處理步驟。
壓縮
輸入格式的定義
作為輸入,假設(shè)在等式(26)中定義的縮放后的時域hoa系數(shù)
成幀
在成幀步驟或階段21中,對縮放后的hoa系數(shù)的進入的矢量c(j)進行成幀成為長度為b的非重疊的幀,其根據(jù):
假設(shè)fs=48khz的采樣率,對應于25ms的幀持續(xù)時間,適當?shù)膸L度為b=1200個樣本。
主方向的估計
對于主方向的估計,計算下面的相關(guān)性矩陣
在當前幀l和l-1個先前幀上的求和指出方向分析基于具有l(wèi)·b個樣本的幀的長重疊組,亦即,對于每個當前幀,考慮鄰近幀的內(nèi)容。這有助于方向分析的穩(wěn)定性,理由有兩個:更長的幀導致更大數(shù)量的觀測,方向估計由于重疊幀而平滑。
假設(shè)fs=48khz并且b=1200,對應于100ms的總體幀持續(xù)時間,l的合理值是4。
接下來,根據(jù)下式確定相關(guān)性矩陣b(l)的特征值分解
b(l)=v(l)λ(l)vt(l)(68)
其中,矩陣v(l)由特征矢量vi(l),1≤i≤o組成,如下
并且λ(l)是具有對應的特征值λi(l),1≤i≤o的對角矩陣,在其對角線上:
假設(shè)以非升序編排特征值的索引,亦即,
λ1(l)≥λ2(l)≥…≥λo(l)(71)
之后,計算主特征值的索引集合
關(guān)于darmin的合理選擇是15db。主特征值的數(shù)量進一步地被約束為不大于d,以便集中于不超過d個主方向。這通過將索引集
接下來,通過下式得到b(l)的
該矩陣應當包含主方向分量對b(l)的貢獻。
之后,計算矢量
其中,ξ表示關(guān)于大量近似相等分布的測試方向ωq:=(θq,φq),1≤q≤q的模式矩陣,其中,θq∈[0,π]表示從極軸z測量的傾斜角θ∈[0,π],并且φq∈[-π,π[表示從x軸在x=y(tǒng)平面中測量的方位角。
通過下式定義模式矩陣ξ
其中,對于1≤q≤q
σ2(l)中的
根據(jù)σ2(l),計算用于方向信號分量的確定的若干(
計算
可以通過以下方式確定主方向的數(shù)量
關(guān)于計算所有主方向的總體處理可以按照下面執(zhí)行:
接下來,對在當前幀中得到的方向
(a)對先前幀中的平滑的方向
最小化??梢允褂弥男傺览惴?參見h.w.kuhn的“thehungarianmethodfortheassignmentproblem”,navalresearchlogisticsquarterly2,第1-2期,第83-97頁,1955年)解決這樣的分配問題。將當前方向
(b)使用步驟(a)中的分配計算平滑的方向
對于方位角,必須修改平滑以在從π-ε(ε>0)到-π的平移時以及在相反方向的平移時得到正確的平滑。可以對此進行考慮,通過首先將以2π為模的差分角計算為
其通過下式被轉(zhuǎn)換到區(qū)間[-π,π[
這個以2π為模的平滑后的主方位角被確定為
并且通過下式最終被轉(zhuǎn)換成位于區(qū)間[-π,π[內(nèi)
在
從上一幀復制相應的方向,亦即,對于
對預定數(shù)量(lia)的幀未分配的方向被稱為是不活動的。
之后,計算通過
然后,將所有平滑后的方向連接成單個方向矩陣,作為
方向信號的計算
方向信號的計算基于模式匹配。具體地,對于那些hoa表示得到給出的hoa信號的最佳近似的方向信號進行搜索。因為相繼幀之間的方向的改變會導致方向信號的不連續(xù)性,所以可以計算重疊幀的方向信號的估計,繼之以使用適當?shù)拇翱诤瘮?shù)平滑相繼的重疊幀的結(jié)果。然而,該平滑引入單個幀的等待時間。
下面解釋關(guān)于方向信號的詳細估計:
首先,根據(jù)下式計算基于平滑后的活動的方向的模式矩陣
其中,
其中,dact,j,1≤j≤dact(l)表示活動的方向的索引。
接下來,計算包含關(guān)于第(l-1)個和第l個幀的所有方向信號的非平滑的估計的矩陣xinst(l):
其中,
這在兩個步驟中完成。在第一步驟中,將對應于不活動的方向的行中的方向信號樣本設(shè)置成零,亦即
在第二步驟中,通過首先根據(jù)下式將對應于活動的方向的方向信號樣本安排在矩陣中來得到它們
然后計算該矩陣,以便將誤差的歐幾里得范數(shù)
ξact(l)xinst,act(l)-[c(l-1)c(l)](97)
最小化。其解通過下式給出
通過適當?shù)拇翱诤瘮?shù)w(j)對方向信號xinst,d(l,j)(1≤d≤d)的估計進行窗口處理:
xinst,win,d(l,j):=xinst,d(l,j)·w(j),1≤j≤2b(99)
關(guān)于窗口函數(shù)的示例由周期漢明窗口給出,定義如下
其中,kw表示被確定為使得移位后的窗口的和等于“1”的縮放因子。根據(jù)下式通過進行了窗口處理的非平滑的估計的適當重疊來計算第(l-1)個幀的平滑后的方向信號
xd((l-1)b+j)=xinst,win,d(l-1,b+j)+xinst,win,d(l,j)(101)
對第(l-1)個幀的所有平滑后的方向信號的樣本布置在矩陣x(l-1)中,如下
其中,
環(huán)境hoa分量的計算
根據(jù)下式通過從總的hoa表示c(l-1)減去總的方向hoa分量cdir(l-1)得到環(huán)境hoa分量ca(l-1)
其中,通過下式確定cdir(l-1)
其中,ξdom(l)表示通過下式定義的基于所有平滑的方向的模式矩陣
因為總的方向hoa分量的計算還基于重疊的相繼瞬間總方向hoa分量的空間平滑,還得到具有單個幀的等待時間的環(huán)境hoa分量。
環(huán)境hoa分量的階降低
通過ca(l一1)的分量將其表示為
通過刪去所有n>nred的hoa系數(shù)
環(huán)境hoa分量的球諧函數(shù)變換
通過降低了階的環(huán)境hoa分量ca,red(l)與模式矩陣的逆的相乘執(zhí)行球諧函數(shù)變換
其中,
基于ored是均勻分布的方向ωa,d
1≤d≤ored:wa,red(l)=(ξa)-1ca,red(l)(111)
解壓縮
逆球諧函數(shù)變換
經(jīng)由逆球諧函數(shù)變換通過下式將經(jīng)感知解壓縮的空間域信號
階擴展
根據(jù)下式通過附加零將hoa表示
其中,om×n表示具有m行和n列的零矩陣。
hoa系數(shù)組成
最終的解壓縮后的hoa系數(shù)根據(jù)下式由方向和環(huán)境hoa分量相加組成
在該階段,再次引入單個幀的等待時間以允許基于空間平滑計算方向hoa分量。由此,避免了在聲場的方向分量中由相繼幀之間的方向改變導致的可能的不期望的不連續(xù)性。
為了計算平滑后的方向hoa分量,將包含所有單獨方向信號的估計的兩個相繼幀連接成單個長幀,如下
在該長幀中包含的每個單獨信號選段乘以例如等式(100)的窗口函數(shù)。當按照下式通過長幀
可以將窗口處理操作用公式表示為計算經(jīng)窗口處理的信息選段
最后,通過將所有經(jīng)窗口處理的方向信號選段編碼成適當?shù)姆较虿⑶乙灾丿B的方式將它們重疊,得到總的方向hoa分量cdir(l-1):
方向搜索算法的解釋
下面,解釋在主方向估計部分中所述的方向搜索處理之后的動機。其基于首先定義的一些假設(shè)。
假設(shè)
hoa系數(shù)矢量c(j)通常通過下式與時域幅度密度函數(shù)d(j,ω)相關(guān)
假設(shè)hoa系數(shù)矢量c(j)符合以下模型:
該模型表明,一方面,hoa系數(shù)矢量c(j)通過來自第l個幀的方向
假設(shè)單獨的hoa系數(shù)矢量分量具有以下性質(zhì):
●假設(shè)主源信號是零平均值,亦即
并且假設(shè)主源信號彼此無關(guān),亦即
其中
●假設(shè)主源信號與hoa系數(shù)矢量的環(huán)境分量無關(guān),亦即
●假設(shè)環(huán)境hoa分量矢量是零平均值,并且假設(shè)其具有協(xié)方差矩陣
●每個幀l的方向?qū)Νh(huán)境功率比dar(l)在此處通過下式定義
假設(shè)其大于預定義的期望值darmin,亦即
dar(l)≥darmin(126)
方向搜索的解釋
為了進行解釋,考慮以下情況:僅基于第l個幀的樣本而不考慮l-1個先前幀的樣本,計算相關(guān)性矩陣b(l)(參見等式(67))。該操作對應于設(shè)置l=1。因此,相關(guān)性矩陣可以表示為
通過將等式(120)中的模型假設(shè)替換到等式(128)中,并且通過使用等式(122)和(123)以及等式(124)中的定義,可以將相關(guān)性矩陣b(l)近似為(129)
根據(jù)等式(131)可以看出,b(l)近似地由對方向和環(huán)境hoa分量有貢獻的兩個附加分量組成。其
其根據(jù)關(guān)于方向?qū)Νh(huán)境功率比的等式(126)得出。
然而,應當強調(diào)的是,∑a(l)的一部分將不可避免地漏到
在等式(135)中,使用在等式(47)中示出的球諧函數(shù)的以下屬性:
st(ωq)s(ωq′)=vn(∠(ωq,ωq′))(137)
等式(136)示出,σ2(l)的