專利名稱:音頻格式轉(zhuǎn)碼器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻格式轉(zhuǎn)碼領(lǐng)域,尤其涉及參數(shù)化譯碼格式的轉(zhuǎn)碼。
背景技術(shù):
近來(lái),提出用于多聲道/多對(duì)象音頻信號(hào)譯碼的若干參數(shù)技術(shù)。每個(gè)系統(tǒng)都具有關(guān)于諸如參數(shù)化特性的類型、依賴/獨(dú)立于特定揚(yáng)聲器設(shè)置等特性的獨(dú)特優(yōu)點(diǎn)和缺點(diǎn)。不同的參數(shù)技術(shù)針對(duì)不同的譯碼策略最優(yōu)化。作為例子,針對(duì)多聲道聲音表現(xiàn)的定向音頻編碼(DirAC)格式基于下混信號(hào) (downmix signal)和含有針對(duì)許多子頻帶的方向以及擴(kuò)散參數(shù)的邊信息。由于該參數(shù)化, 因此DirAC系統(tǒng)可用來(lái)容易地實(shí)現(xiàn)例如定向?yàn)V波,并且這樣隔離來(lái)自與用于拾音的傳聲器陣列成特別方向的聲音。這樣,DirAC也可被當(dāng)做實(shí)現(xiàn)特定空間處理的聲學(xué)前端。作為進(jìn)一步例子,空間音頻對(duì)象編碼(SAOC) IS0/IEC,“MPEG audio technologies-Part. 2 =Spatial Audio Object Coding(SAOC),,,IS0/IEC JTC1/SC29/ WGll(MPEG)FCD 23003-2, J. Herre, S.Disch, J. Hilpert, 0. Hellmuth "From SAC to SAOC-Recent Developments in Parametric Coding of Spatial Audio,,, 22nd Regional UK AES Conference, Cambridge, UK, 2007 年 4 月,J. Engdegard, B. Resch, C. Falch, 0. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers 禾口 W. Oomen :‘‘Spatial Audio Object Coding (SAOC)-The Upcoming MPEG Standard on Parametric Object Based Audio Coding,,,124thAES Convention, Amsterdam 2008, Preprint 7377,是表現(xiàn)以比特率有效的方式含有多音頻對(duì)象的音頻場(chǎng)景的參數(shù)化編碼系統(tǒng)。這里,該表現(xiàn)基于下混信號(hào)和參數(shù)化邊信息。與針對(duì)表現(xiàn)由傳聲器陣列拾音時(shí)的原空間聲音場(chǎng)景的DirAC相反,SAOC不針對(duì)重建自然聲音場(chǎng)景。相反,許多音頻對(duì)象(聲源)傳輸并在SAOC解碼器中根據(jù)在解碼器終端的用戶偏好而組合為目標(biāo)聲音場(chǎng)景,即,用戶可自由并交互安置并操縱每個(gè)聲音對(duì)象。通常,在多聲道再現(xiàn)和收聽中,多個(gè)揚(yáng)聲器圍繞收聽者。存在為特定設(shè)置捕捉音頻信號(hào)的各種方法。再現(xiàn)中的一個(gè)通常目標(biāo)是再現(xiàn)原錄制信號(hào)的空間組成,即,單獨(dú)音源的源頭,諸如在管弦樂(lè)隊(duì)內(nèi)的小號(hào)位置。若干揚(yáng)聲器設(shè)置相當(dāng)普遍,并可創(chuàng)造不同的空間感。不使用特殊的后期制作技術(shù),普遍已知的兩聲道立體聲設(shè)置可僅在兩個(gè)揚(yáng)聲器之間的線路上再創(chuàng)造聽覺事件。這主要通過(guò)所謂“振幅平移(panning)”實(shí)現(xiàn),其中關(guān)聯(lián)于一個(gè)音源的信號(hào)的振幅取決于音源對(duì)于揚(yáng)聲器的位置而分布在兩個(gè)揚(yáng)聲器之間。這通常在錄制或隨后的混合期間完成。即,來(lái)自關(guān)于收聽位置的最左邊的音源主要由左揚(yáng)聲器再現(xiàn),由此在收聽位置前面的音源由兩個(gè)揚(yáng)聲器以相同振幅(水平)再現(xiàn)。然而,從其它方向發(fā)出的聲音不可再現(xiàn)。因此,通過(guò)使用在收聽者周圍放置的更多揚(yáng)聲器,可覆蓋更多方向,并且可創(chuàng)造更自然的空間感?;蛟S最為眾所周知的多聲道揚(yáng)聲器布局為5.1標(biāo)準(zhǔn)(ITU-R775-1),其由5個(gè)揚(yáng)聲器構(gòu)成,這5個(gè)揚(yáng)聲器關(guān)于收聽位置的方位角被預(yù)先確定為0°、士 30°和士 110°。 這意味著,在錄制或混合期間,信號(hào)剪裁到該特定揚(yáng)聲器配置,并且再現(xiàn)設(shè)置與標(biāo)準(zhǔn)的偏離會(huì)導(dǎo)致降低的再現(xiàn)質(zhì)量。也提出具有定位在不同方向的各種數(shù)量揚(yáng)聲器的許多其它系統(tǒng)。專業(yè)系統(tǒng)(尤其在劇院和聲音設(shè)施中)也包括處于不同高度的揚(yáng)聲器。根據(jù)不同的再現(xiàn)設(shè)置,已設(shè)計(jì)并提出針對(duì)先前提到的揚(yáng)聲器系統(tǒng)的若干不同的錄制方法,以便錄制并再現(xiàn)在收聽場(chǎng)所中的空間感如同其在錄制環(huán)境中察覺到的。針對(duì)選擇的多聲道揚(yáng)聲器系統(tǒng)錄制空間聲音的理論上理想方式是使用與揚(yáng)聲器數(shù)量相同的傳聲器。 在此情況下,傳聲器的方向圖也對(duì)應(yīng)揚(yáng)聲器布局,以使來(lái)自任何單個(gè)方向的聲音僅被較小數(shù)量的傳聲器(1、2或更多)錄制。每個(gè)傳聲器都關(guān)聯(lián)特定揚(yáng)聲器。在再現(xiàn)中使用的揚(yáng)聲器越多,傳聲器的方向圖必須越狹窄。然而,狹窄的定向傳聲器相當(dāng)昂貴,并通常具有不平坦的頻率響應(yīng),以不期望的方式劣化錄制聲音的質(zhì)量。此外,使用具有太寬方向圖的若干傳聲器作為到多聲道再現(xiàn)的輸入導(dǎo)致歪曲且模糊的聽覺感知,其歸因于以下事實(shí)由于從單個(gè)方向發(fā)出的聲音總是被關(guān)聯(lián)于不同揚(yáng)聲器的傳聲器錄制,因此該聲音被多于必需的揚(yáng)聲器再現(xiàn)。通常,當(dāng)前可用的傳聲器最適合兩聲道錄制和再現(xiàn),即,其在沒有以再現(xiàn)環(huán)繞空間感為目標(biāo)的情況下被設(shè)計(jì)出來(lái)。根據(jù)傳聲器設(shè)計(jì)觀點(diǎn),已討論使方向圖適應(yīng)空間音頻再現(xiàn)中需求的若干途徑。通常,全部傳聲器取決于聲音到達(dá)傳聲器的方向來(lái)不同地捕捉聲音。即,傳聲器具有取決于錄制聲音到達(dá)方向的不同靈敏度。在一些傳聲器中,由于其幾乎獨(dú)立于方向捕捉聲音,因此該效果較小。這些傳聲器通常稱為全向傳聲器。在典型的傳聲器設(shè)計(jì)中,緩慢振膜(secular diaphragm)附至小氣密外殼。如果該振膜不附至該外殼并且聲音從每側(cè)相等到達(dá)該外殼, 那么其方向圖具有兩個(gè)波瓣。即,這樣的傳聲器以相同靈敏度捕捉來(lái)自振膜的前方和后方的聲音,然而具有相反的極性。這種傳聲器不捕捉來(lái)自與振膜的平面重合(即,垂直于最大靈敏度方向)的聲音。這種方向圖稱為偶極或八字形。全向傳聲器也可使用針對(duì)傳聲器的非氣密外殼而更改為定向傳聲器。該外殼被特別構(gòu)造為使得允許聲波傳播通過(guò)該外殼并到達(dá)振膜,其中一些傳播方向是優(yōu)選的,以使這種傳聲器的方向圖變?yōu)樵谌蚝团紭O之間的圖案。這些圖案可以是(例如)具有兩個(gè)波瓣。 然而,波瓣可具有不同強(qiáng)度。一些普遍已知的傳聲器具有僅有一個(gè)單一波瓣的圖案。大多數(shù)重要例子是心形圖案,其中定向函數(shù)D可表示為D= l+C0S(e),θ是聲音的到達(dá)方向。 定向函數(shù)如此量化,進(jìn)入的聲音振幅的哪個(gè)部分被捕捉取決于不同的方向。先前討論的全向圖案也稱為零階圖案,并且先前提到的其它圖案(偶極和心形) 稱為一階圖案。由于先前討論的全部傳聲器的方向圖完全由機(jī)械構(gòu)造確定,因此該傳聲器設(shè)計(jì)不允許方向圖任意成形。為部分地克服該問(wèn)題,已設(shè)計(jì)了一些專用聲學(xué)結(jié)構(gòu),這些專用聲學(xué)結(jié)構(gòu)可用來(lái)創(chuàng)造比一階傳聲器的方向圖更窄的方向圖。例如,當(dāng)其中具有孔洞的管附至全向傳聲器時(shí),可創(chuàng)造具有窄方向圖的傳聲器。這些傳聲器稱為獵槍或步槍傳聲器。然而,其通常不具有平坦的頻率響應(yīng),即,方向圖的縮窄是以錄制聲音的質(zhì)量為代價(jià)。此外,方向圖由幾何構(gòu)造預(yù)定,并因此,用這樣的傳聲器執(zhí)行的錄制的方向圖在錄制之后不能夠被控制。因此,提出部分地允許在實(shí)際錄制之后更改方向圖的其它方法。通常,這依賴于用全向或定向傳聲器的陣列錄制聲音然后應(yīng)用信號(hào)處理的基本理念。近來(lái)提出各種這樣的技術(shù)。相當(dāng)簡(jiǎn)單的例子是用相互緊密放置的兩個(gè)全向傳聲器錄制聲音,并且使兩個(gè)信號(hào)相減。 這創(chuàng)造具有等效于偶極的方向圖的虛擬傳聲器信號(hào)。在其它更復(fù)雜的方案中,傳聲器信號(hào)也可在使其相加之前被延遲或?yàn)V波。使用成形,通過(guò)用特殊設(shè)計(jì)的濾波器過(guò)濾每個(gè)傳聲器信號(hào)并在濾波之后使信號(hào)相加(濾波-相加波束形成)來(lái)形成對(duì)應(yīng)于窄束的信號(hào)。然而,這些技術(shù)使信號(hào)自身難認(rèn),即,這些技術(shù)不知道聲音的到達(dá)方向。因此,可定義預(yù)定的方向圖,其獨(dú)立于聲源在預(yù)定方向上的實(shí)際存在。 通常,對(duì)聲音的“到達(dá)方向”的估計(jì)是其自己的任務(wù)。通常,許多不同的空間定向特性可用上面技術(shù)形成。然而,形成任意的空間選擇性靈敏度圖案(即,形成窄方向圖)需要大量傳聲器。創(chuàng)造多聲道錄制的可替換方式是靠近要被記錄的每個(gè)聲源(例如,儀器)定位傳聲器,從而通過(guò)在最終混合中控制靠近傳聲器信號(hào)的水平來(lái)再創(chuàng)造空間感。然而,這樣的系統(tǒng)在創(chuàng)造最終下混時(shí)需求大量傳聲器和許多用戶交互。
發(fā)明內(nèi)容
克服上述問(wèn)題的方法是DirAC,其可被不同的傳聲器系統(tǒng)使用,并且其能夠利用任意揚(yáng)聲器設(shè)置來(lái)錄制用于再現(xiàn)的聲音。DirAC的目的是使用具有任意幾何設(shè)置的多聲道揚(yáng)聲器系統(tǒng)盡可能精確地再現(xiàn)現(xiàn)有聲學(xué)環(huán)境的空間感。在錄制環(huán)境內(nèi),環(huán)境的響應(yīng)(其可以是連續(xù)錄制的聲音或脈沖響應(yīng))由全向傳聲器(W)以及允許測(cè)量聲音到達(dá)方向和聲音擴(kuò)散度的一組傳聲器來(lái)測(cè)量。在下面段落中以及在本申請(qǐng)內(nèi),術(shù)語(yǔ)“擴(kuò)散度”理解為對(duì)于聲音的非定向性的測(cè)量。即,來(lái)自全部方向的、以相等強(qiáng)度到達(dá)收聽或錄制位置的聲音被最大擴(kuò)散。量化擴(kuò)散的普遍方式是使用來(lái)自區(qū)間W,…,1]的擴(kuò)散度值,其中值1描述最大擴(kuò)散的聲音,并且值0 描述理想的定向聲音,即,聲音僅來(lái)自一個(gè)清晰可區(qū)別的方向。測(cè)量聲音到達(dá)方向的一個(gè)普遍已知方法是應(yīng)用對(duì)準(zhǔn)笛卡爾坐標(biāo)軸的3個(gè)八字形傳聲器(X,Y,Z)。設(shè)計(jì)特殊傳聲器,所謂“B格式傳聲器”,其直接產(chǎn)生全部期望的響應(yīng)。然而,如上面提到,W、X、Y和Z信號(hào)也可從一組離散的全向傳聲器計(jì)算。在DirAC分析中,錄制聲音信號(hào)劃分為對(duì)應(yīng)人聽覺感知的頻率選擇性的頻道。艮口, 該信號(hào)例如由濾波器組或傅里葉變換處理,從而使該信號(hào)劃分為具有適應(yīng)人聽力的頻率選擇性的頻帶的許多頻道。然后,分析頻帶信號(hào)從而用預(yù)定的時(shí)間分辨率確定聲音的原方向和每個(gè)頻道的擴(kuò)散度值。該時(shí)間分辨率不必是固定的,并當(dāng)然可適應(yīng)于錄制環(huán)境。在DirAC 中,一個(gè)或更多音頻聲道與分析得到的方向和擴(kuò)散度數(shù)據(jù)一起被錄制或傳輸。在合成或解碼中,最終應(yīng)用于揚(yáng)聲器的音頻聲道可基于全向聲道W(由于使用的傳聲器的全向方向圖,因此以高質(zhì)量錄制),或針對(duì)每個(gè)揚(yáng)聲器的聲音可計(jì)算為W、X、Y和Z 的加權(quán)和,因此針對(duì)每個(gè)揚(yáng)聲器形成具有某定向特性的信號(hào)。對(duì)應(yīng)于譯碼,每個(gè)音頻聲道被劃分為頻道,可選地,頻道取決于分析得到的擴(kuò)散度來(lái)進(jìn)一步劃分為擴(kuò)散和非擴(kuò)散流。如果擴(kuò)散度經(jīng)測(cè)量為較高,則可使用產(chǎn)生聲音的擴(kuò)散感知的技術(shù)再現(xiàn)擴(kuò)散流,諸如也在雙耳提示編碼(Binaual cue coding)中使用的解相關(guān)技術(shù)。使用旨在產(chǎn)生點(diǎn)狀虛擬音源的技術(shù)再現(xiàn)非擴(kuò)散聲音,該點(diǎn)狀虛擬音源定位在由分析(即,DirAC信號(hào)生成)中發(fā)現(xiàn)的方向數(shù)據(jù)表示的方向上。即,空間再現(xiàn)并不像現(xiàn)有技術(shù) (例如5.1)那樣被剪裁到一個(gè)特定的、“理想的”揚(yáng)聲器設(shè)置。特別地,這正如以下情況使用對(duì)用于錄制的傳聲器的方向圖的了解來(lái)確定聲音來(lái)源為方向參數(shù)(即,由向量描述)的情況。正如已經(jīng)討論的,聲音來(lái)源在3維空間中以頻率選擇性方式參數(shù)化。同樣,只要知曉揚(yáng)聲器設(shè)置的幾何形狀,則對(duì)于任意揚(yáng)聲器設(shè)置能夠以高質(zhì)量再現(xiàn)定向感。因此,DirAC不限于特殊揚(yáng)聲器幾何形狀,并通常允許更靈活的聲音空間再現(xiàn)。DirAC, 參考 Pulkki, V. ,"Direction audio coding in spatial sound reproduction and stereo upmixing", In Proceedings of the AES 28th International Conference, pp. 251-258,Pitea, Sweden, 2006 年6 月 30 日-7 月 2 日,提供基于一個(gè)或更多下混信號(hào)加上附加的邊信息表現(xiàn)空間音頻信號(hào)的系統(tǒng)。在其它可能方面中,邊信息以聲場(chǎng)在許多頻帶中擴(kuò)散度的程度來(lái)描述聲場(chǎng)的到達(dá)方向,如在圖5示出。圖5例示DirAC信號(hào),其由作為(例如)八字形傳聲器信號(hào)X、Y、Z的三個(gè)定向分量加全向信號(hào)W構(gòu)成。每個(gè)信號(hào)都在圖5中通過(guò)針對(duì)每個(gè)信號(hào)的多個(gè)堆疊平面示出的頻域中可用?;谒膫€(gè)信號(hào),方向和擴(kuò)散度的估計(jì)可在方框510和520中執(zhí)行,其例示針對(duì)每個(gè)頻道的方向和擴(kuò)散度的估計(jì)。這些估計(jì)的結(jié)果通過(guò)表現(xiàn)每個(gè)頻率層的方位角、仰角和擴(kuò)散度的參數(shù)θ (t,f)、φ (t,f)和Ψ (t,f)給出。DirAC參數(shù)化可用來(lái)容易實(shí)現(xiàn)具有期望的空間特性的空間濾波,例如僅使源自特別談話者方向上的聲音通過(guò)。這可通過(guò)將方向/擴(kuò)散度和任選頻率依賴加權(quán)應(yīng)用到下混信號(hào)來(lái)實(shí)現(xiàn),如在圖6和圖7中所示。圖6示出重建音頻信號(hào)的解碼器620。解碼器620包括方向選擇器622和音頻處理器624。根據(jù)圖6的例子,利用若干傳聲器錄制的多聲道音頻輸入擬6通過(guò)定向分析器 628分析,該定向分析器得到表示音頻聲道的一部分的來(lái)源方向,即被分析信號(hào)部分的來(lái)源方向的方向參數(shù)。選擇大部分能量入射到傳聲器的方向,并且為每個(gè)特定信號(hào)部分確定錄制位置。這可以例如同樣使用先前描述的DirAC-傳聲器技術(shù)完成?;阡浿频囊纛l信息的其它定向分析方法可用來(lái)實(shí)現(xiàn)分析。結(jié)果,定向分析器6 獲得表示部分音頻聲道的來(lái)源方向或部分多聲道信號(hào)6 的來(lái)源方向的方向參數(shù)630。此外,定向分析器6 可以操作地獲得針對(duì)每個(gè)信號(hào)部分(例如,針對(duì)每個(gè)頻率間隔或針對(duì)信號(hào)的每個(gè)時(shí)間幀)的擴(kuò)散度參數(shù)632。方向參數(shù)630和可選地?cái)U(kuò)散度參數(shù)632傳輸?shù)椒较蜻x擇器620,該方向選擇器被實(shí)現(xiàn)為關(guān)于錄制位置或重建音頻信號(hào)的重建部分的來(lái)源來(lái)選擇期望方向。關(guān)于期望方向的信息傳輸?shù)揭纛l處理器624。音頻處理器6M接收具有獲得針對(duì)其一部分的方向參數(shù)的至少一個(gè)音頻聲道634。由音頻處理器修改的該至少一個(gè)聲道可以是(例如)通過(guò)常規(guī)多聲道下混算法生成的多聲道信號(hào)626的下混。一個(gè)示范性簡(jiǎn)單情況是多聲道音頻輸入6 的信號(hào)的直接相加。然而,由于該概念不受輸入聲道的數(shù)量限制,因此全部的音頻輸入聲道6 都可由音頻解碼器620同時(shí)處理。音頻處理器6M修改音頻部分以便獲得重建音頻信號(hào)的重建部分,其中該修改包括增加具有以下方向參數(shù)的部分音頻聲道的強(qiáng)度,該方向參數(shù)相對(duì)于所具有的方向參數(shù)表明來(lái)源方向遠(yuǎn)離來(lái)源的期望方向的音頻聲道的其他部分而言表明來(lái)源方向更靠近來(lái)源的期望方向。在圖6的例子中,通過(guò)使比例因數(shù)636(q)與要被修改的部分音頻信號(hào)相乘來(lái)執(zhí)行修改。即,如果部分音頻信號(hào)經(jīng)分析為源于靠近選定的期望方向的方向,則大比例因數(shù) 636與音頻部分相乘。因此,在其輸出端638,音頻處理器輸出對(duì)應(yīng)在其輸入端提供的部分音頻聲道的重建音頻信號(hào)的重建部分。正如還由在音頻處理器624的輸出端638處以虛線表示的,這不僅可針對(duì)單輸出信號(hào)執(zhí)行,也可針對(duì)輸出聲道的數(shù)量不固定或未預(yù)定的多聲道輸出信號(hào)執(zhí)行。換言之,音頻解碼器620從例如在DirAC中使用的這樣的定向分析獲得其輸入。 來(lái)自傳聲器陣列的音頻信號(hào)擬6可根據(jù)人聽覺系統(tǒng)的頻率分辨率劃分為頻帶。取決于在每個(gè)頻道的時(shí)刻來(lái)分析聲音的方向和可選地聲音擴(kuò)散度。這些屬性進(jìn)一步表述為例如方位角 (azi)和仰角(ele),并表述為在零和一之間變化的擴(kuò)散度系數(shù)(Ψ)。然后,通過(guò)對(duì)獲取的信號(hào)使用取決于方向角(azi和ele)并可選地取決于擴(kuò)散度 (Ψ)的加權(quán)操作,將預(yù)計(jì)或選定的定向特性施加在獲取的信號(hào)上。顯然,該加權(quán)可針對(duì)不同頻帶而不同指定,并通常隨時(shí)間而變化。圖7示出基于DirAC合成的進(jìn)一步例子。在該意義上,圖7的例子可解釋為DirAC 再現(xiàn)的增強(qiáng),其允許取決于分析的方向來(lái)控制聲級(jí)。這使其可能加強(qiáng)來(lái)自一個(gè)或多個(gè)方向的聲音,或抑制來(lái)自一個(gè)或多個(gè)方向的聲音。當(dāng)應(yīng)用于多聲道再現(xiàn)時(shí),實(shí)現(xiàn)再現(xiàn)聲像的后期處理。如果僅一個(gè)聲道用作輸出,那么效果等效于在信號(hào)錄制期間使用具有任意方向圖的定向傳聲器。如在圖7示出,示出方向參數(shù)的推導(dǎo)和一個(gè)傳輸?shù)囊纛l聲道的推導(dǎo)。分析的執(zhí)行是基于例如由聲場(chǎng)傳聲器錄制的B格式傳聲器聲道W、X、Y和Z。按照幀來(lái)執(zhí)行該處理。因此,連續(xù)音頻信號(hào)劃分為幀,該幀通過(guò)窗函數(shù)調(diào)整從而避免在幀邊界處不連續(xù)。窗口信號(hào)幀在傅里葉變換方框740中經(jīng)歷傅里葉變換,使傳聲器信號(hào)劃分為N個(gè)頻帶。為簡(jiǎn)單,由于其余的頻帶等效處理,因此在下面段落中描述一個(gè)任意頻帶的處理。傅里葉變換方框740獲得描述在所分析的窗口幀內(nèi)B格式傳聲器聲道W、X、Y和 Z的每一個(gè)中存在的頻率分量強(qiáng)度的系數(shù)。這些頻率參數(shù)742輸入到音頻編碼器744,以便獲得音頻聲道和關(guān)聯(lián)的方向參數(shù)。在圖7示出的例子中,傳輸?shù)囊纛l聲道被選擇為全向聲道746,其具有關(guān)于來(lái)自全部方向的信號(hào)的信息?;卺槍?duì)B格式傳聲器聲道的全向和定向部分的系數(shù)742,定向和擴(kuò)散度分析由定向分析方框748執(zhí)行。針對(duì)經(jīng)分析的部分音頻聲道的聲音來(lái)源方向被傳輸?shù)揭纛l解碼器750,以使音頻信號(hào)與全向聲道746 —起重建。在擴(kuò)散度參數(shù)752存在時(shí),信號(hào)通路分為非擴(kuò)散通路75 和擴(kuò)散通路754b。非擴(kuò)散通路75 根據(jù)擴(kuò)散度參數(shù)調(diào)整,以使在擴(kuò)散度Ψ為低時(shí),能量的大部分或振幅的大部分保留在非擴(kuò)散通路中。相反,在擴(kuò)散度為高時(shí),能量的大部分轉(zhuǎn)移到擴(kuò)散通路754b。在擴(kuò)散通路754b中,使用解相關(guān)器756a或756b使信號(hào)解相關(guān)或擴(kuò)散。 解相關(guān)可使用常規(guī)已知技術(shù)執(zhí)行,諸如關(guān)于白噪聲信號(hào)的卷積,其中白噪聲信號(hào)可逐頻道不同。只要解相關(guān)能量守恒,那么由于信號(hào)在信號(hào)通路處已經(jīng)調(diào)整(如通過(guò)擴(kuò)散度參數(shù)Ψ 表示),因此可通過(guò)在輸出端簡(jiǎn)單添加非擴(kuò)散信號(hào)通路75 和擴(kuò)散信號(hào)通路754b的信號(hào)使最終輸出再生。在針對(duì)多聲道設(shè)置執(zhí)行重建時(shí),定向信號(hào)通路75 與擴(kuò)散信號(hào)通路754b在分裂位置758a和758b處被分裂為對(duì)應(yīng)于各揚(yáng)聲器信號(hào)的許多子通路。為此,在分裂位置758a 和758b的分裂可解釋為等效于至少一個(gè)音頻聲道上混(up-mixing)到多聲道以便經(jīng)具有多個(gè)揚(yáng)聲器的擴(kuò)音器系統(tǒng)回放。
因此,多個(gè)聲道中的每個(gè)都具有音頻聲道746的聲道部分。各音頻部分的來(lái)源方向由重定向方框760重建,該重定向方框附加地增加或降低對(duì)應(yīng)用來(lái)回放的揚(yáng)聲器的聲道部分的強(qiáng)度或振幅。為此,重定向方框760通常需要了解關(guān)于用來(lái)回放的揚(yáng)聲器設(shè)置。實(shí)際重分布(重定向)和關(guān)聯(lián)加權(quán)因數(shù)的推導(dǎo)可(例如)使用用作基于向量的振幅平移的技術(shù)來(lái)實(shí)現(xiàn)。通過(guò)向重分布方框760供應(yīng)不同幾何形狀的揚(yáng)聲器設(shè)置,可在實(shí)施方式中使用回放揚(yáng)聲器的任意配置而沒有再現(xiàn)質(zhì)量的損失。在處理之后,通過(guò)傅里葉逆變換方框762對(duì)頻域信號(hào)執(zhí)行多個(gè)傅里葉逆變換,從而獲得可通過(guò)各揚(yáng)聲器回放的時(shí)域信號(hào)。在回放之前, 通過(guò)求和單元764執(zhí)行重疊和添加技術(shù)以連結(jié)各音頻幀,從而獲得準(zhǔn)備好由揚(yáng)聲器回放的連續(xù)時(shí)域信號(hào)。根據(jù)在圖7中示出的例子,DirAC的信號(hào)處理得到修正在于引入音頻處理器766 從而修改被實(shí)際處理的部分音頻聲道,并且其允許提高所具有的方向參數(shù)表示靠近期望方向的來(lái)源方向的部分音頻聲道的強(qiáng)度。這通過(guò)應(yīng)用附加的加權(quán)因數(shù)到直接信號(hào)通路來(lái)實(shí)現(xiàn)。即,如果處理的頻率部分源于期望方向,那么通過(guò)應(yīng)用附加的增益到特定信號(hào)部分來(lái)增強(qiáng)信號(hào)。由于效果同等貢獻(xiàn)于全部頻道部分,因此增益的應(yīng)用可在分裂點(diǎn)758a之前執(zhí)行。附加的加權(quán)因數(shù)的應(yīng)用可在重分布方框760內(nèi)實(shí)現(xiàn),在此情況下該重分布方框應(yīng)用通過(guò)附加的加權(quán)因數(shù)增加的重分布增益因數(shù)。在多聲道信號(hào)的重建中使用定向增強(qiáng)時(shí),再現(xiàn)可(例如)以DirAC渲染的形式執(zhí)行,如在圖7示出。要被再現(xiàn)的音頻聲道劃分為以下頻帶,其等于用來(lái)定向分析的頻帶。然后,這些頻帶劃分為擴(kuò)散流和非擴(kuò)散流。再現(xiàn)擴(kuò)散流,例如通過(guò)在對(duì)于30ms白噪聲脈沖的卷積之后應(yīng)用聲音到每個(gè)揚(yáng)聲器。噪聲脈沖對(duì)于每個(gè)揚(yáng)聲器不同。非擴(kuò)散流應(yīng)用于從當(dāng)然取決于時(shí)間的定向分析提供的方向。為了在多聲道揚(yáng)聲器系統(tǒng)中實(shí)現(xiàn)方向感,可使用簡(jiǎn)單的成對(duì)或成三(triplet-wise)振幅平移。此外,每個(gè)頻道都乘以取決于分析得到的方向的增益因數(shù)或比例因數(shù)。大體上,可指定函數(shù)來(lái)定義用于再現(xiàn)的期望方向圖。這可以是例如應(yīng)被加強(qiáng)的僅一個(gè)單方向。然而,任意方向圖都可按照?qǐng)D7容易實(shí)現(xiàn)。在以下方法中,進(jìn)一步的例子被描述為處理步驟的列表。該列表基于利用B格式傳聲器錄制聲音,然后處理以便用多聲道或單聲道揚(yáng)聲器設(shè)置收聽的假設(shè),該設(shè)置使用 DirAC樣式渲染或供應(yīng)表示音頻聲道部分的來(lái)源方向的方向參數(shù)的渲染。第一,傳聲器信號(hào)可劃分為頻帶,并取決于頻率以在每個(gè)頻帶的方向和可選地?cái)U(kuò)散度分析。作為例子,方向可由方位角和仰角(aZi,ele)參數(shù)化。第二,可指定描述期望方向圖的函數(shù)F。該函數(shù)可具有任意形狀。其通常取決于方向。此外,如果擴(kuò)散度信息可用, 那么該函數(shù)也可取決于擴(kuò)散度。該函數(shù)可對(duì)于不同頻率而不同,并且其也依據(jù)于時(shí)間而更改。在每個(gè)頻帶,可針對(duì)每個(gè)時(shí)間實(shí)例獲得源自函數(shù)F的定向因數(shù)q,其用于隨后的音頻信號(hào)加權(quán)(調(diào)整)。第三,音頻采樣值可與對(duì)應(yīng)每個(gè)時(shí)刻和頻率部分的定向因數(shù)的q值相乘,從而形成輸出信號(hào)。這可在時(shí)域和/或頻域表示中完成。此外,該處理可以例如實(shí)現(xiàn)為對(duì)任何數(shù)量的期望輸出聲道的DirAC渲染的部分。如先前描述,該結(jié)果可使用多聲道或單聲道揚(yáng)聲器系統(tǒng)收聽。近來(lái),提出對(duì)于含有多音頻對(duì)象的音頻場(chǎng)景的比特率有效傳輸/存儲(chǔ)的參數(shù)化技術(shù),例如雙耳提示編碼(Binaural Cue Coding)(類型 1),參考 C. Faller 和 F. Baumgarte, "Binaural CueCoding-Part II Schemes and application,,,IEEFTrans. on Speech and Audio Proc., vol. 11,no. 6,2003 年 11 月,或聯(lián)合信源編碼(Joint Source Coding),參考 C. Faller, "Parametric Join-Coding of Audio Sources,,,120th AES Conventiont, Paris, 2006,Preprint 6752,以及 MPEG 空間音頻對(duì)象編碼(SAOC),參考 J. Herre,S. Disch, J. Hilpert, 0. Hellmuth :‘‘From SAC to SAOC-Recent Developments in Parametric Coding of Spatial Audio,,,22nd Regional UK AES Conference, Cambridge, UK, 2007 年 4 月,J. Engdegard, B. Resch, C. Falch, 0. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens,E. Schuijers 禾口 I Oomen "Spatial Audio Object Coding(SAOC)-The Upcoming MPEG Standard on Parametric Object Based Audio Coding",124thAES Convention, Amsterdam 2008, Preprint 7377) 這些技術(shù)針對(duì)感知地重建期望的輸出音頻場(chǎng)景而不通過(guò)波形匹配。圖8示出這種系統(tǒng)(此處MPEG SA0C)的系統(tǒng)概述。圖8示出MPEG SAOC系統(tǒng)概述。該系統(tǒng)包括SAOC譯碼器810、SA0C解碼器820和渲染器830。通常處理能夠以頻率選擇性方式執(zhí)行,其中在下面定義的處理可在單獨(dú)頻帶的每個(gè)中執(zhí)行。SAOC譯碼器輸入有許多(N)個(gè)輸入音頻對(duì)象信號(hào),該信號(hào)下混為SAOC譯碼器處理的一部分。SAOC譯碼器810輸出下混信號(hào)和邊信息。 由SAOC譯碼器810提取的邊信息表現(xiàn)輸入音頻對(duì)象的特性。對(duì)于MPEG SA0C,為全部音頻對(duì)象激勵(lì)的對(duì)象是邊信息的最重要組成。實(shí)際上,稱為對(duì)象級(jí)差(OLD)的相對(duì)功率代替了絕對(duì)功率傳輸。在對(duì)象對(duì)之間的相干性/相關(guān)性稱為對(duì)象間相干性(I0C),并可用來(lái)進(jìn)一步描述輸入音頻對(duì)象的性質(zhì)。下混信號(hào)和邊信息可傳輸或存儲(chǔ)。為此,可使用諸如MPEG-I層2或也稱為MP3的 MPEG-I層3、MPEG高級(jí)音頻編碼(AAC)等眾所周知的感知音頻編碼器壓縮下混信號(hào)。在接收末端,SAOC解碼器820使用傳輸?shù)倪呅畔⒏拍钌蠂L試也稱為對(duì)象分離的恢復(fù)原對(duì)象信號(hào)。然后,使用通過(guò)渲染器830應(yīng)用的渲染矩陣將這些近似的對(duì)象信號(hào)混合為由M個(gè)音頻輸出聲道表現(xiàn)的目標(biāo)場(chǎng)景。有效地,由于分離步驟和混合步驟結(jié)合為單個(gè)轉(zhuǎn)碼步驟,對(duì)象信號(hào)的分離不再執(zhí)行,其導(dǎo)致計(jì)算復(fù)雜性的大幅降低。這樣的方案在傳輸比特率和計(jì)算復(fù)雜性方面可以是非常有效的,在傳輸比特率方面該方案僅需要傳輸少量下混聲道加一些邊信息而非N個(gè)對(duì)象音頻信號(hào)加渲染信息或離散系統(tǒng),在計(jì)算復(fù)雜性方面,處理復(fù)雜性主要涉及輸出聲道的數(shù)量而不是音頻對(duì)象的數(shù)量。 對(duì)接收末端上用戶的進(jìn)一步優(yōu)點(diǎn)包括他/她選擇渲染設(shè)置的自由度,例如單聲道、立體聲、 環(huán)繞、虛擬化耳機(jī)回放等,以及用戶交互性的特征渲染矩陣,并因此輸出場(chǎng)景可由用戶根據(jù)意愿、個(gè)人偏好或其它準(zhǔn)則交互設(shè)定和改變,例如在一個(gè)空間區(qū)域中從合起來(lái)的一個(gè)群體中定位談話者,從而最大化相對(duì)于其余談話者的辨別力。該交互性通過(guò)提供解碼器用戶界面實(shí)現(xiàn)。對(duì)于多聲道渲染,將SAOC轉(zhuǎn)碼為MPEG環(huán)繞(MPQ的常規(guī)轉(zhuǎn)碼概念在下面考慮。 通常,SAOC的解碼可通過(guò)使用轉(zhuǎn)碼處理完成。MPEG SAOC通過(guò)使目標(biāo)音頻場(chǎng)景轉(zhuǎn)碼為相關(guān)的MPEG環(huán)繞格式,渲染由全部單獨(dú)音頻對(duì)象構(gòu)成的目標(biāo)音頻場(chǎng)景為多聲道聲音再現(xiàn)設(shè)置, 參考 J. Herre, K. Kjorling J. Breeboaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert,J. Roden? W. Oomen, K. Linzmeier, K. S. Chong :“MPEG Surround-The ISO/ MPEG Standard for Efficient and Compatible Multichannel Audio Coding,,,122nd AESConvention, Vienna, Austria 2007,Preprint 7084。根據(jù)圖9,SAOC邊信息被解析910,然后和關(guān)于回放配置和對(duì)象渲染參數(shù)的用戶供應(yīng)的數(shù)據(jù)一起被轉(zhuǎn)碼920。另外,SAOC下混參數(shù)由下混預(yù)處理器930調(diào)節(jié)。然后,經(jīng)處理的下混與MPS邊信息這兩者都可傳到MPS解碼器940以便最終渲染。常規(guī)概念具有以下缺陷或是其容易實(shí)施,但對(duì)于DirAC情況,用戶信息或用戶個(gè)別渲染不可應(yīng)用,或是雖然對(duì)于(例如)SA0C,可以提供考慮用戶信息的優(yōu)點(diǎn),但其實(shí)現(xiàn)起來(lái)更復(fù)雜。本發(fā)明的目標(biāo)是提供易于實(shí)現(xiàn)并允許用戶單獨(dú)操縱的音頻編碼概念。該目標(biāo)通過(guò)根據(jù)權(quán)利要求1的音頻格式轉(zhuǎn)碼器以及根據(jù)權(quán)利要求14的音頻格式轉(zhuǎn)碼方法實(shí)現(xiàn)。本發(fā)明發(fā)現(xiàn)定向音頻編碼和空間音頻對(duì)象編碼的能力可結(jié)合。本發(fā)明也發(fā)現(xiàn)定向音頻分量可轉(zhuǎn)換為分離的音源測(cè)量或信號(hào)。實(shí)施方式可提供手段,其有效結(jié)合DirAC和 SAOC系統(tǒng)的能力,因此創(chuàng)造使用DirAC作為具有其內(nèi)建空間濾波能力的聲學(xué)前端,并使用該系統(tǒng)從而將進(jìn)入的音頻分離為音頻目標(biāo)的方法,然后使用SAOC表現(xiàn)并渲染音頻目標(biāo)。此外,實(shí)施方式可提供以下優(yōu)點(diǎn)可通過(guò)轉(zhuǎn)換兩種類型的邊信息,并優(yōu)選在一些實(shí)施方式中未涉及下混信號(hào),以非常有效的方式執(zhí)行從DirAC表示到SAOC表示的轉(zhuǎn)換。
使用附圖詳述本發(fā)明的實(shí)施方式,其中圖1示出音頻格式轉(zhuǎn)碼器的實(shí)施方式;圖2示出音頻格式轉(zhuǎn)碼器的另一實(shí)施方式;圖3示出音頻格式轉(zhuǎn)碼器的另一實(shí)施方式;圖如示出定向音頻分量的疊加;圖4b圖解在實(shí)施方式中使用的示例性權(quán)函數(shù);圖如圖解在實(shí)施方式中使用的示例性窗函數(shù);圖5圖解現(xiàn)有技術(shù)的DirAC ;圖6圖解現(xiàn)有技術(shù)的定向分析;圖7圖解與DirAC渲染結(jié)合的現(xiàn)有技術(shù)的定向加權(quán);圖8示出MPEG SAOC系統(tǒng)概述;以及圖9圖解現(xiàn)有技術(shù)的SAOC轉(zhuǎn)碼為MPS。
具體實(shí)施例方式圖1示出用于對(duì)輸入音頻信號(hào)進(jìn)行轉(zhuǎn)碼的音頻格式轉(zhuǎn)碼器100,該輸入音頻信號(hào)具有至少兩個(gè)定向音頻分量。音頻格式轉(zhuǎn)碼器100包括用于將輸入信號(hào)轉(zhuǎn)換為轉(zhuǎn)換信號(hào)的轉(zhuǎn)換器110,該轉(zhuǎn)換信號(hào)包含轉(zhuǎn)換信號(hào)表示和轉(zhuǎn)換信號(hào)到達(dá)方向。此外,音頻格式轉(zhuǎn)碼器 100包括用于提供至少兩個(gè)空間音源的至少兩個(gè)空間位置的位置提供器120。該至少兩個(gè)空間位置可以是已知先驗(yàn)的,即,例如由用戶給出或輸入,或基于轉(zhuǎn)換信號(hào)確定或檢測(cè)。此外,音頻格式轉(zhuǎn)碼器100包括用于基于該至少兩個(gè)空間位置來(lái)處理轉(zhuǎn)換信號(hào)表示的處理器 130,從而獲得至少兩個(gè)分離的音源測(cè)量。
實(shí)施方式可提供有效結(jié)合DirAC和SAOC系統(tǒng)能力的手段。本發(fā)明的另一實(shí)施方式在圖2示出。圖2示出另一音頻格式轉(zhuǎn)碼器100,其中轉(zhuǎn)換器110實(shí)現(xiàn)為DirAC分析級(jí) 301。在實(shí)施方式中,音頻格式轉(zhuǎn)碼器100可適于根據(jù)DirAC信號(hào)、B格式信號(hào)或來(lái)自傳聲器陣列的信號(hào)使輸入信號(hào)轉(zhuǎn)碼。根據(jù)在圖2示出的實(shí)施方式,DirAC可用作聲學(xué)前端,從而使用B格式傳聲器或可替換地使用傳聲器陣列獲得空間音頻場(chǎng)景,如通過(guò)DirAC分析級(jí)或方框301示出。如上面已經(jīng)提到,在實(shí)施方式中,音頻格式轉(zhuǎn)碼器100、轉(zhuǎn)換器110、位置提供器 120和/或處理器130可適于按照子頻帶和/或時(shí)間段或時(shí)間幀的數(shù)量轉(zhuǎn)換輸入信號(hào)。在實(shí)施方式中,轉(zhuǎn)換器110可適于將輸入信號(hào)轉(zhuǎn)換為進(jìn)一步包含每子頻帶擴(kuò)散度和/或可靠度測(cè)量的轉(zhuǎn)換信號(hào)。在圖2中,轉(zhuǎn)換信號(hào)表示也標(biāo)注“下混信號(hào)”。在圖2示出的實(shí)施方式中,在每個(gè)子頻帶內(nèi)聲學(xué)信號(hào)基礎(chǔ)DirAC參數(shù)化為方向和可選地?cái)U(kuò)散度與可靠度測(cè)量可由位置提供器 120使用,即,“源數(shù)量和位置計(jì)算”-方框304,從而檢測(cè)音源活躍的空間位置。根據(jù)在圖2 中虛線標(biāo)注的“下混功率”,下混功率可向位置提供器120提供。在圖2示出的實(shí)施方式中,為隔離或分離每個(gè)音源,處理器130可使用空間位置、 可選地其它先驗(yàn)知識(shí),從而實(shí)現(xiàn)一組空間濾波器311、312、31N,在方框303中為該空間濾波器計(jì)算加權(quán)因數(shù)。換言之,在實(shí)施方式中,處理器130可適于確定對(duì)于至少兩個(gè)分離音源中每一個(gè)的加權(quán)因數(shù)。此外,在實(shí)施方式中,處理器130可適于按照至少兩個(gè)空間濾波處理轉(zhuǎn)換信號(hào)表示,以便接近具有至少兩個(gè)分離音頻信號(hào)的至少兩個(gè)隔離音源作為至少兩個(gè)分離音源測(cè)量。音源測(cè)量可以(例如)對(duì)應(yīng)各自的信號(hào)或信號(hào)功率。在圖2示出的實(shí)施方式中,該至少兩個(gè)音源通過(guò)N個(gè)音源和對(duì)應(yīng)信號(hào)更通常表現(xiàn)。 因此在圖2中,示出N個(gè)濾波器或合成級(jí),即311,312,...,31N。在這N個(gè)空間濾波器中, DirAC下混,即全向分量,信號(hào)導(dǎo)致可用作SAOC譯碼器的輸入的一組近似分離音源。S卩,在實(shí)施方式中,分離音源可解釋為獨(dú)特的音頻對(duì)象,并隨后在SAOC譯碼器中譯碼。因此,音頻格式轉(zhuǎn)碼器100的實(shí)施方式可包含SAOC譯碼器,以便譯碼至少兩個(gè)分離音源信號(hào),從而獲得包含SAOC下混分量和SAOC邊信息分量的SAOC譯碼信號(hào)。上面描述的實(shí)施方式可執(zhí)行DirAC定向?yàn)V波的離散序列和在下面為其引入結(jié)構(gòu)改善的隨后SAOC譯碼,導(dǎo)致計(jì)算復(fù)雜度降低。如上面解釋,通常,在實(shí)施方式中可使用 N-DirAC合成濾波器組311到31N來(lái)重建N個(gè)分離音源信號(hào),然后在SAOC譯碼器中使用 SAOC分析濾波器組隨后分析。然后,SAOC譯碼器可從分離的對(duì)象信號(hào)再次計(jì)算和信號(hào)/下混信號(hào)。此外,實(shí)際信號(hào)采樣的處理與在參數(shù)域中執(zhí)行的計(jì)算相比在計(jì)算上更復(fù)雜,在參數(shù)域中計(jì)算可以低得多的采樣率發(fā)生,并在進(jìn)一步的實(shí)施方式中建立。實(shí)施方式可以此提供非常有效處理的優(yōu)點(diǎn)。實(shí)施方式可包含下面兩個(gè)簡(jiǎn)化。第一, 在一些實(shí)施方式中,都可使用對(duì)于DirAC和SAOC這兩個(gè)方案允許基本相同子頻帶的濾波器組運(yùn)行DirAC和SAOC這兩者。優(yōu)選地,在一些實(shí)施方式中,同一個(gè)濾波器組用于這兩個(gè)方案。在此情況下,可避免DirAC合成與SAOC分析濾波器組,導(dǎo)致降低的計(jì)算復(fù)雜度和算法延遲。可替換地,實(shí)施方式可使用兩個(gè)不同的濾波器組,其在可比較的子頻帶網(wǎng)格(subband grid)上輸送參數(shù)。這種實(shí)施方式的濾波器組計(jì)算的節(jié)省可能不高。
第二,在實(shí)施方式中,分離的效果可僅通過(guò)參數(shù)域計(jì)算而不是顯式計(jì)算分離源信號(hào)來(lái)實(shí)現(xiàn)。換言之,在實(shí)施方式中,處理器130可適于估計(jì)至少兩個(gè)分離音源中每一個(gè)的功率信息(例如,功率或歸一化功率)作為至少兩個(gè)分離音源測(cè)量。在實(shí)施方式中,可計(jì)算 DirAC下混功率。在實(shí)施方式中,對(duì)于每個(gè)期望/檢測(cè)的音源位置,定向加權(quán)/濾波加權(quán)可取決于方向和可能的擴(kuò)散度和計(jì)劃的分離特性確定。在實(shí)施方式中,分離信號(hào)的每個(gè)音源的功率可從下混功率和功率加權(quán)因數(shù)的乘積來(lái)估計(jì)。在實(shí)施方式中,處理器130可適于將至少兩個(gè)分離音源的功率轉(zhuǎn)換為SA0C0LD。實(shí)施方式可執(zhí)行上面描述的流線型測(cè)量方法而不再涉及實(shí)際下混信號(hào)的任何處理。另外,在一些實(shí)施方式中,也可計(jì)算對(duì)象間相干性(IOC)。這可通過(guò)考慮定向加權(quán)和仍在變換域中的下混信號(hào)實(shí)現(xiàn)。在實(shí)施方式中,處理器130可適于針對(duì)至少兩個(gè)分離音源計(jì)算I0C。通常,處理器 130可適于為至少兩個(gè)分離音源中的每一個(gè)計(jì)算I0C。在實(shí)施方式中,位置提供器120可包含適應(yīng)基于轉(zhuǎn)換信號(hào)檢測(cè)至少兩個(gè)空間音源的至少兩個(gè)空間位置的檢測(cè)器。此外,位置提供器/檢測(cè)器120可適于通過(guò)多個(gè)隨后輸入信號(hào)時(shí)間段的結(jié)合,檢測(cè)至少兩個(gè)空間位置。位置提供器/檢測(cè)器120也可適應(yīng)基于對(duì)功率空間密度的最大似然估計(jì)來(lái)檢測(cè)至少兩個(gè)空間位置。位置提供器/檢測(cè)器120可適應(yīng)基于轉(zhuǎn)換信號(hào)來(lái)檢測(cè)多重的空間音源位置。圖3圖解音頻格式轉(zhuǎn)碼器100的另一實(shí)施方式。相似于在圖2中示出的實(shí)施方式, 轉(zhuǎn)換器100實(shí)現(xiàn)為“DirAC分析”-級(jí)401。此外,位置提供器/檢測(cè)器120實(shí)現(xiàn)為“源數(shù)量和位置計(jì)算”-級(jí)404。處理器130包括“加權(quán)因數(shù)計(jì)算”-級(jí)403、用于計(jì)算分離源功率的級(jí)402以及用于計(jì)算SAOC OLD與比特流的級(jí)405。再次,在圖3示出的實(shí)施方式中,使用傳聲器陣列,或可替換使用B格式傳聲器獲得信號(hào),并且信號(hào)送入“DirAC分析”-級(jí)401。該分析為包括瞬時(shí)下混功率和方向估計(jì)的每個(gè)處理時(shí)間幀輸送一個(gè)或多個(gè)下混信號(hào)和子頻帶信息。另外,“DirAC分析”-級(jí)401可提供擴(kuò)散度測(cè)量和/或方向估計(jì)可靠度的測(cè)量。根據(jù)該信息和可能的其它數(shù)據(jù)(諸如,瞬時(shí)下混功率),音源數(shù)量及其位置的估計(jì)可由位置提供器/檢測(cè)器120、級(jí)404通過(guò)(例如)結(jié)合來(lái)自時(shí)間上連續(xù)的若干處理時(shí)間幀的測(cè)量值來(lái)分別計(jì)算。處理器130可適應(yīng)在級(jí)403中根據(jù)估計(jì)的源位置和方向以及可選地?cái)U(kuò)散度和/或處理時(shí)間幀的可靠度值來(lái)獲得每個(gè)音源的定向加權(quán)因數(shù)。通過(guò)在402中首先組合下混功率估計(jì)和加權(quán)因數(shù),可在405中獲得SAOC OLD。同樣,完整SAOC比特流可在實(shí)施方式中生成。另外,處理器130可適應(yīng)通過(guò)考慮下混信號(hào)并利用在圖3實(shí)施方式中示出的處理方框 405來(lái)計(jì)算SAOC IOC0在實(shí)施方式中,然后,下混信號(hào)和SAOC邊信息可一起存儲(chǔ)或傳輸,以便SAOC解碼或渲染。“擴(kuò)散度測(cè)量”是為每個(gè)時(shí)頻點(diǎn)(time-frequency bin)描述聲場(chǎng)如何“擴(kuò)散”的參數(shù)。不失一般性,其定義在W,l]的范圍內(nèi),其中擴(kuò)散度=0表示完全相干的聲場(chǎng),例如,理想平面波,由此擴(kuò)散度=1表示完全擴(kuò)散的聲場(chǎng),例如,用發(fā)射相互無(wú)關(guān)噪聲的大量空間散布音源獲得的聲場(chǎng)。若干數(shù)學(xué)表達(dá)式可用作擴(kuò)散度測(cè)量。例如,在Pulkki,V./‘Direction audio coding in spatial sound reproduction and stereo upmixing",In Proceedings of the AES 28th International Conference, pp. 251—258,Pite§,Sweden,2006 年 6 月 30
13日-7月2日中,通過(guò)比較有源強(qiáng)度與聲場(chǎng)能量、對(duì)于輸入信號(hào)的能量分析來(lái)計(jì)算擴(kuò)散度。在下面,說(shuō)明可靠度測(cè)量。取決于使用的到達(dá)方向估計(jì)量,可能獲得表達(dá)每個(gè)方向估計(jì)在每個(gè)時(shí)頻點(diǎn)中是多么可靠的矩陣。在分別確定來(lái)源的數(shù)量和位置以及計(jì)算加權(quán)因數(shù)的級(jí)403和404這兩者中,可利用該信息。在下面,處理器130的實(shí)施方式,即,同樣地“源數(shù)量和位置計(jì)算”-級(jí)404詳述。 針對(duì)每個(gè)時(shí)間幀的音源的數(shù)量和位置可以或是先驗(yàn)知識(shí)(即,外部輸入),或是自動(dòng)估計(jì)。 對(duì)于后一種情況,若干方法是可能的。例如,關(guān)于功率空間密度的最大似然估計(jì)量可在實(shí)施方式中使用。后者可計(jì)算關(guān)于方向的輸入信號(hào)的功率密度。通過(guò)假設(shè)聲源呈現(xiàn)Von Mises 分布,可能通過(guò)選擇具有最高可能性的解決方案來(lái)估計(jì)存在多少源及其定位在哪里。示范功率空間分布在圖如示出。圖如示出通過(guò)兩個(gè)音源示例的功率空間密度的視圖。圖如在縱坐標(biāo)上以dB示出相對(duì)功率,并在橫坐標(biāo)上示出方位角。此外,圖如示出三個(gè)不同信號(hào),一個(gè)表現(xiàn)實(shí)際功率空間密度,其通過(guò)細(xì)線并通過(guò)有噪聲表征。另外,粗線示出了第一源的理論功率密度,并且虛線示出了第二源的理論功率密度。最適合觀察的模型由分別定位在+45°和-135°的兩個(gè)音源構(gòu)成。在其它模型中,仰角也可以是可用的。在這種實(shí)施方式中,功率空間密度變成三維函數(shù)。在下面,提供關(guān)于處理器130進(jìn)一步實(shí)施方式的實(shí)現(xiàn)方式的更多細(xì)節(jié),尤其關(guān)于權(quán)重計(jì)算級(jí)403的更多詳情。該處理方框計(jì)算針對(duì)要被提取的每個(gè)對(duì)象計(jì)算權(quán)重?;谠?410中通過(guò)DirAC分析提供的數(shù)據(jù)連同來(lái)自404的關(guān)于源數(shù)量及其位置的信息計(jì)算該權(quán)重。 信息可為全部源聯(lián)合處理或分離處理,以使每個(gè)對(duì)象的權(quán)重相互獨(dú)立計(jì)算。對(duì)于每個(gè)時(shí)頻點(diǎn)定義第i個(gè)對(duì)象的權(quán)重,因此如果Y i (k,n)表示頻率指數(shù)k和時(shí)間指數(shù)η的權(quán)重,那么第i個(gè)對(duì)象的下混信號(hào)的復(fù)合頻譜可通過(guò)下面公式簡(jiǎn)單計(jì)算Wi (k, n) = W (k,η) X γ i (k, η)。如已經(jīng)提到,以這種方式獲得的信號(hào)可發(fā)送到SAOC譯碼器。然而,實(shí)施方式可通過(guò)直接從權(quán)重YiG^n)計(jì)算SAOC參數(shù)而完全避免該步驟。在下面,簡(jiǎn)要解釋可在實(shí)施方式中如何計(jì)算權(quán)重Y Jk,η)。如果不另外指定,那么在下面的全部量取決于(k,η),即頻率和時(shí)間指數(shù)??杉僭O(shè)擴(kuò)散度Ψ,或可靠度測(cè)量定義在范圍W,l]內(nèi),其中Ψ = 1對(duì)應(yīng)完全擴(kuò)散信號(hào)。此外,θ表示到達(dá)方向,在下面例子中其表示方位角。對(duì)于3D空間的擴(kuò)展是簡(jiǎn)單的。此外,Yi表示用來(lái)調(diào)整下混信號(hào)從而提取第i個(gè)對(duì)象的音頻信號(hào)的權(quán)重,W(k,η) 表示下混信號(hào)的復(fù)合頻譜,以及Wi (k,η)表示第i個(gè)經(jīng)提取的對(duì)象的復(fù)合頻譜。在第一實(shí)施方式中,二維函數(shù)在{ θ,Ψ}域中定義。簡(jiǎn)單的實(shí)施方式利用2D高斯函數(shù)g(9,Ψ),根據(jù)
權(quán)利要求
1.一種用于轉(zhuǎn)碼輸入音頻信號(hào)的音頻格式轉(zhuǎn)碼器(100),所述輸入音頻信號(hào)具有至少兩個(gè)定向音頻分量,所述音頻格式轉(zhuǎn)碼器包括轉(zhuǎn)換器(110),用于將所述輸入信號(hào)轉(zhuǎn)換為轉(zhuǎn)換信號(hào),所述轉(zhuǎn)換信號(hào)具有轉(zhuǎn)換信號(hào)表示和轉(zhuǎn)換信號(hào)到達(dá)方向;位置提供器(120),用于提供至少兩個(gè)空間音源的至少兩個(gè)空間位置;以及處理器(130),用于基于所述至少兩個(gè)空間位置和所述轉(zhuǎn)換信號(hào)到達(dá)方向來(lái)處理所述轉(zhuǎn)換信號(hào)表示,從而獲得至少兩個(gè)分離音源測(cè)量。
2.根據(jù)權(quán)利要求1所述的音頻格式轉(zhuǎn)碼器(100),用于根據(jù)定向音頻編碼信號(hào) (DirAC)、B格式信號(hào)或來(lái)自傳聲器陣列的信號(hào)來(lái)轉(zhuǎn)碼輸入信號(hào)。
3.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的音頻格式轉(zhuǎn)碼器(100),其中,所述轉(zhuǎn)換器(110) 適于按照頻帶/子頻帶和/或時(shí)間段/幀的數(shù)量轉(zhuǎn)換所述輸入信號(hào)。
4.根據(jù)權(quán)利要求3所述的音頻格式轉(zhuǎn)碼器(100),其中,所述轉(zhuǎn)換器(110)適于將所述輸入音頻信號(hào)轉(zhuǎn)換為進(jìn)一步包含每頻帶擴(kuò)散度和/或可靠度測(cè)量的所述轉(zhuǎn)換信號(hào)。
5.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的音頻格式轉(zhuǎn)碼器(100),其中,所述處理器(130) 適于確定針對(duì)所述至少兩個(gè)分離音源的每一個(gè)的加權(quán)因數(shù)。
6.根據(jù)權(quán)利要求1到5中任一項(xiàng)所述的音頻格式轉(zhuǎn)碼器(100),其中,所述處理器 (130)適于按照至少兩個(gè)空間濾波器來(lái)處理所述轉(zhuǎn)換信號(hào)表示,以便將具有至少兩個(gè)分離音源信號(hào)的至少兩個(gè)隔離音源近似作為所述至少兩個(gè)分離音源測(cè)量。
7.根據(jù)權(quán)利要求6所述的音頻格式轉(zhuǎn)碼器(100),進(jìn)一步包括SAOC(空間音頻對(duì)象編碼)譯碼器,用于譯碼所述至少兩個(gè)分離音源信號(hào),從而獲得包含SAOC下混分量和SAOC邊信息分量的SAOC譯碼信號(hào)。
8.根據(jù)權(quán)利要求1到5中任一項(xiàng)所述的音頻格式轉(zhuǎn)碼器(100),其中,所述處理器 (130)適于估計(jì)針對(duì)所述至少兩個(gè)分離音源的每一個(gè)的功率信息作為所述至少兩個(gè)分離音源測(cè)量。
9.根據(jù)權(quán)利要求8所述的音頻格式轉(zhuǎn)碼器(100),其中,所述處理器(130)適于將所述至少兩個(gè)分離音源的所述功率轉(zhuǎn)換為SAOC-OLD (對(duì)象級(jí)差)。
10.根據(jù)權(quán)利要求9所述的音頻格式轉(zhuǎn)碼器(100),其中,所述處理器(130)適于計(jì)算針對(duì)所述至少兩個(gè)分離音源的對(duì)象間相干性(IOC)。
11.根據(jù)權(quán)利要求3到10中任一項(xiàng)所述的音頻格式轉(zhuǎn)碼器(100),其中,所述位置提供器(120)包括檢測(cè)器,所述檢測(cè)器用于基于所述轉(zhuǎn)換信號(hào)來(lái)檢測(cè)所述至少兩個(gè)空間音源的所述至少兩個(gè)空間位置,其中,所述檢測(cè)器適于通過(guò)多個(gè)隨后輸入信號(hào)時(shí)間段/幀的結(jié)合, 檢測(cè)所述至少兩個(gè)空間位置。
12.根據(jù)權(quán)利要求11所述的音頻格式轉(zhuǎn)碼器(100),其中,所述檢測(cè)器適于基于關(guān)于所述轉(zhuǎn)換信號(hào)的功率空間密度的最大似然估計(jì),檢測(cè)所述至少兩個(gè)空間位置。
13.根據(jù)權(quán)利要求5到12中任一項(xiàng)所述的音頻格式轉(zhuǎn)碼器(100),其中,所述處理器 (130)適于進(jìn)一步確定針對(duì)附加的背景對(duì)象的加權(quán)因數(shù),其中,所述加權(quán)因數(shù)如此以使關(guān)聯(lián)所述至少兩個(gè)分離音源和所述附加的背景對(duì)象的能量之和等于所述轉(zhuǎn)換信號(hào)表示的能量。
14.一種用于轉(zhuǎn)碼輸入音頻信號(hào)的方法,所述輸入音頻信號(hào)具有至少兩個(gè)定向音頻分量,所述方法包含以下步驟將所述輸入信號(hào)轉(zhuǎn)換為轉(zhuǎn)換信號(hào),所述轉(zhuǎn)換信號(hào)具有轉(zhuǎn)換信號(hào)表示和轉(zhuǎn)換信號(hào)到達(dá)方向;提供至少兩個(gè)空間音源的至少兩個(gè)空間位置;以及基于所述至少兩個(gè)空間位置來(lái)處理所述轉(zhuǎn)換信號(hào)表示,從而獲得至少兩個(gè)分離音源測(cè)量。
15. 一種計(jì)算機(jī)程序,在計(jì)算機(jī)或處理器上運(yùn)行所述計(jì)算機(jī)程序時(shí)執(zhí)行根據(jù)權(quán)利要求 14所述的方法。
全文摘要
一種用于對(duì)輸入音頻信號(hào)進(jìn)行轉(zhuǎn)碼的音頻格式轉(zhuǎn)碼器(100),該輸入音頻信號(hào)具有至少兩個(gè)定向音頻分量。音頻格式轉(zhuǎn)碼器(100)包括用于將輸入信號(hào)轉(zhuǎn)換為轉(zhuǎn)換信號(hào)的轉(zhuǎn)換器(110),該轉(zhuǎn)換信號(hào)具有轉(zhuǎn)換信號(hào)表示和轉(zhuǎn)換信號(hào)到達(dá)方向。音頻格式轉(zhuǎn)碼器(100)進(jìn)一步包括用于提供至少兩個(gè)空間音源的至少兩個(gè)空間位置的位置提供器(120),以及用于基于該至少兩個(gè)空間位置來(lái)處理轉(zhuǎn)換信號(hào)表示,從而獲得至少兩個(gè)分離音源測(cè)量的處理器(130)。
文檔編號(hào)G10L19/00GK102422348SQ201080020289
公開日2012年4月18日 申請(qǐng)日期2010年5月7日 優(yōu)先權(quán)日2009年5月8日
發(fā)明者喬瓦尼·德爾加爾多, 于爾根·赫萊, 奧利弗·蒂爾加特, 法比安·庫(kù)奇, 科爾內(nèi)利婭·法爾克, 馬庫(kù)斯·卡琳格爾 申請(qǐng)人:弗蘭霍菲爾運(yùn)輸應(yīng)用研究公司