亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于回放更高階立體混響音頻信號的方法和設備與流程

文檔序號:12068911閱讀:218來源:國知局
用于回放更高階立體混響音頻信號的方法和設備與流程

技術領域

本發(fā)明涉及用于回放指定給視頻信號的更高階立體混響(Higher-Order Ambisonics)音頻信號的方法和設備,該視頻信號是對原始和不同的屏幕而生成的但是將被呈現在當前屏幕上。



背景技術:

一種存儲和處理球形麥克風陣列的三維聲場的方式是更高階立體混響(HOA)表示。立體混響使用標準正交球形函數用于描述位于原點或空間中基準點(也稱為蜜點)及其附近的區(qū)域中的聲場。如此描述的精度通過立體混響階N來確定,其中,有限數的立體混響系數描述聲場。球形陣列的最大立體混響階通過麥克風精盒(microphone capsule)的數量來限制,所述數量必須等于或大于立體混響系數的數量O=(N+1)2。這樣的立體混響表示的優(yōu)勢在于聲場的再現可以單獨地適配于近乎任何給定揚聲器位置排列。



技術實現要素:

雖然促進空間音頻的靈活通用的表示非常獨立于揚聲器設置,與不同尺寸屏幕上的音頻回放的組合可以變得分散,因為空間聲音回放未被相應地適配。

立體和環(huán)繞聲基于離散揚聲器聲道,并且涉及視頻顯示關于在哪里放置揚聲器存在非常特定的規(guī)則。例如,在影院環(huán)境下,在屏幕的中央放置中央揚聲器,而在屏幕的左側和右側放置左揚聲器和右揚聲器。因而,揚聲器設置固有地隨屏幕變動:對于小屏幕,揚聲器彼此更接近,而對于巨屏,它們則遠離。這樣的優(yōu)勢是混音可以以非常連貫的方式完成:有關屏幕上的可視對象的聲音對象可以可靠地放置在左聲道、中央聲道和右聲道。因此,聽眾的體驗在混音級上匹配聲音藝術家的創(chuàng)造性意圖。

但是這樣的優(yōu)勢同時也是基于聲道系統(tǒng)的劣勢:對于改變揚聲器設置,靈活度非常有限。該劣勢隨著揚聲器聲道數量的增加而增加。例如,7.1和22.2格式要求各個揚聲器的精確安裝并且極其難以適配音頻內容到次佳揚聲器位置。

基于聲道系統(tǒng)的另一劣勢是:優(yōu)先效應限制了在左聲道、中央聲道和右聲道之間搖移(pan)聲音對象的能力,特別是對于類似影院環(huán)境下的大型聆聽設置。對于偏心聆聽位置,搖移的音頻對象可以“落在”最靠近聽眾的揚聲器上。因而,很多電影已經和重要的屏幕相關的聲音混音,特別是排他地映射到中央聲道上的對話,借此,獲得屏幕上那些聲音的非常穩(wěn)定的定位,但是是以整體聲音現場的次佳寬敞度為代價。

通常對后置環(huán)繞聲道選擇類似的妥協(xié):因為播放那些聲道的揚聲器的精確定位在制作時難以知曉,并且因為那些聲道的密度相當低,通常僅環(huán)境聲音和未校正項被混音到環(huán)繞聲道。因而,環(huán)繞聲道中的明顯再現錯誤的概率可以降低,但是是以不能如實地在任何地點而是在屏幕上(或甚至在如上所述的中央聲道上)放置離散聲音對象為代價。

如上所述,在不同尺寸屏幕上的空間音頻和視頻回放的組合可以變得分散,因為空間聲音回放未被相應地適配。取決于實際屏幕尺寸是否匹配在再現中使用的尺寸,聲音對象的方向可以偏離屏幕上可視對象的方向。例如,如果已經在小屏幕的環(huán)境中進行了混音,則耦合到屏幕對象的聲音對象(例如,演員的發(fā)音)將被定位在從混音器的位置看去相對狹窄的錐體。如果此內容受控于基于聲場的表示并且在具有大很多的屏幕的影院環(huán)境中回放,則在屏幕的寬視場與屏幕相關聲音對象的窄錐體之間存在明顯失配。對象的可視圖像的位置和對應聲音的位置之間的巨大失配會分散觀眾注意力并且因而嚴重地影響電影的感知。

更近地,已經提出音頻現場的參數表示或面向對象表示,其通過單獨音頻對象和參數及特性的集合的組合來描述音頻現場。例如,主要對處理波場綜合系統(tǒng)已經提出面向對象現場描述,例如,在Sandra Brix、Thomas Sporer、Jan Plogsties于Proc.of 110th AES Convention,Paper 5314,2001年5月12-15日,在荷蘭阿姆斯特丹發(fā)表的“CARROUSO–An European Approach to 3D-Audio”,以及在Ulrich Horbach、Etienne Corteel、Renato S.Pellegrini和Edo Hulsebos于Proc.of IEEE Intl.Conf.on Multimedia and Expo(ICME),pp.517-520,2002年8月,瑞士Lausanne,發(fā)表的“Real-Time Rendering of Dynamic Scenes Using Wave Field Synthesis”中。

EP 1518443 B1描述了應對使音頻回放適配于可視屏幕尺寸的問題的兩種不同途徑。第一種途徑對每一個聲音對象取決于其對基準點方向和距離以及與相機和投影裝備的孔徑角(opening angle)和位置類似的參數,單獨確定回放位置。實際上,在對象的可見性和相關混音之間的如此緊密的耦合不是典型的,相反,混音與相關可見對象的某些偏差可以實際上出于藝術原因而容忍。此外,區(qū)分直達聲和環(huán)境聲音是重要的。最后但不是最不重要的,物理相機和投影參數的合并相當復雜,并且這樣的參數不總是可用。第二種途徑(比較權利要求16)描述了根據以上步驟的聲音對象的預計算,但是假設屏幕具有固定的基準尺寸。該方案要求全部位置參數(在笛卡爾坐標中)的線性縮放用于將屏幕適配到比基準屏幕大或小的屏幕上。然而,這意味著,適配到雙倍尺寸屏幕也導致到聲音對象的虛擬距離的翻倍。沒有相對于基準座位(即,蜜點)中的聽眾的聲音對象的角度位置中的任何改變,這只是聽覺現場的“氣息音”而已。對于角坐標中屏幕的相對尺寸(孔徑角)的改變,不可能通過此途徑產生可行的聆聽結果。

在EP 1318502 B1中描述面向對象聲音現場描述格式的另一示例。這里,除了包括不同的聲音對象及其特性之外,音頻現場還包括關于要再現的房間的特性的信息以及關于基準屏幕的水平和垂直孔徑角的信息。在解碼器中,類似于EP 1518443 B1中的原理,確定實際可用屏幕的位置和尺寸,并且單獨地最優(yōu)化聲音對象的回放以匹配基準屏幕。

例如,在PCT/EP2011/068782中,已經對聲場的通用空間表示提出了面向聲場的類似更高階立體混響HOA的音頻格式,并且在記錄和回放方面,面向聲場的處理提供通用性和實踐性之間極好的平衡,因為它可以縮放到實際上任意的空間分辨率,類似于面向對象格式的那樣。另一方面,一些直接記錄和再現技術存在,其對比對面向對象格式要求的完全合成的表示,允許得到真實聲場的自然記錄。顯然,因為面向聲場的音頻內容不包括關于單獨聲音對象的任何信息,所以以上對使面向對象格式適配到不同屏幕尺寸而介紹的機制不能得以應用。

如今,僅有少量描述用于控制在面向聲場的音頻現場中包含的單獨聲音對象的相對位置的裝置的公開可用。例如在Richard Schultz-Amling、FabianKuech、Oliver Thiergart、Markus Kallinger于2010年5月22-25日在英國倫敦的“Acoustical Zooming Based on a Parametric Sound Field Representation”,128th AES Convention,Paper 8120中描述的一系列算法要求將聲場分解為有限數量的離散聲音對象??梢钥刂七@些聲音對象的位置參數。此途徑具有如下劣勢:音頻現場分解易出錯并且在確定音頻對象時的任何錯誤將極可能導致聲音重現的人為產物。

很多出版物涉及將HOA內容的回復最優(yōu)化到“靈活回放布局”,例如,以上引用的Brix文章以及Franz Zotter、HannesPomberger、Markus Noisternig于2010年5月6-7日在法國巴黎的Proc.of the 2nd International Symposium on Ambisonics and Spherical Acoustics上的“Ambisonic Decoding With and Without Mode-Matching:A Case Study Using the Hemisphere”。這些技術處理使用不規(guī)則間隔的揚聲器的問題,但是它們都沒有對準改變音頻現場的空間構成。

本發(fā)明要解決的問題是空間音頻內容對不同尺寸的視頻屏幕的適配,該音頻內容已被表示為聲場分解的系數,從而屏幕上對象的聲音回復位置與對應的可視位置匹配。通過在權利要求1中公開的方法解決此問題。在權利要求2中公開了使用此方法的設備。

本發(fā)明允許面向空間聲場的音頻的回放對其鏈接可視對象的系統(tǒng)性適配。因而,滿足了用于對電影的空間音頻的可信再現的顯然的先決條件。

根據本發(fā)明,結合諸如在PCT/EP2011/068782和EP 11192988.0中公開的那些格式之類的面向聲場的音頻格式,通過應用在EP 11305845.7中公開的空間彎曲處理將面向聲場的音頻現場被適配到不同的視頻屏幕尺寸。有利處理是編碼并傳輸與內容一起在內容制作中使用的屏幕的基準尺寸(或者從基準聆聽位置的視角)作為元數據。

替代地,在編碼中和對解碼假定固定的基準屏幕尺寸,并且解碼器知道目標屏幕的實際尺寸。解碼器以如下方式彎曲聲場:根據目標屏幕的尺寸和基準屏幕的尺寸的比率壓縮或拉伸在屏幕的方向上的全部聲音對象。這可以借助于例如如下說明的簡單的雙段分段線性彎曲函數(two-segment piecewise linear warping function)完成。與上述現有技術相反,此拉伸基本上限制于聲音項的角位置,并且不需要導致聲音對象距聆聽區(qū)域的距離的改變。在下面描述發(fā)明的一些實施例,其允許控制聲音現場的哪部分應當或不應當被操控。

原則上,發(fā)明方法適用于回放指定給視頻信號的原始更高階立體混響音頻信號的方法,上述視頻信號是對原始和不同的屏幕而生成的但是將被呈現在當前屏幕上,所述方法包括如下步驟:

-解碼所述更高階立體混響音頻信號以提供解碼的音頻信號;

-接收或建立從所述原始屏幕和所述當前屏幕在它們的寬度并且可能在它們的高度并且可能在它們的彎曲度之間的差異得出的再現適配信息;

-通過在空間域中彎曲它們來適配所述解碼的音頻信號,其中,所述再現適配信息控制所述彎曲,從而對于當前屏幕的觀眾和所述適配的解碼的音頻信號的聽眾,由所述適配的解碼的音頻信號表示的至少一個音頻對象的感知位置匹配所述屏幕上的相關視頻對象的感知位置;

-對揚聲器重現和輸出適配的解碼的音頻信號。

原則上,發(fā)明設備適用于回放指定給視頻信號的原始更高階立體混響音頻信號,所述視頻信號是對原始和不同的屏幕而生成的但是將被呈現在當前屏幕上,所述設備包括:

-適配于解碼所述更高階立體混響音頻信號以提供解碼的音頻信號的裝置;

-適配于接收或建立從所述原始屏幕和所述當前屏幕在它們的寬度并且可能在它們的高度并且可能在它們的彎曲度之間的差異得出的再現適配信息的裝置;

-適配于通過在空間域中彎曲它們來適配所述解碼的音頻信號的裝置,其中,所述再現適配信息控制所述彎曲,從而對于當前屏幕的觀眾和所述適配的解碼的音頻信號的聽眾,由所述適配的解碼的音頻信號表示的至少一個音頻對象的感知位置匹配所述屏幕上的相關視頻對象的感知位置;

-適配于對揚聲器重現和輸出適配的解碼的音頻信號的裝置。

本發(fā)明的有利的額外實施例在各自的從屬權利要求中公開。

附圖說明

參考附圖描述本發(fā)明的示例性實施例,其示出:

圖1示例工作室環(huán)境;

圖2示例影院環(huán)境;

圖3彎曲函數f(φ);

圖4權函數g(φ);

圖5原始權重;

圖6彎曲之后的權重;

圖7彎曲矩陣;

圖8已知HOA處理;

圖9根據本發(fā)明的處理。

具體實施方式

圖1示出具有基準點和屏幕的示例工作室環(huán)境,而圖2示出具有基準點和屏幕的示例影院環(huán)境。不同的投影環(huán)境導致從基準點看去屏幕的不同孔徑角。借助于現有技術的面向聲場回放技術,在工作室環(huán)境中產生的音頻內容(孔徑角60°)將不匹配影院環(huán)境中的屏幕內容(孔徑角90°)。在工作室環(huán)境中的孔徑角60°必須同音頻內容一起傳輸以便于允許內容對回放環(huán)境的不同特性的適配。

為了易理解,這些圖簡化情形為2D場景。

在更高階立體混響理論中,經由傅里葉巴塞爾序列的系數描述空間音頻場景。對于無源列(source-free volume),聲壓被描述為球坐標的函數(半徑r,傾角θ,方位角φ和空間頻率(c是聲音在空氣中的速度)):

其中,jn(kr)是第一類的球型巴塞爾函數,其描述了徑向從屬性,是球調和函數(SH,Spherical Harmonics),其實際上是實數,而N是立體混響階。

通過在EP 11305845.7中公開的技術可以彎曲音頻現場的空間構成。

可以改變音頻現場的二維或三維更高階立體混響HOA表示中包含的聲音對象的相對位置,其中,具有維度Oin的輸入向量Ain確定輸入信號的傅里葉序列的系數,而具有維度Oout的輸出向量Aout確定相應改變的輸出信號的傅里葉序列的系數。使用模式矩陣ψ1的逆通過計算將輸入HOA系數的輸入向量Ain解碼為針對規(guī)則布置的揚聲器位置的空間域中的輸入信號sin。通過計算Aout=Ψ2sin在空間域中將輸入信號sin彎曲并解碼為已適配輸出HOA系數的輸出向量Aout,其中根據彎曲函數f(φ)修改模式矩陣ψ2的模式向量,借助于該彎曲函數f(φ),原始揚聲器位置的角度被一對一地映射到輸出向量Aout中的目標揚聲器位置的目標角。

可以通過向虛擬揚聲器輸出信號sin應用增益加權函數g(φ)對抗(counter)揚聲器密度的修改,導致信號sout。原則上,可以指定任何加權函數g(φ)。已經經驗性地確定一個特別有利的變量為與彎曲函數f(φ)的導數成比例:借助于此特定加權函數,假定適當高的內階和輸出階,在特定彎曲角度的搖移函數f(φ)的幅度保持等于在原始角φ的原始搖移函數。因而,獲得每個孔徑角的同類聲音平衡(幅度)。對于三維立體混響,增益函數在φ方向和在θ方向上是

其中,φε是小方位角。

通過使用尺寸Owarp×Owarp變換矩陣可以共同地進行解碼、加權和彎曲/解碼,其中,diag(w)表示具有窗口向量值w作為其主對角的分量的對角矩陣,diag(g)表示具有增益函數值g作為其增益對角的分量的對角矩陣。為了變形變換矩陣T以獲得尺寸Oout×Oin,變換矩陣T的對應列和/或線被移除以進行空間彎曲操作Aout=TAin。

圖3到圖7圖示了在二維(圓形)情況下的空間彎曲,并且示出了用于圖1/2中的情形的分段線性彎曲函數的示例及其對13個規(guī)則布置的示例揚聲器的搖移函數的影響。系統(tǒng)以1.5的因子拉伸在前方的聲場以適配在影院中的較大屏幕。因此,來自其他方向的聲音項被壓縮。彎曲函數f(φ)類似于具有單一實數參數的離散時間全通濾波器的相位響應,并且在圖3中示出。對應的加權函數g(φ)在圖4中示出。

圖7描繪了13×65個單步變換彎曲矩陣T。矩陣的單獨系數的對數性絕對值用根據所附灰度或陰影條的灰度或陰影型指示。已經對Norig=6的輸入HOA階和Nwarp=32的輸出階設計此示例矩陣。要求較高的輸出階以便于捕獲由從低階系數到高階系數的變換展開的大部分信息。

此特定彎曲矩陣的有用特性在于其有效部分為零。這允許在實現此操作時節(jié)約大量的計算能力。圖5和圖6圖示了由一些平面波產生的波束圖案的彎曲特性。兩個圖都是從在φ位置0、2/13π、4/13π、6/13π、...、22/13π和24/13π的相同十三個輸入平面波得出的,全部具有一致的幅度“一”,且示出十三個角幅度分布,即,超定的結果向量s,規(guī)則解碼操作s=Ψ-1A,其中,HOA向量A是平面波的集合的或原始或彎曲的變量。圓之外的數字表示角度φ。虛擬揚聲器的數量可觀地高于HOA參數的數量。用于來自前方的平面波的幅度分布或波束圖案位于φ=0。

圖5示出原始HOA表示的權重和幅度分布。全部十三個分布都相似地形成并且突出主波瓣的相同寬度。圖6示出對相同聲音對象的權重和幅度分布,但是是在已經進行彎曲操作之后。對象已經從φ=0的前方遠離并且該前方附近的主波瓣變得更加寬闊。通過更高階Nwarp=32的彎曲HOA向量促進波束圖案的這些修改。用在空間中變化的局部階創(chuàng)建混階(mixed-order)信號。

為了得出對將音頻現場的回放適配于實際屏幕配置的合適彎曲特性f(φin),除了HOA系數之外還發(fā)送或提供了額外信息。例如,在混音處理中使用的基準屏幕的以下特性可以被包括在位流中:

●屏幕中央的方向,

●寬度,

●基準屏幕的高度,

全部都在從基準聆聽位置測量(即,“蜜點”)的極化坐標中。

另外,對特殊應用可以要求以下參數:

●屏幕的形狀,例如,它是平的或是球形,

●屏幕的距離,

●關于在立體3D視頻投影情況中的最大和最小可視深度的信息。

對于本領域技術人員已知這樣的元數據如何編碼。

接著,假定編碼的音頻位流包括至少以上三個參數,中央的方向、基準屏幕的寬度和高度。為了理解,進一步假定實際屏幕的中央與基準屏幕的中央一致,例如,直接在聽眾的前方。此外,假定,僅以2D格式表示聲場(相比于3D格式)并且這個的傾角的改變被忽略(例如,如當選擇的HOA格式表示無垂直分量時,或者其中聲音編輯認為圖片和屏幕上聲源的傾角之間的失配將足夠小從而普通觀察者將不會注意到它們。)對任意屏幕位置和3D情況的轉變對于本領域技術人員是直接的。進一步,出于簡單而假定屏幕結構是球型。

借助這些假定,僅屏幕的寬度可以在內容和實際設置之間變化。下面,定義合適的兩段分段式線性彎曲特性。由孔徑角2φw,a定義實際屏幕寬度(即,φw,a描述半角)。由角度φw,r定義基準屏幕寬度,并且此值是在位流內傳遞的元信息的部分。對于在前方上(即,在視頻屏幕上)的聲音對象的可信再現,聲音對象的全部位置(在極化坐標中)將由因子φw,aw,r操控。相反,在其他方向上的全部聲音對象應當根據剩余空間而移動。彎曲特性導致

否則

對獲得此特性所要求的彎曲操作可以以在EP 11305845.7中公開的規(guī)則構建。例如,其結果是,可以得出單步線性彎曲運算符,該運算符在所操控的向量被輸入HOA重現處理之前被應用于每一個HOA向量。以上示例是很多可能彎曲特性中的一個??梢詰闷渌匦砸员阌谡业綇碗s度和在操作之后剩余的失真量之間的平衡。例如,如果應用簡單分段線性彎曲特性用于制造3D聲場重現,則可以產生空間再現的典型枕型失真和桶形失真,但是如果因子φw,aw,r接近“一”,可以忽略空間重現的這樣的失真。對于很大或很小的因子,可以應用更復雜的彎曲特性,其最小化空間失真。

另外,如果所選擇的HOA表示確實規(guī)定了傾角且聲音編輯認為屏幕所對的垂直角是重要的,則可以對傾角應用基于屏幕的角高度θh(半高)和有關因子(例如,實際高度對基準高度的比率θh,ah,r)的類似等式作為彎曲操作符的部分。

如另一示例,假定在聽眾前方,取代球形屏幕的純平屏幕可能要求比上述示例性特性更為精致的彎曲特性。再次,這可以僅以寬度或僅以寬度+高度彎曲關注其自身。

上述示例性實施例具有固定和極易于實現的優(yōu)勢。另一方面,不允許來自生產側的適配處理的任何控制。以下實施例介紹用于以不同方式的更多控制的處理。

實施例1:屏幕相關聲音和其他聲音之間的分離

由于各種原因可能要求這樣的控制技術。例如,不是音頻現場中的全部聲音對象直接與屏幕上的可見對象耦合,并且操控不同于環(huán)境聲的直達聲可以是有利的。可以在重現側通過現場分析進行此區(qū)分。然而,通過向傳輸位流增加額外信息可以顯著地改善和控制。理想化地,對實際屏幕特性適配何種聲音項以及何種聲音項不處理的決定應當留給進行聲音混音的藝術家。

向重現處理傳輸此信息的不同方式是可能的:

●在位流內定義兩個完全集合的HOA系數(信號),一個用于描述有關可見項的對象而另一個用于表示獨立或環(huán)境聲音。在解碼器中,僅第一HOA信號將經歷對實際屏幕布局(geometry)的適配而另一個則未處理。在回放之前,組合所操控的第一HOA信號和未修改第二HOA信號。

作為示例,聲音工程師可以決定將類似對話的屏幕相關聲音或特定的弗雷(Foley)項混合到第一信號中,并且將環(huán)境聲音混合到第二新號中。以此方式,無論對音頻/視頻信號的回放使用哪個屏幕,環(huán)境將總是保持一致。

這種處理具有額外優(yōu)勢,可以對特定類型的信號單獨地最優(yōu)化兩個構成子信號的HOA階,由此,用于屏幕相關聲音對象(即,第一子信號)的HOA階高于對環(huán)境信號分量(即,第二子聲音)使用的HOA階。

●經由附著于時空頻率瓦(tile)的標識,將聲音的映射定義為屏幕相關的或屏幕獨立的。出于此目的,例如,經由平面波分解確定HOA信號的空間特性。然后,對時間分段(分窗口)和時頻轉換輸入每一個空間域信號。由此,將定義瓦的三維集合,其可以例如由聲明該瓦的內容是否應當被適配于實際屏幕布局的二進制標識單獨地標記。此子實施例比之前的子實施例更為有效,但是它限制了定義聲音現場的哪個部分應當被操控或不被操控的靈活性。

實施例2:動態(tài)適配

在一些應用中,將要求以動態(tài)方式改變被發(fā)信號(signalled)的基準屏幕特性。例如,音頻內容可以是從不同混音連結重新調整的內容分段的結果。在此情況下,描述基準屏幕參數的參數將隨時間改變,并且動態(tài)地改變適配算法:對于屏幕參數的每一個改變,對應地重新計算所應用的彎曲函數。

另一應用示例起于混合對最終可視視頻和音頻現場的不同子部分已準備的不同HOA流。然后,有利的是,考慮處于共同位流中的多于一個(或以上用實施例1多于兩個)HOA信號,每一個都具有其單獨的屏幕特性。

實施例3:替代實現

取代在經由固定HOA解碼器的解碼之前的彎曲HOA表示,關于如何適配信號到實際屏幕特性的信息可以被集成到解碼器設計中。此實現是對在以上示例性實施例中描述的基本實現的替代。然而,它不改變在位流內的屏幕特性的發(fā)信號。

在圖8中,HOA編碼的信號被存儲在存儲設備82中。為了在影院中的呈現,來自設備82的HOA表示的信號在HOA解碼器83中被HOA解碼,穿過再現器85,并且對于一組揚聲器輸出為揚聲器信號81。

在圖9中,HOA編碼的信號被存儲在存儲設備92中。為了例如在影院中的呈現,來自設備92的HOA表示的信號在HOA解碼器93中被HOA解碼,穿過彎曲級94到再現器95,并且對于一組揚聲器輸出為揚聲器信號91。彎曲級94接收上述再現適配信息90,并相應地使用它用于適配已解碼的HOA信號。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1