專利名稱:用于處理音頻信號的方法和裝置的制作方法
技術領域:
本發(fā)明涉及用于處理音頻信號的方法和裝置,尤其涉及用于解碼在數(shù)字介質(zhì)上接收的音頻信號等作為廣播信號的方法和裝置。
背景技術:
在將若干音頻對象縮減混合成單聲道或立體聲信號時,能夠提取來自各個對象信號的參數(shù)。這些參數(shù)可在音頻信號的解碼器中使用,且各個源的復位/搖移(panning)可由用戶的選擇來控制。
發(fā)明內(nèi)容
技術問題 然而,為了控制各個對象信號,必需適當?shù)貓?zhí)行包括在縮減混合信號中的各個源的復位/搖移。
然而,對于就面向聲道的解碼方法(如MPEG環(huán)繞)而言的反向兼容性,對象參數(shù)必需被靈活地轉(zhuǎn)換成擴展混合過程所需的多聲道參數(shù)。
技術方案 因此,本發(fā)明涉及一種基本上消除了一個或多個由于有關技術的局限和缺點引起的問題的處理音頻信號的方法和裝置。
本發(fā)明的目的是提供一種用于不受限制地控制對象增益和搖移的處理音頻信號的方法和裝置。
本發(fā)明的目的是提供一種用于基于用戶選擇控制對象增益和搖移的處理音頻信號的方法和裝置。
本發(fā)明的其它優(yōu)點、目的和特征將在以下的說明中部分地闡述,且在本領域技術人員分析以下內(nèi)容后將部分地變得顯然易見,或者可從本發(fā)明的實施中獲知。本發(fā)明的目的和其它優(yōu)點可由書面說明書及其權利要求書和附圖中具體指出的結(jié)構來實現(xiàn)并獲得。
有益效果 本發(fā)明提供以下的效果或優(yōu)點。
首先,本發(fā)明能夠提供一種用于不受限制地控制對象增益和搖移的處理音頻信號的方法和裝置。
其次,本發(fā)明能夠提供一種用于基于用戶選擇控制對象增益和搖移的處理音頻信號的方法和裝置。
附圖簡述 包括于此以提供對本發(fā)明的進一步理解、并被結(jié)合在本申請中且構成其一部分的附圖示出本發(fā)明的實施例,其與說明書一起用來解釋本發(fā)明的原理。在附圖中
圖1是解釋基于回放配置和用戶控制渲染縮減混合信號的基本概念的示例性框圖。
圖2是根據(jù)本發(fā)明的一個實施例的對應于第一方案的用于處理音頻信號的裝置的示例性框圖。
圖3是根據(jù)本發(fā)明的另一個實施例的對應于第一方案的用于處理音頻信號的裝置的示例性框圖。
圖4是根據(jù)本發(fā)明的一個實施例的對應于第二方案的用于處理音頻信號的裝置的示例性框圖。
圖5是根據(jù)本發(fā)明的另一個實施例的對應于第二方案的用于處理音頻信號的裝置的示例性框圖。
圖6是根據(jù)本發(fā)明的又一個實施例的對應于第二方案的用于處理音頻信號的裝置的示例性框圖。
圖7是根據(jù)本發(fā)明的一個實施例的對應于第三方案的用于處理音頻信號的裝置的示例性框圖。
圖8是根據(jù)本發(fā)明的另一個實施例的對應于第三方案的用于處理音頻信號的裝置的示例性框圖。
圖9是解釋渲染單元的基本概念的示例性框圖。
圖10A至10C是圖7所示的縮減混合處理單元的第一實施例的示例性框圖。
圖11是圖7所示的縮減混合處理單元的第二實施例的示例性框圖。
圖12是圖7所示的縮減混合處理單元的第三實施例的示例性框圖。
圖13是圖7所示的縮減混合處理單元的第四實施例的示例性框圖。
圖14是根據(jù)本發(fā)明的第二實施例的經(jīng)壓縮音頻信號的比特流結(jié)構的示例性框圖。
圖15是根據(jù)本發(fā)明的第二實施例的用于處理音頻信號的裝置的示例性框圖。
圖16是根據(jù)本發(fā)明的第三實施例的經(jīng)壓縮音頻信號的比特流結(jié)構的示例性框圖。
圖17是根據(jù)本發(fā)明的第四實施例的用于處理音頻信號的裝置的示例性框圖。
圖18是解釋可變類型對象的發(fā)送方案的示例性框圖。
圖19是根據(jù)本發(fā)明的第五實施例的用于處理音頻信號的裝置的示例性框圖。
本發(fā)明的最佳實施方式 為了實現(xiàn)這些和其它優(yōu)點并根據(jù)本發(fā)明的目的,如本文具體體現(xiàn)和廣泛描述的,一種用于處理音頻信號的方法,包括接收縮減混合信號、對象信息和混合信息;利用對象信息和混合信息生成縮減混合處理信息;利用縮減混合處理信息處理縮減混合信號;以及利用對象信息和混合信息生成多聲道信息,其中縮減混合信號的聲道數(shù)等于經(jīng)處理的縮減混合信號的聲道數(shù)。
根據(jù)本發(fā)明,其中對象信息包括對象電平信息和對象相關性信息中的至少一個。
根據(jù)本發(fā)明,其中如果縮減混合的聲道數(shù)對應于至少2,則縮減混合處理信息對應于用于控制對象搖移的信息。
根據(jù)本發(fā)明,其中縮減混合處理信息對應于用于控制對象增益的信息。
根據(jù)本發(fā)明,其中在縮減混合信號對應于立體聲信號的情形中,通過2x2模塊執(zhí)行處理縮減混合信號。
根據(jù)本發(fā)明,其中在縮減混合信號對應于立體聲信號的情形中,經(jīng)處理的縮減混合信號的一個聲道對應于縮減混合信號的一個聲道乘以第一增益與縮減混合信號的另一個聲道乘以第二增益的合并。
根據(jù)本發(fā)明,還包括利用經(jīng)處理的縮減混合信號生成時域中的輸出信號。
根據(jù)本發(fā)明,其中縮減混合信號對應于通過子頻帶分析濾波器組生成的子頻帶域信號。
根據(jù)本發(fā)明,其中多聲道信息包括聲道電平信息和聲道相關性信息中的至少一個。
根據(jù)本發(fā)明,還包括利用經(jīng)處理的縮減混合信號和多聲道信息生成多聲道信號。
根據(jù)本發(fā)明,其中混合信息是利用對象位置信息和回放配置信息中的至少一個生成的。
根據(jù)本發(fā)明,其中接收縮減混合信號作為廣播信號。
根據(jù)本發(fā)明,其中在數(shù)字介質(zhì)上接收縮減混合信號。
在本發(fā)明的另一個方面中,一種用于處理音頻信號的方法,包括接收縮減混合信號、對象信息和混合信息;將縮減混合信號分解成子頻帶信號;利用對象信息和混合信息生成縮減混合處理信息;以及利用縮減混合處理信息處理子頻帶信號;利用經(jīng)處理的子頻帶信號生成輸出信號,其中縮減混合信號的聲道數(shù)等于輸出信號數(shù),且輸出信號對應于時域信號。
在本發(fā)明的另一個方面中,一種有指令存儲于其上的計算機可讀介質(zhì),所述指令在由處理器執(zhí)行時使得所述處理器執(zhí)行以下操作,包括接收縮減混合信號、對象信息和混合信息;利用對象信息和混合信息生成縮減混合處理信息;利用縮減混合處理信息處理縮減混合信號;以及利用對象信息和混合信息生成多聲道信息,其中縮減混合信號的聲道數(shù)等于經(jīng)處理的縮減混合信號的聲道數(shù)。
在本發(fā)明的另一個方面中,一種有指令存儲于其上的計算機可讀介質(zhì),所述指令在由處理器執(zhí)行時使得所述處理器執(zhí)行以下操作,包括接收縮減混合信號、對象信息和混合信息;將縮減混合信號分解成子頻帶信號;利用對象信息和混合信息生成縮減混合處理信息;以及利用縮減混合處理信息處理子頻帶信號;利用經(jīng)處理的子頻帶信號生成輸出信號,其中縮減混合信號的聲道數(shù)等于輸出信號數(shù),且輸出信號對應于時域信號。
在本發(fā)明的另一個方面中,一種用于處理音頻信號的裝置,包括信息生成單元,其接收對象信息和混合信息,利用對象信息和混合信息生成縮減混合處理信息,并利用對象信息和混合信息生成多聲道信息;以及縮減混合處理單元,其接收縮減混合信號和縮減混合處理信息,并利用縮減混合處理信息處理縮減混合信號;其中縮減混合信號的聲道數(shù)等于經(jīng)處理的縮減混合信號的聲道數(shù)。
在本發(fā)明的另一個方面中,一種用于處理音頻信號的裝置,包括信息生成單元,其接收縮減混合信號、對象信息和混合信息,該信息生成單元利用對象信息和混合信息生成縮減混合處理信息;以及縮減混合處理單元,其將縮減混合信號分解成子頻帶信號,利用縮減混合處理信息處理子頻帶信號,并利用經(jīng)處理的子頻帶信號生成輸出信號,其中縮減混合信號的聲道數(shù)等于輸出信號數(shù),且所述輸出信號對應于時域信號。
在本發(fā)明的另一個方面中,一種用于處理音頻信號的方法,包括利用多個對象信號獲取縮減混合信號;利用多個對象信號和縮減混合信號生成表示多個對象信號之間的關系的對象信息,以及發(fā)送縮減混合信號和對象信息,其中允許所述縮減混合信號成為經(jīng)處理的縮減混合信號,以便于使縮減混合信號的聲道數(shù)等于經(jīng)處理的縮減混合信號的數(shù)目。
應理解,本發(fā)明的以上一般描述和以下詳細描述是示例性和說明性的,并且旨在提供對如所要求保護的本發(fā)明的進一步解釋。
本發(fā)明的實施方式 現(xiàn)在詳細參考在附圖中示出其示例的本發(fā)明的優(yōu)選實施例。只要有可能,在所有附圖中始終使用相同的附圖標記表示相同或相似的部件。
在對本發(fā)明進行敘述之前,應當指出的是本發(fā)明中揭示的大多數(shù)術語對應于本領域內(nèi)公知的一般術語,但某些術語是由本申請人根據(jù)需要選擇的,并且將在本發(fā)明以下的描述中予以揭示。因此,由申請人定義的術語優(yōu)選基于它們在本發(fā)明中的含義來理解。
具體地,在以下的描述中“參數(shù)”表示包括值、狹義參數(shù)、系數(shù)、元素等的信息。在下文中,術語“參數(shù)”將代替術語“信息”使用,如對象參數(shù)、混合參數(shù)、縮減混合處理參數(shù)等,這不會對本發(fā)明構成限制。
在縮減混合若干聲道信號或?qū)ο笮盘枙r,可提取對象參數(shù)和空間參數(shù)。解碼器可利用縮減混合信號和對象參數(shù)(或空間參數(shù))生成輸出信號??捎山獯a器基于回放配置和用戶控制渲染輸出信號。如下將參考圖1詳細解釋渲染過程。
圖1是解釋基于回放配置和用戶控制渲染縮減混合的基本概念的示例性框圖。參照圖1,解碼器100可包括渲染信息生成單元110和渲染單元120,且還可包括渲染器110a和合成器120a來代替渲染信息生成單元110和渲染單元120。
可將渲染信息生成單元110配置成從編碼器接收包括對象參數(shù)或空間參數(shù)的輔助信息,且還從設備設置或用戶界面接收回放配置或用戶控制。對象參數(shù)可對應于在縮減混合至少一個對象信號時提取的參數(shù),且空間參數(shù)可對應于在縮減混合至少一個聲道信號時提取的參數(shù)。此外,可將每個對象的類型信息和特性信息包括在輔助信息中。類型信息和特性信息可描述樂器名稱、演奏者姓名等?;胤排渲每砂〒P聲器位置和周圍環(huán)境信息(揚聲器的虛擬位置),且用戶控制可對應于由用戶輸入以便于控制對象位置和對象增益的控制信息,且還可對應于便于回放配置的控制信息。同時可將回放配置和用戶控制表示為混合信息,這不會對本發(fā)明構成限制。
渲染信息生成單元110可被配置成利用混合信息(回放配置和用戶控制)和所接收的輔助信息生成渲染信息。渲染單元120可被配置成在不發(fā)送音頻信號的縮減混合(簡稱“縮減混合信號”)的情形中利用渲染信息生成多聲道參數(shù),并且在發(fā)送音頻信號的縮減混合的情形中利用渲染信息和縮減混合生成多聲道信號。
渲染器110a可被配置成利用混合信息(回放配置和用戶控制)和所接收的輔助信息生成多聲道信號。合成器120a可被配置成利用由渲染器110a生成的多聲道信號合成多聲道信號。
如上所述,解碼器可基于回放配置和用戶控制渲染縮減混合信號。同時,為了控制各個對象信號,解碼器可接收對象參數(shù)作為輔助信息并基于所發(fā)送的對象參數(shù)來控制對象搖移和對象增益。
1.控制對象信號的增益和搖移 可提供用于控制各個對象信號的可變方法。首先,如果解碼器接收對象參數(shù)并利用該對象參數(shù)生成各個對象信號,則解碼器可基于混合信號(回放配置、對象電平等)控制各個對象信號。
其次,如果解碼器生成將被輸入到多聲道解碼器的多聲道參數(shù),則多聲道解碼器可利用該多聲道參數(shù)對從編碼器接收的縮減混合信號進行擴展混合。上述第二方法可被分成三類方案。具體地,可提供1)利用常規(guī)的多聲道解碼器,2)修改多聲道解碼器,3)在輸入到多聲道解碼器之前處理音頻信號的縮減混合。常規(guī)的多聲道解碼器可對應于面向聲道的空間音頻編碼(例如MPEG環(huán)繞解碼器),這不會對本發(fā)明構成限制。如下將解釋三類方案的細節(jié)。
1.1利用多聲道解碼器 第一方案可在不修改多聲道解碼器的情況下按原樣使用常規(guī)的多聲道解碼器。首先,將如下參考圖2解釋使用控制對象增益的ADG(任意縮減混合增益)的情形和使用控制對象搖移的5-2-5配置的情形。隨后,將參考圖3解釋與場景再混合單元有關的情形。
圖2是根據(jù)本發(fā)明的一個實施例的對應于第一方案的用于處理音頻信號的裝置的示例性框圖。參照圖2,用于處理音頻信號的裝置200(在下文中簡稱為“解碼器200”)可包括信息生成單元210和多聲道解碼器230。信息生成單元210可接收來自編碼器的包括對象參數(shù)的輔助信息和來自用戶界面的混合信息,并可生成包括任意縮減混合增益或增益修改增益(在下文中簡稱為“ADG”)的多聲道參數(shù)。ADG可描述基于混合信息和對象信息估計的第一增益與基于對象信息估計的第二增益的比。具體地,僅當縮減混合信號對應于單聲道信號時,信息生成單元210可生成ADG。多聲道解碼器230可接收來自編碼器的音頻信號的縮減混合和來自信息生成單元210的多聲道參數(shù),并可利用縮減混合信號和多聲道參數(shù)生成多聲道輸出。
多聲道參數(shù)可包括聲道電平差(在下文中簡稱為“CLD”)、聲道間相關性(在下文中簡稱為“ICC”)、聲道預測系數(shù)(在下文中簡稱為“CPC”)。
因為CLD、ICC和CPC描述兩個聲道之間的強度差或相關性,所以它將控制對象搖移和相關性。能夠利用CLD、ICC等控制對象位置和對象擴散(響度)。同時,CLD描述相對電平差而不是絕對電平,且保存被分離的兩個聲道的能量。因此不能通過處理CLD等控制對象增益。換言之,不能通過使用CLD等減弱或提高特定對象的音量。
此外,ADG描述用于由用戶控制校正因數(shù)的時間和頻率相關增益。如果應用該校正因數(shù),則能夠在多聲道擴展混合之前處理縮減混合信號的修改。因此,在從信息生成單元210接收ADG參數(shù)的情形中,多聲道解碼器230可利用ADG參數(shù)控制特定時間和頻率的對象增益。
同時,以下的公式1可定義所接收的立體聲縮減混合信號作為立體聲聲道輸出的情形。
[公式1] y
=w11·g0·x
+w12·g1·x[1] y[1]=w21·g0·x
+w22·g1·x[1] 其中x[]是輸入聲道,y[]是輸出聲道,gx是增益,且wxx是權重。
有必要控制左聲道和右聲道之間的串音以便對象搖移。具體地,縮減混合信號的左聲道的一部分可作為輸出信號的右聲道輸出,縮減混合信號的右聲道的一部分可作為輸出信號的左聲道輸出。在公式1中,w12和w21可以是串音組分(換言之,交叉項)。
上述情況對應于2-2-2配置,其表示2-聲道輸入,2-聲道傳輸和2-聲道輸出。為了執(zhí)行2-2-2配置,可使用常規(guī)面向聲道的空間音頻編碼(例如MPEG環(huán)繞)的5-2-5配置(2-聲道輸入、5-聲道傳輸和2-聲道輸出)。首先,為了輸出用于2-2-2配置的2聲道,5-2-5配置的5個輸出聲道中的某些聲道可被設置成停用聲道(假聲道)。為了給出2傳輸聲道和2輸出聲道之間的串音,可調(diào)節(jié)上述CLD和CPC。簡言之,利用上述ADG獲得公式1中的增益因數(shù)gx,且利用CLD和CPC獲得公式1中的加權因數(shù)w11~w22。
在利用5-2-5配置實現(xiàn)2-2-2配置時,為了減少復雜性,可應用常規(guī)空間音頻編碼的默認模式。因為假定默認CLD的特性是輸出2-聲道,所以如果應用默認CLD則能夠減少計算量。具體地,因為不需要合成假聲道,所以能夠大量減少計算量。因此,應用默認模式是適當?shù)?。具體地,僅3CLD(對應于MPEG環(huán)繞標準中的0、1和2)的默認CLD用于解碼。另一方面,生成用于控制對象的左聲道、右聲道和中央聲道中的4CLD(對應于MPEG環(huán)繞標準中的3、4、5和6)和2ADG(對應于MPEG環(huán)繞標準中的7和8)。在這種情形中,對應3和5的CLD描述左聲道加右聲道與中央聲道之間的聲道電平差((1+r)/c)適于設置成150dB(近似無窮大)以便減小中央聲道。并且,為了實現(xiàn)串音,可執(zhí)行基于能量的擴展混合或基于預測的擴展混合,它在TTT模式(MPEG環(huán)繞標準中的“bsTttModeLow”)對應于基于能量的模式(利用減法,實現(xiàn)矩陣兼容性)(第三模式)或預測模式(第一模式或第二模式)的情形中被調(diào)用。
圖3是根據(jù)本發(fā)明的另一個實施例的對應于第一方案的用于處理音頻信號的裝置的示例性框圖。參照圖3,根據(jù)本發(fā)明的另一個實施例用于處理音頻信號的裝置300(在下文中簡稱為解碼器300)可包括信息生成單元310、場景渲染單元320、多聲道解碼器330和場景再混合單元350。
信息生成單元310可被配置成在縮減混合信號對應于單聲道信號時(即縮減混合聲道的數(shù)目是“1”)從編碼器接收包括對象參數(shù)的輔助信息,可從用戶界面接收混合信息,并可利用輔助信息和混合信息生成多聲道參數(shù)??苫诎ㄔ谳o助信息中的標志信息以及縮減混合信號本身和用戶選擇估計縮減混合聲道的數(shù)目。信息生成單元310可具有與前面的信息生成單元210相同的配置。多聲道參數(shù)被輸入到多聲道解碼器330,該多聲道解碼器330可具有與前面的多聲道解碼器230相同的配置。
場景渲染單元320可被配置成在縮減混合信號對應于非單聲道信號時(即縮減混合聲道的數(shù)目大于“2”)從編碼器接收包括對象參數(shù)的輔助信息,可從用戶界面接收混合信息,并可利用輔助信息和混合信息生成再混合參數(shù)。再混合參數(shù)對應于便于再混合立體聲聲道并生成大于2聲道輸出的參數(shù)。將再混合參數(shù)輸入到場景再混合渲染單元350。場景再混合單元350可被配置成在縮減混合信號是大于2聲道信號時利用再混合參數(shù)再混合該縮減混合信號。
簡言之,可將兩種途徑視為解碼器300中的單獨應用的單獨實現(xiàn)。
1.2修改多聲道解碼器 第二方案可修改常規(guī)的多聲道解碼器。首先,如下參考圖4解釋使用控制對象增益的虛擬輸出的情形和修改控制對象搖移的設備設置的情形。隨后參考圖5解釋在多聲道解碼器中執(zhí)行TBT(2x2)功能的情形。
圖4是根據(jù)本發(fā)明的一個實施例的對應于第二方案的用于處理音頻信號的裝置的示例性框圖。參照圖4,根據(jù)本發(fā)明的一個實施例對應于第二方案的用于處理音頻信號的裝置400(在下文中簡稱為“解碼器400”)可包括信息生成單元410、內(nèi)部多聲道合成器420和輸出映射單元430。內(nèi)部多聲道合成器420和輸出映射單元430可被包括在合成單元中。
信息生成單元410可被配置成接收來自編碼器的包括對象參數(shù)的輔助信息和來自用戶界面的混合參數(shù)。并且信息生成單元410可被配置成利用輔助信息和混合信息生成多聲道參數(shù)和設備設置信息。多聲道參數(shù)可具有與前面的多聲道參數(shù)相同的配置。所以,在以下的描述中將省略多聲道參數(shù)的細節(jié)。設備設置信息可對應于用于雙耳處理的參數(shù)化HRTF,這將在“1.2.2使用設備設置信息”的描述中予以解釋。
內(nèi)部多聲道合成器420可被配置成接收來自參數(shù)生成單元410的多聲道參數(shù)和設備設置信息以及來自編碼器的縮減混合信號。內(nèi)部多聲道合成器420可被配置成生成包括虛擬輸出的臨時多聲道輸出,這將在“1.2.1使用虛擬輸出”的描述中予以解釋。
1.2.1使用虛擬輸出 因為多聲道參數(shù)(例如CLD)可控制對象搖移,所以很難通過常規(guī)的多聲道解碼器控制對象增益以及對象搖移。
同時,為了對象增益,解碼器400(尤其是內(nèi)部多聲道合成器420)可將對象的相對能量映射到虛擬聲道(例如中央聲道)。對象的相對能量對應于將減少的能量。例如,為了使特定對象靜音,解碼器400可將對象能量的99.9%以上映射到虛擬聲道。然后,解碼器400(尤其是輸出映射單元430)不輸出對象的剩余能量所映射至的虛擬聲道??傊绻麑ο蟮?9.9%以上被映射到不被輸出的虛擬聲道,期望的對象可以幾乎是靜音的。
1.2.2使用設備設置信息 解碼器400可調(diào)節(jié)設備設置信息以便控制對象搖移和對象增益。例如,解碼器可被配置成生成在MPEG環(huán)繞標準中用于雙耳處理的參數(shù)化HRTF。參數(shù)化HRTF可根據(jù)設備設置變化。能夠假設可根據(jù)以下的公式2控制對象信號。
[公式2] L新=a1*obj1+a2*obj2+a3*obj3+..+an*objn, R新=b1*obj1+b2*obj2+b3*obj3+..+bn*objn, 其中objk是對象信號,L新和R新是期望的立體聲信號,且ak和bk是用于對象控制的系數(shù)。
可由所發(fā)送的輔助信息中包括的對象參數(shù)估計出對象信號objk的對象信息。可根據(jù)混合信息估計出根據(jù)對象增益和對象搖移定義的系數(shù)ak、bk??衫孟禂?shù)ak、bk調(diào)節(jié)期望的對象增益和對象搖移。
可將系數(shù)ak、bk設置成對應于用于雙耳處理的HRTF參數(shù),這將詳細解釋如下。
在MPEG環(huán)繞標準(5-1-51配置)(來自SO/IEC FDIS 23003-12006(E),信息技術-MPEG音頻技術-第一部分MPEG環(huán)繞)中,雙耳處理如下。
[公式3] 其中yB是輸出,矩陣H是用于雙耳處理的轉(zhuǎn)換矩陣。
[公式4] 矩陣H的元素定義如下 [公式5] [公式6] [公式7] 其中以及 1.2.3在多聲道解碼器中執(zhí)行TBT(2x2)功能 圖5是根據(jù)本發(fā)明的另一個實施例的對應于第二方案的用于處理音頻信號的裝置的示例性框圖。圖5是多聲道解碼器中的TBT功能的示例性框圖。參照圖5,TBT模塊510可被配置成接收輸入信號和TBT控制信息并生成輸出信號。TBT模塊510可被包括在圖2的解碼器200中(或者,具體的是多聲道解碼器230)。多聲道解碼器230可根據(jù)MPEG環(huán)繞標準來實現(xiàn),這不會對本發(fā)明構成限制。
[公式9] 其中x是輸入聲道,y是輸出聲道,且w是權重。
輸出y1可對應于縮減混合的輸入x1乘以第一增益w11與輸入x2乘以第二增益w12的合并。
在TBT模塊510中輸入的TBT控制信息包括可構成權重w(w11、w12、w21、w22)的元素。
在MPEG環(huán)繞標準中,OTT(一至二)模塊和TTT(二至三)模塊不適合再混合輸入信號,盡管OTT模塊和TTT模塊可擴展混合輸入信號。
為了再混合輸入信號,可提供TBT(2x2)模塊510(在下文中簡稱為“TBT模塊510”)??蓪BT模塊510描繪成接收立體聲信號并輸出再混合立體聲信號??衫肅LD(多個CLD)和ICC(多個ICC)構造權重w。
如果權重項w11~w22作為TBT控制信息發(fā)送,則解碼器可利用所接收的權重項控制對象增益以及對象搖移。在發(fā)送權重項w時,可提供可變方案。首先,TBT控制信息包括類似w12和w21的交叉項。第二,TBT控制信息不包括類似w12和w21的交叉項。第三,作為TBT控制信息的項數(shù)自適應地改變。
首先,需要接收類似w12和w21的交叉項,以便在輸入聲道的左信號進入輸出聲道的右側(cè)時控制對象搖移。在N個輸入聲道和M個輸出聲道的情形中,數(shù)目為NxM的項可作為TBT控制信息發(fā)送??苫贛PEG環(huán)繞中介紹的CLD參數(shù)量化表來量化這些項,這不會對本發(fā)明構成限制。
第二,除非左對象移位到右位置(即當左對象移動到更左位置或與中央位置相鄰的左位置時,或當僅對象電平被調(diào)節(jié)時),否則不需要使用交叉項。在這種情形中,發(fā)送除交叉項以外的項是適當?shù)?。在N個輸入聲道和M個輸出聲道的情形中,可發(fā)送數(shù)目僅為N的項。
第三,TBT控制信息的數(shù)目根據(jù)交叉項的需要自適應地改變,以便減少TBT控制信息的比特率。指示是否存在交叉項的標志信息“交叉標志”被設置成作為TBT控制信息發(fā)送。標志信息“交叉_標志”的含義在以下的表1中示出。
[表1]交叉標志的含義 在“交叉標志”等于0的情形中,TBT控制信息不包括交叉項,僅存在類似w11和w22的非交叉項。否則(“交叉_標志”等于1),TBT控制信息包括交叉項。
此外,指示存在交叉項還是存在非交叉項的標志信息“逆_標志”被設置成作為TBT控制信息發(fā)送。標志信息“逆_標志”的含義在以下的表2中示出。
[表2]逆_標志的含義 在“逆_標志”等于0的情形中,TBT控制信息不包括交叉項,僅存在類似w11和w22的非交叉項。否則(“逆_標志”等于1),TBT控制信息僅包括交叉項。
此外,指示存在交叉項還是存在非交叉項的標志信息“輔助_標志”被設置成作為TBT控制信息發(fā)送。標志信息“輔助_標志”的含義在以下的表3中示出。
[表3]輔助_配置的含義 因為表3對應于表1和表2的合并,所以略去表3的細節(jié)。
1.2.4通過修改雙耳解碼器來在多聲道解碼器中執(zhí)行TBT(2x2)功能 可在不修改雙耳解碼器的情況下執(zhí)行“1.2.2使用設備設置信息”的情形。在下文中,參考圖6,通過修改MPEG環(huán)繞解碼器中采用的雙耳解碼器執(zhí)行TBT功能。
圖6是根據(jù)本發(fā)明的又一個實施例的對應于第二方案的用于處理音頻信號的裝置的示例性框圖。具體地,用于處理圖6所示的音頻信號630的裝置可對應于圖2的多聲道解碼器230或圖4的合成單元中所包括的雙耳解碼器,這不會對本發(fā)明構成限制。
用于處理音頻信號630的裝置(在下文中是“雙耳解碼器630”)可包括QMF分析器632、參數(shù)轉(zhuǎn)換器634、空間合成器636和QMF合成器638。雙耳解碼器630的元件可具有與MPEG環(huán)繞標準中的MPEG環(huán)繞雙耳解碼器相同的配置。例如,可根據(jù)以下的公式10將空間合成器636配置成包括1個2x2(濾波器)矩陣。
[公式10] 其中y0是QMF域輸入聲道且yB是雙耳輸出聲道,k表示混合QMF聲道索引,且i是HRTF濾波器抽頭索引,且n是QMF槽索引(slot index)。雙耳解碼器630可被配置成執(zhí)行子目“1.2.2使用設備設置信息”中描述的上述功能。然而,可利用多聲道參數(shù)和混合信息而不是多聲道參數(shù)和HRTF參數(shù)生成元素hij。在這種情形中,雙耳解碼器600可執(zhí)行圖5中TBT模塊510的功能。將略去雙耳解碼器630的元件的細節(jié)。
雙耳解碼器630可根據(jù)標志信息“雙耳_標志”來操作。具體地,在標志信息雙耳_標志為0的情形中可跳過雙耳解碼器630,否則(雙耳標_志是“1”),雙耳解碼器630可如下操作。
[表4]雙耳_標志的含義 1.3在輸入到多聲道解碼器之前處理音頻信號的縮減混合 已經(jīng)在子目“1.1”中解釋了使用常規(guī)多聲道解碼器的第一方案,已經(jīng)在子目“1.2”中解釋了修改多聲道解碼器的第二方案。以下將解釋在輸入到多聲道解碼器之前處理音頻信號的縮減混合的第三方案。
圖7是根據(jù)本發(fā)明的一個實施例的對應于第三方案的用于處理音頻信號的裝置的示例性框圖。圖8是根據(jù)本發(fā)明的另一個實施例的對應于第三方案的用于處理音頻信號的裝置的示例性框圖。首先,參照圖7,用于處理音頻信號的裝置700(在下文中簡稱為“解碼器700”)可包括信息生成單元710、縮減混合處理單元720和多聲道解碼器730。參照圖8,用于處理音頻信號的裝置800(在下文中簡稱為“解碼器800”)可包括信息生成單元810和具有多聲道解碼器830的多聲道合成單元840。解碼器800可以是解碼器700的另一方面。換言之,信息生成單元810具有與信息生成單元710相同的配置,多聲道解碼器830具有與多聲道解碼器730相同的配置,且多聲道合成單元840可具有與縮減混合處理單元720和多聲道單元730相同的配置。因此,將詳細解釋解碼器700的元件,但將略去解碼器800的元件的細節(jié)。
信息生成單元710可被配置成接收來自編碼器的包括對象參數(shù)的輔助信息和來自用戶界面的混合信息,并生成將被輸出到多聲道解碼器730的多聲道參數(shù)。根據(jù)這一觀點,信息生成單元710具有與前面圖2的信息生成單元210相同的配置。縮減混合處理參數(shù)可對應于用于控制對象增益和對象搖移的參數(shù)。例如,在對象信號位于左聲道和右聲道兩個聲道處的情形中能夠改變對象位置或?qū)ο笤鲆?。在對象信號僅位于左聲道和右聲道之一的情形中,還能夠渲染位于相反位置處的對象信號。為了履行這些情形,縮減混合處理單元720可以是TBT模塊(2x2矩陣運算)。在信息生成單元710可被配置成生成參考圖2描述的ADG以便控制對象增益的情形中,縮減混合處理參數(shù)可包括用于控制對象搖移而非對象增益的參數(shù)。
此外,信息生成單元710可被配置成從HRTF數(shù)據(jù)庫接收HRTF信息,并生成將被輸入到多聲道解碼器730的包括HRTF參數(shù)的額外多聲道參數(shù)。在這種情形中,信息生成單元710可生成在同一子頻帶域中的多聲道參數(shù)和額外的多聲道參數(shù),并相互同步地發(fā)送到多聲道解碼器730。將在子目“3.處理雙耳模式”中解釋包括HRTF參數(shù)的額外多聲道參數(shù)。
縮減混合處理單元720可被配置成接收來自編碼器的音頻信號的縮減混合和來自信息生成單元710的縮減混合處理參數(shù),并利用子頻帶分析濾波器組分解子頻帶域信號??s減混合處理單元720可被配置成利用縮減混合信號和縮減混合處理參數(shù)生成經(jīng)處理的縮減混合信號。在這些處理中,能夠預處理縮減混合信號以便控制對象搖移和對象增益。經(jīng)處理的縮減混合信號可被輸入到多聲道解碼器730以進行擴展混合。
此外,經(jīng)處理的縮減混合信號還可經(jīng)由揚聲器輸出和回放。為了經(jīng)由揚聲器直接輸出經(jīng)處理的信號,縮減混合處理單元720可利用經(jīng)預處理的子頻帶域信號執(zhí)行合成濾波器組并輸出時域PCM信號。能夠通過用戶選擇來選擇直接作為PCM信號輸出還是輸入到多聲道解碼器。
多聲道解碼器730可被配置成利用經(jīng)處理的縮減混合和多聲道參數(shù)生成多聲道輸出信號。當經(jīng)處理的縮減混合信號和多聲道參數(shù)被輸入到多聲道解碼器730中時,多聲道解碼器730可引入延遲。經(jīng)處理的縮減混合信號可在頻域中合成(例如QMF域、混合QMF域等),且多聲道參數(shù)可在時域中合成。在MPEG環(huán)繞標準中,引入用于連接HE-AAC的延遲和同步。因此,多聲道解碼器730可根據(jù)MPEG環(huán)繞標準引入延遲。
將參考圖9至圖13解釋縮減混合處理單元720的配置。
1.3.1縮減混合處理單元的一般情形和特殊情形 圖9是解釋渲染單元的基本概念的示例性框圖。參照圖9,渲染模塊900可被配置成利用N個輸入信號、回放配置和用戶控制生成M個輸出信號。N個輸入信號可對應于對象信號或聲道信號。此外,N個輸入信號可對應于對象參數(shù)或多聲道參數(shù)。渲染模塊900的配置可在圖7的縮減混合處理單元720、前面圖1的渲染單元120和前面圖1的渲染器110a之一中實現(xiàn),這不會對本發(fā)明構成限制。
如果渲染模塊900可被配置成利用N個對象信號直接生成M個聲道信號而不將對應特定聲道的各個對象信號求和,則渲染模塊900的配置可被表示為以下的公式11。
[公式11] C=RO
Ci是第i個聲道信號,Oj是第j個輸入信號,且Rji是將第j個輸入信號映射到第i個聲道的矩陣。
如果將R矩陣分成能量分量E和解相關分量,則公式11可表示如下。
[公式12] C=RO=EO+DO
能夠利用能量分量E控制對象位置,并且能夠利用解相關分量D控制對象擴散。
假設僅第i個輸入信號被輸入以經(jīng)由第j聲道和第k聲道輸出,則公式12可被表示如下。
[公式13] Cjk_i=RiOi αj_i是映射到第j聲道的增益部分,βk_i是映射到第k聲道的增益部分,θ是擴散電平,且D(oi)是解相關輸出。
假設解相關被略去,則可將公式13簡化如下。
[公式14] Cjk_i=RiOi 如果根據(jù)上述方法估計映射到特定聲道的所有輸入的權重值,則能夠通過以下方法獲得每個聲道的權重值。
1)對映射到特定聲道的所有輸入的權重值求和。例如,在輸入1O1和輸入2O2被輸入且輸入聲道對應于左聲道L、中央聲道C和右聲道R的情形中,可獲得總權重值αL(tot)、αC(tot)、αR(tot)如下 [公式15] αL(tot)=αL1 αC(tot)=αC1+αC2 αR(tot)=αR2 其中αL1是映射到左聲道L的輸入1的權重值,αC1是映射到中央聲道C的輸入1的權重值,αC2是映射到中央聲道C的輸入2的權重值,而αR2是映射到右聲道R的輸入2的權重值。
在這種情形中,僅輸入1被映射到左聲道,僅輸入2被映射到右聲道,輸入1和2被一起映射到中央聲道。
2)對映射到特定聲道的所有輸入的權重值求和,然后將該和分到最優(yōu)勢聲道對,并將經(jīng)解相關信號映射到其它聲道用于環(huán)繞效果。在這種情形中,在特定輸入置于左和中央之間的點的情形中優(yōu)勢聲道對可對應于左聲道和中央聲道。
3)估計最優(yōu)勢聲道的權重值,將經(jīng)衰減相關信號給予其它聲道,該值是經(jīng)估計權重值的相對值。
4)使用每個聲道對的權重值,適當?shù)亟M合經(jīng)解相關信號,然后設置成每個聲道的輔助信息。
1.3.2縮減混合處理單元包括對應于2x4矩陣的混合部件的情形 圖10A至10C是圖7所示的縮減混合處理單元的第一實施例的示例性框圖。如上所述,縮減混合處理單元720a的第一實施例(在下文中簡稱為“縮減混合處理單元720a”)可以是渲染模塊900的實現(xiàn)。
首先,假設D11=D21=aD且D12=D22=bD,公式12被簡化如下。
[公式15] 根據(jù)公式15的縮減混合處理單元在圖10A中示出。參照圖10A,縮減混合處理單元720a可被配置成在單聲道信號(m)的情形中繞過輸入信號,并在立體聲輸入信號(L、R)的情形中處理輸入信號。縮減混合處理單元720a可包括解相關部件722a和混合部件724a。解相關部件722a具有解相關器aD和解相關器bD,它們可被配置成解相關輸入信號。解相關部件722a可對應于2x2矩陣?;旌喜考?24a可被配置成將輸入信號和經(jīng)解相關信號映射到各個聲道?;旌喜考?24a可對應于2x4矩陣。
第二,假設D11=aD1、D21=bD1、D12=cD2且D22=dD2,則公式12簡化如下。
[公式15-2] 根據(jù)公式15的縮減混合處理單元在圖10B中示出。參照圖10B,包括兩個解相關器D1、D2的解相關部件722’可被配置成生成解相關信號D1(a*O1+b*O2)、D2(c*O1+d*O2)。
第三,假設D11=D1、D21=0、D12=0且D22=D2,則公式12簡化如下。
[公式15-3] 根據(jù)公式15的縮減混合處理單元在圖10C中示出。參照圖10C,包括兩個解相關器D1、D2的解相關部件722”可被配置成生成經(jīng)解相關信號D1(O1)、D2(O2)。
1.3.2縮減混合處理單元包括對應于2x3矩陣的混合部件的情形 可將以上的公式15表示如下。
[公式16] 矩陣R是2x3矩陣,矩陣O是3x1矩陣,且C是2x1矩陣。
圖11是圖7所示的縮減混合處理單元的第二實施例的示例性框圖。如上所述,縮減混合處理單元720b的第二實施例(在下文中簡稱為“縮減混合處理單元720b”)可以是類似于縮減混合處理單元720a的渲染模塊900的實現(xiàn)。參照圖11,縮減混合處理單元720b可被配置成在單聲道輸入信號(m)的情形中跳過輸入信號,并在立體聲輸入信號(L、R)的情形中處理輸入信號。縮減混合處理單元720b可包括解相關部件722b和混合部件724b。解相關部件722b具有解相關器D,其可被配置成解相關輸入信號O1、O2并輸出經(jīng)解相關信號D(O1+O2)。解相關部件722b可對應于1x2矩陣?;旌喜考?24b可被配置成將輸入信號和經(jīng)解相關信號映射到各個聲道?;旌喜考?24b可對應于2x3矩陣,其在公式6中可被示為矩陣R。
此外,解相關部件722b可被配置成將差信號O1-O2解相關為兩個輸入信號O1、O2的共用信號?;旌喜考?24b可被配置成將輸入信號和經(jīng)解相關共用信號映射到各個聲道。
1.3.3縮減混合處理單元包括具有若干矩陣的混合部件的情形 某些對象信號可以是可聽成像不位于一特定位置的任意位置的類似印象,其可被稱為“空間聲音信號”。例如,音樂廳的掌聲或噪聲可以是空間聲音信號的一個例子??臻g聲音信號需要經(jīng)由所有的揚聲器回放。如果空間聲音信號經(jīng)由所有的揚聲器回放為同一信號,則由于高的信號間相關性(IC)很難感受到信號的空間性。因此,需要將相關信號添加到每個聲道信號的信號。
圖12是圖7所示的縮減混合處理單元的第三實施例的示例性框圖。參照圖12,縮減混合處理單元720c的第三實施例(在下文中簡稱為“縮減混合處理單元720c”)可被配置成利用輸入信號Oi生成空間聲音信號,其可包括帶有N個解相關器的解相關單元722c和混合部件724c。解相關部件722c可具有N個解相關器D1、D2、...、DN,這些解相關器可被配置成對輸入信號Oi進行解相關?;旌喜考?24c可具有N個矩陣Rj、Rk、...、R1,這些矩陣可被配置成利用輸入信號Oi和經(jīng)解相關信號DX(Oi)生成輸出信號Cj、Ck、...、C1。矩陣Rj可表示為如下公式。
[公式17] Cj_i=RjOi Oi是第i輸入信號,Rj是將第i輸入信號Oi映射到第j聲道的矩陣,以及是Cj_i是第j輸出信號。值θj_i是解相關率。
可基于多聲道參數(shù)中所包括的ICC估計值θj_i。此外,混合部件724c可基于經(jīng)由信息生成單元710從用戶界面接收的構成解相關率θj_i的空間信息生成輸出信號,這不對本發(fā)明構成限制。
解相關器的數(shù)目(N)可等于輸出聲道的數(shù)目。另一方面,經(jīng)解相關信號可被添加到由用戶選擇的輸出聲道。例如,能夠?qū)⑻囟臻g聲音信號置于左、右和中央,并經(jīng)由左聲道揚聲器作為空間聲音信號輸出。
1.3.4縮減混合處理單元包括另一個縮減混合部件的情形 圖13是圖7所示的縮減混合處理單元的第四實施例的示例性框圖。如果輸入信號對應于單聲道信號(m),則可將縮減混合處理單元720d的第四實施例(在下文中簡稱為“縮減混合處理單元720d”)配置成繞過??s減混合處理單元720d包括另一個縮減混合部件722d,其可被配置成在輸入信號對應于立體聲信號時將立體聲信號縮減混合成單聲道信號。另一個經(jīng)縮減混合的單聲道(m)用作多聲道解碼器730的輸入。多聲道解碼器730可通過使用單聲道輸入信號來控制對象搖移(尤其是串音)。在這種情形中,信息生成單元710可基于MPEG環(huán)繞標準的5-1-51配置生成多聲道參數(shù)。
此外,如果應用類似上述圖2的藝術縮減混合增益ADG的單聲道縮減混合信號的增益,則能夠更容易地控制對象搖移和對象增益。ADG可由信息生成單元710基于混合信息生成。
2.擴展混合聲道信號并控制對象信號 圖14是根據(jù)本發(fā)明的第二實施例的經(jīng)壓縮音頻信號的比特流結(jié)構的示例性框圖。圖15是根據(jù)本發(fā)明的第二實施例的用于處理音頻信號的裝置的示例性框圖。參照圖14的(a),縮減混合信號α、多聲道參數(shù)β和對象參數(shù)γ被包括在比特流結(jié)構中。多聲道參數(shù)β是用于對縮減混合信號進行擴展混合的參數(shù)。另一方面,對象參數(shù)γ是用于控制對象搖移和對象增益的參數(shù)。參照圖14的(b),縮減混合信號α、默認參數(shù)β’和對象參數(shù)γ被包括在比特流結(jié)構中。默認參數(shù)β’可包括用于控制對象增益和對象搖移的預設信息。預設信息可對應于由編碼器側(cè)的制作者建議的例子。例如,預設信息可描述吉他信號位于左和中央之間的點,且吉他電平被設置成特定音量,此時輸出聲道的數(shù)目被設置成特定聲道。每個幀或特定幀的默認參數(shù)可存在于比特流中。指示用于該幀的默認參數(shù)是否不同于前一幀的默認參數(shù)的標志信息可存在于比特流中。通過將默認參數(shù)包括在比特流中,能夠采取比具有被包括在比特流中的對象參數(shù)的輔助信息更少的比特率。此外,在圖14中略去比特流的首部信息??芍匦掳才疟忍亓鞯捻樞?。
參照圖15,根據(jù)本發(fā)明的第二實施例的用于處理音頻信號的裝置1000(在下文中簡稱為“解碼器1000”)可包括比特流分用器1005、信息生成單元1010、縮減混合處理單元1020和多聲道解碼器1030。分用器1005可被配置成將經(jīng)復用的音頻信號分成縮減混合α、第一多聲道參數(shù)β和對象參數(shù)γ??蓪⑿畔⑸蓡卧?010可被配置成利用對象參數(shù)γ和混合參數(shù)生成第二多聲道參數(shù)。混合參數(shù)包括指示第一多聲道信息β是否被應用到經(jīng)處理的縮減混合的模式信息。模式信息可對應于用于由用戶選擇的信息。根據(jù)模式信息,信息生成信息1020決定是發(fā)送第一多聲道參數(shù)β還是第二多聲道參數(shù)。
縮減混合處理單元1020可被配置成根據(jù)混合信息中所包括的模式信息確定處理方案。此外,縮減混合處理單元1020可被配置成根據(jù)所確定的處理方案處理縮減混合α。然后縮減混合處理單元1020將經(jīng)處理的縮減混合發(fā)送到多聲道解碼器1030。
多聲道解碼器1030可被配置成接收第一多聲道參數(shù)β或第二多聲道參數(shù)。在默認參數(shù)β’被包括在比特流中的情形中,多聲道解碼器1030可使用默認參數(shù)β’而不是多聲道參數(shù)β。
然后,多聲道解碼器1030可被配置成利用經(jīng)處理的縮減混合信號和所接收的多聲道參數(shù)生成多聲道輸出。多聲道解碼器1030可具有與前面的多聲道解碼器730相同的配置,這不會對本發(fā)明構成限制。
3.雙耳處理 多聲道解碼器能夠以雙耳模式操作。這借助于首部相關傳遞函數(shù)(HRTF)濾波實現(xiàn)了耳機上的多聲道印象。對于雙耳解碼側(cè),縮減混合信號和多聲道參數(shù)與提供給解碼器的HRTF濾波器結(jié)合使用。
圖16是根據(jù)本發(fā)明的第三實施例的用于處理音頻信號的裝置的示例性框圖。參照圖16,根據(jù)第三實施例的用于處理音頻信號的裝置(在下文中簡稱為“解碼器1100”)可包括信息生成單元1110、縮減混合處理器單元1120和帶有同步匹配部件1130a的多聲道解碼器1130。
信息生成單元1110可具有與圖7的信息生成單元700相同的配置,且生成動態(tài)HRTF。縮減混合處理單元1120可具有與圖7的縮減混合處理單元720相同的配置。類似于上述元件,多聲道解碼器1130除同步匹配部件1130a以外與前面元件的情形相同。因此,信息生成單元1110、縮減混合處理單元1120和多聲道解碼器1130的細節(jié)將被略去。
動態(tài)HRTF描述對應于HRTF方位角和仰角的對象信號和虛擬揚聲器信號之間的關系,它是根據(jù)實時用戶控制的時間相關信息。
在多聲道解碼器包括所有的HRTF濾波器組的情形中,動態(tài)HRTF可對應于HRTF濾波器系數(shù)本身、參數(shù)化系數(shù)信息和索引信息中的一個。
無論動態(tài)HRTF的種類如何都需要將動態(tài)HRTF信息與縮減混合信號幀相匹配。為了將HRTF信息與縮減混合信息相匹配,能夠提供如下的三種方案 1)將標志信息插入每個HRTF信息和比特流縮減混合信號,然后基于所插入的標志信息使HRTF與比特流縮減混合信號相匹配。在該方案中,將標志信息包括在MPEG環(huán)繞標準中的輔助字段中是適當?shù)摹?蓪酥拘畔⒈硎緸闀r間信息、計數(shù)信息、索引信息等。
2)將HRTF信息插入比特流的幀。在該方案中,可能設置指示當前幀是否對應于默認模式的模式信息。如果應用描述當前幀的HRTF信息等于前一幀的HRTF信息的默認模式,則能夠降低HRTF信息的比特率。
2-1)此外,可能定義指示是否已經(jīng)發(fā)送當前幀的HRTF信息的傳輸信息。如果應用描述當前幀的HRTF信息等于已發(fā)送的幀的HRTF信息的傳輸信息,則還可能降低HRTF信息的比特率。
3)提前發(fā)送若干HRTF信息,然后發(fā)送指示哪個HRTF在按每個幀發(fā)送的HRTF信息中的標識信息。
此外,在HRTF系數(shù)突然改變的情形中,可產(chǎn)生失真。為了減少這種失真,執(zhí)行系數(shù)或渲染信號的平滑是適當?shù)摹?br>
4.渲染 圖17是根據(jù)本發(fā)明的第四實施例的用于處理音頻信號的裝置的示例性框圖。根據(jù)本發(fā)明的第四實施例用于處理音頻信號的裝置1200(在下文中簡稱為“處理器1200”)可包括編碼器側(cè)1200A處的編碼器1210和解碼器側(cè)1200B處的渲染單元1220和合成單元1230。編碼器1210可被配置成接收多聲道對象信號并生成音頻信號的縮減混合和輔助信息。渲染單元1220可被配置成接收來自編碼器1210的輔助信息、來自設備設置或用戶界面的回放配置和用戶控制,并利用輔助信息、回放配置和用戶控制生成渲染信息。合成單元1230可被配置成利用渲染信息和從編碼器1210接收的縮減混合信號合成多聲道輸出信號。
4.1應用效果模式 效果模式是用于再混合或重構信號的模式。例如,可存在實況模式、俱樂部樂隊模式、卡拉OK模式等。效果模式信息可對應于由制作者、其它用戶等生成的混合參數(shù)集。如果應用效果模式信息,則終端用戶完全不需要控制對象搖移和對象增益,因為用戶可選擇預定的效果模式信息之一。
生成效果模式信息的兩種方法可加以區(qū)分。首先,效果模式信息由編碼器1200A生成并發(fā)送到解碼器1200B是可能的。第二,效果模式信息在解碼器側(cè)自動生成。兩種方法的細節(jié)將描述如下。
4.1.1將效果模式信息發(fā)送到解碼器側(cè) 效果模式信息可由制作者在編碼器1200A處生成。根據(jù)該方法,解碼器1200B可被配置成接收包括效果模式信息的輔助信息并輸出用戶界面,通過該用戶界面用戶可選擇效果模式信息之一。解碼器1200B可被配置成基于所選擇的效果模式信息生成輸出聲道。
此外,在編碼器1200A縮減混和信號以便提高對象信號的質(zhì)量的情形中,聽眾按原樣收聽縮減混合信號是不適當?shù)摹H欢?,如果將效果模式信息應用到解碼器1200B中,則將縮減混合信號回放為最大質(zhì)量是可能的。
4.1.2在解碼器側(cè)生成效果模式信息 可在解碼器1200B處生成效果模式信息。解碼器1200B可被配置成在縮減混合信號中搜索適當?shù)男ЧJ叫畔?。然后解碼器1200B可被配置成選擇所搜索到的效果模式之一自身(自動調(diào)節(jié)模式)或使用戶能夠選擇它們之一(用戶選擇模式)。然后解碼器1200B可被配置成獲得包括在輔助信息中的對象信息(對象數(shù)、樂器名稱等),并基于所選擇的效果模式信息和對象信息控制對象。
此外,能夠一次全部地控制類似的對象。例如,與節(jié)奏相關聯(lián)的樂器在“節(jié)奏印象模式”的情形中是類似的對象。一次全部地控制表示同時控制每個對象而不是利用相同的參數(shù)控制對象。
此外,能夠基于解碼器設置和設備環(huán)境(包括不管是耳機還是揚聲器)控制對象。例如,在設備的音量設置低的情形中,可強調(diào)對應于主旋律的對象,在設備的音量設置高的情形中,可抑制對應于主旋律的對象。
4.2編碼器側(cè)輸入信號的對象類型 輸入到編碼器1200A的輸入信號可被分成如下三種類型。
1)單聲道對象 單聲道對象是最一般的對象類型。通過將對象簡單相加來合成內(nèi)部縮減混合信號是可能的。利用對象增益與可以是用戶控制和所提供的信息之一的對象搖移合成內(nèi)部縮減混合信號也是可能的。在生成內(nèi)部縮減混合信號時,利用對象特性、用戶輸入和設置有對象的信息中的至少一個生成渲染信息也是可能的。
在存在外部縮減混合信號的情形中,提取和發(fā)送指示外部縮減混合和對象之間的關系的信息是可能的。
2)立體聲對象(立體聲聲道對象) 類似于前面的單聲道對象的情形,通過將對象簡單相加來合成內(nèi)部縮減混合信號是可能的。利用對象增益與可以是用戶控制和所提供的信息之一的對象搖移合成內(nèi)部縮減混合信號也是可能的。在縮減混合信號對應于單聲道信號的情形中,編碼器1200A使用轉(zhuǎn)換成單聲道信號的對象以生成縮減混合信號是可能的。在這種情形中,在轉(zhuǎn)換成單聲道信號時能夠提取并傳送與對象相關聯(lián)的信息(例如在各個時間-頻率域中的搖移信息)。類似前面的單聲道對象,在生成內(nèi)部縮減混合信號時,利用對象特性、用戶輸入和設置有對象的信息中的至少一個生成渲染信息也是可能的。類似于前面的單聲道對象,在存在外部縮減混合信號的情形中,提取和發(fā)送指示外部縮減混合和對象之間的關系的信息是可能的。
3)多聲道對象 在多聲道對象的情形中,能夠執(zhí)行利用單聲道對象和立體聲對象描述的上述方法。此外,能夠輸入多聲道對象作為一種形式的MPEG環(huán)繞。在這種情形中,能夠利用對象縮減混合聲道生成基于對象的縮減混合(例如SAOC縮減混合),并使用多聲道信息(例如MPEG環(huán)繞中的空間信息)來生成多聲道信息和渲染信息。因此,因為以MPEG環(huán)繞形式存在的多聲道對象不必利用面向?qū)ο蟮木幋a器(例如SAOC編碼器)進行解碼和編碼,所以可能減少計算量。如果在此情形中對象縮減混合對應于立體聲且基于對象的縮減混合(例如SAOC縮減混合)對應于單聲道,則可能應用關于立體聲對象描述的上述方法。
4)用于可變類型對象的發(fā)送方案 如上所述,可變類型的對象(單聲道、立體聲和多聲道對象)可從編碼器1200A發(fā)送到解碼器1200B??扇缦绿峁┛勺冾愋蛯ο蟮陌l(fā)送方案 參照圖18,當縮減混合包括多個對象時,輔助信息包括每個對象的信息。例如,當多個對象包括第N單聲道對象(A)、第N+1對象(B)的左聲道和第N+1對象(C)的右聲道時,輔助信息包括3個對象(A、B、C)的信息。
輔助信息可包括相關性標志信息,指示對象是否是立體聲或多聲道對象的一部分,例如單聲道對象、立體聲對象的一個聲道(L或R)等。例如,如果存在單聲道對象,則相關性標志信息是“0”,如果存在立體聲對象的一個聲道則相關性標志信息是“1”。當連續(xù)發(fā)送立體聲對象的一部分和立體聲對象的另一部分時,立體聲對象的另一部分的相關性標志信息可以是任意值(例如“0”、“1”或任意)。此外,可不發(fā)送立體聲對象的其它部分的相關性標志信息。
此外,在多聲道對象的情形中,多聲道對象的一個部分的相關性標志信息可以是描述多聲道對象的數(shù)目的值。例如,在5.1聲道對象的情形中,5.1聲道的左聲道的相關性標志信息可以是“5”,5.1聲道的其它聲道的相關性標志信息可以是“0”或不被發(fā)送。
4.3對象屬性 對象可具有如下的三類屬性 a)單個對象 單個對象可被配置為源。在生成縮減混合信號和再現(xiàn)時,能夠?qū)⒁粋€參數(shù)應用到單個對象用于控制對象搖移和對象增益?!耙粋€參數(shù)”不僅可表示關于所有時間/頻率域的一個參數(shù),還可表示用于每個時間/頻率槽的一個參數(shù)。
b)成組對象 單個對象可被配置為兩個以上的源。能夠?qū)⒁粋€參數(shù)應用到成組對象用于控制對象搖移和對象增益,盡管成組對象作為至少兩個源輸入。如下將參考圖19解釋成組對象的細節(jié)參照圖19,編碼器1300包括編組單元1310和縮減混合單元1320。編組單元1310可被配置成基于編組信息在所輸入的多對象輸入中編組至少兩個對象。編組信息可由制作者在編碼器側(cè)生成??s減混合單元1320可被配置成利用編組單元1310生成的編組對象生成縮減混合信號??s減混合單元1320可被配置成生成用于編組對象的輔助信息。
c)組合對象 組合對象是與至少一個源組合的對象。一次全部地控制對象搖移和增益但保持組合對象之間的關系不變是可能的。例如,在鼓的情形中,控制鼓但保持大鼓、銅鑼和鐃鈸(symbol)之間的關系不變是可能的。例如當大鼓位于中心點且符號位于左側(cè)點時,在鼓向右移動時將大鼓置于右側(cè)點且將符號置于中心點和右側(cè)點之間的點是可能的。
可將組合對象的關系信息發(fā)送到解碼器。另一方面,解碼器可利用組合對象提取關系信息。
4.4分級地控制對象 能夠分級地控制對象。例如在控制鼓之后,能夠控制鼓的每個子元件。為了分級地控制對象,提供如下的三個方案 a)UI(用戶界面) 可僅顯示代表元素而不顯示所有對象。如果用戶選擇代表元素,則顯示所有對象。
b)對象編組 在編組對象以便表示代表元素之后,控制代表元素以控制編組為代表元素的所有對象是可能的??蓪⒕幗M過程中提取的信息發(fā)送到解碼器。同樣,可在解碼器中生成編組信息??苫诟鱾€元素的預定控制信息執(zhí)行一次全部地應用控制信息。
c)對象配置 使用上述組合對象是可能的。關于組合對象的元素的信息可在編碼器或解碼器中生成。關于來自編碼器的元素的信息可被發(fā)射為與關于組合對象的信息不同的形式。
對于本領域技術人員而言,可對本發(fā)明作出各種修改和變化而不背離本發(fā)明的精神和范圍是顯而易見的。因此,本發(fā)明旨在涵蓋本發(fā)明的更改和變化,只要它們落在所附權利要求及其等效方案的范圍內(nèi)即可。
工業(yè)實用性 因此,本發(fā)明適用于編碼和解碼音頻信號。
權利要求
1.一種用于處理音頻信號的方法,其包括
接收縮減混合信號、對象信息和混合信息;
利用所述對象信息和所述混合信息生成縮減混合處理信息;
利用所述縮減混合處理信息處理所述縮減混合信號;以及
利用所述對象信息和所述混合信息生成多聲道信息,
其中所述縮減混合信號的聲道數(shù)等于經(jīng)處理的縮減混合信號的聲道數(shù)。
2.如權利要求1所述的方法,其特征在于,所述對象信息包括對象電平信息和對象相關性信息中的至少一個。
3.如權利要求1所述的方法,其特征在于,如果所述縮減混合的聲道數(shù)對應于至少2,則所述縮減混合處理信息對應于用于控制對象搖移的信息。
4.如權利要求1所述的方法,其特征在于,所述縮減混合處理信息對應于用于控制對象增益的信息。
5.如權利要求1所述的方法,其特征在于,在所述縮減混合信號對應于立體聲信號的情形中,通過2x2模塊執(zhí)行處理所述縮減混合信號。
6.如權利要求1所述的方法,其特征在于,在所述縮減混合信號對應于立體聲信號的情形中,所述經(jīng)處理的縮減混合信號的一個聲道對應于所述縮減混合信號的一個聲道乘以第一增益與所述縮減混合信號的另一個聲道乘以第二增益的合并。
7.如權利要求1所述的方法,其特征在于,還包括
利用所述經(jīng)處理的縮減混合信號生成時域中的輸出信號。
8.如權利要求7所述的方法,其特征在于,所述縮減混合信號對應于通過子頻帶分析濾波器組生成的子頻帶域信號。
9.如權利要求1所述的方法,其特征在于,所述多聲道信息包括聲道電平信息和聲道相關性信息中的至少一個。
10.如權利要求1所述的方法,其特征在于,還包括
利用所述經(jīng)處理的縮減混合信號和所述多聲道信息生成多聲道信號。
11.如權利要求1所述的方法,其特征在于,所述混合信息是利用對象位置信息和回放配置信息中的至少一個生成的。
12.如權利要求1所述的方法,其特征在于,接收所述縮減混合信號作為廣播信號。
13.如權利要求1所述的方法,其特征在于,在數(shù)字介質(zhì)上接收所述縮減混合信號。
14.一種用于處理音頻信號的方法,其包括
接收縮減混合信號、對象信息和混合信息;
將所述縮減混合信號分解成子頻帶信號;
利用所述對象信息和所述混合信息生成縮減混合處理信息;以及
利用所述縮減混合處理信息處理所述子頻帶信號;
利用所述經(jīng)處理的子頻帶信號生成輸出信號,
其中所述縮減混合信號的聲道數(shù)等于輸出信號數(shù),且所述輸出信號對應于時域信號。
15.一種有指令存儲于其上的計算機可讀介質(zhì),所述指令在由處理器執(zhí)行時使得所述處理器執(zhí)行以下操作,包括
接收縮減混合信號、對象信息和混合信息;
利用所述對象信息和所述混合信息生成縮減混合處理信息;
利用所述縮減混合處理信息處理所述縮減混合信號;以及
利用所述對象信息和所述混合信息生成多聲道信息,
其中所述縮減混合信號的聲道數(shù)等于經(jīng)處理的縮減混合信號的聲道數(shù)。
16.一種有指令存儲于其上的計算機可讀介質(zhì),所述指令在由處理器執(zhí)行時使得所述處理器執(zhí)行以下操作,包括
接收縮減混合信號、對象信息和混合信息;
將所述縮減混合信號分解成子頻帶信號;
利用所述對象信息和所述混合信息生成縮減混合處理信息;以及
利用所述縮減混合處理信息處理所述子頻帶信號;
利用所述經(jīng)處理的子頻帶信號生成輸出信號,
其中所述縮減混合信號的聲道數(shù)等于輸出信號數(shù),且所述輸出信號對應于時域信號。
17.一種用于處理音頻信號的裝置,其包括
信息生成單元,其接收對象信息和混合信息,利用所述對象信息和所述混合信息生成縮減混合處理信息,并利用所述對象信息和所述混合信息生成多聲道信息;以及
縮減混合處理單元,其接收縮減混合信號和所述縮減混合處理信息,并利用所述縮減混合處理信息處理縮減混合信號;
其中所述縮減混合信號的聲道數(shù)等于經(jīng)處理的縮減混合信號的聲道數(shù)。
18.一種用于處理音頻信號的裝置,其包括
信息生成單元,其接收縮減混合信號、對象信息和混合信息,所述信息生成單元利用所述對象信息和所述混合信息生成縮減混合處理信息;以及
縮減混合處理單元,其將所述縮減混合信號分解成子頻帶信號,利用所述縮減混合處理信息處理所述子頻帶信號,并利用經(jīng)處理的子頻帶信號生成輸出信號,
其中所述縮減混合信號的聲道數(shù)等于輸出信號數(shù),且所述輸出信號對應于時域信號。
19.一種用于處理音頻信號的方法,其包括
利用多個對象信號獲取縮減混合信號;
利用所述多個對象信號和所述縮減混合信號生成表示所述多個對象信號之間的關系的對象信息,以及
發(fā)送所述縮減混合信號和所述對象信息,
其中允許所述縮減混合信號成為經(jīng)處理的縮減混合信號,以便于使所述縮減混合信號的聲道數(shù)等于所述經(jīng)處理的縮減混合信號的數(shù)目。
全文摘要
本發(fā)明公開了一種用于處理音頻信號的方法,其包括接收縮減混合信號、對象信息和混合信息;利用對象信息和混合信息生成縮減混合處理信息;利用縮減混合處理信息處理縮減混合信號;以及利用對象信息和混合信息生成多聲道信息,其中縮減混合信號的聲道數(shù)等于經(jīng)處理的縮減混合信號的聲道數(shù)。
文檔編號G10L19/00GK101568958SQ200780045268
公開日2009年10月28日 申請日期2007年12月6日 優(yōu)先權日2006年12月7日
發(fā)明者吳賢午, 鄭亮源 申請人:Lg電子株式會社