多聲道環(huán)繞聲的個(gè)性化解碼的制作方法

文檔序號(hào)：2830403閱讀：512來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：多聲道環(huán)繞聲的個(gè)性化解碼的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及對(duì)多聲道環(huán)繞音頻比特流的解碼。
背景技術(shù)：
長(zhǎng)期以來(lái)，在全世界的電影院中，多聲道環(huán)繞音頻系統(tǒng)將電影觀眾置于電影場(chǎng)景的音頻空間的中心，這些電影場(chǎng)景正在觀眾的面前被播放并且正給觀眾真實(shí)而令人信服的"身臨其境"的感覺。這種音頻技術(shù)已經(jīng)作為家庭環(huán)繞影院系統(tǒng)進(jìn)入普通人的家中，并且現(xiàn)在正在他們自己的客廳中給他們提供"身臨其境"的感受。
該音頻技術(shù)將被使用的下一領(lǐng)域包括移動(dòng)無(wú)線單元或者終端，特別是包括諸如蜂窩電話和PDA這樣的小單元。由于這些單元具有小尺寸的顯示器，所以環(huán)繞聲的融入式特性(immersive nature)甚至更重要。然而，將這種技術(shù)遷移到移動(dòng)單元并不是小事。主要障礙包括
1、在無(wú)線移動(dòng)通道中，可用的比特率在很多情況下低。
2、移動(dòng)終端的處理能力常常有限。
3、小的移動(dòng)終端通常只有兩個(gè)微型揚(yáng)聲器和耳塞或耳機(jī)。特別是對(duì)于諸如蜂窩電話這樣的移動(dòng)終端而言，這意味著用于移動(dòng)終端
的環(huán)繞聲解決方案不得不采用比在杜比數(shù)字5.1系統(tǒng)中所使用的384kbhs/s低很多的比特率。由于處理能力有限，移動(dòng)終端的解碼器必須在計(jì)算方面被優(yōu) 化，并且由于移動(dòng)終端的揚(yáng)聲器配置，該環(huán)繞聲必須通過(guò)耳塞或耳機(jī)來(lái)輸送。通過(guò)耳機(jī)或耳塞輸送多聲道環(huán)繞聲的標(biāo)準(zhǔn)方式是對(duì)每個(gè)揚(yáng)聲器信號(hào)執(zhí)行3D音頻或雙聲道立體聲渲染(binaural rendering)。
通常，在3D音頻渲染中，使用音頻場(chǎng)景的模型，并且每個(gè)引入的單聲道信號(hào)通過(guò)一組濾波器進(jìn)行濾波，這些濾波器模型化由人的頭部、軀干和耳朵所產(chǎn)生的變換。這些濾波器被稱為具有與頭相關(guān)傳遞函數(shù)(HRTF)的與頭相關(guān)濾波器(HRF， head related filter),并且如果進(jìn)行適當(dāng)?shù)脑O(shè)計(jì)，這些濾波器給出良好的3D音頻場(chǎng)景感知。
圖1的圖解出了一種根據(jù)杜比數(shù)字5.1系統(tǒng)對(duì)音頻信號(hào)進(jìn)行完整的3D音頻渲染的方法。根據(jù)杜比數(shù)字5.1系統(tǒng)的六個(gè)多聲道信號(hào)是
-右環(huán)繞(SR)，
-右(R)，
-中(C)，
-低頻(LFE)，
-左(L)
-左環(huán)繞(SL)
在圖1所示的實(shí)例中，中信號(hào)和低頻信號(hào)被組合成一個(gè)信號(hào)。然后，需要五個(gè)不同的濾波器H/、 //c、 i/f和/^，以便實(shí)現(xiàn)與頭相關(guān)濾波的這種方法。SR信號(hào)被輸入到濾波器/7f和《，R信號(hào)被輸入到濾波器/ff和W ， C和LFE信號(hào)被共同地輸入到濾波器7/c ， L信號(hào)被輸入到濾波器//,和7/f ，并且SL信號(hào)被輸入到濾波器/^和《。從濾波器//，、仏f、 w、 w禾口&s
輸出的信號(hào)在右求和元件1R中被求和，以給出意圖被提供給右側(cè)耳機(jī)(未示出)的信號(hào)。從濾波器i^、 //f、 //c、 //f和///輸出的信號(hào)在左求和元件 1L中被求和，以給出意圖被提供給左側(cè)耳機(jī)(未示出)的信號(hào)。
這樣的渲染的3D感知方面的質(zhì)量取決于HRF有多接近地模型化或表示在聽眾正在收聽時(shí)與,他自己的頭相關(guān)的濾波。因此，有利的是，如果希望得到好的或者非常好的質(zhì)量，則HRF能夠針對(duì)每個(gè)聽眾被適配和被個(gè)性化。該適配和個(gè)性化步驟可以包括模型化、測(cè)量和通常取決于用戶的調(diào)諧，以便改善所感知到的3D音頻場(chǎng)景的質(zhì)量。
目前的現(xiàn)有技術(shù)的標(biāo)準(zhǔn)化多通道音頻編解碼器要求大量的帶寬或高比特率，以便達(dá)到可接受的質(zhì)量，并且因此，這些要求阻止將這樣的編解碼器用于諸如無(wú)線移動(dòng)流的業(yè)務(wù)中。例如，即使杜比數(shù)字5.1系統(tǒng)(AC-3編解碼器)與AAC多通道編解碼器相比具有非常低的復(fù)雜度，對(duì)于類似的質(zhì)量，該杜比數(shù)字5J系統(tǒng)仍然要求更高的比特率。AAC多通道編解碼器和AC-3編解碼器這兩種編解碼器直到今天仍然不可用于無(wú)線移動(dòng)領(lǐng)域中，因?yàn)檫@兩種編解碼器對(duì)計(jì)算復(fù)雜度和比特率的要求都很高。
已經(jīng)開發(fā)出新的基于雙耳線索編碼(binaural cue coding)原理的參量多通道編角軍碼器(parametric multi-channel codec )。最近標(biāo)準(zhǔn)化的參量立體聲工具是用于編碼立體聲的低復(fù)雜獻(xiàn)高質(zhì)量參量技術(shù)的好實(shí)例。在MPEG中，參量立體聲到多聲道編碼的擴(kuò)展目前正以空間音頻編碼(Spatial Audio coding) 為名而被標(biāo)準(zhǔn)化，并且其也被稱為MPEG-環(huán)繞。
可以根據(jù)圖2的框圖對(duì)參量多聲道編碼的原理進(jìn)行解釋和理解，圖2示出了一般情況。參量環(huán)繞編碼器3 (也被稱為多通道參量環(huán)繞編碼器)接收到多聲道復(fù)合音頻信號(hào)，該多聲道復(fù)合音頻信號(hào)包括各個(gè)信號(hào)A(n)至XN(n)，其中N是輸入通道的數(shù)目。如上所述，對(duì)于杜比數(shù)字5.1環(huán)繞系統(tǒng)而言，N=6。然后，該編碼器3在降混單元(down-mixing unit) 5中形成復(fù)合的降混后的信號(hào)，該復(fù)合的降混后的信號(hào)包含各個(gè)降混后的信號(hào)z"n)至ZM(n)。降混后的通道數(shù)目M (M<N)取決于所要求的或所允許的最大比特率、所要求的質(zhì)量以及M-通道音頻編碼器7的可用性。編碼過(guò)程的一個(gè)關(guān)鍵方面是降混后的復(fù) 合信號(hào)得自多聲道輸入信號(hào)，該降混后的復(fù)合信號(hào)通常是立體聲信號(hào)但是也可以是單聲道信號(hào)，并且在音頻編碼器7中被壓縮用于通過(guò)無(wú)線通道9傳送的信號(hào)是這個(gè)降混后的復(fù)合信號(hào)而不是原始的多聲道信號(hào)。參量編碼器3并且特別是其降混單元5能夠執(zhí)行降混過(guò)程，以致其創(chuàng)建單聲道的或立體聲的降混中的多聲道信號(hào)的或多或少真正的等效物。該參量環(huán)繞編碼器還包括空間參數(shù)估計(jì)單元9，該空間參數(shù)估計(jì)單元9由輸入信號(hào)x"n)至順(n)計(jì)算出線索或空間參數(shù)，這些線索或空間參數(shù)以某種方式可以被說(shuō)成描述降混過(guò)程或其中所做的假設(shè)。壓縮后的音頻信號(hào)從M-通道音頻編碼器被輸出并且也是主信號(hào)，該壓縮后的音頻信號(hào)與構(gòu)成輔助信息(side information)的空間參數(shù)一起通過(guò)諸如無(wú)線接口的接口 11被傳送到接收側(cè)，該接收側(cè)在這里所考慮的情況下通常是移動(dòng)終端。
可替換地，該降混可以由某個(gè)外部單元來(lái)供給，諸如由使用藝術(shù)家風(fēng)格降混(Artistic Downmix)的單元來(lái)供給。
在接收側(cè)，互補(bǔ)的參量環(huán)繞解碼器13包括音頻解碼器15，并且應(yīng)該被構(gòu)造來(lái)能夠基于在發(fā)送側(cè)使用的降混算法的知識(shí)以及與壓縮后的多聲道信號(hào) 并行被接收到的編碼后的空間參量或線索來(lái)產(chǎn)生最好的可能的多聲道解碼。該音頻解碼器15產(chǎn)生信號(hào)烏(")至K打)，這些信號(hào)烏(")至K,O應(yīng)該盡可能與發(fā)送側(cè)的信號(hào)z"n)至ZM(n)對(duì)以。這些信號(hào)和空間參數(shù)一起被輸入到空
間合成單元17，該空間合成單元17產(chǎn)生輸出信號(hào)烏(")至％( )，這些輸出信號(hào)應(yīng)該盡可能地與發(fā)送側(cè)的原始輸入信號(hào)x"n)至w(n)類似。輸出信號(hào) 乓(")至iV(")可以被輸入到如圖1中所示的雙聲道立體聲渲染系統(tǒng)。
很明顯，根據(jù)接口 11上通常相對(duì)低的發(fā)送通道帶寬，將會(huì)出現(xiàn)信息的丟
失，因此在接收側(cè)的信號(hào)為(")至4 (")以及名(打)至4 (打)不能與他們?cè)诎l(fā) 送側(cè)的配對(duì)信號(hào)相同。即使接收側(cè)的信號(hào)并不是其配對(duì)信號(hào)的非常真實(shí)的等效信號(hào)，這些接收側(cè)的信號(hào)也可以是足夠好的等效物。
通常，這樣的環(huán)繞編碼過(guò)程獨(dú)立于用于在圖2中的音頻編碼器7和音頻解碼器15這些單元中所使用的所發(fā)送的通道的壓縮算法。該編碼過(guò)程可以使用多種高性能壓縮算法中的任何算法，這些高性能壓縮算法諸如AMR-WB+、 MPEG-1第三層(Layer m)、 MPEG4 AAC或者是MPEG-4高效AAC，并且該編碼過(guò)程甚至可以使用PCM。
通常，上述操作是在變換過(guò)的信號(hào)域中完成的，變換諸如是傅立葉變換或MDCT。如果在單元9和17中的空間參數(shù)估計(jì)和合成{吏用與在音頻編碼器
7 (也被稱為核心編解碼器)中所使用的相同變換類型，那么這是特別有益的。圖3是有效的參量音頻編碼器的詳細(xì)框圖。N-通道離散時(shí)間輸入信號(hào)(用向量形式XN(n)表示)首先在變換單元21中被變換到頻域，并且通常被變換到給出信號(hào)氣v沐樹)的變換域。索引k是變換系數(shù)的索引，或者如果選擇頻域變換，那么索引k就是子帶的索引。索引m表示十中抽一的(decimated)時(shí) 域索引，該十中抽一的時(shí)域索引也與可能通過(guò)重疊幀的輸入信號(hào)相關(guān)。
此后，信號(hào)在降混單元5中被降混，以產(chǎn)生M-通道降混信號(hào)ZM(k,m)，
其中1VKN。空間模型參數(shù)向量PN(k,m)序列在估計(jì)單元9中被估計(jì)。這可以
以開環(huán)形式或者是閉環(huán)形式來(lái)完成。
空間參數(shù)包括代表環(huán)繞聲感受的心理學(xué)聲學(xué)線索。例如，在MPEG環(huán)繞編碼器中，這些參數(shù)包括在等效于ELD、 ITD和IC線索的電平、相位和相干性的通道間差異，以捕獲多聲道音頻信號(hào)相對(duì)于所發(fā)送的降混后的信號(hào) ZM(k,m)(或者如果在閉環(huán)中，貝U為解碼后的信號(hào)l,汰的)的空間圖像。線索PN(lMn)可以以非常緊湊的形式諸如在空間參數(shù)量化單元23中被編碼，從而產(chǎn) 生信號(hào)1#,)，其后跟隨的是空間參數(shù)編碼器25。 M-通道音頻編碼器7產(chǎn) 生主比特流，該主比特流在復(fù)用器27中與由參數(shù)編碼器產(chǎn)生的空間輔助信息一起被復(fù)用。來(lái)自復(fù)用器的復(fù)用后的信號(hào)被發(fā)送至嗾收側(cè)的解復(fù)用器29，在解復(fù)用器29中，輔助信息和主比特流如在圖4的框圖中所看到的那樣被恢復(fù)。
在接收側(cè)，主比特流被解碼來(lái)使用接收到的空間參數(shù)合成高質(zhì)量的多通道表示。主比特流首先在M-通道音頻解碼器31中被解碼，解碼后的信號(hào) If沐w)從該M-通道音頻解碼器31被輸入到空間合成單元17。含有空間參數(shù) 的空間輔助信息由解復(fù)用器29提取并被提供給空間參數(shù)解碼器33，該空間參數(shù)解碼器33產(chǎn)生解碼后的參數(shù)艮w(&一并將這些參數(shù)發(fā)送給合成單元17?？?間合成單元產(chǎn)生信號(hào)^化附;，該信號(hào)愛" 被提供給信號(hào)F/T變換單元35，從而變換到時(shí)域，以產(chǎn)生信號(hào)U力，也就是多聲道解碼信號(hào)。
多聲道環(huán)繞聲的3D音頻渲染可以通過(guò)如下方式被輸送給移動(dòng)終端用戶
使用有效的參量環(huán)繞解碼器來(lái)首先獲得多個(gè)環(huán)繞聲聲道，例如使用如上參考圖4所述的多通道解碼器。因此，圖1中所示的系統(tǒng)被用于合成雙聲道立體聲的3D音頻渲染過(guò)的多聲道信號(hào)。該操作在圖5的示意圖中被示出。
也已完成其中己在子帶域中執(zhí)行的空間或3D音頻濾波的工作。在C.A. Lanciani和R.W. Schafer在1999年3月21日至23日于美國(guó)亞拉巴馬州的奧本舉行的第31屆系統(tǒng)理論研討會(huì)上發(fā)表的"Application of Head-related Transfer Functions to MPEG Audio Signals"中，公開了 MPEG編碼后的單聲道信號(hào)如何通過(guò)在子帶域中執(zhí)行HR濾波操作而被空間化。在A.B.Tommi、 M. Ement和J.M. Pernaux在2004年10月27日至29日于美國(guó)馬里蘭州學(xué)院公園舉行的第三屆移動(dòng)和普適多媒體國(guó)際會(huì)議論文集第229-235頁(yè)發(fā)表的 "Efficient Method for Multiple Compressed Audio Streams Spatialization"中，公幵了多個(gè)單獨(dú)進(jìn)行MPEG編碼的單聲道信號(hào)可以通過(guò)在子帶域中進(jìn)行HR濾波操作而被空間化。該解決方案是基于HR濾波器的特殊實(shí)施方案，其中所有的HR濾波器被模型化為數(shù)個(gè)預(yù)定的基本濾波器的線性組合。
3D音頻渲染的應(yīng)用有很多并且包括游戲、移動(dòng)TV顯示、使用諸如3GPP MBMS或DVB-H的標(biāo)準(zhǔn)、聽音樂會(huì)、觀看電影以及普通的多媒體業(yè)務(wù)，這些應(yīng)用包含多聲道音頻分量。
上述的渲染多聲道環(huán)繞聲的方法盡管由于其允許要被提供給無(wú)線移動(dòng)單元的一整套新業(yè)務(wù)而變得引人注目，但是這些方法還是有很多缺陷首先，這樣的渲染的計(jì)算需求受到抑制，因?yàn)榻獯a和3D渲染都必須并
行且實(shí)時(shí)地執(zhí)行。即使參量多通道解碼器的復(fù)雜度與全波形多通道解碼器相比是低的，但參量多通道解碼器的復(fù)雜度仍然十分高并且至少要高于簡(jiǎn)單的立體聲解碼器。空間解碼的合成階段具有與所編碼的通道的數(shù)目至少成比例
的復(fù)雜度。此外，3D渲染的濾波操作同樣與通道的數(shù)目成比例。
第二個(gè)缺點(diǎn)包括為了存儲(chǔ)中間的解碼過(guò)的通道而需要的臨時(shí)存儲(chǔ)器。由于在3D渲染的第二階段需要這些中間的解碼過(guò)的通道，所以這些中間的解碼過(guò)的通道實(shí)際上被緩存了。
最后，通常作為語(yǔ)音和音頻編解碼器的部分的可能的后處理步驟可能會(huì) 影響這樣的3D音頻渲染的質(zhì)量。對(duì)于在擴(kuò)音器的環(huán)境中進(jìn)行收聽而言，這些后處理是有益的。然而，這些后處理引入了嚴(yán)重的非線性的相位失真，該相位失真不均衡地分布在多個(gè)通道上并且可能影響3D音頻渲染質(zhì)量。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種解碼參量多聲道環(huán)繞音頻比特流的有效且通用的方法。
本發(fā)明的另一目的是提供一種移動(dòng)終端，其中參量多聲道環(huán)繞音頻比特流能夠有效地被解碼來(lái)產(chǎn)生適于被提供給移動(dòng)終端中的或者連接到移動(dòng)終端的收聽設(shè)備的一個(gè)或多個(gè)信號(hào)。
在解碼參量多聲道環(huán)繞音頻比特流的方法中，使用了諸如解碼多聲道環(huán) 繞聲和特別是雙聲道立體聲解碼多聲道環(huán)繞聲的概念。
在這樣的方法中，由參量多通道解碼器所接收到的空間參數(shù)可以被變換為一組新的空間參數(shù)，使用這組新的空間參數(shù)以便獲得對(duì)多聲道環(huán)繞聲的不同解碼。
變換后的參數(shù)也可以是個(gè)性化的空間參數(shù)，并且可以通過(guò)將接收到的空間參數(shù)和與用戶頭相關(guān)濾波器的表示進(jìn)行組合而獲得。
該個(gè)性化的空間參數(shù)也可以通過(guò)將接收到的空間參數(shù)、與用戶頭相關(guān)濾波器的表示以及由用戶確定的一組附加渲染參數(shù)進(jìn)行組合而獲得。
該組附加渲染參數(shù)的子集可以是交互式參數(shù)，這些交互式參數(shù)響應(yīng)于在收聽過(guò)程期間可以被改變的用戶選擇來(lái)設(shè)置。
10這組附加渲染參數(shù)可以是與時(shí)間相關(guān)的參數(shù)。
這里所描述的方法可以允許一種簡(jiǎn)單而有效的方式來(lái)渲染環(huán)繞聲，其通過(guò)移動(dòng)設(shè)備上的參量編碼器進(jìn)行編碼。主要的優(yōu)點(diǎn)包括降低了復(fù)雜度并且在使用移動(dòng)設(shè)備通過(guò)耳機(jī)進(jìn)行收聽時(shí)增加了交互性。
本發(fā)明的另外的目的和優(yōu)點(diǎn)將在隨后的說(shuō)明中被闡述，并且從這些說(shuō)明中，一部分是顯而易見的，或者可以通過(guò)本發(fā)明的實(shí)踐而認(rèn)識(shí)到。本發(fā)明的目的和優(yōu)點(diǎn)可以通過(guò)特別是在隨附的^i利要求中指出的方法、過(guò)程、手段以及組合來(lái)實(shí)現(xiàn)和獲得。

雖然本發(fā)明的新穎性特征已經(jīng)在隨附的^l利要求書中詳細(xì)描述，對(duì)上述的本發(fā)明及其他特征的全面理解(無(wú)論是組織結(jié)構(gòu)上和還是內(nèi)容上)可以通過(guò)考慮下面參考附圖呈現(xiàn)的非限制性實(shí)施例的具體描述來(lái)獲得，并且通過(guò)考慮該具體描述將更好地被理解，其中
圖1是框圖，該框圖示出了對(duì)5.1音頻信號(hào)的可能的3D音頻或雙聲道立
體聲渲染，
圖2是對(duì)參量多聲道編碼和解碼系統(tǒng)的原理的高級(jí)說(shuō)明，圖3是對(duì)參量多通道音頻編碼器的詳細(xì)說(shuō)明，圖4是對(duì)參量多通道音頻解碼器的詳細(xì)說(shuō)明，圖5是解碼后的多聲道信號(hào)的3D音頻渲染(現(xiàn)有技術(shù))，圖6是多聲道環(huán)繞聲的個(gè)性化的雙聲道立體聲解碼，圖7是MPEG-環(huán)繞解碼器中的空間音頻處理的廣義圖，圖8是用于個(gè)性化雙聲道立體聲解碼的本發(fā)明的實(shí)施例，圖9是示出組合參數(shù)的示意圖，并且圖10是示出收聽測(cè)試結(jié)果的圖解。
具體實(shí)施例方式
圖6的框圖示出了如在參量聲音解碼器13中執(zhí)行的對(duì)參量多聲道環(huán)繞音頻比特流進(jìn)行解碼的方法中的主要步驟。在解復(fù)用器29中，主比特流和空間輔助信息被恢復(fù)。該主比特流首先在M-通道音頻解碼器31中被解碼，解碼后的信號(hào)^汰辦〗從該M-通道音頻解碼器31被輸入到個(gè)性化的空間合成單元 17、。含有空間參數(shù)的空間輔助信息從解復(fù)用器29被提供給產(chǎn)生解碼后的參妙"&一的空間參數(shù)解碼器33。解碼后的空間參數(shù)被輸入到參數(shù)組合單元 37，該參數(shù)組合單元37還可接收其他參數(shù)信息，特別是接收個(gè)性化的參數(shù)和 HRF信息。該組合單元產(chǎn)生新的參數(shù)，這些新的參數(shù)特別是可以是個(gè)性化的空間參數(shù)并被輸入到合成單元17'。該空間合成單元產(chǎn)生被提供給信號(hào)F/T變換單元35的信號(hào)^化，)，從而變換回時(shí)域。時(shí)域信號(hào)被提供給例如其中正在運(yùn)行參量環(huán)繞解碼器的移動(dòng)終端41的耳機(jī)39。由組合單元37所接收到的附加信息和參數(shù)可以由參數(shù)單元43獲得，該參數(shù)單元43例如可以被構(gòu)造來(lái)在收聽時(shí)間期間諸如通過(guò)壓下移動(dòng)終端或單元41的某個(gè)適當(dāng)?shù)逆I來(lái)交互式地接收用戶輸入。
現(xiàn)在將描述如在MPEG環(huán)繞多通道解碼器中實(shí)施的方法，參照ISO/IEC 14496-3:200X/PDAM 4 (MPEG Surround, N7530, 2005年10月，尼斯，法
國(guó))的文本。然而，很明顯該方法同樣能夠在其他環(huán)境下很好地被使用。
MPEG環(huán)繞解碼器中的處理可以通過(guò)如在圖7的圖解中所示出的兩個(gè)矩陣乘法來(lái)限定，這些乘法被示為包括相應(yīng)的信號(hào)被輸入到其中的矩陣單元Ml 和M2(也被分別稱為預(yù)去相關(guān)器(predecorrelator)矩陣單元和混合矩陣單元)。第一矩陣乘法形成去相關(guān)單元或去相關(guān)器Di、 D2、...的輸入信號(hào)，而第二矩陣乘法基于降混輸入和去相關(guān)器的輸出形成輸出信號(hào)。上述操作針對(duì)每個(gè)混合子帶完成，混合子帶由混合子帶索引k進(jìn)行索引。
在下文中，索引n被用于多個(gè)時(shí)隙，k被用于對(duì)混合子帶進(jìn)行索引，而l 被用于對(duì)參數(shù)集進(jìn)行索引。然后，對(duì)輸入通道處理以形成輸出通道可以被描
述為
其中，^^r是將一定數(shù)目的輸入通道映射到一定數(shù)目的進(jìn)入去相關(guān)器的通道
的二維矩陣，并且針對(duì)每個(gè)時(shí)隙n和每個(gè)混合子帶k被定義，而J^f是將一
定數(shù)目的預(yù)處理過(guò)的通道映射到一定數(shù)目的輸出通道的二維矩陣，并且針對(duì)
每個(gè)時(shí)隙n和每個(gè)混合子帶k被定義。根據(jù)是使用去相關(guān)過(guò)的信號(hào)的時(shí)域時(shí) 間整形(TP)還是使用去相關(guān)過(guò)的信號(hào)的時(shí)間包絡(luò)整形(TES),矩陣Mf成為兩個(gè)版本，這兩個(gè)版本被表示為Ms—卿和M《勿。
第一矩陣單元M1的輸入向量;c"對(duì)應(yīng)于從音頻解碼器31獲得的圖6的
解碼過(guò)的信號(hào)l/仇柳)。被輸入到混合矩陣單元M2的向量『《是去相關(guān)器 Db D2、...的輸出4、 d2、...、第一矩陣乘法(也就是預(yù)去相關(guān)器矩陣單元 M》的輸出和殘留信號(hào)re^、 res2、...的組合，并且該向量『"針對(duì)每個(gè)時(shí)隙 n和每個(gè)混合子帶k被定義。輸出向量,^具有基本上對(duì)應(yīng)于如上所述的信號(hào) L、 SL、 R、 SR、 C和LFE的分量lf、 ls、 rf、 rs、 cf和lfe。這些分量必須被變換到時(shí)域并且以某種方式被渲染，以被提供給所使用的耳機(jī)，也就是說(shuō)它們不能直接被使用。
一種用于3D音頻渲染并且特別是個(gè)性化解碼的方法使用包含"由模型重構(gòu)"塊的解碼器，該"由模型重構(gòu)"塊在混合濾波組(filter-bank)域中取諸如個(gè) 人3D音頻濾波器的表示的外部輸入并且利用該外部輸入將模型參數(shù)的衍生參數(shù)變換為其他模型參數(shù)，這允許直接在變換域中產(chǎn)生兩個(gè)雙聲道立體聲信號(hào)，使得與圖6中的變換單元35相比只有雙聲道立體聲的2聲道信號(hào)必須被變換到離散的時(shí)域。
基于MPEG環(huán)繞的個(gè)性化雙聲道立體聲解碼的實(shí)施例在圖8的圖解中被示出。，
第三矩陣Mf (象征性地被示為參數(shù)修改矩陣M3)在該實(shí)例中是從6 個(gè)聲道到兩個(gè)聲道的線性映射，這兩個(gè)聲道被用作通過(guò)變換單元35到用戶耳機(jī)39的輸入。該矩陣乘法可以被寫為
幼^ Mf ,
也可以完成附加的雙聲道立體聲后處理并且在如在此所述的方法的范圍之外。這可以進(jìn)一步包括左聲道和右聲道的后處理。
通過(guò)線性化(結(jié)合律)，清楚的是矩陣Mf和Mf可以被一起組合來(lái)
形成存儲(chǔ)在新的混合矩陣Mf =M^Mf中的一組新參數(shù)。這個(gè)組合操作
在圖9中被示出，其中對(duì)應(yīng)于新矩陣的乘法單元被示為混合矩陣單元M4并且兩個(gè)矩陣的乘法在乘，單元45中進(jìn)行。
新的混合矩陣Mf具有的取決于比特流參數(shù)和用戶預(yù)定義的與頭相關(guān)
濾波器HRF以及取決于其他動(dòng)態(tài)渲染參數(shù)(如果期望的話)的參數(shù)。
對(duì)于只有與頭相關(guān)濾波器的情況，矩陣M^可以被寫為<formula>formula see original document page 14</formula>
該矩陣元素是!個(gè)不同的濾波器，這些濾波器被用來(lái)實(shí)現(xiàn)與頭相關(guān)濾波，
并且如上所述被表示為z/f 、 //c、 //f和/^。在這種情況下，濾波器被表示在混合域中。表示濾波器從時(shí)域到頻域或變換域的這樣的操作在信號(hào)處
理文獻(xiàn)中是公知的。這里，形成矩陣^tf的濾波器是混合子帶索引k的函數(shù) 并且類似于圖1中所示的那些濾波器。
應(yīng)該注意到，對(duì)于這種簡(jiǎn)單的情況，矩陣Mf和時(shí)隙索引n無(wú)關(guān)。如果用戶想要通過(guò)耳機(jī)39體驗(yàn)另一虛擬揚(yáng)聲器配置，那么與頭相關(guān)濾波器也可能動(dòng)態(tài)地改變。
在另一實(shí)施例中，用戶可能想要交互地改變他的空間位置。到這時(shí)意味著則用戶可能想要體驗(yàn)如何接近音樂會(huì)場(chǎng)景(如果例如在播放現(xiàn)場(chǎng)音樂會(huì))
或者遠(yuǎn)離音樂會(huì)場(chǎng)景。通過(guò)為參數(shù)修改矩陣^tf增加延遲線可以容易地實(shí)現(xiàn)
這一點(diǎn)。用戶動(dòng)作可能是動(dòng)態(tài)的，并且在那種情況下，矩陣Mf取決于時(shí)隙索引n。
在又一實(shí)施例中，用戶可能想要體驗(yàn)不同的空間感受。在這種情況下，
回響和其他音效可以有效地被引入矩陣^1^ 。
與用戶交互性有關(guān)的、矩陣^"f的動(dòng)態(tài)特性可以得益于兩個(gè)用戶動(dòng)作之間的插值。參數(shù)插值的方法是眾所周知的'，并且在這里不被說(shuō)明。
如已闡述的那樣，參數(shù)修改矩陣Mf可以包含附加渲染參數(shù)，這些附加渲染參數(shù)是可交互的并且響應(yīng)于用戶輸入而改變。
上述本發(fā)明的特定實(shí)施例已經(jīng)被實(shí)施和被測(cè)試為MPEG標(biāo)準(zhǔn)化成果的部分，用于對(duì)MPEG環(huán)繞解碼器的雙聲道立體聲擴(kuò)展。在圖10的圖解中示出了由獨(dú)立組執(zhí)行的多個(gè)收聽測(cè)試的測(cè)試結(jié)果。可以清楚地看到，根據(jù)本發(fā)明的特定實(shí)施例進(jìn)行的雙聲道立體聲渲染的感知到的質(zhì)量對(duì)于大部分測(cè)試信號(hào) 而言好于根據(jù)如圖5中所示的標(biāo)準(zhǔn)3D音頻后處理方法所獲得的質(zhì)量。
雖然在這里描述的實(shí)施例涉及用于雙聲道立體聲耳機(jī)收聽的解碼，但是對(duì)于本領(lǐng)域中的技術(shù)人員顯而易見的是，在不背離參數(shù)映射和組合的基本思想的情況下，將這些實(shí)施例也應(yīng)用于揚(yáng)聲器收聽或其他空間配置。
雖然在這里對(duì)本發(fā)明的特定實(shí)施例進(jìn)行了說(shuō)明和描述，但是應(yīng)該認(rèn)識(shí)到在不背離本發(fā)明的精神和范圍的情況下，本領(lǐng)域技術(shù)人員容易想到可被設(shè)想
14的大量其他實(shí)施例和大量的附加優(yōu)點(diǎn)、修改和變化。因此，本發(fā)明在其較寬的方面并不限于在此示出和描述的特定細(xì)節(jié)、代表性裝置和所示的實(shí)例。因此，在不背離如隨附的權(quán)利要求及其等效物所限定的一般發(fā)明概念的精祌和范圍的情況下，可以進(jìn)^1各種修改。因此，應(yīng)理解的是，隨附的權(quán)利要求意圖覆蓋諸如落在本發(fā)明的真正精神和范圍之內(nèi)的所有修改和變化。在不背離本發(fā)明的精神和范圍的情況下，應(yīng)該想象到大量的其他實(shí)施例。
權(quán)利要求
1. 一種解碼由參量多通道解碼器接收到的參量多聲道環(huán)繞音頻比特流的方法，該方法包含以下步驟-解復(fù)用所述比特流，以形成主比特流和空間輔助信息，-解碼該空間輔助信息，以形成第一組空間參數(shù)，-修改該第一組空間參數(shù)，以形成第二組空間參數(shù)，-基于或者使用該第二組空間參數(shù)，由所述主比特流合成要被提供給收聽設(shè)備的環(huán)繞音頻信號(hào)。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，在修改的步驟中，第二組空間參數(shù)是通過(guò)將第一組空間參數(shù)和與用戶頭相關(guān)濾波器的表示相組合來(lái) 獲得的，使得新參數(shù)被個(gè)性化并且環(huán)繞音頻信號(hào)也被個(gè)性化。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，在組合的步驟中，所接收到的空間參數(shù)以及與用戶頭相關(guān)濾波器的表示也與用戶確定的附加渲染參數(shù)相組合。
4. 根據(jù)權(quán)利要求3所述的方法，其特征在于，所述附加渲染參數(shù)是響應(yīng)于用戶選擇的交互式參數(shù)集。
5. 根據(jù)權(quán)利要求3所述的方法，其特征在于，所述附加渲染參數(shù)是與時(shí)間有關(guān)的。
6. —種將表示聲音的數(shù)字?jǐn)?shù)據(jù)發(fā)送到移動(dòng)單元的方法，該數(shù)字?jǐn)?shù)據(jù)包括第一數(shù)目(N)的第一通道，每個(gè)第一通道特別是表示具有特殊特征的聲音，諸如從特定方向和在特定頻帶中接收到的聲音，該方法包含以下步驟-分析所述數(shù)字?jǐn)?shù)據(jù)，以確定聲音的參數(shù)特征，所述參數(shù)特別是被確定來(lái)表示由每個(gè)第一通道中的數(shù)字?jǐn)?shù)據(jù)表示的聲音之間的空間關(guān)系，-將第一通道的數(shù)字?jǐn)?shù)據(jù)彼此降混，以產(chǎn)生第二數(shù)目(M)的第二通道中的數(shù)字?jǐn)?shù)據(jù)，該第二數(shù)目小于第一數(shù)目(M<N)，-將第二通道中的數(shù)字?jǐn)?shù)據(jù)和將參數(shù)以無(wú)線方式發(fā)送到移動(dòng)單元， -在移動(dòng)單元中接收第二通道中的數(shù)字?jǐn)?shù)據(jù)和接收參數(shù)， -基于接收到的參數(shù)，變換接收到的第二通道中的數(shù)字?jǐn)?shù)據(jù)，以產(chǎn)生適于被渲染到移動(dòng)單元的聲音發(fā)射器的變換后的數(shù)字?jǐn)?shù)據(jù)，并且將變換后的數(shù)字?jǐn)?shù)據(jù)渲染到移動(dòng)單元的聲音發(fā)射器，其特征在于在變換的步驟之前修改接收到的參數(shù)以形成用于變換步驟中的新參數(shù)的附加步驟。
7. —種用于解碼參量多聲道環(huán)繞音頻比特流的參量環(huán)繞解碼器，該比特流包括指示了在由解碼器接收到的比特流的通道中所表示的聲音特性的空間參數(shù)，其特征在于修改單元，用于修改所述空間參數(shù)，以形成在合成中使用的新的空間參數(shù)，使得獲得對(duì)原始的多聲道環(huán)繞聲的不同解碼。
8. 根據(jù)權(quán)利要求7所述的參量環(huán)繞解碼器，其特征在于，在修改空間參數(shù)時(shí)，修改單元被設(shè)置來(lái)使用與用戶頭相關(guān)濾波器的表示，使得新參數(shù)被個(gè)性化并且最后所得到的環(huán)繞音頻信號(hào)也被個(gè)性化。
9. 根據(jù)權(quán)利要求8所述的參量環(huán)繞解碼器，其特征在于，在修改空間參數(shù)時(shí)，修改單元被設(shè)置來(lái)還使用由用戶確定的附加渲染參數(shù)。
10. 根據(jù)權(quán)利要求7所述的參量環(huán)繞解碼器，其特征在于，修改單元被設(shè)置來(lái)以與時(shí)間有關(guān)的方式修改空間參數(shù)。
11. 一種包含參量環(huán)繞解碼器的移動(dòng)終端，該參量環(huán)繞解碼器用于解碼由移動(dòng)單元接收到的參量多聲道環(huán)繞音頻比特流，該比特流包括指示在所接收到的比特流解碼器的通道中所表示的聲音特性的空間參數(shù)，其特征在于，該參量環(huán)繞解碼器包括用于修改所述空間參數(shù)的修改單元，以形成在合成中使用的新的空間參數(shù)，使得獲得對(duì)原始的多聲道環(huán)繞聲的不同解碼。
12. 根據(jù)禾又利要求11所述的移動(dòng)終端，其特征在于，在修改空間參數(shù)時(shí)，修改單元被設(shè)置來(lái)使用與用戶頭相關(guān)濾波器的表示，使得新參數(shù)被個(gè)性化并且最后所得到的環(huán)繞音頻信號(hào)也被個(gè)性化。
13. 根據(jù)權(quán)利要求12所述的移動(dòng)終端，其特征在于，在修改空間參數(shù)時(shí)，修改單元被設(shè)置來(lái)還使用由用戶確定的或者用戶輸入的附加渲染參數(shù)，諸如通過(guò)壓下移動(dòng)單元的一個(gè)或多個(gè)鍵來(lái)輸入。
14. 根據(jù)權(quán)利要求12所述的移動(dòng)終端，其特征在于，修改單元被設(shè)置來(lái)根據(jù)來(lái)自用戶的輸入交互式地修改所述空間參數(shù)。
15. 根據(jù)權(quán)利要求7所述的移動(dòng)終端，其特征在于，修改單元被設(shè)置來(lái) 以與時(shí)間有關(guān)的方式修改空間參數(shù)。
16. —種解碼參量多聲道環(huán)繞音頻比特流的方法，該參量多聲道環(huán)繞音頻比特流包括第一數(shù)目(N)的音頻通道，所述比特流由參量多通道解碼器接收，該方法包括以下步驟-解復(fù)用所述比特流，以形成主比特流和空間輔助信息，-解碼該主比特流，以形成針對(duì)所述多個(gè)音頻通道的單獨(dú)比特流，-解碼該空間輔助信息，以形成第一組空間參數(shù)，-基于或者使用該第一組空間參數(shù)，由所述單獨(dú)的比特流合成第二數(shù)目 (M)的音頻通道中的適于被提供給收聽設(shè)備的環(huán)繞音頻信號(hào)，其中第二數(shù)目(M)小于第一數(shù)目(N)。
17. 根據(jù)權(quán)利要求16所述的方法，其特征在于，第二數(shù)目(M)等于2。
18. 根據(jù)權(quán)利要求16所述的方法，其特征在于，第一數(shù)目(N)等于5 或6。
全文摘要
在多通道解碼器(13)中接收參量多聲道環(huán)繞音頻比特流。接收到的空間參數(shù)在組合單元(37)中被變換為一組新的空間參數(shù)，該組新的空間參數(shù)被使用，以便獲得對(duì)多聲道環(huán)繞聲的解碼，該多聲道環(huán)繞聲并不是原始輸入多聲道環(huán)繞信號(hào)的簡(jiǎn)單等效物，而是例如可以通過(guò)基于從單元(43)獲得的與用戶頭相關(guān)濾波器的表示進(jìn)行變換來(lái)個(gè)性化。這樣的個(gè)性化后的空間參數(shù)也可以通過(guò)將接收到的空間參數(shù)和與用戶頭相關(guān)濾波器的表示與一組附加渲染系數(shù)相組合而獲得，所述附加渲染系數(shù)例如由用戶交互式地來(lái)確定并且因此是與時(shí)間有關(guān)的。
文檔編號(hào)G10L19/008GK101433099SQ200780001908
公開日2009年5月13日申請(qǐng)日期2007年1月5日優(yōu)先權(quán)日2006年1月5日
發(fā)明者A·塔爾布, E·卡爾森申請(qǐng)人:艾利森電話股份有限公司

完整全部詳細(xì)技術(shù)資料下載