一種聲音對(duì)象的編碼方法
【專利摘要】本發(fā)明公開(kāi)了一種聲音對(duì)象的編碼方法,包括:獲取聲場(chǎng)空間的聲音對(duì)象;以聲場(chǎng)空間水平切面中心、與錄音師雙耳連線中心等高的位置為原點(diǎn)建立三維坐標(biāo)系;將聲音對(duì)象的位置軌跡以幀為單位劃分,每幀分為若干塊;確定聲音對(duì)象第i塊的位置坐標(biāo)為(x(i),y(i),z(i));確定聲音對(duì)象的作用區(qū)域?yàn)椋é?,θ,γ),其中φ為聲音?duì)象和原點(diǎn)連線在xoy平面上的投影與x軸的夾角、范圍[0,2π),θ為聲音對(duì)象和原點(diǎn)連線與z軸的夾角,γ是錐面張開(kāi)大小的、定義為錐面母線和中軸線的夾角,范圍[0,π/2]。本發(fā)明提供的聲音對(duì)象的編碼方法,將聲音對(duì)象的坐標(biāo)(x、y、z)和有效作用區(qū)域(φ,θ,γ)統(tǒng)一到一個(gè)坐標(biāo)系統(tǒng),實(shí)現(xiàn)更高效率的空間表示和更好的聲場(chǎng)效果。
【專利說(shuō)明】
一種聲音對(duì)象的編碼方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及聲音編碼技術(shù)領(lǐng)域,具體涉及一種聲音對(duì)象的編碼方法。
【背景技術(shù)】
[0002] 隨著計(jì)算能力和網(wǎng)絡(luò)的快速發(fā)展,在電影、電視、音樂(lè)、游戲、虛擬現(xiàn)實(shí)和網(wǎng)絡(luò)視頻 等應(yīng)用領(lǐng)域,能表現(xiàn)真實(shí)三維聲場(chǎng)的音頻錄制、縮混編輯、編碼、解碼、渲染和回放技術(shù),有 著重要的應(yīng)用價(jià)值。"全景聲"是對(duì)三維聲場(chǎng)的形象描述。
[0003] 目前,MPEG推出了MPEG Η的三維聲編碼技術(shù),Dolby公司推出了Atmos全景聲編碼 技術(shù),都在傳統(tǒng)多聲道信號(hào)編碼的基礎(chǔ)上,提出了聲音對(duì)象編碼的概念。其中,Dolby Atmos 采用直接記錄聲音對(duì)象的三維運(yùn)動(dòng)軌跡的方式,對(duì)聲音對(duì)象的三維坐標(biāo)(x、y、z)進(jìn)行編碼, 并且對(duì)聲音對(duì)象的渲染和回放方式,劃分為9個(gè)矩形區(qū)域。MPEG Η則不直接對(duì)聲音對(duì)象編 碼,而是采用參數(shù)立體聲的編碼技術(shù),將多個(gè)聲音混合成一個(gè)單聲道信號(hào),并對(duì)每個(gè)聲音對(duì) 象的空間感知信息(相位、強(qiáng)度和相關(guān)性)編碼;在解碼時(shí),先解碼單聲道和信號(hào),再利用聲 音對(duì)象的空間感知信息,恢復(fù)出每個(gè)聲音對(duì)象。
[0004] 在高質(zhì)量應(yīng)用場(chǎng)合,如電影等領(lǐng)域,Dolby Atmos能夠獲得比MPEG Η更高的聲音質(zhì) 量。但是Dolby Atmos的空間坐標(biāo)體系、坐標(biāo)表示方法、聲音對(duì)象坐標(biāo)編碼方法、聲音對(duì)象分 區(qū)表示方法都存在編碼效率低、聲音表現(xiàn)力差和聲音制作不方便等局限。
[0005] DolbyAtmos在描述聲場(chǎng)時(shí),將坐標(biāo)原點(diǎn)定于前方左側(cè)屏幕揚(yáng)聲器高度位置,從原 點(diǎn)到右墻為X軸,從原點(diǎn)到后墻為Y軸,從原點(diǎn)到房頂為Z軸;同時(shí),將房間劃分為左側(cè)屏幕揚(yáng) 聲器區(qū)域、中間屏幕揚(yáng)聲器區(qū)域、右側(cè)屏幕揚(yáng)聲器區(qū)域、左墻揚(yáng)聲器區(qū)域、右墻揚(yáng)聲器區(qū)域、 后墻左側(cè)揚(yáng)聲器區(qū)域、后墻右側(cè)揚(yáng)聲器區(qū)域、左房頂揚(yáng)聲器區(qū)域和右房頂揚(yáng)聲器區(qū)域等九 個(gè)區(qū)域。以如上的位置坐標(biāo)和區(qū)域劃分來(lái)編碼聲音對(duì)象。
[0000] DolbyAtmos的坐標(biāo)原點(diǎn)定義和區(qū)域是分離的,對(duì)點(diǎn)聲源、面聲源和擴(kuò)散聲源等聲 音對(duì)象的表達(dá)效率不高。另外,Do 1 by Atmos的揚(yáng)聲器區(qū)域和實(shí)際聲音對(duì)象的有效作用區(qū)域 不是等價(jià)關(guān)系,后者是實(shí)際物理聲場(chǎng)的更準(zhǔn)確描述。
[0007] 從聲音編碼效率的角度看,一般來(lái)說(shuō)在表達(dá)完整的信息的前提下力爭(zhēng)用更少的碼 流,從而達(dá)到更高的編碼效率。現(xiàn)有的坐標(biāo)定義方法是用一個(gè)固定的比特?cái)?shù)來(lái)對(duì)坐標(biāo)進(jìn)行 編碼,比如DolbyAtmos就是將位置坐標(biāo)的映射到單位立方體中,得到一個(gè)范圍在[0,1]的小 數(shù),然后用12比特來(lái)儲(chǔ)存這個(gè)無(wú)符號(hào)小數(shù)。這樣編碼的結(jié)果是無(wú)論位置坐標(biāo)是否變化都要 用12比特來(lái)存儲(chǔ),從而產(chǎn)生了大量的碼流的浪費(fèi)。實(shí)際上,聲音對(duì)象的位置大多變化緩慢, 在相鄰幀或相鄰塊之間的位置坐標(biāo)數(shù)據(jù)間存在較大冗余。
[0008] 從聲音表現(xiàn)力來(lái)看,現(xiàn)有的空間區(qū)域劃分都是采用的固定劃分的方式,例如 DolbyAtmos將空間劃分為左側(cè)屏幕揚(yáng)聲器區(qū)域、中間屏幕揚(yáng)聲器區(qū)域、右側(cè)屏幕揚(yáng)聲器區(qū) 域、左墻揚(yáng)聲器區(qū)域、右墻揚(yáng)聲器區(qū)域、后墻左側(cè)揚(yáng)聲器區(qū)域、后墻右側(cè)揚(yáng)聲器區(qū)域、左房頂 揚(yáng)聲器區(qū)域和右房頂揚(yáng)聲器區(qū)域等九個(gè)區(qū)域。這樣對(duì)于聲音對(duì)象的定位就缺乏彈性,可選 擇的余地較少,從而使聲音表現(xiàn)不夠靈活。
【發(fā)明內(nèi)容】
[0009] 發(fā)明目的:針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種聲音對(duì)象的編碼方法,實(shí)現(xiàn)更高 效率的空間表示和更好的聲場(chǎng)效果。
[0010] 技術(shù)方案:本發(fā)明所述的聲音對(duì)象的編碼方法,包括:
[0011] 獲取聲場(chǎng)空間的聲音對(duì)象;
[0012] 以聲場(chǎng)空間水平切面中心、與錄音師雙耳連線中心等高的位置為原點(diǎn)建立三維坐 標(biāo)系;
[0013] 將聲音對(duì)象的位置軌跡以幀為單位劃分,每幀分為若干塊;
[0014] 確定聲音對(duì)象第i塊的位置坐標(biāo)為(x(i),y(i),z(i));
[0015] 位置坐標(biāo)(x,y,z)映射為(pID,Ax,Ay,Az),pID為象限標(biāo)識(shí)符,Ax、Ay、Az為位置坐 標(biāo)的絕對(duì)值。
[0016] 所述聲音對(duì)象的作用區(qū)域?yàn)椋é?,θ,?),其中φ為聲音對(duì)象和原點(diǎn)連線在xoy平面 上的投影與X軸的夾角、范圍[0,2π),Θ為聲音對(duì)象和原點(diǎn)連線與z軸的夾角,γ是描述錐面 張開(kāi)大小的、定義為錐面母線和中軸線的夾角,范圍[0,V2]。
[0017] 進(jìn)一步完善上述技術(shù)方案,所述聲場(chǎng)空間采用歸一化坐標(biāo),位置坐標(biāo)絕對(duì)值A(chǔ)x、 Ay、Az的取值范圍為[0,1]。
[00?8] 進(jìn)一步地,所述象限標(biāo)識(shí)符pID與(X,y,z)的符號(hào)位信息(signb (X),signb (y), signb(z))相對(duì)應(yīng),其中signb(x)是取符號(hào)位運(yùn)算signb(x) = 0,當(dāng)x> = 0;signb(x) = 1,當(dāng)x <0〇
[0019] 進(jìn)一步地,所述聲音對(duì)象采用1024樣本為一幀,每幀分為4塊或2塊。
[0020] 有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn):本發(fā)明提供的一種聲場(chǎng)空間的坐標(biāo)定 義方法,并引入了聲音對(duì)象有效作用區(qū)域,并用錐形表示,將聲音對(duì)象的坐標(biāo)(x、y、z)和有 效作用區(qū)域(Φ,θ,γ )統(tǒng)一到一個(gè)坐標(biāo)系統(tǒng),實(shí)現(xiàn)更高效率的空間表示和更好的聲場(chǎng)效果, 點(diǎn)源可以僅用三維坐標(biāo)值表示,面源不僅需要三維坐標(biāo)值,還需要區(qū)域信息,更有效的表示 點(diǎn)源聲音對(duì)象、面源聲音對(duì)象,實(shí)現(xiàn)更高效率的空間表示和更好的聲場(chǎng)效果,更加完善的三 維聲場(chǎng);編碼效率高、聲音表現(xiàn)力好且聲音制作方便。
[0021] 而本發(fā)明提出了一種新的劃分方式,以對(duì)象與原點(diǎn)的連線為中軸來(lái)得到一個(gè)圓 錐,圓錐的張角可調(diào),圓錐所籠罩的區(qū)域就是對(duì)象的有效作用區(qū)域?,F(xiàn)有的區(qū)域劃分是從揚(yáng) 聲器的角度出發(fā)對(duì)揚(yáng)聲器的分布進(jìn)行區(qū)域劃分,而本發(fā)明是從對(duì)象的角度出發(fā)劃分出對(duì)象 的有效作用區(qū)域,有利于錄音師定義自己理想的有效作用區(qū)域,而在進(jìn)行對(duì)象呈現(xiàn)時(shí)可以 根據(jù)實(shí)際聲場(chǎng)的揚(yáng)聲器布置和所采用的呈現(xiàn)算法來(lái)靈活地決定揚(yáng)聲器的取舍,這樣形成的 區(qū)域劃分將使得對(duì)聲音對(duì)象的重建更加具有表現(xiàn)力。
[0022] 從聲音的制作的角度來(lái)看,通過(guò)靈活的定義了聲音對(duì)象的位置以及聲場(chǎng)空間的區(qū) 域劃分,在聲音制作的環(huán)節(jié)上能夠方便地在傳統(tǒng)的3D立體聲基礎(chǔ)上隨意添加聲音對(duì)象,使 得無(wú)論錄音還是聲音制作的環(huán)節(jié)都充滿了靈活性。
【附圖說(shuō)明】
[0023] 圖1為本發(fā)明的揚(yáng)聲器的區(qū)域劃分示意圖。
【具體實(shí)施方式】
[0024] 下面結(jié)合附圖對(duì)本發(fā)明技術(shù)方案進(jìn)行詳細(xì)說(shuō)明。
[0025] 實(shí)施例1:以一個(gè)立方體來(lái)描述聲場(chǎng)空間為例,典型應(yīng)用是揚(yáng)聲器布置于立方體的 邊界面。聲音對(duì)象的空間坐標(biāo)定義:將坐標(biāo)原點(diǎn)定義為水平切面的中心、高度與錄音師監(jiān)聽(tīng) 時(shí)耳朵齊平的位置,并令X軸指向右側(cè)(墻),y軸指向前方(通常為屏幕),Z軸垂直指向上方 (房頂)。
[0026] 對(duì)聲場(chǎng)空間采用歸一化坐標(biāo)表示,X軸、y軸和z軸的最大絕對(duì)坐標(biāo)值為l,z軸較短 一側(cè)為地面,其歸一化絕對(duì)坐標(biāo)值為a(a〈l ),則此聲場(chǎng)空間的8個(gè)坐標(biāo)為:
[0027] (1,1,1)--表示區(qū)域前方右上角;
[0028] (-1,1,1) 表不區(qū)域前方左上角;
[0029] (1,1,-a)--表示區(qū)域前方右下角;
[0030] (_l,l,_a) 表不區(qū)域前方左下角;
[0031] (1,-1,1) 表不區(qū)域后方右上角;
[0032] (-1,-1,1) 表不區(qū)域后方左上角;
[0033] (l,_l,_a) 表不區(qū)域后方右下角;
[0034] (_l,-l,_a)--表不區(qū)域后方左下角。
[0035] 聲音對(duì)象的位置軌跡編碼以幀為單位劃分,每幀進(jìn)一步分為若干塊。為和壓縮編 碼兼容,采用1024個(gè)樣本為一幀:48kHz采樣頻率時(shí),每個(gè)塊為256個(gè)樣本,時(shí)間間隔為 5.3ms; 96kHz采樣頻率時(shí),每個(gè)塊為512個(gè)樣本,時(shí)間間隔為5.3ms。第i塊的某一聲音對(duì)象的 位置坐標(biāo)表示為(x(i),y(i),z(i)),i = l、2、3、4。聲音對(duì)象的位置坐標(biāo)(x,y,z)可以映射為 用四個(gè)量(PID,Ax,Ay,Az)來(lái)描述,即象限標(biāo)識(shí)符p ID和位置坐標(biāo)的絕對(duì)值A(chǔ)x、Ay、Az (取值范 圍為[0,1])。
[0036] 聲音對(duì)象的象限標(biāo)識(shí)符pID是對(duì)坐標(biāo)(X,y,z)的象限位置的描述,與(X,y,z)的符 號(hào)位信息(signb(x),signb(y),signb(z))相對(duì)應(yīng),其中signb(x)是取符號(hào)位運(yùn)算
[0037] signb(x)=0,當(dāng) x> = 0;
[0038] signb(x)=1,當(dāng)x〈0;
[0039] 象限標(biāo)識(shí)符可取如下值:
[0040] 表1象限標(biāo)識(shí)符pID表 「00411
[0042]每幀的第一個(gè)塊為參考?jí)K,對(duì)該塊的聲音對(duì)象空間位置信息采用直接編碼;后續(xù) 的塊為預(yù)測(cè)塊,對(duì)該塊的聲音對(duì)象空間位置信息采用差分編碼。
[0043] 第一個(gè)塊直接對(duì)(?104147^)編碼,?10用三個(gè)比特,如表1所示41^7^2在范 圍[0,1]內(nèi)編碼為10比特的無(wú)符號(hào)數(shù)〇^〇7、〇2,,它們滿足的映射關(guān)系為:
[0044]
[0045]
[0046]
[0047] 后續(xù)塊做差分編碼,即對(duì)當(dāng)前塊與前一塊的坐標(biāo)值的差值(Δχ,Ay,ΔΖ)進(jìn)行編 碼,其中,Αχ是當(dāng)前塊和前一塊χ軸坐標(biāo)的差分值,Ay是當(dāng)前塊和前一塊y軸坐標(biāo)的差分 值,A z是當(dāng)前塊和前一塊z軸坐標(biāo)的差分值;滿足如下關(guān)系:
[0048] x(k) =x(k_l)+Δ χ,-2 < Δ X < 2;
[0049] y(k)=y(k-l)+Ay,-2 < Ay<2;
[0050] z(k) =z(k~l)+Δ z ,-2 < Δζ<2;
[00511與前述過(guò)程類(lèi)似,差值(Δχ,Ay,ΔΖ)也被映射為用四個(gè)量(PID,| Δχ|,| Ay|, A z I )來(lái)描述。pID是(Δ χ,Δ y,Δ z)的象限標(biāo)識(shí)符,I Δχ|、| Ay|和I Δζ|分別對(duì)應(yīng)Δ χ、Δ y、 八2的絕對(duì)值,取值范圍為[0,2]。?10用三個(gè)比特,如表1所示,|&刻、|&7|和|& 2|可映射 為11比特的無(wú)符號(hào)數(shù)Dx、Dy和Dz,它們滿足的映射關(guān)系為:
[0052]
[0053]
[0054]
[0055] 而對(duì)于無(wú)符號(hào)數(shù)Dx、Dy和Dz采用DIF(n)編碼方法,DIF(n)編碼的編碼過(guò)程為:首先 比較待編碼的無(wú)符號(hào)位置坐標(biāo)DIFdata(DIFdata為Dx,Dy,Dz中的任意值)和(2~n_l)的大 小,如果小于(2~n-l ),則用η個(gè)比特儲(chǔ)存它;否則將η個(gè)比特全部置1,然后緊跟2n個(gè)比特;以 此類(lèi)推直至(2~ (kn)-l )>DIFdata(k為正整數(shù))。以DIF(4)編碼為例,對(duì)無(wú)符號(hào)數(shù)Dx、Dy和Dz 采用DIF(4)編碼時(shí),可能出現(xiàn)的k值為1、2和3,具體碼流結(jié)構(gòu)如下:
[0056
[0057] 聲音對(duì)象的差分編碼過(guò)程中,要給坐標(biāo)值的差分留足夠的空間,以便于使得它的 儲(chǔ)存精度足夠和第一個(gè)塊中位置坐標(biāo)的儲(chǔ)存精度一致。于是有如下公式:
[0058]
[0059] 其中R為房間的半邊長(zhǎng),L為相鄰兩個(gè)塊中對(duì)象的位移,η為儲(chǔ)存差分值所用的比特 數(shù)。
[0060] 對(duì)于一個(gè)10m見(jiàn)方的房間,首先選取4比特來(lái)儲(chǔ)存這個(gè)差分值,那么它最多能夠儲(chǔ) 存的值為:
[0061]
[0062] 于是解得L〈0.0781,那么此時(shí)聲音對(duì)象的最大速度為:
[0063]
[0064] 在實(shí)際錄音當(dāng)中,對(duì)于大多數(shù)聲音對(duì)象,其時(shí)速大多低于53km/h,采用4個(gè)比特儲(chǔ) 存就夠了,這個(gè)效率非常高。至于高速運(yùn)動(dòng)的聲音對(duì)象,即速度大于53km/h,可擴(kuò)展為8比特 儲(chǔ)存。此時(shí)即便快如飛機(jī)(假設(shè)l〇〇m/s),也有:L= 100X0.0053 = 0.53(m);L為相鄰兩個(gè)塊 的距離,此時(shí)由于L/2 ~8〈5/2 ~ 10,可見(jiàn)8個(gè)比特完全能夠容納。
[0065]而當(dāng)房間擴(kuò)大到100米時(shí),由10比特儲(chǔ)存,其精度為50/2~ 10,此時(shí)儲(chǔ)存殘差的精度 更是足夠的。下表定義了不同比特和房間尺寸時(shí)能夠存儲(chǔ)的最大聲像速度:
[0066] 表2不同情況下能夠儲(chǔ)存的對(duì)象速度
[0067]
[0068]在一個(gè)三維區(qū)域內(nèi),對(duì)于聲音對(duì)象的重構(gòu),有一些區(qū)域內(nèi)的聲音對(duì)象作用顯著,而 另一些聲音對(duì)象可能毫無(wú)作用。從這個(gè)角度來(lái)看,對(duì)于某一特定的聲音對(duì)象,對(duì)其作用區(qū)域 進(jìn)行劃分,只使用區(qū)域內(nèi)一部分聲音對(duì)象,從而可以使得計(jì)算模型和混音操作更簡(jiǎn)單。典型 的聲音對(duì)象除了點(diǎn)聲源,還有面聲源(可以理解為距離很遠(yuǎn)的點(diǎn)聲源)和擴(kuò)散聲源(可以是 很距離的擴(kuò)散式聲源,如爆炸聲等),聲音對(duì)象有效作用區(qū)域是用于描述面聲源的。該有效 作用區(qū)域?qū)嶋H是為錄音師在錄音監(jiān)聽(tīng)時(shí)提供的,錄音師將自己理想的有效作用區(qū)域以元數(shù) 據(jù)的方式提供給編碼器,再由編碼器按所述的方式寫(xiě)入到碼流中。因在解碼端只能拿到解 碼三維坐標(biāo)值,因此,編碼時(shí)可用解碼三維坐標(biāo)值確定有效作用區(qū)域,以使編碼前的有效作 用區(qū)域和解碼后的作用區(qū)域一致。實(shí)際上,在一定的精度內(nèi),編碼前的三維坐標(biāo)值和解碼后 的三維坐標(biāo)值非常接近,其差即三維坐標(biāo)值的量化誤差。
[0069] 劃分方法見(jiàn)圖1,當(dāng)聲音對(duì)象的方位確定時(shí),以原點(diǎn)和聲音對(duì)象連線為軸,展開(kāi)一 個(gè)圓椎,原點(diǎn)是圓錐的頂點(diǎn)。此時(shí)圓錐所籠罩的揚(yáng)聲器便是有效揚(yáng)聲器。
[0070] 對(duì)于這種劃分,為了方便表達(dá),采用極坐標(biāo)的形式,用三個(gè)參數(shù)來(lái)表示這個(gè)劃分, (Φ,θ,γ)。其中(Φ,Θ)組成了聲音對(duì)象的方位角,φ為對(duì)象和原點(diǎn)連線在 xoy平面上的投 影與X軸的夾角,范圍[0,2π),θ為對(duì)象和原點(diǎn)連線與z軸的夾角。而第三個(gè)參數(shù)γ是用來(lái)描 述錐面張開(kāi)大小的,定義為錐面母線和中軸線的夾角,范圍[0,V2]。由此,整個(gè)錐面就被確 定下來(lái),隨之三維空間的區(qū)域劃分就完成了。
[0071] 對(duì)于(Φ,θ),前面已經(jīng)定義了對(duì)象的位置,聲音對(duì)象的位置坐標(biāo)表示為(x,y,z), 于是很容易求得。
[0072]以上聲音對(duì)象編碼的偽代碼:
[007;
[0074]
[0075] 以上方法給出了三維聲場(chǎng)的聲音對(duì)象在錄音制作、編碼、解碼和渲染回放時(shí)的坐 標(biāo)定義、運(yùn)動(dòng)軌跡、作用區(qū)域等表示方法。在三維聲編碼時(shí),除了聲音對(duì)象軌跡和作用區(qū)域 等信息編碼外,還需要對(duì)聲音對(duì)象的波形做編碼。
[0076] 考慮到聲音對(duì)象彼此的獨(dú)立性,高質(zhì)量的聲音對(duì)象波形可采用獨(dú)立的編碼方式, 包括各種已知的無(wú)損編碼和有損音頻編碼技術(shù),如APE、FLAC、MP3、AAC、AVS等。在對(duì)帶寬要 求很高的低碼率場(chǎng)合,亦可采用參數(shù)編碼的方式,將多個(gè)聲音對(duì)象混合成一個(gè)和聲道,并采 用參數(shù)編碼方法,來(lái)有效表示多個(gè)聲音對(duì)象。此類(lèi)的參數(shù)編碼方法包括SAC(Spatial Audio Coding)、BBC(Binaural Cue Coding)、MPEG Surround等。
[0077] 因聲音波形編碼的方法較為成熟,在此不作贅述。
[0078] 如上所述,盡管參照特定的優(yōu)選實(shí)施例已經(jīng)表示和表述了本發(fā)明,但其不得解釋 為對(duì)本發(fā)明自身的限制。在不脫離所附權(quán)利要求定義的本發(fā)明的精神和范圍前提下,可對(duì) 其在形式上和細(xì)節(jié)上作出各種變化。
【主權(quán)項(xiàng)】
1. 一種聲音對(duì)象的編碼方法,其特征在于,包括: 獲取聲場(chǎng)空間的聲音對(duì)象; 以聲場(chǎng)空間水平切面中心、與錄音師雙耳連線中心等高的位置為原點(diǎn)建立三維坐標(biāo) 系; 將聲音對(duì)象的位置軌跡以幀為單位劃分,每幀分為若干塊; 確定聲音對(duì)象第i塊的位置坐標(biāo)為(x(i),y(i),z(i)); 位置坐標(biāo)(x,y,z)映射為(pID,Ax,Ay,Az),pID為象限標(biāo)識(shí)符,Ax、Ay、Az為位置坐標(biāo)的 絕對(duì)值。2. 根據(jù)權(quán)利要求1所述聲音對(duì)象的編碼方法,其特征在于:所述聲音對(duì)象的作用區(qū)域?yàn)?(Φ,θ,γ ),其中Φ為聲音對(duì)象和原點(diǎn)連線在xoy平面上的投影與X軸的夾角、范圍[0,2ιτ),θ 為聲音對(duì)象和原點(diǎn)連線與ζ軸的夾角,Y是描述錐面張開(kāi)大小的,定義為錐面母線和中軸線 的夾角,范圍[〇,V2]。3. 根據(jù)權(quán)利要求1所述聲音對(duì)象的編碼方法,其特征在于:所述聲場(chǎng)空間采用歸一化坐 標(biāo),位置坐標(biāo)絕對(duì)值A(chǔ)x、Ay、Az的取值范圍為[0,1 ]。4. 根據(jù)權(quán)利要求3所述聲音對(duì)象的編碼方法,其特征在于:所述象限標(biāo)識(shí)符pID與(x,y, z)的符號(hào)位信息(signb(x),signb (y),signb (z))相對(duì)應(yīng),其中signb (X)是取符號(hào)位運(yùn) 算signb (X)=O,當(dāng)x>=0;signb (x)=l,當(dāng)x〈0〇5. 根據(jù)權(quán)利要求1所述聲音對(duì)象的編碼方法,其特征在于:所述聲音對(duì)象采用1024樣本 為一幀,每幀分為4塊或2塊。
【文檔編號(hào)】H04S7/00GK105898669SQ201610158782
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2016年3月18日
【發(fā)明人】潘興德, 吳超剛
【申請(qǐng)人】南京青衿信息科技有限公司