一種三維音頻多聲道分組聚類編碼方法及系統(tǒng)的制作方法

文檔序號：2827854閱讀：221來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種三維音頻多聲道分組聚類編碼方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種三維音頻多聲道分組聚類編碼方法及系統(tǒng)，利用同一聲源同組揚(yáng)聲器信號子帶包絡(luò)結(jié)構(gòu)相似性的特點(diǎn)，提出一種基于子帶頻點(diǎn)極值包絡(luò)相似性計算方法進(jìn)行動態(tài)的三維音頻分組下混，分組計算復(fù)雜度遠(yuǎn)低于傳統(tǒng)的聲道間相關(guān)性計算方法，但準(zhǔn)確率相當(dāng)。相比現(xiàn)有多聲道下混編碼方法，本方法能有效地將形成主要聲像的多個揚(yáng)聲器進(jìn)行分組，保證分組揚(yáng)聲器提取的空間參數(shù)信息更好地描述實(shí)際聲像的空間位置信息，解決固定分組參數(shù)提取方法中帶來的信息混疊問題。
【專利說明】一種三維音頻多聲道分組聚類編碼方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及音頻編碼【技術(shù)領(lǐng)域】，尤其涉及一種三維音頻多聲道分組聚類編碼方法及系統(tǒng)。

【背景技術(shù)】
[0002] 在傳統(tǒng)的立體聲和環(huán)繞聲編碼方法中，參與下混的聲道對信號相關(guān)性強(qiáng)，參數(shù)編碼能提供較高的壓縮比的同時提高較好的音質(zhì)。三維音頻環(huán)境下聲道數(shù)目多，聲道內(nèi)容復(fù) 雜，聲道間關(guān)聯(lián)復(fù)雜。形成同一聲像的揚(yáng)聲器分組具有信號相關(guān)性最強(qiáng)，揚(yáng)聲器分組不固定、且揚(yáng)聲器分組不固定依賴于物理最近鄰原則等特點(diǎn)?，F(xiàn)有的三維多聲道參數(shù)編碼主要基于固定的揚(yáng)聲器分組或基于能量高低對揚(yáng)聲器進(jìn)行分組聚類，提取聲像的空間參數(shù)信息，以最簡單的方式考慮三維音頻的聲道間相關(guān)性，分組方法缺乏理論指導(dǎo)，無法完整揭示三維音頻信號的空間聚類性，在三維音頻下信號去冗余的效果降低，同時不相關(guān)聲道下混還會導(dǎo)致信息混疊。因此，從現(xiàn)有的簡單分析聲道間的空間位置關(guān)聯(lián)性到分析更本質(zhì)的聲道間的音源對象關(guān)聯(lián)性，研究面向聲源的聲道間空間關(guān)聯(lián)特性，找到形成同一聲像的相關(guān) 性最強(qiáng)的最優(yōu)揚(yáng)聲器分組，將是三維多聲道音頻參數(shù)編碼中，準(zhǔn)確進(jìn)行聲源空間參數(shù)提取的關(guān)鍵之一。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的目的是提供一種三維音頻多聲道分組聚類編碼系統(tǒng)及方法，使得在多聲道下混編碼中，找到形成同一聲像的相關(guān)性最強(qiáng)的最優(yōu)揚(yáng)聲器分組，從而使得虛擬聲源空間參數(shù)提取更準(zhǔn)確，有效去除聲道間信號冗余。
[0004] 為達(dá)到上述目的，本發(fā)明提供一種三維音頻多聲道分組聚類編碼方法，包括以下步驟：
[0005] S1，對N個聲道輸入信號進(jìn)行預(yù)處理，得到N個聲道的當(dāng)前幀的音頻信號 Si, · · ·，Sn ;
[0006] S2,由步驟Sl所得音頻信號S1, . . .，Sn，進(jìn)行時頻變換得到頻譜系數(shù)X1, . . .，Xn ;
[0007] S3,對步驟S2所得頻譜系數(shù)X1, ...，Xn進(jìn)行子帶劃分，得到N個聲道的子帶頻譜系數(shù) X1 (k)，. . .，XN(k)，k e {1，. . .，K}，K 為頻點(diǎn)總數(shù)；
[0008] S4,根據(jù)步驟S3得到的N個聲道的子帶頻譜系數(shù)X1 (k)，...，Xn (k)，計算得到兩兩聲道間的相關(guān)性系數(shù)Rij;
[0009] S5,根據(jù)步驟S4得到的兩兩聲道間的相關(guān)性系數(shù)Rij，對N個聲道信號進(jìn)行聚類分組，得到M個分組G 1,...，Gm;
[0010] S6,根據(jù)步驟S5得到M個分組信息，進(jìn)行熵編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端；
[0011] S7,根據(jù)步驟S5得到M個分組信息，對步驟S3得到的每個聲道的子帶頻譜系數(shù) X1 (k)，. . .，Xn (k)進(jìn)行下混，得到M組下混聲道信號；
[0012] S8,根據(jù)步驟S7得到的M組下混聲道信號，利用現(xiàn)有的通用音頻編碼方法進(jìn)行量化編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端；
[0013] S9,根據(jù)步驟S5得到M個分組信息，對每個分組內(nèi)的聲道進(jìn)行空間參數(shù)提取，得到 M組空間參數(shù)；
[0014] S10,根據(jù)步驟S9得到的M組空間參數(shù)，利用現(xiàn)有的通用音頻編碼方法對空間參數(shù) 進(jìn)行編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端。
[0015] 所述步驟S4進(jìn)一步包括以下子步驟，
[0016] S4. 1，根據(jù)步驟S3得到的N個聲道的子帶頻譜系數(shù)X1 (k)，. . .，XN(k)， k e {1，...，K}，K為每個聲道每幀信號時頻變換后的頻點(diǎn)總數(shù)，計算每個聲道的L個頻譜
[0017] S4. 2,根據(jù)步驟S4. 1得到的每個聲道的L個頻譜極大值點(diǎn)^㈨)，…』^!^，… ，XnD}，得到每個聲道的對應(yīng)頻點(diǎn)編號的集合A· = K，···，W c {1，…，1丨，n e {1，...，n}，N 為聲道個數(shù)，K為每個聲道每幀信號時頻變換后的頻點(diǎn)總數(shù)；
[0018] S4. 3,根據(jù)步驟S4. 2得到的所有聲道的對應(yīng)頻點(diǎn)編號的集合，對第i和j個聲道的頻點(diǎn)編號的集合Di和Dj，求取得到兩個集合元素的交集D inDj，i尹j，i，je{l，...，N}，統(tǒng)計得到交集元素的個數(shù)Cij ;
[0019] S4. 4,根據(jù)步驟S4. 3得到的兩兩聲道頻譜極大值點(diǎn)對應(yīng)頻點(diǎn)交集個數(shù)Cij，計算得至綱兩聲道間的相關(guān)性系數(shù)Rij = Cij/K。
[0020] 步驟S5包括以下子步驟，
[0021] S5. 1，根據(jù)步驟S4得到的兩兩聲道間的相關(guān)性系數(shù)Rij e U，U = {R12, R13,...，Rin ，R23,…R2n，…，R(n_1)n}，i，j e {1，…，N}，i關(guān)j，求取U的最大值Max (U)為Rab，放入相關(guān) 性系數(shù)最大值集合SU，同時從U中刪除掉下標(biāo)中含有a或b的所有元素，得到剩下的元素組成新的集合U ;
[0022] S5. 2,根據(jù)新的集合U，重復(fù)步驟S5. 1，直到得到N/2個按從大到小順序排列的兩兩聲道相關(guān)性系數(shù)的排序結(jié)果SU = (R1, R2, . . .，RN/2};
[0023] S5. 3,按步驟S5. 2得到的兩兩聲道間的相關(guān)性排序結(jié)果SU = (R1, R2, . . .，RN/2}，對 N個揚(yáng)聲器信號進(jìn)行聚類分組，逐一將相關(guān)性最強(qiáng)的兩個聲道分為一組，依次得到M-I個分組，然后將剩下的聲道分為第M組，最終得到M個分組信息G 1, ...，Gm
[0024] -種三維音頻多聲道分組聚類編碼系統(tǒng)，包括以下模塊：
[0025] 預(yù)處理模塊，用于對N個聲道輸入信號進(jìn)行預(yù)處理，得到N個聲道的當(dāng)前幀的音頻信號S 1, ...，Sn輸出給時頻變換模塊；
[0026] 時頻變換模塊，用于對從預(yù)處理模塊輸入的音頻信號S1, ...，Sn進(jìn)行時頻變換，得到頻譜系數(shù)X1, ...，Xn，輸出給子帶劃分模塊；
[0027] 子帶劃分模塊，用于對時頻變換模塊輸入的頻譜系數(shù)X1, ...，Xn進(jìn)行子帶劃分，得到N個聲道的子帶頻譜系數(shù)X1 (k)，...，Xn (k)，分三路輸出，一路輸出給聲道相關(guān)性分析模塊，一路輸出給空間參數(shù)提取模塊，一路輸出給分組下混模塊；
[0028] 聲道相關(guān)性分析模塊，用于對N個聲道的頻譜系數(shù)X1, ...，Xn進(jìn)行分析，得到聲道間的相關(guān)性系數(shù)，輸出給聚類分組模塊；
[0029] 聚類分組模塊，根據(jù)聲道間的相關(guān)性，對N個聲道信號進(jìn)行聚類分組，將得到的分組信息分三路輸出，一路輸出給分組信息量化編碼模塊，一路輸出給分組下混模塊，一路輸出給空間參數(shù)提取模塊；
[0030] 分組信息量化編碼模塊，用于對N個聲道的分組信息進(jìn)行量化編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端；
[0031] 分組下混模塊，根據(jù)N個聲道的分組信息，對N個聲道進(jìn)行下混，得到下混聲道信號，輸出給下混信號量化編碼模塊；
[0032] 下混信號量化編碼模塊，對下混聲道信號進(jìn)行編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端；
[0033] 空間參數(shù)提取模塊，根據(jù)N個聲道的分組信息，對每個分組中的聲道信號提取空間參數(shù)，輸出給空間參數(shù)量化編碼模塊；
[0034] 空間參數(shù)量化編碼模塊，對提取出的空間參數(shù)進(jìn)行量化編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端。
[0035] 本發(fā)明針對現(xiàn)有多聲道下混編碼方法中使用簡單的固定分組下混不能有效地利用三維音頻信號的空間聚類特性，會導(dǎo)致三維音頻信號去冗余效果降低，不相關(guān)的聲道分組進(jìn)行空間參數(shù)提取會造成重建空間音質(zhì)受損的問題，利用同一聲源同組揚(yáng)聲器信號子帶包絡(luò)結(jié)構(gòu)相似性的特點(diǎn)，提出一種基于子帶頻點(diǎn)極值包絡(luò)相似性計算方法進(jìn)行動態(tài)的三維音頻分組下混，分組計算復(fù)雜度遠(yuǎn)低于相關(guān)性計算方法，但準(zhǔn)確率相當(dāng)，該方法能有效地將形成主要聲像的多個揚(yáng)聲器進(jìn)行分組，保證分組揚(yáng)聲器提取的空間參數(shù)信息更好地描述實(shí) 際聲像的空間位置信息，解決固定分組參數(shù)提取方法中帶來的信息混疊問題。

【專利附圖】

【附圖說明】
[0036] 圖1是本發(fā)明實(shí)施例提供的三維音頻多聲道分組聚類編碼方法的原理框圖。

【具體實(shí)施方式】
[0037] 下面結(jié)合附圖和實(shí)施例詳細(xì)對本發(fā)明提供的三維音頻多聲道分組聚類編碼方法及系統(tǒng)進(jìn)行詳細(xì)描述。
[0038] 具體實(shí)施時，本發(fā)明所提供系統(tǒng)可采用計算機(jī)軟件模塊化技術(shù)實(shí)現(xiàn)。參見圖1，本發(fā)明提供了一種三維音頻多聲道分組聚類編碼方法，具體步驟包括：
[0039] 在步驟Sl中，對N個聲道輸入信號進(jìn)行預(yù)處理，具體包括高通濾波、分幀處理，將輸入信號101送入高通濾波器，濾除50Hz以下的低頻信號；以20ms為一幀讀取采樣數(shù)據(jù)作為當(dāng)前幀數(shù)據(jù)；得到N個聲道的當(dāng)前幀的音頻信號S 1, ...，Sn，即音頻信號102下標(biāo)1表示第1個聲道，下標(biāo)N表示第N個聲道；
[0040] 在步驟S2中，由步驟Sl所得音頻信號S1, ...，Sn，進(jìn)行256點(diǎn)的FFT時頻變換，得到每一幀各自256個頻譜系數(shù)X1, ...，Xn，即頻譜系數(shù)103 ;
[0041] 在步驟S3,對步驟S2所得頻譜系數(shù)X1, ...，Xn進(jìn)行子帶劃分，將整個頻譜均勻劃分為16個子帶，每個子帶16個頻譜系數(shù)，得到N個聲道的子帶頻譜系數(shù)X 1 (k)，...，Xn (k)，即信號104, k e {1，…，K}，K = 256,為頻點(diǎn)總數(shù)；
[0042] 在步驟S4中，根據(jù)步驟S3得到的N個聲道的子帶頻譜系數(shù)X1 (k)，. . .，XN(k)，計算得到兩兩聲道間的相關(guān)性系數(shù)Rij, i和j對應(yīng)聲道編號，i尹j，i，j e {1，...，N}，即信號 105 ;
[0043] 在步驟S5中，根據(jù)步驟S4得到的兩兩聲道間的相關(guān)性系數(shù)Rm對N個聲道信號進(jìn)行聚類分組，得到M個分組G 1, . . .，GM，即信號106 ;
[0044] 在步驟S6中，根據(jù)步驟S5得到的M個分組信息，進(jìn)行熵編碼，采用現(xiàn)有技術(shù)中的差分Huffman編碼，得到編碼結(jié)果，將編碼結(jié)果作為碼流的一部分輸出給解碼端；
[0045] 在步驟S7中，對于步驟S3得到的N個聲道的子帶頻譜系數(shù)X1 (k)，. . .，XN(k)，即信號104,根據(jù)步驟S5得到的M個分組信息，即信號106,對每個分組內(nèi)的聲道進(jìn)行下混，得到M組下混聲道信號，即信號108 ;
[0046] 在步驟S8中，根據(jù)步驟S7得到的M組下混聲道信號，利用現(xiàn)有的通用音頻編碼方法進(jìn)行量化編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端；
[0047] 在步驟S9中，根據(jù)步驟S5得到M個分組信息，對每個分組內(nèi)的聲道進(jìn)行空間參數(shù) 提取，得到M組空間參數(shù)，即信號107 ;
[0048] 在步驟SlO中，根據(jù)步驟S9得到的M組空間參數(shù)，進(jìn)行利用現(xiàn)有的通用音頻編碼方法對空間參數(shù)進(jìn)行編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端。
[0049] 其中，步驟S4進(jìn)一步包括以下子步驟，
[0050] 步驟S4. 1，根據(jù)步驟S3得到的N個聲道的子帶頻譜系數(shù)X1GO,...，XN(k)， k e {1，...，K}，K為每個聲道每幀信號時頻變換后的頻點(diǎn)總數(shù)，計算每個聲道的L個頻譜極大值點(diǎn)認(rèn),,(認(rèn)..式(4)，-人隊)丨,(丨)，，乂(抑，ne {l，...，N}，le {l，...，L};
[0051] 步驟S4. 2，根據(jù)步驟S4. 1得到的每個聲道的L個頻譜極大值點(diǎn)^^，… ,Xn(L1), "'Xn(U)K得到每個聲道的對應(yīng)頻點(diǎn)編號的集合/),,=丨/，….L1] - !1K], n e {1，...，N}，N為聲道個數(shù)，K為每個聲道每幀信號時頻變換后的頻點(diǎn)總數(shù)；
[0052] 步驟S4. 3,根據(jù)步驟S4. 2得到的所有聲道的對應(yīng)頻點(diǎn)編號的集合，對第i和j個聲道的頻點(diǎn)編號的集合Di和Dp求取得到兩個集合元素的交集 Di n Dj, i關(guān)j, i, j e {1，· · ·，N},統(tǒng)計得到交集元素的個數(shù)Cij ;
[0053] 步驟S4. 4,根據(jù)步驟S4. 3得到的兩兩聲道頻譜極大值點(diǎn)對應(yīng)頻點(diǎn)交集個數(shù)Cij，計算得到兩兩聲道間的相關(guān)性系數(shù)Ru = Cu/K。
[0054] 進(jìn)一步，步驟S5進(jìn)一步包括以下子步驟，
[0055] 步驟S5. 1，根據(jù)步驟S4得到的兩兩聲道間的相關(guān)性系數(shù)Rij e U，U = {R12, R13,.. ?，Rin, R23, · · · R2n, · · ·，R(N_1)N}，i, j e {1，· · ·，N}，i 關(guān) j，求取 U 的最大值 Max (U)為 Rab,放入相關(guān)性系數(shù)最大值集合SU，同時從U中刪除掉下標(biāo)中含有a或b的所有元素，得到剩下的元素組成新的集合U ;
[0056] 步驟S5. 2,根據(jù)新的集合U，重復(fù)步驟S5. 1，直到得到N/2個按從大到小順序排列的兩兩聲道相關(guān)性系數(shù)的排序結(jié)果SU = (R1, R2,. . .，RN/2};
[0057] 步驟S5. 3,按步驟S5. 2得到的兩兩聲道間的相關(guān)性排序結(jié)果SU = (R1, R2,. . .，RN/2}，對N個揚(yáng)聲器信號進(jìn)行聚類分組，逐一將相關(guān)性最強(qiáng)的兩個聲道分為一組，依次得到M-I個分組，然后將剩下的聲道分為第M組，最終得到M個分組信息G 1, ...，Gm。
[0058] -種三維音頻多聲道分組聚類編碼系統(tǒng)，包括以下模塊：
[0059] 預(yù)處理模塊，用于對N個聲道輸入信號進(jìn)行預(yù)處理，得到N個聲道的當(dāng)前幀的音頻信號S1,. . .，Sn輸出給時頻變換模塊。
[0060] 實(shí)施例中，預(yù)處理模塊對輸入的多聲道音頻信號（即音頻原始信號101)進(jìn)行預(yù)處理，而預(yù)處理一般具體包括高通濾波、分幀處理，將輸入信號（101)送入高通濾波器，濾除 50Hz以下的低頻信號；以20ms為一幀讀取采樣數(shù)據(jù)作為當(dāng)前幀數(shù)據(jù)；輸出信號為N個聲道的當(dāng)前幀的音頻信號S 1, ...，Sn(即預(yù)處理后信號102)，下標(biāo)1表示第1個聲道，下標(biāo)N表示第N個聲道。
[0061] 時頻變換模塊：預(yù)處理后的N個聲道的信號作為本模塊的輸入，用于對從預(yù)處理模塊輸入的音頻信號S 1, ...，Sn進(jìn)行現(xiàn)有技術(shù)中通用的時頻變換，得到頻譜系數(shù)X1, ...，XN，輸出給子帶劃分模塊。
[0062] 實(shí)施例中，時頻變換模塊對預(yù)處理模塊的輸出結(jié)果S1, ...，Sn (102)，進(jìn)行FFT變換，得到每一幀各自的頻譜系數(shù)X1,...，χΝ。
[0063] 子帶劃分模塊：時頻變換模塊得到的預(yù)處理后的頻域的音頻信號作為本模塊的輸入，采用現(xiàn)有技術(shù)中通用的子帶劃分方法，得到N個聲道的子帶頻譜系數(shù)，分三路輸出，一路輸出給聲道相關(guān)性分析模塊，一路輸出給空間參數(shù)提取模塊，一路輸出給分組下混模塊。
[0064] 實(shí)施例中，子帶劃分模塊對時頻變換模塊得到的頻譜系數(shù)X1, ...，Xn，進(jìn)行子帶劃分，實(shí)施例將整個頻譜均勻劃分為16個子帶，每個子帶16個頻譜系數(shù)，得到N個聲道的子帶頻譜系數(shù) X1GO^mXn (k)，k e {1，···，Κ}，Κ = 256,為頻點(diǎn)總數(shù)。
[0065] 聲道相關(guān)性分析模塊，用于對N個聲道的頻譜系數(shù)進(jìn)行分析，得到聲道間的相關(guān) 性系數(shù)，輸出給聚類分組模塊。
[0066] 實(shí)施例中，對于N個聲道的子帶頻譜系數(shù)X1 (k)，...，Xn (k) (104)，計算每個聲道的 L個頻譜極大值點(diǎn)Ρ?〇ι)，，，·，^Κ)，·.，，^(Ζζ)Χ^?(1)，，··，^(Ζ)}，n e {1，· · ·，N}，I e {1，· · ·，L}，得到每個聲道的對應(yīng)頻點(diǎn)編號的集合Ai = R1,...，盡丨c仏...，尺丨，n e {1，...，N}，N為聲道個數(shù)，K為頻點(diǎn)總數(shù)，對第i和j個聲道的頻點(diǎn)編號的集合Di和IV求取得到兩個集合元素的交集Di n Dj, i尹j，i，j e {1，...，N}，統(tǒng)計得到交集元素的個數(shù)Cij，計算得到兩兩聲道間的相關(guān)性系數(shù)Rij = Cu/K。
[0067] 聚類分組模塊，根據(jù)聲道相關(guān)性分析模塊得到的兩兩聲道間的相關(guān)性系數(shù)RiP對 N個聲道信號進(jìn)行聚類分組，將得到的分組信息分三路輸出，一路輸出給分組信息量化編碼模塊，一路輸出給分組下混模塊，一路輸出給空間參數(shù)提取模塊。
[0068] 實(shí)施例中，根據(jù)聲道相關(guān)性分析模塊得到的兩兩聲道間的相關(guān)性系數(shù)Ry得到的兩兩聲道間的相關(guān)性系數(shù) Rij e U，U = {R12, R13,...，R1N，R23,... R2N，...，R(N_1)N}， i，j e {1，. . .，N}，i尹j，求取U的最大值Max (U)為Rab，放入相關(guān)性系數(shù)最大值集合SU，同時從U中刪除掉下標(biāo)中含有a或b的所有元素，得到剩下的元素組成新的集合U ;根據(jù)新的集合U，重復(fù)上述步驟，直到得到N/2個按從大到小順序排列的兩兩聲道相關(guān)性系數(shù)的排序結(jié)果SU = (R1, R2,. . .，RN/2};依照此結(jié)果對N個揚(yáng)聲器信號進(jìn)行聚類分組，逐一將相關(guān)性最強(qiáng)的兩個聲道分為一組，依次得到M-I個分組，然后將剩下的聲道分為第M組，最終得到M 個分組信息G1,. . .，Gm。
[0069] 分組信息量化編碼模塊，用于對N個聲道的分組信息進(jìn)行量化編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端。實(shí)施例中，對于聚類分組模塊得到的M個分組信息，利用現(xiàn)有的熵編碼方法進(jìn)行量化編碼，實(shí)施例采用現(xiàn)有技術(shù)中的差分Huffman編碼，得到編碼結(jié)果，將編碼結(jié)果作為碼流的一部分輸出給解碼端。
[0070] 分組下混模塊，根據(jù)N個聲道的分組信息，對N個聲道進(jìn)行下混，得到下混聲道信號，輸出給下混信號量化編碼模塊。實(shí)施例中，對N個聲道的子帶頻譜系數(shù)，根據(jù)聚類分組模塊得到的M個分組信息，對每個分組內(nèi)的聲道信號，采用現(xiàn)有通用的空間音頻編碼下混方法進(jìn)行聲道信號下混，得到M組下混聲道信號。
[0071] 下混信號量化編碼模塊，對下混聲道信號進(jìn)行編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端。實(shí)施例中，對分組下混模塊得到的M組下混聲道信號，利用現(xiàn)有的通用音頻編碼方法進(jìn)行量化編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端。
[0072] 空間參數(shù)提取模塊，根據(jù)N個聲道的分組信息，對每個分組中的聲道信號提取空間參數(shù)，輸出給空間參數(shù)量化編碼模塊。實(shí)施例中，對N個聲道的子帶頻譜系數(shù)，根據(jù)聚類分組模塊得到的M個分組信息，對每個分組內(nèi)的聲道，利用現(xiàn)有通用的空間參數(shù)提取方法按子帶提取虛擬聲源空間參數(shù)，得到M組下混聲道信號提取的空間參數(shù)。
[0073] 空間參數(shù)量化編碼模塊，對提取出的空間參數(shù)進(jìn)行量化編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端。實(shí)施例中，對于空間參數(shù)提取模塊得到的M組下混聲道信號提取的空間參數(shù)，進(jìn)行利用現(xiàn)有的通用音頻編碼方法對空間參數(shù)進(jìn)行編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端。
[0074] 以上實(shí)施例僅供說明本發(fā)明之用，而非對本發(fā)明的限制，有關(guān)【技術(shù)領(lǐng)域】的技術(shù)人員，在不脫離本發(fā)明的精神和范圍的情況下，還可以作出各種變換或變型，因此所有等同的技術(shù)方案，都落入本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1. 一種三維音頻多聲道分組聚類編碼方法，其特征在于，包括以下步驟： S1，對N個聲道輸入信號進(jìn)行預(yù)處理，得到N個聲道的當(dāng)前幀的音頻信號S1,...，Sn ; 52, 由步驟Sl所得音頻信號S1,. . .，Sn，進(jìn)行時頻變換得到頻譜系數(shù)X1,. . .，Xn ; 53, 對步驟S2所得頻譜系數(shù)X1, ...，Xn進(jìn)行子帶劃分，得到N個聲道的子帶頻譜系數(shù) X1 (k)，· · ·，XN(k)，ke{1，· · ·，K}，K為頻點(diǎn)總數(shù)； 54, 根據(jù)步驟S3得到的N個聲道的子帶頻譜系數(shù)X1 (k)，...，Xn (k)，計算得到兩兩聲道間的相關(guān)性系數(shù)Rij; 55, 根據(jù)步驟S4得到的兩兩聲道間的相關(guān)性系數(shù)Ry對N個聲道信號進(jìn)行聚類分組，得到M個分組G1,. · .，Gm ; 56, 根據(jù)步驟S5得到M個分組信息，進(jìn)行熵編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端； 57, 根據(jù)步驟S5得到M個分組信息，對步驟S3得到的每個聲道的子帶頻譜系數(shù) X1 (k)，. . .，Xn (k)進(jìn)行下混，得到M組下混聲道信號； 58, 根據(jù)步驟S7得到的M組下混聲道信號，利用現(xiàn)有的通用音頻編碼方法進(jìn)行量化編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端； 59, 根據(jù)步驟S5得到M個分組信息，對每個分組內(nèi)的聲道進(jìn)行空間參數(shù)提取，得到M組空間參數(shù)； S10,根據(jù)步驟S9得到的M組空間參數(shù)，利用現(xiàn)有的通用音頻編碼方法對空間參數(shù)進(jìn)行編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端。
2. 根據(jù)權(quán)利要求1所述三維音頻多聲道分組聚類編碼方法方法，其特征在于：所述步驟S4進(jìn)一步包括以下子步驟， S4. 1，根據(jù)步驟S3得到的N個聲道的子帶頻譜系數(shù)X1 (k)，...，Xn (k)，ke{1，...，K}，K為每個聲道每幀信號時頻變換后的頻點(diǎn)總數(shù)，計算每個聲道的L個頻譜極大值點(diǎn) {尤⑷，…,X"(A),…，…式⑷},ne{1，…，N}，Ie{1，…，L}; S4. 2，根據(jù)步驟S4. 1得到的每個聲道的L個頻譜極大值點(diǎn)^^，…，"!^)，… ，Xn(U)}，得到每個聲道的對應(yīng)頻點(diǎn)編號的集合A· = c,ne{1，...，N}，N 為聲道個數(shù)，K為每個聲道每幀信號時頻變換后的頻點(diǎn)總數(shù)； S4. 3,根據(jù)步驟S4. 2得到的所有聲道的對應(yīng)頻點(diǎn)編號的集合，對第i和j個聲道的頻點(diǎn)編號的集合Di和D」，求取得到兩個集合元素的交集DinDj,i尹j，i，je{1，...，N}，統(tǒng) 計得到交集元素的個數(shù)Cij ; 54. 4,根據(jù)步驟S4. 3得到的兩兩聲道頻譜極大值點(diǎn)對應(yīng)頻點(diǎn)交集個數(shù)Cij，計算得到兩兩聲道間的相關(guān)性系數(shù)Ru=Ci/K。
3. 根據(jù)權(quán)利要求1或2所述三維音頻多聲道分組聚類編碼方法方法，其特征在于：步驟S5包括以下子步驟， 55. 1，根據(jù)步驟S4得到的兩兩聲道間的相關(guān)性系數(shù)RijeU，U= {R12,R13,...，R1N，R23, ? · ·R2n，· · ·，，i，je{1，. . .，N}，i尹j，求取U的最大值Max(U)為Rab，放入相關(guān)性系數(shù)最大值集合SU，同時從U中刪除掉下標(biāo)中含有a或b的所有元素，得到剩下的元素組成新的集合U; S5. 2,根據(jù)新的集合U，重復(fù)步驟S5.I，直到得到N/2個按從大到小順序排列的兩兩聲道相關(guān)性系數(shù)的排序結(jié)果SU= (R1,R2,. . .，RN/2}; S5. 3,按步驟S5. 2得到的兩兩聲道間的相關(guān)性排序結(jié)果SU= (R1,R2,. . .，RN/2}，對N個揚(yáng)聲器信號進(jìn)行聚類分組，逐一將相關(guān)性最強(qiáng)的兩個聲道分為一組，依次得到M-I個分組，然后將剩下的聲道分為第M組，最終得到M個分組信息G1, ...，Gm。
4. 一種三維音頻多聲道分組聚類編碼系統(tǒng)，其特征在于，包括以下模塊：預(yù)處理模塊，用于對N個聲道輸入信號進(jìn)行預(yù)處理，得到N個聲道的當(dāng)前幀的音頻信號S1,. . .，Sn輸出給時頻變換模塊；時頻變換模塊，用于對從預(yù)處理模塊輸入的音頻信號S1, ...，Sn進(jìn)行時頻變換，得到頻譜系數(shù)X1, ...，Xn，輸出給子帶劃分模塊；子帶劃分模塊，用于對時頻變換模塊輸入的頻譜系數(shù)X1, ...，Xn進(jìn)行子帶劃分，得到N個聲道的子帶頻譜系數(shù)X1 (k)，...，Xn (k)，分三路輸出，一路輸出給聲道相關(guān)性分析模塊，一路輸出給空間參數(shù)提取模塊，一路輸出給分組下混模塊；聲道相關(guān)性分析模塊，用于對N個聲道的頻譜系數(shù)X1, ...，Xn進(jìn)行分析，得到聲道間的相關(guān)性系數(shù)，輸出給聚類分組模塊；聚類分組模塊，根據(jù)聲道間的相關(guān)性，對N個聲道信號進(jìn)行聚類分組，將得到的分組信息分三路輸出，一路輸出給分組信息量化編碼模塊，一路輸出給分組下混模塊，一路輸出給空間參數(shù)提取1?塊；分組信息量化編碼模塊，用于對N個聲道的分組信息進(jìn)行量化編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端；分組下混模塊，根據(jù)N個聲道的分組信息，對N個聲道進(jìn)行下混，得到下混聲道信號，輸出給下混信號量化編碼模塊；下混信號量化編碼模塊，對下混聲道信號進(jìn)行編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端；空間參數(shù)提取模塊，根據(jù)N個聲道的分組信息，對每個分組中的聲道信號提取空間參數(shù)，輸出給空間參數(shù)量化編碼模塊；空間參數(shù)量化編碼模塊，對提取出的空間參數(shù)進(jìn)行量化編碼，將編碼結(jié)果作為碼流的一部分輸出給解碼端。
【文檔編號】G10L19/008GK104240712SQ201410524784
【公開日】2014年12月24日申請日期:2014年9月30日優(yōu)先權(quán)日:2014年9月30日
【發(fā)明者】胡瑞敏, 張茂勝, 姚雪春, 王曉晨, 姜林, 涂衛(wèi)平, 王松, 楊乘申請人:武漢大學(xué)深圳研究院

完整全部詳細(xì)技術(shù)資料下載