一種三維音頻多聲道分組聚類編碼方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種三維音頻多聲道分組聚類編碼方法及系統(tǒng),利用同一聲源同組揚(yáng)聲器信號子帶包絡(luò)結(jié)構(gòu)相似性的特點(diǎn),提出一種基于子帶頻點(diǎn)極值包絡(luò)相似性計算方法進(jìn)行動態(tài)的三維音頻分組下混,分組計算復(fù)雜度遠(yuǎn)低于傳統(tǒng)的聲道間相關(guān)性計算方法,但準(zhǔn)確率相當(dāng)。相比現(xiàn)有多聲道下混編碼方法,本方法能有效地將形成主要聲像的多個揚(yáng)聲器進(jìn)行分組,保證分組揚(yáng)聲器提取的空間參數(shù)信息更好地描述實(shí)際聲像的空間位置信息,解決固定分組參數(shù)提取方法中帶來的信息混疊問題。
【專利說明】一種三維音頻多聲道分組聚類編碼方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及音頻編碼【技術(shù)領(lǐng)域】,尤其涉及一種三維音頻多聲道分組聚類編碼方法 及系統(tǒng)。
【背景技術(shù)】
[0002] 在傳統(tǒng)的立體聲和環(huán)繞聲編碼方法中,參與下混的聲道對信號相關(guān)性強(qiáng),參數(shù)編 碼能提供較高的壓縮比的同時提高較好的音質(zhì)。三維音頻環(huán)境下聲道數(shù)目多,聲道內(nèi)容復(fù) 雜,聲道間關(guān)聯(lián)復(fù)雜。形成同一聲像的揚(yáng)聲器分組具有信號相關(guān)性最強(qiáng),揚(yáng)聲器分組不固 定、且揚(yáng)聲器分組不固定依賴于物理最近鄰原則等特點(diǎn)?,F(xiàn)有的三維多聲道參數(shù)編碼主要 基于固定的揚(yáng)聲器分組或基于能量高低對揚(yáng)聲器進(jìn)行分組聚類,提取聲像的空間參數(shù)信 息,以最簡單的方式考慮三維音頻的聲道間相關(guān)性,分組方法缺乏理論指導(dǎo),無法完整揭示 三維音頻信號的空間聚類性,在三維音頻下信號去冗余的效果降低,同時不相關(guān)聲道下混 還會導(dǎo)致信息混疊。因此,從現(xiàn)有的簡單分析聲道間的空間位置關(guān)聯(lián)性到分析更本質(zhì)的聲 道間的音源對象關(guān)聯(lián)性,研究面向聲源的聲道間空間關(guān)聯(lián)特性,找到形成同一聲像的相關(guān) 性最強(qiáng)的最優(yōu)揚(yáng)聲器分組,將是三維多聲道音頻參數(shù)編碼中,準(zhǔn)確進(jìn)行聲源空間參數(shù)提取 的關(guān)鍵之一。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的是提供一種三維音頻多聲道分組聚類編碼系統(tǒng)及方法,使得在多聲 道下混編碼中,找到形成同一聲像的相關(guān)性最強(qiáng)的最優(yōu)揚(yáng)聲器分組,從而使得虛擬聲源空 間參數(shù)提取更準(zhǔn)確,有效去除聲道間信號冗余。
[0004] 為達(dá)到上述目的,本發(fā)明提供一種三維音頻多聲道分組聚類編碼方法,包括以下 步驟:
[0005] S1,對N個聲道輸入信號進(jìn)行預(yù)處理,得到N個聲道的當(dāng)前幀的音頻信號 Si, · · ·,Sn ;
[0006] S2,由步驟Sl所得音頻信號S1, . . .,Sn,進(jìn)行時頻變換得到頻譜系數(shù)X1, . . .,Xn ;
[0007] S3,對步驟S2所得頻譜系數(shù)X1, ...,Xn進(jìn)行子帶劃分,得到N個聲道的子帶頻譜系 數(shù) X1 (k),. . .,XN(k),k e {1,. . .,K},K 為頻點(diǎn)總數(shù);
[0008] S4,根據(jù)步驟S3得到的N個聲道的子帶頻譜系數(shù)X1 (k),...,Xn (k),計算得到兩兩 聲道間的相關(guān)性系數(shù)Rij;
[0009] S5,根據(jù)步驟S4得到的兩兩聲道間的相關(guān)性系數(shù)Rij,對N個聲道信號進(jìn)行聚類分 組,得到M個分組G 1,...,Gm;
[0010] S6,根據(jù)步驟S5得到M個分組信息,進(jìn)行熵編碼,將編碼結(jié)果作為碼流的一部分輸 出給解碼端;
[0011] S7,根據(jù)步驟S5得到M個分組信息,對步驟S3得到的每個聲道的子帶頻譜系數(shù) X1 (k),. . .,Xn (k)進(jìn)行下混,得到M組下混聲道信號;
[0012] S8,根據(jù)步驟S7得到的M組下混聲道信號,利用現(xiàn)有的通用音頻編碼方法進(jìn)行量 化編碼,將編碼結(jié)果作為碼流的一部分輸出給解碼端;
[0013] S9,根據(jù)步驟S5得到M個分組信息,對每個分組內(nèi)的聲道進(jìn)行空間參數(shù)提取,得到 M組空間參數(shù);
[0014] S10,根據(jù)步驟S9得到的M組空間參數(shù),利用現(xiàn)有的通用音頻編碼方法對空間參數(shù) 進(jìn)行編碼,將編碼結(jié)果作為碼流的一部分輸出給解碼端。
[0015] 所述步驟S4進(jìn)一步包括以下子步驟,
[0016] S4. 1,根據(jù)步驟S3得到的N個聲道的子帶頻譜系數(shù)X1 (k),. . .,XN(k), k e {1,...,K},K為每個聲道每幀信號時頻變換后的頻點(diǎn)總數(shù),計算每個聲道的L個頻譜
[0017] S4. 2,根據(jù)步驟S4. 1得到的每個聲道的L個頻譜極大值點(diǎn)^㈨),…』^!^,… ,XnD},得到每個聲道的對應(yīng)頻點(diǎn)編號的集合A· = K,···,W c {1,…,1丨,n e {1,...,n},N 為聲道個數(shù),K為每個聲道每幀信號時頻變換后的頻點(diǎn)總數(shù);
[0018] S4. 3,根據(jù)步驟S4. 2得到的所有聲道的對應(yīng)頻點(diǎn)編號的集合,對第i和j個聲道 的頻點(diǎn)編號的集合Di和Dj,求取得到兩個集合元素的交集D inDj,i尹j,i,je{l,...,N}, 統(tǒng)計得到交集元素的個數(shù)Cij ;
[0019] S4. 4,根據(jù)步驟S4. 3得到的兩兩聲道頻譜極大值點(diǎn)對應(yīng)頻點(diǎn)交集個數(shù)Cij,計算得 至綱兩聲道間的相關(guān)性系數(shù)Rij = Cij/K。
[0020] 步驟S5包括以下子步驟,
[0021] S5. 1,根據(jù)步驟S4得到的兩兩聲道間的相關(guān)性系數(shù)Rij e U,U = {R12, R13,...,Rin ,R23,…R2n,…,R(n_1)n},i,j e {1,…,N},i關(guān)j,求取U的最大值Max (U)為Rab,放入相關(guān) 性系數(shù)最大值集合SU,同時從U中刪除掉下標(biāo)中含有a或b的所有元素,得到剩下的元素組 成新的集合U ;
[0022] S5. 2,根據(jù)新的集合U,重復(fù)步驟S5. 1,直到得到N/2個按從大到小順序排列的兩 兩聲道相關(guān)性系數(shù)的排序結(jié)果SU = (R1, R2, . . .,RN/2};
[0023] S5. 3,按步驟S5. 2得到的兩兩聲道間的相關(guān)性排序結(jié)果SU = (R1, R2, . . .,RN/2},對 N個揚(yáng)聲器信號進(jìn)行聚類分組,逐一將相關(guān)性最強(qiáng)的兩個聲道分為一組,依次得到M-I個分 組,然后將剩下的聲道分為第M組,最終得到M個分組信息G 1, ...,Gm
[0024] -種三維音頻多聲道分組聚類編碼系統(tǒng),包括以下模塊:
[0025] 預(yù)處理模塊,用于對N個聲道輸入信號進(jìn)行預(yù)處理,得到N個聲道的當(dāng)前幀的音頻 信號S 1, ...,Sn輸出給時頻變換模塊;
[0026] 時頻變換模塊,用于對從預(yù)處理模塊輸入的音頻信號S1, ...,Sn進(jìn)行時頻變換,得 到頻譜系數(shù)X1, ...,Xn,輸出給子帶劃分模塊;
[0027] 子帶劃分模塊,用于對時頻變換模塊輸入的頻譜系數(shù)X1, ...,Xn進(jìn)行子帶劃分,得 到N個聲道的子帶頻譜系數(shù)X1 (k),...,Xn (k),分三路輸出,一路輸出給聲道相關(guān)性分析模 塊,一路輸出給空間參數(shù)提取模塊,一路輸出給分組下混模塊;
[0028] 聲道相關(guān)性分析模塊,用于對N個聲道的頻譜系數(shù)X1, ...,Xn進(jìn)行分析,得到聲道 間的相關(guān)性系數(shù),輸出給聚類分組模塊;
[0029] 聚類分組模塊,根據(jù)聲道間的相關(guān)性,對N個聲道信號進(jìn)行聚類分組,將得到的分 組信息分三路輸出,一路輸出給分組信息量化編碼模塊,一路輸出給分組下混模塊,一路輸 出給空間參數(shù)提取模塊;
[0030] 分組信息量化編碼模塊,用于對N個聲道的分組信息進(jìn)行量化編碼,將編碼結(jié)果 作為碼流的一部分輸出給解碼端;
[0031] 分組下混模塊,根據(jù)N個聲道的分組信息,對N個聲道進(jìn)行下混,得到下混聲道信 號,輸出給下混信號量化編碼模塊;
[0032] 下混信號量化編碼模塊,對下混聲道信號進(jìn)行編碼,將編碼結(jié)果作為碼流的一部 分輸出給解碼端;
[0033] 空間參數(shù)提取模塊,根據(jù)N個聲道的分組信息,對每個分組中的聲道信號提取空 間參數(shù),輸出給空間參數(shù)量化編碼模塊;
[0034] 空間參數(shù)量化編碼模塊,對提取出的空間參數(shù)進(jìn)行量化編碼,將編碼結(jié)果作為碼 流的一部分輸出給解碼端。
[0035] 本發(fā)明針對現(xiàn)有多聲道下混編碼方法中使用簡單的固定分組下混不能有效地利 用三維音頻信號的空間聚類特性,會導(dǎo)致三維音頻信號去冗余效果降低,不相關(guān)的聲道分 組進(jìn)行空間參數(shù)提取會造成重建空間音質(zhì)受損的問題,利用同一聲源同組揚(yáng)聲器信號子帶 包絡(luò)結(jié)構(gòu)相似性的特點(diǎn),提出一種基于子帶頻點(diǎn)極值包絡(luò)相似性計算方法進(jìn)行動態(tài)的三維 音頻分組下混,分組計算復(fù)雜度遠(yuǎn)低于相關(guān)性計算方法,但準(zhǔn)確率相當(dāng),該方法能有效地將 形成主要聲像的多個揚(yáng)聲器進(jìn)行分組,保證分組揚(yáng)聲器提取的空間參數(shù)信息更好地描述實(shí) 際聲像的空間位置信息,解決固定分組參數(shù)提取方法中帶來的信息混疊問題。
【專利附圖】
【附圖說明】
[0036] 圖1是本發(fā)明實(shí)施例提供的三維音頻多聲道分組聚類編碼方法的原理框圖。
【具體實(shí)施方式】
[0037] 下面結(jié)合附圖和實(shí)施例詳細(xì)對本發(fā)明提供的三維音頻多聲道分組聚類編碼方法 及系統(tǒng)進(jìn)行詳細(xì)描述。
[0038] 具體實(shí)施時,本發(fā)明所提供系統(tǒng)可采用計算機(jī)軟件模塊化技術(shù)實(shí)現(xiàn)。參見圖1,本 發(fā)明提供了一種三維音頻多聲道分組聚類編碼方法,具體步驟包括:
[0039] 在步驟Sl中,對N個聲道輸入信號進(jìn)行預(yù)處理,具體包括高通濾波、分幀處理,將 輸入信號101送入高通濾波器,濾除50Hz以下的低頻信號;以20ms為一幀讀取采樣數(shù)據(jù)作 為當(dāng)前幀數(shù)據(jù);得到N個聲道的當(dāng)前幀的音頻信號S 1, ...,Sn,即音頻信號102下標(biāo)1表示 第1個聲道,下標(biāo)N表示第N個聲道;
[0040] 在步驟S2中,由步驟Sl所得音頻信號S1, ...,Sn,進(jìn)行256點(diǎn)的FFT時頻變換,得 到每一幀各自256個頻譜系數(shù)X1, ...,Xn,即頻譜系數(shù)103 ;
[0041] 在步驟S3,對步驟S2所得頻譜系數(shù)X1, ...,Xn進(jìn)行子帶劃分,將整個頻譜均勻劃 分為16個子帶,每個子帶16個頻譜系數(shù),得到N個聲道的子帶頻譜系數(shù)X 1 (k),...,Xn (k), 即信號104, k e {1,…,K},K = 256,為頻點(diǎn)總數(shù);
[0042] 在步驟S4中,根據(jù)步驟S3得到的N個聲道的子帶頻譜系數(shù)X1 (k),. . .,XN(k),計 算得到兩兩聲道間的相關(guān)性系數(shù)Rij, i和j對應(yīng)聲道編號,i尹j,i,j e {1,...,N},即信 號 105 ;
[0043] 在步驟S5中,根據(jù)步驟S4得到的兩兩聲道間的相關(guān)性系數(shù)Rm對N個聲道信號 進(jìn)行聚類分組,得到M個分組G 1, . . .,GM,即信號106 ;
[0044] 在步驟S6中,根據(jù)步驟S5得到的M個分組信息,進(jìn)行熵編碼,采用現(xiàn)有技術(shù)中的 差分Huffman編碼,得到編碼結(jié)果,將編碼結(jié)果作為碼流的一部分輸出給解碼端;
[0045] 在步驟S7中,對于步驟S3得到的N個聲道的子帶頻譜系數(shù)X1 (k),. . .,XN(k),即 信號104,根據(jù)步驟S5得到的M個分組信息,即信號106,對每個分組內(nèi)的聲道進(jìn)行下混,得 到M組下混聲道信號,即信號108 ;
[0046] 在步驟S8中,根據(jù)步驟S7得到的M組下混聲道信號,利用現(xiàn)有的通用音頻編碼方 法進(jìn)行量化編碼,將編碼結(jié)果作為碼流的一部分輸出給解碼端;
[0047] 在步驟S9中,根據(jù)步驟S5得到M個分組信息,對每個分組內(nèi)的聲道進(jìn)行空間參數(shù) 提取,得到M組空間參數(shù),即信號107 ;
[0048] 在步驟SlO中,根據(jù)步驟S9得到的M組空間參數(shù),進(jìn)行利用現(xiàn)有的通用音頻編碼 方法對空間參數(shù)進(jìn)行編碼,將編碼結(jié)果作為碼流的一部分輸出給解碼端。
[0049] 其中,步驟S4進(jìn)一步包括以下子步驟,
[0050] 步驟S4. 1,根據(jù)步驟S3得到的N個聲道的子帶頻譜系數(shù)X1GO,...,XN(k), k e {1,...,K},K為每個聲道每幀信號時頻變換后的頻點(diǎn)總數(shù),計算每個聲道的L個頻譜 極大值點(diǎn)認(rèn),,(認(rèn)..式(4),-人隊)丨,(丨),,乂(抑,ne {l,...,N},le {l,...,L};
[0051] 步驟S4. 2,根據(jù)步驟S4. 1得到的每個聲道的L個頻譜極大值點(diǎn)^^,… ,Xn(L1), "'Xn(U)K得到每個聲道的對應(yīng)頻點(diǎn)編號的集合/),,=丨/,….L1] - !1K], n e {1,...,N},N為聲道個數(shù),K為每個聲道每幀信號時頻變換后的頻點(diǎn)總數(shù);
[0052] 步驟S4. 3,根據(jù)步驟S4. 2得到的所有聲道的對應(yīng)頻點(diǎn)編號的集合, 對第i和j個聲道的頻點(diǎn)編號的集合Di和Dp求取得到兩個集合元素的交集 Di n Dj, i關(guān)j, i, j e {1,· · ·,N},統(tǒng)計得到交集元素的個數(shù)Cij ;
[0053] 步驟S4. 4,根據(jù)步驟S4. 3得到的兩兩聲道頻譜極大值點(diǎn)對應(yīng)頻點(diǎn)交集個數(shù)Cij,計 算得到兩兩聲道間的相關(guān)性系數(shù)Ru = Cu/K。
[0054] 進(jìn)一步,步驟S5進(jìn)一步包括以下子步驟,
[0055] 步驟S5. 1,根據(jù)步驟S4得到的兩兩聲道間的相關(guān)性系數(shù)Rij e U,U = {R12, R13,.. ?,Rin, R23, · · · R2n, · · ·,R(N_1)N},i, j e {1,· · ·,N},i 關(guān) j,求取 U 的最大值 Max (U)為 Rab,放入 相關(guān)性系數(shù)最大值集合SU,同時從U中刪除掉下標(biāo)中含有a或b的所有元素,得到剩下的元 素組成新的集合U ;
[0056] 步驟S5. 2,根據(jù)新的集合U,重復(fù)步驟S5. 1,直到得到N/2個按從大到小順序排列 的兩兩聲道相關(guān)性系數(shù)的排序結(jié)果SU = (R1, R2,. . .,RN/2};
[0057] 步驟S5. 3,按步驟S5. 2得到的兩兩聲道間的相關(guān)性排序結(jié)果SU = (R1, R2,. . .,RN/2},對N個揚(yáng)聲器信號進(jìn)行聚類分組,逐一將相關(guān)性最強(qiáng)的兩個聲道分為一 組,依次得到M-I個分組,然后將剩下的聲道分為第M組,最終得到M個分組信息G 1, ...,Gm。
[0058] -種三維音頻多聲道分組聚類編碼系統(tǒng),包括以下模塊:
[0059] 預(yù)處理模塊,用于對N個聲道輸入信號進(jìn)行預(yù)處理,得到N個聲道的當(dāng)前幀的音頻 信號S1,. . .,Sn輸出給時頻變換模塊。
[0060] 實(shí)施例中,預(yù)處理模塊對輸入的多聲道音頻信號(即音頻原始信號101)進(jìn)行預(yù)處 理,而預(yù)處理一般具體包括高通濾波、分幀處理,將輸入信號(101)送入高通濾波器,濾除 50Hz以下的低頻信號;以20ms為一幀讀取采樣數(shù)據(jù)作為當(dāng)前幀數(shù)據(jù);輸出信號為N個聲道 的當(dāng)前幀的音頻信號S 1, ...,Sn(即預(yù)處理后信號102),下標(biāo)1表示第1個聲道,下標(biāo)N表 示第N個聲道。
[0061] 時頻變換模塊:預(yù)處理后的N個聲道的信號作為本模塊的輸入,用于對從預(yù)處理 模塊輸入的音頻信號S 1, ...,Sn進(jìn)行現(xiàn)有技術(shù)中通用的時頻變換,得到頻譜系數(shù)X1, ...,XN, 輸出給子帶劃分模塊。
[0062] 實(shí)施例中,時頻變換模塊對預(yù)處理模塊的輸出結(jié)果S1, ...,Sn (102),進(jìn)行FFT變 換,得到每一幀各自的頻譜系數(shù)X1,...,χΝ。
[0063] 子帶劃分模塊:時頻變換模塊得到的預(yù)處理后的頻域的音頻信號作為本模塊的輸 入,采用現(xiàn)有技術(shù)中通用的子帶劃分方法,得到N個聲道的子帶頻譜系數(shù),分三路輸出,一 路輸出給聲道相關(guān)性分析模塊,一路輸出給空間參數(shù)提取模塊,一路輸出給分組下混模塊。
[0064] 實(shí)施例中,子帶劃分模塊對時頻變換模塊得到的頻譜系數(shù)X1, ...,Xn,進(jìn)行子帶劃 分,實(shí)施例將整個頻譜均勻劃分為16個子帶,每個子帶16個頻譜系數(shù),得到N個聲道的子 帶頻譜系數(shù) X1GO^mXn (k),k e {1,···,Κ},Κ = 256,為頻點(diǎn)總數(shù)。
[0065] 聲道相關(guān)性分析模塊,用于對N個聲道的頻譜系數(shù)進(jìn)行分析,得到聲道間的相關(guān) 性系數(shù),輸出給聚類分組模塊。
[0066] 實(shí)施例中,對于N個聲道的子帶頻譜系數(shù)X1 (k),...,Xn (k) (104),計算每個聲道的 L個頻譜極大值點(diǎn)Ρ?〇ι),,,·,^Κ),·.,,^(Ζζ)Χ^?(1),,··,^(Ζ)},n e {1,· · ·,N},I e {1,· · ·,L}, 得到每個聲道的對應(yīng)頻點(diǎn)編號的集合Ai = R1,...,盡丨c仏...,尺丨,n e {1,...,N},N為聲道個 數(shù),K為頻點(diǎn)總數(shù),對第i和j個聲道的頻點(diǎn)編號的集合Di和IV求取得到兩個集合元素的 交集Di n Dj, i尹j,i,j e {1,...,N},統(tǒng)計得到交集元素的個數(shù)Cij,計算得到兩兩聲道間 的相關(guān)性系數(shù)Rij = Cu/K。
[0067] 聚類分組模塊,根據(jù)聲道相關(guān)性分析模塊得到的兩兩聲道間的相關(guān)性系數(shù)RiP對 N個聲道信號進(jìn)行聚類分組,將得到的分組信息分三路輸出,一路輸出給分組信息量化編碼 模塊,一路輸出給分組下混模塊,一路輸出給空間參數(shù)提取模塊。
[0068] 實(shí)施例中,根據(jù)聲道相關(guān)性分析模塊得到的兩兩聲道間的相關(guān)性系數(shù)Ry得 到的兩兩聲道間的相關(guān)性系數(shù) Rij e U,U = {R12, R13,...,R1N,R23,... R2N,...,R(N_1)N}, i,j e {1,. . .,N},i尹j,求取U的最大值Max (U)為Rab,放入相關(guān)性系數(shù)最大值集合SU,同 時從U中刪除掉下標(biāo)中含有a或b的所有元素,得到剩下的元素組成新的集合U ;根據(jù)新的 集合U,重復(fù)上述步驟,直到得到N/2個按從大到小順序排列的兩兩聲道相關(guān)性系數(shù)的排序 結(jié)果SU = (R1, R2,. . .,RN/2};依照此結(jié)果對N個揚(yáng)聲器信號進(jìn)行聚類分組,逐一將相關(guān)性最 強(qiáng)的兩個聲道分為一組,依次得到M-I個分組,然后將剩下的聲道分為第M組,最終得到M 個分組信息G1,. . .,Gm。
[0069] 分組信息量化編碼模塊,用于對N個聲道的分組信息進(jìn)行量化編碼,將編碼結(jié)果 作為碼流的一部分輸出給解碼端。實(shí)施例中,對于聚類分組模塊得到的M個分組信息,利用 現(xiàn)有的熵編碼方法進(jìn)行量化編碼,實(shí)施例采用現(xiàn)有技術(shù)中的差分Huffman編碼,得到編碼 結(jié)果,將編碼結(jié)果作為碼流的一部分輸出給解碼端。
[0070] 分組下混模塊,根據(jù)N個聲道的分組信息,對N個聲道進(jìn)行下混,得到下混聲道信 號,輸出給下混信號量化編碼模塊。實(shí)施例中,對N個聲道的子帶頻譜系數(shù),根據(jù)聚類分組 模塊得到的M個分組信息,對每個分組內(nèi)的聲道信號,采用現(xiàn)有通用的空間音頻編碼下混 方法進(jìn)行聲道信號下混,得到M組下混聲道信號。
[0071] 下混信號量化編碼模塊,對下混聲道信號進(jìn)行編碼,將編碼結(jié)果作為碼流的一部 分輸出給解碼端。實(shí)施例中,對分組下混模塊得到的M組下混聲道信號,利用現(xiàn)有的通用音 頻編碼方法進(jìn)行量化編碼,將編碼結(jié)果作為碼流的一部分輸出給解碼端。
[0072] 空間參數(shù)提取模塊,根據(jù)N個聲道的分組信息,對每個分組中的聲道信號提取空 間參數(shù),輸出給空間參數(shù)量化編碼模塊。實(shí)施例中,對N個聲道的子帶頻譜系數(shù),根據(jù)聚類 分組模塊得到的M個分組信息,對每個分組內(nèi)的聲道,利用現(xiàn)有通用的空間參數(shù)提取方法 按子帶提取虛擬聲源空間參數(shù),得到M組下混聲道信號提取的空間參數(shù)。
[0073] 空間參數(shù)量化編碼模塊,對提取出的空間參數(shù)進(jìn)行量化編碼,將編碼結(jié)果作為碼 流的一部分輸出給解碼端。實(shí)施例中,對于空間參數(shù)提取模塊得到的M組下混聲道信號提 取的空間參數(shù),進(jìn)行利用現(xiàn)有的通用音頻編碼方法對空間參數(shù)進(jìn)行編碼,將編碼結(jié)果作為 碼流的一部分輸出給解碼端。
[0074] 以上實(shí)施例僅供說明本發(fā)明之用,而非對本發(fā)明的限制,有關(guān)【技術(shù)領(lǐng)域】的技術(shù)人 員,在不脫離本發(fā)明的精神和范圍的情況下,還可以作出各種變換或變型,因此所有等同的 技術(shù)方案,都落入本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1. 一種三維音頻多聲道分組聚類編碼方法,其特征在于,包括以下步驟: S1,對N個聲道輸入信號進(jìn)行預(yù)處理,得到N個聲道的當(dāng)前幀的音頻信號S1,...,Sn ; 52, 由步驟Sl所得音頻信號S1,. . .,Sn,進(jìn)行時頻變換得到頻譜系數(shù)X1,. . .,Xn ; 53, 對步驟S2所得頻譜系數(shù)X1, ...,Xn進(jìn)行子帶劃分,得到N個聲道的子帶頻譜系數(shù) X1 (k),· · ·,XN(k),ke{1,· · ·,K},K為頻點(diǎn)總數(shù); 54, 根據(jù)步驟S3得到的N個聲道的子帶頻譜系數(shù)X1 (k),...,Xn (k),計算得到兩兩聲道 間的相關(guān)性系數(shù)Rij; 55, 根據(jù)步驟S4得到的兩兩聲道間的相關(guān)性系數(shù)Ry對N個聲道信號進(jìn)行聚類分組, 得到M個分組G1,. · .,Gm ; 56, 根據(jù)步驟S5得到M個分組信息,進(jìn)行熵編碼,將編碼結(jié)果作為碼流的一部分輸出給 解碼端; 57, 根據(jù)步驟S5得到M個分組信息,對步驟S3得到的每個聲道的子帶頻譜系數(shù) X1 (k),. . .,Xn (k)進(jìn)行下混,得到M組下混聲道信號; 58, 根據(jù)步驟S7得到的M組下混聲道信號,利用現(xiàn)有的通用音頻編碼方法進(jìn)行量化編 碼,將編碼結(jié)果作為碼流的一部分輸出給解碼端; 59, 根據(jù)步驟S5得到M個分組信息,對每個分組內(nèi)的聲道進(jìn)行空間參數(shù)提取,得到M組 空間參數(shù); S10,根據(jù)步驟S9得到的M組空間參數(shù),利用現(xiàn)有的通用音頻編碼方法對空間參數(shù)進(jìn)行 編碼,將編碼結(jié)果作為碼流的一部分輸出給解碼端。
2. 根據(jù)權(quán)利要求1所述三維音頻多聲道分組聚類編碼方法方法,其特征在于:所述步 驟S4進(jìn)一步包括以下子步驟, S4. 1,根據(jù)步驟S3得到的N個聲道的子帶頻譜系數(shù)X1 (k),...,Xn (k),ke{1,...,K},K為每個聲道每幀信號時頻變換后的頻點(diǎn)總數(shù),計算每個聲道的L個頻譜極大值點(diǎn) {尤⑷,…,X"(A),…,…式⑷},ne{1,…,N},Ie{1,…,L}; S4. 2,根據(jù)步驟S4. 1得到的每個聲道的L個頻譜極大值點(diǎn)^^,…,"!^),… ,Xn(U)},得到每個聲道的對應(yīng)頻點(diǎn)編號的集合A· = c,ne{1,...,N},N 為聲道個數(shù),K為每個聲道每幀信號時頻變換后的頻點(diǎn)總數(shù); S4. 3,根據(jù)步驟S4. 2得到的所有聲道的對應(yīng)頻點(diǎn)編號的集合,對第i和j個聲道的頻 點(diǎn)編號的集合Di和D」,求取得到兩個集合元素的交集DinDj,i尹j,i,je{1,...,N},統(tǒng) 計得到交集元素的個數(shù)Cij ; 54. 4,根據(jù)步驟S4. 3得到的兩兩聲道頻譜極大值點(diǎn)對應(yīng)頻點(diǎn)交集個數(shù)Cij,計算得到兩 兩聲道間的相關(guān)性系數(shù)Ru=Ci/K。
3. 根據(jù)權(quán)利要求1或2所述三維音頻多聲道分組聚類編碼方法方法,其特征在于:步 驟S5包括以下子步驟, 55. 1,根據(jù)步驟S4得到的兩兩聲道間的相關(guān)性系數(shù)RijeU,U= {R12,R13,...,R1N,R23, ? · ·R2n,· · ·,,i,je{1,. . .,N},i尹j,求取U的最大值Max(U)為Rab,放入相關(guān)性系 數(shù)最大值集合SU,同時從U中刪除掉下標(biāo)中含有a或b的所有元素,得到剩下的元素組成新 的集合U; S5. 2,根據(jù)新的集合U,重復(fù)步驟S5.I,直到得到N/2個按從大到小順序排列的兩兩聲 道相關(guān)性系數(shù)的排序結(jié)果SU= (R1,R2,. . .,RN/2}; S5. 3,按步驟S5. 2得到的兩兩聲道間的相關(guān)性排序結(jié)果SU= (R1,R2,. . .,RN/2},對N個 揚(yáng)聲器信號進(jìn)行聚類分組,逐一將相關(guān)性最強(qiáng)的兩個聲道分為一組,依次得到M-I個分組, 然后將剩下的聲道分為第M組,最終得到M個分組信息G1, ...,Gm。
4. 一種三維音頻多聲道分組聚類編碼系統(tǒng),其特征在于,包括以下模塊: 預(yù)處理模塊,用于對N個聲道輸入信號進(jìn)行預(yù)處理,得到N個聲道的當(dāng)前幀的音頻信號S1,. . .,Sn輸出給時頻變換模塊; 時頻變換模塊,用于對從預(yù)處理模塊輸入的音頻信號S1, ...,Sn進(jìn)行時頻變換,得到頻 譜系數(shù)X1, ...,Xn,輸出給子帶劃分模塊; 子帶劃分模塊,用于對時頻變換模塊輸入的頻譜系數(shù)X1, ...,Xn進(jìn)行子帶劃分,得到N個聲道的子帶頻譜系數(shù)X1 (k),...,Xn (k),分三路輸出,一路輸出給聲道相關(guān)性分析模塊,一 路輸出給空間參數(shù)提取模塊,一路輸出給分組下混模塊; 聲道相關(guān)性分析模塊,用于對N個聲道的頻譜系數(shù)X1, ...,Xn進(jìn)行分析,得到聲道間的 相關(guān)性系數(shù),輸出給聚類分組模塊; 聚類分組模塊,根據(jù)聲道間的相關(guān)性,對N個聲道信號進(jìn)行聚類分組,將得到的分組信 息分三路輸出,一路輸出給分組信息量化編碼模塊,一路輸出給分組下混模塊,一路輸出給 空間參數(shù)提取1?塊; 分組信息量化編碼模塊,用于對N個聲道的分組信息進(jìn)行量化編碼,將編碼結(jié)果作為 碼流的一部分輸出給解碼端; 分組下混模塊,根據(jù)N個聲道的分組信息,對N個聲道進(jìn)行下混,得到下混聲道信號,輸 出給下混信號量化編碼模塊; 下混信號量化編碼模塊,對下混聲道信號進(jìn)行編碼,將編碼結(jié)果作為碼流的一部分輸 出給解碼端; 空間參數(shù)提取模塊,根據(jù)N個聲道的分組信息,對每個分組中的聲道信號提取空間參 數(shù),輸出給空間參數(shù)量化編碼模塊; 空間參數(shù)量化編碼模塊,對提取出的空間參數(shù)進(jìn)行量化編碼,將編碼結(jié)果作為碼流的 一部分輸出給解碼端。
【文檔編號】G10L19/008GK104240712SQ201410524784
【公開日】2014年12月24日 申請日期:2014年9月30日 優(yōu)先權(quán)日:2014年9月30日
【發(fā)明者】胡瑞敏, 張茂勝, 姚雪春, 王曉晨, 姜林, 涂衛(wèi)平, 王松, 楊乘 申請人:武漢大學(xué)深圳研究院