專利名稱:多信道音頻處理的制作方法
技術領域:
本發(fā)明的實施方式涉及多信道音頻處理。具體而言,涉及音頻信號分析、編碼和/或解碼多信道音頻。
背景技術:
多信道音頻信號分析用于例如關于3D圖像、音頻編碼中的方向和運動以及聲音源數(shù)量的多信道音頻環(huán)境分析中,其又可用于編碼例如語音、音樂等等。多信道音頻編碼可用于例如數(shù)字音頻廣播、數(shù)字電視廣播、音樂下載服務、流音樂服務、因特網(wǎng)廣播、電話會議、基于分組交換網(wǎng)的實時多媒體傳輸(如IP語音、多媒體廣播 組播服務(MBMS)和分組交換流(PSS))。
發(fā)明內容
根據(jù)本發(fā)明的各種但不一定是所有實施方式,提供了一種方法,包括接收至少第一輸入音頻信道和第二輸入音頻信道;并且使用信道間預測模型來形成至少一個信道間接收方向參數(shù)。根據(jù)本發(fā)明的各種但不一定是所有實施方式,提供了一種計算機程序產品,包括當被加載到處理器中時控制該處理器執(zhí)行以下操作的該機器可讀指令接收至少第一輸入音頻信道和第二輸入音頻信道;并且使用信道間預測模型來形成至少一個信道間接收方向參數(shù)。根據(jù)本發(fā)明的各種但不一定是所有實施方式,提供了一種包括處理器和用于記錄機器可讀指令的存儲器的裝置,其中當該機器可讀指令被加載到處理器中時使得該裝置接收至少第一輸入音頻信道和第二輸入音頻信道;并且使用信道間預測模型來形成至少一個信道間接收方向參數(shù)。根據(jù)本發(fā)明的各種但不一定是所有實施方式,提供了一種裝置,包括用于接收至少第一輸入音頻信道和第二輸入音頻信道的單元;以及用于使用信道間預測模型來形成至少信道間接收方向參數(shù)的單元。根據(jù)本發(fā)明的各種但不一定是所有實施方式,提供了一種方法,包括接收縮混信號和至少一個信道間接收方向參數(shù);并且使用該縮混信號和該至少一個信道間接收方向參數(shù)來呈現(xiàn)多信道音頻輸出。
為了更好地理解本發(fā)明的各種示例性實施方式,現(xiàn)在將僅通過實例的方式來參考附圖,其中圖I示意性地示出了用于多信道音頻編碼的系統(tǒng);圖2示意性地示出了編碼器裝置;圖3示意性地示出了在一些實現(xiàn)中可以如何確定對于不同的推定信道間預測模型H1和H2的成本函數(shù);圖4示意性地示出了用于根據(jù)所選擇的信道間預測模型H確定信道間參數(shù)的方法;圖5示意性地示出了用于根據(jù)所選擇的信道間預測模型H確定信道間參數(shù)的方法;圖6示意性地示出了可以被用作為編碼器裝置和/或解碼器裝置的編解碼器裝置的組件;圖7示意性地示出了用于確定信道間接收方向參數(shù)的方法;圖8示意性地示出了用于將合成塊的多信道輸出混合到多個輸出音頻信道中的解碼器;以及圖9示意性地示出了用于從編碼器裝置接收輸入信號的解碼器裝置。
具體實施例方式在該實例中,所示的多信道音頻編碼器裝置4是參數(shù)編碼器,該參數(shù)編碼器利用多信道音頻信號分析根據(jù)預定義的參數(shù)模型來進行編碼。在該實例中,參數(shù)模型是一種使得能夠進行有損壓縮和數(shù)據(jù)速率降低以便降低容納該多信道音頻信號所需要的傳輸帶寬或存儲空間的直觀模型。編碼器裝置4在該實例中使用參數(shù)編碼技術如雙聲道線索編碼(binaural cuecoding, BCC)參數(shù)化來執(zhí)行多信道音頻編碼。參數(shù)音頻編碼模型通常將原始音頻表示成縮混信號,其中該縮混信號包括從該原始信號的信道形成的數(shù)量減少的音頻信道(例如作為單聲道或作為雙信道(立體聲)加和信號)以及描述該原始信號的信道之間的差以便使得能夠重構該原始信號(即描述由該原始信號所表示的空間圖像)的參數(shù)的比特流??梢詫ǘ鄠€信道的縮混信號看作為多個獨立的縮混信號。參數(shù)可以包括在多個變換域時-頻時隙中的每一個中(即在輸入幀的頻率子帶中)估計的至少一個信道間參數(shù)。傳統(tǒng)而言,信道間參數(shù)是信道間等級差(ILD)參數(shù)和信道間時間差(ITD)參數(shù)。但是,在下文中信道間參數(shù)包括信道間接收方向(IDR)參數(shù)。在確定該信道間接收方向(IDR)參數(shù)的過程期間,仍然可以將信道間等級差(ILD)參數(shù)和/或信道間時間差(ITD)參數(shù)確定為中間參數(shù)。為了保存輸入信號的空間音頻圖像,重要的是準確地確定這些參數(shù)。圖I示意性地示出了用于多信道音頻編碼的系統(tǒng)2。多信道音頻編碼可以用于例如數(shù)字音頻廣播、數(shù)字電視廣播、音樂下載服務、流音樂服務、因特網(wǎng)廣播、對話應用、電話
石kK寸寸O多信道音頻信號35可以表不使用多個麥克風25n從現(xiàn)實環(huán)境中捕獲的音頻圖像,其中該多個麥克風25n捕獲來自聲學空間中的一個或多個聲音源的聲音33。由獨立的麥克風提供的信號表示多信道音頻信號35中的獨立的信道33n。由編碼器4處理該信號,以提供該聲學空間的空間音頻圖像的濃縮表示。通常使用的麥克風結構的實例包括用于立體聲(即兩個信道)的多信道配置,5. I和7. 2信道配置。特殊的情況是雙耳音頻捕獲,其旨在 通過使用兩個信道33:、332來捕獲與到達(真實或虛擬)收聽者的耳膜處的兩個信道相對應的信號以建模人類聽覺。但是,基本上可以使用任意類型的多麥克風結構來捕獲多信道音頻信號。典型而言,使用聲學空間中的多個麥克風所捕獲的多信道音頻信號35產生具有相關信道的多信道音頻。輸入到編碼器4的多信道音頻信號35也可以表示源自不同的(典型而言不相關的)源的可能通過組合信道33n所創(chuàng)建的虛擬音頻圖像。原始信道33n可以是單個信道或多個信道。可以由編碼器4處理該多信道音頻信號35的信道來展現(xiàn)希望的空間音頻圖像,例如通過這樣一種方式將原始信號設置在該音頻圖像中的希望的“位置”中,其中在該方式中該原始信號直觀看起來來自希望的方向并且可能還處于希望的等級。圖2示意性地示出了編碼器裝置4。
在該實例中,所示多信道音頻編碼器裝置4是參數(shù)編碼器,其中該參數(shù)編碼器利用多信道音頻信號分析根據(jù)所定義的參數(shù)模型來進行編碼。在該實例中,參數(shù)模型是允許有損壓縮和帶寬降低的直觀模型。編碼器裝置4在該實例中使用參數(shù)編碼技術例如雙聲道線索編碼(BCC)參數(shù)化來執(zhí)行空間音頻編碼。參數(shù)音頻編碼模型如BCC通常將原始音頻表示成縮混信號,其中該縮混信號包括從該原始信號的信道形成的數(shù)量減少的音頻信道(例如作為單聲道或作為雙信道(立體聲)加和信號)以及描述該原始信號的信道之間的差以便使得能夠重構該原始信號(即描述由該原始信號所表示的空間圖像)的參數(shù)的比特流??梢詫ǘ鄠€信道的縮混信號看作為多個獨立的縮混信號。變換器50在離散時間幀上使用例如濾波器組分解,將輸入音頻信號(兩個或更多個輸入音頻信道)從時域變換到頻域。該濾波器組可能被嚴格抽樣。嚴格抽樣意味著數(shù)據(jù)(每秒鐘的樣本)的數(shù)量在變換域中保持相同。可以將該濾波器組實現(xiàn)為例如重疊變換,其中當作為子帶分解的一部分而執(zhí)行塊(即幀)的窗化時該重疊變換使得能夠從一個幀到另一個幀進行平滑轉變??蛇x擇地,可以使用例如多相格式的FIR濾波器將該分解實現(xiàn)為連續(xù)濾波操作,以允許計算高效的操作。將輸入音頻信號的信道獨立地變換到頻域,即變換到針對輸入幀時隙的多個頻率子帶。因此,在時域中將輸入音頻信道劃分成時隙并且在頻域中將輸入音頻信道劃分成子帶。在時域中該劃分可能是均勻的,以形成均勻的時隙例如持續(xù)時間相等的時隙。在頻域中該劃分可能是均勻的,以形成均勻的子帶例如頻率范圍相等的子帶;或者在頻域中該劃分可能是不均勻的,以形成不均勻的子帶結構例如頻率范圍不同的子帶。在一些實施方式中,在低頻處的子帶比在高頻處的子帶窄。從直觀并且心理聲學的觀點看來,優(yōu)選靠近ERB(等效矩形帶寬)尺度的子帶結構。但是可以應用任意類型的子帶分割。向音頻場景分析器54提供來自變換器50的輸出,音頻場景分析器54產生場景參數(shù)55。在變換域中分析該音頻場景,并且提取并處理對應的參數(shù)55以便傳輸或者存儲以供稍后使用。音頻場景分析器54使用信道間預測模型來形成信道間場景參數(shù)55。信道間參數(shù)可以包括例如在每個變換域時-頻時隙(即輸入幀的頻率子帶)中估計的信道間接收方向(IDR)參數(shù)。另外,可以確定所選擇的信道對之間的輸入幀的頻率子帶的信道間相干性(ICC)。通常,針對輸入信號的每個時-頻時隙或者時-頻時隙的子集確定IDR和ICC參數(shù)。時-頻時隙的子集例如可以直觀地表示最重要頻率分量、輸入幀的子集的頻率時隙(的子集)或者特別感興趣的時-頻時隙的任意子集。信道間參數(shù)的直觀重要性可能隨時-頻時隙的不同而不同。此外,對于具有不同特性的輸入信號,信道間參數(shù)的直觀重要性可能不同??梢栽谌我鈨蓚€信道之間確定IDR參數(shù)。作為一個實例,可以在輸入音頻信道與參考信道之間,通常是每個輸入音頻信道和參考輸入音頻信道之間,確定IDR參數(shù)。作為另一個實例,可以將麥克風陣列的相鄰麥克風形成一個對來將輸入信道分組為信道對,并且針對每個信道對確定IDR參數(shù)。通常針對將每個信道與參考信道進行比較來單獨地確定ICC。在下文中,使用具有兩個輸入信道L、R和單信道縮混信號的實例示出了 BCC方法的一些細節(jié)。但是可以將該表示概括為覆蓋多于兩個輸入音頻信道和/或使用多個縮混信號(或具有多個信道的縮混信號)的配置。 縮混器52創(chuàng)建縮混信號作為輸入信號的信道的組合。用于描述音頻場景的參數(shù)還可用于多信道輸入信號在縮混處理之前或之后的附加處理,以例如消除信道之間的時間差以便提供跨輸入信道的時間對準的音頻。通常在變換域中將縮混信號創(chuàng)建為輸入信號的信道的線性組合。例如,在雙信道情況中,可以簡單地通過求左信道和右信道的信號的平均來創(chuàng)建縮混\+ C)-等式 I還存在用于創(chuàng)建縮混信號的其他手段。在一個實例中,可以在組合之前對左和右輸入信道進行加權,以該方式可以保留該信號的能量。例如當其中一個信道上的信號能量顯著低于另一個信道上的信號能量或者一個信道上的能量接近于零的時候,這可能是有用的??梢允褂每蛇x擇的逆變換器56在時域中產生縮混音頻信號57??蛇x擇地,可以沒有逆變換器56。因此在頻域中對輸出的縮混音頻信號57進行連續(xù)編碼。多信道或雙聲道編碼器的輸出通常包括編碼的縮混音頻信號57和場景參數(shù)55??梢杂冕槍π盘?7和55的獨立的編碼塊(未顯示)來提供該編碼。任意單聲(或立體聲)音頻編碼器適用于縮混音頻信號57,而對于信道間參數(shù)55需要專門的BCC參數(shù)編碼器。信道間參數(shù)可以包括例如信道間接收方向(IDR)參數(shù)。圖3示意性地示出了在一些實現(xiàn)中可以如何確定對于不同的推定信道間預測模型氏和H2的成本函數(shù)??梢詫⒁纛l信道j在主子帶中在時間n處的樣本表示為x^n)??梢詫⒁纛l信道j在主子帶中在時間n處的歷史過去樣本表示為Xj(n_k),其中k> O??梢詫⒁纛l信道j在主子帶中在時間n處的預測樣本表示為yj(n)。信道間預測模型根據(jù)另一個音頻信道的歷史來表示一個音頻信道j的預測樣本Yj(Ii)0該信道間預測模型可以是自回歸(AR)模型、移動平均(MA)模型或自回歸移動平均(ARMA)模型等等。
作為一個基于AR模型的實例,階數(shù)為L的第一信道間預測模型H1可以將預測樣本y2表示為輸入信號X1的樣本的加權線性組合。輸入信號X1包括來自第一輸入音頻信道的樣本,并且樣本I2表不第二輸入音頻信道的預測樣本。
權利要求
1.一種方法,包括 接收至少第一輸入音頻信道和第二輸入音頻信道;以及 使用信道間預測模型來形成至少一個信道間接收方向參數(shù)。
2.根據(jù)權利要求I所述的方法,還包括提供包括縮混信號和所述至少一個信道間接收方向參數(shù)的輸出信號。
3.根據(jù)前述任意一項權利要求所述的方法,還包括 確定用于預測所述第一輸入音頻信道的信道間預測模型的第一度量以及用于預測所述第二輸入音頻信道的信道間預測模型的第二度量; 確定用于比較所述第一度量和所述第二度量的比較值;以及 使用所述比較值來確定所述信道間接收方向參數(shù)。
4.根據(jù)權利要求3所述的方法,其中所述第一度量是所述第一信道的預測增益,并且所述第二度量是所述第二信道的預測增益。
5.根據(jù)權利要求3或4所述的方法,還包括 使用所述第一度量作為慢速改變函數(shù)的操作數(shù)以獲得修改的第一度量; 使用所述第二度量作為同一慢速改變函數(shù)的操作數(shù)以獲得修改的第二度量;以及 將所述修改的第一度量與所述修改的第二度量之間的差確定為所述比較值。
6.根據(jù)權利要求5所述的方法,其中所述比較值是所述第一度量的對數(shù)與所述第二度量的對數(shù)之間的差。
7.根據(jù)權利要求3-5中的任意一項所述的方法,還包括 使用根據(jù)所獲得的比較值和相關聯(lián)的信道間接收方向參數(shù)所校準的映射函數(shù),將所述信道間接收方向參數(shù)映射到所述比較值。
8.根據(jù)權利要求7中的任意一項所述的方法,其中使用絕對信道間時間差參數(shù)來確定所述相關聯(lián)的信道間接收方向參數(shù)。
9.根據(jù)權利要求7或8中的任意一項所述的方法,其中使用絕對信道間等級差參數(shù)來確定所述相關聯(lián)的信道間接收方向參數(shù)。
10.根據(jù)權利要求7到9中的任意一項所述的方法,還包括間隙性地重新校準所述映射函數(shù)。
11.根據(jù)權利要求7到10中的任意一項所述的方法,其中將所述映射函數(shù)與信道間接收方向參數(shù)相乘,以確定相關聯(lián)的比較值。
12.根據(jù)權利要求7到11中的任意一項所述的方法,其中所述映射函數(shù)是時間與子帶的函數(shù),并且是使用可用的所獲得的比較值與相關聯(lián)的信道間接收方向參數(shù)來確定的。
13.根據(jù)權利要求7到12中的任意一項所述的方法,其中所述映射函數(shù)是在多個幀上求平均的平滑函數(shù)。
14.根據(jù)權利要求7到13中的任意一項所述的方法,還包括 使用所述映射函數(shù)的逆函數(shù),將比較值映射到信道間接收方向參數(shù)。
15.根據(jù)權利要求7到13中的任意一項所述的方法,還包括 只有當接收方向參數(shù)與以前發(fā)送的接收方向參數(shù)至少相差一個閾值時,才向目的地發(fā)送所述接收方向參數(shù)。
16.根據(jù)前述任意一項權利要求所述的方法,還包括使用交叉相關來確定至少一個信道間參數(shù)。
17.根據(jù)前述任意一項權利要求所述的方法,其中所述信道間預測模型針對不同的音頻信道表示一個音頻信道的預測樣本。
18.根據(jù)前述任意一項權利要求所述的方法,其中所述信道間預測模型將預測樣本表示為輸入信號的過去樣本的加權線性組合。
19.根據(jù)權利要求18所述的方法,其中存儲來自所述第一輸入音頻信道的所述輸入信號的過去樣本,并且所述預測樣本表示所述第二輸入音頻信道的預測樣本。
20.根據(jù)權利要求17、18或19所述的方法,還包括最小化所述預測樣本的成本函數(shù),以確定信道間預測模型,并且使用所述確定的信道間預測模型來確定至少一個信道間參數(shù)。
21.根據(jù)權利要求20所述的方法,其中所述成本函數(shù)是所述預測樣本與實際樣本之間的差。
22.根據(jù)前述任意一項權利要求所述的方法,其中所述信道間預測模型是線性預測模型。
23.根據(jù)前述任意一項權利要求所述的方法,還包括在時域中將至少所述第一輸入音頻信道和所述第二輸入音頻信道劃分為時隙,以及在頻域中將至少所述第一輸入音頻信道和所述第二輸入音頻信道劃分為子帶。
24.根據(jù)權利要求23所述的方法,還包括使用信道間預測模型來形成多個子帶中的每個子帶的信道間接收方向參數(shù)。
25.根據(jù)權利要求21或22所述的方法,包括在時域中均勻劃分以形成均勻的時隙,以及在頻域中不均勻劃分以形成不均勻的子帶結構。
26.根據(jù)權利要求24或25所述的方法,其中在低頻處的子帶比在高頻處的子帶更窄。
27.根據(jù)前述任意一項權利要求所述的方法,還包括使用至少一個選擇標準來選擇要使用的信道間預測模型,其中所述至少一個選擇標準基于所述信道間預測模型的性能測量。
28.根據(jù)權利要求27所述的方法,其中所述性能測量是預測增益。
29.根據(jù)權利要求28所述的方法,其中一個選擇標準要求所述性能測量大于第一絕對閾值。
30.根據(jù)權利要求28或29所述的方法,其中一個選擇標準要求所述性能測量大于取決于另一個信道間預測模型的性能值的第二相對閾值。
31.根據(jù)前述任意一項權利要求所述的方法,包括從多個信道間預測模型中選擇要使用的信道間預測模型。
32.根據(jù)前述任意一項權利要求所述的方法,包括確定所述信道間預測模型的相位響應,以確定時間差信道間參數(shù)作為用于確定所述信道間接收方向參數(shù)的中間參數(shù)。
33.根據(jù)前述任意一項權利要求所述的方法,包括確定所述信道間預測模型的幅度響應,以確定等級差信道間參數(shù)作為用于確定所述信道間接收方向參數(shù)的中間參數(shù)。
34.一種計算機程序,當被加載到處理器中時控制所述處理器執(zhí)行根據(jù)權利要求I到33中的任意一項權利要求所述的方法。
35.一種計算機程序產品,包括當被加載到處理器中時控制所述處理器執(zhí)行以下操作的機器可讀指令 接收至少第一輸入音頻信道和第二輸入音頻信道;以及 使用信道間預測模型來形成至少一個信道間接收方向參數(shù)。
36.根據(jù)權利要求35所述的計算機程序產品,包括當被加載到處理器中時控制所述處理器執(zhí)行以下操作的機器可讀指令 確定用于預測所述第一輸入音頻信道的信道間預測模型的第一度量以及用于預測所述第二輸入音頻信道的信道間預測模型的第二度量; 確定用于比較所述第一度量和所述第二度量的比較值;以及 使用所述比較值來確定所述信道間接收方向參數(shù)。
37.根據(jù)權利要求36所述的計算機程序產品,其中所述第一度量是所述第一信道的預測增益,并且所述第二度量是所述第二信道的預測增益。
38.根據(jù)權利要求35、36或37所述的計算機程序產品,包括當被加載到處理器中時控制所述處理器執(zhí)行以下操作的機器可讀指令 使用所述第一度量作為慢速改變函數(shù)的操作數(shù)以獲得修改的第一度量; 使用所述第二度量作為同一慢速改變函數(shù)的操作數(shù)以獲得修改的第二度量;以及 將所述修改的第一度量與所述修改的第二度量之間的差確定為所述比較值。
39.根據(jù)權利要求35、36、37或38所述的計算機程序產品,其中所述比較值是所述第一度量的對數(shù)與所述第二度量的對數(shù)之間的差。
40.一種裝置,包括 用于接收至少第一輸入音頻信道和第二輸入音頻信道的單元;以及 用于使用信道間預測模型來形成至少一個信道間接收方向參數(shù)的單元。
41.根據(jù)權利要求40所述的裝置,包括 用于確定用于預測所述第一輸入音頻信道的信道間預測模型的第一度量以及用于預測所述第二輸入音頻信道的信道間預測模型的第二度量的單元; 用于確定用于比較所述第一度量和所述第二度量的比較值的單元;以及 用于使用所述比較值來確定所述信道間接收方向參數(shù)的單元。
42.根據(jù)權利要求40或41所述的裝置,包括 用于使用所述第一度量作為慢速改變函數(shù)的操作數(shù)以獲得修改的第一度量的單元;用于使用所述第二度量作為同一慢速改變函數(shù)的操作數(shù)以獲得修改的第二度量的單元;以及 用于將所述修改的第一度量與所述修改的第二度量之間的差確定為所述比較值的單元
43.—種方法,包括 接收縮混信號和至少一個信道間接收方向參數(shù);以及 使用所述縮混信號和所述至少一個信道間接收方向參數(shù)來呈現(xiàn)多信道音頻輸出。
44.根據(jù)權利要求43所述的方法,還包括 在呈現(xiàn)所述多信道音頻輸出之前,將所述至少一個信道間接收方向參數(shù)轉換成信道間時間差。
45.根據(jù)權利要求43或44所述的方法,還包括使用淘選法則,將所述至少一個信道間接收方向參數(shù)轉換成 等級值。
全文摘要
一種方法包括接收至少第一輸入音頻信道和第二輸入音頻信道;并且使用信道間預測模型來形成至少一個信道間接收方向參數(shù)。
文檔編號G10L21/02GK102656627SQ200980162993
公開日2012年9月5日 申請日期2009年12月16日 優(yōu)先權日2009年12月16日
發(fā)明者P·奧雅拉 申請人:諾基亞公司