多聲道音頻編碼器以及用于對多聲道音頻信號進行編碼的方法
【專利摘要】本發(fā)明涉及一種用于確定多聲道音頻信號的多個音頻聲道信號(x1、x2)的音頻聲道信號(x1)的編碼參數(shù)(ITD)的方法(100),每個音頻聲道信號(x1、x2)具有音頻聲道信號值(x1[n]、x2[n]),所述方法包括:確定(101)音頻聲道信號(x1)的音頻聲道信號值(x1[n])的頻率變換(x1[k]);確定(103)參考音頻信號(x2)的參考音頻信號值(x2[n])的頻率變換(x2[k]),其中所述參考音頻信號是所述多個音頻聲道信號中的另一個音頻聲道信號(x2),或是從所述多個音頻聲道信號中的至少兩個音頻聲道信號(x1、x2)導出的下混音頻信號;確定(105)針對子頻帶的子集的至少每個子頻帶(b)的聲道間差值(ICD[b]),每一聲道間差值是指在所述聲道間差值所關(guān)聯(lián)的相應(yīng)子頻帶(b)中的所述音頻聲道信號的頻帶限制信號部分與所述參考音頻信號的頻帶限制信號部分之間的相位差(IPD[b])或時間差(ITD[b]);基于所述聲道間差值(ICD[b])的正值來確定(107)第一平均值(ITDmean_pos),并且基于聲道間差值(ICD[b])的負值來確定第二平均值(ITDmean_neg);并且基于所述第一平均值和所述第二平均值來確定(109)編碼參數(shù)(ITD)。
【專利說明】多聲道音頻編碼器以及用于對多聲道音頻信號進行編碼的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻編碼,確切地說涉及參數(shù)空間音頻編碼,也稱作參數(shù)多聲道音頻編碼。
【背景技術(shù)】
[0002]如例如在針對音頻和聲音信號處理應(yīng)用的IEEE專題研討會會刊,2001年10月,第 199 頁至第 202 頁(Proc.1EEE Workshop on App1.0f Sig.Proc.to Aud1 andAcoust., Oct.2001, pp.199 - 202)中 C.法勒(C.Faller)和 F.鮑姆加特(F.Baumgarte)的“使用感知參數(shù)化的空間音頻的有效表示(Efficient representat1n of spatial aud1using perceptual parametrizat1n) ”中所描述的參數(shù)立體聲或多聲道音頻編碼,使用空間提示來從下混音頻信號(通常為單聲道或立體聲音頻信號)合成多聲道音頻信號,所述多聲道音頻信號所具有的聲道比下混音頻信號多。通常,下混音頻信號由多聲道音頻信號(例如立體聲音頻信號)的多個音頻聲道信號的疊加而產(chǎn)生。這些較少的聲道是波形編碼的,并且將關(guān)聯(lián)于原始信號聲道關(guān)系的邊信息,即,空間提示,作為編碼參數(shù)添加到編碼的音頻聲道。解碼器使用此邊信息以基于已解碼的波形編碼音頻聲道來重新產(chǎn)生原始數(shù)目的音頻聲道。
[0003]基本參數(shù)立體聲編碼器可使用聲道間電平差(ILD:1nter-channel leveldifference)作為從單聲道下混音頻信號產(chǎn)生立體聲信號所需的提示。更為復雜的編碼器還可使用聲道間相關(guān)性(ICC:1nter-channel coherence),聲道間相關(guān)性(ICC:1nter-channel coherence)可表示音頻聲道信號(即音頻聲道)之間的類似程度。此外,當編碼雙聲道立體聲信號(例如用于基于3D音頻或耳機的環(huán)繞呈現(xiàn))時,聲道間相位差(IPD:1nter-channel phase difference)也可在復制聲道之間的相位/延遲差的過程中起到作用。
[0004]如從圖7中所見,耳間時間差(ITD:1nteraural time difference)為聲音701到達兩耳703、705的時間差。耳間時間差(ITD)對聲音的定位而言是很重要的,因為它提供用于辨別聲源701 (相對于頭部709)的入射方向707或角度Θ的提示。如果信號從一側(cè)到達耳703、705,那么所述信號到達遠耳703 (對側(cè)的)的路徑711較長并且到達近耳705 (同側(cè)的)的路徑713較短。此路徑長度差導致聲音到達耳703、705之間的時間差715,所述時間差被檢測出并被用來識別聲源701的方向707。
[0005]圖7給出了 ITD的一個實例(表示為At或時間差715)。到達兩耳703、705的時間差由聲音波形的延遲來指示。如果到左耳703的波形先到達,那么ITD 715是正的,反之則是負的。如果聲源701位于收聽者的正前方,那么波形同時到達兩耳703、705并且因此ITD 715 為零。
[0006]ITD提示對大多數(shù)立體聲錄制而言是很重要的。例如,雙耳音頻信號可基于頭相關(guān)傳遞函數(shù)(HRTF:Head-related transfer funct1n)處理,通過使用(例如)仿真頭部或雙耳合成,從實際錄制中獲得,其可用于音樂錄制或音頻會議。因此,對于低比特率參數(shù)立體聲編解碼器,尤其是對于專用于對話應(yīng)用的編解碼器而言,ITD提示是非常重要的參數(shù)。低比特率參數(shù)立體聲編解碼器需要低復雜性且穩(wěn)定的ITD估計算法。此外,ITD參數(shù)的使用可增大比特率開銷,例如,還使用了其他參數(shù),如聲道間電平差(CLD或ILD)和聲道間相關(guān)性(ICC)。對于此特定的極低比特率的情況,可以只傳輸一個全頻帶ITD參數(shù)。當只估計一個全頻帶ITD時,難以達成對于穩(wěn)定性的約束條件。
[0007]在現(xiàn)有技術(shù)中,可將ITD估計方法分為三個主要類別。
[0008]ITD估計可基于時域方法。基于聲道之間的時域交叉相關(guān)對ITD進行估計。ITD對應(yīng)于時域交叉相關(guān)
[0009](f * gfnldcfV^ f *[m]g[n + m]
[0010]為最大時的延遲。此方法提供了若干幀的延遲的非穩(wěn)定的估計。當輸入信號f和g為復雜音效場景中的寬頻帶信號時尤其需要這樣,因為不同的子帶信號可能具有不同的ITD值。當在解碼器中在連續(xù)幀之間切換延遲時,非穩(wěn)定的ITD會造成點擊聲(噪聲)的引入。當對全頻帶信號執(zhí)行此時域分析時,時域ITD估計的比特率很低,因為只對一個ITD進行了估計,編碼以及傳輸。然而,由于涉及對高采樣頻率的信號的交叉相關(guān)進行的計算,復雜度非常高。
[0011]第二類的ITD估計方法的第二類別是基于頻域和時域方法的組合。在1999年9月的IEEE學報《信號處理》(Signal Processing)的第47卷,第9期,第2604頁到第2607頁上的Marple,S.L.,Jr.的“通過離散時間‘分析型’交叉相關(guān)對群延遲及相位延遲進行估計(Estimating group delay and phase delay via discrete-time“analytic,,cross_correlat1n) ”中,頻域和時域ITD估計包括以下步驟:
[0012]1.對輸入信號應(yīng)用快速傅里葉變換(FFT:FFT)分析以獲取頻率係數(shù)。
[0013]2.在頻域中計算交叉相關(guān)。
[0014]3.使用反向FFT將頻域交叉相關(guān)轉(zhuǎn)化為時域。
[0015]4.在復雜時域中估計ITD。
[0016]此方法還可達成低比特率的約束條件,因為只對一個全頻帶ITD進行了估計,編碼以及傳輸。然而,由于涉及交叉相關(guān)計算以及反向FFT,復雜度非常高,導致此方法在計算復雜度受到限制的情況下無法應(yīng)用。
[0017]最終,最后一個類別是直接在頻域上執(zhí)行ITD估計。在2003年11月的IEEE學報《語音和音頻處理》(Speech and Aud1 Processing)的第11卷,第6期,第509到第519頁上的Baumgarte,F(xiàn).和Faller, C.的“雙耳提示編碼第一部分:心理聲學基礎(chǔ)和設(shè)計原理,,(Binaural cue coding-Part 1:psychoacoustic fundamentals and designprinciples)中,以及在2003年11月的IEEE學報《語音和音頻處理》(Speech and Aud1Processing)的第 11 卷,第 6 期,第 520 到第 531 頁上的 Faller, C.和 Baumgarte, F.的“雙耳提不編碼第二部分:方案和應(yīng)用”(Binaural cue coding-Part I1: Schemes andapplicat1ns)中,在頻域中對ITD進行估計,并且針對每一頻帶,對ITD進行編碼和傳輸。此解決方案的復雜度有限,但是此方法所需的比特率很高,因為對每個子頻帶都需要傳輸一個 ITD。
[0018]此外,所估計的ITD的可靠性和穩(wěn)定性取決于子頻帶信號的頻率帶寬,而對于較大的子頻帶,ITD可能是不一致的(位置不同的不同音頻源可能存在于帶寬限制音頻信號中)。
[0019]比特率參數(shù)極低的多聲道音頻編碼方案不僅約束了比特率,并且限制了可用的復雜性,對于專用于移動通信終端中的實施方案的編解碼器尤其如此,因為必須節(jié)約電池電能?,F(xiàn)有技術(shù)ITD估計算法無法在維持ITD估計的穩(wěn)定性方面的良好質(zhì)量的同時,做到同時滿足低比特率及低復雜度的要求。
【發(fā)明內(nèi)容】
[0020]本發(fā)明的目的在于提供多聲道音頻編碼器的概念,所述多聲道音頻編碼器在提供低比特率以及低復雜度的同時還保持了高質(zhì)量的ITD估計的穩(wěn)定性。
[0021]這一目標可通過獨立權(quán)利要求中的特征實現(xiàn)。進一步實施形態(tài)可從從屬權(quán)利要求、說明書和附圖中清楚地了解。
[0022]本發(fā)明系基于以下發(fā)現(xiàn):在多聲道音頻信號的兩個音頻聲道信號的頻帶限制信號部分之間對ITD和IPD等聲道間差值應(yīng)用智能平均,可減少比特率以及帶寬限制處理所涉及的計算復雜度,并且同時保持了高質(zhì)量的ITD估計的穩(wěn)定性。智能平均通過聲道間差值的標記對聲道間差值進行區(qū)分,并且根據(jù)該標記執(zhí)行不同的平均,從而增加了聲道間差值處理的穩(wěn)定性。
[0023]為了詳細描述本發(fā)明,將使用以下術(shù)語、縮寫和符號:
[0024]BCC(Binaural cues coding):雙耳提示編碼,是關(guān)于立體聲或多聲道信號的編碼,其使用下混以及雙耳提示(或空間參數(shù))來描述聲道間關(guān)系。
[0025]雙耳線索(Binaural Cue):左耳和右耳入耳信號之間的聲道間提示(同時參見ITD、ILD 以及 IC)。
[0026]CLD(Channel level difference):聲道電平差,如同 ILD。
[0027]FFT(Fast Fourier Transform):DFT的快速實施,表示為快速傅立葉變換。
[0028]HRTF(Head-related transfer funct1n):頭相關(guān)傳遞函數(shù),其對在自由聲場中從聲源到左耳以及右耳的聲音轉(zhuǎn)換進行建模。
[0029]IC(Inter-aural coherence):耳間相關(guān)性,即左耳和右耳入耳信號之間的相似程度。有時也將其稱作IAC或耳間交叉相關(guān)(IACC)。
[0030]ICC (Inter-channel coherence):聲道間相關(guān)性,聲道間相關(guān)。如同IC一樣,但是更加廣義的定義為在任何成對信號之間(例如,成對揚聲器信號,成對入耳信號等等)。
[0031]ICPD(Inter-channel phase difference):聲道間相位差成對信號之間的平均相位差。
[0032]ICLD(Inter-channel level difference):聲道間電平差。如同 ILD—樣,但是更加廣義的定義為在任何成對之間(例如,成對揚聲器信號,成對入耳信號等等)。
[0033]ICTD(Inter-channel time difference):聲道間時間差。如同 ITD—樣,但是更加廣義的定義為在任何成對信號之間(例如,成對揚聲器信號,成對入耳信號等等)。
[0034]ILD(Interaural level difference):耳間電平差,即,左耳和右耳入耳信號之間的電平差。有時也將其稱作耳間強度差(IID)。
[0035]IPD(Interaural phase difference):耳間相位差,即,左耳和右耳入耳信號之間的相位差。
[0036]ITD(Interaural time difference):耳間時間差,即,左耳和右耳入耳信號之間的時間差。有時也將其稱作耳間時間延遲。
[0037]I⑶(Inter-channel difference):聲道間差值。用于表示兩個聲道之間的差值的通用術(shù)語,例如,兩個聲道之間的時間差、相位差、電平差或相關(guān)性。
[0038]混頻(Mixing):在給定一定數(shù)目的源信號(例如分別錄制的樂器、多聲道錄音)的情況下,生成用于空間音頻播放的立體聲或多聲道音頻信號的過程被稱為混頻。
[0039]OCPD(Overall channel phase difference):總體聲道相位差。兩個或兩個以上的音頻聲道的共同相位修正。
[0040]空間音頻(Spatial aud1):音頻信號,當其通過適當?shù)牟シ畔到y(tǒng)進行播放時,帶來聽覺空間圖像。
[0041]空間提示(Spatial Cues):與空間感知相關(guān)的提示。此術(shù)語用于立體聲或多聲道音頻信號的成對聲道之間的提示(同時參見ICTD、ICLD以及ICC)。也被稱為空間參數(shù)或雙耳提示。
[0042]根據(jù)第一方面,本發(fā)明涉及用于確定多聲道音頻信號的多個音頻聲道信號的音頻聲道信號的編碼參數(shù)的方法,每個音頻聲道信號具有音頻聲道信號值,所述方法包括:確定音頻聲道信號的音頻聲道信號值的頻率變換;確定參考音頻信號的參考音頻信號值的頻率變換,其中參考音頻信號是所述多個音頻聲道信號中的另一個音頻聲道信號;確定針對子頻帶的子集的至少每個子頻帶的聲道間差值,每個聲道間差值是指在該聲道間差值所關(guān)聯(lián)的相應(yīng)子頻帶中的音頻聲道信號的頻帶限制信號部分與參考音頻信號的頻帶限制信號部分之間的相位差或時間差;基于聲道間差值的正值來確定第一平均值,并且基于聲道間差值的負值來確定第二平均值;并且基于第一平均值和第二平均值來確定編碼參數(shù)。
[0043]根據(jù)第二方面,本發(fā)明涉及用于確定多聲道音頻信號的多個音頻聲道信號中的音頻聲道信號的編碼參數(shù)的方法,每個音頻聲道信號具有音頻聲道信號值,所述方法包括:確定音頻聲道信號的音頻聲道信號值的頻率變換;確定參考音頻信號的參考音頻信號值的頻率變換,其中參考音頻信號是從多個音頻聲道信號中的至少兩個音頻聲道信號中導出的下混音頻信號;確定針對子頻帶的子集的至少每個子頻帶的聲道間差值,每個聲道間差值是指在該聲道間差值所關(guān)聯(lián)的相應(yīng)子頻帶中的音頻聲道信號的頻帶限制信號部分與參考音頻信號的頻帶限制信號部分之間的相位差或時間差;基于聲道間差值的正值來確定第一平均值,并且基于聲道間差值的負值來確定第二平均值;并且基于第一平均值和第二平均值來確定編碼參數(shù)。
[0044]頻帶限制信號部分可以是頻域信號部分。然而,頻帶限制信號部分也可以是時域信號部分。在這種情況下,可采用反向傅立葉變換器等頻域至時域變換器。在時域中,可執(zhí)行頻帶限制信號部分的延遲時間平均值計算,該計算對應(yīng)于頻域中的相位平均值計算。對于信號處理,可采用漢明窗形函數(shù)等窗形函數(shù)對時域信號部分進行環(huán)形摺積。
[0045]頻帶限制信號部分可僅覆蓋一個頻率窗口或覆蓋一個以上頻率窗口。
[0046]根據(jù)第一方面或根據(jù)第二方面的方法的第一可能實施形態(tài)中,聲道間差值是聲道間相位差或聲道間時間差。
[0047]根據(jù)第一方面或根據(jù)第二方面的方法的第二可能實施形態(tài)中,或者說,根據(jù)第一方面的第一實施形態(tài)或根據(jù)第二方面的第一實施形態(tài)的方法的第二可能實施形態(tài)中,所述方法進一步包括:基于聲道間差值的正值來確定第一標準偏差并且基于聲道間差值的負值來確定第二標準偏差,其中對編碼參數(shù)進行的確定是基于第一標準偏差以及第二標準偏差。
[0048]根據(jù)第一方面或根據(jù)第二方面的方法的第三可能實施形態(tài)中,或者說,根據(jù)第一方面的前述實施形態(tài)中的任一實施形態(tài)的方法的第三可能實施形態(tài)中,或者說,根據(jù)第二方面的前述實施形態(tài)中的任一實施形態(tài)的方法的第三可能實施形態(tài)中,子頻帶包括一個或多個頻率窗口。
[0049]根據(jù)第一方面或根據(jù)第二方面的方法的第四可能實施形態(tài)中,或者說,根據(jù)第一方面的前述實施形態(tài)中的任一實施形態(tài)的方法的第四可能實施形態(tài)中,或者說,根據(jù)第二方面的前述實施形態(tài)中的任一實施形態(tài)的方法的第四可能實施形態(tài)中,針對子頻帶的子集的至少每個子頻帶的聲道間差值進行的確定包括:將交叉譜確定為音頻聲道信號值的頻率變換與參考音頻信號值的頻率變換的交叉相關(guān);基于該交叉譜確定每個子頻帶的聲道間相位差。
[0050]根據(jù)第一方面的第四實施形態(tài)或根據(jù)第二方面的第四實施形態(tài)的方法的第五可能實施形態(tài)中,將頻率窗口的聲道間相位差或子頻帶的聲道間相位差被確定為交叉譜的角度。
[0051]根據(jù)第一方面的第四或第五實施形態(tài)的方法的第六可能實施形態(tài)中,或者說,根據(jù)第二方面的第四或第五實施形態(tài)的方法的第六可能實施形態(tài)中,所述方法進一步包括:基于聲道間相位差來確定耳間時間差;其中對第一平均值的確定是基于耳間時間差的正值而對第二平均值的確定是基于耳間時間差的負值。
[0052]根據(jù)第一方面的第四或第五實施形態(tài)的方法的第七可能實施形態(tài)中,或者說,根據(jù)第二方面的第四或第五實施形態(tài)的方法的第七可能實施形態(tài)中,將子頻帶的耳間時間差確定為聲道間相位差的函數(shù),所述函數(shù)取決于頻率窗口的數(shù)目并且取決于頻率窗口或子頻帶指數(shù)。
[0053]根據(jù)第一方面的第六或第七實施形態(tài)的方法的第八可能實施形態(tài)中,或者說,根據(jù)第二方面的第六或第七實施形態(tài)的方法的第八可能實施形態(tài)中,對編碼參數(shù)的確定包括:在包含于子頻帶的子集中的子頻帶的數(shù)目中,對正的耳間時間差的第一數(shù)目以及對負的耳間時間差的第二數(shù)目進行計數(shù)。
[0054]根據(jù)第一方面的第八實施形態(tài)的方法的第九可能實施形態(tài)中,或者說,根據(jù)第二方面的第八實施形態(tài)的方法的第九可能實施形態(tài)中,對編碼參數(shù)的確定是基于正的耳間時間差的第一數(shù)目與負的耳間時間差的第二數(shù)目之間的比較。
[0055]根據(jù)第一方面的第九實施形態(tài)的方法的第十可能實施形態(tài)中,或者說,根據(jù)第二方面的第九實施形態(tài)的方法的第十可能實施形態(tài)中,對編碼參數(shù)的確定是基于第一標準偏差與第二標準偏差之間的比較。
[0056]根據(jù)第一方面的第九或第十實施形態(tài)的方法的第i^一可能實施形態(tài)中,或者說,根據(jù)第二方面的第九或第十實施形態(tài)的方法的第i^一可能實施形態(tài)中,對編碼參數(shù)的確定是基于正的耳間時間差的第一數(shù)目與乘以第一因子的負的耳間時間差的第二數(shù)目之間的比較。
[0057]根據(jù)第一方面的第i^一實施形態(tài)的方法的第十二可能實施形態(tài)中,或者說,根據(jù)第二方面的第i^一實施形態(tài)的方法的第十二可能實施形態(tài)中,對編碼參數(shù)的確定是基于第一標準偏差與乘以第二因子的第二標準偏差之間的比較。
[0058]根據(jù)第一方面的第六或第七實施形態(tài)的方法的第十三可能實施形態(tài)中,或者說,根據(jù)第二方面的第六或第七實施形態(tài)的方法的第十三可能實施形態(tài)中,對編碼參數(shù)的確定包括:在包含于子頻帶的子集中的子頻帶的數(shù)目中,對正的聲道間差值的第一數(shù)目以及負的聲道間差值的第二數(shù)目進行計數(shù)。
[0059]根據(jù)第一方面或根據(jù)第二方面的方法的第十四可能實施形態(tài)中,或者說,根據(jù)第一方面的前述實施形態(tài)中的任一實施形態(tài)或根據(jù)第二方面的前述實施形態(tài)中的任一實施形態(tài)的方法的第十四可能實施形態(tài)中,所述方法被應(yīng)用于以下編碼器中的編碼器或編碼器組合中:ITU-T G.722 編碼器、ITU-T G.722Annex B 編碼器、ITU-T G.711.1 編碼器、ITU-TG.711.1Annex D編碼器以及3GPP增強語音服務(wù)編碼器。
[0060]與具有子頻帶ITD的平均值估計的ITD估計相比,根據(jù)第一或第二方面的方法在子頻帶內(nèi)選擇了最相關(guān)的ITD。因此,實現(xiàn)了低比特率以及低復雜度的ITD估計并且同時保持了高質(zhì)量的ITD估計的穩(wěn)定性。
[0061]根據(jù)第三方面,本發(fā)明涉及多聲道音頻編碼器,所述多聲道音頻編碼器用于確定多聲道音頻信號的多個音頻聲道信號中的音頻聲道信號的編碼參數(shù),每個音頻聲道信號具有音頻聲道信號值,所述參數(shù)空間音頻編碼器包括:傅立葉變換器等頻率變換器,用于確定音頻聲道信號的音頻聲道信號值的頻率變換并且用于確定參考音頻信號的參考音頻信號值的頻率變換,其中參考音頻信號是多個音頻聲道信號中的另一個音頻聲道信號;聲道間差值確定器,用于確定針對子頻帶的子集中的至少每個子頻帶的聲道間差值,每個聲道間差值是指在該聲道間差值所關(guān)聯(lián)的相應(yīng)子頻帶中的音頻聲道信號的頻帶限制信號部分與參考音頻信號的頻帶限制信號部分之間的相位差或時間差;平均值確定器,用于基于聲道間差值的正值來確定第一平均值并且用于基于聲道間差值的負值來確定第二平均值;以及編碼參數(shù)確定器,用于基于第一平均值并基于第二平均值來確定編碼參數(shù)。
[0062]根據(jù)第四方面,本發(fā)明涉及多聲道音頻編碼器,用于確定多聲道音頻信號的多個音頻聲道信號中的音頻聲道信號的編碼參數(shù),每個音頻聲道信號具有音頻聲道信號值,所述參數(shù)空間音頻編碼器包括:傅立葉變換器等頻率變換器,用于確定音頻聲道信號的音頻聲道信號值的頻率變換并且用于確定參考音頻信號的參考音頻信號值的頻率變換,其中參考音頻信號是從多個音頻聲道信號中的至少兩個音頻聲道信號導出的下混音頻信號;聲道間差值確定器,用于確定針對子頻帶的子集的至少每個子頻帶的聲道間差值,每個聲道間差值是指在該聲道間差值所關(guān)聯(lián)的相應(yīng)子頻帶中的音頻聲道信號的頻帶限制信號部分與參考音頻信號的頻帶限制信號部分之間的相位差或時間差;平均值確定器,用于基于聲道間差值的正值來確定第一平均值并且用于基于聲道間差值的負值來確定第二平均值;以及編碼參數(shù)確定器,用于基于第一平均值并基于第二平均值來確定編碼參數(shù)。
[0063]根據(jù)第五方面,本發(fā)明涉及具有程序代碼的計算機程序,所述程序代碼在計算機上運行時執(zhí)行根據(jù)第一方面或根據(jù)第二方面的方法,或者說,根據(jù)第一方面的前述實施形態(tài)中任一實施形態(tài)或根據(jù)第二方面的前述實施形態(tài)中任一實施形態(tài)的方法。
[0064]該計算機程序減少了復雜度并且因此可以有效地實施在必須節(jié)省電池電能的移動終端中。
[0065]根據(jù)第六方面,本發(fā)明涉及參數(shù)空間音頻編碼器,所述參數(shù)空間音頻編碼器用于實施根據(jù)第一方面或根據(jù)第二方面的方法,或者說,根據(jù)第一方面的前述實施形態(tài)中任一實施形態(tài)或根據(jù)第二方面的前述實施形態(tài)中任一實施形態(tài)的方法。
[0066]根據(jù)第六方面的參數(shù)空間音頻編碼器的第一可能實施形態(tài)中,參數(shù)空間音頻編碼器包括處理器,所述處理器實施根據(jù)第一方面或根據(jù)第二方面的方法,或者說,根據(jù)第一方面的前述實施形態(tài)中任一實施形態(tài)或根據(jù)第二方面的前述實施形態(tài)中任一實施形態(tài)的方法。
[0067]根據(jù)第六方面自身或根據(jù)第六方面的第一實施形態(tài)的參數(shù)空間音頻編碼器的第二可能實施形態(tài)中,所述參數(shù)空間音頻編碼器包括:傅立葉變換器等頻率變換器,用于確定音頻聲道信號的音頻聲道信號值的頻率變換并且用于確定參考音頻信號的參考音頻信號值的頻率變換,其中參考音頻信號是多個音頻聲道信號中的另一個音頻聲道信號,或是從多個音頻聲道信號中的至少兩個音頻聲道信號導出的下混音頻信號;聲道間差值確定器,用于確定針對子頻帶的子集的至少每個子頻帶的聲道間差值,每個聲道間差值是指在該聲道間差值所關(guān)聯(lián)的相應(yīng)子頻帶中的音頻聲道信號的頻帶限制信號部分與參考音頻信號的頻帶限制信號部分之間的相位差或時間差;平均值確定器,用于基于聲道間差值的正值來確定第一平均值并且基于聲道間差值的負值來確定第二平均值;以及編碼參數(shù)確定器,用于基于第一平均值并基于第二平均值來確定編碼參數(shù)。
[0068]根據(jù)第七方面,本發(fā)明涉及存儲器等機器可讀的媒體,確切的說是光盤,所述媒體具有包括程序代碼的計算機程序,所述程序代碼在計算機上運行時執(zhí)行根據(jù)第一方面或根據(jù)第二方面的方法,或者說根據(jù)第一方面的前述實施形態(tài)中任一實施形態(tài)的方法,或者說根據(jù)第二方面的前述實施形態(tài)中任一實施形態(tài)的方法。
[0069]本文描述的方法可實施為數(shù)字信號處理器(DSP:Digital Signal Processor)、微控制器或任何其他邊處理器中的軟件或?qū)嵤閷S眉呻娐?ASIC applicat1n specificintegrated circuit)內(nèi)的硬件電路。
[0070]本發(fā)明可在數(shù)字電子電路中或在計算機硬件、固件、軟件中或在其組合中實施。
【專利附圖】
【附圖說明】
[0071]本發(fā)明的其他實施例將參考以下附圖進行描述,其中:
[0072]圖1所示為根據(jù)一種實施形態(tài)的用于生成針對音頻聲道信號的編碼參數(shù)的方法的不意圖;
[0073]圖2所示為根據(jù)一種實施形態(tài)的ITD估計算法的示意圖;
[0074]圖3所示為根據(jù)一種實施形態(tài)的ITD選擇算法的示意圖;
[0075]圖4所示為根據(jù)一種實施形態(tài)的參數(shù)音頻編碼器的方框圖;
[0076]圖5所示為根據(jù)一種實施形態(tài)的參數(shù)音頻解碼器的方框圖;
[0077]圖6所示為根據(jù)一種實施形態(tài)的參數(shù)立體聲音頻編碼器和解碼器的方框圖;以及
[0078]圖7所示為用于說明耳間時間差原理的示意圖。
【具體實施方式】
[0079]圖1所示為根據(jù)一種實施形態(tài)的用于生成針對音頻聲道信號的編碼參數(shù)的方法的示意圖。
[0080]方法100用于確定針對多聲道音頻信號的多個音頻聲道信號Xl、X2的音頻聲道信號4的編碼參數(shù)ITD。每個音頻聲道信號χι、χ2具有音頻聲道信號值Xl[n]、x2[n]。圖1描繪了立體聲的例子,其中多個音頻聲道信號包括左音頻聲道X1和右音頻聲道x2。方法100包括:
[0081]確定(101)音頻聲道信號X1的音頻聲道信號值X1 [η]的頻率變換X1 [k];
[0082]確定(103)參考音頻信號X2的參考音頻信號值X2 [η]的頻率變換X2 [k],其中參考音頻信號是多個音頻聲道信號中的另一個音頻聲道信號X2,或是從多個音頻聲道信號中的至少兩個音頻聲道信號X1和X2中導出的下混音頻信號;
[0083]確定(105)針對子頻帶的子集的至少每個子頻帶b的聲道間差值I⑶[b],每個聲道間差值是指在該聲道間差值所關(guān)聯(lián)的相應(yīng)子頻帶b中的音頻聲道信號的頻帶限制信號部分與參考音頻信號的頻帶限制信號部分之間的相位差I(lǐng)PD[b]或時間差I(lǐng)TD[b];
[0084]基于聲道間差值I⑶[b]的正值來確定(107)第一平均值ITDmeanjK)S,并且基于聲道間差值I⑶[b]的負值來確定第二平均值ITDmean neg ;并且
[0085]基于第一平均值和第二平均值來確定(109)編碼參數(shù)ITD。
[0086]在一種實施形態(tài)中,音頻聲道信號的頻帶限制信號部分與參考音頻信號的頻帶限制信號部分是指在頻域中的相應(yīng)子頻帶以及其頻率窗口。
[0087]在一種實施形態(tài)中,音頻聲道信號的頻帶限制信號部分與參考音頻信號的頻帶限制信號部分是指在時域中的子頻帶的相應(yīng)的經(jīng)時間變換的信號。
[0088]頻帶限制信號部分可以是頻域信號部分。然而,頻帶限制信號部分也可以是時域信號部分。在這種情況下,可采用反向傅立葉變換器等頻域至時域變換器。在時域中,可執(zhí)行頻帶限制信號部分的時間延遲平均值計算,該計算對應(yīng)于頻域中的相位平均值計算。對于信號處理,可采用漢明窗形函數(shù)等窗形函數(shù)對時域信號部分進行環(huán)形摺積。
[0089]頻帶限制信號部分可僅覆蓋一個頻率窗口或覆蓋一個以上頻率窗口。
[0090]在一種實施形態(tài)中,方法100如下進行:
[0091]在對應(yīng)于圖1中的101和103的第一步驟中,將時間頻率變換應(yīng)用于時域輸入聲道(例如,第一輸入聲道X1)以及時域參考聲道(例如,第二輸入聲道X2)。在立體聲的情況下,它們是左聲道和右聲道。在一項優(yōu)選實施例中,時間頻率變換為快速傅立葉變換(FastFourier Transform, FFT)或短期傅立葉變換(Short Term Fourier Transform, STFT)。在一項替代實施例中,時間頻率變換是余弦調(diào)制濾波器組或復數(shù)濾波器組。
[0092]在對應(yīng)于圖1中的105的第二步驟中,針對FFT的每個頻率窗口 [b],對交叉譜的計算如下:
[0093]c[b]=X,[b]X'^[b]
9
[0094]其中c [b]為頻率窗口 [b]的交叉譜,并且X1 [b]和X2 [b]為兩個聲道的FFT系數(shù)。*表示復數(shù)共軛。對于此情況,子頻帶b直接對應(yīng)于一個頻率窗口 [k],頻率窗口 [b]和[k]恰好表示相同的頻率窗口。
[0095]替代地,每個子頻帶[k]的交叉譜的計算如下:
[0096]
【權(quán)利要求】
1.一種用于確定多聲道音頻信號的多個音頻聲道信號X1和X2中的音頻聲道信號X1的編碼參數(shù)ITD的方法(100),音頻聲道信號X1和X2分別具有音頻聲道信號值X1 [η]和χ2 [η],所述方法包括: 確定(101)所述音頻聲道信號X1的所述音頻聲道信號值X1 [η]的頻率變換X1 [k];確定(103)參考音頻信號X2的參考音頻信號值X2 [η]的頻率變換X2 [k],其中所述參考音頻信號是所述多個音頻聲道信號中的另一個音頻聲道信號X2或是從所述多個音頻聲道信號中的至少兩個音頻聲道信號X1和X2導出的下混音頻信號;確定(105)針對子頻帶的子集的至少每個子頻帶b的聲道間差值ICD [b],每一聲道間差值是指在所述聲道間差值所關(guān)聯(lián)的相應(yīng)子頻帶b中的所述音頻聲道信號的頻帶限制信號部分與所述參考音頻信號的頻帶限制信號部分之間的相位差I(lǐng)PD[b]或時間差I(lǐng)TD[b];基于所述聲道間差值ICD [b]的正值來確定(107)第一平均值ITDnrean,,并且基于所述聲道間差值I⑶[b]的負值來確定第二平均值ITDmean neg ;并且 基于所述第一平均值和所述第二平均值來確定(109)編碼參數(shù)ITD。
2.根據(jù)權(quán)利要求1所述的方法(100),其中所述聲道間差值ICD[b]是聲道間相位差I(lǐng)PD[b]或聲道間時間差I(lǐng)TD[b]。
3.根據(jù)權(quán)利要求1或2所述的方法(100),進一步包括: 基于所述聲道間差值ICD[b]的正值來確定第一標準偏差I(lǐng)TDstdjws,并且基于所述聲道間差值I⑶[b]的負值來確定第二標準偏差I(lǐng)TDstd mg, 其中對所述編碼參數(shù)ITD的確定是基于所述第一標準偏差和所述第二標準偏差。
4.根據(jù)權(quán)利要求1至3中任一權(quán)利要求所述的方法(100),其中子頻帶包括一個或多個頻率窗口 k。
5.根據(jù)權(quán)利要求1至4中任一權(quán)利要求所述的方法(100),其中對針對子頻帶的子集的至少每個子頻帶b的聲道間差值I⑶[b]的確定包括: 將交叉譜C [k]和c[b]確定為所述音頻聲道信號值X1 [η]的頻率變換X1 [k]與所述參考音頻信號值x2 [η]的頻率變換X2 [k]的交叉相關(guān);以及 基于所述交叉譜c[b]確定每一子頻帶[b]的聲道間相位差I(lǐng)PD[b]。
6.根據(jù)權(quán)利要求5所述的方法(100),其中將頻率窗口b的所述聲道間相位差I(lǐng)PD [b]或子頻帶b的所述聲道間相位差I(lǐng)PD[b]確定為所述交叉譜c[b]的角度。
7.根據(jù)權(quán)利要求5或6所述的方法(100),進一步包括: 基于所述聲道間相位差I(lǐng)PD[b]來確定聲道間時間差I(lǐng)TD[b];其中對所述第一平均值的確定是基于所述聲道間時間差I(lǐng)TD[b]的正值,對所述第二平均值ITDmean neg的確定是基于所述聲道間時間差I(lǐng)TD[b]的負值。
8.根據(jù)權(quán)利要求6或7所述的方法(100),其中將子頻帶b的所述聲道間時間差I(lǐng)TD[b]確定為所述聲道間相位差I(lǐng)ro [b]的函數(shù),所述函數(shù)取決于頻率窗口的數(shù)目N并且取決于頻率窗口 k或子頻帶b指數(shù)。
9.根據(jù)權(quán)利要求7或8所述的方法(100),其中對所述編碼參數(shù)ITD的所述確定(109)包括: 在包含于子頻帶b的所述子集中的子頻帶b的數(shù)目M中,對正的聲道間時間差I(lǐng)TD[b]的第一數(shù)目Nbptjs以及負的聲道間時間差I(lǐng)TD[b]的第二數(shù)目Nbneg進行計數(shù)。
10.根據(jù)權(quán)利要求9所述的方法(100),其中對所述編碼參數(shù)ITD的所述確定是基于正的聲道間時間差I(lǐng)TD[b]的所述第一數(shù)目Nbptjs與負的聲道間時間差I(lǐng)TD[b]的所述第二數(shù)目Nbneg之間的比較。
11.根據(jù)權(quán)利要求10所述的方法(100),其中對所述編碼參數(shù)ITD的所述確定是基于所述第一標準偏差I(lǐng)TDstd ptjs與所述第二標準偏差I(lǐng)TDstd neg之間的比較。
12.根據(jù)權(quán)利要求10或11所述的方法(100),其中對所述編碼參數(shù)ITD的所述確定是基于正的聲道間時間差I(lǐng)TD[b]的所述第一數(shù)目Nbptjs與乘以第一因子A的負的聲道間時間差I(lǐng)TD [b]的所述第二數(shù)目Nbneg之間的比較。
13.根據(jù)權(quán)利要求12所述的方法(100),其中對所述編碼參數(shù)ITD的所述確定是基于所述第一標準偏差I(lǐng)TDstd lros與乘以第二因子B的所述第二標準偏差I(lǐng)TDstd neg之間的比較。
14.一種多聲道音頻編碼器(400、601),用于確定針對多聲道音頻信號的多個音頻聲道信號X1和X2中的音頻聲道信號X1的編碼參數(shù)ITD,音頻聲道信號X1和X2分別具有音頻聲道信號值X1 [η]和X2 [η],所述參數(shù)空間音頻編碼器包括: 傅立葉變換器等頻率變換器,用于確定所述音頻聲道信號X1的所述音頻聲道信號值X1W的頻率變換Xl[k],并且用于確定參考音頻信號X2的參考音頻信號值χ2[η]的頻率變換X2 [k],其中所述參考音頻信號是所述多個音頻聲道信號中的另一個音頻聲道信號X2或是從所述多個音頻聲道信號中的至少兩個音頻聲道信號X1和X2導出的下混音頻信號; 聲道間差值確定器,用于確定針對子頻帶的子集的至少每個子頻帶b的聲道間差值IPD [b]和ITD [b],每一聲道間差值是指在所述聲道間差值所關(guān)聯(lián)的相應(yīng)子頻帶b中的所述音頻聲道信號的頻帶限制信號部分與所述參考音頻信號的頻帶限制信號部分之間的相位差I(lǐng)PD [b]或時間差I(lǐng)TD [b]; 平均值確定器,用于基于所述聲道間差值IPD[b]和ITD[b]的正值來確定第一平均值ITDnreanptjs,并且用于基于所述聲道間差值IPD[b]和ITD[b]的負值來確定第二平均值ITDmean neg ;以及 編碼參數(shù)確定器,用于基于所述第一平均值和所述第二平均值來確定所述編碼參數(shù)ITD。
15.一種具有程序代碼的計算機程序,所述程序代碼用于在計算機運行上時執(zhí)行根據(jù)權(quán)利要求1至13中的一項權(quán)利要求所述的方法(100)。
【文檔編號】G10L19/008GK104205211SQ201280072151
【公開日】2014年12月10日 申請日期:2012年4月5日 優(yōu)先權(quán)日:2012年4月5日
【發(fā)明者】大衛(wèi)·維雷特, 郎玥, 許劍峰 申請人:華為技術(shù)有限公司