音頻信號處理方法、信號處理單元、雙耳渲染器、音頻編碼器和音頻解碼器的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及音頻編碼/解碼領(lǐng)域,特別地,涉及空間音頻編碼以及空間音頻對象編 碼,例如3D音頻編解碼器系統(tǒng)的領(lǐng)域。本發(fā)明的實施例涉及一種根據(jù)房間脈沖響應(yīng)處理音 頻信號的方法、信號處理單元、雙耳渲染器、音頻編碼器以及音頻解碼器。
【背景技術(shù)】
[0002] 空間音頻編碼工具是本領(lǐng)域中所熟知且標準化的,例如,以MPEG環(huán)繞聲標準??臻g 音頻編碼從多個原始輸入聲道開始,例如在再現(xiàn)設(shè)置中依照其位置而識別的五個或七個輸 入聲道,即左聲道、中間聲道、右聲道、左環(huán)繞聲道、右環(huán)繞聲道以及低頻增強聲道??臻g音 頻編碼器可以從原始聲道衍生一個或多個降混聲道,以及另外衍生出關(guān)于空間提示的參數(shù) 數(shù)據(jù),例如在聲道相干數(shù)值中的聲道間水平差異、聲道間相位差異、聲道間時間差異等等。 一個或多個降混聲道與指示空間提示的參數(shù)化輔助信息一起傳輸?shù)娇臻g音頻解碼器,用于 解碼降混聲道以及相關(guān)聯(lián)的參數(shù)化數(shù)據(jù),以最終獲得與原始輸入聲道為近似版本的輸出聲 道。在輸出端設(shè)置中的聲道的位置通常為固定的,例如,5.1聲道格式或7.1聲道格式等等。
[0003] 此外,空間音頻對象編碼工具是本領(lǐng)域中所熟知且標準化的,例如,以MPEG SA0G 標準(SA0G =空間音頻對象編碼)。相比于空間音頻編碼從原始聲道開始,空間音頻對象編 碼從非自動專用于特定渲染再現(xiàn)設(shè)置的音頻對象開始。另外,音頻對象在再現(xiàn)場景中的位 置是可變化,且可由使用者例如通過將特定的渲染信息輸入至空間音頻對象編碼解碼器來 設(shè)定。可選地或額外地,渲染信息可以被傳輸作為額外的輔助信息或元數(shù)據(jù);渲染信息可以 包括特定音頻對象在再現(xiàn)設(shè)置中待放置(例如經(jīng)過一段時間)的位置的信息。為了獲得特定 的數(shù)據(jù)壓縮,很多音頻對象使用SA0C編碼器來編碼,SA0C編碼器根據(jù)特定的降混信息來降 混對象以從輸入對象中計算一個或多個運輸聲道。此外,SA0C編碼器計算參數(shù)化輔助信息, 參數(shù)化輔助信息代表對象間提示,例如對象水平差異(0LD)、對象相干數(shù)值等等。當在空間 音頻編碼(SAC)中,對象間參數(shù)化數(shù)據(jù)是針對個別時間/頻率片(time/frequency tiles)來 計算。針對音頻信號的特定幀(例如,1024或是2048個取樣值),考慮多個頻帶(例如,24、32 或是64個頻帶)使得對于每幀以及每個頻帶均提供參數(shù)化數(shù)據(jù)。例如,當音頻片具有20個幀 且當每一幀細分成32個頻帶時,則時間/頻率片的數(shù)量為640。
[0004] 在3D音頻系統(tǒng)中,可以期望提供音頻信號的空間效果,即彷佛該頻信號是在特定 的房間聆聽到的。在這種情況下,提供特定房間的房間脈沖響應(yīng),例如基于房間脈沖響應(yīng)的 測量提供特定房間的房間脈沖響應(yīng),特定房間的房間脈沖響用于在呈現(xiàn)給聆聽者的時候處 理音頻信號??善谕?,處理直接音效以及在此呈現(xiàn)中與晚期混響相分離的早期反射。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是提供一種被認可的方法,用于利用房間脈沖響應(yīng)的早期部分以及 晚期混響分別對音頻信號進行處理,以允許達到感知上的結(jié)果,盡可能地與具有完整脈沖 響應(yīng)的音頻信號的卷積的結(jié)果相同。
[0006] 該目的通過如權(quán)利要求1所述的方法、如權(quán)利要求19項所述的信號處理單元、如權(quán) 利要求23所述的雙耳渲染器、如權(quán)利要求24所述的音頻編碼器以及如權(quán)利要求25所述的音 頻解碼器來實現(xiàn)。
[0007] 本發(fā)明是基于發(fā)明人的如下發(fā)現(xiàn),在傳統(tǒng)方法中存在這樣的問題,當根據(jù)房間脈 沖響應(yīng)處理音頻信號時,分別關(guān)于早期部分以及混響處理音頻信號的結(jié)果偏離當施加具有 完整脈沖響應(yīng)的卷積時的結(jié)果。本發(fā)明進一步基于發(fā)明人的如下發(fā)現(xiàn),混響的適當水平取 決于輸入音頻信號以及脈沖響應(yīng)兩者,因為,例如當使用合成混響方法時,在混響上的輸入 音頻信號的作用不會完全保留下來。脈沖響應(yīng)的作用可看作為通過使用已知的混響特性來 作為輸入?yún)?shù)。輸入信號的作用可看作用于調(diào)整混響水平的基于信號的縮放,此混響水平 基于輸入音頻信號而確定。已發(fā)現(xiàn)通過該方法,當對雙耳渲染使用全卷積方法時,混響的感 知水平更好地匹配混響水平。
[0008] (1)本發(fā)明提供一種根據(jù)房間脈沖響應(yīng)處理音頻信號的方法,該方法包括:利用房 間脈沖響應(yīng)的早期部分以及晚期混響分別對音頻信號進行處理,其中處理晚期混響包括產(chǎn) 生縮放混響信號,縮放比例取決于音頻信號;以及將利用房間脈沖響應(yīng)的早期部分進行處 理的音頻信號與縮放混響信號進行組合。
[0009] 當與上述傳統(tǒng)方法相比較時,本發(fā)明的方法的優(yōu)勢在于,不須計算全卷積結(jié)果或 不須施加廣泛的或不精確的聆聽模式即允許縮放晚期混響。本發(fā)明實施例提供一種簡單的 方法縮放人工晚期混響使得其聽起來像以全卷積方法實現(xiàn)的混響。縮放比例基于輸入信 號,而不需要額外的聆聽模式或目標混響響度??s放因子可以在時間頻率域中導出,這是具 有優(yōu)勢的,因為在編碼器/解碼器鏈中的音頻材料在該域中也常常是可獲得的。
[0010] (2)根據(jù)實施例,縮放比例可取決于音頻信號的一個或多個輸入聲道的條件(例如 輸入聲道的數(shù)量、活動輸入聲道的數(shù)量及/或在輸入聲道內(nèi)的活動)。
[0011] 這是具有優(yōu)勢的,因為縮放比例可從具有降低的計算成本的輸入音頻信號中容易 地確定。例如,當相較于原始的音頻信號時,縮放比例可通過簡單地確定在原始的音頻信號 中的聲道的數(shù)量來確定,此原始的音頻信號被降混至當前所考慮的包含降低的數(shù)量的聲道 的降混聲道??蛇x地,降混至當前考慮的降混聲道的活動聲道(在當前音頻幀中顯示某活動 的聲道)的數(shù)量可形成用于縮放混響信號的基礎(chǔ)。
[0012] (3)根據(jù)實施例,縮放比例(除了輸入聲道條件之外)取決于音頻信號的預(yù)定義或 計算得到的相關(guān)性測量。
[0013] 使用預(yù)定義的相關(guān)性測量是具有優(yōu)勢的,因為它減少處理過程中的計算復(fù)雜度。 預(yù)定義的相關(guān)性測量可具有固定值,例如在0.1到0.9的范圍,它可以基于對多個音頻信號 的分析來憑經(jīng)驗確定。另一方面,計算相關(guān)性測量是具有優(yōu)勢的,盡管需要額外的計算資 源,在此情況中,期望分別地針對當前經(jīng)處理的音頻信號獲得更精確的測量。
[0014] (4)根據(jù)實施例,產(chǎn)生縮放混響信號包括施加增益因子,其中增益因子基于音頻信 號的一個或多個輸入聲道的條件及/或基于音頻信號的預(yù)定義或計算得到的相關(guān)性測量而 確定,其中可在處理音頻信號的晚期混響之前、過程中或之后施加增益因子。
[0015] 這是具有優(yōu)勢的,因為增益因子能基于上述參數(shù)容易地計算出,并可關(guān)于基于具 體實施方式的處理鏈中的混響器靈活地運用。
[0016] (5)根據(jù)實施例,增益因子根據(jù)下式確定:
[0017] g = cu+P · (cc-Cu)
[0018] 其中,
[0019] p =音頻信號的預(yù)定義或計算得到的相關(guān)性測量,
[0020] Cu,Cc =指示音頻信號的一個或多個輸入聲道的條件的因子,其中Cu涉及完全非相 關(guān)聲道,c。關(guān)于完全相關(guān)聲道。
[0021] 這是具有優(yōu)勢的,因為隨著時間改變的多個因子比例系具有在音頻信號內(nèi)的一定 數(shù)量的活動聲道。
[0022] (6)根據(jù)實施例,cu以及c。根據(jù)下式確定:
[0025] 其中,
[0026] kin =活動或固定降混聲道的數(shù)量。
[0027] 這是具有優(yōu)勢的,因為因子直接地取決于音頻信號內(nèi)的活動聲道的數(shù)量。如果沒 有聲道是活動的,混響接著縮放為零,如果多個聲道系為活動的,則混響的振福會增大。
[0028] (7)根據(jù)實施例,增益因子在多個音頻幀上被低通濾波,其中根據(jù)下式對增益因子 進行低通濾波:
[0031 ] Cs, new-1-Cs, old
[0032] 其中,
[0033] ts =低通濾波器的時間常數(shù)
[0034] ti =在幀ti處的音頻幀
[0035] gs =平滑增益因子 [0036] k =幀大小,以及
[0037] fs =取樣頻率。
[0038] 這是具有優(yōu)勢的,因為縮放因子不會隨時間發(fā)生突變。
[0039] (8)根據(jù)實施例,產(chǎn)生縮放混響信號包括音頻信號的相關(guān)性分析,其中音頻信號的 相關(guān)性分析可以包括確定音頻信號的音頻幀的組合相關(guān)性測量,其中組合相關(guān)性測量是通 過針對一個音頻幀的多個聲道組合組合相關(guān)性系數(shù)而計算得到的,每個音頻幀包括一個或 多個時隙,其中組合相關(guān)性系數(shù)可以包括取音頻幀的多個相關(guān)性系數(shù)的平均值。
[0040] 這是具有優(yōu)勢的,因為相關(guān)性可通過描述音頻幀的整體相關(guān)性的單個值來進行說 明。在此不需處理多個頻率相關(guān)值。
[0041] (9)根據(jù)實施例,確定組合相關(guān)性測量可以包括:(i)針對一個音頻幀的每個聲道 計算整體平均值,(ii)通過從相應(yīng)的聲道中減去平均值以計算出零平均音頻幀,(iii)針對 多個聲道組合計算相關(guān)性系數(shù),以及(iv)計算組合相關(guān)性測量,作為多個相關(guān)性系數(shù)的平 均值。
[0042] 這是具有優(yōu)勢的,因為,如上所述,對每個幀僅計算一個整體相關(guān)性值(容易處 理),并且能類似于"標準"皮爾遜相關(guān)系數(shù)進行計算,其中皮爾遜相關(guān)系數(shù)也使用零平均信 號以及其標準偏差。
[0043] (10)根據(jù)實施例,針對聲道組合的相關(guān)性系數(shù)根據(jù)下式確定:
[0045] 其中,
[0046] p[m,n]=相關(guān)性系數(shù),
[0047] 〇(Xm[ j])=橫跨聲道m(xù)的一個時隙j的標準偏差,
[0048] 0(xn[ j])=橫跨聲道η的一個時隙j的標準偏差,
[0049] xm,xn =零平均變量值,
[0053] * =共輒復(fù)數(shù)。
[0054]這是具有優(yōu)勢的,因為可使用皮爾遜相關(guān)系數(shù)的公知公式,并可將其轉(zhuǎn)換成與頻 率以及時間相關(guān)的公式。
[0055] (11)根據(jù)實施例,處理音頻信號的晚期混響之步驟包含降混音頻信號以及將降混 音頻信號施加到一混響器。
[0056] 這是具有優(yōu)勢的,因為例如處理混響器需要處理更少的聲道,并且可直接地控制 降混處理過程。
[0057] (12)本發(fā)明提供一種信號處理單元,包括輸入端、早期部分處理器以及晚期混響 處理器,其中輸入端用于接收音頻信號,早期部分處理器根據(jù)房間脈沖響應(yīng)的早期部分處 理接收的音頻信號,晚期混響處理器根據(jù)房間脈沖響應(yīng)的晚期混響處理該接收的音頻信 號,晚期混響處理器配置或編程用于產(chǎn)生取決于所接收的音頻信號的縮放混響信號,輸出 端用于將利用房間脈沖響應(yīng)的早期部分進行處理的音頻信號和縮放混響信號組合為輸出 音頻信號。
[0058] (13)根據(jù)實施例,晚期混響處理器包括接收音頻信號以及產(chǎn)生混響信號的混響 器,根據(jù)音頻信號產(chǎn)生增益因子的相關(guān)性分析器,以及耦接至混響器的輸入端或輸出端并 由相關(guān)性分析器提供的增益因子進行控制的增益級。
[0059] (14)根據(jù)實施例,信號處理單元進一步包括低通濾波器以及延遲元件中的至少一 種,其中低通濾波器耦接于相關(guān)性分析器以及增益級之間,延遲元件耦接于增益級以及加 法器之間,加法器進一步耦接至早期部分處理器以及輸出端。
[0060] (15)本發(fā)明提供一種雙耳渲染器,其包含本發(fā)明的信號處理單元。
[0061] (16)本發(fā)明提供一種用于編碼音頻信號的音頻編碼器,其包含本發(fā)明的信號處理 單元或本發(fā)明的雙耳渲染器,用于在編碼之前處理音頻信號。
[0062] (17)本發(fā)明提供一種用于對編碼的音頻信號進行解碼的音頻解碼器,其包含本發(fā) 明的信號處理單元或本發(fā)明的雙耳渲染器,用于處理解碼的音頻信號。
【附圖說明】
[0063]本發(fā)明實施例將關(guān)于附圖進行描述,其中:
[0064]圖1示出3D音頻系統(tǒng)的3D音頻編碼器的整體圖;
[0065]圖2示出3D音頻系統(tǒng)的3D音頻編碼器的整體圖;
[0066]圖3示出執(zhí)行格式轉(zhuǎn)換器的示例,該格式轉(zhuǎn)換器可以在圖2的3D音頻解碼器中執(zhí) 行;
[0067]圖4示出雙耳渲染器的示例,該雙耳渲染器可在圖2的3D音頻解碼器中執(zhí)行;
[0068] 圖5示出房間脈沖