本發(fā)明涉及用于處理音頻信號的方法和設備,并且更具體地,涉及將對象信號與聲道信號合成并且有效地執(zhí)行合成信號的雙耳渲染的用于處理音頻信號的方法和設備。
背景技術:
在現(xiàn)有技術中,3D音頻統(tǒng)稱為一系列信號處理、傳輸、編碼和再現(xiàn)技術,該一系列信號處理、傳輸、編碼和再現(xiàn)技術用于通過向在環(huán)繞音頻中提供的水平面(2D)上的聲音場景提供與高度方向對應的另一軸,來提供出現(xiàn)在3D空間中的聲音。具體地,為了提供3D音頻,應當使用比相關技術更多的揚聲器,或者以其他方式,盡管使用了比相關技術更少的揚聲器,但是需要在不存在揚聲器的虛擬位置處產(chǎn)生聲音圖像的渲染技術。
預計3D音頻將是與超高清(UHD)TV對應的音頻解決方案,并且預計3D音頻將應用于各種領域,除了在演進為高品質的信息娛樂空間的車輛中的聲音之外,還包括影院音響、個人3DTV、平板裝置、智能手機和云游戲。
同時,作為提供給3D音頻的聲源的類型,可以存在基于聲道的信號和基于對象的信號。另外,可以存在基于聲道的信號和基于對象的信號被混合的聲源,并且因此,用戶可以具有新型的收聽體驗。。
技術實現(xiàn)要素:
技術問題
本發(fā)明致力于實現(xiàn)一種濾波過程,該濾波過程在最小化在雙耳渲染中的音質損失的同時,要求具有非常小的計算量的高計算量,以便在以立體聲再現(xiàn)多聲道或者多對象信號時保持原始信號的沉浸感。
本發(fā)明還致力于在輸入信號中包含失真時通過高質量濾波器來最小化失真?zhèn)鞑ァ?/p>
本發(fā)明還致力于實現(xiàn)具有非常大的長度的有限脈沖響應(FIR)濾波器作為具有較小長度的濾波器。
本發(fā)明還致力于在使用縮小FIR的濾波器執(zhí)行濾波時通過省略的濾波器系數(shù)來最小化截斷部分(destructed part)的失真。
技術解決方案
為了實現(xiàn)這些目的,本發(fā)明提供如下用于處理音頻信號的方法和裝置。
本發(fā)明的示例性實施例提供一種用于處理音頻信號的方法,包括:接收包括多聲道信號和多對象信號中的至少一個的輸入音頻信號;接收用于所述輸入音頻信號的雙耳濾波的濾波器集合的類型信息,濾波器集合的類型是有限脈沖響應(FIR)濾波器、頻域中的參數(shù)化濾波器和時域中的參數(shù)化濾波器中的一個;基于所述類型信息來接收用于雙耳濾波的濾波器信息;以及通過使用所接收的濾波器信息,來執(zhí)行用于所述輸入音頻信號的雙耳濾波,其中,當所述類型信息指示頻域中的參數(shù)化濾波器時,在接收濾波器信息中,接收具有對頻域的每個子帶確定的長度的子帶濾波器系數(shù),并且在執(zhí)行雙耳濾波中,通過使用與之對應的子帶濾波器系數(shù),來濾波所述輸入音頻信號的每個子帶信號。
本發(fā)明的另一示例性實施例提供一種用于處理音頻信號的裝置,該裝置用于執(zhí)行包括多聲道信號和多對象信號中的至少一個的輸入音頻信號的雙耳渲染,其中,用于處理音頻信號的裝置接收用于輸入音頻信號的雙耳濾波的濾波器集合的類型信息,濾波器集合的類型是有限脈沖響應(FIR)濾波器、頻域中的參數(shù)化濾波器和時域中的參數(shù)化濾波器中的一個;基于所述類型信息來接收用于雙耳濾波的濾波器信息,并且通過使用所接收的濾波器信息來執(zhí)行用于輸入音頻信號的雙耳濾波,并且其中,當類型信息指示頻域中的參數(shù)化濾波器時,用于處理音頻信號的裝置接收具有對頻域的每個子帶確定的長度的子帶濾波器系數(shù),并且通過使用與之對應的子帶濾波器系數(shù),來濾波所述輸入音頻信號的每個子帶信號。
每個子帶濾波器系數(shù)的長度可以基于從原型濾波器系數(shù)獲得的相應子帶的混響時間信息來確定,并且從相同原型濾波器系數(shù)獲得的至少一個子帶濾波器系數(shù)的長度可以不同于另一子帶濾波器系數(shù)的長度。
該方法可以進一步包括:當類型信息指示頻域中的參數(shù)化濾波器時,接收有關用于執(zhí)行雙耳渲染的頻帶的數(shù)目的信息和有關用于執(zhí)行卷積的頻帶的數(shù)目的信息;接收用于相對于具有用于執(zhí)行卷積的頻帶的高頻子帶組的每個子帶信號執(zhí)行抽頭延遲線濾波的參數(shù)作為邊界;以及通過使用所接收的參數(shù)來對高頻率組的每個子帶信號執(zhí)行抽頭延遲線濾波。
在這種情況下,可以基于在用于執(zhí)行雙耳渲染的頻帶的數(shù)目和用于執(zhí)行卷積的頻帶的數(shù)目之間的差,來確定執(zhí)行抽頭延遲線濾波的高頻子帶組的子帶的數(shù)目。
參數(shù)可以包括從對應于高頻率組的每個子帶信號的子帶濾波器系數(shù)中提取的延遲信息和對應于所述延遲信息的增益信息。
當類型信息指示FIR濾波器時,接收濾波器信息的步驟接收對應于輸入音頻信號的每個子帶信號的原型濾波器系數(shù)。
本發(fā)明的又一示例性實施例提供一種用于處理音頻信號的方法,包括:接收包括多聲道信號的輸入音頻信號;接收對頻域的每個子帶變化地確定的濾波器階數(shù)信息;基于用于輸入音頻信號的雙耳濾波的濾波器系數(shù)的每個子帶的快速傅立葉變換長度來接收用于每個子帶的塊長度信息;接收對應于每相應子帶的塊的輸入音頻信號的每個子帶和每個聲道的頻域可變階數(shù)濾波(VOFF)系數(shù),VOFF系數(shù)的長度的總和對應于基于相應子帶的濾波器階數(shù)信息確定的同一子帶和同一聲道;以及通過使用所接收的VOFF系數(shù)來濾波輸入音頻信號的每個子帶信號以生成雙耳輸出信號。
本發(fā)明的又一示例性實施例提供一種用于處理音頻信號的裝置,該裝置用于執(zhí)行包括多聲道信號的輸入音頻信號的雙耳渲染,該裝置包括:快速卷積單元,被配置為執(zhí)行用于輸入音頻信號的直達聲部分和早期反射聲部分的渲染,其中,快速卷積單元接收輸入音頻信號,接收對頻域的每個子帶變化地確定的濾波器階數(shù)信息,基于用于輸入音頻信號的雙耳濾波的濾波器系數(shù)的每個子帶的快速傅立葉變換長度來接收用于每個子帶的塊長度信息,接收對應于每相應子帶的塊的輸入音頻信號的每個子帶和每個聲道的頻域可變階數(shù)濾波(VOFF)系數(shù),VOFF系數(shù)的長度的總和對應于基于相應子帶的濾波器階數(shù)信息確定的同一子帶和同一聲道;以及通過使用所接收的VOFF系數(shù)來濾波輸入音頻信號的每個子帶信號以生成雙耳輸出信號。
在這種情況下,濾波器階數(shù)可以基于從原型濾波器系數(shù)獲得的相應子帶的混響時間信息來確定,并且從同一原型濾波器系數(shù)獲得的至少一個子帶的濾波器階數(shù)可以不同于另一子帶的濾波器階數(shù)。
每塊的VOFF系數(shù)的長度可以被確定為具有作為索引值的相應子帶的塊長度信息的2的冪的值。
生成雙耳輸出信號可以包括將子帶信號的每個幀劃分成基于預定的塊長度確定的子幀單元,并且執(zhí)行在劃分的子幀和VOFF系數(shù)之間的快速卷積。
在這種情況下,子幀的長度可以被確定為預定塊長度的一半大的值,并且劃分的子幀的數(shù)目可以基于通過將幀的總長除以子幀的長度獲得的值來確定。
有益效果
根據(jù)本發(fā)明的示例性實施例,當執(zhí)行對多聲道或者多對象信號的雙耳渲染時,可以顯著減少計算量,同時最小化音質損失。
另外,能夠對多聲道或者多對象音頻信號實現(xiàn)具有高音質的雙耳渲染,而在現(xiàn)有技術的低功率裝置中已經(jīng)不可能進行這種實時處理。
本發(fā)明提供了一種以小的計算量來有效地執(zhí)行對包括音頻信號的各種類型的多媒體信號進行濾波的方法。
附圖說明
圖1是示出根據(jù)本發(fā)明的示例性實施例的音頻信號解碼器的框圖。
圖2是示出根據(jù)本發(fā)明的示例性實施例的雙耳渲染器的每個組件的框圖。
圖3是示出根據(jù)本發(fā)明的示例性實施例的用于生成用于雙耳渲染的濾波器的方法的圖。
圖4是示出根據(jù)本發(fā)明的示例性實施例的具體QTDL處理的圖。
圖5是示出本發(fā)明的實施例的BRIR參數(shù)化單元的各個組件的框圖。
圖6是示出本發(fā)明的實施例的VOFF參數(shù)化單元的各個組件的框圖。
圖7是圖示本發(fā)明的實施例的VOFF參數(shù)化生成單元的具體配置的框圖。
圖8是圖示本發(fā)明的實施例的QTDL參數(shù)化單元的各個組件的框圖。
圖9是圖示用于生成用于逐塊快速卷積的VOFF系數(shù)的方法的示例性實施例的圖。
圖10是圖示根據(jù)本發(fā)明的快速卷積單元中的音頻信號處理的過程的示例性實施例的圖。
圖11至15是圖示根據(jù)本發(fā)明的用于實現(xiàn)用于處理音頻信號的方法的語法的示例性實施例的圖。
具體實施方式
考慮到本發(fā)明中的功能,在本說明書中使用的術語盡量采用目前廣泛使用的通用術語,但是,可以根據(jù)本領域的技術人員的意圖、習慣、或者新技術的出現(xiàn)來改變這些術語。此外,在特定情況下,可以使用申請人任意選擇的術語,并且在這種情況下,在本發(fā)明的對應描述部分中,將公開這些術語的含義。此外,我們旨在發(fā)現(xiàn)應該不僅基于術語的名稱,還應該基于貫穿本本說明書的術語的實質意義和內容來分析在本說明書中使用的術語。
圖1是圖示了根據(jù)本發(fā)明的另一示例性實施例的音頻解碼器的框圖。本發(fā)明的音頻解碼器1200包括核心解碼器10、渲染單元20、混合器30和后處理單元40。
首先,核心解碼器10對接收到的比特流進行解碼,并且將該解碼的比特流傳遞至渲染單元20。在這種情況下,從核心解碼器10輸出并且被傳遞至渲染單元的信號可以包括擴音器聲道信號411、對象信號412、SAOC聲道信號414、HOA信號415和對象元數(shù)據(jù)比特流413。用于在編碼器中進行編碼的核心編解碼器可以用于核心解碼器10,并且例如,可以使用MP3、AAC、AC3或者基于聯(lián)合語音和音頻編碼(USAC)的編解碼器。
同時,接收到的比特流可以進一步包括可以標識由核心解碼器10解碼的信號是聲道信號、對象信號還是HOA信號的標識符。此外,當解碼的信號是聲道信號411時,在比特流中可以進一步包括可以標識每個信號對應于多聲道中的哪個聲道(例如,對應于左邊揚聲器、對應于后方右上揚聲器等)的標識符。當解碼的信號是對象信號412時,可以另外獲得指示將對應的信號在再現(xiàn)空間中哪個位置處被再現(xiàn)的信息,如同通過解碼對象元數(shù)據(jù)比特流413所獲得的對象元數(shù)據(jù)信息425a和425b。
根據(jù)本發(fā)明的示例性實施例,音頻解碼器執(zhí)行靈活渲染以改善輸出音頻信號的質量。該靈活渲染可以指基于實際再現(xiàn)環(huán)境的擴音器配置(再現(xiàn)布局)或者雙耳房間脈沖響應(BRIR)濾波器集合的虛擬揚聲器配置(虛擬布局)來轉換解碼的音頻信號的格式的過程。通常,在設置在實際起居室環(huán)境中的揚聲器中,方位角和距離二者與標準建議的不同。因為距揚聲器的收聽方的高度、方向、距離等不同于根據(jù)標準建議的揚聲器配置,所以當在揚聲器的改變位置處再現(xiàn)原始信號時,可能難以提供理想的3D聲音場景。為了即使在不同揚聲器配置中也有效地提供內容制作者預期的聲音場景,需要靈活渲染,該靈活渲染通過轉換音頻信號來根據(jù)在揚聲器當中的位置差異校正該改變。
因此,渲染單元20通過使用再現(xiàn)布局信息或者虛擬布局信息來將由核心解碼器10解碼的信號渲染為目標輸出信號。該再現(xiàn)布局信息可以指示目標聲道的配置,其被表示為再現(xiàn)環(huán)境的擴音器布局信息。此外,可以基于在雙耳渲染器200中使用的雙耳房間脈沖響應(BRIR)濾波器集合來獲得虛擬布局信息,并且可以通過與BRIR濾波器集合相對應的位置集合的子集來構成與虛擬布局相對應的位置集合。在這種情況下,虛擬布局的位置集合可以指示各個目標聲道的位置信息。渲染單元20可以包括格式轉換器22、對象渲染器24、OAM解碼器25、SAOC解碼器26和HOA解碼器28。渲染單元20根據(jù)解碼的信號的類型,通過使用上述配置中的至少一個來執(zhí)行渲染。
格式轉換器22還可以被稱為聲道渲染器,并且將傳輸?shù)穆暤佬盘?11轉換成輸出揚聲器聲道信號。即,格式轉換器22執(zhí)行在傳輸?shù)穆暤琅渲门c要再現(xiàn)的揚聲器聲道配置之間的轉換。當輸出揚聲器聲道的數(shù)目(例如,5.1聲道)小于傳輸?shù)穆暤赖臄?shù)目(例如,22.2聲道),或者傳輸?shù)穆暤琅渲煤鸵佻F(xiàn)的聲道配置彼此不同時,格式轉換器22執(zhí)行聲道信號411的向下混合或者轉換。根據(jù)本發(fā)明的示例性實施例,音頻解碼器可以通過使用在輸入聲道信號與輸出揚聲器聲道信號之間的組合來生成最優(yōu)向下混合矩陣,并且通過使用該矩陣來執(zhí)行行下混合。此外,預渲染的對象信號可以被包括在由格式轉換器22處理的聲道信號411中。根據(jù)示例性實施例,在對音頻信號進行解碼之前,可以將至少一個對象信號預渲染和混合為聲道信號。通過格式轉換器22,可以將混合的對象信號與聲道信號一起轉換成輸出揚聲器聲道信號。
對象渲染器24和SAOC解碼器26對基于對象的音頻信號執(zhí)行渲染。基于對象的音頻信號可以包括離散對象波形和參數(shù)對象波形。在離散對象波形的情況下,按照單聲道波形向編碼器提供各個對象信號,并且編碼器通過使用單通道元素(SCE)來傳輸各個對象信號。在參數(shù)對象波形的情況下,多個對象信號被向下混合為至少一個聲道信號,并且相應對象的特征和特點之間的關系被表示為空間音頻對象編碼(SAOC)參數(shù)。利用該核心編解碼器來對對象信號進行向下混合和編碼,并且在這種情況下,所生成的參數(shù)信息被一起傳輸至解碼器。
同時,當單獨的對象波形或者參數(shù)對象波形被傳輸至音頻解碼器時,可以一起傳輸與之相對應的壓縮對象元數(shù)據(jù)。對象元數(shù)據(jù)通過以時間和空間為單位量化對象屬性來指定每個對象在3D空間中的位置和增益值。渲染單元20的OAM解碼器25接收壓縮對象元數(shù)據(jù)比特流413,并且對接收到的壓縮對象元數(shù)據(jù)比特流413進行解碼,并且將解碼的對象元數(shù)據(jù)比特流413傳遞至對象渲染器24和/或SAOC解碼器26。
對象渲染器24通過使用對象元數(shù)據(jù)信息425a來根據(jù)給定的再現(xiàn)格式對每個對象信號412進行渲染。在這種情況下,可以基于對象元數(shù)據(jù)信息425a來將每個對象信號412渲染為特定輸出聲道。SAOC解碼器26從SAOC聲道信號414和參數(shù)信息來恢復對象/聲道信號。此外,SAOC解碼器26可以基于再現(xiàn)布局信息和對象元數(shù)據(jù)信息425b生成輸出音頻信號。即,SAOC解碼器26通過使用SAOC聲道信號414來生成解碼的對象信號,并且執(zhí)行將解碼的對象信號映射成目標輸出信號的渲染。如上所述,對象渲染器24和SAOC解碼器26可以將對象信號渲染為聲道信號。
HOA解碼器28接收高階立體混響(HOA)信號415和HOA附加信息,并且對該HOA信號和HOA附加信息進行解碼。HOA解碼器28通過獨立等式來對聲道信號或者對象信號建模以生成聲音場景。當在所生成的聲音場景中選擇揚聲器的空間位置時,可以將聲道信號或者對象信號渲染為揚聲器聲道信號。
同時,雖然在圖1中未圖示,但是當音頻信號被傳遞至渲染單元20的各個組件時,動態(tài)范圍控制(DRC)可以作為預處理程序被執(zhí)行。DRC將再現(xiàn)的音頻信號的范圍限制為預定水平,并且將小于預定閾值的聲音調大,而將大于預定閾值的聲音調小。
將由渲染單元20處理的基于聲道的音頻信號和基于對象的音頻信號傳遞至混合器30?;旌掀?0混合由渲染單元20的各個子單元渲染的部分信號以生成混合器輸出信號。當部分信號與在再現(xiàn)/虛擬布局上的相同的位置匹配時,該部分信號彼此相加,并且當該部分信號與不相同的位置匹配時,該部分信號被混合以輸出分別對應于獨立位置的信號?;旌掀?0可以確定在彼此相加的部分信號中是否發(fā)生頻偏干擾,并且進一步執(zhí)行用于防止該頻偏干擾的附加過程。此外,混合器30調整基于聲道的波形和渲染的對象波形的延遲,并且以樣本為單位匯聚所調整的波形。由混合器30匯聚的音頻信號被傳遞至后處理單元40。
后處理單元40包括揚聲器渲染器100和雙耳渲染器200。揚聲器渲染器100執(zhí)行用于輸出從混合器30傳遞的多聲道和/或多對象音頻信號的后處理。后處理可以包括動態(tài)范圍控制(DRC)、響度標準化(LN)和峰值限制器(PL)。將揚聲器渲染器100的輸出信號傳遞至多聲道音頻系統(tǒng)的擴音器以便輸出。
雙耳渲染器200生成多聲道和/或多對象音頻信號的雙耳向下混合信號。雙耳向下混合信號是允許用位于3D中的虛擬聲源來表示每個輸入聲道/對象信號的2-聲道音頻信號。雙耳渲染器200可以接收供應到揚聲器渲染器100的音頻信號作為輸入信號。雙耳渲染可以基于雙耳房間脈沖響應(BRIR)來執(zhí)行并且在時間域或者QMF域上執(zhí)行。根據(jù)示例性實施例,作為雙耳渲染的后處理程序,可以附加地執(zhí)行動態(tài)范圍控制(DRC)、響度規(guī)范化(LN)和峰值限制器(PL)??梢詫㈦p耳渲染器200的輸出信號傳遞和輸出到諸如頭戴耳機、耳機等的2-聲道音頻輸出裝置。
圖2是圖示了根據(jù)本發(fā)明的示例性實施例的雙耳渲染器的每個組件的框圖。如在圖2中所圖示的,根據(jù)本發(fā)明的示例性實施例的雙耳渲染器200可以包括BRIR參數(shù)化單元300、快速卷積單元230、后期混響生成單元240、QTDL處理單元250以及混合器&組合器260。
雙耳渲染器200通過執(zhí)行對各種類型的輸入信號的雙耳渲染來生成3D音頻耳機信號(即,3D音頻2-聲道信號)。在這種情況下,輸入信號可以是包括聲道信號(即,擴音器聲道信號)、對象信號、和HOA系數(shù)信號中的至少一個的音頻信號。根據(jù)本發(fā)明的另一示例性實施例,當雙耳渲染器200包括特定解碼器時,輸入信號可以是前面提到的音頻信號的編碼比特流。雙耳渲染將解碼的輸入信號轉換成雙耳向下混合信號,以使得能夠在通過耳機收聽對應的雙耳向下混合信號時體驗環(huán)繞聲。
根據(jù)本發(fā)明的示例性實施例的雙耳渲染器200可以通過使用雙耳房間脈沖響應(BRIR)濾波器來執(zhí)行雙耳渲染。當使用BRIR的雙耳渲染被一般化時,雙耳渲染是用于獲取用于具有M個聲道的多聲道輸入信號的O輸出信號的M-至-O處理。在這種過程期間,雙耳濾波可以被視為使用與每個輸入聲道和每個輸出聲道對應的濾波器系數(shù)的濾波。為此,可以使用表示從每個聲道信號的揚聲器位置到左右耳的位置的傳遞函數(shù)的各種濾波器集合。在一般的收聽室中測量的傳遞函數(shù),即,在傳遞函數(shù)之中的混響空間,被稱為雙耳房間脈沖響應(BRIR)。相反,為了不受再現(xiàn)空間的影響在消聲室中測量的傳遞函數(shù)被稱為頭部相關脈沖響應(HRIR),并且其傳遞函數(shù)被稱為頭部相關傳遞函數(shù)(HRTF)。因此,與HRTF不同,BBIR包含再現(xiàn)空閑信息以及方向信息。根據(jù)示例性實施例,可以通過使用HRTF和人工混響器來替代BRIR。在本說明書中,對使用BRIR的雙耳渲染進行了描述,但是本發(fā)明不限于此,并且本發(fā)明甚至可以通過類似或者對應的方法,適用于使用包括HRIR和HRIF的各種類型的FIR濾波器的雙耳渲染。此外,本發(fā)明可以適用于對輸入信號的各種形式的濾波以及對音頻信號的各種形式的雙耳渲染。
在本發(fā)明中,從狹義上講,用于處理音頻信號的設備可以指示在圖2中圖示的雙耳渲染器200或者雙耳渲染單元220。然而,在本發(fā)明中,從廣義上講,用于處理音頻信號的設備可以指示包括雙耳渲染器的圖1的音頻信號解碼器。此外,在下文中,在本說明書中,將主要對多聲道輸入信號的示例性實施例進行描述,但是除非另有描述,否則聲道、多聲道和多聲道輸入信號可以用作分別包括對象、多對象和多對象輸入信號的概念。此外,多聲道輸入信號還可以用作包括HOA解碼和渲染的信號的概念。
根據(jù)本發(fā)明的示例性實施例,雙耳渲染器200可以對在QMF域中執(zhí)行對輸入信號的雙耳渲染。即,雙耳渲染器200可以接收QMF域的多聲道(N個聲道)的信號,并且通過使用QMF域的BRIR子帶濾波器來執(zhí)行對該多聲道的信號的雙耳渲染。當通過OMF分析濾波器集合的第i個聲道的第k個子帶信號用xk,i(l)表示并且在子帶域中的時間索引由l表示時,可以通過下面給出的等式來表示在QMF域中的雙耳渲染。
[等式1]
此處,m是L(左)或者R(右),并且是通過將時間域BRIR濾波器轉換成OMF域的子帶濾波器來獲得的。
即,可以通過將QMF域的聲道信號或者對象信號劃分成多個子帶信號并且利用與之對應的BRIR子帶濾波器對各個子帶信號進行卷積的方法來執(zhí)行雙耳渲染,并且此后,對利用BRIR子帶濾波器卷積的各個子帶信號進行加總。
BRIR參數(shù)化單元300轉換并編輯用于在QMF域中的雙耳渲染的BRIR濾波器系數(shù),并且生成各種參數(shù)。首先,BRIR參數(shù)化單元300接收用于多聲道或者多對象的時間域BRIR濾波器系數(shù),并且將接收到的時間域BRIR濾波器系數(shù)轉換成QMF域BRIR濾波器系數(shù)。在這種情況下,QMF域BRIR濾波器系數(shù)分別包括與多個頻帶相對應的多個子帶濾波器系數(shù)。在本發(fā)明中,子帶濾波器濾波器系數(shù)指示QMF-轉換的子帶域的每個BRIR濾波器系數(shù)。在本說明書中,可以將子帶濾波器系數(shù)指定為BRIR子帶濾波器系數(shù)。BRIR參數(shù)化單元300可以編輯QMF域的多個BRIR子帶濾波器系數(shù)中的每一個,并且將所編輯的子帶濾波器系數(shù)傳遞至快速卷積單元230等。根據(jù)本發(fā)明的示例性實施例,可以包括BRIR參數(shù)化單元300,作為雙耳渲染器220的組件,或者以其他方式作為獨立設備被提供。根據(jù)示例性實施例,包括除了BRIR參數(shù)化單元300的快速卷積單元230、后期混響生成單元240、QTDL處理單元250以及混合器&組合器260的組件可以歸類為雙耳渲染單元220。
根據(jù)示例性實施例,BRIR參數(shù)化單元300可以接收與虛擬再現(xiàn)空間的至少一個位置相對應的BRIR濾波器系數(shù)作為輸入。虛擬再現(xiàn)空間的每個位置可以與多聲道系統(tǒng)的每個揚聲器位置相對應。根據(jù)示例性實施例,由BRIR參數(shù)化單元300接收的BRIR濾波器系數(shù)中的每一個可以與雙耳渲染器200的輸入信號中的每個聲道或者每個對象直接匹配。相反,根據(jù)本發(fā)明的另一示例性實施例,接收到的BRIR濾波器系數(shù)中的每一個可以具有獨立于雙耳渲染器200的輸入信號的配置。即,由BRIR參數(shù)化單元300接收的BRIR濾波器系數(shù)中的至少一部分可以與雙耳渲染器200的輸入信號不直接匹配,并且接收到的BRIR濾波器系數(shù)的數(shù)目可以小于或者大于輸入信號的聲道和/或對象的總數(shù)。
BRIR參數(shù)化單元300還可以接收控制參數(shù)信息,并且基于接收到的控制參數(shù)信息來生成用于雙耳渲染的參數(shù)。如在下面描述的示例性實施例中所描述的,控制參數(shù)信息可以包括復雜度-質量控制信息等,并且可以用作用于BRIR參數(shù)化單元300的各種參數(shù)化過程的閾值。BRIR參數(shù)化單元300基于輸入值來生成雙耳渲染參數(shù),并且將所生成的雙耳渲染參數(shù)傳遞至雙耳渲染單元220。當要改變輸入BRIR濾波器系數(shù)或者控制參數(shù)信息時,BRIR參數(shù)化單元300可以重新計算雙耳渲染參數(shù),并且將重新計算的雙耳渲染參數(shù)傳遞至雙耳渲染單元。
根據(jù)本發(fā)明的示例性實施例,BRIR參數(shù)化單元300轉換并編輯與雙耳渲染器200的輸入信號的每個聲道或者每個對象相對應的BRIR濾波器系數(shù),以將所轉換和編輯的BRIR濾波器系數(shù)傳遞至雙耳渲染單元220。對應的BRIR濾波器系數(shù)可以是從用于每個聲道或者每個對象的BRIR濾波器集合中選擇的匹配BRIR或者回退BRIR??梢酝ㄟ^針對每個聲道或者每個對象的BRIR濾波器系數(shù)是否存在于虛擬再現(xiàn)空間中來確定BRIR匹配。在這種情況下,可以從用信號通知聲道布置的輸入?yún)?shù)獲取每個聲道(或者對象)的位置信息。當存在針對輸入信號的相應聲道或者相應對象的位置中的至少一個的BRIR濾波器系數(shù)時,BRIR濾波器系數(shù)可以是輸入信號的匹配BRIR。然而,當不存在針對特定聲道或者對象的位置的BRIR濾波器系數(shù)時,BRIR參數(shù)化單元300可以提供針對與對應的聲道或者對象最相似的位置的BRIR濾波器系數(shù),作為用于對應聲道或者對象的回退BRIR。
首先,當在BRIR濾波器集合中存在具有在距期望位置(特定聲道或對象)的預定范圍內的高度和方位偏差的BRIR濾波器系數(shù)時,可以選擇對應的BRIR濾波器系數(shù)。換言之,可以選擇具有與期望位置相同的高度和距期望位置方位偏差在+/-20的BRIR濾波器系數(shù)。當不存在與之對應的BRIR濾波器系數(shù)時,可以選擇BRIR濾波器集合中的具有距期望的位置的最小幾何距離的BRIR濾波器系數(shù)。即,可以選擇最小化在對應的BRIR的位置與期望位置之間的幾何距離的BRIR濾波器系數(shù)。此處,BRIR的位置表示與相關BRIR濾波器系數(shù)相對應的揚聲器的位置。此外,兩個位置之間的幾何距離可以被定義為通過匯聚兩個位置之間的高度偏差的絕對值和方位偏差的絕對值所獲得的值。同時,根據(jù)示例性實施例,通過用于內插BRIR濾波器系數(shù)的方法,BRIR濾波器集合的位置可以與期望位置匹配。在這種情況下,內插的BRIR濾波器系數(shù)可以被視為BRIR濾波器集合的一部分。即,在這種情況下,可以實現(xiàn)BRIR濾波器系數(shù)始終存在于期望位置處。
可以通過單獨的矢量信息mconv來傳遞對應于輸入信號的每個聲道或每個對象的BRIR濾波器系數(shù)。矢量信息mconv指示在BRIR濾波器集合中的對應于輸入信號的每個聲道或對象的BRIR濾波器系數(shù)。例如,當具有與輸入信號的特定聲道的位置信息匹配的位置信息的BRIR濾波器系數(shù)存在于BRIR濾波器集合中時,矢量信息mconv指示相關BRIR濾波器系數(shù)作為對應于特定聲道的BRIR濾波器系數(shù)。然而,當具有與輸入信號的特定聲道的位置信息匹配的位置信息的BRIR濾波器系數(shù)不存在于BRIR濾波器集合中時,矢量信息mconv指示具有與特定聲道的位置信息的最小幾何距離的回退BRIR濾波器系數(shù)作為對應于特定聲道的BRIR濾波器系數(shù)。因此,參數(shù)化單元300可以通過使用矢量信息mconv,來確定整個BRIR濾波器集合中的對應于輸入音頻信號的每個聲道或每個對象的BRIR濾波器系數(shù)。
同時,根據(jù)本發(fā)明的示例性實施例,BRIR參數(shù)化單元300轉換和編輯所有所接收的BRIR濾波器系數(shù),以將所轉換和編輯的BRIR濾波器系數(shù)傳遞到雙耳渲染器200。在這種情況下,可以由雙耳渲染單元220執(zhí)行對應于輸入信號的每個聲道或每個對象的BRIR濾波器系數(shù)(替代地,所編輯的BRIR濾波器系數(shù))的選擇過程。
當BRIR參數(shù)化單元300由與雙耳渲染器200分離的設備構成時,可以將由BRIR參數(shù)化單元300生成的雙耳渲染參數(shù)作為比特流傳送到雙耳渲染單元220。雙耳渲染單元220可以通過解碼接收的比特流,獲得雙耳渲染參數(shù)。在這種情況下,傳送的雙耳渲染參數(shù)包括用于雙耳渲染單元220的每個子單元中的處理所需要的各種參數(shù),并且可以包括所轉換和編輯的BRIR濾波器系數(shù)、或原始BRIR濾波器系數(shù)。
雙耳渲染單元220包括快速卷積單元230、后期混響生成單元240和QTDL處理單元250,并且接收包括多聲道和/或多對象信號的多音頻信號。在本說明書中,包括多聲道和/或多對象信號的輸入信號將被稱為多音頻信號。圖2圖示了根據(jù)示例性實施例的雙耳渲染單元220接收QMF域的多聲道信號,但是雙耳渲染單元220的輸入信號可以進一步包括時域多聲道信號和時域多對象信號。此外,當雙耳渲染單元220另外包括特定解碼器時,輸入信號可以是多音頻信號的編碼比特流。此外,在本說明書中,基于執(zhí)行多音頻信號的BRIR渲染的情況來描述本發(fā)明,但本發(fā)明不限于此。即,由本發(fā)明提供的特征不僅可以應用于BRIR,而且可以應用于其他類型的渲染濾波器,并且不僅可以應用于多音頻信號,而且可以應用于單聲道或單對象的音頻信號。
快速卷積單元230執(zhí)行在輸入信號和BRIR濾波器之間的快速卷積,以處理輸入信號的直達聲和早期反射聲。為此,快速卷積單元230可以通過使用截斷的BRIR來執(zhí)行快速卷積。截斷的BRIR包括根據(jù)每個子帶頻率截斷的多個子帶濾波器系數(shù),并且由BRIR參數(shù)化單元300來生成。在這種情況下,根據(jù)相應子帶的頻率來確定截斷的子帶濾波器系數(shù)的中的每一個的長度??焖倬矸e單元230可以通過使用具有根據(jù)子帶的不同長度的截斷的子帶濾波器系數(shù),在頻域中執(zhí)行可變階數(shù)濾波。即,可以在QMF域子帶信號和針對每個頻帶而與之相對應的QMF域的截斷子帶濾波器之間執(zhí)行快速卷積。與每個子帶信號對應的截斷的子帶濾波器可以通過以上給出的矢量信息mconv來識別。
后期混響生成單元240生成用于輸入信號的后期混響信號。后期混響信號表示在由快速卷積單元230生成的早期反射聲和直達聲之后的輸出信號。后期混響生成單元240可以基于由從BRIR參數(shù)化單元300傳遞的子帶濾波器系數(shù)中的每一個所確定的混響時間信息,來處理輸入信號。根據(jù)本發(fā)明的示例性實施例,后期混響生成單元240可以生成用于輸入音頻信號的單聲道或立體聲下混合信號,并且執(zhí)行所生成的下混合信號的后期混響處理。
QMF域抽頭延遲線(QTDL)處理單元250處理在輸入音頻信號當中的高頻帶中的信號。QTDL處理單元250從BRIR參數(shù)化單元300接收對應于高頻帶中的每一子帶信號的至少一個參數(shù)(QTDL參數(shù)),并且通過使用所接收的參數(shù)來在QMF域中執(zhí)行抽頭延遲線濾波。對應于每個子帶信號的參數(shù)可以通過以上給出的矢量信息mconv來識別。根據(jù)本發(fā)明的示例性實施例,雙耳渲染器200基于預定常數(shù)或預定頻帶,將輸入音頻信號分成低頻帶信號和高頻帶信號,并且分別可以由快速卷積單元230和后期混響生成單元240處理低頻帶信號,并且由QTDL處理單元250處理高頻帶信號。
快速卷積單元230、后期混響生成單元240和QTDL處理單元250中的每一個輸出2聲道QMF域子帶信號?;旌掀?amp;組合器260針對每個子帶,組合和混合快速卷積單元230的輸出信號、后期混響生成單元240的輸出信號和QTDL處理單元250的輸出信號。在這種情況下,針對2聲道的左右輸出信號中的每一個單獨執(zhí)行輸出信號的組合。雙耳渲染器200對組合的輸出信號執(zhí)行QMF合成,以生成時域中的最終雙耳輸出音頻信號。
<頻域中的可變階濾波(VOFF)>
圖3是示出根據(jù)本發(fā)明的示例性實施例的用于雙耳渲染的濾波器生成方法的圖。轉換成多個子帶濾波器的FIR濾波器可以用于QMF域中的雙耳渲染。根據(jù)本發(fā)明的示例性實施例,雙耳渲染的快速卷積單元可以通過使用具有根據(jù)每個子帶頻率的不同長度的截斷的子帶濾波器,執(zhí)行QMF域中的可變階數(shù)濾波。
在圖3中,F(xiàn)k表示用于快速卷積的截斷子帶濾波器,以便于處理QMF子帶k的直達聲和早期反射聲。此外,Pk表示用于QMF子帶k的后期混響生成的濾波器。在這種情況下,截斷子帶濾波器Fk可以是從原始子帶濾波器截斷的前濾波器,并且還可以被指定為前子帶濾波器。此外,Pk可以是原始子帶濾波器截斷后的后濾波器,并且還可以被指定為后子帶濾波器。QMF域具有總共K個子帶,并且根據(jù)示例性實施例,可以使用64個子帶。此外,N表示原始子帶濾波器的長度(抽頭數(shù)),并且N濾波器[k]表示子帶k的前子帶濾波器的長度。在這種情況下,長度N濾波器[k]表示QMF域中被向下采樣的抽頭數(shù)。
在使用BRIR濾波器進行渲染的情況下,可以基于從原始BRIR濾波器提取的參數(shù),即,用于每個子帶濾波器的混響時間(RT)信息、能源衰減曲線(EDC)值、能源衰減時間信息等,來確定用于每個子帶的濾波器階數(shù)(即,濾波器長度)?;祉憰r間可能由于下述聲學特性而根據(jù)頻率變化:取決于墻壁和天花板的材料的聲音吸收度和空氣中的拆件針對每個頻率而變化。通常,具有較低頻的信號具有更長混響時間。由于長混響時間意味著更多信息保留在FIR濾波器的后部,所以優(yōu)選的是在正常傳遞的混響信息中,截斷相應的濾波器長度。因此,至少部分地基于從相應的子帶濾波器提取的特性信息(例如,混響時間信息),來確定本發(fā)明的每個截斷子帶濾波器Fk的長度。
根據(jù)實施例,可以基于通過用于處理音頻信號的裝置所獲得的附加信息,即,解碼器的所需的質量信息、復雜度或復雜度水平(簡檔),來確定截斷子帶濾波器Fk的長度??梢愿鶕?jù)用于處理音頻信號或由用戶直接輸入的值的裝置的硬件資源來確定復雜度。質量可以根據(jù)用戶的請求確定或參考通過比特流傳送的值或包括在比特流中的其他信息來確定。此外,質量還可以根據(jù)通過估計所傳送的音頻信號的質量所獲得的值來確定,即,比特率越高,質量被認為是更高質量。在這種情況下,根據(jù)復雜度和質量,每個截斷子帶濾波器的長度可以成比例地增加,并且可以隨用于每個帶的不同比率而變化。此外,為了通過諸如FFT的等的高速處理來獲取附加增益,可以將每個截斷子帶濾波器的長度確定為相應大小的單元,例如說,2的冪的倍數(shù)。相反,當所確定的截斷子帶濾波器的長度長于實際子帶濾波器的總長度時,截斷子帶濾波器的長度可以被調整為實際子帶濾波器的長度。
根據(jù)本發(fā)明的實施例的BRIR參數(shù)化單元生成對應于根據(jù)上述示例性實施例確定的截斷子帶濾波器的相應長度的截斷子帶濾波器系數(shù),并且將所生成的截斷子帶濾波器系數(shù)傳遞到快速卷積單元。快速卷積單元通過使用截斷子帶濾波器系數(shù),來在多音頻信號的每個子帶信號的頻域中執(zhí)行可變階數(shù)濾波(VOFF處理)。即,關于作為彼此不同的頻帶的第一子帶和第二子帶,快速卷積單元通過將第一截斷子帶濾波器系數(shù)應用于第一子帶信號來生成第一子帶雙耳信號,并且通過將第二截斷子帶濾波器系數(shù)應用于第二子帶信號來生成第二子帶雙耳信號。在這種情況下,各個第一截斷子帶濾波器系數(shù)和第二截斷子帶濾波器系數(shù)可以獨立地具有不同長度,并且從時域中的同一原型濾波器獲得。即,由于將時域中的單個濾波器被轉換成多個QMF子帶濾波器并且對應于各個子帶的濾波器的長度變化,所以從單個原型濾波器獲得各個截斷子帶濾波器。
同時,根據(jù)本發(fā)明的示例性實施例,可以將被QMF轉換的多個子帶濾波器分類成多個組,并且對所分類的組中的每一個應用不同的處理。例如,可以基于預定頻帶(QMF頻帶i)來將多個子帶分類成具有低頻率的第一子帶組區(qū)域1以及具有高頻率的第二子帶組區(qū)域2。在這種情況下,可以關于第一子帶組的輸入子帶信號執(zhí)行VOFF處理,并且可以關于第二子帶組的輸入子帶信號執(zhí)行下述QTDL處理。
因此,BRIR參數(shù)化單元針對第一子帶組中的每個子帶生成截斷子帶濾波器(前子帶濾波器)系數(shù),并且將前子帶濾波器系數(shù)傳遞到快速卷積單元??焖倬矸e單元通過使用所接收的前子帶濾波器系數(shù)來執(zhí)行第一子帶組的子帶信號的VOFF處理。根據(jù)示例性實施例,可以通過后期混響生成單元附加地執(zhí)行第一子帶組的子帶信號的后期混響處理。此外,BRIR參數(shù)化單元從第二子帶組的子帶濾波器系數(shù)中的每一個獲得至少一個參數(shù),并且將所獲得的參數(shù)傳遞到QTDL處理單元。QTDL處理單元通過使用所獲得的參數(shù)執(zhí)行下述第二子帶組的每個子帶信號的抽頭延遲線濾波。根據(jù)本發(fā)明的示例性實施例,用于區(qū)分第一子帶組和第二子帶組的預定頻率(QMF帶i)可以基于預定常數(shù)值來確定,或者可以根據(jù)所傳送的音頻輸入信號的比特流特性來確定。例如,在使用SBR的音頻信號的情況下,第二子帶組可以被設定為對應于SBR頻帶。
根據(jù)本發(fā)明的另一示例性實施例,基于如圖3所示的預定第一頻帶(QMF帶i)和第二頻帶(QMF帶j),可以將多個子帶分類成三個子帶組。即,可以將多個子帶分類成作為等于或小于第一頻帶的低頻區(qū)域的第一子帶組區(qū)域1、作為高于第一頻帶并且等于或小于第二頻帶的中間頻率區(qū)域的第二子帶組區(qū)域2、以及作為高于第二頻帶的高頻區(qū)域的第三子帶組區(qū)域3。例如,當總共64個QMF子帶(子帶索引0至63)被劃分成3個子帶組時,第一子帶組可以包括具有索引0至31的總共32個子帶,第二子帶組可以包括具有索引32至47的總共16個子帶,并且第三子帶組可以包括具有其余索引48至63的子帶。本文中,當子帶頻率變低時,子帶索引具有更低值。
根據(jù)本發(fā)明的示例性實施例,可以僅關于第一子帶組和第二子帶組的子帶信號執(zhí)行雙耳渲染。即,如上所述,可以關于第一子帶組的子帶信號執(zhí)行VOFF處理和后期混響處理,并且可以關于第二子帶組的子帶信號執(zhí)行QTDL處理。此外,關于第三子帶組的子帶信號,可以不執(zhí)行雙耳渲染。同時,用于執(zhí)行雙耳渲染的頻帶的數(shù)目的信息(kMax=48)以及用于執(zhí)行卷積的頻帶的數(shù)目的信息(kConv=32)可以是預定值,或者可以通過BRIR參數(shù)化單元來確定以被傳遞到雙耳渲染單元。在這種情況下,第一頻帶(QMF帶j)被設定為索引kConv-1的子帶,并且第二頻帶(QMF帶j)被設定為索引kMax-1的子帶。同時,頻帶的數(shù)目的信息(kMax)和用于執(zhí)行卷積的頻帶的數(shù)目的信息(kConv)的值可能由于通過原始BRIR輸入的采樣頻率、輸入音頻信號的采樣頻率等而變化。
同時,根據(jù)圖3的示例性實施例,還可以基于從初始子帶濾波器和前子帶濾波器Fk提取的參數(shù)來確定后子帶濾波器Pk的長度。即,至少部分地基于在相應的子帶濾波器中提取的特性信息來確定每個子帶的前子帶濾波器和后子帶濾波器的長度。例如,可以基于相應子帶濾波器的第一混響時間信息來確定前子帶濾波器的長度,并且可以基于第二混響時間信息來確定后子帶濾波器的長度。即,前子帶濾波器可以是基于原始子帶濾波器中的第一混響時間信息的、處于截斷前部的濾波器,并且后子帶濾波器可以是處于對應于作為在前子帶濾波器之后的區(qū)域的、在第一混響時間和第二混響時間之間的區(qū)域的后部的濾波器。根據(jù)示例性實施例,第一混響時間信息可以是RT20,并且第二混響時間信息可以是RT60,但本發(fā)明不限于此。
早期反射聲部分被切換至后期混響聲部分的部分存在于第二混響時間內。即,具有確定性特性的區(qū)域被切換至具有隨機特性的區(qū)域的點存在,并且在整個頻帶的BRIR方面,該點被稱為混合時間。在混合時間之前的區(qū)域中,主要存在提供每個位置的方向性的信息,并且這對每個聲道是獨特的。相反,由于后期混響部針對每個聲道具有共同特性,所以可以高效地一次處理多個聲道。因此,對每個子帶的混合時間進行估計以在混合時間之前通過VOFF處理來執(zhí)行快速卷積,并且在混合時間之后執(zhí)行通過后期混響處理來反映每個聲道的共同特性的處理。
然而,由于與在估計混合時間時的感知視點的偏差而導致錯誤可能發(fā)生。因此,從質量觀點看,與通過估計準確的混合時間來基于相應的邊界單獨地處理VOFF處理部和后期混響部相比,通過最大化VOFF處理部的長度來執(zhí)行快速卷積更優(yōu)良。因此,根據(jù)復雜度-質量控制,VOFF處理部的長度,即前子帶濾波器的長度可以長于或短于對應于混合時間的長度。
此外,為了減少每個子帶濾波器的長度,除上述截斷方法外,當特定子帶的頻率響應單調時,提供相應子帶的濾波器降低到低階的建模。作為代表性方法,存在使用頻率采樣的FIR濾波器建模,并且可以設計從最小平方觀點最小化的濾波器。
<高頻帶的QTDL處理>
圖4是更具體地示出根據(jù)本發(fā)明的示例性實施例的QTDL處理的圖。根據(jù)圖4的示例性實施例,QTDL處理單元250通過使用單抽頭延遲線濾波器來執(zhí)行多聲道輸入信號X0,X1,…,X_M-1的子帶特定的濾波。在這種情況下,假定多聲道輸入信號被接收為QMF域的子帶信號。因此,在圖4的示例性實施例中,單抽頭延遲線濾波器可以對每個QMF子帶執(zhí)行處理。單抽頭延遲線濾波器關于每個聲道信號,通過僅使用一個抽頭來執(zhí)行卷積。在這種情況下,可以基于從對應于相關子帶信號的BRIR子帶濾波器系數(shù)直接提取的參數(shù)來確定所使用的抽頭。參數(shù)包括用于要在單抽頭延遲線濾波器中使用的抽頭的延遲信息以及與之對應的增益信息。
在圖4中,L_0,L_1,…L_M-1表示分別相對于于M個聲道(輸入聲道)-左耳(左輸出聲道)的BRIR的延遲,并且R_0,R_1,…,R_M-1分別表示相對于M個聲道(輸入聲道)-右耳(右輸出聲道)的BRIR的延遲。在這種情況下,延遲信息表示BRIR子帶濾波器系數(shù)當中的、以絕對值、實部的值或虛部的值的順序的、用于最大峰值的位置信息。此外,在圖4中,G_L_0,G_L_1,…,G_L_M-1表示對應于左聲道的相應延遲信息的增益,并且G_R_0,G_R_1,…,G_R_M-1表示對應于右聲道的相應延遲信息的增益。每個增益信息可以基于相應的BRIR子帶濾波器系數(shù)的總的冪、對應于延遲信息的峰值的大小等來確定。在這種情況下,作為增益信息,可以使用在對整個子帶濾波器系數(shù)的能量補償之后的相應峰值的加權值以及子帶濾波器系數(shù)中的相應峰值本身。通過使用用于相應峰值的加權值的實數(shù)以及加權值的虛數(shù)來獲得增益信息。
同時,可以僅關于高頻帶的輸入信號執(zhí)行QTDL處理,其如上所述,基于預定常數(shù)或預定頻帶來被分類。當將頻譜帶復制(SBR)應用于輸入音頻信號時,高頻帶可以對應于SBR頻帶。用于高頻帶的高效編碼的頻譜帶復制(SBR)是下述工具:該用具用于通過重新擴展由于在低比特率編碼中切斷高頻帶的信號而縮窄的帶寬來確保與原始信號一樣大的帶寬。在這種情況下,通過使用編碼和傳送的低頻帶的信息,以及由編碼器傳送的高頻帶信號的附加信息,來生成高頻帶。然而,由于不準確諧波的生成而導致在通過使用SBR生成的高頻分量中發(fā)生失真。此外,SBR帶是高頻帶,并且如上所述,相應的頻帶的混響時間非常短。即,SBR帶的BRIR子帶濾波器具有小的有效信息和高的衰減率。因此,在用于對應于SBR帶的高頻帶的BRIR渲染中,在計算復雜度與聲音質量方面,通過使用少量有效抽頭來執(zhí)行渲染仍然比執(zhí)行卷積更有效。
通過單抽頭延遲線濾波器濾波的多個聲道信號被聚合成用于每個子帶的2聲道左和右輸出信號Y_L和Y_R。同時,在用于雙耳渲染的初始化過程期間,在QTDL處理單元250的每個單抽頭延遲線濾波器中使用的參數(shù)(QTDL參數(shù))可以被存儲在存儲器中,并且可以在不需要用于提取該參數(shù)的附加操作的情況下執(zhí)行QTDL處理。
<詳細的BRIR參數(shù)化>
圖5是示出根據(jù)本發(fā)明的示例性實施例的BRIR參數(shù)化單元的各個組件的框圖。如圖14所示,BRIR參數(shù)化單元300可以包括VOFF參數(shù)化單元320、后期混響參數(shù)化單元360和QTDL參數(shù)化單元380。BRIR參數(shù)化單元300接收時域的BRIR濾波器集合作為輸入,并且BRIR參數(shù)化單元300的每個子單元通過使用所接收的BRIR濾波器集合,來生成用于雙耳渲染的各種參數(shù)。根據(jù)示例性實施例,BRIR參數(shù)化單元300可以另外接收控制參數(shù),并且基于接收控制參數(shù)來生成參數(shù)。
首先,VOFF參數(shù)化單元320生成用于頻域中的可變階數(shù)濾波(VOFF)所需的截斷子帶濾波器系數(shù)以及得到的輔助參數(shù)。例如,VOFF參數(shù)化單元320計算用于生成截斷子帶濾波器系數(shù)的頻帶特定的混響時間信息、濾波器階數(shù)信息等,并且確定用于對截斷子帶濾波器系數(shù)執(zhí)行逐塊快速傅立葉變換的塊的大小。由VOFF參數(shù)化單元320生成的一些參數(shù)可以被傳送到后期混響參數(shù)化單元360和QTDL參數(shù)化單元380。在這種情況下,所傳遞的參數(shù)不限于VOFF參數(shù)化單元320的最終輸出值,并且可以包括根據(jù)VOFF參數(shù)化單元320的處理同時生成的參數(shù),即,時域的截斷BRIR濾波器系數(shù)等。
后期混響參數(shù)化單元360生成用于后期混響生成所需要的參數(shù)。例如,后期混響參數(shù)化單元360可以生成下混合子帶濾波器系數(shù)、IC(內耳相干性)值等。此外,QTDL參數(shù)化單元380生成用于QTDL處理的參數(shù)(QTDL參數(shù))。更詳細地說,QTDL參數(shù)化單元380從后期混響參數(shù)化單元320接收子帶濾波器系數(shù),并且通過使用所接收的子帶濾波器系數(shù)來生成每個子帶中的延遲信息和增益信息。在這種情況下,QTDL參數(shù)化單元380可以接收用于執(zhí)行雙耳渲染的頻帶的數(shù)目的信息kMax和用于執(zhí)行卷積的頻帶的數(shù)目的信息kConv作為控制參數(shù),并且生成用于具有kMax和kConv的子帶組的每個頻帶的延遲信息和增益信息作為邊界。根據(jù)示例性實施例,QTDL參數(shù)化單元380可以被設置為包括在VOFF參數(shù)化單元320中的組件。
在VOFF參數(shù)化單元320、后期混響參數(shù)化單元360和QTDL參數(shù)化單元380中生成的參數(shù)分別被傳送到雙耳渲染單元(未示出)。根據(jù)示例性實施例,后期混響參數(shù)化單元360和QTDL參數(shù)化單元380可以根據(jù)是否在雙耳渲染單元中分別執(zhí)行后期混響處理和QTDL處理,來確定是否生成參數(shù)。當在雙耳渲染單元中不執(zhí)行后期混響處理和QTDL處理中的至少一個時,與之對應的后期混響參數(shù)化單元360和QTDL參數(shù)化單元380可以不生成參數(shù),或者不將所生成的參數(shù)傳送到雙耳渲染單元。
圖6是示出本發(fā)明的VOFF參數(shù)化單元的各個組件的框圖。如圖15所示,VOFF參數(shù)化單元320可以包括傳播時間計算單元322、QMF轉換單元324和VOFF參數(shù)生成單元330。VOFF參數(shù)化單元320執(zhí)行下述過程:通過使用所接收的時域BRIR濾波器系數(shù)來生成用于VOFF處理的截斷子帶濾波器系數(shù)。
首先,傳播時間計算單元322計算時域BRIR濾波器系數(shù)的傳播時間信息,并且基于所計算的傳播時間信息來截斷時域BRIR濾波器系數(shù)。在本文中,傳播時間信息表示從BRIR濾波器系數(shù)的初始采樣到直達聲的時間。傳播時間計算單元322可以從時域BRIR濾波器系數(shù)截斷對應于所計算的傳播時間的部分并且移除截斷的部分。
可以使用各種方法來估計BRIR濾波器系數(shù)的傳播時間。根據(jù)示例性實施例,可以基于第一點信息來估計傳播時間,其中示出了大于閾值的、與BRIR濾波器系數(shù)的最大峰值成比例的能量值。在這種情況下,由于從多聲道輸入的各個聲道直到聽眾的所有距離彼此不同,所以傳播時間對于每個聲道可能改變。然而,所有聲道的傳播時間的截斷長度需要彼此相同,以便于通過使用BRIR濾波器系數(shù)來執(zhí)行卷積,其中,在執(zhí)行雙耳渲染時截斷傳播時間,并且以便于補償在具有延遲的情況下執(zhí)行雙耳渲染的最終信息。此外,當通過將相同傳播時間信息應用于每個聲道來執(zhí)行截斷時,可以降低獨立聲道中的錯誤發(fā)生概率。
為了根據(jù)本發(fā)明的示例性實施例計算傳播時間信息,可以首先定義用于逐幀索引k的幀能量E(k)。當用于輸入聲道索引m、左/右輸出聲道索引i和時域的時隙索引v的時域BRIR濾波器系數(shù)為時,可以通過下述給出的等式,計算第k幀的幀能量E(k)。
[等式2]
其中,NBRIR表示BRIR濾波器集合的濾波器的總數(shù)目,Nhop表示預定跳大小,并且Lfrm表示幀大小。即,幀能量E(k)可以被計算為相對于同一時間間隔的每個聲道的幀能量的平均值。
可以通過使用定義的幀能量E(k),通過下述給出的等式來計算傳播時間pt。
[等式3]
即,傳播時間計算單元322通過逐預定跳地偏移來測量幀能量,并且識別幀能量大于預定閾值的第一幀。在這種情況下,傳播時間可以被確定為所識別的第一幀的中間點。同時,在等式3中,描述了將閾值設定為比最大幀能量小60dB的值,但本發(fā)明不限于此,并且閾值可以被設定為與最大幀能量成比例的值或與最大幀能量相差預定值的值。
同時,跳大小Nhop和幀大小Lfrm可以基于輸入BRIR濾波器系數(shù)是否是頭部相關脈沖響應(HRIR)濾波器系數(shù)而變化。在這種情況下,指示輸入BRIR濾波器系數(shù)是HRIR濾波器系數(shù)的信息flag_HRIR可以從外部接收,或者通過使用時域BRIR濾波器系數(shù)的長度來估計。通常,早期反射聲部分和后期混響部的邊界已知為80ms。因此,當時域BRIR濾波器系數(shù)的長度為80ms或更小時,相應的BRIR濾波器系數(shù)被確定為HRIR濾波器系數(shù)(flag_HRIR=1),并且當時域BRIR濾波器系數(shù)的長度大于80ms時,可以確定相應的BRIR濾波器系數(shù)不是HRIR濾波器系數(shù)(flag_HRIR=0)。當確定了輸入BRIR濾波器系數(shù)是HRIR濾波器系數(shù)時(flag_HRIR=1)的跳大小Nhop和幀大小Lfrm可以被設定成比當確定了相應的BRIR濾波器系數(shù)不是HRIR濾波器系數(shù)(flag_HRIR=0)時的那些更小的值。例如,在flag_HRIR=0的情況下,跳大小Nhop和幀大小Lfrm可以被分別設定為8個和32個樣本,并且在flag_HRIR=1的情況下,跳大小Nhop和幀大小Lfrm可以被分別設定為1個和8個樣本。
根據(jù)本發(fā)明的示例性實施例,傳播時間計算單元322可以基于所計算的傳播時間信息來截斷時域BRIR濾波器系數(shù),并且將截斷的BRIR濾波器系數(shù)傳遞到QMF轉換單元324。在本文中,截斷的BRIR濾波器系數(shù)指示在從原始BRIR濾波器系數(shù)截斷和移除對應于傳播時間的部分之后的剩余濾波器系數(shù)。傳播時間計算單元322針對每個輸入聲道和每個左/右輸出聲道來截斷時域BRIR濾波器系數(shù),并且將截斷的時域BRIR濾波器系數(shù)傳遞到QMF轉換單元324。
QMF轉換單元324執(zhí)行在時域和QMF域之間的輸入BRIR濾波器系數(shù)的轉換。即,QMF轉換單元324接收時域的截斷的BRIR濾波器系數(shù),并且將所接收的BRIR濾波器系數(shù)轉換成分別對應于多個頻帶的多個子帶濾波器系數(shù)。所轉換的子帶濾波器系數(shù)被傳遞到VOFF參數(shù)生成單元330,并且VOFF參數(shù)生成單元330通過使用所接收的子帶濾波器系數(shù)來生成截斷子帶濾波器系數(shù)。當代替時域BRIR濾波器系數(shù)而將QMF域BRIR濾波器系數(shù)接收為VOFF參數(shù)化單元320的輸入時,所接收的QMF域BRIR濾波器系數(shù)可以繞過QMF轉換單元324。此外,根據(jù)另一示例性實施例,當輸入濾波器系數(shù)是QMF域BRIR濾波器系數(shù)時,在VOFF參數(shù)化單元320中,可以省略QMF轉換單元324。
圖7是示出圖6的VOFF參數(shù)生成單元的具體配置的框圖。如圖7所示,VOFF參數(shù)生成單元330可以包括混響時間計算單元332、濾波器階數(shù)確定單元334和VOFF濾波器系數(shù)生成單元336。VOFF參數(shù)生成單元330可以從圖6的QMF轉換單元324接收QMF域子帶濾波器系數(shù)。此外,可以將包括用于執(zhí)行雙耳渲染的頻帶的數(shù)目的信息kMax、執(zhí)行卷積的頻帶的數(shù)目的信息kConv、預定最大FFT大小信息等的控制參數(shù)輸入到VOFF參數(shù)生成單元330。
首先,混響時間計算單元332通過使用所接收的子帶濾波器系數(shù)來獲得混響時間信息。所獲得的混響時間信息可以被傳遞到濾波器階數(shù)確定單元334,并且用于確定相應子帶的濾波器階數(shù)。同時,由于根據(jù)測量環(huán)境,偏置或偏差可能存在于混響時間信息中,所以可以通過使用與另一聲道的相互關系來使用統(tǒng)一值。根據(jù)示例性實施例,混響時間計算單元322生成每個子帶的平均混響時間信息,并且將所生成的平均混響時間信息傳遞到濾波器階數(shù)確定單元334。當用于輸入聲道索引m、左/右輸出聲道索引i和子帶索引k的子帶濾波器系數(shù)的混響時間信息為RT(k,m,i)時,可以通過下述給出的等式來計算子帶k的平均混響時間信息RTk。
[等式4]
其中,NBRIR表示BRIR濾波器集合的濾波器總數(shù)。
即,混響時間計算單元332從對應于多聲道輸入的每個子帶濾波器系數(shù)中提取混響時間信息RT(k,m,i),并且獲得相對于同一子帶提取的每個聲道的混響時間信息RT(k,m,i)的平均值(即,平均混響時間信息RTk)。所獲得的平均混響時間信息RTk可以被傳遞到濾波器階數(shù)確定單元334,并且濾波器階數(shù)確定單元334可以通過使用所傳遞的平均混響時間信息RTk來確定應用于相應子帶的單個濾波器階數(shù)。在這種情況下,所獲得的平均混響時間信息可以包括混響時間RT20,并且根據(jù)示例性實施例,還可以獲得其他混響時間信息,即,RT30,RT60等。同時,根據(jù)本發(fā)明的另一示例性實施例,混響時間計算單元332可以將相對于同一子帶提取的每個聲道的混響時間信息的最大值和/或最小值傳遞到濾波器階數(shù)確定單元334,作為相應子帶的代表性混響時間信息。
接下來,濾波器階數(shù)確定單元334基于所獲得的混響時間信息來確定相應子帶的濾波器階數(shù)。如上所述,通過濾波器階數(shù)確定單元334獲得的混響時間信息可以是相應子帶的平均混響時間信息,并且根據(jù)示例性實施例,還可以替代地獲得具有每個聲道的混響時間信息的最大值和/或最小值的代表性混響時間信息。濾波器階數(shù)可以用于確定用于相應子帶的雙耳渲染的截斷子帶濾波器系數(shù)的長度。
當子帶k中的平均混響時間信息為RTk時,可以通過下述給出的等式來獲得相應子帶的濾波器階數(shù)信息NFilter[k]。
[等式5]
即,可以使用相應子帶的平均混響時間信息的對數(shù)尺度近似的整數(shù)值作為索引來將濾波器階數(shù)信息確定為2的冪的值。換句話說,使用對數(shù)尺度中的相應子帶的平均混響時間信息的四舍五入值、上舍入值或下舍入值用作索引,濾波器階數(shù)信息可以被確定為2的冪的值。當相應的子帶濾波器系數(shù)的原始長度,即,直到最后一個時隙nend的長度小于在等式5中確定的值時,可以用子帶濾波器系數(shù)的初始長度值nend代替濾波器階數(shù)信息。即,濾波器階數(shù)信息可以被確定為由等式5確定的參考截斷長度和子帶濾波器系數(shù)的原始長度中的較小值。
同時,在對數(shù)尺度中,可以線性地接近取決于頻率的能量的衰減。因此,當使用曲線擬合法時,可以確定每個子帶的優(yōu)化的濾波器階數(shù)信息。根據(jù)本發(fā)明的示例性實施例,濾波器階數(shù)確定單元334可以通過使用多項式曲線擬合法來獲得濾波器階數(shù)信息。為此,濾波器階數(shù)確定單元334可以獲得用于平均混響時間信息的曲線擬合的至少一個系數(shù)。例如,濾波器階數(shù)確定單元334通過對數(shù)尺度中的線性等式來執(zhí)行每個子帶的平均混響時間信息的曲線擬合,并且獲得相應線性等式的斜率值“b”和片段值“a”。
通過使用所獲得的系數(shù),通過下述給出的等式,可以獲得子帶k中的曲線擬合濾波器階數(shù)信息N'Filter[k]。
[等式6]
即,可以使用相應子帶的平均混響時間信息的多項式曲線擬合值的近似整數(shù)值作為索引來將曲線擬合濾波器階數(shù)信息確定為2的冪的值。換句話說,可以使用相應子帶的平均混響時間信息的多項式曲線擬合值的四舍五入值、上舍入值或下舍入值作為索引,來將曲線擬合濾波器階數(shù)信息確定作2的冪的值。當相應子帶濾波器系數(shù)的原始長度,即,直到最后一個時隙nend的長度小于在等式6中確定的值時,可以用子帶濾波器系數(shù)的原始長度值nend代替濾波器階數(shù)信息。即,濾波器階數(shù)信息可以被確定為由等式6確定的參考截斷長度和子帶濾波器系數(shù)的原始長度中的較小值。
根據(jù)本發(fā)明的示例性實施例,基于原型BRIR濾波器系數(shù),即,時域的BRIR濾波器系數(shù)是否是HRIR濾波器系數(shù)(flag_HRIR),可以通過使用等式5和等式6中的任何一個來獲得濾波器階數(shù)信息。如上所述,可以基于原型BRIR濾波器系數(shù)的長度是否大于預定值來確定flag_HRIR的值。當原型BRIR濾波器系數(shù)的長度大于預定值(即flag_HRIR=0)時,根據(jù)上述給出的等式6,濾波器階數(shù)信息可以被確定為曲線擬合值。然而,當原型BRIR濾波器系數(shù)的長度不大于預定值(即,flag_HRIR=1)時,根據(jù)上述給出的等式5,濾波器階數(shù)信息可以被確定為非曲線擬合值。即,在不執(zhí)行曲線擬合的情況下,可以基于相應子帶的平均混響時間信息來確定濾波器階數(shù)信息。原因在于由于HRIR不受房間的影響,所以能量衰減的趨勢不會出現(xiàn)在HRIR中。
同時,根據(jù)本發(fā)明的示例性實施例,當獲得用于第0子帶(即,子帶索引0)的濾波器階數(shù)信息時,可以使用不執(zhí)行曲線擬合的平均混響時間信息。原因在于由于房間模式的影響等而導致第0子帶的混響時間可以具有與另一子帶的混響時間不同的趨勢。因此,根據(jù)本發(fā)明的示例性實施例,可以僅在flag_HRIR=0的情況下并且在索引不為0的子帶中,可以使用根據(jù)等式6的曲線擬合濾波器階數(shù)信息。
將根據(jù)上述示例性實施例確定的每個子帶的濾波器階數(shù)信息傳遞到VOFF濾波器系數(shù)生成單元336。VOFF濾波器系數(shù)生成單元336基于所獲得的濾波器階數(shù)信息來生成截斷子帶濾波器系數(shù)。根據(jù)本發(fā)明的示例性實施例,截斷子帶濾波器系數(shù)可以由按用于逐塊快速卷積的預定塊大小執(zhí)行快速傅立葉變換(FFT)的至少一個VOFF系數(shù)構成。如下文參考圖9所述,VOFF濾波器系數(shù)生成單元336可以生成用于逐塊快速卷積的VOFF系數(shù)。
圖8是示出本發(fā)明的QTDL參數(shù)化單元的各個組件的框圖。如圖13所示,QTDL參數(shù)化單元380可以包括峰值搜索單元382和增益生成單元384。QTDL參數(shù)化單元380可以從VOFF參數(shù)化單元320接收QMF域子帶濾波器系數(shù)。此外,QTDL參數(shù)化單元380可以接收用于執(zhí)行雙耳渲染的頻帶的數(shù)目的信息Kproc和用于執(zhí)行卷積的頻帶的數(shù)目的信息Kconv作為控制參數(shù),并且生成用于具有kMax和kConv的子帶組(即第二子帶組)的每個頻帶的延遲信息和增益信息作為邊界。
根據(jù)更具體示例性實施例,當用于輸入聲道索引m、左/右輸出聲道索引i、子帶索引k和QMF域時隙索引n的BRIR子帶濾波器系數(shù)為時,如下所述,可以獲得延遲信息和增益信息
[等式7]
[等式8]
其中,sign{x}表示值x的符號,nend表示相應的子帶濾波器系數(shù)的最后一個時隙。
即,參考等式7,延遲信息可以表示相應的BRIR子帶濾波器系數(shù)具有最大大小的時隙的信息,并且這表示相應的BRIR子帶濾波器系數(shù)的最大峰值的位置信息。此外,參考等式8,增益信息可以被確定為通過使相應的BRIR子帶濾波器系數(shù)的總的冪值乘以最大峰值位置處的BRIR子帶濾波器系數(shù)的符號所獲得的值。
峰值搜索單元382基于等式7來獲得最大峰值位置,即,第二子帶組的每個子帶濾波器系數(shù)中的延遲信息。此外,增益生成單元384基于等式8來獲得用于每個子帶濾波器系數(shù)的增益信息。等式7和等式8示出了獲得延遲信息和增益信息的等式的示例,但可以不同地修改用于計算每個信息的等式的具體形式。
<逐塊快速卷積>
同時,根據(jù)本發(fā)明的示例性實施例,可以在效率和性能方面針對最佳雙耳執(zhí)行預定逐塊快速卷積?;贔FT的快速卷積具有下述特征:當FFT大小增加時,計算量減小,但整體處理延遲增加并且存儲器使用率增加。當將1秒長度的BRIR被快速卷積為具有相應長度兩倍長的FFT大小時,在計算量方面這是高效的,但對應于1秒的延遲發(fā)生,并且需要與之對應的緩沖器和處理存儲器。具有長延遲時間的音頻信號處理方法不用合于實時數(shù)據(jù)處理的應用等。因為幀是音頻信號處理裝置可以通過其執(zhí)行解碼的最小單位,所以即使在雙耳渲染中,也優(yōu)選地以對應于幀單元的大小來執(zhí)行逐塊快速卷積。
圖9示出用于生成用于逐塊快速卷積的VOFF系數(shù)的方法的示例性實施例。與上述示例性實施例類似,在圖9的示例性實施例中,原型FIR濾波器被轉換成K子帶濾波器,并且Fk和Pk分別表示子帶k的截斷的子帶濾波器(前子帶濾波器)和后子帶濾波器。子帶帶0至帶K-1中的每一個可以表示頻域中的子帶,即,QMF子帶。在QMF域中,可以使用總共64個子帶,但本發(fā)明不限于此。此外,N表示原始子帶濾波器的長度(抽頭數(shù)),并且NFilter[k]表示子帶k的前子帶濾波器的長度。
類似于上述示例性實施例,可以基于預定頻帶(QMF帶i),將QMF域的多個子帶分類成具有低頻率的第一子帶組(區(qū)域1)和具有高頻率的第二子帶組(區(qū)域2)。替代地,可以基于預定第一頻帶(QMF帶i)和第二頻帶(QMF帶j),將多個子帶分類成三個子帶組,即,第一子帶組(區(qū)域1)、第二子帶組(區(qū)域2)和第三子帶組(區(qū)域3)。在這種情況下,分別可以關于第一子帶組的輸入子帶信號執(zhí)行使用逐塊快速卷積的VOFF處理,并且可以關于第二子帶組的輸入子帶信號執(zhí)行QTDL處理。此外,關于第三子帶組的子帶信號,可以不執(zhí)行渲染。根據(jù)示例性實施例,關于第一子帶組的輸入子帶信號,可以另外執(zhí)行后期混響處理。
參考圖9,本發(fā)明的VOFF濾波器系數(shù)生成單元336按相應子帶中的預定塊大小來執(zhí)行截斷子帶濾波器系數(shù)的快速傅立葉變換以生成VOFF系數(shù)。在這種情況下,基于預定最大FFT大小2L來確定每個子帶k中的預定塊的長度NFFT[k]。更詳細地,可以通過下述等式來表達子帶k中的預定塊的長度NFFT[k]。
[等式9]
其中,2L表示預定最大FFT大小,并且NFilter[k]表示子帶k的濾波器階數(shù)信息。
即,預定塊的長度NFFT[k]可以被確定為在截斷子帶濾波器系數(shù)的參數(shù)濾波器長度的2倍的值和預定最大FFT大小2L之間的較小值。在本文中,參考濾波器長度表示相應子帶k中的濾波器階數(shù)NFilter[k](即,截斷子帶濾波器系數(shù)的長度)的2的冪的形式的近似值和真值中的任何一個。即,當子帶k的濾波器階數(shù)具有2的冪的形式時,相應的濾波器階數(shù)NFilter[k]用作子帶k中的參考濾波長度,并且當子帶k的濾波器階數(shù)NFilter[k]不具有2的冪的形式(例如nend)時,相應濾波器階數(shù)NFilter[k]的2的冪的形式的四舍五入值、上舍入值或下舍入值被用作參考濾波器長度。同時,根據(jù)本發(fā)明的示例性實施例,預定塊的長度NFFT[k]和參考濾波器長度可以是2的冪的值。
當作為參考濾波器長度的2倍大的值等于或大于(或大于)最大FFT大小2L,如圖9的F0和F1時,相應子帶的預定塊長度NFFT[0]和NFFT[1]中的每一個被確定為最大FFT大小2L。然而,當作為參考濾波器長度的2倍大的值小于(或等于或小于)最大FFT大小2L,如圖9的F5時,相應子帶的預定塊長度NFFT[5]可以被確定為作為參考濾波器長度的兩倍大的值的如下所述,因為通過零填充并且此后快速傅立葉變換,來使截斷子帶濾波器系數(shù)擴展為兩倍長,所以可以基于在作為參考濾波器長度兩倍大的值和預定最大FFT大小2L之間的比較結果來確定快速傅立葉變換的塊的長度NFFT[k]。
如上所述,當確定每個子帶中的塊長度NFFT[k]時,VOFF濾波器系數(shù)生成單元336按所確定的塊大小,執(zhí)行截斷子帶濾波器系數(shù)的快速傅立葉變換。更詳細地,VOFF濾波器系數(shù)生成單元336按預定塊大小的一半NFFT[k]/2來劃分截斷子帶濾波器系數(shù)。圖9中所示的VOFF處理部的虛線邊界的區(qū)域表示按預定塊大小的一半劃分的子帶濾波器系數(shù)。接下來,BRIR參數(shù)化單元通過使用各個劃分的濾波器系數(shù),生成相應塊大小NFFT[k]的臨時濾波器系數(shù)。在這種情況下,臨時濾波器系數(shù)的前半部分由劃分的濾波器系數(shù)構成,并且后半部分通過零填充的值構成。因此,通過使用預定塊的一半長度NFFT[k]/2的濾波器系數(shù)來生成預定塊的長度NFFT[k]的臨時濾波器系數(shù)。接下來,BRIR參數(shù)化單元執(zhí)行對所生成的臨時濾波器系數(shù)的快速傅立葉變換,以生成VOFF系數(shù)。所生成的VOFF系數(shù)可以用于輸入音頻信號的預定逐塊快速卷積。
如上所述,根據(jù)本發(fā)明的示例性實施例,VOFF濾波器系數(shù)生成單元336按針對每個子帶獨立確定的塊大小,執(zhí)行截斷子帶濾波器系數(shù)的快速傅立葉變換,以生成VOFF系數(shù)。結果,可以執(zhí)行使用用于每個子帶的不同塊數(shù)目的快速卷積。在這種情況下,子帶k中的塊的數(shù)目Nblk[k]可以滿足下述等式。
[等式10]
其中,Nblk[k]是自然數(shù)。
即,子帶k中的塊的數(shù)目Nblk[k]可以被確定為通過使相應子帶中的參考濾波器長度兩倍的值除以預定塊的長度NFFT[k]所獲得的值。
同時,根據(jù)本發(fā)明的示例性實施例,相對于第一子帶組的前子帶濾波器Fk,可以限制性地執(zhí)行預定逐塊VOFF系數(shù)的生成過程。同時,根據(jù)示例性實施例,通過如上所述的后期混響生成單元,可以執(zhí)行用于第一子帶組的子帶信號的后期混響處理。根據(jù)本發(fā)明的示例性實施例,可以基于原型BRIR濾波器系數(shù)的長度是否大于預定值來執(zhí)行用于輸入音頻信號的后期混響處理。如上所述,可以通過指示原型BRIR濾波器系數(shù)的長度大于預定值的標志(即,flag_HRIR),來表示原型BRIR濾波器系數(shù)的長度是否大于預定值。當原型BRIR濾波器系數(shù)的長度大于預定值(flag_HRIR=0)時,可以執(zhí)行用于輸入音頻信號的后期混響處理。然而,當原型BRIR濾波器系數(shù)的長度不大于預定值(flag_HRIR=1)時,可以不執(zhí)行用于輸入音頻信號的后期混響處理。
當不執(zhí)行后期混響處理時,僅可以執(zhí)行對第一子帶組中的每一子帶信號的VOFF處理。然而,對VOFF處理指定的每個子帶的濾波器階數(shù)(即,截斷點)可以小于相應的子帶濾波器系數(shù)的總長度,并且結果,能量失配可能發(fā)生。因此,為了防止能量失配,根據(jù)本發(fā)明的示例性實施例,可以基于flag_HRIR信息來執(zhí)行用于截斷子帶濾波器系數(shù)的能量補償。即,當原型BRIR濾波器系數(shù)的長度不大于預定值(flag_HRIR=1)時,可以將執(zhí)行能量補償?shù)臑V波器系數(shù)用作截斷子帶濾波器系數(shù)或者構成截斷子帶濾波器系數(shù)的每個VOFF系數(shù)。在這種情況下,可以通過直到基于濾波器階數(shù)信息NFilter[k]的截斷點的子帶濾波器系數(shù)除以直到該截斷點的濾波器的冪,并且乘以相應子帶濾波器系數(shù)的總濾波器的冪,來執(zhí)行能量補償。可以將總濾波器的冪定義為用于從初始樣本到相應的子帶濾波器系數(shù)的最后一個樣本nend的濾波器系數(shù)的冪的總和。
圖10示出根據(jù)本發(fā)明的快速卷積單元中的音頻信號處理的過程的示例性實施例。根據(jù)圖10的示例性實施例,本發(fā)明的快速卷積單元執(zhí)行逐塊快速卷積以對輸入音頻信號進行濾波。
首先,快速卷積單元獲得構成用于對每個子帶信號進行濾波的截斷子帶濾波器系數(shù)的至少一個VOFF系數(shù)。為此,快速卷積單元可以從BRIR參數(shù)化單元接收VOFF系數(shù)。根據(jù)本發(fā)明的另一示例性實施例,快速卷積單元(替代地,包括快速卷積單元的雙耳渲染單元)從BRIR參數(shù)化單元接收截斷子帶濾波器系數(shù)并且按預定塊大小來對該截斷子帶濾波器系數(shù)進行快速傅里葉變換以生成VOFF系數(shù)。根據(jù)示例性實施例,確定每個子帶k中的預定塊長度NFFT[k],并且獲得對應于相應子帶k中的塊的數(shù)目Nblk[k]的數(shù)目的VOFF系數(shù)VOFF coef.1至VOFF coef.Nblk。
同時,快速卷積單元按相應子帶中的預定子幀大小,執(zhí)行對輸入音頻信號的每個子帶信號的快速傅立葉變換。為了執(zhí)行在輸入音頻信號和截斷子帶濾波器系數(shù)之間的逐塊快速卷積,基于相應子帶中的預定塊長度NFFT[k]來確定子幀的長度。根據(jù)本發(fā)明的示例性實施例,因為通過零填充并且此后經(jīng)歷快速傅里葉變換來將各個劃分的子幀擴展為兩倍的長度,所以子幀的長度可以被確定為作為預定塊一半大的長度,即,NFFT[k]/2。根據(jù)本發(fā)明的示例性實施例,可以將子幀的長度設定為具有2的乘方值。
當如上所述確定子幀的長度時,快速卷積單元將每個子帶信號劃分成相應子帶的預定子幀大小NFFT[k]/2。如果時域樣本中的輸入音頻信號的幀的長度為L,則QMF域時隙中的相應幀的長度可以為Ln,并且相應幀可以被劃分成NFrm[k]個子幀,如下述等式中所示。
[等式11]
即,用于子帶k中的快速卷積的子幀的數(shù)目NFrm[k]是使幀的總長Ln除以子幀的長度NFFT[k]/2所獲得的值,并且NFrm[k]可以被確定為具有等于或大于1的值。換句話說,子幀的數(shù)目NFrm[k]被確定為通過使幀的總長Ln除以NFrm[k]/2獲得的值與1之間的較大值。在本文中,QMF域時隙中的幀長度Ln是與時域樣本中的幀長度L成比例的值,并且當L為4096時,Ln可以被設計為64(即Ln=L/64)。
快速卷積單元通過使用劃分的子幀幀1至幀NFrm來生成每一個都具有作為子幀長度的兩倍大的長度(即,長度NFFT[k])的臨時子幀。在這種情況下,臨時子幀的前半部分由劃分的子幀構成,而后半部分由零填充值構成??焖倬矸e單元通過對所生成的臨時子幀進行快速傅立葉變換來生成FFT子幀。
接下來,快速卷積單元使快速傅立葉變換的子幀(即,F(xiàn)FT子幀)和VOFF系數(shù)相乘以生成濾波的子幀。快速卷積單元的復數(shù)乘法器(CMPY)執(zhí)行在FFT子幀和VOFF系數(shù)之間的復數(shù)乘法以生成濾波的子幀。接下來,快速卷積單元對每個濾波的子幀進行快速傅立葉反變換,以生成快速卷積子幀(Fast conv子幀)??焖倬矸e單元重迭-相加作為被快速傅立葉反變換的至少一個子幀(Fast conv子幀)以生成濾波的子帶信號。濾波的子帶信號可以構成相應子帶中的輸出音頻信號。根據(jù)示例性實施例,在快速傅立葉反變換前后的步驟中,濾波的子幀可以被聚組合成用于同一子帶中的每個聲道的子幀的左和右輸出聲道的子幀。
為了最小化快速傅立葉反變換的計算量,當當前子幀之后的子幀被處理并且此后進行快速傅立葉變換時,可以將通過執(zhí)行與在相應子帶的第一VOFF系數(shù)之后的VOFF系數(shù),即,VOFF coef.m(m等于或大于2并且等于或小于Nblk)的復數(shù)乘法所獲得的濾波的子幀存儲在存儲器(緩沖器)中并且聚合。例如,將通過在第一FFT子幀(FFT子幀1)和第二VOFF系數(shù)(VOFF coef.2)之間的復數(shù)乘法所獲得的濾波子幀存儲在緩沖器中,并且此后,在對應于第二子幀的時間,與通過在第二FFT子幀(FFT子幀2)和第一VOFF系數(shù)(VOFF coef.1)之間執(zhí)行復數(shù)乘法獲得的濾波子幀聚合,并且相對于聚合的子幀執(zhí)行快速傅立葉反變換。類似地,將通過在第一FFT子幀(FFT子幀1)與第三VOFF系數(shù)(VOFF coef.3)之間的復數(shù)乘法所獲得的濾波子幀和通過第二FFT子幀(FFT子幀2)與第二VOFF系數(shù)(VOFF coef.2)之間復數(shù)乘法所獲得的濾波子幀的每一個存儲在緩沖器中。在對應于第三子幀的時間,在緩沖器中存儲的濾波子幀與通過第三FFT子幀(FFT子幀3)和第一VOFF系數(shù)(VOFF coef.1)之間復數(shù)乘法獲得的濾波子幀聚合,并且相對于聚合的子幀,執(zhí)行快速傅立葉反變換。
根據(jù)本發(fā)明的又一示例性實施例,子幀的長度可以具有小于作為預定塊的長度的一半大的長度NFFT[k]/2的值。在這種情況下,相應的子幀可以通過零填充,被擴展為預定塊長度NFFT[k]之后進行快速傅立葉變換。此外,當重迭-相加通過使用快速卷積單元的復數(shù)乘法器(CMPY)生成的濾波子幀時,可以不基于子幀長度,而是基于作為預定塊的長度的一半大的長度NFFT[k]/2,確定重疊間隔。
<雙耳渲染語法>
圖11至15示出根據(jù)本發(fā)明的用于實現(xiàn)用于處理音頻信號的方法的語法的示例性實施例。圖11至15的各個功能可以由本發(fā)明的雙耳渲染器實現(xiàn),并且當雙耳渲染單元和參數(shù)化單元被設置為單獨的設備時,可以通過雙耳渲染單元實現(xiàn)相應的功能。因此,在下述描述中,雙耳渲染器可以指根據(jù)示例性實施例的雙耳渲染單元。在圖11至15的示例性實施例中,并行地寫入在比特流中接收的每個變量以及分配給相應變量的比特數(shù)目和助記符的類型。在助記符的類型中,“uimsbf”表示無符號整數(shù),最高有效位優(yōu)先,并且“bslbf”表示比特串,左位優(yōu)先。圖11至15的語法表示用于實現(xiàn)本發(fā)明的示例性實施例,以及可以改變和替換每一變量的詳細分配值。
圖11示出根據(jù)本發(fā)明的示例性實施例的雙耳渲染函數(shù)(S1100)的語法。可以通過調用圖11的雙耳渲染函數(shù)(S1100),實現(xiàn)根據(jù)本發(fā)明的示例性實施例的雙耳渲染。首先,雙耳渲染函數(shù)通過步驟S1101至S1104,獲得BRIR濾波器系數(shù)的文件信息。此外,接收指示濾波器表示的總數(shù)目的信息“bsNumBinauralDataRepresentation”(S1110)。濾波器表示是指包括在單個雙耳渲染語法中的獨立雙耳數(shù)據(jù)的單位。不同的濾波器表示可以被指派給原型BRIR,其具有同步的采樣頻率但是在相同的空間中獲得。此外,即使通過不同BRIR參數(shù)化單元來處理同一原型BRIR,不同的濾波器表示可以被指派給相同原型BRIR。
接下來,基于接收的“bsNumBinauralDataRepresentation”值,重復步驟S1111至S1350。首先,接收作為用于確定過濾器表示(即BRIR)的采樣頻率值的索引的“brirSamplingFrequencyIndex”(S1111)。在這種情況下,通過參考預定義的表,可以獲得對應于該索引的值作為BRIR采樣頻率。當索引是預定特定值(即brirSamplingFrequencyIndex==0x1f)時,可以從比特流直接接收BRIR采樣頻率值“brirSamplingFrequency”。
接下來,雙耳渲染函數(shù)接收作為BRIR濾波器集合的類型信息的“bsBinauralDataFormatID”(S1113)。根據(jù)本發(fā)明的示例性實施例,BRIR濾波器集合可以具有有限脈沖響應(FIR)濾波器、頻域(FD)參數(shù)化濾波器或時域(TD)參數(shù)化濾波器的類型。在這種情況下,基于類型信息,確定通過雙耳渲染器獲得的BRIR濾波器集合的類型(S1115)。當類型信息表示FIR濾波器時(即,當bsBinauralDataFormatID==0時),可以執(zhí)行BinauralFIRData()函數(shù)(S1200),因此,雙耳渲染器可以接收未被變換和編輯的原型FIR濾波器系數(shù)。當類型信息表示FD參數(shù)化濾波器時(即當bsBinauralDataFormatID==1時),可以執(zhí)行FDBinauralRendererParam()函數(shù)(S1300),因此,如上述示例性實施例,雙耳渲染器可以獲得頻域中的VOFF系數(shù)和QTDL參數(shù)。當類型信息表示TD參數(shù)化濾波器時(即,當bsBinauralDataFormatID==2時),可以執(zhí)行TDBinauralRendererParam()函數(shù)(S1350),因此,雙耳渲染器接收時域中的參數(shù)化BRIR濾波器系數(shù)。
圖12示出用于接收原型BRIR濾波器系數(shù)的BinauralFirData()函數(shù)(S1200)的語法。BinauralFirData()是用于接收未被變換和編輯的原型FIR濾波器系數(shù)的FIR濾波器獲取函數(shù)。首先,F(xiàn)IR濾波器獲取函數(shù)接收原型FIR濾波器的濾波器系數(shù)數(shù)字信息“bsNumCoef”(S1201)。即“bsNumCoef”可以表示原型FIR濾波器的濾波器系數(shù)的長度。
接下來,F(xiàn)IR濾波器獲取函數(shù)接收相應FIR濾波器中的每一FIR濾波器索引pos和采樣索引i的FIR濾波器系數(shù)(S1202和S1203)。在本文中,F(xiàn)IR濾波器索引pos表示傳送的雙耳濾波器對的數(shù)量“nBrirPairs”中的相應FIR濾波器對(即,左/右輸出對)的索引。傳送的雙耳濾波器對的數(shù)量“nBrirPairs”可以表示將由雙耳濾波器對濾波的虛擬揚聲器的數(shù)量、聲道的數(shù)量或HOA組件的數(shù)量。此外,索引i表示具有長度“bsNumCoefs”的每一FIR濾波器系數(shù)中的樣本索引。FIR濾波器獲取函數(shù)接收用于每一索引pos和i的左輸出聲道的FIR濾波器系數(shù)(S1202)和右輸出聲道的FIR濾波器系數(shù)(S1203)的每一個。
接下來,F(xiàn)IR濾波器獲取函數(shù)接收作為表示FIR濾波器的最大有效頻率的信息的“bsAllCutFreq”(S1210)。在這種情況下,當各個聲道具有不同最大有效頻率時,“bsAllCutFreq”具有值0,而當所有聲道具有相同最大有效頻率時,具有非0的值。當各個聲道具有不同最大有效頻率(即bsAllCutFreq==0)時,F(xiàn)IR濾波器獲取函數(shù)接收左輸出聲道的FIR濾波器的最大有效頻率信息“bsCutFreqLeft[pos]”以及用于每一FIR濾波器索引pos的右輸出聲道的最大有效頻率信息“bsCutFreqRight[pos]”(S1211和S1212)。然而,當所有聲道具有相同的最大有效頻率時,左輸出聲道的FIR濾波器的最大有效頻率信息“bsCutFreqLeft[pos]”和右輸出聲道的最大有效頻率信息“bsCutFreqRight[pos]”的每一個被分配值“bsAllCutFreq”(S1213和S1214)。
圖13示出根據(jù)本發(fā)明的示例性實施例,F(xiàn)dBinauralRendererParam()函數(shù)(S1300)的語法。FdBinauralRendererParam()函數(shù)(S1300)是頻域參數(shù)獲取函數(shù)并且接收用于頻域雙耳濾波的各個參數(shù)。
首先,接收信息“flagHrir”,其表示輸入到雙耳渲染器的脈沖響應(IR)濾波器系數(shù)是HRIR濾波器系數(shù)還是BRIR濾波器系數(shù)(S1302)。根據(jù)示例性實施例,可以基于由參數(shù)化單元接收的原型BRIR濾波器系數(shù)的長度是否大于預定值,確定“flagHrir”。此外,接收表示從原型濾波器系數(shù)的初始樣本到直達聲的時間的傳播時間信息“dInit”(S1303)。由參數(shù)化單元傳送的濾波器系數(shù)可以是從原型濾波器系數(shù)去除對應于傳播時間后的部分后的剩余部分的濾波器系數(shù)。此外,頻域參數(shù)獲取函數(shù)接收頻帶的數(shù)量信息“kMax”以執(zhí)行雙耳渲染,接收頻帶的數(shù)量信息“kConv”以執(zhí)行卷積,以及頻帶的數(shù)量信息“kAna”以執(zhí)行后期混響分析(S1304,S1305和S1306)。
接下來,頻域參數(shù)獲取函數(shù)執(zhí)行“VoffBrirParam()”以接收VOFF參數(shù)(S1400)。當輸入IR濾波器系數(shù)是BRIR濾波器系數(shù)時(即當flagHrir==0時),另外執(zhí)行“SfrBrirParam()”函數(shù),因此,可以接收用于后期混響處理的參數(shù)(S1450)。此外,頻域參數(shù)獲取函數(shù)可以“QtdlBrirParam()”函數(shù)來接收QTDL參數(shù)(S1500)。
圖14示出根據(jù)本發(fā)明的示例性實施例的VoffBrirParam()函數(shù)(S1400)的語法。VoffBrirParam()函數(shù)(S1400)是VOFF參數(shù)獲取函數(shù),并且接收用于VOFF處理的VOFF系數(shù)及與之相關的參數(shù)。
首先,為了接收用于每個子帶的截斷子帶濾波器系數(shù)和表示構成子帶濾波器系數(shù)的VOFF系數(shù)的數(shù)值特性的參數(shù),VOFF參數(shù)獲取函數(shù)接收分配給相應參數(shù)的比特數(shù)信息。即,接收濾波器階數(shù)的比特數(shù)信息“nBitNFilter”、塊長度的比特數(shù)信息“nBitNFft”以及塊編號的比特數(shù)信息“nBitNBlk”(S1401,S1402和S1403)。
接下來,相對于每個頻帶k,VOFF參數(shù)獲取函數(shù)重復地執(zhí)行步驟S1410至S1423以實現(xiàn)雙耳渲染。在這種情況下,相對于作為執(zhí)行雙耳渲染的頻帶的數(shù)量信息的kMax,子帶索引k具有從0到kMax-1的值。
詳細地,VOFF參數(shù)獲取函數(shù)接收相應子帶k的濾波器階數(shù)信息“nFilter[k]”、VOFF系數(shù)的塊長度(即,F(xiàn)FT大小)信息“nFft[k]”以及用于每一子帶的塊編號信息“nBlk[k]”(S1410,S1411和S1413)。根據(jù)本發(fā)明的示例性實施例,可以接收用于每一子帶的逐塊VOFF系數(shù)集合,以及預定塊長度,即,VOFF系數(shù)長度可以被確定為2次冪的值。因此,由比特流接收的塊長度信息“nFft[k]”可以表示VOFF系數(shù)長度的索引值以及雙耳渲染器可以計算作為從2至“nFft[k]”的VOFF系數(shù)的長度的“fftLength”(S1412)。
接下來,VOFF參數(shù)獲取函數(shù)接收用于相應塊中的每個子帶索引k、塊索引b、BRIR索引nr和頻域時隙索引v的VOFF系數(shù)(S1420至S1423)。在本文中,BRIR系數(shù)nr表示作為傳送的雙耳濾波器對的數(shù)量中的“nBrirPairs”中,相應的BRIR濾波器對的索引。傳送的雙耳濾波器對的數(shù)量“nBrirPairs”可以表示虛擬揚聲器的數(shù)量、聲道的數(shù)量或將由雙耳濾波器對濾波的HOA分量的數(shù)量。此外,索引b表示作為相應子帶k中的所有塊的數(shù)量的“nBlk[k]”中的相應VOFF系數(shù)塊的索引。索引v表示具有長度“fftLength”的每一塊的時隙索引。VOFF參數(shù)獲取函數(shù)接收用于索引k,b,nr和v的每一個的實值的左輸出聲道VOFF系數(shù)(S1420)、虛值的左輸出聲道VOFF系數(shù)(1421)、實值的右輸出聲道VOFF系數(shù)(S1422)和虛值的右輸出聲道VOFF系數(shù)(1423)的每一個。本發(fā)明的雙耳渲染器接收對應于相對于每一子帶k,在相應的子帶中確定的fftLength長度的每塊b的每一BRIR濾波器對的VOFF系數(shù)并且如上所述,通過使用接收的VOFF系數(shù)。執(zhí)行VOFF處理。
根據(jù)本發(fā)明的示例性實施例,相對于執(zhí)行雙耳渲染的所有頻帶(子帶索引0至kMax-1),接收VOFF系數(shù)。即,VOFF參數(shù)獲取函數(shù)接收用于第二子帶組和第一子帶組的所有頻帶的VOFF系數(shù)。當相對于第二子帶組的每一子帶信號,執(zhí)行QTDL處理時,雙耳渲染器可以僅相對于第一子帶組的子帶,執(zhí)行VOFF處理。然而,當相對于第二子帶組的每一子帶信號,不執(zhí)行QTDL處理時,雙耳渲染可以相對于第一子帶組和第二子帶組的每一頻帶,執(zhí)行VOFF處理。
圖15根據(jù)本發(fā)明的示例性實施例,示出QtdlParam()函數(shù)(S1500)的語法。QtdlParam()函數(shù)(S1500)是QTDL參數(shù)獲取函數(shù)并且接收用于QTDL處理的至少一個參數(shù)。在圖15的示例性實施例中,將省略與圖14的示例性實施例相同部分的重復描述。
根據(jù)本發(fā)明的示例性實施例,可以相對于第二子帶組,即,子帶索引kConv和kMax-1之間的每一頻帶執(zhí)行QTDL處理。因此,相對于子帶索引k,QTDL參數(shù)獲取函數(shù)重復地執(zhí)行步驟S1501至S1507達kMax-kConv次以接收用于第二子帶組的每一子帶的QTDL參數(shù)。
首先,QTDL參數(shù)獲取函數(shù)接收分配給每一子帶的延遲信息的比特數(shù)信息“”(S1501)。接著,QTDL參數(shù)獲取函數(shù)接收QTDL參數(shù),即,用于每一子帶索引k的增益信息和延遲信息以及BRIR索引nr(S1502至S1507)。更詳細地說,QTDL參數(shù)獲取函數(shù)接收用于索引k和nr的每一個的左輸出聲道的實值信息(S1502)、左輸出聲道增益的虛值信息(S1503)、右輸出聲道的實值信息(S1504)、右輸出聲道增益的虛值信息(S1505)、左輸出聲道延遲信息(S1506)和右輸出聲道延遲信息(S1507)的每一個。根據(jù)本發(fā)明的示例性實施例,雙耳渲染接收實值的增益信息以及用于每一子帶k的左/右輸出聲道的虛值的增益信息和延遲信息,以及第二子帶組的每一BRIR濾波器對nr,并且通過使用實值的增益信息以及虛值的延遲信息,對第二子帶組的每一子帶信號,執(zhí)行單抽頭延遲線濾波。
盡管通過上述詳細示例性實施例,描述了本發(fā)明,但在不背離本發(fā)明的精神和范圍的情況下,本領域的技術人員也可以做出本發(fā)明的改進和改變。即,盡管在本發(fā)明中,已經(jīng)描述了用于多音頻信號的雙耳渲染的示例性實施例,能類似地應用本發(fā)明,甚至擴展到包括音頻信號和視頻信號的各種多媒體信號。因此,認為本領域的技術人員從本發(fā)明的詳細描述和示例性實施例,對本發(fā)明的簡單推斷包括在本發(fā)明的主張中。
發(fā)明的方式
如上,已經(jīng)在最佳實施方式中描述了相關特征。
工業(yè)實用性
本發(fā)明能應用于處理多媒體信號的各種形式的裝置,包括用于處理音頻信號的裝置和用于處理視頻信號的裝置等。
此外,本發(fā)明能應用于生成用于音頻信號處理和視頻信號處理的參數(shù)的參數(shù)化設備。