專利名稱:數(shù)字音頻信號中的前回聲衰減的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于在數(shù) 字音頻信號的解碼期間、對前回聲(pre-echo)進行衰減的方法和裝置。
背景技術(shù):
為了在傳送網(wǎng)絡(luò)上進行數(shù)字音頻信號的傳輸(所述傳送網(wǎng)絡(luò)例如是固定或移動網(wǎng)絡(luò)),或者為了存儲信號,使用了用于實現(xiàn)基于變換的頻率編碼或時間編碼類型的編碼系統(tǒng)的壓縮處理(或源編碼)。因此,作為本發(fā)明主題的方法和裝置具有聲音信號(具體地,通過頻率變換而編碼的數(shù)字音頻信號)的壓縮,作為應(yīng)用領(lǐng)域。圖1通過圖示表現(xiàn)了根據(jù)現(xiàn)有技術(shù)的通過包括添加/重疊分析_綜合的變換來編碼和解碼數(shù)字音頻信號的基本圖。諸如打擊樂器的某些音樂序列和諸如爆破音(/k/,/t/,...)的某些語音片段的特征在于非常突然的沖擊(attack),所述沖擊導(dǎo)致在幾個采樣的空間中信號的非常快的轉(zhuǎn)變和動態(tài)擺動的非常強的變化。在圖1中基于采樣410來給出了示范轉(zhuǎn)變。對于編碼/解碼處理,輸入信號被切分為長度L的采樣塊(這里,用垂直虛線了表現(xiàn)所述采樣塊)。輸入信號被表示為x(n)。到連續(xù)塊的切分導(dǎo)致了定義塊Xn= [x(N. L)... χ (N. L+L-1)] = [XN(0)...XN(L-1)],其中N是幀的索弓丨,并且L是幀的長度。在圖1 中,我們具有L= 160個采樣。在修正的余弦調(diào)制變換MDCT (代表“修正的離散余弦變換”) 的情況下,聯(lián)合地分析兩個塊xN (η)和χΝ+1 (η),以給出與索引為N的幀相關(guān)聯(lián)的變換系數(shù)的塊。通過變換編碼進行的到塊(也稱為幀)的劃分完全地獨立于聲音信號,并因此轉(zhuǎn)變出現(xiàn)在分析窗口的任何點處?,F(xiàn)在,在變換解碼之后,所重構(gòu)的信號被由量化(Q)-逆量化(Q—1)運算產(chǎn)生的“噪聲”(或失真)所毀壞。這個編碼噪聲以相對均勻的方式而時間分布在所變換塊的整個時間支持(temporal support)上,即在采樣的長度為2L(其中L個采樣重疊)的整個窗口長度上。編碼噪聲的能量一般與塊的能量成比例,并且取決于解碼速率。對于包括沖擊的塊(諸如,圖1的塊320-340),信號的能量高,因此噪聲也為高電平。在變換編碼中,編碼噪聲的電平低于用于緊隨在轉(zhuǎn)變之后的高能量采樣的信號的電平,但是該電平高于用于(特別是在所述轉(zhuǎn)變之前的部分(圖1的采樣160-410)上的) 較低能量的采樣的信號的電平。對于前述部分,信噪比為負,并且結(jié)果生成的劣化在偵聽期間可能顯得非常煩人。在轉(zhuǎn)變之前的編碼噪聲被稱為前回聲,而在轉(zhuǎn)變之后的噪聲被稱為后回聲(post-echo) ο在圖1中可以觀察到,前回聲影響在所述轉(zhuǎn)變之前的幀以及出現(xiàn)所述轉(zhuǎn)變的幀。心理聲學(xué)實驗已經(jīng)示出了人耳執(zhí)行相當(dāng)有限的、幾個毫秒量級的聲音的時間預(yù)掩蔽(pre-masking)。當(dāng)前回聲的持續(xù)時間大于預(yù)掩蔽的持續(xù)時間時,在所述沖擊之前的噪聲或者前回聲是可聽得到的。當(dāng)從高能量序列切換到低能量序列時,人耳還執(zhí)行從5到60毫秒的更長持續(xù)時間的后掩蔽(post-masking)。因此,后回聲的可接受程度或者煩人的水平大于前回聲。在采樣數(shù)目方面的塊的長度越大,則前回聲的更嚴(yán)重現(xiàn)象就越煩人?,F(xiàn)在,在變換編碼中,必須具有最重要頻區(qū)的可靠分辨率。在固定的采樣頻率上并且在固定的速率上,如果窗口的點數(shù)增加,則更多比特將可用于對被心理聲學(xué)模型認(rèn)為有用的頻譜線進行編碼, 因此即為使用大長度的塊的優(yōu)點。MPEG AAC編碼(高級音頻編碼)例如使用大長度的窗口,該窗口包含采樣的固定數(shù)目2048,即以32kHz的采樣頻率在64ms的持續(xù)時間上。用于傳統(tǒng)應(yīng)用的變換編碼器經(jīng)常使用16kHz處的持續(xù)時間為40ms的窗口和20ms的幀換新持續(xù)時間。為了減少前回聲現(xiàn)象的前述煩人影響, 迄今已經(jīng)提出了各種解決方案。第一解決方案在于應(yīng)用自適應(yīng)濾波。在由于所述沖擊而導(dǎo)致的傳送之前的區(qū)段中,所重構(gòu)的信號事實上由原始信號和在所述信號上疊加的量化噪聲組成。對應(yīng)的濾波技術(shù)已經(jīng)描述在由Y.Mahieux和J. P. Petit發(fā)表的、題目為High Quality Audio Transform Coding at 64 kbits,IEEE Trans. OnCommunications Vol 42, No. 11,November 1994 的文章中。這樣的濾波的實現(xiàn)需要參數(shù)的知識,基于有噪聲采樣在解碼器處估計所述參數(shù)中的一些參數(shù)。另一方面,諸如原始信號的能量的信息僅僅在編碼器處可以獲知,并因此必須被傳送。當(dāng)所接收的塊包含動態(tài)擺動的突然變化時,向它應(yīng)用過濾處理。前述過濾處理沒有使得可能恢復(fù)原始信號,但是能提供前回聲的大量減少。然而, 它需要要向解碼器傳送附加的輔助參數(shù)。在法國專利申請FR 06 01466中描述了不需要輔助參數(shù)的傳送的技術(shù)。所描述的方案使得可能辨別前回聲的存在,并且對通過基于變換編碼(生成前回聲)、和時間編碼 (不生成任何前回聲)的分級編碼(生成多層二進制串)而產(chǎn)生的數(shù)字音頻信號的前回聲進行衰減。這個專利申請更精確地描述了在解碼器處檢測在到高能量區(qū)段的轉(zhuǎn)變之前的低能量區(qū)段、在所檢測的低能量區(qū)段中前回聲的衰減、和在高能量區(qū)段中前回聲衰減的禁止。 使得可能對前回聲進行衰減的處理是基于在源自于變換解碼(生成前回聲)的信號和源自于時間解碼(不生成回聲)的信號之間的比較。這種技術(shù)不需要來自編碼器的特定輔助信息的任何傳送,但是需要存在源自于時間解碼的參考信號。源自于時間解碼的參考信號不一定對于使用變換解碼的所有解碼器都可用。此夕卜,在其中這樣的參考信號可用于所述解碼器的情況下,它不總是適合于計算前回聲的衰減。例如規(guī)范UIT-T G. 729. 1的立體聲擴展的立體聲可縮放編碼器可按照下文中描述的方式來操作。編碼器計算立體聲信號的左和右兩個聲道的均值,并然后利用G. 729. 1編碼器對這個均值進行編碼,并最后傳送附加的立體聲擴展參數(shù)。因此,傳送到解碼器的二進制串包括具有附加立體聲擴展層的G. 729. 1層。例如,第一附加層包括用于反映(變換域中)每個子帶的能量在立體聲信號的兩個聲道之間的差異的參數(shù)。第二層包括例如殘余信號的變換系數(shù),該殘余信號被定義為在原始信號與基于G. 729. 1 二進制串并基于第一層進行解碼的信號之間的差。擴展模式中的G. 729. 1解碼器首先對單聲道信號進行解碼,并且作為所傳送的參數(shù)的函數(shù)來恢復(fù)左和右兩個聲道的變換系數(shù)。G. 729. 1類型的解碼器對單聲道信號進行的解碼產(chǎn)生了基于兩個聲道的均值的參考信號。在兩個聲道之間的電平差大的情況下,單聲道信號的時間包絡(luò)于是相對于較大電平的聲道的逆變換的輸出將為低,并且相對于較低電平的聲道的逆變換的輸出將為高。因此,使用諸如G. 729. 1解碼器的輸出的參考來對前回聲進行衰減對于立體聲解碼將不是有效的在較大電平的聲道中,太多前回聲將被錯誤地檢測到,并因此有用信號將被去除,而在較低電平的聲道中,并不是所有的前回聲都將被檢測到或去除。因此,在其中源自于時間解碼的信號不可用或不靈驗、并且其中編碼器沒有傳送輔助信息的情況下,存在對于在解碼時準(zhǔn)確地衰減前回聲的技術(shù)的需要。此外,這個技術(shù)必須能夠操作用于單聲道和立體聲編碼。
發(fā)明內(nèi)容
為此,本發(fā)明涉及一種用于對基于變換編碼產(chǎn)生的數(shù)字音頻信號中的前回聲進行衰減的方法,其中,在解碼時,對于這個數(shù)字音頻信號的當(dāng)前幀,所述方法包括-至少基于當(dāng)前幀的重構(gòu)信號來定義級聯(lián)信號的步驟;-將所述級聯(lián)信號劃分為確定長度的采樣的子塊的步驟;-計算級聯(lián)信號的時間包絡(luò)的步驟;-檢測時間包絡(luò)到高能量區(qū)段的轉(zhuǎn)變的步驟;-確定在已經(jīng)檢測到轉(zhuǎn)變的子塊之前的低能量子塊的步驟;以及-在確定的子塊中進行衰減的步驟,所述方法的特征在于,根據(jù)對于確定的子塊的每一個計算的、作為級聯(lián)信號的時間包絡(luò)的函數(shù)的衰減因子,來執(zhí)行所述衰減。這樣,關(guān)于已解碼信號所專有的特性來定義衰減因子,這不需要來自編碼器的任何信息傳送,也不需要源自于不生成回聲的解碼的任何信號。適合于當(dāng)前幀的每一個子塊并且基于重構(gòu)信號計算的因子使得可能改善前回聲衰減處理的質(zhì)量。可以基于當(dāng)前幀的重構(gòu)信號并且基于當(dāng)前幀的第二部分來定義級聯(lián)信號,諸如隨后參考圖2所定義的。在這個情況下,所述方案沒有引入任何時間延遲。在其中允許時間延遲的情況下,級聯(lián)信號被定義為當(dāng)前幀的和隨后幀的重構(gòu)信號。級聯(lián)信號可作為子塊而物理存儲在各個地方??梢詫⑾挛闹刑峒暗母鱾€具體實施例獨立地或彼此組合地添加到上面定義的方法的步驟。這樣,在具體實施例中,對于作為先前幀的重構(gòu)信號的時間包絡(luò)的函數(shù)的衰減因子值,最小值是固定的。 這使得可能具體地在背景噪聲電平上避免從一個幀到另一幀的太大衰減差,并因此可能避免可聽得到的假象(artifact)。先前幀的重構(gòu)信號的時間包絡(luò)例如可以通過計算每個子塊的最小能量或另外地通過計算平均能量或者任何其它計算來確定。在本發(fā)明的具體實施例中,衰減因子被確定為所述子塊的時間包絡(luò)的、包括所述轉(zhuǎn)變的子塊的時間包絡(luò)的最大值的、和先前幀的重構(gòu)信號的時間包絡(luò)的函數(shù)。在示范實施例中,通過子塊能量計算來確定所述時間包絡(luò)。有利地,所述方法還包括在所述在確定的子塊中進行衰減的步驟之后的、計算和存儲當(dāng)前幀的時間包絡(luò)的步驟。這個時間包絡(luò)計算因此將用于處理隨后幀。這個計算是準(zhǔn)確的,這是因為信號不再受到前回聲干擾。有利地,將值為1的衰減因子分配到包括轉(zhuǎn)變的所述子塊的采樣、以及當(dāng)前幀中的隨后子塊的采樣。因此,在不包括任何前回聲的這些子塊中,這個衰減被禁止。在具體實施例中,根據(jù)如下步驟,針對確定的子塊來確定衰減因子-計算在包括轉(zhuǎn)變的子塊中確定的最大能量與當(dāng)前子塊的能量的比率;-將所述比率與第一閾值進行比較;-在其中所述比率小于或等于第一閾值的情況下,向所述衰減因子分配用于禁止所述衰減的值;-在其中所述比率大于第一閾值的情況下 將所述比率與第二閾值進行比較; 在其中所述比率小于或等于第二閾值的情況下,向所述衰減因子分配低衰減值; 在其中所述比率大于第二閾值的情況下,向所述衰減因子分配高衰減值;這個具體實施例已經(jīng)證明是特別有效的并且易于實現(xiàn)。有利地,所述方法規(guī)定了在逐采樣計算的因子之間確定平滑化函數(shù)。這還使得可能避免在衰減值的太突然變化期間的可聽得到的假象。在實現(xiàn)變體中,通過向被施加到在包括轉(zhuǎn)變的子塊之前的子塊的預(yù)定數(shù)目采樣的衰減因子施加用于禁止所述衰減的衰減值,來對在包括轉(zhuǎn)變的子塊之前的子塊執(zhí)行因子校正。這因此使得可能通過對衰減值定義的平滑化函數(shù)而不降低沖擊的幅度。本發(fā)明還旨在一種用于對基于變換編碼器產(chǎn)生的數(shù)字音頻信號中的前回聲進行衰減的裝置,其中,與解碼器相關(guān)聯(lián)的裝置包括如下模塊來處理這個數(shù)字音頻信號的當(dāng)前幀_用于至少基于當(dāng)前幀的重構(gòu)信號來定義級聯(lián)信號的模塊;-用于將所述級聯(lián)信號劃分為確定長度的采樣的子塊的模塊;-用于計算級聯(lián)信號的時間包絡(luò)的模塊;-用于檢測時間包絡(luò)到高能量區(qū)段的轉(zhuǎn)變的模塊;
-用于確定在已經(jīng)檢測到轉(zhuǎn)變的子塊之前的低能量子塊的模塊;以及-用于在確定的子塊中進行衰減的模塊。所述裝置使得,所述衰減模塊根據(jù)對于確定的子塊的每一個計算的、作為級聯(lián)信號的時間包絡(luò)的函數(shù)的衰減因子,來執(zhí)行所述衰減。本發(fā)明旨在一種數(shù)字音頻信號的解碼器,包括諸如上述的裝置。這樣的解碼器例如可以是在UIT-T委員會16的議題23(queSti0n 23 ofthe UIT-T, commission 16)中研究的G. 729. I-SffB/立體聲類型的解碼器。本發(fā)明可以被集成到立體聲模式或SWB(“超寬波段”)模式中的這樣的解碼器中。
最后,本發(fā)明旨在一種包括代碼指令的計算機程序,當(dāng)由處理器執(zhí)行這些指令時, 所述代碼指令用于實現(xiàn)諸如所描述的衰減方法的步驟。
在閱讀了單獨通過非限制性示例并參考附圖給出的如下描述時,本發(fā)明的其它特性和優(yōu)點將變得更清楚明顯,在附圖中-所描述的圖1先前圖示了根據(jù)現(xiàn)有技術(shù)狀態(tài)的變換編碼_解碼系統(tǒng);-圖2圖示了關(guān)于信號當(dāng)前幀的重構(gòu)信號的配置;-圖3圖示了用于對數(shù)字音頻信號解碼器中的前回聲進行衰減的裝置;-圖4a表現(xiàn)當(dāng)轉(zhuǎn)變處于當(dāng)前幀的第二部分中時的級聯(lián)信號;-圖4b表現(xiàn)當(dāng)轉(zhuǎn)變處于當(dāng)前幀的重構(gòu)信號中時的級聯(lián)信號;-圖5圖示了根據(jù)本發(fā)明的表現(xiàn)計算衰減因子的步驟的一般實施例的流程圖;-圖6圖示了根據(jù)本發(fā)明實施例的實現(xiàn)衰減方法的詳細流程圖;-圖7圖示了根據(jù)本發(fā)明的計算衰減因子的具體實施例;-圖8a圖示了對其實現(xiàn)根據(jù)實施例的本發(fā)明的示范數(shù)字音頻信號;-圖8b圖示了對其實現(xiàn)根據(jù)變化實施例的本發(fā)明的相同數(shù)字音頻信號;-圖9圖示了當(dāng)沖擊位于當(dāng)前幀的第二部分的第二子塊中時的級聯(lián)信號;-圖10圖示了當(dāng)沖擊位于當(dāng)前幀的第二部分的第三子塊中時的級聯(lián)信號;-圖11圖示了當(dāng)沖擊位于當(dāng)前幀的第二部分的第一子塊中時的級聯(lián)信號;-圖12圖示了當(dāng)沖擊位于當(dāng)前幀的第二部分的第四子塊中時的級聯(lián)信號;-圖13a和圖13b分別圖示了G. 729. 1 SffB/立體聲類型的編碼器和解碼器,所述解碼器包括根據(jù)本發(fā)明的衰減裝置;-圖14a和圖14b分別圖示了G. 729. 1 SWB類型的編碼器和解碼器,所述解碼器包括根據(jù)本發(fā)明的衰減裝置;-圖15圖示了根據(jù)本發(fā)明的衰減裝置的示例。
具體實施例方式圖2表現(xiàn)了已解碼信號的幀以及通過諸如參考圖1描述的添加重疊而重構(gòu)的信號的配置。下文中,參考圖2和接下來的等式來使用如下符號xrec,N(n) 二!!^!+!^^,^^!+!^+!?、萟,“!^,令??!曰
其中N是幀的索引,L是幀的長度,xre。,N是幀N的重構(gòu)信號,xte,N源自于幀N的MDCT逆變換的長度為2L的信號。在不研討MDCT和MDCT逆變換的細節(jié)的情況下,用于幀N 的長度2L的中間信號xte,N被定義為
權(quán)利要求
1.一種用于對基于變換編碼產(chǎn)生的數(shù)字音頻信號中的前回聲進行衰減的方法,其中, 在解碼時,對于這個數(shù)字音頻信號的當(dāng)前幀,所述方法包括-至少基于當(dāng)前幀的重構(gòu)信號來定義級聯(lián)信號的步驟(CONC);-將所述級聯(lián)信號劃分為確定長度的采樣的子塊的步驟(DIV,301);-計算級聯(lián)信號的時間包絡(luò)的步驟(ENV,302);-檢測時間包絡(luò)到高能量區(qū)段的轉(zhuǎn)變的步驟(DETECT,304);-確定在已經(jīng)檢測到轉(zhuǎn)變的子塊之前的低能量子塊的步驟OETECT,304);以及-在確定的子塊中進行衰減的步驟(ATT),所述方法的特征在于,根據(jù)對于確定的子塊的每一個計算的、作為級聯(lián)信號的時間包絡(luò)的函數(shù)的衰減因子,來執(zhí)行所述衰減。
2.根據(jù)權(quán)利要求1的方法,其特征在于,對于作為先前幀的重構(gòu)信號的時間包絡(luò)的函數(shù)的衰減因子值,最小值是固定的。
3.根據(jù)權(quán)利要求1的方法,其特征在于,衰減因子被確定為所述子塊的時間包絡(luò)的、包括所述轉(zhuǎn)變的子塊的時間包絡(luò)的最大值的、和先前幀的重構(gòu)信號的時間包絡(luò)的函數(shù)。
4.根據(jù)權(quán)利要求1到3之一的方法,其特征在于,通過子塊能量計算來確定所述時間包
5.根據(jù)權(quán)利要求1的方法,其特征在于,所述方法還包括在所述在確定的子塊中進行衰減的步驟之后的、計算和存儲當(dāng)前幀的時間包絡(luò)的步驟。
6.根據(jù)權(quán)利要求1的方法,其特征在于,將值為1的衰減因子分配到包括轉(zhuǎn)變的所述子塊的采樣、以及當(dāng)前幀中的隨后子塊的采樣。
7.根據(jù)權(quán)利要求4的方法,其特征在于,根據(jù)如下步驟,針對確定的子塊來確定衰減因子-計算在包括轉(zhuǎn)變的子塊中確定的最大能量與當(dāng)前子塊的能量的比率; -將所述比率與第一閾值進行比較;-在其中所述比率小于或等于第一閾值的情況下,向所述衰減因子分配用于禁止所述衰減的值;-在其中所述比率大于第一閾值的情況下 將所述比率與第二閾值進行比較;眷在其中所述比率小于或等于第二閾值的情況下,向所述衰減因子分配低衰減值; 眷在其中所述比率大于第二閾值的情況下,向所述衰減因子分配高衰減值。
8.根據(jù)權(quán)利要求1的方法,其特征在于,在逐采樣地計算的因子之間確定平滑化函數(shù)。
9.根據(jù)權(quán)利要求1的方法,其特征在于,通過向被施加到在包括轉(zhuǎn)變的子塊之前的子塊的預(yù)定數(shù)目采樣的衰減因子施加用于禁止所述衰減的衰減值,來對在包括轉(zhuǎn)變的子塊之前的子塊執(zhí)行因子校正。
10.一種用于對基于變換編碼器產(chǎn)生的數(shù)字音頻信號中的前回聲進行衰減的裝置,其中,與解碼器相關(guān)聯(lián)的裝置包括如下模塊來處理這個數(shù)字音頻信號的當(dāng)前幀 -用于至少基于當(dāng)前幀的重構(gòu)信號來定義級聯(lián)信號的模塊(101); -用于將所述級聯(lián)信號劃分為確定長度的采樣的子塊的模塊(102); -用于計算級聯(lián)信號的時間包絡(luò)的模塊(103);-用于檢測時間包絡(luò)到高能量區(qū)段的轉(zhuǎn)變的模塊(104);-用于確定在已經(jīng)檢測到轉(zhuǎn)變的子塊之前的低能量子塊的模塊(10 ;以及-用于在確定的子塊中進行衰減的模塊(105),所述裝置的特征在于,所述衰減模塊根據(jù)對于確定的子塊的每一個計算的、作為級聯(lián)信號的時間包絡(luò)的函數(shù)的衰減因子,來執(zhí)行所述衰減。
11.一種數(shù)字音頻信號的解碼器,包括根據(jù)權(quán)利要求10的裝置。
12.一種包括代碼指令的計算機程序,當(dāng)由處理器執(zhí)行這些指令時,所述代碼指令用于實現(xiàn)根據(jù)權(quán)利要求1到9之一的方法的步驟。
全文摘要
本發(fā)明涉及一種用于對根據(jù)變換編碼產(chǎn)生的數(shù)字音頻信號中的前回聲進行衰減的方法,其中,在解碼時,并且對于所述數(shù)字音頻信號的當(dāng)前幀,所述方法包括至少根據(jù)當(dāng)前幀的重構(gòu)信號來定義(CONC)級聯(lián)信號的步驟;將所述級聯(lián)信號劃分(DIV,301)為具有預(yù)定長度的采樣的子單元的步驟;計算(ENV,302)級聯(lián)信號的時間包絡(luò)的步驟;檢測(DETECT,304)時間包絡(luò)朝向高能量區(qū)域的轉(zhuǎn)變的步驟;確定(DETECT,304)在已經(jīng)檢測到轉(zhuǎn)變的子單元之前的低能量子單元的步驟;以及在所述確定的子單元中的衰減步驟(ATT)。所述方法使得,根據(jù)對于確定的子單元的每一個計算的、基于級聯(lián)信號的時間包絡(luò)的衰減因子,來執(zhí)行所述衰減。本發(fā)明還涉及一種用于實現(xiàn)所述方法的裝置,并且涉及一種包括這樣的裝置的解碼器。
文檔編號G10L19/02GK102160114SQ200980136327
公開日2011年8月17日 申請日期2009年9月15日 優(yōu)先權(quán)日2008年9月17日
發(fā)明者巴拉茨.科維西, 斯蒂芬.拉戈特 申請人:法國電信公司