用于使用對齊的前瞻部分將音頻信號編碼及解碼的裝置與方法
【專利摘要】一種用于編碼具有音頻樣本流(100)的音頻信號的裝置,包括:窗口器(102),用于對音頻樣本流應(yīng)用預(yù)測編碼分析窗口(200)以獲得用于預(yù)測分析的窗口化數(shù)據(jù),以及用于對音頻樣本流應(yīng)用轉(zhuǎn)換編碼分析窗口(204)以獲得用于轉(zhuǎn)換分析的窗口化數(shù)據(jù),其中,轉(zhuǎn)換編碼分析窗口與音頻樣本的當(dāng)前幀內(nèi)的音頻樣本以及與作為轉(zhuǎn)換編碼前瞻部分(206)的音頻樣本的未來幀的預(yù)定部分的音頻樣本相關(guān)聯(lián),其中,預(yù)測編碼分析窗口與當(dāng)前幀的音頻樣本的至少一部分以及與作為預(yù)測編碼前瞻部分(208)的未來幀的預(yù)定部分的音頻樣本相關(guān)聯(lián),其中,轉(zhuǎn)換編碼前瞻部分(206)和預(yù)測編碼前瞻部分(208)彼此相同或者彼此不同之處小于20%的預(yù)測編碼前瞻部分(208)或小于20%的轉(zhuǎn)換編碼前瞻部分(206);以及編碼處理器(104),用于使用用于預(yù)測分析的窗口化數(shù)據(jù)來產(chǎn)生用于當(dāng)前幀的預(yù)測編碼數(shù)據(jù),或者用于使用用于轉(zhuǎn)換分析的窗口化數(shù)據(jù)來產(chǎn)生用于當(dāng)前幀的轉(zhuǎn)換編碼數(shù)據(jù)。
【專利說明】用于使用對齊的前瞻部分將音頻信號編碼及解碼的裝置與方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻編碼,且特別地,涉及依賴于切換音頻編碼器及相應(yīng)控制音頻解碼器,尤其適用于低延遲應(yīng)用的音頻編碼。
【背景技術(shù)】
[0002]依賴于切換編解碼器的若干音頻編碼概念是已知的。一個眾所周知的音頻編碼概念是所謂的延伸型調(diào)適性多位率寬帶(AMR-WB+)編解碼器,如3GPPTS26.290B10.0.0 (2011-03)中所述。AMR-WB+音頻編解碼器包括所有AMR-WB語音編解碼器模式I至9及AMR-WB VAD以及DTX。AMR-WB+通過增加TCX、帶寬擴(kuò)展及立體聲來擴(kuò)展AMR-WB編解碼器。
[0003]AMR-WB+音頻編解碼器以內(nèi)部采樣頻率FS處理等同于2048個樣本的輸入幀。內(nèi)部采樣頻率被局限于12800到38400Hz的范圍。2048個樣本幀被分成兩個臨界采樣的等頻帶。這產(chǎn)生對應(yīng)于低頻(LF)及高頻(HF)帶的兩個1024樣本的超級巾貞。每一超級巾貞被劃分成四個256-樣本幀。通過使用重新采樣輸入信號的可變采樣轉(zhuǎn)換方案而獲得內(nèi)部采樣率處的采樣。
[0004]LF及HF信號隨后使用兩種不同的方法而被編碼:LF使用“核心”編碼器/解碼器基于切換ACELP及變換編碼激勵(TCX)而被編碼及解碼。在ACELP模式中,標(biāo)準(zhǔn)的AMR-WB編解碼器被使用。HF信號是使用帶寬擴(kuò)展(BWE)方法以相對較少位(16位/幀)而被編碼的。從編碼器傳送至解碼器的參數(shù)是模式選擇位、LF參數(shù)及HF參數(shù)。用于每一 1024樣本超級幀的參數(shù)被分解成相同大小的四個數(shù)據(jù)包。當(dāng)輸入信號為立體聲時,左右信道被組合成一單個信號以供ACELP/TXC編碼,而立體聲編碼接收這兩個輸入信道。在解碼器端,LF及HF帶被單獨解碼,在此之后,它們在合成濾波器組中被合成。若輸出僅限于單聲道,則立體聲參數(shù)被忽略且解碼器以單聲道模式運作。當(dāng)編碼LF信號時,AMR-WB+編解碼器對ACELP及TCX模式應(yīng)用LP分析。LP系數(shù)被線性地內(nèi)插于每一 64-樣本子幀。LP分析窗口是長度為384樣本的半余弦。為了編碼核心單聲道信號,ACELP或TCX編碼被用于每一幀。編碼模式是基于閉合回路合成分析法而選擇的。僅256-樣本巾貞被考慮用于ACELP巾貞,而256、512或1024樣本幀可能是TCX模式的。AMR-WB+中的LPC分析所使用的窗口被示出于圖5b中。具有20ms前瞻的對稱LPC分析窗口被使用。前瞻意指,如圖5b中所示,以500示出的當(dāng)前幀的LPC分析窗口不僅在圖5b中以502示出的O到20ms之間所指示的當(dāng)前幀內(nèi)延伸,而且延伸到20到40ms之間的未來幀中。這意味著,通過使用此LPC分析窗口,另外的20ms延遲,即整個未來幀,是必需的。因此,在圖5b中以504指示的前瞻部分促成與AMR-WB+編碼器相關(guān)聯(lián)的系統(tǒng)延遲。換言之,未來幀必須完全可用以便使當(dāng)前幀502的LPC分析系數(shù)可被算出。
[0005]圖5a示出了另一編碼器,所謂的AMR-WB編碼器,且具體地,是用于計算當(dāng)前幀的分析系數(shù)的LPC分析窗口。當(dāng)前幀再一次在O到20ms之間延伸且未來幀在20到40ms之間延伸。對照于圖5b,506所指示的AMR-WB的LPC分析窗口具有僅5ms的前瞻部分508,即20ms到25ms之間的時間距離。因此,LPC分析所引入的延遲相對于圖5a大幅減小。然而,另一方面,已發(fā)現(xiàn)用于確定LPC系數(shù)的較大的前瞻部分,即LPC分析窗口的較大的前瞻部分導(dǎo)致較好的LPC系數(shù),且因此,殘余信號中有較小的能量,且因此,較低的位率,這是因為LPC預(yù)測更好地符合原始信號。
[0006]雖然圖5a及圖5b涉及僅具有用于確定一個幀的LPC系數(shù)的單一分析窗口的編碼器,圖5c示出了用于G.718語音編碼器的情況。G718 (06-2008)規(guī)范涉及傳輸系統(tǒng)及媒體數(shù)字系統(tǒng)和網(wǎng)絡(luò),且特別是,描述數(shù)字終端設(shè)備,且特別地,用于該設(shè)備的語音及音頻信號的編碼。特別地,該標(biāo)準(zhǔn)涉及建議書ITU-T G718所定義的從8-32kb/s起的語音及音頻的強健的窄帶及寬帶嵌入式可變位率編碼。輸入信號是使用20ms的幀來處理的。編解碼器延遲視輸入及輸出的采樣率而定。對于寬帶輸入及寬帶輸出,該編碼的總算法延遲是42.875ms。其由一個20-ms幀、輸入及輸出重新采樣濾波器的1.875ms延遲,供編碼器前瞻使用的10ms、后濾波延遲的Ims及解碼器處的IOms組成,以允許較高層轉(zhuǎn)換編碼的重迭相加操作。對于窄帶輸入和窄帶輸出,較高層并未被使用,但I(xiàn)Oms解碼器延遲被用于改善在存在幀去除的情況及對于音樂信號的編碼性能。若輸出被限于層2,則編解碼器延遲可減少IOms0編碼器的說明如下。下部的兩層被應(yīng)用于在12.SkHz采樣的預(yù)先加強信號,且上面的三層在16kHz采樣的輸入信號域中運作。核心層是基于碼激勵線性預(yù)測(CELP)技術(shù)的,其中,語音信號通過穿過表示頻譜包絡(luò)的線性預(yù)測(LP)合成濾波器的激勵信號而被模型化。LP濾波器使用切換預(yù)測方法及多階向量量化在導(dǎo)抗頻譜頻率(ISF)域中被量化。開回路音高分析通過音高追蹤算法來執(zhí)行,以確保平滑的音高輪廓。兩個共存的音高演進(jìn)輪廓被比較且產(chǎn)生較平滑輪廓的軌道被選擇,以使音高估計更強健。幀層級預(yù)處理包括高通濾波,每秒12800個樣本的采樣轉(zhuǎn)換,預(yù)先加強,頻譜分析,窄帶輸入的檢測,語音活動檢測,噪聲估計,噪聲降低,線性預(yù)測分析,LP至ISF轉(zhuǎn)換以及內(nèi)插,加權(quán)語音信號的計算,開回路音高分析,背景噪聲更新,對于編碼模式選擇及幀去除隱藏的信號分類。使用選擇的編碼類型的層I編碼包括清音編碼模式、濁音編碼模式、變換編碼模式、通用編碼模式以及不連續(xù)傳輸和舒適噪聲生成(DTX/CNG)。
[0007]使用自相關(guān)法的長期預(yù)測或線性預(yù)測(LP)分析決定CELP模型的合成濾波器的系數(shù)。然而,在CELP中,長期預(yù)測通常是“適應(yīng)性碼簿”,且因此不同于線性預(yù)測。因此,線性預(yù)測可更多被視為短期預(yù)測。窗口化語音的自相關(guān)使用列文遜-杜賓(Levinson-Durbin)算法被轉(zhuǎn)換成LP系數(shù)。接著,LPC系數(shù)被轉(zhuǎn)換成導(dǎo)抗譜對(ISP),且因此為了量化及內(nèi)插目的而轉(zhuǎn)換成導(dǎo)抗頻譜頻率(ISF)。內(nèi)插的量化及非量化系數(shù)被轉(zhuǎn)換回LP域以構(gòu)建對于每一子幀的合成及加權(quán)濾波器。若編碼主動信號幀,則使用在圖5c中以510及512所指示的兩個LPC分析窗口,兩組LP系數(shù)在每一幀中被估計。窗口 512被稱作“中幀LPC窗口 ”,且窗口 510被稱作“結(jié)束幀LPC窗口 ”。IOms的前瞻部分514被用于幀末端自相關(guān)計算。幀結(jié)構(gòu)被示出于圖5c中。幀被劃分為四個子幀,每一子幀具有對應(yīng)于采樣率12.8kHz的64個樣本的5ms長度。用于幀末端分析及用于中幀分析的窗口分別以第四子幀及第二子幀為中心,如圖5c中所示。長度為320個樣本的漢明窗口用于窗口化。該系數(shù)在G.718,6.4.1節(jié)中被定義。自相關(guān)計算被記載于6.4.2節(jié)中。列文遜-杜賓算法被記載于第6.4.3節(jié)中,LP至ISP轉(zhuǎn)換被記載于6.4.4節(jié)中,且ISP至LP轉(zhuǎn)換被記載于6.4.5節(jié)中。[0008]語音編碼參數(shù),諸如適應(yīng)性碼簿延遲及增益,代數(shù)碼簿索引及增益通過最小化感知加權(quán)域中的輸入信號與合成信號之間的誤差而被搜尋。感知加權(quán)是通過經(jīng)由由LP濾波器系數(shù)所導(dǎo)出的感知加權(quán)濾波器來對信號濾波而執(zhí)行。感知加權(quán)信號也用在開回路音高分析中。
[0009]G.718編碼器是僅具有單一語音編碼模式的純語音編碼器。因此,G.718編碼器并非切換編碼器,且因此,該編碼器的缺點在于其僅在核心層內(nèi)提供單一的語音編碼模式。因此,當(dāng)這一編碼器被應(yīng)用于語音信號以外的其他信號,即應(yīng)用于CELP編碼后的模型并不適當(dāng)?shù)囊话阋纛l信號時,質(zhì)量問題將出現(xiàn)。
[0010]另外的切換編解碼器是所謂的USAC編解碼器,即定義于日期為2010年9月24日的IS0/IEC⑶23003-3中的統(tǒng)一語音及音頻編解碼器。該切換編解碼器所用的LPC分析窗口在圖5d中以516來指示。再一次假定當(dāng)前幀在O到20ms之間延伸,且因此,此編解碼器的前瞻部分618似乎為20ms,即明顯高于G.718的前瞻部分。因此,雖然USAC編碼器由于其切換性質(zhì)而提供良好的音頻質(zhì)量,但因為圖5d中的LPC分析窗口前瞻部分518,延遲是相當(dāng)大的。USAC的一般結(jié)構(gòu)如下。首先,有一共同預(yù)/后處理,其由處理立體聲或多信道處理的MPEG環(huán)繞(MPEGS)功能單元及處理輸入信號中的較高音頻頻率的參數(shù)表示的增強SBR(eSBR)單元所組成。接著,有兩個分支,一個分支由修改的進(jìn)階音頻編碼(AAC)工具路徑組成且另一分支由以線性預(yù)測編碼(LP或LPC域)為基礎(chǔ)的路徑組成,以線性預(yù)測編碼(LP或LPC域)為基礎(chǔ)的路徑轉(zhuǎn)而具有LPC殘余的頻域表示或時域表示的特征。用于AAC及LPC的所有傳輸頻譜在量化及算術(shù)編碼之后被表示在MDCT域中。時域表示使用ACELP激勵編碼方案。ACELP工具通過組合長期預(yù)測器(適應(yīng)性碼字)與脈沖型序列(創(chuàng)新碼字)來提供一種有效地表示時域激勵信號的方式。重建的激勵通過LP合成濾波器來發(fā)送以形成時域信號。ACELP工具的輸入包括適應(yīng)性及創(chuàng)新碼簿索引,適應(yīng)性及創(chuàng)新碼增益值,其他控制數(shù)據(jù)及去量化和內(nèi)插LPC濾波器系數(shù)。ACELP工具的輸出是時域重建音頻信號。
[0011 ] MDCT基TCX解碼工具被使用來將加權(quán)LP殘余表示從MDCT域變回時域信號并輸出包括加權(quán)LP合成濾波的加權(quán)時域信號。MDCT可被配置成支持256、512或1024個頻譜系數(shù)。向TCX工具的輸入包括(去量化)MDCT譜,以及去量化和內(nèi)插LPC濾波器系數(shù)。TCX工具的輸出是時域重建音頻信號。
[0012]圖6示出了 USAC中的一種情況,其中,用于當(dāng)前幀的LPC分析窗口 516及用于過去或最后幀的LPC分析窗口 520被繪出,且除此之外,其中,TCX窗口 522被示出。TCX窗口522以在O到20ms之間延伸的當(dāng)前幀的中心為中心,且延伸IOms到過去幀中以及延伸IOms到在20到40ms之間延伸的未來幀中。因此,LPC分析窗口 516要求LPC前瞻部分在20到40ms之間,即20ms,而TCX分析窗口另外具有在20到30ms之間延伸進(jìn)入到未來幀中的前瞻部分。這意味著USAC分析窗口 516所引入的延遲為20ms,而由TCX窗口引入到編碼器中的延遲為10ms。因此,清楚的是,兩種窗口的前瞻部分并未彼此對齊。因此,即使TCX窗口522僅引入IOms的延遲,由于LPC分析窗口 516,編碼器的整個延遲仍為20ms。因此,即使TCX窗口有相當(dāng)小的前瞻部分,這并未減少編碼器的總算法延遲,這是因為總延遲由最高貢獻(xiàn)決定,即等于20ms,因為LPC分析窗口 516有20ms延伸到未來幀中,即不僅涵蓋當(dāng)前幀而且還涵蓋未來中貞。
【發(fā)明內(nèi)容】
[0013]本發(fā)明的目的在于提供一種用于音頻編碼或解碼的改善的編碼概念,一方面,這提供良好的音頻質(zhì)量,且另一方面,這使得延遲縮短。
[0014]該目的是通過一種根據(jù)權(quán)利要求1所述的用于編碼音頻信號的裝置,根據(jù)權(quán)利要求15所述的編碼音頻信號的方法,根據(jù)權(quán)利要求16所述的音頻解碼器,根據(jù)權(quán)利要求24所述的音頻解碼方法或根據(jù)權(quán)利要求25所述的計算機(jī)程序來實現(xiàn)。
[0015]根據(jù)本發(fā)明,具有轉(zhuǎn)換編碼分支及預(yù)測編碼分支的切換音頻編解碼器方案被應(yīng)用。重要地是,這兩種窗口,即一方面,預(yù)測編碼分析窗口,以及另一方面,轉(zhuǎn)換編碼分析窗口關(guān)于它們的前瞻部分是對齊的,使得轉(zhuǎn)換編碼前瞻部分及預(yù)測編碼前瞻部分彼此是完全相同的,或彼此不同之處小于20%的預(yù)測編碼前瞻部分或小于20%的轉(zhuǎn)換編碼前瞻部分。應(yīng)指出的是,預(yù)測分析窗口不僅用在預(yù)測編碼分支中,而且實際上用在兩個分支中。LPC分析也用于為轉(zhuǎn)換域中的噪聲整形。因此,換言之,前瞻部分彼此是完全相同的或彼此相當(dāng)接近。這確保最佳折衷被實現(xiàn)且無音頻質(zhì)量或延遲特征被設(shè)定成次佳方式。因此,對于分析窗口中的預(yù)測編碼,已發(fā)現(xiàn)前瞻越高,LPC分析越好,但另一方面,延遲隨著較高的前瞻部分而增大。另一方面,TCX窗口同樣如此。TCX窗口的前瞻部分越高,TCX位率可越好地減少,這是因為一般而言,較長的TCX窗口導(dǎo)致較低的位率。因此,對照于本發(fā)明,前瞻部分彼此是完全相同的或彼此相當(dāng)接近,且具體地,彼此不同之處小于20%。因此,另一方面,由于延遲原因而不希望有的前瞻部分最佳地是由編碼/解碼分支兩者使用。
[0016]鑒于此,本發(fā)明一方面提供當(dāng)兩個分析窗口的前瞻部分被設(shè)定為低時具有低延遲的改善的編碼概念,且另一方面提供具有良好特性的編碼/解碼概念,該良好特性歸因于因音頻質(zhì)量原因或位率原因而必需被引入的延遲任何情況下最佳地由兩個編碼分支使用而非僅由單一編碼分支使用這一事實。
[0017]一種用于編碼具有音頻樣本流的音頻信號的裝置包括:窗口器,用于對所述音頻樣本流應(yīng)用預(yù)測編碼分析窗口以獲得用于預(yù)測分析的窗口化數(shù)據(jù),以及用于對所述音頻樣本流應(yīng)用轉(zhuǎn)換編碼分析窗口以獲得用于轉(zhuǎn)換分析的窗口化數(shù)據(jù)。所述轉(zhuǎn)換編碼分析窗口與作為轉(zhuǎn)換編碼前瞻部分的音頻樣本的未來幀的預(yù)定前瞻部分的音頻樣本的當(dāng)前幀的音頻樣本相關(guān)聯(lián)。
[0018]此外,所述預(yù)測編碼分析窗口與所述當(dāng)前幀的所述音頻樣本的至少一部分以及與作為預(yù)測編碼前瞻部分的所述未來幀的預(yù)定部分的音頻樣本相關(guān)聯(lián)。
[0019]所述轉(zhuǎn)換編碼前瞻部分和所述預(yù)測編碼前瞻部分彼此相同或者彼此不同之處小于20%的所述預(yù)測編碼前瞻部分或小于20%的所述轉(zhuǎn)換編碼前瞻部分,且因此彼此非常接近。該裝置還包括編碼處理器,用于使用用于所述預(yù)測分析的所述窗口化數(shù)據(jù)來產(chǎn)生用于所述當(dāng)前幀的預(yù)測編碼數(shù)據(jù),或者用于使用用于所述轉(zhuǎn)換分析的所述窗口化數(shù)據(jù)來產(chǎn)生用于所述當(dāng)前幀的轉(zhuǎn)換編碼數(shù)據(jù)。
[0020]一種用于解碼編碼音頻信號的音頻解碼器包括:預(yù)測參數(shù)解碼器,用于執(zhí)行對來自編碼音頻信號的用于預(yù)測編碼幀的數(shù)據(jù)的解碼,以及對于第二分支,所述音頻解碼器包括轉(zhuǎn)換參數(shù)解碼器,用于執(zhí)行對來自編碼音頻信號的用于轉(zhuǎn)換編碼幀的數(shù)據(jù)的解碼。
[0021]轉(zhuǎn)換參數(shù)解碼器被配置成用于執(zhí)行頻譜-時間轉(zhuǎn)換,該頻譜-時間轉(zhuǎn)換優(yōu)選是混迭影響轉(zhuǎn)換,諸如MDCT或MDST或任一其他此類轉(zhuǎn)換;以及用于對轉(zhuǎn)換數(shù)據(jù)應(yīng)用合成窗口以獲得用于當(dāng)前幀和未來幀的數(shù)據(jù)。由音頻解碼器所應(yīng)用的合成窗口具有第一重迭部分、相鄰的第二非重迭部分以及相鄰的第三重迭部分,其中,第三重迭部分與用于未來幀的音頻樣本相關(guān)聯(lián)且非重迭部分與當(dāng)前幀的數(shù)據(jù)相關(guān)聯(lián)。此外,為了使解碼器端具有良好的音頻質(zhì)量,重迭相加器被應(yīng)用以將與當(dāng)前幀的合成窗口的第三重迭部分相關(guān)聯(lián)的合成窗口化樣本和與未來巾貞的合成窗口的第一重迭部分相關(guān)聯(lián)的合成窗口化樣本重迭并相加,以獲得用于未來巾貞的第一部分的音頻樣本,其中,當(dāng)所述當(dāng)前巾貞和未來巾貞包括轉(zhuǎn)換編碼數(shù)據(jù)時,未來幀的其余音頻樣本是與未重迭相加時所獲得的未來幀的合成窗口的第二非重迭部分相關(guān)聯(lián)的合成窗口化樣本。
[0022]本發(fā)明的優(yōu)選實施方式具有以下特征:用于轉(zhuǎn)換編碼分支(諸如TCX分支)和預(yù)測編碼分支(諸如ACELP分支)的同一前瞻彼此是完全相同的,使得在延遲限制下,兩種編碼模式具有最大可用前瞻。此外,優(yōu)選TCX窗口重迭被限于前瞻部分,使得從一幀到下一幀由轉(zhuǎn)換編碼模式到預(yù)測編碼模式的切換可以是容易的,而沒有任何混迭處理問題。
[0023]將重迭局限于前瞻的另一原因是為了不在解碼器端引入延遲。若有具有IOms前瞻以及例如20ms重迭的TCX窗口,將會在解碼器中多引入IOms的延遲。當(dāng)有具有IOms前瞻以及IOms重迭的TCX窗口時,在解碼器端并不會有額外的延遲。其有利的結(jié)果是較容易切換。
[0024]因此,優(yōu)選分析窗口的第二非重迭部分以及當(dāng)然的合成窗口延伸至當(dāng)前幀末端,且第三重迭部分僅起始于未來幀。此外,TCX或轉(zhuǎn)換編碼分析/合成窗口的非零部分與幀的起點對齊,因此再一次可得到從一種模式到另一模式的容易且低效的切換。
[0025]此外,優(yōu)選由多個子幀(諸如四個子幀)組成的完整幀可在轉(zhuǎn)換編碼模式(諸如TCX模式)中被完全編碼或在預(yù)測編碼模式(諸如ACELP模式)中被完全編碼。
[0026]此外,優(yōu)選不是僅使用單一 LPC分析窗口而是兩種不同的LPC分析窗口,其中,一種LPC分析窗口與第四子巾貞的中心對齊且是結(jié)束巾貞分析窗口,而另一分析窗口與第二子中貞的中心對齊且是中幀分析窗口。若編碼器被切換成轉(zhuǎn)換編碼,然而,則優(yōu)選只發(fā)送僅基于結(jié)束幀LPC分析窗口而由LPC分析所導(dǎo)出的單一 LPC系數(shù)數(shù)據(jù)集。此外,在解碼器端,優(yōu)選不直接對轉(zhuǎn)換編碼合成使用該LPC數(shù)據(jù),且特別是TCX系數(shù)的頻譜加權(quán)。代之,優(yōu)選以由來自過去幀(即,時間恰在當(dāng)前幀之前的幀)的結(jié)束幀LPC分析窗口所獲得的數(shù)據(jù)內(nèi)插由當(dāng)前幀的結(jié)束幀LPC分析窗口所獲得的TCX數(shù)據(jù)。相較于發(fā)送兩個LPC系數(shù)數(shù)據(jù)集供中幀分析和結(jié)束幀分析,通過在TCX模式中僅發(fā)送關(guān)于完整幀的單一 LPC系數(shù)集可獲得進(jìn)一步的位率減少。然而,當(dāng)編碼器被切換成ACELP模式時,兩個LPC系數(shù)集均由編碼器發(fā)送至解碼器。
[0027]此外,優(yōu)選中幀LPC分析窗口恰在當(dāng)前幀的較后幀邊界上結(jié)束,且此外,還延伸到過去幀中。這并未引入任何延遲,這是因為過去幀已經(jīng)可利用且可無需任何延遲地被使用。
[0028]另一方面,優(yōu)選結(jié)束幀分析窗口從當(dāng)前幀內(nèi)的某處而非當(dāng)前幀的起點開始。然而,這是沒問題的,因為對于形成TCX加權(quán),使用過去幀的結(jié)束幀LPC數(shù)據(jù)集與當(dāng)前幀的結(jié)束幀LPC數(shù)據(jù)集的平均,使得從某種意義上來說,最后所有數(shù)據(jù)都被用于計算LPC系數(shù)。因此,結(jié)束幀分析窗口的開始優(yōu)選在過去幀的結(jié)束幀分析窗口的前瞻部分內(nèi)。
[0029]在解碼器端,由一種模式切換至另一模式獲得顯著減小的開銷。原因在于合成窗口的非重迭部分,優(yōu)選在其自身內(nèi)是對稱的,并不與當(dāng)前幀的樣本相關(guān)聯(lián)而是與未來幀的樣本相關(guān)聯(lián),且因此僅在前瞻部分內(nèi),即僅在未來幀中延伸。因此,合成窗口是使得僅有優(yōu)選起始于當(dāng)前幀正開始處的第一重迭部分在當(dāng)前幀內(nèi),且第二非重迭部分從第一重迭部分末端延伸至當(dāng)前幀末端,且因此,第二重迭部分與前瞻部分重合。因此,當(dāng)有從TCX到ACELP的轉(zhuǎn)變時,由于合成窗口的重迭部分所獲得的數(shù)據(jù)簡單地被去除且由從ACELP分支外的未來幀剛開始處可用的預(yù)測編碼數(shù)據(jù)所取代。
[0030]另一方面,當(dāng)有從ACELP到TCX的切換時,特定轉(zhuǎn)變窗口被應(yīng)用,該窗口恰起始于當(dāng)前幀(即,剛轉(zhuǎn)換后的幀)的起點,具有非重迭部分,使得任何數(shù)據(jù)都不必重建以發(fā)現(xiàn)重迭“伙伴”。代之,合成窗口的非重迭部分提供正確數(shù)據(jù),而無需解碼器中所需要的任何重迭及重迭相加程序。僅對于重迭部分,即,用于當(dāng)前幀的窗口的第三部分以及用于下一幀的窗口的第一部分,重迭相加程序是有用的且被執(zhí)行以如同在直接MDCT中一樣具有從一個塊到另一塊的連續(xù)的淡入/淡出,以便最終獲得良好的音頻質(zhì)量,由于在本領(lǐng)域也已知的術(shù)語“時域混迭消除(TDAC)”下的MDCT臨界采樣性質(zhì)而不必增加位率。
[0031]此外,解碼器有用之處還在于,對于ACELP編碼模式,由編碼器中的中幀窗口及結(jié)束中貞窗口所導(dǎo)出的LPC數(shù)據(jù)被發(fā)送,而對于TCX編碼模式,僅由結(jié)束巾貞窗口所導(dǎo)出的單一LPC數(shù)據(jù)集被使用。然而,對于頻譜加權(quán)TCX解碼數(shù)據(jù),發(fā)送的LPC數(shù)據(jù)并未以其原狀態(tài)被使用,而是所述數(shù)據(jù)與來自對于過去幀所獲得的結(jié)束幀LPC分析窗口的相應(yīng)數(shù)據(jù)求平均。
【專利附圖】
【附圖說明】
[0032]后續(xù)參照附圖來描述本發(fā)明的優(yōu)選實施方式,其中:
[0033]圖1a示出了切換音頻編碼器的框圖;
[0034]圖1b示出了相應(yīng)的切換解碼器的框圖;
[0035]圖1c示出了關(guān)于圖1b中所示的轉(zhuǎn)換參數(shù)解碼器的更多細(xì)節(jié);
[0036]圖1d示出了關(guān)于圖1a的解碼器的轉(zhuǎn)換編碼模式的更多細(xì)節(jié);
[0037]圖2a示出了關(guān)于應(yīng)用在編碼器中的窗口器的優(yōu)選實施方式,該窗口器一方面供LPC分析使用,且另一方面供轉(zhuǎn)換編碼分析使用,并且是圖1b的轉(zhuǎn)換編碼解碼器中所使用的合成窗口的表不;
[0038]圖2b示出了多于兩幀的時間間隔內(nèi)的對齊LPC分析窗口及TCX窗口的窗口序列;
[0039]圖2c示出了用于從TCX轉(zhuǎn)變成ACELP的情況以及用于從ACELP轉(zhuǎn)變成TCX的轉(zhuǎn)
變窗口 ;
[0040]圖3a示出了圖1a的編碼器的更多細(xì)節(jié);
[0041]圖3b示出了用于決定一幀的編碼模式的合成分析程序;
[0042]圖3c不出了用于決定每一巾貞的模式的另一實施方式;
[0043]圖4a示出了通過利用兩個不同的LPC分析窗口為當(dāng)前幀導(dǎo)出的LPC數(shù)據(jù)的計算和使用;
[0044]圖4b示出了通過對編碼器的TCX分支使用LPC分析窗口來窗口化而獲得的LPC數(shù)據(jù)的使用;
[0045]圖5a示出了用于AMR-WB的LPC分析窗口 ;
[0046]圖5d示出了為LPC分析的目的而用于AMR-WB+的對稱窗口 ;
[0047]圖5c示出了用于G.718編碼器的LPC分析窗口 ;
[0048]圖5d示出了 USAC中所使用的LPC分析窗口 ;以及[0049]圖6示出了相對于當(dāng)前幀的LPC分析窗口的當(dāng)前幀的TCX窗口。
【具體實施方式】
[0050]圖1a示出了用于編碼具有音頻樣本流的音頻信號的裝置。該音頻樣本或音頻數(shù)據(jù)在100處進(jìn)入編碼器。音頻數(shù)據(jù)被引入窗口器102,以用于對音頻樣本流應(yīng)用預(yù)測編碼分析窗口來獲得供預(yù)測分析用的窗口化數(shù)據(jù)。窗口器102還被配置成用于對音頻樣本流應(yīng)用轉(zhuǎn)換編碼分析窗口以獲得供轉(zhuǎn)換分析用的窗口化數(shù)據(jù)。根據(jù)實施方式,LPC窗口并未被直接應(yīng)用于原始信號,而是應(yīng)用于“預(yù)先加強”信號(像在AMR-WB、AMR-WB+、G718和USAC中)。另一方面,TCX窗口被直接應(yīng)用于原始信號(像在USAC中)。然而,這兩個窗口也可被應(yīng)用于相同的信號,或者TCX窗口也可被應(yīng)用于從原始信號導(dǎo)出(諸如通過用來增強質(zhì)量或壓縮效率的預(yù)先加強或任何其他加權(quán))的處理后音頻信號。
[0051]轉(zhuǎn)換編碼分析窗口與當(dāng)前音頻樣本幀中的音頻樣本相關(guān)聯(lián),且與作為轉(zhuǎn)換編碼前瞻部分的未來音頻樣本幀的預(yù)定義部分的音頻樣本相關(guān)聯(lián)。
[0052]此外,預(yù)測編碼分析窗口與當(dāng)前幀的音頻樣本的至少一部分相關(guān)聯(lián),且與作為預(yù)測編碼前瞻部分的未來幀的預(yù)定義部分的音頻樣本相關(guān)聯(lián)。
[0053]如框102中所概述,轉(zhuǎn)換編碼前瞻部分與預(yù)測編碼前瞻部分彼此對齊,這意味著這些部分是完全相同的或彼此相當(dāng)接近,諸如彼此不同之處小于20%的預(yù)測編碼前瞻部分或小于20%的轉(zhuǎn)換編碼前瞻部分。優(yōu)選地,前瞻部分彼此是完全相同的或彼此不同之處甚至小于5%的預(yù)測編碼前瞻部分或小于5%的轉(zhuǎn)換編碼前瞻部分。
[0054]編碼器額外包括編碼處理器104,以用于使用供預(yù)測分析用的窗口化數(shù)據(jù)來產(chǎn)生用于當(dāng)前幀的預(yù)測編碼數(shù)據(jù),或者用于使用供轉(zhuǎn)換分析用的窗口化數(shù)據(jù)來產(chǎn)生用于當(dāng)前幀的轉(zhuǎn)換編碼數(shù)據(jù)。
[0055]此外,編碼器優(yōu)選包括輸出接口 106,該輸出接口 106用于通過線108b來接收當(dāng)前幀,且實際上接收每一幀的LPC數(shù)據(jù)108a和轉(zhuǎn)換編碼數(shù)據(jù)(諸如TCX數(shù)據(jù))或預(yù)測編碼數(shù)據(jù)(ACELP數(shù)據(jù))。編碼處理器104提供這兩種數(shù)據(jù)并接收IlOa所指示的供預(yù)測分析用的窗口化數(shù)據(jù)以及IlOb所指示的供轉(zhuǎn)換分析用的窗口化數(shù)據(jù)作為輸入。此外,該用于編碼的裝置還包括編碼模式選擇器或控制器112,其接收音頻數(shù)據(jù)100作為輸入,且經(jīng)由控制線114a向編碼處理器104提供控制數(shù)據(jù)或經(jīng)由控制線114b向輸出接口 106提供控制數(shù)據(jù)作為輸出。
[0056]圖3a提供了關(guān)于編碼處理器104和窗口器102的額外細(xì)節(jié)。窗口器102優(yōu)選包括,作為第一模塊的LPC或預(yù)測編碼分析窗口器102a以及作為第二組件或模塊的轉(zhuǎn)換編碼窗口器(諸如TCX窗口器)102b。如箭頭300所指示,LPC分析窗口與TCX窗口彼此對齊,使得這兩個窗口的前瞻部分彼此是完全相同的,這意味著這兩個前瞻部分延伸至相同的時刻進(jìn)入未來幀。圖3a中從LPC窗口器102a向前到右側(cè)的上部分支是包括LPC分析器及內(nèi)插器302、感知加權(quán)濾波器或加權(quán)塊304以及預(yù)測編碼參數(shù)計算器306 (諸如ACELP參數(shù)計算器)的預(yù)測編碼分支。音頻數(shù)據(jù)100被提供給LPC窗口器102a和感知加權(quán)塊304。此外,音頻數(shù)據(jù)被提供給TCX窗口器,且從TCX窗口器的輸出向右的下部分支構(gòu)成轉(zhuǎn)換編碼分支。該轉(zhuǎn)換編碼分支包括時間-頻率轉(zhuǎn)換塊310、頻譜加權(quán)塊312以及處理/量化編碼塊314。時頻轉(zhuǎn)換塊310優(yōu)選被實施為混迭引入轉(zhuǎn)換,諸如MDCT、MDST或具有大于輸出值數(shù)目的輸入值數(shù)目的任一其他轉(zhuǎn)換。時頻轉(zhuǎn)換使由TCX或一般而言,轉(zhuǎn)換編碼窗口器102b輸出的窗口化數(shù)據(jù)作為輸入。
[0057]盡管圖3a指出,對于預(yù)測編碼分支,LPC處理利用ACELP編碼算法,但本領(lǐng)域已知的其他預(yù)測編碼器(諸如CELP或任一其他時域編碼器)也可被應(yīng)用,但一方面由于其質(zhì)量且另一方面由于其效率,ACELP算法是優(yōu)選的。
[0058]此外,對于轉(zhuǎn)換編碼分支,MDCT處理特別是在時間-頻率轉(zhuǎn)換塊310中是優(yōu)選的,但任何其他頻譜域轉(zhuǎn)換也可被執(zhí)行。
[0059]此外,圖3a示出了頻譜加權(quán)312,以用于將塊310所輸出的頻譜值轉(zhuǎn)換到LPC域。該頻譜加權(quán)312在預(yù)測編碼分支中使用由塊302產(chǎn)生的從LPC分析數(shù)據(jù)導(dǎo)出的加權(quán)數(shù)據(jù)來執(zhí)行。然而,可選擇地,從時域轉(zhuǎn)換到LPC域也可在時域中執(zhí)行。在該情況下,LPC分析濾波器將被置于TCX窗口器102b之前以計算預(yù)測殘余時域數(shù)據(jù)。然而,已發(fā)現(xiàn)從時域轉(zhuǎn)換到LPC域優(yōu)選是在頻譜域中通過使用在頻譜域(諸如MDCT域)中從LPC數(shù)據(jù)轉(zhuǎn)換成相應(yīng)的加權(quán)因子的LPC分析數(shù)據(jù)來頻譜加權(quán)轉(zhuǎn)換編碼數(shù)據(jù)而被執(zhí)行的。
[0060]圖3b示出了用于說明對于每一幀的編碼模式的合成分析或“閉合回路”決定的一般概覽。為此,圖3c中所示的編碼器包括完整的轉(zhuǎn)換編碼編碼器和轉(zhuǎn)換編碼解碼器,如104b所示,且另外包括完整的預(yù)測編碼編碼器和相應(yīng)的解碼器,如圖3c中的104a所指示。兩個塊104a、104b均接收音頻數(shù)據(jù)作為輸入且執(zhí)行完整的編碼/解碼操作。接著,用于兩個編碼分支104a、104b的編碼/解碼操作的結(jié)果與原始信號相比較,并確定質(zhì)量測量值以找出哪一編碼模式產(chǎn)生更好的質(zhì)量。該質(zhì)量測量值可以是分段SNR值或平均分段SNR,舉例而言,諸如在3GPP TS26.290的5.2.3節(jié)中所記載。然而,任何其他質(zhì)量測量值也可被應(yīng)用,這通常依賴于編碼/解碼結(jié)果與原始信號的比較。
[0061]基于從每一分支104a、104b提供給確定器112的質(zhì)量測量值,該確定器確定當(dāng)前檢驗的幀是否將使用ACELP或TCX來編碼。繼該確定之后,有幾種方式來執(zhí)行編碼模式選擇。一種方式是確定器112控制相應(yīng)的編碼器/解碼器塊104a、104b,以簡單地向輸出接口106輸出當(dāng)前幀的編碼結(jié)果,使得確保對于某一幀,僅單一的編碼結(jié)果在輸出編碼信號107中被發(fā)送。
[0062]可選擇地,兩個裝置104a、104b可將它們準(zhǔn)備的編碼結(jié)果轉(zhuǎn)發(fā)至輸出接口 106,且兩個結(jié)果被存儲在輸出接口 106中,直到確定器經(jīng)由線105控制輸出接口以從塊104b或從塊104a輸出該結(jié)果。
[0063]圖3b示出了關(guān)于圖3c的概念的更多細(xì)節(jié)。具體地,塊104a包括完整的ACELP編碼器和完整的ACELP解碼器以及比較器112a。比較器112a向比較器112c提供質(zhì)量測量值。比較器112b也是如此,其具有由于TCX編碼和再次解碼信號與原始音頻信號的比較的質(zhì)量測量值。隨后,兩個比較器112a、112b向最終比較器112c提供它們的質(zhì)量測量值。根據(jù)哪一質(zhì)量測量值較好,比較器決定CELP或TCX決策。該決策可通過將額外因素引入決策而被改進(jìn)。
[0064]可選擇地,用于基于對于當(dāng)前幀的音頻信號的信號分析來確定當(dāng)前幀的編碼模式的開回路模式可被執(zhí)行。在該情況下,圖3c的確定器112將執(zhí)行當(dāng)前幀的音頻數(shù)據(jù)的信號分析,且接著將控制ACELP編碼器或TCX編碼器以實際編碼當(dāng)前音頻幀。在該情況下,編碼器將不需要完整的解碼器,而是單獨在編碼器內(nèi)實施編碼步驟即足夠。開回路信號分類和信號決策例如也在AMR-WB+ (3GPP TS26.290)中記載。[0065]圖2a示出了窗口器102且特別是由窗口器供給的窗口的優(yōu)選實施。
[0066]優(yōu)選地,當(dāng)前幀的預(yù)測編碼分析窗口以第四子幀的中心為中心,且該窗口以200來指示。此外,優(yōu)選使用另外的LPC分析窗口,即202所指示的且以當(dāng)前幀的第二子幀的中心為中心的中幀LPC分析窗口。此外,轉(zhuǎn)換編碼窗口,舉例而言,諸如MDCT窗口 204相對于兩個LPC分析窗口 200、202而被安置,如圖所示。具體地,分析窗口的前瞻部分206與預(yù)測編碼分析窗口的前瞻部分208在時間長度上是相同的。兩個前瞻部分延伸IOms到未來幀中。此外,優(yōu)選轉(zhuǎn)換編碼分析窗口不僅具有重迭部分206,而且具有在10與20ms之間的非重迭部分208和第一重迭部分210。重迭部分206和210使得解碼器中的重迭相加器在重迭部分中執(zhí)行重迭相加處理,但重迭相加程序?qū)Ψ侵氐糠质遣恍枰摹?br>
[0067]優(yōu)選地,第一重迭部分210從幀起點(B卩,Oms)開始并延伸至幀中心(即,IOms)為止。此外,非重迭部分從幀210的第一部分末端延伸至20ms處的幀末端,使得第二重迭部分206與前瞻部分完全重合。因為從一種模式切換成另一模式,這具有優(yōu)勢。從TCX性能觀點來看,較好的是使用具有完全重迭(20ms重迭,如在USAC中)的正弦窗口。然而,對于在TCX與ACELP之間轉(zhuǎn)變,這將需要一種技術(shù),如正向混迭消除。正向混迭消除在USAC中使用,以消除由缺失的下一 TCX幀所引入的混迭(被ACELP取代)。正向混迭消除需要大量的位,且因此,并不適于恒定的位率,且特別是低位率編解碼器,如所述編解碼器的優(yōu)選實施方式。因此,根據(jù)本發(fā)明的實施方式,不使用FAC,TCX窗口重迭被減少且窗口向未來移動,使得完全重迭部分206位于未來幀中。此外,當(dāng)下一幀是ACELP時,圖2a中所示的用于轉(zhuǎn)換編碼的窗口仍然具有最大重迭,以在當(dāng)前幀中接收完美重建,且無需使用正向混迭消除。該最大重迭優(yōu)選被設(shè)定成IOms,它是可用的前瞻時間(即,IOms),從圖2a中可清楚地看出。
[0068]雖然圖2a已針對編碼器而被描述,其中,用于轉(zhuǎn)換編碼的窗口 204是分析窗口,但應(yīng)指出的是,窗口 204也表示用于轉(zhuǎn)換解碼的合成窗口。在優(yōu)選實施方式中,分析窗口等同于合成窗口,且兩個窗口本身是對稱的。這意味著兩個窗口相對于(水平)中心線是對稱的。然而,在其他應(yīng)用中,非對稱窗口可被使用,其中,分析窗口與合成窗口在形狀上是不同的。
[0069]圖2b示出了過去幀的一部分、后續(xù)緊接的當(dāng)前幀、后續(xù)緊接當(dāng)前幀的未來幀以及后續(xù)緊接該未來巾貞的下一未來巾貞的窗口序列。
[0070]清楚的是,250所示的通過重迭相加處理器所處理的重迭相加部分從每一幀的起點延伸至每一巾貞的中間,即20到30ms之間,以用于計算未來巾貞數(shù)據(jù),以及40到50ms之間以用于計算下一未來幀的TCX數(shù)據(jù),或O到IOms之間以用于計算關(guān)于當(dāng)前幀的數(shù)據(jù)。然而,對于計算每一幀的第二半部中的數(shù)據(jù),無重迭相加,且因此,正向混迭消除技術(shù)不是必需的。這是因為合成窗口在每一幀的第二半部中具有非重迭部分這一事實。
[0071]典型地,MDCT窗口的長度是幀長度的2倍。本發(fā)明中也是這種情況。然而,當(dāng)圖2a被再度考慮時,變得清楚的是,分析/合成窗口僅從零延伸到30ms,但窗口的完整長度是40ms。該完整長度對提供輸入數(shù)據(jù)以用于MDCT計算的相應(yīng)的折迭或展開操作是重要的。為了將窗口延伸到14ms的完整長度,5ms的零值被添加到_5到Oms之間,且5秒的MDCT零值也被添加到30到35ms之間的幀末端。然而,就延遲考慮而言,僅具有零的該添加部分并不起任何作用,因為對編碼器或解碼器已知的是窗口的最后5ms和窗口最早的5ms是零,因此該數(shù)據(jù)已經(jīng)存在且無任何延遲。
[0072]圖2c示出了兩個可能的轉(zhuǎn)變。然而,對于從TCX至ACELP的轉(zhuǎn)變,無需特別關(guān)注,這是因為當(dāng)參照圖2a假定未來幀是ACELP幀時,則通過TCX解碼前瞻部分206的最后幀所獲得的數(shù)據(jù)可簡單地被刪除,這是因為ACELP幀恰在未來幀的起點開始,且因此,不存在數(shù)據(jù)孔。ACELP數(shù)據(jù)是自相一致的,且因此,解碼器當(dāng)從TCX切換成ACELP時使用從TCX對于當(dāng)前幀所算出的數(shù)據(jù),丟棄對于未來幀的由TCX處理所獲得的數(shù)據(jù),且代之以使用來自ACELP分支的未來幀數(shù)據(jù)。
[0073]然而,當(dāng)從ACELP至TCX的轉(zhuǎn)變被執(zhí)行時,如圖2c中所示的特定轉(zhuǎn)變窗口被使用。該窗口由從O到I的幀的起點開始,具有非重迭部分220且末端具有222所指示的重迭部分,該重迭部分與直接MDCT窗口的重迭部分206完全一樣。
[0074]此外,該窗口在窗口的起點于-12.5ms到O之間且在窗口的末端于30到35.5ms之間(即,前瞻部分222之后)用零填充。這導(dǎo)致增加的轉(zhuǎn)換長度。長度為50ms,但直接分析/合成窗口的長度僅為40ms。然而,這并未降低效率或增加位率,且該較長的轉(zhuǎn)換在發(fā)生從ACELP切換成TCX時是必要的。相應(yīng)的解碼器中所使用的轉(zhuǎn)變窗口與圖2c中所示的窗口完全相同。
[0075]隨后,解碼器被更加詳細(xì)地討論。圖1b示出了用于解碼編碼音頻信號的音頻解碼器。該音頻解碼器包括預(yù)測參數(shù)解碼器180,其中,該預(yù)測參數(shù)解碼器被配置成用于執(zhí)行來自在181處接收并被輸入至接口 182的編碼音頻信號的預(yù)測編碼幀的數(shù)據(jù)的解碼。解碼器另外包括轉(zhuǎn)換參數(shù)解碼器183,以用于執(zhí)行來自線181上的編碼音頻信號的轉(zhuǎn)換編碼幀的數(shù)據(jù)的解碼。該轉(zhuǎn)換參數(shù)解碼器被配置成優(yōu)選用于執(zhí)行混迭影響的頻譜-時間轉(zhuǎn)換,且用于對轉(zhuǎn)換數(shù)據(jù)應(yīng)用合成窗口以獲得當(dāng)前幀及未來幀的數(shù)據(jù)。合成窗口具有第一重迭部分、相鄰的第二非重迭部分以及相鄰的第三重迭部分,如圖2a中所示,其中,第三重迭部分僅與未來幀的音頻樣本相關(guān)聯(lián),且非重迭部分僅與當(dāng)前幀的數(shù)據(jù)相關(guān)聯(lián)。此外,重迭相加器184被提供用于將與用于當(dāng)前幀的合成窗口的第三重迭部分相關(guān)聯(lián)的合成窗口樣本和與用于未來巾貞的合成窗口的第一重迭部分相關(guān)聯(lián)的樣本的合成窗口重迭及相加,以獲得未來中貞的第一部分的音頻樣本。其余用于未來幀的音頻樣本是與未來幀的合成窗口的第二非重迭部分相關(guān)聯(lián)的合成窗口化樣本,在當(dāng)前巾貞及未來巾貞包括轉(zhuǎn)換編碼數(shù)據(jù)時該合成窗口化樣本是在無重迭相加下獲得的。然而,當(dāng)發(fā)生從一幀切換成下一幀時,組合器185是有幫助的,它必須照顧從一種編碼模式到另一編碼模式的良好轉(zhuǎn)換,以最終在組合器185的輸出處獲得解碼音頻數(shù)據(jù)。
[0076]圖1c示出了關(guān)于轉(zhuǎn)換參數(shù)解碼器183的結(jié)構(gòu)的更多細(xì)節(jié)。
[0077]該解碼器包括解碼器處理級183a,其被配置成用于執(zhí)行解碼編碼頻譜數(shù)據(jù)所必需的所有處理,諸如算術(shù)解碼或霍夫曼解碼或一般而言,熵解碼和后續(xù)的解量化、噪聲填充等,以在塊183的輸出處獲得解碼頻譜值。這些頻譜值被輸入到頻譜加權(quán)器183b中。頻譜加權(quán)器183b從LPC加權(quán)數(shù)據(jù)計算器183c接收頻譜加權(quán)數(shù)據(jù),LPC加權(quán)數(shù)據(jù)計算器183c被饋送從由預(yù)測分析塊在編碼器端所產(chǎn)生的且經(jīng)由輸入接口 182在解碼器處接收的LPC數(shù)據(jù)。隨后,反頻譜轉(zhuǎn)換被執(zhí)行,其優(yōu)選地包括DCT-1V反轉(zhuǎn)換183d作為第一級以及后續(xù)的在用于未來幀的數(shù)據(jù)例如被提供給重迭相加器184之前的去折迭和合成窗口化處理183e。當(dāng)用于下一未來幀的數(shù)據(jù)可用時,該重迭相加器可執(zhí)行重迭相加操作。塊183d和183e —起構(gòu)成頻譜/時間轉(zhuǎn)換,或在圖1c中的實施方式中,優(yōu)選MDCT反轉(zhuǎn)換(MDCr1 )。
[0078]具體地,塊183d接收20ms幀的數(shù)據(jù),且在塊183e的去折迭步驟中增加數(shù)據(jù)容量為40ms的數(shù)據(jù),即之前數(shù)據(jù)量的兩倍,且隨后,具有40ms長度(當(dāng)窗口起點及結(jié)束的零部分加在一起時)的合成窗口被應(yīng)用于這些40ms的數(shù)據(jù)。接著,在塊183e的輸出處,用于當(dāng)前塊的數(shù)據(jù)和用于未來塊的前瞻部分內(nèi)的數(shù)據(jù)是可用的。
[0079]圖1d示出了相應(yīng)的編碼器端處理。在圖1d背景下討論的特征在編碼處理器104中被實施或通過圖3a中的相應(yīng)塊來實施。圖3a中的時間-頻率轉(zhuǎn)換310優(yōu)選被實施為MDCT且包括窗口化、折迭級310a,其中,塊310a中的窗口化操作通過TCX窗口器103d來實施。因此,圖3a中的塊310中的實際第一操作是折迭操作,以使40ms的輸入數(shù)據(jù)恢復(fù)成20ms的幀數(shù)據(jù)。接著,利用現(xiàn)在具有已接收的混迭貢獻(xiàn)的折迭數(shù)據(jù)執(zhí)行DCT-1V,如塊310d中所示。塊302 (LPC分析)向(LPC至MDCT)塊302b提供使用結(jié)束幀LPC窗口從分析導(dǎo)出的LPC數(shù)據(jù),且塊302d通過頻譜加權(quán)器312產(chǎn)生用于執(zhí)行頻譜加權(quán)的加權(quán)因子。優(yōu)選地,TCX編碼模式中的用于一個20ms幀的16個LPC系數(shù)優(yōu)選通過使用oDFT (奇數(shù)離散傅里葉轉(zhuǎn)換)被轉(zhuǎn)換成16個MDCT-域加權(quán)因子。對于其他模式,諸如具有8kHz采樣率的NB模式,LPC系數(shù)的數(shù)目可以較少,諸如10。對于具有較高采樣率的其他模式,也可以有多于16個的LPC系數(shù)。該oDFT的結(jié)果是16個加權(quán)值,且每一加權(quán)值與由塊310b獲得的頻譜數(shù)據(jù)的頻帶相關(guān)聯(lián)。頻譜加權(quán)通過將一個頻帶的所有MDCT頻譜值除以與該頻帶相關(guān)聯(lián)的同一加權(quán)值來進(jìn)行,以便非常高效地在塊312中執(zhí)行該頻譜加權(quán)操作。因此,16個頻帶的MDCT值各自除以相應(yīng)的加權(quán)因子以輸出頻譜加權(quán)的頻譜值,該頻譜加權(quán)的頻譜值接著如本領(lǐng)域所熟知地進(jìn)一步由塊314處理,即例如通過量化和熵編碼進(jìn)一步處理。
[0080]另一方面,在解碼器端,對應(yīng)于圖1d中的塊312的頻譜加權(quán)將是由圖1c中所示的頻譜加權(quán)器183b執(zhí)行的乘法運算。
[0081]隨后,圖4a和圖4b被討論,以概述圖2中所示由LPC分析窗口產(chǎn)生或由兩個LPC分析窗口產(chǎn)生的LPC數(shù)據(jù)如何在ACELP模式或在TCX/MDCT模式中被使用。
[0082]繼應(yīng)用LPC分析窗口之后,自相關(guān)計算利用LPC窗口化數(shù)據(jù)來執(zhí)行。接著,列文遜-杜賓算法被應(yīng)用在自相關(guān)函數(shù)上。隨后,用于每一 LP分析的16個LP系數(shù),即用于中幀窗口的16個系數(shù)和用于結(jié)束幀窗口的16個系數(shù),被轉(zhuǎn)換成ISP值。因此,從自相關(guān)計算到ISP轉(zhuǎn)換的步驟例如在圖4a的塊400中被執(zhí)行。隨后,該計算在編碼器端通過ISP系數(shù)的量化來繼續(xù)。接著,ISP系數(shù)再次被去量化并轉(zhuǎn)換回LP系數(shù)域。因此,LPC數(shù)據(jù)或換句話說,16個與塊400中所導(dǎo)出的LPC系數(shù)稍有不同(由于量化和去量化)的LPC系數(shù)被獲得,它們可隨后直接被用于第四子幀,如步驟401中所指示。然而,對于其他子幀,優(yōu)選執(zhí)行若干內(nèi)插,例如,如Rec.1TU-T G.718(06/2008)的6.8.3節(jié)中所概述。用于第三子幀的LPC數(shù)據(jù)通過內(nèi)插結(jié)束幀和中幀LPC數(shù)據(jù)而被算出,如塊402所示。優(yōu)選的內(nèi)插是每一相應(yīng)的數(shù)據(jù)被除以2并加在一起,即結(jié)束幀與中幀LPC數(shù)據(jù)的平均。為計算第二子幀的LPC數(shù)據(jù),如塊403中所示,內(nèi)插額外被執(zhí)行。具體地,最后幀的結(jié)束幀LPC數(shù)據(jù)值的10%,當(dāng)前幀的中幀LPC數(shù)據(jù)的80%以及當(dāng)前幀的結(jié)束幀的LPC數(shù)據(jù)值的10%被使用,以最終計算第二子幀的LPC數(shù)據(jù)。
[0083]最終,通過形成最后幀的結(jié)束幀LPC數(shù)據(jù)與當(dāng)前幀的中幀LPC數(shù)據(jù)之間的平均值,第一子幀的LPC數(shù)據(jù)被算出,如塊404中所指示。
[0084]為執(zhí)行ACELP編碼,量化的LPC參數(shù)集(S卩,來自中幀分析)和結(jié)束幀分析被發(fā)送至
解碼器。[0085]基于通過塊401至404所算出的各個子幀的結(jié)果,ACELP計算被執(zhí)行,如塊405中所指示,以獲得要被發(fā)送至解碼器的ACELP數(shù)據(jù)。
[0086]隨后,圖4b被描述。在塊400中,中幀和結(jié)束幀LPC數(shù)據(jù)再次被算出。然而,由于有TCX編碼模式,所以僅結(jié)束幀LPC數(shù)據(jù)被發(fā)送至解碼器且中幀LPC數(shù)據(jù)并未被發(fā)送至解碼器。具體地,并未將LPC系數(shù)本身發(fā)送至解碼器,而是發(fā)送ISP轉(zhuǎn)換及量化后所獲得的值。因此,優(yōu)選地,如LPC數(shù)據(jù)一樣,由結(jié)束幀LPC數(shù)據(jù)系數(shù)所導(dǎo)出的量化ISP值被發(fā)送至解碼器。
[0087]然而,在編碼器中,步驟406至408中的程序仍然被執(zhí)行,以獲得用于加權(quán)當(dāng)前幀的MDCT頻譜數(shù)據(jù)的加權(quán)因子。為此,當(dāng)前幀的結(jié)束幀LPC數(shù)據(jù)和過去幀的結(jié)束幀LPC數(shù)據(jù)被內(nèi)插。然而,優(yōu)選并不內(nèi)插由LPC分析直接導(dǎo)出的LPC數(shù)據(jù)系數(shù)本身。而是優(yōu)選內(nèi)插由相應(yīng)的LPC系數(shù)所導(dǎo)出的量化和再去量化的ISP值。因此,塊406中所用的LPC數(shù)據(jù)以及塊401至404中的其他計算所用的LPC數(shù)據(jù)始終是優(yōu)選由每一 LPC分析窗口的原始16個LPC系數(shù)所導(dǎo)出的量化和再去量化的ISP數(shù)據(jù)。
[0088]塊406中的內(nèi)插優(yōu)選是純平均化,即相應(yīng)的值被相加并除以2。接著,在塊407中,當(dāng)前幀的MDCT頻譜數(shù)據(jù)使用內(nèi)插LPC數(shù)據(jù)來加權(quán),且在塊408中,加權(quán)頻譜數(shù)據(jù)的進(jìn)一步處理被執(zhí)行,以最終獲得要從編碼器發(fā)送至解碼器的編碼頻譜數(shù)據(jù)。因此,步驟407中所執(zhí)行的程序?qū)?yīng)于塊312,且圖4d中的塊408中所執(zhí)行的程序?qū)?yīng)于圖4d中的塊314。相應(yīng)的操作實際上在解碼器端被執(zhí)行。因此,在解碼器端需要相同的內(nèi)插以便一方面計算頻譜加權(quán)因子或另一方面通過內(nèi)插來計算各個子幀的LPC系數(shù)。因此,圖4a和圖4b相對于塊401至404或圖4b的406中的程序而言同等地適用于解碼器端。
[0089]本發(fā)明對低延遲編解碼器實施尤其有用。這意指此類編解碼器被設(shè)計成算法或系統(tǒng)延遲優(yōu)選低于45ms,且在某些情況下,甚至等于或低于35ms。然而,LPC分析和TCX分析的前瞻部分對獲得良好的音頻質(zhì)量是必要的。因此,在兩個矛盾要求之間的良好折衷是必要的。已發(fā)現(xiàn)一方面延遲與另一方面質(zhì)量之間的良好折衷可通過具有20ms幀長度的切換音頻編碼器或解碼器來獲得,但也發(fā)現(xiàn),15到30ms之間的幀長度值也提供了可接受的結(jié)果。另一方面,已發(fā)現(xiàn)當(dāng)就延遲問題而論時,IOms的前瞻部分是可接受的,但視相應(yīng)的應(yīng)用而定,5ms到20ms之間的值也是有用的。此外,已發(fā)現(xiàn)當(dāng)值為0.5時,前瞻部分與幀長度之間的關(guān)系是有用的,但0.4到0.6之間的其他值也是有用的。此外,盡管本發(fā)明已一方面就ACELP且另一方面就MDCT-TCX而被描述,但在時域中操作的其他算法(諸如CELP或任何其他預(yù)測或波形算法)也是有用的。至于TCX/MDCT,其他轉(zhuǎn)換域編碼算法(諸如MDST)或任何其他基于轉(zhuǎn)換的算法也可被應(yīng)用。
[0090]對LPC分析和LPC計算的特定實施也是如此。優(yōu)選依賴于之前所述的程序,但用于計算/內(nèi)插和分析的其他程序也可被使用,只要那些程序依賴于LPC分析窗口。
[0091]盡管已在裝置背景下描述了一些方面,但明確的是,這些方面還表示對相應(yīng)方法的描述,其中,塊或裝置對應(yīng)于方法步驟或方法步驟的特征。類似地,在方法步驟背景下描述的方面還表示對相應(yīng)設(shè)備的相應(yīng)塊或項目或者特征的描述。
[0092]根據(jù)具體實施要求,本發(fā)明的實施方式可以硬件或軟件來實施??墒褂闷渖洗鎯τ须娍勺x控制信號且該信號與可編程計算機(jī)系統(tǒng)協(xié)作(或能夠協(xié)作)的數(shù)字存儲介質(zhì)(例如,軟盤、DVD、CD、ROM、PROM、EPROM、EEPROM或閃存)來執(zhí)行該實施,從而執(zhí)行相應(yīng)方法。[0093]根據(jù)本發(fā)明的某些實施方式包括非臨時性數(shù)據(jù)載體,該數(shù)據(jù)載體具有能與可編程計算機(jī)系統(tǒng)協(xié)作從而執(zhí)行本文所述方法中的一種的電可讀控制信號。
[0094]一般地,本發(fā)明的實施方式可被實施為具有程序代碼的計算機(jī)程序產(chǎn)品,當(dāng)該計算機(jī)程序產(chǎn)品在計算機(jī)上運行時,該程序代碼可操作地用于執(zhí)行所述方法中的一種。該程序代碼例如可存儲在機(jī)器可讀載體上。
[0095]其他實施方式包括用于執(zhí)行本文所述方法之一的計算機(jī)程序,所述計算機(jī)程序存儲在機(jī)器可讀載體上。
[0096]因此,換句話說,本發(fā)明方法的一種實施方式是具有程序代碼的計算機(jī)程序,當(dāng)該計算機(jī)程序在計算機(jī)上運行時,該程序代碼用于執(zhí)行本文所述的方法之一。
[0097]因此,本發(fā)明方法的另一實施方式是包括記錄其中的用于執(zhí)行本文所述方法之一的計算機(jī)程序的數(shù)據(jù)載體(或數(shù)字存儲介質(zhì),或者計算機(jī)可讀介質(zhì))。
[0098]因此,本發(fā)明方法的另一實施方式是表示用于執(zhí)行本文所述方法之一的計算機(jī)程序的數(shù)據(jù)流或一系列信號。該數(shù)據(jù)流或一系列信號例如可被配置為經(jīng)由數(shù)據(jù)通信連接(例如,經(jīng)由互聯(lián)網(wǎng))傳送。
[0099]另一實施方式包括處理裝置(例如,計算機(jī)或可編程邏輯器件),該處理裝置被配置為或適用于執(zhí)行本文所述方法之一。
[0100]另一實施方式包括計算機(jī),該計算機(jī)上安裝有用于執(zhí)行本文所述方法之一的計算機(jī)程序。
[0101]在某些實施方式中,可編程邏輯器件(例如,現(xiàn)場可編程門陣列)可被用于執(zhí)行本文所述的方法的某些或所有功能。在某些實施方式中,現(xiàn)場可編程門陣列可與微處理器協(xié)作,以執(zhí)行本文所述方法之一。一般地,該方法優(yōu)選由任何硬件設(shè)備執(zhí)行。
[0102]上述實施方式僅說明了本發(fā)明的原理。應(yīng)理解,本文所述的配置和細(xì)節(jié)的修改和變更對于本領(lǐng)域其他技術(shù)人員而言將是顯而易見的。因此,本發(fā)明意在僅由所附專利權(quán)利要求的范圍來限定,而非由本文中通過實施方式的描述和說明給出的具體細(xì)節(jié)來限定。
【權(quán)利要求】
1.一種用于編碼具有音頻樣本流(100)的音頻信號的裝置,包括: 窗口器(102),用于對所述音頻樣本流應(yīng)用預(yù)測編碼分析窗口(200)以獲得用于預(yù)測分析的窗口化數(shù)據(jù),以及用于對所述音頻樣本流應(yīng)用轉(zhuǎn)換編碼分析窗口(204)以獲得用于轉(zhuǎn)換分析的窗口化數(shù)據(jù), 其中,所述轉(zhuǎn)換編碼分析窗口與音頻樣本的當(dāng)前幀內(nèi)的音頻樣本以及與作為轉(zhuǎn)換編碼前瞻部分(206)的音頻樣本的未來幀的預(yù)定部分的音頻樣本相關(guān)聯(lián), 其中,所述預(yù)測編碼分析窗口與所述當(dāng)前幀的所述音頻樣本的至少一部分以及與作為預(yù)測編碼前瞻部分(208)的所述未來幀的預(yù)定部分的音頻樣本相關(guān)聯(lián), 其中,所述轉(zhuǎn)換編碼前瞻部分(206)和所述預(yù)測編碼前瞻部分(208)彼此相同或者彼此不同之處小于20%的所述預(yù)測編碼前瞻部分(208)或小于20%的所述轉(zhuǎn)換編碼前瞻部分(206);以及 編碼處理器(104),用于使用用于所述預(yù)測分析的所述窗口化數(shù)據(jù)來產(chǎn)生用于所述當(dāng)前幀的預(yù)測編碼數(shù)據(jù),或者用于使用用于所述轉(zhuǎn)換分析的所述窗口化數(shù)據(jù)來產(chǎn)生用于所述當(dāng)前幀的轉(zhuǎn)換編碼數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的裝置,其中,所述轉(zhuǎn)換編碼分析窗口(204)包括在所述轉(zhuǎn)換編碼前瞻部分(206)中延伸的非重迭部分。
3.根據(jù)權(quán)利要求1或2所述 的裝置,其中,所述轉(zhuǎn)換編碼分析窗口(204)包括在所述當(dāng)前幀的起點開始且在所述非重迭部分(208)的起點結(jié)束的另一重迭部分(210)。
4.根據(jù)權(quán)利要求1所述的裝置,其中,所述窗口器(102)被配置成僅使用起始窗口(220,222)來用于從一幀到下一幀由預(yù)測編碼到轉(zhuǎn)換編碼的轉(zhuǎn)變,其中,所述起始窗口未被用于從一幀到下一幀由轉(zhuǎn)換編碼到預(yù)測編碼的轉(zhuǎn)變。
5.根據(jù)前述權(quán)利要求中任一項所述的裝置,進(jìn)一步包括: 輸出接口( 106),用于輸出用于所述當(dāng)前幀的編碼信號;以及 編碼模式選擇器(112),用于控制所述編碼處理器(104)以輸出用于所述當(dāng)前幀的預(yù)測編碼數(shù)據(jù)或轉(zhuǎn)換編碼數(shù)據(jù), 其中,所述編碼模式選擇器(112)被配置成對于整個幀僅在預(yù)測編碼或轉(zhuǎn)換編碼之間切換,使得用于所述整個幀的編碼信號包括預(yù)測編碼數(shù)據(jù)或轉(zhuǎn)換編碼數(shù)據(jù)。
6.根據(jù)前述權(quán)利要求中任一項所述的裝置, 其中,所述窗口器(102)除了使用所述預(yù)測編碼分析窗口之外,還使用與被置于所述當(dāng)前幀的起點的音頻樣本相關(guān)聯(lián)的另一預(yù)測編碼分析窗口(202),且其中,所述預(yù)測編碼分析窗口(200)不與被置于所述當(dāng)前幀的起點的音頻樣本相關(guān)聯(lián)。
7.根據(jù)前述權(quán)利要求中任一項所述的裝置, 其中,所述幀包括多個子幀,其中,所述預(yù)測分析窗口(200)以子幀的中心為中心,且其中,所述轉(zhuǎn)換編碼分析窗口以兩個子幀之間的邊界為中心。
8.根據(jù)權(quán)利要求7所述的裝置, 其中,所述預(yù)測分析窗口(200)以所述幀的最后子幀的中心為中心,其中,所述另一分析窗口(202)以所述當(dāng)前幀的第二子幀的中心為中心,且其中,所述轉(zhuǎn)換編碼分析窗口以所述當(dāng)前幀的第三子幀與第四子幀之間的邊界為中心,其中,所述當(dāng)前幀被細(xì)分為四個子幀。
9.根據(jù)前述權(quán)利要求中任一項所述的裝置,其中,另一預(yù)測編碼分析窗口(202)在所述未來幀中沒有前瞻部分,且與所述當(dāng)前幀的樣本相關(guān)聯(lián)。
10.根據(jù)前述權(quán)利要求中任一項所述的裝置,其中,所述轉(zhuǎn)換編碼分析窗口另外包括在所述窗口的起點之前的零部分以及在所述窗口的末端之后的零部分,使得所述轉(zhuǎn)換編碼分析窗口的全部時間長度是所述當(dāng)前幀的時間長度的兩倍。
11.根據(jù)權(quán)利要求10所述的裝置,其中,對于從一幀到下一幀由所述預(yù)測編碼模式到所述轉(zhuǎn)換編碼模式的轉(zhuǎn)變,轉(zhuǎn)變窗口被所述窗口器(102)使用, 其中,所述轉(zhuǎn)變窗口包括在所述幀的起點開始的第一非重迭部分以及在所述非重迭部分的末端開始并延伸到所述未來幀中的重迭部分, 其中,延伸到所述未來幀中的所述重迭部分具有與所述分析窗口的所述轉(zhuǎn)換編碼前瞻部分的長度相同的長度。
12.根據(jù)前述權(quán)利要求中任一項所述的裝置,其中,所述轉(zhuǎn)換編碼分析窗口的時間長度大于所述預(yù)測編碼分析窗口(200,202)的時間長度。
13.根據(jù)前述權(quán)利要求中任一項所述的裝置,進(jìn)一步包括: 輸出接口( 106),用于輸出用于所述當(dāng)前幀的編碼信號;以及 編碼模式選擇器(112),用于控制所述編碼處理器(104)以輸出用于所述當(dāng)前幀的預(yù)測編碼數(shù)據(jù)或轉(zhuǎn)換編碼數(shù)據(jù), 其中,所述窗口( 102)被配置成使用位于所述當(dāng)前幀中的在所述預(yù)測編碼窗口之前的另一預(yù)測編碼窗口,并且` 其中,所述編碼模式選擇器(112)被配置成控制所述編碼處理器(104),以便在所述轉(zhuǎn)換編碼數(shù)據(jù)被輸出至所述輸出接口時僅轉(zhuǎn)發(fā)從所述預(yù)測編碼窗口導(dǎo)出的預(yù)測編碼分析數(shù)據(jù),且不轉(zhuǎn)發(fā)從所述另一預(yù)測編碼窗口導(dǎo)出的預(yù)測編碼分析數(shù)據(jù),以及 其中,所述編碼模式選擇器(112)被配置成控制所述編碼處理器(104)以轉(zhuǎn)發(fā)從所述預(yù)測編碼窗口導(dǎo)出的預(yù)測編碼分析數(shù)據(jù),并在所述預(yù)測編碼數(shù)據(jù)被輸出至所述輸出接口時,轉(zhuǎn)發(fā)從所述另一預(yù)測編碼窗口導(dǎo)出的所述預(yù)測編碼分析數(shù)據(jù)。
14.根據(jù)前述權(quán)利要求中任一項所述的裝置,其中,所述編碼處理器(104)包括: 預(yù)測編碼分析器(302),用于從用于預(yù)測分析的所述窗口化數(shù)據(jù)(IOOa)導(dǎo)出用于所述當(dāng)前幀的預(yù)測編碼數(shù)據(jù); 預(yù)測編碼分支,包括: 濾波器級(304),用于使用所述預(yù)測編碼數(shù)據(jù)從用于所述當(dāng)前幀的所述音頻樣本計算濾波器數(shù)據(jù);以及 預(yù)測編碼器參數(shù)計算器(306),用于計算用于所述當(dāng)前幀的預(yù)測編碼參數(shù);以及 轉(zhuǎn)換編碼分支,包括: 時間-頻譜轉(zhuǎn)換器(310),用于將用于轉(zhuǎn)換編碼算法的窗口數(shù)據(jù)轉(zhuǎn)換成頻譜表示; 頻譜加權(quán)器(312),用于使用從所述預(yù)測編碼數(shù)據(jù)導(dǎo)出的加權(quán)的加權(quán)數(shù)據(jù)來加權(quán)頻譜數(shù)據(jù)以獲得加權(quán)頻譜數(shù)據(jù);以及 頻譜數(shù)據(jù)處理器(314),用于處理所述加權(quán)頻譜數(shù)據(jù)以獲得用于所述當(dāng)前幀的轉(zhuǎn)換編碼數(shù)據(jù)。
15.一種編碼具有音頻樣本流(100)的音頻信號的方法,包括: 對所述音頻樣本流應(yīng)用(102)預(yù)測編碼分析窗口(200)以獲得用于預(yù)測分析的窗口化數(shù)據(jù),以及對所述音頻樣本流應(yīng)用轉(zhuǎn)換編碼分析窗口(204)以獲得用于轉(zhuǎn)換分析的窗口化數(shù)據(jù), 其中,所述轉(zhuǎn)換編碼分析窗口與音頻樣本的當(dāng)前幀內(nèi)的音頻樣本以及與作為轉(zhuǎn)換編碼前瞻部分(206)的音頻樣本的未來幀的預(yù)定部分的音頻樣本相關(guān)聯(lián), 其中,所述預(yù)測編碼分析窗口與所述當(dāng)前幀的所述音頻樣本的至少一部分以及與作為預(yù)測編碼前瞻部分(208)的所述未來幀的預(yù)定部分的音頻樣本相關(guān)聯(lián), 其中,所述轉(zhuǎn)換編碼前瞻部分(206)和所述預(yù)測編碼前瞻部分(208)彼此相同或者彼此不同之處小于20%的所述預(yù)測編碼前瞻部分(208)或小于20%的所述轉(zhuǎn)換編碼前瞻部分(206);以及 使用用于所述預(yù)測分析的所述窗口化數(shù)據(jù)來產(chǎn)生(104)用于所述當(dāng)前幀的預(yù)測編碼數(shù)據(jù),或者使用用于所述轉(zhuǎn)換分析的所述窗口化數(shù)據(jù)來產(chǎn)生用于所述當(dāng)前幀的轉(zhuǎn)換編碼數(shù)據(jù)。
16.一種用于解碼編碼音頻信號的音頻解碼器,包括: 預(yù)測參數(shù)解碼器(180),用于執(zhí)行對來自所述編碼音頻信號的用于預(yù)測編碼幀的數(shù)據(jù)的解碼; 轉(zhuǎn)換參數(shù)解碼器(183),用于執(zhí)行對來自所述編碼音頻信號的用于轉(zhuǎn)換編碼幀的數(shù)據(jù)的解碼, 其中,所述轉(zhuǎn)換參數(shù)解碼器(183)被配置成用于執(zhí)行頻譜-時間轉(zhuǎn)換和用于對轉(zhuǎn)換數(shù)據(jù)應(yīng)用合成窗口以獲得用于所述當(dāng)前幀和未來幀的數(shù)據(jù),所述合成窗口具有第一重迭部分、相鄰的第二重迭部分以及相鄰的第三重迭部分(206 ),所述第三重迭部分與用于所述未來幀的音頻樣本相關(guān)聯(lián),且非重迭部分(208)與所述當(dāng)前幀的數(shù)據(jù)相關(guān)聯(lián);以及 重迭相加器(184),用于將與用于所述當(dāng)前幀的合成窗口的所述第三重迭部分相關(guān)聯(lián)的合成窗口化樣本和與用于所述未來幀的合成窗口的所述第一重迭部分相關(guān)聯(lián)的合成窗口化樣本重迭并相加,以獲得用于所述未來幀的音頻樣本的第一部分,其中,當(dāng)所述當(dāng)前幀和所述未來幀包括轉(zhuǎn)換編碼數(shù)據(jù)時,用于所述未來幀的其余的所述音頻樣本是與沒有重迭相加而獲得的用于所述未來幀的所述合成窗口的所述第二非重迭部分相關(guān)聯(lián)的合成窗口化樣本。
17.根據(jù)權(quán)利要求16所述的音頻解碼器,其中,所述編碼音頻信號的所述當(dāng)前幀包括轉(zhuǎn)換編碼數(shù)據(jù),且所述未來幀包括預(yù)測編碼數(shù)據(jù),其中,所述轉(zhuǎn)換參數(shù)解碼器(183)被配置成使用用于所述當(dāng)前幀的所述合成窗口來執(zhí)行合成窗口化,以獲得與所述合成窗口的所述非重迭部分(208)相關(guān)聯(lián)的窗口化音頻樣本,其中,與用于所述當(dāng)前幀的所述合成窗口的所述第三重迭部分相關(guān)聯(lián)的合成窗口化音頻樣本被去除,并且 其中,用于所述未來幀的音頻樣本由所述預(yù)測參數(shù)解碼器(180 )來提供,而沒有來自所述轉(zhuǎn)換參數(shù)解碼器(183)的數(shù)據(jù)。
18.根據(jù)權(quán)利要求16或17所述的音頻解碼器, 其中,所述當(dāng)前幀包括預(yù)測編碼數(shù)據(jù),且所述未來幀包括轉(zhuǎn)換編碼數(shù)據(jù), 其中,所述轉(zhuǎn)換參數(shù)解碼器(183)被配置成使用不同于所述合成窗口的轉(zhuǎn)變窗口, 其中,所述轉(zhuǎn)變窗口(220,222)包括在所述未來幀的起點處的第一非重迭部分(220)以及在所述未來幀的末端開始并延伸到時間上在所述未來幀之后的幀中的重迭部分(222),并且 其中,用于所述未來幀的所述音頻樣本在無重迭下產(chǎn)生,且與用于所述未來幀的窗口的所述第二重迭部分(222)相關(guān)聯(lián)的音頻數(shù)據(jù)由所述重迭相加器(184)使用用于在所述未來幀之后的所述幀的所述合成窗口的所述第一重迭部分來計算。
19.根據(jù)權(quán)利要求16至18中任一項所述的音頻解碼器, 其中,所述轉(zhuǎn)換參數(shù)計算器(183)包括: 頻譜加權(quán)器(183b),用于使用預(yù)測編碼數(shù)據(jù)來加權(quán)用于所述當(dāng)前幀的解碼轉(zhuǎn)換頻譜數(shù)據(jù);以及 預(yù)測編碼加權(quán)數(shù)據(jù)計算器(183c),用于通過組合從過去幀導(dǎo)出的預(yù)測編碼數(shù)據(jù)與從所述當(dāng)前幀導(dǎo)出的預(yù)測編碼數(shù)據(jù)的加權(quán)總和來計算所述預(yù)測編碼數(shù)據(jù),以獲得內(nèi)插預(yù)測編碼數(shù)據(jù)。
20.根據(jù)權(quán)利要求19所述的音頻解碼器, 其中,所述預(yù)測編碼加權(quán)數(shù)據(jù)計算器(183c )被配置成將所述預(yù)測編碼數(shù)據(jù)轉(zhuǎn)換成具有用于每一頻帶的加權(quán)值的頻譜表示,并且 其中,所述頻譜加權(quán)器(183b )被配置成通過用于頻帶的同一加權(quán)值加權(quán)該頻帶中的所有頻譜值。
21.根據(jù)權(quán)利要求16至19中任一項所述的音頻解碼器,其中,所述合成窗口被配置成具有小于50ms且大于25ms的總時間長度,其中,所述第一重迭部分和所述第三重迭部分具有相同的長度,且其中,所述第三重迭部分具有小于15ms的長度。
22.根據(jù)權(quán)利要求16至21中任一項所述的音頻解碼器, 其中,所述合成窗口具有無零填充部分的30ms的長度,所述第一重迭部分和所述第三重迭部分各自具有IOms的長度,且所述非重迭部分具有IOms的長度。
23.根據(jù)權(quán)利要求16至22中任一項所述的音頻解碼器, 其中,所述轉(zhuǎn)換參數(shù)解碼器(183)被配置成對于所述頻譜-時間轉(zhuǎn)換,應(yīng)用具有對應(yīng)于幀長度的樣本數(shù)目的DCT轉(zhuǎn)換(183d)和用于產(chǎn)生是所述DCT之前的時間值數(shù)目的兩倍的時間值數(shù)目的去折迭操作(183e),以及 對所述去折迭操作的結(jié)果應(yīng)用(183e)所述合成窗口,其中,所述合成窗口包括,在所述第一重迭部分之前且在所述第三重迭部分之后具有所述第一重迭部分和所述第三重迭部分的長度的一半的長度的零部分。
24.一種解碼編碼音頻信號的方法,包括: 執(zhí)行(180)對來自所述編碼音頻信號的用于預(yù)測編碼幀的數(shù)據(jù)的解碼; 由所述編碼音頻信號, 其中,執(zhí)行(183)對用于轉(zhuǎn)換編碼幀的數(shù)據(jù)的解碼的步驟包括執(zhí)行頻譜-時間轉(zhuǎn)換和對轉(zhuǎn)換數(shù)據(jù)應(yīng)用合成窗口以獲得用于所述當(dāng)前幀和未來幀的數(shù)據(jù),所述合成窗口具有第一重迭部分、相鄰的第二重迭部分以及相鄰的第三重迭部分(206),所述第三重迭部分與用于所述未來幀的音頻樣本相關(guān)聯(lián),且所述非重迭部分(208)與所述當(dāng)前幀的數(shù)據(jù)相關(guān)聯(lián);以及將與用于所述當(dāng)前幀的合成窗口的所述第三重迭部分相關(guān)聯(lián)的合成窗口化樣本和與用于所述未來幀的合成窗口的所述第一重迭部分相關(guān)聯(lián)的合成窗口化樣本重迭并相加(184),以獲得用于所述未來幀的音頻樣本的第一部分,其中,當(dāng)所述當(dāng)前幀和所述未來幀包括轉(zhuǎn)換編碼數(shù)據(jù)時,用于所述未來幀的其余的所述音頻樣本是與沒有重迭相加而獲得的用于所述未來幀的所述合成窗口的所述第二非重迭部分相關(guān)聯(lián)的合成窗口化樣本。
25.一種具有程序代碼的計算機(jī)程序,所述程序代碼當(dāng)在計算機(jī)上運行時,用于執(zhí)行根據(jù)權(quán)利要求15所述的編 碼音頻信號的方法或根據(jù)權(quán)利要求24所述的解碼音頻信號的方法。
【文檔編號】G10L19/012GK103503062SQ201280018282
【公開日】2014年1月8日 申請日期:2012年2月14日 優(yōu)先權(quán)日:2011年2月14日
【發(fā)明者】埃曼努埃爾·拉維利, 拉爾夫·蓋爾, 馬庫斯·施內(nèi)爾, 紀(jì)堯姆·福奇斯, 韋莎·羅皮拉, 湯姆·貝克斯特倫, 伯恩哈德·格里, 克里斯蒂安·赫爾姆里希 申請人:弗蘭霍菲爾運輸應(yīng)用研究公司