本發(fā)明涉及信號處理,尤其涉及音頻信號處理。
背景技術(shù):
以用于音頻信號的高效存儲或傳輸?shù)臄?shù)據(jù)縮減為目的的音頻信號的感知編碼被廣泛地實(shí)踐使用。特別是在要實(shí)現(xiàn)最低比特率時(shí),所應(yīng)用的編碼導(dǎo)致音頻質(zhì)量的下降,其經(jīng)常主要是由待傳輸?shù)囊纛l信號帶寬的編碼器側(cè)的限制引起。在現(xiàn)代的編解碼器中,存在已知方法用于通過諸如譜帶復(fù)制(SBR)的音頻信號帶寬擴(kuò)展(BWE)的解碼器側(cè)信號恢復(fù)。
在低比特率編碼中,也經(jīng)常應(yīng)用所謂的噪聲填充。在解碼器中,由于嚴(yán)格的比特率限制而已被量化為零的突出的譜區(qū)域以合成噪聲而被填充。
通常,在低比特率編碼應(yīng)用中結(jié)合兩種技術(shù)。此外,存在結(jié)合音頻編碼、噪聲填充和譜間隙填充的集成解決方案,例如智能間隙填充(IGF)。
然而,所有的這些方法具有如下共同之處:在第一步驟中,使用波形解碼和噪聲填充重構(gòu)基帶或核心音頻信號,以及在第二步驟中,使用快速重構(gòu)的信號執(zhí)行BWE或IGF處理。這導(dǎo)致如此事實(shí):在重構(gòu)期間通過噪聲填充已被填充到基帶中的相同噪聲值被用于再生高頻帶中的缺失部分(在BWE中)或用于填充剩余的譜間隙(在IGF中)。在BWE或IGF中,使用高度相關(guān)的噪聲用以重構(gòu)多個(gè)譜區(qū)域可能導(dǎo)致感知損傷。
現(xiàn)有技術(shù)中相關(guān)主題包括:
·SBR作為至波形解碼的后置處理器[1-3]
·ACC PNS[4]
·MPEG-D USAC噪聲填充[5]
·G.719以及G.722.1C[6]
·MPEG-H 3D IGF[8]
下面的論文和專利申請描述被視為與本申請相關(guān)的方法:
[1]M.Dietz,L.Liljeryd,K.and O.Kunz,“Spectral Band Replication,a novel approach in audio coding,”in 112th AES Convention,Munich,Germany,2002.
[2]S.Meltzer,R.and F.Henn,“SBR enhanced audio codecs for digital broadcastingsuch as“Digital Radio Mondiale”(DRM),”in 112th AES Convention,Munich,Germany,2002.
[3]T.Ziegler,A.Ehret,P.Ekstrand and M.Lutzky,“Enhancing mp3with SBR:Features and Capabilities of the new mp3PRO Algorithm,”in 112th AES Convention,Munich,Germany,2002.
[4]J.Herre,D.Schulz,Extending the MPEG-4AAC Codec by Perceptual Noise Substitution,Audio Engineering Society 104th Convention,Preprint 4720,Amsterdam,Netherlands,1998
[5]European Patent application EP2304720USAC noise-filling
[6]ITU-T Recommendations G.719and G.221C
[7]EP 2704142
[8]EP 13177350
以這些方法處理的音頻信號遭受人為現(xiàn)象(artifact)如粗糙、調(diào)制失真以及被視為使人不愉快的音色,特別是在低比特率處及由此的低帶寬處,和/或在LF范圍內(nèi)的譜孔(spectral hole)的發(fā)生。如下面所解釋,對此的原因主要是這樣的事實(shí):擴(kuò)展的或間隙填充的譜的重構(gòu)分量基于來自基帶的包含噪聲的一個(gè)或多個(gè)直接副本。由重構(gòu)噪聲中的所述不需要的相關(guān)性引起的時(shí)間調(diào)制以感知粗糙或令人反感的失真的干擾方式是可聽的。所有現(xiàn)有方法如mp3+SBR、AAC+SBR、USAC、G.719和G.722.1C,以及MPEG-H 3D IGF在以來自核心的復(fù)制或鏡象的譜數(shù)據(jù)填充譜間隙或高頻帶之前首先進(jìn)行包括噪聲填充的完整核心解碼。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供生成增強(qiáng)信號的改進(jìn)的概念。
通過權(quán)利要求1所述的用于生成增強(qiáng)信號的裝置、權(quán)利要求11所述的用于生成增強(qiáng)信號的方法、權(quán)利要求13所述的編碼和解碼系統(tǒng)、權(quán)利要求14所述的編碼和解碼方法或權(quán)利要求15所述的計(jì)算機(jī)程序?qū)崿F(xiàn)此目的。
本發(fā)明基于如下發(fā)現(xiàn):通過生成用于輸入信號的源譜區(qū)域中的噪聲填充區(qū)域的第一噪音值并隨后生成用于目的或目標(biāo)區(qū)域(即,在此刻具有噪聲值即與第一噪聲值相獨(dú)立的第二噪聲值的增強(qiáng)區(qū)域中)中的噪聲區(qū)域的第二獨(dú)立噪聲值,獲得通過帶寬擴(kuò)展或智能間隙填充或生成具有用于未包含在輸入信號中的增強(qiáng)譜區(qū)域的譜值的增強(qiáng)信號的任意其他方法生成的增強(qiáng)信號的音頻質(zhì)量的顯著提升。
因此,消除歸因于譜值映射的在基帶和增強(qiáng)帶中具有相依噪聲的在先技術(shù)問題,并消除關(guān)于如粗糙、調(diào)制失真以及被視為使人不愉快的音色(特別是在低比特率處)的人為現(xiàn)象的相關(guān)問題。
換言之,與第一噪聲值解相關(guān)的第二噪聲值(即與第一噪聲值至少部分地相獨(dú)立的噪聲值)的噪聲填充確保不再出現(xiàn)人為現(xiàn)象或相對于在先技術(shù)至少減少人為現(xiàn)象。因此,通過簡單帶寬擴(kuò)展或智能間隙填充操作的將譜值噪聲填充到基帶中的在先技術(shù)處理并不能將噪聲與基帶解相關(guān),而(例如)僅改變水平(level)。然而,一方面在源帶中以及另一方面在目標(biāo)帶中引入解相關(guān)的噪聲值(優(yōu)選地,得自分離噪聲處理),提供最好結(jié)果。然而,即使是未完全解相關(guān)或未完全相獨(dú)立的而是在零的解相關(guān)值表示完全解相關(guān)時(shí)如以0.5或更小的解相關(guān)值至少部分地解相關(guān)的噪聲值的引入也改善了在先技術(shù)的完全相關(guān)性問題。
因此,實(shí)施例涉及在感知解碼器中的波形解碼、帶寬擴(kuò)展或間隙填充以及噪聲填充的結(jié)合。
進(jìn)一步的優(yōu)點(diǎn)是,對比已存在的概念,避免了信號失真和感知粗糙的人為現(xiàn)象(對于在波形解碼和噪聲填充之后計(jì)算帶寬擴(kuò)展或間隙填充,其通常是典型的)的出現(xiàn)。
在一些實(shí)施例中,此歸因于所提及的處理步驟的順序的改變。優(yōu)選地,在波形解碼后直接執(zhí)行帶寬擴(kuò)展或間隙填充,更優(yōu)選地,隨后使用不相關(guān)噪聲對已經(jīng)重構(gòu)的信號計(jì)算噪聲填充。
在另外的實(shí)施例中,波形解碼和噪聲填充可以以傳統(tǒng)順序并在處理中的更下游執(zhí)行,可以以適當(dāng)縮放的不相關(guān)噪聲替換噪聲值。
因此,通過將噪聲填充步驟移位至處理鏈的最末端以及使用用于修補(bǔ)(patching)或間隙填充的不相關(guān)噪聲,本發(fā)明解決了由于對經(jīng)噪聲填充的譜的復(fù)制操作或鏡象操作而發(fā)生的問題。
附圖說明
隨后,關(guān)于附圖討論本發(fā)明的優(yōu)選實(shí)施例,其中:
圖1a示出用于編碼音頻信號的裝置;
圖1b示出與圖1a的編碼器匹配的用于解碼經(jīng)編碼的音頻信號的解碼器;
圖2a示出解碼器的優(yōu)選實(shí)施;
圖2b示出編碼器的優(yōu)選實(shí)施;
圖3a示出由圖1b的譜域解碼器生成的譜的示意性表示;
圖3b示出指示用于縮放因子帶的縮放因子與用于重構(gòu)帶的能量以及用于噪聲填充帶的噪聲填充信息之間的關(guān)系的表;
圖4a示出用于應(yīng)用譜部分至第一集合的譜部分和第二集合的譜部分的選擇的譜域編碼器的功能;
圖4b示出圖4a的功能的實(shí)施;
圖5a示出MDCT編碼器的功能;
圖5b示出利用MDCT技術(shù)的解碼器的功能;
圖5c示出頻率再生器的實(shí)施;
圖6示出依照本發(fā)明的用于生成增強(qiáng)信號的裝置的框圖;
圖7示出依照本發(fā)明的實(shí)施例的由解碼器中的選擇信息控制的獨(dú)立噪聲填充的信號流;
圖8示出通過解碼器中的間隙填充或帶寬擴(kuò)展與噪聲填充交換后的順序而實(shí)施的獨(dú)立噪聲填充的信號流;
圖9示出依照本發(fā)明的又一實(shí)施例的過程的流程圖;
圖10示出依照本發(fā)明的又一實(shí)施例的過程的流程圖;
圖11示出用于對隨機(jī)值的縮放進(jìn)行解釋的流程圖;
圖12示出顯示本發(fā)明嵌入至一般帶寬擴(kuò)展或間隙填充過程的流程圖;
圖13a示出具有帶寬擴(kuò)展參數(shù)計(jì)算的編碼器;以及
圖13b示出具有作為后置處理器實(shí)施的帶寬擴(kuò)展而非圖1a或圖1b中的集成過程的解碼器。
具體實(shí)施方式
圖6示出用于從也可作為音頻信號的輸入信號生成增強(qiáng)信號如音頻信號的裝置。增強(qiáng)信號具有用于增強(qiáng)譜區(qū)域的譜值,其中用于增強(qiáng)譜區(qū)域的譜值未包含于位于輸入信號輸入600處的原始輸入信號中。該裝置包括映射器602,其用于將輸入信號的源譜區(qū)域映射至增強(qiáng)譜區(qū)域中的目標(biāo)區(qū)域,其中源譜區(qū)域包括噪聲填充區(qū)域。
此外,該裝置包括噪聲填充器604,用于生成用于輸入信號的源譜區(qū)域中的噪聲填充區(qū)域的第一噪聲值,并用于生成用于目標(biāo)區(qū)域中的噪聲區(qū)域的第二噪聲值,其中第二噪聲值,即目標(biāo)區(qū)域中的噪聲值,與噪聲填充區(qū)域中的第一噪聲值相獨(dú)立或不相關(guān)或解相關(guān)。
一個(gè)實(shí)施例涉及如此情況,其中,噪聲填充實(shí)際上在基帶中執(zhí)行,即其中已經(jīng)通過噪聲填充生成了源區(qū)域中的噪聲值。在進(jìn)一步的可選項(xiàng)中,假設(shè)尚未執(zhí)行在源區(qū)域中的噪聲填充。然而,源區(qū)域具有實(shí)際上以被源或核心編碼器示例性地編碼為譜值的類噪聲譜值填充的噪聲區(qū)域。將此類噪聲源區(qū)域映射至增強(qiáng)區(qū)域也將在源區(qū)域和目標(biāo)區(qū)域中生成相依噪聲。為了解決此問題,噪聲填充器僅將噪聲填充至映射器的目標(biāo)區(qū)域,即生成用于目標(biāo)區(qū)域中的噪聲區(qū)域的第二噪聲值,其中第二噪聲值與源區(qū)域中的第一噪聲值解相關(guān)。此替換或噪聲填充也可在源塊元緩沖區(qū)(source tile buffer)中發(fā)生或在目標(biāo)本身中發(fā)生。通過分析源區(qū)域或通過分析目標(biāo)區(qū)域,分類器可識別噪聲區(qū)域。
為此,參照圖3A。圖3A示出填充區(qū)域,如輸入信號中的縮放因子帶301,并且噪聲填充器在輸入信號的解碼操作中生成此噪聲填充帶301中的第一噪聲譜值。
此外,映射此噪聲填充帶301至目標(biāo)區(qū)域,即,依照在先技術(shù),映射所生成的噪聲值至目標(biāo)區(qū)域,以及因此目標(biāo)區(qū)域?qū)⒕哂信c源區(qū)域相依或相關(guān)的噪聲。
然而,依照本發(fā)明,圖6的噪聲填充器604生成用于目的或目標(biāo)區(qū)域中的噪聲區(qū)域的第二噪聲值,其中第二噪聲值與圖3A的噪聲填充帶301中的第一噪聲值解相關(guān)或不相關(guān)或相獨(dú)立。
通常,噪聲填充和用于映射源譜區(qū)域至目的區(qū)域的映射器可被包含于在集成間隙填充中的如在圖1A至圖5C的上下文中示例性地示出的高頻再生器中,或可以被實(shí)施為如圖13B中示出的后置處理器以及圖13A中的對應(yīng)編碼器。
通常,輸入信號經(jīng)受反量化700或任意其他或額外的預(yù)定義解碼器處理700,這意味著在塊700的輸出處獲取圖6的輸入信號,以使得至核心編碼器噪聲填充塊或噪聲填充器塊704的輸入是圖6的輸入600。圖6中的映射器對應(yīng)間隙填充或帶寬擴(kuò)展塊602,以及獨(dú)立噪聲填充塊702也包含在圖6的噪聲填充器604中。因此,塊704和塊702都包含在圖6的噪聲填充器塊604中,并且塊704生成用于噪聲填充區(qū)域中的噪聲區(qū)域的所謂第一噪聲值,以及塊702生成第二噪聲值用于目的或目標(biāo)區(qū)域中的噪聲區(qū)域,其通過由映射器或間隙填充或帶寬擴(kuò)展塊602執(zhí)行的帶寬擴(kuò)展而得自于基帶中的噪聲填充區(qū)域。此外,如后面所討論,通過以控制線706示出的控制向量PHI控制通過塊702執(zhí)行的獨(dú)立噪聲填充操作。
1.步驟:噪聲識別
在第一步驟中,識別代表所傳輸?shù)囊纛l幀中的噪聲的所有譜線。識別過程可由被噪聲填充[4][5]使用的已存在的所傳輸?shù)脑肼曃恢玫闹R來控制,或可以以額外分類器識別。噪聲線識別的結(jié)果是包含零和一的向量,其中具有一的位置指示代表噪聲的譜線。
以數(shù)學(xué)術(shù)語可描述此過程為:
使為在長為的經(jīng)變換編碼的、窗口化信號的噪聲填充[4][5]之后的所傳輸?shù)牟⒃倭炕淖V。使為整個(gè)解碼過程的停止線。
分類器C0確定譜線,其中使用在核心區(qū)域中的噪聲填充[4][5]:
且結(jié)果是長為m的向量。
額外分類器C1可以識別代表噪聲的中的其他線。此分類器可描述為:
在噪聲識別過程后,噪聲指示向量被定義為:
2.步驟:獨(dú)立噪聲
在第二步驟中,選擇并復(fù)制所傳輸?shù)淖V的特定區(qū)域至源塊元中。在該源塊元內(nèi),所識別的噪聲被替換為隨機(jī)噪聲。插入的隨機(jī)噪聲的能量被調(diào)節(jié)為與源塊元中的原始噪聲的相同能量。
以數(shù)學(xué)術(shù)語可描述此過程為:
使n,n<m作為用于在步驟3中描述的復(fù)制過程的起始線。使作為所傳輸?shù)淖V的連續(xù)部分,代表長為v<n的源塊元,其包含的譜線lk,lk+1,...lk+v-1,其中k為源塊元中的第一譜線的索引,以使得此外,使以使得
此時(shí),以隨機(jī)生成的合成噪聲替換所識別的噪聲。為了以相同水平保持譜能量,首先計(jì)算由指示的噪聲的能量E:
如果E=0,跳過用于源塊元的獨(dú)立噪聲替換,否則替換由指示的噪聲:
其中為用于所有0≤i<v的隨機(jī)數(shù)。
然后計(jì)算插入的隨機(jī)數(shù)的能量E′:
如果E′>0,計(jì)算因子g,否則設(shè)置g=0:
利用g,再縮放所替換的噪聲:
在噪聲替換后,源塊元包括與中的噪聲線相獨(dú)立的噪聲線。
3.步驟:復(fù)制
將源塊元映射至在中的其目的區(qū)域:
或者,如果使用IGF方案[8]:
圖8示出實(shí)施例,其中,在諸如圖1B中的塊112中示出的譜域解碼的任意后置處理之后,或在由圖13B中的塊1326示出的后置處理器實(shí)施例中,輸入信號首先經(jīng)受間隙填充或帶寬擴(kuò)展,即首先經(jīng)受映射操作以及,然后,即在全頻譜中執(zhí)行獨(dú)立噪聲填充。
在以上的圖7的上下文中描述的過程可作為就地操作(in place operation)來完成,以使得不需要中間緩沖區(qū)因此,執(zhí)行的順序被改寫。
執(zhí)行如圖7的上下文中描述的第一步驟,再次,的譜線集合k,k+1,...,k+v-1為源區(qū)域。執(zhí)行:
2.步驟:復(fù)制
或者,如果使用IGF方案[8]:
3.步驟:獨(dú)立噪聲填充
執(zhí)行傳統(tǒng)噪聲填充直至n,并計(jì)算在源區(qū)域中的噪聲譜線k,k+1,...,k+v-1的能量:
在間隙填充或BWE譜區(qū)域中執(zhí)行獨(dú)立噪聲填充:
其中r[i],0≤i<v再次為隨機(jī)數(shù)的集合。
計(jì)算插入的隨機(jī)數(shù)的能量E′:
再次,如果E′>0,計(jì)算因子g,否則設(shè)置g:=0:
利用g,再縮放所替換的噪聲:
本發(fā)明的獨(dú)立噪聲填充也可以在立體聲聲道對環(huán)境(stereo channel pair environment)中使用。因此,編碼器計(jì)算適當(dāng)?shù)穆暤缹Ρ硎?、L/R或M/S、每頻帶以及可選預(yù)測系數(shù)。解碼器在所有頻帶至L/R表示的最終轉(zhuǎn)換的隨后計(jì)算之前將如上所述的獨(dú)立噪聲填充應(yīng)用于聲道的適當(dāng)選中的表示。
本發(fā)明可應(yīng)用于或適用于其中全帶寬不可用或使用用于填充譜孔的間隙填充的所有音頻應(yīng)用。本發(fā)明可找到在音頻內(nèi)容的分布或播放中的使用,例如利用數(shù)字無線電、因特網(wǎng)流以及音頻通信應(yīng)用。
隨后,關(guān)于圖9至圖12討論本發(fā)明的實(shí)施例。在步驟900中,在源范圍中識別噪聲區(qū)域。之前已經(jīng)關(guān)于“噪聲識別”討論的此過程可完全依靠從編碼器側(cè)接收的噪聲填充輔助信息,或也可被配置為可選地或額外地依靠已經(jīng)生成的但不具有用于增強(qiáng)譜區(qū)域的譜值(即不具有用于此增強(qiáng)的譜區(qū)域的譜值)的輸入信號的信號分析。
然后,在步驟902中,將已經(jīng)經(jīng)受本領(lǐng)域公知的簡單噪聲填充的源范圍即完整的源范圍復(fù)制至源塊元緩沖區(qū)。
然后,在步驟904中,在源塊元緩沖區(qū)中以隨機(jī)值替換第一噪聲值,即在輸入信號的噪聲填充區(qū)域內(nèi)生成的簡單噪聲值。然后,在步驟906中,在源塊元緩沖區(qū)中縮放這些隨機(jī)值,以獲取用于目標(biāo)區(qū)域的第二噪聲值。隨后,在步驟908中,執(zhí)行映射操作,即在步驟904和步驟906之后可用的源塊元緩沖區(qū)的其內(nèi)容被映射至目的范圍。因此,通過替換操作904,以及在映射操作908之后,已經(jīng)實(shí)現(xiàn)在源范圍中以及在目標(biāo)范圍中的獨(dú)立噪聲填充操作。
圖10示出本發(fā)明的另外的實(shí)施例。再次,在步驟900中,識別源范圍中的噪聲。然而,此步驟900的功能與圖9中的步驟900的功能不同,因?yàn)閳D9中的步驟900可對已接收到噪聲值(即其中已執(zhí)行噪聲填充操作)的輸入信號譜進(jìn)行操作。
然而,在圖10中,未執(zhí)行對輸入信號的任意噪聲填充操作,并且輸入信號在步驟902的輸入處的噪聲填充區(qū)域中還沒有任何噪聲值。在步驟902中,映射源范圍至目的或目標(biāo)范圍,其中噪聲填充值并未包括在源范圍中。
因此,通過識別信號中的零譜值和/或通過使用來自輸入信號的此噪聲填充輔助信息,即編碼器側(cè)生成的噪聲填充信息,可關(guān)于噪聲填充區(qū)域執(zhí)行步驟900中的在源范圍中的噪聲的識別。然后,在步驟904中,讀取噪聲填充信息,并且特別地,讀取識別待被引入至解碼器側(cè)輸入信號的能量的能量信息。
然后,如步驟1006中所示出,執(zhí)行在源范圍中的噪聲填充,并且隨后或同時(shí)執(zhí)行步驟1008,即將隨機(jī)值插入至目的范圍中的位置,其已在全部頻帶上通過步驟900而被識別或已通過使用基帶或輸入信號信息以及映射信息即映射源范圍中哪個(gè)(哪些)至目標(biāo)范圍中哪個(gè)(哪些)而被識別。
最后,縮放所插入的隨機(jī)值以獲取第二獨(dú)立的或不相關(guān)的或解相關(guān)的噪聲值。
隨后,為了說明關(guān)于增強(qiáng)譜區(qū)域中的噪聲填充值的縮放(即如何從隨機(jī)值獲取第二噪聲值)的進(jìn)一步信息,論述圖11。
在步驟1100中,獲取關(guān)于源范圍中的噪聲的能量信息。然后,從隨機(jī)值即從通過如步驟1102中示出的隨機(jī)或偽隨機(jī)過程生成的值確定能量信息。此外,步驟1104示出如何計(jì)算縮放因子的方法,即通過使用關(guān)于源范圍中的噪聲的能量信息并通過使用關(guān)于隨機(jī)值的能量信息。然后,在步驟1106中,將通過步驟1104生成的縮放因子與隨機(jī)值(即在步驟1102中已從其計(jì)算能量)相乘。因此,圖11中示出的過程對應(yīng)之前在實(shí)施例中示出的縮放因子g的計(jì)算。然而,所有這些計(jì)算也可在對數(shù)域或在任意其他域中執(zhí)行,并且可以以對數(shù)范圍中的加法或減法運(yùn)算替換相乘步驟1106。
進(jìn)一步參考圖12,以示出在一般智能間隙填充或帶寬擴(kuò)展方案中嵌入本發(fā)明。在步驟1200中,從輸入信號恢復(fù)譜包絡(luò)信息。例如,譜包絡(luò)信息可由圖13A的參數(shù)提取器1306生成以及可由圖13b的參數(shù)解碼器1324提供。然后,使用如在1202中示出的此譜包絡(luò)信息縮放目的范圍中的第二噪聲值和其他值。隨后,在帶寬擴(kuò)展或在智能間隙填充的上下文中具有減少數(shù)量的譜孔或沒有譜孔的情況下,可執(zhí)行任意其他的后置處理1204以獲取具有增加的帶寬的最終時(shí)域增強(qiáng)信號。
在此上下文中,概述出,特別地對于圖9的實(shí)施例,可應(yīng)用多個(gè)可選項(xiàng)。對于實(shí)施例,利用輸入信號的全部譜或至少利用輸入信號的在噪聲填充邊界頻率上的譜部分,執(zhí)行步驟902。此頻率確保在低于某頻率即低于此頻率時(shí)根本不執(zhí)行任何噪聲填充。
然后,不管任意特定源范圍/目標(biāo)范圍映射信息,全部輸入信號譜即完整的潛在源范圍被復(fù)制至源塊元緩沖區(qū)902,并隨后利用步驟904、步驟906以及步驟908進(jìn)行處理,然后從該源塊元緩沖區(qū)中選擇某些特別需要的源區(qū)域。
然而,在其他實(shí)施例中,基于包括在輸入信號中的即作為輔助信息與此音頻輸入信號關(guān)聯(lián)的源范圍/目標(biāo)范圍信息,僅將可以是輸入信號的僅部分的特別需要的源范圍復(fù)制至單個(gè)源塊元緩沖區(qū)或至多個(gè)個(gè)別源塊元緩沖區(qū)。根據(jù)此情況,第二可選項(xiàng),其中僅通過步驟902、904以及906處理特別需要的源范圍,與獨(dú)立于特定映射情況的總是通過步驟902、904以及906處理至少在噪聲填充邊界頻率上的全部源范圍的情況相比,可降低復(fù)雜性或至少降低內(nèi)存需求。
隨后,參照圖1a至圖5c,以示出在譜-時(shí)間轉(zhuǎn)換器118之前放置的頻率再生器116中的本發(fā)明的特定實(shí)施。
圖1a示出用于編碼音頻信號99的裝置。音頻信號99被輸入至用于將具有采樣率的音頻信號轉(zhuǎn)換為通過時(shí)間譜轉(zhuǎn)換器輸出的譜表示101的時(shí)間譜轉(zhuǎn)換器100。譜101被輸入至用于分析譜表示101的譜分析器102。譜分析器101用于確定待被以第一譜分辨率編碼的第一集合的第一譜部分103,以及待被以第二譜分辨率編碼的不同的第二集合的第二譜部分105。第二譜分辨率比第一譜分辨率小。將第二集合的第二譜部分105輸入至用于計(jì)算具有第二譜分辨率的譜包絡(luò)信息的參數(shù)計(jì)算器或參數(shù)化編碼器104。此外,提供譜域音頻編碼器106,用于生成具有第一譜分辨率的第一集合的第一譜部分的第一編碼表示107。此外,參數(shù)計(jì)算器/參數(shù)化編碼器104用于生成第二集合的第二譜部分的第二編碼表示109。將第一編碼表示107和第二編碼表示109輸入至比特流多工器或比特流形成器108,并且塊108最終輸出用于傳輸或在存儲設(shè)備上存儲的經(jīng)編碼的音頻信號。
通常,將以兩個(gè)第二譜部分如307a、307b包圍如圖3a的306的第一譜部分。此并非是HE AAC中的情況,其中核心編碼器頻率范圍是頻帶受限的。
圖1b示出匹配圖1a的編碼器的解碼器。將第一編碼表示107輸入至用于生成第一集合的第一譜部分的第一解碼表示的譜域音頻解碼器112,解碼表示具有第一譜分辨率。此外,將第二編碼表示109輸入至用于生成具有比第一譜分辨率低的第二譜分辨率的第二集合的第二譜部分的第二解碼表示的參數(shù)化解碼器114。
解碼器還包括用于使用第一譜部分再生具有第一譜分辨率的重構(gòu)的第二譜部分的頻率再生器116。頻率再生器116執(zhí)行塊元填充操作,即使用第一集合的第一譜部分的塊元或部分并將此第一集合的第一譜部分復(fù)制至具有第二譜部分的重構(gòu)范圍或重構(gòu)帶,并且通常執(zhí)行如通過由參數(shù)化解碼器114輸出(即通過使用關(guān)于第二集合的第二譜部分的信息)的經(jīng)解碼的第二表示指示的譜包絡(luò)成形或另一操作。將經(jīng)解碼的第一集合的第一譜部分以及如在線117上的頻率再生器116的輸出處指示的重構(gòu)的第二集合的譜部分輸入至用于將第一經(jīng)解碼的表示以及重構(gòu)的第二譜部分轉(zhuǎn)換為時(shí)間表示119的譜-時(shí)間轉(zhuǎn)換器118,時(shí)間表示具有某個(gè)高采樣率。
圖2b示出圖1a編碼器的實(shí)施。音頻輸入信號99被輸入至對應(yīng)于圖1a的時(shí)間譜轉(zhuǎn)換器100的分析濾波器組220。然后,在TNS塊222中執(zhí)行時(shí)間噪聲成形操作。因此,當(dāng)不施加時(shí)間噪聲成形/時(shí)間塊元成形操作時(shí),至對應(yīng)于圖2b的塊音調(diào)掩蔽(tonal mask)226的圖1a的譜分析器102的輸入可以是全部譜值,或當(dāng)施加如圖2b的塊222所示出的TNS操作時(shí),至對應(yīng)于圖2b的塊音調(diào)掩蔽226的圖1a的譜分析器102的輸入可以是譜殘余值。對于兩聲道信號或多聲道信號,可額外地執(zhí)行聯(lián)合聲道編碼228,從而圖1a的譜域編碼器106可包括聯(lián)合聲道編碼塊228。此外,提供用于執(zhí)行無損數(shù)據(jù)壓縮的熵編碼器232,其也是圖1a的譜域編碼器106的部分。
譜分析器/音調(diào)掩蔽226將TNS塊222的輸出分離為對應(yīng)于圖1a的第一集合的第一譜部分103的核心帶和音調(diào)分量以及對應(yīng)于圖1a的第二集合的第二譜部分105的殘余分量。示出為IGF參數(shù)提取編碼的塊224對應(yīng)圖1a的參數(shù)化編碼器104以及比特流多工器230對應(yīng)圖1a的比特流多工器108。
優(yōu)選地,分析濾波器組222被實(shí)施為MDCT(改進(jìn)的離散余弦變換濾波器組),且MDCT被用于利用充當(dāng)頻率分析工具的改進(jìn)的離散余弦變換將信號99變換至?xí)r間-頻率域。
譜分析器226優(yōu)選地應(yīng)用音調(diào)掩蔽。使用此音調(diào)掩蔽估計(jì)階段以從信號中的類噪聲分量中分離音調(diào)分量。此允許核心編碼器228利用心理聲學(xué)模塊對所有音調(diào)分量進(jìn)行編碼??梢砸远喾N不同方式實(shí)施音調(diào)掩蔽估計(jì)階段,并優(yōu)選地以其功能類似于在正弦中使用的正弦曲線軌跡估計(jì)階段以及用于語音/音頻編碼的噪聲建模[8,9]或在[10]中描述的基于HILN模型的音頻編碼器來實(shí)施音調(diào)掩蔽估計(jì)階段。優(yōu)選地,使用無需維持生-死軌跡的易于實(shí)施的實(shí)施方式,但也可使用任意其他音調(diào)或噪聲檢測器。
IGF模塊計(jì)算在源區(qū)域和目標(biāo)區(qū)域之間存在的相似性。目標(biāo)區(qū)域?qū)⒂蓙碜栽磪^(qū)域的譜代表。使用互相關(guān)方法完成源區(qū)域和目標(biāo)區(qū)域之間的相似性的測量。目標(biāo)區(qū)域分裂為nTar個(gè)非重疊頻率塊元。對目標(biāo)區(qū)域中的每個(gè)塊元,從固定起始頻率創(chuàng)建nSrc個(gè)源塊元。這些源塊元以介于0和1之間的因子重疊,其中0意味著0%重疊以及1意味著100%重疊。這些源塊元中的每個(gè)以各種滯后與目標(biāo)塊元相關(guān),以找到與目標(biāo)塊元最匹配的源塊元。最匹配塊元編號存儲在tileNum[idx_tar]中,其與目標(biāo)最相關(guān)所借以的滯后存儲在xcorr_log[idx_tar][idx_src]中,以及相關(guān)性的符號存儲在xcorr_sign[idx_tar][idx_src]中。在相關(guān)性是高度負(fù)的情況中,在解碼器的塊元填充過程之前,源塊元需要與-1相乘。由于使用音調(diào)掩蔽保存音調(diào)分量,IGF模塊也考慮不在譜中重寫音調(diào)分量。逐帶(band-wise)能量參數(shù)被用于存儲目標(biāo)區(qū)域的能量,使得我們能夠精確地重構(gòu)譜。
此方法優(yōu)于傳統(tǒng)的SBR[1],因?yàn)槎嘁粽{(diào)信號的諧波網(wǎng)格(harmonic grid)由核心編碼器保存,而僅正弦曲線之間的間隙被以來自源區(qū)域的最匹配“成形噪聲”填充。此系統(tǒng)相比于ASR(精確譜替換)[2-4]的另一優(yōu)點(diǎn)是缺少了在解碼器處創(chuàng)建信號的重要部分的信號合成階段。相反,核心編碼器接手此任務(wù),能夠?qū)崿F(xiàn)譜的重要分量的保存。所提出的系統(tǒng)的另一優(yōu)點(diǎn)是特征提供的連續(xù)縮放能力。對每個(gè)塊元僅使用tilnNum[idx_tar]和xcorr_lag=0被稱為總粒度匹配(gross granularity matching)并且可用于低比特率,而對每個(gè)塊元使用變量xcorr_lag使得我們能夠更好地匹配目標(biāo)譜和源譜。
此外,提出塊元選擇穩(wěn)定化技術(shù),其移除頻率域人為現(xiàn)象如顫音和音樂噪聲。
在立體聲聲道對的情況中,施加額外的聯(lián)合立體聲處理。這是必要的,因?yàn)閷τ谀衬康姆秶?,信號可以是高度相關(guān)的平移聲源。假如為此特定區(qū)域所選的源區(qū)域并非密切相關(guān)的,即使能量與目的區(qū)域匹配,空間影像會由于不相關(guān)的源區(qū)域而受到影響。編碼器分析每個(gè)目的區(qū)域能量帶,通常執(zhí)行譜值的互相關(guān),并且如果超出某個(gè)閾值,為此能量帶設(shè)置聯(lián)合旗標(biāo)。在解碼器中,如果沒有設(shè)置聯(lián)合立體聲旗標(biāo),單獨(dú)地處理左聲道和右聲道能量帶。在設(shè)置了聯(lián)合立體聲旗標(biāo)的情況中,在聯(lián)合立體聲域中執(zhí)行能量以及修補(bǔ)。用信號通知用于IGF區(qū)域的聯(lián)合立體聲信息,類似用于核心編碼的聯(lián)合立體聲信息,其在預(yù)測的方向是從降混到殘余時(shí)包括指示預(yù)測情況的旗標(biāo)或反之亦然。
可從在L/R域中的所傳輸?shù)哪芰坑?jì)算能量。
midNrg[k]=leftNrg[k]+rightNrg[k];
sideNrg[k]=leftNrg[k]-rightNrg[k];
k是變換域中頻率索引。
另一解決方案是對于聯(lián)合立體聲是活躍的頻帶在聯(lián)合立體聲域中直接計(jì)算并傳輸能量,所以在解碼器側(cè)不需要額外的能量變換。
總是根據(jù)中間/側(cè)邊-矩陣(Mid/Side-Matrix)創(chuàng)建源塊元:
midTile[k]=0.5·(leftTile[k]+rightTile[k])
sideTile[k]=0.5·(leftTile[k]-rightTile[k])
能量調(diào)節(jié):
midTile[k]=midTile[k]*midNrg[k];
sideTile[k]=sideTile[k]*sideNrg[k];
聯(lián)合立體聲->LR變換:
如果沒有額外的預(yù)測參數(shù)被編碼:
leftTile[k]=midTile[k]+sideTile[k]
rightTile[k]=midTile[k]-sideTile[k]
如果額外的預(yù)測參數(shù)被編碼并且如果信號方向是從中間到側(cè)邊:
sideTile[k]=sideTile[k]-predictionCoeff·midTile[k]
leftTile[k]=midTile[k]+sideTiie[k]
rightTile[k]=midTile[k]-sideTile[k]
如果信號方向是從側(cè)邊到中間:
midTilel[k]=midTile[k]-predictionCoef·sideTile[k]
leftTile[k]=midTilel[k]-sideTile[k]
rightTile[k]=midTilel[k]+sideTile[k]
此處理確保,從用于再生高度相關(guān)的目的區(qū)域和平移目的區(qū)域的塊元,即使源區(qū)域是不相關(guān)的,產(chǎn)生的左聲道和右聲道仍然代表相關(guān)且平移的聲源,為此區(qū)域保存立體聲影像。
換言之,在比特流中,傳輸指示是否應(yīng)該使用作為用于一般聯(lián)合立體聲編碼的示例的L/R或M/S的聯(lián)合立體聲旗標(biāo)。在解碼器中,首先,如由用于核心帶的聯(lián)合立體聲旗標(biāo)所指示的,解碼核心信號。其次,以L/R和M/S表示存儲核心信號。對于IGF塊元填充,選擇源塊元表示以適應(yīng)目標(biāo)塊元表示,如由用于IGF帶的聯(lián)合立體聲信息所指示。
時(shí)間噪聲成形(TNS)是標(biāo)準(zhǔn)技術(shù),并且是ACC的部分[11-13]。TNS可以被視為是感知編碼器的基本方案的擴(kuò)展,在濾波器組和量化階段之間插入可選處理步驟。TNS模塊的主要任務(wù)是在類瞬態(tài)信號的時(shí)間掩蔽區(qū)域中隱藏所產(chǎn)生的量化噪聲,并因此導(dǎo)致更有效的編碼方案。首先,TNS在變換域例如MDCT中使用“正向預(yù)測”計(jì)算預(yù)測系數(shù)的集合。這些系數(shù)然后被用于使信號的時(shí)間包絡(luò)變平。由于量化影響經(jīng)TNS濾波的譜,量化噪聲也是暫時(shí)平直的。通過在解碼器側(cè)應(yīng)用逆TNS濾波,根據(jù)TNS濾波器的時(shí)間包絡(luò)將量化噪聲成形,并且因此量化噪聲通過瞬態(tài)而得到掩蔽。
IGF基于MDCT表示。為了有效的編碼,優(yōu)選地需要使用大約20ms的長塊。如果在此長塊中的信號包含瞬態(tài),由于塊元填充,在IGF譜帶中出現(xiàn)可聽到的前回聲和后回聲。圖7c顯示由于IGF的在瞬態(tài)開始之前的典型的前回聲效應(yīng)。在左側(cè)顯示原始信號的譜圖,并在右側(cè)顯示未經(jīng)TNS濾波的帶寬擴(kuò)展的信號的譜圖。
通過在IGF的上下文中使用TNS降低此前回聲效應(yīng)。在此,由于對TNS殘余信號執(zhí)行解碼器中的譜再生,TNS被用作時(shí)間塊元成形(TTS)工具。如往常一樣在編碼器側(cè)使用全部譜計(jì)算并應(yīng)用所需要的TTS預(yù)測系數(shù)。TNS/TTS起始及停止頻率不受IGF工具的IGF起始頻率fIGFstare的影響。相比傳統(tǒng)的TNS,TTS停止頻率增長至比fIGFstare高的IGF工具的停止頻率。在解碼器側(cè),將TNS/TTS系數(shù)再次應(yīng)用于全部譜,即核心譜加上再生譜加上來自音調(diào)映射的音調(diào)分量(見圖7e)。對于形成再生譜的時(shí)間包絡(luò)以再次匹配原始信號的包絡(luò),TTS的應(yīng)用是必要的。因此降低所顯示的前回聲。此外,仍然如往常一樣利用TNS在fIGFstare之下的信號中成形量化噪聲。
在傳統(tǒng)解碼器中,通過引入離差,音頻信號上的譜修補(bǔ)破壞在修補(bǔ)邊界處的譜相關(guān)性,并因此損害音頻信號的時(shí)間包絡(luò)。因此,對殘余信號執(zhí)行IGF塊元填充的另一好處是,在成形濾波器的應(yīng)用之后,塊元邊界是無縫相關(guān)的,導(dǎo)致信號的更可靠的時(shí)間再現(xiàn)。
在所發(fā)明的編碼器中,除了音調(diào)分量之外,已經(jīng)經(jīng)過TNS/TTS濾波、音調(diào)掩蔽處理以及IGF參數(shù)估計(jì)的譜毫無在IGF起始頻率之上的任意信號。此時(shí),通過使用算術(shù)編碼和預(yù)測編碼的原理的核心編碼器編碼此稀疏的譜。這些經(jīng)編碼的分量與信號比特一起形成音頻的比特流。
圖2a示出對應(yīng)的解碼器實(shí)施。將對應(yīng)于經(jīng)編碼的音頻信號的圖2a中的比特流輸入至(關(guān)于圖1b)與塊112和114連接的解多工器/解碼器。比特流解多工器將輸入的音頻信號分離為圖1b的第一編碼表示107和圖1b的第二編碼表示109。將具有第一集合的第一譜部分的第一編碼表示輸入至與圖1b的譜域解碼器112對應(yīng)的聯(lián)合聲道解碼塊204。將第二編碼表示輸入至未在圖2a中示出的參數(shù)化解碼器114,并隨后輸入至與圖1b的頻率再生器116對應(yīng)的IGF塊202。通過線203將頻率再生所需的第一集合的第一譜部分輸入至IGF塊202。此外,在聯(lián)合聲道解碼204之后,在音調(diào)掩蔽塊206中應(yīng)用特定核心解碼,以使得音調(diào)掩蔽206的輸出對應(yīng)譜域解碼器112的輸出。然后,執(zhí)行由組合器208進(jìn)行的組合即幀建立,其中組合器208的輸出此時(shí)具有全部范圍譜,但仍然處于經(jīng)TNS/TTS濾波的域中。然后,在塊210中,使用通過線109提供的TNS/TTS濾波器信息執(zhí)行逆TNS/TTS操作,即TTS輔助信息優(yōu)選地包含在由譜域編碼器106(例如可以是簡單AAC或USAC核心編碼器)生成的第一編碼表示中,或者也可以包含在第二編碼表示中。在塊210的輸出處,提供直至最大頻率的完整譜,其是通過原始輸入信號的采樣率定義的全部范圍頻率。然后,在合成濾波器組212中執(zhí)行譜/時(shí)間轉(zhuǎn)換,以最終獲取音頻輸出信號。
圖3a示出譜的示意性表示。在圖3a的所示示例中,在有七個(gè)縮放因子帶SCB1至SCB7的縮放因子帶SCB中細(xì)分譜。縮放因子帶可以是以AAC標(biāo)準(zhǔn)定義的AAC縮放因子帶并且對較上頻率具有增大的帶寬,如圖3a示意地示出。優(yōu)選地,不從譜的最開始即在低頻處執(zhí)行智能間隙填充,而是在309示出的IGF起始頻率處開始IGF操作。因此,核心頻帶從最低頻率擴(kuò)展至IGF起始頻率。在IGF起始頻率之上,應(yīng)用譜分析以從由第二集合的第二譜部分代表的低分辨率分量中分離高分辨率譜分量304、305、306以及307(第一集合的第一譜部分)。圖3a示出被示例性輸入至譜域編碼器106或聯(lián)合聲道編碼器228的譜,即核心編碼器在全部范圍內(nèi)操作,但是編碼大量的零譜值,即這些零譜值被量化至零或在量化前或量化后被設(shè)置為零。無論如何,核心編碼器在全部范圍內(nèi)操作,即好像譜將如所示出的那樣,即核心解碼器不必意識到具有較低的譜分辨率的第二集合的第二譜部分的任意智能間隙填充或編碼。
優(yōu)選地,通過譜線如MDCT線的逐行編碼(line-wise coding)定義高分辨率,而通過例如每縮放因子帶僅計(jì)算單個(gè)譜值來定義第二分辨率或低分辨率,其中縮放因子帶覆蓋多條頻率線。因此,第二低分辨率關(guān)于其譜分辨率比由通常通過核心編碼器如AAC或USAC核心編碼器應(yīng)用的逐行編碼定義的第一或高分辨率低的多。
關(guān)于縮放因子或能量計(jì)算,圖3b中示出該情況。由于編碼器是核心編碼器的事實(shí),以及由于在每個(gè)頻帶中可以但不必存在第一集合的譜部分中的分量的事實(shí),核心編碼器不僅在IGF起始頻率309以下的核心范圍內(nèi)也在IGF起始頻率以上直至最大頻率fIGFstop(其小于或等于采樣頻率的一半即fs/2)計(jì)算用于每個(gè)頻帶的縮放因子。因此,圖3a的經(jīng)編碼的音調(diào)部分302、304、305、306以及307,以及在此實(shí)施例中與縮放因子SCB1至SCB7一起對應(yīng)高分辨率譜數(shù)據(jù)。低分辨率譜數(shù)據(jù)從IGF起始頻率開始計(jì)算,并對應(yīng)與縮放因子SF4至SF7一起傳輸?shù)哪芰啃畔⒅礒1、E2、E3以及E4。
特別地,當(dāng)核心編碼器在低比特率條件下時(shí),可額外施加在核心帶(即頻率比IGF起始頻率低,即在縮放因子帶SCB1至SCB3中)中的額外噪聲填充操作。在噪聲填充中,存在已被量化為零的多條相鄰譜線。在解碼器側(cè),再合成這些被量化為零的譜值,并且使用噪聲填充能量如在圖3b中的308處所示出的NF2,這些再合成的譜值的幅度被調(diào)節(jié)??梢砸越^對項(xiàng)或相對項(xiàng)(特別是關(guān)于如在USAC中的縮放因子)給定的噪聲填充能量對應(yīng)于被量化為零的譜值的集合的能量。這些噪聲填充譜線也可被視為第三集合的第三頻譜部分,使用來自源范圍和能量信息E1、E2、E3以及E4的譜值,無需依賴于使用用于重構(gòu)頻率塊元的來自其他頻率的頻率塊元的頻率再生的任意IGF操作,通過簡單噪聲填充合成再生該第三集合的第三頻譜部分。
優(yōu)選地,頻帶(為其計(jì)算了能量信息)與縮放因子帶相一致。在其他實(shí)施例中,應(yīng)用能量信息值成組,以使得例如對于縮放因子帶4和5僅傳輸單個(gè)能量信息值,但即使在此實(shí)施例中,成組的重構(gòu)帶的邊界與縮放因子帶的邊界相一致。如果應(yīng)用不同的帶分離,則可應(yīng)用某些再計(jì)算或同步計(jì)算,并且根據(jù)某實(shí)施這是合理的。
優(yōu)選地,圖1a的譜域編碼器106是如圖4a中所示出的心理聲學(xué)驅(qū)動編碼器。通常地,如在MPEG2/4AAC標(biāo)準(zhǔn)或MPEG1/2,Layer 3標(biāo)準(zhǔn)中所示出,在已被傳輸至譜范圍(圖4a中的401)之后,待被編碼的音頻信號被轉(zhuǎn)發(fā)至縮放因子計(jì)算器400??s放因子計(jì)算器被額外接收待被量化的音頻信號或如以MPEG1/2Layer 3或MPEG AAC標(biāo)準(zhǔn)接收音頻信號的復(fù)雜譜表示的心理聲學(xué)模型控制。心理聲學(xué)模型為每個(gè)縮放因子帶計(jì)算代表心理聲學(xué)閾值的縮放因子。此外,隨后通過已知的內(nèi)部和外部迭代循環(huán)的協(xié)作或通過任意其他適合的編碼過程調(diào)整縮放因子,從而滿足某些比特流條件。然后,一方面待被量化的譜值,另一方面計(jì)算的縮放因子,被輸入至量化器處理器404。在簡單音頻編碼器操作中,通過縮放因子對待被量化的譜值進(jìn)行加權(quán),并隨后將加權(quán)的譜值輸入至通常具有對較上幅度范圍的壓縮功能的固定量化器。然后,在量化器處理器的輸出處,的確存在隨后將被轉(zhuǎn)發(fā)至熵編碼器的量化索引,熵編碼器通常對于用于相鄰頻率值的零量化索引集合具有特定且非常有效的編碼或如在本技術(shù)領(lǐng)域也被稱為零值的“運(yùn)行(run)”。
然而,在圖1a的音頻編碼器中,量化器處理器通常從譜分析器接收關(guān)于第二譜部分的信息。因此,量化器處理器404確保在量化器處理器404的輸出中,由譜分析器102識別的第二譜部分為零或具有被編碼器或解碼器認(rèn)可為零表示的表示,該零表示可被非常有效地編碼,特別是在譜中存在零值的“運(yùn)行”時(shí)。
圖4b示出量化器處理器的實(shí)施??蓪DCT譜值輸入至設(shè)置為零塊410。然后,在執(zhí)行通過塊421中的縮放因子的加權(quán)之前,第二譜部分已被設(shè)為零。在額外實(shí)施中,不提供塊410,但是在加權(quán)塊421之后在塊418中執(zhí)行設(shè)置為零的協(xié)作。在又一實(shí)施中,也可在量化器塊420中的量化之后在設(shè)置為零塊422中執(zhí)行設(shè)置為零的操作。在此實(shí)施中,不呈現(xiàn)塊410和塊418。一般地,根據(jù)特定的實(shí)施提供塊410、418和422中的至少一個(gè)。
然后,在塊422的輸出處,對應(yīng)于圖3a中所示出的事物,獲取量化的譜。隨后,將此量化的譜輸入至熵編碼器,如圖2b中的232,其可以是Huffman編碼器或例如以USAC標(biāo)準(zhǔn)定義的算數(shù)編碼器。
相互替代或并行地提供的設(shè)置為零塊410、418以及422受譜分析器424的控制。優(yōu)選地,譜分析器包括已知音調(diào)檢測器的任意實(shí)施或包括可操作地用于將譜分離為具有高分辨率的待被編碼的分量和具有低分辨率的待被編碼的分量的任意不同種類的檢測器。根據(jù)關(guān)于對不同譜部分的分辨率需求的譜信息或關(guān)聯(lián)元數(shù)據(jù),在譜分析器中實(shí)施的其他此種算法可以是聲音激活檢測器、噪音檢測器、語音檢測器或任意其他檢測器決策。
圖5a示出圖1a的時(shí)間譜轉(zhuǎn)換器100的優(yōu)選實(shí)施,例如實(shí)施在AAC或USAC中。時(shí)間譜轉(zhuǎn)換器100包括由瞬態(tài)檢測器504控制的加窗器502。當(dāng)瞬態(tài)檢測器504檢測到瞬態(tài)時(shí),則從長窗口至短窗口的切換被信號通知給加窗器。然后,加窗器502計(jì)算用于重疊塊的窗口幀,其中每個(gè)窗口幀通常具有2N個(gè)值如2048個(gè)值。然后在塊變換器506中執(zhí)行變換,并且此塊變換器通常額外提供小數(shù)式采樣(decimation),以執(zhí)行組合的小數(shù)式采樣/變換從而獲取具有N個(gè)值如MDCT譜值的譜幀。因此,對于長窗口操作,在塊506的輸入處的幀包括2N個(gè)值如2048個(gè)值,并且譜幀然后具有1024個(gè)值。然而,然后執(zhí)行至短塊的切換,當(dāng)執(zhí)行八個(gè)短塊時(shí),其中每個(gè)短塊相比于長窗口具有1/8窗口的時(shí)域值,以及每個(gè)譜塊相比于長塊具有1/8的譜值。因此,當(dāng)此小數(shù)式采樣與加窗器的50%的重疊操作相組合時(shí),譜是時(shí)域音頻信號99的臨界采樣版本。
隨后,參照圖5b,圖5b示出圖1b的頻率再生器116和譜-時(shí)間轉(zhuǎn)換器118或圖2a的塊208和212的組合操作的特定實(shí)施。在圖5b中,考慮特定的重構(gòu)帶如圖3a的縮放因子帶6。此重構(gòu)帶中的第一譜部分即圖3a的第一譜部分306被輸入至幀建立器/調(diào)節(jié)器塊510。此外,也將用于縮放因子帶6的重構(gòu)的第二譜部分輸入至幀建立器/調(diào)節(jié)器塊510。此外,用于縮放因子帶6的能量信息如圖3b的E3也被輸入至塊510。已經(jīng)使用源范圍通過頻率塊元填充生成重構(gòu)帶中的重構(gòu)的第二譜部分,并且重構(gòu)帶然后對應(yīng)目標(biāo)范圍。此時(shí),執(zhí)行幀的能量調(diào)節(jié)以最終獲取具有(如,例如在圖2a的組合器208的輸出處獲取到的)N個(gè)值的完全重構(gòu)的幀。然后,在塊512中,執(zhí)行逆塊變換/插補(bǔ)以獲取用于例如在塊512的輸入處的124個(gè)譜值的248個(gè)時(shí)域值。然后,在再次被作為輔助信息傳輸在經(jīng)編碼的音頻信號中的長窗口/短窗口指示所控制的塊514中執(zhí)行合成加窗操作。然后,在塊516中,執(zhí)行對在先時(shí)間幀的重疊/相加操作。優(yōu)選地,MDCT應(yīng)用50%的重疊,以使得對于2N個(gè)值中的每個(gè)新的時(shí)間幀,最終輸出N個(gè)時(shí)域值。特別優(yōu)選50%的重疊,因?yàn)槿绱耸聦?shí):由于塊516中的重疊/相加操作,提供了從一個(gè)幀到下一個(gè)幀的臨界采樣以及連續(xù)交叉。
如圖3a中301所示,不僅在IGF起始頻率之下也可在IGF起始頻率之上,如對于與圖3a的縮放因子帶6一致的所考慮的重構(gòu)帶,可額外施加噪聲填充操作。然后,也可將噪聲填充譜值輸入至幀建立器/調(diào)節(jié)器510,并可在此塊中施加噪聲填充譜值的調(diào)節(jié)或噪聲填充譜值可在被輸入至幀建立器/調(diào)節(jié)器510之前已使用噪聲填充能量而被調(diào)節(jié)。
優(yōu)選地,可在完整譜中施加使用來自其他部分的譜值的IGF操作即頻率塊元填充操作。因此,不僅可在IGF起始頻率之上的高頻帶中,還可以在低頻帶中施加譜塊元填充操作。此外,不僅可在IGF起始頻率之下,還可在IGF起始頻率之上施加不經(jīng)頻率塊元填充的噪聲填充。然而,已經(jīng)發(fā)現(xiàn),當(dāng)噪聲填充操作受限于在IGF起始頻率之下的頻率范圍時(shí),以及當(dāng)頻率塊元填充操作受限于在圖3a中所示的IGF起始頻率之上的頻率范圍時(shí),可實(shí)現(xiàn)高質(zhì)量和高效率的音頻編碼。
優(yōu)選地,目標(biāo)塊元(TT,target tiles)(具有大于IGF起始頻率的頻率)受到全速率編碼器的縮放因子帶邊界的約束。源塊元(ST,source tiles)(從其取得信息,即用于低于IGF起始頻率的頻率)不受縮放因子帶邊界的約束。ST的尺寸應(yīng)對應(yīng)關(guān)聯(lián)TT的尺寸。此使用下面的示例示出。TT[0]具有十個(gè)MDCT頻格(bin)的長度。此正好對應(yīng)兩個(gè)后續(xù)SCB的長度(如4+6)。然后,與TT[0]相關(guān)的所有可能ST也具有十個(gè)頻格的長度。與TT[0]相鄰的第二目標(biāo)塊元TT[1]具有15個(gè)頻格I的長度(SCB具有7+8的長度)。然后,為此ST具有15個(gè)頻格的長度而不是如對于TT[0]的10個(gè)頻格的長度。
如果發(fā)生以目標(biāo)塊元長度無法找到對于的ST的TT的情況(當(dāng)例如TT的長度大于可用源范圍時(shí)),則不計(jì)算相關(guān)性,并且多次復(fù)制源范圍至此TT(依次完成復(fù)制,以使得用于第二次復(fù)制的最低頻的頻率線-以頻率-直接跟隨用于第一次復(fù)制的最高頻的頻率線),直到目標(biāo)塊元TT被完全填充。
隨后,參照圖5c,圖5c示出圖1b的頻率再生器116或者圖2a的IGF塊202的另一優(yōu)選實(shí)施例。塊522是不僅接收目標(biāo)帶ID且額外接收源帶ID的頻率塊元生成器。示例性地,在編碼器側(cè)已經(jīng)確定,圖3a的縮放因子帶3非常適合用于對縮放因子帶7進(jìn)行重構(gòu)。因此,源帶ID可以是2,以及目標(biāo)帶ID可以是7。基于此信息,頻率塊元生成器522施加復(fù)制或諧波塊元填充操作或任意其他塊元填充操作以生成譜分量的未經(jīng)處理的第二部分523。譜分量的未經(jīng)處理的第二部分具有與包含在第一集合的第一譜部分中的頻率分辨率相同的頻率分辨率。
然后,將重構(gòu)帶的第一譜部分如圖3a的307輸入至幀建立器524,并將未經(jīng)處理的第二部分523輸入至幀建立器524。然后,使用由增益因子計(jì)算器528計(jì)算的用于重構(gòu)帶的增益因子,通過調(diào)節(jié)器526調(diào)節(jié)重構(gòu)的幀。然而,重要的是,幀中的第一譜部分不受調(diào)節(jié)器526的影響,而僅用于重構(gòu)幀的未經(jīng)處理的第二部分受調(diào)節(jié)器526的影響。鑒于此,增益因子計(jì)算器528分析源帶或未經(jīng)處理的第二部分523,并額外分析重構(gòu)帶中的第一譜部分,以最終找到合適的增益因子527,以使得在考慮縮放因子帶7時(shí)由調(diào)節(jié)器526輸出的經(jīng)調(diào)節(jié)的幀的能量具有能量E4。
在此上下文中,與HE-AAC相比,評價(jià)本發(fā)明的高頻重構(gòu)準(zhǔn)確性是非常重要的。關(guān)于圖3a中的縮放因子帶7解釋此。假設(shè)如圖13a所示的在先技術(shù)編碼器將檢測作為“缺失的諧波(missing harmonics)”的具有高分辨率的待被編碼的譜部分307。然后,此譜分量的能量將與用于重構(gòu)帶例如縮放因子帶7的譜包絡(luò)信息一起被傳輸至解碼器。然后,解碼器將重建缺失的諧波。然而,缺失的諧波307將被圖13b的在先技術(shù)解碼器重構(gòu)時(shí)所處的譜值將處于在由重構(gòu)頻率390指示的頻率處的頻帶7的中間。因此,本發(fā)明避免將會由圖13d的在先技術(shù)解碼器引入的頻率誤差391。
在實(shí)施中,譜分析器也被實(shí)施以計(jì)算第一譜部分和第二譜部分之間的相似性,并基于計(jì)算的相似性為重構(gòu)范圍中第二譜部分確定與第二譜部分盡可能匹配的第一譜部分。然后,在此可變源范圍/目的范圍的實(shí)施中,參數(shù)化編碼器額外地把為每個(gè)目的范圍指示匹配源范圍的匹配信息引入至第二編碼表示中。在解碼器側(cè),基于源帶ID和目標(biāo)帶ID,示出未經(jīng)處理的第二部分523的生成的圖5c中的頻率塊元生成器522然后將使用此信息。
此外,如圖3a中所示,譜分析器用于分析譜表示上達(dá)至最大分析頻率,其僅少量地低于采樣頻率的一半且優(yōu)選地為采樣頻率的至少四分之一或通常更高。
如所示,編碼器未降采樣(downsample)地操作,且解碼器未升采樣(upsample)地操作。換言之,譜域音頻編碼器用于生成具有由原始輸入音頻信號的采樣率定義的奈奎斯特頻率(Nyquist frequency)的譜表示。
此外,如圖3a所示,譜分析器用于分析以間隙填充起始頻率為起始并以由包含在譜表示中的最大頻率代表的最大頻率為終止的譜表示,其中從最小頻率擴(kuò)展至間隙填充起始頻率的譜部分屬于第一集合的譜部分,并且其中具有在間隙填充頻率之上的頻率值的其他譜部分如304、305、306以及307額外地包括在第一集合的第一譜部分中。
如概述的,配置譜域音頻解碼器112,以使得由第一解碼表示中的譜值代表的最大頻率等于包含在具有采樣率的時(shí)間表示中的最大頻率,其中用于第一集合的第一譜部分中的最大頻率的譜值為零或與零不同。無論如何,對于在第一集合的譜分量中的此最大頻率,存在用于縮放因子帶的縮放因子,不管此縮放因子帶中的所有譜值是否被設(shè)置為零,生成并傳輸該縮放因子,如圖3a和圖3b的上下文中所討論。
因此,本發(fā)明關(guān)于其他參數(shù)化技術(shù)對于增加壓縮效率有益的,例如噪聲替換以及噪聲填充(這些技術(shù)唯一地用于類噪聲本地信號內(nèi)容的有效表示),本發(fā)明允許音調(diào)分量的準(zhǔn)確頻率再現(xiàn)。至今,沒有現(xiàn)有技術(shù)通過譜間隙填充且不對低頻帶(LF)和高頻帶(HF)中的固定優(yōu)先劃分進(jìn)行限制來提出任意信號內(nèi)容的有效參數(shù)化表示。
本發(fā)明的系統(tǒng)的實(shí)施例改進(jìn)現(xiàn)有技術(shù)方法,并因此提供高壓縮效率,沒有或僅有小的感知干擾以及甚至用于低比特率的全音頻帶寬。
一般系統(tǒng)包括
·全頻帶核心編碼
·智能間隙填充(塊元填充或噪聲填充)
·通過音調(diào)掩蔽選擇的核心中的稀疏音調(diào)部分
·用于全頻帶的聯(lián)合立體聲對編碼,包括塊元填充
·塊元上的TNS
·在IGF范圍中的譜增白
朝向更有效的系統(tǒng)的第一步驟是移除對于將譜數(shù)據(jù)變換至與核心編碼器中的變換域不同的第二變換域的需求。由于音頻編解碼器的大多數(shù)(例如AAC)使用MDCT作為基礎(chǔ)變換,在MDCT域中執(zhí)行BWE是有用的。對于BWE系統(tǒng)的第二需求是對保存音調(diào)網(wǎng)格的需要,借此甚至保存HF音調(diào)分量且經(jīng)編碼的音頻的質(zhì)量因此優(yōu)于現(xiàn)有系統(tǒng)。為了考慮上面提及的兩種需求,提出稱為智能間隙填充(IGF)的系統(tǒng)。圖2b顯示在編碼器側(cè)的所提出的系統(tǒng)的框圖,以及圖2a顯示在解碼器側(cè)的系統(tǒng)。
隨后,關(guān)于圖13A和圖13B描述后置處理架構(gòu),以示出本發(fā)明也可在此后置處理實(shí)施例中的高頻重構(gòu)器1330中實(shí)施。
圖13a示出例如在高效先進(jìn)音頻編碼(HE-AAC)中使用的用于帶寬擴(kuò)展技術(shù)的音頻編碼器的框圖。在線1300處的音頻信號被輸入至包括低通1302以及高通1304的濾波器系統(tǒng)。通過高通濾波器1304輸出的信號被輸入至參數(shù)提取器/編碼器1306。參數(shù)提取器/編碼器1306用于計(jì)算和編碼諸如譜包絡(luò)參數(shù)、噪聲附加參數(shù)、缺失的諧波參數(shù)或逆濾波參數(shù)的參數(shù)。這些提取的參數(shù)被輸入至比特流多工器1308。低通輸出信號被輸入至通常包括降采樣器1310和核心編碼器1312的功能的處理器。低通1302將待被編碼的帶寬限制為比在線1300上的原始輸入音頻信號中出現(xiàn)的顯著地小的帶寬。由于出現(xiàn)在核心編碼器中的全部功能僅需要對具有減小的帶寬的信號進(jìn)行操作的事實(shí),此提供顯著編碼增益。例如,當(dāng)線1300上的音頻信號的帶寬是20kHz時(shí),并且當(dāng)?shù)屯V波器1302示例性地具有4kHz的帶寬時(shí),為了滿足采樣定理,在理論上,降采樣器之后的信號具有8kHz的采樣頻率已足以,這實(shí)質(zhì)減小了音頻信號1300所需的必須為至少40kHz的采樣率。
圖13b示出對應(yīng)的帶寬擴(kuò)展解碼器的框圖。解碼器包括比特流多工器1320。比特流解多工器1320提取用于核心解碼器1322的輸入信號以及用于參數(shù)解碼器1324的輸入信號。在上面的示例中,核心解碼器輸出信號具有8kHz的采樣率,并且因此具有4kHz的帶寬,而為了完整的帶寬重構(gòu),高頻重構(gòu)器1330的輸出信號必須位于需要至少40kHz的采樣率的20kHz。為了使其成為可能,需要具有升采樣器1325和濾波器組1326的功能的解碼器處理器。然后,高頻重構(gòu)器1330接收由濾波器組1326輸出的經(jīng)頻率分析的低頻信號,并使用高頻帶的參數(shù)化表示對由圖13a的高通濾波器1304定義的頻率范圍進(jìn)行重構(gòu)。高頻重構(gòu)器1330具有多個(gè)功能例如在低頻范圍中使用源范圍的較上頻率范圍的再生、譜包絡(luò)調(diào)節(jié)、噪聲附加功能以及用于在較上頻率范圍中引入缺失的諧波的功能,以及當(dāng)應(yīng)用并計(jì)算于圖13a的編碼器中時(shí)的為了解釋較高頻范圍通常并非是像較低頻范圍那樣的音調(diào)的事實(shí)的逆濾波操作。在HE-AAC中,缺失的諧波在解碼器側(cè)被再合成,并正好被放置在重構(gòu)帶的中間。因此,在某個(gè)重構(gòu)帶中已確定的所有缺失的諧波線并未被放置于它們在原始信號中所位于的頻率值處。相反,那些缺失的諧波線被放置在某個(gè)頻帶的中心的頻率處。因此,當(dāng)原始信號中的缺失的諧波線被放置為非常接近原始信號中的重構(gòu)帶邊界時(shí),通過將重構(gòu)的信號中的此缺失的諧波線放置在頻帶的中心處而引入的頻率中的誤差接近單個(gè)重構(gòu)帶(為此生成并傳輸參數(shù))的50%。
此外,即使在譜域中操作典型的音頻核心編碼器,核心解碼器仍然生成隨后被濾波器組1326功能再次轉(zhuǎn)換為譜域的時(shí)域信號。由于首先從譜域變換至頻域并再次變換至通常不同的頻域的串聯(lián)處理,此引入額外處理延遲,可引入人工現(xiàn)象,并且,當(dāng)然,此也需要大量的計(jì)算復(fù)雜度并因此需要電力,當(dāng)在移動裝置如手機(jī)、平板電腦或筆記本電腦等中應(yīng)用帶寬擴(kuò)展技術(shù)時(shí)這尤其是問題。
雖然在用于編碼或解碼的裝置的上下文中描述了一些方面,顯然,這些方面也代表對應(yīng)方法的描述,其中塊或裝置對應(yīng)方法步驟或方法步驟的特征。類似地,在方法步驟的上下文中描述的方面也代表對應(yīng)裝置的對應(yīng)塊或項(xiàng)或特征的描述。通過(或使用)硬件裝置例如微處理器、可編程計(jì)算機(jī)或電子電路可執(zhí)行方法步驟的一些或全部。在一些實(shí)施例中,通過如此裝置可執(zhí)行一些一個(gè)或多個(gè)最重要的方法步驟。
根據(jù)某些實(shí)施需求,可在硬件或在軟件中實(shí)施本發(fā)明的實(shí)施例??墒褂迷谄渖洗鎯τ须娮涌勺x控制信號的非易失存儲介質(zhì)如數(shù)字存儲介質(zhì)(如軟盤、硬盤驅(qū)動器(HDD)、DVD、藍(lán)光光碟、CD、ROM、PROM及EPROM、EEPROM或閃存)執(zhí)行實(shí)施,其(或能夠)與可編程計(jì)算機(jī)系統(tǒng)協(xié)作從而執(zhí)行各個(gè)方法。因此,數(shù)字儲存介質(zhì)可以是計(jì)算機(jī)可讀的。
根據(jù)本發(fā)明的一些實(shí)施例包括具有電子可讀控制信號的數(shù)據(jù)載體,其能夠與可編程計(jì)算機(jī)系統(tǒng)協(xié)作,以執(zhí)行本文中描述的方法中的一個(gè)。
通常,本發(fā)明的實(shí)施例可實(shí)施為具有程序代碼的計(jì)算機(jī)程序產(chǎn)品,當(dāng)計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí),可操作的程序代碼用于執(zhí)行方法中的一個(gè)。程序代碼可(例如)存儲于計(jì)算機(jī)可讀載體上。
其他實(shí)施例包括儲存于機(jī)器可讀載體上的計(jì)算機(jī)程序,其用于執(zhí)行本文所述方法中的一個(gè)。
換言之,本發(fā)明的方法的實(shí)施例(因此)是具有程序代碼的計(jì)算機(jī)程序,當(dāng)該計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí)程序代碼用于執(zhí)行本文描述的方法中的一個(gè)。
因此,本發(fā)明的方法的另一實(shí)施例是一種數(shù)據(jù)載體(或數(shù)字存儲介質(zhì),或計(jì)算機(jī)可讀介質(zhì)),其包括記錄在其上的用于執(zhí)行本文描述的方法的一個(gè)的計(jì)算機(jī)程序。數(shù)據(jù)載體、數(shù)字存儲介質(zhì)或記錄介質(zhì)通常是有形的和/或非易失的。
因此,本發(fā)明的方法的另一實(shí)施例是一種表示用于執(zhí)行本文所述方法的一個(gè)的計(jì)算機(jī)程序的數(shù)據(jù)流或信號序列。數(shù)據(jù)流或信號序列可(例如)用于通過數(shù)據(jù)通信連接(例如,通過因特網(wǎng))被傳輸。
另一實(shí)施例包括一種處理構(gòu)件,例如,計(jì)算機(jī)或可編程邏輯設(shè)備,其用于或適用于執(zhí)行本文所述方法的一個(gè)。
另一實(shí)施例包括計(jì)算機(jī),其上安裝有用于執(zhí)行本文所述方法中的一個(gè)的計(jì)算機(jī)程序。
根據(jù)本發(fā)明的另一實(shí)施例包括一種裝置或系統(tǒng),其用于將用于執(zhí)行本文所述方法的一個(gè)的計(jì)算機(jī)程序傳輸(例如,電子地或光學(xué)地)至接收器。接收器可例如是計(jì)算機(jī)、移動設(shè)備、存儲設(shè)備或類似。此裝置或系統(tǒng)可(例如)包括用于將計(jì)算機(jī)程序傳輸至接收器的文件服務(wù)器。
在一些實(shí)施例中,使用一種可編程邏輯設(shè)備(例如,現(xiàn)場可編程門陣列)用于執(zhí)行本文所述方法的功能中的一些或全部。在一些實(shí)施例中,現(xiàn)場可編程門陣列可與微處理器協(xié)作,以便執(zhí)行本文所述方法中的一個(gè)。通常,可通過任何硬件裝置優(yōu)選地執(zhí)行此方法。
上面描述的實(shí)施例僅示出本發(fā)明的原理。應(yīng)理解的是,本文所描述的布置及細(xì)節(jié)的修改及變形對本領(lǐng)域技術(shù)人員是顯而易見的。因此,意圖在于,僅通過權(quán)利要求的范圍而不通過本文實(shí)施例的描述及說明書的方式呈現(xiàn)的特定細(xì)節(jié)限制本發(fā)明。