專利名稱:采用可變時間/頻率分辨率和時間/頻率轉(zhuǎn)換的有效頻譜包絡(luò)編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種在音頻編碼系統(tǒng)中對頻譜包絡(luò)進行有效編碼的新型方法和設(shè)備。該方法既可以應(yīng)用于自然音頻編碼過程,也可以應(yīng)用于語音編碼過程,并且該方法特別適于采用SBR[WO 98/57436]或其它高頻重構(gòu)方法的編碼器。
背景技術(shù):
可以將音源編碼技術(shù)分為兩種自然音編碼和語音編碼。自然音編碼通常以中等位速率用于音樂信號或任意信號,通常提供寬音頻帶寬。語音編碼器基本限制在語音重現(xiàn),但是從另一方面來說,即使具有低音頻帶寬,但可以以非常低的位速率使用它。在這兩種技術(shù)中,通常將信號分離為兩個主要信號分量“頻譜包絡(luò)”信號和相應(yīng)的“剩余”信號。在以下說明中,在一般意義上,術(shù)語“頻譜包絡(luò)”指信號的粗頻譜分布,例如,基于線性預(yù)測的編碼器內(nèi)的濾波因數(shù),或子帶濾波器內(nèi)的一組子帶采樣時頻平均值。在一般意義上,術(shù)語“剩余”指細頻譜分布,例如,利用上述時頻平均值歸一化的LPC誤差信號或子帶采樣。“包絡(luò)數(shù)據(jù)”指被量化、被編碼的頻譜包絡(luò),“剩余數(shù)據(jù)”指被量化、被編碼的剩余。在中等位速率和高位速率情況下,剩余數(shù)據(jù)構(gòu)成位流的主要部分。在非常低位速率情況下,包絡(luò)數(shù)據(jù)構(gòu)成大部分位流。因此,在采用低位速率時,用壓縮方法表示頻譜包絡(luò)的確重要。
為了實現(xiàn)良好時間分辨率,現(xiàn)有技術(shù)的音頻編碼器和大多數(shù)語言編碼器均采用固定長度、相對較短的時段來產(chǎn)生包絡(luò)數(shù)據(jù)。然而,這樣就防礙對由心理聲學(xué)所得知的頻域屏蔽的最佳利用。為了提高利用具有陡傾斜窄濾波器頻帶的編碼增益,并在瞬時頻段時仍實現(xiàn)良好時間分辨率,當前的音頻編碼器均采用自適應(yīng)窗口轉(zhuǎn)換,也就是說,它們根據(jù)信號統(tǒng)計量轉(zhuǎn)換時間段長度。顯然,短時間段的最少使用量是最大編碼增益的先決條件。不幸的是,需要長變遷窗口來改變時間段的長度,這樣就限制了轉(zhuǎn)換的適應(yīng)性。
頻譜包絡(luò)是兩個變量,時間和頻率,的函數(shù)。通過在時頻平面的兩個方向上使用冗余碼,可以進行編碼。通常,利用增量編碼過程(DPCM)或向量量化過程(VQ),在頻率方向?qū)︻l譜包絡(luò)進行編碼。
發(fā)明內(nèi)容
本發(fā)明提供了一種用于頻譜包絡(luò)編碼的新型方法和設(shè)備。該編碼方法用于滿足其特定頻率范圍內(nèi)的剩余信號被排斥在發(fā)射數(shù)據(jù)外的系統(tǒng)的特殊要求。例如,采用HFR(高頻重構(gòu)),特別是SBR(頻譜帶復(fù)制),或者參量編碼器的系統(tǒng)。在一種實施過程中,通過將固定大小濾波器頻帶內(nèi)的子帶采樣自適應(yīng)分組為分別產(chǎn)生一個包絡(luò)采樣的頻帶和時間段,獲得頻譜包絡(luò)的非均勻時間采樣和非均勻頻率采樣。這樣就允許在有限濾波器頻帶內(nèi)瞬時選擇任意時間和頻率分辨率。在接近變遷時,使用較短時間段,從而使用較大頻率級以使數(shù)據(jù)量保持在限制范圍內(nèi)。為了使時間上的非均勻采樣的益處實現(xiàn)最大化,采用可變長度位流幀或區(qū)組(granule)。可變時間/頻率分辨率方法還可以應(yīng)用于基于預(yù)測的包絡(luò)編碼過程。不是對子帶采樣進行分組,而是根據(jù)系統(tǒng),對可變長度時間段產(chǎn)生預(yù)測因數(shù)。
本發(fā)明描述了兩種用于發(fā)送所采用的時間分辨率和頻率分辨率的方法。通過顯式發(fā)送時間段邊緣分辨率和頻率分辨率,第一種方法允許進行任意選擇。為了降低發(fā)送開銷,使用4級區(qū)組,從而提供不同成本/適應(yīng)性折衷方案。第二種方法采用典型節(jié)目內(nèi)容性質(zhì),至少由時間Tnmin將各瞬間分開以進一步減少控制位的數(shù)量。編碼器內(nèi)、以等于正常區(qū)組長度的Tdet<=Tnmin的時間間隔運行的瞬態(tài)檢測器確定可能瞬態(tài)的開始位置。對間隔內(nèi)的此位置進行編碼并發(fā)送到解碼器。編碼器和解碼器共同遵守規(guī)定頻譜包絡(luò)采樣的時間/頻率分布給出連續(xù)控制信號的特定組合、確保對包絡(luò)數(shù)據(jù)進行無歧義解碼的規(guī)則。
本發(fā)明提供了一種用于進行比例因數(shù)冗余編碼的新型有效方法。時域內(nèi)的狄拉克脈沖轉(zhuǎn)換為頻域內(nèi)的常數(shù),并且頻域內(nèi)的狄拉克,即單個正弦波對應(yīng)于頻域內(nèi)具有固定振幅的信號。具體地說,在短時間內(nèi),信號在一種域內(nèi)比在另一種域內(nèi)顯式較小的變化。因此,利用預(yù)測編碼過程或增量編碼過程,如果根據(jù)信號特性在時間方向或頻率方向?qū)︻l譜包絡(luò)進行編碼,則可以提高編碼效率。
現(xiàn)在,將參考附圖,利用不限制本發(fā)明實質(zhì)或范圍的說明性實例對本發(fā)明進行說明,附圖包括圖1a至圖1b示出頻譜包絡(luò)均勻時間采樣和相應(yīng)非均勻時間采樣;圖2a至圖2b定義、說明4級區(qū)組的用途;圖3a至圖3b示出區(qū)組的兩個例子以及相應(yīng)的控制信號;圖4a至圖4c示出位置發(fā)送系統(tǒng);圖5示出時間/頻率轉(zhuǎn)換增量編碼;圖6示出根據(jù)本發(fā)明采用包絡(luò)編碼過程的編碼器的方框圖;圖7示出根據(jù)本發(fā)明采用包絡(luò)編碼保持的解碼器的方框圖。
優(yōu)選實施例的說明以下說明的優(yōu)選實施例僅用于說明進行有效包絡(luò)編碼的本發(fā)明原理。顯然,本技術(shù)領(lǐng)域內(nèi)的其它熟練技術(shù)人員可以對其設(shè)置和細節(jié)進行調(diào)整和變換。因此,只有之后的本發(fā)明權(quán)利要求來限定本發(fā)明的實質(zhì)范圍,而在此對各實施例所做的說明和解釋中的特定細節(jié)對本發(fā)明實質(zhì)范圍沒有限制意義。
包絡(luò)數(shù)據(jù)的產(chǎn)生過程大多數(shù)音頻編碼器和語言編碼器在解碼器進行合成期間,共同發(fā)送并合并包絡(luò)數(shù)據(jù)和剩余數(shù)據(jù)。兩個例外是采用PNS[“ImprovingAudio Codecs by Noise Substitution”,D.Schultz,JAES,vol.44,no.7/8,1996]的編碼器和采用SBR的編碼器。對于SBR,關(guān)于高頻帶,只有頻譜粗結(jié)構(gòu)需要被發(fā)送,因為剩余信號是由低頻帶重構(gòu)的。因此非常需要知道如何產(chǎn)生包絡(luò)數(shù)據(jù),特別是因為在初始剩余信號內(nèi)沒有“時間”信息。現(xiàn)在將利用實例說明此問題。
圖1示出持續(xù)和弦與主要為高頻內(nèi)容的尖銳瞬態(tài)組合在一起的音樂信號的時間/頻率圖。在低頻帶,和弦功率高,瞬態(tài)功率低,而在高頻帶則恰好相反。利用高間歇瞬態(tài)功率對在出現(xiàn)瞬態(tài)的時間間隔期間產(chǎn)生的包絡(luò)數(shù)據(jù)進行控制。在解碼器進行SBR處理時,使用與對初始高頻帶進行分析所使用的相同瞬時時間分辨率/頻率分辨率,估計轉(zhuǎn)置信號的頻譜包絡(luò)。然后,根據(jù)各頻譜包絡(luò)內(nèi)的不同之處,對轉(zhuǎn)置信號進行均衡處理。例如,利用初始信號與轉(zhuǎn)置信號平均功率的商數(shù)的平方根計算包絡(luò)調(diào)節(jié)濾波器頻帶內(nèi)的放大系數(shù)。對于這種信號,產(chǎn)生的問題是轉(zhuǎn)置信號與低頻帶具有相同“和弦-瞬態(tài)”功率比。對于含有瞬態(tài)能量的包絡(luò)數(shù)據(jù)的整個時長,為了將轉(zhuǎn)置瞬態(tài)調(diào)節(jié)到正確電平所需的增益會相對于初始高頻帶電平放大轉(zhuǎn)置和弦。如圖1a所示,會將這些瞬間太高和弦片段感覺為瞬態(tài)的超前回聲和滯后回聲。以下將這種失真稱為“增益誘導(dǎo)超前回聲和滯后回聲”。通過以這樣的高速率,即保證更新與任意位置瞬態(tài)之間的時間短到足以不被人耳所分辨,持續(xù)更新包絡(luò)數(shù)據(jù),就可以消除這種現(xiàn)象。然而,這種方法顯著提高待發(fā)送的數(shù)據(jù)量,因此不可行。
因此提出了一種新型包絡(luò)數(shù)據(jù)產(chǎn)生方法。該方法是在音頻頻段期間保持低更新速率,音頻頻段構(gòu)成典型節(jié)目內(nèi)容的主要部分,利用瞬態(tài)檢測器確定瞬態(tài)位置,對靠近脈沖前沿的包絡(luò)數(shù)據(jù)進行更新,參考圖1b。這樣就消除了增益誘導(dǎo)超前回聲。為了很好地表示瞬態(tài)衰變,在瞬態(tài)開始后的時間間隔內(nèi)瞬間提高更新速率。這樣就可以消除增益誘導(dǎo)滯后回聲。衰變期間進行時間分段不象發(fā)現(xiàn)瞬態(tài)開始那么重要,如下所述。為了補償小時間步長,在瞬態(tài)期間使用大頻率級,從而使數(shù)據(jù)量保持在限制范圍內(nèi)。上述在時間上和頻率上的非均勻采樣可以應(yīng)用于基于濾波器組和線性預(yù)測的包絡(luò)編碼過程??梢詫λ矐B(tài)時段和準穩(wěn)(音頻)時段采用不同預(yù)測順序。
對于基于預(yù)測的編碼器,已知現(xiàn)有技術(shù)中沒有實現(xiàn)時間/頻率分辨率轉(zhuǎn)換的方法。然而,某些基于濾波器組的編碼器采用可變時間/頻率分辨率。通常,這是通過轉(zhuǎn)換濾波器組的大小實現(xiàn)的。改變?yōu)V波器組大小的過程不可能立即實現(xiàn),因此需要所謂轉(zhuǎn)換窗口,而且不能自由選擇更新點。在采用SBR或任何其它HFR方法時,目標不同濾波器組用于滿足所需最高時間分辨率和最高頻率分辨率以提取有效包絡(luò)圖。因此,通過將固定大小濾波器組產(chǎn)生的子帶采樣分組為“頻帶”和“時間段”,可以獲得頻譜包絡(luò)的非均勻時間采樣和頻率采樣。然后,對每個頻帶和時間段計算一個包絡(luò)采樣。在以下說明中,“頻率分辨率”指用于對特定時間段進行包絡(luò)估計的一組特定頻帶、LPC因數(shù)等。換句話說,從包絡(luò)編碼的觀點出發(fā),可以同時獲得高頻分辨率和高時間分辨率。
從語法觀點出發(fā),所有實際編解碼器位流均包括分別對應(yīng)于輸入信號的短時間段的數(shù)據(jù)周期。以下將與此數(shù)據(jù)周期有關(guān)的時間段稱為“區(qū)組”。典型編碼器采樣固定長度區(qū)組。區(qū)組邊界的出現(xiàn)會對包絡(luò)估計過程使用的時間段的計算過程產(chǎn)生制約。產(chǎn)生這些時間段的算法表明在特定位置需要時間段“邊緣”,并且后續(xù)時間段應(yīng)該具有特定長度。然而,如果因為固定長度區(qū)組,區(qū)組邊界落入此間隔內(nèi),則必須將該時間段分割為兩部分。這具有雙重意義第一,提高了待編碼的時間段數(shù)量,因此有可能提高待發(fā)送的數(shù)據(jù)量。第二,強制邊緣會產(chǎn)生太短以致不能估計可靠平均功率的各時間段。為了避免這些缺陷,本發(fā)明采用可變長度區(qū)組。這樣就要求編碼器預(yù)測先行,同時要求解碼器具有附加緩沖器。
假定術(shù)語“柵格”表示用于特定信號的時間段分辨率和相應(yīng)頻率分辨率,“局部柵格”表示一個區(qū)組的柵格。顯然,必須將柵格發(fā)送到解碼器,以對包絡(luò)采樣進行正確解碼。然而,在低位速率應(yīng)用中,此“控制信號”的位數(shù)必須保持最少。本發(fā)明建議了兩種發(fā)送方法。在詳細說明它們之前,先建立“基線系統(tǒng)”和一些設(shè)計規(guī)則。
設(shè)頻譜包絡(luò)的時間量化級為Tq??梢詫⑦@些量化級看作“子區(qū)組”,該“子區(qū)組”被分組為上述各時間段。在一般情況下,區(qū)組包括S個子區(qū)組,其中各區(qū)組的S互不相同。區(qū)組內(nèi)的可能分段組合數(shù)在一個分段到S個分段之間,由下式給出 為了發(fā)送C狀態(tài),根據(jù)每個子區(qū)組一位,需要ceil(ln2C)=ceil(ln2(2S))=S位??梢岳肧-1位發(fā)送任意細分的區(qū)組,表示連續(xù)子區(qū)組,說明前導(dǎo)分段邊緣是否出現(xiàn)在相應(yīng)子區(qū)組。(在此無需發(fā)送第一個和最后一個區(qū)組邊緣。)由于S可變,所以必須發(fā)送它,并且如果此方法與固定長度區(qū)組低頻帶編解碼器結(jié)合,則還必須發(fā)送與固定長度區(qū)組相位的位置。可以利用分配的控制位,例如每個分段一位,發(fā)送分段頻率分辨率。顯然,這種直通方法會導(dǎo)致不可接受的大量控制信號位。
如下所述,等式1表示的許多狀態(tài)不太可能,但是也可能產(chǎn)生太多的包絡(luò)數(shù)據(jù)以致實際上以有限位速率是不可能的。
可以以如下方式估計音樂節(jié)目內(nèi)容中連續(xù)瞬態(tài)之間的最小時間跨距在樂譜中,利用被表示為分數(shù)A/B的時間記號來表示韻律“拍子”,其中A表示每節(jié)線“節(jié)拍”數(shù),1/B是一個節(jié)拍的音符類型,例如,1/4音符,通常稱為四分之一音符。設(shè)t表示每分鐘節(jié)拍(BPM)形式的速度。下式給出1/C類型的每個音符的時間Tn=(60/t)*(B/C)[s] (等式2)大多數(shù)片段在70-160BPM范圍內(nèi),并且對于由1/32或第32音符構(gòu)成的大多數(shù)實際片段,4/4時間記號是最快韻律模式。這樣會產(chǎn)生最短時間Tnmin=(60/160)*4(4/32)=47毫秒。當然,還會產(chǎn)生比此低的時間周期,但是這種快速序列(>每秒21個事件)幾乎獲得蜂音特性,因此不需要被全部分辨。
還必須建立所需時間分辨率Tq。在某些情況下,瞬態(tài)信號的主要能量位于待重構(gòu)的高頻帶。這意味著,編碼頻譜包絡(luò)必須攜帶所有“時間”詳細。要求時間精度確定用于編碼脈沖前沿所需的分辨率。Tq比最短音符周期Tnmin短得多,因為在該周期內(nèi)可以清晰地聽到小時間偏差,瞬態(tài)主要具有低頻帶能量。上述說明的增益誘導(dǎo)超前回聲必須在人聽覺系統(tǒng)的所謂超前掩蔽或后向掩蔽時間Tm內(nèi),這樣才聽不到它。因此,Tq必須滿足兩個條件Tq<<Tnmin(等式3)Tq<Tm(等式4)顯然,Tm<Tnmin(否則音符就太快了,以致不能分辨它們)并且根據(jù)[“Modeling the Additivity of Nonsimultaneous Masking”,Hearing Res.,vol.80,pp.105-118(1994)],Tm約為10-20毫秒。由于Tnmin在50毫秒范圍內(nèi),所以根據(jù)等式3適當選擇的Tq也滿足第二個條件。當然,在選擇Tq時,必須考慮在編碼器內(nèi)進行瞬態(tài)檢測的精度以及分析/合成濾波器組的時間分辨率。
跟蹤脈沖后沿并不重要,這有幾個原因第一,沒有音符的位置對可感韻律影響小甚或沒有影響。第二,大多數(shù)樂器不能表現(xiàn)陡峭脈沖后沿,而可以表現(xiàn)平滑衰減曲線,即不存在良好定義的無音符時間。第三,滯后掩蔽時間或前向掩蔽時間大致長于超前掩蔽時間。
總之,利用對實際信號質(zhì)量不產(chǎn)生影響或產(chǎn)生少量影響的情況進行如下簡化1.只有瞬態(tài)開始位置需要以最高精度Tq進行發(fā)送。
2.只有用Tp>>Tq分離的瞬態(tài)需要在包絡(luò)數(shù)據(jù)內(nèi)進行充分分解。
為了減少發(fā)送開銷,根據(jù)本發(fā)明的兩種系統(tǒng)均采用兩種時間采樣模式均勻時間采樣和非均勻時間采樣。在準穩(wěn)時段采用均勻模式,因此采用固定長度分段,并且需要少量額外發(fā)送。在瞬態(tài)附近,系統(tǒng)轉(zhuǎn)換到非均勻運行并使用可變長度區(qū)組,從而與全部理想柵格實現(xiàn)良好配合。
分級發(fā)送系統(tǒng)在第一種系統(tǒng)中,將區(qū)組分割為4級,并且對各級的特定需要產(chǎn)生控制信號。圖2中對各級進行了定義。級“FixFix”對應(yīng)于傳統(tǒng)固定長度區(qū)組。級“FixVar”具有可移動停止邊界,這樣就允許區(qū)組長度可變。級“VarFix”具有可變開始邊界,因此停止邊緣是固定的。最后一級“VarVar”在兩端具有可變邊界。所有可變邊界可以相對于“正常位置”偏離-a/+b。
圖2b示出序列區(qū)組的一個例子。該系統(tǒng)設(shè)定為級FixFix。瞬態(tài)檢測器(或心理聲學(xué)模型)在當前區(qū)組之前的時間范圍內(nèi)運行,如圖所示。在檢測到瞬態(tài)時,使用級FixVar,系統(tǒng)從均勻運行轉(zhuǎn)換為非均勻運行。通常,此區(qū)組之后為級VarFix,由于瞬態(tài)在大多數(shù)時間被多個所有實際選擇區(qū)組長度的區(qū)組分離。在連續(xù)幀瞬態(tài)情況下,采用VarVar級幀。
圖3a示出級FixVar-VarFix對的一個例子,以及相應(yīng)的控制信號。示出一個瞬態(tài),并且用t表示脈沖前沿(量化為Tq)。位流的第一部分是“級”信號。由于采用4基,所以用2位表示此信號。對于FixVar級或VarFix級,下一個信號描述可變邊界的位置,該位置被表示為正常位置的偏離。將此邊界稱為“絕對邊緣”。利用“相對邊緣”表示區(qū)組內(nèi)的分段邊緣絕對邊緣用作基準,將其它邊緣表示為對基準的累積距離。相對邊緣數(shù)是可變的,并且可以在絕對邊緣之后,被發(fā)送到解碼器。0數(shù)量意味著區(qū)組僅包括一個時間段。因此,對于級FixVar,在逆向序列中發(fā)送分段長度,并在區(qū)組的末端與絕對邊緣分離。根據(jù)相對邊緣和總長度獲得FixVar區(qū)組內(nèi)的第一分段的長度,但是不發(fā)送第一分段的長度。將級VarFix相對邊緣信號插入前向序列的位流內(nèi),從而排除最后分段長度。該位流信號順序與級FixVar位流信號順序相同,即[級,絕對邊緣,相對邊緣數(shù)量,相對邊緣0,相對邊緣1,...,相對邊緣N-1]。在該圖中,在“明碼”中說明該信號,而非在位流的實際二進制碼字中說明該信號。
圖3b示出該信號的另一種編碼過程。當在給定全部柵格對分段進行分組時,可變邊界具有通用性。因此,可以在此電平對某些有效負載進行控制,例如,以均衡各區(qū)組的位數(shù)。這樣會停止低頻帶編碼器的運行過程。如果預(yù)測先行足夠,則可以實現(xiàn)多通路編碼過程,并且可以采用局部柵格最佳組合。
為了減少用于發(fā)送相對邊緣的符號組數(shù)量,并減少每個符號的位數(shù),如果絕對邊緣具有精確Tq,則可以將這些長度量化為Tq的整數(shù)倍(>1)。在這種情況下,除了上述功能之外,絕對邊緣用于定位一組在瞬態(tài)附近、精度為Tq的邊界。換句話說,最高精度始終可以可以用于對瞬態(tài)脈沖前沿進行編碼,并且利用粗分辨率跟蹤衰減過程。
VarVar級幀利用FixVar和VarFix的組合例如交錯發(fā)送[級,左絕對邊緣,d0右,左相對邊緣數(shù)量,d0右,[左相對邊緣0,...,左相對邊緣N-1],[d0右]]。在局部柵格選擇中,此級提供最高適應(yīng)性,但代價是增加了發(fā)送開銷。最后,除了級信號本身之外,F(xiàn)ixFix級不需要其它信號,在這種情況下,例如,使用兩個(同樣長度)分段。然而,可以附加使得可以在一組預(yù)定柵格內(nèi)進行選擇的信號。例如,可以對兩個分段計算頻譜包絡(luò),并且如果兩個包絡(luò)的差別不大于某個量,則僅發(fā)送一組包絡(luò)數(shù)據(jù)。
以上對僅對時間分段過程進行了說明。因為許多原因,最好將對應(yīng)于瞬態(tài)前緣的邊界發(fā)送到解碼器。這可以通過發(fā)送指向相關(guān)邊緣的“指針”來實現(xiàn)?;鶞史较蜓刂鄬吘壍姆较?,并且0值意味著在當前區(qū)組內(nèi)沒有瞬態(tài)開始。此外,還必須定義用于單獨分段的頻率分辨率(功率估計數(shù)量或預(yù)測順序)。與在“基線系統(tǒng)”內(nèi)相同,可以顯式發(fā)送,也可以隱式發(fā)送,即,分辨率與分段長度相連,盡可能與指針位置相連。
在使用易出錯傳輸信道時,重要的是避免差錯傳播。在上述系統(tǒng)中,利用相應(yīng)區(qū)組的控制信號完整描述局部柵格。因此,在控制信號中不存在幀間依賴性。這意味著,區(qū)組邊界被“過編碼”,因為在兩個連續(xù)區(qū)組內(nèi)發(fā)送區(qū)組相交區(qū)。此冗余可以用于簡單糾錯,即如果邊緣不匹配,則會產(chǎn)生傳輸差錯,并激活隱蔽誤差。
位置發(fā)送系統(tǒng)以下將第二系統(tǒng)稱為“位置發(fā)送系統(tǒng)”,它適于非常低的位速率應(yīng)用。為了進一步降低控制信號位的數(shù)量,所以在很大程度上仍采用上述說明的設(shè)計規(guī)則。根據(jù)本發(fā)明,瞬態(tài)開始信息可以用于顯式發(fā)送分段邊緣和瞬態(tài)附近的頻率分辨率?,F(xiàn)在,將對此進行說明,假定根據(jù)NTq<=Tnmin,即根據(jù)在區(qū)組內(nèi)可能會產(chǎn)生一個最長瞬態(tài),選擇N個子區(qū)組的標稱區(qū)組大小,參考圖4a,其中N=8。如圖4b所示,采用以位于當前區(qū)組之前N/2的、長度為N的間隔運行的瞬態(tài)檢測器。在檢測到瞬態(tài)時,設(shè)置與此范圍有關(guān)的標志。在此例中,瞬態(tài)檢測器在時間n-1檢測到子區(qū)組2內(nèi)的瞬態(tài),在時間n檢測到子區(qū)組3內(nèi)的瞬態(tài)。這些位置,pos(n-1)和pos(n)以及相應(yīng)的標志,flag(n-1)和flag(n)用作柵格產(chǎn)生算法的輸入,并且區(qū)組n的相應(yīng)局部柵格可以是如圖4c所示的那樣。從該圖中可以看出,時間n-1區(qū)組的子區(qū)組3包括在區(qū)組n的時間/頻率柵格內(nèi)。送到位流的信號只有flag(n)[1位]和pos(n)[ceil(ln2(N))位]。因為解碼器已知柵格算法,所以這些信號與先前區(qū)組n-1的相應(yīng)信號一起足以無歧義重構(gòu)編碼器所需的柵格。在未檢測到瞬態(tài)時,可以廢棄該位置信號,并且可以例如利用1位信號代替該位置信號,說明是使用一個分段還是使用兩個分段。因此,均勻模式運行過程與分級發(fā)送系統(tǒng)的運行過程相同??梢詫⒃撓到y(tǒng)看作有限態(tài)自動機,其中上述信號控制狀態(tài)間的變遷,變遷狀態(tài)定義局部柵格。顯然,可以用存儲在編碼器和解碼器內(nèi)的表來表示狀態(tài)。由于柵格被硬編碼,所以犧牲了自適應(yīng)改變有效負載的能力。適當方法是保持時間/頻率數(shù)據(jù)矩陣的大小(即功率估計數(shù)量)接近常數(shù)。假定高分辨率分段內(nèi)的比例因數(shù)或系數(shù)的數(shù)量是低分辨率分段內(nèi)的比例因數(shù)或系數(shù)的兩倍,則一個高分辨率分段可以換取兩個低分辨率分段。
時間/頻率轉(zhuǎn)換比例因數(shù)編碼過程利用時間頻率轉(zhuǎn)換過程,顯式時域內(nèi)的脈沖與頻域內(nèi)的平頻譜對應(yīng),并且頻域內(nèi)的“脈沖”,即單個正弦波與時域內(nèi)的準穩(wěn)信號對應(yīng)。換句話說,通常,信號在一種域中比在另一種域中顯式出更強的瞬態(tài)特性。在光頻圖中,即在時間/頻率矩陣顯式中,此特性明顯,并且在對頻譜包絡(luò)進行編碼時,使用此特性具有優(yōu)勢。
音頻穩(wěn)信號具有的非常稀疏頻譜,不適于在頻率方向進行增量編碼,但是卻很適于在時域內(nèi)進行增量編碼,反之亦然。圖5示出這種情況。在以下說明中,時間n0時計算的比例因數(shù)向量表示頻譜包絡(luò)Y(k,n0)=[a1,a2,a3,...,ak,...,aN] (等式5)其中a1...aN是不同頻率的振幅值。普通作法是在給定時間對頻率方向上的相鄰各值之間的差值進行編碼,這樣會產(chǎn)生D(k,n0)=[a2-a1,a3-a2,...,aN-aN-1] (等式6)為了能夠?qū)Υ诉M行解碼,需要發(fā)送開始值a1。如上所述,如果該頻譜僅含有少量固定音,則可以證明此增量編碼方法效率最低。這樣會導(dǎo)致增量編碼過程的位速率比規(guī)則PCM編碼過程的位速率高。為了解決此問題,建議了一種時間/頻率轉(zhuǎn)換方法,以下簡稱為T/F編碼在時間方向和頻率方向量化并編碼比例因數(shù)。在這兩種情況下,對于給定編碼錯誤計算所需位數(shù),或者對于給定位數(shù)計算編碼錯誤。根據(jù)此,選擇最有利的編碼方向。
例如,可以采用DPCM和霍夫曼冗余編碼過程。計算兩個向量,Df和DtDf(k,n0)=[a2-a1,a3-a2,...,aN-aN-1](等式7)
Dt(k,n0)=[a1(n0)-a1(n0-1),a2(n0)-a2(n0-1),...,aN(n0)-aN-1(n0-1)](等式8)一個用于表示頻率方向、一個用于表示時間方向的相應(yīng)霍夫曼表示出了對向量進行編碼所需的位數(shù)。需要最少位數(shù)被編碼的編碼向量表示較好的編碼方向。首先,利用一些最小間距作為時間/頻率轉(zhuǎn)換判據(jù),產(chǎn)生該表。
每當在頻率方向?qū)︻l譜包絡(luò)進行編碼,而非在時間方向進行編碼時,就發(fā)送開始值,因為通過先前的包絡(luò),解碼器使用它們。建議算法還需要發(fā)送附加信息,即表示以哪個方向?qū)︻l譜包絡(luò)進行編碼的時間/頻率標志。T/F算法的優(yōu)勢在于可以與不同于DPCM和霍夫曼方法的、比例因數(shù)包絡(luò)表示的幾種不同編碼方法(例如ADPCM、LPC以及向量量化)一起使用。建議的T/F算法給出頻譜包絡(luò)數(shù)據(jù)的顯著位速率減縮。
實際實現(xiàn)過程圖6示出本發(fā)明編碼器端的一個例子。將模擬輸入信號送到A/D轉(zhuǎn)換器601,用于產(chǎn)生數(shù)字信號。將數(shù)字音頻信號送到感覺音頻編碼器602,感覺音頻編碼器602對音源進行編碼。此外,將該數(shù)字信號送到瞬態(tài)檢測器603和分析濾波器組604,分析濾波器組604將該信號分割為其頻譜等效信號(子帶信號)。瞬態(tài)檢測器可以對分析濾波器組輸出的子帶信號進行檢測,但是假定其一般用途是直接對數(shù)字時域采樣進行檢測。瞬態(tài)檢測器將該信號分割為各區(qū)組,并根據(jù)本發(fā)明確定區(qū)組內(nèi)的哪個子區(qū)組被標志為瞬態(tài)。將此信息發(fā)送到包絡(luò)分組模塊605,包絡(luò)分組模塊605規(guī)定待用于當前區(qū)組的時間/頻率柵格。根據(jù)此柵格,該模塊將均勻采樣子帶信號組合在一起以產(chǎn)生非均勻采樣包絡(luò)值。例如,這些值可以表示分組子帶采樣的平均功率密度。將包絡(luò)值與分組信息一起送到包絡(luò)編碼器模塊606。包絡(luò)編碼器模塊606判定在哪個方向(時間方向或頻率方向)編碼該包絡(luò)值。將結(jié)果信號、音頻編碼器的輸出、寬帶包絡(luò)信息以及控制信號送到復(fù)用器607以產(chǎn)生帶發(fā)送或存儲的串行位流。
圖7示出本發(fā)明的解碼器端,利用SBR轉(zhuǎn)置作為產(chǎn)生丟失剩余信號的例子。解復(fù)用器701恢復(fù)該信號并將正確部分送到音頻解碼器702,音頻解碼器702產(chǎn)生低頻帶數(shù)字音頻信號。將包絡(luò)信息從解復(fù)用器送到包絡(luò)解碼模塊703,包絡(luò)解碼模塊703利用控制數(shù)據(jù)確定在哪個方向?qū)Ξ斍鞍j(luò)進行編碼并解碼該數(shù)據(jù)。音頻解碼器輸出的低頻帶信號選擇到轉(zhuǎn)置模塊704,轉(zhuǎn)置模塊704利用低頻帶產(chǎn)生復(fù)制的高頻帶信號。將該高頻帶信號送到分析濾波器組706,分析濾波器組706與編碼器端的分析濾波器組屬于同一種類型。比例因數(shù)分組單元707將子帶信號組合在一起。利用解復(fù)用器輸出的控制數(shù)據(jù),在此采用的組合和子帶采樣的時間/頻率分布類型與在編碼器端采用的相同。增益控制模塊708對解復(fù)用器輸出的包絡(luò)信息和比例因數(shù)分組單元輸出的信息進行處理。增益控制模塊708計算待施加到子帶采樣的增益系數(shù),然后在合成濾波器組模塊709內(nèi)對子帶采樣進行重新組合。因此,合成濾波器組的輸出即包絡(luò)調(diào)節(jié)高頻帶音頻信號。將該信號附加到延遲單元705的輸出端,將低頻帶音頻信號送到延遲單元705。延遲對高頻帶信號的處理時間進行補償。最后,數(shù)模轉(zhuǎn)換器710將獲得的數(shù)字寬帶信號轉(zhuǎn)換為模擬音頻信號。
權(quán)利要求
1.一種在信源編碼系統(tǒng)中進行頻譜包絡(luò)編碼的方法,其中所述系統(tǒng)包括編碼器,表示在存儲或傳輸之前執(zhí)行的所有操作;以及解碼器,表示在存儲或傳輸之后執(zhí)行的所有操作,并且其中對應(yīng)于特定頻率范圍的剩余信號被排除在發(fā)送數(shù)據(jù)或存儲數(shù)據(jù)之外,并在所述解碼器內(nèi)合成一個新剩余信號,其特征在于所述編碼器對輸入信號進行統(tǒng)計分析;根據(jù)所述分析的結(jié)果,選擇用于頻譜包絡(luò)表示的柵格;利用所述柵格,產(chǎn)生表示所述頻譜包絡(luò)的數(shù)據(jù);將所述數(shù)據(jù)與描述所述柵格的控制信號一起發(fā)送;以及所述解碼器將所述控制信號和所述數(shù)據(jù)用于分析輸出信號。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過將單元分組為所述輸入信號的時間/頻率表示,可以獲得所述瞬時時間分辨率和頻率分辨率,并對每個所述組計算比例因數(shù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,利用濾波器組產(chǎn)生所述時間/頻率表示。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述濾波器組具有固定大小。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用線性預(yù)測器產(chǎn)生所述數(shù)據(jù)。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分析過程采用瞬態(tài)檢測器。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在瞬態(tài)開始時,將所述瞬時分辨率從高頻率分辨率與低時間分辨率的默認組合轉(zhuǎn)換為低頻率分辨率與高時間分辨率的組合。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述控制信號描述位于固定更新速率區(qū)組內(nèi)的、通過進行所述分析產(chǎn)生的位置,并且根據(jù)當前區(qū)組和相鄰區(qū)組內(nèi)的位置,利用對所述編碼器和所述解碼器均有效的規(guī)則,選擇所述瞬時分辨率。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,一個位置至多發(fā)送一個區(qū)組。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,采用可變長度區(qū)組。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,采用4級區(qū)組,其中第一級具有固定位置區(qū)組邊界和長度L;第二級具有固定位置開始邊界和可變位置停止邊界;第三級具有可變位置開始邊界和固定位置停止邊界;第四級具有可變位置開始和停止邊界;以及所述固定位置與基準位置一致,被間距L分離,并且相對于所述基準位置,所述可變位置偏離[-a,b]。
12.根據(jù)權(quán)利要求2所述的方法,其特征在于,在時間方向和頻率方向?qū)λ霰壤驍?shù)進行編碼,確定瞬時最有利方向,將所述最有利方向用于所述傳輸過程。
13.根據(jù)權(quán)利要求12所述的方法,其特征在于,對于給定位數(shù),選擇產(chǎn)生最少編碼錯誤的方向。
14.根據(jù)權(quán)利要求12所述的方法,其特征在于,對于給定編碼錯誤,選擇產(chǎn)生最少位數(shù)的方向。
15.根據(jù)權(quán)利要求14所述的方法,其特征在于,采用無損失編碼過程,將分離的表格用于所述時間方向和頻率方向,特別是所述表格用于選擇編碼方向。
16.一種用于對待被解碼器解碼的信號的頻譜包絡(luò)進行編碼的設(shè)備,其特征在于,裝置,用于對輸入信號進行統(tǒng)計分析;裝置,用于根據(jù)所述分析的結(jié)果,選擇待用于所述輸入信號的頻譜包絡(luò)表示的瞬時時間分辨率和頻率分辨率;裝置,用于利用所述分辨率,產(chǎn)生表示所述頻譜包絡(luò)的數(shù)據(jù);以及裝置,用于一起傳輸所述數(shù)據(jù)和描述所述分辨率的控制信號。
17.一種用于對待被編碼器編碼的信號的頻譜包絡(luò)進行解碼的設(shè)備,其特征在于,裝置,用于翻譯接收的控制信號以確定在編碼信號的頻譜包絡(luò)表示中使用的瞬時時間分辨率和頻率分辨率;裝置,用于根據(jù)所述頻譜包絡(luò)表示,利用所述控制信號,對接收的包絡(luò)數(shù)據(jù)進行解碼;以及裝置,將所述解碼包絡(luò)數(shù)據(jù)用于合成輸出信號。
全文摘要
本發(fā)明提供了一種用于進行頻譜包絡(luò)編碼的新型方法和設(shè)備。本發(fā)明說明了如何實現(xiàn)包絡(luò)表示的時間/頻率映射以及如何發(fā)送包絡(luò)表示的時間/頻率映射,此外,還利用自適應(yīng)時間/頻率定向編碼對頻譜包絡(luò)數(shù)據(jù)進行有效編碼。該方法可以應(yīng)用于自然音頻編碼系統(tǒng)和語言編碼系統(tǒng),并且該方法特別適于采用SBR[WO 98/57436]或其它高頻重構(gòu)的編碼器。
文檔編號G10L19/06GK1377499SQ0081360
公開日2002年10月30日 申請日期2000年9月29日 優(yōu)先權(quán)日1999年10月1日
發(fā)明者拉爾斯·G·李杰德, 克里斯托弗·科林, 伯·埃斯特蘭德, 弗里德里克·亨恩 申請人:編碼技術(shù)瑞典股份公司