專利名稱:增強使用高頻重建方法的編碼系統(tǒng)的性能的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及使用高頻重建(HFR)方法的數(shù)字音頻編碼系統(tǒng)。它實現(xiàn)一個更相容的核心編解碼性能,并且獲得組合的核心編解碼器和HFR系統(tǒng)的改良音頻質(zhì)量。
背景技術(shù):
音頻信源編碼技術(shù)可以被分成兩類正常的音頻編碼和語音編碼。正常的音頻編碼通常以介質(zhì)比特率來用于音樂或隨機信號。語音編解碼器基本上被局限于語音再現(xiàn),但是另一方面能夠以非常低的比特率而被使用。在兩類中,信號通常被分開成兩個主要信號成分,一個頻譜包絡(luò)和一個相應(yīng)的殘余信號。使用這種劃分的編解碼器利用了頻譜包絡(luò)可以比殘余信號更加有效地被編碼的這一事實。在使用高頻重建方法的那些系統(tǒng)中,沒有與高頻帶相應(yīng)的殘余信號被發(fā)射。替代為一個高頻帶在解碼器處從被核心編解碼器覆蓋的低頻帶中產(chǎn)生并且被整形以便獲得期望的高頻帶頻譜包絡(luò)。在雙端HFR系統(tǒng)中,與較高頻率范圍相應(yīng)的包絡(luò)數(shù)據(jù)被發(fā)射,而在單端HFR系統(tǒng)中高頻帶包絡(luò)從低頻帶中得到。在任一情況中,現(xiàn)有技術(shù)的音頻編解碼器在核心編解碼器頻率范圍和HFR頻率范圍之間應(yīng)用一個時間恒定的過渡頻率。因此,在一個給定比特率處,過渡頻率被選擇如此以使對于典型程序材料獲得在核心編解碼器引入的人工產(chǎn)物和HFR系統(tǒng)引入的人工產(chǎn)物之間的一個優(yōu)良交換。清楚地,這樣一個靜態(tài)設(shè)置可能遠(yuǎn)離一個特定信號的最佳值核心編解碼器或者被過載,導(dǎo)致比必需的低頻帶人工產(chǎn)物更高,HFR方法固有的此現(xiàn)象也衰落了高頻帶質(zhì)量;或者不被用于它的整個位勢,即,比必需的HFR頻率范圍更大的一個被使用。因此,只是偶而通過現(xiàn)有技術(shù)系統(tǒng)達(dá)到聯(lián)合編碼系統(tǒng)的最大性能。此外,對準(zhǔn)具有不同頻譜性質(zhì)的區(qū)域(例如聲音的和類似噪聲的區(qū)域)之間的轉(zhuǎn)換交叉的可能性未被利用。
發(fā)明內(nèi)容
本發(fā)明提供一種新方法和一種設(shè)備用于改善使用高頻重建方法(HFR)的編碼系統(tǒng)。通過在由低頻帶編解碼器和HFR系統(tǒng)分別引入的人工產(chǎn)物之間產(chǎn)生最佳值折衷的過渡頻率的繼續(xù)估計和應(yīng)用,本發(fā)明從使用傳統(tǒng)編碼方案(例如MPEG層3或AAC)的低頻帶和使用HFR編碼方案的高頻帶之間的一個固定過渡頻率的傳統(tǒng)使用中分離出來。根據(jù)本發(fā)明,該選擇可以以如下為基礎(chǔ)利用核心編解碼器編碼一個信號的難度測量、一個短時比特需求檢測以及一個頻譜音調(diào)分析或者它們的任意組合。難點測量可以從知覺熵或者心理學(xué)相關(guān)的核心編解碼器失真中得到。由于最佳選擇經(jīng)常在時間上改變,所以可變過渡頻率的應(yīng)用導(dǎo)致一個基本上改良的音頻質(zhì)量,這也較少依靠程序材料特性。本發(fā)明適用于單端以及雙端HFR系統(tǒng)。
現(xiàn)在將參考附圖通過不限制本發(fā)明范圍或精神的說明示例來描述本發(fā)明,附圖中圖1是說明各項低頻帶、高頻帶以及過渡頻率的曲線圖。
圖2是說明核心編解碼器工作負(fù)載測量的曲線圖。
圖3是說明恒定比特率編解碼器的短時比特需求變化的曲線圖。
圖4是說明信號劃分成為聲音和類似噪聲的頻率范圍的曲線圖。
圖5是被一個過渡頻率控制模塊增強的一個基于HFR的編碼器框圖。
圖6是詳細(xì)地說明過渡頻率控制模塊的一個框圖。
圖7是相應(yīng)的基于HFR的解碼器框圖。
具體實施例方式
下面描述的實施例只是說明本發(fā)明的原理。不言而喻,在此描述的配置和細(xì)節(jié)的改進(jìn)與變化對本領(lǐng)域技術(shù)人員來說是顯而易見的。因此,想要僅僅通過隨后的專利權(quán)利要求范圍來限制而非通過在此的實施例說明和解釋呈現(xiàn)的具體細(xì)節(jié)來限制。
在如圖1給出的低頻帶或低頻范圍101被核心編解碼器編碼、并且高頻帶或高頻范圍102被一個適當(dāng)?shù)腍FR方法適用的一個系統(tǒng)中,兩個范圍之間的邊界可以被定義為過渡頻率103。因為編碼方案按塊規(guī)一幀幀的基礎(chǔ)進(jìn)行操作,所以人們可對于每個被處理幀自由地改變過渡頻率。根據(jù)本發(fā)明,可設(shè)置一種適應(yīng)過渡頻率的檢測算法如此以使獲得組合編碼系統(tǒng)的最佳質(zhì)量。它的配置在下文中被稱為過渡頻率控制模塊。
考慮核心編解碼器的音頻質(zhì)量也是重建高頻帶質(zhì)量的根據(jù),很明顯,在低頻帶范圍中的一個優(yōu)良且恒定的音頻質(zhì)量被期望。通過減低過渡頻率,核心編解碼器不得不對付的頻率范圍變小,并因此容易編碼。因此,通過測量編碼一個幀的難度并相應(yīng)地調(diào)整過渡頻率,則可以獲得核心編碼器的一個更恒定的音頻質(zhì)量。
作為如何測量難度的一個示例,知覺熵[ISO/TEC 13818-7附件B.2.1]可以被使用在這里,一個基于頻譜分析的心理學(xué)模型被應(yīng)用。通常,分析濾波器組的譜線被歸組到頻帶中,在此一個頻帶內(nèi)的線數(shù)取決于頻帶中心頻率并且根據(jù)熟知的bark scale來被選擇,目的是全頻帶的一個知覺固定頻率解決方案。通過使用一個利用諸如頻譜或暫時屏蔽之類的效果的心理學(xué)模式,則獲得對于每個頻帶的聽覺閾值。一個頻帶內(nèi)的知覺熵然后如下給出e(b)=12Σi=0L(b)-1log2(r(i)+1)]]>(公式1)其中r(i)=s(i)2L(b)t(b)]]>并且i-當(dāng)前頻帶內(nèi)的譜線指標(biāo)s(i)=線路i的頻譜值
L(b)=當(dāng)前頻帶中的線路數(shù)t(b)=當(dāng)前頻帶的心理學(xué)閾值b=頻帶指標(biāo)l=當(dāng)前頻帶中的線數(shù)如此以致r(i)>1.0并且只是項如此以致r(i)>1.0被用于累加中。
通過總計在低頻帶范圍中不得不被編碼的所有頻帶的知覺熵,則獲得當(dāng)前幀的編碼難點的一個測量。
根據(jù)等式2,則一種類似的方法通過總計每個頻帶的失真能量來計算在核心編解碼器編碼處理最后的失真能量。ntot=Σb-0B-1n(b)]]>(公式2)在此 并且nq(b)=量化噪聲能量t(b)=心理學(xué)閾值b=頻帶指標(biāo)B=頻帶數(shù)此外,失真能量可以被一個音量曲線加權(quán),以便把實際的失真加權(quán)到它的心理學(xué)相關(guān)性上。作為一個示例,等式2中的累加可以被修改為nnot′=Σb=0B-1(n(b))0.23]]>(公式3)在此按照Zwicker的音量函數(shù)的一個簡化形式得到了使用[“Psychoacoustics”,Eberhard Zwicker和Hugo Fastl,Springer-Verlag,Berlin1990]。
一個編碼難點或工作負(fù)載測量因此可以被定義為總失真的一個函數(shù)。圖2給出了一個知覺音頻編解碼器的失真能量以及一個相應(yīng)工作負(fù)載測量的例子,在此,一個非線性遞歸已被用來計算工作負(fù)載??梢钥吹焦ぷ髫?fù)載示出了時間上的高漂移并且取決于輸入材料特性。
高知覺熵或高度失真能量表示一個信號心理聲學(xué)上難以以一個有限比特率來編碼,并且低頻帶中的可聽人工產(chǎn)物可能出現(xiàn)。在這種情況下,過渡頻率控制模塊將指令使用一個較低的過渡頻率以便對于知覺音頻編碼器更容易對付給定信號。同時,低知覺熵或低失真能量指示一個易編碼信號。因此,過渡頻率將被選擇更高以便對于低頻帶允許一個更寬頻率范圍,從而減少由于任何現(xiàn)有HFR方法有限性能而可能在高頻帶中引入的人工產(chǎn)物。如果過渡頻率的調(diào)整已經(jīng)在分析階段被指令過的話,則兩種方法都還允許通過重新編碼當(dāng)前幀來使用一種分析合成方法。可是,因為重疊轉(zhuǎn)換被使用于最新科技的音頻編解碼器中,所以系統(tǒng)性能可以通過在時間上應(yīng)用分析輸入?yún)?shù)的一個平滑而被改良,以免過渡頻率的太頻繁切換,其可能引起抑制效應(yīng)。如果實際的設(shè)備不需要就處理延遲方面被最佳化,則通過使用時間上的一個更大預(yù)見、提供查找在時間上的點(在該時間點處可以進(jìn)行具有切換人工產(chǎn)物最小值的偏移)可以進(jìn)一步改良該檢測算法。非實時應(yīng)用表示這種特定情況如果期望的話,則要被編碼的整個文件可以被分析。
在恒定比特率(CBR)音頻編解碼器的情況下,一個短時比特需求變化分析可以被使用作為交叉判斷中的一個附加輸入?yún)?shù)諸如MPEG層3或MPEG2AAC之類的最新科技的音頻編碼器使用一個比特儲藏技術(shù)以便補償每一幀從可用比特平均數(shù)中的短時峰值比特需求偏移。此類比特儲藏的滿度表示核心編碼器是否能夠解決好即將來臨的難以編碼的幀。每一幀被使用的比特數(shù)以及時間上的比特儲藏滿度的實際例子在圖3中給出。因此,如果比特儲藏滿度為高,則核心編碼器將能夠處理一個困難的幀并且不需要選擇一個較低的過渡頻率。同時,如果比特儲藏滿度為低,則通過減低過渡頻率在隨后的幀中結(jié)果的音頻質(zhì)量可以基本上被改良,如此以致由于不得不被編碼的頻率范圍較小而可以填滿比特儲藏。再一次,由于可以很好地預(yù)先預(yù)知比特儲藏滿度的特性,所以一個大的預(yù)見能夠改善檢測方法。
除當(dāng)前幀的編碼難點之外,基于過渡頻率選擇的另外一個重要的參數(shù)被描述如下諸如語音或一些樂器之類的大量音頻信號示出這樣一個性質(zhì)即,頻譜范圍可以被分成一個音調(diào)或音頻范圍和一個類似噪音范圍。圖4示出了此性質(zhì)被清楚顯示的一個音頻輸入信號的頻譜。在頻譜域中使用音調(diào)和/或噪聲分析方法,可以檢測兩個范圍,其可以被分別分類為聲音的和類似噪聲的。例如在AAC標(biāo)準(zhǔn)中給出的,音調(diào)可以被計算出[ISO/EEC 13818-71997(E),pp.96-98,sectionB.2.1.4”Steps in threshold calculation”]。諸如頻譜均勻性測量之類的其它熟知的音調(diào)或噪聲檢測算法也適合于本目的。因此,在這些范圍之間的過渡頻率被使用作為本發(fā)明環(huán)境中的過渡頻率以便更好地分開聲音的和類似噪聲的頻譜范圍并且把它們分別饋送給核心編碼器,分別的HFR方法。因此組合編解碼器系統(tǒng)的整個音頻質(zhì)量在這些情況下能基本上被改良。
顯然,上面的方法同樣適用于雙端和單端HFR系統(tǒng)。在后一種情況中,被核心編解碼器編碼的變化帶寬的僅僅一個低頻帶被發(fā)射。HFR解碼器然后推斷來自低頻帶截止頻率以上的一個包絡(luò)。此外,本發(fā)明可應(yīng)用到通過與被用于低頻帶編碼的方法不同的任意方法來產(chǎn)生高頻帶的那些系統(tǒng)中。
當(dāng)應(yīng)用諸如頻率轉(zhuǎn)換之類的傳統(tǒng)置換方法時,把HFR開始頻率適應(yīng)到低頻帶信號的變化帶寬將是一個非常冗長乏味的任務(wù)。那些方法通常包括引起頻移的低頻帶信號的濾波以便提取一個低通或帶通信號,其隨后在時域中被調(diào)制。因此,一個適配將合并低通或帶通濾波器的切換并且在調(diào)制頻率中變化。此外,濾波器的一個改變引起輸出信號中的不連續(xù)性,這推動窗口技術(shù)的使用??墒牵谝粋€基于濾波器組的系統(tǒng)中,通過從一組連續(xù)的濾波頻帶中提取次能帶信號來自動地獲得濾波。然后通過在濾波器組內(nèi)修補提取的次能帶信號獲得時域調(diào)制的一個等價物。修補很容易適合變化的過渡頻率,并且前述的窗口為次能帶域所固有,因此轉(zhuǎn)換參數(shù)的改變以很少的附加復(fù)雜性而被實現(xiàn)。
圖5示出了一個根據(jù)本發(fā)明增強的基于HFR的編解碼器的編碼器側(cè)的示例。模擬輸入信號被饋送給一個A/D轉(zhuǎn)換器501,形成一個數(shù)字信號。數(shù)字音頻信號被饋送給一個核心編碼器502,在此源編碼被執(zhí)行。另外,數(shù)字信號被饋送給一個HFR包絡(luò)編碼器503。HFR包絡(luò)編碼器的輸出表示覆蓋起始于圖1中說明的過渡頻率103的高頻帶102的包絡(luò)數(shù)據(jù)。在包絡(luò)編碼器中包絡(luò)數(shù)據(jù)所需要的比特數(shù)被傳遞到核心編碼器以便對于一個給定幀從總有效比特中減去之。核心編碼器然后將編碼剩余低頻帶頻率范圍直到過渡頻率。正如本發(fā)明所教導(dǎo)的,一個過渡頻率控制模塊504被加到編碼器。輸入信號以及核心編解碼器狀態(tài)信號的一個時域和/或頻域表示被饋送給過渡頻率控制模塊。模塊504的輸出,以過渡頻率的最佳選擇的形式,被饋送給核心和包絡(luò)編碼器以便指令將被編碼的頻率范圍。兩個編碼方案每一個的頻率范圍例如也通過一個有效表格查尋方案進(jìn)行編碼。如果在兩個后續(xù)幀之間的頻率范圍未變化,則這可以被一個單個比特發(fā)送信號以便保持盡可能小的比特率開銷。因此頻率范圍不必在每一幀中都被明確發(fā)射。兩個編碼器的編碼數(shù)據(jù)然后被饋送給多路復(fù)用器,形成被發(fā)射或儲存的一個串行比特流。
圖6分別給出了在過渡頻率控制模塊504和601內(nèi)的子系統(tǒng)示例。一個編碼器工作負(fù)載測量分析模塊602例如使用如上所述的知覺熵或失真能量方法來探測對于核心編碼器編碼當(dāng)前幀多么難。倘若核心編解碼器使用一個比特儲藏,則一個緩存器滿度分析模塊可以被包括,603。當(dāng)可應(yīng)用時,一個音調(diào)分析模塊604指令一個目標(biāo)過渡頻率與聲音的/噪聲的過渡頻率相應(yīng)。當(dāng)計算為了獲得最大總體性能而使用的過渡頻率時,根據(jù)所使用的核心和HFR編解碼器的實際設(shè)備合并并均衡聯(lián)合判斷模塊606的所有輸入?yún)?shù)。
相應(yīng)的解碼器側(cè)如圖7所示。去復(fù)用器701把比特流信號分離成為核心編解碼器數(shù)據(jù)、包絡(luò)數(shù)據(jù),核心編解碼器數(shù)據(jù)被饋送給核心解碼器702,包絡(luò)數(shù)據(jù)被饋送給HFR包絡(luò)解碼器703。核心解碼器產(chǎn)生一個覆蓋低頻帶頻率范圍的信號。同樣地,HFR包絡(luò)解碼器把數(shù)據(jù)解碼成為高頻帶頻率范圍的頻譜包絡(luò)的一個表示。解碼的包絡(luò)數(shù)據(jù)然后被饋送給增益控制模塊704。來自核心解碼器中的低頻帶信號被路由到置換模塊705,它根據(jù)過渡頻率產(chǎn)生來自低頻帶中的一個重復(fù)的高頻帶信號。該高頻帶信號被饋送給增益控制模塊以便把高頻帶頻譜包絡(luò)調(diào)整到發(fā)射包絡(luò)的上面。輸出因此是一個包絡(luò)調(diào)整了的高頻帶音頻信號。此信號被加到來自延遲單元706中的輸出上,其用低頻帶音頻信號饋送然而該延遲補償了高頻帶信號的處理時間。最后,所獲得的數(shù)字寬帶信號在D/A轉(zhuǎn)換器707中被轉(zhuǎn)換成一個模擬音頻信號。
權(quán)利要求
1.一種用于改良正常音頻編碼系統(tǒng)性能的方法,所述正常音頻編碼系統(tǒng)包括一個核心編解碼器,用于編碼一個較低頻帶達(dá)到一個過渡頻率,和一個HFR系統(tǒng),用于產(chǎn)生起始于所述過渡頻率的一個更高頻帶,其特征在于在一個編碼器中,在時間上自適應(yīng)選擇所述過渡頻率的數(shù)值。
2.根據(jù)權(quán)利要求1的方法,其特征在于所述值從利用所述核心編解碼器編碼一個信號的難度測量中得到,并且一個高難度降低所述數(shù)值,而一個低難度增加所述數(shù)值。
3.根據(jù)權(quán)利要求2的方法,其特征在于所述測量是以一個信號的知覺熵為基礎(chǔ)的。
4.根據(jù)權(quán)利要求2的方法,其特征在于所述測量是以在用所述核心編解碼器編碼之后的失真能量為基礎(chǔ)的。
5.根據(jù)權(quán)利要求2的方法,其特征在于所述測量是以與所述核心編解碼器相關(guān)的比特儲藏的狀態(tài)為基礎(chǔ)的。
6.根據(jù)權(quán)利要求2-5的方法,其特征在于所述知覺熵、所述核心編解碼器失真和所述核心編解碼器比特儲藏狀態(tài)的任意組合被用來獲得所述值。
7.根據(jù)權(quán)利要求1的方法,其特征在于在輸入信號的聲音的和類似噪音的頻率范圍之間的一個邊界被檢測,并且所述值對應(yīng)所述邊界。
8.根據(jù)權(quán)利要求1、2和7的方法,其特征在于所述值是以編碼一個信號的難點的所述測量和聲音的和類似噪聲的頻率范圍之間的所述邊界的一個組合為基礎(chǔ)的。
9.一種正常音頻編碼系統(tǒng),包括用于編碼一個較低頻帶達(dá)到一個過渡頻率的裝置,和用于高頻重建起始于所述過渡頻率的一個更高頻帶的裝置,其特征在于所述源編碼系統(tǒng)的一個編碼器具有用于在時間上自適應(yīng)選擇所述過渡頻率數(shù)值的裝置。
全文摘要
本發(fā)明涉及使用高頻重建(HFR)方法的數(shù)字音頻編碼系統(tǒng)。它教導(dǎo)了如何通過在核心編解碼器編碼的低頻帶和HFR系統(tǒng)編碼的高頻帶之間的過渡頻率的時間上的一個匹配來改進(jìn)此類系統(tǒng)的總體性能。建立過渡頻率瞬時最佳選擇的各種方法被介紹。
文檔編號G10L19/18GK1475010SQ0181897
公開日2004年2月11日 申請日期2001年11月14日 優(yōu)先權(quán)日2000年11月15日
發(fā)明者弗雷德里克·翰, 弗雷德里克 翰, 亞斯 埃雷特, 安德烈亞斯·埃雷特, 舒格, 邁克·舒格 申請人:編碼技術(shù)瑞典股份公司