專利名稱:對源音頻信號進行編碼的方法和相應的編碼設備、解碼方法和設備、信號、計算機程序產(chǎn)品的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對諸如音樂之類的音頻數(shù)字信號或數(shù)字化語音信號 進行編碼和解碼的纟支術(shù)領(lǐng)域。
具體地說,本發(fā)明涉及在實現(xiàn)感知編碼(perceptual encoding ) 中量化音頻信號的譜系數(shù)的技術(shù)。
本發(fā)明特別(但不只是)可應用于在MPEG音頻標準(ISO/1EC 14496-3 )的環(huán)境內(nèi)所提出的使用可擴縮數(shù)據(jù)編碼/解碼型系統(tǒng)對音頻 數(shù)字數(shù)據(jù)進行分級編碼(hierarchical encoding )的系統(tǒng)。
一般地說,本發(fā)明可以應用于對聲音和音樂進行高效量化以便存 儲、壓縮和通過傳輸信道(例如,無線或有線信道)傳輸聲音和音樂 的技術(shù)領(lǐng)域。
背景技術(shù):
1傳輸掩蔽曲線的感知編碼 1.1音頻壓縮和量化
音頻壓縮往往基于人耳的一定聽覺能力。對音頻信號的編碼和量 化往往要考慮這個特性。在這種情況下所用的術(shù)語是"感知編碼",或 者遵從人耳心理聽覺模型的編碼。
人耳不能區(qū)分一個信號在鄰近頻率和在有限時隙內(nèi)發(fā)送的兩個 分量。這個性質(zhì)稱為聽覺掩蔽(auditory masking)。此外,耳朵具有 聽覺門限(hearing threshold),在安靜的環(huán)境內(nèi),將感覺不到所發(fā) 送的低于聽覺門限的聲音。這個門限的值隨聲波頻率改變。
在壓縮和/或傳輸音頻數(shù)字信號中,可以想到的是,確定量化比 特數(shù),以量化形成信號的頻鐠分量,不會引入過多的量化噪聲而損害到編碼后信號的質(zhì)量。目標通常是減少量化比特數(shù)量以得到對信號的 高效壓縮。因此,必須做的是找到聲音質(zhì)量與信號壓縮程度之間的折 衷。
所以,在經(jīng)典的現(xiàn)有技術(shù)中,量化原理使用了人耳引起的掩蔽門 限和掩蔽性質(zhì),以確定注入音頻信號而在信號再現(xiàn)時耳朵感覺不到(即 不會引入任何過分失真)的可接受的最大量化噪聲量。
1.2感知音頻變換編碼
音頻變換編碼的詳細說明可參見Jayant、 Johnson和Safranek 的"基于人類感知的方法的信號壓縮"("Signal Compression Based on Method of Human Perception", Proc.OfIEEE, Vol.81, No. 10, pp. 1385-1422, October 1993 )。
這種技術(shù)使用了圖1所例示的人耳頻率掩蔽模型,圖中示出了音 頻信號頻率與人耳掩蔽門限之間的關(guān)系的例子。X軸10表示頻率f (Hz) , Y軸ll表示聲強I (dB)。人耳將信號x(t)的頻譜在頻域內(nèi)
按Bark刻度分解成一些關(guān)鍵頻帶(critical band) 120、 121、 122、 123。信號i(f)的關(guān)鍵頻帶n 120具有能量En,在頻帶n內(nèi)和在鄰近
的關(guān)鍵頻帶122和123處產(chǎn)生掩蔽13。所關(guān)聯(lián)的掩蔽門限13與"掩蔽" 分量120的能量En成正比,而隨關(guān)鍵頻帶低于和高于關(guān)鍵頻帶n遞 減。
分量122和123在圖l這個例子中受到掩蔽。此外,分量121由 于低于絕對聽覺門限14也受到掩蔽。于是,通過將絕對聽覺門限14 和與音頻信號;r(f)的以關(guān)鍵頻帶分析的各個分量關(guān)聯(lián)的掩蔽門限組合
在一起,就可以得到總的掩蔽曲線。這個掩蔽曲線表示可以在信號編 碼時疊加到信號上而人耳感覺不到的最大量化噪聲的譜密度。于是, 在量化從源音頻信號頻率變換得到的i瞽系數(shù)期間,就可形成量化間隔 分布(quantization interval profile ),不很嚴格地也可稱為注入噪聲 分布。
圖2為例示經(jīng)典的感知編碼器的原理的流程圖。時間源音頻信號x(t)由時間-頻率變換單元20變換到頻域。于是,得到由鐠系數(shù)J^形
成的信號的頻語。該頻鐠由心理聽覺模型21分析,該模型根據(jù)絕對聽 覺門限和信號的每個頻語分量的掩蔽門限確定信號的總掩蔽曲線C。 所得到的掩蔽曲線可用來得出可以注入的量化噪聲量,從而確定用來 量化鐠系數(shù)或樣本的比特數(shù)。確定比特數(shù)這個步驟由給出每個鐠系數(shù) X,i的量化間隔分布A^的二進制分配單元22執(zhí)行。二進制分配單元通
過用掩蔽曲線C所給出的成形限制修改量化間隔設法達到目標比特 率。量化間隔 由二進制分配單元22以比例因子F的形式編碼,再
在比特流T內(nèi)作為輔助信息發(fā)送。
量化單元23接收到鐠系數(shù)X^和所確定的量化間隔^后給出經(jīng)量
化的系數(shù)1 。
最后,編碼和比特流形成單元24將經(jīng)量化的譜系數(shù)1 和比例因
子F集中在一起進行編碼,形成含有經(jīng)編碼的源音頻信號的有效負栽 數(shù)據(jù)和表示比例因子的數(shù)據(jù)的比特流。 2掩蔽曲線的分級構(gòu)建
下面說明在音頻數(shù)字數(shù)據(jù)分級編碼環(huán)境內(nèi)現(xiàn)有技術(shù)的缺點。然 而,本發(fā)明可以應用于根據(jù)人耳心理聽覺模型實現(xiàn)量化的各種音頻數(shù) 字信號編碼器。這些編碼器不一定是分級的。
分級編碼需要將一些編碼級級聯(lián)起來。第一級產(chǎn)生比特率最低的 編碼版本,而隨后的這些級提供逐級增大比特率的相繼改善。在音頻 信號編碼的特定情況下,這些改善級傳統(tǒng)上基于如在以上這節(jié)中所說 明的感知變換編碼。
然而,這種分級感知變換編碼的一個缺點是必須從最前面的一級 或者說初級就發(fā)送所得到的比例因子。這些比例因子與有效負載數(shù)據(jù) 相比占用了分配給低比特率級的一大部分比特率。
為了克服這個缺點以節(jié)約對注入量化噪聲分布(即比例因子)的 傳輸,J. Li在"采用隱含聽覺掩蔽的嵌入式音頻編碼(EAC)" ("Embedded Audio Coding ( EAC )With Implicit AuditoryMasking", ACM Multimedia 2002 )中業(yè)已提出 一種稱為"隱含,,技術(shù) 的掩蔽技術(shù)。這種技術(shù)有賴于分級結(jié)構(gòu)的編碼/解碼系統(tǒng),在每個改善 級用掩蔽曲線的近似值對掩蔽曲線進行遞推估計,使掩蔽曲線逐級細 化。
因此,在分級編碼的每個級利用在前一級所量化的變換系數(shù)重復 更新掩蔽曲線。
由于對掩蔽曲線的估計基于時間-頻率變換的系數(shù)的量化值,因 此能在編碼器和解碼器處同樣執(zhí)行,這具有避免向解碼器傳輸量化間 隔分布或量化噪聲的優(yōu)點。
3現(xiàn)有技術(shù)的缺點
即使基于分級編碼的隱含掩蔽技術(shù)避免了傳輸掩蔽曲線因此與 經(jīng)典的需發(fā)送量化間隔分布的感知編碼相比在比特率上有所得益,但 本發(fā)明的發(fā)明者注意到它還具有一些缺點。
確實,在編碼器和解碼器內(nèi)同時實現(xiàn)的掩蔽模型一定是閉環(huán)的 (closed-ended),因此可以不用精確地適合信號的特性。例如,無論 需編碼的頻語分量有沒有音調(diào)特性都使用單個掩蔽因子。
此外,掩蔽曲線是在信號是標準(standing)信號的假設下計算 的,不能適當?shù)貞糜谒沧儾糠趾吐暃_擊。
此外,由于掩蔽曲線是在每一級從前一級所量化的系數(shù)或系數(shù)殘 差得出,因此第一級的掩蔽曲線由于某些部分的頻鐠還沒有編碼所以 是不完全的。這個不完全的曲線不一定表示所考慮的這個分級編碼級 的量化間隔分布的最佳形狀。
發(fā)明內(nèi)容
本發(fā)明提出了一種對源音頻信號進行編碼的方法,這種方法包括 下列步驟
按照至少兩個不同的編碼技術(shù)對表示源音頻信號的至少一 個變換的系數(shù)的量化分布進行編碼,給出表示量化分布的至少兩 個數(shù)據(jù)組;按照基于分別從所述數(shù)據(jù)組重建的信號的失真的度量和基 于對所述數(shù)據(jù)組進行編碼所需的比特率的選擇準則,選擇表示量
化分布的所述數(shù)據(jù)組中的一個數(shù)據(jù)組;以及
發(fā)送和/或存儲表示所選擇的量化分布的所述數(shù)據(jù)組和表示 相應的編碼技術(shù)的指示符。
因此,本發(fā)明所依賴的是一種新穎的、創(chuàng)造性的對源音頻信號的 系數(shù)進行編碼的途徑,這種途徑可以降低分配給傳輸量化間隔的比特 率,同時還將注入量化噪聲分布保持成盡可能接近從對信號的完整知 識計算得出的掩蔽曲線所給定的分布。
本發(fā)明提出在計算量化間隔分布的不同可行模式之間進行選擇。 因此,可以在若干量化間隔分布或注入噪聲分布的模板之間進行選擇。 這個選擇由指示符,例如包含在由編碼器形成的發(fā)送給音頻信號再現(xiàn) 系統(tǒng)即解碼器的比特流內(nèi)的信號,報告。
選種準則可以主要考慮每個量化分布的效率和對相應數(shù)據(jù)組進 行編碼所需的比特率。
因此,在傳送表示信號的數(shù)據(jù)所需的比特率與影響信號的失真之
間得到折衷。
量化于是得到優(yōu)化。同時,使得發(fā)送不直接提供音頻信號本身的 表示量化間隔分布的信息的數(shù)據(jù)所需的比特率最小。
也就是說,在解碼器處,量化模式的選擇通過將根據(jù)需編碼的音 頻信號估計的基準掩蔽曲線與分別與各個量化模式關(guān)聯(lián)的噪聲分布相 比較來實現(xiàn)。
與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)改善了壓縮效率,因此提供了更 好的感知質(zhì)量。
對于編碼技術(shù)中至少第一編碼技術(shù)來說,數(shù)據(jù)組可以與量化分布 的參數(shù)表示相應。
也就是說,在所提出的量化經(jīng)變換的音頻信號的系數(shù)的這些技術(shù) 中,有以參數(shù)表示量化分布的可能性。
在一個特定實施例中,參數(shù)表示由至少一個由斜率和初始值表征的直線段形成。
第二編碼技術(shù)可以給出恒定的量化分布。
這種編碼模式因此提出根據(jù)信噪比(SNR)而不是根據(jù)信號的掩 蔽曲線對量化間隔分布編碼。
按照第三有益編碼技術(shù),量化分布與絕對聽覺門限相應。
也就是說,表示量化分布的數(shù)據(jù)組可以是空的,編碼器不用向解 碼器發(fā)送任何量化分布數(shù)據(jù)。絕對聽覺門限對于解碼器來說是已知的。
按照第四編碼技術(shù),表示量化分布的數(shù)據(jù)組可以包括所有所實施 的量化間隔。
這種第四編碼技術(shù)對應于量化間隔分布根據(jù)只有編碼器知道的 信號的掩蔽曲線確定、完全發(fā)送給解碼器的情況。所需的比特率高, 但信號的再現(xiàn)質(zhì)量最佳。
在一個特定實施例中,編碼實現(xiàn)分級處理,給出包括一個初級和 至少一個細化級的至少兩個分級編碼級,所述細化級包括對初級或前 一細化級的細化信息。
在這種情況下,采用第五編碼技術(shù),表示量化分布的數(shù)據(jù)組在給 定細化級通過考慮前一分級編碼級所構(gòu)建的數(shù)據(jù)得出。
因此本發(fā)明可以高效地應用于分級編碼,提出按照在每個分級編 碼級細化量化間隔分布的技術(shù)對量化間隔分布進行編碼。
選擇步驟可以在每個分級編碼級執(zhí)行。
如果編碼方法給出一些系數(shù)幀,可以為每個幀執(zhí)行選擇步驟。 因此,不僅可以為每個處理幀執(zhí)行信號傳送,而且在對數(shù)據(jù)分級
編碼的特定應用中可以為每個細化級執(zhí)行信號傳送。
在其他情況下,編碼可以對包括一些具有預定或可變長度的幀的 組執(zhí)行。還可以規(guī)定,只要沒有發(fā)送新的指示符,當前分布保持不變。
本發(fā)明還涉及包括實現(xiàn)這樣的方法的裝置的對源音頻信號進行 編碼的設備。
本發(fā)明還涉及實現(xiàn)如以上所說明的編碼方法的計算機程序產(chǎn)品。 本發(fā)明還涉及表示源音頻信號的包括表示量化分布的數(shù)據(jù)的經(jīng)編碼信號。這樣的信號主要包括
表示在編碼時根據(jù)選擇準則從至少兩個可用技術(shù)中選出的
一個對所實現(xiàn)的量化分布進行編碼的技術(shù)的指示符,所述選擇準 則基于分別從按照所述技術(shù)編碼的量化分布重建的信號的失真 的度量和基于按照所述技術(shù)對量化分布進行編碼所需的比特率; 以及
表示相應量化分布的數(shù)據(jù)組。
這樣的信號可以主要包括關(guān)于通過分級處理得到的包括一個初 級和至少一個細化級的至少兩個分級編碼級的數(shù)據(jù),所述細化級包括 對初級或前一細化級的細化信息;以及表示每級的編碼技術(shù)的指示符。
在將本發(fā)明的信號組織在一些相繼的系數(shù)的幀中時,信號可以包 括表示用于每個幀的編碼技術(shù)的指示符。
本發(fā)明還涉及對這樣的信號進行解碼的方法。這種方法主要包括 下列步驟
從經(jīng)編碼信號提取
表示在編碼時根據(jù)選擇準則從至少兩個可用技術(shù)中選 出的一個對所實現(xiàn)的量化分布進行編碼的技術(shù)的指示符,所 述選擇準則基于分別從按照所述技術(shù)編碼的量化分布重建 的信號的失真的度量和基于按照所述技術(shù)對量化分布進行 編碼所需的比特率,以及
表示所述相應量化分布的數(shù)據(jù)組;以及 根據(jù)所述數(shù)據(jù)組和由所述指示符標明的編碼技術(shù)重建所述 重建的量化分布。
這種類型的解碼方法還包括考慮所重建的量化分布構(gòu)建表示源 音頻信號的重建音頻信號的步驟。
對于這些編碼技術(shù)中至少第 一編碼技術(shù),數(shù)據(jù)組可以與量化分布 的參數(shù)表示相應,而重建步驟給出以至少一個直線段的形式重建的量 化分布。
對于這些編碼技術(shù)中的至少第二編碼技術(shù),數(shù)據(jù)組可以是空的,而重建步驟給出恒定的量化分布。
對于這些編碼技術(shù)中的至少第三編碼技術(shù),數(shù)據(jù)組可以是空的, 而量化分布與絕對聽覺門限相應。
對于這些編碼技術(shù)中的至少第四編碼技術(shù),數(shù)據(jù)組可以包括在以 上所說明的編碼方法期間所實施的所有量化間隔,而構(gòu)建步驟給出呈 現(xiàn)為在編碼方法期間實施的 一 組量化間隔形式的量化值。
在一個特定實施例中,解碼方法可以實現(xiàn)分級處理,給出包括一 個初級和至少一個細化級的至少兩個分級編碼級,所述細化級包括對 初級或前一細化級的細化信息。
對于這些編碼技術(shù)中的至少第五編碼技術(shù),重建步驟在給定細化 級給出考慮前一分級編碼級所構(gòu)建的數(shù)據(jù)而得到的量化分布。
本發(fā)明還涉及對表示源音頻信號的經(jīng)編碼信號進行解碼的設備, 包括實現(xiàn)以上所說明的解碼方法的裝置。
本發(fā)明還涉及實現(xiàn)如以上所說明的解碼方法的計算機程序產(chǎn)品。
說明中和從附圖中可以看到本發(fā)明的實施例的其他特征和優(yōu)點,在這
些附圖中
圖l例示了頻率掩蔽門限;
圖2為按照現(xiàn)有技術(shù)實現(xiàn)的感知變換編碼的簡化流程圖3例示了按照本發(fā)明的信號的一個例子
圖4為按照本發(fā)明的編碼方法的簡化流程圖5為按照本發(fā)明的解碼方法的簡化流程圖;以及
圖6A和6B示意性地例示了實現(xiàn)本發(fā)明的編碼設備和解碼設備。
具體實施方式
1編碼器結(jié)構(gòu)
下面將對本發(fā)明在分級編碼的具體應用中的實施例進行說明??梢曰叵胍幌拢谶@種方案中,分級編碼在需編碼的源音頻信號的時間-
頻率變換(例如,經(jīng)修改的離散余弦變換MDCT)的輸出端確立了級 聯(lián)的感知量化間隔。
下面將參考圖4對按照本發(fā)明的這個實施例的編碼器進行說明。 源音頻信號X(t)被直接或間接地變換到頻域。確實,任選地,可以首
先在編碼步驟40將信號X(O編碼。這種類型的步驟由"核心"編碼器實
現(xiàn)。在這種情況下,第一編碼步驟與第一分級編碼級即初始級相應。 這種類型的"核心,,編碼器可以實現(xiàn)編碼步驟401和本地解碼步驟402。 于是,它給出表示以最低精細度的編碼的音頻信號的數(shù)據(jù)的第一比特 流46??梢栽O想用各種編碼技術(shù)來得到這個低比特率級,例如用參量 編碼方案,諸如在B. den Brinker、 E.和W. Schuijers Oomen的"高質(zhì) 量音頻參量編碼,,("Parametric coding for high quality audio", in Proc. 112th AES Convention, Munich, Germany, 2002 )中所揭示的正弦 編碼,在M. Schroeder和B. Atal的"碼激線性預測(CELP):極低 比特率的高質(zhì)量語音,,("Code-excited linear prediction ( CELP): high quality speech at very low bit rates", in Proc. IEEE Int. Conf. Acoust, Speech Signal Processing, Tampa, pp. 937-940 1985 )中所揭示的 CELP型分析-綜合編碼。
將經(jīng)本地解碼器402解碼的樣本與X(t)的實際值相減(步驟403 ),
得到時域內(nèi)的殘差信號r(t)。
然后,在步驟41,將低比特率編碼器40 (或者說"核心"編碼器) 輸出的這個殘差信號從時間空間變換到頻率空間。得到頻域內(nèi)的鐠系 數(shù)《^。這些系數(shù)表示"核心"編碼器40給出的第一分級編碼級的各個 關(guān)鍵頻帶A的殘差。
下一個編碼級42含有對殘差fff編碼的步驟421,它與負責確定 第一細化級的第一掩蔽曲線的心理聽覺模型的實現(xiàn)422相關(guān)聯(lián)。于是, 在編碼步驟421的輸出端得到經(jīng)量化的殘差系數(shù)殺,,再將它從來自核心編碼步驟40的原始系數(shù)ff^中減去(步驟423)。在下一級43的 編碼步驟431得到新的系數(shù)R『并對其進行量化和編碼。在這里也實
施心理聽覺模型43 ,根據(jù)先前量化的殘差的系數(shù)裔f更新掩蔽門限。
簡明地說,基本編碼步驟40 ("核心,,編碼器)可以在一個終端處 傳輸音頻信號的一個低比特率版本和對這個版本解碼。在變換域內(nèi)對 殘差進行量化的后繼級42 、 43構(gòu)成了 一些能構(gòu)建一個從低比特率級到 所希望的最大比特率的分級比特流的改善級。
按照本發(fā)明,如圖4所示,指示符llf③、一2)分別與相應量化級
的編碼級的心理聽覺模型422、 432關(guān)聯(lián)。這個指示符的值對于每個量 化級來說是特定的,控制對量化間隔分布的計算的模式。它作為經(jīng)量 化的鐠系數(shù)的442、452的幀的標題441和451安置在每個經(jīng)改善的編 碼級42、 43所形成的所關(guān)聯(lián)的比特流44、 45內(nèi)。
圖3例示了按照這種編碼技術(shù)得到的信號的結(jié)構(gòu)的例子。信號組 織成一系列各包括標題32和數(shù)據(jù)字段33的數(shù)據(jù)塊或數(shù)據(jù)幀31。 一個 數(shù)據(jù)塊例如與一個預定時隙的一個分級編碼級的數(shù)據(jù)(包含在數(shù)據(jù)段 33內(nèi)的)相應。標題32可以包括一些有助于傳信、解碼等的信息片。 按照本發(fā)明,它至少包括信息V。
2解碼器結(jié)構(gòu)
下面將參考圖5說明在對圖3的信號進行分級解碼的情況下按照 本發(fā)明實現(xiàn)的解碼方法。
以與參考圖4給出的編碼方法類似的方式,解碼包括若干解碼細 化級50、 51、 52。
第 一解碼步驟501接收含有表示第 一級在第 一編碼步驟期間確定 的發(fā)送給解碼器的指示符,W的數(shù)據(jù)530的比特流53。這個比特流還
含有表示音頻信號的i普系數(shù)的數(shù)據(jù)531。
按照所接收的這些經(jīng)量化的系數(shù)或經(jīng)量化的系數(shù)殘差和爭①的
值,在第一級502實施心理聽覺模型,以確定掩蔽曲線的第一估計, 從而確定量化間隔分布,供在解碼方法的這一級處的解碼器用來處理可得到的譜系數(shù)殘差。
所得到的每個關(guān)鍵頻帶A:的鐠系數(shù)殘差fi^使得在步驟512可以
沐
更新下一級51的心理聽覺模型,于是細化掩蔽曲線,從而細化量化間 隔分布。因此,這個細化考慮了級2的包含在相應編碼器所發(fā)送的比 特流54的標題540內(nèi)的指示符爭(2)的值、前一級的量化殘差和與包含
在比特流54內(nèi)的與級2有關(guān)的經(jīng)量化的數(shù)據(jù)541。
在第二解碼級51的輸出端得到經(jīng)量化的殘差貧f。殘差提f與前
一級的殘差ff相加(56),此外還注入下一級52,類似,級52改善
從解碼步驟51和在步驟522的心理聽覺模型的實現(xiàn)得到的鐠系數(shù)和量 化間隔分布的精度。這一級還接收編碼器發(fā)送的含有指示符^切的值
55和經(jīng)量化的頻"^普551的比特流55。
所得到的經(jīng)量化的殘差K,與殘差ff相加,諸如此類遞推。
總而言之,心理聽覺模型隨著系數(shù)被相繼的細化級解碼而更新。 讀出編碼器所發(fā)送的指示符^,每個量化級就可以重建噪聲分布(或 量化分布)。
說是共同的對:、理聽覺模型和;瞽系數(shù)i化模型進行更新的步驟。然后,
詳細說明確定編碼時所執(zhí)行的指示符^的值的步驟,再說明在解碼器 內(nèi)重建量化間隔的步驟。 3心理聽覺模型更新
可以回想一下,心理聽覺模型考慮了音頻信號被人耳分解成的子 頻帶,因此利用心理聽覺信息可以確定掩蔽門限。這些門限用來確定 鐠系數(shù)的量化間隔。
在本發(fā)明中,心理聽覺模型更新掩蔽曲線的步驟(在編碼方法的 步驟422、 432和在解碼方法的步驟502、 512、 522實現(xiàn))在選擇量化 間隔分布上無論指示符v的值如何都保持不變。
相反,心理聽覺模型使用所更新的掩蔽曲線的方式卻由指示符^ 的值而定,以確定為量化鐠系數(shù)(或在前一細化級所確定的殘差系數(shù))所需的量化間隔分布。
在每個量化級l (在分級編碼-解碼系統(tǒng)的這個具體應用中),心
理聽覺模型使用所估計的音頻信號x(O的頻譜實f ,其中A表示時間-
頻率變換的頻率附標。這個頻鐠在第一量化細化級用在核心編碼器所 實現(xiàn)的編碼步驟的輸出端可得到的數(shù)據(jù)初始化。在隨后的量化級,根 據(jù)在前一細化級的輸出端的所量化的殘差系數(shù)殺『"按照式zf =
X—"+ff"", fc-0,一,AT —i更新頻鐠ff,其中7V為變換在頻域內(nèi)
的長度。
通過將頻鐠ff與心理聽覺模型所得到的掩蔽模式進行巻積,就
可以重建與信號x(t)關(guān)聯(lián)的掩蔽門限。
于是,得到在量化步驟f所估計的掩蔽曲線翁p,作為與信號x(t)
關(guān)聯(lián)的掩蔽門限和絕對聽覺曲線中最大的那個值。
此外,編碼和解碼步驟各包括在首次根據(jù)核心編碼器發(fā)送的數(shù)據(jù)
實施心理聽覺模型(編碼方法的步驟422和解碼方法的步驟502)期 間對心理聽覺^^莫型初始化的步驟。
可以根據(jù)所實現(xiàn)的核心編碼器的類型設想若干方案,在附錄中揭 示了其中的一些例子。
4量化鐠系數(shù)
在精確說明確定決定對量化分布的選擇的指示符^的最佳值的 技術(shù)前,首先詳細說明本發(fā)明的在得知量化間隔分布后計算需分配給 量化音頻信號的各個i普系數(shù)的比特數(shù)的方式。
4.1 二進制分配
在這里所說明的是量化定律2的一般情況,例如可以與將值四舍 五入為最接近的整數(shù)相應。輸入量化級!的殘差系數(shù)fif的經(jīng)量化值段f
按照下式根據(jù)量化間隔分布Af得出<formula>formula see original document page 17</formula> 對于化0//^61"( 1) s If s fe0//set(w + 1)
其中rq,是有整數(shù)值的系數(shù),而W ;/se"n)為關(guān)鍵頻帶"的起始頻率 附標。
這部分的系數(shù)A相當于可以調(diào)整與由4 給出的分布并行注入的
量化噪聲電平的恒定增益。
在第一途徑中,增益^由分配環(huán)路確定,以便達到分配給各個量
化級!的目標比特率。然后,增益好f在量化級的輸出端的比特流內(nèi)發(fā)送
給解碼器。
在第二途徑中,增益^只是細化級〖的函數(shù),而這個函數(shù)對于解
碼器來說是已知的。
4.2量化間隔分布
于是,本發(fā)明的編碼和解碼方法建議根據(jù)在若干編碼技術(shù)或分布
計算模式之間的選擇確定量化間隔分布A^。該選擇由在比特流內(nèi)發(fā)送
的指示符y的值表示。根據(jù)這個指示符的值,或者全部發(fā)送或者部分 發(fā)送甚至完全不發(fā)送量化間隔分布。在這種情況下,量化間隔分布在 解碼器內(nèi)估計。
量化級f所用的量化間隔分布A^根據(jù)本級可得到的掩蔽曲線和
根據(jù)輸入端的指示符^(|〗計算。
在一個具體實施例中,指示符0(。編碼成3個比特,以表示5種
不同的對量化間隔分布編碼的技術(shù)。
對于指示符0"》的值=0的情況,不使用心理聽覺模型所估計的
掩蔽曲線,量化間隔分布是均勻的,遵從式A^-cte。也就是說,在信噪比(SNR)意義上進行量化。
對于指示符0(/)的值=1的情況,量化間隔分布只根據(jù)絕對聽覺門
限按照式4j = Qfc給出,其中Qic為絕對聽覺門限。
在這種情況下,編碼器不向解碼器發(fā)送任何量化間隔的信息。 對于指示符#*》的值=2的情況,是在級f用心理聽覺模型估計的掩
蔽曲線Mf按照式zlP = g:,;—1詹f給出量化間隔分布。可以注 意到的是,這種模式只是在音頻信號編碼-解碼系統(tǒng)內(nèi)實現(xiàn)分級構(gòu)建掩 蔽曲線的特定應用中才是可行的。
對于指示符*《|)的值=3的情況,量化間隔的分布根據(jù)可參量化和
解碼器已知的原型曲線給出。按照一個特定而非排它的應用,這個原 型對于各個關(guān)鍵頻帶w是以dB計的仿射直線,斜率為《??梢詫? (>)
寫成to忍20^(ff))-on + K,其中K為常數(shù)。
通過與編碼器根據(jù)對需編碼的信號的鐠分析計算得出的基準掩 蔽曲線相關(guān),選擇斜率《的值。然后,將它的量化值泛發(fā)送給解碼器,
用來按照式A^ 二 Dja)給出量化間隔分布。
最后,對于指示符一《1)的值=4的情況,將編碼步驟所確定的量化
間隔分布Af完全發(fā)送給解碼器。這些間隔值例如從編碼器根據(jù)需編碼 的源音頻信號計算得出的基準掩蔽曲線Mfc得出。于是,就有
—厶ft;&0/y腳乖》 ,° 5確定指示符^的值
本發(fā)明提出了一種明智地選擇指示符的值從而也就是選擇需用 來對音頻信號編碼和解碼的量化間隔分布的具體技術(shù)。在每個量化級,
(在分級編碼的情況下)的編碼步驟都進行這種選擇。
確實,眾所周知,在給定的量化級,就在需編碼的信號與所重建 的信號之間所感知的失真來說最佳的量化間隔分布可以通過計算基于心理聽覺模型和由式4" = 4:):—1《給出的基準掩蔽曲線得
到。選擇指示符^的值在于在就所感知的失真來說量化間隔分布的優(yōu) 化與使分配給發(fā)送量化間隔分布的比特率最小之間尋求最有效的折 衷。
為了得到這種類型的折衷引入成本函數(shù)
c"(,) = rf(J,,),jJP(f = 4)) + 0(一)
其中,爭=0,1,2,3,4。
這個函數(shù)用來考慮對量化間隔分布編碼的各種技術(shù)的效率。 第一項 》(#),4^沐=4))為與指示符^的每個所考慮的值
(爭- 0,i,2,3,4)關(guān)聯(lián)的量化間隔分布與最佳分布(與指示符^的值
=4關(guān)聯(lián),相當于基準掩蔽曲線的傳輸)之間的距離的度量??梢詼y 量這個距離,作為以比特計的與使用"亞最佳"掩蔽分布關(guān)聯(lián)的過分成 本。這個成本函數(shù)按照下式計算
rf(^)(牲4,沙二4))
其中& = 沐),而g2 - (爭=4)。
增益^與G2之比可用來對量化間隔分布相互標準化。
第二項fif,)表示與量化間隔分布A,沐)的發(fā)送關(guān)聯(lián)的以比特計
的過分成本。也就是說,它表示必須發(fā)送給解碼器以便重建量化間隔 的附加比特數(shù)(除了對指示符^編碼的以外)。也就是說
對于# = 0,1,2 (分別與在解碼步驟期間所重新評估的對恒
定量化、絕對聽覺門限和掩蔽曲線編碼的技術(shù)相應)的情況,〔爭)
在一 =3時(與對量化間隔分布進行參量編碼的技術(shù)相應),
為零;沒(釣表示對a編碼的比特數(shù);以及
在# = 4時(與編碼器將量化間隔完全發(fā)送給解碼器相應),
e(爭)為根據(jù)基準曲線給出的量化間隔a^進行編碼的比特數(shù)。 6解碼方法期間量化間隔的重建
量化間隔分布的重建在量化級/根據(jù)解碼器所發(fā)送的數(shù)據(jù)執(zhí)行。
無論選來對量化間隔編碼的是什么技術(shù),即無論指示符# 的值 是什么,解碼器首先對作為接收到的比特流的每個幀的標題所給出的
這個指示符的值進行解碼,再讀出調(diào)整增益IN的值。然后,按照指示 符的值區(qū)別對待,情況如下
如果i^④-4,解碼器讀出全部的量化間隔4f;
如果#力=3,讀出ft,再在解碼器按照先前所引入的式子 = Dn(a)計算量化間隔分布; 如果iM')-2,解碼器根據(jù)在這級f重建的掩蔽曲線Mf按照
先前所引入的式子A, 二 1份^計算量化間隔的分布
(遞推構(gòu)建);
如果一W-l,解碼器按照先前所引入的基于絕對聽覺門限
的式子4f 1^計算量化間隔分布以及
如果爭《 = 0,解碼器按照先前所引入的式子Af = cte計算 量化間隔分布。
一旦在解碼步驟計算出這些量化間隔、解碼出在比特流內(nèi)發(fā)送的 先前引入的系數(shù)rgf (相對頻鐠系數(shù)的有效負栽數(shù)據(jù)或它們的殘差 值),就可以按照在相對于二進制分配的本說明書第5.1節(jié)中所引入 的式子得到級 的殘差系數(shù)的量化值t,。
7實現(xiàn)設備本發(fā)明的方法可以用結(jié)構(gòu)如圖6A所示的編碼設備實現(xiàn)。 這樣的設備包括存儲器M 600、配有例如微處理器和由計算機程 序Pg 602驅(qū)動的處理單元601。初始化時,計算才幾程序602的代碼指 令例如裝入RAM后由處理單元601的處理器執(zhí)行。輸入時,處理單 元601接收需編碼的源音頻信號603。處理單元601的微處理器nP按 照程序Pg 602的指令實現(xiàn)以上所說明的編碼方法。處理單元601輸出 比特流604,它包括表示經(jīng)編碼的源音頻信號的經(jīng)專門量化的數(shù)據(jù)、 表示量化間隔分布的數(shù)據(jù)和表示指示符v的數(shù)據(jù)。
本發(fā)明還提出了一種按照本發(fā)明的對表示源音頻信號的編碼的 信號進行解碼的設備,圖6B示意性地例示了這種設備的原理性結(jié)構(gòu)。 這種設備包括存儲器M 610,和配有例如微處理器并由計算機程序Pg 612驅(qū)動的處理單元611。初始化時,計算機程序612的代碼指令例如 裝入RAM后由處理單元611的處理器執(zhí)行。輸入時,處理單元611 接收比特流613,它包括表示經(jīng)編碼的源音頻信號的數(shù)據(jù)、表示量化 間隔分布的數(shù)據(jù)和表示指示符^的數(shù)據(jù)。處理單元601的微處理器nP 按照程序Pg612的指令實現(xiàn)解碼方法,給出所重建的音頻信號612。附錄
心理聽覺模型可以以若干方式初始化,這取決于在初級編碼步驟 所實現(xiàn)的"核心"編碼器。
1根據(jù)正弦編碼器發(fā)送的參數(shù)初始化
正弦編碼器將音頻信號模型化為具有時變頻率和振幅的一系列 正弦波之和。頻率和振幅的量化值發(fā)送給解碼器。從這些值,可以構(gòu)
建信號的正弦分量的頻鐠f f 。
2根據(jù)CELP編碼器發(fā)送的參數(shù)初始化
根據(jù)由CELP (碼激線性預測)編碼器量化和發(fā)送的LPC (線性 預測編碼)系數(shù)汰《,可以按照下式得出包絡頻鐠
1 — V戶 -f — 喊、
1 — iLm=l arn. g尤P 、—』 ^~ J
其中,7V為變換的長度,而P為由CELP編碼器發(fā)送的LPC系數(shù)的 個數(shù)。
3根據(jù)在核心編碼器輸出端解碼的信號初始化
初始頻譜f f》可以簡單地根據(jù)對在核心編碼器輸出端解碼的信號
的短期i普分析進行估計。
還可以i殳想將這些初始化方法組合在一起。例如,可以通過將按 照上式給出的LPC包絡頻譜相加、從根據(jù)CELP編碼器編碼的殘差 估計的短期頻語得出初始頻譜f ,。
權(quán)利要求
1. 一種對源音頻信號進行編碼的方法,其特征在于包括下列步驟按照至少兩個不同的編碼技術(shù)對表示所述源音頻信號的至少一個變換的系數(shù)的量化分布進行編碼,給出表示量化分布的至少兩個數(shù)據(jù)組;按照基于分別從所述數(shù)據(jù)組重建的信號的失真的度量和基于對所述數(shù)據(jù)組進行編碼所需的比特率的選擇準則,選擇表示量化分布的所述數(shù)據(jù)組中的一個數(shù)據(jù)組;以及發(fā)送和/或存儲表示所選擇的量化分布的所述數(shù)據(jù)組和表示相應的編碼技術(shù)的指示符。
2. 按照權(quán)利要求1所述的編碼方法,其特征在于對于至少所 述編碼技術(shù)中的第 一編碼技術(shù),所述數(shù)據(jù)組與所述量化分布的參數(shù)表 示相應。
3. 按照權(quán)利要求2所述的編碼方法,其特征在于所述參數(shù)表 示由至少一段由斜率和原點值表征的直線形成。
4. 按照權(quán)利要求1至3中任一項所述的編碼方法,其特征在于 所述編碼技術(shù)中的第二編碼技術(shù)給出恒定的量化分布。
5. 按照權(quán)利要求1至4中任一項所述的編碼方法,其特征在于 按照第三編碼技術(shù),所述量化分布與絕對聽覺門限相應。
6. 按照權(quán)利要求1至5中任一項所述的編碼方法,其特征在于 按照第四編碼技術(shù),所述表示量化分布的數(shù)據(jù)組包括所有所實施的量 化間隔。
7. 按照權(quán)利要求1至6中任一項所述的編碼方法,其特征在于 所述編碼實現(xiàn)分級處理,給出包括一個初級和至少一個細化級的至少 兩個分級編碼級,所述細化級包括對所述初級或前一細化級的細化信 命
8. 按照權(quán)利要求7所述的編碼方法,其特征在于按照第五編碼技術(shù),表示量化分布的所述數(shù)據(jù)組在給定細化級通過考慮前一分級 編碼級所構(gòu)建的數(shù)據(jù)得出。
9. 按照權(quán)利要求7和8中任一項所述的編碼方法,其特征在于 所述選擇步驟在每個分級編碼級執(zhí)行。
10. 按照權(quán)利要求1至9中任一項所述的編碼方法,其特征在于 所述方法給出一些系數(shù)幀,為每個幀執(zhí)行所述選擇步驟。
11. 一種對源音頻信號進行編碼的設備,其特征在于包括 按照至少兩個不同的編碼技術(shù)對表示所述源音頻信號的至少一個變換的系數(shù)的量化分布進行編碼、給出表示量化分布的至少兩個數(shù) 據(jù)組的裝置;按照基于分別從所述數(shù)據(jù)組重建的信號的失真的度量和基于對 所述數(shù)據(jù)組進行編碼所需的比特率的選擇準則選擇表示量化分布的所 述數(shù)據(jù)組中的一個數(shù)據(jù)組的裝置;以及發(fā)送和/或存儲表示所選擇的量化分布的所述數(shù)據(jù)組和表示相應 的編碼技術(shù)的指示符的裝置。
12. —種可從通信網(wǎng)絡下載和/或存儲在計算機可讀載體內(nèi)和/或 可由微處理器執(zhí)行的計算機程序產(chǎn)品,其特征在于包括實現(xiàn)按照權(quán)利 要求1至10中任一項所述的編碼方法的程序代碼指令。
13. —種表示源音頻信號的經(jīng)編碼的信號,包括表示量化分布的 數(shù)據(jù),其特征在于包括表示在編碼時根據(jù)選擇準則從至少兩個可用技術(shù)中選出的一個 對所實現(xiàn)的量化分布進行編碼的技術(shù)的指示符,所述選擇準則基于分 別從按照所述技術(shù)編碼的量化分布重建的信號的失真的度量和基于按 照所述技術(shù)對量化分布進行編碼所需的比特率;以及表示相應量化分布的數(shù)據(jù)組。
14. 按照權(quán)利要求13所述的信號,其特征在于包括關(guān)于通過 分級處理得到的包括一個初級和至少一個細化級的至少兩個分級的數(shù) 據(jù),所述細化級包括對所述初級或前一細化級的細化信息;以及表示 每個所述級的編碼技術(shù)的指示符。
15. 按照權(quán)利要求13和14中任一項所述的信號,其特征在于 所述信號被組織在一些相繼的系數(shù)的幀中,所述信號包括表示用于每 個所述幀的編碼技術(shù)的指示符。
16. —種對表示源音頻信號的包括表示量化分布的數(shù)據(jù)的經(jīng)編 碼信號進行解碼的方法,其特征在于包括下列步驟從所述經(jīng)編碼信號提取表示在編碼時根據(jù)選擇準則從至少兩個可用技術(shù)中選出的 一個對所實現(xiàn)的量化分布進行編碼的技術(shù)的指示符,所述選擇準 則基于分別從按照所述技術(shù)編碼的量化分布重建的信號的失真 的度量和基于按照所述技術(shù)對量化分布進行編碼所需的比特率, 以及表示所述相應量化分布的數(shù)據(jù)組;以及 根據(jù)所述數(shù)據(jù)組和由所述指示符標明的編碼技術(shù)重建所述重建 的量化分布。
17. 按照權(quán)利要求16所述的解碼方法,其特征在于包括考慮所 述重建的量化分布構(gòu)建表示所述源音頻信號的重建音頻信號的步驟。
18. —種對表示源音頻信號的包括表示量化分布的數(shù)據(jù)的經(jīng)編 碼信號進行解碼的設備,其特征在于包括從所述經(jīng)編碼信號提取下列各項的裝置表示在編碼時根據(jù)選擇準則從至少兩個可用技術(shù)中選出的一個對所實現(xiàn)的量化分布進行編碼的技術(shù)的指示符,所述選擇準 則基于分別從按照所述技術(shù)編碼的量化分布重建的信號的失真 的度量和基于按照所述技術(shù)對量化分布進行編碼所需的比特率, 以及表示所迷相應量化分布的數(shù)據(jù)組;以及 根據(jù)所述數(shù)據(jù)組和由所述指示符標明的編碼技術(shù)重建所述重建 的量化分布的裝置。
19. 一種可從通信網(wǎng)絡下載和/或存儲在計算機可讀載體內(nèi)和/或 可由微處理器執(zhí)行的計算機程序產(chǎn)品,其特征在于包括實現(xiàn)按照權(quán)利 要求16至17中任一項所述的解碼方法的程序代碼指令。
全文摘要
本發(fā)明涉及對源音頻信號進行編碼的方法。按照本發(fā)明,這種方法包括下列步驟按照至少兩種不同的編碼技術(shù)對表示源音頻信號的至少一個變換的系數(shù)的量化分布進行編碼,給出至少兩個表示一個量化分布的數(shù)據(jù)組;根據(jù)預定選擇準則選擇表示量化分布的所述數(shù)據(jù)組中的一個數(shù)據(jù)組;以及發(fā)送和/或存儲表示所選擇的量化分布的數(shù)據(jù)組和表示相應編碼技術(shù)的指示符。
文檔編號G10L19/035GK101432804SQ200780015598
公開日2009年5月13日 申請日期2007年3月12日 優(yōu)先權(quán)日2006年3月13日
發(fā)明者C·沃, P·科郎, P·菲利普 申請人:法國電信公司