先進(jìn)音頻編碼裝置的制作方法

文檔序號(hào)：2837021閱讀：275來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：先進(jìn)音頻編碼裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及使用如先進(jìn)音頻編碼的耗損壓縮算法達(dá)成低比特率，編碼數(shù)字音頻數(shù)據(jù)并保持高音頻數(shù)據(jù)質(zhì)量的領(lǐng)域。
背景技術(shù)：
如MPEG-4 AAC(MPEG 二運(yùn)動(dòng)圖像專家群組，MC =先進(jìn)音頻編碼)或 MP3(MPEG層3)的感知數(shù)字音頻壓縮原理造就現(xiàn)代數(shù)字生活方式。典型地，目前技術(shù)水平的音頻壓縮系統(tǒng)系使用時(shí)間-頻率變換函數(shù)，如修正離散余弦變換(MDCT)，可分割由多個(gè)頻譜系數(shù)形成的頻段中的信號(hào)，及以適當(dāng)量化算法量化這些被分組的系數(shù)，隨后以如Huffman編碼的若干熵編碼方法來(lái)先進(jìn)編碼這些系數(shù)。
該修正離散余弦變換為具有附加重迭特性的富利葉相關(guān)變換，也就是其被設(shè)計(jì)于在較大數(shù)據(jù)組的連續(xù)塊上執(zhí)行，其中連續(xù)塊是重迭的，使得一塊的后半部分與下一塊的前半部分重合。除了離散余弦變換的能量壓縮質(zhì) 量之外，因?yàn)榇酥氐兄诒苊鈮K邊界所產(chǎn)生的假像(artifact),所以其亦使該修正離散余弦變換對(duì)于信號(hào)壓縮應(yīng)用尤其具有吸引力。因此，修正離散余弦變換被運(yùn)用于如MP3及先進(jìn)音頻編碼中。
不幸地，在非常低比特率、也就是高壓縮的要求下，編碼系統(tǒng)無(wú)選擇地只有關(guān)閉頻段，也就是以靜音取代它們。此方法被用來(lái)滿足編解碼器的編碼需求。此產(chǎn)生頻譜上的洞，其特別惱人，且其為音頻編碼假像的最大貢獻(xiàn)者。
圖8顯示典型目前技術(shù)水平音頻編碼器，用于被PCM (脈沖編碼調(diào)制) 編碼并輸入至濾波器組810和感知模型815的輸入信號(hào)。該輸入信號(hào)由濾波器組810從時(shí)域變換至頻域，其通常以如修正離散余弦變換的公知信號(hào) 變換函數(shù)為基礎(chǔ)。該濾波器組的輸出為頻率系數(shù)。
該信號(hào)同時(shí)被感知模型815評(píng)估，該感知模型通過(guò)對(duì)人類聽(tīng)覺(jué)系統(tǒng)進(jìn)行數(shù)學(xué)建模來(lái)評(píng)估該輸入信號(hào)，并輸出如以信號(hào)掩蔽比(SMR)為單位的表
示該輸入信號(hào)能量對(duì)正好察覺(jué)失真或噪聲能量的正好察覺(jué)失真(JND)測(cè)
圖8所示目前技術(shù)水平編碼器中的感知模型塊815及剩余塊，通過(guò)對(duì) 被稱作定標(biāo)因子頻段中的頻率系數(shù)進(jìn)行分組，來(lái)處理與人類聽(tīng)覺(jué)系統(tǒng)臨界頻寬成比例的濾波器組塊810的輸出。T. Painter及A. Spanias于2000 年4月，IEEE會(huì)議記錄第451-513頁(yè)"Perc印tual Coding of Digital Audio"中可找到感知模型的良好摘要。
可通過(guò)頻率系數(shù)的量化來(lái)滿足目標(biāo)壓縮要求。量化之前，該系數(shù)由所謂的定標(biāo)因子來(lái)定標(biāo)，以決定該量化處理的最終精確度。比特/噪聲分配塊820負(fù)責(zé)估測(cè)或計(jì)算該定標(biāo)因子，以重建該量化值，從而產(chǎn)生剛好低于感知模型所估測(cè)的掩蔽閾值的量化噪聲。特定情況下，感知模型815標(biāo)示特定頻段為噪聲狀，且可通過(guò)解碼器側(cè)上的特定能量產(chǎn)生噪聲而建模。針對(duì)這些頻段，無(wú)需決定定標(biāo)因子或頻率系數(shù)，而替代地插入解碼器側(cè)的噪聲發(fā)生器的參數(shù)。因?yàn)樵肼暟l(fā)生器的參數(shù)較定標(biāo)因子及頻率系數(shù)占據(jù)較少量數(shù)據(jù)，所以可通過(guò)將所產(chǎn)生的噪聲取代頻段來(lái)節(jié)省數(shù)據(jù)率。該取代對(duì)解碼音頻數(shù)據(jù)質(zhì)量的影響被保持在由感知模型所決定的邊界中。例如，將被取代的頻段一定不超過(guò)特定的音調(diào)閾值，其亦不包含任何瞬變信號(hào)。決定噪聲替代的閾值視感知模型而定。例如，IS0/IEC 14496中描述了作為先進(jìn)音頻編碼的特征的感知噪聲替代。
用于若干感知編解碼器中的先進(jìn)編碼方法，被稱作感知噪聲替代 (PNS)，其良好摘要可在Herrer, Jurgen， Schultes， Donald于AES文獻(xiàn) 4720的"Extending the MPEG-4 MC Codec by Perc印tual Noise Substitution"中找到。
圖8中的比特分配塊820之后，量化塊825中進(jìn)行量化，產(chǎn)生量化頻率系數(shù)，被輸入無(wú)關(guān)(irrelevancy)降低塊830。該無(wú)關(guān)降低塊830運(yùn)用來(lái)自信號(hào)理論的公知的信號(hào)無(wú)關(guān)降低方法。例如，Huffman編碼、向量量化或算術(shù)編碼是用于信號(hào)無(wú)關(guān)降低的公知方法。例如，在K. Brandenburg 的"MP3 and MC Explained" in proceedings of the AES 17th International Conference on High-Quality Audio Coding, 1999中可找到這些方法的概述。
為了達(dá)成目標(biāo)編碼需求，如壓縮信號(hào)的給定比特率，目前技術(shù)水平的編解碼器可通過(guò)增加心理聽(tīng)覺(jué)模型或感知模型所規(guī)定的噪聲許可量來(lái)降
低編碼需求。參考圖8，該編碼需求被驗(yàn)證于塊835中，而若該編碼需求不被滿足，則在降低塊840中進(jìn)一步降低比特需求，該編碼算法回到比特 /噪聲分配塊820。若達(dá)成該編碼需求，比特流多路復(fù)用塊845對(duì)編碼的量化頻率系數(shù)和編碼的定標(biāo)因子進(jìn)行多路復(fù)用，形成編碼的比特流。
若該編碼需求不被滿足且比特需求被進(jìn)一步降低，則額外噪聲被引入該信號(hào)中。當(dāng)所允許的噪聲增大時(shí)，該定標(biāo)因子亦被增大，而量化信號(hào)的分辨率被減低，從而降低比特需求。量化分辨率可降低至當(dāng)噪聲大于信號(hào) 本身時(shí)的點(diǎn)，可能的含義是定標(biāo)因子的量化塊輸出將為零。此可有效地將燒孔插入頻譜中應(yīng)出現(xiàn)定標(biāo)因子的信號(hào)處。只要該編碼的量化系數(shù)的傳輸 /儲(chǔ)存需求低于施加給編碼器的約束，則此操作可被迭代重復(fù)。與圖8的流程圖相較，即使設(shè)定所有量化輸出為零，此操作也可總是成功地終止。
同時(shí)，有了上述目前技術(shù)水平方法，假設(shè)可對(duì)編解碼器約束而不需在該約束的降低階段中過(guò)多消除定標(biāo)因子，編碼需求可被有效維持且運(yùn)作相當(dāng)好。若編碼器的編碼需求被設(shè)定過(guò)高，則該方法可能不利地失敗。
這通常發(fā)生于若所需比特率低于感知模型的要求的情況下。非最佳編解碼器通常因關(guān)閉過(guò)多定標(biāo)因子以滿足編碼約束而引入大量的燒孔。頻譜燒孔或關(guān)閉通?？奢p易地被收聽(tīng)者發(fā)覺(jué)，且其對(duì)聽(tīng)覺(jué)質(zhì)量的惡化有很大影響。包含頻譜燒孔的信號(hào)通常被分類為響聲、嗖嗖聲、鳥(niǎo)叫聲等。
例如，可在3GPP(3GPP二第三代伙伴計(jì)劃)，TS (TS:技術(shù)規(guī)格)26. 403 中找到的最佳目前技術(shù)水平的編解碼器，運(yùn)用通常被稱為燒孔避免(hole avoidance)的更具優(yōu)勢(shì)的編碼約束降低策略。此策略通過(guò)對(duì)每一個(gè)定標(biāo) 因子施加最大約束降低限制而工作。只要可降低所有定標(biāo)因子的編碼約束而不違反此限制并且維持被施加到該編碼器的約束，便可確保該定標(biāo)因子中不會(huì)引入任何燒孔。然而，即使有此先進(jìn)策略，該編碼約束仍非?？赡?不被滿足，在此情況下，編碼器不具有其它選擇，通過(guò)消除定標(biāo)因子而開(kāi) 始引入頻譜燒孔(spectral hole)。
圖9顯示100Hz至15kHz范圍中的兩個(gè)編解碼器信號(hào)的頻譜圖。所示編解碼器為32kbps，其對(duì)應(yīng)于44: 1的壓縮比，以及320 kbps，其對(duì)應(yīng) 于4.4: l的壓縮比。從圖9可輕易看到，該32kbps編解碼器被迫引入頻譜燒孔來(lái)滿足編碼需求，且可看到上頻率范圍中的劇烈惡化。

發(fā)明內(nèi)容
本發(fā)明的目的是提供不向信號(hào)中引入頻譜燒孔、并以降低比特率對(duì)數(shù) 字音頻數(shù)據(jù)進(jìn)行編碼的裝置及方法。
此目的通過(guò)一種以降低比特率對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行編碼的裝置來(lái)達(dá)
成，該裝置包含具有高于該降低比特率的比特率的心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù)的提供器；以及識(shí)別器，用于根據(jù)選擇準(zhǔn)則來(lái)識(shí)別頻段，該選擇準(zhǔn) 使得當(dāng)被識(shí)別的頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù) 的影響小于當(dāng)不同頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù) 據(jù)的影響。該裝置進(jìn)一步包含置換器，用于以噪聲綜合參數(shù)取代數(shù)字音頻數(shù)據(jù)的識(shí)別頻段中的數(shù)據(jù)，該噪聲綜合參數(shù)需要比該識(shí)別頻段中的數(shù)據(jù)要少的數(shù)據(jù)量，該數(shù)字音頻數(shù)據(jù)具有降低的比特率。
此目的進(jìn)一步通過(guò)一種以降低比特率對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行編碼的方法來(lái)達(dá)成，該方法包含提供具高于該降低比特率的比特率的心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù)的步驟；以及根據(jù)選擇準(zhǔn)則來(lái)識(shí)別頻段的步驟，該選擇準(zhǔn) 使得當(dāng)被識(shí)別的頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù) 的影響小于當(dāng)不同頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù) 據(jù)的影響。該方法進(jìn)一步包含以噪聲綜合參數(shù)取代數(shù)字音頻數(shù)據(jù)的識(shí)別頻段中的數(shù)據(jù)的步驟，該噪聲綜合參數(shù)需要比該識(shí)別頻段中的數(shù)據(jù)要少的數(shù) 據(jù)量，該數(shù)字音頻數(shù)據(jù)具有降低的比特率。
本發(fā)明基于如下發(fā)現(xiàn)只要平均能量相同或可比較，人類聽(tīng)覺(jué)系統(tǒng)即無(wú)法在不同類型的窄頻段信號(hào)與噪聲信號(hào)之間進(jìn)行區(qū)分。在需要高數(shù)據(jù)壓縮的某些情況下，若使用噪聲發(fā)生器來(lái)取代完全關(guān)閉頻段，則可更有效地保存數(shù)字音頻數(shù)據(jù)的質(zhì)量。這有效地意指足以在解碼器級(jí)產(chǎn)生噪聲，而無(wú) 需傳送被發(fā)現(xiàn)為噪聲狀的定標(biāo)因子頻段的量化頻譜系數(shù)。僅需要被傳送的信息是定標(biāo)因子頻段的平均能量值或如噪聲綜合參數(shù)的噪聲發(fā)生器參數(shù)，若感知模型指示其適合性，則如MPEG-4AAC的若干編解碼器取代傳送該頻段的定標(biāo)因子值。然而，若需要較高的壓縮率，則這些編解碼器關(guān)閉進(jìn)一步引入所產(chǎn)生噪聲的頻段，產(chǎn)生較佳的數(shù)字音頻數(shù)據(jù)質(zhì)量。

本發(fā)明實(shí)施例將使用附圖做說(shuō)明，其中
圖1顯示用于編碼數(shù)字音頻數(shù)據(jù)的裝置的實(shí)施例的方塊圖2顯示用于編碼數(shù)字音頻數(shù)據(jù)的裝置的另一實(shí)施例的方塊圖3顯示本發(fā)明的提供器的實(shí)施例；
圖4顯示用于編碼數(shù)字音頻數(shù)據(jù)的裝置的另一實(shí)施例的方塊圖；圖5顯示序列控制器方法的實(shí)施例的流程圖；圖6顯示綜合分析方法的實(shí)施例的流程圖7顯示由本發(fā)明的方法的實(shí)施例所延伸的目前技術(shù)水準(zhǔn)方法的實(shí)施例的流程圖8顯示目前技術(shù)水準(zhǔn)的編碼處理的流程圖；以及圖9顯示編碼數(shù)字音頻數(shù)據(jù)的兩個(gè)頻譜圖。
具體實(shí)施例方式
圖1說(shuō)明以降低比特率編碼數(shù)字音頻數(shù)據(jù)的裝置100的實(shí)施例。圖1 說(shuō)明的實(shí)施例包含提供器110，其可向識(shí)別器120提供高于降低比特率的比特率的心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù)。識(shí)別器120根據(jù)選擇準(zhǔn)則來(lái)識(shí)別頻段，該選擇準(zhǔn)使得當(dāng)被識(shí)別的頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù)的影響小于當(dāng)不同頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì) 該數(shù)字音頻數(shù)據(jù)的影響。識(shí)別器120向置換器130指示被識(shí)別的頻段。置換器130可以利用噪聲綜合參數(shù)來(lái)取代數(shù)字音頻數(shù)據(jù)的被識(shí)別頻段中的數(shù) 據(jù)，該噪聲綜合參數(shù)需要比被識(shí)別的頻段中的數(shù)據(jù)要少的數(shù)據(jù)量，從而該數(shù)字音頻數(shù)據(jù)具有降低的比特率。
圖2說(shuō)明用于數(shù)字音頻數(shù)據(jù)的裝置100的另一實(shí)施例。圖2顯示參考圖1說(shuō)明的提供器110、識(shí)別器120和置換器130。此外，圖2所示用于編碼數(shù)字音頻數(shù)據(jù)的裝置100的實(shí)施例包含以降低比特率編碼數(shù)字?jǐn)?shù)據(jù)的熵編碼器140。圖1和2所說(shuō)明的裝置100的兩個(gè)實(shí)施例可操作地編碼數(shù)字原始數(shù)據(jù)，如PCM數(shù)據(jù)(PCM二脈沖編碼調(diào)制)。因此，提供器110可被實(shí)
施為通過(guò)用于實(shí)現(xiàn)心理聽(tīng)覺(jué)編碼的裝置來(lái)擴(kuò)展的任何音頻數(shù)據(jù)源，如CD
播放器。該心理聽(tīng)覺(jué)編碼是根據(jù)頻段完成的，例如，其可通過(guò)運(yùn)用該提供
器內(nèi)的濾波器組中的濾波器來(lái)實(shí)施。根據(jù)圖2說(shuō)明的實(shí)施例，裝置100可包含熵編碼器140，從而對(duì)具有降低比特率的數(shù)字音頻數(shù)據(jù)進(jìn)行熵編碼，例如可以是Huffman碼，以符合AAC或MP3標(biāo)準(zhǔn)。
圖3顯示提供器110的實(shí)施例。此實(shí)施例中，提供器110包含濾波器組112，其可將數(shù)字音頻數(shù)據(jù)變換到頻域，根據(jù)頻段來(lái)提供頻率系數(shù)。提供器110進(jìn)一步包含定標(biāo)因子量化及噪聲替代塊114，其可根據(jù)該數(shù)據(jù)來(lái) 決定定標(biāo)因子和量化以及噪聲替代，從輸入數(shù)字音頻數(shù)據(jù)導(dǎo)出的心理聽(tīng)覺(jué) 模型及事先分析器塊116。心理聽(tīng)覺(jué)模型及事先分析器塊116可從該數(shù)字輸入數(shù)據(jù)決定何頻段可立刻被噪聲取代，及提供該信息至定標(biāo)因子量化及噪聲替代塊114。此外，心理聽(tīng)覺(jué)模型提供允許導(dǎo)出定標(biāo)因子及量化的數(shù) 據(jù)。該事先分析器可分析時(shí)域中的數(shù)據(jù)，而在另一實(shí)施例中，其可分析頻域中的數(shù)據(jù)，以決定可以解碼器處的噪聲來(lái)取代的頻段。決定這些頻段的一種方法是綜合分析，其中所有頻段基本上依次被噪聲取代，完整信號(hào)被再次綜合并測(cè)量質(zhì)量?？缭剿蓄l段迭代，可識(shí)別具有最小質(zhì)量影響的頻段，其接著被選擇用于取代。這個(gè)處理稍后將被詳述。
本發(fā)明另一實(shí)施例中，提供器110獲得例如MP3文件或ACC編碼數(shù)據(jù) 的已編碼數(shù)據(jù)，接著使用解碼器來(lái)移除該熵編碼。一旦該熵編碼被移除，則已包含取代頻段的噪聲的心理聽(tīng)覺(jué)量化數(shù)據(jù)可被提供器110傳遞至識(shí)別器120。接著，識(shí)別器120的任務(wù)是識(shí)別頻段，將心理聽(tīng)覺(jué)量化數(shù)據(jù)傳遞至可取代相應(yīng)頻段的置換器130。
另一實(shí)施例中，裝置ioo被要求降低數(shù)字音頻數(shù)據(jù)的比特率至特定目
標(biāo)比特率。圖4說(shuō)明此發(fā)明性裝置100的實(shí)施例。圖4再次顯示用于首先對(duì)由提供器110提供的數(shù)字音頻數(shù)據(jù)進(jìn)行編碼的裝置100的實(shí)施例。識(shí)別器120可識(shí)別將被置換器130取代的頻段，其中以選擇準(zhǔn)則為基礎(chǔ)進(jìn)行識(shí) 別。圖4中的裝置100進(jìn)一步包含序列控制器150，其被耦合至識(shí)別器120 及置換器130。一旦頻段被識(shí)別，則置換器130可以噪聲發(fā)生器的綜合參數(shù)來(lái)取代此頻段中的數(shù)據(jù)，產(chǎn)生新比特率。序列控制器150的目的是以達(dá)成目標(biāo)比特率的方式，調(diào)整將被取代的頻段的選擇準(zhǔn)則。在一個(gè)實(shí)施例中，該序列控制器以非常輕松(soft)的選擇準(zhǔn)則開(kāi)始，產(chǎn)生非常少量的頻段被選擇用于取代。若取代后的最終比特率仍高于目標(biāo)比特率，則該序列控
制器必須緊縮(tighten)該選擇準(zhǔn)則。
圖5說(shuō)明用來(lái)達(dá)成目標(biāo)比特率的迭代的流程圖。序列控制器150于第一驗(yàn)證塊510中檢查是否已達(dá)到目標(biāo)比特率。若未達(dá)到目標(biāo)比特率，則序列控制器150于步驟520中緊縮該選擇準(zhǔn)則，并傳送該緊縮的選擇準(zhǔn)則至識(shí)別器120，用于取代的新頻段于塊530中被識(shí)別，而最終置換器130于步驟540中取代新識(shí)別的頻段。之后，序列控制器150再次驗(yàn)證目標(biāo)比特率是否已于步驟510中達(dá)成。一旦達(dá)成目標(biāo)比特率，則于步驟550中提供目標(biāo)比特率給數(shù)據(jù)。
在識(shí)別器120處，事后分析器可于一實(shí)施例中根據(jù)選擇準(zhǔn)則而操作以分析數(shù)據(jù)。該事后分析器操作類似于本發(fā)明的提供器110的一個(gè)實(shí)施例中提及的事先分析器。再次，事后分析器可執(zhí)行綜合分析。
圖6顯示執(zhí)行綜合分析的方法實(shí)施例的流程圖。第一步驟610中，迭代索引i最初被賦予l。在圖6說(shuō)明的實(shí)施例中，假設(shè)數(shù)字音頻數(shù)據(jù)被分為N個(gè)子頻段。步驟620中，根據(jù)該迭代索引選擇頻段，也就是說(shuō)該選擇處理以第一頻段開(kāi)始。下一步驟630中，選擇的頻段被噪聲參數(shù)取代，而步驟640中，全部數(shù)字音頻數(shù)據(jù)被綜合在一起。一旦數(shù)據(jù)被綜合，則質(zhì)量準(zhǔn)則或質(zhì)量測(cè)量可在步驟650中被決定。接著，此質(zhì)量測(cè)量可被與指示頻段的迭代索引一起儲(chǔ)存。步驟660中，驗(yàn)證該迭代是否已完成，也就是是否所有頻段均己被檢查，而若否，則于步驟670中將迭代索引增大一個(gè)步長(zhǎng)，而再次于步驟620中選擇下一頻段。一旦完成全部迭代處理，也就是若所有N個(gè)頻段均已被測(cè)試，則具最低質(zhì)量影響的頻段可被選擇及被識(shí)別用于取代。該質(zhì)量影響可通過(guò)如信號(hào)噪聲比的傳統(tǒng)測(cè)量來(lái)決定。另一測(cè)量可以是通過(guò)心理聽(tīng)覺(jué)模型決定的測(cè)量，再次決定人類聽(tīng)覺(jué)系統(tǒng)的最低質(zhì)量影響。
如圖3顯示，編碼處理期間提供器110處的噪聲替代準(zhǔn)則以及識(shí)別器 120內(nèi)的事后分析器執(zhí)行的選擇準(zhǔn)則，基本上可以參考相同的測(cè)量。然而，用于提供器實(shí)施例的事前選擇準(zhǔn)則決定了數(shù)字音頻數(shù)據(jù)內(nèi)的頻段，其不損害心理聽(tīng)覺(jué)模型再次決定的數(shù)字音頻數(shù)據(jù)的質(zhì)量。與該目標(biāo)不同，也就是降低質(zhì)量并引入考慮人類聽(tīng)覺(jué)系統(tǒng)的數(shù)字音頻數(shù)據(jù)的質(zhì)量的影響，識(shí)別器處的事后分析器選擇頻段。雖然事前選擇準(zhǔn)則及選擇準(zhǔn)則可以參考相同的測(cè)量，旦其對(duì)質(zhì)量的影響不同。
例如，被當(dāng)作事前選擇準(zhǔn)則及選擇準(zhǔn)則的事前分析器及事后分析器測(cè) 量，是最低音調(diào)，最低或最高信號(hào)噪聲比，最低或最高信號(hào)掩蔽比，也就是考慮到人類聽(tīng)覺(jué)系統(tǒng)特性，頻段中最低能量，頻段中最高中心頻率，或時(shí)域中最佳穩(wěn)定性，也就是時(shí)段中的最低可變性。
另一實(shí)施例中，置換器130被用于取代頻段，其為與單噪聲綜合參數(shù) 一起的連續(xù)頻段，也就是通過(guò)取代執(zhí)行數(shù)字音頻數(shù)據(jù)的較高比特率降低的若干頻段數(shù)據(jù)。
然而，目前技術(shù)水平中，編解碼器感知噪聲替代用于取代在實(shí)際量化及編碼步驟之前被判斷為噪聲狀的定標(biāo)因子，噪聲替代在本發(fā)明實(shí)施例中被用來(lái)降低比特率。與當(dāng)前技術(shù)中僅僅取代感知模型中被發(fā)現(xiàn)為噪聲狀的定標(biāo)因子頻段相比，存在更為有用的感知噪聲替代情況。在本發(fā)明實(shí)施例中，采用感知噪聲替代作為更先進(jìn)約束降低方法中的約束降低裝置或比特率降低裝置的一部分。
圖7顯示發(fā)明性實(shí)施例所擴(kuò)充的目前技術(shù)水平編碼處理的完整流程
圖。圖7顯示被輸入濾波器組705及感知模型710的輸入信號(hào)。從濾波器組705輸出的頻率系數(shù)接著被輸入連接至感知模型710的比特/噪聲分配塊715。比特/噪聲分配塊715之后是量化塊720和無(wú)關(guān)降低塊725，其均類似于圖8解釋的比特/噪聲分配塊820及量化塊830。無(wú)關(guān)降低塊725 之后，在塊730中進(jìn)行碼需求驗(yàn)證。若滿足編碼需求，則熵編碼的量化頻率系數(shù)及編碼拼寫(xiě)因子被輸入比特流多路復(fù)用器735，而可以獲得具有需要的比特率的編碼數(shù)據(jù)。若編碼需求塊730中所驗(yàn)證的編碼需求不被滿足，則于740中進(jìn)行另一驗(yàn)證步驟，其檢查在不引入頻譜燒孔的情況下是否可進(jìn)一步降低比特率。若不引入頻譜燒孔即可進(jìn)一步降低比特率，則該編碼需求可于塊745中降低且限制松弛，使得后續(xù)步驟750不會(huì)引入頻譜燒孔。接著重復(fù)該處理，以比特/噪聲分配步驟715開(kāi)始。
可通過(guò)圖7的盒755內(nèi)的發(fā)明性方法的實(shí)施例來(lái)擴(kuò)充此目前技術(shù)的過(guò)
12程。若于驗(yàn)證步驟740中確定在不引入頻譜燒孔的情況下不能進(jìn)一步降低
數(shù)字音頻數(shù)據(jù)的比特率，則該過(guò)程之后為選擇塊760。選擇塊760選擇用于人為噪聲替代的最適合的定標(biāo)因子頻段，亦被稱為感知噪聲替代。一旦識(shí)別正確頻段，則于塊765中產(chǎn)生插入數(shù)字?jǐn)?shù)據(jù)的感知噪聲，其中于步驟 770中將被選擇的定標(biāo)因子頻段從量化頻譜數(shù)組中移除，并于步驟775中再次計(jì)算編碼需求。此后，可于步驟780中驗(yàn)證編碼需求，若該編碼需求不滿足，則返回步驟760，也就是選擇下一頻段用于感知噪聲替代。最后，編碼需求得到滿足時(shí)，該處理將終止，可于步驟735中多路傳輸比特流，且可獲得具有降低比特率的數(shù)字?jǐn)?shù)據(jù)。
如圖7顯示，該處理流上部分的本發(fā)明實(shí)施例非常類似上述目前技術(shù) 中發(fā)現(xiàn)的先進(jìn)編碼方案。不同之處在于約束降低選擇，本發(fā)明實(shí)施例避免引入頻譜燒孔。取代移除定標(biāo)因子頻段及引入頻譜燒孔，本發(fā)明實(shí)施例可以更有效的方式解決該問(wèn)題。主要地，第一步驟中，選擇最適合的定標(biāo)因子頻段或頻率系數(shù)子組，以解碼器中的人為噪聲來(lái)替代。
可通過(guò)各種裝置來(lái)做此選擇，如以下的一個(gè)或多個(gè)具有最低音調(diào)的定標(biāo)因子頻段，具有最低或最高信號(hào)噪聲比的定標(biāo)因子頻段，具有最低或最高信號(hào)信號(hào)掩蔽比的定標(biāo)因子頻段，具有最低能量的定標(biāo)因子頻段，具有最高中心頻率的定標(biāo)因子頻段，具有最佳時(shí)域穩(wěn)定性的定標(biāo)因子頻段，或完成一個(gè)或更多剛提及的度量的頻率系數(shù)的分組的定標(biāo)因子頻段。
應(yīng)注意，這些裝置僅用于解釋，本領(lǐng)域的技術(shù)人員已知的其它裝置落在本發(fā)明的范圍及精神之內(nèi)。
在執(zhí)行選擇后，例如以感知噪聲替代工具對(duì)被選擇的定標(biāo)因子頻段或頻率系數(shù)的其他分組進(jìn)行編碼，意指本發(fā)明實(shí)施例可將頻譜內(nèi)容從數(shù)字音頻數(shù)據(jù)中移除，而不是該頻段的定標(biāo)因子，例如可傳送其近似平均能量連同告知解碼器以大致相同于比特流中所傳送的能量的人為產(chǎn)生噪聲重建該頻段的適當(dāng)標(biāo)志。
感知噪聲替代編碼之后的本發(fā)明另一實(shí)施例中，該被取代頻譜系數(shù)的比特需求現(xiàn)在可從量化頻譜比特需求中移除，而總比特需求可與編碼器約束進(jìn)行比較。若該約束仍不被滿足，則該過(guò)程繼續(xù)，直到約束得以滿足或以感知噪聲替代對(duì)所有頻段進(jìn)行編碼為止。因此，必須設(shè)定最小約束，使得可以針對(duì)所有頻段來(lái)傳送感知噪聲替代能量因子。若期望達(dá)到該限制，則可移除該感知噪聲替代定標(biāo)因子，以達(dá)到甚至非常高的編碼約束。這可通過(guò)迭代地移除最適合的感知噪聲替代因子來(lái)達(dá)成，^中本領(lǐng)域的技術(shù)人員熟知評(píng)估該因子的方法，如選擇最低能量定標(biāo)因子或最高頻率定標(biāo)因子等。接著重新評(píng)估比特需求，并重復(fù)該處理，直到其滿足約束或所有因子分別被設(shè)置為零為止。
本發(fā)明實(shí)施例提供了如下優(yōu)點(diǎn)有效避免引入頻譜燒孔，如避免現(xiàn)代感知音頻編解碼其中與頻段關(guān)閉或頻譜燒孔有聯(lián)系的假像，產(chǎn)生關(guān)于人類聽(tīng)覺(jué)系統(tǒng)較佳的數(shù)字音頻數(shù)據(jù)質(zhì)量。
本發(fā)明的一個(gè)實(shí)施例是基于以頻率為基礎(chǔ)的感知音頻編碼的音頻編碼裝置，其具有感知模型、時(shí)間至頻率映射和量化及熵編碼塊。此外，可以多個(gè)頻域頻譜系數(shù)分組為基礎(chǔ)編碼定標(biāo)因子，以無(wú)關(guān)降低對(duì)其量化。另一實(shí)施例中，可以與人類聽(tīng)覺(jué)系統(tǒng)臨界頻段呈比例的方式來(lái)處理該多個(gè)頻域頻譜系數(shù)，并以無(wú)關(guān)降低對(duì)其量化。本發(fā)明另一實(shí)施例包含在編碼比特流中傳送該系數(shù)。
此外，一實(shí)施例可利用解碼器中人為產(chǎn)生的窄頻段噪聲取代定標(biāo)因子頻段，而不需傳送該定標(biāo)因子頻段的頻譜內(nèi)容，其中該編碼約束的評(píng)估方法可以感知模型所計(jì)算的正好察覺(jué)失真測(cè)量及頻譜系數(shù)值為基礎(chǔ)。本發(fā)明實(shí)施例降低編碼需求，通過(guò)上述方法之一替代定標(biāo)因子頻段來(lái)滿足該編碼約束。例如，可選擇適當(dāng)?shù)亩?biāo)因子頻段，通過(guò)具有最類似白噪聲的定標(biāo)因子，具有最高中心頻率的定標(biāo)因子頻段，具有最低能量的定標(biāo)因子頻段，具有最高信號(hào)噪聲比的定標(biāo)因子頻段，具有最低信號(hào)噪聲比的定標(biāo)因子頻段，具有最高信號(hào)對(duì)正好察覺(jué)失真能量比的定標(biāo)因子頻段，或具有最低信號(hào)對(duì)正好察覺(jué)失真能量比的定標(biāo)因子頻段來(lái)降低編碼需求。
視發(fā)明性方法特定實(shí)施需求而定，該發(fā)明性方法可實(shí)施于硬件或軟件中。可使用數(shù)字儲(chǔ)存媒體，特別是具儲(chǔ)存于此以可程序計(jì)算機(jī)系統(tǒng)操作的電子可讀控制信號(hào)的盤片,DVD或CD來(lái)執(zhí)行該實(shí)施，來(lái)執(zhí)行該發(fā)明性方法。通常，本發(fā)明為一種計(jì)算機(jī)程序產(chǎn)品，具有儲(chǔ)存在機(jī)器可讀載體上的程序代碼，當(dāng)該計(jì)算機(jī)程序產(chǎn)品于計(jì)算機(jī)上運(yùn)轉(zhuǎn)時(shí)，該程序代碼可操作地執(zhí)行該發(fā)明性方法。也就是說(shuō)，本發(fā)明方法為一種計(jì)算機(jī)程序產(chǎn)品，具有當(dāng)該
14計(jì)算機(jī)程序產(chǎn)品于計(jì)算機(jī)上運(yùn)轉(zhuǎn)時(shí)，可執(zhí)行至少一種本發(fā)明的方法的程序代碼。附圖標(biāo)記列表
100用于對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行編碼的裝置110提供器112濾波器組
114定標(biāo)因子量化和噪聲替代
116心理聽(tīng)覺(jué)模型和事先分析器
120識(shí)別器
130置換器
140熵編碼器
150序列控制器
510目標(biāo)比特率驗(yàn)證
520選擇標(biāo)準(zhǔn)緊縮
530頻段識(shí)別
540頻段數(shù)據(jù)的取代
550提供數(shù)據(jù)
610初始化i
620選擇頻段i
630取代頻段i
640合成總的數(shù)字音頻數(shù)據(jù)
660驗(yàn)證所有頻段
670增大迭代索引i
680標(biāo)識(shí)頻段
705濾波器組
710感知模型
715比特/噪聲分配
720量化
725無(wú)關(guān)降低
730編碼需求驗(yàn)證
735比特流多路復(fù)用器
740驗(yàn)證沒(méi)有頻譜燒孔的情況下進(jìn)一步降低比特率745降低編碼需求
750限制松弛使得不會(huì)引入頻譜燒孔755本發(fā)明的方法的實(shí)施例760選擇最適合的頻段765感知噪聲替代
770移除被選擇的頻段的所選擇的定標(biāo)因子
775重新計(jì)算編碼需求
780驗(yàn)證編碼需求
810濾波器組
815感知模型
820比特/噪聲分配
825量化
830無(wú)關(guān)降低
835編碼驗(yàn)證
840比特需求降低
845比特流多路復(fù)用器
權(quán)利要求
1. 一種以降低的比特率對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行編碼的裝置，包含提供器，提供具有高于該降低的比特率的比特率的心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù)；識(shí)別器，可根據(jù)選擇準(zhǔn)則來(lái)識(shí)別頻段，該選擇準(zhǔn)則使得當(dāng)被識(shí)別的頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù)質(zhì)量的影響小于當(dāng)不同頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù)質(zhì)量的影響，以及置換器，用于以噪聲綜合參數(shù)取代數(shù)字音頻數(shù)據(jù)的識(shí)別頻段中的數(shù)據(jù)，該噪聲綜合參數(shù)需要比該識(shí)別頻段中的數(shù)據(jù)要少的數(shù)據(jù)量，該數(shù)字音頻數(shù)據(jù)具有降低的比特率。
2. 如權(quán)利要求1所述的裝置，其中該提供器適用于針對(duì)每頻段來(lái)提供心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù)，該頻段可由濾波器組中的濾波器來(lái)決定。
3. 如權(quán)利要求1所述的裝置，進(jìn)一步包含熵編碼器，用于對(duì)具有降低的比特率的數(shù)字音頻數(shù)據(jù)進(jìn)行編碼。
4 如權(quán)利要求1至3之一所述的裝置，其中該心理聽(tīng)覺(jué)編碼的數(shù)字?jǐn)?shù)據(jù)包含熵編碼的量化頻譜數(shù)據(jù)，而且其中該提供器包含熵解碼器，該熵解碼器用于對(duì)該心理聽(tīng)覺(jué)編碼的數(shù)字音頻數(shù)據(jù)進(jìn)行熵解碼，以提供該心理聽(tīng) 覺(jué)量化頻譜數(shù)據(jù)，而且其中該識(shí)別器和該置換器可操作以處理該熵解碼的心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù)。
5. 如權(quán)利要求1至4之一所述的裝置，其中該提供器包含噪聲替代處理，用于以該噪聲替代處理的插入?yún)?shù)取代在事先選擇頻段中的頻譜數(shù) 據(jù)，該事先選擇頻段由事先選擇準(zhǔn)則來(lái)識(shí)別，執(zhí)行該噪聲替代處理以取代對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行心理聽(tīng)覺(jué)量化。
6. 如權(quán)利要求5所述的裝置，其中該提供器包含事先分析器，用于根據(jù)該事先選擇準(zhǔn)則分析數(shù)字音頻數(shù)據(jù)，以事先選擇用于插入噪聲替代參數(shù) 的頻段。
7. 如權(quán)利要求1至6之一所述的裝置，其中該識(shí)別器包含事后分析器，用于根據(jù)該選擇準(zhǔn)則分析頻段中的心理聽(tīng)覺(jué)量化數(shù)據(jù)，以識(shí)別用于心理聽(tīng)覺(jué)量化數(shù)據(jù)替代的該頻段。
8. 如權(quán)利要求5至7之一所述的裝置，其中該事先分析器或該事后分析器可操作以使用該事先選擇準(zhǔn)則或該選擇準(zhǔn)則，該事先選擇準(zhǔn)則與該選擇準(zhǔn)則不同，該事先選擇頻段與該識(shí)別頻段不同。
9. 如權(quán)利要求8所述的裝置，其中該事先分析器使用該事先選擇準(zhǔn)則，而該事后分析器使用該選擇準(zhǔn)則，該選擇準(zhǔn)則對(duì)應(yīng)于包括以下內(nèi)容的組中之一或組合最低音調(diào)、最低或最高信號(hào)噪聲比、最低或最高信號(hào)掩蔽比、最低能量、最高中心頻率、時(shí)域最佳穩(wěn)定性或時(shí)域最低可變性。
10. 如權(quán)利要求1至9之一所述的裝置，進(jìn)一步包含序列控制器，用于控制該識(shí)別器及該置換器，該序列控制器可將該降低的比特率與目標(biāo)比特率進(jìn)行比較，調(diào)整該選擇準(zhǔn)則，使得當(dāng)該降低的比特率高于該目標(biāo)比特率時(shí)，識(shí)別更多頻段以由噪聲綜合參數(shù)來(lái)取代。
11. 如權(quán)利要求1至io之一所述的裝置，其中該置換器適用于以噪聲綜合參數(shù)來(lái)取代多個(gè)頻段的數(shù)據(jù)，并適用于以噪聲綜合參數(shù)來(lái)取代連續(xù)頻段的數(shù)據(jù)。
12. 如權(quán)利要求1至11之一所述的裝置，其中該提供器可操作以從編碼數(shù)字音頻數(shù)據(jù)提供心理聽(tīng)覺(jué)量化數(shù)據(jù)，該編碼數(shù)字音頻數(shù)據(jù)是根據(jù) IS0/IEC 14496而編碼的。
13. 如權(quán)利要求3至12之一所述的裝置，其適用于根據(jù)IS0/IEC 14496 以降低的比特率對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行編碼。
14. 一種以降低的比特率對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行編碼的方法，包含如下步驟提供具有高于該降低的比特率的比特率的心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù)；根據(jù)選擇準(zhǔn)則來(lái)識(shí)別頻段，該選擇準(zhǔn)則使得當(dāng)被識(shí)別的頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù)質(zhì)量的影響小于當(dāng)不同頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù)質(zhì)量的影響；以及以噪聲綜合參數(shù)取代數(shù)字音頻數(shù)據(jù)的識(shí)別頻段中的數(shù)據(jù)，該噪聲綜合參數(shù)需要比該識(shí)別頻段中的數(shù)據(jù)要少的數(shù)據(jù)量，該數(shù)字音頻數(shù)據(jù)具有降低的比特率。
15. —種具有程序代碼的計(jì)算機(jī)程序，當(dāng)該程序代碼在計(jì)算機(jī)中運(yùn)行時(shí)，用于執(zhí)行權(quán)利要求14所述的方法。
全文摘要
一種以降低的比特率編碼數(shù)字音頻數(shù)據(jù)的方法及裝置，該裝置包含提供器，提供具有高于該降低的比特率的比特率的心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù)。該裝置進(jìn)一步包含識(shí)別器，可根據(jù)選擇準(zhǔn)則來(lái)識(shí)別頻段，該選擇準(zhǔn)使得當(dāng)被識(shí)別的頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù)的影響小于當(dāng)不同頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù)的影響。該裝置進(jìn)一步包含置換器，用于以噪聲綜合參數(shù)取代數(shù)字音頻數(shù)據(jù)的識(shí)別頻段中的數(shù)據(jù)，該噪聲綜合參數(shù)需要比該識(shí)別頻段中的數(shù)據(jù)要少的數(shù)據(jù)量，該數(shù)字音頻數(shù)據(jù)具有降低的比特率。
文檔編號(hào)G10L19/02GK101467203SQ200680054976
公開(kāi)日2009年6月24日申請(qǐng)日期2006年10月4日優(yōu)先權(quán)日2006年4月24日
發(fā)明者伊萬(wàn)·蒂姆科維奇, 吉安·卡羅·帕斯庫(kù)托申請(qǐng)人:尼祿股份公司

完整全部詳細(xì)技術(shù)資料下載