專利名稱:先進(jìn)音頻編碼裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及使用如先進(jìn)音頻編碼的耗損壓縮算法達(dá)成低比特率,編碼 數(shù)字音頻數(shù)據(jù)并保持高音頻數(shù)據(jù)質(zhì)量的領(lǐng)域。
背景技術(shù):
如MPEG-4 AAC(MPEG 二運(yùn)動(dòng)圖像專家群組,MC =先進(jìn)音頻編碼)或 MP3(MPEG層3)的感知數(shù)字音頻壓縮原理造就現(xiàn)代數(shù)字生活方式。典型地, 目前技術(shù)水平的音頻壓縮系統(tǒng)系使用時(shí)間-頻率變換函數(shù),如修正離散余 弦變換(MDCT),可分割由多個(gè)頻譜系數(shù)形成的頻段中的信號(hào),及以適當(dāng)量 化算法量化這些被分組的系數(shù),隨后以如Huffman編碼的若干熵編碼方法 來(lái)先進(jìn)編碼這些系數(shù)。
該修正離散余弦變換為具有附加重迭特性的富利葉相關(guān)變換,也就是 其被設(shè)計(jì)于在較大數(shù)據(jù)組的連續(xù)塊上執(zhí)行,其中連續(xù)塊是重迭的,使得一 塊的后半部分與下一塊的前半部分重合。除了離散余弦變換的能量壓縮質(zhì) 量之外,因?yàn)榇酥氐兄诒苊鈮K邊界所產(chǎn)生的假像(artifact),所以 其亦使該修正離散余弦變換對(duì)于信號(hào)壓縮應(yīng)用尤其具有吸引力。因此,修 正離散余弦變換被運(yùn)用于如MP3及先進(jìn)音頻編碼中。
不幸地,在非常低比特率、也就是高壓縮的要求下,編碼系統(tǒng)無(wú)選擇 地只有關(guān)閉頻段,也就是以靜音取代它們。此方法被用來(lái)滿足編解碼器的 編碼需求。此產(chǎn)生頻譜上的洞,其特別惱人,且其為音頻編碼假像的最大 貢獻(xiàn)者。
圖8顯示典型目前技術(shù)水平音頻編碼器,用于被PCM (脈沖編碼調(diào)制) 編碼并輸入至濾波器組810和感知模型815的輸入信號(hào)。該輸入信號(hào)由濾 波器組810從時(shí)域變換至頻域,其通常以如修正離散余弦變換的公知信號(hào) 變換函數(shù)為基礎(chǔ)。該濾波器組的輸出為頻率系數(shù)。
該信號(hào)同時(shí)被感知模型815評(píng)估,該感知模型通過(guò)對(duì)人類聽(tīng)覺(jué)系統(tǒng)進(jìn)行數(shù)學(xué)建模來(lái)評(píng)估該輸入信號(hào),并輸出如以信號(hào)掩蔽比(SMR)為單位的表
示該輸入信號(hào)能量對(duì)正好察覺(jué)失真或噪聲能量的正好察覺(jué)失真(JND)測(cè)
圖8所示目前技術(shù)水平編碼器中的感知模型塊815及剩余塊,通過(guò)對(duì) 被稱作定標(biāo)因子頻段中的頻率系數(shù)進(jìn)行分組,來(lái)處理與人類聽(tīng)覺(jué)系統(tǒng)臨界 頻寬成比例的濾波器組塊810的輸出。T. Painter及A. Spanias于2000 年4月,IEEE會(huì)議記錄第451-513頁(yè)"Perc印tual Coding of Digital Audio"中可找到感知模型的良好摘要。
可通過(guò)頻率系數(shù)的量化來(lái)滿足目標(biāo)壓縮要求。量化之前,該系數(shù)由所 謂的定標(biāo)因子來(lái)定標(biāo),以決定該量化處理的最終精確度。比特/噪聲分配 塊820負(fù)責(zé)估測(cè)或計(jì)算該定標(biāo)因子,以重建該量化值,從而產(chǎn)生剛好低于 感知模型所估測(cè)的掩蔽閾值的量化噪聲。特定情況下,感知模型815標(biāo)示 特定頻段為噪聲狀,且可通過(guò)解碼器側(cè)上的特定能量產(chǎn)生噪聲而建模。針 對(duì)這些頻段,無(wú)需決定定標(biāo)因子或頻率系數(shù),而替代地插入解碼器側(cè)的噪 聲發(fā)生器的參數(shù)。因?yàn)樵肼暟l(fā)生器的參數(shù)較定標(biāo)因子及頻率系數(shù)占據(jù)較少 量數(shù)據(jù),所以可通過(guò)將所產(chǎn)生的噪聲取代頻段來(lái)節(jié)省數(shù)據(jù)率。該取代對(duì)解 碼音頻數(shù)據(jù)質(zhì)量的影響被保持在由感知模型所決定的邊界中。例如,將被 取代的頻段一定不超過(guò)特定的音調(diào)閾值,其亦不包含任何瞬變信號(hào)。決定 噪聲替代的閾值視感知模型而定。例如,IS0/IEC 14496中描述了作為先 進(jìn)音頻編碼的特征的感知噪聲替代。
用于若干感知編解碼器中的先進(jìn)編碼方法,被稱作感知噪聲替代 (PNS),其良好摘要可在Herrer, Jurgen, Schultes, Donald于AES文獻(xiàn) 4720的"Extending the MPEG-4 MC Codec by Perc印tual Noise Substitution"中找到。
圖8中的比特分配塊820之后,量化塊825中進(jìn)行量化,產(chǎn)生量化頻 率系數(shù),被輸入無(wú)關(guān)(irrelevancy)降低塊830。該無(wú)關(guān)降低塊830運(yùn)用 來(lái)自信號(hào)理論的公知的信號(hào)無(wú)關(guān)降低方法。例如,Huffman編碼、向量量 化或算術(shù)編碼是用于信號(hào)無(wú)關(guān)降低的公知方法。例如,在K. Brandenburg 的"MP3 and MC Explained" in proceedings of the AES 17th International Conference on High-Quality Audio Coding, 1999中可找到這些方法的概述。
為了達(dá)成目標(biāo)編碼需求,如壓縮信號(hào)的給定比特率,目前技術(shù)水平的 編解碼器可通過(guò)增加心理聽(tīng)覺(jué)模型或感知模型所規(guī)定的噪聲許可量來(lái)降
低編碼需求。參考圖8,該編碼需求被驗(yàn)證于塊835中,而若該編碼需求 不被滿足,則在降低塊840中進(jìn)一步降低比特需求,該編碼算法回到比特 /噪聲分配塊820。若達(dá)成該編碼需求,比特流多路復(fù)用塊845對(duì)編碼的量 化頻率系數(shù)和編碼的定標(biāo)因子進(jìn)行多路復(fù)用,形成編碼的比特流。
若該編碼需求不被滿足且比特需求被進(jìn)一步降低,則額外噪聲被引入 該信號(hào)中。當(dāng)所允許的噪聲增大時(shí),該定標(biāo)因子亦被增大,而量化信號(hào)的 分辨率被減低,從而降低比特需求。量化分辨率可降低至當(dāng)噪聲大于信號(hào) 本身時(shí)的點(diǎn),可能的含義是定標(biāo)因子的量化塊輸出將為零。此可有效地將 燒孔插入頻譜中應(yīng)出現(xiàn)定標(biāo)因子的信號(hào)處。只要該編碼的量化系數(shù)的傳輸 /儲(chǔ)存需求低于施加給編碼器的約束,則此操作可被迭代重復(fù)。與圖8的 流程圖相較,即使設(shè)定所有量化輸出為零,此操作也可總是成功地終止。
同時(shí),有了上述目前技術(shù)水平方法,假設(shè)可對(duì)編解碼器約束而不需在 該約束的降低階段中過(guò)多消除定標(biāo)因子,編碼需求可被有效維持且運(yùn)作相 當(dāng)好。若編碼器的編碼需求被設(shè)定過(guò)高,則該方法可能不利地失敗。
這通常發(fā)生于若所需比特率低于感知模型的要求的情況下。非最佳編 解碼器通常因關(guān)閉過(guò)多定標(biāo)因子以滿足編碼約束而引入大量的燒孔。頻譜 燒孔或關(guān)閉通??奢p易地被收聽(tīng)者發(fā)覺(jué),且其對(duì)聽(tīng)覺(jué)質(zhì)量的惡化有很大影 響。包含頻譜燒孔的信號(hào)通常被分類為響聲、嗖嗖聲、鳥(niǎo)叫聲等。
例如,可在3GPP(3GPP二第三代伙伴計(jì)劃),TS (TS:技術(shù)規(guī)格)26. 403 中找到的最佳目前技術(shù)水平的編解碼器,運(yùn)用通常被稱為燒孔避免(hole avoidance)的更具優(yōu)勢(shì)的編碼約束降低策略。此策略通過(guò)對(duì)每一個(gè)定標(biāo) 因子施加最大約束降低限制而工作。只要可降低所有定標(biāo)因子的編碼約束 而不違反此限制并且維持被施加到該編碼器的約束,便可確保該定標(biāo)因子 中不會(huì)引入任何燒孔。然而,即使有此先進(jìn)策略,該編碼約束仍非??赡?不被滿足,在此情況下,編碼器不具有其它選擇,通過(guò)消除定標(biāo)因子而開(kāi) 始引入頻譜燒孔(spectral hole)。
圖9顯示100Hz至15kHz范圍中的兩個(gè)編解碼器信號(hào)的頻譜圖。所示編解碼器為32kbps,其對(duì)應(yīng)于44: 1的壓縮比,以及320 kbps,其對(duì)應(yīng) 于4.4: l的壓縮比。從圖9可輕易看到,該32kbps編解碼器被迫引入頻 譜燒孔來(lái)滿足編碼需求,且可看到上頻率范圍中的劇烈惡化。
發(fā)明內(nèi)容
本發(fā)明的目的是提供不向信號(hào)中引入頻譜燒孔、并以降低比特率對(duì)數(shù) 字音頻數(shù)據(jù)進(jìn)行編碼的裝置及方法。
此目的通過(guò)一種以降低比特率對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行編碼的裝置來(lái)達(dá)
成,該裝置包含具有高于該降低比特率的比特率的心理聽(tīng)覺(jué)量化數(shù)字音 頻數(shù)據(jù)的提供器;以及識(shí)別器,用于根據(jù)選擇準(zhǔn)則來(lái)識(shí)別頻段,該選擇準(zhǔn) 使得當(dāng)被識(shí)別的頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù) 的影響小于當(dāng)不同頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù) 據(jù)的影響。該裝置進(jìn)一步包含置換器,用于以噪聲綜合參數(shù)取代數(shù)字音頻 數(shù)據(jù)的識(shí)別頻段中的數(shù)據(jù),該噪聲綜合參數(shù)需要比該識(shí)別頻段中的數(shù)據(jù)要 少的數(shù)據(jù)量,該數(shù)字音頻數(shù)據(jù)具有降低的比特率。
此目的進(jìn)一步通過(guò)一種以降低比特率對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行編碼的方 法來(lái)達(dá)成,該方法包含提供具高于該降低比特率的比特率的心理聽(tīng)覺(jué)量 化數(shù)字音頻數(shù)據(jù)的步驟;以及根據(jù)選擇準(zhǔn)則來(lái)識(shí)別頻段的步驟,該選擇準(zhǔn) 使得當(dāng)被識(shí)別的頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù) 的影響小于當(dāng)不同頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù) 據(jù)的影響。該方法進(jìn)一步包含以噪聲綜合參數(shù)取代數(shù)字音頻數(shù)據(jù)的識(shí)別頻 段中的數(shù)據(jù)的步驟,該噪聲綜合參數(shù)需要比該識(shí)別頻段中的數(shù)據(jù)要少的數(shù) 據(jù)量,該數(shù)字音頻數(shù)據(jù)具有降低的比特率。
本發(fā)明基于如下發(fā)現(xiàn)只要平均能量相同或可比較,人類聽(tīng)覺(jué)系統(tǒng)即 無(wú)法在不同類型的窄頻段信號(hào)與噪聲信號(hào)之間進(jìn)行區(qū)分。在需要高數(shù)據(jù)壓 縮的某些情況下,若使用噪聲發(fā)生器來(lái)取代完全關(guān)閉頻段,則可更有效地 保存數(shù)字音頻數(shù)據(jù)的質(zhì)量。這有效地意指足以在解碼器級(jí)產(chǎn)生噪聲,而無(wú) 需傳送被發(fā)現(xiàn)為噪聲狀的定標(biāo)因子頻段的量化頻譜系數(shù)。僅需要被傳送的 信息是定標(biāo)因子頻段的平均能量值或如噪聲綜合參數(shù)的噪聲發(fā)生器參數(shù), 若感知模型指示其適合性,則如MPEG-4AAC的若干編解碼器取代傳送該頻段的定標(biāo)因子值。然而,若需要較高的壓縮率,則這些編解碼器關(guān)閉進(jìn)一 步引入所產(chǎn)生噪聲的頻段,產(chǎn)生較佳的數(shù)字音頻數(shù)據(jù)質(zhì)量。
本發(fā)明實(shí)施例將使用附圖做說(shuō)明,其中
圖1顯示用于編碼數(shù)字音頻數(shù)據(jù)的裝置的實(shí)施例的方塊圖2顯示用于編碼數(shù)字音頻數(shù)據(jù)的裝置的另一實(shí)施例的方塊圖3顯示本發(fā)明的提供器的實(shí)施例;
圖4顯示用于編碼數(shù)字音頻數(shù)據(jù)的裝置的另一實(shí)施例的方塊圖; 圖5顯示序列控制器方法的實(shí)施例的流程圖; 圖6顯示綜合分析方法的實(shí)施例的流程圖7顯示由本發(fā)明的方法的實(shí)施例所延伸的目前技術(shù)水準(zhǔn)方法的實(shí)施 例的流程圖8顯示目前技術(shù)水準(zhǔn)的編碼處理的流程圖;以及 圖9顯示編碼數(shù)字音頻數(shù)據(jù)的兩個(gè)頻譜圖。
具體實(shí)施例方式
圖1說(shuō)明以降低比特率編碼數(shù)字音頻數(shù)據(jù)的裝置100的實(shí)施例。圖1 說(shuō)明的實(shí)施例包含提供器110,其可向識(shí)別器120提供高于降低比特率的 比特率的心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù)。識(shí)別器120根據(jù)選擇準(zhǔn)則來(lái)識(shí)別頻 段,該選擇準(zhǔn)使得當(dāng)被識(shí)別的頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該 數(shù)字音頻數(shù)據(jù)的影響小于當(dāng)不同頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì) 該數(shù)字音頻數(shù)據(jù)的影響。識(shí)別器120向置換器130指示被識(shí)別的頻段。置 換器130可以利用噪聲綜合參數(shù)來(lái)取代數(shù)字音頻數(shù)據(jù)的被識(shí)別頻段中的數(shù) 據(jù),該噪聲綜合參數(shù)需要比被識(shí)別的頻段中的數(shù)據(jù)要少的數(shù)據(jù)量,從而該 數(shù)字音頻數(shù)據(jù)具有降低的比特率。
圖2說(shuō)明用于數(shù)字音頻數(shù)據(jù)的裝置100的另一實(shí)施例。圖2顯示參考 圖1說(shuō)明的提供器110、識(shí)別器120和置換器130。此外,圖2所示用于 編碼數(shù)字音頻數(shù)據(jù)的裝置100的實(shí)施例包含以降低比特率編碼數(shù)字?jǐn)?shù)據(jù)的 熵編碼器140。圖1和2所說(shuō)明的裝置100的兩個(gè)實(shí)施例可操作地編碼數(shù)字原始數(shù)據(jù),如PCM數(shù)據(jù)(PCM二脈沖編碼調(diào)制)。因此,提供器110可被實(shí)
施為通過(guò)用于實(shí)現(xiàn)心理聽(tīng)覺(jué)編碼的裝置來(lái)擴(kuò)展的任何音頻數(shù)據(jù)源,如CD
播放器。該心理聽(tīng)覺(jué)編碼是根據(jù)頻段完成的,例如,其可通過(guò)運(yùn)用該提供
器內(nèi)的濾波器組中的濾波器來(lái)實(shí)施。根據(jù)圖2說(shuō)明的實(shí)施例,裝置100可 包含熵編碼器140,從而對(duì)具有降低比特率的數(shù)字音頻數(shù)據(jù)進(jìn)行熵編碼, 例如可以是Huffman碼,以符合AAC或MP3標(biāo)準(zhǔn)。
圖3顯示提供器110的實(shí)施例。此實(shí)施例中,提供器110包含濾波器 組112,其可將數(shù)字音頻數(shù)據(jù)變換到頻域,根據(jù)頻段來(lái)提供頻率系數(shù)。提 供器110進(jìn)一步包含定標(biāo)因子量化及噪聲替代塊114,其可根據(jù)該數(shù)據(jù)來(lái) 決定定標(biāo)因子和量化以及噪聲替代,從輸入數(shù)字音頻數(shù)據(jù)導(dǎo)出的心理聽(tīng)覺(jué) 模型及事先分析器塊116。心理聽(tīng)覺(jué)模型及事先分析器塊116可從該數(shù)字 輸入數(shù)據(jù)決定何頻段可立刻被噪聲取代,及提供該信息至定標(biāo)因子量化及 噪聲替代塊114。此外,心理聽(tīng)覺(jué)模型提供允許導(dǎo)出定標(biāo)因子及量化的數(shù) 據(jù)。該事先分析器可分析時(shí)域中的數(shù)據(jù),而在另一實(shí)施例中,其可分析頻 域中的數(shù)據(jù),以決定可以解碼器處的噪聲來(lái)取代的頻段。決定這些頻段的 一種方法是綜合分析,其中所有頻段基本上依次被噪聲取代,完整信號(hào)被 再次綜合并測(cè)量質(zhì)量??缭剿蓄l段迭代,可識(shí)別具有最小質(zhì)量影響的頻 段,其接著被選擇用于取代。這個(gè)處理稍后將被詳述。
本發(fā)明另一實(shí)施例中,提供器110獲得例如MP3文件或ACC編碼數(shù)據(jù) 的已編碼數(shù)據(jù),接著使用解碼器來(lái)移除該熵編碼。 一旦該熵編碼被移除, 則已包含取代頻段的噪聲的心理聽(tīng)覺(jué)量化數(shù)據(jù)可被提供器110傳遞至識(shí)別 器120。接著,識(shí)別器120的任務(wù)是識(shí)別頻段,將心理聽(tīng)覺(jué)量化數(shù)據(jù)傳遞 至可取代相應(yīng)頻段的置換器130。
另一實(shí)施例中,裝置ioo被要求降低數(shù)字音頻數(shù)據(jù)的比特率至特定目
標(biāo)比特率。圖4說(shuō)明此發(fā)明性裝置100的實(shí)施例。圖4再次顯示用于首先 對(duì)由提供器110提供的數(shù)字音頻數(shù)據(jù)進(jìn)行編碼的裝置100的實(shí)施例。識(shí)別 器120可識(shí)別將被置換器130取代的頻段,其中以選擇準(zhǔn)則為基礎(chǔ)進(jìn)行識(shí) 別。圖4中的裝置100進(jìn)一步包含序列控制器150,其被耦合至識(shí)別器120 及置換器130。 一旦頻段被識(shí)別,則置換器130可以噪聲發(fā)生器的綜合參 數(shù)來(lái)取代此頻段中的數(shù)據(jù),產(chǎn)生新比特率。序列控制器150的目的是以達(dá)成目標(biāo)比特率的方式,調(diào)整將被取代的頻段的選擇準(zhǔn)則。在一個(gè)實(shí)施例中, 該序列控制器以非常輕松(soft)的選擇準(zhǔn)則開(kāi)始,產(chǎn)生非常少量的頻段 被選擇用于取代。若取代后的最終比特率仍高于目標(biāo)比特率,則該序列控
制器必須緊縮(tighten)該選擇準(zhǔn)則。
圖5說(shuō)明用來(lái)達(dá)成目標(biāo)比特率的迭代的流程圖。序列控制器150于第 一驗(yàn)證塊510中檢查是否已達(dá)到目標(biāo)比特率。若未達(dá)到目標(biāo)比特率,則序 列控制器150于步驟520中緊縮該選擇準(zhǔn)則,并傳送該緊縮的選擇準(zhǔn)則至 識(shí)別器120,用于取代的新頻段于塊530中被識(shí)別,而最終置換器130于 步驟540中取代新識(shí)別的頻段。之后,序列控制器150再次驗(yàn)證目標(biāo)比特 率是否已于步驟510中達(dá)成。 一旦達(dá)成目標(biāo)比特率,則于步驟550中提供 目標(biāo)比特率給數(shù)據(jù)。
在識(shí)別器120處,事后分析器可于一實(shí)施例中根據(jù)選擇準(zhǔn)則而操作以 分析數(shù)據(jù)。該事后分析器操作類似于本發(fā)明的提供器110的一個(gè)實(shí)施例中 提及的事先分析器。再次,事后分析器可執(zhí)行綜合分析。
圖6顯示執(zhí)行綜合分析的方法實(shí)施例的流程圖。第一步驟610中,迭 代索引i最初被賦予l。在圖6說(shuō)明的實(shí)施例中,假設(shè)數(shù)字音頻數(shù)據(jù)被分 為N個(gè)子頻段。步驟620中,根據(jù)該迭代索引選擇頻段,也就是說(shuō)該選擇 處理以第一頻段開(kāi)始。下一步驟630中,選擇的頻段被噪聲參數(shù)取代,而 步驟640中,全部數(shù)字音頻數(shù)據(jù)被綜合在一起。 一旦數(shù)據(jù)被綜合,則質(zhì)量 準(zhǔn)則或質(zhì)量測(cè)量可在步驟650中被決定。接著,此質(zhì)量測(cè)量可被與指示頻 段的迭代索引一起儲(chǔ)存。步驟660中,驗(yàn)證該迭代是否已完成,也就是是 否所有頻段均己被檢查,而若否,則于步驟670中將迭代索引增大一個(gè)步 長(zhǎng),而再次于步驟620中選擇下一頻段。 一旦完成全部迭代處理,也就是 若所有N個(gè)頻段均已被測(cè)試,則具最低質(zhì)量影響的頻段可被選擇及被識(shí)別 用于取代。該質(zhì)量影響可通過(guò)如信號(hào)噪聲比的傳統(tǒng)測(cè)量來(lái)決定。另一測(cè)量 可以是通過(guò)心理聽(tīng)覺(jué)模型決定的測(cè)量,再次決定人類聽(tīng)覺(jué)系統(tǒng)的最低質(zhì)量 影響。
如圖3顯示,編碼處理期間提供器110處的噪聲替代準(zhǔn)則以及識(shí)別器 120內(nèi)的事后分析器執(zhí)行的選擇準(zhǔn)則,基本上可以參考相同的測(cè)量。然而, 用于提供器實(shí)施例的事前選擇準(zhǔn)則決定了數(shù)字音頻數(shù)據(jù)內(nèi)的頻段,其不損害心理聽(tīng)覺(jué)模型再次決定的數(shù)字音頻數(shù)據(jù)的質(zhì)量。與該目標(biāo)不同,也就是 降低質(zhì)量并引入考慮人類聽(tīng)覺(jué)系統(tǒng)的數(shù)字音頻數(shù)據(jù)的質(zhì)量的影響,識(shí)別器 處的事后分析器選擇頻段。雖然事前選擇準(zhǔn)則及選擇準(zhǔn)則可以參考相同的 測(cè)量,旦其對(duì)質(zhì)量的影響不同。
例如,被當(dāng)作事前選擇準(zhǔn)則及選擇準(zhǔn)則的事前分析器及事后分析器測(cè) 量,是最低音調(diào),最低或最高信號(hào)噪聲比,最低或最高信號(hào)掩蔽比,也就 是考慮到人類聽(tīng)覺(jué)系統(tǒng)特性,頻段中最低能量,頻段中最高中心頻率,或 時(shí)域中最佳穩(wěn)定性,也就是時(shí)段中的最低可變性。
另一實(shí)施例中,置換器130被用于取代頻段,其為與單噪聲綜合參數(shù) 一起的連續(xù)頻段,也就是通過(guò)取代執(zhí)行數(shù)字音頻數(shù)據(jù)的較高比特率降低的 若干頻段數(shù)據(jù)。
然而,目前技術(shù)水平中,編解碼器感知噪聲替代用于取代在實(shí)際量化 及編碼步驟之前被判斷為噪聲狀的定標(biāo)因子,噪聲替代在本發(fā)明實(shí)施例中 被用來(lái)降低比特率。與當(dāng)前技術(shù)中僅僅取代感知模型中被發(fā)現(xiàn)為噪聲狀的 定標(biāo)因子頻段相比,存在更為有用的感知噪聲替代情況。在本發(fā)明實(shí)施例 中,采用感知噪聲替代作為更先進(jìn)約束降低方法中的約束降低裝置或比特 率降低裝置的一部分。
圖7顯示發(fā)明性實(shí)施例所擴(kuò)充的目前技術(shù)水平編碼處理的完整流程
圖。圖7顯示被輸入濾波器組705及感知模型710的輸入信號(hào)。從濾波器 組705輸出的頻率系數(shù)接著被輸入連接至感知模型710的比特/噪聲分配 塊715。比特/噪聲分配塊715之后是量化塊720和無(wú)關(guān)降低塊725,其均 類似于圖8解釋的比特/噪聲分配塊820及量化塊830。無(wú)關(guān)降低塊725 之后,在塊730中進(jìn)行碼需求驗(yàn)證。若滿足編碼需求,則熵編碼的量化頻 率系數(shù)及編碼拼寫(xiě)因子被輸入比特流多路復(fù)用器735,而可以獲得具有需 要的比特率的編碼數(shù)據(jù)。若編碼需求塊730中所驗(yàn)證的編碼需求不被滿足, 則于740中進(jìn)行另一驗(yàn)證步驟,其檢查在不引入頻譜燒孔的情況下是否可 進(jìn)一步降低比特率。若不引入頻譜燒孔即可進(jìn)一步降低比特率,則該編碼 需求可于塊745中降低且限制松弛,使得后續(xù)步驟750不會(huì)引入頻譜燒孔。 接著重復(fù)該處理,以比特/噪聲分配步驟715開(kāi)始。
可通過(guò)圖7的盒755內(nèi)的發(fā)明性方法的實(shí)施例來(lái)擴(kuò)充此目前技術(shù)的過(guò)
12程。若于驗(yàn)證步驟740中確定在不引入頻譜燒孔的情況下不能進(jìn)一步降低
數(shù)字音頻數(shù)據(jù)的比特率,則該過(guò)程之后為選擇塊760。選擇塊760選擇用 于人為噪聲替代的最適合的定標(biāo)因子頻段,亦被稱為感知噪聲替代。 一旦 識(shí)別正確頻段,則于塊765中產(chǎn)生插入數(shù)字?jǐn)?shù)據(jù)的感知噪聲,其中于步驟 770中將被選擇的定標(biāo)因子頻段從量化頻譜數(shù)組中移除,并于步驟775中 再次計(jì)算編碼需求。此后,可于步驟780中驗(yàn)證編碼需求,若該編碼需求 不滿足,則返回步驟760,也就是選擇下一頻段用于感知噪聲替代。最后, 編碼需求得到滿足時(shí),該處理將終止,可于步驟735中多路傳輸比特流, 且可獲得具有降低比特率的數(shù)字?jǐn)?shù)據(jù)。
如圖7顯示,該處理流上部分的本發(fā)明實(shí)施例非常類似上述目前技術(shù) 中發(fā)現(xiàn)的先進(jìn)編碼方案。不同之處在于約束降低選擇,本發(fā)明實(shí)施例避免 引入頻譜燒孔。取代移除定標(biāo)因子頻段及引入頻譜燒孔,本發(fā)明實(shí)施例可 以更有效的方式解決該問(wèn)題。主要地,第一步驟中,選擇最適合的定標(biāo)因 子頻段或頻率系數(shù)子組,以解碼器中的人為噪聲來(lái)替代。
可通過(guò)各種裝置來(lái)做此選擇,如以下的一個(gè)或多個(gè)具有最低音調(diào)的 定標(biāo)因子頻段,具有最低或最高信號(hào)噪聲比的定標(biāo)因子頻段,具有最低或 最高信號(hào)信號(hào)掩蔽比的定標(biāo)因子頻段,具有最低能量的定標(biāo)因子頻段,具 有最高中心頻率的定標(biāo)因子頻段,具有最佳時(shí)域穩(wěn)定性的定標(biāo)因子頻段, 或完成一個(gè)或更多剛提及的度量的頻率系數(shù)的分組的定標(biāo)因子頻段。
應(yīng)注意,這些裝置僅用于解釋,本領(lǐng)域的技術(shù)人員已知的其它裝置落 在本發(fā)明的范圍及精神之內(nèi)。
在執(zhí)行選擇后,例如以感知噪聲替代工具對(duì)被選擇的定標(biāo)因子頻段或 頻率系數(shù)的其他分組進(jìn)行編碼,意指本發(fā)明實(shí)施例可將頻譜內(nèi)容從數(shù)字音 頻數(shù)據(jù)中移除,而不是該頻段的定標(biāo)因子,例如可傳送其近似平均能量連 同告知解碼器以大致相同于比特流中所傳送的能量的人為產(chǎn)生噪聲重建 該頻段的適當(dāng)標(biāo)志。
感知噪聲替代編碼之后的本發(fā)明另一實(shí)施例中,該被取代頻譜系數(shù)的 比特需求現(xiàn)在可從量化頻譜比特需求中移除,而總比特需求可與編碼器約 束進(jìn)行比較。若該約束仍不被滿足,則該過(guò)程繼續(xù),直到約束得以滿足或 以感知噪聲替代對(duì)所有頻段進(jìn)行編碼為止。因此,必須設(shè)定最小約束,使得可以針對(duì)所有頻段來(lái)傳送感知噪聲替代能量因子。若期望達(dá)到該限制,則可移除該感知噪聲替代定標(biāo)因子,以達(dá)到甚至非常高的編碼約束。這可通過(guò)迭代地移除最適合的感知噪聲替代因子來(lái)達(dá)成,^中本領(lǐng)域的技術(shù)人員熟知評(píng)估該因子的方法,如選擇最低能量定標(biāo)因子或最高頻率定標(biāo)因子等。接著重新評(píng)估比特需求,并重復(fù)該處理,直到其滿足約束或所有因子分別被設(shè)置為零為止。
本發(fā)明實(shí)施例提供了如下優(yōu)點(diǎn)有效避免引入頻譜燒孔,如避免現(xiàn)代感知音頻編解碼其中與頻段關(guān)閉或頻譜燒孔有聯(lián)系的假像,產(chǎn)生關(guān)于人類聽(tīng)覺(jué)系統(tǒng)較佳的數(shù)字音頻數(shù)據(jù)質(zhì)量。
本發(fā)明的一個(gè)實(shí)施例是基于以頻率為基礎(chǔ)的感知音頻編碼的音頻編碼裝置,其具有感知模型、時(shí)間至頻率映射和量化及熵編碼塊。此外,可以多個(gè)頻域頻譜系數(shù)分組為基礎(chǔ)編碼定標(biāo)因子,以無(wú)關(guān)降低對(duì)其量化。另一實(shí)施例中,可以與人類聽(tīng)覺(jué)系統(tǒng)臨界頻段呈比例的方式來(lái)處理該多個(gè)頻域頻譜系數(shù),并以無(wú)關(guān)降低對(duì)其量化。本發(fā)明另一實(shí)施例包含在編碼比特流中傳送該系數(shù)。
此外, 一實(shí)施例可利用解碼器中人為產(chǎn)生的窄頻段噪聲取代定標(biāo)因子頻段,而不需傳送該定標(biāo)因子頻段的頻譜內(nèi)容,其中該編碼約束的評(píng)估方法可以感知模型所計(jì)算的正好察覺(jué)失真測(cè)量及頻譜系數(shù)值為基礎(chǔ)。本發(fā)明實(shí)施例降低編碼需求,通過(guò)上述方法之一替代定標(biāo)因子頻段來(lái)滿足該編碼約束。例如,可選擇適當(dāng)?shù)亩?biāo)因子頻段,通過(guò)具有最類似白噪聲的定標(biāo)因子,具有最高中心頻率的定標(biāo)因子頻段,具有最低能量的定標(biāo)因子頻段,具有最高信號(hào)噪聲比的定標(biāo)因子頻段,具有最低信號(hào)噪聲比的定標(biāo)因子頻段,具有最高信號(hào)對(duì)正好察覺(jué)失真能量比的定標(biāo)因子頻段,或具有最低信號(hào)對(duì)正好察覺(jué)失真能量比的定標(biāo)因子頻段來(lái)降低編碼需求。
視發(fā)明性方法特定實(shí)施需求而定,該發(fā)明性方法可實(shí)施于硬件或軟件中。可使用數(shù)字儲(chǔ)存媒體,特別是具儲(chǔ)存于此以可程序計(jì)算機(jī)系統(tǒng)操作的電子可讀控制信號(hào)的盤片,DVD或CD來(lái)執(zhí)行該實(shí)施,來(lái)執(zhí)行該發(fā)明性方法。通常,本發(fā)明為一種計(jì)算機(jī)程序產(chǎn)品,具有儲(chǔ)存在機(jī)器可讀載體上的程序代碼,當(dāng)該計(jì)算機(jī)程序產(chǎn)品于計(jì)算機(jī)上運(yùn)轉(zhuǎn)時(shí),該程序代碼可操作地執(zhí)行該發(fā)明性方法。也就是說(shuō),本發(fā)明方法為一種計(jì)算機(jī)程序產(chǎn)品,具有當(dāng)該
14計(jì)算機(jī)程序產(chǎn)品于計(jì)算機(jī)上運(yùn)轉(zhuǎn)時(shí),可執(zhí)行至少一種本發(fā)明的方法的程序代碼。附圖標(biāo)記列表
100用于對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行編碼的裝置110提供器112濾波器組
114定標(biāo)因子量化和噪聲替代
116心理聽(tīng)覺(jué)模型和事先分析器
120識(shí)別器
130置換器
140熵編碼器
150序列控制器
510目標(biāo)比特率驗(yàn)證
520選擇標(biāo)準(zhǔn)緊縮
530頻段識(shí)別
540頻段數(shù)據(jù)的取代
550提供數(shù)據(jù)
610初始化i
620選擇頻段i
630取代頻段i
640合成總的數(shù)字音頻數(shù)據(jù)
660驗(yàn)證所有頻段
670增大迭代索引i
680標(biāo)識(shí)頻段
705濾波器組
710感知模型
715比特/噪聲分配
720量化
725無(wú)關(guān)降低
730編碼需求驗(yàn)證
735比特流多路復(fù)用器
740驗(yàn)證沒(méi)有頻譜燒孔的情況下進(jìn)一步降低比特率745降低編碼需求
750限制松弛使得不會(huì)引入頻譜燒孔755本發(fā)明的方法的實(shí)施例760選擇最適合的頻段765感知噪聲替代
770移除被選擇的頻段的所選擇的定標(biāo)因子
775重新計(jì)算編碼需求
780驗(yàn)證編碼需求
810濾波器組
815感知模型
820比特/噪聲分配
825量化
830無(wú)關(guān)降低
835編碼驗(yàn)證
840比特需求降低
845比特流多路復(fù)用器
權(quán)利要求
1. 一種以降低的比特率對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行編碼的裝置,包含提供器,提供具有高于該降低的比特率的比特率的心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù);識(shí)別器,可根據(jù)選擇準(zhǔn)則來(lái)識(shí)別頻段,該選擇準(zhǔn)則使得當(dāng)被識(shí)別的頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù)質(zhì)量的影響小于當(dāng)不同頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù)質(zhì)量的影響,以及置換器,用于以噪聲綜合參數(shù)取代數(shù)字音頻數(shù)據(jù)的識(shí)別頻段中的數(shù)據(jù),該噪聲綜合參數(shù)需要比該識(shí)別頻段中的數(shù)據(jù)要少的數(shù)據(jù)量,該數(shù)字音頻數(shù)據(jù)具有降低的比特率。
2. 如權(quán)利要求1所述的裝置,其中該提供器適用于針對(duì)每頻段來(lái)提供 心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù),該頻段可由濾波器組中的濾波器來(lái)決定。
3. 如權(quán)利要求1所述的裝置,進(jìn)一步包含熵編碼器,用于對(duì)具有降低 的比特率的數(shù)字音頻數(shù)據(jù)進(jìn)行編碼。
4 如權(quán)利要求1至3之一所述的裝置,其中該心理聽(tīng)覺(jué)編碼的數(shù)字?jǐn)?shù)據(jù)包含熵編碼的量化頻譜數(shù)據(jù),而且其中該提供器包含熵解碼器,該熵解 碼器用于對(duì)該心理聽(tīng)覺(jué)編碼的數(shù)字音頻數(shù)據(jù)進(jìn)行熵解碼,以提供該心理聽(tīng) 覺(jué)量化頻譜數(shù)據(jù),而且其中該識(shí)別器和該置換器可操作以處理該熵解碼的 心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù)。
5. 如權(quán)利要求1至4之一所述的裝置,其中該提供器包含噪聲替代處 理,用于以該噪聲替代處理的插入?yún)?shù)取代在事先選擇頻段中的頻譜數(shù) 據(jù),該事先選擇頻段由事先選擇準(zhǔn)則來(lái)識(shí)別,執(zhí)行該噪聲替代處理以取代 對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行心理聽(tīng)覺(jué)量化。
6. 如權(quán)利要求5所述的裝置,其中該提供器包含事先分析器,用于根 據(jù)該事先選擇準(zhǔn)則分析數(shù)字音頻數(shù)據(jù),以事先選擇用于插入噪聲替代參數(shù) 的頻段。
7. 如權(quán)利要求1至6之一所述的裝置,其中該識(shí)別器包含事后分析器, 用于根據(jù)該選擇準(zhǔn)則分析頻段中的心理聽(tīng)覺(jué)量化數(shù)據(jù),以識(shí)別用于心理聽(tīng)覺(jué)量化數(shù)據(jù)替代的該頻段。
8. 如權(quán)利要求5至7之一所述的裝置,其中該事先分析器或該事后分 析器可操作以使用該事先選擇準(zhǔn)則或該選擇準(zhǔn)則,該事先選擇準(zhǔn)則與該選 擇準(zhǔn)則不同,該事先選擇頻段與該識(shí)別頻段不同。
9. 如權(quán)利要求8所述的裝置,其中該事先分析器使用該事先選擇準(zhǔn)則, 而該事后分析器使用該選擇準(zhǔn)則,該選擇準(zhǔn)則對(duì)應(yīng)于包括以下內(nèi)容的組中之一或組合最低音調(diào)、最低或最高信號(hào)噪聲比、最低或最高信號(hào)掩蔽比、 最低能量、最高中心頻率、時(shí)域最佳穩(wěn)定性或時(shí)域最低可變性。
10. 如權(quán)利要求1至9之一所述的裝置,進(jìn)一步包含序列控制器,用于控制該識(shí)別器及該置換器,該序列控制器可將該降低的比特率與目標(biāo)比 特率進(jìn)行比較,調(diào)整該選擇準(zhǔn)則,使得當(dāng)該降低的比特率高于該目標(biāo)比特 率時(shí),識(shí)別更多頻段以由噪聲綜合參數(shù)來(lái)取代。
11. 如權(quán)利要求1至io之一所述的裝置,其中該置換器適用于以噪聲綜合參數(shù)來(lái)取代多個(gè)頻段的數(shù)據(jù),并適用于以噪聲綜合參數(shù)來(lái)取代連續(xù)頻 段的數(shù)據(jù)。
12. 如權(quán)利要求1至11之一所述的裝置,其中該提供器可操作以從編 碼數(shù)字音頻數(shù)據(jù)提供心理聽(tīng)覺(jué)量化數(shù)據(jù),該編碼數(shù)字音頻數(shù)據(jù)是根據(jù) IS0/IEC 14496而編碼的。
13. 如權(quán)利要求3至12之一所述的裝置,其適用于根據(jù)IS0/IEC 14496 以降低的比特率對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行編碼。
14. 一種以降低的比特率對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行編碼的方法,包含如下 步驟提供具有高于該降低的比特率的比特率的心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù);根據(jù)選擇準(zhǔn)則來(lái)識(shí)別頻段,該選擇準(zhǔn)則使得當(dāng)被識(shí)別的頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù)質(zhì)量的影響小于當(dāng)不同頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù)質(zhì)量的影響;以及以噪聲綜合參數(shù)取代數(shù)字音頻數(shù)據(jù)的識(shí)別頻段中的數(shù)據(jù),該噪聲綜合 參數(shù)需要比該識(shí)別頻段中的數(shù)據(jù)要少的數(shù)據(jù)量,該數(shù)字音頻數(shù)據(jù)具有降低 的比特率。
15. —種具有程序代碼的計(jì)算機(jī)程序,當(dāng)該程序代碼在計(jì)算機(jī)中運(yùn)行時(shí),用于執(zhí)行權(quán)利要求14所述的方法。
全文摘要
一種以降低的比特率編碼數(shù)字音頻數(shù)據(jù)的方法及裝置,該裝置包含提供器,提供具有高于該降低的比特率的比特率的心理聽(tīng)覺(jué)量化數(shù)字音頻數(shù)據(jù)。該裝置進(jìn)一步包含識(shí)別器,可根據(jù)選擇準(zhǔn)則來(lái)識(shí)別頻段,該選擇準(zhǔn)使得當(dāng)被識(shí)別的頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù)的影響小于當(dāng)不同頻段中的數(shù)據(jù)被所產(chǎn)生的噪聲取代時(shí)對(duì)該數(shù)字音頻數(shù)據(jù)的影響。該裝置進(jìn)一步包含置換器,用于以噪聲綜合參數(shù)取代數(shù)字音頻數(shù)據(jù)的識(shí)別頻段中的數(shù)據(jù),該噪聲綜合參數(shù)需要比該識(shí)別頻段中的數(shù)據(jù)要少的數(shù)據(jù)量,該數(shù)字音頻數(shù)據(jù)具有降低的比特率。
文檔編號(hào)G10L19/02GK101467203SQ200680054976
公開(kāi)日2009年6月24日 申請(qǐng)日期2006年10月4日 優(yōu)先權(quán)日2006年4月24日
發(fā)明者伊萬(wàn)·蒂姆科維奇, 吉安·卡羅·帕斯庫(kù)托 申請(qǐng)人:尼祿股份公司