專利名稱:音頻編碼器、音頻解碼器、用于編碼及解碼音頻信號的方法、音頻流與計(jì)算機(jī)程序的制作方法
技術(shù)領(lǐng)域:
依據(jù)本發(fā)明的實(shí)施例涉及一種基于輸入音頻信號的變換域表示提供音頻流的編 碼器。依據(jù)本發(fā)明進(jìn)一步的實(shí)施例涉及一種基于編碼音頻流提供音頻信號的解碼表示的解 碼器。依據(jù)本發(fā)明進(jìn)一步的實(shí)施例提供用于編碼音頻信號及解碼音頻信號的方法。依據(jù)本 發(fā)明進(jìn)一步的實(shí)施例提供音頻流。依據(jù)本發(fā)明進(jìn)一步的實(shí)施例提供用于編碼音頻信號及解 碼音頻信號的計(jì)算機(jī)程序。一般而言,依據(jù)本發(fā)明的實(shí)施例涉及噪聲填充。
背景技術(shù):
音頻編碼概念通常在頻域中編碼音頻信號。例如,所謂的“先進(jìn)音頻編碼”(AAC) 概念將心理聲學(xué)模型計(jì)入考慮,來編碼不同頻譜區(qū)段(或頻率區(qū)段)的內(nèi)容。為此目的,不 同頻譜區(qū)段的強(qiáng)度信息被編碼。然而,用于編碼不同頻譜區(qū)段中的強(qiáng)度的分辨率依據(jù)不同 頻譜區(qū)段的心理聲學(xué)關(guān)聯(lián)性被調(diào)整。藉此,一些被認(rèn)為心理聲學(xué)關(guān)聯(lián)低的頻譜區(qū)段以非常 低的強(qiáng)度分辨率被編碼,使得被認(rèn)為具有低心理聲學(xué)關(guān)聯(lián)的部分或甚至于支配性數(shù)量的頻 譜區(qū)段被量化為零。將頻譜區(qū)段的強(qiáng)度量化為零帶來量化的零值可用一非常節(jié)省比特的方 法被編碼的優(yōu)勢,這有助于保持比特率盡可能小。然而,量化為零的頻譜區(qū)段有時(shí)產(chǎn)生可聽 見的偽像,即便該心理聲學(xué)模型指示該頻譜區(qū)段是低心理聲學(xué)關(guān)聯(lián)性時(shí)也是如此。因此,音頻編碼器及音頻解碼器中有處理量化為零的頻譜區(qū)段的需求。有不同的已知方法可供在變換域音頻編碼系統(tǒng)及語音編碼器中處理被編碼為零 的頻譜區(qū)段。例如,MPEG-4 “AAC” (先進(jìn)音頻編碼)使用感知噪聲替代(PNS)的概念。該感 知噪聲替代僅以噪聲填充全部的尺度因子頻帶。有關(guān)MPEG-4 AAC的細(xì)節(jié)例如可在國際 標(biāo)準(zhǔn)IS0/IEC 14496-3(信息技術(shù)-視聽對象的編碼-第3部份音頻)中找到。另外, AMR-WB+語音編碼器以隨機(jī)噪聲向量替代量化為零的向量量化向量(VQ向量),在該隨機(jī)噪 聲向量中,每一復(fù)頻譜值具有恒定幅度及隨機(jī)相位。該幅度由以比特流被傳送的一個(gè)噪聲 值控制。有關(guān)AMR-WB+語音編碼器的細(xì)節(jié)例如可在名為“Third Generation Partnership Project ;Technical Specification Group Services and System Aspects ;Audio Codec Processing Functions ;Extended Adaptive Multi-Rate-ffide Band(AMR-ffB+)Codec ; Transcoding Functions (Release Six) ”的技術(shù)規(guī)范中找到,該規(guī)范亦稱為“3GPP TS 26.290 V6. 3. 0(2005-06)-Technical Specification”。另外,EP 1 395 980 Bl描述音頻編碼概念。該公開描述一種措施,藉由該措施, 可聽見但感知上關(guān)聯(lián)較低的原始音頻信號的信息的選擇頻帶不需被編碼,而是可以由噪聲 填充參數(shù)替代。相反地,那些感知上關(guān)聯(lián)較高的內(nèi)容的信號頻帶被完全編碼。編碼比特以 此方式被節(jié)省,而在該已接收信號的頻譜中未留下虛值。該噪聲填充參數(shù)是所討論頻帶中 的RMS信號值的測量,且由解碼算法被用在接收端以指示要注入所討論頻帶中的噪聲量。
其他方法提供一種將發(fā)送頻譜的音調(diào)計(jì)入考慮,來將非導(dǎo)引性噪聲插入編碼器。然而,這些常規(guī)概念典型地帶來的問題是它們包括有關(guān)噪聲填充的粒度的低分辨 率,從而典型地劣化聽覺印象,或需要相當(dāng)大量的噪聲填充輔助信息,這需要額外的比特率。鑒于以上所述,需要一種改進(jìn)的噪聲填充概念,該概念在可達(dá)到的聽覺印象與要 求的比特率之間提供一改進(jìn)的折衷方案。
發(fā)明內(nèi)容
依據(jù)本發(fā)明的實(shí)施例建立一種基于輸入音頻信號的變換域表示提供音頻流的編 碼器。該編碼器包括量化誤差計(jì)算器,被配置為確定該輸入音頻信號的多個(gè)頻帶(例如多 個(gè)尺度因子頻帶上)的多頻帶量化誤差,單獨(dú)的頻帶增益信息(例如單獨(dú)的尺度因子)可 用于該多個(gè)頻帶。該編碼器也包括音頻流提供器,被配置為提供該音頻流,使得該音頻流包 括描述該頻帶的音頻內(nèi)容的信息及描述該多頻帶量化誤差的信息。上述編碼器所依據(jù)的發(fā)現(xiàn)是,使用多頻帶量化誤差信息帶來基于相當(dāng)小量的輔助 信息而獲得良好聽覺印象的可能性。詳言之,使用覆蓋可利用單獨(dú)的頻帶增益信息的多個(gè) 頻帶的多頻帶量化誤差信息,可容許考慮基于多頻帶量化誤差的噪聲值在解碼器端依據(jù)頻 帶增益信息的縮放。因此,由于該頻帶增益信息典型地與頻帶的心理聲學(xué)關(guān)聯(lián)性或與被施 加于頻帶的量化精度相關(guān),該多頻帶量化誤差信息被識(shí)別為輔助信息,這允許實(shí)現(xiàn)提供良 好聽覺印象的合成填充噪聲,同時(shí)保持該輔助信息比特率的低成本。在一較佳實(shí)施例中,該編碼器包括量化器,被配置為取決于不同頻帶的心理聲學(xué) 關(guān)聯(lián)性,使用不同的量化精度量化該變換域表示的不同頻帶的頻譜分量(例如,頻譜系 數(shù)),以獲得量化的頻譜分量,其中不同的量化精度由頻帶增益信息反映。并且,音頻流提供 器被配置為提供音頻流,使得該音頻流包括描述該頻帶增益信息的信息(例如以尺度因子 的形式),且使得該音頻流也包括描述該多頻帶量化誤差的信息。在一較佳實(shí)施例中,量化誤差計(jì)算器被配置為確定在量化域中的量化誤差,使得 取決于頻譜分量的頻帶增益信息、在一整數(shù)值量化前被執(zhí)行的縮放被計(jì)入考慮。通過考慮 量化域中的量化誤差,當(dāng)計(jì)算多頻帶量化誤差時(shí)將頻譜區(qū)段的心理聲學(xué)關(guān)聯(lián)性計(jì)入考慮。 例如,對于低感知關(guān)聯(lián)性的頻帶而言,量化可以是粗略的,因此絕對量化誤差(在非量化域 中)較大。相較之下,對于高心理聲學(xué)關(guān)聯(lián)性的頻帶而言,該量化是精細(xì)的,且該量化誤差 在非量化域中較小。為了使高心理聲學(xué)關(guān)聯(lián)性及低心理聲學(xué)關(guān)聯(lián)性的頻帶中的量化誤差具 可比較性,以獲得有意義的多頻帶量化誤差信息,在一較佳實(shí)施例中該量化誤差在該量化 域中(而不是在非量化域中)被計(jì)算。在一另外較佳實(shí)施例中,編碼器被配置為將量化為零的頻帶(例如,該頻帶的所 有頻譜區(qū)段量化為零)的頻帶增益信息(例如,尺度因子)設(shè)定為對量化為零的頻帶的能 量與該多頻帶量化誤差的能量之間的比率加以表示的值。通過將量化為零的頻帶的尺度因 子設(shè)定為良好定義的值,可以以噪聲填充該量化為零的頻帶,使得該噪聲的能量至少大約 等于該量化為零的頻帶的原始信號能量。通過調(diào)整該編碼器中的尺度因子,解碼器可用與 任何其他未量化為零的頻帶的相同方法處理量化為零的頻帶,使得不需要復(fù)雜的異常處理 (典型地需要額外的信令)。另外,通過調(diào)整頻帶增益信息(例如尺度因子),頻帶增益值與多頻帶量化誤差信息的組合允許對填充噪聲的方便的確定。在一較佳實(shí)施例中,量化誤差計(jì)算器被配置為確定多個(gè)頻帶上的多頻帶量化誤 差,該多個(gè)頻帶包括至少一個(gè)量化為非零值的頻率分量(例如頻率區(qū)段),而避免頻帶被全 部量化為零。已發(fā)現(xiàn)如果全部量化為零的頻帶從計(jì)算中被省去,多頻帶量化誤差信息尤其 有意義。在全部量化為零的頻帶中,量化典型地非常粗略,使得從這種頻帶獲得的量化誤差 信息典型地不特別有意義。另外,心理聲學(xué)上較關(guān)聯(lián)的、沒有全部量化為零的頻帶中的量化 誤差提供更有意義的信息,該信息允許在解碼器側(cè)適于人類聽覺的噪聲填充。依據(jù)本發(fā)明的實(shí)施例建立一種基于表示音頻信號頻帶的頻譜分量的編碼流來提 供音頻信號的解碼表示的解碼器。該解碼器包括噪聲填充器,被配置為基于共同的多頻帶 噪聲強(qiáng)度值,將噪聲引入多個(gè)頻帶的頻譜分量中(例如,頻譜線值,或較一般地,頻譜區(qū)段 值),單獨(dú)的頻帶增益信息(例如,尺度因子)與該多個(gè)頻帶相關(guān)聯(lián)。該解碼器基于一項(xiàng)發(fā)現(xiàn),S卩如果單獨(dú)的頻帶增益信息與不同的頻帶相關(guān)聯(lián),那么 單一多頻帶噪聲強(qiáng)度值可被施用于具有良好結(jié)果的噪聲填充。因此,對被引入不同頻帶 中的噪聲的單獨(dú)縮放可以是基于頻帶增益信息的,使得例如當(dāng)與單獨(dú)的頻帶增益信息結(jié)合 時(shí),該單一共同多頻帶噪聲強(qiáng)度值提供足夠的信息,以用適配于人類心理聲學(xué)的方法引入 噪聲。因此,本文所描述的概念允許在量化(但是非重縮放)域中施加噪聲填充。加入解 碼器中的噪聲可以頻帶的心理聲學(xué)關(guān)聯(lián)性來縮放,而不需要額外的輔助信息(除了無論如 何在依據(jù)頻帶的心理聲學(xué)關(guān)聯(lián)性縮放頻帶的非噪聲音頻內(nèi)容時(shí)需要的輔助信息以外)。在一較佳實(shí)施例中,該噪聲填充器被配置為取決于各個(gè)單獨(dú)頻譜區(qū)段是否量化為 零,選擇性地逐頻譜區(qū)段地決定是否將噪聲引入頻帶的單獨(dú)頻譜區(qū)段。因此,可以保持所需 輔助信息的量小的同時(shí)獲得噪聲填充的細(xì)粒度。事實(shí)上,不需要發(fā)送任何頻帶特定的噪聲 填充輔助信息,然而仍具有關(guān)于噪聲填充的優(yōu)良粒度。例如,典型地需要對頻帶發(fā)送頻帶增 益因數(shù)(例如尺度因子),即使該頻帶的僅單一頻譜線(或單一頻譜區(qū)段)量化為非零強(qiáng)度 值。因此,可以說,如果頻帶的至少一個(gè)頻譜線(或頻譜區(qū)段)量化為非零強(qiáng)度,尺度因子 信息可無額外成本地(從比特率方面來講)供噪聲填充之用。然而,依據(jù)本發(fā)明的發(fā)現(xiàn),沒 有必要傳送頻帶特定的噪聲信息以獲得頻帶中的合適的噪聲填充,其中在此頻帶中,至少 一個(gè)非零頻譜區(qū)段強(qiáng)度值存在。另外,已發(fā)現(xiàn)心理聲學(xué)上的良好結(jié)果可通過使用與頻帶特 定的頻帶增益信息(例如尺度因子)結(jié)合的多頻帶噪聲強(qiáng)度值而獲得。因此,不需要在頻 帶特定的噪聲填充信息上浪費(fèi)比特。另外,單一多頻帶噪聲強(qiáng)度值的發(fā)送是足夠了,因?yàn)槎?頻帶噪聲填充信息可與不論以何種方式被發(fā)送的頻帶增益信息結(jié)合,以獲得非常適合于人 類聽覺期望的頻帶特定的噪聲填充信息。在另一較佳實(shí)施例中,該噪聲填充器被配置為接收對頻域音頻信號表示的第一頻 帶的不同重迭或不重迭頻率部份加以表示的多個(gè)頻譜區(qū)段值,且接收對該頻域音頻信號表 示的第二頻帶的不同重迭或不重迭頻率部份加以表示的多個(gè)頻譜區(qū)段值。另外,該噪聲填 充器被配置為用第一頻譜區(qū)段噪聲值替代多個(gè)頻帶的第一頻帶的一個(gè)或多個(gè)頻譜區(qū)段值, 其中該第一頻譜區(qū)段噪聲值的大小由多頻帶噪聲強(qiáng)度值決定。另外,該噪聲填充器被配置 為用具有與第一頻譜區(qū)段噪聲值相同大小的第二頻譜區(qū)段噪聲值替代第二頻帶的一個(gè)或 多個(gè)頻譜區(qū)段值。該解碼器也包括縮放器,被配置為用第一頻帶增益值縮放第一頻帶的頻 譜區(qū)段值,以獲得該第一頻帶的縮放后頻譜區(qū)段值,且用第二頻帶增益值縮放該第二頻帶的頻譜區(qū)段值,以獲得該第二頻帶的縮放后頻譜區(qū)段值,使得用第一及第二頻譜區(qū)段噪聲 值替代的頻譜區(qū)段值以不同的頻帶增益值被縮放,且使得用第一頻譜區(qū)段噪聲值替代的頻 譜區(qū)段值、表示該第一頻帶的音頻內(nèi)容的該第一頻帶的非替代頻譜區(qū)段值用該第一頻帶增 益值被縮放,且使得用第二頻譜區(qū)段噪聲值替代的頻譜區(qū)段值、表示該第二頻帶的音頻內(nèi) 容的第二頻帶的非替代頻譜區(qū)段值以該第二頻帶增益值被縮放。在依據(jù)本發(fā)明的實(shí)施例中,該噪聲填充器被可選擇地配置為,如果給定頻帶量化 為零,使用噪聲偏移值選擇性地修改該給定頻帶的頻帶增益值。因此,該噪聲偏移用于將許 多輔助信息比特最小化。就該最小化而言,應(yīng)注意在AAC音頻編碼器中對尺度因子(scf) 的編碼使用隨后的尺度因子(scf)之差的霍夫曼編碼來執(zhí)行。小的差值獲得最短的編碼 (而大的差值獲得較大編碼)。該噪聲偏移在從常規(guī)尺度因子(未量化為零的頻帶的尺度 因子)到噪聲尺度因子以及返回的轉(zhuǎn)換中最小化“平均差”,且因此優(yōu)化該輔助信息的比特 需求。這是由于通?!霸肼暢叨纫蜃印贝笥诔R?guī)尺度因子的事實(shí),因?yàn)樗ǖ男胁?gt;=1, 但是對應(yīng)于平均量化誤差e(其中典型地,0 < e < 0. 5)。在一較佳實(shí)施例中,該噪聲填充器被配置為用頻譜區(qū)段噪聲值(頻譜區(qū)段噪聲值 的大小取決于多頻帶噪聲強(qiáng)度值)替代量化為零的頻譜區(qū)段的頻譜區(qū)段值,以僅僅針對最 低頻譜區(qū)段系數(shù)在預(yù)定頻譜區(qū)段索引之上的頻帶,獲得替代頻譜區(qū)段值,而最低頻譜區(qū)段 系數(shù)在預(yù)定頻譜區(qū)段索引之下的頻帶的頻譜區(qū)段值不受影響。另外,該噪聲填充器較佳地 被配置為選擇性地,對于最低頻譜區(qū)段系數(shù)在預(yù)定頻譜區(qū)段索引之上的頻帶,如果給定頻 帶完全量化為零,取決于噪聲偏移值而修改該給定頻帶的頻帶增益值(例如尺度因子值)。 較佳地,噪聲填充僅在預(yù)定頻譜區(qū)段索引之上被執(zhí)行。并且,該噪聲偏移較佳地僅被施加于 量化為零的頻帶,且較佳地在預(yù)定頻譜區(qū)段索引之下不被施加。另外,該解碼器較佳地包括 縮放器,被配置為將被選擇性地修改的或未修改的頻帶增益值施加于被選擇性地替代或未 替代的頻譜區(qū)段值,以獲得縮放后的頻譜信息,該信息表示音頻信號。使用此方法,解碼器 達(dá)到非常平衡的聽覺印象,該聽覺印象并未由該噪聲填充被嚴(yán)重劣化。噪聲填充僅施加于 較高頻帶(最低頻譜區(qū)段系數(shù)在預(yù)定頻譜區(qū)段索引之上),因?yàn)樵谳^低頻帶中的噪聲填充 將帶來不希望的聽覺印象的劣化。另一方面,較佳地在較高頻帶中執(zhí)行噪聲填充。應(yīng)注意 在一些情況中,較低尺度因子頻帶(sfb)被量化得更細(xì)(相比于較高尺度因子頻帶)。依據(jù)本發(fā)明的另一實(shí)施例建立一種基于輸入音頻信號的變換域表示來提供音頻 流的方法。依據(jù)本發(fā)明的另一實(shí)施例建立一種基于編碼音頻流來提供音頻信號的解碼表示 的方法。依據(jù)本發(fā)明的又一實(shí)施例建立一種用于執(zhí)行一個(gè)或多個(gè)上述方法的計(jì)算機(jī)程序。依據(jù)本發(fā)明的再一實(shí)施例建立一種表示音頻信號的音頻流。該音頻流包括描述該 音頻信號的頻譜分量的強(qiáng)度的頻譜信息,其中該頻譜信息在不同的頻帶中以不同的量化精 度來量化??紤]到不同的量化精度,該音頻流也包括描述在多個(gè)頻帶上的多頻帶量化誤差 的噪聲水平信息。如上所述,此音頻流允許對音頻內(nèi)容的高效解碼,其中在可實(shí)現(xiàn)的聽覺印 象與所要求的比特流之間的獲得良好折衷。
圖1示出了依據(jù)本發(fā)明一實(shí)施例的編碼器的方塊示意圖;圖2示出了依據(jù)本發(fā)明另一實(shí)施例的編碼器的方塊示意圖;圖&及圖北示出了依據(jù)本發(fā)明一實(shí)施例的擴(kuò)展先進(jìn)音頻編碼(MC)的方塊示意圖;圖如及圖4b示出了被執(zhí)行供音頻信號的編碼之用的算法的偽碼程序列表;圖5示出了依據(jù)本發(fā)明一實(shí)施例的解碼器的方塊示意圖;圖6示出了依據(jù)本發(fā)明另一實(shí)施例的解碼器的方塊示意圖;圖7a及圖7b示出了依據(jù)本發(fā)明一實(shí)施例的擴(kuò)展的AAC(先進(jìn)音頻編碼)解碼器 的方塊示意圖;圖8a示出了逆量化的數(shù)學(xué)表示,該逆量化可在圖7中的擴(kuò)展AAC解碼器中執(zhí)行;圖8b示出了逆量化的算法的偽碼程序列表,該逆量化可由圖7中的擴(kuò)展AAC解碼 器執(zhí)行;圖8c示出了逆量化的流程圖表示;圖9示出了噪聲填充器及重縮放器的方塊示意圖,它們可用在圖7的擴(kuò)展AAC解 碼器中;圖IOa示出了算法的偽程序碼表示,該算法可由圖7的噪聲填充器或由圖7的噪 聲填充器執(zhí)行;圖IOb示出了圖IOa的偽程序碼的元素的圖例;圖11示出了一種方法的流程圖,該方法可在圖7的噪聲填充器或圖9的噪聲填充 器中實(shí)施;圖12示出了圖11的方法的圖式說明;圖13a及1 示出了算法的偽程序碼表示,該算法可由圖7的噪聲填充器或圖9 的噪聲填充器執(zhí)行;圖14a至14d示出了依據(jù)本發(fā)明一實(shí)施例的音頻流的比特流元素的表示;及圖15示出了依據(jù)本發(fā)明另一實(shí)施例的比特流的圖式表示。
具體實(shí)施例方式1.編碼器1. 1.依據(jù)圖1的編碼器圖1示出了依據(jù)本發(fā)明一實(shí)施例的一種基于輸入音頻信號的變換域表示來提供 音頻流的編碼器的方塊示意圖。圖1的編碼器100包括量化誤差計(jì)算器110及音頻流提供器120。量化誤差計(jì)算 器110被配置為接收與第一頻帶有關(guān)的信息112,對于第一頻帶,第一頻帶增益信息是可 用的;以及關(guān)于第二頻帶的信息114,對于第二頻帶,第二頻帶增益信息是可用的。量化誤 差計(jì)算器被配置為確定輸入音頻信號的多個(gè)頻帶上的多頻帶量化誤差,對于這多個(gè)頻帶, 單獨(dú)的的頻帶增益信息是可用的。例如,量化誤差計(jì)算器110被配置為使用信息112、114 確定第一頻帶及第二頻帶上的多頻帶量化誤差。因此,量化誤差計(jì)算器110被配置為向音 頻流提供器120提供描述多頻帶量化誤差的信息116。音頻流提供器120被配置為也接收 描述第一頻帶的信息122及描述第二頻帶的信息124。另外,該音頻流提供器120被配置為提供音頻流126,使得音頻流1 包括信息116的表示、以及第一頻帶的與第二頻帶的音頻 內(nèi)容的表示。因此,編碼器110提供包括信息內(nèi)容的音頻流126,該信息內(nèi)容允許使用噪聲填充 高效地解碼頻帶的音頻內(nèi)容。具體地,由編碼器提供的音頻流1 帶來比特率與噪聲填充 解碼靈活性之間的良好折衷。1.2.依據(jù)圖2的編碼器1.2. 1.編碼器總覽在下文中,依據(jù)本發(fā)明一實(shí)施例的一改進(jìn)的音頻編碼器將被描述,該音頻編碼 器基于在國際標(biāo)準(zhǔn) IS0/IEC 14496-3 :2005 (E),Information Technology-Coding of Audio-Visual Objects-Part 3 :Audio, Sub-part 4 :General Audio Coding(GA)-AAC, Twin VQ, BSAC中描述的音頻編碼器。依據(jù)圖2的音頻編碼器200特別基于在IS0/IEC 14496-3 :2005 (E),Part 3 Audio, Sub-part 4,Section 4. 1中描述的音頻編碼器。然而,音頻編碼器200不需要實(shí)施 IS0/IEC 14496-3 :2005 (E)的音頻編碼器的精確功能性。音頻編碼器200例如可被配置為接收輸入時(shí)間信號210,并基于該輸入時(shí)間信號 210提供編碼音頻流212。信號處理路徑可包括可選的下采樣器220、可選的AAC增益控制 222、塊交換濾波器組224、可選的信號處理226、擴(kuò)展AAC編碼器2 及比特流有效載荷格 式化器230。然而,編碼器200典型地包括心理聲學(xué)模型M0。在非常簡單的情況中,編碼器200僅包括塊交換/濾波器組224、擴(kuò)展AAC編碼器 228、比特流有效載荷格式化器230及心理聲學(xué)模型224,而其他組件(特別地,組件220、 222、226)應(yīng)被看作僅是可選的。在簡單的情況中,塊交換/濾波器組224,接收輸入時(shí)間信號210(可選擇地由下采 樣器220進(jìn)行下采樣,且可選擇地由AAC增益控制器222進(jìn)行增益縮放),且基于此信號210 提供頻域表示22如。頻域表示22 例如可包括描述輸入時(shí)間信號210的頻譜區(qū)段的強(qiáng)度 (例如,幅度或能量)的信息。例如,塊交換/濾波器組2M可被配置為執(zhí)行修正型離散余 弦變換(MDCT)以從輸入時(shí)間信號210導(dǎo)出頻域值。頻域表示22 可邏輯上被分為不同的 頻帶,這些頻帶也被稱為“尺度因子頻帶”。例如,假定塊交換/濾波器組2M對大量不同的 頻率區(qū)段提供頻譜值(也稱為頻率區(qū)段值)。此外,頻率區(qū)段的數(shù)目由輸入進(jìn)濾波器組224 的窗口的長度決定,且也取決于采樣率(及比特率)。然而,這些頻帶或尺度因子頻帶定義 由塊交換/濾波器組提供的頻譜值的子集。關(guān)于尺度因子頻帶的定義的細(xì)節(jié)對本技術(shù)領(lǐng)域 中的技術(shù)人員是已知的,且也在IS0/IEC14496-3 :2005 (E),Part 3,Sub-part 4中被描述。擴(kuò)展AAC編碼器2 接收基于輸入時(shí)間信號210 (或該信號的預(yù)處理版本)的由 塊交換/濾波器組2M提供的頻譜值2Ma,作為輸入信息228a。如圖2所示,可使用可選 頻譜處理226的一個(gè)或多個(gè)處理步驟從頻譜值22 導(dǎo)出擴(kuò)展AAC編碼器228的輸入信息 228a。對于有關(guān)頻譜處理226的可選預(yù)處理步驟而言,參考IS0/IEC 14496-3 :2005 (E),及 其中參考的另外標(biāo)準(zhǔn)。擴(kuò)展AAC編碼器2 被配置為接收多個(gè)頻譜區(qū)段的頻譜值形式的輸入信息2^a, 且基于該輸入信息提供頻譜的量化且無噪聲編碼的表示228b。為此,擴(kuò)展AAC編碼器228 例如可使用通過使用心理聲學(xué)模型240從輸入音頻信號210(或其預(yù)處理版本)導(dǎo)出的信息。大體而言,擴(kuò)展AAC編碼器2 可使用由心理聲學(xué)模型240提供的信息以決定何種精 度應(yīng)被用于頻譜輸入信息228a的不同頻帶(或尺度因子頻帶)的編碼。因此,擴(kuò)展AAC編 碼器2 —般可使針對不同頻帶的量化精度適配于輸入時(shí)間信號210的特定特征,且也適 配于可用的比特?cái)?shù)目。因此,擴(kuò)展AAC編碼器例如可調(diào)整其量化精度,使得表示量化且無噪 聲編碼的頻譜的信息包括合適的比特率(或平均比特率)。比特流有效載荷格式化器230被配置為依據(jù)預(yù)定語法,將表示量化且無噪聲編碼 的頻譜的信息228b包括到編碼音頻流212中。對于有關(guān)本文所描述的編碼器組件的功能性的進(jìn)一步的細(xì)節(jié)而言,參考IS0/IEC 14496-3 :2005 (E)(包括其 annex 4. B),且也參考 IS0/IEC13818-7 :2003。另外,參考IS0/IEC 13818-7 :2005, Sub-clauses Cl 到 C9。另外,關(guān)于術(shù)語特別參考IS0/IEC 14496-3 :2005 (E),Part 3 =Audio, Sub-part 1:Main。另外,特別參考IS0/IEC 14496-3 2005 (E), Part 3 =Audio, Sub-part 4 =General Audio Coding(GA)-AAC, Twin VQ,BSAC01. 2. 2.編碼器細(xì)節(jié)在下文中,關(guān)于編碼器的細(xì)節(jié)將參考圖3a、3b3a&4b被描述。圖3a及北示出了依據(jù)本發(fā)明一實(shí)施例的擴(kuò)展AAC編碼器的方塊示意圖。該擴(kuò) 展AAC編碼器以2 標(biāo)示,且可替代圖2的擴(kuò)展AAC編碼器228。該擴(kuò)展AAC編碼器2 被配置為接收頻譜線的幅度的向量,作為輸入信息228a,其中該頻譜線向量有時(shí)以mdct_ line(0. . . 1023)標(biāo)示。擴(kuò)展AAC編碼器2 也接收編解碼閾值信息228c,該信息描述MDCT 水平上的最大允許誤差能量。該編解碼閾值信息228c典型地是針對不同尺度因子頻帶被 單獨(dú)地提供,且使用心理聲學(xué)模型240被產(chǎn)生。該編解碼閾值信息228c有時(shí)以^llin(Sb)標(biāo) 示,其中參數(shù)sb指示尺度因子頻帶依賴性。擴(kuò)展AAC編碼器2 也接收比特?cái)?shù)目信息228d, 該信息描述用于編碼由頻譜值幅度向量228a表示的頻譜的可用比特的數(shù)目。例如,比特?cái)?shù) 目信息228d可包括平均比特信息(以mean_bits標(biāo)示)及附加比特信息(以more_bits 標(biāo)示)。擴(kuò)展AAC編碼器228也被配置為接收尺度因子頻帶信息228e,該信息描述例如尺 度因子頻帶的數(shù)目及寬度。擴(kuò)展AAC編碼器包括頻譜值量化器310,被配置為提供頻譜線的量化值的向量 312,該向量312也以x_quant(0. . . 1023)標(biāo)示。包括縮放的頻譜值量化器310也被配置為 提供尺度因子信息314,該信息314可表示針對每一尺度因子頻帶的一個(gè)尺度因子、及共同 尺度因子信息。另外,頻譜值量化器310可被配置為提供比特使用信息316,該信息可描述 用于量化頻譜值幅度向量228a的比特的數(shù)目。事實(shí)上,頻譜值量化器310被配置為依據(jù)不 同頻譜值的心理聲學(xué)關(guān)聯(lián)性,以不同的精度量化向量228a的不同頻譜值。為此,頻譜值量 化器310使用不同的、依據(jù)尺度因子頻帶的尺度因子來縮放向量228a的頻譜值,且量化產(chǎn) 生的縮放后頻譜值。典型地,與心理聲學(xué)上重要的尺度因子頻帶相關(guān)聯(lián)的頻譜值將以大尺 度因子縮放,使得心理聲學(xué)上重要的尺度因子頻帶的縮放后頻譜值覆蓋大范圍的值。相較 之下,心理聲學(xué)上較不重要的尺度因子頻帶的頻譜值以較小的尺度因子縮放,使得心理聲 學(xué)上較不重要的尺度因子頻帶的縮放后頻譜值僅覆蓋小范圍的值??s放后頻譜值進(jìn)而被 量化至例如整數(shù)值。在此量化中,心理聲學(xué)上較不重要的尺度因子頻帶的許多縮放后頻譜值被量化為零,因?yàn)樾睦砺晫W(xué)上較不重要的尺度因子頻帶的頻譜值僅以是小尺度因子縮放 的。因此,可以說心理聲學(xué)上較關(guān)聯(lián)的尺度因子頻帶的頻譜值以高精度量化(因?yàn)檩^ 關(guān)聯(lián)尺度因子頻帶的縮放后頻譜線包括大范圍的值,且因此包括許多量化步長),而心理聲 學(xué)上較不重要的尺度因子頻帶的頻譜值以較低的量化精度量化(因?yàn)檩^不重要尺度因子 頻帶的縮放后頻譜值包括較小范圍的值,因此量化為較少的不同量化步長)。頻譜值量化器310被典型地配置為使用編解碼閾值228c及比特?cái)?shù)目信息228d 來確定合適的尺度因子。典型地,頻譜值量化器310也被配置為由其本身確定合適的尺度 因子。有關(guān)頻譜值量化器310的可能的實(shí)施的細(xì)節(jié)在IS0/IEC 14496-3 :2001,Chapter 4. B. 10.中被描述。另外,該頻譜值量化器的實(shí)施對于MPEG4編碼領(lǐng)域中的技術(shù)人員是已知 的。擴(kuò)展AAC編碼器228也包括多頻帶量化誤差計(jì)算器330,被配置為接收例如頻譜 值幅度向量2^a、頻譜線的量化值向量312及尺度因子信息314。多頻帶量化誤差計(jì)算器 330例如被配置為確定向量228a的頻譜值的非量化縮放后版本(例如,使用非線性縮放操 作及尺度因子縮放后的)與該頻譜值的縮放及量化版本(例如,使用非線性縮放操作及尺 度因子縮放后的,且使用“整數(shù)”舍入操作量化后的)之間的偏差。另外,多頻帶量化誤差 計(jì)算器330可被配置為計(jì)算多個(gè)尺度因子頻帶上的平均量化誤差。應(yīng)注意該多頻帶量化誤 差計(jì)算器330較佳地計(jì)算量化域中(較精確地,心理聲學(xué)縮放域中)的多頻帶量化誤差,使 得當(dāng)與在心理聲學(xué)上較不關(guān)聯(lián)的尺度因子帶中的量化誤差比較時(shí),在心理聲學(xué)上關(guān)聯(lián)的尺 度因子頻帶中的量化誤差在權(quán)重上被強(qiáng)調(diào)。關(guān)于多頻帶量化誤差計(jì)算器的操作的細(xì)節(jié)將隨 后參考圖如及4b被描述。擴(kuò)展AAC編碼器2 也包括尺度因子適配器340,被配置為接收量化值向量312、 尺度因子信息314及由多頻帶量化誤差計(jì)算器330提供的多頻帶量化誤差信息332。尺度 因子適配器340被配置為識(shí)別“量化為零”的尺度因子頻帶,即,所有的頻譜值(或頻譜線) 都量化為零的尺度因子頻帶。對于這種完全量化為零的尺度因子頻帶而言,尺度因子適配 器340適配相應(yīng)的尺度因子。例如,尺度因子適配器340可將完全量化為零的尺度因子頻 帶的尺度因子設(shè)定為一值,該值表示相應(yīng)的尺度因子頻帶的殘余能量(量化前)與多頻帶 量化誤差332的能量之間的比率。因此,尺度因子適配器340提供適配后尺度因子342。應(yīng) 注意由頻譜值量化器310提供的尺度因子與由尺度因子適配器提供的適配后尺度因子在 文獻(xiàn)中及本申請中以“尺度因子(sb) scf [band] ”、‘‘sf [g] [sfb] ”、‘‘scf [g] [sfb] ”標(biāo)示。 有關(guān)該尺度因子適配器340的操作的細(xì)節(jié)將隨后參考圖如及4b被描述。擴(kuò)展AAC編碼器2 也包括一無噪聲編碼350,該無噪聲編碼350例如在IS0/IEC 14496-3 :2001, Chapter 4. B. 11中被說明。簡而言之,該無噪聲編碼350接收頻譜線的量 化值(也稱為“頻譜的量化值”)向量312,尺度因子的整數(shù)表示342(由頻譜值量化器310 提供,或由尺度因子適配器340適配的),及由多頻帶量化誤差計(jì)算器330提供的噪聲填充 參數(shù)332(例如,以噪聲水平信息的形式)。無噪聲編碼350包括頻譜系數(shù)編碼350a,以編碼頻譜線的量化值312,且提供頻 譜線的量化且編碼值352。有關(guān)該頻譜系數(shù)編碼的細(xì)節(jié)例如在IS0/IEC 14496-3 :2001的 sections 4. B. 11. 2,4. B. 11. 3,4. B. 11. 4 and4. B. 11. 6 中被描述。無噪聲編碼 350 也包括尺度因子編碼350b,用于編碼該尺度因子的整數(shù)表示342,以獲得編碼尺度因子信息354。 無噪聲編碼350也包括噪聲填充參數(shù)編碼350c,編碼一個(gè)或多個(gè)噪聲填充參數(shù)332,以獲得 一個(gè)或多個(gè)編碼噪聲填充參數(shù)356。因此,擴(kuò)展AAC編碼器提供描述該量化且無噪聲編碼頻 譜的信息,其中該信息包括頻譜線的量化且編碼的值、編碼尺度因子信息及編碼噪聲填充 參數(shù)信息。在下文中,多頻帶量化誤差計(jì)算器330及尺度因子適配器340的功能性將參考圖 4a及4b被描述,其中計(jì)算器330及適配器340是本發(fā)明的擴(kuò)展AAC編碼器228的關(guān)鍵組 件。為此,圖如示出了由多頻帶量化誤差計(jì)算器330及尺度因子適配器340執(zhí)行的算法的 程序列表。該算法的第一部份,由圖如的第1行至第12行的偽碼表示,包括平均誤差的計(jì) 算,該計(jì)算由多頻帶量化誤差計(jì)算器330執(zhí)行。該平均量化誤差的計(jì)算例如在除那些量化 為零的尺度因子頻帶之外的其他所有尺度因子頻帶上被執(zhí)行。如果尺度因子頻帶全部量化 為零(例如該尺度因子頻帶的所有頻譜線都量化為零),那么對于該尺度因子頻帶,跳過平 均量化誤差的計(jì)算。然而,如果尺度因子頻帶未被完全量化為零(例如包括至少一個(gè)未量 化為零的頻譜線),該尺度因子頻帶的所有頻譜線在該平均量化誤差的計(jì)算中被考慮。該平 均量化誤差在量化域中(或更精確地,在縮放域中)被計(jì)算。對平均誤差的貢獻(xiàn)的計(jì)算可 見于圖如的偽碼的第7行。特別,第7行顯示單個(gè)頻譜線對平均誤差的貢獻(xiàn),其中該平均 是在所有頻譜線(其中nLines表示全部考慮到的線的數(shù)目)上執(zhí)行。如偽碼的第7行所示,頻譜線對平均誤差的貢獻(xiàn)是非量化的縮放后頻譜線幅度值 與量化的縮放后頻譜線幅度值之間的差的絕對值(“fabs”-運(yùn)算符)。在非量化的縮放后 頻譜線幅度值中,使用冪函數(shù)(pOW(line,0.75) = line0'75)及使用尺度因子(例如由頻譜 值量化器310提供的尺度因子314),非線性地縮放幅度值“l(fā)ine” (其可等于mdctjine)。 在量化的縮放后頻譜線幅度值的計(jì)算中,可使用上述冪函數(shù)被非線性地縮放且使用上述尺 度因子來非線性地縮放頻譜線幅度值“l(fā)ine”。非線性及線性縮放的結(jié)果可使用整數(shù)運(yùn)算 符“(INT) ”來量化。使用偽碼的第7行中表述的計(jì)算,量化對于心理聲學(xué)上較重要的及在 心理聲學(xué)上較不重要的頻帶的不同影響被考慮到。在(平均)多頻帶量化誤差(avgError)的計(jì)算之后,該平均量化誤差可選地被量 化,如偽碼的第13行及第14行所示。應(yīng)注意本文所示的多頻帶量化誤差的量化特別適配 于該量化誤差的期望值范圍及統(tǒng)計(jì)特征,使得該量化誤差可以比特高效的方式來表示。然 而,該多頻帶量化誤差的其他量化可被應(yīng)用。該算法的第三部份,由第15行至第25行表示,可由尺度因子適配器340執(zhí)行。該 算法的第三部份用于將已被完全量化為零的尺度因子頻帶的尺度因子設(shè)定為良好定義的 值,這允許簡單的噪聲填充,該噪聲填充帶來良好的聽覺印象。該算法的第三部份可選地包 括噪聲水平的逆量化(例如,由多頻帶量化誤差332表示)。該算法的第三部份也包括對于 量化為零的尺度因子頻帶的替代尺度因子值的計(jì)算(而未量化為零的尺度因子頻帶的尺 度因子將不受影響)。例如,用于某一尺度因子頻帶(“band”)的替代尺度因子值是使用圖 4a的算法的第20行所示方程來計(jì)算的。在該方程中,“ (INT) ”表示整數(shù)運(yùn)算符,“2. f”表示 在浮點(diǎn)表示中的數(shù)字“2”,“l(fā)og”表示對數(shù)運(yùn)算符,“energy”表示考慮的尺度因子頻帶的能 量(在量化前),“(float)”表示浮點(diǎn)運(yùn)算符,“sfbWidth”表示依據(jù)頻譜線(或頻譜區(qū)段)的該某一尺度因子的寬度,及“noiseVal”表示描述該多頻帶量化誤差的噪聲值。因此,該替 代尺度因子描述所考慮的該某一尺度因子頻帶的平均每頻率區(qū)段能量(energy/sfbWidth) 與多頻帶量化誤差的能量(noiseVal2)之間的比率。1. 2. 3.編碼器結(jié)論依據(jù)本發(fā)明的實(shí)施例建立一種具有新類型的噪聲水平計(jì)算的編碼器。該噪聲水平 是基于平均量化誤差在量化域中被計(jì)算的。在量化域中計(jì)算量化誤差帶來顯著的優(yōu)勢,例如,這是因?yàn)椴煌念l帶(尺度因 子頻帶)的心理聲學(xué)關(guān)聯(lián)性被考慮到。量化域中每條線(即每頻譜線,或頻譜區(qū)段)的量 化誤差典型地在具有平均絕對誤差0.25(對于通常大于1的正態(tài)分布的輸入值)的范圍 [-0. 5 ;0. 5] (1量化級)中。使用提供關(guān)于多頻帶量化誤差的信息的編碼器,在量化域中的 噪聲填充的優(yōu)勢可在編碼器中被開發(fā),隨后將會(huì)描述。編碼器中的噪聲水平計(jì)算及噪聲替代檢測可包括以下步驟 檢測及標(biāo)記在解碼器中可通過噪聲替代再現(xiàn)的感知上等同的頻帶。例如,為此 目的,可以檢查音調(diào)或頻譜平坦度測量; 計(jì)算及量化平均量化誤差(其可在所有未量化為零的尺度因子頻帶上被計(jì) 算);及 對于量化為零的頻帶計(jì)算尺度因子(scf),使得該(解碼器)引入的噪聲與原始 能量匹配。適合的噪聲水平量化可有助于產(chǎn)生傳送描述多頻帶量化誤差的信息所需的比特 數(shù)目。例如,考慮到響度的人類感知,在對數(shù)域中以8個(gè)量化級量化噪聲水平。例如,圖4b 中所示算法可被使用,其中“(INT) ”表示整數(shù)運(yùn)算符,“LD”表示底數(shù)為2的對數(shù)運(yùn)算符,及 “meanLineError”表示每頻率線的量化誤差,“min(.,.) ”表示最小值運(yùn)算符,“max (.,·),, 表示最大值運(yùn)算符。2.解碼器2.1.依據(jù)圖5的解碼器圖5示出了依據(jù)本發(fā)明一實(shí)施例的解碼器的方塊示意圖。解碼器500被配置為接 收編碼的音頻信息,例如,以編碼音頻流510的形式,且基于該編碼的音頻信息提供音頻信 號的解碼表示,例如,基于第一頻帶的頻譜分量522及第二頻帶的頻譜分量524。解碼器500 包括噪聲填充器520,該噪聲填充器520被配置為接收第一頻帶的頻譜分量的表示522, 第一頻帶增益信息與其相關(guān)聯(lián);及第二頻帶的頻譜分量的表示524,第二頻帶增益信息與 其相關(guān)聯(lián)。另外,噪聲填充器520被配置為接收多頻帶噪聲強(qiáng)度值的表示526。另外,該噪 聲填充器被配置為基于共同的多頻帶噪聲強(qiáng)度值526,將噪聲引入多個(gè)頻帶的頻譜分量中 (例如引入頻譜線值或頻譜區(qū)段值中),其中,單獨(dú)的頻帶增益信息(例如以尺度因子的形 式)與這多個(gè)頻帶相關(guān)聯(lián)。例如,噪聲填充器520可被配置為將噪聲引入第一頻帶的頻譜 分量522中,以獲得第一頻帶的噪聲影響頻譜分量512,且也將噪聲引入第二頻帶的頻譜分 量524,以獲得第二頻帶的噪聲影響頻譜分量514。通過將由單一多頻帶噪聲強(qiáng)度值5 描述的噪聲施加于與不同頻帶增益信息相 關(guān)聯(lián)的不同頻帶的頻譜分量,可以非常精細(xì)的調(diào)諧方式、將不同頻帶的不同心理聲學(xué)關(guān)聯(lián) 性計(jì)入考慮,來將噪聲引入至不同的頻帶中,該心理聲學(xué)關(guān)聯(lián)性由頻帶增益信息表示。因此,解碼器500能夠基于非常小的(比特高效的)噪聲填充輔助信息,執(zhí)行時(shí)間調(diào)諧噪聲填 充。2. 2.依據(jù)圖6的解碼器2. 2. 1.解碼器總覽圖6示出了依據(jù)本發(fā)明一實(shí)施例的解碼器600的方塊示意圖。解碼器600與IS0/IEC 14496. 3 :2005 (E)中所揭露的解碼器相似,故參考該國際 標(biāo)準(zhǔn)。解碼器600被配置為接收編碼的音頻流610,且據(jù)此提供輸出時(shí)間信號612。該編碼 音頻流可包括IS0/IEC 14496.3 :2005 (E)中所描述的一些或全部信息,且額外包括描述多 頻帶噪聲強(qiáng)度值的信息。解碼器600進(jìn)一步包括比特流有效載荷去格式化器620,被配置為 從該編碼音頻流610提取多個(gè)編碼音頻參數(shù),這些參數(shù)中的一些將在下文中被詳細(xì)說明。 解碼器600進(jìn)一步包括擴(kuò)展“先進(jìn)音頻編碼”(AAC)解碼器630,其功能性將參考圖7a、7b、 8a至8c、9、10a、10b、11、12、13a及13b被詳細(xì)描述。擴(kuò)展AAC解碼器630被配置為接收輸 入信息630a,該輸入信息630a包括例如量化且編碼的頻譜線信息、編碼的尺度因子信息及 編碼的噪聲填充參數(shù)信息。例如,擴(kuò)展AAC解碼器630的輸入信息630a可與參考圖2描述 的擴(kuò)展AAC編碼器220a提供的輸出信息228b相同。擴(kuò)展AAC解碼器630可被配置為基于輸入信息630a,提供縮放的及逆量化的頻譜 的表示630b,例如對于多個(gè)頻率區(qū)段(例如IOM個(gè)頻率區(qū)段)以縮放、逆量化的頻譜線值 的形式提供??蛇x地,解碼器600可包括附加頻譜解碼器,例如,TwinVQ頻譜解碼器及/或BSAC 頻譜解碼器,它們可二者擇一地在一些情況中被用于擴(kuò)展AAC頻譜解碼器630。解碼器600可選性地包括頻譜處理640,被配置為處理擴(kuò)展AAC解碼器630的輸 出信息630b,以獲得塊交換/濾波器組640的輸入信息640a??蛇x的頻譜處理640可包括 功能性M/S、PNS、預(yù)測、強(qiáng)度、長期預(yù)測、依賴性交換耦接、TNS、依賴性交換耦接中的一個(gè)或 多個(gè),或甚至全部,這些功能性參考IS0/IEC 14493.3 :2005 (E)及其中的文件被詳細(xì)描述。 然而,如果頻譜處理630被省略,擴(kuò)展AAC解碼器630的輸出信息630b可直接用作塊交換 /濾波器組640的輸入信息640。因此,擴(kuò)展AAC解碼器630可提供縮放及逆量化的頻譜作 為輸出信息630b。塊交換/濾波器組640使用逆量化的(可選地,預(yù)處理的)頻譜作為輸 入信息640a,且據(jù)此提供一個(gè)或多個(gè)時(shí)域重建音頻信號作為輸出信息640b。該濾波器組/ 塊交換可例如被配置為對在編碼器中(例如在塊交換/濾波器組2M中)實(shí)現(xiàn)的頻率映射 應(yīng)用求逆。例如,修正型離散余弦反變換(IMDCT)可由該濾波器組使用。例如,該IMDCT可 被配置為支持一組120、1觀、480、512、960或1024個(gè)頻譜系數(shù),或四組32或256個(gè)頻譜系 數(shù)。細(xì)節(jié)上而言,參考例如國際標(biāo)準(zhǔn)IS0/IEC 14496-3 :2005 (E)。解碼器600可選地 進(jìn)一步包括AAC增益控制650、SBR解碼器652及獨(dú)立性交換耦接654,以從塊交換/濾波 器組640的輸出信號640b導(dǎo)出輸出時(shí)間信號612。然而,當(dāng)沒有650、652、6M功能時(shí),塊交換/濾波器組640的輸出信號640b也可 用作輸出時(shí)間信號612。2. 2. 2.擴(kuò)展AAC解碼器細(xì)節(jié)在下文中,關(guān)于擴(kuò)展AAC解碼器的細(xì)節(jié)將參考圖7a及7b被描述。圖7a及7b示出了圖6的AAC解碼器630與圖6的比特流有效載荷去格式化器620結(jié)合的方塊示意圖。比特流有效載荷去格式化器620接收解碼的音頻流610,該音頻流例如可包括編 碼的音頻數(shù)據(jù)流,該音頻數(shù)據(jù)流包括名為“aC_raW_data_bl0Ck”的語法元素,該語法元素 是音頻編碼器原始數(shù)據(jù)塊。然而,比特流有效載荷去格式化器620被配置為向擴(kuò)展AAC解 碼器630提供量化且經(jīng)無噪聲編碼的頻譜或一表示,其包括量化且經(jīng)算術(shù)編碼的頻譜線信 息630aa (例如,以ac_spectral_data表示)、尺度因子信息630ab (例如以scale_factor_ data表示)及噪聲填充參數(shù)信息630ac。噪聲填充參數(shù)信息630ac包括例如噪聲偏移值 (以noise_offset表示)及噪聲水平值(以noise_level表示)。關(guān)于擴(kuò)展AAC解碼器,應(yīng)注意擴(kuò)展AAC解碼器630與國際標(biāo)準(zhǔn)IS0/IEC 14496-3 2005 (E)的AAC解碼器非常相似,使得可參考該標(biāo)準(zhǔn)的詳細(xì)說明。擴(kuò)展AAC解碼器630包括尺度因子解碼器740 (也以尺度因子無噪聲解碼工具表 示),被配置為接收尺度因子信息630ab,且據(jù)此提供尺度因子的解碼的整數(shù)表示742 (也 以sf [g] [sfb]或scf [g] [sfb]表示)。關(guān)于尺度因子解碼器740,參考IS0/IEC 14496-3 2005,Chapter 4. 6. 2及4. 6. 3。應(yīng)注意尺度因子的解碼的整數(shù)表示742反映量化精度,音 頻信號的不同的頻帶(也表示為尺度因子頻帶)以該量化精度量化。較大的尺度因子表示 對應(yīng)的尺度因子頻帶以高精度量化,且較小尺度因子表示對應(yīng)的尺度因子頻帶以低精度量 化。擴(kuò)展AAC解碼器630也包括頻譜解碼器750,被配置為接收量化且熵編碼(例如 經(jīng)霍夫曼編碼或算術(shù)編碼)的頻譜線信息630aa,且據(jù)此提供一個(gè)或多個(gè)頻譜的量化值 752 (例如以X_ac_qUant或X_qUant表示)。關(guān)于該頻譜解碼器,參考例如上述國際標(biāo)準(zhǔn)的 第4. 6. 3節(jié)。然而,該頻譜解碼器的備選實(shí)施可自然地被應(yīng)用。例如,如果頻譜線信息630aa 被算術(shù)地編碼,IS0/IEC 14496-3 :2005的霍夫曼解碼器可由算術(shù)解碼器替代。擴(kuò)展AAC解碼器630進(jìn)一步包括逆量化器760,該逆量化器760可以是非均勻逆量 化器。例如,逆量化器760可提供未縮放逆量化頻譜值762 (例如以X_ac_inVqUant,或x_ invquant 表示)。例如,逆量化器 760 可包括 IS0/IEC 14496-3 :2005, Chapter4. 6. 2 中描 述的功能性。備選地,逆量化器760可包括參考圖8a至8c的功能性。擴(kuò)展AAC解碼器630也包括噪聲填充器770 (也以噪聲填充工具表示),從尺度因 子解碼器740接收尺度因子的解碼整數(shù)表示742,從逆量化器760接收未縮放逆量化頻譜值 762,且從比特流有效載荷去格式化器620接收噪聲填充參數(shù)信息630ac。該噪聲填充器被 配置為據(jù)此提供尺度因子(在本文中以sf [g] [sfb]或scf[g] [sfb]表示)的修正的(典 型地整數(shù)的)表示772。噪聲填充器770也被配置為基于其輸入信息提供未縮放逆量化的 頻譜值774,以X_aC_inVquant或xjnvquant表示。關(guān)于該噪聲填充器的功能性的細(xì)節(jié)將 隨后參考圖9、10a、10b、ll、12、13a及13b描述。擴(kuò)展AAC解碼器630也包括重縮放器780,被配置為接收尺度因子的修正整數(shù)表示 772及未縮放逆量化頻譜值774,且據(jù)此提供縮放的逆量化頻譜值782,該頻譜值782也可以 x.rescal表示,且可用作擴(kuò)展AAC解碼器630的輸出信息630b。重縮放器780例如可包括 IS0/IEC 14496-3 :2005, Chapter 4. 6. 2. 3. 3 中描述的功能性。2.2.3.逆量化器在下文中,逆量化器760的功能性將參考圖8a、8b及8c描述。圖8a示出了用于從量化頻譜值752導(dǎo)出未縮放逆量化頻譜值762的方程的表示。在圖8a的備選方程中, “signC ) ”表示符號運(yùn)算符,“.”表示絕對值運(yùn)算符。圖8b示出了表示逆量化器760的功 能的偽程序碼??梢钥吹?,依據(jù)圖8a中算術(shù)映射規(guī)則的逆量化是針對所有的窗口組(由游 動(dòng)變量g表示)、所有的尺度因子頻帶(由游動(dòng)變量sfb表示),所有的窗口(由游動(dòng)索引 win表示)及所有的頻譜線(或頻譜區(qū)段)(由游動(dòng)變量bin表示)而執(zhí)行的。圖8c示出 了圖8b的算法的流程圖表示。對于預(yù)定最大尺度因子頻帶(以maX_sfb表示)之下的尺 度因子頻帶而言,未縮放逆量化的頻譜值是根據(jù)未縮放量化頻譜值而獲得的。非線性逆量 化規(guī)則被應(yīng)用。2. 2.4.噪聲填充器2. 2. 4. 1.依據(jù)圖9至12的噪聲填充器圖9示出了依據(jù)本發(fā)明一實(shí)施例的噪聲填充器900的方塊示意圖。噪聲填充器 900例如可替代圖7A及7B描述的噪聲填充器770。噪聲填充器900接收可被視為頻帶增益值的尺度因子的解碼整數(shù)表示742。噪聲 填充器900也接收未縮放逆量化頻譜值762。另外,噪聲填充器900接收例如包括噪聲填充 參數(shù)noise_value及noise_offset等的噪聲填充參數(shù)信息630ac。噪聲填充器900進(jìn)一步 提供尺度因子的修正整數(shù)表示772及未縮放逆量化頻譜值774。噪聲填充器900包括頻譜 線量化為零檢測器910,被配置為確定頻譜線(頻譜區(qū)段)是否量化為零(及可能地滿足其 他噪聲填充要求)。為此,頻譜線量化為零檢測器910直接接收未縮放逆量化頻譜762作為 輸出信息。噪聲填充器900還包括選擇性頻譜線替代器920,被配置為依據(jù)頻譜線量化為 零檢測器910的決定,用頻譜線替代值922選擇性地替代輸入信息762的頻譜值。因此,如 果頻譜線量化為零檢測器910指示輸入信息762的某一頻譜線應(yīng)由替代值替代,那么選擇 性頻譜線替代器920以頻譜線替代值922替代該某一頻譜線,以獲得輸出信息774。否則, 選擇性頻譜線替代器920不改變地發(fā)送該某一頻譜線值以獲得輸出信息774。噪聲填充器 900也包括選擇性尺度因子修正器930,被配置為選擇性地修正輸入信息742的尺度因子。 例如,選擇性尺度因子修正器930被配置為增加尺度因子頻帶的尺度因子,尺度因子頻帶 已由預(yù)定值量化為零,該預(yù)定值以“noisejffset”表示。因此,在輸出信息772中,當(dāng)與輸 入信息742中對應(yīng)的尺度因子值相比時(shí),量化為零的頻帶的尺度因子被增加。相反,未量化 為零的尺度因子頻帶的對應(yīng)的尺度因子值在輸入信息742與輸出信息772中是相同的。為了確定尺度因子頻帶是否量化為零,噪聲填充器900也包括頻帶量化為零檢測 器940,被配置為通過基于輸入信息762提供“使能尺度因子修正”信號或標(biāo)志942,來控制 選擇性尺度因子修正器930。例如,如果尺度因子頻帶的所有的頻率區(qū)段(也稱為頻譜區(qū) 段)量化為零,頻帶量化為零檢測器940可向選擇性尺度因子修正器930提供指示需要尺 度因子增加的信號或標(biāo)志。應(yīng)注意,該選擇性尺度因子修正器也可采用選擇性尺度因子替代器的形式,該尺 度因子替代器被配置為將完全量化為零的尺度因子頻帶的尺度因子設(shè)定為一預(yù)定值,而不 考慮輸入信息742。在下文中,重縮放器950將被描述,其可執(zhí)行重縮放器780的功能。重縮放器950 被配置為接收由噪聲填充器提供的尺度因子的修正整數(shù)表示772,且同樣接收由噪聲填充 器提供的未縮放、逆量化頻譜值774。重縮放器950包括尺度因子增益計(jì)算機(jī)960,被配置為接收針對每尺度因子頻帶的尺度因子的一個(gè)整數(shù)表示,且提供針對每尺度因子頻帶的一個(gè) 增益值。例如,尺度因子增益計(jì)算機(jī)960可被配置為基于第i尺度因子頻帶的尺度因子的 修正整數(shù)表示772,計(jì)算該第i尺度因子頻帶的增益值962。因此,尺度因子增益計(jì)算機(jī)960 對不同的尺度因子頻帶提供單獨(dú)的增益值。重縮放器950也包括乘法器970,被配置為接收 增益值962及未縮放、逆量化頻譜值774。應(yīng)注意每一個(gè)未縮放、逆量化頻譜值774與一尺 度因子頻帶(sfb)相關(guān)聯(lián)。因此,乘法器970被配置為用與相同尺度因子頻帶相關(guān)聯(lián)的對 應(yīng)增益值來縮放各個(gè)未縮放、逆量化頻譜值774。換句話說,所有與給定尺度因子頻帶相關(guān) 聯(lián)的未縮放、逆量化頻譜值774都以與該給定尺度因子頻帶相關(guān)聯(lián)的增益值來縮放。因此, 與不同尺度因子頻帶相關(guān)聯(lián)的未縮放、逆量化頻譜值典型地以與這些不同尺度因子頻帶相 關(guān)聯(lián)的不同增益值來縮放。因此,依據(jù)增益值相關(guān)聯(lián)的尺度因子頻帶,以不同的增益值對不同的未縮放、逆量 化頻譜值進(jìn)行縮放。偽程序碼表示在下文中,噪聲填充器900的功能性將參考圖IOa及IOb被描述,該兩圖示出了偽 程序碼表示(圖IOa)及對應(yīng)的圖例(圖10b)。注解以“一”開始。由圖10的偽碼程序列表表示的噪聲填充算法包括第一部份(第1行至第8行), 該部份從噪聲水平表示(noisejevel)導(dǎo)出噪聲值(noiseVal)。另外,噪聲偏移(noise_ offset)被導(dǎo)出。從該噪聲水平導(dǎo)出該噪聲值包括非線性縮放,其中該噪聲值依據(jù)如下方程 被計(jì)算
權(quán)利要求
1.一種基于輸入音頻信號的變換域表示(112 ;114 ;228a)來提供音頻流(1 ;212)的 編碼器(100 ;228),該編碼器包括量化誤差計(jì)算器(110 ;330),被配置為確定該輸入音頻信號的多個(gè)頻帶上的多頻帶量 化誤差(116 ;332),單獨(dú)的頻帶增益信息Q^a)可用于所述多個(gè)頻帶;及音頻流提供器(120 ;230),被配置為提供音頻流(1 ;212),使得音頻流(1 ;212)包 括描述頻帶的音頻內(nèi)容的信息以及描述多頻帶量化誤差的信息。
2.如權(quán)利要求1所述的編碼器(100;2觀),其中該編碼器包括量化器(310),被配置 為使用取決于不同頻帶的心理聲學(xué)關(guān)聯(lián)性O(shè)^c)的不同量化精度,來量化所述不同頻帶 的頻譜分量,以獲得量化后頻譜分量,其中所述不同量化精度由頻帶增益信息反映;以及其中,音頻流提供器(21 被配置為提供音頻流,使得該音頻流包括描述頻帶增益信 息的信息,且使得該音頻流還包括描述多頻帶量化誤差的信息。
3.如權(quán)利要求2所述的編碼器(100;2 ),其中量化器(310)被配置為執(zhí)行取決于頻 帶增益信息的對頻譜分量的縮放,且執(zhí)行對縮放后頻譜分量的整數(shù)值量化;以及其中,量化誤差計(jì)算器(330)被配置為確定量化域中的多頻帶量化誤差(332),使得在 多頻帶量化誤差中考慮到在整數(shù)值量化之前執(zhí)行的對頻譜分量的縮放。
4.如權(quán)利要求1至3之一所述的編碼器(100;2 ),其中該編碼器被配置為將完全量 化為零的頻帶的頻帶增益信息設(shè)定為對完全量化為零的該頻帶的能量與多頻帶量化誤差 的能量之間的比率加以表示的值。
5.如權(quán)利要求1至4之一所述的編碼器(100;2觀),其中量化誤差計(jì)算器(330)被 配置為確定各自包括至少一個(gè)量化為非零值的頻譜分量的多個(gè)頻帶上的多頻帶量化誤差 (332),同時(shí)避免頻譜分量完全量化為零的頻帶。
6.一種基于對音頻信號的頻帶的頻譜分量加以表示的編碼音頻流(510;610)來提供 該音頻信號的解碼表示(512,514 ;630b)的解碼器(500 ;600),該解碼器包括噪聲填充器(520 ;770),被配置為基于共同的多頻帶噪聲強(qiáng)度值(5 ),將噪聲引入與 單獨(dú)的頻帶增益信息相關(guān)聯(lián)的多個(gè)頻帶的頻譜分量中。
7.如權(quán)利要求6所述的解碼器(500;600),其中噪聲填充器(520 ;770)被配置為依據(jù) 頻帶的各個(gè)單獨(dú)的頻譜區(qū)段是否被量化為零,逐個(gè)頻譜區(qū)段地、選擇性地決定是否將噪聲 引入各個(gè)單獨(dú)的頻譜區(qū)段中。
8.如權(quán)利要求6或7所述的解碼器(500;600),其中噪聲填充器(520 ;770)被配置為 接收對頻域音頻信號表示的第一頻帶的不同重迭或非重迭頻率部分加以表示的多個(gè)頻譜 區(qū)段值(522),且接收對該頻域音頻信號表示的第二頻帶的不同重迭或非重迭頻率部分加 以表示的多個(gè)頻譜區(qū)段值;以及以第一頻譜區(qū)段噪聲值替代所述多個(gè)頻帶的第一頻帶的一個(gè)或多個(gè)頻譜區(qū)段值,該第 一頻譜區(qū)段噪聲值的大小由所述多頻帶噪聲強(qiáng)度值(5 )決定,且以具有與該第一頻譜區(qū) 段噪聲值相同大小的第二頻譜區(qū)段噪聲值替代所述多個(gè)頻帶的第二頻帶的一個(gè)或多個(gè)頻 譜區(qū)段值;其中,解碼器包括縮放器(780),被配置為用第一頻帶增益值來縮放所述多個(gè)頻帶的 第一頻帶的頻譜區(qū)段值,以獲得第一頻帶的縮放后頻譜區(qū)段值,且以第二頻帶增益值來縮 放所述多個(gè)頻帶的第二頻帶的頻譜區(qū)段值,以獲得第二頻帶的縮放后頻譜區(qū)段值,使得由第一及第二頻譜區(qū)段噪聲值替代的替代后頻譜區(qū)段值是以不同的頻帶增益值 來縮放的,且使得用第一頻譜區(qū)段噪聲值替代的替代后頻譜區(qū)段值、以及表示第一頻帶的音頻內(nèi)容 的第一頻帶未替代頻譜區(qū)段值是以第一頻帶增益值來縮放的,而用第二頻譜區(qū)段噪聲值替 代的替代后頻譜區(qū)段值、以及表示第二頻帶的音頻內(nèi)容的第二頻帶非替代頻譜區(qū)段值是以 第二頻帶增益值來縮放的。
9.如權(quán)利要求6至8之一所述的解碼器(500;600),其中噪聲填充器(520;770)被 配置為當(dāng)給定頻帶被量化為零時(shí),使用噪聲偏移值來選擇性地修改該給定頻帶的頻帶增益 值。
10.如權(quán)利要求6至9之一所述的解碼器(500;600),其中噪聲填充器(520 ;770)被配 置為用大小取決于所述多頻帶噪聲強(qiáng)度值(5 )的頻譜區(qū)段噪聲值,來替代量化為零的頻 譜區(qū)段的頻譜區(qū)段值,以僅僅針對最低頻譜區(qū)段索引在預(yù)定頻譜區(qū)段索引以上的頻帶來獲 得替代后頻譜區(qū)段值,而保留最低頻譜區(qū)段索引在該預(yù)定頻譜區(qū)段索引以下的頻帶的頻譜 區(qū)段值不受影響;其中噪聲填充器被配置為對于最低頻譜區(qū)段索引在該預(yù)定頻譜區(qū)段索引以上的頻帶, 如果給定頻帶被完全量化為零,則依據(jù)噪聲偏移值來選擇性地修改該給定頻帶的頻帶增益 值;以及其中,該解碼器進(jìn)一步包括縮放器(770),被配置為將選擇性地被修改或未修改的頻 帶增益值施加至選擇性地替代或未替代的頻譜區(qū)段值,以獲得縮放后頻譜信息,該信息表 示所述音頻信號。
11.如權(quán)利要求6至11之一所述的解碼器(500;600),其中該解碼器被配置為接收音 頻流(610),所述音頻流(610)包括多個(gè)頻帶的頻譜區(qū)段值的量化熵編碼表示(630aa),且 其中多個(gè)頻譜區(qū)段值與所述多個(gè)頻帶的第一頻帶相關(guān)聯(lián),以及多個(gè)頻譜區(qū)段值與所述多個(gè) 頻帶的第二頻帶相關(guān)聯(lián),頻帶增益值的編碼表示(630ab),其中第一頻帶增益值與所述第一頻帶相關(guān)聯(lián),且第二 頻帶增益值與所述第二頻帶相關(guān)聯(lián),及多頻帶噪聲強(qiáng)度值的編碼表示(630ac);其中該解碼器包括頻譜解碼器(750),被配置為基于頻譜區(qū)段值的量化熵編碼表示, 來提供頻譜區(qū)段值的量化解碼表示(752);其中該解碼器包括逆量化器(760),被配置為逆量化頻譜區(qū)段值的量化解碼表示 (752),以獲得頻譜區(qū)段值的逆量化解碼表示(762);其中該解碼器包括尺度因子解碼器(740),被配置為解碼頻譜區(qū)段值的編碼表示 (630ab),以獲得頻譜增益值的解碼表示(742);及其中,噪聲填充器(770)被配置為用相同大小的頻譜區(qū)段替代值,來選擇性地替代多 個(gè)頻帶的逆量化至零的頻譜區(qū)段值,以獲得多個(gè)頻帶的替代后頻譜區(qū)段值;以及其中該解碼器包括縮放器(780),被配置為以與第一頻帶相關(guān)聯(lián)的尺度因子的解碼 表示,來縮放第一頻帶的全部頻譜區(qū)段值集合,以獲得該第一頻帶的縮放后頻譜區(qū)段值集 合,其中該第一頻帶的一些頻譜區(qū)段值是由逆量化器提供的原始的逆量化解碼的頻譜區(qū)段 值,而一些頻譜區(qū)段值是頻譜區(qū)段替代值,縮放器(780)還被配置為以與第二頻帶相關(guān)聯(lián)的尺度因子的解碼表示,來縮放第二頻帶的全部頻譜區(qū)段值集合,以獲得該第二頻帶的縮 放后頻譜區(qū)段值集合,其中該第二頻帶的一些頻譜區(qū)段值是由逆量化器提供的原始的逆量 化解碼的頻譜區(qū)段值,而一些頻譜區(qū)段值是頻譜區(qū)段替代值。
12.一種基于輸入音頻信號的變換域表示(112 ;114 ;228a)來提供音頻流(1 ;212) 的方法,該方法包括確定多個(gè)頻帶上的多頻帶量化誤差,單獨(dú)的頻帶增益信息可用于所述多個(gè)頻帶;以及提供音頻流,使得音頻流包括描述頻帶的音頻內(nèi)容的信息以及描述多頻帶量化誤差的 fn息ο
13.一種基于編碼音頻流(510 ;610)來提供音頻信號的解碼表示(512 ;514 :630b)的 方法,該方法包括基于共同的多頻帶噪聲強(qiáng)度值,將噪聲引入多個(gè)頻帶的頻譜分量,單獨(dú)的頻帶增益信 息與所述多個(gè)頻帶相關(guān)聯(lián)。
14.一種計(jì)算機(jī)程序,當(dāng)在計(jì)算機(jī)上運(yùn)行時(shí)執(zhí)行如權(quán)利要求12或13所述的方法。
15.一種表示音頻信號的音頻流(510 ;610),該音頻流包括描述音頻信號的頻譜分量強(qiáng)度的頻譜信息,其中在不同的頻帶中該頻譜信息以不同的 量化精度來量化;以及考慮到不同的量化精度的、描述多個(gè)頻帶上的多頻帶量化誤差的噪聲水平信息。
全文摘要
一種基于輸入音頻信號的變換域表示提供音頻流的編碼器,包括量化誤差計(jì)算器,被配置為確定該輸入音頻信號的多個(gè)頻帶上的多頻帶量化誤差,單獨(dú)的頻帶增益信息可用于該多個(gè)頻帶。該編碼器也包括音頻流提供器,被配置為提供音頻流,使得該音頻流包括描述該頻帶的音頻內(nèi)容的信息,及描述該多頻帶量化誤差的信息。一種基于表示音頻信號的頻帶的頻譜分量的編碼音頻流來提供音頻信號的解碼表示的解碼器,包括噪聲填充器,被配置為基于共同的多頻帶噪聲強(qiáng)度值,將噪聲引入多個(gè)頻帶的頻譜分量,單獨(dú)的頻帶增益信息與該多個(gè)頻帶相關(guān)聯(lián)。
文檔編號G10L19/00GK102089808SQ200980127118
公開日2011年6月8日 申請日期2009年6月25日 優(yōu)先權(quán)日2008年7月11日
發(fā)明者于爾根·赫勒, 伯恩哈德·格瑞, 哈拉爾德·波普, 尼古拉斯·里特爾博謝, 延斯·希斯費(fèi)爾德, 斯特凡·杰爾斯伯爾吉爾, 斯特凡·瓦希尼克, 杰拉爾德·舒勒, 紀(jì)堯姆·??怂? 馬庫斯·馬特拉斯 申請人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會(huì)