專利名稱:音頻編碼系統(tǒng)的制作方法
音頻編碼系統(tǒng)本申請(qǐng)是2005年9月17日提交的申請(qǐng)?zhí)枮?00510095898. 6、名稱為"多 聲道數(shù)字音頻編碼設(shè)備及其方法"的分案申請(qǐng)。相關(guān)申請(qǐng)本申請(qǐng)要求2004年9月17日申請(qǐng)的美國(guó)臨時(shí)申請(qǐng)60/610, 674的優(yōu)先權(quán)。發(fā)明背景本發(fā)明通常涉及用于編碼和解碼多聲道數(shù)字音頻信號(hào)的方法和系統(tǒng)。 更確切地說(shuō),本發(fā)明涉及一個(gè)低比特率的數(shù)字音頻編碼系統(tǒng),其在獲得透 明的音頻信號(hào)再現(xiàn)的同時(shí)大大降低了多聲道音頻信號(hào)的比特率以便進(jìn)行 有效的發(fā)送或存儲(chǔ),甚至連聽測(cè)專家也不能區(qū)分在解碼器端還原的音頻信 號(hào)與原始信號(hào)。多聲道數(shù)字音頻編碼系統(tǒng)通常包括下列元件時(shí)間-頻率分析濾波器 組,其產(chǎn)生輸入的PCM(脈沖編碼調(diào)制)樣本的一個(gè)頻率表示、叫做子帶樣 本或子帶信號(hào);心理聲學(xué)模型,其基于人耳的聽覺(jué)特性來(lái)計(jì)算一個(gè)掩蔽閾 值,而低于該掩蔽閾值的量化噪聲不太可能被聽見(jiàn);全局比特分配器,其 向每組子帶樣本分配比特資源,以便得到的量化噪聲功率低于掩蔽閾值; 多個(gè)量化器,其根據(jù)被分配的比特來(lái)量化子帶樣本;多個(gè)熵編碼器,其降低量化指數(shù)中的統(tǒng)計(jì)冗余性;和最后的多路復(fù)用器,其把量化指數(shù)的熵編 碼及其它輔助信息打包成一個(gè)完整的比特流。例如,杜比AC-3用可切換窗口尺寸的高頻率分辨率的MDCT(改進(jìn)的離 散余弦變換)濾波器組把輸入PCM樣本映射到頻域中。穩(wěn)態(tài)信號(hào)用512點(diǎn)的 窗口來(lái)分析,而暫態(tài)信號(hào)與256點(diǎn)的窗口來(lái)分析。來(lái)自MDCT的子帶信號(hào)被 表示為指數(shù)/尾數(shù)并隨后被量化。采用前向-后向自適應(yīng)的心理聲學(xué)模型來(lái) 優(yōu)化量化并減少編碼比特分配信息所需的比特。為了降低解碼器的復(fù)雜度 而不使用熵編碼。最后,量化指數(shù)及其它輔助信息被多路復(fù)用成一個(gè)完整 的AC-3比特流。AC-3中配置的自適應(yīng)MDCT的頻率分辨率沒(méi)有很好地與輸入 信號(hào)特性相匹配,因此它的壓縮特性受到很大的限制。熵編碼的缺少是限 制其壓縮特性的另一個(gè)因素。MPEG1&2層III(MP3)使用一個(gè)32頻帶的多相濾波器組,其中的每個(gè)子 帶濾波器都跟隨有一個(gè)在6和18點(diǎn)之間切換的自適應(yīng)MDCT。 一個(gè)高級(jí)心理 聲學(xué)模型被用來(lái)指導(dǎo)其比特分配和標(biāo)量非均勻量化。哈夫曼(Huffman)碼 被用來(lái)編碼量化指數(shù)和大部分的其它輔助信息?;旌蠟V波器組的較差的頻 率隔離極大地限制了它的壓縮特性而且具有很高的算法復(fù)雜性。DTS相干聲學(xué)采用一個(gè)32頻帶的多相濾波器組以獲得輸入信號(hào)的低分 辨率頻率表示。為了補(bǔ)償較差的頻率分辨率,ADPCM (自適應(yīng)差分脈碼調(diào)制) 被選擇性地用于每個(gè)子帶。如果ADPCM產(chǎn)生一個(gè)良好的編碼增益,則均勻 標(biāo)量量化被直接應(yīng)用于子帶樣本或應(yīng)用于預(yù)測(cè)殘差。矢量量化可以選擇性 地被應(yīng)用到高頻率的子帶。哈夫曼碼可以選擇性地被應(yīng)用到標(biāo)量量化指數(shù)濾波器組+ADPCM的結(jié)構(gòu)根本不能提供良好的 時(shí)間和頻率分辨率,所以它的壓縮特性很低。MPEG 2 AAC和MPEG 4 AAC采用一個(gè)自適應(yīng)MDCT濾波器組,其窗口尺寸 可以在256和2048之間切換。心理聲學(xué)模型產(chǎn)生的掩蔽閾值被用來(lái)指導(dǎo)其 標(biāo)量非均勻量化和比特分配。哈夫曼碼被用來(lái)編碼量化指數(shù)和大部分的其 它輔助信息。諸如TNS(暫時(shí)噪聲整形)、增益控制(類似于MP3的混合濾波 器組)、頻譜預(yù)測(cè)(子帶內(nèi)的線性預(yù)測(cè))之類的許多其它的工具被用來(lái)進(jìn)一 步增強(qiáng)它的壓縮特性,而這以極大地增加了算法復(fù)雜性為代價(jià)。因此,仍然需要一個(gè)低比特率的音頻編碼系統(tǒng),其極大地降低了多聲 道音頻信號(hào)的比特率以用于有效發(fā)送或存儲(chǔ),而同時(shí)也能獲得透明的音頻 信號(hào)再現(xiàn)。本發(fā)明滿足了這個(gè)需要并提供了其它的相關(guān)優(yōu)點(diǎn)。發(fā)明內(nèi)容在以下討論中,術(shù)語(yǔ)"分析/合成濾波器組"等指的是執(zhí)行時(shí)間-頻率的分析/合成的設(shè)備或方法。它可以非限制性地包括如下 酉變換; 臨界采樣的、均勻的、或非均勻的帶通濾波器組時(shí)變或非時(shí)變組; 諧波或正弦波的分析器/合成器。多相濾波器組、DFT(離散傅里葉變換)、DCT(離散余弦變換)以及MDCT 是一些被廣泛使用的濾波器組。術(shù)語(yǔ)"子帶信號(hào)或子帶樣本"等指的是出自 分析濾波器組和進(jìn)入合成濾波器組的信號(hào)或樣本。本發(fā)明的一個(gè)目的是為多聲道音頻信號(hào)的低比特率編碼提供與現(xiàn)有 技術(shù)同樣水平的壓縮性能但卻降低了算法復(fù)雜性。這由編碼器在編碼端側(cè)完成,編碼器包括1) 成幀器,用于把輸入的PCM樣本聚類分割成準(zhǔn)穩(wěn)態(tài)幀,其大小是分析濾波器組的子帶數(shù)的整數(shù)倍,并且其時(shí)間范圍是2到50ms。2) 暫態(tài)檢測(cè)器,用于檢測(cè)該幀中暫態(tài)的存在。 一個(gè)實(shí)施例是根據(jù)取子 帶距離測(cè)量的閾值,閾值從低頻率分辨率模式下的分析濾波器組的子帶樣 本中獲得。3) 可變分辨率的分析濾波器組,用于把輸入的PCM樣本轉(zhuǎn)換成子帶樣 本,它可以用下列之一來(lái)執(zhí)行a)濾波器組,可以在高、中、低頻率分辨率模式之間切換其操作。 高頻率分辨率模式用于穩(wěn)態(tài)幀,而中、低頻率分辨率模式用于具有暫 態(tài)的幀。在一個(gè)暫態(tài)幀內(nèi),低頻率分辨率模式被用于暫態(tài)段,而中間 分辨率模式被用于該幀的剩余部分,在這個(gè)架構(gòu)之下存在三類幀i) 濾波器組只以高頻率分辨率模式操作來(lái)處理的穩(wěn)態(tài)幀;ii) 濾波器組以中、高時(shí)間分辨率模式操作來(lái)處理的暫態(tài)幀;iii) 濾波器組只以中間分辨率模式操作處理的慢暫態(tài)幀; 兩個(gè)優(yōu)選實(shí)施例被給出如下i)DCT實(shí)現(xiàn),其中,三個(gè)級(jí)別的分辨率對(duì)應(yīng)于三個(gè)DCT塊長(zhǎng)度;ii)MDCT實(shí)現(xiàn),其中,三個(gè)級(jí)別的分辨率對(duì)應(yīng)于三個(gè)MDCT塊長(zhǎng) 度或窗口長(zhǎng)度。定義多個(gè)窗口類型以橋接這些窗口之間的轉(zhuǎn)換。b)混合濾波器組,其基于一個(gè)可以在高、低分辨率模式之間切換 其操作的濾波器組;i) 在當(dāng)前幀中不存在暫態(tài)時(shí),它切換到高頻率分辨率模式以 確保穩(wěn)態(tài)段的高壓縮性能;ii) 在當(dāng)前幀中存在暫態(tài)時(shí),它切換到低頻率分辨率/高時(shí)間 分辨率模式以避免前向回聲效應(yīng)。這個(gè)低頻率分辨率模式還跟隨 有一個(gè)暫態(tài)聚類分割級(jí),其把子帶樣本分成穩(wěn)態(tài)段,然后可選地 在每個(gè)子帶中后跟一個(gè)任意分辨率的濾波器組或ADPCM,如果被選擇的話,可用于向每個(gè)穩(wěn)態(tài)段提供適合的頻率分辨率。給出兩個(gè)實(shí)施例,其中, 一個(gè)基于DCT而另一個(gè)基于MDCT。給出 兩個(gè)暫態(tài)段的實(shí)施例出,其中, 一個(gè)基于取閾值而另一個(gè)基于k均值 算法,兩個(gè)實(shí)施例都使用子帶距離測(cè)量。2) 計(jì)算掩蔽閾值的心理聲學(xué)模型。3) 可選的和/差編碼器,其把左右聲道對(duì)中的子帶樣本轉(zhuǎn)換成和/差聲 道對(duì)。4) 可選的聯(lián)合強(qiáng)度編碼器,其對(duì)比源聲道來(lái)提取聯(lián)合聲道的強(qiáng)度比例 因子(引導(dǎo)向量),將聯(lián)合聲道合并到源聲道中,并丟棄聯(lián)合聲道中的各個(gè) 子帶樣本。5) 全局比特分配器,其把比特資源分配給多組子帶樣本,以便它們的 量化噪聲功率低于掩蔽閾值。6) 標(biāo)量量化器,其用比特分配器提供的步長(zhǎng)來(lái)量化所有的子帶樣本。7) 可選的交錯(cuò)器,當(dāng)幀中存在暫態(tài)時(shí),其被選擇性地用來(lái)重新排列量 化指數(shù)以便于降低比特總數(shù)。8) 熵編碼器,其基于量化指數(shù)的局部統(tǒng)計(jì)特征把最佳的碼書從碼書庫(kù) 分配給多組量化指數(shù),包括下列步驟a) 把最佳碼書分配給每個(gè)量化指數(shù),因此實(shí)質(zhì)上把量化指數(shù)轉(zhuǎn)換 成碼書指數(shù)。b) 把這些碼書指數(shù)分成很大的段,段邊界定義了碼書的應(yīng)用范圍。一個(gè)優(yōu)選實(shí)施例是c) 把量化指數(shù)分塊為區(qū)組(granule),每個(gè)區(qū)組包括固定數(shù)目的 量化指數(shù)。d) 確定每個(gè)區(qū)組的最大碼書需求。e) 把最小碼書分配給一個(gè)能容納其最大碼書需求的區(qū)組f) 清除那些碼書指數(shù)比其近鄰的碼書指數(shù)小的孤立的小塊區(qū) 域;那些對(duì)應(yīng)于零量化指數(shù)的碼書指數(shù)的孤立小塊區(qū)域可以不經(jīng)過(guò)這 樣的處理。用于對(duì)編碼碼書應(yīng)用范圍進(jìn)行編碼的一個(gè)優(yōu)選實(shí)施例使用了游程長(zhǎng) 度碼。9) 熵編碼器,其用碼書及其由熵碼書選擇器確定的應(yīng)用范圍來(lái)編碼所 有的量化指數(shù)。10) 多路復(fù)用器,其把量化指數(shù)的所有熵代碼和輔助信息打包成一個(gè) 完整的比特流,這樣構(gòu)造是為了量化指數(shù)出現(xiàn)在用于量化步長(zhǎng)的指數(shù)之 前。這個(gè)構(gòu)造使得不必要把每個(gè)暫態(tài)段的量化單元數(shù)打包進(jìn)比特流,因?yàn)?它可以從被解包的量化指數(shù)中恢復(fù)。本發(fā)明的解碼器包括1) 多路解復(fù)用器,用于從比特流解包不同的碼字;2) 量化指數(shù)碼書解碼器,用于從比特流中解碼用于量化指數(shù)的熵碼書 及其各個(gè)應(yīng)用范圍(application range);3) 熵解碼器,用于從比特流中解碼量化指數(shù);4) 可選的去交錯(cuò)器,在當(dāng)前幀中存在暫態(tài)時(shí),其選擇性地重新排列量 化指數(shù);5) 量化單元個(gè)數(shù)再造器,其用下列步驟從量化指數(shù)中重建每個(gè)暫態(tài)段 的量化單元個(gè)數(shù)a) 為每個(gè)暫態(tài)段找到具有非零量化指數(shù)的最大子帶;b) 找到能容納這個(gè)子帶的最小臨界頻帶,這就是這個(gè)暫態(tài)段的量 化單元個(gè)數(shù);6) 步長(zhǎng)解包器,其解包所有量化單元的量化步長(zhǎng);7) 逆量化器,其從量化指數(shù)和步長(zhǎng)中重建子帶樣本;8) 可選的聯(lián)合強(qiáng)度解碼器,其利用聯(lián)合強(qiáng)度比例因子(引導(dǎo)向量)從源 聲道的子帶樣本中重建聯(lián)合聲道的子帶樣本;9) 可選的和/差解碼器,其從和/差聲道的子帶樣本中重建左右聲道的 子帶樣本;10) 可變分辨率的合成濾波器組,其從子帶樣本中重建音頻PCM樣本, 這可以通過(guò)以下來(lái)執(zhí)行a) 合成濾波器組,能夠在高、中、低分辨率模式之間切換其操作;b) 混合合成濾波器組,其是基于一個(gè)能夠在高、低分辨率模式之 間切換的合成濾波器組;i) 當(dāng)比特流指示當(dāng)前幀是用可變換分辨率的分析濾波器組以 低頻率分辨率模式來(lái)編碼時(shí),這個(gè)合成濾波器組是一個(gè)二級(jí)混合 濾波器組,其中,第一級(jí)是一個(gè)任意分辨率的合成濾波器組或一 個(gè)逆ADPCM,而第二級(jí)是可在高、低頻率分辨率模式之間切換的自 適應(yīng)合成濾波器組的低頻率分辨率模式;ii) 當(dāng)比特流指示當(dāng)前幀是用可變換分辨率的分析濾波器組 以高頻率分辨率模式來(lái)編碼時(shí),這個(gè)合成濾波器組只不過(guò)是高頻 率分辨率模式下的可變換分辨率的合成濾波器組。最后,本發(fā)明提供了一個(gè)低編碼延遲模式,這個(gè)模式在可切換分辨率分析濾波器組的高頻率分辨率模式被編碼器禁止時(shí)被啟動(dòng),并且?guī)L(zhǎng)隨后 被減小到在低頻率分辨率模式下的可切換分辨率濾波器組的塊長(zhǎng)或其整 數(shù)倍。根據(jù)本發(fā)明提供的一個(gè)用于編碼和解碼多聲道數(shù)字音頻信號(hào)的方法, 包括下列步驟a) 把輸入的PCM樣本聚類分割成準(zhǔn)穩(wěn)態(tài)幀;b) 利用可變分辨率的分析濾波器組把PCM樣本轉(zhuǎn)換成子帶樣本;c) 把子帶樣本分塊量化成眾多的量化指數(shù);d) 提供預(yù)先設(shè)計(jì)好的碼書庫(kù);e) 基于量化指數(shù)的局部特性把碼書分配給多組量化指數(shù),從而使得 碼書應(yīng)用范圍與塊量化邊界無(wú)關(guān);f) 對(duì)碼書指數(shù)及其各自的應(yīng)用范圍進(jìn)行編碼;g) 創(chuàng)建一個(gè)完整的編碼數(shù)據(jù)流,該編碼數(shù)據(jù)流包括經(jīng)過(guò)碼書分配的 量化指數(shù)以及所述經(jīng)編碼的碼書指數(shù)及其各自應(yīng)用范圍;h) 發(fā)送該完整的編碼數(shù)據(jù)流;i) 接收該編碼數(shù)據(jù)流并解包該數(shù)據(jù)流; j)從數(shù)據(jù)流中解碼量化指數(shù);k)從被解碼的量化指數(shù)中重建子帶樣本;和 1)從重建的子帶樣本中重建音頻PCM樣本。根據(jù)本發(fā)明,編碼多聲道數(shù)字音頻信號(hào)的方法通常包括從多聲道數(shù)字 音頻信號(hào)創(chuàng)建PCM樣本和把該P(yáng)CM樣本轉(zhuǎn)換成子帶樣本的步驟。具有邊界的多個(gè)量化指數(shù)通過(guò)量化子帶樣本而被創(chuàng)建。通過(guò)把預(yù)先設(shè)計(jì)的碼書庫(kù)中能夠容納量化指數(shù)的最小的碼書分配給每個(gè)量化指數(shù),量化指數(shù)被轉(zhuǎn)換成碼 書指數(shù)。在創(chuàng)建用于存儲(chǔ)或發(fā)送的編碼數(shù)據(jù)流之前,碼書指數(shù)被聚類分割 和編碼。
一般來(lái)說(shuō),PCM樣本被輸入到持續(xù)時(shí)間在2到50毫秒(ms)之間的準(zhǔn)穩(wěn)態(tài) 幀中。掩蔽閾值可使用例如一個(gè)心理聲學(xué)模型來(lái)計(jì)算。比特分配器把比特 資源分配到多組子帶樣本中,以便量化噪聲功率低于掩蔽閾值。
轉(zhuǎn)換步驟包括使用一個(gè)有選擇地在高、低頻率分辨率模式下切換的 分辨率濾波器組。檢測(cè)暫態(tài),當(dāng)沒(méi)有檢測(cè)到暫態(tài)時(shí)使用高頻率分辨率模式; 然而,當(dāng)檢測(cè)到暫態(tài)時(shí),分辨率濾波器組被切換到低頻率分辨率模式。隨 著把分辨率濾波器組切換到低頻率分辨率模式,子帶樣本就被分成穩(wěn)態(tài) 段。每個(gè)穩(wěn)態(tài)段的頻率分辨率用任意分辨率的濾波器組或自適應(yīng)差分脈碼 調(diào)制來(lái)修整。
量化指數(shù)可以在幀中存在暫態(tài)時(shí)被重新排列以降低比特總數(shù)。游程長(zhǎng) 度編碼器可用于編碼最佳熵碼書的應(yīng)用邊界,可以采用聚類分割算法。
和/差編碼器可以被用來(lái)把左右聲道對(duì)中的子帶樣本轉(zhuǎn)換到和/差聲 道對(duì)中。此外,聯(lián)合強(qiáng)度編碼器可用于對(duì)比源聲道來(lái)提取聯(lián)合聲道的強(qiáng)度 比例因子,把聯(lián)合聲道合并成源聲道,并且丟棄聯(lián)合聲道中所有的相關(guān)子 帶樣本。
一般來(lái)說(shuō),創(chuàng)建一個(gè)完整的比特?cái)?shù)據(jù)流的組合步驟通過(guò)在存儲(chǔ)或向解 碼器發(fā)送編碼數(shù)字音頻信號(hào)之前使用一個(gè)多路復(fù)用器來(lái)執(zhí)行。
解碼音頻數(shù)據(jù)比特流的方法包括如通過(guò)使用一個(gè)多路解復(fù)用器來(lái)接收編碼音頻數(shù)據(jù)流并解包該數(shù)據(jù)流。熵碼書指數(shù)及其各自的應(yīng)用范圍被解 碼。這可能涉及游程長(zhǎng)度和熵解碼器。它們還被用來(lái)解碼量化指數(shù)。
當(dāng)在當(dāng)前幀中檢測(cè)到暫態(tài)時(shí),量化指數(shù)如通過(guò)用去交錯(cuò)器來(lái)重新排 列。子帶樣本然后從被解碼的量化指數(shù)中重建。通過(guò)使用可在低和高頻率
分辨率模式之間切換的可變分辨率的合成濾波器組,音頻PCM樣本從重建 的子帶樣本中被重建。當(dāng)數(shù)據(jù)流指示當(dāng)前幀是用可切換分辨率分析濾波器
組以低頻率分辨率模式來(lái)編碼時(shí),可變合成分辨率濾波器組用作一個(gè)二級(jí) 混合濾波器組,其中,第一級(jí)包括一個(gè)任意分辨率的合成濾波器組或一個(gè) 逆自適應(yīng)差分脈碼調(diào)制,第二級(jí)是可變合成濾波器組的低頻率分辨率模 式。當(dāng)數(shù)據(jù)流指示當(dāng)前幀是用可切換分辨率的分析濾波器組以高頻率分辨 率模式來(lái)編碼時(shí),可變分辨率合成濾波器組在高頻率分辨率模式下操作。
一個(gè)聯(lián)合強(qiáng)度解碼器可用于用聯(lián)合強(qiáng)度比例因子從源聲道子帶樣本 中重建聯(lián)合聲道子帶樣本。此外,和/差解碼器可以被用來(lái)從和/差聲道子 帶樣本中重建左右聲道的子帶樣本。
根據(jù)本發(fā)明的另一個(gè)方面,提供一種用于對(duì)音頻信號(hào)進(jìn)行編碼的方 法,包括(a)獲得分割成幀的采樣音頻信號(hào);(b)識(shí)別在其中一個(gè)幀中 的瞬變的位置;(c)通過(guò)對(duì)該幀數(shù)據(jù)執(zhí)行多分辨率濾波器組分析來(lái)生成變 換數(shù)據(jù)采樣,包括以不同分辨率對(duì)該包括瞬變的幀中的不同部分進(jìn)行濾 波;(d)通過(guò)基于心理聲學(xué)模型使用可變數(shù)量的比特對(duì)該變換數(shù)據(jù)采樣進(jìn) 行量化,生成量化數(shù)據(jù);(e)基于該量化數(shù)據(jù)的量值,把該量化數(shù)據(jù)分組 成可變長(zhǎng)度的分段;(f)為每個(gè)可變長(zhǎng)度的分段分配碼本;以及(g)使 用分配給每個(gè)可變長(zhǎng)度的分段的碼本,對(duì)該可變長(zhǎng)度的分段中的量化數(shù)據(jù)進(jìn)行編碼。
本發(fā)明結(jié)果是一個(gè)低比特率的數(shù)字音頻編碼系統(tǒng),其極大地降低了多 聲道音頻信號(hào)的比特率以用于有效發(fā)送,同時(shí)還獲得透明的音頻信號(hào)再 現(xiàn),以致于很難將它與原始信號(hào)區(qū)分。
本發(fā)明的其它特征和優(yōu)點(diǎn)將參考附圖從下列詳細(xì)說(shuō)明中變得明顯,其 通過(guò)舉例的方式來(lái)說(shuō)明本發(fā)明的原理。
下列附圖用來(lái)說(shuō)明本發(fā)明。在這些附圖中
圖l是一個(gè)示意圖,描述根據(jù)本發(fā)明的多聲道數(shù)字音頻信號(hào)的編碼和 解碼;
圖2是一個(gè)示意圖,說(shuō)明了根據(jù)本發(fā)明使用的一個(gè)示例性編碼器; 圖3是具有任意分辨率的濾波器組的可變分辨率的分析濾波器組的一 個(gè)示意圖4是具有ADPCM的可變分辨率的分析濾波器組的一個(gè)示意圖; 圖5是根據(jù)本發(fā)明的用于可切換MDCT窗口類型的示意圖; 圖6是根據(jù)本發(fā)明的暫態(tài)段的一個(gè)示意圖7是根據(jù)本發(fā)明的具有兩個(gè)分辨率模式的可切換濾波器組的一個(gè)應(yīng) 用示意圖8是根據(jù)本發(fā)明的具有三個(gè)分辨率模式的可切換濾波器組的一個(gè)應(yīng) 用示意類似于圖5,圖9是根據(jù)本發(fā)明的用于具有三個(gè)分辨率模式的可切換MDCT的其它窗口類型的示意圖10描述了根據(jù)本發(fā)明的具有三個(gè)分辨率模式的可切換MDCT窗口序 列的一組例子;
圖11是本發(fā)明與先有技術(shù)相比的熵碼書的確定示意圖12是根據(jù)本發(fā)明把碼書指數(shù)分成很大的段或消除碼書指數(shù)的孤立 的小塊區(qū)域的示意圖13是本發(fā)明配備的解碼器的示意圖14是根據(jù)本發(fā)明的具有任意分辨率的濾波器組的可變分辨率的合
成濾波器組的一個(gè)示意圖15是具有逆ADPCM的可變分辨率合成濾波器組的一個(gè)示意圖;和 圖16是根據(jù)本發(fā)明當(dāng)使用半混合濾波器組或可切換濾波器組+ADPCM
時(shí)的比特流的結(jié)構(gòu)示意圖。
圖17是在處理只間隔一幀的暫態(tài)時(shí),短到短轉(zhuǎn)換的長(zhǎng)窗口的優(yōu)點(diǎn)示意圖。
圖18是根據(jù)本發(fā)明當(dāng)使用三模式可切換濾波器組時(shí)的比特流的結(jié)構(gòu) 示意圖。
具體實(shí)施例方式
如附圖中所示,為了說(shuō)明的目的,本發(fā)明涉及一個(gè)低比特率數(shù)字音頻 編碼和解碼系統(tǒng),其極大地降低了多聲道音頻信號(hào)的比特率以用于有效發(fā) 送或存儲(chǔ),同時(shí)也實(shí)現(xiàn)了透明的音頻再現(xiàn)。即,多聲道編碼的音頻信號(hào)比 特率通過(guò)使用算法復(fù)雜度較低的系統(tǒng)來(lái)減小,而且即使是聽測(cè)專家也無(wú)法 區(qū)分在解碼器端上還原的音頻信號(hào)與原始信號(hào)。如圖1中所示,本發(fā)明的編碼器5將多聲道音頻信號(hào)作為輸入并將其編 碼成比特流,并且極大地降低了比特率以適于在聲道容量有限的媒介上發(fā) 送或存儲(chǔ)。只要接收到由編碼器5產(chǎn)生的比特流,解碼器10就對(duì)其進(jìn)行解 碼并重建甚至聽測(cè)專家也不能將其與原始信號(hào)區(qū)別的多聲道音頻信號(hào)。
在編碼器5和解碼器10內(nèi)部,多聲道音頻信號(hào)被作為離散聲道來(lái)處理。 即,每個(gè)聲道與其它聲道同樣地來(lái)對(duì)待,除非清楚地指定了聯(lián)合聲道編碼 2。這在圖l中用極度簡(jiǎn)化的編碼器和解碼器結(jié)構(gòu)做出了說(shuō)明。
利用這種極度簡(jiǎn)化的編碼器結(jié)構(gòu),其編碼處理過(guò)程說(shuō)明如下。來(lái)自每 個(gè)聲道的音頻信號(hào)首先在分析濾波器組的第一級(jí)l中被分解成子帶信號(hào)。 來(lái)自所有聲道的子帶信號(hào)被選擇性地送到聯(lián)合聲道編碼器2,其通過(guò)組合 對(duì)應(yīng)于來(lái)自不同聲道的相同頻帶的子帶信號(hào),采用人耳的聽覺(jué)特性來(lái)降低 比特率??梢栽?中聯(lián)合編碼的子帶信號(hào)然后被量化并在3中被編碼。量化 指數(shù)或它們的熵編碼以及來(lái)自所有聲道的輔助信息然后在4中被多路復(fù)用 成一個(gè)完整的比特流以用于發(fā)送或存儲(chǔ)。
在解碼端上,比特流首先在6中被多路解復(fù)用為輔助信息和量化指數(shù) 或其熵編碼。熵編碼在7中被解碼(注意諸如哈夫曼碼之類的前綴碼的熵 解碼和多路解復(fù)用通常在一個(gè)單個(gè)步驟中執(zhí)行)。子帶信號(hào)在7中利用量化 指數(shù)和由輔助信息攜帶的步長(zhǎng)被重建。如果在編碼器中使用聯(lián)合聲道編 碼,則聯(lián)合聲道解碼在8中被執(zhí)行。然后,每個(gè)聲道的音頻信號(hào)在合成級(jí)9
中利用子帶信號(hào)被重建。
上述極度簡(jiǎn)化的編碼器和解碼器結(jié)構(gòu)被用來(lái)單獨(dú)說(shuō)明本發(fā)明給出的編碼和解碼方法的離散特性。實(shí)際應(yīng)用于音頻信號(hào)每個(gè)聲道的編碼和解碼 方法差別懸殊并且更加復(fù)雜。除非另作說(shuō)明,則這些方法在音頻信號(hào)的一 個(gè)聲道環(huán)境中被描述如下。
編碼器
編碼音頻信號(hào)的一個(gè)聲道的通用方法在圖2中被描述如下
成幀器ll把持續(xù)時(shí)間從2到50ms的輸入PCM樣本分成準(zhǔn)穩(wěn)態(tài)幀。一幀中 PCM樣本的確切個(gè)數(shù)必須是在可變分辨率的時(shí)間-頻率分析濾波器組13中 使用的不同濾波器組的子帶最大個(gè)數(shù)的整數(shù)倍。假定子帶的最大數(shù)是N, 那么一幀中PCM樣本的個(gè)數(shù)是
其中,k是一個(gè)正整數(shù)。
暫態(tài)分析12檢測(cè)當(dāng)前輸入幀中暫態(tài)的存在并將該信息傳遞給可變分 辨率分析組13。
在這里可以采用任何已知的暫態(tài)檢測(cè)方法。在本發(fā)明的一個(gè)實(shí)施例 中,PCM樣本的輸入幀被送到可變分辨率的分析濾波器組的低頻率分辨率 模式。讓咖,")表示來(lái)自這個(gè)濾波器組的輸出樣本,其中,m是子帶指數(shù)而 n是子帶域中的時(shí)間指數(shù)(temporal index)。在以下討論中,術(shù)語(yǔ)〃暫態(tài) 檢測(cè)距離"等指的是為每個(gè)時(shí)間指數(shù)定義的距離測(cè)量
<formula>formula see original document page 21</formula>或m-i
其中,M是濾波器組的子帶個(gè)數(shù)。其它類型的距離測(cè)量也可以用類似 的方法被采用。讓£_ =il^c£(w^B£min 是這個(gè)距離的最大和最小
值,如果
五"""一 ^min > 7tetoW (閾值)
五 +五. "max " min
則聲明存在暫態(tài),其中,閾值可以被設(shè)置為0.5。
本發(fā)明使用一個(gè)可變分辨率的分析濾波器組13。存在許多已知的方法 來(lái)實(shí)現(xiàn)可變分辨率的分析濾波器組。 一個(gè)突出的方法是使用可以在高、低 頻率分辨率模式之間切換其操作的濾波器組,高頻率分辨率模式用于處理 音頻信號(hào)的穩(wěn)態(tài)段而低頻率分辨率模式用于處理暫態(tài)。然而,分辨率的切 換由于理論和實(shí)踐的約束不能及時(shí)任意地發(fā)生。相反,它通常發(fā)生在幀分 界,即幀用高頻率分辨率模式或低頻率分辨率模式來(lái)處理。如圖7中所示, 對(duì)于暫態(tài)幀131,濾波器組已經(jīng)切換到低頻率分辨率模式以避免前向回聲 效應(yīng)。因?yàn)闀簯B(tài)132本身是很短的,而該幀的前暫態(tài)133和后暫態(tài)134段又 長(zhǎng)得多,所以低頻率分辨率模式的濾波器組顯然與這些穩(wěn)態(tài)段不匹配。這 極大地限制了整個(gè)幀所能達(dá)到的總的編碼增益。
本發(fā)明提出了三個(gè)方法來(lái)解決這個(gè)問(wèn)題?;舅枷胧窃诳汕袚Q分辨率 結(jié)構(gòu)內(nèi)為暫態(tài)幀的穩(wěn)態(tài)部分(stationary majority)提供一個(gè)較高頻率分辨率。
半混合濾波器組如圖3中所示,它實(shí)質(zhì)上是一個(gè)混合濾波器組,包括一個(gè)可以在高、 低頻率分辨率模式之間切換的可切換分辨率的分析濾波器組28,并且在低 頻率分辨率模式24時(shí),后面跟隨有一個(gè)暫態(tài)聚類分割單元25,然后在每個(gè) 子帶中有一個(gè)可選的任意分辨率的分析濾波器組26。當(dāng)暫態(tài)檢測(cè)器12沒(méi)有檢測(cè)到暫態(tài)存在時(shí),可切換分辨率的分析濾波器 組28進(jìn)入低時(shí)間分辨率模式27,其確保高頻率分辨率以實(shí)現(xiàn)高音頻信號(hào)編 碼增益,具有強(qiáng)的音調(diào)分量。當(dāng)暫態(tài)檢測(cè)器12檢測(cè)到暫態(tài)存在時(shí),可切換分辨率的分析濾波器組28 進(jìn)入高時(shí)間分辨率模式24。這確保了用良好的時(shí)間分辨率來(lái)處理暫態(tài)以防 止前向回聲。如此產(chǎn)生的子帶樣本如圖6中所示被暫態(tài)聚類分割部分25分 成準(zhǔn)穩(wěn)態(tài)段。在以下討論中,術(shù)語(yǔ)"暫態(tài)段"等指的是這些準(zhǔn)穩(wěn)態(tài)段。這后 面是每個(gè)子帶中的任意分辨率的分析濾波器組26,其子帶個(gè)數(shù)等于每個(gè)子帶中每個(gè)暫態(tài)段的子帶樣本個(gè)數(shù)??汕袚Q分辨率的分析濾波器組28能用可以在高、低頻率分辨率模式之 間切換其操作的任何濾波器組來(lái)實(shí)現(xiàn)。本發(fā)明的一個(gè)實(shí)施例采用了一對(duì) DCT,對(duì)應(yīng)于低和高頻率分辨率,其轉(zhuǎn)換長(zhǎng)度分別為小和大。假定轉(zhuǎn)換長(zhǎng) 度為M,則類型4的DCT的子帶樣本被獲得為<formula>formula see original document page 23</formula>其中,x(.)是輸入PCM樣本。其它形式的DCT可以用來(lái)代替類型4的DCT。 因?yàn)镈CT傾向弓I起成塊效應(yīng),所以本發(fā)明的一個(gè)較好的實(shí)施例是釆用改進(jìn)的DCT(MDCT):<formula>formula see original document page 24</formula>其中,w(.)是窗口函數(shù)。窗口函數(shù)在每半個(gè)窗口中必須是功率對(duì)稱的:<formula>formula see original document page 24</formula>以便于保證理想的重建'盡管滿足上述情況的任何窗口都可以被使用,但只有下列正弦窗口<formula>formula see original document page 24</formula>具有良好的特性,即輸入信號(hào)中的直流分量被集中到第一變換系數(shù)。為了當(dāng)MDCT在高、低頻率模式或長(zhǎng)、短窗口之間切換時(shí)能保持理想的 重建,長(zhǎng)、短窗口的重疊部分必須有相同的形狀。依賴于輸入PCM樣本的瞬變特性,編碼器可以選擇一個(gè)長(zhǎng)窗口 (如圖5 中的第一窗口61所示),切換到一個(gè)短窗口序列(如圖5中的第四窗口64所 示),并返回。圖5中的長(zhǎng)到短轉(zhuǎn)換的長(zhǎng)窗口62和短到長(zhǎng)轉(zhuǎn)換的長(zhǎng)窗口63 是橋接這類切換所需要的。當(dāng)兩個(gè)暫態(tài)非常接近但不是接近到足以保證短 窗口的連續(xù)應(yīng)用時(shí),圖5中長(zhǎng)窗口65的短到短轉(zhuǎn)換是有用的。編碼器需要向解碼器傳送被用于每一幀的窗口類型,以便相同的窗口被用來(lái)重建PCM 樣本。短到短轉(zhuǎn)換的長(zhǎng)窗口的優(yōu)點(diǎn)是可以處理只間隔一幀的鄰近暫態(tài)。如在 圖17的頂端67所示,先有技術(shù)的MDCT可以處理至少間隔兩幀的暫態(tài)。如在 圖17的底部68所示,使用這個(gè)短到短轉(zhuǎn)換的長(zhǎng)窗口可以將其減少到一幀。本發(fā)明然后將執(zhí)行暫態(tài)段25。通過(guò)利用二進(jìn)制函數(shù)值從0到1或1到0 的變化,暫態(tài)段可以由指示暫態(tài)位置的二進(jìn)制函數(shù)或聚類分割邊界來(lái)表 示。例如,圖6中的準(zhǔn)穩(wěn)態(tài)段可以被表示如下注意,T(n)二O不一定意味著音頻信號(hào)的能量在時(shí)間指數(shù)n時(shí)很高,反 之亦然。在以下討論各處的函數(shù)T(n)被稱為"暫態(tài)段函數(shù)"等。由這個(gè)段函 數(shù)攜帶的信息必須被直接或者間接地傳送到解碼器。編碼零-一游程長(zhǎng)度 的游程長(zhǎng)度編碼是一個(gè)有效的選擇。對(duì)于上面的具體例子,T(n)可以用5、 5和7的游程長(zhǎng)度代碼被傳送到解碼器。游程長(zhǎng)度代碼還可以被熵編碼。暫態(tài)聚類分割部分25可以用任何已知的暫態(tài)聚類分割方法來(lái)實(shí)現(xiàn)。在 本發(fā)明的一個(gè)實(shí)施例中,暫態(tài)聚類分割可以通過(guò)簡(jiǎn)單地對(duì)暫態(tài)探測(cè)距離取 閾值來(lái)完成。0," = 0,1,2,3,4 r(") — l,w = 5,6,7,8,90," = 10,11,12,13,14,15,16閾值可以被設(shè)置為其中,k是一個(gè)可調(diào)節(jié)的常數(shù)。本發(fā)明的一個(gè)更高級(jí)的實(shí)施例是根據(jù)k均值聚類算法,其包括下列步1) 暫態(tài)聚類分割函數(shù)T(n)被初始化,利用上述取閾值方法獲得的結(jié)果。2) 每一類的質(zhì)心被計(jì)算!>(")co = ,p ',對(duì)于與T(n)二o相關(guān)聯(lián)的類;Cl = ,t ,對(duì)于與T(n)4相關(guān)聯(lián)的類。 》如果r(fl)-i3) 暫態(tài)聚類分割函數(shù)T (n)基于以下規(guī)則來(lái)分配r(")=0, 如果l五(")-co卜l五(")—Cl|1, 否則4)進(jìn)到步驟2(任意分辨率的分析濾波器組26本質(zhì)上是一個(gè)諸如DCT之類的變換,它 的塊長(zhǎng)等于每個(gè)子帶段中的樣本個(gè)數(shù)。假定在一幀內(nèi)每個(gè)子帶都存在32 個(gè)子帶樣本并且它們被分為(9、 3、 20),則塊長(zhǎng)為9、 3和20的三個(gè)變換將被分別應(yīng)用到三個(gè)子帶段中每一個(gè)的子帶樣本。在以下討論中,術(shù)語(yǔ)〃子帶段"等指的是子帶內(nèi)暫態(tài)段的子帶樣本。第m個(gè)子帶的最后段(9、 3、 20) 的變換可以用類型4的DCT來(lái)說(shuō)明如下<formula>formula see original document page 27</formula>這個(gè)轉(zhuǎn)換將增加每個(gè)暫態(tài)段內(nèi)的頻率分辨率,所以可以期待一個(gè)良好 的編碼增益。然而在許多情況下,編碼增益小于l或者太小,則有利的決 策是丟棄這類變換結(jié)果并經(jīng)由輔助信息通知解碼器這個(gè)決策。由于與輔助 信息相關(guān)的開銷,如果是否丟棄轉(zhuǎn)換結(jié)果的決定是根據(jù)一組子帶段,則它 可以改進(jìn)總的編碼增益,即一個(gè)比特被用來(lái)為一組子帶段而不是每個(gè)子帶 段傳送這個(gè)決策。在以下討論中,術(shù)語(yǔ)"量化單元"等指的是屬于相同心理聲學(xué)臨界頻帶 和暫態(tài)段內(nèi)的一組相連的子帶樣本。量化單元可以是用于上述決策制定的 子帶段的一個(gè)良好分組。如果這個(gè)被使用,則對(duì)量化單元中所有的子帶段 來(lái)計(jì)算總編碼增益。如果編碼增益大于l或某些其它的較高閾值,則為量 化單元中所有的子帶段保留轉(zhuǎn)換結(jié)果。否則,該結(jié)果被丟棄。只需用一個(gè) 比特向解碼器傳送這個(gè)用于量化單元中所有子帶段的決策??汕袚Q濾波器組+ADPCM如圖4中所示,它基本上與圖3中的相同,只不過(guò)任意分辨率的分析濾 波器組26被ADPCM29所替代。是否應(yīng)用ADPCM的決定又是根據(jù)諸如量化單元 之類的一組子帶段,以便于降低輔助信息的成本。該組子帶段甚至可以共享一組預(yù)測(cè)系數(shù)。在此處可以使用量化預(yù)測(cè)系數(shù)的已知方法,比如包括LAR (對(duì)數(shù)面積比)、IS (反正弦)以及LSP (線譜對(duì))。三模式可切換的濾波器組不同于只有高、低分辨率模式的常見(jiàn)可切換濾波器組,這個(gè)濾波器組 可以在高、中、低分辨率模式之間切換其操作。高、低頻率分辨率模式分 別是用于穩(wěn)態(tài)和暫態(tài)幀,而且遵循與雙模式可切換濾波器組相同的一類原 則。中間分辨率模式的主要意圖是向暫態(tài)幀內(nèi)的穩(wěn)態(tài)段提供較好的頻率分 辨率。因此,在一個(gè)暫態(tài)幀內(nèi),低頻率分辨率模式被用于暫態(tài)段,而中間 分辨率模式被用于該幀的剩余部分。不同于先有技術(shù),對(duì)于單個(gè)幀的音頻 數(shù)據(jù),本發(fā)明可切換濾波器組以兩個(gè)分辨率模式操作。中間分辨率模式還 可以被用來(lái)處理具有平滑暫態(tài)的幀。在以下討論中,術(shù)語(yǔ)"長(zhǎng)塊"等指的是濾波器組在每個(gè)時(shí)刻在高頻率分辨率模式下輸出的一個(gè)樣本塊術(shù)語(yǔ)"中塊"等指的是濾波器組在中頻分辨率模式下每個(gè)時(shí)刻輸出的一樣本塊;術(shù)語(yǔ)"短塊"等指的是濾波器組在低頻率分辨率模式下每個(gè)時(shí)刻輸出的一樣本塊。三種幀可以用這三種定義被描述如下 濾波器組以高頻率分辨率模式操作來(lái)處理的穩(wěn)態(tài)幀,這類幀中的 每一幀通常包括一個(gè)或多個(gè)長(zhǎng)塊; 濾波器組以高、中時(shí)間分辨率模式操作來(lái)處理的具有暫態(tài)的幀, 這類幀中的每一幀都包括幾個(gè)中塊和幾個(gè)短塊,所有短塊的樣本總數(shù)等于 一個(gè)中塊的樣本總數(shù); 濾波器組以中間分辨率模式下操作來(lái)處理的具有平滑暫態(tài)的幀, 這類幀中的每一幀都包括幾個(gè)中塊。這個(gè)新方法的優(yōu)點(diǎn)在圖8中被示出。圖8基本上與圖7相同,只不過(guò)原 先在圖7中在低頻率分辨率模式下處理的許多段(141、142和143)現(xiàn)在由中 頻率分辨率模式來(lái)處理。因?yàn)檫@些段是穩(wěn)態(tài)的,所以中頻率分辨率模式顯 然比低頻率分辨率模式更加匹配,因此可以期待較高的編碼增益。本發(fā)明的一個(gè)實(shí)施例采用具有小、中、大塊長(zhǎng)的三元組DCT,分別對(duì) 應(yīng)于低、中、高頻率的分辨率模式。本發(fā)明的一個(gè)較好實(shí)施例(無(wú)成塊效應(yīng))采用具有小、中、大的塊長(zhǎng)的 三元組MDCT。由于引入了中間分辨率模式,除了圖5中的窗口類型之外還 提供了圖9中所示的窗口類型。這些窗口被描述如下 中窗口151; 長(zhǎng)到中轉(zhuǎn)換的長(zhǎng)窗口152:作為一個(gè)長(zhǎng)窗口,其橋接從長(zhǎng)窗口到中窗口的轉(zhuǎn)換。 中到長(zhǎng)轉(zhuǎn)換的長(zhǎng)窗口153:作為一個(gè)長(zhǎng)窗口,其橋接從中窗口到長(zhǎng)窗口的轉(zhuǎn)換。 中到中轉(zhuǎn)換的長(zhǎng)窗口154:作為一個(gè)長(zhǎng)窗口,其橋接從中窗口到另一個(gè)中窗口的轉(zhuǎn)換。 中到短轉(zhuǎn)換的中窗口155:作為一個(gè)中窗口,其橋接從中窗口到短窗口的轉(zhuǎn)換。 短到中轉(zhuǎn)換的中窗口156:作為一個(gè)中窗口,其橋接從短窗口到中 窗口的轉(zhuǎn)換。 中到短轉(zhuǎn)換的長(zhǎng)窗口157:作為一個(gè)長(zhǎng)窗口,其橋接從中窗口到短 窗口的轉(zhuǎn)換。 短到中轉(zhuǎn)換的長(zhǎng)窗口158:作為一個(gè)長(zhǎng)窗口,其橋接從短窗口到中 窗口的轉(zhuǎn)換。注意:類似于圖5中短到短轉(zhuǎn)換的長(zhǎng)窗口65,中到中轉(zhuǎn)換的長(zhǎng)窗口154、 中到短轉(zhuǎn)換的長(zhǎng)窗口 157、和短到中轉(zhuǎn)換的長(zhǎng)窗口 158可使三模式MDCT處理 間隔一幀的暫態(tài)。圖10示出窗口序列的一些例子。161舉例說(shuō)明了這個(gè)實(shí)施例用中分辨 率167處理慢暫態(tài)的能力,而162到166說(shuō)明了向暫態(tài)分配精細(xì)的時(shí)間分辨 率168、向同一幀內(nèi)的穩(wěn)態(tài)段分配中時(shí)間分辨率169、和向穩(wěn)態(tài)幀分配高頻 率分辨率170的能力。常見(jiàn)的和/差編碼方法14可以在這里被應(yīng)用。例如, 一個(gè)簡(jiǎn)單使用方 法如下和聲道=0. 5 (左聲道+右聲道) 差聲道=0.5(左聲道-右聲道) 常見(jiàn)的聯(lián)合強(qiáng)度編碼方法15可以在這里被應(yīng)用。一個(gè)簡(jiǎn)單的方法可以是 用源和聯(lián)合聲道的和來(lái)替換源聲道。 將其調(diào)整為與量化單元內(nèi)的原始源聲道相同的能量級(jí) 丟棄量化單元內(nèi)聯(lián)合聲道的子帶樣本,只把比例因子(被稱為"引導(dǎo) 向量"或本發(fā)明中的"比例因子〃)的量化指數(shù)傳送到解碼器,其被定義為諸如對(duì)數(shù)之類的引導(dǎo)向量的非均勻量化將被用來(lái)匹配人耳的聽覺(jué)特 性。熵編碼可以被應(yīng)用于引導(dǎo)向量的量化指數(shù)。為了避免源和聯(lián)合聲道在它們的相位差接近180度的情況下的抵消效 應(yīng),可以在它們被合計(jì)形成聯(lián)合聲道時(shí)應(yīng)用極性極性還必須被傳送到解碼器。心理聲學(xué)模型23基于人耳的聽覺(jué)特性來(lái)計(jì)算音頻樣本的當(dāng)前輸入幀 的掩蔽閾值,低于掩蔽閾值的量化噪聲不太可能被聽到。在這里可以使用 任何常見(jiàn)的心理聲學(xué)模型,但是本發(fā)明要求它的心理聲學(xué)模型對(duì)每個(gè)量化 單元都輸出一個(gè)掩蔽閾值。全局比特分配器16全局地向每個(gè)量化單元分配一幀可用的比特資源,以便每個(gè)量化單元中的量化噪聲功率低于其各自的掩蔽閾值,它通過(guò)調(diào)節(jié) 其量化步長(zhǎng)來(lái)控制每個(gè)量化單元的量化噪聲功率。量化單元內(nèi)的所有子帶 樣本都用相同的步長(zhǎng)來(lái)量化。在這里可以采用所有已知的比特分配方法。這類方法之一是有名的和聲道=源聲道+極性,聯(lián)合聲道Water Filling算法。它的基本思想是發(fā)現(xiàn)其Q麗R(量化噪聲掩蔽比)最高 的量化單元,并減少分配給該量化單元的步長(zhǎng)以降低量化噪聲。它重復(fù)這 個(gè)處理直到所有量化單元的Q麗R都小于1(或任何其它的閾值)或當(dāng)前幀的 比特資源耗盡為止。量化步長(zhǎng)本身必須被量化以使其可以被打包到比特流中。諸如對(duì)數(shù)之 類的非均勻量化將被用來(lái)匹配人耳的聽覺(jué)特性。熵編碼可以被應(yīng)用于步長(zhǎng) 的量化指數(shù)。本發(fā)明使用全局比特分配16提供的步長(zhǎng)來(lái)量化每個(gè)量化單元17內(nèi)的 所有子帶樣本。在這里可以應(yīng)用所有的線性或非線性的、均勻或非均勻的 量化方案。只有在當(dāng)前幀中存在暫態(tài)時(shí),才可以選擇性地調(diào)用交錯(cuò)18。讓x(m, n, k) 是第m個(gè)準(zhǔn)穩(wěn)態(tài)段和第n個(gè)子帶中的第k個(gè)量化指數(shù)。(m, n, k)通常是量化指 數(shù)被排列的順序。交錯(cuò)單元18重新排序量化指數(shù)以便它們被排列為 (n, m, k)。這樣做的動(dòng)機(jī)是量化指數(shù)的重新排列可以使得這些編碼指數(shù)所 需的比特?cái)?shù)比不交錯(cuò)指數(shù)時(shí)少。是否調(diào)用交錯(cuò)的決策需要作為輔助信息傳 送到解碼器。在先前的音頻編碼算法中,熵碼書的應(yīng)用范圍與量化單元相同,所以 熵碼書由量化單元內(nèi)的量化指數(shù)來(lái)確定(參見(jiàn)圖11的頂端)。因此沒(méi)有用于 優(yōu)化的空間。本發(fā)明在這方面是完全不同的。它在進(jìn)行到碼書選擇時(shí)忽略了量化單 元的存在。相反,它把最佳碼書分配給每個(gè)量化指數(shù),因此本質(zhì)上把量化指數(shù)轉(zhuǎn)換成了碼書指數(shù)。然后,它把這些碼書指數(shù)分成較大的段,而段邊 界定義了碼書應(yīng)用的范圍。顯然,這些碼書應(yīng)用范圍與由量化單元確定的 范圍相差懸殊。它們僅僅是基于量化指數(shù)的品質(zhì),因而所選擇的碼書更適 合量化指數(shù)。因此,只需要較少的比特把量化指數(shù)傳送到解碼器。這個(gè)方法對(duì)比于先前技術(shù)的優(yōu)點(diǎn)在圖11中被說(shuō)明。讓我們看看圖中最大的量化指數(shù)。它屬于量化單元d并且利用先前的方法要選擇一個(gè)大碼書, 這個(gè)大碼書顯然不是最佳的,因?yàn)榱炕瘑卧猟中的大多數(shù)指數(shù)要小得多。 另一方面,通過(guò)使用本發(fā)明的新方法,相同的量化指數(shù)被分成段C,所以 它與其它的大量化指數(shù)共享一個(gè)碼書。此外,段D中的所有量化指數(shù)都很 小,所以一個(gè)小碼書將被選擇。因此,需要較少比特來(lái)編碼量化指數(shù)?,F(xiàn)在參見(jiàn)圖12,先有技術(shù)的系統(tǒng)只須把碼書指數(shù)作為輔助信息傳送到 解碼器,因?yàn)樗鼈兊膽?yīng)用范圍與預(yù)定的量化單元相同。然而,本發(fā)明的方 法除了傳送碼書指數(shù)之外還需要把碼書應(yīng)用范圍作為輔助信息傳送到解 碼器,因?yàn)樗鼈儶?dú)立于量化單元。如果處理不當(dāng),則這個(gè)額外開銷可能會(huì) 以更多的比特用于整個(gè)輔助信息和量化指數(shù)而結(jié)束。因此,把碼書指數(shù)分 成大的段對(duì)于控制這個(gè)開銷來(lái)說(shuō)是相當(dāng)關(guān)鍵的,因?yàn)榇蠖我馕吨^少個(gè)數(shù) 的碼書指數(shù)及其應(yīng)用范圍需要被傳送到解碼器。本發(fā)明的一個(gè)實(shí)施例用下列步驟來(lái)完成這個(gè)碼書選擇的新方案1) 把量化指數(shù)分塊成區(qū)組,每個(gè)區(qū)組包括P個(gè)量化指數(shù)。2) 確定每個(gè)區(qū)組最大碼書需求。對(duì)于對(duì)稱量化器來(lái)說(shuō),這通常由每個(gè)區(qū)組內(nèi)最大的絕對(duì)量化指數(shù)來(lái)表示<formula>formula see original document page 34</formula> {所有區(qū)組}其中I(.)是量化指數(shù);3) 把最小碼書分配給那個(gè)可以容納最大碼書需求的區(qū)組=所r^n本(可以容納/_ (")的碼本}4) 通過(guò)把那些碼書指數(shù)比其近鄰小的孤立的小塊區(qū)域的碼書指數(shù)提 升到其近鄰的碼書指數(shù)的最小值的方法而把這些孤立的小塊區(qū)域清除掉。 這在圖12中由映射71到72、 73到74、 77到78以及79到80來(lái)說(shuō)明。深入對(duì)應(yīng)于零量化指數(shù)的碼書指數(shù)中的孤立的小塊區(qū)域可以從這個(gè)處理中被除去, 因?yàn)檫@個(gè)碼書指示沒(méi)有代碼需要被傳送。這在圖12中被描述為75到76的映射。這個(gè)步驟明顯地降低了需要被傳送到解碼器的碼書指數(shù)的個(gè)數(shù)及其應(yīng) 用范圍。本發(fā)明的一個(gè)實(shí)施例采用游程長(zhǎng)度代碼來(lái)編碼碼書應(yīng)用范圍,并且游 程長(zhǎng)度代碼還可以用熵代碼來(lái)編碼。所有的量化指數(shù)都用由熵碼書選擇器19確定的碼書和和它們各自的 應(yīng)用范圍來(lái)編碼20。熵編碼可以用各種哈夫曼碼書來(lái)實(shí)現(xiàn)。當(dāng)一個(gè)碼書中的量化級(jí)數(shù)很小 時(shí),多個(gè)量化指數(shù)被歸集(blocked)到一起以形成一個(gè)大的哈夫曼碼書。 當(dāng)量化級(jí)的個(gè)數(shù)(number of quantization levels)太大時(shí)(例如超過(guò) 200),則采用遞歸索引。對(duì)此, 一個(gè)大的量化指數(shù)q被表示為<formula>formula see original document page 34</formula>其中,M是模,m是商,而r是余數(shù)。只有m和r需要被傳送到解碼器。 它們中的 一個(gè)或其兩者都可以用哈夫曼碼來(lái)編碼。熵編碼可以用各種各樣的算術(shù)碼書來(lái)實(shí)現(xiàn)。當(dāng)量化級(jí)個(gè)數(shù)太大時(shí)(例 如超過(guò)200),遞歸索引也將被使用。其它類型的熵編碼也可以被用于上述的哈夫曼和算術(shù)編碼。不經(jīng)過(guò)熵編碼而直接打包全部或部分量化指數(shù)也是一個(gè)好的選擇。因?yàn)榱炕笖?shù)的統(tǒng)計(jì)特性在可變分辨率濾波器組采用低和高分辨率 模式時(shí)明顯不同,所以本發(fā)明的一個(gè)實(shí)施例采用兩個(gè)熵碼書庫(kù)來(lái)分別在這 兩個(gè)模式下編碼量化指數(shù)。第三個(gè)庫(kù)可以被用于中間分辨率模式,它還可 以與高或低分辨率模式共享這個(gè)庫(kù)。本發(fā)明把所有量化指數(shù)和其它的輔助信息多路復(fù)用21成一個(gè)完整的 比特流。輔助信息包括量化步長(zhǎng)、采樣率、揚(yáng)聲器配置、幀長(zhǎng)、準(zhǔn)穩(wěn)態(tài)段 的長(zhǎng)度、熵碼書的代碼等。諸如時(shí)間碼之類的其它輔助信息也可以被打包 在比特流中。先有技術(shù)的系統(tǒng)需要把每個(gè)暫態(tài)段的量化單元個(gè)數(shù)傳送到解碼器,因 為量化步長(zhǎng)的解包、量化指數(shù)的碼書、和量化指數(shù)自身都取決于此。然而 在本發(fā)明中,因?yàn)榱炕笖?shù)碼書及其應(yīng)用范圍的選擇由熵碼書選擇19的專 門方法從量化單元中分離出(decouple),比特流可以用如此的方法來(lái)構(gòu) 成,即量化指數(shù)可以在需要量化單元的個(gè)數(shù)之前被解包。 一旦量化指數(shù)被 解包,它們就能被用來(lái)重建量化單元的個(gè)數(shù)。這將在解碼器中來(lái)解釋。有了上述考慮,本發(fā)明的一個(gè)實(shí)施例在使用半混合濾波器組或可切換濾波器組+ADPCM時(shí)使用一個(gè)如圖16中所示的比特流結(jié)構(gòu),它本質(zhì)上包括 以下部分 同步字81:指示音頻數(shù)據(jù)幀的開始; 幀頭82:包括音頻信號(hào)的相關(guān)信息,比如采樣率、正常的聲道數(shù)、LFE (低頻效應(yīng))聲道數(shù)、揚(yáng)聲器配置等; 聲道l、 2.....N、 83、 84、 85:每個(gè)聲道的所有音頻數(shù)據(jù)都在此被打包; 輔助數(shù)據(jù)86:包括諸如時(shí)間碼之類的輔助數(shù)據(jù); 錯(cuò)誤檢測(cè)87:誤差檢測(cè)碼在這里被插入以檢測(cè)當(dāng)前幀中出現(xiàn)的差錯(cuò),以便于差錯(cuò)處理程序能夠在檢測(cè)到比特流差錯(cuò)時(shí)啟動(dòng); 每個(gè)聲道的音頻數(shù)據(jù)還被構(gòu)造如下 窗口類型90:指示諸如圖5中所示之類的窗口被用于編碼器以便解 碼器能夠使用相同的窗口; 暫態(tài)位置91:只用于暫態(tài)的幀,它指示每個(gè)暫態(tài)段的位置。如果游 程長(zhǎng)度代碼被使用,則這是每個(gè)暫態(tài)段的長(zhǎng)度被打包的位置; 交錯(cuò)決策92: —個(gè)比特,只在暫態(tài)幀中,指示是否交錯(cuò)每個(gè)暫態(tài)段 的量化指數(shù)以便于解碼器知道是否要去交錯(cuò)量化指數(shù); 碼書指數(shù)和應(yīng)用范圍93:它把所有的關(guān)于熵碼書及對(duì)量化指數(shù)的應(yīng) 用范圍的信息傳送,它包括以下部分〇碼書個(gè)數(shù)101:傳送當(dāng)前聲道的每個(gè)暫態(tài)段的熵碼書個(gè)數(shù);〇應(yīng)用范圍102:按照量化指數(shù)或區(qū)組來(lái)傳送每個(gè)熵碼書的應(yīng)用 范圍,它們還可以用熵代碼來(lái)編碼;〇碼書指數(shù)103:把這個(gè)指數(shù)傳送到熵碼書,它們還可以進(jìn)一步 用熵代碼來(lái)編碼; 量化指數(shù)94:傳送用于當(dāng)前聲道所有量化指數(shù)的熵代碼; 量化步長(zhǎng)95:把指數(shù)傳送到用于每個(gè)量化單元的量化步長(zhǎng),它還可 以用熵代碼來(lái)編碼。如先前所解釋的,步長(zhǎng)指數(shù)的個(gè)數(shù)、或量化單元的個(gè)數(shù)將如49中所示由解碼器從量化指數(shù)中重建; 任意分辨率的濾波器組決策96: —個(gè)比特用于每個(gè)量化單元,它只出現(xiàn)在可切換分辨率的分析濾波器組28采取低頻率分辨率模式時(shí),指示解 碼器是否要對(duì)量化單元內(nèi)的所有子帶段執(zhí)行任意分辨率的濾波器組重建 (51或55); 和/差編碼決定97: —個(gè)比特用于被和/差編碼的量化單元中的一 個(gè)。它是可選擇的并且只出現(xiàn)在采用和/差編碼時(shí),它指示解碼器是否要 執(zhí)行和/差解碼47; 聯(lián)合強(qiáng)度編碼決策和引導(dǎo)向量98:它傳送關(guān)于解碼器是否要進(jìn)行聯(lián) 合強(qiáng)度解碼的信息,它是可選擇的并且只用于被聯(lián)合強(qiáng)度編碼的聯(lián)合聲道的量化單元,并且只出現(xiàn)在編碼器采用聯(lián)合強(qiáng)度編碼時(shí),它包括以下部分: O決策121:每個(gè)聯(lián)合量化單元一個(gè)比特,向解碼器指示是否要對(duì)量化單元中的子帶樣本進(jìn)行聯(lián)合聲道解碼;〇極性122:每個(gè)聯(lián)合量化單元一個(gè)比特,表示聯(lián)合聲道相對(duì)于 源聲道的極性極性=1,如果極性比特=0 —1,否則O引導(dǎo)向量123:每個(gè)聯(lián)合量化單元一個(gè)比例因子,它可以被 熵編碼; 輔助數(shù)據(jù)99:包括諸如動(dòng)態(tài)范圍控制之類的輔助信息。當(dāng)三模式可切換的濾波器組被使用時(shí),比特流結(jié)構(gòu)本質(zhì)上與上述相 同,除了 窗口類型90:指示哪一個(gè)窗口諸如圖5和圖9中所示窗口用于編碼器 以便于解碼器能夠使用相同的窗口。注意,對(duì)于具有暫態(tài)的幀來(lái)說(shuō),這個(gè) 窗口類型只涉及幀中的最后一個(gè)窗口 ,因?yàn)槠溆嗟拇翱谀軌驈倪@個(gè)窗口類 型、暫態(tài)位置以及最后幀中使用的最后窗口來(lái)推斷; 暫態(tài)位置91:只出現(xiàn)在具有暫態(tài)的幀的情況下。它首先指示這個(gè)幀是否具有慢暫態(tài)171。如果不是,則它按照中塊172并然后按照短塊173來(lái) 指示暫態(tài)位置; 任意分辨率的濾波器組決策96:它是不相干的,因此未被使用。解碼器本發(fā)明的解碼器基本上實(shí)瑰了編碼器的逆處理,它在圖13中被示出并被解釋如下。一個(gè)多路解復(fù)用器41從比特流中解碼出量化指數(shù),以及如量化步長(zhǎng)、采樣率、揚(yáng)聲器配置和時(shí)間碼等之類的輔助信息。當(dāng)諸如哈夫曼碼之類的 前綴熵代碼被使用時(shí),這個(gè)步驟是一個(gè)結(jié)合了熵解碼的單一步驟。量化指數(shù)碼書解碼器42從比特流中解碼量化指數(shù)的熵碼書及其各自 的應(yīng)用范圍。熵解碼器43基于由量化指數(shù)碼書解碼器42提供的熵碼書及其各自的 應(yīng)用范圍從比特流中解碼量化指數(shù)。去交錯(cuò)44只有在當(dāng)前幀中存在暫態(tài)時(shí)才被選擇性地采用。如果從比特 流解包的決策比特指示交錯(cuò)18在編碼器中被調(diào)用過(guò),則去交錯(cuò)量化指數(shù)。 否則,不做任何修改地傳遞量化指數(shù)。本發(fā)明從每個(gè)暫態(tài)段49的非零量化指數(shù)中重建量化單元的個(gè)數(shù)。讓 q (m, n)是對(duì)于第m個(gè)暫態(tài)段的第n個(gè)子帶的量化指數(shù)(如果幀中不存在暫 態(tài),則只存在一個(gè)暫態(tài)段),找出每個(gè)暫態(tài)段m的具有非零量化指數(shù)的最大 子帶5a"dmax (m) = max{" |# 0}回想一下,量化單元是由在頻率中的臨界頻帶和時(shí)間上的暫態(tài)段定義 的,因此每個(gè)暫態(tài)段的量化單元個(gè)數(shù)是能夠容納^m《^(m)的最小臨界頻帶。讓頻帶(Cb)是第Cb個(gè)臨界頻帶的最大子帶,每個(gè)暫態(tài)段m的量化單元數(shù)可表示如下7V(w) = min{C6 | 5awf(00 2 O)}量化步長(zhǎng)解包50從比特流中解包每個(gè)量化單元的量化步長(zhǎng)。逆量化45利用每個(gè)量化單元的各個(gè)量化步長(zhǎng)從量化指數(shù)中重建子帶 樣本。如果比特流指示編碼器中調(diào)用過(guò)聯(lián)合強(qiáng)度編碼15,則聯(lián)合強(qiáng)度解碼46 從源聲道復(fù)制子帶樣本并將其乘以極性和引導(dǎo)向量以重建聯(lián)合聲道的子 帶樣本聯(lián)合聲道=極性-引導(dǎo)向量*源聲道如果比特流指示和/差編碼14在編碼器中被調(diào)用過(guò),貝i」和/差解碼器47 從和/差聲道中重建左右聲道。對(duì)應(yīng)于在和/差編碼14中所解釋的和/差編 碼例子,左右聲道能夠被重建為左聲道=和聲道+差聲道 右聲道=和聲道—差聲道本發(fā)明的解碼器結(jié)合了一個(gè)可變分辨率的合成濾波器組48,其實(shí)質(zhì)上 是用來(lái)編碼信號(hào)的分析濾波器組的逆裝置。如果三模式可切換分辨率的分析濾波器組被用于編碼器,則其對(duì)應(yīng)的 合成濾波器組的操作被唯一地確定并要求相同的窗口序列用于合成處理。如果半混合濾波器組或可切換濾波器組+ADPCM被用于編碼器,則解碼過(guò)程被描述如下 如果比特流指示當(dāng)前幀是用可切換分辨率的分析濾波器組28以高頻率分辨率模式來(lái)編碼的,則可切換分辨率的合成濾波器組52因此進(jìn)入高 頻率分辨率模式并且從子帶樣本中重建PCM樣本(見(jiàn)圖14和圖15)。 如果比特流指示當(dāng)前幀是用可切換分辨率的分析濾波器組28以低頻率分辨率模式來(lái)編碼的,則子帶樣本首先被送到任意分辨率的合成濾波 器組51(圖14)或逆ADPCM55(圖15),并且這取決于編碼器中哪一個(gè)被使用 了,然后完成它們各自的合成處理。然后,PCM樣本由可切換分辨率的合 成濾波器組以低頻率分辨率模式53從這些合成的子帶樣本中重建。合成濾波器組52、 51和55分別是分析濾波器組28、 26和29的逆裝置。 它們的結(jié)構(gòu)與操作處理由分析濾波器組來(lái)唯一地確定。因此,無(wú)論在編碼 器中使用什么分析濾波器組,其對(duì)應(yīng)的合成濾波器組必須被用于解碼器。低編碼延遲模式當(dāng)可切換分辨率的分析濾波器組的高頻率分辨率模式被編碼器禁止 時(shí),幀長(zhǎng)可以隨后被減小到低頻模式下的可切換分辨率的濾波器組的塊長(zhǎng) 或其整數(shù)倍,這產(chǎn)生了一個(gè)小得多的幀長(zhǎng),導(dǎo)致編碼器和解碼器操作所需 的小得多的延遲。這就是本發(fā)明的低編碼延遲模式。盡管若干實(shí)施例已經(jīng)為了舉例的目的被詳細(xì)描述,然而在不脫離本發(fā) 明的范圍和精神的前提下可以做出不同的修改。因此,本發(fā)明只被附加的 權(quán)利要求所限制。
權(quán)利要求
1、一種用于對(duì)音頻信號(hào)進(jìn)行編碼的方法,包括(a)獲得分割成幀的采樣音頻信號(hào);(b)識(shí)別在其中一個(gè)幀中的瞬變的位置;(c)通過(guò)對(duì)該幀數(shù)據(jù)執(zhí)行多分辨率濾波器組分析來(lái)生成變換數(shù)據(jù)采樣,包括以不同分辨率對(duì)該包括瞬變的幀中的不同部分進(jìn)行濾波;(d)通過(guò)基于心理聲學(xué)模型使用可變數(shù)量的比特對(duì)該變換數(shù)據(jù)采樣進(jìn)行量化,生成量化數(shù)據(jù);(e)基于該量化數(shù)據(jù)的量值,把該量化數(shù)據(jù)分組成可變長(zhǎng)度的分段;(f)為每個(gè)可變長(zhǎng)度的分段分配碼本;以及(g)使用分配給每個(gè)可變長(zhǎng)度的分段的碼本,對(duì)該可變長(zhǎng)度的分段中的量化數(shù)據(jù)進(jìn)行編碼。
2、 如權(quán)利要求l所述的方法,其中,所述變換數(shù)據(jù)采樣包括以 下至少之一(i )兩個(gè)不同聲道的對(duì)應(yīng)數(shù)據(jù)值的和,以及(ii)兩 個(gè)不同聲道的數(shù)據(jù)值的差。
3、 如權(quán)利要求l所述的方法,其中,所述變換數(shù)據(jù)采樣中的至 少一些己經(jīng)被進(jìn)行聯(lián)合強(qiáng)度編碼。
4、 如權(quán)利要求l所述的方法,其中,通過(guò)執(zhí)行改進(jìn)型離散余弦 變換來(lái)生成所述變換數(shù)據(jù)采樣。
5、 如權(quán)利要求l所述的方法,其中,在包括瞬變的所述幀中的 濾波包括把濾波器組應(yīng)用到多個(gè)大小相等的連續(xù)的變換塊中的每 一個(gè)。
6、 如權(quán)利要求5所述的方法,其中,在包括瞬變的所述幀中的 濾波包括與應(yīng)用到不包括瞬變的變換塊的窗函數(shù)相比,把不同的 窗函數(shù)應(yīng)用到包括瞬變的其中一個(gè)變換塊。
7、 如權(quán)利要求1所述的方法,其中,在步驟(g)中的編碼包 括進(jìn)行霍夫曼編碼,對(duì)于不包括檢測(cè)到的瞬變信號(hào)的幀,使用包 括9個(gè)碼本的第一碼本組,對(duì)于包括檢測(cè)到的瞬變信號(hào)的幀,使用 包括9個(gè)碼本的第二碼本組。
8、 如權(quán)利要求1所述的方法,其中,步驟(e)包括用于將較 短的量化數(shù)據(jù)分段合并到鄰近分段中的迭代技術(shù)。
9、 如權(quán)利要求l所述的方法,其中,通過(guò)把固定數(shù)量的比特分 配給多個(gè)量化單元的每一個(gè)中的每一個(gè)采樣,來(lái)生成所述量化數(shù)據(jù),不同的量化單元具有不同的每采樣比特?cái)?shù),并且其中所述可變長(zhǎng)度 的分段獨(dú)立于所述量化單元。
10、 如權(quán)利要求1所述的方法,其中步驟(e)和(f)同時(shí)執(zhí)行。
11、 一種存儲(chǔ)用于對(duì)音頻信號(hào)進(jìn)行編碼的計(jì)算機(jī)可執(zhí)行處理步驟的計(jì)算機(jī)可讀介質(zhì),其中所述處理步驟包括(a) 獲得分割成幀的采樣音頻信號(hào);(b) 識(shí)別在其中一個(gè)幀中的瞬變的位置;(c) 通過(guò)對(duì)該幀數(shù)據(jù)執(zhí)行多分辨率濾波器組分析來(lái)生成變換數(shù) 據(jù)采樣,包括以不同分辨率對(duì)該包括瞬變的幀的不同部分進(jìn)行濾 波;(d) 通過(guò)基于心理聲學(xué)模型使用可變數(shù)量的比特對(duì)該變換數(shù)據(jù) 采樣進(jìn)行量化,生成量化數(shù)據(jù);(e) 基于該量化數(shù)據(jù)的量值,把該量化數(shù)據(jù)分組成可變長(zhǎng)度的分段;(f) 為每個(gè)可變長(zhǎng)度的分段分配碼本;以及(g) 使用分配給每個(gè)可變長(zhǎng)度的分段的碼本,對(duì)該可變長(zhǎng)度的 分段中的量化數(shù)據(jù)進(jìn)行編碼。
12、 如權(quán)利要求所述11的計(jì)算機(jī)可讀介質(zhì),其中,所述變換數(shù) 據(jù)采樣包括以下至少之一(i )兩個(gè)不同聲道的對(duì)應(yīng)數(shù)據(jù)值的和,以及(ii)兩個(gè)不同聲道的數(shù)據(jù)值的差。
13、 如權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì),其中,所述變換數(shù) 據(jù)采樣中的至少一些已經(jīng)被進(jìn)行聯(lián)合強(qiáng)度編碼。
14、 如權(quán)利要求ll所述的計(jì)算機(jī)可讀介質(zhì),其中,通過(guò)執(zhí)行改 進(jìn)型離散余弦變換來(lái)生成所述變換數(shù)據(jù)采樣。
15、 如權(quán)利要求ll所述的計(jì)算機(jī)可讀介質(zhì),其中,在包括瞬變 的所述幀中的濾波包括把濾波器組應(yīng)用到多個(gè)大小相等的連續(xù)的 變換塊中的每一個(gè)。
16、 如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,在包括瞬變 的所述幀中的濾波包括與應(yīng)用到不包括瞬變的變換塊的窗函數(shù)相 比,把不同的窗函數(shù)應(yīng)用到包括瞬變的其中一個(gè)變換塊。
17、 如權(quán)利要求ll所述的計(jì)算機(jī)可讀介質(zhì),其中,在步驟(g)中的編碼包括進(jìn)行霍夫曼編碼,對(duì)于不包括檢測(cè)到的瞬變信號(hào)的幀,使用包括9個(gè)碼本的第一碼本組,對(duì)于包括檢測(cè)到的瞬變信號(hào) 的幀,使用包括9個(gè)碼本的第二碼本組。
18、 如權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì),其中,所述步驟(e)包括用于將較短的量化數(shù)據(jù)分段合并到鄰近分段中的迭代技術(shù)。
19、 如權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì),其中,通過(guò)把固定 數(shù)量的比特分配給多個(gè)量化單元的每一個(gè)中的每一個(gè)采樣,來(lái)生成 所述量化數(shù)據(jù),不同的量化單元具有不同的每采樣比特?cái)?shù),并且其 中所述可變長(zhǎng)度的分段獨(dú)立于所述量化單元。
20、 如權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì),其中步驟(e)和 (f)同時(shí)執(zhí)行。
全文摘要
提供了用于對(duì)音頻信號(hào)進(jìn)行編碼的系統(tǒng)、方法和技術(shù),其中獲得分割成幀的采樣音頻信號(hào)。識(shí)別在其中一個(gè)幀中的瞬變位置,通過(guò)對(duì)幀數(shù)據(jù)執(zhí)行多分辨率濾波器組分析來(lái)生成變換數(shù)據(jù)采樣,包括以不同的分辯率對(duì)包括瞬變的幀的不同部分進(jìn)行濾波。通過(guò)基于心理聲學(xué)模型使用可變數(shù)量的比特對(duì)變換數(shù)據(jù)采樣進(jìn)行量化,來(lái)生成量化數(shù)據(jù),并且基于量化數(shù)據(jù)的量值,把該量化數(shù)據(jù)分組成可變長(zhǎng)度的分段。為每個(gè)可變長(zhǎng)度的分段分配碼本,并且使用分配給每個(gè)可變長(zhǎng)度的分段的碼本,來(lái)對(duì)該可變長(zhǎng)度的分段中的量化數(shù)據(jù)進(jìn)行編碼。
文檔編號(hào)H03M7/30GK101246689SQ20081000346
公開日2008年8月20日 申請(qǐng)日期2005年9月7日 優(yōu)先權(quán)日2004年9月17日
發(fā)明者游余立 申請(qǐng)人:廣州廣晟數(shù)碼技術(shù)有限公司