專利名稱:基于塊分組的音頻編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及優(yōu)化一類數(shù)字音頻編碼器的操作,其中這些數(shù)字音頻編碼器將編碼過程應(yīng)用到表示被分割為幀的一個或多個音頻信道的一個或多個音頻信息流,其中每個幀包括一個或多個數(shù)字音頻信息塊。更具體而言,本發(fā)明涉及以這樣的方式對以幀排列的音頻信息塊進行分組,以便優(yōu)化被應(yīng)用到幀的編碼過程。
背景技術(shù):
許多音頻處理系統(tǒng)通過將音頻信息流分割為幀并進一步將幀分割為表示特定時間間隔中音頻信息部分的連續(xù)數(shù)據(jù)塊而工作。一些類型的信號處理被應(yīng)用于流中每個塊。將感知(perceptual)編碼過程應(yīng)用于每個塊的音頻處理系統(tǒng)的兩個實例是符合高級音頻編碼器(AACAdvanced Audio Coder)標準的系統(tǒng),其在以下文獻中有所描述ISO/IEC 13818-7,“MPEG-2 advanced audio coding,AAC”.International Standard,1997;ISO/IEC JTC1/SC29,“Informationtechnology-very low bitrate audio-visual coding,”和ISO/IECIS-14496(Part 3,Audio),1996;以及所謂的AC-3系統(tǒng),其符合以下文獻中描述的編碼標準2001年8月20日發(fā)表的先進電視系統(tǒng)委員會(ATSCAdvanced Television Systems Committee)A/52A文件,題目是“Revision A to Digital Audio Compression(AC-3)Standard”。
在很多音頻處理系統(tǒng)中被應(yīng)用到塊的一種類型的信號處理是感知編碼的形式,其在塊中執(zhí)行音頻信息分析以獲得其譜分量的表示,估計譜分量的感知掩蔽效應(yīng),這樣量化譜分量使得所產(chǎn)生的量化噪聲聽不見或者其可聽性盡可能低,并將量化后的譜分量的表示集成為可以被傳送或記錄的編碼信號。從量化譜分量中恢復(fù)音頻信息塊所需的一組控制參數(shù)也被集成到編碼信號中。
譜分析可以以多種方式執(zhí)行,但是使用時域到頻域轉(zhuǎn)換的分析是常見的。當音頻信息塊一轉(zhuǎn)換到頻域表示時,音頻信息的譜分量就由矢量序列表示,其中每個矢量表示相應(yīng)塊的譜分量。矢量的元素是頻域系數(shù),并且每個矢量元素的索引對應(yīng)于特定頻率間隔。由每個變換系數(shù)所表示的頻率間隔寬度是固定的或可變的。由基于傅立葉的變換-諸如離散傅立葉變換(DFT)或離散余弦變換(DCT)-所產(chǎn)生的變換系數(shù)所表示的頻率間隔寬度是固定的。由子波或子波分組變換所產(chǎn)生的變換系數(shù)所表示的頻率間隔寬度是可變的,并且通常隨著頻率的提高而變大。例如,參見A.Akansu,R.Haddad,“MultiresolutionSignal Decomposition,Transforms,Subbands,Wavelets,”AcademicPress,San Diego,1992。
可以用于從感知編碼信號中恢復(fù)音頻信息塊的一種類型的信號處理從編碼信號中獲得一組控制參數(shù)和量化譜分量的表示,并且使用該組參數(shù)來導(dǎo)出譜分量,用于合成到音頻信息塊中。合成是對用于產(chǎn)生編碼信號的分析的互補。使用頻域到時域變換的合成是常見的。
在很多編碼應(yīng)用中,可用來傳送或記錄編碼信號的帶寬或空間是有限的,并且該限制對可以用來表示量化頻譜分量的數(shù)據(jù)量產(chǎn)生嚴格的限制。傳遞控制參數(shù)集合所需的數(shù)據(jù)是進一步減小可以用來表示量化譜分量的數(shù)據(jù)量的開銷。
在一些編碼系統(tǒng)中,一組控制參數(shù)被用來編碼每個音頻信息塊。這些類型的編碼系統(tǒng)中的一種已知的減小開銷的技術(shù)是這樣控制編碼過程,使得只需要一組控制參數(shù)來從編碼信號中恢復(fù)多個音頻信息塊。例如如果編碼過程被控制,使得10個塊共享一組控制參數(shù),那么用于這些參數(shù)的開銷被減小了90%。不幸的是,如果控制參數(shù)被太多塊共享,則音頻信號不平穩(wěn),并且對于一幀中所有音頻信息塊的編碼過程的效率可能不是最佳的。所需要的是一種通過控制該處理以減小傳遞控制參數(shù)所需的開銷從而優(yōu)化信號處理效率的方法。
發(fā)明內(nèi)容
根據(jù)本發(fā)明,以幀排列的音頻信息塊被分組為一個或多個集合或組的塊,使得每個塊在相應(yīng)組中。每個組可以包括一幀內(nèi)的單個塊或兩個或多個塊的集合,并且應(yīng)用到組中每個塊的過程使用公共集合的一個或多個控制參數(shù),諸如例如一個集合的比例因子。本發(fā)明的目的是控制塊的分組,以便優(yōu)化信號處理性能。
在編碼系統(tǒng)中,例如,包括音頻信息塊的音頻信息流以幀排列,其中每個幀具有一組或多組塊。一個集合的一個或多個編碼參數(shù)被用來對相應(yīng)組中所有塊編碼音頻信息。這些塊被分組,以優(yōu)化編碼性能的一些量度。例如,與其中利用每個塊自己的編碼參數(shù)集合來編碼每個塊的參考信號的編碼信號的失真相比,結(jié)合本發(fā)明各個方面的編碼系統(tǒng)可以通過為幀中每個組使用共享編碼參數(shù)來控制塊的分組,以使表示幀中編碼音頻信息失真的信號誤差最小化。
通過參考以下討論和附圖將更好地理解本發(fā)明的各種特征和其優(yōu)選實施例,其中附圖中相似的參考符號表示相似的元件。以下討論和附圖的內(nèi)容僅僅示例性地給出,并且不應(yīng)當被理解為表示對本發(fā)明范圍的限制。
圖1是可以結(jié)合本發(fā)明各個方面的音頻編碼系統(tǒng)的框圖。
圖2是用于找出幀中塊組的最佳數(shù)量的迭代過程的外循環(huán)的流程圖。
圖3A和3B是用于找出幀中塊的最佳分組的迭代過程的內(nèi)循環(huán)的流程圖。
圖4是貪婪歸并(Greedy Merge)過程的流程圖。
圖5是表示應(yīng)用到4個塊的貪婪歸并過程的實例的概念框圖。
圖6是可以用于實現(xiàn)本發(fā)明各個方面的設(shè)備的示意框圖。
具體實施例方式
A.介紹圖1表示一種音頻編碼系統(tǒng),其中編碼器10從通道5接收表示一個或多個音頻信號信道的一個或多個音頻信息流。編碼器10處理音頻信息流,以沿著通道15產(chǎn)生可以被傳送或記錄的編碼信號。編碼信號隨后被解碼器20接收,其中解碼器20處理編碼信號以沿著通道25產(chǎn)生從通道5所接收的音頻信息的復(fù)制品。復(fù)制品的內(nèi)容可以不等于原始音頻信息。如果編碼器10使用無損編碼方法來產(chǎn)生編碼信號,則理論上解碼器20可以恢復(fù)等于原始音頻信息流的復(fù)制品。如果編碼器10使用有損編碼技術(shù)、諸如感知編碼,則所恢復(fù)的復(fù)制品的內(nèi)容通常不等于原始流的內(nèi)容,但是其可以在感知上與原始內(nèi)容沒有區(qū)別。
編碼器10利用響應(yīng)于一個集合的一個或多個過程控制參數(shù)的編碼過程來對每個塊中的音頻信息編碼。例如,編碼過程可以將每個塊中的時域信息變換成頻域變換系數(shù);以浮點形式表示變換系數(shù),其中一個或多個浮點尾數(shù)與浮點指數(shù)相關(guān)聯(lián);并且使用浮點指數(shù)來控制尾數(shù)的縮放和量化。該基本方法被用于很多音頻編碼系統(tǒng),包括上述AC-3和AAC系統(tǒng),并且該基本方法在以下段落中更詳細地討論。然而,應(yīng)當理解,比例因子以及它們作為控制參數(shù)的使用僅僅是本發(fā)明的教導(dǎo)可以如何被應(yīng)用的一個實例。
通常,如果每個系數(shù)尾數(shù)與其自身的指數(shù)相關(guān)聯(lián),則每個浮點變換系數(shù)的值可以由給定數(shù)量的比特更精確地表示,因為每個尾數(shù)更可能可以被歸一化;然而,如果一些系數(shù)尾數(shù)共享一個指數(shù),則可能一個塊的整個變換系數(shù)集合可以由給定數(shù)量的比特更精確地表示。因為共享降低了編碼指數(shù)所需的比特數(shù)量,并允許更多數(shù)量的比特用于更精確地表示尾數(shù),因此精確度的提高是可能的。一些尾數(shù)可以不再被歸一化,但是如果變換系數(shù)的值相似,則更高的精確度可以導(dǎo)致至少一些尾數(shù)的更精確的表示。指數(shù)在尾數(shù)中共享的方法可以隨著塊而調(diào)整,或者共享排列可以不變。如果指數(shù)共享排列是不變的,在通常以這種方式共享指數(shù)每個指數(shù)和它的相關(guān)尾數(shù)定義頻率子帶,該頻率子帶與人類聽覺系統(tǒng)的臨界頻帶相當。在該方案中,如果由每個變換系數(shù)所表示的頻率間隔是固定的,在對較高頻率來說,共享一個指數(shù)的尾數(shù)數(shù)量比較低頻率的大。
在塊內(nèi)尾數(shù)之間共享浮點指數(shù)的概念可以被擴展到在兩個或更多塊中尾數(shù)之間共享指數(shù)。指數(shù)共享減小了在編碼信號中傳遞指數(shù)所需的比特數(shù)量,使得額外的比特可用于以更大精確度表示尾數(shù)。根據(jù)塊中變換系數(shù)值的相似度,塊間指數(shù)共享可以提高或降低尾數(shù)被表示的精確度。
因此,到目前為止的討論涉及通過共享浮點指數(shù)而帶來的變換系數(shù)值浮點表示的精確度的權(quán)衡。精確度的相同權(quán)衡發(fā)生于用于控制編碼過程-諸如利用感知模型來控制系數(shù)尾數(shù)量化的感知編碼-的塊間參數(shù)共享。AC-3和AAC系統(tǒng)中所使用的編碼過程例如使用變換系數(shù)的浮點指數(shù)來控制用于變換系數(shù)尾數(shù)的量化的比特分配。塊之間指數(shù)共享降低了表示指數(shù)所需的比特,這允許更多比特用來表示編碼尾數(shù)。在一些例子中,兩個塊之間的指數(shù)共享降低了編碼尾數(shù)值被表示的精確度。在其他例子中,兩個塊之間的共享提高了精確度。如果兩個塊之間的指數(shù)共享提高了尾數(shù)精確度,則3個或更多塊之間的共享可以提供精確度的進一步提高。
本發(fā)明的各個方面可以在音頻編碼器中通過優(yōu)化組數(shù)量以及塊組之間組邊界以最小化編碼信號失真來實施??梢栽谧钚』潭纫约坝糜诒硎揪幋a信號一幀的比特總數(shù)量和/或用于優(yōu)化組排列的技術(shù)的計算復(fù)雜度之間作出權(quán)衡。在一種實施中,這通過最小化均方誤差能量的量度來完成。
B.背景以下討論描述了本發(fā)明各個方面可以結(jié)合到優(yōu)化幀排列的音頻信息塊組的處理的音頻編碼系統(tǒng)的方法。優(yōu)化首先表示為數(shù)值最小化問題。該數(shù)值框架被用來發(fā)展幾種具有不同計算復(fù)雜度級別并提供不同優(yōu)化級別的實施。
1.作為數(shù)值最小化問題的組選擇通過允許幀中組數(shù)量可變來允許優(yōu)化過程中組的自由度。為了計算優(yōu)化分組配置的目的,假設(shè)組的數(shù)量和每個組中塊的數(shù)量可以隨著幀的不同而不同。還假設(shè)一個組由單個塊或全部在單個幀中的大量塊組成。要被執(zhí)行的優(yōu)化是在給定一個或多個限制下優(yōu)化一個幀中塊的分組。這些限制可以隨著應(yīng)用的不同而不同,并且可以被表示為信號處理結(jié)果中優(yōu)點-諸如編碼信號逼真度-的極大化,或它們可以被表示為反面處理結(jié)果-諸如編碼信號失真-的極小化。例如,音頻編碼器可以具有這樣的限制要求使編碼信號的給定數(shù)據(jù)率的失真最小化,或者要求在編碼信號數(shù)據(jù)率和編碼信號失真級別之間權(quán)衡,而分析/檢測/分類系統(tǒng)可以具有這樣的限制要求在分析、檢測或分類的精確度和計算復(fù)雜度之間權(quán)衡。以下討論信號失真的量度,但這些僅僅是可以使用的大量質(zhì)量量度的實例。以下討論的技術(shù)可以例如通過反轉(zhuǎn)比較和顛倒參考相關(guān)量、諸如高和低或最大和最小,而與信號處理優(yōu)點-諸如編碼信號逼真度-的量度一起使用。
可以預(yù)料,本發(fā)明可以根據(jù)至少3種策略中任何一個來實施,這3種策略在音頻信息的時域和頻域表示的使用中互相不同。在第一種策略中,時域信息被分析,以優(yōu)化傳遞時域信息的塊組的處理。在第二種策略中,頻域信息被分析,以優(yōu)化傳遞時域信息的塊組的處理。在第三種策略中,頻域信息被分析,以優(yōu)化傳遞頻域信息的塊組的處理。以下將介紹根據(jù)第三種策略的各種實施。
在本發(fā)明的編碼音頻信息用于傳送或記錄的實際實施中,定義術(shù)語“失真”和“面成本(side cost)”有利于以下討論。
術(shù)語“失真”是在屬于一個組的(一個或多個)塊中頻域變換系數(shù)的函數(shù),并且是從組空間到非負實數(shù)空間的映射。零失真被分配給包含正好N個組的幀,其中N是幀中塊的數(shù)量。在這種情況中,塊之間或塊之中不共享控制參數(shù)。
術(shù)語“面成本”是離散函數(shù),其從非負整數(shù)集合映射到非負實數(shù)集合。在以下討論中,面成本被假設(shè)為自變量x的正線性函數(shù),其中x等于p-1,而p是幀中組的數(shù)量。面成本0被分配給這樣的幀,即如果該幀中的組數(shù)量等于1。
以下介紹兩種計算失真的技術(shù)。一種技術(shù)在“帶狀(banded)”的基礎(chǔ)上為K個頻帶的每一個計算失真,其中每個頻帶是一組一個或多個連續(xù)頻域變換系數(shù)。第二種技術(shù)為寬帶意義在所有其頻帶上的整個塊計算單個失真值。定義更多術(shù)語有利于以下討論。
術(shù)語“帶狀失真”是維數(shù)為K的值矢量,從低到高頻索引。矢量中K個元素中每一個表示塊中一個或多個變換系數(shù)的相應(yīng)集合的失真值。
術(shù)語“塊失真”是表示塊的失真值的標量值。
術(shù)語“預(yù)回音失真”是表示與一些最小可覺差(JND)寬帶參考能量閾值有關(guān)的所謂預(yù)回音失真的級別的標量值,其中低于JND參考能量閾值的失真被認為是不重要的。
術(shù)語“時間支持”是對應(yīng)于變換系數(shù)單個塊的時域樣值的延伸。對于在Princen等人的“Subband/Transform Coding Using Filter BankDesigns Based on Time Domain Aliasing Cancellation,”ICASSP 1987Conf.Proc.,1987年5月,第2161-64頁中描述的改進離散余弦變換(MDCT),任何對變換系數(shù)的修改都影響從兩個連續(xù)變換系數(shù)塊中恢復(fù)的信息,這是由于變換所強加的時域中分段的50%重疊。該MDCT的時間支持是僅僅對應(yīng)于第一個被影響的系數(shù)塊的時間段。
術(shù)語“聯(lián)合信道編碼”是一種編碼技術(shù),通過這種技術(shù),一個或多個音頻信息信道以某種方式在編碼器處被組合,在解碼器處被分離為不同信道。解碼器所獲得的分離信道不可能與原始信道相同,或者甚至感覺上與原始信道沒有區(qū)別。通過利用兩個信道之間的互信息,聯(lián)合信道編碼被用于提高編碼效率。
預(yù)回聲失真對于其中變換的時間支持比預(yù)屏蔽時間間隔長的變換音頻編碼系統(tǒng)的時域屏蔽來說是要考慮的。有關(guān)預(yù)屏蔽時間間隔的附加信息可以從以下文獻中獲得Zwicker等人的“Psychoacoustics-Facts and Models,”Springer-Verlag,Berlin 1990。以下所描述的優(yōu)化技術(shù)假設(shè)時間支持小于預(yù)屏蔽間隔,因此,只考慮失真的客觀量度。
本發(fā)明并不排除基于與失真的客觀測量相對的主觀或感知失真測量執(zhí)行優(yōu)化的選擇。特別地,如果時間支持大于感知編碼器的最佳長度,那么可能均方誤差或失真的其他客觀測量不會精確地反映聽覺失真級別,并且主觀失真測量的使用可以選擇不同于使用客觀測量所獲得的分組配置的塊分組配置。
優(yōu)化過程可以以多種方式設(shè)計。一種方法是將p值從1到N迭代,其中p是幀中組的數(shù)量,并且為每個p值識別幀中所有塊的失真的總和不大于閾值T的組配置。在這些被識別的配置中,以下所描述的3種技術(shù)其中之一可以用來選擇最佳組配置??蛇x地,p值可以用一些其他方式確定,諸如通過兩信道編碼過程,其通過自適應(yīng)地為聯(lián)合信道編碼選擇多個塊來優(yōu)化編碼增益。在這種情況下,從每個信道的各個p值導(dǎo)出p的公共值。給定兩信道的公共p值,可以為兩個信道聯(lián)合地計算最佳組配置。
幀中塊的組配置可以與頻率有關(guān),但是這要求編碼信號傳遞附加信息以指定頻帶如何被分組。通過將具有公共分組信息的頻帶考慮為這里所公開的寬帶實施的單獨實例,本發(fā)明的各個方面可以應(yīng)用到多帶實施中。
2.作為失真量度的誤差能量“失真”的含義已經(jīng)在驅(qū)動優(yōu)化的量方面被定義,但是該失真并沒有涉及能夠被音頻編碼器中找出最佳塊分組的過程使用的任何方面。需要的是一種編碼信號質(zhì)量量度,其能指引優(yōu)化過程向著最佳方案發(fā)展。因為為塊組中每個塊使用控制參數(shù)的公共集合來指引優(yōu)化,因此編碼信號質(zhì)量的量度應(yīng)當基于應(yīng)用到每個塊的某些方面并且可以容易地組合到用于組中所有塊的單個表示值或復(fù)合量度中。
以下討論的獲得復(fù)合量度的一種技術(shù)是為組中的塊計算一些值的平均值,假設(shè)可以為所討論的值計算有用的平均值。不幸的是,不是音頻編碼中所有可用值都可以用來從多個值中計算有用的平均值。一個不合適值的例子是變換系數(shù)的離散傅立葉變換(DFT)相位分量,因為這些相位分量的平均值不提供任何有意義的值。另一獲得復(fù)合量度的技術(shù)是為組中所有塊選擇一些值的最大值。在這兩種情況的任何一種情況中,復(fù)合量度被用作參考值,并且編碼信號質(zhì)量的量度與該參考值和組中每個塊的值之間的距離反相關(guān)。換句話說,一個幀的編碼信號質(zhì)量的量度可以被定義為參考值和幀中所有組的每個組中每個塊的恰當值之間誤差的倒數(shù)。
如上所述的編碼信號質(zhì)量量度可以用來通過執(zhí)行最小化該量度的過程而驅(qū)動優(yōu)化。
其他參數(shù)可以在各種編碼系統(tǒng)或在其他應(yīng)用中有關(guān)。一個例子是與所謂的中/側(cè)編碼(mid/side coding)相關(guān)的參數(shù),該中/側(cè)編碼是普通的聯(lián)合信道編碼技術(shù),其中“中”信道是左右信道的和,而“側(cè)”信道是左右信道的差。結(jié)合本發(fā)明各個方面的編碼系統(tǒng)的實施可以使用信道間相關(guān)代替能量級別,來控制塊上中/側(cè)編碼參數(shù)的共享??傊魏螌K分組為組,在組中的塊之間共享編碼控制參數(shù),并傳送控制信息到解碼器的音頻編碼器可以從本發(fā)明獲得利益,本發(fā)明能夠為塊確定最佳分組配置。沒有本發(fā)明所提供的優(yōu)點,則比特的次佳分配會導(dǎo)致聽得見的量化失真的增加,因為比特是從編碼譜系數(shù)轉(zhuǎn)換的并且不會在各種譜系數(shù)之間優(yōu)化地分配。
3.矢量能量和向量能量本發(fā)明的實現(xiàn)可以使用帶狀失真或塊失真值來驅(qū)動優(yōu)化過程。使用帶狀失真還是塊失真在很大程度上取決于從一個塊到下一個塊的帶狀能量的變化。給定以下定義um是塊m中總能量的標量能量值,并且 (1a)vm,j是表示塊m中帶j的帶狀能量的矢量元素, (1b)如果要被編碼的信號無記憶,使得μ(vm,j,vm+1,j)=0,其中對于K個頻帶0≤j≤K-1,并且μ是相鄰塊之間互信息度的量度,則使用標量能量量度um的系統(tǒng)將工作得與使用帶狀能量量度值vm,j的系統(tǒng)一樣好。參見Jayant等人的“Digital Coding of Waveforms,”Prentice-Hall,NewJersey,1984。換句話說,當相繼的塊在譜能量級別上具有很小的相似度時,標量能量與帶狀能量作為量度工作地一樣好。另一方面,如下所述,當相繼的塊在譜能量級別上具有高相似度時,標量能量不能提供滿意的量度來表示參數(shù)是否可以對于兩個或多個塊是公共的,而對編碼性能沒有強加嚴重的損失。
本發(fā)明并不限于使用任何特定的量度?;趯?shù)能量(log-energy)和其他信號特征的失真量度也可以適合于各種應(yīng)用。
對于具有相似譜內(nèi)容的塊轉(zhuǎn)換,或者μ(vm,J,vm+1,j)>0,特定帶能量值vm,j仍然可能滿足以下等Σj=0K-1vm,j-Σj=0K-1Vm+1,j=0...(1)]]>或者等于接近0的小值。該結(jié)果表示這樣的事實在寬帶的基礎(chǔ)上,相鄰塊之間總能量的比較可以忽略各個頻帶中塊之間的差。對于很多信號,能量的標量量度不足以精確地最小化失真。因為這對于大量音頻信號是這樣的,所以以下描述的本發(fā)明的實施使用帶狀能量值的矢量,Vm=(vi,0,...,vi,K-1)代替標量塊能量值um來識別最佳分組配置。
4.限制的識別基于使用本發(fā)明的應(yīng)用,有很多要考慮的限制。以下所討論的本發(fā)明的實施是音頻編碼系統(tǒng);因此,有關(guān)的限制是與音頻信息編碼相關(guān)的參數(shù)。例如,由需要傳送對于組中所有塊公共的控制參數(shù)產(chǎn)生面成本限制。如果必須為每個幀分配固定數(shù)量的比特,較高的面成本可以允許要信號以對于每個塊較低的失真而被編碼,但是面成本的提高可能增加幀中所有塊的總失真。可以也存在強加于與其他相比更有利于本發(fā)明特定實施的實施復(fù)雜度的限制。
5.問題陳述導(dǎo)出以下是音頻編碼系統(tǒng)中優(yōu)化失真的數(shù)值問題定義。在該特定問題定義中,失真是候選塊組中一幀的譜系數(shù)和其中每個塊在其自己組中的幀中各個塊的譜系數(shù)能量之間的誤差能量的量度。
假設(shè)一組排列好的N個帶狀能量矢量Vi,0≤i<N,其中每個矢量的維數(shù)為K,具有正實數(shù)元素,即,Vi={vi,0,....,vi,K-1}。符號Vi表示帶狀能量值的矢量,其中矢量的每個元素可以對應(yīng)于基本上任何期望的變換系數(shù)帶。對于任何排列好的一組正整數(shù)0=s0<s1<...<sp=N,可以定義間隔Im為Im=[sm-1,sm],m,0<m≤p。符號sm表示每組中第一個塊的塊索引,m是組索引。值sp=N可以被認為是下一幀的第一個塊的索引,唯一的目的是定義間隔Im的端點??梢匀缦碌囟x這組能量矢量的劃分P(s0,...sp)P(S)=(G0,...,Gp-1), (3)其中S是矢量(s0,...,sp),并且Gm={Vi|i∈Im}(4)符號Gm表示組中的塊。
在本發(fā)明的各種實施中可以使用幾種失真量度。平均最大失真量度M’可以定義如下Jm,j=maxi∈Gm(vi,j)...(5)]]>J′(m)=Σj=0K-1Σi∈Gm(Jm,j-vi,j)...(6)]]>M′(S)=Σm=1pJ′(m)...(7)]]>平均失真A定義如下Km,j=1(sm-sm-1)Σi∈Gmvi,j...(8)]]>K′(m)=Σj=0K-1Σi∈Gm|Km,j-vi,j|...(9)]]>A(S)=Σm=1pK′(m)...(10)]]>最大差失真M”定義如下J′′(m)=Σj=0K-1|Jm,j-Jm+1,j|...(11)]]>M′′(S)=Σm=1pJ′′(m)...(12)]]>劃分P(S)=P(s0,...sp)的面成本函數(shù)被定義為等于(p-1)c,其中c是正的實常數(shù)。
失真的兩個附加函數(shù)定義如下
M*(S)=M(S)+Dist{(p-1)c}(13)A*(S)=A(S)+Dist{(p-1)c}(14)其中M(S)可以是M’(S)也可以是M”(S),并且Dist{}是將相同單元中的面成本表示為失真的映射。
可以根據(jù)用于找出最佳方案的搜索算法來選擇M(S)的函數(shù)。這在下面討論。Dist{}函數(shù)用于將面成本映射到與M(S)和A(S)兼容的值。在一些編碼系統(tǒng)中,從面成本到失真的恰當映射是Dist{C}=6.02dB·C其中C是以比特表示的面成本。
優(yōu)化可以被用公式表示為以下數(shù)值問題確定具有正整數(shù)元素的矢量S(s0,s1,...,sp),其對于滿足關(guān)系0=s0<s1<...<sp=N的正整數(shù)s0,s1,...,sp的所有可能的選擇,其中1≤p≤N,最小化特定失真函數(shù)M(S),M*(S),A(S)或A*(S)。變量p可以在1到N的范圍內(nèi)選擇,以找到最小化期望失真函數(shù)的矢量S。
可選地,優(yōu)化可以被公式化為使用閾值的數(shù)值問題為p,1≤p≤N,的所有整數(shù)值確定滿足關(guān)系0=s0<s1<...<sp=N的矢量S=(s0,s1,...,sp),使得期望失真函數(shù)M(S),M*(S),A(S)或A*(S)的值低于假設(shè)的閾值T。從這些矢量中,找到具有p最小值的矢量S。該方法的一種可選方法是從1到N增加p值的迭代,并選擇第一個滿足閾值限制的矢量S。以下將詳細介紹該方法。
6.多信道系統(tǒng)的附加考慮對于使用聯(lián)合立體聲/多信道編碼方法-諸如AC-3系統(tǒng)中所使用的信道耦合和在AAC系統(tǒng)中所使用的中/側(cè)立體聲編碼或強立體聲編碼-的立體聲或多信道編碼系統(tǒng),所有信道中的音頻信息應(yīng)該在對于該特定編碼系統(tǒng)合適的短塊模式中被編碼,從而確保所有信道中的音頻信息具有相同數(shù)量的分組和相同的分組配置。應(yīng)用該限制,因為僅僅為聯(lián)合編碼信道中一個提供作為面成本主要源的比例因子。這意味著,所有信道具有相同的分組配置,因為一組比例因子應(yīng)用到所有的信道。
在多信道編碼系統(tǒng)中優(yōu)化可以至少3種方法中任何一種來執(zhí)行其中一種方法被稱為“聯(lián)合信道優(yōu)化”,其通過將信道上所有誤差能量,不管是帶狀的還是寬帶的,相加來聯(lián)合優(yōu)化單個傳送中組數(shù)量和組邊界而完成。
另一種方法被稱為“嵌套循環(huán)信道優(yōu)化”,該方法通過被實現(xiàn)為嵌套循環(huán)處理的聯(lián)合信道優(yōu)化來完成,其中外循環(huán)計算所有信道的組的最佳數(shù)量。考慮聯(lián)合立體聲編碼模式中的兩個信道,例如,內(nèi)循環(huán)執(zhí)行對于給定數(shù)量組的理想分組配置的優(yōu)化。該方法的主要限制是內(nèi)循環(huán)中所執(zhí)行的過程對所有聯(lián)合編碼信道使用相同的p值。
另一種方法被稱為“單獨信道優(yōu)化”,該方法通過與所有其他信道無關(guān)地對每個信道進行分組配置優(yōu)化而完成。沒有聯(lián)合信道編碼技術(shù)可以用來對具有唯一p值或唯一分組配置的幀中任何信道編碼。
7.執(zhí)行受限優(yōu)化的方法本發(fā)明可以使用基本上任何期望的方法來搜索最佳方案。以下描述3種方法。
“窮舉搜索方法”在計算上強度很大,但總能發(fā)現(xiàn)最佳方案。一種方法對所有可能的組數(shù)量以及每個組數(shù)量的所有可能分組配置計算失真;對每個組數(shù)量識別具有最小失真的分組配置;然后通過選擇具有最小失真的配置而確定組的最佳數(shù)量。可選地,方法可以將對于每個組數(shù)量的最小失真與閾值進行比較并且在找到失真量度低于閾值的第一個分組配置之后結(jié)束搜索。該可選實施減小了搜索以找到可接受方案的計算復(fù)雜度,但是其不能確保找到最佳方案。
“貪婪歸并方法”在計算方面不像窮舉搜索方法那樣強度很大,并且不能確保找到最佳分組配置,但是其通常找到與最佳配置一樣好或者近似好的配置。根據(jù)該方法,當計算面成本時,相鄰塊被迭代地組合到組中。
“快速最佳方法”的計算復(fù)雜性介于上述其他兩種方法的復(fù)雜度之間。該迭代方法基于在先前迭代中所計算的失真計算而避免考慮某些組配置。如窮舉搜索方法,所有組配置被考慮,但是考慮到先前的計算,可以從隨后的迭代中消除對一些配置的考慮。
8.影響面成本的參數(shù)優(yōu)選地,本發(fā)明的一種實施說明了在搜索最佳分組配置時面成本的變化。
AAC系統(tǒng)的面成本中的主要分量是表示比例因子值所需的信息。因為比例因子在組的所有塊上被共享,因此在AAC編碼器中添加新組將使面成本增加表示附加比例因子所需的附加信息的量。如果AAC編碼器中本發(fā)明的實施不考慮面成本的變化,則該考慮必須使用估計,因為比例因子值直到完成速率失真循環(huán)計算后才已知,而速率失真循環(huán)計算必須在建立分組配置之后被執(zhí)行。AAC系統(tǒng)中的比例因子具有很大的可變性,并且它們的值緊緊地依賴于譜系數(shù)的量化分辨率,其中譜系數(shù)在嵌套速率/失真循環(huán)中被確定。AAC中的比例因子也被熵編碼,其進一步對它們的面成本的非確定特性有貢獻。
其他形式的面成本可以取決于用來編碼音頻信息的特定編碼過程。例如在AC-3系統(tǒng)中,信道耦合協(xié)調(diào)可以以根據(jù)公共能量值支持對協(xié)調(diào)的分組的方式在所有塊上共享。
本發(fā)明的各個方面可應(yīng)用于AC-3系統(tǒng)中的過程,其選擇用于在編碼信號中傳遞變換系數(shù)指數(shù)的“指數(shù)編碼策略”。因為AC-3指數(shù)被取為對于共享給定指數(shù)的所有譜線的功率譜密度值最大值,因此優(yōu)化過程可以利用最大誤差標準代替AAC中所使用的均方誤差標準來操作。在AC-3系統(tǒng)中,面成本是為不重用來自前一塊的指數(shù)的每個新塊傳遞指數(shù)所需的信息總量。如果確定在頻率上系數(shù)如何共享指數(shù)的指數(shù)編碼策略依賴于分組配置,那么該指數(shù)策略影響面成本。在AC-3系統(tǒng)中估計指數(shù)的面成本所需的過程的復(fù)雜度低于在AAC系統(tǒng)中提供比例因子估計所需的過程,因為作為心理聲學(xué)模型的一部分,指數(shù)值在編碼過程中較早被計算。
C.搜索方法的詳細介紹1.窮舉搜索方法窮舉搜索方法可以通過利用閾值來限制分組配置數(shù)量和測試分組數(shù)量而實現(xiàn)。該技術(shù)可以通過僅僅依賴于閾值來設(shè)置p的真實值而被簡化。這可以通過將閾值設(shè)置為0.0和1.0之間的某個數(shù)、并在組的可能數(shù)量p上迭代來完成。對p=1,計算最佳組配置和所得到的失真函數(shù),并在每次與T相比時將p的值加1。所得到的失真與T相比,并且失真函數(shù)小于T的第一個p值被選擇為組的最佳數(shù)量。通過經(jīng)驗地設(shè)置閾值T的值,可以對于大量不同輸入信號在短窗幀的大抽樣上獲得p的高斯分布。該高斯分布可以通過相應(yīng)地設(shè)置T值而被偏移,以允許在大量輸入信號上p的更高或更低平均值。該過程如圖2的流程圖所示,該圖顯示了用于找到最佳組數(shù)量的外循環(huán)中的過程。用于內(nèi)循環(huán)的合適過程如圖3A和3B所示,并在以下討論。這里所描述的任何失真函數(shù)可以被使用,包括函數(shù)M(S),M*(S),A(S)或A*(S)。
對于給定的p值,如外循環(huán)迭代所確定的,內(nèi)循環(huán)計算最佳分組配置S=(s0,s1,...,sp),其獲得最小均方誤差失真量。對于小于10的階的小值N,可以建立一組表格條目,該表格條目包括在N個塊上劃分P組的所有可能方法。每個表格條目的長度是一次7個里面選擇(p-1)的組合的數(shù)量,以下表示為“7選擇p-1”。除了p=0(未定義)和p=N(其產(chǎn)生無失真方案,其中每個組恰好包含一個塊)之外,對于其他所有p值都存在獨立的表格條目。對于0<p<N,表格的一個優(yōu)選實施方案將S=(s0,s1,...,sp)的劃分值存儲為表格TAB中的比特字段,并且內(nèi)組合循環(huán)中的處理屏蔽TAB比特字段值,以便為每個Sm得出絕對值。對于0<p<N,比特字段的劃分值如下
表1對于N=8的所有可能的分組組合對于0<p<N以及N=8,表格中每個條目或行對應(yīng)著p的不同值。該表格可以用于迭代過程,諸如在圖3A和3B的邏輯流程圖中所示,其是圖2中所示過程的內(nèi)循環(huán)。該內(nèi)循環(huán)在所有可能的組配置上迭代,所有可能的組配置在數(shù)字上是(7選擇p-1)。如流程圖中符號TAB[p,r]所示,外循環(huán)所提供的p值對表格的行進行索引,而r值對特定分組組合的比特字段進行索引。
對每個內(nèi)循環(huán)迭代,圖3A中所示的平均失真量度A(S),或者可選地圖3B中所示的最大差失真M”(S)分別根據(jù)等式10或12被計算。所有塊和帶上的總失真被相加,以獲得單個標量值A(chǔ)sav或者可選地Msav。
窮舉搜索方法可以使用多種失真量度。例如,以上討論的實施方案使用L1標準,但是L2標準或者L無限標準量度也可以使用。參見R.M·Gray,A·Buzo,A·H.Gray,Jr.,“Distortion Measures forSpeech Processing,”IEEE Transactions on Acoustics,Speech,andSignal Processing,Vol.ASSP-28,No.4,1980年8月。
2.快速最佳方法快速最佳方法使用上面等式7所定義的平均最大失真M’(S)。該方法獲得最佳分組配置,而不必在所有可能的方案中窮舉搜索。結(jié)果,其不如上述窮舉搜索方法那樣在計算上強度很大。
a)定義劃分P(s0,...,sp)被認為是級別p的一個劃分,如果其包括p個組。組的維數(shù)d是該組中塊的數(shù)量。具有大于1的維數(shù)的組被稱為正組。等式4中所表達的組Gm的定義被重新寫為Gm=G(sm-1,sm-1+1...,sm)。
b)數(shù)學(xué)準備維數(shù)d>3的組可以被分割為2個具有恰好1個公有塊的子組。例如,如果Gm=G(sm-1,sm-1+1...,sm),那么組Gm可以被分割為兩個子組Gma=G(sm-1,sm-1+1...,sm-1+k)和Gmb=G(sm-1+k,...,sm),其都包含索引為sm-1+k的塊。通過定義,這兩個子組不可以是相同劃分的一部分。將一個組分割為2個正重疊子組的程序可以被概括為將給定組分割為2個或多個正重疊子組的程序。
上面等式6中所定義的失真量度J’(m)總是滿足下式J’(m)≥J’(ma)+J’(mb) (15)其中Gma和Gmb是組Gm的重疊子組。這可以通過表示Jm,j≥max(Jma,j,Jmb,j)對于所有j為真來證明。通過將該關(guān)系插入等式6所示的J’(m)定義中,可以看出得到等式15的命題。
c)核心過程描述可以通過首先假設(shè)給定的、對于定義級別為p的劃分的所有矢量s1,...sp使M’(S)=M’(s1,...sp)最小化的、級別為p的劃分PP來理解快速最佳方法的原理。存在級別為p-1的劃分F,其與譜系數(shù)的特定值無關(guān),不能是對于定義級別為p-1的劃分的所有矢量S=(s1,...sp)使M’(s1,...sp)最小化的、級別為p-1的唯一劃分Pp-1。換句話說,如果這些劃分F其中一個對于定義級別為p-1的劃分的所有矢量S使M’(S)最小化,則還存在至少一個對于定義級別為p-1的劃分的所有矢量S使M”(S)最小化的其他劃分??梢远x這些劃分F的子集,表示為X(p,P),其包含可以從找出最佳方案所需的某些處理中被排除的、級別p的特定劃分,如下詳細所述。子集X(p,P)被定義如下(1)假設(shè)級別為p-1的劃分F具有n個正組,并且該劃分的m(0<m<n)個正組分別可以被相同維數(shù)的另一正組替換,并且在替換之后,劃分F被變換成沒有重疊組的級別為p-1的劃分G。如果劃分P的正組是劃分G的正組的子集,而不是劃分F的正組的子集,則F屬于X(p,P)。
(2)假設(shè)級別為p-1的劃分F具有n個正組,并且F的m(0<m≤n)個正組可以被分割為2個或更多正組。進一步假設(shè)這些正組中一個或多個可以被具有相同維數(shù)的組替換,并且將劃分F變換成沒有重疊組的級別為p-1的有效劃分G。如果劃分P的正組是劃分G的正組的子集,而不是劃分F的正組的子集,則根據(jù)公式15的命題,F(xiàn)屬于X(p,P)。
有必要指出,通過構(gòu)造,集合X(p,P)不能等同于級別為p-1的所有劃分的集合。
d)概括的情況(N個任意情況)快速最佳方法開始于將一幀的N個塊劃分為p=N個組,并計算平均最大失真函數(shù)M’(S)或M*(S)。該劃分被表示為PN。方法然后為將N個塊劃分成g=N-1個組的所有N-1個可能方式計算平均最大失真函數(shù)。這N-1個劃分中使平均最大失真函數(shù)最小化的特定劃分被表示為PN-1。屬于集合X(N-1,PN-1)的劃分如上所述被識別。然后方法為將N個塊劃分成N-1個不屬于集合X(N-1,PN-1)的組的所有可能方式計算平均最大失真函數(shù)。最小化平均最大失真函數(shù)的劃分被表示為PN-2。快速最佳方法為p=N-2,...,1迭代該過程,以找到劃分PP-1,在每個級別使用集合X(p,Pp)以減小被分析為可能方案的劃分數(shù)量。
快速最佳方法通過在劃分P1,...,PN中找到最小化平均最大失真函數(shù)M’(S)或M*(S)的劃分P而結(jié)束。
e)例子以下例子被提供以幫助理解快速最佳方法并說明可能實施方案的特征。在該例中,每個幀包括6個塊,或N=6。一組控制表格可以用來簡化確定劃分是否應(yīng)當被添加到集合X(p,Pp)中所需的處理,如上所述。該例中示出了表格集合,表格2A到2C。
符號D(a,b)被用于這些表格中以識別特定劃分。一個劃分包括一個或多個塊組,并且可以被其所包含的正組而唯一地指定。例如,一個6塊的劃分包括4個組,其中第一組包括塊1和2,第二組包括塊3和4,第三組包括塊5,第四組包括塊6,該劃分可以被表示為(1,2)(3,4)(5)(6),并且在表格中顯示為D(1,2)+D(3,4)。
當處理級別p的特定劃分Pp時,每個表格提供可以用來確定級別p-1的特定劃分是否屬于集合X(p,Pp)的信息。表2A,例如,提供用于確定一個級別4的劃分是否屬于表格頂行中所示每個級別5劃分的集合X(5,P5)的信息。表格2A的頂行例如列出了包括5個組的劃分。不是所有劃分都被列出來。在該例中,包括5個組的所有劃分是D(1,2),D(2,3),D(3,4),D(4,5)和D(5,6)。只有D(1,2),D(2,3)和D(3,4)被顯示在表格的頂行。沒有列出的劃分D(4,5)和D(5,6)分別與劃分D(2,3)和D(1,2)對稱,并且可以從它們中導(dǎo)出。表格2A的左欄顯示了包括4個組的劃分。每個表格中所示的符號“Y”和“N”表示左欄所示級別p-1的劃分是(“Y”)否(“N”)應(yīng)當被從對該欄中表格頂行所示相應(yīng)劃分Pp的進一步處理中排除。參考表格2A,例如,級別5劃分D(1,2)在級別4劃分D(2,3,4)的行中具有“N”條目,這表示劃分D(2,3,4)屬于集合X(5,D(1,2)),并且應(yīng)當從進一步處理中排除。級別5劃分D(2,3)在級別4劃分D(2,3,4)的行中具有“Y”條目,這表示級別4劃分不屬于集合X(5,D(2,3))。
在該例中,實施快速最佳方法的過程將幀的6個塊劃分為6個組,并計算平均最大失真。劃分被顯示為P6。
過程為將6個塊劃分為5個組的所有5種可能方式計算平均最大失真。5個劃分中最小化平均最大失真的劃分被表示為P5。
過程參考表格2A,并選擇其頂部條目指定劃分P5的分組配置的那個列。過程為將6個塊劃分為在所選列中具有“Y”條目的4個組的所有可能方式計算平均最大失真。最小化平均最大失真的劃分被表示為P4。
過程使用表格2B,并選擇其頂部條目指定劃分P4的分組配置的那個列。過程為將6個塊劃分為在所選列中具有“Y”條目的3個組的所有可能方式計算平均最大失真。最小化平均最大失真的劃分被表示為P3。
過程使用表格2C,并選擇其頂部條目指定劃分P3的分組配置的那個列。過程為將6個塊劃分為在所選列中具有“Y”條目的組的所有可能方式計算平均最大失真。最小化平均最大失真的劃分被表示為P2。
過程為包含一個組的劃分計算平均最大失真。該劃分被表示為P1。
過程在劃分P1,...P6之中識別具有最小平均最大失真的劃分P。該劃分P提供最佳分組配置。
表2A.對于p=5的快速最佳組消除表格
表2B.對于p=4的快速最佳組消除表格
表2C.對于p=3的快速最佳組消除表格3.貪婪歸并介紹貪婪歸并方法提供了將一幀中的塊劃分為組的簡化技術(shù)。雖然貪婪歸并方法不保證將找到最佳分組配置,但是該方法所提供的計算復(fù)雜度降低對于大多數(shù)實際應(yīng)用比最優(yōu)性的可能降低更讓人期待。
貪婪歸并方法可以使用大量失真量度函數(shù),包括以上討論的那些。優(yōu)選實施例使用表達式11中所示的函數(shù)。
圖4顯示了一個恰當?shù)呢澙窔w并方法的流程圖,其操作如下為每個塊i計算帶狀能量矢量Vi。N個組的集合被建立,其中每一個具有一個塊。然后該方法測試所有N-1個相鄰組對,并找到使等式11最小化的兩個相鄰組g和g+1。來自等式11的J”的最小值被表示為q。最小值q然后與失真閾值T比較。如果最小值大于閾值T,則該方法以當前分組配置被識別為最佳或接近最佳配置而結(jié)束。如果最小值小于閾值T,則這兩個組g和g+1被合并為一個新組,該新組包含這兩個組g和g+1的帶狀能量矢量。該方法迭代,直到所有相鄰組對的失真量度J”都超過失真閾值T或者直到所有塊已經(jīng)被合并到一個組。
在圖5中示出了該方法對于具有4個塊的幀的一種操作方法示例。在該例中,這4個塊被初始地安排到4個組a,b,c和d,每個組具有1個塊。該方法然后找到使等式11最小化的兩個相鄰組。在第一次迭代中,該方法發(fā)現(xiàn)組b和c使等式11最小化,并且失真量度J”小于失真閾值T;因此,該方法將組b和c合并到一個新組,以獲得3個組a,bc和d。在第二次迭代中,該方法發(fā)現(xiàn)兩個相鄰組a和bc最小化等式11,并且該組對的失真量度J”小于閾值T。組a和bc被合并到一個新組,以給出總共兩個組abc和d。在第三次迭代中,該方法發(fā)現(xiàn)僅存的組對的失真量度J”大于失真閾值T;因此,該方法結(jié)束,并且保留最后兩個組abc和d作為最佳或接近最佳分組配置。
貪婪歸并方法的計算復(fù)雜度的實際階數(shù)取決于在閾值被超過之前該方法必須迭代的次數(shù),然而,迭代的次數(shù)介于1和1/2.N.N(N-1)之間。
D.實施結(jié)合了發(fā)明各個方面的設(shè)備可以以各種方法實施,包括由計算機或包括連接到與通用計算機中的那些組件相似的組件的更多專用組件-諸如數(shù)字信號處理器(DSP)電路-的其他某種設(shè)備所執(zhí)行的軟件。圖6是設(shè)備70的示意框圖,其可以用于實施本發(fā)明的各個方面。DSP72提供計算資源。RAM 73是DSP 72用于處理的系統(tǒng)隨機存取存儲器。ROM 74表示某種形式的持久存儲器,諸如只讀存儲器(ROM),用于存儲操作設(shè)備70所需的程序以及可能用于執(zhí)行本發(fā)明各個方面。I/O控制75表示通過通信信道76、77接收和傳送信號的接口電路。在所示實施例中,所有主要系統(tǒng)組件連接到總線71,其中總線71可以代表多于一條的物理或邏輯總線;然而,總線結(jié)構(gòu)對于實施本發(fā)明并不要求。
在由通用計算機系統(tǒng)實施的實施例中,附加組件可以被包括,以接口到諸如鍵盤或鼠標和顯示器的設(shè)備,以及控制具有存儲介質(zhì)-諸如磁帶或磁盤、或光介質(zhì)-的存儲設(shè)備。存儲介質(zhì)可以用來記錄運行系統(tǒng)、實用程序和應(yīng)用程序的指令的程序,并且可以包括實現(xiàn)本發(fā)明各個方面的程序。
實踐本發(fā)明各個方面的功能可以由以大量方式-包括離散邏輯組件、集成電路、一個或多個ASIC和/或程控處理器-實現(xiàn)的組件來執(zhí)行。實現(xiàn)這些組件的方式對于本發(fā)明來說并不重要。
本發(fā)明的軟件實現(xiàn)可以通過大量機器可讀介質(zhì)傳遞,諸如整個譜上的基帶或調(diào)制通信路徑、包括從超聲波到紫外頻率,或者通過使用基本上任何記錄技術(shù)傳遞信息的存儲介質(zhì),包括磁帶、卡或磁盤、光卡或光盤、或者介質(zhì)(包括紙)上的可檢測標記。
權(quán)利要求
1.一種處理以幀排列的音頻信息的塊的方法,其中每個塊具有表示音頻信息的相應(yīng)時間間隔的內(nèi)容,其中所述方法包括以下步驟(a)接收傳遞音頻信息塊的輸入信號;(b)獲得兩個或更多質(zhì)量量度,使得(1)相應(yīng)幀中塊組的多個集合中每個集合具有相關(guān)質(zhì)量量度,(2)每個組具有一個或多個塊,(3)每個組集合包括相應(yīng)幀中所有塊,并且每個集合沒有塊被包括在多于一個的組中,并且(4)所述質(zhì)量量度表示通過根據(jù)相關(guān)的一個或多個控制參數(shù)的集合處理相應(yīng)組中每個塊所獲得的結(jié)果的優(yōu)點;(c)分析所述質(zhì)量量度,以識別組數(shù)量最少的選定組集合,使得至少部分地從相關(guān)質(zhì)量量度中所獲得的處理性能的量度大于閾值;并且(d)根據(jù)所述相關(guān)的一個或多個控制參數(shù)的集合,處理所述選定組集合中的每個塊組,以產(chǎn)生輸出信號,其中所述輸出信號表示輸入信號的內(nèi)容并表示所述選定集合中每個組的相關(guān)控制參數(shù)集合。
2.如權(quán)利要求1所述的方法,其中所述塊包括音頻信息的時域樣值。
3.如權(quán)利要求1所述的方法,其中所述塊包括音頻信息的頻域系數(shù)。
4.如權(quán)利要求1所述的方法,其中具有不只一個塊的組中至少一個塊對具有表示互相相鄰或互相重疊的時間間隔中音頻信息的內(nèi)容。
5.如權(quán)利要求1所述的方法,包括獲得兩個或更多成本量度,其中每個成本量度與一個集合的塊組有關(guān),所述成本量度表示根據(jù)所述相關(guān)控制參數(shù)集合處理所述有關(guān)集合中的塊所需的資源量;其中所述處理性能的量度部分地從與所述選定集合有關(guān)的成本量度中獲得。
6.如權(quán)利要求1或5所述的方法,其中所述分析在迭代過程的一個或多個迭代中執(zhí)行,以確定一個或多個集合的不是所述選定集合的候選者的組,并在所述過程的隨后迭代中不分析這些一個或多個集合。
7.如權(quán)利要求1或5所述的方法,其中通過迭代過程識別所述選定集合,其中所述迭代過程包括為初始組集合中的組對確定第二處理性能量度;如果最高的第二處理性能量度大于閾值,則合并具有所述最高的第二處理性能量度的組對以形成修訂的組集合,并且為所述修訂的組集合中的組對確定所述第二處理性能量度;和繼續(xù)所述合并,直到在所述修訂的組集合中沒有組對具有大于所述閾值的第二處理性能量度,其中所述修訂的組集合是所述選定集合。
8.如權(quán)利要求5所述的方法,其中所述成本量度響應(yīng)于在編碼信號中表示控制參數(shù)集合所需的數(shù)據(jù)量。
9.如權(quán)利要求5所述的方法,其中所述成本量度響應(yīng)于處理音頻信息塊所需的計算資源量。
10.一種處理以幀排列的音頻信息塊的設(shè)備,其中每個塊具有表示音頻信息的相應(yīng)時間間隔的內(nèi)容,所述設(shè)備包括接收裝置,用于接收傳遞所述音頻信息塊的輸入信號;獲得裝置,用于獲得兩個或更多質(zhì)量量度,使得(1)相應(yīng)幀中塊組的多個集合中每個集合具有相關(guān)質(zhì)量量度,(2)每個組具有一個或多個塊,(3)每個組集合包括相應(yīng)幀中的所有塊,并且每個集合中沒有塊被包括在多于一個組中,并且(4)所述質(zhì)量量度表示通過根據(jù)相關(guān)的一個或多個控制參數(shù)的集合處理相應(yīng)組中每個塊所獲得的結(jié)果的優(yōu)點;分析裝置,用于分析所述質(zhì)量量度以識別組數(shù)量最小的選定組集合,使得至少部分地從所述相關(guān)質(zhì)量量度中所獲得的處理性能量度大于閾值;以及處理裝置,用于根據(jù)所述相關(guān)的一個或多個控制參數(shù)的集合處理所述選定組集合中每個塊組以產(chǎn)生輸出信號,其中所述輸出信號表示所述輸入信號的內(nèi)容,并表示所述選定集合中每個組的相關(guān)控制參數(shù)集合。
11.如權(quán)利要求10所述的設(shè)備,其中所述塊包括音頻信息的時域樣值。
12.如權(quán)利要求10所述的設(shè)備,其中所述塊包括音頻信息的頻域系數(shù)。
13.如權(quán)利要求10所述的設(shè)備,其中具有不只一個塊的組中至少一個塊對具有表示互相相鄰或互相重疊的時間間隔中音頻信息的內(nèi)容。
14.如權(quán)利要求10所述的設(shè)備,包括獲取裝置,用于獲得兩個或更多成本量度,其中每個成本量度與一個集合的塊組有關(guān),所述成本量度表示根據(jù)所述相關(guān)的控制參數(shù)集合處理所述有關(guān)集合中的塊所需的資源量;其中所述處理性能量度部分地從與所述選定集合有關(guān)的成本量度中獲得。
15.如權(quán)利要求10或14所述的設(shè)備,其中所述分析裝置迭代地分析以確定一個或多個集合的不是所述選定集合的候選者的組,并在隨后的迭代中不分析這些一個或多個集合。
16.如權(quán)利要求10或14所述的設(shè)備,其中所述分析裝置通過以下步驟執(zhí)行其分析為初始組集合中的組對確定第二處理性能量度;如果最高的第二處理性能量度大于閾值,則合并具有所述最高的第二處理性能量度的組對以形成修訂的組集合,并且為所述修訂的組集合中的組對確定所述第二處理性能量度;并且繼續(xù)所述合并,直到所述修訂的組集合中沒有組對具有大于所述閾值的第二處理性能量度,其中所述修訂的組集合是所述選定集合。
17.如權(quán)利要求14所述的設(shè)備,其中所述成本量度響應(yīng)于在編碼信號中表示所述控制參數(shù)集合所需的數(shù)據(jù)量。
18.如權(quán)利要求14所述的設(shè)備,其中所述成本量度響應(yīng)于處理所述音頻信息塊所需的計算資源量。
19.一種傳遞指令程序的介質(zhì),其中所述指令程序可被設(shè)備運行,以執(zhí)行處理以幀排列的音頻信息塊的方法,每個塊具有表示音頻信息的相應(yīng)時間間隔的內(nèi)容,所述方法包括(a)接收傳遞所述音頻信息塊的輸入信號;(b)獲得兩個或更多質(zhì)量量度,使得(1)相應(yīng)幀中塊組的多個集合中每個集合具有相關(guān)質(zhì)量量度,(2)每個組具有一個或多個塊,(3)每個組集合包括相應(yīng)幀中的所有塊,并且每個集合中沒有塊被包括在多于一個組中,并且(4)所述質(zhì)量量度表示通過根據(jù)相關(guān)的一個或多個控制參數(shù)的集合處理相應(yīng)組中每個塊所獲得的結(jié)果的優(yōu)點;(c)分析所述質(zhì)量量度,以識別組數(shù)量最少的選定組集合,使得至少部分地從所述相關(guān)質(zhì)量量度中所獲得的處理性能量度大于閾值;并且(d)根據(jù)所述相關(guān)的一個或多個控制參數(shù)的集合,處理所述選定組集合中每個塊組,以產(chǎn)生輸出信號,其中所述輸出信號表示所述輸入信號的內(nèi)容并表示所述選定集合中每個組的相關(guān)控制參數(shù)集合。
20.如權(quán)利要求19所述的介質(zhì),其中所述塊包括音頻信息的時域樣值。
21.如權(quán)利要求19所述的介質(zhì),其中所述塊包括音頻信息的頻域系數(shù)。
22.如權(quán)利要求19所述的介質(zhì),其中具有不只一個塊的組中至少一個塊對具有表示互相相鄰或互相重疊的時間間隔中音頻信息的內(nèi)容。
23.如權(quán)利要求19所述的介質(zhì),其中所述方法包括獲得兩個或更多成本量度,其中每個成本量度與一個集合的塊組有關(guān),所述成本量度表示根據(jù)所述相關(guān)控制參數(shù)集合處理所述有關(guān)集合中的塊所需的資源量;其中所述處理性能量度部分地從與所述選定集合有關(guān)的成本量度中獲得。
24.如權(quán)利要求19或23所述的介質(zhì),其中所述分析在迭代過程的一個或多個迭代中執(zhí)行,以確定一個或多個集合的不是所述選定集合的候選者的組,并在所述過程的隨后迭代中不分析這些一個或多個集合。
25.如權(quán)利要求19或23所述的介質(zhì),其中通過迭代過程識別所述選定集合,其中所述迭代過程包括為初始組集合的組對確定第二處理性能量度;如果最高第二處理性能量度大于閾值,則合并具有所述最高第二處理性能量度的組對以形成修訂的組集合,并且為所述修訂的組集合中的組對確定所述第二處理性能量度;和繼續(xù)所述合并,直到所述修訂的組集合中沒有組對具有大于所述閾值的第二處理性能量度,其中所述修訂的組集合是所述選定集合。
26.如權(quán)利要求23所述的介質(zhì),其中所述成本量度響應(yīng)于在編碼信號中表示所述控制參數(shù)集合所需的數(shù)據(jù)量。
27.如權(quán)利要求23所述的介質(zhì),其中所述成本量度響應(yīng)于處理所述音頻信息塊所需的計算資源量。
全文摘要
音頻信息塊以組排列,所述組共享編碼控制參數(shù)以減小在編碼信號中傳遞控制參數(shù)所需的邊信息量。減小編碼音頻信息失真的組配置可以通過搜索最佳或接近最佳方案的幾種技術(shù)中任何一種確定。這些技術(shù)包括窮舉搜索、快速最佳搜索和貪婪歸并,其允許搜索技術(shù)在減小失真和編碼信號的比特率和/或搜索技術(shù)的計算復(fù)雜度之間權(quán)衡。
文檔編號G10L19/02GK1910656SQ200580002857
公開日2007年2月7日 申請日期2005年1月19日 優(yōu)先權(quán)日2004年1月20日
發(fā)明者馬修·C·費利爾斯, 馬克·S·溫頓, 克勞斯·鮑爾, 格蘭特·A·戴維森 申請人:杜比實驗室特許公司