專利名稱:減小用于感知編碼的比特分配的計算復雜度的制作方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及感知編碼,并具體而言涉及減小為編碼源信號分配比特的感知編碼系統(tǒng)中處理的計算復雜度的技術(shù)。
背景技術(shù):
經(jīng)常使用許多編碼系統(tǒng)來減小充分表示源信號所需的信息量。通過減小信息容量需求,能夠在具有較低帶寬的信道上發(fā)送或使用較小空間在媒體上存儲信號表示。
感知編碼通過消除信號中的冗余分量或不相關(guān)分量能夠減小源音頻信號的信息容量要求。這種類型的編碼通常使用濾波器組以通過使用頻譜分量基本組去相關(guān)源信號來減小冗余,以及通過根據(jù)心理感知準則自適應量化頻譜分量減小不相關(guān)性。更粗地適配量化分辨率的編碼處理能夠以更大的程度減小信息要求,但是它在信號中還引入了更高電平的量化誤差或“量化噪聲”。感知編碼系統(tǒng)試圖控制量化噪聲的電平以便噪聲被“掩蔽”或變成信號的頻譜內(nèi)容感覺不到。這些系統(tǒng)典型使用感知模型來預測能夠通過源信號掩蔽的量化噪聲的電平。
由于被預測為不可感知而被認為不相關(guān)的頻譜分量不需要包括在編碼的信號中。被認為相關(guān)的其他頻譜分量能夠使用量化分辨率進行量化,該量化分辨率被適配成細到足以使量化噪聲變成源信號頻譜分量恰好不可感知。量化分辨率通常由比特分配處理控制,該處理確定用于表示每個量化頻譜分量的比特數(shù)量。
實際的編碼系統(tǒng)通常被限制于分配比特以便傳送量化頻譜分量的編碼信號的比特率恒定且等于目標比特率或是可變化的,也許局限于規(guī)定的范圍,其中平均速率等于目標比特率。對于任何一種情況,編碼系統(tǒng)通常使用迭代過程確定比特分配。這些迭代過程搜索確定比特分配的一個或更多編碼參數(shù)的值,以便根據(jù)感知模型,認為量化噪聲最佳地在比特率約束條件下被掩蔽。這種編碼參數(shù)例如可以規(guī)定要編碼信號的帶寬,要編碼信道的數(shù)量,或目標比特率。
在許多編碼系統(tǒng)中,比特分配處理的每次迭代需要顯著的計算資源,因為僅根據(jù)編碼參數(shù)不能夠容易地確定比特分配。結(jié)果,難以實現(xiàn)用于低成本應用諸如家用錄像機的高質(zhì)量感知音頻編碼器。
克服這種問題的一種方法是使用一找到用于得到滿足比特率約束的比特分配的編碼參數(shù)的任何值就終止迭代的比特分配處理。這種方法通常犧牲編碼質(zhì)量來減小計算復雜度,因為通常情況下這種方法將不會找到用于編碼參數(shù)的最佳值。如果目標比特率足夠高,這種犧牲可能是可接受的,但是在必須對比特率施加嚴格限制的許多應用中它是不可接受的。而且,這種方法不能保證減小計算復雜度,因為它不能保證使用比找到最佳值所需的更少迭代將會找到編碼參數(shù)的可接受值。
發(fā)明內(nèi)容
本發(fā)明的目的是提供在編碼系統(tǒng)中比特分配過程的有效實現(xiàn)以便使用較少的計算資源能夠確定編碼參數(shù)的最佳值。
根據(jù)本發(fā)明的一個方面,通過獲得表示音頻信號的感知掩蔽效應的第一掩蔽曲線編碼源信號;響應于可用于編碼音頻信號的比特數(shù)量,導出規(guī)定第二掩蔽曲線和第一掩蔽曲線之間偏移的編碼參數(shù)的估計值;通過在搜索編碼參數(shù)最佳值的迭代處理中修改編碼參數(shù)的估計值獲得編碼參數(shù)的最佳值;根據(jù)與第一掩蔽曲線相偏移編碼參數(shù)的最佳值的第二掩蔽曲線,通過量化頻譜分量產(chǎn)生編碼的頻譜分量;以及將編碼的頻譜分量的表示匯編到輸出信號中。
根據(jù)本發(fā)明的另一個方面,通過選擇編碼參數(shù)的初始值編碼源信號;響應于該編碼參數(shù)的初始值確定比特的第一數(shù)量;根據(jù)比特的第一數(shù)量和比特的第三數(shù)量之差確定比特的第二數(shù)量,該第三數(shù)量對應于可用于編碼音頻信號的比特數(shù)量;響應于編碼參數(shù)的初始值和比特的第二數(shù)量導出編碼參數(shù)最佳值的估計值;通過根據(jù)編碼參數(shù)量化表示源信號頻譜內(nèi)容的信息產(chǎn)生編碼的頻譜分量;以及將編碼的頻譜分量的表示匯編到輸出信號中。
通過參考以下的討論和附圖可以更好地理解本發(fā)明的各種特征及其優(yōu)選實施例。以下討論和附圖的內(nèi)容僅作為實例闡述并且不應該理解成表示對本發(fā)明范圍的限制。
圖1是用于可以包含本發(fā)明各個方面的編碼系統(tǒng)中的發(fā)送機的一種實現(xiàn)的示意方框圖。
圖2是一種導出編碼參數(shù)估計值的方法的處理流程圖。
圖3是計算的比特數(shù)量和編碼參數(shù)最佳值之間的關(guān)系的圖示。
圖4是可用于實現(xiàn)本發(fā)明各個方面的設備的示意方框圖。
具體實施例方式
A.引言本發(fā)明提供適于感知編碼系統(tǒng)所使用的比特分配過程的有效實現(xiàn)。這些比特分配過程可以包含在發(fā)送機中,該發(fā)送機包括提供編碼比特流諸如符合2001年8月20日出版的題為“Revision A to DigitalAudio Compression(AC-3)Standard”的高級電視制式委員會(ATSC)A/52A文件中描述的編碼比特流標準的編碼比特流的編碼器或代碼轉(zhuǎn)換器。以下將描述符合這種ATSC標準的編碼器的特定實現(xiàn);但是,本發(fā)明的各個方面可以包含在范圍廣泛的編碼系統(tǒng)所使用的設備中。
圖1例示了可以包含在符合上述ATSC標準的編碼系統(tǒng)中的具有感知編碼器的發(fā)送機。這種發(fā)送機應用分析濾波器組2給從通道1接收的源信號以產(chǎn)生表示源信號頻譜內(nèi)容的頻譜分量,在控制器4中分析頻譜分量以沿通道5產(chǎn)生編碼器控制信息,在編碼器6中通過應用響應于編碼器控制信息而適配的編碼處理給頻譜分量產(chǎn)生編碼的信息,并應用格式化器8給編碼的信息以產(chǎn)生適于沿通道9傳輸?shù)妮敵鲂盘?。該輸出信號可以立即傳送到配套接收機或被記錄在存儲媒體上用于以后傳送。
分析濾波器組2可以以多種方式實現(xiàn),包括無限脈沖響應(IIR)濾波器、有限脈沖響應(FIR)濾波器、格型濾波器和小波變換。在符合ATSC標準的優(yōu)選實現(xiàn)中,通過在Princen等人的“Subband/Transform Coding Using Filter Bank Designs Based onTime Domain Aliasing Cancellation”(Proc.of the 1987 InternationalConference on Acoustics,Speech and Signal Processing(ICASSP),1987年5月,第2161-64頁)中描述的改進離散余弦變換(MDCT)實現(xiàn)分析濾波器組2。
編碼器6可以基本上實現(xiàn)特定應用可能期望的任何編碼處理。在本公開中,類似“編碼器”和“編碼”的術(shù)語并不是要意味著除自適應比特分配和量化之外的任何特定類型的信息處理。通常在編碼系統(tǒng)中使用這種類型的處理以減小源信號的信息容量要求。在編碼器6中還可以執(zhí)行其他類型的處理諸如丟棄信號帶寬一部分的頻譜分量并在編碼信息中提供被丟棄部分的頻譜包絡的估計。
控制器4可以實現(xiàn)范圍廣泛的處理以產(chǎn)生編碼器控制信息。在優(yōu)選實現(xiàn)中,控制器4應用感知模型給頻譜分量以獲得表示源信號掩蔽效應估計的“掩蔽曲線”和導出與掩蔽曲線一起使用的一個或更多編碼參數(shù)來確定應該如何分配比特以量化頻譜分量。下面描述一些實例。
格式化器8可以使用多路復用或其他已知的處理產(chǎn)生適于特定應用的格式的輸出信號。
B.編碼器控制感知編碼系統(tǒng)中的典型控制器4應用感知模型給從分析濾波器組2接收的頻譜分量以獲得掩蔽曲線。這種掩蔽曲線估計源信號中頻譜分量的掩蔽效應。感知編碼系統(tǒng)中的發(fā)送機和接收機能夠通過在發(fā)送機中控制比特分配和頻譜分量的量化,以便量化噪聲電平保持正好低于掩蔽曲線,來傳送主觀的或感知的高質(zhì)量輸出信號。不幸的是,這種類型的編碼處理不能在符合多種編碼標準包括上述ATSC標準的編碼系統(tǒng)中使用,因為許多標準要求編碼的信號具有固定的或被約束在非常有限的比特率范圍內(nèi)變化的比特率。符合這些標準的編碼器通常使用迭代搜索編碼參數(shù),該參數(shù)能夠用于產(chǎn)生具有位于可接受界限內(nèi)的比特率的編碼信號。
1.優(yōu)選技術(shù)在用于符合ATSC標準的編碼的一種實現(xiàn)中,控制器4執(zhí)行這樣的迭代處理(1)應用感知模型給從分析濾波器組2接收的頻譜分量以獲得初始掩蔽曲線,(2)選擇表示初始掩蔽曲線和相同成形的試探掩蔽曲線之間電平差的偏移編碼參數(shù),(3)計算量化頻譜分量以便量化噪聲的電平被保持正好低于試探掩蔽曲線所需的比特數(shù)量,(4)比較計算的比特數(shù)量與可用于分配以量化的比特數(shù)量,(5)當計算的比特數(shù)量太大或太小時,分別調(diào)節(jié)偏移編碼參數(shù)的值以提高或降低試探掩蔽曲線,以及(6)迭代比特數(shù)量的計算,計算的比特數(shù)量與可用比特數(shù)量的比較,以及編碼參數(shù)的調(diào)節(jié)以找到使得計算的比特數(shù)量位于可接受范圍內(nèi)的偏移編碼參數(shù)的值。這種迭代使用已知為“二等分”或“對分搜索”的識別偏移編碼參數(shù)最佳值的數(shù)值方法。有關(guān)這種數(shù)值方法的其他細節(jié)可以從Press等人的“Numerical Recipes”,CambridgeUniversity Press,1986,第89-92頁而獲得。
本發(fā)明通過有效地導出一個或更多編碼參數(shù)的精確估計以減小控制器4執(zhí)行諸如上述迭代處理所需的計算資源。對于上述的特定處理,可以使用本發(fā)明提供偏移編碼參數(shù)的精確估計。這可以使用圖2所示的處理完成。根據(jù)該處理,步驟51選擇編碼參數(shù)的初始值pI來獲得試探掩蔽曲線。步驟52計算量化頻譜分量以便量化噪聲電平被保持正好低于試探掩蔽曲線所需的比特的數(shù)量b1。這種計算可以在概念上表示為b1=F(pI),這里函數(shù)F()表示用于響應于編碼參數(shù)計算比特數(shù)量的處理。步驟53通過計算比特的第一數(shù)量b1和比特的第三數(shù)量b3之差確定比特的第二數(shù)量b2,該第三數(shù)量b3對應于可用于分配以量化頻譜分量的比特數(shù)量。這種差可以在概念上表示為b2=(b1-b3),但是,應該明白,如果想要,這種概念表示中的任何或全部值可以通過適當?shù)囊蜃佣恕2襟E55根據(jù)比特的第二數(shù)量b2導出偏移編碼參數(shù)最佳值的精確估計pE。這可以在概念上表示為pE=E(b2),其中函數(shù)E()表示用于響應于比特的第二數(shù)量估計最佳值的處理。
本發(fā)明人已經(jīng)發(fā)現(xiàn)函數(shù)E()的表達式能夠根據(jù)經(jīng)驗導出。下面描述這種函數(shù)的一種表達式,它被導出用于產(chǎn)生符合ATSC標準的編碼信息的編碼器的特定實現(xiàn)。在這種實現(xiàn)中,以48KHz采樣源信號的五個信道中的每個信道。每個信道具有大約20.3KHz的帶寬。完全編碼比特流的比特率是固定的并且等于448千比特/秒。每個信道的頻譜分量通過上述MDCT濾波器組產(chǎn)生,該濾波器組被應用于相互重疊256個采樣的512個源信號采樣的分段以獲得256個MDCT系數(shù)塊。用于每個信道的系數(shù)的六個塊匯編成一幀。每個塊中的頻譜分量以包括與指數(shù)值定標因子或指數(shù)相關(guān)的定標值的格式表示。如在上述ATSCA/52A文件中說明的,可以將一個或更多定標值與公共指數(shù)相關(guān)。比特的數(shù)量b3表示可用于量化一幀中的定標值的比特數(shù)量。已知為耦合的編碼技術(shù)被禁止用于這種特定的實現(xiàn),該編碼技術(shù)中組合多個信道的頻譜分量形成復合頻譜表示。通過函數(shù)E()估計的特定編碼參數(shù)規(guī)定初始掩蔽曲線和如上簡述的試探掩蔽曲線之間的偏移。其他細節(jié)可以從ATSC A/52A文件獲得。
圖3的圖表示出差值b2和用于頻譜分量幀的偏移編碼參數(shù)的最佳值pO之間的經(jīng)驗導出關(guān)系,所述頻譜分量表示多種源信號的頻譜內(nèi)容。該偏移的值相對于初始掩蔽曲線的電平以dB表示,其中6.02dB(20log2)近似對應于由在頻譜分量的分配中一個比特變化而引起的量化噪聲電平的變化。通過確定用于一幀中每個塊的初始掩蔽門限,對于每個塊選擇初始偏移值pI等于-1.875dB,對于該偏移計算量化該幀中頻譜分量定標值所需比特的數(shù)量b1,以及根據(jù)計算的比特的數(shù)量b1和可用于表示量化頻譜分量定標值的比特的數(shù)量b3之差計算“剩余比特”的數(shù)量b2而獲得該圖表。使用上述迭代對分搜索處理為幀中的所有塊確定偏移編碼參數(shù)的最佳值pO。圖3所示圖表中的每個點表示計算的差值b2和隨后為相應幀確定的偏移編碼參數(shù)的最佳值pO。相對于在x軸上剩余比特的數(shù)量b2沿y軸表示用于偏移編碼參數(shù)的最佳值pO。盡管經(jīng)驗結(jié)果指示偏移編碼參數(shù)的初始值pI的選擇確實影響估計最佳值pE的精確性,這些結(jié)果還指示這種影響小并且估計值中的誤差對于初始值pI的選擇相對不敏感。通過使用估計值pE作為用于上述對分搜索處理的開始偏移,經(jīng)驗測試已經(jīng)顯示迭代檢索在僅5次迭代之后對于大約99%的幀能夠會聚于編碼參數(shù)的最佳值pO,這是選擇這種參數(shù)開始值的傳統(tǒng)方法所使用的迭代數(shù)量的一半。
圖3的圖表中所示的點沿線緊密地群集,這指示偏移編碼參數(shù)的最佳值pO的精確估計pE可以根據(jù)通過擬合一條線到這些點導出的線性函數(shù)E(b2)而獲得。圖表中所示群集的形狀指示對于差值b2的大正值,所述估計值pE的變化增加。變化的這種增加意味著估計的精確性較不確定但是這種不確定性在實際實現(xiàn)中并不重要,因為b2的大正值指示可用于量化頻譜分量的比特的顯著過剩。在這種情況下,找到編碼參數(shù)的最佳值不是如此的重要,因為最佳值的合理估計有可能導致掩蔽所有量化噪聲。
函數(shù)E(b2)能夠從一條擬合到點的線或曲線導出,優(yōu)選強調(diào)最小化對于b2的負值和小正值的擬合誤差。能夠通過線性方程pE=E(b2)=1.196·b2-1.915以合理的精度近似圖3的圖表中所示的特定關(guān)系。
2.替換技術(shù)上述的優(yōu)選技術(shù)使用偏移編碼參數(shù)的估計最佳值pE作為對分搜索這種參數(shù)的真實最佳值pO的開始值。通過搜索找到的最佳偏移值pO和初始掩蔽曲線共同地規(guī)定最終的掩蔽曲線,該曲線用于計算用于一幀中所有頻譜分量的量化的比特分配。
在一種替換技術(shù)中,連同初始掩蔽曲線使用估計最佳值pE來計算用于一幀中至少部分但不是全部塊中的頻譜分量的比特分配,以及連同初始掩蔽曲線使用最佳值pO計算用于一幀中剩余塊的比特分配。
在這種替換技術(shù)的一個實例中,使用估計值pE計算用于一幀中每個信道的五個塊中的頻譜分量的比特分配。在這種分配之后,使用通過迭代確定的最佳值pO,在每個信道的剩余一個塊中的頻譜分量之間分配剩余比特。優(yōu)選地,所述迭代使用如上述估計的開始值。這種技術(shù)的一個實例可以通過執(zhí)行以下步驟實現(xiàn)(1)選擇偏移編碼參數(shù)的初始值pI(2)計算初始比特分配b1=F(pI)(3)計算剩余比特的數(shù)量b2=b3-b1(4)估計編碼參數(shù)的最佳值pE=E(b2)(5)計算比特分配b4=F(pE)(6)使用偏移pE和分配b4對每個信道量化五個塊(7)計算剩余比特的數(shù)量b5=b3-b4(8)使用pE作為開始值迭代確定用于剩余塊的最佳值pO(9)使用偏移pO和分配b5對每個信道量化剩余塊。
在另一個實例中,使用估計值pE計算用于一幀中部分信道的所有塊中頻譜分量的比特分配,以及使用通過迭代確定的最佳值pO來計算用于該幀中其他信道的至少一個塊中的頻譜分量的比特分配。可以以多種方式使用偏移編碼參數(shù)的估計值和最佳值,以計算用于頻譜分量的相應塊的比特分配。優(yōu)選地,確定最佳值pO的迭代對分搜索處理如上所述使用估計值pE作為其開始值。
C.實現(xiàn)包含本發(fā)明各個方面的設備可以以多種方式實現(xiàn),包括計算機或某些其他設備執(zhí)行的軟件,這些其它設備包括更專用組件諸如耦合到類似于通用計算機中可找到的那些組件的組件的數(shù)字信號處理器(DSP)電路。圖4是可用于實現(xiàn)本發(fā)明各個方面的設備70的示意方框圖。DSP 72提供計算資源。RAM 73是DSP 72使用的用于信號處理的系統(tǒng)隨機存取存儲器(RAM)。ROM 74表示某種形式的永久存儲器諸如存儲操作設備70和執(zhí)行本發(fā)明各個方面所需的程序的只讀存儲器(ROM)。I/O控制器75表示通過通信信道76、77接收和發(fā)送信號的接口電路。模數(shù)轉(zhuǎn)換器和數(shù)模轉(zhuǎn)換器可以根據(jù)需要包括在I/O控制器75中以接收和/或發(fā)送模擬信號。在所示的實施例中,所有主要系統(tǒng)組件連接到總線71,它可以表示不止一條物理總線;但是,不需要總線體系結(jié)構(gòu)來實現(xiàn)本發(fā)明。
在通用計算機系統(tǒng)中實現(xiàn)的實施例中,可以包括其他組件用于對接設備諸如鍵盤或鼠標以及顯示器,并用于控制具有存儲媒體諸如磁帶或磁盤、或光媒體的存儲器設備。所述存儲媒體可用來記錄用于操作系統(tǒng)的指令的程序、實用和應用程序,并且可以包括實現(xiàn)本發(fā)明各個方面的程序的實施例。
實踐本發(fā)明各個方面所需的功能能夠通過以范圍廣泛的方式實現(xiàn)的組件執(zhí)行,包括分立的邏輯組件、集成電路、一個或更多ASIC和/或受程序控制的處理器。實現(xiàn)這些組件的方式對于本發(fā)明來說并不重要。
本發(fā)明的軟件實現(xiàn)可以在整個頻譜包括從超聲到紫外頻率通過多種機器可讀媒體諸如基帶或調(diào)制的通信通道,或使用基本上任何記錄技術(shù)傳送信息的存儲媒體包括磁帶、卡或磁盤、光卡或光盤、在如紙的媒體上可檢測的標記傳送。
權(quán)利要求
1.一種編碼音頻信號的方法,包括接收表示音頻信號的頻譜內(nèi)容的頻譜分量;應用感知模型于所述頻譜分量以獲得表示音頻信號的感知掩蔽效應的第一掩蔽曲線;導出規(guī)定第二掩蔽曲線和第一掩蔽曲線之間的偏移的編碼參數(shù)的估計值,其中響應于可用于編碼所述音頻信號的比特數(shù)量導出編碼參數(shù)的估計值;通過在根據(jù)感知模型搜索編碼參數(shù)的最佳值的迭代處理中修改編碼參數(shù)的估計值,獲得編碼參數(shù)的最佳值;通過根據(jù)第二掩蔽曲線量化頻譜分量,產(chǎn)生編碼的頻譜分量,其中該量化的分辨率響應于第一掩蔽曲線和編碼參數(shù),使得編碼參數(shù)的最佳值根據(jù)感知模型最小化量化噪聲的可感知度;以及將編碼的頻譜分量的表示匯編到輸出信號中。
2.根據(jù)權(quán)利要求1所述的方法,其中導出編碼參數(shù)的估計值包括選擇用于編碼參數(shù)的初始值;響應于編碼參數(shù)的初始值確定比特的第一數(shù)量以用于量化頻譜分量;根據(jù)比特的第一數(shù)量和比特的第三數(shù)量之差確定比特的第二數(shù)量,其中比特的第三數(shù)量對應于可用于編碼音頻信號的比特數(shù)量;和響應于編碼參數(shù)的初始值和比特的第二數(shù)量導出編碼參數(shù)的估計值。
3.根據(jù)權(quán)利要求1所述的方法,其中在多個塊中安排頻譜分量,該多個塊被安排在塊的幀中,以及其中通過根據(jù)編碼參數(shù)的估計值量化該幀中頻譜分量的至少一些但不是全部塊,產(chǎn)生編碼的頻譜分量。
4.一種編碼音頻信號的方法,包括接收表示音頻信號的頻譜內(nèi)容的頻譜分量;導出編碼參數(shù)的估計值,其中該估計值是編碼參數(shù)最佳值的估計并通過以下步驟導出選擇用于該編碼參數(shù)的初始值;響應于編碼參數(shù)的該初始值確定比特的第一數(shù)量;根據(jù)比特的第一數(shù)量和比特的第三數(shù)量之差確定比特的第二數(shù)量,比特的第三數(shù)量對應于可用于編碼音頻信號的比特數(shù)量;和響應于編碼參數(shù)的初始值和比特的第二數(shù)量導出編碼參數(shù)的估計值;通過根據(jù)編碼參數(shù)量化頻譜分量,產(chǎn)生編碼的頻譜分量,其中該量化的分辨率響應于編碼參數(shù),使得該編碼參數(shù)的最佳值根據(jù)感知模型最小化量化噪聲的可感知度;以及將編碼的頻譜分量的表示匯編到輸出信號中。
5.根據(jù)權(quán)利要求4所述的方法,其中在塊中安排所述頻譜分量,并且該方法通過根據(jù)編碼參數(shù)的估計值量化頻譜分量的一些塊以及通過根據(jù)編碼參數(shù)的最佳值量化頻譜分量的其他塊,產(chǎn)生編碼的頻譜分量,其中通過執(zhí)行根據(jù)感知模型搜索編碼參數(shù)的最佳值的迭代處理,獲得編碼參數(shù)的最佳值。
6.根據(jù)權(quán)利要求5所述的方法,其中所述迭代處理以等于編碼參數(shù)估計值的初始值開始搜索編碼處理的最佳值。
7.一種傳送設備可執(zhí)行以實現(xiàn)用于編碼音頻信號方法的指令的程序的媒體,其中所述方法包括接收表示音頻信號頻譜內(nèi)容的頻譜分量;應用感知模型給所述頻譜分量以獲得表示音頻信號感知掩蔽效應的第一掩蔽曲線;導出規(guī)定第二掩蔽曲線和第一掩蔽曲線之間偏移的編碼參數(shù)的估計值,其中響應于可用于編碼所述音頻信號的比特數(shù)量導出編碼參數(shù)的估計值;通過在根據(jù)感知模型搜索編碼參數(shù)的最佳值的迭代處理中修改編碼參數(shù)的估計值獲得編碼參數(shù)的最佳值;通過根據(jù)第二掩蔽曲線量化頻譜分量以產(chǎn)生編碼的頻譜分量,其中量化分辨率響應于第一掩蔽曲線和編碼參數(shù)以便編碼參數(shù)的最佳值根據(jù)感知模型最小化量化噪聲的可感知度;以及將編碼的頻譜分量的表示匯編到輸出信號中。
8.根據(jù)權(quán)利要求7所述的媒體,其中導出編碼參數(shù)的估計值包括選擇用于編碼參數(shù)的初始值;響應于編碼參數(shù)的初始值確定比特的第一數(shù)量以用于量化頻譜分量;根據(jù)比特的第一數(shù)量和比特的第三數(shù)量之差確定比特的第二數(shù)量,其中比特的第三數(shù)量對應于可用于編碼音頻信號的比特數(shù)量;和響應于編碼參數(shù)的初始值和比特的第二數(shù)量導出編碼參數(shù)的估計值。
9.根據(jù)權(quán)利要求7所述的媒體,其中在多個塊中安排頻譜分量,該多個塊被安排在塊的幀中,其中通過根據(jù)編碼參數(shù)的估計值量化該幀中頻譜分量的至少部分但不是全部塊產(chǎn)生編碼的頻譜分量。
10.一種傳送設備可執(zhí)行以實現(xiàn)用于編碼音頻信號方法的指令的程序的媒體,其中所述方法包括接收表示音頻信號頻譜內(nèi)容的頻譜分量;導出編碼參數(shù)的估計值,其中該估計值是編碼參數(shù)最佳值的估計并通過以下步驟導出選擇用于該編碼參數(shù)的初始值;響應于編碼參數(shù)的該初始值確定比特的第一數(shù)量;根據(jù)比特的第一數(shù)量和比特的第三數(shù)量之差確定比特的第二數(shù)量,比特的第三數(shù)量對應于可用于編碼音頻信號的比特數(shù)量;和響應于編碼參數(shù)的初始值和比特的第二數(shù)量導出編碼參數(shù)的估計值;通過根據(jù)編碼參數(shù)量化頻譜分量以產(chǎn)生編碼的頻譜分量,其中量化分辨率響應于編碼參數(shù)以便該編碼參數(shù)的最佳值根據(jù)感知模型最小化量化噪聲的可感知度;以及將編碼的頻譜分量的表示匯編到輸出信號中。
11.根據(jù)權(quán)利要求10所述的媒體,其中在塊中安排所述頻譜分量,并且該方法通過根據(jù)編碼參數(shù)的估計值量化頻譜分量的部分塊以及通過根據(jù)編碼參數(shù)的最佳值量化頻譜分量的其他塊產(chǎn)生編碼的頻譜分量,其中通過執(zhí)行根據(jù)感知模型搜索編碼參數(shù)最佳值的迭代處理,獲得編碼參數(shù)的最佳值。
12.根據(jù)權(quán)利要求11所述的媒體,其中所述迭代處理以等于編碼參數(shù)估計值的初始值開始搜索編碼處理的最佳值。
13.一種用于編碼音頻信號的設備,包括(a)輸入端;(b)輸出端;和(c)耦合至輸入端和輸出端的信號處理電路,其中該信號處理電路適于從輸入端接收信號并根據(jù)該信號獲得表示音頻信號的頻譜內(nèi)容的頻譜分量;應用感知模型于所述頻譜分量以獲得表示音頻信號的感知掩蔽效應的第一掩蔽曲線;導出規(guī)定第二掩蔽曲線和第一掩蔽曲線之間的偏移的編碼參數(shù)的估計值,其中響應于可用于編碼所述音頻信號的比特數(shù)量導出編碼參數(shù)的估計值;通過在根據(jù)感知模型搜索編碼參數(shù)的最佳值的迭代處理中修改編碼參數(shù)的估計值,獲得編碼參數(shù)的最佳值;通過根據(jù)第二掩蔽曲線量化頻譜分量,產(chǎn)生編碼的頻譜分量,其中該量化的分辨率響應于第一掩蔽曲線和編碼參數(shù),使得編碼參數(shù)的最佳值根據(jù)感知模型最小化量化噪聲的可感知度;以及將編碼的頻譜分量的表示匯編到發(fā)送給輸出端的輸出信號中。
14.根據(jù)權(quán)利要求13所述的設備,其中導出編碼參數(shù)的估計值包括選擇用于編碼參數(shù)的初始值;響應于編碼參數(shù)的初始值確定比特的第一數(shù)量以用于量化頻譜分量;根據(jù)比特的第一數(shù)量和比特的第三數(shù)量之差確定比特的第二數(shù)量,其中比特的第三數(shù)量對應于可用于編碼音頻信號的比特數(shù)量;和響應于編碼參數(shù)的初始值和比特的第二數(shù)量導出編碼參數(shù)的估計值。
15.根據(jù)權(quán)利要求13所述的設備,其中在多個塊中安排頻譜分量,該多個塊被安排在塊的幀中,其中通過根據(jù)編碼參數(shù)的估計值量化該幀中頻譜分量的至少一些但不是全部塊,產(chǎn)生編碼的頻譜分量。
16.一種用于編碼音頻信號的設備,包括(a)輸入端;(b)輸出端;和(c)耦合至輸入端和輸出端的信號處理電路,其中該信號處理電路適于從輸入端接收信號并根據(jù)該信號獲得表示音頻信號的頻譜內(nèi)容的頻譜分量;導出編碼參數(shù)的估計值,其中該估計值是編碼參數(shù)最佳值的估計并通過以下步驟導出選擇用于該編碼參數(shù)的初始值;響應于編碼參數(shù)的該初始值確定比特的第一數(shù)量;根據(jù)比特的第一數(shù)量和比特的第三數(shù)量之差確定比特的第二數(shù)量,比特的第三數(shù)量對應于可用于編碼音頻信號的比特數(shù)量;和響應于編碼參數(shù)的初始值和比特的第二數(shù)量導出編碼參數(shù)的估計值;通過根據(jù)編碼參數(shù)量化頻譜分量,產(chǎn)生編碼的頻譜分量,其中該量化的分辨率響應于編碼參數(shù),使得該編碼參數(shù)的最佳值根據(jù)感知模型最小化量化噪聲的可感知度;以及將編碼的頻譜分量的表示匯編到輸出信號中。
17.根據(jù)權(quán)利要求16所述的設備,其中在塊中安排所述頻譜分量,并且該方法通過根據(jù)編碼參數(shù)的估計值量化頻譜分量的一些塊以及通過根據(jù)編碼參數(shù)的最佳值量化頻譜分量的其他塊,產(chǎn)生編碼的頻譜分量,其中通過執(zhí)行根據(jù)感知模型搜索編碼參數(shù)的最佳值的迭代處理,獲得編碼參數(shù)的最佳值。
18.根據(jù)權(quán)利要求17所述的設備,其中所述迭代處理以等于編碼參數(shù)估計值的初始值開始搜索編碼處理的最佳值。
全文摘要
通過獲得在比特分配處理中使用的一個或更多編碼參數(shù)的最佳值的精確估計,更加有效地執(zhí)行在感知編碼系統(tǒng)中分配用于量化頻譜分量的比特的處理。在感知音頻編碼系統(tǒng)的一種實現(xiàn)中,通過選擇用于編碼的偏移的初始值,根據(jù)這種計算的數(shù)量和實際可用于分配的比特數(shù)量之差估計偏移的最佳值,導出相對于計算的心理聲學掩蔽曲線的偏移的精確估計。
文檔編號G10L19/02GK1942930SQ200580011796
公開日2007年4月4日 申請日期2005年3月18日 優(yōu)先權(quán)日2004年4月20日
發(fā)明者斯蒂芬·D.·弗農(nóng), 查爾斯·Q.·魯賓遜, 羅伯特·L.·安德森 申請人:杜比實驗室特許公司