專利名稱:使用自適應掩蔽閾值的立體聲感知音頻編碼的系統(tǒng)和方法
技術領域:
本公開一般涉及音頻壓縮,更具體地,涉及使用自適應掩蔽閾值的低功率立體聲感知音頻編碼的系統(tǒng)和方法。
背景技術:
數(shù)字音頻傳輸通常需要相當多的存儲空間和帶寬。為實現(xiàn)有效率的傳輸,通常采用了信號壓縮。有效率的編碼系統(tǒng)能以優(yōu)化的方式消除音頻流中的不相關部分和冗余部分。可通過心理聲學分析減少心理聲學方面的無關性來實現(xiàn)上述第一個目標?!案兄纛l編碼器”涉及那些利用人類聽覺感知特性的壓縮方案。
圖1示出了感知編碼器100的基本結構。感知編碼器100包括濾波器組110、量化單元120和心理聲學模塊130。心理聲學模塊130可包括頻譜分析部分132和掩蔽閾值計算部分134。在更先進的編碼器中,在量化單元120之前進行額外的頻譜處理。該頻譜處理模塊用于減少冗余成分,它主要包括一些預測工具。這些結構單元導致了各種感知音頻編碼器之間的差異。量化單元120可以向熵編碼單元140提供數(shù)據(jù)。
濾波器組110負責時-頻變換。由于編碼利用了人耳的掩蔽特性,而該特性是在頻域中計算出的,因而需要變換到頻域。窗口大小和變換規(guī)模分別決定了時間分辨率和頻率分辨率。大多數(shù)編碼器可通過切換到更精細的時間分辨率來適應快速變化的信號。這種模塊切換策略對避免前回聲假象是至關重要的,前回聲假象是指量化噪聲在整個窗口大小中的擴散。
較早的編碼器(如MPEG層1和層2編碼器)用子帶濾波器作為它們的變換引擎。MPEG層3則使用混合濾波器,該濾波器是對使用修正離散余弦變換(MDCT)的子帶濾波器的改進。先進音頻編碼器(AAC)拋棄了對較早的編碼器的向后兼容性,而僅使用MDCT。在杜比AC3中也使用了類似的變換。MDCT的優(yōu)勢在于它的時域混疊取消(TDAC)概念,這種概念消除了塊效應。
心理聲學模塊130確定了掩蔽閾值,需要用該閾值來判斷信號的哪一部分對感知重要和哪一部分是不相關的。所得的掩蔽閾值也可用于對量化噪聲進行整形,以使得人耳不會因該量化過程的緣故而感知到聲音信號的變差。本領域技術人員已知心理聲學建模的細節(jié),而且,為理解以下公開的實施例,不必知曉這些細節(jié)。
位分配和量化模塊是典型感知音頻編碼器中的最重要的模塊。非均勻量化器用于減少數(shù)據(jù)的動態(tài)范圍,且調(diào)整了用于確定步長的兩個量化系數(shù),使得量化噪聲低于掩蔽閾值,且所用位數(shù)低于可用的位速率。通常將這兩種情形稱為失真控制環(huán)和速率控制環(huán)。在量化中,更先進的編碼器(如MPEG層3和AAC)引入無噪聲編碼來減少冗余,以提高壓縮比。
由于存在心理聲學模塊和位分配-量化,因而編碼器遠比解碼器復雜。盡管音頻編碼明確到足以保證解碼器能正確地解碼有效數(shù)據(jù)流,但它們同時也足夠靈活,以根據(jù)不同的資源可用性和應用領域來改變實施方式。
發(fā)明內(nèi)容
根據(jù)各種公開實施例,提供了一種對輸入信號進行立體聲音頻感知編碼的方法。該方法包括掩蔽閾值估計和位分配,其中,每兩個編碼過程才進行掩蔽閾值估計和位分配。
根據(jù)其他公開實施例,提供了一種對輸入信號進行立體聲音頻感知編碼的方法。該方法包括進行時-頻變換、進行量化、進行位流格式化以生成輸出流,和進行心理聲學分析。心理聲學分析包括對輸入信號的每兩個連續(xù)幀的第一個幀進行的掩蔽閾值估計。
從以下的附圖、描述和權利要求中,本領域技術人員很容易了解本發(fā)明的其他技術特征。
為更全面地理解本公開和其特征,現(xiàn)在參考以下描述和附圖,其中圖1示出了感知編碼器的基本框架;圖2示出了掩蔽閾值的計算過程;圖3示出了立體聲感知編碼過程;圖4示出了根據(jù)本公開的編碼過程;圖5示出了根據(jù)本公開的另一編碼過程;圖6示出了根據(jù)本公開的窗口切換狀態(tài)圖;圖7示出了根據(jù)本公開的、總結了用于所有七種塊組合類型的策略的表;圖8示出了可以由根據(jù)本公開的合適處理系統(tǒng)執(zhí)行的編碼過程。
具體實施例方式
圖1至圖8和本公開中描述的各種實施例僅用于說明目的,不能將它們視為對本發(fā)明范圍的限制。本領域技術人員將認識到,可修改本發(fā)明所述的各種實施例,但這些修改落在本發(fā)明的范圍內(nèi)。
本文使用的短語“感知音頻編碼器”是指利用人類聽覺感知特性的音頻壓縮方案。各種實施例包括用于將量化噪聲配置在掩蔽閾值以下來使人耳不能感知這類噪聲的技術。這類處理可能需要進行相當多的計算,特別是由于心理聲學分析和位分配-量化過程的緣故,需要進行很多計算。本文公開的技術包括根據(jù)信號特性自適應地重復使用計算的掩蔽閾值來簡化心理聲學建模過程的方法。也公開了一種填補頻譜孔(spectral hole)的方法,在重復使用量化參數(shù)時,可能會出現(xiàn)頻譜孔??梢詫⒏鱾€實施例應用于要求較低計算復雜度的一般立體聲感知音頻編碼器。通過利用穩(wěn)態(tài)的信號特性,各個實施例提供了立體聲感知音頻編碼器的替代性的低功率實施方式,使得可以在各幀或各聲道中重復使用所得的掩蔽閾值。
高質(zhì)量的感知編碼器具有用于計算掩蔽閾值的完備的心理聲學模型(PAM),其中,掩蔽閾值指明了允許的失真。圖2示出了可以由本領域技術人員已知的合適處理系統(tǒng)執(zhí)行的、用于計算掩蔽閾值的過程。在步驟202中,系統(tǒng)執(zhí)行時-頻變換。在步驟204中,系統(tǒng)計算1/3Bark域中的能量。在步驟206中,系統(tǒng)用擴散函數(shù)進行卷積。在步驟208中,系統(tǒng)計算音調(diào)索引。在步驟210中,系統(tǒng)調(diào)整掩蔽閾值。在步驟212中,系統(tǒng)進行與安靜狀態(tài)時的閾值的比較。在步驟214中,系統(tǒng)進行對比例因子頻帶域的適應。
計算量最大的兩個過程是時-頻變換202和使用擴散函數(shù)的卷積206。已提議將來自編碼器變換引擎(encoder transform engine)的結果用于心理聲學分析,并使用簡單的三角擴散函數(shù)來降低復雜度。然而,仍然對各個聲道的每個幀執(zhí)行這種分析。
在典型的分析過程中,位分配-量化模塊中的計算量排第二,因為編碼器必須進行嵌套的迭代計算來得到同時滿足失真標準和位速率標準的一組參數(shù)。甚至在為減少速率控制回路的復雜度付出巨大努力后,仍然在每一聲道的每一幀中進行這種過程。
例如,音樂是一種準穩(wěn)態(tài)信號。當處于穩(wěn)態(tài)時,隨著時間的流逝,信號特性不會發(fā)生大的變化。這意味著它們的心理聲學特性也不會發(fā)生大的變化。在穩(wěn)態(tài)階段中,表示可容忍的量化噪聲值的掩蔽閾值也保持相對穩(wěn)定。因此,比例因子值(即失真控制變量)也保持相對穩(wěn)定。
信號在各幀之間的緩慢和逐漸的變化使得可通過對這些值執(zhí)行預測技術來實現(xiàn)進一步壓縮。但是,在信號的暫態(tài)部分,這些假設不再成立??焖僮兓男盘栆簿哂懈鼮閯討B(tài)的頻譜特性。在此期間,編碼器切換到短塊編碼,其數(shù)目是短塊比例因子集的數(shù)目的三倍(對44.1kHz的采樣速率為3×12)。
本公開的各個實施例包括當信號相對穩(wěn)定時,為相鄰幀重復使用掩蔽閾值。使用這種方法,(對于兩個聲道)每兩個幀才進行一次代價高昂的掩蔽閾值估計。然而,如上所述,當用于暫態(tài)信號時,這種方案可能不理想。在這種情況下,編碼器切換到在各聲道中重復使用掩蔽閾值,對每一幀而言,由于僅為一個聲道計算了掩蔽閾值,因而節(jié)省了相同的計算量。
根據(jù)各個實施例,可以對各種因素進行優(yōu)化。一個因素是編碼器區(qū)分暫態(tài)信號與穩(wěn)態(tài)信號的方式。另一因素是,當重復使用掩蔽閾值時出現(xiàn)的潛在頻譜孔。
圖3示出了立體聲感知編碼的過程。為簡明起見,此處假設心理聲學分析使用與時-頻變換相同的濾波器組。在這種結構中,對每個聲道的每個幀進行心理聲學分析。類似的,以相同方式進行位分配。下一個幀的處理過程與圖3中所示的過程相同。
在圖3中,在左聲道和右聲道上接收了立體聲形式的脈沖代碼調(diào)制(PCM)的音頻輸入數(shù)據(jù)。系統(tǒng)使用時-頻變換312/314對各聲道數(shù)據(jù)進行處理。隨后,系統(tǒng)對各聲道數(shù)據(jù)進行心理聲學分析322/324,這生成了聲道間位分布330。
然后,系統(tǒng)對各個聲道數(shù)據(jù)進行位分配342/344。系統(tǒng)使用330處生成的位分布對各聲道數(shù)據(jù)進行量化352/354。將量化后的聲道數(shù)據(jù)饋入位流格式化器360,這生成了輸出流。
圖4示出了一種根據(jù)本公開的編碼過程,當將相同的掩蔽閾值用于下一個幀時,可以使用該編碼過程。圖4也示出了對兩個連續(xù)幀的處理(如圖中的幀0和幀1),如本文所述,可以將該處理過程應用于任何兩個連續(xù)幀。
對幀0而言,在左聲道和右聲道上接收了立體聲形式的PCM音頻輸入數(shù)據(jù)。系統(tǒng)使用時-頻變換412/414對各聲道數(shù)據(jù)進行處理。隨后,系統(tǒng)對各個聲道數(shù)據(jù)進行心理聲學分析422/424(包括掩蔽閾值估計),并計算聲道間的位分布信息430。在考慮從心理聲學分析得出的信號特性的情況下,聲道間的位分布模塊評估應當將多少個位分給各個聲道。
隨后,系統(tǒng)對各個聲道數(shù)據(jù)進行位分配442/444。系統(tǒng)使用430處生成的位分布對各個聲道數(shù)據(jù)進行量化452/454。將量化后的聲道數(shù)據(jù)饋入位流格式化器460,這生成了輸出流。
對幀1(隨后的幀)而言,在左聲道和右聲道中接收了立體聲形式的PCM音頻輸入數(shù)據(jù)。與412/414類似,系統(tǒng)使用時-頻變換416/418對各聲道信號進行處理。由于假設掩蔽閾值是相同的,因而未對第二幀中進行心理聲學分析。因為在幀1中復制了失真控制參數(shù)(比例因子)(加入了“頻譜孔填補”模塊472/474),因而無需在幀1中重復位分配過程。
由于在下一個幀中未進行聲道間的位分配,且由于假設信號是穩(wěn)態(tài)的,因而也重復使用了聲道間的位分布信息,且重復使用的聲道間位分布430在圖中顯示為虛線部分432。在量化過程中,可以用該信息找到速率控制變量(全局比例因子)。在本文中,將該方法稱為“跨幀”策略。因此,在該處理過程中,每進行兩個編碼過程才進行掩蔽閾值估計和位分配。系統(tǒng)使用430處生成的聲道間位分布(圖中用432表示該復制部分)對各聲道數(shù)據(jù)進行量化456/458。將量化后的聲道數(shù)據(jù)送入位流格式化器(462),這生成了輸出流。
在各實施例中,可以對通用控制器和處理器進行編程來使它們執(zhí)行本文所述的處理過程,或者,可以將專門的硬件模塊用于各過程中的一部過程或所有過程。在對幀0和幀1執(zhí)行類似步驟的情況下,相同物理模塊也可以對后續(xù)的幀執(zhí)行類似過程。例如,當連續(xù)地處理兩個幀時,可通過同一量化模塊來進行量化452和量化456。
圖5示出了根據(jù)本公開的另一個編碼過程。如圖5所示,當信號特性變?yōu)闀簯B(tài)時,根據(jù)各公開實施例的編碼器可切換到在各聲道中重復使用掩蔽閾值。與上述過程類似,未進行心理聲學分析和位分配。在復制量化系數(shù)之前,也進行了“頻譜孔填補”。這些處理過程之間的一個區(qū)別在于聲道間的位分布。在這種情況下,由于僅具有一個聲道的心理聲學信息,因而假設兩個聲道需要相同數(shù)目的位。因此,將該幀的預算位數(shù)平均分配到兩個聲道中。該方法稱為“跨聲道”(cross-channel)策略。
在圖5中,在左聲道和右聲道中接收了立體聲形式的PCM音頻輸入數(shù)據(jù)。系統(tǒng)用時-頻變換512/514對各聲道數(shù)據(jù)進行處理。隨后,系統(tǒng)對一個聲道的數(shù)據(jù)進行心理聲學分析522(包括掩蔽閾值估計)。盡管圖中示出使用的是左聲道,但也可對右聲道進行上述過程。在考慮從心理聲學分析得出的信號特性的情況下,聲道間位分布模塊評估應將多少個位分配給各個聲道。
隨后,系統(tǒng)對一個聲道進行位分配542。圖中示出涉及的是左聲道,也可以對右聲道進行上述過程。使用位分配的結果,進行了頻譜孔填補574。系統(tǒng)對各個聲道數(shù)據(jù)進行量化552/554。將量化后的聲道數(shù)據(jù)送入位流格式化器560,這生成了輸出流。
各公開處理過程的一個難點在于確定信號中的暫態(tài)部分來相應地應用對應的策略。幸運的是,大多數(shù)(如果不是全部)編碼器均配有暫態(tài)檢測模塊,以作出關于塊切換的決定來避免如上所述的前回聲假象。各公開實施例利用該結果來在跨幀策略與跨聲道策略之間進行選擇。
當檢測到暫態(tài)情形時,編碼器切換到較短的窗口長度。然而,在使用短窗口之前,可以應用開始窗口。在返回長窗口后,可以使用停止窗口。在某些編碼器中,這些窗口類型的一個主要區(qū)別是一個幀的暫態(tài)階段內(nèi)所用的連續(xù)短窗口數(shù)目。例如,MP3使用三個連續(xù)短窗口,AAC使用八個短窗口,而杜比AC3使用兩個短窗口。
圖6示出了根據(jù)本公開的窗口切換狀態(tài)圖。箭頭的數(shù)目表示可能使用的連續(xù)窗口類型對的數(shù)目。每種可能性均可以對應于最合適的方案。在各種實施例中,如圖7所示和以下所說明的,存在七種在連續(xù)幀中使用的可能窗口類型。
在圖6中,開始窗口620總是過渡到短窗口640。經(jīng)過暫態(tài)過程后,短窗口640仍然保持為短窗口640。不經(jīng)過暫態(tài)過程,短窗口640轉(zhuǎn)變?yōu)橥V勾翱?30。經(jīng)過暫態(tài)過程后,停止窗口630轉(zhuǎn)變?yōu)殚_始窗口620。不經(jīng)過暫態(tài)過程,停止窗口630轉(zhuǎn)變?yōu)殚L窗口610。經(jīng)過暫態(tài)過程后,長窗口610轉(zhuǎn)變?yōu)殚_始窗口620。不經(jīng)過暫態(tài)過程,長窗口610仍然保持為長窗口610。
通常用長窗口處理穩(wěn)態(tài)信號。任何其他類型的窗口一般都意味著暫態(tài)信號的存在。因此,僅應使用跨幀策略對長-長窗口組合進行處理。然而,策略是在第一個幀的處理過程中確定的。除非緩存了一個幀,否則不能檢測到第二個幀中的暫態(tài)情形。由于這個原因,不可避免地將跨幀策略用于長窗口-開始窗口組合。
圖7示出了總結用于根據(jù)本公開的所有七種塊類型組合的策略的表。對于幀0和幀1的各種窗口組合,均指明了適當?shù)目鐜蚩缏暤啦呗浴?br>
如上所述,另一個需要考慮的因素是潛在的頻譜孔問題(包括頻譜線的突然消失,這引起了通常稱為尖叫聲的惱人的假象)。在各個實施例中,當頻帶能量低于掩蔽閾值,可以將該頻帶的比例因子設置為零,以表示不需要對該頻帶的頻譜線進行編碼。當該值被重復使用時(特別是當目標頻帶的能量高于掩蔽閾值時),它會引發(fā)潛在的孔問題。為解決這個問題,在復制過程中進行了額外的檢查?!邦l譜孔填補”模塊檢查復制的比例因子。如果檢測到0,則對該特定頻帶進行能量計算,以保證其能量確實低于掩蔽閾值。如果計算的能量高于掩蔽閾值,則通過對該比例因子的相鄰值進行線性插值來填補該比例因子值。
可以將公開的實施例用于任何通過將量化噪聲隱藏在估計的掩蔽閾值之下來實現(xiàn)壓縮的感知編碼器。在一個實例中,濾波器組模塊(如MP3)使用混合式的子帶和MDCT濾波器組。分析子帶濾波器組用于將寬帶信號拆分成32個等間隔的子帶。
圖8示出了可以由根據(jù)本公開的合適的處理系統(tǒng)執(zhí)行的編碼過程。所用的MDCT公式如下所示Xi=Σk=0n-1zkcos(π2n(2k+1+n2)(2i+1)),]]>i=0至n-1其中z表示加窗的輸入序列,k表示采樣索引,i表示頻譜系數(shù)索引,n表示窗口長度(12表示短塊,36表示長塊)。由暫態(tài)檢測模塊決定上述大小。
如圖8所示,在步驟802中,對i=511向下至32時,系統(tǒng)計算X[i]=X[i-32]。在步驟804中,對i=31向下至0,系統(tǒng)計算X[i]=下一個輸入音頻樣本。
在步驟806中,系統(tǒng)窗口乘以512個系數(shù),以生成矢量z,其中,對i=0至511,Zi=Ci*Xi。在步驟808中,對i=0至63,進行局部計算,其中,Yi=Σj=07Zi+64j,]]>在步驟810中,系統(tǒng)通過矩陣化計算32個采樣,其中,對i=0至31,Si=Σk=063Mik+Yk.]]>最后,在步驟812中,系統(tǒng)輸出32個子帶信號。
一個示范性實施例包括暫態(tài)檢測模塊和方案決定模塊。暫態(tài)檢測模塊確定適當?shù)木幋a器窗口大小,如果沒有該模塊,則將出現(xiàn)前回聲假象。在某些實施例中,對連續(xù)的短窗口進行能量比較。如果檢測到能量方面的突然增加,則可將該幀標記為暫態(tài)幀。
MP3中最小的編碼塊稱為微粒(granule),它由576個采樣組成。2個微粒組成一個MP3幀。可以在這些微粒中或在上述兩個立體聲聲道中應用各公開的實施例。僅將暫態(tài)檢測的第一個結果用于決定方案。如果檢測到第一個微粒是穩(wěn)態(tài)的(使用長窗口),則該微粒和下一個微粒使用跨微粒策略。如上所述,即使檢測到第二個窗口是暫態(tài)的(長窗口-開始窗口組合),也仍然使用跨微粒策略。如以上總結的,剩余的組合使用跨聲道策略。
本公開的各個實施例包括心理聲學模型(PAM)。掩蔽閾值的計算遵循如圖3所示的過程,且各個實施例包含一個或多個以下的改變-為效率的原因,可以將MDCT頻譜用于分析;-可以在比例因子帶域而非分割域(partition domain)(1/3巴克域)中直接進行計算;-使用簡單的、具有+25dB/巴克和-10dB/巴克的斜率的三角擴散函數(shù);-使用頻譜平坦度而非不可預測性計算了音調(diào)索引;-掩蔽閾值調(diào)整將可用的位的數(shù)目作為輸入,并根據(jù)該輸入全局地調(diào)整掩蔽閾值。
在一個示范性實施例中,位分配-量化MP3使用以下非均勻量化器x_quantized(i)=int[x342316(gl-scf(i))+0.0946]]]>其中,i表示比例因子頻帶索引,x表示將要量化的頻帶內(nèi)的頻譜值,gl表示全局比例因子(速率控制參數(shù)),scf(i)表示比例因子值(失真控制參數(shù))。
在各實施例中,對跨微粒策略而言,僅在第一個微粒中為兩個聲道計算量化參數(shù)。在填補頻譜孔后,在第二個微粒中重復使用這些值。對跨聲道策略而言,為兩個微粒計算了量化參數(shù),但僅對左聲道計算了上述參數(shù)。在填補頻譜孔之后,將這些數(shù)值重復用于右聲道量化。
本文公開的各個實施例提供了一種通過根據(jù)信號特性在各幀中或各聲道中重復使用掩蔽閾值來對音樂和其他聽覺信號進行低功率立體聲編碼的新方法。用這種方法,每兩個編碼過程可減少一次掩蔽閾值估計和位分配,這就避免了進行這些掩蔽閾值估計和位估計的巨大計算量,從而導致完成編碼任務所需的處理功率比以往更低。
在各實施例中,根據(jù)信號特性來作出有關重復使用掩蔽閾值的決定。當信號為穩(wěn)態(tài)時,在各幀中重復使用掩蔽閾值。當信號具有暫態(tài)特性時,在各聲道中重復使用掩蔽閾值。在某些實施例中,當在各幀中重復使用掩蔽閾值時,也重復使用聲道間的位分布,并且,當在各聲道中重復使用掩蔽閾值時,將聲道間的位分布設置成相等分布。
在某些實施例中,將使用跨聲道方案或跨幀方案的策略映射成在感知音頻編碼器中使用的7種可能的窗口類型對。同樣,在某些實施例中,通過復制失真控制量化參數(shù)重復使用掩蔽閾值。此外,在某些實施例中,在重復使用失真控制量化參數(shù)之前,當發(fā)現(xiàn)頻帶的實際能量超過掩蔽閾值時,通過對其相鄰參數(shù)值進行線性插值來進行頻譜孔填補。
在某些實施例中,可以用由計算機可讀程序代碼形成的、包含在計算機可讀介質(zhì)中的計算機程序來實施或支持上述的各種功能。短語“計算機可讀程序代碼”包括任何形式的計算機代碼,如源代碼、目標代碼和可執(zhí)行代碼。短語“計算機可讀介質(zhì)”包括任何形式的、可以由計算機訪問的介質(zhì),如只讀存儲器(ROM)、隨機存取存儲器(RAM)、硬盤驅(qū)動器、光盤(CD),數(shù)字視頻光盤(DVD),以及其他任何形式的存儲器。然而,也可以使用任何其他合適的邏輯器件(硬盤、軟盤、固件或它們的組合)來實現(xiàn)上述的各種編碼功能。
給出在該專利文件中使用的某些詞或短語的定義是有利的。術語“耦合”及其衍生詞表示在兩個或更多個元件之間的任何直接或間接的聯(lián)系,而無論這些元件在物理上是否相互接觸。術語“包括”和“包含”及其衍生詞表示無限制的包括。術語“或者”是包容性的,它表示和/或。術語“與...相關”和“與之相關”及其衍生詞可表示包括、被包括、與之互連、包含、被包含、連接到或與之連接、耦合到或與之耦合、可與之聯(lián)系、與之協(xié)作、與之交錯、與之并列、與之鄰近、被結合到或與之結合、具有、具有屬性,等等。術語“控制器”表示可控制至少一種操作的任何設備、系統(tǒng)或它們的部分。可以用硬件、固件或軟件或它們中的至少兩者的組合來實施控制器。應當注意,無論是采用本地方式還是遠程方式,均可以將與任何特定控制氣相關的功能集中化或分散化。
盡管本公開已描述了某些實施例及其相關的方法,但是,本領域技術人員可以方便地得出這些實施例和方法的變更和置換方式。因此,對示范實施例的以上說明未規(guī)定或限制本公開。也可以存在其他變化、替換和變更形式,而不至于背離由附錄的權利要求定義的本發(fā)明的精神和范圍。
權利要求
1.一種對輸入信號進行立體聲音頻感知編碼的方法,包括掩蔽閾值估計;以及位分配;其中每進行兩個編碼過程才進行所述掩蔽閾值估計和所述位分配。
2.根據(jù)權利要求1所述的方法;根據(jù)所述輸入信號的特性重復使用所述掩蔽閾值;以及當所述輸入信號為穩(wěn)態(tài)時,在各幀中重復使用所述掩蔽閾值。
3.根據(jù)權利要求2所述的方法,當在各幀中重復使用所述掩蔽閾值時,重復使用聲道間的位分布。
4.根據(jù)權利要求1所述的方法,其中根據(jù)所述輸入信號的特性重復使用所述掩蔽閾值;以及當所述輸入信號具有暫態(tài)特性時,在各聲道中重復使用所述掩蔽閾值。
5.根據(jù)權利要求4所述的方法,當在各聲道中重復使用所述掩蔽閾值時,將聲道間的位分布設置成相等分布。
6.根據(jù)權利要求1所述的方法,其中,根據(jù)感知音頻編碼器中使用的7種可能的窗口對類型中的其中之一在各聲道中或各幀中重復使用所述掩蔽閾值。
7.根據(jù)權利要求1所述的方法,其中,通過復制失真控制量化參數(shù)來重復使用所述掩蔽閾值。
8.根據(jù)權利要求7所述的方法,還包括在復制所述失真控制量化參數(shù)之前應用頻譜孔填補,當頻帶的實際能量高于所述掩蔽閾值時,所述頻譜孔填補包括對相鄰參數(shù)值進行線性插值。
9.一種對輸入信號進行立體聲音頻感知編碼的方法,包括進行時-頻變換;進行量化;進行位流格式化,以生成輸出數(shù)據(jù)流;進行心理聲學分析,該分析包括對所述輸入信號的每兩個連續(xù)幀的第一個幀進行的掩蔽閾值估計。
10.根據(jù)權利要求9所述的方法,還包括對所述輸入信號的每兩個連續(xù)幀的第一個幀進行位分配。
11.根據(jù)權利要求9所述的方法,還包括對所述輸入信號的每兩個連續(xù)幀的第一個幀進行聲道間的位分配。
12.根據(jù)權利要求9所述的方法,還包括對所述輸入信號的每兩個連續(xù)幀的第一個幀進行幀間位分配。
13.根據(jù)權利要求12所述的方法,其中,在所述輸入信號的每兩個連續(xù)幀中的第二個幀上重復使用所述位分配的結果。
14.根據(jù)權利要求9所述的方法,其中根據(jù)所述輸入信號的特性重復使用所述估計的掩蔽閾值;當所述輸入信號為穩(wěn)態(tài)時,在各幀中重復使用所述掩蔽閾值。
15.根據(jù)權利要求14所述的方法,其中,當在各幀中重復使用所述掩蔽閾值時,重復使用聲道間的位分布。
16.根據(jù)權利要求9所述的方法,其中根據(jù)所述輸入信號的特性重復使用所述掩蔽閾值;以及當所述輸入信號具有暫態(tài)特性時,在各聲道中重復使用所述掩蔽閾值。
17.根據(jù)權利要求16所述的方法,當在各聲道中重復使用所述掩蔽閾值時,將聲道間的位分布設置成相等分布。
18.根據(jù)權利要求9所述的方法,根據(jù)感知音頻編碼器中使用的7種可能的窗口對類型的其中之一在各聲道中或各幀中重復使用所述掩蔽閾值。
19.根據(jù)權利要求9所述的方法,其中,通過復制失真控制量化參數(shù)來重復使用所述掩蔽閾值。
20.根據(jù)權利要求19所述的方法,還包括在復制所述失真控制量化參數(shù)之前應用頻譜孔填補,當頻帶的實際能量高于所述掩蔽閾值時,所述頻譜孔填補包括對相鄰參數(shù)值進行線性插值。
全文摘要
一種對輸入信號進行立體聲音頻感知編碼的方法,包括掩蔽閾值估計和位分配。每進行兩次編碼過程才進行掩蔽閾值估計和位分配。另一種對輸入信號進行立體聲音頻感知編碼的方法,包括進行時-頻變換、量化、位流格式化來生成輸出流,并包括心理聲學分析。心理聲學分析包括對輸入信號的每兩個連續(xù)幀的第一個幀進行的掩蔽閾值估計。
文檔編號H03M7/30GK101030373SQ20071000373
公開日2007年9月5日 申請日期2007年1月12日 優(yōu)先權日2006年1月12日
發(fā)明者E·庫爾尼亞瓦蒂, S·喬治 申請人:意法半導體亞太私人有限公司