專利名稱:頻域中的音頻信號響度確定和修改的制作方法
技術領域:
本公開一般涉及音頻信號處理,特別地,涉及感知音頻編碼。
背景技術:
存在許多用于客觀地確定音頻信號的感知響度的方法。也已知用于使用例如感知響度模型以希望的量縮放音頻信號的感知響度的方法。也已知這樣的方法,所述方法包括縮放各單個頻帶的響度,由此保存感知響度譜或音品,同時調(diào)整總體感知響度。這些方法典型地將與數(shù)字化的音頻信號對應的采樣分割成被變換到頻域的重疊塊。被這樣向重疊的數(shù)據(jù)塊施加的變換被稱為“重疊變換(lapped transform) 用于確定以及可能地更改感知響度的方法使用如短時離散傅立葉變換或(短時)變型的離散余弦變換的這些重疊變換。用于壓縮數(shù)字化音頻信號的感知編碼方法也是已知的,這些編碼方法包括將與數(shù)字化音頻信號對應的采樣分割成被變換到頻域的重疊塊。希望確定以及可能地修改可能被感知編碼的音頻信號的感知響度。感知編碼方法常常具有隨時間改變的塊長度。AC-3(也已知作為Dolby Digital)和AAC(也已知作為 MPEG-2/AAC和MPEG-4/AAC,或者簡單地被稱為MPEG/AAC音頻)各使用兩個塊尺寸。在可改變的音頻信號塊尺寸的情況下有效率地確定以及可能地修改頻域音頻信號的感知響度可能是復雜的操作。
圖1示出感知音頻解碼器的簡化功能框圖。圖2示出包含MDCT域中的響度處理的感知音頻解碼器的簡化框圖。圖3示出更詳細地描述圖2的響度處理元件的實施例中的一些處理的簡化框圖。圖4示出被配置為在頻域(例如MDCT域)中確定響度以及修改響度的本發(fā)明的一個設備實施例。圖5A 5E示出在使用利用從示例性響板擊打的Dolby Digital信號獲得的MDCT 譜的本發(fā)明的實施例的組合中涉及的不同MDCT譜。圖6示出使用MDCT數(shù)據(jù)并且用于本發(fā)明的一些實施例中的響度確定的例子的簡單框圖。圖7A和圖7B示出對于由使用內(nèi)插(圖7A)和使用復制(圖7B)從短塊確定的長塊獲得的Dolby Digital數(shù)據(jù)的以宋(sone)為單位確定的響度的比較。圖8示出使用MDCT數(shù)據(jù)并且用于本發(fā)明的一些實施例中的用于水平調(diào)節(jié) (leveling)的響度確定和修改的例子的簡單框圖。
圖9通過簡單的例子圖示適用于使用256時域采樣的短塊長度和512時域采樣的長塊長度的感知編碼數(shù)據(jù)(例如Dolby Digital)的增益內(nèi)插。圖10通過簡單的例子圖示適用于使用256時域采樣的短塊長度和2048時域采樣的長塊長度的感知編碼數(shù)據(jù)(例如MPEG-2/AAC和MPEG-4/AAC)的增益內(nèi)插圖11示出包括處理系統(tǒng)的一個設備實施例的簡化框圖,所述處理系統(tǒng)在操作中被配置為實施本發(fā)明的方法實施例。該設備包括被配置有指令的計算機可讀介質,該指令在被執(zhí)行時使得實施本發(fā)明的方法實施例。
具體實施例方式概要本發(fā)明涉及用于在頻域信息的頻率分辨率以及相應時間覆蓋范圍不恒定的情況下確定和修改頻域音頻信號的感知響度的方法和設備,以及上面具有當被執(zhí)行時使得實施這些方法的指令的計算機可讀介質。這直接適用于使用改變的塊尺寸的情況下的感知音頻編碼器,這種可變塊尺寸有助于提高瞬變音頻信號的聲音質量。用于包括多種塊尺寸的數(shù)據(jù)的一個方面包括將感知響度處理的頻率(以及因而時間)分辨率在最長塊尺寸處保持恒定,其包括對于比最長塊尺寸短的一個或更多個塊尺寸中的特定短塊尺寸的數(shù)據(jù),組合所述特定短塊尺寸的多個塊的頻域信息以形成用于輸入到響度處理的最長塊尺寸數(shù)據(jù),以及內(nèi)插從對這種所形成的最長塊尺寸數(shù)據(jù)的響度處理輸出的增益信息,以用于與所述特定短塊尺寸的頻域信號相乘。特定的實施例包括音頻數(shù)據(jù)的處理方法,所述音頻數(shù)據(jù)包含通過以多種塊尺寸進行例如重疊變換的變換所確定的頻域數(shù)據(jù)。該方法包括接受多種塊尺寸的頻域音頻數(shù)據(jù)塊。對于比最長塊尺寸短的一個或更多個塊尺寸中的特定短塊尺寸的接受的數(shù)據(jù)塊,該方法包括組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊。該方法還包括實施最長塊尺寸的接受的塊的感知響度處理。實施所述感知響度處理包括確定一個或更多個感知響度參數(shù)。所述響度處理可包括確定要應用于接受的頻域數(shù)據(jù)塊或其延遲形態(tài)的至少一個響度修改。所述至少一個響度修改的確定使用所述一個或更多個確定的感知響度參數(shù)。該方法可包括對于以所形成的最長塊尺寸確定的所述至少一個響度修改,內(nèi)插所確定的至少一個響度修改,以將其應用于被用于形成所確定的至少一個響度修改的所述特定短塊尺寸的接受的數(shù)據(jù)塊;和將所確定的至少一個響度修改或至少一個內(nèi)插的響度修改應用于接受的頻域數(shù)據(jù)塊。該方法可包括延遲頻域音頻數(shù)據(jù)塊,使得所述至少一個響度修改或內(nèi)插的修改被應用于頻域數(shù)據(jù)塊的延遲形態(tài)。在一些實施例中,所述至少一個響度修改包括一組增益,因此,所述內(nèi)插確定內(nèi)插的增益,并且,應用所確定的至少一個響度修改或內(nèi)插的響度修改包括應用所述一組增益或一組內(nèi)插的增益。在其中至少一個響度修改包括一組增益的一些實施例中,所述內(nèi)插確定內(nèi)插的增益并且使用所確定的增益值之間的線性內(nèi)插。一些實施例中的組合特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)包括交織所述特定短塊尺寸的頻域數(shù)據(jù)。在其它的實施例中,所述組合包括復制所述特定短塊尺寸的頻域數(shù)據(jù)的值以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。例如,最近的(latest)特定短塊尺寸塊的特定短塊尺寸的頻域數(shù)據(jù)被用于創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。所述一個或更多個感知響度參數(shù)可包括音頻數(shù)據(jù)的激勵(excitation)和音頻數(shù)據(jù)的特性響度(specific loudness)。實施感知響度處理可包括響度水平調(diào)節(jié)、增益控制、 噪聲補償和/或動態(tài)均衡化中的一個或更多個。所述變換可以是重疊變換,例如,短時離散傅立葉變換(STDFT),或者變型的離散余弦變換(MDCT),或者短時離散正弦變換。也可使用其它的重疊變換。所述數(shù)據(jù)可來自通過使用多于一個塊尺寸的感知編碼器編碼的編碼音頻數(shù)據(jù)。例子包括AC-3和AAC。特定的實施例包括一種設備,該設備包括至少包含處理器的處理系統(tǒng)和計算機可讀介質,該處理系統(tǒng)在操作中被配置為實施音頻數(shù)據(jù)的感知響度處理的方法,所述音頻數(shù)據(jù)包括通過以多種塊尺寸進行例如重疊變換的變換所確定的頻域數(shù)據(jù)。該方法包括接受多種塊尺寸的頻域音頻數(shù)據(jù)塊。對于比最長塊尺寸短的一個或更多個塊尺寸中的特定短塊尺寸的接受的數(shù)據(jù)塊,該方法包括組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊。該方法還包括實施最長塊尺寸的接受的塊的感知響度處理。實施所述感知響度處理包括確定一個或更多個感知響度參數(shù)。該方法可包括對于以所形成的最長塊尺寸確定的所述至少一個響度修改,內(nèi)插所確定的至少一個響度修改,以將其應用于被用于形成所確定的至少一個響度修改的所述特定短塊尺寸的接受的數(shù)據(jù)塊;和將所確定的至少一個響度修改或至少一個內(nèi)插的響度修改應用于接受的頻域數(shù)據(jù)塊。該方法可包括延遲頻域音頻數(shù)據(jù)塊,使得所述至少一個響度修改或內(nèi)插的修改被應用于頻域數(shù)據(jù)塊的延遲形態(tài)。不同的實施例可包括以上在此概要部分或本文的其它部分中描述的特征中的一個或更多個。特定的實施例包括配置有指令的計算機可讀介質,該指令在被至少一個處理器執(zhí)行時實施音頻數(shù)據(jù)的感知響度處理的方法,所述音頻數(shù)據(jù)包括通過以多種塊尺寸進行例如重疊變換的變換所確定的頻域數(shù)據(jù)。該方法包括接受多種塊尺寸的頻域音頻數(shù)據(jù)塊。對于比最長塊尺寸短的一個或更多個塊尺寸中的特定短塊尺寸的接受的數(shù)據(jù)塊,該方法包括組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊。該方法還包括實施最長塊尺寸的接受的塊的感知響度處理。實施所述感知響度處理包括確定一個或更多個感知響度參數(shù)。該方法可包括對于以所形成的最長塊尺寸確定的所述至少一個響度修改,內(nèi)插所確定的至少一個響度修改,以將其應用于被用于形成所確定的至少一個響度修改的所述特定短塊尺寸的接受的數(shù)據(jù)塊;和將所確定的至少一個響度修改或至少一個內(nèi)插的響度修改應用于接受的頻域數(shù)據(jù)塊。該方法可包括延遲頻域音頻數(shù)據(jù)塊,使得所述至少一個響度修改或內(nèi)插的修改被應用于頻域數(shù)據(jù)塊的延遲形態(tài)。不同的實施例可包括以上在此概要部分或本文的其它部分中描述的特征中的一個或更多個。特定的實施例包括程序邏輯,當該程序邏輯被至少一個處理器執(zhí)行時使得實施音頻數(shù)據(jù)的感知響度處理的方法,所述音頻數(shù)據(jù)包括通過以多種塊尺寸進行例如重疊變換的變換所確定的頻域數(shù)據(jù)。該方法包括接受多種塊尺寸的頻域音頻數(shù)據(jù)塊。對于比最長塊尺寸短的一個或更多個塊尺寸中的特定短塊尺寸的接受的數(shù)據(jù)塊,該方法包括組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊。該方法還包括實施最長塊尺寸的接受的塊的感知響度處理。實施所述感知響度處理包括確定一個或更多個感知響度參數(shù)。該方法可包括對于以 所形成的最長塊尺寸確定的所述至少一個響度修改,內(nèi)插所確定的至少一個響度修改,以將其應用于被用于形成所確定的至少一個響度修改的所述特定短塊尺寸的接受的數(shù)據(jù)塊;和將所確定的至少一個響度修改或至少一個內(nèi)插的響度修改應用于接受的頻域數(shù)據(jù)塊。該方法可包括延遲頻域音頻數(shù)據(jù)塊,使得所述至少一個響度修改或內(nèi)插的修改被應用于頻域數(shù)據(jù)塊的延遲形態(tài)。不同的實施例可包括以上在此概要部分或本文的其它部分中描述的特征中的一個或更多個。特定的實施例包括用于音頻數(shù)據(jù)的感知響度處理的設備,所述音頻數(shù)據(jù)包含通過以多種塊尺寸進行例如重疊變換的變換所確定的頻域數(shù)據(jù)。該設備包括用于接受多種塊尺寸的頻域音頻數(shù)據(jù)塊的裝置。該設備還包括用于組合特定短塊尺寸的多個接受的頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊的裝置。該設備還包括用于處理的裝置,所述處理被配置為實施最長塊尺寸的接受的塊的感知響度處理。通過所述用于處理的裝置實施所述感知響度處理包括確定一個或更多個感知響度參數(shù)。該設備可進一步包括用于使用一個或更多個所確定的感知響度參數(shù)來確定至少一個響度修改的裝置,所述至少一個響度修改用于應用于接受的頻域數(shù)據(jù)塊或其延遲形態(tài)。這種情況下的該設備進一步包括與用于確定所述至少一個響度修改的所述裝置耦合的用于內(nèi)插響度修改的裝置,使得對于以所形成的最長塊尺寸確定的所述至少一個響度修改中的任何一個,所確定的至少一個響度修改被內(nèi)插,以應用于被用于形成所確定的至少一個響度修改的所述特定短塊尺寸的接受的數(shù)據(jù)塊。這種情況下的該設備進一步包括用于將所確定的至少一個響度修改或內(nèi)插的修改應用于接受的頻域數(shù)據(jù)塊或其延遲形態(tài)的裝置。所述修改可以具有一組增益的形式。特定的實施例包括用于音頻數(shù)據(jù)的感知響度處理的設備,所述音頻數(shù)據(jù)包含通過以多種塊尺寸進行例如重疊變換的變換所確定的頻域數(shù)據(jù)。該設備包括塊組合器,所述塊組合器被配置為接受頻域音頻數(shù)據(jù)塊,每個塊具有多種塊尺寸之一,包含接受比最長塊尺寸短的一個或更多個塊尺寸中的特定短塊尺寸的數(shù)據(jù)塊。所述塊組合器被進一步配置為組合所述特定短塊尺寸的多個接受的頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊。該設備還包括頻域信號處理器,所述頻域信號處理器被配置為實施最長塊尺寸的接受的塊的感知響度處理。通過頻域信號處理器實施所述感知響度處理包括確定一個或更多個感知響度參數(shù)。所述頻域信號處理器可包括響度修改確定器,所述響度修改確定器被配置為確定要應用于由塊組合器接受的頻域數(shù)據(jù)塊或其延遲形態(tài)的至少一個響度修改。這種響度修改確定器使用所述一個或更多個確定的感知響度參數(shù)。包括所述響度修改確定器的該設備包括響度修改內(nèi)插器,所述響度修改內(nèi)插器與頻域信號處理器耦合,并且被配置為對于以所形成的最長塊尺寸確定的一個或更多個響度修改的任一組而內(nèi)插所確定的至少一個響度修改, 以將其應用于被用于形成所確定的至少一個響度修改的特定短塊尺寸的接受的數(shù)據(jù)塊。包括所述響度修改確定器的該設備還包括響度修改器,所述響度修改器與響度修改內(nèi)插器耦合,以及,與塊組合器的輸入端耦合或與和塊組合器的輸入端耦合的延遲元件耦合。響度修改確定器被配置為將所確定的至少一個響度修改或內(nèi)插的修改應用于接受的頻域數(shù)據(jù)塊或其延遲形態(tài)。所述修改可以具有一組增益的形式。特定的實施例可提供這些方面、特征或優(yōu)點中的全部或一些或根本不提供它們。 特定的實施例可提供一個或更多個其它的方面、特征或優(yōu)點,本領域技術人員從本文的附圖、描述和權利要求中可容易地理解這些方面、特征或優(yōu)點中的一個或更多個。
感知響度和感知編碼存在許多用于客觀地確定音頻信號的感知響度的方法。方法的例子包含包括應用強調(diào)在感知上比較敏感的頻率并且不強調(diào)在感知上比較不敏感的頻率的預定濾波器的響度的A加權、B加權和C加權功率測量以及諸如在標題為“Acoustics—Method for calculating loudness level”(1975)的ISO 532中描述的響度的心理聲學模型,所述心理聲學模型嘗試通過將信號劃分成頻帶并且然后在考慮諸如頻率掩蓋和時間掩蓋之類的心理聲學現(xiàn)象以及作為信號強度的函數(shù)的響度感知的非線性的同時操縱和統(tǒng)合這些頻帶而將耳朵的內(nèi)部工作模型化。指定美國、作為WO 2004111994公布、在美國作為US20070092089公布并且名稱為 METHOD,APPARATUS AND COMPUTER PROGRAM FOR CALCULATING AND ADJUSTING THE PERCEIVED LOUDNESS OF AN AUDIO SIGNAL 的國際申請 No. PCT/US2004/016964 (以下稱為 "WO 2004111994”)描述了一種感知方法,該感知方法不僅進行響度確定并且以希望的量提供音頻信號的感知響度的縮放。在WO 2004111994中描述的一個實施例中,通過反轉感知響度模型而從感知響度的希望的改變來計算寬帶增益。指定美國、作為WO 2006047600 公布、還在美國作為US 2007(^91959公布并且名稱為CALCULATING AND ADJUSTING THE PERCEIVED LOUDNESS AND/OR THE PERCEIVED SPECTRAL BALANCE OF AN AUDIO SIGNAL 的國際申請No.PCT/US2005/038579(以下稱為“W0 2006047600”)特別描述了一種方法,該方法通過縮放各單個頻帶的響度而甚至更進一步,由此保存感知響度譜或音品,同時調(diào)整總體感知響度。在WO 2006047600中描述的一個實施例中,從對多個頻率響度帶施加的感知響度的希望的改變來計算多個頻帶增益。將WO 2004111994和WO 2006047600中的每一個的內(nèi)容通過引用方式并入在本文中。WO 2004111994和WO 2006047600描述了各包括通過首先將音頻內(nèi)容變換到頻域
表現(xiàn)來分析音頻信號的方法,所述變換典型地使用重疊變換,例如離散傅立葉變換的重疊加窗形式-短時離散傅立葉變換(STDFT),由于其有效率的實現(xiàn)而常常被提到;快速傅立葉變換(FFT)和短時快速傅立葉變換(STFFT)。如果希望進行感知響度調(diào)整,那么這些申請的實施例描述從反轉響度模型而計算出的增益如何與頻域信息相乘,所述頻域信息隨后通過由于其有效率的實現(xiàn)而常常被提到的相應的逆離散傅立葉變換(IDFT);逆快速傅立葉變換(IFFT)變換回時域音頻信號。另一時頻變換是離散余弦變換(DCT)。DCT變換提供信號的更緊湊的譜表現(xiàn),并且因而被廣泛用于也被稱為壓縮方法的圖像、視頻和音頻編碼方法中。當被用于音頻編碼中時,DCT以具有50%重疊的加窗重疊和修改的形式被使用,并且被臨界地采樣以實現(xiàn)時域混疊消除。這種重疊和修改的DCT—般被稱為變型的DCT(MDCT)。假設窗口為2N個采樣長。MDCT并不是完美可逆的,在于2N采樣的窗口的MDCT如果經(jīng)受逆MDCT (IMDCT)則不產(chǎn)生相同的2N數(shù)據(jù)采樣。但是,當逆變換數(shù)據(jù)的隨后塊被添加時,通過使用50%重疊,由變換引入的誤差被消除。這是時域混疊消除(TDAC)特性。得益于重疊特征,MDCT對于量化非常有用;例如,它有效地去除否則可容易地檢測到的變換塊之間的分塊偽信息,并且被廣泛用于諸如Dolby Digital (也被稱為AC-3)和MPEG/AAC之類的音頻編碼方法以及諸如ITU-T H. 26UH. 263.MPEG-UMPEG-2視頻和JPEG之類的圖像編碼系統(tǒng)中。Dolby Digital是杜比特許實驗室公司(Dolby Licensing Laboratories Corporation)的商標。這種編碼包括將一個或多個待編碼音頻信號劃分成重疊加窗時間段,在這里被稱為音頻塊。各段的MDCT 變換被感知編碼,并且被量化以壓縮信息。量化的數(shù)據(jù)被封裝成編碼位流。在解碼期間,各段各被解封裝,并且通過逆MDCT (IMDCT)變換(具有重疊相加),以重新創(chuàng)建時域PCM音頻信號。Dolby Digital例如使用512采樣的長塊尺寸,這里,所述塊的每一半與相鄰塊的一半重疊。指定美國、作為WO 2007120452公布并且名稱為AUDIO SIGNAL LOUDNESS MEASUREMENT AND MODIFICATION IN THE MDCT DOMAIN 的國際申請 No. PCT/ US2007/007945(以下稱為“W0 2007120452”)特別描述了可如何使用通過使用變型離散余弦變換(MDCT)獲得的信息來執(zhí)行感知響度測量和修改。這允許例如感知響度確定和修改與典型地使用MDCT的低位率音頻解碼器有效率地統(tǒng)合。將WO 2007120452的內(nèi)容以引用方式并入在本文中。注意,WO 2007120452將此處以及通常稱為MDCT的概念用術語STMDCT來稱呼,以便與使用STDFT來描述以重疊方式加窗的數(shù)據(jù)塊的DFT的方式一致。應當理解,本文中使用的MDCT是被臨界地采樣并且實現(xiàn)TDAC的重疊加窗余弦變換。感知音頻編碼方法常常被設計為使用多于一個的塊長度的重疊變換數(shù)據(jù),其中所述塊長度根據(jù)音頻信號的一個或更多個特定特性而被更改。例如,Dolby Digital使用兩個塊尺寸;512采樣的長塊(例如用于明顯的靜止信號)和256采樣的短塊(例如用于上升的瞬變音頻信號)。結果是,頻帶的數(shù)量和寬度以及MDCT譜值的相應數(shù)量在塊之間改變。 再次使用Dolby Digital作為例子,當塊尺寸為512時域采樣時,存在256個頻帶(頻率單元,frequency bin),并且,當塊尺寸為256時域采樣時,存在1 個頻帶(頻率單元)。使用這種短塊尺寸和長塊尺寸兩者的原因是因為感知編碼器根據(jù)它們的天性由于量化而引入誤差或噪聲,因為它們壓縮或降低音頻信號的信息速率。量化誤差或噪聲,特別是來自瞬變信號的量化誤差或噪聲,跨音頻采樣的塊的長度而擴展并且變得可聽。當使用短(時間) 采樣塊時,噪聲擴展在時間上更加局部化,因此不那么可聽。使用多于一個的塊尺寸的感知音頻編碼器表現(xiàn)出對于將響度確定和修改與音頻解碼器組合的困難。WO 2007120452簡短地討論了修改反量化(de-quantization)過程以通過將多個較小的塊組合或平均化為較大的塊而總是以恒定的塊速率輸出恒定數(shù)量的帶, 使得可以對恒定的塊尺寸執(zhí)行響度確定。WO 2007120452還簡短地討論了修改響度確定過程以接受改變的塊尺寸。響度確定典型地包括濾波、激勵計算、特性響度計算、平均化和加和,并且,WO 2007120452建議改變它們。這需要超出例如允許塊尺寸維持恒定所需要的復雜度的附加的復雜度以及組合較短的塊。希望形成用于利用不同的塊長度數(shù)據(jù)執(zhí)行組合或平均化以及當塊尺寸改變時如何確定增益并且將這些增益應用于音頻信號以用于感知響度修改的實際方法。一些實施例這里描述的是用于確定和修改頻域音頻信號的響度的方法和設備以及軟件(例如,在計算機可讀介質中實施的處理器可執(zhí)行的指令),其中,音頻信號塊尺寸可改變。在這里詳細描述的實施例假設使用由感知音頻編碼器使用的MDCT譜。但是,本發(fā)明的方面也適用于在第一線性空間域-時域到線性空間第二域-頻率之間變換的其它變換。這些其它變換包括但不限于前面討論的DFT、STDFT (STFFT)、DCT (離散余弦變換)以及其它,包括這些變換的逆變換。對于本領域技術人員來說,如何修改這里描述的實現(xiàn)以使用和/或適用于這些其它變換將是清楚和直接的,并且,不意味著權利要求被限于MDCT或逆 MDCT (IMDCT),除非明確聲明這樣限制。圖1示出感知音頻解碼器的簡化功能框圖。雖然一般來說諸如圖1所示的解碼器是現(xiàn)有技術,但是包括這里描述的任何發(fā)明要素的這種解碼器不是現(xiàn)有技術。從一個或更多個音頻信號(音頻信道)的感知編碼位流101開始,第一元件103產(chǎn)生各信道的MDCT譜, 并且包括將位流解封裝為碼字、將碼字反量化以及從反量化的碼字重構這種各音頻信道的 MDCT譜105。MDCT譜信息105包括音頻的變換的重疊塊的變換系數(shù)。這種譜信息然后通過元件107使用IMDCT并且將信息的逆變換塊去重疊而被變換到時域,以產(chǎn)生解碼的數(shù)字音頻。更特別地,IMDCT被計算,然后,得到的時間采樣被加窗,并且,加窗的采樣的前一半被加到先前塊的后一半,以創(chuàng)建最終的輸出PCM時間采樣109。本領域技術人員將理解,發(fā)生去重疊,并且每當IMDCT功能被描述時暗示去重疊以產(chǎn)生PCM音頻。在頻域105中(在IMDCT功能之前)存在解碼的音頻。如在WO 2007120452中描述的那樣,可在IMDCT之前執(zhí)行響度確定和修改。圖2示出包括MDCT域中的響度處理的感知音頻解碼器的簡化框圖。雖然一般來說諸如圖2所示的解碼器是現(xiàn)有技術,但是包括這里描述的任何本發(fā)明的要素的這種解碼器不是現(xiàn)有技術。響度處理元件203被配置為根據(jù)一個或更多個響度修改參數(shù)201來實施音頻信號的響度確定和修改兩者,以產(chǎn)生在逆處理之后得到輸出音頻數(shù)據(jù)209的修改的譜數(shù)據(jù)205。圖3示出更詳細地描述響度處理元件203的一個實施例中的一些處理元件的簡化框圖。響度處理元件203包括頻域信號處理器301,所述頻域信號處理器301包括響度參數(shù)確定器303,所述響度參數(shù)確定器303被配置為確定一個或更多個感知響度參數(shù),例如MDCT音頻信號105的感知響度域中的激勵和特性響度。例如根據(jù)規(guī)定對響度的希望的改變的所述一個或更多個參數(shù)201,通過響度修改確定器305來修改所得到的感知響度參數(shù)。例如,如果響度處理包括噪聲補償,那么響度修改參數(shù)包括噪聲補償?shù)牧?、噪聲的譜值和希望的特性響度水平等。在一個實施例中,響度修改確定器305產(chǎn)生被表達為一組增益值或增益譜的對特性響度的修改,例如,對于各音頻信道中的各MDCT頻帶有一個增益值, 并且,通過包括乘法器元件的響度修改器309使用所確定的增益來計算這種修改??稍赪O 2004111994和102006047600中、特別是在10 2007120452中的MCDCT域中找到響度參數(shù)確定和響度修改計算的特定的細節(jié),并且,為了不使本發(fā)明的發(fā)明方面模糊,這里不詳細給出這些特定的細節(jié)。MDCT音頻信號105可由延遲元件307延遲,以向響度確定器303和響度修改確定器305提供一些向前的展望,即預期音頻信號的改變的能力,使得在乘法器元件 309中向延遲的譜數(shù)據(jù)施加增益以產(chǎn)生修改的MDCT音頻信號205。圖3的設備和由其實現(xiàn)的方法對于恒定的MDCT塊尺寸工作良好。如果塊尺寸隨時間改變,那么響度確定器303和響度修改確定器305需要適應于新的塊尺寸。這實現(xiàn)起來會是復雜的。參見W02007120452。圖4示出被配置為在頻域(例如,MDCT域)中確定響度以及修改響度的本發(fā)明的一個設備實施例400。本發(fā)明的實施例的一個特征包括操作操作頻域信號處理器405,該頻域信號處理器405包括響度參數(shù)確定器元件406和響度修改確定器元件407,并且,對與所使用的最大MDCT塊尺寸(例如,在確定和修改是用于來自解碼器的數(shù)據(jù)的情況下,為音頻解碼器中的最大MDCT塊尺寸)相同的塊尺寸或塊速率的數(shù)據(jù)進行操作。該設備包括塊組合器403,所述塊組合器403被配置為在通過頻域信號處理器405的響度參數(shù)確定器406進行響度參數(shù)確定之前,組合比最大塊尺寸小的塊,以形成最大塊尺寸的塊。實施例還包括用于內(nèi)插由響度修改確定器407確定的修改的修改內(nèi)插器409,例如,用于內(nèi)插對于通過組合較小塊尺寸的塊而獲得的最大尺寸塊確定的增益的增益內(nèi)插器。延遲元件411負責塊403、 406,407和409中涉及的處理延遲,使得向響度修改器元件413呈遞的數(shù)據(jù)被時間對準。組合塊塊組合器403實施塊組合,并且被配置為從多個較小的塊尺寸譜構造用于大塊尺寸譜-“長塊”譜-的大塊尺寸MDCT譜,所述較小的塊尺寸未必都是相對于最大塊尺寸的相同的短塊尺寸。使用多于一個的塊長度的典型的感知音頻編碼器通常使用較短塊的倍數(shù),其MDCT 譜值的總數(shù)相當于單個相對長塊中的譜值的數(shù)量。以不同的方式表達,用于計算短MDCT譜的序列的不同采樣時間PCM音頻采樣的總數(shù)相當于用于計算單個長MDCT譜的不同采樣時間PCM音頻采樣的數(shù)量。作為一個例子,Dolby Digital使用512個采樣的長塊尺寸,所述 512個采樣由與先前的長塊重疊的256個采樣和與下一個長塊重疊的256個附加采樣構成, 這導致256個MDCT譜值(頻率單元)。當Dolby Digital使用短塊時,它按照第一和第二短塊的對來使用短塊。第一短塊包括與先前的塊重疊的256個采樣,所述先前的塊在應用 MDCT之后導致1 個MDCT譜值(頻率單元)。第二短塊也是與下一個256長塊重疊的256 個采樣,所述下一個256長塊也導致1 個MDCT譜值(頻率單元)。另一例子是MPEG/AAC,其使用給出IOM個MDCT值的2048個采樣的長塊尺寸和給出1 個MDCT值的256個采樣的短塊尺寸。當MPEG/AAC使用短塊時,它總是使用八個短塊的倍數(shù)-塊的八重組(octet),使得在這種八重組中存在8 X 128 = 1024個MDCT值(頻率單元),數(shù)量與單一長塊的數(shù)量相同。雖然可以有實施組合步驟塊組合器403的許多方式而不背離本發(fā)明的實質,但是這里描述兩個示例性方法。第一示例性方法包括交織較短塊的MDCT值以創(chuàng)建長塊的單個譜。第二方法使用短塊譜的子集,并且包括復制值以創(chuàng)建長塊的單一譜。在使用復制的一些這樣的示例性方法中,使用最近的較短譜來創(chuàng)建長塊的單一譜。實施例如組合元件403的組合的替代性實施例包括在短塊尺寸的頻域數(shù)據(jù)的值之間進行內(nèi)插,以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。對之后的數(shù)據(jù)也可如此。圖5A 5E示出基于示例性響板擊打的Dolby Digital數(shù)據(jù)的示例性MDCT譜。 特別地,圖5A和圖5B示出各具有1 個值的兩個連續(xù)短塊MDCT譜??梢钥闯?,這顯然是上升瞬變,因為相對于MDCT數(shù)據(jù)的第二塊中的能量的量,在第一短塊中的所有頻帶中存在相對很少的能量。圖5C示出利用交織從圖5A和圖5B的譜確定的具有256個頻域值的譜。 圖5D示出通過復制圖5B的第二短譜的相鄰值而創(chuàng)建的長塊譜。由于當音頻信號能量特別是高頻能量迅速上升時如Dolby Digital那樣的編碼器選擇使用短塊,因此考慮這一點是有用的。這指示音頻信號中的瞬變。結果,第二短譜是用于創(chuàng)建兩個短塊譜的音頻信號的總體譜的較好的代表。當與圖5E比較時,可以看到這一點。實施例如組合元件403的組合的替代性實施例包括在短塊尺寸的頻域數(shù)據(jù)的值之間進行內(nèi)插,以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。對之后的數(shù)據(jù)也可如此。最后,作為參照,圖5E示出從用于計算圖5A和圖5B中的兩個較短MDCT譜的相同的采樣計算的長MDCT譜。這代表理想化的情況,在該理想化的情況下,Dolby Digital能夠以高于正常數(shù)據(jù)速率的數(shù)據(jù)速率運行,并且因此將不需要使用較短塊來使瞬變信號的量化噪聲的可聽性最小化。Dolby Digital實際上將既不計算也不使用圖5E中的譜,但它代表如果編碼器限于僅使用長塊的情況下會發(fā)生什么。對于AAC和類似的編碼方法,長塊的長度是多于兩個短塊的倍數(shù),例如,對于AAC 為8,并且/或者,存在多種類型的長塊,例如,對于AAC為3種,假定對于不同類型的長塊中的每一個,以基本上相同的方式確定響度。用于這樣的多種塊尺寸的本發(fā)明的一些實施例選擇最大尺寸,并且,使用交織來從多個短數(shù)據(jù)塊確定長數(shù)據(jù)塊。注意,對于上升的瞬變,較后的短塊具有增大的功率。如已知的那樣,由于下降的瞬變的感知掩蓋,瞬變的短塊包括上升的瞬變的短塊。在其中長塊具有短塊長度的整數(shù)倍 (大于兩倍)的長度(例如,對于AAC為8倍)的一些實施例中,使用交織來形成具有高于預定閾值的總體能量的連續(xù)的較后的塊的子組(subgroup),然后,使用復制或交織將這些連續(xù)的較后的塊與較早的塊進行組合,以給出具有長塊的塊的組合譜。在一些實施例中,所述預定閾值為最后的長塊尺寸塊的總頻域能量的一半。確定感知響度WO 2004111994描述了基于心理聲學模型的感知響度的客觀測量。雖然WO 2004111994描述使用獲得的對數(shù)功率譜,例如使用短時DFT,但是,來自一組MDCT譜的功率確定也是已知的??紤]時間采樣x[n,t]的時變加窗塊的STDFT,這里,η是塊內(nèi)的時間索引,t是參照該時間的索引。對于長度為T個采樣的塊,使用STDFT的功率譜時變估計的一種常用的計算是這里,k是用于STDFT的頻率單元,K是數(shù)據(jù)塊的頻率單元和時間采樣的數(shù)量, Xstdft (k,t)是 x[n,t]的 STDFT。由XmeT(k,t)表示長度為K個采樣的時間塊t的MDCT。對于大多數(shù)的音頻信號,Xstdft(k, t) I和Z Xstdft(k,t)沿塊而相對獨立地改變。此外,對于大多數(shù)的音頻信號, Z Xstdft(k,t)在0禾Π 2 π之間基本上均勻地分布。在這種情況下,它可被示為
權利要求
1.一種音頻數(shù)據(jù)的感知響度處理方法,所述音頻數(shù)據(jù)包含通過以多種塊尺寸進行變換所確定的頻域數(shù)據(jù),該方法包含接受多種塊尺寸的頻域音頻數(shù)據(jù)塊;對于比最長塊尺寸短的一個或更多個塊尺寸中的特定短塊尺寸的接受的數(shù)據(jù)塊,組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊,實施最長塊尺寸的接受的塊的感知響度處理,其中,實施所述感知響度處理包括確定一個或更多個感知響度參數(shù)。
2.如權利要求1所述的方法,其中,所述響度處理還包括確定要應用于接受的頻域數(shù)據(jù)塊或其延遲形態(tài)的至少一個響度修改,所述至少一個響度修改的確定使用所述一個或更多個確定的感知響度參數(shù),該方法還包含對于以所形成的最長塊尺寸確定的所述至少一個響度修改,內(nèi)插所確定的至少一個響度修改,以將其應用于被用于形成所確定的至少一個響度修改的所述特定短塊尺寸的接受的數(shù)據(jù)塊;以及將所確定的至少一個響度修改或至少一個內(nèi)插的響度修改應用于接受的頻域數(shù)據(jù)塊或其延遲形態(tài)。
3.如權利要求2所述的方法,還包括延遲頻域音頻數(shù)據(jù)塊,使得所述至少一個響度修改或內(nèi)插的修改被應用于頻域數(shù)據(jù)塊的延遲形態(tài)。
4.如權利要求2 3中的任一項所述的方法,其中,所述至少一個響度修改包括一組增益,其中,所述內(nèi)插確定內(nèi)插的增益,并且其中,應用所確定的至少一個響度修改或內(nèi)插的響度修改包括應用所述一組增益或一組內(nèi)插的增益。
5.如任何在前的權利要求所述的方法,其中,組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)包括交織所述特定短塊尺寸的頻域數(shù)據(jù)。
6.如權利要求1 4中的任一項所述的方法,其中,組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)包括復制所述特定短塊尺寸的頻域數(shù)據(jù)的值以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
7.如權利要求1 4中的任一項所述的方法,其中,最近的特定短塊尺寸塊的特定短塊尺寸的頻域數(shù)據(jù)被用于創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
8.如權利要求1 4中的任一項所述的方法,其中,組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)包括在特定短塊尺寸的頻域數(shù)據(jù)的值之間進行內(nèi)插以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
9.如權利要求1 4中的任一項所述的方法,其中,所述最長塊尺寸具有所述特定短塊尺寸的長度的整數(shù)倍的長度,所述整數(shù)倍大于兩倍,組合所述多個頻域數(shù)據(jù)塊包括使用交織來組合向著所述多個塊的末尾出現(xiàn)并且具有高于預定閾值的總體能量的連續(xù)塊的頻域數(shù)據(jù)子組以形成中間尺寸塊的頻域數(shù)據(jù),以及通過復制或交織而將中間尺寸塊的頻域數(shù)據(jù)與不具有高于所述預定閾值的能量的多個頻域數(shù)據(jù)塊進行組合以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
10.如權利要求2 9中的任一項所述的方法,其中,所述至少一個響度修改包括一組增益,其中,所述內(nèi)插確定內(nèi)插的增益,其中,應用所確定的至少一個響度修改或內(nèi)插的響度修改包括應用所述一組增益或一組內(nèi)插的增益,并且其中,內(nèi)插所確定的增益使用所確定的增益值之間的線性內(nèi)插。
11.如權利要求2 9中的任一項所述的方法,其中,所述至少一個響度修改包括一組增益,其中,所述內(nèi)插確定內(nèi)插的增益,其中,應用所確定的至少一個響度修改或內(nèi)插的響度修改包括應用所述一組增益或一組內(nèi)插的增益,并且其中,內(nèi)插所確定的增益使用二次或更高次多項式內(nèi)插。
12.如權利要求2 9中的任一項所述的方法,其中,所述至少一個響度修改包括一組增益,其中,所述內(nèi)插確定內(nèi)插的增益,其中,應用所確定的至少一個響度修改或內(nèi)插的響度修改包括應用所述一組增益或一組內(nèi)插的增益,并且其中,內(nèi)插所確定的增益使用樣條內(nèi)插。
13.如權利要求2 12中的任一項所述的方法,其中,所述一個或更多個感知響度參數(shù)包括音頻數(shù)據(jù)的激勵和音頻數(shù)據(jù)的特性響度。
14.如權利要求2 12中的任一項所述的方法,其中,所述一個或更多個感知響度參數(shù)包括音頻數(shù)據(jù)的激勵和音頻數(shù)據(jù)的特性響度,并且其中,實施所述感知響度處理包括響度水平調(diào)節(jié)、增益控制、噪聲補償和/或動態(tài)均衡化中的一個或更多個。
15.如任何在前的權利要求所述的方法,其中,變換是重疊變換。
16.如權利要求15所述的方法,其中,所述重疊變換是短時離散傅立葉變換(STDFT)。
17.如權利要求15所述的方法,其中,所述重疊變換是變型的離散余弦變換(MDCT)。
18.如權利要求1 14中的任一項所述的方法,其中,所述重疊變換是短時離散正弦變換。
19.如任何在前的權利要求所述的方法,其中,所述數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻數(shù)據(jù)通過使用多于一種塊尺寸的感知編碼器被編碼。
20.如權利要求19所述的方法,其中,所述數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻數(shù)據(jù)通過使用256個時域采樣的短塊尺寸和512個時域采樣的長塊尺寸的感知編碼器被編碼。
21.如權利要求20所述的方法,其中,所述數(shù)據(jù)來自根據(jù)AC-3編碼的編碼音頻數(shù)據(jù)。
22.如權利要求19所述的方法,其中,接受的頻域數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻數(shù)據(jù)通過使用256個時域采樣的短塊尺寸和2048個時域采樣的長塊尺寸的感知編碼器被編碼。
23.如權利要求19所述的方法,其中,所述數(shù)據(jù)來自通過AAC編碼器編碼的編碼音頻數(shù)據(jù)。
24.一種計算機可讀介質,該計算機可讀介質被配置有指令,該指令在被至少一個處理器執(zhí)行時實施音頻數(shù)據(jù)的感知響度處理方法,所述音頻數(shù)據(jù)包括通過以多種塊尺寸進行重疊變換所確定的頻域數(shù)據(jù),所述方法如任何在前的方法權利要求所述。
25.一種程序邏輯,該程序邏輯在被至少一個處理器執(zhí)行時使得實施音頻數(shù)據(jù)的感知響度處理方法,所述音頻數(shù)據(jù)包括通過以多種塊尺寸進行重疊變換所確定的頻域數(shù)據(jù),所述方法如任何在前的方法權利要求所述。
26.一種用于音頻數(shù)據(jù)的感知響度處理的設備,所述音頻數(shù)據(jù)包含通過以多種塊尺寸進行變換所確定的頻域數(shù)據(jù),該設備包含用于接受多種塊尺寸的頻域音頻數(shù)據(jù)塊的裝置;用于組合特定短塊尺寸的多個接受的頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊的裝置, 用于處理的裝置,所述處理被配置為實施最長塊尺寸的接受的塊的感知響度處理,其中,通過所述用于處理的裝置實施所述感知響度處理包括確定一個或更多個感知響度參數(shù)。
27.如權利要求26所述的設備,其中,所述響度處理還包含用于使用一個或更多個所確定的感知響度參數(shù)來確定至少一個響度修改的裝置,所述至少一個響度修改用于應用于接受的頻域數(shù)據(jù)塊或其延遲形態(tài),該設備還包括與用于確定所述至少一個響度修改的所述裝置耦合的用于內(nèi)插響度修改的裝置,使得對于以所形成的最長塊尺寸確定的所述至少一個響度修改中的任何一個,所確定的至少一個響度修改被內(nèi)插,以應用于被用于形成所確定的至少一個響度修改的所述特定短塊尺寸的接受的數(shù)據(jù)塊,以及用于將所確定的至少一個響度修改或內(nèi)插的修改應用于接受的頻域數(shù)據(jù)塊或其延遲形態(tài)的裝置。
28.如權利要求27所述的設備,還包括用于延遲頻域音頻數(shù)據(jù)塊以使得所述至少一個響度修改或內(nèi)插的修改被應用于頻域數(shù)據(jù)塊的延遲形態(tài)的裝置。
29.如權利要求27 28中的任一項所述的設備,其中,所述至少一個響度修改包括一組增益,其中,用于內(nèi)插的所述裝置確定內(nèi)插的增益,并且其中,用于應用所確定的至少一個響度修改或內(nèi)插的響度修改的所述裝置包括用于應用所述一組增益或一組內(nèi)插的增益的裝置。
30.如權利要求26 29中的任一項所述的設備,其中,用于組合的所述裝置被配置為使得組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)包括交織所述特定短塊尺寸的頻域數(shù)據(jù)。
31.如權利要求26 29中的任一項所述的設備,其中,用于組合的所述裝置被配置為使得組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)包括復制所述特定短塊尺寸的頻域數(shù)據(jù)的值以創(chuàng)建最長塊尺寸頻域數(shù)據(jù)。
32.如權利要求30所述的設備,其中,最近的特定短塊尺寸塊的特定短塊尺寸的頻域數(shù)據(jù)被用于創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
33.如權利要求26 29中的任一項所述的設備,其中,用于組合的所述裝置被配置為使得組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)包括在特定短塊尺寸的頻域數(shù)據(jù)的值之間進行內(nèi)插以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
34.如權利要求26 29中的任一項所述的設備,其中,所述最長塊尺寸具有所述特定短塊尺寸的長度的整數(shù)倍的長度,所述整數(shù)倍大于兩倍,并且其中,用于組合的所述裝置被配置為使得組合所述多個頻域數(shù)據(jù)塊包括使用交織來組合向著所述多個塊的末尾出現(xiàn)并且具有高于預定閾值的總體能量的連續(xù)塊的頻域數(shù)據(jù)子組以形成中間尺寸塊的頻域數(shù)據(jù), 以及通過復制或交織而將中間尺寸塊的頻域數(shù)據(jù)與不具有高于所述預定閾值的能量的多個頻域數(shù)據(jù)塊進行組合以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
35.如權利要求27 34中的任一項所述的設備,其中,所述至少一個響度修改包括一組增益,其中,用于內(nèi)插的所述裝置確定內(nèi)插的增益,其中,用于應用所確定的至少一個響度修改或內(nèi)插的響度修改的裝置包括用于應用所述一組增益或一組內(nèi)插的增益的裝置,并且其中,用于內(nèi)插的所述裝置被配置為使得內(nèi)插所確定的增益使用所確定的增益值之間的線性內(nèi)插。
36.如權利要求27 34中的任一項所述的設備,其中,所述至少一個響度修改包括一組增益,其中,用于內(nèi)插的所述裝置確定內(nèi)插的增益,其中,用于應用所確定的至少一個響度修改或內(nèi)插的響度修改的裝置包括用于應用所述一組增益或一組內(nèi)插的增益的裝置,并且其中,用于內(nèi)插的所述裝置被配置為使得內(nèi)插所確定的增益使用二次或更高次多項式內(nèi)插。
37.如權利要求27 34中的任一項所述的設備,其中,所述至少一個響度修改包括一組增益,其中,用于內(nèi)插的所述裝置確定內(nèi)插的增益,其中,用于應用所確定的至少一個響度修改或內(nèi)插的響度修改的裝置包括用于應用所述一組增益或一組內(nèi)插的增益的裝置,并且其中,用于內(nèi)插的所述裝置被配置為使得內(nèi)插所確定的增益使用樣條內(nèi)插。
38.如權利要求27 37中的任一項所述的設備,其中,所述一個或更多個感知響度參數(shù)包括音頻數(shù)據(jù)的激勵和音頻數(shù)據(jù)的特性響度。
39.如權利要求27 37中的任一項所述的設備,其中,所述一個或更多個感知響度參數(shù)包括音頻數(shù)據(jù)的激勵和音頻數(shù)據(jù)的特性響度,并且其中,所述用于處理的裝置被配置為使得實施所述感知響度處理包括響度水平調(diào)節(jié)、增益控制、噪聲補償和/或動態(tài)均衡化中的一個或更多個。
40.如權利要求沈 39中的任一項所述的設備,其中,所述變換是重疊變換。
41.如權利要求40所述的設備,其中,所述重疊變換是短時離散傅立葉變換(STDFT)。
42.如權利要求40所述的設備,其中,所述重疊變換是變型的離散余弦變換(MDCT)。
43.如權利要求40所述的設備,其中,所述重疊變換是短時離散正弦變換。
44.如權利要求沈 43中的任一項所述的設備,其中,所述數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻數(shù)據(jù)通過使用多于一種塊尺寸的感知編碼器被編碼。
45.如權利要求44所述的設備,其中,所述數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻數(shù)據(jù)通過使用256個時域采樣的短塊尺寸和512個時域采樣的長塊尺寸的感知編碼器被編碼。
46.如權利要求45所述的設備,其中,所述數(shù)據(jù)來自根據(jù)AC-3編碼的編碼音頻數(shù)據(jù)。
47.如權利要求44所述的設備,其中,接受的頻域數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻數(shù)據(jù)通過使用256個時域采樣的短塊尺寸和2048個時域采樣的長塊尺寸的感知編碼器被編碼。
48.如權利要求44所述的設備,其中,所述數(shù)據(jù)來自通過AAC編碼器編碼的編碼音頻數(shù)據(jù)。
49.一種用于音頻數(shù)據(jù)的感知響度處理的設備,所述音頻數(shù)據(jù)包含通過以多種塊尺寸進行變換所確定的頻域數(shù)據(jù),該設備包含塊組合器,被配置為接受頻域音頻數(shù)據(jù)塊,每個塊具有多種塊尺寸之一,包括接受比最長塊尺寸短的一個或更多個塊尺寸中的特定短塊尺寸的數(shù)據(jù)塊,以及組合所述特定短塊尺寸的多個接受的頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)塊,頻域信號處理器,被配置為實施最長塊尺寸的接受的塊的感知響度處理, 其中,通過頻域信號處理器實施所述感知響度處理包括確定一個或更多個感知響度參數(shù)。
50.如權利要求49所述的設備,其中,所述頻域信號處理器還包括響度修改確定器,所述響度修改確定器被配置為確定要應用于由塊組合器接受的頻域數(shù)據(jù)塊或其延遲形態(tài)的至少一個響度修改,所述響度修改確定器使用所述一個或更多個確定的感知響度參數(shù),所述設備還包含響度修改內(nèi)插器,與頻域信號處理器耦合,并且被配置為對于以所形成的最長塊尺寸確定的一個或更多個響度修改的任何組而內(nèi)插所確定的至少一個響度修改,以將其應用于被用于形成所確定的至少一個響度修改的特定短塊尺寸的接受的數(shù)據(jù)塊,以及響度修改器,與響度修改內(nèi)插器耦合,以及與塊組合器的輸入端耦合或與和塊組合器的輸入端耦合的延遲元件耦合,并且被配置為將所確定的至少一個響度修改或內(nèi)插的修改應用于接受的頻域數(shù)據(jù)塊或其延遲形態(tài)。
51.如權利要求50所述的設備,還包含延遲元件,所述延遲元件與塊組合器的輸入端耦合,并且被配置為延遲頻域音頻數(shù)據(jù)塊,所述延遲元件的輸出端耦合到所述響度修改器, 使得所述至少一個響度修改或內(nèi)插的修改被應用于頻域數(shù)據(jù)塊的延遲形態(tài)。
52.如權利要求50 51中的任一項所述的設備,其中,所述至少一個響度修改包括一組增益,其中,所述響度修改內(nèi)插器確定內(nèi)插的增益,并且其中,所述響度修改器被配置為應用所述一組增益或一組內(nèi)插的增益。
53.如權利要求49 52中的任一項所述的設備,其中,所述塊組合器包括交織器,使得組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)包括交織所述特定短塊尺寸的頻域數(shù)據(jù)。
54.如權利要求50 52中的任一項所述的設備,其中,所述塊組合器包括數(shù)據(jù)復制器, 使得組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)包括復制所述特定短塊尺寸的頻域數(shù)據(jù)的值以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
55.如權利要求M所述的設備,其中,最近的特定短塊尺寸塊的特定短塊尺寸的頻域數(shù)據(jù)被用于創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
56.如權利要求50 52中的任一項所述的設備,其中,所述塊組合器包括數(shù)據(jù)內(nèi)插器, 使得組合所述特定短塊尺寸的多個頻域數(shù)據(jù)塊以形成最長塊尺寸的頻域數(shù)據(jù)包括在特定短塊尺寸的頻域數(shù)據(jù)的值之間進行內(nèi)插以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
57.如權利要求50 52中的任一項所述的設備,其中,所述最長塊尺寸具有所述特定短塊尺寸的長度的整數(shù)倍的長度,所述整數(shù)倍大于兩倍,并且其中,所述塊組合器包括能量確定器和處理電路,所述能量確定器和處理電路被配置為使得組合所述多個頻域數(shù)據(jù)塊包括使用交織來組合向著所述多個塊的末尾出現(xiàn)并且具有高于預定閾值的總體能量的連續(xù)塊的頻域數(shù)據(jù)子組以形成中間尺寸塊的頻域數(shù)據(jù),以及通過復制或交織而將中間尺寸塊的頻域數(shù)據(jù)與不具有高于所述預定閾值的能量的多個頻域數(shù)據(jù)塊進行組合以創(chuàng)建最長塊尺寸的頻域數(shù)據(jù)。
58.如權利要求50 57中的任一項所述的設備,其中,所述至少一個響度修改包括一組增益,其中,所述響度修改內(nèi)插器確定內(nèi)插的增益,其中,所述響度修改器被配置為應用所述一組增益或一組內(nèi)插的增益,并且其中,所述響度修改內(nèi)插器被配置為使用線性內(nèi)插而在所確定的增益值之間進行內(nèi)插。
59.如權利要求50 57中的任一項所述的設備,其中,所述至少一個響度修改包括一組增益,其中,所述響度修改內(nèi)插器確定內(nèi)插的增益,其中,所述響度修改器被配置為應用所述一組增益或一組內(nèi)插的增益,并且其中,所述響度修改內(nèi)插器被配置為使用二次或更高次多項式內(nèi)插。
60.如權利要求50 57中的任一項所述的設備,其中,所述至少一個響度修改包括一組增益,其中,所述響度修改內(nèi)插器確定內(nèi)插的增益,其中,所述響度修改器被配置為應用所述一組增益或一組內(nèi)插的增益,并且其中,所述響度修改內(nèi)插器被配置為使用樣條內(nèi)插。
61.如權利要求50 60中的任一項所述的設備,其中,所述一個或更多個感知響度參數(shù)包括音頻數(shù)據(jù)的激勵和音頻數(shù)據(jù)的特性響度。
62.如權利要求50 60中的任一項所述的設備,其中,所述一個或更多個感知響度參數(shù)包括音頻數(shù)據(jù)的激勵和音頻數(shù)據(jù)的特性響度,并且其中,實施感知響度處理的頻域信號處理器包括響度水平調(diào)節(jié)、增益控制、噪聲補償和/或動態(tài)均衡化中的一個或更多個。
63.如權利要求49 62中的任一項所述的設備,其中,所述變換是重疊變換。
64.如權利要求63所述的設備,其中,所述重疊變換是短時離散傅立葉變換(STDFT)。
65.如權利要求63所述的設備,其中,所述重疊變換是變型的離散余弦變換(MDCT)。
66.如權利要求63所述的設備,其中,所述重疊變換是短時離散正弦變換。
67.如權利要求50 66中的任一項所述的設備,其中,所述數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻數(shù)據(jù)通過使用多于一種塊尺寸的感知編碼器被編碼。
68.如權利要求67所述的設備,其中,所述數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻數(shù)據(jù)通過使用256個時域采樣的短塊尺寸和512個時域采樣的長塊尺寸的感知編碼器被編碼。
69.如權利要求68所述的設備,其中,所述數(shù)據(jù)來自根據(jù)AC-3編碼的編碼音頻數(shù)據(jù)。
70.如權利要求67所述的設備,其中,接受的頻域數(shù)據(jù)來自編碼音頻數(shù)據(jù),所述編碼音頻數(shù)據(jù)通過使用256個時域采樣的短塊尺寸和2048個時域采樣的長塊尺寸的感知編碼器被編碼。
71.如權利要求67所述的設備,其中,所述數(shù)據(jù)來自通過AAC編碼器編碼的編碼音頻數(shù)據(jù)。
72.一種設備,所述設備包括處理系統(tǒng),所述處理系統(tǒng)至少包括處理器和計算機可讀介質,所述處理系統(tǒng)在操作中被配置為實施音頻數(shù)據(jù)的感知響度處理方法,所述音頻數(shù)據(jù)包括通過以多種塊尺寸進行重疊變換所確定的頻域數(shù)據(jù),所述方法如任何在前的方法權利要求所述。
全文摘要
用于在頻域信息的頻率分辨率以及相應時間覆蓋范圍不恒定的情況下確定和修改頻域音頻信號的感知響度的方法和設備,以及上面具有當被執(zhí)行時使得實施這些方法的指令的計算機可讀介質。將感知響度處理的頻率(以及因而時間)分辨率在最長塊尺寸處保持恒定。一種方法包括塊組合器和響度修改內(nèi)插器。
文檔編號H03G9/02GK102265513SQ200980151996
公開日2011年11月30日 申請日期2009年12月22日 優(yōu)先權日2008年12月24日
發(fā)明者M·J·斯米澤斯 申請人:杜比實驗室特許公司