亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于音頻變換編碼的塊尺寸確定和自適應方法

文檔序號:2820845閱讀:239來源:國知局
專利名稱:用于音頻變換編碼的塊尺寸確定和自適應方法
技術領域
本發(fā)明涉及用于發(fā)送或數字存儲介質的數字音頻信號的有效信息編碼。
使用象分波段編碼法這樣的各種頻率變換的音頻壓縮算法、自適應變換編碼或它們之間的混合被開發(fā)并用于各種商業(yè)應用領域。自適應變換編碼器的例子包括由K.Brandenburg等在“Aspec高質量音樂信號的自適應頻譜熵編碼”第90屆AES會議,1991年2月所作出的報告,以及由M.lwadare等在“基于具有自適應塊尺寸的自適應變換編碼MDCT的128千字節(jié)/秒高保真音頻編碼解碼器”,關于通信中的選擇區(qū)域的IEEE(電氣和電子工程師協(xié)會)雜志,Vol.10,No.1,1992年2月作出的報告。使用混合分波段編碼法和自適應變換編碼的算法的例子包括ISO/IEC 11172-3第三層算法和用于微型光盤系統(tǒng)中的ATRAC壓縮算法。這些算法的具體細節(jié)可以分別在“信息技術-用于數字存儲介質的約高達1.5兆位/秒的運動圖像和相關音頻信號的編碼,第三部分音頻(ISO/IEC 11172-3;1993)”文檔和由索尼公司在1992年9月的微型光盤說明文檔的第10章中得到。由這些算法所使用的變換濾波器組一般基于改進的離散余弦變換,該變換首先由Princen和Bradley在“使用基于時域消混疊設計的濾波器組的分波段/變換編碼”,ICASSP 1997的會刊,第2161-2164頁中提出。
在典型的變換編碼器中,如圖5中所示,輸入音頻樣本首先由緩沖器51按幀進行緩沖,并且同時傳給塊尺寸選擇器52以在由窗口和變換單元52進行開窗口和變換之前確定合適的音頻樣本的塊尺寸或者窗口。在象ATRAC算法這樣的混合分波段和變換編碼器中,以44.1kHz(即,每秒鐘產生44100個樣本)的頻率進行采樣的輸入音頻樣本受到混合分波段和變換編碼。ATRAC算法的編碼過程的混合分波段變換編碼的前端在圖6中示出。輸入音頻樣本是利用正交鏡面濾波器(quadrature mirrorfilter)61濾波為兩個相等帶寬的第一分波段,并且所得的較低頻率波段被由其它組的正交鏡面濾波器62進一步分為兩個相等的帶寬。在此,L、M、H分別表示低波段、中波段和高波段。時間延遲63被用于使高頻波段中的信號與低頻波段中的信號時間校準。然后分波段樣本被分離地通過塊尺寸選擇器64,以確定用于開窗口的合適塊尺寸,并且改進的離散余弦變換在塊65、66和67進行。兩個塊尺寸或模式中的一個將被選擇用于每個頻段。然后,該變換樣本被分組為單元,并且在每個單元中選擇等于或剛好超過單元樣本的最大幅度的比例因子。然后,該變換樣本被用所確定的比例因子和從動態(tài)位分配單元68中推導的位分配信息進行量化。
已知,在變換編碼中,在信號幅度突然增加或在沖擊之前可能會在寂靜時間中出現預回聲或噪聲/激振效應,特別是在用于包含沖擊的音頻幀的變換編碼塊尺寸較長的情況。具有自適應塊尺寸的改進的離散余弦變換一般被用于減少預回聲以及在塊邊界的噪聲。必須首先選擇可用于變換編碼的塊尺寸,使得可以檢測是否存在信號沖擊,短塊變換可以用于處理該沖擊信號,并且不會對相鄰塊產生激振或噪聲信號。當短塊的尺寸足夠小時,預噪聲將不能夠被聽見。一個重要的問題是沖擊信號本身的精確檢測。
在1992年9月的微型光盤系統(tǒng)說明書中簡述的塊尺寸確定方法在圖7中示出。峰值檢測步驟71在每32個樣本塊中確定峰值。然后在步驟72中比較相鄰峰值。在確定步驟73中,如果該差值超過18分貝,則在步驟74選擇模式1或短塊模式。否則在步驟75對于不同的頻段選擇作為長塊模式的模式3或模式4。
為了非常好地降低自適應變換或混合分波段變換編碼過程中的預回聲,需要一種高效的音頻信號分類和塊尺寸確定方法。這使得預回聲完全不能聽見。盡管用于該變換的實際塊尺寸本身是一個重要因素,但是信號沖擊的精確檢測特別是臨界檢測是非常重要的。通常,由于所獲得的相應更好的頻率分辨率將導致更加準確地除去音頻信號成分中的冗余和無關成分,最好使用長塊進行音頻信號的變換編碼。這對于音頻信號的特性緩慢變化的音頻信號段來說特別正確。僅僅當絕對需要確定并且用于臨界沖擊信號時才使用短塊。在現有技術中提供的塊尺寸確定方法在瞬變或沖擊信號檢測精確性上不能給出良好的結果。這可能不能檢測在前掩蔽過程的時間間隔中出現的沖擊信號。前掩蔽是快速增加的高聲或按時出現的沖擊的存在對該沖擊之前的聲音具有掩蔽效應的情況。這種檢測的失敗有時可能導致所不希望的聽覺效果。盡管單聲掩蔽信號(masker)試驗已經證明預掩蔽持續(xù)時間在5毫秒到20毫秒之間,但是從經驗可知可以聽見更短持續(xù)時間的預回聲。有效預掩蔽持續(xù)時間應當在小于5毫秒的范圍內。作為在掩蔽信號的出現后的延遲掩蔽效應的后掩蔽效應一般在20毫秒或更大的時間間隔內。對于長塊幀尺寸一般小于20毫秒的情況,峰值信號的釋放一般被認為具有不重要的影響。對于非常高精度的塊尺寸確定,可以考慮到后掩蔽效應。
本發(fā)明基于對高精度塊尺寸確定方案的需要,并且考慮到瞬時掩蔽,包括前掩蔽和后掩蔽效應。在本發(fā)明中,可以對全帶寬音頻信號或限制帶寬信號進行操作,其中限制帶寬信號例如在被濾波為頻率波段之后的分波段的信號。本發(fā)明具有考慮到經驗上的前掩蔽持續(xù)時間,排除作為時間間隔一半的最后子幀,把當前考慮的幀中的音頻樣本分組為約3毫秒的相等時間間隔的子幀的方法;所述當前考慮幀和以前考慮的幀的最后子幀的整個或一半,以及可選的來自構成擴展幀的將來幀的一半子幀將被用于峰值的估計;在所述子幀中確定所述峰值的方法;計算所述相鄰時間間隔的峰值之間的差值的方法;可選的計算由一子幀時間間隔所分離的所述峰值之間的差值的方法;所述差值與預定閾值之間的比較之后確定是否應當使用長塊尺寸和短塊尺寸的方法。另一種替換方法包括把當前幀中的樣本與以前考慮的幀的最后幀的整個或一半中的樣本進行分組的方法,所述子幀間隔由人耳的瞬時聽覺特性所決定;確定在所得分組中的所選數目的峰值的方法;把按照幅度次序選擇的峰值指定為參考峰值的方法;從參考峰值之前的子幀間隔中確定峰值的方法;計算參考峰值與在參考峰值的所述子幀間隔中的峰值之間的差值的方法;把所述差值與預定閾值相比較的方法,其中當該差值超過預定閾值時,調用較小的塊尺寸;否則采用新的參考峰值,并且重復該過程,直到找到超過該預定閾值的差值或者當所有可用峰值都被考慮過之后為止。
把當前考慮的幀中的音頻樣本分組為子幀的方法,首先涉及從以前的幀以及可選的將來的幀與所有在當前幀中的所有音頻樣本中選擇指定數目的音頻樣本。根據經驗確定的前掩蔽持續(xù)時間,對于每個子幀的時間間隔應當約跨越3毫秒的間隔。指定數目的音頻樣本應當構為一半子幀的持續(xù)時間。分組為子幀的構成可以按照圖3中所示進行。在考慮到計算當前子幀的峰值與多達兩個以前子幀的峰值之間的差值的情況將使得更大范圍的信號被歸類為沖擊信號。然后所獲得的峰值中的差值再次與正閾值相比較。這意味著信號釋放的后掩蔽效應將被忽略。如果要考慮不太重要的后掩蔽的影響,則需要再次與負閾值相比較。因此把音頻樣本第一次分組為子幀的第一組方法提供一種獲得峰值和用于確定塊尺寸的差值計算的方便和較少計算量的方法。但是,該組方法不能夠對所有可能信號沖擊或躍變進行完全搜索。所選數目的峰值被第一次在所述擴展幀中確定的另一組方法將允許更加完全的搜索。受到計算負載的許可,首先確定峰值的最大數目。最大峰值首先被作為參考峰值。從來自該參考峰值的子幀的時間窗,建立峰值并且計算與該參考峰值的差值。如果該差值不大于預定閾值;則利用第二大的峰值作為參考峰值重復該過程,等等。該過程被重復進行直到找到超過預定閾值的差值,或者當所有可用峰值都被考慮過之后。


圖1為改進的峰值分塊尺寸確定方法的本發(fā)明的一個實施例的流程圖。
圖2為改進的峰值分塊尺寸確定方法的本發(fā)明的第二實施例的流程圖。
圖3為子幀方法和差值計算的示意圖。
圖4為峰值能量中心塊尺寸確定方法的示意圖。
圖5為自適應變換編碼器的前端的方框圖。
圖6為ATRAC編碼器的前端的方框圖。
圖7為塊尺寸確定方法的現有技術的流程圖。
稱為改進的子幀分塊尺寸確定方法的一個實施例的流程圖在圖1中示出。在總的范圍內,在本質上采取混合分波段變換編碼器。在單純使用變換編碼的情況下,分波段的數目被作為1。如圖1的步驟14中所定義的每個分波段幀被分為子幀。為了說明的目的,在圖3中示出使用大小為128樣本的分波段幀一個實例。根據前掩蔽的考慮,具有大小為32樣本的分波段子幀是恰當的,該樣本約為3.0毫秒的時間間隔。
在本實施例中,與現有技術有兩個主要的不同。一是大小為128樣本的當前分波段幀的16個樣本擴展被用于檢測一沖擊信號,而不是僅僅使用128個樣本。該擴展來自MDCT的窗函數。另一個是如果相鄰峰值之間的差值小于預定閾值,則除了檢查相鄰峰值之間的差值之外還檢查由子幀段所分隔的峰值之間的差值。這兩點都需要用于減少在沖擊信號的檢測中漏檢的可能性。
在步驟11中對分波段數目和幀尺寸進行初始化之后,對每個分波段進行塊尺寸確定。確定步驟12確定是否所有分波段都已經被分析。根據所執(zhí)行的分波段濾波的類型,確定是否相等或不等的分波段帶寬被用于所有分波段,在步驟13中的分波段幀尺寸的數值分配和適當的子幀尺寸將相應地變化。在步驟14中,考慮到所有MDCT的窗函數所覆蓋的樣本,每個分波段幀被擴展為NSF(=NSUBi+Mi)。在此,Mi是擴展樣本的數目。例如,對于32樣本的MDCT,擴展樣本的數目是16。
在步驟15計算用于峰值確定的區(qū)段數目。在每個區(qū)段中的峰值在步驟16中確定。相鄰峰值之間的差值以及由一子幀區(qū)段所分離的峰值之間的差值在步驟17中計算。只要有一個差值超過如確定步驟18中所確定的預定閾值,則將執(zhí)行短塊分配步驟110。否則,將提供一個長塊分配步驟19。
如圖3中所示,形成擴展分波段幀以用于峰值確定的目的。根據圖3的實例,其中32是子幀的尺寸,根據用于32-樣本的MDCT的窗函數,該擴展樣本的數目將為16。128個樣本的分波段幀尺寸與來自以前的幀的16個樣本一同被考慮用于沖擊信號的檢測。因此,四個32-樣本的子幀和一個16-樣本的子幀將被用于每個確定迭代過程中。如圖3中所示,由于在該時間段中的窗口數值驟減,并且該部分是擴展子幀的末端部分,所以在此來自將來的幀的16個樣本可以被忽略。這樣,要被計算的峰值數目是5個。在這些峰值中總共將執(zhí)行最多7次的差值計算。為了有效地實施,只要一個所計算差值超過該預定閾值,則將啟動短塊模式。一般,當所有δi(i=1,2,3,或4)都小于該預定閾值時,還需要P3和P1、P4和P2、P5和P3之間的比較。只要有一個δi(i=1,2,3,4,5,6或7)大于該預定閾值,則結束該比較過程以節(jié)約計算時間。
一個稱為峰值能量集中塊尺寸確定方法的替代實施例在圖2中示出。沖擊信號可以被當作在一定的信號持續(xù)時間中能量突然上升的信號。近似地,如果在相同的持續(xù)時間中有一個沖擊信號,則在信號中的峰值時刻可以被認為是突然上升的能量的中心,如圖4中所示。通過經驗觀察可知這對于許多例子來說是正確的。
如圖4中所示,P是在SD時間段中信號的峰值。C是P峰值的位置,并且它是在SD時間段中信號能量的焦點。點B與點C剛好相距32個樣本。另一個峰值從點B開始到點A進行搜索,把它當作32-樣本的子塊。如果峰值P與第二峰值Ps的差值大于預定閾值,則判斷在該當前塊中出現一個沖擊信號。然后將把短塊MDCT應用于該當前塊。否則,第二峰值Ps被作為新的P,并且上述步驟迭代進行,直到達到點S。如果沒有大于第二峰值Ps的其它峰值,則采用長塊MDCT。
圖2為用于峰值集中塊尺寸確定方法的流程圖。P、Ps、C、B、A和S的含義如圖4中所示。在圖2中,步驟21對一個音頻信號進行塊尺寸確定的初始化。步驟22判斷是否所有子塊都已經為確定塊尺寸而受到檢查。如果為“是”,則該過程結束。則否將對下一個分波段進行塊尺寸確定過程。
該步驟23中,為當前分波段幀查找峰值P,并且峰值能量集中點C被相應地定位。在步驟24,假設峰值能量P的上升包絡時間段是從中點C開始的32-樣本子塊的BC段。在步驟25,在由點B和A所限定的子塊的32-樣本中查找第二峰值Ps。如果在步驟26中,第二峰值Ps與P的差值大于預定閾值,則在步驟27中指定短塊模式。否則,從步驟28中,判斷點A是否與分波段S的起點相一致。如果為“否”,則在步驟210中把Ps作為新的P,并且重復上述步驟24、25、26、27和28。如果為“是”,則為當前分波段幀指定長塊模式。
圖4對于SC的長度比32-樣本的兩倍更長的情況有效。當SC的長度比32-樣本的兩倍短時,BC的長度不固定為32,而是小于32-樣本的SC/2。對于這種情況,SB的長度也小于32,并且將為SC/2。也就是說,B將為S和C之間的中點。
在SC的長度比16-樣本(32-樣本的一半)短的情況下,這對應于1.45毫秒,一個長塊MDCT將被用于當前塊。即使當在當前塊的開始部分中存在沖擊信號的情況下,前掩蔽作用也可以掩蔽周期小于29毫秒的短周期的預回聲,該預回聲是由沖擊信號所引起的。
本發(fā)明對于音頻信號沖擊和信號的釋放的檢測非常有效。使用任何一種所述的塊尺寸確定技術將得到臨界躍變信號沖擊的高度精確的檢測,從而能夠減小或消除可聽見的預回聲。這可以為所用的變換編碼提供恰當的塊尺寸。根據計算量和可支持的RAM和ROM,可以包含不同的技術選擇。
權利要求
1.一種把音頻信號確定和分類為子類以確定變換編碼器的子幀塊尺寸的方法,其特征在于,所述方法包括a)檢測可用于變換編碼器的塊尺寸的數目;b)在時間間隔對一輸入音頻信號進行采樣,并且把所述樣本分組為具有相等數目的樣本的幀;c)在時域分析所述幀以產生至少一個比較指數;d)為變換編碼器選擇一個適當的塊尺寸。
2.根據權利要求1所述的方法,其特征在于,所述音頻信號是全帶寬音頻信號。
3.根據權利要求1所述的方法,其特征在于,所述音頻信號是限制帶寬的音頻信號。
4.根據權利要求1所述的方法,其特征在于,所述分析步驟包括a)根據在所述變換編碼器中所用的窗函數擴展每個所述幀;b)把包含在該音頻樣本中的所述擴展幀細分為更小的子幀,該更小子幀的數目由人耳的瞬時聽覺特性決定的時間間隔所確定;c)根據在所述子幀中的樣本幅度確定每個所述子幀中的峰值;d)計算相鄰子幀的峰值與被一子幀時間間隔所分離的兩個子幀的峰值之間的差值,所述差值被作為所述比較指數;e)比較所述指數與一預定閾值,使得當該指數大于預定閾值時調用較小的塊尺寸,并且當該指數不大于該預定閾值時調用較大的塊尺寸。
5.根據權利要求1所述的方法,其特征在于,所述分析步驟包括a)通過考慮在所述變換編碼器中所用的窗函數擴展每個所述幀/分波段幀;b根據在擴展幀中的樣本的幅度,在每個所述擴展幀/擴展分波段幀內的指定數目的峰值,每個峰值是局部的最大幅值;c)確定由人耳的瞬時聽覺特性所確定的分波段間隔,取所述峰值中的最大值作為參考峰值,從該參考峰值之前的子幀間隔內確定該峰值;d)計算該參考峰值與在它之前的所述子幀間隔內的峰值之間的差值;以及e)比較所述差值與預定閾值,其中當該差值超過預定閾值時調用較小的塊尺寸或子幀尺寸。
6.根據權利要求5所述的方法,其特征在于,所述比較步驟包括a)當在權利要求5的步驟e)中的差值不超過該預定閾值時,通過取在權利要求5的步驟c)中查找的峰值作為新的參考峰值,重復權利要求5中所述的步驟c)至e);以及b)當在最后子幀間隔中窮盡所有局部最大值之后沒有找到超過預定閾值的差值時,確定一個大的塊尺寸或子幀尺寸。
7.根據權利要求6所述的方法,其特征在于,所述最后子幀間隔可以等于或小于在其之前的子幀間隔,該子幀間隔取決于每個擴展幀/分波段幀的實際情況。
8.根據權利要求5所述的方法,其特征在于,當權利要求5的步驟e)不產生超過預定閾值的差值時,從兩個子幀間隔和在該參考峰值之前的一個子幀間隔確定峰值。
9.根據權利要求4所述的方法,其特征在于,在該前面的音頻幀的最后所述子幀間隔內的所述音頻樣本被考慮用于計算峰值之間的所述差值。
10.根據權利要求5所述的方法,其特征在于,在該前面的音頻幀的最后所述子幀間隔內的所述音頻樣本被考慮用于計算峰值之間的所述差值。
11.一種把音頻信號確定和分類為子類以確定變換編碼器的塊尺寸(或子幀塊尺寸)的方法,其特征在于,所述方法包括a)把該音頻信號分為不同的頻帶;b)把每個頻帶中的音頻樣本峰值分組為相等時間間隔的幀,在屬于不同頻帶的幀中的所述音頻樣本的數目不必相等;c)使相等間隔的每個所述幀經過一分析方法的處理,使得為不同頻帶確定不同的塊尺寸或子幀尺寸。
12.根據權利要求11所述的方法,其特征在于,所述分析方法包括a)根據在所述變換編碼器中所用的窗函數擴展每個所述幀;b)把包含在該音頻樣本中的所述擴展幀細分為更小的子幀,該更小子幀的數目由人耳的瞬時聽覺特性決定的時間間隔所確定;c根據在所述子幀中的樣本幅度確定每個所述子幀中的峰值;d)計算相鄰子幀的峰值與被一子幀時間間隔所分離的兩個子幀的峰值之間的差值,所述差值被作為所述比較指數;e)比較所述指數與一預定閾值,使得當該指數大于預定閾值時調用較小的塊尺寸,并且當該指數不大于該預定閾值時調用較大的塊尺寸。
13.根據權利要求11所述的方法,其特征在于,所述分析方法包括a)通過考慮在所述變換編碼器中所用的窗函數擴展每個所述幀/分波段幀;b)根據在擴展幀中的樣本的幅度,在每個所述擴展幀/擴展分波段幀內的指定數目的峰值,每個峰值是局部的最大幅值;c)確定由人耳的瞬時聽覺特性所確定的分波段間隔,取所述峰值中的最大值作為參考峰值,從該參考峰值之前的子幀間隔內確定該峰值;d)計算該參考峰值與在它之前的所述子幀間隔內的峰值之間的差值;以及e)比較所述差值與預定閾值,其中當該差值超過預定閾值時調用較小的塊尺寸或子幀尺寸。
全文摘要
在此公開用于混合編碼,特別用于ATRAC編碼解碼器系統(tǒng)的有效塊尺寸確定方法。它是改進的子幀分割方法和峰值能量集中方法。為了明顯消除或減小前回聲噪聲,沖擊信號的精確檢測在混合音頻編碼中非常重要。與現有技術相比,這些方法可以提供更加精確的塊尺寸確定,并具有與現有技術相類似的復雜度。
文檔編號G10L19/00GK1253418SQ9912230
公開日2000年5月17日 申請日期1999年10月29日 優(yōu)先權日1998年10月29日
發(fā)明者申省梅, 梁世豐, 陳亞平 申請人:松下電器產業(yè)株式會社
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1