專利名稱:對編碼信號進(jìn)行處理的制作方法
技術(shù)領(lǐng)域:
本發(fā)明主要地涉及一種用于組合來自至少兩個(gè)信號源的頻域編碼信號的方法。本發(fā)明還主要涉及一種音頻內(nèi)容處理系統(tǒng),并且具體地涉及一種壓縮音頻內(nèi)容處理系統(tǒng)。本發(fā)明還涉及對于壓縮音頻信號提供音量強(qiáng)弱變化(fading)。
背景技術(shù):
在現(xiàn)有技術(shù)中已經(jīng)建立用于音頻信號的壓縮方法,這些方法固守于通過對輸入信號的頻譜表示進(jìn)行編碼而進(jìn)行的感知音頻編碼這一傳統(tǒng)范式。此方式在信號的頻域而不是時(shí)域中應(yīng)用編碼。然而,即使對于比如視頻信號這樣的其它信號,頻譜頻域編碼也是可能的。
例如,至少就涉及音頻文件分發(fā)和歸檔而言,已經(jīng)建立了依據(jù)MPEG1-或者M(jìn)PEG2-層3(mp3)音頻格式的編碼作為因特網(wǎng)中的事實(shí)標(biāo)準(zhǔn)。然而,也已經(jīng)建立了其它頻域壓縮方法作為標(biāo)準(zhǔn),比如MPEG-4的高級音頻編碼(AAC)、道爾貝的AC-3和其它頻域編碼方法。這些壓縮方法的成功已經(jīng)為專用于回放這種壓縮音頻文件的手持設(shè)備開辟了新的市場。
對壓縮方法的深入說明可以在K.Brandenburg,G.StolL,“ISO-MPEG-1 audioa generic standard for coding of high-qualitydigital audio”,J.Audio.Eng.Soc.,Vol.42,No.10,Oct.1994,pp.780-792中找到。
在比如移動通信設(shè)備或者移動客戶電子設(shè)備這樣的移動設(shè)備中,壓縮標(biāo)準(zhǔn)mp3作為可能的音頻格式之一而受到支持。應(yīng)用音頻格式的一個(gè)例子可以是鈴音。壓縮音頻文件例如可以用作鈴音。由于鈴音通常持續(xù)時(shí)間短,所以用戶可能想要創(chuàng)建相對于從壓縮音頻文件直接地提取的音頻剪輯而言的不同個(gè)性化鈴音。另一例子例如可以是用于根據(jù)現(xiàn)有音頻內(nèi)容數(shù)據(jù)庫創(chuàng)建個(gè)性化用戶內(nèi)容的音頻編輯器應(yīng)用。
在移動設(shè)備內(nèi),數(shù)據(jù)庫可以包括壓縮音頻文件的集合。然而,個(gè)性化可能需要音頻內(nèi)容創(chuàng)建工具。這些例如可以是允許編輯音頻內(nèi)容的編輯工具。然而,編輯壓縮文件、特別是已經(jīng)根據(jù)頻域壓縮方法而壓縮的文件可能是不可能的。利用標(biāo)準(zhǔn)工具在壓縮域中進(jìn)行編輯由于頻域壓縮信號的性質(zhì)而不受支持。由于在壓縮域中比特流不是感知性音頻文件在時(shí)域中的表示,所以沒有解碼就混合不同信號是不可能的。
此外,變強(qiáng)和變?nèi)鯔C(jī)制對于時(shí)域信號而言易于實(shí)施。然而,對壓縮音頻信號進(jìn)行解碼的計(jì)算復(fù)雜度是對施加強(qiáng)弱變化的約束。在要使用時(shí)域強(qiáng)弱變化方法的情況下將必須實(shí)施解碼和編碼兩者。其缺點(diǎn)在于,比如MPEG音頻格式的壓縮音頻比特流通常需要大量的計(jì)算復(fù)雜度。例如,在移動設(shè)備中,特別地由于計(jì)算資源通常是有限的,所以解碼消耗了很多處理能力。
然而,可能希望特別是在頻域中處理壓縮比特流。當(dāng)前系統(tǒng)的缺點(diǎn)在于沒有在頻域中進(jìn)行編輯的可能性。在編輯之前對壓縮數(shù)據(jù)流進(jìn)行完整解碼這一需要增加了計(jì)算時(shí)間和實(shí)施成本。對于無需解壓即可編輯壓縮文件存在著需要。例如,可能需要將不同信號混合成單個(gè)文件。
此外,提供比如變強(qiáng)和變?nèi)踹@樣的強(qiáng)弱變化效果對于壓縮數(shù)據(jù)而言可能也是需要的。例如,在移動設(shè)備中,那些用于壓縮音頻信號的編輯工具是需要的。
發(fā)明內(nèi)容
為了克服這些缺點(diǎn),實(shí)施例提供了一種用于對來自至少兩個(gè)信號源的頻域編碼信號進(jìn)行組合的方法,包括對所述編碼信號進(jìn)行解碼,獲得量化頻譜分量;對解碼信號的量化頻譜分量進(jìn)行逆量化,獲得窗序列;以及對至少逆量化信號進(jìn)行組合,獲得組合信號。
實(shí)施至少兩個(gè)信號的組合的最簡單情況將是直接地操縱原始比特流。然而,這在實(shí)踐中不起作用,因?yàn)槊總€(gè)數(shù)據(jù)幀已經(jīng)針對特定信號而優(yōu)化了。由于編碼而難以對頻譜采樣進(jìn)行改變。此外,比特流格式化將是很有挑戰(zhàn)性的任務(wù),因?yàn)檎Z法已經(jīng)被壓縮標(biāo)準(zhǔn)限定,這對原始比特流操縱設(shè)置了限制。
因此,需要對比特流進(jìn)行一些解碼。然而,計(jì)算復(fù)雜度應(yīng)當(dāng)如根據(jù)本發(fā)明而可能的那樣保持在合理限制內(nèi)。
本發(fā)明方法允許將至少兩個(gè)壓縮比特流混合成一個(gè)壓縮比特流而無需對比特流進(jìn)行完全地解壓。只需要部分地解壓。
為了減少冗余度,熵編碼被應(yīng)用于壓縮數(shù)據(jù)。這例如可以通過應(yīng)用霍夫曼編碼來完成。由此,量化頻譜可以劃分成三個(gè)不同區(qū)域,而不同的霍夫曼表可以指定給相應(yīng)區(qū)域。為了創(chuàng)建待處理的信號的量化頻譜,編碼比特流需要先被解碼。解碼例如可以通過應(yīng)用逆霍夫曼解碼來完成。所得比特流可以代表信號的量化頻譜成分。
混合的第一可能點(diǎn)將是在解碼之后。然而,這一方式的缺點(diǎn)在于信號的幅度定標(biāo)不是已知的。此外,信號源可以在不同的域中。例如,在AAC編碼信號中,可能不能在兩個(gè)信號源中實(shí)現(xiàn)時(shí)間噪聲整形(TNS)。因此,信號的質(zhì)量是不可預(yù)測的。另一缺點(diǎn)可能來自于待混合的信號源可能使用不同頻率分辨率的事實(shí)。這可能造成很嚴(yán)重的質(zhì)量問題。
混合的第二可能點(diǎn)是在逆量化之后。這里唯一的限制是頻率分辨率。無法假設(shè)頻率分辨率總是相同。在頻域壓縮信號中,數(shù)據(jù)塊的塊長度可以限定頻率分辨率。針對不同的塊長度應(yīng)用不同的窗序列。這些窗序列可以是長的、短的、長到短的和短到長的。
在壓縮過程中,對信號施加濾波器組處理。例如使用改進(jìn)式離散余弦變換(MDCT)來施加動態(tài)窗切換。結(jié)果是窗序列。這些窗允許實(shí)現(xiàn)頻譜分解和冗余度減少。短的窗用來處理其特征隨時(shí)間快速變化的瞬態(tài)信號。
由于頻率分辨率多數(shù)時(shí)間對于多數(shù)信號是相同的,所以可以混合不同信號的窗序列。完整的分解對于混合信號不是必要的。
本發(fā)明方法允許省略濾波器組計(jì)算。合成多相濾波器組在計(jì)算上最為昂貴。據(jù)報(bào)導(dǎo),總解碼時(shí)間逾半數(shù)被花費(fèi)在合成濾波器組塊上。因此,在組合兩個(gè)信號時(shí)省略這一步驟可以將計(jì)算復(fù)雜度減少一半以上。
實(shí)施例提供了對窗序列中的至少一個(gè)窗序列進(jìn)行逆變換,獲得子帶信號,以及將子帶信號重新變換成具有與來自沒有進(jìn)行逆變換的至少第二信號的窗序列的頻率分辨率相匹配的頻率分辨率的修改窗序列。
mp3和AAC音頻格式以及其它頻域壓縮方法將較短的變換長度應(yīng)用于在性質(zhì)上是瞬態(tài)的信號段。這造成不同的頻率分辨率。然而,具有不同頻率分辨率的信號不應(yīng)當(dāng)相互混合,因?yàn)樗眯盘柕馁|(zhì)量是不可預(yù)測的。通常使用長的窗序列。短的窗序列用于瞬態(tài)信號。然而,這些序列通常很少出現(xiàn)。在對第一比特流進(jìn)行解碼之后,將很有可能具有與第二比特流相同的窗序列。在這樣的情況下,無需計(jì)算要與第二信號的窗序列相匹配的第一信號的窗序列。
只有在兩個(gè)信號的窗序列不同的情況下,才可能需要計(jì)算匹配。僅針對那些沒有同一窗序列的幀來完成窗序列的轉(zhuǎn)換,因此減少了計(jì)算量。然而,可能有必要暫時(shí)地存儲鄰近窗,因?yàn)樵撧D(zhuǎn)換可能需要關(guān)于鄰近窗的信息。為了進(jìn)行轉(zhuǎn)換工作,可能需要存儲來自先前幀、當(dāng)前幀和后繼幀的編碼幀。之所以這樣可能是因?yàn)樽儞Q使用了重疊方法。這可能造成暫時(shí)鄰近的窗的50%交迭。例如,MDCT提供了塊之間的交迭,而MDCT編碼幀被重建成使得當(dāng)前幀的前一半在施加IMDCT之后被添加到先前幀的后一半。可以通過將先前幀的后一半添加到當(dāng)前幀的前一半并且將當(dāng)前幀的后一半添加到后繼幀的前一半來為正向MDCT存儲當(dāng)前幀。此后,可以施加如下正向MDCT以獲得用于組合的恰當(dāng)信號,這些正向MDCT使用了第二mp3比特流的窗序列。
這些實(shí)施例提供了將信號中的至少一個(gè)信號解碼成子帶信號。那一信號可以是在施加MDCT之前在濾波器組之后的解碼過程中獲得的信號。獲得要與子帶信號相組合的其它信號的窗長度。利用關(guān)于這一窗長度的了解,可以對子帶信號施加重新變換。重新變換允許調(diào)整頻率分辨率以關(guān)注(watch)其它信號的頻率分辨率。在這樣的情況下,窗序列具有相等長度。沒有歸因于不同頻率分辨率的約束而對這兩個(gè)信號進(jìn)行組合因此是可能。
更多實(shí)施例提供了對窗序列中的至少兩個(gè)窗序列進(jìn)行逆變換并且在同一變換域內(nèi)對經(jīng)變換的窗序列進(jìn)行組合。這些實(shí)施例提供了混合信號包括分別地將窗序列中的至少兩個(gè)窗序列逆變換成子帶信號;以及將子帶信號中的至少兩個(gè)子帶信號組合成組合子帶信號。在這一情況下,待組合的信號需要被分解直至子帶信號可用為止。這可以是在逆改進(jìn)式余弦變換(IMDT)之后的情況。
待組合的信號的幅度電平可以根據(jù)實(shí)施例來調(diào)整。這可以允許限定每個(gè)組合信號的信號強(qiáng)度。例如,信號之一可以混合到其它信號的背景。
實(shí)施例提供了在組合信號之前對信號中的至少一個(gè)信號進(jìn)行頻帶限制。對信號中的至少一個(gè)信號進(jìn)行頻帶限制可以按比例減少整個(gè)解碼復(fù)雜度。只有在混頻器級處實(shí)際需要的頻譜部分才被解碼和處理。例如,如果僅一半頻譜添加到第一信號,則僅需要將IMDCT+MDCT+混疊減少處理施加到第二信號的前16個(gè)子帶。在立體聲信號的情況下,還有可能將第二信號混合成單聲道信號以節(jié)省更多的處理時(shí)間。
根據(jù)實(shí)施例還提供了將組合信號的頻譜分量編碼成頻域解碼輸出信號??梢杂帽日w地壓縮時(shí)域信號更低的計(jì)算復(fù)雜度來壓縮經(jīng)組合的信號。
為了對混合信號進(jìn)行編碼,利用在輸入幀中已經(jīng)可用的編碼信號是有利的。這節(jié)省了計(jì)算復(fù)雜度。例如,如果施加了MDCT域中的混合,則僅量化、霍夫曼編碼和比特流格式化可能是必要的。
如果至少部分地使用來自輸入幀的現(xiàn)有定標(biāo)值則可以簡化量化步驟。mp3幀劃分成三個(gè)部分這些部分可以是報(bào)頭、輔助信息和有效載荷部分。報(bào)頭主要地用于幀同步以及用于確定幀的有效載荷部分的聲道和編碼配置。有效載荷部分包含用于頻譜和霍夫曼編碼頻譜采樣的定標(biāo)值。一些輔助信號需要與有效載荷部分相關(guān)聯(lián)。輔助信息例如描述了用于頻譜采樣的霍夫曼表編號、有效載荷部分的長度、塊類型等。
對在子帶域中混合的信號進(jìn)行編碼可能需要額外的MDCT處理。然而,編碼過程保持相同。由于不需要在壓縮過程中的多相濾波器組這一級,所以可以實(shí)現(xiàn)顯著的復(fù)雜度減少。據(jù)估計(jì),總編碼時(shí)間的60%被花費(fèi)在心理聲學(xué)和多相濾波器組分析上。省略這一步驟會顯著地減少了計(jì)算時(shí)間。
本發(fā)明的另一方面是一種設(shè)置用于對來自至少兩個(gè)信號源的頻域編碼信號進(jìn)行組合的系統(tǒng),包括解碼器,設(shè)置用以對所述編碼信號進(jìn)行解碼,獲得量化頻譜分量;逆量化器,設(shè)置用以對解碼信號的量化頻譜分量進(jìn)行逆量化,獲得窗序列;以及組合器,設(shè)置用以對至少逆量化信號進(jìn)行組合,獲得組合信號。
本發(fā)明的又一方面是一種包括這樣的系統(tǒng)的模塊和一種這樣的系統(tǒng)在客戶電子設(shè)備或者移動通信設(shè)備中的用途。
本發(fā)明的再一方面是一種計(jì)算機(jī)程序產(chǎn)品,包括存儲于其上用于對來自至少兩個(gè)信號源的頻域編碼信號進(jìn)行組合的計(jì)算機(jī)程序,該程序包括可操作用以使處理器執(zhí)行以下過程的指令對所述編碼信號進(jìn)行解碼,獲得量化頻譜分量;對解碼信號的量化頻譜分量進(jìn)行逆量化,獲得窗序列;以及對至少逆量化信號進(jìn)行組合,獲得組合信號。
根據(jù)另一方面,提供了一種用于在頻域編碼音頻信號內(nèi)提供強(qiáng)弱變化的方法,包括從頻域編碼音頻信號的比特流中獲得代表全局幅度電平值的比特流元素;以及利用更替(alternation)值針對編碼音頻信號的幀和聲道來改變代表全局幅度電平值的比特流元素,其中在每第n幀改變該更替值,其中n是根據(jù)強(qiáng)弱電平的數(shù)目和強(qiáng)弱變化的長度來確定的。
此方法可以向編碼音頻信號提供強(qiáng)弱變化效果而無需對壓縮信號進(jìn)行解壓。例如,MP3音頻文件或者AAC音頻文件可以無處理約束地加以編輯。這些實(shí)施例消除了對于在需要強(qiáng)弱變化效果時(shí)對音頻文件進(jìn)行解壓和重新壓縮的需要。
代表全局幅度電平值的比特流元素例如可以是在MP3和AAC音頻流的比特流內(nèi)提供的global_gain參數(shù)。這一global_gain參數(shù)可以與MP3文件中的定標(biāo)因子分開使用并且用作AAC文件中的定標(biāo)因子的起始值。通過相應(yīng)地僅修改這一比特流元素,可以獲得變強(qiáng)和變?nèi)跣Ч?br>
實(shí)施例提供了根據(jù)強(qiáng)弱電平的數(shù)目與強(qiáng)弱變化的長度之商來確定值n。例如,強(qiáng)弱電平的數(shù)目可以根據(jù)強(qiáng)弱音量來確定,例如根據(jù)音量電平的相對變化來確定。此外,強(qiáng)弱變化例如就幀的數(shù)目而言的長度例如可以根據(jù)下式來確定 就此而言,可以根據(jù)幀計(jì)數(shù)和強(qiáng)弱電平來確定如下值n,該值n確定了可以在多少幀之后改變該更替值。例如,也可以在對數(shù)階或者任何其它曲線階中選擇值n。然而,更替值可以不變。音量的變化可以根據(jù)對每n幀進(jìn)行的累積的累積更替值來確定。例如,對于前十幀,累積的更替值是2,對于接下來的十幀是4,對于再接下來的十幀是6,依此類推。
實(shí)施例提供了針對在編碼音頻信號的強(qiáng)弱變化時(shí)段內(nèi)的每個(gè)幀和每個(gè)聲道來改變代表全局幅度電平值的比特流元素。然而,可選的值可以對于在n幀的時(shí)段內(nèi)的所有幀都不變。聲道的數(shù)目可以根據(jù)比特流來確定。此外,可以針對MP3文件內(nèi)的每個(gè)顆粒(granule)來更改音量電平。顆粒的數(shù)目也可以根據(jù)比特流來確定。就AAC編碼文件而言,可以針對可在逐幀的基礎(chǔ)上根據(jù)比特流來確定的每個(gè)句法AAC元素來改變音量電平。
為了允許具有所需強(qiáng)弱變化音量的正確強(qiáng)弱變化,實(shí)施例提供了根據(jù)相對于原幅度電平的初始幅度電平或者結(jié)束幅度電平來確定強(qiáng)弱音頻。
為了無需解碼即可實(shí)現(xiàn)強(qiáng)弱變化效果,實(shí)施例提供了從比特流中提取代表全局幅度電平的比特流元素;改變代表全局幅度電平的比特流元素;以及將代表全局幅度電平的改變后的比特流元素插入到比特流中。
本發(fā)明的另一方面是一種設(shè)置用于在頻域編碼音頻信號內(nèi)提供強(qiáng)弱變化的設(shè)備,包括解析器,設(shè)置用以從頻域編碼音頻信號的比特流中獲得代表全局幅度電平值的比特流元素;處理單元,設(shè)置用以利用更替值針對編碼音頻信號的幀和聲道來改變代表全局幅度電平值的比特流元素,其中處理單元被設(shè)置用以在每第n幀改變該更替值,其中n是根據(jù)強(qiáng)弱電平的數(shù)目和強(qiáng)弱變化的長度來確定的。
本發(fā)明的又一方面是一種用于在頻域編碼音頻信號內(nèi)提供強(qiáng)弱變化的計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該程序包括可操作用以使處理器執(zhí)行以下過程的指令從頻域編碼音頻信號的比特流中獲得代表全局幅度電平值的比特流元素;以及利用更替值針對編碼音頻信號的幀和聲道來改變代表全局幅度電平值的比特流元素,其中在每第n幀改變更替值,其中n是根據(jù)強(qiáng)弱電平的數(shù)目和強(qiáng)弱變化的長度來確定的。
本發(fā)明的再一方面是這樣的方法在電子設(shè)備或者移動通信設(shè)備內(nèi)的用途。
本發(fā)明的其它目的和特征將從結(jié)合附圖來考慮的以下具體描述中變得明顯。然而應(yīng)當(dāng)理解,附圖僅僅是出于說明的目的而設(shè)計(jì)的,而不是作為對本發(fā)明的限制,至于對本發(fā)明的限制則應(yīng)當(dāng)參照所附權(quán)利要求書。還應(yīng)當(dāng)理解,附圖沒有按比例繪制,而它們的本意僅在于從概念上說明這里描述的結(jié)構(gòu)和過程。
在附圖中圖1是MP3編碼、解碼系統(tǒng)的示意性框圖;圖2是AAC編碼、加碼系統(tǒng)的示意性框圖;
圖3是用于混合mp3壓縮信號的本發(fā)明第一混合系統(tǒng)的示意性框圖;圖4是用于混合mp3壓縮信號的本發(fā)明第二混合系統(tǒng)的示意性框圖;圖5是用于對混合mp3壓縮信號進(jìn)行編碼的本發(fā)明編碼系統(tǒng)的示意性框圖;圖6是用于混合AAC壓縮信號的本發(fā)明第三混合系統(tǒng)的示意性框圖;圖7是用于對混合AAC壓縮信號進(jìn)行編碼的本發(fā)明編碼系統(tǒng)的示意性框圖;圖8是用于實(shí)施強(qiáng)弱變化效果的第一偽碼;圖9是用于實(shí)施強(qiáng)弱變化效果的第二偽碼;圖10是用于實(shí)施強(qiáng)弱變化效果的第三偽碼;圖11是示出了用于實(shí)施強(qiáng)弱變化的方法的流程圖;以及圖12是本發(fā)明系統(tǒng)的示意性框圖。
具體實(shí)施例方式
在以下的圖中相同標(biāo)號通篇地指代具有相似功能的相似元件。
音頻壓縮是設(shè)計(jì)用來減少音頻數(shù)據(jù)文件大小的數(shù)據(jù)壓縮形式。音頻壓縮算法通常稱為音頻編碼解碼器。與數(shù)據(jù)壓縮的其它具體形式一樣,存在有許多無損算法。此外,給信號引入損耗以實(shí)現(xiàn)壓縮效果的算法在本領(lǐng)域中也是已知的。有損編碼解碼器的一些例子是用于MPEG-1和MPEG-2(MP2)的層2音頻編碼解碼器、用于MPEG-1,MPEG-2和非ISO MPEG-2.5(MP3)的層3編碼解碼器、Musepack(MPC)、Ogg Vorbis、用于MPEG-2和MPEG-4的高級音頻編碼(AAC)、用于道爾貝的AC-3或者Windows Media Audio(WMA)。
由于有損算法的性質(zhì),音頻質(zhì)量在文件被解壓、隨后被重新壓縮(生成損耗)時(shí)受損。因此,編輯已經(jīng)利用有損算法壓縮的信號應(yīng)當(dāng)防止完全地對信號進(jìn)行解壓。應(yīng)當(dāng)防止出于編輯目的而對音頻文件進(jìn)行解壓、編輯以及隨后的壓縮。
圖1圖示了用于以mp3格式壓縮音頻文件的編碼、解碼系統(tǒng)。具體的描述可以在以下文獻(xiàn)中找到ISO/IEC JTC1/SC29/WG11(MPEG-1),Coding of Moving Picturesand Associated Audio for Digital Storage Media at up to about 1.5Mbit/s,Part 3Audio,International Standard 11172-3,ISO/IEC,1993,D.Pan,“A tutorial on MPEG/Audio compression”,IEEE Multimedia,Vol.2,1995,pp,.60-74,以及S.Shlien,“Guide to MPEG-1 Audio standard”,IEEE Trans.OnBroadcasting,Vol.40,No.4,Dec.1996,pp.206-218。
用于對脈碼調(diào)制(PCM)輸入信號2進(jìn)行編碼的該系統(tǒng)包括分析濾波器組塊4。分析濾波器組塊4可以使用多相插值將輸入信號分解成帶寬相等的32個(gè)子帶。為了編碼,子帶采樣可以分組成18×32個(gè)采樣。
多相正交濾波器(PQF)可以代表將輸入信號拆分成給定數(shù)目N個(gè)等距子帶的濾波器組。這些子帶可以通過因子N來二次采樣。
這一采樣可能引入混疊。類似于MDCT時(shí)域混疊消除,PQF的混疊通過鄰近子帶來消除,即信號通常存儲于兩個(gè)子帶中。
PQF濾波器用于MPEG層I和層II中、具有附加MDCT的MPEG層III中、用于四個(gè)頻帶PQF組的MPEG-4 AAC-SSR中以及用于分析較上頻譜復(fù)制頻帶的MPEG-4高效AAC(HE AAC)中。
使用低通的基本濾波器來構(gòu)造PQF濾波器組。這一低通通過N個(gè)余弦函數(shù)來調(diào)制并且轉(zhuǎn)換成N個(gè)帶通。
然后可以通過MDCT和加窗塊6來處理子帶信號。這一MDCT和加窗塊6可以通過將18點(diǎn)或者36點(diǎn)的MDCT施加到32個(gè)子帶中的每個(gè)子帶來增加編碼效率和頻譜分辨率。
改進(jìn)式離散余弦變換(MDCT)是具有重疊這一附加特性的基于IV型離散余弦變換(DCT-IV)的頻率變換。它被設(shè)計(jì)用來針對較大數(shù)據(jù)集的連續(xù)塊來執(zhí)行,其中后續(xù)的塊50%交迭。還存在有基于離散正弦變換的改進(jìn)式離散正弦變換MDST這一類似變換以及MDCT基于不同類型DCT的其它形式和MDCT。
在MP3中,MDCT被施加到塊4的32帶多相正交濾波器(PQF)組的輸出。可以通過混疊蝶形(butterfly)塊7內(nèi)如圖3和圖4中所示的混疊減少塊來后處理這一MDCT和加窗塊6的輸出以減少PQF濾波器組的典型混疊。
為了允許壓縮,提供了心理聲學(xué)模型8。此塊通過快速傅立葉變換(FFT)塊8a將輸入信號2轉(zhuǎn)換成其頻譜分量。可以對頻譜采樣進(jìn)行信號分析以判決用于MDCT和加窗塊6的最佳執(zhí)行變換長度。還可以在頻帶的基礎(chǔ)上為頻譜采樣確定掩蔽(mask)閾值8b以限定在沒有將音頻人為音因素引入到信號中的情況下可以由量化器塊10引入到每個(gè)頻帶中的噪聲的量。
由MDCT和加窗塊6輸出的窗序列被饋送到定標(biāo)量化器塊10。在發(fā)生實(shí)際量化過程之前通過將輸入采樣提高到3/4功率以便在窗上保持信噪比(SNR)不變。量化器塊10可以在近似臨界頻帶的22個(gè)頻帶上操作。定標(biāo)因子可以指定給每個(gè)頻帶,而每個(gè)頻帶又被調(diào)整為滿足給定比特率。
定標(biāo)量化器塊10的輸出被饋送到霍夫曼編碼器塊12。在霍夫曼編碼器塊12內(nèi),量化頻譜被劃分成三個(gè)不同區(qū)域,而不同的霍夫曼表(霍夫曼碼簿)被指定給每個(gè)區(qū)域。每個(gè)碼簿可以代表的最大值可以限于15。
霍夫曼編碼器塊12的輸出信號被饋送到多路復(fù)用器14。此外,例如定標(biāo)量化器塊10的定標(biāo)值這樣的輔助信息可以在編碼塊16中被編碼并且饋送到多路復(fù)用器14。多路復(fù)用器14計(jì)算要經(jīng)由數(shù)字聲道18傳輸?shù)浇邮斩嗦方鈴?fù)用器20的信號。
在解碼器側(cè),以逆序執(zhí)行操作。采樣通行經(jīng)過所有塊20-30,而每個(gè)塊將對信號執(zhí)行逆操作。
第一個(gè)塊是霍夫曼解碼塊24?;舴蚵獯a塊24的輸出是量化頻譜信號。為了允許解碼、解量化、逆MDCT和逆加窗,提供了對編碼的輔助信息進(jìn)行解碼的輔助信息解碼塊22。
霍夫曼解碼器塊24的輸出被饋送到解量化器塊25。在解量化器塊26內(nèi),量化頻譜信號可以轉(zhuǎn)換成窗序列。
窗序列被饋送到逆MDCT和加窗塊28。逆MDCT又稱為IMDCT。有數(shù)目不同的輸入和輸出。然而,通過添加后續(xù)交迭塊的交迭IMDCT使得錯(cuò)誤減少并取回原數(shù)據(jù)來實(shí)現(xiàn)完全的可逆性。
逆MDCT和加窗塊28的輸出是子帶信號。這一子帶信號被饋送到計(jì)算如下輸出PCM信號32的合成濾波器組塊30,該信號32可以是具有一些損耗的對輸入PCM信號2的表示。該損失可能是由掩蔽閾值塊8b以及MDCT和加窗塊6引入到輸入信號2的。
圖2圖示了AAC編碼器和解碼器。具體的描述可以在以下文獻(xiàn)中找到ISO/IEC JTC1/SC29/WG11(MPEG-2 AAC),Generic Coding ofMoving Pictures and Associated Audio,Advanced Audio Coding,International Standard 13818-7,ISO/IEC,1997,ISO/IEC JTC1/SC29/WG11(MPEG-4),Coding of Audio-VisualObjectsAudio,International Standard 14496-3,ISO/IEC,1999,以及M.Bosi,K.Brandenburg,S.Quackenbush,L.Fielder,K.Akagiri,H.Fuchs,M.Dietz,J.Herre,G.Davidson,Y.Oikawa,“ISO/IEC MEPG-2advanced audio coding”,101st AES Convention,Los Angeles 1996。
在MPEG AAC中使用的技術(shù)非常接近于MPEG層3的技術(shù)。MPEG AAC的編碼內(nèi)核幾乎完全地就是也在層3中使用的編碼內(nèi)核,只是一些參數(shù)范圍不同而已。
然而,MPEG AAC沒有后向兼容于層3,而利用AAC具體編碼塊來提升了編碼效率。編碼器包括以下編碼塊,其中一些編碼塊是可選的,也就是說,可以分別地為每個(gè)幀做出是否使用那一編碼塊的判決。
輸入信號2被饋送到MDCT濾波器組塊34。這一MDCT濾波器組塊34利用在窗長度2048到256比特之間切換的動態(tài)窗來計(jì)算MDCT。這允許實(shí)現(xiàn)頻譜分解和冗余度減少。短窗可以用來處理瞬態(tài)信號。MDCT濾波器組塊34的輸出是窗序列。
窗序列然后可以饋送到時(shí)間噪聲整形(TNS)塊36,該塊36是可選的塊。這一TNS塊36在頻域中應(yīng)用公知的線性預(yù)測技術(shù)對時(shí)域量化噪聲進(jìn)行整形。這將造成時(shí)域量化噪聲的非均勻分布,這對于語音信號而言是尤其有用的特征。
在窗判決塊38a和感知模型塊38b內(nèi)分析輸入信號2的心理聲學(xué)模型38的輸出被饋送到MDCT濾波器組塊34和時(shí)間噪聲整形塊36。
仍然可以是窗序列的TNS塊36的輸出可以饋送到可選的MS立體聲和/或強(qiáng)度立體聲(IS)預(yù)測塊40。就聲道對而言,可以使用MS、IS或者這二者。MS立體聲傳輸左右聲道的和與差,而就強(qiáng)度立體聲而言,僅傳輸一個(gè)聲道。在強(qiáng)度立體聲中,通過根據(jù)由編碼器發(fā)送的信息對傳輸聲道進(jìn)行定標(biāo)(左右聲道具有不同的定標(biāo)因子)以便獲得兩個(gè)聲道的表示。
MS立體聲和/或強(qiáng)度立體聲(IS)預(yù)測塊40的輸出被饋送到與定標(biāo)量化器塊10操作相似的定標(biāo)量化器塊42。定標(biāo)量化器塊40提供非均勻量化。還提供可以是無噪編碼塊44和/或定標(biāo)量化器塊42一部分的經(jīng)由定標(biāo)因子的噪聲整形。定標(biāo)因子可以指定給每個(gè)頻帶。增加或者減少定標(biāo)因子值以修改信噪比和頻帶的比特分配。
定標(biāo)頻譜分量被饋送到可以是無噪編碼塊44一部分的霍夫曼編碼。編碼增益可以通過對定標(biāo)因子進(jìn)行差分霍夫曼編碼來實(shí)現(xiàn)。多個(gè)碼簿可以與動態(tài)碼簿分配相組合。碼簿可以被指定僅在特定頻帶中使用或者在鄰近頻帶之間共享。
在輔助信息編碼塊46內(nèi)編碼的編碼信號連同輔助信息一起饋送到多路復(fù)用器14。
多路解復(fù)用器20的輸出被饋送到無噪解碼塊50和輔助信息解碼塊48。解碼信號然后被饋送到輸出窗序列的解量化器塊52。該信號可選地饋送到逆MS立體聲和/或強(qiáng)度立體聲(IS)預(yù)測塊54、逆TNS濾波器塊56以及逆MDCT和加窗塊58,該塊58的輸出是PCM音頻信號32。
圖3圖示了用于組合信號的第一方法。兩個(gè)音頻信號A、B分別地饋送到多路解復(fù)用器塊20和輔助信息解碼塊22。信號由霍夫曼解碼器塊24和解量化器塊26獨(dú)立地進(jìn)行處理。所得信號是窗序列。
信號A的窗序列饋送到混疊減少塊27和逆MDCT塊28。所得信號是子帶信號。
信號A的子帶信號饋送到生成窗序列的MDCT塊6。MDCT塊6還接收關(guān)于信號B的輔助信息。此輔助信息允許確定信號B的暫時(shí)對應(yīng)幀的窗大小。使用此信息,MDCT塊6可以計(jì)算與信號B的窗序列具有相等窗大小的信號A的窗序列。所得窗序列饋送到混疊蝶形塊7。在它的輸出處,窗序列饋送到混頻器60。
在混頻器60內(nèi)組合信號A和信號B的窗序列。由于窗序列在大小上匹配,所以組合可以是無約束的。如果x代表信號B的逆量化頻譜,而y代表信號A的MDCT的輸出,則混合信號z可以表達(dá)為z(i)=(x(i)+a·y(i))·b,i=0,...,N-1其中N是要混合的頻譜采樣的數(shù)目,而a和b是對混合信號的幅度電平調(diào)整進(jìn)行描述的常數(shù)。這些幅度電平調(diào)整信號a、b可以通過信號62饋送到混頻器60。通過調(diào)整幅度電平,信號A、B可以在音量上達(dá)到相等電平。
正如將在圖5中圖示的,可以對組合信號進(jìn)行編碼。
圖4圖示了用于組合經(jīng)壓縮的音頻信號、特別是經(jīng)mp3壓縮的信號的第二種可能方法。輸入信號A、B由與圖1中所述的塊20、22、24、26、27、28相似的塊20、22、24、26、27、28獨(dú)立地處理。與根據(jù)圖3的方法的不同之處在于信號B在塊26中解量化、在塊27中混疊減少和在塊28中逆MDC。因此,信號A、B兩者被連接成子帶信號。
IMDCT塊28的輸出是子帶信號。信號A、B的子帶信號饋送到組合信號的混頻器60。幅度電平調(diào)整通過信號62也是可能的。
混頻器的輸出被饋送到MDCT塊6和混疊蝶形塊7。為了使用關(guān)于加窗的已知輔助信息,來自信號B的輔助信息可以饋送到MDCT塊6。然而,需要有由延時(shí)塊64實(shí)施的對于一幀的輔助信息的時(shí)間移位,因?yàn)榛祛l器60也引入一幀的時(shí)間移位。
所得信號C是如圖5中所示也可以編碼的組合信號的窗序列。
圖5圖示了編碼器66。編碼器66也可以是量化器回路。輸入信號C在量化器塊10中被量化并且在霍夫曼編碼器塊12中被霍夫曼編碼。格式化塊68提供了對比特流的格式化。輸出信號由多路復(fù)用器14計(jì)算而混合的mp3比特流作為信號E輸出。
圖6圖示了AAC壓縮信號F、G的混合。信號由與結(jié)合圖2、圖3描述的那些塊相似的塊20、46、50、52、54獨(dú)立地計(jì)算。
所得信號是每個(gè)信號F、G的窗序列。信號F由塊56和58進(jìn)一步處理。所得信號在塊34中被處理。在塊34內(nèi)的處理過程中,使用來自輔助信息解碼器46的與信號G的暫時(shí)并行窗的窗大小有關(guān)的輔助信息。使用此信息允許使信號F和G的窗序列的窗大小相等。所得信號饋送到塊36,此后它在混頻器60中與信號G的窗序列組合成組合信號H。
圖7圖示了對組合信號H的編碼。信號被饋送到MS立體聲和/或強(qiáng)度立體聲(IS)預(yù)測塊40。輸出信號被饋送到量化器回路70。信號在量化器塊42中被量化并且在無噪編碼塊44中被編碼。為了量化和編碼,可以使用如圖6中所示的由輔助信息解碼塊46獲得的輔助信息I。使用輔助信息允許減少計(jì)算負(fù)荷,因?yàn)闊o需分析經(jīng)組合的信號。在格式化塊68中對比特流進(jìn)行格式化。輸出信號由多路復(fù)用器14計(jì)算而混合的AAC比特流作為信號K輸出。
可以使用軟件和專用硬件解決方案兩者。然而,這一方法可以是音頻內(nèi)容創(chuàng)建程序包的部分。音頻內(nèi)容創(chuàng)建程序包可以是某些移動終端的附加式工具(插件)。
一種另外的實(shí)施可選優(yōu)點(diǎn)涉及mp3或者AAC回放混頻器。如果兩個(gè)mp3或者AAC流需要同時(shí)回放,則在解碼過程中并且例如不是在輸出設(shè)備處已經(jīng)混合音頻采樣將是有利的。對于回放混頻器而言,將無需編碼操作。在解碼過程中的混合可以如上所述那樣完成而無需對組合信號進(jìn)行重新壓縮。
mp3和AAC音頻格式兩者都使用非均勻量化器來量化頻譜采樣。在解碼器側(cè),需要執(zhí)行非均勻逆量化。
就強(qiáng)弱變化效果而言,有必要調(diào)整解量化頻譜系數(shù)的幅度電平。當(dāng)施加強(qiáng)弱變化效果時(shí),需要修改一些或者所有輸入解量化參數(shù)。已經(jīng)發(fā)現(xiàn)兩個(gè)音頻格式已經(jīng)限定了可以用于實(shí)施強(qiáng)弱變化效果的稱為global_gain的比特流元素。
在MP3中,global_gain是與定標(biāo)因子相分離的值,而在AAC中,global_gain實(shí)際上是為了傳輸而差分編碼的定標(biāo)因子的起始值。然而,通過僅修改這一比特流元素,根據(jù)實(shí)施例可以很容易地并高效地實(shí)施變強(qiáng)和變?nèi)跣Ч?br>
已經(jīng)發(fā)現(xiàn)global_gain值適用于頻譜域采樣。為了創(chuàng)建強(qiáng)弱變化效果,在修改過程中包含一些約束。僅針對每個(gè)幀來改變global_gain值直至達(dá)到強(qiáng)弱電平將不起作用。這一方式之所以無效是因?yàn)檩敵鲆袅侩娖綄⒉粫饾u地增加,而代之以在變強(qiáng)區(qū)域的開始處會有長的靜默、然后會突然發(fā)生變強(qiáng)。
為了獲得輸出音量電平的逐漸增加或者減少,實(shí)施例用于根據(jù)頻域編碼音頻信號的比特流來獲得代表全局幅度電平值的比特流元素、用于利用更替值針對編碼音頻信號的幀和聲道來改變代表全局幅度電平值的比特流元素,其中在每第n幀改變該更替值,其中n是根據(jù)強(qiáng)弱電平的數(shù)目和強(qiáng)弱變化的長度來確定的。
根據(jù)圖8至10的偽碼圖示了根據(jù)實(shí)施例如何為壓縮音頻信號實(shí)施強(qiáng)弱變化效果而無需對比特率進(jìn)行解碼。根據(jù)實(shí)施例,只有一些簡單的比特流解析是必要的。
可以針對如所預(yù)期的那樣起作用的強(qiáng)弱變化來指定一些全局參數(shù)。根據(jù)圖8的偽碼描述了所需參數(shù)的指定。
fade Volume、frameCount、fadeMode這些值可以是例如來自于用戶輸入的輸入值。frameCount參數(shù)描述了應(yīng)當(dāng)施加強(qiáng)弱變化操作的連續(xù)音頻幀的數(shù)目。此值可以根據(jù)強(qiáng)弱變化的所需長度和音頻幀的長度來計(jì)算。每個(gè)音頻幀具有通常以毫秒為單位來測量的某一長度,而一旦強(qiáng)弱變化區(qū)域的寬度已知則可以容易地獲得這一參數(shù)。此值通常可以由用戶指定。
值fadeVolume可以描述相對于原電平的初始(變強(qiáng))或者結(jié)束(變?nèi)?音量電平。這一參數(shù)的范圍可以在0與100或者任何其它較上閾值之間變化。
值FADEZEROLEVEL是用于MP3和AAC的實(shí)施具體參數(shù),但是例如值30可以兼用于mp3和AAC兩者。值gainDec可以指定global_gain中的變化。這可以是更替值。一旦已經(jīng)利用當(dāng)前gainDec值改變了限定數(shù)目為n的連續(xù)幀,則值incStep可以限定gainDec值的變化。
根據(jù)實(shí)施例,按照圖9的偽碼在逐幀的基礎(chǔ)上修改global_gain值。
值num_mp3_granules可以是一個(gè)mp3幀中顆粒的數(shù)目(1或者2),而值num_mp3_channels可以是mp3顆粒中存在的聲道(單聲道或者立體聲)的數(shù)目。這些參數(shù)可以在解碼開始時(shí)根據(jù)mp3比特流來確定。
值num_syntactic_aac_elements可以描述AAC幀中句法聲道元素的數(shù)目。這一參數(shù)也可以在逐幀的基礎(chǔ)上在解碼過程中根據(jù)AAC比特流來確定。
出于編輯目的,必須從所需比特流位置開始提取global_gain_values。在修改之后,新值需要往回插入到同一比特流位置。
強(qiáng)弱變化效果創(chuàng)建過程可以利用圖10中所示的偽碼來總結(jié)。值fadeGrid可以限定了在其之后改變更替值,例如gainDec的幀的數(shù)目n。
還在圖11中描繪了根據(jù)實(shí)施例的方法。在初始化80過程中,根據(jù)圖8中所示的偽碼來計(jì)算用于強(qiáng)弱變化的參數(shù)。
在初始化80之后,從壓縮音頻文件的比特流中提取82global_gain值。
然后可以利用例如incStep值這樣的變化值來改變84可以是gainDec值的更替值。它可以根據(jù)幀的當(dāng)前位置來確定,無論gainDec值的變化是否適當(dāng)都是如此。在所示實(shí)施例中,在每第n幀按照incStep,其中n等于幀刪格計(jì)數(shù)。幀刪格計(jì)數(shù)可以根據(jù)幀計(jì)數(shù)和強(qiáng)弱電平的數(shù)目來確定,例如確定為這二者之商。換而言之,在每n=frameGain幀通常incStep值來改變gainDec值。
就在每第n幀根據(jù)例如一這樣的incStep值來改變更替值而言,選擇哪一第n幀這一選擇也可以按照對數(shù)、指數(shù)、階梯或者任何其它曲線。
在已經(jīng)判決是否改變84更替值GainDec之后,根據(jù)圖9的偽碼為每個(gè)聲道和句法元素的每個(gè)顆粒而改變global_gain值86。
改變的global_gain值被包含回到比特流中88。
一般而言,所述方法對于在逆量化或者等效定標(biāo)公式中利用指數(shù)值的所有音頻格式都是有效的。指數(shù)值的名稱是否為global_gain無關(guān)緊要,而該技術(shù)可以保持相同。
圖12示出了設(shè)置用于實(shí)施根據(jù)實(shí)施例的方法的設(shè)備90。提供用于接收經(jīng)壓縮的音頻文件的輸入92。在解析器94內(nèi)解析所輸入的音頻文件以提取比特流。解析器94也可以提供global_gain、顆粒的數(shù)目、聲道的數(shù)目、語法元素的數(shù)目、音頻幀的數(shù)目和可從比特流中獲得的任何其它信息。
global_gain值被傳遞到處理器96。在處理器96內(nèi),計(jì)算global_gain值有變的幀以及更替值并且改變相應(yīng)的global_gain值。
可以提供另一處理器98以允許將更改后的global_gain值包含到比特流中。輸出100可以提供具有強(qiáng)弱變化效果的壓縮音頻信號。
盡管已經(jīng)示出和描述并且指出了應(yīng)用于本發(fā)明優(yōu)選實(shí)施例的本發(fā)明的基本新穎特征,但是將理解到,在不脫離本發(fā)明的精神的情況下,可以由本領(lǐng)域技術(shù)人員做出所述設(shè)備和方法在形式和細(xì)節(jié)上的各種省略和替代以及變化。例如明確地表明,以基本上相同的方式執(zhí)行基本上相同的功能以實(shí)現(xiàn)相同結(jié)果的那些元件和/或方法步驟的所有組合都在本發(fā)明的范圍內(nèi)。另外,應(yīng)當(dāng)認(rèn)識到,結(jié)合本發(fā)明的任何公開形式或者實(shí)施例而示出和/或描述的結(jié)構(gòu)和/或元件和/或方法可以作為一般性的設(shè)計(jì)選擇內(nèi)容而并入于任何其它公開或者描述或者提示的形式或者實(shí)施例中。因此本發(fā)明的本意在于僅由所附權(quán)利要求書的范圍所指示的那樣加以限制。
權(quán)利要求
1.一種用于對來自至少兩個(gè)信號源的頻域編碼信號進(jìn)行組合的方法,包括對所述編碼信號進(jìn)行解碼,獲得量化頻譜分量,對所述解碼信號的所述量化頻譜分量進(jìn)行逆量化,獲得窗序列,以及對至少逆量化信號進(jìn)行組合,獲得組合信號。
2.根據(jù)權(quán)利要求1所述的方法,包括向所述窗序列中的至少一個(gè)窗序列提供混疊減少。
3.根據(jù)權(quán)利要求1所述的方法,包括對所述窗序列中的至少一個(gè)窗序列進(jìn)行逆變換,獲得子帶信號;以及將所述子帶信號重新變換成具有與來自沒有進(jìn)行逆變換的信號的窗序列的頻率分辨率相匹配的頻率分辨率的修改窗序列。
4.根據(jù)權(quán)利要求3所述的方法,包括對所述修改窗序列與沒有逆變換成組合窗序列的信號的窗序列進(jìn)行組合。
5.根據(jù)權(quán)利要求4所述的方法,包括根據(jù)重疊正交變換對所述組合窗序列進(jìn)行變換或者重新變換或者變換和重新變換兩者。
6.根據(jù)權(quán)利要求1所述的方法,包括對所述窗序列中的至少兩個(gè)窗序列進(jìn)行逆變換;以及在同一變換域內(nèi)對所述變換的窗序列進(jìn)行組合。
7.根據(jù)權(quán)利要求1所述的方法,包括分別地將所述窗序列中的至少兩個(gè)窗序列逆變換成子帶信號;以及將所述子帶信號中的至少兩個(gè)子帶信號組合成組合子帶信號。
8.根據(jù)權(quán)利要求7所述的方法,包括將所述組合子帶信號重新變換成組合窗序列。
9.根據(jù)權(quán)利要求8所述的方法,包括根據(jù)重疊正交變換對所述組合窗序列進(jìn)行變換或者重新變換或者變換和重新變換兩者。
10.根據(jù)權(quán)利要求1所述的方法,包括向待組合的所述信號提供幅度電平調(diào)整。
11.根據(jù)權(quán)利要求1所述的方法,包括在組合所述信號之前提供對所述信號中至少一個(gè)信號的頻帶限制。
12.根據(jù)權(quán)利要求1所述的方法,包括將所述組合信號量化成頻譜分量。
13.根據(jù)權(quán)利要求12所述的方法,包括將所述組合信號的所述頻譜分量編碼成頻域編碼輸出信號。
14.根據(jù)權(quán)利要求12所述的方法,包括對所述頻域編碼輸出信號的比特流進(jìn)行格式化。
15.根據(jù)權(quán)利要求1所述的方法,包括將從所述編碼信號中的至少一個(gè)信號獲得的輔助信息用于解碼或者逆量化或者解碼和逆量化兩者。
16.根據(jù)權(quán)利要求1所述的方法,包括提供MPEG-1、2、2.5層-3編碼信號或者高級音頻編碼的編碼信號或者M(jìn)PC Musepack編碼信號或者Ogg Vorbis編碼信號或者Windows Media Audio編碼信號或者來自組合的AC3編碼信號。
17.一種設(shè)置用于對來自至少兩個(gè)信號源的頻域編碼信號進(jìn)行組合的系統(tǒng),包括解碼器,設(shè)置用以對所述編碼信號進(jìn)行解碼,獲得量化頻譜分量,逆量化器,設(shè)置用以對所述解碼信號的所述量化頻譜分量進(jìn)行逆量化,獲得窗序列,以及組合器,設(shè)置用以對至少逆量化信號進(jìn)行組合,獲得組合信號。
18.一種模塊,包括根據(jù)權(quán)利要求17所述的系統(tǒng)。
19.一種根據(jù)權(quán)利要求17所述的系統(tǒng)在客戶電子設(shè)備或者移動通信設(shè)備中的使用。
20.一種計(jì)算機(jī)程序產(chǎn)品,包括存儲于其上用于對來自至少兩個(gè)信號源的頻域編碼信號進(jìn)行組合的計(jì)算機(jī)程序,所述程序包括可操作用以使處理器執(zhí)行以下過程的指令對所述編碼信號進(jìn)行解碼,獲得量化頻譜分量,對所述解碼信號的所述量化頻譜分量進(jìn)行逆量化,獲得窗序列,以及對所述至少逆量化信號進(jìn)行組合,獲得組合信號。
21.一種用于在頻域編碼音頻信號內(nèi)提供強(qiáng)弱變化的方法,包括從所述頻域編碼音頻信號的比特流中獲得代表全局幅度電平值的比特流元素,利用更替值針對所述編碼音頻信號的幀和聲道來改變代表所述全局幅度電平值的所述比特流元素,其中在每第n幀改變所述更替值,其中n是根據(jù)強(qiáng)弱電平的數(shù)目和所述強(qiáng)弱變化的長度來確定的。
22.根據(jù)權(quán)利要求21所述的方法,包括根據(jù)強(qiáng)弱電平的所述數(shù)目與所述強(qiáng)弱變化的所述長度之商來確定n。
23.根據(jù)權(quán)利要求21所述的方法,包括針對在所述編碼音頻信號的強(qiáng)弱變化時(shí)段內(nèi)的每個(gè)幀和每個(gè)聲道來改變代表所述全局幅度電平值的所述比特流元素。
24.根據(jù)權(quán)利要求21所述的方法,包括根據(jù)相對于原幅度電平的初始幅度電平或者結(jié)束幅度電平來確定強(qiáng)弱音量。
25.根據(jù)權(quán)利要求21所述的方法,包括從所述比特流中提取代表所述全局幅度電平的所述比特流元素;改變代表所述全局幅度電平的所述比特流元素;以及將代表所述全局幅度電平的所改變的比特流元素插入到所述比特流中。
26.一種設(shè)置用于在頻域編碼音頻信號內(nèi)提供強(qiáng)弱變化的設(shè)備,包括解析器,設(shè)置用以從所述頻域編碼音頻信號的比特流中獲得代表全局幅度電平值的比特流元素,處理單元,設(shè)置用以利用更替值針對所述編碼音頻信號的幀和聲道來改變代表所述全局幅度電平值的所述比特流元素,其中所述處理單元被設(shè)置用以在每第n幀改變所述更替值,其中n是根據(jù)強(qiáng)弱電平的數(shù)目和所述強(qiáng)弱變化的長度來確定的。
27.一種用于在頻域編碼音頻信號內(nèi)提供強(qiáng)弱變化的計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述程序包括可操作用以使處理器執(zhí)行以下過程的指令從所述頻域編碼音頻信號的比特流中獲得代表全局幅度電平值的比特流元素,利用更替值針對所述編碼音頻信號的幀和聲道來改變代表所述全局幅度電平值的所述比特流元素,其中在每第n幀改變所述更替值,其中n是根據(jù)強(qiáng)弱電平的數(shù)目和所述強(qiáng)弱變化的數(shù)目來確定的。
28.根據(jù)權(quán)利要求1所述的方法,用于在電子設(shè)備或者移動通信設(shè)備內(nèi)執(zhí)行。
29.根據(jù)權(quán)利要求1所述的方法,包括將從所述編碼信號中的至少一個(gè)編碼信號獲得的輔助信息用于對所述組合信號進(jìn)行量化或者編碼或者量化和編碼兩者。
全文摘要
本發(fā)明主要涉及一種用于對來自至少兩個(gè)信號源的頻域編碼信號進(jìn)行組合的方法。為了允許無需完全地對信號進(jìn)行解碼即可對信號進(jìn)行組合,本發(fā)明提供了對所述編碼信號進(jìn)行解碼,獲得量化頻譜分量;對解碼信號的量化頻譜分量進(jìn)行逆量化,獲得窗序列;以及對至少逆量化信號進(jìn)行組合,獲得組合信號。
文檔編號G10L19/02GK101031961SQ200580033277
公開日2007年9月5日 申請日期2005年8月2日 優(yōu)先權(quán)日2004年8月26日
發(fā)明者J·奧雅珀拉 申請人:諾基亞公司