本發(fā)明涉及音頻信號(hào)編碼和解碼,并且特別地涉及使用并行頻域和時(shí)域編碼器/解碼器處理器的音頻信號(hào)處理。
背景技術(shù):
為了用于音頻信號(hào)的高效存儲(chǔ)或傳輸?shù)臄?shù)據(jù)減少的目的,音頻信號(hào)的感知編碼是一種廣泛使用的實(shí)踐。特別地,當(dāng)要實(shí)現(xiàn)最低比特率時(shí),所采用的編碼導(dǎo)致音頻質(zhì)量的降低,這通常主要由要發(fā)送的音頻信號(hào)帶寬的編碼器側(cè)的限制引起。這里,通常對(duì)音頻信號(hào)進(jìn)行低通濾波,使得沒有頻譜波形內(nèi)容保留在某個(gè)預(yù)先確定的截止頻率之上。
在當(dāng)代的編解碼器中,存在用于通過音頻信號(hào)帶寬擴(kuò)展(BWE)的解碼器側(cè)信號(hào)恢復(fù)的公知方法,例如,在頻域中操作的頻譜帶復(fù)制(SBR)或所謂的時(shí)域帶寬擴(kuò)展(TD-BWE)是在時(shí)域中操作的語(yǔ)音編碼器中的后處理器。
另外,存在若干組合的時(shí)域/頻域編碼構(gòu)思,例如在術(shù)語(yǔ)AMR-WB+或USAC下已知的構(gòu)思。
所有這些組合的時(shí)域/編碼構(gòu)思具有以下共同之處:頻域編碼器依賴于將頻帶限制引入輸入音頻信號(hào)中的帶寬擴(kuò)展技術(shù),并且交叉頻率或邊界頻率以上的部分用低分辨率編碼構(gòu)思編碼并在解碼器側(cè)合成。因此,這些構(gòu)思主要依賴于編碼器側(cè)的預(yù)處理器技術(shù)和解碼器側(cè)的相應(yīng)后處理功能。
通常,選擇時(shí)域編碼器用于在時(shí)域中編碼的有用信號(hào)(例如語(yǔ)音信號(hào)),并且選擇頻域編碼器用于非語(yǔ)音信號(hào)、音樂信號(hào)等。然而,特別是針對(duì)在高頻帶中具有突出諧波的非語(yǔ)音信號(hào),現(xiàn)有技術(shù)的頻域編碼器具有降低的精度,并且因此具有降低的音頻質(zhì)量,這是由于以下事實(shí):這樣的突出諧波只能被分離地以參數(shù)方式編碼,或者在編碼/解碼處理中完全被消除。
此外,存在這樣的構(gòu)思,其中時(shí)域編碼/解碼分支另外依賴于也以參數(shù)方式對(duì)較高頻率范圍進(jìn)行編碼的帶寬擴(kuò)展,而較低頻率范圍通常使用ACELP或任何其它CELP相關(guān)編碼器(例如語(yǔ)音編碼器)進(jìn)行編碼。這種帶寬擴(kuò)展功能性增加了比特率效率,但是另一方面,由于兩個(gè)編碼分支,即頻域編碼分支和時(shí)域編碼分支由于在基本上低于包括在輸入音頻信號(hào)中的最大頻率的某個(gè)交叉頻率以上進(jìn)行操作的頻譜帶復(fù)制過程或帶寬擴(kuò)展過程而被頻帶限制的事實(shí),引入了進(jìn)一步的不靈活性。
現(xiàn)有技術(shù)的相關(guān)主題包括
-SBR作為用于波形解碼的后處理器[1-3]
-MPEG-D USAC核心切換[4]
-MPEG-H 3D IGF[5]
以下論文和專利描述了被認(rèn)為構(gòu)成本申請(qǐng)的現(xiàn)有技術(shù)的方法:
[1]M.Dietz,L.Liljeryd,K.和O.Kunz,“Spectral B and Replication,a novel approach in audio coding,”在第112屆AES大會(huì),慕尼黑,德國(guó),2002。
[2]S.Meltzer,R.和F.Henn,“SBR enhanced audio codec s for digital broadcasting such as“Digital Radio Mondiale”(DRM),”在第112屆AES大會(huì),慕尼黑,德國(guó),2002。
[3]T.Ziegler,A.Ehret,P.Ekstrand和M.Lutzky,“Enhancing mp3 with SBR:Features and Capabilities of the new mp3PRO Algo rithm,”在第112屆AES大會(huì),慕尼黑,德國(guó),2002。
[4]MPEG-D USAC標(biāo)準(zhǔn)。
[5]PCT/EP2014/065109。
在MPEG-D USAC中,描述了一種可切換核心編碼器。然而,在USAC中,帶限核心被限制為總是發(fā)送低通濾波信號(hào)。因此,包含突出的高頻內(nèi)容的某些音樂信號(hào)例如全頻帶掃描、三角形聲音等不能忠實(shí)地再現(xiàn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種用于音頻編碼的改進(jìn)的構(gòu)思。
該目的通過權(quán)利要求1的音頻編碼裝置編碼器、權(quán)利要求10的音頻解碼器、權(quán)利要求15的音頻編碼方法、權(quán)利要求16的音頻解碼方法或權(quán)利要求17的計(jì)算機(jī)程序來(lái)實(shí)現(xiàn)。
本發(fā)明基于以下發(fā)現(xiàn):時(shí)域編碼/解碼處理器可以與具有間隙填充功能的頻域編碼/解碼處理器組合,但是用于填充頻譜空洞的該間隙填充功能在音頻信號(hào)的整個(gè)頻帶上或至少在某個(gè)間隙填充頻率以上進(jìn)行操作。重要的是,頻域編碼/解碼處理器特別地能夠以執(zhí)行高達(dá)最大頻率的精確或波形或頻譜值編碼/解碼,而不僅是直到交叉頻率為止。此外,用于以高分辨率編碼的頻域編碼器的全頻帶能力允許將間隙填充功能集成到頻域編碼器中。
在一個(gè)方面,全帶隙填充與時(shí)域編碼/解碼處理器組合。在實(shí)施例中,兩個(gè)分支中的采樣率相等,或者時(shí)域編碼器分支中的采樣率低于頻域分支中的采樣率。
在另一方面中,在沒有間隙填充但執(zhí)行全頻帶核心編碼/解碼的情況下操作的頻域編碼器/解碼器與時(shí)域編碼處理器組合,并且提供交叉處理器用于時(shí)域編碼/解碼處理器的連續(xù)初始化。在這方面,采樣率可以如在另一方面中那樣,或者頻域分支中的采樣率甚至低于時(shí)域分支中的采樣率。
因此,根據(jù)本發(fā)明,通過使用全頻帶頻譜編碼器/解碼器處理器,一方面與帶寬擴(kuò)展的分離相關(guān)和另一方面與核心編碼相關(guān)的問題可以通過執(zhí)行在核心解碼器操作的相同頻譜域中的帶寬擴(kuò)展來(lái)解決和克服。因此,提供全速率核心解碼器,其對(duì)全音頻信號(hào)范圍進(jìn)行編碼和解碼。這不要求對(duì)在編碼器側(cè)上的下采樣器和在解碼器側(cè)上的上采樣器的需要。替代地,整個(gè)處理在全采樣率或全帶寬域中執(zhí)行。為了獲得高編碼增益,分析音頻信號(hào)以便找到必須以高分辨率編碼的第一組第一頻譜部分,其中該第一組第一頻譜部分在一個(gè)實(shí)施例中可以包括:音頻信號(hào)的音調(diào)部分。另一方面,構(gòu)成第二組第二頻譜部分的音頻信號(hào)中的非音調(diào)或噪聲分量被以低頻譜分辨率以參數(shù)方式編碼。編碼的音頻信號(hào)然后僅要求以具有高頻譜分辨率的波形保持方式編碼的第一組第一頻譜部分,以及此外,以使用來(lái)源于第一組的頻率“拼塊(tile)”的低分辨率以參數(shù)方式編碼的第二組第二頻譜部分。在解碼器側(cè),作為全頻帶解碼器的核心解碼器以波形保持方式重建第一組第一頻譜部分,即,沒有任何存在任何附加頻率再生的知識(shí)。然而,如此產(chǎn)生的頻譜具有許多頻譜間隙。這些間隙隨后通過一方面使用應(yīng)用參數(shù)數(shù)據(jù)的頻率再生和另一方面使用源頻譜范圍(即,由全速率音頻解碼器重建的第一頻譜部分)而用智能間隙填充(IGF)技術(shù)填充。
在另外的實(shí)施例中,通過僅噪聲填充而不是帶寬復(fù)制或頻率拼塊填充來(lái)重建的頻譜部分構(gòu)成第三組第三頻譜部分。由于編碼構(gòu)思在用于一方面核心編碼/解碼和另一方面頻率再生的單個(gè)域中操作的事實(shí),通過在沒有頻率再生的情況下的噪聲填充或通過使用在不同頻率范圍的頻率拼塊的頻率再生,IGF不僅被限制為填滿較高的頻率范圍,而且可以填滿較低的頻率范圍。
此外,要強(qiáng)調(diào)的是,關(guān)于頻譜能量的信息,關(guān)于各個(gè)能量的信息或個(gè)別能量信息,關(guān)于存活能量的信息或存活能量信息,關(guān)于拼塊能量的信息或拼塊能量信息,或者關(guān)于缺失能量的信息或缺失能量信息可以不僅包括能量值,而且還包括(例如絕對(duì)的)振幅值、電平值或任何其他值,從中可以導(dǎo)出最終能量值。因此,關(guān)于能量的信息可以例如包括能量值本身,和/或電平的和/或振幅的和/或絕對(duì)振幅的值。
另外的方面基于以下發(fā)現(xiàn):相關(guān)情況不僅對(duì)于源范圍重要,而且對(duì)于目標(biāo)范圍也重要。此外,本發(fā)明承認(rèn)在源范圍和目標(biāo)范圍中可能發(fā)生不同相關(guān)情況的情況。例如,當(dāng)考慮具有高頻噪聲的語(yǔ)音信號(hào)時(shí),情況可能是當(dāng)揚(yáng)聲器放置在中間時(shí)包括具有小數(shù)量的泛音的語(yǔ)音信號(hào)的低頻帶在左聲道和右聲道中高度相關(guān)。然而,由于在左側(cè)可能存在與另一高頻噪聲相比不同的高頻噪聲或在右側(cè)沒有高頻噪聲的事實(shí),所以高頻部分可以是強(qiáng)烈不相關(guān)的。因此,當(dāng)執(zhí)行忽略這種情況的直接間隙填充操作時(shí),則高頻部分也將相關(guān),并且這可能在重建信號(hào)中產(chǎn)生嚴(yán)重的空間隔離偽像。為了解決這個(gè)問題,計(jì)算針對(duì)重建頻帶的參數(shù)數(shù)據(jù),或者一般地,針對(duì)必須使用第一組第一頻譜部分重建的第二組第二頻譜部分的參數(shù)數(shù)據(jù),以識(shí)別針對(duì)第二頻譜部分的第一或第二不同的雙聲道表示,或換句話說(shuō),針對(duì)重建頻帶的第一或第二不同的雙聲道表示。因此,在編碼器側(cè),針對(duì)第二頻譜部分計(jì)算雙聲道識(shí)別,即針對(duì)另外計(jì)算重建頻帶的能量信息的部分計(jì)算雙聲道識(shí)別。在解碼器側(cè)的頻率再生器然后根據(jù)第一組第一頻譜部分的第一部分(即,用于第二部分的源范圍和參數(shù)數(shù)據(jù),例如頻譜包絡(luò)能量信息或任何其它頻譜包絡(luò)數(shù)據(jù))并且另外根據(jù)針對(duì)第二部分(即,針對(duì)重新考慮下的該重建頻帶)的雙聲道識(shí)別,來(lái)再生第二頻譜部分。
雙聲道識(shí)別優(yōu)選地作為每個(gè)重建頻帶的標(biāo)志被發(fā)送,并且該數(shù)據(jù)從編碼器發(fā)送到解碼器,然后解碼器如由針對(duì)核心頻帶的優(yōu)選計(jì)算的標(biāo)志所指示的那樣對(duì)核心信號(hào)進(jìn)行解碼。然后,在實(shí)現(xiàn)中,核心信號(hào)以立體聲表示(例如左/右和中/側(cè))存儲(chǔ),并且對(duì)于IGF頻率拼塊填充,選擇源拼塊表示以如由用于智能間隙填充或重建頻帶(即,用于目標(biāo)范圍)的雙聲道識(shí)別標(biāo)志指示的那樣適合目標(biāo)拼塊表示。
要強(qiáng)調(diào)的是,該過程不僅針對(duì)立體聲信號(hào),即針對(duì)左聲道和右聲道工作,而且針對(duì)多聲道信號(hào)操作。在多聲道信號(hào)的情況下,可以以這種方式處理幾對(duì)不同的聲道,例如左和右聲道作為第一對(duì),左環(huán)繞聲道和右環(huán)繞作為第二對(duì)以及中心聲道和LFE聲道作為第三對(duì)??梢葬槍?duì)諸如7.1、11.1等較高輸出聲道格式確定其他配對(duì)。
另外的方面是基于以下發(fā)現(xiàn):通過IGF可以改進(jìn)重建信號(hào)的音頻質(zhì)量,因?yàn)檎麄€(gè)頻譜對(duì)于核心編碼器是可訪問的,使得例如在高頻譜范圍中的感知上重要的音調(diào)部分仍然可以由核心編碼器編碼而不是由參數(shù)替代編碼。另外,執(zhí)行使用來(lái)自第一組第一頻譜部分的頻率拼塊的間隙填充操作,所述第一組第一頻譜部分例如是通常來(lái)自較低頻率范圍的一組音調(diào)部分,但也是來(lái)自較高頻率范圍(如果可用)的一組音調(diào)部分。然而,對(duì)于解碼器側(cè)的頻譜包絡(luò)調(diào)整,來(lái)自位于重建頻帶中的第一組頻譜部分的頻譜部分不進(jìn)一步由例如頻譜包絡(luò)調(diào)整進(jìn)行后處理。只有重建頻帶中不是源自核心解碼器的剩余頻譜值將使用包絡(luò)信息進(jìn)行包絡(luò)調(diào)整。優(yōu)選地,包絡(luò)信息是計(jì)及重建頻帶中的第一組第一頻譜部分和同一重建頻帶中的第二組第二頻譜部分的能量的全頻帶包絡(luò)信息,其中在第二組第二頻譜部分中的后者頻譜值被指示為零,并因此不由核心編碼器編碼,而是用低分辨率能量信息以參數(shù)方式編碼。
已經(jīng)發(fā)現(xiàn),相對(duì)于相應(yīng)頻帶的帶寬的標(biāo)準(zhǔn)化或不標(biāo)準(zhǔn)化的絕對(duì)能量值在解碼器側(cè)的應(yīng)用中是有用的和非常高效的。這尤其適用于當(dāng)必須基于重建頻帶中的殘留能量、重建頻帶中的缺失能量和重建頻帶中的頻率拼塊信息來(lái)計(jì)算增益因子時(shí)。
此外,優(yōu)選的是,編碼的比特流不僅覆蓋重建頻帶的能量信息,而且還另外覆蓋擴(kuò)展一直到最大頻率的比例因子頻帶的比例因子。這確保對(duì)于某個(gè)音調(diào)部分(即第一頻譜部分)可用的每個(gè)重建頻帶,該第一組第一頻譜部分實(shí)際上可以用正確的振幅解碼。此外,除了用于每個(gè)重建頻帶的比例因子之外,在編碼器中產(chǎn)生用于該重建頻帶的能量,并將其發(fā)送到解碼器。此外,優(yōu)選的是重建頻帶與比例因子頻帶一致,或者在能量分組的情況下,至少重建頻帶的邊界與比例因子頻帶的邊界一致。
本發(fā)明的另一實(shí)現(xiàn)應(yīng)用了拼塊白化操作。頻譜的白化去除了粗糙的頻譜包絡(luò)信息,并且強(qiáng)調(diào)了對(duì)于評(píng)估拼塊相似性最感興趣的頻譜精細(xì)結(jié)構(gòu)。因此,一方面頻率拼塊和/或另一方面源信號(hào)在計(jì)算交叉相關(guān)測(cè)量之前被白化。當(dāng)僅使用預(yù)定義過程白化該拼塊時(shí),發(fā)送白化標(biāo)志,指示解碼器應(yīng)該對(duì)IGF內(nèi)的頻率拼塊應(yīng)用相同的預(yù)定義白化過程。
關(guān)于拼塊選擇,優(yōu)選地使用相關(guān)性的滯后以通過整數(shù)個(gè)變換倉(cāng)(transform bin)來(lái)在頻譜上移動(dòng)再生的頻譜。根據(jù)基礎(chǔ)變換,頻譜移動(dòng)可能要求附加校正。在奇數(shù)滯后的情況下,通過乘以-1/1的交替時(shí)間序列來(lái)附加地調(diào)制拼塊,以補(bǔ)償MDCT內(nèi)每隔一個(gè)頻帶的頻率反轉(zhuǎn)表示。此外,當(dāng)產(chǎn)生頻率拼塊時(shí),應(yīng)用相關(guān)結(jié)果的符號(hào)。
此外,優(yōu)選地使用拼塊修剪和穩(wěn)定性,以便確保避免由用于相同重建區(qū)域或目標(biāo)區(qū)域的快速變化的源區(qū)域創(chuàng)建的偽像。為此,執(zhí)行不同識(shí)別的源區(qū)域之間的相似性分析,并且當(dāng)源拼塊類似于具有高于閾值的相似性的其他源拼塊時(shí),則該源拼塊可以從該組潛在源拼塊中丟棄,因?yàn)樗c其他源拼塊高度相關(guān)。此外,作為一種拼塊選擇穩(wěn)定性,如果當(dāng)前幀中的源拼塊中沒有一個(gè)與當(dāng)前幀中的目標(biāo)拼塊相關(guān)(優(yōu)于給定閾值),則優(yōu)選地保持來(lái)自先前幀的拼塊次序。
另外的方面是基于以下發(fā)現(xiàn):通過將時(shí)間噪聲整形(TNS)或時(shí)間拼塊整形(TTS)技術(shù)與高頻率重建組合來(lái)獲得特別針對(duì)包括瞬態(tài)部分(因?yàn)樗鼈兘?jīng)常發(fā)生在音頻信號(hào)中)的信號(hào)的改進(jìn)的質(zhì)量和降低的比特率。通過相對(duì)于頻率的預(yù)測(cè)實(shí)現(xiàn)的在編碼器側(cè)的TNS/TTS處理重建了音頻信號(hào)的時(shí)間包絡(luò)。根據(jù)實(shí)現(xiàn),即,當(dāng)時(shí)間噪聲整形濾波器被確定在不僅覆蓋源頻率范圍而且還覆蓋頻率再現(xiàn)解碼器中要重建的目標(biāo)頻率范圍的頻率范圍內(nèi)時(shí),時(shí)間包絡(luò)不僅應(yīng)用于核心音頻信號(hào)一直到間隙填充起始頻率,而且時(shí)間包絡(luò)也應(yīng)用于重建的第二頻譜部分的頻譜范圍。因此,減少或消除了在沒有時(shí)間拼塊整形的情況下將發(fā)生的前回波或后回波。這通過不僅在一直到某個(gè)間隙填充起始頻率的核心頻率范圍內(nèi)而且在核心頻率范圍之上的頻率范圍內(nèi)應(yīng)用相對(duì)于頻率的逆預(yù)測(cè)來(lái)實(shí)現(xiàn)。為此,在應(yīng)用相對(duì)于頻率的預(yù)測(cè)之前,在解碼器側(cè)執(zhí)行頻率再生或頻率拼塊產(chǎn)生。然而,相對(duì)于頻率的預(yù)測(cè)可以在頻譜包絡(luò)整形之前或之后應(yīng)用,這取決于能量信息計(jì)算是對(duì)濾波之后的頻譜殘留值已經(jīng)執(zhí)行還是對(duì)包絡(luò)整形之前的(全部)頻譜值已經(jīng)執(zhí)行。
相對(duì)于一個(gè)或多個(gè)頻率拼塊的TTS處理另外建立了源范圍和重建范圍之間或兩個(gè)相鄰重建范圍或頻率拼塊中的相關(guān)性的連續(xù)性。
在實(shí)現(xiàn)中,優(yōu)選使用復(fù)數(shù)TNS/TTS濾波。從而,避免了臨界采樣的實(shí)數(shù)表示(如MDCT)的(時(shí)間)混疊偽像。除了獲得復(fù)數(shù)修改的變換之外,可以通過不僅應(yīng)用修改的離散余弦變換而且還應(yīng)用修改的離散正弦變換在編碼器側(cè)計(jì)算復(fù)數(shù)TNS濾波。盡管如此,只有修改的離散余弦變換值,即復(fù)數(shù)變換的實(shí)部被發(fā)送。然而,在解碼器側(cè),有可能使用先前或后續(xù)幀的MDCT頻譜來(lái)估計(jì)該變換的虛部,使得在解碼器側(cè),復(fù)數(shù)濾波器可以再次應(yīng)用于相對(duì)于頻率的逆預(yù)測(cè),以及,具體地,相對(duì)于源范圍和重建范圍之間的邊界以及也相對(duì)于重建范圍內(nèi)的頻率相鄰頻率拼塊之間的邊界的預(yù)測(cè)。
本發(fā)明的音頻編碼系統(tǒng)以寬范圍的比特率有效地對(duì)任意音頻信號(hào)編碼。然而,對(duì)于高比特率,本發(fā)明的系統(tǒng)收斂到透明性,對(duì)于低比特率,感知煩擾被最小化。因此,可用比特率的主要份額用于僅對(duì)編碼器中的信號(hào)的感知上最相關(guān)的結(jié)構(gòu)進(jìn)行波形編碼,并且所得到的頻譜間隙被填充在具有粗略地近似于原始頻譜的信號(hào)內(nèi)容的解碼器中。通過從編碼器發(fā)送到解碼器的專用輔助信息,消耗非常有限的比特預(yù)算來(lái)控制參數(shù)驅(qū)動(dòng)的所謂的頻譜智能間隙填充(IGF)。
在另外的實(shí)施例中,時(shí)域編碼/解碼處理器依賴于較低的采樣率和相應(yīng)的帶寬擴(kuò)展功能。
在另外的實(shí)施例中,提供交叉處理器以便利用從當(dāng)前處理的頻域編碼器/解碼器信號(hào)導(dǎo)出的初始化數(shù)據(jù)來(lái)初始化時(shí)域編碼器/解碼器。這允許當(dāng)當(dāng)前處理的音頻信號(hào)部分由頻域編碼器處理時(shí),并行時(shí)域編碼器被初始化,使得當(dāng)從頻域編碼器到時(shí)域編碼器的切換發(fā)生時(shí),該時(shí)域編碼器可以立即開始處理,因?yàn)榕c更早的信號(hào)相關(guān)的所有初始化數(shù)據(jù)由于交叉處理器而已經(jīng)存在。該交叉處理器優(yōu)選地應(yīng)用于編碼器側(cè),并且另外應(yīng)用于解碼器側(cè),并且優(yōu)選地使用頻率-時(shí)間變換,其另外通過僅選擇域信號(hào)的某個(gè)低頻帶部分以及某個(gè)減小的變換尺寸來(lái)執(zhí)行從較高輸出或輸入采樣率到較低時(shí)域核心編碼器采樣率中的非常高效的下采樣。因此,非常有效地執(zhí)行從高采樣率到低采樣率的采樣率轉(zhuǎn)換,并且然后可以使用通過具有減小的變換尺寸的變換獲得的該信號(hào)來(lái)初始化時(shí)域編碼器/解碼器,使得時(shí)域編碼器/解碼器準(zhǔn)備好當(dāng)這種情況由控制器用信號(hào)通知并且緊接在前的音頻信號(hào)部分在頻域中編碼時(shí)立即執(zhí)行時(shí)域編碼。
如概述的,交叉處理器實(shí)施例可以依賴于頻域中的間隙填充,或不依賴于此。因此,時(shí)域和頻域編碼器/解碼器經(jīng)由交叉處理器組合,并且頻域編碼器/解碼器可以依賴于間隙填充,或不依賴于此。具體地,優(yōu)選如所述的某些實(shí)施例:
這些實(shí)施例在頻域中采用間隙填充,并且具有以下采樣率數(shù)字,并且可以或可以不依賴于交叉處理器技術(shù):
輸入SR=8kHz,ACELP(時(shí)域)SR=12.8kHz。
輸入SR=16kHz,ACELP SR=12.8kHz。
輸入SR=16kHz,ACELP SR=16.0kHz。
輸入SR=32.0kHz,ACELP SR=16.0kHz。
輸入SR=48kHz,ACELP SR=16kHz。
這些實(shí)施例可以或可以不在頻域中采用間隙填充,并且具有以下采樣率數(shù)字并且依賴于交叉處理器技術(shù):
TCX SR低于ACELP SR(8kHz對(duì)12.8kHz),或者其中TCX和ACELP二者都在16.0kHz運(yùn)行,并且其中不使用任何間隙填充。
因此,本發(fā)明的優(yōu)選實(shí)施例允許包括頻譜間隙填充的感知音頻編碼器和具有或不具有帶寬擴(kuò)展的時(shí)域編碼器的無(wú)縫切換。
因此,本發(fā)明依賴于不限于在頻域編碼器中從音頻信號(hào)中去除截止頻率以上的高頻內(nèi)容的方法,而是在編碼器中信號(hào)自適應(yīng)地去除留下頻譜間隙的頻譜帶通區(qū)域并隨后在解碼器中重建這些頻譜間隙。優(yōu)選地,使用諸如智能間隙填充的集成解決方案,其特別在MDCT變換域中有效地組合全帶寬音頻編碼和頻譜間隙填充。
因此,本發(fā)明提供了一種用于將語(yǔ)音編碼和隨后的時(shí)域帶寬擴(kuò)展與包括頻譜間隙填充的全頻帶波形解碼組合成可切換感知編碼器/解碼器的改進(jìn)的構(gòu)思。
因此,與已經(jīng)存在的方法相比,新構(gòu)思在變換域編碼器中利用全頻帶音頻信號(hào)波形編碼,并且同時(shí)允許到語(yǔ)音編碼器的無(wú)縫切換,優(yōu)選地隨后是時(shí)域帶寬擴(kuò)展。
本發(fā)明的其它實(shí)施例避免了由于固定頻帶限制而發(fā)生的解釋的問題。該構(gòu)思實(shí)現(xiàn)了在配備有頻譜間隙填充的頻域中的全頻帶波形編碼器和較低采樣率語(yǔ)音編碼器和時(shí)域帶寬擴(kuò)展的可切換組合。這種編碼器能夠?qū)ι鲜鲇袉栴}的信號(hào)進(jìn)行波形編碼,從而提供一直到音頻輸入信號(hào)的奈奎斯特頻率的全音頻帶寬。盡管如此,兩種編碼策略之間的無(wú)縫瞬時(shí)切換特別地由具有交叉處理器的實(shí)施例來(lái)保證。對(duì)于這種無(wú)縫切換,交叉處理器表示在全頻帶能力全速率(輸入采樣率)頻域編碼器和具有較低采樣率的低速率ACELP編碼器之間的編碼器和解碼器二者處的交叉連接,以當(dāng)從諸如TCX之類的頻域編碼器切換到諸如ACELP之類的時(shí)域編碼器時(shí),適當(dāng)?shù)爻跏蓟疉CELP參數(shù)和緩沖器,特別是在自適應(yīng)碼本、LPC濾波器或重新采樣級(jí)內(nèi)。
附圖說(shuō)明
隨后相對(duì)于附圖討論本發(fā)明,其中:
圖1a示出了用于對(duì)音頻信號(hào)進(jìn)行編碼的裝置;
圖1b示出了與圖1a的編碼器匹配的用于對(duì)編碼的音頻信號(hào)進(jìn)行解碼的解碼器;
圖2a示出了編碼器的優(yōu)選實(shí)現(xiàn);
圖2b示出了編碼器的優(yōu)選實(shí)現(xiàn);
圖3a示出了由圖1b的頻域解碼器產(chǎn)生的頻譜的示意性表示;
圖3b示出了指示用于比例因子頻帶的比例因子和用于重建頻帶的能量與用于噪聲填充頻帶的噪聲填充信息之間的關(guān)系的表格;
圖4a示出了用于將頻譜部分的選擇應(yīng)用到第一和第二組頻譜部分中的頻譜域編碼器的功能;
圖4b示出了圖4a的功能的實(shí)現(xiàn);
圖5a示出了MDCT編碼器的功能;
圖5b示出了具有MDCT技術(shù)的解碼器的功能;
圖5c示出了頻率再生器的實(shí)現(xiàn);
圖6示出了音頻編碼器的實(shí)現(xiàn);
圖7a示出了音頻編碼器內(nèi)的交叉處理器;
圖7b示出了另外在交叉處理器內(nèi)提供采樣率降低的逆或頻率-時(shí)間變換的實(shí)現(xiàn);
圖8示出了圖6的控制器的優(yōu)選實(shí)現(xiàn);
圖9示出了具有帶寬擴(kuò)展功能的時(shí)域編碼器的另外的實(shí)施例;
圖10示出了預(yù)處理器的優(yōu)選使用;
圖11a示出了音頻解碼器的示意性實(shí)現(xiàn);
圖11b示出了解碼器內(nèi)的用于為時(shí)域解碼器提供初始化數(shù)據(jù)的交叉處理器;
圖12示出了圖11a的時(shí)域解碼處理器的優(yōu)選實(shí)現(xiàn);
圖13示出了時(shí)域帶寬擴(kuò)展的另外的實(shí)現(xiàn);
圖14a示出了音頻編碼器的優(yōu)選實(shí)現(xiàn);
圖14b示出了音頻解碼器的優(yōu)選實(shí)現(xiàn);
圖14c示出了具有采樣率轉(zhuǎn)換和帶寬擴(kuò)展的時(shí)域解碼器的創(chuàng)造性實(shí)現(xiàn)。
具體實(shí)施方式
圖6示出了用于對(duì)音頻信號(hào)進(jìn)行編碼的音頻編碼器,包括用于在頻域中對(duì)第一音頻信號(hào)部分進(jìn)行編碼的第一編碼處理器600。第一編碼處理器600包括時(shí)間頻率轉(zhuǎn)換器602,用于將第一輸入音頻信號(hào)部分轉(zhuǎn)換為具有一直到輸入信號(hào)的最大頻率的頻譜線的頻域表示。此外,第一編碼處理器600包括分析器604,用于分析一直到最大頻率的頻域表示,以確定要用第一頻譜表示編碼的第一頻譜區(qū)域,并確定要用第二頻譜分辨率編碼的第二頻譜區(qū)域,所述第二頻譜分辨率低于第一頻譜分辨率。特別地,全頻帶分析器604確定時(shí)間頻率轉(zhuǎn)換器頻譜中的哪些頻率線或頻譜值要被頻譜線方式編碼,以及哪些其他頻譜部分要以參數(shù)方式編碼,然后這些后者的頻譜值在解碼器側(cè)用間隙填充過程重建。實(shí)際編碼操作由頻譜編碼器606執(zhí)行,頻譜編碼器606用于以第一分辨率對(duì)第一頻譜區(qū)域或頻譜部分進(jìn)行編碼,并且用于以參數(shù)方式用第二頻譜分辨率對(duì)第二頻譜區(qū)域或部分進(jìn)行編碼。
圖6的音頻編碼器還包括用于在時(shí)域中對(duì)音頻信號(hào)部分進(jìn)行編碼的第二編碼處理器610。另外,音頻編碼器包括控制器620,其被配置用于分析音頻信號(hào)輸入601處的音頻信號(hào),并且用于確定音頻信號(hào)的哪個(gè)部分是在頻域中編碼的第一音頻信號(hào)部分,以及音頻信號(hào)的哪個(gè)部分是在時(shí)域中編碼的第二音頻信號(hào)部分。此外,提供可以例如實(shí)現(xiàn)為比特流多路復(fù)用器的編碼信號(hào)形成器630,其被配置用于形成編碼的音頻信號(hào),該編碼的音頻信號(hào)包括用于第一音頻信號(hào)部分的第一編碼信號(hào)部分和用于第二音頻信號(hào)部分的第二編碼信號(hào)部分。重要的是,編碼的信號(hào)僅具有來(lái)自同一個(gè)音頻信號(hào)部分的頻域表示或時(shí)域表示。
因此,控制器620確保對(duì)于單個(gè)音頻信號(hào)部分,在編碼的信號(hào)中僅有時(shí)域表示或頻域表示。這可以由控制器620以若干方式實(shí)現(xiàn)。一種方式將是,對(duì)于同一個(gè)音頻信號(hào)部分,兩個(gè)表示到達(dá)塊630,并且控制器620控制編碼信號(hào)形成器630以僅將兩個(gè)表示中的一個(gè)引入到編碼的信號(hào)中。然而,備選地,控制器620可以控制到第一編碼處理器中的輸入和到第二編碼處理器中的輸入,使得基于相應(yīng)的信號(hào)部分的分析,僅激活塊600或610二者中的一個(gè)來(lái)實(shí)際執(zhí)行完全編碼操作,并且其他塊被去激活。
該去激活可以是去激活,備選地,例如相對(duì)于圖7a所示,僅僅是一種“初始化”模式,其中另一個(gè)編碼處理器僅僅對(duì)于接收和處理初始化數(shù)據(jù)是活動(dòng)的以便初始化內(nèi)部存儲(chǔ)器,但是根本不執(zhí)行任何特定的編碼操作。該激活可以通過在圖6中未示出的輸入處的某個(gè)開關(guān)來(lái)完成,或優(yōu)選地,通過控制線621和622來(lái)完成。因此,在該實(shí)施例中,當(dāng)控制器620已經(jīng)確定當(dāng)前音頻信號(hào)部分應(yīng)該由第一編碼處理器編碼,而第二編碼處理器仍然被提供有初始化數(shù)據(jù)以對(duì)于將來(lái)的瞬時(shí)切換是活動(dòng)的時(shí),第二編碼處理器610不輸出任何東西。另一方面,第一編碼處理器被配置為不需要來(lái)自過去的任何數(shù)據(jù)來(lái)更新任何內(nèi)部存儲(chǔ)器,并且因此,在當(dāng)前音頻信號(hào)部分要由第二編碼處理器610編碼時(shí),則控制器620可以經(jīng)由控制線621控制第一結(jié)束編碼處理器600完全不活動(dòng)。這意味著第一編碼處理器600不需要處于初始化狀態(tài)或等待狀態(tài),而是可以處于完全去激活狀態(tài)。這特別對(duì)于其中功耗和因此電池壽命成為問題的移動(dòng)設(shè)備而言是優(yōu)選的。
在時(shí)域中操作的第二編碼處理器的進(jìn)一步具體實(shí)現(xiàn)中,第二編碼處理器包括下采樣器900或采樣率轉(zhuǎn)換器,用于將音頻信號(hào)部分轉(zhuǎn)換為具有較低采樣率的表示,其中較低采樣率低于在到第一編碼處理器中的輸入處的采樣率。這在圖9中示出。特別地,當(dāng)輸入音頻信號(hào)包括低頻帶和高頻帶時(shí),優(yōu)選的是,在塊900的輸出處的較低采樣率表示僅具有輸入音頻信號(hào)部分的低頻帶,然后該低頻帶由時(shí)域低頻帶編碼器910進(jìn)行編碼,時(shí)域低頻帶編碼器910被配置用于對(duì)由塊900提供的較低采樣率表示進(jìn)行時(shí)域編碼。此外,提供了時(shí)域帶寬擴(kuò)展編碼器920,用于以參數(shù)方式對(duì)高頻帶進(jìn)行編碼。為此,時(shí)域帶寬擴(kuò)展編碼器920至少接收輸入音頻信號(hào)的高頻帶或輸入音頻信號(hào)的低頻帶和高頻帶。
在本發(fā)明的另一實(shí)施例中,音頻編碼器另外包括(雖然在圖6中未示出,但在圖10中示出)預(yù)處理器1000,其被配置用于預(yù)處理第一音頻信號(hào)部分和第二音頻信號(hào)部分。優(yōu)選地,預(yù)處理器100包括兩個(gè)分支,其中第一分支在12.8kHz運(yùn)行,并且執(zhí)行稍后在噪聲估計(jì)器、VAD等中使用的信號(hào)分析。第二分支以ACELP采樣率運(yùn)行,即取決于配置12.8或16.0kHz。在ACELP采樣率為12.8kHz的情況下,該分支中的大多數(shù)處理實(shí)際上被跳過,而替代地使用第一分支。
特別地,預(yù)處理器包括瞬態(tài)檢測(cè)器1020,并且第一分支由重新采樣器1021“打開”到例如12.8kHz,后面是預(yù)加重級(jí)1005a、LPC分析器1002a、加權(quán)分析濾波級(jí)1022a和FFT/噪聲估計(jì)器/語(yǔ)音活動(dòng)檢測(cè)(VAD)或音調(diào)搜索級(jí)1007。
第二分支由重新采樣器1004“打開”到例如12.8kHz或16kHz,即ACELP采樣率,后面是預(yù)加重級(jí)1005b、LPC分析器1002b、加權(quán)分析濾波級(jí)1022b和TCX LTP參數(shù)提取級(jí)1024。塊1024將其輸出提供給比特流多路復(fù)用器。塊1002連接到由ACELP/TCX決定控制的LPC量化器1010,并且塊1010也連接到比特流多路復(fù)用器。
備選地,其他實(shí)施例可以僅包括單個(gè)分支或多個(gè)分支。在一個(gè)實(shí)施例中,該預(yù)處理器包括用于確定預(yù)測(cè)系數(shù)的預(yù)測(cè)分析器。該預(yù)測(cè)分析器可以實(shí)現(xiàn)為用于確定LPC系數(shù)的LPC(線性預(yù)測(cè)編碼)分析器。然而,也可以實(shí)現(xiàn)其他分析器。此外,替代實(shí)施例中的預(yù)處理器可以包括預(yù)測(cè)系數(shù)量化器,其中該設(shè)備從預(yù)測(cè)分析器接收預(yù)測(cè)系數(shù)數(shù)據(jù)。
然而,優(yōu)選地,LPC量化器不必須是預(yù)處理器的一部分,并且它被實(shí)現(xiàn)為主編碼例程的一部分,即不是預(yù)處理器的一部分。
此外,預(yù)處理器可以另外包括用于產(chǎn)生量化預(yù)測(cè)系數(shù)的編碼的版本的熵編碼器。重要的是要注意,編碼信號(hào)形成器630或特定實(shí)現(xiàn),即比特流多路復(fù)用器630確保量化預(yù)測(cè)系數(shù)的編碼的版本被包括在編碼的音頻信號(hào)632中。優(yōu)選地,LPC系數(shù)不被直接量化,而是被轉(zhuǎn)換為例如ISF表示,或者更適合于量化的任何其它表示。該轉(zhuǎn)換優(yōu)選地通過確定LPC系數(shù)塊來(lái)執(zhí)行或者在用于使LPC系數(shù)量化的塊內(nèi)執(zhí)行。
此外,預(yù)處理器可以包括重新采樣器,用于以輸入采樣率將音頻輸入信號(hào)重新采樣為用于時(shí)域編碼器的較低采樣率。當(dāng)時(shí)域編碼器是具有某個(gè)ACELP采樣率的ACELP編碼器時(shí),則下采樣被執(zhí)行優(yōu)選到12.8kHz或16kHz。輸入采樣率可以是特定數(shù)量的采樣率(例如32kHz或甚至更高的采樣率)中的任何一個(gè)。另一方面,時(shí)域編碼器的采樣率將由某些限制預(yù)先確定,并且重新采樣器1004執(zhí)行該重新采樣并輸出輸入信號(hào)的較低采樣率表示。因此,重新采樣器可以執(zhí)行類似的功能,并且甚至可以是如圖9的上下文中所示的下采樣器900那樣的同一個(gè)元件。
此外,優(yōu)選地在預(yù)加重塊中應(yīng)用預(yù)加重。預(yù)加重處理在時(shí)域編碼領(lǐng)域中是公知的,并且在參考AMR-WB+處理的文獻(xiàn)中描述,并且預(yù)加重特別地被配置用于補(bǔ)償頻譜傾斜,并因此允許以給定的LPC次序更好地計(jì)算LPC參數(shù)。
此外,預(yù)處理器可以另外包括用于控制圖14b中的1420處所示的LTP后濾波器的TCX-LTP參數(shù)提取。此外,預(yù)處理器可以另外包括在1007處示出的其他功能,并且這些其他功能可以包括音調(diào)搜索功能、話音活動(dòng)檢測(cè)(VAD)功能或者時(shí)域或語(yǔ)音編碼領(lǐng)域中已知的任何其他功能。
如所示,塊1024的結(jié)果被輸入到編碼的信號(hào)中,即,在圖14a的實(shí)施例中,被輸入到比特流多路復(fù)用器630中。此外,如果需要,來(lái)自塊1007的數(shù)據(jù)也可以被引入到比特流多路復(fù)用器中,或者可以備選地用于在時(shí)域編碼器中的時(shí)域編碼的目的。
因此,總而言之,兩個(gè)路徑共用的是預(yù)處理操作1000,其中執(zhí)行常用的信號(hào)處理操作。這些包括針對(duì)一個(gè)并行路徑的到ACELP采樣率(12.8或16kHz)的重新采樣,并且總是執(zhí)行該重新采樣。此外,執(zhí)行在塊1006處示出的TCX LTP參數(shù)提取,另外,執(zhí)行LPC系數(shù)的預(yù)加重和確定。如概述的,預(yù)加重補(bǔ)償了頻譜傾斜,因此使得以給定LPC次序進(jìn)行的LPC參數(shù)的計(jì)算更有效。
隨后,參考圖8,以便示出控制器620的優(yōu)選實(shí)現(xiàn)??刂破髟谳斎胩幗邮账紤]的音頻信號(hào)部分。優(yōu)選地,如圖14a所示,控制器接收在預(yù)處理器1000中可用的任何信號(hào),其可以是以輸入采樣率的原始輸入信號(hào)或以較低時(shí)域編碼器采樣率的重新采樣版本,或者是在塊1005中的預(yù)加重處理之后獲得的信號(hào)。
基于該音頻信號(hào)部分,控制器620尋址頻域編碼器模擬器621和時(shí)域編碼器模擬器622,以便針對(duì)每個(gè)編碼器可能性計(jì)算估計(jì)的信噪比。隨后,選擇器623自然地在考慮預(yù)定義比特率的情況下選擇已經(jīng)提供更好的信噪比的編碼器。選擇器然后通過控制輸出識(shí)別相應(yīng)的編碼器。當(dāng)確定考慮下的音頻信號(hào)部分要使用頻域編碼器進(jìn)行編碼時(shí),時(shí)域編碼器被設(shè)置為初始化狀態(tài),或者在其他實(shí)施例中,在完全去激活狀態(tài)下不要求非常瞬時(shí)的切換。然而,當(dāng)確定考慮下的音頻信號(hào)部分要由時(shí)域編碼器進(jìn)行編碼時(shí),則頻域編碼器被去激活。
隨后,示出了圖8中所示的控制器的優(yōu)選實(shí)現(xiàn)。通過模擬ACELP和TCX編碼器并切換到更好的執(zhí)行分支,在切換決定中執(zhí)行應(yīng)該是選擇ACELP還是選擇TCX路徑的決定。為此,基于ACELP和TCX編碼器/解碼器模擬來(lái)估計(jì)ACELP和TCX分支的SNR。在沒有TNS/TTS分析、IGF編碼器、量化回路/算術(shù)編碼器或沒有任何TCX解碼器的情況下執(zhí)行TCX編碼器/解碼器模擬。替代地,使用整形后的MDCT域中的量化器失真的估計(jì)來(lái)估計(jì)TCX SNR。僅使用自適應(yīng)碼本和創(chuàng)新碼本的模擬來(lái)執(zhí)行ACELP編碼器/解碼器模擬。通過計(jì)算由加權(quán)信號(hào)域(自適應(yīng)碼本)中的LTP濾波器引入的失真并通過常數(shù)因子(創(chuàng)新碼本)按比例縮放該失真來(lái)簡(jiǎn)單地估計(jì)ACELP SNR。因此,與并行執(zhí)行TCX和ACELP編碼的方法相比,復(fù)雜度大大降低。具有較高SNR的分支被選擇用于隨后的完整編碼運(yùn)行。
在選擇TCX分支的情況下,在每個(gè)幀中運(yùn)行TCX解碼器,其以ACELP采樣率輸出信號(hào)。這用于更新用于ACELP編碼路徑(LPC殘留、Mem w0、存儲(chǔ)器去加重)的存儲(chǔ)器,以實(shí)現(xiàn)從TCX到ACELP的瞬時(shí)切換。在每個(gè)TCX路徑中執(zhí)行存儲(chǔ)器更新。
備選地,可以執(zhí)行通過合成處理進(jìn)行的完全分析,即,編碼器模擬器621、622二者都實(shí)現(xiàn)實(shí)際編碼操作,并且結(jié)果由選擇器623進(jìn)行比較。備選地,再次,可以通過執(zhí)行信號(hào)分析來(lái)完成完整的前饋計(jì)算。例如,當(dāng)通過信號(hào)分類器確定信號(hào)是語(yǔ)音信號(hào)時(shí),選擇時(shí)域編碼器,并且當(dāng)確定信號(hào)是音樂信號(hào)時(shí),則選擇頻域編碼器。還可以應(yīng)用其它過程以便基于對(duì)所考慮的音頻信號(hào)部分的信號(hào)分析來(lái)在兩個(gè)編碼器之間進(jìn)行區(qū)分。
優(yōu)選地,音頻編碼器另外包括圖7a中所示的交叉處理器700。當(dāng)頻域編碼器600是活動(dòng)的時(shí),交叉處理器700向時(shí)域編碼器610提供初始化數(shù)據(jù),使得時(shí)域編碼器準(zhǔn)備好用于未來(lái)信號(hào)部分中的無(wú)縫切換。換句話說(shuō),當(dāng)使用頻域編碼器確定當(dāng)前信號(hào)部分要被編碼時(shí),并且當(dāng)控制器確定緊接在后的音頻信號(hào)部分要由時(shí)域編碼器610編碼時(shí),則在沒有交叉處理器的情況下,這種立即無(wú)縫切換將是不可能的。然而,為了初始化時(shí)域編碼器中的存儲(chǔ)器的目的,交叉處理器向時(shí)域編碼器610提供從頻域編碼器600導(dǎo)出的信號(hào),因?yàn)闀r(shí)域編碼器610具有對(duì)來(lái)自輸入的當(dāng)前幀或按時(shí)間緊接在前的幀的編碼的信號(hào)的依賴性。
因此,時(shí)域編碼器610被配置為由初始化數(shù)據(jù)初始化,以便以高效的方式對(duì)由頻域編碼器600編碼的較早的音頻信號(hào)部分之后的音頻信號(hào)部分進(jìn)行編碼。
特別地,交叉處理器包括用于將頻域表示轉(zhuǎn)換為時(shí)域表示的頻率-時(shí)間轉(zhuǎn)換器,所述時(shí)域表示可以直接或在一些進(jìn)一步處理之后被轉(zhuǎn)發(fā)到時(shí)域編碼器。該轉(zhuǎn)換器在圖14a中示出為IMDCT(逆修改的離散余弦變換)塊。然而,與圖14a中所示的時(shí)間-頻率轉(zhuǎn)換器塊602相比,該塊702具有不同的變換尺寸(修改的離散余弦變換塊)。如塊602所示,在一些實(shí)施例中,時(shí)間-頻率轉(zhuǎn)換器602以輸入采樣率操作,并且逆修改的離散余弦變換702以較低ACELP采樣率操作。
在其它實(shí)施例中,例如具有8kHz輸入采樣率的窄帶操作模式,TCX分支以8kHz操作,而ACELP仍然以12.8kHz運(yùn)行。即,ACELP SR不總是低于TCX采樣率。對(duì)于16kHz輸入采樣率(寬帶),還存在ACELP以與TCX相同的采樣率運(yùn)行的場(chǎng)景,即二者都以16kHz運(yùn)行。在超寬帶模式(SWB)中,輸入采樣率處于32或48kHz。
可以計(jì)算時(shí)域編碼器采樣率或ACELP采樣率與頻域編碼器采樣率或輸入采樣率的比率,并且它是圖7b所示的下采樣因子DS。當(dāng)下采樣操作的輸出采樣率低于輸入采樣率時(shí),下采樣因子大于1。然而,當(dāng)存在實(shí)際上采樣時(shí),則下采樣率低于1,并且執(zhí)行實(shí)際上采樣。
對(duì)于大于1的下采樣因子,即,對(duì)于實(shí)際下采樣,塊602具有大變換尺寸,且IMDCT塊702具有小變換尺寸。如圖7b所示,IMDCT塊702因此包括用于選擇到IMDCT塊702中的輸入的較低頻譜部分的選擇器726。全頻帶頻譜的部分由下采樣因子DS限定。例如,當(dāng)較低采樣率是16kHz并且輸入采樣率是32kHz時(shí),則下采樣因子是2.0,因此,選擇器726選擇全頻帶頻譜的下半部分。當(dāng)頻譜具有例如1024個(gè)MDCT線時(shí),則選擇器選擇下部的512個(gè)MDCT線。
全頻帶頻譜的這個(gè)低頻部分被輸入到小尺寸變換和展開(foldout)塊720中,如圖7b所示。該變換尺寸還根據(jù)下采樣因子來(lái)選擇,并且是在塊602中變換尺寸的50%。然后執(zhí)行合成窗口化,其中窗口具有小數(shù)量的系數(shù)。合成窗口的系數(shù)的數(shù)量等于下采樣因子的倒數(shù)乘以塊602所使用的分析窗口的系數(shù)的數(shù)量。最后,以每塊更小數(shù)量的操作執(zhí)行重疊相加操作,并且每塊的操作數(shù)量再次是全速率實(shí)現(xiàn)MDCT中的每塊的操作數(shù)量乘以下采樣因子的倒數(shù)。
因此,可以應(yīng)用非常高效的下采樣操作,因?yàn)橄虏蓸颖话ㄔ贗MD CT實(shí)現(xiàn)中。在該上下文中,要強(qiáng)調(diào)的是,塊702可以由IMDCT實(shí)現(xiàn),但是也可以由可以在實(shí)際變換內(nèi)核和其他變換相關(guān)操作中適當(dāng)?shù)囟ǔ叽绲娜魏纹渌儞Q或?yàn)V波器組實(shí)現(xiàn)來(lái)實(shí)現(xiàn)。
對(duì)于低于1的下采樣因子,即對(duì)于實(shí)際的上采樣,圖7中的符號(hào),塊720、722、724、726必須被反轉(zhuǎn)。塊726選擇全頻帶頻譜并且對(duì)于不包括在全頻帶頻譜中的上頻譜線另外置零。塊720具有大于塊710的變換尺寸,且塊722具有系數(shù)的數(shù)量大于塊712中的窗口,且塊724也具有大于塊714中的數(shù)量的操作。
塊602具有小變換尺寸,并且IMDCT塊702具有大變換尺寸。如圖7b所示,IMDCT塊702因此包括用于選擇到IMDCT塊702中的輸入的全頻譜部分的選擇器726,并且對(duì)于輸出所需的附加高頻帶,選擇零或噪聲并將其放置在所需的上頻帶中。全頻帶頻譜的部分由下采樣因子DS限定。例如,當(dāng)較高采樣率是16kHz,并且輸入采樣率是8kHz時(shí),則下采樣因子是0.5,因此,選擇器726選擇全頻帶頻譜,并且另外優(yōu)選地選擇零或小能量隨機(jī)噪聲用于不包括在全帶頻域頻譜中的上部分。當(dāng)頻譜具有例如1024個(gè)MDCT線時(shí),則選擇器選擇1024個(gè)MDCT線,并且對(duì)于附加的1024個(gè)MDCT線,優(yōu)選地選擇零。
全頻帶頻譜的該頻率部分被輸入到隨后的大尺寸變換和展開塊720中,如圖7b所示。該變換尺寸還根據(jù)下采樣因子來(lái)選擇,并且是在塊602中變換尺寸的200%。然后執(zhí)行具有帶有更高數(shù)量的系數(shù)的窗口的合成窗口化。合成窗口的系數(shù)的數(shù)量等于倒數(shù)下采樣因子除以塊602所使用的分析窗口的系數(shù)的數(shù)量。最后,以每塊更高數(shù)量的操作執(zhí)行重疊相加操作,并且每塊的操作數(shù)量再次是全速率實(shí)現(xiàn)MDCT中的每塊的操作數(shù)量乘以下采樣因子的倒數(shù)。
因此,可以應(yīng)用非常高效的上采樣操作,因?yàn)樯喜蓸颖话ㄔ贗MD CT實(shí)現(xiàn)中。在該上下文中,要強(qiáng)調(diào)的是,塊702可以由IMDCT實(shí)現(xiàn),但是也可以由可以在實(shí)際變換內(nèi)核和其他變換相關(guān)操作中適當(dāng)?shù)囟ǔ叽绲娜魏纹渌儞Q或?yàn)V波器組實(shí)現(xiàn)來(lái)實(shí)現(xiàn)。
通常,概述了頻域中的采樣率的定義需要一些解釋。頻譜帶通常被下采樣。因此,使用有效采樣率或“相關(guān)聯(lián)”采樣或采樣率的概念。在濾波器組/變換的情況下,有效采樣率將被限定為
Fs_eff=subbandsamplerate*num_subbands
在圖14a所示的另一實(shí)施例中,時(shí)間-頻率轉(zhuǎn)換器除了分析器之外還包括附加功能。圖6的分析器604可以包括在圖14a的實(shí)施例中的時(shí)間噪聲整形/時(shí)間拼塊整形分析塊604a,其如在針對(duì)TNS/TTS分析塊604a的圖2b塊222的上下文中討論的那樣進(jìn)行操作,并且針對(duì)對(duì)應(yīng)于圖14a中的IGF編碼器604b的音調(diào)掩碼226關(guān)于圖2所示的那樣進(jìn)行操作。
此外,頻域編碼器優(yōu)選地包括噪聲整形塊606a。噪聲整形塊606a由如塊1010產(chǎn)生的量化LPC系數(shù)控制。用于噪聲整形606a的量化LPC系數(shù)執(zhí)行直接編碼(而不是以參數(shù)方式編碼)的高分辨率頻譜值或頻譜線的頻譜整形,并且塊606a的結(jié)果類似于LPC濾波級(jí)之后的信號(hào)的頻譜,其在時(shí)域(例如稍后將描述的LPC分析濾波塊704)中進(jìn)行操作。此外,然后如塊606b所示,對(duì)噪聲整形塊606a的結(jié)果進(jìn)行量化和熵編碼。塊606b的結(jié)果對(duì)應(yīng)于編碼的第一音頻信號(hào)部分或頻域編碼的音頻信號(hào)部分(連同其它輔助信息一起)。
交叉處理器700包括用于計(jì)算第一編碼信號(hào)部分的經(jīng)解碼版本的頻譜解碼器。在圖14a的實(shí)施例中,頻譜解碼器701包括前面討論的逆噪聲整形塊703、可選的間隙填充解碼器704、TNS/TTS合成塊705和IMDCT塊702。這些塊撤消由塊602至606b執(zhí)行的特定操作。具體地,噪聲整形塊703基于量化的LPC系數(shù)1010來(lái)撤銷由塊606a執(zhí)行的噪聲整形。IGF解碼器704如關(guān)于圖2A所討論的那樣操作塊202和206,并且TNS/TTS合成塊705如在圖2A的塊210的上下文中所時(shí)論的那樣操作,并且頻譜解碼器另外包括IMDCT塊702。此外,圖14a中的交叉處理器700另外或備選地包括延遲級(jí)707,用于將由頻譜解碼器701獲得的經(jīng)解碼版本的延遲版本饋送在第二編碼處理器的去加重級(jí)617中,以用于初始化去加重級(jí)617的目的。
此外,交叉處理器700可以附加地或備選地包括加權(quán)預(yù)測(cè)系數(shù)分析濾波級(jí)708,用于對(duì)經(jīng)解碼版本進(jìn)行濾波并用于將濾波后的經(jīng)解碼版本饋送到第二編碼處理器的在圖14a中指示為“MMSE”的碼本確定器613,以用于初始化該塊。附加地或備選地,交叉處理器包括LPC分析濾波級(jí),用于將由頻譜解碼器700輸出的第一編碼信號(hào)部分的經(jīng)解碼版本濾波到自適應(yīng)碼本級(jí)612,以用于塊612的初始化。另外或備選地,交叉處理器還包括預(yù)加重級(jí)709,用于在LPC濾波之前對(duì)由頻譜解碼器701輸出的經(jīng)解碼版本執(zhí)行預(yù)加重處理。預(yù)加重級(jí)輸出也可以被饋送到另外的延遲級(jí)710,用于在時(shí)域編碼器610內(nèi)初始化LPC合成濾波塊616的目的。
如圖14a所示,時(shí)域編碼器處理器610包括在較低ACELP采樣率上的預(yù)加重操作。如所示,該預(yù)加重是在預(yù)處理級(jí)1000中執(zhí)行的預(yù)加重,并且具有附圖標(biāo)記1005。預(yù)加重?cái)?shù)據(jù)被輸入到在時(shí)域中進(jìn)行操作的LPC分析濾波級(jí)611中,并且該濾波器由通過預(yù)處理級(jí)1000獲得的量化LPC系數(shù)1010控制。如從AMR-WB+或USAC或其它CELP編碼器已知的,由塊611產(chǎn)生的殘留信號(hào)被提供給自適應(yīng)碼本612,此外,自適應(yīng)碼本612連接到創(chuàng)新碼本級(jí)614,并且來(lái)自自適應(yīng)碼本612和來(lái)自創(chuàng)新碼本的碼本數(shù)據(jù)被輸入到比特流多路復(fù)用器中,如所示。
此外,提供與創(chuàng)新碼本級(jí)614串聯(lián)的ACELP增益/編碼級(jí)615,并且將該塊的結(jié)果輸入到圖14a中指示為MMSE的碼本確定器613中。該塊與創(chuàng)新碼本塊614協(xié)作。此外,時(shí)域編碼器另外包括具有LPC合成濾波塊616、去加重塊617和自適應(yīng)低音后濾波級(jí)618的解碼器部分,用于計(jì)算自適應(yīng)低音后濾波的參數(shù),然而,自適應(yīng)低音后濾波應(yīng)用于解碼器側(cè)。在解碼器側(cè)沒有任何自適應(yīng)低音后濾波的情況下,塊616、617、618對(duì)于時(shí)域編碼器610將不是必需的。
如所示,時(shí)域解碼器的若干塊取決于先前的信號(hào),并且這些塊是自適應(yīng)碼本塊612、碼本確定器613、LPC合成濾波塊616和去加重塊617。這些塊被提供有從頻域編碼處理器數(shù)據(jù)導(dǎo)出的來(lái)自交叉處理器的數(shù)據(jù),以便為了準(zhǔn)備好從頻域編碼器到時(shí)域編碼器的瞬時(shí)切換的目的而初始化這些塊。從圖14a還可以看出,對(duì)于頻域編碼器,對(duì)較早數(shù)據(jù)的任何依賴性不是必需的。因此,交叉處理器700不提供從時(shí)域編碼器到頻域編碼器的任何存儲(chǔ)器初始化數(shù)據(jù)。然而,對(duì)于其中存在來(lái)自過去的依賴性以及其中需要存儲(chǔ)器初始化數(shù)據(jù)的頻域編碼器的其它實(shí)現(xiàn),交叉處理器700被配置為在兩個(gè)方向上操作。
圖14b中的優(yōu)選音頻解碼器被描述如下:波形解碼器部分由全頻帶TCX解碼器路徑和IGF組成,其中二者都以編解碼器的輸入采樣率操作。并行地,存在在較低采樣率處的替代ACELP解碼器路徑,其在下游由TD-BWE進(jìn)一步加強(qiáng)。
對(duì)于從TCX切換到ACELP時(shí)的ACELP初始化,存在執(zhí)行本發(fā)明的ACELP初始化的交叉路徑(由共享TCX解碼器前端組成,但是另外提供以較低采樣率的輸出和一些后處理)。在LPC中在TCX和ACELP之間共享相同的采樣率和濾波次序允許更容易和更高效的ACELP初始化。
為了可視化切換,在14b中繪制了兩個(gè)開關(guān)。當(dāng)在下游的第二開關(guān)1160在TCX/IGF或ACELP/TD-BWE輸出之間選擇時(shí),第一開關(guān)1480要么通過交叉路徑的輸出預(yù)更新在ACELP路徑下游的重新采樣QMF級(jí)中的緩沖器,要么簡(jiǎn)單地傳遞ACELP輸出。
隨后,在圖11a-14c的上下文中討論根據(jù)本發(fā)明的方面的音頻解碼器實(shí)現(xiàn)。
用于對(duì)編碼的音頻信號(hào)1101進(jìn)行解碼的音頻解碼器包括用于在頻域中對(duì)第一編碼音頻信號(hào)部分進(jìn)行解碼的第一解碼處理器1120。第一解碼處理器1120包括頻譜解碼器1122,用于以高頻譜分辨率對(duì)第一頻譜區(qū)域進(jìn)行解碼并且用于使用第二頻譜區(qū)域的參數(shù)表示和至少解碼的第一頻譜區(qū)域來(lái)合成第二頻譜區(qū)域以獲得解碼的頻譜表示。解碼的頻譜表示是如圖6的上下文中討論的并且也如圖1a的上下文中討論的全頻帶解碼的頻譜表示。因此,一般來(lái)說(shuō),第一解碼處理器包括在頻域中具有間隙填充過程的全頻帶實(shí)現(xiàn)。第一解碼處理器1120還包括頻率-時(shí)間轉(zhuǎn)換器1124,用于將解碼的頻譜表示轉(zhuǎn)換到時(shí)域中以獲得解碼的第一音頻信號(hào)部分。
此外,音頻解碼器包括第二解碼處理器1140,用于在時(shí)域中對(duì)第二編碼的音頻信號(hào)部分進(jìn)行解碼以獲得解碼的第二信號(hào)部分。此外,音頻解碼器包括組合器1160,用于組合解碼的第一信號(hào)部分和解碼的第二信號(hào)部分以獲得解碼的音頻信號(hào)。解碼的信號(hào)部分按順序組合,這也在圖14b中由表示圖11a的組合器1160的實(shí)施例的開關(guān)實(shí)現(xiàn)1160示出。
優(yōu)選地,第二解碼處理器1140包含時(shí)域帶寬擴(kuò)展處理器1220,并且如圖12所示包括時(shí)域低頻帶解碼器1200,用于對(duì)低頻帶時(shí)域信號(hào)進(jìn)行解碼。該實(shí)現(xiàn)還包括用于對(duì)低頻帶時(shí)域信號(hào)進(jìn)行上采樣的上采樣器1210。另外,提供了時(shí)域帶寬擴(kuò)展解碼器1220,用于對(duì)輸出音頻信號(hào)的高頻帶進(jìn)行合成。此外,提供了混頻器1230,用于混合合成的時(shí)域輸出信號(hào)的高頻帶和上采樣的低頻帶時(shí)域信號(hào),以獲得時(shí)域編碼器輸出。因此,在優(yōu)選的實(shí)施例中,圖11a中的塊1140可以通過圖12的功能來(lái)實(shí)現(xiàn)。
圖13示出了圖12的時(shí)域帶寬擴(kuò)展解碼器1220的優(yōu)選實(shí)施例。優(yōu)選地,提供了時(shí)域上采樣器1221,其從包括在塊1140內(nèi)并且在圖12的1200處示出并在圖14b的上下文中進(jìn)一步示出的時(shí)域低頻帶解碼器接收作為輸入的LPC殘留信號(hào)。時(shí)域上采樣器1221產(chǎn)生LPC殘留信號(hào)的上采樣的版本。然后將該版本輸入到非線性失真塊1222中,該非線性失真塊1222基于其輸入信號(hào)產(chǎn)生具有較高頻率值的輸出信號(hào)。非線性失真可以是復(fù)制、鏡像、頻移或非線性計(jì)算操作或設(shè)備,例如,在非線性區(qū)域中操作的二極管或晶體管。塊1222的輸出信號(hào)被輸入到LPC合成濾波塊1223,LPC合成濾波塊1223也由用于低頻帶解碼器的LPC數(shù)據(jù)控制,或者例如由圖14a的編碼器側(cè)的時(shí)域帶寬擴(kuò)展塊920所產(chǎn)生的特定包絡(luò)數(shù)據(jù)控制。然后將LPC合成塊的輸出輸入到帶通或高通濾波器1224中以最終獲得高頻帶,然后將其輸入到混頻器1230中,如圖12所示。
隨后,圖12的上采樣器1210的優(yōu)選實(shí)現(xiàn)在圖14a的上下文中討論。上采樣器優(yōu)選地包括以第一時(shí)域低頻帶解碼器采樣率操作的分析濾波器組。這種分析濾波器組的具體實(shí)現(xiàn)是圖14b中所示的QMF分析濾波器組1471。此外,上采樣器包括以高于第一時(shí)域低頻帶采樣率的第二輸出采樣率進(jìn)行操作的合成濾波器組1473。因此,作為通用濾波器組的優(yōu)選實(shí)現(xiàn)的QMF合成濾波器組1473以輸出采樣率操作。當(dāng)如圖7b的上下文中討論的下采樣因子DS為0.5時(shí),則QMF分析濾波器組1471具有例如僅32個(gè)濾波器組通道,并且QMF合成濾波器組1473具有例如64個(gè)QMF通道,但是濾波器組通道的較高一半,即上部32個(gè)濾波器組通道被饋送有零或噪聲,而下部32個(gè)濾波器組通道被饋送有由QMF分析濾波器組1471提供的相應(yīng)信號(hào)。然而,優(yōu)選地,在QMF濾波器組域內(nèi)執(zhí)行帶通濾波1472,以便確保QMF合成輸出1473是ACELP解碼器輸出的上采樣的版本,但沒有高于ACELP解碼器的最大頻率的任何偽像。
作為對(duì)帶通濾波1472的附加或替代,可以在QMF域內(nèi)執(zhí)行進(jìn)一步的處理操作。如果根本不執(zhí)行處理,則QMF分析和QMF合成構(gòu)成高效的上采樣器1210。
隨后,對(duì)圖14b中的各個(gè)元件的結(jié)構(gòu)進(jìn)行更詳細(xì)地討論。
全頻帶頻域解碼器1120包括第一解碼塊1122a,用于對(duì)高分辨率頻譜系數(shù)進(jìn)行解碼并且用于另外執(zhí)行例如從USAC技術(shù)已知的低頻帶部分中的噪聲填充。此外,全頻帶解碼器包括IGF處理器1122b,用于使用已經(jīng)僅以參數(shù)方式編碼并因此在編碼器側(cè)以低分辨率編碼的合成的頻譜值來(lái)填充頻譜空洞。然后,在塊1122c中,執(zhí)行逆噪聲整形,并且將結(jié)果輸入到TNS/TTS合成塊705中,TNS/TTS合成塊705將作為最終輸出的輸入提供給頻率-時(shí)間轉(zhuǎn)換器1124,其優(yōu)選地實(shí)現(xiàn)為在輸出處操作的逆修改的離散余弦變換,即高采樣率。
此外,使用由圖14a中的TCX LTP參數(shù)提取塊1006獲得的數(shù)據(jù)控制的諧波或LTP后濾波器。結(jié)果然后是以輸出采樣率解碼的第一音頻信號(hào)部分,并且如從圖14b可以看出的,該數(shù)據(jù)具有高采樣率,因此,根本不需要任何進(jìn)一步的頻率增強(qiáng),這是由于以下的事實(shí):解碼處理器是頻域全頻帶解碼器,其優(yōu)選地使用在圖1a-5C的上下文中討論的智能間隙填充技術(shù)來(lái)操作。
圖14b中的若干元素與圖14a的交叉處理器700中的相應(yīng)塊非常相似,特別是關(guān)于對(duì)應(yīng)于IGF處理1122b的IGF解碼器704,以及由量化LPC系數(shù)1145控制的逆噪聲整形操作對(duì)應(yīng)于圖14a的逆噪聲整形703,以及圖14b中的TNS/TTS合成塊705對(duì)應(yīng)于圖14a中的塊TNS/TTS合成705。然而,重要的是,圖14b中的IMDCT塊1124以高采樣率操作,而圖14a中的IMDCT塊702以低采樣率操作。因此,圖14b中的塊1124包括與圖7b中的相應(yīng)特征720、722、724相比具有相應(yīng)大數(shù)量的操作、大數(shù)量的窗口系數(shù)和大變換尺寸的大的定尺寸的變換和展開塊710、塊712中的合成窗口和重疊相加級(jí)714,其在塊701中操作,并且稍后將在圖14b中的交叉處理器1170的塊1171中概述。
時(shí)域解碼處理器1140優(yōu)選地包括ACELP或時(shí)域低頻帶解碼器1200,ACELP或時(shí)域低頻帶解碼器1200包括用于獲得解碼的增益和創(chuàng)新碼本信息的ACELP解碼器級(jí)1149。另外,提供了ACELP自適應(yīng)碼本級(jí)1141,以及隨后的ACELP后處理級(jí)1142和最終合成濾波器(例如LPC合成濾波器1143),其再次由從對(duì)應(yīng)于圖11a中的編碼的信號(hào)解析器1100的比特流多路分配器1100獲得的量化LPC系數(shù)1145控制。LPC合成濾波器1143的輸出被輸入到去加重級(jí)1144中,用于消除或撤消由圖14a的預(yù)處理器1000的預(yù)加重級(jí)1005引入的處理。結(jié)果是在低采樣率和低頻帶下的時(shí)域輸出信號(hào),并且在要求頻域輸出的情況下,開關(guān)1480處于指示位置,并且去加重級(jí)1144的輸出被引入到上采樣器1210中,然后與來(lái)自時(shí)域帶寬擴(kuò)展解碼器1220的高頻帶混合。
根據(jù)本發(fā)明的實(shí)施例,音頻解碼器另外包括圖11b和圖14b中所示的交叉處理器1170,用于根據(jù)第一編碼音頻信號(hào)部分的解碼的頻譜表示計(jì)算第二解碼處理器的初始化數(shù)據(jù),使得第二解碼處理器被初始化以對(duì)編碼的音頻信號(hào)中在時(shí)間上跟隨第一音頻信號(hào)部分的編碼的第二音頻信號(hào)部分進(jìn)行解碼,即,使得時(shí)域編碼處理器1140準(zhǔn)備好從一個(gè)音頻信號(hào)部分到下一個(gè)音頻信號(hào)部分的瞬時(shí)切換,而在質(zhì)量或效率上沒有任何損耗。
優(yōu)選地,交叉處理器1170包括以比第一解碼處理器的頻率-時(shí)間轉(zhuǎn)換器更低的采樣率操作的附加頻率-時(shí)間轉(zhuǎn)換器1171,以便在時(shí)域中獲得進(jìn)一步解碼的第一信號(hào)部分,以用作初始化信號(hào)或可以針對(duì)其導(dǎo)出任何初始化數(shù)據(jù)。優(yōu)選地,該IMDCT或低采樣率頻率-時(shí)間轉(zhuǎn)換器被實(shí)現(xiàn)為圖7b中所示的項(xiàng)目726(選擇器)、項(xiàng)目720(小尺寸變換和展開),如722中所示的具有較小數(shù)量的窗口系數(shù)的合成窗口以及如724處所示的具有較小數(shù)量的操作的重疊相加級(jí)。因此,頻域全頻帶解碼器中的IMDCT塊1124如由塊710、712、714所示被實(shí)現(xiàn),并且IMDCT塊1171如圖7b所示由塊726、720、722、724實(shí)現(xiàn)。再次,下采樣因子是時(shí)域編碼器采樣率或低采樣率與較高頻域編碼器采樣率或輸出采樣率之間的比率,并且該下采樣因子可以是大于0且小于1的任何數(shù)。
如圖14b所示,交叉處理器1170單獨(dú)地或者除了其它元件之外還包括延遲級(jí)1172,用于延遲進(jìn)一步解碼的第一信號(hào)部分并用于將延遲的解碼的第一信號(hào)部分饋送到第二解碼處理器的去加重級(jí)1144中以進(jìn)行初始化。此外,交叉處理器另外或備選地包括預(yù)加重濾波器1173和延遲級(jí)1175,用于對(duì)進(jìn)一步解碼的第一信號(hào)部分進(jìn)行濾波和延遲,并用于將塊1175的延遲輸出提供到ACELP解碼器的LPC合成濾波級(jí)1143中,以用于初始化的目的。
此外,交叉處理器備選地或除了其他提到的元件之外可以包括LPC分析濾波器1174,LPC分析濾波器1174用于根據(jù)進(jìn)一步解碼的第一信號(hào)部分或預(yù)加重的進(jìn)一步解碼的第一信號(hào)部分產(chǎn)生預(yù)測(cè)殘留信號(hào),并且用于將數(shù)據(jù)饋送到第二解碼處理器的碼本合成器中,并且優(yōu)選地,饋送到自適應(yīng)碼本級(jí)1141中。此外,具有低采樣率的頻率-時(shí)間轉(zhuǎn)換器1171的輸出也被輸入到上采樣器1210的QMF分析級(jí)1471中,以用于初始化的目的,即在當(dāng)前解碼的音頻信號(hào)部分由頻域全頻帶解碼器1120遞送時(shí)。
下面描述優(yōu)選的音頻解碼器:波形解碼器部分由全頻帶TCX解碼器路徑和IGF組成,其中二者都以編解碼器的輸入采樣率操作。并行地,存在在較低采樣率處的替代ACELP解碼器路徑,其在下游由TD-BWE進(jìn)一步加強(qiáng)。
對(duì)于從TCX切換到ACELP時(shí)的ACELP初始化,存在執(zhí)行本發(fā)明的ACELP初始化的交叉路徑(由共享TCX解碼器前端組成,但是另外提供以較低采樣率的輸出和一些后處理)。在LPC中在TCX和ACELP之間共享相同的采樣率和濾波次序允許更容易和更高效的ACELP初始化。
為了可視化切換,在圖14b中繪制了兩個(gè)開關(guān)。當(dāng)在下游的第二開關(guān)1160在TCX/IGF或ACELP/TD-BWE輸出之間選擇時(shí),第一開關(guān)1480要么通過交叉路徑的輸出預(yù)更新在ACELP路徑下游的重新采樣QMF級(jí)中的緩沖器,要么簡(jiǎn)單地傳遞ACELP輸出。
總而言之,可單獨(dú)或組合使用的本發(fā)明的優(yōu)選方面涉及ACELP和TD-BWE編碼器與能夠全頻帶TCX/IGF技術(shù)的組合,優(yōu)選與使用交叉信號(hào)相關(guān)聯(lián)。
另一個(gè)特定特征是用于ACELP初始化以實(shí)現(xiàn)無(wú)縫切換的交叉信號(hào)路徑。
另一方面是短IMDCT被饋送有高速率長(zhǎng)MDCT系數(shù)的較低部分以在交叉路徑中高效地實(shí)現(xiàn)采樣率轉(zhuǎn)換。
另一特征是在解碼器中與全頻帶TCX/IGF部分共享的交叉路徑的高效實(shí)現(xiàn)。
另一特征是用于QMF初始化的交叉信號(hào)路徑,以實(shí)現(xiàn)從TCX到ACELP的無(wú)縫切換。
附加特征是到QMF的交叉信號(hào)路徑,其允許補(bǔ)償ACELP重新采樣輸出和當(dāng)從ACELP切換到TCX時(shí)的濾波器組-TCX/IGF輸出之間的延遲間隙。
另一方面是,以相同的采樣率和濾波次序?yàn)門CX和ACELP編碼器二者提供LPC,盡管TCX/IGF編碼器/解碼器是能夠全頻帶的。
隨后,圖14c被討論為要么作為獨(dú)立解碼器操作要么與能夠全頻帶頻域解碼器組合操作的時(shí)域解碼器的優(yōu)選實(shí)現(xiàn)。
通常,時(shí)域解碼器包括ACELP解碼器,隨后連接的重新采樣器或上采樣器和時(shí)域帶寬擴(kuò)展功能。特別地,ACELP解碼器包括用于恢復(fù)增益和創(chuàng)新碼本的ACELP解碼級(jí)1149、ACELP自適應(yīng)碼本級(jí)1141、ACELP后處理器1142、由來(lái)自比特流多路分配器的量化LPC系數(shù)控制的LPC合成濾波器1143或編碼的信號(hào)解析器和隨后連接的去加重級(jí)1144。優(yōu)選地,與來(lái)自比特流的控制數(shù)據(jù)一起,處于ACELP采樣率的解碼的時(shí)域信號(hào)被輸入到時(shí)域帶寬擴(kuò)展解碼器1220中,其在輸出處提供高頻帶。
為了對(duì)去加重1144輸出進(jìn)行上采樣,提供了包括QMF分析塊1471和QMF合成塊1473的上采樣器。在由塊1471和1473限定的濾波器組域內(nèi),優(yōu)選地應(yīng)用帶通濾波器。特別地,如前面已經(jīng)討論的,也可以使用相同的功能,其已經(jīng)關(guān)于相同的附圖標(biāo)記進(jìn)行了討論。此外,時(shí)域帶寬擴(kuò)展解碼器1220可以如圖13所示實(shí)現(xiàn)。并且通常包括以ACELP采樣率對(duì)ACELP殘留信號(hào)或時(shí)域殘留信號(hào)的上采樣,ACELP采樣率最終到帶寬擴(kuò)展信號(hào)的輸出采樣率。
隨后,關(guān)于圖1A-5C討論關(guān)于能夠全頻帶的頻域編碼器和解碼器的進(jìn)一步細(xì)節(jié)。
圖1a示出了用于對(duì)音頻信號(hào)99進(jìn)行編碼的裝置。音頻信號(hào)99被輸入到時(shí)間頻譜轉(zhuǎn)換器100中,時(shí)間頻譜轉(zhuǎn)換器100用于將具有采樣率的音頻信號(hào)轉(zhuǎn)換成由時(shí)間頻譜轉(zhuǎn)換器輸出的頻譜表示101。頻譜101被輸入到用于分析頻譜表示101的頻譜分析器102中。頻譜分析器101被配置用于確定要以第一頻譜分辨率編碼的第一組第一頻譜部分103和要以第二頻譜分辨率編碼的不同的第二組第二頻譜部分105。第二頻譜分辨率小于第一頻譜分辨率。第二組第二頻譜部分105被輸入到參數(shù)計(jì)算器或參數(shù)編碼器104中,用于計(jì)算具有第二頻譜分辨率的頻譜包絡(luò)信息。此外,提供了頻譜域音頻編碼器106,用于產(chǎn)生具有第一頻譜分辨率的第一組第一頻譜部分的第一編碼表示107。此外,參數(shù)計(jì)算器/參數(shù)編碼器104被配置用于產(chǎn)生第二組第二頻譜部分的第二編碼表示109。第一編碼表示107和第二編碼表示109被輸入到比特流多路復(fù)用器或比特流形成器108中,并且塊108最終輸出編碼的音頻信號(hào)以用于傳輸或在存儲(chǔ)設(shè)備上存儲(chǔ)。
通常,第一頻譜部分(例如圖3a的306)將被兩個(gè)第二頻譜部分(諸如307a、307b)圍繞。這不是例如HE-AAC中的情況,其中核心編碼器頻率范圍是頻帶限制的。
圖1b示出了與圖1a的編碼器相匹配的解碼器。第一編碼表示107被輸入到頻譜域音頻解碼器112中,用于產(chǎn)生第一組第一頻譜部分的第一解碼表示,該解碼表示具有第一頻譜分辨率。此外,第二編碼表示109被輸入到參數(shù)解碼器114中,用于產(chǎn)生具有低于第一頻譜分辨率的第二頻譜分辨率的第二組第二頻譜部分的第二解碼表示。
解碼器還包括頻率再生器116,用于使用第一頻譜部分再生具有第一頻譜分辨率的重建的第二頻譜部分。頻率再生器116執(zhí)行拼塊填充操作,即,使用第一組第一頻譜部分的拼塊或部分,并將該第一組第一頻譜部分復(fù)制到具有第二頻譜部分的重建范圍或重建頻帶中,并且通常執(zhí)行頻譜包絡(luò)整形或由參數(shù)解碼器114輸出的解碼的第二表示(即,通過使用關(guān)于第二組第二頻譜部分的信息)所指示的另一操作。解碼的第一組第一頻譜部分和重建的第二組頻譜部分如在線117上的頻率再生器116的輸出處所指示的那樣被輸入到頻譜-時(shí)間轉(zhuǎn)換器118中,頻譜-時(shí)間轉(zhuǎn)換器118被配置用于將第一解碼表示和重建的第二頻譜部分轉(zhuǎn)換成時(shí)間表示119,該時(shí)間表示具有某個(gè)高采樣率。
圖2b示出了圖1a編碼器的實(shí)現(xiàn)。音頻輸入信號(hào)99被輸入到對(duì)應(yīng)于圖1a的時(shí)間頻譜轉(zhuǎn)換器100的分析濾波器組220中。然后,在TNS塊222中執(zhí)行時(shí)間噪聲整形操作。因此,到對(duì)應(yīng)于圖2b的塊音調(diào)掩碼226的圖1a的頻譜分析器102中的輸入當(dāng)不應(yīng)用時(shí)間噪聲整形/時(shí)間拼塊整形操作時(shí)可以是全頻譜值,或者當(dāng)應(yīng)用如圖2b、塊222所示的TNS操作時(shí)可以是頻譜殘留值。對(duì)于雙聲道信號(hào)或多聲道信號(hào),可以另外執(zhí)行聯(lián)合聲道編碼228,使得圖1a的頻譜域編碼器106可以包括聯(lián)合聲道編碼塊228。此外,提供了用于執(zhí)行無(wú)損數(shù)據(jù)壓縮的熵編碼器232,其也是圖1a的頻譜域編碼器106的一部分。
頻譜分析器/音調(diào)掩碼226將TNS塊222的輸出分離為核心頻帶和對(duì)應(yīng)于第一組第一頻譜部分103的音調(diào)分量和對(duì)應(yīng)于圖1a的第二組第二頻譜部分105的殘留分量。指示為IGF參數(shù)提取編碼的塊224對(duì)應(yīng)于圖1a的參數(shù)編碼器104,并且比特流多路復(fù)用器230對(duì)應(yīng)于圖1a的比特流多路復(fù)用器108。
優(yōu)選地,分析濾波器組222被實(shí)現(xiàn)為MDCT(修改的離散余弦變換濾波器組),并且MDCT被用于以用作頻率分析工具的修改的離散余弦變換將信號(hào)99變換到時(shí)間-頻率域中。
頻譜分析器226優(yōu)選地應(yīng)用音調(diào)掩碼。該音調(diào)掩碼估計(jì)級(jí)用于將音調(diào)分量與信號(hào)中的類噪聲分量分離。這允許核心編碼器228使用心理聲學(xué)模塊對(duì)所有音調(diào)分量進(jìn)行編碼。
這種方法相對(duì)于傳統(tǒng)的SBR[1]具有的某些優(yōu)點(diǎn)在于:多音調(diào)信號(hào)的諧波網(wǎng)格由核心編碼器保存,而只有正弦波之間的間隙被來(lái)自源區(qū)域的最佳匹配的“整形噪聲”填充。
在立體聲聲道對(duì)的情況下,應(yīng)用附加的聯(lián)合立體聲處理。這是必要的,因?yàn)閷?duì)于某個(gè)目的地范圍,信號(hào)可以是高度相關(guān)的平移(panned)聲源。在為該特定區(qū)域選擇的源區(qū)域不是良好相關(guān)的情況下,盡管能量與目的區(qū)域匹配,但是空間圖像可能由于不相關(guān)的源區(qū)域而受損。編碼器分析每個(gè)目的區(qū)域能帶,通常執(zhí)行頻譜值的交叉相關(guān),并且如果超過某個(gè)閾值,則為該能帶設(shè)置聯(lián)合標(biāo)志。在解碼器中,如果該聯(lián)合立體聲標(biāo)志未被設(shè)置,則左和右聲道能帶被分別處理。在設(shè)置聯(lián)合立體聲標(biāo)志的情況下,在聯(lián)合立體聲域中執(zhí)行能量和修補(bǔ)二者。類似用于核心編碼的聯(lián)合立體聲信息,發(fā)信號(hào)通知用于IGF區(qū)域的聯(lián)合立體聲信息,包括在預(yù)測(cè)的情況下指示以下的標(biāo)志:預(yù)測(cè)的方向是否是從下混到殘留,或反之。
能量可以根據(jù)L/R域中的發(fā)送能量來(lái)計(jì)算。
midNrg[k]=leftNrg[k]+rightNrg[k];
sideNrg[k]=leftNrg[k]-rightNrg[k];
其中k是變換域中的頻率索引。
另一種解決方案是對(duì)于聯(lián)合立體聲是活動(dòng)的頻帶,在聯(lián)合立體聲域中直接計(jì)算和發(fā)送能量,因此在解碼器側(cè)不需要附加的能量變換。
源拼塊始終根據(jù)中/側(cè)矩陣來(lái)創(chuàng)建:
midTile[k]=0.5·(leftTile[k]+rightTile[k])
sideTile[k]=0.5·(leftTile[k]-rightTile[k])
能量調(diào)整:
midTile[k]=midTile[k]*midNrg[k];
sideTile[k]=sideTile[k]*sideNrg[k];
聯(lián)合立體聲->LR變換:
如果沒有對(duì)附加預(yù)測(cè)參數(shù)進(jìn)行編碼:
leftTile[k]=midTile[k]+sideTile[k]
rightTile[k]=midTile[k]--sideTile[k]
如果附加預(yù)測(cè)參數(shù)被編碼并且如果發(fā)信號(hào)通知的方向是從中間到一側(cè):
sideTile[k]=sideTile[k]-predictionCoeff·midTile[k]
leftTile[k]=midTile[k]+sideTile[k]
rightTile[k]=midTile[k]-sideTile[k]
如果發(fā)信號(hào)通知的方向是從一側(cè)到中間:
midTile1[k]=midTile[k]-predictionCoeff·sideTile[k]
leftTile[k]=midTile1[k]--sideTile[k]
rightTile[k]=midTile1[k]+sideTile[k]
該處理確保根據(jù)用于再生高度相關(guān)的目的區(qū)域和平移的目的區(qū)域的拼塊,即使源區(qū)域不相關(guān),所得到的左和右聲道仍然表示相關(guān)和平移的聲源,從而保存用于這樣的區(qū)域的立體聲圖像。
換句話說(shuō),在比特流中,發(fā)送指示是否應(yīng)當(dāng)使用L/R或M/S作為一般聯(lián)合立體聲編碼的示例的聯(lián)合立體聲標(biāo)志。在解碼器中,首先,如由針對(duì)核心頻帶的聯(lián)合立體聲標(biāo)志所指示的,對(duì)核心信號(hào)進(jìn)行解碼。其次,核心信號(hào)以L/R和M/S表示二者進(jìn)行存儲(chǔ)。對(duì)于IGF拼塊填充,選擇源拼塊表示以適合如由IGF頻帶的聯(lián)合立體聲信息所指示的目標(biāo)拼塊表示。
時(shí)間噪聲整形(TNS)是一種標(biāo)準(zhǔn)技術(shù),且是AAC的一部分。TNS可以被認(rèn)為是感知編碼器的基本方案的擴(kuò)展,在濾波器組和量化級(jí)之間插入可選的處理步驟。TNS模塊的主要任務(wù)是隱藏在瞬態(tài)類似信號(hào)的時(shí)間掩碼區(qū)域中產(chǎn)生的量化噪聲,并且因此它導(dǎo)致更高效的編碼方案。首先,TNS使用變換域中的“前向預(yù)測(cè)”(例如,MDCT)計(jì)算一組預(yù)測(cè)系數(shù)。這些系數(shù)然后用于使信號(hào)的時(shí)間包絡(luò)變平坦。由于量化影響TNS濾波后的頻譜,所以量化噪聲也暫時(shí)是平坦的。通過在解碼器側(cè)應(yīng)用逆TNS濾波,量化噪聲根據(jù)TNS濾波的時(shí)間包絡(luò)來(lái)整形,并且因此量化噪聲被瞬態(tài)掩碼。
IGF基于MDCT表示。為了高效編碼,優(yōu)選地,必須使用大約20ms的長(zhǎng)塊。如果這種長(zhǎng)塊內(nèi)的信號(hào)包含瞬態(tài),則由于拼塊填充,在IGF頻譜帶中發(fā)生可聽到的前回聲和后回聲。
這種前回聲效應(yīng)通過在IGF上下文中使用TNS而減少。這里,TNS用作時(shí)間拼塊整形(TTS)工具,因?yàn)閷?duì)TNS殘留信號(hào)執(zhí)行解碼器中的頻譜再生。照常在編碼器側(cè)使用全頻譜計(jì)算并應(yīng)用所要求的TTS預(yù)測(cè)系數(shù)。TNS/TTS起始頻率和停止頻率不受IGF工具的IGF起始頻率fIGFstart影響。與傳統(tǒng)TNS相比,TTS停止頻率增加到IGF工具的停止頻率,其高于fIGFstart。在解碼器側(cè),TNS/TTS系數(shù)再次應(yīng)用于全頻譜,即核心頻譜加上再生頻譜加上來(lái)自音調(diào)掩碼的音調(diào)分量(見圖7e)。TTS的應(yīng)用是形成再生頻譜的時(shí)間包絡(luò)以再次匹配原始信號(hào)的包絡(luò)所必需的。
在傳統(tǒng)解碼器中,音頻信號(hào)上的頻譜修補(bǔ)破壞了補(bǔ)丁邊界處的頻譜相關(guān)性,并且由此通過引入頻散而損害音頻信號(hào)的時(shí)間包絡(luò)。因此,對(duì)殘留信號(hào)執(zhí)行IGF拼塊填充的另一益處是,在應(yīng)用整形濾波之后,拼塊邊界無(wú)縫地相關(guān),導(dǎo)致信號(hào)的更忠實(shí)的時(shí)間再現(xiàn)。
在IGF編碼器中,已經(jīng)經(jīng)歷TNS/TTS濾波、音調(diào)掩碼處理和IGF參數(shù)估計(jì)的頻譜除了音調(diào)分量之外,沒有高于IGF起始頻率的任何信號(hào)。這個(gè)稀疏頻譜現(xiàn)在使用算術(shù)編碼和預(yù)測(cè)編碼的原理由核心編碼器編碼。這些編碼的分量連同信令比特一起形成音頻的比特流。
圖2a示出了相應(yīng)的解碼器實(shí)現(xiàn)。對(duì)應(yīng)于編碼的音頻信號(hào)的圖2a中的比特流被輸入到多路分配器/解碼器中,其將關(guān)于圖1b連接到塊112和114。比特流多路分配器將輸入音頻信號(hào)分離成圖1b的第一編碼表示107和圖1b的第二編碼表示109。具有第一組第一頻譜部分的第一編碼表示被輸入到對(duì)應(yīng)于圖1b的頻譜域解碼器112的聯(lián)合聲道解碼塊204中。第二編碼表示被輸入到圖2a中未示出的參數(shù)解碼器114中,然后輸入到對(duì)應(yīng)于圖1b的頻率再生器116的IGF塊202中。頻率再生所要求的第一組第一頻譜部分經(jīng)由線203輸入到IGF塊202中。此外,在聯(lián)合聲道解碼204之后,在音調(diào)掩碼塊206中應(yīng)用特定核心解碼,使得音調(diào)掩碼206的輸出對(duì)應(yīng)于頻譜域解碼器112的輸出。然后,由組合器208執(zhí)行組合,即,幀建造,其中組合器208的輸出現(xiàn)在具有全范圍頻譜,但仍然在TNS/TTS濾波后的域中。然后,在塊210中,使用經(jīng)由線109提供的TNS/TTS濾波信息來(lái)執(zhí)行逆TNS/TTS操作,即,TTS輔助信息優(yōu)選地被包括在由頻譜域編碼器106(例如,頻譜域編碼器106可以是直接AAC或USAC核心編碼器)產(chǎn)生的第一編碼表示中,或者也可以被包括在第二編碼表示中。在塊210的輸出處,提供一直到最大頻率的完整的頻譜,其是由原始輸入信號(hào)的采樣率限定的全范圍頻率。然后,在合成濾波器組212中執(zhí)行頻譜/時(shí)間轉(zhuǎn)換,以最終獲得音頻輸出信號(hào)。
圖3a示出了頻譜的示意表示。按比例因子頻帶SCB細(xì)分頻譜,其中在圖3a的示出的示例中存在七個(gè)比例因子頻帶SCB1至SCB7。比例因子頻帶可以是在AAC標(biāo)準(zhǔn)中限定的AAC比例因子頻帶,并且對(duì)于上部頻率具有增加的帶寬,如圖3a示意性地所示。優(yōu)選地,不是從頻譜的一開始即在低頻率處執(zhí)行智能間隙填充,而是在309處所示的IGF起始頻率處開始IGF操作。因此,核心頻帶從最低頻率延伸到IGF起始頻率。在IGF起始頻率之上,應(yīng)用頻譜分析以從由第二組第二頻譜部分表示的低分辨率分量中分離出高分辨率頻譜分量304、305、306、307(第一組第一頻譜部分)。圖3a示出了示例性地輸入到頻譜域編碼器106或聯(lián)合聲道編碼器228中的頻譜,即,核心編碼器在全范圍中操作,但是編碼了大量的零頻譜值,即這些零頻譜值在量化之前或在量化之后被量化為零或被設(shè)置為零。無(wú)論如何,核心編碼器在全范圍中操作,即,如同頻譜將如圖所示,即,核心解碼器不一定必須知道具有較低的頻譜分辨率的第二組第二頻譜部分的任何智能間隙填充或編碼。
優(yōu)選地,高分辨率由諸如MDCT線的譜線的線方式編碼限定,而第二分辨率或低分辨率通過例如僅計(jì)算每個(gè)比例因子頻帶的單個(gè)頻譜值來(lái)限定,其中比例因子頻帶覆蓋若干頻率線。因此,關(guān)于其頻譜分辨率,第二低分辨率比由核心編碼器(例如AAC或USAC核心編碼器)通常應(yīng)用的線方式編碼所限定的第一或高分辨率低得多。
關(guān)于比例因子或能量計(jì)算,情況在圖3b中示出。由于編碼器是核心編碼器的事實(shí)并且由于可以但不一定必須存在每個(gè)頻帶中的第一組頻譜部分的分量的事實(shí),核心編碼器不僅在低于IGF起始頻率309的核心范圍內(nèi),而且還在IGF起始頻率以上一直到最大頻率fIGFstop計(jì)算針對(duì)每個(gè)頻帶的比例因子,所述最大頻率小于或等于采樣頻率的一半,即,fs/2。因此,圖3a的編碼的音調(diào)部分302、304、305、306、307以及在該實(shí)施例中與比例因子SCB1至SCB7一起對(duì)應(yīng)于高分辨率頻譜數(shù)據(jù)。低分辨率頻譜數(shù)據(jù)從IGF起始頻率開始計(jì)算并且對(duì)應(yīng)于能量信息值E1、E2、E3、E4,其與比例因子SF4到SF7一起被發(fā)送。
特別地,當(dāng)核心編碼器處于低比特率條件下時(shí),可以另外應(yīng)用核心頻帶(即頻率比IGF起始頻率低,即,在比例因子頻帶SCB1至SCB3中)中的附加的噪聲填充操作。在噪聲填充中,存在已被量化為零的若干相鄰頻譜線。在解碼器側(cè),這些量化為零的頻譜值被重新合成,并且使用諸如圖3b中的308處所示的NF2的噪聲填充能量來(lái)在它們的幅度方面調(diào)整重新合成的頻譜值??梢砸越^對(duì)項(xiàng)或以特別地關(guān)于如在USAC中的比例因子的相對(duì)項(xiàng)給出的噪聲填充能量對(duì)應(yīng)于量化為零的該組頻譜值的能量。這些噪聲填充譜線還可以被認(rèn)為是第三組第三頻譜部分,其通過直接噪聲填充合成來(lái)再生,而沒有依賴于使用來(lái)自其它頻率的頻率拼塊的頻率再生的任何IGF操作,所述IGF操作用于使用來(lái)自源范圍的頻譜值和能量信息E1、E2、E3、E4來(lái)重建頻譜拼塊。
優(yōu)選地,計(jì)算能量信息所針對(duì)的頻帶與比例因子頻帶一致。在其它實(shí)施例中,應(yīng)用能量信息值分組,使得例如對(duì)于比例因子頻帶4和5,僅發(fā)送單個(gè)能量信息值,但即使在該實(shí)施例中,分組的重建頻帶的邊界與比例因子頻帶的邊界一致。如果應(yīng)用不同的頻帶間隔,則可以應(yīng)用某些重新計(jì)算或同步計(jì)算,并且這取決于特定實(shí)現(xiàn)而可以是有意義的。
優(yōu)選地,圖1a的頻譜域編碼器106是如圖4a所示的心理聲學(xué)驅(qū)動(dòng)的編碼器。通常,如例如在MPEG2/4AAC標(biāo)準(zhǔn)或MPEG1/2、層3標(biāo)準(zhǔn)中所示,在被變換成頻譜范圍之后要被編碼的音頻信號(hào)(圖4a中的401)被轉(zhuǎn)發(fā)到比例因子計(jì)算器400。比例因子計(jì)算器由心理聲學(xué)模型控制,該心理聲學(xué)模型另外接收要量化的音頻信號(hào)或如在MPEG1/2層3或MPEG AAC標(biāo)準(zhǔn)中那樣接收音頻信號(hào)的復(fù)數(shù)頻譜表示。心理聲學(xué)模型針對(duì)每個(gè)比例因子頻帶計(jì)算表示心理聲學(xué)閾值的比例因子。此外,比例因子然后通過公知的內(nèi)部和外部迭代循環(huán)的協(xié)作或者通過任何其他適當(dāng)?shù)木幋a過程來(lái)調(diào)整,使得滿足某些比特率條件。然后,一方面要量化的頻譜值和另一方面計(jì)算出的比例因子被輸入到量化器處理器404中。在直接音頻編碼器操作中,要量化的頻譜值由比例因子加權(quán),然后加權(quán)的頻譜值被輸入到通常具有到上部振幅范圍的壓縮功能的固定量化器中。然后,在量化器處理器的輸出處存在量化索引,然后將其轉(zhuǎn)發(fā)到熵編碼器中,該熵編碼器通常對(duì)于相鄰頻率值的一組零量化索引(或者如本領(lǐng)域中也稱為,零值的“延伸”)具有特定和非常高效的編碼。
然而,在圖1a的音頻編碼器中,量化器處理器通常從頻譜分析器接收關(guān)于第二頻譜部分的信息。因此,量化器處理器404確保在量化器處理器404的輸出中,如由頻譜分析器102識(shí)別的第二頻譜部分為零或具有由編碼器或解碼器確認(rèn)為零表示的表示,其可以是被非常高效地編碼,特別是當(dāng)在頻譜中存在零值的“延伸”時(shí)。
圖4b示出了量化器處理器的實(shí)現(xiàn)。MDCT頻譜值可以被輸入到設(shè)置為零塊410中。然后,在執(zhí)行塊412中的由比例因子進(jìn)行的加權(quán)之前,第二頻譜部分已經(jīng)被設(shè)置為零。在附加的實(shí)現(xiàn)中,不提供塊410,而是在加權(quán)塊412之后在塊418中執(zhí)行設(shè)置為零協(xié)作。在甚至進(jìn)一步的實(shí)現(xiàn)中,也可以在量化器塊420中的量化之后,在設(shè)置為零塊422中執(zhí)行設(shè)置為零操作。在該實(shí)現(xiàn)中,塊410和418將不存在。通常,根據(jù)具體實(shí)現(xiàn)提供塊410、418、422中的至少一個(gè)。
然后,在塊422的輸出處,獲得對(duì)應(yīng)于圖3a中所示的內(nèi)容的量化頻譜。然后將該量化的頻譜輸入到諸如圖2b中的232之類的熵編碼器中,其可以是例如在USAC標(biāo)準(zhǔn)中限定的霍夫曼編碼器或算術(shù)編碼器。
彼此交替地或并行地提供的設(shè)置為零塊410、418、422由頻譜分析器424控制。頻譜分析器優(yōu)選地包括公知的音調(diào)檢測(cè)器的任何實(shí)現(xiàn),或者包括任何不同種類的檢測(cè)器,其可操作用于將頻譜分離成要以高分辨率編碼的分量和要以低分辨率編碼的分量。在頻譜分析器中實(shí)現(xiàn)的其它這樣的算法可以是語(yǔ)音活動(dòng)檢測(cè)器、噪聲檢測(cè)器、語(yǔ)音檢測(cè)器或任何其它檢測(cè)器,這根據(jù)關(guān)于不同頻譜部分的分辨率要求的頻譜信息或相關(guān)聯(lián)的元數(shù)據(jù)來(lái)決定。
圖5a示出了如例如在AAC或USAC中實(shí)現(xiàn)的圖1a的時(shí)間頻譜轉(zhuǎn)換器100的優(yōu)選實(shí)現(xiàn)。時(shí)間頻譜轉(zhuǎn)換器100包括由瞬態(tài)檢測(cè)器504控制的加窗器502。當(dāng)瞬態(tài)檢測(cè)器504檢測(cè)到瞬態(tài)時(shí),則從長(zhǎng)窗口到短窗口的切換被用信號(hào)通知到加窗器。加窗器502然后為重疊塊計(jì)算窗口化幀,其中每個(gè)窗口化幀通常具有二N個(gè)值,例如2048個(gè)值。然后,執(zhí)行塊變換器506內(nèi)的變換,并且該塊變換器通常另外提供抽取,使得執(zhí)行組合抽取/變換以獲得具有N個(gè)值(例如MDCT頻譜值)的頻譜幀。因此,對(duì)于長(zhǎng)窗口操作,在塊506的輸入處的幀包括二N個(gè)值,例如2048個(gè)值,而頻譜幀則具有1024個(gè)值。然后,然而,當(dāng)執(zhí)行八個(gè)短塊時(shí),對(duì)短塊執(zhí)行切換,其中每個(gè)短塊與長(zhǎng)窗口相比具有1/8窗口化時(shí)域值,并且每個(gè)頻譜塊與長(zhǎng)塊相比具有1/8頻譜值。因此,當(dāng)該抽取與加窗器的50%重疊操作組合時(shí),頻譜是時(shí)域音頻信號(hào)99的臨界采樣版本。
隨后,參考圖5b,其示出了圖1b的頻率再生器116和頻譜-時(shí)間轉(zhuǎn)換器118的具體實(shí)現(xiàn),或者圖2a的塊208、212的組合操作的具體實(shí)現(xiàn)。在圖5b中,考慮特定重建頻帶,例如圖3a的縮放因子頻帶6。該重建頻帶中的第一頻譜部分,即圖3a的第一頻譜部分306被輸入到幀建造器/調(diào)整器塊510中。此外,針對(duì)比例因子頻帶6的重建的第二頻譜部分也被輸入到幀建造器/調(diào)整器510中。此外,能量信息(諸如用于比例因子頻帶6的圖3b的E3)也被輸入到塊510中。重建頻帶中的重建的第二頻譜部分已經(jīng)使用源范圍通過頻率拼塊填充來(lái)產(chǎn)生,并且重建頻帶然后對(duì)應(yīng)于目標(biāo)范圍?,F(xiàn)在,執(zhí)行幀的能量調(diào)整,以便然后最終獲得如例如在圖2a的組合器208的輸出處獲得的具有N個(gè)值的完整重建的幀。然后,在塊512中,執(zhí)行逆塊變換/內(nèi)插以獲得針對(duì)在塊512的輸入處的例如124個(gè)頻譜值的248個(gè)時(shí)域值。然后,在塊514中執(zhí)行合成窗口化操作,其再次由作為編碼的音頻信號(hào)中的輔助信息發(fā)送的長(zhǎng)窗口/短窗口指示來(lái)控制。然后,在塊516中,執(zhí)行與先前時(shí)間幀的重疊/相加操作。優(yōu)選地,MDCT應(yīng)用50%的重疊,使得對(duì)于2N個(gè)值的每個(gè)新時(shí)間幀,最終輸出N個(gè)時(shí)域值。50%的重疊由于以下的事實(shí)而是非常優(yōu)選的:它由于在塊516中的重疊/相加操作而提供關(guān)鍵采樣和從一個(gè)幀到下一個(gè)幀的連續(xù)交叉。
如圖3a中的301處所示,例如對(duì)于與圖3a的比例因子頻帶6一致的預(yù)期重建頻帶,可以不僅在IGF起始頻率以下而且在IGF起始頻率之上另外應(yīng)用噪聲填充操作。然后,噪聲填充頻譜值還可以被輸入到幀建造器/調(diào)整器510中,并且也可以在該塊內(nèi)應(yīng)用噪聲填充頻譜值的調(diào)整,或者噪聲填充頻譜值可以在被輸入到幀建造器/調(diào)整器510中之前使用噪聲填充能量來(lái)調(diào)整。
優(yōu)選地,可以在完整的頻譜中應(yīng)用IGF操作,即,使用來(lái)自其他部分的頻譜值的頻率拼塊填充操作。因此,頻譜拼塊填充操作不僅可以應(yīng)用于IGF起始頻率之上的高頻帶,而且可以應(yīng)用于低頻帶。此外,沒有頻率拼塊填充的噪聲填充不僅可以應(yīng)用于IGF起始頻率以下,而且可以應(yīng)用于IGF起始頻率之上。然而,已經(jīng)發(fā)現(xiàn),當(dāng)噪聲填充操作受限于低于IGF起始頻率的頻率范圍并且當(dāng)頻率拼塊填充操作被限制到高于IGF起始頻率的頻率范圍時(shí),可以獲得高質(zhì)量和高效率的音頻編碼,如圖3a所示。
優(yōu)選地,目標(biāo)拼塊(TT)(具有大于IGF起始頻率的頻率)被束縛到全速率編碼器的比例因子頻帶邊界。從其獲取信息的源拼塊(ST)(即,對(duì)于低于IGF起始頻率的頻率)不被比例因子頻帶邊界束縛。ST的尺寸應(yīng)該對(duì)應(yīng)于相關(guān)聯(lián)的TT的尺寸。
隨后,參考圖5c,其示出了圖1b的頻率再生器116或圖2a的IGF塊202的另一優(yōu)選實(shí)施例。塊522是頻率拼塊產(chǎn)生器,其不僅接收目標(biāo)頻帶ID,而且另外接收源頻帶ID。示例性地,已經(jīng)在編碼器側(cè)確定了圖3a的比例因子頻帶非常好地適合于重建比例因子頻帶7。因此,源頻帶ID將為2,而目標(biāo)頻帶ID將為7?;诖诵畔?,頻率拼塊產(chǎn)生器522應(yīng)用向上復(fù)制或諧波拼塊填充操作或任何其它拼塊填充操作以產(chǎn)生頻譜分量523的原始第二部分。頻譜分量的原始第二部分具有與包括在第一組第一頻譜部分中的頻率分辨率相同的頻率分辨率。
然后,重建頻帶的第一頻譜部分(例如圖3a的307)被輸入到幀建造器524中,并且原始的第二部分523也被輸入到幀建造器524中。然后,調(diào)整器526使用由增益因子計(jì)算器528計(jì)算的重建頻帶的增益因子來(lái)調(diào)整重建的幀。然而,重要的是,幀中的第一頻譜部分不受調(diào)整器526影響,但是僅重建幀的原始第二部分受調(diào)整器526影響。為此,增益因子計(jì)算器528分析源頻帶或原始第二部分523,并且另外分析重建頻帶中的第一頻譜部分,以最終找到正確的增益因子527,使得由調(diào)整器526調(diào)整后的幀輸出的能量當(dāng)設(shè)想比例因子頻帶7時(shí)具有能量E4。
此外,如圖3a所示,頻譜分析器被配置為分析一直到最大分析頻率的頻譜表示,該最大分析頻率僅僅是低于采樣頻率的一半的小量,并且優(yōu)選地是采樣頻率的至少四分之一或通常更高。
如所示,編碼器在沒有下采樣的情況下操作,并且解碼器在沒有上采樣的情況下操作。換句話說(shuō),頻譜域音頻編碼器被配置為產(chǎn)生具有由最初輸入音頻信號(hào)的采樣率限定的奈奎斯特頻率的頻譜表示。
此外,如圖3a所示,頻譜分析器被配置為分析以間隙填充起始頻率開始并以由包括在頻譜表示中的最大頻率表示的最大頻率結(jié)束的頻譜表示,其中從最小頻率延伸一直到間隙填充起始頻率的頻譜部分屬于第一組頻譜部分,并且其中具有高于間隙填充頻率的頻率值的另一頻譜部分(諸如304、305、306、307)另外被包括在第一組第一頻譜部分中。
如概述的,頻譜域音頻解碼器112被配置為使得由第一解碼表示中的頻譜值表示的最大頻率等于包括在具有采樣率的時(shí)間表示中的最大頻率,其中針對(duì)最大頻率的頻譜值在第一組第一頻譜部分中是零或不同于零。無(wú)論如何,對(duì)于第一組頻譜分量中的該最大頻率,存在針對(duì)比例因子頻帶的比例因子,其被產(chǎn)生并發(fā)送,而無(wú)論該比例因子頻帶中的所有頻譜值是否被設(shè)置為零,如圖3a和3b的上下文中所討論的。
因此,IGF對(duì)于增加壓縮效率的其它參數(shù)技術(shù)(例如噪聲替代和噪聲填充(這些技術(shù)專用于像局部信號(hào)內(nèi)容的噪聲的高效表示))是有利的,IGF允許音調(diào)分量的精確頻率再現(xiàn)。到目前為止,沒有現(xiàn)有技術(shù)的技術(shù)通過在沒有在低頻帶(LF)和高頻帶(HF)中的固定的先驗(yàn)分割的限制的情況下的頻譜間隙填充來(lái)解決任意信號(hào)內(nèi)容的高效參數(shù)表示。
隨后,討論和限定了可以分開實(shí)現(xiàn)或一起實(shí)現(xiàn)的全頻帶頻域第一編碼處理器和并入間隙填充操作的全頻帶頻域解碼處理器的另外可選特征。
特別地,對(duì)應(yīng)于塊1122a的頻譜域解碼器112被配置為輸出頻譜值的解碼的幀序列,解碼的幀是第一解碼表示,其中該幀包括用于第一組頻譜部分的頻譜值和用于第二頻譜部分的零指示。用于解碼的裝置還包括組合器208。頻譜值由用于第二組第二頻譜部分的頻率再生器產(chǎn)生,其中組合器和頻率再生器二者都被包括在塊1122b內(nèi)。因此,通過組合第二頻譜部分和第一頻譜部分,獲得包括第一組第一頻譜部分和第二組頻譜部分的頻譜值的重建的頻譜幀,并且對(duì)應(yīng)于圖14b中的IMDCT塊1124的頻譜-時(shí)間轉(zhuǎn)換器118然后將重建的頻譜幀轉(zhuǎn)換成時(shí)間表示。
如所概述的,頻譜-時(shí)間轉(zhuǎn)換器118或1124被配置為執(zhí)行逆修改的離散余弦變換512、514,并且還包括重疊-相加級(jí)516,用于重疊和相加后續(xù)時(shí)域幀。
特別地,頻譜域音頻解碼器1122a被配置為產(chǎn)生第一解碼表示,使得第一解碼表示具有限定等于由頻譜-時(shí)間轉(zhuǎn)換器1124產(chǎn)生的時(shí)間表示的采樣率的采樣率的奈奎斯特頻率。
此外,解碼器1112或1122a被配置為產(chǎn)生第一解碼表示,使得關(guān)于兩個(gè)第二頻譜部分307a、307b之間的頻率來(lái)放置第一頻譜部分306。
在另一實(shí)施例中,由第一解碼表示中的最大頻率的頻譜值表示的最大頻率等于包括在由頻譜-時(shí)間轉(zhuǎn)換器產(chǎn)生的時(shí)間表示中的最大頻率,其中最大頻率的頻譜值在第一表示中是零或不同于零。
此外,如在圖3中所示,編碼的第一音頻信號(hào)部分還包括要通過噪聲填充重建的第三組第三頻譜部分的編碼表示,并且第一解碼處理器1120另外包括在塊1122b中包括的噪聲填充器,用于從第三組第三頻譜部分的編碼表示提取噪聲填充信息308以及用于在不使用不同頻率范圍中的第一頻譜部分的情況下在第三組第三頻譜部分中應(yīng)用噪聲填充操作。
此外,頻譜域音頻解碼器112被配置為產(chǎn)生具有第一頻譜部分的第一解碼表示,所述第一頻譜部分的頻率值大于以下頻率:該頻率等于由頻譜-時(shí)間轉(zhuǎn)換器118或1124輸出的時(shí)間表示所覆蓋的頻率范圍的中間的頻率。
此外,頻譜分析器或全頻帶分析器604被配置為分析由時(shí)間-頻率轉(zhuǎn)換器602產(chǎn)生的表示,用于確定要用第一高頻譜分辨率編碼的第一組第一頻譜部分和要用低于第一頻譜分辨率的第二頻譜分辨率編碼的不同的第二組第二頻譜部分,并且通過頻譜分析器,關(guān)于頻率確定在圖3中的307a和307b處的兩個(gè)第二頻譜部分之間的第一頻譜部分306。
特別地,頻譜分析器被配置用于分析一直到最大分析頻率的頻譜表示,該最大分析頻率是音頻信號(hào)的采樣頻率的至少四分之一。
特別地,頻譜域音頻編碼器被配置為處理用于量化和熵編碼的頻譜值的幀序列,其中,在幀中,第二組第二部分的頻譜值被設(shè)置為零,或其中,在幀中,存在第一組第一頻譜部分和第二組第二頻譜部分的頻譜值,并且其中,在后續(xù)處理期間,將第二組頻譜部分中的頻譜值設(shè)置為零,如在410、418、422處示例性所示。
頻譜域音頻編碼器被配置為產(chǎn)生具有由音頻輸入信號(hào)或由在頻域中操作的第一編碼處理器處理的音頻信號(hào)的第一部分的采樣率限定的奈奎斯特頻率的頻譜表示。
頻譜域音頻編碼器606還被配置為提供第一編碼表示,使得對(duì)于采樣后的音頻信號(hào)的幀,編碼表示包括第一組第一頻譜部分和第二組第二頻譜部分,其中第二組頻譜部分中的頻譜值被編碼為零或噪聲值。
全頻帶分析器604或102被配置為分析以間隙填充起始頻率209開始并且以由包括在頻譜表示中的最大頻率表示的最大頻率fmax結(jié)束的頻譜表示,并且從最小頻率延伸一直到間隙填充起始頻率309的頻譜部分屬于第一組第一頻譜部分。
特別地,分析器被配置為對(duì)至少一部分頻譜表示應(yīng)用音調(diào)掩碼處理,使得音調(diào)分量和非音調(diào)分量彼此分離,其中第一組第一頻譜部分包括音調(diào)分量,并且其中第二組第二頻譜部分包括非音調(diào)分量。
盡管已在框圖的背景(其中,所述塊表示真實(shí)的或邏輯的硬件組件)下描述了本發(fā)明,但本發(fā)明也可以實(shí)現(xiàn)為計(jì)算機(jī)實(shí)施方法。在后者的情況下,塊表示相應(yīng)方法步驟,其中這些步驟代表由對(duì)應(yīng)邏輯或?qū)嶓w硬件塊執(zhí)行的功能性。
雖然已經(jīng)在裝置的上下文中描述了一些方面,但是將清楚的是,這些方面還表示對(duì)相應(yīng)方法的描述,其中,塊或設(shè)備對(duì)應(yīng)于方法步驟或方法步驟的特征。類似地,在方法步驟的上下文中描述的方案也表示對(duì)相應(yīng)塊或項(xiàng)或者相應(yīng)裝置的特征的描述??梢杂?或使用)硬件裝置(諸如,微處理器、可編程計(jì)算機(jī)或電子電路)來(lái)執(zhí)行一些或全部方法步驟。在一些實(shí)施例中,可以由這種裝置來(lái)執(zhí)行最重要方法步驟中的某一個(gè)或多個(gè)方法步驟。
本發(fā)明的經(jīng)傳輸或編碼的信號(hào)可以存儲(chǔ)在數(shù)字存儲(chǔ)介質(zhì)上或可以在諸如無(wú)線傳輸介質(zhì)的傳輸介質(zhì)或諸如因特網(wǎng)的有線傳輸介質(zhì)上傳輸。
取決于某些實(shí)現(xiàn)要求,可以在硬件中或在軟件中實(shí)現(xiàn)本發(fā)明的實(shí)施例??梢酝ㄟ^使用其上存儲(chǔ)有電子可讀控制信號(hào)的數(shù)字存儲(chǔ)介質(zhì)(例如,軟盤、DVD、Rlu-Ray、CD、ROM、PROM和EPROM、EEPROM或閃存)來(lái)執(zhí)行所述實(shí)現(xiàn)方案,所述控制信號(hào)與可編程計(jì)算機(jī)系統(tǒng)合作(或能夠與之合作),使得執(zhí)行各個(gè)方法。因此,數(shù)字存儲(chǔ)介質(zhì)可以是計(jì)算機(jī)可讀的。
根據(jù)本發(fā)明的一些實(shí)施例包括具有電子可讀控制信號(hào)的數(shù)據(jù)載體,該電子可讀控制信號(hào)能夠與可編程計(jì)算機(jī)系統(tǒng)協(xié)作從而執(zhí)行本文所述的方法之一。
通常,本發(fā)明的實(shí)施例可以實(shí)現(xiàn)為具有程序代碼的計(jì)算機(jī)程序產(chǎn)品,程序代碼可操作以在計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí)執(zhí)行方法之一。程序代碼可以例如存儲(chǔ)在機(jī)器可讀載體上。
其他實(shí)施例包括存儲(chǔ)在機(jī)器可讀載體上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序用于執(zhí)行本文所述的方法之一。
換言之,本發(fā)明方法的實(shí)施例因此是具有程序代碼的計(jì)算機(jī)程序,該程序代碼用于在計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí)執(zhí)行本文所述的方法之一。
因此,本發(fā)明方法的另一實(shí)施例是數(shù)據(jù)載體(或諸如數(shù)字存儲(chǔ)介質(zhì)或計(jì)算機(jī)可讀介質(zhì)的非暫時(shí)性存儲(chǔ)介質(zhì)),包含記錄于其上的用于執(zhí)行本文所述方法之一的計(jì)算機(jī)程序。數(shù)據(jù)載體、數(shù)字存儲(chǔ)介質(zhì)或記錄的介質(zhì)通常是有形的和/或非暫時(shí)性的。
因此,本發(fā)明方法的另一實(shí)施例是表示用于執(zhí)行本文所述的方法之一的計(jì)算機(jī)程序的數(shù)據(jù)流或信號(hào)序列。數(shù)據(jù)流或信號(hào)序列可以例如被配置為經(jīng)由數(shù)據(jù)通信連接(例如,經(jīng)由互聯(lián)網(wǎng))傳輸。
另一實(shí)施例包括處理裝置,例如,配置為或適用于執(zhí)行本文所述的方法之一的計(jì)算機(jī)或可編程邏輯器件。
另一實(shí)施例包括其上安裝有計(jì)算機(jī)程序的計(jì)算機(jī),該計(jì)算機(jī)程序用于執(zhí)行本文所述的方法之一。
根據(jù)本發(fā)明的另一實(shí)施例包括被配置為向接收機(jī)(例如,以電子方式或以光學(xué)方式)傳輸計(jì)算機(jī)程序的裝置或系統(tǒng),該計(jì)算機(jī)程序用于執(zhí)行本文所述的方法之一。接收機(jī)可以是例如計(jì)算機(jī)、移動(dòng)設(shè)備、存儲(chǔ)設(shè)備等。該裝置或系統(tǒng)可以例如包括用于向接收機(jī)傳輸計(jì)算機(jī)程序的文件服務(wù)器。
在一些實(shí)施例中,可編程邏輯器件(例如,現(xiàn)場(chǎng)可編程門陣列)可以用于執(zhí)行本文所述的方法的一些或全部功能。在一些實(shí)施例中,現(xiàn)場(chǎng)可編程門陣列可以與微處理器協(xié)作以執(zhí)行本文所述的方法之一。通常,方法優(yōu)選地由任意硬件裝置來(lái)執(zhí)行。
上述實(shí)施例對(duì)于本發(fā)明的原理僅是說(shuō)明性的。應(yīng)當(dāng)理解的是:本文所述的布置和細(xì)節(jié)的修改和變形對(duì)于本領(lǐng)域其他技術(shù)人員將是顯而易見的。因此,旨在僅由所附專利權(quán)利要求的范圍來(lái)限制而不是由借助對(duì)本文的實(shí)施例的描述和解釋所給出的具體細(xì)節(jié)來(lái)限制。