亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

使用具有全帶隙填充的頻域處理器以及時域處理器的音頻編碼器和解碼器的制作方法

文檔序號:11531131閱讀:377來源:國知局
使用具有全帶隙填充的頻域處理器以及時域處理器的音頻編碼器和解碼器的制造方法與工藝

本發(fā)明涉及音頻信號編碼和解碼,并且特別地涉及使用并行頻域和時域編碼器/解碼器處理器的音頻信號處理。



背景技術(shù):

為了用于音頻信號的高效存儲或傳輸?shù)臄?shù)據(jù)減少的目的,音頻信號的感知編碼是一種廣泛使用的實踐。特別地,當要實現(xiàn)最低比特率時,所采用的編碼導致音頻質(zhì)量的降低,這通常主要由要發(fā)送的音頻信號帶寬的編碼器側(cè)的限制引起。這里,通常對音頻信號進行低通濾波,使得沒有頻譜波形內(nèi)容保留在某個預(yù)先確定的截止頻率之上。

在當代的編解碼器中,存在用于通過音頻信號帶寬擴展(bwe)的解碼器側(cè)信號恢復的公知方法,例如,在頻域中操作的頻譜帶復制(sbr)或所謂的時域帶寬擴展(td-bwe)是在時域中操作的語音編碼器中的后處理器。

另外,存在若干組合的時域/頻域編碼構(gòu)思,例如在術(shù)語amr-wb+或usac下已知的構(gòu)思。

所有這些組合的時域/編碼構(gòu)思具有以下共同之處:頻域編碼器依賴于將頻帶限制引入輸入音頻信號中的帶寬擴展技術(shù),并且交叉頻率或邊界頻率以上的部分用低分辨率編碼構(gòu)思編碼并在解碼器側(cè)合成。因此,這些構(gòu)思主要依賴于編碼器側(cè)的預(yù)處理器技術(shù)和解碼器側(cè)的相應(yīng)后處理功能。

通常,選擇時域編碼器用于在時域中編碼的有用信號(例如語音信號),并且選擇頻域編碼器用于非語音信號、音樂信號等。然而,特別是針對在高頻帶中具有突出諧波的非語音信號,現(xiàn)有技術(shù)的頻域編碼器具有降低的精度,并且因此具有降低的音頻質(zhì)量,這是由于以下事實:這樣的突出諧波只能被分離地以參數(shù)方式編碼,或者在編碼/解碼處理中完全被消除。

此外,存在這樣的構(gòu)思,其中時域編碼/解碼分支另外依賴于也以參數(shù)方式對較高頻率范圍進行編碼的帶寬擴展,而較低頻率范圍通常使用acelp或任何其它celp相關(guān)編碼器(例如語音編碼器)進行編碼。這種帶寬擴展功能性增加了比特率效率,但是另一方面,由于兩個編碼分支,即頻域編碼分支和時域編碼分支由于在基本上低于包括在輸入音頻信號中的最大頻率的某個交叉頻率以上進行操作的頻譜帶復制過程或帶寬擴展過程而被頻帶限制的事實,引入了進一步的不靈活性。

現(xiàn)有技術(shù)的相關(guān)主題包括

-sbr作為用于波形解碼的后處理器[1-3]

-mpeg-dusac核心切換[4]

-mpeg-h3digf[5]

以下論文和專利描述了被認為構(gòu)成本申請的現(xiàn)有技術(shù)的方法:

[1]m.dietz,l.liljeryd,k.和o.kunz,“spectralbandreplication,anovelapproachinaudiocoding,”在第112屆aes大會,慕尼黑,德國,2002。

[2]s.meltzer,r.和f.henn,“sbrenhancedaudiocodecsfordigitalbroadcastingsuchas“digitalradiomondiale”(drm),”在第112屆aes大會,慕尼黑,德國,2002。

[3]t.ziegler,a.ehret,p.ekstrand和m.lutzky,“enhancingmp3withsbr:featuresandcapabilitiesofthenewmp3proalgorithm,”在第112屆aes大會,慕尼黑,德國,2002。

[4]mpeg-dusac標準。

[5]pct/ep2014/065109。

在mpeg-dusac中,描述了一種可切換核心編碼器。然而,在usac中,帶限核心被限制為總是發(fā)送低通濾波信號。因此,包含突出的高頻內(nèi)容的某些音樂信號例如全頻帶掃描、三角形聲音等不能忠實地再現(xiàn)。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的是提供一種用于音頻編碼的改進的構(gòu)思。

該目的通過權(quán)利要求1的音頻編碼裝置編碼器、權(quán)利要求11的音頻解碼器、權(quán)利要求20的音頻編碼方法、權(quán)利要求21的音頻解碼方法或權(quán)利要求22的計算機程序來實現(xiàn)。

本發(fā)明基于以下發(fā)現(xiàn):時域編碼/解碼處理器可以與具有間隙填充功能的頻域編碼/解碼處理器組合,但是用于填充頻譜空洞的該間隙填充功能在音頻信號的整個頻帶上或至少在某個間隙填充頻率以上進行操作。重要的是,頻域編碼/解碼處理器特別地能夠以執(zhí)行高達最大頻率的精確或波形或頻譜值編碼/解碼,而不僅是直到交叉頻率為止。此外,用于以高分辨率編碼的頻域編碼器的全頻帶能力允許將間隙填充功能集成到頻域編碼器中。

因此,根據(jù)本發(fā)明,通過使用全頻帶頻譜編碼器/解碼器處理器,一方面與帶寬擴展的分離相關(guān)和另一方面與核心編碼相關(guān)的問題可以通過執(zhí)行在核心解碼器操作的相同頻譜域中的帶寬擴展來解決和克服。因此,提供全速率核心解碼器,其對全音頻信號范圍進行編碼和解碼。這不要求對在編碼器側(cè)上的下采樣器和在解碼器側(cè)上的上采樣器的需要。替代地,整個處理在全采樣率或全帶寬域中執(zhí)行。為了獲得高編碼增益,分析音頻信號以便找到必須以高分辨率編碼的第一組第一頻譜部分,其中該第一組第一頻譜部分在一個實施例中可以包括:音頻信號的音調(diào)部分。另一方面,構(gòu)成第二組第二頻譜部分的音頻信號中的非音調(diào)或噪聲分量被以低頻譜分辨率以參數(shù)方式編碼。編碼的音頻信號然后僅要求以具有高頻譜分辨率的波形保持方式編碼的第一組第一頻譜部分,以及此外,以使用來源于第一組的頻率“拼塊(tile)”的低分辨率以參數(shù)方式編碼的第二組第二頻譜部分。在解碼器側(cè),作為全頻帶解碼器的核心解碼器以波形保持方式重建第一組第一頻譜部分,即,沒有任何存在任何附加頻率再生的知識。然而,如此產(chǎn)生的頻譜具有許多頻譜間隙。這些間隙隨后通過一方面使用應(yīng)用參數(shù)數(shù)據(jù)的頻率再生和另一方面使用源頻譜范圍(即,由全速率音頻解碼器重建的第一頻譜部分)而用本發(fā)明的智能間隙填充(igf)技術(shù)填充。

在另外的實施例中,通過僅噪聲填充而不是帶寬復制或頻率拼塊填充來重建的頻譜部分構(gòu)成第三組第三頻譜部分。由于編碼構(gòu)思在用于一方面核心編碼/解碼和另一方面頻率再生的單個域中操作的事實,通過在沒有頻率再生的情況下的噪聲填充或通過使用在不同頻率范圍的頻率拼塊的頻率再生,igf不僅被限制為填滿較高的頻率范圍,而且可以填滿較低的頻率范圍。

此外,要強調(diào)的是,關(guān)于頻譜能量的信息,關(guān)于各個能量的信息或個別能量信息,關(guān)于存活能量的信息或存活能量信息,關(guān)于拼塊能量的信息或拼塊能量信息,或者關(guān)于缺失能量的信息或缺失能量信息可以不僅包括能量值,而且還包括(例如絕對的)振幅值、電平值或任何其他值,從中可以導出最終能量值。因此,關(guān)于能量的信息可以例如包括能量值本身,和/或電平的和/或振幅的和/或絕對振幅的值。

另外的方面基于以下發(fā)現(xiàn):相關(guān)情況不僅對于源范圍重要,而且對于目標范圍也重要。此外,本發(fā)明承認在源范圍和目標范圍中可能發(fā)生不同相關(guān)情況的情況。例如,當考慮具有高頻噪聲的語音信號時,情況可能是當揚聲器放置在中間時包括具有小數(shù)量的泛音的語音信號的低頻帶在左聲道和右聲道中高度相關(guān)。然而,由于在左側(cè)可能存在與另一高頻噪聲相比不同的高頻噪聲或在右側(cè)沒有高頻噪聲的事實,所以高頻部分可以是強烈不相關(guān)的。因此,當執(zhí)行忽略這種情況的直接間隙填充操作時,則高頻部分也將相關(guān),并且這可能在重建信號中產(chǎn)生嚴重的空間隔離偽像。為了解決這個問題,計算針對重建頻帶的參數(shù)數(shù)據(jù),或者一般地,針對必須使用第一組第一頻譜部分重建的第二組第二頻譜部分的參數(shù)數(shù)據(jù),以識別針對第二頻譜部分的第一或第二不同的雙聲道表示,或換句話說,針對重建頻帶的第一或第二不同的雙聲道表示。因此,在編碼器側(cè),針對第二頻譜部分計算雙聲道識別,即針對另外計算重建頻帶的能量信息的部分計算雙聲道識別。在解碼器側(cè)的頻率再生器然后根據(jù)第一組第一頻譜部分的第一部分(即,用于第二部分的源范圍和參數(shù)數(shù)據(jù),例如頻譜包絡(luò)能量信息或任何其它頻譜包絡(luò)數(shù)據(jù))并且另外根據(jù)針對第二部分(即,針對重新考慮下的該重建頻帶)的雙聲道識別,來再生第二頻譜部分。

雙聲道識別優(yōu)選地作為每個重建頻帶的標志被發(fā)送,并且該數(shù)據(jù)從編碼器發(fā)送到解碼器,然后解碼器如由針對核心頻帶的優(yōu)選計算的標志所指示的那樣對核心信號進行解碼。然后,在實現(xiàn)中,核心信號以立體聲表示(例如左/右和中/側(cè))存儲,并且對于igf頻率拼塊填充,選擇源拼塊表示以如由用于智能間隙填充或重建頻帶(即,用于目標范圍)的雙聲道識別標志指示的那樣適合目標拼塊表示。

要強調(diào)的是,該過程不僅針對立體聲信號,即針對左聲道和右聲道工作,而且針對多聲道信號操作。在多聲道信號的情況下,可以以這種方式處理幾對不同的聲道,例如左和右聲道作為第一對,左環(huán)繞聲道和右環(huán)繞作為第二對以及中心聲道和lfe聲道作為第三對??梢葬槍χT如7.1、11.1等較高輸出聲道格式確定其他配對。

另外的方面是基于以下發(fā)現(xiàn):通過igf可以改進重建信號的音頻質(zhì)量,因為整個頻譜對于核心編碼器是可訪問的,使得例如在高頻譜范圍中的感知上重要的音調(diào)部分仍然可以由核心編碼器編碼而不是由參數(shù)替代編碼。另外,執(zhí)行使用來自第一組第一頻譜部分的頻率拼塊的間隙填充操作,所述第一組第一頻譜部分例如是通常來自較低頻率范圍的一組音調(diào)部分,但也是來自較高頻率范圍(如果可用)的一組音調(diào)部分。然而,對于解碼器側(cè)的頻譜包絡(luò)調(diào)整,來自位于重建頻帶中的第一組頻譜部分的頻譜部分不進一步由例如頻譜包絡(luò)調(diào)整進行后處理。只有重建頻帶中不是源自核心解碼器的剩余頻譜值將使用包絡(luò)信息進行包絡(luò)調(diào)整。優(yōu)選地,包絡(luò)信息是計及重建頻帶中的第一組第一頻譜部分和同一重建頻帶中的第二組第二頻譜部分的能量的全頻帶包絡(luò)信息,其中在第二組第二頻譜部分中的后者頻譜值被指示為零,并因此不由核心編碼器編碼,而是用低分辨率能量信息以參數(shù)方式編碼。

已經(jīng)發(fā)現(xiàn),相對于相應(yīng)頻帶的帶寬的標準化或不標準化的絕對能量值在解碼器側(cè)的應(yīng)用中是有用的和非常高效的。這尤其適用于當必須基于重建頻帶中的殘留能量、重建頻帶中的缺失能量和重建頻帶中的頻率拼塊信息來計算增益因子時。

此外,優(yōu)選的是,編碼的比特流不僅覆蓋重建頻帶的能量信息,而且還另外覆蓋擴展一直到最大頻率的比例因子頻帶的比例因子。這確保對于某個音調(diào)部分(即第一頻譜部分)可用的每個重建頻帶,該第一組第一頻譜部分實際上可以用正確的振幅解碼。此外,除了用于每個重建頻帶的比例因子之外,在編碼器中產(chǎn)生用于該重建頻帶的能量,并將其發(fā)送到解碼器。此外,優(yōu)選的是重建頻帶與比例因子頻帶一致,或者在能量分組的情況下,至少重建頻帶的邊界與比例因子頻帶的邊界一致。

另一方面是基于以下發(fā)現(xiàn):音頻質(zhì)量中的某些損傷可以通過應(yīng)用信號自適應(yīng)頻率拼塊填充方案來補救。為此,執(zhí)行編碼器側(cè)的分析,以便找出針對某個目標區(qū)域的最佳匹配的源區(qū)域候選。針對目標區(qū)域識別某個源區(qū)域的匹配信息以及可選的一些附加信息一起被產(chǎn)生并作為輔助信息發(fā)送到解碼器。然后,解碼器使用匹配信息來應(yīng)用頻率拼塊填充操作。為此,解碼器從所發(fā)送的數(shù)據(jù)流或數(shù)據(jù)文件讀取匹配信息,并且訪問針對某個重建頻帶識別的源區(qū)域,并且如果在匹配信息中指示,則另外對該源區(qū)域數(shù)據(jù)執(zhí)行一些處理以產(chǎn)生用于重建頻帶的原始頻譜數(shù)據(jù)。然后,頻率拼塊填充操作的該結(jié)果(即重建頻帶的原始頻譜數(shù)據(jù))使用頻譜包絡(luò)信息來進行整形,以便最終獲得也包括諸如音調(diào)部分之類的第一頻譜部分的重建頻帶。然而,這些音調(diào)部分不由自適應(yīng)拼塊填充方案產(chǎn)生,而是這些第一頻譜部分由音頻解碼器或核心解碼器直接輸出。

自適應(yīng)頻譜拼塊選擇方案可以以低粒度操作。在該實現(xiàn)中,源區(qū)域被細分為通常重疊的源區(qū)域,并且目標區(qū)域或重建帶由非重疊的頻率目標區(qū)域給出。然后,在編碼器側(cè)確定每個源區(qū)域和每個目標區(qū)域之間的相似性,并且通過匹配信息來識別源區(qū)域和目標區(qū)域的最佳匹配對,并且在解碼器側(cè),在匹配信息中所識別的源區(qū)域用于產(chǎn)生重建頻帶的原始頻譜數(shù)據(jù)。

為了獲得更高的粒度的目的,允許每個源區(qū)域移位,以便獲得相似性為最大的某個滯后。該滯后可以像頻率倉(bin)一樣精細,并且允許源區(qū)域和目標區(qū)域之間甚至更好的匹配。

此外,除了僅識別最佳匹配對之外,還可以在匹配信息內(nèi)發(fā)送該相關(guān)滯后,并且此外,甚至可以發(fā)送符號。當在編碼器側(cè)確定符號為負時,然后在匹配信息內(nèi)也發(fā)送對應(yīng)的符號標志,并且在解碼器側(cè),源區(qū)域頻譜值乘以“-1”,或者在復數(shù)表示中被“旋轉(zhuǎn)”180度。

本發(fā)明的另一實現(xiàn)應(yīng)用了拼塊白化操作。頻譜的白化去除了粗糙的頻譜包絡(luò)信息,并且強調(diào)了對于評估拼塊相似性最感興趣的頻譜精細結(jié)構(gòu)。因此,一方面頻率拼塊和/或另一方面源信號在計算交叉相關(guān)測量之前被白化。當僅使用預(yù)定義過程白化該拼塊時,發(fā)送白化標志,指示解碼器應(yīng)該對igf內(nèi)的頻率拼塊應(yīng)用相同的預(yù)定義白化過程。

關(guān)于拼塊選擇,優(yōu)選地使用相關(guān)性的滯后以通過整數(shù)個變換倉(transformbin)來在頻譜上移動再生的頻譜。根據(jù)基礎(chǔ)變換,頻譜移動可能要求附加校正。在奇數(shù)滯后的情況下,通過乘以-1/1的交替時間序列來附加地調(diào)制拼塊,以補償mdct內(nèi)每隔一個頻帶的頻率反轉(zhuǎn)表示。此外,當產(chǎn)生頻率拼塊時,應(yīng)用相關(guān)結(jié)果的符號。

此外,優(yōu)選地使用拼塊修剪和穩(wěn)定性,以便確保避免由用于相同重建區(qū)域或目標區(qū)域的快速變化的源區(qū)域創(chuàng)建的偽像。為此,執(zhí)行不同識別的源區(qū)域之間的相似性分析,并且當源拼塊類似于具有高于閾值的相似性的其他源拼塊時,則該源拼塊可以從該組潛在源拼塊中丟棄,因為它與其他源拼塊高度相關(guān)。此外,作為一種拼塊選擇穩(wěn)定性,如果當前幀中的源拼塊中沒有一個與當前幀中的目標拼塊相關(guān)(優(yōu)于給定閾值),則優(yōu)選地保持來自先前幀的拼塊次序。

另外的方面是基于以下發(fā)現(xiàn):通過將時間噪聲整形(tns)或時間拼塊整形(tts)技術(shù)與高頻率重建組合來獲得特別針對包括瞬態(tài)部分(因為它們經(jīng)常發(fā)生在音頻信號中)的信號的改進的質(zhì)量和降低的比特率。通過相對于頻率的預(yù)測實現(xiàn)的在編碼器側(cè)的tns/tts處理重建了音頻信號的時間包絡(luò)。根據(jù)實現(xiàn),即,當時間噪聲整形濾波器被確定在不僅覆蓋源頻率范圍而且還覆蓋頻率再現(xiàn)解碼器中要重建的目標頻率范圍的頻率范圍內(nèi)時,時間包絡(luò)不僅應(yīng)用于核心音頻信號一直到間隙填充起始頻率,而且時間包絡(luò)也應(yīng)用于重建的第二頻譜部分的頻譜范圍。因此,減少或消除了在沒有時間拼塊整形的情況下將發(fā)生的前回波或后回波。這通過不僅在一直到某個間隙填充起始頻率的核心頻率范圍內(nèi)而且在核心頻率范圍之上的頻率范圍內(nèi)應(yīng)用相對于頻率的逆預(yù)測來實現(xiàn)。為此,在應(yīng)用相對于頻率的預(yù)測之前,在解碼器側(cè)執(zhí)行頻率再生或頻率拼塊產(chǎn)生。然而,相對于頻率的預(yù)測可以在頻譜包絡(luò)整形之前或之后應(yīng)用,這取決于能量信息計算是對濾波之后的頻譜殘留值已經(jīng)執(zhí)行還是對包絡(luò)整形之前的(全部)頻譜值已經(jīng)執(zhí)行。

相對于一個或多個頻率拼塊的tts處理另外建立了源范圍和重建范圍之間或兩個相鄰重建范圍或頻率拼塊中的相關(guān)性的連續(xù)性。

在實現(xiàn)中,優(yōu)選使用復數(shù)tns/tts濾波。從而,避免了臨界采樣的實數(shù)表示(如mdct)的(時間)混疊偽像。除了獲得復數(shù)修改的變換之外,可以通過不僅應(yīng)用修改的離散余弦變換而且還應(yīng)用修改的離散正弦變換在編碼器側(cè)計算復數(shù)tns濾波。盡管如此,只有修改的離散余弦變換值,即復數(shù)變換的實部被發(fā)送。然而,在解碼器側(cè),有可能使用先前或后續(xù)幀的mdct頻譜來估計該變換的虛部,使得在解碼器側(cè),復數(shù)濾波器可以再次應(yīng)用于相對于頻率的逆預(yù)測,以及,具體地,相對于源范圍和重建范圍之間的邊界以及也相對于重建范圍內(nèi)的頻率相鄰頻率拼塊之間的邊界的預(yù)測。

本發(fā)明的音頻編碼系統(tǒng)以寬范圍的比特率有效地對任意音頻信號編碼。然而,對于高比特率,本發(fā)明的系統(tǒng)收斂到透明性,對于低比特率,感知煩擾被最小化。因此,可用比特率的主要份額用于僅對編碼器中的信號的感知上最相關(guān)的結(jié)構(gòu)進行波形編碼,并且所得到的頻譜間隙被填充在具有粗略地近似于原始頻譜的信號內(nèi)容的解碼器中。通過從編碼器發(fā)送到解碼器的專用輔助信息,消耗非常有限的比特預(yù)算來控制參數(shù)驅(qū)動的所謂的頻譜智能間隙填充(igf)。

在另外的實施例中,時域編碼/解碼處理器依賴于較低的采樣率和相應(yīng)的帶寬擴展功能。

在另外的實施例中,提供交叉處理器以便利用從當前處理的頻域編碼器/解碼器信號導出的初始化數(shù)據(jù)來初始化時域編碼器/解碼器。這允許當當前處理的音頻信號部分由頻域編碼器處理時,并行時域編碼器被初始化,使得當從頻域編碼器到時域編碼器的切換發(fā)生時,該時域編碼器可以立即開始處理,因為與更早的信號相關(guān)的所有初始化數(shù)據(jù)由于交叉處理器而已經(jīng)存在。該交叉處理器優(yōu)選地應(yīng)用于編碼器側(cè),并且另外應(yīng)用于解碼器側(cè),并且優(yōu)選地使用頻率-時間變換,其另外通過僅選擇域信號的某個低頻帶部分以及某個減小的變換尺寸來執(zhí)行從較高輸出或輸入采樣率到較低時域核心編碼器采樣率中的非常高效的下采樣。因此,非常有效地執(zhí)行從高采樣率到低采樣率的采樣率轉(zhuǎn)換,并且然后可以使用通過具有減小的變換尺寸的變換獲得的該信號來初始化時域編碼器/解碼器,使得時域編碼器/解碼器準備好當這種情況由控制器用信號通知并且緊接在前的音頻信號部分在頻域中編碼時立即執(zhí)行時域編碼。

因此,本發(fā)明的優(yōu)選實施例允許包括頻譜間隙填充的感知音頻編碼器和具有或不具有帶寬擴展的時域編碼器的無縫切換。

因此,本發(fā)明依賴于不限于在頻域編碼器中從音頻信號中去除截止頻率以上的高頻內(nèi)容的方法,而是在編碼器中信號自適應(yīng)地去除留下頻譜間隙的頻譜帶通區(qū)域并隨后在解碼器中重建這些頻譜間隙。優(yōu)選地,使用諸如智能間隙填充的集成解決方案,其特別在mdct變換域中有效地組合全帶寬音頻編碼和頻譜間隙填充。

因此,本發(fā)明提供了一種用于將語音編碼和隨后的時域帶寬擴展與包括頻譜間隙填充的全頻帶波形解碼組合成可切換感知編碼器/解碼器的改進的構(gòu)思。

因此,與已經(jīng)存在的方法相比,新構(gòu)思在變換域編碼器中利用全頻帶音頻信號波形編碼,并且同時允許到語音編碼器的無縫切換,優(yōu)選地隨后是時域帶寬擴展。

本發(fā)明的其它實施例避免了由于固定頻帶限制而發(fā)生的解釋的問題。該構(gòu)思實現(xiàn)了在配備有頻譜間隙填充的頻域中的全頻帶波形編碼器和較低采樣率語音編碼器和時域帶寬擴展的可切換組合。這種編碼器能夠?qū)ι鲜鲇袉栴}的信號進行波形編碼,從而提供一直到音頻輸入信號的奈奎斯特頻率的全音頻帶寬。盡管如此,兩種編碼策略之間的無縫瞬時切換特別地由具有交叉處理器的實施例來保證。對于這種無縫切換,交叉處理器表示在全頻帶能力全速率(輸入采樣率)頻域編碼器和具有較低采樣率的低速率acelp編碼器之間的編碼器和解碼器二者處的交叉連接,以當從諸如tcx之類的頻域編碼器切換到諸如acelp之類的時域編碼器時,適當?shù)爻跏蓟痑celp參數(shù)和緩沖器,特別是在自適應(yīng)碼本、lpc濾波器或重新采樣級內(nèi)。

附圖說明

隨后相對于附圖討論本發(fā)明,其中:

圖1a示出了用于對音頻信號進行編碼的裝置;

圖1b示出了與圖1a的編碼器匹配的用于對編碼的音頻信號進行解碼的解碼器;

圖2a示出了編碼器的優(yōu)選實現(xiàn);

圖2b示出了編碼器的優(yōu)選實現(xiàn);

圖3a示出了由圖1b的頻域解碼器產(chǎn)生的頻譜的示意性表示;

圖3b示出了指示用于比例因子頻帶的比例因子和用于重建頻帶的能量與用于噪聲填充頻帶的噪聲填充信息之間的關(guān)系的表格;

圖4a示出了用于將頻譜部分的選擇應(yīng)用到第一和第二組頻譜部分中的頻譜域編碼器的功能;

圖4b示出了圖4a的功能的實現(xiàn);

圖5a示出了mdct編碼器的功能;

圖5b示出了具有mdct技術(shù)的解碼器的功能;

圖5c示出了頻率再生器的實現(xiàn);

圖6示出了音頻編碼器的實現(xiàn);

圖7a示出了音頻編碼器內(nèi)的交叉處理器;

圖7b示出了另外在交叉處理器內(nèi)提供采樣率降低的逆或頻率-時間變換的實現(xiàn);

圖8示出了圖6的控制器的優(yōu)選實現(xiàn);

圖9示出了具有帶寬擴展功能的時域編碼器的另外的實施例;

圖10示出了預(yù)處理器的優(yōu)選使用;

圖11a示出了音頻解碼器的示意性實現(xiàn);

圖11b示出了解碼器內(nèi)的用于為時域解碼器提供初始化數(shù)據(jù)的交叉處理器;

圖12示出了圖11a的時域解碼處理器的優(yōu)選實現(xiàn);

圖13示出了時域帶寬擴展的另外的實現(xiàn);

圖14a示出了音頻編碼器的優(yōu)選實現(xiàn);

圖14b示出了音頻解碼器的優(yōu)選實現(xiàn);

圖14c示出了具有采樣率轉(zhuǎn)換和帶寬擴展的時域解碼器的創(chuàng)造性實現(xiàn)。

具體實施方式

圖6示出了用于對音頻信號進行編碼的音頻編碼器,包括用于在頻域中對第一音頻信號部分進行編碼的第一編碼處理器600。第一編碼處理器600包括時間頻率轉(zhuǎn)換器602,用于將第一輸入音頻信號部分轉(zhuǎn)換為具有一直到輸入信號的最大頻率的頻譜線的頻域表示。此外,第一編碼處理器600包括分析器604,用于分析一直到最大頻率的頻域表示,以確定要用第一頻譜表示編碼的第一頻譜區(qū)域,并確定要用第二頻譜分辨率編碼的第二頻譜區(qū)域,所述第二頻譜分辨率低于第一頻譜分辨率。特別地,全頻帶分析器604確定時間頻率轉(zhuǎn)換器頻譜中的哪些頻率線或頻譜值要被頻譜線方式編碼,以及哪些其他頻譜部分要以參數(shù)方式編碼,然后這些后者的頻譜值在解碼器側(cè)用間隙填充過程重建。實際編碼操作由頻譜編碼器606執(zhí)行,頻譜編碼器606用于以第一分辨率對第一頻譜區(qū)域或頻譜部分進行編碼,并且用于以參數(shù)方式用第二頻譜分辨率對第二頻譜區(qū)域或部分進行編碼。

圖6的音頻編碼器還包括用于在時域中對音頻信號部分進行編碼的第二編碼處理器610。另外,音頻編碼器包括控制器620,其被配置用于分析音頻信號輸入601處的音頻信號,并且用于確定音頻信號的哪個部分是在頻域中編碼的第一音頻信號部分,以及音頻信號的哪個部分是在時域中編碼的第二音頻信號部分。此外,提供可以例如實現(xiàn)為比特流多路復用器的編碼信號形成器630,其被配置用于形成編碼的音頻信號,該編碼的音頻信號包括用于第一音頻信號部分的第一編碼信號部分和用于第二音頻信號部分的第二編碼信號部分。重要的是,編碼的信號僅具有來自同一個音頻信號部分的頻域表示或時域表示。

因此,控制器620確保對于單個音頻信號部分,在編碼的信號中僅有時域表示或頻域表示。這可以由控制器620以若干方式實現(xiàn)。一種方式將是,對于同一個音頻信號部分,兩個表示到達塊630,并且控制器620控制編碼信號形成器630以僅將兩個表示中的一個引入到編碼的信號中。然而,備選地,控制器620可以控制到第一編碼處理器中的輸入和到第二編碼處理器中的輸入,使得基于相應(yīng)的信號部分的分析,僅激活塊600或610二者中的一個來實際執(zhí)行完全編碼操作,并且其他塊被去激活。

該去激活可以是去激活,備選地,例如相對于圖7a所示,僅僅是一種“初始化”模式,其中另一個編碼處理器僅僅對于接收和處理初始化數(shù)據(jù)是活動的以便初始化內(nèi)部存儲器,但是根本不執(zhí)行任何特定的編碼操作。該激活可以通過在圖6中未示出的輸入處的某個開關(guān)來完成,或優(yōu)選地,通過控制線621和622來完成。因此,在該實施例中,當控制器620已經(jīng)確定當前音頻信號部分應(yīng)該由第一編碼處理器編碼,而第二編碼處理器仍然被提供有初始化數(shù)據(jù)以對于將來的瞬時切換是活動的時,第二編碼處理器610不輸出任何東西。另一方面,第一編碼處理器被配置為不需要來自過去的任何數(shù)據(jù)來更新任何內(nèi)部存儲器,并且因此,在當前音頻信號部分要由第二編碼處理器610編碼時,則控制器620可以經(jīng)由控制線621控制第一結(jié)束編碼處理器600完全不活動。這意味著第一編碼處理器600不需要處于初始化狀態(tài)或等待狀態(tài),而是可以處于完全去激活狀態(tài)。這特別對于其中功耗和因此電池壽命成為問題的移動設(shè)備而言是優(yōu)選的。

在時域中操作的第二編碼處理器的進一步具體實現(xiàn)中,第二編碼處理器包括下采樣器900或采樣率轉(zhuǎn)換器,用于將音頻信號部分轉(zhuǎn)換為具有較低采樣率的表示,其中較低采樣率低于在到第一編碼處理器中的輸入處的采樣率。這在圖9中示出。特別地,當輸入音頻信號包括低頻帶和高頻帶時,優(yōu)選的是,在塊900的輸出處的較低采樣率表示僅具有輸入音頻信號部分的低頻帶,然后該低頻帶由時域低頻帶編碼器910進行編碼,時域低頻帶編碼器910被配置用于對由塊900提供的較低采樣率表示進行時域編碼。此外,提供了時域帶寬擴展編碼器920,用于以參數(shù)方式對高頻帶進行編碼。為此,時域帶寬擴展編碼器920至少接收輸入音頻信號的高頻帶或輸入音頻信號的低頻帶和高頻帶。

在本發(fā)明的另一實施例中,音頻編碼器另外包括(雖然在圖6中未示出,但在圖10中示出)預(yù)處理器1000,其被配置用于預(yù)處理第一音頻信號部分和第二音頻信號部分。在一個實施例中,該預(yù)處理器包括用于確定預(yù)測系數(shù)的預(yù)測分析器。該預(yù)測分析器可以實現(xiàn)為用于確定lpc系數(shù)的lpc(線性預(yù)測編碼)分析器。然而,也可以實現(xiàn)其他分析器。此外,預(yù)處理器(也在圖14a中示出)包括預(yù)測系數(shù)量化器1010,其中,在圖14a中示出的該設(shè)備從也在圖14a中1002處示出的預(yù)測分析器接收預(yù)測系數(shù)數(shù)據(jù)。

此外,預(yù)處理器另外包括用于產(chǎn)生量化預(yù)測系數(shù)的編碼的版本的熵編碼器。重要的是要注意,編碼信號形成器630或特定實現(xiàn),即比特流多路復用器613確保量化預(yù)測系數(shù)的編碼的版本被包括在編碼的音頻信號632中。優(yōu)選地,lpc系數(shù)不被直接量化,而是被轉(zhuǎn)換為例如isf,或者更適合于量化的任何其它表示。該轉(zhuǎn)換優(yōu)選地通過確定lpc系數(shù)塊1002來執(zhí)行或者在用于使lpc系數(shù)量化的塊1010內(nèi)執(zhí)行。

此外,預(yù)處理器可以包括重新采樣器1004,用于以輸入采樣率將音頻輸入信號重新采樣為用于時域編碼器的較低采樣率。當時域編碼器是具有某個acelp采樣率的acelp編碼器時,則下采樣被執(zhí)行優(yōu)選到12.8khz或16khz。輸入采樣率可以是特定數(shù)量的采樣率(例如32khz或甚至更高的采樣率)中的任何一個。另一方面,時域編碼器的采樣率將由某些限制預(yù)先確定,并且重新采樣器1004執(zhí)行該重新采樣并輸出輸入信號的較低采樣率表示。因此,重新采樣器可以執(zhí)行類似的功能,并且甚至可以是如圖9的上下文中所示的下采樣器900那樣的同一個元件。

此外,優(yōu)選地在圖14a中的預(yù)加重塊1005中應(yīng)用預(yù)加重。預(yù)加重處理在時域編碼領(lǐng)域中是公知的,并且在參考amr-wb+處理的文獻中描述,并且預(yù)加重特別地被配置用于補償頻譜傾斜,并因此允許以給定的lpc次序更好地計算lpc參數(shù)。

此外,預(yù)處理器可以另外包括用于控制圖14b中的1420處所示的ltp后濾波器的tcx-ltp參數(shù)提取。該塊在圖14a中的1006處示出。此外,預(yù)處理器可以另外包括在1007處示出的其他功能,并且這些其他功能可以包括音調(diào)搜索功能、話音活動檢測(vad)功能或者時域或語音編碼領(lǐng)域中已知的任何其他功能。

如所示,塊1006的結(jié)果被輸入到編碼的信號中,即,在圖14a的實施例中,被輸入到比特流多路復用器630中。此外,如果需要,來自塊1007的數(shù)據(jù)也可以被引入到比特流多路復用器中,或者可以備選地用于在時域編碼器中的時域編碼的目的。

因此,總而言之,兩個路徑共用的是預(yù)處理操作1000,其中執(zhí)行常用的信號處理操作。這些包括針對一個并行路徑的到acelp采樣率(12.8或16khz)的重新采樣,并且總是執(zhí)行該重新采樣。此外,執(zhí)行在塊1006處示出的tcxltp參數(shù)提取,另外,執(zhí)行l(wèi)pc系數(shù)的預(yù)加重和確定。如概述的,預(yù)加重補償了頻譜傾斜,因此使得以給定lpc次序進行的lpc參數(shù)的計算更有效。

隨后,參考圖8,以便示出控制器620的優(yōu)選實現(xiàn)??刂破髟谳斎胩幗邮账紤]的音頻信號部分。優(yōu)選地,如圖14a所示,控制器接收在預(yù)處理器1000中可用的任何信號,其可以是以輸入采樣率的原始輸入信號或以較低時域編碼器采樣率的重新采樣版本,或者是在塊1005中的預(yù)加重處理之后獲得的信號。

基于該音頻信號部分,控制器620尋址頻域編碼器模擬器621和時域編碼器模擬器622,以便針對每個編碼器可能性計算估計的信噪比。隨后,選擇器623自然地在考慮預(yù)定義比特率的情況下選擇已經(jīng)提供更好的信噪比的編碼器。選擇器然后通過控制輸出識別相應(yīng)的編碼器。當確定考慮下的音頻信號部分要使用頻域編碼器進行編碼時,時域編碼器被設(shè)置為初始化狀態(tài),或者在其他實施例中,在完全去激活狀態(tài)下不要求非常瞬時的切換。然而,當確定考慮下的音頻信號部分要由時域編碼器進行編碼時,則頻域編碼器被去激活。

隨后,示出了圖8中所示的控制器的優(yōu)選實現(xiàn)。通過模擬acelp和tcx編碼器并切換到更好的執(zhí)行分支,在切換決定中執(zhí)行應(yīng)該是選擇acelp還是選擇tcx路徑的決定。為此,基于acelp和tcx編碼器/解碼器模擬來估計acelp和tcx分支的snr。在沒有tns/tts分析、igf編碼器、量化回路/算術(shù)編碼器或沒有任何tcx解碼器的情況下執(zhí)行tcx編碼器/解碼器模擬。替代地,使用整形后的mdct域中的量化器失真的估計來估計tcxsnr。僅使用自適應(yīng)碼本和創(chuàng)新碼本的模擬來執(zhí)行acelp編碼器/解碼器模擬。通過計算由加權(quán)信號域(自適應(yīng)碼本)中的ltp濾波器引入的失真并通過常數(shù)因子(創(chuàng)新碼本)按比例縮放該失真來簡單地估計acelpsnr。因此,與并行執(zhí)行tcx和acelp編碼的方法相比,復雜度大大降低。具有較高snr的分支被選擇用于隨后的完整編碼運行。

在選擇tcx分支的情況下,在每個幀中運行tcx解碼器,其以acelt采樣率輸出信號。這用于更新用于acelp編碼路徑(lpc殘留、memw0、存儲器去加重)的存儲器,以實現(xiàn)從tcx到acelp的瞬時切換。在每個tcx路徑中執(zhí)行存儲器更新。

備選地,可以執(zhí)行通過合成處理進行的完全分析,即,編碼器模擬器621、622二者都實現(xiàn)實際編碼操作,并且結(jié)果由選擇器623進行比較。備選地,再次,可以通過執(zhí)行信號分析來完成完整的前饋計算。例如,當通過信號分類器確定信號是語音信號時,選擇時域編碼器,并且當確定信號是音樂信號時,則選擇頻域編碼器。還可以應(yīng)用其它過程以便基于對所考慮的音頻信號部分的信號分析來在兩個編碼器之間進行區(qū)分。

優(yōu)選地,音頻編碼器另外包括圖7a中所示的交叉處理器700。當頻域編碼器600是活動的時,交叉處理器700向時域編碼器610提供初始化數(shù)據(jù),使得時域編碼器準備好用于未來信號部分中的無縫切換。換句話說,當使用頻域編碼器確定當前信號部分要被編碼時,并且當控制器確定緊接在后的音頻信號部分要由時域編碼器610編碼時,則在沒有交叉處理器的情況下,這種立即無縫切換將是不可能的。然而,為了初始化時域編碼器中的存儲器的目的,交叉處理器向時域編碼器610提供從頻域編碼器600導出的信號,因為時域編碼器610具有對來自輸入的當前幀或按時間緊接在前的幀的編碼的信號的依賴性。

因此,時域編碼器610被配置為由初始化數(shù)據(jù)初始化,以便以高效的方式對由頻域編碼器600編碼的較早的音頻信號部分之后的音頻信號部分進行編碼。

特別地,交叉處理器包括用于將頻域表示轉(zhuǎn)換為時域表示的時間轉(zhuǎn)換器,所述時域表示可以直接或在一些進一步處理之后被轉(zhuǎn)發(fā)到時域編碼器。該轉(zhuǎn)換器在圖14a中示出為imdct(逆修改的離散余弦變換)塊。然而,與圖14a中所示的時間-頻率轉(zhuǎn)換器塊602相比,該塊702具有不同的變換尺寸(修改的離散余弦變換塊)。如塊602所示,時間-頻率轉(zhuǎn)換器602以輸入采樣率操作,并且逆修改的離散余弦變換702以較低acelp采樣率操作。

可以計算時域編碼器采樣率或acelp采樣率與頻域編碼器采樣率或輸入采樣率的比率,并且它是圖7b所示的下采樣因子ds。塊602具有大變換尺寸,且imdct塊702具有小變換尺寸。如圖7b所示,imdct塊702因此包括用于選擇到imdct塊702中的輸入的較低頻譜部分的選擇器726。全頻帶頻譜的部分由下采樣因子ds限定。例如,當較低采樣率是16khz并且輸入采樣率是32khz時,則下采樣因子是0.5,因此,選擇器726選擇全頻帶頻譜的下半部分。當頻譜具有例如1024個mdct線時,則選擇器選擇下部的512個mdct線。

全頻帶頻譜的這個低頻部分被輸入到小尺寸變換和展開(foldout)塊720中,如圖7b所示。該變換尺寸還根據(jù)下采樣因子來選擇,并且是在塊602中變換尺寸的50%。然后執(zhí)行合成窗口化,其中窗口具有小數(shù)量的系數(shù)。合成窗口的系數(shù)的數(shù)量等于下采樣因子乘以塊602所使用的分析窗口的系數(shù)的數(shù)量。最后,以每塊更小數(shù)量的操作執(zhí)行重疊相加操作,并且每塊的操作數(shù)量再次是全速率實現(xiàn)mdct中的每塊的操作數(shù)量乘以下采樣因子。

因此,可以應(yīng)用非常高效的下采樣操作,因為下采樣被包括在imdct實現(xiàn)中。在該上下文中,要強調(diào)的是,塊702可以由imdct實現(xiàn),但是也可以由可以在實際變換內(nèi)核和其他變換相關(guān)操作中適當?shù)囟ǔ叽绲娜魏纹渌儞Q或濾波器組實現(xiàn)來實現(xiàn)。

在圖14a所示的另一實施例中,時間-頻率轉(zhuǎn)換器除了分析器之外還包括附加功能。圖6的分析器604可以包括在圖14a的實施例中的時間噪聲整形/時間拼塊整形分析塊604a,其如在針對tns/tts分析塊604a的圖2b塊222的上下文中討論的那樣進行操作,并且針對對應(yīng)于圖14a中的igf編碼器604b的音調(diào)掩碼226關(guān)于圖2所示的那樣進行操作。

此外,頻域編碼器優(yōu)選地包括噪聲整形塊606a。噪聲整形塊606a由如塊1010產(chǎn)生的量化lpc系數(shù)控制。用于噪聲整形606a的量化lpc系數(shù)執(zhí)行直接編碼(而不是以參數(shù)方式編碼)的高分辨率頻譜值或頻譜線的頻譜整形,并且塊606a的結(jié)果類似于lpc濾波級之后的信號的頻譜,其在時域(例如稍后將描述的lpc分析濾波塊704)中進行操作。此外,然后如塊606b所示,對噪聲整形塊606a的結(jié)果進行量化和熵編碼。塊606b的結(jié)果對應(yīng)于編碼的第一音頻信號部分或頻域編碼的音頻信號部分(連同其它輔助信息一起)。

交叉處理器700包括用于計算第一編碼信號部分的經(jīng)解碼版本的頻譜解碼器。在圖14a的實施例中,頻譜解碼器701包括前面討論的逆噪聲整形塊703、間隙填充解碼器704、tns/tts合成塊705和imdct塊702。這些塊撤消由塊602至606b執(zhí)行的特定操作。具體地,噪聲整形塊703基于量化的lpc系數(shù)1010來撤銷由塊606a執(zhí)行的噪聲整形。igf解碼器704如關(guān)于圖2a所討論的那樣操作塊202和206,并且tns/tts合成塊705如在圖2a的塊210的上下文中所討論的那樣操作,并且頻譜解碼器另外包括imdct塊702。此外,圖14a中的交叉處理器700另外或備選地包括延遲級707,用于將由頻譜解碼器701獲得的經(jīng)解碼版本的延遲版本饋送在第二編碼處理器的去加重級617中,以用于初始化去加重級617的目的。

此外,交叉處理器17可以附加地或備選地包括加權(quán)預(yù)測系數(shù)分析濾波級708,用于對經(jīng)解碼版本進行濾波并用于將濾波后的經(jīng)解碼版本饋送到第二編碼處理器的在圖14a中指示為“mmse”的碼本確定器613,以用于初始化該塊。附加地或備選地,交叉處理器包括lpc分析濾波級,用于將由頻譜解碼器700輸出的第一編碼信號部分的經(jīng)解碼版本濾波到自適應(yīng)碼本級712,以用于塊612的初始化。另外或備選地,交叉處理器還包括預(yù)加重級709,用于在lpc濾波之前對由頻譜解碼器701輸出的經(jīng)解碼版本執(zhí)行預(yù)加重處理。預(yù)加重級輸出也可以被饋送到另外的延遲級710,用于在時域編碼器610內(nèi)初始化lpc合成濾波塊616的目的,用于初始化該lpc分析濾波塊611的目的。

如圖14a所示,時域編碼器處理器610包括在較低acelp采樣率上的預(yù)加重操作。如所示,該預(yù)加重是在預(yù)處理級1000中執(zhí)行的預(yù)加重,并且具有附圖標記1005。預(yù)加重數(shù)據(jù)被輸入到在時域中進行操作的lpc分析濾波級611中,并且該濾波器由通過預(yù)處理級1000獲得的量化lpc系數(shù)1010控制。如從amr-wb+或usac或其它celp編碼器已知的,由塊611產(chǎn)生的殘留信號被提供給自適應(yīng)碼本612,此外,自適應(yīng)碼本612連接到創(chuàng)新碼本級614,并且來自自適應(yīng)碼本612和來自創(chuàng)新碼本的碼本數(shù)據(jù)被輸入到比特流多路復用器中,如所示。

此外,提供與創(chuàng)新碼本級614串聯(lián)的acelp增益/編碼級612,并且將該塊的結(jié)果輸入到圖14a中指示為mmse的碼本確定器613中。該塊與創(chuàng)新碼本塊614協(xié)作。此外,時域編碼器另外包括具有l(wèi)pc合成濾波塊616、去加重塊617和自適應(yīng)低音后濾波級618的解碼器部分,用于計算自適應(yīng)低音后濾波的參數(shù),然而,自適應(yīng)低音后濾波應(yīng)用于解碼器側(cè)。在解碼器側(cè)沒有任何自適應(yīng)低音后濾波的情況下,塊616、617、618對于時域編碼器610將不是必需的。

如所示,時域解碼器的若干塊取決于先前的信號,并且這些塊是自適應(yīng)碼本塊、碼本確定器613、lpc合成濾波塊616和去加重塊617。這些塊被提供有從頻域編碼處理器數(shù)據(jù)導出的來自交叉處理器的數(shù)據(jù),以便為了準備好從頻域編碼器到時域編碼器的瞬時切換的目的而初始化這些塊。從圖14a還可以看出,對于頻域編碼器,對較早數(shù)據(jù)的任何依賴性不是必需的。因此,交叉處理器700不提供從時域編碼器到頻域編碼器的任何存儲器初始化數(shù)據(jù)。然而,對于其中存在來自過去的依賴性以及其中需要存儲器初始化數(shù)據(jù)的頻域編碼器的其它實現(xiàn),交叉處理器700被配置為在兩個方向上操作。

因此,音頻編碼器的優(yōu)選實施例包括以下部分:

下面描述優(yōu)選的音頻解碼器:波形解碼器部分由全頻帶tcx解碼器路徑和igf組成,其中二者都以編解碼器的輸入采樣率操作。并行地,存在在較低采樣率處的替代acelp解碼器路徑,其在下游由td-bwe進一步加強。

對于從tcx切換到acelp時的acelp初始化,存在執(zhí)行本發(fā)明的acelp初始化的交叉路徑(由共享tcx解碼器前端組成,但是另外提供以較低采樣率的輸出和一些后處理)。在lpc中在tcx和acelp之間共享相同的采樣率和濾波次序允許更容易和更高效的acelp初始化。

為了可視化切換,在14b中繪制了兩個開關(guān)。當在下游的第二開關(guān)在tcx/igf或acelp/td-bwe輸出之間選擇時,第一開關(guān)要么通過交叉路徑的輸出預(yù)更新在acelp路徑下游的重新采樣qmf級中的緩沖器,要么簡單地傳遞acelp輸出。

隨后,在圖11a-14c的上下文中討論根據(jù)本發(fā)明的方面的音頻解碼器實現(xiàn)。

用于對編碼的音頻信號1101進行解碼的音頻解碼器包括用于在頻域中對第一編碼音頻信號部分進行解碼的第一解碼處理器1120。第一解碼處理器1120包括頻譜解碼器1122,用于以高頻譜分辨率對第一頻譜區(qū)域進行解碼并且用于使用第二頻譜區(qū)域的參數(shù)表示和至少解碼的第一頻譜區(qū)域來合成第二頻譜區(qū)域以獲得解碼的頻譜表示。解碼的頻譜表示是如圖6的上下文中討論的并且也如圖1a的上下文中討論的全頻帶解碼的頻譜表示。因此,一般來說,第一解碼處理器包括在頻域中具有間隙填充過程的全頻帶實現(xiàn)。第一解碼處理器1120還包括頻率-時間轉(zhuǎn)換器1124,用于將解碼的頻譜表示轉(zhuǎn)換到時域中以獲得解碼的第一音頻信號部分。

此外,音頻解碼器包括第二解碼處理器1140,用于在時域中對第二編碼的音頻信號部分進行解碼以獲得解碼的第二信號部分。此外,音頻解碼器包括組合器1160,用于組合解碼的第一信號部分和解碼的第二信號部分以獲得解碼的音頻信號。解碼的信號部分按順序組合,這也在圖14b中由表示圖11a的組合器1160的實施例的開關(guān)實現(xiàn)1160示出。

優(yōu)選地,第二解碼處理器1140是時域帶寬擴展處理器,并且如圖12所示包括時域低頻帶解碼器1200,用于對低頻帶時域信號進行解碼。該實現(xiàn)還包括用于對低頻帶時域信號進行上采樣的上采樣器1210。另外,提供了時域帶寬擴展解碼器1220,用于對輸出音頻信號的高頻帶進行合成。此外,提供了混頻器1230,用于混合合成的時域輸出信號的高頻帶和上采樣的低頻帶時域信號,以獲得時域編碼器輸出。因此,在優(yōu)選的實施例中,圖11a中的塊1140可以通過圖12的功能來實現(xiàn)。

圖13示出了圖12的時域帶寬擴展解碼器1220的優(yōu)選實施例。優(yōu)選地,提供了時域上采樣器1221,其從包括在塊1140內(nèi)并且在圖12的1200處示出并在圖14b的上下文中進一步示出的時域低頻帶解碼器接收作為輸入的lpc殘留信號。時域上采樣器1221產(chǎn)生lpc殘留信號的上采樣的版本。然后將該版本輸入到非線性失真塊1222中,該非線性失真塊1222基于其輸入信號產(chǎn)生具有較高頻率值的輸出信號。非線性失真可以是復制、鏡像、頻移或非線性設(shè)備,例如,在非線性區(qū)域中操作的二極管或晶體管。塊1222的輸出信號被輸入到lpc合成濾波塊1223,lpc合成濾波塊1223也由用于低頻帶解碼器的lpc數(shù)據(jù)控制,或者例如由圖14a的編碼器側(cè)的時域帶寬擴展塊920所產(chǎn)生的特定包絡(luò)數(shù)據(jù)控制。然后將lpc合成塊的輸出輸入到帶通或高通濾波器1224中以最終獲得高頻帶,然后將其輸入到混頻器1230中,如圖12所示。

隨后,圖12的上采樣器1210的優(yōu)選實現(xiàn)在圖14a的上下文中討論。上采樣器優(yōu)選地包括以第一時域低頻帶解碼器采樣率操作的分析濾波器組。這種分析濾波器組的具體實現(xiàn)是圖14b中所示的qmf分析濾波器組1471。此外,上采樣器包括以高于第一時域低頻帶采樣率的第二輸出采樣率進行操作的合成濾波器組1473。因此,作為通用濾波器組的優(yōu)選實現(xiàn)的qmf合成濾波器組1473以輸出采樣率操作。當如圖7b的上下文中討論的下采樣因子t為0.5時,則qmf分析濾波器組1471具有例如僅32個濾波器組通道,并且qmf合成濾波器組1473具有例如64個qmf通道,但是濾波器組通道的較高一半,即上部32個濾波器組通道被饋送有零或噪聲,而下部32個濾波器組通道被饋送有由qmf分析濾波器組1471提供的相應(yīng)信號。然而,優(yōu)選地,在qmf濾波器組域內(nèi)執(zhí)行帶通濾波1472,以便確保qmf合成輸出1473是acelp解碼器輸出的上采樣的版本,但沒有高于acelp解碼器的最大頻率的任何偽像。

作為對帶通濾波1472的附加或替代,可以在qmf域內(nèi)執(zhí)行進一步的處理操作。如果根本不執(zhí)行處理,則qmf分析和qmf合成構(gòu)成高效的上采樣器1210。

隨后,對圖14b中的各個元件的結(jié)構(gòu)進行更詳細地討論。

全頻帶頻域解碼器1120包括第一解碼塊1122a,用于對高分辨率頻譜系數(shù)進行解碼并且用于另外執(zhí)行例如從usac技術(shù)已知的低頻帶部分中的噪聲填充。此外,全頻帶解碼器包括igf處理器1122b,用于使用已經(jīng)僅以參數(shù)方式并因此在編碼器側(cè)以低分辨率編碼的合成的頻譜值來填充頻譜空洞。然后,在塊1122c中,執(zhí)行逆噪聲整形,并且將結(jié)果輸入到tns/tts合成塊705中,tns/tts合成塊705將作為最終輸出的輸入提供給頻率-時間轉(zhuǎn)換器1124,其優(yōu)選地實現(xiàn)為在輸出處操作的逆修改的離散余弦變換,即高采樣率。

此外,使用由圖14b中的tcxltp參數(shù)提取塊1006獲得的數(shù)據(jù)控制的諧波或ltp后濾波器。結(jié)果然后是以輸出采樣率解碼的第一音頻信號部分,并且如從圖14b可以看出的,該數(shù)據(jù)具有高采樣率,因此,根本不需要任何進一步的頻率增強,這是由于以下的事實:解碼處理器是頻域全頻帶解碼器,其優(yōu)選地使用在圖1a-5c的上下文中討論的智能間隙填充技術(shù)來操作。

圖14b中的若干元素與圖14a的交叉處理器700中的相應(yīng)塊非常相似,特別是關(guān)于對應(yīng)于igf處理1122b的igf解碼器704,以及由量化lpc系數(shù)1145控制的逆噪聲整形操作對應(yīng)于圖14a的逆噪聲整形703,以及圖14b中的tns/tts合成塊705對應(yīng)于圖14a中的塊tns/tts合成705。然而,重要的是,圖14b中的imdct塊1124以高采樣率操作,而圖14a中的imdct塊702以低采樣率操作。因此,圖14b中的塊1124包括與相應(yīng)特征720、722、724相比具有相應(yīng)大數(shù)量的操作、大數(shù)量的窗口系數(shù)和大變換尺寸的大的定尺寸的變換和展開塊710、塊712中的合成窗口和重疊相加級714,其在塊702中操作,并且稍后將在圖14b中的交叉處理器1170的塊1171中概述。

時域解碼處理器1140優(yōu)選地包括acelp或時域低頻帶解碼器1200,acelp或時域低頻帶解碼器1200包括用于獲得解碼的增益和創(chuàng)新碼本信息的acelp解碼器級1149。另外,提供了acelp自適應(yīng)碼本級1141,以及隨后的acelp后處理級1142和最終合成濾波器(例如lpc合成濾波器1143),其再次由從對應(yīng)于圖11a中的編碼的信號解析器1100的比特流多路分配器1100獲得的量化lpc系數(shù)1145控制。lpc合成濾波器1143的輸出被輸入到去加重級1144中,用于消除或撤消由圖14a的預(yù)處理器1000的預(yù)加重級1005引入的處理。結(jié)果是在低采樣率和低頻帶下的時域輸出信號,并且在要求頻域輸出的情況下,開關(guān)1480處于指示位置,并且去加重級1144的輸出被引入到上采樣器1210中,然后與來自時域帶寬擴展解碼器1220的高頻帶混合。

根據(jù)本發(fā)明的實施例,音頻解碼器另外包括圖11b和圖14b中所示的交叉處理器1170,用于根據(jù)第一編碼音頻信號部分的解碼的頻譜表示計算第二解碼處理器的初始化數(shù)據(jù),使得第二解碼處理器被初始化以對編碼的音頻信號中在時間上跟隨第一音頻信號部分的編碼的第二音頻信號部分進行解碼,即,使得時域編碼處理器1140準備好從一個音頻信號部分到下一個音頻信號部分的瞬時切換,而在質(zhì)量或效率上沒有任何損耗。

優(yōu)選地,交叉處理器1170包括以比第一解碼處理器的頻率-時間轉(zhuǎn)換器更低的采樣率操作的附加頻率-時間轉(zhuǎn)換器1171,以便在時域中獲得進一步解碼的第一信號部分,以用作初始化信號或可以針對其導出任何初始化數(shù)據(jù)。優(yōu)選地,該imdct或低采樣率頻率-時間轉(zhuǎn)換器被實現(xiàn)為圖7b中所示的項目726(選擇器)、項目720(小尺寸變換和展開),如722中所示的具有較小數(shù)量的窗口系數(shù)的合成窗口以及如724處所示的具有較小數(shù)量的操作的重疊相加級。因此,頻域全頻帶解碼器中的imdct塊1124如由塊710、712、714所示被實現(xiàn),并且imdct塊1171如圖7b所示由塊726、720、722、724實現(xiàn)。再次,下采樣因子是時域編碼器采樣率或低采樣率與較高頻域采樣率或輸出采樣率之間的比率,并且該下采樣因子小于1且可以是大于0且小于1的任何數(shù)。

如圖14b所示,交叉處理器1170單獨地或者除了其它元件之外還包括延遲級1172,用于延遲進一步解碼的第一信號部分并用于將延遲的解碼的第一信號部分饋送到第二解碼處理器的去加重級1144中以進行初始化。此外,交叉處理器另外或備選地包括預(yù)加重濾波器1173和延遲級1175,用于對進一步解碼的第一信號部分進行濾波和延遲,并用于將塊1175的延遲輸出提供到acelp解碼器的lpc合成濾波級1143中,以用于初始化的目的。

此外,交叉處理器備選地或除了其他提到的元件之外可以包括lpc分析濾波器1174,lpc分析濾波器1174用于根據(jù)進一步解碼的第一信號部分或預(yù)加重的進一步解碼的第一信號部分產(chǎn)生預(yù)測殘留信號,并且用于將數(shù)據(jù)饋送到第二解碼處理器的碼本合成器中,并且優(yōu)選地,饋送到自適應(yīng)碼本級1141中。此外,具有低采樣率的頻率-時間轉(zhuǎn)換器1171的輸出也被輸入到上采樣器1210的qmf分析級1471中,以用于初始化的目的,即在當前解碼的音頻信號部分由頻域全頻帶解碼器1120遞送時。

下面描述優(yōu)選的音頻解碼器:波形解碼器部分由全頻帶tcx解碼器路徑和igf組成,其中二者都以編解碼器的輸入采樣率操作。并行地,存在在較低采樣率處的替代acelp解碼器路徑,其在下游由td-bwe進一步加強。

對于從tcx切換到acelp時的acelp初始化,存在執(zhí)行本發(fā)明的acelp初始化的交叉路徑(由共享tcx解碼器前端組成,但是另外提供以較低采樣率的輸出和一些后處理)。在lpc中在tcx和acelp之間共享相同的采樣率和濾波次序允許更容易和更高效的acelp初始化。

為了可視化切換,在圖14b中繪制了兩個開關(guān)。當在下游的第二開關(guān)在tcx/igf或acelp/td-bwe輸出之間選擇時,第一開關(guān)要么通過交叉路徑的輸出預(yù)更新在acelp路徑下游的重新采樣qmf級中的緩沖器,要么簡單地傳遞acelp輸出。

總而言之,可單獨或組合使用的本發(fā)明的優(yōu)選方面涉及acelp和td-bwe編碼器與能夠全頻帶tcx/igf技術(shù)的組合,優(yōu)選與使用交叉信號相關(guān)聯(lián)。

另一個特定特征是用于acelp初始化以實現(xiàn)無縫切換的交叉信號路徑。

另一方面是短imdct被饋送有高速率長mdct系數(shù)的較低部分以在交叉路徑中高效地實現(xiàn)采樣率轉(zhuǎn)換。

另一特征是在解碼器中與全頻帶tcx/igf部分共享的交叉路徑的高效實現(xiàn)。

另一特征是用于qmf初始化的交叉信號路徑,以實現(xiàn)從tcx到acelp的無縫切換。

附加特征是到qmf的交叉信號路徑,其允許補償acelp重新采樣輸出和當從acelp切換到tcx時的濾波器組-tcx/igf輸出之間的延遲間隙。

另一方面是,以相同的采樣率和濾波次序為tcx和acelp編碼器二者提供lpc,盡管tcx/igf編碼器/解碼器是能夠全頻帶的。

隨后,圖14c被討論為要么作為獨立解碼器操作要么與能夠全頻帶頻域解碼器組合操作的時域解碼器的優(yōu)選實現(xiàn)。

通常,時域解碼器包括acelp解碼器,隨后連接的重新采樣器或上采樣器和時域帶寬擴展功能。特別地,acelp解碼器包括用于恢復增益和創(chuàng)新碼本的acelp解碼級1149、acelp自適應(yīng)碼本級1141、acelp后處理器1142、由來自比特流多路分配器的量化lpc系數(shù)控制的lpc合成濾波器1143或編碼的信號解析器和隨后連接的去加重級1144。優(yōu)選地,處于acelp采樣率的時域殘留信號被輸入到時域帶寬擴展解碼器1220中,其在輸出處提供高頻帶。

為了對去加重1144輸出進行上采樣,提供了包括qmf分析塊1471和qmf合成塊1473的上采樣器。在由塊1471和1473限定的濾波器組域內(nèi),優(yōu)選地應(yīng)用帶通濾波器。特別地,如前面已經(jīng)討論的,也可以使用相同的功能,其已經(jīng)關(guān)于相同的附圖標記進行了討論。此外,時域帶寬擴展解碼器1220可以如圖13所示實現(xiàn)。并且通常包括以acelp采樣率對acelp殘留信號或時域殘留信號的上采樣,acelp采樣率最終到帶寬擴展信號的輸出采樣率。

隨后,關(guān)于圖1a-5c討論關(guān)于能夠全頻帶的頻域編碼器和解碼器的進一步細節(jié)。

圖1a示出了用于對音頻信號99進行編碼的裝置。音頻信號99被輸入到時間頻譜轉(zhuǎn)換器100中,時間頻譜轉(zhuǎn)換器100用于將具有采樣率的音頻信號轉(zhuǎn)換成由時間頻譜轉(zhuǎn)換器輸出的頻譜表示101。頻譜101被輸入到用于分析頻譜表示101的頻譜分析器102中。頻譜分析器101被配置用于確定要以第一頻譜分辨率編碼的第一組第一頻譜部分103和要以第二頻譜分辨率編碼的不同的第二組第二頻譜部分105。第二頻譜分辨率小于第一頻譜分辨率。第二組第二頻譜部分105被輸入到參數(shù)計算器或參數(shù)編碼器104中,用于計算具有第二頻譜分辨率的頻譜包絡(luò)信息。此外,提供了頻譜域音頻編碼器106,用于產(chǎn)生具有第一頻譜分辨率的第一組第一頻譜部分的第一編碼表示107。此外,參數(shù)計算器/參數(shù)編碼器104被配置用于產(chǎn)生第二組第二頻譜部分的第二編碼表示109。第一編碼表示107和第二編碼表示109被輸入到比特流多路復用器或比特流形成器108中,并且塊108最終輸出編碼的音頻信號以用于傳輸或在存儲設(shè)備上存儲。

通常,第一頻譜部分(例如圖3a的306)將被兩個第二頻譜部分(諸如307a、307b)圍繞。這不是heaac中的情況,其中核心編碼器頻率范圍是頻帶限制的。

圖1b示出了與圖1a的編碼器相匹配的解碼器。第一編碼表示107被輸入到頻譜域音頻解碼器112中,用于產(chǎn)生第一組第一頻譜部分的第一解碼表示,該解碼表示具有第一頻譜分辨率。此外,第二編碼表示109被輸入到參數(shù)解碼器114中,用于產(chǎn)生具有低于第一頻譜分辨率的第二頻譜分辨率的第二組第二頻譜部分的第二解碼表示。

解碼器還包括頻率再生器116,用于使用第一頻譜部分再生具有第一頻譜分辨率的重建的第二頻譜部分。頻率再生器116執(zhí)行拼塊填充操作,即,使用第一組第一頻譜部分的拼塊或部分,并將該第一組第一頻譜部分復制到具有第二頻譜部分的重建范圍或重建頻帶中,并且通常執(zhí)行頻譜包絡(luò)整形或由參數(shù)解碼器114輸出的解碼的第二表示(即,通過使用關(guān)于第二組第二頻譜部分的信息)所指示的另一操作。解碼的第一組第一頻譜部分和重建的第二組頻譜部分如在線117上的頻率再生器116的輸出處所指示的那樣被輸入到頻譜-時間轉(zhuǎn)換器118中,頻譜-時間轉(zhuǎn)換器118被配置用于將第一解碼表示和重建的第二頻譜部分轉(zhuǎn)換成時間表示119,該時間表示具有某個高采樣率。

圖2b示出了圖1a編碼器的實現(xiàn)。音頻輸入信號99被輸入到對應(yīng)于圖1a的時間頻譜轉(zhuǎn)換器100的分析濾波器組220中。然后,在tns塊222中執(zhí)行時間噪聲整形操作。因此,到對應(yīng)于圖2b的塊音調(diào)掩碼226的圖1a的頻譜分析器102中的輸入當不應(yīng)用時間噪聲整形/時間拼塊整形操作時可以是全頻譜值,或者當應(yīng)用如圖2b、塊222所示的tns操作時可以是頻譜殘留值。對于雙聲道信號或多聲道信號,可以另外執(zhí)行聯(lián)合聲道編碼228,使得圖1a的頻譜域編碼器106可以包括聯(lián)合聲道編碼塊228。此外,提供了用于執(zhí)行無損數(shù)據(jù)壓縮的熵編碼器232,其也是圖1a的頻譜域編碼器106的一部分。

頻譜分析器/音調(diào)掩碼226將tns塊222的輸出分離為核心頻帶和對應(yīng)于第一組第一頻譜部分103的音調(diào)分量和對應(yīng)于圖1a的第二組第二頻譜部分105的殘留分量。指示為igf參數(shù)提取編碼的塊224對應(yīng)于圖1a的參數(shù)編碼器104,并且比特流多路復用器230對應(yīng)于圖1a的比特流多路復用器108。

優(yōu)選地,分析濾波器組222被實現(xiàn)為mdct(修改的離散余弦變換濾波器組),并且mdct被用于以用作頻率分析工具的修改的離散余弦變換將信號99變換到時間-頻率域中。

頻譜分析器226優(yōu)選地應(yīng)用音調(diào)掩碼。該音調(diào)掩碼估計級用于將音調(diào)分量與信號中的類噪聲分量分離。這允許核心編碼器228使用心理聲學模塊對所有音調(diào)分量進行編碼。音調(diào)掩碼估計級可以以許多不同的方式實現(xiàn),并且優(yōu)選地在其功能上類似于用于語音/音頻編碼[8,9]或在[10]中描述的基于hiln模型的音頻編碼器的正弦和噪聲建模中使用的正弦軌道估計級。優(yōu)選地,使用易于實現(xiàn)而不需要保持生死軌跡的實現(xiàn),但是也可以使用任何其他音調(diào)或噪聲檢測器。

igf模塊計算存在于源區(qū)域和目標區(qū)域之間的相似性。目標區(qū)域?qū)⒂蓙碜栽磪^(qū)域的頻譜表示。源區(qū)域和目標區(qū)域之間的相似性的測量使用互相關(guān)方法來完成。目標區(qū)域被分成ntar非重疊頻率拼塊。對于目標區(qū)域中的每個拼塊,從固定的開始頻率創(chuàng)建nsrc源拼塊。這些源拼塊以0和1之間的因子重疊,其中0意指0%重疊,1意指100%重疊。這些源拼塊中的每一個與各種滯后處的目標拼塊相關(guān),以找到與目標拼塊最佳匹配的源拼塊。最佳匹配拼塊編號被存儲在tilenum[idx_tar]中,在其處它與目標最佳相關(guān)的滯后被存儲在xcorr_lag[idx_tar][idx_src]中,以及相關(guān)性的符號被存儲在xcorr_sign[idx_tar][idx_src]中。在相關(guān)性非常負面的情況下,在解碼器處的拼塊填充處理之前,源拼塊需要乘以-1。igf模塊還考慮不覆寫頻譜中的音調(diào)分量,因為使用音調(diào)掩碼來保留音調(diào)分量。帶狀能量參數(shù)用于存儲目標區(qū)域的能量,使得我們能夠精確地重建頻譜。

這種方法相對于傳統(tǒng)的sbr[1]具有的某些優(yōu)點在于:多音調(diào)信號的諧波網(wǎng)格由核心編碼器保存,而只有正弦波之間的間隙被來自源區(qū)域的最佳匹配的“整形噪聲”填充。與asr(精確頻譜替換)[2-4]相比,該系統(tǒng)的另一個優(yōu)點是沒有信號合成級,其在解碼器處創(chuàng)建信號的重要部分。相反,這個任務(wù)由核心編碼器接管,使得能夠保存頻譜的重要分量。所提出的系統(tǒng)的另一個優(yōu)點是特征提供的連續(xù)可縮放性。只需對每個拼塊使用tilenum[idx_tar]和xcorr_lag=0,被稱為粒度匹配并且可以用于低比特率,同時對每個拼塊使用變量xcorr_lag使得我們能夠更好地匹配目標和源頻譜。

此外,提出了去除諸如顫動和音樂噪聲的頻域偽像的拼塊選擇穩(wěn)定技術(shù)。

在立體聲聲道對的情況下,應(yīng)用附加的聯(lián)合立體聲處理。這是必要的,因為對于某個目的地范圍,信號可以是高度相關(guān)的平移(panned)聲源。在為該特定區(qū)域選擇的源區(qū)域不是良好相關(guān)的情況下,盡管能量與目的區(qū)域匹配,但是空間圖像可能由于不相關(guān)的源區(qū)域而受損。編碼器分析每個目的區(qū)域能帶,通常執(zhí)行頻譜值的交叉相關(guān),并且如果超過某個閾值,則為該能帶設(shè)置聯(lián)合標志。在解碼器中,如果該聯(lián)合立體聲標志未被設(shè)置,則左和右聲道能帶被分別處理。在設(shè)置聯(lián)合立體聲標志的情況下,在聯(lián)合立體聲域中執(zhí)行能量和修補二者。類似用于核心編碼的聯(lián)合立體聲信息,發(fā)信號通知用于igf區(qū)域的聯(lián)合立體聲信息,包括在預(yù)測的情況下指示以下的標志:預(yù)測的方向是否是從下混到殘留,或反之。

能量可以根據(jù)l/r域中的發(fā)送能量來計算。

midnrg[k]=leftnrg[k]+rightnrg[k];

sidenrg[k]=leftnrg[k]-rightnrg[k];

其中k是變換域中的頻率索引。

另一種解決方案是對于聯(lián)合立體聲是活動的頻帶,在聯(lián)合立體聲域中直接計算和發(fā)送能量,因此在解碼器側(cè)不需要附加的能量變換。

源拼塊始終根據(jù)中/側(cè)矩陣來創(chuàng)建:

midtile[k]=0.5·(lefttile[k]+righttile[k])

sidetile[k]=0.5·(lefttile[k]-righttile[k])

能量調(diào)整:

midtile[k]=midtile[k]*midnrg[k];

sidetile[k]=sidetile[k]*siaenrg[k];

聯(lián)合立體聲->lr變換:

如果沒有對附加預(yù)測參數(shù)進行編碼:

lefttile[k]=midtile[k]+sidetile[k]

righttile[k]=midtile[k]-sidetile[k]

如果附加預(yù)測參數(shù)被編碼并且如果發(fā)信號通知的方向是從中間到一側(cè):

sidetile[k]=sidetile[k]-predictioncoeff·midtile[k]

lefttile[k]=midtile[k]+sidetile[k]

righttile[k]=midtile[k]-sidetile[k]

如果發(fā)信號通知的方向是從一側(cè)到中間:

midtilel[k]=midtile[k]-predictioncoeff·sidetile[k]

lefttile[k]=midtilel[k]-sidetile[k]

righttile[k]=midtilel[k]+sidetile[k]

該處理確保根據(jù)用于再生高度相關(guān)的目的區(qū)域和平移的目的區(qū)域的拼塊,即使源區(qū)域不相關(guān),所得到的左和右聲道仍然表示相關(guān)和平移的聲源,從而保存用于這樣的區(qū)域的立體聲圖像。

換句話說,在比特流中,發(fā)送指示是否應(yīng)當使用l/r或m/s作為一般聯(lián)合立體聲編碼的示例的聯(lián)合立體聲標志。在解碼器中,首先,如由針對核心頻帶的聯(lián)合立體聲標志所指示的,對核心信號進行解碼。其次,核心信號以l/r和m/s表示二者進行存儲。對于igf拼塊填充,選擇源拼塊表示以適合如由igf頻帶的聯(lián)合立體聲信息所指示的目標拼塊表示。

時間噪聲整形(tns)是一種標準技術(shù),且是aac[11-13]的一部分。tns可以被認為是感知編碼器的基本方案的擴展,在濾波器組和量化級之間插入可選的處理步驟。tns模塊的主要任務(wù)是隱藏在瞬態(tài)類似信號的時間掩碼區(qū)域中產(chǎn)生的量化噪聲,并且因此它導致更高效的編碼方案。首先,tns使用變換域中的“前向預(yù)測”(例如,mdct)計算一組預(yù)測系數(shù)。這些系數(shù)然后用于使信號的時間包絡(luò)變平坦。由于量化影響tns濾波后的頻譜,所以量化噪聲也暫時是平坦的。通過在解碼器側(cè)應(yīng)用逆tns濾波,量化噪聲根據(jù)tns濾波的時間包絡(luò)來整形,并且因此量化噪聲被瞬態(tài)掩碼。

igf基于mdct表示。為了高效編碼,優(yōu)選地,必須使用大約20ms的長塊。如果這種長塊內(nèi)的信號包含瞬態(tài),則由于拼塊填充,在igf頻譜帶中發(fā)生可聽到的前回聲和后回聲。圖7c示出了由于igf引起的瞬時起始之前的典型前回聲效應(yīng)。在左側(cè),示出了原始信號的頻譜圖,并且在右側(cè)示出了沒有tns濾波的帶寬擴展信號的頻譜圖。

這種前回聲效應(yīng)通過在igf上下文中使用tns而減少。這里,tns用作時間拼塊整形(tts)工具,因為對tns殘留信號執(zhí)行解碼器中的頻譜再生。照常在編碼器側(cè)使用全頻譜計算并應(yīng)用所要求的tts預(yù)測系數(shù)。tns/tts起始頻率和停止頻率不受igf工具的igf起始頻率figfstart影響。與傳統(tǒng)tns相比,tts停止頻率增加到igf工具的停止頻率,其高于figfstart。在解碼器側(cè),tns/tts系數(shù)再次應(yīng)用于全頻譜,即核心頻譜加上再生頻譜加上來自音調(diào)掩碼的音調(diào)分量(見圖7e)。tts的應(yīng)用是形成再生頻譜的時間包絡(luò)以再次匹配原始信號的包絡(luò)所必需的。因此,所示的前回聲被減少。此外,它仍然照常以tns在低于figfstart的信號中對量化噪聲進行整形。

在傳統(tǒng)解碼器中,音頻信號上的頻譜修補破壞了補丁邊界處的頻譜相關(guān)性,并且由此通過引入頻散而損害音頻信號的時間包絡(luò)。因此,對殘留信號執(zhí)行igf拼塊填充的另一益處是,在應(yīng)用整形濾波之后,拼塊邊界無縫地相關(guān),導致信號的更忠實的時間再現(xiàn)。

在本發(fā)明的編碼器中,已經(jīng)經(jīng)歷tns/tts濾波、音調(diào)掩碼處理和igf參數(shù)估計的頻譜除了音調(diào)分量之外,沒有高于igf起始頻率的任何信號。這個稀疏頻譜現(xiàn)在使用算術(shù)編碼和預(yù)測編碼的原理由核心編碼器編碼。這些編碼的分量連同信令比特一起形成音頻的比特流。

圖2a示出了相應(yīng)的解碼器實現(xiàn)。對應(yīng)于編碼的音頻信號的圖2a中的比特流被輸入到多路分配器/解碼器中,其將關(guān)于圖1b連接到塊112和114。比特流多路分配器將輸入音頻信號分離成圖1b的第一編碼表示107和圖1b的第二編碼表示109。具有第一組第一頻譜部分的第一編碼表示被輸入到對應(yīng)于圖1b的頻譜域解碼器112的聯(lián)合聲道解碼塊204中。第二編碼表示被輸入到圖2a中未示出的參數(shù)解碼器114中,然后輸入到對應(yīng)于圖1b的頻率再生器116的igf塊202中。頻率再生所要求的第一組第一頻譜部分經(jīng)由線203輸入到igf塊202中。此外,在聯(lián)合聲道解碼204之后,在音調(diào)掩碼塊206中應(yīng)用特定核心解碼,使得音調(diào)掩碼206的輸出對應(yīng)于頻譜域解碼器112的輸出。然后,由組合器208執(zhí)行組合,即,幀建造,其中組合器208的輸出現(xiàn)在具有全范圍頻譜,但仍然在tns/tts濾波后的域中。然后,在塊210中,使用經(jīng)由線109提供的tns/tts濾波信息來執(zhí)行逆tns/tts操作,即,tts輔助信息優(yōu)選地被包括在由頻譜域編碼器106(例如,頻譜域編碼器106可以是直接aac或usac核心編碼器)產(chǎn)生的第一編碼表示中,或者也可以被包括在第二編碼表示中。在塊210的輸出處,提供一直到最大頻率的完整的頻譜,其是由原始輸入信號的采樣率限定的全范圍頻率。然后,在合成濾波器組212中執(zhí)行頻譜/時間轉(zhuǎn)換,以最終獲得音頻輸出信號。

圖3a示出了頻譜的示意表示。按比例因子頻帶scb細分頻譜,其中在圖3a的示出的示例中存在七個比例因子頻帶scb1至scb7。比例因子頻帶可以是在aac標準中限定的aac比例因子頻帶,并且對于上部頻率具有增加的帶寬,如圖3a示意性地所示。優(yōu)選地,不是從頻譜的一開始即在低頻率處執(zhí)行智能間隙填充,而是在309處所示的igf起始頻率處開始igf操作。因此,核心頻帶從最低頻率延伸到igf起始頻率。在igf起始頻率之上,應(yīng)用頻譜分析以從由第二組第二頻譜部分表示的低分辨率分量中分離出高分辨率頻譜分量304、305、306、307(第一組第一頻譜部分)。圖3a示出了示例性地輸入到頻譜域編碼器106或聯(lián)合聲道編碼器228中的頻譜,即,核心編碼器在全范圍中操作,但是編碼了大量的零頻譜值,即這些零頻譜值在量化之前或在量化之后被量化為零或被設(shè)置為零。無論如何,核心編碼器在全范圍中操作,即,如同頻譜將如圖所示,即,核心解碼器不一定必須知道具有較低的頻譜分辨率的第二組第二頻譜部分的任何智能間隙填充或編碼。

優(yōu)選地,高分辨率由諸如mdct線的譜線的線方式編碼限定,而第二分辨率或低分辨率通過例如僅計算每個比例因子頻帶的單個頻譜值來限定,其中比例因子頻帶覆蓋若干頻率線。因此,關(guān)于其頻譜分辨率,第二低分辨率比由核心編碼器(例如aac或usac核心編碼器)通常應(yīng)用的線方式編碼所限定的第一或高分辨率低得多。

關(guān)于比例因子或能量計算,情況在圖3b中示出。由于編碼器是核心編碼器的事實并且由于可以但不一定必須存在每個頻帶中的第一組頻譜部分的分量的事實,核心編碼器不僅在低于igf起始頻率309的核心范圍內(nèi),而且還在igf起始頻率以上一直到最大頻率figfstop計算針對每個頻帶的比例因子,所述最大頻率小于或等于采樣頻率的一半,即,fs/2。因此,圖3a的編碼的音調(diào)部分302、304、305、306、307以及在該實施例中與比例因子scb1至scb7一起對應(yīng)于高分辨率頻譜數(shù)據(jù)。低分辨率頻譜數(shù)據(jù)從igf起始頻率開始計算并且對應(yīng)于能量信息值e1、e2、e3、e4,其與比例因子sf4到sf7一起被發(fā)送。

特別地,當核心編碼器處于低比特率條件下時,可以另外應(yīng)用核心頻帶(即頻率比igf起始頻率低,即,在比例因子頻帶scb1至scb3中)中的附加的噪聲填充操作。在噪聲填充中,存在已被量化為零的若干相鄰頻譜線。在解碼器側(cè),這些量化為零的頻譜值被重新合成,并且使用諸如圖3b中的308處所示的nf2的噪聲填充能量來在它們的幅度方面調(diào)整重新合成的頻譜值??梢砸越^對項或以特別地關(guān)于如在usac中的比例因子的相對項給出的噪聲填充能量對應(yīng)于量化為零的該組頻譜值的能量。這些噪聲填充譜線還可以被認為是第三組第三頻譜部分,其通過直接噪聲填充合成來再生,而沒有依賴于使用來自其它頻率的頻率拼塊的頻率再生的任何igf操作,所述igf操作用于使用來自源范圍的頻譜值和能量信息e1、e2、e3、e4來重建頻譜拼塊。

優(yōu)選地,計算能量信息所針對的頻帶與比例因子頻帶一致。在其它實施例中,應(yīng)用能量信息值分組,使得例如對于比例因子頻帶4和5,僅發(fā)送單個能量信息值,但即使在該實施例中,分組的重建頻帶的邊界與比例因子頻帶的邊界一致。如果應(yīng)用不同的頻帶間隔,則可以應(yīng)用某些重新計算或同步計算,并且這取決于特定實現(xiàn)而可以是有意義的。

優(yōu)選地,圖1a的頻譜域編碼器106是如圖4a所示的心理聲學驅(qū)動的編碼器。通常,如例如在mpeg2/4aac標準或mpeg1/2、層3標準中所示,在被變換成頻譜范圍之后要被編碼的音頻信號(圖4a中的401)被轉(zhuǎn)發(fā)到比例因子計算器400。比例因子計算器由心理聲學模型控制,該心理聲學模型另外接收要量化的音頻信號或如在mpeg1/2層3或mpegaac標準中那樣接收音頻信號的復數(shù)頻譜表示。心理聲學模型針對每個比例因子頻帶計算表示心理聲學閾值的比例因子。此外,比例因子然后通過公知的內(nèi)部和外部迭代循環(huán)的協(xié)作或者通過任何其他適當?shù)木幋a過程來調(diào)整,使得滿足某些比特率條件。然后,一方面要量化的頻譜值和另一方面計算出的比例因子被輸入到量化器處理器404中。在直接音頻編碼器操作中,要量化的頻譜值由比例因子加權(quán),然后加權(quán)的頻譜值被輸入到通常具有到上部振幅范圍的壓縮功能的固定量化器中。然后,在量化器處理器的輸出處存在量化索引,然后將其轉(zhuǎn)發(fā)到熵編碼器中,該熵編碼器通常對于相鄰頻率值的一組零量化索引(或者如本領(lǐng)域中也稱為,零值的“延伸”)具有特定和非常高效的編碼。

然而,在圖1a的音頻編碼器中,量化器處理器通常從頻譜分析器接收關(guān)于第二頻譜部分的信息。因此,量化器處理器404確保在量化器處理器404的輸出中,如由頻譜分析器102識別的第二頻譜部分為零或具有由編碼器或解碼器確認為零表示的表示,其可以是被非常高效地編碼,特別是當在頻譜中存在零值的“延伸”時。

圖4b示出了量化器處理器的實現(xiàn)。mdct頻譜值可以被輸入到設(shè)置為零塊410中。然后,在執(zhí)行塊412中的由比例因子進行的加權(quán)之前,第二頻譜部分已經(jīng)被設(shè)置為零。在附加的實現(xiàn)中,不提供塊410,而是在加權(quán)塊412之后在塊418中執(zhí)行設(shè)置為零協(xié)作。在甚至進一步的實現(xiàn)中,也可以在量化器塊420中的量化之后,在設(shè)置為零塊422中執(zhí)行設(shè)置為零操作。在該實現(xiàn)中,塊410和418將不存在。通常,根據(jù)具體實現(xiàn)提供塊410、418、422中的至少一個。

然后,在塊422的輸出處,獲得對應(yīng)于圖3a中所示的內(nèi)容的量化頻譜。然后將該量化的頻譜輸入到諸如圖2b中的232之類的熵編碼器中,其可以是例如在usac標準中限定的霍夫曼編碼器或算術(shù)編碼器。

彼此交替地或并行地提供的設(shè)置為零塊410、418、422由頻譜分析器424控制。頻譜分析器優(yōu)選地包括公知的音調(diào)檢測器的任何實現(xiàn),或者包括任何不同種類的檢測器,其可操作用于將頻譜分離成要以高分辨率編碼的分量和要以低分辨率編碼的分量。在頻譜分析器中實現(xiàn)的其它這樣的算法可以是語音活動檢測器、噪聲檢測器、語音檢測器或任何其它檢測器,這根據(jù)關(guān)于不同頻譜部分的分辨率要求的頻譜信息或相關(guān)聯(lián)的元數(shù)據(jù)來決定。

圖5a示出了如例如在aac或usac中實現(xiàn)的圖1a的時間頻譜轉(zhuǎn)換器100的優(yōu)選實現(xiàn)。時間頻譜轉(zhuǎn)換器100包括由瞬態(tài)檢測器504控制的加窗器502。當瞬態(tài)檢測器504檢測到瞬態(tài)時,則從長窗口到短窗口的切換被用信號通知到加窗器。加窗器502然后為重疊塊計算窗口化幀,其中每個窗口化幀通常具有二n個值,例如2048個值。然后,執(zhí)行塊變換器506內(nèi)的變換,并且該塊變換器通常另外提供抽取,使得執(zhí)行組合抽取/變換以獲得具有n個值(例如mdct頻譜值)的頻譜幀。因此,對于長窗口操作,在塊506的輸入處的幀包括二n個值,例如2048個值,而頻譜幀則具有1024個值。然后,然而,當執(zhí)行八個短塊時,對短塊執(zhí)行切換,其中每個短塊與長窗口相比具有1/8窗口化時域值,并且每個頻譜塊與長塊相比具有1/8頻譜值。因此,當該抽取與加窗器的50%重疊操作組合時,頻譜是時域音頻信號99的臨界采樣版本。

隨后,參考圖5b,其示出了圖1b的頻率再生器116和頻譜-時間轉(zhuǎn)換器118的具體實現(xiàn),或者圖2a的塊208、212的組合操作的具體實現(xiàn)。在圖5b中,考慮特定重建頻帶,例如圖3a的縮放因子頻帶6。該重建頻帶中的第一頻譜部分,即圖3a的第一頻譜部分306被輸入到幀建造器/調(diào)整器塊510中。此外,針對比例因子頻帶6的重建的第二頻譜部分也被輸入到幀建造器/調(diào)整器510中。此外,能量信息(諸如用于比例因子頻帶6的圖3b的e3)也被輸入到塊510中。重建頻帶中的重建的第二頻譜部分已經(jīng)使用源范圍通過頻率拼塊填充來產(chǎn)生,并且重建頻帶然后對應(yīng)于目標范圍。現(xiàn)在,執(zhí)行幀的能量調(diào)整,以便然后最終獲得如例如在圖2a的組合器208的輸出處獲得的具有n個值的完整重建的幀。然后,在塊512中,執(zhí)行逆塊變換/內(nèi)插以獲得針對在塊512的輸入處的例如124個頻譜值的248個時域值。然后,在塊514中執(zhí)行合成窗口化操作,其再次由作為編碼的音頻信號中的輔助信息發(fā)送的長窗口/短窗口指示來控制。然后,在塊516中,執(zhí)行與先前時間幀的重疊/相加操作。優(yōu)選地,mdct應(yīng)用50%的重疊,使得對于2n個值的每個新時間幀,最終輸出n個時域值。50%的重疊由于以下的事實而是非常優(yōu)選的:它由于在塊516中的重疊/相加操作而提供關(guān)鍵采樣和從一個幀到下一個幀的連續(xù)交叉。

如圖3a中的301處所示,例如對于與圖3a的比例因子頻帶6一致的預(yù)期重建頻帶,可以不僅在igf起始頻率以下而且在igf起始頻率之上另外應(yīng)用噪聲填充操作。然后,噪聲填充頻譜值還可以被輸入到幀建造器/調(diào)整器510中,并且也可以在該塊內(nèi)應(yīng)用噪聲填充頻譜值的調(diào)整,或者噪聲填充頻譜值可以在被輸入到幀建造器/調(diào)整器510中之前使用噪聲填充能量來調(diào)整。

優(yōu)選地,可以在完整的頻譜中應(yīng)用igf操作,即,使用來自其他部分的頻譜值的頻率拼塊填充操作。因此,頻譜拼塊填充操作不僅可以應(yīng)用于igf起始頻率之上的高頻帶,而且可以應(yīng)用于低頻帶。此外,沒有頻率拼塊填充的噪聲填充不僅可以應(yīng)用于igf起始頻率以下,而且可以應(yīng)用于igf起始頻率之上。然而,已經(jīng)發(fā)現(xiàn),當噪聲填充操作受限于低于igf起始頻率的頻率范圍并且當頻率拼塊填充操作被限制到高于igf起始頻率的頻率范圍時,可以獲得高質(zhì)量和高效率的音頻編碼,如圖3a所示。

優(yōu)選地,目標拼塊(tt)(具有大于igf起始頻率的頻率)被束縛到全速率編碼器的比例因子頻帶邊界。從其獲取信息的源拼塊(st)(即,對于低于igf起始頻率的頻率)不被比例因子頻帶邊界束縛。st的尺寸應(yīng)該對應(yīng)于相關(guān)聯(lián)的tt的尺寸。這使用以下示例來說明。tt[0]具有10個mdct倉的長度。這正好對應(yīng)于兩個后續(xù)scb(例如4+6)的長度。然后,與tt[0]相關(guān)的所有可能的st也具有10個倉的長度。與tt[0]相鄰的第二目標拼塊tt[1]具有15個倉l的長度(scb具有7+8的長度)。然后,針對其的st具有15個倉的長度而不是針對tt[0]的10個倉。

如果發(fā)生不能找到具有目標拼塊的長度的st的tt(當例如tt的長度大于可用源范圍時)的情況,則不計算相關(guān)性,并且將源范圍多次復制到該tt(一個接一個地完成復制,使得第二副本的最低頻率的頻率線緊隨(在頻率方面)用于第一副本的最高頻率的頻率線),直到目標拼塊tt完全填滿。

隨后,參考圖5c,其示出了圖1b的頻率再生器116或圖2a的igf塊202的另一優(yōu)選實施例。塊522是頻率拼塊產(chǎn)生器,其不僅接收目標頻帶id,而且另外接收源頻帶id。示例性地,已經(jīng)在編碼器側(cè)確定了圖3a的比例因子頻帶非常好地適合于重建比例因子頻帶7。因此,源頻帶id將為2,而目標頻帶id將為7。基于此信息,頻率拼塊產(chǎn)生器522應(yīng)用向上復制或諧波拼塊填充操作或任何其它拼塊填充操作以產(chǎn)生頻譜分量523的原始第二部分。頻譜分量的原始第二部分具有與包括在第一組第一頻譜部分中的頻率分辨率相同的頻率分辨率。

然后,重建頻帶的第一頻譜部分(例如圖3a的307)被輸入到幀建造器524中,并且原始的第二部分523也被輸入到幀建造器524中。然后,調(diào)整器526使用由增益因子計算器528計算的重建頻帶的增益因子來調(diào)整重建的幀。然而,重要的是,幀中的第一頻譜部分不受調(diào)整器526影響,但是僅重建幀的原始第二部分受調(diào)整器526影響。為此,增益因子計算器528分析源頻帶或原始第二部分523,并且另外分析重建頻帶中的第一頻譜部分,以最終找到正確的增益因子527,使得由調(diào)整器526調(diào)整后的幀輸出的能量當設(shè)想比例因子頻帶7時具有能量e4。

在該上下文中,與he-aac相比,評價本發(fā)明的高頻重建精度是非常重要的。這是關(guān)于圖3a中的比例因子頻帶7來解釋的。假設(shè)例如圖13a所示的現(xiàn)有技術(shù)的編碼器將檢測要以高分辨率編碼為“丟失諧波”的頻譜部分307。然后,該頻譜分量的能量將與用于重建頻帶的頻譜包絡(luò)信息(例如比例因子頻帶7)一起發(fā)送到解碼器。然后,解碼器將重新創(chuàng)建丟失諧波。然而,將由圖13b的現(xiàn)有技術(shù)的解碼器在其處重建丟失諧波307的頻譜值將在由重建頻率390指示的頻率處在頻帶7的中間。因此,本發(fā)明避免了將由圖13d的現(xiàn)有技術(shù)的解碼器引入的頻率誤差391。

在一個實現(xiàn)中,頻譜分析器還被實現(xiàn)為計算第一頻譜部分和第二頻譜部分之間的相似性,并且基于所計算的相似性為重建范圍中的第二頻譜部分確定與第二頻譜部分盡可能匹配的第一頻譜部分。然后,在該可變源范圍/目的范圍實現(xiàn)中,參數(shù)編碼器將另外將匹配信息引入到第二編碼表示中,該匹配信息為每個目的范圍指示匹配的源范圍。在解碼器側(cè),該信息然后將由圖5c的頻率拼塊產(chǎn)生器522使用,圖5c示出了基于源頻帶id和目標頻帶id的原始第二部分523的生成。

此外,如圖3a所示,頻譜分析器被配置為分析一直到最大分析頻率的頻譜表示,該最大分析頻率僅僅是低于采樣頻率的一半的小量,并且優(yōu)選地是采樣頻率的至少四分之一或通常更高。

如所示,編碼器在沒有下采樣的情況下操作,并且解碼器在沒有上采樣的情況下操作。換句話說,頻譜域音頻編碼器被配置為產(chǎn)生具有由最初輸入音頻信號的采樣率限定的奈奎斯特頻率的頻譜表示。

此外,如圖3a所示,頻譜分析器被配置為分析以間隙填充起始頻率開始并以由包括在頻譜表示中的最大頻率表示的最大頻率結(jié)束的頻譜表示,其中從最小頻率延伸一直到間隙填充起始頻率的頻譜部分屬于第一組頻譜部分,并且其中具有高于間隙填充頻率的頻率值的另一頻譜部分(諸如304、305、306、307)另外被包括在第一組第一頻譜部分中。

如概述的,頻譜域音頻解碼器112被配置為使得由第一解碼表示中的頻譜值表示的最大頻率等于包括在具有采樣率的時間表示中的最大頻率,其中針對最大頻率的頻譜值在第一組第一頻譜部分中是零或不同于零。無論如何,對于第一組頻譜分量中的該最大頻率,存在針對比例因子頻帶的比例因子,其被產(chǎn)生并發(fā)送,而無論該比例因子頻帶中的所有頻譜值是否被設(shè)置為零,如圖3a和3b的上下文中所討論的。

因此,本發(fā)明對于增加壓縮效率的其它參數(shù)技術(shù)(例如噪聲替代和噪聲填充(這些技術(shù)專用于像局部信號內(nèi)容的噪聲的高效表示))是有利的,本發(fā)明允許音調(diào)分量的精確頻率再現(xiàn)。到目前為止,沒有現(xiàn)有技術(shù)的技術(shù)通過在沒有在低頻帶(lf)和高頻帶(hf)中的固定的先驗分割的限制的情況下的頻譜間隙填充來解決任意信號內(nèi)容的高效參數(shù)表示。

本發(fā)明系統(tǒng)的實施例改進了現(xiàn)有技術(shù)的方法,從而提供高壓縮效率,即使對于低比特率也沒有或僅有小的感知煩擾和完全的音頻帶寬。

一般系統(tǒng)包括:

·全頻帶核心編碼

·智能間隙填充(拼塊填充或噪聲填充)

·通過音調(diào)掩碼選擇的核心中的稀疏音調(diào)部分

·全頻帶聯(lián)合立體聲對編碼,包括拼塊填充

·拼塊上的tns

·igf范圍內(nèi)的頻譜白化

朝著更高效的系統(tǒng)的第一步驟是去除將頻譜數(shù)據(jù)變換為與核心編碼器之一不同的第二變換域的需要。由于大多數(shù)音頻編解碼器(諸如,例如aac)使用mdct作為基本變換,所以在mdct域中執(zhí)行bwe也是有用的。bwe系統(tǒng)的第二個要求將是需要保存音調(diào)網(wǎng)格,由此甚至hf音調(diào)分量被保存,并且經(jīng)編碼的音頻的質(zhì)量因此優(yōu)于現(xiàn)有系統(tǒng)。為了照顧bwe方案的上述兩個要求,提出了稱為智能間隙填充(igf)的新系統(tǒng)。圖2b示出了在編碼器側(cè)的所提出的系統(tǒng)的框圖,并且圖2a示出了在解碼器側(cè)的系統(tǒng)。

隨后,討論和限定了可以分開實現(xiàn)或一起實現(xiàn)的全頻帶頻域第一編碼處理器和并入間隙填充操作的全頻帶頻域解碼處理器的另外可選特征。

特別地,對應(yīng)于塊1122a的頻譜域解碼器112被配置為輸出頻譜值的解碼的幀序列,解碼的幀是第一解碼表示,其中該幀包括用于第一組頻譜部分的頻譜值和用于第二頻譜部分的零指示。用于解碼的裝置還包括組合器208。頻譜值由用于第二組第二頻譜部分的頻率再生器產(chǎn)生,其中組合器和頻率再生器二者都被包括在塊1122b內(nèi)。因此,通過組合第二頻譜部分和第一頻譜部分,獲得包括第一組第一頻譜部分和第二組頻譜部分的頻譜值的重建的頻譜幀,并且對應(yīng)于圖14b中的imdct塊1124的頻譜-時間轉(zhuǎn)換器118然后將重建的頻譜幀轉(zhuǎn)換成時間表示。

如所概述的,頻譜-時間轉(zhuǎn)換器118或1124被配置為執(zhí)行逆修改的離散余弦變換512、514,并且還包括重疊-相加級516,用于重疊和相加后續(xù)時域幀。

特別地,頻譜域音頻解碼器1122a被配置為產(chǎn)生第一解碼表示,使得第一解碼表示具有限定等于由頻譜-時間轉(zhuǎn)換器1124產(chǎn)生的時間表示的采樣率的采樣率的奈奎斯特頻率。

此外,解碼器1112或1122a被配置為產(chǎn)生第一解碼表示,使得關(guān)于兩個第二頻譜部分307a、307b之間的頻率來放置第一頻譜部分306。

在另一實施例中,由第一解碼表示中的最大頻率的頻譜值表示的最大頻率等于包括在由頻譜-時間轉(zhuǎn)換器產(chǎn)生的時間表示中的最大頻率,其中最大頻率的頻譜值在第一表示中是零或不同于零。

此外,如在圖3中所示,編碼的第一音頻信號部分還包括要通過噪聲填充重建的第三組第三頻譜部分的編碼表示,并且第一解碼處理器1120另外包括在塊1122b中包括的噪聲填充器,用于從第三組第三頻譜部分的編碼表示提取噪聲填充信息308以及用于在不使用不同頻率范圍中的第一頻譜部分的情況下在第三組第三頻譜部分中應(yīng)用噪聲填充操作。

此外,頻譜域音頻解碼器112被配置為產(chǎn)生具有第一頻譜部分的第一解碼表示,所述第一頻譜部分的頻率值大于以下頻率:該頻率等于由頻譜-時間轉(zhuǎn)換器118或1124輸出的時間表示所覆蓋的頻率范圍的中間的頻率。

此外,頻譜分析器或全頻帶分析器604被配置為分析由時間-頻率轉(zhuǎn)換器602產(chǎn)生的表示,用于確定要用第一高頻譜分辨率編碼的第一組第一頻譜部分和要用低于第一頻譜分辨率的第二頻譜分辨率編碼的不同的第二組第二頻譜部分,并且通過頻譜分析器,關(guān)于頻率確定在圖3中的307a和307b處的兩個第二頻譜部分之間的第一頻譜部分306。

特別地,頻譜分析器被配置用于分析一直到最大分析頻率的頻譜表示,該最大分析頻率是音頻信號的采樣頻率的至少四分之一。

特別地,頻譜域音頻編碼器被配置為處理用于量化和熵編碼的頻譜值的幀序列,其中,在幀中,第二組第二部分的頻譜值被設(shè)置為零,或其中,在幀中,存在第一組第一頻譜部分和第二組第二頻譜部分的頻譜值,并且其中,在后續(xù)處理期間,將第二組頻譜部分中的頻譜值設(shè)置為零,如在410、418、422處示例性所示。

頻譜域音頻編碼器被配置為產(chǎn)生具有由音頻輸入信號或由在頻域中操作的第一編碼處理器處理的音頻信號的第一部分的采樣率限定的奈奎斯特頻率的頻譜表示。

頻譜域音頻編碼器606還被配置為提供第一編碼表示,使得對于采樣后的音頻信號的幀,編碼表示包括第一組第一頻譜部分和第二組第二頻譜部分,其中第二組頻譜部分中的頻譜值被編碼為零或噪聲值。

全頻帶分析器604或102被配置為分析以間隙填充起始頻率209開始并且以由包括在頻譜表示中的最大頻率表示的最大頻率fmax結(jié)束的頻譜表示,并且從最小頻率延伸一直到間隙填充起始頻率309的頻譜部分屬于第一組第一頻譜部分。

特別地,分析器被配置為對至少一部分頻譜表示應(yīng)用音調(diào)掩碼處理,使得音調(diào)分量和非音調(diào)分量彼此分離,其中第一組第一頻譜部分包括音調(diào)分量,并且其中第二組第二頻譜部分包括非音調(diào)分量。

盡管已在框圖的背景(其中,所述塊表示真實的或邏輯的硬件組件)下描述了本發(fā)明,但本發(fā)明也可以實現(xiàn)為計算機實施方法。在后者的情況下,塊表示相應(yīng)方法步驟,其中這些步驟代表由對應(yīng)邏輯或?qū)嶓w硬件塊執(zhí)行的功能性。

雖然已經(jīng)在裝置的上下文中描述了一些方面,但是將清楚的是,這些方面還表示對相應(yīng)方法的描述,其中,塊或設(shè)備對應(yīng)于方法步驟或方法步驟的特征。類似地,在方法步驟的上下文中描述的方案也表示對相應(yīng)塊或項或者相應(yīng)裝置的特征的描述??梢杂?或使用)硬件裝置(諸如,微處理器、可編程計算機或電子電路)來執(zhí)行一些或全部方法步驟。在一些實施例中,可以由這種裝置來執(zhí)行最重要方法步驟中的某一個或多個方法步驟。

本發(fā)明的經(jīng)傳輸或編碼的信號可以存儲在數(shù)字存儲介質(zhì)上或可以在諸如無線傳輸介質(zhì)的傳輸介質(zhì)或諸如因特網(wǎng)的有線傳輸介質(zhì)上傳輸。

取決于某些實現(xiàn)要求,可以在硬件中或在軟件中實現(xiàn)本發(fā)明的實施例??梢酝ㄟ^使用其上存儲有電子可讀控制信號的數(shù)字存儲介質(zhì)(例如,軟盤、dvd、blu-ray、cd、rom、prom和eprom、eeprom或閃存)來執(zhí)行所述實現(xiàn)方案,所述控制信號與可編程計算機系統(tǒng)合作(或能夠與之合作),使得執(zhí)行各個方法。因此,數(shù)字存儲介質(zhì)可以是計算機可讀的。

根據(jù)本發(fā)明的一些實施例包括具有電子可讀控制信號的數(shù)據(jù)載體,該電子可讀控制信號能夠與可編程計算機系統(tǒng)協(xié)作從而執(zhí)行本文所述的方法之一。

通常,本發(fā)明的實施例可以實現(xiàn)為具有程序代碼的計算機程序產(chǎn)品,程序代碼可操作以在計算機程序產(chǎn)品在計算機上運行時執(zhí)行方法之一。程序代碼可以例如存儲在機器可讀載體上。

其他實施例包括存儲在機器可讀載體上的計算機程序,該計算機程序用于執(zhí)行本文所述的方法之一。

換言之,本發(fā)明方法的實施例因此是具有程序代碼的計算機程序,該程序代碼用于在計算機程序在計算機上運行時執(zhí)行本文所述的方法之一。

因此,本發(fā)明方法的另一實施例是數(shù)據(jù)載體(或諸如數(shù)字存儲介質(zhì)或計算機可讀介質(zhì)的非暫時性存儲介質(zhì)),包含記錄于其上的用于執(zhí)行本文所述方法之一的計算機程序。數(shù)據(jù)載體、數(shù)字存儲介質(zhì)或記錄的介質(zhì)通常是有形的和/或非暫時性的。

因此,本發(fā)明方法的另一實施例是表示用于執(zhí)行本文所述的方法之一的計算機程序的數(shù)據(jù)流或信號序列。數(shù)據(jù)流或信號序列可以例如被配置為經(jīng)由數(shù)據(jù)通信連接(例如,經(jīng)由互聯(lián)網(wǎng))傳輸。

另一實施例包括處理裝置,例如,配置為或適用于執(zhí)行本文所述的方法之一的計算機或可編程邏輯器件。

另一實施例包括其上安裝有計算機程序的計算機,該計算機程序用于執(zhí)行本文所述的方法之一。

根據(jù)本發(fā)明的另一實施例包括被配置為向接收機(例如,以電子方式或以光學方式)傳輸計算機程序的裝置或系統(tǒng),該計算機程序用于執(zhí)行本文所述的方法之一。接收機可以是例如計算機、移動設(shè)備、存儲設(shè)備等。該裝置或系統(tǒng)可以例如包括用于向接收機傳輸計算機程序的文件服務(wù)器。

在一些實施例中,可編程邏輯器件(例如,現(xiàn)場可編程門陣列)可以用于執(zhí)行本文所述的方法的一些或全部功能。在一些實施例中,現(xiàn)場可編程門陣列可以與微處理器協(xié)作以執(zhí)行本文所述的方法之一。通常,方法優(yōu)選地由任意硬件裝置來執(zhí)行。

上述實施例對于本發(fā)明的原理僅是說明性的。應(yīng)當理解的是:本文所述的布置和細節(jié)的修改和變形對于本領(lǐng)域其他技術(shù)人員將是顯而易見的。因此,旨在僅由所附專利權(quán)利要求的范圍來限制而不是由借助對本文的實施例的描述和解釋所給出的具體細節(jié)來限制。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1