支持變換長度切換的頻域音頻編碼的制作方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明關(guān)于支持變換長度切換的頻域音頻編碼。
【背景技術(shù)】
[0002] 現(xiàn)代頻域語音/音頻編碼系統(tǒng),例如IETF[ 1 ]的Opus/Celt編解碼器、MPEG-4HE-AAC
[2] 或者,特別是MPEG-D xHE-AAC(USAC) [3],提供根據(jù)信號的時間穩(wěn)定性使用一個長變換-長區(qū)塊-或八個順序短變換-短區(qū)塊對音頻幀進行編碼的方法。
[0003] 針對特定的音頻信號,例如雨聲或是很多觀眾的喝彩,長區(qū)塊編碼或短區(qū)塊編碼 都無法在低比特率下產(chǎn)生令人滿意的質(zhì)量。這可通過錄音中的突出瞬態(tài)的密度來說明。僅 以長區(qū)塊編碼可能會造成編碼錯誤的頻繁且可聽見的時間模糊,其為已知的預(yù)回聲;然而 僅以短區(qū)塊編碼通常因增加的數(shù)據(jù)開銷而是無效的,導(dǎo)致頻譜空洞。
[0004] 因此,使用支持也適用于上述概述的種類的音頻信號的變換長度的頻域音頻編碼 是有利的。自然地,建立新的支持變換長度的集合(包含適合特定種類的音頻信號的特期望 變換長度)之間的切換的頻域音頻編解碼器是可行的。然而,獲得市場上采用的新的頻域音 頻編解碼器并非是容易的任務(wù)。熟知的編解碼器已經(jīng)可獲得且被頻繁地使用。因此,能夠具 有一種概念,使得現(xiàn)有的頻域音頻編解碼器被擴展以便額外支持期望的新的變換長度,但 是又能保持與現(xiàn)有的編解碼器以及解碼器的向后兼容,將是有利的。
【發(fā)明內(nèi)容】
[0005] 因此,本發(fā)明的目的是提供一種概念使得現(xiàn)有的頻域音頻編解碼器以向后兼容的 方式朝支持額外的變換長度擴展,以便在包括這個新的變換長度的多個變換長度之間切 換。
[0006] 本發(fā)明目的通過本文所附的獨立權(quán)利要求的主題來實現(xiàn)。
[0007] 本發(fā)明基于發(fā)現(xiàn):當(dāng)以交錯方式且不考慮針對實際使用變換長度的幀信號作用信 號化來傳輸各個幀的頻域系數(shù),以及當(dāng)獨立于信號作用額外地進行頻域系數(shù)提取以及比例 因子提取時,頻域音頻編解碼器可具有向后兼容并額外支持特定變換長度的能力。通過這 個措施,老式且對信號作用不敏感的頻域音頻編碼器/解碼器仍可無錯誤操作并重現(xiàn)合理 的質(zhì)量。同時,響應(yīng)至/從額外支持的變換長度的切換的頻域音頻編碼器/解碼器達到甚至 更好的質(zhì)量且向后兼容??紤]到以對于較舊的解碼器明顯的方式對頻域系數(shù)進行編碼造成 的編碼效率損失,由于使用交錯方式,編碼效率損失具有相對較小的性質(zhì)。
[0008] 本申請的有利實現(xiàn)方式為從屬權(quán)利要求的主題。
【附圖說明】
[0009] 特別地,下面結(jié)合附圖描述本申請的優(yōu)選實施例,其中:
[0010]圖1顯示根據(jù)實施例的頻域音頻解碼器的示意框圖;
[0011]圖2顯示說明圖1的逆變換器的功能的示意圖;
[0012] 圖3顯示根據(jù)實施例的圖2的逆TNS濾波過程朝上游方向的可能位移的示意圖;
[0013] 圖4顯示根據(jù)實施例的當(dāng)針對USAC中的長停止-開始窗口使用變換分離時選擇窗 口的可能性;以及
[0014] 圖5顯示根據(jù)實施例的頻域音頻編碼器的框圖。
【具體實施方式】
[0015] 圖1顯示根據(jù)本申請的實施例的支持變換長度切換的頻域音頻解碼器。圖1的頻域 音頻解碼器通常使用附圖標(biāo)記10指示,包括頻域系數(shù)提取器12、比例因子提取器14、逆變換 器16以及組合器18。在其輸入端,頻域系數(shù)提取器12以及比例因子提取器14可以訪問入站 (inbound)數(shù)據(jù)流20。頻域系數(shù)提取器12以及比例因子提取器14的輸出端連接至逆變換器 16的各個輸入端。逆變換器16的輸出端連接至組合器18的輸入端。組合器18在編碼器10的 輸出端22處輸出重建音頻信號。
[0016] 頻域系數(shù)提取器12用于從數(shù)據(jù)流20提取出音頻信號的幀26的頻域系數(shù)24。頻域系 數(shù)24可以為MDCT系數(shù)或者可屬于一些其他變換,例如另一重疊變換。在以下描述的方式中, 屬于特定幀26的頻域系數(shù)24以變化的頻譜時間分辨率描述各個幀26內(nèi)的音頻信號的頻譜。 幀26表示以時間將音頻信號劃分成的時間部分。所有幀的所有頻域系數(shù)24放在一起,表示 音頻信號的頻譜圖28。例如,幀26可為相等的長度。由于音頻信號的音頻內(nèi)容的種類隨時間 而改變,不利于通過使用,例如具有固定變換長度(例如,跨越每個幀26的時間長度,即包含 音頻信號的幀26內(nèi)的采樣值以及先前與隨后各個幀的時域采樣)的變換,以連續(xù)頻譜時間 分辨率描述用于每個幀26的頻譜。例如,預(yù)回聲偽跡可以由以頻域系數(shù)24的形式有損傳送 各個幀的頻譜而造成。因此,在以下概述的方式中,通過在不同變換長度之間切換,各個幀 26的頻域系數(shù)24以可切換頻譜時間分辨率描述這個幀26內(nèi)的音頻信號的頻譜。然而,就考 慮頻域系數(shù)提取器12而言,后一種情況對于頻率系數(shù)提取器12是顯然的。頻域系數(shù)提取器 12獨立于信號化上述的針對幀26的不同頻譜時間分辨率之間的切換的任何信號作用而操 作。
[0017] 為了從數(shù)據(jù)流20提取出頻域系數(shù)24,頻域系數(shù)提取器12可使用熵編碼。例如,頻域 系數(shù)提取器可使用基于上下文的熵解碼,例如可變上下文算術(shù)解碼,以從數(shù)據(jù)流20提取出 頻域系數(shù)24,其中給每個頻域系數(shù)24分配相同的上下文,不管上述的信號化各個頻域系數(shù) 所屬的幀26的頻譜時間分辨率的信號作用??蛇x地,作為第二示例,提取器12可使用哈夫曼 (Huffman)解碼以及不考慮規(guī)定幀26的分辨率的信號用下定義一組哈夫曼碼字。
[0018] 針對頻域系數(shù)24描述頻譜圖28的方式,存在不同可能性。例如,頻域系數(shù)24可僅代 表一些預(yù)測殘差。例如,頻域系數(shù)可至少部分地代表預(yù)測的剩余,其至少部分地已經(jīng)由立體 聲預(yù)測從信號頻譜圖28所屬的多聲道音頻信號外的代表對應(yīng)的音頻聲道或者降混的另一 音頻信號來獲得??蛇x地,或者除了預(yù)測殘差之外,根據(jù)Μ/S立體聲模式[5],頻域系數(shù)24可 代表總和(中間)信號或是差值(邊)信號。進一步,頻域系數(shù)24可已經(jīng)受到時域噪聲整形。 [0019]除此之外,頻域系數(shù)12被量化,并且為了保持量化誤差低于心理聽覺檢測(或遮 蔽)閾值,例如,以由與頻域系數(shù)24相關(guān)聯(lián)的各個比例因子所控制的方式,頻譜地變化量化 步驟大小。比例因子提取器14負(fù)責(zé)從數(shù)據(jù)流20提取比例因子。
[0020]以下簡略地詳細說明在幀與幀之間的不同頻譜時間分辨率之間的切換,注意以 下。如以下詳細描述,不同頻譜時間分辨率之間的切換指示在特定的幀26內(nèi),所有的頻域系 數(shù)24屬于一個變換,或者各個幀26的頻域系數(shù)24實際上屬于不同變換,例如兩個變換,其變 換長度是上述的一個變換的變換長度的一半。下文中參考附圖描述的實施例假設(shè)一方面的 一個變換以及另一方面的兩個變換之間的切換,但實際上,一個變換以及兩個以上的變換 之間的切換是原則上可行的,同樣地,下面給出的實施例能輕易地轉(zhuǎn)移至這種可選實施例。 [0021]圖1使用陰影說明示意實例,其中當(dāng)前幀為通過兩個短變換表示的類型,其中一個 已經(jīng)使用當(dāng)前幀26的后半部所導(dǎo)出,而另一個已經(jīng)通過變換音頻信號的當(dāng)前幀26的前半部 所獲得。由于縮短的變換長度,在使用兩個短變換的情形中,頻域系數(shù)24以其描述幀26的頻 譜的頻譜分辨率被減小,即減半,而時間分辨率增加,即加倍。例如,在圖1中,以陰影顯示的 頻域系數(shù)24應(yīng)屬于領(lǐng)先變換,而非陰影顯示的應(yīng)屬于落后變換。如此,頻譜共置的頻域系數(shù) 24描述幀26內(nèi)的音頻信號的相同頻譜分量,但是在稍微不同的時間點,即在變換分離幀的 兩個連續(xù)的變換窗口。
[0022]在數(shù)據(jù)流20中,以交錯方式傳送頻域系數(shù)24,使得兩個不同變換的頻譜上對應(yīng)的 頻域系數(shù)彼此立即接續(xù)。換句話說,傳送分離變換幀(即,用于其的變換分離被信號化在數(shù) 據(jù)流20中的幀26)的頻域系數(shù)24,使得如果從頻域系數(shù)取器12所接收的頻域系數(shù)24是順序 地排序,如同其為長變換的頻域系數(shù),那么它們被以交錯的方式按這個順序布置使得頻譜 共置頻域系數(shù)2位即彼此鄰接,而且成對的頻譜共置頻域系數(shù)24是根據(jù)頻譜/頻率順序而 排序。有趣的是,以這種方式排序下,交錯的頻域系數(shù)24的順序看起來相似于由一個長變換 獲得的頻域系數(shù)24的順序。再次,就考慮頻域系數(shù)提取器12而言,以幀為單元的不同變換長 度或頻譜時間分辨率之間的切換對于頻域系數(shù)提取器12是顯然的,因此,用于以上下文自 適應(yīng)的方式對頻域系數(shù)24進行熵編碼的上下文選擇導(dǎo)致相同的上下文被選擇,不管當(dāng)前幀 實際上為長變換幀或者當(dāng)前幀為分離變換類型而提取器12不知道關(guān)于其的信息。例如,頻 域系數(shù)提取器12可根據(jù)頻譜時間鄰居(這個頻譜時間鄰居在圖1中以交錯狀態(tài)定義)中已經(jīng) 編碼/解碼的頻域系數(shù),選擇應(yīng)用于特定的頻域系數(shù)的上下文。這具有下列的結(jié)果。設(shè)想,當(dāng) 前編碼/解碼的頻域系數(shù)24是圖1中使用斜線表示的領(lǐng)先變換的一部分。那么,頻譜上緊鄰 的頻域系數(shù)實際上為相同領(lǐng)先變換(即圖1中陰影區(qū)域)的頻域系數(shù)24。雖然如此,然而,頻 域系數(shù)提取器12針對上下文選擇使用屬于落后變換的頻域系數(shù),即頻譜上相鄰的(根據(jù)縮 短變換的減少頻譜分辨率),假設(shè)后者是當(dāng)前頻域系數(shù)24的一個長變換的緊鄰頻譜鄰居。同 樣地,在選擇用于落后變換的頻域系數(shù)24的上下文時,頻域系數(shù)提取器12使用屬于領(lǐng)先變 換的頻域系數(shù)24作為緊鄰頻譜鄰居,而實際上與這個系數(shù)頻譜上共置。特別的是,當(dāng)前幀26 的系數(shù)24之間定義的解碼順序,例如,從最低頻率到最高頻率。當(dāng)頻域系數(shù)24被解交錯排序 時,在頻域系數(shù)提取器12用于以立即連續(xù)的頻域系數(shù)24的群/元組熵解碼當(dāng)前幀26的頻域 系數(shù)24的情形中,相似觀察是有效的。代替使用僅屬于相同短變換的頻譜上相鄰的頻域系 數(shù)24的元組,頻域系數(shù)提取器12將基于屬于不同變換的頻域系數(shù)24的混合的頻譜上相鄰元 組,針對屬于不同短變換的頻域系數(shù)24的混合的特定元組選擇上下文。
[0023] 由于上述的事實,在交錯狀態(tài)中,由兩個短變換獲得的頻譜結(jié)果看起來非常相似 于由一個長變換獲得的頻譜。因頻域系數(shù)提取器12關(guān)于變換長度切換進行的不可知論的操 作而導(dǎo)致的熵編碼損失是低的。
[0024] 繼續(xù)描述解碼器10的比例因子提取器14,如上所述,比例因子提取器14負(fù)責(zé)從數(shù) 據(jù)流20提取頻域系數(shù)24的比例因子。比例因子以其被分配給頻域系數(shù)24的頻譜分辨率比長 變換所支持的相對細微的頻譜分辨率粗糙。如大括號30所示,頻域系數(shù)24可被分群成多個 比例因子帶??筛鶕?jù)心理聽覺思維來選擇比例因子帶的細分,例如,與所謂的Bark(或臨界) 帶相一致。如同比例因子提取器14以及頻域系數(shù)提取器12無關(guān)變換長度切換,正如頻域系 數(shù)提取器12-樣,比例因子提取器14假設(shè)每個幀26被細分成相等的多個比例因子帶30(不 考慮變換長度切換信號作用),并為每個比例因子帶30提取比例因子32。在編碼器側(cè),在非 解交錯狀態(tài)下完成頻域系數(shù)24對比例因子帶30的歸屬,如圖1所示。結(jié)果,就關(guān)于對應(yīng)于分 離變換的幀26而言,每個比例因子32屬于領(lǐng)先變換的頻域系數(shù)24以及落后變換的頻域系數(shù) 24所組成的群組。
[0025]逆變換器16用于接收每個幀26對應(yīng)的頻域系數(shù)24以及對應(yīng)的比例因子32,并將根 據(jù)比例因子32縮放的幀26的頻域系數(shù)24進行逆變換以獲得音頻信號的時域部