專利名稱:對音頻信號的時間伸縮改進變換編碼的制作方法
技術領域:
本發(fā)明涉及音頻源編碼系統(tǒng),特別涉及使用基于塊的變換的音頻編碼方案。
背景技術:
本領域內(nèi)公知用于對音頻和視頻內(nèi)容進行編碼的若干方式。當然,通 常目的是以比特節(jié)省的方式對內(nèi)容進行編碼,且不降低信號的重建質(zhì)量。
最近,開發(fā)出對音頻和視頻內(nèi)容進行編碼的新方法,其中基于變換的 感知音頻編碼實現(xiàn)了對于靜止信號的最大編碼增益,即當變換大小較大時
可應用(譬如,見T. Painter禾卩A. Spanias: "Perceptual coding of digital audio", Proceedings of the IEEE, Vol. 88, No. 4, April 2000, pages 451-513)。音頻的
靜止部分經(jīng)常由固定的有限個靜止正弦曲線來充分模擬。 一旦變換大小足 夠大而能夠分解這些分量,對于給定的失真目標就需要固定數(shù)量的比特。 通過進一步增大變換大小,可描述音頻信號的越來越大的分段,且不增加 比特需求。然而對于非靜止信號,必須減小變換大小,因此編碼增益會很 快下降。為了克服此問題,對于急劇的變化和瞬時事件,可應用變換大小 開關,且不顯著提高平均編碼成本。即,當檢測到瞬時事件時,將要一起 進行編碼的樣本的塊大小(幀大小)減小。對于持久瞬時信號,比特率自 然會極大地增加。
用于持久瞬時行為的特別令人感興趣的示例是局部諧波信號的基音 (pitch)變化,這主要在語音和歌唱的聲部中會遇到,但也可能源自某些 樂器的顫音和滑奏。關于諧波信號,即具有沿時間軸等間隔分布的信號峰 值的信號,術語基音描述信號的相鄰峰值之間的時間的倒數(shù)。所以這種信 號具有理想的諧波譜,其由與所述基音相等的基頻和更高階諧波組成。在 更一般的情況下,基音可定義為局部諧波信號內(nèi)的兩個相鄰的對應信號部 分之間的時間的倒數(shù)。然而,如果基音和基頻隨時間變化,如濁音(voicedsound)中的情況,則頻譜會變得越來越復雜,從而編碼效率更差。
與信號基音密切相關的參數(shù)是信號的伸縮(warp)。假定時間/處的信 號具有與;^j相等的基音且此基音值隨時間平滑變化,則時間f處的信號 的伸縮由對數(shù)導數(shù)來定義
對于諧波信號,就多個基音或多個部分基音而言,對伸縮的這種定義 不受諧波分量和系統(tǒng)誤差的特定選擇所影響。伸縮測量對數(shù)域中頻率的變 化。伸縮的自然單位是赫茲[Hz],但在音樂方面,帶有恒定伸縮"(/)=。。的 信號是帶有每秒"。/log2個八度音(octave倍頻程)[oct/s]的掃描速率的掃 描。語音信號表現(xiàn)出至多10 oct/s的伸縮和大約2 oct/s的平均伸縮。
由于變換編碼器的典型幀長度(塊長度)非常大,以至于相關基音變 化在幀內(nèi)顯著,所以這種大小的伸縮或基音變化導致這些編碼器的頻率分 析的不規(guī)則(scrambling)。由于對于所需的恒定比特率,這一點只可通過 增加量化的粗糙度來克服,所以此效應導致量化噪聲的引入,這經(jīng)常被感 知為混響。
用來克服此問題的一種可能的技術是時間伸縮。時間伸縮編碼的概念 可通過設想帶有可變速度的磁帶錄音機來作最佳解釋。當記錄音頻信號 時,動態(tài)調(diào)節(jié)速度以便實現(xiàn)整個話音分段上恒定的基音。所得到的局部靜 止音頻信號隨所應用的磁帶速度變化一起被編碼。在解碼器中,以相反的 速度變化來執(zhí)行重放。然而,應用以上描述的簡單時間伸縮具有一些顯著 的缺點。首先,絕對磁帶速度以不受控制的方式結(jié)束,導致違反整個被編 碼信號的持續(xù)時間和帶寬限制。對于重建,必須發(fā)送關于磁帶速度的(或 等效地關于信號基音的)附加輔助信息,這引入了相當大的比特率開銷, 尤其在低比特率情況下。
用來克服時間伸縮信號的不可控制持續(xù)時間這個問題的現(xiàn)有方法的 一般途徑是通過時間伸縮獨立地對信號的連續(xù)非重疊分段(即各個幀)進 行處理,以便每分段的持續(xù)時間都被保留。譬如在Yang et. al. "Pitch synchronous modulated lapped transform of the linear prediction residual of speech", Proceedings of ICSP ,98, pages 591-594中描述了這個方法。這種處
理的巨大優(yōu)勢是雖然所處理信號在分段內(nèi)是靜止的,但基音會在每個分 段邊界表現(xiàn)出跳躍。這些跳躍會明顯地導致后續(xù)音頻編碼器的編碼效率的 損失,并在解碼信號中引入可聽到的不連續(xù)。
時間伸縮也在若干其他編碼方案中實現(xiàn)。譬如,美國專利
US-2002/0120445描述了一種方案,其中,在基于塊的變換編碼之前,對 信號分段的持續(xù)時間進行細微修改。這將避免在塊的邊界處的大信號分 量,接受在單個分段的持續(xù)時間中有細微變化。
在美國專利US6,169,970中描述了利用時間伸縮的另一項技術,其中 應用時間伸縮以提高語音編碼器的長期預測器的性能。同樣,在美國專利 US 2005/0131681中,描述了一種用于對語音信號進行CELP編碼的預處 理單元,其在非重疊區(qū)間之間施加分段線性伸縮,所述非重疊區(qū)間每個都 包含一個白化(whitened)基音脈沖。最后,在(R. J. Sluijter and A. J. E. M. Janssen, "A time warper for speech signals" IEEE workshop on Speech Coding,99, June 1999, pages 150-152)中描述了如何通過將二次時間伸縮函 數(shù)應用到語音幀來改進語音基音估計。
綜上所述,現(xiàn)有技術的伸縮技術都存在以下問題在幀邊界引入了不 連續(xù)以及需要大量的附加比特率以用于傳輸描述信號的基音變化的參數(shù)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種梗用時間伸縮對音頻信號進行更有效編碼 的概念。
根據(jù)本發(fā)明的第一個方面,此目的由一種用于推導音頻信號表示的編 碼器來實現(xiàn),所述音頻信號具有第一幀、跟在第一幀之后的第二幀和跟在
第二幀之后的第三幀,所述編碼器包括伸縮估計器,用于估計第一和第 二幀的第一伸縮信息以及用于估計第二幀和第三幀的第二伸縮信息,所述
伸縮信息描述音頻信號的基音;頻譜分析器,使用第一伸縮信息來推導第
一和第二幀的第一頻譜系數(shù)以及使用第二伸縮信息來推導第二和第三幀
的第二頻譜系數(shù);以及輸出接口,用于輸出包含第一和第二頻譜系數(shù)的音 頻信號的表示。
根據(jù)本發(fā)明的第二個方面,此目的由一種解碼器實現(xiàn),該解碼器使用
第一伸縮信息、第二伸縮信息、第一頻譜系數(shù)和第二頻譜系數(shù)來重建音頻 信號,所述音頻信號具有第一幀、跟在第一幀之后的第二幀和跟在第二幀 之后的第三幀,所述第一伸縮信息描述第一和第二幀的音頻信號的基音, 所述第二伸縮信息描述第二和第三幀的音頻信號的基音,所述第一頻譜系 數(shù)針對第一和第二幀,所述第二頻譜系數(shù)針對第二和第三幀,所述解碼器 包括譜值處理器,使用第一頻譜系數(shù)和第一伸縮信息來推導第一組合幀, 所述第一組合幀具有關于第一和第二幀的信息,使用第二頻譜系數(shù)和第二 伸縮信息來推導第二組合幀,所述第二組合幀具有關于第二和第三幀的信 息;以及合成器,使用第一組合幀和第二組合幀來重建第二幀。
根據(jù)本發(fā)明的第三個方面,此目的由一種推導音頻信號表示的方法來 實現(xiàn),所述音頻信號具有第一幀、跟在第一幀之后的第二幀和跟在第二幀 之后的第三幀,所述方法包括估計針對第一和第二幀的第一伸縮信息以 及估計針對第二和第三幀的第二伸縮信息,所述伸縮信息描述音頻信號的 基音;使用第一伸縮信息來推導針對第一和第二幀的第一頻譜系數(shù)以及使
用第二伸縮信息來推導針對第二和第三幀的第二頻譜系數(shù);以及輸出包含
第一和第二頻譜系數(shù)的音頻信號表示。
根據(jù)本發(fā)明的第四個方面,此目的由一種方法實現(xiàn),該方法使用第一 伸縮信息、第二伸縮信息、第一頻譜系數(shù)和第二頻譜系數(shù)來重建音頻信號, 所述音頻信號具有第一幀、跟在第一幀之后的第二幀和跟在第二幀之后的 第三幀,所述第一伸縮信息描述針對第一和第二幀的音頻信號的基音,所 述第二伸縮信息描述針對第二和第三幀的音頻信號的基音,所述第一頻譜 系數(shù)針對第一和第二幀,所述第二頻譜系數(shù)針對第二和第三幀,所述方法
包括使用第一頻譜系數(shù)和第一伸縮信息來推導第一組合幀,所述第一組
合幀具有關于第一和第二幀的信息;以及使用第二頻譜系數(shù)和第二伸縮信 息來推導第二組合幀,所述第二組合幀具有關于第二和第三幀的信息;以 及使用第一組合幀和第二組合幀來重建第二幀。
根據(jù)本發(fā)明的第五個方面,此目的由一種音頻信號表示來實現(xiàn),所述 音頻信號具有第一幀、跟在第一幀之后的第二幀和跟在第二幀之后的第三
幀,所述表示包括針對第一和第二幀的第一頻譜系數(shù),所述第一頻譜系 數(shù)描述第一和第二幀的伸縮表示的頻譜構成;以及描述第二和第三幀的伸 縮表示的頻譜構成的第二頻譜系數(shù)。
根據(jù)本發(fā)明的第六個方面,此目的由一種具有程序代碼的計算機程序 來實現(xiàn),所述程序代碼用于當運行在計算機上時實現(xiàn)任意以上方法。
本發(fā)明基于以下發(fā)現(xiàn)當對于任何兩個相鄰幀估計出共同時間伸縮 時,可更有效地推導出具有連續(xù)音頻幀的音頻信號的頻譜表示,因此后面 的塊變換也可使用伸縮信息。
因此,由于已經(jīng)預計到由時間伸縮會引起對信號的重新采樣,可導出 并應用在重建過程中成功應用重疊和相加過程所需的窗口函數(shù)。所以,可 以使用效率提高的對時間伸縮信號的基于塊的變換編碼,且不會引入可聽 見的不連續(xù)。
因而,本發(fā)明提出一種對現(xiàn)有技術的問題的引人注意的解決方案。一 方面,與音頻信號分段有關的問題由特定的重疊和相加技術來克服,所述
技術將時間伸縮運算與窗口運算結(jié)合起來并引入塊變換的時間偏移量。所 產(chǎn)生的連續(xù)時間變換具有理想的重建能力,它們的離散時間變換只受到重 建過程中解碼器所應用的重新采樣技術的質(zhì)量的限制。此性質(zhì)導致所產(chǎn)生 的音頻編碼方案具有高比特率收斂性。理論上,通過降低量化的粗糙度, 即通過提高傳輸比特率,可以實現(xiàn)信號的無損傳輸。譬如,這不能利用純 參數(shù)編碼方法來實現(xiàn)。
本發(fā)明的又一個優(yōu)勢是極大地降低了對需要發(fā)送以反轉(zhuǎn)時間伸縮的 附加信息的比特率需求。這可通過發(fā)送伸縮參數(shù)輔助信息而不是基音輔助 信息來實現(xiàn)。它具有另一個優(yōu)勢相對于許多基于基音參數(shù)的音頻編碼方 法對正確基音檢測的嚴重依賴性,本發(fā)明只表現(xiàn)出輕度的參數(shù)依賴性。這 是因為基音參數(shù)的發(fā)送需要對局部諧波信號的基頻進行檢測,而這并不總 是簡單易行的。本發(fā)明的方案因此非常魯棒,因為很明顯,在給定以上伸 縮參數(shù)的定義的情況下,對更高諧波進行的檢測并不會篡改待發(fā)送的伸縮 參數(shù)。
在本發(fā)明的一個實施例中,應用編碼方案以對設置在連續(xù)幀中的音頻 信號進行編碼,特別是彼此緊接的第一、第二、第三幀。關于第二幀的信 號的全部信息由第一和第二幀的組合的頻譜表示、針對第一和第二幀的伸 縮參數(shù)序列、以及針對第二和第三幀的組合的頻譜表示和針對第二和第三
12
幀的伸縮參數(shù)序列來提供。使用本發(fā)明的時間伸縮概念可以對信號進行重 疊和相加重建,而不必在幀邊界處引入快速基音變化,并且不會引入附加 的可聽見的不連續(xù)。
在本發(fā)明的又一個實施例中,使用公知的基音跟蹤算法來導出伸縮參 數(shù)序列,使得可以使用這些公知算法,并因而在現(xiàn)有的編碼方案中簡單實 現(xiàn)本發(fā)明。
在本發(fā)明的又一個實施例中,實現(xiàn)伸縮,以便當音頻信號如伸縮系數(shù) 所指示的那樣形成時間伸縮時,幀內(nèi)的音頻信號的基音會盡可能恒定。
在本發(fā)明的又一個實施例中,當選擇伸縮參數(shù)序列以便頻譜系數(shù)的編 碼表示的大小最小化時,在編碼過程中以更高計算復雜性為代價甚至可進 一步降低比特率。
在本發(fā)明的又一個實施例中,本發(fā)明的編碼和解碼分解為對窗口函數(shù) 的應用(加窗)、重新采樣和塊變換。所述分解具有巨大的優(yōu)勢尤其對 于所述變換而言,現(xiàn)有的軟件和硬件實施方式可用于有效地實現(xiàn)本發(fā)明的 編碼概念。在解碼器端,引入重疊和相加的又一個獨立步驟以用于重建信 號。
在本發(fā)明解碼器的可替換實施例中,在變換到時域之前,將額外的頻 譜權重施加于信號的頻譜系數(shù)。這么做具有如下優(yōu)勢,即進一步降低了解 碼器端的計算復雜性,因為可降低信號的重新采樣的計算復雜性。
術語"基音(pitch)"應以一般意義進行解釋。此術語也涵蓋基音變化 (pitch variation)以及涉及伸縮信息的位置。在某種情況中,伸縮信息不提 出絕對基音,而提出相對或歸一化基音信息。所以在給定伸縮信息的情況 下,當接收得到正確基音曲線形狀但沒有在y軸上的值時,可得到對信號 基音的描述。
通過參照附圖,隨后續(xù)描述本發(fā)明的優(yōu)選實施例,其中
圖1 示出了本發(fā)明的伸縮映射的示例; 圖2-2b 示出了本發(fā)明的伸縮有關窗口的應用; 圖3a,3b示出了本發(fā)明的重新采樣的示例;
圖4a,4b示出了在解碼器端本發(fā)明信號合成的示例;
圖5a, 5b示出了在解碼器端本發(fā)明加窗的示例;
圖6a,6b示出了在解碼器端本發(fā)明時間伸縮的示例;
圖7 示出了在解碼器端本發(fā)明重疊和相加過程的示例;
圖8 示出了本發(fā)明音頻編碼器的示例;
圖9 示出了本發(fā)明音頻解碼器的示例;
圖10 示出了本發(fā)明解碼器的又一個示例;
圖11 示出了本發(fā)明概念的后向兼容實施方式的示例;
圖12 示出了本發(fā)明編碼的實施方式的框圖13 示出了本發(fā)明解碼的示例的框圖14 示出了本發(fā)明解碼的又一個實施例的框圖15a, 15b示出了實現(xiàn)本發(fā)明概念的可實現(xiàn)編碼效率的圖解說明。
具體實施例方式
以下描述的實施例僅用于說明本發(fā)明的針對音頻信號的時間伸縮變 換編碼的原理。需要理解,這里描述的布置和細節(jié)的修改和變化對于本領 域技術人員而言是顯而易見的。所以,本發(fā)明僅由所附權利要求的范圍所 限制,而不被通過這里對實施例的描述和解釋所呈現(xiàn)的具體細節(jié)所限制。
在下文中,簡要回顧伸縮和塊變換的基本思想和概念,以促進對本概 念的理解,這將在以下參考附圖更詳細地進行討論。
一般地,時間伸縮變換的細節(jié)最容易在連續(xù)時間信號域中推導出。以 下段落描述一般理論,并將在隨后對該理論進行特別說明并轉(zhuǎn)化為對離散 時間信號的本發(fā)明應用。此轉(zhuǎn)化中的主要步驟是用離散時間信號的非均勻 重新采樣替換對連續(xù)時間信號執(zhí)行的坐標變化,保留平均釆樣密度,即不 改變音頻信號的持續(xù)時間。
令^ = ^,)描述時間坐標的變化,其由連續(xù)可微嚴格遞增函數(shù)W將^軸 區(qū)間/映射到s軸區(qū)間/上。
所以y(/)是可用于對時間有關量值的時間軸進行變換的函數(shù),這等效 于離散時間情況下的重新采樣。應該注意,在以下討論中,t軸區(qū)間I是 正常時域中的區(qū)間,x軸區(qū)間J是伸縮時域中的區(qū)間。
給定區(qū)間/上的有限能量信號的標準正交基fe卜可根據(jù)以下法則來
得到區(qū)間/上的有限能量信號的標準正交基KJ
(1)
給定無限時間區(qū)間/,時間伸縮的局部說明可通過對I分段并構造^來 實現(xiàn),構造^是將歸一化伸縮映射的縮放片段粘合起來。
歸一化伸縮映射("o/7^feedw^/7W"; )是連續(xù)可微嚴格遞增函數(shù), 其將單位區(qū)間
映射到自身。從分段點 4 (々+1>《)的序列和歸一化伸
縮映射n的對應序列開始,可構造
,w 、
:~~^ +、^ (2)
'fc+l — " 乂
其中調(diào)節(jié)《=&+1-^和序列《以便"0變?yōu)檫B續(xù)可微。這就根據(jù)婦一化伸縮 映射^的序列以及類型^^)+S的縮放的仿射(affine)變化定義了",)。
令k」為區(qū)間 /上的有限能量信號的標準正交基,適配于所述分段 &=V^),以便當"^或"^+&時、(》=0,其中整數(shù)尺是重疊因子。
本發(fā)明關注于K》2的情況,因為尺=1的情況與無重疊的現(xiàn)有技術的 方法相對應。應該注意,對于尺23,并不是很多構造目前公知。以下針對 尺=2的情況詳述本發(fā)明概念的特定示例,所述特定示例包括局部三角基, 所述局部三角基同樣用于改進離散余弦變換(MDCT)和其他離散時間重疊變換。
在存在整數(shù)p的情況下,令來自所述分段的h.j的構造是局部的,以 便對于/ < 或/ 〉 A+K+j9,、》)不取決于& 。最后,令所述構造使得對 于A + S的分段的仿射變化引起對于,2vM(G-5)A4)的基的變化。貝U
(3)
是區(qū)間/上的有限能量信號的時間伸縮標準正交基,其由分段點^和歸一 化伸縮映射^序列充分限定,且與(2)中的參數(shù)序列&和《的初始化無關。 由于當"^或"時有"M(0= 0 ,所以所述標準正交基適配于給定分段, 由于 ^)既不取決于6 (/<&卞或/〉^:+^+^),又不取決于歸一化伸縮映 射W (/<^-/7或/^^+尺+;;),所以所述標準正交基是局部定義的。
由于雅可比因子(一(Or,合成波形(3)是連續(xù)的但不必須是可微的。由 于這個緣故,為了在離散時間情況下減少計算負荷,也可構造導出的雙正3C
系統(tǒng)。假定有常:
:0<0<^使得
(4)
序列74>0。那么
定義了用于區(qū)間/上有限能量信號空間的Riesz基的雙正交對。
因此,力,"(0以及&,"W可用于分析,而使用A,j)作為合成波形并使用 gb(,)作為分析波形是特別有優(yōu)勢的。
基于以上一般考慮,對于均勻分段"=^和重疊因子《=2的情況,本 發(fā)明概念的示例將通過使用適配到所產(chǎn)生的s軸上的分段的局部余弦基在 后續(xù)段落中導出。
應該注意,對處理非均勻分段而言必要的修改是明顯的,以便本發(fā)明 的概念也可應用于這種非均勻分段。對于由M. W. Wickerhauser提出的示 例,"Adapted wavelet analysis from theory to software", A. K. Peters, 1994, Chapter 4,構建局部余弦基的出發(fā)點是上升截止函數(shù)^ ,以使得對于^<-1 有p(r卜0,對于^l有;^)^,并且在作用區(qū)-BW1中,P2(r)+P2(-r) = l。
給定分段^ ,每個區(qū)間& ^ ^&2上的窗口就可以根據(jù)下式來構造
(5)
, 、廣 、
s - q
l & 」k 」
(6)
其中截止中點^=(^+^+,)/2,截止半徑^=(^-^+1)/2。這與Wickerhauser 的中點構造相對應。
在/t = q+1 - q = ^ +』的情況下,標準正交基由下式得到
|2
;r(" + 士)
(7)
其中,頻率索引《=0,1,2-。很容易驗證,此構造遵循以上描述的/ =0的 局部性條件以及仿射不變性。所產(chǎn)生的/軸上的伸縮基(3)可在此情況下以 下式的形式重寫
(,)=&")cos [tt(" + 士)" (") - w)], (8) 對于A^^/t + 2,其中A通過將^與^+,粘合在一起來定義,以在其自身上 形成區(qū)間
的連續(xù)可微映射,
1<formula>formula see original document page 17</formula>^的構造在圖1中示出了,圖l示出了x軸上的歸一化時間和y軸上 的伸縮時間。對于k^O的情況來特別討論圖1,即用于構建^U,)并從而導 出伸縮函數(shù),對于第一幀,從歸一化時間O持續(xù)到歸一化時間1,對于第 二幀,從歸一化時間1持續(xù)到歸一化時間2。進一步假定,當如伸縮函數(shù) 14和16所指示那樣變換時間軸時,第一幀10具有伸縮函數(shù)14并且第二 幀12具有伸縮函數(shù)16,所述伸縮函數(shù)14和16是以在各自幀內(nèi)實現(xiàn)相同 基音這一目的導出的。應該注意,伸縮函數(shù)14對應于w伸縮函數(shù)16對 應于^。根據(jù)方程式9,通過將伸縮映射14與16粘合在一起來構造組合 伸縮函數(shù)A(,) 18,以在其自身上形成區(qū)間
的連續(xù)可微映射。結(jié)果,點 (l,l)變換為(l,a),其中a對應于方程式9中的2^。
由于本發(fā)明的概念涉及在重疊和相加場景中應用時間伸縮,所以在圖 1中也給出了構建幀12和后面的幀20的下一組合伸縮函數(shù)的示例。應該 注意,遵循重疊和相加法則,對于幀12的完全重建,需要伸縮函數(shù)18和 22的有關知識。
應該進一步注意,將兩個獨立導出的伸縮函數(shù)粘合在一起不必然是導 出合適的組合伸縮函數(shù)0的唯一方法。^的(18,22)也完全可以通過直接使合
適的伸縮函數(shù)與兩個連續(xù)幀相符合來導出。優(yōu)選地,在兩個伸縮函數(shù)的定 義域的重疊上具有這兩個伸縮函數(shù)的仿射一致性。
根據(jù)方程式6,方程式8中的窗口函數(shù)由下式定義
<formula>formula see original document page 17</formula>其在區(qū)間
中從1減小到0。
如果有常量(Kd《2,則也可導出(8)式的雙正交形式,以使得對于所 有A有
C<formula>formula see original document page 17</formula>
在(4)式中選擇^ = 4得出專門化的(5)式
<formula>formula see original document page 18</formula>因此,對于連續(xù)時間的情況,導出合成和分析函數(shù)(方程式12),其 依賴于組合伸縮函數(shù)。這種依賴性使得可以在不損失有關原始信號的信息 的情況下在重疊和相加的場景中進行時間伸縮,即可以對信號進行理想重建。
要注意,對于實施目的,在方程式12內(nèi)實現(xiàn)的運算可分解為一系列
連續(xù)的單獨的步驟。這么做的特別引人注意的方式是首先執(zhí)行信號的加 窗,然后對加窗信號進行重新采樣,最后進行變換。
照常地,音頻信號作為以給定采樣頻率進行采樣的離散采樣值被數(shù)字 地存儲和發(fā)送,用于實現(xiàn)本發(fā)明概念的給定示例將在以下被進一步開發(fā)以 用于離散情況中的應用。
可通過對分析積分和合成波形進行離散化,從時間局部余弦基中獲得
時間伸縮改進離散余弦變換(TWMDCT)。以下描述基于雙正交基(見方程
式12)。處理正交情況(8)所需的變化包括雅克比因子VSF可的額外時域 加權。在不應用伸縮的特殊情況下,兩種構造都變?yōu)槠胀∕DCT。令丄為 變換大小,并假定將要分析的信號々)以^r丄(rad/s沐限制帶寬,《<1。這 允許該信號由采樣周期1/丄的采樣來描述。 分析系數(shù)由下式給出
<formula>formula see original document page 18</formula>定義加窗信號部分A(z^x(r +豐^(r》并在積分式(13)中執(zhí)行替換 "n禾口r《(r),從而得出
<formula>formula see original document page 18</formula>
對本發(fā)明所教導的此積分式進行離散化的特別引人注意的方式是選
擇采樣點"。=^+(^ + 1/2)/丄,其中v是整數(shù)值。假定有以上描述的稍微的
伸縮和帶限,則給出近似值<formula>formula see original document page 19</formula>(15)式中的求和區(qū)間由0^<2所限定。它包括^ = 0,1,...,£-1并在每一端 擴展到此區(qū)間之外,以便點的總數(shù)量為2L。注意,由于所述加窗,結(jié)果不 受對邊緣情況的處理所影響,對邊緣情況的處理可在對于某整數(shù)v。有 二(v。+l/2)/Z時出現(xiàn)。
由于公知所述和(方程式15)可通過初等折疊運算后跟IV類DCT 來進行計算,所以合適的做法是將方程式15的運算分解為一系列后續(xù) 運算和變換,以利用己存在的有效硬件和軟件實施方式,特別是離散余弦 變換(DCT)。根據(jù)已離散化的積分式,給定的離散時間信號可被解釋為以 x(t)的采樣周期1/丄為周期的等間距樣本。因此加窗的第一步將得出<formula>formula see original document page 19</formula>。在方程式15所描述的塊變換之前(引入取決于^的額外
偏禾多
:),需要重新采樣,映射為<formula>formula see original document page 19</formula>重新采樣運算可由用于非等間距重新采樣的任何合適的方法來實現(xiàn)。 綜上所述,本發(fā)明的時間伸縮MDCD可分解為加窗運算、重新采樣 和塊變換。
以下將參考圖2至3b來簡要描述各個步驟。圖2至3b示出了時間伸 縮MDCT編碼的步驟,所述時間伸縮MDCT編碼只考慮合成地生成的基 音信號的兩個加窗信號塊。每個幀都包含1024個采樣,因此兩個所考慮 的組合幀24和26 (原始幀30和32以及原始幀32和34)每個都由2048 個采樣組成,因此兩個加窗組合幀具有1024個采樣的重疊。圖2至2b在 x軸上示出了將要處理的3幀的歸一化時間。在時間軸上,第一幀30的范 圍從0到1,第二幀32的范圍從1到2,第三幀的范圍從2到3。因此在
歸一化時域中,每個時間單元對應于具有1024個信號采樣的一個完整的
幀。歸一化分析窗口跨越歸一化時間區(qū)間
和[1,3]。以下考慮的目的是 恢復信號的中間幀32。由于對外部信號幀(30,34)的重建需要來自相鄰加窗 信號分段的數(shù)據(jù),所以不在這里考慮此重建。要注意,圖1中所示的組合 伸縮映射是從圖2的信號導出的伸縮映射,圖2示出了本發(fā)明將三個后續(xù) 歸一化伸縮映射(虛曲線)組合到兩個重疊的伸縮映射(實曲線)。如以 上所解釋的,本發(fā)明的組合伸縮映射18和22被導出用于信號分析。此外, 要注意,由于伸縮的放射不變性,此曲線表示帶有與原始兩個分段中相同 伸縮的伸縮映射。
圖2通過實線圖來示出原始信號。其程式化的脈沖序列具有隨時間線 性變化的基音,因此,考慮到伸縮被定義為基音的對數(shù)導數(shù),所以它具有 正的且遞減的伸縮。在圖2中,使用方程式17推導出的本發(fā)明的分析窗 口作為虛曲線疊加。應該注意,在所述伸縮最大之處,即在第一段
中, 偏離標準對稱窗口 (如在MDCT中)也最大。窗口的數(shù)學定義只通過對 方程式11的窗口進行重新采樣來給出,所實現(xiàn)的重新采樣如方程式17的 右手邊第二個因子所表示。
圖2a和2b說明了本發(fā)明加窗的結(jié)果,即將圖2的窗口應用到各個信 號分段的結(jié)果。
圖3a和3b說明了對圖2a和2b的加窗信號塊所進行的依賴于伸縮參 數(shù)的重新采樣的結(jié)果,所執(zhí)行的重新采樣如圖1的實曲線給出的伸縮映射 所指示。歸一化時間區(qū)間[O,l]映射到伸縮時間區(qū)間[O,a],與對加窗信號塊
的左半部進行的壓縮是等價的。因此,執(zhí)行對加窗信號塊右半部的擴展, 將區(qū)間[l,2]映射到[a,2]。由于伸縮映射是以導出帶有恒定基音的伸縮信號 的目的從信號中進行推導的,所以伸縮(根據(jù)方程式18的重新采樣)的 結(jié)果是具有恒定基音的加窗信號塊。應該注意,伸縮映射與信號之間的失 配將導致在這個點上仍然帶有可變基音的信號塊,這不會擾亂最終的重 建。
以下塊變換的偏移量由圓圈來標記,以便區(qū)間[m,m+l]對應方程式15 中的離散釆樣v-0,l,…,丄-1,其中£=1024。這就等價地意味著塊變換的 調(diào)制波形在m處享有偶對稱,在m+l處享有奇對稱。另外要重點注意的
是,a等于2m以使得m是0與a之間的中點且m+l是a與2之間的中點。 綜上所述,圖3a和3b描述了由方程式18所描述的本發(fā)明重新采樣之后 的情況,該情況當然依賴于伸縮參數(shù)。
圖3a和3b的信號的時間伸縮變換域樣本而后被量化并編碼,并可與 描述歸一化伸縮映射n的伸縮輔助信息一起被發(fā)送到解碼器。由于量化是 公知技術,所以在以下附圖中未對使用特定量化準則的量化進行說明,而 集中于解碼器端上對信號所進行的重建。
在本發(fā)明的一個實施例中,解碼器接收伸縮映射序列與已解碼的時間 伸縮變換域樣本《,其中由于假定信號有帶寬限制,可以假定《2丄時 《 =0。如在編碼器端,用于實現(xiàn)離散時間合成的出發(fā)點是使用方程式12 的合成波形來考慮連續(xù)時間重建
<formula>formula see original document page 21</formula> (19)
其中
且有<formula>formula see original document page 21</formula>(20)
<formula>formula see original document page 21</formula>(21)
方程式(19)是加窗變換合成的通常的重疊和相加過程。如在分析級中, 在點m = ^ + (v + l/2)/L處對方程式(21)進行釆樣是有優(yōu)勢的,引出
<formula>formula see original document page 21</formula>
(22)其通過以下步驟容易計算首先是IV類的DCT,接著根據(jù)準則(^^2, 依賴于偏移量參數(shù)^,以2£對樣本進行擴展。其次,執(zhí)行窗口&(U的加 窗。 一旦找到^0;),重新釆樣
<formula>formula see original document page 21</formula>(23)
在等距采樣點(;7 + l/2)/Z處給出信號分段^,以為方程式(19)中所描述的重 疊和相加運算作準備。
可再次很自由地選擇重新采樣方法,且不必與編碼器中的重新采樣方 法相同。在本發(fā)明的一個實施例中,使用基于樣條內(nèi)插的方法,其中根據(jù) 帶限參數(shù)q的函數(shù)來調(diào)節(jié)樣條函數(shù)的順序,以實現(xiàn)計算復雜性與重建質(zhì)量 之間的折衷。參數(shù)q的常用值是q4/3,在這種情況下二次樣條通常就足 夠了。
以下將通過圖4a至7來說明針對圖3a和3b所示的信號的解碼。應 再次強調(diào),不在這里描述塊變換和對變換參數(shù)的發(fā)送,因為這是公知技術。 作為解碼過程的起點,圖4a和4b示出了一種配置,其中已執(zhí)行了反塊變 換,得到圖4a和4b中所示的信號。反塊變換的一個重要的特性是增加了 圖3a和3b的原始信號中不存在的信號分量,這是由于以上已解釋的合成 函數(shù)的對稱性質(zhì)所導致的。特別地,合成函數(shù)具有關于m的偶對稱性和關 于m+l的奇對稱性。所以,在區(qū)間
中,在反塊變換中增加了正信號分 量,而在區(qū)間[a,2]中,增加了負信號分量。另外,用于合成加窗操作的本 發(fā)明的窗口函數(shù)作為圖4a和4b中的虛曲線疊加。
伸縮時域中的此合成窗口的數(shù)學定義由方程式11給出,圖5a和5b 示出了在應用本發(fā)明的加窗之后仍在伸縮時域中的信號。
圖6a和6b最終示出了對圖5a和5b的信號的依賴于伸縮參數(shù)所進行 的重新采樣的結(jié)果。
最后,圖7示出了重疊和相加運算的結(jié)果,作為信號合成中的最終步 驟。(見方程式19)。重疊和相加運算是圖6a和6b的波形的疊加。如以上 己提到的,僅有的要完全重建的幀是中間幀32,與圖2的原始情況的比較 示出了中間幀32以高保真被重建。精確抵消在反塊變換過程中所引入的 干擾附加信號分量只是可能的,因為本發(fā)明的關鍵性質(zhì)是圖l中的兩個 組合伸縮映射14和22只相差重疊歸一化時間區(qū)間[1,2]內(nèi)的仿射映射。其 結(jié)果就是在伸縮時間分段[a,2]和[l,b]上在信號部分與窗口之間形成對應關 系。當考慮圖4a和4b時,分段[l,b]向[a,2]的線性延伸將使得信號圖表和 半窗口描述了標準MDCT的時域混淆抵消的眾所周知的原理。已進行混 淆抵消的信號而后可通過一般反伸縮映射簡單映射到歸一化時間區(qū)間[1,2] 上。
要注意,根據(jù)本發(fā)明的又一個實施例,可通過在頻域中應用預濾波步
驟來實現(xiàn)計算復雜性的額外減小。這可通過對已發(fā)送采樣值《,"進行簡單
預加權來實現(xiàn)。譬如在M. Unser, A. Aldroubi和M. Eden, "B-spline signal processing part II-efficient design and applications"中描述了這禾中預濾波。實 施方式需要在加窗操作之前向反塊變換的輸出應用B樣條重新釆樣。在此 實施例內(nèi),所述重新采樣作用于由修改了《 的方程式22所推導的信號上。 同樣不執(zhí)行窗口函數(shù)&(A;)的施加。所以,在信號分段的每一端,所述重新 采樣必須照顧到與由塊變換的選擇所引起的周期性和對稱性方面有關的 邊緣條件。在所述重新采樣之后使用窗口 &4^(07 + 1/2)/£》來執(zhí)行所需的加 窗。
綜上所述,根據(jù)本發(fā)明解碼器的第一實施例,反時間伸縮MDCT包 括分解的以下單獨步驟 反變換 *加窗 重新采樣 *重疊和相加
根據(jù)本發(fā)明的第二實施例,反時間伸縮MDCT包括 *頻譜加權 反變換 重新采樣 *加窗 *重疊和相加
要注意,在不應用伸縮的情況下,即所有歸一化伸縮映射都無關緊要 (trivia)的情況下,(^(/)-0,以上詳述的本發(fā)明的實施例與通常的MDCT 精確吻合。
現(xiàn)將參照圖8至15來描述包括以上所提到的特性的本發(fā)明的其它實 施例。
圖8示出了本發(fā)明的音頻編碼器的示例,所述音頻編碼器用于接收數(shù) 字音頻信號100作為輸入,并生成要發(fā)送到解碼器的比特流,所述解碼器 包括本發(fā)明的時間伸縮變換編碼概念。數(shù)字音頻輸入信號ioo可以是自然
音頻信號或預處理音頻信號,其中譬如所述預處理可以是用于對輸入信號 頻譜進行白化的白化操作。本發(fā)明的編碼器包括伸縮參數(shù)提取器101、伸
縮變換器102、感知模型計算器103、伸縮編碼器104、編碼器105和多路 復用器106。所述伸縮參數(shù)提取器101估計出伸縮參數(shù)序列,其輸入到所 述伸縮變換器102并輸入到所述伸縮編碼器104。所述伸縮變換器102推 導出數(shù)字音頻輸入信號100的時間伸縮頻譜表示。所述時間伸縮頻譜表示 被輸入到所述編碼器105,以用于量化及可能的其他編碼,譬如差分編碼。 所述編碼器105還被所述感知模型計算器103控制。譬如,當將要編碼的 信號分量主要由其他信號分量所遮蓋時,量化的粗糙度可增大。所述伸縮 編碼器104對所述伸縮參數(shù)序列進行編碼,以減小在發(fā)送的過程中其在比 特流內(nèi)的大小。這可包含譬如參數(shù)的量化,或譬如差分編碼或熵編碼技術 以及算術編碼方案。
所述多路復用器106從所述伸縮編碼器104接收已編碼伸縮參數(shù)序列 并接收所述數(shù)字音頻輸入信號IOO的已編碼時間伸縮頻譜表示,以將兩個 數(shù)據(jù)復用成為編碼器的比特流輸出。
圖9說明了時間伸縮變換解碼器的示例,所述解碼器接收兼容比特流 200以用于推導重建音頻信號作為輸出。所述解碼器包括多路信號分離器 201、伸縮解碼器202、解碼器203和反伸縮變換器204。所述多路信號分 離器將比特流分離成為已編碼伸縮參數(shù)序列,該序列被輸入到所述伸縮解 碼器202。所述多路信號分離器進一步分離音頻信號的時間伸縮頻譜表示 的已編碼表示,該表示被輸入到所述解碼器203,所述編碼器203與圖8 的音頻編碼器的對應編碼器105相反。伸縮解碼器202推導出對伸縮參數(shù) 序列的重建,解碼器203推導出原始音頻信號的時間伸縮頻譜表示。伸縮 參數(shù)序列的表示以及時間伸縮頻譜表示都被輸入到所述反伸縮變換器 204,所述反伸縮變換器204推導出數(shù)字音頻輸出信號,所述數(shù)字音頻輸
出信號用于實現(xiàn)音頻信號的時間伸縮重疊變換編碼這一本發(fā)明概念。
圖IO示出了時間伸縮變換解碼器的又一個實施例,其中在解碼器自 身中推導出伸縮參數(shù)序列。圖10中所示的可替換實施例包括解碼器203、
伸縮估計器301和反伸縮變換器204。解碼器203和反伸縮變換器204享 有與前述實施例的對應設備相同的功能,所以不同實施例內(nèi)的這些設備的 描述完全可互換。伸縮估計器301通過將較早的頻域基音估計與當前的頻 域基音估計組合來推導出由解碼器203輸出的時間伸縮頻譜表示的實際伸 縮。因此,隱式地表示了伸縮參數(shù)序列,這具有如下巨大優(yōu)勢由于不必 在輸入到解碼器的比特流中發(fā)送額外的伸縮參數(shù)信息,所以可進一步節(jié)省 比特率。然而,伸縮數(shù)據(jù)的隱式表示受到該變換的時間分辨率所限制。
圖11說明了當使用不能利用本發(fā)明時間伸縮解碼概念的現(xiàn)有技術解 碼器時本發(fā)明概念的后向兼容性。這種解碼器會忽略額外的伸縮參數(shù)信 息,因此將比特流解碼為饋入反變換器401的頻域信號,不實現(xiàn)任何伸縮。 由于由本發(fā)明編碼器中的時間伸縮變換所執(zhí)行的頻率分析與不包括任何 時間伸縮的變換完全匹配,所以忽略伸縮數(shù)據(jù)的解碼器仍會生成有意義的 音頻輸出。這樣做是以由于在現(xiàn)有技術解碼器內(nèi)不對時間伸縮進行反變換 所引起的音頻質(zhì)量下降為代價的。
圖12示出了時間伸縮變換這一本發(fā)明方法的框圖。本發(fā)明的時間伸 縮變換包括加窗501、重新采樣502和塊變換503。首先,利用依賴于伸 縮參數(shù)序列的重疊窗口序列來對輸入信號加窗,所述伸縮參數(shù)序列作為各 編碼步驟501至503中每個的額外輸入。每個已加窗輸入信號分段隨后在 所述重新釆樣步驟502中被重新采樣,其中所述重新采樣如所述伸縮參數(shù)
序列所指示的那樣來執(zhí)行。
在塊變換步驟503內(nèi),通常使用眾所周知的離散三角變換來導出塊變 換。這樣執(zhí)行的變換是對加窗并重新采樣過的信號分段執(zhí)行的。需要注意, 塊變換也依賴于偏移量值,所述偏移量值是根據(jù)所述伸縮參數(shù)序列導出 的。因此,所述輸出由變換域的幀的序列所組成。
圖13示出了反時間伸縮變換方法的流程圖。該方法包括以下步驟-反塊變換601、加窗602、重新采樣603以及重疊和相加604。變換域信號 的每個幀都被反塊變換601轉(zhuǎn)換為時域信號。對應于編碼步驟,塊變換依 賴于從所接收參數(shù)序列導出的偏移量值,所接收參數(shù)序列用作所述反塊變 換601、所述加窗602和所述重新采樣603的額外輸入。隨后使用伸縮參 數(shù)序列在加窗步驟602中對由塊變換601導出的信號分段加窗并在重新采 樣603中重新采樣。最后,在重疊和相加604中,以通常的重疊和相加運 算將加窗和重新采樣的分段與之前反變換過的分段相加,得到時域輸出信
號的重建。
圖M示出了本發(fā)明反時間伸縮變換器的可替換實施例,該反時間伸 縮變換器被實現(xiàn)用于進一步減小計算復雜性。該解碼器部分地享有與圖13 的解碼器相同的功能。所以兩實施例中相同功能方框的描述是完全可互換 的。該可替換實施例與圖13的實施例不同在于,它在所述反塊變換601 之前實現(xiàn)頻譜預加權701。此固定頻譜預加權等價于帶有周期性和對稱性 的時域濾波,所述周期性和對稱性是由對塊變換的選擇所引起的。這種濾 波操作是基于特定樣條的重新采樣方法的一部分,可以減小后續(xù)改進重新
采樣702的計算復雜性。這種重新采樣現(xiàn)將在帶有周期性和對稱性的信號
域中實現(xiàn),所述周期性和對稱性是由對塊變換的選擇所引起的。所以,在
重新釆樣702后執(zhí)行改進加窗步驟703。最后,在重疊和相加604中,以 通常的重疊和相加方式將加窗和重新采樣的分段與之前的反變換分段相 加,給出了重建的時域輸出信號。
圖15a和15b示出了時間伸縮編碼這一本發(fā)明概念的長處,示出了應 用和不應用時間伸縮時相同信號頻譜表示。圖15a示出了源自改進離散余 弦變換的譜線的幀,所述改進離散余弦變換是對以16kHz采樣的男性話 音信號分段進行的大小為1024的變換。所得到的頻率分辨率是7.8 Hz且 只有前600條線畫出以用于此圖示說明,對應于4.7kHz帶寬??蓮幕l 和圖中看出,所述分段是具有大約155Hz平均基音的話音信號??蛇M一 步從圖15a中看出,基音頻率的少數(shù)前幾個諧波清晰可辨,但到高頻,分 析變得逐漸密集和雜亂。這是由要分析的信號分段長度內(nèi)的基音變化引起 的。所以,中間到高頻范圍的編碼需要大量的比特以便不在解碼時引入可 聽到的假象。相反地,當固定了比特率時,由于需要增大量化粗糙度將不 可避免地產(chǎn)生大量的失真。
圖15b說明了源自根據(jù)本發(fā)明的時間伸縮改進離散余弦變換的譜線的 幀。很明顯,使用與圖15a中相同的原始的男性音頻信號。變換參數(shù)與圖 15a中的相同,但對適配于該信號的時間伸縮變換的使用對頻譜表示具有 可見的戲劇性效果。時間伸縮變換域中信號的稀疏和有組織的性質(zhì)產(chǎn)生以 好得多的速率失真性能進行的編碼,即使在考慮對額外伸縮數(shù)據(jù)進行編碼 的成本時。
如已提到的,伸縮參數(shù)的發(fā)送而不是基音或速度信息的發(fā)送具有戲劇 性地降低額外需要的比特率這一巨大優(yōu)勢。所以,在以下段落中詳述發(fā)送 所需伸縮參數(shù)信息的若干本發(fā)明方案。
對于在時間^處帶有伸縮^)的信號,局部余弦基(見(S)、 (12))的歸 一化伸縮映射序列^的最佳選擇通過解下式來獲得<formula>formula see original document page 27</formula> (24)
然而,描述此伸縮映射序列所需的信息量太大,"(0的逐點值的定義 和測量是困難的。出于實際考慮,確定伸縮更新區(qū)間",并且每個伸縮映 射n由A^lM/參數(shù)來描述。大約10-20 ms的伸縮更新區(qū)間一般對于語音 信號而言是足夠的。與根據(jù)^和^+,得到的^的(9)式中的構造相似,連續(xù) 可微的歸一化伸縮映射可由W個歸一化伸縮映射通過合適的仿射重新縮 放操作來拼湊在一起。歸一化伸縮映射的原型示例包括
<formula>formula see original document page 27</formula>(25)
<formula>formula see original document page 27</formula>其中"是伸縮參數(shù)。通過^A'來定義映射的伸縮A(0,所有三個映射實現(xiàn) 了在^1/2處與a相等的伸縮。指數(shù)映射在整個區(qū)間W1中具有恒定伸 縮,并且對于小值",其他兩個映射顯示出與此恒定值非常小的偏離。對 于在解碼器中針對所述重新采樣(23)式應用給定的伸縮映射而言,在編碼 器中對于所述重新采樣(方程式18)需要其逆運算。用于求逆的作用的主 要部分來自歸一化伸縮映射的求逆。二次映射的求逆需要平方根運算,指 數(shù)映射的求逆需要對數(shù),有理Moebius映射是帶有否定伸縮參數(shù)的 Moebius映射。由于指數(shù)函數(shù)和除法花費相當大,集中于最大簡化解碼器 中的計算會得到逐段二次伸縮映射序列^的優(yōu)選。
歸一化伸縮映射^由AA個伸縮參數(shù)A(O),"力)…"4OV-l)通過以下需求來
完全定義,所述需求是它 *是歸一化伸縮映射;
由光滑的原型伸縮映射(25)式中的一個的重新縮放的拷貝拼湊在一起;
是連續(xù)可微的;
滿足
"7^ = ,, / = 0,1,.J —1 (26)
呵fj
本發(fā)明教導了伸縮參數(shù)可被線性地量化, 一般以大約0.5 Hz的步長。
所得整數(shù)值而后被編碼?;蛘?,導數(shù)w可解釋為歸一化基音曲線,其中值
^^-1, /",2,…,iV, (27)
以一般為0.005的固定步長來量化。在這種情況下,所得整數(shù)值被順序地 或以等級方式進一步差分編碼。在兩種情況下,所得輔助信息比特率一般 都是每秒幾百比特,這只是在語音編解碼器中描述基音數(shù)據(jù)所需的速率的 一小部分。
帶有較大計算資源的編碼器可確定伸縮數(shù)據(jù)序列,所述伸縮數(shù)據(jù)序列 最優(yōu)地降低編碼成本或最大化譜線的稀疏程度。較不昂貴的方式是使用眾 所周知的方法用于基音跟蹤,得到測定的基音函數(shù)p(0并在以下區(qū)間中以 逐段線性函數(shù)p々)來近似基音曲線,在所述這些區(qū)間中,基音跟蹤存在并 且并不表現(xiàn)出基音值中較大的跳躍。所估計的伸縮序列在基音跟蹤區(qū)間內(nèi) 由下式給出
在這些區(qū)間外,伸縮設置為0。注意,諸如基音周期倍數(shù)的這種基音估計 中的系統(tǒng)誤差對伸縮估計具有非常小的影響。
如圖10中所示,在本發(fā)明的可替換實施例中,伸縮參數(shù)序列可由伸 縮估計器從解碼變換域數(shù)據(jù)中推導出。原理是計算變換數(shù)據(jù)的每一幀的或 者來自后續(xù)解碼信號塊的基音的頻域基音估計。而后根據(jù)與公式28相似 的公式推導出伸縮信息。
己主要通過在單個音頻信道情形中應用本發(fā)明的時間伸縮來描述了 本發(fā)明概念的應用。本發(fā)明的概念自然決不局限于這種單頻道情形內(nèi)的使
用。此外,在多信道編碼應用中使用可由本發(fā)明概念實現(xiàn)的高編碼增益可 能是非常有優(yōu)勢的,在所述多信道編碼應用中,可使用本發(fā)明概念對必須 被發(fā)送的單個或多個信號進行編碼。
此外,伸縮一般可被定義為取決于X的任意函數(shù)的X軸變換。所以, 本發(fā)明概念也可應用于以下情形其中對信號的函數(shù)或表示進行不明顯地 依賴于時間的伸縮。譬如,也可實現(xiàn)信號的頻率表示的伸縮。
此外,本發(fā)明的概念也可有利地應用于以下信號所述信號以任意分 段長度被分段而不是以與之前段落中描述的相等長度被分段。
此外,對之前段落中呈現(xiàn)的基函數(shù)和離散化的使用應被理解為應用本 發(fā)明概念的一個有利示例。對于其他應用,也可使用不同基函數(shù)以及不同 離散化。取決于本發(fā)明方法的特定實施方式的需要,本發(fā)明方法可在硬件 或軟件中實現(xiàn)。所述實施方式可使用數(shù)字存儲媒介來實現(xiàn),特別是其上存 儲有電子可讀控制信號的磁盤、DVD或CD,其與可編程計算機系統(tǒng)協(xié)作 以執(zhí)行本發(fā)明方法。所以一般來說,本發(fā)明是帶有存儲在計算機可讀載體 上的程序代碼的計算機程序產(chǎn)品,當計算機程序產(chǎn)品在計算機上運行時, 所述程序代碼操作用于執(zhí)行本發(fā)明方法。所以換句話說,本發(fā)明方法是具 有程序代碼的計算機程序,該程序代碼用于在所述計算機程序運行于計算 機上時實現(xiàn)本發(fā)明方法中的至少一個。
雖然前面已參考本發(fā)明特定實施例而具體地說明和描述了本發(fā)明,但 本領域技術人員應該理解可做出形式上和細節(jié)上的各種其他變化而不背 離本發(fā)明的精神和范圍。需要理解,可做出各種變化以適配于不同實施例 而不背離由所附權利要求在這里所公開并包含的更寬的概念。
權利要求
1.一種用于推導音頻信號的表示的編碼器,所述音頻信號具有第一幀、跟在所述第一幀之后的第二幀和跟在所述第二幀之后的第三幀,所述編碼器包括伸縮估計器,用于估計所述第一幀和所述第二幀的第一伸縮信息以及用于估計所述第二幀和所述第三幀的第二伸縮信息,所述伸縮信息描述所述音頻信號的基音信息;頻譜分析器,使用所述第一伸縮信息來推導所述第一幀和所述第二幀的第一頻譜系數(shù)以及使用所述第二伸縮信息來推導所述第二幀和所述第三幀的第二頻譜系數(shù);以及輸出接口,用于輸出包括所述第一和第二頻譜系數(shù)的所述音頻信號的表示。
2. 根據(jù)權利要求1所述的編碼器,其中所述伸縮估計器操作用于估 計所述伸縮信息,以便幀的伸縮表示內(nèi)的基音比所述幀內(nèi)的基音更加恒 定,所述伸縮表示是從對所述幀內(nèi)的音頻信號的時間軸進行由所述伸縮信 息所指示的幀變換中推導出的。
3. 根據(jù)權利要求1所述的編碼器,其中所述伸縮估計器操作用于使 用與所述幀內(nèi)的所述基音的變化有關的信息來估計所述伸縮信息。
4. 根據(jù)權利要求3所述的編碼器,其中所述伸縮估計器操作用于估 計所述伸縮信息,以便只在所述基音變化小于預定最大基音變化時,使用 與所述基音的變化有關的信息。
5. 根據(jù)權利要求1所述的編碼器,其中所述伸縮估計器操作用于估 計所述伸縮信息,以便幀的伸縮表示的頻譜表示比所述幀的頻譜表示更稀 疏地排列,所述伸縮表示是從對所述幀內(nèi)的音頻信號的時間軸進行由所述 伸縮信息所指示的幀變換中推導出的。
6. 根據(jù)權利要求1所述的編碼器,其中所述伸縮估計器操作用于估 計所述伸縮信息,以便當使用相同的編碼規(guī)則來推導以下兩種表示時,由 幀的伸縮表示的頻譜系數(shù)的編碼表示所耗費的比特數(shù)少于所述幀的頻譜 系數(shù)的編碼表示。
7. 根據(jù)權利要求1所述的編碼器,其適用于推導由離散釆樣值序列 給定的音頻信號的表示。
8. 根據(jù)權利要求1所述的編碼器,其中所述伸縮估計器操作用于估計所述伸縮信息,以便幀的伸縮表示描述與對應幀相同長度的音頻信號,所述伸縮表示是從對所述幀內(nèi)的音頻信號的時間軸進行由所述伸縮信息所指示的幀變換中推導出的。
9. 根據(jù)權利要求1所述的編碼器,其中所述伸縮估計器操作用于估 計所述伸縮信息,以便使用組合規(guī)則來組合第一對應幀的第一中間伸縮信 息和第二對應幀的第二中間伸縮信息。
10. 根據(jù)權利要求9所述的編碼器,其中所述組合規(guī)則使得所述第一 中間伸縮信息的重新縮放的伸縮參數(shù)序列與所述第二中間伸縮信息的重 新縮放的伸縮參數(shù)序列相連接。
11. 根據(jù)權利要求IO所述的編碼器,其中所述組合規(guī)則使得所得伸 縮信息包括連續(xù)可微伸縮參數(shù)序列。
12. 根據(jù)權利要求1所述的編碼器,其中所述伸縮估計器操作用于估 計所述伸縮信息,以便所述伸縮信息包括伸縮參數(shù)的遞增序列。
13. 根據(jù)權利要求1所述的編碼器,其中所述伸縮估計器操作用于估 計所述伸縮信息,以便所述伸縮信息描述將區(qū)間
映射到自身的連續(xù)可 微重新采樣規(guī)則。
14. 根據(jù)權利要求1所述的編碼器,其中所述頻譜分析器適用于使用 基于所述伸縮信息的余弦基來推導所述頻譜系數(shù)。
15. 根據(jù)權利要求1所述的編碼器,其中所述頻譜分析器適用于使用 兩個幀的加權表示來推導所述頻譜系數(shù)。
16. 根據(jù)權利要求15所述的編碼器,其中所述頻譜分析器操作用于 通過將窗口函數(shù)應用到兩個幀來獲得兩個幀的加權表示,來推導所述頻譜 系數(shù),其中所述窗口函數(shù)取決于所述伸縮信息。
17. 根據(jù)權利要求1所述的編碼器,其中所述頻譜分析器操作用于使 用所述幀的重新采樣表示來推導所述頻譜系數(shù)。
18. 根據(jù)權利要求17所述的編碼器,其中所述頻譜分析器進一步適 用于推導重新采樣表示,所述重新采樣表示對幀的時間軸進行由所述伸縮信息所指示的變換。
19. 根據(jù)權利要求1所述的編碼器,其中所推導出的伸縮信息描述歸 一化到所述音頻信號基音的音頻信號的基音變化。
20. 根據(jù)權利要求1所述的編碼器,其中所述伸縮估計器操作用于估 計所述伸縮信息,以便所述伸縮信息包括伸縮參數(shù)序列,其中每個伸縮參 數(shù)描述所述音頻的有限長度區(qū)間。
21. 根據(jù)權利要求1所述的編碼器,其中所述輸出接口進一步包括所 述伸縮信息。
22. 根據(jù)權利要求1所述的編碼器,其中所述輸出接口進一步包括所述伸縮信息的量化表示。
23. —種解碼器,使用第一伸縮信息、第二伸縮信息、第一頻譜系數(shù) 和第二頻譜系數(shù)來重建音頻信號,所述音頻信號具有第一幀、跟在所述第 一幀之后的第二幀和跟在所述第二幀之后的第三幀,所述第一伸縮信息描 述第一幀和所述第二幀的音頻信號的基音信息,所述第二伸縮信息描述所 述第二幀和所述第三幀的音頻信號的基音信息,所述第一頻譜系數(shù)針對所 述第一幀和所述第二幀,所述第二頻譜系數(shù)針對所述第二幀和所述第三幀,所述解碼器包括譜值處理器,使用所述第一頻譜系數(shù)和所述第一伸縮信息來推導第一組合幀,所述第一組合幀具有關于所述第一幀和所述第二幀的信息;以及使用所述第二頻譜系數(shù)和所述第二伸縮信息來推導第二組合幀,所述第二組合幀具有關于所述第二幀和所述第三幀的信息;以及合成器,使用所述第一組合幀和所述第二組合幀來重建所述第二幀。
24. 根據(jù)權利要求23所述的解碼器,其中所述譜值處理器操作用于使用余弦基函數(shù)來推導所述組合幀,所述余弦基函數(shù)取決于所述伸縮信 自
25. 根據(jù)權利要求24所述的解碼器,其中所述譜值處理器操作用于 使用余弦基函數(shù),其中針對所述頻譜系數(shù)使用余弦基函數(shù)產(chǎn)生了組合幀的 時間伸縮非加權表示。
26. 根據(jù)權利要求23所述的解碼器,其中所述譜值處理器操作用于 使用窗口函數(shù)以對所述組合幀的采樣值應用加權,所述窗口函數(shù)取決于所 述伸縮信息。
27. 根據(jù)權利要求25所述的解碼器,其中所述譜值處理器操作用于 使用窗口函數(shù),所述窗口函數(shù)在應用到組合幀的所述時間伸縮非加權表示 時,產(chǎn)生組合幀的時間伸縮表示。
28. 根據(jù)權利要求23所述的解碼器,其中所述譜值處理器操作用于 通過對組合幀的表示的時間軸進行由所述伸縮信息所指示的變換,使用伸 縮信息,來推導組合幀。
29. 根據(jù)權利要求23所述的解碼器,其中所述合成器操作用于通過 將所述第一組合幀與所述第二組合幀相加來重建所述第二幀。
30. 根據(jù)權利要求23所述的解碼器,適用于重建由離散采樣值序列 表示的音頻信號。
31. 根據(jù)權利要求23所述的解碼器,進一步包括用于從所述第一和 所述第二頻譜系數(shù)中推導所述第一和第二伸縮信息的伸縮估計器。
32. 根據(jù)權利要求23所述的解碼器,其中所述譜值處理器操作用于 通過將預定加權因子應用到所述頻譜系數(shù),來執(zhí)行對所述頻譜系數(shù)的加 權。
33. —種用于推導音頻信號表示的方法,所述音頻信號具有第一幀、 跟在所述第一幀之后的第二幀和跟在所述第二幀之后的第三幀,所述方法 包括估計針對所述第一幀和所述第二幀的第一伸縮信息以及估計針對所 述第二幀和所述第三幀的第二伸縮信息,所述伸縮信息描述所述音頻信號 的基音信息;使用所述第一伸縮信息來推導針對所述第一幀和所述第二幀的第一 頻譜系數(shù)以及使用所述第二伸縮信息來推導針對所述第二幀和所述第三 幀的第二頻譜系數(shù);以及輸出包括所述第一和所述第二頻譜系數(shù)的音頻信號表示。
34. —種使用第一伸縮信息、第二伸縮信息、第一頻譜系數(shù)和第二頻 譜系數(shù)來重建音頻信號的方法,所述音頻信號具有第一幀、跟在所述第一 幀之后的第二幀和跟在所述第二幀之后的第三幀,所述第一伸縮信息描述 所述第一幀和所述第二幀的音頻信號的基音信息,所述第二伸縮信息描述所述第二幀和所述第三幀的音頻信號的基音信息,所述第一頻譜系數(shù)針對 所述第一幀和所述第二幀,所述第二頻譜系數(shù)針對所述第二幀和所述第三 幀,所述方法包括使用所述第一頻譜系數(shù)和所述第一伸縮信息來推導第一組合幀,所述 第一組合幀具有關于所述第一幀和所述第二幀的信息;以及使用所述第二頻譜系數(shù)和所述第二伸縮信息來推導第二組合幀,所述 第二組合幀具有關于所述第二幀和所述第三幀的信息;以及使用所述第一組合幀和所述第二組合幀來重建所述第二幀。
35. —種具有程序代碼的計算機程序,所述程序代碼用于當運行在計 算機上時執(zhí)行用于推導音頻信號表示的方法,所述音頻信號具有第一幀、 跟在所述第一幀之后的第二幀和跟在所述第二幀之后的第三幀,所述方法 包括估計所述第一幀和所述第二幀的第一伸縮信息以及估計所述第二幀 和所述第三幀的第二伸縮信息,所述伸縮信息描述所述音頻信號的基音信 息;使用所述第一伸縮信息來推導所述第一幀和所述第二幀的第一頻譜 系數(shù)以及使用所述第二伸縮信息來推導所述第二幀和所述第三幀的第二 頻譜系數(shù);以及輸出包括所述第一和所述第二頻譜系數(shù)的音頻信號表示。
36. —種具有程序代碼的計算機程序,所述程序代碼用于當運行在計 算機上時執(zhí)行使用第一伸縮信息、第二伸縮信息、第一頻譜系數(shù)和第二頻 譜系數(shù)來重建音頻信號的方法,所述音頻信號具有第一幀、跟在所述第一 幀之后的第二幀和跟在所述第二幀之后的第三幀,所述第一伸縮信息描述 所述第一幀和所述第二幀的音頻信號的基音信息,所述第二伸縮信息描述 所述第二幀和所述第三幀的音頻信號的基音信息,所述第一頻譜系數(shù)針對 所述第一幀和所述第二幀,所述第二頻譜系數(shù)針對所述第二幀和所述第三 幀,所述方法包括使用所述第一頻譜系數(shù)和所述第一伸縮信息來推導第一組合幀,所述第一組合幀具有關于所述第一幀和所述第二幀的信息;以及使用所述第二頻譜系數(shù)和所述第二伸縮信息來推導第二組合幀,所述 第二組合幀具有關于所述第二幀和所述第三幀的信息;以及使用所述第一組合幀和所述第二組合幀來重建所述第二幀。
37. —種音頻信號的表示,所述音頻信號具有第一幀、跟在所述第一幀之后的第二幀和跟在所述第二幀之后的第三幀,所述表示包括針對所 述第一幀和所述第二幀的第一頻譜系數(shù),所述第一頻譜系數(shù)用于描述所述第一幀和所述第二幀的伸縮表示的頻譜組成;以及第二頻譜系數(shù),用于描述所述第二幀和所述第三幀的伸縮表示的頻譜組成。
全文摘要
當針對任何兩個相鄰幀估計出共同時間伸縮時,可以更有效地推導具有連續(xù)音頻幀的音頻信號的頻譜表示,以便后面的塊變換可附加地使用伸縮信息。因此,可推導并應用在重建過程中成功應用重疊和相加方式所需的窗口函數(shù),所述窗口函數(shù)已預計到由時間伸縮所引起的對信號的重新采樣。所以,可以提高對時間伸縮信號的基于塊的變換編碼的效率,且不會引入可聽到的不連續(xù)。
文檔編號G10L19/02GK101351840SQ200680049867
公開日2009年1月21日 申請日期2006年10月24日 優(yōu)先權日2005年11月3日
發(fā)明者拉斯·維爾莫斯 申請人:科丁技術公司