專利名稱:提供時間扭曲激活信號以及使用該時間扭曲激活信號對音頻信號編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻編碼和解碼,并且具體地針對具有諧波或語音內(nèi)容的、可受到時 間扭曲處理的音頻信號的編碼/解碼。
背景技術(shù):
在下文中,將給出對時間扭曲音頻編碼的領(lǐng)域的簡要說明,該編碼的概念可結(jié)合 本發(fā)明的一些實施例一起應(yīng)用。
近年來,技術(shù)上的發(fā)展可將音頻信號變換為頻域表示,并且例如考慮到感知屏蔽 閾值,可以對該頻域表示進(jìn)行有效地編碼。如果發(fā)送編碼頻譜系數(shù)組的塊長度很長,且如果 僅相當(dāng)小數(shù)目的頻譜系數(shù)遠(yuǎn)在該全局屏蔽閾值之上,同時很大數(shù)目的頻譜系數(shù)在該全局屏 蔽閾值附近或之下并可能因而被忽略(或以最小碼長進(jìn)行編碼)時,該音頻信號編碼的概 念特別有效。
例如,基于余弦或基于正弦的調(diào)制的重疊變換通常由于它們的能量壓縮性質(zhì)而用 于源編碼的應(yīng)用。即,對于具有恒定基本頻率(音調(diào))的諧音而言,它們將信號能量濃縮于 小數(shù)目的頻譜分量(子頻帶)中,這導(dǎo)致了有效的信號表示。
大體而言,應(yīng)當(dāng)將信號的(基本)音調(diào)理解為可與該信號頻譜相區(qū)別的最低主頻 率。在普通語音模型中,該音調(diào)是由人類喉嚨調(diào)制的激勵信號的頻率。如果僅一個單一基 本頻率存在,該頻譜將極其簡單,僅包括該基本頻率及泛音??梢愿咝У貙@種頻譜編碼。 然而,對于具有變化音調(diào)的信號,對應(yīng)于每個諧波分量的能量散布于若干變換系數(shù)上,因 而導(dǎo)致編碼效率的減少。
為了克服編碼效率的減少,在不均勻時間網(wǎng)格上對要編碼的音頻信號有效地重新 采樣。在隨后的處理中,對通過不均勻重新采樣所獲得的采樣位置就好像它們表示均勻時 間網(wǎng)格上的值一樣進(jìn)行處理。該操作一般由短語“時間扭曲”來表示??扇Q于該音調(diào)的 時間變化來有利地選擇采樣時間,使得該音頻信號的時間扭曲版本中的音調(diào)變化小于該音 頻信號的原始版本(時間扭曲前)中的音調(diào)變化。該音調(diào)變化也可用短語“時間扭曲輪廓” 表示。在音頻信號的時間扭曲之后,將該音頻信號的時間扭曲版本轉(zhuǎn)換為頻域。該依賴于 音調(diào)的時間扭曲具有如下效果時間扭曲音頻信號的頻域表示一般地顯示出將能量壓縮成 遠(yuǎn)遠(yuǎn)小于該原始音頻信號(未被時間扭曲)的頻域表示的頻譜分量數(shù)目。
在解碼器側(cè),將該時間扭曲音頻信號的頻域表示轉(zhuǎn)換回時域,使得該時間扭曲音 頻信號的時域表示在解碼器側(cè)可用。然而,在解碼器側(cè)重建時間扭曲音頻信號的時域表示 中,不包括該編碼器側(cè)輸入音頻信號的原始音調(diào)變化。因此,通過對時間扭曲音頻信號的解碼器側(cè)重建時域表示進(jìn)行重新采樣,來應(yīng)用另一時間扭曲。為了在解碼器處獲得對編碼 器側(cè)輸入音頻信號的良好重建,需要解碼器側(cè)時間扭曲至少近似編碼器側(cè)時間扭曲的反操 作。為了獲得恰當(dāng)?shù)臅r間扭曲,需要讓允許調(diào)整解碼器側(cè)時間扭曲的信息在解碼器處可用。
因為一般要求將這種信息從音頻信號編碼器傳輸至音頻信號解碼器,需要將該發(fā) 送所需的比特率保持為小,同時仍允許在解碼器側(cè)可靠重建所需的時間扭曲信息。
鑒于上述討論,需要創(chuàng)建一種概念,其允許有效應(yīng)用音頻編碼器中時間扭曲概念 的比特率。發(fā)明內(nèi)容
本發(fā)明的目的是創(chuàng)建以下概念基于在時間扭曲音頻信號編碼器或時間扭曲音頻 信號解碼器中可用的信息,來增強由編碼音頻信號所提供的聽覺印象。
由根據(jù)權(quán)利要求1所述的用于基于音頻信號的表示來提供時間扭曲激活信號的 時間扭曲激活信號提供器、根據(jù)權(quán)利要求12所述的用于對輸入音頻信號編碼的音頻信號 編碼器、根據(jù)權(quán)利要求14所述的用于提供時間扭曲激活信號的方法、根據(jù)權(quán)利要求15所述 的用于提供輸入音頻信號的編碼表示的方法、或根據(jù)權(quán)利要求16所述的計算機程序來達(dá) 成該目的。
本發(fā)明的另一目的是提供一種增強的音頻編碼/解碼方案,該方案提供較高的質(zhì) 量或較低的比特率。
由根據(jù)權(quán)利要求17、26、32、37所述的音頻編碼器、根據(jù)權(quán)利要求20所述的音頻解 碼器、根據(jù)權(quán)利要求23、30、35或37所述的音頻編碼方法、根據(jù)權(quán)利要求24所述的解碼方 法、或根據(jù)權(quán)利要求25、31、36或43所述的計算機程序來達(dá)成該目的。
根據(jù)本發(fā)明的實施例與用于時間扭曲MDCT變換編碼器的方法相關(guān)。一些實施例 僅與編碼器工具相關(guān)。然而,其它實施例還與解碼器工具相關(guān)。
本發(fā)明的實施例創(chuàng)建時間扭曲激活信號提供器,其用于基于音頻信號的表示來提 供時間扭曲激活信號。該時間扭曲激活信號提供器包括能量壓縮信息提供器,被配置為提 供能量壓縮信息,該信息描述音頻信號的時間扭曲變換頻譜表示中的能量壓縮。該時間扭 曲激活信號提供器還包括比較器,該比較器被配置為將能量壓縮信息與參考值相比較,且 取決于比較結(jié)果來提供時間扭曲激活信號。
該實施例基于如下發(fā)現(xiàn)如果音頻信號的時間扭曲變換頻譜表示由于將能量濃縮 于一個或多個頻譜區(qū)域(或頻譜線)而包括充分壓縮的能量分布,則從編碼音頻信號的比 特率減少的意義上來說,音頻信號編碼器中的時間扭曲功能性的使用一般帶來增強。這是 由于如下的事實通過將模糊頻譜(例如音頻幀的模糊頻譜)變換為具有一個或多個可辨 別波峰的頻譜,且因此變換為具有比原始(未時間扭曲)音頻信號的頻譜更高的能量壓縮 的頻譜,則成功的時間扭曲帶來減少比特率的效果。
關(guān)于此問題,應(yīng)理解音頻信號幀(在該幀中音頻信號的音調(diào)顯著地變化)包括 模糊頻譜。音頻信號的時間變化音調(diào)具有如下效果在音頻信號幀上執(zhí)行的時域到頻域的 變換導(dǎo)致信號能量在頻域,具體地在較高頻域,上的模糊分布。因此,這種原始(未時間扭 曲)音頻信號的頻譜表示包括低能量壓縮,且一般在該頻譜的較高頻率部分不顯示頻譜波 峰,或僅在頻譜中較高頻率部分顯示相對小的頻譜波峰。相對地,如果時間扭曲成功(就提供該編碼效率的增強而言),該原始音頻信號的時間扭曲產(chǎn)生具有相對較高且清晰的波峰 的頻譜(具體地在該頻譜的較高頻率部分中)的時間扭曲音頻信號。這是由于以下事實 將具有時間變化音調(diào)的音頻信號變換為具有較小音調(diào)變化或甚至近似恒定音調(diào)的時間扭 曲音頻信號。因此,該時間扭曲音頻信號的頻譜表示(可以將其視為該音頻信號的時間扭 曲變換頻譜表示)包括一個或多個清晰頻譜波峰。換言之,通過成功的時間扭曲操作來減 少該原始音頻信號(具有在時間上變化的音調(diào))頻譜的模糊,使得該音頻信號的時間扭曲 變換頻譜表示包括比原始音頻信號的頻譜更高的能量壓縮。然而,時間扭曲在增強編碼效 率中并不總是成功。例如,如果輸入音頻信號包括大的噪聲分量,或如果所提取的時間扭曲 輪廓不精確,則時間扭曲不增強編碼效率。
鑒于該情況,由能量壓縮信息提供器提供的能量壓縮信息就減少比特率而言是判 定該時間扭曲是否成功的有價值指示符。
本發(fā)明的實施例創(chuàng)建時間扭曲激活信號提供器,用于基于音頻信號的表示提供時 間扭曲激活信號。該時間扭曲激活提供器包括兩個時間扭曲表示提供器,所述兩個時間扭 曲標(biāo)識提供器被配置為使用不同的時間扭曲輪廓信息來提供該相同音頻信號的兩個時間 扭曲表示。因此,該時間扭曲表示提供器可以用相同的方式配置(在結(jié)構(gòu)上或功能上),且 使用相同音頻信號但是不同的時間扭曲輪廓信息。該時間扭曲激活信號提供器還包括兩個 能量壓縮信息提供器,所述兩個能量壓縮信息提供器被配置為基于第一時間扭曲表示提供 第一能量壓縮信息,且基于第二時間扭曲表示提供第二能量壓縮信息。該能量壓縮信息提 供器可以用相同方式配置,但是使用不同的時間扭曲表示。此外,該時間扭曲激活信號提供 器包括比較器,以將兩個不同能量壓縮信息進(jìn)行比較,且提供取決于比較結(jié)果的時間扭曲 激活信號。
在優(yōu)選實施例中,該能量壓縮信息提供器被配置為提供作為能量壓縮信息的頻譜 平坦度度量,該頻譜平坦度度量描述該音頻信號的時間扭曲變換頻譜表示。已發(fā)現(xiàn)如果時 間扭曲將輸入音頻信號變換為表不該輸入音頻信號的時間扭曲版本的較不平坦的時間扭 曲頻譜時,就減少比特率而言,時間扭曲是成功的。因此,頻譜平坦度度量可以用于判定在 不執(zhí)行全頻譜編碼處理的情況下,應(yīng)當(dāng)激活還是停用時間扭曲。
在優(yōu)選實施例中,該能量壓縮信息提供器被配置為計算該時間扭曲變換功率頻譜 的幾何平均與該時間扭曲變換功率頻譜的算術(shù)平均的商,以獲得頻譜平坦度度量。已發(fā)現(xiàn) 該商是非常適于描述通過時間扭曲來獲得的可能比特率節(jié)約的頻譜平坦度度量。
在另一優(yōu)選實施例中,該能量壓縮信息提供器被配置為當(dāng)與時間扭曲變換頻譜表 示的較低頻率部分相比時,強調(diào)時間扭曲變換頻譜表示的較高頻率部分,以獲得該能量壓 縮信息。該概念基于如下發(fā)現(xiàn)時間扭曲在較高頻率范圍上一般比在較低頻率范圍上具有 更大的影響。因此,為了確定使用頻譜平坦度度量的時間扭曲的有效性,主要評估該較高頻 率范圍是恰當(dāng)?shù)?。此外,典型的音頻信號顯示諧波內(nèi)容(包括基本頻率的諧波),其隨頻率 的增加在強度上衰減。當(dāng)與時間扭曲變換頻譜表示的較低頻率部分相比時,強調(diào)該時間扭 曲變換頻譜表示的較高頻率部分也有助于補償該頻譜線隨頻率增加的這種典型衰減。總而 言之,對頻譜的較高頻率部分的強調(diào)導(dǎo)致了能量壓縮信息的可靠性增加,并因此允許更可 靠地提供時間扭曲激活信號。
在另一優(yōu)選實施例中,能量壓縮信息提供器被配置為提供頻譜平坦度的多個逐頻帶度量,且被配置為計算頻譜平坦度的多個逐頻帶度量的平均值,以獲得該能量壓縮信息。 已發(fā)現(xiàn)逐頻帶頻譜平坦度度量的考慮導(dǎo)致了與時間扭曲是否有效減少編碼音頻信號比特 率的特別可靠信息。首先,一般以逐頻帶方式來執(zhí)行對時間扭曲變換頻譜表示的編碼,使得 頻譜平坦度的該逐頻帶度量的組合非常適于該編碼,且因此以良好精確度表示可獲得的比 特率增強。此外,頻譜平坦度度量的逐頻帶計算實質(zhì)上消除了能量壓縮信息對諧波分布的 依賴性。例如,即使較高頻帶包括相對小的能量(小于較低頻帶的能量),該較高頻帶可能 仍然在感知上是相關(guān)的。然而,如果不以逐頻帶方式來計算該頻譜平坦度度量,則在該較高 頻帶上的時間扭曲的積極影響(從該頻譜線的模糊的減少的意義上說)可能僅因該較高頻 帶上的能量小而被認(rèn)為是小的。相對地,通過應(yīng)用逐頻帶計算,可以用恰當(dāng)?shù)臋?quán)重來考慮時 間扭曲的積極影響,因為該逐頻帶頻譜平坦度度量獨立于各自頻帶中的絕對能量。
在另一優(yōu)選實施例中,該時間扭曲激活信號提供器包括參考值計算器,所述參考 值計算器被配置為計算頻譜平坦度度量,以獲得該參考值,該度量描述音頻信號的未時間 扭曲的頻譜表示。因此,可基于輸入音頻信號的未時間扭曲(或“未扭曲的”)版本的頻譜 平坦度與輸入音頻信號的時間扭曲版本的頻譜平坦度的比較來提供該時間扭曲激活信號。
在另一優(yōu)選實施例中,該能量壓縮信息提供器被配置為提供作為能量壓縮信息的 感知熵度量,該度量描述音頻信號的時間扭曲變換頻譜表示。此概念基于下述發(fā)現(xiàn)時間扭 曲變換頻譜表示的感知熵是對編碼該時間扭曲變換頻譜所需要的比特數(shù)目(或比特率)的 良好估計。因此,甚至由于如果使用時間扭曲,則必須對附加時間扭曲信息編碼,該時間扭 曲變換頻譜表示的感知熵度量是是否可通過時間扭曲來預(yù)期比特率減少的良好度量。
在另一優(yōu)選實施例中,該能量壓縮信息提供器被配置為提供作為能量壓縮信息的 自相關(guān)度量,該度量描述音頻信號的時間扭曲表示的自相關(guān)。該概念基于如下發(fā)現(xiàn)可以基 于時間扭曲(或不均勻重新采樣)的時域信號來測量(或至少估計)時間扭曲的效率(就 減少比特率而言)。已發(fā)現(xiàn)如果時間扭曲時域信號包括由自相關(guān)度量反映的相對高度的周 期性,則時間扭曲是有效率的。相對地,如果時間扭曲時域信號不包括顯著的周期性,則可 以推斷該時間扭曲是無效率的。
該發(fā)現(xiàn)基于如下事實有效時間扭曲將變化頻率(不包括周期性)的正弦信號的 一部分變換為接近恒定頻率(包括高度的周期性)的正弦信號的一部分。相對地,如果時 間扭曲不能提供具有高度周期性的時域信號,那么可預(yù)期時間扭曲也不提供可證明其應(yīng)用 可行的顯著比特率節(jié)約。
在優(yōu)選實施例中,該能量壓縮信息提供器被配置為確定音頻信號的時間扭曲表示 的歸一化自相關(guān)函數(shù)的絕對值之和(對多個延遲值),以獲得該能量壓縮信息。已發(fā)現(xiàn)在估 計時間扭曲的效率上不要求對自相關(guān)峰值的計算復(fù)雜的確定。而是,已發(fā)現(xiàn)對(大)范圍 的自相關(guān)延遲值上的自相關(guān)的求和評估也產(chǎn)生非??煽康慕Y(jié)果。這是由于如下事實時間 扭曲實際上將變化頻率的多個信號分量(例如,基本頻率及其諧波)變換為周期性信號分 量。因此,這種時間扭曲信號的自相關(guān)在多個自相關(guān)延遲值處顯示波峰。因此,求和形式是 從自相關(guān)提取能量壓縮信息的計算上高效率的方式。
在另一優(yōu)選實施例中,該時間扭曲激活信號提供器包括參考值計算器,所述參考 值計算器被配置為基于音頻信號的未時間扭曲頻譜表示,或基于音頻信號的未時間扭曲時 域表示,來計算參考值。在該情況中,比較器一般被配置為使用能量壓縮信息及參考值形成比值,該能量壓縮信息描述音頻信號的時間扭曲變換頻譜的能量壓縮。該比較器也被配置 為將該比值與一個或多個閾值進(jìn)行比較,以獲得時間扭曲激活信號。已發(fā)現(xiàn)在未時間扭曲 情況中的能量壓縮信息與在時間扭曲情況中的能量壓縮信息之間的比率允許產(chǎn)生計算上 高效率但仍充分可靠的時間扭曲激活信號。
本發(fā)明的另一優(yōu)選實施例創(chuàng)建音頻信號編碼器,用于對輸入音頻信號編碼,以獲 得該輸入音頻信號的編碼表示。音頻信號編碼器包括時間扭曲變換器,被配置為基于輸入 音頻信號,提供時間扭曲變換頻譜表示。該音頻信號編碼器還包括如上所述的時間扭曲激 活信號提供器。該時間扭曲激活信號提供器被配置為接收輸入音頻信號,且提供能量壓縮 信息,使得該能量壓縮信息描述該輸入音頻信號的時間扭曲變換頻譜表示中的能量壓縮。 該音頻信號編碼器還包括控制器,被配置為取決于時間扭曲激活信號,向時間扭曲變換器 選擇性地提供發(fā)現(xiàn)的非恒定(變化)時間扭曲輪廓部分或時間扭曲信息,或標(biāo)準(zhǔn)恒定(不 變)時間扭曲輪廓部分或時間扭曲信息。這樣,有可能選擇性地接受或拒絕由該輸入音頻 信號的編碼音頻信號表示推導(dǎo)出的發(fā)現(xiàn)的非恒定時間扭曲輪廓部分。
該概念基于下述發(fā)現(xiàn)將時間扭曲信息引入該輸入音頻信號的編碼表示并不總是 有效,因為要求相當(dāng)可觀數(shù)目的比特用于編碼該時間扭曲信息。此外,已發(fā)現(xiàn)由時間扭曲激 活信號提供器計算出的能量壓縮信息是判定將該發(fā)現(xiàn)的變化(非恒定)時間扭曲估計部分 還是標(biāo)準(zhǔn)(不變、恒定)時間扭曲輪廓提供給時間扭曲變換器是否有利的一種計算上高效 率的度量。已注意到當(dāng)該時間扭曲變換器包括重疊變換時,可在兩個或更多隨后的變換塊 的計算中使用發(fā)現(xiàn)的時間扭曲輪廓部分。具體地,已發(fā)現(xiàn)為了能做出時間扭曲是否允許比 特率的節(jié)約的判定,并無必要使用新發(fā)現(xiàn)的變化時間扭曲輪廓部分對該輸入音頻信號的時 間扭曲變換頻譜表示版本進(jìn)行完全編碼,以及并無必要使用標(biāo)準(zhǔn)(不變)時間扭曲輪廓部 分對該輸入音頻信號的時間扭曲變換頻譜表示版本進(jìn)行完全編碼。而是,已發(fā)現(xiàn)對輸入音 頻信號的時間扭曲變換頻譜表示的能量壓縮的評估形成了該判定的可靠基礎(chǔ)。因此,可以 將所需的比特率保持為小。
在又一優(yōu)選實施例中,該音頻信號編碼器包括輸出接口,被配置為取決于時間扭 曲激活信號,選擇性地包括時間扭曲輪廓信息,該信息將發(fā)現(xiàn)的變化時間扭曲輪廓表示為 該音頻信號的編碼表示。因此,可獲得高效的音頻信號編碼,而不管該輸入信號是否非常適 合于時間扭曲。
根據(jù)本發(fā)明的另一實施例創(chuàng)建一種基于音頻信號來提供時間扭曲激活信號的方 法。該方法實現(xiàn)時間扭曲激活信號提供器的功能,且可由本文中與時間扭曲激活信號提供 器相關(guān)描述的任何特征及功能來補充。
根據(jù)本發(fā)明的另一實施例創(chuàng)建一種用于對輸入音頻信號編碼,以獲得輸入音頻信 號的編碼表示的方法。該方法可由本文中與音頻信號編碼器相關(guān)描述的任何特征及功能來 補充。
根據(jù)本發(fā)明的另一實施例創(chuàng)建一種用于執(zhí)行本文所述方法的計算機程序。
根據(jù)本發(fā)明的第一方面,一種音頻信號分析,有利地使用音頻信號是具有諧波特 性還是語音特性,用于控制編碼器側(cè)和/或解碼器側(cè)的噪聲填充處理。在使用時間扭曲功 能的系統(tǒng)中易于獲得該音頻信號分析,因為時間扭曲功能一般包括音調(diào)追蹤器和/或信號 分類器,用于區(qū)分語音與音樂,和/或區(qū)分有發(fā)音語音與無發(fā)音語音。因為該信息在這種上下文中可用而不需任何此外的成本,因此可用的信息有利地用于控制該噪聲填充特征,使 得尤其對于語音信號,可減少諧波線之間的噪聲填充,或具體地對于語音信號,甚至消除諧 波線之間的噪聲填充。甚至在獲得強諧波內(nèi)容但是語音檢測器沒有直接檢測到語音的情況 中,噪聲填充的減少仍然將導(dǎo)致更高的感知質(zhì)量。雖然該特征在無論如何也執(zhí)行諧波/語 音分析的系統(tǒng)中特別有用,且因此該信息可用且不需任何附加成本,甚至當(dāng)必須將特定信 號分析器插入該系統(tǒng)中時,對基于信號具有諧波還是語音特性的信號分析的噪聲填充方案 的控制也是附加有用的,因為增強質(zhì)量而比特率沒有增加,或換言之,比特率減少而質(zhì)量沒 有損失,因此當(dāng)減少可從編碼器發(fā)送至解碼器的噪聲填充級別本身時,減少了用于對該噪 聲填充級別編碼所需的比特。
在本發(fā)明另一方面中,信號分析結(jié)果,即信號是諧波信號還是語音信號,用于控制 音頻編碼器的窗口函數(shù)處理。已發(fā)現(xiàn)在語音信號或諧波信號開始的情況中,簡單編碼器將 從長窗口切換至短窗口的可能性是很高的。然而這些短窗口具有對應(yīng)地減少的頻譜解析 度,另一方面,該頻率解析度將減少強諧波信號的編碼增益,且因此增加對這種信號部分編 碼所需的比特數(shù)目。鑒于此,當(dāng)檢測到語音或諧波信號開始時,在本方面中定義的本發(fā)明使 用比短窗口更長的窗口。備選地,選擇具有與該長窗口大致相似長度的但具有更短重疊的 窗口,以有效地減少前回聲。大體上,音頻信號的時幀具有諧波還是語音特性的信號特性用 于選擇針對該時幀的窗口函數(shù)。
根據(jù)本發(fā)明的另一方面,基于底層信號是基于時間扭曲操作還是在線性域中來控 制TNS(時域噪聲修整)工具。一般地,已通過時間扭曲操作來處理的信號將具有強諧波內(nèi) 容。否則,與時間扭曲級相關(guān)聯(lián)的音調(diào)追蹤器將不會輸出有效音調(diào)輪廓,且在缺少這種有 效音調(diào)輪廓時,對與音頻信號的該時幀將停用時間扭曲功能。然而,諧波信號將一般不適于 經(jīng)受TNS處理。當(dāng)由TNS級處理的信號具有相當(dāng)平坦的頻譜時,TNS處理特別有用且產(chǎn)生 比特率/質(zhì)量上的重要增益。然而,當(dāng)該信號的外觀是音調(diào)的(tonal),即非平坦的,如同在 具有諧波內(nèi)容或有發(fā)音內(nèi)容的頻譜的情況中,則將減少由TNS工具提供的質(zhì)量/比特率上 的增益。因此,不使用該TNS工具的發(fā)明性修改,時間扭曲部分一般不由TNS處理,但是會 在不使用TNS濾波的情況下來處理。另一方面,TNS的噪聲修整特征仍然提供增強的質(zhì)量, 特別是在信號在振幅/功率上變化的情況中。在諧波信號或語音信號的開始存在,以及實 施了塊切換特征使得維持長窗口或者至少長于短窗口的窗口、而非該起始的情況中,該幀 的時域噪聲修整特征的激活將導(dǎo)致語音開始周圍的噪聲的濃縮,這有效地減少可能由于在 隨后的編碼器處理中發(fā)生的幀量化而在語音開始之前發(fā)生的前回聲。
根據(jù)本發(fā)明的另一方面,由音頻編碼設(shè)備中的量化器/熵編碼器來處理可變數(shù)目 的線,以計入可變帶寬,通過執(zhí)行具有可變時間扭曲特性/扭曲輪廓的時間扭曲操作來引 入該可變帶寬。當(dāng)該時間扭曲操作導(dǎo)致增加了時間扭曲幀中包括的幀時間(以線性)時, 減少了單一頻率線的帶寬,且,對于恒定總帶寬,在未時間扭曲情況下將增加要處理的頻率 線數(shù)目。另一方面,當(dāng)時間扭曲操作導(dǎo)致在該時間扭曲域中音頻信號的實際時間相對于在 線性域中的音頻信號塊長度減少時,增加了單一頻率線的頻率帶寬,且因此在未時間扭曲 情況下,必須減少由源編碼器處理的線數(shù)目,以具有減少的帶寬變化或最好沒有帶寬變化。
隨后通過附圖來描述優(yōu)選實施例,其中
圖1示出了根據(jù)本發(fā)明的實施例的時間扭曲激活信號提供器的示意框圖2a示出了根據(jù)本發(fā)明的實施例的音頻信號編碼器的示意框圖2b示出了根據(jù)本發(fā)明的實施例的時間扭曲激活信號提供器的另一示意框圖3a示出了音頻信號的未時間扭曲版本的頻譜的圖形表示;
圖3b示出了音頻信號的時間扭曲版本的頻譜的圖形表示;
圖3c示出了針對不同頻帶的頻譜平坦度度量的個別計算的圖形表示;
圖3d示出了僅考慮頻譜的較高頻帶部分的頻譜平坦度度量的計算的圖形表示;
圖3e示出了使用頻譜表示的頻譜平坦度度量的計算的圖形表示,在該頻譜表示 中,相對于較低頻率部分強調(diào)了較高頻率部分;
圖3f示出了根據(jù)本發(fā)明的另一實施例的能量壓縮信息提供器的示意框圖3g示出了在時域中具有時間上可變音調(diào)的音頻信號的圖形表示;
圖3h示出了圖3g的音頻信號的時間扭曲(不均勻重新采樣的)版本的圖形表 示;
圖3i示出了根據(jù)圖3g的音頻信號的自相關(guān)函數(shù)的圖形表示;
圖3j不出了根據(jù)圖3h的首頻/[目號的自相關(guān)函數(shù)的圖形表不;
圖3k示出了根據(jù)本發(fā)明另一實施例的能量壓縮信息提供器的示意框圖4a示出了用于基于音頻信號來提供時間扭曲激活信號的方法的流程圖4b示出了根據(jù)本發(fā)明的實施例的用于對輸入音頻信號編碼,以獲得該輸入音 頻信號的編碼表示的方法的流程圖5a示出了具有創(chuàng)造性方面的音頻編碼器的優(yōu)選實施例;
圖5b示出了具有創(chuàng)造性方面的音頻解碼器的優(yōu)選實施例;
圖6a不出了本發(fā)明的噪聲填充方面的優(yōu)選實施例;
圖6b示出了定義由噪聲填充級別操縱器所執(zhí)行的控制操作的表格;
圖7a示出了根據(jù)本發(fā)明的用于執(zhí)行基于時間扭曲的塊切換的優(yōu)選實施例;
圖7b示出了影響窗口函數(shù)的備選實施例;
圖7c示出了用于基于時間扭曲信息來說明窗口函數(shù)的另一備選實施例;
圖7d示出了在有發(fā)音啟動處的正常AAC行為的窗口序列;
圖7e示出了根據(jù)本發(fā)明的優(yōu)選實施例獲得的備選窗口序列;
圖8a示出了 TNS(時域噪聲整修)工具的基于時間扭曲的控制的優(yōu)選實施例;
圖Sb示出了定義圖8a中閾值控制信號產(chǎn)生器中所執(zhí)行的控制步驟的表格;
圖9a_9e示出了不同的時間扭曲特性以及在解碼器側(cè)時間扭曲操作之后發(fā)生的 對音頻信號的帶寬上的對應(yīng)影響;
圖1Oa示出了用于控制編碼處理器中的線的數(shù)目的控制器的優(yōu)選實施例;
圖1Ob示出了針對采樣率要丟棄/添加的線的數(shù)目之間的依賴性;
圖11示出了線性時間尺度與扭曲時間尺度之間的比較;
圖12a示出了在帶寬擴展的上下文中的實施;以及
圖12b示出了表,該表示出了在時間扭曲域中的本地采樣率與頻譜系數(shù)的控制之 間的依賴性。
具體實施方式
圖1示出了根據(jù)本發(fā)明的實施例的時間扭曲激活信號提供器的示意框圖。該時間 扭曲激活信號提供器100被配置為接收音頻信號的表示110,且基于該表示110提供時間扭 曲激活信號112。時間扭曲激活信號提供器100包括能量壓縮信息提供器120,被配置為提 供能量壓縮信息122,該信息122描述該音頻信號的時間扭曲變換頻譜表示的能量的壓縮。 時間扭曲激活信號提供器100還包括比較器130,被配置為將能量壓縮信息122與參考值 132作比較,以取決于該比較的結(jié)果提供時間扭曲激活信號112。
如上所述,已發(fā)現(xiàn)能量壓縮信息是允許對時間扭曲是否帶來比特節(jié)約的計算上高 效率估計的有價值信息。已發(fā)現(xiàn)比特節(jié)約的存在性與該時間扭曲是否導(dǎo)致能量壓縮的問 題密切相關(guān)。
圖2a示出了根據(jù)本發(fā)明的實施例的音頻信號編碼器200的示意框圖。音頻信號 編碼器200被配置為接收輸入音頻信號210 (也以a(t)標(biāo)明),且基于該輸入音頻信號210 提供該輸入音頻信號210的編碼表示212。音頻信號編碼器200包括時間扭曲變換器220, 被配置為接收輸入音頻信號210 (可在時域中表示該信號),且基于輸入音頻信號210提供 該輸入音頻信號210的時間扭曲變換頻譜表示222。音頻信號編碼器200還包括時間扭曲 分析器284,被配置為分析輸入音頻信號210,且基于該輸入音頻信號210,提供時間扭曲輪 廓信息286 (例如絕對或相對時間扭曲輪廓信息)。
音頻信號編碼器200還包括切換機制,例如具有受控開關(guān)240的形式的切換機制, 以判定是發(fā)現(xiàn)的時間扭曲輪廓信息286還是標(biāo)準(zhǔn)時間扭曲輪廓信息288用于進(jìn)一步的處 理。因此,該切換機制240被配置為取決于時間扭曲激活信息,選擇性地將發(fā)現(xiàn)的時間扭曲 輪廓信息286或標(biāo)準(zhǔn)時間扭曲輪廓信息288作為新時間扭曲輪廓信息242提供給例如時間 扭曲變換器220用于進(jìn)一步的處理。應(yīng)注意,時間扭曲變換器220可例如針對音頻幀的時 間扭曲來使用新時間扭曲輪廓信息242 (例如新時間扭曲輪廓部分),且此外使用之前獲得 的時間扭曲信息(例如一個或多個之前獲得的時間扭曲輪廓部分)。該可選的頻譜后處理 可包括例如時域噪聲整修和/或噪聲填充分析。音頻信號編碼器200還包括量化器/編碼 器260,被配置為接收頻譜表示222 (可選地由頻譜后處理250來處理),且量化及編碼該變 換頻譜表示222。為此,量化器/編碼器260可與感知模型270耦合,且從感知模型270接 收感知關(guān)聯(lián)信息272,以考慮感知屏蔽且根據(jù)人類感知以不同的頻率槽來調(diào)整量化精確度。 音頻信號編碼器200還包括輸出接口 280,被配置為基于由量化器/編碼器260所提供的已 量化且編碼的頻譜表示262,提供該音頻信號的編碼表示212。
音頻信號編碼器200還包括時間扭曲激活信號提供器230,被配置為提供時間扭 曲激活信號232。時間扭曲激活信號232例如可用于控制切換機制240,以判定新發(fā)現(xiàn)時間 扭曲輪廓信息286還是標(biāo)準(zhǔn)時間扭曲輪廓信息288用于進(jìn)一步的處理步驟中(例如由時 間扭曲變換器220)。此外,時間扭曲激活信息232可用于開關(guān)280中,以判定輸入音頻信 號210的編碼表示212是否包括已選擇的新時間扭曲輪廓信息242(從新發(fā)現(xiàn)時間扭曲輪 廓信息286及標(biāo)準(zhǔn)時間扭曲輪廓信息中選擇的)。一般地,如果已選擇時間扭曲輪廓信息描 述非恒定(變化)時間扭曲輪廓,則時間扭曲輪廓信息僅被包括在該音頻信號的編碼表示 212中。同樣,編碼表示212可包括時間扭曲激活信息232其本身,例如具有指示該時間扭曲激活或停用的一比特旗標(biāo)的形式。
為了利于理解,應(yīng)注意時間扭曲變換器220 —般包括分析加窗器220a、重新采樣器或“時間扭曲器”220b及頻譜域變換器(或時間/頻率轉(zhuǎn)換器)220c。然而,視實施而定, 可將時間扭曲器220b放置于在信號處理方向上的分析加窗器220a之前。然而,在一些實施例中可將時間扭曲及時域到頻譜域變換結(jié)合在單一單元中。
在下文中,將描述關(guān)于時間扭曲激活信號提供器230的操作的細(xì)節(jié)。應(yīng)注意時間扭曲激活信號提供器230可等效于時間扭曲激活信號提供器100。
時間扭曲激活信號提供器230優(yōu)選地被配置為接收時域音頻信號表示210 (也以 a(t)標(biāo)明)、新發(fā)現(xiàn)時間扭曲輪廓信息286,及標(biāo)準(zhǔn)時間扭曲輪廓信息288。時間扭曲激活信號提供器230也被配置為使用時域音頻信號210、新發(fā)現(xiàn)時間扭曲輪廓信息286及標(biāo)準(zhǔn)時間扭曲輪廓信息288,來獲得描述由于新發(fā)現(xiàn)時間扭曲輪廓信息286而產(chǎn)生的能量壓縮的能量壓縮信息,且基于該能量壓縮信息來提供時間扭曲激活信號232。
圖2b示出了根據(jù)本發(fā)明的實施例的時間扭曲激活信號提供器234的示意框圖。時間扭曲激活信號提供器234在一些實施例中可發(fā)揮時間扭曲激活信號提供器230的作用。 時間扭曲激活信號提供器234被配置為接收輸入音頻信號210,及兩個時間扭曲輪廓信息 286與288,且基于它們來提供時間扭曲激活信號234p。時間扭曲激活信號234p可發(fā)揮時間扭曲激活信號232 的作用。時間扭曲激活信號提供器包括兩個相同的時間扭曲表示提供器234a、234g,被配置為分別接收輸入音頻信號210及時間扭曲輪廓信息286與288,且基于它們分別提供兩個時間扭曲表示234e及234k。時間扭曲激活信號提供器234還包括兩個相同的能量壓縮信息提供器234f及2341,被配置為分別接收時間扭曲表示234e及234k, 且基于它們分別提供能量壓縮信息234m及234η。時間扭曲激活信號提供器還包括比較器 2340,被配置為接收能量壓縮信息234m及234η,且基于它們提供時間扭曲激活信號234ρ。
為了利于理解,應(yīng)注意時間扭曲表示提供器234a與234g —般包括(可選)相同的分析加窗器234b及234h、相同的重新采樣器或時間扭曲器234c及234i,及(可選)相同的頻譜域變換器234d及234 j。
在下文中,將討論用于獲得能量壓縮信息的不同概念。事先將做介紹以說明典型音頻信號上的時間扭曲效果。
在下文中,將參考圖3a及3b來描述音頻信號上時間扭曲的效果。圖3a示出了音頻信號的頻譜的圖形表示。橫坐標(biāo)301描述頻率,縱坐標(biāo)302描述該音頻信號的強度。曲線303描述了與頻率f相關(guān)的非時間扭曲音頻信號的強度。
圖3b示出了圖3a中表示的音頻信號的時間扭曲版本的頻譜的圖形表示。同樣, 橫坐標(biāo)306描述頻率,縱坐標(biāo)307描述該音頻信號的扭曲版本的強度。曲線308描述該音頻信號的時間扭曲版本的強度對頻率。從圖3a與3b的圖形表示的比較可看出,該音頻信號的未時間扭曲(“未扭曲”)版本包括模糊頻譜,具體地在較高頻域中。相對地,該輸入音頻信號的時間扭曲版本包括具有清晰可區(qū)分的頻譜波峰的頻譜,甚至在較高頻域中。此外, 甚至可在該輸入音頻信號的時間扭曲版本的較低頻譜域中看到頻譜波峰的中等銳化。
應(yīng)注意圖3b中所示的輸入音頻信號的時間扭曲版本的頻譜可由例如量化器/編碼器260以比圖3a所示的未扭曲輸入音頻信號的頻譜更低的比特率來量化及編碼。這是由于如下事實模糊頻譜一般包括很大數(shù)目的感知相關(guān)頻譜系數(shù)(即相對很小數(shù)目的被量化為零或被量化為很小值的頻譜系數(shù)),同時如圖3所示的“不那么平坦的”頻譜一般包括較大數(shù)目被量化為零或被量化為很小值的頻譜系數(shù)。可以用比被量化為較高值的頻譜系數(shù)更少的比特來對被量化為零或被量化為很小值的頻譜系數(shù)進(jìn)行編碼,使得可使用比圖3a 的頻譜更少的比特對圖3b的頻譜編碼。
然而,還應(yīng)注意到時間扭曲的使用不總是導(dǎo)致時間扭曲信號的編碼效率的顯著增強。因此,在一些情況中,對時間扭曲信息(例如時間扭曲輪廓)編碼所需的價格(在比特率的意義上)可能超出用于對時間扭曲變換頻譜編碼的節(jié)約(在比特率的意義上)(當(dāng)與編碼非時間扭曲變換頻譜相比較時)。在此情況中,優(yōu)選地使用標(biāo)準(zhǔn)(不變)時間扭曲輪廓提供該音頻信號的編碼表示,以控制該時間扭曲變換。因此,可忽略任何時間扭曲信息(即時間扭曲輪廓信息)的發(fā)送(除指示該時間扭曲的停用的旗標(biāo)之外),從而保持該比特率很低。
在下文中,將參考圖3c_3k來描述用于對時間扭曲激活信號112、232、234p的可靠且計算上高效率的計算的不同概念。然而,在此之前,將簡短概括該創(chuàng)造性概念的背景。
基本假定是對具有變化音調(diào)的諧波信號應(yīng)用時間扭曲使得該音調(diào)恒定,且使該音調(diào)恒定增強了通過隨后的時間頻率變換所獲得的頻譜的編碼,因為僅有限數(shù)目的重要的線保留(參見圖3b),而不是若干頻譜容量上不同諧波的模糊(參見圖3a)。然而,即使當(dāng)檢測到音調(diào)變化時,可忽略(例如,如果在諧波信號下有強噪聲,或如果該變化太小以至較高諧波的模糊沒有問題)編碼增益上的增強(即所節(jié)約的比特的數(shù)量),或編碼增益上的增強可少于需要將時間扭曲輪廓傳輸至解碼器的比特的數(shù)量,或可簡單地是錯的。在這些情況中,優(yōu)選地拒絕由時間扭曲輪廓編碼器產(chǎn)生的變化時間扭曲輪廓(例如286),而相反使用有效的一比特信令,以信號方式發(fā)送標(biāo)準(zhǔn)(不變)時間扭曲輪廓。
本發(fā)明的范圍包括創(chuàng)建一種判定已獲得的時間扭曲輪廓部分是否提供足夠的編碼增益(例如足以補償時間扭曲輪廓編碼所需的開銷的編碼增益)的方法。
如上所述,時間扭曲的最重要的方面是較少數(shù)目線的頻譜能量壓縮(參見圖3a及 3b)。它們示出了能量壓縮還對應(yīng)于“不那么平坦的”的頻譜(參見圖3a及3b),因為增加了該頻譜的波峰與波谷之間的差。將該能量濃縮于較少的線處,所述較少的線在具有比之前更少能量的線之間。
圖3a與3b示出了具有強諧波及音調(diào)變化的幀的未扭曲頻譜(圖3a)與同一幀的時間扭曲版本的頻譜(圖3b)的示意性示例。
鑒于該情況,已發(fā)現(xiàn)將頻譜平坦度度量用作該時間扭曲效率的可能的度量是有利的。
可例如通過功率頻譜的幾何平均除以功率頻譜的算術(shù)平均來計算該頻譜平坦度。 例如,可根據(jù)如下公式來計算該頻譜平坦度(也以“平坦度”簡短地標(biāo)明)
平坦度='.1X(H) —.......上.......ΛN
在上式中,χ(η)表示容量號碼η的大小。此外,在上式中,N表示該頻譜平坦度度量的計算所考慮到的頻譜容量的總數(shù)目。
在本發(fā)明的實施例中,可使用時間扭曲變換頻譜表示234e、234k來執(zhí)行作為能量壓縮信息的“平坦度”的上述計算,使得可以保持如下關(guān)系
X (η) = IX Itw (η)
在該情況中,N可以等于由頻譜域變換器234d、234j提供的頻譜線的數(shù)目,|X tw(n)是時間扭曲變換頻譜表示234e、234k。
盡管該頻譜度量是用于提供該時間扭曲激活信號的有用的量,類似于信號對噪聲比(SNR)度量,該頻譜平坦度度量的一個缺點是如果應(yīng)用于整個頻譜,則其強調(diào)具有較高能量的部分。通常,諧波頻譜具有特定的頻譜傾斜,意指大部分能量濃縮于頭幾個部分音調(diào),然后隨頻率的增加而減少,導(dǎo)致該度量中較高部分的代表性不足。這在一些實施例中是不想要的,由于需要增強這些較高部分的質(zhì)量,因為它們變得最模糊(參見圖3a)。在下文中,將討論該頻譜平坦度度量的關(guān)聯(lián)性的增強的若干可選概念。
在根據(jù)本發(fā)明的實施例中,選擇一種與所謂的“分段式SNR”度量相似的方法,導(dǎo)致逐頻帶頻譜平坦度度量。在一定數(shù)目的頻帶中(例如分別地)執(zhí)行該頻譜平坦度度量的計算,且采用主要部分(或平均)。不同頻帶可具有相等的帶寬。然而,優(yōu)選地,這些帶寬將遵循感知尺度,如關(guān)鍵頻帶,或?qū)?yīng)于例如所謂的“高級音頻編碼”(也稱為AAC)的擴縮因子頻帶。
將在下文中參考圖3c來簡短解釋上述概念,圖3c示出了針對不同頻帶的頻譜平坦度度量的單獨計算的圖形表示。如圖所示,可將該頻譜分為不同的頻帶311、312、313,它們可具有相等的帶寬或可具有不同的帶寬。例如,針對第一頻帶311,可使用例如上文給出的“平坦度”公式來計算第一頻譜平坦度度量。在該計算中,可以考慮第一頻帶的頻率槽 (游動變量η可采用第一頻帶的頻率槽的頻率槽索引),且可以考慮該第一頻帶311的寬度 (可變N可采用以第一頻帶的頻率槽為單位的寬度)。因此,獲得針對第一頻帶311的平坦度度量。相似地,可考慮到第二頻帶312的頻率槽及第二頻帶的寬度來計算針對第二頻帶 312的平坦度度量。此外,可以用相同方法來計算附加頻帶如第三頻帶312的平坦度度量。
隨后,可以計算針對不同頻帶311、312、313的平坦度度量的平均值,且該平均值可用作能量壓縮信息。
另一方法(用于該時間扭曲激活信號的導(dǎo)出的增強)是將該頻譜平坦度度量僅應(yīng)用于特定頻率。圖3d示出了這種方法。如圖所示,針對該頻譜坦平度度量的計算,僅考慮在頻譜的高頻部分316中的頻率槽。針對該頻譜平坦度度量的計算忽略該頻譜的低頻部分。 針對該頻譜平坦度度量的計算,可以逐頻帶的考慮高頻部分316。備選地,針對該頻譜平坦度度量的計算,可以作為整體地考慮全部高頻部分316。
綜上所述,可以將頻譜平坦度的減少(由時間扭曲的應(yīng)用引起的)視為該時間扭曲的效果的第一度量。
例如,時間扭曲激活信號提供器100、230、234(或其比較器130、234ο)可使用標(biāo)準(zhǔn)時間扭曲輪廓信息,將時間扭曲變換頻譜表示234e的頻譜平坦度度量與時間扭曲變換頻譜表示234k的頻譜平坦度度量進(jìn)行比較,且基于所述比較來判定該時間扭曲激活信號是有效還是無效的。例如,當(dāng)與沒有時間扭曲的情況相比時,如果該時間扭曲導(dǎo)致頻譜平坦度度量的充分減少,則通過時間扭曲激活信號的恰當(dāng)設(shè)置來激活該時間扭曲。
除上述方法以外,針對該頻譜平坦度的計算,可相對于低頻部分來強調(diào)該頻譜的高頻部分(例如通過恰當(dāng)?shù)臄U縮)。圖3c示出了時間扭曲變換頻譜的圖形表示,在該時間扭曲變換頻譜中,相對于低頻部分強調(diào)了高頻部分。因此,補償了該頻譜中的高頻部分的代表性不足。因此如圖3e所示,可在完成擴縮的、其中相對于低頻率槽強調(diào)了高頻率槽的頻譜上計算平坦度度量。
就比特節(jié)約而言,編碼效率的典型度量將是感知熵,可以用一種如以下文獻(xiàn)所述的方式來定義感知熵,使得其與對特定頻譜進(jìn)行編碼所需的比特實際數(shù)目很好的聯(lián)系起來3GPP TS 26. 403V7. O. O 3rdGeneration Partnership Project ; Technical Specification Group Servicesand System Aspects ;General audio codec audio processing functions ;Enhanced aacPlus general audio codec ;Encoder specification AAC part Section 5. 6.1.1. 3Relation between bit demand and perceptual entropy。所以,該感知熵的減少是時間扭曲的效率的另一度量。
圖3f示出了能量壓縮信息提供器325,可取代能量壓縮信息提供器120、234f、 2341,且可用在時間扭曲激活信號提供器100、290、234中。能量壓縮信息提供器325被配置為接收該音頻信號的表示,例如,以時間扭曲變換頻譜表示234e、234k的形式,也以|X |tw 標(biāo)明。能量壓縮信息提供器325還被配置為提供感知熵信息326,可取代能量壓縮信息122、 234m、234n。
能量壓縮信息提供器325包括波形因子計算器327,被配置為接收時間扭曲變換頻譜表示234e、234k,且基于它們來提供波形因子信息328,該波形因子信息328可與頻帶相關(guān)聯(lián)。能量壓縮信息提供器325還包括頻帶能量計算器329,被配置為基于時間扭曲頻譜表示234e、234k來計算頻帶能量信息en(n) (330)。能量壓縮信息提供器325還包括線數(shù)目估計器331,被配置為對具有索引η的頻帶提供線的估計數(shù)目的信息nl (332)。此外,能量壓縮信息提供器325包括感知熵計算器333,被配置為基于頻帶能量信息330及線的估計數(shù)目的信息332,計算感知熵信息326。例如,波形因子計算器327可被配置為根據(jù)下述公式來計算波形因子
權(quán)利要求
1.一種用于產(chǎn)生編碼音頻信號的音頻編碼器,包括音頻信號分析器(516、520),用于分析所述音頻信號的時幀具有諧波還是語音特性;窗口函數(shù)控制器(504),用于取決于所述音頻信號的諧波或語音特性來選擇窗口函數(shù);加窗器(502),用于使用所選擇的窗口函數(shù)將所述音頻信號窗口化,以獲得窗口化巾貞;以及處理器(508、512),用于進(jìn)一步處理所述窗口化幀,以獲得所述編碼音頻信號;其中,所述窗口函數(shù)控制器(504)包括用于檢測瞬變的瞬變檢測器(700),所述窗口函數(shù)控制器被配置為用于當(dāng)檢測到瞬變且所述音頻信號分析器(516、520)未發(fā)現(xiàn)諧波或語音特性時,從針對長塊的窗口函數(shù)切換至針對短塊的窗口函數(shù),以及被配置為用于當(dāng)檢測到瞬變且所述音頻信號分析器(516、520)發(fā)現(xiàn)諧波或語音特性時,不切換至針對短塊的窗口函數(shù);以及其中,所述窗口函數(shù)控制器(504)被配置為用于當(dāng)檢測到瞬變且所述信號具有諧波或語音特性時,切換至比針對短塊的窗口函數(shù)更長的窗口函數(shù)(707),并且適于獲得比針對長塊的窗口函數(shù)(714)更短的與之前窗口(706)重疊的左側(cè)重疊長度(712),使得適于獲得更短的重疊長度的窗口函數(shù)(707)用于對語音開始或諧波信號的開始進(jìn)行窗口化。
2.一種用于產(chǎn)生編碼音頻信號的音頻編碼器,包括音頻信號分析器(516、520),用于分析所述音頻信號的時幀具有諧波還是語音特性;窗口函數(shù)控制器(504),用于取決于所述音頻信號的諧波或語音特性來選擇窗口函數(shù);加窗器(502),用于使用所選擇的窗口函數(shù)對所述音頻信號進(jìn)行窗口化,以獲得窗口化幀;以及處理器(508、512),用于進(jìn)一步處理所述窗口化幀,以獲得所述編碼音頻信號,以及瞬變檢測器(700);其中,所述瞬變檢測器(700)被配置為用于檢測所述音頻信號的定量特性,以及被配置為將所述定量特性與可控閾值相比較,當(dāng)所述定量特性具有與所述可控閾值的預(yù)定關(guān)系時,檢測到瞬變,以及其中,所述音頻信號分析器被配置為用于控制所述可變閾值,使得當(dāng)所述音頻信號分析器(516、520)已經(jīng)發(fā)現(xiàn)諧波或語音特性時,減少切換至針對短塊的窗口函數(shù)的可能性。
3.一種用于產(chǎn)生編碼音頻信號的方法,包括分析(516、520)所述音頻信號的時幀具有諧波還是語音特性;取決于所述音頻信號的諧波或語音特性來選擇(504)窗口函數(shù);使用所選擇的窗口函數(shù)將所述音頻信號窗口化(502),以獲得窗口化幀;以及處理(508、512)所述窗口化幀,以獲得所述編碼音頻信號;其中,當(dāng)檢測到瞬變且通過所述分析未發(fā)現(xiàn)諧波或語音特性時,執(zhí)行從針對長塊的窗口函數(shù)到針對短塊的窗口函數(shù)的切換,以及其中,當(dāng)檢測到瞬變且所述信號具有諧波或語音特性時,執(zhí)行至比針對短塊的窗口函數(shù)更長的窗口函數(shù)(707)的切換,并且所述更長的窗口函數(shù)(707)具有比針對長塊的窗口函數(shù)(714)更短的左側(cè)重疊(712),使得具有更短的重疊的窗口函數(shù)(707)用于對語音開始或諧波信號的開始進(jìn)行窗口化。
4.一種用于產(chǎn)生編碼音頻信號的方法,包括分析(516、520)所述音頻信號的時幀具有諧波還是語音特性;取決于所述音頻信號的諧波或語音特性來選擇(504)窗口函數(shù);使用所選擇的窗口函數(shù)對所述音頻信號進(jìn)行窗口化(502),以獲得窗口化幀;以及處理(508、512)所述窗口化幀,以獲得所述編碼音頻信號;其中,檢測所述音頻信號的定量特性,以及將所述定量特性與可控閾值相比較,當(dāng)所述定量特性具有與所述可控閾值的預(yù)定關(guān)系時,檢測到瞬變,以及其中,控制所述可變閾值,使得當(dāng)已經(jīng)發(fā)現(xiàn)諧波或語音特性時,減少切換至針對短塊的窗口函數(shù)的可能性。
5.一種具有程序代碼的計算機程序,當(dāng)所述程序代碼在計算機上運行時,所述程序代碼用于執(zhí)行權(quán)利要求3或4所述的方法。
全文摘要
音頻編碼器包括窗口函數(shù)控制器(504)、加窗器(502)、具有最終質(zhì)量檢查功能的時間扭曲器(506)、時間/頻率轉(zhuǎn)換器(508)、TNS級(510)或量化器編碼器(512),由時間扭曲分析器(516)或信號分類器(520)獲得的信號分析結(jié)果來控制所述窗口函數(shù)控制器(504)、所述時間扭曲器(506)、所述TNS級(510)或附加的噪聲填充分析器(524)。此外,解碼器使用取決于音頻信號的諧波或語音特性的經(jīng)操縱的噪聲填充估計來應(yīng)用噪聲填充操作。
文檔編號G10L19/002GK103000186SQ20121049165
公開日2013年3月27日 申請日期2009年7月6日 優(yōu)先權(quán)日2008年7月11日
發(fā)明者斯特凡·拜爾, 薩沙·迪施, 拉爾夫·蓋格爾, 紀(jì)堯姆·??怂? 馬克斯·諾伊恩多夫, 杰拉爾德·舒勒, 貝恩德·埃德勒 申請人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會