像言語(yǔ)的信號(hào)和不像言語(yǔ)的信號(hào)的多模式編碼的制作方法

文檔序號(hào)：2823084閱讀：223來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：像言語(yǔ)的信號(hào)和不像言語(yǔ)的信號(hào)的多模式編碼的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及用于編碼與解碼音頻信號(hào)(特別是可以同時(shí)包括像言語(yǔ)的信號(hào)分量和不像言語(yǔ)的信號(hào)分量?jī)烧咭约?或者在時(shí)間上順序地包括像言語(yǔ)的信號(hào)分量和不像言語(yǔ)的信號(hào)分量?jī)烧叩囊纛l信號(hào))的方法與裝置。能夠響應(yīng)于像言語(yǔ)的信號(hào)內(nèi)容和不像言語(yǔ) 的信號(hào)內(nèi)容的變化改變它們的編碼特征和解碼特征的音頻編碼器和解碼器在本領(lǐng)域經(jīng)常被稱作“多模式” “編解碼器(codec)”(其中“編解碼器”可以是編碼器和解碼器)。本發(fā) 明也涉及用于實(shí)現(xiàn)這樣的編碼與解碼音頻信號(hào)的方法的存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序。

發(fā)明內(nèi)容
在本文檔中，“像言語(yǔ)的信號(hào)(speech-like signal) ”通篇都指下面這樣的信號(hào)，所述信號(hào)包含a)單個(gè)、強(qiáng)的周期分量(“濁音的”像言語(yǔ)的信號(hào))、b)沒(méi)有周期性的隨機(jī)噪聲(“清音的”像言語(yǔ)的信號(hào))、或者c)這些信號(hào)類(lèi)型之間的過(guò)渡(transition)。像言語(yǔ) 的信號(hào)的例子包括單個(gè)談話者的言語(yǔ)和某種單個(gè)的樂(lè)器產(chǎn)生的音樂(lè)；以及，“不像言語(yǔ)的信號(hào)(non-speech-like signal) ”指不具有像言語(yǔ)的信號(hào)的特征的信號(hào)。不像言語(yǔ)的信號(hào)的例子包括來(lái)自個(gè)樂(lè)器的音樂(lè)信號(hào)和來(lái)自不同音高(Pitch)的(人)談話者的混合的言語(yǔ)。根據(jù)本發(fā)明的第一個(gè)方面，用于碼激勵(lì)線性預(yù)測(cè)(code excited linear prediction, CELP)音頻編碼的方法采用通過(guò)LPC參數(shù)控制的LPC綜合濾波器；多個(gè)碼本，每一個(gè)碼本具有碼矢量(codevector)；提供較適合于像言語(yǔ)的信號(hào)而較不適合于不像言語(yǔ)的信號(hào)的激勵(lì)的至少一個(gè)碼本、以及提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)的至少一個(gè)其他的碼本；以及多個(gè)增益因子，每一個(gè)增益因子與碼本關(guān)聯(lián)。該方法包含對(duì)音頻信號(hào)應(yīng)用線性預(yù)測(cè)編碼(LPC)分析以生成LPC參數(shù)；通過(guò)將音頻信號(hào) 和從碼本激勵(lì)得到的音頻信號(hào)的重構(gòu)(reconstruction)之間的差異的量度(measure)最小化來(lái)從至少兩個(gè)碼本選擇碼矢量和/或關(guān)聯(lián)的增益因子，所述碼本包括提供較適合于不像言語(yǔ)的信號(hào)的激勵(lì)的碼本和提供較適合于像言語(yǔ)的信號(hào)的激勵(lì)的碼本；以及產(chǎn)生可由 CELP音頻解碼器用于重構(gòu)音頻信號(hào)的輸出、包括LPC參數(shù)的輸出、碼矢量和增益因子。所述最小化可按閉環(huán)方式將音頻信號(hào)的重構(gòu)和音頻信號(hào)之間的差異最小化。差異的量度可以是感知力口權(quán)的量度(perceptually-weighted measure)。根據(jù)一種變化，可以不通過(guò)線性預(yù)測(cè)編碼綜合濾波器對(duì)信號(hào)或者從碼本(所述碼本的激勵(lì)輸出較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào))得到的信號(hào)進(jìn)行濾波。
提供較適合于像言語(yǔ)的信號(hào)而較不適合于不像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述至少一個(gè)碼本可以包括生成像噪聲的激勵(lì)的碼本和生成周期性激勵(lì)的碼本，以及，提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述至少一個(gè)其他的碼本可包括生成對(duì)仿真(emulating)感知音頻編碼器有用的正弦曲線激勵(lì)的碼本。該方法可進(jìn)一步包含對(duì)音頻信號(hào)應(yīng)用長(zhǎng)期預(yù)測(cè)(LTP)分析以生成LTP參數(shù)，其中生成周期性激勵(lì)的碼本是通過(guò)LTP參數(shù)控制的、接收至少周期性激勵(lì)和像噪聲的激勵(lì)的時(shí) 間延遲的組合作為信號(hào)輸入的適應(yīng)性碼本，并且其中輸出進(jìn)一步包括LTP參數(shù)。適應(yīng)性碼本可選擇性地或者接收周期性激勵(lì)、像噪聲的激勵(lì)和正弦曲線激勵(lì)的時(shí) 間延遲的組合作為信號(hào)輸入，或者僅接收周期性激勵(lì)和像噪聲的激勵(lì)的時(shí)間延遲的組合作為信號(hào)輸入，并且輸出可進(jìn)一步包括關(guān)于該適應(yīng)性碼本是否在激勵(lì)的組合中接收正弦曲線激勵(lì)的信息。該方法可進(jìn)一步包含將音頻信號(hào)分類(lèi)成多個(gè)音頻類(lèi)別中的一個(gè)；響應(yīng)于該分類(lèi)，選擇操作模式；以及，以開(kāi)環(huán)方式排它地(exclusively)選擇一個(gè)或多個(gè)碼本來(lái)貢獻(xiàn) (contribute)激勵(lì)輸出。該方法可進(jìn)一步包含確定對(duì)操作模式的選擇的置信度水平(confidence level)，其中存在至少兩個(gè)置信度水平，所述至少兩個(gè)置信度水平包括高置信度水平，并且僅當(dāng)置信度水平為高時(shí)才以開(kāi)環(huán)方式排它地選擇一個(gè)或多個(gè)碼本來(lái)貢獻(xiàn)激勵(lì)輸出。根據(jù)本發(fā)明的另一個(gè)方面，用于碼激勵(lì)線性預(yù)測(cè)(CELP)音頻編碼的方法采用通過(guò)LPC參數(shù)控制的LPC綜合濾波器；多個(gè)碼本，每一個(gè)碼本具有碼矢量；提供較適合于像言語(yǔ)的信號(hào)而較不適合于不像言語(yǔ)的信號(hào)的激勵(lì)的至少一個(gè)碼本、和提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)的至少一個(gè)其他的碼本；以及多個(gè)增益因子，每一個(gè)增益因子與碼本關(guān)聯(lián)。該方法包含將音頻信號(hào)分離成像言語(yǔ)的信號(hào)分量和不像言語(yǔ)的信號(hào)分量；將線性預(yù)測(cè)編碼(LPC)分析應(yīng)用于音頻信號(hào)的像言語(yǔ)的信號(hào)分量以生成LPC參數(shù)；通過(guò)改變與提供較適合于像言語(yǔ)的信號(hào)而較不適合于不像言語(yǔ)的信號(hào)的激勵(lì) 輸出的所述碼本或每一個(gè)碼本關(guān)聯(lián)的碼矢量選擇和/或增益因子、改變與提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述碼本或每一個(gè)碼本關(guān)聯(lián)的碼矢量選擇和/或增益因子，將LPC綜合濾波器輸出和音頻信號(hào)的像言語(yǔ)的信號(hào)分量之間的差異最小化；以及，提供可由CELP音頻解碼器用于再生成(!^produce)音頻信號(hào)的近似 (approximation)的輸出(所述輸出包括與每一個(gè)碼本關(guān)聯(lián)的碼矢量選擇和/或增益)以及LPC參數(shù)。該分離可將音頻信號(hào)分離成像言語(yǔ)的信號(hào)分量和不像言語(yǔ)的信號(hào)分量。根據(jù)作為替代方案的兩個(gè)變化，該分離可以從音頻信號(hào)分離像言語(yǔ)的信號(hào)分量，并且通過(guò)從音頻信號(hào)減去像言語(yǔ)的信號(hào)分量的重構(gòu)來(lái)得到不像言語(yǔ)的信號(hào)分量的近似；或者，該分離可以從音頻信號(hào)分離不像言語(yǔ)的信號(hào)分量，并且通過(guò)從音頻信號(hào)減去不像言語(yǔ) 的信號(hào)分量的重構(gòu)來(lái)得到像言語(yǔ)的信號(hào)分量的近似?？梢蕴峁┑诙€性預(yù)測(cè)編碼(LPC)綜合濾波器，并且可以通過(guò)這樣的第二線性預(yù) 測(cè)編碼綜合濾波器對(duì)不像言語(yǔ)的信號(hào)分量的重構(gòu)進(jìn)行濾波。提供較適合于像言語(yǔ)的信號(hào)而較不適合于不像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述至少一個(gè)碼本可以包括生成像噪聲的激勵(lì)的碼本和生成周期性激勵(lì)的碼本，并且提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述至少一個(gè)其他的碼本可以包括生成對(duì)于仿真感知音頻編碼器有用的正弦曲線激勵(lì)的碼本。該方法可進(jìn)一步包含對(duì)音頻信號(hào)的像言語(yǔ)的信號(hào)分量應(yīng)用長(zhǎng)期預(yù)測(cè)(LTP)分析以生成LTP參數(shù)，在這種情況下，生成周期性激勵(lì)的碼本可以是通過(guò)LTP參數(shù)控制的適應(yīng)性碼本，并且它可以接收周期性激勵(lì)和像噪聲的激勵(lì)的時(shí)間延遲的組合作為信號(hào)輸入。可以響應(yīng)于像言語(yǔ)的信號(hào)，改變與提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述碼本或每一個(gè)碼本關(guān)聯(lián)的碼本矢量選擇和/或增益因子?？筛淖兣c提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述碼本或每一個(gè)碼本關(guān)聯(lián)的碼本矢量選擇和/或增益因子，以減少不像言語(yǔ)的信號(hào)與從所述這樣的碼本或每一個(gè)這樣的碼本重構(gòu)的信號(hào)之間的差異。根據(jù)本發(fā)明的第三個(gè)方面，用于碼激勵(lì)線性預(yù)測(cè)(CELP)音頻解碼的方法采用通過(guò)LPC參數(shù)控制的LPC綜合濾波器；多個(gè)碼本，每一個(gè)碼本具有碼矢量；提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)的至少一個(gè)碼本、以及提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)的至少一個(gè)其他的碼本；以及多個(gè)增益因子，每一個(gè)增益因子與碼本關(guān)聯(lián)。該方法包含接收參數(shù)、碼矢量和增益因子；從至少一個(gè)碼本激勵(lì)輸出得到用于LPC綜合濾波器的激勵(lì)信號(hào)；以及從LPC濾波器的輸出、或者從LPC綜合濾波器的輸出與各碼本中的一個(gè)或多個(gè)的激勵(lì)的組合得到音頻輸出信號(hào)，所述組合受與各碼本中的每一個(gè)關(guān)聯(lián)的碼矢量和/或增益因子的控制。提供較適合于像言語(yǔ)的信號(hào)而較不適合于不像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述至少一個(gè)碼本可以包括生成像噪聲的激勵(lì)的碼本和生成周期性激勵(lì)的碼本，以及，提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述至少一個(gè)其他的碼本可包括生成對(duì)仿真感知音頻編碼器有用的正弦曲線激勵(lì)的碼本。生成周期性激勵(lì)的所述碼本可以是受所述LTP參數(shù)控制的、并且接收至少周期性激勵(lì)和像噪聲的激勵(lì)的時(shí)間延遲的組合作為信號(hào)輸入的適應(yīng)性碼本，并且所述方法可進(jìn)一步包括接收LTP參數(shù)。所有碼本的激勵(lì)可被應(yīng)用于LPC濾波器，并且適應(yīng)性碼本可選擇性地或者接收周期性激勵(lì)、像噪聲的激勵(lì)和正弦曲線激勵(lì)的時(shí)間延遲的組合作為信號(hào)輸入，或者僅接收周期性激勵(lì)和像噪聲的激勵(lì)的時(shí)間延遲的組合作為信號(hào)輸入，并且其中所述方法可以進(jìn)一步包含接收關(guān)于該適應(yīng)性碼本是否在各激勵(lì)的組合中接收正弦曲線激勵(lì)的信息。從LPC濾波器的輸出得到音頻輸出信號(hào)可包括后濾波(postfiltering)。

圖1和圖2示出根據(jù)本發(fā)明的各方面的音頻分類(lèi)分級(jí)結(jié)構(gòu)決定樹(shù)(audio classification hierarchy decision trees)白勺兩fi歹Ij子。圖3示出根據(jù)本發(fā)明的各方面的音頻分類(lèi)分級(jí)結(jié)構(gòu)決定樹(shù)的另一個(gè)例子，其中音頻樣本塊可基于其統(tǒng)計(jì)量(statistics)被分類(lèi)成不同的類(lèi)別。圖4a是根據(jù)本發(fā)明的各方面的編碼器和解碼器方法或器件的示意性概念框圖，其顯示一種方式其中，組合的像言語(yǔ)的信號(hào)和不像言語(yǔ)的信號(hào)可在編碼器中被分離成像言語(yǔ)的信號(hào)分量和不像言語(yǔ)的信號(hào)分量、并且通過(guò)相應(yīng)的像言語(yǔ)的信號(hào)編碼器和不像言語(yǔ) 的信號(hào)編碼器被編碼，以及然后，在解碼器中，在相應(yīng)的像言語(yǔ)的信號(hào)解碼器和不像言語(yǔ)的信號(hào)解碼器中被解碼并且被重新組合(recombine)。圖4b是根據(jù)本發(fā)明的各方面的編碼器和解碼器方法或器件的示意性概念框圖，其中以圖4a方式的替代方式實(shí)現(xiàn)信號(hào)分離。圖5a根據(jù)本發(fā)明的各方面的編碼器和解碼器方法或器件的示意性概念功能框圖，其顯示圖4a的布置的修改，其中從相應(yīng)的編碼器分離像言語(yǔ)的信號(hào)編碼器和不像言語(yǔ) 的信號(hào)編碼器共同的功能。圖5b是根據(jù)本發(fā)明的各方面的編碼器和解碼器方法或器件的示意性概念功能框圖，其顯示圖5a的布置的修改，其中從相應(yīng)的編碼器分離像言語(yǔ)的信號(hào)編碼器和不像言語(yǔ)的信號(hào)編碼器中的每一個(gè)共同的元件，以使得在編碼器中，在組合的像言語(yǔ)的信號(hào) 和不像言語(yǔ)的信號(hào)被分離成像言語(yǔ)的信號(hào)分量和不像言語(yǔ)的信號(hào)分量之前處理組合的像言語(yǔ)的信號(hào)和不像言語(yǔ)的信號(hào)，并且，在解碼器中，對(duì)部分解碼的組合信號(hào)進(jìn)行公共解碼 (commonly decode)0圖6是可用于實(shí)現(xiàn)圖4、5a、5b、7c和7d所示的信號(hào)分離器件或功能的基于頻率分析的信號(hào)分離方法或器件的示意性概念功能框圖。圖7是根據(jù)本發(fā)明的各方面的統(tǒng)一的(unified)像言語(yǔ)的信號(hào)/不像言語(yǔ)的信號(hào) 編碼器的例子的第一變化的示意性概念功能框圖。在該變化中，可通過(guò)以閉環(huán)方式將總體重構(gòu)誤差(overall reconstruction error)最小化來(lái)決定編碼工具和它們的參數(shù)的選擇。圖7b是根據(jù)本發(fā)明的各方面的統(tǒng)一的像言語(yǔ)的信號(hào)/不像言語(yǔ)的信號(hào)編碼器的例子的第二變化的示意性概念功能框圖。在該變化中，通過(guò)響應(yīng)于信號(hào)分類(lèi)結(jié)果操作的模式選擇工具確定編碼工具的選擇?？赏ㄟ^(guò)如圖7a的例子中那樣以閉環(huán)方式將總體重構(gòu)誤差最小化來(lái)決定參數(shù)。圖7c根據(jù)本發(fā)明的各方面的統(tǒng)一的像言語(yǔ)的信號(hào)/不像言語(yǔ)的信號(hào)編碼器的例子的第三變化的示意性概念功能框圖。在該變化中，采用信號(hào)分離。圖7d是顯示圖7c的變化的示意性概念功能框圖，其中，分離路徑是相互依賴的 (interdependent)(按圖 4b 的方式)。圖8a是可與圖7a、7b、7c和7d的例子中的編碼器中的任何編碼器的一個(gè)版本一起使用的解碼器的示意性概念功能框圖。該解碼器本質(zhì)上與圖7a和7b例子中的局部 (local)解碼器相同。圖8b是可與圖7a、7b、7c和7d的例子中的編碼器中的任何編碼器的另一個(gè)版本一起使用的解碼器的示意性概念功能框圖。
具體實(shí)施例方式基于內(nèi)容分析的音頻分類(lèi)音頻內(nèi)容分析可以幫助將音頻段(audio segment)分類(lèi)成幾種音頻類(lèi)別(諸如，像言語(yǔ)的信號(hào)、不像言語(yǔ)的信號(hào)等)中的一種。利用輸入的音頻信號(hào)的類(lèi)型的知識(shí)，音頻編碼器可以通過(guò)選擇可適合于特定音頻類(lèi)別的模式而使它的編碼模式適應(yīng)(adapt)變化的信號(hào)特征。假定輸入音頻數(shù)據(jù)是壓縮的數(shù)據(jù)，第一步驟可能是將它劃分成可變長(zhǎng)度的信號(hào)樣本塊，其中長(zhǎng)的塊長(zhǎng)度(例如，在AAC(高級(jí)音頻編碼)感知編碼的情況下為42.6毫秒)可用于信號(hào)的靜止部分(stationary parts)，以及短的塊長(zhǎng)度(例如，在AAC的情況下為5. 3 毫秒)可用于信號(hào)的瞬變部分(transient parts)或者信號(hào)開(kāi)始(onset)期間。僅以示例方式給出AAC樣本塊長(zhǎng)度。具體的樣本塊長(zhǎng)度對(duì)于本發(fā)明不關(guān)鍵。原理上，最佳的樣本塊長(zhǎng)度可能是信號(hào)依賴的。作為替代方案，可以采用固定長(zhǎng)度的樣本塊。然后，可將每一個(gè)樣本塊(段)分類(lèi)成幾種音頻類(lèi)別(諸如，像言語(yǔ)的、不像言語(yǔ)的、以及像噪聲的)中的一種。分類(lèi)器也可輸出“輸入的段屬于具體的音頻類(lèi)別”的可能性的置信量度。只要置信度高于用戶可定義的閾值，則可利用適于對(duì)識(shí)別的音頻類(lèi)別編碼的編碼工具來(lái)配置音頻編碼器，并且可按開(kāi)環(huán)方式選擇這樣的工具。例如，如果所分析的輸入信號(hào)以高置信度被分類(lèi)為像言語(yǔ)的，根據(jù)本發(fā)明的各方面的多模式音頻編碼器或編碼功能可以選擇基于CELP的像言語(yǔ)信號(hào)編碼方法來(lái)壓縮段。類(lèi)似地，如果所分析的輸入信號(hào)以高置信度被分類(lèi)為不像言語(yǔ) 的，根據(jù)本發(fā)明的各方面的多模式音頻編碼器可以選擇感知轉(zhuǎn)換(perceptual transform) 編碼器或者編碼功能(諸如，AAC、AC-3、或者其仿真)來(lái)對(duì)段進(jìn)行數(shù)據(jù)壓縮。另一方面，當(dāng)分類(lèi)器的置信度低時(shí)，編碼器可以選用編碼模式的閉環(huán)選擇。在閉環(huán) 選擇中，編碼器使用可用的編碼模式中的每一個(gè)來(lái)對(duì)輸入段進(jìn)行編碼。給定比特預(yù)算，可以選擇得到最高的感知質(zhì)量(perceived quality)的編碼模式。顯然，閉環(huán)模式選擇比開(kāi)環(huán) 模式選擇方法要求更多計(jì)算。因此，使用分類(lèi)器的置信度量度來(lái)在基于開(kāi)環(huán)的模式選擇和基于閉環(huán)的模式選擇之間切換導(dǎo)致得到模式選擇的混合方案，所述模式選擇的混合方案在分類(lèi)器置信度高時(shí)隨時(shí)節(jié)省計(jì)算。圖1和2示出根據(jù)本發(fā)明的各方面的音頻分類(lèi)分級(jí)結(jié)構(gòu)決定樹(shù)的兩個(gè)例子。關(guān)于每一個(gè)例子分級(jí)結(jié)構(gòu)，在識(shí)別具體的音頻類(lèi)別之后，音頻編碼器優(yōu)選選擇就編碼工具和參數(shù)而言適合于該音頻類(lèi)別的編碼模式。在圖1音頻分類(lèi)分級(jí)結(jié)構(gòu)決定樹(shù)例子中，首先將輸入音頻識(shí)別為第一分級(jí)結(jié)構(gòu)層次處的像言語(yǔ)的信號(hào)(決定節(jié)點(diǎn)102)或者不像言語(yǔ)的信號(hào)(決定節(jié)點(diǎn)104)。然后，像言語(yǔ)的信號(hào)被識(shí)別為較低的分級(jí)結(jié)構(gòu)層次處的混合的濁音的(voiced)像言語(yǔ)的和清音的 (unvoiced)像言語(yǔ)的信號(hào)(決定節(jié)點(diǎn)106)、濁音的像言語(yǔ)的信號(hào)(決定節(jié)點(diǎn)108)、以及清音的像言語(yǔ)的信號(hào)(決定節(jié)點(diǎn)110)。不像言語(yǔ)的信號(hào)被識(shí)別為較低的分級(jí)結(jié)構(gòu)層次處的不像言語(yǔ)的信號(hào)(決定節(jié)點(diǎn)112)或者噪聲(114)。因此，5個(gè)分類(lèi)結(jié)果混合的濁音的像言語(yǔ) 的信號(hào)和清音的像言語(yǔ)的信號(hào)、濁音的像言語(yǔ)的信號(hào)、清音的像言語(yǔ)的信號(hào)、不像言語(yǔ)的信號(hào)、以及噪聲。在圖2的音頻分類(lèi)分級(jí)結(jié)構(gòu)例子中，首先，輸入音頻被識(shí)別為第一分級(jí)結(jié)構(gòu)層次處的像言語(yǔ)的信號(hào)(決定節(jié)點(diǎn)202)、不像言語(yǔ)的信號(hào)(決定節(jié)點(diǎn)204)、以及噪聲(決定節(jié) 點(diǎn)206)。然后，像言語(yǔ)的信號(hào)被識(shí)別為較低的分級(jí)結(jié)構(gòu)層次處的混合的濁音的像言語(yǔ)的信號(hào)和清音的像言語(yǔ)的信號(hào)(208)、濁音的像言語(yǔ)的信號(hào)(決定節(jié)點(diǎn)210)、以及清音的像言語(yǔ) 的信號(hào)(決定節(jié)點(diǎn)212)。不像言語(yǔ)的信號(hào)被識(shí)別為較低的分級(jí)結(jié)構(gòu)層次處的聲樂(lè)(vocals) (決定節(jié)點(diǎn)214)和非聲樂(lè)(non-vocals)(決定節(jié)點(diǎn)216)。因此，6個(gè)分類(lèi)結(jié)果混合的濁音的像言語(yǔ)的和清音的像言語(yǔ)的信號(hào)、濁音的像言語(yǔ)的信號(hào)、清音的像言語(yǔ)的信號(hào)、聲樂(lè)、非聲樂(lè)、以及噪聲。備選地，也可基于音頻信號(hào)的統(tǒng)計(jì)量將音頻信號(hào)分類(lèi)。特別是，不同類(lèi)型的音頻和像言語(yǔ)的信號(hào)編碼器和解碼器可提供一組豐富的信號(hào)處理組(諸如，LPC分析、LTP分析、MDCT轉(zhuǎn)換等)，并且在許多情況下，這些工具中的每一個(gè)可僅適用于對(duì)具有一些特定統(tǒng)計(jì) 量特性的信號(hào)進(jìn)行編碼。例如，LTP分析是用于對(duì)具有強(qiáng)的諧波能量(harmonic energy)的信號(hào)(諸如，像言語(yǔ)的信號(hào)的發(fā)聲段(voice segments))進(jìn)行編碼的非常強(qiáng)大的工具。然而，對(duì)于不具有強(qiáng)的諧波能量的其他信號(hào)，應(yīng)用LTP分析通常不導(dǎo)致任何編碼增益。下面在表1中給出像言語(yǔ)的信號(hào)/不像言語(yǔ)的信號(hào)編碼工具以及它們所適合的信號(hào)類(lèi)型和不適合的信號(hào)類(lèi)型的不完全列表。清楚的是，為了經(jīng)濟(jì)的比特使用，將期望基于可用的像言語(yǔ)的信號(hào)/不像言語(yǔ)的信號(hào)編碼工具的適合性(suitability)將音頻信號(hào)段分類(lèi)，并且對(duì)于每一個(gè)段分配正確的工具組。因此，圖3中示出根據(jù)本發(fā)明的各方面的音頻分類(lèi)分級(jí)結(jié)構(gòu)的另一個(gè)例子。音頻編碼器選擇就編碼工具與參數(shù)而言適合于該音頻類(lèi)別的編碼模式。表1、像言語(yǔ)的信號(hào)/不像言語(yǔ)的信號(hào)編碼工具
權(quán)利要求
一種碼激勵(lì)線性預(yù)測(cè)CELP音頻編碼的方法，采用通過(guò)LPC參數(shù)控制的LPC綜合濾波器；各自具有碼矢量的多個(gè)碼本；提供較適合于像言語(yǔ)的信號(hào)而較不適合于不像言語(yǔ)的信號(hào)的激勵(lì)的至少一個(gè)碼本與提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)的至少一個(gè)其他的碼本；以及多個(gè)增益因子，每一個(gè)增益因子與碼本關(guān)聯(lián)，所述方法包含對(duì)音頻信號(hào)應(yīng)用線性預(yù)測(cè)編碼LPC分析以生成LPC參數(shù)；通過(guò)將所述音頻信號(hào)和從碼本激勵(lì)得到的所述音頻信號(hào)的重構(gòu)之間的差異的量度最小化來(lái)從至少兩個(gè)碼本選擇碼矢量和/或關(guān)聯(lián)的增益因子，所述碼本包括提供較適合于不像言語(yǔ)的信號(hào)的激勵(lì)的碼本和提供較適合于像言語(yǔ)的信號(hào)的激勵(lì)的碼本；以及產(chǎn)生可由CELP音頻解碼器用于重構(gòu)音頻信號(hào)的輸出，所述輸出包括LPC參數(shù)、碼矢量和增益因子。
2.根據(jù)權(quán)利要求1所述的方法，其中通過(guò)所述線性預(yù)測(cè)編碼綜合濾波器對(duì)從碼本激勵(lì) 輸出得到的各信號(hào)中的一些進(jìn)行濾波。
3.根據(jù)權(quán)利要求2所述的方法，其中通過(guò)所述線性預(yù)測(cè)編碼綜合濾波器對(duì)從其激勵(lì)輸出較適合于像言語(yǔ)的信號(hào)而較不適合于不像言語(yǔ)的信號(hào)的碼本得到的一個(gè)或多個(gè)信號(hào)進(jìn) 行濾波。
4.根據(jù)權(quán)利要求3所述的方法，其中不通過(guò)所述線性預(yù)測(cè)編碼綜合濾波器對(duì)從其激勵(lì) 輸出較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的碼本得到的一個(gè)或多個(gè)信號(hào) 進(jìn)行濾波。
5.根據(jù)權(quán)利要求1 4中的任一項(xiàng)所述的方法，其中提供較適合于像言語(yǔ)的信號(hào)而較不適合于不像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述至少一個(gè)碼本包括生成像噪聲的激勵(lì)的碼本和生成周期性激勵(lì)的碼本，并且提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào) 的激勵(lì)輸出的所述至少一個(gè)其他的碼本包括生成對(duì)仿真感知音頻編碼器有用的正弦曲線激勵(lì)的碼本。
6.根據(jù)權(quán)利要求5所述的方法，進(jìn)一步包含將長(zhǎng)期預(yù)測(cè)LTP分析應(yīng)用于所述音頻信號(hào)以生成LTP參數(shù)，其中生成周期性激勵(lì)的所述碼本是通過(guò)所述LTP參數(shù)控制的、并且接收至少周期性激勵(lì)和像噪聲的激勵(lì)的時(shí)間延遲的組合作為信號(hào)輸入的適應(yīng)性碼本，并且其中所述輸出進(jìn)一步包括所述LTP參數(shù)。
7.根據(jù)引用權(quán)利要求1的權(quán)利要求6所述的方法，其中所述適應(yīng)性碼本選擇性地或者接收周期性激勵(lì)、像噪聲的激勵(lì)和正弦曲線激勵(lì)的時(shí)間延遲的組合作為信號(hào)輸入，或者僅接收周期性激勵(lì)和像噪聲的激勵(lì)的時(shí)間延遲的組合作為信號(hào)輸入，并且其中所述輸出進(jìn)一步包括關(guān)于所述適應(yīng)性碼本是否在激勵(lì)的組合中接收正弦曲線激勵(lì)的信息。
8.根據(jù)權(quán)利要求1 7中的任一項(xiàng)所述的方法，進(jìn)一步包含將音頻信號(hào)分類(lèi)成多個(gè)音頻類(lèi)別中的一個(gè)；響應(yīng)于所述分類(lèi)，選擇操作模式；以及以開(kāi)環(huán)方式排它地選擇一個(gè)或多個(gè)碼本來(lái)貢獻(xiàn)激勵(lì)輸出。
9.根據(jù)權(quán)利要求8所述的方法，進(jìn)一步包含確定對(duì)操作模式的所述選擇的置信度水平，其中存在至少兩個(gè)置信度水平，所述至少兩個(gè)置信度水平包括高置信度水平，并且僅當(dāng)置信度水平為高時(shí)才以開(kāi)環(huán)方式排它地選擇一個(gè)或多個(gè)碼本來(lái)貢獻(xiàn)激勵(lì)輸出。
10.根據(jù)權(quán)利要求1 9中的任一項(xiàng)所述的方法，其中所述最小化以閉環(huán)方式將所述音頻信號(hào)的重構(gòu)和所述音頻信號(hào)之間的差異最小化。
11.根據(jù)權(quán)利要求1 10中的任一項(xiàng)所述的方法，其中所述差異的所述量度是感知加權(quán)的量度。
12.一種碼激勵(lì)線性預(yù)測(cè)CELP音頻編碼的方法，采用通過(guò)LPC參數(shù)控制的LPC綜合濾波器；各自具有碼矢量的多個(gè)碼本；提供較適合于像言語(yǔ)的信號(hào)而較不適合于不像言語(yǔ) 的信號(hào)的激勵(lì)的至少一個(gè)碼本與提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)的至少一個(gè)其他的碼本；以及多個(gè)增益因子，每一個(gè)增益因子與碼本關(guān)聯(lián)，所述方法包含將音頻信號(hào)分離成像言語(yǔ)的信號(hào)分量和不像言語(yǔ)的信號(hào)分量，對(duì)所述音頻信號(hào)的像言語(yǔ)的信號(hào)分量應(yīng)用線性預(yù)測(cè)編碼LPC分析以生成LPC參數(shù)；通過(guò)改變與提供較適合于像言語(yǔ)的信號(hào)而較不適合于不像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述碼本或每一個(gè)碼本關(guān)聯(lián)的碼矢量選擇和/或增益因子，改變與提供較適合于不像言語(yǔ) 的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述碼本或每一個(gè)碼本關(guān)聯(lián)的碼矢量選擇和/或增益因子，將LPC綜合濾波器輸出和所述音頻信號(hào)的像言語(yǔ)的信號(hào)分量之間的差異最小化；以及提供可由CELP音頻解碼器用于再生成所述音頻信號(hào)的近似的輸出，所述輸出包括與每一個(gè)碼本關(guān)聯(lián)的碼矢量選擇和/或增益、以及所述LPC參數(shù)。
13.根據(jù)權(quán)利要求12所述的方法，其中所述分離將所述音頻信號(hào)分離成像言語(yǔ)的信號(hào) 分量和不像言語(yǔ)的信號(hào)分量。
14.根據(jù)權(quán)利要求12所述的方法，其中所述分離從所述音頻信號(hào)分離像言語(yǔ)的信號(hào)分量，并且通過(guò)從所述音頻信號(hào)減去所述像言語(yǔ)的信號(hào)分量的重構(gòu)來(lái)得到不像言語(yǔ)的信號(hào)分量的近似。
15.根據(jù)權(quán)利要求12所述的方法，其中所述分離從所述音頻信號(hào)分離不像言語(yǔ)的信號(hào) 分量，并且通過(guò)從所述音頻信號(hào)減去不像言語(yǔ)的信號(hào)分量的重構(gòu)來(lái)得到像言語(yǔ)的信號(hào)分量的近似。
16.根據(jù)權(quán)利要求12 15中任一項(xiàng)所述的方法，進(jìn)一步包括提供第二線性預(yù)測(cè)編碼 LPC綜合濾波器，并且其中通過(guò)所述第二線性預(yù)測(cè)編碼綜合濾波器對(duì)不像言語(yǔ)的信號(hào)分量的重構(gòu)進(jìn)行濾波。
17.根據(jù)權(quán)利要求12 16中任一項(xiàng)所述的方法，其中提供較適合于像言語(yǔ)的信號(hào)而較不適合于不像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述至少一個(gè)碼本包括生成像噪聲的激勵(lì)的碼本和生成周期性激勵(lì)的碼本，并且提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào) 的激勵(lì)輸出的所述至少一個(gè)其他的碼本包括生成對(duì)于仿真感知音頻編碼器有用的正弦曲線激勵(lì)的碼本。
18.根據(jù)權(quán)利要求17所述的方法，進(jìn)一步包含對(duì)所述音頻信號(hào)的像言語(yǔ)的信號(hào)分量應(yīng)用長(zhǎng)期預(yù)測(cè)LTP分析以生成LTP參數(shù)，其中，生成周期性激勵(lì)的所述碼本是受所述LTP參數(shù)控制的、并且接收周期性激勵(lì)和像噪聲的激勵(lì) 的時(shí)間延遲的組合作為信號(hào)輸入的適應(yīng)性碼本。
19.根據(jù)權(quán)利要求12所述的方法，其中響應(yīng)于所述像言語(yǔ)的信號(hào)，改變與提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述碼本或每一個(gè)碼本關(guān)聯(lián) 的碼本矢量選擇和/或增益因子。
20.根據(jù)權(quán)利要求12所述的方法，其中改變與提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述碼本或每一個(gè)碼本關(guān)聯(lián)的碼本矢量選擇和/或增益因子，以減少所述不像言語(yǔ)的信號(hào)與從所述這樣的碼本或每一個(gè)這樣的碼本重構(gòu)的信號(hào)之間的差異。
21.一種碼激勵(lì)線性預(yù)測(cè)CELP音頻解碼的方法，采用通過(guò)LPC參數(shù)控制的LPC綜合濾波器；各自具有碼矢量的多個(gè)碼本；提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ) 的信號(hào)的激勵(lì)的至少一個(gè)碼本與提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)的至少一個(gè)其他的碼本；以及多個(gè)增益因子，每一個(gè)增益因子與碼本關(guān)聯(lián)，所述方法包含接收所述參數(shù)、碼矢量和增益因子；從至少一個(gè)碼本激勵(lì)輸出得到用于所述LPC綜合濾波器的激勵(lì)信號(hào)；以及從所述LPC濾波器的輸出、或者從所述LPC綜合濾波器的輸出與所述碼本中的一個(gè)或多個(gè)的激勵(lì)的組合得到音頻輸出信號(hào)，所述組合受與所述碼本中的每一個(gè)關(guān)聯(lián)的碼矢量和 /或增益因子的控制。
22.根據(jù)權(quán)利要求21所述的方法，其中提供較適合于像言語(yǔ)的信號(hào)而較不適合于不像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述至少一個(gè)碼本包括生成像噪聲的激勵(lì)的碼本和生成周期性激勵(lì)的碼本，以及，提供較適合于不像言語(yǔ)的信號(hào)而較不適合于像言語(yǔ)的信號(hào)的激勵(lì)輸出的所述至少一個(gè)其他的碼本包括生成對(duì)仿真感知音頻編碼器有用的正弦曲線激勵(lì)的碼本。
23.根據(jù)權(quán)利要求22所述的方法，其中生成周期性激勵(lì)的所述碼本是受所述LTP參數(shù) 控制的、并且接收至少周期性激勵(lì)和像噪聲的激勵(lì)的時(shí)間延遲的組合作為信號(hào)輸入的適應(yīng) 性碼本，并且所述方法進(jìn)一步包括接收LTP參數(shù)。
24.根據(jù)權(quán)利要求23所述的方法，其中所有碼本的激勵(lì)被應(yīng)用于LPC濾波器，并且所述適應(yīng)性碼本選擇性地或者接收周期性激勵(lì)、像噪聲的激勵(lì)和正弦曲線激勵(lì)的時(shí)間延遲的組合作為信號(hào)輸入，或者僅接收周期性激勵(lì)和像噪聲的激勵(lì)的時(shí)間延遲的組合作為信號(hào)輸入，并且其中所述方法進(jìn)一步包含接收關(guān)于所述適應(yīng)性碼本是否在激勵(lì)的組合中接收正弦曲線激勵(lì)的信息。
25.根據(jù)權(quán)利要求21 24中任一項(xiàng)所述的方法，其中所述從所述LPC濾波器的輸出得到音頻輸出信號(hào)包括后濾波。
26.一種適于執(zhí)行權(quán)利要求1 25中任一項(xiàng)所述方法的裝置。
27.一種存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序，用于使得計(jì)算機(jī)執(zhí)行權(quán)利要求1 25中任一項(xiàng)所述的方法。
全文摘要
本發(fā)明涉及可包括像言語(yǔ)的信號(hào)分量和不像言語(yǔ)的信號(hào)分量?jī)烧叩囊纛l信號(hào)的編碼。它描述碼激勵(lì)線性預(yù)測(cè)(CELP)音頻編碼和解碼方法，采用通過(guò)LPC參數(shù)控制的LPC綜合濾波器；各自具有碼矢量的多個(gè)碼本；提供較適合于不像言語(yǔ)的信號(hào)的激勵(lì)的至少一個(gè)碼本以及提供較適合于像言語(yǔ)的信號(hào)的激勵(lì)的至少一個(gè)碼本；以及多個(gè)增益因子，每一個(gè)增益因子與碼本關(guān)聯(lián)。所述編碼方法和裝置通過(guò)將所述音頻信號(hào)和從碼本激勵(lì)得到的所述音頻信號(hào)的重構(gòu)之間的差異的量度最小化來(lái)從碼本選擇碼矢量和/或關(guān)聯(lián)的增益因子。所述解碼方法和裝置從LPC參數(shù)、碼矢量和增益因子生成重構(gòu)的輸出信號(hào)。
文檔編號(hào)G10L19/12GK101971251SQ200980108779
公開(kāi)日2011年2月9日申請(qǐng)日期2009年3月12日優(yōu)先權(quán)日2008年3月14日
發(fā)明者R·拉達(dá)克里希南, 俞容山, 格蘭特·A·戴維森, 羅伯特·L·安德森申請(qǐng)人:杜比實(shí)驗(yàn)室特許公司

完整全部詳細(xì)技術(shù)資料下載