用于在碼激勵線性預(yù)測編解碼器中量化激勵的自適應(yīng)和固定貢獻(xiàn)的增益的設(shè)備和方法與流程

文檔序號：11971648閱讀：541來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于在碼激勵線性預(yù)測編解碼器中量化激勵的自適應(yīng)和固定貢獻(xiàn)的增益的設(shè)備和方法與流程

本公開涉及編碼聲音信號中激勵的固定貢獻(xiàn)的增益的量化。本公開還涉及激勵的自適應(yīng)和固定貢獻(xiàn)的增益的聯(lián)合量化。

背景技術(shù)：
在編解碼器結(jié)構(gòu)（例如，像ACELP（代數(shù)碼激勵線性預(yù)測）那樣的CELP（碼激勵線性預(yù)測）編解碼器結(jié)構(gòu)）的編碼器中，以稱為幀的短段為單位處理輸入語音或音頻信號（聲音信號）。為了捕捉輸入聲音信號的迅速變化特性，將每個幀進(jìn)一步劃分成子幀。CELP編解碼器結(jié)構(gòu)還產(chǎn)生加在一起形成總激勵的激勵的自適應(yīng)碼本和固定碼本貢獻(xiàn)。與激勵的自適應(yīng)和固定碼本貢獻(xiàn)有關(guān)的增益被量化并與其他編碼參數(shù)一起發(fā)送給解碼器。激勵的自適應(yīng)碼本貢獻(xiàn)和固定碼本貢獻(xiàn)在整個文件中將被稱為激勵的“自適應(yīng)貢獻(xiàn)”和“固定貢獻(xiàn)”。需要一種量化自適應(yīng)和固定激勵貢獻(xiàn)的增益的技術(shù)，其提高抵抗將編碼參數(shù)從編碼器發(fā)送到解碼器期間，可能出現(xiàn)的幀擦除或分組丟失的編解碼器的魯棒性。

技術(shù)實(shí)現(xiàn)要素：
按照第一方面，本公開涉及在編碼聲音信號包括子幀的幀中量化激勵的固定貢獻(xiàn)的增益的設(shè)備，其包含：代表該幀的分類的參數(shù)的輸入；在該幀的子幀中估計激勵的固定貢獻(xiàn)的增益的估計器，其中將代表該幀的分類的參數(shù)供給該估計器；以及使用估計增益在子幀中預(yù)測量化激勵的固定貢獻(xiàn)的增益的預(yù)測量化器。本公開還涉及在編碼聲音信號的包括子幀的幀中量化激勵的固定貢獻(xiàn)的增益的方法，其包含：接收代表該幀的分類的參數(shù)；使用代表幀的分類的參數(shù)在該幀的子幀中估計激勵的固定貢獻(xiàn)的增益；以及使用估計的增益在子幀中預(yù)測量化激勵的固定貢獻(xiàn)的增益。按照第三方面，提供了在編碼聲音信號的幀中聯(lián)合量化激勵的自適應(yīng)和固定貢獻(xiàn)的增益的設(shè)備，其包含：量化激勵的自適應(yīng)貢獻(xiàn)的增益的量化器；以及量化激勵的固定貢獻(xiàn)的增益的上述設(shè)備。本公開進(jìn)一步涉及在編碼聲音信號的幀中聯(lián)合量化激勵的自適應(yīng)和固定貢獻(xiàn)的增益的方法，其包含：量化激勵的自適應(yīng)貢獻(xiàn)的增益；以及使用上述方法量化激勵的固定貢獻(xiàn)的增益。按照第五方面，提供了在幀的子幀中檢索激勵的固定貢獻(xiàn)的量化增益的設(shè)備，其包含：增益碼本索引的接收器；在子幀中估計激勵的固定貢獻(xiàn)的增益的估計器，其中將代表該幀的分類的參數(shù)供給該估計器；響應(yīng)增益碼本索引供應(yīng)校正因子的增益碼本；以及將估計增益乘以校正因子以便提供子幀中激勵的固定貢獻(xiàn)的量化增益的乘法器。本公開還涉及在幀的子幀中檢索激勵的固定貢獻(xiàn)的量化增益的方法，其包含：接收增益碼本索引；使用代表該幀的分類的參數(shù)在子幀中估計激勵的固定貢獻(xiàn)的增益；響應(yīng)增益碼本索引從增益碼本和為子幀供應(yīng)校正因子；以及將估計增益乘以校正因子以便提供所述子幀中激勵的固定貢獻(xiàn)的量化增益。本公開還進(jìn)一步涉及在幀的子幀中檢索激勵的自適應(yīng)和固定貢獻(xiàn)的量化增益的設(shè)備，其包含：增益碼本索引的接收器；在子幀中估計激勵的固定貢獻(xiàn)的增益的估計器，其中將代表該幀的分類的參數(shù)供給該估計器；響應(yīng)增益碼本索引為子幀供應(yīng)激勵的自適應(yīng)貢獻(xiàn)的量化增益和校正因子的增益碼本；以及將估計增益乘以校正因子以便提供子幀中激勵的固定貢獻(xiàn)的量化增益的乘法器。按照進(jìn)一步方面，本公開描述了在幀的子幀中檢索激勵的自適應(yīng)和固定貢獻(xiàn)的量化增益的方法，其包含：接收增益碼本索引；使用代表該幀的分類的參數(shù)在子幀中估計激勵的固定貢獻(xiàn)的增益；響應(yīng)增益碼本索引從增益碼本和為子幀供應(yīng)激勵的自適應(yīng)貢獻(xiàn)的量化增益和校正因子；以及將估計增益乘以校正因子以便提供子幀中激勵的固定貢獻(xiàn)的量化增益。一旦閱讀了僅參考附圖舉例給出的例示性實(shí)施例的如下非限制性描述，前述和其他特征將變得更加顯而易見。附圖說明在附圖中：圖1是描述基于CELP的編碼器中濾波激勵的結(jié)構(gòu)的示意圖；圖2是描述在每個幀的第一子幀中激勵的固定貢獻(xiàn)的增益的估計器的示意性方塊圖；圖3是描述在第一子幀之后的所有子幀中激勵的固定貢獻(xiàn)的增益的估計器的示意性方塊圖；圖4是描述其中計算估計系數(shù)和將其用于為每個子幀設(shè)計增益碼本的狀態(tài)機(jī)的示意性方塊圖；圖5是描述增益量化器的示意性方塊圖；以及圖6是與圖5的增益量化器等效的增益量化器的另一個實(shí)施例的示意性方塊圖。具體實(shí)施方式在下文中，描述編碼聲音信號中激勵的固定貢獻(xiàn)的增益的量化，以及激勵的自適應(yīng)和固定貢獻(xiàn)的增益的聯(lián)合量化。可以將量化應(yīng)用于任何數(shù)量的子幀和推廣應(yīng)用在以任意采樣頻率采樣的輸入語音或音頻信號（輸入聲音信號）上。此外，無需幀間預(yù)測地量化激勵的自適應(yīng)和固定貢獻(xiàn)的增益。幀間預(yù)測的缺乏導(dǎo)致了抵抗在發(fā)送編碼參數(shù)期間可能出現(xiàn)的幀擦除或分組丟失的魯棒性的提高。直接量化激勵的自適應(yīng)貢獻(xiàn)的增益而通過估計增益量化激勵的固定貢獻(xiàn)的增益。激勵的固定貢獻(xiàn)的增益的估計基于存在于編碼器和解碼器兩者上的參數(shù)。這些參數(shù)在當(dāng)前幀的處理期間計算。因此，在量化或解碼的過程中無需來自之前幀的信息，如上所述，這提高了抵抗幀擦除的編解碼器的魯棒性。盡管如下描述將涉及CELP（碼激勵線性預(yù)測）編解碼結(jié)構(gòu)，例如，ACELP（代數(shù)碼激勵線性預(yù)測），但應(yīng)該牢記，本公開的主題可以應(yīng)用于其他類型的編解碼結(jié)構(gòu)。激勵的自適應(yīng)和固定貢獻(xiàn)的最佳非量化增益在CELP編碼的現(xiàn)有技術(shù)中，激勵由兩部分貢獻(xiàn)組成：自適應(yīng)貢獻(xiàn)（自適應(yīng)碼本貢獻(xiàn)）和固定貢獻(xiàn)（固定碼本貢獻(xiàn)）。自適應(yīng)碼本基于長期預(yù)測，因此與過去激勵有關(guān)。激勵的自適應(yīng)貢獻(xiàn)通過圍繞音調(diào)滯后的估計值的閉環(huán)搜索來尋找。閉環(huán)搜索由使目標(biāo)信號（在CELP編碼中，輸入語音或音頻信號（輸入聲音信號）的感知濾波形式）與通過自適應(yīng)碼本增益縮放的激勵的濾波自適應(yīng)貢獻(xiàn)之間的均方加權(quán)誤差（MSWE）最小組成。閉環(huán)搜索中的濾波對應(yīng)于CELP編碼的現(xiàn)有技術(shù)中的加權(quán)合成濾波。固定碼本搜索也通過使更新目標(biāo)信號（除去激勵的自適應(yīng)貢獻(xiàn)之后）與通過固定碼本增益縮放的激勵的濾波固定貢獻(xiàn)之間的均方誤差（MSE）最小來進(jìn)行?？倿V波貢獻(xiàn)的結(jié)構(gòu)顯示在圖1中。有關(guān)進(jìn)一步參考，在如下文獻(xiàn)中描述了CELP編碼的一種實(shí)現(xiàn)：3GPPTS26.190,“AdaptiveMulti-Rate-Wideband(AMR-WB)speechcodec;Transcodingfunctions”，在此通過引用將其全部內(nèi)容并入本文中。圖1是描述CELP編碼器中濾波總激勵的結(jié)構(gòu)的示意圖。由上述目標(biāo)信號形成的輸入信號101被表示成x(i)，用作激勵的自適應(yīng)和固定貢獻(xiàn)的增益搜索期間的參考。激勵的濾波自適應(yīng)貢獻(xiàn)被表示成y(i)，激勵的濾波固定貢獻(xiàn)（創(chuàng)新（innovation））被表示成z(i)。對于激勵的自適應(yīng)貢獻(xiàn)，相應(yīng)增益被表示成gp，對于激勵的固定貢獻(xiàn)，相應(yīng)增益被表示成gc。如圖1所例示，放大器104將增益gp應(yīng)用于激勵的濾波自適應(yīng)貢獻(xiàn)y(i)，放大器105將增益gc應(yīng)用于激勵的濾波固定貢獻(xiàn)z(i)。最佳量化增益通過第一減法器107從目標(biāo)信號xi中減去放大器104的輸出端上的信號gpy(i)和第二減法器108從減法器107的相減結(jié)果中減去放大器105的輸出端上的信號gcz(i)計算的誤差信號e(i)的均方的最小化來尋找。對于圖1中的所有信號，索引i表示從0到L-1的不同信號樣本和運(yùn)行，其中L是每個子幀的長度。如本領(lǐng)域的普通技術(shù)人員所熟知，濾波自適應(yīng)碼本貢獻(xiàn)通常作為自適應(yīng)碼本激勵矢量v(n)與加權(quán)合成濾波器的脈沖響應(yīng)h(n)之間的卷積來計算，也就是說，y(n)=v(n)*h(n)。類似地，濾波固定碼本激勵通過z(n)=c(n)*h(n)給出，其中c(n)是固定碼本激勵。假設(shè)已知目標(biāo)信號x(i)，激勵的濾波自適應(yīng)貢獻(xiàn)y(i)和激勵的濾波固定貢獻(xiàn)z(i)，非量化gp和gc的最佳集合通過使如下方程給出的誤差信號e(i)的能量來尋找：e(i)＝x(i)-gpy(i)-gcz(i)，i＝0，....，L-1(1)方程（1）可以以矢量形式給出：e=x-gpy-gcZ(2)并且通過使如下誤差信號的能量最?。浩渲衪表示矢量轉(zhuǎn)置，得出最佳非量化增益：其中，常數(shù)或相關(guān)性c0，c1，c2，c3，c4和c5按如下計算：c0=yty，c1＝xty，c2＝ztz，c3＝xtz，c4＝y(tǒng)tz,c5＝xtx.(4)不直接量化方程（3）中的最佳增益，而如后所述在訓(xùn)練增益碼本中使用它們。在將預(yù)測應(yīng)用于激勵的固定貢獻(xiàn)的增益之后，聯(lián)合量化增益。該預(yù)測通過計算激勵的固定貢獻(xiàn)的增益gc0的估計值來進(jìn)行。激勵的固定貢獻(xiàn)的增益通過gc=gc0·γ給出，其中γ是校正因子。因此，每個碼本條目包含兩個值。第一個值對應(yīng)于激勵的自適應(yīng)貢獻(xiàn)的量化增益gp。第二個值對應(yīng)于用于乘以激勵的固定貢獻(xiàn)的估計增益gc0的校正因子γ。增益碼本（gp和γ）中的最佳索引通過使目標(biāo)信號與濾波總激勵之間的均方誤差最小來尋找。下面詳細(xì)描述激勵的固定貢獻(xiàn)的增益的估計。激勵的固定貢獻(xiàn)的增益的估計每個幀包含一定數(shù)量的子幀。讓我們將幀中子幀的數(shù)量表示成K，將當(dāng)前子幀的索引表示成k。在每個子幀中不同地進(jìn)行激勵的固定貢獻(xiàn)的增益的估計gc0。圖2是描述在每個幀的第一子幀中估計激勵的固定貢獻(xiàn)的增益（下文稱為固定碼本增益）的估計器的示意性方塊圖。估計器200首先響應(yīng)代表當(dāng)前幀的分類的參數(shù)t計算固定碼本增益的估計量。然后從估計的固定碼本增益中減去來自固定碼本的創(chuàng)新碼矢的能量，以便將濾波創(chuàng)新碼矢的這個能量考慮進(jìn)來。將所得估計固定碼本增益乘以從增益碼本中選擇的校正因子，以生成量化固定碼本增益gc。在一個實(shí)施例中，估計器200包含對數(shù)域中的固定碼本增益的線性估計量的計算器201。固定碼本增益通過來自固定碼本的創(chuàng)新碼矢202的單位能量來估計。計算器201只使用一個估計參數(shù)，即，代表當(dāng)前幀的分類的參數(shù)t。減法器203然后從計算器201的輸出端上對數(shù)域中的線性估計固定碼本增益中減去對數(shù)域中來自固定碼本的濾波創(chuàng)新碼矢202的能量。轉(zhuǎn)換器204將來自減法器203的對數(shù)域中的估計固定碼本增益轉(zhuǎn)換成線性域。來自轉(zhuǎn)換器204的線性域中的輸出是估計固定碼本增益gc0。乘法器205將估計增益gc0乘以從增益碼本中選擇的校正因子206。如前段所述，乘法器205的輸出構(gòu)成量化固定碼本增益gc。激勵的自適應(yīng)貢獻(xiàn)的量化增益gp（在下文中自適應(yīng)碼本增益）直接從增益碼本中選擇。乘法器207將來自自適應(yīng)碼本的濾波自適應(yīng)激勵208乘以量化自適應(yīng)碼本增益gp，以生成濾波激勵的濾波自適應(yīng)貢獻(xiàn)209。另一個乘法器210將來自固定碼本的濾波創(chuàng)新碼矢202乘以量化固定碼本增益gc，以生成濾波激勵的濾波固定貢獻(xiàn)211。最終，加法器212相加激勵的濾波自適應(yīng)（209）和固定（211）貢獻(xiàn)以形成總濾波激勵214。在當(dāng)前幀的第一子幀中，減法器203的輸出端上對數(shù)域中的估計固定碼本增益通過下式給出：其中方程（5）的算法內(nèi)的內(nèi)項(xiàng)對應(yīng)于濾波創(chuàng)新矢量202的能量的平方根（Ei是幀n的第一子幀中的濾波創(chuàng)新矢量的能量）。這個內(nèi)項(xiàng)（能量Ei的平方根）由濾波創(chuàng)新矢量202的能量Ei的第一計算器215和能量Ei的平方根的計算器216來計算。然后計算器217計算能量Ei的平方根的對數(shù)以便施加于減法器203的負(fù)輸入。內(nèi)項(xiàng)（能量Ei的平方根）具有非零能量；在所有幀都是零的情況下，將能量加一個小量，以避免log(0)。計算器201中固定碼本增益的估計對于估計系數(shù)a0和a1在對數(shù)域中是線性的，如下面的描述所說明，估計系數(shù)a0和a1是對每個子幀通過大型信號數(shù)據(jù)庫（訓(xùn)練）上的均方最小化找到的。方程中只有估計參數(shù)t202表示幀n的分類參數(shù)（在一個實(shí)施例中，在幀n中，這個值對于所有子幀來說是常數(shù)）。下面給出有關(guān)幀的分類的細(xì)節(jié)。最終，通過計算器204將對數(shù)域中增益的估計值轉(zhuǎn)換回到線性域（），并如下面的描述所說明，用在增益碼本的最佳索引的搜索過程中。上標(biāo)(1)表示當(dāng)前幀n的第一子幀。如下面的描述所說明，將代表當(dāng)前幀的分類的參數(shù)t用在估計固定碼本增益gc0的計算中?？梢詾檎Z音信號的不同類別設(shè)計不同碼本。這將增加存儲要求。此外，在接在第一幀后面的幀中的固定碼本增益的估計可以基于幀分類參數(shù)t和來自當(dāng)前幀中的之前子幀的可用自適應(yīng)和固定碼本增益。該估計局限定于幀邊界以便提高抵抗幀擦除的魯棒性。例如，可以將幀分類成清音、濁音、一般或過渡幀。下面給出一個例子作為非限制例示性實(shí)施例?？梢詫⒉煌商娲椒ㄓ糜诜诸?。進(jìn)一步，語音類別的數(shù)量可以不同于上文使用的那個。例如，在一個實(shí)施例中，只能是濁音或清音地分類。在另一個實(shí)施例中，可以加上像強(qiáng)濁音或強(qiáng)清音那樣的更多類別。分類估計參數(shù)t的數(shù)值可以任意選擇。例如，對于窄帶信號，對于清音、濁音、一般或過渡幀，將參數(shù)t的數(shù)值分別設(shè)置成1，3，5和7，而對于寬帶信號，將它們分別設(shè)置成0，2，4和6。但是，可以將估計參數(shù)t的其他值用于每個類別。當(dāng)包括這種估計時，確定估計參數(shù)的設(shè)計和訓(xùn)練中的分類參數(shù)t將得出固定碼本增益的更好估計值gc0。一個幀中接在第一子幀之后的子幀使用稍為不同的估計方案。該差異事實(shí)上在于在這些子幀中，將來自當(dāng)前幀中的之前子幀的量化自適應(yīng)碼本增益和量化固定碼本增益用作輔助估計參數(shù)以提高效率。圖3是在當(dāng)前幀中接在第一子幀之后的子幀中估計固定碼本增益的估計器300的示意性方塊圖。估計參數(shù)包括分類參數(shù)t和來自當(dāng)前幀的之前子幀的自適應(yīng)和固定碼本增益兩者的量化值（參數(shù)301）。將這些參數(shù)301表示成gp(1)，gc(1)，gp(2)，gc(2)等，其中上標(biāo)指的是第一、第二和其他之前子幀。計算固定碼本增益的估計值，并將其乘以從增益碼本中選擇的校正因子，以生成形成激勵的固定貢獻(xiàn)的增益的量化固定碼本增益gc（這個估計固定碼本增益不同于第一子幀的那個）。在一個實(shí)施例中，計算器302再次在對數(shù)域中計算固定碼本增益的線性估計值，轉(zhuǎn)換器303將增益估計值轉(zhuǎn)換回到線性域。將來自之前子幀的量化自適應(yīng)碼本增益gp(1)，gp(2)等直接供應(yīng)給計算器302，而將來自之前子幀的量化自適應(yīng)碼本增益gc(1)，gc(2)等通過對數(shù)計算器304在對數(shù)域中供應(yīng)給計算器302。然后乘法器305將估計固定碼本增益gc0（不同于第一子幀的那個）乘以從增益碼本選擇的校正因子306。如前段所述，乘法器305然后輸出形成激勵的固定貢獻(xiàn)的增益的量化固定碼本增益gc。第一乘法器307將來自自適應(yīng)碼本的濾波自適應(yīng)激勵308乘以從增益碼本中直接選擇的量化自適應(yīng)碼本增益gp，以生成激勵的自適應(yīng)貢獻(xiàn)309。第二乘法器310將來自固定碼本的濾波創(chuàng)新碼矢311乘以量化固定碼本增益gc，以生成激勵的固定貢獻(xiàn)312。加法器313將激勵的濾波自適應(yīng)（309）和濾波固定（312）貢獻(xiàn)相加在一起，以便形成當(dāng)前幀的總濾波激勵314。對數(shù)域中當(dāng)前幀的第k子幀中來自計算器302的估計固定碼本增益通過下式給出：k＝2，...，K.(6)其中是子幀k中對數(shù)域中的量化固定碼本增益，以及是子幀k中的量化自適應(yīng)碼本增益。例如，在一個實(shí)施例中，使用四（4）個子幀（K=4），因此，來自計算器302、第二、第三、和第四子幀中、對數(shù)域中的估計固定碼本增益通過如下關(guān)系給出：和固定碼本增益的上述估計基于當(dāng)前幀的所有之前子幀的量化自適應(yīng)和固定碼本增益兩者。在這個估計方案與用在第一子幀中的那一個之間還存在另一種差異。未從來自計算器302的對數(shù)域中的固定碼本增益的線性估計值中減去來自固定碼本的濾波創(chuàng)新矢量的能量。原因來自于在估計方程中使用了量化自適應(yīng)碼本和來自之前子幀的固定碼本增益。在第一子幀中，假設(shè)創(chuàng)新矢量為單位能量地由計算器201進(jìn)行線性估計。隨后，減去這個能量以便使估計固定碼本增益變成與它的最佳值相同的能量水平（或至少與它接近）。在第二和隨后子幀中，固定碼本增益的之前量化值已經(jīng)在這個水平上，因此無需考慮濾波創(chuàng)新矢量的能量。估計系數(shù)ai和bi對于每個子幀是不同的，如下文所述，使用大型訓(xùn)練數(shù)據(jù)庫離線確定它們。估計系數(shù)的計算在包含各種語言和程度的和有男女說話的干凈、嘈雜、和混合語音信號的大型數(shù)據(jù)庫上尋找估計系數(shù)的最佳集合。通過利用自適應(yīng)和固定碼本增益的最佳非量化值對大型數(shù)據(jù)庫運(yùn)行編碼解器計算估計系數(shù)。要提醒的是，按照方程（3）和（4）尋找最佳非量化自適應(yīng)和固定碼本增益。在如下描述中，假設(shè)數(shù)據(jù)庫包含N+1個幀，以及幀索引是n=0，...，N。將幀索引n加入隨幀而變的用在訓(xùn)練中的參數(shù)中（分類、第一子幀創(chuàng)新能量、和最佳自適應(yīng)和固定碼本增益）。通過在數(shù)據(jù)庫中在所有幀上使估計固定碼本增益與對數(shù)域中的最佳增益之間的均方誤差最小尋找估計系數(shù)。對于第一子幀，均方誤差能量通過下式給出：根據(jù)方程（5），幀n的第一子幀中的估計固定碼本增益通過下式給出：然后，均方誤差能量通過下式給出：在上面的方程（8）中，Eest是兩者都在對數(shù)域中的估計和最佳固定碼本增益之間的誤差的總能量（在整個數(shù)據(jù)庫上）。g(1)c,opt表示第一子幀中的最佳、固定碼本增益。如上文的描述所提及。Ei(n)是來自固定碼本的濾波創(chuàng)新矢量的能量，以及t(n)是幀n的分類參數(shù)。上索引(1)用于表示第一子幀，以及n是幀索引。最小化問題可以通過在對數(shù)域中定義創(chuàng)新矢量的歸一化增益來簡化。也就是說，n=0，...N-1.(9)然后總誤差能量變成上面定義的MSE（均方誤差）問題的解通過如下一對偏導(dǎo)數(shù)求出：從上面的方程中得出的估計系數(shù)的最佳值通過下式給出：(11)在對數(shù)域中進(jìn)行第一子幀中的固定碼本增益的估計，該估計的固定碼本增益應(yīng)該盡可能接近對數(shù)域中的創(chuàng)新矢量的歸一化增益Gi(1)(n)。對于第二和其他隨后子幀，估計方案稍有不同。誤差能量通過下式給出：k=2，...，K.(12)其中將方程（6）代入方程（12）中獲得如下方程：對于每個幀的第二和其他隨后子幀中的估計系數(shù)的計算，將之前子幀的固定和自適應(yīng)碼本增益兩者的量化值用在上述方程（13）中。盡管在它們的位置中可以使用最佳非量化增益，但量化值的使用導(dǎo)致所有子幀中的最大估計效率和因此導(dǎo)致增益量化器的更好總體性能。因此，估計系數(shù)的數(shù)量隨著當(dāng)前子幀的索引提前而增加。增益量化本身描述在如下描述中。估計系數(shù)ai和bi對于每個子幀是不同的，但為了簡單起見，使用相同符號。通常，它們具有與之相聯(lián)系的上標(biāo)(k)，或?qū)τ诿總€子幀不同地表示它們，其中k是子幀索引。方程（13）中的誤差函數(shù)的最小化導(dǎo)致如下線性方程組：這里不提供這個方程組的解，即，估計系數(shù)a0，a1，b0，...，b2k-3的最佳集合，因?yàn)檫@會得出復(fù)雜的公式。通常，這通過配備了線性方程解算器的數(shù)學(xué)軟件，例如，MATLAB來求解。在離線的時候完成而不是在編碼過程中完成是有利的。對于第二子幀，方程（14）簡化為：如上所述，估計系數(shù)的計算如圖4所描繪與增益量化交互進(jìn)行。更具體地說，圖4是描述為每個子幀計算（401）估計系數(shù)的狀態(tài)機(jī)的示意性方塊圖。然后使用計算的估計系數(shù)為每個子幀設(shè)計（402）增益碼本。然后根據(jù)計算的估計系數(shù)和增益碼本設(shè)計進(jìn)行每個子幀的增益量化（403）。固定碼本增益本身的估計在每個子幀中稍有不同，估計系數(shù)通過最小均方誤差求出，以及增益碼本可以使用如描述在，例如，下面的文獻(xiàn)中的KMEANS算法來設(shè)計：MacQueen,J.B.(1967)."SomeMethodsforclassificationandAnalysisofMultivariateObservations".Proceedingsof5thBerkeleySymposiumonMathematicalStatisticsandProbability.UniversityofCaliforniaPress.pp.281-297，在此通過引用將其全部內(nèi)容并入本文中。增益量化圖5是描述增益量化器500的示意性方塊圖。在增益量化之前，假設(shè)來自自適應(yīng)碼本的濾波自適應(yīng)激勵501和來自固定碼本的濾波創(chuàng)新碼矢502兩者都是已知的。編碼器上的增益量化通過在MMSE（最小均方誤差）意義上搜索指定增益碼本503來進(jìn)行。如前面的描述所述，增益碼本503中的每個條目包括包括兩個值：量化自適應(yīng)碼本增益gp和激勵的固定貢獻(xiàn)的校正因子γ。事先進(jìn)行固定碼本增益的估計，將估計的固定碼本增益gc0用于乘以從增益碼本503中選擇的校正因子γ。在每個子幀中，完全地，即，對作為增益碼本的索引的數(shù)量的索引q=0，....，Q-1，Q搜索增益碼本503。在強(qiáng)制量化自適應(yīng)碼本增益gp低于某個閾值的情況下，可以限制搜索范圍。為了縮小搜索范圍，可以按照自適應(yīng)碼本增益gp的數(shù)值以升序分類碼本條目。參照圖5，搜索兩條目增益碼本503，每個搜索提供兩個值—自適應(yīng)碼本增益gp和校正因子γ。乘法器504將校正因子γ乘以估計固定碼本增益gc0，并將所得值用作激勵的固定貢獻(xiàn)的量化增益505（量化固定碼本增益）。另一個乘法器506將來自自適應(yīng)碼本的濾波自適應(yīng)激勵505乘以來自增益碼本503的量化自適應(yīng)碼本增益gp，以生成激勵的自適應(yīng)貢獻(xiàn)507。乘法器508將濾波創(chuàng)新碼矢502乘以量化固定碼本增益505，以生成激勵的固定貢獻(xiàn)509。加法器510將激勵的自適應(yīng)（507）和固定（509）貢獻(xiàn)加在一起以便形成濾波總激勵511。減法器512從目標(biāo)信號xi中減去濾波總激勵511以生成誤差信號ei。計算器513計算誤差信號ei的能量515，并將其供還給增益碼本搜索機(jī)構(gòu)。以這種方式搜索增益碼本501的所有索引或索引的一個子集，并選擇產(chǎn)生最低誤差能量515的增益碼本503的索引，將其發(fā)送給解碼器。增益量化可以通過使方程（2）中的誤差的能量最小來進(jìn)行，該能量通過下式給出：E＝ete＝(x-gpy-gcz)t(x-gpy-gcz).(15)將γgc0代入gc中獲得如下關(guān)系：其中像在上面的方程（4）中那樣計算常數(shù)或相關(guān)性c0，c1，c2，c3，c4和c5。常數(shù)c0，c1，c2，c3，c4和c5以及估計增益gc0在增益碼本503的搜索之前計算，然后針對每個碼本索引（每組條目值gp和γ）計算方程（16）中的能量。選取導(dǎo)致誤差信號ei的最低能量515的來自增益碼本503的碼矢作為它的獲勝碼矢，它的條目值對應(yīng)于量化值gp和γ。然后像如下那樣計算固定碼本增益的量化值：gc＝gc0·γ·圖6是使用方程（16）進(jìn)行誤差信號ei的能量Ei的計算、像圖5中那樣的等效增益量化器600的示意性方塊圖。更具體地說，增益量化器600包含增益碼本601、常數(shù)或相關(guān)性的計算器602、和誤差信號的能量604的計算器603。計算器602使用方程（4）以及目標(biāo)矢量x、來自自適應(yīng)碼本的濾波自適應(yīng)激勵矢量y、和來自固定碼本的濾波固定碼矢z計算常數(shù)或相關(guān)性c0，c1，c2，c3，c4和c5，其中t表示矢量轉(zhuǎn)置。計算器603使用方程（16）從估計固定碼本增益gc0、來自計算器602的相關(guān)性c0，c1，c2，c3，c4和c5、和來自增益碼本601的量化自適應(yīng)碼本增益gp和校正因子γ中計算誤差信號ei的能量Ei。將來自計算器603的誤差信號的能量603供還給增益碼本搜索機(jī)構(gòu)。并且，以這種方式搜索增益碼本601的所有索引或索引的一個子集，并選擇產(chǎn)生最低誤差能量604的增益碼本601的索引作為獲勝索引，將其發(fā)送給解碼器。在圖6的增益量化器600中，增益碼本601具有可以隨子幀而不同的大小。由于估計參數(shù)的數(shù)量的增加，在一個幀中的較后子幀中獲得固定碼本增益的較好估計。因此，在較后子幀中可以使用較少位數(shù)，在一個實(shí)施例中，使用四（4）個子幀，其中增益碼本的位數(shù)是分別與子幀1，2，3和4相對應(yīng)的8，7，6和6個。在在較低位速率上的另一個實(shí)施例中，在每個子幀中使用6個位。在解碼器中，將接收的索引用于從增益碼本中檢索量化自適應(yīng)碼本增益gp和校正因子γ的數(shù)值。固定碼本增益的估計以如前面的描述所述，與編碼器相同的方式進(jìn)行。固定碼本增益的量化值通過方程gc＝gc0·γ來計算。從位流中解碼自適應(yīng)碼矢和創(chuàng)新碼矢兩者，它們變成乘以各自自適應(yīng)和固定碼本增益的自適應(yīng)和固定激勵貢獻(xiàn)。將兩種激勵貢獻(xiàn)加在一起以形成總激勵。如在CELP編碼的現(xiàn)有技術(shù)中所公知，通過LP合成濾波器濾波總激勵求出合成信號。信號分類可以將不同方法用于確定幀的分類，例如，圖1的參數(shù)t。在將幀分類成清音、濁音、一般或過渡幀的如下描述中給出了一個非限制性例子。但是，語音類別的數(shù)量可以與用在本例中的那個不同。例如，在一個實(shí)施例中，只能是濁音或清音地分類。在另一個實(shí)施例中，可以加上像強(qiáng)濁音或強(qiáng)清音那樣的更多類別。信號分類可以分三個步驟進(jìn)行，其中每個步驟區(qū)分特定信號類別。首先，信號活動檢測器（SAD）區(qū)分有效和無效語音幀。如果檢測到無效語音幀（本底噪聲信號），則分類鏈終止，利用舒適噪聲生成（CNG）編碼幀。如果檢測到有效語音幀，則讓該幀受第二分類器支配，以區(qū)分清音幀。如果該分類器將幀分類成清音信號，則分類鏈終止，使用最適合清音信號的編碼方法編碼該幀。否則，通過“穩(wěn)定濁音”分類模塊處理該幀。如果該幀被分類成穩(wěn)定濁音幀，則使用最適合穩(wěn)定濁音信號的編碼方法編碼該幀。否則，該幀有可能包含像濁音發(fā)端或迅速演變濁音信號那樣的非穩(wěn)定信號段。這些幀通常需要通用編碼器和高位速率來維持良好主觀質(zhì)量。公開的增益量化技術(shù)已經(jīng)開發(fā)出來，并且最適用于穩(wěn)定濁音和通用幀。但是，對于任何其他信號類別，可以容易地推廣它。在下文中，將描述清音和濁音信號幀的分類。聲音信號的清音部分通過缺失周期性分量來表征，并且可以進(jìn)一步劃分成能量和頻譜迅速變化的不穩(wěn)定幀、和這些特性保持相對穩(wěn)定的穩(wěn)定幀。清音幀的分類使用如下參數(shù)：作為平均歸一化相關(guān)性計算的發(fā)聲度量（）；平均頻譜傾斜度量（）；有效檢測爆炸信號段的低水平上的最大短時能量增量（dE0）；用于評價幀穩(wěn)定的最大短時能量偏差（dE）；如在下面的文獻(xiàn)中所述將音樂與清音信號區(qū)分開的音調(diào)穩(wěn)定性：Jelinek,M.,Vaillancourt,T.,Gibbs,J.,"G.718:Anewembeddedspeechandaudiocodingstandardwithhighresiliencetoerror-pronetransmissionchannels”,InIEEECommunicationsMagazine,vol.47,pp.117-123,October2009，在此通過引用將其全部內(nèi)容并入本文中；以及檢測極低能信號的相應(yīng)幀能量（Erel）發(fā)聲度量將用于確定發(fā)聲度量的歸一化相關(guān)性作為開環(huán)音高分析的一部分來計算。在CELP編碼的現(xiàn)有技術(shù)中，開環(huán)搜索模塊通常每幀輸出兩個估計量。這里，也用于輸出歸一化相關(guān)性度量。這些歸一化相關(guān)性是對加權(quán)信號和開環(huán)音調(diào)延遲的過去加權(quán)信號計算的。加權(quán)語音信號sw(n)使用感知加權(quán)濾波器來計算。例如，使用適合寬帶信號、具有固定分母的感知加權(quán)濾波。感知加權(quán)濾波器的傳遞函數(shù)的一個例子通過如下關(guān)系給出：其中0＜γ2＜γ1≤1其中A(z)是通過萊文遜-德賓（Levinson-Durbin）算法計算和通過如下關(guān)系給出的線性預(yù)測（LP）濾波的傳遞函數(shù)：LP分析和開環(huán)音調(diào)分析在CELP編碼的現(xiàn)有技術(shù)中是公知的，于是，在本描述中將不作進(jìn)一步描述。發(fā)聲度量被定義成通過如下關(guān)系給出的平均歸一化相關(guān)性：其中Cnom(d0)、Cnom(d1)和Cnom(d2)分別是當(dāng)前幀的前一半的歸一化相關(guān)性、當(dāng)前幀的后一半的歸一化相關(guān)性、和前頭（下一個幀的開頭）的歸一化相關(guān)性。相關(guān)性的變元是開環(huán)音調(diào)滯后。頻譜傾斜頻譜傾斜包含有關(guān)能量的頻率分布的信息。頻譜傾斜可以在頻域中作為集中在低頻的能量與集中在高頻的能量之間的比率來估計。但是，也可以用像信號的兩個第一互相關(guān)系數(shù)之間的比率那樣的不同方式來估計。如下面的文獻(xiàn)所述，高頻和低頻中的能量沿著感知臨界頻帶來計算：J.D.Johnston,"TransformCodingofAudioSignalsUsingPerceptualNoiseCriteria,"IEEEJournalonSelectedAreasinCommunications,vol.6,no.2,pp.314-323,February1988，在此通過引用將其全部內(nèi)容并入本文中。高頻中的能量使用如下關(guān)系作為最后兩個臨界頻帶的平均能量來計算：其中ECB(i)是第i頻帶的臨界頻帶能量和bmax是最后臨界頻帶。低頻中的能量使用如下關(guān)系作為前10個臨界頻帶的平均能量來計算：其中bmin是第一臨界頻帶。中間臨界頻帶被排除在計算之外，因?yàn)樗鼈兺粫纳聘吣芗性诘皖l（一般是濁音）的幀與高能集中在高頻（一般是清音）的幀之間的區(qū)分。在兩者之間，能量含量不是進(jìn)一步討論的任何類別的特征，并且會增加判定混亂。頻譜傾斜通過下式給出：其中和分別是以與和相同的方式計算、最后兩個臨界頻帶和前10個臨界頻帶中的平均噪聲能量。將估計的噪聲能量加入傾斜計算中以計及本底噪聲的存在。頻譜傾斜計算每個幀進(jìn)行兩次，然后計算用在清音幀分類中的平均頻譜傾斜。也就是說，其中eold是之前幀的后一半中的頻譜傾斜。低水平上的最大短時能量增量對輸入聲音信號s(n)評估低水平上的最大短時能量增量dE0，其中n=0對應(yīng)于當(dāng)前幀的第一樣本。對每個子幀評估信號能量兩次。假設(shè)，例如，每個幀四個子幀的情形，每個幀計算能量8次。如果總幀長是，例如，256個樣本，則這些短段的每一個可以具有32個樣本。在計算中，也考慮從前一幀開始的最后32個樣本和從下一幀開始的前32個樣本的短期能量。該短期能量使用如下關(guān)系來計算：j＝-1，..，8，其中j=-1和j=8分別對應(yīng)于前一幀的末端和下一幀的開頭。九個短期能量的另一個集合使用如下關(guān)系將前面方程中的信號索引移動16個樣本來計算：j＝0，..，8.對于足夠低，即，滿足條件的能量，對第一組能量計算如下比率：j＝-1，..，6，以及對（j=0，...，7）重復(fù)相同計算，以獲取兩組比率rat(1)和rat(1)。通過作為低水平上的最大短期能量增量的下式搜索這兩組中的唯一最大值：dE0＝max(rat(1)，rat(2))最大短時能量偏差這個參數(shù)dE類似于低水平上的最大短時能量增量，差異在于不應(yīng)用低水平條件。因此，作為如下四個值的最大值來計算參數(shù)：j＝1，...，7j＝1，...，8.清音信號分類清音信號幀的分類基于上述的參數(shù)，即：發(fā)聲度量平均頻譜傾斜度量（）、低水平上的最大短時能量增量dE0和最大短時能量偏差dE。該算法得到音調(diào)穩(wěn)定性參數(shù)、SAD標(biāo)志和在噪聲能量更新階段計算的相對幀能量進(jìn)一步支持。對于有關(guān)這些參考的更詳細(xì)信息，參見，例如，如下參考文獻(xiàn)：Jelinek,M.,etal.,"Advancesinsource-controlledvariablebitratewidebandspeechcoding",SpecialWorkshopinMAUI(SWIM);Lecturesbymastersinspeechprocessing,Maui,January12-24,2004，在此通過引用將其全部內(nèi)容并入本文中。相對幀能量通過下式給出：其中Et是總幀能量（以dB為單位），是在每個有效幀期間通過更新的長期平均幀能量。寬帶信號的清音分類的規(guī)則總結(jié)如下：這個條件的第一行與低能信號和它們的能量集中在高頻的低相關(guān)性的信號有關(guān)。第二行涵蓋濁音偏移，第三行涵蓋爆炸信號段以及第四行與濁音發(fā)端有關(guān)。最后一行區(qū)分要不然被宣稱為清音的音樂信號。如果滿足組合條件，則通過將當(dāng)前幀宣稱為清音結(jié)束該分類。濁音信號分類如果一個幀未被分類成有效幀或清音幀，則測試是否是穩(wěn)定濁音幀。判定規(guī)則基于每個子幀（具有1/4子樣本分辨率）的歸一化相關(guān)性平均頻譜傾斜和所有子幀（具有1/4子樣本分辨率）的開環(huán)音調(diào)估計。開環(huán)音調(diào)估計過程計算三種開環(huán)音調(diào)滯后：對應(yīng)于前半幀、后半幀和前頭（隨后幀的前半幀）的d0、d1和d2。為了獲取所有四個子幀中的精確音調(diào)信息，計算1/4樣本分辨率分?jǐn)?shù)音調(diào)細(xì)化。這種細(xì)化是對感知加權(quán)輸入信號swd(n)（例如，通過上述感知加權(quán)濾波器濾波的輸入聲音信號s(n)）計算的。在每個子幀的開頭上，使用如下延遲在（-7，+7）間隔中進(jìn)行分辨率為1個樣本的短相關(guān)性分析（40個樣本）：對于第一和第二子幀，d0；對于第三和第四子幀，d1。然后在分?jǐn)?shù)位置上dmax-3/4，dmax-1/2，dmax-1/4，dmax，dmax+1/4，dmax+1/2，dmax+3/4上圍繞它們的最大值內(nèi)插相關(guān)性。選取生成最大相關(guān)性的數(shù)值作為細(xì)化音調(diào)滯后。將所有四個子幀中的細(xì)化開環(huán)音調(diào)滯后表示成T(0)，T(1)，T(2)和T(3)，以及將它們的相應(yīng)歸一化相關(guān)性表示成C(0)，C(1)，C(2)和C(3)。然后，通過下式給出濁音信號分類條件：上面的濁音信號分類條件指示歸一化相關(guān)性在所有子幀中都必須足夠高，音調(diào)估計在整個幀中必須不發(fā)散，以及能量必須集中在低頻中。如果滿足這個條件，則通過將當(dāng)前幀宣稱為濁音結(jié)束該分類。否則，將當(dāng)前幀宣稱為一般的。盡管在前面的描述中已經(jīng)參考其非限制例示性實(shí)施例描述了本發(fā)明，但可以不偏離本發(fā)明的精神和性質(zhì)地在所附權(quán)利要求書的范圍內(nèi)隨意修改這些實(shí)施例。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3