基于仿生模式識(shí)別的極低速率語音編碼方法

文檔序號：2819021閱讀：266來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于仿生模式識(shí)別的極低速率語音編碼方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語音編碼方法，尤其涉及基于仿生模式識(shí)別的極低速率語音編碼方法。
背景技術(shù)：
根據(jù)語音編碼速率可將語音編碼劃分為五類高速率32Kb/s以上，中高速率16 32Kb/s,中速率4. 8 16Kb/s (其中編碼速率在16Kb/s以下的語音編碼通常稱為語音壓縮編碼)，低速率為1. 2 4. 8Kb/s，極低速率語音編碼是指其比特率低于1. 2Kb/s 一下。低速率語音編碼和極低速率語音編碼是現(xiàn)代語音編碼技術(shù)研究和發(fā)展的一個(gè)重要方向，現(xiàn)有的極低速率語音編碼系統(tǒng)所使用的算法種類繁多并呈現(xiàn)出交叉滲透的現(xiàn)象，主要?dú)w結(jié)為混合激勵(lì)線性預(yù)測(MELP)、多帶激勵(lì)(MBE)、波形內(nèi)插(WI)和正弦變換編碼(STC)四種模型雖然從信息論的觀點(diǎn)來看，語音編碼的信息速率下限是50b/s。但是，大量的研究結(jié)果證明，要將比特率降到400b/s以下，目前的低速率語音編碼中所使用的基于線性預(yù)測 (LP)分析合成的各種算法都難以滿足要求，其提供的語音質(zhì)量無法達(dá)到公眾能夠接受的程度。為了使語音編碼的速率降到400b/s —下，逼近50b/s左右的下界，必需研究新的編碼方法。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種基于仿生模式識(shí)別的極低速率語音編碼方法，解決現(xiàn)在低速率語音編碼中所使用的基于LP分析合成的各種算法都無法將比特率降到400b/s以下的缺陷。技術(shù)方案一種基于仿生模式識(shí)別的極低速率語音編碼方法，其特征在于針對組成語音的基元，采用仿生模式識(shí)別后得到文本信息，把由所述文本信息組成的標(biāo)準(zhǔn)語音和實(shí)際說話語音進(jìn)行“比較”運(yùn)算后得到個(gè)體特征信息，然后再將識(shí)別出的語音基元文本信息和個(gè)體特征信息進(jìn)行合并編碼；所述仿生模式中，對于全部語音基元組成的集合，設(shè)為全體連續(xù)映射到特征空間中的“像”所組成的點(diǎn)形成的一個(gè)閉集，在特征空間中構(gòu)筑一個(gè)能覆蓋所述閉集的η維空間幾何形體，采用仿生模式識(shí)別，即對語音的基元進(jìn)行判斷，判斷其是否位于所述覆蓋閉集的η維空間幾何形體內(nèi)。所述仿生模式識(shí)別中在特征空間中構(gòu)筑一個(gè)能覆蓋閉集的η維空間幾何形體為在特征空間中作一個(gè)超橢球面，采用仿生模式識(shí)別即判斷語音的基元是否位于所述超橢球面內(nèi)。所述在特征空間中作一個(gè)超橢球面的具體步驟如下(1)首先在二維空間中，所述超橢球面為橢圓，假定二維空間有m個(gè)樣本，它們可用XOY平面上的m個(gè)點(diǎn)(Xl，yi)、(X2，y2)... (xffl, ym)來表示，采用一次直線擬合法分別求出橢圓的兩根軸的長度，即假設(shè)y與χ之間近似為一線性關(guān)系y = kx+d,但是這m個(gè)點(diǎn)不可能位于同一直線上，利用計(jì)算值和真實(shí)值的誤差趨進(jìn)為0的極值原理求出參數(shù)，
權(quán)利要求
1.一種基于仿生模式識(shí)別的極低速率語音編碼方法，其特征在于針對組成語音的基元，采用仿生模式識(shí)別后得到文本信息，把由所述文本信息組成的標(biāo)準(zhǔn)語音和實(shí)際說話語音進(jìn)行“比較”運(yùn)算后得到個(gè)體特征信息，然后再將識(shí)別出的語音基元文本信息和個(gè)體特征信息進(jìn)行合并編碼；所述仿生模式中，對于全部語音基元組成的集合，設(shè)為全體連續(xù)映射到特征空間中的“像”所組成的點(diǎn)形成的一個(gè)閉集，在特征空間中構(gòu)筑一個(gè)能覆蓋所述閉集的 n維空間幾何形體，采用仿生模式識(shí)別，即對語音的基元進(jìn)行判斷，判斷其是否位于所述覆蓋閉集的n維空間幾何形體內(nèi)。
2.如權(quán)利要求1所述的基于仿生模式識(shí)別的極低速率語音編碼方法，其特征在于所述仿生模式識(shí)別中在特征空間中構(gòu)筑一個(gè)能覆蓋閉集的n維空間幾何形體為在特征空間中作一個(gè)超橢球面，采用仿生模式識(shí)別即判斷語音的基元是否位于所述超橢球面內(nèi)。
3.如權(quán)利要求2所述的基于仿生模式識(shí)別的極低速率語音編碼方法，其特征在于所述在特征空間中作一個(gè)超橢球面的具體步驟如下(1)首先在二維空間中，所述超橢球面為橢圓，假定二維空間有m個(gè)樣本，它們可用XOY 平面上的m個(gè)點(diǎn)(Xl，yi)、(x2，y2)... (xffl, yffl)來表示，采用一次直線擬合法分別求出橢圓的兩根軸的長度，即假設(shè)y與X之間近似為一線性關(guān)系y = kx+d,但是這m個(gè)點(diǎn)不可能位于同一直線上，利用計(jì)算值和真實(shí)值的誤差趨進(jìn)為0的極值原理求出參數(shù)，得到橢圓的兩根軸的長度和方向角，進(jìn)而得到橢圓的方程式如下
4.如權(quán)利要求3所述的基于仿生模式識(shí)別的極低速率語音編碼方法，其特征在于以步驟3所述的方程式得到超橢球面后，判斷語音的基元是否位于所述超橢球面內(nèi)的方程式 e'2 e'2 e'2為如Φ > 0，則表示樣本落入超橢球面所覆蓋的區(qū)域內(nèi)。
5.一種應(yīng)用如權(quán)利要求1所述的方法進(jìn)行編碼的基于仿生模式識(shí)別的語音編碼。
全文摘要
本發(fā)明涉及一種語音編碼方法，屬于語音傳送領(lǐng)域。一種基于仿生模式識(shí)別的極低速率語音編碼方法，其特征在于針對組成語音的基元，采用仿生模式識(shí)別后得到文本信息，把由所述文本信息組成的標(biāo)準(zhǔn)語音和實(shí)際說話語音進(jìn)行“比較”運(yùn)算后得到個(gè)體特征信息，然后再將識(shí)別出的語音基元文本信息和個(gè)體特征信息進(jìn)行合并編碼。本發(fā)明中使用的語音識(shí)別方法與傳統(tǒng)的語音識(shí)別方法相比，仿生模式識(shí)別是單模板識(shí)別，有識(shí)別速度快、關(guān)鍵詞誤識(shí)率低等優(yōu)點(diǎn)，識(shí)別后的文本信息編碼極大地降低了碼率，滿足了在某些特殊條件下比如軍事通信、水下通信和保密通信等的需求。
文檔編號G10L19/00GK102522091SQ201110422308
公開日2012年6月27日申請日期2011年12月15日優(yōu)先權(quán)日2011年12月15日
發(fā)明者尹巖巖, 殷業(yè), 殷建申請人:上海師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載