專利名稱:基于仿生模式識(shí)別的極低速率語音編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音編碼方法,尤其涉及基于仿生模式識(shí)別的極低速率語音編碼方法。
背景技術(shù):
根據(jù)語音編碼速率可將語音編碼劃分為五類高速率32Kb/s以上,中高速率16 32Kb/s,中速率4. 8 16Kb/s (其中編碼速率在16Kb/s以下的語音編碼通常稱為語音壓縮編碼),低速率為1. 2 4. 8Kb/s,極低速率語音編碼是指其比特率低于1. 2Kb/s 一下。低速率語音編碼和極低速率語音編碼是現(xiàn)代語音編碼技術(shù)研究和發(fā)展的一個(gè)重要方向,現(xiàn)有的極低速率語音編碼系統(tǒng)所使用的算法種類繁多并呈現(xiàn)出交叉滲透的現(xiàn)象,主要?dú)w結(jié)為混合激勵(lì)線性預(yù)測(MELP)、多帶激勵(lì)(MBE)、波形內(nèi)插(WI)和正弦變換編碼(STC)四種模型雖然從信息論的觀點(diǎn)來看,語音編碼的信息速率下限是50b/s。但是,大量的研究結(jié)果證明,要將比特率降到400b/s以下,目前的低速率語音編碼中所使用的基于線性預(yù)測 (LP)分析合成的各種算法都難以滿足要求,其提供的語音質(zhì)量無法達(dá)到公眾能夠接受的程度。為了使語音編碼的速率降到400b/s —下,逼近50b/s左右的下界,必需研究新的編碼方法。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種基于仿生模式識(shí)別的極低速率語音編碼方法,解決現(xiàn)在低速率語音編碼中所使用的基于LP分析合成的各種算法都無法將比特率降到400b/s以下的缺陷。技術(shù)方案一種基于仿生模式識(shí)別的極低速率語音編碼方法,其特征在于針對組成語音的基元,采用仿生模式識(shí)別后得到文本信息,把由所述文本信息組成的標(biāo)準(zhǔn)語音和實(shí)際說話語音進(jìn)行“比較”運(yùn)算后得到個(gè)體特征信息,然后再將識(shí)別出的語音基元文本信息和個(gè)體特征信息進(jìn)行合并編碼;所述仿生模式中,對于全部語音基元組成的集合,設(shè)為全體連續(xù)映射到特征空間中的“像”所組成的點(diǎn)形成的一個(gè)閉集,在特征空間中構(gòu)筑一個(gè)能覆蓋所述閉集的η維空間幾何形體,采用仿生模式識(shí)別,即對語音的基元進(jìn)行判斷,判斷其是否位于所述覆蓋閉集的η維空間幾何形體內(nèi)。所述仿生模式識(shí)別中在特征空間中構(gòu)筑一個(gè)能覆蓋閉集的η維空間幾何形體為在特征空間中作一個(gè)超橢球面,采用仿生模式識(shí)別即判斷語音的基元是否位于所述超橢球面內(nèi)。所述在特征空間中作一個(gè)超橢球面的具體步驟如下(1)首先在二維空間中,所述超橢球面為橢圓,假定二維空間有m個(gè)樣本,它們可用XOY平面上的m個(gè)點(diǎn)(Xl,yi)、(X2,y2)... (xffl, ym)來表示,采用一次直線擬合法分別求出橢圓的兩根軸的長度,即假設(shè)y與χ之間近似為一線性關(guān)系y = kx+d,但是這m個(gè)點(diǎn)不可能位于同一直線上,利用計(jì)算值和真實(shí)值的誤差趨進(jìn)為0的極值原理求出參數(shù),
權(quán)利要求
1.一種基于仿生模式識(shí)別的極低速率語音編碼方法,其特征在于針對組成語音的基 元,采用仿生模式識(shí)別后得到文本信息,把由所述文本信息組成的標(biāo)準(zhǔn)語音和實(shí)際說話語 音進(jìn)行“比較”運(yùn)算后得到個(gè)體特征信息,然后再將識(shí)別出的語音基元文本信息和個(gè)體特征 信息進(jìn)行合并編碼;所述仿生模式中,對于全部語音基元組成的集合,設(shè)為全體連續(xù)映射到 特征空間中的“像”所組成的點(diǎn)形成的一個(gè)閉集,在特征空間中構(gòu)筑一個(gè)能覆蓋所述閉集的 n維空間幾何形體,采用仿生模式識(shí)別,即對語音的基元進(jìn)行判斷,判斷其是否位于所述覆 蓋閉集的n維空間幾何形體內(nèi)。
2.如權(quán)利要求1所述的基于仿生模式識(shí)別的極低速率語音編碼方法,其特征在于所 述仿生模式識(shí)別中在特征空間中構(gòu)筑一個(gè)能覆蓋閉集的n維空間幾何形體為在特征空間 中作一個(gè)超橢球面,采用仿生模式識(shí)別即判斷語音的基元是否位于所述超橢球面內(nèi)。
3.如權(quán)利要求2所述的基于仿生模式識(shí)別的極低速率語音編碼方法,其特征在于所 述在特征空間中作一個(gè)超橢球面的具體步驟如下(1)首先在二維空間中,所述超橢球面為橢圓,假定二維空間有m個(gè)樣本,它們可用XOY 平面上的m個(gè)點(diǎn)(Xl,yi)、(x2,y2)... (xffl, yffl)來表示,采用一次直線擬合法分別求出橢圓的 兩根軸的長度,即假設(shè)y與X之間近似為一線性關(guān)系y = kx+d,但是這m個(gè)點(diǎn)不可能位于同 一直線上,利用計(jì)算值和真實(shí)值的誤差趨進(jìn)為0的極值原理求出參數(shù),得到橢圓的兩根軸 的長度和方向角,進(jìn)而得到橢圓的方程式如下
4.如權(quán)利要求3所述的基于仿生模式識(shí)別的極低速率語音編碼方法,其特征在于以步驟3所述的方程式得到超橢球面后,判斷語音的基元是否位于所述超橢球面內(nèi)的方程式 e'2 e'2 e'2為如Φ > 0,則表示樣本落入超橢球面所覆蓋的區(qū)域內(nèi)。
5.一種應(yīng)用如權(quán)利要求1所述的方法進(jìn)行編碼的基于仿生模式識(shí)別的語音編碼。
全文摘要
本發(fā)明涉及一種語音編碼方法,屬于語音傳送領(lǐng)域。一種基于仿生模式識(shí)別的極低速率語音編碼方法,其特征在于針對組成語音的基元,采用仿生模式識(shí)別后得到文本信息,把由所述文本信息組成的標(biāo)準(zhǔn)語音和實(shí)際說話語音進(jìn)行“比較”運(yùn)算后得到個(gè)體特征信息,然后再將識(shí)別出的語音基元文本信息和個(gè)體特征信息進(jìn)行合并編碼。本發(fā)明中使用的語音識(shí)別方法與傳統(tǒng)的語音識(shí)別方法相比,仿生模式識(shí)別是單模板識(shí)別,有識(shí)別速度快、關(guān)鍵詞誤識(shí)率低等優(yōu)點(diǎn),識(shí)別后的文本信息編碼極大地降低了碼率,滿足了在某些特殊條件下比如軍事通信、水下通信和保密通信等的需求。
文檔編號G10L19/00GK102522091SQ201110422308
公開日2012年6月27日 申請日期2011年12月15日 優(yōu)先權(quán)日2011年12月15日
發(fā)明者尹巖巖, 殷業(yè), 殷建 申請人:上海師范大學(xué)