一種基于melp的多幀聯(lián)合量化低速率語音編解碼方法

文檔序號：2833709閱讀：248來源：國知局

專利名稱：一種基于melp的多幀聯(lián)合量化低速率語音編解碼方法
技術領域：
本方法涉及到無線通信系統(tǒng)中的一種低速率語音編碼方法，特別涉及一種基于混合激勵線性預測編碼(MELP)的多幀聯(lián)合量化低速率語音編解碼方法，該方法適合無線通信系統(tǒng)在通信條件差、背景噪聲復雜的環(huán)境下占用極少的頻譜資源實現(xiàn)語音信號的可靠傳輸，屬于無線通信技術領域。
背景技術：
隨著當前無線通信業(yè)務的不斷擴展和傳輸數(shù)據(jù)量的不斷增大，未來無線通信系統(tǒng)要求更高的數(shù)據(jù)傳輸效率和傳輸準確率，特別是日常最基本的語音通信。然而當前無線通信頻譜資源日漸緊張，通信的電磁環(huán)境日漸惡劣，無線語音通信可用信道越來越窄，低速率語音編碼作為提高頻譜利用率的有效解決方案應運而出。當前無線通信系統(tǒng)廣泛地采用基于人體語音發(fā)聲模型的參數(shù)編碼方案如混合激勵線性預測編碼(MELP)、多帶激勵編碼(MBE)、正弦變換編碼(STC)和波形內(nèi)插編碼(WI)。四種方案均是以人體發(fā)聲的數(shù)學模型為基礎，通過在解碼端對語音信號進行分幀處理，以幀為單位進行合成端所需關鍵性參數(shù)如線譜對頻率(lsf)、基音周期(pitch)、增益G等的提取，然后進行矢量量化和線性量化，最后將量化結(jié)果輸出，上述幾種方案的差別僅僅在于編碼端參數(shù)的提取和處理以及解碼端語音信號重構(gòu)時激勵信號的構(gòu)造和選擇上。然而，隨著當前無線語音通信數(shù)據(jù)量的不斷增大、通信環(huán)境的不斷惡劣和可用頻譜資源的日漸緊張，現(xiàn)有編碼方案因其編碼速率多在2. 4-4. 8kb/s已無法滿足當前的需求，如何研究設計一種有效的低速率語音編解碼方案，使之在有限的信道資源下進行可靠地語音通信成為無線多媒體通信和信號處理領域的技術研究熱點之一。當前國內(nèi)外的許多專家學者在現(xiàn)有參數(shù)編碼方案的基礎上，提出了進一步降低編碼速率的多幀參數(shù)聯(lián)合量化方案，即在解碼端以對語音信號的單幀參數(shù)提取為基礎，依照設定的多幀長度N將相鄰的N個單幀的參數(shù)聯(lián)合起來進行統(tǒng)一量化，以線譜對頻率參數(shù)(Isf)為例，單幀信號的Isf參數(shù)為10維矢量，采取四級殘差矢量量化，而多幀參數(shù)聯(lián)合量化方案中則將N個單幀的Isf聯(lián)合組成一個N*10維矢量，統(tǒng)一進行四級殘差矢量量化，在解碼端通過對量化碼本依照量化標號的索引獲取恢復后的參數(shù)，從而進行語音信號的重構(gòu)。由此可見編碼端對關鍵性參數(shù)的精細量化方案和解碼端對參數(shù)的精確恢復是參數(shù)編碼的重點，同時也是本發(fā)明的出發(fā)點和切入點，如何能夠在保證參數(shù)量化精確度的同時有效降低傳遞參數(shù)的維數(shù)和量化方案的計算復雜度、編解碼延時是當前低速率語音編碼研究領域的熱點。論文《A VARIBLE LOW BIT RATESPEECH CODER BASED ON MELP》和《A 600 BPSMELP VOCODER FOR USE ON HF CHANNELS》中提到的對于語音信號分別采取四幀和六幀的聯(lián)合量化，文獻《一種基于MELP的600b/s極低速率語音編碼》中出現(xiàn)的對于語音信號在編碼端采取三幀的聯(lián)合量化，但參數(shù)傳遞時只傳遞首幀和末幀，解碼端對于參數(shù)采取硬判決性質(zhì)的巾貞間線性插值預測，論文《Joint OptimizationAlgorithm of Mult1-parameterCodebook Size Based on Superframe Mode》中對于所有的多巾貞參數(shù)米取基于信號清池狀況的動態(tài)化碼本量化，都在一定程度了降低編碼速率，但是標準語音的主觀和客觀測試效果顯示過多的單幀參數(shù)聯(lián)合導致傳遞參數(shù)維數(shù)過多，參數(shù)量化過程中進行矢量量化時候所需時間較長，在編碼方案延時效應上效果較差；對于多幀參數(shù)在解碼端過于簡單的采取硬性判決下的幀間線性預測導致參數(shù)重構(gòu)失真較大，極易導致倍頻信號的干擾，重構(gòu)信號可懂度較差，這與參數(shù)編碼以重構(gòu)信號可懂度為第一目標是不相符的，而多幀信號的所有參數(shù)基于清濁情況的動態(tài)化尺寸碼本量化，導致編碼端在參數(shù)量化時需要準備數(shù)量過多的碼本，在具體實現(xiàn)過程中占用存儲較大，造成了參數(shù)量化的執(zhí)行效率較低。因此，設計一種基于多幀參數(shù)聯(lián)合量化的采用最佳權(quán)值加權(quán)的幀間線性預測、計算復雜度和量化效果兼顧優(yōu)化的低速率語音編解碼方案是本發(fā)明的研究內(nèi)容。

發(fā)明內(nèi)容
1、目的為了實現(xiàn)在較窄信道和復雜電磁環(huán)境下無線通信中可靠地低速率語音編碼，將基于參數(shù)編碼的多幀參數(shù)聯(lián)合量化方案應用到語音壓縮編解碼系統(tǒng)中，以提高系統(tǒng)的整體通信性能。傳統(tǒng)的多幀參數(shù)聯(lián)合量化方案選取的多幀個數(shù)隨意化嚴重，存在四幀五幀六幀多種情況，對于關鍵性參數(shù)如線譜對頻率Isf 采取的是全部保留，組成多維矢量量化N*10維傳送，搜索碼本時所需時間較長，算法延時無法滿足通信基本要求，部分傳輸方案中采取幀間線性預測，即參數(shù)只傳遞部分，解碼端采取硬判決權(quán)值加權(quán)的幀間線性預測，即首幀和末幀同時為清音或者濁音則權(quán)值因子r取值0. 5，首幀為濁音，末幀為清音則r取值為0. 8，首幀為清音，末幀為濁音則r取值為0. 2，這樣無法將r與信號的清濁信息進行有效契合，參數(shù)恢復失真度較大從而導致信號出現(xiàn)雜波信號干擾；基于信號清濁的參數(shù)量化碼本尺寸動態(tài)化方案，所需存儲的量化碼本較多，占用存儲空間大，同時多個碼本搜索計算復雜度高。為了提高多幀參數(shù)聯(lián)合量化方案的編解碼性能，本發(fā)明的目的是提供一種基于MELP的多幀聯(lián)合量化低速率語音編解碼方法，它是在多幀參數(shù)聯(lián)合量化的基礎上，以混合性激勵線性預測編碼(MELP)為例，針對多幀聯(lián)合中關鍵性參數(shù)線性插值權(quán)值因子取值和基音周期動態(tài)化碼本量化提出一種新的解決辦法，充分考慮到相鄰五幀信號的清濁變化與線性預測中插值因子的聯(lián)系，對于關鍵參數(shù)基音周期Pitch依照清濁狀態(tài)采用動態(tài)化尺寸的量化碼本進行量化，降低算法計算的復雜度，從多方面提升參數(shù)量化的精細度和參數(shù)重構(gòu)的準確度，提高在低碼率條件下語音信號編解碼的可靠性和頻譜利用率，提升無線通信系統(tǒng)的語音通信性能。2、技術方案本發(fā)明的主要特征在于編碼端，首先對語音信號進行預處理，去除工頻信號的干擾，選取幀長為25ms，進行以幀為單位的關鍵性參數(shù)提取，提取的關鍵性參數(shù)包括線譜對頻率Isf、基音周期pitch、增益G、帶通信號vp，與傳統(tǒng)的MELP/2. 4kb/s編碼標準相比較，本發(fā)明舍棄了主要用于調(diào)節(jié)重構(gòu)語音信號自然度的參數(shù)傅氏級數(shù)幅值Fm和非周期性抖動標志位jitter，然后將相鄰三幀信號的參數(shù)聯(lián)合起來組成一個多維的矢量，進行矢量量化，獲得量化標號后編碼工作完成。解碼端通過量化得到的標號依照量化碼本進行索引查詢，得到對應的參數(shù)數(shù)值，其中對于線譜對頻率參數(shù)Isf需要將前后相鄰的連續(xù)五幀信號的清濁信息嵌入到線性插值公式中，依照給定的方案選取最合適的插值因子。參數(shù)完全恢復后經(jīng)過合成濾波器得到重構(gòu)語音信號，完成解碼工作。

圖1給出的是編碼端對參數(shù)的提取和量化過程，提取的參數(shù)主要包括線譜對頻率lsf、基音周期pitch、增益G、帶通信號vp。編碼端的基本步驟如下步驟一確定各參數(shù)量化所用比特數(shù)目，計算編碼速率。步驟二輸入語音信號經(jīng)過預處理去除工頻信號干擾，進行分幀處理，單幀信號時間長度為25ms計算參數(shù)，依照圖2給出的針對線譜對頻率Isf所采用的多級殘差進行矢量量化。步驟三依照圖3給定的線性插值的權(quán)值因子r的確定過程進行r的確定。步驟四依照圖4給定的基音周期量化動態(tài)碼本尺寸的確定進行不同模式下的碼本確定。步驟五設定巾貞數(shù)number=l將連續(xù)三巾貞信號的參數(shù)進行聯(lián)合組成超級中貞，進行統(tǒng)一矢量量化線譜對頻率參數(shù)Isf采取部分傳遞，只傳遞第一幀和第三幀，即IsMlsf1, I Sf3), 20 維信號；增益參數(shù) G=(Gia，Glj2, G2j1, G2j2, G3a, G3，2)，首先計算均值
,將增益進行去均值處理然后進行矢量量化，均值進行線性均
6
勻量化；基音周期pitch= (Pl，P2, P3)，取對數(shù)后進行矢量量化，量化碼本的尺寸依照三幀信號的清濁動態(tài)變化；帶通信號的清濁VP中第一子帶的清濁VP1作為整幀信號的清濁全部傳送，后四個子帶的清濁則按順序組成一個12維的矢量進行矢量量化，量化碼本尺寸固定。步驟六將之前步驟所得的參數(shù)進行7，4漢明碼和8，4漢明碼的差錯控制編碼，組成二進制比特流進行傳送。其中，編碼端步驟二中所述的“依照圖2給出的針對線譜對頻率Isf所采用的多級殘差進行矢量量化”，其具體實現(xiàn)過程如下步驟1:首幀信號的參數(shù)Isf1與末幀信號的參數(shù)Isf3聯(lián)合組成量化矢量Isf= (Isf1, Isf3)，20維信號，量化次數(shù)n設為1.步驟2 :對輸入信號進行矢量量化，計算Isf與碼本中每一個碼矢之間的歐氏距離。計算公式必=!>,(/私-kf,j s其中Isfi代表輸入矢量的第i維上的數(shù)值，w代表碼
I I
本中的第j個碼矢的第i維上的數(shù)值，Wi代表權(quán)值因子，對所有歐式距離進行比較，最小值對應的標號即為量化結(jié)果。步驟3 :判斷量化次數(shù)是否達到n，滿足則量化過程結(jié)束，未達到則計算殘差信號cancha = kf — lsf ；然后將cancha當作待量化矢量跳回步驟2繼續(xù)進行。其中，編碼端步驟三中所述的“依照圖3給定的線性插值的權(quán)值因子r的確定過程進行r的確定”其具體實現(xiàn)過程如下

步驟1:依照五幀信號的清濁信息即帶通信號Vp=(Vl，V2, v3, v4, V5)進行分類，其中取值為I代表信號是濁音信號，取值為0代表信號為清音信號。特殊情況為當V2=V4=I和V2=V4=O時權(quán)值因子r取值為常值0. 5。步驟2 :去除上述特殊情況的前提下，依照vp進行分類，具體分類如表I所示。對于特定分類下的插值因子，設定&/2 = + Cl - ) * kf\i =在A G (0, I)求解
權(quán)利要求
1.一種基于MELP的多幀聯(lián)合量化低速率語音編解碼方法，其特征在于該方法具體步驟如下編碼端的基本步驟如下步驟一確定各參數(shù)量化所用比特數(shù)目，計算編碼速率；步驟二輸入語音信號經(jīng)過預處理去除工頻信號干擾，進行分幀處理，單幀信號時間長度為25ms計算參數(shù)，依照給出的針對線譜對頻率Isf所采用的多級殘差進行矢量量化；步驟三依照給定的線性插值的權(quán)值因子r的確定過程進行r的確定；步驟四依照給定的基音周期量化動態(tài)碼本尺寸的確定進行不同模式下的碼本確定；步驟五設定幀數(shù)number=l將連續(xù)三幀信號的參數(shù)進行聯(lián)合組成超級幀，進行統(tǒng)一矢量量化線譜對頻率參數(shù)Isf采取部分傳遞，只傳遞第一幀和第三幀，即IsMlsf1, I Sf3), 20 維信號；增益參數(shù) G=(Gia，Glj2, G2j1, G2j2, G3a, G3，2)，首先計算均值
2.根據(jù)權(quán)利要求1所述的一種基于MELP的多幀聯(lián)合量化低速率語音編解碼方法，其特征在于編碼端步驟二中所述的“依照給出的針對線譜對頻率Isf所采用的多級殘差進行矢量量化”，其具體實現(xiàn)過程如下步驟1:首幀信號的參數(shù)I s 與末幀信號的參數(shù)I s f3聯(lián)合組成量化矢量IsMlsf1, Isf3), 20維信號，量化次數(shù)η設為I ；步驟2 :對輸入信號進行矢量量化，計算Isf與碼本中每一個碼矢之間的歐氏距離；計算公式cfe = YdWiHsfl-1sfuY 3其中Isfi代表輸入矢量的第i維上的數(shù)值，代表碼本中的第j個碼矢的第i維上的數(shù)值，Wi代表權(quán)值因子，對所有歐式距離進行比較，最小值對應的標號即為量化結(jié)果；步驟3 :判斷量化次數(shù)是否達到n，滿足則量化過程結(jié)束，未達到則計算殘差信號ccmcha = !,sf-lsf，然后將cancha當作待量化矢量跳回步驟2繼續(xù)進行。
3.根據(jù)權(quán)利要求1所述的一種基于MELP的多幀聯(lián)合量化低速率語音編解碼方法，其特征在于編碼端步驟三中所述的“依照給定的線性插值的權(quán)值因子r的確定過程進行r的確定”其具體實現(xiàn)過程如下步驟1:依照五幀信號的清濁信息即帶通信號VP=(Vl，V2, v3, v4, v5)進行分類，其中取值為I代表信號是濁音信號，取值為O代表信號為清音信號，特殊情況為當V2=V4=I和V2=V4=O時權(quán)值因子r取值為常值O. 5 ；步驟2 :去除上述特殊情況的前提下，依照vp進行分類，具體分類如下表I所示，對于特定分類下的插值因子，設定
4.根據(jù)權(quán)利要求1所述的一種基于MELP的多幀聯(lián)合量化低速率語音編解碼方法，其特征在于編碼端步驟四中所述的“依照給定的基音周期量化動態(tài)碼本尺寸的確定進行不同模式下的碼本確定”，其具體實現(xiàn)過程如下步驟1:首先判斷三幀信號的清濁，依照其中濁音信號個數(shù)改變量化碼本的尺寸，濁音信號個數(shù)越多，量化碼本的尺寸越大；當三幀信號均為清音信號時，基音周期均為默認值50，此時碼本尺寸為I，碼本中僅有一個碼矢P= (50，50，50)；步驟2 :當三幀信號中僅有一幀信號為濁音時量化碼本尺寸統(tǒng)一設定為Mim1,當三幀中有兩幀信號為濁音信號時量化碼本尺寸設定為num2 ；步驟3 :當三幀信號均為濁音信號時設定碼本量化尺寸為num3，此時將全清音信號時節(jié)省下的碼本尺寸賦給全濁音信號；所有碼本的尺寸關系滿足公式Σ · = 2、+、，對于不同的清濁模式下采用LBG算法訓練對應的量化碼本。
全文摘要
一種基于MELP的多幀聯(lián)合量化低速率語音編解碼方法，編碼端對信號首先采取單幀25ms長度處理，依次提取參數(shù)線譜對頻率lsf、基音周期pitch、帶通清濁vp和增益G，然后以相鄰三幀為單位進行聯(lián)合量化，其中vp采取3維的單碼本量化，pitch先對數(shù)化后采取依照信號清濁的動態(tài)化尺寸的碼本量化，G先進行去均值化再單碼本量化，lsf只將首幀的和末幀的組成20維矢量進行四級殘差矢量量化，解碼端對于G、lsf、pitch首先采取解碼本處理，然后針對lsf采取插值因子加權(quán)的幀間線性預測獲得中間幀的lsf，插值因子r求解過程中嵌入了前后相鄰五幀信號的清濁信息，充分考慮到了語音信號的頻譜連續(xù)性和平穩(wěn)性。因此，本發(fā)明有效地將編碼速率降低1.2kb/s以下，對于低速率語音編碼技術的研究和應用有很大的參考價值。
文檔編號G10L19/135GK103050122SQ20121055196
公開日2013年4月17日申請日期2012年12月18日優(yōu)先權(quán)日2012年12月18日
發(fā)明者修春娣, 蘇兆安, 劉建偉申請人:北京航空航天大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：修春娣;蘇兆安;劉建偉
技術所有人：北京航空航天大學
我是此專利的發(fā)明人

上一篇：一種折疊式樂譜支架的支撐組件的制作方法
上一篇：一種黏著語語音識別方法及系統(tǒng)的制作方法

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于melp的多幀聯(lián)合量化低速率語音編解碼方法