一種語音信號(hào)非連續(xù)傳輸及背景噪聲生成方法
【專利摘要】本發(fā)明請(qǐng)求保護(hù)一種語音信號(hào)非連續(xù)傳輸及背景噪聲生成方法,此方法包括:在語音幀向靜音幀轉(zhuǎn)換時(shí)加入過渡幀,根據(jù)靜音幀中背景噪聲的波動(dòng)值大小來決定發(fā)送靜音描述幀的頻率。在解碼端,以白噪聲作為激勵(lì)信號(hào),通過線性預(yù)測編碼合成濾波器后,再經(jīng)過增益調(diào)整得到舒適噪聲。本發(fā)明在傳輸噪聲信號(hào)時(shí)具有較好的自適應(yīng)性,并且合成的背景噪聲在主觀聽覺上具有良好的連續(xù)性和舒適性。
【專利說明】一種語音信號(hào)非連續(xù)傳輸及背景噪聲生成方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音通信領(lǐng)域,更具體地說,涉及一種語音編碼中的非連續(xù)傳輸技術(shù)和舒適背景噪聲的生成方法。
【背景技術(shù)】
[0002]在語音通信過程中,語音壓縮編碼技術(shù)可以減小傳輸語音信號(hào)所需的帶寬,增加通信系統(tǒng)的容量。人類在進(jìn)行語音通信時(shí),大約有70%左右的時(shí)間沒有講話,如果始終用一種速率進(jìn)行語音編碼,這對(duì)傳輸信道資源是一種浪費(fèi),而信道資源在通信領(lǐng)域,尤其是無線通信領(lǐng)域,是極其寶貴的。
[0003]在現(xiàn)有技術(shù)中,為了減少這種資源浪費(fèi),將傳輸?shù)脑捯粜盘?hào)幀分為語音幀和靜音幀兩類。由于接收端所關(guān)注的是有用的語音信號(hào),因此可用相對(duì)語音信號(hào)較低的編碼速率對(duì)靜音幀中的背景噪聲信號(hào)進(jìn)行編碼傳輸,即采用非連續(xù)傳輸DTX (DiscontinuosTransmission mode)的方式。在接收端,雖然靜音幀的背景噪聲合成質(zhì)量有所下降,但不會(huì)對(duì)語音信號(hào)的連續(xù)性造成影響。[0004]圖1為現(xiàn)有的背景噪聲編解碼方案示意圖。發(fā)送端使用話音激活檢測VAD(VoiceActivity Detector)算法判斷信號(hào)是語音信號(hào)還是背景噪聲信號(hào),如果VAD輸出是“ 1”,說明當(dāng)前信號(hào)是語音信號(hào),采用正常的語音編碼方法進(jìn)行編碼傳輸;如果VAD輸出是“0”,說明當(dāng)前信號(hào)是背景噪聲信號(hào),則以相對(duì)較低的編碼速率對(duì)該信號(hào)進(jìn)行編碼,用產(chǎn)生的背景噪聲幀代替語音幀進(jìn)行傳輸。對(duì)于背景噪聲信號(hào),只提取其譜形狀線性預(yù)測LP (LinearPredictive)參數(shù)和能量參數(shù),并量化編碼組成靜音描述SID(Silence Descriptor)幀,然后根據(jù)DTX方案進(jìn)行傳輸;接收端的舒適噪聲產(chǎn)生CNG (Comfort Noise Generator)模塊解碼SID幀,合成出能描述發(fā)送端背景噪聲特性的舒適噪聲。
[0005]在目前的語音通信技術(shù)中,G.729 Annex B 和 3GPP AMR (Adaptive Multi Rate)是應(yīng)用了 DTX/CNG技術(shù)的具有代表性的語音編碼標(biāo)準(zhǔn)。
[0006]G.729B標(biāo)準(zhǔn)中的DTX模塊使用了自適應(yīng)能量門限和頻譜失真測度來判斷是否發(fā)送SID幀。當(dāng)頻譜參數(shù)和能量參數(shù)發(fā)生較大變化時(shí),發(fā)送SID幀。兩個(gè)相鄰的SID幀之間的最小間隔為2 ;在接收端,舒適噪聲由激勵(lì)信號(hào)通過LPC (Linear Predictive Coding)合成濾波器得到。而激勵(lì)信號(hào)是一個(gè)偽白噪聲激勵(lì)ex (n), ex (η)是語音激勵(lì)Ox1 (η)和高斯白噪聲激勵(lì)ex2(n)的混合。高斯白噪聲信號(hào)的加入是為了改善生成舒適噪聲的生動(dòng)性。此DTX/CNG方法把第一個(gè)靜音幀判決為SID幀,即在話音變?yōu)楸尘霸肼晻r(shí)沒有設(shè)置平滑過渡階段,這讓接收方在聽覺上會(huì)感到不自然。另外,自適應(yīng)能量門限和頻譜失真測度算法比較復(fù)雜,這增大了整個(gè)系統(tǒng)的復(fù)雜度。G.729中SID幀參數(shù)的比特分配如表1所示。
[0007]表1 G.729中SID中貞的比特分配_
【權(quán)利要求】
1.一種語音信號(hào)非連續(xù)傳輸及背景噪聲生成方法,包括用話音激活檢測VAD算法判斷輸入信號(hào)是語音信號(hào)還是背景噪聲信號(hào),其特征在于:所述語音信號(hào)按照正常的語音編碼方法進(jìn)行編碼傳輸;在語音信號(hào)向背景噪聲信號(hào)轉(zhuǎn)換時(shí)加入過渡幀;提取背景噪聲信號(hào)中背景噪聲的基本特征參數(shù),并計(jì)算出背景噪聲的波動(dòng)信息,根據(jù)波動(dòng)信息的大小決定靜音描述SID幀的發(fā)送頻率;接收端解碼靜音描述SID幀后,用白噪聲作為激勵(lì)信號(hào),先通過線性預(yù)測濾波器,再經(jīng)過增益調(diào)整,產(chǎn)生舒適背景噪聲。
2.根據(jù)權(quán)利要求1所述一種語音信號(hào)非連續(xù)傳輸及背景噪聲生成方法,其特征在于:所述過渡幀為背景噪聲信號(hào)從第一幀開始的連續(xù)M幀,所述過渡幀的幀格式和編碼發(fā)送方式與語音信號(hào)的幀格式和編碼發(fā)送方式相同。
3.根據(jù)權(quán)利要求2所述一種語音信號(hào)非連續(xù)傳輸及背景噪聲生成方法,其特征在于:所述過渡幀之后的第一幀為靜音描述SID幀,其參數(shù)是前M個(gè)過渡幀參數(shù)和本幀參數(shù)的平均值。
4.根據(jù)權(quán)利要求1或2或3所述一種語音信號(hào)非連續(xù)傳輸及背景噪聲生成方法,其特征在于:所述背景噪聲的基本特征參數(shù)包括譜參數(shù)和增益參數(shù),所述波動(dòng)信息包括譜參數(shù)波動(dòng)信息和增益參數(shù)波動(dòng)信息。
5.根據(jù)權(quán)利要求4所述一種語音信號(hào)非連續(xù)傳輸及背景噪聲生成方法,其特征在于:所述譜參數(shù)波動(dòng)信息的譜波動(dòng)值計(jì)算公式如下:
6.根據(jù)權(quán)利要求4所述一種語音信號(hào)非連續(xù)傳輸及背景噪聲生成方法,其特征在于:所述增益參數(shù)波動(dòng)信息的增益波動(dòng)值計(jì)算公式如下:
7.根據(jù)權(quán)利要求1或5或6所述一種語音信號(hào)非連續(xù)傳輸及背景噪聲生成方法,其特征在于:所述靜音描述SID幀的發(fā)送頻率為:每N幀或N/2幀發(fā)送一次靜音描述SID幀。
8.根據(jù)權(quán)利要求7所述一種語音信號(hào)非連續(xù)傳輸及背景噪聲生成方法,其特征在于:判斷所述靜音描述幀的發(fā)送頻率的方法為:首先判斷譜波動(dòng)值speC_waV是否大于預(yù)設(shè)門限一,若是,則進(jìn)一步判斷增益波動(dòng)值gain_wav是否大于預(yù)設(shè)門限二,若是,則靜音描述SID幀的發(fā)送頻率設(shè)定為N/2 ;其余情況下,靜音描述SID幀的發(fā)送頻率設(shè)定為N。
【文檔編號(hào)】G10L19/012GK103680509SQ201310682844
【公開日】2014年3月26日 申請(qǐng)日期:2013年12月16日 優(yōu)先權(quán)日:2013年12月16日
【發(fā)明者】李強(qiáng), 謝虹恩, 張小紅, 鄭秋菊, 王麗珍, 夏緒玖, 明艷, 李云 申請(qǐng)人:重慶郵電大學(xué)