基于gmm噪聲估計(jì)的語(yǔ)音增強(qiáng)方法
【專利摘要】本發(fā)明公開(kāi)一種基于高斯混合模型(GMM:Gaussian Mixture Model)噪聲估計(jì)的語(yǔ)音增強(qiáng)方法,用GMM估計(jì)背景噪聲和譜減系數(shù),對(duì)含噪語(yǔ)音進(jìn)行譜減,恢復(fù)純凈語(yǔ)音。首先,含噪語(yǔ)音經(jīng)過(guò)預(yù)處理得到含噪語(yǔ)音的幅度和相位,幅度用于噪聲估計(jì)和譜減,相位用于恢復(fù)時(shí)域信號(hào);然后利用GMM從含噪語(yǔ)音中實(shí)時(shí)估計(jì)噪聲參數(shù)和純凈語(yǔ)音倒譜特征,并根據(jù)估得的純凈語(yǔ)音倒譜特征計(jì)算譜減系數(shù);最后,對(duì)含噪語(yǔ)音的頻譜進(jìn)行譜減,恢復(fù)時(shí)域信號(hào),并用重疊相加法得到增強(qiáng)后的語(yǔ)音。本發(fā)明可以顯著提高語(yǔ)音增強(qiáng)算法對(duì)非平穩(wěn)噪聲的跟蹤能力。
【專利說(shuō)明】基于GMM噪聲估計(jì)的語(yǔ)音増強(qiáng)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于語(yǔ)音識(shí)別【技術(shù)領(lǐng)域】,具體涉及到用高斯混合模型(GMMiGaussian Mixture Model)估計(jì)背景噪聲和譜減系數(shù),對(duì)含噪語(yǔ)音進(jìn)行譜減,恢復(fù)純凈語(yǔ)音的語(yǔ)音增 強(qiáng)方法。
【背景技術(shù)】
[0002] 在實(shí)際應(yīng)用中,語(yǔ)音通信不可避免地會(huì)受到環(huán)境噪聲的干擾。為了減小噪聲對(duì)語(yǔ) 音信號(hào)的影響,在語(yǔ)音通信中,需要采用某些方法抑制噪聲干擾,增強(qiáng)有用語(yǔ)音信號(hào),增加 語(yǔ)音的可懂度,這些方法就是語(yǔ)音增強(qiáng)。根據(jù)語(yǔ)音通道的個(gè)數(shù),語(yǔ)音增強(qiáng)可以分為單通道語(yǔ) 音增強(qiáng)、雙通道語(yǔ)音增強(qiáng)和多通道語(yǔ)音增強(qiáng)。雖然雙通道和多通道語(yǔ)音增強(qiáng)可以取得更好 的增強(qiáng)效果,但是在很多情況下,只有一路語(yǔ)音信號(hào)可用,因此單通道語(yǔ)音增強(qiáng)的研宄仍然 具有重要的意義。
[0003] 譜減法是一種基于短時(shí)譜估計(jì)的單通道語(yǔ)音增強(qiáng)方法,具有運(yùn)算量小、易于實(shí)現(xiàn) 的特點(diǎn),因而受到廣泛應(yīng)用。在譜減法中,根據(jù)非語(yǔ)音段估得的噪聲頻譜均值,從含噪語(yǔ)音 頻譜中減去噪聲頻譜均值,即可得到純凈語(yǔ)音頻譜。由于噪聲的頻譜是一個(gè)隨機(jī)變量,在非 語(yǔ)音段,只能估計(jì)其均值;對(duì)語(yǔ)音段的每一幀頻譜,由于無(wú)法獲得噪聲頻譜的分布信息,只 能減去噪聲頻譜的均值,這就導(dǎo)致譜減后的語(yǔ)音存在較多的殘留噪聲,與實(shí)際純凈語(yǔ)音相 差較大。因此,在譜減法中,通常設(shè)置譜減系數(shù),其設(shè)置原則為:在純?cè)肼曨l段,譜減系數(shù)較 大,減去較多的噪聲;在含有語(yǔ)音的頻段,譜減系數(shù)較小,避免損傷語(yǔ)音。
[0004] 噪聲估計(jì)一直是譜減法語(yǔ)音增強(qiáng)的關(guān)鍵技術(shù)之一,一般通過(guò)對(duì)語(yǔ)音間隙期的噪聲 功率譜進(jìn)行平滑得到噪聲頻譜的均值。然而,環(huán)境噪聲往往是非平穩(wěn)的,在語(yǔ)音段,噪聲的 類型或強(qiáng)度也有可能發(fā)生變化,因此噪聲估計(jì)不能僅僅局限于語(yǔ)音間隙期,在語(yǔ)音存在期 間也應(yīng)該連續(xù)更新噪聲。目前,逐幀估計(jì)噪聲的主要方法是搜索一段時(shí)間內(nèi)含噪語(yǔ)音頻譜 的最小值,用含噪語(yǔ)音頻譜的最小值代表噪聲頻譜大小。這種方法的主要缺點(diǎn)是噪聲估計(jì) 存在一定的延遲,無(wú)法實(shí)時(shí)跟蹤非平穩(wěn)噪聲。
【發(fā)明內(nèi)容】
[0005] 發(fā)明目的:針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提供一種基于高斯混合模型 (GMM)噪聲估計(jì)的語(yǔ)音增強(qiáng)方法。
[0006] 技術(shù)方案:一種基于GMM噪聲估計(jì)的語(yǔ)音增強(qiáng)方法,首先,含噪語(yǔ)音經(jīng)過(guò)預(yù)處理 得到含噪語(yǔ)音的幅度和相位,幅度用于噪聲估計(jì)和譜減,相位用于恢復(fù)時(shí)域信號(hào);然后 利用GMM從含噪語(yǔ)音中實(shí)時(shí)估計(jì)噪聲參數(shù)和純凈語(yǔ)音MFCC(Mel frequency c印stral coefficient),并根據(jù)估得的純凈語(yǔ)音特征MFCC計(jì)算譜減系數(shù);最后,對(duì)含噪語(yǔ)音的頻譜 進(jìn)行譜減,恢復(fù)時(shí)域信號(hào),并用重疊相加法得到增強(qiáng)后的語(yǔ)音。
[0007] 方法的具體過(guò)程如下:
[0008] (1)對(duì)含噪語(yǔ)音進(jìn)行預(yù)處理,包括加窗、分幀和FFT (Fast Fourier Transform),并 將每幀信號(hào)的頻譜分為幅度部分和相位部分;
[0009] (2)根據(jù)含噪語(yǔ)音幅度譜,提取含噪語(yǔ)音MFCC ;
[0010] (3)利用訓(xùn)練階段生成的GMM從含噪語(yǔ)音MFCC中估計(jì)噪聲的均值和方差,在噪聲 估計(jì)中不區(qū)分非語(yǔ)音幀和語(yǔ)音幀;
[0011] (4)利用估得的噪聲參數(shù)對(duì)GMM的均值和方差進(jìn)行變換,使之與當(dāng)前環(huán)境相匹配, 并用最小均方誤差算法估計(jì)純凈語(yǔ)音MFCC ;
[0012] (5)將估得的純凈語(yǔ)音MFCC變換到線性譜域,計(jì)算人耳的掩蔽閾值,得到每個(gè)離 散數(shù)字頻率k處的掩蔽閾值T (k),并根據(jù)T (k)計(jì)算譜減系數(shù);
[0013] (6)對(duì)每幀含噪語(yǔ)音進(jìn)行端點(diǎn)檢測(cè),判斷其是語(yǔ)音幀還是非語(yǔ)音幀;
[0014] (7)根據(jù)估得的噪聲均值和譜減系數(shù),對(duì)語(yǔ)音幀的含噪語(yǔ)音頻譜進(jìn)行幅度譜減,得 到增強(qiáng)后的語(yǔ)音幅度譜;
[0015] (8)對(duì)非語(yǔ)音幀的幅度譜進(jìn)行處理,一般只需要乘以一個(gè)較小的系數(shù)即可,系數(shù)值 一般取0.01 ;
[0016] (9)對(duì)增強(qiáng)后的每幀信號(hào)進(jìn)行IFFT(Inverse FFT)運(yùn)算,得到每幀時(shí)域信號(hào),在進(jìn) 行IFFT運(yùn)算時(shí),相位采用該幀含噪語(yǔ)音的相位;
[0017] (10)對(duì)語(yǔ)音全部幀的時(shí)域信號(hào)進(jìn)行重疊相加,得到增強(qiáng)后的語(yǔ)音。
[0018] 本發(fā)明采用上述技術(shù)方案,具有以下有益效果:在本發(fā)明的語(yǔ)音增強(qiáng)方法中,噪聲 估計(jì)不局限于語(yǔ)音間隙期的靜音段,而是通過(guò)GMM模型逐幀估計(jì)噪聲參數(shù),不區(qū)分靜音段 和語(yǔ)音段,無(wú)需端點(diǎn)檢測(cè)算法。因此,在非平穩(wěn)環(huán)境中,基于GMM噪聲估計(jì)的語(yǔ)音增強(qiáng)方法 可以更好地跟蹤環(huán)境噪聲的變化,得到更加準(zhǔn)確的純凈語(yǔ)音信號(hào),優(yōu)于傳統(tǒng)的語(yǔ)音增強(qiáng)算 法。
【專利附圖】
【附圖說(shuō)明】
[0019] 圖1為本發(fā)明實(shí)施例的方法流程圖,該方法主要包括語(yǔ)音預(yù)處理、特征提取、噪聲 參數(shù)估計(jì)、純凈語(yǔ)音估計(jì)、譜減系數(shù)估計(jì)、端點(diǎn)檢測(cè)、語(yǔ)音幀譜減、非語(yǔ)音幀處理、IFFT和重 疊相加10個(gè)模塊。
【具體實(shí)施方式】
[0020] 下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說(shuō)明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià) 形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。
[0021] 如圖1所示,基于GMM噪聲估計(jì)的語(yǔ)音增強(qiáng)方法主要包括噪聲估計(jì)、譜減系數(shù)估 計(jì)、語(yǔ)音幀譜減、非語(yǔ)音幀處理等模塊。下面逐一詳細(xì)說(shuō)明附圖中各模塊的具體實(shí)施方案。
[0022] 1、語(yǔ)音預(yù)處理:
[0023] 對(duì)含噪語(yǔ)音進(jìn)行預(yù)處理,包括加窗、分幀和FFT。窗函數(shù)一般米用海明窗;分幀時(shí), 前后幀之間一般有部分采樣點(diǎn)重疊;FFT的點(diǎn)數(shù)由采樣頻率決定,使每幀信號(hào)的持續(xù)時(shí)間 在20毫秒左右。含噪語(yǔ)音經(jīng)過(guò)預(yù)處理,可以得到其幅度譜和相位譜,幅度譜用于噪聲估計(jì) 和譜減,相位譜用于在后端恢復(fù)時(shí)域信號(hào)。一般認(rèn)為相位對(duì)聽(tīng)覺(jué)系統(tǒng)的影響很小,可以直接 用含噪語(yǔ)音的相位作為純凈語(yǔ)音的相位。
[0024] 2、特征提?。?br>
[0025] 用標(biāo)準(zhǔn)MFCC提取算法,從含噪語(yǔ)音幅度譜中為每幀信號(hào)提取特征參數(shù),得到含噪 語(yǔ)音MFCC。
[0026] 3、噪聲參數(shù)估計(jì):
[0027] 在訓(xùn)練階段,用一個(gè)GMM表示純凈語(yǔ)音特征向量的空間分布:
【權(quán)利要求】
1. 一種基于GMM噪聲估計(jì)的語(yǔ)音增強(qiáng)方法,其特征是用GMM從含噪語(yǔ)音中實(shí)時(shí)估計(jì)噪 聲參數(shù)和純凈語(yǔ)音特征參數(shù),并根據(jù)估得的純凈語(yǔ)音特征參數(shù)計(jì)算譜減系數(shù),對(duì)含噪語(yǔ)音 的頻譜進(jìn)行譜減,恢復(fù)時(shí)域信號(hào),得到增強(qiáng)后的語(yǔ)音; 具體包括: (1) 利用一個(gè)含有多個(gè)高斯單元的GMM描述純凈語(yǔ)音特征向量的分布,在訓(xùn)練階段用 純凈訓(xùn)練語(yǔ)音的特征向量訓(xùn)練生成該GMM; (2) 用于譜減的噪聲均值通過(guò)GMM從含噪語(yǔ)音特征向量中實(shí)時(shí)估計(jì),在噪聲估計(jì)中,不 區(qū)分語(yǔ)音幀和非語(yǔ)音幀,而是逐幀更新噪聲的均值; (3) 在噪聲參數(shù)估計(jì)中,除估計(jì)噪聲均值外,還估計(jì)噪聲的方差; (4) 利用估得的噪聲均值和方差對(duì)GMM的均值和方差進(jìn)行變換,使之與當(dāng)前環(huán)境相匹 配,并用最小均方誤差算法估計(jì)純凈語(yǔ)音特征向量; (5) 將估得的純凈語(yǔ)音特征向量變換到線性譜域,計(jì)算人耳的掩蔽閾值,得到每個(gè)離散 數(shù)字頻率處的掩蔽閾值,并根據(jù)掩蔽閾值計(jì)算譜減系數(shù); (6) 根據(jù)估得的噪聲均值和譜減系數(shù),對(duì)語(yǔ)音幀的含噪語(yǔ)音頻譜進(jìn)行幅度譜減,得到增 強(qiáng)后的語(yǔ)音幅度譜,對(duì)非語(yǔ)音幀的噪聲幅度譜乘以一個(gè)較小的噪聲保留系數(shù)。
2. 根據(jù)權(quán)利要求1所述的一種基于GMM噪聲估計(jì)的語(yǔ)音增強(qiáng)方法,其特征在于:噪聲 的均值和方差通過(guò)最大期望算法和最大似然準(zhǔn)則從若干幀含噪語(yǔ)音或噪聲中估計(jì),用于噪 聲估計(jì)的信號(hào)包括當(dāng)前幀及其之前的若干幀,幀數(shù)一般取20?30幀。
3. 根據(jù)權(quán)利要求1所述的一種基于GMM噪聲估計(jì)的語(yǔ)音增強(qiáng)方法,其特征在于:純凈 語(yǔ)音估計(jì)中得到純凈語(yǔ)音特征向量不直接作為增強(qiáng)后的語(yǔ)音,而是根據(jù)其計(jì)算人耳的掩蔽 閾值,根據(jù)掩蔽閾值計(jì)算譜減法的過(guò)減系數(shù)和噪聲保留系數(shù)。
4. 根據(jù)權(quán)利要求1所述的一種基于GMM噪聲估計(jì)的語(yǔ)音增強(qiáng)方法,其特征在于:譜減 法的過(guò)減系數(shù)a(k)根據(jù)下式計(jì)算:
其中,k為離散數(shù)字頻率,T(k)為掩蔽閾值,N(k)為噪聲均值,Citl為常數(shù),a(k)為離 散數(shù)字頻率k處的過(guò)減系數(shù)。
【文檔編號(hào)】G10L15/20GK104464728SQ201410704574
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2014年11月26日 優(yōu)先權(quán)日:2014年11月26日
【發(fā)明者】呂勇 申請(qǐng)人:河海大學(xué)