亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于隱半馬爾可夫模型的噪聲魯棒的語音檢測方法

文檔序號:2823354閱讀:520來源:國知局
專利名稱:一種基于隱半馬爾可夫模型的噪聲魯棒的語音檢測方法
專利說明一種基于隱半馬爾可夫模型的噪聲魯棒的語音檢測方法 發(fā)明領(lǐng)域 本發(fā)明涉及一種在噪聲環(huán)境下語音信號處理范疇下,基于隱半馬爾可夫模型的噪聲魯棒的語音檢測方法。

背景技術(shù)
語音檢測用于檢測信號中語音部分和噪聲部分,已經(jīng)在語音編碼、傳輸、語音增強(qiáng)以及語音識別等領(lǐng)域廣泛使用?;诮y(tǒng)計(jì)模型的方法目前也取得了較好的檢測效果,但這些方法在不同噪聲類型、不同信噪比環(huán)境下檢測效果波動較大。而在實(shí)際的應(yīng)用中,噪聲環(huán)境是多樣的、不可避免的,因此噪聲魯棒性成為目前語音檢測的熱點(diǎn)。提出適應(yīng)不同噪聲環(huán)境的魯棒的語音檢測算法,對于語音編碼、增強(qiáng)、識別等應(yīng)用都具有重要意義。


發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題噪聲環(huán)境下傳統(tǒng)語音檢測缺乏魯棒性,提供一種在不同信噪比、不同噪聲環(huán)境下,基于隱半馬爾可夫模型的噪聲魯棒的語音檢測方法。
本發(fā)明采用的技術(shù)方案一種基于隱半馬爾可夫模型的噪聲魯棒的語音檢測方法,其特征在于步驟如下 (1)建立包含語音及非語音兩個狀態(tài)Q={q0,q1}的隱半馬爾可夫模型λ=(A,B,π,τ),其中 q0為非語音,q1為語音; A={aij},i,j=0,1為狀態(tài)qi,qj轉(zhuǎn)移概率; B={bi(Ot)},i=0,1;t>0為輸入信號DCT變換系數(shù)Ot={o1,o2,...,oK},K>0在給定狀態(tài)qi下條件分布概率bi(Ot)=P(Ot|qi),其中o1,o2,...,oK相互獨(dú)立; π={πi},i=0,1;πi>0為狀態(tài)qi先驗(yàn)分布概率; τ={P(d|qi)},i=0,1;d>0為狀態(tài)qi持續(xù)d的概率; (2)依據(jù)訓(xùn)練數(shù)據(jù)集統(tǒng)計(jì)結(jié)果初始化對隱半馬爾可夫模型中狀態(tài)的先驗(yàn)分布概率π={πi}、狀態(tài)持續(xù)時(shí)間分布Weibull的參數(shù)(ki,ωi),信號幀序號t=0; (3)若輸入語音S信號為空,結(jié)束;否則,對S進(jìn)行DCT變換

t=t+1; (4)若t<P,判定當(dāng)前信號為噪聲VAD=0,轉(zhuǎn)(3);若t=P,估計(jì)給定狀態(tài)下輸入信號DCT變換系數(shù)Ot分布的Gauss參數(shù)(μiG,σi)和Laplace參數(shù)(μiL,li),計(jì)算前P幀的似然比LRTt,初始化似然比檢驗(yàn)閾值η,判定當(dāng)前信號為噪聲VAD=0,轉(zhuǎn)(3);若t>P,計(jì)算似然比LRTt,若LRTt≥η則判定當(dāng)前信號為語音VAD=1,若LRTt<η則判定當(dāng)前信號為噪聲VAD=0,轉(zhuǎn)(5); (5)調(diào)整給定狀態(tài)下DCT變換系數(shù)Ot分布的Gauss參數(shù)(μiG,σi)及Laplace參數(shù)(μiL,li),更新似然比檢驗(yàn)閾值η;轉(zhuǎn)(3)。
根據(jù)本發(fā)明的又一個方面,其中步驟(1)又進(jìn)一步包括 依據(jù)訓(xùn)練數(shù)據(jù)集統(tǒng)計(jì)結(jié)果,確定 (1)a00=a11=0,a10=a01=1; (2)對q0,b0(oit)為Gauss分布 (3)對q1,b1(oit)為分布 其中 (4)對q0及q1,P(d|qi)為Weibull分布 根據(jù)本發(fā)明的又一個方面,其中步驟(2)又進(jìn)一步包括 (a)依據(jù)訓(xùn)練集中標(biāo)記數(shù)據(jù)統(tǒng)計(jì)噪聲持續(xù)時(shí)間頻數(shù)F0及語音持續(xù)時(shí)間頻數(shù)F1; (b)由Fi近似W(d;ki,ωi)參數(shù)(ki,ωi)的最大似然估計(jì); (c)隱半馬爾可夫模型中狀態(tài)的先驗(yàn)分布概率
根據(jù)本發(fā)明的又一個方面,其中步驟(4)又進(jìn)一步包括 (a)計(jì)算前向變量αit,i=0,1 若t=1, 若t>1, (b)計(jì)算似然比 (c)t=P時(shí),由輸入信號前P幀的DCT變換系數(shù)Ot,其中P>0,1≤t≤P,估計(jì)B分布的參數(shù)(μiG,σi)及(μiL,li)為 其中P,R為常數(shù); (d)t=P時(shí),由輸入信號前P幀的DCT變換系數(shù)Ot,其中P>0,1≤t≤P,估計(jì)似然比檢驗(yàn)閾值為
根據(jù)本發(fā)明的又一個方面,其中步驟(5)又進(jìn)一步包括 (a)若當(dāng)前幀判定為噪音,調(diào)整參數(shù)(μiG,σi)及閾值η η=ρ0η+(1-ρ0)LRTt 否則調(diào)整參數(shù)(μiL,li)及閾值η η=ρ1η+(1-ρ1)LRTt 其中0<ρ0,ρ1<1為更新常數(shù);


圖1為本發(fā)明方法基本流程圖。

具體實(shí)施例方式 下面參考附圖,對本發(fā)明的實(shí)施例進(jìn)行詳細(xì)的說明。
首先對本發(fā)明的原理進(jìn)行說明。
人類發(fā)聲機(jī)制是聲帶受到一定的外力產(chǎn)生震動,并經(jīng)其后一系列的共鳴器官協(xié)調(diào)形成。因此整個發(fā)聲過程可以認(rèn)為是一個生命周期,受人類器官自身特性的約束,發(fā)聲的生命周期可以認(rèn)為存在一定的統(tǒng)計(jì)規(guī)律。而這種統(tǒng)計(jì)規(guī)律通常是噪聲魯棒的,即人類的發(fā)聲可以認(rèn)為不受環(huán)境中噪聲的影響,因此準(zhǔn)確描述這種統(tǒng)計(jì)規(guī)律,將使得噪聲環(huán)境下語音活動建模更加符合實(shí)際情況,提高了語音檢測的噪聲魯棒性。工程上常使用Birnbaum-Saunders分布及Weibull分布描述生命周期。
具體而言,本發(fā)明所提出的方法基本流程如圖1所示。
本發(fā)明主要包括的核心思想對輸入聲音信號建立隱半馬爾可夫模型;通過訓(xùn)練數(shù)據(jù)集檢驗(yàn)?zāi)P蜕婕胺植嫉念愋?,并利用該?shù)據(jù)集以及輸入聲音信號前若干幀估計(jì)模型中涉及的參數(shù);通過似然比檢驗(yàn)進(jìn)行語音檢測;其后動態(tài)更新模型參數(shù)及似然比檢驗(yàn)閾值。
本發(fā)明的算法描述如下 1.建立包含語音及非語音兩個狀態(tài)Q={q0,q1}的隱半馬爾可夫模型λ=(A,B,π,τ),其中q0為非語音,q1為語音; A={aij},i,j=0,1為狀態(tài)qi,qj轉(zhuǎn)移概率; B={bi(Ot)},i=0,1;t>0為輸入信號DCT變換系數(shù)Ot={o1,o2,...,oK),在給定狀態(tài)qi下條件分布概率bi(Ot)=P(Ot|qi),其中o1,o2,...,oK相互獨(dú)立; π={πi},i=0,1;πi>0為狀態(tài)qi先驗(yàn)分布概率; τ={P(d|qi)},i=0,1;d>0為狀態(tài)qi持續(xù)d的概率; 依據(jù)TIMIT訓(xùn)練數(shù)據(jù)集統(tǒng)計(jì)結(jié)果發(fā)現(xiàn)模型涉及的分布類型如下 (1)a00=a11=0,a10=a01=1; (2)對q0,b0(oit)為Gauss分布 (3)對q1,b1(oit)為分布 其中 (4)對q0及q1,P(d|qi)為Weibull分布 依據(jù)訓(xùn)練數(shù)據(jù)集統(tǒng)計(jì)結(jié)果初始化對隱半馬爾可夫模型中狀態(tài)的先驗(yàn)分布概率π={πi}、狀態(tài)持續(xù)時(shí)間分布的參數(shù)(ki,ωi),信號幀序號t=0;方法如下 (a)依據(jù)訓(xùn)練集中標(biāo)記數(shù)據(jù)統(tǒng)計(jì)噪聲持續(xù)時(shí)間頻數(shù)F0及語音持續(xù)時(shí)間頻數(shù)F1; (b)由Fi近似W(d;ki,ωi)參數(shù)(ki,ωi)的最大似然估計(jì); (c)隱半馬爾可夫模型中狀態(tài)的先驗(yàn)分布概率
3.若輸入語音S信號為空,結(jié)束;否則,對S進(jìn)行DCT變換

t=t+1; 4.若t<P,判定當(dāng)前信號為噪聲VAD=0,轉(zhuǎn)(3);若t=P,估計(jì)給定狀態(tài)下輸入信號DCT變換系數(shù)Ot分布的參數(shù)(μiG,σi)和(μiL,li),計(jì)算前P幀的似然比LRTt,初始化似然比檢驗(yàn)閾值η,判定當(dāng)前信號為噪聲VAD=0,轉(zhuǎn)(3);若t>P,計(jì)算似然比LRTt,若LRTt≥η則判定當(dāng)前信號為語音VAD=1,若LRTt<η則判定當(dāng)前信號為噪聲VAD=0,轉(zhuǎn)(5);方法如下 (a)計(jì)算前向變量αit,i=0,1 若t=1, 若t>1, (b)計(jì)算似然比 (c)t=P時(shí),由輸入信號前P幀的DCT變換系數(shù)Ot,其中P>0,1≤t≤P,估計(jì)B分布的參數(shù)(μiG,σi)及(μiL,li)為 其中P,R為常數(shù); (d)t=P時(shí),由輸入信號前P幀的DCT變換系數(shù)Ot,其中P>0,1≤t≤P,估計(jì)似然比檢驗(yàn)閾值為
5.調(diào)整給定狀態(tài)下DCT變換系數(shù)Ot分布的參數(shù)(μiG,σi)及(μiL,li),更新似然比檢驗(yàn)閾值η;轉(zhuǎn)(3);方法如下 (a)若當(dāng)前幀判定為噪音,調(diào)整參數(shù)(μiG,σi)及閾值η η=ρ0η+(1-ρ0)LRTt 否則調(diào)整參數(shù)(μiL,li)及閾值η η=ρ1η+(1-ρ1)LRTt 其中ρ0,ρ1為常數(shù); 在NOIZEUS數(shù)據(jù)集的語音檢測實(shí)驗(yàn)中,常數(shù)P=15,R=20,ρ0=0.99,ρ1=0.79; 實(shí)驗(yàn)數(shù)據(jù)如下表所示
可以看到,本發(fā)明在多種噪聲環(huán)境下取得效果幾乎一致,且大多數(shù)情況優(yōu)于國際標(biāo)準(zhǔn)的G.729B及AMR2。
綜上所述,根據(jù)上述方法即檢測噪聲環(huán)境下輸入信號中的語音幀和噪音幀。
對于本領(lǐng)域的普通技術(shù)人員來說可顯而易見的得出其他優(yōu)點(diǎn)和修改。因此,具有更廣方面的本發(fā)明并不局限于這里所示出的并且所描述的具體說明及示例性實(shí)施例。因此,在不脫離由隨后權(quán)利要求及其等價(jià)體所定義的一般發(fā)明構(gòu)思的精神和范圍的情況下,可對其作出各種修改。
權(quán)利要求
1.基于隱半馬爾可夫模型的噪聲魯棒的語音檢測方法,其特征在于步驟如下
(1)建立包含語音及非語音兩個狀態(tài)Q={q0,q1}的隱半馬爾可夫模型λ=(A,B,π,τ),其中
q0為非語音,q1為語音;
A={aij},i,j=0,1為狀態(tài)qi,qj轉(zhuǎn)移概率;
B={bi(Ot)},i=0,1;t>0為輸入信號DCT變換系數(shù)Ot={o1,o2,...,oK},K>0在給定狀態(tài)qi下條件分布概率bi(Ot)=P(Ot|qi),其中o1,o2,...,oK相互獨(dú)立;
π={πi},i=0,1;πi>0為狀態(tài)qi先驗(yàn)分布概率;
τ={P(d|qi)},i=0,1;d>0為狀態(tài)qi持續(xù)d的概率;
(2)依據(jù)訓(xùn)練數(shù)據(jù)集統(tǒng)計(jì)結(jié)果初始化對隱半馬爾可夫模型中狀態(tài)的先驗(yàn)分布概率π={πi}、狀態(tài)持續(xù)時(shí)間分布Weibull的參數(shù)(ki,ωi),信號幀序號t=0;
(3)若輸入語音S信號為空,結(jié)束;否則,對S進(jìn)行DCT變換
t=t+1;
(4)若t<P,判定當(dāng)前信號為噪聲VAD=0,轉(zhuǎn)(3);若t=P,估計(jì)給定狀態(tài)下輸入信號DCT變換系數(shù)Ot分布的Gauss參數(shù)(μiG,σi)和Laplace參數(shù)(μiL,li),計(jì)算前P幀的似然比LRTt,初始化似然比檢驗(yàn)閾值η,判定當(dāng)前信號為噪聲VAD=0,轉(zhuǎn)(3);若t>P,計(jì)算似然比LRTt,若LRTt≥η則判定當(dāng)前信號為語音VAD=1,若LRTt<η則判定當(dāng)前信號為噪聲VAD=0,轉(zhuǎn)(5);
(5)調(diào)整給定狀態(tài)下DCT變換系數(shù)Ot分布的Gauss參數(shù)(μiG,σi)及Laplace參數(shù)(μiL,li),更新似然比檢驗(yàn)閾值η;轉(zhuǎn)(3)。
2.根據(jù)權(quán)利要求1的基于隱半馬爾可夫模型的噪聲魯棒的語音檢測方法,其特征在于所述的步驟(1)進(jìn)一步包括
依據(jù)訓(xùn)練數(shù)據(jù)集統(tǒng)計(jì)結(jié)果,確定
(1.1)a00=a11=0,a10=a01=1;
(1.2)對q0,b0(oit)為Gauss分布
(1.3)對q1,b1(oit)為分布
其中
(1.4)對q0及q1,P(d|qi)為Weibull分布
3.根據(jù)權(quán)利要求1的基于隱半馬爾可夫模型的噪聲魯棒的語音檢測方法,其特征在于所述的步驟(2)進(jìn)一步包括
(2.1)依據(jù)訓(xùn)練集中標(biāo)記數(shù)據(jù)統(tǒng)計(jì)噪聲持續(xù)時(shí)間頻數(shù)F0及語音持續(xù)時(shí)間頻數(shù)F1;
(2.2)由Fi近似W(d;ki,ωt)參數(shù)(ki,ωi)的最大似然估計(jì);
(2.3)隱半馬爾可夫模型中狀態(tài)的先驗(yàn)分布概率
4.根據(jù)權(quán)利要求1的基于隱半馬爾可夫模型的噪聲魯棒的語音檢測方法,其特征在于所述的步驟(4)進(jìn)一步包括
(4.1)計(jì)算前向變量αit,i=0,1
若t=1,
若t>1,
(4.2)計(jì)算似然比
(4.3)t=P時(shí),由輸入信號前P幀的DCT變換系數(shù)Ot,其中P>0,1≤t≤P,估計(jì)B分布的參數(shù)(μiG,σi)及(μiL,li)為
其中P,R為常數(shù);
(4.4)t=P時(shí),由輸入信號前P幀的DCT變換系數(shù)Ot,其中P>0,1≤t≤P,估計(jì)似然比檢驗(yàn)閾值為
5.根據(jù)權(quán)利要求1的基于隱半馬爾可夫模型的噪聲魯棒的語音檢測方法,其特征在于所述的步驟(5)進(jìn)一步包括
(5.1)若當(dāng)前幀判定為噪音,調(diào)整參數(shù)(μiG,σi)及閾值η
η=ρ0η+(1-ρ0)LRTt
否則調(diào)整參數(shù)(μiL,li)及閾值η
η=ρ1η+(1-ρ1)LRTt
其中0<ρ0,ρ1<1為更新常數(shù)。
全文摘要
一種基于隱半馬爾可夫模型的噪聲魯棒的語音檢測方法(1)建立隱半馬爾可夫模型λ=(A,B,π,τ);(2)隱半馬爾可夫模型λ中π,τ的參數(shù)初始化;(3)對非空輸入信號進(jìn)行DCT變換;(4)利用前若干幀輸入信號及似然比分別估計(jì)B的參數(shù)和似然比檢驗(yàn)閾值,進(jìn)行似然比檢驗(yàn),完成語音檢測;(5)動態(tài)調(diào)整B的參數(shù)及似然比檢驗(yàn)閾值。本發(fā)明根據(jù)語音及噪音的時(shí)延特征,動態(tài)調(diào)整模型參數(shù)及檢驗(yàn)閾值,利用似然比檢驗(yàn)進(jìn)行語音檢測,實(shí)現(xiàn)了噪聲魯棒的實(shí)時(shí)語音檢測。
文檔編號G10L15/14GK101807397SQ20101011753
公開日2010年8月18日 申請日期2010年3月3日 優(yōu)先權(quán)日2010年3月3日
發(fā)明者劉祥龍, 梁苑, 單寶松, 樓奕華, 李未 申請人:北京航空航天大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1