本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種語音降噪的方法及系統(tǒng)以及智能終端。
背景技術(shù):
現(xiàn)有技術(shù)中,在一些支持語音操作的智能終端中往往必須用到語音識(shí)別的功能,即通過識(shí)別說話人的聲紋以及語句得到智能終端能夠執(zhí)行的指令,并進(jìn)而根據(jù)該指令執(zhí)行相應(yīng)的操作。然而,在某些非說話人語音的噪聲干擾較強(qiáng)的應(yīng)用場合(例如應(yīng)用在一個(gè)說話人較多的空間,或者所應(yīng)用的空間的背景噪聲較強(qiáng)),由于背景噪聲與說話人的語音指令糅合在一起,會(huì)使語音識(shí)別更為困難,識(shí)別難度大大降低。
現(xiàn)有技術(shù)中,當(dāng)背景噪聲相對(duì)較小時(shí)可以采用一些現(xiàn)有的方法(例如譜減法和wiener濾波)在語音識(shí)別過程中進(jìn)行噪聲濾波,并取得了較為顯著的效果。但是對(duì)于一些背景噪聲較大的應(yīng)用環(huán)境下,現(xiàn)有技術(shù)中并不存在較為理想的關(guān)于噪聲濾波的技術(shù)方案。
技術(shù)實(shí)現(xiàn)要素:
根據(jù)現(xiàn)有技術(shù)中存在的上述問題,現(xiàn)提供一種語音降噪的方法及系統(tǒng)以及智能終端的技術(shù)方案,具體包括:
一種語音降噪的方法,適用于智能終端,其中,包括:
步驟s1,采集外部輸入的語音,并判斷所述語音的聲音強(qiáng)度是否高于一預(yù)設(shè)的強(qiáng)度閾值,并在所述聲音強(qiáng)度高于所述強(qiáng)度閾值時(shí)將所述語音確認(rèn)為待判斷語音,并轉(zhuǎn)向步驟s2;
步驟s2,根據(jù)所述待判斷語音的頻譜,生成對(duì)應(yīng)所述待判斷語音上每個(gè)頻帶的估計(jì)標(biāo)識(shí),所述估計(jì)標(biāo)識(shí)用于表示所述語音在諧波結(jié)構(gòu)上的顯著性;
步驟s3,生成對(duì)應(yīng)于所述待判斷語音的純語音的概率模型;
步驟s4,以每個(gè)所述估計(jì)標(biāo)識(shí)作為對(duì)應(yīng)的所述待判斷語音的所述頻帶的權(quán)重指標(biāo),依據(jù)所述概率模型處理得到關(guān)聯(lián)于所述語音的純語音估計(jì)值。
優(yōu)選的,該語音降噪的方法,其中,所述步驟s2中生成的所述估計(jì)標(biāo)識(shí)包括第一估計(jì)標(biāo)識(shí);或者
所述步驟s2中生成的所述估計(jì)標(biāo)識(shí)包括第一估計(jì)標(biāo)識(shí)和第二估計(jì)標(biāo)識(shí)。
優(yōu)選的,該語音降噪的方法,其中,所述步驟s2中,生成所述第一估計(jì)標(biāo)識(shí)的步驟具體包括:
步驟s21a,依據(jù)所述待判斷語音的所述頻譜,提取對(duì)應(yīng)于所述待判斷語音的所述諧波結(jié)構(gòu);
步驟s22a,對(duì)關(guān)聯(lián)于所述諧波結(jié)構(gòu)的數(shù)譜域上的監(jiān)控值進(jìn)行規(guī)則化處理,并依據(jù)梅爾刻度對(duì)經(jīng)過規(guī)則化處理的所述監(jiān)控值執(zhí)行平滑處理;
步驟s23a,對(duì)經(jīng)過平滑處理的所述監(jiān)控值進(jìn)行進(jìn)一步的規(guī)則化處理,以使所述監(jiān)控值的均值為1;
步驟s24a,根據(jù)所述監(jiān)控值生成對(duì)應(yīng)所述待判斷語音的每個(gè)所述頻帶的所述第一估計(jì)標(biāo)識(shí)。
優(yōu)選的,該語音降噪的方法,其中,所述步驟s4中,根據(jù)所述第一估計(jì)標(biāo)識(shí)處理得到所述純語音估計(jì)值的方法具體包括:
步驟s41a,處理得到關(guān)聯(lián)于所述待判斷語音的最小均方誤差估計(jì)的后驗(yàn)概率;
步驟s42a,以每個(gè)所述第一估計(jì)標(biāo)識(shí)作為對(duì)應(yīng)的所述待判斷語音的所述頻帶的權(quán)重指標(biāo),依據(jù)所述概率模型對(duì)關(guān)聯(lián)于所述待判斷語音的所述后驗(yàn)概率進(jìn)行加權(quán)計(jì)算,以得到所述純語音估計(jì)值。
優(yōu)選的,該語音降噪的方法,其中,所述步驟s2中,生成所述第二估計(jì)標(biāo)識(shí)的步驟具體包括:
步驟s21b,依據(jù)所述待判斷語音的所述頻譜,提取對(duì)應(yīng)于所述待判斷語音的所述諧波結(jié)構(gòu);
步驟s22b,對(duì)關(guān)聯(lián)于所述諧波結(jié)構(gòu)的數(shù)譜域上的監(jiān)控值進(jìn)行規(guī)則化處理,并依據(jù)梅爾刻度對(duì)經(jīng)過規(guī)則化處理的所述監(jiān)控值執(zhí)行平滑處理;
步驟s23b,對(duì)經(jīng)過平滑處理的所述監(jiān)控值從0到1進(jìn)行相應(yīng)的規(guī)則化處理;
步驟s24b,根據(jù)所述監(jiān)控值生成對(duì)應(yīng)所述待判斷語音的每個(gè)所述頻帶的所述第二估計(jì)標(biāo)識(shí)。
優(yōu)選的,該語音降噪的方法,其中,執(zhí)行所述步驟s4之后,還根據(jù)所述第二估計(jì)標(biāo)識(shí)繼續(xù)執(zhí)行下述步驟:
針對(duì)所述待判斷語音的每個(gè)頻帶,將每個(gè)對(duì)應(yīng)的所述第二估計(jì)標(biāo)識(shí)作為權(quán)重,以在所述監(jiān)控值與所述純語音估計(jì)值之間執(zhí)行線性插值并處理得到對(duì)應(yīng)的輸出值。
一種語音降噪的系統(tǒng),適用于智能終端,其中,包括:
采集單元,用于采集外部輸入的語音;
判斷單元,連接所述采集單元,所述判斷單元內(nèi)預(yù)置有一強(qiáng)度閾值,并用于判斷外部輸入的所述語音的聲音強(qiáng)度是否高于所述強(qiáng)度閾值,輸出相應(yīng)的判斷結(jié)果;
第一處理單元,連接所述判斷單元,用于根據(jù)所述判斷結(jié)果,在所述語音的所述聲音強(qiáng)度高于所述強(qiáng)度閾值時(shí)將所述語音確認(rèn)為待判斷語音,并根據(jù)所述待判斷語音的頻譜,生成對(duì)應(yīng)所述待判斷語音上每個(gè)頻帶的估計(jì)標(biāo)識(shí),所述估計(jì)標(biāo)識(shí)用于表示所述語音在諧波結(jié)構(gòu)上的顯著性;
模型生成單元,連接所述第一處理單元,用于生成對(duì)應(yīng)于所述待判斷語音的純語音的概率模型;
第二處理單元,連接所述模型生成單元,用于以每個(gè)所述估計(jì)標(biāo)識(shí)作為對(duì)應(yīng)的所述待判斷語音的所述頻帶的權(quán)重指標(biāo),依據(jù)所述概率模型處理得到關(guān)聯(lián)于所述語音的純語音估計(jì)值。
優(yōu)選的,該語音降噪的系統(tǒng),其中,所述估計(jì)標(biāo)識(shí)包括第一估計(jì)標(biāo)識(shí);或者
所述估計(jì)標(biāo)識(shí)包括第一估計(jì)標(biāo)識(shí)和第二估計(jì)標(biāo)識(shí)。
優(yōu)選的,該語音降噪的系統(tǒng),其中,所述第一處理單元具體包括:
提取模塊,用于依據(jù)所述待判斷語音的所述頻譜,提取對(duì)應(yīng)于所述待判斷語音的所述諧波結(jié)構(gòu);
第一處理模塊,連接所述提取模塊,用于對(duì)關(guān)聯(lián)于所述諧波結(jié)構(gòu)的數(shù)譜域上的監(jiān)控值進(jìn)行規(guī)則化處理,并依據(jù)梅爾刻度對(duì)經(jīng)過規(guī)則化處理的所述監(jiān)控值執(zhí)行平滑處理;
第二處理模塊,連接所述第一處理模塊,用于對(duì)經(jīng)過平滑處理的所述監(jiān)控值進(jìn)行進(jìn)一步的規(guī)則化處理,以使所述監(jiān)控值的均值為1;
第一生成模塊,連接所述第二處理模塊,用于根據(jù)所述監(jiān)控值生成對(duì)應(yīng)所述待判斷語音的每個(gè)所述頻帶的所述第一估計(jì)標(biāo)識(shí)。
優(yōu)選的,該語音降噪的系統(tǒng),其中,所述第二處理單元具體包括:
第三處理模塊,用于處理得到關(guān)聯(lián)于所述待判斷語音的最小均方誤差估計(jì)的后驗(yàn)概率;
第四處理模塊,連接所述第三處理模塊,用于以每個(gè)所述第一估計(jì)標(biāo)識(shí)作為對(duì)應(yīng)的所述待判斷語音的所述頻帶的權(quán)重指標(biāo),依據(jù)所述概率模型對(duì)關(guān)聯(lián)于所述待判斷語音的所述后驗(yàn)概率進(jìn)行加權(quán)計(jì)算,以得到所述純語音估計(jì)值。
優(yōu)選的,該語音降噪的系統(tǒng),其中,所述第一處理單元包括:
第五處理模塊,連接所述第一處理單元,用于對(duì)經(jīng)過平滑處理的所述監(jiān)控值從0到1進(jìn)行相應(yīng)的規(guī)則化處理;
第二生成模塊,連接所述第五處理模塊,用于根據(jù)所述監(jiān)控值生成對(duì)應(yīng)所述待判斷語音的每個(gè)所述頻帶的所述第二估計(jì)標(biāo)識(shí)。
優(yōu)選的,該語音降噪的系統(tǒng),其中,還包括:
第三處理單元,連接所述第二處理單元,用于針對(duì)所述待判斷語音的每個(gè)頻帶,將每個(gè)對(duì)應(yīng)的所述第二估計(jì)標(biāo)識(shí)作為權(quán)重,以在所述監(jiān)控值與所述純語音估計(jì)值之間執(zhí)行線性插值并處理得到對(duì)應(yīng)的輸出值。
一種智能終端,其中,采用上述的語音降噪的方法。
一種智能終端,其中,包括上述的語音降噪的系統(tǒng)。
上述技術(shù)方案的有益效果是:
1)提供一種語音降噪的方法,能夠提升背景噪聲去除的效果,較好地排除語音識(shí)別過程中較大的背景噪聲的干擾,提升語音識(shí)別的準(zhǔn)確度;
2)提供一種語音降噪的系統(tǒng),能夠支持實(shí)現(xiàn)上述語音降噪的方法。
附圖說明
圖1是本發(fā)明的較佳的實(shí)施例中,一種語音降噪的方法的總體流程示意圖;
圖2-4是本發(fā)明的較佳的實(shí)施例中,于圖1的基礎(chǔ)上,語音降噪的方法的分步驟流程示意圖;
圖5是本發(fā)明的較佳的實(shí)施例中,一種語音降噪的系統(tǒng)的總體結(jié)構(gòu)示意圖;
圖6-7是本發(fā)明的較佳的實(shí)施例中,于圖5的基礎(chǔ)上,語音降噪的系統(tǒng)的分模塊結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
需要說明的是,在不沖突的情況下,本發(fā)明中的實(shí)施例及實(shí)施例中的特征可以相互組合。
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明,但不作為本發(fā)明的限定。
通常而言,智能終端內(nèi)適用的語音識(shí)別系統(tǒng)包括前端和后端兩個(gè)部分,前端應(yīng)用某種語音轉(zhuǎn)換技術(shù)在說話人輸入的語音中提取相應(yīng)的特征量,后端就依據(jù)這些被提取的特征量,采用預(yù)先訓(xùn)練好的識(shí)別模型進(jìn)行語音識(shí)別,以確定說話人輸入的語句中包含的內(nèi)容。則本發(fā)明技術(shù)方案是對(duì)現(xiàn)有技術(shù)中的語音識(shí)別系統(tǒng)中的前端進(jìn)行的改進(jìn),即在根據(jù)外部輸入的語音提取特征量的過程中進(jìn)行的改進(jìn),旨在降低背景噪聲對(duì)上述過程的影響。
因此,本發(fā)明的較佳的實(shí)施例中,基于現(xiàn)有技術(shù)中存在的上述問題,現(xiàn)提供一種語音降噪的方法,其適用于智能終端,例如適用于支持語音操作的智能機(jī)器人。
該技術(shù)方案中,所述的“外部輸入的語音”以及“待判斷語音”均為疊加了背景噪聲的說話人的語音。所述的“純語音”是指去除了背景噪聲的說話人的語音。所謂的“純語音估計(jì)值”是指通過上述待判斷語音(即包括背景噪聲的語音)估計(jì)得到的純語音。所述的“頻譜”是指語音的功率譜或者幅度譜。
本發(fā)明技術(shù)方案基于下文中所述的現(xiàn)有技術(shù)展開,即基于mmse (minimummeansquareerror,最小均方誤差)估計(jì)技術(shù)實(shí)現(xiàn)的噪聲消除技術(shù)上做出改進(jìn)得到的本發(fā)明技術(shù)方案。
因此,在描述本發(fā)明技術(shù)方案之前,首先描述基于mmse的噪聲消除技術(shù):在給出初始的語音值y(對(duì)應(yīng)于上文中所述的疊加有背景噪聲的語音)時(shí),將純語音值x建模為x的概率分布模型p(x|y),并且從概率分布模型p(x|y)估計(jì)純語音x的估計(jì)值。則mmse估計(jì)是用在后續(xù)階段的估計(jì)中的基礎(chǔ)技術(shù)。
則mmse估計(jì)技術(shù)中,首先用麥克風(fēng)收集和記錄說話人的語音,作為觀測語音,隨后通過a/d轉(zhuǎn)換的方式將觀測語音轉(zhuǎn)換為數(shù)字信號(hào),并經(jīng)過成幀以及dft變換(discretefouriertransform,離散傅里葉變換),以被轉(zhuǎn)換為每一幀語音的頻譜。接下來,每幀頻譜經(jīng)過梅爾濾波器組并取其對(duì)數(shù)(一種濾波器組,其中帶通濾波器以相等間隔布置在梅爾標(biāo)度上),其繼而被轉(zhuǎn)換為梅爾對(duì)數(shù)譜并被輸出。
現(xiàn)有技術(shù)中,基于輸出的梅爾對(duì)數(shù)譜,可以生成每一幀的純語音估計(jì)值,并且可以輸出對(duì)應(yīng)的純語音估計(jì)值。
mmse估計(jì)技術(shù)上文中形成的概率分布模型來執(zhí)行mmse估計(jì),并且能夠生成純語音估計(jì)值。但是應(yīng)當(dāng)注意的是,被保存的概率分布模型是梅爾對(duì)數(shù)譜域中的gmm模型(gaussianmixturemodel,高斯混合模型),即基于先驗(yàn)學(xué)習(xí)而針對(duì)每個(gè)音素生成的模型。則通過mmse估計(jì)可以生成純語音估計(jì)值并作為梅爾對(duì)數(shù)譜域中的向量。
隨后,可以提取特定的特征量,例如從被輸出的純語音估計(jì)值的梅爾倒頻譜系數(shù)(mfcc)提取相應(yīng)的特征量,并且將該特征量發(fā)送給后端。在后端,通過使用其他語音識(shí)別方式例如hmm(hiddenmarkovmodel,隱馬爾可夫模型)、聲學(xué)模型或n-gram語言模型(漢語語言模型)等已有配置,基于從前端接收的特征量指定說話人的語句中包含的內(nèi)容。
則現(xiàn)有技術(shù)中,上述語音值y的幀t中的頻帶d(在梅爾刻度上的頻帶)的梅爾對(duì)數(shù)譜域中的語音值yd(t)可以在下述公式(1)中表示為純語音值xd(t)和噪聲值nd(t)的函數(shù):
yd(t)=xd(t)+log(1+exp(nd(t)-xd(t)))(1)
在上述公式(1)中忽略幀t,并且將上述公式(1)表示為向量時(shí),可以獲得下述公式(2):
y=x+g(2)
上述公式(2)中,每個(gè)頻帶d的失配向量g均可由下述公式(3)中指示的失配函數(shù)g給出:
gd=gd(x,n)=log(1+exp(nd-xd))(3)
則上述純語音x可以被建模為小數(shù)公式(4)中指示的k混合gmm模型:
在上述公式(4)中,γk,μx,k,和σx,k分別指示第k正態(tài)分布的先驗(yàn)概率、均值向量和協(xié)方差矩陣。
則通過基于上述公式(1)-(4)采用線性泰勒展開,可以對(duì)失配向量g進(jìn)行建模,其表述為下述公式(5)中指示的k混合gmm模型:
上述公式(5)中的均值向量μg,k可以由下述公式(6)表示,并且協(xié)方差矩陣σg,k可以由下列公式(7)表示:
μg,k≌log(1+exp(μn-μx,k))=g(μx,k,μn)(6)
上述公式(7)中的輔助函數(shù)f可以被定義為下列公式(8):
fd(x,n)=(1+exp(xd-nd))-1(8)
因此,通過下述公式(9-1)處理得到上述純語音估計(jì)值
相應(yīng)地,從語音值y直接估計(jì)得到純語音估計(jì)值
這里,以上公式(9-1)和(9-2)中后驗(yàn)概率ρk都由下列公式(10)給出:
上述公式(10)中,均值向量μy,k可以由下列公式(11)表示,并且協(xié)方差矩陣σy,k可以由下列公式(12)表示:
μy,k≌μx,k+g(μx,k,μn)(11)
則現(xiàn)有技術(shù)中,在上述公式(11)-(12)中,語音模型參數(shù)[μx,k,σx,k]可以由先驗(yàn)訓(xùn)練數(shù)據(jù)得到,并且噪聲模型參數(shù)[μn,σn]基于非語音片段中的、被給予mmse估計(jì)部分514的觀測值而由基于模型的噪聲補(bǔ)償部分512設(shè)置。
如上文中所述,換言之,上述mmse估計(jì)的過程就是將純語音估計(jì)值
則本發(fā)明的較佳的實(shí)施例中,上述語音降噪的方法的步驟具體如圖1所示,包括:
步驟s1,采集外部輸入的語音,并判斷語音的聲音強(qiáng)度是否高于一預(yù)設(shè)的強(qiáng)度閾值,并在聲音強(qiáng)度高于強(qiáng)度閾值時(shí)將語音確認(rèn)為待判斷語音,并轉(zhuǎn)向步驟s2;
步驟s2,根據(jù)待判斷語音的頻譜,生成對(duì)應(yīng)待判斷語音上每個(gè)頻帶的估計(jì)標(biāo)識(shí),估計(jì)標(biāo)識(shí)用于表示語音在諧波結(jié)構(gòu)上的顯著性;
步驟s3,生成對(duì)應(yīng)于待判斷語音的純語音的概率模型;
步驟s4,以每個(gè)估計(jì)標(biāo)識(shí)作為對(duì)應(yīng)的待判斷語音的頻帶的權(quán)重指標(biāo),依據(jù)概率模型處理得到關(guān)聯(lián)于語音的純語音估計(jì)值。
在一個(gè)具體實(shí)施例中,首先采集外部的語音(即采集說話人的語音),并判斷該被采集的語音的聲音強(qiáng)度是否大于一預(yù)設(shè)的強(qiáng)度閾值。該判斷的主要目的在于去除一些說話人本不希望對(duì)智能終端進(jìn)行語音控制的場景,例如說話人低聲與其他人交談的場景,或者說話人無意中說出的語句。因此,只有在說話人說出的語音的聲音強(qiáng)度較強(qiáng)(大于預(yù)設(shè)的強(qiáng)度閾值)時(shí),才能被認(rèn)為是向智能終端發(fā)出語音指令,此時(shí)智能終端才需要開始進(jìn)行語音識(shí)別,以及進(jìn)行語音識(shí)別前的語音降噪。因此,上述判斷可以避免智能終端中關(guān)于語音識(shí)別和語音降噪的功能模塊始終處于工作狀態(tài),并能夠節(jié)省智能終端的功耗。
該實(shí)施例中,當(dāng)說話人的語音的聲音強(qiáng)度大于上述預(yù)設(shè)的強(qiáng)度閾值時(shí), 執(zhí)行步驟s2,即根據(jù)待判斷語音的頻譜,生成對(duì)應(yīng)待判斷語音上每個(gè)頻帶的估計(jì)標(biāo)識(shí)。該實(shí)施例中,上述估計(jì)標(biāo)識(shí)用于表示語音在諧波結(jié)構(gòu)上的顯著性。
該實(shí)施例中,生成對(duì)應(yīng)于待判斷語音的純語音的概率模型,并且以每個(gè)估計(jì)標(biāo)識(shí)作為對(duì)應(yīng)的待判斷語音的頻帶的權(quán)重指標(biāo),依據(jù)概率模型處理得到關(guān)聯(lián)于語音的純語音估計(jì)值。
本發(fā)明的較佳的實(shí)施例中,上述步驟s2中,生成的估計(jì)標(biāo)識(shí)包括第一估計(jì)標(biāo)識(shí);或者
上述步驟s2中,生成的估計(jì)標(biāo)識(shí)包括第一估計(jì)標(biāo)識(shí)和第二估計(jì)標(biāo)識(shí)。
本發(fā)明的較佳的實(shí)施例中,如圖2所示,上述步驟s2中,生成第一估計(jì)標(biāo)識(shí)的步驟具體包括:
步驟s21a,依據(jù)待判斷語音的頻譜,提取對(duì)應(yīng)于待判斷語音的諧波結(jié)構(gòu);
步驟s22a,對(duì)關(guān)聯(lián)于諧波結(jié)構(gòu)的數(shù)譜域上的監(jiān)控值進(jìn)行規(guī)則化處理,并依據(jù)梅爾刻度對(duì)經(jīng)過規(guī)則化處理的監(jiān)控值執(zhí)行平滑處理;
步驟s23a,對(duì)經(jīng)過平滑處理的監(jiān)控值進(jìn)行進(jìn)一步的規(guī)則化處理,以使監(jiān)控值的均值為1;
步驟s24a,根據(jù)監(jiān)控值生成對(duì)應(yīng)待判斷語音的每個(gè)頻帶的第一估計(jì)標(biāo)識(shí)。
本發(fā)明的較佳的實(shí)施例中,如圖3所示,上述步驟s4中,根據(jù)第一估計(jì)標(biāo)識(shí)處理得到純語音估計(jì)值的方法具體包括:
步驟s41a,處理得到關(guān)聯(lián)于待判斷語音的最小均方誤差估計(jì)的后驗(yàn)概率;
步驟s42a,以每個(gè)第一估計(jì)標(biāo)識(shí)作為對(duì)應(yīng)的待判斷語音的頻帶的權(quán)重指標(biāo),依據(jù)概率模型對(duì)關(guān)聯(lián)于待判斷語音的后驗(yàn)概率進(jìn)行加權(quán)計(jì)算,以得到純語音估計(jì)值。
本發(fā)明的較佳的實(shí)施例中,如圖4所示,上述步驟s2中,生成第二估計(jì)標(biāo)識(shí)的步驟具體包括:
步驟s21b,依據(jù)待判斷語音的頻譜,提取對(duì)應(yīng)于待判斷語音的諧波結(jié)構(gòu);
步驟s22b,對(duì)關(guān)聯(lián)于諧波結(jié)構(gòu)的數(shù)譜域上的監(jiān)控值進(jìn)行規(guī)則化處理,并依據(jù)梅爾刻度對(duì)經(jīng)過規(guī)則化處理的監(jiān)控值執(zhí)行平滑處理;
步驟s23b,對(duì)經(jīng)過平滑處理的監(jiān)控值從0到1進(jìn)行相應(yīng)的規(guī)則化處理;
步驟s24b,根據(jù)監(jiān)控值生成對(duì)應(yīng)待判斷語音的每個(gè)頻帶的第二估計(jì)標(biāo)識(shí)。
本發(fā)明的較佳的實(shí)施例中,在執(zhí)行步驟s4之后,還根據(jù)第二估計(jì)標(biāo)識(shí)繼續(xù)執(zhí)行下述步驟:
針對(duì)待判斷語音的每個(gè)頻帶,將每個(gè)對(duì)應(yīng)的第二估計(jì)標(biāo)識(shí)作為權(quán)重,以在監(jiān)控值與純語音估計(jì)值之間執(zhí)行線性插值并處理得到對(duì)應(yīng)的輸出值。
下文中給出本發(fā)明技術(shù)方案中的第一個(gè)實(shí)施例:
在現(xiàn)有mmse中,純語音估計(jì)值
則在該實(shí)施例中,在給出純語音估計(jì)值
該實(shí)施例中,上文中所述的公式(13)中正態(tài)分布可以由下文中所述的公式(14)表示,公式(14)使用對(duì)角協(xié)方差假設(shè)。在下述公式(14)中,d表示正交分布的維度的數(shù)目:
上述公式(14)表示:正態(tài)分布n′(公式中用于計(jì)算后驗(yàn)概率ρ'k(y)的項(xiàng))被乘以使用估計(jì)標(biāo)識(shí)αd作為權(quán)重的指標(biāo)。所謂估計(jì)標(biāo)識(shí),其實(shí)際是代表頻帶的估計(jì)的標(biāo)識(shí)。一般地,頻帶的估計(jì)是從背景噪聲引起的信號(hào)退化的角度進(jìn)行的。在本發(fā)明技術(shù)方案中,估計(jì)標(biāo)識(shí)定義如下:
由于預(yù)先可以知曉包括在人類通常的話音中的元音的頻譜具有一般的諧波結(jié)構(gòu),在沒有背景噪聲的環(huán)境中,元音的諧波結(jié)構(gòu)會(huì)保持在被采集到的語音的頻譜的整個(gè)頻帶中。相應(yīng)地,在具有較強(qiáng)的寬帶噪聲時(shí),在很多頻帶中 會(huì)丟失元音的諧波結(jié)構(gòu),并且諧波結(jié)構(gòu)僅能被保持在諸如語音功率集中的共振峰(formant)的頻帶中。因此,本發(fā)明技術(shù)方案中,假設(shè)由于背景噪聲引起的退化很少發(fā)生在具有明顯諧波結(jié)構(gòu)的頻帶中,并且將諧波結(jié)構(gòu)的顯著性定義為該頻帶的估計(jì)標(biāo)識(shí)。
本發(fā)明技術(shù)方案中所述的估計(jì)標(biāo)識(shí)是使用lpw(localpeatweight,局部峰值權(quán)重)生成的。lpw的方式例如將包括共振峰信息的巨大改變從被采集到的語音的頻譜能量分布中移除,并且僅提取對(duì)應(yīng)于諧波結(jié)構(gòu)的規(guī)則的波峰和波谷,并且將其值規(guī)則化。在本發(fā)明技術(shù)方案中,通過執(zhí)行下述過程生成每一幀的lpw:
首先,采用被采集的語音的幀t的頻譜的算法進(jìn)行處理,并且其對(duì)數(shù)譜經(jīng)過離散余弦變換獲得倒譜。隨后,在獲得的倒譜的項(xiàng)中,僅留下對(duì)應(yīng)于lpw元音的諧波結(jié)構(gòu)的域中的項(xiàng),并刪除其他項(xiàng)。此后,對(duì)處理的倒頻譜進(jìn)行反離散余弦變換,以將倒譜轉(zhuǎn)換回對(duì)數(shù)譜域。最后,對(duì)被轉(zhuǎn)換的頻譜執(zhí)行規(guī)則化處理,以使頻譜的均值變成1,由此獲得lpw。
接下來,通過在梅爾刻度上對(duì)lpw進(jìn)行平滑處理,以得到對(duì)應(yīng)的梅爾lpw。本發(fā)明的一個(gè)較佳的實(shí)施例中,可以通過一組梅爾濾波器對(duì)lpw的值進(jìn)行平滑處理,以針對(duì)每個(gè)梅爾頻帶獲得一個(gè)相應(yīng)的值。所謂梅爾濾波器,是一種濾波器組,其中帶通濾波器以相等間隔布置在梅爾刻度上。在每個(gè)梅爾頻帶均給出相應(yīng)的梅爾lpw的值。梅爾lpw值的大小對(duì)應(yīng)于高分辨率的頻譜帶的諧波結(jié)構(gòu)的顯著性,并且每個(gè)梅爾頻帶對(duì)應(yīng)一個(gè)梅爾lpw值。
在本發(fā)明技術(shù)方案中,上述梅爾lpw值可以作為對(duì)應(yīng)頻帶的估計(jì)標(biāo)識(shí)。具體地,上述公式(14)中的估計(jì)標(biāo)識(shí)αd可以由以下過程生成:
首先,通過采用適宜的縮放函數(shù)例如曲線函數(shù)壓縮梅爾lpw的動(dòng)態(tài)范圍。如下述公式(15)中所述,每個(gè)頻帶的梅爾lpw值wd被轉(zhuǎn)換為α'd。下述公式(15)指示通過使用曲線函數(shù)將梅爾lpw值wd轉(zhuǎn)換為α'd的方式:
α'd=1.0/(1.0+exp(-a.(wd-1.0)))(15)
在上述公式(15)中,a是調(diào)諧參數(shù),并可以設(shè)置適當(dāng)?shù)臄?shù)值。
隨后,對(duì)被壓縮的值α'd規(guī)則化處理,以使其均值變成1。下述公式(16)指示用于規(guī)則化α'd且獲得估計(jì)標(biāo)識(shí)αd的方法:
在有聲部分的幀t中明顯的頻譜頻帶中存在元音的諧波結(jié)構(gòu)時(shí),對(duì)應(yīng)頻帶d的估計(jì)標(biāo)識(shí)αd將變得大于1。此時(shí),對(duì)于頻帶d,以上公式(14)中的正態(tài)分布n′變大,并且頻帶d的后驗(yàn)概率ρ'k(y)變大。因此對(duì)應(yīng)于其中元音的諧波結(jié)構(gòu)明顯的譜頻帶的梅爾頻帶的貢獻(xiàn)變大。
相反,在有聲部分的幀t中被丟失的頻譜頻帶中存在元音的諧波結(jié)構(gòu)時(shí),對(duì)應(yīng)頻帶d的估計(jì)標(biāo)識(shí)αd將變得小于1。則對(duì)于頻帶d,以上公式(14)中的正態(tài)分布n′變小,并且頻帶d的后驗(yàn)概率ρ'k(y)變小。因此對(duì)應(yīng)于其中元音的諧波結(jié)構(gòu)丟失的譜頻帶的梅爾頻帶的貢獻(xiàn)變小。
下文中給出本發(fā)明技術(shù)方案中的第二個(gè)實(shí)施例:
如果被采集的語音等效于純語音(即在一個(gè)幾乎沒有背景噪聲的環(huán)境下采集到的說話人的語音,或者說話人距離語音采集裝置例如麥克風(fēng)非常近的情況),則不需要對(duì)其進(jìn)行任何處理,直接輸出被采集到的語音是最佳選擇。但是,若采用本發(fā)明技術(shù)方案中所述的語音降噪的方法進(jìn)行語音處理的話,即使在上述情況下,也同樣會(huì)根據(jù)被采集到的語音對(duì)純語音進(jìn)行估計(jì),并且因此會(huì)輸出比純語音的效果更差的語音估計(jì)值。
因此,在該實(shí)施例中提出一種能夠在語音模態(tài)和被采集到的語音之間實(shí)現(xiàn)線性插值的方法,其中估計(jì)標(biāo)識(shí)作為權(quán)重參與計(jì)算。
則在該實(shí)施例中,在下述公式(17)中,通過線性插值函數(shù)得到頻帶d中的輸出值
在上述公式(17)中,
本發(fā)明技術(shù)方案中,通過對(duì)梅爾lpw值進(jìn)行規(guī)則化處理生成上述估計(jì)標(biāo)識(shí)。上述公式(17)中的估計(jì)標(biāo)識(shí)βd可以通過下面的過程生成:
首先獲得針對(duì)幀t的梅爾lpw的值,即通過使用適當(dāng)?shù)目s放函數(shù)例如曲線函數(shù)將梅爾mpw的值wd進(jìn)行規(guī)則化處理,以使wd值取從0到1的值,其中1是最大值。下文中所述的公式(18)指示用于通過使用曲線函數(shù)規(guī)則化梅爾mpw值wd并且獲得估計(jì)標(biāo)識(shí)βd的方式:
在上述公式(18)中,a和b是調(diào)諧參數(shù),并且可以根據(jù)實(shí)際情況預(yù)先設(shè)定適當(dāng)?shù)臄?shù)值。
在有聲部分的幀t中明顯的頻譜頻帶中存在元音的諧波結(jié)構(gòu)時(shí),對(duì)應(yīng)頻帶d的估計(jì)標(biāo)識(shí)βd接近1。則頻帶d中的輸出值
相反地,在有聲部分的幀t中被丟失的譜頻帶中存在元音的諧波結(jié)構(gòu)時(shí),對(duì)應(yīng)頻帶d的估計(jì)標(biāo)識(shí)βd接近0。則頻帶d中的輸出值
本發(fā)明的較佳的實(shí)施例中,上述第一實(shí)施例和第二實(shí)施例可以結(jié)合應(yīng)用,例如下文中所述的過程:
首先獲得對(duì)應(yīng)于被采集到的語音的一幀的頻譜y,提取頻譜y的諧波結(jié)構(gòu)并且生成lpw,并根據(jù)lpw生成梅爾lpw。隨后用適當(dāng)?shù)姆椒▽?duì)梅爾lpw進(jìn)行規(guī)則化處理以生成針對(duì)每個(gè)頻帶的估計(jì)標(biāo)識(shí)α,該估計(jì)標(biāo)識(shí)α的均值為1。同時(shí)對(duì)梅爾lpw進(jìn)行規(guī)則化處理以生成針對(duì)每個(gè)頻帶的估計(jì)標(biāo)識(shí) β,該估計(jì)標(biāo)識(shí)β的值從0到1分布。分別輸出生成的估計(jì)標(biāo)識(shí)α和估計(jì)標(biāo)識(shí)β。
此后,將對(duì)應(yīng)于一幀的頻譜y轉(zhuǎn)換成梅爾對(duì)數(shù)譜y并輸出。通過使用輸出的梅爾對(duì)數(shù)譜y和上述估計(jì)標(biāo)識(shí)α來估計(jì)純語音。具體地,采用上述估計(jì)標(biāo)識(shí)α作為權(quán)重對(duì)mmse估計(jì)的后驗(yàn)概率進(jìn)行加權(quán)計(jì)算,并且輸出純語音估計(jì)值
隨后,針對(duì)每個(gè)頻帶,在梅爾對(duì)數(shù)譜y的向量與上述純語音估計(jì)值
最終,根據(jù)得到的輸出值
本發(fā)明的較佳的實(shí)施例中,基于上文中所述的語音降噪的方法,現(xiàn)提供一種語音降噪的系統(tǒng),適用于智能終端,其結(jié)構(gòu)具體如圖5所示,包括:
采集單元1,用于采集外部輸入的語音;
判斷單元2,連接采集單元1,判斷單元內(nèi)預(yù)置有一強(qiáng)度閾值,并用于判斷外部輸入的語音的聲音強(qiáng)度是否高于強(qiáng)度閾值,輸出相應(yīng)的判斷結(jié)果;
第一處理單元3,連接判斷單元2,用于根據(jù)判斷結(jié)果,在語音的聲音強(qiáng)度高于強(qiáng)度閾值時(shí)將語音確認(rèn)為待判斷語音,并根據(jù)待判斷語音的頻譜,生成對(duì)應(yīng)待判斷語音上每個(gè)頻帶的估計(jì)標(biāo)識(shí),估計(jì)標(biāo)識(shí)用于表示語音在諧波結(jié)構(gòu)上的顯著性;
模型生成單元4,連接第一處理單元3,用于生成對(duì)應(yīng)于待判斷語音的純語音的概率模型;
第二處理單元5,連接模型生成單元4,用于以每個(gè)估計(jì)標(biāo)識(shí)作為對(duì)應(yīng)的待判斷語音的頻帶的權(quán)重指標(biāo),依據(jù)概率模型處理得到關(guān)聯(lián)于語音的純語音估計(jì)值。
本發(fā)明的較佳的實(shí)施例中,上述語音降噪的系統(tǒng)中,估計(jì)標(biāo)識(shí)可以包括 第一估計(jì)標(biāo)識(shí);或者
估計(jì)標(biāo)識(shí)可以包括第一估計(jì)標(biāo)識(shí)和第二估計(jì)標(biāo)識(shí)。
本發(fā)明的較佳的實(shí)施例中,上述語音降噪的系統(tǒng)中,如圖6所示,上述第一處理單元3具體包括:
提取模塊31,用于依據(jù)待判斷語音的頻譜,提取對(duì)應(yīng)于待判斷語音的諧波結(jié)構(gòu);
第一處理模塊32,連接提取模塊31,用于對(duì)關(guān)聯(lián)于諧波結(jié)構(gòu)的數(shù)譜域上的監(jiān)控值進(jìn)行規(guī)則化處理,并依據(jù)梅爾刻度對(duì)經(jīng)過規(guī)則化處理的監(jiān)控值執(zhí)行平滑處理;
第二處理模塊33,連接第一處理模塊32,用于對(duì)經(jīng)過平滑處理的監(jiān)控值進(jìn)行進(jìn)一步的規(guī)則化處理,以使監(jiān)控值的均值為1;
第一生成模塊34,連接第二處理模塊33,用于根據(jù)監(jiān)控值生成對(duì)應(yīng)待判斷語音的每個(gè)頻帶的第一估計(jì)標(biāo)識(shí)。
本發(fā)明的較佳的實(shí)施例中,上述語音降噪的系統(tǒng)中,如圖7所示,上述第二處理單元5具體包括:
第三處理模塊51,用于處理得到關(guān)聯(lián)于待判斷語音的最小均方誤差估計(jì)的后驗(yàn)概率;
第四處理模塊52,連接第三處理模塊51,用于以每個(gè)第一估計(jì)標(biāo)識(shí)作為對(duì)應(yīng)的待判斷語音的頻帶的權(quán)重指標(biāo),依據(jù)概率模型對(duì)關(guān)聯(lián)于待判斷語音的后驗(yàn)概率進(jìn)行加權(quán)計(jì)算,以得到純語音估計(jì)值。
本發(fā)明的較佳的實(shí)施例中,上述語音降噪的系統(tǒng)中,仍然如圖6所示,第一處理單元3包括:
第五處理模塊35,連接第一處理單元32,用于對(duì)經(jīng)過平滑處理的監(jiān)控值從0到1進(jìn)行相應(yīng)的規(guī)則化處理;
第二生成模塊36,連接第五處理模塊35,用于根據(jù)監(jiān)控值生成對(duì)應(yīng)待判斷語音的每個(gè)頻帶的第二估計(jì)標(biāo)識(shí)。
本發(fā)明的較佳的實(shí)施例中,上述語音降噪的系統(tǒng)中,仍然如圖5所述,還包括:
第三處理單元6,連接第二處理單元5,用于針對(duì)待判斷語音的每個(gè)頻帶,將每個(gè)對(duì)應(yīng)的第二估計(jì)標(biāo)識(shí)作為權(quán)重,以在監(jiān)控值與純語音估計(jì)值之間執(zhí)行 線性插值并處理得到對(duì)應(yīng)的輸出值。
本發(fā)明的較佳的實(shí)施例中,還提供一種智能終端,其中采用上述的語音降噪的方法。
本發(fā)明的較佳的實(shí)施例中,還提供一種智能終端,其中包括上述的語音降噪的系統(tǒng)。
以上所述僅為本發(fā)明較佳的實(shí)施例,并非因此限制本發(fā)明的實(shí)施方式及保護(hù)范圍,對(duì)于本領(lǐng)域技術(shù)人員而言,應(yīng)當(dāng)能夠意識(shí)到凡運(yùn)用本發(fā)明說明書及圖示內(nèi)容所作出的等同替換和顯而易見的變化所得到的方案,均應(yīng)當(dāng)包含在本發(fā)明的保護(hù)范圍內(nèi)。