去除聲紋識別情感語音干擾的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種去除聲紋識別情感語音干擾的方法,其包括如下步驟:建立情感去除模型;在進行聲紋識別時,首先提取語音數(shù)據(jù)的原始特征參數(shù),然后計算其相應(yīng)的特征向量參數(shù);將計算得到的特征向量參數(shù)中所含有的情感因素信息通過情感去除模型進行消除;將去除情感因素信息的語音數(shù)據(jù)進行聲紋識別。該方法無需標(biāo)注各種具體情感類型數(shù)據(jù),無需對某種情感類型單獨建模,可以使得模型建立過程的復(fù)雜度大大降低;可以使情感去除模型具備更良好的推廣和泛化能力;該方法可以直接加在現(xiàn)有任何主流聲紋識別系統(tǒng)上,實現(xiàn)簡單、方便;該方法可以充分學(xué)習(xí)情感語音所含有的情感信息,進而進行去除,大幅提高聲紋識別系統(tǒng)對情感因素的魯棒性。
【專利說明】去除聲紋識別情感語音干擾的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及聲紋識別領(lǐng)域,特別涉及一種在進行聲紋識別時能去除情感語音干擾的方法,以及實現(xiàn)這種方法的系統(tǒng)。
【背景技術(shù)】
[0002]聲紋識別是一種通過人的語音信號中所蘊含的生理與行為特征,自動辨別身份的生物特征識別技術(shù)。經(jīng)過數(shù)十年的技術(shù)探索與積累,聲紋識別系統(tǒng)的性能已經(jīng)取得了巨大進展,但在實際應(yīng)用中還面臨著一些挑戰(zhàn),其中,人自身狀態(tài)的變化會對聲紋識別系統(tǒng)造成相當(dāng)程度的不利影響。如今智能交互技術(shù)愈發(fā)普遍,而語音交互無疑是智能交互的主要交互方式之一,如何提高語音交互過程中用戶使用的流暢性尤為重要,即在用戶帶有情感發(fā)出聲紋驗證指令時,聲紋認證系統(tǒng)依然能夠?qū)ζ溥M行準確識別,會給交互帶來更加自然、友好的感受。
[0003]現(xiàn)有的聲紋識別技術(shù)在解決情感差異的問題上還不是很理想,現(xiàn)有的方法包括在特征上或模型上,大多先進行情感辨別技術(shù),把語音劃分給某一類情感屬性,再通過情感屬性間的映射關(guān)系將特征或模型映射到中性或與其匹配的聲音情感類別,然后再進行匹配。這種方法存在著諸多問題,首先,人的情感是非常豐富的,有限的情感類別標(biāo)簽無法覆蓋人的情感空間,其次,就情感識別技術(shù)本身來說,其識別精度還未能達到一個很高的水平,所以這種技術(shù)雖然能在某些特定情感數(shù)據(jù)集上獲得一些性能提升,但究其本質(zhì)是無法解決情感語音差異性問題的。
【發(fā)明內(nèi)容】
[0004]鑒于以上所述現(xiàn)有技術(shù)的缺點,本發(fā)明的一個目的在于提供一種識別精度高,可有效去除聲紋識別中情感因素干擾的方法,本發(fā)明的另一個目的是提供一種識別精度高,可有效去除聲紋識別中情感因素干擾的系統(tǒng)。
[0005]為實現(xiàn)上述目的及其他相關(guān)目的,本發(fā)明提供一種去除聲紋識別情感語音干擾的方法,其包括如下步驟:
[0006]I)建立情感去除模型;
[0007]2)在進行聲紋識別時,首先提取語音數(shù)據(jù)的原始特征參數(shù),然后計算其相應(yīng)的特征向量參數(shù);
[0008]3)將計算得到的特征向量參數(shù)中所含有的情感因素信息通過情感去除模型進行消除;
[0009]4)將去除情感因素信息的語音數(shù)據(jù)進行聲紋識別。
[0010]優(yōu)選地,建立情感去除模型包括如下步驟:首先建立一情感語音數(shù)據(jù)庫,用于收集各種情感的語音,將情感語音數(shù)據(jù)庫中的語音按發(fā)音者的身份及情感類型進行標(biāo)注;提取每條語音的特征參數(shù),計算出每條語音的特征向量參數(shù);將標(biāo)注的身份信息與計算出每條語音的特征向量參數(shù)通過統(tǒng)計學(xué)習(xí)的方法即可計算出情感去除模型。[0011]優(yōu)選地,所述統(tǒng)計學(xué)習(xí)的方法可以采用主元分析技術(shù)方法或因子分析技術(shù)方法。
[0012]優(yōu)選地,計算每條語音的特征向量參數(shù)可利用事先訓(xùn)練生成的通用背景模型將語音特征映射到高維超向量空間的方法來計算特征向量參數(shù)。 [0013]優(yōu)選地,計算每條語音的特征向量參數(shù)可將語音特征直接映射到其它維度變換空間的方法來計算特征向量參數(shù)。
[0014]優(yōu)選地,語音進行特征向量提取時應(yīng)事先進行降噪、濾波處理。
[0015]本發(fā)明還公開了一種采用上述方法去除聲紋識別情感語音干擾系統(tǒng),其包括:特征向量提取單元,所述特征向量提取單元用于計算情感語音數(shù)據(jù)庫中每條語音的特征向量參數(shù);情感去除模型單元,所述情感去除模型單元用于將語音數(shù)據(jù)中情感因素信息進行去除;聲紋識別單元,所述聲紋識別單元用于將去除情感因素信息干擾的語音進行聲紋識別。
[0016]優(yōu)選地,該系統(tǒng)還包括一降噪、濾波處理單元,所述降噪、濾波單元用于對進入特征向量提取單元內(nèi)的語音數(shù)據(jù)進行降噪、濾波處理。
[0017]如上所述,本發(fā)明的去除聲紋識別情感語音干擾的方法及系統(tǒng)具有以下有益效果:該方法通過建模方式建立統(tǒng)一的情感去除模型,無需標(biāo)注各種具體情感類型數(shù)據(jù),無需對某種情感類型單獨建模,可以使得模型建立過程的復(fù)雜度大大降低;該方法并不將某一語音硬性分配給某一離散的、具體的情感類別,而是統(tǒng)一計算其情感分量,可以使情感去除模型具備更良好的推廣和泛化能力;該方法可以直接加在現(xiàn)有任何主流聲紋識別系統(tǒng)上,實現(xiàn)簡單、方便;本發(fā)明提出的情感模型的建模和匹配方法,可以充分學(xué)習(xí)情感語音所含有的情感?目息,進而進行去除,大幅提聞聲紋識別系統(tǒng)對情感因素的魯棒性。
【專利附圖】
【附圖說明】
[0018]圖1為本發(fā)明實施例情感去除模型建立示意圖。
[0019]圖2為本發(fā)明實施例語音特征向量參數(shù)提取的流程圖。
[0020]圖3為多個原始特征映射為單個特征向量的示意圖。
[0021]圖4為本發(fā)明實施例抗情感干擾的聲紋識別系統(tǒng)框圖。
[0022]圖5為為本發(fā)明實施例情感信息去除的流程圖。
[0023]圖6為本發(fā)明實施例的系統(tǒng)框圖。
【具體實施方式】
[0024]以下由特定的具體實施例說明本發(fā)明的實施方式,熟悉此技術(shù)的人士可由本說明書所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點及功效。
[0025]本發(fā)明的第一個實施例公開了一種去除聲紋識別情感語音干擾的方法,其包括如下步驟:
[0026]如圖1所示,首先建立情感去除模型,在建立感去除模型時,首先建立一情感語音數(shù)據(jù)庫,該情感語音數(shù)據(jù)庫用于收集各種情感的語音,并將將情感語音數(shù)據(jù)庫中的語音按發(fā)音者的身份及情感類型進行標(biāo)注,標(biāo)注每條語音歸屬于哪一個人,歸屬于哪一類情感類型,然后對數(shù)據(jù)進行刪減,目的是使得每個人所對應(yīng)的語音數(shù)據(jù)各種情感類型的語音數(shù)量保持均衡,同時去除過短語音、剪切過長語音,使得語音長度保持均衡,至此情感語音數(shù)據(jù)庫建立完成。[0027]如圖2所示,接著提取每條語音的特征參數(shù),計算出每條語音的特征向量參數(shù)。語音在進行特征向量提取時應(yīng)事先進行降噪、濾波處理。計算每條語音的特征向量可利用事先訓(xùn)練生成的通用背景模型(或映射函數(shù))將原始語音按幀生成的多個特征映射到高維超向量空間的方法來計算特征向量;也可將語音特征直接映射到其它維度變換空間的方法來計算特征向量,總之每條語音均需要計算其相應(yīng)的特征向量參數(shù),其計算方法可依據(jù)不同聲紋識別系統(tǒng)做相應(yīng)調(diào)整,基本過程如圖3所示。最后再將標(biāo)注的語音信息與計算出每條語音的特征向量參數(shù)通過統(tǒng)計學(xué)習(xí)的方法即可計算出情感去除模型。該統(tǒng)計學(xué)習(xí)的方法可以采用主元分析技術(shù)方法、因子分析技術(shù)方法及本領(lǐng)域公知的其他方法來實現(xiàn)。
[0028]以主元分析技術(shù)為例:將所有人所有語音的特征向量組合成矩陣
【權(quán)利要求】
1.一種去除聲紋識別情感語音干擾的方法,其特征在于,其包括如下步驟: 1)建立情感去除模型; 2)在進行聲紋識別時,首先提取語音數(shù)據(jù)的原始特征參數(shù),然后計算其相應(yīng)的特征向量參數(shù); 3)將計算得到的特征向量參數(shù)中所含有的情感因素信息通過情感去除模型進行消除; 4)將去除情感因素信息的語音數(shù)據(jù)進行聲紋識別。
2.根據(jù)權(quán)利要求1所述的去除聲紋識別情感語音干擾的方法,其特征在于:建立情感去除模型包括如下步驟:首先建立一情感語音數(shù)據(jù)庫,用于收集各種情感的語音,將情感語音數(shù)據(jù)庫中的語音按發(fā)音者的身份及情感類型進行標(biāo)注;提取每條語音的特征參數(shù),計算出每條語音的特征向量參數(shù);將標(biāo)注的身份信息與計算出每條語音的特征向量參數(shù)通過統(tǒng)計學(xué)習(xí)的方法即可計算出情感去除模型。
3.根據(jù)權(quán)利要求2所述的去除聲紋識別情感語音干擾的方法,其特征在于:所述統(tǒng)計學(xué)習(xí)的方法可以采用主元分析技術(shù)方法或因子分析技術(shù)方法。
4.根據(jù)權(quán)利要求2所述的去除聲紋識別情感語音干擾的方法,其特征在于:計算每條語音的特征向量參數(shù)可利用事先訓(xùn)練生成的通用背景模型將語音特征映射到高維超向量空間的方法來計算特征向量參數(shù)。
5.根據(jù)權(quán)利要求2所述的去除聲紋識別情感語音干擾的方法,其特征在于:計算每條語音的特征向量參數(shù)可將語音特征直接映射到其它維度變換空間的方法來計算特征向量參數(shù)。
6.根據(jù)權(quán)利要求2所述的去除聲紋識別情感語音干擾的方法,其特征在于:語音進行特征向量提取時應(yīng)事先進行降噪、濾波處理。
7.—種去除聲紋識別情感語音干擾系統(tǒng),其特征在于,其包括: 特征向量提取單元,所述特征向量提取單元用于計算情感語音數(shù)據(jù)庫中每條語音的特征向量參數(shù); 情感去除模型單元,所述情感去除模型單元用于將語音數(shù)據(jù)中情感因素信息進行去除; 聲紋識別單元,所述聲紋識別單元用于將去除情感因素信息干擾的語音進行聲紋識別。
8.根據(jù)權(quán)利要求7所述的去除聲紋識別情感語音干擾系統(tǒng),其特征在于:該系統(tǒng)還包括一降噪、濾波處理單元,所述降噪、濾波單元用于對進入特征向量提取單元內(nèi)的語音數(shù)據(jù)進行降噪、濾波處理。
【文檔編號】G10L17/00GK103730113SQ201310736944
【公開日】2014年4月16日 申請日期:2013年12月27日 優(yōu)先權(quán)日:2013年12月27日
【發(fā)明者】黃偉 申請人:黃偉