專利名稱:一種大規(guī)模聲紋認(rèn)證方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種大規(guī)模聲紋認(rèn)證方法,本發(fā)明還涉及一種實(shí)現(xiàn)上述方法的大規(guī)模聲紋認(rèn)證系統(tǒng)。
背景技術(shù):
聲紋認(rèn)證是生物識(shí)別技術(shù)的一種,它通過提取語音波形中能夠反映說話人生理和行為特征的語音參數(shù),識(shí)別出說話人。在所有的識(shí)別任務(wù)中,訓(xùn)練環(huán)境和測(cè)試環(huán)境的差異是影響系統(tǒng)性能的決定性因素。由于現(xiàn)實(shí)環(huán)境的復(fù)雜性,大規(guī)模的聲紋認(rèn)證系統(tǒng)通常需要考慮很多影響因素,例如語種差異、信道差異、語音錄制麥克風(fēng)差異等等,因此,處理的任務(wù)非常復(fù)雜,同時(shí),目前大多數(shù)的聲紋認(rèn)證算法都是采用概率統(tǒng)計(jì)的方法,這些算法以及技術(shù)解決方案普遍存在著復(fù)雜度高、處理時(shí)間長、對(duì)存儲(chǔ)和運(yùn)算要求偏高的問題,例如,中國第CN200510061953. X號(hào)發(fā)明專利所公開的一種“基于內(nèi)嵌GMM核的支持向量機(jī)模型的說話人識(shí)別方法”,該方法產(chǎn)生的向量大約為幾千甚至上萬維,且需要通過支持向量機(jī)的模式識(shí)別工具,尤其沒有針對(duì)環(huán)境差異的信道補(bǔ)償技術(shù),因此,在存儲(chǔ)、效率和性能上都存在較大的缺陷,尤其是在對(duì)復(fù)雜環(huán)境的處理方面,該方法的缺陷更加明顯。由于上述問題的存在,限制了聲紋認(rèn)證技術(shù)應(yīng)用的范圍和規(guī)模。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種大規(guī)模聲紋認(rèn)證方法,它可以提高聲紋認(rèn)證的效率和在復(fù)雜環(huán)境下的認(rèn)證效果。為解決上述技術(shù)問題,本發(fā)明的大規(guī)模聲紋認(rèn)證方法,包括以下步驟1)對(duì)原始語音信號(hào)進(jìn)行預(yù)處理;2)從步驟1)處理得到的語音數(shù)據(jù)中提取聲學(xué)特征參數(shù);3)在大量語音數(shù)據(jù)和初始隨機(jī)因子空間的基礎(chǔ)上,訓(xùn)練一個(gè)低維的全因子空間;4)將步驟幻得到的聲學(xué)特征參數(shù),通過步驟幻的全因子空間進(jìn)行映射,生成低維的聲紋碼;5)根據(jù)注冊(cè)聲紋碼和測(cè)試聲紋碼,判決測(cè)試者的身份,該注冊(cè)聲紋碼和測(cè)試聲紋碼分別按照上述步驟1)至4)生成。所述步驟3)的全因子空間的訓(xùn)練,采用高斯混合模型和最大期望算法,并按照最大似然準(zhǔn)則,通過空間迭代和聚類而完成。較佳的,在進(jìn)行所述步驟幻之前,先對(duì)步驟4)生成的聲紋碼進(jìn)行信道補(bǔ)償處理, 生成與信道環(huán)境無關(guān)的更低維數(shù)的聲紋碼。本發(fā)明要解決的另一技術(shù)問題是提供一種實(shí)現(xiàn)上述方法的大規(guī)模聲紋認(rèn)證系統(tǒng), 它認(rèn)證效率高,需要的模型存儲(chǔ)空間少,且在復(fù)雜環(huán)境下具有較好的性能。為解決上述技術(shù)問題,本發(fā)明的大規(guī)模聲紋認(rèn)證系統(tǒng),包括
語音預(yù)處理模塊,用于對(duì)原始的語音信號(hào)進(jìn)行預(yù)處理;聲學(xué)特征提取模塊,用于從經(jīng)過語音預(yù)處理模塊處理后的語音數(shù)據(jù)中提取出聲學(xué)特征參數(shù);低維聲紋碼生成模塊,用于在大量語音數(shù)據(jù)及初始隨機(jī)因子空間的基礎(chǔ)上,訓(xùn)練一個(gè)低維的全因子空間,將聲學(xué)特征提取模塊提取的聲學(xué)特征參數(shù)在該全因子空間中進(jìn)行降維映射,生成低維的聲紋碼;判決模塊,用于根據(jù)測(cè)試語音和注冊(cè)語音的低維聲紋碼,判決測(cè)試者的身份。較佳的,該系統(tǒng)還包括有信道補(bǔ)償模塊,用于消除低維聲紋碼生成模塊生成的低維聲紋碼中與信道或者環(huán)境有關(guān)的干擾因素,并進(jìn)一步降低該低維聲紋碼的維數(shù)。本發(fā)明的大規(guī)模聲紋認(rèn)證系統(tǒng)及方法,利用模式識(shí)別和統(tǒng)計(jì)學(xué)習(xí)的方法,將所有待處理的語音全部轉(zhuǎn)化為一個(gè)低維聲紋碼,然后在低維空間通過簡單的運(yùn)算操作實(shí)現(xiàn)聲紋的認(rèn)證,從而極大地提高了認(rèn)證的效率,節(jié)約了存儲(chǔ)的空間,而在此基礎(chǔ)上進(jìn)行的信道補(bǔ)償技術(shù),進(jìn)一步消除了環(huán)境差異對(duì)系統(tǒng)性能的影響。
下面結(jié)合附圖與具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明圖1是本發(fā)明的聲紋認(rèn)證系統(tǒng)結(jié)構(gòu)示意圖;圖2是本發(fā)明生成低維聲紋碼的流程圖;圖3是本發(fā)明的聲紋認(rèn)證方法示意圖。
具體實(shí)施例方式為對(duì)本發(fā)明的技術(shù)內(nèi)容、特點(diǎn)與功效有更具體的了解,現(xiàn)結(jié)合附圖和具體實(shí)施例, 詳述如下如圖1所示,本發(fā)明較佳實(shí)施例的大規(guī)模聲紋認(rèn)證系統(tǒng),包括有語音預(yù)處理模塊,用于對(duì)原始的語音信號(hào)進(jìn)行預(yù)處理。聲學(xué)特征提取模塊,用于從經(jīng)過語音預(yù)處理模塊處理后的語音數(shù)據(jù)中提取出能夠表征說話人信息的聲學(xué)特征參數(shù)。低維聲紋碼生成模塊,用于在大量經(jīng)過預(yù)處理的語音數(shù)據(jù)及初始隨機(jī)因子空間的基礎(chǔ)上,訓(xùn)練一個(gè)低維的全因子空間,將聲學(xué)特征提取模塊提取的大量高維聲學(xué)特征參數(shù)在該全因子空間中進(jìn)行降維映射,生成低維的聲紋碼。信道補(bǔ)償模塊,用于消除低維聲紋碼生成模塊生成的低維聲紋碼中與信道或者環(huán)境有關(guān)的干擾因素,并對(duì)該低維聲紋碼進(jìn)行再次降維,生成一個(gè)與信道環(huán)境無關(guān)的更低維數(shù)的聲紋碼。判決模塊,包括有余弦距離計(jì)算模塊,該判決模塊用于根據(jù)由信道補(bǔ)償模塊生成的注冊(cè)聲紋碼和測(cè)試聲紋碼,計(jì)算余弦距離,與系統(tǒng)門限進(jìn)行確認(rèn)判決。利用上述系統(tǒng)進(jìn)行大規(guī)模聲紋認(rèn)證的方法請(qǐng)參閱圖2和3所示,具體包括以下步驟第一步語音預(yù)處理及聲學(xué)特征提取對(duì)說話人2分鐘的原始語音波形進(jìn)行分析,提取出能夠表征說話人信息的底層聲學(xué)特征參數(shù)。本實(shí)施例采用的是39維的梅爾倒譜系數(shù)(MFCC),提取的步驟是首先,對(duì)語音信號(hào)進(jìn)行去直流、預(yù)加重等預(yù)處理;然后,按照每10毫秒一幀,對(duì)語音信號(hào)進(jìn)行分幀及加窗處理;抽取0 12維MFCC參數(shù),即共13維靜態(tài)特征,再通過一階差分和二階差分,總計(jì)構(gòu)成39維特征向量。這樣,2分鐘的語音需要用大約468000維的向量進(jìn)行表示。第二步低維聲紋碼的生成采用最大期望算法(Expectation-MaximizationAlgorithm,EM)訓(xùn)練一個(gè)通用背景模型,得到高斯混合模型(Gaussian Mixture Model,GMM)的一組均值方差(認(rèn)為其與說話人和信道均無關(guān));隨機(jī)產(chǎn)生一個(gè)39936X400的全因子空間初始矩陣(假設(shè)高斯數(shù)目為 1024,特征維數(shù)為39,全因子空間維度為400);這兩部分初始值共同構(gòu)成本實(shí)施例的GMM模型總的參數(shù)初始值。E步驟(Expectation,期望步驟)對(duì)每段語音數(shù)據(jù)的每一幀計(jì)算相對(duì)通用背景模型中每個(gè)高斯的狀態(tài)占有率,每一幀數(shù)據(jù)直接分配其狀態(tài)占有率最大的高斯,得到零階、一階和二階統(tǒng)計(jì)量;對(duì)所有數(shù)據(jù)進(jìn)行處理,根據(jù)全因子空間模型參數(shù)的初始值(或上一次迭代結(jié)果)和訓(xùn)練數(shù)據(jù),估計(jì)出每一段語音的全因子向量的一階和二階統(tǒng)計(jì)量。M步驟(Maximization,最大化步驟)采用EM算法,對(duì)似然輔助函數(shù)式相應(yīng)的模型參數(shù)求微分,得到模型參數(shù)的更新公式;將E步驟得到的全因子相關(guān)統(tǒng)計(jì)量代入上述更新公式,得到更新的全因子空間。將上述更新得到的全因子空間矩陣作為E步驟中的參數(shù)初始值,按照最大似然準(zhǔn)則(Maximum Likelihood htimation,MLE),進(jìn)行空間迭代直至收斂,以擬合聲學(xué)特征在高維空間的概率密度分布,并聚類到預(yù)先規(guī)定的類數(shù)(本實(shí)施例為400類),最后形成一個(gè)對(duì)這些大量數(shù)據(jù)的低維的全因子向量空間描述,由于該全因子向量空間是對(duì)前述集合中大量數(shù)據(jù)的整體描述,從而可推廣到所有的語音數(shù)據(jù)。將第一步中提取出的高維MFCC參數(shù),通過上述全因子向量空間進(jìn)行降維映射,將其投影到低維的全因子向量空間,得到一個(gè)低維聲紋碼(本實(shí)施例即為400維)。如此, 就可以用一個(gè)400維的低維全因子向量來表示原始的468000維的高維特征向量。上述映射采用的具體方法請(qǐng)參閱Front-End Factor AnalysisFor Speaker Verification, Dehak, N.等,IEEE Transcations on Audio, Speechand Language Processing, November 2009( “說話人認(rèn)證中的前端因子分析”,作者戴哈克等,《IEEE音頻與語言處理匯刊》,2009 年11月)。第三步信道補(bǔ)償處理在第二步形成的低維全因子向量空間的基礎(chǔ)上,依次訓(xùn)練好類內(nèi)方差規(guī)整變換和線性區(qū)分性分析的空間轉(zhuǎn)換矩陣。對(duì)上述低維全因子空間依次采用類內(nèi)方差規(guī)整變換(消除信道或環(huán)境影響)和線性區(qū)分性分析(降維,同時(shí)消除信道或環(huán)境影響),生成一個(gè)與信道環(huán)境無關(guān)的250維的聲紋碼。在訓(xùn)練階段,按照上述第一步至第三步的步驟,對(duì)每一段注冊(cè)語音生成一個(gè)250 維的聲紋碼,所有注冊(cè)語音的聲紋碼構(gòu)成了一個(gè)模型庫。在測(cè)試階段,待測(cè)說話人提供測(cè)試語音并表明身份,系統(tǒng)按照上述第一步至第三步的步驟提取測(cè)試語音的250維的聲紋碼,并調(diào)用模型庫中所聲明說話人的模型,然后進(jìn)行以下第四步,認(rèn)證待測(cè)說話人是否是其所聲明的說話人。第四步余弦距離計(jì)算對(duì)注冊(cè)聲紋碼和測(cè)試聲紋碼進(jìn)行余弦距離計(jì)算,計(jì)算公式為
權(quán)利要求
1.一種大規(guī)模聲紋認(rèn)證方法,包括步驟1)對(duì)原始語音信號(hào)進(jìn)行預(yù)處理;其特征在于, 還包括以下步驟2)從步驟1)處理得到的語音數(shù)據(jù)中提取聲學(xué)特征參數(shù);3)在大量語音數(shù)據(jù)和初始隨機(jī)因子空間的基礎(chǔ)上,訓(xùn)練一個(gè)低維的全因子空間;4)將步驟幻得到的聲學(xué)特征參數(shù),通過步驟幻的全因子空間進(jìn)行映射,生成低維的聲紋碼;5)根據(jù)注冊(cè)聲紋碼和測(cè)試聲紋碼,判決測(cè)試者的身份,該注冊(cè)聲紋碼和測(cè)試聲紋碼分別按照上述步驟1)至4)生成。
2.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法,其特征在于所述預(yù)處理包括對(duì)原始語音信號(hào)進(jìn)行去直流、預(yù)加重、分幀和加窗處理。
3.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法,其特征在于所述步驟幻中的聲學(xué)特征參數(shù)為梅爾倒譜系數(shù)。
4.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法,其特征在于所述步驟3)的全因子空間的訓(xùn)練,采用高斯混合模型和最大期望算法,并按照最大似然準(zhǔn)則,通過空間迭代和聚類而完成。
5.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法,其特征在于,所述步驟幻之前,還包括步驟對(duì)步驟4)生成的聲紋碼進(jìn)行信道補(bǔ)償處理,生成與信道環(huán)境無關(guān)的更低維數(shù)的聲紋碼。
6.如權(quán)利要求5所述的大規(guī)模聲紋認(rèn)證方法,其特征在于,所述信道補(bǔ)償處理的步驟包括依次訓(xùn)練類內(nèi)方差規(guī)整變換和線性區(qū)分性分析的空間轉(zhuǎn)換矩陣;對(duì)步驟4)生成的低維聲紋碼依次進(jìn)行內(nèi)方差規(guī)整變換和線性區(qū)分性分析。
7.如權(quán)利要求1所述的大規(guī)模聲紋認(rèn)證方法,其特征在于,所述步驟幻進(jìn)一步包括以下步驟 51)根據(jù)公式
8.一種實(shí)現(xiàn)權(quán)利要求1所述方法的大規(guī)模聲紋認(rèn)證系統(tǒng),包括有語音預(yù)處理模塊,用于對(duì)原始的語音信號(hào)進(jìn)行預(yù)處理,其特征在于,還包括有聲學(xué)特征提取模塊,用于從經(jīng)過語音預(yù)處理模塊處理后的語音數(shù)據(jù)中提取出聲學(xué)特征參數(shù);低維聲紋碼生成模塊,用于在大量語音數(shù)據(jù)及初始隨機(jī)因子空間的基礎(chǔ)上,訓(xùn)練一個(gè)低維的全因子空間,將聲學(xué)特征提取模塊提取的聲學(xué)特征參數(shù)在該全因子空間中進(jìn)行降維映射,生成低維的聲紋碼;判決模塊,用于根據(jù)測(cè)試語音和注冊(cè)語音的低維聲紋碼,判決測(cè)試者的身份。
9.如權(quán)利要求8所述的聲紋認(rèn)證系統(tǒng),其特征在于還包括有信道補(bǔ)償模塊,用于消除低維聲紋碼生成模塊生成的低維聲紋碼中與信道或者環(huán)境有關(guān)的干擾因素,并進(jìn)一步降低該低維聲紋碼的維數(shù)。
10.如權(quán)利要求8所述的聲紋認(rèn)證系統(tǒng),其特征在于所述判決模塊包括有余弦距離計(jì)算模塊,用于根據(jù)測(cè)試聲紋碼和注冊(cè)聲紋碼,計(jì)算余弦距離。
全文摘要
本發(fā)明公開了一種大規(guī)模聲紋認(rèn)證方法,主要包括語音信號(hào)預(yù)處理、聲學(xué)特征參數(shù)提取、低維聲紋碼生成以及確認(rèn)判決等步驟。本發(fā)明還公開了一種實(shí)現(xiàn)上述方法的大規(guī)模聲紋認(rèn)證系統(tǒng)。該認(rèn)證方法及其系統(tǒng)不僅具有較高的認(rèn)證效率,而且需要的模型存儲(chǔ)空間較少。認(rèn)證時(shí),將全部待處理語音轉(zhuǎn)化為低維聲紋碼,通過在低維空間進(jìn)行簡單的計(jì)算,并將計(jì)算得分與系統(tǒng)門限進(jìn)行比較,實(shí)現(xiàn)聲紋碼的認(rèn)證,如此,不僅可提高認(rèn)證的效率,還可節(jié)約模型存儲(chǔ)的空間。
文檔編號(hào)G10L17/00GK102479511SQ20101055548
公開日2012年5月30日 申請(qǐng)日期2010年11月23日 優(yōu)先權(quán)日2010年11月23日
發(fā)明者李軼杰, 許東星, 黃偉 申請(qǐng)人:盛樂信息技術(shù)(上海)有限公司