專利名稱:基于高斯混合模型的聲紋識(shí)別方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語(yǔ)音信號(hào) 處理裝置,涉及到一種用說(shuō)話人的語(yǔ)音信號(hào)來(lái)辨識(shí)說(shuō)話人身份的基于高斯混合模型的聲紋識(shí)別方法及系統(tǒng)。
背景技術(shù):
近年來(lái),隨著信息處理與人工智能技術(shù)的廣泛應(yīng)用,以及人們對(duì)快速有效身份驗(yàn)證的迫切要求,傳統(tǒng)密碼認(rèn)證的身份識(shí)別已經(jīng)逐漸失去了他的地位,而在生物識(shí)別領(lǐng)域中, 基于說(shuō)話人語(yǔ)音的身份識(shí)別技術(shù)卻受到了越來(lái)越多的人的青睞。由于每個(gè)人的發(fā)音器官的生理差異以及后天形成的行為差異導(dǎo)致發(fā)音方式和說(shuō)話習(xí)慣各不相同,因此用說(shuō)話人的語(yǔ)音來(lái)識(shí)別身份成為可能。聲紋識(shí)別除了具有不會(huì)遺忘、 不需記憶、使用方便等優(yōu)點(diǎn)外,還具有下列特性首先,它的認(rèn)證方式易于接受,使用的“密碼”為聲音,開(kāi)口即得;其次,識(shí)別文本的內(nèi)容可以隨機(jī),不易竊取,安全性能比較高;第三, 識(shí)別使用的終端設(shè)備為麥克風(fēng)或電話,成本低廉且易于和現(xiàn)有通信系統(tǒng)相結(jié)合。因此,聲紋識(shí)別的應(yīng)用前景非常廣闊在經(jīng)濟(jì)活動(dòng)中,可以實(shí)現(xiàn)各銀行的匯款、余額查詢、轉(zhuǎn)賬等; 在保密安全中,可以用指定的聲音檢查秘密場(chǎng)所的人員,其只響應(yīng)特定說(shuō)話人;在司法鑒定中,可以根據(jù)即時(shí)錄音判斷疑犯中作案者的真實(shí)身份;在生物醫(yī)學(xué)中,可以使該系統(tǒng)只響應(yīng)患者的命令,從而實(shí)現(xiàn)對(duì)使用者假肢的控制。聲紋識(shí)別的關(guān)鍵技術(shù)主要是語(yǔ)音信號(hào)特征參數(shù)提取和模型匹配。語(yǔ)音信號(hào)特征參數(shù)大體可分為兩類一類是主要體現(xiàn)說(shuō)話人發(fā)音器官生理特性的低層特征,如根據(jù)人耳對(duì)不同頻率的語(yǔ)音信號(hào)的敏感程度提取的梅爾頻率倒譜系數(shù)(MFCC),根據(jù)語(yǔ)音信號(hào)的全極點(diǎn)模型得到的線性預(yù)測(cè)倒譜系數(shù)(LPCC)等;另一類是主要體現(xiàn)說(shuō)話人用語(yǔ)習(xí)慣、發(fā)音特點(diǎn)的高層特征,如反映說(shuō)話人語(yǔ)音抑揚(yáng)頓挫的韻律特征(Prosodic Features)、反映說(shuō)話人習(xí)慣用語(yǔ)中音素統(tǒng)計(jì)規(guī)律的音素特征(Phone Features)等。LPCC是基于語(yǔ)音信號(hào)的發(fā)音模型建立的,容易受到假設(shè)模型的影響,高層特征雖然有些文獻(xiàn)中使用,但識(shí)別率并不是很高。針對(duì)各種語(yǔ)音信號(hào)特征參數(shù)而提出的模型匹配方法主要有動(dòng)態(tài)時(shí)間規(guī)整(DTW) 法、矢量量化(VQ)法、高斯混合模型(GMM)法、人工神經(jīng)網(wǎng)絡(luò)(ANN)法等。其中DTW模型依賴于參數(shù)的時(shí)間順序,實(shí)時(shí)性能較差,適合基于孤立字(詞)的說(shuō)話人識(shí)別;在VQ模型中, 聚類的矢量?jī)H用一個(gè)中心來(lái)表示,并且各個(gè)碼本對(duì)距離的貢獻(xiàn)相等,因此在語(yǔ)音信號(hào)很短的情況下,識(shí)別率會(huì)急劇下降。在ANN模型中,對(duì)最佳模型拓?fù)浣Y(jié)構(gòu)的設(shè)計(jì)的訓(xùn)練算法并不一定能保證收斂,而且會(huì)存在過(guò)學(xué)習(xí)的問(wèn)題。GMM是在說(shuō)話人的語(yǔ)音信號(hào)中提取出反映說(shuō)話人個(gè)性的特征參數(shù),并以此為基礎(chǔ)根據(jù)概率統(tǒng)計(jì)特性建立相應(yīng)的數(shù)學(xué)模型,從而有效的反映說(shuō)話人的語(yǔ)音信號(hào)特征參數(shù)在特征空間的分布。而且其概率密度函數(shù)比較常見(jiàn),模型中的參數(shù)易于估計(jì)和訓(xùn)練。但是在傳統(tǒng)基于GMM的聲紋識(shí)別中,模型初始參數(shù)的選取比較隨機(jī),這嚴(yán)重影響了系統(tǒng)的識(shí)別率
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是提出一種基于高斯混合模型的聲紋識(shí)別方法及系統(tǒng)。 該方法采用了基于概率統(tǒng)計(jì)的高斯混合模型,能很好的反映說(shuō)話人的語(yǔ)音在特征空間的分布,其概率密度函數(shù)比較常見(jiàn),模型中的參數(shù)易于估計(jì)和訓(xùn)練,而且具有良好識(shí)別性能和抗噪能力?!N基于高斯混合模型的聲紋識(shí)別方法,具體步驟如下
1、語(yǔ)音信號(hào)的采集以程控交換綜合實(shí)驗(yàn)箱的話機(jī)作為采集語(yǔ)音信號(hào)的終端設(shè)備,通過(guò)語(yǔ)音卡采集語(yǔ)音信號(hào);
2、語(yǔ)音信號(hào)的預(yù)處理通過(guò)計(jì)算機(jī)將提取的語(yǔ)音信號(hào)進(jìn)行分幀加窗操作,在分幀過(guò)程中一幀包括256個(gè)采樣點(diǎn),幀移為128個(gè)采樣點(diǎn),所加的窗函數(shù)為漢明窗;端點(diǎn)檢測(cè),采用基于短時(shí)能量和短時(shí)過(guò)零率法相結(jié)合的端點(diǎn)檢測(cè)法;預(yù)加重,加重系數(shù)的范圍為0. 9(Tl. 00 ;
3、語(yǔ)音信號(hào)特征參數(shù)提取采用梅爾頻率倒譜系數(shù)(MFCC),MFCC的階數(shù)通常取為 12 16 ;
4、模型訓(xùn)練采用EM算法為說(shuō)話人的語(yǔ)音信號(hào)特征參數(shù)訓(xùn)練高斯混合模型(GMM),模型的參數(shù)初始化方法選用k-means算法;
5、聲紋辨識(shí)通過(guò)將采集到的待識(shí)別語(yǔ)音信號(hào)特征參數(shù)與庫(kù)中通過(guò)上述步驟1、2、3、4 已建立的說(shuō)話人語(yǔ)音模型進(jìn)行比較,并根據(jù)最大后驗(yàn)概法進(jìn)行判斷,若對(duì)應(yīng)的說(shuō)話人模型使得待識(shí)別的話者語(yǔ)音特征向量X具有最大的后驗(yàn)概率,則認(rèn)為識(shí)別出說(shuō)話人。上述的語(yǔ)音信號(hào)特征參數(shù)提取步驟如下
(1)將預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行短時(shí)傅里葉變換(DFT)得到其頻譜X(k),語(yǔ)音信號(hào)的 DFT公式為
權(quán)利要求
1.一種基于高斯混合模型的聲紋識(shí)別方法,其特征是具體步驟如下(1)、語(yǔ)音信號(hào)的采集以程控交換綜合實(shí)驗(yàn)箱的話機(jī)作為采集語(yǔ)音信號(hào)的終端設(shè)備, 通過(guò)語(yǔ)音卡采集語(yǔ)音信號(hào);(2)、語(yǔ)音信號(hào)的預(yù)處理通過(guò)計(jì)算機(jī)將提取的語(yǔ)音信號(hào)進(jìn)行分幀加窗操作,在分幀過(guò)程中一幀包括256個(gè)采樣點(diǎn),幀移為128個(gè)采樣點(diǎn),所加的窗函數(shù)為漢明窗;端點(diǎn)檢測(cè),采用基于短時(shí)能量和短時(shí)過(guò)零率法相結(jié)合的端點(diǎn)檢測(cè)法;預(yù)加重,加重系數(shù)的范圍為 0. 90 1· 00 ;(3)、語(yǔ)音信號(hào)特征參數(shù)提取采用梅爾頻率倒譜系數(shù)(MFCC),MFCC的階數(shù)通常取為 12 16 ;(4)、模型訓(xùn)練采用EM算法為說(shuō)話人的語(yǔ)音信號(hào)特征參數(shù)訓(xùn)練高斯混合模型(GMM), 模型的參數(shù)初始化方法選用k-means算法;(5)、聲紋辨識(shí)通過(guò)將采集到的待識(shí)別語(yǔ)音信號(hào)特征參數(shù)與庫(kù)中通過(guò)第1步驟1、第2 步驟、第3步驟已建立的說(shuō)話人語(yǔ)音模型進(jìn)行比較,并根據(jù)最大后驗(yàn)概法進(jìn)行判斷,若對(duì)應(yīng)的說(shuō)話人模型使得待識(shí)別的話者語(yǔ)音特征向量X具有最大的后驗(yàn)概率,則認(rèn)為識(shí)別出說(shuō)話人。
2.根據(jù)權(quán)利要求1所述的基于高斯混合模型的聲紋識(shí)別方法,其特征是語(yǔ)音信號(hào)特征參數(shù)提取步驟如下(1)將預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行短時(shí)傅里葉變換(DFT)得到其頻譜X(k),語(yǔ)音信號(hào)的 DFT公式為其中,姻為輸入的以幀為單位的語(yǔ)音信號(hào),N為傅里葉變換的點(diǎn)數(shù),取256 ;(2)求頻譜的平方,即能量譜|1(幻|2,然后通過(guò)Mel頻率濾波器對(duì)語(yǔ)音信號(hào)的頻譜進(jìn)行平滑,并消除諧波,凸顯原先語(yǔ)音的共振峰;Mel頻率濾波器是一組三角帶通濾波器,中心頻率為=1,2,…,Q,Q為三角帶通濾波器的個(gè)數(shù),Mel濾波器I4(I)表示如下(3)對(duì)濾波器組輸出的Mel頻譜取對(duì)數(shù)壓縮語(yǔ)音頻譜的動(dòng)態(tài)范圍;將頻域中噪聲的乘性成分轉(zhuǎn)換成加性成分,對(duì)數(shù)Mel頻譜5%)如下
3.根據(jù)權(quán)利要求1所述的基于高斯混合模型的聲紋識(shí)別方法,其特征是模型訓(xùn)練時(shí)所采用的EM算法的具體步驟描述如下一個(gè)具有M階混合分量的D維高斯混合模型(GMM)表示如下
4.根據(jù)權(quán)利要求3所述的基于高斯混合模型的聲紋識(shí)別方法,其特征是在用EM算法訓(xùn)練GMM時(shí),初始參數(shù)的選取采用改進(jìn)的k-means算法,具體為設(shè)長(zhǎng)度為N的M維特征矢量序列為I = (IpIfsIilT),其中第個(gè)矢量可記為 入^[Xlil,Xn2,...,X^),,它可以被看作是語(yǔ)音信號(hào)中某一幀參數(shù)所組成的矢量; 說(shuō)話人語(yǔ)音信號(hào)特征矢量的分布各不相同,其中第m維矢量的方差離為I M一^ = ^bw ~ y(22)式中,M為特征矢量的維數(shù)Xsm為第η個(gè)矢量的第m維參數(shù),藝為第η個(gè)矢量的平均值,第m維矢量的權(quán)值&為 1πΜ = (23)相應(yīng)的基于方差的加權(quán)歐氏距離公式鞏&為為 (μ“D(JTkA) = Jz^- d — Q)2(24)式中,X徹為待分類的特征矢量式中的第m個(gè)參數(shù),Cfaa為第K個(gè)類的聚類中心;對(duì)于初始聚類中心的選取采用歐氏距離法,計(jì)算矢量集中矢量?jī)蓛芍g的距離,選擇距離最大的兩個(gè)矢量作為兩個(gè)類的聚類中心,再?gòu)氖S嗟氖噶考羞x出到兩個(gè)聚類中心距離最大的矢量作為另一個(gè)類的中心,如此反復(fù)直到選出K個(gè)聚類中心。
5.根據(jù)權(quán)利要求4所述的基于高斯混合模型的聲紋識(shí)別方法,其特征是改進(jìn)的 K-means聚類算法的具體步驟如下P (1)從已有的K個(gè)聚類中心出發(fā),禾Ij用公式D(IsA) = JI^KZffls-Cfa)2 ,計(jì)算樣本集中的矢量與各個(gè)聚類中心的距離,把剩余矢量劃分到離它距離最近的類中,形成初始聚類;(2)按照步驟(C的聚類,更新各個(gè)類的聚類中心;(3)以新的聚類中心為參照點(diǎn)不斷執(zhí)行步驟C和(2,直到聚類中心不再變化或變化微小時(shí)停止;(4)得到初始GMM參數(shù)
6.根據(jù)權(quán)利要求2所述的基于高斯混合模型的聲紋識(shí)別方法,其特征是進(jìn)行離散余弦變換時(shí),L=13,Q=25。
7.一種基于高斯混合模型的聲紋識(shí)別系統(tǒng),其特征是組成如下語(yǔ)音信號(hào)采集模塊、語(yǔ)音信號(hào)預(yù)處理模塊,語(yǔ)音信號(hào)特征參數(shù)提取模塊,語(yǔ)音模型訓(xùn)練模塊和聲紋識(shí)別模塊。
全文摘要
一種基于高斯混合模型的聲紋識(shí)別方法及系統(tǒng),步驟如下語(yǔ)音信號(hào)采集;語(yǔ)音信號(hào)預(yù)處理;語(yǔ)音信號(hào)特征參數(shù)提取采用梅爾頻率倒譜系數(shù)(MFCC),MFCC的階數(shù)通常取為12~16;模型訓(xùn)練采用EM算法為說(shuō)話人的語(yǔ)音信號(hào)特征參數(shù)訓(xùn)練高斯混合模型(GMM),模型的參數(shù)初始化方法選用k-means算法;聲紋辨識(shí)將采集到的待識(shí)別語(yǔ)音信號(hào)特征參數(shù)與已建立的說(shuō)話人語(yǔ)音模型進(jìn)行比較,并根據(jù)最大后驗(yàn)概法進(jìn)行判斷,若對(duì)應(yīng)的說(shuō)話人模型使得待識(shí)別的話者語(yǔ)音特征向量X具有最大的后驗(yàn)概率,則識(shí)別出說(shuō)話人。該方法采用了基于概率統(tǒng)計(jì)的高斯混合模型,能很好的反映說(shuō)話人的語(yǔ)音在特征空間的分布,其概率密度函數(shù)比較常見(jiàn),模型中的參數(shù)易于估計(jì)和訓(xùn)練,而且具有良好識(shí)別性能和抗噪能力。
文檔編號(hào)G10L15/06GK102324232SQ201110267690
公開(kāi)日2012年1月18日 申請(qǐng)日期2011年9月12日 優(yōu)先權(quán)日2011年9月12日
發(fā)明者劉春玲, 張健, 張彩娟, 趙立輝, 霍春寶 申請(qǐng)人:遼寧工業(yè)大學(xué)