基于高斯混合模型的聲紋識(shí)別方法及系統(tǒng)的制作方法

文檔序號(hào)：2818998閱讀：1785來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于高斯混合模型的聲紋識(shí)別方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明屬于語(yǔ)音信號(hào) 處理裝置，涉及到一種用說(shuō)話人的語(yǔ)音信號(hào)來(lái)辨識(shí)說(shuō)話人身份的基于高斯混合模型的聲紋識(shí)別方法及系統(tǒng)。
背景技術(shù)：
近年來(lái)，隨著信息處理與人工智能技術(shù)的廣泛應(yīng)用，以及人們對(duì)快速有效身份驗(yàn)證的迫切要求，傳統(tǒng)密碼認(rèn)證的身份識(shí)別已經(jīng)逐漸失去了他的地位，而在生物識(shí)別領(lǐng)域中，基于說(shuō)話人語(yǔ)音的身份識(shí)別技術(shù)卻受到了越來(lái)越多的人的青睞。由于每個(gè)人的發(fā)音器官的生理差異以及后天形成的行為差異導(dǎo)致發(fā)音方式和說(shuō)話習(xí)慣各不相同，因此用說(shuō)話人的語(yǔ)音來(lái)識(shí)別身份成為可能。聲紋識(shí)別除了具有不會(huì)遺忘、不需記憶、使用方便等優(yōu)點(diǎn)外，還具有下列特性首先，它的認(rèn)證方式易于接受，使用的“密碼”為聲音，開(kāi)口即得；其次，識(shí)別文本的內(nèi)容可以隨機(jī)，不易竊取，安全性能比較高；第三，識(shí)別使用的終端設(shè)備為麥克風(fēng)或電話，成本低廉且易于和現(xiàn)有通信系統(tǒng)相結(jié)合。因此，聲紋識(shí)別的應(yīng)用前景非常廣闊在經(jīng)濟(jì)活動(dòng)中，可以實(shí)現(xiàn)各銀行的匯款、余額查詢、轉(zhuǎn)賬等；在保密安全中，可以用指定的聲音檢查秘密場(chǎng)所的人員，其只響應(yīng)特定說(shuō)話人；在司法鑒定中，可以根據(jù)即時(shí)錄音判斷疑犯中作案者的真實(shí)身份；在生物醫(yī)學(xué)中，可以使該系統(tǒng)只響應(yīng)患者的命令，從而實(shí)現(xiàn)對(duì)使用者假肢的控制。聲紋識(shí)別的關(guān)鍵技術(shù)主要是語(yǔ)音信號(hào)特征參數(shù)提取和模型匹配。語(yǔ)音信號(hào)特征參數(shù)大體可分為兩類一類是主要體現(xiàn)說(shuō)話人發(fā)音器官生理特性的低層特征，如根據(jù)人耳對(duì)不同頻率的語(yǔ)音信號(hào)的敏感程度提取的梅爾頻率倒譜系數(shù)(MFCC)，根據(jù)語(yǔ)音信號(hào)的全極點(diǎn)模型得到的線性預(yù)測(cè)倒譜系數(shù)(LPCC)等；另一類是主要體現(xiàn)說(shuō)話人用語(yǔ)習(xí)慣、發(fā)音特點(diǎn)的高層特征，如反映說(shuō)話人語(yǔ)音抑揚(yáng)頓挫的韻律特征(Prosodic Features)、反映說(shuō)話人習(xí)慣用語(yǔ)中音素統(tǒng)計(jì)規(guī)律的音素特征(Phone Features)等。LPCC是基于語(yǔ)音信號(hào)的發(fā)音模型建立的，容易受到假設(shè)模型的影響，高層特征雖然有些文獻(xiàn)中使用，但識(shí)別率并不是很高。針對(duì)各種語(yǔ)音信號(hào)特征參數(shù)而提出的模型匹配方法主要有動(dòng)態(tài)時(shí)間規(guī)整(DTW) 法、矢量量化(VQ)法、高斯混合模型(GMM)法、人工神經(jīng)網(wǎng)絡(luò)(ANN)法等。其中DTW模型依賴于參數(shù)的時(shí)間順序，實(shí)時(shí)性能較差，適合基于孤立字(詞)的說(shuō)話人識(shí)別；在VQ模型中，聚類的矢量?jī)H用一個(gè)中心來(lái)表示，并且各個(gè)碼本對(duì)距離的貢獻(xiàn)相等，因此在語(yǔ)音信號(hào)很短的情況下，識(shí)別率會(huì)急劇下降。在ANN模型中，對(duì)最佳模型拓?fù)浣Y(jié)構(gòu)的設(shè)計(jì)的訓(xùn)練算法并不一定能保證收斂，而且會(huì)存在過(guò)學(xué)習(xí)的問(wèn)題。GMM是在說(shuō)話人的語(yǔ)音信號(hào)中提取出反映說(shuō)話人個(gè)性的特征參數(shù)，并以此為基礎(chǔ)根據(jù)概率統(tǒng)計(jì)特性建立相應(yīng)的數(shù)學(xué)模型，從而有效的反映說(shuō)話人的語(yǔ)音信號(hào)特征參數(shù)在特征空間的分布。而且其概率密度函數(shù)比較常見(jiàn)，模型中的參數(shù)易于估計(jì)和訓(xùn)練。但是在傳統(tǒng)基于GMM的聲紋識(shí)別中，模型初始參數(shù)的選取比較隨機(jī)，這嚴(yán)重影響了系統(tǒng)的識(shí)別率
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是提出一種基于高斯混合模型的聲紋識(shí)別方法及系統(tǒng)。該方法采用了基于概率統(tǒng)計(jì)的高斯混合模型，能很好的反映說(shuō)話人的語(yǔ)音在特征空間的分布，其概率密度函數(shù)比較常見(jiàn)，模型中的參數(shù)易于估計(jì)和訓(xùn)練，而且具有良好識(shí)別性能和抗噪能力?！N基于高斯混合模型的聲紋識(shí)別方法，具體步驟如下
1、語(yǔ)音信號(hào)的采集以程控交換綜合實(shí)驗(yàn)箱的話機(jī)作為采集語(yǔ)音信號(hào)的終端設(shè)備，通過(guò)語(yǔ)音卡采集語(yǔ)音信號(hào)；
2、語(yǔ)音信號(hào)的預(yù)處理通過(guò)計(jì)算機(jī)將提取的語(yǔ)音信號(hào)進(jìn)行分幀加窗操作，在分幀過(guò)程中一幀包括256個(gè)采樣點(diǎn)，幀移為128個(gè)采樣點(diǎn)，所加的窗函數(shù)為漢明窗；端點(diǎn)檢測(cè)，采用基于短時(shí)能量和短時(shí)過(guò)零率法相結(jié)合的端點(diǎn)檢測(cè)法；預(yù)加重，加重系數(shù)的范圍為0. 9(Tl. 00 ；
3、語(yǔ)音信號(hào)特征參數(shù)提取采用梅爾頻率倒譜系數(shù)(MFCC)，MFCC的階數(shù)通常取為 12 16 ；
4、模型訓(xùn)練采用EM算法為說(shuō)話人的語(yǔ)音信號(hào)特征參數(shù)訓(xùn)練高斯混合模型(GMM)，模型的參數(shù)初始化方法選用k-means算法；
5、聲紋辨識(shí)通過(guò)將采集到的待識(shí)別語(yǔ)音信號(hào)特征參數(shù)與庫(kù)中通過(guò)上述步驟1、2、3、4 已建立的說(shuō)話人語(yǔ)音模型進(jìn)行比較，并根據(jù)最大后驗(yàn)概法進(jìn)行判斷，若對(duì)應(yīng)的說(shuō)話人模型使得待識(shí)別的話者語(yǔ)音特征向量X具有最大的后驗(yàn)概率，則認(rèn)為識(shí)別出說(shuō)話人。上述的語(yǔ)音信號(hào)特征參數(shù)提取步驟如下
(1)將預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行短時(shí)傅里葉變換(DFT)得到其頻譜X(k)，語(yǔ)音信號(hào)的 DFT公式為
權(quán)利要求
1.一種基于高斯混合模型的聲紋識(shí)別方法，其特征是具體步驟如下(1)、語(yǔ)音信號(hào)的采集以程控交換綜合實(shí)驗(yàn)箱的話機(jī)作為采集語(yǔ)音信號(hào)的終端設(shè)備，通過(guò)語(yǔ)音卡采集語(yǔ)音信號(hào)；(2)、語(yǔ)音信號(hào)的預(yù)處理通過(guò)計(jì)算機(jī)將提取的語(yǔ)音信號(hào)進(jìn)行分幀加窗操作，在分幀過(guò)程中一幀包括256個(gè)采樣點(diǎn)，幀移為128個(gè)采樣點(diǎn)，所加的窗函數(shù)為漢明窗；端點(diǎn)檢測(cè)，采用基于短時(shí)能量和短時(shí)過(guò)零率法相結(jié)合的端點(diǎn)檢測(cè)法；預(yù)加重，加重系數(shù)的范圍為 0. 90 1· 00 ；(3)、語(yǔ)音信號(hào)特征參數(shù)提取采用梅爾頻率倒譜系數(shù)(MFCC)，MFCC的階數(shù)通常取為 12 16 ；(4)、模型訓(xùn)練采用EM算法為說(shuō)話人的語(yǔ)音信號(hào)特征參數(shù)訓(xùn)練高斯混合模型(GMM)，模型的參數(shù)初始化方法選用k-means算法；(5)、聲紋辨識(shí)通過(guò)將采集到的待識(shí)別語(yǔ)音信號(hào)特征參數(shù)與庫(kù)中通過(guò)第1步驟1、第2 步驟、第3步驟已建立的說(shuō)話人語(yǔ)音模型進(jìn)行比較，并根據(jù)最大后驗(yàn)概法進(jìn)行判斷，若對(duì)應(yīng)的說(shuō)話人模型使得待識(shí)別的話者語(yǔ)音特征向量X具有最大的后驗(yàn)概率，則認(rèn)為識(shí)別出說(shuō)話人。
2.根據(jù)權(quán)利要求1所述的基于高斯混合模型的聲紋識(shí)別方法，其特征是語(yǔ)音信號(hào)特征參數(shù)提取步驟如下(1)將預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行短時(shí)傅里葉變換(DFT)得到其頻譜X(k)，語(yǔ)音信號(hào)的 DFT公式為其中，姻為輸入的以幀為單位的語(yǔ)音信號(hào)，N為傅里葉變換的點(diǎn)數(shù)，取256 ；(2)求頻譜的平方，即能量譜|1(幻|2,然后通過(guò)Mel頻率濾波器對(duì)語(yǔ)音信號(hào)的頻譜進(jìn)行平滑，并消除諧波，凸顯原先語(yǔ)音的共振峰；Mel頻率濾波器是一組三角帶通濾波器，中心頻率為=1,2,…，Q，Q為三角帶通濾波器的個(gè)數(shù)，Mel濾波器I4(I)表示如下(3)對(duì)濾波器組輸出的Mel頻譜取對(duì)數(shù)壓縮語(yǔ)音頻譜的動(dòng)態(tài)范圍；將頻域中噪聲的乘性成分轉(zhuǎn)換成加性成分，對(duì)數(shù)Mel頻譜5%)如下
3.根據(jù)權(quán)利要求1所述的基于高斯混合模型的聲紋識(shí)別方法，其特征是模型訓(xùn)練時(shí)所采用的EM算法的具體步驟描述如下一個(gè)具有M階混合分量的D維高斯混合模型(GMM)表示如下
4.根據(jù)權(quán)利要求3所述的基于高斯混合模型的聲紋識(shí)別方法，其特征是在用EM算法訓(xùn)練GMM時(shí)，初始參數(shù)的選取采用改進(jìn)的k-means算法，具體為設(shè)長(zhǎng)度為N的M維特征矢量序列為I = (IpIfsIilT)，其中第個(gè)矢量可記為入^[Xlil,Xn2,...,X^)，，它可以被看作是語(yǔ)音信號(hào)中某一幀參數(shù)所組成的矢量；說(shuō)話人語(yǔ)音信號(hào)特征矢量的分布各不相同，其中第m維矢量的方差離為I M一^ = ^bw ~ y(22)式中，M為特征矢量的維數(shù)Xsm為第η個(gè)矢量的第m維參數(shù)，藝為第η個(gè)矢量的平均值，第m維矢量的權(quán)值&為 1πΜ = (23)相應(yīng)的基于方差的加權(quán)歐氏距離公式鞏&為為 (μ“D(JTkA) = Jz^- d — Q)2(24)式中，X徹為待分類的特征矢量式中的第m個(gè)參數(shù)，Cfaa為第K個(gè)類的聚類中心；對(duì)于初始聚類中心的選取采用歐氏距離法，計(jì)算矢量集中矢量?jī)蓛芍g的距離，選擇距離最大的兩個(gè)矢量作為兩個(gè)類的聚類中心，再?gòu)氖Ｓ嗟氖噶考羞x出到兩個(gè)聚類中心距離最大的矢量作為另一個(gè)類的中心，如此反復(fù)直到選出K個(gè)聚類中心。
5.根據(jù)權(quán)利要求4所述的基于高斯混合模型的聲紋識(shí)別方法，其特征是改進(jìn)的 K-means聚類算法的具體步驟如下P (1)從已有的K個(gè)聚類中心出發(fā)，禾Ij用公式D(IsA) = JI^KZffls-Cfa)2 ,計(jì)算樣本集中的矢量與各個(gè)聚類中心的距離，把剩余矢量劃分到離它距離最近的類中，形成初始聚類；(2)按照步驟(C的聚類，更新各個(gè)類的聚類中心；(3)以新的聚類中心為參照點(diǎn)不斷執(zhí)行步驟C和(2，直到聚類中心不再變化或變化微小時(shí)停止；(4)得到初始GMM參數(shù)
6.根據(jù)權(quán)利要求2所述的基于高斯混合模型的聲紋識(shí)別方法，其特征是進(jìn)行離散余弦變換時(shí)，L=13，Q=25。
7.一種基于高斯混合模型的聲紋識(shí)別系統(tǒng)，其特征是組成如下語(yǔ)音信號(hào)采集模塊、語(yǔ)音信號(hào)預(yù)處理模塊，語(yǔ)音信號(hào)特征參數(shù)提取模塊，語(yǔ)音模型訓(xùn)練模塊和聲紋識(shí)別模塊。
全文摘要
一種基于高斯混合模型的聲紋識(shí)別方法及系統(tǒng)，步驟如下語(yǔ)音信號(hào)采集；語(yǔ)音信號(hào)預(yù)處理；語(yǔ)音信號(hào)特征參數(shù)提取采用梅爾頻率倒譜系數(shù)(MFCC)，MFCC的階數(shù)通常取為12~16；模型訓(xùn)練采用EM算法為說(shuō)話人的語(yǔ)音信號(hào)特征參數(shù)訓(xùn)練高斯混合模型(GMM)，模型的參數(shù)初始化方法選用k-means算法；聲紋辨識(shí)將采集到的待識(shí)別語(yǔ)音信號(hào)特征參數(shù)與已建立的說(shuō)話人語(yǔ)音模型進(jìn)行比較，并根據(jù)最大后驗(yàn)概法進(jìn)行判斷，若對(duì)應(yīng)的說(shuō)話人模型使得待識(shí)別的話者語(yǔ)音特征向量X具有最大的后驗(yàn)概率，則識(shí)別出說(shuō)話人。該方法采用了基于概率統(tǒng)計(jì)的高斯混合模型，能很好的反映說(shuō)話人的語(yǔ)音在特征空間的分布，其概率密度函數(shù)比較常見(jiàn)，模型中的參數(shù)易于估計(jì)和訓(xùn)練，而且具有良好識(shí)別性能和抗噪能力。
文檔編號(hào)G10L15/06GK102324232SQ201110267690
公開(kāi)日2012年1月18日申請(qǐng)日期2011年9月12日優(yōu)先權(quán)日2011年9月12日
發(fā)明者劉春玲, 張健, 張彩娟, 趙立輝, 霍春寶申請(qǐng)人:遼寧工業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：霍春寶;張健;趙立輝;劉春玲;張彩娟
技術(shù)所有人：遼寧工業(yè)大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

聲紋模型相關(guān)技術(shù)

聲紋識(shí)別相關(guān)技術(shù)

聲紋識(shí)別技術(shù)相關(guān)技術(shù)

聲紋識(shí)別軟件相關(guān)技術(shù)

聲紋識(shí)別算法相關(guān)技術(shù)

百度聲紋識(shí)別相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于高斯混合模型的聲紋識(shí)別方法及系統(tǒng)的制作方法