亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于音素信息的聲紋認(rèn)證系統(tǒng)及方法與流程

文檔序號(hào):12274067閱讀:360來源:國知局
一種基于音素信息的聲紋認(rèn)證系統(tǒng)及方法與流程
本發(fā)明涉及聲紋認(rèn)證系統(tǒng)
技術(shù)領(lǐng)域
,具體來說,涉及一種基于音素信息的聲紋認(rèn)證系統(tǒng)及方法。
背景技術(shù)
:生物特征識(shí)別是一種根據(jù)人體自身所固有的生理特征和行為特征來識(shí)別身份的技術(shù),具有不易遺忘、防偽性能好、不易偽造或被盜、隨身具備和隨時(shí)隨地可用等優(yōu)點(diǎn)。隨著互聯(lián)網(wǎng)快速發(fā)展,傳統(tǒng)身份認(rèn)證技術(shù)手段越來越無法滿足用戶使用體驗(yàn)和安全能力的需求。簡單易用的聲紋識(shí)別技術(shù),由于其闊的應(yīng)用前景、巨大的社會(huì)效益和經(jīng)濟(jì)效益,已引起各行各業(yè)的廣泛關(guān)注和高度重視。聲紋識(shí)別,又稱說話人識(shí)別,是生物識(shí)別技術(shù)的一種。該技術(shù)通過語音波形中反映說話人生理和行為特征的語音參數(shù),進(jìn)而分辨出說話人身份。具有安全性高、數(shù)據(jù)采集方便等特點(diǎn)。近年來,文本相關(guān)(Text-dependent)的說話人識(shí)別成為用戶認(rèn)證領(lǐng)域的熱點(diǎn)。由于文本無關(guān)(Text-independent)說話人識(shí)別領(lǐng)域的重大進(jìn)展,很多研究人員嘗試將文本無關(guān)說話人識(shí)別算法應(yīng)用到文本相關(guān)領(lǐng)域,例如數(shù)字串聲紋識(shí)別。在數(shù)字串認(rèn)證條件下,有研究人員使用聯(lián)合因子分析(JointFactorAnalysis,JFA)、高斯混合模型-干擾屬性映射(GaussianMixtureModel-NuisanceAttributeProjection,GMM-NAP)和隱馬爾科夫模型-干擾屬性映射(HiddenMarkovModel-NuisanceAttributeProjection,HMM-NAP)進(jìn)行比較。相比JFA而言,基于NAP的算法表現(xiàn)更好,原因在于訓(xùn)練JFA需要大量的帶標(biāo)記數(shù)據(jù),而JFA矩陣的訓(xùn)練數(shù)據(jù)和數(shù)字串測試數(shù)據(jù)之間存在失配。在文本無關(guān)說話人識(shí)別中,JFA和基于概率線性判別分析(ProbabilisticLinearDiscriminantAnalysis,PLDA)的總體方差建模因子(iVector)算法均依賴于大量的開發(fā)集數(shù)據(jù)。越來越多的工作致力于處理受限的領(lǐng)域內(nèi)開發(fā)集數(shù)據(jù)向領(lǐng)域外應(yīng)用數(shù)據(jù)的遷移問題,例如詞匯差異的自適應(yīng)和補(bǔ)償算法。通過安卓系統(tǒng)(Android)和蘋果系統(tǒng)(iOS)的手機(jī),錄制并構(gòu)造了包含536人的數(shù)字串語音集合。分為兩種場景:global條件和rand-n條件。global條件表示注冊和驗(yàn)證采用完全相同的數(shù)字串內(nèi)容;rand-n條件表示每個(gè)數(shù)字串語音是長度為n的隨機(jī)數(shù)字串,這在某些防錄音攻擊的應(yīng)用系統(tǒng)中比global條件更為安全。本發(fā)明中涉及如表1所示的三種注冊/認(rèn)證條件:固定全部數(shù)字密碼、動(dòng)態(tài)8位數(shù)字密碼和動(dòng)態(tài)6位數(shù)字密碼。每種場景劃分開發(fā)集和評(píng)測集。開發(fā)集用于訓(xùn)練全局背景模型(UniversalBackgroundModel,UBM)、總體方差建模矩陣(iVectorTmatrix)和線性區(qū)分分析矩陣(LinearDiscriminantAnalysis,LDA)等等。評(píng)測集的三種條件中,每人包含三條注冊語音和一條測試語音,每條測試語音與所有說話人模型進(jìn)行比對(duì)。表1:密碼數(shù)字的幾種形式示例表2為GMM-NAP和采用iVector的聲紋認(rèn)證系統(tǒng)的等錯(cuò)誤率(EqualErrorRate,EER)對(duì)比。結(jié)果表明,隨著數(shù)字串長度的增加,聲紋認(rèn)證系統(tǒng)的性能得到了明顯地一致地提升。但GMM-NAP和iVector系統(tǒng)均沒有考慮音素(Phone/Phoneme)信息的利用,是基于文本無關(guān)聲紋識(shí)別在文本相關(guān)場景下的直接應(yīng)用。數(shù)字串聲紋應(yīng)用中,忽略音素信息或者沒有音素信息的有效利用,將會(huì)限制文本無關(guān)識(shí)別算法在實(shí)際應(yīng)用中的效果。表2:GMM-NAP和iVector系統(tǒng)在不同測試條件下的等錯(cuò)誤率對(duì)比固定全部數(shù)字密碼動(dòng)態(tài)8位數(shù)字密碼動(dòng)態(tài)6位數(shù)字密碼GMM-NAP2.09%2.64%3.76%iVector1.87%2.40%3.32%技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于提出一種基于音素信息的聲紋認(rèn)證系統(tǒng)及方法,能夠在實(shí)現(xiàn)音素信息切分、音素建模和音素相關(guān)(Phone-dependent)模型區(qū)分能力分析的同時(shí),解決了數(shù)字串音素缺失的問題,并提高了數(shù)字串聲紋認(rèn)證系統(tǒng)的性能。為實(shí)現(xiàn)上述技術(shù)目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:一種基于音素信息的聲紋認(rèn)證系統(tǒng),包括基于漢語普通話語音識(shí)別器的音素強(qiáng)制對(duì)齊模塊、音素相關(guān)的模型創(chuàng)建模塊和基于dropout策略的神經(jīng)網(wǎng)絡(luò)分類器模塊;所述基于漢語普通話語音識(shí)別器的音素強(qiáng)制對(duì)齊模塊用于對(duì)數(shù)字串的十六個(gè)音素類別進(jìn)行切分;所述音素相關(guān)的模型創(chuàng)建模塊用于建立音素相關(guān)模型,并分析每個(gè)音素相關(guān)模型對(duì)聲紋認(rèn)證的區(qū)分能力,刻畫了說話人的區(qū)分特點(diǎn),而不是詞匯之間差異;所述基于dropout策略的神經(jīng)網(wǎng)絡(luò)分類器模塊用于融合音素相關(guān)模型的互補(bǔ)信息。一種基于音素信息的聲紋認(rèn)證方法,包括如下步驟:S01:定義漢語普通話數(shù)字串聲紋的十六個(gè)音素類別,顯式利用數(shù)字串的各個(gè)發(fā)音類別信息;S02:基于漢語普通話語音識(shí)別器,采用維特比強(qiáng)制對(duì)齊算法獲取每個(gè)對(duì)應(yīng)數(shù)字串文本內(nèi)容的音素邊界,完成對(duì)語音內(nèi)容的音素切分,即語音特征向量到音素的映射關(guān)系,得到屬于音素的特征向量子集合,每個(gè)特征子集合可看作是獨(dú)立的數(shù)據(jù)流進(jìn)行后續(xù)處理;S03:采用文本無關(guān)算法建立音素相關(guān)模型,音素相關(guān)的模型建立過程降低了每個(gè)音素相關(guān)模型的參數(shù)量,避免模型過訓(xùn)練;S04:計(jì)算音素相關(guān)模型,得到分?jǐn)?shù)向量。進(jìn)一步的,步驟S04中采用神經(jīng)網(wǎng)絡(luò)算法中的dropout策略訓(xùn)練后端融合分類器。本發(fā)明的有益效果:(1)本發(fā)明采用基于典型的漢語普通話語音識(shí)別器,采用維特比強(qiáng)制對(duì)齊算法獲取每個(gè)對(duì)應(yīng)數(shù)字串文本內(nèi)容的音素邊界,完成對(duì)語音內(nèi)容的音素切分,相比于通常的基于動(dòng)態(tài)時(shí)間規(guī)整(DynamicTimeWarping,DTW)等算法的切分效果更有優(yōu)勢;(2)本發(fā)明對(duì)漢語普通話的數(shù)字串發(fā)音定義了十六個(gè)發(fā)音類別,避免所屬音素類特征向量過少引起的模型過訓(xùn)練問題,建立了音素相關(guān)模型,并分析每個(gè)音素相關(guān)模型對(duì)聲紋認(rèn)證的區(qū)分能力,音素相關(guān)模型刻畫了說話人的區(qū)分特點(diǎn),而非詞匯之間的差異;(3)為了進(jìn)一步提高音素相關(guān)模型的信息利用效果,并考慮到實(shí)際應(yīng)用中認(rèn)證語音只包含音素集合的部分內(nèi)容,可能存在向量維度缺失的問題,采用dropout策略訓(xùn)練神經(jīng)網(wǎng)絡(luò)后端分類器,實(shí)現(xiàn)音素相關(guān)分?jǐn)?shù)向量的融合判決,并明顯提升了聲紋認(rèn)證的系統(tǒng)性能。附圖說明圖1是本發(fā)明中基于音素相關(guān)的分?jǐn)?shù)向量的后端分類器處理流程圖;圖2是本發(fā)明中針對(duì)不同音素相關(guān)模型的等錯(cuò)誤率的實(shí)驗(yàn)結(jié)果圖。具體實(shí)施方式下面結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明提出將音素信息顯式利用與神經(jīng)網(wǎng)絡(luò)分類相結(jié)合的數(shù)字串聲紋認(rèn)證方法,對(duì)于每條數(shù)字串語音,利用漢語普通話語音識(shí)別器的維特比強(qiáng)制對(duì)齊算法完成對(duì)語音內(nèi)容的音素切分;降低音素相關(guān)模型的訓(xùn)練參數(shù)量,避免每個(gè)音素模型的訓(xùn)練語音特征較少可能引起的過訓(xùn)練問題,分析每個(gè)音素模型對(duì)聲紋識(shí)別的區(qū)分能力;對(duì)音素相關(guān)模型的分?jǐn)?shù)向量可能存在維數(shù)缺失的問題,采用神經(jīng)網(wǎng)絡(luò)算法中的dropout策略訓(xùn)練后端融合分類器,提高了音素相關(guān)信息的利用效果,進(jìn)一步提升了數(shù)字串聲紋認(rèn)證的系統(tǒng)性能。表3給出了十個(gè)漢語普通話數(shù)字發(fā)音的音素表示。注意到,數(shù)字“1”有“yi”和“yao”兩種發(fā)音,因此對(duì)應(yīng)十個(gè)漢語普通話數(shù)字發(fā)音共有十六個(gè)音素。表3:十個(gè)數(shù)字的漢語普通話發(fā)音音素“固定全部數(shù)字密碼”條件中,音素內(nèi)容固定不變?!皠?dòng)態(tài)8位數(shù)字密碼”和“動(dòng)態(tài)6位數(shù)字密碼”的音素內(nèi)容也是已知的,因?yàn)閿?shù)字文本通?;诤笈_(tái)系統(tǒng)的隨機(jī)算法推送或基于OTP動(dòng)態(tài)口令(One-timePassword)根據(jù)專門的算法生成?;跐h語普通話語音識(shí)別系統(tǒng),采用維特比強(qiáng)制對(duì)齊算法獲取每個(gè)對(duì)應(yīng)文本內(nèi)容的音素邊界,完成對(duì)語音內(nèi)容的音素切分,即語音特征向量到音素的映射。因此,給定一段數(shù)字串語音的聲學(xué)特征向量序列χ=x1,...,xT,可切分成離散的子集合χ1,...,χ16。其中x∈χi表示屬于第i個(gè)音素的特征向量子集合。每個(gè)子集合可看作是獨(dú)立的數(shù)據(jù)流進(jìn)行后續(xù)處理。聲紋注冊階段,十六個(gè)音素相關(guān)的模型(說話人s的第i個(gè)音素子集合)通過文本無關(guān)算法訓(xùn)練得到。需要說明的是,注冊語音需要覆蓋十個(gè)數(shù)字。本發(fā)明中,注冊階段使用三條數(shù)字串注冊語音,保證每個(gè)人的注冊語音中每個(gè)數(shù)字至少出現(xiàn)一遍。聲紋認(rèn)證過程中,針對(duì)“固定全部數(shù)字密碼”條件,獲取十六維的分?jǐn)?shù)向量ξ,可通過對(duì)分?jǐn)?shù)向量ξ取平均值或者邏輯回歸等方法訓(xùn)練后端分類器進(jìn)行判決。然而對(duì)于“動(dòng)態(tài)8位數(shù)字密碼”和“動(dòng)態(tài)6位數(shù)字密碼”等rand-n條件,分?jǐn)?shù)向量ξ可能存在缺失,因?yàn)闇y試語音只包含音素集合的部分內(nèi)容。為了解決該問題,采用神經(jīng)網(wǎng)絡(luò)算法中的dropout策略,這是一種有效提升泛化能力的實(shí)現(xiàn)方法。神經(jīng)網(wǎng)絡(luò)的dropout訓(xùn)練算法是標(biāo)準(zhǔn)的隨機(jī)梯度下降(StandardStochasticGradientDescent),只是在前向計(jì)算過程中以一定概率γ隨機(jī)忽略某些輸入單元和隱層單元。只有激活單元參與反向傳播(Back-propagation)和梯度計(jì)算。因?yàn)閐ropout并不用于識(shí)別,在訓(xùn)練過程中,對(duì)每層的輸出進(jìn)行重新調(diào)整:其中δ(·),Wl和bl分別是激活函數(shù),第l層的權(quán)重和第l層的偏置。bm是二元掩碼(Binarymask)表示哪些維被剔除了,*表示向量乘法。上述過程可看成一種有效的模型平均方法,即通過訓(xùn)練大量的共享權(quán)重的缺失向量得到的不同網(wǎng)絡(luò)的平均表示。如圖1所示,訓(xùn)練包含一個(gè)隱層的神經(jīng)網(wǎng)絡(luò)分類器。其中輸入是分?jǐn)?shù)向量,輸出包含兩個(gè)單元,分別代表目標(biāo)認(rèn)證類別和冒仿認(rèn)證類別。針對(duì)“動(dòng)態(tài)8位數(shù)字密碼”和“動(dòng)態(tài)6位數(shù)字密碼”等rand-n條件下的向量維數(shù)缺失問題,對(duì)輸入層以概率γ應(yīng)用dropout策略進(jìn)行網(wǎng)絡(luò)訓(xùn)練。在驗(yàn)證階段,計(jì)算如下的對(duì)數(shù)似然比作為系統(tǒng)輸出:其中p(ξ|目標(biāo)驗(yàn)證類)和p(ξ|冒仿驗(yàn)證類)是分?jǐn)?shù)向量ξ的似然度。通過貝葉斯公式,似然度可轉(zhuǎn)換為后驗(yàn)表示,p(ξ|目標(biāo)驗(yàn)證類)=p(目標(biāo)驗(yàn)證類|ξ)p(ξ)/p(目標(biāo)驗(yàn)證類)p(ξ|冒仿驗(yàn)證類)=p(冒仿驗(yàn)證類|ξ)p(ξ)/p(冒仿驗(yàn)證類)其中p(目標(biāo)驗(yàn)證類|ξ)和p(冒仿驗(yàn)證類|ξ)是分?jǐn)?shù)向量ξ通過網(wǎng)絡(luò)前向計(jì)算得到的后驗(yàn)。p(目標(biāo)驗(yàn)證類)和p(冒仿驗(yàn)證類)是從訓(xùn)練集合估計(jì)得到的目標(biāo)驗(yàn)證類的先驗(yàn)和冒仿驗(yàn)證類的先驗(yàn)。p(ξ)與任何模型無關(guān),可以在計(jì)算LLR過程中忽略。首先分析每個(gè)音素模型對(duì)聲紋識(shí)別的區(qū)分能力??紤]到每個(gè)音素模型的訓(xùn)練語音特征較少,為了避免過訓(xùn)練問題,減少了每個(gè)音素相關(guān)模型的訓(xùn)練參數(shù)量。圖2給出了每個(gè)音素相關(guān)模型的等錯(cuò)誤率對(duì)比。從圖2中可以看出,首先,在所有音素相關(guān)模型中,iVector都以較小幅度優(yōu)于GMM-NAP模型。其次,性能最差的輔音“w”的EER數(shù)值是性能最好的元音“an”的EER的五倍左右。這個(gè)實(shí)驗(yàn)結(jié)果對(duì)實(shí)際應(yīng)用具有指導(dǎo)作用,在線系統(tǒng)可以限制推送性能不好的數(shù)字,例如“5[wu]”。通過訓(xùn)練dropout神經(jīng)網(wǎng)絡(luò)后端分類器,對(duì)音素相關(guān)的分?jǐn)?shù)向量進(jìn)行融合輸出。表4給出了音素相關(guān)模型使用不同后端分類器的等錯(cuò)誤率對(duì)比。為了方便比較,這里也給出了對(duì)GMM-NAP和iVector系統(tǒng)的音素相關(guān)分?jǐn)?shù)取平均值的認(rèn)證性能。分?jǐn)?shù)平均公式如下:表4:音素相關(guān)模型使用不同后端分類器的等錯(cuò)誤率對(duì)比從表4可以看出,本發(fā)明所述的基于音素信息顯式利用和神經(jīng)網(wǎng)絡(luò)后端融合的算法可以有效的提升數(shù)字串聲紋認(rèn)證的系統(tǒng)性能。相比于分?jǐn)?shù)平均的結(jié)果,神經(jīng)網(wǎng)絡(luò)后端分類器的等錯(cuò)誤率更低,性能更優(yōu)。與表2的GMM-NAP和iVector結(jié)果對(duì)比,在三種不同注冊/認(rèn)證條件下,音素相關(guān)模型和神經(jīng)網(wǎng)絡(luò)后端分類器的算法均取得了約20%左右的相對(duì)EER下降。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1