專利名稱:一種聲紋識別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)及信息服務(wù)技術(shù)領(lǐng)域,特別涉及通過人類的聲紋信息對身份進(jìn)行鑒別和確認(rèn)的方法。
眾所周知,每個人的指紋都是唯一的,與此類似,每個人的聲紋也具有一定的唯一性,很難找到兩個聲紋完全一樣的人,這就從理論上為可靠的聲紋識別提供了依據(jù)。一般聲紋識別方法包括模型的訓(xùn)練過程(或稱學(xué)習(xí)過程)1和聲紋的識別過程2兩個部分,如
圖1所示。模型訓(xùn)練過程是從聲音波形中提取出聲學(xué)特征矢量(或稱聲學(xué)特征、特征矢量、特征)--這就是特征提取,并把每個人的聲學(xué)特征建立成為一個聲學(xué)模型,稱為聲紋模型,從而形成一個模型庫的過程;而聲紋的識別過程就是將待識別人聲音提取的聲學(xué)特征與模型庫中的聲紋模型進(jìn)行匹配比較,從而得出判決結(jié)果的過程。
聲紋識別方法包括文本相關(guān)的和文本無關(guān)的兩種類型。前者要求在識別過程中說話人必須說預(yù)先約定的句子、詞組、詞或字等特定內(nèi)容;而后者對說話人所說的內(nèi)容沒有任何限制,無論訓(xùn)練還是識別,說話人都可以隨意說任何語言的任何內(nèi)容。顯然,后者難度大,但使用方便,應(yīng)用范圍廣。
一個聲紋識別系統(tǒng)的性能取決于很多因素,但特征提取的好壞和聲學(xué)模型的描述能力的強(qiáng)弱是兩個非常重要的方面。
目前聲紋識別方法中常用的提取聲學(xué)特征的方法包括(1)線性預(yù)測倒譜(LPCC)參數(shù);(2)美化倒譜參數(shù)(MFCC);等等。
而聲學(xué)模型有以下幾種常用的建模方法(1)模板匹配方法采用動態(tài)時間彎折(DTW)算法以對準(zhǔn)訓(xùn)練和識別(測試)特征序列,主要針對詞組固定的應(yīng)用(通常為文本相關(guān)任務(wù))。
(2)最近鄰方法在訓(xùn)練時需要保留所有的聲學(xué)特征矢量;在識別/測試時,對每個矢量都找到訓(xùn)練矢量中最近的K個,并據(jù)此進(jìn)行識別判決。使用這種方法,模型的存儲量和相似度的計(jì)算量都很大。
(3)神經(jīng)網(wǎng)絡(luò)方法有很多種形式,包括多層感知、徑向基函數(shù)(RBF)等。它通過顯式的訓(xùn)練去擴(kuò)大說話人模型和其他模型之間的差異,以試圖達(dá)到最大可分性。其缺點(diǎn)是訓(xùn)練量很大,訓(xùn)練收斂速度慢,且模型的可推廣性不好。
(4)隱式馬爾可夫模型(Hidden Markov Model,HMM)方法它假定人的聲音是由兩個過程控制,一個是狀態(tài)轉(zhuǎn)移過程,一個是聲學(xué)特征矢量輸出過程。該方法是刻劃人的發(fā)音機(jī)理較好的數(shù)學(xué)模型。通常,聲學(xué)特征矢量輸出過程用混合高斯分布去刻劃。
(5)高斯混合模型(Gaussian Mixture Model,GMM)方法高斯混合模型實(shí)際上是單狀態(tài)的隱式馬爾可夫模型。假定聲學(xué)特征矢量序列為X={X1,…,XT},那么識別時需計(jì)算的觀察特征序列相對于說話人模型M的對數(shù)似然分(簡稱似然分、匹配得分、得分)用下式計(jì)算S(X‾|M)=logP(X‾|M)=1TΣt=1TlogP(Xt|M).......(1)]]>以上諸多常用方法中,以隱式馬爾可夫模型方法和高斯混合模型方法的效果為最好。但它們的總體性能并不令人滿意,并且在文本無關(guān)的聲紋識別中也不能達(dá)到最佳效果。另外,這些方法也通常需要較長的語音才能對說話人給出準(zhǔn)確的鑒別或確認(rèn)。
聲紋的識別方法包括兩種類型,即聲紋鑒別或辨認(rèn)(Voiceprint Identification)和聲紋確認(rèn)(Voiceprint Verification)。其中,聲紋確認(rèn)用以確認(rèn)某段語音是否真正就是宣稱的某個特定的人所說的,屬于1-1判決問題;該類型如圖2(a)所示,其步驟包括用經(jīng)過前端處理的待確認(rèn)語音的特征矢量序列與宣稱說話人模型匹配得分減去該特征矢量序列與宣稱說話人相應(yīng)的背景模型的匹配得分,得到結(jié)果Λ,然后將Λ與一個預(yù)先設(shè)定的閾值θ進(jìn)行判決,如果Λ>θ,則接受該確認(rèn)結(jié)果,即認(rèn)為該待確認(rèn)語音是宣稱說話人說的;如果Λ<θ,則拒識該確認(rèn)結(jié)果,即認(rèn)為該待確認(rèn)語音不是宣稱說話人說的。這里所說的拒識就是把錯誤的結(jié)果拒絕掉,因此聲紋確認(rèn)也就是聲紋拒識判決。
聲紋鑒別用以判斷某段語音是若干人中的哪一位所說的,屬于N-1選擇問題;其中聲紋鑒別又分為閉集和開集兩種情形。閉集聲紋鑒別,如圖2(b)所示,是把經(jīng)過前端處理的待鑒別語音的特征矢量序列與模型庫中的所有說話人模型逐一進(jìn)行匹配比較,求出最大(MAX)的匹配得分S及相應(yīng)的說話人編號,即認(rèn)為該段待鑒別語音就是匹配得分最大的那個說話人所說,閉集聲紋鑒別不檢查說該段語音的說話人是否真的就是聲紋模型庫中的這個人。而開集聲紋鑒別則在完成閉集聲紋鑒別得到聲紋模型庫中的一個說話人后,需要進(jìn)一步利用聲紋確認(rèn)方法判決應(yīng)該接受還是拒識該鑒別結(jié)果。
在實(shí)際應(yīng)用中,相對于閉集聲紋鑒別,聲紋確認(rèn)和開集聲紋鑒別有更大的需求,而在這兩個方面的應(yīng)用中,拒識問題是關(guān)鍵。為了進(jìn)行拒識,通常需要背景(Background)模型或稱假冒者(Impostor)模型。背景模型的構(gòu)建有兩種方式,一是任何一個說話人M都有一個或一組相應(yīng)的背景模型Bkg(M);二是使用一個與說話人無關(guān)的通用背景模型UBM(Universal Background Model),即對任意說話人M,其背景模型都是Bkg(M)=UMB。在此基礎(chǔ)上,當(dāng)有一個特征序列X={X1,…,XT}時,可以求出它相對于說話人M的似然分?jǐn)?shù)Λ(X|M)為Λ(X‾|M)=logS(X‾|M)-logS(X‾|Bkg(M))]]>=1TΣt=1T[logP(Xt|M)-logP(Xt|Bkg(M))].......(2)]]>其中P(X|M)按標(biāo)準(zhǔn)的混合高斯密度計(jì)算公式進(jìn)行計(jì)算。然后,根據(jù)似然分?jǐn)?shù)Λ(X|M)和一個預(yù)先設(shè)定的閾值θ之間的關(guān)系可以確定這段語音是說話人M的聲音(Λ(X|M)>θ),或不是說話人M的聲音(Λ(X|M)<θ)。很明顯,閾值θ的設(shè)定對拒識非常關(guān)鍵,而由于它通常是預(yù)先設(shè)定的,因而有時不能適應(yīng)實(shí)際應(yīng)用的要求。
現(xiàn)有拒識方法的主要問題在于,拒識閾值是固定的,因而給閾值的設(shè)定和聲紋識別系統(tǒng)在不同硬件和軟件環(huán)境下的應(yīng)用帶來困難。
本發(fā)明提出一種聲紋識別方法,包括模型的訓(xùn)練方法和聲紋的識別方法兩個部分,該模型訓(xùn)練方法的步驟為1)從每個說話人的聲音波形中提取聲學(xué)特征,形成該說話人的特征矢量序列;2)根據(jù)每個說話人的特征矢量序列分別為每個人構(gòu)建一個聲紋模型,把各個人的聲紋模型放在一起組成一個模型庫;該聲紋的識別方法為3)從待識別的人的聲音中提取聲學(xué)特征形成待識別的特征矢量序列;4)該待識別的特征矢量序列與該模型庫中的聲紋模型逐一進(jìn)行匹配比較,得到特征矢量序列與每個說話人聲紋模型的匹配得分(也稱為對數(shù)似然得分,或似然得分,或得分),進(jìn)行判決;5)根據(jù)聲紋的識別方法的類型(閉集聲紋鑒別、開集聲紋鑒別和聲紋確認(rèn)),在需要的時候進(jìn)行拒識判決,從而得出結(jié)果;其特征在于所說的步驟2)中為每個說話人構(gòu)建聲紋模型的方法是對所說的說話人的特征矢量序列采用傳統(tǒng)的LBG算法進(jìn)行聚類,得到K個高斯分布的混合,其中第k個高斯分布均值矢量為μk、對角方差矩陣為∑k;記LBG聚類時第k個高斯分布所涵蓋的特征矢量數(shù)目占整個特征矢量序列中矢量總數(shù)的百分比為wk,則該說話人的聲紋模型為M={μk,∑k,wk|1≤k≤K};
所說的第4)步中的待識別的特征矢量序列X={X1,…,XT}與說話人聲紋模型M={μk,∑k,wk|1≤k≤K}的匹配得分(對數(shù)似然得分)S(X|M)是利用基于局部最大模板匹配的概率計(jì)算方法得到,即S(X‾|M)=1TΣt=1Tmax1≤k≤Kln(wk·p(Xt|μk,Σk))........(3)]]>。
本發(fā)明具有以下特征1)聲紋識別的性能與所說的文本和所用的語言無關(guān);2)聲紋鑒別可以工作在開集識別模式,即可對假冒說話人進(jìn)行拒識;3)能夠以無監(jiān)督的方式對開集識別的拒識閾值進(jìn)行可靠的自動估計(jì);4)對語音的長度沒有特殊的要求,只需要很短的幾秒語音,就可以進(jìn)行可靠的訓(xùn)練和識別;5)具有很高的識別精度說話人辨認(rèn)和確認(rèn)的正確率不小于98%;聲紋拒識的錯誤接受率和錯誤拒絕率均低于1%;6)模型存儲所需空間小每個說話人的聲紋模型存儲空間均小于5KB;7)聲紋識別的操作點(diǎn)閾值調(diào)整方便根據(jù)“準(zhǔn)確率+不確定率+錯誤率=100%”,可按不同的應(yīng)用需求調(diào)整操作點(diǎn)閾值,使最終準(zhǔn)確率(接受的首選正確率)達(dá)到最高或使錯誤率(錯誤接受率或錯誤拒絕率)降到最低。
本發(fā)明可用于在電子商務(wù)、自動信息檢索、個性化服務(wù)等,包括保安(包括門禁、加密信用卡等)、財經(jīng)(包括銀行自動轉(zhuǎn)帳、查詢及出納等)、國防(包括電話監(jiān)聽追蹤、敵我指戰(zhàn)員身份鑒別等)、公安司法(包括刑偵追蹤、取證、身份鑒別等)等領(lǐng)域。
圖2是已有聲紋的識別方法的兩個類型聲紋鑒別和聲紋確認(rèn)方法框圖。
圖3是本發(fā)明聲紋識別方法的實(shí)施例總體框圖。
圖4是本發(fā)明方法的拒識訓(xùn)練方法實(shí)施例框圖。
3)構(gòu)建該說話人的聲紋模型對說話人的特征矢量序列采用傳統(tǒng)的LBG算法進(jìn)行聚類,得到K個高斯分布的混合,其中第k個高斯分布均值矢量為μk、對角方差矩陣為∑k;記LBG聚類時第k個高斯分布所涵蓋的特征矢量數(shù)目占整個特征矢量序列中矢量總數(shù)的百分比為wk,則該說話人的聲紋模型為M={μk,∑k,wk|1≤k≤K},并存入聲紋模型庫;4)如果還有說話人沒有訓(xùn)練,則轉(zhuǎn)步驟1)進(jìn)行下一個說話人的訓(xùn)練;否則訓(xùn)練過程結(jié)束。
本實(shí)施例的聲紋鑒別方法如圖3(b)所示,具體包括以下步驟1)采集待鑒別說話人的聲音數(shù)據(jù),對其原始語音波形數(shù)據(jù)進(jìn)行分析,拋除其中的各個靜音段;2)以與聲紋模型訓(xùn)練時相同的幀寬和幀移,對每一幀提取16維的線性預(yù)測倒譜參數(shù)(LPCC),并計(jì)算其自回歸分析參數(shù)矢量,組成待識別的32維特征矢量;所有幀的待識別的特征矢量組成待識別的特征矢量序列X={X1,…,XT};3)從聲紋模型庫中取一個說話人的聲紋模型M;4)利用基于局部最大模板匹配的概率計(jì)算方法得到待識別的特征矢量序列X={X1,…,XT}與說話人聲紋模型M={μk,∑k,wk|1≤k≤K}的匹配得分(對數(shù)似然得分)S(X|M),即S(X‾|M)=1TΣt=1Tmax1≤k≤Kln(wk·p(Xt|μk,Σk))......(3)]]>并記錄下來;5)如果還有說話人的匹配得分沒有計(jì)算,則轉(zhuǎn)步驟3);6)取出待識別的特征矢量與所有說話人的聲紋模型中匹配得分最大的分?jǐn)?shù)Smax及相應(yīng)的說話人Mmax作為識別結(jié)果候選;7)如果是閉集聲紋鑒別,則Mmax就是鑒別結(jié)果;否則以Mmax作為宣稱說話人、以通用背景模型作為背景模型,利用聲紋確認(rèn)技術(shù)對結(jié)果進(jìn)行拒識判決;8)輸出結(jié)果,聲紋鑒別過程結(jié)束。
本實(shí)施例的聲紋確認(rèn)方法如圖3(c)所示,具體包括以下步驟1)采集待確認(rèn)說話人的聲音數(shù)據(jù),對其原始語音波形數(shù)據(jù)進(jìn)行分析,拋除其中的各個靜音段;
2)以與聲紋模型訓(xùn)練時相同的幀寬和幀移,對每一幀提取32的線性預(yù)測倒譜參數(shù)(LPCC),并計(jì)算其自回歸分析參數(shù)矢量,組成32維的特征矢量;所有幀的特征矢量組成特征矢量序列;3)取出宣稱說話人的聲紋模型及其背景模型;4)進(jìn)行拒識判決;5)輸出結(jié)果,聲紋確認(rèn)過程結(jié)束。
本發(fā)明的拒識判決方法實(shí)施例,如圖4(a)-4(d)所示,可包括拒識的訓(xùn)練和拒識的判決兩個部分,該拒識訓(xùn)練,包括以下步驟1)訓(xùn)練背景模型;2)訓(xùn)練拒識閾值;3)訓(xùn)練聲紋模型,具體包括(1)取一個說話人的聲音數(shù)據(jù),計(jì)算其有效的特征矢量序列;(2)訓(xùn)練該說話人的聲紋模型;(3)為該說話人選擇Q個背景模型;(4)將該說話人的聲紋模型以及與Q個背景聲紋模型相關(guān)的參數(shù)存入聲紋模型庫;(5)重復(fù)步驟(1)到(4),直到所有說話人的聲紋模型訓(xùn)練完成。
上述的訓(xùn)練背景模型的實(shí)施例,如圖4(a)所示,必須在首次使用聲紋識別前進(jìn)行,具體包括收集N個背景說話人的聲音數(shù)據(jù),并按聲紋模型的訓(xùn)練方法分別訓(xùn)練出背景說話人的聲紋模型,共N個,它們稱為背景聲紋模型,并存入背景聲紋模型庫。
上述的訓(xùn)練拒識閾值的實(shí)施例,如圖4(b)所示,具體包括以下步驟(1)取第n個背景模型Mn={μnk,∑nk,wnk|1≤k≤K}及其相應(yīng)的特征矢量序列X‾n={Xn1,...,XnTn},]]>按公式(3)計(jì)算它們之間的匹配得分STOP(n)=S(X‾n|Mn);]]>(2)計(jì)算高斯分布臨界區(qū)落入的待識別聲音的特征矢量的百分比CAPCAP(X‾n|Mn)=1KTnΣt=1Tn(Σk=1K(12(Xnt-μnk)TΣnk-1(Xnt-μnk))<TSH21)....(4)]]>其中TSH是用以表示混合高斯密度臨界區(qū)域大小的閾值(通常TSH可以取1.0,值越小則臨界區(qū)域越小,控制也越嚴(yán)格;(3)按公式(3)分別計(jì)算該特征矢量序列Xn與除Mn之外的各個背景模型的匹配得分,按得分從大到小的順序取前Q個背景模型,其得分為 (4)重復(fù)步驟(1)~(3),直到所有的n=1~N個背景模型的上述值均計(jì)算完畢;(5)求出所有背景模型中最小的 值,乘上一個小于1.0的系數(shù),作為似然得分的閾值;(6)求出所有背景模型中最小的CAP值,乘上一個小于1.0的系數(shù),作為CAP的閾值;(7)求出所有背景模型中最小的|STOP(n)-SInl|]]>值,乘上一個小于1.0的系數(shù),作為似然得分差值的閾值;(8)由公式(5)計(jì)算出得分總畸變值的閾值,其中β是大于1.0的系數(shù)TSHDIV=max1≤q≤Q-1(1NΣn=1N(SInq-SIn,q+1))·β.....(5)]]>上述閾值估算過程中所乘的系數(shù)不是固定的,均可以隨“操作點(diǎn)”閾值的調(diào)整而浮動,以滿足具體應(yīng)用的要求。
上述的選擇Q個背景模型的實(shí)施例,如圖4(c)所示。該選擇過程用于背景模型訓(xùn)練后對說話人進(jìn)行聲紋訓(xùn)練的過程中,具體包括以下步驟(1)當(dāng)用該說話人的特征矢量序列X={X1,…,XT}訓(xùn)練出其聲紋模型M={μk,∑k,wk|1≤k≤K}后,利用公式(3)計(jì)算出X與M的匹配得分STOP=S(X|M);(2)用公式(3)計(jì)算出X與N個背景模型的匹配得分,按從大到小的順序選出匹配得分最大的前Q名背景模型的分?jǐn)?shù) 及其索引I1,…,IO;(3)將STOP、 及I1,…,IO存入該說話人聲紋模型中。
上述的拒識的判決的實(shí)施例,如圖4(d)所示。該判決過程用于聲紋確認(rèn)或開集聲紋鑒別中,對待識別聲音的特征矢量序列X={X1,…,XT}和目標(biāo)說話人M={μk,∑k,wk|1≤k≤K}進(jìn)行一致性判決,其中目標(biāo)說話人M可能是聲紋鑒別的結(jié)果候選或聲紋確認(rèn)中的宣稱說話人。具體包括以下步驟(1)按公式(3)計(jì)算特征矢量序列X與目標(biāo)說話人的聲紋模型M的匹配似然得分為RTOP;(2)按公式(3)分別計(jì)算X與M的Q個背景模型的匹配得分 并按公式(6)計(jì)算總畸變值DIV(X‾|M)=Σq=1Q||SIq-RIq|-|STOP-RTOP||.......(6)]]>(3)按公式(4)計(jì)算高斯分布臨界區(qū)落入的待識別聲音數(shù)據(jù)的特征矢量百分比,即CAP分?jǐn)?shù)(4)進(jìn)行拒識判決
g)若似然得分RTOP低于似然得分閾值則拒絕識別結(jié)果;h)若得分CAP(X|M)低于CAP閾值則拒絕識別結(jié)果;i)若RTOP和 一起按從大到小排序后,RTOP的排名名次太靠后(如排名低于第2名)則拒絕識別結(jié)果;j)若RTOP與 中低于它的最大得分的差值的絕對值小于得分差值閾值則拒絕識別結(jié)果;k)若總畸變值DIV(X|M)大于總畸變值閾值則拒絕識別結(jié)果;l)以上均沒有拒絕時則接受識別結(jié)果。
權(quán)利要求
1.一種聲紋識別方法,包括模型的訓(xùn)練方法和聲紋的識別方法兩個部分,該模型訓(xùn)練方法為1)從每個說話人的聲音波形中提取聲學(xué)特征,形成該說話人的特征矢量序列;2)根據(jù)每個說話人的特征矢量序列分別為每個人構(gòu)建一個聲紋模型,把各個人的聲紋模型放在一起組成一個模型庫;該聲紋的識別方法為3)從待識別的人的聲音中提取聲學(xué)特征形成待識別的特征矢量序列;4)將該待識別的特征矢量序列與該模型庫中的聲紋模型逐一進(jìn)行匹配比較,得到特征矢量序列與每個說話人聲紋模型的匹配得分(也稱為對數(shù)似然得分,或似然得分,或得分),進(jìn)行判決;5)再根據(jù)聲紋的識別方法的類型(閉集聲紋鑒別、開集聲紋鑒別和聲紋確認(rèn)),在需要的時候進(jìn)行拒識判決,從而得出結(jié)果;其特征在于所說的步驟2)中為每個說話人構(gòu)建聲紋模型的方法是對所說的說話人的特征矢量序列采用傳統(tǒng)的LBG算法進(jìn)行聚類,得到K個高斯分布的混合,其中第k個高斯分布均值矢量為μk、對角方差矩陣為∑k;記LBG聚類時第k個高斯分布所涵蓋的特征矢量數(shù)目占整個特征矢量序列中矢量總數(shù)的百分比為wk,則該說話人的聲紋模型為M={μk,∑k,wk|1≤k≤K};所說的第4)步中的待識別的特征矢量序列X={X1,…,XT}與說話人聲紋模型M={μk,∑k,wk|1≤k≤K}的匹配得分(對數(shù)似然得分)S(X|M)是利用基于局部最大模板匹配的概率計(jì)算方法得到,即S(X‾|M)=1TΣt=1Tmax1≤k≤Lln(wk·p(Xt|μk,Σk)).......(3)]]>。
2.如權(quán)利要求1所述的聲紋識別方法,其特征在于,所說的拒識判決方法,包括拒識的訓(xùn)練和拒識的判決兩個部分,該拒識訓(xùn)練包括以下步驟1)訓(xùn)練背景模型;2)訓(xùn)練拒識閾值;3)訓(xùn)練聲紋模型(1)取一個說話人的聲音數(shù)據(jù),計(jì)算其有效的特征矢量序列;(2)訓(xùn)練該說話人的聲紋模型;(3)為該說話人選擇Q個背景模型;(4)將該說話人的聲紋模型以及與Q個背景聲紋模型相關(guān)的參數(shù)存入聲紋模型庫;(5)重復(fù)步驟(1)到(4),直到所有說話人的聲紋模型訓(xùn)練完成。
3.如權(quán)利要求2所述的聲紋識別方法,其特征在于,所說的訓(xùn)練背景模型具體包括收集N個背景說話人的聲音數(shù)據(jù),并按聲紋模型的訓(xùn)練方法分別訓(xùn)練出背景說話人的聲紋模型,共N個,存入背景聲紋模型庫。
4.如權(quán)利要求2所述的聲紋識別方法,其特征在于,所說的訓(xùn)練拒識閾值具體包括以下步驟(1)取第n個背景模型Mn={μnk,∑nk,wnk|1≤k≤K}及其相應(yīng)的特征矢量序列X‾n={Xn1,...,XnTn},]]>按所說的公式(3)計(jì)算它們之間的匹配得分STOP(n)=S(X‾n|Mn);]]>(2)計(jì)算高斯分布臨界區(qū)落入的待識別聲音的特征矢量的百分比CAPCAP(X‾n|Mn)=1KTnΣt=1Tn(Σk=1K(12(Xnt-μnk)TΣnk-1(Xnt-μnk))<TSH21)...(4)]]>其中TSH是用以表示混合高斯密度臨界區(qū)域大小的閾值(通常TSH可以取1.0;(3)按所說的公式(3)分別計(jì)算該特征矢量序列Xn與除Mn之外的各個背景模型的匹配得分,按得分從大到小的順序取前Q個背景模型,其得分為 (4)重復(fù)步驟(1)~(3),直到所有的n=1~N個背景模型的上述值均計(jì)算完畢;(5)求出所有背景模型中最小的 值,乘上一個小于1.0的系數(shù),作為似然得分的閾值;(6)求出所有背景模型中最小的CAP值,乘上一個小于1.0的系數(shù),作為CAP的閾值;(7)求出所有背景模型中最小的|STOP(n)-SInl|]]>值,乘上一個小于1.0的系數(shù),作為似然得分差值的閾值;(8)計(jì)算出得分總畸變值的閾值,其中β是大于1.0的系數(shù)TSHDIV=max1≤q≤Q-1(1NΣn=1N(SInq-SIn,q+1))·β....(5)]]>
5.如權(quán)利要求2所述的聲紋識別方法,其特征在于,所說的選擇Q個背景模型具體包括以下步驟(1)當(dāng)用該說話人的特征矢量序列X={X1,…,XT}訓(xùn)練出其聲紋模型M={μk,∑k,wk|1≤k≤K}后,利用所說的公式(3)計(jì)算出X與M的匹配得分STOP=S(X|M);(2)用所說的公式(3)計(jì)算出X與N個背景模型的匹配得分,按從大到小的順序選出匹配得分最大的前Q名背景模型的分?jǐn)?shù) 及其索引I1,…,IQ;(3)將STOP、 及I1,…,IQ存入該說話人聲紋模型中。
6.如權(quán)利要求2所述的聲紋識別方法,其特征在于,所說的拒識的判決具體包括以下步驟(1)按所說的公式(3)計(jì)算特征矢量序列X與目標(biāo)說話人的聲紋模型M的匹配似然得分為RTOP;(2)按所說的公式(3)分別計(jì)算X與M的Q個背景模型的匹配得分 ,并按公式(6)計(jì)算總畸變值DIV(X‾|M)=Σq=1Q||SIq-RIq|-|STOP-RTOP||...........(6)]]>(3)按所說的公式(4)計(jì)算高斯分布臨界區(qū)落入的待識別聲音數(shù)據(jù)的特征矢量百分比,即CAP分?jǐn)?shù)(4)進(jìn)行拒識判決a)若似然得分RTOP低于似然得分閾值則拒絕識別結(jié)果;b)若得分CAP(X|M)低于CAP閾值則拒絕識別結(jié)果;c)若RTOP和 一起按從大到小排序后,如RTOP的排名名次低于第2名,則拒絕識別結(jié)果;d)若RTOP與 中低于它的最大得分的差值的絕對值小于得分差值閾值則拒絕識別結(jié)果;e)若總畸變值DIV(X|M)大于總畸變值閾值則拒絕識別結(jié)果;f)以上均沒有拒絕時則接受識別結(jié)果。
全文摘要
本發(fā)明屬于計(jì)算機(jī)及信息服務(wù)技術(shù)領(lǐng)域,特別涉及通過人類的聲紋信息對身份進(jìn)行鑒別和確認(rèn)的方法。包括模型的訓(xùn)練方法和聲紋的識別方法兩個部分,其特點(diǎn)為每個說話人構(gòu)建聲紋模型為M={μ
文檔編號G06G7/00GK1447278SQ0214938
公開日2003年10月8日 申請日期2002年11月15日 優(yōu)先權(quán)日2002年11月15日
發(fā)明者鄭方, 宋戰(zhàn)江 申請人:鄭方, 宋戰(zhàn)江