專利名稱:評價語音的分辨力、說話人認(rèn)證的注冊和驗證方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù),具體地涉及說話人認(rèn)證(speakerauthentification)以及評價語音的分辨力的技術(shù)。
背景技術(shù):
利用每個人說話時的發(fā)音特點可以識別出不同的說話人,從而可以進(jìn)行說話人的認(rèn)證。在K.Yu,J.Mason,J.Oglesby發(fā)表的文章“Speakerrecognition using hidden Markov models,dynamic time warping andvector quantisation”(Vision,Image and Signal Processing,IEEProceedings,Vol.142,Oct.1995,pp.313-18)中介紹了常見的三種說話人識別引擎技術(shù)HMM,DTW和VQ。
通常,一個說話人認(rèn)證系統(tǒng)包括注冊(enrollment)和驗證(evaluation)兩個部分。以往采用上述說話人識別技術(shù),要實現(xiàn)一個高可靠性的說話人認(rèn)證系統(tǒng)(例如基于HMM的系統(tǒng)),注冊過程通常是半自動的,它由開發(fā)商根據(jù)用戶提供的語音數(shù)據(jù)生成一個說話人模型并由實驗得出一個判決閾值。訓(xùn)練模型所需的語音數(shù)據(jù)可能很多甚至?xí)枰蛻粢酝獾钠渌死首x該密碼的語音數(shù)據(jù)用于訓(xùn)練背景模型。因此,注冊要花費很多時間,而且沒有開發(fā)商的參與用戶不可能獨立地自由更改密碼。這樣,用戶在使用這樣的系統(tǒng)時非常不方便。
另一方面,一些存在于密碼中的音素或音節(jié)可能對說話人的分辨能力很弱。然而,目前絕大多數(shù)的系統(tǒng)都沒有在注冊時檢查密碼有效性的功能。
發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供了說話人認(rèn)證的注冊方法和裝置、說話人認(rèn)證的驗證方法和裝置、評價語音的分辨力的方法、以及說話人認(rèn)證系統(tǒng)。
根據(jù)本發(fā)明的一個方面,提供了一種說話人認(rèn)證的注冊方法,包括輸入說話人說出的包含密碼的語音;根據(jù)上述輸入的語音,獲得音素序列;根據(jù)音素分辨力表,評價該音素序列的分辨力,其中,上述音素分辨力表包含每個音素的分辨力;為該語音設(shè)定分辨閾值;以及為該語音生成語音模板。
根據(jù)本發(fā)明的另一個方面,提供了一種說話人認(rèn)證的驗證方法,包括輸入語音;以及根據(jù)語音模板,判斷該輸入的語音是否為說話人本人說出的注冊密碼語音,其中,上述語音模板是利用前面所述的說話人認(rèn)證的注冊方法生成的語音模板。
根據(jù)本發(fā)明的另一個方面,提供了一種評價語音的分辨力的方法,包括根據(jù)上述語音,獲得音素序列;以及根據(jù)音素分辨力表,評價該音素序列的分辨力,其中,上述音素分辨力表包含每個音素的分辨力。
根據(jù)本發(fā)明的另一個方面,提供了一種說話人認(rèn)證的注冊裝置,包括語音輸入單元(speech input unit),用于輸入說話人說出的包含密碼的語音;音素序列獲得單元(phoneme sequence obtaining unit),其根據(jù)上述輸入的語音,獲得音素序列;分辨力評價單元(discriminating abilityestimating unit),其根據(jù)音素分辨力表,評價該音素序列的分辨力,其中,上述音素分辨力表包含每個音素的分辨力;閾值設(shè)定單元(thresholdsetting unit),用于為該語音設(shè)定分辨閾值;以及模板生成單元(templategenerator),用于為該語音生成語音模板。
根據(jù)本發(fā)明的另一個方面,提供了一種說話人認(rèn)證的驗證裝置,包括語音輸入單元(speech input unit),用于輸入語音;聲學(xué)特征提取單元(acoustic feature extractor),用于從上述輸入的語音提取聲學(xué)特征;以及匹配距離計算單元(matching distance calculator),用于計算上述提取出的聲學(xué)特征與相應(yīng)的語音模板的DTW匹配距離,其中,上述語音模板是利用前面所述的說話人認(rèn)證的注冊方法生成的語音模板;通過比較上述計算出的DTW匹配距離和預(yù)先定義的分辨閾值,判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
根據(jù)本發(fā)明的另一個方面,提供了一種說話人認(rèn)證系統(tǒng),包括前面所述的說話人認(rèn)證的注冊裝置;以及前面所述的說話人認(rèn)證的驗證裝置。
相信通過以下結(jié)合附圖對本發(fā)明具體實施方式
的說明,能夠使人們更好地了解本發(fā)明上述的特點、優(yōu)點和目的。
圖1是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的注冊方法的流程圖;圖2是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的驗證方法的流程圖;圖3是根據(jù)本發(fā)明一個實施例的評價語音的分辨力的方法的流程圖;圖4是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的注冊裝置的方框圖;圖5是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的驗證裝置的方框圖;圖6是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證系統(tǒng)的方框圖;以及圖7是用于說明本發(fā)明的實施例的分辨力評價和閾值設(shè)定的曲線圖。
具體實施例方式
下面就結(jié)合附圖對本發(fā)明的各個優(yōu)選實施例進(jìn)行詳細(xì)的說明。
圖1是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的注冊(enrollment)方法的流程圖。如圖1所示,首先在步驟101,輸入由說話人說出的包含密碼的語音。在此,本實施例不需要如以往的技術(shù)那樣事先由系統(tǒng)管理員或開發(fā)人員與說話人(用戶)共同商定密碼的內(nèi)容,而是可以由用戶自行決定密碼的內(nèi)容,然后說出即可。
接著,在步驟105,從上述語音中提取聲學(xué)特征。具體地,在本實施例中采用MFCC(Mel Frequency Cepstrum Coefficient,Mel頻率倒譜系數(shù))的方式來表示語音的聲學(xué)特征。但是,應(yīng)當(dāng)指出,本發(fā)明對此并沒有特別的限制,也可以采用已知的和未來的其它方式來表示語音的聲學(xué)特征,例如,LPCC(Linear Predictive Cepstrum Coefficient,線性預(yù)測倒譜系數(shù))或者其它基于能量、基音頻率或小波分析等得到的各種系數(shù)等,只要是能夠表現(xiàn)說話人的個人語音特點即可。
接著,在步驟110,根據(jù)提取出的聲學(xué)特征,解碼獲得對應(yīng)的音素序列。具體地,在本實施例中,采用HMM(Hidden Markov Model,隱馬爾可夫模型)解碼的方式。但是,應(yīng)當(dāng)指出,本發(fā)明對此并沒有特別的限制,也可以采用已知的和未來的其它方式來獲得音素序列,例如,基于ANN(Artificial Neural Net,人工神經(jīng)網(wǎng)絡(luò))模型等,從搜索算法上說,可以采用維特比(Viterbi)、A*等各種解碼器算法;只要能夠根據(jù)聲學(xué)特征獲得相應(yīng)的音素序列即可。
接著,在步驟115,根據(jù)音素分辨力表,評價該音素序列的分辨力。其中,上述音素分辨力表包含每個音素的分辨力。具體地,在本實施例中,音素分辨力表的形式如以下表1所示表1,音素分辨力表的例子
表1是以中文普通話為例,列出了每一個音素(組成語音的最小單元),即,21個聲母,38個韻母的分辨力。對于其它語種,音素的構(gòu)成會有所區(qū)別,例如,英語包括輔音和元音等,但是,可以理解,本發(fā)明同樣可以適用于這些其它的語種。
本實施例的音素分辨力表,是通過事先統(tǒng)計準(zhǔn)備的。具體地,首先錄制一定數(shù)量(例如,50人)的說話人對各個音素的多次發(fā)音。然后,針對每個音素,以“a”為例,將所有說話人“a”的語音數(shù)據(jù)提取聲學(xué)特征,每兩個之間做DTW(Dynamic Time Warping,動態(tài)時間規(guī)整)匹配。將匹配的得分(距離)分為兩組匹配的語音數(shù)據(jù)來自同一說話人的得分歸入“本人”組;來自不同說話人的得分歸入“他人”組。兩組數(shù)據(jù)的分布曲線的重合關(guān)系可以表征該音素對不同說話人的分辨力。我們知道,兩組數(shù)據(jù)都屬于t分布。由于數(shù)據(jù)量較大,可以近似認(rèn)為它們服從正態(tài)分布。因此,只用記錄兩組得分的均值和方差就可以保留大致全部的分布信息。如表1所示,在音素分辨力表中,與每個音素相對應(yīng)的μc、σc2分別為本人組的均值和方差,μi、σi2分別為他人組的均值和方差。
這樣,有了音素分辨力表,就可以計算一個音素序列(一段包含文本密碼的語音)的分辨力。由于DTW匹配的得分是距離的概念,那么一個音素序列的匹配距離(得分)可以看成它所包含的所有音素的匹配距離的和。既然已知每個音素的兩組(本人組和他人組)匹配距離分別服從N(μcn,σcn2)和N(μin,σin2),那么整個音素序列的兩組匹配距離應(yīng)該服從N(Σnμcn,Σnσcn2)]]>和N(Σnμin,Σnσin2)。]]>因此,有了音素分辨力表,我們就可以估計出任何音素序列的匹配距離的兩組(本人組和他人組)分布。以“zhong guo”為例,該音素序列的兩組分布的參數(shù)如下式所示μ(zhongguo)=μ(zh)+μ(ong)+μ(g)+μ(u)+μ(o) (1)σ2(zhongguo)=σ2(zh)+σ2(ong)+σ2(g)+σ2(u)+σ2(o)(2)另外,基于相同原理,對于難以單獨發(fā)音的音素,例如,聲母或輔音等,可以結(jié)合已知的音素組成某個容易發(fā)音的音節(jié)來錄制語音進(jìn)行統(tǒng)計。然后通過簡單的減法計算就可以得到該音素的統(tǒng)計數(shù)據(jù),如下式所示μ(f)=μ(fa)-μ(a) (3)σ2(f)=σ2(fa)-σ2(a) (4)另外,根據(jù)本發(fā)明的一個優(yōu)選實施例,在根據(jù)音素序列計算密碼文本的分布參數(shù)時還可以考慮使用密碼文本中各音素的時長信息(即對應(yīng)的特征向量個數(shù)λn)進(jìn)行加權(quán)。例如,上述式(1)(2)可變?yōu)?amp;mu;(zhongguo)=λ(zh)μ(zh)+λ(ong)μ(ong)+λ(g)μ(g)+λ(u)μ(u)+λ(o)μ(o)λ(zh)+λ(ong)+λ(g)+λ(u)+λ(o)---(5)]]>σ2(zhongguo)=λ(zh)σ2(zh)+λ(ong)σ2(ong)+λ(g)σ2(g)+λ(u)σ2(u)+λ(o)σ2(o)λ(zh)+λ(ong)+λ(g)+λ(u)+λ(o)---(6)]]>接著,在步驟120,判斷上述音素序列的分辨力是否足夠。圖7是用于說明本發(fā)明的實施例的分辨力評價和閾值設(shè)定的曲線圖。如圖7所示,通過前面的步驟,可以得到該音素序列的本人組和他人組的分布參數(shù)(分布曲線)。根據(jù)本實施例,有以下3個方法來評價該密碼的分辨力a)計算兩個分布重合區(qū)域(圖7中陰影區(qū)域)的面積,如果這個面積大于設(shè)定的閾值則判定該密碼分辨力弱。
b)計算等誤識率(EER,Equal Error Rate),如果EER大于設(shè)定的閾值則判定該密碼分辨力弱。等誤識率(EER)是指當(dāng)錯誤接受率(FAR,F(xiàn)alse Accept Rate)和錯誤拒絕率(FRR,F(xiàn)alse Reject Rate)相等時的誤識率,即,在圖7中當(dāng)由閾值將陰影區(qū)域分割為左右兩個部分并且兩個部分的面積相等時,任意一邊的陰影部分的面積。
c)計算錯誤接受率(FAR)在某個值(如0.1%)時對應(yīng)的錯誤拒絕率(FRR),如果此時的錯誤拒絕率(FRR)大于設(shè)定的閾值則判定該密碼分辨力弱。
如果步驟120的判斷為分辨力不夠,則進(jìn)行步驟125,提示用戶需要更改密碼以提高分辨力,然后返回步驟101,用戶重新輸入密碼語音。如果步驟120的判斷為分辨力足夠,則進(jìn)行步驟130。
在步驟130,為該語音設(shè)定分辨閾值。與評價分辨力類似,如圖7所示,在本實施例中,可以采用以下3種方法來估計最佳分辨閾值a)將兩條分布曲線的交叉點作為閾值,即,錯誤接受率和錯誤拒絕率的和最小處。
b)將等誤識率對應(yīng)的閾值作為閾值。
c)將錯誤接受率在某個值(如0.1%)時對應(yīng)的閾值作為閾值。
接著,在步驟135,為該語音生成語音模板。具體地,在本實施中,語音模板包含從該語音提取出的聲學(xué)特征和為該語音設(shè)定的分辨閾值。
接著,在步驟140,判斷是否需要再次確認(rèn)語音密碼,如果否,則處理過程在步驟170結(jié)束,如果是,則進(jìn)行步驟145,由說話人再次輸入包含密碼的語音。
接著,在步驟150,根據(jù)再次輸入的語音獲得對應(yīng)的音素序列。具體地,本步驟與前面所述的步驟105和110相同,在此不再重復(fù)說明。
接著,在步驟155,判斷本次輸入的語音對應(yīng)的音素序列是否與前次輸入的語音的音素序列一致,如果不一致,則提示用戶語音中包含的密碼不一致并返回步驟101,重新輸入密碼語音;如果一致,則進(jìn)行步驟160。
在步驟160,對前次生成的語音模板中的聲學(xué)特征和本次提取的聲學(xué)特征進(jìn)行DTW匹配對齊,然后進(jìn)行平均,即,模板合并。關(guān)于模板合并,請參考W. H.Abdulla,D.Chow和G.Sin發(fā)表的文章“Cross-wordsreference template for DTW-based speech recognition systems”(IEEETENCON 2003,pp.1576-1579)。
在模板合并之后,返回到步驟140,在此判斷是否需要再一次確認(rèn)。按照本實施例,通稱可以對密碼語音進(jìn)行3至5次的確認(rèn),這樣既可以提高可靠性又不會給用戶帶來太大麻煩。
通過以上描述可知,如果采用本實施例的說話人認(rèn)證的注冊方法,用戶可以自行選擇和輸入密碼語音,而不需要系統(tǒng)管理員或者開發(fā)人員參與,因此,用戶可以更方便地注冊并且保密性更好。進(jìn)而,本實施例的說話人認(rèn)證的注冊方法還可以在用戶注冊時自動評價密碼語音的分辨力,避免用戶使用分辨力不足的密碼語音,從而可以提高認(rèn)證的安全性。
在同一發(fā)明構(gòu)思下,圖2是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的驗證(evaluation)方法的流程圖。下面就結(jié)合該圖,對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。
如圖2所示,首先在步驟201,由進(jìn)行驗證的用戶輸入包含密碼的語音。接著,在步驟205,從上述輸入的語音提取聲學(xué)特征。與前面描述的實施例相同,本發(fā)明對于聲學(xué)特征并沒有特別的限制,可以采用例如,MFCC、LPCC或者其它基于能量、基音頻率或小波分析等得到的各種系數(shù)等,只要是能夠表現(xiàn)說話人的個人語音特點即可;但是,應(yīng)當(dāng)與用戶注冊時生成的語音模板中采用的方式相對應(yīng)。
接著,在步驟210,計算提取出的聲學(xué)特征與語音模板中包含的聲學(xué)特征的DTW匹配距離。在此,本實施例中的語音模板是利用前面實施例的說話人認(rèn)證的注冊方法生成的語音模板,其中至少包含與密碼語音對應(yīng)的聲學(xué)特征和分辨閾值。具體計算DTW匹配距離的方法前面實施例中已經(jīng)描述,不再重復(fù)。
然后,在步驟215,判斷上述DTW匹配距離是否小于上述語音模板中設(shè)定的分辨閾值。如果是,則在步驟220認(rèn)定是同一說話人說出的相同的密碼,驗證成功;如果否,則在步驟225認(rèn)定驗證失敗。
通過以上描述可知,如果采用本實施例的說話人認(rèn)證的驗證方法,可以利用前面實施例的說話人認(rèn)證的注冊方法生成的語音模板,對用戶進(jìn)行語音驗證,由于用戶可以自行設(shè)計和選擇密碼文本,而不需要系統(tǒng)管理員或者開發(fā)人員參與,因此,整個認(rèn)證過程更方便并且保密性更好,進(jìn)而,還可以保證密碼語音的分辨力,提高認(rèn)證的安全性。
在同一發(fā)明構(gòu)思下,圖3是根據(jù)本發(fā)明一個實施例的評價語音的分辨力的方法的流程圖。下面就結(jié)合該圖,對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。
如圖3所示,首先在步驟301,從要評價的語音中提取聲學(xué)特征。與前面描述的實施例相同,本發(fā)明對此并沒有特別的限制,可以采用例如,MFCC、LPCC等或其它基于能量,基音頻率及小波分析得到的各種系數(shù)等,只要是能夠表現(xiàn)說話人的個人語音特點即可。
接著,在步驟305,根據(jù)上述提取出的聲學(xué)特征,解碼獲得相應(yīng)的音素序列。與前面描述的實施例相同,可以采用HMM、ANN模型等,從搜索算法上說,可以采用維特比(Viterbi)、A*等各種解碼器算法,只要能夠根據(jù)聲學(xué)特征獲得相應(yīng)的音素序列即可。
接著,在步驟310,根據(jù)音素分辨力表,分別計算該音素序列的本人組和他人組的分布參數(shù)N(Σnμcn,Σnσcn2)]]>和N(Σnμin,Σnσin2)。]]>具體做法,與前面實施例中的步驟115類似,在音素分辨力表中,與每個音素相對應(yīng)地分別記錄有通過統(tǒng)計獲得的本人組的分布的均值和方差μc、σc2,以及他人組的分布的均值和方差μi、σi2。利用該音素分辨力表,計算整個音素序列的兩組(本人組和他人組)匹配距離的分布參數(shù)N(Σnμcn,Σnσcn2)]]>和N(Σnμin,Σnσin2)。]]>然后,在步驟315,根據(jù)上述計算的本人組和他人組的分布的參數(shù)(Σnμcn,Σnσcn2)]]>和N(Σnμin,Σnσin2),]]>評價該音素序列的分辨力。與前面實施例類似,可以采用下列方式之一1)計算這兩個分布的重合區(qū)域的面積;判斷該重合區(qū)域的面積是否小于一個預(yù)先設(shè)定的值。
2)計算等誤識率(EER);判斷上述等誤識率是否小于一個預(yù)先設(shè)定的值。
3)計算當(dāng)錯誤接受率(FAR)在一個預(yù)定的值時對應(yīng)的錯誤拒絕率(FRR);判斷上述錯誤拒絕率是否小于一個預(yù)先設(shè)定的值。
通過以上描述可知,如果采用本實施例的評價語音的分辨力的方法,可以在不需要系統(tǒng)管理員或者開發(fā)人員參與的情況下,自動評價語音的分辨力,可以提高利用語音的分辨力的應(yīng)用(例如語音認(rèn)證等)的方便性和安全性。
在同一發(fā)明構(gòu)思下,圖4是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的注冊裝置的方框圖。下面就結(jié)合該圖,對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。
如圖4所示,本實施例的說話人認(rèn)證的注冊裝置400包括語音輸入單元(speech input unit)401,用于輸入說話人說出的包含密碼的語音;音素序列獲得單元(phoneme sequence obtaining unit)402,其根據(jù)上述輸入的語音,獲得音素序列;分辨力評價單元(discriminating abilityestimating unit)403,其根據(jù)音素分辨力表405,評價該音素序列的分辨力,其中,上述音素分辨力表405包含每個音素的分辨力;閾值設(shè)定單元(threshold setting unit)404,用于為該語音設(shè)定分辨閾值;以及模板生成單元(template generator)406,用于為該語音生成語音模板。
進(jìn)而,圖4所示的音素序列獲得單元402還包括;聲學(xué)特征提取單元(acoustic feature extractor)4021,用于從上述輸入的語音提取聲學(xué)特征;以及音素序列解碼單元(phoneme sequence decoder)4022,其根據(jù)上述提取出的聲學(xué)特征,解碼獲得相應(yīng)的音素序列。
與前面所述的實施例類似,本實施例中的音素分辨力表405,與每個音素相對應(yīng)地分別記錄有通過統(tǒng)計獲得的本人組的分布的均值和方差μc、σc2,以及他人組的分布的均值和方差μi、σi2。
另外,雖然圖中未示出,但是,說話人認(rèn)證的注冊裝置400還包括分布參數(shù)計算單元(distribution parameter calculator),其根據(jù)音素分辨力表405,分別計算音素序列的本人組和他人組的分布參數(shù)N(Σnμcn,Σnσcn2)]]>和N(Σnμin,Σnσin2)。]]>分辨力評價單元403根據(jù)上述計算的本人組和他人組的分布的參數(shù)N(Σnμcn,Σnσcn2)]]>和N(Σnμin,Σnσin2),]]>判斷該音素序列的分辨力是否足夠。
另外,優(yōu)選地,分辨力評價單元403根據(jù)該音素序列的本人組和他人組的分布的參數(shù)N(Σnμcn,Σnσcn2)]]>和N(Σnμin,Σnσin2),]]>計算這兩個分布的重合區(qū)域的面積;如果該重合區(qū)域的面積小于一個預(yù)先設(shè)定的值,則判斷該音素序列的分辨力足夠,否則,判斷該音素序列的分辨力不夠。
可替代地,分辨力評價單元403根據(jù)該音素序列的本人組和他人組的分布的參數(shù)N(Σnμcn,Σnσcn2)]]>和N(Σnμin,Σnσin2),]]>計算等誤識率(EER);如果上述等誤識率小于一個預(yù)先設(shè)定的值,則判斷該音素序列的分辨力足夠,否則,判斷該音素序列的分辨力不夠。
可替代地,分辨力評價單元403根據(jù)該音素序列的本人組和他人組的分布的參數(shù)N(Σnμcn,Σnσcn2)]]>和N(Σnμin,Σnσin2),]]>計算當(dāng)錯誤接受率(FAR)在一個預(yù)定的值時對應(yīng)的錯誤拒絕率(FRR);如果上述錯誤拒絕率小于一個預(yù)先設(shè)定的值,則判斷該音素序列的分辨力足夠,否則,判斷該音素序列的分辨力不夠。
與前面所述的實施例類似,本實施例的閾值設(shè)定單元404可以采用下列方式之一設(shè)定分辨閾值1)將該音素序列的本人組和他人組的分布曲線的交叉點作為該語音的分辨閾值。
2)將與等誤識率對應(yīng)的閾值作為該語音的分辨閾值。
3)將當(dāng)錯誤接受率在一個預(yù)定的值時對應(yīng)的閾值作為該語音的分辨閾值。
另外,如圖4所示,本實施例的,說話人認(rèn)證的注冊裝置400進(jìn)一步包括音素序列比較單元(phoneme sequence comparing unit)408,用于比較先后兩次輸入的語音對應(yīng)的音素序列;以及模板合并單元(templatemerging unit)407,用于合并語音模板。
本實施例的說話人認(rèn)證的注冊裝置400及其各個組成部分,可以由專用的電路或芯片構(gòu)成,也可以通過計算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且,本實施例的說話人認(rèn)證的注冊裝置400,操作上可以實現(xiàn)前面結(jié)合圖1描述的實施例的說話人認(rèn)證的注冊方法。
在同一發(fā)明構(gòu)思下,圖5是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的驗證裝置的方框圖。下面就結(jié)合該圖,對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。
如圖5所示,本實施例的說話人認(rèn)證的驗證裝置500包括語音輸入單元(speech input unit)501,用于輸入語音;聲學(xué)特征提取單元(acousticfeature extractor)502,用于從由語音輸入單元501輸入的語音提取聲學(xué)特征;匹配距離計算單元(matching distance calculator)503,用于計算上述提取出的聲學(xué)特征與相應(yīng)的語音模板504的DTW匹配距離,其中,上述語音模板是利用前面所述實施例的說話人認(rèn)證的注冊方法生成的語音模板,包含說話人在注冊過程中使用的密碼語音的聲學(xué)特征以及分辨閾值。本實施例的說話人認(rèn)證的驗證裝置500被設(shè)計為,如果由匹配距離計算單元503計算出的DTW匹配距離小于預(yù)先定義的分辨閾值,則判斷輸入的語音是說話人本人說出的注冊密碼語音,否則,判斷為驗證失敗。
本實施例的說話人認(rèn)證的驗證裝置500及其各個組成部分,可以用專用的電路或芯片構(gòu)成,也可以通過計算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且,本實施例的說話人認(rèn)證的驗證裝置500,操作上可以實現(xiàn)前面結(jié)合圖2描述的實施例的說話人認(rèn)證的驗證方法。
在同一發(fā)明構(gòu)思下,圖6是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證系統(tǒng)的方框圖。下面就結(jié)合該圖,對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。
如圖6所示,本實施例的說話人認(rèn)證系統(tǒng)包括注冊裝置400,其可以為前面實施例描述的說話人認(rèn)證的注冊裝置400;以及驗證裝置500,其可以為前面實施例描述的說話人認(rèn)證的驗證裝置500。由注冊裝置400生成的語音模板通過任意的通信方式,例如,網(wǎng)絡(luò)、內(nèi)部信道、磁盤等記錄媒體等,傳遞給驗證裝置500。
這樣,如果采用本實施例的說話人認(rèn)證系統(tǒng),用戶可以利用注冊裝置400自行設(shè)計和選擇密碼文本,而不需要系統(tǒng)管理員或者開發(fā)人員參與,然后,利用驗證裝置500進(jìn)行語音驗證,因此,用戶可以更方便地注冊并且保密性更好。進(jìn)而,由于還可以在用戶注冊時自動評價密碼語音的分辨力,避免用戶使用分辨力不足的密碼語音,從而可以提高認(rèn)證的安全性。
以上雖然通過一些示例性的實施例對本發(fā)明的說話人認(rèn)證的注冊方法和裝置、說話人認(rèn)證的驗證方法和裝置、評價語音的分辨力的方法、以及說話人認(rèn)證系統(tǒng)進(jìn)行了詳細(xì)的描述,但是以上這些實施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實施例,本發(fā)明的范圍僅由所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種說話人認(rèn)證的注冊方法,包括輸入說話人說出的包含密碼的語音;根據(jù)上述輸入的語音,獲得音素序列;根據(jù)音素分辨力表,評價該音素序列的分辨力,其中,上述音素分辨力表包含每個音素的分辨力;為該語音設(shè)定分辨閾值;以及為該語音生成語音模板。
2.根據(jù)權(quán)利要求1所述的說話人認(rèn)證的注冊方法,其中,上述獲得音素序列的步驟包括從上述輸入的語音提取聲學(xué)特征;以及根據(jù)上述提取出的聲學(xué)特征,解碼獲得相應(yīng)的音素序列。
3.根據(jù)權(quán)利要求1所述的說話人認(rèn)證的注冊方法,其中,上述音素分辨力表包括通過統(tǒng)計獲得的每個音素對應(yīng)的本人組的聲學(xué)特征的DTW匹配距離的分布的均值μC和方差σC2,以及他人組的聲學(xué)特征的DTW匹配距離的分布的均值μi和方差σi2;上述評價該音素序列的分辨力的步驟包括根據(jù)上述音素分辨力表,分別計算該音素序列的本人組和他人組的分布參數(shù) 和 根據(jù)上述計算的本人組和他人組的分布的參數(shù) 和 判斷該音素序列的分辨力是否足夠。
4.根據(jù)權(quán)利要求3所述的說話人認(rèn)證的注冊方法,其中,判斷該音素序列的分辨力是否足夠的步驟包括根據(jù)該音素序列的本人組和他人組的分布的參數(shù) 和 計算這兩個分布的重合區(qū)域的面積;以及如果該重合區(qū)域的面積小于一個預(yù)先設(shè)定的值,則判斷該音素序列的分辨力足夠,否則,判斷該音素序列的分辨力不夠。
5.根據(jù)權(quán)利要求3所述的說話人認(rèn)證的注冊方法,其中,判斷該音素序列的分辨力是否足夠的步驟包括根據(jù)該音素序列的本人組和他人組的分布的參數(shù) 和 計算等誤識率(EER);以及如果上述等誤識率小于一個預(yù)先設(shè)定的值,則判斷該音素序列的分辨力足夠,否則,判斷該音素序列的分辨力不夠。
6.根據(jù)權(quán)利要求3所述的說話人認(rèn)證的注冊方法,其中,判斷該音素序列的分辨力是否足夠的步驟包括根據(jù)該音素序列的本人組和他人組的分布的參數(shù) 和 計算當(dāng)錯誤接受率(FAR)在一個預(yù)定的值時對應(yīng)的錯誤拒絕率(FRR);以及如果上述錯誤拒絕率小于一個預(yù)先設(shè)定的值,則判斷該音素序列的分辨力足夠,否則,判斷該音素序列的分辨力不夠。
7.根據(jù)權(quán)利要求4~6的任意一項所述的說話人認(rèn)證的注冊方法,其中,上述為該語音設(shè)定分辨閾值的步驟包括將該音素序列的本人組和他人組的分布曲線的交叉點作為該語音的分辨閾值。
8.根據(jù)權(quán)利要求4~6的任意一項所述的說話人認(rèn)證的注冊方法,其中,上述為該語音設(shè)定分辨閾值的步驟包括將與等誤識率對應(yīng)的閾值作為該語音的分辨閾值。
9.根據(jù)權(quán)利要求4~6的任意一項所述的說話人認(rèn)證的注冊方法,其中,上述為該語音設(shè)定分辨閾值的步驟包括將當(dāng)錯誤接受率在一個預(yù)定的值時對應(yīng)的閾值作為該語音的分辨閾值。
10.根據(jù)權(quán)利要求2~9的任意一項所述的說話人認(rèn)證的注冊方法,其中,上述語音模板包含上述提取出的聲學(xué)特征和上述分辨閾值。
11.根據(jù)前面任意一項權(quán)利要求所述的說話人認(rèn)證的注冊方法,進(jìn)一步包括當(dāng)判斷該音素序列的分辨力不夠時,提示說話人更換密碼。
12.根據(jù)前面任意一項權(quán)利要求所述的說話人認(rèn)證的注冊方法,進(jìn)一步包括在為該語音生成語音模板之后,上述說話人再次輸入語音進(jìn)行確認(rèn);根據(jù)上述再次輸入的語音,獲得音素序列;比較前次輸入的語音對應(yīng)的音素序列和本次輸入的語音對應(yīng)的音素序列;以及如果上述音素序列相同,則合并語音模板。
13.一種說話人認(rèn)證的驗證方法,包括輸入語音;以及根據(jù)語音模板,判斷該輸入的語音是否為說話人本人說出的注冊密碼語音,其中,上述語音模板是利用前面任意一項權(quán)利要求所述的說話人認(rèn)證的注冊方法生成的語音模板。
14.根據(jù)權(quán)利要求13所述的說話人認(rèn)證的驗證方法,其中,判斷該輸入的語音是否為說話人本人說出的注冊密碼語音的步驟包括從上述輸入的語音提取聲學(xué)特征;計算上述提取出的聲學(xué)特征與上述語音模板的DTW匹配距離;以及通過比較上述計算出的DTW匹配距離和預(yù)先定義的分辨閾值,判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
15.一種評價語音的分辨力的方法,包括根據(jù)上述語音,獲得音素序列;以及根據(jù)音素分辨力表,評價該音素序列的分辨力,其中,上述音素分辨力表包含每個音素的分辨力。
16.根據(jù)權(quán)利要求15所述的評價語音的分辨力的方法,其中,上述獲得音素序列的步驟包括從上述語音提取聲學(xué)特征;以及根據(jù)上述提取出的聲學(xué)特征,解碼獲得相應(yīng)的音素序列。
17.根據(jù)權(quán)利要求15所述的評價語音的分辨力的方法,其中,上述音素分辨力表包括通過統(tǒng)計獲得的每個音素對應(yīng)的本人組的聲學(xué)特征的DTW匹配距離的分布的均值μC和方差σC2,以及他人組的聲學(xué)特征的DTW匹配距離的分布的均值μi和方差σi2;上述評價該音素序列的分辨力的步驟包括根據(jù)上述音素分辨力表,分別計算該音素序列的本人組和他人組的分布參數(shù) 和 根據(jù)上述計算的本人組和他人組的分布的參數(shù) 和 評價該音素序列的分辨力。
18.根據(jù)權(quán)利要求17所述的評價語音的分辨力的方法,其中,評價該音素序列的分辨力的步驟包括根據(jù)該音素序列的本人組和他人組的分布的參數(shù) 和 計算這兩個分布的重合區(qū)域的面積;以及判斷該重合區(qū)域的面積是否小于一個預(yù)先設(shè)定的值。
19.根據(jù)權(quán)利要求17所述的評價語音的分辨力的方法,其中,評價該音素序列的分辨力的步驟包括根據(jù)該音素序列的本人組和他人組的分布的參數(shù) 和 計算等誤識率(EER);以及判斷上述等誤識率是否小于一個預(yù)先設(shè)定的值。
20.根據(jù)權(quán)利要求17所述的評價語音的分辨力的方法,其中,評價該音素序列的分辨力的步驟包括根據(jù)該音素序列的本人組和他人組的分布的參數(shù) 和 計算當(dāng)錯誤接受率(FAR)在一個預(yù)定的值時對應(yīng)的錯誤拒絕率(FRR);以及判斷上述錯誤拒絕率是否小于一個預(yù)先設(shè)定的值。
21.一種說話人認(rèn)證的注冊裝置,包括語音輸入單元(speech input unit),用于輸入說話人說出的包含密碼的語音;音素序列獲得單元(phoneme sequence obtaining unit),其根據(jù)上述輸入的語音,獲得音素序列;分辨力評價單元(discriminating ability estimating unit),其根據(jù)音素分辨力表,評價該音素序列的分辨力,其中,上述音素分辨力表包含每個音素的分辨力;閾值設(shè)定單元(threshold setting unit),用于為該語音設(shè)定分辨閾值;以及模板生成單元(template generator),用于為該語音生成語音模板。
22.根據(jù)權(quán)利要求21所述的說話人認(rèn)證的注冊裝置,其中,上述音素序列獲得單元包括聲學(xué)特征提取單元(acoustic feature extractor),用于從上述輸入的語音提取聲學(xué)特征;以及音素序列解碼單元(phoneme sequence decoder),其根據(jù)上述提取出的聲學(xué)特征,解碼獲得相應(yīng)的音素序列。
23.根據(jù)權(quán)利要求21所述的說話人認(rèn)證的注冊裝置,其中,上述音素分辨力表包括通過統(tǒng)計獲得的每個音素對應(yīng)的本人組的聲學(xué)特征的DTW匹配距離的分布的均值μC和方差σC2,以及他人組的聲學(xué)特征的DTW匹配距離的分布的均值μi和方差σi2;上述注冊裝置進(jìn)一步包括分布參數(shù)計算單元(distribution parameter calculator),其根據(jù)上述音素分辨力表,分別計算該音素序列的本人組和他人組的分布參數(shù) 和 上述分辨力評價單元根據(jù)上述計算的本人組和他人組的分布的參數(shù) 和 判斷該音素序列的分辨力是否足夠。
24.根據(jù)權(quán)利要求23所述的說話人認(rèn)證的注冊裝置,其中,上述分辨力評價單元根據(jù)該音素序列的本人組和他人組的分布的參數(shù) 和 計算這兩個分布的重合區(qū)域的面積;以及如果該重合區(qū)域的面積小于一個預(yù)先設(shè)定的值,則判斷該音素序列的分辨力足夠,否則,判斷該音素序列的分辨力不夠。
25.根據(jù)權(quán)利要求23所述的說話人認(rèn)證的注冊裝置,其中,上述分辨力評價單元根據(jù)該音素序列的本人組和他人組的分布的參數(shù) 和 計算等誤識率(EER);以及如果上述等誤識率小于一個預(yù)先設(shè)定的值,則判斷該音素序列的分辨力足夠,否則,判斷該音素序列的分辨力不夠。
26.根據(jù)權(quán)利要求23所述的說話人認(rèn)證的注冊裝置,其中,上述分辨力評價單元根據(jù)該音素序列的本人組和他人組的分布的參 和 計算當(dāng)錯誤接受率(FAR)在一個預(yù)定的值時對應(yīng)的錯誤拒絕率(FRR);以及如果上述錯誤拒絕率小于一個預(yù)先設(shè)定的值,則判斷該音素序列的分辨力足夠,否則,判斷該音素序列的分辨力不夠。
27.根據(jù)權(quán)利要求24~26的任意一項所述的說話人認(rèn)證的注冊裝置,其中,上述閾值設(shè)定單元將該音素序列的本人組和他人組的分布曲線的交叉點作為該語音的分辨閾值。
28.根據(jù)權(quán)利要求24~26的任意一項所述的說話人認(rèn)證的注冊裝置,其中,上述閾值設(shè)定單元將與等誤識率對應(yīng)的閾值作為該語音的分辨閾值。
29.根據(jù)權(quán)利要求24~26的任意一項所述的說話人認(rèn)證的注冊裝置,其中,上述閾值設(shè)定單元將當(dāng)錯誤接受率在一個預(yù)定的值時對應(yīng)的閾值作為該語音的分辨閾值。
30.根據(jù)權(quán)利要求22~29的任意一項所述的說話人認(rèn)證的注冊裝置,其中,上述語音模板包含上述提取出的聲學(xué)特征和上述分辨閾值。
31.根據(jù)權(quán)利要求21~30的任意一項所述的說話人認(rèn)證的注冊裝置,進(jìn)一步包括音素序列比較單元(phoneme sequence comparing unit),用于比較先后兩次輸入的語音對應(yīng)的音素序列;模板合并單元(template merging unit),用于合并語音模板。
32.一種說話人認(rèn)證的驗證裝置,包括語音輸入單元(speech input unit),用于輸入語音;聲學(xué)特征提取單元(acoustic feature extractor),用于從上述輸入的語音提取聲學(xué)特征;以及匹配距離計算單元(matching distance calculator),用于計算上述提取出的聲學(xué)特征與相應(yīng)的語音模板的DTW匹配距離,其中,上述語音模板是利用權(quán)利要求1~12的任意一項所述的說話人認(rèn)證的注冊方法生成的語音模板;其中,通過比較上述計算出的DTW匹配距離和預(yù)先定義的分辨閾值,判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
33.一種說話人認(rèn)證系統(tǒng),包括根據(jù)權(quán)利要求20~31的任意一項所述的說話人認(rèn)證的注冊裝置;以及根據(jù)權(quán)利要求32所述的說話人認(rèn)證的驗證裝置。
全文摘要
本發(fā)明提供了說話人認(rèn)證的注冊方法和裝置、說話人認(rèn)證的驗證方法和裝置、評價語音的分辨力的方法、以及說話人認(rèn)證系統(tǒng)。本發(fā)明的說話人認(rèn)證的注冊方法包括輸入說話人說出的包含密碼的語音;根據(jù)上述輸入的語音,獲得音素序列;根據(jù)音素分辨力表,評價該音素序列的分辨力,其中,上述音素分辨力表包含每個音素的分辨力;為該語音設(shè)定分辨閾值;以及為該語音生成語音模板。
文檔編號G10L15/00GK1963917SQ20051011490
公開日2007年5月16日 申請日期2005年11月11日 優(yōu)先權(quán)日2005年11月11日
發(fā)明者欒劍, 郝杰 申請人:株式會社東芝