專利名稱:驗證真人在場狀態(tài)的聲紋認證設備和其認證方法
技術領域:
本發(fā)明涉及一種聲紋認證設備和方法,尤其涉及一種驗證真人在場狀態(tài)的聲紋認證設備和其認證方法。
背景技術:
隨著社會經(jīng)濟的進步和信息技術的發(fā)展,人們對信息安全和身份認證技術有了越來越多的需求和依賴性。傳統(tǒng)的身份認證方法主要是基于密碼的,它具有簡單、快捷的優(yōu)點,但卻有著很明顯的不足,例如,容易被忘記,并且容易被猜到或被竊取等,一旦發(fā)生這種情況,很可能會給用戶帶來巨大的麻煩或損失。
密碼驗證方式不足之處的根源在于它與持有人本身沒有內(nèi)在的聯(lián)系,任何其它人如果得到并憑借該人的密碼嘗試進行認證時,系統(tǒng)是很難分辨其身份的真?zhèn)蔚?。近年來,基于生物特征的認證方法逐步引起了人們的重視,并且成為傳統(tǒng)密碼認證方式的很好的補充手段。生物特征認證方式包括指紋、聲紋、虹膜、臉孔、掌紋等,其特點在于用于認證的特征基本上是惟一的,并且是與用戶本人直接關聯(lián)的,其他人很難假冒該用戶自身的生物特征來登錄系統(tǒng)。
聲紋識別技術是屬于生物特征認證技術的一種,它是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù)來自動識別說話人身份的技術,包括文本相關的(必須是特定的文本)和文本無關的(不限定用戶說什么文本)方式。與其他生物特征識別技術相比,聲紋識別具有簡便、經(jīng)濟、可遠程認證等優(yōu)勢,可廣泛應用于安全驗證和控制等方面,特別是基于電信網(wǎng)絡的身份識別等應用領域。在電信類應用、互聯(lián)網(wǎng)應用中,最自然、也最容易被用戶所接受的生物特征莫過于語音,即用戶用自己的聲音來證明個人身份,也就是“聞聲識人”,從而可以通過電話、移動終端等實現(xiàn)股票交易、銀行轉(zhuǎn)賬、個人信息服務等需要確認身份的業(yè)務等。因此,聲紋識別技術正日益成為人們?nèi)粘I詈凸ぷ髦兄匾移占暗陌踩炞C方式之一。
但與其它一些基于生物特征的認證方式類似,聲紋識別也有一些不足之處,例如難于判斷一段語音是用戶本人在現(xiàn)場提供的還是高保真的仿冒錄音,等等。
發(fā)明內(nèi)容
基于已有的聲紋認證技術中存在的上述缺點,提出了一種用于驗證真人在場狀態(tài)的聲紋認證設備,其中結(jié)合聲紋認證技術,尤其是文本無關的聲紋認證技術,和驗證真人在場發(fā)音狀態(tài)的技術來提高認證設備整體的安全性。以及還提出了一種驗證真人在場狀態(tài)的聲紋認證方法。
根據(jù)本發(fā)明第一方面,一種用于驗證真人在場狀態(tài)的聲紋認證設備,包括語音輸入裝置,用于接收用戶輸入的語音;聲紋識別裝置,用于將用戶輸入的認證語音與聲紋模型進行對比認證,以便驗證用戶身份;在場驗證裝置,用于將用戶輸入的模仿語音與預制的提示音集合中隨機選出的提示音進行對比認證,以便確定用戶在場發(fā)音;以及判定裝置,用于根據(jù)聲紋識別裝置和在場驗證裝置的認證結(jié)果,判斷用戶是否真實且在場。
根據(jù)本發(fā)明第二方面,一種用于驗證真人在場狀態(tài)的聲紋認證方法,包括語音輸入步驟,用于接收用戶輸入的語音;聲紋識別步驟,用于將用戶輸入的認證語音與聲紋模型進行對比認證,以便驗證用戶身份;在場驗證步驟,用于將用戶輸入的模仿語音與預制的提示音集合中隨機選出的提示音進行對比認證,以便確定用戶在場發(fā)音;以及判定步驟,用于根據(jù)聲紋識別步驟和在場驗證步驟的認證結(jié)果,判斷用戶是否真實且在場。
由于本發(fā)明在驗證用戶身份的同時驗證真實的用戶是否是在現(xiàn)場發(fā)音,從而有效地拒絕了利用錄音或自動合成音的假冒者通過身份驗證,提高了聲紋認證的安全性。另外,通過交互的認證過程確認發(fā)音人為意識清晰狀態(tài),便于將其認證用的語音作為未來不可否認的鑒定證據(jù)等。同時,較其他生物特征認證技術而言,本發(fā)明所需的認證信息(語音)錄入設備價格低廉(僅需普通的麥克風或電話),且設備普及率高。
圖1是根據(jù)本發(fā)明的聲紋認證設備的示意圖;圖2是文本無關的聲紋識別裝置的示意圖;圖3是根據(jù)本發(fā)明的在場驗證裝置的示意圖;圖4是根據(jù)本發(fā)明第一實施例的在場驗證單元的示意圖;圖5是根據(jù)本發(fā)明第二實施例的在場驗證單元的示意圖;
圖6是根據(jù)本發(fā)明的聲紋認證方法的流程圖;圖7是根據(jù)本發(fā)明第一實施例的在場驗證方法的流程圖;圖8是根據(jù)本發(fā)明第二實施例的在場驗證方法的流程圖。
具體實施例方式
通過以下結(jié)合本發(fā)明的附圖的描述,本發(fā)明的上述和其他目的、特征和優(yōu)點將變得顯而易見。
語音作為人類最基礎、最便捷的交流和交易方式,在用戶使用認證系統(tǒng)所產(chǎn)生的語音信息中,能夠同時包涵用戶身份信息和用戶個人意愿信息。本發(fā)明在充分利用聲紋認證技術,尤其是文本無關的聲紋認證技術的優(yōu)點的同時,結(jié)合可確認真人在場發(fā)音狀態(tài)的方法,提高認證設備整體的安全性,并通過交互的認證過程來確認發(fā)音人為意識清晰狀態(tài)。
圖1是根據(jù)本發(fā)明的聲紋認證設備的示意圖。聲紋認證設備1用于驗證真實用戶的在場狀態(tài),包括用于接收用戶輸入的語音的語音輸入裝置10,例如,麥克風或電話;用于驗證用戶身份的聲紋識別裝置20;用于驗證用戶在場狀態(tài)的在場驗證裝置30;以及根據(jù)聲紋識別裝置20和在場驗證裝置30的識別和驗證結(jié)果綜合判斷真實用戶是否進行在場認證,從而完成對待驗證用戶的聲紋認證過程的判定裝置40。此外,雖然未示出,但是在語音輸入裝置的前端,也可以加上基于密碼等的其他認證裝置,以使系統(tǒng)能夠更好地驗證用戶的身份。
圖6是根據(jù)本發(fā)明的聲紋認證方法的流程圖。語音輸入裝置10在S60接收用戶輸入的認證語音并將其輸入到聲紋識別裝置20。然后在S62,聲紋識別裝置20將接收到的認證語音與聲紋模型進行對比認證,以便驗證用戶身份。在要進行在場驗證時,在場驗證裝置30在S64播放預制的提示音集合中隨機選出的提示音,用戶模仿該提示音進行模仿發(fā)音。在S66,語音輸入裝置10接收用戶輸入的模仿發(fā)音并將其輸入到在場驗證裝置30。之后,在場驗證裝置30在S68將接收到的模仿發(fā)音與所述播放的提示音進行對比認證,以便驗證用戶是否是在場發(fā)音。最后,在S602,判定裝置40綜合判斷用戶是否是真實的以及是在場發(fā)音。在聲紋認證之前,也可以先進行基于密碼等的其他認證,以使系統(tǒng)能夠更好地驗證用戶的身份。
聲紋識別裝置20的結(jié)構(gòu)如圖2所示。聲紋識別裝置20是文本無關的,即,不限定用戶具體說什么文本。其目的在于確認用戶在認證時提供的語音與該用戶所申明的身份(即該身份所對應的預先訓練好的聲紋模型)是否一致。聲紋識別裝置20包括聲紋特征提取單元201、聲紋模型建立單元202、聲紋模型庫203和聲紋模式匹配單元204。
通常,人類的語音是由聲帶振動產(chǎn)生并經(jīng)過聲道和口鼻等的調(diào)制而形成的連續(xù)振動波形,該波形被以一定的采樣率進行數(shù)字化后才能進一步處理。系統(tǒng)錄制的原始語音中除了含有說話人自身發(fā)出的有意義的內(nèi)容之外,還有停頓靜音或背景噪音干擾等無意義的部分,因此在提取有效的聲紋特征之前需要先判斷各個語音段的有效性,并且拋掉無用的部分,只從有效語音段中提取聲紋特征。
聲紋特征提取單元201提取聲紋特征所采用的方法舉例如下將有效語音采樣點分為一組具有一定長度的小窗(即分幀),相鄰窗間有局部重疊。各幀內(nèi)部首先施加海明(Hamming)窗函數(shù),并預加重進行高頻提升,然后做快速傅立葉變換(FFT)求出頻譜。之后對頻譜施加按Mel刻度(Mel-scale)規(guī)律排列的、含有若干個三角濾波器的濾波器組,將得到的各個濾波器的輸出值進行離散余弦變換(DCT),得到一組系數(shù)(例如取不包含靜態(tài)能量的16維系數(shù)),這就是美化倒譜系數(shù)(MFCC)矢量,然后把相鄰幀的MFCC矢量逐維求差,并把得到的差矢量拼接到原MFCC矢量上,得到的參數(shù)作為后續(xù)使用的聲紋特征序列。
每個人的聲紋特征可以看作是在高維特征空間的一種概率分布,可以用多個正態(tài)分布(高斯分布)來擬合,這類集合稱作高斯混合模型(GMM),用公式表示如下p(x→|λ)=Σi=1Mwipi(x→)---(1)]]>pi(x→)=1(2π)D/2|Σi|1/2exp{-12(x→-μi)′(Σi)-1(x→-μi)}---(2)]]>其中,公式(1)中的 λ、M、w、p分別表示聲紋特征矢量、聲紋模型參數(shù)集、特征維數(shù)、權重、正態(tài)分布;公式(2)是標準的高維正態(tài)分布描述。后面的符號表示與此一致。
在建立模型之初,先搜集特定信道下的足夠多的人的樣本語音,以期近似描述所有人在平均意義上的聲紋特征分布。例如,本發(fā)明具體實現(xiàn)中采集了至少男女各50人、每人不少于1分鐘的樣本語音。將這些語音提取聲紋特征參數(shù)后,放在一起進行迭代聚類,得到若干個高斯混合(例如1024或2048個),這就是通用背景模型(UBM)。
為建立供文本無關的聲紋識別裝置使用的聲紋模型,聲紋模型建立單元202需采集足夠長的有效語音(例如,至少20秒的有效語音)。聲紋模型建立單元202針對聲紋特征提取單元201提取出的聲紋特征,根據(jù)最大后驗概率(MAP)的自適應算法,用它來修正UBM的一個拷貝,從而得到一個新的GMM,將它作為該用戶的聲紋模型,并存入一個聲紋模型庫203,以備后續(xù)的識別過程使用。
在進行聲紋識別時,需要通過語音輸入裝置10采集用戶足夠長的有效語音(例如,至少8秒的有效語音)提供給聲紋特征提取單元201,由聲紋特征提取單元201從待識別的語音中提取出聲紋特征并提供給聲紋模式匹配單元204,然后由聲紋模式匹配單元204逐幀地計算該幀特征與申明的聲紋模型進行概率匹配的似然分,將這些幀的似然分累積并求平均作為總得分。
聲紋模式匹配單元204計算某一幀聲紋特征的似然分所采用的方法如下首先將它與UBM中的各個高斯混合按公式(2)逐一地計算匹配概率,找出其中最大的幾個高斯混合(例如4個),然后把與UBM中這幾個混合相對應的、在用戶聲紋模型庫203中的高斯混合找到,按下述公式計算該幀特征匹配的似然分為Score=L(x→|λSpeaker)-L(x→|λUBM)---(3)]]>這相當于用UBM來歸一化聲紋特征的概率匹配分數(shù)。其中L是Likelihood的縮寫,它等于對應概率值的對數(shù)的20倍。對選出來的這些混合分別按公式(3)計算得分并求和,就得到了這一幀的似然分。
最后,聲紋模式匹配單元204把匹配的總得分與系統(tǒng)預設的閾值比較,如高于該閾值,則判定為接受,否則就判定為拒絕(拒識)。這樣,就實現(xiàn)了開集方式的、文本無關的聲紋識別功能,或者更加準確地說,是文本無關的聲紋確認功能。從而聲紋識別裝置20的各個組件通過執(zhí)行上述方法就完成對用戶的聲紋識別過程。雖然圖2示出了聲紋識別裝置20包括聲紋模型建立單元202,但顯而易見的是,聲紋識別裝置20也可以使用已經(jīng)建立好的聲紋模型庫203。
圖3示出了根據(jù)本發(fā)明的在場驗證裝置30。所述在場驗證裝置30用于確認用戶在認證時提供的語音確實是用戶在場的發(fā)音而非預先錄制的仿冒語音,其采用的核心思想在于引入具有一定隨機性和特征的提示并要求用戶模仿該提示發(fā)音,在場驗證裝置對此進行驗證從而拒絕假冒授權用戶的錄音。
在場驗證裝置30包括語料庫301,用于生成提示音集合303(即,提示模板語音集合)的模板語音集生成單元302,相似度匹配單元304。語料庫301中包括了海量的文本語料(例如是來自于報紙或網(wǎng)絡的文章的文字內(nèi)容的電子版),模板語音集生成單元302從語料庫301中篩選出滿足預定條件的句子(例如,預定長度)作為提示文本,并將提示文本按照預定規(guī)則錄制為提示音集合作為提示音集合303。在執(zhí)行在場驗證時,將提示音集合303中隨機取出的提示音以及用戶進行跟讀而產(chǎn)生的模仿發(fā)音輸入到相似度匹配單元304。相似度匹配單元304對提示音和用戶通過語音輸入裝置10輸入的模仿發(fā)音進行相似度匹配,以驗證用戶是否是在場發(fā)音。在本發(fā)明中,為了更加有效地防止以仿冒錄音或合成聲音等所造成的惡意入侵,提高在場校驗的能力,所述提示音集合可以包涵語言符號(文字、數(shù)字、字母、符號)的發(fā)音、無規(guī)則無語義的聲音、韻律聲音等多種語音模式或它們的組合。
圖4是根據(jù)本發(fā)明第一實施例的相似度匹配單元304的示意圖。其中,第一關鍵特征點序列提取單元3041與提示音集合303連接,用于從提示音集合303的隨機選出的提示音中提取第一關鍵特征點序列;第二關鍵特征點序列提取單元3042與語音輸入裝置10連接,用于從輸入的用戶模仿發(fā)音中提取第二關鍵特征點序列;以及匹配單元3043,將第一關鍵特征點序列和第二關鍵特征點序列進行匹配,并根據(jù)匹配結(jié)果判斷出用戶的發(fā)音是在場的還是錄制的。
圖7示出根據(jù)本發(fā)明第一實施例的在場驗證方法。在S70和S72,對相似度匹配單元304接收的提示音集合303中的隨機提示音,以及用戶跟讀它而產(chǎn)生的模仿發(fā)音,分別提取一組關鍵的特征點,這些特征點是和語音的韻律相關的特征,根據(jù)它們可以判別模仿發(fā)音是否從韻律、停頓、變化趨勢等方面與隨機的提示模板語音近似,從而確定用戶是否在努力模仿系統(tǒng)所期望的發(fā)音方式。
要提取的這些關鍵特征點參數(shù)主要包括以下三種語音中停頓靜音段的個數(shù)及其時長分布、關鍵特征點的趨勢曲線以及元輔音屬性分布序列。
(a)語音中停頓靜音段的個數(shù)及其時長分布。
為了達到更好的去偽存真的效果,在預先設計的隨機提示模板語音中,刻意地在某些詞匯之間留出一定長度的停頓靜音,因此用戶的模仿發(fā)音中也必須存在基本相似的停頓靜音段,才能允許通過系統(tǒng)的校驗。
首先根據(jù)各幀語音的短時能量和短時過零率等參數(shù)來判別該幀的屬性,可以是S(Silence,靜音)、U(Unvoiced,清音)、V(Voiced,濁音)之一,進行一定程度的平滑后,再在這些屬性標記的基礎上根據(jù)常用的靜音檢測算法分離出語音段和靜音段。將其中夾雜的靜音段的個數(shù)以及各個靜音段的時間長度作為兩組參數(shù)矢量保存起來供下步比對時使用,其形式為(NumSil);(L1,L2,…,LN)(4)(b)關鍵特征點的趨勢曲線。
提示模板語音和模仿語音中的抑揚頓挫的韻律特點可以用某些時域參數(shù)或頻域參數(shù)來表征,例如幀能量的變化趨勢曲線、基頻的升降變化曲線、重音位置點等。在本實施例中,采用以幀能量和基頻參數(shù)作為關鍵特征點的趨勢曲線。
提取方法是,對每一幀語音信號sw(n),計算其短時幀能量如下Ew=Σn=0N-1Sw2(n)---(5)]]>計算其短時自相關函數(shù)如下Rw(l)=Σn=0N-l-1sw(n)sw(n+l)---(6)]]>如果本幀語音是一個濁音性的周期信號,那么它的短時自相關函數(shù)將呈現(xiàn)明顯的周期性,反之,由于清音的表象接近于隨機噪聲,它的短時自相關函數(shù)將不具有周期性且隨著l的增大而迅速減小,因此利用該特性,可判別出本幀語音是清音還是濁音,并確定一個濁音的基頻參數(shù)。由于噪音等一些因素的干擾,個別幀的基頻參數(shù)估計不一定精確,為此可再施加一個簡單的平滑后處理過程,同時把清音幀的基頻參數(shù)設置為整體的平均值(也是出于平滑和便于計算的目的)。
這樣,就得到了另兩組參數(shù),分別命名為幀能量包絡曲線,以及基頻變化曲線,統(tǒng)稱為關鍵特征點的趨勢曲線(E1,E2,…,EN);(P1,P2,…,PN) (7)(c)元輔音屬性分布序列。
對于前面靜音檢測方法的結(jié)果,在每個有效的語音段內(nèi)部,對它所包含的各個語音幀以相同的方法估計其U、V屬性。由于每個漢語發(fā)音都是有規(guī)律的單音節(jié)結(jié)構(gòu),聲母是輔音(Consonant),具有清音的屬性,韻母是元音(Vowel)或復合元音,具有濁音的屬性,所以根據(jù)各幀的U、V屬性,進行平滑后,即可分析出元音和輔音的邊界。將分析出的各段元音、輔音的屬性標記形成一組參數(shù)矢量(CV1,CV2,…,CVM) (8)每個有效語音段內(nèi)都有這樣一組參數(shù)矢量,稱為元輔音屬性分布序列。
然后,在S74,對分別從提示模板語音和用戶模仿發(fā)音中提取的上述各類特征矢量,采用動態(tài)規(guī)劃的方法或思路計算它們之間的歐式距離,從而作為度量二者相似度的依據(jù)。本發(fā)明中使用的具體算法為動態(tài)時間彎折(DTW),其原理描述如下假設測試和參考模式(特征矢量)分別用T和R表示,為了比較它們的相似度,可以計算它們之間的失真距離D(T,R),失真距離越小則相似度越高,它是由二者對應幀之間的失真距離累積得到的。把測試模式的各個幀號n=1…N在一個二維直角坐標系中的橫軸上標出,把參考模式的各個幀號m=1…M在縱軸上標出,通過這些表示幀號的整數(shù)坐標畫出一些縱橫線即可形成一個網(wǎng)格,其中每一個交叉點(n,m)表示測試模式中某一幀與參考模式中某一幀的對接點,這就歸結(jié)為尋找一條通過此網(wǎng)格中若干交叉點的路徑,路徑通過的交叉點就是這兩個模式間計算失真距離的對應幀號,該失真距離定義為兩個多維特征矢量之間的加權歐式距離(各維的權重是用數(shù)據(jù)驅(qū)動的方法統(tǒng)計獲得的)。該算法相當于把要比對的兩個模式進行適當?shù)?、動態(tài)的伸縮,從而得到一個衡量其失配程度的最小的失真距離總和,作為擬合比對的相似度分數(shù)。
對上述每一類型的兩組對應的特征矢量,都可得到這樣一個相似度分數(shù),供下一步的綜合判決過程使用。
通過對上述各組特征進行比對得到的若干個分數(shù)si,處于不同的數(shù)量級。在S76,采用線性組合的方式對它們進行綜合,得到總體得分如下s~=1NΣi=1Nwisi---(9)]]>其中,wi是各個分數(shù)的權重,是根據(jù)大量測試樣本以數(shù)據(jù)驅(qū)動的方式進行統(tǒng)計得到的經(jīng)驗值。最后,在S78,根據(jù)總分數(shù) 是否高于某個預設的閾值,給出接受或拒絕用戶的判決結(jié)果。
圖5示出了根據(jù)本發(fā)明第二實施例的相似度匹配單元304。相似度匹配單元304用于校驗用戶發(fā)音中的文字內(nèi)容,包括標注語音數(shù)據(jù)庫3051,其存儲有大量的、具有對應文字內(nèi)容標注信息的語音數(shù)據(jù);學習單元3052,用于訓練各音素的HMM模型,即生成聲學模型3053,其根據(jù)標注語音數(shù)據(jù)庫3051提取出的各幀的語音特征,訓練出一組上下文相關的、非特定人的音素模型;對準單元3054,用于利用聲學模型3053,把語音輸入裝置10中采到的語音幀與提示音集合303的文本對應的音素狀態(tài)進行強制時間對準;以及匹配單元3055,用于將用戶的模仿發(fā)音的特征幀與音素狀態(tài)進行匹配評分,從而給出接受或拒絕的判斷結(jié)果。但是,很明顯地,相似度匹配單元304也可以僅使用訓練好的聲學模型3053,而不使用學習單元3052。圖8示出根據(jù)本發(fā)明第二實施例的在場驗證方法。在S80,與傳統(tǒng)的語音識別方法相同,首先搜集大量的、具有對應文字內(nèi)容標注信息的語音數(shù)據(jù)庫,提取出各幀的語音特征后,根據(jù)標準的前后向迭代算法,訓練出一組上下文相關的、非特定人的音素模型,每個音素模型是一個三狀態(tài)的HMM,各個狀態(tài)均通過一組混合高斯模型來刻畫它對應的特征矢量的觀測概率。在S82,將提示音的文本內(nèi)容擴展到它對應的音素序列(或是漢語的聲韻母序列,要與HMM所采用的建?;恢?,然后對用戶的模仿發(fā)音逐幀提取出語音特征矢量,根據(jù)標準的Viterbi解碼算法,在上述音素序列的限制下,對模仿發(fā)音的各幀與預先訓練好的聲學模型進行最優(yōu)匹配,得到每一幀與適當?shù)囊羲貭顟B(tài)間的對應關系。在S84,將各幀特征矢量與對應音素的HMM狀態(tài)中的高斯混合進行比照,得到二者匹配的似然分,逐幀累加起來并求平均,作為用戶模仿發(fā)音內(nèi)容的準確度得分。為了使分數(shù)更加穩(wěn)定,可以為每個音素預先訓練一個反模型,用各幀特征矢量與其強制對準的音素的反模型的匹配分數(shù)對上述得分做歸一化,方便進行拒識。
顯然,如果用戶模仿語音(或是仿冒錄音)的內(nèi)容不對,或是與提示語音的發(fā)音方式有較大差異的話,上述強制對準的音素狀態(tài)是不匹配的,特征與音素狀態(tài)間的矢量距離會非常大,因此得分必然很低,從而得到被拒絕的結(jié)果;反之,如果用戶現(xiàn)場模仿語音的內(nèi)容與之一致,則強制對準的音素狀態(tài)就會比較匹配,特征與音素狀態(tài)間的距離較小,因此得分會比較高,從而得到被接受的結(jié)果。
這樣,就通過對用戶模仿隨機提示的發(fā)音內(nèi)容的校驗,達到了確認其是否是在場發(fā)音狀態(tài)的目標。
為了使現(xiàn)場發(fā)音比對的準確度和可信度更高,提示模板語音的內(nèi)容需要滿足預定條件,以確保提取出的關鍵特征點序列或音素內(nèi)容足以表征現(xiàn)場發(fā)音者的個性特點。一種可行的實施方法是由模板語音集生成單元302執(zhí)行(a)從海量的文本語料中,篩選出一批長度基本符合要求的句子。本實施例中,每個提示語音所包含的音節(jié)個數(shù)為8~12個,然后拋掉那些包含重復文字或重復發(fā)音(不考慮聲調(diào)的因素)很多的語句,剩余的作為候選集合。
(b)編寫一個迭代程序,按梯度下降法,對候選集合中的每個句子分別嘗試保留或去除操作,計算剩余句子集合中所包含的元輔音對是否趨向于均衡,重復此過程,直至迭代過程收斂,或剩余的句子達到預定的數(shù)目。
(c)在根據(jù)挑選出來的提示文本錄制提示語音集合的過程中,隨機地插入一些不規(guī)則的停頓,或變調(diào)的片斷,以加大可能的仿冒錄音者的闖入難度。
(d)在進行真人在場發(fā)音狀態(tài)驗證時,首先從提示語音集合中隨機挑選第一個提示語句,之后隨著驗證過程的繼續(xù)并且需要更多的提示語音時,每次都先隨機抽取若干個語句,然后從中挑選一個所含音素內(nèi)容與之前用過的各個提示語音所含音素的并集的重合度最低的語句使用。
根據(jù)上述準則,可保證在線驗證時所用的提示模板語音更全面地體現(xiàn)用戶的發(fā)音特點,從而使認證結(jié)果具有更高的穩(wěn)定性和可信度。
由于本發(fā)明可以在驗證用戶身份的同時驗證用戶是否在現(xiàn)場,從而應用本發(fā)明通過電信網(wǎng)和互聯(lián)網(wǎng)進行遠程身份校驗時,通過分析待認證的用戶與系統(tǒng)交互的過程中所形成的聲音數(shù)據(jù),就可以確認該遠程用戶是否就是其所宣稱身份的人的過程,因而本發(fā)明尤其適用于基于電信網(wǎng)和互聯(lián)網(wǎng)的需要遠程身份確認的應用,例如呼叫中心等。
盡管使用本領域的通用術語,對本發(fā)明的優(yōu)選實施例進行了描述,這種描述只是用于示例性的目的,應當理解的是,在不偏離本發(fā)明的精神或范圍的前提下,可以進行改變和變化。
權利要求
1.一種用于驗證真人在場的聲紋認證設備,包括語音輸入裝置,用于接收用戶輸入的語音;聲紋識別裝置,用于將用戶輸入的認證語音與聲紋模型進行對比認證,以便驗證用戶身份;在場驗證裝置,用于將用戶輸入的模仿語音與預制的提示音集合中隨機選出的提示音進行對比認證,以便確定用戶在場發(fā)音;以及判定裝置,用于根據(jù)聲紋識別裝置和在場驗證裝置的認證結(jié)果,判斷用戶是否真實且在場。
2.如權利要求1所述的聲紋認證設備,其中所述在場驗證裝置包括模板語音集生成單元,用于從語料庫中選出滿足預定條件的句子作為提示文本,并將提示文本按照預定規(guī)則錄制為提示音集合;相似度匹配單元,用于對隨機選出的提示音和用戶輸入的模仿語音進行相似度匹配,以確認用戶是否在場發(fā)音。
3.如權利要求2所述的聲紋認證設備,其中所述模板語音集生成單元按照下列規(guī)則錄制提示音集合在利用挑選出來的提示文本錄制提示語音集合時隨機地插入具有預定規(guī)律的關鍵特征點,以及使該提示音集合所含的元輔音對分布均衡。
4.如權利要求2所述的聲紋認證設備,其中所述相似度匹配單元包括第一關鍵特征點序列提取單元,用于從提示音中提取第一關鍵特征點序列;第二關鍵特征點序列提取單元,用于從用戶輸入的模仿語音中提取第二關鍵特征點序列;以及第一匹配單元,將第一關鍵特征點序列和第二關鍵特征點序列進行匹配以判斷出用戶是否在場發(fā)音。
5.如權利要求4所述的聲紋認證設備,其中所述第一關鍵特征點序列和第二關鍵特征點序列是與語音中停頓靜音段的個數(shù)及其時長分布、關鍵特征點的趨勢曲線以及元輔音屬性分布序列有關的參數(shù)。
6.如權利要求4或5所述的聲紋認證設備,其中所述第一匹配單元,利用動態(tài)時間彎折方法來計算提取出的第一關鍵特征點序列和第二關鍵特征點序列之間的失真距離,根據(jù)失真距離求出相似度分數(shù),并根據(jù)下式計算出相似度總分數(shù),在相似度總分數(shù)高于預定閾值時,判斷出用戶在場發(fā)音s~=1NΣi=1Nwisi,]]>其中 是相似度總分數(shù)。
7.如權利要求1所述的聲紋認證設備,其中所述在場驗證裝置包括對準單元,用于將提示音的文本內(nèi)容擴展到它對應的音素序列,對模仿發(fā)音的各幀與預先訓練好的聲學模型進行最優(yōu)匹配,以便獲得每一幀與適當?shù)囊羲貭顟B(tài)間的對應關系;匹配單元,用于將模仿發(fā)音的各幀的特征矢量與對應音素狀態(tài)中的高斯混合進行對比,獲得匹配似然分,并針對所有幀求出平均似然分,作為用戶的模仿發(fā)音的準確度分數(shù)并判斷出用戶是否在場發(fā)音。
8.如權利要求7所述的聲紋認證設備,其中所述在場驗證裝置還包括學習單元,用于從標注語音數(shù)據(jù)庫中學習一組上下文相關的、非特定人的基于隱馬爾可夫模型的音素模型,作為聲學模型。
9.如權利要求1所述的聲紋認證設備,其中所述聲紋識別裝置是文本無關的,其包括聲紋特征提取單元,用于從用戶輸入的語音中提取可表征其發(fā)音特點的聲紋特征序列;聲紋模型建立單元,用于根據(jù)提取出的聲紋特征序列建立表征用戶本人發(fā)音特點的聲紋模型庫;聲紋模式匹配單元,用于從用戶輸入的認證語音中提取聲紋特征序列并與聲紋模型庫中對應的聲紋模型進行比對,從而驗證所述用戶的身份。
10.如權利要求1所述的聲紋認證設備,其中還包括與語音輸入裝置連接的密碼驗證裝置,用于預先通過密碼驗證用戶的身份。
11.一種用于驗證真人在場的聲紋認證方法,包括語音輸入步驟,用于接收用戶輸入的語音;聲紋識別步驟,用于將用戶輸入的認證語音與聲紋模型進行對比認證,以便驗證用戶身份;在場驗證步驟,用于將用戶輸入的模仿語音與預制的提示音集合中隨機選出的提示音進行對比認證,以便確定用戶在場發(fā)音;以及判定步驟,用于根據(jù)聲紋識別步驟和在場驗證步驟的認證結(jié)果,判斷用戶是否真實且在場。
12.如權利要求11所述的聲紋認證方法,其中所述在場驗證步驟包括模板語音集生成步驟,用于從語料庫中選出滿足預定條件的句子作為提示文本,并將提示文本按照預定規(guī)則錄制為提示音集合;相似度匹配步驟,用于對隨機選出的提示音和用戶輸入的模仿語音進行相似度匹配,以確認用戶是否在場發(fā)音。
13.如權利要求12所述的聲紋認證方法,其中所述模板語音集生成步驟按照下列規(guī)則錄制提示音集合在利用挑選出來的提示文本錄制提示語音集合時隨機地插入具有預定規(guī)律的關鍵特征點,以及使該提示音集合所含的元輔音對分布均衡。
14.如權利要求12所述的聲紋認證方法,其中所述相似度匹配步驟包括第一關鍵特征點序列提取步驟,用于從提示音中提取第一關鍵特征點序列;第二關鍵特征點序列提取步驟,用于從用戶輸入的模仿語音中提取第二關鍵特征點序列;以及第一匹配步驟,將第一關鍵特征點序列和第二關鍵特征點序列進行匹配并判斷出用戶是否是在場發(fā)音。
15.如權利要求14所述的聲紋認證方法,其中所述第一關鍵特征點序列和第二關鍵特征點序列是與語音中停頓靜音段的個數(shù)及其時長分布、關鍵特征點的趨勢曲線以及元輔音屬性分布序列有關的參數(shù)。
16.如權利要求14或15所述的聲紋認證方法,其中所述第一匹配步驟利用動態(tài)時間彎折方法來計算提取出的第一關鍵特征點序列和第二關鍵特征點序列之間的失真距離,根據(jù)失真距離求出相似度分數(shù),以及根據(jù)下式計算出相似度總分數(shù),在相似度總分數(shù)高于預定閾值時,判斷出用戶在場發(fā)音s~=1NΣi=1Nwisi,]]>其中 是相似度總分數(shù)。
17.如權利要求11所述的聲紋認證方法,其中所述在場驗證步驟包括對準步驟,用于將提示音的文本內(nèi)容擴展到它對應的音素序列,對模仿發(fā)音的各幀與預先訓練好的聲學模型進行最優(yōu)匹配,以便獲得每一幀與適當?shù)囊羲貭顟B(tài)間的對應關系;匹配步驟,用于將模仿發(fā)音的各幀的特征矢量與對應音素狀態(tài)中的高斯混合進行對比,獲得匹配似然分,并針對所有幀求出平均似然分,作為用戶的模仿發(fā)音的準確度分數(shù)。
18.如權利要求17所述的聲紋認證方法,其中在場驗證步驟還包括學習步驟,用于通過從標注語音數(shù)據(jù)庫中學習一組上下文相關的、非特定人的基于隱馬爾可夫模型的音素模型作為聲學模型;
19.如權利要求11所述的聲紋認證方法,其中所述聲紋識別是文本無關的,所述聲紋識別步驟包括聲紋特征提取步驟,用于從用戶語音中提取可表征其發(fā)音特點的聲紋特征序列;聲紋模型建立步驟,用于根據(jù)提取出的聲紋特征序列建立表征用戶本人發(fā)音特點的聲紋模型庫;聲紋模式匹配步驟,用于從用戶輸入的認證語音中提取聲紋特征序列并與聲紋模型庫中對應的聲紋模型進行比對,從而驗證所述用戶的身份。
20.如權利要求11所述的聲紋認證方法,其中在語音輸入步驟之前包括通過密碼驗證用戶的身份的步驟。
全文摘要
一種用于驗證真人在場的聲紋認證設備,包括語音輸入裝置,用于接收用戶輸入的語音;聲紋識別裝置,用于將用戶輸入的認證語音與聲紋模型進行對比認證,以便驗證用戶身份;在場驗證裝置,用于將用戶輸入的模仿語音與預制的提示音集合中隨機選出的提示音進行對比認證,以便確定用戶在場發(fā)音;以及判定裝置,用于根據(jù)聲紋識別裝置和在場驗證裝置的認證結(jié)果,判斷用戶是否真實且在場。以及一種用于驗證真人在場的聲紋認證方法。從而在驗證用戶身份的同時驗證真實的用戶是否是在現(xiàn)場發(fā)音,有效地拒絕了利用錄音或自動合成音的假冒者通過身份驗證,提高了聲紋認證的安全性。
文檔編號G10L15/00GK1808567SQ200610002669
公開日2006年7月26日 申請日期2006年1月26日 優(yōu)先權日2006年1月26日
發(fā)明者覃文華, 宋戰(zhàn)江, 張玉霞 申請人:覃文華