專利名稱:聲紋密碼語音提示的聲紋認證系統(tǒng)及其實現(xiàn)方法
技術領域:
本發(fā)明涉及一種聲紋認證系統(tǒng),尤其涉及一種聲紋密碼語音提示的聲紋認證系統(tǒng);此外,本發(fā)明還涉及一種聲紋密碼語音提示的聲紋認證系統(tǒng)的實現(xiàn)方法。
背景技術:
聲紋認證的密碼通常分為固定密碼和隨機密碼兩種,由于固定密碼容易被盜錄、 攻擊、破解,而隨機密碼則無法事先獲取,每次都不固定,具有較好的安全性。然而,任何一種密碼認證系統(tǒng)都有其薄弱的地方。對于聲紋認證系統(tǒng)也是這樣,網(wǎng)絡上存在各種安全隱患,若攻擊者直接得到密碼內(nèi)容,則有可能進行各種攻擊,如通過偷錄、拼接用戶語音等方式威脅用戶的密碼安全。其中,危害最大的是通過惡意程序進行攻擊。因此,需要研發(fā)一種聲紋認證系統(tǒng),用來增加惡意程序破解聲紋識別密碼的難度, 以提高系統(tǒng)的安全性。
發(fā)明內(nèi)容
本發(fā)明要解決的技術問題是提供一種聲紋密碼語音提示的聲紋認證系統(tǒng),由于語音內(nèi)容識別技術的困難及于服務器對于用戶登錄的嚴格的時間限制,這將大大增加破解的難度,提高系統(tǒng)的安全性。為此,本發(fā)明還提供一種聲紋密碼語音提示的聲紋認證系統(tǒng)的實現(xiàn)方法。為解決上述技術問題,本發(fā)明提供一種聲紋密碼語音提示的聲紋認證系統(tǒng),包括 密碼建立模塊、語音識別模塊和聲紋識別模塊;該密碼建立模塊與服務器相連,服務器產(chǎn)生隨機密碼,以語音格式提示用戶密碼內(nèi)容,用戶根據(jù)提示提供相應的語音;該語音識別模塊用于對用戶提供的語音進行內(nèi)容分析,對提供的語音內(nèi)容與服務器產(chǎn)生的密碼內(nèi)容進行模式匹配,若兩者不符合,說明用戶提供的密碼不合要求,若兩者相符,則進入聲紋識別模塊; 該聲紋識別模塊分為注冊單元和測試單元,在注冊單元建立說話人模型,在測試單元調(diào)用說話人模型,分析測試時提供的語音特征,進行一個確認判決,接受或拒絕。所述密碼建立模塊中用戶根據(jù)提示提供相應的語音,該語音的提供方式是人工拼接的,或者是機器合成的,或者采用對語音進行加噪處理。所述密碼建立模塊中用戶根據(jù)提示提供相應的語音,該語音的提供方式是每次讀一個字或者將密碼分成若干段讀,或者通過視頻方式提供密碼。所述密碼建立模塊中的密碼是隨機密碼或者由隨機密碼和固定密碼組成,當密碼由隨機密碼和固定密碼組成時,只提供語音格式的隨機密碼給用戶。所述聲紋識別模塊中在注冊單元建立說話人模型,具體為說話人提供若干段固定密碼及隨機數(shù)字串的語音數(shù)據(jù),在由大量說話人的大量語音訓練出的通用背景模型的基礎上,通過最大后驗概率自適應算法對該說話人的模型參數(shù)進行估計,建立該說話人模型。所述聲紋識別模塊中在測試單元調(diào)用說話人模型,分析測試時提供的語音特征, 獲得測試語音與該說話人模型匹配的一個匹配評分,并將該評分與聲紋認證的閾值進行匹配,進行一個確認判決,若評分大于閾值,則接受,反之,若評分低于閾值,則拒絕。此外,本發(fā)明還提供一種聲紋密碼語音提示的聲紋認證系統(tǒng)的實現(xiàn)方法,包括如下步驟(1)服務器產(chǎn)生隨機密碼,以語音方式提示用戶密碼內(nèi)容;(2)用戶根據(jù)提示提供相應的語音;(3)語音識別模塊對用戶提供的語音進行內(nèi)容分析,對提供的語音內(nèi)容與密碼內(nèi)容進行模式匹配,判斷兩者是否相符,若不符合,說明用戶提供的密碼不合要求,應予以拒絕,回到步驟⑵;若相符,則進入步驟⑷;(4)在注冊階段,聲紋識別模塊建立說話人模型;在測試階段,聲紋識別模塊調(diào)用說話人模型,分析測試時提供的語音特征,進行一個確認判決,接受或拒絕。步驟O)中,所述用戶根據(jù)提示提供相應的語音,該語音的提供方式是人工拼接的,或者是機器合成的,或者采用對語音進行加噪處理。步驟O)中,所述用戶根據(jù)提示提供相應的語音,該語音的提供方式是每次讀一個字或者將密碼分成若干段讀,或者通過視頻方式提供密碼。步驟中,所述在注冊階段建立說話人模型,具體為說話人提供若干段固定密碼及隨機數(shù)字串的語音數(shù)據(jù),在由大量說話人的大量語音訓練出的通用背景模型的基礎上,通過最大后驗概率自適應算法對該說話人的模型參數(shù)進行估計,建立該說話人模型。步驟中,所述在測試階段聲紋識別模塊調(diào)用說話人模型,分析測試時提供的語音特征,獲得測試語音與該說話人模型匹配的一個匹配評分,并將該評分與聲紋認證的閾值進行匹配,進行一個確認判決,若評分大于閾值,則接受,結(jié)束流程;反之,若評分低于閾值,則拒絕,回到步驟⑵。本發(fā)明的有益效果在于本發(fā)明通過語音的方式提供聲紋識別的登錄密碼內(nèi)容, 增加了惡意工具破解聲紋識別密碼的難度,卻基本不會給用戶帶來不便,可以方便的與其他安全措施相結(jié)合,提高聲紋認證系統(tǒng)的安全性。
圖1是本發(fā)明系統(tǒng)的模塊結(jié)構(gòu)示意圖;圖2是本發(fā)明方法中注冊階段的流程示意圖;圖3是本發(fā)明方法中測試階段的流程示意圖。
具體實施例方式如圖1所示,本發(fā)明聲紋密碼語音提示的聲紋認證系統(tǒng)主要由以下三部分構(gòu)成1.密碼建立模塊。該密碼是隨機密碼或者由隨機密碼和固定密碼組成,固定密碼可由用戶自己設定。該密碼建立模塊與服務器相連,服務器產(chǎn)生隨機密碼,以語音方式提示用戶密碼內(nèi)容,用戶根據(jù)提示提供相應的語音。如用戶密碼由固定密碼和隨機密碼組成,只提供語音格式的隨機密碼給用戶。語音的提供方式是多變的,可以是人工拼接的,也可以是機器合成的,為了增加攻擊者的識別困難,在不影響真是用戶聽取密碼的前提下,通常要對語音進行加噪等處理,如為語音疊加一定程度的噪聲等。該語音的提供方式可以是每次讀一個字或者將密碼分成若干段讀,或者通過視頻方式提供密碼。2.語音識別模塊。該模塊對用戶提供的語音進行內(nèi)容分析,對提供的語音內(nèi)容與服務器產(chǎn)生的密碼內(nèi)容進行模式匹配,判斷兩者是否相符,若不符合,說明用戶提供的密碼不合要求,應予以拒絕。若相符,則進入下面的聲紋識別模塊。例如,服務器產(chǎn)生隨機密碼 “789100”,該隨機密碼以語音格式提示用戶密碼內(nèi)容(即以語音“789100”的方式提示用戶),用戶根據(jù)該語音提示提供相應的語音(即讀出“789100”的語音);然后,語音識別模塊對用戶提供的語音進行內(nèi)容分析,得到語音的內(nèi)容為“789100”,對提供的語音內(nèi)容(即 “789100”)與服務器產(chǎn)生的密碼內(nèi)容(即“789100”)進行模式匹配,判斷兩者是否相符,若不符合,說明用戶提供的密碼不合要求,應予以拒絕;若相符,則進入下一階段的聲紋識別模塊。3.聲紋識別模塊,該模塊由兩部分組成注冊單元,說話人提供若干段固定密碼及隨機數(shù)字串的語音數(shù)據(jù),在由大量說話人的大量語音訓練出的通用背景模型(例如高斯混合模型)的基礎上,通過最大后驗概率自適應算法(本領域公知的經(jīng)典算法)對該說話人的模型參數(shù)進行估計,建立該說話人的模型;測試單元,系統(tǒng)調(diào)用聲明的說話人模型,分析測試時提供的語音特征,獲得測試語音與該聲明模型匹配的一個匹配評分,并將該評分與聲紋認證的閾值進行匹配,進行一個確認判決,若評分大于閾值,則接受,反之,若評分低于閾值,則拒絕。本發(fā)明通過語音提示聲紋密碼的聲紋認證系統(tǒng),來提高聲紋身份認證的安全性。 本發(fā)明中,用戶的密碼是由服務器通過隨機數(shù)生成算法產(chǎn)生的隨機密碼(如成語或數(shù)字串等),即每次用戶登錄采用的密碼是隨機的,在登錄時才能獲取。其次,該隨機密碼是通過語音的方式提供給用戶的,要求用戶在聽到提示語音后,提供本人的指定內(nèi)容(密碼)的語音用于登錄。對于用戶而言,識別語音的提示內(nèi)容是比較容易的,而對于惡意攻擊程序而言, 這個過程是比較困難的,獲取密碼內(nèi)容需要消耗一定的時間。而聲紋認證的過程相對來說較短,如正常語速讀8個數(shù)字需要3秒左右,為了安全,故服務器提供給用戶的每一步驟的登錄時間也是有限的,通過增加惡意程序獲取密碼內(nèi)容的難度,可以有效的提高系統(tǒng)的安全性。并且,語音識別是一個專業(yè)性非常強的復雜技術,這大大提高了攻擊者破解的門檻。聲紋識別屬于生物識別技術的一種,是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動識別說話人身份的技術。與語音識別不同的是,聲紋識別利用的是語音信號中的說話人信息,而不考慮語音中的字詞意思,它強調(diào)說話人的個性;而語音識別的目的是識別出語音信號中的言語內(nèi)容,并不考慮說話人是誰,它強調(diào)共性。如圖2和圖3所示,本發(fā)明聲紋密碼語音提示的聲紋認證系統(tǒng)的實現(xiàn)方法,主要包括如下步驟(1)服務器產(chǎn)生語音格式隨機密碼,以語音方式提示用戶密碼內(nèi)容;(2)用戶根據(jù)提示提供相應的語音;(3)語音識別模塊對用戶提供的語音進行內(nèi)容分析,對提供的語音內(nèi)容與密碼內(nèi)容進行模式匹配,判斷兩者是否相符,若不符合,說明用戶提供的密碼不合要求,應予以拒絕,重新回到步驟(2)用戶根據(jù)提示提供相應的語音;若相符,則進入步驟;(4)在注冊階段,聲紋識別模塊建立說話人模型(即注冊模型,見圖2、,具體為說話人提供若干段固定密碼及隨機數(shù)字串的語音數(shù)據(jù),在由大量說話人的大量語音訓練出的通用背景模型(例如高斯混合模型)的基礎上,通過最大后驗概率自適應算法(本領域公知的經(jīng)典算法)對該說話人的模型參數(shù)進行估計,建立該說話人的模型;在測試階段,聲紋識別模塊調(diào)用說話人模型(即注冊模型),分析測試時提供的語音特征,獲得測試語音與該聲明模型匹配的一個匹配評分,并將該評分與聲紋認證的閾值進行匹配,進行一個確認判決,若評分大于閾值,則接受,結(jié)束流程;反之,若評分低于閾值,則拒絕,重新回到步驟(2) 用戶根據(jù)提示提供相應的語音(見圖3)。 本發(fā)明提出了聲紋密碼的語音提示方法,用戶在進行語音密碼登錄時,根據(jù)語音提示讀出密碼內(nèi)容;而對于惡意程序而言,首先要獲得語音的文本內(nèi)容,這需要語音識別技術,這是一個難度較大的課題,由于語音內(nèi)容識別技術的困難及于服務器對于用戶登錄的嚴格的時間限制,這將大大增加破解的難度,提高系統(tǒng)的安全性。而人腦高度發(fā)達,識別語音內(nèi)容沒有困難,本發(fā)明將不會給真實的用戶帶來負面影響。
權利要求
1.一種聲紋密碼語音提示的聲紋認證系統(tǒng),其特征在于,包括密碼建立模塊、語音識別模塊和聲紋識別模塊;該密碼建立模塊與服務器相連,服務器產(chǎn)生隨機密碼,以語音格式提示用戶密碼內(nèi)容, 用戶根據(jù)提示提供相應的語音;該語音識別模塊用于對用戶提供的語音進行內(nèi)容分析,對提供的語音內(nèi)容與服務器產(chǎn)生的密碼內(nèi)容進行模式匹配,若兩者不符合,說明用戶提供的密碼不合要求,若兩者相符, 則進入聲紋識別模塊;該聲紋識別模塊分為注冊單元和測試單元,在注冊單元建立說話人模型,在測試單元調(diào)用說話人模型,分析測試時提供的語音特征,進行一個確認判決,接受或拒絕。
2.如權利要求1所述的聲紋密碼語音提示的聲紋認證系統(tǒng),其特征在于,所述密碼建立模塊中用戶根據(jù)提示提供相應的語音,該語音的提供方式是人工拼接的,或者是機器合成的,或者采用對語音進行加噪處理。
3.如權利要求1或2所述的聲紋密碼語音提示的聲紋認證系統(tǒng),其特征在于,所述密碼建立模塊中用戶根據(jù)提示提供相應的語音,該語音的提供方式是每次讀一個字或者將密碼分成若干段讀,或者通過視頻方式提供密碼。
4.如權利要求1所述的聲紋密碼語音提示的聲紋認證系統(tǒng),其特征在于,所述密碼建立模塊中的密碼是隨機密碼或者由隨機密碼和固定密碼組成,當密碼由隨機密碼和固定密碼組成時,只提供語音格式的隨機密碼給用戶。
5.如權利要求1所述的聲紋密碼語音提示的聲紋認證系統(tǒng),其特征在于,所述聲紋識別模塊中在注冊單元建立說話人模型,具體為說話人提供若干段固定密碼及隨機數(shù)字串的語音數(shù)據(jù),在由大量說話人的大量語音訓練出的通用背景模型的基礎上,通過最大后驗概率自適應算法對該說話人的模型參數(shù)進行估計,建立該說話人模型。
6.如權利要求1所述的聲紋密碼語音提示的聲紋認證系統(tǒng),其特征在于,所述聲紋識別模塊中在測試單元調(diào)用說話人模型,分析測試時提供的語音特征,獲得測試語音與該說話人模型匹配的一個匹配評分,并將該評分與聲紋認證的閾值進行匹配,進行一個確認判決,若評分大于閾值,則接受,反之,若評分低于閾值,則拒絕。
7.一種聲紋密碼語音提示的聲紋認證系統(tǒng)的實現(xiàn)方法,其特征在于,包括如下步驟(1)服務器產(chǎn)生隨機密碼,以語音方式提示用戶密碼內(nèi)容;(2)用戶根據(jù)提示提供相應的語音;(3)語音識別模塊對用戶提供的語音進行內(nèi)容分析,對提供的語音內(nèi)容與密碼內(nèi)容進行模式匹配,判斷兩者是否相符,若不符合,說明用戶提供的密碼不合要求,應予以拒絕,回到步驟(2);若相符,則進入步驟⑷;(4)在注冊階段,聲紋識別模塊建立說話人模型;在測試階段,聲紋識別模塊調(diào)用說話人模型,分析測試時提供的語音特征,進行一個確認判決,接受或拒絕。
8.如權利要求7所述的聲紋密碼語音提示的聲紋認證系統(tǒng)的實現(xiàn)方法,其特征在于, 步驟O)中,所述用戶根據(jù)提示提供相應的語音,該語音的提供方式是人工拼接的,或者是機器合成的,或者采用對語音進行加噪處理。
9.如權利要求7所述的聲紋密碼語音提示的聲紋認證系統(tǒng)的實現(xiàn)方法,其特征在于, 步驟O)中,所述用戶根據(jù)提示提供相應的語音,該語音的提供方式是每次讀一個字或者將密碼分成若干段讀,或者通過視頻方式提供密碼。
10.如權利要求7所述的聲紋密碼語音提示的聲紋認證系統(tǒng)的實現(xiàn)方法,其特征在于, 步驟中,所述在注冊階段建立說話人模型,具體為說話人提供若干段固定密碼及隨機數(shù)字串的語音數(shù)據(jù),在由大量說話人的大量語音訓練出的通用背景模型的基礎上,通過最大后驗概率自適應算法對該說話人的模型參數(shù)進行估計,建立該說話人模型。
11.如權利要求7所述的聲紋密碼語音提示的聲紋認證系統(tǒng)的實現(xiàn)方法,其特征在于, 步驟(4)中,所述在測試階段聲紋識別模塊調(diào)用說話人模型,分析測試時提供的語音特征, 獲得測試語音與該說話人模型匹配的一個匹配評分,并將該評分與聲紋認證的閾值進行匹配,進行一個確認判決,若評分大于閾值,則接受,結(jié)束流程;反之,若評分低于閾值,則拒絕,回到步驟O)。
全文摘要
本發(fā)明公開了一種聲紋密碼語音提示的聲紋認證系統(tǒng),包括密碼建立模塊、語音識別模塊和聲紋識別模塊;該密碼建立模塊與服務器相連,服務器產(chǎn)生隨機密碼,以語音方式提示用戶密碼內(nèi)容,用戶根據(jù)提示提供相應的語音;該語音識別模塊用于對用戶提供的語音進行內(nèi)容分析,對提供的語音內(nèi)容與服務器產(chǎn)生的密碼內(nèi)容進行模式匹配,若不符合,說明用戶提供的密碼不合要求,若相符,則進入聲紋識別模塊;該聲紋識別模塊分為注冊單元和測試單元,在注冊單元建立說話人模型,在測試單元調(diào)用說話人模型,分析測試時提供的語音特征,進行一個確認判決,接受或拒絕。此外,本發(fā)明還公開了該系統(tǒng)的實現(xiàn)方法。本發(fā)明能提高聲紋認證的安全性。
文檔編號H04L29/06GK102413101SQ201010290330
公開日2012年4月11日 申請日期2010年9月25日 優(yōu)先權日2010年9月25日
發(fā)明者陳大年 申請人:盛樂信息技術(上海)有限公司