本發(fā)明涉及聲紋識別,更具體地說,本發(fā)明涉及一種聲紋識別方法及系統(tǒng)。
背景技術(shù):
1、聲紋識別作為一種更便捷、自然的身份認證手段,廣泛應(yīng)用于身份驗證、電話客服、金融安保、教育醫(yī)療、公安刑偵、智能家居,智慧建筑等領(lǐng)域;聲紋識別是一項具有廣泛應(yīng)用前景的人工智能技術(shù),上至國家安全、軍事通信,下至智能手機聲紋解鎖、智能設(shè)備喚醒服務(wù),聲紋識別都在發(fā)揮著巨大的作用;為許多領(lǐng)域帶來更好的安全性、用戶體驗和成本效益,具有廣泛的社會意義和經(jīng)濟意義。
2、與傳統(tǒng)的安全認證方式,如密碼、簽名、指紋等相比,聲紋識別具有不易被竊取、遺忘、丟失或偽造,具有更高的安全性和可靠性等諸多優(yōu)點。
3、但是其在實際使用時,仍舊存在一些缺點,如傳統(tǒng)的聲紋數(shù)據(jù)環(huán)境噪聲會對聲紋的提取和匹配造成干擾,降低識別的準確性,并且說話者的心理狀態(tài)、情緒或健康狀況可能導(dǎo)致發(fā)音變化,從而影響識別效果。
技術(shù)實現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的上述缺陷,本發(fā)明的實施例提供一種聲紋識別方法,以解決上述背景技術(shù)中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、步驟a1:使用麥克風(fēng)采集設(shè)備捕獲用戶的聲音信號數(shù)據(jù);
4、步驟a2:對采集到的聲音信號數(shù)據(jù)使用譜減法進行去噪處理;
5、步驟a3:將預(yù)處理后的聲音信號數(shù)據(jù)轉(zhuǎn)換為特征參數(shù);
6、步驟a4:將特征參數(shù)進行構(gòu)建隱馬爾可夫模型并訓(xùn)練;
7、步驟a5:用于將經(jīng)過隱馬爾可夫模型訓(xùn)練后的數(shù)據(jù)進行計算得出聲紋值與數(shù)據(jù)庫中的聲紋模型進行匹配,計算相似度得分;
8、步驟a6:根據(jù)相似度得分判斷是否匹配成功,進行身份驗證。
9、優(yōu)選的,所述步驟a1中,選擇一款麥克風(fēng),確保麥克風(fēng)與錄音設(shè)備兼容;將麥克風(fēng)正確連接到錄音設(shè)備上;對于usb麥克風(fēng),只需將其插入設(shè)備的usb端口即可;對于需要聲卡或音頻接口的麥克風(fēng),需要將麥克風(fēng)連接到聲卡或音頻接口,然后將聲卡或音頻接口連接到電腦或其他錄音設(shè)備。
10、在錄音設(shè)備上設(shè)置正確的輸入源為麥克風(fēng);調(diào)整音量控制,確保麥克風(fēng)音量適中,避免過大或過小導(dǎo)致的錄音失真或不清晰;打開錄音軟件或設(shè)備的錄音功能;按下錄音按鈕開始錄音;此時,聲音將通過麥克風(fēng)被捕獲并轉(zhuǎn)換為數(shù)字信號存儲在設(shè)備中;在錄音過程中,注意監(jiān)控錄音質(zhì)量;如果發(fā)現(xiàn)有噪聲、雜音或音量不均等問題,可以嘗試調(diào)整麥克風(fēng)位置、降低環(huán)境噪聲或調(diào)整錄音設(shè)備設(shè)置。
11、優(yōu)選的,所述步驟a2中,將采集到的聲音信號數(shù)據(jù)使用譜減法進行去噪去處理。
12、優(yōu)選的,所述步驟a3中,特征參數(shù)包括第一聲音頻率、譜帶寬、第二聲音特征系數(shù);
13、第一聲音頻率的計算方法具體為:
14、,其中,i表示為第一聲音頻率,g表示為第一基音周期;
15、譜帶寬的計算方法具體為:
16、,其中,j表示為譜帶寬,表示為功率譜密度函數(shù)方差;
17、第二聲音特征系數(shù)的計算方法具體為:
18、,其中,表示為第u維的第二聲音特征系數(shù),f表示為語音信號的長度,r表示為頻域信息的維度,表示為第q個幀的fbank特征,表示為圓周率,q表示為第q幀;v表示為一個常數(shù),v與濾波器有關(guān),如果使用m個三角濾波器,則m就是濾波器的數(shù)量。
19、優(yōu)選的,所述步驟a4中,將第一聲音頻率、譜帶寬和線性預(yù)測系數(shù)進行構(gòu)建隱馬爾可夫模型,構(gòu)建隱馬爾可夫模型的方法具體為:
20、步驟1:數(shù)據(jù)預(yù)處理:對計算出的第一聲音頻率、譜帶寬和線性預(yù)測系數(shù)進行標準化處理,以確保不同特征在同一尺度上,便于模型訓(xùn)練。
21、步驟2:初始化模型參數(shù):設(shè)定每個隱藏狀態(tài)的初始概率;
22、初始化狀態(tài)轉(zhuǎn)移概率矩陣n;狀態(tài)轉(zhuǎn)移概率矩陣n的計算方法具體為:
23、,其中,表示為狀態(tài)轉(zhuǎn)移概率矩陣,表示為從狀態(tài)j轉(zhuǎn)移到狀態(tài)k的計數(shù);
24、初始化觀測概率矩陣r,對于每個隱藏狀態(tài),定義觀測到特定特征值的概率;觀測概率矩陣的計算方法具體為:
25、,其中,表示為觀測概率矩陣,在狀態(tài)?m下觀測到觀測值p的概率,表示為狀態(tài)?m下觀測到觀測值p的計數(shù),
26、步驟3:模型訓(xùn)練:使用期望最大化算法調(diào)整模型參數(shù);
27、步驟4:模型評估:將數(shù)據(jù)作為測試集,評估模型的性能,根據(jù)評估結(jié)果調(diào)整模型參數(shù);
28、通過步驟1-步驟4,使用第一聲音頻率、譜帶寬和線性預(yù)測系數(shù)構(gòu)建一個隱馬爾可夫模型,用于聲學(xué)信號的處理和分析。
29、優(yōu)選的,所述步驟a5中,聲紋值的計算方法具體為:
30、,其中,z表示為聲紋值,j表示為譜帶寬,i表示為第一聲音頻率,表示為時間變量,表示為第二聲音特征系數(shù),、表示為權(quán)重系數(shù)。
31、相似度得分的計算方法具體為:
32、,其中,z表示為聲紋值,表示為數(shù)據(jù)庫中第i個聲紋模型的聲紋值,i表示為第i個聲紋模型。
33、優(yōu)選的,所述步驟a6中,將計算得出的相似度得分與閾值進行對比,若計算得出的相似度得分大于閾值,則輸出聲紋匹配成功,此時,系統(tǒng)提示:用戶驗證成功;若計算得出的相似度得分小于閾值,則輸出聲紋匹配失敗,此時,系統(tǒng)提示:用戶驗證失敗,請重新驗證。
34、本發(fā)明的技術(shù)效果和優(yōu)點:
35、本系統(tǒng)通過麥克風(fēng)采集用戶聲音信號,進行降噪和預(yù)處理后,提取特征參數(shù)如第一聲音頻率、譜帶寬和第二聲音特征系數(shù);接著,利用這些特征構(gòu)建并訓(xùn)練隱馬爾可夫模型(hmm);訓(xùn)練后的模型用于計算聲紋值,并與數(shù)據(jù)庫中的聲紋模型進行匹配,計算相似度得分;根據(jù)相似度得分與預(yù)設(shè)閾值的比較結(jié)果,系統(tǒng)將輸出身份驗證成功或失敗的指令;本發(fā)明通過譜減法降噪去除了聲紋提取時的環(huán)境噪聲,提高了識別的準確性,并且隱馬爾可夫模型經(jīng)過訓(xùn)練,去除了心理狀態(tài)、情緒或健康狀況對發(fā)音產(chǎn)生變化的影響,降低影響識別效果。
1.一種聲紋識別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種聲紋識別方法,其特征在于:
3.根據(jù)權(quán)利要求1所述的一種聲紋識別方法,其特征在于:所述步驟a2中,將采集到的聲音信號數(shù)據(jù)使用譜減法進行去噪的步驟具體為:
4.根據(jù)權(quán)利要求1所述的一種聲紋識別方法,其特征在于:所述步驟a3中,特征參數(shù)包括第一聲音頻率、譜帶寬、第二聲音特征系數(shù);
5.根據(jù)權(quán)利要求4所述的一種聲紋識別方法,其特征在于:譜帶寬的計算方法具體為:
6.根據(jù)權(quán)利要求4所述的一種聲紋識別方法,其特征在于:第二聲音特征系數(shù)的計算方法具體為:
7.根據(jù)權(quán)利要求1所述的一種聲紋識別方法,其特征在于:所述步驟a4中,將第一聲音頻率、譜帶寬和線性預(yù)測系數(shù)進行構(gòu)建隱馬爾可夫模型,構(gòu)建隱馬爾可夫模型的方法具體為:
8.根據(jù)權(quán)利要求1所述的一種聲紋識別方法,其特征在于:所述步驟a5中,聲紋值的計算方法具體為:
9.根據(jù)權(quán)利要求1所述的一種聲紋識別方法,其特征在于:所述步驟a6中,將計算得出的相似度得分與閾值進行對比,若計算得出的相似度得分大于閾值,則輸出聲紋匹配成功,此時,系統(tǒng)提示:用戶驗證成功;若計算得出的相似度得分小于閾值,則輸出聲紋匹配失敗,此時,系統(tǒng)提示:用戶驗證失敗,請重新驗證。
10.一種聲紋識別系統(tǒng),使用如權(quán)利要求1-9任一項所述一種聲紋識別方法,其特征在于: