本技術(shù)涉及人工智能及金融,尤其涉及一種聲紋識(shí)別方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、聲紋識(shí)別是一種生物識(shí)別技術(shù),可以應(yīng)用于多種場(chǎng)景,例如可以應(yīng)用于金融領(lǐng)域場(chǎng)景進(jìn)行身份驗(yàn)證、反欺詐識(shí)別、電話(huà)銀行服務(wù)等。
2、目前,主要采用深度學(xué)習(xí)模型對(duì)用戶(hù)的語(yǔ)音數(shù)據(jù)進(jìn)行聲紋識(shí)別。然而在實(shí)際應(yīng)用中,語(yǔ)音數(shù)據(jù)通常會(huì)夾雜環(huán)境噪音,或者是在傳輸語(yǔ)音數(shù)據(jù)時(shí)產(chǎn)生信道噪音,當(dāng)噪音水平較高時(shí),深度學(xué)習(xí)模型難以準(zhǔn)確地從語(yǔ)音數(shù)據(jù)中提取用戶(hù)的聲紋特征,從而無(wú)法準(zhǔn)確地對(duì)聲紋特征進(jìn)行識(shí)別,導(dǎo)致聲紋識(shí)別的準(zhǔn)確性降低。
3、因此,如何提高聲紋識(shí)別的準(zhǔn)確性,成為了亟待解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的主要目的在于提出一種聲紋識(shí)別方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),旨在提高聲紋識(shí)別的準(zhǔn)確性。
2、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第一方面提出了一種聲紋識(shí)別方法,所述方法包括:
3、獲取聲紋樣本數(shù)據(jù);其中,所述聲紋樣本數(shù)據(jù)包括樣本語(yǔ)音數(shù)據(jù)和樣本說(shuō)話(huà)人標(biāo)簽;其中,所述樣本說(shuō)話(huà)人標(biāo)簽用于表征所述樣本語(yǔ)音數(shù)據(jù)的說(shuō)話(huà)人身份;
4、通過(guò)預(yù)設(shè)的原始聲紋提取模型對(duì)所述樣本語(yǔ)音數(shù)據(jù)進(jìn)行聲紋特征分布計(jì)算,得到樣本聲紋高斯分布數(shù)據(jù);
5、對(duì)所述樣本聲紋高斯分布數(shù)據(jù)進(jìn)行聲紋計(jì)算,得到樣本聲紋數(shù)據(jù);
6、對(duì)所述樣本聲紋數(shù)據(jù)進(jìn)行聲紋識(shí)別,得到樣本說(shuō)話(huà)人身份識(shí)別數(shù)據(jù);
7、基于所述樣本聲紋高斯分布數(shù)據(jù)、所述樣本說(shuō)話(huà)人身份識(shí)別數(shù)據(jù)和所述樣本說(shuō)話(huà)人標(biāo)簽對(duì)所述原始聲紋提取模型進(jìn)行模型優(yōu)化,得到目標(biāo)聲紋提取模型;
8、通過(guò)所述目標(biāo)聲紋提取模型對(duì)預(yù)先獲取的原始語(yǔ)音數(shù)據(jù)進(jìn)行聲紋提取,得到目標(biāo)聲紋數(shù)據(jù);
9、基于所述目標(biāo)聲紋數(shù)據(jù)進(jìn)行聲紋識(shí)別。
10、在一些實(shí)施例,所述樣本聲紋高斯分布數(shù)據(jù)包括樣本聲紋分布均值數(shù)據(jù)和樣本聲紋分布方差數(shù)據(jù),所述對(duì)所述樣本聲紋高斯分布數(shù)據(jù)進(jìn)行聲紋計(jì)算,得到樣本聲紋數(shù)據(jù),包括:
11、獲取所述樣本聲紋分布方差數(shù)據(jù)的數(shù)據(jù)維度,并基于所述數(shù)據(jù)維度生成隨機(jī)高斯噪聲數(shù)據(jù);
12、對(duì)所述樣本聲紋分布方差數(shù)據(jù)與所述隨機(jī)高斯噪聲數(shù)據(jù)進(jìn)行加噪處理,得到加噪聲紋特征數(shù)據(jù);
13、對(duì)所述樣本聲紋分布均值數(shù)據(jù)與所述加噪聲紋特征數(shù)據(jù)進(jìn)行聚合處理,得到所述樣本聲紋數(shù)據(jù)。
14、在一些實(shí)施例,所述基于所述樣本聲紋高斯分布數(shù)據(jù)、所述樣本說(shuō)話(huà)人身份識(shí)別數(shù)據(jù)和所述樣本說(shuō)話(huà)人標(biāo)簽對(duì)所述原始聲紋提取模型進(jìn)行模型優(yōu)化,得到目標(biāo)聲紋提取模型,包括:
15、基于所述樣本說(shuō)話(huà)人身份識(shí)別數(shù)據(jù)和所述樣本說(shuō)話(huà)人標(biāo)簽進(jìn)行識(shí)別損失計(jì)算,得到說(shuō)話(huà)人識(shí)別損失數(shù)據(jù);
16、基于所述樣本聲紋分布均值數(shù)據(jù)和所述樣本聲紋分布方差數(shù)據(jù)進(jìn)行散度損失計(jì)算,得到散度損失數(shù)據(jù);
17、對(duì)所述說(shuō)話(huà)人識(shí)別損失數(shù)據(jù)和所述散度損失數(shù)據(jù)進(jìn)行聚合計(jì)算,得到目標(biāo)損失數(shù)據(jù);
18、基于所述目標(biāo)損失數(shù)據(jù)對(duì)所述原始聲紋提取模型進(jìn)行參數(shù)調(diào)整,得到所述目標(biāo)聲紋提取模型。
19、在一些實(shí)施例,所述通過(guò)預(yù)設(shè)的原始聲紋提取模型對(duì)所述樣本語(yǔ)音數(shù)據(jù)進(jìn)行聲紋特征分布計(jì)算,得到樣本聲紋高斯分布數(shù)據(jù),包括:
20、對(duì)所述樣本語(yǔ)音數(shù)據(jù)進(jìn)行人聲提取,得到樣本人聲數(shù)據(jù);
21、對(duì)所述樣本人聲數(shù)據(jù)進(jìn)行頻譜轉(zhuǎn)換,得到原始樣本頻譜數(shù)據(jù);
22、對(duì)所述原始樣本頻譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,得到樣本頻譜特征數(shù)據(jù);
23、通過(guò)所述原始聲紋提取模型對(duì)所述樣本頻譜特征數(shù)據(jù)進(jìn)行高斯分布計(jì)算,得到所述樣本聲紋高斯分布數(shù)據(jù)。
24、在一些實(shí)施例,所述對(duì)所述樣本語(yǔ)音數(shù)據(jù)進(jìn)行人聲提取,得到樣本人聲數(shù)據(jù),包括:
25、對(duì)所述樣本語(yǔ)音數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,得到初始樣本語(yǔ)音數(shù)據(jù);
26、對(duì)所述初始樣本語(yǔ)音數(shù)據(jù)進(jìn)行分段處理,得到樣本語(yǔ)音片段數(shù)據(jù);
27、對(duì)所述樣本語(yǔ)音片段數(shù)據(jù)進(jìn)行特征提取,得到語(yǔ)音片段特征數(shù)據(jù);
28、對(duì)所述語(yǔ)音片段特征數(shù)據(jù)進(jìn)行人聲檢測(cè),得到所述樣本人聲數(shù)據(jù)。
29、在一些實(shí)施例,所述基于所述目標(biāo)聲紋數(shù)據(jù)進(jìn)行聲紋識(shí)別,包括:
30、通過(guò)所述目標(biāo)聲紋提取模型對(duì)預(yù)先獲取的目標(biāo)語(yǔ)音數(shù)據(jù)進(jìn)行聲紋提取,得到期望聲紋數(shù)據(jù);
31、對(duì)所述目標(biāo)聲紋數(shù)據(jù)和所述期望聲紋數(shù)據(jù)進(jìn)行相似度計(jì)算,得到聲紋相似度數(shù)據(jù);
32、基于所述聲紋相似度數(shù)據(jù)進(jìn)行聲紋識(shí)別。
33、在一些實(shí)施例,所述通過(guò)所述目標(biāo)聲紋提取模型對(duì)預(yù)先獲取的原始語(yǔ)音數(shù)據(jù)進(jìn)行聲紋提取,得到目標(biāo)聲紋數(shù)據(jù),包括:
34、對(duì)所述原始語(yǔ)音數(shù)據(jù)進(jìn)行人聲提取,得到原始人聲數(shù)據(jù);
35、對(duì)所述原始人聲數(shù)據(jù)進(jìn)行頻譜轉(zhuǎn)換,得到原始人聲頻譜數(shù)據(jù);
36、對(duì)所述原始人聲頻譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,得到目標(biāo)頻譜特征數(shù)據(jù);
37、通過(guò)所述目標(biāo)聲紋提取模型對(duì)所述目標(biāo)頻譜特征數(shù)據(jù)進(jìn)行高斯分布計(jì)算,得到目標(biāo)聲紋高斯分布數(shù)據(jù);
38、對(duì)所述目標(biāo)聲紋高斯分布數(shù)據(jù)進(jìn)行聲紋計(jì)算,得到所述目標(biāo)聲紋數(shù)據(jù)。
39、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第二方面提出了一種聲紋識(shí)別裝置,所述裝置包括:
40、樣本數(shù)據(jù)獲取模塊,用于獲取聲紋樣本數(shù)據(jù);其中,所述聲紋樣本數(shù)據(jù)包括樣本語(yǔ)音數(shù)據(jù)和樣本說(shuō)話(huà)人標(biāo)簽;其中,所述樣本說(shuō)話(huà)人標(biāo)簽用于表征所述樣本語(yǔ)音數(shù)據(jù)的說(shuō)話(huà)人身份;
41、原始聲紋特征分布計(jì)算模塊,用于通過(guò)預(yù)設(shè)的原始聲紋提取模型對(duì)所述樣本語(yǔ)音數(shù)據(jù)進(jìn)行聲紋特征分布計(jì)算,得到樣本聲紋高斯分布數(shù)據(jù);
42、原始聲紋計(jì)算模塊,用于對(duì)所述樣本聲紋高斯分布數(shù)據(jù)進(jìn)行聲紋計(jì)算,得到樣本聲紋數(shù)據(jù);
43、原始聲紋識(shí)別模塊,用于對(duì)所述樣本聲紋數(shù)據(jù)進(jìn)行聲紋識(shí)別,得到樣本說(shuō)話(huà)人身份識(shí)別數(shù)據(jù);
44、模型優(yōu)化模塊,用于基于所述樣本聲紋高斯分布數(shù)據(jù)、所述樣本說(shuō)話(huà)人身份識(shí)別數(shù)據(jù)和所述樣本說(shuō)話(huà)人標(biāo)簽對(duì)所述原始聲紋提取模型進(jìn)行模型優(yōu)化,得到目標(biāo)聲紋提取模型;
45、目標(biāo)聲紋提取模塊,用于通過(guò)所述目標(biāo)聲紋提取模型對(duì)預(yù)先獲取的原始語(yǔ)音數(shù)據(jù)進(jìn)行聲紋提取,得到目標(biāo)聲紋數(shù)據(jù);
46、目標(biāo)聲紋識(shí)別模塊,用于基于所述目標(biāo)聲紋數(shù)據(jù)進(jìn)行聲紋識(shí)別。
47、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
48、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
49、本技術(shù)提出的聲紋識(shí)別方法和裝置、電子設(shè)備及存儲(chǔ)介質(zhì),其通過(guò)獲取聲紋樣本數(shù)據(jù);其中,聲紋樣本數(shù)據(jù)包括樣本語(yǔ)音數(shù)據(jù)和樣本說(shuō)話(huà)人標(biāo)簽;其中,樣本說(shuō)話(huà)人標(biāo)簽用于表征樣本語(yǔ)音數(shù)據(jù)的說(shuō)話(huà)人身份;通過(guò)預(yù)設(shè)的原始聲紋提取模型對(duì)樣本語(yǔ)音數(shù)據(jù)進(jìn)行聲紋特征分布計(jì)算,得到樣本聲紋高斯分布數(shù)據(jù);對(duì)樣本聲紋高斯分布數(shù)據(jù)進(jìn)行聲紋計(jì)算,得到樣本聲紋數(shù)據(jù);對(duì)樣本聲紋數(shù)據(jù)進(jìn)行聲紋識(shí)別,得到樣本說(shuō)話(huà)人身份識(shí)別數(shù)據(jù);基于樣本聲紋高斯分布數(shù)據(jù)、樣本說(shuō)話(huà)人身份識(shí)別數(shù)據(jù)和樣本說(shuō)話(huà)人標(biāo)簽對(duì)原始聲紋提取模型進(jìn)行模型優(yōu)化,得到目標(biāo)聲紋提取模型;通過(guò)目標(biāo)聲紋提取模型對(duì)預(yù)先獲取的原始語(yǔ)音數(shù)據(jù)進(jìn)行聲紋提取,得到目標(biāo)聲紋數(shù)據(jù);基于目標(biāo)聲紋數(shù)據(jù)進(jìn)行聲紋識(shí)別,通過(guò)訓(xùn)練好的目標(biāo)聲紋提取模型能夠更精準(zhǔn)地獲取到具有高區(qū)分度的聲紋特征,進(jìn)而提高聲紋識(shí)別的效率和準(zhǔn)確率。