偽造語音檢測方法、裝置、存儲介質(zhì)及電子設(shè)備與流程

文檔序號：40441808發(fā)布日期：2024-12-24 15:16閱讀：34來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本技術(shù)涉及物聯(lián)網(wǎng)安全，尤其涉及一種偽造語音檢測方法、裝置、存儲介質(zhì)及電子設(shè)備。

背景技術(shù)：

1、語音已經(jīng)成為智慧物聯(lián)網(wǎng)（如智能家居）、智能車聯(lián)網(wǎng)等進(jìn)行人機(jī)交互的重要途徑，物聯(lián)網(wǎng)設(shè)備可通過人類語音進(jìn)行身份認(rèn)證。然而，隨著人工智能技術(shù)的發(fā)展，使用不同算法偽造的語音給智慧物聯(lián)網(wǎng)語音設(shè)備的發(fā)展帶來了極大的挑戰(zhàn)。攻擊者可以通過語音重放、語音合成和文本轉(zhuǎn)換等多種手段模仿、偽造真實(shí)說話者的聲音，欺騙物聯(lián)網(wǎng)設(shè)備從而獲取用戶權(quán)限。因此，亟需一種偽造語音檢測方法提高物聯(lián)網(wǎng)設(shè)備身份認(rèn)證的可靠性和安全性，保障物聯(lián)網(wǎng)設(shè)備穩(wěn)定運(yùn)行。

2、目前，現(xiàn)有相關(guān)偽造語音檢測技術(shù)主要是通過頻譜分析進(jìn)行檢測，但是由于語音信號本身攜帶的特征信息具有復(fù)雜性，真實(shí)語音與偽造語音的區(qū)分往往依賴于一些細(xì)微但關(guān)鍵的特征，這些特征往往混合在一起難以提取和區(qū)分，因此，現(xiàn)有相關(guān)偽造語音檢測技術(shù)的檢測準(zhǔn)確率不高。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例提供一種偽造語音檢測方法、裝置、存儲介質(zhì)及電子設(shè)備，能夠提升偽造語音檢測技術(shù)的準(zhǔn)確率。

2、本技術(shù)實(shí)施例提供了一種偽造語音檢測方法，包括：

3、采集待檢測的語音信號，將所述語音信號轉(zhuǎn)換為時序數(shù)字信號，并對所述時序數(shù)字信號進(jìn)行預(yù)處理，得到離散語音信號；

4、在所述離散語音信號上進(jìn)行傅里葉變換得到幅度譜，在所述幅度譜上進(jìn)行二次插值，得到每個頻率窗口的峰值，組合所述峰值得到所述離散語音信號的峰頻矩陣；

5、提取所述離散語音信號的線性頻率倒譜系數(shù)，將所述峰頻和所述線性頻率倒譜系數(shù)進(jìn)行拼接得到融合特征；

6、將所述融合特征輸入訓(xùn)練好的偽造語音檢測模型進(jìn)行偽造語音識別。

7、進(jìn)一步地，上述偽造語音檢測方法，其中，所述采集待檢測的語音信號，將所述語音信號轉(zhuǎn)換為時序數(shù)字信號，并對所述時序數(shù)字信號進(jìn)行預(yù)處理，得到離散語音信號，包括：

8、采集待檢測的語音信號，以預(yù)設(shè)采樣頻率對所述語音信號進(jìn)行采樣得到所述時序數(shù)字信號；

9、對所述時序數(shù)字信號進(jìn)行分幀，對分幀后的時序數(shù)字信號進(jìn)行加窗，得到所述離散語音信號。

10、進(jìn)一步地，上述偽造語音檢測方法，其中，所述在所述離散語音信號上進(jìn)行傅里葉變換得到幅度譜，在所述幅度譜上進(jìn)行二次插值，得到每個頻率窗口的峰值，組合所述峰值得到所述離散語音信號的峰頻矩陣，包括：

11、對所述離散語音信號進(jìn)行傅里葉變換操作，提取所述語音信號的頻域信息；

12、對所述頻域信息在頻率域上的復(fù)數(shù)函數(shù)取模，得到幅度譜；

13、擬合所述幅度譜上每幀的頻率窗口和幅度確定一條拋物線，通過假設(shè)三個已知幅度值的位置進(jìn)行二次插值確定幅度峰值對應(yīng)的頻率窗口，重復(fù)進(jìn)行多次二次插值，得到多個峰頻；

14、拼接多個所述峰頻，得到峰頻矩陣。

15、進(jìn)一步地，上述偽造語音檢測方法，其中，所述提取所述離散語音信號的線性頻率倒譜系數(shù)，將所述峰頻和所述線性頻率倒譜系數(shù)進(jìn)行拼接得到融合特征，包括：

16、對所述離散語音信號在頻率域上的復(fù)數(shù)函數(shù)取模平方，得到所述離散語音信號的功率能量譜；

17、通過線性刻度濾波器對所述功率能量譜進(jìn)行頻帶特征提取，并進(jìn)行離散余弦變換，得到線性頻率倒譜系數(shù)；

18、根據(jù)幀數(shù)拼接所述峰頻和所述線性頻率倒譜系數(shù)，得到所述融合特征。

19、進(jìn)一步地，上述偽造語音檢測方法，其中，所述偽造語音檢測模型包括二維卷積層、res2net模塊、全局平均池化層、全連接層和softmax分類模塊；

20、所述將所述融合特征輸入訓(xùn)練好的偽造語音檢測模型進(jìn)行偽造語音識別，包括：

21、將所述融合特征輸入到所述二維卷積層中進(jìn)行卷積操作，提取局部特征；

22、將所述局部特征輸入到res2net模塊中，得到殘差矩陣；

23、將所述殘差矩陣輸入到所述全局平均池化層中，生成對應(yīng)于每個通道的匯聚特征值，通過全連接層實(shí)現(xiàn)對前一層的線性組合，得到一維特征向量；

24、將所述一維特征向量輸入到softmax分類模塊中，得到偽造語音識別結(jié)果。

25、進(jìn)一步地，上述偽造語音檢測方法，其中，所述擬合所述幅度譜上每幀的頻率窗口和幅度確定一條拋物線，通過假設(shè)三個已知幅度值的位置進(jìn)行二次插值確定幅度峰值對應(yīng)的頻率窗口，重復(fù)進(jìn)行多次二次插值，得到多個峰頻，包括：

26、擬合所述幅度譜上每幀的頻率窗口和幅度確定一條拋物線：

27、

28、其中，為拋物線的自變量，即頻率窗口，為拋物線的因變量，即幅度值，、為拋物線的參數(shù)；

29、假設(shè)三個已知幅度值的位置進(jìn)行二次插值以確定幅度峰值對應(yīng)的頻率窗口，假設(shè)、、分別為三個已知的幅度值，且：

30、

31、把三個所述幅度值的位置帶入擬合的所述拋物線中，可以得到：

32、

33、計算幅度峰值對應(yīng)的頻率窗口：

34、

35、對于幅度譜的第幀，重復(fù)進(jìn)行多次二次插值，得到多個峰頻；其中，峰頻的計算公式為：

36、

37、其中，為峰頻，是上一次二次插值的幅度峰值對應(yīng)的頻率窗口，為幅度峰值對應(yīng)的頻率窗口?，是語音采樣率，是窗口長度。

38、進(jìn)一步地，上述偽造語音檢測方法，其中，所述偽造語音檢測模型的訓(xùn)練過程包括：

39、獲取訓(xùn)練集和測試集，所述訓(xùn)練集包括語音樣本信號，所述測試集包括語音測試信號；

40、提取所述語音樣本信號和所述語音測試信號的峰頻，提取所述語音樣本信號和所述語音測試信號的線性頻率倒譜系數(shù)，將所述峰頻和所述線性頻率倒譜系數(shù)分別拼接得到訓(xùn)練融合向量和測試融合向量；

41、將所述訓(xùn)練融合向量輸入到所述偽造語音檢測模型中，得到預(yù)測結(jié)果；

42、根據(jù)所述預(yù)測結(jié)果和所述語音樣本信號的真值標(biāo)簽，計算二分類交叉熵?fù)p失函數(shù)，反向傳播計算梯度，多次迭代調(diào)整所述偽造語音檢測模型中參數(shù)的權(quán)重和偏置；

43、將所述測試融合向量輸入到所述偽造語音檢測模型中，判斷所述偽造語音檢測模型的預(yù)測準(zhǔn)確率是否達(dá)到預(yù)設(shè)值，若到達(dá)，則結(jié)束訓(xùn)練。

44、本技術(shù)實(shí)施例還提供了一種偽造語音檢測裝置，包括：

45、采集與預(yù)處理模塊，用于采集待檢測的語音信號，將所述語音信號轉(zhuǎn)換為時序數(shù)字信號，并對所述時序數(shù)字信號進(jìn)行預(yù)處理，得到離散語音信號；

46、第一處理模塊，用于在所述離散語音信號上進(jìn)行傅里葉變換得到幅度譜，在所述幅度譜上進(jìn)行二次插值，得到每個頻率窗口的峰值，組合各峰值得到所述離散語音信號的峰頻矩陣；

47、第二處理模塊，用于提取所述離散語音信號的線性頻率倒譜系數(shù)，將所述峰頻和所述線性頻率倒譜系數(shù)進(jìn)行拼接得到融合特征；

48、識別模塊，用于將所述融合特征輸入訓(xùn)練好的偽造語音檢測模型進(jìn)行偽造語音識別。

49、本技術(shù)實(shí)施例還提供了一種計算機(jī)可讀存儲介質(zhì)，所述計算機(jī)可讀存儲介質(zhì)中存儲有多條指令，所述指令適于由處理器加載以執(zhí)行上述任一項(xiàng)偽造語音檢測方法。

50、本技術(shù)實(shí)施例還提供了一種電子設(shè)備，包括處理器和存儲器，所述處理器與所述存儲器電性連接，所述存儲器用于存儲指令和數(shù)據(jù)，所述處理器用于上述任一項(xiàng)所述的偽造語音檢測方法中的步驟。

51、本技術(shù)提供的偽造語音檢測方法、裝置、存儲介質(zhì)及電子設(shè)備，本技術(shù)通過提取語音信號的峰頻和線性頻率倒譜系數(shù)，將兩者融合得到融合特征，基于融合特征進(jìn)行偽造語音的識別。峰頻表示語音頻率的變化信息，本技術(shù)通過提高對語音關(guān)鍵頻率峰值變化信息的關(guān)注度，精準(zhǔn)地定位偽造語音和真實(shí)語音的不同之處，提高了偽造語音檢測的準(zhǔn)確率。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱晨露,孫嘉琦,劉生昊,鄧賢君,范曉萱,阮一恒
技術(shù)所有人：湖北楚天高速數(shù)字科技有限公司
我是此專利的發(fā)明人

上一篇：一種可更換按鈕的硅膠按鍵的制作方法
上一篇：一種眼鏡用彈性鉸鏈及眼鏡的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

偽造語音檢測方法、裝置、存儲介質(zhì)及電子設(shè)備與流程

偽造語音檢測方法、裝置、存儲介質(zhì)及電子設(shè)備與流程