亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

偽造語音檢測方法、裝置、存儲介質(zhì)及電子設(shè)備與流程

文檔序號:40441808發(fā)布日期:2024-12-24 15:16閱讀:34來源:國知局
偽造語音檢測方法、裝置、存儲介質(zhì)及電子設(shè)備與流程

本技術(shù)涉及物聯(lián)網(wǎng)安全,尤其涉及一種偽造語音檢測方法、裝置、存儲介質(zhì)及電子設(shè)備。


背景技術(shù):

1、語音已經(jīng)成為智慧物聯(lián)網(wǎng)(如智能家居)、智能車聯(lián)網(wǎng)等進(jìn)行人機(jī)交互的重要途徑,物聯(lián)網(wǎng)設(shè)備可通過人類語音進(jìn)行身份認(rèn)證。然而,隨著人工智能技術(shù)的發(fā)展,使用不同算法偽造的語音給智慧物聯(lián)網(wǎng)語音設(shè)備的發(fā)展帶來了極大的挑戰(zhàn)。攻擊者可以通過語音重放、語音合成和文本轉(zhuǎn)換等多種手段模仿、偽造真實(shí)說話者的聲音,欺騙物聯(lián)網(wǎng)設(shè)備從而獲取用戶權(quán)限。因此,亟需一種偽造語音檢測方法提高物聯(lián)網(wǎng)設(shè)備身份認(rèn)證的可靠性和安全性,保障物聯(lián)網(wǎng)設(shè)備穩(wěn)定運(yùn)行。

2、目前,現(xiàn)有相關(guān)偽造語音檢測技術(shù)主要是通過頻譜分析進(jìn)行檢測,但是由于語音信號本身攜帶的特征信息具有復(fù)雜性,真實(shí)語音與偽造語音的區(qū)分往往依賴于一些細(xì)微但關(guān)鍵的特征,這些特征往往混合在一起難以提取和區(qū)分,因此,現(xiàn)有相關(guān)偽造語音檢測技術(shù)的檢測準(zhǔn)確率不高。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例提供一種偽造語音檢測方法、裝置、存儲介質(zhì)及電子設(shè)備,能夠提升偽造語音檢測技術(shù)的準(zhǔn)確率。

2、本技術(shù)實(shí)施例提供了一種偽造語音檢測方法,包括:

3、采集待檢測的語音信號,將所述語音信號轉(zhuǎn)換為時序數(shù)字信號,并對所述時序數(shù)字信號進(jìn)行預(yù)處理,得到離散語音信號;

4、在所述離散語音信號上進(jìn)行傅里葉變換得到幅度譜,在所述幅度譜上進(jìn)行二次插值,得到每個頻率窗口的峰值,組合所述峰值得到所述離散語音信號的峰頻矩陣;

5、提取所述離散語音信號的線性頻率倒譜系數(shù),將所述峰頻和所述線性頻率倒譜系數(shù)進(jìn)行拼接得到融合特征;

6、將所述融合特征輸入訓(xùn)練好的偽造語音檢測模型進(jìn)行偽造語音識別。

7、進(jìn)一步地,上述偽造語音檢測方法,其中,所述采集待檢測的語音信號,將所述語音信號轉(zhuǎn)換為時序數(shù)字信號,并對所述時序數(shù)字信號進(jìn)行預(yù)處理,得到離散語音信號,包括:

8、采集待檢測的語音信號,以預(yù)設(shè)采樣頻率對所述語音信號進(jìn)行采樣得到所述時序數(shù)字信號;

9、對所述時序數(shù)字信號進(jìn)行分幀,對分幀后的時序數(shù)字信號進(jìn)行加窗,得到所述離散語音信號。

10、進(jìn)一步地,上述偽造語音檢測方法,其中,所述在所述離散語音信號上進(jìn)行傅里葉變換得到幅度譜,在所述幅度譜上進(jìn)行二次插值,得到每個頻率窗口的峰值,組合所述峰值得到所述離散語音信號的峰頻矩陣,包括:

11、對所述離散語音信號進(jìn)行傅里葉變換操作,提取所述語音信號的頻域信息;

12、對所述頻域信息在頻率域上的復(fù)數(shù)函數(shù)取模,得到幅度譜;

13、擬合所述幅度譜上每幀的頻率窗口和幅度確定一條拋物線,通過假設(shè)三個已知幅度值的位置進(jìn)行二次插值確定幅度峰值對應(yīng)的頻率窗口,重復(fù)進(jìn)行多次二次插值,得到多個峰頻;

14、拼接多個所述峰頻,得到峰頻矩陣。

15、進(jìn)一步地,上述偽造語音檢測方法,其中,所述提取所述離散語音信號的線性頻率倒譜系數(shù),將所述峰頻和所述線性頻率倒譜系數(shù)進(jìn)行拼接得到融合特征,包括:

16、對所述離散語音信號在頻率域上的復(fù)數(shù)函數(shù)取模平方,得到所述離散語音信號的功率能量譜;

17、通過線性刻度濾波器對所述功率能量譜進(jìn)行頻帶特征提取,并進(jìn)行離散余弦變換,得到線性頻率倒譜系數(shù);

18、根據(jù)幀數(shù)拼接所述峰頻和所述線性頻率倒譜系數(shù),得到所述融合特征。

19、進(jìn)一步地,上述偽造語音檢測方法,其中,所述偽造語音檢測模型包括二維卷積層、res2net模塊、全局平均池化層、全連接層和softmax分類模塊;

20、所述將所述融合特征輸入訓(xùn)練好的偽造語音檢測模型進(jìn)行偽造語音識別,包括:

21、將所述融合特征輸入到所述二維卷積層中進(jìn)行卷積操作,提取局部特征;

22、將所述局部特征輸入到res2net模塊中,得到殘差矩陣;

23、將所述殘差矩陣輸入到所述全局平均池化層中,生成對應(yīng)于每個通道的匯聚特征值,通過全連接層實(shí)現(xiàn)對前一層的線性組合,得到一維特征向量;

24、將所述一維特征向量輸入到softmax分類模塊中,得到偽造語音識別結(jié)果。

25、進(jìn)一步地,上述偽造語音檢測方法,其中,所述擬合所述幅度譜上每幀的頻率窗口和幅度確定一條拋物線,通過假設(shè)三個已知幅度值的位置進(jìn)行二次插值確定幅度峰值對應(yīng)的頻率窗口,重復(fù)進(jìn)行多次二次插值,得到多個峰頻,包括:

26、擬合所述幅度譜上每幀的頻率窗口和幅度確定一條拋物線:

27、

28、其中,為拋物線的自變量,即頻率窗口,為拋物線的因變量,即幅度值,、為拋物線的參數(shù);

29、假設(shè)三個已知幅度值的位置進(jìn)行二次插值以確定幅度峰值對應(yīng)的頻率窗口,假設(shè)、、分別為三個已知的幅度值,且:

30、

31、把三個所述幅度值的位置帶入擬合的所述拋物線中,可以得到:

32、

33、計算幅度峰值對應(yīng)的頻率窗口:

34、

35、對于幅度譜的第幀,重復(fù)進(jìn)行多次二次插值,得到多個峰頻;其中,峰頻的計算公式為:

36、

37、其中,為峰頻,是上一次二次插值的幅度峰值對應(yīng)的頻率窗口,為幅度峰值對應(yīng)的頻率窗口?,是語音采樣率,是窗口長度。

38、進(jìn)一步地,上述偽造語音檢測方法,其中,所述偽造語音檢測模型的訓(xùn)練過程包括:

39、獲取訓(xùn)練集和測試集,所述訓(xùn)練集包括語音樣本信號,所述測試集包括語音測試信號;

40、提取所述語音樣本信號和所述語音測試信號的峰頻,提取所述語音樣本信號和所述語音測試信號的線性頻率倒譜系數(shù),將所述峰頻和所述線性頻率倒譜系數(shù)分別拼接得到訓(xùn)練融合向量和測試融合向量;

41、將所述訓(xùn)練融合向量輸入到所述偽造語音檢測模型中,得到預(yù)測結(jié)果;

42、根據(jù)所述預(yù)測結(jié)果和所述語音樣本信號的真值標(biāo)簽,計算二分類交叉熵?fù)p失函數(shù),反向傳播計算梯度,多次迭代調(diào)整所述偽造語音檢測模型中參數(shù)的權(quán)重和偏置;

43、將所述測試融合向量輸入到所述偽造語音檢測模型中,判斷所述偽造語音檢測模型的預(yù)測準(zhǔn)確率是否達(dá)到預(yù)設(shè)值,若到達(dá),則結(jié)束訓(xùn)練。

44、本技術(shù)實(shí)施例還提供了一種偽造語音檢測裝置,包括:

45、采集與預(yù)處理模塊,用于采集待檢測的語音信號,將所述語音信號轉(zhuǎn)換為時序數(shù)字信號,并對所述時序數(shù)字信號進(jìn)行預(yù)處理,得到離散語音信號;

46、第一處理模塊,用于在所述離散語音信號上進(jìn)行傅里葉變換得到幅度譜,在所述幅度譜上進(jìn)行二次插值,得到每個頻率窗口的峰值,組合各峰值得到所述離散語音信號的峰頻矩陣;

47、第二處理模塊,用于提取所述離散語音信號的線性頻率倒譜系數(shù),將所述峰頻和所述線性頻率倒譜系數(shù)進(jìn)行拼接得到融合特征;

48、識別模塊,用于將所述融合特征輸入訓(xùn)練好的偽造語音檢測模型進(jìn)行偽造語音識別。

49、本技術(shù)實(shí)施例還提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)中存儲有多條指令,所述指令適于由處理器加載以執(zhí)行上述任一項(xiàng)偽造語音檢測方法。

50、本技術(shù)實(shí)施例還提供了一種電子設(shè)備,包括處理器和存儲器,所述處理器與所述存儲器電性連接,所述存儲器用于存儲指令和數(shù)據(jù),所述處理器用于上述任一項(xiàng)所述的偽造語音檢測方法中的步驟。

51、本技術(shù)提供的偽造語音檢測方法、裝置、存儲介質(zhì)及電子設(shè)備,本技術(shù)通過提取語音信號的峰頻和線性頻率倒譜系數(shù),將兩者融合得到融合特征,基于融合特征進(jìn)行偽造語音的識別。峰頻表示語音頻率的變化信息,本技術(shù)通過提高對語音關(guān)鍵頻率峰值變化信息的關(guān)注度,精準(zhǔn)地定位偽造語音和真實(shí)語音的不同之處,提高了偽造語音檢測的準(zhǔn)確率。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1