一種音頻翻錄檢測方法

文檔序號：9397886閱讀：768來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種音頻翻錄檢測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息安全領(lǐng)域范疇，具體而言，是一種基于深度學(xué)習(xí)的音頻翻錄檢測技術(shù)。
【背景技術(shù)】
[0002]近年來，隨著數(shù)字音頻處理技術(shù)和硬件設(shè)備的發(fā)展，音頻可以實(shí)現(xiàn)高保真的翻錄，由此帶來了一系列關(guān)于數(shù)字音頻數(shù)據(jù)的原始性和安全性等問題，例如利用翻錄音頻實(shí)現(xiàn)音頻指紋的拷貝，將翻錄音頻發(fā)布到互聯(lián)網(wǎng)上等涉及媒體信息的版權(quán)保護(hù)問題，然而在不借助任何輔助信息的情況下，目前并沒有可靠的方法來實(shí)現(xiàn)音頻翻錄檢測，深度學(xué)習(xí)方法為我們解決這些問題提供了一種可行的路線。
[0003]由于音頻翻錄通常不涉及音頻內(nèi)容的完整性，其安全性問題一直沒有得到重視。人們更多地關(guān)注于音頻翻錄帶來的好處，確切地說是數(shù)字化帶來的優(yōu)勢，例如通過音頻的高保真翻錄能夠克服磁帶等因?yàn)楸４鏃l件和使用年限長而失效的問題。然而近年來熱門的聲紋識別技術(shù)以及愈發(fā)嚴(yán)重的版權(quán)保護(hù)問題，音頻數(shù)據(jù)的安全性面臨著嚴(yán)峻的挑戰(zhàn)。
[0004]脆弱水印技術(shù)可在原始音頻數(shù)據(jù)中嵌入有意義的認(rèn)證信息(水印)，借助于該信息的完整和真實(shí)性也可實(shí)現(xiàn)翻錄檢測。例如，在翻錄后的錄音信號中無法檢測到水印。然而目前的錄音設(shè)備大多不支持這種技術(shù)，因此在不借助輔助信息下的盲檢測方法實(shí)用性更高。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的是提供一種翻錄音頻的檢測方法，對于一段待檢測音頻，能夠可靠鑒別其是原始音頻或是翻錄音頻。
[0006]為了實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案為:
一種翻錄音頻的檢測方法，將翻錄音頻檢測等效為一個二分類問題，采用基于深度學(xué)習(xí)的方法進(jìn)行分類器的訓(xùn)練和樣本分類，翻錄音頻的檢測包括以下幾個步驟:
51.音頻預(yù)處理，對任意采樣率的音頻進(jìn)行降采樣，對降采樣后的音頻信號進(jìn)行濾波，去除語音內(nèi)容的干擾，得到音頻攜帶的電網(wǎng)頻率基波及諧波分量；該濾波過程是采用電網(wǎng)頻率的基波和各次諧波頻率為帶通中心的窄帶濾波；
52.構(gòu)建訓(xùn)練樣本，將上述濾波后的信號進(jìn)行短時(shí)傅里葉變換，得到電網(wǎng)頻率信號的時(shí)頻特征；利用深度學(xué)習(xí)算法對電網(wǎng)頻率信號的時(shí)頻特征進(jìn)行更精細(xì)的學(xué)習(xí)，該方法是有監(jiān)督學(xué)習(xí)的二分類方法，利用預(yù)先標(biāo)定的正負(fù)樣本，將正負(fù)樣本的電網(wǎng)頻率信號時(shí)頻特征作為輸入，訓(xùn)練一個多層神經(jīng)網(wǎng)絡(luò)模型，正樣本為翻錄音頻，負(fù)樣本為原始音頻；
53.翻錄檢測:對待檢測音頻進(jìn)行分段，將每個分段的時(shí)頻特征輸入訓(xùn)練好的分類器，網(wǎng)絡(luò)將自動標(biāo)記出每個分段的類別；若多數(shù)分段被標(biāo)記為正樣本，則該音頻被判斷為翻錄首頻，否則為原始首頻。
[0007]電網(wǎng)頻率信號的分析和學(xué)習(xí):電網(wǎng)頻率信號分析過程如下:1)降采樣，由于我國使用的電網(wǎng)頻率為50Hz，而錄音信號的采樣頻率遠(yuǎn)高于電網(wǎng)頻率，因此降采樣可以有效降低該方法的運(yùn)算復(fù)雜度；2)濾波，去除語音內(nèi)容的干擾，只留下與電網(wǎng)頻率信號有關(guān)的成分。對降采樣后的信號，分別采用以電網(wǎng)頻率的基波和各次諧波頻率為帶通中心的窄帶濾波。經(jīng)過窄帶濾波后，剩下的主要成分為音頻攜帶的電網(wǎng)頻率基波分量及其諧波分量。
[0008]上述電網(wǎng)頻率信號特征的學(xué)習(xí)過程:1)是將上述濾波后的信號進(jìn)行短時(shí)傅里葉變換，得到電網(wǎng)頻率信號的時(shí)頻特征；2)利用深度學(xué)習(xí)算法對電網(wǎng)頻率信號的時(shí)頻特征進(jìn)行更精細(xì)的學(xué)習(xí)，該方法是有監(jiān)督學(xué)習(xí)的二分類方法，利用預(yù)先標(biāo)定的正負(fù)樣本，將正負(fù)樣本的電網(wǎng)頻率信號時(shí)頻特征作為輸入，訓(xùn)練一個多層神經(jīng)網(wǎng)絡(luò)，正樣本為翻錄音頻，負(fù)樣本為原始音頻；3)翻錄檢測:對待檢測音頻進(jìn)行分段，將每個分段的時(shí)頻特征輸入訓(xùn)練好的分類器，網(wǎng)絡(luò)將自動標(biāo)記出每個分段的類別；4)若多數(shù)分段被標(biāo)記為正樣本，則該音頻被判斷為翻錄首頻，否則為原始首頻。
[0009]對于音頻信號，將其進(jìn)行短時(shí)傅里葉變換得到語譜圖作為神經(jīng)網(wǎng)絡(luò)的輸入，可以充分利用其時(shí)頻特征；并且濾波后的信號語譜圖可視為電網(wǎng)頻率信號的圖像表示，后續(xù)的訓(xùn)練和學(xué)習(xí)分類過程都可利用卷積神經(jīng)網(wǎng)絡(luò)，這類網(wǎng)絡(luò)常用于圖像的分類。
[0010]原始音頻只記錄了一次電網(wǎng)頻率信號，翻錄音頻記錄了兩次電網(wǎng)頻率信號。兩個電網(wǎng)頻率信號距離相近甚至發(fā)生混疊，因此用傳統(tǒng)的信號處理方法難以進(jìn)行區(qū)分。深度學(xué)習(xí)網(wǎng)絡(luò)由于使用了多核卷積操作，能夠?qū)蝹€電網(wǎng)頻率和兩個電網(wǎng)頻率信號作更精細(xì)的區(qū)分。
[0011]采用電網(wǎng)頻率的基波及其諧波成分合成多通道作為深度學(xué)習(xí)網(wǎng)絡(luò)的輸入，可以充分利用各諧波成分的能量特征以及頻率分辨率提高識別性能。
[0012]判斷一段長的語音數(shù)據(jù)是否為翻錄音頻可采取的方法:將長音頻按照深度學(xué)習(xí)網(wǎng)絡(luò)的輸入要求進(jìn)行分段，隨機(jī)選取多段音頻進(jìn)行判斷，若多數(shù)被標(biāo)記為正樣本，則該音頻被判斷為翻錄音頻，否則為原始音頻。該方法可以提高檢測速度。
[0013]進(jìn)一步的，所述步驟SI對音頻進(jìn)行預(yù)處理時(shí)，將音頻均降采樣為1000Hz，分別通過三個帶通中心為50Hz，150Hz和250Hz的窄帶濾波器，濾除語音成分，提取所需的電網(wǎng)頻率基波成分及其第三、第五次諧波分量成分并計(jì)算得到三個通道的時(shí)頻特征圖。
[0014]進(jìn)一步的，所述音頻數(shù)據(jù)均采用wav格式。
[0015]與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果為:(1)由于利用音頻中包含的電網(wǎng)頻率成分進(jìn)行分析，因此不受音頻內(nèi)容、采樣率的影響，可接受任何采樣率的■格式音頻輸入；
(2)由于采用圖像的方式來解釋音頻，并且借助深度學(xué)習(xí)的方法訓(xùn)練分類器，克服了短時(shí)音頻頻率分辨率低的缺點(diǎn)，可用于檢測短音頻；(3)檢測可靠性高；(4) 一旦分類器訓(xùn)練完成，不需要人工設(shè)置任何參數(shù)。
【附圖說明】
[0016]圖1是本發(fā)明所述音頻翻錄檢測方法的流程圖。
[0017]圖2是本發(fā)明所述音頻輸入預(yù)處理(步驟SI)的流程圖。
[0018]圖3是本發(fā)明采用的分類器網(wǎng)絡(luò)結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0019]下面結(jié)合附圖對本發(fā)明做進(jìn)一步的描述，但本發(fā)明的實(shí)施方式并不限于此。
[0020]一種翻錄音頻的檢測方法，將翻錄音頻檢測等效為一個二分類問題，采用基于深度學(xué)習(xí)的方法進(jìn)行分類器的訓(xùn)練和樣本分類，音頻數(shù)據(jù)均采用wav格式；翻錄音頻的檢測包括以下幾個步驟:
S1:音頻預(yù)處理，對任意采樣率的音頻均降采樣到1000Hz，分別通過三個帶通中心為50Hz，150Hz和250Hz的窄帶濾波器，濾除語音成分，提取所需的電網(wǎng)頻率成分及其第三、第五次諧波分量成分并計(jì)算得到三個通道的時(shí)頻特征圖。
[0021]S2:構(gòu)建訓(xùn)練樣本，正樣本為翻錄音頻，負(fù)樣本為原始音頻(一次錄音)，采用步驟SI得到的多層神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
[0022]S3:翻錄檢測:將待檢測音頻按照訓(xùn)練樣本的長度進(jìn)行切分，根據(jù)步驟SI得到時(shí)頻特征圖，將三個通道的特征圖作為已訓(xùn)練好的深度學(xué)習(xí)網(wǎng)絡(luò)的輸入，經(jīng)由網(wǎng)絡(luò)得到輸出標(biāo)記，若輸出為1，則判定音頻為翻錄音頻，否則為原始音頻。
[0023]實(shí)施例1
一種翻錄音頻的檢測方法，具體為:
(O訓(xùn)練樣本的構(gòu)建:采用5000段長度為2秒的原始錄音作為負(fù)樣本，5000段長度同為2秒的翻錄音頻作為正樣本訓(xùn)練網(wǎng)絡(luò)。翻錄音頻與原始音頻均采用8000Hz的采樣率，量化位數(shù)16。
[0024](2)利用CUDA加速多層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程。和通用處理器相比，GPU在單位面積/單位功耗上擁有更高的計(jì)算能力和吞吐帶寬。對于本發(fā)明中采用的多核卷積操作，基于CUDA的編程技術(shù)能充分利用GPU提供的并行計(jì)算能力從而有效提升網(wǎng)絡(luò)的學(xué)習(xí)速度。
[0025](3)分類器的構(gòu)建及訓(xùn)練:構(gòu)造如圖3所示的卷積深度學(xué)習(xí)網(wǎng)絡(luò)。第一個卷積層采用16個卷積核，每個卷積核的大小均為1X14。第一個池化層采用的池化核大小為1X4，池化方式為最大池化。即每四個相鄰結(jié)點(diǎn)中抽取值最大的結(jié)點(diǎn)。第二個卷積層采用32個卷積核，每個卷積核的大小均為2X6。第二個池化層采用的池化核大小為1X3。每次池化操作后都對各個神經(jīng)元結(jié)點(diǎn)進(jìn)行一次非線性操作。全連接層使用700個神經(jīng)元。
[0026](4)將待檢測音頻按照2秒的長度進(jìn)行分段，對分段后的短音頻進(jìn)行步驟SI所述的預(yù)處理，處理后得到的時(shí)頻特征圖輸入到已訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)，由網(wǎng)絡(luò)自動給出O和I的判決結(jié)果。采用多數(shù)投票表決機(jī)制得到最終的檢測結(jié)果。若I出現(xiàn)的頻率高，則認(rèn)為該音頻是翻錄音頻，否則為原始音頻。
[0027]本發(fā)明公開的一種翻錄音頻的檢測方法，屬于信息安全技術(shù)領(lǐng)域。將機(jī)器學(xué)習(xí)與信號處理方法巧妙結(jié)合，使最終學(xué)習(xí)到的音頻特征能夠區(qū)分原始音頻和翻錄音頻。具體為:原始音頻在錄制過程中記錄了當(dāng)時(shí)電網(wǎng)頻率的變化情況，音頻在回放并翻錄的過程中再次記錄了當(dāng)時(shí)的電網(wǎng)頻率。利用機(jī)器學(xué)習(xí)的方法辨別音頻中包含一個或兩個電網(wǎng)頻率信號，從而鑒別原始音頻和翻錄音頻。本發(fā)明只需對音頻中攜帶的電網(wǎng)頻率成分進(jìn)行分析，不受語音內(nèi)容的影響，具有檢測準(zhǔn)確率高的優(yōu)點(diǎn)。
[0028]以上所述的本發(fā)明的實(shí)施方式，并不構(gòu)成對本發(fā)明保護(hù)范圍的限定。任何在本發(fā)明的精神原則之內(nèi)所作出的修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種翻錄音頻檢測方法，其特征在于，包括以下步驟: 51.音頻預(yù)處理，對任意采樣率的音頻進(jìn)行降采樣，對降采樣后的音頻信號進(jìn)行濾波，去除語音內(nèi)容的干擾，得到音頻攜帶的電網(wǎng)頻率基波及諧波分量；該濾波過程是采用電網(wǎng)頻率的基波和各次諧波頻率為帶通中心的窄帶濾波； 52.構(gòu)建訓(xùn)練樣本，將上述濾波后的信號進(jìn)行短時(shí)傅里葉變換，得到電網(wǎng)頻率信號的時(shí)頻特征；利用深度學(xué)習(xí)算法對電網(wǎng)頻率信號的時(shí)頻特征進(jìn)行更精細(xì)的學(xué)習(xí)，該方法是有監(jiān)督學(xué)習(xí)的二分類方法，利用預(yù)先標(biāo)定的正負(fù)樣本，將正負(fù)樣本的電網(wǎng)頻率信號時(shí)頻特征作為輸入，訓(xùn)練一個多層神經(jīng)網(wǎng)絡(luò)模型，正樣本為翻錄音頻，負(fù)樣本為原始音頻； 53.翻錄檢測:對待檢測音頻進(jìn)行分段，將每個分段的時(shí)頻特征輸入訓(xùn)練好的分類器，網(wǎng)絡(luò)將自動標(biāo)記出每個分段的類別；若多數(shù)分段被標(biāo)記為正樣本，則該音頻被判斷為翻錄首頻，否則為原始首頻。2.根據(jù)權(quán)利要求1所述的翻錄音頻檢測方法，其特征在于，所述步驟SI對音頻進(jìn)行預(yù)處理時(shí)，將音頻均降采樣為1000Hz，分別通過三個帶通中心為50Hz，150Hz和250Hz的窄帶濾波器，濾除語音成分，提取所需的電網(wǎng)頻率基波成分及其第三、第五次諧波分量成分并計(jì)算得到三個通道的時(shí)頻特征圖。3.根據(jù)權(quán)利要求1所述的翻錄音頻檢測方法，其特征在于，所述音頻數(shù)據(jù)均采用wav格式。
【專利摘要】本發(fā)明公開了一種翻錄音頻的檢測方法，屬于信息安全技術(shù)領(lǐng)域。將機(jī)器學(xué)習(xí)與信號處理方法巧妙結(jié)合，使最終學(xué)習(xí)到的音頻特征能夠區(qū)分原始音頻和翻錄音頻。具體為：原始音頻在錄制過程中記錄了當(dāng)時(shí)電網(wǎng)頻率的變化情況，音頻在回放并翻錄的過程中再次記錄了當(dāng)時(shí)的電網(wǎng)頻率。利用機(jī)器學(xué)習(xí)的方法辨別音頻中包含一個或兩個電網(wǎng)頻率信號，從而鑒別原始音頻和翻錄音頻。本發(fā)明只需對音頻中攜帶的電網(wǎng)頻率成分進(jìn)行分析，不受語音內(nèi)容的影響，具有檢測準(zhǔn)確率高的優(yōu)點(diǎn)。
【IPC分類】G10L15/08, G10L15/04, G10L15/16, G10L19/018
【公開號】CN105118503
【申請?zhí)枴緾N201510407042
【發(fā)明人】康顯桂, 林曉丹
【申請人】中山大學(xué)
【公開日】2015年12月2日
【申請日】2015年7月13日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：康顯桂;林曉丹;
技術(shù)所有人：中山大學(xué);
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

電腦音頻檢測方法相關(guān)技術(shù)

兩種檢測方法的一致性相關(guān)技術(shù)

spss比較兩種檢測方法相關(guān)技術(shù)

血型檢測方法有幾種相關(guān)技術(shù)

種子檢測方法相關(guān)技術(shù)

afp有幾種檢測方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種音頻翻錄檢測方法