一種基于靜音段的異源音頻拼接篡改盲檢測(cè)方法與流程

文檔序號(hào)：12820217閱讀：643來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及音頻取證技術(shù)領(lǐng)域，具體涉及一種基于靜音段的異源音頻拼接篡改盲檢測(cè)方法。

背景技術(shù)：

音頻拼接是最常見的音頻篡改形式之一。隨著便攜式錄音設(shè)備的普及以及各種功能強(qiáng)大的多媒體編輯軟件的出現(xiàn)，對(duì)音頻真?zhèn)芜M(jìn)行檢測(cè)變得十分重要。數(shù)字音頻盲取證作為一種音頻數(shù)據(jù)的取證方法，無(wú)需借助添加數(shù)字水印進(jìn)行檢測(cè)，更具有實(shí)用性，在司法取證和新聞信息真?zhèn)舞b定等領(lǐng)域具有廣泛的應(yīng)用前景。

在數(shù)字音頻篡改盲檢測(cè)研究領(lǐng)域，目前流行的方法主要有基于電網(wǎng)頻率(electricnetworkfrequency，enf)和基于音頻特征(例如，語(yǔ)音特征，錄音設(shè)備的本征噪聲等)兩大類。2005年grigoras在期刊ijsll(internationaljournalofspeech,languageandthelaw,國(guó)際語(yǔ)音、語(yǔ)言和法律期刊)上發(fā)表論文《digitalaudiorecordinganalysistheelectricnetworkfrequencycriterion》,首次提出基于enf的數(shù)字音頻篡改方法，通過(guò)比較音頻中的enf與歷史enf數(shù)據(jù)庫(kù)中的記錄是否一致，判斷音頻是否被篡改。2009年nicolalde等學(xué)者在icassp(internationalconferenceonacoustics,speechandsignalprocessing,國(guó)際聲學(xué)、語(yǔ)音與信號(hào)處理會(huì)議)上發(fā)表論文《evaluatingdigitalaudioauthenticitywithspectraldistanceandenfphasechange》，通過(guò)音頻中enf信號(hào)的相位變化來(lái)檢測(cè)和定位篡改。隨后，有一批基于enf信號(hào)的音頻篡改檢測(cè)算法涌現(xiàn)。然而，對(duì)于手機(jī)和錄音筆等常用的直流供電錄音設(shè)備，由于其錄制的音頻中并不含enf信號(hào)，基于enf的音頻篡改檢測(cè)方法并不適用。

數(shù)字音頻錄音過(guò)程除了儲(chǔ)存有效的語(yǔ)音信號(hào)，還不可避免地引入了噪聲，主要包括錄音設(shè)備的本征噪聲和環(huán)境噪聲。對(duì)于異源音頻拼接篡改，現(xiàn)有算法通常在未區(qū)分有聲段和靜音段的情況下，從待測(cè)音頻中提取語(yǔ)音特征、設(shè)備的本征噪聲和環(huán)境噪聲特征，通過(guò)檢查其一致性是否受到破壞判斷音頻是否存在篡改。2012年x.pan等學(xué)者在icassp上發(fā)表論文《detectingsplicingindigitalaudiousinglocalnoiselevelestimation》，通過(guò)對(duì)音頻的局部噪聲水平進(jìn)行比較，檢測(cè)和定位篡改。然而，該算法在有聲段計(jì)算的噪聲水平波動(dòng)較大，導(dǎo)致誤檢率過(guò)高，并且拼接前后音頻的噪聲水平一般相差不大，故檢測(cè)效果常常不明顯。2014年h.zhao等學(xué)者在acmih&mmsec(acmworkshoponinformationhidingandmultimediasecurity,信息隱藏暨多媒體安全國(guó)際會(huì)議)上發(fā)表論文《audiosourceauthenticityandsplicingdetectionusingacousticenvironmentalsignature》，以起始若干幀音頻特征的均值作為參考特征，通過(guò)考察音頻各幀與參考特征的相關(guān)系數(shù)變化來(lái)檢測(cè)和定位篡改。然而，該算法從有聲段提取的音頻特征不穩(wěn)定，導(dǎo)致出現(xiàn)過(guò)多異常相關(guān)系數(shù)。同時(shí)由于數(shù)字語(yǔ)音是非平穩(wěn)的時(shí)變信號(hào)，其特性會(huì)隨時(shí)間緩慢變化，與參考特征間隔時(shí)間越長(zhǎng)，計(jì)算得到的相關(guān)系數(shù)越小，容易造成誤檢。另外該算法沒(méi)有定位機(jī)制，不能精確確定篡改位置。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于克服現(xiàn)有異源音頻拼接篡改盲檢測(cè)方法準(zhǔn)確率不高，定位精度不足等缺點(diǎn)，提供一種準(zhǔn)確率高，定位精度高的基于靜音段的異源音頻拼接篡改盲檢測(cè)方法。

不同于現(xiàn)有技術(shù)的算法，本發(fā)明在靜音段上提取錄音設(shè)備本征噪聲和環(huán)境噪聲特征，檢測(cè)靜音段相鄰幀相關(guān)系數(shù)向量的突變，定位拼接篡改，提出一種基于靜音段的異源音頻拼接篡改盲檢測(cè)算法，利用判斷靜音段提取的噪聲(主要是設(shè)備本征噪聲和環(huán)境噪聲)特征是否變異確定篡改。異源音頻拼接篡改指的是將多段由不同錄音設(shè)備錄制的音頻拼接成一段新音頻的篡改方式。為了避免人耳察覺(jué)篡改造成的異常，篡改者通常會(huì)在篡改處前后借助靜音段進(jìn)行平滑過(guò)渡。然而這些異?？梢员唤y(tǒng)計(jì)信號(hào)檢測(cè)的方法察覺(jué)，因此，可以從音頻特征的一致性判斷靜音段是否來(lái)自不同的錄音設(shè)備和環(huán)境，還可以進(jìn)一步通過(guò)檢測(cè)特征的跳變點(diǎn)確定篡改音頻的拼接位置。從靜音段提取音頻特征的主要優(yōu)點(diǎn)有：首先，音頻中的有聲段由語(yǔ)音信號(hào)和噪聲組成，相對(duì)于語(yǔ)音信號(hào)，噪聲能量較小，因此難以從有聲段準(zhǔn)確提取錄音設(shè)備和環(huán)境噪聲的特征，而靜音段只有設(shè)備本征噪聲和環(huán)境噪聲，不受說(shuō)話人語(yǔ)音的影響，更能準(zhǔn)確提取噪聲特征；其次，有聲段能量波動(dòng)大，相鄰音頻段之間振幅和頻譜等特性差異大，提取出來(lái)的音頻特征不穩(wěn)定，而靜音段能量穩(wěn)定，有利于真實(shí)反映錄音設(shè)備和環(huán)境噪聲的特征。本發(fā)明提出從靜音段中提取音頻特征，通過(guò)檢測(cè)相鄰音頻段特征相關(guān)系數(shù)向量的突變，判斷并定位異源音頻拼接篡改。迄今為止，利用從靜音段中提取音頻特征來(lái)進(jìn)行音頻篡改盲檢測(cè)的方法尚未見報(bào)道。

為了達(dá)到上述發(fā)明目的，本發(fā)明采用以下技術(shù)方案：一種基于靜音段的異源音頻拼接篡改盲檢測(cè)方法，其主要步驟如下：

步驟1、選擇待測(cè)的可疑音頻，對(duì)待測(cè)音頻進(jìn)行分幀，幀長(zhǎng)為m，幀移為n，相鄰音頻幀互有重疊，使幀和幀之間能夠平滑過(guò)渡；音頻幀時(shí)長(zhǎng)m為16-128毫秒，音頻幀移時(shí)長(zhǎng)n表示相鄰音頻幀之間重合的部分大小，取音頻幀時(shí)長(zhǎng)的1/2-2/3；對(duì)分幀后的各個(gè)音頻幀采用漢明窗進(jìn)行加窗，分幀加窗后的時(shí)域音頻信號(hào)表示為yi,j，其中，i＝1,2,…,n；i為音頻幀序號(hào)，共有n個(gè)音頻幀，j＝1,2,…,nframe，為音頻幀的第j個(gè)數(shù)據(jù)點(diǎn)，共有nframe個(gè)數(shù)據(jù)點(diǎn)；

步驟2、spure代表說(shuō)話人語(yǔ)音信號(hào)，hrir代表環(huán)境脈沖響應(yīng)，db代表環(huán)境噪聲，hmic代表設(shè)備脈沖響應(yīng)，dmic代表設(shè)備本征噪聲，則數(shù)字音頻y為：

y＝(spure*hrir+db)*hmic+dmic(1)

其中，*代表卷積運(yùn)算。當(dāng)語(yǔ)音信號(hào)spure等于零時(shí)，得到的輸出即為靜音，靜音段只含有錄音設(shè)備和環(huán)境信息；計(jì)算音頻中每一幀的nfft點(diǎn)短時(shí)傅里葉頻譜能量e，同時(shí)在各音頻幀的時(shí)域計(jì)算其數(shù)據(jù)點(diǎn)的過(guò)零率z；對(duì)音頻幀進(jìn)行判斷，若其短時(shí)頻譜能量e小于設(shè)定的閾值te且過(guò)零率z小于設(shè)定的閾值tz，則判定為靜音幀，得到待測(cè)音頻的靜音段為sl，其中，l＝1,2,…,ns，l為靜音段幀序號(hào)，ns為靜音段幀數(shù)量；靜音段幀序號(hào)對(duì)應(yīng)于待測(cè)音頻幀序號(hào)的映射為loc，在靜音段得到篡改點(diǎn)位置后，根據(jù)loc求得篡改點(diǎn)在待測(cè)音頻中的位置；

步驟3、計(jì)算靜音段s中各幀基于梅爾倒譜系數(shù)(mel-frequencycepstralcoefficients，mfccs)擴(kuò)展的超向量特征，擴(kuò)展過(guò)程采用廣義線性區(qū)分性序列核(generalizedlineardiscriminativesequencekernel，gldskernel)函數(shù)，得到靜音段音頻特征為二維矩陣其中，hl為d維列向量，代表一個(gè)音頻幀特征向量，l＝1,2,…,ns，為音頻幀序號(hào)，共有ns個(gè)音頻特征向量，用于表征音頻的噪聲信息，即設(shè)備本征噪聲和環(huán)境噪聲信息的總和；

步驟4、用大小為d×2w的窗口在音頻特征h上從前向后沿水平方向滑動(dòng)，每次滑動(dòng)距離為w，窗口內(nèi)前w個(gè)列向量構(gòu)成大小為d×w的子矩陣，計(jì)算子矩陣每行的均值，得到一個(gè)d維均值向量；窗口內(nèi)后w個(gè)列向量構(gòu)成大小為d×w的子矩陣，計(jì)算子矩陣每行的均值，得到一個(gè)d維均值向量；計(jì)算每個(gè)窗口前后兩個(gè)d維均值向量的相關(guān)系數(shù)，隨著窗口的移動(dòng)，得到相關(guān)系數(shù)向量ρ，ρ中各元素用ρ(p)表示，p＝1,2,…,nρ，為相關(guān)系數(shù)序號(hào)，為相關(guān)系數(shù)向量長(zhǎng)度；

步驟5、計(jì)算相關(guān)系數(shù)向量ρ中各個(gè)元素的均值u，設(shè)定幅度閾值tρ，令幅度閾值為均值的倍數(shù)，tρ＝ku，k為小于1的正數(shù)；計(jì)算相關(guān)系數(shù)向量ρ的一階差分，得到一階差分向量ρ′，計(jì)算ρ′中各個(gè)元素絕對(duì)值的均值u′，設(shè)定一階差分閾值ρ′，令一階差分閾值為均值的倍數(shù)，tρ′＝q′u′，k′為大于1的正整數(shù)；利用相關(guān)系數(shù)向量中小于閾值tρ′的元素位置及一階差分向量中絕對(duì)值大于閾值tρ′的元素位置確定篡改點(diǎn)的位置，假設(shè)有u個(gè)篡改點(diǎn)，用位置集合q表示，記為q＝{q1,q2,q3,…,qu}；

步驟6、若q不為空，則待測(cè)音頻存在篡改，否則為原始音頻；若待測(cè)音頻被篡改過(guò)，共有u個(gè)篡改點(diǎn)，根據(jù)篡改點(diǎn)在相關(guān)系數(shù)向量中的位置，計(jì)算篡改點(diǎn)在靜音段中對(duì)應(yīng)的幀區(qū)間，再根據(jù)步驟2中靜音段幀序號(hào)與待測(cè)音頻幀序號(hào)的映射loc，求得篡改點(diǎn)對(duì)應(yīng)于待測(cè)音頻中的幀區(qū)間，作為最終估計(jì)的定位篡改區(qū)域。

步驟2中，采用現(xiàn)有的語(yǔ)音端點(diǎn)檢測(cè)算法，從音頻中檢測(cè)靜音段。

步驟1中，待測(cè)音頻的音頻幀總數(shù)可由下面公式進(jìn)行求?。?/p>

其中，代表向下取整數(shù)運(yùn)算，n為音頻幀總數(shù)，t為待測(cè)音頻時(shí)長(zhǎng)，t＞0，m為音頻幀時(shí)長(zhǎng)，t＞m＞0，n為幀移時(shí)長(zhǎng)，m＞n＞0。

步驟2中，計(jì)算音頻中每一幀的nfft點(diǎn)短時(shí)傅里葉頻譜能量e是計(jì)算每個(gè)音頻幀yi,j的nfft點(diǎn)傅里葉變換為yi,k，則其短時(shí)頻譜能量ei為：

其中，k＝1,2,…,nfft，為各個(gè)頻率點(diǎn)幅值，nfft為傅里葉變換長(zhǎng)度；計(jì)算音頻幀yi,j的過(guò)零率zi：

其中，sgn[]是符號(hào)運(yùn)算，即：

其中，x為任意實(shí)數(shù)。

步驟2中，e的平均值為0.250，取能量閾值te為平均值的4倍，z的平均值為20.430，取過(guò)零率閾值為平均值的1倍，tz＝20.430，對(duì)待測(cè)音頻各音頻幀進(jìn)行判斷，共有351個(gè)音頻幀的短時(shí)能量小于閾值te且過(guò)零率小于tz，將這351個(gè)音頻幀按順序連接成靜音段s。

步驟1中音頻幀時(shí)長(zhǎng)m一般在16毫秒到128毫秒之間進(jìn)行選取，m過(guò)大無(wú)法得到足夠的音頻幀，不利于觀察音頻隨時(shí)間變化的總體特性和精確定位篡改點(diǎn)，m過(guò)小無(wú)法從音頻幀中準(zhǔn)確提取音頻特征；音頻幀移時(shí)長(zhǎng)n表示相鄰音頻幀之間重合的部分大小，一般取音頻幀時(shí)長(zhǎng)的1/2到2/3之間，使幀和幀之間能夠平滑過(guò)渡，n過(guò)小相鄰音頻幀重合部分過(guò)多，相鄰音頻幀特征變化不明顯，n過(guò)大無(wú)法顯示音頻幀特征之間的連續(xù)性

本發(fā)明相對(duì)于現(xiàn)有技術(shù)具有如下的優(yōu)點(diǎn)及效果：

1)本發(fā)明在分析數(shù)字音頻有聲段和靜音段錄音流程的基礎(chǔ)上，提出從靜音段提取表征錄音設(shè)備本征噪聲和環(huán)境噪聲的音頻特征。因?yàn)橹苯訌拇郎y(cè)音頻提取特征，容易受到說(shuō)話人語(yǔ)音信號(hào)的影響，噪聲容易淹沒(méi)在語(yǔ)音信號(hào)中，難以提取音頻的噪聲特征，而靜音段只含有錄音設(shè)備和環(huán)境信息，不含說(shuō)話人語(yǔ)音信息，相對(duì)于直接從待測(cè)音頻提取特征，本發(fā)明提取的音頻特征更準(zhǔn)確；

2)本發(fā)明對(duì)相關(guān)系數(shù)向量進(jìn)行元素值和一階差分向量元素值閾值判斷，不僅能確定異源音頻拼接篡改的存在性，還能對(duì)拼接篡改進(jìn)行較為準(zhǔn)確的定位；

3)本發(fā)明完全利用待測(cè)音頻自身信息來(lái)進(jìn)行檢測(cè)，不需要在生成音頻時(shí)添加數(shù)字水印，也不需要其他額外的信息來(lái)進(jìn)行對(duì)比，實(shí)現(xiàn)了異源音頻拼接篡改盲檢測(cè)，具有較高的應(yīng)用靈活性；

4)本發(fā)明在檢測(cè)過(guò)程中只需要直接計(jì)算音頻頻譜能量、過(guò)零率和梅爾倒譜系數(shù)等，不涉及復(fù)雜模型的建立，具有較低復(fù)雜度，能在普通的計(jì)算機(jī)上快速完成；

5)本發(fā)明同樣適用于異源音頻插入篡改檢測(cè)，由異源音頻插入篡改而成的音頻有多個(gè)拼接點(diǎn)，篡改拼接點(diǎn)前后的音頻來(lái)自不同的錄制設(shè)備和環(huán)境，因此可以通過(guò)本發(fā)明逐個(gè)檢測(cè)這些篡改點(diǎn)，判斷異源音頻插入篡改的存在。

附圖說(shuō)明

圖1是本發(fā)明的流程框圖。

圖2是實(shí)施例中待測(cè)音頻波形圖。

圖3是數(shù)字音頻錄音流程示意圖。

圖4是實(shí)施例中待測(cè)音頻靜音檢測(cè)效果圖。

圖5是實(shí)施例中相關(guān)系數(shù)向量示意圖。

圖6是實(shí)施例中的篡改檢測(cè)結(jié)果圖。

具體實(shí)施方式

下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述，但本發(fā)明的實(shí)施方式不限于此。

下面以一段wav格式的音頻作為優(yōu)選的實(shí)施例詳細(xì)介紹本發(fā)明的實(shí)施過(guò)程。如圖2所示，該音頻是由兩段音頻拼接而成，前一段是由appleiphone5手機(jī)錄制的音頻，時(shí)長(zhǎng)為6.049秒，后一段是由samsunge2600手機(jī)錄制的音頻，時(shí)長(zhǎng)為7.818秒，采樣率均為16khz。篡改音頻時(shí)長(zhǎng)為13.867秒，拼接篡改點(diǎn)為待測(cè)音頻的第6.049秒處。

如圖1所示，為本發(fā)明方法主要分為六個(gè)步驟，包括音頻的分幀與加窗，檢測(cè)靜音段，計(jì)算靜音段音頻特征，求相關(guān)系數(shù)向量，檢測(cè)篡改點(diǎn)，確定篡改位置；通過(guò)本發(fā)明的方法將此篡改檢測(cè)出來(lái)，并確定篡改位置。

第一步，音頻的分幀與加窗。

首先在時(shí)域上對(duì)待測(cè)音頻進(jìn)行分幀與加窗處理。待測(cè)音頻的音頻幀總數(shù)可由下面公式進(jìn)行求?。?/p>

其中，代表向下取整數(shù)運(yùn)算，n為音頻幀總數(shù)，t為待測(cè)音頻時(shí)長(zhǎng)，t＞0，m為音頻幀時(shí)長(zhǎng)，t＞m＞0，n為幀移時(shí)長(zhǎng)，m＞n＞0。音頻幀時(shí)長(zhǎng)m為16‐128毫秒，m過(guò)大無(wú)法得到足夠的音頻幀，不利于觀察音頻隨時(shí)間變化的總體特性和篡改點(diǎn)的精確定位，m過(guò)小無(wú)法從音頻幀中準(zhǔn)確提取音頻特征；音頻幀移時(shí)長(zhǎng)n表示相鄰音頻幀之間重合的部分大小，一般取音頻幀時(shí)長(zhǎng)的1/2‐2/3之間，使幀和幀之間能夠平滑過(guò)渡，n過(guò)小相鄰音頻幀重合部分過(guò)多，相鄰音頻幀特征變化不明顯，n過(guò)大無(wú)法顯示音頻幀特征之間的連續(xù)性。將音頻最后不夠一幀長(zhǎng)度的數(shù)據(jù)舍棄，音頻幀采用漢明窗加窗，分幀加窗后的時(shí)域音頻信號(hào)表示為yi,j，其中，i＝1,2,…,n，為音頻幀序號(hào)，共有n個(gè)音頻幀，j＝1,2,…,nframe，為音頻幀的第j個(gè)數(shù)據(jù)點(diǎn)，共有nframe個(gè)數(shù)據(jù)點(diǎn)。本實(shí)施例中，選取音頻幀時(shí)長(zhǎng)為32毫秒，幀移為幀長(zhǎng)的1/2，音頻每幀共有32毫秒×16khz＝512個(gè)數(shù)據(jù)點(diǎn)，根據(jù)公式(1)計(jì)算得到音頻共有865幀。

第二步，檢測(cè)靜音段。

如圖3所示，spure代表說(shuō)話人語(yǔ)音信號(hào)，hrir代表環(huán)境脈沖響應(yīng)，db代表環(huán)境噪聲，hmic代表設(shè)備脈沖響應(yīng)，dmic代表設(shè)備本征噪聲，則數(shù)字音頻y為：

y＝(spure*hrir+db)*hmic+dmic(7)

其中，*代表卷積運(yùn)算。當(dāng)語(yǔ)音信號(hào)spure等于零時(shí)，得到的輸出即為靜音，靜音段只含有錄音設(shè)備和環(huán)境信息，有利于準(zhǔn)確提取噪聲特征。而有聲段包含了說(shuō)話人語(yǔ)音信號(hào)spure、錄音設(shè)備本征噪聲dmic和環(huán)境噪聲db，說(shuō)話人語(yǔ)音信號(hào)spure能量大，噪聲容易淹沒(méi)在有聲段中，難以提取音頻的噪聲特征，而且有聲段能量波動(dòng)大，提取的噪聲特征不平穩(wěn)。計(jì)算每個(gè)音頻幀yi,j的nfft點(diǎn)傅里葉變換為yi,k，則其短時(shí)頻譜能量ei為：

其中，k＝1,2,…,nfft，為各個(gè)頻率點(diǎn)幅值，nfft為傅里葉變換長(zhǎng)度。計(jì)算音頻幀yi,j的過(guò)零率zi：

其中，sgn[]是符號(hào)運(yùn)算，即：

其中，x為任意實(shí)數(shù)。對(duì)音頻幀的短時(shí)頻譜能量e和過(guò)零率z進(jìn)行閾值判斷，取短時(shí)能量e平均值的倍數(shù)作為能量閾值te，取過(guò)零率z平均值的倍數(shù)作為過(guò)零率閾值tz，若其能量小于閾值te且過(guò)零率小于閾值tz，判定為靜音段。在本實(shí)施例中，e的平均值為0.250，取能量閾值te為平均值的4倍，即te＝1；z的平均值為20.430，取過(guò)零率閾值為平均值的1倍，即tz＝20.430，對(duì)待測(cè)音頻各音頻幀進(jìn)行判斷，共有351個(gè)音頻幀的短時(shí)能量小于閾值te且過(guò)零率小于tz，將這351個(gè)音頻幀按順序連接成靜音段s。圖4為本實(shí)施例中待測(cè)音頻靜音檢測(cè)效果圖，有聲段的檢測(cè)值為1，靜音段的檢測(cè)值為0。

從待測(cè)音頻檢測(cè)靜音的過(guò)程中，靜音段中每個(gè)音頻幀都有對(duì)應(yīng)于待測(cè)音頻的位置，記錄其映射為loc，即任意靜音段音頻幀sl，對(duì)應(yīng)于待測(cè)音頻音頻幀yi,j：

i＝loc(l)(11)

其中，l＝1,2,…,ns，為靜音段音頻幀序號(hào)，共有ns幀。公式(6)說(shuō)明了靜音段中任意音頻幀都對(duì)應(yīng)于待測(cè)音頻的音頻幀，當(dāng)?shù)玫酱鄹狞c(diǎn)在靜音段中的位置，通過(guò)loc求得篡改點(diǎn)在待測(cè)音頻中對(duì)應(yīng)的位置。在本實(shí)施例中，具體loc映射關(guān)系如表1所示：

表1

待測(cè)音頻共有865個(gè)音頻幀，檢測(cè)為靜音幀的有351個(gè)，剩下的音頻幀為有聲段。一般情況下，音頻中會(huì)有多段靜音，如表1所示，本實(shí)施例中的待測(cè)音頻共有5段靜音，按順序連接成靜音段s，第1段靜音在靜音段s中的序號(hào)為1至52，對(duì)應(yīng)于待測(cè)音頻幀序號(hào)為1至52；第2段靜音在靜音段s中的幀序號(hào)為53至75，對(duì)應(yīng)于待測(cè)音頻中的幀序號(hào)為158至180；第3段靜音在靜音段s中的幀序號(hào)為76至236，對(duì)應(yīng)于待測(cè)音頻中的幀序號(hào)為298至458；第4段靜音在靜音段s中的幀序號(hào)為237至262，對(duì)應(yīng)于待測(cè)音頻中的幀序號(hào)為614至639；第5段靜音在靜音段s中的幀序號(hào)為263至351，對(duì)應(yīng)于待測(cè)音頻中的幀序號(hào)為777至865；則可通過(guò)loc映射求得靜音段s中任意的幀序號(hào)對(duì)應(yīng)于待測(cè)音頻中的幀序號(hào)。

第三步，計(jì)算靜音段音頻特征。

計(jì)算靜音段s的基于mfccs擴(kuò)展的gldskernel超向量特征。對(duì)于靜音段的每個(gè)音頻幀sl，計(jì)算其d0維mfccs特征為通過(guò)gldskernel函數(shù)，擴(kuò)展為d維超向量特征hi：

音頻特征維數(shù)d與d0的關(guān)系為：

在本實(shí)施例中，對(duì)靜音段每個(gè)音頻幀計(jì)算12維mfccs特征，通過(guò)gldskernel函數(shù)擴(kuò)展得到91維超向量特征，靜音段所有音頻幀特征組成大小為91×351的二維矩陣h，每列代表一個(gè)音頻幀特征向量，共有351個(gè)音頻特征向量。

第四步，求相關(guān)系數(shù)向量。

用大小為d×2w的窗口在音頻特征h上從前往后沿水平方向滑動(dòng)，每次滑動(dòng)距離為w，w為大于1小于ns的整數(shù)，用于表示窗口內(nèi)列向量的個(gè)數(shù)，窗口內(nèi)前w個(gè)列向量構(gòu)成大小為d×w的子矩陣，計(jì)算子矩陣每行的均值，得到一個(gè)d維均值向量hp,1；窗口內(nèi)后w個(gè)列向量構(gòu)成大小為d×w的子矩陣，計(jì)算子矩陣每行的均值，得到一個(gè)d維均值向量hp,2；計(jì)算每個(gè)窗口前后兩個(gè)d維均值向量hp,1和hp,2的相關(guān)系數(shù)，隨著窗口的移動(dòng)，得到相關(guān)系數(shù)向量ρ，求取過(guò)程如下式表示：

其中，p＝1,2,…,nρ，為相關(guān)系數(shù)向量中元素的序號(hào)，d＝1,2,…,d，為音頻特征各維度的值，共有d維，相關(guān)系數(shù)向量ρ的長(zhǎng)度為：

其中，ns為靜音段的幀數(shù)，μp,1為向量hp,1各個(gè)元素的均值，μp,2為向量hp,2各個(gè)元素的均值，即：

一般情況下，從單獨(dú)一個(gè)音頻幀中難以準(zhǔn)確提取表征設(shè)備本征噪聲和環(huán)境噪聲的特征，因此需要通過(guò)對(duì)多幀音頻特征取平均，得到準(zhǔn)確的特征。在音頻篡改處，滑動(dòng)窗口越大，窗口內(nèi)前w個(gè)音頻幀的均值特征與后w個(gè)音頻幀的均值特征相關(guān)系數(shù)變化越明顯。但是，窗口的大小也會(huì)影響篡改定位的精度，窗口越大，定位精度越低。在檢測(cè)過(guò)程中，可根據(jù)實(shí)際情況中需要的定位精度選取恰當(dāng)大小的窗口，假設(shè)容忍的最大定位誤差為時(shí)長(zhǎng)terror，可以由音頻幀移n計(jì)算最大的滑動(dòng)距離w為：

本實(shí)施例中，假設(shè)最大定位誤差時(shí)長(zhǎng)為150毫秒，根據(jù)公式(12)得到最大滑動(dòng)距離為4，設(shè)定滑動(dòng)窗口大小為91×8，得到相關(guān)系數(shù)向量ρ，根據(jù)公式(10)得到相關(guān)系數(shù)向量長(zhǎng)度為86，相關(guān)系數(shù)向量如圖5所示。

第五步，檢測(cè)篡改點(diǎn)。

對(duì)相關(guān)系數(shù)向量ρ的元素值進(jìn)行判斷。首先，計(jì)算相關(guān)系數(shù)向量ρ中各個(gè)元素的均值u，得到均值之后，設(shè)定幅度閾值tρ＝qu，因?yàn)榇鄹奶幍南嚓P(guān)系數(shù)向量為異常值，其元素值小于均值u，所以選取k為小于1的正數(shù)。在本實(shí)施例中，計(jì)算得到相關(guān)系數(shù)向量ρ中各個(gè)元素的均值u＝0.9631，取q＝0.9，得到幅度閾值tρ＝qu＝0.867。數(shù)字語(yǔ)音具有短時(shí)平穩(wěn)性，在待測(cè)音頻的未篡改處，前后靜音來(lái)自同一錄音設(shè)備，其前后靜音段的音頻特征相關(guān)系數(shù)接近于1。而在待測(cè)音頻的篡改處，拼接處前后的音頻特征代表了不同設(shè)備本征噪聲和環(huán)境噪聲信息，相關(guān)系數(shù)會(huì)突然變小。通過(guò)檢測(cè)相關(guān)系數(shù)向量的異常尖峰，確定拼接篡改位置。

對(duì)相關(guān)系數(shù)一階差分向量進(jìn)行判斷。首先，計(jì)算ρ的一階差分向量ρ′：

其中，ρ′(p)為相關(guān)系數(shù)一階差分向量第p個(gè)元素值，p＝1,2,…,nρ，為向量元素序號(hào)。計(jì)算ρ′各個(gè)元素絕對(duì)值的均值u′，得到均值后，設(shè)定一階差分閾值tρ′＝q′u′，因?yàn)榇鄹奶幍南嚓P(guān)系數(shù)一階差分向量元素值為異常值，其差分絕對(duì)值大于均值u′，所以選取q′為大于1的正數(shù)。在本實(shí)施例中，計(jì)算得到相關(guān)系數(shù)一階差分向量ρ′中各個(gè)元素絕對(duì)值的均值u′＝0.028，取k′＝10，得到一階差分閾值tρ′＝q′u′＝0.28。相關(guān)系數(shù)一階差分向量表示相關(guān)系數(shù)變化的劇烈程度，其絕對(duì)值越大，則前后相關(guān)系數(shù)變化越大，是篡改點(diǎn)的可能性越大。

在相關(guān)系數(shù)向量ρ中，小于閾值tρ的元素往往預(yù)示著其所在位置存在篡改。而在相關(guān)系數(shù)一階差分向量ρ′中，則是絕對(duì)值大于閾值tρ′的元素預(yù)示著其所在位置存在篡改。利用上述兩個(gè)閾值得到篡改點(diǎn)集合q，如下式所示：

q＝{p|1≤p≤nρ,ρ(p)＜tρ,|ρ′(p)|＞tρ′}(19)

在本實(shí)施例中，得到篡改點(diǎn)集合為q＝{39}，待測(cè)音頻存在1個(gè)拼接篡改點(diǎn)。

第六步，確定篡改位置。

在本實(shí)施例中，求得q＝{39}，即待測(cè)音頻被篡改過(guò)，且篡改點(diǎn)為相關(guān)系數(shù)向量第39個(gè)元素的位置。本發(fā)明方法首先得到篡改點(diǎn)在相關(guān)系數(shù)向量中的位置，再根據(jù)滑動(dòng)窗口大小d×2w和滑動(dòng)距離w，求得篡改點(diǎn)p對(duì)應(yīng)于靜音段第i1幀到第i2幀之間，其中：

在本實(shí)施例中，窗口長(zhǎng)度為8，滑動(dòng)距離為4，根據(jù)公式(10)得到篡改點(diǎn)在靜音段的第153幀到第160幀之間。

得到篡改點(diǎn)在靜音段中的位置之后，由第二步中靜音段s與待測(cè)音頻的幀序號(hào)映射loc，計(jì)算篡改點(diǎn)在待測(cè)音頻中的位置。在本實(shí)施例中，得到篡改點(diǎn)在待測(cè)音頻的第375幀到第382幀之間，根據(jù)幀長(zhǎng)32毫秒和幀移16毫秒，可以得到篡改點(diǎn)位于待測(cè)音頻的6.000秒到6.112秒之間，檢測(cè)結(jié)果如圖6所示。實(shí)際篡改拼接點(diǎn)為待測(cè)音頻的第6.049秒處，檢測(cè)結(jié)果與實(shí)際情況相符，證明了本發(fā)明的有效性。

上述實(shí)施例為本發(fā)明較佳的實(shí)施方式，但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制，其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化，均應(yīng)為等效的置換方式，都包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡永健;梁富文;劉琲貝;王宇飛
技術(shù)所有人：華南理工大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

靜音音頻相關(guān)技術(shù)

音頻靜音電路相關(guān)技術(shù)

音頻輸出暫時(shí)被靜音相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于靜音段的異源音頻拼接篡改盲檢測(cè)方法與流程