本發(fā)明涉及音頻取證技術(shù)領(lǐng)域,具體涉及一種基于靜音段的異源音頻拼接篡改盲檢測(cè)方法。
背景技術(shù):
音頻拼接是最常見的音頻篡改形式之一。隨著便攜式錄音設(shè)備的普及以及各種功能強(qiáng)大的多媒體編輯軟件的出現(xiàn),對(duì)音頻真?zhèn)芜M(jìn)行檢測(cè)變得十分重要。數(shù)字音頻盲取證作為一種音頻數(shù)據(jù)的取證方法,無(wú)需借助添加數(shù)字水印進(jìn)行檢測(cè),更具有實(shí)用性,在司法取證和新聞信息真?zhèn)舞b定等領(lǐng)域具有廣泛的應(yīng)用前景。
在數(shù)字音頻篡改盲檢測(cè)研究領(lǐng)域,目前流行的方法主要有基于電網(wǎng)頻率(electricnetworkfrequency,enf)和基于音頻特征(例如,語(yǔ)音特征,錄音設(shè)備的本征噪聲等)兩大類。2005年grigoras在期刊ijsll(internationaljournalofspeech,languageandthelaw,國(guó)際語(yǔ)音、語(yǔ)言和法律期刊)上發(fā)表論文《digitalaudiorecordinganalysistheelectricnetworkfrequencycriterion》,首次提出基于enf的數(shù)字音頻篡改方法,通過(guò)比較音頻中的enf與歷史enf數(shù)據(jù)庫(kù)中的記錄是否一致,判斷音頻是否被篡改。2009年nicolalde等學(xué)者在icassp(internationalconferenceonacoustics,speechandsignalprocessing,國(guó)際聲學(xué)、語(yǔ)音與信號(hào)處理會(huì)議)上發(fā)表論文《evaluatingdigitalaudioauthenticitywithspectraldistanceandenfphasechange》,通過(guò)音頻中enf信號(hào)的相位變化來(lái)檢測(cè)和定位篡改。隨后,有一批基于enf信號(hào)的音頻篡改檢測(cè)算法涌現(xiàn)。然而,對(duì)于手機(jī)和錄音筆等常用的直流供電錄音設(shè)備,由于其錄制的音頻中并不含enf信號(hào),基于enf的音頻篡改檢測(cè)方法并不適用。
數(shù)字音頻錄音過(guò)程除了儲(chǔ)存有效的語(yǔ)音信號(hào),還不可避免地引入了噪聲,主要包括錄音設(shè)備的本征噪聲和環(huán)境噪聲。對(duì)于異源音頻拼接篡改,現(xiàn)有算法通常在未區(qū)分有聲段和靜音段的情況下,從待測(cè)音頻中提取語(yǔ)音特征、設(shè)備的本征噪聲和環(huán)境噪聲特征,通過(guò)檢查其一致性是否受到破壞判斷音頻是否存在篡改。2012年x.pan等學(xué)者在icassp上發(fā)表論文《detectingsplicingindigitalaudiousinglocalnoiselevelestimation》,通過(guò)對(duì)音頻的局部噪聲水平進(jìn)行比較,檢測(cè)和定位篡改。然而,該算法在有聲段計(jì)算的噪聲水平波動(dòng)較大,導(dǎo)致誤檢率過(guò)高,并且拼接前后音頻的噪聲水平一般相差不大,故檢測(cè)效果常常不明顯。2014年h.zhao等學(xué)者在acmih&mmsec(acmworkshoponinformationhidingandmultimediasecurity,信息隱藏暨多媒體安全國(guó)際會(huì)議)上發(fā)表論文《audiosourceauthenticityandsplicingdetectionusingacousticenvironmentalsignature》,以起始若干幀音頻特征的均值作為參考特征,通過(guò)考察音頻各幀與參考特征的相關(guān)系數(shù)變化來(lái)檢測(cè)和定位篡改。然而,該算法從有聲段提取的音頻特征不穩(wěn)定,導(dǎo)致出現(xiàn)過(guò)多異常相關(guān)系數(shù)。同時(shí)由于數(shù)字語(yǔ)音是非平穩(wěn)的時(shí)變信號(hào),其特性會(huì)隨時(shí)間緩慢變化,與參考特征間隔時(shí)間越長(zhǎng),計(jì)算得到的相關(guān)系數(shù)越小,容易造成誤檢。另外該算法沒(méi)有定位機(jī)制,不能精確確定篡改位置。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有異源音頻拼接篡改盲檢測(cè)方法準(zhǔn)確率不高,定位精度不足等缺點(diǎn),提供一種準(zhǔn)確率高,定位精度高的基于靜音段的異源音頻拼接篡改盲檢測(cè)方法。
不同于現(xiàn)有技術(shù)的算法,本發(fā)明在靜音段上提取錄音設(shè)備本征噪聲和環(huán)境噪聲特征,檢測(cè)靜音段相鄰幀相關(guān)系數(shù)向量的突變,定位拼接篡改,提出一種基于靜音段的異源音頻拼接篡改盲檢測(cè)算法,利用判斷靜音段提取的噪聲(主要是設(shè)備本征噪聲和環(huán)境噪聲)特征是否變異確定篡改。異源音頻拼接篡改指的是將多段由不同錄音設(shè)備錄制的音頻拼接成一段新音頻的篡改方式。為了避免人耳察覺(jué)篡改造成的異常,篡改者通常會(huì)在篡改處前后借助靜音段進(jìn)行平滑過(guò)渡。然而這些異??梢员唤y(tǒng)計(jì)信號(hào)檢測(cè)的方法察覺(jué),因此,可以從音頻特征的一致性判斷靜音段是否來(lái)自不同的錄音設(shè)備和環(huán)境,還可以進(jìn)一步通過(guò)檢測(cè)特征的跳變點(diǎn)確定篡改音頻的拼接位置。從靜音段提取音頻特征的主要優(yōu)點(diǎn)有:首先,音頻中的有聲段由語(yǔ)音信號(hào)和噪聲組成,相對(duì)于語(yǔ)音信號(hào),噪聲能量較小,因此難以從有聲段準(zhǔn)確提取錄音設(shè)備和環(huán)境噪聲的特征,而靜音段只有設(shè)備本征噪聲和環(huán)境噪聲,不受說(shuō)話人語(yǔ)音的影響,更能準(zhǔn)確提取噪聲特征;其次,有聲段能量波動(dòng)大,相鄰音頻段之間振幅和頻譜等特性差異大,提取出來(lái)的音頻特征不穩(wěn)定,而靜音段能量穩(wěn)定,有利于真實(shí)反映錄音設(shè)備和環(huán)境噪聲的特征。本發(fā)明提出從靜音段中提取音頻特征,通過(guò)檢測(cè)相鄰音頻段特征相關(guān)系數(shù)向量的突變,判斷并定位異源音頻拼接篡改。迄今為止,利用從靜音段中提取音頻特征來(lái)進(jìn)行音頻篡改盲檢測(cè)的方法尚未見報(bào)道。
為了達(dá)到上述發(fā)明目的,本發(fā)明采用以下技術(shù)方案:一種基于靜音段的異源音頻拼接篡改盲檢測(cè)方法,其主要步驟如下:
步驟1、選擇待測(cè)的可疑音頻,對(duì)待測(cè)音頻進(jìn)行分幀,幀長(zhǎng)為m,幀移為n,相鄰音頻幀互有重疊,使幀和幀之間能夠平滑過(guò)渡;音頻幀時(shí)長(zhǎng)m為16-128毫秒,音頻幀移時(shí)長(zhǎng)n表示相鄰音頻幀之間重合的部分大小,取音頻幀時(shí)長(zhǎng)的1/2-2/3;對(duì)分幀后的各個(gè)音頻幀采用漢明窗進(jìn)行加窗,分幀加窗后的時(shí)域音頻信號(hào)表示為yi,j,其中,i=1,2,…,n;i為音頻幀序號(hào),共有n個(gè)音頻幀,j=1,2,…,nframe,為音頻幀的第j個(gè)數(shù)據(jù)點(diǎn),共有nframe個(gè)數(shù)據(jù)點(diǎn);
步驟2、spure代表說(shuō)話人語(yǔ)音信號(hào),hrir代表環(huán)境脈沖響應(yīng),db代表環(huán)境噪聲,hmic代表設(shè)備脈沖響應(yīng),dmic代表設(shè)備本征噪聲,則數(shù)字音頻y為:
y=(spure*hrir+db)*hmic+dmic(1)
其中,*代表卷積運(yùn)算。當(dāng)語(yǔ)音信號(hào)spure等于零時(shí),得到的輸出即為靜音,靜音段只含有錄音設(shè)備和環(huán)境信息;計(jì)算音頻中每一幀的nfft點(diǎn)短時(shí)傅里葉頻譜能量e,同時(shí)在各音頻幀的時(shí)域計(jì)算其數(shù)據(jù)點(diǎn)的過(guò)零率z;對(duì)音頻幀進(jìn)行判斷,若其短時(shí)頻譜能量e小于設(shè)定的閾值te且過(guò)零率z小于設(shè)定的閾值tz,則判定為靜音幀,得到待測(cè)音頻的靜音段為sl,其中,l=1,2,…,ns,l為靜音段幀序號(hào),ns為靜音段幀數(shù)量;靜音段幀序號(hào)對(duì)應(yīng)于待測(cè)音頻幀序號(hào)的映射為loc,在靜音段得到篡改點(diǎn)位置后,根據(jù)loc求得篡改點(diǎn)在待測(cè)音頻中的位置;
步驟3、計(jì)算靜音段s中各幀基于梅爾倒譜系數(shù)(mel-frequencycepstralcoefficients,mfccs)擴(kuò)展的超向量特征,擴(kuò)展過(guò)程采用廣義線性區(qū)分性序列核(generalizedlineardiscriminativesequencekernel,gldskernel)函數(shù),得到靜音段音頻特征為二維矩陣
步驟4、用大小為d×2w的窗口在音頻特征h上從前向后沿水平方向滑動(dòng),每次滑動(dòng)距離為w,窗口內(nèi)前w個(gè)列向量構(gòu)成大小為d×w的子矩陣,計(jì)算子矩陣每行的均值,得到一個(gè)d維均值向量;窗口內(nèi)后w個(gè)列向量構(gòu)成大小為d×w的子矩陣,計(jì)算子矩陣每行的均值,得到一個(gè)d維均值向量;計(jì)算每個(gè)窗口前后兩個(gè)d維均值向量的相關(guān)系數(shù),隨著窗口的移動(dòng),得到相關(guān)系數(shù)向量ρ,ρ中各元素用ρ(p)表示,p=1,2,…,nρ,為相關(guān)系數(shù)序號(hào),
步驟5、計(jì)算相關(guān)系數(shù)向量ρ中各個(gè)元素的均值u,設(shè)定幅度閾值tρ,令幅度閾值為均值的倍數(shù),tρ=ku,k為小于1的正數(shù);計(jì)算相關(guān)系數(shù)向量ρ的一階差分,得到一階差分向量ρ′,計(jì)算ρ′中各個(gè)元素絕對(duì)值的均值u′,設(shè)定一階差分閾值ρ′,令一階差分閾值為均值的倍數(shù),tρ′=q′u′,k′為大于1的正整數(shù);利用相關(guān)系數(shù)向量中小于閾值tρ′的元素位置及一階差分向量中絕對(duì)值大于閾值tρ′的元素位置確定篡改點(diǎn)的位置,假設(shè)有u個(gè)篡改點(diǎn),用位置集合q表示,記為q={q1,q2,q3,…,qu};
步驟6、若q不為空,則待測(cè)音頻存在篡改,否則為原始音頻;若待測(cè)音頻被篡改過(guò),共有u個(gè)篡改點(diǎn),根據(jù)篡改點(diǎn)在相關(guān)系數(shù)向量中的位置,計(jì)算篡改點(diǎn)在靜音段中對(duì)應(yīng)的幀區(qū)間,再根據(jù)步驟2中靜音段幀序號(hào)與待測(cè)音頻幀序號(hào)的映射loc,求得篡改點(diǎn)對(duì)應(yīng)于待測(cè)音頻中的幀區(qū)間,作為最終估計(jì)的定位篡改區(qū)域。
步驟2中,采用現(xiàn)有的語(yǔ)音端點(diǎn)檢測(cè)算法,從音頻中檢測(cè)靜音段。
步驟1中,待測(cè)音頻的音頻幀總數(shù)可由下面公式進(jìn)行求?。?/p>
其中,
步驟2中,計(jì)算音頻中每一幀的nfft點(diǎn)短時(shí)傅里葉頻譜能量e是計(jì)算每個(gè)音頻幀yi,j的nfft點(diǎn)傅里葉變換為yi,k,則其短時(shí)頻譜能量ei為:
其中,k=1,2,…,nfft,為各個(gè)頻率點(diǎn)幅值,nfft為傅里葉變換長(zhǎng)度;計(jì)算音頻幀yi,j的過(guò)零率zi:
其中,sgn[]是符號(hào)運(yùn)算,即:
其中,x為任意實(shí)數(shù)。
步驟2中,e的平均值為0.250,取能量閾值te為平均值的4倍,z的平均值為20.430,取過(guò)零率閾值為平均值的1倍,tz=20.430,對(duì)待測(cè)音頻各音頻幀進(jìn)行判斷,共有351個(gè)音頻幀的短時(shí)能量小于閾值te且過(guò)零率小于tz,將這351個(gè)音頻幀按順序連接成靜音段s。
步驟1中音頻幀時(shí)長(zhǎng)m一般在16毫秒到128毫秒之間進(jìn)行選取,m過(guò)大無(wú)法得到足夠的音頻幀,不利于觀察音頻隨時(shí)間變化的總體特性和精確定位篡改點(diǎn),m過(guò)小無(wú)法從音頻幀中準(zhǔn)確提取音頻特征;音頻幀移時(shí)長(zhǎng)n表示相鄰音頻幀之間重合的部分大小,一般取音頻幀時(shí)長(zhǎng)的1/2到2/3之間,使幀和幀之間能夠平滑過(guò)渡,n過(guò)小相鄰音頻幀重合部分過(guò)多,相鄰音頻幀特征變化不明顯,n過(guò)大無(wú)法顯示音頻幀特征之間的連續(xù)性
本發(fā)明相對(duì)于現(xiàn)有技術(shù)具有如下的優(yōu)點(diǎn)及效果:
1)本發(fā)明在分析數(shù)字音頻有聲段和靜音段錄音流程的基礎(chǔ)上,提出從靜音段提取表征錄音設(shè)備本征噪聲和環(huán)境噪聲的音頻特征。因?yàn)橹苯訌拇郎y(cè)音頻提取特征,容易受到說(shuō)話人語(yǔ)音信號(hào)的影響,噪聲容易淹沒(méi)在語(yǔ)音信號(hào)中,難以提取音頻的噪聲特征,而靜音段只含有錄音設(shè)備和環(huán)境信息,不含說(shuō)話人語(yǔ)音信息,相對(duì)于直接從待測(cè)音頻提取特征,本發(fā)明提取的音頻特征更準(zhǔn)確;
2)本發(fā)明對(duì)相關(guān)系數(shù)向量進(jìn)行元素值和一階差分向量元素值閾值判斷,不僅能確定異源音頻拼接篡改的存在性,還能對(duì)拼接篡改進(jìn)行較為準(zhǔn)確的定位;
3)本發(fā)明完全利用待測(cè)音頻自身信息來(lái)進(jìn)行檢測(cè),不需要在生成音頻時(shí)添加數(shù)字水印,也不需要其他額外的信息來(lái)進(jìn)行對(duì)比,實(shí)現(xiàn)了異源音頻拼接篡改盲檢測(cè),具有較高的應(yīng)用靈活性;
4)本發(fā)明在檢測(cè)過(guò)程中只需要直接計(jì)算音頻頻譜能量、過(guò)零率和梅爾倒譜系數(shù)等,不涉及復(fù)雜模型的建立,具有較低復(fù)雜度,能在普通的計(jì)算機(jī)上快速完成;
5)本發(fā)明同樣適用于異源音頻插入篡改檢測(cè),由異源音頻插入篡改而成的音頻有多個(gè)拼接點(diǎn),篡改拼接點(diǎn)前后的音頻來(lái)自不同的錄制設(shè)備和環(huán)境,因此可以通過(guò)本發(fā)明逐個(gè)檢測(cè)這些篡改點(diǎn),判斷異源音頻插入篡改的存在。
附圖說(shuō)明
圖1是本發(fā)明的流程框圖。
圖2是實(shí)施例中待測(cè)音頻波形圖。
圖3是數(shù)字音頻錄音流程示意圖。
圖4是實(shí)施例中待測(cè)音頻靜音檢測(cè)效果圖。
圖5是實(shí)施例中相關(guān)系數(shù)向量示意圖。
圖6是實(shí)施例中的篡改檢測(cè)結(jié)果圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。
下面以一段wav格式的音頻作為優(yōu)選的實(shí)施例詳細(xì)介紹本發(fā)明的實(shí)施過(guò)程。如圖2所示,該音頻是由兩段音頻拼接而成,前一段是由appleiphone5手機(jī)錄制的音頻,時(shí)長(zhǎng)為6.049秒,后一段是由samsunge2600手機(jī)錄制的音頻,時(shí)長(zhǎng)為7.818秒,采樣率均為16khz。篡改音頻時(shí)長(zhǎng)為13.867秒,拼接篡改點(diǎn)為待測(cè)音頻的第6.049秒處。
如圖1所示,為本發(fā)明方法主要分為六個(gè)步驟,包括音頻的分幀與加窗,檢測(cè)靜音段,計(jì)算靜音段音頻特征,求相關(guān)系數(shù)向量,檢測(cè)篡改點(diǎn),確定篡改位置;通過(guò)本發(fā)明的方法將此篡改檢測(cè)出來(lái),并確定篡改位置。
第一步,音頻的分幀與加窗。
首先在時(shí)域上對(duì)待測(cè)音頻進(jìn)行分幀與加窗處理。待測(cè)音頻的音頻幀總數(shù)可由下面公式進(jìn)行求?。?/p>
其中,
第二步,檢測(cè)靜音段。
如圖3所示,spure代表說(shuō)話人語(yǔ)音信號(hào),hrir代表環(huán)境脈沖響應(yīng),db代表環(huán)境噪聲,hmic代表設(shè)備脈沖響應(yīng),dmic代表設(shè)備本征噪聲,則數(shù)字音頻y為:
y=(spure*hrir+db)*hmic+dmic(7)
其中,*代表卷積運(yùn)算。當(dāng)語(yǔ)音信號(hào)spure等于零時(shí),得到的輸出即為靜音,靜音段只含有錄音設(shè)備和環(huán)境信息,有利于準(zhǔn)確提取噪聲特征。而有聲段包含了說(shuō)話人語(yǔ)音信號(hào)spure、錄音設(shè)備本征噪聲dmic和環(huán)境噪聲db,說(shuō)話人語(yǔ)音信號(hào)spure能量大,噪聲容易淹沒(méi)在有聲段中,難以提取音頻的噪聲特征,而且有聲段能量波動(dòng)大,提取的噪聲特征不平穩(wěn)。計(jì)算每個(gè)音頻幀yi,j的nfft點(diǎn)傅里葉變換為yi,k,則其短時(shí)頻譜能量ei為:
其中,k=1,2,…,nfft,為各個(gè)頻率點(diǎn)幅值,nfft為傅里葉變換長(zhǎng)度。計(jì)算音頻幀yi,j的過(guò)零率zi:
其中,sgn[]是符號(hào)運(yùn)算,即:
其中,x為任意實(shí)數(shù)。對(duì)音頻幀的短時(shí)頻譜能量e和過(guò)零率z進(jìn)行閾值判斷,取短時(shí)能量e平均值的倍數(shù)作為能量閾值te,取過(guò)零率z平均值的倍數(shù)作為過(guò)零率閾值tz,若其能量小于閾值te且過(guò)零率小于閾值tz,判定為靜音段。在本實(shí)施例中,e的平均值為0.250,取能量閾值te為平均值的4倍,即te=1;z的平均值為20.430,取過(guò)零率閾值為平均值的1倍,即tz=20.430,對(duì)待測(cè)音頻各音頻幀進(jìn)行判斷,共有351個(gè)音頻幀的短時(shí)能量小于閾值te且過(guò)零率小于tz,將這351個(gè)音頻幀按順序連接成靜音段s。圖4為本實(shí)施例中待測(cè)音頻靜音檢測(cè)效果圖,有聲段的檢測(cè)值為1,靜音段的檢測(cè)值為0。
從待測(cè)音頻檢測(cè)靜音的過(guò)程中,靜音段中每個(gè)音頻幀都有對(duì)應(yīng)于待測(cè)音頻的位置,記錄其映射為loc,即任意靜音段音頻幀sl,對(duì)應(yīng)于待測(cè)音頻音頻幀yi,j:
i=loc(l)(11)
其中,l=1,2,…,ns,為靜音段音頻幀序號(hào),共有ns幀。公式(6)說(shuō)明了靜音段中任意音頻幀都對(duì)應(yīng)于待測(cè)音頻的音頻幀,當(dāng)?shù)玫酱鄹狞c(diǎn)在靜音段中的位置,通過(guò)loc求得篡改點(diǎn)在待測(cè)音頻中對(duì)應(yīng)的位置。在本實(shí)施例中,具體loc映射關(guān)系如表1所示:
表1
待測(cè)音頻共有865個(gè)音頻幀,檢測(cè)為靜音幀的有351個(gè),剩下的音頻幀為有聲段。一般情況下,音頻中會(huì)有多段靜音,如表1所示,本實(shí)施例中的待測(cè)音頻共有5段靜音,按順序連接成靜音段s,第1段靜音在靜音段s中的序號(hào)為1至52,對(duì)應(yīng)于待測(cè)音頻幀序號(hào)為1至52;第2段靜音在靜音段s中的幀序號(hào)為53至75,對(duì)應(yīng)于待測(cè)音頻中的幀序號(hào)為158至180;第3段靜音在靜音段s中的幀序號(hào)為76至236,對(duì)應(yīng)于待測(cè)音頻中的幀序號(hào)為298至458;第4段靜音在靜音段s中的幀序號(hào)為237至262,對(duì)應(yīng)于待測(cè)音頻中的幀序號(hào)為614至639;第5段靜音在靜音段s中的幀序號(hào)為263至351,對(duì)應(yīng)于待測(cè)音頻中的幀序號(hào)為777至865;則可通過(guò)loc映射求得靜音段s中任意的幀序號(hào)對(duì)應(yīng)于待測(cè)音頻中的幀序號(hào)。
第三步,計(jì)算靜音段音頻特征。
計(jì)算靜音段s的基于mfccs擴(kuò)展的gldskernel超向量特征。對(duì)于靜音段的每個(gè)音頻幀sl,計(jì)算其d0維mfccs特征為
音頻特征維數(shù)d與d0的關(guān)系為:
在本實(shí)施例中,對(duì)靜音段每個(gè)音頻幀計(jì)算12維mfccs特征,通過(guò)gldskernel函數(shù)擴(kuò)展得到91維超向量特征,靜音段所有音頻幀特征組成大小為91×351的二維矩陣h,每列代表一個(gè)音頻幀特征向量,共有351個(gè)音頻特征向量。
第四步,求相關(guān)系數(shù)向量。
用大小為d×2w的窗口在音頻特征h上從前往后沿水平方向滑動(dòng),每次滑動(dòng)距離為w,w為大于1小于ns的整數(shù),用于表示窗口內(nèi)列向量的個(gè)數(shù),窗口內(nèi)前w個(gè)列向量構(gòu)成大小為d×w的子矩陣,計(jì)算子矩陣每行的均值,得到一個(gè)d維均值向量hp,1;窗口內(nèi)后w個(gè)列向量構(gòu)成大小為d×w的子矩陣,計(jì)算子矩陣每行的均值,得到一個(gè)d維均值向量hp,2;計(jì)算每個(gè)窗口前后兩個(gè)d維均值向量hp,1和hp,2的相關(guān)系數(shù),隨著窗口的移動(dòng),得到相關(guān)系數(shù)向量ρ,求取過(guò)程如下式表示:
其中,p=1,2,…,nρ,為相關(guān)系數(shù)向量中元素的序號(hào),d=1,2,…,d,為音頻特征各維度的值,共有d維,相關(guān)系數(shù)向量ρ的長(zhǎng)度為:
其中,ns為靜音段的幀數(shù),μp,1為向量hp,1各個(gè)元素的均值,μp,2為向量hp,2各個(gè)元素的均值,即:
一般情況下,從單獨(dú)一個(gè)音頻幀中難以準(zhǔn)確提取表征設(shè)備本征噪聲和環(huán)境噪聲的特征,因此需要通過(guò)對(duì)多幀音頻特征取平均,得到準(zhǔn)確的特征。在音頻篡改處,滑動(dòng)窗口越大,窗口內(nèi)前w個(gè)音頻幀的均值特征與后w個(gè)音頻幀的均值特征相關(guān)系數(shù)變化越明顯。但是,窗口的大小也會(huì)影響篡改定位的精度,窗口越大,定位精度越低。在檢測(cè)過(guò)程中,可根據(jù)實(shí)際情況中需要的定位精度選取恰當(dāng)大小的窗口,假設(shè)容忍的最大定位誤差為時(shí)長(zhǎng)terror,可以由音頻幀移n計(jì)算最大的滑動(dòng)距離w為:
本實(shí)施例中,假設(shè)最大定位誤差時(shí)長(zhǎng)為150毫秒,根據(jù)公式(12)得到最大滑動(dòng)距離為4,設(shè)定滑動(dòng)窗口大小為91×8,得到相關(guān)系數(shù)向量ρ,根據(jù)公式(10)得到相關(guān)系數(shù)向量長(zhǎng)度為86,相關(guān)系數(shù)向量如圖5所示。
第五步,檢測(cè)篡改點(diǎn)。
對(duì)相關(guān)系數(shù)向量ρ的元素值進(jìn)行判斷。首先,計(jì)算相關(guān)系數(shù)向量ρ中各個(gè)元素的均值u,得到均值之后,設(shè)定幅度閾值tρ=qu,因?yàn)榇鄹奶幍南嚓P(guān)系數(shù)向量為異常值,其元素值小于均值u,所以選取k為小于1的正數(shù)。在本實(shí)施例中,計(jì)算得到相關(guān)系數(shù)向量ρ中各個(gè)元素的均值u=0.9631,取q=0.9,得到幅度閾值tρ=qu=0.867。數(shù)字語(yǔ)音具有短時(shí)平穩(wěn)性,在待測(cè)音頻的未篡改處,前后靜音來(lái)自同一錄音設(shè)備,其前后靜音段的音頻特征相關(guān)系數(shù)接近于1。而在待測(cè)音頻的篡改處,拼接處前后的音頻特征代表了不同設(shè)備本征噪聲和環(huán)境噪聲信息,相關(guān)系數(shù)會(huì)突然變小。通過(guò)檢測(cè)相關(guān)系數(shù)向量的異常尖峰,確定拼接篡改位置。
對(duì)相關(guān)系數(shù)一階差分向量進(jìn)行判斷。首先,計(jì)算ρ的一階差分向量ρ′:
其中,ρ′(p)為相關(guān)系數(shù)一階差分向量第p個(gè)元素值,p=1,2,…,nρ,為向量元素序號(hào)。計(jì)算ρ′各個(gè)元素絕對(duì)值的均值u′,得到均值后,設(shè)定一階差分閾值tρ′=q′u′,因?yàn)榇鄹奶幍南嚓P(guān)系數(shù)一階差分向量元素值為異常值,其差分絕對(duì)值大于均值u′,所以選取q′為大于1的正數(shù)。在本實(shí)施例中,計(jì)算得到相關(guān)系數(shù)一階差分向量ρ′中各個(gè)元素絕對(duì)值的均值u′=0.028,取k′=10,得到一階差分閾值tρ′=q′u′=0.28。相關(guān)系數(shù)一階差分向量表示相關(guān)系數(shù)變化的劇烈程度,其絕對(duì)值越大,則前后相關(guān)系數(shù)變化越大,是篡改點(diǎn)的可能性越大。
在相關(guān)系數(shù)向量ρ中,小于閾值tρ的元素往往預(yù)示著其所在位置存在篡改。而在相關(guān)系數(shù)一階差分向量ρ′中,則是絕對(duì)值大于閾值tρ′的元素預(yù)示著其所在位置存在篡改。利用上述兩個(gè)閾值得到篡改點(diǎn)集合q,如下式所示:
q={p|1≤p≤nρ,ρ(p)<tρ,|ρ′(p)|>tρ′}(19)
在本實(shí)施例中,得到篡改點(diǎn)集合為q={39},待測(cè)音頻存在1個(gè)拼接篡改點(diǎn)。
第六步,確定篡改位置。
在本實(shí)施例中,求得q={39},即待測(cè)音頻被篡改過(guò),且篡改點(diǎn)為相關(guān)系數(shù)向量第39個(gè)元素的位置。本發(fā)明方法首先得到篡改點(diǎn)在相關(guān)系數(shù)向量中的位置,再根據(jù)滑動(dòng)窗口大小d×2w和滑動(dòng)距離w,求得篡改點(diǎn)p對(duì)應(yīng)于靜音段第i1幀到第i2幀之間,其中:
在本實(shí)施例中,窗口長(zhǎng)度為8,滑動(dòng)距離為4,根據(jù)公式(10)得到篡改點(diǎn)在靜音段的第153幀到第160幀之間。
得到篡改點(diǎn)在靜音段中的位置之后,由第二步中靜音段s與待測(cè)音頻的幀序號(hào)映射loc,計(jì)算篡改點(diǎn)在待測(cè)音頻中的位置。在本實(shí)施例中,得到篡改點(diǎn)在待測(cè)音頻的第375幀到第382幀之間,根據(jù)幀長(zhǎng)32毫秒和幀移16毫秒,可以得到篡改點(diǎn)位于待測(cè)音頻的6.000秒到6.112秒之間,檢測(cè)結(jié)果如圖6所示。實(shí)際篡改拼接點(diǎn)為待測(cè)音頻的第6.049秒處,檢測(cè)結(jié)果與實(shí)際情況相符,證明了本發(fā)明的有效性。
上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。