本發(fā)明涉及一種隱寫算法未知的信息隱藏檢測方法。
背景技術(shù):
信息隱藏就是將秘密信息隱藏到正常的載體中并實現(xiàn)秘密通信。圖像隱寫是利用圖像來隱藏秘密信息,達到隱蔽通信的目的。隱寫分析則是判斷載體中是否含有秘密信息,它在政治、軍事、互聯(lián)網(wǎng)等許多涉及信息安全的領(lǐng)域都有著不可替代的重要性。在實際應(yīng)用中,當(dāng)檢測一批正常圖像和含有秘密信息圖像的混合圖像時,并不知道含密圖像所使用的嵌入算法,按照已有的隱寫算法訓(xùn)練分類器,其檢測準(zhǔn)確率會大大降低,因此無法用傳統(tǒng)方法訓(xùn)練分類器進行分類。
技術(shù)實現(xiàn)要素:
本發(fā)明目的是針對已有技術(shù)的不足,提供一種隱寫算法未知的信息隱藏檢測方法。提出通過待檢測圖像的統(tǒng)計特性無監(jiān)督地估計投影向量并與k-means聚類結(jié)合,利用集成學(xué)習(xí)方法進行判決,成功實現(xiàn)了對隱寫算法未知情況的隱寫分析。這批圖像中正常圖像的數(shù)量多于含密圖像,再利用處理非平衡數(shù)據(jù)集的算法進行配平衡,這樣可以更好地解決實際問題,更適用于實際應(yīng)用場景。
為達到上述目的,本發(fā)明采用下述技術(shù):
一種隱寫算法未知的信息隱藏檢測方法,具體操作步驟如下:
1)判斷一批圖像中哪些圖像含有秘密信息;
2)利用fld算法和k-means聚類算法建立算法模型;
3)估算最優(yōu)投影向量,并檢測這批圖像;
4)利用集成分類器投出預(yù)分類的結(jié)果;
5)利用非平衡算法配平衡;
6)利用新生成的數(shù)據(jù)集重新訓(xùn)練集成分類器;
7)再利用集成分類器投出最終分類的結(jié)果。
所述步驟1)中的判斷一批圖像中哪些圖像含有秘密信息,具體為:這批圖像包含正常圖像和含密圖像,并且正常圖像的數(shù)量多于含密圖像,用到的圖像特征有dctr,gfr。
所述步驟2)中的利用fld算法和k-means聚類算法建立算法模型,具體操作步驟如下:fld算法確定的最佳投影方向為
所述步驟3)中估算最優(yōu)投影向量,具體為:正常圖像與待檢測圖像中的正常圖像的統(tǒng)計特性,這里指均值向量相同,估算出最優(yōu)的投影向量:
其中
所述步驟4)中利用集成分類器投出預(yù)分類的結(jié)果,具體為:集成分類器由許多獨立的學(xué)習(xí)基構(gòu)成,每一個學(xué)習(xí)基單獨包含正常圖像與含密圖像的訓(xùn)練集訓(xùn)練fld中的最優(yōu)投影向量,而每一組訓(xùn)練集數(shù)據(jù)是由原始空間中隨機抽取部分子空間,一般子空間維數(shù)dsub遠小于原始空間的維數(shù)d;預(yù)分類結(jié)果由所有學(xué)習(xí)基的分類結(jié)果投票決定。預(yù)分類結(jié)果就是這批圖像的預(yù)標(biāo)簽分別記為lc和ls,lc表示正常圖像的預(yù)標(biāo)簽,ls表示為含秘圖像的預(yù)標(biāo)簽。
所述步驟5)中的非平衡算法,具體為:
a)根據(jù)步驟4)得到這批圖像的預(yù)標(biāo)簽,其中正常圖像作為多數(shù)樣本記為smaj,含密圖像作為少數(shù)樣本記為smin,xi∈smin,y0∈smaj,x0∈smin;計算要合成的少數(shù)樣本數(shù)g=(smaj-smin)×r,r∈[0,1]表示平衡比率;
b)對于每個少數(shù)樣本點xi∈smin,在數(shù)據(jù)集中利用歐式距離找到k個最近鄰點,并且計算比率ri,
c)每個少數(shù)樣本點合成新的樣本點的過程,對于每個少數(shù)樣本點,找到一個離它最近的多數(shù)樣本點假設(shè)是y0和一個離它最近的少數(shù)樣本點假設(shè)是x0;在x0和y0之間進行插值合成一個輔助樣本點記為tmppoint,tmppoint=x0+α(y0-x0),α是0-1之間的隨機數(shù);利用tmppoint和xi進行插值生成新的合成樣本點,synpoint=xi+β(tmppoint-xi),β是0-1之間的隨機數(shù),synpoint是新生成的樣本點。
所述步驟6)中的利用新生成的數(shù)據(jù)集訓(xùn)練分類器,具體為:利用配平衡后的數(shù)據(jù)集重新優(yōu)化投影向量,然后利用無監(jiān)督學(xué)習(xí)k-means聚類算法進行聚類重新生成新的標(biāo)簽,利用新的標(biāo)簽訓(xùn)練分類器,重新檢測這批圖像。
所述步驟7)中的再利用集成分類器投出最終分類的結(jié)果,具體為:利用步驟6)訓(xùn)練好的分類器作為學(xué)習(xí)基,再將投影后的向量送入k-means聚類算法,得到最終判決結(jié)果。
本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下顯而易見的突出實質(zhì)的特點和顯著優(yōu)點:
本發(fā)明有效地解決了對于隱寫算法未知的圖像隱寫分析中非平衡數(shù)據(jù)集的問題。因此,本發(fā)明是一種切實可行的圖像隱寫分析的方法。
附圖說明
圖1為隱寫算法未知的信息隱藏檢測方法的操作程序框圖。
圖2為圖像數(shù)據(jù)集的分布情況。
圖3為合成新的樣本點的示例圖。
圖4為錯誤率曲線。
具體實施方式
下面是本發(fā)明的優(yōu)選實施例,結(jié)合附圖對本發(fā)明做進一步詳細說明。
實施例1:
首先介紹在本發(fā)明方法過程中用到的特征提取方法和學(xué)習(xí)算法。
dctr(discretecosinetransformresidual):通過將jpeg圖像解壓到空域,利用統(tǒng)計直方圖的特征,獲得8000維dctr特征。
gfr(gaborfilterjpegrichmodel):通過使用具有不同尺度和方向的2dgabor濾波器解壓縮jpeg圖像,并從濾波后的圖像所提取17000維特征。
fld(fisherlineardiscriminant):基本思想是將兩類樣本集盡可能地投影到一個方向,使得類與類之間盡可能分開,其統(tǒng)計特性表現(xiàn)為使類內(nèi)散度盡可能地小,類間散度盡可能地大。
k-means:是典型的基于距離的聚類算法,采用距離作為相似的評價指標(biāo),即認為兩個特征的距離越近,其相似度就越大,將距離靠近的特征聚成一類。
集成學(xué)習(xí)(ensemblelearning):集成分類器由許多獨立的學(xué)習(xí)基構(gòu)成,每一個學(xué)習(xí)基單獨包含正常圖像與含密圖像作為訓(xùn)練集訓(xùn)練fld中的最優(yōu)投影向量,而每一組訓(xùn)練集數(shù)據(jù)是由原始空間中隨機抽取部分子空間,一般子空間維數(shù)dsub遠小于原始空間的維數(shù)d。最終的分類結(jié)果由所有學(xué)習(xí)基的分類結(jié)果投票決定。集成分類器的性能遠遠優(yōu)于單一的學(xué)習(xí)基的性能,并且對于每一個學(xué)習(xí)基來說,其特征空間就是隨機子空間的維度,這樣同時就解決了隱寫分析特征的高維復(fù)雜度問題。
處理非平衡數(shù)據(jù)集算法:對于處理非平衡數(shù)據(jù)集的算法有很多,例如smote(syntheticminorityover-samplingtechnique),borderline-smote,adasyn(adaptivesyntheticsamplingapproachforimbalancedlearning)。這些算法都是根據(jù)少數(shù)樣本點合成新的樣本點,但是對于圖像特征,正常圖像和含密圖像的特征非常接近,這里正常圖像作為多數(shù)樣本點,含密圖像作為少數(shù)樣本點。每個少數(shù)樣本點離它最近的點都是多數(shù)樣本點,根據(jù)這一特點,利用多數(shù)樣本點和少數(shù)樣本點的特征共同合成新的樣本,使得少數(shù)樣本點有更清晰的分界。
參見圖1,本隱寫算法未知的信息隱藏檢測方法的操作步驟如下:
1)判斷一批圖像中哪些圖像含有秘密信息;
2)利用fld算法和k-means聚類算法建立算法模型;
3)估算最優(yōu)投影向量,并檢測這批圖像;
4)利用集成分類器投出預(yù)分類的結(jié)果;
5)利用非平衡算法配平衡;
6)利用新生成的數(shù)據(jù)集重新訓(xùn)練集成分類器;
7)再利用集成分類器投出最終分類的結(jié)果。
實施例2:本實施例與實施例1基本相同,特別之處如下:
所述步驟1)中一批混合圖像,正常圖像取800幅,含密圖像取200幅,作為測試集。用到的隱寫算法有j_uniword,uerd,檢測時并不知道含密圖像用到的隱寫算法,圖像特征用到的是dctr,gfr。參見圖2為圖像數(shù)據(jù)集的分布情況,
所述步驟2)利用fld算法和k-means建立算法模型,得到最佳的投影向量
所述步驟3)估算最優(yōu)投影向量,對這批圖像進行檢測。訓(xùn)練集只有5000幅正常圖像,測試集是一批無標(biāo)簽的圖像。我們認為測試集中正常圖像的統(tǒng)計特性與訓(xùn)練集中正常圖像的統(tǒng)計特性相同,可以估算出最優(yōu)的投影向量
所述步驟4)利用集成分類器投出預(yù)分類的結(jié)果,該集分類器由許多獨立的學(xué)習(xí)基構(gòu)成,每一個學(xué)習(xí)基單獨包含正常圖像與含密圖像作為訓(xùn)練集訓(xùn)練fld中的最優(yōu)投影向量,而每一組訓(xùn)練集數(shù)據(jù)是由原始空間中隨機抽取部分子空間,一般子空間維數(shù)dsub遠小于原始空間的維數(shù)d。分類結(jié)果由所有學(xué)習(xí)基的分類結(jié)果投票決定。dsub=800。
所述步驟5)中利用這里提到的對非平衡圖像數(shù)據(jù)集的處理方法,參見圖3為合成新樣本點的過程,對于每個少數(shù)樣本點xi∈smin,在數(shù)據(jù)集中利用歐式距離找到k個最近鄰點,y0離xi最近的一個多數(shù)樣本點,x0離xi最近的一個少數(shù)樣本點,并計算比率ri,
tmppoint=x0+α(y0-x0)
synpoint=xi+β(tmppoint-xi)
α是0-1之間的隨機數(shù),β是0-1之間的隨機數(shù)。synpoint是新生成的樣本點。
所述步驟6)中的利用新生成的數(shù)據(jù)集訓(xùn)練分類器:利用配平衡后的數(shù)據(jù)集重新優(yōu)化投影向量,然后利用無監(jiān)督學(xué)習(xí)k-means聚類算法進行聚類重新生成新的標(biāo)簽,利用新的標(biāo)簽訓(xùn)練分類器,重新檢測這一批圖像。
所述步驟7)中的再利用集成分類器投出最終分類的結(jié)果:利用上一步訓(xùn)練好的分類器作為學(xué)習(xí)基,再將投影后的向量送入k-means算法,得到最終分類的結(jié)果。分類結(jié)果參見圖4,橫坐標(biāo)表示新增的少數(shù)類樣本數(shù),縱坐標(biāo)對應(yīng)得其錯誤率,這里利用兩種隱寫方法j_uniword和uerd以及兩種嵌入率0.3和0.5,并提取dctr特征進行檢測,由于據(jù)我們所知,本發(fā)明關(guān)于在隱寫算法未知并且數(shù)據(jù)集是非平衡的情況下進行隱寫分析判決的工作是前所未有的,所以本發(fā)明的檢測結(jié)果沒有對比實驗,只能根據(jù)實際情況與50%相比。檢測結(jié)果表明錯誤率都在50%以下,最好的結(jié)果為36%,這種方式可以有效地解決隱寫算法未知并且數(shù)據(jù)集是非平衡的這類實際問題。