專利名稱:基于圖像處理技術(shù)的網(wǎng)頁異常檢測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)安全技術(shù)與數(shù)字圖像處理技術(shù),尤其是涉及一種利用數(shù)字圖像處理技術(shù)防止網(wǎng)頁遭受篡改的技術(shù)。
背景技術(shù):
隨著網(wǎng)絡(luò)與信息技術(shù)的發(fā)展,網(wǎng)絡(luò)上不安全因素也與日俱增,加之大部分網(wǎng)站的安全性不是很高,使得政府、高校、企事業(yè)網(wǎng)站遭受篡改的情況時(shí)有發(fā)生,如何檢測與防止web頁面被非法篡改問題顯得特別重要。
網(wǎng)頁異常檢測常用的方法是通過計(jì)算與比較服務(wù)器上網(wǎng)頁文件的數(shù)字指紋(一般是MD5或SHA-I散列值)是否一致來確認(rèn)頁面是否被篡改。有的通過在頁面代碼中加入脆弱水印,通過辨別水印的完整性的方法來檢測是否受到篡改。這兩種方法不足之處是不能很好地檢測到頁面中由代碼調(diào)用數(shù)據(jù)庫而生成的動態(tài)內(nèi)容。因此對動態(tài)頁面的保護(hù)除了對服務(wù)器端頁面文件進(jìn)行保護(hù)外,還需要保護(hù)相應(yīng)的數(shù)據(jù)庫。只有頁面文件與數(shù)據(jù)庫都安全的情況下在客服端展現(xiàn)出的頁面才是真實(shí)可信的。然而對數(shù)據(jù)庫的保護(hù)難度非常大,目前還沒有行之有效的保護(hù)方法。也可以考慮直接從客戶端頁面的特征對其進(jìn)行檢測。比如下載網(wǎng)頁的客戶端代碼然后進(jìn)行字符串或MD5數(shù)字指紋比較分析,但這種下載網(wǎng)頁代碼的方式有個(gè)致命的弱點(diǎn)不適合于有客戶端動態(tài)生成的內(nèi)容,比如有網(wǎng)站統(tǒng)計(jì)訪問量、評級等動態(tài)頁面元素,因?yàn)檫@些動態(tài)元素使頁面客戶端html代碼也會相應(yīng)的改變。其次,如果入侵者替換了形如頁面標(biāo)簽〈img src =”xxx. jpg”>中的xxx. jpg圖片文件或更改了該文件的內(nèi)容,頁面源碼是沒有任何改變的,這中攻擊導(dǎo)致無論是客戶端還是服務(wù)器端檢測都存在相當(dāng)?shù)睦щy。總之,對動態(tài)網(wǎng)站頁面的保護(hù)仍然是一個(gè)非常棘手的問題。
發(fā)明內(nèi)容
本發(fā)明目的是提供一種對靜態(tài)網(wǎng)頁與動態(tài)網(wǎng)頁都能進(jìn)行有效保護(hù)的方法,并且不用對數(shù)據(jù)庫進(jìn)行特別保護(hù)。本發(fā)明是基于數(shù)字圖像處理技術(shù)的防止網(wǎng)頁被篡改的方法。該方法利用了瞬間的頁面圖像。瞬間的頁面圖像也稱頁面快照或頁面圖像幀,它根據(jù)html語法將頁面代碼在內(nèi)存中生成圖像。頁面圖像幀對應(yīng)了在某時(shí)刻頁面的可視化外觀,它能真實(shí)的反映頁面的運(yùn)行狀況包括頁面內(nèi)容、頁面色調(diào)、布局等格式。攻擊者往往利用各種攻擊手段對網(wǎng)頁的文字內(nèi)容、外觀樣式等造成影響來達(dá)到攻擊目的。對網(wǎng)頁圖像的分析能直接有效的發(fā)現(xiàn)網(wǎng)頁的異常情況。本發(fā)明尤其適用于客戶端交互量不大的門戶類網(wǎng)站的頁面。在正常情況下,循環(huán)采集需要保護(hù)頁面的圖像組成頁面圖像幀序列,并應(yīng)用圖像差分技術(shù)分割出動態(tài)區(qū)域與靜態(tài)區(qū)域圖像。當(dāng)某一頁面被訪問時(shí),通過web服務(wù)器事件觸發(fā)機(jī)制或輪詢技術(shù)獲取該頁面地址并生成該頁面圖像幀序列處理為動態(tài)與靜態(tài)區(qū)域圖像。將該頁面的動、靜態(tài)區(qū)域圖像與正常情況下保存的動靜態(tài)區(qū)域圖像進(jìn)行比較分析對于靜態(tài)區(qū)域圖像,如果該區(qū)域發(fā)生任何變化則說明該網(wǎng)頁出現(xiàn)異常;對于動態(tài)區(qū)域,若該區(qū)域圖像的變動在給定的閾值范圍內(nèi)變動則正常,否則異常。當(dāng)正常操作更改網(wǎng)頁時(shí)應(yīng)及時(shí)從新采集并更新已保存的動、靜態(tài)圖像。本方法能識別出動態(tài)、靜態(tài)網(wǎng)頁內(nèi)容與格式的不一致,可以避開對數(shù)據(jù)庫的保護(hù)。網(wǎng)頁圖像的分割,將頁面圖像分割為靜態(tài)區(qū)域與動態(tài)區(qū)域圖像。由于flash動畫、gif圖像、頁面訪問統(tǒng)計(jì)、數(shù)據(jù)庫生成內(nèi)容等頁面動態(tài)元素在網(wǎng)頁中是動態(tài)變化的,每次取得的頁面圖像可能會不一樣。該方法根據(jù)頁面是否動態(tài)變化對其劃分為靜態(tài)區(qū)域與動態(tài)區(qū)域。對某一頁面循環(huán)掃描(每次掃描需清除緩存)獲得的圖像幀序列為{&,f\,f2,fV··,fn}。頁面圖像的分割可以由(I)、(2)、(3)式表示。DI (x, y) = U | ft (x, y)(x, y) | t = 1,2, ...,n i=0,l...,t_l(I)Dk(x, y) = RectSeg {DI (x, y)古 0} k e N(2) S (x, y) = RectSeg {DI (X,Y) =0}(3)DI(x,y)表示所有兩幀圖像差之并集,由此可以得出最大范圍不為零的動態(tài)區(qū)域。記號ReCtSeg{ · }表示用矩形去分割圖像的像素值不為零的區(qū)域得到k個(gè)動態(tài)區(qū)域,用Dk(x,y)表示。St(x,y)為靜態(tài)區(qū)域圖像??紤]到頁面基本元素形狀是矩形的,把動態(tài)區(qū)域分割為矩形是適合的。頁面的一次圖像采集其靜態(tài)區(qū)域圖像只有一個(gè),動態(tài)區(qū)域圖像有多個(gè)。對沒有動態(tài)元素的純靜態(tài)頁面,理論上講只要一次采集。在做匹配驗(yàn)證是否被篡改時(shí),只需做一次差分操作即可。對于有動態(tài)元素的頁面,需要循環(huán)采集多次頁面圖像直到頁面動態(tài)圖像中一定的像素閾值內(nèi)穩(wěn)定為止,采集次數(shù)的多少取決于動態(tài)元素本身的復(fù)雜性,比如flash動畫、gif圖像的圖像幀數(shù)。一般,像素的RGB閾值控制在10以內(nèi)的范圍,像素閾值設(shè)置越大采集次數(shù)越少,但控制精度會越粗。在檢測頁面是否被篡改時(shí),該頁面的每一個(gè)動態(tài)區(qū)域圖像都要與對應(yīng)的正常情況下保存的動態(tài)圖像進(jìn)行比較,當(dāng)其變化均在給定閾值范圍內(nèi)則頁面正
堂
巾O在監(jiān)空初期,如果出現(xiàn)虛報(bào)現(xiàn)象可以人工交互方式矯正系統(tǒng)。當(dāng)由于客服端交互而產(chǎn)生的圖像差異被誤判為異常時(shí),可以人為的指定為正常,然后自動將該頁面圖像幀相應(yīng)的動態(tài)圖像加入到正常的動態(tài)圖像中繼續(xù)訓(xùn)練,從而使該方法更加穩(wěn)定可靠。
圖I是獲取頁面圖像與靜態(tài)、動態(tài)區(qū)域圖像的流程圖;圖2是檢測某頁面是否正常的流程圖。
具體實(shí)施例方式下面根據(jù)附圖對本發(fā)明進(jìn)行詳細(xì)闡述實(shí)施過程。圖I說明了獲取頁面圖像并將其分割為動、靜態(tài)區(qū)域的流程圖。根據(jù)頁面地址生成頁面圖像,如果是首次生成圖像則直接保存圖像,否則當(dāng)前圖像幀與已經(jīng)采集的每個(gè)圖像幀做差分(相減)操作得到差分圖像,見公式(I),然后求出所有差分圖像的并集。如此循環(huán)直到所有差分圖像的動態(tài)區(qū)域的位置、大小、RGB像素值在一定閾值內(nèi)穩(wěn)定時(shí)停止迭代。然后根據(jù)公式(2) (3)將該并集圖像分割,分割的具體操作是依次掃描該圖像,檢測出連續(xù)不為零的區(qū)域并標(biāo)記該區(qū)域的最左上角與最右下角坐標(biāo)以確定矩形大小。這些區(qū)域就是flash動畫、gif圖像、頁面訪問統(tǒng)計(jì)、數(shù)據(jù)庫生成內(nèi)容等頁面動態(tài)元素顯示的區(qū)域,將該頁面的靜態(tài)與各動態(tài)區(qū)域生成的圖像保存。正常情況下,如果對頁面有更新操作時(shí)(比如管理信息系統(tǒng)中的后臺管理程序?qū)?shù)據(jù)庫的添加、刪除等操作等)應(yīng)重新做一次圖像幀序列采集與分割操作,并更新動態(tài)靜動態(tài)區(qū)域圖像。圖2是檢測過程。定時(shí)掃描或根據(jù)web服務(wù)器事件獲取頁面地址(可 以通過ISAPKApache-Module等服務(wù)器內(nèi)核模塊的相關(guān)接口獲得)并生成頁面圖像。用保存的動態(tài)區(qū)域位置大小的矩形區(qū)域去分割采集到的頁面圖像。將分割后的靜、動態(tài)區(qū)域圖像分別與保存的靜、動態(tài)區(qū)域圖像做差分操作。對于靜態(tài)區(qū)域圖像如果差分操作后結(jié)果為零則正常;對于每一個(gè)動態(tài)區(qū)域圖像,當(dāng)其與相應(yīng)的在正常情況下保存的動態(tài)區(qū)域圖像的差值都在一定閾值內(nèi)變動時(shí)則為正常。在監(jiān)控中如果出現(xiàn)誤報(bào)可以人工干預(yù)方式矯正系統(tǒng),這種 情況一般出現(xiàn)在監(jiān)控初期。
權(quán)利要求
1.一種基于頁面圖像的網(wǎng)頁異常檢測方法,其特征在于利用圖像處理技術(shù)實(shí)現(xiàn)網(wǎng)頁是否異常進(jìn)行檢測。
2.根據(jù)權(quán)利要求I所述的基于圖像處理技術(shù)的網(wǎng)頁異常檢測方法,通過采集多幀頁面圖像差分技術(shù)將頁面圖像分割為靜態(tài)區(qū)域圖像與動態(tài)區(qū)域圖像。監(jiān)控時(shí)分別比較靜態(tài)區(qū)域圖像是否變化,動態(tài)區(qū)域圖像變化是否在一定閾值內(nèi)來確定該頁面是否異常。
3.根據(jù)權(quán)利要求I所述的基于圖像處理技術(shù)的網(wǎng)頁異常檢測方法,對網(wǎng)頁的防篡改是基于客戶端的,不必對數(shù)據(jù)庫進(jìn)行特殊的保護(hù)。
4.根據(jù)權(quán)利要求I所述的基于圖像處理技術(shù)的網(wǎng)頁異常檢測方法,人工交互方式矯止系統(tǒng)。當(dāng)由于客服端交互而產(chǎn)生的圖像差異被誤判為異常時(shí),人為的指定為正常,從而可以將當(dāng)前頁面圖像產(chǎn)生的動態(tài)圖像序列加入到正常的動態(tài)圖像序列中,以提高該方法的可靠性與穩(wěn)定性。
全文摘要
本發(fā)明是一種基于圖像處理技術(shù)的網(wǎng)頁異常自動檢測方法,以發(fā)現(xiàn)網(wǎng)頁是否遭受篡改、病毒等攻擊導(dǎo)致的頁面異常情況。本方法通過定時(shí)或事件觸發(fā)方式采集頁面圖像,運(yùn)用數(shù)字圖像處理技術(shù)對多幀圖像序列進(jìn)行差分分析,識別出頁面中在正常情況下的靜態(tài)區(qū)域與動態(tài)區(qū)域并將其分割為一個(gè)靜態(tài)區(qū)域圖像與多個(gè)動態(tài)區(qū)域圖像。在檢測時(shí)靜態(tài)區(qū)域圖像如果沒有變化正常;對動態(tài)區(qū)域圖像,任一動態(tài)圖像的變動如果未超出一定的閾值范圍識別是否異常。該方法無需對生成頁面內(nèi)容的網(wǎng)站后臺數(shù)據(jù)庫進(jìn)行特別保護(hù),尤其適用于客戶端與服務(wù)器端交互信息量不大的公司、企事業(yè)單位等門戶網(wǎng)站頁面異常檢測與保護(hù)。
文檔編號G06T7/00GK102779245SQ201110122099
公開日2012年11月14日 申請日期2011年5月12日 優(yōu)先權(quán)日2011年5月12日
發(fā)明者李朝榮 申請人:李朝榮