亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁篡改的檢測方法及裝置與流程

文檔序號:11930407閱讀:604來源:國知局
網(wǎng)頁篡改的檢測方法及裝置與流程

本發(fā)明涉及網(wǎng)絡安全技術領域,尤其涉及網(wǎng)頁篡改的檢測方法及裝置。



背景技術:

網(wǎng)頁篡改是網(wǎng)站被攻陷后攻擊者進行的一種惡意行為,攻擊者通常會創(chuàng)建新的網(wǎng)頁并寫入惡意內(nèi)容,或把已經(jīng)存在的網(wǎng)頁部分或全部內(nèi)容修改為惡意內(nèi)容。網(wǎng)頁篡改不僅影響了網(wǎng)站正常運行,而且向公眾傳播了大量非法信息,危害巨大。目前網(wǎng)頁篡改檢測有以下兩種方法:

1)黑名單關鍵詞檢測:建立惡意內(nèi)容的關鍵詞黑名單,通過檢查網(wǎng)頁中是否含有黑名單中的關鍵詞來判定網(wǎng)頁是否被篡改。這種方法可能會由于黑名單中包含的關鍵詞不夠全面而產(chǎn)生漏報,此外還可能產(chǎn)生誤報,例如政府公安部門發(fā)布某公告打擊非法行為,其中包含了非法關鍵詞,若該非法關鍵詞在黑名單中則會產(chǎn)生誤報,因為這個網(wǎng)頁實際上為正常網(wǎng)頁。

2)網(wǎng)頁數(shù)字指紋比對:預先計算網(wǎng)站每個網(wǎng)頁的數(shù)字指紋(如md5值),并建立指紋庫,然后相隔一段時間重新計算每個網(wǎng)頁的數(shù)字指紋,若前后同一網(wǎng)頁的數(shù)字指紋不同,則說明該網(wǎng)頁被篡改。這種方法需要網(wǎng)站未被篡改前事先建立指紋庫,每次正常修改和增加網(wǎng)頁文件也必須更新指紋庫,操作繁瑣且效率較低;此外這種檢測系統(tǒng)需要網(wǎng)站管理者在網(wǎng)站服務器上進行本地部署,不能應用于互聯(lián)網(wǎng)大規(guī)模檢測。



技術實現(xiàn)要素:

本發(fā)明的主要目的在于提出一種網(wǎng)頁篡改的檢測方法及裝置,旨在提高網(wǎng)頁篡改檢測的準確率和效率。

為實現(xiàn)上述目的,本發(fā)明提供一種網(wǎng)頁篡改的檢測方法,所述方法包括如下步驟:

獲取待檢測網(wǎng)頁的文本特征向量和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征向量;

根據(jù)獲取到的所述待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量計算所述待檢測網(wǎng)頁和所述網(wǎng)站之間的文本相似度;

判斷所述文本相似度是否小于預設閾值;

若是,則判定所述待檢測網(wǎng)頁為被篡改的網(wǎng)頁。

可選地,所述獲取待檢測網(wǎng)頁的文本特征向量和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征向量的步驟包括:

獲取待檢測網(wǎng)頁的文本特征集和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征集,其中,所述待檢測網(wǎng)頁的文本特征集和所述網(wǎng)站的文本特征集包含相同的關鍵詞;

根據(jù)所述關鍵詞在所述待檢測網(wǎng)頁的文本特征集中的詞頻和權重進行計算,得到所述待檢測網(wǎng)頁的文本特征向量;

根據(jù)所述關鍵詞在所述網(wǎng)站的文本特征集中的詞頻和權重進行計算,得到所述網(wǎng)站的文本特征向量。

可選地,所述獲取待檢測網(wǎng)頁的文本特征集和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征集的步驟包括:

獲取所述待檢測網(wǎng)頁所屬網(wǎng)站的文本;

對獲取到的所述文本進行中文分詞和去停用詞處理;

從處理結(jié)果中提取若干關鍵詞,得到所述網(wǎng)站的文本特征集;

將所述網(wǎng)站的文本特征集作為所述待檢測網(wǎng)頁的文本特征集。

可選地,所述根據(jù)獲取到的所述待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量計算所述待檢測網(wǎng)頁和所述網(wǎng)站之間的文本相似度的步驟包括:

計算所述待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量夾角的余弦值;

將計算結(jié)果作為所述待檢測網(wǎng)頁和所述網(wǎng)站之間的文本相似度。

可選地,所述獲取待檢測網(wǎng)頁的文本特征向量和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征向量的步驟之前,還包括:

通過爬蟲程序定時爬取預設的待檢測網(wǎng)頁;

或者,當偵測到網(wǎng)絡訪問請求時,將所述網(wǎng)絡訪問請求對應的網(wǎng)頁作為待檢測網(wǎng)頁。

此外,為實現(xiàn)上述目的,本發(fā)明還提供一種網(wǎng)頁篡改的檢測裝置,所述裝置包括:

獲取模塊,用于獲取待檢測網(wǎng)頁的文本特征向量和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征向量;

計算模塊,用于根據(jù)獲取到的所述待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量計算所述待檢測網(wǎng)頁和所述網(wǎng)站之間的文本相似度;

判斷模塊,用于判斷所述文本相似度是否小于預設閾值;若是,則判定所述待檢測網(wǎng)頁為被篡改的網(wǎng)頁。

可選地,所述獲取模塊包括:

獲取單元,用于獲取待檢測網(wǎng)頁的文本特征集和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征集,其中,所述待檢測網(wǎng)頁的文本特征集和所述網(wǎng)站的文本特征集包含相同的關鍵詞;

第一計算單元,用于根據(jù)所述關鍵詞在所述待檢測網(wǎng)頁的文本特征集中的詞頻和權重進行計算,得到所述待檢測網(wǎng)頁的文本特征向量;

第二計算單元,根據(jù)所述關鍵詞在所述網(wǎng)站的文本特征集中的詞頻和權重進行計算,得到所述網(wǎng)站的文本特征向量。

可選地,所述獲取單元還用于:

獲取所述待檢測網(wǎng)頁所屬網(wǎng)站的文本;

對獲取到的所述文本進行中文分詞和去停用詞處理;

從處理結(jié)果中提取若干關鍵詞,得到所述網(wǎng)站的文本特征集;

將所述網(wǎng)站的文本特征集作為所述待檢測網(wǎng)頁的文本特征集。

可選地,所述計算模塊還用于:

計算所述待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量夾角的余弦值;

將計算結(jié)果作為所述待檢測網(wǎng)頁和所述網(wǎng)站之間的文本相似度。

可選地,所述裝置還包括:

爬取模塊,用于通過爬蟲程序定時爬取預設的待檢測網(wǎng)頁;

所述獲取模塊還用于當偵測到網(wǎng)絡訪問請求時,將所述網(wǎng)絡訪問請求對應的網(wǎng)頁作為待檢測網(wǎng)頁。

本發(fā)明獲取待檢測網(wǎng)頁的文本特征向量和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征向量;根據(jù)獲取到的所述待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量計算所述待檢測網(wǎng)頁和所述網(wǎng)站之間的文本相似度;判斷所述文本相似度是否小于預設閾值;若是,則判定所述待檢測網(wǎng)頁為被篡改的網(wǎng)頁。本發(fā)明通過文本相似度來檢測網(wǎng)頁是否被篡改,相對于現(xiàn)有的黑名單關鍵詞檢測,不需要進行黑名單關鍵詞收集,對網(wǎng)頁篡改檢測的誤報和漏報比較少,提高了網(wǎng)頁篡改檢測的準確率;相對于現(xiàn)有的網(wǎng)頁數(shù)字指紋比對,無需進行本地部署,可以進行遠程的大規(guī)模檢測,提高了網(wǎng)頁篡改檢測的效率。

附圖說明

圖1為本發(fā)明網(wǎng)頁篡改的檢測方法第一實施例的流程示意圖;

圖2為圖1中步驟S100的細化步驟示意圖;

圖3為圖2中步驟S110的細化步驟示意圖;

圖4為本發(fā)明網(wǎng)頁篡改的檢測方法第二實施例的流程示意圖;

圖5為網(wǎng)頁的文本特征向量Dk與網(wǎng)頁所屬網(wǎng)站的文本特征向量D0之間的夾角關系示意圖;

圖6為本發(fā)明網(wǎng)頁篡改的檢測方法第三實施例的流程示意圖;

圖7為本發(fā)明網(wǎng)頁篡改的檢測裝置第一實施例的功能模塊示意圖;

圖8為圖7中獲取模塊的細化功能模塊示意圖;

圖9為本發(fā)明網(wǎng)頁篡改的檢測裝置第二實施例的功能模塊示意圖。

本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。

具體實施方式

應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

本發(fā)明提供一種網(wǎng)頁篡改的檢測方法。

參照圖1,圖1為本發(fā)明網(wǎng)頁篡改的檢測方法第一實施例的流程示意圖。所述方法包括如下步驟:

步驟S100,獲取待檢測網(wǎng)頁的文本特征向量和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征向量;

在本實施例中,可由設置在Web瀏覽器和Web服務器之間的應用防火墻進行網(wǎng)頁篡改檢測。應用防火墻獲取待檢測網(wǎng)頁的文本特征向量和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征向量,從而建立向量空間模型。

在向量空間模型中,文本(Document,用D表示)泛指各種機器可讀的記錄,特征項(Term,用t表示)是指出現(xiàn)在文本D中且能夠代表該文本內(nèi)容的基本語言單位,主要是由詞或者短語構(gòu)成。文本可以用特征項集表示為D(T1,T2,…,Tn),其中Tk是特征項,1<=k<=n,例如一篇文檔中有a、b、c、d四個特征項,那么這篇文檔就可以表示為D(a,b,c,d)。

進一步地,參照圖2,圖2為圖1中步驟S100的細化步驟示意圖。作為一種實施方式,所述步驟S100可以包括:

步驟S110,獲取待檢測網(wǎng)頁的文本特征集和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征集,其中,所述待檢測網(wǎng)頁的文本特征集和所述網(wǎng)站的文本特征集包含相同的關鍵詞;

步驟S120,根據(jù)所述關鍵詞在所述待檢測網(wǎng)頁的文本特征集中的詞頻和權重進行計算,得到所述待檢測網(wǎng)頁的文本特征向量;

步驟S130,根據(jù)所述關鍵詞在所述網(wǎng)站的文本特征集中的詞頻和權重進行計算,得到所述網(wǎng)站的文本特征向量。

首先,應用防火墻獲取待檢測網(wǎng)頁的文本特征集和待檢測網(wǎng)頁所屬網(wǎng)站的文本特征集,為保證這兩個文本特征集具有可比性,這兩個文本特征集包含相同的關鍵詞。比如,獲取待檢測網(wǎng)頁所屬網(wǎng)站的文本特征集為D(T1,T2,…,Tm),則獲取待檢測網(wǎng)頁的文本特征集也應該為D(T1,T2,…,Tm),其中T1,T2,…,Tm為特征項,即關鍵詞,m為關鍵詞的數(shù)量。網(wǎng)絡管理人員在熟悉網(wǎng)站內(nèi)容的情況下,可以根據(jù)被訪問網(wǎng)站的主要內(nèi)容預先設置文本特征集中的關鍵詞,在大多數(shù)情況下,應用防火墻通過對被訪問的網(wǎng)站的網(wǎng)頁文本進行處理來自動獲取關鍵詞。

在獲取到關鍵詞后,應用防火墻再根據(jù)關鍵詞的詞頻和權重分別進行計算,得到待檢測網(wǎng)頁的文本特征向量和待檢測網(wǎng)頁所屬網(wǎng)站的文本特征向量。本實施例主要通過TF-IDF(term frequency–inverse document frequency,詞頻--逆向文本頻率)技術來計算得到文本特征向量,其原理為:詞頻計算參照TF公式:TF=N/M,即在在一篇M個詞的文章中有N個該關鍵詞,則TF=N/M為該關鍵詞在這篇文章中的詞頻;逆向文本頻率是用于衡量關鍵詞權重的指數(shù),可由公式IDF=log(D/Dw)計算而得,其中D為語料庫的文檔總數(shù),Dw為關鍵詞出現(xiàn)過的文檔數(shù),Dw越大,說明該關鍵詞在越多的文檔中出現(xiàn)過,該關鍵詞就越不足以成為本文檔的區(qū)別特征項,因而其權重越小。計算基于IDF的加權詞頻,即用關鍵詞Tx的詞頻乘以Tx的逆向文本頻率(Wx=TF(Tx)*IDF(Tx)),即可得到文本特征集D(T1,T2,…,Tm)對應的文本特征向量D(W1,W2,…,Wm)。

根據(jù)上述原理計算待檢測網(wǎng)頁的文本特征向量的過程為:獲取待檢測網(wǎng)頁的文本Dk,根據(jù)關鍵詞在Dk中出現(xiàn)的次數(shù)和Dk中詞語總數(shù)計算各個關鍵詞在Dk中的詞頻,再將計算得到的詞頻基于IDF進行加權,最終得到待檢測網(wǎng)頁的文本特征向量Dk(Wk1,Wk2,…,Wkm)。特別地,在待檢測網(wǎng)頁中沒有出現(xiàn)的關鍵詞Tx的加權詞頻Wkx為0。

根據(jù)上述原理計算整個網(wǎng)站的文本特征向量的過程為:將網(wǎng)站的所有網(wǎng)頁的文本合并,得到總文本D0,根據(jù)關鍵詞在D0中出現(xiàn)的次數(shù)和D0中詞語總數(shù)計算各個關鍵詞在D0中的詞頻,再將計算得到的詞頻基于IDF進行加權,最終得到整個網(wǎng)站的文本特征向量D0(W01,W02,…,W0m)。

步驟S200,根據(jù)獲取到的所述待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量計算所述待檢測網(wǎng)頁和所述網(wǎng)站之間的文本相似度;

需要說明的是,被篡改過的網(wǎng)頁可能是瀏覽器瀏覽訪問明顯可見的,也可能是不易發(fā)現(xiàn)的暗鏈,通常被篡改的網(wǎng)頁占整個網(wǎng)站網(wǎng)頁的一小部分,并且被篡改的的網(wǎng)頁內(nèi)容與整個網(wǎng)站的內(nèi)容有比較大的差別,而文本之間的相似程度通常和文本的內(nèi)容是高度相關的,因此可以通過上述向量空間模型來比較文本相似度。

具體地,在獲取到待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量之后,應用防火墻根據(jù)這兩個特征向量之間的關系計算待檢測網(wǎng)頁和網(wǎng)站之間的文本相似度,比如計算兩個特征向量之間的距離、夾角等,將計算結(jié)果作為待檢測網(wǎng)頁和網(wǎng)站之間的文本相似度。

步驟S300,判斷所述文本相似度是否小于預設閾值;

步驟S400,若所述文本相似度小于預設閾值,則判定所述待檢測網(wǎng)頁為被篡改的網(wǎng)頁。

應用防火墻判斷計算得到的文本相似度是否小于預設閾值,其中,預設的文本相似度閾值可以通過對大量已經(jīng)發(fā)生網(wǎng)頁篡改的網(wǎng)站的網(wǎng)頁進行自學習分類得到,網(wǎng)絡管理者也可以根據(jù)實際需要對其進行靈活設置。若文本相似度小于預設閾值,應用防火墻即可判定檢測的網(wǎng)頁為被篡改的網(wǎng)頁,此時應用防火墻可將檢測結(jié)果進行上報并阻止用戶訪問該網(wǎng)頁;否則判定檢測的網(wǎng)頁為正常網(wǎng)頁。

在本實施例中,應用防火墻獲取待檢測網(wǎng)頁的文本特征向量和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征向量;根據(jù)獲取到的所述待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量計算所述待檢測網(wǎng)頁和所述網(wǎng)站之間的文本相似度;判斷所述文本相似度是否小于預設閾值;若是,則判定所述待檢測網(wǎng)頁為被篡改的網(wǎng)頁。本實施例通過文本相似度來檢測網(wǎng)頁是否被篡改,相對于現(xiàn)有的黑名單關鍵詞檢測,不需要進行黑名單關鍵詞收集,對網(wǎng)頁篡改檢測的誤報和漏報比較少,提高了網(wǎng)頁篡改檢測的準確率;相對于現(xiàn)有的網(wǎng)頁數(shù)字指紋比對,無需進行本地部署,可以進行遠程的大規(guī)模檢測,提高了網(wǎng)頁篡改檢測的效率。

進一步地,參照圖3,圖3為圖2中步驟S110的細化步驟示意圖?;谏鲜龅膶嵤├霾襟ES110可以包括:

步驟S111,獲取所述待檢測網(wǎng)頁所屬網(wǎng)站的文本;

步驟S112,對獲取到的所述文本進行中文分詞和去停用詞處理;

步驟S113,從處理結(jié)果中提取若干關鍵詞,得到所述網(wǎng)站的文本特征集;

步驟S114,將所述網(wǎng)站的文本特征集作為所述待檢測網(wǎng)頁的文本特征集。

在本實施例中,為使關鍵詞的提取結(jié)果更為準確,應用防火墻首先對網(wǎng)站的所有網(wǎng)頁進行預處理,除去包括HTML(HyperText Markup Language,超文本標記語言)代碼在內(nèi)的所有代碼,只保留網(wǎng)頁的文字內(nèi)容,形成文本D1,D2,…,Dn(其中n為網(wǎng)頁數(shù)量),將這些文本合并,得到整個網(wǎng)站的文本D0;然后,對D0進行中文分詞和去停用詞處理,中文分詞是將一個漢字序列切分成一個一個單獨的詞,去停用詞是按照停用詞表中的詞語將語料中對文本內(nèi)容識別意義不大但出現(xiàn)頻率很高的詞、符號、標點及亂碼等去掉,如“的,和,要,是,這”等詞幾乎出現(xiàn)在任何一篇中文文本中,但是它們對文本所表達的意思幾乎沒有任何貢獻,將這些詞設置在停用詞表中,就可以根據(jù)停用詞表將文本中這些沒有實際意義的詞去掉。由此,得到了整個網(wǎng)站的文本D0的預處理結(jié)果。

應用防火墻可以計算預處理結(jié)果中的詞語的詞頻,若某詞語的詞頻達到一預設值,則將該詞語作為文本D0的關鍵詞,由此提取文本D0的所有關鍵詞,進而得到網(wǎng)站的文本特征集D(T1,T2,…,Tm),該文本特征集同時作為待檢測網(wǎng)頁的文本特征集。

進一步地,參照圖4,圖4為本發(fā)明網(wǎng)頁篡改的檢測方法第二實施例的流程示意圖?;谏鲜鰣D1所示的實施例,所述步驟S200可以包括:

步驟S210,計算所述待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量夾角的余弦值;

步驟S220,將計算結(jié)果作為所述待檢測網(wǎng)頁和所述網(wǎng)站之間的文本相似度。

在本實施例中,應用防火墻計算待檢測網(wǎng)頁的文本特征向量和網(wǎng)站的文本特征向量夾角的余弦值,設網(wǎng)站的文本特征向量為D0(W01,W02,…,W0m),網(wǎng)頁的文本特征向量為Dk(Wk1,Wk2,…,Wkm),其中k為第k個網(wǎng)頁,則向量D0和向量Dk的夾角的余弦值計算公式為:

將上述余弦值作為待檢測網(wǎng)頁和整個網(wǎng)站之間的文本相似度值,該值越大,則向量D0和向量Dk的夾角越小,表示待檢測網(wǎng)頁與網(wǎng)站的文本相似度越高;該值越小,則向量D0和向量Dk的夾角越大,表示待檢測網(wǎng)頁與網(wǎng)站的文本相似度越低。如圖5所示,圖5為網(wǎng)頁的文本特征向量Dk與網(wǎng)頁所屬網(wǎng)站的文本特征向量D0之間的夾角關系示意圖。

本實施例通過計算網(wǎng)頁的文本特征向量與網(wǎng)頁所屬網(wǎng)站的文本特征向量之間的夾角的余弦值,能夠?qū)崿F(xiàn)定量分析待檢測網(wǎng)頁和整個網(wǎng)站的文本相似度,分析方式較為合理可靠。

進一步地,參照圖6,圖6為本發(fā)明網(wǎng)頁篡改的檢測方法第三實施例的流程示意圖。基于上述的實施例,所述步驟S100之前,還可以包括:

步驟S500,通過爬蟲程序定時爬取預設的待檢測網(wǎng)頁;

或者步驟S600,當偵測到網(wǎng)絡訪問請求時,將所述網(wǎng)絡訪問請求對應的網(wǎng)頁作為待檢測網(wǎng)頁。

在本實施例中,應用防火墻可進行網(wǎng)頁篡改的主動檢測。具體地,可在應用防火墻中設置一個爬蟲程序,爬蟲程序根據(jù)既定的抓取目標,定時訪問萬維網(wǎng)上的網(wǎng)頁與相關的鏈接,并下載網(wǎng)頁內(nèi)容,其中,爬蟲程序的抓取目標可以為與某一特定主題內(nèi)容相關的網(wǎng)頁,也可以根據(jù)需要擴大抓取范圍,具體實施中可由網(wǎng)絡管理人員預先進行設置。之后,應用防火墻將爬蟲程序爬取到的網(wǎng)頁作為待檢測網(wǎng)頁,并逐一判斷這些網(wǎng)頁是否被篡改。

此外,應用防火墻也可進行網(wǎng)頁篡改的被動檢測。具體地,應用防火墻在偵測到網(wǎng)絡訪問請求時,將該網(wǎng)絡訪問請求對應的網(wǎng)頁作為待檢測網(wǎng)頁,這樣,用戶訪問網(wǎng)站的流量通過應用防火墻時,就可以實時檢測出用戶當前訪問的網(wǎng)頁是否被篡改。在更多的實施例中,為提高被動檢測效率,被動檢測也可以依賴于主動檢測的檢測結(jié)果,應用防火墻在進行主動檢測時,將網(wǎng)站文本特征集、網(wǎng)站文本特征向量等信息存入預設的文本特征數(shù)據(jù)庫中,當用戶訪問Web服務器時,HTTP(HyperText Transfer Protocol,超文本傳輸協(xié)議)流量通過應用防火墻,防火墻記錄URL(Uniform Resoure Locator,統(tǒng)一資源定位符)和相應的HTTP響應內(nèi)容,并獲取HTTP響應內(nèi)容對應的網(wǎng)頁的文本特征向量,將獲取到的網(wǎng)頁的文本特征向量與文本特征數(shù)據(jù)庫中對應網(wǎng)站的文本特征向量進行文本相似度比較,以判斷該網(wǎng)頁是否被篡改。

在本實施例中,通過設置爬蟲程序定時爬取既定的網(wǎng)頁,進而進行網(wǎng)頁篡改的主動檢測,無需人工干預,且可以進行遠程的大規(guī)模檢測,提高了網(wǎng)頁篡改檢測的效率;通過將用戶當前訪問的網(wǎng)頁作為待檢測網(wǎng)頁,實現(xiàn)了網(wǎng)頁篡改檢測的實時性。

本發(fā)明還提供一種網(wǎng)頁篡改的檢測裝置。

參照圖7,圖7為本發(fā)明網(wǎng)頁篡改的檢測裝置第一實施例的功能模塊示意圖。所述裝置包括:

獲取模塊10,用于獲取待檢測網(wǎng)頁的文本特征向量和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征向量;

在本實施例中,可由設置在Web瀏覽器和Web服務器之間的應用防火墻進行網(wǎng)頁篡改檢測。獲取模塊10獲取待檢測網(wǎng)頁的文本特征向量和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征向量,從而建立向量空間模型。

在向量空間模型中,文本(Document,用D表示)泛指各種機器可讀的記錄,特征項(Term,用t表示)是指出現(xiàn)在文本D中且能夠代表該文本內(nèi)容的基本語言單位,主要是由詞或者短語構(gòu)成。文本可以用特征項集表示為D(T1,T2,…,Tn),其中Tk是特征項,1<=k<=n,例如一篇文檔中有a、b、c、d四個特征項,那么這篇文檔就可以表示為D(a,b,c,d)。

參照圖8,圖8為圖7中獲取模塊的細化功能模塊示意圖。作為一種實施方式,所述獲取模塊10可以包括:

獲取單元11,用于獲取待檢測網(wǎng)頁的文本特征集和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征集,其中,所述待檢測網(wǎng)頁的文本特征集和所述網(wǎng)站的文本特征集包含相同的關鍵詞;

第一計算單元12,用于根據(jù)所述關鍵詞在所述待檢測網(wǎng)頁的文本特征集中的詞頻和權重進行計算,得到所述待檢測網(wǎng)頁的文本特征向量;

第二計算單元13,根據(jù)所述關鍵詞在所述網(wǎng)站的文本特征集中的詞頻和權重進行計算,得到所述網(wǎng)站的文本特征向量。

首先,獲取單元11獲取待檢測網(wǎng)頁的文本特征集和待檢測網(wǎng)頁所屬網(wǎng)站的文本特征集,為保證這兩個文本特征集具有可比性,這兩個文本特征集包含相同的關鍵詞。比如,獲取待檢測網(wǎng)頁所屬網(wǎng)站的文本特征集為D(T1,T2,…,Tm),則獲取待檢測網(wǎng)頁的文本特征集也應該為D(T1,T2,…,Tm),其中T1,T2,…,Tm為特征項,即關鍵詞,m為關鍵詞的數(shù)量。網(wǎng)絡管理人員在熟悉網(wǎng)站內(nèi)容的情況下,可以根據(jù)被訪問網(wǎng)站的主要內(nèi)容預先設置文本特征集中的關鍵詞,在大多數(shù)情況下,應用防火墻通過對被訪問的網(wǎng)站的網(wǎng)頁文本進行處理來自動獲取關鍵詞。

在獲取到關鍵詞后,第一計算單元12和第二計算單元13再根據(jù)關鍵詞的詞頻和權重分別進行計算,得到待檢測網(wǎng)頁的文本特征向量和待檢測網(wǎng)頁所屬網(wǎng)站的文本特征向量。本實施例主要通過TF-IDF(term frequency inverse document frequency,詞頻--逆向文本頻率)技術來計算得到文本特征向量,其原理為:詞頻計算參照TF公式:TF=N/M,即在在一篇M個詞的文章中有N個該關鍵詞,則TF=N/M為該關鍵詞在這篇文章中的詞頻;逆向文本頻率是用于衡量關鍵詞權重的指數(shù),可由公式IDF=log(D/Dw)計算而得,其中D為語料庫的文檔總數(shù),Dw為關鍵詞出現(xiàn)過的文檔數(shù),Dw越大,說明該關鍵詞在越多的文檔中出現(xiàn)過,該關鍵詞就越不足以成為本文檔的區(qū)別特征項,因而其權重越小。計算基于IDF的加權詞頻,即用關鍵詞Tx的詞頻乘以Tx的逆向文本頻率(Wx=TF(Tx)*IDF(Tx)),即可得到文本特征集D(T1,T2,…,Tm)對應的文本特征向量D(W1,W2,…,Wm)。

根據(jù)上述原理,第一計算單元12計算待檢測網(wǎng)頁的文本特征向量的過程為:獲取待檢測網(wǎng)頁的文本Dk,根據(jù)關鍵詞在Dk中出現(xiàn)的次數(shù)和Dk中詞語總數(shù)計算各個關鍵詞在Dk中的詞頻,再將計算得到的詞頻基于IDF進行加權,最終得到待檢測網(wǎng)頁的文本特征向量Dk(Wk1,Wk2,…,Wkm)。特別地,在待檢測網(wǎng)頁中沒有出現(xiàn)的關鍵詞Tx的加權詞頻Wkx為0。

根據(jù)上述原理,第二計算單元13計算整個網(wǎng)站的文本特征向量的過程為:將網(wǎng)站的所有網(wǎng)頁的文本合并,得到總文本D0,根據(jù)關鍵詞在D0中出現(xiàn)的次數(shù)和D0中詞語總數(shù)計算各個關鍵詞在D0中的詞頻,再將計算得到的詞頻基于IDF進行加權,最終得到整個網(wǎng)站的文本特征向量D0(W01,W02,…,W0m)。

計算模塊20,用于根據(jù)獲取到的所述待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量計算所述待檢測網(wǎng)頁和所述網(wǎng)站之間的文本相似度;

需要說明的是,被篡改過的網(wǎng)頁可能是瀏覽器瀏覽訪問明顯可見的,也可能是不易發(fā)現(xiàn)的暗鏈,通常被篡改的網(wǎng)頁占整個網(wǎng)站網(wǎng)頁的一小部分,并且被篡改的的網(wǎng)頁內(nèi)容與整個網(wǎng)站的內(nèi)容有比較大的差別,而文本之間的相似程度通常和文本的內(nèi)容是高度相關的,因此可以通過上述向量空間模型來比較文本相似度。

具體地,在獲取模塊10獲取到待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量之后,計算模塊20根據(jù)這兩個特征向量之間的關系計算待檢測網(wǎng)頁和網(wǎng)站之間的文本相似度,比如計算兩個特征向量之間的距離、夾角等,將計算結(jié)果作為待檢測網(wǎng)頁和網(wǎng)站之間的文本相似度。

判斷模塊30,用于判斷所述文本相似度是否小于預設閾值;若是,則判定所述待檢測網(wǎng)頁為被篡改的網(wǎng)頁。

判斷模塊30判斷計算得到的文本相似度是否小于預設閾值,其中,預設的文本相似度閾值可以通過對大量已經(jīng)發(fā)生網(wǎng)頁篡改的網(wǎng)站的網(wǎng)頁進行自學習分類得到,網(wǎng)絡管理者也可以根據(jù)實際需要對其進行靈活設置。若文本相似度小于預設閾值,判斷模塊30即可判定檢測的網(wǎng)頁為被篡改的網(wǎng)頁,此時應用防火墻可將檢測結(jié)果進行上報并阻止用戶訪問該網(wǎng)頁;否則判定檢測的網(wǎng)頁為正常網(wǎng)頁。

在本實施例中,獲取模塊10獲取待檢測網(wǎng)頁的文本特征向量和所述待檢測網(wǎng)頁所屬網(wǎng)站的文本特征向量;計算模塊20根據(jù)獲取到的所述待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量計算所述待檢測網(wǎng)頁和所述網(wǎng)站之間的文本相似度;判斷模塊30判斷所述文本相似度是否小于預設閾值;若是,則判定所述待檢測網(wǎng)頁為被篡改的網(wǎng)頁。本實施例通過文本相似度來檢測網(wǎng)頁是否被篡改,相對于現(xiàn)有的黑名單關鍵詞檢測,不需要進行黑名單關鍵詞收集,對網(wǎng)頁篡改檢測的誤報和漏報比較少,提高了網(wǎng)頁篡改檢測的準確率;相對于現(xiàn)有的網(wǎng)頁數(shù)字指紋比對,無需進行本地部署,可以進行遠程的大規(guī)模檢測,提高了網(wǎng)頁篡改檢測的效率。

進一步地,繼續(xù)參照圖8,所述獲取單元11還用于:獲取所述待檢測網(wǎng)頁所屬網(wǎng)站的文本;對獲取到的所述文本進行中文分詞和去停用詞處理;從處理結(jié)果中提取若干關鍵詞,得到所述網(wǎng)站的文本特征集;將所述網(wǎng)站的文本特征集作為所述待檢測網(wǎng)頁的文本特征集。

在本實施例中,為使關鍵詞的提取結(jié)果更為準確,獲取單元11首先對網(wǎng)站的所有網(wǎng)頁進行預處理,除去包括HTML(HyperText Markup Language,超文本標記語言)代碼在內(nèi)的所有代碼,只保留網(wǎng)頁的文字內(nèi)容,形成文本D1,D2,…,Dn(其中n為網(wǎng)頁數(shù)量),將這些文本合并,得到整個網(wǎng)站的文本D0;然后,對D0進行中文分詞和去停用詞處理,中文分詞是將一個漢字序列切分成一個一個單獨的詞,去停用詞是按照停用詞表中的詞語將語料中對文本內(nèi)容識別意義不大但出現(xiàn)頻率很高的詞、符號、標點及亂碼等去掉,如“的,和,要,是,這”等詞幾乎出現(xiàn)在任何一篇中文文本中,但是它們對文本所表達的意思幾乎沒有任何貢獻,將這些詞設置在停用詞表中,就可以根據(jù)停用詞表將文本中這些沒有實際意義的詞去掉。由此,得到了整個網(wǎng)站的文本D0的預處理結(jié)果。

獲取單元11可以計算預處理結(jié)果中的詞語的詞頻,若某詞語的詞頻達到一預設值,則將該詞語作為文本D0的關鍵詞,由此提取文本D0的所有關鍵詞,進而得到網(wǎng)站的文本特征集D(T1,T2,…,Tm),該文本特征集同時作為待檢測網(wǎng)頁的文本特征集。

進一步地,繼續(xù)參照圖7,所述計算模塊20還用于:計算所述待檢測網(wǎng)頁的文本特征向量和所述網(wǎng)站的文本特征向量夾角的余弦值;將計算結(jié)果作為所述待檢測網(wǎng)頁和所述網(wǎng)站之間的文本相似度。

在本實施例中,計算模塊20計算待檢測網(wǎng)頁的文本特征向量和網(wǎng)站的文本特征向量夾角的余弦值,設網(wǎng)站的文本特征向量為D0(W01,W02,…,W0m),網(wǎng)頁的文本特征向量為Dk(Wk1,Wk2,…,Wkm),其中k為第k個網(wǎng)頁,則向量D0和向量Dk的夾角的余弦值計算公式為:

將上述余弦值作為待檢測網(wǎng)頁和整個網(wǎng)站之間的文本相似度值,該值越大,則向量D0和向量Dk的夾角越小,表示待檢測網(wǎng)頁與網(wǎng)站的文本相似度越高;該值越小,則向量D0和向量Dk的夾角越大,表示待檢測網(wǎng)頁與網(wǎng)站的文本相似度越低。如圖5所示,圖5為網(wǎng)頁的文本特征向量Dk與網(wǎng)頁所屬網(wǎng)站的文本特征向量D0之間的夾角關系示意圖。

本實施例通過計算網(wǎng)頁的文本特征向量與網(wǎng)頁所屬網(wǎng)站的文本特征向量之間的夾角的余弦值,能夠?qū)崿F(xiàn)定量分析待檢測網(wǎng)頁和整個網(wǎng)站的文本相似度,分析方式較為合理可靠。

進一步地,參照圖9,圖9為本發(fā)明網(wǎng)頁篡改的檢測裝置第二實施例的功能模塊示意圖?;谏鲜龅膶嵤├?,所述裝置還可以包括:

爬取模塊40,用于通過爬蟲程序定時爬取預設的待檢測網(wǎng)頁;

所述獲取模塊10還用于當偵測到網(wǎng)絡訪問請求時,將所述網(wǎng)絡訪問請求對應的網(wǎng)頁作為待檢測網(wǎng)頁。

在本實施例中,應用防火墻可進行網(wǎng)頁篡改的主動檢測。具體地,可在應用防火墻中設置一個爬蟲程序,爬蟲程序根據(jù)既定的抓取目標,定時訪問萬維網(wǎng)上的網(wǎng)頁與相關的鏈接,并下載網(wǎng)頁內(nèi)容,其中,爬蟲程序的抓取目標可以為與某一特定主題內(nèi)容相關的網(wǎng)頁,也可以根據(jù)需要擴大抓取范圍,具體實施中可由網(wǎng)絡管理人員預先進行設置。之后,應用防火墻將爬蟲程序爬取到的網(wǎng)頁作為待檢測網(wǎng)頁,并逐一判斷這些網(wǎng)頁是否被篡改。

此外,應用防火墻也可進行網(wǎng)頁篡改的被動檢測。具體地,獲取模塊10在偵測到網(wǎng)絡訪問請求時,將該網(wǎng)絡訪問請求對應的網(wǎng)頁作為待檢測網(wǎng)頁,這樣,用戶訪問網(wǎng)站的流量通過應用防火墻時,就可以實時檢測出用戶當前訪問的網(wǎng)頁是否被篡改。在更多的實施例中,為提高被動檢測效率,該被動檢測也可以依賴于主動檢測的檢測結(jié)果,應用防火墻在進行主動檢測時,將網(wǎng)站文本特征集、網(wǎng)站文本特征向量等信息存入預設的文本特征數(shù)據(jù)庫中,當用戶訪問Web服務器時,HTTP(HyperText Transfer Protocol,超文本傳輸協(xié)議)流量通過應用防火墻,防火墻記錄URL(Uniform Resoure Locator,統(tǒng)一資源定位符)和相應的HTTP響應內(nèi)容,并獲取HTTP響應內(nèi)容對應的網(wǎng)頁的文本特征向量,將獲取到的網(wǎng)頁的文本特征向量與文本特征數(shù)據(jù)庫中對應網(wǎng)站的文本特征向量進行文本相似度比較,以判斷該網(wǎng)頁是否被篡改。

在本實施例中,通過設置爬蟲程序定時爬取既定的網(wǎng)頁,進而進行網(wǎng)頁篡改的主動檢測,無需人工干預,且可以進行遠程的大規(guī)模檢測,提高了網(wǎng)頁篡改檢測的效率;通過將用戶當前訪問的網(wǎng)頁作為待檢測網(wǎng)頁,實現(xiàn)了網(wǎng)頁篡改檢測的實時性。

以上僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關的技術領域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1