頁面篡改檢測方法及黑鏈數(shù)據(jù)庫生成方法【專利摘要】本申請?zhí)峁┝艘环N檢測頁面篡改的方法及裝置,其中,所述方法包括:生成黑鏈特征數(shù)據(jù)庫,并在多臺服務器中部署所述黑鏈特征數(shù)據(jù)庫,所述黑鏈特征數(shù)據(jù)庫中包括黑鏈特征數(shù)據(jù);獲取當前檢測頁面的特征信息;依據(jù)所述頁面的特征信息確定對應的目標服務器;采用所述目標服務器中的黑鏈特征數(shù)據(jù)庫與當前檢測頁面進行匹配,判斷當前檢測頁面中是否包含所述黑鏈特征數(shù)據(jù)庫中的黑鏈特征數(shù)據(jù),若是,則判定當前頁面為被篡改頁面。本申請可以在盡可能減少人工干預的前提下,提高檢測頁面篡改的效率和準確率,尤其是在需檢測頁面數(shù)量眾多,并且,所需匹配的黑鏈特征數(shù)據(jù)較多的情況下,提高檢測頁面篡改的效率和準確率。【專利說明】頁面篡改檢測方法及黑鏈數(shù)據(jù)庫生成方法[0001]本發(fā)明專利申請是申請日為2011年12月30日、申請?zhí)枮?01110457654.3、名稱為"一種檢測頁面篡改的方法及裝置"的中國發(fā)明專利申請的分案申請。【
技術(shù)領(lǐng)域:
】[0002]本申請涉及計算機安全的【
技術(shù)領(lǐng)域:
】,特別是涉及一種檢測頁面篡改的方法,以及一種檢測頁面篡改的裝置?!?br>背景技術(shù):
】[0003]萬維網(wǎng)成為大量信息的載體,為有效地提取并利用這些信息,搜索引擎(SearchEngine)作為一個輔助人們檢索信息的工具,成為用戶訪問萬維網(wǎng)的入口和指南。[0004]SE0(SearchEngineOptimization,搜索引擎優(yōu)化),是較為流行的網(wǎng)絡營銷方式,主要目的是增加特定關(guān)鍵字的曝光率以增加網(wǎng)站的能見度,使其提高搜索引擎排名,從而提高網(wǎng)站訪問量,最終提升網(wǎng)站的銷售能力或宣傳能力。網(wǎng)站SE0數(shù)據(jù)表示本網(wǎng)站的內(nèi)容在其它搜索引擎中被收錄的數(shù)量,收錄得越多就更容易被用戶搜索到。[0005]對于搜索引擎的這種特性,目前有些工具提供了黑鏈技術(shù),黑鏈是SE0黑帽手法中相當普遍的一種手段,籠統(tǒng)地說,它就是指一些人用非正常的手段獲取的其它網(wǎng)站的反向鏈接,最常見的黑鏈就是通過各種網(wǎng)站程序漏洞獲取搜索引擎權(quán)重或者PR(PageRank,網(wǎng)頁級別),較高的網(wǎng)站的WEBSHELL(匿名用戶(入侵者)通過網(wǎng)站端口對網(wǎng)站服務器的某種程度上操作的權(quán)限),進而在被黑網(wǎng)站上鏈接自己的網(wǎng)站。[0006]黑鏈主要針對搜索引擎,例如,對搜索引擎搜索出來的排名最靠前的幾個網(wǎng)站進行簡單的分析,查看其網(wǎng)站架構(gòu),關(guān)鍵詞分布,以及外鏈等等,有可能發(fā)現(xiàn)一些網(wǎng)站排名非常好,而且關(guān)鍵詞網(wǎng)頁相關(guān)數(shù)都達到幾百萬,但網(wǎng)站架構(gòu)一般,關(guān)鍵詞密度不是很合適,最主要的是有些網(wǎng)站沒有任何導出的鏈接,通過查看其反向鏈接才發(fā)現(xiàn),絕大數(shù)外鏈都來自于黑鏈。SE0主要是靠高質(zhì)量的外鏈來決定排名,按照百分比來講,應超過50%,因此在權(quán)重較高的網(wǎng)站上做黑鏈有利于網(wǎng)站排名的。此外黑鏈一般以隱藏鏈接的模式,所以在網(wǎng)站的常規(guī)檢查中管理員很難發(fā)現(xiàn)網(wǎng)站被做了黑鏈。目前,黑鏈一般用于暴利的黑(灰)色產(chǎn)業(yè),例如私服,醫(yī)療,冷門高利潤行業(yè)等等。黑鏈也已形成產(chǎn)業(yè)化。在實際應用中,如果用戶沒有做好安全防護工作,那么打開被黑鏈篡改的頁面就會容易就會感染網(wǎng)站上的病毒。[0007]現(xiàn)有技術(shù)中,對于黑鏈的檢測通常是由人工,比如網(wǎng)站的站長,通過大量人工收集的篡改關(guān)鍵詞,如hack、hackedby,六合彩、性經(jīng)歷、夕卜掛,私服等匹配網(wǎng)頁中的HTML正文,以判斷其是否被黑鏈篡改。例如,被黑鏈篡改網(wǎng)頁常見的特征分為黑客炫耀的特征如:然而,這種人工檢測的方式嚴重依賴于人工收集的篡改關(guān)鍵詞和人工的定期檢測,效率十分低下。[0008]再者,對于在所需檢測頁面數(shù)量眾多,并且,所需匹配的黑鏈特征數(shù)據(jù)(如篡改關(guān)鍵詞)較多的情況下,人工的方式顯然完全無法應對。[0009]因此,目前需要本領(lǐng)域技術(shù)人員解決的一個技術(shù)問題就是,提供一種檢測頁面篡改的機制,用以在盡可能減少人工干預的前提下,提高檢測頁面篡改的效率和準確率,尤其是在需檢測頁面數(shù)量眾多,并且,所需匹配的黑鏈特征數(shù)據(jù)較多的情況下,提高檢測頁面篡改的效率和準確率?!?br/>發(fā)明內(nèi)容】[0010]本申請?zhí)峁┮环N檢測頁面篡改的方法,用以在盡可能減少人工干預的前提下,提高檢測頁面篡改的效率和準確率,尤其是在需檢測頁面數(shù)量眾多,并且,所需匹配的黑鏈特征數(shù)據(jù)較多的情況下,提高檢測頁面篡改的效率和準確率。[0011]本申請還提供了一種檢測頁面篡改的裝置,用以保證上述方法在實際中的應用及實現(xiàn)。[0012]為了解決上述問題,本申請公開了一種檢測頁面篡改的方法,包括:[0013]生成黑鏈特征數(shù)據(jù)庫,并在多臺服務器中部署所述黑鏈特征數(shù)據(jù)庫,所述黑鏈特征數(shù)據(jù)庫中包括黑鏈特征數(shù)據(jù);[0014]獲取當前檢測頁面的特征信息;[0015]依據(jù)所述頁面的特征信息確定對應的目標服務器;[0016]采用所述目標服務器中的黑鏈特征數(shù)據(jù)庫與當前檢測頁面進行匹配,判斷當前檢測頁面中是否包含所述黑鏈特征數(shù)據(jù)庫中的黑鏈特征數(shù)據(jù),若是,則判定當前頁面為被篡改頁面。[0017]優(yōu)選的,所述服務器具有服務器標識,所述特征信息包括頁面分類信息,所述依據(jù)頁面的特征信息確定對應的目標服務器的步驟包括:[0018]按照預置的頁面分類信息與服務器標識的對應關(guān)系,提取當前頁面分類信息對應的服務器標識;[0019]將所述服務器標識對應的服務器確定為目標服務器。[0020]優(yōu)選的,所述特征信息包括頁面的URL,所述服務器具有數(shù)值標識,所述依據(jù)頁面的特征信息確定對應的服務器標識的步驟包括:[0021]采用預設算法將當前檢測頁面的URL轉(zhuǎn)換為數(shù)值;[0022]按所述數(shù)值提取對應數(shù)值標識的服務器為目標服務器。[0023]優(yōu)選的,所述頁面分類信息包括頁面的內(nèi)容分類信息,頁面的類型分類信息,頁面的屬性分類信息。[0024]優(yōu)選的,所述生成黑鏈特征數(shù)據(jù)庫的步驟包括:[0025]采用已有的黑鏈特征數(shù)據(jù)搜索包含所述黑鏈特征數(shù)據(jù)的頁面為特征頁面;[0026]分析所述黑鏈特征數(shù)據(jù)在特征頁面中的布局,當發(fā)現(xiàn)布局異常時,從該特征頁面中提取包含所述黑鏈特征數(shù)據(jù)的頁面元素;[0027]根據(jù)所述頁面元素生成黑鏈規(guī)則,采用所述黑鏈規(guī)則在其它特征頁面中進行匹配,并在匹配的特征頁面中提取新的黑鏈特征數(shù)據(jù);[0028]保存所述黑鏈特征數(shù)據(jù)形成黑鏈特征數(shù)據(jù)庫。[0029]優(yōu)選的,所述黑鏈特征數(shù)據(jù)包括篡改關(guān)鍵詞和黑鏈URL。[0030]優(yōu)選的,所述分析所述黑鏈特征數(shù)據(jù)在特征頁面中的布局的步驟包括:[0031]判斷所述黑鏈特征數(shù)據(jù)的頁面元素位置是否在預設閾值范圍內(nèi),若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常;[0032]和/或,[0033]判斷所述黑鏈特征數(shù)據(jù)的頁面元素屬性是否為不可見屬性,若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常;[0034]和/或,[0035]判斷所述黑鏈特征數(shù)據(jù)的頁面元素屬性是否為對瀏覽器隱藏的屬性,若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常。[0036]優(yōu)選的,所述根據(jù)頁面元素生成黑鏈規(guī)則的步驟為:[0037]從包含所述篡改關(guān)鍵詞和/或黑鏈URL的頁面元素中,抽象出正則表達式作為黑鏈規(guī)則。[0038]優(yōu)選的,所述的方法,還包括:[0039]按預設時間間隔更新所述黑鏈特征數(shù)據(jù)庫。[0040]本申請還公開了一種檢測頁面篡改的裝置,包括:[0041]數(shù)據(jù)庫生成模塊,用于生成黑鏈特征數(shù)據(jù)庫,所述黑鏈特征數(shù)據(jù)庫中包括黑鏈特征數(shù)據(jù);[0042]數(shù)據(jù)庫部署模塊,用于在多臺服務器中部署所述黑鏈特征數(shù)據(jù)庫;[0043]特征信息獲取模塊,用于獲取當前檢測頁面的特征信息;[0044]目標服務器確定模塊,用于依據(jù)所述頁面的特征信息確定對應的目標服務器;[0045]篡改檢測模塊,用于采用所述目標服務器中的黑鏈特征數(shù)據(jù)庫與當前檢測頁面進行匹配,判斷當前檢測頁面中是否包含所述黑鏈特征數(shù)據(jù)庫中的黑鏈特征數(shù)據(jù),若是,則判定當前頁面為被篡改頁面。[0046]優(yōu)選的,所述服務器具有服務器標識,所述特征信息包括頁面分類信息,所述目標服務器確定模塊包括:[0047]標識提取子模塊,用于按照預置的頁面分類信息與服務器標識的對應關(guān)系,提取當前頁面分類信息對應的服務器標識;[0048]標識定位子模塊,用于將所述服務器標識對應的服務器確定為目標服務器。[0049]優(yōu)選的,所述特征信息包括頁面的URL,所述服務器具有數(shù)值標識,所述目標服務器確定模塊包括:[0050]URL轉(zhuǎn)換子模塊,用于采用預設算法將當前檢測頁面的URL轉(zhuǎn)換為數(shù)值;[0051]標識對應子模塊,用于按所述數(shù)值提取對應數(shù)值標識的服務器為目標服務器。[0052]優(yōu)選的,所述數(shù)據(jù)庫生成模塊包括:[0053]特征頁面搜索子模塊,用于采用已有的黑鏈特征數(shù)據(jù)搜索包含所述黑鏈特征數(shù)據(jù)的頁面為特征頁面;[0054]布局分析子模塊,用于分析所述黑鏈特征數(shù)據(jù)在特征頁面中的布局;[0055]頁面元素提取子模塊,用于在發(fā)現(xiàn)布局異常時,從該特征頁面中提取包含所述黑鏈特征數(shù)據(jù)的頁面元素;[0056]黑鏈規(guī)則生成子模塊,用于根據(jù)所述頁面元素生成黑鏈規(guī)則;[0057]黑鏈特征數(shù)據(jù)提取子模塊,用于采用所述黑鏈規(guī)則在其它特征頁面中進行匹配,并在匹配的特征頁面中提取新的黑鏈特征數(shù)據(jù),保存所述黑鏈特征數(shù)據(jù)形成黑鏈特征數(shù)據(jù)庫。[0058]優(yōu)選的,所述布局分析子模塊進一步包括:[0059]第一判斷單元,用于判斷所述黑鏈特征數(shù)據(jù)的頁面元素位置是否在預設閾值范圍內(nèi),若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常;[0060]和/或,[0061]第二判斷單元,用于判斷所述黑鏈特征數(shù)據(jù)的頁面元素屬性是否為不可見屬性,若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常;[0062]和/或,[0063]第三判斷單元,用于判斷所述黑鏈特征數(shù)據(jù)的頁面元素屬性是否為對瀏覽器隱藏的屬性,若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常。[0064]優(yōu)選的,所述黑鏈特征數(shù)據(jù)包括篡改關(guān)鍵詞和黑鏈URL,所述黑鏈規(guī)則生成子模塊包括:[0065]正則表達式抽取單元,用于從包含所述篡改關(guān)鍵詞和/或黑鏈URL的頁面元素中,抽象出正則表達式作為黑鏈規(guī)則。[0066]優(yōu)選的,所述的裝置,還包括:[0067]數(shù)據(jù)庫更新模塊,用于按預設時間間隔更新所述黑鏈特征數(shù)據(jù)庫。[0068]與現(xiàn)有技術(shù)相比,本申請具有以下優(yōu)點:[0069]本申請通過將生成的黑鏈特征數(shù)據(jù)庫在多臺服務器中進行部署以分散單獨服務器或客戶端處理的壓力,當接收到并發(fā)的多個頁面篡改檢測請求時,依據(jù)所請求檢測頁面的特征信息確定處理當前檢測的服務器,由該服務器進行具體的篡改檢測處理,從而能在需檢測頁面數(shù)量眾多,并且,所需匹配的黑鏈特征數(shù)據(jù)較多的情況下,有效提高檢測頁面篡改的效率和準確率。[0070]再者,本申請根據(jù)黑鏈特征數(shù)據(jù)庫,判斷當前檢測頁面中是否包含黑鏈特征數(shù)據(jù),將包含黑鏈特征數(shù)據(jù)的頁面確定為被篡改頁面。在本申請實施例中,黑鏈特征數(shù)據(jù)庫中的黑鏈特征可以不全部由人工收集,可以采用以下方式自動收集:通過已知的黑鏈特征數(shù)據(jù)結(jié)合搜索引擎技術(shù),使用網(wǎng)絡爬蟲抓取包含此黑鏈特征數(shù)據(jù)的頁面作為特征頁面,通過分析此黑鏈特征數(shù)據(jù)在這些特征頁面中的布局,若布局異常則從該異常的特征頁面中提取包含所述黑鏈特征數(shù)據(jù)的頁面元素,形成一套通用的正則表達式作為黑鏈規(guī)則,將該黑鏈規(guī)則在其它特征頁面中進行匹配,并在匹配的特征頁面中提取新的黑鏈特征數(shù)據(jù)。這樣收集黑鏈特征數(shù)據(jù)不需人工干預,非常快速,并且,所收集的黑鏈特征數(shù)據(jù)的準確率也非常高,從而用在頁面篡改檢測時,能有效提高檢測的效率和準確率。[0071]并且,本申請實施例根據(jù)黑鏈特征數(shù)據(jù),結(jié)合搜索引擎技術(shù),使用網(wǎng)絡爬蟲抓取包含此黑鏈特征數(shù)據(jù)的頁面,然后分析包含此黑鏈特征數(shù)據(jù)頁面的布局,從而判定頁面是否被篡改,并提取所述被篡改頁面中包含所述黑鏈特征數(shù)據(jù)的頁面元素,最終形成一套通用的正則表達式作為黑鏈規(guī)則。本申請無需人工干預,無需額外設置系統(tǒng),采用正則表達式作為黑鏈規(guī)則在頁面中進行匹配,以提取更多的黑鏈特征數(shù)據(jù),訓練更多黑鏈規(guī)則的方式,能更好地適用于當前黑鏈產(chǎn)業(yè)化的情形,不僅能降低成本,還能更快更多地發(fā)現(xiàn)被篡改的頁面,有效提高檢測頁面篡改的效率。并且,基于網(wǎng)絡爬蟲技術(shù)和瀏覽器內(nèi)核隔離沙箱技術(shù)的實現(xiàn),也有效保證了檢測頁面篡改的安全性、可信度和準確度?!緦@綀D】【附圖說明】[0072]圖1是本申請的一種檢測頁面篡改的方法實施例的流程圖;[0073]圖2是本申請的一種檢測頁面篡改的裝置實施例的結(jié)構(gòu)框圖?!揪唧w實施方式】[0074]為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式對本申請作進一步詳細的說明。[0075]黑鏈,又被稱作"網(wǎng)絡牛皮癬"。公知的是,搜索引擎有一個排名系統(tǒng),搜索引擎認為好的網(wǎng)站,在搜索結(jié)果的排名中就會靠前,相應地,網(wǎng)站的點擊率就會越高。搜索引擎衡量一個網(wǎng)站的好壞有多方面的指標,其中非常重要的一點就是網(wǎng)站的外部鏈接。如果一個網(wǎng)站的外部鏈接都很不錯,那么這個網(wǎng)站在搜索引擎中的排名就會相應地提高。[0076]例如,某新開的網(wǎng)站在搜索引擎中的排名很靠后,之后某個權(quán)利高(排名好,質(zhì)量高)的網(wǎng)站和這個新開的網(wǎng)站做了鏈接,那么搜索引擎就會認為這個新開的網(wǎng)站既然可以和這樣權(quán)重高的網(wǎng)站做上鏈接,那么它的權(quán)重也不會低,所以這個網(wǎng)站在搜索引擎中的排名就會提升。如果有多個權(quán)重高的網(wǎng)站也都和這個網(wǎng)站做了鏈接,那么它的排名將會上升得非常快。[0077]反之,如果一個新開的網(wǎng)站,沒有任何背景,沒有任何關(guān)系,它的權(quán)重不會很高,所以搜索引擎不會給它很高的排名,其在搜索結(jié)果中的排名就會比較靠后。對于搜索引擎的這種特性,目前有些工具提供了黑鏈技術(shù),即通過入侵一些權(quán)重高的網(wǎng)站,入侵成功后將網(wǎng)站的鏈接插入到被入侵網(wǎng)站的頁面中,從而實現(xiàn)鏈接的效果,并且通過隱藏網(wǎng)站鏈接,使別人在被入侵網(wǎng)站的頁面上是看不到任何鏈接。[0078]然而,目前采用黑鏈技術(shù)來實現(xiàn)搜索排名提升的,相當一部分是游戲私服網(wǎng)站、盜號木馬網(wǎng)站、釣魚網(wǎng)站和廣告網(wǎng)站等不安全網(wǎng)站。對于這些不安全網(wǎng)站,搜索引擎不會給它們很高的排名,但通過"黑鏈",它們的排名就會很靠前,在這種情況下,當使用搜索引擎的時候,點擊打開這些網(wǎng)站的概率就會很高,如果用戶沒有做好安全防護工作,那么就會容易就會感染網(wǎng)站上的病毒。[0079]正是本專利發(fā)明人發(fā)現(xiàn)這一問題的嚴重性,提出本申請實施例的核心構(gòu)思之一在于,本申請通過將生成的黑鏈特征數(shù)據(jù)庫在多臺服務器中進行部署以分散單獨服務器或客戶端處理的壓力,當接收到并發(fā)的多個頁面篡改檢測請求時,依據(jù)所請求檢測頁面的特征信息確定處理當前檢測的服務器,由該服務器進行具體的篡改檢測處理,從而能在需檢測頁面數(shù)量眾多,所需匹配的黑鏈特征數(shù)據(jù)較多的情況下,有效提高檢測頁面篡改的效率和準確率。并且,在本申請實施例中,黑鏈特征數(shù)據(jù)庫中的黑鏈特征可以不全部由人工收集,可以采用以下方式自動收集:通過已知的黑鏈特征數(shù)據(jù)結(jié)合搜索引擎技術(shù),使用網(wǎng)絡爬蟲抓取包含此黑鏈特征數(shù)據(jù)的頁面作為特征頁面,通過分析此黑鏈特征數(shù)據(jù)在這些特征頁面中的布局,若布局異常則從該異常的特征頁面中提取包含所述黑鏈特征數(shù)據(jù)的頁面元素,形成一套通用的正則表達式作為黑鏈規(guī)則,將該黑鏈規(guī)則在其它特征頁面中進行匹配,并在匹配的特征頁面中提取新的黑鏈特征數(shù)據(jù)。這樣收集黑鏈特征數(shù)據(jù)不需人工干預,非??焖伲⑶?,所收集的黑鏈特征數(shù)據(jù)的準確率也非常高,從而用在頁面篡改檢測時,能有效提高檢測的效率和準確率。[0080]參照圖1,示出了本申請的一種檢測頁面篡改的方法實施例的步驟流程圖,具體可以包括如下步驟:[0081]步驟11、生成黑鏈特征數(shù)據(jù)庫,并在多臺服務器中部署所述黑鏈特征數(shù)據(jù)庫,所述黑鏈特征數(shù)據(jù)庫中包括黑鏈特征數(shù)據(jù);[0082]在具體實現(xiàn)中,所述黑鏈特征數(shù)據(jù)可以包括篡改關(guān)鍵詞和黑鏈URL。如篡改關(guān)鍵詞"傳奇私服發(fā)布",黑鏈URL"http://www.45u.com"等。[0083]在本申請的一種優(yōu)選實施例中,可以通過以下子步驟生成黑鏈特征數(shù)據(jù)庫:[0084]子步驟111、采用已有的黑鏈特征數(shù)據(jù)搜索包含所述黑鏈特征數(shù)據(jù)的頁面為特征頁面;[0085]子步驟112、分析所述黑鏈特征數(shù)據(jù)在特征頁面中的布局,當發(fā)現(xiàn)布局異常時,從該特征頁面中提取包含所述黑鏈特征數(shù)據(jù)的頁面元素;[0086]子步驟113、根據(jù)所述頁面元素生成黑鏈規(guī)則,采用所述黑鏈規(guī)則在其它特征頁面中進行匹配,并在匹配的特征頁面中提取新的黑鏈特征數(shù)據(jù);[0087]子步驟114、保存所述黑鏈特征數(shù)據(jù)形成黑鏈特征數(shù)據(jù)庫;[0088]在具體實現(xiàn)中,所述已有的黑鏈特征數(shù)據(jù)可以包括篡改關(guān)鍵詞和黑鏈URL。根據(jù)所述已有的黑鏈特征數(shù)據(jù),利用網(wǎng)絡爬蟲抓取包含所述黑鏈特征數(shù)據(jù)的頁面,并將這些頁面作為特征頁面。[0089]公知的是,搜索引擎從萬維網(wǎng)上自動提取網(wǎng)頁的功能是通過網(wǎng)絡爬蟲實現(xiàn)的。網(wǎng)絡爬蟲又稱為網(wǎng)絡蜘蛛,即WebSpider,網(wǎng)絡蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個互聯(lián)網(wǎng)當成一個網(wǎng)站,那么網(wǎng)絡蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。[0090]目前的網(wǎng)絡爬蟲可以分為通用爬蟲和聚焦爬蟲。通用爬蟲是基于廣度優(yōu)先搜索的思想,從一個或若干個初始網(wǎng)頁的URL(UniformResourceLocator,統(tǒng)一資源定位符)開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。而聚焦爬蟲是一個自動下載網(wǎng)頁的程序,用于定向抓取相關(guān)頁面資源。它根據(jù)既定的抓取目標,有選擇地訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲不同,聚焦爬蟲并不追求大的覆蓋,而是將目標定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準備數(shù)據(jù)資源。[0091]現(xiàn)有的黑鏈技術(shù)中,隱藏鏈接有一些固定技巧,例如搜索引擎對javascript的識別不是很好,通過javascript來輸出隱藏的div。這樣的話,人工直接通過頁面無法看到這些鏈接,而搜索引擎確認為這些鏈接是有效的。代碼為:首先通過javascript寫前面的div,設置display為none。然后輸出一個table,table中包含了要掛的黑鏈。最后再通過javascript輸出后半部分div。[0092]采用瀏覽器內(nèi)核的隔離沙箱技術(shù)可以快速、有效地察覺出頁面被篡改。具體而言,瀏覽器內(nèi)核的隔離沙箱技術(shù)為瀏覽器內(nèi)核,比如IE或firefox,構(gòu)建了一個安全的虛擬執(zhí)行環(huán)境。用戶通過瀏覽器所作的任何寫磁盤操作,都將重定向到一個特定的臨時文件夾中。這樣,即使網(wǎng)頁中包含病毒,木馬,廣告等惡意程序,被強行安裝后,也只是安裝到了臨時文件夾中,不會對用戶設備造成危害。瀏覽器內(nèi)核負責對網(wǎng)頁語法的解釋(如HTML、JavaScript)并渲染(顯示)網(wǎng)頁。所以,通常所謂的瀏覽器內(nèi)核也就是對頁面進行下載、解析、執(zhí)行、渲染的引擎,該引擎決定了瀏覽器如何顯示網(wǎng)頁的內(nèi)容以及頁面的格式信息。[0093]根據(jù)瀏覽器內(nèi)核的上述操作特性,采用隔離沙箱技術(shù),可以安全地分析黑鏈特征數(shù)據(jù)在特征頁面中的布局是否發(fā)生異常,具體而言,可以通過分析所述黑鏈特征數(shù)據(jù)的頁面元素位置和屬性,來判定黑鏈特征數(shù)據(jù)在特征頁面中的布局是否異常,例如,判斷所述黑鏈特征數(shù)據(jù)的頁面元素的位置是否不在預設閾值范圍內(nèi),所述黑鏈特征數(shù)據(jù)的頁面元素是否具有不可見的屬性,和/或,所述黑鏈特征數(shù)據(jù)的頁面元素是否具有對瀏覽器隱藏的屬性,若是,則判定黑鏈特征數(shù)據(jù)在特征頁面中的布局異常。例如,若檢測到某個頁面的超鏈接是不可見的,或者,頁面中某個html標簽元素的長寬高是負值,則可判定該頁面的布局異常,是被篡改的頁面。[0094]當發(fā)現(xiàn)布局異常時,從該布局異常的特征頁面中提取包含所述所述篡改關(guān)鍵詞和/或黑鏈URL的頁面元素;然后從包含所述篡改關(guān)鍵詞和/或黑鏈URL的頁面元素中,抽象出正則表達式作為黑鏈規(guī)則。[0095]公知的是,正則表達式是用于進行文本匹配的工具,通常由一些普通字符和一些元字符(metacharacters)組成。普通字符包括大小寫的字母和數(shù)字,而元字符則具有特殊的含義。正則表達式的匹配可以理解為,在給定的字符串中,尋找與給定的正則表達式相匹配的部分。有可能字符串里有不止一個部分滿足給定的正則表達式,這時每一個這樣的部分被稱為一個匹配。匹配在本文里可以包括三種含義:一種是形容詞性的,比如說一個字符串匹配一個表達式;一種是動詞性的,比如說在字符串里匹配正則表達式;還有一種是名詞性的,就是剛剛說到的"字符串中滿足給定的正則表達式的一部分"。[0096]以下通過舉例對正則表達式的生成規(guī)則進行說明。[0097]假設要查找hi,則可以使用正則表達式hi。這個正則表達式可以精確匹配這樣的字符串:由兩個字符組成,前一個字符是h,后一個是i。在實際中,正則表達式是可以忽略大小寫的。如果很多單詞里都包含hi這兩個連續(xù)的字符,比如him,history,high等等。用hi來查找的話,這此單詞里面的hi也會被找出來。如果要精確地查找hi這個單詞的話,則應該使用\bhi\b。其中,\b是正則表達式的一個元字符,它代表著單詞的開頭或結(jié)尾,也就是單詞的分界處。雖然通常英文的單詞是由空格或標點符號或換行來分隔的,但是\b并不匹配這些單詞分隔符中的任何一個,它只匹配一個位置。假如要找的是hi后面不遠處跟著一個Lucy,貝U應該用\bhi\b.*\bLucy\b。其中,.是另一個元字符,匹配除了換行符以外的任意字符。*同樣是元字符,它代表的是數(shù)量--即指定*前邊的內(nèi)容可以連續(xù)重復出現(xiàn)任意次以使整個表達式得到匹配?,F(xiàn)在\bhi\b.*\bLucy\b的意思就很明顯了:先是一個單詞hi,然后是任意個任意字符(但不能是換行),最后是Lucy這個單詞。[0098]例如,在頁面布局異常的A頁面的html片段里,提取包含黑鏈特征數(shù)據(jù)的頁面元素如下:[0099]【權(quán)利要求】1.一種頁面篡改檢測方法,其包括:獲取當前檢測頁面的特征信息;依據(jù)所獲取的特征信息確定對應的目標服務器;采用所述目標服務器中的黑鏈特征數(shù)據(jù)庫與當前檢測頁面進行匹配以判斷當前檢測頁面中是否包含所述黑鏈特征數(shù)據(jù)庫中的黑鏈特征數(shù)據(jù);如果包含,則判定當前頁面為被篡改頁面。2.如權(quán)利要求1所述的方法,其中,所述黑鏈特征數(shù)據(jù)庫部署在多臺服務器上。3.如權(quán)利要求1或2所述的方法,其中,所述服務器具有服務器標識,所述特征信息包括頁面分類信息,所述依據(jù)頁面的特征信息確定對應的目標服務器的步驟包括:按照預置的頁面分類信息與服務器標識的對應關(guān)系,提取當前頁面分類信息對應的服務器標識;將所述服務器標識對應的服務器確定為目標服務器。4.如權(quán)利要求3所述的方法,其中,所述頁面分類信息包括頁面的內(nèi)容分類信息、頁面的類型分類信息、頁面的標簽分類信息和/或頁面的屬性分類信息。5.如權(quán)利要求1或2所述的方法,其中,所述特征信息包括頁面的URL,所述服務器具有數(shù)值標識,所述依據(jù)頁面的特征信息確定對應的服務器標識的步驟包括:采用預設算法將當前檢測頁面的URL轉(zhuǎn)換為數(shù)值;按所述數(shù)值提取對應數(shù)值標識的服務器并將其作為目標服務器。6.如權(quán)利要求1至5中任一項所述的方法,其中,所述黑鏈特征數(shù)據(jù)庫按照下面步驟生成:采用已有的黑鏈特征數(shù)據(jù)搜索包含所述黑鏈特征數(shù)據(jù)的頁面為特征頁面;分析所述黑鏈特征數(shù)據(jù)在特征頁面中的布局,當發(fā)現(xiàn)布局異常時,從該特征頁面中提取包含所述黑鏈特征數(shù)據(jù)的頁面元素;根據(jù)所述頁面元素生成黑鏈規(guī)則,采用所述黑鏈規(guī)則在其它特征頁面中進行匹配,并在匹配的特征頁面中提取新的黑鏈特征數(shù)據(jù);保存所述黑鏈特征數(shù)據(jù)形成黑鏈特征數(shù)據(jù)庫。7.如權(quán)利要求6所述的方法,其中,所述黑鏈特征數(shù)據(jù)包括篡改關(guān)鍵詞和黑鏈URL。8.如權(quán)利要求6所述的方法,其中,所述分析所述黑鏈特征數(shù)據(jù)在特征頁面中的布局進一步包括:判斷所述黑鏈特征數(shù)據(jù)的頁面元素位置是否在預設閾值范圍內(nèi),若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常;和/或,判斷所述黑鏈特征數(shù)據(jù)的頁面元素屬性是否為不可見屬性,若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常;和/或,判斷所述黑鏈特征數(shù)據(jù)的頁面元素屬性是否為對瀏覽器隱藏的屬性,若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常。9.如權(quán)利要求7所述的方法,其中,所述根據(jù)頁面元素生成黑鏈規(guī)則的步驟為:從包含所述篡改關(guān)鍵詞和/或黑鏈URL的頁面元素中,抽象出正則表達式作為黑鏈規(guī)則。10.如權(quán)利要求7所述的方法,其中,還包括:按預設時間間隔更新所述黑鏈特征數(shù)據(jù)庫。11.一種黑鏈數(shù)據(jù)庫生成方法,其包括:采用已有的黑鏈特征數(shù)據(jù)搜索包含所述黑鏈特征數(shù)據(jù)的頁面為特征頁面;分析所述黑鏈特征數(shù)據(jù)在特征頁面中的布局,當發(fā)現(xiàn)布局異常時,從該特征頁面中提取包含所述黑鏈特征數(shù)據(jù)的頁面元素;根據(jù)所述頁面元素生成黑鏈規(guī)則,采用所述黑鏈規(guī)則在其它特征頁面中進行匹配,并在匹配的特征頁面中提取新的黑鏈特征數(shù)據(jù);保存所述黑鏈特征數(shù)據(jù)形成黑鏈特征數(shù)據(jù)庫。12.如權(quán)利要求11所述的方法,其中,所述黑鏈特征數(shù)據(jù)包括篡改關(guān)鍵詞和黑鏈URL。13.如權(quán)利要求12所述的方法,其中,所述分析所述黑鏈特征數(shù)據(jù)在特征頁面中的布局進一步包括:判斷所述黑鏈特征數(shù)據(jù)的頁面元素位置是否在預設閾值范圍內(nèi),若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常;和/或,判斷所述黑鏈特征數(shù)據(jù)的頁面元素屬性是否為不可見屬性,若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常;和/或,判斷所述黑鏈特征數(shù)據(jù)的頁面元素屬性是否為對瀏覽器隱藏的屬性,若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常。14.如權(quán)利要求13所述的方法,其中,所述根據(jù)頁面元素生成黑鏈規(guī)則的步驟為:從包含所述篡改關(guān)鍵詞和/或黑鏈URL的頁面元素中,抽象出正則表達式作為黑鏈規(guī)則。15.如權(quán)利要求11至14中任一項所述的方法,其中,還包括:按預設時間間隔更新所述黑鏈特征數(shù)據(jù)庫。16.-種頁面篡改檢測方法,其包括:獲取當前檢測頁面的URL;采用預設算法將當前檢測頁面的URL轉(zhuǎn)換為數(shù)值;按所述數(shù)值提取具有對應數(shù)值標識的服務器并將其作為目標服務器;采用所述目標服務器中的黑鏈特征數(shù)據(jù)庫與當前檢測頁面進行匹配以判斷當前檢測頁面中是否包含所述黑鏈特征數(shù)據(jù)庫中的黑鏈特征數(shù)據(jù);如果包含,則判定當前頁面為被篡改頁面。17.如權(quán)利要求16所述的方法,其中,所述黑鏈特征數(shù)據(jù)庫部署在多臺服務器上。18.如權(quán)利要求16或17所述的方法,其中,所述黑鏈特征數(shù)據(jù)庫按照下面步驟生成:采用已有的黑鏈特征數(shù)據(jù)搜索包含所述黑鏈特征數(shù)據(jù)的頁面為特征頁面;分析所述黑鏈特征數(shù)據(jù)在特征頁面中的布局,當發(fā)現(xiàn)布局異常時,從該特征頁面中提取包含所述黑鏈特征數(shù)據(jù)的頁面元素;根據(jù)所述頁面元素生成黑鏈規(guī)則,采用所述黑鏈規(guī)則在其它特征頁面中進行匹配,并在匹配的特征頁面中提取新的黑鏈特征數(shù)據(jù);保存所述黑鏈特征數(shù)據(jù)形成黑鏈特征數(shù)據(jù)庫。19.如權(quán)利要求18所述的方法,其中,所述黑鏈特征數(shù)據(jù)包括篡改關(guān)鍵詞和黑鏈URL。20.如權(quán)利要求18所述的方法,其中,所述分析所述黑鏈特征數(shù)據(jù)在特征頁面中的布局進一步包括:判斷所述黑鏈特征數(shù)據(jù)的頁面元素位置是否在預設閾值范圍內(nèi),若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常;和/或,判斷所述黑鏈特征數(shù)據(jù)的頁面元素屬性是否為不可見屬性,若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常;和/或,判斷所述黑鏈特征數(shù)據(jù)的頁面元素屬性是否為對瀏覽器隱藏的屬性,若是,則判定所述黑鏈特征數(shù)據(jù)在特征頁面中的布局異常。21.如權(quán)利要求18所述的方法,其中,所述根據(jù)頁面元素生成黑鏈規(guī)則的步驟為:從包含所述篡改關(guān)鍵詞和/或黑鏈URL的頁面元素中,抽象出正則表達式作為黑鏈規(guī)則。22.如權(quán)利要求16至21中任一項所述的方法,還包括:按預設時間間隔更新所述黑鏈特征數(shù)據(jù)庫?!疚臋n編號】G06F17/30GK104063494SQ201410318946【公開日】2014年9月24日申請日期:2011年12月30日優(yōu)先權(quán)日:2011年12月30日【發(fā)明者】劉起,郭峰申請人:北京奇虎科技有限公司,奇智軟件(北京)有限公司