專利名稱::基于網(wǎng)頁解析的安全掃描方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及計算機網(wǎng)絡(luò)
技術(shù)領(lǐng)域:
,尤其涉及一種基于網(wǎng)頁解析的安全掃描方法及系統(tǒng)。
背景技術(shù):
:隨著互聯(lián)網(wǎng)的高速發(fā)展,圍繞其而產(chǎn)生的各種網(wǎng)頁技術(shù)也層出不窮,但是很多網(wǎng)頁技術(shù)中不可避免的遇到了需要抓存網(wǎng)頁以及網(wǎng)頁內(nèi)嵌的一些資源的問題,如安全掃描技術(shù),這便用到了網(wǎng)頁解析技術(shù)。目前,網(wǎng)頁解析技術(shù)主要有以下兩種:第一種是DOM樹方法:將待解析網(wǎng)頁解析為DOM(DocumentObjectModel,文檔對象模型)樹。從DOM樹的根結(jié)點開始遍歷,識別DOM樹中的正文結(jié)點和垃圾詞結(jié)點,對識別出的正文結(jié)點按網(wǎng)頁的樓層進行劃分。第二種是哈希法比對模板庫方法:為待解析網(wǎng)頁的目錄生成哈希值,根據(jù)生成的哈希值在網(wǎng)頁模板庫中的模板哈希表中查找是否存在該值;若存在,按照該值對應(yīng)的模板對待解析網(wǎng)頁進行解析;若不存在,查找待解析網(wǎng)頁的同類型網(wǎng)頁,利用所有查找到的同類型網(wǎng)頁生成與待解析網(wǎng)頁對應(yīng)的模板,最后利用該模板解析待解析網(wǎng)頁。上述兩種網(wǎng)頁解析方法雖然可實現(xiàn)對網(wǎng)頁內(nèi)容的解析,但都有一定局限性。第一種方法只能解析出網(wǎng)頁的正文內(nèi)容,其余內(nèi)容均被丟棄;第二種方法則需要利用模版,這必然會增加一些限制,并且會降低網(wǎng)頁解析的效率。而現(xiàn)有安全掃描技術(shù),如敏感詞掃描、掛馬掃描等,一般通過數(shù)據(jù)訪問接口獲取全部的網(wǎng)頁源碼,根據(jù)檢測規(guī)則對全部的網(wǎng)頁源碼做匹配檢測。實際上,在做敏感詞掃描時,一般只對網(wǎng)頁中需要顯示出來的內(nèi)容感興趣,而對源碼中其他數(shù)據(jù),如一些不被顯示的標簽數(shù)據(jù)不感興趣;在做掛馬掃描時,源碼中并非所有的標簽都存在掛馬的風險,而只對存在掛馬風險的內(nèi)容感興趣,其余內(nèi)容是完全可忽視的。若按現(xiàn)有技術(shù)進行安全檢測,則需要處理很多無意義的數(shù)據(jù),這會大大減低安全掃描的效率。綜上可知,現(xiàn)有基于網(wǎng)頁解析的安全掃描技術(shù),在實際使用上顯然存在不便與缺陷,所以有必要加以改進。
發(fā)明內(nèi)容針對上述的缺陷,本發(fā)明的目的在于提供一種基于網(wǎng)頁解析的安全掃描方法及系統(tǒng),其將網(wǎng)頁源碼分解為不同類別的解析結(jié)果,然后針對性地分別對這些不同類別的解析結(jié)果進行存儲和安全掃描,最大程度上避免了處理無意義的數(shù)據(jù)的問題,從而大大提高了安全掃描的效率。為了實現(xiàn)上述目的,本發(fā)明提供一種基于網(wǎng)頁解析的安全掃描方法,包括步驟有:解析步驟,通過預(yù)定的第一正則表達式將網(wǎng)頁的網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽;存儲步驟,分別存儲所述網(wǎng)頁正文和所述網(wǎng)頁標簽;安全掃描步驟,分別對所述網(wǎng)頁正文和所述網(wǎng)頁標簽進行安全掃描處理。根據(jù)本發(fā)明所述的安全掃描方法,所述解析步驟包括:通過所述第一正則表達式將所述網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽;通過預(yù)定的第二正則表達式,從所述網(wǎng)頁標簽中解析出與掛馬風險相關(guān)的第一網(wǎng)頁標簽;所述存儲步驟包括:將所述網(wǎng)頁正文單獨進行存儲;將所述第一網(wǎng)頁標簽單獨進行存儲;所述安全掃描步驟包括:對所述網(wǎng)頁正文進行敏感詞查找和/或信息檢索;對所述第一網(wǎng)頁標簽進行掛馬檢測。根據(jù)本發(fā)明所述的安全掃描方法,所述安全掃描步驟之前還包括:統(tǒng)計所述第一網(wǎng)頁標簽的數(shù)量;所述對第一網(wǎng)頁標簽進行掛馬檢測的步驟包括:判斷當前所述第一網(wǎng)頁標簽的數(shù)量與上一次安全掃描時的所述第一網(wǎng)頁標簽的數(shù)量是否相同;若相同,則對所述第一網(wǎng)頁標簽進行正常掛馬檢測;若不相同,則對所述第一網(wǎng)頁標簽進行重點掛馬檢測。根據(jù)本發(fā)明所述的安全掃描方法,所述解析步驟還包括:通過預(yù)定的第三正則表達式,從所述網(wǎng)頁標簽中解析出與網(wǎng)頁布局相關(guān)的第二網(wǎng)頁標簽;所述存儲步驟還包括:將所述第二網(wǎng)頁標簽單獨進行存儲;所述安全掃描步驟還包括:對所述第二網(wǎng)頁標簽進行布局檢測。根據(jù)本發(fā)明所述的安全掃描方法,所述安全掃描步驟之前還包括:統(tǒng)計所述第二網(wǎng)頁標簽的數(shù)量;所述對第二網(wǎng)頁標簽進行布局檢測的步驟包括:判斷當前所述第二網(wǎng)頁標簽的數(shù)量與上一次安全掃描時的所述第二網(wǎng)頁標簽的數(shù)量是否相同;若不相同,則對所述第二網(wǎng)頁標簽進行布局檢測。本發(fā)明還提供一種基于網(wǎng)頁解析的安全掃描系統(tǒng),包括有:解析模塊,用于通過預(yù)定的第一正則表達式將網(wǎng)頁的網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽;存儲模塊,用于分別存儲所述網(wǎng)頁正文和所述網(wǎng)頁標簽;安全掃描模塊,用于分別對所述網(wǎng)頁正文和所述網(wǎng)頁標簽進行安全掃描處理。根據(jù)本發(fā)明所述的安全掃描系統(tǒng),所述解析模塊包括:第一解析子模塊,用于通過所述第一正則表達式將所述網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽;第二解析子模塊,用于通過預(yù)定的第二正則表達式,從所述網(wǎng)頁標簽中解析出與掛馬風險相關(guān)的第一網(wǎng)頁標簽;所述存儲模塊包括:第一存儲子模塊,用于將所述網(wǎng)頁正文單獨進行存儲;第二存儲子模塊,用于將所述第一網(wǎng)頁標簽單獨進行存儲;所述安全掃描模塊包括:第一安全掃描子模塊,用于對所述網(wǎng)頁正文進行敏感詞查找和/或信息檢索;第二安全掃描子模塊,用于對所述第一網(wǎng)頁標簽進行掛馬檢測。根據(jù)本發(fā)明所述的安全掃描系統(tǒng),還包括:第一統(tǒng)計模塊,用于在所述安全掃描模塊進行安全掃描處理之前統(tǒng)計所述第一網(wǎng)頁標簽的數(shù)量;所述第二安全掃描子模塊還用于判斷當前所述第一網(wǎng)頁標簽的數(shù)量與上一次安全掃描時的所述第一網(wǎng)頁標簽的數(shù)量是否相同;若相同,則對所述第一網(wǎng)頁標簽進行正常掛馬檢測;若不相同,則對所述第一網(wǎng)頁標簽進行重點掛馬檢測。根據(jù)本發(fā)明所述的安全掃描系統(tǒng),所述解析模塊還包括:第三解析子模塊,用于通過預(yù)定的第三正則表達式,從所述網(wǎng)頁標簽中解析出與網(wǎng)頁布局相關(guān)的第二網(wǎng)頁標簽;所述存儲模塊還包括:第三存儲子模塊,用于將所述第二網(wǎng)頁標簽單獨進行存儲;所述安全掃描模塊還包括:第三安全掃描子模塊,用于對所述第二網(wǎng)頁標簽進行布局檢測。根據(jù)本發(fā)明所述的安全掃描系統(tǒng),還包括:第二統(tǒng)計模塊,用于在所述安全掃描模塊進行安全掃描處理之前統(tǒng)計所述第二網(wǎng)頁標簽的數(shù)量;所述第三安全掃描子模塊還用于判斷當前所述第二網(wǎng)頁標簽的數(shù)量與上一次安全掃描時的所述第二網(wǎng)頁標簽的數(shù)量是否相同;若不相同,則對所述第二網(wǎng)頁標簽進行布局檢測。本發(fā)明采用分解思想構(gòu)造特定的網(wǎng)頁解析規(guī)則,然后將其應(yīng)用于安全掃描中。具體是通過第一正則表達式將網(wǎng)頁的網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽并分別進行存儲,然后分別對所述網(wǎng)頁正文和網(wǎng)頁標簽進行安全掃描處理。更好的是,通過預(yù)定的第二正則表達式和/或第三正則表達式,從所述網(wǎng)頁標簽中解析出與掛馬風險相關(guān)的第一網(wǎng)頁標簽和/或與網(wǎng)頁布局相關(guān)的第二網(wǎng)頁標簽,然后對第一網(wǎng)頁標簽進行掛馬檢測和/或?qū)Φ诙W(wǎng)頁標簽進行布局檢測。借此,本發(fā)明將網(wǎng)頁源碼分解為不同類別的解析結(jié)果,然后針對性地分別對這些不同類別的解析結(jié)果進行存儲和安全掃描,最大程度上避免了處理無意義的數(shù)據(jù)的問題,從而大大提高了安全掃描的效率。圖1是本發(fā)明基于網(wǎng)頁解析的安全掃描系統(tǒng)的結(jié)構(gòu)示意圖;圖2是本發(fā)明優(yōu)選基于網(wǎng)頁解析的安全掃描系統(tǒng)的結(jié)構(gòu)示意圖3是本發(fā)明優(yōu)選基于網(wǎng)頁解析的安全掃描系統(tǒng)的工作原理圖4是本發(fā)明基于網(wǎng)頁解析的安全掃描方法的流程圖;以及圖5是本發(fā)明優(yōu)選基于網(wǎng)頁解析的安全掃描方法的流程圖。具體實施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。圖1是本發(fā)明基于網(wǎng)頁解析的安全掃描系統(tǒng)的結(jié)構(gòu)示意圖,所述安全掃描系統(tǒng)100包括有解析模塊10、存儲模塊20以及安全掃描模塊30,其中:所述解析模塊10,用于通過預(yù)定的第一正則表達式將網(wǎng)頁的網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽。首先可通過HTTP(HyperTextTransferProtocol,超文件傳輸協(xié)議)、Socket(套接字)等請求獲取一個URL(UniformResoureLocator:統(tǒng)一資源定位符)網(wǎng)頁全部的網(wǎng)頁源碼,然后通過第一正則表達式對網(wǎng)頁源碼進行解析。優(yōu)選的是,按網(wǎng)頁正文的規(guī)則設(shè)置第一正則表達式,通過第一正則表達式從完整的網(wǎng)頁源碼中解析出網(wǎng)頁正文,所述網(wǎng)頁源碼的其他內(nèi)容即為網(wǎng)頁標簽。所述網(wǎng)頁正文為網(wǎng)頁中會顯示的內(nèi)容部分,所述網(wǎng)頁標簽則是網(wǎng)頁中不會顯示的內(nèi)容部分,所述網(wǎng)頁標簽包括標題標簽(TitleTag)、描述標簽(DescriptionTag)、關(guān)鍵詞標簽(KeywordsTag)等。所述存儲模塊20,用于分別存儲網(wǎng)頁正文和網(wǎng)頁標簽,以分別保存為兩個解析結(jié)果O所述安全掃描模塊30,用于分別對網(wǎng)頁正文和網(wǎng)頁標簽進行安全掃描處理。優(yōu)選的是,對網(wǎng)頁正文進行敏感詞查找和/或信息檢索等,對網(wǎng)頁標簽進行掛馬檢測或布局檢測等。所述基于網(wǎng)頁解析的安全掃描系統(tǒng)100可以是內(nèi)置于信息處理終端的軟件單元,硬件單元或軟硬件結(jié)合單元。所述信息處理終端可以是電腦、手機、PDA(PersonalDigitalAssistant,個人數(shù)字助理)、平板電腦等。圖2是本發(fā)明優(yōu)選基于網(wǎng)頁解析的安全掃描系統(tǒng)的結(jié)構(gòu)示意圖,所述安全掃描系統(tǒng)100包括有解析模塊10、存儲模塊20以及安全掃描模塊30,其中:所述解析模塊10進一步包括:第一解析子模塊11,用于通過第一正則表達式將網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽。優(yōu)選的是,按網(wǎng)頁正文的規(guī)則設(shè)置第一正則表達式,通過第一正則表達式從完整的網(wǎng)頁源碼中解析出網(wǎng)頁正文,所述網(wǎng)頁源碼的其他內(nèi)容即為網(wǎng)頁標簽。所述網(wǎng)頁正文為網(wǎng)頁中會顯示的內(nèi)容部分,所述網(wǎng)頁標簽則是網(wǎng)頁中不會顯示的內(nèi)容部分。第二解析子模塊12,用于通過預(yù)定的第二正則表達式,從所述網(wǎng)頁標簽中進一步解析出與掛馬風險相關(guān)的第一網(wǎng)頁標簽(如<iframesrc=、〈ahref=等)。優(yōu)選的是,按照掛馬相關(guān)標簽的規(guī)則構(gòu)造第二正則表達式。第三解析子模塊13,用于通過預(yù)定的第三正則表達式,從所述網(wǎng)頁標簽中進一步解析出與網(wǎng)頁布局相關(guān)的第二網(wǎng)頁標簽(如table、tr、td等)。優(yōu)選的是,按照布局相關(guān)標簽的規(guī)則設(shè)置第三正則表達式。所述存儲模塊20進一步包括:第一存儲子模塊21,用于將網(wǎng)頁正文單獨進行存儲,以保存為第一解析結(jié)果。第二存儲子模塊22,用于將第一網(wǎng)頁標簽單獨進行存儲,以保存為第二解析結(jié)果。第三存儲子模塊23,用于將第二網(wǎng)頁標簽單獨進行存儲,以保存為第三解析結(jié)果。所述安全掃描模塊30進一步包括:第一安全掃描子模塊31,用于對網(wǎng)頁正文進行敏感詞查找和/或信息檢索。第二安全掃描子模塊32,用于對第一網(wǎng)頁標簽進行掛馬檢測。優(yōu)選的是,通過掛馬的特征校驗信息與第一網(wǎng)頁標簽進行比對檢測,判斷第一網(wǎng)頁標簽中是否存在掛馬信息。第三安全掃描子模塊33,用于對第二網(wǎng)頁標簽進行布局檢測。優(yōu)選的是,所述安全掃描系統(tǒng)100還包括:第一統(tǒng)計模塊40,用于在安全掃描模塊30進行安全掃描處理之前統(tǒng)計第一網(wǎng)頁標簽的數(shù)量。所述第二安全掃描子模塊32還用于判斷當前第一網(wǎng)頁標簽的數(shù)量與上一次安全掃描時的第一網(wǎng)頁標簽的數(shù)量是否相同。若相同,則對第一網(wǎng)頁標簽進行正常掛馬檢測。若不相同,則對第一網(wǎng)頁標簽進行重點掛馬檢測。對于掛馬檢測部分,若發(fā)現(xiàn)標簽數(shù)量發(fā)生變化,則會重點檢測該頁面,可提高掛馬檢測的準確性。更好的是,所述安全掃描系統(tǒng)100還包括:第二統(tǒng)計模塊50,用于在安全掃描模塊30進行安全掃描處理之前統(tǒng)計第二網(wǎng)頁標簽的數(shù)量。所述第三安全掃描子模塊33還用于判斷當前第二網(wǎng)頁標簽的數(shù)量與上一次安全掃描時的第二網(wǎng)頁標簽的數(shù)量是否相同。若不相同,則對第二網(wǎng)頁標簽進行布局檢測,否則不進行布局檢測。在進行布局檢測之前只需用當前標簽數(shù)量對比前一次掃描信息確定是否網(wǎng)頁變更,如果標簽數(shù)量不對等,則頁面被修改。這樣就可省去匹配操作,從而在很大程度上提高掃描效率。為了更快更好的解決安全掃描中網(wǎng)頁信息的解析問題,本發(fā)明采用分解思想,構(gòu)造特定的解析規(guī)則,利用正則匹配方法,將一個龐大的整體內(nèi)容,分解成不同的小模塊,逐一進行分析處理,并且分解出的每一個小模塊都可單獨使用,從而大大提高了安全掃描的執(zhí)行效率。圖3是本發(fā)明優(yōu)選基于網(wǎng)頁解析的安全掃描系統(tǒng)的工作原理圖,首先通過Http,Socket等請求獲取一個URL網(wǎng)頁全部網(wǎng)頁源碼,利用正則匹配的方式,對整個網(wǎng)頁源碼進行解析,根據(jù)不同的需求分解出不同的解析結(jié)果,并分類別進行儲存和安全掃描,優(yōu)選用到的幾種解析實現(xiàn)方案如下:先寫一個剝離解析網(wǎng)頁正文和網(wǎng)頁標簽的第一正則表達式,將網(wǎng)頁正文和網(wǎng)頁標簽分割開,將網(wǎng)頁正文信息采用物理或其它方式進行存儲,此為第一解析結(jié)果部分。然后對網(wǎng)頁標簽進行剝離處理,寫一個可獲取與網(wǎng)頁掛馬內(nèi)容相關(guān)標簽的第二正則表達式,只獲取具有掛馬風險的第一網(wǎng)頁標簽的內(nèi)容信息(如〈iframesrc=、〈ahref=等)進行存儲,此為第二解析結(jié)果部分。再寫一個可獲取網(wǎng)頁布局相關(guān)標簽的第三正則表達式,在剝離的網(wǎng)頁標簽中提取出和網(wǎng)頁布局相關(guān)的第二標簽的內(nèi)容信息(如table、tr、td等)進行存儲,此為第三解析結(jié)果部分。所述第一解析結(jié)果部分,網(wǎng)頁正文信息,可進行對敏感詞的查找和信息的篩選做預(yù)前處理,解析的思路和方式很多,敏感詞查找和信息檢索可利用中文分詞技術(shù)實現(xiàn)。所述第二解析結(jié)果部分,可進行掛馬的特征校驗信息可和第二部分獲取的標簽內(nèi)容進行比對檢測。所述第三解析結(jié)果部分,可對判斷網(wǎng)頁布局的變化打下基礎(chǔ)。上述第一解析結(jié)果部分和第二解析結(jié)果部分中在某種程度上存在著重疊現(xiàn)象,但它們分別存儲,因此對用戶的需求判斷不存在沖突問題。以上解析結(jié)果部分可同時存在,滿足用戶的多方面需求,也可只拿出某一個解析結(jié)果部分作為一個功能點,滿足用戶的單方面需求。除此之外,根據(jù)不同的需求還可重新構(gòu)造匹配規(guī)則,再次細分各個解析模塊,滿足其他的功能。更好的是,對于第二解析結(jié)果部分和第三解析結(jié)果部分,還將統(tǒng)計解析出的標簽數(shù)量。在進行布局檢測之前只需用當前標簽數(shù)量對比前一次掃描信息確定是否網(wǎng)頁變更,如果標簽數(shù)量不對等,則頁面被修改。這樣就可省去匹配操作,很大程度提高掃描效率。而掛馬檢測部分,若發(fā)現(xiàn)標簽數(shù)量發(fā)生變化,則會重點檢測該頁面,可提高掛馬檢測的準確性。圖4是本發(fā)明基于網(wǎng)頁解析的安全掃描方法的流程圖,其可以通過如圖1或圖2所示的安全掃描系統(tǒng)100實現(xiàn),包括步驟有:步驟S401,解析步驟,通過預(yù)定的第一正則表達式將網(wǎng)頁的網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽。首先可通過HTTP、Socket等請求獲取一個URL網(wǎng)頁全部的網(wǎng)頁源碼,然后通過第一正則表達式對網(wǎng)頁源碼進行解析。優(yōu)選的是,按網(wǎng)頁正文的規(guī)則設(shè)置第一正則表達式,通過第一正則表達式從完整的網(wǎng)頁源碼中解析出網(wǎng)頁正文,所述網(wǎng)頁源碼的其他內(nèi)容即為網(wǎng)頁標簽。所述網(wǎng)頁正文為網(wǎng)頁中會顯示的內(nèi)容部分,所述網(wǎng)頁標簽則是網(wǎng)頁中不會顯示的內(nèi)容部分,所述網(wǎng)頁標簽包括標題標簽、描述標簽、關(guān)鍵詞標簽等。步驟S402,存儲步驟,分別存儲網(wǎng)頁正文和網(wǎng)頁標簽,以分別保存為兩個解析結(jié)果O步驟S403,安全掃描步驟,分別對網(wǎng)頁正文和網(wǎng)頁標簽進行安全掃描處理。優(yōu)選的是,對網(wǎng)頁正文進行敏感詞查找和/或信息檢索等,對網(wǎng)頁標簽進行掛馬檢測或布局檢測坐寸ο本發(fā)明涉及網(wǎng)頁解析方法及其在安全掃描中的應(yīng)用,采用分模塊的解析處理思想,將大化小,各盡其責,在每個小的模塊中比對檢索和檢測所需信息,大大的提高了解析效率和比對的差錯率。根據(jù)這種將大化小的思想,擴展思維還可在頁面解析中分出其它的小功能點出來,滿足用戶的其它需求。圖5是本發(fā)明優(yōu)選基于網(wǎng)頁解析的安全掃描方法的流程圖,其可以通過如圖2所示的安全掃描系統(tǒng)100實現(xiàn),包括步驟有:步驟S501,對網(wǎng)頁源碼進行解析。具體的是,通過第一正則表達式將網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽。步驟S502,通過第一正則表達式將網(wǎng)頁源碼解析為網(wǎng)頁正文。步驟S503,將網(wǎng)頁正文單獨進行存儲,以保存為第一解析結(jié)果。步驟S504,對網(wǎng)頁正文進行敏感詞查找和/或信息檢索。步驟S505,通過預(yù)定的第二正則表達式,從所述網(wǎng)頁標簽中進一步解析出與掛馬風險相關(guān)的第一網(wǎng)頁標簽(如〈iframesrc=、〈ahref=等)。優(yōu)選的是,按掛馬相關(guān)標簽的規(guī)則構(gòu)造第二正則表達式。步驟S506,將第一網(wǎng)頁標簽單獨進行存儲,以保存為第二解析結(jié)果。步驟S507,對第一網(wǎng)頁標簽進行掛馬檢測。優(yōu)選的是,通過掛馬的特征校驗信息與第一網(wǎng)頁標簽進行比對檢測,判斷第一網(wǎng)頁標簽中是否存在掛馬信息。所述步驟S507步驟之前還可包括:統(tǒng)計第一網(wǎng)頁標簽的數(shù)量。所述步驟S507優(yōu)選為判斷當前第一網(wǎng)頁標簽的數(shù)量與上一次安全掃描時的第一網(wǎng)頁標簽的數(shù)量是否相同;若相同,則對第一網(wǎng)頁標簽進行正常掛馬檢測;若不相同,則對第一網(wǎng)頁標簽進行重點掛馬檢測。步驟S508,通過預(yù)定的第三正則表達式,從所述網(wǎng)頁標簽中進一步解析出與網(wǎng)頁布局相關(guān)的第二網(wǎng)頁標簽(如table、tr、td等)。優(yōu)選的是,按照布局相關(guān)標簽的規(guī)則設(shè)置第三正則表達式。步驟S509,將第二網(wǎng)頁標簽單獨進行存儲,以保存為第三解析結(jié)果。步驟S510,對第二網(wǎng)頁標簽進行布局檢測。所述步驟S510之前還可包括:統(tǒng)計第二網(wǎng)頁標簽的數(shù)量。所述步驟S510優(yōu)選為判斷當前第二網(wǎng)頁標簽的數(shù)量與上一次安全掃描時的第二網(wǎng)頁標簽的數(shù)量是否相同;若不相同,則對第二網(wǎng)頁標簽進行布局檢測,否則不對第二網(wǎng)頁標簽進行布局檢測。綜上所述,本發(fā)明采用分解思想構(gòu)造特定的網(wǎng)頁解析規(guī)則,然后將其應(yīng)用于安全掃描中。具體是通過第一正則表達式將網(wǎng)頁的網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽并分別進行存儲,然后分別對所述網(wǎng)頁正文和網(wǎng)頁標簽進行安全掃描處理。更好的是,通過預(yù)定的第二正則表達式和/或第三正則表達式,從所述網(wǎng)頁標簽中解析出與掛馬風險相關(guān)的第一網(wǎng)頁標簽和/或與網(wǎng)頁布局相關(guān)的第二網(wǎng)頁標簽,然后對第一網(wǎng)頁標簽進行掛馬檢測和/或?qū)Φ诙W(wǎng)頁標簽進行布局檢測。借此,本發(fā)明將網(wǎng)頁源碼分解為不同類別的解析結(jié)果,然后針對性地分別對這些不同類別的解析結(jié)果進行存儲和安全掃描,最大程度上避免了處理無意義的數(shù)據(jù)的問題,從而大大提高了安全掃描的效率。當然,本發(fā)明還可有其它多種實施例,在不背離本發(fā)明精神及其實質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護范圍。權(quán)利要求1.一種基于網(wǎng)頁解析的安全掃描方法,其特征在于,包括步驟有:解析步驟,通過預(yù)定的第一正則表達式將網(wǎng)頁的網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽;存儲步驟,分別存儲所述網(wǎng)頁正文和所述網(wǎng)頁標簽;安全掃描步驟,分別對所述網(wǎng)頁正文和所述網(wǎng)頁標簽進行安全掃描處理。2.根據(jù)權(quán)利要求1所述的安全掃描方法,其特征在于,所述解析步驟包括:通過所述第一正則表達式將所述網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽;通過預(yù)定的第二正則表達式,從所述網(wǎng)頁標簽中解析出與掛馬風險相關(guān)的第一網(wǎng)頁標簽;所述存儲步驟包括:將所述網(wǎng)頁正文單獨進行存儲;將所述第一網(wǎng)頁標簽單獨進行存儲;所述安全掃描步驟包括:對所述網(wǎng)頁正文進行敏感詞查找和/或信息檢索;對所述第一網(wǎng)頁標簽進行掛馬檢測。3.根據(jù)權(quán)利要求2所述的安全掃描方法,其特征在于,所述安全掃描步驟之前還包括:統(tǒng)計所述第一網(wǎng)頁標簽的數(shù)量;所述對第一網(wǎng)頁標簽進行掛馬檢測的步驟包括:判斷當前所述第一網(wǎng)頁標簽的數(shù)量與上一次安全掃描時的所述第一網(wǎng)頁標簽的數(shù)量是否相同;若相同,則對所述第一網(wǎng)頁標簽進行正常掛馬檢測;若不相同,則對所述第一網(wǎng)頁標簽進行重點掛馬檢測。4.根據(jù)權(quán)利要求f3任一項所述的安全掃描方法,其特征在于,所述解析步驟還包括:通過預(yù)定的第三正則表達式,從所述網(wǎng)頁標簽中解析出與網(wǎng)頁布局相關(guān)的第二網(wǎng)頁標簽;所述存儲步驟還包括:將所述第二網(wǎng)頁標簽單獨進行存儲;所述安全掃描步驟還包括:對所述第二網(wǎng)頁標簽進行布局檢測。5.根據(jù)權(quán)利要求4所述的安全掃描方法,其特征在于,所述安全掃描步驟之前還包括:統(tǒng)計所述第二網(wǎng)頁標簽的數(shù)量;所述對第二網(wǎng)頁標簽進行布局檢測的步驟包括:判斷當前所述第二網(wǎng)頁標簽的數(shù)量與上一次安全掃描時的所述第二網(wǎng)頁標簽的數(shù)量是否相同;若不相同,則對所述第二網(wǎng)頁標簽進行布局檢測。6.一種基于網(wǎng)頁解析的安全掃描系統(tǒng),其特征在于,包括有:解析模塊,用于通過預(yù)定的第一正則表達式將網(wǎng)頁的網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽;存儲模塊,用于分別存儲所述網(wǎng)頁正文和所述網(wǎng)頁標簽;安全掃描模塊,用于分別對所述網(wǎng)頁正文和所述網(wǎng)頁標簽進行安全掃描處理。7.根據(jù)權(quán)利要求6所述的安全掃描系統(tǒng),其特征在于,所述解析模塊包括:第一解析子模塊,用于通過所述第一正則表達式將所述網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽;第二解析子模塊,用于通過預(yù)定的第二正則表達式,從所述網(wǎng)頁標簽中解析出與掛馬風險相關(guān)的第一網(wǎng)頁標簽;所述存儲模塊包括:第一存儲子模塊,用于將所述網(wǎng)頁正文單獨進行存儲;第二存儲子模塊,用于將所述第一網(wǎng)頁標簽單獨進行存儲;所述安全掃描模塊包括:第一安全掃描子模塊,用于對所述網(wǎng)頁正文進行敏感詞查找和/或信息檢索;第二安全掃描子模塊,用于對所述第一網(wǎng)頁標簽進行掛馬檢測。8.根據(jù)權(quán)利要求7所述的安全掃描系統(tǒng),其特征在于,還包括:第一統(tǒng)計模塊,用于在所述安全掃描模塊進行安全掃描處理之前統(tǒng)計所述第一網(wǎng)頁標簽的數(shù)量;所述第二安全掃描子模塊還用于判斷當前所述第一網(wǎng)頁標簽的數(shù)量與上一次安全掃描時的所述第一網(wǎng)頁標簽的數(shù)量是否相同;若相同,則對所述第一網(wǎng)頁標簽進行正常掛馬檢測;若不相同,則對所述第一網(wǎng)頁標簽進行重點掛馬檢測。9.根據(jù)權(quán)利要求61任一項所述的安全掃描系統(tǒng),其特征在于,所述解析模塊還包括:第三解析子模塊,用于通過預(yù)定的第三正則表達式,從所述網(wǎng)頁標簽中解析出與網(wǎng)頁布局相關(guān)的第二網(wǎng)頁標簽;所述存儲模塊還包括:第三存儲子模塊,用于將所述第二網(wǎng)頁標簽單獨進行存儲;所述安全掃描模塊還包括:第三安全掃描子模塊,用于對所述第二網(wǎng)頁標簽進行布局檢測。10.根據(jù)權(quán)利要求9所述的安全掃描系統(tǒng),其特征在于,還包括:第二統(tǒng)計模塊,用于在所述安全掃描模塊進行安全掃描處理之前統(tǒng)計所述第二網(wǎng)頁標簽的數(shù)量;所述第三安全掃描子模塊還用于判斷當前所述第二網(wǎng)頁標簽的數(shù)量與上一次安全掃描時的所述第二網(wǎng)頁標簽的數(shù)量是否相同;若不相同,則對所述第二網(wǎng)頁標簽進行布局檢測。全文摘要本發(fā)明適用于計算機網(wǎng)絡(luò)
技術(shù)領(lǐng)域:
,提供了一種基于網(wǎng)頁解析的安全掃描方法及系統(tǒng),所述包括步驟有解析步驟,通過預(yù)定的第一正則表達式將網(wǎng)頁的網(wǎng)頁源碼解析為網(wǎng)頁正文和網(wǎng)頁標簽;存儲步驟,分別存儲所述網(wǎng)頁正文和所述網(wǎng)頁標簽;安全掃描步驟,分別對所述網(wǎng)頁正文和所述網(wǎng)頁標簽進行安全掃描處理。借此,本發(fā)明將網(wǎng)頁源碼分解為不同類別的解析結(jié)果,然后針對性地分別對這些不同類別的解析結(jié)果進行存儲和安全掃描,最大程度上避免了處理無意義的數(shù)據(jù)的問題,從而大大提高了安全掃描的效率。文檔編號H04L29/06GK103118028SQ20131004928公開日2013年5月22日申請日期2013年2月7日優(yōu)先權(quán)日2013年2月7日發(fā)明者曾洪偉申請人:上海上訊信息技術(shù)有限公司