亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

分析網(wǎng)絡內容的系統(tǒng)和方法

文檔序號:6455440閱讀:159來源:國知局
專利名稱:分析網(wǎng)絡內容的系統(tǒng)和方法
技術領域
本申請案涉及數(shù)據(jù)和應用程序安全性。確切地說,本申請案揭示收集和挖掘數(shù)據(jù)以 確定數(shù)據(jù)是否包含惡意內容的系統(tǒng)方法。
背景技術
傳統(tǒng)十.,計算機病毒和其它惡意內容最經常通過將受感染的磁盤或某種其它物理媒 體插入計算機而被提供到客戶端計算機。隨著電子郵件和因特網(wǎng)的使用增加,電子郵件 附件攻擊變?yōu)橛糜谙蛴嬎銠C分布病毒代碼的普遍方法。為了用這些類型的具有惡意內容 的病毒感染計算機,通常需要用戶的某種同意動作,例如打開受感染的文件附件或從網(wǎng) 站下載受感染的文件并在用戶的計算機上啟動所述文件。隨著時間的過去,反病毒軟件 制作者開發(fā)出日益有效的程序,所述程序經設計以掃描文件并在其有機會感染客戶端計 算機之前將其消毒。因此,計算機黑客不得不創(chuàng)造更聰明且創(chuàng)新的方法來用其惡意代碼 感染計算機。
在當今的日漸聯(lián)網(wǎng)的數(shù)字世界,正開發(fā)分布式應用程序以在開放的、合作的聯(lián)網(wǎng)環(huán) 境中向用戶提供越來越多的功能性。盡管這些應用程序較有力且復雜,但其增加的功能 性要求網(wǎng)絡服務器以更集成的方式與客戶端計算機交互。舉例來說,在先前網(wǎng)絡應用程 序主要向客戶端瀏覽器提供HTML內容并經由HTTP郵遞命令從客戶端接收回數(shù)據(jù)的情 況下,許多新的網(wǎng)絡應用程序經配置以向客戶端計算機發(fā)送各種形式的內容,其引起在 較新的網(wǎng)絡瀏覽器的增強特征內啟動應用程序。舉例來說,許多基于網(wǎng)絡的應用程序現(xiàn) 在利用活動-X (Active-X)控件,其必須下載到客戶端計算機以使得其可被有效地利用。 在特定例子中Java小程序(Java applet)、 VB腳本(VBScript)和Java腳本(JavaScript) 命令也有能力修改客戶端計算機文件。
這些功能性增加所帶來的便利也有代價。較新的網(wǎng)絡應用程序和內容顯然比先前的 應用程序環(huán)境更有力。因此,其還為將惡意代碼下載到客戶端計算機提供了機會。另外, 隨著操作系統(tǒng)和網(wǎng)絡瀏覽應用程序的復雜性增加,更難以識別可能會允許黑客將惡意代碼傳送到客戶端計算機的安全性弱點。盡管瀏覽器和操作系統(tǒng)廠商通常會發(fā)布軟件更新 以補救這些弱點,但許多用戶尚未配置其計算機以下載這些更新。因此,黑客已開始編 寫利用這些弱點以將其本身下載到用戶的機器而不用依賴于用戶的任何特定活動(例如 啟動受感染的文件)的惡意代碼和應用程序。此攻擊的一個實例是使用嵌入在網(wǎng)站上的 活動內容對象的惡意代碼。如果惡意代碼已經配置以利用網(wǎng)絡瀏覽器中的弱點,那么用 戶可能僅僅因為訪問過所述頁面就會被惡意代碼感染或損害,因為所述頁面中的內容將 在用戶的計算機上執(zhí)行。
解決嵌入內容中的惡意代碼的問題的一種嘗試是利用網(wǎng)絡瀏覽器上的升高的安全性 設定。然而在許多公司環(huán)境中,內部網(wǎng)或外部網(wǎng)應用程序經配置而向客戶端計算機發(fā)送 可執(zhí)行內容。將瀏覽器設定設定為高安全性等級往往會妨礙或阻礙對這些類型的"安全" 應用程序的有效使用。解決問題的另一嘗試是使用網(wǎng)絡防火墻應用程序來阻止所有可執(zhí) 行內容。此強力方法在許多環(huán)境中也是低效的,因為為了讓軟件正確地起作用,有必要 對特定類型內容進行選擇性存取。
需要一種允許檢測惡意網(wǎng)絡內容而不會損害用戶功能性的系統(tǒng)和方法。此外,需要 一種可檢測可執(zhí)行內容并快速識別和歸類其行為,且以最小延遲向大量客戶端計算機提 供針對惡意內容的保護的系統(tǒng)。

發(fā)明內容
本發(fā)明的系統(tǒng)、方法和裝置每一者均具有若干方面,其中任何單個--個方面均不唯 一-負責其所需的屬性?,F(xiàn)在將簡要論述本發(fā)明的若干特征,但并不限制本發(fā)明的范圍。
在 一 個實施例中,提供 一 種識別網(wǎng)絡內容中的不適當內容的計算機實施的方法。所 述方法包含接收針對網(wǎng)絡內容的請求。將所請求的網(wǎng)絡內容與數(shù)據(jù)庫中的數(shù)據(jù)進行比較。 如果所請求的內容不在數(shù)據(jù)庫中,則將其發(fā)送到收集與所請求內容相關的數(shù)據(jù)的收集模 塊。基于所收集數(shù)據(jù),確定URL的候選狀態(tài)。
在另一實施例中,提供一種用于從一組未經歸類URL中識別候選URL的系統(tǒng)。所 述系統(tǒng)可包含經配置以存儲未經歸類URL的URL數(shù)據(jù)庫,以及經配置以收集關于未經 歸類URL的包含與未經歸類URL相關的數(shù)據(jù)的信息的收集系統(tǒng)。收集系統(tǒng)可包含數(shù)據(jù) 挖掘模塊,其經配置以識別具有指示目標內容的特性的未經歸類URL。
在又-一實施例中,提供一種收集關于URL的數(shù)據(jù)的計算機實施的方法。所述方法包 含提供具有配置插件的數(shù)據(jù)挖掘模塊。所述數(shù)據(jù)挖掘模塊可具有經配置以彼此獨立操作 的多個調度程序。數(shù)據(jù)挖掘模塊接收URL數(shù)據(jù)用于分析,并將URL數(shù)據(jù)分離為URL串的工作單元。所述方法進一步用于確定所述多個調度程序中是否有一者可用于接收工作 單元,且如果調度程序中的一者可用則將URL發(fā)送到所述調度程序。
在又一實施例中,提供一種收集關于URL的數(shù)據(jù)的系統(tǒng)。所述系統(tǒng)可包含用于存儲 關于URL的信息的數(shù)據(jù)庫。所述系統(tǒng)還可包含調度程序庫,所述調度程序包含異步系統(tǒng) 過程,每一異步系統(tǒng)過程經配置以接收URL數(shù)據(jù)輸入且對數(shù)據(jù)執(zhí)行動作。所述系統(tǒng)還可 包含驅動程序模塊,其經配置監(jiān)視所述調度程序庫以查找可用的調度程序,且將所述URL 數(shù)據(jù)輸入的一部分發(fā)送到所述可用的調度程序。
在又一實施例中, 一種用于從一組未經歸類URL中識別候選URL的系統(tǒng)包含用于 存儲未經歸類URL的構件,用于收集與未經歸類URL相關的信息的構件,以及用于識 別具有指示目標內容的特性的未經歸類URL的構件。


在本描述內容中參看附圖,其中始終以相同標號指代相同部分。 圖1是根據(jù)本發(fā)明方面的系統(tǒng)的各種組件的方框圖。 圖2是來自圖1的工作站模塊的方框圖。 圖3是來自圖1的網(wǎng)關服務器模塊的方框圖。 圖4是記錄數(shù)據(jù)庫的實例。 圖5是URL接入策略數(shù)據(jù)庫表的實例。 圖6A和6B分別是經歸類和未經歸類的URL的實例。 圖7是來自圖1的數(shù)據(jù)庫管理模塊的方框圖。 圖S是來自圖7的收集系統(tǒng)的方框圖。 圖9是來自圖8的收集模塊的方框圖。 圖IO展示根據(jù)本發(fā)明某些方面的蜜罐客戶端系統(tǒng)。 圖11是由來自圖9的收集模塊收集的URL相關數(shù)據(jù)的實例。 圖12是描述在一個實施例中可如何在網(wǎng)關服務器模塊中處理URL的流程圖。 圖13是描述根據(jù)某些實施例可如何結合策略模塊通過網(wǎng)關服務器模塊處理URL的 流程圖。
圖14是描述收集系統(tǒng)可如何在網(wǎng)關服務器模塊內處理URL的流程圖。
圖15是描述收集系統(tǒng)可如何在數(shù)據(jù)庫管理模塊內處理URL的流程圖。
圖16是描述可如何使用蜜罐客戶端控制服務器來收集URL數(shù)據(jù)的流程圖。
圖17是描述可如何進一步補充由收集系統(tǒng)收集的數(shù)據(jù)以允許詳細分析的流程圖。圖18是數(shù)據(jù)挖掘系統(tǒng)的方框圖。 具4本實施方式
特定實施例提供識別和歸類在通過統(tǒng)一資源定位符(URL)識別的位置發(fā)現(xiàn)的網(wǎng)絡 內容的系統(tǒng)和方法,所述內容包含可能可執(zhí)行的網(wǎng)絡內容和惡意內容。如本文使用,可 能可執(zhí)行的網(wǎng)絡內容通常指包含由網(wǎng)絡瀏覽器或網(wǎng)絡客戶端計算機執(zhí)行的指令的任何類 型的內容??赡芸蓤?zhí)行的網(wǎng)絡內容可包含例如小程序、嵌入HTML或其它超文本文檔(包 含例如Java腳本或VB腳本的腳本語言)的可執(zhí)行代碼、嵌入其它文檔(例如微軟Word 宏或樣式表)屮的可執(zhí)行代碼??赡芸蓤?zhí)行的網(wǎng)絡內容也可指執(zhí)行位于另一位置(例如 另一網(wǎng)頁、另一計算機或網(wǎng)絡瀏覽器計算機本身上)中的代碼的文檔。舉例來說,通常 可認為包含"對象"元素且因此可引起活動X或其它可執(zhí)行組件的執(zhí)行的HTML網(wǎng)頁是 可能可執(zhí)行的網(wǎng)絡內容,無論所述可執(zhí)行組件的位置如何。惡意內容可指不可執(zhí)行但可 經計算以利用客戶端計算機的弱點的內容。然而,可能可執(zhí)行的網(wǎng)絡內容也可能是惡意 內容。舉例來說,己使用圖像文件來在所述圖像經處理用于顯示時利用某些操作系統(tǒng)中 的弱點。而且,惡意網(wǎng)絡內容也可指例如"網(wǎng)絡釣魚(phishing)"方案的交互內容,在 所述方案中,HTML表格或其它網(wǎng)絡內容經設計以表現(xiàn)為由例如銀行的另一 (通常是受 到信任的)網(wǎng)站提供,以便欺騙用戶向未經授權方提供證書或其它敏感信息。
圖1提供示范性系統(tǒng)的最高級說明。系統(tǒng)包含網(wǎng)絡110。網(wǎng)絡110可以是局域網(wǎng)、廣 域網(wǎng)或某種其它類型的網(wǎng)絡。網(wǎng)絡110可包含一個或.-個以上工作站116。工作站116 可以是附接到網(wǎng)絡的各種類型的客戶端計算機??蛻舳擞嬎銠C116可以是桌上型計算機、 筆記型計算機、手持式計算機或類似計算機。客戶端計算機也可裝載有操作系統(tǒng),所述 操作系統(tǒng)允許客戶端計算機通過例如網(wǎng)絡瀏覽器、電子郵件程序等各種軟件模塊利用網(wǎng) 絡。
每--工作站U6均可與網(wǎng)關服務器模塊120電連通。網(wǎng)關服務器模塊可駐存在網(wǎng)絡 110的邊緣,使得從因特網(wǎng)112和向因特網(wǎng)112發(fā)送的業(yè)務可在進入或離開網(wǎng)絡U0的途 中經過M關服務器模塊。網(wǎng)關服務器模塊120可采用安裝在服務器上的軟件模塊的形式, 所述服務器作為向比工作站116直接附接到的網(wǎng)絡110廣的區(qū)域網(wǎng)絡112的網(wǎng)關而起作 用。數(shù)據(jù)庫管理模塊U4也連接到因特兩112。數(shù)據(jù)庫管理模塊也可以是駐存在一個或一 個以上計算裝置上的軟件模塊(或-個或一個以上硬件器件)。數(shù)據(jù)庫管理模塊114可駐 存在包含某類網(wǎng)絡連接硬件(例如網(wǎng)絡接口卡)的機器上,所述網(wǎng)絡連接硬件允許數(shù)據(jù) 庫管理模塊114向因特網(wǎng)112發(fā)送數(shù)據(jù)和信息以及從因特網(wǎng)U2接收數(shù)據(jù)和信息。作站116的更詳細視圖。工作站116可包含工作站模塊130。 工作站模塊130可采用經安裝以在丁作站116的操作系統(tǒng)上運行的軟件的形式?;蛘?, 工作站模塊130可以是在另一機器上運行的由工作站116遠程啟動的應用程序。
工作站模塊130可包含各種組件。工作站模塊可包含本地活動內容模塊132的清單 (inventory),其記錄存儲在工作站116上的所有網(wǎng)絡內容。舉例來說,本地內容清單模 塊132可周期性列出所有本地內容的清單。清單中列出的數(shù)據(jù)可上載到網(wǎng)關服務器模塊 120以與經歸類的URL/內容數(shù)據(jù)庫146 (下文更詳細論述)進行比較。本地內容清單模 塊132可通過與其中含有的清單中列出的本地內容進行比較來確定是否有新內容正在被 引入到工作站116。
工作站模塊還可包含上載/下載模塊134和URL請求模塊136。上載/下載模塊134 可用于通過網(wǎng)關服務器模塊120從網(wǎng)絡110向因特網(wǎng)U2發(fā)送和接收數(shù)據(jù)。URL請求模 塊136從用戶或某個系統(tǒng)過程接收URL輸入,且可經由網(wǎng)關服務器模塊120發(fā)送請求以 檢索與所述URL相關聯(lián)的文件和/或內容。通常,上載/下載模塊134和URL請求模塊 136中的每一者的功能可由例如網(wǎng)絡瀏覽器的軟件應用程序執(zhí)行,其中因特網(wǎng)探測器@ (Internet Explorer )、謀智火狐(Mozilla Firefox)、奧普拉(Opera)、遠征(Safari)是 此項技術中眾所周知的瀏覽軟件的實例?;蛘?,模塊的功能可在不同的軟件應用程序之 問劃分。舉例來說,F(xiàn)TP應用程序可執(zhí)行上載/下載模塊134的功能,而網(wǎng)絡瀏覽器可執(zhí) 行URL請求。其它類型的軟件也可執(zhí)行上載/下載模塊134的功能。盡管工作站上通常 不需耍這些類型的軟件,但例如間諜軟件(Spyware)或特洛伊木馬(Trojan Horses)的 軟件可能做出從因特網(wǎng)發(fā)送和接收數(shù)據(jù)的請求。
工作站模塊130可與網(wǎng)關服務器模塊120通信。網(wǎng)關服務器模塊120可用于分析傳 入和傳出的網(wǎng)絡業(yè)務并做出關于所述業(yè)務對工作站116可能造成的影響的各種確定?,F(xiàn) 在參看圖3,提供網(wǎng)關服務器模塊120的實例。網(wǎng)關服務器模塊120與工作站116雙向通 信。其可從工作站模塊130接收文件上載和下載以及URL請求。網(wǎng)關服務器模塊120還 與因特網(wǎng)112雙向通信。因此,源自網(wǎng)絡110的工作站116內的請求可能需要在其前進 到因特網(wǎng)時通過網(wǎng)關服務器模塊120。在一些實施例中,網(wǎng)關服務器模塊120可與保護 網(wǎng)絡110免受來自因特網(wǎng)112的未經授權的入侵的某個防火墻硬件或軟件集成。在其它 實施例中,網(wǎng)關服務器模塊120可以是獨立的硬件器件乃至是安裝在駐存于到因特網(wǎng)112 的網(wǎng)絡網(wǎng)關處的單獨網(wǎng)關服務器上的軟件模塊。
如上論述,網(wǎng)關服務器模塊120可借助于工作站模塊130而從工作站116接收URL請求和上載/下載數(shù)據(jù)。網(wǎng)關服務器模塊120可包含基于所接收數(shù)據(jù)執(zhí)行各種功能的各種 組件。
網(wǎng)關服務器模塊120中包含的一個特征是經歸類URL數(shù)據(jù)庫146。 URL數(shù)據(jù)庫146 可用于存儲包含與URL相關聯(lián)的數(shù)據(jù)的關于URL的信息。經歸類URL數(shù)據(jù)庫146可以 是關系數(shù)據(jù)庫,或其可以例如平面文件、面向對象的數(shù)據(jù)庫的某種其它形式存儲,且可 經由應用程序編程接口 (API)或某個數(shù)據(jù)庫管理軟件(DBMS)存取。URL數(shù)據(jù)庫146 通??捎糜趲椭_定由URL請求模塊136發(fā)送的URL請求是否將被許可完成。在一個 實施例中,將存儲在URL數(shù)據(jù)庫146中的URL歸類。
網(wǎng)關服務器模塊120還可包含策略模塊142。策略模塊142可用于實施關丁-特定內 容將如何由網(wǎng)關服務器模塊120或由安裝在網(wǎng)絡110內的防火墻或某種其它安全性軟件 處理的網(wǎng)絡策略。在一個實施例中,策略模塊142可經配置以提供關于如何處理針對經 歸類URL的URL請求的系統(tǒng)引導。舉例來說,網(wǎng)關服務器模塊120可經配置以不允許 歸類為"惡意"或"間諜軟件"的URL請求。在其它實施例中,策略模塊142可用于確 定如何處理未經歸類的URL請求。在一個實施例中,系統(tǒng)可經配置以阻止針對不在經歸 類URL數(shù)據(jù)庫146中的URL的所有請求。策略模塊142還可經配置以基于做出請求的 用戶或做出請求的時間而允許某些對未經歸類URL的請求。這允許系統(tǒng)在通用型 (one-size-fits-all)配置將不滿足運行網(wǎng)關服務器模塊120的組織的業(yè)務需要時避免具有 所述配置。
網(wǎng)關服務器模塊120可包含收集模塊140。收集模塊140可以是用于收集關于URL 的數(shù)據(jù)的軟件程序、例行程序或過程。在一個實施例中,當從URL請求模塊136接收到 針對特定URL的請求時,收集模塊140可經配置以訪問所述URL并下載頁面數(shù)據(jù)到網(wǎng) 關服務器模塊120以供網(wǎng)關服務器模塊120的組件進行分析。下載的數(shù)據(jù)還可經由因特 網(wǎng)112發(fā)送以傳遞到數(shù)據(jù)庫管理模塊114 (如下文將進一步論述的)。
在一些實施例中,網(wǎng)關服務器模塊120還可包含記錄數(shù)據(jù)庫144。記錄數(shù)據(jù)庫144 可執(zhí)行各種功能。舉例來說,其可存儲網(wǎng)絡110內的特定類型發(fā)生情況的記錄。在一個 實施例中,記錄數(shù)據(jù)庫144可經配置以記錄工作站U6請求未經授權URL的每一事件。 在一些實施例中,記錄數(shù)據(jù)庫144還可經配置以記錄特定未經歸類URL被請求的頻率。 此信息可用于確定未經歸類URL是否應具有特定重要性或優(yōu)先權且應先于較早的接收到 的數(shù)據(jù)而由數(shù)據(jù)庫管理模塊114歸類。在一些實施例中,未經歸類URL可單獨存儲在未 經歸類URL數(shù)據(jù)庫147中。舉例來說,可編寫某個間諜軟件以從特定URL請求數(shù)據(jù)。如果網(wǎng)絡110內的許多工 作站U6被所述間諜軟件感染,則對特定URL的重復請求可提供網(wǎng)絡內存在某種異常的 指示。記錄數(shù)據(jù)庫也可經配置以記錄對經歸類URL數(shù)據(jù)的請求。在一些實施例中,對經 歸類URL的請求歸類可有助于確定特定URL是否被錯誤地特征化。
現(xiàn)在參看圖4,論述記錄數(shù)據(jù)庫144的實例。記錄數(shù)據(jù)庫144包含四列數(shù)據(jù)。第一 列"頁面請求次數(shù)"152指示網(wǎng)絡110內的用戶請求特定URL的次數(shù)。第二列"URL" 154記錄正在記錄數(shù)據(jù)庫144中記錄的特定URL串。因此,當將URL發(fā)送到記錄數(shù)據(jù)庫 144時,可首先搜索數(shù)據(jù)庫以確定所述URL串是否已在其中。如果不是,那么可將URL 串添加到數(shù)據(jù)庫。在一些實施例中,收集模塊140可經配置以訪問所請求的URL并收集 關于所述URL的數(shù)據(jù)。收集模塊140可檢索所請求URL的頁面源并對其進行掃描以査 找可能指示內容類型的特定關鍵詞。舉例來說,如果頁面源包含"javascript://",那么所 述頁可被識別為具有Java腳本。盡管此內容并非固有危險的,但具有Java腳本的網(wǎng)頁包 含惡意內容的可能性可能更大,所述惡意內容經設計以利用瀏覽器應用程序處理Java腳 本函數(shù)調用的方式。在一些實施例中,此數(shù)據(jù)可存儲在記錄數(shù)據(jù)庫144中在Java腳本列 155中。記錄數(shù)據(jù)庫也可從包含活動-X內容的頁面接收類似的信息并將所述內容存儲在 活動X列156內。在其它實施例中,可針對Java小程序、VB腳本等檢測和存儲其它類 型的內容。
再次參看圖3,網(wǎng)關服務器模塊120可進一步包含管理界面模塊148或"管理模塊"。 管理模塊148可用于允許網(wǎng)絡管理員或組織內的其它技術人員配置M關服務器模塊120 的各種特征。在某些實施例中,管理模塊148允許網(wǎng)絡管理員或某種其它網(wǎng)絡管理類型 來配置策略模塊142。
現(xiàn)在參看圖5,提供URL接入策略數(shù)據(jù)庫158的實例。URL接入策略數(shù)據(jù)庫158可 由策略模塊142用于實施用于網(wǎng)絡110內的工作站116接入基于網(wǎng)絡的內容的策略。在 所示的實施例中,URL接入策略數(shù)據(jù)庫158包含具有四列的表。第一列是用戶列160。"用 戶"列160包含關于服從于在表的給定行中定義的策略的用戶的數(shù)據(jù)。下一列"類別" 162列出所述行定義的策略所適用的內容的類別。第三列"總是阻止"164表示當所請求 內容的用戶和類別166匹配于所述特定行中定義的用戶和類別時系統(tǒng)實施的行為或策 略。在一個實施例中,"總是阻止"字段可以是其中數(shù)據(jù)可設定為真或假的布爾型字段。 因此,在數(shù)據(jù)表所示的第一行中,策略模塊142經配置以"總是阻止"用戶"asmith"對 "惡意內容"的請求。如上所述,策略模塊還可經配置以基于不同時間實施策略。在圖5提供的實施例中, 第四列"允許的時問"166提供此功能性。第二行數(shù)據(jù)提供如何實施時間策略的實例。 用戶164設定為"bnguyen"且類別162是"賭博"。正如保留為空A的字段所指示的, 策略未經配置以針對"bnguyen""總是阻止"賭博內容。然而,這些URL請求被許可的 時間限于從6PM到8AM。因此,采用這些類型的策略允許網(wǎng)絡管理員向工作站和用戶 提供某一程度的靈活性,但此靈活性的提供是以在典型工作時間期間網(wǎng)絡業(yè)務不受損害 的方式進行的。
圖6A和6B提供對經歸類URL數(shù)據(jù)庫146可如何存儲經歸類數(shù)據(jù)的說明。在一個 實施例中,經歸類URL可存儲在例如圖6A所示的兩列數(shù)據(jù)庫表中。在一個實施例中, 所述表可包含URL列172,其可僅存儲已經特征化的URL串。類別列174可存儲關于所 述URL已如何由數(shù)據(jù)庫模塊114特征化的數(shù)據(jù)(如下文將詳細描述)。在一個實施例中, 可對URL字段編索引以使得其可被實時地更快速地搜索。因為經歸類URL的列表可能 涉及到數(shù)百萬個URL,所以快速接入例行程序是有益的。
現(xiàn)在參看圖6B,提供未經歸類URL的表147 (上文結合圖3描述)。此表中可填充 有來自工作站116的URL請求,所述URL請求是請求在經歸類URL表146中不存在的 URL。如下文將更詳細描述,網(wǎng)關服務器模塊120可經配置以查詢經歸類URL數(shù)據(jù)庫146 以確定是否應阻止所請求的URL。如果所請求URL在經歸類數(shù)據(jù)庫146中,則策略模塊 可確定是否允許所述請求前進到因特網(wǎng)112。然而如果在經歸類URL數(shù)據(jù)庫中沒有發(fā)現(xiàn) 所請求URL,則可將其添加到未經歸類URL列表176,使得其可經由因特網(wǎng)112發(fā)送到 數(shù)據(jù)庫管理模塊114并稍后經分析和歸類且下載到經歸類URL數(shù)據(jù)庫146中。
圖7是對數(shù)據(jù)庫管理模塊114中可包含的各種組件的說明。如上文論述,數(shù)據(jù)庫管 理模塊U4可位于網(wǎng)絡IIO及其相關聯(lián)工作站116的遠端(可經由因特網(wǎng)112接入)。數(shù) 據(jù)庫管理模塊可采用一個或許多不同硬件和軟件組件的形式,例如同時運行數(shù)百個服務 器以實現(xiàn)改善性能的服務器庫。
在一個實施例中,數(shù)據(jù)庫管理模塊114可包含上載/下載模塊178。上載/下載模塊178 可以是軟件或硬件組件,其允許數(shù)據(jù)庫管理模塊U4從因特網(wǎng)112向任意數(shù)目的位置發(fā) 送和接收數(shù)據(jù)。在一個實施例中,上載/下載模塊經配置以向因特網(wǎng)H2上的網(wǎng)關服務器 模塊120發(fā)送新歸類的URL以添加到其本地URL數(shù)據(jù)庫"6。
數(shù)據(jù)庫管理模塊114還可包含URL/內容數(shù)據(jù)庫180。 URL/內容數(shù)據(jù)庫180可采用數(shù) 據(jù)倉庫的形式,其存儲URL串和關于已由收集系統(tǒng)182收集的URL的信息。URL/內容數(shù)據(jù)庫180可以是經編索引以提供快速且有效的數(shù)據(jù)搜索的關系數(shù)據(jù)庫。在某些實施例 中,URL數(shù)據(jù)庫可以是數(shù)據(jù)入庫應用程序,其跨越許多物理硬件組件和存儲媒體。URL 數(shù)據(jù)庫可包含例如以下數(shù)據(jù):URL串、與這些串相關聯(lián)的內容、關于如何收集到內容(例 如,通過蜜罐客戶端、通過客戶提交等)的信息,且可能包含URL被'與'入到URL/內容 數(shù)據(jù)庫180內的口期。
數(shù)據(jù)庫管理模塊114可進一步包含訓練系統(tǒng)184。訓練系統(tǒng)184可以是軟件/硬件模 塊,其用于定義可用于歸類基于網(wǎng)絡的內容的屬性和定義。數(shù)據(jù)庫管理模塊114可進一 步提供記分/分類系統(tǒng)186,其利用由訓練系統(tǒng)184創(chuàng)建的定義和屬性來向網(wǎng)絡內容提供 記分或分類(例如,歸類),使得所述歸類可經由上載/下載模塊178傳遞到網(wǎng)關服務器 模塊120。
現(xiàn)在參看圖8,提供收集系統(tǒng)182的更詳細視圖。收集系統(tǒng)182可包含收集模塊190, 其(直接或間接)耦合到數(shù)據(jù)挖掘模塊192。收集模塊190可由數(shù)據(jù)庫管理模塊114用于 為URL/內容數(shù)據(jù)庫180收集關于未經歸類的URL的數(shù)據(jù)。收集模塊還可用于收集URL 供其它系統(tǒng)組件進行額外分析。收集模塊190可與其可從其收集關于URL的數(shù)據(jù)的一個 或一個以上收集源194相關聯(lián)。收集源可采用各種形式。在一些實施例中,收集源194 可包含主動與被動蜜罐和蜜罐客戶端、存儲在網(wǎng)關服務器模塊120上的記錄數(shù)據(jù)庫144 的用以識別應用程序的數(shù)據(jù)分析、用于收集的URL和協(xié)議。收集源也可以是網(wǎng)絡爬行 (webcrawling)應用程序,其針對特定關鍵詞搜索因特網(wǎng)112,或在頁面內容內搜索短語。 收集源194還可包含從DNS數(shù)據(jù)庫挖掘的URL和IP地址數(shù)據(jù)以識別與已知惡意IP地址 相關聯(lián)的域。在一些實施例中,可通過從共享惡意代碼和惡意URL樣本的其它組織接收 此信息以收集用于歸類的URL。在又一些實施例中,可經由電子郵件模塊收集URL,所 述模塊經配置以從整個公眾接收舉報(tip),近似于通過罪犯舉報熱線來識別罪犯的方式。
現(xiàn)在參看圖9,提供收集模塊190的更詳細視圖。收集模塊190可包含允許其有效 利用上述收集源中每一者的各種子組件。收集模塊190可包含搜索短語數(shù)據(jù)模塊197和 表達式數(shù)據(jù)模塊198。搜索短語數(shù)據(jù)模塊197收集并提供可能與識別不適當內容相關的 搜索短語。表達式數(shù)據(jù)模塊198可包含各種類型的表達式,例如常規(guī)表達式、操作數(shù)或 某種其它表達式。搜索短語數(shù)據(jù)模塊197和表達式數(shù)據(jù)模塊198每一者可包含可更新的 記錄組,其可用于定義用于網(wǎng)絡爬行收集源194的搜索參數(shù)。收集模塊190還可包含優(yōu) 先權模塊200。優(yōu)先權模塊200可采用在收集系統(tǒng)182內運行的軟件過程的形式,或者 其可作為單獨過程運行。優(yōu)先權模塊可用于對收集模塊收集的數(shù)據(jù)區(qū)分優(yōu)先次序,以便使較可能危險或可疑的URL(或數(shù)據(jù))在較可能無害的URL之前受到嚴格的檢查。在一 個實施例中,優(yōu)先權模塊200可基于接收的URL來自的收集源194而指派優(yōu)先權。舉例 來說,如果從客戶報告接收到URL,則可為其指定較高的優(yōu)先權。類似地,如果從接入 在過去主機惡意內容已知的域或IP地址或子網(wǎng)的網(wǎng)絡爬行器接收到URL,則所述URL 可得到高優(yōu)先權。類似地,由蜜罐客戶端(下文更詳細論述)識別的可能危險的網(wǎng)站也 可得到高優(yōu)先權。收集模塊190還可包含數(shù)據(jù)選擇模塊202,其可與優(yōu)先權模塊200 — 起丁作以確定所識別URL是否應被標記為用于歸類的候選URL。在一個實施例中,數(shù)據(jù) 選擇URL可提供用于接收搜索參數(shù)的用戶界面以通過基于優(yōu)先權和內容搜索數(shù)據(jù)來進一 步細化經區(qū)分優(yōu)先次序的數(shù)據(jù)。
如上文指示,收集模塊還可包含數(shù)據(jù)下載模塊204。數(shù)據(jù)下載模塊204可經配置以 識別URL以進行訪問以及從所訪問URL下載數(shù)據(jù)和內容。數(shù)據(jù)下載模塊可結合收集模 塊中的各種子系統(tǒng)一起工作,以檢索用于URL/內容數(shù)據(jù)庫180的數(shù)據(jù)。 一個此子系統(tǒng)是 網(wǎng)絡爬行器模塊206。網(wǎng)絡爬行器模塊206可以是軟件應用程序,其經配置以通過接入 網(wǎng)頁并跟隨包含在所述頁面中的超鏈接來接入因特網(wǎng)112上的網(wǎng)站。網(wǎng)絡爬行器模塊2 0 6 可配置有若干同時的過程,所述過程允許模塊同時爬行許多網(wǎng)站并將所訪問URL報告回 URL/內容數(shù)據(jù)庫180,如下文將更詳細論述。收集模塊190還可包含蜜罐客戶端模塊208。 蜜罐客戶端模塊208是軟件過程,其經配置而以吸引存儲在所訪問頁面內的惡意代碼的 方式模仿網(wǎng)絡瀏覽者訪問網(wǎng)站的行為。蜜罐客戶端模塊208可訪問網(wǎng)站并跟蹤網(wǎng)站的行 為,且將內容下載回到URL/內容數(shù)據(jù)庫1S0供進一步分析。
下載模塊204還可包含第二方供應者模塊212,其經配置以從第三方接收URL和相 關聯(lián)的內容。舉例來說,第二方模塊212可經配置以提供可山一般公眾接入的網(wǎng)站。所 述模塊可經配置以接收輸入URL串,所述串隨后可被輸入到URL/內容數(shù)據(jù)庫180中。 在 一 些實施例中,第三方模塊還可經配置以接收來自專有或公共郵寄列表的電子郵件, 且識別所述電子郵件內嵌入的任何URL數(shù)據(jù)以存儲在URL/內容數(shù)據(jù)庫180中。
下載模塊還可包含網(wǎng)關服務器接入模塊210。網(wǎng)關服務器接入模塊是軟件組件或程 序,其可經配置以有規(guī)律地接入網(wǎng)關服務器模塊120上的記錄數(shù)據(jù)庫144以下載/上載由 記錄數(shù)據(jù)庫144識別的所有新未經歸類的網(wǎng)絡內容。
返回參看圖8,收集系統(tǒng)還可包含數(shù)據(jù)挖掘模塊192。數(shù)據(jù)挖掘模塊192可用于獲得 關于存儲在URL/內容數(shù)據(jù)庫180中的URL的額外數(shù)據(jù)。在許多例子中,由收集源194 供應到收集模塊190和URL/內容數(shù)據(jù)庫180的信息僅限于URL串。因此,為了使系統(tǒng)有效地歸類所述URL內的內容,可能必須有更多數(shù)據(jù)。舉例來說,可能需要檢查實際的 頁面內容以確定是否存在嵌入URL內的危險內容。數(shù)據(jù)挖掘模塊192用于收集關于URL 的此額外必要數(shù)據(jù),且下文將更詳細論述。
圖IO提供蜜罐客戶端系統(tǒng)208的更詳細視圖。蜜罐客戶端系統(tǒng)208包含控制服務器 220??刂品掌?20用于控制多個蜜罐挖掘器(honey miner) 222,其經配置以訪問網(wǎng) 站并模仿人類瀏覽者的行為以嘗試檢測網(wǎng)站上的惡意代碼。蜜罐挖掘器222可以是被動 蜜罐挖掘器或主動蜜罐挖掘器。被動蜜罐挖掘器類似于上述的網(wǎng)絡爬行器。然而,不同 于僅訪問網(wǎng)站并報告從所述站點可獲得的URL鏈接的上述網(wǎng)絡爬行器,被動蜜罐挖掘器 可經配置以下載頁面內容并將其傳回控制服務器220以用于插入到URL/內容數(shù)據(jù)庫180 中或某個其它數(shù)據(jù)庫中。蜜罐挖掘器222可以是單一機器上的軟件模塊,或者其每一者 可實施在單獨計算裝置上。
在一個實施例中,每一控制服務器可控制16個被動蜜罐挖掘器222。控制服務器220 可從URL/內容數(shù)據(jù)庫180提取或接收需要額外信息以便得到完全分析或歸類的URL???制服務器220將所述URL提供到挖掘器,挖掘器又審閱URL并存儲收集的數(shù)據(jù)。當被 動挖掘器222完成特定URL時,其可從其控制服務器222請求另一 URL。在一些實施例 中,挖掘器222可經配置以跟隨URL內容上的鏈接,使得除了訪問由控制服務器220指 定的URL之外,挖掘器還可訪問其鏈接到所述URL的內容。在一些實施例中,挖掘器 222可經配置以相對于每一原始URL挖掘到指定深度。舉例來說,挖掘器222可經配置 以向下挖掘穿過四層網(wǎng)絡內容,然后從控制服務器220請求新的URL數(shù)據(jù)。
在其它實施例中,控制服務器220可經配置以控制主動蜜罐挖掘器222。與僅訪問 網(wǎng)站并存儲站點上呈現(xiàn)的內容的被動蜜罐挖掘器相比,主動蜜罐挖掘器222可經配置以 訪問URL并運行或執(zhí)行在站點上識別的內容。在一些實施例中,主動蜜罐挖掘器222包 含網(wǎng)絡瀏覽軟件,其經配置以訪問網(wǎng)站并經由瀏覽器軟件接入網(wǎng)站上的內容??刂品?器220 (或蜜罐挖掘器本身222)可經配置以在其執(zhí)行其訪問的網(wǎng)站上的內容時監(jiān)視蜜罐 挖掘器222的特性。在一個實施例中,控制服務器220將記錄由于執(zhí)行所訪問網(wǎng)站上的 應用程序或內容而由蜜罐挖掘器訪問的URL。因此,主動蜜罐挖掘器222可提供更準確 地跟蹤系統(tǒng)行為并發(fā)現(xiàn)先前未識別出的利用(exploit)的方式。因為主動蜜罐挖掘器將 其本身暴露于可執(zhí)行內容的危險,所以在一些實施例中主動蜜罐挖掘器222可位于沙盒 (sandbox)環(huán)境中,其提供一組受到緊密控制的資源用-T客人程序(guest program)在其 中運行,以便保護其它計算機免于可能由惡意內容造成的危險。在一些實施例中,沙盒可采用模擬操作系統(tǒng)的虛擬機的形式。在其它實施例中,沙盒可采用與網(wǎng)絡隔離的實際 系統(tǒng)的形式??赏ㄟ^實時跟蹤對沙盒機器上的文件系統(tǒng)做出的改變來檢測反常行為。在 一些實施例中,由主動蜜罐挖掘器222執(zhí)行的代碼可能會引起運行所述挖掘器的機器由 丁-嵌入在網(wǎng)頁內容中的惡意代碼而變?yōu)椴豢刹僮?。為了解決此問題,控制服務器可控制 替代挖掘器,其可插手幫助完成在挖掘過程期間損壞的蜜罐挖掘器222的工作。
現(xiàn)在參看圖11,提供已由收集系統(tǒng)收集的一組URL相關數(shù)據(jù)的實例。盡管提供所收 集數(shù)據(jù)的特定實例,爐.所屬領域的技術人員將了解,除了此實例中提供的數(shù)據(jù)之外還可 收集其它數(shù)據(jù)。所收集數(shù)據(jù)中包含針對URL的IP地址230。 IP地址230可用于識別正 代管同一IP地址下或同一服務器上的可疑內容的多個域的網(wǎng)站。因此,如果具有惡意內 容的URL被識別為來自特定IP地址,那么可針對具有相同IP地址的其它URL挖掘URL/ 內容數(shù)據(jù)庫180中的數(shù)據(jù)的其余部分,以便對其進行選擇和對其進行更仔細的分析。所 收集URL數(shù)據(jù)還可包含URL 232,如圖ll中的第二列指示。在使用例如上述蜜罐客戶 端過程的挖掘過程收集數(shù)據(jù)的例子中,URL 232可常包含來自相同網(wǎng)域的各種頁面,因 為挖掘器可能經自置以爬行通過網(wǎng)站中的所有鏈接。所收集數(shù)據(jù)還可包含針對特定URL 的頁而內容234。因為URL的內容可.罕.圖形、文本、應用程序和/或其它內容的形式,所 以在一些實施例中,存儲此URL數(shù)據(jù)的數(shù)據(jù)庫可經配置以將頁面內容存儲為數(shù)據(jù)記錄中 的二進制大對象(blob)或應用程序對象。然而,由于某些網(wǎng)頁只含有文本,因此頁面 內容234也可存儲為文本。在一些實施例中,收集例行程序可經配置以確定URL是否含 有可執(zhí)行內容。在這些例子中,所收集數(shù)據(jù)的所得數(shù)據(jù)集可包含URL在其頁面代碼內是 否具有可執(zhí)行內容236的指示。此信息可稍后用于從具有候選數(shù)據(jù)的URL/內容數(shù)據(jù)庫 180中選擇數(shù)據(jù)以供分析。
如上文結合圖3論述,在一些實施例中,網(wǎng)關服務器模塊120可經配置以基于經歸 類URL數(shù)據(jù)庫146中存儲的數(shù)據(jù)來控制對特定URL的接入。圖12是描述網(wǎng)關服務器模 塊處理來自丄作站116的請求的實施例的流程圖。
在方框1200,工作站U6從因特網(wǎng)112請求URL。在方框1202,此請求在因特網(wǎng)網(wǎng) 關處被攔截并轉發(fā)到網(wǎng)關服務器模塊120。在方框1204,查詢經歸類URL數(shù)據(jù)庫146以 確定所請求的URL是否存儲在數(shù)據(jù)庫146中。如果發(fā)現(xiàn)所請求的URL是數(shù)據(jù)庫中的記 錄,則過程繼續(xù)移動到方框1206,其中其分析URL記錄以確定URL的類別是否是應針 對工作站用戶阻止的類別。如果所述類別被阻止,則過程跳轉到方框1212且請求被阻止。 然而如果類別未被阻止,則在方框1208處允許所述請求。如果在方框1204處沒有發(fā)現(xiàn)所請求的URL是經歸類URL數(shù)據(jù)庫146中的記錄,則 系統(tǒng)前進到方框1210。在方框1210處,系統(tǒng)確定如何處理未經歸類內容。在一些實施 例中,系統(tǒng)可利用策略模塊142來做出此確定。如果網(wǎng)關服務器模塊120經配置以阻止 針對未經歸類內容的請求,則過程移動到方框1212,且阻止請求。另一方面,如果模塊 經配置以允許這些類型的未經歸類請求,則過程移動到方框1208,其中允許所述請求前 進到因特網(wǎng)112。
在一些實施例中,對URL數(shù)據(jù)的請求可能會導致將新記錄添加到記錄數(shù)據(jù)庫144。 這些記錄稍后可被傳送到數(shù)據(jù)庫管理模塊U4供進一步分析?,F(xiàn)在參看圖13,提供描述 網(wǎng)關服務器模塊可借以處理URL請求的過程的另一流程圖。在方框1300,網(wǎng)關服務器模 塊120接收針對URL的請求。如上所述,此請求可來自工作站116。在方框1302,接著 將URL與經歸類URL數(shù)據(jù)庫146進行比較,且系統(tǒng)在方框1304確定所請求URL是否 在經歸類URL數(shù)據(jù)庫中。
如果URL已經在經歸類URL數(shù)據(jù)庫146中,則過程跳轉到方框1308。然而如果沒 有發(fā)現(xiàn)所請求URL在經歸類URL數(shù)據(jù)庫146中,則過程移動到方框1306,其中將URL 插入到未經歸類URL數(shù)據(jù)庫147中。(在一些實施例中,記錄數(shù)據(jù)庫144和未經歸類URL 147數(shù)據(jù)庫可以是同一數(shù)據(jù)庫。)在將URL插入到數(shù)據(jù)庫中之后,所述方法前進到方框 1308。在方框1308,檢査策略數(shù)據(jù)庫以獲得關于如何處理所接收URL的指令。 一旦策略 模塊142經檢査,就在方框1310更新記錄數(shù)據(jù)庫144以記錄URL已被請求。在更新記 錄數(shù)據(jù)庫144之后,如果策略數(shù)據(jù)庫許可工作站116接入URL,則過程移動到方框1314, 且將URL請求發(fā)送到因特網(wǎng)112。然而如果策略數(shù)據(jù)庫不允許所述請求,則過程跳轉到 方框1316且阻止請求。
在一些實施例中,網(wǎng)關服務器模塊120可執(zhí)行收集以減少數(shù)據(jù)庫管理模塊114的收 集系統(tǒng)182的負擔。圖14提供網(wǎng)關服務器收集模塊140用于收集關于未經歸類URL的 數(shù)據(jù)的系統(tǒng)的實例。在方框1400,網(wǎng)關服務器模塊接收針對URL的請求。接著,在方框 1402,將所請求URL與經歸類URL數(shù)據(jù)庫進行比較。如果在方框1404系統(tǒng)確定所請求 URL在URL數(shù)據(jù)庫中,則過程移動到方框1410,其中依據(jù)URL如何歸類而將請求轉發(fā) 到因特網(wǎng)112或阻止請求。
如果所請求URL不在經歸類URL數(shù)據(jù)庫146中,則過程移動到方框1406,其中將 URL發(fā)送到網(wǎng)關收集模塊140。接著在方框1408,收集模塊140收集關于所請求URL 的URL數(shù)據(jù)。在一些實施例中,此數(shù)據(jù)可存儲在未經歸類URL數(shù)據(jù)庫147中。或者,理模塊114。 一旦數(shù)據(jù)經收集并存儲,則 過程移動到方框1410,其中基于策略模塊142中指示的策略而允許或阻止URL請求。
如先前論述,可將未經歸類URL數(shù)據(jù)從網(wǎng)關服務器模塊120發(fā)送到數(shù)據(jù)庫管理模塊 114供進一步分析,使得URL可經歸類并添加到經歸類URL數(shù)據(jù)庫146。然而,因為未 經歸類數(shù)據(jù)的量有時太大,所以或許不可能在無損于準確性的情況下將所有接收的數(shù)據(jù) 歸類。因此,在一些例子中,可能需要識別未經歸類數(shù)據(jù)內的最可能對工作站116和網(wǎng) 絡110呈現(xiàn)威脅的候選URL。
圖15提供用于識別候選URL供進一步分析的方法的實例。所述方法以將URL接收 到數(shù)據(jù)庫模塊114的收集系統(tǒng)182中開始。在方框1502,預處理URL或應用程序以確定 其是否攜帶已知的惡意數(shù)據(jù)元素或數(shù)據(jù)簽名。接著在方框1504,如果系統(tǒng)確定URL包含 已知的惡意元素,則過程跳轉到方框1514,其中將URL標記為候選URL并將其發(fā)送到 訓練系統(tǒng)184供進一步分析。如果在方框1504中對URL的初始分析沒有顯示惡意元素, 則過程移動到方框1506,其中將URL添加到可能候選URL的數(shù)據(jù)庫。接著在方框1508, 數(shù)據(jù)挖掘模塊192經配置以基于預先配置的條件(例如,攻擊串、病毒簽名等)從源194 (可能候選URL的數(shù)據(jù)庫是其中之一)選擇URL。接著在方框1510將包含所有數(shù)據(jù)源 194的數(shù)據(jù)集發(fā)送到數(shù)據(jù)挖掘模塊192,其中在方框1512通過數(shù)據(jù)挖掘模塊192分析每 一URL。如果URL滿足所定義的預先配置條件,則過程移動到方框1514,其中將URL 標記為候選URL并將其繼續(xù)發(fā)送到記分/分類系統(tǒng)186供額外分析。然而如果URL不滿 足為將其轉換為候選URL而指定的條件,則方法前進到方框1516且不將URL標記為候 選。盡管在URL候選分類的上下文中描述此實施例,但所屬領域的技術人員將容易了解, 可使用上述過程類似地分析應用程序并將其標記為候選。
在另一實施例中,系統(tǒng)可結合數(shù)據(jù)挖掘系統(tǒng)192利用蜜罐客戶端系統(tǒng)208來收集將 添加到候選URL列表用于分類的URL。圖16說明用于收集此數(shù)據(jù)的過程的實例。在方 框1600,啟動蜜罐客戶端控制服務器220。接著在方框1602控制服務器220啟動一個或 一個以上蜜罐挖掘器222。接著在方框1604,蜜罐挖掘器222訪問由控制服務器220向 其提供的下一URL,并在方框1606解析所述URL的頁面源以確定URL中是否存在活動 內容。如果頁面中沒有發(fā)現(xiàn)活動內容,則過程跳轉到方框1610。然而如果發(fā)現(xiàn)活動內容, 則過程移動到方框1608,其中將URL添加到候選URL列表。
接著在方框1610,挖掘器222確定當前URL是否含有超鏈接或表格。如果沒有發(fā)現(xiàn) 超鏈接或表格,則過程循環(huán)回到方框1604,其中挖掘器從控制服務器222接收另一URL
18供分析。然而如果URL含有超鏈接或表格,則方法前進到方框1612,其中其接著確定 URL是否包含隱藏鏈接或表格。因為許多惡意網(wǎng)站希望避免例如蜜罐客戶端系統(tǒng)208的 挖掘軟件的檢測,所以其包含當人瀏覽時無法看到的隱藏超鏈接。因此,網(wǎng)站可通過將 這些鏈接作為"誘餌"隱藏來檢測挖掘器。用于隱藏鏈接的一種技術是使其具有與網(wǎng)頁 背景相同的顏色。如果挖掘器跟隨鏈接,則網(wǎng)站被警告存在挖掘器。
在圖16提供的方法中,挖掘器經配置以檢測這些隱藏鏈接。如果不存在隱藏鏈接, 那么過程跳轉到方框1618,且挖掘器通過跟隨URL內容中的非隱藏鏈接而繼續(xù)。然而在 方框1614,如果存在任何隱藏鏈接,則在方框1616將URL及其隱藏鏈接添加到分類列 表并將其忽略。 一旦隱藏鏈接經處理(即,添加到分類列表),則方法接著前進到方框 1618,其中跟隨非隱藏鏈接。
在一些實施例中,將URL數(shù)據(jù)添加到URL/內容數(shù)據(jù)庫180,而無需供記分/分類系 統(tǒng)186進行完全分析的所有必要數(shù)據(jù)。舉例來說,有時從收集源194接收的關于URL的 僅有的數(shù)據(jù)是URL串本身。因此,可能必須收集關于URL的額外數(shù)據(jù)以便對其進行適 當分析?,F(xiàn)在參看圖17,其根據(jù)一個實施例展示描述系統(tǒng)可如何處理候選URL的過程。 在方框1700,將來自收集源的數(shù)據(jù)添加到URL/內容數(shù)據(jù)庫180。如先前論述,URL/內 容數(shù)據(jù)庫180可以是數(shù)據(jù)倉庫。接著在方框1702,系統(tǒng)查看URL數(shù)據(jù)并確定是否有進行 分析所必需的遺漏內容。在一些實施例中,如果URL的內容不在數(shù)據(jù)倉庫中,則在方框 1704系統(tǒng)確定需要更多數(shù)據(jù)并將URL發(fā)送到數(shù)據(jù)挖掘模塊用于補充。數(shù)據(jù)挖掘模塊接著 可獲取所接收數(shù)據(jù)并收集額外數(shù)據(jù)。如果沒有內容遺漏,則在方框1706將URL立即發(fā) 送到記分/分類模塊186供進一步分析。
如上論述,收集并分析因特網(wǎng)數(shù)據(jù)以確定其是否包含有害的活動內容的難點之一是 必須收集和分析的極大的數(shù)據(jù)量。在又一實施例中,數(shù)據(jù)挖掘模塊192可用于通過收集 大量相關數(shù)據(jù)來解決這些問題以有效且高效地利用系統(tǒng)資源。現(xiàn)在參看圖18,提供數(shù)據(jù) 挖掘系統(tǒng)192的更詳細的方框圖。數(shù)據(jù)挖掘系統(tǒng)192可采用軟件模塊的形式,其運行多 個異步過程以實現(xiàn)最大效率和輸出。數(shù)據(jù)挖掘系統(tǒng)192可包含插件模塊242,插件模塊 242接收提供關于應如何處理輸入數(shù)據(jù)的指令的配置參數(shù)。在一個實施例中,由插件模 塊接收的指令可采用HTTP協(xié)議插件的形式,其為數(shù)據(jù)挖掘系統(tǒng)192提供參數(shù)以接收URL 數(shù)據(jù)并基于由數(shù)據(jù)挖掘系統(tǒng)對URL數(shù)據(jù)實施的各種HTTP相關指令分析和補充數(shù)據(jù)。在 另一實施例中,插件可適合于挖掘例如FTP、 NNTP或某種其它數(shù)據(jù)形式的某種其它協(xié) 議。也可用于實施被動蜜罐客戶端的數(shù)據(jù)挖掘系統(tǒng)192也可包含調度程序248的庫246。 調度程序248是各個異步處理實體,其基于輸入到數(shù)據(jù)挖掘系統(tǒng)中的數(shù)據(jù)(用于分析) 和由插件模塊242接收的配置數(shù)據(jù)接收任務指派。庫246是由驅動程序244控制的調度 程序集合。驅動程序244是用于庫的管理機制。驅動程序244可經配置以監(jiān)視庫246中 的調度程序248的活動以確定何時將額外數(shù)據(jù)發(fā)送到庫246中用于挖掘和分析。在一個 實施例中,驅動程序可經配置以每當任何調度程序248空閑便將新數(shù)據(jù)單元發(fā)送到庫246 中。在一個實施例中,驅動程序244可用作控制服務器以管理如上文結合圖IO描述的蜜 罐客戶端挖掘器222。庫246可將數(shù)據(jù)單元傳遞到空閑的調度程序248。調度程序248讀 取插件配置并根據(jù)插件242執(zhí)行動作。
在一個實施例中,插件模塊可接收HTTP插件。HTTP插件可經配置以接收呈URL 串形式的輸入數(shù)據(jù),關于所述數(shù)據(jù),數(shù)據(jù)挖掘系統(tǒng)192將獲得額外信息,例如URL的頁 面內容、在接入時由URL返回的HTTP消息(例如,"4xx—文件未找到"或"5xx—服 務器錯誤")。插件可進一步指定網(wǎng)絡爬行模式,其中調度程序除了收集頁面內容以外還 將URL內容內的URL鏈接添加到待分析的URL數(shù)據(jù)集。
如本文使用,"數(shù)據(jù)庫"指存儲在可由計算機存取的媒體上的存儲數(shù)據(jù)的任何集合。 舉例來說,數(shù)據(jù)庫可指平面數(shù)據(jù)文件或結構化數(shù)據(jù)文件。而且,將認識到結合本文揭示 的實施例描述的各種說明性數(shù)據(jù)庫可實施為組合各種說明性數(shù)據(jù)庫的方面的數(shù)據(jù)庫,或 者可將說明性數(shù)據(jù)庫劃分為多個數(shù)據(jù)庫。舉例來說,各種說明性數(shù)據(jù)庫中的一者或一者 以上可實施為一個或一個以上關系數(shù)據(jù)庫中的表。實施例可以關系數(shù)據(jù)庫實施,所述關 系數(shù)據(jù)庫包含SQL數(shù)據(jù)庫、面向對象的數(shù)據(jù)庫、對象關系數(shù)據(jù)庫、平面文件或任何其它 合適的數(shù)據(jù)存儲系統(tǒng)。
結合本文揭示的實施例描述的各種說明性邏輯區(qū)塊、模塊和電路可用如下裝置實施 或執(zhí)行通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門 陣列(FPGA)或其它可編程邏輯裝置、離散門或晶體管邏輯、離散硬件組件或其經設計 以執(zhí)行本文所述功能的任意組合。通用處理器可以是微處理器,但在替代方案中,處理 器可以是任何常規(guī)處理器、控制器、微控制器或狀態(tài)機。處理器也可實施為計算裝置的 組合,例如DSP與微處理器的組合、多個微處理器、 一個或一個以上微處理器結合DSP 核心,或任何其它此配置。
結合本文揭示的實施例描述的方法或算法的步驟可直接以硬件實施、以由處理器執(zhí) 行的軟件模塊實施,或以兩者的組合實施。軟件模塊可駐存在RAM存儲器、快閃存儲器、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬盤、可移除盤、CD-ROM 或此項技術中已知的任何其它形式的存儲媒體中。示范性存儲媒體耦合到處理器,使得 處理器可從存儲媒體讀取信息和向存儲媒體寫入信息。在替代方案中,存儲媒體可與處 理器成為一體。處理器和存儲媒體可駐存在ASIC中。ASIC可駐存在用戶終端中。在替 代方案中,處理器和存儲媒體可作為離散組件駐存在用戶終端中。所屬領域的技術人員 將了解,在不脫離本發(fā)明精神的情況下可做出許多各種修改。因此,應清楚了解,本發(fā) 明的形式僅是說明性的,且不希望限制本發(fā)明的范圍。
權利要求
1.一種識別不適當網(wǎng)絡內容的計算機實施的方法,所述方法包括接收針對網(wǎng)絡內容的請求;將所述請求與數(shù)據(jù)庫中的數(shù)據(jù)進行比較;如果所述請求不在所述數(shù)據(jù)庫中,則將所述請求發(fā)送到收集模塊;通過所述收集模塊收集與所述請求相關的數(shù)據(jù);以及基于所述收集的數(shù)據(jù)確定所述請求的候選狀態(tài)。
2. 根據(jù)權利要求1所述的計算機實施的方法,其中所述請求是應用程序請求。
3. 根據(jù)權利要求1所述的計算機實施的方法,其中所述請求是針對URL的請求。
4. 根據(jù)權利要求l所述的計算機實施的方法,其中所述數(shù)據(jù)庫是URL/內容數(shù)據(jù)庫。
5. 根據(jù)權利要求1所述的計算機實施的方法,其中所述網(wǎng)絡內容是可通過URL接入的 內容。
6. 根據(jù)權利要求1所述的計算機實施的方法,其中確定是否使所述請求成為候選請求 包括預先處理與所述請求相關的所述數(shù)據(jù);以及 至少部分地基于所述預先處理將所述請求標記為候選請求。
7. 根據(jù)權利要求6所述的計算機實施的方法,其中所述預先處理包含掃描所述數(shù)據(jù)以 查找已知的不安全數(shù)據(jù)元素。
8. 根據(jù)權利要求7所述的計算機實施的方法,其中所述預先處理指示與所述請求相關 的所述數(shù)據(jù)含有已知的不安全數(shù)據(jù)元素。
9. 根據(jù)權利要求7所述的計算機實施的方法,其進一步包括如果與所述請求相關的 所述數(shù)據(jù)不含有已知的不安全數(shù)據(jù)元素,則將所述請求標記為可能的候選請求。
10. 根據(jù)權利要求9所述的計算機實施的方法,其進一步包括-配置數(shù)據(jù)挖掘模塊以從所述可能的候選請求中選擇候選請求;以及 將所述可能的候選請求輸入到所述數(shù)據(jù)挖掘模塊中。
11. 根據(jù)權利要求10所述的計算機實施的方法,其中配置所述數(shù)據(jù)挖掘模塊包含定義 指示目標屬性的特性,以及配置所述數(shù)據(jù)挖掘模塊以識別具有所述屬性的請求。
12. 根據(jù)權利要求11所述的計算機實施的方法,其中所述屬性是一組關鍵詞、常規(guī)表達 式或操作數(shù)中的至少一者。
13. 根據(jù)權利要求11所述的計算機實施的方法,其中所述屬性是HTTP請求標頭數(shù)據(jù)的類型。
14. 根據(jù)權利要求ll所述的計算機實施的方法,其中所述HTTP請求標頭數(shù)據(jù)包含內容類型。
15. —種用于從一組未經歸類的URL中選擇候選URL的系統(tǒng),所述系統(tǒng)包括數(shù)據(jù)庫,其存儲所述未經歸類的URL;收集系統(tǒng),其經配置以收集與所述未經歸類的URL相關的信息;以及 數(shù)據(jù)挖掘模塊,其經配置以識別具有指示目標內容的特性的未經歸類的URL。
16. 根據(jù)權利要求15所述的系統(tǒng),其中所述目標內容是有害內容。
17. 根據(jù)權利要求15所述的系統(tǒng),其進一步包括經配置以收集關丁-所述未經歸類的URL 的額外數(shù)據(jù)的收集模塊,所述額外數(shù)據(jù)用于識別所述目標內容。
18. 根據(jù)權利要求17所述的系統(tǒng),其中所述收集模塊包含網(wǎng)絡爬行模塊。
19. 根據(jù)權利要求18所述的系統(tǒng),其中所述收集模塊包含關鍵詞數(shù)據(jù)模塊。
20. 根據(jù)權利要求19所述的系統(tǒng),其進一步包括經配置以基于候選URL的可能危險確 定所述URL的優(yōu)先權以進行歸類的優(yōu)先權模塊。
21. —種收集關于URL的數(shù)據(jù)的計算機實施的方法,所述方法包括提供具有配置插件的數(shù)據(jù)挖掘模塊,所述數(shù)據(jù)挖掘模塊具有經配置以彼此獨立操 作的多個調度程序;將URL數(shù)據(jù)接收到所述數(shù)據(jù)挖掘模塊中以用于分析;將所述URL數(shù)據(jù)分離為工作單元,每一工作單元包括一 URL;確定所述多個調度程序中是否有一者可用于接收工作單元;如果可用,則將所述工作單元中的一者發(fā)送到所述調度程序中的一者;以及基于由所述配置插件提供的數(shù)據(jù)處理所述發(fā)送的工作單元。
22. 根據(jù)權利要求21所述的計算機實施的方法,其中所述調度程序每一者在計算機存 儲器內包括一單獨過程。
23. 根據(jù)權利要求22所述的方法,其中所述配置插件向所述可用的調度程序提供指令, 所述指令致使所述可用的調度程序訪問與所述經處理的發(fā)送的工作單元相關的網(wǎng) 頁并將與所述經處理的發(fā)送的工作單元相關聯(lián)的數(shù)據(jù)存儲在數(shù)據(jù)庫中。
24. 根據(jù)權利要求23所述的方法,其中如果與所述經處理的發(fā)送的工作單元相關聯(lián)的 所述數(shù)據(jù)包含URL串,則將所述URL串添加到所述URL數(shù)據(jù)。
25. 根據(jù)權利要求21所述的方法,其中所述確定所述多個調度程序中是否有一者可用于接收工作單元包括輪詢所述調度程序。
26. —種用于收集關于URL的數(shù)據(jù)的系統(tǒng),所述系統(tǒng)包括數(shù)據(jù)庫,其用于存儲關于URL的信息;調度程序庫,所述調度程序包括異步系統(tǒng)過程,所述異步系統(tǒng)過程每一者經配置 以接收URL數(shù)據(jù)輸入并對所述數(shù)據(jù)執(zhí)行動作;以及驅動程序模塊,其經配置以監(jiān)視所述調度程序庫以查找可用的調度程序,且將所 述URL數(shù)據(jù)輸入的一部分發(fā)送到所述可用的調度程序。
27. 根據(jù)權利要求26所述的系統(tǒng),其中所述調度程序進一步經配置以訪問由所述接收 的URL數(shù)據(jù)輸入指示的URL并將與所述URL數(shù)據(jù)輸入相關聯(lián)的信息下載到所述數(shù) 據(jù)庫。
28. —種用于從一組未經歸類的URL中識別候選URL的系統(tǒng),所述系統(tǒng)包括用于存儲所述未經歸類的URL的構件; 用于收集與所述未經歸類的URL相關的信息的構件;以及 用于識別具有指示目標內容的特性的所述未經歸類的URL的構件。
全文摘要
本發(fā)明提供一種用于識別網(wǎng)絡上的網(wǎng)站中的不適當內容的系統(tǒng)和方法。未被認出的統(tǒng)一資源定位符(URL)或其它網(wǎng)絡內容由工作站接入并識別為可能具有惡意內容??稍诰W(wǎng)關服務器模塊或某種其它軟件模塊內預先處理所述URL或網(wǎng)絡內容以收集與所述URL相關的額外信息??蓲呙杷鯱RL以查找已知的攻擊簽名,且如果發(fā)現(xiàn)任何攻擊簽名,則可將所述URL標記為需要由分類模塊進行進一步分析的候選URL。
文檔編號G06F17/30GK101517570SQ200780025938
公開日2009年8月26日 申請日期2007年7月9日 優(yōu)先權日2006年7月10日
發(fā)明者丹·哈伯德, 尼古拉斯·J·維雷尼尼 申請人:網(wǎng)圣公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1