專利名稱:一種釣魚網站的實時檢測方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明是屬于互聯(lián)網技術和網絡安全技術領域,尤其涉及一種釣魚網站的實時檢測方法及系統(tǒng)。
背景技術:
近年來,互聯(lián)網在中國得到了蓬勃的發(fā)展,但越來越嚴重的安全問題日益引起了人們的注意,其中,釣魚網站是網絡欺詐的代表。釣魚網站是一種在線身份偽造的欺詐方式,它往往偽裝成正規(guī)網站,使用社會工程學和技術偽裝等手段騙取用戶的信任,竊取用戶的個人身份數據和金融賬號等敏感信息。釣魚網站的檢測已成為網絡安全領域最熱門的話
題之一。
·
目前,相關的研究有Justin MK, Basnet SM等提出采用對統(tǒng)一資源定位符(Uniform Resource Locator,簡稱URL)在線識別的檢測方法,通過已知特征等先驗知識進行學習,對URL進行分類檢測,但是這類方法的誤判率和漏判率較高。PanYing等提出通過對Web頁面的異常特征分析識別來進行釣魚網站的檢測,但其速度和效率都不高。PhishTank通過用戶舉報和人工審核的方式,建立了可信度高的釣魚網站的URL的黑名單,但無法檢測不在黑名單內的釣魚網站,且更新黑名單需要人工核對,有一定的滯后性。一些互聯(lián)網廠商推出了一系列瀏覽器輔助工具,例如eBay提供了相應的瀏覽器插件;G00gle推出了可以鑒別欺詐性網頁的通用插件,但是這些輔助插件對各種釣魚網站的檢測效果也不盡人意。
發(fā)明內容
基于現(xiàn)有技術中的問題,本發(fā)明的目的是提供一種釣魚網站的實時檢測方法及系統(tǒng)。首先對用戶提交的網站URL進行白/黑名單的檢測,若該URL在白/黑名單內,可快速識別該網站是否為釣魚網站。對不在白/黑名單內的網站URL,則提取該URL的特征,并采用貝葉斯方法對其進行檢測,檢測該網站是否為釣魚網站,對貝葉斯方法無法確定的可疑網站,再提取該網站的頁面特征,采用最小二乘支持向量機方法對其進行檢測,確定該網站是否為釣魚網站。為了達到上述目的,本發(fā)明提供了一種釣魚網站的實時檢測方法,其包括如下步驟步驟I獲取當前網站的URL地址;步驟2利用白名單和黑名單對網站的URL地址進行檢測;步驟3對于不在白/黑名單內的網站URL提取其URL特征,并進行預處理;步驟4采用貝葉斯方法對預處理后的URL特征進行檢測,判斷其是否為釣魚網站,若不能明確確定,則將其定為可疑網站;步驟5對可疑網站進行web頁面內容的提取,并進行預處理;步驟6采用最小二乘支持向量機方法對預處理后的頁面特征進行檢測,判斷其是否為釣魚網站。所述步驟2中的白名單里保存的是審核過的可信網站的URL信息;黑名單里保存的是審核過的釣魚網站的URL信息。網站的URL地址首先進入白名單比對,若屬于白名單則直接放行;否則,進入黑名單比對,若屬于黑名單,則判斷當前網站是釣魚網站;若不屬于黑名單,則進入步驟3。所述步驟3中的URL特征包括URL中是否含有IP地址;URL中是否含有“O”等異常字符;URL中二級域名的檢測;URL端口 ;URL的長度。預處理是指對提取的特征屬性進行離散化處理。所述步驟4中的貝葉斯方法的計算公式是;p(Ci|X)=P(Cl)X^|Cl)
P(X)
p(C 11X) , ,、
X是網站URL的特征屬性,設Cl為可信網站,C2是釣魚網站。^1Ol)
p(C21 X)
時,該網站被判定為可信網站( β>1 )時,該網站被判定為釣魚網站;當
P(C11 X;
士 ^I v!5 a時,需進一步明確該網站屬于哪個類,暫被判定為可疑網站,則進入步驟
β p(C2 I X)
50所述步驟5中的提取網站頁面的特征,包括標題標簽中提取的關鍵字;Meta標簽中提取的關鍵字;頁面中包含的鏈接URL地址;圖片的鏈接URL地址;頁面所有可見字符串集合;Script腳本中的字符串。預處理是指對提取的特征值進行歸一化處理。所述步驟6中的最小二乘支持向量機的決策模型形式如下
ηf(x) = yjalK{x.xi) + b
i=\其中,K(x,Xi)為RBF核函數,形式為Ζ(χ,,χ) = e—承—<,Xi, x為步驟5中得到的可疑網站頁面樣本的特征向量。α和b可由求解下列方程組得出
ο I … I b] Γ0
I K(XlyXi) + !/r ■·· K(X1^X11) aL yt.....=.
I K(XnjXl) ··· Κ{χ ,χη) + \! γ^_αη\ [yn_其中,Xi和yi (i=l, -,n)分別表示已知類標簽的網站頁面樣本的特征向量和分類標簽。如果最終分類決策函數f 00=1,判定該網站是可信網站;f (χ)=-ι,判定該網站是釣魚網站。為了達到上述目的,本發(fā)明提供了一種釣魚網站的實時檢測系統(tǒng),用于幫助用戶驗證網站的真?zhèn)?,有效識別釣魚網站,包括安裝在服務器端的系統(tǒng)服務器端和安裝在用戶端的系統(tǒng)客戶端,其中,所述系統(tǒng)服務器端包括白名單和黑名單模塊,所述白名單模塊用來保存可信網站的URL;所述黑名單模塊用來保存釣魚網站的URL ;頁面特征模塊,用于保存所述白名單和黑名單模塊中可信網站和釣魚網站的web頁面特征;數據預處理模塊,用于提取所述白名單和黑名單模塊中的網站URL特征,進行離散處理,得到特征屬性,形成可信URL矩陣和釣魚URL矩陣。此外,還提取所述頁面特征模塊中的web頁面特征,進行歸一化處理,得到特征向量,形成可信頁面數據集和釣魚頁面數據集;特征提取模塊,用于根據待檢測網站的URL地址進行URL特征提取和web頁面特征提??;貝葉斯模塊,用于根據所述數據預處理模塊中的可信URL矩陣和釣魚URL矩陣訓練得到貝葉斯分類器,并根據所述特征提取模塊中得到的待檢測網站的URL特征進行釣魚網站的判斷。支持向量機模塊,用于根據所述數據預處理模塊中的可信頁面數據集和釣魚頁面數據集訓練得到最小二乘支持向量機分類器,并根據所述特征提取模塊中得到的待檢測網 站的web頁面特征進行釣魚網站的判斷。通信模塊1,用于接收所述系統(tǒng)客戶端傳輸來的URL地址和向所述系統(tǒng)客戶端傳輸網站性質的判定結果。所述系統(tǒng)客戶端包括URL指紋列表,用于保存加密后的所述系統(tǒng)服務器上白/黑名單中的數據,URL指紋可以通過使用MD5或SHAl哈希算法獲得;URL提取模塊,用于實時采集用戶在待檢測網站的URL地址信息;通信模塊2,用于向所述系統(tǒng)服務器端傳輸URL地址和接收所述系統(tǒng)客戶端傳輸來的當前網站性質的判定結果;報警模塊,用于根據所述URL指紋列表和所述通信模塊2的返回結果對當前訪問網站的性質進行判斷,若是可信網站,則允許用戶繼續(xù)訪問當前訪問網站。若是釣魚網站,則向用戶報警,讓用戶選擇是否繼續(xù)訪問,如果用戶選擇是,則允許用戶繼續(xù)訪問;如果用戶選擇否,則關閉當前訪問的網站。作為優(yōu)化方案,所述特征提取模塊包括URL處理模塊,用于根據所述URL提取模塊提取的URL地址對網站的URL特征進行提取;頁面處理模塊,用于根據URL提取模塊提取的網站URL地址進行網站的web頁面特征的提取。作為又一優(yōu)化方案,所述貝葉斯模塊包括貝葉斯訓練模塊,根據所述數據預處理模塊中的可信URL矩陣和釣魚URL矩陣進行訓練,得到可信URL和釣魚URL的先驗概率并得到貝葉斯分類器;貝葉斯分類模塊,根據所述貝葉斯訓練模塊中得到的貝葉斯分類器,從所述URL處理模塊接收URL特征屬性,計算其分別在可信URL和釣魚URL下的概率,判斷其是否為釣魚網站,若能明確判斷,則把結果保存在所述數據預處理模塊中并把判斷結果發(fā)送至所述通信模塊I ;若無法明確確定,則將其定為可疑網站,并通過所述頁面處理模塊提取該網站的web頁面特征。作為再一優(yōu)化方案,所述支持向量機模塊包括
支持向量機訓練模塊,根據所述數據預處理模塊中的可信頁面數據集和釣魚頁面數據集進行訓練,以確定最小二乘支持向量機的決策函數的形式,最后通過訓練得到一個用于對web頁面特征判斷的最小二乘支持向量機分類器;支持向量機分類模塊,根據所述支持向量機訓練模塊中得到的最小二乘支持向量機分類器模型,從所述頁面處理模塊接收待檢測網站的web頁面特征,判斷其是否是釣魚網站,然后將結果保存在所述數據預處理模塊中,并傳遞給所述通信模塊I。進一步的,若待檢測網站的URL地址在所述URL指紋列表的白名單中時,所述報警模塊就直接放行,允許用戶繼續(xù)訪問;若當前訪問網站的URL地址在所述黑名單中時,所述報警模塊就阻斷當前的訪問并進行報警,讓用戶選擇是否繼續(xù)訪問,如果用戶選擇是,則允許用戶繼續(xù)訪問;如果用戶選擇否,則關閉當前訪問的網站;若當前訪問網站的URL地址不屬于白名單和黑名單,則采集待檢測網站的URL地址,經由所述通信模塊2提交至所述系統(tǒng) 服務器端。進一步的,所述白名單和黑名單模塊中最初可根據PhishTank數據庫創(chuàng)建,PhishTank數據庫可以從因特網上下載得到;其后可根據所述數據預處理模塊保存的對網站判斷的結果實時自動更新。白名單不存在失效期;黑名單存在失效期,一段時間內該網站不再是釣魚網站的話可自動從黑名單中去除,操作員亦可根據實際情況維護黑名單。進一步的,所述貝葉斯訓練模塊和所述支持向量機訓練模塊需根據所述數據預處理模塊的保存的對網站判斷的結果定期重新訓練,可提高貝葉斯分類器和最小二乘支持向量機分類器的準確性。進一步的,所述URL指紋列表需要定期向所述系統(tǒng)服務器端提交更新要求,所述服務器端則向所述系統(tǒng)客戶端返回更新后的URL指紋列表。與現(xiàn)有技術,本發(fā)明的有益效果是1)采用多種特征表達方式,既包括網站URL特征,又包括Web頁面特征,最大限度地表現(xiàn)釣魚網站的特征;2)網站的URL特征提取相對簡單,利用貝葉斯方法速度快的特點對網站的URL特征進行檢測,滿足了快速分類的要求,提高了檢測的效率;3)利用SVM方法準確率較高的特點進一步對網站的頁面特征進行檢測,滿足了精度高的要求,提高了檢測的準確率。4)貝葉斯方法和SVM方法相結合,使得本發(fā)明方法具有較好的自適應性和較高的智能化水平。
圖I是本發(fā)明一種釣魚網站的實時檢測方法實施例一的流程圖;圖2是本發(fā)明一種釣魚網站的實時檢測方法實施例二的流程圖;圖3是本發(fā)明一種釣魚網站的實時檢測方法實施例三的流程圖;圖4是本發(fā)明一種釣魚網站的實時檢測系統(tǒng)的結構示意圖;圖5是本發(fā)明釣魚網站的實時檢測系統(tǒng)中特征處理模塊結構示意圖;圖6是本發(fā)明釣魚網站的實時檢測系統(tǒng)中貝葉斯模塊結構示意圖;圖7是本發(fā)明釣魚網站的實時檢測系統(tǒng)中最小二乘支持向量機模塊結構示意圖。
具體實施例方式下面結合附圖和實施例對本發(fā)明作進一步的描述。
圖I是本發(fā)明一種釣魚網站的實時檢測方法實施例一的流程圖。具體地,如圖I所示,本實施例檢測的方法可包括如下步驟步驟101獲取當前網站的URL地址;步驟102利用白名單和黑名單對網站的URL地址進行檢測。白名單里保存的是審核過的可信網站的URL信息;黑名單里保存的是審核過的釣魚網站的URL信息。當前網站的URL地址首先與白名單進行比對,若屬于白名單則直接放行;否則,與黑名單進行比對,若屬于黑名單,就阻斷當前的訪問,并提示讓用戶選擇是否繼續(xù)訪問,如果用戶選擇是,則允許用戶繼續(xù)訪問;如果用戶選擇否,則關閉當前訪問的網站。圖2是本發(fā)明一種釣魚網站的實時檢測方法實施例二的流程圖。在上述圖I所示實施例技術方案的基礎上,本實施例中通過貝葉斯方法對網站的URL特征進行檢測,對待檢測網站是否為釣魚網站進行判斷,具體地,如圖2所示,本實施例包括以下步驟 步驟201獲取當前網站的URL地址;步驟202利用白名單和黑名單對網站的URL地址進行檢測,若該URL不在白名單和黑名單內,則進入步驟203 ;步驟203提取該網站的URL特征,并進行預處理;若經過白名單和黑名單的比對后,網站URL地址既不屬于白名單也不屬于黑名單,則提取網站的URL特征。提取網站的URL特征有1) URL中是否含有IP地址。2) URL中是否含有等異常字符。3)URL中η (η彡2)級域名的檢測。部分釣魚網站通過多級域名的使用來迷惑用戶。4)URL端口。有些釣魚網站使用了非80端口。因此,從URL中所獲取的網站端口號也是作為識別釣魚網站的一個重要依據。5)URL的長度。一般可信網站的URL的長度小于23,這里的長度是指URL地址中包含字符的個數。預處理是指對提取的特征屬性離散化處理,對于特征3和5連續(xù)型屬性,按照劃分等寬區(qū)間的方法進行離散化,利用公式(max (Ai)-Hiin (Ai)Vm,其中Hiax(Ai)表示連續(xù)屬性Ai的最大值,Hiin(Ai)表示連續(xù)屬性Ai的最小值,m表示類別屬性取值的個數。步驟204采用貝葉斯方法對待檢查網站的URL特征進行檢測,判斷其是否為釣魚網站。使用貝葉斯方法計算網站URL的特征值X屬于Cl和C2 (設Cl為可信網站,C2是釣魚網站)的概率P(CllX)和p(C2|X)。P(CllX)的計算公式是
P(ClIX) = P(⑶ X P(XICl) _ P(Cl)Xnp(XjCl)其中,ρ(χ)對于所有類都為常數, P(X)P(X)
P(Cl)是Cl的訓練樣本數在所有訓練樣本數中所占的比例,P(XiIci)是在屬性Ai上具有值Xi的訓練樣本數在所有Cl訓練樣本數中所占的比例。p(C2|X)的計算方法與P (Cl |X)相
同。當>α (α>1)時,該網站被判定為可信網站;當^)泰>々(夕>1)時,該網 p(C2 I X)p(Cl I X)
I D(ClIX)
站被判定為釣魚網站;當7 ^^ 時,不能明確該網站屬于哪個類,需進一步進行
β P(C2 X)
檢測,暫時被判定為可疑網站。其中,α和β的值根據實際環(huán)境預先設定,α和β的值可以相同也可以不同??梢钥闯觯景l(fā)明實施例中,通過提取不在根據白名單和黑名單內的URL地址的特征,使用貝葉斯方法進行檢測,并可將檢測結果通知相關處理系統(tǒng)或相關人員,具有較高的檢測效率和檢測結果,同時貝葉斯方法還具有較快的響應時間,可實時地檢測出釣魚網站。圖3是本發(fā)明一 種釣魚網站的實時檢測方法實施例三的流程圖。在上述圖2所示實施例技術方案的基礎上,本實施例中可通過最小二乘支持向量機方法對網站的web頁面的特征進行處理,對待檢測網站是否為釣魚網站進行判斷,具體地,如圖3所示,本實施例包括以下步驟步驟301獲取當前網站的URL地址;步驟302利用白名單和黑名單對網站的URL地址進行檢測,若該URL不在白名單和黑名單內,則進入步驟303 ;步驟303提取網站的URL特征,并進行預處理;步驟304采用貝葉斯方法對待檢查網站的URL進行檢測,若無法確定,則將其定為可疑網站,進入步驟305 ;步驟305提取該網站的web頁面特征,并進行預處理;若當前網站被貝葉斯方法劃分成可疑網站,則進行頁面特征的提取,提取的頁面的特征有I)標題標簽中提取的關鍵字。2)Meta標簽中提取的關鍵字。3)頁面中包含的鏈接URL地址。4)圖片的鏈接URL地址。5)頁面所有可見字符串集合。6)Script腳本中的字符串。預處理是指對提取的web頁面特征進行歸一化處理,使用的公式是X' = (X-min (X)) /(max(X) 一 min(X)),其中X為歸一化前的特征值,X’表示歸一化后的特征值,min(X)表示數據變量的最小值,max (X)表示數據變量的最大值。步驟306采用最小二乘支持向量機方法對預處理后的頁面特征進行檢測,判斷其是否為釣魚網站。使用的最小二乘支持向量機的決策模型形式如下./_<>) = ~Σα,Κ(λ%Xi)+ b。其中,K(x,Xi)為RBF核函數,形式為Z(x,,x) = e—H,Xi, x為步驟5中得到的可
疑網站頁面樣本的特征向量。α和b由求解下式方程組得出
O I …I Γ b I Γ O —
I Α(ν χ,) + /χ ··· K(X17X11) U1 V1.....=.
_1 K(X^X1) ··· K{xn,xn) + H γ\[αη\其中,Xi和yi (i=l, -,n)分別表示已知類標簽的網站頁面樣本的特征向量和分類標簽。如果最終分類決策函數f 00=1,判定該網站是可信網站;如果f (χ)=-ι,判定該網站是釣魚網站。可以看出,本發(fā)明實施例中,通過提取可疑網站的頁面特征,并使用最小二乘支持向量機方法進行檢測,可精確地檢測出其是否為釣魚網站,并可將檢測結果通知相關處理系統(tǒng)或相關人員。最小二乘支持向量機方法將釣魚網站的檢測轉化成二元分類問題,具有較高的準確性和快捷性。本發(fā)明還提供了一種釣魚網站的實時檢測系統(tǒng)。圖4是本發(fā)明一種釣魚網站的實時檢測系統(tǒng)的結構示意圖,具體地,如圖4所示,本發(fā)明系統(tǒng)包括安裝在服務器端的系統(tǒng)服務器端和安裝在用戶端的系統(tǒng)客戶端。其中,系統(tǒng)服務器端包括白名單和黑名單模塊、頁面特征模塊、數據預處理模塊、特征提取模塊、貝葉斯模塊、支持向量機模塊和通信模塊I。白名單和黑名單模塊的白名單模塊用來保存已審核的可信網站的URL,黑名單模塊用來保存已審核的釣魚網站的URL。白名單和黑名單最初可根據PhishTank數據庫創(chuàng)建,PhishTank數據庫可從因特網上下載得到,并根據數據預處理模塊的保存結果添加審核過的網站的URL。白名單和黑名單模塊實行自動實時更新的策略,白名單不存在失效期;黑名單存在失效期,一段時間內該網站不再是釣魚網站的話可自動從黑名單中去除,操作員亦可根據實際情況維護黑名單。頁面特征模塊,用于保存白名單和黑名單模塊中可信網站和釣魚網站的web頁面特征;數據預處理模塊,用于提取白名單和黑名單模塊中的網站URL特征,進行離散化 處理,得到特征屬性,形成可信URL矩陣和釣魚URL矩陣。此外,還提取頁面特征模塊中的web頁面特征,進行歸一化處理,得到特征向量,形成可信頁面數據集和釣魚頁面數據集;特征處理模塊,用于根據待檢測網站的URL地址進行URL特征提取和web頁面特征提?。回惾~斯模塊,用于根據數據預處理模塊中的可信URL矩陣和釣魚URL矩陣訓練得到貝葉斯分類器,并對特征處理模塊中得到的待檢測網站的URL特征進行釣魚網站的判斷;支持向量機模塊,用于根據數據預處理模塊中的可信頁面數據集和釣魚頁面數據集訓練得到最小二乘支持向量機分類器,并對特征處理模塊中得到的待檢測網站的web頁面特征進行釣魚網站的判斷;通信模塊1,用于接收系統(tǒng)客戶端傳輸來的URL地址和向系統(tǒng)客戶端發(fā)送待檢測網站的性質的判定結果。 如圖5所示,特征提取模塊包括URL處理模塊,用于根據URL提取模塊提取的URL地址對網站的URL特征進行提取;頁面處理模塊,用于根據URL提取模塊提取的網站URL地址進行網站的web頁面特征的提取。如圖6所示,貝葉斯模塊包括貝葉斯訓練模塊,根據數據預處理模塊中的可信URL矩陣和釣魚URL矩陣進行訓練,得到可信URL和釣魚URL的先驗概率并得到貝葉斯分類器;并根據數據預處理模塊的保存的對網站判斷的結果定期重新訓練,可提高貝葉斯分類器的準確性;貝葉斯分類模塊,用于根據URL特征進行貝葉斯方法的實現(xiàn),根據得到的貝葉斯分類器,計算其分別在可信URL和釣魚URL下的概率并判斷網站的性質。若判定為可信網站或釣魚網站,并將檢測結果傳遞給通信模塊1,同時把URL特征和檢測結果保存至數據預處理模塊;若無法明確確定是否為釣魚網站,則判定為可疑網站,此時頁面處理模塊提取該網站的web頁面特征,并提交至支持向量機分類模塊。如圖7所示,支持向量機模塊包括
支持向量機訓練模塊,根據數據預處理模塊中的可信頁面數據集和釣魚頁面數據集進行訓練,為訓練集中的每條數據都給出其類別信息,以確定最小二乘支持向量機的決策函數的形式,最后通過訓練得到一個用于對頁面特征判斷的最小二乘支持向量機分類器;并根據數據預處理模塊的保存的對網站判斷的結果定期重新訓練,可提高最小二乘支持向量機分類器的準確性;支持向量機分類模塊,根據最小二乘支持向量機分類器確定的模型,對待檢測網站的web頁面特征進 行決策判斷,判斷其是否是釣魚網站,并把web頁面特征和檢測結果保存在數據預處理模塊中,同時將檢測結果傳遞給通信模塊I。其中,系統(tǒng)客戶端包括URL指紋列表、URL提取模塊、通信模塊2和報警模塊。URL指紋列表,用于保存加密后的所述系統(tǒng)服務器上黑/白名單中的數據。URL指紋可以使用MD5或SHAl哈希算法獲得,URL指紋列表需要定期向系統(tǒng)服務器端提交更新要求;若待檢測網站的URL地址在白名單中,就直接放行,允許用戶繼續(xù)訪問該網站;若待檢測網站的URL地址在黑名單中,報警模塊就阻斷當前的訪問并進行報警,讓用戶選擇是否繼續(xù)訪問,如果用戶選擇是,則允許用戶繼續(xù)訪問;如果用戶選擇否,則關閉當前訪問的網站;若待檢測網站的URL地址不屬于白名單和黑名單,則需采集該網站的URL地址。URL提取模塊,用于實時采集用戶在待檢測網站的URL地址信息。通信模塊2,用于向系統(tǒng)客戶端傳遞待檢測網站的URL地址;接收從系統(tǒng)客戶端傳輸來的待檢測網站的性質的檢測結果,并把檢測結果返回至報警模塊。報警模塊,用于根據URL指紋列表和通信模塊2的返回結果對待檢測網站的性質,分別采取不同的策略若是可信網站,則允許用戶繼續(xù)訪問當前訪問網站,若是釣魚網站,則向用戶報警,讓用戶選擇是否繼續(xù)訪問,如果用戶選擇是,則允許用戶繼續(xù)訪問;如果用戶選擇否,則關閉當前訪問的網站。本發(fā)明實施例中系統(tǒng)的系統(tǒng)客戶端或系統(tǒng)服務器端的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中。上述提到的存儲介質可以是只讀存儲器、磁盤或光盤等。以上所述的僅是本發(fā)明的優(yōu)選實施方式,本發(fā)明不限于以上實施例。可以理解,本領域技術人員在不脫離本發(fā)明的精神和構思的前提下直接導出或聯(lián)想到的其他改進和變化,均應認為包含在本發(fā)明的保護范圍之內。
權利要求
1.一種釣魚網站的實時檢測方法,其包括如下步驟 步驟I獲取當前網站的URL地址; 步驟2利用白名單和黑名單對網站的URL地址進行檢測; 步驟3對于不在白/黑名單內的網站URL提取其URL特征,并進行預處理; 步驟4采用貝葉斯方法對預處理后的URL特征進行檢測,判斷其是否為釣魚網站,若不能明確確定,則將其定為可疑網站; 步驟5對可疑網站進行web頁面內容的提取,并進行預處理; 步驟6采用最小二乘支持向量機方法對預處理后的頁面特征進行檢測,判斷其是否為釣魚網站。
2.根據權利要求I所述的釣魚網站的實時檢測方法,其特征在于所述步驟2中的白名單里保存的是審核過的可信網站的URL信息;黑名單里保存的是審核過的釣魚網站的URL信息;網站的URL地址首先進入白名單比對,若屬于白名單則直接放行;否則,進入黑名單比對,若屬于黑名單,則判斷當前網站是釣魚網站;若不屬于黑名單,則進入步驟3 ; 所述步驟3中的URL特征包括URL中是否含有IP地址;URL中是否含有異常字符;URL中二級域名的檢測;URL端口 ;URL的長度,預處理是指對提取的特征屬性進行離散化處理; 所述步驟4中的貝葉斯方法的計算公式是P(CilX) = P(Ci) 1 Cl) (i^^2)-X P(X)是網站URL的特征屬性,設Cl為可信網站,C2是釣魚網站;Μ1Ρ(^;ν > α κ α'Λ )時, p(C21 X)該網站被判定為可信網站;當p(二I>β κ / 1)時,該網站被判定為釣魚網站;當
3.—種釣魚網站的實時檢測系統(tǒng),包括安裝在服務器端的系統(tǒng)服務器端和安裝在用戶端的系統(tǒng)客戶端,其中, 所述系統(tǒng)服務器端包括 白名單和黑名單模塊,所述白名單模塊用來保存可信網站的URL ;所述黑名單模塊用來保存釣魚網站的URL ; 頁面特征模塊,用于保存所述白名單和黑名單模塊中可信網站和釣魚網站的web頁面特征;數據預處理模塊,用于提取所述白名單和黑名單模塊中的網站URL特征,進行離散處理,得到特征屬性,形成可信URL矩陣和釣魚URL矩陣;此外,還提取所述頁面特征模塊中的web頁面特征,進行歸一化處理,得到特征向量,形成可信頁面數據集和釣魚頁面數據集;特征提取模塊,用于根據待檢測網站的URL地址進行URL特征提取和web頁面特征提?。? 貝葉斯模塊,用于根據所述數據預處理模塊中的可信URL矩陣和釣魚URL矩陣訓練得到貝葉斯分類器,并根據所述特征提取模塊中得到的待檢測網站的URL特征進行釣魚網站的判斷; 支持向量機模塊,用于根據所述數據預處理模塊中的可信頁面數據集和釣魚頁面數據集訓練得到最小二乘支持向量機分類器,并根據所述特征提取模塊中得到的待檢測網站的web頁面特征進行釣魚網站的判斷; 通信模塊1,用于接收所述系統(tǒng)客戶端傳輸來的URL地址和向所述系統(tǒng)客戶端傳輸網站性質的判定結果; 所述系統(tǒng)客戶端包括 URL指紋列表,用于保存加密后的所述系統(tǒng)服務器上白/黑名單中的數據; URL提取模塊,用于實時采集用戶在待檢測網站的URL地址信息; 通信模塊2,用于向所述系統(tǒng)服務器端傳輸URL地址和接收所述系統(tǒng)客戶端傳輸來的當前網站性質的判定結果; 報警模塊,用于根據所述URL指紋列表和所述通信模塊2的返回結果對當前訪問網站的性質進行判斷,若是可信網站,則允許用戶繼續(xù)訪問當前訪問網站;若是釣魚網站,則向用戶報警,讓用戶選擇是否繼續(xù)訪問,如果用戶選擇是,則允許用戶繼續(xù)訪問;如果用戶選擇否,則關閉當前訪問的網站。
4.根據權利要求3所述的實時檢測系統(tǒng),其特征在于,所述特征提取模塊包括 URL處理模塊,用于根據所述URL提取模塊提取的URL地址對網站的URL特征進行提??; 頁面處理模塊,用于根據URL提取模塊提取的網站URL地址進行網站的web頁面特征的提取。
5.根據權利要求3所述的實時檢測系統(tǒng),其特征在于,所述貝葉斯模塊包括 貝葉斯訓練模塊,根據所述數據預處理模塊中的可信URL矩陣和釣魚URL矩陣進行訓練,得到可信URL和釣魚URL的先驗概率并得到貝葉斯分類器; 貝葉斯分類模塊,根據所述貝葉斯訓練模塊中得到的貝葉斯分類器,從所述URL處理模塊接收URL特征屬性,計算其分別在可信URL和釣魚URL下的概率,判斷其是否為釣魚網站,若能明確判斷,則把結果保存在所述數據預處理模塊中并把判斷結果發(fā)送至所述通信模塊I ;若無法明確確定,則將其定為可疑網站,并通過所述頁面處理模塊提取該網站的web頁面特征。
6.根據權利要求3所述的實時檢測系統(tǒng),其特征在于,所述支持向量機模塊包括支持向量機訓練模塊,根據所述數據預處理模塊中的可信頁面數據集和釣魚頁面數據集進行訓練,以確定最小二乘支持向量機的決策函數的形式,最后通過訓練得到一個用于對web頁面特征判斷的最小二乘支持向量機分類器; 支持向量機分類模塊,根據所述支持向量機訓練模塊中得到的最小二乘支持向量機分類器模型,從所述頁面處理模塊接收待檢測網站的web頁面特征,判斷其是否是釣魚網站,然后將結果保存在所述數據預處理模塊中,并傳遞給所述通信模塊I。
全文摘要
本發(fā)明涉及一種釣魚網站的實時檢測方法及系統(tǒng)。所述方法包括如下步驟獲取當前網站的URL地址;利用白名單和黑名單對網站的URL地址進行檢測;對于不在白/黑名單內的網站URL提取其URL特征,并進行預處理;采用貝葉斯方法對預處理后的URL特征進行檢測,判斷其是否為釣魚網站,若不能明確確定,則將其定為可疑網站;對可疑網站進行web頁面內容的提取,并進行預處理;采用最小二乘支持向量機方法對預處理后的頁面特征進行檢測,判斷其是否為釣魚網站。所述系統(tǒng)由系統(tǒng)服務器端和系統(tǒng)客戶端組成,系統(tǒng)服務器端包括白名單和黑名單模塊等,系統(tǒng)客戶端包括URL指紋列表等。本發(fā)明方法和系統(tǒng)相對于現(xiàn)有技術來說提高了檢測率和準確率。
文檔編號H04L29/06GK102932348SQ20121042434
公開日2013年2月13日 申請日期2012年10月30日 優(yōu)先權日2012年10月30日
發(fā)明者倪彤光, 顧曉清, 丁輝 申請人:常州大學