專利名稱:一種基于url分類的釣魚網(wǎng)站檢測方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)安全領(lǐng)域,涉及一種反網(wǎng)絡(luò)釣魚的方法,特別涉及一種基于URL(網(wǎng)頁地址)分類的釣魚網(wǎng)站檢測方法。
背景技術(shù):
網(wǎng)絡(luò)釣魚攻擊已經(jīng)成為當(dāng)前網(wǎng)上交易安全的一個重大威脅,其對電子商務(wù)的發(fā)展造成了很大阻礙,因而對釣魚防范的研究成為網(wǎng)絡(luò)安全領(lǐng)域的熱點問題。釣魚網(wǎng)站的規(guī)模逐年成倍遞增,從機器學(xué)習(xí)與模式識別角度講,大量的釣魚網(wǎng)站已經(jīng)呈現(xiàn)出一種有跡可循的模式,這給用模式識別的方法進行學(xué)習(xí)分類帶來了一定的應(yīng)用空間。目前存在的基于模式識別的釣魚網(wǎng)站判別方法主要有 基于郵件特征的釣魚郵件檢測方法。其主要方法是通過對大量釣魚郵件的學(xué)習(xí)訓(xùn)練找出一組普遍存在的現(xiàn)象特征。方案從郵件的語言,布局以及結(jié)構(gòu)入手獲取諸如特殊句法,結(jié)構(gòu)布局特點,詞匯使用模式,反常語言應(yīng)用等特征?;诰W(wǎng)頁文本特征的釣魚網(wǎng)頁檢測方法。該方法借助于TF-IDF算法計算一篇文檔中的重要程度較高的詞匯,然后以這些詞匯為網(wǎng)頁特征對網(wǎng)頁進行分類,分類過程借鑒了 google對網(wǎng)頁的評價排名?;诰W(wǎng)頁圖像相似度得釣魚網(wǎng)頁檢測。首先將HTML網(wǎng)頁轉(zhuǎn)換為標(biāo)準(zhǔn)圖片形式,提取主色調(diào)和圖片重心位置等屬性標(biāo)示圖片特征,然后應(yīng)用EMD (Earth Mover’s Distance)算法計算兩圖像間的相似度,設(shè)定一個閾值判斷當(dāng)前網(wǎng)頁是否有模仿現(xiàn)象。目前釣魚檢測方法存在一定的不足,無論是基于郵件特征還是基于網(wǎng)頁特征都要通過對郵件或網(wǎng)頁內(nèi)容進行整體分析,這可能帶來以下問題,一是郵件或網(wǎng)頁標(biāo)準(zhǔn)不統(tǒng)一,這導(dǎo)致預(yù)先設(shè)定的檢測特征有可能缺失;二是對郵件或網(wǎng)頁進行整體分析花費時間較多,從應(yīng)用角度來講可能超過用戶所能忍受的網(wǎng)絡(luò)延時;三是受保護機構(gòu)合法郵件或網(wǎng)頁更新時,檢測機構(gòu)沒有相應(yīng)的聯(lián)動機制。
發(fā)明內(nèi)容
發(fā)明目的針對上述現(xiàn)有技術(shù)存在的問題和不足,本發(fā)明的目的是提供一種適用性強、效率高的基于URL分類的釣魚網(wǎng)站檢測方法。技術(shù)方案為實現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為一種基于URL分類的釣魚網(wǎng)站檢測方法,包括如下步驟(I)對釣魚網(wǎng)站的URL特征進行歸納分析,并將所述URL特征向量化;(2)根據(jù)URL特征向量,對原始數(shù)據(jù)進行訓(xùn)練得到初始分類模型。進一步地,還包括步驟(3):檢測釣魚網(wǎng)站的服務(wù)器根據(jù)在線增量學(xué)習(xí)策略對當(dāng)前分類模型進行升級。進一步地,所述步驟(I)中,釣魚網(wǎng)站的URL特征包括DURL中存在IP地址。一定比例的釣魚URL包含有IP地址,而在合法URL中幾乎不存在包含IP地址的情況;2)用”來對域名進行混淆。釣魚網(wǎng)頁往往通過用很多”來隔開一個正常的字段以達到迷惑用戶的目的,如http //paypal. com. online-update. onlinebanking. service, customer. /而這種URL在合法網(wǎng)站幾乎很少見到;3) URL路徑深度異常。即URL中包括“/”的數(shù)目,偽造的URL通過加長路徑來混淆合法網(wǎng)址;4)包含特殊字符。如在釣魚URL中經(jīng)常會出現(xiàn);5)存在較多數(shù)字、字母相混合的情況。該特征在合法URL與釣魚URL中都有體現(xiàn),但在釣魚URL中更為明顯; 6)域名字段長度異常。一般情況下,認為出現(xiàn)在‘http ://’與第一個‘/’之間的字符串為域名字段,大部分合法URL的域名長度比較適中,而有一部分釣魚URL此部分長度顯得過長;7) PageRank排名較低。PageRank是Google對所收錄網(wǎng)頁按照重要程度進行的排名,在檢測中發(fā)現(xiàn),絕大部分釣魚URL此項數(shù)值較低或沒有記錄。8)合法域名篡改。釣魚網(wǎng)站域名往往對合法網(wǎng)站域名進行篡改,如把“paypal”中的字母“ I ”替換為數(shù)字“ I ”,根據(jù)一定方法可以對該現(xiàn)象進行檢測。9)可疑詞匯。釣魚URL中有些詞匯出現(xiàn)頻率較高,如“l(fā)ogin”,“account”等,根據(jù)一定方法可以對這些可疑詞匯進行統(tǒng)計提取。對URL特征I)至6)采用正則表達式匹配的方式獲取,對URL特征7)通過谷歌獲取,對URL特征8)和9)進行特征建模。進一步地,所述步驟(I)中,域名篡改特征的檢測方法為設(shè)從URL提取出的域名字符串U = U^U2'…、Um,受保護域名字符串T = tp t2、;計算分別以Ui和&結(jié)束的兩個域名子字符串的最大相似度值,該最大相似度值用Hi,j表示,那么根據(jù)Ui與&相對位置的不同,Hiij值有以下四種情況I)兩子字符串到Ui與&結(jié)束時長度相同,此時有Hi, j = Hh,h+s (Ui, tj)其中
權(quán)利要求
1.一種基于URL分類的釣魚網(wǎng)站檢測方法,包括如下步驟 (1)對釣魚網(wǎng)站的URL特征進行歸納分析,并將所述URL特征向量化; (2)根據(jù)URL特征向量,對原始數(shù)據(jù)進行訓(xùn)練得到初始分類模型。
2.根據(jù)權(quán)利要求I所述一種基于URL分類的釣魚網(wǎng)站檢測方法,其特征在于還包括步驟(3):檢測釣魚網(wǎng)站的服務(wù)器根據(jù)在線增量學(xué)習(xí)策略對當(dāng)前分類模型進行升級。
3.根據(jù)權(quán)利要求I所述一種基于URL分類的釣魚網(wǎng)站檢測方法,其特征在于所述步驟(I)中,釣魚網(wǎng)站的URL特征包括 1)URL中存在IP地址; 2)用來對域名進行混淆; 3)URL路徑深度異常; 4)包含特殊字符; 5)存在較多數(shù)字、字母相混合的情況; 6)域名字段長度異常; 7)PageRank排名較低; 8)域名由合法域名篡改而來; 9)存在可疑詞匯; 對URL特征I)至6)采用正則表達式匹配的方式獲取,對URL特征7)通過谷歌獲取,對URL特征8)和9)進行特征建模。
4.根據(jù)權(quán)利要求3所述一種基于URL分類的釣魚網(wǎng)站檢測方法,其特征在于所述步驟(I)中,域名篡改特征的檢測方法為設(shè)從URL提取出的域名字符串U = U1, U2,…、Uffl,受保護域名字符串T = tp t2、; 計算分別以Ui和&結(jié)束的兩個域名子字符串的最大相似度值,該最大相似度值用Hu表示,那么根據(jù)Ui與&相對位置的不同,Hiij值有以下四種情況 1)兩子字符串到Ui與結(jié)束時長度相同,此時有 Hi, j = Us(UiJj) 其中
5.根據(jù)權(quán)利要求3所述一種基于URL分類的釣魚網(wǎng)站檢測方法,其特征在于所述步驟(I)中,可疑詞匯特征的統(tǒng)計步驟為 步驟I :構(gòu)造一棵空的廣義后綴樹GST,設(shè)定路徑結(jié)束符為“ $”; 步驟2 將URL字符串產(chǎn)生的后綴依次插入GST,若遇到相同后綴則合并當(dāng)前節(jié)點,若無已存在的相同后綴則分裂當(dāng)前節(jié)點產(chǎn)生新的后綴節(jié)點; 步驟3 :重復(fù)步驟2直至URL集合中的所有URL處理完畢,此時GST構(gòu)建完成; 步驟4 :初始化Map集合S〈P,S〉,其中P表示路徑集合,S表示P所對應(yīng)的字符串; 步驟5 :遍歷GST,對于每個節(jié)點所對應(yīng)的路徑e,查詢其所屬的URL子字符串S,根據(jù)s搜索Map集合5得到s所對應(yīng)的所有路徑集合p’,如果$’=0,則將路徑e和其子字符串s組合成<e,s>加入到Map集合5中,否則轉(zhuǎn)步驟6 ; 步驟6 :如果e比p’中任一路徑都要長,則p’ = p’ Ue ; 步驟7 :重復(fù)步驟5、6,直到所有路徑都遍歷完成; 步驟8 :遍歷集合8〈P,S〉,輸出s出現(xiàn)次數(shù)超過k次的s的集合D,D即為所求。
6.根據(jù)權(quán)利要求I所述一種基于URL分類的釣魚網(wǎng)站檢測方法,其特征在于所述步驟(2)中,根據(jù)URL特征向量,采用支持向量機算法對所述URL特征向量進行訓(xùn)練得到初始分類模型M,用于對待檢測URL進行分類。
7.根據(jù)權(quán)利要求2所述一種基于URL分類的釣魚網(wǎng)站檢測方法,其特征在于所述在線增量學(xué)習(xí)策略包括如下步驟 步驟I :定義兩個空數(shù)據(jù)集C-SET與B-SET,其中C-SET用于存放分類器訓(xùn)練樣本,B-SET用于存放增量過程中的丟棄樣本; 步驟2 :定義初始樣本集為Yh,此時有C-SET = Yh ; 步驟3 :以Yh為訓(xùn)練樣本得到初始分類器WH,以Wh檢驗增量樣本集Y1,其中違背KKT條件的樣本記為Y/K,符合KKT條件的樣本記為Y/,若YinK=O則本輪增量結(jié)束,否則轉(zhuǎn)步驟.4 ; 步驟4 :令C-SET=C-SET U Y , B-SET=B-SET U Y115 ;對C-SET進行訓(xùn)練得到增量分類器屯1;步驟5 :利用對B-SET進行再分類得到Y(jié)Bffi,若Ybnk=0,則為最終增量 分類器,否則令C-SET=C-SET U YBNK,對C-SET進行再次訓(xùn)練得到修正的最終分類器W。。
全文摘要
本發(fā)明公開了一種基于URL分類的釣魚網(wǎng)站檢測方法,包括如下步驟對釣魚網(wǎng)站的URL特征進行歸納分析,并將所述URL特征向量化;根據(jù)URL特征向量,對原始數(shù)據(jù)進行訓(xùn)練得到初始分類模型。本發(fā)明適用性強、效率高。
文檔編號H04L29/06GK102739679SQ20121022350
公開日2012年10月17日 申請日期2012年6月29日 優(yōu)先權(quán)日2012年6月29日
發(fā)明者東方, 劉波, 吳江林, 曹玖新, 楊鵬偉, 王田峰, 羅軍舟, 董丹 申請人:東南大學(xué)