專利名稱:釣魚網(wǎng)頁的深度學(xué)習(xí)智能檢測方法
釣魚網(wǎng)頁的深度學(xué)習(xí)智能檢測方法技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域,尤其涉及釣魚網(wǎng)頁的深度學(xué)習(xí)智能檢測方法。
背景技術(shù):
近年來網(wǎng)絡(luò)“釣魚”攻擊頻頻出現(xiàn),嚴(yán)重地影響了電子商務(wù)的發(fā)展,也給公眾造成了很大的危害。國內(nèi)常見的“釣魚”式攻擊(Phishing),如仿冒各大銀行等金融機(jī)構(gòu)和大型交易門戶的釣魚網(wǎng)站,危害非常嚴(yán)重。當(dāng)前針對釣魚網(wǎng)頁的檢測技術(shù)一般是單獨(dú)基于文檔模型或網(wǎng)頁圖像的檢測方法。由于HTML語言的靈活性和網(wǎng)頁元素的動態(tài)性,仿冒者能做出看上去一樣但結(jié)構(gòu)完全不同的網(wǎng)頁,因而單獨(dú)基于文檔模型的釣魚網(wǎng)頁檢測方法存有很大缺陷;同樣,目前基于圖像的網(wǎng)頁相似檢測方法主要是根據(jù)人的視覺原理,對網(wǎng)頁的視覺相似度進(jìn)行判定,雖然難度較大,攻擊發(fā)起者對被仿冒的網(wǎng)頁的模仿也可以做到以假亂真的程度。綜上所述,以往釣魚網(wǎng)頁檢測方法中存在的檢測識別特征不全面、智能檢測精度不足等缺點(diǎn)。發(fā)明內(nèi)容
本發(fā)明針對上述缺陷公開了釣魚網(wǎng)頁的深度學(xué)習(xí)智能檢測方法,該方法用于解決目前單純基于文檔型或圖像型釣魚網(wǎng)頁檢測技術(shù)對圖片網(wǎng)頁處理的不足,以及釣魚網(wǎng)頁檢測精度不高的問題。
釣魚網(wǎng)頁的深度學(xué)習(xí)智能檢測方法,包括以下步驟
1)對網(wǎng)頁文檔模型進(jìn)行分析,生成網(wǎng)頁文檔特征向量F ;
2)將待測網(wǎng)頁轉(zhuǎn)化為圖像,并采用譜聚類方法對所得圖像進(jìn)行分割;
3)提取網(wǎng)頁圖像特征,從而獲得網(wǎng)頁內(nèi)容特征向量N;
4)使用流形學(xué)習(xí)Isomap算法對網(wǎng)頁內(nèi)容特征向量N降維得到特征空間Vnew ;
5)用DBN分類器對特征空間Vmw進(jìn)行訓(xùn)練和測試,根據(jù)DBN分類器結(jié)果判別待檢測的網(wǎng)頁是否為釣魚網(wǎng)頁。
所述步驟幻具體包括以下步驟
21)將待測網(wǎng)頁保存為網(wǎng)頁圖像;
22)將網(wǎng)頁圖像由RGB空間變換為HSI空間;
23)采用譜聚類方法,確定網(wǎng)頁圖像的聚類數(shù)目k ;
24)生成k個(gè)子圖。
所述步驟幻具體包括以下步驟
31)提取分割后的各個(gè)子圖的特征向量Vi ;
32)提取分割后的各個(gè)子圖間的位置關(guān)系特征向量C ;
33)將以上特征組合成網(wǎng)頁圖像特征向量A,并與網(wǎng)頁文檔特征向量F—起合成為網(wǎng)頁內(nèi)容特征向量N。3
所述步驟4)具體包括以下步驟
41)選擇鄰域參數(shù),構(gòu)造鄰域42)在步驟41)所選擇的鄰域參數(shù)K下,求出產(chǎn)生的子鄰域圖個(gè)數(shù)以及每個(gè)子鄰域圖是由哪些數(shù)據(jù)點(diǎn)組成;
43)求出子鄰域圖數(shù)據(jù)集間最短的Y條歐式距離分別對應(yīng)的數(shù)據(jù)點(diǎn);
44)對WMj中相互連接的數(shù)據(jù)點(diǎn)對應(yīng)的鄰域集合進(jìn)行修正
45)求出數(shù)據(jù)點(diǎn)間的最短路徑;
46)構(gòu)建m維的低維嵌入,獲得降維后的特征空間V_。
所述步驟幻具體包括以下步驟
51)從網(wǎng)頁內(nèi)容特征空間Vnrat中,給出部分有標(biāo)簽的訓(xùn)練樣本;
52)使用網(wǎng)頁圖像特征空間Vnew中給出的有標(biāo)簽的訓(xùn)練樣本,對DBN進(jìn)行訓(xùn)練;
53)對DBN實(shí)施修正訓(xùn)練,進(jìn)行參數(shù)微調(diào),得到DBN分類器;
54)用得到的DBN分類器對特征空間Vnew中的無標(biāo)簽樣本進(jìn)行測試,輸出釣魚網(wǎng)頁檢測結(jié)果。
本發(fā)明的有益效果為使用本發(fā)明提供的方法進(jìn)行釣魚網(wǎng)頁檢測,綜合網(wǎng)頁文檔和圖像特征,檢測的特征參數(shù)覆蓋更加全面。在檢測方法方面,相比文本特征提取方法,DBN 深度信任網(wǎng)絡(luò)算法具有較高的檢測精度和較快的檢測速度,提高了釣魚式攻擊檢測率。
圖1是釣魚網(wǎng)頁的深度學(xué)習(xí)智能檢測方法流程圖。
具體實(shí)施方式
下面結(jié)合附圖,對優(yōu)選實(shí)施例作詳細(xì)說明。應(yīng)該強(qiáng)調(diào)的是,下述說明僅僅是示例性的,而不是為了限制本發(fā)明的范圍及其應(yīng)用。
如圖1所示為本發(fā)明所提供的釣魚網(wǎng)頁的智能檢測方法的檢測過程示意圖。該方法包括如下步驟
1)對網(wǎng)頁文檔模型進(jìn)行分析,生成網(wǎng)頁文檔特征向量F ;
2)將待測網(wǎng)頁轉(zhuǎn)化為圖像,并采用譜聚類方法對所得圖像進(jìn)行分割;
3)提取網(wǎng)頁圖像特征,從而獲得網(wǎng)頁內(nèi)容特征向量N;
4)使用流形學(xué)習(xí)Isomap算法對網(wǎng)頁內(nèi)容特征向量N降維得到特征空間Vnew ;
5)用DBN分類器對特征空間Vmw進(jìn)行訓(xùn)練和測試,根據(jù)DBN分類器結(jié)果判別待檢測的網(wǎng)頁是否為釣魚網(wǎng)頁。
步驟1)具體包括下列步驟
11)對網(wǎng)頁文檔模型進(jìn)行分析從Web頁面的文檔對象模型(D0M模型)和HTTP協(xié)議方面進(jìn)行特征分析;
12)對網(wǎng)頁文檔特征進(jìn)行提取
根據(jù)HTTP協(xié)議和文檔對象模型(D0M模型),基于相關(guān)性,提取以下五種類別釣魚網(wǎng)頁敏感身份信息特征Web頁面URL地址、鏈接對象、表單元素、SSL證書和域名DNS信息。 使用特征函數(shù)FiG = 1,2,3,4,5)來分別表示上述五種類別釣魚網(wǎng)頁敏感身份信息特征,每個(gè)特征函數(shù)的輸出為實(shí)數(shù)值,表示W(wǎng)eb網(wǎng)頁中對應(yīng)的敏感身份信息特征的狀態(tài),定義F = {F” F2, F3, F4, FJ為生成的網(wǎng)頁文檔特征向量。
其中特征函數(shù)F1 (Web頁面URL地址)的具體定義如下
權(quán)利要求
1.釣魚網(wǎng)頁的深度學(xué)習(xí)智能檢測方法,其特征在于,分為以下步驟1)對網(wǎng)頁文檔模型進(jìn)行分析,生成網(wǎng)頁文檔特征向量F;2)將待測網(wǎng)頁轉(zhuǎn)化為圖像,并采用譜聚類方法對所得圖像進(jìn)行分割;3)提取網(wǎng)頁圖像特征,從而獲得網(wǎng)頁內(nèi)容特征向量N;4)使用流形學(xué)習(xí)Isomap算法對網(wǎng)頁內(nèi)容特征向量N降維得到特征空間Vnew;5)用DBN分類器對特征空間Vnew進(jìn)行訓(xùn)練和測試,根據(jù)DBN分類器結(jié)果判別待檢測的網(wǎng)頁是否為釣魚網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)頁的深度學(xué)習(xí)智能檢測方法,其特征在于,所述步驟2)具體分為以下步驟21)將待測網(wǎng)頁保存為網(wǎng)頁圖像;22)將網(wǎng)頁圖像由RGB空間變換為HSI空間;23)采用譜聚類方法,確定網(wǎng)頁圖像的聚類數(shù)目k;24)生成k個(gè)子圖。
3.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)頁的深度學(xué)習(xí)智能檢測方法,其特征在于,所述步驟3)具體分為以下步驟31)提取分割后的各個(gè)子圖的特征向量Vi;32)提取分割后的各個(gè)子圖間的位置關(guān)系特征向量C;33)將以上特征組合成網(wǎng)頁圖像特征向量A,并與網(wǎng)頁文檔特征向量F—起合成為網(wǎng)頁內(nèi)容特征向量N。
4.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)頁的深度學(xué)習(xí)智能檢測方法,其特征在于,所述步驟4)具體分為以下步驟41)選擇鄰域參數(shù),構(gòu)造鄰域圖;42)在步驟41)所選擇的鄰域參數(shù)K下,求出產(chǎn)生的子鄰域圖個(gè)數(shù)以及每個(gè)子鄰域圖是由哪些數(shù)據(jù)點(diǎn)組成;43)求出子鄰域圖數(shù)據(jù)集間最短的Y條歐式距離分別對應(yīng)的數(shù)據(jù)點(diǎn);44)對WMi,WMj中相互連接的數(shù)據(jù)點(diǎn)對應(yīng)的鄰域集合進(jìn)行修正45)求出數(shù)據(jù)點(diǎn)間的最短路徑;46)構(gòu)建m維的低維嵌入,獲得降維后的特征空間VMW。
5.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)頁的深度學(xué)習(xí)智能檢測方法,其特征在于,所述步驟5)具體分為以下步驟51)從網(wǎng)頁內(nèi)容特征空間Vnrat中,給出部分有標(biāo)簽的訓(xùn)練樣本;52)使用網(wǎng)頁圖像特征空間Vnrat中給出的有標(biāo)簽的訓(xùn)練樣本,對DBN進(jìn)行訓(xùn)練;53)對DBN實(shí)施修正訓(xùn)練,進(jìn)行參數(shù)微調(diào),得到DBN分類器;54)用得到的DBN分類器對特征空間Vmw中的無標(biāo)簽樣本進(jìn)行測試,輸出釣魚網(wǎng)頁檢測結(jié)果。
全文摘要
本發(fā)明公開了屬于網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域的釣魚網(wǎng)頁的深度學(xué)習(xí)智能檢測方法。包括以下步驟1)對網(wǎng)頁文檔模型進(jìn)行分析,生成網(wǎng)頁文檔特征向量F;2)將待測網(wǎng)頁轉(zhuǎn)化為圖像,并采用譜聚類方法對所得圖像進(jìn)行分割;3)提取網(wǎng)頁圖像特征,從而獲得網(wǎng)頁內(nèi)容特征向量N;4)使用流形學(xué)習(xí)Isomap算法對網(wǎng)頁內(nèi)容特征向量N降維得到特征空間Vnew;5)用DBN分類器對特征空間Vnew進(jìn)行訓(xùn)練和測試,根據(jù)DBN分類器結(jié)果判別待檢測的網(wǎng)頁是否為釣魚網(wǎng)頁。本發(fā)明的有益效果為檢測的特征參數(shù)覆蓋更加全面,相比文本特征提取方法,DBN深度信任網(wǎng)絡(luò)算法具有較高的檢測精度和較快的檢測速度,提高了釣魚式攻擊檢測率。
文檔編號G06F17/30GK102523202SQ201110393959
公開日2012年6月27日 申請日期2011年12月1日 優(yōu)先權(quán)日2011年12月1日
發(fā)明者李元誠, 沈尚方 申請人:華北電力大學(xué)