一種釣魚網(wǎng)站鑒別系統(tǒng)和方法
【專利摘要】本發(fā)明提出一種釣魚網(wǎng)站鑒別系統(tǒng),包括頁面爬取模塊、特征提取模塊、網(wǎng)頁關(guān)系建模模塊、決策樹分類模塊及鑒別模塊;頁面爬取模塊爬取網(wǎng)站的頁面源代碼,并提取網(wǎng)站的中文文本及網(wǎng)站的內(nèi)/外鏈接數(shù)量;特征提取模塊提取網(wǎng)站的頁面特征詞、內(nèi)/外鏈接數(shù)量之比及排名信息;網(wǎng)頁關(guān)系建模模塊根據(jù)所述頁面特征詞獲取所述網(wǎng)站和黑/白名單的關(guān)系;決策樹分類模塊使用決策樹進(jìn)行訓(xùn)練,構(gòu)建決策樹分類模型;鑒別模塊保存決策樹分類模型,并利用決策樹分類模型對未知網(wǎng)站進(jìn)行鑒別,判斷是否為釣魚網(wǎng)站。可有效提高分類鑒別的準(zhǔn)確性,且可克服基于黑名單的檢測技術(shù)只能識別在黑名單中的釣魚網(wǎng)站的局限性。另外提供釣魚網(wǎng)站鑒別方法。
【專利說明】一種釣魚網(wǎng)站鑒別系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)安全【技術(shù)領(lǐng)域】,尤其涉及一種釣魚網(wǎng)站鑒別系統(tǒng)和方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的迅速發(fā)展和信息化進(jìn)程的深入,人們的工作、學(xué)習(xí)和生活方式與互聯(lián)網(wǎng)的結(jié)合已變得越來越緊密,即時通信、電子郵件、電子商務(wù)、網(wǎng)絡(luò)游戲、網(wǎng)上辦公等與人們的日常生活息息相關(guān)。但是,緊隨信息化發(fā)展而來的信息安全問題也已日漸凸出,網(wǎng)絡(luò)犯罪層出不窮。網(wǎng)絡(luò)釣魚是最為嚴(yán)重的互聯(lián)網(wǎng)犯罪形式之一,在近幾年頻繁出現(xiàn)。所謂“釣魚網(wǎng)站”,是指不法分子利用各種手段,仿冒真實網(wǎng)站的地址以及頁面內(nèi)容,或者利用真實網(wǎng)站服務(wù)器程序上的漏洞,在站點的某些網(wǎng)頁中插入危險的HTML代碼,以此來騙取用戶銀行或信用卡賬號、密碼等私人資料。在巨大經(jīng)濟(jì)利益的誘惑下,釣魚網(wǎng)站已逐步顯現(xiàn)出較為完整的“產(chǎn)業(yè)鏈”。在這個產(chǎn)業(yè)鏈中,建設(shè)釣魚網(wǎng)站輕而易舉,只要申請一個域名,很快就能建一個偽裝成銀行網(wǎng)站或電子購物網(wǎng)站的釣魚網(wǎng)站,一般二、三百元就可以做一個。與此同時,釣魚網(wǎng)站具有相當(dāng)強(qiáng)的欺騙性,以假淘寶舉例介紹說,不僅用假網(wǎng)站騙買家,更有騙賣家的。比如,給客服發(fā)個假鏈接,一旦打開,賣家的支付寶賬號、密碼即有可能被竊。網(wǎng)絡(luò)釣魚的日漸猖撅,已嚴(yán)重影響到在線金融服務(wù)和電子商務(wù)的發(fā)展,也時刻危害公眾利益。
[0003]在中國互聯(lián)網(wǎng)絡(luò)中,中文釣魚網(wǎng)站的數(shù)量也逐漸頻繁地增加出現(xiàn),嚴(yán)重?fù)p害了電子商務(wù)以及金融在線服務(wù)的發(fā)展,為公共利益帶來了嚴(yán)重的危害,打擊了公眾互聯(lián)網(wǎng)用戶對網(wǎng)絡(luò)應(yīng)用上的信心與支持。由于互聯(lián)網(wǎng)的基本特性,中文釣魚網(wǎng)站的來源以及帶來的危害已經(jīng)超越國界,逐漸成為了一個讓全球互聯(lián)網(wǎng)用戶關(guān)注并擔(dān)憂的問題。
[0004]目前,釣魚網(wǎng)站的防御與識別方法主要包括人工舉報、基于黑名單技術(shù)及基于網(wǎng)站的啟發(fā)式識別等,其中:
[0005]( I)人工舉報與識別
[0006]在反釣魚技術(shù)大面積應(yīng)用前的早期階段,由于釣魚網(wǎng)站的數(shù)量、種類比較少,反釣魚也基本是借助人工進(jìn)行識別。隨著技術(shù)的更新,舉報方式的反釣魚模式逐漸變?yōu)檩o助手段。但是,對于一些特殊釣魚站點的識別,人工方式還是有其獨特的作用。對于釣魚網(wǎng)站URL的舉報與校驗,一些開源舉報組織已做的非常完善,同一條記錄由多個志愿者共同識別后。識別率以及準(zhǔn)確度都可達(dá)到相當(dāng)高的水平。
[0007](2)基于黑名單的檢測技術(shù)
[0008]基于黑名單的檢測技術(shù)采用URL地址黑名單對比的方式來進(jìn)行釣魚網(wǎng)站的檢測攔截,當(dāng)用戶每次進(jìn)行互聯(lián)網(wǎng)網(wǎng)頁訪問的時候,釣魚檢測系統(tǒng)就將訪問的URL與黑名單數(shù)據(jù)庫中的URL地址進(jìn)行匹配對比,如果匹配成功之后就會向用戶顯示釣魚網(wǎng)站的警告,同時攔截用戶對該頁面的訪問。黑名單匹配的方法存在的一個缺陷就是:它僅僅可以檢測識別已知的有害網(wǎng)站及其發(fā)布者,對新的釣魚攻擊威脅則無能為力,這直接導(dǎo)致這種傳統(tǒng)檢測攔截方法的成功率較低。
[0009](3)基于啟發(fā)式的識別技術(shù)[0010]基于啟發(fā)式的識別技術(shù)是一種利用機(jī)器學(xué)習(xí)算法對頁面進(jìn)行識別分類的方法,通過對大量的釣魚網(wǎng)站樣本進(jìn)行分析處理,從中提取出最能夠表現(xiàn)釣魚網(wǎng)站頁面的各種特征,然后利用統(tǒng)計機(jī)器學(xué)習(xí)方法,模式識別與數(shù)據(jù)挖掘等技術(shù),對待判定的未知網(wǎng)站進(jìn)行分類,判別其是否為釣魚網(wǎng)站。由于釣魚站點的URL與合法站點的URL具有許多明顯的差異,如主機(jī)域名或者某些特定的敏感詞,因此可以使用URL的域名、URL類型包含字段以及PageRank進(jìn)行建模。提取站點頁面的特征是也是比較常用的一種方法,這些特征包括頁面的內(nèi)容文字、DOM結(jié)、HTML中鏈接的屬性等。釣魚網(wǎng)站的頁面中此類特征與合法站點的頁面因為具有較為明顯的區(qū)別,因此也可以用于釣魚網(wǎng)站的分類鑒別。
[0011]然而,目前檢測釣魚網(wǎng)站的研究方法與技術(shù)仍存在著一些問題:1)人工舉報與識別需要借助個人的經(jīng)驗,并且效率比較低;2)基于黑名單的檢測技術(shù)只能識別在黑名單中的釣魚網(wǎng)站,而對于層出不窮的新釣魚網(wǎng)站則無法準(zhǔn)確識別;3)基于啟發(fā)式的識別技術(shù)誤報率較高,因為需要準(zhǔn)確提取出能夠代表網(wǎng)站信息的特征,而現(xiàn)有方法還不完善。另外,當(dāng)前反釣魚研究基本都集中在對英文釣魚網(wǎng)站的識別,對中文釣魚網(wǎng)站檢測研究較少,因此需要對中文釣魚網(wǎng)站進(jìn)行全面研究,提取出適合中文釣魚網(wǎng)站的特征表征與特征提取方法,進(jìn)而對中文釣魚網(wǎng)站進(jìn)行分析,采取合理的分類方法進(jìn)行鑒別,提高檢測的準(zhǔn)確率。
【發(fā)明內(nèi)容】
[0012]針對上述問題,本發(fā)明的目的是提供一種可解決上述技術(shù)問題的釣釣魚網(wǎng)站鑒別系統(tǒng)和方法。
[0013]一種釣魚網(wǎng)站鑒別系統(tǒng),其包括:
[0014]頁面爬取模塊,用于爬取網(wǎng)站的頁面源代碼,并提取網(wǎng)站的中文文本及網(wǎng)站的內(nèi)/外鏈接數(shù)量;
[0015]特征提取模塊,其和所述頁面爬取模塊相連接,用于提取所述網(wǎng)站的頁面特征詞、內(nèi)/外鏈接數(shù)量之比及排名信息;
[0016]網(wǎng)頁關(guān)系建模模塊,其和所述特征提取模塊相連接,用于根據(jù)所述頁面特征詞獲取所述網(wǎng)站和黑/白名單的關(guān)系;
[0017]決策樹分類模塊,其和所述網(wǎng)頁關(guān)系建模模塊相連接,用于將已知網(wǎng)站和黑/白名單的關(guān)系、已知網(wǎng)站的內(nèi)/外鏈接數(shù)量之比及已知網(wǎng)站的排名信息作為特征向量,并使用決策樹進(jìn)行訓(xùn)練,構(gòu)建決策樹分類模型 '及
[0018]鑒別模塊,其和所述決策樹訓(xùn)練模塊及所述網(wǎng)頁關(guān)系建模模塊分別相連接,用于保存所述決策樹分類模型,并利用所述決策樹分類模型對未知網(wǎng)站和黑/白名單的關(guān)系、未知網(wǎng)站的內(nèi)/外鏈接數(shù)量之比及未知網(wǎng)站的排名信息進(jìn)行鑒別,判斷所述未知網(wǎng)站是否為釣魚網(wǎng)站。
[0019]本發(fā)明一較佳實施例中,所述網(wǎng)站包括所述已知網(wǎng)站和所述未知網(wǎng)站。
[0020]本發(fā)明一較佳實施例中,所述頁面爬取模塊使用網(wǎng)絡(luò)爬蟲技術(shù)爬取所述網(wǎng)站的頁面的所有內(nèi)容,獲取網(wǎng)站源代碼。
[0021]本發(fā)明一較佳實施例中,所述特征提取模塊包括特征詞提取子模塊、特征詞頻率計算子模塊、鏈接特征提取子模塊及網(wǎng)站排名特征提取子模塊;所述特征詞提取子模塊對所述頁面爬取模塊提取出的中文文字進(jìn)行分詞;所述特征詞頻率計算子模塊根據(jù)所述特征詞提取子模塊獲取的特征詞向量,計算網(wǎng)頁出現(xiàn)所述特征詞向量中每一個特征詞的頻率;所述鏈接特征提取子模塊從所述頁面爬取模塊獲取的網(wǎng)站源代碼中,計算內(nèi)/外鏈接數(shù)量之比;所述網(wǎng)站排名特征提取子模塊將網(wǎng)站的排名信息作為網(wǎng)頁的一個特征向量。
[0022]本發(fā)明一較佳實施例中,所述網(wǎng)頁關(guān)系建模模塊根據(jù)所述特征詞提取子模塊提取的特征詞分別與白名單和黑名單的共有詞之間的關(guān)系來獲取所述網(wǎng)站和和黑/白名單的關(guān)系。
[0023]本發(fā)明一較佳實施例中,所述決策樹分類模塊采用C4.5決策樹算法。
[0024]本發(fā)明一較佳實施例中,所述特征提取模塊和所述頁面爬取模塊之間、所述網(wǎng)頁關(guān)系建模模塊和所述特征提取模塊之間、所述決策樹分類模塊和所述網(wǎng)頁關(guān)系建模模塊之間、所述鑒別模塊和所述決策樹訓(xùn)練模塊之間以及所述鑒別模塊和所述網(wǎng)頁關(guān)系建模模塊之間為電性連接、數(shù)據(jù)連接或通信連接。
[0025]本發(fā)明另外提供一種釣魚網(wǎng)站鑒別方法,其包括如下步驟:
[0026]S11、利用頁面爬取模塊爬取網(wǎng)站的頁面源代碼,并提取網(wǎng)站的中文文本及網(wǎng)站的內(nèi)/外鏈接數(shù)量;
[0027]S13、利用特征提取模塊提取所述網(wǎng)站的頁面特征詞、內(nèi)/外鏈接數(shù)量之比及排名
信息;
[0028]S15、利用網(wǎng)頁關(guān)系建模模塊根據(jù)所述頁面特征詞獲取所述網(wǎng)站和黑/白名單的關(guān)系;
[0029]S17、利用決策樹分類模塊將已知網(wǎng)站和黑/白名單的關(guān)系、已知網(wǎng)站的內(nèi)/外鏈接數(shù)量之比及已知網(wǎng)站的排名信息作為特征向量,并使用決策樹進(jìn)行訓(xùn)練,構(gòu)建決策樹分類模型;及
[0030]S19、利用鑒別模塊保存所述決策樹分類模型,并利用所述決策樹分類模型對未知網(wǎng)站和黑/白名單的關(guān)系、未知網(wǎng)站的內(nèi)/外鏈接數(shù)量之比及未知網(wǎng)站的排名信息進(jìn)行鑒另IJ,判斷所述未知網(wǎng)站是否為釣魚網(wǎng)站。
[0031]本發(fā)明一較佳實施例中,步驟Sll中,所述網(wǎng)站包括所述已知網(wǎng)站和所述未知網(wǎng)站。
[0032]相對于現(xiàn)有技術(shù),所述釣魚網(wǎng)站鑒別系統(tǒng)和所述釣魚網(wǎng)站鑒別方法具有如下優(yōu)點:其一、將已知網(wǎng)站和黑/白名單的關(guān)系、已知網(wǎng)站的內(nèi)/外鏈接數(shù)量之比及已知網(wǎng)站的排名信息作為特征向量,并使用決策樹進(jìn)行訓(xùn)練,構(gòu)建決策樹分類模型,對未知網(wǎng)站和黑/白名單的關(guān)系、未知網(wǎng)站的內(nèi)/外鏈接數(shù)量之比及未知網(wǎng)站的排名信息進(jìn)行鑒別,可以有效提高分類鑒別的準(zhǔn)確性,且可克服基于黑名單的檢測技術(shù)只能識別在黑名單中的釣魚網(wǎng)站的局限性。其二、對網(wǎng)頁的文本進(jìn)行分詞、特征詞提取后,建立與黑、白名單的關(guān)系,并將與黑、白名單的關(guān)系作為特征向量之一,進(jìn)行訓(xùn)練,減少了訓(xùn)練數(shù)據(jù)的維度,可有效地提高訓(xùn)練效率。其三、所述釣魚網(wǎng)站鑒別系統(tǒng)和所述釣魚網(wǎng)站鑒別方法利用所述頁面爬取模塊提取網(wǎng)站的中文文本,并利用所述特征提取模塊提取頁面特征詞,進(jìn)而可以對中文釣魚網(wǎng)站進(jìn)行分析,且采取合理的分類方法進(jìn)行鑒別,可提高中文網(wǎng)站的鑒別檢測的準(zhǔn)確率。
[0033]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉實施例,并配合附圖,詳細(xì)說明如下?!緦@綀D】
【附圖說明】
[0034]圖1為本發(fā)明第一實施例提供的釣魚網(wǎng)站鑒別系統(tǒng)的組成示意圖;
[0035]圖2為圖1所示釣魚網(wǎng)站鑒別系統(tǒng)的工作示意圖;
[0036]圖3為本發(fā)明第二實施例提供的釣魚網(wǎng)站鑒別方法的流程圖。
【具體實施方式】
[0037]下面結(jié)合附圖及具體實施例對本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0038]請參閱圖1,本發(fā)明第一實施例提供一種釣魚網(wǎng)站鑒別系統(tǒng)100,其包括頁面爬取模塊10、特征提取模塊20、網(wǎng)頁關(guān)系建模模塊30、決策樹分類模塊40及鑒別模塊50 ;所述頁面爬取模塊10用于爬取網(wǎng)站的頁面源代碼,并提取網(wǎng)站的中文文本及網(wǎng)站的內(nèi)/外鏈接數(shù)量;所述特征提取模塊20和所述頁面爬取模塊10相連接,用于提取所述網(wǎng)站的頁面特征詞、內(nèi)/外鏈接數(shù)量之比及排名信息;所述網(wǎng)頁關(guān)系建模模塊30和所述特征提取模塊20相連接,用于根據(jù)所述頁面特征詞獲取所述網(wǎng)站和黑/白名單的關(guān)系;所述決策樹分類模塊40和所述網(wǎng)頁關(guān)系建模模塊30相連接,用于將已知網(wǎng)站和黑/白名單的關(guān)系、已知網(wǎng)站的內(nèi)/外鏈接數(shù)量之比及已知網(wǎng)站的排名信息作為特征向量,并使用決策樹進(jìn)行訓(xùn)練,構(gòu)建決策樹分類模型;所述鑒別模塊50和所述決策樹訓(xùn)練模塊40及所述網(wǎng)頁關(guān)系建模模塊30分別相連接,用于保存所述決策樹分類模型,并利用所述決策樹分類模型對未知網(wǎng)站和黑/白名單的關(guān)系、未知網(wǎng)站的內(nèi)/外鏈接數(shù)量之比及未知網(wǎng)站的排名信息進(jìn)行鑒別,判斷所述未知網(wǎng)站是否為釣魚網(wǎng)站。
[0039]可以理解的是,所述網(wǎng)站包括已知網(wǎng)站和未知網(wǎng)站,所述特征向量包括網(wǎng)站和黑/白名單的關(guān)系、網(wǎng)站的內(nèi)/外鏈接數(shù)量之比及網(wǎng)站的排名信息,即本實施例中,所述頁面爬取模塊10分別針對已知網(wǎng)站和未知網(wǎng)站進(jìn)行頁面源代碼爬取、中文文本及內(nèi)/外鏈接數(shù)量的提取,所述特征提取模塊20分別針對已知網(wǎng)站和未知網(wǎng)站進(jìn)行頁面特征詞、內(nèi)/外鏈接數(shù)量之比及排名信息的提取,并分別獲得已知網(wǎng)站的特征向量和未知網(wǎng)站的特征向量。
[0040]本實施例中,所述頁面爬取模塊10使用網(wǎng)絡(luò)爬蟲技術(shù)爬取所述網(wǎng)站的頁面的所有內(nèi)容,獲取網(wǎng)站源代碼。具體地,先建立HTTP鏈接,爬取網(wǎng)站的頁面源代碼,并提取出中文文字與網(wǎng)頁所有鏈接,包括內(nèi)、外所有鏈接。
[0041]所述特征提取模塊20包括特征詞提取子模塊21、特征詞頻率計算子模塊23、鏈接特征提取子模塊25及網(wǎng)站排名特征提取子模塊27,本實施例中,在訓(xùn)練階段使用特征詞提取子模塊21、特征詞頻率計算子模塊23、鏈接特征提取子模塊25及網(wǎng)站排名特征提取子模塊27,在測試階段使用特征詞頻率計算子模塊23、鏈接特征提取子模塊25及網(wǎng)站排名特征提取子模塊27。
[0042]所述特征詞提取子模塊21對所述頁面爬取模塊10提取出的中文文字進(jìn)行分詞,本實施例中,先使用NLPIR漢語分詞系統(tǒng)對所述中文文字進(jìn)行分詞,然后使用TF-1DF提取出關(guān)鍵詞,其計算公式如下:
[0043]TF-1DF (Wi) =TF (Wi) *IDF (Wi) =TFj (Wi) *log (N/DF (Wi)) (I)
[0044]其中,TF(Wi)是指當(dāng)前中文詞在頁面j中出現(xiàn)的頻率,N表示所有訓(xùn)練的網(wǎng)頁個數(shù),DF(Wi)表示網(wǎng)頁集合中有多少網(wǎng)頁中出現(xiàn)了當(dāng)前詞項Wi。本實施例中,將詞項按照TF-1DF值的大小進(jìn)行排列,獲取TF-1DF值較大的前40個詞項,得到一個特征詞向量,記為Fff= (W1, W2,...,wn},N=40。
[0045]所述特征詞頻率計算子模塊23根據(jù)所述特征詞提取子模塊21獲取的特征詞向量,計算網(wǎng)頁出現(xiàn)所述特征詞向量中每一個特征詞的頻率。
[0046]所述鏈接特征提取子模塊25從所述頁面爬取模塊10獲取的網(wǎng)站源代碼中,計算內(nèi)/外鏈接數(shù)量之比,記為Nlk,本實施例中,如果Nlk小于0.2,則記為-1,如果Nlk大于等于
0.2,則記為I。
[0047]所述網(wǎng)站排名特征提取子模塊27將網(wǎng)站的排名信息作為網(wǎng)頁的一個特征向量,本實施例中,使用http://alexa.chinaz.com/來查詢網(wǎng)站的排名信息pg,并將排名信息Npg表示為{-1,1},其中,I表示能夠通過http://alexa.chinaz.com/查詢到網(wǎng)站的排名信息,-1表示不能通過http://alexa.chinaz.com/查詢到網(wǎng)站的排名信息。可以理解的是,網(wǎng)站的排名信息的查詢并不局限于本實施例,也可以采用其他方式來查詢,只要能獲取網(wǎng)站的排名信息即可。
[0048]所述網(wǎng)頁關(guān)系建模模塊30根據(jù)所述特征詞提取子模塊21提取的特征詞分別與白名單和黑名單的共有詞關(guān)系來獲取所述網(wǎng)站和和黑/白名單的關(guān)系。具體地,所述網(wǎng)頁關(guān)系建模模塊30根據(jù)所述特征詞提取子模塊21提取的特征詞,計算每一個網(wǎng)址Wpi分別與白
名單 Rwp1, Rwp2,----RwpN、黑名單 Fwp1, Fwp2,----FwpN 的共有詞個數(shù) RNCil, RNCi2,...RNCin,
FNCil, FNCi2,...FNCiN,并將所有RNCijM的個數(shù)之和記為隊,將所有FNCijM的個數(shù)之和記為Nf,由此,即構(gòu)建出每一個網(wǎng)址和黑/白名單之間的關(guān)系模型,亦即獲取所述網(wǎng)站和黑/白名單的關(guān)系。
[0049]所述決策樹分類模塊40將網(wǎng)頁特征記為FT (Nf,Nr, Npg, Nlk),并對白名單、黑名單及其對應(yīng)的類標(biāo)號,記為D,葉節(jié)點的類標(biāo)號為Cl (是釣魚網(wǎng)站)和C2 (不是釣魚網(wǎng)站),本實施例中,所述決策樹分類模塊40采用C4.5決策樹算法獲得決策樹結(jié)構(gòu),算法的基本原理如下:
[0050](a)將所述網(wǎng)頁特征FT (Nf, Nr, Npg, Nlk)作為候選屬性集。
[0051](b)創(chuàng)建一個節(jié)點N,計算數(shù)據(jù)分區(qū)D劃分前的期望信息:
【權(quán)利要求】
1.一種釣魚網(wǎng)站鑒別系統(tǒng),其特征在于,包括: 頁面爬取模塊,用于爬取網(wǎng)站的頁面源代碼,并提取網(wǎng)站的中文文本及網(wǎng)站的內(nèi)/外鏈接數(shù)量; 特征提取模塊,其和所述頁面爬取模塊相連接,用于提取所述網(wǎng)站的頁面特征詞、內(nèi)/外鏈接數(shù)量之比及排名信息; 網(wǎng)頁關(guān)系建模模塊,其和所述特征提取模塊相連接,用于根據(jù)所述頁面特征詞獲取所述網(wǎng)站和黑/白名單的關(guān)系; 決策樹分類模塊,其和所述網(wǎng)頁關(guān)系建模模塊相連接,用于將已知網(wǎng)站和黑/白名單的關(guān)系、已知網(wǎng)站的內(nèi)/外鏈接數(shù)量之比及已知網(wǎng)站的排名信息作為特征向量,并使用決策樹進(jìn)行訓(xùn)練,構(gòu)建決策樹分類模型;及 鑒別模塊,其和所述決策樹訓(xùn)練模塊及所述網(wǎng)頁關(guān)系建模模塊分別相連接,用于保存所述決策樹分類模型,并利用所述決策樹分類模型對未知網(wǎng)站和黑/白名單的關(guān)系、未知網(wǎng)站的內(nèi)/外鏈接數(shù)量之比及未知網(wǎng)站的排名信息進(jìn)行鑒別,判斷所述未知網(wǎng)站是否為釣魚網(wǎng)站。
2.如權(quán)利要求1所述的釣魚網(wǎng)站鑒別方法,其特征在于,所述網(wǎng)站包括所述已知網(wǎng)站和所述未知網(wǎng)站。
3.如權(quán)利要求1所述的釣魚網(wǎng)站鑒別系統(tǒng),其特征在于,所述頁面爬取模塊使用網(wǎng)絡(luò)爬蟲技術(shù)爬取所述網(wǎng)站的頁面的所有內(nèi)容,獲取網(wǎng)站源代碼。
4.如權(quán)利要求1所述的釣魚網(wǎng)站鑒別系統(tǒng),其特征在于,所述特征提取模塊包括特征詞提取子模塊、特征詞頻率計算子模塊、鏈接特征提取子模塊及網(wǎng)站排名特征提取子模塊;所述特征詞提取子模塊對所述頁面爬取模塊提取出的中文文字進(jìn)行分詞;所述特征詞頻率計算子模塊根據(jù)所述特征詞提取子模塊獲取的特征詞向量,計算網(wǎng)頁出現(xiàn)所述特征詞向量中每一個特征詞的頻率;所述鏈接特征提取子模塊從所述頁面爬取模塊獲取的網(wǎng)站源代碼中,計算內(nèi)/外鏈接數(shù)量之比;所述網(wǎng)站排名特征提取子模塊將網(wǎng)站的排名信息作為網(wǎng)頁的一個特征向量。
5.如權(quán)利要求4所述的釣魚網(wǎng)站鑒別系統(tǒng),其特征在于,所述網(wǎng)頁關(guān)系建模模塊根據(jù)所述特征詞提取子模塊提取的特征詞分別與白名單和黑名單的共有詞之間的關(guān)系來獲取所述網(wǎng)站和和黑/白名單的關(guān)系。
6.如權(quán)利要求1所述的釣魚網(wǎng)站鑒別系統(tǒng),其特征在于,所述決策樹分類模塊采用C4.5決策樹算法。
7.如權(quán)利要求1所述的釣魚網(wǎng)站鑒別系統(tǒng),其特征在于,所述特征提取模塊和所述頁面爬取模塊之間、所述網(wǎng)頁關(guān)系建模模塊和所述特征提取模塊之間、所述決策樹分類模塊和所述網(wǎng)頁關(guān)系建模模塊之間、所述鑒別模塊和所述決策樹訓(xùn)練模塊之間以及所述鑒別模塊和所述網(wǎng)頁關(guān)系建模模塊之間為電性連接、數(shù)據(jù)連接或通信連接。
8.一種釣魚網(wǎng)站鑒別方法,其特征在于,包括如下步驟: S11、利用頁面爬取模塊爬取網(wǎng)站的頁面源代碼,并提取網(wǎng)站的中文文本及網(wǎng)站的內(nèi)/外鏈接數(shù)量; S13、利用特征提取模塊提取所述網(wǎng)站的頁面特征詞、內(nèi)/外鏈接數(shù)量之比及排名信息;S15、利用網(wǎng)頁關(guān)系建模模塊根據(jù)所述頁面特征詞獲取所述網(wǎng)站和黑/白名單的關(guān)系;S17、利用決策樹分類模塊將已知網(wǎng)站和黑/白名單的關(guān)系、已知網(wǎng)站的內(nèi)/外鏈接數(shù)量之比及已知網(wǎng)站的排名信息作為特征向量,并使用決策樹進(jìn)行訓(xùn)練,構(gòu)建決策樹分類模型;及 S19、利用鑒別模塊保存所述決策樹分類模型,并利用所述決策樹分類模型對未知網(wǎng)站和黑/白名單的關(guān)系、未知網(wǎng)站的內(nèi)/外鏈接數(shù)量之比及未知網(wǎng)站的排名信息進(jìn)行鑒別,判斷所述未知網(wǎng)站是否為釣魚網(wǎng)站。
9.如權(quán)利要求8所述的釣魚網(wǎng)站鑒別方法,其特征在于,步驟Sll中,所述網(wǎng)站包括所述已知網(wǎng)站和所述未知 網(wǎng)站。
【文檔編號】G06F17/30GK103544436SQ201310477276
【公開日】2014年1月29日 申請日期:2013年10月12日 優(yōu)先權(quán)日:2013年10月12日
【發(fā)明者】張巍, 姜青山 申請人:深圳先進(jìn)技術(shù)研究院