一種不依賴樣本的釣魚網(wǎng)站檢測方法
【專利摘要】本發(fā)明涉及一種不依賴樣本的釣魚網(wǎng)站檢測方法本發(fā)明釣魚網(wǎng)站檢測方法,1)根據(jù)待檢測網(wǎng)頁的目標(biāo)統(tǒng)一資源定位符TargetURL提取得到域名,將所述域名進行PageRank和/或Alexa排名值查詢;2)對所述待檢測網(wǎng)頁進行標(biāo)題抓取,提取出網(wǎng)頁標(biāo)題字符串,根據(jù)所述字符串和釣魚敏感詞進行匹配;3)在搜索引擎上以所述網(wǎng)頁標(biāo)題為查詢關(guān)鍵字進行檢索;4)查詢TargetURL和待測網(wǎng)頁標(biāo)題完全相同的網(wǎng)頁集合中對應(yīng)的域名服務(wù)器NS和服務(wù)器IP地址是否相同,來判斷待檢測網(wǎng)站為釣魚網(wǎng)站。本發(fā)明充分利用釣魚網(wǎng)站的共性特點,通過互聯(lián)網(wǎng)公開資源(PageRank、Alexa排名、網(wǎng)站在通用搜索引擎中收錄和排名情況),不僅克服了釣魚樣本收集難的問題,同時對針對新出現(xiàn)目標(biāo)的釣魚有良好的適應(yīng)檢測能力。
【專利說明】一種不依賴樣本的釣魚網(wǎng)站檢測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及釣魚網(wǎng)站的檢測方法,具體涉及一種利用釣魚網(wǎng)站的共性特點,通過互聯(lián)網(wǎng)公開資源對釣魚網(wǎng)站進行檢測的方法,屬于互聯(lián)網(wǎng)安全領(lǐng)域。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)釣魚,是指通過偽裝成與目標(biāo)網(wǎng)站非常相似的網(wǎng)站,引誘用戶訪問,并獲取收信人在此網(wǎng)站上輸入的個人敏感信息的網(wǎng)絡(luò)犯罪行為。由于電子商務(wù)和互聯(lián)網(wǎng)應(yīng)用的普及和發(fā)展,網(wǎng)絡(luò)釣魚造成的損失日益嚴(yán)重。國內(nèi)最大的安全廠商360安全7月份發(fā)布的《2011上半年中國網(wǎng)絡(luò)安全報告》顯示網(wǎng)絡(luò)釣魚欺詐成為網(wǎng)絡(luò)安全的最大威脅。另據(jù)國際反釣魚聯(lián)盟發(fā)布的報告,近年來網(wǎng)絡(luò)釣魚攻擊的數(shù)量大幅上升,尋找有效的釣魚檢測方法變得尤為緊迫。
[0003]網(wǎng)絡(luò)釣魚是指通過偽裝成與目標(biāo)組織的網(wǎng)站非常相似的網(wǎng)站,引誘用戶訪問,并獲取收信人在此網(wǎng)站上輸入的個人敏感信息的網(wǎng)絡(luò)犯罪行為。網(wǎng)絡(luò)釣魚作為一種犯罪行為,與現(xiàn)實社會中的流竄作案相似,一個釣魚網(wǎng)站從建立到消亡往往在幾天內(nèi),甚至幾小時,這一顯著特點決定了互聯(lián)網(wǎng)公開資源(搜索引擎、排名服務(wù)等)對釣魚網(wǎng)站的索引、評價等都在一個極低的范圍內(nèi)。
[0004]另一方面,釣魚的本質(zhì)決定了釣魚網(wǎng)站需要偽裝,從表面上看起來與被釣魚目標(biāo)具有高度的相似性,以期以假亂真,從而達到謀求不當(dāng)利益的目標(biāo)。這種相似性首先體現(xiàn)在頁面的相似性,如果拿網(wǎng)站內(nèi)容與所有目標(biāo)網(wǎng)站進行匹配,擇需要事先收集所有被釣魚目標(biāo),這是一項復(fù)雜的工作,特別是新的釣魚目標(biāo)不斷出現(xiàn),使得該項工作更會是無休止的繼續(xù)。退一步,釣魚偽裝的相似性首先體現(xiàn)在標(biāo)題相似性上,而這種相似性我們可以借助公開的搜索弓I擎進行比對,免去了釣魚目標(biāo)的收集工作。
[0005]目前,在檢測釣魚網(wǎng)站的【技術(shù)領(lǐng)域】中主要包括三大類的技術(shù)手段:黑名單技術(shù)、基于URL特征的檢測技術(shù)和基于網(wǎng)頁內(nèi)容特征的檢測技術(shù)。黑名單技術(shù)是通過用戶舉報或評價來維護一個不斷更新的釣魚網(wǎng)站名單列表,從而阻止更多的用戶不要訪問已發(fā)現(xiàn)的釣魚網(wǎng)站。基于URL特征釣魚檢測,是通過分析URL的元素構(gòu)成,多輔以注冊、解析信息進行釣魚與否的判斷,該方法往往用于初步檢測,最終的判定一般也要基于內(nèi)容?;诰W(wǎng)頁內(nèi)容特征的釣魚檢測是通過分析網(wǎng)頁與目標(biāo)網(wǎng)頁的內(nèi)容相似度進行判定的方法。
[0006]以上三種常用的檢測技術(shù):黑名單技術(shù)的滯后性是其最大缺陷?;赨RL的放方法需要事先收集被釣魚網(wǎng)站的URL,對新釣魚目標(biāo)無能為力。同樣,基于內(nèi)容分析的方法需要目標(biāo)網(wǎng)頁的先驗知識和大量的釣魚樣本收集,該方法對針對新目標(biāo)的釣魚攻擊也無能為力。
[0007]Alexa排名是指網(wǎng)站的世界排名NNT流量,主要分兩種:綜合排名和分類排名,Alexa提供了包括綜合排名、到訪量排名、頁面訪問量排名等多個評價指標(biāo)信息,大多數(shù)人把它當(dāng)作當(dāng)前較為權(quán)威的網(wǎng)站訪問量評價指標(biāo)。Alexa每三個月公布一次新的網(wǎng)站綜合排名。此排名的依據(jù)是用戶鏈接數(shù)(Users Reach)和頁面瀏覽數(shù)(Page Views)三個月累積的幾何平均值。
[0008]PageRank是Google排名運算法則(排名公式)的一部分,是Google用來標(biāo)識網(wǎng)頁的等級/重要性的一種方法,是Google用來衡量一個網(wǎng)站的好壞的唯一標(biāo)準(zhǔn)。在揉合了諸如(標(biāo)題)Title標(biāo)識和(關(guān)鍵詞)Keywords標(biāo)識等所有其它因素之后,Google通過PageRank來調(diào)整結(jié)果,使那些更具“等級/重要性”的網(wǎng)頁在搜索結(jié)果中另網(wǎng)站排名獲得提升,從而提高搜索結(jié)果的相關(guān)性和質(zhì)量。
[0009]基于以上情況,本發(fā)明提出一種多尺度釣魚判定方法,該方法不需要任何釣魚目標(biāo)網(wǎng)站信息、不需要收集任何釣魚樣本數(shù)據(jù),通過Alexa排名和PageRank可以對新出現(xiàn)的針對新目標(biāo)的釣魚攻擊進行準(zhǔn)確檢測判定。
【發(fā)明內(nèi)容】
[0010]本發(fā)明的目是通過分析釣魚網(wǎng)站的共性,提供一種不依賴于釣魚樣本庫和釣魚目標(biāo)信息的簡單易用,而有準(zhǔn)確率高的釣魚網(wǎng)站檢測判定方法。
[0011]針對現(xiàn)有技術(shù)的不足,本發(fā)明的技術(shù)方案如下:一種不依賴樣本的釣魚網(wǎng)站檢測方法,其步驟包括:
[0012]I)根據(jù)待檢測網(wǎng)頁的目標(biāo)統(tǒng)一資源定位符TargetURL提取得到域名,將所述域名進行PageRank和/或Alexa排名值查詢;
[0013]2)對在設(shè)定排名范圍內(nèi)的所述待檢測網(wǎng)頁進行標(biāo)題抓取,提取出網(wǎng)頁標(biāo)題字符串,根據(jù)所述字符串和釣魚關(guān)鍵詞進行匹配;
[0014]3)對于匹配的待檢測網(wǎng)頁,在搜索引擎上以所述網(wǎng)頁標(biāo)題為查詢關(guān)鍵字進行檢索;
[0015]4)若所述搜索引擎返回結(jié)果中沒有TargetURL且該返回結(jié)果中存在與待測網(wǎng)頁標(biāo)題完全相同的網(wǎng)頁集合,則查詢所述TargetURL和所述待測網(wǎng)頁標(biāo)題完全相同的網(wǎng)頁集合中對應(yīng)的域名服務(wù)器NS和服務(wù)器IP地址是否相同,將不相同的待檢測網(wǎng)站判定為釣魚網(wǎng)站。
[0016]步驟3)還包括對所述TargetURL進行網(wǎng)頁抓取并對所述抓取到網(wǎng)頁進行解析,判斷該網(wǎng)頁中是否存在與所述待檢測網(wǎng)頁標(biāo)題完全相同的網(wǎng)頁集合所指向的域名鏈接。
[0017]所述釣魚關(guān)鍵詞通過統(tǒng)計算法自動統(tǒng)計詞頻獲得。
[0018]所述排名范圍是PageRank值大于K和/或Alexa排名值大于M,其中,K、M為可調(diào)節(jié)參數(shù),K取值為I或2,M取O。
[0019]所述待檢測網(wǎng)頁進行抓取在Linux系統(tǒng)下運行Shell命令wget TargetUrl抓取。
[0020]所述網(wǎng)頁標(biāo)題的提取方法是對所述抓取得到網(wǎng)頁進行字符串匹配,獲取〈title〉和〈/title〉標(biāo)簽內(nèi)容。
[0021]所述搜索引擎檢索所述網(wǎng)頁標(biāo)題時,所述搜索引擎返回結(jié)果為前L個,其中L不大于30。
[0022]所述域名服務(wù)器NS和服務(wù)器IP地址查詢可以通過Linux系統(tǒng)中的dig命令或whois命令或Windows Bind下查詢。
[0023]所述搜索引擎使用Google或者Bing。
[0024]本發(fā)明的有益效果:[0025]本發(fā)明充分利用了釣魚攻擊的最本質(zhì)特點,簡單易用,不僅克服了釣魚樣本收集難的問題,同時對針對新目標(biāo)的釣魚有良好的適應(yīng)檢測能力。該方法不利用任何的釣魚目標(biāo)信息和釣魚樣本庫。該發(fā)明的方法,綜合利用互聯(lián)網(wǎng)資源,包括PageRank查詢接口、通用搜索引擎和Alexa排名值等,同時對針對新出現(xiàn)目標(biāo)的釣魚有良好的適應(yīng)檢測能力,方法易于使用,對待檢測目標(biāo)的URL和頁面標(biāo)題進行分析,從而確定頁面是否釣魚。
【專利附圖】
【附圖說明】
[0026]圖1為本發(fā)明不依賴樣本的釣魚網(wǎng)站檢測方法具體實施例的流程示意圖。
【具體實施方式】
[0027]下面結(jié)合附圖和具體實施例進一步說明本發(fā)明實施例的技術(shù)方案。本實施例涉及的搜索引擎,不限于具體哪個,可以為任何通用搜索引擎。本發(fā)明隨機選擇了中國反釣魚聯(lián)盟2012年上半年800個釣魚舉報網(wǎng)站和www.dmoz.0rg上的1300個非釣魚網(wǎng)站,構(gòu)建了一個釣魚數(shù)據(jù)集。利用該發(fā)明的方法進行試驗驗證,表現(xiàn)出良好的檢測性能,其中釣魚檢測的召回率為100%,準(zhǔn)確率達到100%,誤檢率為0,實驗結(jié)果證明本發(fā)明方法的可行性和有效性。
[0028]本發(fā)明通過獲取和分析待檢測網(wǎng)站的PageRank值、Alexa排名值、搜索引擎網(wǎng)頁收錄和排名情況等,做出網(wǎng)站釣魚與否的綜合判斷。PageRank和Alexa排名在本文中僅僅是一個粗過濾,可以肯定的是:釣魚網(wǎng)站PageRank值很小,Alexa排名很低或沒有排名。
[0029]圖1為本發(fā)明不依賴樣本的釣魚網(wǎng)站檢測方法具體實施例的流程示意圖,如圖1所示,本發(fā)明釣魚攻擊檢測方法包括以下步驟:
[0030]步驟100、根據(jù)待檢測網(wǎng)頁的統(tǒng)一資源定位符(TargetUrl),提取唯一對應(yīng)的域名,并基于域名獲取PageRan`k值和Alexa排名值。提取域名指提取目標(biāo)Url (TargetUrl)的域名部分,例如:“http://item, taoba0.com3358.tk/trade/batch payment, htm.asp,,的對應(yīng)域名為“com3358.tk”。獲取PageRank值的公開查詢接口為:http: //toolbarqueries.google, com/,該查詢接口需要通過程序獲取,任何語言均可,查詢接口是Google和Alexa對外公開的且固定不變。獲取Alexa排名值的公開查詢方式為:"http://data, alexa.com/data ? cli = lO&dat = snba&url = +TargetUrl? 一般情況下,如果 PageRank 值大于K,并且Alexa排名值大于M,則認為該網(wǎng)站非釣魚網(wǎng)站,否則進一步檢測進入步驟200。一般情況下,K取值為I或2,考慮到釣魚網(wǎng)站的時效性通常在幾天內(nèi),M的取值0,即網(wǎng)站存在Alexa排名,K、M為可調(diào)節(jié)參數(shù)。
[0031]步驟200、基于給定的待判定網(wǎng)址,進行網(wǎng)頁抓取(可使用Linux系統(tǒng)自帶的命令wget),并提取網(wǎng)頁標(biāo)題,比如,一個簡單的方法,定位〈title〉標(biāo)簽,〈title〉和〈/title〉之間的內(nèi)容即為標(biāo)題。匹配標(biāo)題字符串內(nèi)是否含有釣魚敏感別詞,如果含有則繼續(xù),否則直接判定為非釣魚網(wǎng)站。該步驟基于釣魚網(wǎng)站都是以期高仿真模仿目標(biāo)網(wǎng)站,標(biāo)題醒目位置含有釣魚關(guān)鍵詞關(guān)鍵詞。釣魚關(guān)鍵詞指釣魚針對的類別詞和經(jīng)常被釣魚的網(wǎng)站關(guān)鍵詞,這些關(guān)鍵詞基于釣魚數(shù)據(jù)庫的統(tǒng)計,統(tǒng)計為高頻的詞匯,可以由統(tǒng)計算法自動統(tǒng)計詞頻獲得。網(wǎng)絡(luò)釣魚是以謀利為目的犯罪活動,針對的類別和目標(biāo)有限,主要是金融支付類和中獎等。本實施例中的關(guān)鍵詞可以為:“銀行”、“支付”、“登陸”、“中獎”、“證券”、“團購”、“官方網(wǎng)站”、“官網(wǎng)”、“淘寶”、“騰訊”等。
[0032]在該步驟中,網(wǎng)頁的抓取只抓取待檢測頁,方法成熟,比如在Linux系統(tǒng)下,運行Shell命令wget TargetUrl即可抓取。網(wǎng)頁標(biāo)題的提取,可以簡單對抓取的網(wǎng)頁進行字符串匹配,獲取〈title〉和〈/title〉標(biāo)簽內(nèi)的內(nèi)容,即為網(wǎng)頁標(biāo)題。
[0033]步驟300、在搜索引擎(可使用Google或者Bing)中以網(wǎng)頁標(biāo)題為查詢字進行搜索,獲取搜索結(jié)果。如果待檢測網(wǎng)頁出現(xiàn)在搜索引擎中,即搜索返回的結(jié)果中含有該頁面,則該網(wǎng)頁判定為正常網(wǎng)頁。如果目標(biāo)統(tǒng)一資源定位符TargetUrl沒有出現(xiàn)在返回結(jié)果中,且搜索結(jié)果中包含與目標(biāo)統(tǒng)一資源定位符TargetUrl的標(biāo)題完全相同的網(wǎng)頁集合,則該待判定頁面作為可疑頁面,進入步驟400,以進一步進行判定。否則判定為合法網(wǎng)站。該步驟的依據(jù)為釣魚網(wǎng)站為了欺騙網(wǎng)民,一般會使用與目標(biāo)網(wǎng)站系統(tǒng)的標(biāo)題。比如,釣魚淘寶的虛假網(wǎng)站,其標(biāo)題也會顯示“淘寶網(wǎng)-淘!我喜歡”。步驟300中僅僅是其中一個指標(biāo),通過前面有PageRank和Alexa過濾,明顯的好網(wǎng)站已經(jīng)排除了。
[0034]步驟300中,以該提取的標(biāo)題為關(guān)鍵詞進行通用搜索的查詢,這里查詢返回的結(jié)果限定取前L個,一般L < 30,即一般用戶使用通用搜索引擎時最多關(guān)注的返回結(jié)果數(shù)。
[0035]步驟400、對步驟200抓取的頁面進行解析,查看是否存在指向標(biāo)題完全相同的網(wǎng)頁集合所有域名的鏈接,如果沒有,則認定該待判定頁面為正常頁面,否則進一步進入步驟500,進行進一步判定。
[0036]該步驟的出發(fā)點是釣魚網(wǎng)站往往含有鏈向目標(biāo)網(wǎng)站的鏈接。
[0037]步驟500、分別查看TargetUrl和標(biāo)題完全相同的網(wǎng)頁集合對應(yīng)域名所屬NS (Namesever)和服務(wù)器IP地址,如果NS或IP相同,則認定該待判定網(wǎng)站非釣魚,為正常網(wǎng)站,否則判定為釣魚網(wǎng)站。
[0038]步驟500是為了過濾正規(guī)的某老品牌推出的新品牌網(wǎng)站,防止誤判。該步驟中對NS和IP的查詢,可以通過Linux系統(tǒng)中的dig命令。或者可以使用Linux下的whois命令或(http://www.1sc.0rg/software/bind/)。, Bind 的 Windows 版本在 windows 下查詢。
[0039]雖然本發(fā)明以實施例揭示如上,但其并非用以限定本發(fā)明,任何本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),可作任意改動或等同替換,故本發(fā)明的保護范圍應(yīng)當(dāng)以本申請權(quán)利要求書所界定的范圍為準(zhǔn)。
【權(quán)利要求】
1.一種不依賴樣本的釣魚網(wǎng)站檢測方法,其步驟包括: 1)根據(jù)待檢測網(wǎng)頁的目標(biāo)統(tǒng)一資源定位符TargetURL提取得到域名,將所述域名進行PageRank和/或Alexa排名值查詢; 2)對在設(shè)定排名范圍內(nèi)的所述待檢測網(wǎng)頁進行標(biāo)題抓取,提取出網(wǎng)頁標(biāo)題字符串,根據(jù)所述字符串和釣魚關(guān)鍵詞進行匹配; 3)對于匹配的待檢測網(wǎng)頁,在搜索引擎上以所述網(wǎng)頁標(biāo)題為查詢關(guān)鍵字進行檢索; 4)若所述搜索引擎返回結(jié)果中沒有TargetURL且該返回結(jié)果中存在與待測網(wǎng)頁標(biāo)題完全相同的網(wǎng)頁集合,則查詢所述TargetURL和所述待測網(wǎng)頁標(biāo)題完全相同的網(wǎng)頁集合中對應(yīng)的域名服務(wù)器NS和服務(wù)器IP地址是否相同,將不相同的待檢測網(wǎng)站判定為釣魚網(wǎng)站。
2.如權(quán)利要求1所述的不依賴樣本的釣魚網(wǎng)站檢測方法,其特征在于,步驟3)還包括對所述TargetURL進行網(wǎng)頁抓取并對所述抓取到網(wǎng)頁進行解析,判斷該網(wǎng)頁中是否存在與所述待檢測網(wǎng)頁標(biāo)題完全相同的網(wǎng)頁集合所指向的域名鏈接。
3.如權(quán)利要求1所述的不依賴樣本的釣魚網(wǎng)站檢測方法,其特征在于,所述釣魚關(guān)鍵詞通過統(tǒng)計算法自動統(tǒng)計詞頻獲得。
4.如權(quán)利要求1所述的不依賴樣本的釣魚網(wǎng)站檢測方法,其特征在于,所述排名范圍是PageRank值大于K和/或Alexa排名值大于M,其中,K、M為可調(diào)節(jié)參數(shù),K取值為I或2,M 取 O。
5.如權(quán)利要求1所述的不依賴樣本的釣魚網(wǎng)站檢測方法,其特征在于,所述待檢測網(wǎng)頁進行抓取在Linux系統(tǒng)下運行Shell命令wget TargetUrl抓取。
6.如權(quán)利要求5所述的不依賴樣本的釣魚網(wǎng)站檢測方法,其特征在于,所述網(wǎng)頁標(biāo)題的提取方法是對所述抓取得到網(wǎng)頁進行字符串匹配,獲取〈title〉和〈/title〉標(biāo)簽內(nèi)容。
7.如權(quán)利要求1所述的不依賴樣本的釣魚網(wǎng)站檢測方法,其特征在于,所述搜索引擎檢索所述網(wǎng)頁標(biāo)題時,所述搜索引擎返回結(jié)果為前L個,其中L不大于30。
8.如權(quán)利要求1所述的不依賴樣本的釣魚網(wǎng)站檢測方法,其特征在于,所述域名服務(wù)器NS和服務(wù)器IP地址查詢可以通過Linux系統(tǒng)中的dig命令或whois命令或WindowsBind下查詢。
9.如權(quán)利要求1所述的不依賴樣本的釣魚網(wǎng)站檢測方法,其特征在于,所述搜索引擎使用Google或者Bing。
【文檔編號】G06F17/30GK103685174SQ201210333169
【公開日】2014年3月26日 申請日期:2012年9月7日 優(yōu)先權(quán)日:2012年9月7日
【發(fā)明者】耿光剛, 洪博 申請人:中國科學(xué)院計算機網(wǎng)絡(luò)信息中心