一種自動檢測疑似仿冒網站的方法及系統的制作方法
【專利摘要】本發(fā)明涉及一種自動檢測疑似仿冒網站的方法,包括以下步驟:1:接收多個網站地址;2:將一個網站地址與白名單相匹配,判斷是否匹配,如匹配,允許訪問并添加白名單標記,跳轉至步驟6;否則,繼續(xù);3:將網站地址與黑名單相匹配,判斷是否匹配,如匹配,則禁止訪問并添加黑名單標記,跳轉至步驟6;否則,繼續(xù);4:將當前網頁內容與所有白名單網站的專屬標識進行匹配,計算相似度,得到最大相似度值;5:判斷最大相似度值是否大于預設的閾值,如是,為疑似仿冒網站;否則,為非疑似仿冒網站;步驟6:判斷是否存在未添加標記的網站地址,如有,進行步驟2;否則,結束。本發(fā)明可在用戶利益受到侵害之前檢測出疑似仿冒網站,降低用戶損失。
【專利說明】—種自動檢測疑似仿冒網站的方法及系統
【技術領域】
[0001]本發(fā)明涉及一種自動檢測疑似仿冒網站的方法及系統。
【背景技術】
[0002]仿冒網站,是網絡在線欺騙活動的一種方式,主要用來竊取用戶的私密信息,如信用卡賬號密碼、電子商務網站帳號密碼等。仿冒網站的欺騙形式包括:
[0003]1.社交網絡中利用社交群體散布仿冒網站信息;
[0004]2.即時通訊(IM)工具中利用在線交易或電子商務來引導用戶進入不法仿冒網站;
[0005]3.郵件鏈接導入不法仿冒網站;
[0006]4.論壇或虛擬社區(qū)中張貼仿冒網站鏈接。
[0007]這些網站通常是對真實網站域名進行細微篡改,或其網頁在視覺上與被仿冒網頁具有高仿真度,進而騙取用戶信任,獲取用戶信息,損害用戶利益。
[0008]目前,業(yè)界通常有如下共識:
[0009]仿冒網站:指網站地址的名稱或網頁在視覺上非常類似于正規(guī)的商業(yè)網站,且意圖在于損害用戶利益的網站。
[0010]白名單:指待保護的正規(guī)網站列表,一般來說這類需要保護的網站地址,是網絡交易或者電子商務中高頻度出現的網站,比如淘寶、Ebay、京東等電子商務網站,工商銀行、中國銀行等銀行交易系統,“中國好聲音”、“中國最強音”等大眾娛樂網頁,這些都是仿冒者攻擊的目標。
[0011]黑名單:指已驗證的仿冒網站列表,這類列表中的網站都是通過用戶投訴、網上舉報或者人工篩查獲得,并經過相關管理部門確認的仿冒網站,這類列表中的網站通常已經對用戶利益造成了損害。
[0012]現有的仿冒網站檢測識別技術通常都是基于黑名單和白名單機制。給定待檢測網站地址,通過查詢白名單或者黑名單來判斷所述待檢測網站地址是否在名單之列,來識別正規(guī)網站或仿冒網站。但是,現有的黑白名單檢測識別技術僅僅可以識別出黑名單中已有的仿冒網站,如果某仿冒網站不在黑名單內,則無法識別。然而,網絡的變化性很大,不法分子可以通過重新申請新的網站地址的方式繼續(xù)行騙,而現有的識別技術需要在收到舉報或者事發(fā)后才能更新黑名單的數據庫,無法做到事前檢測識別,風險警示。
【發(fā)明內容】
[0013]本發(fā)明所要解決的技術問題是,針對現有技術無法事先識別仿冒網站的現狀,提供一種達到事前識別,降低訪問仿冒網站概率的目的的自動檢測疑似仿冒網站的方法。
[0014]本發(fā)明解決上述技術問題的技術方案如下:一種自動檢測疑似仿冒網站的方法,具體包括以下步驟:
[0015]步驟1:接收到多個網站地址,并將多個網站地址排列成網站地址列表;[0016]步驟2:按照列表順序將網站地址列表中的一個網站地址與預設的白名單相匹配,判斷是否匹配,如果匹配,允許用戶訪問該網站地址并對該網站地址添加白名單標記,跳轉至步驟6 ;否則,繼續(xù)步驟3 ;
[0017]步驟3:將當前網站地址與預設的黑名單相匹配,判斷是否匹配,如果匹配,則禁止用戶訪問該網站地址并對該網站地址添加黑名單標記,跳轉至步驟6 ;否則,繼續(xù)步驟4 ;
[0018]步驟4:將當前網站地址對應的網頁內容與所有白名單網站中內設的專屬標識LOGO圖片進行匹配,并計算相似度,得到最大相似度值;
[0019]步驟5:判斷最大相似度值是否大于預設的閾值,如果是,則判定當前網站地址為疑似仿冒網站并對該網站地址添加疑似仿冒標記;否則,判定當前網站地址為非疑似仿冒網站添加非疑似仿冒標記;
[0020]步驟6:判斷網站地址列表中是否存在未添加標記的網站地址,如果有,進行步驟2 ;否則,結束。
[0021]本發(fā)明的有益效果是:本發(fā)明所述一種自動檢測疑似仿冒網站的方法,可以在用戶個人利益受到侵害之前檢測出疑似仿冒網站,降低用戶損失。與已公開的相關技術相比,本發(fā)明采用基于局部特征點的目標網站LOGO圖片與待檢測網站整體圖片的匹配方法,在保證能夠檢測出視覺相似的仿冒網站的前提下,有效檢測出與仿冒目標網站有視覺差異的仿冒網站。
[0022]在上述技術方案的基礎上,本發(fā)明還可以做如下改進。
[0023]進一步,所述步驟4具體包括以下步驟:
[0024]步驟4.1:獲取所有白名單網站的專屬標識LOGO圖片;
[0025]步驟4.2:采集當前網站地址的URL統一資源定位符,并通過網絡下載得到當前網站地址對應的網頁整體圖像;
[0026]步驟4.3:將當前網站地址對應的網頁整體圖像與所有白名單網站的專屬標識LOGO圖片依次進行對比,并計算相似度得到多個相似度值;
[0027]步驟4.4:將多個相似度值按從大到小進行排序,得到最大相似度值。
[0028]進一步,所述步驟4.3具體包括以下步驟:
[0029]步驟4.3.1:對當前網站地址對應的網頁整體圖像提取特征點,構成待測特征點集;
[0030]步驟4.3.2:對所有白名單網站的專屬標識LOGO圖片分別提取特征點,分別構成多個對應的白名單特征點集;
[0031]步驟4.3.3:對待測特征點集計算SURF (Speeded Up Robust Features)待測局部特征描述子;對多個白名單特征點集分別計算SURF (Speeded Up Robust Features)白名單局部特征描述子;
[0032]步驟4.3.4:利用近鄰檢測快速工具包(FLANN, Fast Library for ApproximateNearest Neighbors)對待測局部特征描述子與多個白名單局部特征描述子間的快速匹配;
[0033]步驟4.3.5:將多個匹配結果換算為數值,得到多個相似度值。
[0034]所述步驟5中的閾值獲取包括以下步驟:
[0035]步驟a:根據國家互聯網權威管理部門提供的黑名單中仿冒網站(URL)統一資源定位符的集合,利用網絡下載獲得黑名單對應的整體圖像,得到黑名單圖像合集;[0036]步驟b:將白名單中的一個白名單網站的專屬標識LOGO圖片依次與黑名單圖像集合中的圖像進行相似度計算,得到多個相似度值;
[0037]步驟c:對多個相似度值取平均值得到相似度均值;
[0038]步驟d:判斷是否白名單中所有的白名單網站都已進行相似度計算,如果是,進行步驟e;否則,跳轉至步驟b;
[0039]步驟e:將所有白名單網站計算得到的相似度均值按數值大小排序,得到最小相似度均值為閾值。
[0040]本發(fā)明所要解決的技術問題是,針對現有技術無法事先識別仿冒網站的現狀,提供一種達到事前識別,降低訪問仿冒網站概率的目的的自動檢測疑似仿冒網站的系統。
[0041]本發(fā)明解決上述技術問題的技術方案如下:一種自動檢測疑似仿冒網站的系統,包括接收模塊、白名單匹配模塊、黑名單匹配模塊、相似度計算模塊和判斷模塊;
[0042]所述接收模塊接收到多個網站地址,并將多個網站地址排列成網站地址列表;
[0043]所述白名單匹配模塊按照列表順序將網站地址列表中的一個網站地址與預設的白名單相匹配,判斷是否匹配,如果匹配,允許用戶訪問該網站地址并對該網站地址添加白名單標記;否則,將當前網站地址發(fā)送到黑名單匹配模塊;
[0044]所述黑名單匹配模塊將當前網站地址與預設的黑名單相匹配,判斷是否匹配,如果匹配,則禁止用戶訪問該網站地址并對該網站地址添加黑名單標記;否則,將當前網站地址發(fā)送到相似度計算模塊;
[0045]所述相似度計算模塊將當前網站地址對應的網頁內容與所有白名單網站中內設的專屬標識LOGO圖片進行匹配,`并計算相似度,得到最大相似度值;
[0046]所述判斷模塊判斷最大相似度值是否大于預設的閾值,如果是,則判定當前網站地址為疑似仿冒網站并對該網站地址添加疑似仿冒標記;否則,判定當前網站地址為非疑似仿冒網站。
[0047]本發(fā)明的有益效果是:本發(fā)明所述一種自動檢測疑似仿冒網站的系統,可以在用戶個人利益受到侵害之前檢測出疑似仿冒網站,降低用戶損失。與已公開的相關技術相比,本發(fā)明采用基于局部特征點的目標網站LOGO圖片與待檢測網站整體圖片的匹配方法,在保證能夠檢測出視覺相似的仿冒網站的前提下,有效檢測出與仿冒目標網站有視覺差異的仿冒網站。
[0048]在上述技術方案的基礎上,本發(fā)明還可以做如下改進。
[0049]進一步,所述相似度計算模塊包括提取標識模塊、采集圖像模塊、相似度比對模塊和排序1?塊;
[0050]所述提取標識模塊獲取所有白名單網站的專屬標識LOGO圖片;
[0051]所述采集圖像模塊采集當前網站地址的URL統一資源定位符,并通過網絡下載得到當前網站地址對應的網頁整體圖像;
[0052]所述相似度比對模塊將當前網站地址對應的網頁整體圖像與所有白名單網站的專屬標識LOGO圖片依次進行對比,并計算相似度得到多個相似度值;
[0053]所述排序模塊將多個相似度值按從大到小進行排序,得到最大相似度值。
[0054]進一步,所述相似度比對模塊包括特征點提取模塊、計算描述子模塊、匹配模塊和數值轉換模塊;[0055]所述特征點提取模塊對當前網站地址對應的網頁整體圖像提取特征點,構成待測特征點集;所述特征點提取模塊對所有白名單網站的專屬標識LOGO圖片分別提取特征點,分別構成多個對應的白名單特征點集;
[0056]所述計算描述子模塊對待測特征點集計算SURF (Speeded Up Robust Features)待測局部特征描述子;并對多個白名單特征點集分別計算SURF (Speeded Up RobustFeatures)白名單局部特征描述子;
[0057]所述匹配模塊利用近鄰檢測快速工具包(FLANN, Fast Library for ApproximateNearest Neighbors)對待測局部特征描述子與多個白名單局部特征描述子間的快速匹配;
[0058]所述數值轉換模塊將多個匹配結果換算為數值,得到多個相似度值。
[0059]進一步,還包括閾值獲取模塊,所述閾值獲取模塊與判斷模塊相連接,并將計算得到的閾值發(fā)送到判斷模塊。
[0060]進一步,所述閾值獲取模塊包括黑名單圖像獲取模塊、白黑對比模塊、均值計算模塊和均值排序模塊;
[0061]所述黑名單圖像獲取模塊根據國家互聯網權威管理部門提供的黑名單中仿冒網站(URL)統一資源定位符的集合,利用網絡下載獲得黑名單對應的整體圖像,得到黑名單圖像合集;
[0062]所述白黑對比模塊將白名單中的一個白名單網站的專屬標識LOGO圖片依次與黑名單圖像集合中的圖像進行相似度計算,得到多個相似度值;
[0063]所述均值計算模塊對多個相似度值取平均值得到相似度均值;
[0064]所述均值排序模塊將所有白名單網站計算得到的相似度均值按數值大小排序,得到最小相似度均值為閾值。
【專利附圖】
【附圖說明】
[0065]圖1為本發(fā)明具體實施例1所述的一種自動檢測疑似仿冒網站的方法流程圖;
[0066]圖2為本發(fā)明具體實施例2所述的一種自動檢測疑似仿冒網站的方法流程圖;
[0067]圖3為本發(fā)明具體實施例2所述的一種自動檢測疑似仿冒網站的方法流程圖;
[0068]圖4為本發(fā)明具體實施例1、2、3所述的一種自動檢測疑似仿冒網站的方法中閾值獲取流程圖;
[0069]圖5為本發(fā)明具體實施例1所述的一種自動檢測疑似仿冒網站的系統框圖;
[0070]圖6為本發(fā)明具體實施例2所述的一種自動檢測疑似仿冒網站的系統框圖;
[0071]圖7為本發(fā)明具體實施例2所述的一種自動檢測疑似仿冒網站的系統框圖;
[0072]圖8為本發(fā)明具體實施例4所述的一種自動檢測疑似仿冒網站的系統中閾值獲取模塊結構框圖;
[0073]圖9為本發(fā)明具體實施例5所述的一種自動檢測疑似仿冒網站的方法流程圖;
[0074]圖10為本發(fā)明具體實施例5所述的一種自動檢測疑似仿冒網站的方法中與白名單對比流程圖;
[0075]圖11為本發(fā)明具體實施例5所述的一種自動檢測疑似仿冒網站的方法中相似度計算流程圖;
[0076]圖12為本發(fā)明具體實施例5所述的一種自動檢測疑似仿冒網站的方法中閾值獲取流程圖。
[0077]附圖中,各標號所代表的部件列表如下:
[0078]1、接收模塊,2、白名單匹配模塊,3、黑名單匹配模塊,4、相似度計算模塊,5、判斷模塊,6、閾值獲取模塊,41、提取標識模塊,42、采集圖像模塊,43、相似度比對模塊,44、排序模塊,431、特征點提取模塊,432、計算描述子模塊,433、匹配模塊,434、數值轉換模塊,61、黑名單圖像獲取模塊,62、白黑對比模塊,63、均值計算模塊,64、均值排序模塊。
【具體實施方式】
[0079]以下結合附圖對本發(fā)明的原理和特征進行描述,所舉實例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。
[0080]如圖1所示,為本發(fā)明具體實施例1所述的一種自動檢測疑似仿冒網站的方法,具體包括以下步驟:
[0081]步驟1:接收到多個網站地址,并將多個網站地址排列成網站地址列表;
[0082]步驟2:按照列表順序將網站地址列表中的一個網站地址與預設的白名單相匹配,判斷是否匹配,如果匹配,允許用戶訪問該網站地址并對該網站地址添加白名單標記,跳轉至步驟6 ;否則,繼續(xù)步驟3 ;
[0083]步驟3:將當前網站地址與預設的黑名單相匹配,判斷是否匹配,如果匹配,則禁止用戶訪問該網站地址并對該網站地址添加黑名單標記,跳轉至步驟6 ;否則,繼續(xù)步驟4 ;
[0084]步驟4:將當前網站地址對應的網頁內容與所有白名單網站中內設的專屬標識LOGO圖片進行匹配,并計算相似度,得到最大相似度值;
[0085]步驟5:判斷最大相似度值是否大于預設的閾值,如果是,則判定當前網站地址為疑似仿冒網站并對該網站地址添加疑似仿冒標記;否則,判定當前網站地址為非疑似仿冒網站添加非疑似仿冒標記;
[0086]步驟6:判斷網站地址列表中是否存在未添加標記的網站地址,如果有,進行步驟2 ;否則,結束。
[0087]如圖2所示,為本發(fā)明具體實施例2所述的一種自動檢測疑似仿冒網站的方法,實施例2在實施例1的基礎上進一步細化,所述步驟4具體包括以下步驟:
[0088]步驟4.1:獲取所有白名單網站的專屬標識LOGO圖片;
[0089]步驟4.2:采集當前網站地址的URL統一資源定位符,并通過網絡下載得到當前網站地址對應的網頁整體圖像;
[0090]步驟4.3:將當前網站地址對應的網頁整體圖像與所有白名單網站的專屬標識LOGO圖片依次進行對比,并計算相似度得到多個相似度值;
[0091]步驟4.4:將多個相似度值按從大到小進行排序,得到最大相似度值。
[0092]如圖3所示,為本發(fā)明具體實施例3所述的一種自動檢測疑似仿冒網站的方法,實施例3在實施例2的基礎上進一步細化,所述步驟4.3具體包括以下步驟:
[0093]步驟4.3.1:對當前網站地址對應的網頁整體圖像提取特征點,構成待測特征點集;
[0094]步驟4.3.2:對所有白名單網站的專屬標識LOGO圖片分別提取特征點,分別構成多個對應的白名單特征點集;[0095]步驟4.3.3:對待測特征點集計算SURF (Speeded Up Robust Features)待測局部特征描述子;對多個白名單特征點集分別計算SURF (Speeded Up Robust Features)白名單局部特征描述子;
[0096]步驟4.3.4:利用近鄰檢測快速工具包(FLANN, Fast Library for ApproximateNearest Neighbors)對待測局部特征描述子與多個白名單局部特征描述子間的快速匹配;
[0097]步驟4.3.5:將多個匹配結果換算為數值,得到多個相似度值。
[0098]如圖4所示,為本發(fā)明具體實施例1、2或3中的閾值獲取的具體方法,閾值獲取包括以下步驟:
[0099]步驟a:根據國家互聯網權威管理部門提供的黑名單中仿冒網站(URL)統一資源定位符的集合,利用網絡下載獲得黑名單對應的整體圖像,得到黑名單圖像合集;
[0100]步驟b:將白名單中的一個白名單網站的專屬標識LOGO圖片依次與黑名單圖像集合中的圖像進行相似度計算,得到多個相似度值;
[0101]步驟C:對多個相似度值取平均值得到相似度均值;
[0102]步驟d:判斷是否白名單中所有的白名單網站都已進行相似度計算,如果是,進行步驟e;否則,跳轉至步驟b;
[0103]步驟e:將所有白名單網站計算得到的相似度均值按數值大小排序,得到最小相似度均值為閾值。
[0104]如圖5所示,為本發(fā)明具體實施例1所述的一種自動檢測疑似仿冒網站的系統,包括接收模塊1、白名單匹配模塊2、黑名單匹配模塊3、相似度計算模塊4和判斷模塊5 ;
[0105]所述接收模塊I接收到多個網站地址,并將多個網站地址排列成網站地址列表;
[0106]所述白名單匹配模塊2按照列表順序將網站地址列表中的一個網站地址與預設的白名單相匹配,判斷是否匹配,如果匹配,允許用戶訪問該網站地址并對該網站地址添加白名單標記;否則,將當前網站地址發(fā)送到黑名單匹配模塊;
[0107]所述黑名單匹配模塊3將當前網站地址與預設的黑名單相匹配,判斷是否匹配,如果匹配,則禁止用戶訪問該網站地址并對該網站地址添加黑名單標記;否則,將當前網站地址發(fā)送到相似度計算模塊;
[0108]所述相似度計算模塊4將當前網站地址對應的網頁內容與所有白名單網站中內設的專屬標識LOGO圖片進行匹配,并計算相似度,得到最大相似度值;
[0109]所述判斷模塊5判斷最大相似度值是否大于預設的閾值,如果是,則判定當前網站地址為疑似仿冒網站并對該網站地址添加疑似仿冒標記;否則,判定當前網站地址為非疑似仿冒網站。
[0110]如圖6所示,為本發(fā)明具體實施例2所述的一種自動檢測疑似仿冒網站的系統,實施例2在實施例1的基礎上進一步細化,所述相似度計算模塊4包括提取標識模塊41、采集圖像模塊42、相似度比對模塊43和排序模塊44 ;
[0111]所述提取標識模塊41獲取所有白名單網站的專屬標識LOGO圖片;
[0112]所述采集圖像模塊42采集當前網站地址的URL統一資源定位符,并通過網絡下載得到當前網站地址對應的網頁整體圖像;
[0113]所述相似度比對模塊43將當前網站地址對應的網頁整體圖像與所有白名單網站的專屬標識LOGO圖片依次進行對比,并計算相似度得到多個相似度值;[0114]所述排序模塊44將多個相似度值按從大到小進行排序,得到最大相似度值。
[0115]如圖7所示,為本發(fā)明具體實施例3所述的一種自動檢測疑似仿冒網站的系統,實施例3在實施例2的基礎上進一步細化,所述相似度比對模塊43包括特征點提取模塊431、計算描述子模塊432、匹配模塊433和數值轉換模塊434 ;
[0116]所述特征點提取模塊431對當前網站地址對應的網頁整體圖像提取特征點,構成待測特征點集;所述特征點提取模塊對所有白名單網站的專屬標識LOGO圖片分別提取特征點,分別構成多個對應的白名單特征點集;
[0117]所述計算描述子模塊432對待測特征點集計算SURF (Speeded Up RobustFeatures)待測局部特征描述子;并對多個白名單特征點集分別計算SURF (Speeded UpRobust Features)白名單局部特征描述子;
[0118]所述匹配模塊433利用近鄰檢測快速工具包(FLANN, Fast Library forApproximate Nearest Neighbors)對待測局部特征描述子與多個白名單局部特征描述子間的快速匹配;
[0119]所述數值轉換模塊434將多個匹配結果換算為數值,得到多個相似度值。
[0120]如圖8所示,為本發(fā)明具體實施例4所述一種自動檢測疑似仿冒網站的系統,實施例4是實施例1、2或3所述的自動檢測疑似仿冒網站的系統還包括閾值獲取模塊6,所述閾值獲取模塊6與判斷模塊5相連接,并將計算得到的閾值發(fā)送到判斷模塊5。
[0121]所述閾值獲取模塊6包括黑名單圖像獲取模塊61、白黑對比模塊62、均值計算模塊63和均值排序模塊64 ;
[0122]所述黑名單圖像獲取模塊61根據國家互聯網權威管理部門提供的黑名單中仿冒網站(URL)統一資源定位符的集合,利用網絡下載獲得黑名單對應的整體圖像,得到黑名單圖像合集;
[0123]所述白黑對比模塊62將白名單中的一個白名單網站的專屬標識LOGO圖片依次與黑名單圖像集合中的圖像進行相似度計算,得到多個相似度值;
[0124]所述均值計算模塊63對多個相似度值取平均值得到相似度均值;
[0125]所述均值排序模塊64將所有白名單網站計算得到的相似度均值按數值大小排序,得到最小相似度均值為閾值。
[0126]參見圖9,其是根據本申請實施例的一種檢測疑似仿冒網站的方法流程圖,本申請實施例既可以在用戶終端側執(zhí)行,也可以在網絡側執(zhí)行。
[0127]下面應用實例具體說明各個步驟的操作:
[0128]步驟101,獲取待檢測的網站地址;
[0129]本步驟主要是獲得能夠唯一表征網頁地址的形式,本專利中選擇的是URL地址。
[0130]仿冒網站往往通過4種方式傳播:通過社交網絡(微博、人人等)、垃圾郵件、即時通信(如QQ、MSN、阿里旺旺等)軟件和網絡社區(qū)等發(fā)送給用戶。通過對4中傳播方式進行分析可獲得待檢測的網絡地址。
[0131]步驟102,判斷所述網站地址是否在白名單內;
[0132]即判斷所述待檢測的網站地址是否在預設的待保護網站列表(即白名單)中,若不存在,則所述獲取的待檢測網站地址不屬于正規(guī)網站;
[0133]步驟103,判斷所述網站地址是否在黑名單內;[0134]即判斷所述待檢測的網站地址是否在預設的仿冒網站列表(即黑名單)中,若不存在,則所述獲取的待識別網站地址不屬于仿冒網站。
[0135]其中,步驟102、步驟103主要是對待檢測的網站地址的分類識別的預處理過程,以減少算法的復雜度,且兩個步驟是并列關系,即處理的先后順序不影響分類結果。白名單的構造形式主要是為應用對象服務的,即應用對象為銀行系統時,那么本專利中的白名單中可以加入工商銀行官方網址“http://www.1cbc.com.cn/icbc/”,中國銀行官方網址“http://www.boc.cn/”等;應用對象為大眾娛樂網站時,那么本專利中的白名單中可以加入中國好聲音官方網站“http://www.zjstv.com/voice/”,中國最強音官方網站“http://www.hunantv.com/v/2013/zgzqy/”。黑名單的構造形式主要根據白名單中列出正規(guī)網站所對應的多個已知仿冒網站,通常這些仿冒網站是由網絡用戶舉報并經相關管理部門確認后產生的。
[0136]步驟104,利用所述待檢測的網址、白名單對應網站特有標志L0G0,和疑似仿冒網站規(guī)則進行相似度計算;若相似度大于某一閾值,則判定所述待識別網站地址為疑似仿冒網站。
[0137]下面首先對網站LOGO的選擇形式和標準作出解釋:
[0138]其中,白名單對應網站特有的標志LOGO指的是,本專利中應用對象特有的標志:如工商銀行的標志為一個隱性的方孔圓幣,那么所述LOGO的個數即為白名單中應用對象網絡地址的數量。
[0139]其中,仿冒網站的仿冒特性中最重要的一點是網站頁面的視覺性欺騙,即頁面中的大部分內容與真實正規(guī)網頁中的內容相似性很高,有的可以達到以假亂真的程度。但是,統計多個仿冒網站后可以發(fā)現,網站地址的拼寫形式,以及網站頁面中標題欄或LOGO的形式是影響用戶對網站真實性判斷的最主要的依據。因此,選用正規(guī)網站和仿冒網站中相關性最大的標志LOGO作為相似度判斷的標準是合理的。
[0140]該步驟具體的算法流程見圖10。
[0141]I)步驟201,從所獲得的待檢測網站地址中提取主機統一資源定位符URL信息;
[0142]2)步驟202,根據提取的URL信息,利用Internet網絡下載得到對應網頁的整體圖像;
[0143]3)步驟203,利用白名單對應網站特有的標志L0G0,依次與待檢測網站的整體圖像進行相似度計算;
[0144]4)步驟204,對得到的相似度序列按從大到小排序后取最大值。若最大相似度大于等于某一給定閾值T,則判定所述待識別網站地址為疑似仿冒網站;若最大相似度小于某一給定閾值T,則判定所述待識別網站地址為非疑似仿冒網站。
[0145]對于所述步驟203中的相似度計算方法,本專利中選取的是SURF特征匹配法,這樣的可以有效的解決因正規(guī)網頁與仿冒網頁中LOGO位置、大小不同而產生的算法失效的問題。
[0146]上述步驟203中具體的算法流程見圖11。
[0147]I)步驟2031,從白名單對應網站特有的某個標志LOGO和待檢測網站的整體圖像中分別提取特征點;
[0148]2)步驟2032,對提取的特征點集計算SURF局部特征描述子;[0149]3)步驟2033,利用Flann方法進行特征描述子間的快速匹配。
[0150]對于所述步驟104中的閾值T的計算方法,本專利中選取的是統計方法,即統計多個相關樣本的最大相似度,計算其中的最大相似度序列的最小值作為閾值,這種最大最小方法在統計學中的應用合理,可以保證待測試的網站網址所得的相似度可以得到很好的分類效果。但是,統計學中的方法通常要求樣本足夠多,這樣才能滿足算法的精度。
[0151]上述步驟104中具體的算法流程見圖12。
[0152]I)步驟401,判斷白名單對應網站的標志LOGO集合是否為空;
[0153]2)步驟402,找到所述LOGO對應黑名單中仿冒網站URL集合,利用Internet網絡批量下載得到網頁對應的整體圖像的集合S ;
[0154]3)步驟403,利用所述標志依次與集合S中的圖像進行相似度計算,對獲取的相似度序列取平均值;
[0155]4)步驟404,對上述所得的平均相似度序列排序后,取最小值,則令相似度閾值T為該最小平均相似度。
[0156]以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【權利要求】
1.一種自動檢測疑似仿冒網站的方法,其特征在于,具體包括以下步驟: 步驟1:接收到多個網站地址,并將多個網站地址排列成網站地址列表; 步驟2:按照列表順序將網站地址列表中的一個網站地址與預設的白名單相匹配,判斷是否匹配,如果匹配,允許用戶訪問該網站地址并對該網站地址添加白名單標記,跳轉至步驟6 ;否則,繼續(xù)步驟3 ; 步驟3:將當前網站地址與預設的黑名單相匹配,判斷是否匹配,如果匹配,則禁止用戶訪問該網站地址并對該網站地址添加黑名單標記,跳轉至步驟6 ;否則,繼續(xù)步驟4 ; 步驟4:將當前網站地址對應的網頁內容與所有白名單網站中內設的專屬標識LOGO圖片進行匹配,并計算相似度,得到最大相似度值; 步驟5:判斷最大相似度值是否大于預設的閾值,如果是,則判定當前網站地址為疑似仿冒網站并對該網站地址添加疑似仿冒標記;否則,判定當前網站地址為非疑似仿冒網站添加非疑似仿冒標記; 步驟6:判斷網站地址列表中是否存在未添加標記的網站地址,如果有,進行步驟2 ;否貝IJ,結束。
2.根據權利要求1所述的一種自動檢測疑似仿冒網站的方法,其特征在于,所述步驟4具體包括以下步驟: 步驟4.1:獲取所有白名單網站的專屬標識LOGO圖片; 步驟4.2:采集當前網站地址的URL統一資源定位符,并通過網絡下載得到當前網站地址對應的網頁整體圖像; 步驟4.3:將當前網站地址對應的網頁整體圖像與所有白名單網站的專屬標識LOGO圖片依次進行對比,并計算相似度得到多個相似度值; 步驟4.4:將多個相似度值按從大到小進行排序,得到最大相似度值。
3.根據權利要求2所述的一種自動檢測疑似仿冒網站的方法,其特征在于,所述步驟4.3具體包括以下步驟: 步驟4.3.1:對當前網站地址對應的網頁整體圖像提取特征點,構成待測特征點集;步驟4.3.2:對所有白名單網站的專屬標識LOGO圖片分別提取特征點,分別構成多個對應的白名單特征點集; 步驟4.3.3:對待測特征點集計算SURF (Speeded Up Robust Features)待測局部特征描述子;對多個白名單特征點集分別計算SURF (Speeded Up Robust Features)白名單局部特征描述子; 步驟4.3.4:利用近鄰檢測快速工具包(FLANN, Fast Library for ApproximateNearest Neighbors)對待測局部特征描述子與多個白名單局部特征描述子間的快速匹配;步驟4.3.5:將多個匹配結果換算為數值,得到多個相似度值。
4.根據權利要求1至3任一項所述的一種自動檢測疑似仿冒網站的系統,其特征在于,所述步驟5中的閾值獲取包括以下步驟: 步驟a:根據國家互聯網權威管理部門提供的黑名單中仿冒網站(URL)統一資源定位符的集合,利用網絡下載獲得黑名單對應的整體圖像,得到黑名單圖像合集; 步驟b:將白名單中的一個白名單網站的專屬標識LOGO圖片依次與黑名單圖像集合中的圖像進行相似度計算,得到多個相似度值;步驟C:對多個相似度值取平均值得到相似度均值; 步驟d:判斷是否白名單中所有的白名單網站都已進行相似度計算,如果是,進行步驟e ;否則,跳轉至步驟b ; 步驟e:將所有白名單網站計算得到的相似度均值按數值大小排序,得到最小相似度均值為閾值。
5.一種自動檢測疑似仿冒網站的系統,其特征在于,包括接收模塊、白名單匹配模塊、黑名單匹配模塊、相似度計算模塊和判斷模塊; 所述接收模塊接收到多個網站地址,并將多個網站地址排列成網站地址列表; 所述白名單匹配模塊按照列表順序將網站地址列表中的一個網站地址與預設的白名單相匹配,判斷是否匹配,如果匹配,允許用戶訪問該網站地址并對該網站地址添加白名單標記;否則,將當前網站地址發(fā)送到黑名單匹配模塊; 所述黑名單匹配模塊將當前網站地址與預設的黑名單相匹配,判斷是否匹配,如果匹配,則禁止用戶訪問該網站地址并對該網站地址添加黑名單標記;否則,將當前網站地址發(fā)送到相似度計算模塊; 所述相似度計算模塊將當前網站地址對應的網頁內容與所有白名單網站中內設的專屬標識LOGO圖片進行匹配,并計算相似度,得到最大相似度值; 所述判斷模塊判斷最大相似度值是否大于預設的閾值,如果是,則判定當前網站地址為疑似仿冒網站并對 該網站地址添加疑似仿冒標記;否則,判定當前網站地址為非疑似仿冒網站。
6.根據權利要求5所述的一種自動檢測疑似仿冒網站的系統,其特征在于,所述相似度計算模塊包括提取標識模塊、采集圖像模塊、相似度比對模塊和排序模塊; 所述提取標識模塊獲取所有白名單網站的專屬標識LOGO圖片; 所述采集圖像模塊采集當前網站地址的URL統一資源定位符,并通過網絡下載得到當前網站地址對應的網頁整體圖像; 所述相似度比對模塊將當前網站地址對應的網頁整體圖像與所有白名單網站的專屬標識LOGO圖片依次進行對比,并計算相似度得到多個相似度值; 所述排序模塊將多個相似度值按從大到小進行排序,得到最大相似度值。
7.根據權利要求6所述的一種自動檢測疑似仿冒網站的系統,其特征在于,所述相似度比對模塊包括特征點提取模塊、計算描述子模塊、匹配模塊和數值轉換模塊; 所述特征點提取模塊對當前網站地址對應的網頁整體圖像提取特征點,構成待測特征點集;所述特征點提取模塊對所有白名單網站的專屬標識LOGO圖片分別提取特征點,分別構成多個對應的白名單特征點集; 所述計算描述子模塊對待測特征點集計算SURF (Speeded Up Robust Features)待測局部特征描述子;并對多個白名單特征點集分別計算SURF(Speeded Up Robust Features)白名單局部特征描述子; 所述匹配模塊利用近鄰檢測快速工具包(FLANN, Fast Library for ApproximateNearest Neighbors)對待測局部特征描述子與多個白名單局部特征描述子間的快速匹配;所述數值轉換模塊將多個匹配結果換算為數值,得到多個相似度值。
8.根據權利要求5-7任一項所述的一種自動檢測疑似仿冒網站的系統,其特征在于,還包括閾值獲取模塊,所述閾值獲取模塊與判斷模塊相連接,并將計算得到的閾值發(fā)送到判斷模塊。
9.根據權利要求8所述的一種自動檢測疑似仿冒網站的系統,其特征在于,所述閾值獲取模塊包括黑名單圖像獲取模塊、白黑對比模塊、均值計算模塊和均值排序模塊; 所述黑名單圖像獲取模塊根據國家互聯網權威管理部門提供的黑名單中仿冒網站(URL)統一資源定位符的集合,利用網絡下載獲得黑名單對應的整體圖像,得到黑名單圖像合集; 所述白黑對比模塊將白名單中的一個白名單網站的專屬標識LOGO圖片依次與黑名單圖像集合中的圖像進行相似度計算,得到多個相似度值; 所述均值計算模塊對多個相似度值取平均值得到相似度均值; 所述均值排序模塊將所有白名單網站計算得到的相似度均值按數值大小排序,得到最小相似度均值為閾值。`
【文檔編號】H04L29/06GK103442014SQ201310395429
【公開日】2013年12月11日 申請日期:2013年9月3日 優(yōu)先權日:2013年9月3日
【發(fā)明者】云曉春, 張永錚, 周宇, 肖軍, 王一鵬, 李書豪 申請人:中國科學院信息工程研究所