專利名稱:基于圖像處理的釣魚網(wǎng)頁檢測方法
技術領域:
本發(fā)明涉及圖像信息處理以及網(wǎng)絡安全領域,涉及一種反網(wǎng)絡釣魚的方 法,尤其涉及一種基于圖像處理的釣魚網(wǎng)頁檢測方法。
背景技術:
網(wǎng)絡釣魚(WebPhishing)是一種在線身份冒充,它綜合使用社會工程學 (即騙術)和技術手段(包括惡意代碼、釣魚郵件、監(jiān)聽軟件等),以竊取網(wǎng) 絡用戶的個人身份信息或帳號、密碼、信用卡號等。網(wǎng)絡釣魚目前已經(jīng)成為 用戶信息安全的極大威脅,并給用戶造成了巨大的經(jīng)濟損失(據(jù)權威機構預 測美國2007年因網(wǎng)絡釣魚引起的損失達到28億美元);同時由于網(wǎng)絡釣魚的 肆虐,惡化了網(wǎng)絡生態(tài)環(huán)境,嚴重阻礙了我國網(wǎng)上銀行、在線支付等電子金 融的發(fā)展。目前常用對網(wǎng)絡釣魚的防范主要包括以下三種措施。一、 電子郵件檢測。該方法通過在郵件服務器上設置郵件過濾策略,通 過檢測郵件中的超鏈接,內(nèi)嵌腳本中域名的有效性和一致性來發(fā)現(xiàn)釣魚網(wǎng)頁。二、 個人信息保護。該方法通過檢測用戶發(fā)出的所有信息的目的地址, 以及所發(fā)信息的機密程度來判斷此次發(fā)送的安全性,如果發(fā)現(xiàn)不安全的發(fā)送 便會阻斷該發(fā)送或向用戶詢問是否在有威脅的情況下繼續(xù)發(fā)送。三、 網(wǎng)絡行為檢測。該方法通過模擬用戶的提交行為,向網(wǎng)頁發(fā)送預先 構造的用戶名和密碼,如果服務器回應提交成功,則證明該網(wǎng)頁為釣魚網(wǎng)頁。但以上三種方法都存在很大的不足,方法一無法檢測包含圖像的郵件, 包括使用圖片和映射的方法提供的鏈接或以圖片顯示的地址等;方法二則會
大幅降低網(wǎng)絡速度,同時規(guī)則的維護也極為復雜,而且涉及用戶的隱私,因 此很難部署;方法三無法應對橋接攻擊,同時簡單的自動提交防范機制(驗 證碼)就能使該方失效。發(fā)明內(nèi)容本發(fā)明針對現(xiàn)有技術的不足和缺陷,提供一種準確性高、可靠性強且能夠 減小被欺騙可能性的基于圖像處理的釣魚網(wǎng)頁檢測方法。 本發(fā)明采用如下技術方案逐一計算可疑釣魚網(wǎng)頁與各個受保護網(wǎng)頁之間的相似度,將可疑網(wǎng)頁與 受保護網(wǎng)頁之間的相似度小于預先設定的值的可疑網(wǎng)頁判為針對該受保護網(wǎng) 頁的釣魚網(wǎng)頁;上述網(wǎng)絡釣魚為通過仿造網(wǎng)上金融或其他網(wǎng)絡服務提供商的相關頁面, 誘導用戶輸入敏感信息,并非法取得該敏感信息的手段;上述可疑釣魚網(wǎng)頁為從可疑郵件中檢測出的鏈接地址所指向的網(wǎng)頁,或 由用戶上報的釣魚網(wǎng)頁;上述受保護網(wǎng)頁為網(wǎng)絡釣魚所偽造的對象網(wǎng)頁; 上述計算網(wǎng)頁相似度的方法為步驟l,將網(wǎng)頁轉(zhuǎn)換為圖像;步驟2,對所得圖像進行分割;步驟3,提取其分割后子圖像的圖像特征;步驟4,生成子圖像之間的相對位置關系;步驟5,將子圖像的圖像特征和子圖像的相對位置關系組成該頁面的特征 關系集合;步驟6,計算兩個網(wǎng)頁的特征關系集合之間的距離并以此作為這兩個網(wǎng)頁 的相似度,兩個網(wǎng)頁之間的距離小于0.02的兩個網(wǎng)頁為相似網(wǎng)頁;其中步驟4中子圖像之間的相對位置關系由一個9維向量表示,該9維向
量的每個分量表示由任一子圖像所確定的9個象限中的每個象限與另一子圖 像之間的位置關系,設用于確定9個象限的任一子圖像為矩形,延長該矩形 的四條邊將把圖像平面分為9個部分,從左上角開始順時針編號1 8,中心 編號為9,由此形成第1 9象限,該子圖像與另一子圖像之間相對位置關系 的求取方法為只需判斷另一子圖像在該子圖像所分割的9個部分中的分布 狀況,將出現(xiàn)全部或部分另一子圖像的象限記為1,則與該象限對應的第i維 分量就為l,否則為0,根據(jù)上述方法,求出由關系矩陣表示的原網(wǎng)頁圖像所 有子圖像之間的相對位置關系。本發(fā)明通過將網(wǎng)頁轉(zhuǎn)化為圖像,并對所的圖 像進行分割、特征提取、子圖像關系檢測得到特征關系集合,再求出可疑網(wǎng) 頁與受保護網(wǎng)頁之間特征關系集合的NEMD距離,從而發(fā)現(xiàn)可疑網(wǎng)頁與受保護 網(wǎng)頁之間的相似度,并根據(jù)該相似度判斷可疑網(wǎng)頁是否是釣魚網(wǎng)頁。如果可 疑網(wǎng)頁與受保護網(wǎng)頁及其相似,則該可疑網(wǎng)頁已經(jīng)侵犯了受保護網(wǎng)頁的"肖 像權",即使該可疑網(wǎng)頁并非釣魚網(wǎng)頁也會誤導用戶并引發(fā)不必要的威害。
本發(fā)明的特點是直接分析用戶所訪問的網(wǎng)頁圖像,可靠性高,不易被網(wǎng)頁 設計技巧所欺騙;通過對網(wǎng)頁圖片進行分割可以進行部分匹配,防止由于部 分相似而引起的網(wǎng)絡釣魚;使用子圖像特征和關系并重的匹配方法,更加符 合視覺心理學,使匹配結果更加準確。根據(jù)試驗測得的數(shù)據(jù)顯示,本發(fā)明具 有網(wǎng)頁圖像檢測準確性高的優(yōu)點。
圖1釣魚網(wǎng)頁檢測流程圖。
圖2為本發(fā)明所述分割方法的流程圖。
圖3為本發(fā)明所述系統(tǒng)的結構示意圖。
圖4為本發(fā)明所述的子區(qū)域關系示意圖。
圖5為本發(fā)明與國際現(xiàn)有先進方法的比較。
圖6為本發(fā)明與國際現(xiàn)有先進方法的平均比較。
具體實施例方式
基于圖像處理的釣魚網(wǎng)頁檢測方法,具體如下逐一計算可疑釣魚網(wǎng)頁 與各個受保護網(wǎng)頁之間的相似度,將可疑網(wǎng)頁與受保護網(wǎng)頁之間的相似度小
于預先設定的值的可疑網(wǎng)頁判為針對該受保護網(wǎng)頁的釣魚網(wǎng)頁;
上述網(wǎng)絡釣魚為通過仿造網(wǎng)上金融或其他網(wǎng)絡服務提供商的相關頁面,
誘導用戶輸入敏感信息,并非法取得該敏感信息的手段;
上述可疑釣魚網(wǎng)頁為從可疑郵件中檢測出的鏈接地址所指向的網(wǎng)頁,
或由用戶上報的釣魚網(wǎng)頁;
上述受保護網(wǎng)頁為網(wǎng)絡釣魚所偽造的對象網(wǎng)頁;
上述計算網(wǎng)頁相似度的方法為
步驟l,將網(wǎng)頁轉(zhuǎn)換為圖像;
步驟2,對所得圖像進行分割;
步驟3,提取其分割后子圖像的圖像特征;
步驟4,生成子圖像之間的相對位置關系;
步驟5,將子圖像的圖像特征和子圖像的相對位置關系組成該頁面的特 征關系集合;
步驟6,計算兩個網(wǎng)頁的特征關系集合之間的距離并以此作為這兩個網(wǎng) 頁的相似度,兩個網(wǎng)頁之間的距離小于0.02的兩個網(wǎng)頁為相似網(wǎng)頁;
其中步驟4中子圖像之間的相對位置關系由一個9維向量表示,該9維 向量的每個分量表示由任一子圖像所確定的9個象限中的每個象限與另一子 圖像之間的位置關系,設用于確定9個象限的任一子圖像為矩形,延長該矩 形的四條邊將把圖像平面分為9個部分,從左上角開始順時針編號1 8,中 心編號為9,由此形成第1 9象限,該子圖像與另一子圖像之間相對位置關 系的求取方法為只需判斷另一子圖像在該子圖像所分割的9個部分中的分 布狀況,將出現(xiàn)全部或部分另一子圖像的象限記為1,則與該象限對應的第i 維分量就為l,否則為0,根據(jù)上述方法,求出由關系矩陣表示的原網(wǎng)頁圖像
所有子圖像之間的相對位置關系。
上述圖像分割方法由以下步驟組成
步驟1,預處理預處理是采用通用的坎尼算子邊界檢測方法將網(wǎng)頁圖 像轉(zhuǎn)換為初始二值圖像;
步驟2,將預處理所得的二值圖像設為初始子圖像,置于待分割子圖像 集合中(初始該集合中只有初始子圖像);
步驟3,判斷待分割子圖像集合是否為空,如果為空則結束,否則進入
步驟4;
步驟4,從待分割子圖像集合中任取某個子圖像對其進行收縮處理,得 到有效子圖像;
步驟5,判斷該有效子圖像是否可分割,如果可分割,檢測出該子圖像 中面積最大的分割帶,并以此將該子圖像一分為二,同時把分割后的兩個子 圖像存入待分割子圖像集合中,如果不能分割則將其存入以分割子圖像集合 中;
步驟6,轉(zhuǎn)步驟3。
步驟3所述的圖像特征包括彩色信息,灰度信息以及長度和寬度,彩色 信息和灰度信息采用直方圖統(tǒng)計的方法;子圖像長度和寬度直接由分割結果 得到,
上述彩色信息采用直方圖獲取方法將原圖轉(zhuǎn)換到色度純度亮度(HSV) 顏色空間并將其非均勻量化為32種顏色,在此基礎上提取彩色直方圖,并對 其進行歸一化處理;灰度信息采用直方圖獲取方法將原圖轉(zhuǎn)換為黑白圖像, 并對其進行拉伸,增強對比度,再將整個灰度空間量化為32個灰度,在此基 礎上提取灰度直方圖,并對其進行歸一化處理。
上述計算兩個網(wǎng)頁的特征關系集合之間相似度的方法采用嵌套運土者距 離方法,該嵌套運土者距離方法為確定步驟5所述的特征關系集合中的子 圖像的圖像特征的相似度,所述子圖像的圖像特征相似度的確定方法采用綜
合加權距離,該綜合加權距離包括歸一化彩色直方圖相似度、歸一化灰度直 方圖相似度以及長寬相似度,其權值各為l/3;確定步驟5所述的特征關系集 合中的子圖像的相對位置關系的相似度,所述子圖像的相對位置關系的相似 度的確定方法采用歸一化的運土者距離;最后根據(jù)子圖像的圖像特征相似度
和子圖像的相對位置關系相似度,采用嵌套運土者距離計算兩個特征關系集
合之間的相似度,所述嵌套運土者距離的計算方法為首先求出所有子圖像
兩兩之間的內(nèi)部距離矩陣,該內(nèi)部距離矩陣的大小為MXN,其中M、 N為 分別為兩個待檢測網(wǎng)頁中的子圖像的個數(shù),內(nèi)部距離矩陣的元素由前述子圖 像的圖像特征相似度和子圖像的相對位置關系相似度給出,根據(jù)該內(nèi)部距離 矩陣,采用運土者距離算法求出子圖像之間的外部距離,所有子圖像之間的 外部距離構成一個外部距離矩陣,大小為MXN,其中M、 N為分別為兩個 待檢測網(wǎng)頁中的子圖像的個數(shù),基于該外部距離矩陣,并將兩個待檢測網(wǎng)頁 中所有子圖像的權值設為相等,再次使用運土者距離算法求出兩個待檢測網(wǎng) 頁的距離,該距離即為網(wǎng)頁的嵌套運土者距離。
下面參照附圖,對本發(fā)明的具體實施方式
加以詳細描述-
根據(jù)網(wǎng)頁圖像的特征關系集合,逐一計算可疑釣魚網(wǎng)頁與各個受保護網(wǎng)頁 之間的相似度,將可疑網(wǎng)頁與受保護網(wǎng)頁之間的相似度小于預先設定的值的 可疑網(wǎng)頁判為針對該受保護網(wǎng)頁的釣魚網(wǎng)頁;受保護網(wǎng)頁的特征關系集合可 以預先計算出并存儲于數(shù)據(jù)庫中,這樣可以提高檢索效率;
上述網(wǎng)絡釣魚為通過仿造網(wǎng)上金融或其他網(wǎng)絡服務提供商的相關頁面, 誘導用戶輸入敏感信息,并非法取得該敏感信息的手段;
上述可疑釣魚網(wǎng)頁為從可疑郵件中檢測出的鏈接地址所指向的網(wǎng)頁, 或由用戶上報的釣魚網(wǎng)頁;
上述受保護網(wǎng)頁為網(wǎng)絡釣魚所偽造的對象網(wǎng)頁;
根據(jù)國際反網(wǎng)絡釣魚工作組(Anti-Phishing Work Group APWG)的統(tǒng)計, 80%的網(wǎng)絡釣魚針對11家網(wǎng)絡金融服務提供商,因此受保護網(wǎng)頁數(shù)據(jù)庫不會
十分龐大。同時通過電子郵件檢測、網(wǎng)絡流量捕獲,用戶報告等方式各個網(wǎng) 絡釣魚分析節(jié)點獲取疑似釣魚網(wǎng)站地址。
如圖1所示,上述計算網(wǎng)頁相似度的方法為
步驟l,將網(wǎng)頁轉(zhuǎn)換為圖像;根據(jù)需求不同可以使用Java語言中的容器, 或商業(yè)軟件如HTML2JPG完成。該轉(zhuǎn)換以網(wǎng)頁地址(URL)為輸入,取得網(wǎng)頁 內(nèi)容后將其自動轉(zhuǎn)換為設定格式的圖片(如JPEG或BMP等)并保存在預先制
定的位置;
步驟2,對所得圖像進行分割;對步驟l所得的待檢測網(wǎng)頁的圖像進行分 割,將其分成包含網(wǎng)頁中各個特征塊的子圖像。如圖2所示,具體步驟如下
步驟2.1,預處理。預處理是指采用通用的坎尼算子邊界檢測方法將網(wǎng)頁 圖像轉(zhuǎn)換為初始二值圖像;
步驟2.2,將預處理所得的二值圖像設為初始子圖像,置于待分割子圖像
集合中(初始該集合中只有初始子圖像);
步驟2.3,判斷待分割子圖像集合是否為空,如果為空則結束分割并轉(zhuǎn)步 驟3,否則進入步驟2.4;
步驟2.4,從待分割子圖像集合中任取某個子圖像對其進行收縮處理,得 到有效子圖像;
步驟2.5,判斷該有效子圖像是否可分割,如果可分割,檢測出該子圖像 中面積最大的分割帶,并以此將該子圖像一分為二,同時把分割后的兩個子 圖像存入待分割子圖像集合中,如果不能分割則將其存入以分割子圖像集合 中;
步驟2.6,轉(zhuǎn)步驟2. 3。
步驟3,提取分割后子圖像的圖像特征;在子圖像特征提取方面,特征包 括彩色信息,灰度信息以及度長和寬度,彩色信息和灰度信息采用直方圖統(tǒng) 計的方法;子圖像長度和寬度直接由分割結果得到。具體而言,彩色信息直 方圖的獲取方法為,將原圖轉(zhuǎn)換到HSV顏色空間并將其非均勻量化為32種顏
色[見參考文獻l],在此基礎上提取彩色直方圖,并對其進行歸一化處理。灰 度信息直方圖獲取方法為,將原圖轉(zhuǎn)換為黑白圖像,并對其進行拉伸,增強
對比度,再將整個灰度空間量化為32個灰度,在此基礎上提取灰度直方圖,
并對其進行歸一化處理。步驟4,生成子圖像之間的相對位置關系;
步驟4,生成子圖像之間的相對位置關系;子圖像之間的相對位置關系由
一個9維向量表示,該9維向量的每個分量表示由一個子圖像所確定的9個 象限中另一子圖像的分布狀況。根據(jù)分割的結果,每個子圖像都為矩形,延 長該矩形的四條邊將把平面分為9個部分,從左上角開始順時針編號1 8, 中心編號為9,如圖4所示。求該子圖像與另一子圖像之間的關系時,只需判 斷另一子圖像在該子圖像所分割的9個部分中的分布狀況,如果另一子圖像 出現(xiàn)在該子圖像所確定的第i個象限中,則該9維向量的第i維為1,否則為 0。例如圖4中,子圖像A與B的關系R (A, B) ={0,0,0,0,1,1,0,0,0},其 中第五和第六個分量為1 ,表示B在由A所分割的平面上的第五和第六個區(qū)域。 根據(jù)以上方法,可以求出原網(wǎng)頁圖像所有子圖之間的相對位置關系(由關系 矩陣表示)。
步驟5,子圖的特征和關系組成該頁面的特征關系集合; 步驟6,使用嵌套運土者距離方法計算兩個網(wǎng)頁的特征關系集合之間的距 離并以此作為這兩個網(wǎng)頁的相似度;在特征關系集合之間的匹配方面,使用 綜合加權相似度描述特征之間的相似程度,該綜合加權距離包括歸一化彩色
直方圖相似度,歸一化灰度直方圖相似度以及長寬相似度,其權值各為l/3;
使用歸一化的運土者距離(EMD Earth Mover' s Distance)來計算關系相似 度;最后根據(jù)特征和關系距離并使用嵌套運土者距離(NEMD)來計算兩個特 征關系集之間的相似度。
具體而言,歸一化彩色直方圖和灰度直方圖的相似度為對應的相同顏色或 灰度的最小值相加,這樣l表示完全相似,0表示完全不同。長寬相似度為較 小的長和寬的乘積比較大的長和寬的乘積,同樣,0為完全不同,l為完全相
似。這樣再對以上三個相似度進行加權求和,將所得的相似度作為兩個子圖
像的特征相似度,再用1減去該特征相似度得到子圖像特征的距離(o為完全
相似,l為完全不同)。
關系距離使用EMD計算,其中關系由9維向量表示,并以此作為EMD算法 中的特征向量,再根據(jù)預設的每個分量之間的距離生成距離矩陣,該預設距 離可以根據(jù)具體應用進行設定,例如可以采用曼哈頓距離,或歐拉距離等。
NEMD首先根據(jù)輸入的兩個子圖像特征關系集合及其對應的特征和關系之 間的距離,求出內(nèi)部EMD,再根據(jù)內(nèi)部EMD求出兩個子圖像之間的距離;求出 所有子圖像之間的距離,組成外部EMD,并由該外部EMD求出兩個子圖像特征 關系集合的距離,并以此判斷這兩個集合的相似度,從而得到其對應網(wǎng)頁的 相似度。
實施實例。如圖3所示,將本發(fā)明方法部署于獨立的釣魚分析節(jié)點,并使 用網(wǎng)絡釣魚控制中心保存和維護受保護網(wǎng)頁信息,其數(shù)據(jù)分布與域名服務 (DNS)相似,由中心節(jié)點——網(wǎng)絡釣魚控制中心負責受保護數(shù)據(jù)庫的更新維 護,各個分析節(jié)點從控制中心取得受保護網(wǎng)頁,并建立本地緩存機制,定期 更新。為了進行大規(guī)模的釣魚網(wǎng)頁檢測,在各個郵件服務器端的垃圾郵件檢 測規(guī)則中增加對釣魚郵件檢測的相關配置,對釣魚郵件進行初步處理,并將 可疑釣魚郵件交付網(wǎng)絡釣魚分析結點,各個分析結點可以位于郵件服務其或 獨立的分析服務器上,并通過網(wǎng)絡與釣魚控制中心相連,分析服務器主要對 可疑郵件中的網(wǎng)頁進行處理并提取出可疑網(wǎng)頁的特征關系集合,在與從釣魚 控制中心得到的受保護網(wǎng)頁的特征關系集合進行匹配,以發(fā)現(xiàn)釣魚網(wǎng)頁,如 果發(fā)現(xiàn)釣魚網(wǎng)頁則通知釣魚控制中心,中心匯總各個網(wǎng)絡釣魚分析結點所提 供的數(shù)據(jù)建立釣魚網(wǎng)站黑名單,并通知所有分析結點和受害網(wǎng)站,受害網(wǎng)站 可以警告其用戶,或向公安機關報案,公安機關則可據(jù)此取締釣魚網(wǎng)站或釣 魚郵件發(fā)送主機并追究相關責任人的法律責任。
發(fā)明特點。基于本發(fā)明方法開發(fā)了原型系統(tǒng),包括網(wǎng)頁轉(zhuǎn)換為圖像,圖像 預處理,網(wǎng)頁圖像分割,特征關系提取,和特征關系集匹配等。從實施效果 來看,本發(fā)明能在合理的時間內(nèi),準確的判斷兩個網(wǎng)頁的相似程度,抗干擾 性好,分析結果可靠準確,超過目前已有的釣魚網(wǎng)頁分析方法。此外由于引 入了圖像的分割使得本發(fā)明可以匹配部分網(wǎng)頁,大大增加了本方法的有效性。在對7個釣魚網(wǎng)頁的檢測中,本發(fā)明方法體現(xiàn)出明顯的優(yōu)勢,具體數(shù)據(jù)如下表1 Yu的釣魚網(wǎng)頁檢測方法t畫eBayt-Earth Linkt國ICBCt-Wells Fargot國US Bankt-Wash ingtonf-eBayl0.00410.02920.0650.04320.01960.0256f陽eBay20.00480.02940.06430.04340.02030.0249f-EarthLink0駕70.02930細90.05610.02480.0143f-ICBC0.05910.06330.0030.06640.05660.0589f國WellsFargo0.04240.05710.06720.01210.04190.0559f-US Bank0.01720.02400.05960.04130.00170.0228f陽Washington0.02930.02310.05970.06140.02990.0095表2本發(fā)明釣魚網(wǎng)頁檢測方法t-eBayt-Earth Linkt誦ICBCt國Wells Fargot-US Bankt-Wash ingtonf-eBayl0.01510.20440.34830.14720.34580.2383f畫eBay20.00320,20510.32320.14520.33950.2405f畫EarthLink0.19850.19890.42570.08200.34900.2449f-ICBC0.32190.41680.00100.45990.21550.4210f國WellsFargo0.14140.13430.45160.01350.27060.1685f誦US Bank0.33700.33930.21530.27200.00520.3354f-Washington0.24700.26420.42800.17770.33870.0125
表l, 2中分別顯示了Yu檢測方法與本發(fā)明方法對釣魚網(wǎng)頁(以f-開頭) 及其所針對的真實網(wǎng)頁(以t-開頭)之間相似度的計算結果。其中針對 EarthLink的釣魚網(wǎng)頁與真實網(wǎng)頁有很大的區(qū)別,所以兩種方法都無法檢測。 根據(jù)表1和2的結果,求出了最壞情況對比度(圖5所示)和平均對比度(圖 6所示),從圖5和圖6的對比度來看本發(fā)明方法明顯優(yōu)于Yii的方法。
權利要求
1、 一種基于圖像處理的釣魚網(wǎng)頁檢測方法,其特征在于方法具體如下 逐一計算可疑釣魚網(wǎng)頁與各個受保護網(wǎng)頁之間的相似度,將可疑網(wǎng)頁與受保 護網(wǎng)頁之間的相似度小于預先設定的值的可疑網(wǎng)頁判為針對該受保護網(wǎng)頁的釣魚網(wǎng)頁;上述網(wǎng)絡釣魚為通過仿造網(wǎng)上金融或其他網(wǎng)絡服務提供商的相關頁面, 誘導用戶輸入敏感信息,并非法取得該敏感信息的手段;上述可疑釣魚網(wǎng)頁為從可疑郵件中檢測出的鏈接地址所指向的網(wǎng)頁, 或由用戶上報的釣魚網(wǎng)頁;上述受保護網(wǎng)頁為網(wǎng)絡釣魚所偽造的對象網(wǎng)頁; 上述計算網(wǎng)頁相似度的方法為-步驟l,將網(wǎng)頁轉(zhuǎn)換為圖像;步驟2,對所得圖像進行分割;步驟3,提取其分割后子圖像的圖像特征;步驟4,生成子圖像之間的相對位置關系;步驟5,將子圖像的圖像特征和子圖像的相對位置關系組成該頁面的特 征關系集合;步驟6,計算兩個網(wǎng)頁的特征關系集合之間的距離并以此作為這兩個網(wǎng) 頁的相似度,兩個網(wǎng)頁之間的距離小于0.02的兩個網(wǎng)頁為相似網(wǎng)頁;其中步驟4中子圖像之間的相對位置關系由一個9維向量表示,該9維 向量的每個分量表示由任一子圖像所確定的9個象限中的每個象限與另一子 圖像之間的位置關系,設用于確定9個象限的任一子圖像為矩形,延長該矩 形的四條邊將把圖像平面分為9個部分,從左上角開始順時針編號1 8,中 心編號為9,由此形成第1 9象限,該子圖像與另一子圖像之間相對位置關 系的求取方法為只需判斷另一子圖像在該子圖像所分割的9個部分中的分布狀況,將出現(xiàn)全部或部分另一子圖像的象限記為1,則與該象限對應的第i維分量就為l,否則為o,根據(jù)上述方法,求出由關系矩陣表示的原網(wǎng)頁圖像所有子圖像之間的相對位置關系。
2、 根據(jù)權利要求1所述的基于圖像處理的釣魚網(wǎng)頁檢測方法,其特征是: 圖像分割方法由以下步驟組成步驟1,預處理預處理是采用通用的坎尼算子邊界檢測方法將網(wǎng)頁圖 像轉(zhuǎn)換為初始二值圖像;步驟2,將預處理所得的二值圖像設為初始子圖像,置于待分割子圖像 集合中(初始該集合中只有初始子圖像);步驟3,判斷待分割子圖像集合是否為空,如果為空則結束,否則進入 步驟4;步驟4,從待分割子圖像集合中任取某個子圖像對其進行收縮處理,得 到有效子圖像;步驟5,判斷該有效子圖像是否可分割,如果可分割,檢測出該子圖像 中面積最大的分割帶,并以此將該子圖像一分為二,同時把分割后的兩個子 圖像存入待分割子圖像集合中,如果不能分割則將其存入以分割子圖像集合 中;步驟6,轉(zhuǎn)步驟3。
3、 根據(jù)權利要求l所述的這種基于圖像處理的釣魚網(wǎng)頁檢測方法,其特 征是步驟3所述的圖像特征包括彩色信息,灰度信息以及長度和寬度,彩 色信息和灰度信息采用直方圖統(tǒng)計的方法;子圖像長度和寬度直接由分割結 果得到,上述彩色信息采用直方圖獲取方法將原圖轉(zhuǎn)換到色度純度亮度(HSV) 顏色空間并將其非均勻量化為32種顏色,在此基礎上提取彩色直方圖,并對 其進行歸一化處理;灰度信息采用直方圖獲取方法將原圖轉(zhuǎn)換為黑白圖像,并對其進行拉伸,增強對比度,再將整個灰度空間量化為32個灰度,在此基 礎上提取灰度直方圖,并對其進行歸一化處理。
4、根據(jù)權利要求3所述的這種基于圖像處理的釣魚網(wǎng)頁檢測方法,其特 征是計算兩個網(wǎng)頁的特征關系集合之間相似度的方法采用嵌套運土者距離 方法,該嵌套運土者距離方法為確定步驟5所述的特征關系集合中的子圖像的圖像特征的相似度,所述子圖像的圖像特征相似度的確定方法采用綜合 加權距離,該綜合加權距離包括歸一化彩色直方圖相似度、歸一化灰度直方圖相似度以及長寬相似度,其權值各為1/3;確定步驟5所述的特征關系集合 中的子圖像的相對位置關系的相似度,所述子圖像的相對位置關系的相似度 的確定方法采用歸一化的運土者距離;最后根據(jù)子圖像的圖像特征相似度和 子圖像的相對位置關系相似度,采用嵌套運土者距離計算兩個特征關系集合 之間的相似度,所述嵌套運土者距離的計算方法為首先求出所有子圖像兩 兩之間的內(nèi)部距離矩陣,該內(nèi)部距離矩陣的大小為MXN,其中M、 N為分 別為兩個待檢測網(wǎng)頁中的子圖像的個數(shù),內(nèi)部距離矩陣的元素由前述子圖像 的圖像特征相似度和子圖像的相對位置關系相似度給出,根據(jù)該內(nèi)部距離矩 陣,采用運土者距離算法求出子圖像之間的外部距離,所有子圖像之間的外 部距離構成一個外部距離矩陣,大小為MXN,其中M、 N為分別為兩個待 檢測網(wǎng)頁中的子圖像的個數(shù),基于該外部距離矩陣,并將兩個待檢測網(wǎng)頁中 所有子圖像的權值設為相等,再次使用運土者距離算法求出兩個待檢測網(wǎng)頁 的距離,該距離即為網(wǎng)頁的嵌套運土者距離。
全文摘要
本發(fā)明涉及圖像信息處理以及網(wǎng)絡安全領域,尤其涉及一種基于圖像分割的釣魚網(wǎng)頁檢測方法。本發(fā)明采用逐一計算可疑釣魚網(wǎng)頁與各個受保護網(wǎng)頁之間的相似度,將可疑網(wǎng)頁與受保護網(wǎng)頁之間的相似度小于預先設定的值的可疑網(wǎng)頁判為針對該受保護網(wǎng)頁的釣魚網(wǎng)頁。本發(fā)明的特點是直接分析用戶所訪問的網(wǎng)頁圖像,可靠性高,不易被網(wǎng)頁設計技巧所欺騙;通過對網(wǎng)頁圖片進行分割可以進行部分匹配,防止由于部分相似而引起的網(wǎng)絡釣魚;使用子圖像特征和關系并重的匹配方法,更加符合視覺心理學,使匹配結果更加準確。根據(jù)試驗測得的數(shù)據(jù)顯示,本發(fā)明具有網(wǎng)頁圖像檢測準確性高的優(yōu)點。
文檔編號H04L9/00GK101145902SQ200710130809
公開日2008年3月19日 申請日期2007年8月17日 優(yōu)先權日2007年8月17日
發(fā)明者曹玖新, 波 毛, 羅軍舟 申請人:東南大學