通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的方法及裝置。其中方法的執(zhí)行基于預(yù)先建立的包含多個(gè)第一圖片的圖片規(guī)則庫,第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片;該方法包括:對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片;將第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片,則確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。本發(fā)明中,由于第一圖片具有釣魚網(wǎng)頁特征,因此在圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片的情況下,第二圖片也具有釣魚網(wǎng)頁的特征,基于此能夠快速并準(zhǔn)確的判斷網(wǎng)頁為可疑的釣魚網(wǎng)頁。
【專利說明】通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體涉及一種通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的方法
及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展,基于WEB的應(yīng)用日益普及,人們通過瀏覽器可以查詢銀行賬戶、網(wǎng)上購物、電子商務(wù)、查詢信息、獲取知識(shí)、進(jìn)行娛樂等,WEB為人們提供了方便和快捷的交互方式。然而,人們?cè)谏暇W(wǎng)沖浪瀏覽網(wǎng)頁的同時(shí),經(jīng)常會(huì)遭遇到惡意網(wǎng)站的侵襲,導(dǎo)致計(jì)算機(jī)被病毒、木馬等感染。
[0003]惡意網(wǎng)站,例如釣魚網(wǎng)站、或者是欺詐,仿冒網(wǎng)站等,主要是通過仿冒真實(shí)網(wǎng)站的URL地址或是網(wǎng)頁內(nèi)容,偽裝成銀行及電子商務(wù)等類型的網(wǎng)站,或是利用真實(shí)網(wǎng)站服務(wù)器程序上的漏洞,在該網(wǎng)站的某些網(wǎng)頁中插入危險(xiǎn)的網(wǎng)頁代碼,以此來騙取用戶銀行或信用卡賬號(hào)、密碼等私人資料。惡意網(wǎng)頁中包含著許多敏感的特征,例如,金融欺詐類的惡意網(wǎng)頁會(huì)在文字、圖片等方面仿冒官網(wǎng),或是在真實(shí)網(wǎng)頁中插入虛假票務(wù)、虛假中獎(jiǎng)、假冒網(wǎng)銀、虛假購物等信息,這些特征大多以文本串的形式出現(xiàn)在網(wǎng)頁中。
[0004]現(xiàn)有的為了防范惡意網(wǎng)站的主要手段是當(dāng)用戶訪問某網(wǎng)站時(shí),客戶端將網(wǎng)站的URL發(fā)送至服務(wù)器端的黑白名單數(shù)據(jù)庫進(jìn)行查詢,然而由于釣魚網(wǎng)站不斷更新?lián)Q代,這種方法對(duì)釣魚網(wǎng)站等惡意網(wǎng)站的檢出率不高并具有滯后性?;蛘呤峭ㄟ^基于文本的方法進(jìn)行識(shí)另O,例如通過提取頁面中關(guān)鍵詞,并將關(guān)鍵詞上傳至服務(wù)器,在黑名單數(shù)據(jù)庫中匹配,這種方法效率比較低下,而且容易受文字順序等因素的影響,誤判率較高。
【發(fā)明內(nèi)容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的方法和相應(yīng)的通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的
>J-U ρ?α裝直。
[0006]根據(jù)本發(fā)明的一個(gè)方面,提供了一種通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的方法,所述方法的執(zhí)行基于預(yù)先建立的包含多個(gè)第一圖片的圖片規(guī)則庫,所述第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片;
[0007]所述方法包括:
[0008]對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片;
[0009]將第二圖片與所述圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若所述圖片規(guī)則庫內(nèi)存在與所述第二圖片匹配的第一圖片,則確定所述網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0010]根據(jù)本發(fā)明的另一方面,提供了一種通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的裝置,其包括:
[0011]圖片規(guī)則庫,所述圖片規(guī)則庫包含多個(gè)第一圖片,所述第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片;[0012]獲取模塊,適于瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片;
[0013]匹配模塊,適于將第二圖片與所述圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若所述圖片規(guī)則庫內(nèi)存在與所述第二圖片匹配的第一圖片,則確定所述網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0014]根據(jù)本發(fā)明的提供的方案,對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片,將第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片,則確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。本發(fā)明中,由于第一圖片具有釣魚網(wǎng)頁特征,因此在圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片的情況下,第二圖片也具有釣魚網(wǎng)頁的特征,基于此能夠快速并準(zhǔn)確的判斷網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0015]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說明】
[0016]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0017]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的方法的流程圖;
[0018]圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的方法的流程圖;
[0019]圖3示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的獲取第二圖片的一種方法的流程圖;
[0020]圖4示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的獲取第二圖片的另一種方法的流程圖;
[0021]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的裝置的結(jié)構(gòu)框圖;
[0022]圖6示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0023]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0024]本發(fā)明的執(zhí)行基于預(yù)先建立的包含多個(gè)第一圖片的圖片規(guī)則庫,第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片。
[0025]建立圖片規(guī)則庫的方法是多種多樣的,本發(fā)明主要介紹兩種建立圖片規(guī)則庫的方法,但建立圖片規(guī)則庫的的方法并不僅限于此,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需要選用合適的方法建立圖片規(guī)則庫。
[0026]具體地,針對(duì)兩種建立圖片規(guī)則庫的方法進(jìn)行詳細(xì)描述:[0027]方法一:
[0028]對(duì)多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將第一圖片添加到圖片規(guī)則庫中,其中,第一圖片的尺寸小于或等于已知釣魚網(wǎng)頁的截圖的尺寸。
[0029]具體地,規(guī)則添加人員在截圖工具的URL (統(tǒng)一資源定位符)輸入框中輸入已知釣魚網(wǎng)頁的URL,然后點(diǎn)擊獲取快照按鈕對(duì)多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,截圖完成后,將釣魚網(wǎng)頁的截圖展示給規(guī)則添加人員,由規(guī)則添加人員利用鼠標(biāo)從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將第一圖片添加到圖片規(guī)則庫中,其中,第一圖片的尺寸小于或等于已知釣魚網(wǎng)頁的截圖的尺寸。
[0030]方法二:
[0031](I)對(duì)初始獲取的多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將第一圖片添加到圖片規(guī)則庫中作為樣本集。
[0032]具體地,規(guī)則添加人員在截圖工具的URL輸入框中輸入已知釣魚網(wǎng)頁的URL,然后點(diǎn)擊獲取快照按鈕對(duì)多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,截圖完成后,將釣魚網(wǎng)頁的截圖展示給規(guī)則添加人員,由規(guī)則添加人員利用鼠標(biāo)從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將第一圖片添加到圖片規(guī)則庫中作為樣本集,其中,第一圖片的尺寸小于或等于已知釣魚網(wǎng)頁的截圖的尺寸。
[0033](2)對(duì)樣本集包含的第一圖片進(jìn)行分類,對(duì)分類后的樣本集進(jìn)行分類學(xué)習(xí)得到各個(gè)類別對(duì)應(yīng)的圖片特征庫。
[0034]具體地,根據(jù)網(wǎng)站類型對(duì)樣本集包含的第一圖片進(jìn)行分類,例如按照仿冒淘寶、仿冒QQ登錄、仿冒六合彩的分類方法對(duì)樣本集包含的第一圖片進(jìn)行分類,然后利用分類學(xué)習(xí)算法對(duì)分類后的樣本集進(jìn)行分類學(xué)習(xí)例如學(xué)習(xí)各個(gè)類別對(duì)應(yīng)的圖片的特征,分類學(xué)習(xí)結(jié)束后得到各個(gè)類別對(duì)應(yīng)的圖片特征庫。
[0035](3)對(duì)后續(xù)獲取的已知釣魚網(wǎng)頁進(jìn)行截圖,從已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第三圖片,提取該第三圖片的特征。
[0036]其中,截取第三圖片的方法與本方法中截取第一圖片的方法類似,在此不再贅述。在獲得第三圖片之后,利用視覺特征抽取算法抽取第三圖片的特征。
[0037](4)將第三圖片的特征與各個(gè)類別對(duì)應(yīng)的圖片特征庫進(jìn)行匹配,若第三圖片的特征與一類別對(duì)應(yīng)的圖片特征庫匹配,則將第三圖片作為第一圖片添加到圖片規(guī)則庫中,并將第三圖片歸類與所匹配的類別。
[0038]上述方法一得到的圖片規(guī)則庫包含來自大量已知釣魚網(wǎng)頁的第一圖片,并未對(duì)這些第一圖片進(jìn)行分類;而上述方法二通過分類學(xué)習(xí)的方法,能夠?qū)碜源罅恳阎烎~網(wǎng)頁的第一圖片進(jìn)行分類,基于這種做好分類的圖片規(guī)則庫,能夠?qū)ψR(shí)別出的釣魚網(wǎng)頁進(jìn)行精確分類。
[0039]基于上述建立的圖片規(guī)則庫,進(jìn)一步介紹檢測(cè)釣魚網(wǎng)頁的具體方法。
[0040]可選地,本發(fā)明的檢測(cè)釣魚網(wǎng)頁的方法是在后臺(tái)服務(wù)器執(zhí)行的,所建立的圖片規(guī)則庫可以存儲(chǔ)在后臺(tái)服務(wù)器端。但本發(fā)明并不局限于此,所建立的圖片規(guī)則庫也可存儲(chǔ)在本地客戶端,即后臺(tái)服務(wù)器將建立的圖片規(guī)則庫同步給本地客戶端,并定時(shí)對(duì)本地客戶端的圖片規(guī)則庫進(jìn)行更新,由本地客戶端執(zhí)行本發(fā)明的檢測(cè)釣魚網(wǎng)頁的方法。
[0041]可選地,后臺(tái)服務(wù)器的圖片規(guī)則庫不僅包含第一圖片(例如以二進(jìn)制數(shù)據(jù)的形式存儲(chǔ)在數(shù)據(jù)庫中),還可包含已知釣魚網(wǎng)頁的截圖、已知釣魚網(wǎng)頁的URL以及對(duì)網(wǎng)頁的處理規(guī)則等其他信息。其中,已知釣魚網(wǎng)頁的截圖是第一圖片的來源,可用于判斷第一圖片是否有效即第一圖片是否包含足夠的釣魚網(wǎng)頁的特征,在第一圖片不足以用于判斷某網(wǎng)頁是否為釣魚網(wǎng)頁的情況下,可從保存的已知釣魚網(wǎng)頁的截圖中重新截取第一圖片。此外,可通過判斷某網(wǎng)頁的URL是否為圖片規(guī)則庫中的已知釣魚網(wǎng)頁的URL來判斷該網(wǎng)頁是否為釣魚網(wǎng)頁。對(duì)網(wǎng)頁的處理規(guī)則能夠告知用戶訪問的網(wǎng)頁是否為惡意網(wǎng)頁,并在判定某網(wǎng)頁為釣魚網(wǎng)頁時(shí)向用戶展示所訪問的網(wǎng)頁的URL提醒用戶,例如通過彈出窗口以該網(wǎng)頁的URL為XXX,其是危險(xiǎn)網(wǎng)頁的形式來提醒用戶,并將URL發(fā)送至URL處理服務(wù)器。此外還可向用戶展示網(wǎng)頁的HOST(域名),本發(fā)明對(duì)比不做限制,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需要進(jìn)行設(shè)置。
[0042]本發(fā)明實(shí)施例還提供有H0ST\URL處理服務(wù)器:可以存儲(chǔ)通過本發(fā)明所提供的方法所發(fā)現(xiàn)的釣魚網(wǎng)頁的HOST和URL ;也可以接收惡意網(wǎng)址云引擎的反饋;還可以調(diào)度全網(wǎng)支持服務(wù)器集群的抓取。
[0043]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的方法的流程圖。如圖1所示,該方法包括以下步驟:
[0044]步驟S100,對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
[0045]瀏覽器打開的網(wǎng)頁指用戶通過客戶端的瀏覽器打開的網(wǎng)頁,其中客戶端可以為計(jì)算機(jī)、移動(dòng)終端、平板設(shè)備等,本發(fā)明對(duì)此不做限制。若本實(shí)施例的方法在后臺(tái)服務(wù)器側(cè)執(zhí)行,那么則由服務(wù)器獲取到瀏覽器打開的網(wǎng)頁的URL或MHT文件之后,根據(jù)URL或MHT文件在服務(wù)器側(cè)顯示對(duì)應(yīng)的網(wǎng)頁并進(jìn)行截圖,獲取第二圖片,其中第二圖片的內(nèi)容與用戶在客戶端通過瀏覽器打開的網(wǎng)頁的內(nèi)容相同。若本實(shí)施例的方法在本地客戶端側(cè)執(zhí)行,那么由本地客戶端對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
[0046]步驟S110,將第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片,則確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0047]由于圖片規(guī)則庫中所包含的第一圖片是在已知的釣魚網(wǎng)頁的截圖中截取的具有釣魚網(wǎng)頁特征的圖片,因此將第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配即是判定第二圖片是否具有釣魚網(wǎng)頁特征,若圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片,則表示第二圖片具有釣魚網(wǎng)頁特征,能夠確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0048]根據(jù)本發(fā)明上述實(shí)施例提供的方法,該方法的執(zhí)行基于預(yù)先建立的包含多個(gè)第一圖片的圖片規(guī)則庫,第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片。對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片,將第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片,則確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。本實(shí)施例中,由于第一圖片具有釣魚網(wǎng)頁特征,因此在圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片的情況下,第二圖片也具有釣魚網(wǎng)頁的特征,基于此能夠快速并準(zhǔn)確的判斷網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0049]圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的方法的流程圖。如圖2所示,該方法包括以下步驟:[0050]步驟S200,對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
[0051]瀏覽器打開的網(wǎng)頁指用戶通過客戶端的瀏覽器打開的網(wǎng)頁。在本實(shí)施例中,以服務(wù)器側(cè)獲取第二圖片(即本實(shí)施例的方法由服務(wù)器側(cè)執(zhí)行)為例,說明如何獲取第二圖片。
[0052]在本實(shí)施例中主要通過兩種方法獲取第二圖片,但并不限于此,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際情況選用合適的方法獲取第二圖片。
[0053]具體地,針對(duì)獲取第二圖片的兩種方法進(jìn)行詳細(xì)描述:
[0054]圖3 示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的獲取第二圖片的一種方法的流程圖。在本方法中,執(zhí)行主體是安裝有chrome瀏覽器的服務(wù)器,該服務(wù)器封裝有對(duì)應(yīng)的接口,可選為阿帕奇接口,這里將封裝有阿帕奇接口的該服務(wù)器稱為阿帕奇服務(wù)器,以阿帕奇服務(wù)器為例進(jìn)行說明。
[0055]如圖3所示,該方法包括如下步驟:
[0056]步驟300,通過服務(wù)器接收用戶訪問的網(wǎng)頁的URL。
[0057]具體地,可以通過阿帕奇服務(wù)器接收用戶訪問的網(wǎng)頁的URL。阿帕奇服務(wù)器的主要特征是:可以運(yùn)行在所有計(jì)算機(jī)平臺(tái);支持最新的HTTP1.1協(xié)議;簡(jiǎn)單而強(qiáng)有力的基于文件的配置;支持通用網(wǎng)關(guān)接口 CGI ;支持虛擬主機(jī);支持HTTP認(rèn)證;集成Perl腳本編程語言;集成的代理服務(wù)器;具有可定制的服務(wù)器日志;支持服務(wù)器端包含命令(SSI);支持安全Socket層(SSL);用戶會(huì)話過程的跟蹤能力;支持FastCGI ;支持Java Servlets。
[0058]步驟310,調(diào)用chrome瀏覽器打開URL對(duì)應(yīng)的網(wǎng)頁。
[0059]在阿帕奇服務(wù)器中安裝有CGI程序,該CGI程序內(nèi)具有第三方工具,第三方工具支持若干API,通過這些API可將URL嵌入給chrome瀏覽器。具體來說,在通過阿帕奇服務(wù)器接收到客戶端發(fā)送的用戶訪問的網(wǎng)頁的URL之后,通過阿帕奇服務(wù)器將URL嵌入到CGI程序,然后通過CGI程序內(nèi)的第三方工具提供的API將URL嵌入到ChiOme瀏覽器,調(diào)用chi^me瀏覽器并啟用chrome瀏覽器的debug模式,向處于debug模式下的chrome瀏覽器嵌入獲取URL命令以及截圖命令,chrome瀏覽器在接收到獲取URL的命令之后,打開該URL對(duì)應(yīng)的網(wǎng)頁。
[0060]步驟320,執(zhí)行截圖命令,對(duì)URL對(duì)應(yīng)的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
[0061]具體地,chrome瀏覽器在接收到截圖命令后,對(duì)URL對(duì)應(yīng)的網(wǎng)頁進(jìn)行截圖,并將截取的第二圖片保存在阿帕奇服務(wù)器指定的文件夾內(nèi),本發(fā)明實(shí)施例對(duì)應(yīng)的裝置在收到阿帕奇服務(wù)器發(fā)送的圖片保存地址后從阿帕奇服務(wù)器獲取第二圖片。
[0062]上述方法由于需要在阿帕奇服務(wù)器處利用chrome瀏覽器再次打開網(wǎng)頁,即阿帕奇服務(wù)器需要再次訪問網(wǎng)頁服務(wù)器獲取網(wǎng)頁內(nèi)容,因此獲取速度比較慢,但該方法通過獲取用戶訪問的網(wǎng)頁的URL,并利用chrome瀏覽器打開獲取的URL,服務(wù)器端的chrome瀏覽器打開的網(wǎng)頁與用戶通過客戶端的瀏覽器打開的網(wǎng)頁相同,可以精確的截圖,具有準(zhǔn)確性聞的優(yōu)點(diǎn)。
[0063]圖4示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的獲取第二圖片的另一種方法的流程圖。在本方法中,執(zhí)行主體是安裝有IE瀏覽器的服務(wù)器,這里將其稱為IE機(jī)器。
[0064]如圖4所示,該方法包括如下步驟:
[0065]步驟400,遠(yuǎn)程調(diào)用IE機(jī)器接收用戶訪問的網(wǎng)頁的MHT文件的地址。
[0066]具體地,MHT是網(wǎng)頁歸檔(英語:MIMEHTML或MIME Encapsulation of AggregateHTML Documents,又稱單一文件網(wǎng)頁或網(wǎng)頁封存盤案)為一多用途互聯(lián)網(wǎng)郵件擴(kuò)展格式,將一個(gè)多附件網(wǎng)頁(如包含大量圖片、Flash動(dòng)畫、Java小程序的網(wǎng)頁)存儲(chǔ)為單一文件,可用于發(fā)送HTML電子郵件,此單一文件即稱為一網(wǎng)頁封存盤案。MHT文件保存在服務(wù)器指定目錄下。IE機(jī)器向服務(wù)器發(fā)送獲取MHT文件的地址的命令,服務(wù)器在收到命令后將MHT文件的地址發(fā)送給IE機(jī)器。
[0067]步驟410,通過將MHT文件的地址嵌入到IE瀏覽器,打開MHT文件對(duì)應(yīng)的網(wǎng)頁。
[0068]具體地,IE機(jī)器將接收的MHT文件的地址嵌入到IE瀏覽器,利用IE瀏覽器打開MHT文件對(duì)應(yīng)的網(wǎng)頁。
[0069]步驟420,執(zhí)行截圖命令,對(duì)MHT文件對(duì)應(yīng)的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
[0070]上述方法的優(yōu)點(diǎn)是,IE機(jī)器無需再次訪問網(wǎng)站服務(wù)器獲取網(wǎng)頁內(nèi)容,而是通過MHT文件即可重新打開網(wǎng)頁,因此獲取第二圖片的速度更快,從而使得釣魚網(wǎng)頁檢測(cè)速度更快。
[0071]步驟S210,分別抽取第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片的特征。
[0072]利用特征抽取算法抽取第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片的特征。例如,利用ORB(ORiented Brief)特征抽取算法對(duì)第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行ORB特征抽取,并提取出特征數(shù)據(jù),其中,ORB特征提取指的是使用計(jì)算機(jī)抽取圖像信息,決定每個(gè)圖像的點(diǎn)是否屬于一個(gè)特征點(diǎn),ORB特抽取的結(jié)果是將特征點(diǎn)的特征數(shù)據(jù)提取出來。
[0073]步驟S220,判斷第二圖片特征是否與圖片規(guī)則庫所包含的任一第一圖片的特征匹配,若是則執(zhí)行步驟S230 ;若否則方法結(jié)束。
[0074]由于圖片規(guī)則庫中所包含的第一圖片是在已知的釣魚網(wǎng)頁的截圖中截取的具有釣魚網(wǎng)頁特征的圖片,因此判斷第二圖片特征是否與圖片規(guī)則庫所包含的任一第一圖片的特征匹配即是判定第二圖片是否具有釣魚網(wǎng)頁特征。
[0075]具體地,查找第二圖片的特征與圖片規(guī)則庫所包含的多個(gè)第一圖片的特征匹配的鄰近特征點(diǎn),判斷鄰近特征點(diǎn)個(gè)數(shù)與第一閾值的關(guān)系,若鄰近特征點(diǎn)個(gè)數(shù)大于第一閾值則第二圖片的特征與圖片規(guī)則庫所包含的任一第一圖片的特征匹配??蛇x地,將第二圖片的特征與圖片規(guī)則庫所包含的任一第一圖片的特征用kd-tree數(shù)據(jù)結(jié)構(gòu)表示,利用kd-tree算法與K最鄰近結(jié)點(diǎn)算法查找第二圖片的特征與圖片規(guī)則庫所包含的多個(gè)第一圖片的特征匹配的鄰近特征點(diǎn),若鄰近特征點(diǎn)個(gè)數(shù)大于29 (第一閾值)則第二圖片的特征與圖片規(guī)則庫所包含的任一第一圖片的特征匹配。
[0076]步驟S230,確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0077]步驟S240,采用基于URL和/或IP和/或網(wǎng)頁內(nèi)容進(jìn)行識(shí)別的方法對(duì)網(wǎng)頁進(jìn)行識(shí)另Ij,確定網(wǎng)頁是否為釣魚網(wǎng)頁。
[0078]通過上述步驟S200-步驟S230得到網(wǎng)頁為可疑的釣魚網(wǎng)頁,可將上述方法與基于URL和/或IP和/或網(wǎng)頁內(nèi)容進(jìn)行識(shí)別的方法結(jié)合起來確定網(wǎng)頁是否為釣魚網(wǎng)頁,從而可以降低誤判率。
[0079]具體地,可以通過判斷用戶訪問的網(wǎng)頁的URL是否屬于本地黑/白名單來判定用戶訪問的網(wǎng)頁是否為釣魚網(wǎng)頁,若用戶訪問的網(wǎng)頁的URL屬于本地黑名單則確定網(wǎng)頁為釣魚網(wǎng)頁。[0080]還可以通過判斷用戶訪問的網(wǎng)頁的URL是否屬于高危域名或高危IP來判定用戶訪問的網(wǎng)頁是否為釣魚網(wǎng)頁,若用戶訪問的網(wǎng)頁的URL屬于高危域名或高危IP則確定網(wǎng)頁為釣魚網(wǎng)頁。
[0081]還可以通過基于網(wǎng)頁內(nèi)容識(shí)別方法進(jìn)行判斷,具體可以采用以下兩種方法:
[0082]方法一:在訪問網(wǎng)頁加載完成后,提取網(wǎng)頁的多個(gè)內(nèi)容片段,獲取每個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID,其中內(nèi)容片段與特征ID唯一對(duì)應(yīng);將多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配,其中,特征庫由服務(wù)器生成,是大量的釣魚網(wǎng)頁中的惡意內(nèi)容片段對(duì)應(yīng)的特征ID的集合;若多個(gè)內(nèi)容片段對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則根據(jù)所述網(wǎng)頁的信息,計(jì)算所述網(wǎng)頁的評(píng)估分;根據(jù)所述網(wǎng)頁的評(píng)估分與設(shè)定閾值的比較結(jié)果,確定網(wǎng)頁是否為釣魚網(wǎng)頁。
[0083]方法二:在瀏覽器的網(wǎng)頁事件加載完成后,提取網(wǎng)頁的多個(gè)網(wǎng)頁元素,獲取每個(gè)網(wǎng)頁元素對(duì)應(yīng)的特征ID,其中內(nèi)容片段與特征ID唯一對(duì)應(yīng);將多個(gè)網(wǎng)頁元素對(duì)應(yīng)的特征ID與特征庫中的特征ID進(jìn)行匹配,其中,特征庫由服務(wù)器生成,是大量的釣魚網(wǎng)頁中的惡意內(nèi)容片段對(duì)應(yīng)的特征ID的集合;若多個(gè)網(wǎng)頁元素對(duì)應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特征ID,則將該匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID,將所述至少一個(gè)模板ID與釣魚網(wǎng)頁識(shí)別庫中的模板ID進(jìn)行匹配,其中,模板ID可以是通過特定的快速哈希算法生成的定長(zhǎng)的二進(jìn)制數(shù)據(jù),例如,通過MD5算法生成的64位的二進(jìn)制串。與特征ID類似地,不同特征ID按照相同的順序組合,按照相同的算法計(jì)算得到的模板ID是唯一的并且是不可逆的;若所述至少一個(gè)模板ID中具有與釣魚網(wǎng)頁識(shí)別庫中的模板ID匹配的模板ID,則確定網(wǎng)頁為釣魚網(wǎng)頁。
[0084]根據(jù)本發(fā)明上述實(shí)施例提供的方法,該方法的執(zhí)行基于預(yù)先建立的包含多個(gè)第一圖片的圖片規(guī)則庫,第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片。對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片;分別抽取第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片的特征;判斷第二圖片特征是否與圖片規(guī)則庫所包含的任一第一圖片的特征匹配,若是則確定網(wǎng)頁為可疑的釣魚網(wǎng)頁;采用基于URL和/或IP和/或網(wǎng)頁內(nèi)容進(jìn)行識(shí)別的方法對(duì)網(wǎng)頁進(jìn)行識(shí)別,確定網(wǎng)頁是否為釣魚網(wǎng)頁。本實(shí)施例中,由于第一圖片具有釣魚網(wǎng)頁特征,因此在圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片的情況下,第二圖片也具有釣魚網(wǎng)頁的特征,基于此能夠快速并準(zhǔn)確的判斷網(wǎng)頁為可疑的釣魚網(wǎng)頁。在建立圖片規(guī)則庫時(shí)對(duì)圖片進(jìn)行了分類,因此當(dāng)某網(wǎng)頁為釣魚網(wǎng)頁時(shí)可以根據(jù)圖片規(guī)則庫中的圖片進(jìn)行自動(dòng)識(shí)別并將網(wǎng)頁進(jìn)行歸類。結(jié)合圖片特征匹配與URL和/或IP和/或網(wǎng)頁內(nèi)容進(jìn)行識(shí)別的方法對(duì)網(wǎng)頁進(jìn)行識(shí)別,降低了對(duì)網(wǎng)頁的誤判率。
[0085]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的裝置的結(jié)構(gòu)框圖。如圖5所示,該裝置包括:圖片規(guī)則庫500、獲取模塊510、匹配模塊520。
[0086]圖片規(guī)則庫500,圖片規(guī)則庫包含多個(gè)第一圖片,第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片。
[0087]獲取模塊510,適于對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
[0088]獲取模塊510進(jìn)一步包括:
[0089]接收單元530,適于通過服務(wù)器接收用戶訪問的網(wǎng)頁的URL。
[0090]調(diào)用單元540,適于調(diào)用chrome瀏覽器打開URL對(duì)應(yīng)的網(wǎng)頁。[0091]獲取單元550,適于執(zhí)行截圖命令,對(duì)URL對(duì)應(yīng)的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
[0092]其中獲取模塊510可以是阿帕奇服務(wù)器或阿帕奇服務(wù)器中的一個(gè)模塊。
[0093]匹配模塊520,適于將第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片,則確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0094]匹配模塊520進(jìn)一步包括:
[0095]抽取單元560,適于分別抽取第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片的特征。
[0096]匹配單元570,適于將第二圖片的特征與圖片規(guī)則庫所包含的多個(gè)第一圖片的特征進(jìn)行匹配,若第二圖片的特征與圖片規(guī)則庫所包含的任一第一圖片的特征匹配,則確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0097]匹配單元570進(jìn)一步適于:查找第二圖片的特征與圖片規(guī)則庫所包含的多個(gè)第一圖片的特征匹配的鄰近特征點(diǎn),若鄰近特征點(diǎn)個(gè)數(shù)大于第一閾值,則確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0098]該裝置還包括:釣魚網(wǎng)頁預(yù)處理模塊580,適于對(duì)多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將第一圖片添加到圖片規(guī)則庫中,其中,第一圖片的尺寸小于或等于已知釣魚網(wǎng)頁的截圖的尺寸。
[0099]釣魚網(wǎng)頁預(yù)處理模塊580還適于對(duì)初始獲取的多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將第一圖片添加到圖片規(guī)則庫中作為樣本集。
[0100]對(duì)樣本集包含的第一圖片進(jìn)行分類,對(duì)分類后的樣本集進(jìn)行分類學(xué)習(xí)得到各個(gè)類別對(duì)應(yīng)的圖片特征庫。
[0101 ] 對(duì)后續(xù)獲取的已知釣魚網(wǎng)頁進(jìn)行截圖,從已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第三圖片,提取該第三圖片的特征。
[0102]將第三圖片的特征與各個(gè)類別對(duì)應(yīng)的圖片特征庫進(jìn)行匹配,若第三圖片的特征與一類別對(duì)應(yīng)的圖片特征庫匹配,則將第三圖片作為第一圖片添加到圖片規(guī)則庫中,并將第三圖片歸類與所匹配的類別。
[0103]該裝置還包括:識(shí)別模塊590,適于采用基于URL或IP或網(wǎng)頁內(nèi)容進(jìn)行識(shí)別的方法對(duì)網(wǎng)頁進(jìn)行識(shí)別,確定網(wǎng)頁是否為釣魚網(wǎng)頁。
[0104]根據(jù)本發(fā)明上述實(shí)施例提供的裝置,圖片規(guī)則庫包含多個(gè)第一圖片,第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片。對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片,將第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片,則確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。本實(shí)施例中,由于第一圖片具有釣魚網(wǎng)頁特征,因此在圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片的情況下,第二圖片也具有釣魚網(wǎng)頁的特征,基于此能夠快速并準(zhǔn)確的判斷網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0105]圖6示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的裝置的結(jié)構(gòu)框圖。如圖6所示,該裝置包括:圖片規(guī)則庫600、獲取模塊610、匹配模塊620。
[0106]圖片規(guī)則庫600,圖片規(guī)則庫包含多個(gè)第一圖片,第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片。[0107]獲取模塊610,適于對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
[0108]其中獲取模塊610可以是IE機(jī)器或IE機(jī)器中的一個(gè)模塊。
[0109]獲取模塊610進(jìn)一步包括:
[0110]接收單元630,進(jìn)一步適于遠(yuǎn)程調(diào)用IE機(jī)器接收用戶訪問的網(wǎng)頁的MHT文件的地址。
[0111]嵌入單元640,適于通過將MHT文件的地址嵌入到IE瀏覽器,打開MHT文件對(duì)應(yīng)的網(wǎng)頁。
[0112]獲取單元650,進(jìn)一步適于執(zhí)行截圖命令,對(duì)MHT文件對(duì)應(yīng)的網(wǎng)頁進(jìn)行截圖,獲取
第二圖片。
[0113]匹配模塊620,適于將第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片,則確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0114]匹配模塊620進(jìn)一步包括:
[0115]抽取單元660,適于分別抽取第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片的特征。
[0116]匹配單元670,適于將第二圖片的特征與圖片規(guī)則庫所包含的多個(gè)第一圖片的特征進(jìn)行匹配,若第二圖片的特征與圖片規(guī)則庫所包含的任一第一圖片的特征匹配,則確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0117]匹配單元670進(jìn)一步適于:查找第二圖片的特征與圖片規(guī)則庫所包含的多個(gè)第一圖片的特征匹配的鄰近特征點(diǎn),若鄰近特征點(diǎn)個(gè)數(shù)大于第一閾值,則確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0118]該裝置還包括:釣魚網(wǎng)頁預(yù)處理模塊680,適于對(duì)多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將第一圖片添加到圖片規(guī)則庫中,其中,第一圖片的尺寸小于或等于已知釣魚網(wǎng)頁的截圖的尺寸。
[0119]釣魚網(wǎng)頁預(yù)處理模塊680具體適于對(duì)初始獲取的多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將第一圖片添加到圖片規(guī)則庫中作為樣本集。
[0120]對(duì)樣本集包含的第一圖片進(jìn)行分類,對(duì)分類后的樣本集進(jìn)行分類學(xué)習(xí)得到各個(gè)類別對(duì)應(yīng)的圖片特征庫。
[0121 ] 對(duì)后續(xù)獲取的已知釣魚網(wǎng)頁進(jìn)行截圖,從已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第三圖片,提取該第三圖片的特征。
[0122]將第三圖片的特征與各個(gè)類別對(duì)應(yīng)的圖片特征庫進(jìn)行匹配,若第三圖片的特征與一類別對(duì)應(yīng)的圖片特征庫匹配,則將第三圖片作為第一圖片添加到圖片規(guī)則庫中,并將第三圖片歸類與所匹配的類別。
[0123]該裝置還包括:識(shí)別模塊690,適于采用基于URL或IP或網(wǎng)頁內(nèi)容進(jìn)行識(shí)別的方法對(duì)網(wǎng)頁進(jìn)行識(shí)別,確定網(wǎng)頁是否為釣魚網(wǎng)頁。
[0124]根據(jù)本發(fā)明上述實(shí)施例提供的裝置,圖片規(guī)則庫包含多個(gè)第一圖片,第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片。對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片,將第二圖片與圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片,則確定網(wǎng)頁為可疑的釣魚網(wǎng)頁。本實(shí)施例中,由于第一圖片具有釣魚網(wǎng)頁特征,因此在圖片規(guī)則庫內(nèi)存在與第二圖片匹配的第一圖片的情況下,第二圖片也具有釣魚網(wǎng)頁的特征,基于此能夠快速并準(zhǔn)確的判斷網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0125]在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
[0126]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
[0127]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0128]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
[0129]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0130]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0131]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
[0132]本發(fā)明公開了:A1、一種通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的方法,所述方法的執(zhí)行基于預(yù)先建立的包含多個(gè)第一圖片的圖片規(guī)則庫,所述第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片;
[0133]所述方法包括:
[0134]對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片;
[0135]將第二圖片與所述圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若所述圖片規(guī)則庫內(nèi)存在與所述第二圖片匹配的第一圖片,則確定所述網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0136]A2、根據(jù)Al所述的方法,其中,所述對(duì)用戶訪問的網(wǎng)頁進(jìn)行截圖,獲取第二圖片進(jìn)一步包括:
[0137]通過服務(wù)器接收用戶訪問的網(wǎng)頁的統(tǒng)一資源定位符;
[0138]調(diào)用chrome瀏覽器打開所述統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁;
[0139]執(zhí)行截圖命令,對(duì)所述統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
[0140]A3、根據(jù)Al所述的方法,其中,所述對(duì)用戶訪問的網(wǎng)頁進(jìn)行截圖,獲取第二圖片進(jìn)一步包括:
[0141]遠(yuǎn)程調(diào)用IE機(jī)器接收用戶訪問的網(wǎng)頁的MHT文件的地址;
[0142]通過將MHT文件的地址嵌入到IE瀏覽器,打開MHT文件對(duì)應(yīng)的網(wǎng)頁;
[0143]執(zhí)行截圖命令,對(duì)所述MHT文件對(duì)應(yīng)的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
[0144]A4、根據(jù)A1-A3任一項(xiàng)所述的方法,其中,所述將第二圖片與所述圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配進(jìn)一步包括:
[0145]分別抽取所述第二圖片與所述圖片規(guī)則庫所包含的多個(gè)第一圖片的特征;
[0146]將所述第二圖片的特征與所述圖片規(guī)則庫所包含的多個(gè)第一圖片的特征進(jìn)行匹配,若所述第二圖片的特征與所述圖片規(guī)則庫所包含的任一第一圖片的特征匹配,則確定所述網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0147]A5、根據(jù)A4所述的方法,其中,所述將所述第二圖片的特征與所述圖片規(guī)則庫所包含的多個(gè)第一圖片的特征進(jìn)行匹配進(jìn)一步包括:
[0148]查找所述第二圖片的特征與所述圖片規(guī)則庫所包含的多個(gè)第一圖片的特征匹配的鄰近特征點(diǎn),若所述鄰近特征點(diǎn)個(gè)數(shù)大于第一閾值,則確定所述網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0149]A6、根據(jù)A1-A5任一項(xiàng)所述的方法,其中,所述圖片規(guī)則庫的建立包括:
[0150]對(duì)多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將所述第一圖片添加到圖片規(guī)則庫中,其中,第一圖片的尺寸小于或等于所述已知釣魚網(wǎng)頁的截圖的尺寸。
[0151]A7、根據(jù)A1-A5任一項(xiàng)所述的方法,其中,所述圖片規(guī)則庫的建立包括:[0152]對(duì)初始獲取的多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將所述第一圖片添加到圖片規(guī)則庫中作為樣本集;
[0153]對(duì)所述樣本集包含的第一圖片進(jìn)行分類,對(duì)分類后的樣本集進(jìn)行分類學(xué)習(xí)得到各個(gè)類別對(duì)應(yīng)的圖片特征庫;
[0154]對(duì)后續(xù)獲取的已知釣魚網(wǎng)頁進(jìn)行截圖,從已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第三圖片,提取該第三圖片的特征;
[0155]將所述第三圖片的特征與所述各個(gè)類別對(duì)應(yīng)的圖片特征庫進(jìn)行匹配,若所述第三圖片的特征與一類別對(duì)應(yīng)的圖片特征庫匹配,則將所述第三圖片作為第一圖片添加到圖片規(guī)則庫中,并將所述第三圖片歸類與所匹配的類別。
[0156]AS、根據(jù)A1-A7任一項(xiàng)所述的方法,在所述確定網(wǎng)頁為可疑的釣魚網(wǎng)頁之后還包括:
[0157]采用基于URL和/或IP和/或網(wǎng)頁內(nèi)容進(jìn)行識(shí)別的方法對(duì)所述網(wǎng)頁進(jìn)行識(shí)別,確定所述網(wǎng)頁是否為釣魚網(wǎng)頁。
[0158]本發(fā)明還公開了:B9、一種通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的裝置,其包括:
[0159]圖片規(guī)則庫,所述圖片規(guī)則庫包含多個(gè)第一圖片,所述第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片;
[0160]獲取模塊,適于對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片;
[0161]匹配模塊,適于將第二圖片與所述圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若所述圖片規(guī)則庫內(nèi)存在與所述第二圖片匹配的第一圖片,則確定所述網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0162]B10、根據(jù)B9所述的裝置,其中,所述獲取模塊進(jìn)一步包括:
[0163]接收單元,適于通過服務(wù)器接收用戶訪問的網(wǎng)頁的統(tǒng)一資源定位符;
[0164]調(diào)用單元,適于調(diào)用chrome瀏覽器打開所述統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁;
[0165]獲取單元,適于執(zhí)行截圖命令,對(duì)所述統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁進(jìn)行截圖,獲取
第二圖片。
[0166]B11、根據(jù)B9所述的裝置,其中,所述獲取模塊進(jìn)一步包括:
[0167]接收單元,適于遠(yuǎn)程調(diào)用IE機(jī)器接收用戶訪問的網(wǎng)頁的MHT文件的地址;
[0168]嵌入單元,適于通過將MHT文件的地址嵌入到IE瀏覽器,打開MHT文件對(duì)應(yīng)的網(wǎng)頁;
[0169]獲取單元,適于執(zhí)行截圖命令,對(duì)所述MHT文件對(duì)應(yīng)的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
[0170]B12、根據(jù)B9-B11任一項(xiàng)所述的裝置,其中,所述匹配模塊進(jìn)一步包括:
[0171]抽取單元,適于分別抽取所述第二圖片與所述圖片規(guī)則庫所包含的多個(gè)第一圖片的特征;
[0172]匹配單元,適于將所述第二圖片的特征與所述圖片規(guī)則庫所包含的多個(gè)第一圖片的特征進(jìn)行匹配,若所述第二圖片的特征與所述圖片規(guī)則庫所包含的任一第一圖片的特征匹配,則確定所述網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0173]B13、根據(jù)B12所述的裝置,其中,所述匹配單元進(jìn)一步適于:[0174]查找所述第二圖片的特征與所述圖片規(guī)則庫所包含的多個(gè)第一圖片的特征匹配的鄰近特征點(diǎn),若所述鄰近特征點(diǎn)個(gè)數(shù)大于第一閾值,則確定所述網(wǎng)頁為可疑的釣魚網(wǎng)頁。
[0175]B14、根據(jù)B9-B13任一項(xiàng)所述的裝置,其中,還包括:
[0176]釣魚網(wǎng)頁預(yù)處理模塊,適于對(duì)多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將所述第一圖片添加到圖片規(guī)則庫中,其中,第一圖片的尺寸小于或等于所述已知釣魚網(wǎng)頁的截圖的尺寸。
[0177]B15、根據(jù)B9-B13任一項(xiàng)所述的裝置,其中,還包括釣魚網(wǎng)頁預(yù)處理模塊,具體適于:
[0178]對(duì)初始獲取的多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將所述第一圖片添加到圖片規(guī)則庫中作為樣本集;
[0179]對(duì)所述樣本集包含的第一圖片進(jìn)行分類,對(duì)分類后的樣本集進(jìn)行分類學(xué)習(xí)得到各個(gè)類別對(duì)應(yīng)的圖片特征庫;
[0180]對(duì)后續(xù)獲取的已知釣魚網(wǎng)頁進(jìn)行截圖,從已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第三圖片,提取該第三圖片的特征;
[0181]將所述第三圖片的特征與所述各個(gè)類別對(duì)應(yīng)的圖片特征庫進(jìn)行匹配,若所述第三圖片的特征與一類別對(duì)應(yīng)的圖片特征庫匹配,則將所述第三圖片作為第一圖片添加到圖片規(guī)則庫中,并將所述第三圖片歸類與所匹配的類別。
[0182]B16、根據(jù)B9-B15任一項(xiàng)所述的裝置,還包括:識(shí)別模塊,適于采用基于URL和/或IP和/或網(wǎng)頁內(nèi)容進(jìn)行識(shí)別的方法對(duì)所述網(wǎng)頁進(jìn)行識(shí)別,確定所述網(wǎng)頁是否為釣魚網(wǎng)頁。
【權(quán)利要求】
1.一種通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的方法,所述方法的執(zhí)行基于預(yù)先建立的包含多個(gè)第一圖片的圖片規(guī)則庫,所述第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片; 所述方法包括: 對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片; 將第二圖片與所述圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若所述圖片規(guī)則庫內(nèi)存在與所述第二圖片匹配的第一圖片,則確定所述網(wǎng)頁為可疑的釣魚網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述對(duì)用戶訪問的網(wǎng)頁進(jìn)行截圖,獲取第二圖片進(jìn)一步包括: 通過服務(wù)器接收用戶訪問的網(wǎng)頁的統(tǒng)一資源定位符; 調(diào)用chrome瀏覽器打開所述統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁; 執(zhí)行截圖命令,對(duì)所述統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述對(duì)用戶訪問的網(wǎng)頁進(jìn)行截圖,獲取第二圖片進(jìn)一步包括: 遠(yuǎn)程調(diào)用IE機(jī)器接收用戶訪問的網(wǎng)頁的MHT文件的地址; 通過將MHT文件的地址嵌入到IE瀏覽器,打開MHT文件對(duì)應(yīng)的網(wǎng)頁; 執(zhí)行截圖命令,對(duì)所述MHT文件對(duì)應(yīng)的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其中,所述將第二圖片與所述圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配進(jìn)一步包括: 分別抽取所述第二圖片與所述圖片規(guī)則庫所包含的多個(gè)第一圖片的特征; 將所述第二圖片的特征與所述圖片規(guī)則庫所包含的多個(gè)第一圖片的特征進(jìn)行匹配,若所述第二圖片的特征與所述圖片規(guī)則庫所包含的任一第一圖片的特征匹配,則確定所述網(wǎng)頁為可疑的釣魚網(wǎng)頁。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述將所述第二圖片的特征與所述圖片規(guī)則庫所包含的多個(gè)第一圖片的特征進(jìn)行匹配進(jìn)一步包括: 查找所述第二圖片的特征與所述圖片規(guī)則庫所包含的多個(gè)第一圖片的特征匹配的鄰近特征點(diǎn),若所述鄰近特征點(diǎn)個(gè)數(shù)大于第一閾值,則確定所述網(wǎng)頁為可疑的釣魚網(wǎng)頁。
6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,其中,所述圖片規(guī)則庫的建立包括: 對(duì)多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將所述第一圖片添加到圖片規(guī)則庫中,其中,第一圖片的尺寸小于或等于所述已知釣魚網(wǎng)頁的截圖的尺寸。
7.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,其中,所述圖片規(guī)則庫的建立包括: 對(duì)初始獲取的多個(gè)已知釣魚網(wǎng)頁進(jìn)行截圖,從每個(gè)已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第一圖片,并將所述第一圖片添加到圖片規(guī)則庫中作為樣本集;對(duì)所述樣本集包含的第一圖片進(jìn)行分類,對(duì)分類后的樣本集進(jìn)行分類學(xué)習(xí)得到各個(gè)類別對(duì)應(yīng)的圖片特征庫; 對(duì)后續(xù)獲取的已知釣魚網(wǎng)頁進(jìn)行截圖,從已知釣魚網(wǎng)頁的截圖中截取具有釣魚網(wǎng)頁特征的至少一個(gè)第三圖片,提取該第三圖片的特征; 將所述第三圖片的特征與所述各個(gè)類別對(duì)應(yīng)的圖片特征庫進(jìn)行匹配,若所述第三圖片的特征與一類別對(duì)應(yīng)的圖片特征庫匹配,則將所述第三圖片作為第一圖片添加到圖片規(guī)則庫中,并將所述第三圖片歸類與所匹配的類別。
8.根據(jù)權(quán)利要求1-7任一項(xiàng)所述的方法,在所述確定網(wǎng)頁為可疑的釣魚網(wǎng)頁之后還包括: 采用基于URL和/或IP和/或網(wǎng)頁內(nèi)容進(jìn)行識(shí)別的方法對(duì)所述網(wǎng)頁進(jìn)行識(shí)別,確定所述網(wǎng)頁是否為釣魚網(wǎng)頁。
9.一種通過圖片匹配來檢測(cè)釣魚網(wǎng)頁的裝置,其包括: 圖片規(guī)則庫,所述圖片規(guī)則庫包含多個(gè)第一圖片,所述第一圖片是在已知釣魚網(wǎng)頁的截圖中所截取的具有釣魚網(wǎng)頁特征的圖片; 獲取模塊,適于對(duì)瀏覽器打開的網(wǎng)頁進(jìn)行截圖,獲取第二圖片; 匹配模塊,適于將第二圖片與所述圖片規(guī)則庫所包含的多個(gè)第一圖片進(jìn)行匹配,若所述圖片規(guī)則庫內(nèi)存在與所述第二圖片匹配的第一圖片,則確定所述網(wǎng)頁為可疑的釣魚網(wǎng)頁。
10.根據(jù)權(quán)利要求9所述的裝置,其中,所述獲取模塊進(jìn)一步包括: 接收單元,適于通過服務(wù)器接收用戶訪問的網(wǎng)頁的統(tǒng)一資源定位符; 調(diào)用單元,適于調(diào)用chrome瀏覽器打開所述統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁; 獲取單元,適于執(zhí)行截圖命令,對(duì)所述統(tǒng)一資源定位符對(duì)應(yīng)的網(wǎng)頁進(jìn)行截圖,獲取第二圖片。
【文檔編號(hào)】H04L29/06GK103986731SQ201410240956
【公開日】2014年8月13日 申請(qǐng)日期:2014年5月30日 優(yōu)先權(quán)日:2014年5月30日
【發(fā)明者】李曉波, 牛成, 尹露, 楊晶, 郭峰 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司