基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的方法、云端服務(wù)器及系統(tǒng)。其中方法包括:獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息;將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與所述云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則;判斷所述云端所匹配的至少一條規(guī)則是否涵蓋所述云端內(nèi)容規(guī)則庫中任一規(guī)則集合所包含的一條或多條規(guī)則,根據(jù)判斷結(jié)果識別所述網(wǎng)頁為可疑釣魚網(wǎng)頁。本發(fā)明將標(biāo)簽內(nèi)容信息中的指定屬性信息與云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,解決了網(wǎng)頁URL為正常URL但該網(wǎng)頁內(nèi)容中嵌有釣魚特征的情況卻無法正確識別網(wǎng)頁的技術(shù)問題,提高了釣魚網(wǎng)頁識別準(zhǔn)確率。
【專利說明】基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體涉及一種基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng) 頁的方法、云端服務(wù)器及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展,基于WEB的應(yīng)用日益普及,人們通過瀏覽器可以查詢銀行賬 戶、網(wǎng)上購物、電子商務(wù)、查詢信息、獲取知識、進(jìn)行娛樂等,WEB為人們提供了方便和快捷的 交互方式。然而,人們在上網(wǎng)沖浪瀏覽網(wǎng)頁的同時(shí),經(jīng)常會遭遇到惡意網(wǎng)站的侵襲,導(dǎo)致計(jì) 算機(jī)被病毒、木馬等感染。
[0003] 惡意網(wǎng)站,例如釣魚網(wǎng)站、或者是欺詐,仿冒網(wǎng)站等,主要是通過仿冒真實(shí)網(wǎng)站的 URL地址或是網(wǎng)頁內(nèi)容,偽裝成銀行及電子商務(wù)等類型的網(wǎng)站,或是利用真實(shí)網(wǎng)站服務(wù)器程 序上的漏洞,在該網(wǎng)站的某些網(wǎng)頁中插入危險(xiǎn)的網(wǎng)頁代碼,以此來騙取用戶銀行或信用卡 賬號、密碼等私人資料。惡意網(wǎng)頁中包含著許多敏感的特征,例如,金融欺詐類的惡意網(wǎng)頁 會在文字、圖片等方面仿冒官網(wǎng),或是在真實(shí)網(wǎng)頁中插入虛假票務(wù)、虛假中獎(jiǎng)、假冒網(wǎng)銀、虛 假購物等信息,這些特征大多以文本串的形式出現(xiàn)在網(wǎng)頁中。
[0004] 現(xiàn)有的為了防范惡意網(wǎng)站的主要手段是當(dāng)用戶訪問某網(wǎng)站時(shí),客戶端將網(wǎng)站的 URL發(fā)送至服務(wù)器端的黑白名單數(shù)據(jù)庫進(jìn)行查詢,然而當(dāng)釣魚作者利用安全正常網(wǎng)頁為載 體,例如政府網(wǎng)站,在該網(wǎng)頁中嵌入釣魚特征,基于網(wǎng)頁的URL檢測釣魚網(wǎng)頁的方法,并不 能識別其內(nèi)嵌的釣魚特征,誤判率較高。
【發(fā)明內(nèi)容】
[0005] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的方法和相應(yīng)的云端服務(wù)器及系統(tǒng)。
[0006] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的方 法,所述云端內(nèi)容規(guī)則庫包含至少一個(gè)規(guī)則集合,每個(gè)規(guī)則集合包含一條或多條規(guī)則;所述 方法包括:
[0007] 獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息;
[0008] 將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與所述云端內(nèi)容規(guī)則庫中的規(guī)則 進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則;
[0009] 判斷所述云端所匹配的至少一條規(guī)則是否涵蓋所述云端內(nèi)容規(guī)則庫中任一規(guī)則 集合所包含的一條或多條規(guī)則,根據(jù)判斷結(jié)果識別所述網(wǎng)頁為可疑釣魚網(wǎng)頁。
[0010] 根據(jù)本發(fā)明的另一方面,提供了一種云端服務(wù)器,包括:
[0011] 云端內(nèi)容規(guī)則庫,包含至少一個(gè)規(guī)則集合,每個(gè)規(guī)則集合包含一條或多條規(guī)則;
[0012] 接收模塊,適于獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信 息;
[0013] 匹配模塊,適于將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與所述云端內(nèi)容規(guī) 則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則;
[0014] 識別模塊,適于判斷所述云端所匹配的至少一條規(guī)則是否涵蓋所述云端內(nèi)容規(guī)則 庫中任一規(guī)則集合所包含的一條或多條規(guī)則,根據(jù)判斷結(jié)果識別所述網(wǎng)頁為可疑釣魚網(wǎng) 頁。
[0015] 根據(jù)本發(fā)明的又一方面,提供了一種基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的系 統(tǒng),包括:上述云端服務(wù)器以及客戶端。
[0016] 根據(jù)本發(fā)明的方案,獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容 信息;將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與所述云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行 匹配,獲得云端所匹配的至少一條規(guī)則;判斷所述云端所匹配的至少一條規(guī)則是否涵蓋所 述云端內(nèi)容規(guī)則庫中任一規(guī)則集合所包含的一條或多條規(guī)則,根據(jù)判斷結(jié)果識別所述網(wǎng)頁 為可疑釣魚網(wǎng)頁。本發(fā)明中,將標(biāo)簽內(nèi)容信息中的指定屬性信息與云端內(nèi)容規(guī)則庫中的規(guī) 則進(jìn)行匹配,解決了網(wǎng)頁URL為正常URL,但該網(wǎng)頁內(nèi)容中嵌有釣魚特征的情況卻無法正確 識別網(wǎng)頁的技術(shù)問題,提高了釣魚網(wǎng)頁識別準(zhǔn)確率。
[0017] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說明】
[0018] 通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0019] 圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的 方法的流程圖;
[0020] 圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁 的方法的流程圖;
[0021] 圖3示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁 的方法的流程圖;
[0022] 圖4示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁 的方法的流程圖;
[0023] 圖5示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁 的方法的流程圖;
[0024] 圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的云端服務(wù)器的結(jié)構(gòu)示意圖;
[0025] 圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的 系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0026] 下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0027] 本申請的發(fā)明人在研究釣魚網(wǎng)頁識別方法的過程中,注意到釣魚作者通過將釣魚 特征嵌入到網(wǎng)頁內(nèi)容信息中的標(biāo)簽,對釣魚特征進(jìn)行了隱藏,使得基于原有的釣魚網(wǎng)頁識 別方法(例如對網(wǎng)頁的URL進(jìn)行識別)無法將標(biāo)簽內(nèi)容信息中的釣魚特征識別出來,基于 此,本申請的發(fā)明人提出了基于標(biāo)簽來識別釣魚網(wǎng)頁的方法。本文中標(biāo)簽指的是html標(biāo) 簽,html標(biāo)簽是html語目(超文本標(biāo)記語目)中最基本的單位,是html最重要的組成部 分。在html語言中,標(biāo)簽通常是成對出現(xiàn)的,比如<b>和</b>,標(biāo)簽對中的第一個(gè)標(biāo)簽是開 始標(biāo)簽,第二個(gè)標(biāo)簽是結(jié)束標(biāo)簽,通過標(biāo)簽內(nèi)的信息來限定html網(wǎng)頁中的相關(guān)信息,這里 標(biāo)簽內(nèi)容信息即標(biāo)簽內(nèi)限定的信息,以標(biāo)題標(biāo)簽為例,〈title〉淘寶頁面〈/title〉,這里標(biāo) 簽內(nèi)容信息即為"淘寶頁面"。
[0028] 本發(fā)明提供了在云端服務(wù)器側(cè)所建立的云端內(nèi)容規(guī)則庫,該云端內(nèi)容規(guī)則庫包含 至少一個(gè)規(guī)則集合,每個(gè)規(guī)則集合包含一條或多條規(guī)則,所述規(guī)則是根據(jù)已知釣魚網(wǎng)頁的 特征建立的,其中一個(gè)規(guī)則集合用于判斷網(wǎng)頁是否為可疑釣魚網(wǎng)頁。本發(fā)明中,云端內(nèi)容規(guī) 則庫中的規(guī)則是基于標(biāo)簽內(nèi)容信息創(chuàng)建。例如,框架標(biāo)簽(iframe標(biāo)簽)一般用來包含別 的頁面,iframe元素會創(chuàng)建包含另外一個(gè)文檔的內(nèi)聯(lián)框架(即行內(nèi)框架)。在iframe標(biāo) 簽中定義了多個(gè)屬性,例如src屬性、height屬性、width屬性等(在此不--列舉),其中 src屬性用于規(guī)定在iframe中顯示文檔的URL,該屬性的屬性值為URL ;height屬性用于規(guī) 定iframe的高度,該屬性的屬值為pixels ;width屬性用于規(guī)定iframe的寬度,該屬性的 屬性值為pixels。釣魚作者可通過iframe標(biāo)簽中的src屬性的屬性值URL來實(shí)現(xiàn)釣魚目 的,例如,將src屬性的屬性值URL修改為黑URL,因此這里將iframe標(biāo)簽的src屬性的屬 性值URL確定為iframe標(biāo)簽內(nèi)容信息的指定屬性信息,判斷該URL是否屬于URL黑名單或 者是否具有指定路徑。
[0029] 圖像標(biāo)簽(img標(biāo)簽)用于向網(wǎng)頁中嵌入一幅圖像,img標(biāo)簽創(chuàng)建的是被引用圖像 的占位空間。在img標(biāo)簽中同樣定義了很多屬性,例如,src屬性、alt屬性、height屬性、 width屬性等(在此不一一列舉),其中src屬性用于規(guī)定顯示圖像的URL,該屬性的屬性 值為URL ;alt屬性用于規(guī)定圖像的替代文本,該屬性的屬性值為text ;height屬性用于設(shè) 置圖像的高度,該屬性的屬值為pixels% ;width屬性用于設(shè)置圖像的寬度,該屬性的屬性 值為pixels%。釣魚作者可通過img標(biāo)簽中的src屬性的屬性值URL來實(shí)現(xiàn)釣魚目的,例 如,將src屬性的屬性值URL修改為黑URL,因此這里將img標(biāo)簽的src屬性的屬性值URL 確定為img標(biāo)簽內(nèi)容信息的指定屬性信息,判斷該URL是否具有指定路徑或是否屬于URL 黑名單。
[0030] 標(biāo)題標(biāo)簽(title標(biāo)簽)用于定義文檔的標(biāo)題,在title標(biāo)簽中定義了 dir屬性、 lang屬性,其中dir屬性用于規(guī)定元素中內(nèi)容的文本方向;lang屬性用于規(guī)定元素中內(nèi)容 的語言代碼,該屬性的屬性值為language_code。這里將lang屬性的屬性值language_code 確定為title標(biāo)簽內(nèi)容信息的指定屬性信息,判斷標(biāo)題內(nèi)容是否具有指定關(guān)鍵字。
[0031] 超鏈接標(biāo)簽或錨標(biāo)簽(a標(biāo)簽)用于從一張頁面鏈接到另一張頁面。在a標(biāo)簽中定 義了多個(gè)屬性,例如href屬性、download屬性、rel屬性等(在此不--列舉)其中,href 屬性規(guī)定了鏈接指向的頁面的URL,其屬性值為URL ;download屬性規(guī)定了被下載的超鏈 接目標(biāo),其屬性值為filename ;rel屬性規(guī)定了當(dāng)前文檔與被連接文檔之間的關(guān)系,其屬性 值為text。釣魚作者可通過a標(biāo)簽中的href屬性的屬性值URL來實(shí)現(xiàn)釣魚目的,例如,將 href屬性的屬性值URL修改為黑URL,因此這里將a標(biāo)簽的href屬性的屬性值URL確定為 a標(biāo)簽內(nèi)容信息的指定屬性信息,判斷該URL是否屬于URL黑名單或者是否具有指定路徑。
[0032] 通過獲取瀏覽器所打開網(wǎng)頁的URL,根據(jù)該URL確定網(wǎng)頁所屬站點(diǎn)是否為新站點(diǎn)。
[0033] 若通過判斷得到iframe標(biāo)簽、img標(biāo)簽或者a標(biāo)簽中的URL屬于URL黑名單,貝丨J 可判斷網(wǎng)頁為可疑釣魚網(wǎng)頁,由此可確定URL屬于黑名單可以作為一條規(guī)則用于判斷網(wǎng)頁 是否為可疑釣魚網(wǎng)頁,云端內(nèi)容規(guī)則庫內(nèi)至少包含這條規(guī)則的規(guī)則集合可用于判斷網(wǎng)頁是 否為可疑釣魚網(wǎng)頁。
[0034] 若通過判斷得到iframe標(biāo)簽、img標(biāo)簽或者a標(biāo)簽中的URL具有指定路徑,且網(wǎng) 頁所屬站點(diǎn)為新站點(diǎn),則可判斷網(wǎng)頁為可疑釣魚網(wǎng)頁,由此可確定URL具有指定路徑和網(wǎng) 頁所屬站點(diǎn)為新站點(diǎn)可以作為兩條規(guī)則用于判斷網(wǎng)頁是否為可疑釣魚網(wǎng)頁,云端內(nèi)容規(guī)則 庫內(nèi)至少包含這兩條規(guī)則的規(guī)則集合可用于判斷網(wǎng)頁是否為可疑釣魚網(wǎng)頁。
[0035] 若通過判斷得到標(biāo)題內(nèi)容具有指定關(guān)鍵字,且網(wǎng)頁所屬站點(diǎn)為新站點(diǎn),則可判斷 網(wǎng)頁為可疑釣魚網(wǎng)頁,由此可確定標(biāo)題內(nèi)容具有指定關(guān)鍵字和網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)可以 作為兩條規(guī)則用于判斷網(wǎng)頁是否為可疑釣魚網(wǎng)頁,云端內(nèi)容規(guī)則庫內(nèi)至少包含這兩條規(guī)則 的規(guī)則集合可用于判斷網(wǎng)頁是否為可疑釣魚網(wǎng)頁。
[0036] 本發(fā)明不僅限于基于上述規(guī)則集合來判斷網(wǎng)頁是否為可疑釣魚網(wǎng)頁,通過標(biāo)簽來 識別網(wǎng)頁是否為釣魚網(wǎng)頁的方法均涵蓋在本發(fā)明的保護(hù)范圍之內(nèi),在此不再贅述。下面通 過幾個(gè)具體實(shí)施例介紹釣魚網(wǎng)頁的識別方法:
[0037] 圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的 方法的流程圖。如圖1所示,該方法包括以下步驟:
[0038] 步驟S100,獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息。
[0039] 具體地,用戶通過客戶端的瀏覽器打開網(wǎng)頁,客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取網(wǎng) 頁的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息,在客戶端完成抽取后將抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息上 報(bào)給云端服務(wù)器。本發(fā)明中,客戶端可以為計(jì)算機(jī)、移動終端、平板設(shè)備等,本發(fā)明對此不做 限制。
[0040] 步驟S110,將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與云端內(nèi)容規(guī)則庫中的 規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則。
[0041] 每一個(gè)html標(biāo)簽都擁有各自的屬性,用來表示該標(biāo)簽的性質(zhì)和特性,通常在開始 標(biāo)簽中指定標(biāo)簽的屬性,以"屬性名="值""的形式來表示。這里的指定屬性信息是指標(biāo)簽 中特定屬性的值,該指定屬性信息用于與云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配。
[0042] 步驟S120,判斷云端所匹配的至少一條規(guī)則是否涵蓋云端內(nèi)容規(guī)則庫中任一規(guī)則 集合所包含的一條或多條規(guī)則,根據(jù)判斷結(jié)果識別網(wǎng)頁為可疑釣魚網(wǎng)頁。
[0043] 任一規(guī)則集合包含一條或多條規(guī)則。云端服務(wù)器可以根據(jù)云端內(nèi)容規(guī)則庫中任一 規(guī)則集合來判斷網(wǎng)頁是否為可疑釣魚網(wǎng)頁。在根據(jù)指定屬性信息獲得云端所匹配的至少一 條規(guī)則后,判斷云端所匹配的至少一條規(guī)則是否涵蓋云端內(nèi)容規(guī)則中的任一規(guī)則集合,若 是,則判斷網(wǎng)頁為可疑釣魚網(wǎng)頁。
[0044] 根據(jù)本發(fā)明上述實(shí)施例提供的方法,該方法的執(zhí)行基于云端服務(wù)器側(cè)所建立的云 端內(nèi)容規(guī)則庫,該云端內(nèi)容規(guī)則庫包含至少一個(gè)規(guī)則集合,每個(gè)規(guī)則集合包含一條或多條 規(guī)則;獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息;將一項(xiàng)或多項(xiàng)標(biāo) 簽內(nèi)容信息中的指定屬性信息與云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至 少一條規(guī)則;判斷云端所匹配的至少一條規(guī)則是否涵蓋云端內(nèi)容規(guī)則庫中任一規(guī)則集合所 包含的一條或多條規(guī)則,根據(jù)判斷結(jié)果識別網(wǎng)頁為可疑釣魚網(wǎng)頁。在本實(shí)施例中,將標(biāo)簽 內(nèi)容信息中的指定屬性信息與云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,解決了網(wǎng)頁URL為正常 URL,但該網(wǎng)頁內(nèi)容中嵌有釣魚特征的情況卻無法正確識別網(wǎng)頁的技術(shù)問題,提高了釣魚網(wǎng) 頁識別準(zhǔn)確率。
[0045] 圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁 的方法的流程圖。如圖2所示,該方法包括以下步驟:
[0046] 步驟S200,獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息。
[0047] -項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息包含以下信息的至少一項(xiàng):標(biāo)題標(biāo)簽、圖像標(biāo)簽、框架標(biāo) 簽、錨標(biāo)簽、超鏈接標(biāo)簽中的內(nèi)容信息。具體地,用戶通過客戶端的瀏覽器打開網(wǎng)頁,客戶端 在瀏覽器加載網(wǎng)頁時(shí)抽取網(wǎng)頁的標(biāo)題標(biāo)簽、圖像標(biāo)簽、框架標(biāo)簽、錨標(biāo)簽、超鏈接標(biāo)簽中的 內(nèi)容信息,在客戶端完成抽取后將抽取的標(biāo)簽內(nèi)容信息上報(bào)給云端服務(wù)器。本發(fā)明中,客戶 端可以為計(jì)算機(jī)、移動終端、平板設(shè)備等,本發(fā)明對此不做限制。
[0048] 步驟S210,將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與云端內(nèi)容規(guī)則庫中的 規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則。
[0049] 每一個(gè)html標(biāo)簽都擁有各自的屬性,用來表示該標(biāo)簽的性質(zhì)和特性,一般標(biāo)簽都 是成對出現(xiàn)的即開始標(biāo)簽和結(jié)束標(biāo)簽,通常在開始標(biāo)簽中指定標(biāo)簽的屬性,以"屬性名= "值""的形式來表示。這里的指定屬性信息是指標(biāo)簽中特定屬性的值,該指定屬性信息用于 與云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配。
[0050] 在步驟S200中抽取了標(biāo)題標(biāo)簽、圖像標(biāo)簽、框架標(biāo)簽、錨標(biāo)簽、超鏈接標(biāo)簽中的 內(nèi)容信息,其中一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息具體為:標(biāo)簽內(nèi)容信息中攜帶 的URL或標(biāo)題內(nèi)容。以錨標(biāo)簽為例,錨標(biāo)簽具有href屬性、charset屬性、download屬性 等,其中,在href屬性值為URL,即規(guī)定鏈接指向的頁面的URL ;charset屬性值為char_ encoding,即規(guī)定被連接文檔的字符集;download屬性值為filename,即規(guī)定被下載的超鏈 接目標(biāo)。在錨標(biāo)簽中,該標(biāo)簽內(nèi)容信息中的指定屬性信息為href屬性值URL。根據(jù)各標(biāo)簽 的屬性確定,標(biāo)題標(biāo)簽內(nèi)容信息中的指定屬性信息為標(biāo)題內(nèi)容,圖像標(biāo)簽、框架標(biāo)簽、錨標(biāo) 簽、超鏈接標(biāo)簽內(nèi)容信息中的指定屬性信息為URL。將指定屬性信息URL或標(biāo)題內(nèi)容與云端 內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則。
[0051] 具體地,判斷一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL是否屬 于黑名單,若是,則確定該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL與第一規(guī)則匹配,獲得云端所匹配的 第一規(guī)則。
[0052] 判斷一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL是否具有指定 路徑,若是,則確定該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL與第二規(guī)則匹配,獲得云端所匹配的第二 規(guī)則。這里的指定路徑指URL中包含敏感關(guān)鍵字,例如taobao、shishicai等。
[0053] 判斷一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息攜帶的標(biāo)題內(nèi)容是否具有 指定關(guān)鍵字,若是,則確定該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的標(biāo)題內(nèi)容與第三規(guī)則匹配,獲得云端所 匹配的第三規(guī)則。
[0054] 判斷網(wǎng)頁所屬站點(diǎn)是否為新站點(diǎn),若是,則獲得云端所匹配的第四規(guī)則。其中,通 過判斷網(wǎng)頁所屬站點(diǎn)在預(yù)設(shè)時(shí)間段內(nèi)的訪問量是否小于預(yù)設(shè)值;若訪問量小于預(yù)設(shè)值,則 確定網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。例如,根據(jù)網(wǎng)頁的URL判斷網(wǎng)頁所屬站點(diǎn)在一個(gè)月內(nèi)的訪問 量是否小于預(yù)設(shè)值5000,若訪問量小于預(yù)設(shè)值5000,則確定網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。
[0055] 舉例說明,將標(biāo)簽內(nèi)容信息的指定屬性信息與云端內(nèi)容規(guī)則庫內(nèi)的規(guī)則匹配,確 定與第三規(guī)則、第四規(guī)則匹配即標(biāo)題標(biāo)簽內(nèi)含有淘寶、該站點(diǎn)為新站點(diǎn),獲得云端所匹配的 規(guī)則。
[0056] 步驟S220,采用基于網(wǎng)頁內(nèi)容進(jìn)行識別的方法對網(wǎng)頁進(jìn)行識別,得到識別結(jié)果。
[0057] 在本實(shí)施例中介紹兩種基于網(wǎng)頁內(nèi)容識別的方法:
[0058] 〈1> :在訪問網(wǎng)頁加載完成后,提取網(wǎng)頁的多個(gè)內(nèi)容片段,其中,內(nèi)容片段可以是網(wǎng) 頁上的文本內(nèi)容按特定的編碼轉(zhuǎn)換后的二進(jìn)制編碼數(shù)據(jù);獲取每個(gè)內(nèi)容片段對應(yīng)的特征 ID,其中內(nèi)容片段與特征ID唯一對應(yīng);將多個(gè)內(nèi)容片段對應(yīng)的特征ID與特征庫中的特征 ID進(jìn)行匹配,其中,特征庫由服務(wù)器生成,是大量的釣魚網(wǎng)頁中的惡意內(nèi)容片段對應(yīng)的特征 ID的集合;若多個(gè)內(nèi)容片段對應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特 征ID,則根據(jù)網(wǎng)頁的信息,計(jì)算網(wǎng)頁的評估分;將網(wǎng)頁的評估分與設(shè)定閾值進(jìn)行比較,得到 比較結(jié)果。通過特征庫和對網(wǎng)頁信息的綜合評分來對網(wǎng)頁進(jìn)行識別,提高了識別效率,而且 通過多層次的識別,降低了誤判率,提高了識別準(zhǔn)確率。
[0059] 〈2>:在瀏覽器的網(wǎng)頁事件加載完成后,提取網(wǎng)頁的多個(gè)內(nèi)容片段,其中,內(nèi)容片段 可以是網(wǎng)頁上的文本內(nèi)容按特定的編碼轉(zhuǎn)換后的二進(jìn)制編碼數(shù)據(jù);獲取每個(gè)內(nèi)容片段對應(yīng) 的特征ID,其中內(nèi)容片段與特征ID唯一對應(yīng);將多個(gè)內(nèi)容片段對應(yīng)的特征ID與特征庫中 的特征ID進(jìn)行匹配,其中,特征庫由服務(wù)器生成,是大量的釣魚網(wǎng)頁中的惡意內(nèi)容片段對 應(yīng)的特征ID的集合;若多個(gè)內(nèi)容片段對應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至 少一個(gè)特征ID,則將該匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID,其中, 模板ID可以是通過特定的快速哈希算法生成的定長的二進(jìn)制數(shù)據(jù),例如,通過MD5算法生 成的64位的二進(jìn)制串,與特征ID類似地,不同特征ID按照相同的順序組合,按照相同的算 法計(jì)算得到的模板ID是唯一的并且是不可逆的;將至少一個(gè)模板ID與釣魚網(wǎng)頁識別庫中 的模板ID進(jìn)行匹配,得到匹配結(jié)果。在該方法中,對網(wǎng)頁的識別結(jié)合了網(wǎng)頁中的多個(gè)網(wǎng)頁 元素的特征ID以及特征ID組合計(jì)算得到的模板ID,對網(wǎng)頁進(jìn)行了多層次的識別,通過上述 多層次的識別,降低了誤判率,提高了識別準(zhǔn)確率。
[0060] 步驟S220是本實(shí)施例的可選步驟。
[0061] 步驟S230,判斷云端所匹配的至少一條規(guī)則是否涵蓋云端內(nèi)容規(guī)則庫中任一規(guī)則 集合所包含的一條或多條規(guī)則,若是,則執(zhí)行步驟S240 ;若否,則方法結(jié)束。
[0062] 其中,云端內(nèi)容規(guī)則庫包含:至少包含第一規(guī)則的第一規(guī)則集合;和/或,至少包 含第二規(guī)則和第四規(guī)則的第二規(guī)則集合;和/或,至少包含第三規(guī)則和第四規(guī)則的第三規(guī) 則集合;其中,第一規(guī)則為URL屬于黑名單;第二規(guī)則為URL具有指定路徑;第三規(guī)則為標(biāo) 題內(nèi)容具有指定關(guān)鍵字;第四規(guī)則為網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。
[0063] 步驟S240,結(jié)合網(wǎng)頁內(nèi)容識別結(jié)果,識別網(wǎng)頁為可疑釣魚網(wǎng)頁。
[0064] 在判斷云端所匹配的至少一條規(guī)則涵蓋云端內(nèi)容規(guī)則庫中任一規(guī)則集合所包含 的一條或多條規(guī)則的情況下,結(jié)合步驟S220中基于網(wǎng)頁內(nèi)容對網(wǎng)頁進(jìn)行識別的結(jié)果,識別 網(wǎng)頁為可疑釣魚網(wǎng)頁。
[0065] 下面分別介紹結(jié)合步驟S220中的兩種識別結(jié)果,識別網(wǎng)頁為可疑釣魚網(wǎng)頁:
[0066] 〈1>:根據(jù)網(wǎng)頁的信息計(jì)算得到網(wǎng)頁的評估分,將網(wǎng)頁的評估分與設(shè)定閾值例如 〇. 7進(jìn)行比較,若網(wǎng)頁的評估分大于0. 7,且云端所匹配的至少一條規(guī)則涵蓋云端內(nèi)容規(guī)則 庫中任一規(guī)則集合所包含的一條或多條規(guī)則,則將網(wǎng)頁識別為可疑釣魚網(wǎng)頁;若網(wǎng)頁的評 估分小于〇. 7,則可將網(wǎng)頁的URL發(fā)送給審核人員,由審核人員進(jìn)行審核,從而更精確的判 斷網(wǎng)頁是否為可疑釣魚網(wǎng)頁。
[0067] 〈2> :在步驟S220中介紹了通過提取網(wǎng)頁的多個(gè)內(nèi)容片段,并將內(nèi)容片段的特征 ID與特征庫中的特征ID進(jìn)行匹配,將匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一 個(gè)模板ID,將至少一個(gè)模板ID與釣魚網(wǎng)頁識別庫中的模板ID進(jìn)行匹配,若至少一個(gè)模板 ID中具有與釣魚網(wǎng)頁識別庫中的模板ID匹配的模板ID,且云端所匹配的至少一條規(guī)則涵 蓋云端內(nèi)容規(guī)則庫中任一規(guī)則集合所包含的一條或多條規(guī)則,則將網(wǎng)頁識別為可疑釣魚網(wǎng) 頁;若至少一個(gè)模板ID中沒有與釣魚網(wǎng)頁識別庫中的模板ID匹配的模板ID,則可將網(wǎng)頁 的URL發(fā)送給審核人員,由審核人員進(jìn)行審核,從而更精確的判斷網(wǎng)頁是否為可疑釣魚網(wǎng) 頁。
[0068] 在沒有獲得網(wǎng)頁內(nèi)容識別結(jié)果,即沒有執(zhí)行上述步驟S220的情況下,本發(fā)明可僅 根據(jù)云端內(nèi)容規(guī)則庫中的規(guī)則集合來判斷網(wǎng)頁是否為可疑釣魚網(wǎng)頁,即在獲得云端所匹配 的至少一條規(guī)則后,直接判斷云端所匹配的至少一條規(guī)則是否涵蓋云端內(nèi)容規(guī)則中的任一 規(guī)則集合所包含的一條或多條規(guī)則,根據(jù)判斷結(jié)果識別網(wǎng)頁為可疑釣魚網(wǎng)頁。
[0069] 步驟S250,生成云查詢?nèi)罩居糜谟涗浘W(wǎng)頁被識別為可疑釣魚網(wǎng)頁。
[0070] 在根據(jù)上述步驟確定網(wǎng)頁為可疑釣魚網(wǎng)頁后,可采用生成云查詢?nèi)罩镜姆绞綄⒆R 別的可疑釣魚網(wǎng)頁記錄在云查詢?nèi)罩局校瑢徍巳藛T可通過該日志了解是否有誤攔截的情 況,對于誤攔截的網(wǎng)頁可以進(jìn)行出庫處理。
[0071] 此外,還可向客戶端發(fā)送用于報(bào)警的提示信息,以使客戶端向用戶展示提示信息, 用戶在看到客戶端展示的提示信息后,可以有選擇性的決定是否繼續(xù)訪問網(wǎng)頁。
[0072] 此外,為了降低云端服務(wù)器的工作量,可以先基于網(wǎng)頁內(nèi)容計(jì)算網(wǎng)頁的評估分,根 據(jù)網(wǎng)頁的評估分與設(shè)定閾值比較結(jié)果來判斷是否執(zhí)行云查詢(即向云端上報(bào)標(biāo)簽內(nèi)容信 息來查詢云端規(guī)則庫),首先在客戶端對網(wǎng)頁進(jìn)行了篩選,對篩選出的大于設(shè)定閾值的網(wǎng)頁 做云查詢,加快了網(wǎng)頁識別的檢測速度,降低了云端服務(wù)器的負(fù)載。
[0073] 為了提升釣魚網(wǎng)頁識別速率,減少對云端資源的占用,在獲取網(wǎng)頁的標(biāo)簽內(nèi)容信 息之前,先將網(wǎng)頁的網(wǎng)址信息發(fā)送給云端服務(wù)器,以供云端服務(wù)器判斷網(wǎng)頁所屬站點(diǎn)是否 為新站點(diǎn),在接收到云端服務(wù)器判斷出網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)的通知信息的情況下,客戶 端抽取網(wǎng)頁的標(biāo)簽內(nèi)容信息,實(shí)現(xiàn)通過云端控制只針對新站進(jìn)行檢測,這樣減少了云端服 務(wù)器對網(wǎng)頁的識別數(shù)量以及客戶端的工作量。
[0074] 根據(jù)本發(fā)明上述實(shí)施例提供的方法,獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng) 或多項(xiàng)標(biāo)簽內(nèi)容信息;將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與云端內(nèi)容規(guī)則庫中 的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則;采用基于網(wǎng)頁內(nèi)容進(jìn)行識別的方法對 網(wǎng)頁進(jìn)行識別,得到識別結(jié)果;判斷云端所匹配的至少一條規(guī)則是否涵蓋云端內(nèi)容規(guī)則庫 中任一規(guī)則集合所包含的一條或多條規(guī)則;在判斷出云端所匹配的至少一條規(guī)則涵蓋云端 內(nèi)容規(guī)則庫中任一規(guī)則集合所包含的一條或多條規(guī)則的情況下,結(jié)合網(wǎng)頁內(nèi)容識別結(jié)果, 識別網(wǎng)頁為可疑釣魚網(wǎng)頁;生成云查詢?nèi)罩居糜谟涗浘W(wǎng)頁被識別為可疑釣魚網(wǎng)頁。在本實(shí) 施例中,將標(biāo)簽內(nèi)容信息中的指定屬性信息與云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,解決了 網(wǎng)頁URL為正常的URL,但該網(wǎng)頁內(nèi)容中嵌有釣魚特征的情況卻無法正確識別網(wǎng)頁的技術(shù) 問題,提高了釣魚網(wǎng)頁識別準(zhǔn)確率;結(jié)合網(wǎng)頁內(nèi)容識別,通過這種多層次的識別降低了誤判 率;根據(jù)生成的云查詢?nèi)罩究梢赃M(jìn)一步檢測是否有誤攔截的情況,對于誤攔截的網(wǎng)頁可以 進(jìn)行出庫處理,進(jìn)一步提高了網(wǎng)頁識別的準(zhǔn)確率;本方法克服了現(xiàn)有的基于機(jī)器學(xué)習(xí)來識 別釣魚網(wǎng)頁的方法不能將全部的釣魚特征檢測出來,而且機(jī)器學(xué)習(xí)無法適應(yīng)釣魚特征的變 化,使得識別方法相對滯后,從而給用戶造成損失的缺陷,利用該方法能夠全面的識別釣魚 網(wǎng)頁,而不會出現(xiàn)用戶受騙之后才能將相應(yīng)的釣魚網(wǎng)頁獲取再根據(jù)該釣魚網(wǎng)頁做相應(yīng)識別 方法的情況。
[0075] 圖3示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁 的方法的流程圖。如圖3所示,該方法包括以下步驟:
[0076] 步驟S300,獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的iframe標(biāo)簽內(nèi)容信息。
[0077] 本實(shí)施例中的有關(guān)iframe標(biāo)簽的內(nèi)容可參見上面的描述,在此不再贅述。
[0078] 步驟S310,將iframe標(biāo)簽內(nèi)容信息中的指定屬性信息與云端內(nèi)容規(guī)則庫中的規(guī) 則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則。
[0079] 根據(jù)上述所介紹的iframe標(biāo)簽,將iframe標(biāo)簽內(nèi)容信息中的指定屬性信息URL 與云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,若指定屬性信息URL屬于黑名單,則確定iframe標(biāo) 簽內(nèi)容信息中的指定屬性信息URL與云端內(nèi)容規(guī)則內(nèi)的第一規(guī)則匹配上,并獲得該第一規(guī) 貝1J。通過檢測iframe標(biāo)簽中嵌入的URL,可以將網(wǎng)頁中其他未知的釣魚特征檢測出來,擴(kuò)大 了釣魚特征的檢測范圍。
[0080] 步驟S320,判斷云端所匹配的至少一條規(guī)則是否涵蓋云端內(nèi)容規(guī)則庫中任一規(guī)則 集合所包含的一條或多條規(guī)則,若是,則執(zhí)行步驟S330 ;若否,則方法結(jié)束。
[0081] 判斷步驟S310中所匹配的第一規(guī)則是否涵蓋云端內(nèi)容規(guī)則庫中的任一規(guī)則集合 所包含的一條或多條規(guī)則,通過判斷得到步驟S310中所匹配的第一規(guī)則涵蓋了云端內(nèi)容 規(guī)則庫內(nèi)的第一規(guī)則集合所包含的一條規(guī)則。
[0082] 步驟S330,生成云查詢?nèi)罩居糜谟涗浘W(wǎng)頁被識別為可疑釣魚網(wǎng)頁。
[0083] 該步驟與圖2所示實(shí)施例中的S250類似,在此不再贅述。
[0084] 本發(fā)明不僅限于根據(jù)iframe標(biāo)簽中的URL是否屬于黑名單來判斷網(wǎng)頁是否為可 疑釣魚網(wǎng)頁,還可根據(jù)img標(biāo)簽、a標(biāo)簽等中的URL是否屬于黑名單來判斷網(wǎng)頁是否為可疑 釣魚網(wǎng)頁,具體方法與根據(jù)iframe標(biāo)簽的判斷方法類似,在此不再贅述。
[0085] 根據(jù)本發(fā)明上述實(shí)施例提供的方法,獲取網(wǎng)頁中的iframe標(biāo)簽內(nèi)容信息,從該 iframe標(biāo)簽內(nèi)容信息中提取指定屬性信息URL,判斷該URL是否屬于黑名單,若是,則能夠 確定網(wǎng)頁為可疑釣魚網(wǎng)頁,而不需要再結(jié)合其他規(guī)則進(jìn)行判斷,該方法既快速又能將隱藏 在iframe標(biāo)簽內(nèi)的釣魚特征檢測出來,擴(kuò)大了釣魚特征的檢測范圍,解決了網(wǎng)頁URL為正 常URL但該網(wǎng)頁內(nèi)容中嵌有釣魚特征的情況卻無法正確識別網(wǎng)頁的技術(shù)問題,提高了釣魚 網(wǎng)頁識別準(zhǔn)確率。
[0086] 圖4示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁 的方法的流程圖。如圖4所示,該方法包括以下步驟:
[0087] 步驟S400,獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的img標(biāo)簽內(nèi)容信息。
[0088] 本實(shí)施例中的有關(guān)img標(biāo)簽的內(nèi)容可參見上面的描述,在此不再贅述。
[0089] 步驟S410,將img標(biāo)簽內(nèi)容信息中的指定屬性信息與云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn) 行匹配,獲得云端所匹配的至少一條規(guī)則。
[0090] 根據(jù)上述所介紹的img標(biāo)簽,將img標(biāo)簽內(nèi)容信息中的指定屬性信息URL與云端 內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,若指定屬性信息URL具有指定路徑,則確定img標(biāo)簽內(nèi)容信 息中的指定屬性信息URL與云端內(nèi)容規(guī)則內(nèi)的第二規(guī)則匹配上,并獲得該第二規(guī)則。例如, img標(biāo)簽內(nèi)容信息中的指定屬性信息URL中包含taobao。
[0091] 步驟S420,判斷網(wǎng)頁所屬站點(diǎn)是否為新站點(diǎn),若是則執(zhí)行步驟S430,若否則方法 結(jié)束。
[0092] 具體地,通過判斷網(wǎng)頁所屬站點(diǎn)在預(yù)設(shè)時(shí)間段內(nèi)的訪問量是否小于預(yù)設(shè)值;若訪 問量小于預(yù)設(shè)值,則確定網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。例如,判斷網(wǎng)頁所屬站點(diǎn)在一個(gè)月內(nèi)的訪 問量是否小于預(yù)設(shè)值5000,若訪問量小于預(yù)設(shè)值5000,則確定網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。
[0093] 步驟S430,獲得云端所匹配的第四規(guī)則。
[0094] 舉例來說,如果img標(biāo)簽內(nèi)容信息中定義了淘寶CDN(內(nèi)容分發(fā)網(wǎng)絡(luò))中的淘寶圖 片,那么img標(biāo)簽內(nèi)容信息中的URL具有淘寶路徑,并且云端服務(wù)器通過對網(wǎng)頁所屬站點(diǎn)進(jìn) 行檢測,判斷該網(wǎng)頁所屬站點(diǎn)為新站點(diǎn),由此獲得云端所匹配的第二規(guī)則和第四規(guī)則。
[0095] 步驟S440,判斷云端所匹配的至少一條規(guī)則是否涵蓋云端內(nèi)容規(guī)則庫中任一規(guī)則 集合所包含的一條或多條規(guī)則,若是,則執(zhí)行步驟S450 ;若否,則方法結(jié)束。
[0096] 判斷步驟S410中所匹配的第二規(guī)則、步驟S430中獲得的第四規(guī)則是否涵蓋云端 內(nèi)容規(guī)則庫中的任一規(guī)則集合所包含的一條或多條規(guī)則,通過判斷得到步驟S410中所匹 配的第二規(guī)則、步驟S430中獲得的第四規(guī)則涵蓋了云端內(nèi)容規(guī)則庫內(nèi)的第二規(guī)則集合所 包含的多條規(guī)則。
[0097] 對于上面的例子,img標(biāo)簽內(nèi)容信息中的URL具有淘寶路徑,但網(wǎng)頁所屬站點(diǎn)是新 站點(diǎn),那么這種情況很有可能屬于淘寶釣魚,因此需要將該網(wǎng)頁列為可疑釣魚網(wǎng)頁。
[0098] 步驟S450,生成云查詢?nèi)罩居糜谟涗浘W(wǎng)頁被識別為可疑釣魚網(wǎng)頁。
[0099] 該步驟與圖2所示實(shí)施例中的步驟S250類似,在此不再贅述。
[0100] 通過統(tǒng)計(jì)img標(biāo)簽所定義的URL的鏈接內(nèi)容,基于鏈接內(nèi)容進(jìn)行學(xué)習(xí),并運(yùn)營成一 個(gè)規(guī)則,將有問題的鏈接內(nèi)容展示給用戶。
[0101] 本發(fā)明還可通過判斷iframe標(biāo)簽或a標(biāo)簽中的URL是否具有指定路徑,并結(jié)合網(wǎng) 頁所屬站點(diǎn)是否為新站點(diǎn)來判斷網(wǎng)頁是否為可疑釣魚網(wǎng)頁,具體方法與根據(jù)img標(biāo)簽中的 URL是否具有指定路徑、網(wǎng)頁所屬站點(diǎn)是否為新站點(diǎn)來判斷網(wǎng)頁是否為可疑釣魚網(wǎng)頁的方 法類似,在此不再贅述。
[0102] 根據(jù)本發(fā)明上述實(shí)施例提供的方法,獲取網(wǎng)頁中的img標(biāo)簽內(nèi)容信息,從該img標(biāo) 簽內(nèi)容信息中提取指定屬性信息URL,判斷該URL是否具有指定路徑,并且判斷網(wǎng)頁所屬站 點(diǎn)是否為新站點(diǎn),若URL具有指定路徑且網(wǎng)頁所屬站點(diǎn)為新站點(diǎn),則能夠確定網(wǎng)頁為可疑 釣魚網(wǎng)頁。針對img標(biāo)簽鏈接至安全圖片,但網(wǎng)頁為新站點(diǎn)的情況提出了具體的識別方法, 該方法進(jìn)一步提高了網(wǎng)頁識別的準(zhǔn)確率。
[0103] 圖5示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁 的方法的流程圖。如圖5所示,該方法包括以下步驟:
[0104] 步驟S500,獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的title標(biāo)簽內(nèi)容信息。
[0105] 本實(shí)施例中的有關(guān)title標(biāo)簽的內(nèi)容可參見上面的描述,在此不再贅述。
[0106] 步驟S510,將title標(biāo)簽內(nèi)容信息中的指定屬性信息與云端內(nèi)容規(guī)則庫中的規(guī)則 進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則。
[0107] 根據(jù)上述所介紹的title標(biāo)簽,將title標(biāo)簽內(nèi)容信息中的指定屬性信息標(biāo)題內(nèi) 容與云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,若標(biāo)題內(nèi)容具有指定關(guān)鍵字,則確定title標(biāo)簽 內(nèi)容信息中的標(biāo)題內(nèi)容與云端內(nèi)容規(guī)則內(nèi)的第三規(guī)則匹配上,并獲得該第三規(guī)則。例如, title標(biāo)簽內(nèi)容信息中的標(biāo)題內(nèi)容中包含指定關(guān)鍵字"淘寶"。
[0108] 步驟S520,判斷網(wǎng)頁所屬站點(diǎn)是否為新站點(diǎn),若是則執(zhí)行步驟S530,若否則方法 結(jié)束。
[0109] 具體地,通過判斷網(wǎng)頁所屬站點(diǎn)在預(yù)設(shè)時(shí)間段內(nèi)的訪問量是否小于預(yù)設(shè)值;若訪 問量小于預(yù)設(shè)值,則確定網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。例如,判斷網(wǎng)頁所屬站點(diǎn)在一個(gè)月內(nèi)的訪 問量是否小于預(yù)設(shè)值5000,若訪問量小于預(yù)設(shè)值5000,則確定網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。
[0110] 步驟S530,獲得云端所匹配的第四規(guī)則。
[0111] 步驟S540,判斷云端所匹配的至少一條規(guī)則是否涵蓋云端內(nèi)容規(guī)則庫中任一規(guī)則 集合所包含的一條或多條規(guī)則,若是,則執(zhí)行步驟S550 ;若否,則方法結(jié)束。
[0112] 判斷步驟S510中所匹配的第三規(guī)則、步驟S530中獲得的第四規(guī)則是否涵蓋云端 內(nèi)容規(guī)則庫中的任一規(guī)則集合所包含的一條或多條規(guī)則,通過判斷得到步驟S510中所匹 配的第三規(guī)則、步驟S530中獲得的第四規(guī)則涵蓋了云端內(nèi)容規(guī)則庫內(nèi)的第二規(guī)則集合所 包含的多條規(guī)則。對于這種標(biāo)題內(nèi)容中包含指定關(guān)鍵字"淘寶",但網(wǎng)頁所屬站點(diǎn)是新站點(diǎn) 的情況,很有可能屬于淘寶釣魚,因此需要將該網(wǎng)頁列為可疑釣魚網(wǎng)頁。
[0113] 步驟S550,生成云查詢?nèi)罩居糜谟涗浘W(wǎng)頁被識別為可疑釣魚網(wǎng)頁。
[0114] 該步驟與圖2所示實(shí)施例中的步驟S250類似,在此不再贅述。
[0115] 根據(jù)本發(fā)明上述實(shí)施例提供的方法,獲取網(wǎng)頁中的title標(biāo)簽內(nèi)容信息,從該 title標(biāo)簽內(nèi)容信息中提取指定屬性信息標(biāo)題內(nèi)容,判斷該標(biāo)題內(nèi)容是否具有指定關(guān)鍵字, 并且判斷網(wǎng)頁所屬站點(diǎn)是否為新站點(diǎn),若標(biāo)題內(nèi)容具有指定關(guān)鍵字且網(wǎng)頁所屬站點(diǎn)為新站 點(diǎn),則能夠確定網(wǎng)頁為可疑釣魚網(wǎng)頁。針對title標(biāo)簽包含指定關(guān)鍵字例如淘寶,但網(wǎng)頁為 新站點(diǎn)的情況提出了具體的識別方法,該方法進(jìn)一步提高了網(wǎng)頁識別的準(zhǔn)確率。
[0116] 圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的云端服務(wù)器的結(jié)構(gòu)示意圖。如圖6所示,該 云端服務(wù)器包括:云端內(nèi)容規(guī)則庫610、接收模塊620、匹配模塊630、識別模塊640。
[0117] 云端內(nèi)容規(guī)則庫610,包含至少一個(gè)規(guī)則集合,每個(gè)規(guī)則集合包含一條或多條規(guī) 則。
[0118] 其中,云端內(nèi)容規(guī)則庫包含:至少包含第一規(guī)則的第一規(guī)則集合;和/或,至少包 含第二規(guī)則和第四規(guī)則的第二規(guī)則集合;和/或,至少包含第三規(guī)則和第四規(guī)則的第三規(guī) 則集合;其中,第一規(guī)則為URL屬于黑名單;第二規(guī)則為URL具有指定路徑;第三規(guī)則為標(biāo) 題內(nèi)容具有指定關(guān)鍵字;第四規(guī)則為網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。
[0119] 接收模塊620,適于獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容 信息。
[0120] 一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息包含以下信息的至少一項(xiàng):標(biāo)題標(biāo)簽、圖像標(biāo)簽、框架標(biāo) 簽、錨標(biāo)簽、超鏈接標(biāo)簽中的內(nèi)容信息。具體地,用戶通過客戶端的瀏覽器打開網(wǎng)頁,客戶端 在瀏覽器加載網(wǎng)頁時(shí)抽取網(wǎng)頁的標(biāo)題標(biāo)簽、圖像標(biāo)簽、框架標(biāo)簽、錨標(biāo)簽、超鏈接標(biāo)簽中的 內(nèi)容信息,在客戶端完成抽取后將抽取的標(biāo)簽內(nèi)容信息上報(bào)給云端服務(wù)器。本發(fā)明中,客戶 端可以為計(jì)算機(jī)、移動終端、平板設(shè)備等,本發(fā)明對此不做限制。
[0121] 匹配模塊630,適于將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與云端內(nèi)容規(guī) 則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則。
[0122] 每一個(gè)html標(biāo)簽都擁有各自的屬性,用來表示該標(biāo)簽的性質(zhì)和特性,一般標(biāo)簽都 是成對出現(xiàn)的即開始標(biāo)簽和結(jié)束標(biāo)簽,通常在開始標(biāo)簽中指定標(biāo)簽的屬性,以"屬性名= "值""的形式來表示。這里的指定屬性信息是指標(biāo)簽中特定屬性的值,該指定屬性信息用于 與云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配。
[0123] 接收模塊620獲取了標(biāo)題標(biāo)簽、圖像標(biāo)簽、框架標(biāo)簽、錨標(biāo)簽、超鏈接標(biāo)簽中的內(nèi) 容信息,其中一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息具體為:標(biāo)簽內(nèi)容信息中攜帶 的URL或標(biāo)題內(nèi)容。以錨標(biāo)簽為例,錨標(biāo)簽具有href屬性、charset屬性、download屬性 等,其中,在href屬性值為URL,即規(guī)定鏈接指向的頁面的URL ;charset屬性值為char_ encoding,即規(guī)定被連接文檔的字符集;download屬性值為filename,即規(guī)定被下載的超鏈 接目標(biāo)。在錨標(biāo)簽中,該標(biāo)簽內(nèi)容信息中的指定屬性信息為href屬性值URL。根據(jù)各標(biāo)簽 的屬性確定,標(biāo)題標(biāo)簽內(nèi)容信息中的指定屬性信息為標(biāo)題內(nèi)容,圖像標(biāo)簽、框架標(biāo)簽、錨標(biāo) 簽、超鏈接標(biāo)簽內(nèi)容信息中的指定屬性信息為URL。將指定屬性信息URL或標(biāo)題內(nèi)容與云端 內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則。
[0124] 匹配模塊630進(jìn)一步適于:判斷一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息 攜帶的URL是否屬于黑名單,若是,則確定該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL與第一規(guī)則匹配, 獲得云端所匹配的第一規(guī)則。
[0125] 匹配模塊630進(jìn)一步適于:判斷一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息 攜帶的URL是否具有指定路徑,若是,則確定該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL與第二規(guī)則匹 配,獲得云端所匹配的第二規(guī)則。
[0126] 匹配模塊630進(jìn)一步適于:判斷一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息 攜帶的標(biāo)題內(nèi)容是否具有指定關(guān)鍵字,若是,則確定該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的標(biāo)題內(nèi)容與 第三規(guī)則匹配,獲得云端所匹配的第三規(guī)則。
[0127] 匹配模塊630進(jìn)一步適于:判斷網(wǎng)頁所屬站點(diǎn)是否為新站點(diǎn),若是,則獲得云端所 匹配的第四規(guī)則。
[0128] 匹配模塊630進(jìn)一步適于:判斷網(wǎng)頁所屬站點(diǎn)在預(yù)設(shè)時(shí)間段內(nèi)的訪問量是否小于 預(yù)設(shè)值;若訪問量小于預(yù)設(shè)值,則確定網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。
[0129] 識別模塊640,適于判斷云端所匹配的至少一條規(guī)則是否涵蓋云端內(nèi)容規(guī)則庫中 任一規(guī)則集合所包含的一條或多條規(guī)則,根據(jù)判斷結(jié)果識別網(wǎng)頁為可疑釣魚網(wǎng)頁。
[0130] 云端服務(wù)器還包括:內(nèi)容識別結(jié)果獲取模塊650,適于采用基于網(wǎng)頁內(nèi)容進(jìn)行識 別的方法對網(wǎng)頁進(jìn)行識別,得到識別結(jié)果。
[0131] 在本實(shí)施例中介紹兩種基于網(wǎng)頁內(nèi)容識別的方法:
[0132] 〈1> :在訪問網(wǎng)頁加載完成后,提取網(wǎng)頁的多個(gè)內(nèi)容片段,其中,內(nèi)容片段可以是網(wǎng) 頁上的文本內(nèi)容按特定的編碼轉(zhuǎn)換后的二進(jìn)制編碼數(shù)據(jù);獲取每個(gè)內(nèi)容片段對應(yīng)的特征 ID,其中內(nèi)容片段與特征ID唯一對應(yīng);將多個(gè)內(nèi)容片段對應(yīng)的特征ID與特征庫中的特征 ID進(jìn)行匹配,其中,特征庫由服務(wù)器生成,是大量的釣魚網(wǎng)頁中的惡意內(nèi)容片段對應(yīng)的特征 ID的集合;若多個(gè)內(nèi)容片段對應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至少一個(gè)特 征ID,則根據(jù)網(wǎng)頁的信息,計(jì)算網(wǎng)頁的評估分;將網(wǎng)頁的評估分與設(shè)定閾值進(jìn)行比較,得到 比較結(jié)果。通過特征庫和對網(wǎng)頁信息的綜合評分來對網(wǎng)頁進(jìn)行識別,提高了識別效率,而且 通過多層次的識別,降低了誤判率,提高了識別準(zhǔn)確率。
[0133] 〈2>:在瀏覽器的網(wǎng)頁事件加載完成后,提取網(wǎng)頁的多個(gè)內(nèi)容片段,其中,內(nèi)容片段 可以是網(wǎng)頁上的文本內(nèi)容按特定的編碼轉(zhuǎn)換后的二進(jìn)制編碼數(shù)據(jù);獲取每個(gè)內(nèi)容片段對應(yīng) 的特征ID,其中內(nèi)容片段與特征ID唯一對應(yīng);將多個(gè)內(nèi)容片段對應(yīng)的特征ID與特征庫中 的特征ID進(jìn)行匹配,其中,特征庫由服務(wù)器生成,是大量的釣魚網(wǎng)頁中的惡意內(nèi)容片段對 應(yīng)的特征ID的集合;若多個(gè)內(nèi)容片段對應(yīng)的特征ID中具有與特征庫中的特征ID匹配的至 少一個(gè)特征ID,則將該匹配的至少一個(gè)特征ID進(jìn)行組合計(jì)算得到至少一個(gè)模板ID,其中, 模板ID可以是通過特定的快速哈希算法生成的定長的二進(jìn)制數(shù)據(jù),例如,通過MD5算法生 成的64位的二進(jìn)制串,與特征ID類似地,不同特征ID按照相同的順序組合,按照相同的算 法計(jì)算得到的模板ID是唯一的并且是不可逆的;將至少一個(gè)模板ID與釣魚網(wǎng)頁識別庫中 的模板ID進(jìn)行匹配,得到匹配結(jié)果。在該方法中,對網(wǎng)頁的識別結(jié)合了網(wǎng)頁中的多個(gè)網(wǎng)頁 元素的特征ID以及特征ID組合計(jì)算得到的模板ID,對網(wǎng)頁進(jìn)行了多層次的識別,通過上述 多層次的識別,降低了誤判率,提高了識別準(zhǔn)確率。
[0134] 識別模塊640進(jìn)一步適于:在判斷出云端所匹配的至少一條規(guī)則涵蓋云端內(nèi)容規(guī) 則庫中任一規(guī)則集合所包含的一條或多條規(guī)則的情況下,結(jié)合識別結(jié)果,識別網(wǎng)頁為可疑 釣魚網(wǎng)頁。
[0135] 云端服務(wù)器還包括:日志生成模塊660,適于生成云查詢?nèi)罩居糜谟涗浘W(wǎng)頁被識 別為可疑釣魚網(wǎng)頁。
[0136] 和/或,發(fā)送模塊670,適于向客戶端發(fā)送用于報(bào)警的提示信息,以使客戶端向用 戶展示提示信息。
[0137] 圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的 系統(tǒng)的結(jié)構(gòu)示意圖,如圖7所示,該系統(tǒng)包括客戶端700和云端服務(wù)器600,其中有關(guān)云端服 務(wù)器600的具體結(jié)構(gòu)和功能可參見云端服務(wù)器實(shí)施例的描述,在此不再贅述。
[0138] 根據(jù)本發(fā)明上述實(shí)施例提供的基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的系統(tǒng),獲 取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息;將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信 息中的指定屬性信息與云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī) 貝1J ;采用基于網(wǎng)頁內(nèi)容進(jìn)行識別的方法對網(wǎng)頁進(jìn)行識別,得到識別結(jié)果;判斷云端所匹配 的至少一條規(guī)則是否涵蓋云端內(nèi)容規(guī)則庫中任一規(guī)則集合所包含的一條或多條規(guī)則;在判 斷出云端所匹配的至少一條規(guī)則涵蓋云端內(nèi)容規(guī)則庫中任一規(guī)則集合所包含的一條或多 條規(guī)則的情況下,結(jié)合網(wǎng)頁內(nèi)容識別結(jié)果,識別網(wǎng)頁為可疑釣魚網(wǎng)頁;生成云查詢?nèi)罩居糜?記錄網(wǎng)頁被識別為可疑釣魚網(wǎng)頁。在本實(shí)施例中,將標(biāo)簽內(nèi)容信息中的指定屬性信息與云 端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,解決了網(wǎng)頁URL為正常的URL,但該網(wǎng)頁內(nèi)容中嵌有釣魚 特征的情況卻無法正確識別網(wǎng)頁的技術(shù)問題,提高了釣魚網(wǎng)頁識別準(zhǔn)確率;結(jié)合網(wǎng)頁內(nèi)容 識別,通過這種多層次的識別降低了誤判率;根據(jù)生成的云查詢?nèi)罩究梢赃M(jìn)一步檢測是否 有誤攔截的情況,對于誤攔截的網(wǎng)頁可以進(jìn)行出庫處理,進(jìn)一步提高了網(wǎng)頁識別的準(zhǔn)確率, 克服了現(xiàn)有的基于機(jī)器學(xué)習(xí)來識別釣魚網(wǎng)頁的方法不能將全部的釣魚特征檢測出來,而且 機(jī)器學(xué)習(xí)無法適應(yīng)釣魚特征的變化,使得識別方法相對滯后,從而給用戶造成損失的缺陷, 利用該方法能夠全面的識別釣魚網(wǎng)頁,而不會出現(xiàn)用戶受騙之后才能將相應(yīng)的釣魚網(wǎng)頁獲 取再根據(jù)該釣魚網(wǎng)頁做相應(yīng)識別方法的情況。
[0139] 在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。 各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求 的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種 編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā) 明的最佳實(shí)施方式。
[0140] 在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施 例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu) 和技術(shù),以便不模糊對本說明書的理解。
[0141] 類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在 上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施 例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保 護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面 的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此, 遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身 都作為本發(fā)明的單獨(dú)實(shí)施例。
[0142] 本領(lǐng)域那些技術(shù)人員可以理解,可以對實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地 改變并且把它們設(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單 元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或 子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任 何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開 的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴 隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代 特征來代替。
[0143] 此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例 中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的 范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任 意之一都可以以任意的組合方式來使用。
[0144] 本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行 的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用 微處理器或者數(shù)字信號處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的基于云端內(nèi)容規(guī)則庫識 別可疑釣魚網(wǎng)頁的設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為 用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和 計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有 一個(gè)或者多個(gè)信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上 提供,或者以任何其他形式提供。
[0145] 應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng) 域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中, 不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞"包含"不排除存在 未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞"一"或"一個(gè)"不排除存在多個(gè)這 樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來 實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件 項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為 名稱。
[0146] 本發(fā)明公開了 :A1、一種基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的方法,所述云端 內(nèi)容規(guī)則庫包含至少一個(gè)規(guī)則集合,每個(gè)規(guī)則集合包含一條或多條規(guī)則;所述方法包括 :
[0147] 獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息;
[0148] 將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與所述云端內(nèi)容規(guī)則庫中的規(guī)則 進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則;
[0149] 判斷所述云端所匹配的至少一條規(guī)則是否涵蓋所述云端內(nèi)容規(guī)則庫中任一規(guī)則 集合所包含的一條或多條規(guī)則,根據(jù)判斷結(jié)果識別所述網(wǎng)頁為可疑釣魚網(wǎng)頁。
[0150] A2、根據(jù)A1所述的方法,所述一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息包含以下信息的至少一 項(xiàng):標(biāo)題標(biāo)簽、圖像標(biāo)簽、框架標(biāo)簽、錨標(biāo)簽、超鏈接標(biāo)簽中的內(nèi)容信息;
[0151] 所述指定屬性信息具體為:所述標(biāo)簽內(nèi)容信息中攜帶的URL或標(biāo)題內(nèi)容。
[0152] A3、根據(jù)A1或A2所述的方法,所述云端內(nèi)容規(guī)則庫包含:
[0153] 至少包含第一規(guī)則的第一規(guī)則集合;
[0154] 和/或,至少包含第二規(guī)則和第四規(guī)則的第二規(guī)則集合;
[0155] 和/或,至少包含第三規(guī)則和第四規(guī)則的第三規(guī)則集合;
[0156] 其中,所述第一規(guī)則為URL屬于黑名單;所述第二規(guī)則為URL具有指定路徑;所述 第三規(guī)則為標(biāo)題內(nèi)容具有指定關(guān)鍵字;所述第四規(guī)則為網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。
[0157] A4、根據(jù)A3所述的方法,所述將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與所 述云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則進(jìn)一步包括:
[0158] 判斷所述一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL是否屬于 所述黑名單,若是,則確定該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL與所述第一規(guī)則匹配,獲得云端所 匹配的第一規(guī)則。
[0159] A5、根據(jù)A3所述的方法,所述將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與所 述云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則進(jìn)一步包括:
[0160] 判斷所述一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL是否具有 所述指定路徑,若是,則確定該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL與所述第二規(guī)則匹配,獲得云端 所匹配的第二規(guī)則。
[0161] A6、根據(jù)A3所述的方法,所述將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與所 述云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則進(jìn)一步包括:
[0162] 判斷所述一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息攜帶的標(biāo)題內(nèi)容是否 具有指定關(guān)鍵字,若是,則確定該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的標(biāo)題內(nèi)容與所述第三規(guī)則匹配,獲 得云端所匹配的第三規(guī)則。
[0163] A7、根據(jù)A3所述的方法,所述方法進(jìn)一步包括:判斷所述網(wǎng)頁所屬站點(diǎn)是否為新 站點(diǎn),若是,則獲得云端所匹配的第四規(guī)則。
[0164] A8、根據(jù)A7所述的方法,所述判斷網(wǎng)頁所屬站點(diǎn)是否為新站點(diǎn)具體為:判斷所述 網(wǎng)頁所屬站點(diǎn)在預(yù)設(shè)時(shí)間段內(nèi)的訪問量是否小于預(yù)設(shè)值;若所述訪問量小于預(yù)設(shè)值,則確 定所述網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。
[0165] A9、根據(jù)A1所述的方法,所述方法進(jìn)一步包括:采用基于網(wǎng)頁內(nèi)容進(jìn)行識別的方 法對所述網(wǎng)頁進(jìn)行識別,得到識別結(jié)果;
[0166] 所述根據(jù)判斷結(jié)果識別網(wǎng)頁為可疑釣魚網(wǎng)頁進(jìn)一步包括:
[0167] 在判斷出所述云端所匹配的至少一條規(guī)則涵蓋所述云端內(nèi)容規(guī)則庫中任一規(guī)則 集合所包含的一條或多條規(guī)則的情況下,結(jié)合所述識別結(jié)果,識別所述網(wǎng)頁為可疑釣魚網(wǎng) 頁。
[0168] A10、根據(jù)A1所述的方法,在所述識別網(wǎng)頁為可疑釣魚網(wǎng)頁之后進(jìn)一步包括:生成 云查詢?nèi)罩居糜谟涗浰鼍W(wǎng)頁被識別為可疑釣魚網(wǎng)頁;和/或,向客戶端發(fā)送用于報(bào)警的 提示信息,以使所述客戶端向用戶展示所述提示信息。
[0169] 本發(fā)明還公開了:B11、一種云端服務(wù)器,包括:
[0170] 云端內(nèi)容規(guī)則庫,包含至少一個(gè)規(guī)則集合,每個(gè)規(guī)則集合包含一條或多條規(guī)則;
[0171] 接收模塊,適于獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信 息;
[0172] 匹配模塊,適于將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與所述云端內(nèi)容規(guī) 則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則;
[0173] 識別模塊,適于判斷所述云端所匹配的至少一條規(guī)則是否涵蓋所述云端內(nèi)容規(guī)則 庫中任一規(guī)則集合所包含的一條或多條規(guī)則,根據(jù)判斷結(jié)果識別所述網(wǎng)頁為可疑釣魚網(wǎng) 頁。
[0174] B12、根據(jù)B11所述的云端服務(wù)器,所述一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息包含以下信息的 至少一項(xiàng):標(biāo)題標(biāo)簽、圖像標(biāo)簽、框架標(biāo)簽、錨標(biāo)簽、超鏈接標(biāo)簽中的內(nèi)容信息;
[0175] 所述指定屬性信息具體為:所述標(biāo)簽內(nèi)容信息中攜帶的URL或標(biāo)題內(nèi)容。
[0176] B13、根據(jù)B11或B12所述的云端服務(wù)器,所述云端內(nèi)容規(guī)則庫包含:
[0177] 至少包含第一規(guī)則的第一規(guī)則集合;
[0178] 和/或,至少包含第二規(guī)則和第四規(guī)則的第二規(guī)則集合;
[0179] 和/或,至少包含第三規(guī)則和第四規(guī)則的第三規(guī)則集合;
[0180] 其中,所述第一規(guī)則為URL屬于黑名單;所述第二規(guī)則為URL具有指定路徑;所述 第三規(guī)則為標(biāo)題內(nèi)容具有指定關(guān)鍵字;所述第四規(guī)則為網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。
[0181] B14、根據(jù)B13所述的云端服務(wù)器,所述匹配模塊進(jìn)一步適于:判斷所述一項(xiàng)或多 項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL是否屬于所述黑名單,若是,則確定該 項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL與所述第一規(guī)則匹配,獲得云端所匹配的第一規(guī)則。
[0182] B15、根據(jù)B13所述的云端服務(wù)器,所述匹配模塊進(jìn)一步適于:判斷所述一項(xiàng)或多 項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL是否具有所述指定路徑,若是,則確定 該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL與所述第二規(guī)則匹配,獲得云端所匹配的第二規(guī)則。
[0183] B16、根據(jù)B13所述的云端服務(wù)器,所述匹配模塊進(jìn)一步適于:判斷所述一項(xiàng)或多 項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息攜帶的標(biāo)題內(nèi)容是否具有指定關(guān)鍵字,若是,則確 定該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的標(biāo)題內(nèi)容與所述第三規(guī)則匹配,獲得云端所匹配的第三規(guī)則。
[0184] B17、根據(jù)B13所述的云端服務(wù)器,所述匹配模塊進(jìn)一步適于:判斷所述網(wǎng)頁所屬 站點(diǎn)是否為新站點(diǎn),若是,則獲得云端所匹配的第四規(guī)則。
[0185] B18、根據(jù)B17所述的云端服務(wù)器,所述匹配模塊進(jìn)一步適于:判斷所述網(wǎng)頁所屬 站點(diǎn)在預(yù)設(shè)時(shí)間段內(nèi)的訪問量是否小于預(yù)設(shè)值;若所述訪問量小于預(yù)設(shè)值,則確定所述網(wǎng) 頁所屬站點(diǎn)為新站點(diǎn)。
[0186] B19、根據(jù)B11所述的云端服務(wù)器,還包括:內(nèi)容識別結(jié)果獲取模塊,適于采用基于 網(wǎng)頁內(nèi)容進(jìn)行識別的方法對所述網(wǎng)頁進(jìn)行識別,得到識別結(jié)果;
[0187] 所述識別模塊進(jìn)一步適于:在判斷出所述云端所匹配的至少一條規(guī)則涵蓋所述云 端內(nèi)容規(guī)則庫中任一規(guī)則集合所包含的一條或多條規(guī)則的情況下,結(jié)合所述識別結(jié)果,識 別所述網(wǎng)頁為可疑釣魚網(wǎng)頁。
[0188] B20、根據(jù)B11所述的云端服務(wù)器,還包括:
[0189] 日志生成模塊,適于生成云查詢?nèi)罩居糜谟涗浰鼍W(wǎng)頁被識別為可疑釣魚網(wǎng)頁;
[0190] 和/或,發(fā)送模塊,適于向客戶端發(fā)送用于報(bào)警的提示信息,以使所述客戶端向用 戶展示所述提示信息。
[0191] 本發(fā)明還公開了:C21、一種基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的系統(tǒng),包括: B11-B20任一項(xiàng)所述的云端服務(wù)器以及客戶端。
【權(quán)利要求】
1. 一種基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的方法,所述云端內(nèi)容規(guī)則庫包含至少 一個(gè)規(guī)則集合,每個(gè)規(guī)則集合包含一條或多條規(guī)則;所述方法包括: 獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息; 將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與所述云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行 匹配,獲得云端所匹配的至少一條規(guī)則; 判斷所述云端所匹配的至少一條規(guī)則是否涵蓋所述云端內(nèi)容規(guī)則庫中任一規(guī)則集合 所包含的一條或多條規(guī)則,根據(jù)判斷結(jié)果識別所述網(wǎng)頁為可疑釣魚網(wǎng)頁。
2. 根據(jù)權(quán)利要求1所述的方法,所述一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息包含以下信息的至少一 項(xiàng):標(biāo)題標(biāo)簽、圖像標(biāo)簽、框架標(biāo)簽、錨標(biāo)簽、超鏈接標(biāo)簽中的內(nèi)容信息; 所述指定屬性信息具體為:所述標(biāo)簽內(nèi)容信息中攜帶的URL或標(biāo)題內(nèi)容。
3. 根據(jù)權(quán)利要求1或2所述的方法,所述云端內(nèi)容規(guī)則庫包含: 至少包含第一規(guī)則的第一規(guī)則集合; 和/或,至少包含第二規(guī)則和第四規(guī)則的第二規(guī)則集合; 和/或,至少包含第三規(guī)則和第四規(guī)則的第三規(guī)則集合; 其中,所述第一規(guī)則為URL屬于黑名單;所述第二規(guī)則為URL具有指定路徑;所述第三 規(guī)則為標(biāo)題內(nèi)容具有指定關(guān)鍵字;所述第四規(guī)則為網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。
4. 根據(jù)權(quán)利要求3所述的方法,所述將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與 所述云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則進(jìn)一步包括: 判斷所述一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL是否屬于所述 黑名單,若是,則確定該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL與所述第一規(guī)則匹配,獲得云端所匹配 的第一規(guī)則。
5. 根據(jù)權(quán)利要求3所述的方法,所述將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與 所述云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則進(jìn)一步包括: 判斷所述一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL是否具有所述 指定路徑,若是,則確定該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的URL與所述第二規(guī)則匹配,獲得云端所匹 配的第二規(guī)則。
6. 根據(jù)權(quán)利要求3所述的方法,所述將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與 所述云端內(nèi)容規(guī)則庫中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則進(jìn)一步包括: 判斷所述一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中任一項(xiàng)標(biāo)簽內(nèi)容信息攜帶的標(biāo)題內(nèi)容是否具有 指定關(guān)鍵字,若是,則確定該項(xiàng)標(biāo)簽內(nèi)容信息攜帶的標(biāo)題內(nèi)容與所述第三規(guī)則匹配,獲得云 端所匹配的第三規(guī)則。
7. 根據(jù)權(quán)利要求3所述的方法,所述方法進(jìn)一步包括:判斷所述網(wǎng)頁所屬站點(diǎn)是否為 新站點(diǎn),若是,則獲得云端所匹配的第四規(guī)則。
8. 根據(jù)權(quán)利要求7所述的方法,所述判斷網(wǎng)頁所屬站點(diǎn)是否為新站點(diǎn)具體為:判斷所 述網(wǎng)頁所屬站點(diǎn)在預(yù)設(shè)時(shí)間段內(nèi)的訪問量是否小于預(yù)設(shè)值;若所述訪問量小于預(yù)設(shè)值,則 確定所述網(wǎng)頁所屬站點(diǎn)為新站點(diǎn)。
9. 一種云端服務(wù)器,包括: 云端內(nèi)容規(guī)則庫,包含至少一個(gè)規(guī)則集合,每個(gè)規(guī)則集合包含一條或多條規(guī)則; 接收模塊,適于獲取客戶端在瀏覽器加載網(wǎng)頁時(shí)抽取的一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息; 匹配模塊,適于將一項(xiàng)或多項(xiàng)標(biāo)簽內(nèi)容信息中的指定屬性信息與所述云端內(nèi)容規(guī)則庫 中的規(guī)則進(jìn)行匹配,獲得云端所匹配的至少一條規(guī)則; 識別模塊,適于判斷所述云端所匹配的至少一條規(guī)則是否涵蓋所述云端內(nèi)容規(guī)則庫中 任一規(guī)則集合所包含的一條或多條規(guī)則,根據(jù)判斷結(jié)果識別所述網(wǎng)頁為可疑釣魚網(wǎng)頁。
10. -種基于云端內(nèi)容規(guī)則庫識別可疑釣魚網(wǎng)頁的系統(tǒng),包括:權(quán)利要求9所述的云端 服務(wù)器以及客戶端。
【文檔編號】H04L29/06GK104158828SQ201410453169
【公開日】2014年11月19日 申請日期:2014年9月5日 優(yōu)先權(quán)日:2014年9月5日
【發(fā)明者】李曉波, 肖鵬 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司