一種惡意網(wǎng)頁的識別方法、裝置和系統(tǒng)的制作方法
【專利摘要】本發(fā)明實施例公開了一種惡意網(wǎng)頁的識別方法、裝置和系統(tǒng),其中方法的實現(xiàn)包括:提取待檢網(wǎng)頁的域名,通過所述域名查詢備案信息;獲取所述待檢網(wǎng)頁的文本信息,從所述文本信息中提取所述待檢網(wǎng)頁的特征信息;若所述備案信息與所述特征信息的相似度低于預(yù)設(shè)的閾值,則確定所述待檢網(wǎng)頁為惡意網(wǎng)頁。以上方案,采用對比待檢網(wǎng)頁的備案信息與特征信息,通過兩者的相似度來確定待檢網(wǎng)頁是否為惡意網(wǎng)頁的方案,并不基于網(wǎng)頁是否存在黑鏈來檢測,備案信息是網(wǎng)頁未被修改前的預(yù)先備案的信息,具有極高的可靠性,因此提高了惡意網(wǎng)頁識別成功率。
【專利說明】—種惡意網(wǎng)頁的識別方法、裝置和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信【技術(shù)領(lǐng)域】,特別涉及一種惡意網(wǎng)頁的識別方法、裝置和系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的不斷普及,用戶通過網(wǎng)絡(luò)獲取各類信息變得十分普遍。與此同時,互聯(lián)網(wǎng)上各類欺詐釣魚網(wǎng)站也層出不窮,互聯(lián)網(wǎng)安全形勢不容樂觀。
[0003]當前互聯(lián)網(wǎng)上的惡意網(wǎng)站主要可分為兩類:一類是“主動作惡”的網(wǎng)站,即:黑客主動創(chuàng)建以欺騙用戶的惡意站點,另一類則是“被動作惡”的網(wǎng)站,即:受到黑客攻擊導致網(wǎng)頁的頁面被篡改而淪為惡意站點的正常網(wǎng)站。搜索引擎為提高用戶體驗,對于前一類“主動作惡”的網(wǎng)站,可以直接將其從搜索結(jié)果中移除,而對于后一類“被動作惡”的網(wǎng)站,則一般只能附加一定的提示語警告用戶謹慎訪問。
[0004]通常,安全軟件通過收集惡意關(guān)鍵詞、比較惡意網(wǎng)站與目標網(wǎng)站的相似度等方法可以有效識別出惡意網(wǎng)站,但卻難以進一步區(qū)分此網(wǎng)站屬于上述哪類惡意站點。
[0005]目前較為常見的檢測網(wǎng)頁是否被篡改的方案,是通過檢測頁面是否含有黑鏈來實現(xiàn)。黑鏈又稱暗鏈,是指黑客為提高目標網(wǎng)站在搜索引擎的權(quán)重或者PR (Page Rank,網(wǎng)頁級別)而在正常網(wǎng)站中植入指向目標網(wǎng)站的超鏈接。正常的超鏈接對于用戶是可見的,而黑鏈通常對于用戶是隱藏的(比如設(shè)置超鏈接位于屏幕可顯示范圍之外或設(shè)置超鏈接顏色等于背景色),從而使其不易被發(fā)覺。如果一個頁面中發(fā)現(xiàn)大量黑鏈,通常說明其已經(jīng)被黑客攻擊和篡改了。
[0006]使用檢測頁面是否含有黑鏈的方案來確定網(wǎng)頁是否被篡改的方案,對于以提高搜索引擎排名為目的的黑鏈植入類頁面篡改可以有效識別,但是對于以直接誘騙用戶為目的的惡意頁面篡改則無法做到有效判定。這是因為黑客在攻擊正常站點并添加欺詐內(nèi)容后,并不一定會植入黑鏈,那么通過檢測黑鏈的方式則無法識別頁面是否被篡改,因此惡意網(wǎng)頁識別成功率低。
【發(fā)明內(nèi)容】
[0007]本發(fā)明實施例提供了一種惡意網(wǎng)頁的識別方法、裝置和系統(tǒng),用于提高惡意網(wǎng)頁識別成功率。
[0008]一種惡意網(wǎng)頁的識別方法,包括:
[0009]提取待檢網(wǎng)頁的域名,通過所述域名查詢備案信息;
[0010]獲取所述待檢網(wǎng)頁的文本信息,從所述文本信息中提取所述待檢網(wǎng)頁的特征信息;
[0011]若所述備案信息與所述特征信息的相似度低于預(yù)設(shè)的閾值,則確定所述待檢網(wǎng)頁為惡意網(wǎng)頁。
[0012]一種惡意網(wǎng)頁的識別裝置,包括:
[0013]域名提取單元,用于提取待檢網(wǎng)頁的域名;[0014]備案查詢單元,用于通過所述域名提取單元提取的域名查詢備案信息;
[0015]網(wǎng)頁獲取單元,用于獲取所述待檢網(wǎng)頁的文本信息;
[0016]特征提取單元,用于從所述網(wǎng)頁獲取單元獲取的文本信息中提取所述待檢網(wǎng)頁的特征信息;
[0017]判決單元,用于若所述備案查詢單元查詢的備案信息與所述特征提取單元提取的特征信息的相似度低于預(yù)設(shè)的閾值,則確定所述待檢網(wǎng)頁為惡意網(wǎng)頁。
[0018]一種網(wǎng)絡(luò)系統(tǒng),包括:備案服務(wù)器和識別裝置;
[0019]所述備案服務(wù)器存儲有網(wǎng)頁的備案信息;
[0020]所述識別裝置,用于提取待檢網(wǎng)頁的域名,通過所述域名在所述備案服務(wù)器查詢備案信息;獲取所述待檢網(wǎng)頁的文本信息,從所述文本信息中提取所述待檢網(wǎng)頁的特征信息;若所述備案信息與所述特征信息的相似度低于預(yù)設(shè)的閾值,則確定所述待檢網(wǎng)頁為惡意網(wǎng)頁。
[0021]從以上技術(shù)方案可以看出,本發(fā)明實施例具有以下優(yōu)點:采用對比待檢網(wǎng)頁的備案信息與特征信息,通過兩者的相似度來確定待檢網(wǎng)頁是否為惡意網(wǎng)頁的方案,并不基于網(wǎng)頁是否存在黑鏈來檢測,備案信息是網(wǎng)頁未被修改前的預(yù)先備案的信息,具有極高的可靠性,因此提高了惡意網(wǎng)頁識別成功率。
【專利附圖】
【附圖說明】
[0022]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0023]圖1為本發(fā)明實施例方法流程示意圖;
[0024]圖2為本發(fā)明實施例一個示例的HTML源碼截圖示意圖;
[0025]圖3為本發(fā)明實施例另一方法流程示意圖;
[0026]圖4為本發(fā)明實施例系統(tǒng)架構(gòu)的結(jié)構(gòu)示意圖;
[0027]圖5為本發(fā)明實施例裝置結(jié)構(gòu)示意圖;
[0028]圖6為本發(fā)明實施例系統(tǒng)結(jié)構(gòu)示意圖。
【具體實施方式】
[0029]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明作進一步地詳細描述,顯然,所描述的實施例僅僅是本發(fā)明一部份實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
[0030]本發(fā)明實施例提供了一種惡意網(wǎng)頁的識別方法,如圖1所示,包括:
[0031]101:提取待檢網(wǎng)頁的域名,通過上述域名查詢備案信息;
[0032]備案信息是網(wǎng)頁未被修改前的預(yù)先備案的信息。具體可以是上述網(wǎng)頁對應(yīng)的域名的運營商的進行的備案,具有合法性;該備案信息是運營商進行的備案,所以該備案信息是運營商所認可的信息,因此具有極高的可靠性。[0033]可選地,上述提取待檢網(wǎng)頁的域名,通過上述域名查詢備案信息包括:在獲取到待檢網(wǎng)頁的地址后,從上述地址提取域名,通過上述域名查詢備案信息。上述待檢網(wǎng)頁的地址一般可以是待檢網(wǎng)頁的URL (Universal Resource Locator,統(tǒng)一資源定位符,也稱為網(wǎng)頁地址)。
[0034]可選地,上述通過上述域名查詢備案信息包括:從工信部備案數(shù)據(jù)庫中提取與上述域名對應(yīng)的備案信息。
[0035]由于在中國境內(nèi)從事互聯(lián)網(wǎng)信息服務(wù)的網(wǎng)站必須取得工業(yè)與信息化部(簡稱工信部)的ICP (Internet Content Provider,網(wǎng)絡(luò)內(nèi)容服務(wù)商)備案,因此通過查詢網(wǎng)站的備案信息可以得到網(wǎng)站的名稱、業(yè)務(wù)范圍、主辦單位名稱等信息,這通常與網(wǎng)站頁面上所展示的信息一致。
[0036]比如對于qq.com,通過工信部網(wǎng)站:
[0037]http://www.miibeian.gov.cn/publish/query/indexFirst.action
[0038]查詢到的備案信息如下表1所示:
[0039]表1
[0040]
【權(quán)利要求】
1.一種惡意網(wǎng)頁的識別方法,其特征在于,包括: 提取待檢網(wǎng)頁的域名,通過所述域名查詢備案信息; 獲取所述待檢網(wǎng)頁的文本信息,從所述文本信息中提取所述待檢網(wǎng)頁的特征信息; 若所述備案信息與所述特征信息的相似度低于預(yù)設(shè)的閾值,則確定所述待檢網(wǎng)頁為惡意網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述方法,其特征在于,所述提取待檢網(wǎng)頁的域名,通過所述域名查詢備案信息包括: 在獲取到待檢網(wǎng)頁的地址后,從所述地址提取域名,通過所述域名查詢備案信息。
3.根據(jù)權(quán)利要求1所述方法,其特征在于,所述獲取所述待檢網(wǎng)頁的文本信息,從所述文本信息中提取所述待檢網(wǎng)頁的特征信息包括: 獲取所述待檢網(wǎng)頁的地址,然后獲取所述地址的網(wǎng)頁文本,并從所述網(wǎng)頁文本中提取所述待檢網(wǎng)頁的特征信息。
4.根據(jù)權(quán)利要求1至3任意一項所述方法,其特征在于,所述特征信息包括:系統(tǒng)標簽信息。
5.根據(jù)權(quán)利要求1至3任意 一項所述方法,其特征在于,所述備案信息與所述特征信息的相似度低于預(yù)設(shè)的閾值包括: 通過最長公共子序列、最少編輯距離、漢明距離、特征向量余弦值中的任意一種確定所述備案信息與所述特征信息的相似度低于預(yù)設(shè)的閾值。
6.根據(jù)權(quán)利要求1至3任意一項所述方法,其特征在于,所述通過所述域名查詢備案信息包括: 從工信部備案數(shù)據(jù)庫中提取與所述域名對應(yīng)的備案信息。
7.—種惡意網(wǎng)頁的識別裝置,其特征在于,包括: 域名提取單元,用于提取待檢網(wǎng)頁的域名; 備案查詢單元,用于通過所述域名提取單元提取的域名查詢備案信息; 網(wǎng)頁獲取單元,用于獲取所述待檢網(wǎng)頁的文本信息; 特征提取單元,用于從所述網(wǎng)頁獲取單元獲取的文本信息中提取所述待檢網(wǎng)頁的特征信息; 判決單元,用于若所述備案查詢單元查詢的備案信息與所述特征提取單元提取的特征信息的相似度低于預(yù)設(shè)的閾值,則確定所述待檢網(wǎng)頁為惡意網(wǎng)頁。
8.根據(jù)權(quán)利要求7所述裝置,其特征在于, 所述域名提取單元,具體用于在獲取到待檢網(wǎng)頁的地址后,從所述地址提取域名。
9.根據(jù)權(quán)利要求7所述裝置,其特征在于, 所述網(wǎng)頁獲取單元,具體用于獲取所述待檢網(wǎng)頁的地址,然后獲取所述地址的網(wǎng)頁文本; 所述特征提取單元,具體用于從所述網(wǎng)頁獲取單元獲取的網(wǎng)頁文本中提取所述待檢網(wǎng)頁的特征信息。
10.根據(jù)權(quán)利要求7至9任意一項所述裝置,其特征在于, 所述特征提取單元,用于提取特征信息包括:具體用于提取系統(tǒng)標簽信息。
11.根據(jù)權(quán)利要求7至9任意一項所述裝置,其特征在于,所述判決單元,具體用于通過最長公共子序列、最少編輯距離、漢明距離、特征向量余弦值中的任意一種確定所述備案信息與所述特征信息的相似度低于預(yù)設(shè)的閾值,則確定所述待檢網(wǎng)頁為惡意網(wǎng)頁。
12.根據(jù)權(quán)利要求7至9任意一項所述裝置,其特征在于, 所述備案查詢單元,用于從工信部備案數(shù)據(jù)庫中提取與所述域名提取單元提取的域名對應(yīng)的備案信息。
13.—種網(wǎng)絡(luò)系統(tǒng),其特征在于,包括:備案服務(wù)器和識別裝置; 所述備案服務(wù)器存儲有網(wǎng)頁的備案信息; 所述識別裝置,用于提取待檢網(wǎng)頁的域名,通過所述域名在所述備案服務(wù)器查詢備案信息;獲取所述待檢網(wǎng)頁的文本信息,從所述文本信息中提取所述待檢網(wǎng)頁的特征信息;若所述備案信息與所述特征信息的相似度低于預(yù)設(shè)的閾值,則確定所述待檢網(wǎng)頁為惡意網(wǎng)頁。
14.根據(jù)權(quán)利要求13所述系統(tǒng),其特征在于, 所述識別裝置,用于提取待檢網(wǎng)頁的域名,通過所述域名查詢備案信息包括:具體用于在獲取到待檢網(wǎng)頁的地址后,從所述地址提取域名,通過所述域名查詢備案信息。
15.根據(jù)權(quán)利要求13所述系統(tǒng),其特征在于, 所述識別裝置,用于獲取所述待檢網(wǎng)頁的文本信息,從所述文本信息中提取所述待檢網(wǎng)頁的特征信息包括:具體用于獲取所述待檢網(wǎng)頁的地址,然后獲取所述地址的網(wǎng)頁文本,并從所述網(wǎng)頁文本中提取所述待檢網(wǎng)頁的特征信息。
16.根據(jù)權(quán)利要求13至15任意一項所述系統(tǒng),其特征在于, 所述識別裝置,用于提取特征信息包括:具體用于提取系統(tǒng)標簽信息。
17.根據(jù)權(quán)利要求13至15任意一項所述系統(tǒng),其特征在于, 所述識別裝置,用于確定備案信息與所述特征信息的相似度低于預(yù)設(shè)的閾值包括:具體用于通過最長公共子序列、最少編輯距離、漢明距離、特征向量余弦值中的任意一種確定所述備案信息與所述特征信息的相似度低于預(yù)設(shè)的閾值。
【文檔編號】G06F21/56GK103927480SQ201310012256
【公開日】2014年7月16日 申請日期:2013年1月14日 優(yōu)先權(quán)日:2013年1月14日
【發(fā)明者】邵付東, 王波, 劉健 申請人:騰訊科技(深圳)有限公司