一種網(wǎng)址安全性檢測方法、裝置及服務(wù)器的制造方法
【專利摘要】本發(fā)明實施例公開了一種網(wǎng)址安全性檢測方法、裝置及服務(wù)器,其中的方法可包括:根據(jù)客戶端上報的網(wǎng)址,從所述網(wǎng)址對應(yīng)的網(wǎng)頁文件中獲取頁面內(nèi)容文本;采用預(yù)設(shè)的編碼算法將所述頁面內(nèi)容文本轉(zhuǎn)換為待檢測編碼;分析所述待檢測編碼以確定所述網(wǎng)址的安全性。采用本發(fā)明,可對網(wǎng)址安全性進行快速檢測,保護客戶端的網(wǎng)絡(luò)安全。
【專利說明】—種網(wǎng)址安全性檢測方法、裝置及服務(wù)器
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體涉及網(wǎng)絡(luò)安全【技術(shù)領(lǐng)域】,尤其涉及一種網(wǎng)址安全性檢測方法、裝置及服務(wù)器。
【背景技術(shù)】
[0002]網(wǎng)址指網(wǎng)頁(或網(wǎng)站)地址,可以為URL(Uniform Resourse Locator,統(tǒng)一資源定位符)。根據(jù)網(wǎng)址的安全性劃分,網(wǎng)址可分為安全網(wǎng)址和惡意網(wǎng)址;安全網(wǎng)址指正規(guī)網(wǎng)站的地址,例如:各大銀行的官方網(wǎng)址、各購物網(wǎng)站的官方網(wǎng)址等等;惡意網(wǎng)址指各類欺詐、仿冒、釣魚和掛馬等網(wǎng)頁地址,例如:仿冒各類正規(guī)網(wǎng)站的惡意網(wǎng)址等等,客戶端訪問惡意網(wǎng)址可能造成客戶端隱私信息泄漏、木馬病毒感染等危害。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,如何對網(wǎng)址安全性進行檢測,以保護客戶端的網(wǎng)絡(luò)安全,成為亟待解決的問題。
【發(fā)明內(nèi)容】
[0003]本發(fā)明實施例所要解決的技術(shù)問題在于,提供一種網(wǎng)址安全性檢測方法、裝置及服務(wù)器,可對網(wǎng)址安全性進行快速檢測,保護客戶端的網(wǎng)絡(luò)安全。
[0004]為了解決上述技術(shù)問題,本發(fā)明實施例第一方面提供一種網(wǎng)址安全性檢測方法,可包括:
[0005]根據(jù)客戶端上報的網(wǎng)址,從所述網(wǎng)址對應(yīng)的網(wǎng)頁文件中獲取頁面內(nèi)容文本;
[0006]采用預(yù)設(shè)的編碼算法將所述頁面內(nèi)容文本轉(zhuǎn)換為待檢測編碼;
[0007]分析所述待檢測編碼以確定所述網(wǎng)址的安全性。
[0008]基于第一方面,在第一種實施方式中,所述根據(jù)客戶端上報的網(wǎng)址,從所述網(wǎng)址對應(yīng)的網(wǎng)頁文件中獲取頁面內(nèi)容文本,包括:
[0009]根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件;
[0010]解析所述網(wǎng)頁文件,獲取所述網(wǎng)頁文件的頁面內(nèi)容文本。
[0011]基于第一方面的第一種實施方式,在第二種實施方式中,所述根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件之前,還包括:
[0012]判斷所述網(wǎng)址是否為白名單庫中的安全網(wǎng)址,所述白名單庫中包含至少一個安全網(wǎng)址;
[0013]若判斷結(jié)果為否,則執(zhí)行所述根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件的步驟。
[0014]基于第一方面、第一方面的第一種實施方式、第一方面的第二種實施方式,在第三種實施方式中,所述預(yù)設(shè)的編碼算法為Simhash(—種局部敏感哈希算法)算法;所述采用預(yù)設(shè)的編碼算法將所述頁面內(nèi)容文本轉(zhuǎn)換為待檢測編碼,包括:
[0015]對所述頁面內(nèi)容文本進行分詞處理,獲得至少一個文本分詞;
[0016]采用Hash(哈希)算法對各文本分詞進行編碼計算,獲得各文本分詞的Hash編碼;
[0017]對各文本分詞的Hash編碼進行加權(quán)處理,獲得各文本分詞的權(quán)值序列;
[0018]將所述各文本分詞的權(quán)值序列進行合并處理,獲得所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串;
[0019]對所述頁面內(nèi)容文本的權(quán)值序列串進行降維處理,生成所述頁面內(nèi)容文本對應(yīng)的Simhash 編碼;
[0020]將所述頁面內(nèi)容文本對應(yīng)的Simhash編碼確定為待檢測編碼。
[0021]基于第一方面的第三種實施方式,在第四種實施方式中,所述分析所述待檢測編碼以確定所述網(wǎng)址的安全性,包括:
[0022]判斷惡意樣本編碼庫中是否存在與所述待檢測編碼相似的惡意樣本編碼,所述惡意樣本編碼庫中包括至少一個惡意樣本編碼,所述惡意樣本編碼為Simhash編碼;
[0023]若判斷所述惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼,則確定所述網(wǎng)址為惡意網(wǎng)址。
[0024]基于第一方面的第四種實施方式,在第五種實施方式中,所述判斷惡意樣本編碼庫中是否存在與所述待檢測編碼相似的惡意樣本編碼,包括:
[0025]將所述待檢測編碼與所述惡意樣本編碼庫中的各惡意樣本編碼進行二進制位比較;
[0026]若所述惡意樣本編碼庫中任一惡意樣本編碼與所述待檢測編碼具有差異二進制位,且差異二進制位的數(shù)量小于預(yù)設(shè)閾值,則判斷所述惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼。
[0027]本發(fā)明實施例第二方面提供一種網(wǎng)址安全性檢測裝置,可包括:
[0028]文本獲取模塊,用于根據(jù)客戶端上報的網(wǎng)址,從所述網(wǎng)址對應(yīng)的網(wǎng)頁文件中獲取頁面內(nèi)容文本;
[0029]編碼模塊,用于采用預(yù)設(shè)的編碼算法將所述頁面內(nèi)容文本轉(zhuǎn)換為待檢測編碼;
[0030]安全檢測模塊,用于分析所述待檢測編碼以確定所述網(wǎng)址的安全性。
[0031]基于第二方面,在第一種實施方式中,所述文本獲取模塊包括:
[0032]下載單元,用于根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件;
[0033]解析單元,用于解析所述網(wǎng)頁文件,獲取所述網(wǎng)頁文件的頁面內(nèi)容文本。
[0034]基于第二方面的第一種實施方式,在第二種實施方式中,所述裝置還包括:
[0035]白名單判斷模塊,用于判斷所述網(wǎng)址是否為白名單庫中的安全網(wǎng)址,所述白名單庫中包含至少一個安全網(wǎng)址;
[0036]所述下載單元用于在所述白名單判斷模塊判斷結(jié)果為否時,根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件。
[0037]基于第二方面、第二方面的第一種實施方式、第二方面的第二種實施方式,在第三種實施方式中,所述編碼模塊包括:
[0038]分詞單元,用于對所述頁面內(nèi)容文本進行分詞處理,獲得至少一個文本分詞;
[0039]編碼單元,用于采用Hash算法對各文本分詞進行編碼計算,獲得各文本分詞的Hash編碼;
[0040]加權(quán)單元,用于對各文本分詞的Hash編碼進行加權(quán)處理,獲得各文本分詞的權(quán)值序列;
[0041]合并單元,用于將所述各文本分詞的權(quán)值序列進行合并處理,獲得所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串;
[0042]降維單元,用于對所述頁面內(nèi)容文本的權(quán)值序列串進行降維處理,生成所述頁面內(nèi)容文本對應(yīng)的Simhash編碼;
[0043]編碼確定單元,用于將所述頁面內(nèi)容文本對應(yīng)的Simhash編碼確定為待檢測編碼;
[0044]其中,所述預(yù)設(shè)的編碼算法為Simhash算法。
[0045]基于第二方面的第三種實施方式,在第四種實施方式中,所述安全檢測模塊包括:
[0046]判斷單元,用于判斷惡意樣本編碼庫中是否存在與所述待檢測編碼相似的惡意樣本編碼,所述惡意樣本編碼庫中包括至少一個惡意樣本編碼,所述惡意樣本編碼為Simhash編碼;
[0047]安全性確定單元,用于當(dāng)判斷所述惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼時,確定所述網(wǎng)址為惡意網(wǎng)址。
[0048]基于第二方面的第四種實施方式,在第五種實施方式中,所述判斷單元包括:
[0049]比較子單元,用于將所述待檢測編碼與所述惡意樣本編碼庫中的各惡意樣本編碼進行二進制位比較;
[0050]判斷子單元,用于當(dāng)所述惡意樣本編碼庫中任一惡意樣本編碼與所述待檢測編碼具有差異二進制位,且差異二進制位的數(shù)量小于預(yù)設(shè)閾值時,判斷所述惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼。
[0051 ] 本發(fā)明實施例第三方面提供一種服務(wù)器,可包括上述第二方面所述的網(wǎng)址安全性檢測裝置。
[0052]實施本發(fā)明實施例,具有如下有益效果:
[0053]通過對客戶端上報的網(wǎng)址對應(yīng)的網(wǎng)頁文件中的頁面內(nèi)容文本進行編碼及分析,既能夠?qū)崿F(xiàn)網(wǎng)址安全性的檢測,同時,由于對頁面內(nèi)容文本的編碼進行分析,避免了直接對頁面內(nèi)容文本的字符進行分析所帶來的資源耗費,有效提升網(wǎng)址安全性檢測的效率,有效地保護客戶端的網(wǎng)絡(luò)安全。
【專利附圖】
【附圖說明】
[0054]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0055]圖1為本發(fā)明實施例提供的一種網(wǎng)址安全性檢測方法的流程圖;
[0056]圖2為本發(fā)明實施例提供的另一種網(wǎng)址安全性檢測方法流程圖;
[0057]圖3為本發(fā)明實施例提供的又一種網(wǎng)址安全性檢測方法流程圖;
[0058]圖4為本發(fā)明實施例提供的一種網(wǎng)址安全性檢測裝置的結(jié)構(gòu)示意圖;
[0059]圖5為本發(fā)明實施例提供的另一種網(wǎng)址安全性檢測裝置的結(jié)構(gòu)示意圖;
[0060]圖6為本發(fā)明實施例提供的一種文本獲取模塊的結(jié)構(gòu)示意圖;
[0061]圖7為本發(fā)明實施例提供的一種編碼模塊的結(jié)構(gòu)示意圖;
[0062]圖8為本發(fā)明實施例提供的一種安全檢測模塊的結(jié)構(gòu)示意圖;
[0063]圖9為本發(fā)明實施例提供的一種判斷單元的結(jié)構(gòu)示意圖;
[0064]圖10為本發(fā)明實施例提供的一種服務(wù)器的結(jié)構(gòu)示意圖。
【具體實施方式】
[0065]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0066]下面將結(jié)合附圖1-附圖3,對本發(fā)明實施例提供的網(wǎng)址安全性檢測方法進行詳細介紹。需要說明的是,附圖1-附圖3所示的網(wǎng)址安全性檢測方法可以由本發(fā)明實施例提供的網(wǎng)址安全性檢測裝置所執(zhí)行,該網(wǎng)址安全性檢測裝置可運行于服務(wù)器中。本發(fā)明實施例中,客戶端可包括但不限于:PC (Personal Computer,個人計算機)、PAD (平板電腦)、手機、智能手機、筆記本電腦等終端設(shè)備,或者,客戶端可以為上述終端設(shè)備中的應(yīng)用客戶端,例如:PC中的電腦管家客戶端,手機中的安全管家客戶端等等。
[0067]請參見圖1,為本發(fā)明實施例提供的一種網(wǎng)址安全性檢測方法的流程圖;該方法可包括以下步驟SlOl-步驟S103。
[0068]S101,根據(jù)客戶端上報的網(wǎng)址,從所述網(wǎng)址對應(yīng)的網(wǎng)頁文件中獲取頁面內(nèi)容文本。
[0069]其中,網(wǎng)址指網(wǎng)頁(或網(wǎng)站)地址,可以為URL。根據(jù)網(wǎng)址的安全性劃分,網(wǎng)址可分為安全網(wǎng)址和惡意網(wǎng)址;安全網(wǎng)址指正規(guī)網(wǎng)站的地址,例如:各大銀行的官方網(wǎng)址、各購物網(wǎng)站的官方網(wǎng)址等等;惡意網(wǎng)址指各類欺詐、仿冒、釣魚和掛馬等網(wǎng)頁地址,例如:仿冒各類正規(guī)網(wǎng)站的惡意網(wǎng)址等等,客戶端訪問惡意網(wǎng)址可能造成客戶端隱私信息泄漏、木馬病毒感染等危害。本步驟可以根據(jù)客戶端上報的網(wǎng)址,從該網(wǎng)址對應(yīng)的網(wǎng)頁文件中獲取頁面內(nèi)容文本以作后續(xù)的安全性檢測分析。本發(fā)明實施例中,客戶端上報的網(wǎng)址指客戶端從瀏覽器地址欄采集到的當(dāng)前正在訪問的網(wǎng)址,以保證客戶端當(dāng)前訪問的安全性,但可以理解的是,本發(fā)明實施例并不對此進行限定,客戶端上報的網(wǎng)址還可以是客戶端收集到的用戶輸入并請求查詢的網(wǎng)址,等等。
[0070]S102,采用預(yù)設(shè)的編碼算法將所述頁面內(nèi)容文本轉(zhuǎn)換為待檢測編碼。
[0071 ] 其中,所述預(yù)設(shè)的編碼算法優(yōu)選為Simhash算法。Simhash算法是LocalSensitive Hash (局部敏感哈希)算法的一種,其特點在于局部敏感,即當(dāng)輸入內(nèi)容發(fā)生少量變化時,通過Simhash算法計算獲得的Hash值不變或者僅發(fā)生輕微變化??梢岳斫獾氖?,所述預(yù)設(shè)的編碼算法還可以為其他類型的算法,本發(fā)明實施例并不對此進行限定,例如:預(yù)設(shè)的編碼算法還可以采用PHA (Perceptual Hashing,感知哈希)算法等等。
[0072]S103,分析所述待檢測編碼以確定所述網(wǎng)址的安全性。
[0073]本步驟可以將待檢測編碼與已知的惡意網(wǎng)址對應(yīng)的頁面文本內(nèi)容的編碼進行比對,如果二者相似,則可確定客戶端上報的待檢測的網(wǎng)址為惡意網(wǎng)址,從而快速確定出網(wǎng)址安全性。
[0074]本發(fā)明實施例通過對客戶端上報的網(wǎng)址對應(yīng)的網(wǎng)頁文件中的頁面內(nèi)容文本進行編碼及分析,既能夠?qū)崿F(xiàn)網(wǎng)址安全性的檢測,同時,由于對頁面內(nèi)容文本的編碼進行分析,避免了直接對頁面內(nèi)容文本的字符進行分析所帶來的資源耗費,有效提升網(wǎng)址安全性檢測的效率,有效地保護客戶端的網(wǎng)絡(luò)安全。
[0075]請參見圖2,為本發(fā)明實施例提供的另一種網(wǎng)址安全性檢測方法流程圖;本實施例中,所述預(yù)設(shè)的編碼算法優(yōu)選為Simhash算法。該方法可包括以下步驟S201-步驟S210。
[0076]S201,根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件。
[0077]其中,網(wǎng)址指網(wǎng)頁(或網(wǎng)站)地址,可以為URL。根據(jù)網(wǎng)址安全性劃分,網(wǎng)址可分為安全網(wǎng)址和惡意網(wǎng)址;安全網(wǎng)址指正規(guī)網(wǎng)站的地址,例如:各大銀行的官方網(wǎng)址、各購物網(wǎng)站的官方網(wǎng)址等等;惡意網(wǎng)址指各類欺詐、仿冒、釣魚和掛馬等網(wǎng)頁地址,例如:仿冒各類正規(guī)網(wǎng)站的惡意網(wǎng)址等等,客戶端訪問惡意網(wǎng)址可能造成客戶端的隱私信息泄漏、木馬病毒感染等危害。本步驟中,根據(jù)客戶端上報的網(wǎng)址,可以從網(wǎng)絡(luò)服務(wù)器中下載該網(wǎng)址對應(yīng)的網(wǎng)頁文件,該網(wǎng)頁文件包括但不限于:HTML(Hyper Text Markup Language,超文本標(biāo)記語言)文件、JS (JavaScript,—種客戶端腳本語言)文件、CSS (Cascading Style Sheet,級聯(lián)樣式表)文件等等,本發(fā)明實施例中,客戶端上報的網(wǎng)址指客戶端從瀏覽器地址欄采集到的當(dāng)前正在訪問的網(wǎng)址,以保證客戶端當(dāng)前訪問的安全性,但可以理解的是,本發(fā)明實施例并不對此進行限定,客戶端上報的網(wǎng)址還可以是客戶端收集到的用戶輸入并請求查詢的網(wǎng)址,等等。
[0078]S202,解析所述網(wǎng)頁文件,獲取所述網(wǎng)頁文件的頁面內(nèi)容文本。
[0079]本實施例的步驟S201-S202可以為圖1所示實施例中的步驟SlOl的具體細化步驟。
[0080]S203,對所述頁面內(nèi)容文本進行分詞處理,獲得至少一個文本分詞。
[0081]其中,可靈活采用各種分詞方法,對所述頁面內(nèi)容文本進行分詞處理的方法,該分詞方法包括但不限于:基于字符串匹配的分詞方法、基于統(tǒng)計的分詞方法等等。分詞處理的目的在于去除停詞或噪音詞,諸如:的、了、呀等等,提取表征頁面內(nèi)容文本的特征的文本分詞;例如:針對“中國的互聯(lián)網(wǎng)技術(shù)的發(fā)展趨勢”的頁面內(nèi)容文本,經(jīng)過本步驟的分詞處理后,可獲得的文本分詞如下:“中國”、“互聯(lián)網(wǎng)”、“技術(shù)”、“發(fā)展”、“趨勢”。
[0082]S204,采用Hash算法對各文本分詞進行編碼計算,獲得各文本分詞的Hash編碼。
[0083]其中,一個文本分詞對應(yīng)一個Hash編碼。本步驟中,將文本分詞編碼為Hash編碼,即是將一個字符串轉(zhuǎn)換為二進制數(shù)值的過程。
[0084]S205,對各文本分詞的Hash編碼進行加權(quán)處理,獲得各文本分詞的權(quán)值序列。
[0085]按照各文本分詞在頁面內(nèi)容文本中的重要程度,可以為各文本分詞分配權(quán)重;例如:按照步驟S203中的例子,可設(shè)置權(quán)重級別為1-5,權(quán)重值越大,表明該文本分詞在頁面內(nèi)容文本中的重要程度越高,如“中國”權(quán)重可為4,“互聯(lián)網(wǎng)”權(quán)重可為5,“技術(shù)”權(quán)重可為3,“發(fā)展”權(quán)重可為4,“趨勢”權(quán)重可為2。本步驟中,采用各文本分詞各自的權(quán)重,對各文本分詞的Hash編碼進行加權(quán)處理,則可以形成各文本分詞的加權(quán)數(shù)字串,該加權(quán)數(shù)字串即為該文本分詞的權(quán)值序列;需要說明的是,在加權(quán)處理過程中,若二進制位為1,權(quán)重為正值,若二進制位為0,權(quán)重為負值;例如:假設(shè)“中國”的Hash編碼為“100101”,通過將其采用權(quán)重4進行加權(quán)后,可得到“4-4-44-44”的加權(quán)數(shù)字串,則“4-4-44-44”即為“中國”這一文本分詞的權(quán)值序列。
[0086]S206,將所述各文本分詞的權(quán)值序列進行合并處理,獲得所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串。
[0087]經(jīng)過步驟S205,每一個文本分詞均對應(yīng)一個權(quán)值序列,本步驟則將各文本分詞的權(quán)值序列進行按位累加計算,合并為一個權(quán)值序列串,該權(quán)值序列串即可表征所述頁面內(nèi)容文本的特征。例如:假設(shè)“中國”的權(quán)值序列為“4-4-44-44”,“互聯(lián)網(wǎng)”的權(quán)值序列為“5-55-555”,本步驟對二者進行合并處理過程為“4+5-4+-5-4+54+-5-4+54+5”,從而得到“9-91-119”的權(quán)值序列串;同理,本步驟可獲得所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串。
[0088]S207,對所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串進行降維處理,生成所述頁面內(nèi)容文本對應(yīng)的Simhash編碼。
[0089]本步驟中,將所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串進行降維處理的目的,即是將所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串轉(zhuǎn)換為二進制編碼,從而生成所述頁面內(nèi)容文本對應(yīng)的Simhash編碼。需要說明的是,在降維處理過程中,將所述頁面內(nèi)容對應(yīng)的權(quán)值序列串中大于O的位設(shè)置為1,小于O的位設(shè)置為O ;例如:“9-91-119”的權(quán)值序列串經(jīng)降維處理后,可得到的Simhash編碼為“101011”。
[0090]S208,將所述頁面內(nèi)容文本對應(yīng)的Simhash編碼確定為待檢測編碼。
[0091]本實施例的步驟S203-S208可以為圖1所示實施例中的步驟SlOl的具體細化步驟。本實施例的步驟S203-S208將頁面內(nèi)容文本轉(zhuǎn)換為二進制數(shù)值表示的待檢測編碼,方便在本實施例的后續(xù)流程中采用對二進制數(shù)值進行分析的方式,可避免直接對頁面內(nèi)容文本的字符分析所帶來的資源耗費,提升安全性檢測的效率。
[0092]S209,判斷惡意樣本編碼庫中是否存在與所述待檢測編碼相似的惡意樣本編碼;若判斷結(jié)果為是,轉(zhuǎn)入步驟S210 ;否則,結(jié)束。
[0093]其中,所述惡意樣本編碼庫中包括至少一個惡意樣本編碼,一個惡意樣本編碼指采用預(yù)設(shè)的編碼算法對一個惡意網(wǎng)址對應(yīng)的網(wǎng)頁文件的頁面內(nèi)容文本進行編碼計算獲得的編碼。所述預(yù)設(shè)的編碼算法優(yōu)選為Simhash算法,所述惡意樣本編碼優(yōu)選為Simhash編碼。本步驟中,如果惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼,利用Simhash算法的特點可知,該待檢測編碼即為一惡意樣本編碼,從而可轉(zhuǎn)入步驟S210確定客戶端上報的網(wǎng)址為一惡意網(wǎng)址。
[0094]本步驟S209的判斷過程具體可以參見如下流程:
[0095]A、將所述待檢測編碼與所述惡意樣本編碼庫中的各惡意樣本編碼進行二進制位比較。
[0096]例如:假設(shè)惡意樣本編碼庫中包含a、b、c三個惡意樣本編碼,待檢測編碼為k,步驟A中需要分別將k與a進行二進制位比較,將k與b進行二進制位比較,將k與c進行二進制位比較。
[0097]B、若所述惡意樣本編碼庫中任一惡意樣本編碼與所述待檢測編碼具有差異二進制位,且差異二進制位的數(shù)量小于預(yù)設(shè)閾值,則判斷所述惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼。
[0098]參見步驟A中的例子,如果k與a、b、c三者之一具有差異二進制位(即不同的二進制位),且差異二進制位的數(shù)量小于預(yù)設(shè)閾值,則可判斷惡意樣本編碼庫中存在與k相似的惡意樣本編碼,例如:假設(shè)k、a、b、c均為6位二進制,預(yù)設(shè)閾值為2,如果k與a僅有I個差異二進制位,由此可判斷k與a相似,即判斷惡意樣本編碼庫中存在與待檢測編碼相似的惡意樣本編碼。相反,如果k與a、b或c的差異二進制位的數(shù)量均大于或等于預(yù)設(shè)閾值,則可判斷k與a、b、c均不相似,從而判斷所述惡意樣本編碼庫中沒有與所述待檢測編碼相似的惡意樣本編碼。
[0099]S210,確定所述網(wǎng)址為惡意網(wǎng)址。
[0100]本實施例的步驟S209-步驟S210可以為圖1所示實施例中的步驟S103的具體細化步驟。
[0101]本發(fā)明實施例通過對客戶端上報的網(wǎng)址對應(yīng)的網(wǎng)頁文件中的頁面內(nèi)容文本進行編碼及分析,既能夠?qū)崿F(xiàn)網(wǎng)址安全性的檢測,同時,由于對頁面內(nèi)容文本的編碼進行分析,避免了直接對頁面內(nèi)容文本的字符進行分析所帶來的資源耗費,有效提升網(wǎng)址安全性檢測的效率,有效地保護客戶端的網(wǎng)絡(luò)安全。
[0102]請參見圖3,為本發(fā)明實施例提供的又一種網(wǎng)址安全性檢測方法流程圖;本實施例中,所述預(yù)設(shè)的編碼算法優(yōu)選為Simhash算法。該方法可包括以下步驟S301-步驟S312。
[0103]S301,接收客戶端上報的網(wǎng)址。
[0104]本發(fā)明實施例中,客戶端上報的網(wǎng)址指客戶端從瀏覽器地址欄采集到的當(dāng)前正在訪問的網(wǎng)址,以保證客戶端當(dāng)前訪問的安全性,但可以理解的是,本發(fā)明實施例并不對此進行限定,客戶端上報的網(wǎng)址還可以是客戶端收集到的用戶輸入并請求查詢的網(wǎng)址,等等。
[0105]S302,判斷所述網(wǎng)址是否為白名單庫中的安全網(wǎng)址;如果判斷結(jié)果為否,轉(zhuǎn)入步驟S303,否則,結(jié)束。
[0106]所述白名單庫中包含至少一個安全網(wǎng)址。安全網(wǎng)址指正規(guī)網(wǎng)站的地址,例如:各大銀行的官方網(wǎng)址、各購物網(wǎng)站的官方網(wǎng)址等等,本實施例中,安全網(wǎng)址可被收錄于白名單庫中,以用于對客戶端上報的網(wǎng)址的安全性進行初步檢測。
[0107]S303,根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件。
[0108]S304,解析所述網(wǎng)頁文件,獲取所述網(wǎng)頁文件的頁面內(nèi)容文本。
[0109]S305,對所述頁面內(nèi)容文本進行分詞處理,獲得至少一個文本分詞。
[0110]S306,采用Hash算法對各文本分詞進行編碼計算,獲得各文本分詞的Hash編碼。
[0111]S307,對各文本分詞的Hash編碼進行加權(quán)處理,獲得各文本分詞的權(quán)值序列。
[0112]S308,將所述各文本分詞的權(quán)值序列進行合并處理,獲得所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串。
[0113]S309,對所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串進行降維處理,生成所述頁面內(nèi)容文本對應(yīng)的Simhash編碼。
[0114]S310,將所述頁面內(nèi)容文本對應(yīng)的Simhash編碼確定為待檢測編碼。
[0115]S311,判斷惡意樣本編碼庫中是否存在與所述待檢測編碼相似的惡意樣本編碼;若判斷結(jié)果為是,轉(zhuǎn)入步驟S312;否則,結(jié)束。
[0116]S312,確定所述網(wǎng)址為惡意網(wǎng)址。
[0117]本實施例的步驟S303-步驟S312可參見圖2所示實施例的步驟S201-步驟S210,在此不贅述。
[0118]本發(fā)明實施例通過對客戶端上報的網(wǎng)址對應(yīng)的網(wǎng)頁文件中的頁面內(nèi)容文本進行編碼及分析,既能夠?qū)崿F(xiàn)網(wǎng)址安全性的檢測,同時,由于對頁面內(nèi)容文本的編碼進行分析,避免了直接對頁面內(nèi)容文本的字符進行分析所帶來的資源耗費,有效提升網(wǎng)址安全性檢測的效率,有效地保護客戶端的網(wǎng)絡(luò)安全。
[0119]下面將結(jié)合附圖4-附圖9,對本發(fā)明實施例提供的網(wǎng)址安全性檢測裝置進行詳細介紹。需要說明的是,附圖4-附圖9所示的網(wǎng)址安全性檢測裝置可運行于服務(wù)器中,用于執(zhí)行附圖1-附圖3所示的網(wǎng)址安全性檢測方法。
[0120]請參見圖4,為本發(fā)明實施例提供的一種網(wǎng)址安全性檢測裝置的結(jié)構(gòu)示意圖;該裝置可包括:文本獲取模塊101、編碼模塊102和安全檢測模塊103。
[0121]文本獲取模塊101,用于根據(jù)客戶端上報的網(wǎng)址,從所述網(wǎng)址對應(yīng)的網(wǎng)頁文件中獲取頁面內(nèi)容文本。
[0122]其中,網(wǎng)址指網(wǎng)頁(或網(wǎng)站)地址,可以為URL。根據(jù)網(wǎng)址的安全性劃分,網(wǎng)址可分為安全網(wǎng)址和惡意網(wǎng)址;安全網(wǎng)址指正規(guī)網(wǎng)站的地址,例如:各大銀行的官方網(wǎng)址、各購物網(wǎng)站的官方網(wǎng)址等等;惡意網(wǎng)址指各類欺詐、仿冒、釣魚和掛馬等網(wǎng)頁地址,例如:仿冒各類正規(guī)網(wǎng)站的惡意網(wǎng)址等等,客戶端訪問惡意網(wǎng)址可能造成客戶端隱私信息泄漏、木馬病毒感染等危害。所述文本獲取模塊101可以根據(jù)客戶端上報的網(wǎng)址,從該網(wǎng)址對應(yīng)的網(wǎng)頁文件中獲取頁面內(nèi)容文本以作后續(xù)的安全性檢測分析。本發(fā)明實施例中,客戶端上報的網(wǎng)址指客戶端從瀏覽器地址欄采集到的當(dāng)前正在訪問的網(wǎng)址,以保證客戶端當(dāng)前訪問的安全性,但可以理解的是,本發(fā)明實施例并不對此進行限定,客戶端上報的網(wǎng)址還可以是客戶端收集到的用戶輸入并請求查詢的網(wǎng)址,等等。
[0123]編碼模塊102,用于采用預(yù)設(shè)的編碼算法將所述頁面內(nèi)容文本轉(zhuǎn)換為待檢測編碼。
[0124]其中,所述預(yù)設(shè)的編碼算法優(yōu)選為Simhash算法。Simhash算法是LocalSensitive Hash (局部敏感哈希)算法的一種,其特點在于局部敏感,即當(dāng)輸入內(nèi)容發(fā)生少量變化時,通過Simhash算法計算獲得的Hash值不變或者僅發(fā)生輕微變化??梢岳斫獾氖?,所述預(yù)設(shè)的編碼算法還可以為其他類型的算法,本發(fā)明實施例并不對此進行限定,例如:預(yù)設(shè)的編碼算法還可以采用PHA (Perceptual Hashing,感知哈希)算法等等。
[0125]安全檢測模塊103,用于分析所述待檢測編碼以確定所述網(wǎng)址的安全性。
[0126]所述安全檢測模塊103可以將待檢測編碼與已知的惡意網(wǎng)址對應(yīng)的頁面文本內(nèi)容的編碼進行比對,如果二者相似,則可確定客戶端上報的待檢測的網(wǎng)址為惡意網(wǎng)址,從而快速確定出網(wǎng)址安全性。
[0127]本發(fā)明實施例通過對客戶端上報的網(wǎng)址對應(yīng)的網(wǎng)頁文件中的頁面內(nèi)容文本進行編碼及分析,既能夠?qū)崿F(xiàn)網(wǎng)址安全性的檢測,同時,由于對頁面內(nèi)容文本的編碼進行分析,避免了直接對頁面內(nèi)容文本的字符進行分析所帶來的資源耗費,有效提升網(wǎng)址安全性檢測的效率,有效地保護客戶端的網(wǎng)絡(luò)安全。
[0128]請參見圖5,為本發(fā)明實施例提供的另一種網(wǎng)址安全性檢測裝置的結(jié)構(gòu)示意圖;該裝置可包括:文本獲取模塊101、編碼模塊102、安全檢測模塊103和白名單判斷模塊104。其中,文本獲取模塊101、編碼模塊102和安全檢測模塊103的結(jié)構(gòu)和功能可參見圖4所示實施例的相關(guān)描述,在此不贅述。
[0129]白名單判斷模塊104,用于判斷所述網(wǎng)址是否為白名單庫中的安全網(wǎng)址。
[0130]所述白名單庫中包含至少一個安全網(wǎng)址。安全網(wǎng)址指正規(guī)網(wǎng)站的地址,例如:各大銀行的官方網(wǎng)址、各購物網(wǎng)站的官方網(wǎng)址等等,本實施例中,安全網(wǎng)址可被收錄于白名單庫中,以用于對客戶端上報的網(wǎng)址的安全性進行初步檢測。
[0131]本發(fā)明實施例通過對客戶端上報的網(wǎng)址對應(yīng)的網(wǎng)頁文件中的頁面內(nèi)容文本進行編碼及分析,既能夠?qū)崿F(xiàn)網(wǎng)址安全性的檢測,同時,由于對頁面內(nèi)容文本的編碼進行分析,避免了直接對頁面內(nèi)容文本的字符進行分析所帶來的資源耗費,有效提升網(wǎng)址安全性檢測的效率,有效地保護客戶端的網(wǎng)絡(luò)安全。
[0132]請參見圖6,為本發(fā)明實施例提供的一種文本獲取模塊的結(jié)構(gòu)示意圖;該文本獲取模塊101可包括:下載單元1101、解析單元1102和文本提取單元1103。
[0133]下載單元1101,用于根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件。
[0134]其中,網(wǎng)址指網(wǎng)頁(或網(wǎng)站)地址,可以為URL。根據(jù)網(wǎng)址安全性劃分,網(wǎng)址可分為安全網(wǎng)址和惡意網(wǎng)址;安全網(wǎng)址指正規(guī)網(wǎng)站的地址,例如:各大銀行的官方網(wǎng)址、各購物網(wǎng)站的官方網(wǎng)址等等;惡意網(wǎng)址指各類欺詐、仿冒、釣魚和掛馬等網(wǎng)頁地址,例如:仿冒各類正規(guī)網(wǎng)站的惡意網(wǎng)址等等,客戶端訪問惡意網(wǎng)址可能造成客戶端的隱私信息泄漏、木馬病毒感染等危害。所述下載單元1101根據(jù)客戶端上報的網(wǎng)址,可以從網(wǎng)絡(luò)服務(wù)器中下載該網(wǎng)址對應(yīng)的網(wǎng)頁文件,該網(wǎng)頁文件包括但不限于:HTML文件、JS文件、CSS文件等等,本發(fā)明實施例中,客戶端上報的網(wǎng)址指客戶端從瀏覽器地址欄采集到的當(dāng)前正在訪問的網(wǎng)址,以保證客戶端當(dāng)前訪問的安全性,但可以理解的是,本發(fā)明實施例并不對此進行限定,客戶端上報的網(wǎng)址還可以是客戶端收集到的用戶輸入并請求查詢的網(wǎng)址,等等。
[0135]解析單元1102,用于解析所述網(wǎng)頁文件,獲取所述網(wǎng)頁文件的頁面內(nèi)容文本。
[0136]本發(fā)明實施例通過對客戶端上報的網(wǎng)址對應(yīng)的網(wǎng)頁文件中的頁面內(nèi)容文本進行編碼及分析,既能夠?qū)崿F(xiàn)網(wǎng)址安全性的檢測,同時,由于對頁面內(nèi)容文本的編碼進行分析,避免了直接對頁面內(nèi)容文本的字符進行分析所帶來的資源耗費,有效提升網(wǎng)址安全性檢測的效率,有效地保護客戶端的網(wǎng)絡(luò)安全。
[0137]請參見圖7,為本發(fā)明實施例提供的一種編碼模塊的結(jié)構(gòu)示意圖;本實施例中,所述預(yù)設(shè)的編碼算法優(yōu)選為Simhash算法。該編碼模塊102可包括:分詞處理單元1201、編碼計算單元1202、加權(quán)單元1203、合并單元1204、降維處理單元1205和編碼確定單元1206。
[0138]分詞處理單元1201,用于對所述頁面內(nèi)容文本進行分詞處理,獲得至少一個文本分詞。
[0139]其中,所述分詞處理單元1201可靈活采用各種分詞方法,對所述頁面內(nèi)容文本進行分詞處理的方法,該分詞方法包括但不限于:基于字符串匹配的分詞方法、基于統(tǒng)計的分詞方法等等。分詞處理的目的在于去除停詞或噪音詞,諸如:的、了、呀等等,提取表征頁面內(nèi)容文本的特征的文本分詞;例如:針對“中國的互聯(lián)網(wǎng)技術(shù)的發(fā)展趨勢”的頁面內(nèi)容文本,經(jīng)過所述分詞處理單元1201的分詞處理后,可獲得的文本分詞如下:“中國”、“互聯(lián)網(wǎng)”、“技術(shù)”、“發(fā)展”、“趨勢”。
[0140]編碼計算單元1202,用于采用Hash算法對各文本分詞進行編碼計算,獲得各文本分詞的Hash編碼。
[0141]其中,一個文本分詞對應(yīng)一個Hash編碼。所述編碼計算單元1202將文本分詞編碼為Hash編碼,即是將一個字符串轉(zhuǎn)換為二進制數(shù)值的過程。
[0142]加權(quán)單元1203,用于對各文本分詞的Hash編碼進行加權(quán)處理,獲得各文本分詞的權(quán)值序列。
[0143]按照各文本分詞在頁面內(nèi)容文本中的重要程度,可以為各文本分詞分配權(quán)重;例如:按照本實施例中的例子,可設(shè)置權(quán)重級別為1-5,權(quán)重值越大,表明該文本分詞在頁面內(nèi)容文本中的重要程度越高,如“中國”權(quán)重可為4,“互聯(lián)網(wǎng)”權(quán)重可為5,“技術(shù)”權(quán)重可為3,“發(fā)展”權(quán)重可為4,“趨勢”權(quán)重可為2。所述加權(quán)單元1203采用各文本分詞各自的權(quán)重,對各文本分詞的Hash編碼進行加權(quán)處理,則可以形成各文本分詞的加權(quán)數(shù)字串,該加權(quán)數(shù)字串即為該文本分詞的權(quán)值序列;需要說明的是,在加權(quán)處理過程中,若二進制位為1,權(quán)重為正值,若二進制位為0,權(quán)重為負值;例如:假設(shè)“中國”的Hash編碼為“100101”,通過將其采用權(quán)重4進行加權(quán)后,可得到“4-4-44-44”的加權(quán)數(shù)字串,則“4_4_44_44”即為“中國”這一文本分詞的權(quán)值序列。
[0144]合并單元1204,用于將所述各文本分詞的權(quán)值序列進行合并處理,獲得所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串。
[0145]經(jīng)過所述加權(quán)單元1203的處理,每一個文本分詞均對應(yīng)一個權(quán)值序列,所述合并單元1204則將各文本分詞的權(quán)值序列進行按位累加計算,合并為一個權(quán)值序列串,該權(quán)值序列串即可表征所述頁面內(nèi)容文本的特征。例如:假設(shè)“中國”的權(quán)值序列為“4-4-44-44”,“互聯(lián)網(wǎng)”的權(quán)值序列為“5-55-555”,所述合并單元1204對二者進行合并處理過程為“4+5-4+-5-4+54+-5-4+54+5”,從而得到“9-91-119”的權(quán)值序列串;同理,可獲得所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串。
[0146]降維處理單元1205,用于對所述頁面內(nèi)容文本的權(quán)值序列串進行降維處理,生成所述頁面內(nèi)容文本對應(yīng)的Simhash編碼。
[0147]所述降維處理單元1205將所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串進行降維處理的目的,即是將所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串轉(zhuǎn)換為二進制編碼,從而生成所述頁面內(nèi)容文本對應(yīng)的Simhash編碼。需要說明的是,在降維處理過程中,將所述頁面內(nèi)容對應(yīng)的權(quán)值序列串中大于O的位設(shè)置為1,小于O的位設(shè)置為O ;例如:“9-91-119”的權(quán)值序列串經(jīng)降維處理后,可得到的Simhash編碼為“101011”。
[0148]編碼確定單元1206,用于將所述頁面內(nèi)容文本對應(yīng)的Simhash編碼確定為待檢測編碼。
[0149]本發(fā)明實施例通過對客戶端上報的網(wǎng)址對應(yīng)的網(wǎng)頁文件中的頁面內(nèi)容文本進行編碼及分析,既能夠?qū)崿F(xiàn)網(wǎng)址安全性的檢測,同時,由于對頁面內(nèi)容文本的編碼進行分析,避免了直接對頁面內(nèi)容文本的字符進行分析所帶來的資源耗費,有效提升網(wǎng)址安全性檢測的效率,有效地保護客戶端的網(wǎng)絡(luò)安全。
[0150]請參見圖8,為本發(fā)明實施例提供的一種安全檢測模塊的結(jié)構(gòu)示意圖;該安全檢測模塊103可包括:判斷單元1301和安全性確定單元1302。
[0151]判斷單元1301,用于判斷惡意樣本編碼庫中是否存在與所述待檢測編碼相似的惡意樣本編碼。
[0152]具體實現(xiàn)中,所述判斷單元1301的結(jié)構(gòu)可參見圖9,為本發(fā)明實施例提供的一種判斷單元的結(jié)構(gòu)示意圖;該判斷單元1301可包括:比較子單元1311和判斷子單元1312。
[0153]比較子單元1311,用于將所述待檢測編碼與所述惡意樣本編碼庫中的各惡意樣本編碼進行二進制位比較。
[0154]例如:假設(shè)惡意樣本編碼庫中包含a、b、c三個惡意樣本編碼,待檢測編碼為k,所述比較子單元1311需要分別將k與a進行二進制位比較,將k與b進行二進制位比較,將k與c進行二進制位比較。
[0155]判斷子單元1312,用于當(dāng)所述惡意樣本編碼庫中任一惡意樣本編碼與所述待檢測編碼具有差異二進制位,且差異二進制位的數(shù)量小于預(yù)設(shè)閾值時,判斷所述惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼。
[0156]參見上述例子,如果k與a、b、c三者之一具有差異二進制位(即不同的二進制位),且差異二進制位的數(shù)量小于預(yù)設(shè)閾值,則可判斷惡意樣本編碼庫中存在與k相似的惡意樣本編碼,例如:假設(shè)k、a、b、c均為6位二進制,預(yù)設(shè)閾值為2,如果k與a僅有I個差異二進制位,由此可判斷k與a相似,即判斷惡意樣本編碼庫中存在與待檢測編碼相似的惡意樣本編碼。相反,如果k與a、b或c的差異二進制位的數(shù)量均大于或等于預(yù)設(shè)閾值,則可判斷k與a、b、c均不相似,從而判斷所述惡意樣本編碼庫中沒有與所述待檢測編碼相似的惡意樣本編碼。
[0157]安全性確定單元1302,用于當(dāng)判斷所述惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼時,確定所述網(wǎng)址為惡意網(wǎng)址。
[0158]其中,所述惡意樣本編碼庫中包括至少一個惡意樣本編碼,一個惡意樣本編碼指采用預(yù)設(shè)的編碼算法對一個惡意網(wǎng)址對應(yīng)的網(wǎng)頁文件的頁面內(nèi)容文本進行編碼計算獲得的編碼。所述預(yù)設(shè)的編碼算法優(yōu)選為Simhash算法,所述惡意樣本編碼優(yōu)選為Simhash編碼。如果所述判斷單元1301判斷惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼,利用Simhash算法的特點可知,所述安全性確定單元1302可確定該待檢測編碼即為一惡意樣本編碼,從而可確定客戶端上報的網(wǎng)址為一惡意網(wǎng)址。
[0159]本發(fā)明實施例通過對客戶端上報的網(wǎng)址對應(yīng)的網(wǎng)頁文件中的頁面內(nèi)容文本進行編碼及分析,既能夠?qū)崿F(xiàn)網(wǎng)址安全性的檢測,同時,由于對頁面內(nèi)容文本的編碼進行分析,避免了直接對頁面內(nèi)容文本的字符進行分析所帶來的資源耗費,有效提升網(wǎng)址安全性檢測的效率,有效地保護客戶端的網(wǎng)絡(luò)安全。
[0160]本發(fā)明實施例還公開了一種服務(wù)器,該服務(wù)器可包含一網(wǎng)址安全性檢測裝置,該網(wǎng)址安全性檢測裝置的結(jié)構(gòu)和功能可參見上述圖4-圖9所示實施例的相關(guān)描述,在此不贅述。
[0161]本發(fā)明實施例通過對客戶端上報的網(wǎng)址對應(yīng)的網(wǎng)頁文件中的頁面內(nèi)容文本進行編碼及分析,既能夠?qū)崿F(xiàn)網(wǎng)址安全性的檢測,同時,由于對頁面內(nèi)容文本的編碼進行分析,避免了直接對頁面內(nèi)容文本的字符進行分析所帶來的資源耗費,有效提升網(wǎng)址安全性檢測的效率,有效地保護客戶端的網(wǎng)絡(luò)安全。
[0162]本發(fā)明實施例還公開了另一種服務(wù)器,具體請參見圖10,為本發(fā)明實施例提供的一種服務(wù)器的結(jié)構(gòu)示意圖;本發(fā)明實施例的服務(wù)器包括:至少一個處理器201,例如CPU,至少一個通信總線202,至少一個網(wǎng)絡(luò)接口 203,存儲器204。其中,通信總線202用于實現(xiàn)這些組件之間的連接通信。其中,所述網(wǎng)絡(luò)接口 203可選的可以包括標(biāo)準(zhǔn)的有線接口、無線接口(如W1-F1、移動通信接口等)。所述存儲器204可以是高速RAM存儲器,也可以是非不穩(wěn)定的存儲器(non-volatile memory),例如至少一個磁盤存儲器。所述存儲器204可選的還可以是至少一個位于遠離前述處理器201的存儲裝置。如圖8所示,作為一種計算機存儲介質(zhì)的存儲器204中存儲有操作系統(tǒng)、網(wǎng)絡(luò)通信模塊,并存儲有用于進行網(wǎng)址安全性檢測的程序以及其他程序。
[0163]其中具體的,所述處理器201可以用于調(diào)用所述存儲器204中存儲的用于進行網(wǎng)址安全性檢測的程序,執(zhí)行以下步驟:
[0164]根據(jù)客戶端上報的網(wǎng)址,從所述網(wǎng)址對應(yīng)的網(wǎng)頁文件中獲取頁面內(nèi)容文本;
[0165]采用預(yù)設(shè)的編碼算法將所述頁面內(nèi)容文本轉(zhuǎn)換為待檢測編碼;
[0166]分析所述待檢測編碼以確定所述網(wǎng)址的安全性。
[0167]進一步,所述處理器201在執(zhí)行根據(jù)客戶端上報的網(wǎng)址,從所述網(wǎng)址對應(yīng)的網(wǎng)頁文件中獲取頁面內(nèi)容文本的步驟時,具體執(zhí)行如下步驟:
[0168]根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件;
[0169]解析所述網(wǎng)頁文件,獲取所述網(wǎng)頁文件的頁面內(nèi)容文本。
[0170]進一步,所述處理器201在執(zhí)行所述根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件的步驟之前,還執(zhí)行以下步驟:
[0171]判斷所述網(wǎng)址是否為白名單庫中的安全網(wǎng)址,所述白名單庫中包含至少一個安全網(wǎng)址;
[0172]若判斷結(jié)果為否,則執(zhí)行所述根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件的步驟。
[0173]進一步,所述預(yù)設(shè)的編碼算法為Simhash算法;所述處理器201在執(zhí)行所述采用預(yù)設(shè)的編碼算法將所述頁面內(nèi)容文本轉(zhuǎn)換為待檢測編碼的步驟時,具體執(zhí)行如下步驟:
[0174]對所述頁面內(nèi)容文本進行分詞處理,獲得至少一個文本分詞;
[0175]采用Hash算法對各文本分詞進行編碼計算,獲得各文本分詞的Hash編碼;
[0176]對各文本分詞的Hash編碼進行加權(quán)處理,獲得各文本分詞的權(quán)值序列;
[0177]將所述各文本分詞的權(quán)值序列進行合并處理,獲得所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串;
[0178]對所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串進行降維處理,生成所述頁面內(nèi)容文本對應(yīng)的Simhash編碼;
[0179]將所述頁面內(nèi)容文本對應(yīng)的Simhash編碼確定為待檢測編碼。
[0180]進一步,所述處理器201在執(zhí)行所述分析所述待檢測編碼以確定所述網(wǎng)址的安全性的步驟時,具體執(zhí)行如下步驟:
[0181]判斷惡意樣本編碼庫中是否存在與所述待檢測編碼相似的惡意樣本編碼,所述惡意樣本編碼庫中包括至少一個惡意樣本編碼,所述惡意樣本編碼為Simhash編碼;
[0182]若判斷所述惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼,則確定所述網(wǎng)址為惡意網(wǎng)址。
[0183]進一步,所述處理器201在執(zhí)行所述判斷惡意樣本編碼庫中是否存在與所述待檢測編碼相似的惡意樣本編碼的步驟時,具體執(zhí)行如下步驟:
[0184]將所述待檢測編碼與所述惡意樣本編碼庫中的各惡意樣本編碼進行二進制位比較;
[0185]若所述惡意樣本編碼庫中任一惡意樣本編碼與所述待檢測編碼具有差異二進制位,且差異二進制位的數(shù)量小于預(yù)設(shè)閾值,則判斷所述惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼。
[0186]本發(fā)明實施例通過對客戶端上報的網(wǎng)址對應(yīng)的網(wǎng)頁文件中的頁面內(nèi)容文本進行編碼及分析,既能夠?qū)崿F(xiàn)網(wǎng)址安全性的檢測,同時,由于對頁面內(nèi)容文本的編碼進行分析,避免了直接對頁面內(nèi)容文本的字符進行分析所帶來的資源耗費,有效提升網(wǎng)址安全性檢測的效率,有效地保護客戶端的網(wǎng)絡(luò)安全。
[0187]本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機存儲記憶體(Random AccessMemory, RAM)等。
[0188]以上所揭露的僅為本發(fā)明一種較佳實施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例的全部或部分流程,并依本發(fā)明權(quán)利要求所作的等同變化,仍屬于發(fā)明所涵蓋的范圍。
【權(quán)利要求】
1.一種網(wǎng)址安全性檢測方法,其特征在于,包括: 根據(jù)客戶端上報的網(wǎng)址,從所述網(wǎng)址對應(yīng)的網(wǎng)頁文件中獲取頁面內(nèi)容文本; 采用預(yù)設(shè)的編碼算法將所述頁面內(nèi)容文本轉(zhuǎn)換為待檢測編碼; 分析所述待檢測編碼以確定所述網(wǎng)址的安全性。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)客戶端上報的網(wǎng)址,從所述網(wǎng)址對應(yīng)的網(wǎng)頁文件中獲取頁面內(nèi)容文本,包括: 根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件; 解析所述網(wǎng)頁文件,獲取所述網(wǎng)頁文件的頁面內(nèi)容文本。
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件之前,還包括: 判斷所述網(wǎng)址是否為白名單庫中的安全網(wǎng)址,所述白名單庫中包含至少一個安全網(wǎng)址; 若判斷結(jié)果為否,則執(zhí)行所述根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件的步驟。
4.如權(quán)利要求1-3任一項所述的方法,其特征在于,所述預(yù)設(shè)的編碼算法為Simhash算法; 所述采用預(yù)設(shè)的編碼算法將所述頁面內(nèi)容文本轉(zhuǎn)換為待檢測編碼,包括: 對所述頁面內(nèi)容文本進行分詞處理,獲得至少一個文本分詞; 采用Hash算法對各文本分詞進行編碼計算,獲得各文本分詞的Hash編碼; 對各文本分詞的Hash編碼進行加權(quán)處理,獲得各文本分詞的權(quán)值序列; 將所述各文本分詞的權(quán)值序列進行合并處理,獲得所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串; 對所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串進行降維處理,生成所述頁面內(nèi)容文本對應(yīng)的Simhash 編碼; 將所述頁面內(nèi)容文本對應(yīng)的Simhash編碼確定為待檢測編碼。
5.如權(quán)利要求4所述的方法,其特征在于,所述分析所述待檢測編碼以確定所述網(wǎng)址的安全性,包括: 判斷惡意樣本編碼庫中是否存在與所述待檢測編碼相似的惡意樣本編碼,所述惡意樣本編碼庫中包括至少一個惡意樣本編碼,所述惡意樣本編碼為Simhash編碼; 若判斷所述惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼,則確定所述網(wǎng)址為惡意網(wǎng)址。
6.如權(quán)利要求5所述的方法,其特征在于,所述判斷惡意樣本編碼庫中是否存在與所述待檢測編碼相似的惡意樣本編碼,包括: 將所述待檢測編碼與所述惡意樣本編碼庫中的各惡意樣本編碼進行二進制位比較;若所述惡意樣本編碼庫中任一惡意樣本編碼與所述待檢測編碼具有差異二進制位,且差異二進制位的數(shù)量小于預(yù)設(shè)閾值,則判斷所述惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼。
7.一種網(wǎng)址安全性檢測裝置,其特征在于,包括: 文本獲取模塊,用于根據(jù)客戶端上報的網(wǎng)址,從所述網(wǎng)址對應(yīng)的網(wǎng)頁文件中獲取頁面內(nèi)容文本; 編碼模塊,用于采用預(yù)設(shè)的編碼算法將所述頁面內(nèi)容文本轉(zhuǎn)換為待檢測編碼; 安全檢測模塊,用于分析所述待檢測編碼以確定所述網(wǎng)址的安全性。
8.如權(quán)利要求7所述的裝置,其特征在于,所述文本獲取模塊包括: 下載單元,用于根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件; 解析單元,用于解析所述網(wǎng)頁文件,獲取所述網(wǎng)頁文件的頁面內(nèi)容文本。
9.如權(quán)利要求8所述的裝置,其特征在于,還包括: 白名單判斷模塊,用于判斷所述網(wǎng)址是否為白名單庫中的安全網(wǎng)址,所述白名單庫中包含至少一個安全網(wǎng)址; 所述下載單元用于在所述白名單判斷模塊判斷結(jié)果為否時,根據(jù)客戶端上報的網(wǎng)址,下載所述網(wǎng)址對應(yīng)的網(wǎng)頁文件。
10.如權(quán)利要求7或8所述的裝置,其特征在于,所述編碼模塊包括: 分詞處理單元,用于對所述頁面內(nèi)容文本進行分詞處理,獲得至少一個文本分詞;編碼計算單元,用于采用Hash算法對各文本分詞進行編碼計算,獲得各文本分詞的Hash編碼; 加權(quán)單元,用于對各文本分詞的Hash編碼進行加權(quán)處理,獲得各文本分詞的權(quán)值序列; 合并單元,用于將所述各文本分詞的權(quán)值序列進行合并處理,獲得所述頁面內(nèi)容文本對應(yīng)的權(quán)值序列串; 降維處理單元,用于對所述頁面內(nèi)容文本的權(quán)值序列串進行降維處理,生成所述頁面內(nèi)容文本對應(yīng)的Simhash編碼; 編碼確定單元,用于將所述頁面內(nèi)容文本對應(yīng)的Simhash編碼確定為待檢測編碼; 其中,所述預(yù)設(shè)的編碼算法為Simhash算法。
11.如權(quán)利要求9所述的裝置,其特征在于,所述安全檢測模塊包括: 判斷單元,用于判斷惡意樣本編碼庫中是否存在與所述待檢測編碼相似的惡意樣本編碼,所述惡意樣本編碼庫中包括至少一個惡意樣本編碼,所述惡意樣本編碼為Simhash編碼; 安全性確定單元,用于當(dāng)判斷所述惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼時,確定所述網(wǎng)址為惡意網(wǎng)址。
12.如權(quán)利要求11所述的裝置,其特征在于,所述判斷單元包括: 比較子單元,用于將所述待檢測編碼與所述惡意樣本編碼庫中的各惡意樣本編碼進行二進制位比較; 判斷子單元,用于當(dāng)所述惡意樣本編碼庫中任一惡意樣本編碼與所述待檢測編碼具有差異二進制位,且差異二進制位的數(shù)量小于預(yù)設(shè)閾值時,判斷所述惡意樣本編碼庫中存在與所述待檢測編碼相似的惡意樣本編碼。
13.一種服務(wù)器,其特征在于,包括如權(quán)利要求7-12任一項所述的網(wǎng)址安全性檢測裝置。
【文檔編號】H04L29/06GK104079559SQ201410247805
【公開日】2014年10月1日 申請日期:2014年6月5日 優(yōu)先權(quán)日:2014年6月5日
【發(fā)明者】張輝 申請人:騰訊科技(深圳)有限公司