本公開涉及計算機(jī)網(wǎng)絡(luò)安全和通信技術(shù)領(lǐng)域,特別涉及一種惡意統(tǒng)一資源定位符(uniformresourcelocator,url)識別方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)絡(luò)的發(fā)展,互聯(lián)網(wǎng)絡(luò)給人們帶來了諸多方便。但是在互聯(lián)網(wǎng)絡(luò)給人們帶來諸多方便的同時,其安全問題也極大的困擾著網(wǎng)絡(luò)用戶,比如,一些惡意url誘導(dǎo)用戶訪問詐騙網(wǎng)站、掛馬網(wǎng)站、病毒網(wǎng)站等惡意網(wǎng)站。因此,需要識別惡意url,提高互聯(lián)網(wǎng)絡(luò)的安全性。
目前,通常使用如下方法識別惡意url:將已有的惡意url的進(jìn)行收集形成惡意url特征庫,當(dāng)需要進(jìn)行惡意url識別時,獲取待識別的url,將獲取到的待識別的url與惡意url特征庫進(jìn)行匹配,如果在惡意url特征庫中匹配到與該待識別url相一致的url時,則判斷該url為惡意url。
但發(fā)明人在實現(xiàn)本公開的過程中,發(fā)現(xiàn)相關(guān)技術(shù)至少存在如下缺陷:
惡意url特征庫只保存了已出現(xiàn)的惡意url,所以惡意url特征庫更新緩慢,對新出現(xiàn)的惡意url反應(yīng)遲緩,不能及時識別,而且在識別上使用精確匹配模式,容易產(chǎn)生漏殺問題。
技術(shù)實現(xiàn)要素:
為了解決相關(guān)技術(shù)中存在的問題,本公開提供一種惡意統(tǒng)一資源定位符識別方法和裝置。所述技術(shù)方案如下:
根據(jù)本公開實施例的第一方面,提供一種惡意統(tǒng)一資源定位符識別方法,該方法包括:
獲取待識別的第一url;
如果預(yù)設(shè)第一url集合中不包括所述第一url,則獲取所述第一url中預(yù)設(shè)的第一字符;
在所述第一url中將所述第一字符替換為與所述第一字符具有預(yù)設(shè)相似關(guān)系的第二字符,得到第二url;
如果所述預(yù)設(shè)第一url集合中包括所述第二url,則識別出所述第一url為惡意url。
可選的,所述在所述第一url中將所述第一字符替換為與所述第一字符具有預(yù)設(shè)相似關(guān)系的第二字符,得到第二url,包括:
從所述獲取的第一字符中選擇獲取的全部或部分字符;
在所述第一url中將所述選擇的字符替換為與所述選擇的字符具有相似關(guān)系的第二字符,得到第二url。
可選的,所述在所述第一url中將所述選擇的字符替換為與所述選擇的字符具有相似關(guān)系的第二字符,得到第二url,包括:
從預(yù)設(shè)字符對集合中獲取包括所述選擇的字符的字符對,所述字符對包括所述選擇的字符和與所述選擇的字符具有預(yù)設(shè)相似關(guān)系的第二字符;
在所述第一url中將所述選擇的字符替換為所述字符對包括的第二字符,得到第二url。
可選的,所述方法還包括:
如果所述預(yù)設(shè)第一url集合中不包括所述第二url,則獲取所述第一url的url參數(shù)信息,所述url參數(shù)信息包括所述第一url的傳播特征信息、存活時間、查詢域名whois特征信息和網(wǎng)站特征信息中的至少一者;
根據(jù)所述第一url的url參數(shù)信息識別所述第一url是否為惡意url。
可選的,所述根據(jù)所述第一url的url參數(shù)信息識別所述第一url是否為惡意url,包括:
根據(jù)所述url參數(shù)信息中包括的每種參數(shù)的參數(shù)大小,分別設(shè)置所述每種參數(shù)對應(yīng)的權(quán)重大??;
對所述每種參數(shù)對應(yīng)的權(quán)重大小相加得到第一數(shù)值;
如果所述第一數(shù)值大于預(yù)設(shè)閾值,則識別出所述第一url為惡意url。
根據(jù)本公開實施例的第二方面,提供一種惡意統(tǒng)一資源定位符識別裝置,該裝置包括:
第一獲取模塊,用于獲取待識別的第一url;
第二獲取模塊,用于如果預(yù)設(shè)第一url集合中不包括所述第一獲取模塊獲 取的所述第一url,則獲取所述第一url中預(yù)設(shè)的第一字符;
替換模塊,用于在所述第一url中將所述第一字符替換為與所述第一字符具有預(yù)設(shè)相似關(guān)系的第二字符,得到第二url;
第一識別模塊,用于如果所述預(yù)設(shè)第一url集合中包括所述替換模塊替換得到的第二url,則識別出所述第一url為惡意url。
可選的,所述替換模塊,包括:
選擇子模塊,用于從所述第二獲取模塊獲取的所述第一字符中選擇獲取的全部或部分字符;
替換子模塊,用于在所述第一url中將所述選擇子模塊選擇的字符替換為與所述選擇的字符具有預(yù)設(shè)相似關(guān)系的第二字符,得到第二url。
可選的,所述替換子模塊,包括:
獲取單元,用于從預(yù)設(shè)字符對集合中獲取包括所述選擇子模塊選擇的所述第一字符的字符對,所述字符對包括所述選擇的字符和與所述選擇的字符具有預(yù)設(shè)相似關(guān)系的第二字符;
替換單元,在所述第一url中將所述選擇的字符替換為所述字符對包括的第二字符,得到第二url。
可選的,所述裝置還包括:
第三獲取模塊,用于如果所述預(yù)設(shè)第一url集合中不包括所述第二url,則獲取所述第一url的url參數(shù)信息,所述url參數(shù)信息包括所述第一url的傳播特征信息、存活時間、查詢域名whois特征信息和網(wǎng)站特征信息中的至少一者;
第二識別模塊,用于根據(jù)所述第三獲取模塊的所述第一url的url參數(shù)信息識別所述第一url是否為惡意url。
可選的,所述第二識別模塊,包括:
設(shè)置子模塊,用于根據(jù)所述url參數(shù)信息中包括的每種參數(shù)的參數(shù)大小,分別設(shè)置所述每種參數(shù)對應(yīng)的權(quán)重大小;
相加子模塊,用于對所述每種參數(shù)對應(yīng)的所述設(shè)置子模塊設(shè)置的所述權(quán)重大小相加得到第一數(shù)值;
識別子模塊,用于如果所述相加子模塊相加得到的第一數(shù)值大于預(yù)設(shè)閾值,則識別出所述第一url為惡意url。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:
由于該惡意url識別方法并不是與惡意url庫進(jìn)行匹配來識別惡意url,而是將該待識別的第一url經(jīng)過相似字符替換后與現(xiàn)有的非惡意url比較來識別惡意url,所以在新出現(xiàn)惡意url時,也可以及時被識別,而且可以收集所有的該非惡意url存儲在終端內(nèi),以便在離線情況下也可以識別惡意url,所以該惡意url識別方法解決了不能及時識別新出現(xiàn)的惡意url和不能在離線情況下識別惡意url的問題;達(dá)到了提高惡意url識別率的效果。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性的,并不能限制本公開。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實施例,并于說明書一起用于解釋本公開的原理。
圖1是根據(jù)一示例性實施例示出的一種惡意url識別方法的流程圖;
圖2是根據(jù)另一示例性實施例示出的一種惡意url識別方法的流程圖;
圖3a是根據(jù)一示例性實施例示出的一種惡意url識別裝置的框圖;
圖3b是根據(jù)一示例性實施例示出的一種替換相似字符裝置的框圖;
圖3c是根據(jù)另一示例性實施例示出的一種替換相似字符裝置的框圖;
圖3d是根據(jù)另一示例性實施例示出的一種惡意url識別裝置的框圖;
圖3e是根據(jù)另一示例性實施例示出的一種惡意url識別裝置的框圖。
具體實施方式
這里將詳細(xì)地對示例性實施例進(jìn)行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
圖1是根據(jù)一示例性實施例示出的一種惡意url識別方法的流程圖,如圖1所示,該方法包括以下步驟:
在步驟101中,獲取待識別的第一url。
在步驟102中,如果預(yù)設(shè)第一url集合中不包括該第一url,則獲取該第一url中預(yù)設(shè)的第一字符。
在步驟103中,在該第一url中將該第一字符替換為與該第一字符具有預(yù)設(shè)相似關(guān)系的第二字符,得到第二url。
在步驟104中,如果該預(yù)設(shè)第一url集合中包括該第二url,則識別出該第一url為惡意url。
綜上所述,本公開實施例中提供的惡意url識別方法,通過將待識別的第一url中預(yù)設(shè)的第一字符替換為與第一字符之間具有預(yù)設(shè)相似條件的第二字符,得到第二url,如果預(yù)設(shè)第一url集合中包括該第二url,則識別出該第一url為惡意url;解決了不能及時識別新出現(xiàn)的惡意url和不能在離線情況下識別惡意url的問題;達(dá)到了提高惡意url識別率的效果。
圖2是根據(jù)另一示例性實施例示出的一種惡意url識別方法的流程圖。該方法通過將待識別的第一url中預(yù)設(shè)的第一字符替換為與第一字符之間具有預(yù)設(shè)相似條件的第二字符,得到第二url,如果預(yù)設(shè)第一url集合中包括該第二url,則識別出該第一url為惡意url。如圖2所示,該方法包括:
在步驟201中,獲取待識別的第一url。
當(dāng)終端接收到一個文本時,該文本可以為短信,即時消息、網(wǎng)頁上的文本或是其它文本,終端解析該文本,從該文本中獲取url。將獲取到的url存儲在終端內(nèi)存,以便在需要時,可以即時獲取。
在步驟202中,獲取預(yù)設(shè)第二url集合,判斷該預(yù)設(shè)第二url集合中是否包括該第一url。
其中,預(yù)設(shè)第二url集合包含了目前出現(xiàn)的絕大部分惡意url。該預(yù)設(shè)第二url集合可以是目前國內(nèi)國外互聯(lián)網(wǎng)、手機(jī)等安全產(chǎn)品及服務(wù)供應(yīng)商提供的惡意url庫。
該預(yù)設(shè)第二url集合可以通過調(diào)用國內(nèi)國外安全產(chǎn)品及服務(wù)供應(yīng)商提供的api接口獲取,獲取到后可以保存在本地存儲器,以便用到時可以即時調(diào)用。當(dāng)然該保存到本地的第二url集合需要實時更新,以保證該預(yù)設(shè)第二url集合盡可能多的包括新出現(xiàn)的惡意url。當(dāng)然,該第二url集合也可以不保存在本 地存儲器,在需要時可以直接調(diào)用供應(yīng)商提供的api接口,通過該api接口從供應(yīng)商調(diào)用第二url集合,這樣就不需要在本地更新第二url集合,同時也一定程度上提高了第二url集合的實時性。
獲取到該預(yù)設(shè)第二url集合后,將該第一url與該預(yù)設(shè)第二url集合中的每一個預(yù)設(shè)惡意url進(jìn)行比對,以判斷該預(yù)設(shè)第二url集合中是否包括該第一url。如果該預(yù)設(shè)第二url集合中包括該第一url,則執(zhí)行步驟203,如果該預(yù)設(shè)第二url集合中不包括該第一url,則執(zhí)行步驟204。
在步驟203中,如果該預(yù)設(shè)第二url集合中包括該第一url,則識別出該第一url為惡意url,結(jié)束操作。
在步驟204中,如果該預(yù)設(shè)第二url集合中不包括該第一url,則獲取預(yù)設(shè)第一url集合,判斷該預(yù)設(shè)第一url集合中是否包括該第一url。
其中,該預(yù)設(shè)第一url集合中包括了目前絕大多數(shù)的非惡意url。該預(yù)設(shè)第一url集合可以通過如下方法得到:收集目前絕大部分的非惡意url,組成一個非惡意url集合,存儲在終端內(nèi),以便需要時可以及時獲取。
獲取到該預(yù)設(shè)第一url集合后,將該預(yù)設(shè)第一url集合中的每一個url與該第一url進(jìn)行比對,以判斷該預(yù)設(shè)第一url集合中是否包括該第一url,如果該預(yù)設(shè)第一url集合中包括該第一url則識別出該第一url為非惡意url,如果該預(yù)設(shè)第一url集合中不包括該第一url,則執(zhí)行步驟205。
在步驟205中,如果預(yù)設(shè)第一url集合中不包括該第一url,則獲取第一url中預(yù)設(shè)的第一字符。
其中,預(yù)設(shè)字符對集合中包括了所有滿足預(yù)設(shè)相似條件的字符對。其中,相似條件指兩個字符的外形相似,比如,小寫字母l和數(shù)字1、小寫字母o和數(shù)字0、大寫字母o和數(shù)字0等。
該預(yù)設(shè)字符對集合是技術(shù)人員將外形相似的兩個字符組成一個字符對,比如0和o外形相似,就可以組成一個字符對。預(yù)設(shè)字符對集合可以為如下集合:<0,o>、<l,i>、<6,9>、<o,c>、<i,1>、<l,1>、<o,0>。
當(dāng)然這里只是例舉了一部分相似字符對,其余相似字符對不在這里一一例舉。再者,字符對0—o和字符對o—0為同一字符對,不做區(qū)分,在預(yù)設(shè)字符對集合中可以只記錄一次,也可以記錄兩次。
本步驟可以為:如果判斷出該預(yù)設(shè)第一url集合中不包括該第一url,則 讀取該第一url中的第一個字符,將該字符與該預(yù)設(shè)字符對集合中的每個字符進(jìn)行比較,如果比較出該字符屬于該預(yù)設(shè)字符對集合,則獲取該字符,得到第一個第一字符,如果比較出該字符不屬于該預(yù)設(shè)字符對集合,則不獲取該字符;然后,讀取該第一url中的第二個字符,將該字符與該預(yù)設(shè)字符對集合中的每個字符進(jìn)行比較,如果比較出該字符屬于該預(yù)設(shè)字符對集合,則獲取該字符,得到第二個第一字符,如果比較出該字符不屬于該預(yù)設(shè)字符對集合,則不獲取該字符,重復(fù)上述步驟,直到按上述方式處理完第一url中的最后一個字符,得到第一url包括的所有的字符對集合中的字符。
例如,第一url為6b1d.cn,預(yù)設(shè)字符對集合為<0,o>、<l,i>、<6,9>、<o,c>、<i,1>、<l,1>、<o,0>,讀取該第一url中的第一個字符6,將該字符6與該預(yù)設(shè)字符對集合中的每個字符進(jìn)行比較,比較出該字符6屬于該預(yù)設(shè)字符對集合,則獲取該字符6,得到第一個第一字符,然后,讀取該第一url的第二個字符b,將該字符6與該預(yù)設(shè)字符對集合中的每個字符進(jìn)行比較,比較出該字符b不屬于該預(yù)設(shè)字符對集合,則不獲取該字符b,然后,接著讀取該第一url的第三個字符1,將該字符1與該預(yù)設(shè)字符對集合中的每個字符進(jìn)行比較,比較出該字符1屬于該預(yù)設(shè)字符對集合,則獲取該字符1,得到第二個第一字符,重復(fù)上述步驟,直到按上述方式處理完第一url中的最后一個字符n,得到第一url包括的所有的字符對集合中的字符,也即,6和1。
在步驟206中,從該獲取的第一字符中選擇獲取的全部或部分字符。
仍以上述例子為例,則從該獲取的第一字符6和1中選擇獲取的全部或部分字符,比如,選擇6,或是選擇1,或是選擇6和1。
在步驟207中,從預(yù)設(shè)字符對集合中獲取包括該選擇的字符的字符對。
其中,該字符對包括該選擇的字符和與該選擇的字符具有相似關(guān)系的第二字符。
例如,如果該選擇的字符為6,則從預(yù)設(shè)的字符對集合中獲取包括該字符6的字符對,也即<6,9>;當(dāng)然,如果選擇的字符為1,則獲取的字符對為<l,i>和<l,1>;如果選擇的字符為6和1,則獲取的字符對為<6,9>、<l,i>和<l,1>。
在步驟208中,在該第一url中將該選擇的字符替換為該字符對包括的第二字符,得到第二url。
如果該第一url中只包括一個第一字符,且該第一字符只對應(yīng)一個第二字符,則對該第一url進(jìn)行一次替換,得到一個第二url;如果該第一url包括的第一字符對應(yīng)有多個第二字符,則可以用不同的第二字符對第一字符進(jìn)行替換,進(jìn)而可得到多個第二url;或是該第一url中包括的第一字符為多個,則可以選擇不同的第一字符進(jìn)行替換,也得到多個第二url。
例如,如果該選擇的字符為6,那么該字符對包括的第二字符為9,則將該第一url中的6替換為9,得到的第二url為9b1d.cn;如果該選擇的字符為1,那么該字符對包括的第二字符為i和l,則將該第一url中的1替換為i或l,得到的第二url為6bid.cn和6bld.cn;如果該選擇的字符為6和1,那么該字符對包括的第二字符為9、i和l,則將該第一url中的6替換為9,1替換為i或l,得到的第二url為9b1d.cn、6bid.cn或6bld.cn。
在步驟209中,如果該預(yù)設(shè)第一url集合中包括該第二url,則識別出該第一url為惡意url。
例如,如果,得到的第二url為9b1d.cn,該第二url在預(yù)設(shè)第一url集合中,則識別出該第一url,也即6b1d.cn為惡意url。
如果得到多個第二url,則只要其中一個第二url在預(yù)設(shè)第一url集合中,則識別出該第一url為惡意url。例如,得到的第二url為6bid.cn和6bld.cn,而在預(yù)設(shè)第一url集合中只有6bid.cn,而沒有6bld.cn,則仍識別出該第一url為惡意url。
另外,由于該第二url是由第一url經(jīng)過相似字符替換后得到的url,如果該第二url與該預(yù)設(shè)第一url集合中的的一個非惡意url相同,則說明該第一url是仿照該非惡意url得來的,目的就是讓用戶將該第一url誤認(rèn)為該非惡意url,來誤導(dǎo)用戶點(diǎn)擊該第一url,以實現(xiàn)惡意目的,所以該第一url很可能就是惡意url。
如果得到的第二url不在該第一url集合中,則可根據(jù)實際情況(比如,用戶處于離線狀態(tài),或是用戶希望只根據(jù)上述方法進(jìn)行判斷)識別該第一url為非惡意url,也可根據(jù)實際情況(比如,用戶處于在線狀態(tài),或是用戶希望根據(jù)下述方法進(jìn)行更為精確的判斷)執(zhí)行步驟210,以繼續(xù)識別該第一url。
在步驟210中,獲取該第一url的url參數(shù)信息,該url參數(shù)信息包括該第一url的傳播特征信息、存活時間、查詢域名(whois)特征信息和網(wǎng)站特 征信息中的至少一者。
其中,傳播特征信息可包括短地址跳轉(zhuǎn)層數(shù)。當(dāng)一個url較長時,可以用一個長度比該url短的字符串與該url對應(yīng),該字符串為該url的短地址,用這個較短的字符串來代替原本較長較復(fù)雜的url。當(dāng)點(diǎn)擊任意一個短地址時都可以打開該url對應(yīng)的頁面;該短地址又可以與其他的短地址對應(yīng),從而實現(xiàn)該url與多個短地址對應(yīng)。比如,將url與第一個短地址對應(yīng),再將第一個短地址與第二個短地址對應(yīng),再將第三個短地址與第三個短地址對應(yīng),以此可以實現(xiàn)第n個短地址與url的間接對應(yīng),n為大于或等于2的整數(shù),當(dāng)點(diǎn)擊該第n個短地址時,該第n個短地址經(jīng)過n次跳轉(zhuǎn)后就可以打開url。所以該短地址跳轉(zhuǎn)層數(shù)是指打開url時需要跳轉(zhuǎn)的次數(shù)。
惡意url經(jīng)常會與多個短地址對應(yīng)。所以,如果該第一url的短地址跳轉(zhuǎn)層數(shù)較多則說明該第一url為惡意url的可能性較大。
其中,存活時間可包括該url對應(yīng)的網(wǎng)站的存在的總時長,具體為從該網(wǎng)站啟用到該網(wǎng)站停止使用的時間,可以通過查詢該url對應(yīng)的ip存活時間,該url包括的域名存活時間等。由于惡意url被發(fā)現(xiàn)后很難繼續(xù)存活,所以,如果該url對應(yīng)的網(wǎng)站的存活時間較短,或是該url對應(yīng)的ip存活時間較短,或是該url包括的域名存活時間較短,則說明該url為惡意url的可能性較大。
其中,whois特征信息可包括該url包括的域名是否被注冊,該域名對應(yīng)的ip,同該ip綁定域名的數(shù)量,域名所有人,域名注冊商,或是該域名是否已經(jīng)在惡意域名的集合中等。如果該url包括的域名還未被注冊,或是該域名對應(yīng)的ip綁定域名的數(shù)量較多,或是域名所有人、域名注冊商或是域名本身已經(jīng)在惡意域名的集合中,則說明該url為惡意url的可能性較大。
其中,網(wǎng)站特征信息可包括該url對應(yīng)的網(wǎng)站的復(fù)雜度、頁面中是否包括有惡意代碼、頁面是否以圖片為主等。網(wǎng)站的復(fù)雜度可以通過該網(wǎng)站目錄層數(shù)、網(wǎng)站頁面層數(shù)等表示。由于惡意url具有存活時間短等其它特點(diǎn),所以惡意url制造者不會占用太多時間和精力來制做惡意url對應(yīng)的網(wǎng)站,所以惡意url對應(yīng)的網(wǎng)站通常是一些簡單的的網(wǎng)站,所以惡意網(wǎng)站的一般具有網(wǎng)站復(fù)雜度較低的特點(diǎn)。如果該url網(wǎng)站復(fù)雜度較低,或是頁面中包括有惡意代碼、或是頁面以圖片為主,則說明該url為惡意url的可能性較大。
當(dāng)然該url參數(shù)信息還可以是主機(jī)所在機(jī)房,域名活躍度等,在這里不做一一分析。
對于網(wǎng)站的啟動時間、ip啟用時間和域名啟用時間可以通過站長工具等網(wǎng)站進(jìn)行查詢,whois特征信息可以通過命令列接口或是網(wǎng)頁接口來查詢,對于計算網(wǎng)站的復(fù)雜度、頁判斷網(wǎng)頁頁面中是否包括有惡意代碼、頁面是否以圖片為主等其它參數(shù)信息的獲取均是現(xiàn)有技術(shù),在這里不做贅述。
在步驟211中,根據(jù)該url參數(shù)信息中包括的每種參數(shù)的參數(shù)大小,分別設(shè)置該每種參數(shù)對應(yīng)的權(quán)重大小。
其中,參數(shù)大小指該url參數(shù)包括的信息量的多少,以及該信息對該url為惡意url的影響程度。因此,該每種參數(shù)的參數(shù)大小較大時,設(shè)置該參數(shù)對應(yīng)的權(quán)重較大,參數(shù)的參數(shù)大小較小時,設(shè)置該參數(shù)對應(yīng)的權(quán)重較小。
其中,權(quán)重大小一般為0至1的數(shù)字,但不做具體限制,可以為其它任一數(shù)據(jù),只要權(quán)重大小與參數(shù)大小相一致就可以。
比如,在一次惡意url識別中,whois特征信息包含的信息量較多,而且對該url為惡意url的影響程度較大,則可以將該whois特征信息的權(quán)重設(shè)置的較大,可以為0.4;而傳播特征信息、網(wǎng)站特征信息和存活時間,包含的信息量的多少,對該url為惡意url的影響程度逐漸減少,則這三種參數(shù)對應(yīng)的權(quán)重可以為:0.3、0.2、0.1。
當(dāng)然該參數(shù)權(quán)重可以根據(jù)情況進(jìn)行變化,不做具體限制。
比如,在另一次惡意url識別中獲取到的參數(shù)大小按以下順序減少:傳播特征信息、whois特征信息、網(wǎng)站特征信息和存活時間,則這四種參數(shù)對應(yīng)的權(quán)重可以為:0.4、0.3、0.2、0.1。
當(dāng)然,在設(shè)置url參數(shù)信息時,會為每一個url參數(shù)信息設(shè)置權(quán)重,如果根據(jù)某一個參數(shù)信息識別該第一url為非惡意url時,則在下述步驟211進(jìn)行參數(shù)權(quán)重相加時,該參數(shù)權(quán)重不進(jìn)行相加,也即相當(dāng)于0。
在步驟212中,對該每種參數(shù)對應(yīng)的權(quán)重大小相加得到第一數(shù)值。
仍以上述例子為例,對四個參數(shù)相加得到第一數(shù)值:0.4+0.3+0.2+0.1=1
在步驟213中,如果該第一數(shù)值大于預(yù)設(shè)閾值,則識別出該第一url為惡意url。
本步驟可以為:將該第一數(shù)值與預(yù)設(shè)閾值相比,如果該第一數(shù)值大于預(yù)設(shè) 閾值,則識別該第一url為惡意url。
仍以上述例子為例,如果該預(yù)設(shè)閾值為0.8,則該第一數(shù)值1大于該預(yù)設(shè)閾值,因此,識別出該第一url為惡意url。
綜上所述,本公開實施例中提供的惡意url識別方法,通過將待識別的第一url與預(yù)設(shè)的第二url集合比較,識別該第一url是否為惡意url,如果該第一url是惡意url則無需進(jìn)行后續(xù)識別操作,提高了惡意url的識別效率。
綜上所述,本公開實施例中提供的惡意url識別方法,還通過將待識別的第一url中預(yù)設(shè)的第一字符替換為與第一字符之間具有預(yù)設(shè)相似條件的第二字符,得到第二url,如果預(yù)設(shè)第一url集合中包括該第二url,則識別出該第一url為惡意url;解決了不能及時識別新出現(xiàn)的惡意url和不能在離線情況下識別惡意url的問題;達(dá)到了提高惡意url識別率的效果。
綜上所述,本公開實施例中提供的惡意url識別方法,還通過獲取第一url的url參數(shù)信息并設(shè)置url參數(shù)信息的權(quán)重,將得到的url參數(shù)信息的權(quán)重進(jìn)行相加,得到第一數(shù)值,如果該第一數(shù)值大于預(yù)設(shè)閾值,則識別該第一url為惡意url,提高了識別惡意url的準(zhǔn)確性。
下述為本公開裝置實施例,可以用于執(zhí)行本公開方法實施例。對于本公開裝置實施例中未披露的細(xì)節(jié),請參照本公開方法實施例。
圖3a是根據(jù)一示例性實施例示出的一種惡意url識別裝置的框圖,該惡意url識別裝置包括但不限于:第一獲取模塊301、第二獲取模塊302、替換模塊303、第一識別模塊304。
第一獲取模塊301,用于獲取待識別的第一url。
第二獲取模塊302,用于如果預(yù)設(shè)第一url集合中不包括第一獲取模塊301獲取的第一url,則獲取第一url中預(yù)設(shè)的第一字符。
替換模塊303,用于在該第一url中將該第一字符替換為與該第一字符具有預(yù)設(shè)相似關(guān)系的第二字符,得到第二url。
第一識別模塊304,用于如果該預(yù)設(shè)第一url集合中包括該替換模塊303替換得到的第二url,則識別出該第一url為惡意url。
可選的,參見圖3b,該替換模塊303,包括:
選擇子模塊3031,用于從該第二獲取模塊302獲取的該第一字符中選擇獲取的全部或部分字符。
替換子模塊3032,用于在該第一url中將該選擇子模塊3031選擇的字符替換為與該選擇的字符具有預(yù)設(shè)相似關(guān)系的第二字符,得到第二url。
可選的,參見圖3c,該替換子模塊3032,包括:
獲取單元3032a,用于從預(yù)設(shè)字符對集合中獲取包括該選擇子模塊3031選擇的該第一字符的字符對,該字符對包括該選擇的字符和與該選擇的字符具有預(yù)設(shè)相似關(guān)系的第二字符。
替換單元3032b,在該第一url中將該選擇的字符替換為該字符對包括的第二字符,得到第二url。
可選的,參見圖3d,該裝置還包括:
第三獲取模塊305,用于如果該預(yù)設(shè)第一url集合中不包括該第二url,則獲取該第一url的url參數(shù)信息,該url參數(shù)信息包括該第一url的傳播特征信息、存活時間、查詢域名whois特征信息和網(wǎng)站特征信息中的至少一者;
第二識別模塊306,用于根據(jù)該第三獲取模塊305的該第一url的url參數(shù)信息識別該第一url是否為惡意url。
可選的,參見圖3e,該第二識別模塊306,包括:
設(shè)置子模塊3061,用于根據(jù)該url參數(shù)信息中包括的每種參數(shù)的參數(shù)大小,分別設(shè)置該每種參數(shù)對應(yīng)的權(quán)重大小。
相加子模塊3062,用于對該每種參數(shù)對應(yīng)的該設(shè)置子模塊3061設(shè)置的該權(quán)重大小相加得到第一數(shù)值。
識別子模塊3063,用于如果該相加子模塊3062相加得到的第一數(shù)值大于預(yù)設(shè)閾值,則識別出該第一url為惡意url。
可選的,參見圖3d,該裝置還包括:
第四獲取模塊307,用于獲取預(yù)設(shè)第二url集合,該第二url集合中包括至少一個惡意url。
第三識別模塊308,用于如果該第四獲取模塊307獲取的該預(yù)設(shè)第二url集合中包括該第一url,則識別出該第一url為惡意url,否則,執(zhí)行獲取該第一url中預(yù)設(shè)的第一字符的操作。
綜上所述,本公開實施例中提供的惡意url識別裝置,通過將待識別的第 一url與預(yù)設(shè)的第二url集合比較,識別該第一url是否為惡意url,如果該第一url是惡意url則無需進(jìn)行后續(xù)識別操作,提高了惡意url的識別效率。
綜上所述,本公開實施例中提供的惡意url識別裝置,還通過將待識別的第一url中預(yù)設(shè)的第一字符替換為與第一字符之間具有預(yù)設(shè)相似條件的第二字符,得到第二url,如果預(yù)設(shè)第一url集合中包括該第二url,則識別出該第一url為惡意url;解決了不能及時識別新出現(xiàn)的惡意url和不能在離線情況下識別惡意url的問題;達(dá)到了提高惡意url識別率的效果。
綜上所述,本公開實施例中提供的惡意url識別裝置,還通過獲取第一url的url參數(shù)信息并設(shè)置url參數(shù)信息的權(quán)重,將得到的url參數(shù)信息的權(quán)重進(jìn)行相加,得到第一數(shù)值,如果該第一數(shù)值大于預(yù)設(shè)閾值,則識別該第一url為惡意url,提高了識別惡意url的準(zhǔn)確性。
關(guān)于上述實施例中的裝置,其中各個模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實施例中進(jìn)行了詳細(xì)描述,此處將不做詳細(xì)闡述說明。
本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本公開的其它實施方案。本申請旨在涵蓋本公開的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本公開的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本公開的真正范圍和精神由下面的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本公開并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本公開的范圍僅由所附的權(quán)利要求來限制。