一種文件的聚類(lèi)方法和設(shè)備的制作方法【專(zhuān)利摘要】本發(fā)明實(shí)施例公開(kāi)了文件的聚類(lèi)方法和設(shè)備,應(yīng)用于信息處理【
技術(shù)領(lǐng)域:
】。本發(fā)明實(shí)施例中,在對(duì)待處理文件進(jìn)行聚類(lèi)時(shí),可以通過(guò)對(duì)待處理文件中包含的多個(gè)信息塊的特征的信息指紋的比較,來(lái)將信息指紋相同的待處理文件作為一個(gè)聚類(lèi),實(shí)現(xiàn)了文件的聚類(lèi)。這樣采用信息指紋的方式對(duì)待處理文件中信息塊的特征進(jìn)行標(biāo)識(shí),然后根據(jù)標(biāo)識(shí)來(lái)進(jìn)行聚類(lèi),相比現(xiàn)有技術(shù)中相似性比較,采用本發(fā)明實(shí)施例中計(jì)算特征的標(biāo)識(shí)并聚類(lèi)的運(yùn)算量和復(fù)雜度會(huì)很大程度的降低?!緦?zhuān)利說(shuō)明】一種文件的聚類(lèi)方法和設(shè)備【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及信息處理【
技術(shù)領(lǐng)域:
】,特別涉及文件的聚類(lèi)方法和設(shè)備?!?br>背景技術(shù):
】[0002]隨著互聯(lián)網(wǎng)的發(fā)展,信息爆炸式地增長(zhǎng),其中,計(jì)算機(jī)病毒、蠕蟲(chóng)、木馬程序等計(jì)算機(jī)惡意程序的信息每日都危害用戶(hù)設(shè)備的安全,而大部分惡意程序的文件都是可移植可執(zhí)行(PortableExecutable,PE)格式的文件,這些PE文件雖然數(shù)量大,但是很多都具有家族特性。這樣可以對(duì)PE文件先進(jìn)行聚類(lèi)(Cluster),即根據(jù)事先定義的度量將一些相似的對(duì)象組成群體,然后從聚類(lèi)結(jié)果中發(fā)現(xiàn)新家族的PE文件,有利于病毒的分析和查殺。[0003]目前,文件的聚類(lèi)方法主要有兩種,一種是傳統(tǒng)的聚類(lèi)方法,比如k均值聚類(lèi)、層次聚類(lèi)等,這種方法需要提取文件的特征,并通過(guò)對(duì)兩個(gè)文件的特征進(jìn)行相似性比較實(shí)現(xiàn)文件聚類(lèi);另一種是基于內(nèi)容分割的分片哈希算法(ContextTriggeredPiecewiseHashing,CTPH),這種方法需要將文件進(jìn)行分片,然后通過(guò)對(duì)兩個(gè)文件的分片進(jìn)行相似性的比較實(shí)現(xiàn)文件聚類(lèi)。但是上述現(xiàn)有的文件聚類(lèi)方法中相似性比較的計(jì)算量比較大,且比較復(fù)雜?!?br/>發(fā)明內(nèi)容】[0004]本發(fā)明實(shí)施例提供文件的聚類(lèi)方法和設(shè)備,簡(jiǎn)化文件聚類(lèi)的復(fù)雜度。[0005]本發(fā)明實(shí)施例提供一種文件的聚類(lèi)方法,包括:[0006]分別對(duì)待處理文件中的多個(gè)信息塊的進(jìn)行特征提??;[0007]計(jì)算提取的所述多個(gè)信息塊中各個(gè)信息塊的特征的信息指紋;[0008]根據(jù)所述各個(gè)信息塊的特征的信息指紋獲取所述待處理文件的信息指紋;[0009]將信息指紋相同的待處理文件作為一個(gè)聚類(lèi)輸出。[0010]本發(fā)明實(shí)施例提供一種文件的聚類(lèi)設(shè)備,包括:[0011]特征提取單元,用于分別對(duì)待處理文件中的多個(gè)信息塊的進(jìn)行特征提??;[0012]第一指紋計(jì)算單元,用于計(jì)算提取的所述多個(gè)信息塊中各個(gè)信息塊的特征的信息指紋;[0013]第二指紋計(jì)算單元,用于根據(jù)所述各個(gè)信息塊的特征的信息指紋獲取所述待處理文件的信息指紋;[0014]聚類(lèi)輸出單元,用于將信息指紋相同的待處理文件作為一個(gè)聚類(lèi)輸出。[0015]本發(fā)明實(shí)施例中,在對(duì)待處理文件進(jìn)行聚類(lèi)時(shí),可以通過(guò)對(duì)待處理文件中包含的多個(gè)信息塊的特征的信息指紋的比較,來(lái)將信息指紋相同的待處理文件作為一個(gè)聚類(lèi),實(shí)現(xiàn)了文件的聚類(lèi)。這樣采用信息指紋的方式對(duì)待處理文件中信息塊的特征進(jìn)行標(biāo)識(shí),然后根據(jù)標(biāo)識(shí)來(lái)進(jìn)行聚類(lèi),相比現(xiàn)有技術(shù)中相似性比較,采用本發(fā)明實(shí)施例中計(jì)算特征的標(biāo)識(shí)并聚類(lèi)的運(yùn)算量和復(fù)雜度會(huì)很大程度的降低?!緦?zhuān)利附圖】【附圖說(shuō)明】[0016]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0017]圖1是本發(fā)明實(shí)施例提供的一種文件的聚類(lèi)方法流程圖;[0018]圖2是本發(fā)明實(shí)施例中PE文件包含的.text節(jié)中數(shù)據(jù)的示意圖;[0019]圖3是本發(fā)明實(shí)施例提供的另一種文件的聚類(lèi)方法流程圖;[0020]圖4是本發(fā)明實(shí)施例中一種PE文件的聚類(lèi)方法流程圖;[0021]圖5是本發(fā)明實(shí)施例提供的一種文件的聚類(lèi)設(shè)備的示意圖;[0022]圖6是本發(fā)明實(shí)施例提供的一種文件的聚類(lèi)設(shè)備的示意圖;[0023]圖7是本發(fā)明實(shí)施例提供的一種文件的聚類(lèi)設(shè)備的示意圖。【具體實(shí)施方式】[0024]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。[0025]本發(fā)明實(shí)施例提供一種文件的聚類(lèi)方法,比如對(duì)PE等文件的聚類(lèi)主要是計(jì)算機(jī)所執(zhí)行的方法,流程圖如圖1所示,包括:[0026]步驟101,分別對(duì)待處理文件中的多個(gè)信息塊的進(jìn)行特征提取。[0027]可以理解,每個(gè)文件都可以劃分為不同的信息塊,對(duì)于PE文件來(lái)說(shuō),該P(yáng)E文件可以用于不同的操作系統(tǒng)和體系結(jié)構(gòu)中,且可以封裝操作系統(tǒng)加載可執(zhí)行程序代碼時(shí)所必需的信息,包括動(dòng)態(tài)鏈接庫(kù)、導(dǎo)入和導(dǎo)出表、資源管理數(shù)據(jù)和線(xiàn)程局部存儲(chǔ)數(shù)據(jù)等,而大部分惡意程序都是PE文件。PE文件可以分為不同的信息塊,稱(chēng)為節(jié)(sections),比如.text節(jié),.data節(jié),.rsrc節(jié),.reloc節(jié)等,每節(jié)中包含具有共同屬性的數(shù)據(jù),具體可以是數(shù)據(jù)0(00)到數(shù)據(jù)255(FF)之間的數(shù)據(jù)。[0028]計(jì)算機(jī)可以對(duì)待處理文件中的全部或部分信息塊進(jìn)行特征提取,且在進(jìn)行特征提取時(shí),具體可以提取信息塊的數(shù)據(jù)分布信息,該數(shù)據(jù)分布區(qū)信息可以指示各個(gè)數(shù)據(jù)在該信息塊中分布的情況,具體可以包括部分或全部數(shù)據(jù)的頻率和/或個(gè)數(shù),比如數(shù)據(jù)IC出現(xiàn)的頻率和個(gè)數(shù)等。例如圖2所示的部分.text節(jié)的數(shù)據(jù)中,數(shù)據(jù)77出現(xiàn)的頻率較大。[0029]步驟102,計(jì)算步驟101中提取的多個(gè)信息塊中各個(gè)信息塊的特征的信息指紋,其中一個(gè)信息塊的信息指紋是將該信息塊加工得到的一個(gè)隨機(jī)數(shù),能作為區(qū)別其他信息塊的標(biāo)識(shí),常用的信息指紋計(jì)算方法有局部敏感哈希計(jì)算等,本發(fā)明實(shí)施例中,得到的信息指紋可以標(biāo)識(shí)一個(gè)信息塊的特征。[0030]步驟103,根據(jù)各個(gè)信息塊的特征的信息指紋獲取待處理文件的信息指紋,具體地,可以將各個(gè)信息塊的特征的信息指紋拼接得到一個(gè)待處理文件的信息指紋;或可以通過(guò)其它方式得到待處理文件的信息指紋,該信息指紋中包含了該待處理文件包含步驟102中獲得的各個(gè)信息塊的特征的信息指紋。[0031]步驟104,將步驟103中獲得的信息指紋相同的待處理文件作為一個(gè)聚類(lèi)輸出。[0032]可見(jiàn),本發(fā)明實(shí)施例中,在對(duì)待處理文件進(jìn)行聚類(lèi)時(shí),可以通過(guò)對(duì)待處理文件中包含的多個(gè)信息塊的特征的信息指紋的比較,來(lái)將信息指紋相同的待處理文件作為一個(gè)聚類(lèi),實(shí)現(xiàn)了文件的聚類(lèi)。這樣采用信息指紋的方式對(duì)待處理文件中信息塊的特征進(jìn)行標(biāo)識(shí),然后根據(jù)標(biāo)識(shí)來(lái)進(jìn)行聚類(lèi),相比現(xiàn)有技術(shù)中相似性比較,采用本發(fā)明實(shí)施例中計(jì)算特征的標(biāo)識(shí)并聚類(lèi)的運(yùn)算量和復(fù)雜度會(huì)很大程度的降低。[0033]參考圖3所示,在一個(gè)具體的實(shí)施例中,計(jì)算機(jī)在執(zhí)行上述步驟102時(shí),具體可以通過(guò)如下的步驟來(lái)實(shí)現(xiàn):[0034]步驟201,分別將步驟101中提取的多個(gè)信息塊中各個(gè)信息塊的特征進(jìn)行歸一化處理,這樣可以將各個(gè)信息塊的特征都統(tǒng)一成比較方便運(yùn)算的數(shù)據(jù)。[0035]步驟202,計(jì)算歸一化處理后的各個(gè)信息塊的特征的信息指紋,具體地計(jì)算機(jī)可以直接按照信息指紋的計(jì)算函數(shù)來(lái)計(jì)算,或可以通過(guò)如下步驟A和B來(lái)實(shí)現(xiàn):[0036]A:分別調(diào)整歸一化處理后的所述各個(gè)信息塊的特征的范圍,具體可以通過(guò)核空間映射或加權(quán)等方法進(jìn)行調(diào)整,從而根據(jù)實(shí)際情況縮放各個(gè)信息塊的特征之間的差異,比如兩個(gè)信息塊的特征之間的差別為100,則通過(guò)本步驟的范圍調(diào)整,使得這兩個(gè)信息塊的特征之間的差別縮小為20,更進(jìn)一步地縮小了計(jì)算復(fù)雜度。[0037]在通過(guò)核空間映射方法進(jìn)行調(diào)整時(shí),具體可以根據(jù)核空間的映射函數(shù),將歸一化處理后的各個(gè)信息塊的特征分別映射到映射函數(shù)對(duì)應(yīng)的核空間,且不同待處理文件中相同屬性的信息塊采用的映射函數(shù)相同,比如不同待處理的PE文件中.text節(jié)采用的映射函數(shù)相同,而一個(gè)待處理文件中不同信息塊采用的映射函數(shù)可以相同,也可以不同。[0038]通過(guò)加權(quán)方法進(jìn)行調(diào)整時(shí),計(jì)算機(jī)可以分別對(duì)歸一化處理后的各個(gè)信息塊的特征進(jìn)行加權(quán)運(yùn)算,且不同信息塊對(duì)應(yīng)的加權(quán)值可以不同,也可以相同。[0039]B:計(jì)算調(diào)整范圍后的各個(gè)信息塊的特征的信息指紋,具體地,可以按照一定的信息指紋運(yùn)算函數(shù),來(lái)計(jì)算各個(gè)信息塊的特征對(duì)應(yīng)的信息指紋。[0040]以下以一個(gè)具體的實(shí)施例來(lái)說(shuō)明本發(fā)明實(shí)施例中文件的聚類(lèi)方法,本實(shí)施例中,主要是計(jì)算機(jī)對(duì)十六進(jìn)制的PE文件進(jìn)行的聚類(lèi),流程圖如圖4所示,具體包括:[0041]步驟301,判斷PE文件是否加殼(Packer),即是否是通過(guò)一系列的數(shù)學(xué)運(yùn)算使得編碼改變后的PE文件,如果是,執(zhí)行步驟302,如果不是,則執(zhí)行步驟303。[0042]步驟302,對(duì)加殼后的PE文件進(jìn)行脫殼(Unpacker),即除掉PE文件的加殼保護(hù),與步驟301互為逆運(yùn)算,之后執(zhí)行步驟303。[0043]步驟303,分別提取PE文件中指定的m個(gè)節(jié)的數(shù)據(jù)分布信息,比如在每個(gè)節(jié)中0(00)到255(FF)之間的數(shù)據(jù)的分布頻率,得到m個(gè)256維的特征向量記為Hi=Dvh1,...,h255],i=1,...,m,其中h可以表示各個(gè)數(shù)據(jù)的分布頻率。其中,如果有些PE文件中沒(méi)有該指定的m個(gè)節(jié)中的某些節(jié),這這些節(jié)對(duì)應(yīng)的特征向量為0,即Hi=[0,0,...,0]o[0044]步驟304,對(duì)步驟303中得到的m個(gè)特征向量進(jìn)行歸一化處理,得到歸一化后的m個(gè)特征向量,記為自h^Jl其中歸一化處理所使用的函數(shù)為I=L-▲」5【權(quán)利要求】1.一種文件的聚類(lèi)方法,其特征在于,包括:分別對(duì)待處理文件中的多個(gè)信息塊的進(jìn)行特征提?。挥?jì)算提取的所述多個(gè)信息塊中各個(gè)信息塊的特征的信息指紋;根據(jù)所述各個(gè)信息塊的特征的信息指紋獲取所述待處理文件的信息指紋;將信息指紋相同的待處理文件作為一個(gè)聚類(lèi)輸出。2.如權(quán)利要求1所述的方法,其特征在于,所述分別對(duì)待處理文件中的多個(gè)信息塊的進(jìn)行特征提取,具體包括:分別提取所述多個(gè)信息塊的數(shù)據(jù)分布信息,所述數(shù)據(jù)分布信息包括信息塊中部分或全部數(shù)據(jù)的頻率或個(gè)數(shù)。3.如權(quán)利要求1或2所述的方法,其特征在于,所述分別計(jì)算提取的所述多個(gè)信息塊中各個(gè)信息塊的特征的信息指紋具體還包括:分別將提取的所述多個(gè)信息塊中各個(gè)信息塊的特征進(jìn)行歸一化處理;計(jì)算歸一化處理后的所述各個(gè)信息塊的特征的信息指紋。4.如權(quán)利要求3所述的方法,其特征在于,所述計(jì)算歸一化處理后的所述各個(gè)信息塊的特征的信息指紋,具體包括:分別調(diào)整歸一化處理后的所述各個(gè)信息塊的特征的范圍;計(jì)算調(diào)整范圍后的所述各個(gè)信息塊的特征的信息指紋。5.如權(quán)利要求4所述的方法,其特征在于,所述分別調(diào)整歸一化處理后的所述各個(gè)信息塊的特征的范圍,具體包括:根據(jù)核空間的映射函數(shù),將歸一化處理后的所述各個(gè)信息塊的特征分別映射到所述映射函數(shù)對(duì)應(yīng)的核空間,不同待處理文件中相同屬性的信息塊采用的映射函數(shù)相同;或,分別對(duì)歸一化處理后的所述各個(gè)信息塊的特征進(jìn)行加權(quán)運(yùn)算。6.一種文件的聚類(lèi)設(shè)備,其特征在于,包括:特征提取單元,用于分別對(duì)待處理文件中的多個(gè)信息塊的進(jìn)行特征提取;第一指紋計(jì)算單元,用于計(jì)算提取的所述多個(gè)信息塊中各個(gè)信息塊的特征的信息指紋;第二指紋計(jì)算單元,用于根據(jù)所述各個(gè)信息塊的特征的信息指紋獲取所述待處理文件的信息指紋;聚類(lèi)輸出單元,用于將信息指紋相同的待處理文件作為一個(gè)聚類(lèi)輸出。7.如權(quán)利要求6所述的設(shè)備,其特征在于,所述特征提取單元,具體用于分別提取所述多個(gè)信息塊的數(shù)據(jù)分布信息,所述數(shù)據(jù)分布信息包括信息塊中部分或全部數(shù)據(jù)的頻率或個(gè)數(shù)。8.如權(quán)利要求6或7所述的設(shè)備,其特征在于,所述第一指紋計(jì)算單元具體包括:歸一化單元,用于分別將提取的所述多個(gè)信息塊中各個(gè)信息塊的特征進(jìn)行歸一化處理;第一計(jì)算單元,用于計(jì)算歸一化處理后的所述各個(gè)信息塊的特征的信息指紋。9.如權(quán)利要求8所述的設(shè)備,其特征在于,所述第一計(jì)算單元包括:范圍調(diào)整單元,用于分別調(diào)整歸一化處理后的所述各個(gè)信息塊的特征的范圍;第二計(jì)算單元,用于計(jì)算調(diào)整范圍后的所述各個(gè)信息塊的特征的信息指紋。10.如權(quán)利要求9所述的設(shè)備,其特征在于,所述范圍調(diào)整單元,具體用于根據(jù)核空間的映射函數(shù),將歸一化處理后的所述各個(gè)信息塊的特征分別映射到所述映射函數(shù)對(duì)應(yīng)的核空間,不同待處理文件中相同屬性的信息塊采用的映射函數(shù)相同;和/或,所述范圍調(diào)整單元,具體用于分別對(duì)歸一化處理后的所述各個(gè)信息塊的特征進(jìn)行加權(quán)運(yùn)算。【文檔編號(hào)】G06F21/56GK104008334SQ201310055669【公開(kāi)日】2014年8月27日申請(qǐng)日期:2013年2月21日優(yōu)先權(quán)日:2013年2月21日【發(fā)明者】楊宜,于濤,陶波申請(qǐng)人:騰訊科技(深圳)有限公司