所述若干個(gè)病毒樣本分為至少一個(gè)類別,以使屬于同一個(gè)類別的任意兩個(gè)病毒樣本的特征值之間的相似度大于等于一預(yù)設(shè)閾值,還包括:
[0187]將所述若干個(gè)病毒樣本分為若干份,并與所述特征值集合一起分別發(fā)送給若干個(gè)計(jì)算設(shè)備,以使所述計(jì)算設(shè)備依次計(jì)算每一病毒樣本的特征值與所述特征值集合中所有特征值的相似度,并將每一病毒樣本標(biāo)記為與該病毒樣本的特征值之間的相似度最大的特征值所對(duì)應(yīng)的類別;
[0188]接收來(lái)自所述若干個(gè)計(jì)算設(shè)備的每一病毒樣本的類別標(biāo)記,以對(duì)所述若干個(gè)病毒樣本進(jìn)行分類。
[0189]B16、根據(jù)前述方案B9至B15中任意一項(xiàng)所述的方法,其特征在于,所述預(yù)設(shè)條件包括:
[0190]任一計(jì)算設(shè)備的所述處理時(shí)間小于第一預(yù)設(shè)值;
[0191]和/ 或,
[0192]所有計(jì)算設(shè)備的所述處理時(shí)間趨于一致;
[0193]和/ 或,
[0194]在剩余的所有樣本的數(shù)量大于第二預(yù)設(shè)值時(shí),任一所述計(jì)算設(shè)備的所述處理時(shí)間趨近于第三預(yù)設(shè)值。
[0195]本發(fā)明的說(shuō)明書中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書的理解。
[0196]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本發(fā)明公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋呈反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0197]本領(lǐng)域技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在于該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是互相排斥之處,可以采用任何組合對(duì)本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。
[0198]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。
[0199]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的一種瀏覽器終端的設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0200]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
[0201]最后應(yīng)說(shuō)明的是:以上各實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說(shuō)明書的范圍當(dāng)中。
【主權(quán)項(xiàng)】
1.一種病毒特征的提取裝置,其特征在于,包括: 獲取單元,用于獲取若干個(gè)病毒樣本; 分類單元,用于將所述獲取單元得到的若干個(gè)病毒樣本分為至少一個(gè)類別,以使屬于同一個(gè)類別的任意兩個(gè)病毒樣本的特征值之間的相似度大于等于一預(yù)設(shè)閾值; 提取單元,用于對(duì)于所述分類單元得到的每一類別,提取屬于該類別的所有病毒樣本的共同特征。2.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述病毒樣本的特征值為該病毒樣本在文件格式下的模糊哈希特征值。3.根據(jù)權(quán)利要求1或2所述的裝置,其特征在于,所述分類單元具體包括: 獲取模塊,用于獲取所述獲取單元得到的若干個(gè)病毒樣本的特征值,以組成特征值集合; 估計(jì)模塊,用于估計(jì)每一可用的計(jì)算設(shè)備的計(jì)算速度; 重復(fù)模塊,用于在所述特征值集合中任意兩個(gè)特征值之間的相似度小于預(yù)設(shè)閾值之前,重復(fù)地執(zhí)行下述步驟: 根據(jù)所述估計(jì)模塊得到的每一可用的計(jì)算設(shè)備的計(jì)算速度將所述特征值集合中的所有特征值分配給至少一個(gè)計(jì)算設(shè)備,以使所述至少一個(gè)計(jì)算設(shè)備在處理時(shí)間滿足預(yù)設(shè)條件的前提下對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值。4.根據(jù)權(quán)利要求3所述的裝置,其特征在于,所述估計(jì)模塊具體包括: 發(fā)送子模塊,用于將所述獲取單元得到的預(yù)設(shè)數(shù)量的特征值發(fā)送給任一可用的計(jì)算設(shè)備,以使該計(jì)算設(shè)備對(duì)所述預(yù)設(shè)數(shù)量的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值; 獲取子模塊,用于獲取該計(jì)算設(shè)備的處理時(shí)間,以得到所述每一可用的計(jì)算設(shè)備的計(jì)算速度的估計(jì)值。5.根據(jù)權(quán)利要求3所述的裝置,其特征在于,所述重復(fù)模塊具體包括: 確定子模塊,用于根據(jù)所述估計(jì)模塊得到的每一可用的計(jì)算設(shè)備的計(jì)算速度和所述預(yù)設(shè)條件確定分配給每一計(jì)算設(shè)備的特征值的數(shù)量; 發(fā)送子模塊,用于按照所述確定子模塊得到的特征值的數(shù)量將所述特征值集合中的所有特征值分發(fā)給至少一個(gè)計(jì)算設(shè)備,以使所述至少一個(gè)計(jì)算設(shè)備對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值; 接收子模塊,用于接收來(lái)自所述至少一個(gè)計(jì)算設(shè)備的篩選后的特征值,以更新所述特征值集合。6.根據(jù)權(quán)利要求3所述的裝置,其特征在于,所述對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值,具體包括: 將一個(gè)特征值保留,并對(duì)其余的所有特征值依次執(zhí)行以下步驟: 判斷特征值是否與已保留的任一特征值之間的相似度大于等于所述預(yù)設(shè)閾值; 若是,則將該特征值去除; 若否,則將該特征值保留。7.根據(jù)權(quán)利要求3所述的裝置,其特征在于,所述分類單元還包括: 發(fā)送模塊,用于將所有待聚類的樣本分為若干份,并與所述重復(fù)模塊得到的特征值集合一起分別發(fā)送給若干個(gè)計(jì)算設(shè)備,以使所述計(jì)算設(shè)備依次計(jì)算每一樣本的特征值與所述特征值集合中所有特征值的相似度,并將每一樣本標(biāo)記為與該樣本的特征值之間的相似度最大的特征值所對(duì)應(yīng)的類別; 接收模塊,用于接收來(lái)自所述若干個(gè)計(jì)算設(shè)備的每一樣本的類別標(biāo)記,以對(duì)所有待聚類的樣本進(jìn)行分類。8.根據(jù)權(quán)利要求1至7中任意一項(xiàng)所述的裝置,其特征在于,所述預(yù)設(shè)條件包括: 任一計(jì)算設(shè)備的所述處理時(shí)間小于第一預(yù)設(shè)值; 和/或, 所有計(jì)算設(shè)備的所述處理時(shí)間趨于一致; 和/或, 在所述特征值集合中的特征值數(shù)量大于第二預(yù)設(shè)值時(shí),任一所述計(jì)算設(shè)備的所述處理時(shí)間趨近于第三預(yù)設(shè)值。9.一種病毒特征的提取方法,其特征在于,包括: 獲取若干個(gè)病毒樣本; 將所述若干個(gè)病毒樣本分為至少一個(gè)類別,以使屬于同一個(gè)類別的任意兩個(gè)病毒樣本的特征值之間的相似度大于等于一預(yù)設(shè)閾值; 對(duì)于每一類別,提取屬于該類別的所有病毒樣本的共同特征。10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述病毒樣本的特征值為該病毒樣本在文件格式下的模糊哈希特征值。
【專利摘要】本發(fā)明提供了一種病毒特征的提取方法及裝置,其中的方法包括:獲取若干個(gè)病毒樣本;將所述若干個(gè)病毒樣本分為至少一個(gè)類別,以使屬于同一個(gè)類別的任意兩個(gè)病毒樣本的特征值之間的相似度大于等于一預(yù)設(shè)閾值;對(duì)于每一類別,提取屬于該類別的所有病毒樣本的共同特征。本發(fā)明不僅可以解決現(xiàn)有技術(shù)中相對(duì)固定的分類規(guī)則很容易導(dǎo)致病毒庫(kù)中信息的冗余的問(wèn)題,大大降低病毒庫(kù)中的信息冗余,還可以有助于改進(jìn)病毒的分類機(jī)制,提升病毒檢測(cè)的準(zhǔn)確程度和檢測(cè)效率。
【IPC分類】G06F21/56
【公開號(hào)】CN104978526
【申請(qǐng)?zhí)枴緾N201510378081
【發(fā)明人】唐海, 陳卓, 楊康
【申請(qǐng)人】北京奇虎科技有限公司, 奇智軟件(北京)有限公司
【公開日】2015年10月14日
【申請(qǐng)日】2015年6月30日