,可以具體包括未在附圖中所示出的下述步驟流程:
[0119]步驟201:將一個(gè)特征值保留,并對(duì)其余的所有特征值依次執(zhí)行以下步驟:
[0120]步驟202:判斷特征值是否與已保留的任一特征值之間的相似度大于等于上述預(yù)設(shè)閾值;
[0121]步驟203:若是,則將該特征值去除;
[0122]步驟204:若否,則將該特征值保留。
[0123]由此,上述計(jì)算設(shè)備可以按照上述步驟201至步驟204的流程來(lái)進(jìn)行聚類計(jì)算。
[0124]在上述任一實(shí)施例的基礎(chǔ)上,述預(yù)設(shè)條件可以包括下述任意一個(gè)條件,或者任意多個(gè)條件的組合:
[0125]條件Fl:任一計(jì)算設(shè)備的上述處理時(shí)間小于第一預(yù)設(shè)值;
[0126]條件F2:所有計(jì)算設(shè)備的上述處理時(shí)間趨于一致;
[0127]條件F3:在上述特征值集合中的特征值數(shù)量大于第二預(yù)設(shè)值時(shí),任一上述計(jì)算設(shè)備的上述處理時(shí)間趨近于第三預(yù)設(shè)值。
[0128]另外,上述分類單元52還可以包括附圖中未示出的下述結(jié)構(gòu):
[0129]發(fā)送模塊524,用于將所有待聚類的樣本分為若干份,并與上述重復(fù)模塊523得到的特征值集合一起分別發(fā)送給若干個(gè)計(jì)算設(shè)備,以使上述計(jì)算設(shè)備依次計(jì)算每一樣本的特征值與上述特征值集合中所有特征值的相似度,并將每一樣本標(biāo)記為與該樣本的特征值之間的相似度最大的特征值所對(duì)應(yīng)的類別;
[0130]接收模塊525,用于接收來(lái)自上述若干個(gè)計(jì)算設(shè)備的每一樣本的類別標(biāo)記,以對(duì)所有待聚類的樣本進(jìn)行分類。
[0131]可以理解的是,發(fā)送模塊524和接收模塊525可以分別執(zhí)行上述步驟1025和步驟1026的流程,因而可以具有相應(yīng)的功能與結(jié)構(gòu),在此不再贅述。基于此,同一類別中所有病毒樣本均是相似(比如互為變種,或是具有相同的作者、腳本或源碼)的,因此可以通過(guò)提取共同特征來(lái)獲取該類別區(qū)別于其他類別的特征。由此,可以利用得到的病毒類別及其共同特征組成病毒庫(kù),用以進(jìn)行病毒的查殺。
[0132]應(yīng)理解的是,本發(fā)明的其他實(shí)施例還公開(kāi)了如下技術(shù)方案:
[0133]Al、一種病毒特征的提取裝置,其特征在于,包括:
[0134]獲取單元,用于獲取若干個(gè)病毒樣本;
[0135]分類單元,用于將所述獲取單元得到的若干個(gè)病毒樣本分為至少一個(gè)類別,以使屬于同一個(gè)類別的任意兩個(gè)病毒樣本的特征值之間的相似度大于等于一預(yù)設(shè)閾值;
[0136]提取單元,用于對(duì)于所述分類單元得到的每一類別,提取屬于該類別的所有病毒樣本的共同特征。
[0137]A2、根據(jù)前述方案Al所述的裝置,其特征在于,所述病毒樣本的特征值為該病毒樣本在文件格式下的模糊哈希特征值。
[0138]A3、根據(jù)前述方案Al或A2所述的裝置,其特征在于,所述分類單元具體包括:
[0139]獲取模塊,用于獲取所述獲取單元得到的若干個(gè)病毒樣本的特征值,以組成特征值集合;
[0140]估計(jì)模塊,用于估計(jì)每一可用的計(jì)算設(shè)備的計(jì)算速度;
[0141]重復(fù)模塊,用于在所述特征值集合中任意兩個(gè)特征值之間的相似度小于預(yù)設(shè)閾值之前,重復(fù)地執(zhí)行下述步驟:
[0142]根據(jù)所述估計(jì)模塊得到的每一可用的計(jì)算設(shè)備的計(jì)算速度將所述特征值集合中的所有特征值分配給至少一個(gè)計(jì)算設(shè)備,以使所述至少一個(gè)計(jì)算設(shè)備在處理時(shí)間滿足預(yù)設(shè)條件的前提下對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值。
[0143]A4、根據(jù)前述方案A3所述的裝置,其特征在于,所述估計(jì)模塊具體包括:
[0144]發(fā)送子模塊,用于將所述獲取單元得到的預(yù)設(shè)數(shù)量的特征值發(fā)送給任一可用的計(jì)算設(shè)備,以使該計(jì)算設(shè)備對(duì)所述預(yù)設(shè)數(shù)量的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值;
[0145]獲取子模塊,用于獲取該計(jì)算設(shè)備的處理時(shí)間,以得到所述每一可用的計(jì)算設(shè)備的計(jì)算速度的估計(jì)值。
[0146]A5、根據(jù)前述方案A3所述的裝置,其特征在于,所述重復(fù)模塊具體包括:
[0147]確定子模塊,用于根據(jù)所述估計(jì)模塊得到的每一可用的計(jì)算設(shè)備的計(jì)算速度和所述預(yù)設(shè)條件確定分配給每一計(jì)算設(shè)備的特征值的數(shù)量;
[0148]發(fā)送子模塊,用于按照所述確定子模塊得到的特征值的數(shù)量將所述特征值集合中的所有特征值分發(fā)給至少一個(gè)計(jì)算設(shè)備,以使所述至少一個(gè)計(jì)算設(shè)備對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值;
[0149]接收子模塊,用于接收來(lái)自所述至少一個(gè)計(jì)算設(shè)備的篩選后的特征值,以更新所述特征值集合。
[0150]A6、根據(jù)前述方案A3所述的裝置,其特征在于,所述對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值,具體包括:
[0151]將一個(gè)特征值保留,并對(duì)其余的所有特征值依次執(zhí)行以下步驟:
[0152]判斷特征值是否與已保留的任一特征值之間的相似度大于等于所述預(yù)設(shè)閾值;
[0153]若是,則將該特征值去除;
[0154]若否,則將該特征值保留。
[0155]A7、根據(jù)前述方案A3所述的裝置,其特征在于,所述分類單元還包括:
[0156]發(fā)送模塊,用于將所有待聚類的樣本分為若干份,并與所述重復(fù)模塊得到的特征值集合一起分別發(fā)送給若干個(gè)計(jì)算設(shè)備,以使所述計(jì)算設(shè)備依次計(jì)算每一樣本的特征值與所述特征值集合中所有特征值的相似度,并將每一樣本標(biāo)記為與該樣本的特征值之間的相似度最大的特征值所對(duì)應(yīng)的類別;
[0157]接收模塊,用于接收來(lái)自所述若干個(gè)計(jì)算設(shè)備的每一樣本的類別標(biāo)記,以對(duì)所有待聚類的樣本進(jìn)行分類。
[0158]AS、根據(jù)前述方案Al至A7中任意一項(xiàng)所述的裝置,其特征在于,所述預(yù)設(shè)條件包括:
[0159]任一計(jì)算設(shè)備的所述處理時(shí)間小于第一預(yù)設(shè)值;
[0160]和/ 或,
[0161]所有計(jì)算設(shè)備的所述處理時(shí)間趨于一致;
[0162]和/ 或,
[0163]在所述特征值集合中的特征值數(shù)量大于第二預(yù)設(shè)值時(shí),任一所述計(jì)算設(shè)備的所述處理時(shí)間趨近于第三預(yù)設(shè)值。
[0164]B9、一種病毒特征的提取方法,其特征在于,包括:
[0165]獲取若干個(gè)病毒樣本;
[0166]將所述若干個(gè)病毒樣本分為至少一個(gè)類別,以使屬于同一個(gè)類別的任意兩個(gè)病毒樣本的特征值之間的相似度大于等于一預(yù)設(shè)閾值;
[0167]對(duì)于每一類別,提取屬于該類別的所有病毒樣本的共同特征。
[0168]B10、根據(jù)前述方案B9所述的方法,其特征在于,所述病毒樣本的特征值為該病毒樣本在文件格式下的模糊哈希特征值。
[0169]B11、根據(jù)前述方案B9或BlO所述的方法,其特征在于,所述將所述若干個(gè)病毒樣本分為至少一個(gè)類別,以使屬于同一個(gè)類別的任意兩個(gè)病毒樣本的特征值之間的相似度大于等于一預(yù)設(shè)閾值,包括:
[0170]獲取所述若干個(gè)病毒樣本的特征值,以組成特征值集合;
[0171]估計(jì)每一可用的計(jì)算設(shè)備的計(jì)算速度;
[0172]在所述特征值集合中任意兩個(gè)特征值之間的相似度小于預(yù)設(shè)閾值之前,重復(fù)地進(jìn)行下述步驟:
[0173]根據(jù)所述每一可用的計(jì)算設(shè)備的計(jì)算速度將所述特征值集合中的所有特征值分配給至少一個(gè)計(jì)算設(shè)備,以使所述至少一個(gè)計(jì)算設(shè)備在處理時(shí)間滿足預(yù)設(shè)條件的前提下對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值。
[0174]B12、根據(jù)前述方案Bll所述的方法,其特征在于,所述估計(jì)每一可用的計(jì)算設(shè)備的計(jì)算速度,包括:
[0175]將預(yù)設(shè)數(shù)量的特征值發(fā)送給任一可用的計(jì)算設(shè)備,以使該計(jì)算設(shè)備對(duì)所述預(yù)設(shè)數(shù)量的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值;
[0176]獲取該計(jì)算設(shè)備的處理時(shí)間,以得到所述每一可用的計(jì)算設(shè)備的計(jì)算速度的估計(jì)值。
[0177]B13、根據(jù)前述方案Bll所述的方法,其特征在于,所述根據(jù)所述每一可用的計(jì)算設(shè)備的計(jì)算速度將所述特征值集合中的所有特征值分配給至少一個(gè)計(jì)算設(shè)備,以使所述至少一個(gè)計(jì)算設(shè)備在處理時(shí)間滿足預(yù)設(shè)條件的前提下對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值,包括:
[0178]根據(jù)所述每一可用的計(jì)算設(shè)備的計(jì)算速度和所述預(yù)設(shè)條件確定分配給每一計(jì)算設(shè)備的特征值的數(shù)量;
[0179]按照所確定的特征值的數(shù)量將所述特征值集合中的所有特征值分發(fā)給至少一個(gè)計(jì)算設(shè)備,以使所述至少一個(gè)計(jì)算設(shè)備對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值;
[0180]接收來(lái)自所述至少一個(gè)計(jì)算設(shè)備的篩選后的特征值,以更新所述特征值集合。
[0181]B14、根據(jù)前述方案Bll所述的方法,其特征在于,所述對(duì)分配到的特征值進(jìn)行篩選,使得任意兩個(gè)特征值之間的相似度小于所述預(yù)設(shè)閾值,具體包括:
[0182]將一個(gè)特征值保留,并對(duì)其余的所有特征值依次執(zhí)行以下步驟:
[0183]判斷特征值是否與已保留的任一特征值之間的相似度大于等于所述預(yù)設(shè)閾值;
[0184]若是,則將該特征值去除;
[0185]若否,則將該特征值保留。
[0186]B15、根據(jù)前述方案Bll所述的方法,其特征在于,所述將