方法,其特征在于,所述根據(jù)紋理特征集合生成第一聚類簇 包括: 建立位置敏感哈希函數(shù)族,將惡意代碼的紋理特征集合映射到與哈希函數(shù)對應(yīng)的哈希 表的哈希桶中,以生成第一聚類簇。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將第一聚類簇進行合并以生成第二 聚類簇為:將第一聚類簇按照共享的紋理特征進行合并,生成第二聚類簇。5. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述信息摘要算法為以下任一種:消息 摘要算法第五版MD5、或安全散列算法SHA、或消息認證碼算法MAC、或CRC32、或SHAl、或 SHA256、或 SHA384、或 SHA512。6. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對惡意代碼PE文件進行檢測為:使 用Virustotal檢測方法對惡意代碼PE文件進行檢測。7. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對檢測結(jié)果進行處理具體包括: 對檢測結(jié)果進行預(yù)處理; 對預(yù)處理的信息根據(jù)導(dǎo)入的詞表文件進行分詞處理; 根據(jù)分詞處理的結(jié)果進行詞頻統(tǒng)計處理,以進一步進行投票處理獲得投票結(jié)果。8. 根據(jù)權(quán)利要求2或7所述的方法,其特征在于,所述檢測結(jié)果包含:反惡意代碼 antivirus部分及其對應(yīng)的結(jié)果Result部分。9. 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述預(yù)處理至少包括:分隔符替換、和特 殊符號移除、和簡寫補全。10. 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述詞頻統(tǒng)計為:對分詞處理后的關(guān)鍵 詞進行頻度統(tǒng)計,對非關(guān)鍵詞進行過濾。11. 根據(jù)權(quán)利要求10所述的方法,其特征在于,所述進行投票處理包括:根據(jù)詞頻統(tǒng)計 處理對關(guān)鍵詞中低頻詞進行過濾,對高頻詞進行由大到小排序。12. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述惡意代碼命名策略包括:行業(yè)命名 規(guī)范、公司命名規(guī)范和個性化命名規(guī)范。13. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述從紋理圖像文件獲取惡意代碼的紋 理特征為:從所述紋理圖像文件中進行特征提取,并對提取的紋理特征進行歸一化處理后, 得到惡意代碼的紋理特征。14. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將惡意代碼PE文件映射為紋理圖像 文件為:將所述惡意代碼PE文件的每個惡意代碼使用二進制映射為圖像B2M算法映射為無 損壓縮格式的紋理圖像文件。15. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述紋理圖像文件為:PNG格式,或GIF 格式,或BMP格式。16. 根據(jù)權(quán)利要求13所述的方法,其特征在于,所述特征提取包括:使用灰度共生矩陣 方法;或GIST方法;或傅里葉變換方法;或局部二值模式LBP方法進行紋理圖像文件的特 征提取。17. 根據(jù)權(quán)利要求13所述的方法,其特征在于,所述歸一化處理包括:使用高斯歸一化 算法對紋理特征進行歸一化的處理。18. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述建立位置敏感哈希函數(shù)族,將所述 惡意代碼的紋理特征映射到與哈希函數(shù)對應(yīng)的哈希表的哈希桶中,以生成第一聚類簇包 括:建立位置敏感哈希函數(shù)族,從中選擇K個位置敏感的哈希函數(shù),分別使用K個位置敏感 哈希函數(shù)對同一惡意代碼家族的紋理特征進行哈希操作,得到K個哈希值以構(gòu)成K維的哈 希桶地址,將紋理特征映射于哈希桶地址中,以生成第一類聚類簇; 所述K為自然數(shù)。19. 根據(jù)權(quán)利要求4所述的方法,其特征在于,在將第一聚類簇按照共享的紋理特征進 行合并,生成第二聚類簇時,該方法還包括:生成第二聚類簇時還生成聚類簇ID、聚類簇規(guī) 模。20. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述惡意代碼家族深度命名包括:基準 標(biāo)注、聚類簇ID、聚類簇規(guī)模、聚類簇比例; 所述,聚類簇比例為當(dāng)前聚類簇占基準標(biāo)注后的惡意代碼的比例。21. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基本標(biāo)注后,該方法還包括:對所述 基準標(biāo)記結(jié)果作為惡意代碼的描述信息存儲到惡意代碼的語料庫中。22. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述進行深度標(biāo)注后,該方法還包括;將 深度標(biāo)注的結(jié)果與消息摘要標(biāo)簽結(jié)合作為惡意代碼的基準標(biāo)簽。23.-種實現(xiàn)惡意代碼標(biāo)注的系統(tǒng),其特征在于,包括:文件處理單元、特征集合單元、 深度標(biāo)注單元;其中, 文件處理單元,用于將惡意代碼的可移植的執(zhí)行體PE文件進行處理,獲取惡意代碼的 信息摘要簽名和基準標(biāo)注和紋理特征; 特征集合單元,用于根據(jù)文件處理單元的基準標(biāo)注及信息摘要簽名,將屬于同一惡意 代碼家族的紋理特征生成相應(yīng)的紋理特征集合; 深度標(biāo)注單元,用于根據(jù)紋理特征集合生成第一聚類簇,將第一聚類簇進行合并以生 成第二聚類簇,結(jié)合信息摘要簽名及惡意代碼家族深度命名對第二聚類簇進行深度標(biāo)注。24. 根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于,所述文件處理單元包括信息摘要模塊、 基準標(biāo)注模塊和紋理特征模塊;其中, 信息摘要模塊,用于采用信息摘要算法獲取惡意代碼的PE文件中的各惡意代碼的信 息摘要作為惡意代碼的信息摘要簽名; 基準標(biāo)注模塊,用于對惡意代碼的PE文件進行檢測,將檢測結(jié)果進行處理后,結(jié)合惡 意代碼家族命名策略,形成區(qū)分惡意代碼家族的基準標(biāo)注; 紋理特征模塊,用于將惡意代碼的PE文件映射為紋理圖像文件,并從紋理圖像文件獲 取惡意代碼的紋理特征。25. 根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于,所述深度標(biāo)注單元包含第一聚類模塊、 第二聚類模塊和深度標(biāo)注模塊;其中, 第一聚類模塊,用于建立位置敏感哈希函數(shù)族,將惡意代碼的紋理特征集合映射到與 哈希函數(shù)對應(yīng)的哈希表的哈希桶中,以生成第一聚類簇; 第二聚類模塊,用于將第一聚類簇進行合并以生成第二聚類簇; 深度標(biāo)注模塊,用于結(jié)合信息摘要簽名及惡意代碼家族深度命名對第二聚類簇進行深 度標(biāo)注。26. 根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于,所述深度標(biāo)注單元包含第一聚類模塊、 第二聚類模塊和深度標(biāo)注模塊;其中, 第一聚類模塊,用于根據(jù)紋理特征集合生成第一聚類簇; 第二聚類模塊,用于將第一聚類簇按照共享的紋理特征進行合并,生成第二聚類簇; 深度標(biāo)注模塊,用于結(jié)合信息摘要簽名及惡意代碼家族深度命名對第二聚類簇進行深 度標(biāo)注。27. 根據(jù)權(quán)利要求24所述的系統(tǒng),其特征在于,所述信息摘要算法為以下任一種:消 息摘要算法第五版MD5、或安全散列算法SHA、或消息認證碼算法MAC、或CRC32、或SHA1、或 SHA256、或 SHA384、或 SHA512。28. 根據(jù)權(quán)利要求24所述的系統(tǒng),其特征在于,所述基準標(biāo)注模塊包含檢測子模塊、處 理子模塊和基準標(biāo)注子模塊;其中, 檢測子模塊,用于使用Virustotal檢測方法對惡意代碼PE文件進行檢測; 處理子模塊,用于將檢測子模塊的檢測結(jié)果進行處理; 基準標(biāo)注子模塊,用于將檢測結(jié)果進行處理后,結(jié)合惡意代碼家族命名策略,形成區(qū)分 惡意代碼豕族的基準標(biāo)注。29. 根據(jù)權(quán)利要求24所述的系統(tǒng),其特征在于,所述基準標(biāo)注模塊包含檢測子模塊、處 理子模塊和基準標(biāo)注子模塊;其中, 檢測子模塊,用于對惡意代碼的PE文件進行檢測; 處理子模塊,用于將檢測子模塊的檢測結(jié)果進行預(yù)處理;對預(yù)處理的信息根據(jù)導(dǎo)入的 詞表文件進行分詞處理;根據(jù)分詞處理的結(jié)果進行詞頻統(tǒng)計處理,以進一步進行投票處理 獲得投票結(jié)果; 基準標(biāo)注子模塊,用于將檢測結(jié)果進行處理后,結(jié)合惡意代碼家族命名策略,形成區(qū)分 惡意代碼豕族的基準標(biāo)注。30. 根據(jù)權(quán)利要求24或29所述的系統(tǒng),所述檢測結(jié)果包含:反惡意代碼antivirus部 分及其對應(yīng)的結(jié)果Result部分。31. 根據(jù)權(quán)利要求30所述的系統(tǒng),其特征在于,所述預(yù)處理至少包括:分隔符替換、和 特殊符號移除、和簡寫補全。32. 根據(jù)權(quán)利要求30所述的系統(tǒng),其特征在于,所述詞頻統(tǒng)計為:對分詞處理后的關(guān)鍵 詞進行頻度統(tǒng)計,對非關(guān)鍵詞進行過濾。33. 根據(jù)權(quán)利要求32所述的系統(tǒng),其特征在于,所述進行投票處理包括:根據(jù)詞頻統(tǒng)計 處理對關(guān)鍵詞中低頻詞進行過濾,對高頻詞進行由大到小排序。34. 根據(jù)權(quán)利要求24所述的系統(tǒng),其特征在于,所述惡意代碼命名策略包括:行業(yè)命名 規(guī)范、公司命名規(guī)范和個性化命名規(guī)范。35. 根據(jù)權(quán)利要求24所述的系統(tǒng),其特征在于,所述紋理特征模塊包含映射子模塊和 特征提取子模塊;其中, 映射子模塊,用于將所述惡意代碼PE文件的每個惡意代碼使用二進制映射為圖像B2M 算法映射為無損壓縮格式的紋理圖像文件; 特征提取子模塊,用于從紋理圖像文件獲取惡意代碼的紋理特征。36. 根據(jù)權(quán)利要求24所述的系統(tǒng),其特征在于,所述紋理特征模塊包含映射子模塊和 特征提取子模塊;其中, 映射子模塊,用于將惡意代碼的PE文件映射為紋理圖像文件; 特征提取子模塊,用于從所述紋理圖像文件中進行特征提取,并對提取的紋理特征進 行歸一化處理后,得到惡意代碼的紋理特征。37. 根據(jù)權(quán)利要求24所述的系統(tǒng),其特征在于,所述紋理圖像文件為:PNG格式,或GIF 格式,或BMP格式。38. 根據(jù)權(quán)利要求35所述的系統(tǒng),其特征在于,所述特征提取包括:使用灰度共生矩陣 方法;或GIST方法;或傅里葉變換方法;或局部二值模式LBP方法進行紋理圖像文件的特 征提取。39. 根據(jù)權(quán)利要求35所述的系統(tǒng),其特征在于,所述歸一化處理包括:使用高斯歸一化 算法對紋理特征進行歸一化的處理。40. 根據(jù)權(quán)利要求25所述的系統(tǒng),其特征在于,所述第一聚類模塊具體用于,建立位置 敏感哈希函數(shù)族,從中選擇K個位置敏感的哈希函數(shù),分別使用K個位置敏感哈希函數(shù)對同 一惡意代碼家族的紋理特征進行哈希操作,得到K個哈希值以構(gòu)成K維的哈希桶地址,將紋 理特征映射于哈希桶地址中,以生成第一類聚類簇; 所述K為自然數(shù)。41. 根據(jù)權(quán)利要求26所述的系統(tǒng),其特征在于,所述深度標(biāo)注單元,還用于在將第一聚 類簇按照共享的紋理特征進行合并,生成第二聚類簇時,生成第二聚類簇時還生成聚類簇 ID、聚類簇規(guī)模。42. 根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于,所述惡意代碼家族深度命名包括:基準 標(biāo)注、聚類簇ID、聚類簇規(guī)模、聚類簇比例; 所述,聚類簇比例為當(dāng)前聚類簇占基準標(biāo)注后的惡意代碼的比例。43. 根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于,該系統(tǒng)還包括存儲單元,用于在所述基 本標(biāo)注后,將所述基準標(biāo)記結(jié)果作為惡意代碼的描述信息存儲到惡意代碼的語料庫中。44. 根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于,該系統(tǒng)還包括基準標(biāo)簽單元,用于當(dāng)所
【專利摘要】本發(fā)明公開了一種實現(xiàn)惡意代碼標(biāo)注的方法及裝置,包括:將惡意代碼的可移植的執(zhí)行體(PE)文件進行處理,獲取惡意代碼的信息摘要簽名和基準標(biāo)注和紋理特征;根據(jù)基準標(biāo)注及信息摘要簽名,將屬于同一惡意代碼家族的紋理特征生成相應(yīng)的紋理特征集合;根據(jù)紋理特征集合生成第一聚類簇,將第一聚類簇進行合并以生成第二聚類簇,結(jié)合信息摘要簽名及惡意代碼家族深度命名對第二聚類簇進行深度標(biāo)注。本發(fā)明通過對惡意代碼進行基準標(biāo)注和深度標(biāo)度,采用信息摘要簽名及惡意代碼家族深度命名,規(guī)范了各惡意代碼家族的標(biāo)注方法,提高了對惡意代碼標(biāo)注的準確性和通用性。
【IPC分類】G06F21/56
【公開號】CN104978521
【申請?zhí)枴緾N201410142940
【發(fā)明人】曲武, 周濤, 畢學(xué)堯, 王君鶴
【申請人】北京啟明星辰信息安全技術(shù)有限公司, 北京啟明星辰信息技術(shù)股份有限公司
【公開日】2015年10月14日
【申請日】2014年4月10日