A、或消息認(rèn)證碼算法MAC、或CRC32、或SHA1、或SHA256、或SHA384、或SHA512。
[0061] 進一步地,基準(zhǔn)標(biāo)注模塊包含檢測子模塊、處理子模塊和基準(zhǔn)標(biāo)注子模塊;其中,
[0062] 檢測子模塊,用于使用Virustotal檢測方法對惡意代碼PE文件進行檢測;
[0063] 處理子模塊,用于將檢測子模塊的檢測結(jié)果進行處理;
[0064] 基準(zhǔn)標(biāo)注子模塊,用于將檢測結(jié)果進行處理后,結(jié)合惡意代碼家族命名策略,形成 區(qū)分惡意代碼家族的基準(zhǔn)標(biāo)注。
[0065] 進一步地,基準(zhǔn)標(biāo)注模塊包含檢測子模塊、處理子模塊和基準(zhǔn)標(biāo)注子模塊;其中,
[0066] 檢測子模塊,用于對惡意代碼的PE文件進行檢測;
[0067] 處理子模塊,用于將檢測子模塊的檢測結(jié)果進行預(yù)處理;對預(yù)處理的信息根據(jù)導(dǎo) 入的詞表文件進行分詞處理;根據(jù)分詞處理的結(jié)果進行詞頻統(tǒng)計處理,W進一步進行投票 處理獲得投票結(jié)果;
[0068] 基準(zhǔn)標(biāo)注子模塊,用于將檢測結(jié)果進行處理后,結(jié)合惡意代碼家族命名策略,形成 區(qū)分惡意代碼家族的基準(zhǔn)標(biāo)注。
[0069] 進一步地,檢測結(jié)果包含;反惡意代碼antivirus部分及其對應(yīng)的結(jié)果Result部 分。
[0070] 進一步地,預(yù)處理至少包括;分隔符替換、和特殊符號移除、和簡寫補全。
[0071] 進一步地,詞頻統(tǒng)計為:對分詞處理后的關(guān)鍵詞進行頻度統(tǒng)計,對非關(guān)鍵詞進行過 濾。
[0072] 進一步地,進行投票處理包括:根據(jù)詞頻統(tǒng)計處理對關(guān)鍵詞中低頻詞進行過濾,對 高頻詞進行由大到小排序。
[0073] 進一步地,惡意代碼命名策略包括;行業(yè)命名規(guī)范、公司命名規(guī)范和個性化命名規(guī) 范。
[0074] 進一步地,紋理特征模塊包含映射子模塊和特征提取子模塊;其中,
[0075] 映射子模塊,用于將所述惡意代碼PE文件的每個惡意代碼使用二進制映射為圖 像B2M算法映射為無損壓縮格式的紋理圖像文件;
[0076] 特征提取子模塊,用于從紋理圖像文件獲取惡意代碼的紋理特征。
[0077] 進一步地,紋理特征模塊包含映射子模塊和特征提取子模塊;其中,
[0078] 映射子模塊,用于將惡意代碼的PE文件映射為紋理圖像文件;
[0079] 特征提取子模塊,用于從所述紋理圖像文件中進行特征提取,并對提取的紋理特 征進行歸一化處理后,得到惡意代碼的紋理特征。
[0080] 進一步地,紋理圖像文件為;PNG格式,或GIF格式,或BMP格式。
[0081] 進一步地,特征提取包括;使用灰度共生矩陣方法;或GIST方法;或傅里葉變換方 法;或局部二值模式LBP方法進行紋理圖像文件的特征提取。
[0082] 進一步地,歸一化處理包括;使用高斯歸一化算法對紋理特征進行歸一化的處理。
[0083] 進一步地,第一聚類模塊具體用于,建立位置敏感哈希函數(shù)族,從中選擇K個位置 敏感的哈希函數(shù),分別使用K個位置敏感哈希函數(shù)對同一惡意代碼家族的紋理特征進行哈 希操作,得到K個哈希值W構(gòu)成K維的哈希桶地址,將紋理特征映射于哈希桶地址中,W生 成第一類聚類簇;
[0084] 所述K為自然數(shù)。
[0085] 進一步地,深度標(biāo)注單元,還用于在將第一聚類簇按照共享的紋理特征進行合并, 生成第二聚類簇時,生成第二聚類簇時還生成聚類簇ID、聚類簇規(guī)模。
[0086] 進一步地,惡意代碼家族深度命名包括;基準(zhǔn)標(biāo)注、聚類簇ID、聚類簇規(guī)模、聚類 簇比例;
[0087] 所述,聚類簇比例為當(dāng)前聚類簇占基準(zhǔn)標(biāo)注后的惡意代碼的比例。
[0088] 進一步地,該系統(tǒng)還包括存儲單元,用于在所述基本標(biāo)注后,將所述基準(zhǔn)標(biāo)記結(jié)果 作為惡意代碼的描述信息存儲到惡意代碼的語料庫中。
[0089] 進一步地,該系統(tǒng)還包括基準(zhǔn)標(biāo)簽單元,用于當(dāng)所述進行深度標(biāo)注后,將深度標(biāo)注 的結(jié)果與消息摘要標(biāo)簽結(jié)合作為惡意代碼的基準(zhǔn)標(biāo)簽。
[0090] 本申請技術(shù)方案包括:將惡意代碼的可移植的執(zhí)行體(PE)文件進行處理,獲取惡 意代碼的信息摘要簽名和基準(zhǔn)標(biāo)注和紋理特征;根據(jù)基準(zhǔn)標(biāo)注及信息摘要簽名,將屬于同 一惡意代碼家族的紋理特征生成相應(yīng)的紋理特征集合;根據(jù)紋理特征集合生成第一聚類 簇,將第一聚類簇進行合并W生成第二聚類簇,結(jié)合信息摘要簽名及惡意代碼家族深度命 名對第二聚類簇進行深度標(biāo)注。本發(fā)明通過對惡意代碼進行基準(zhǔn)標(biāo)注和深度標(biāo)度,采用信 息摘要簽名及惡意代碼家族深度命名,規(guī)范了各惡意代碼家族的標(biāo)注方法,提高了對惡意 代碼標(biāo)注的準(zhǔn)確性和通用性。
【附圖說明】
[0091] 此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā) 明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0092] 圖1為本發(fā)明實現(xiàn)惡意代碼標(biāo)注的方法的流程圖;
[0093] 圖2為本發(fā)明實現(xiàn)惡意代碼標(biāo)注的系統(tǒng)的結(jié)構(gòu)框圖;
[0094] 圖3為本發(fā)明實現(xiàn)惡意代碼標(biāo)注的實施例中合并生成第二聚類簇的示意圖。
【具體實施方式】
[0095] 圖1為本發(fā)明實現(xiàn)高速緩存替換的方法的流程圖,如圖1所示,包括:
[0096] 步驟100、將惡意代碼的陽文件進行處理,獲取惡意代碼的信息摘要簽名和基準(zhǔn) 標(biāo)注和紋理特征。
[0097] 本步驟中,采用信息摘要算法獲取惡意代碼的PE文件中的各惡意代碼的信息摘 要作為惡意代碼的信息摘要簽名。
[0098] 信息摘要算法為W下任一種:消息摘要算法第五版(MD5)、或安全散列算法 (SHA)、或消息認(rèn)證碼算法(MAC)、或CRC32、或SHA1、或SHA256、或SHA384、或SHA512。該里, 上述算法為本領(lǐng)域技術(shù)人員所公知的算法,在此不再費述。
[0099] 對惡意代碼的PE文件進行檢測,將檢測結(jié)果進行處理后,結(jié)合惡意代碼家族命名 策略,形成區(qū)分惡意代碼家族的基準(zhǔn)標(biāo)注。
[0100] 對惡意代碼PE文件進行檢測為;使用Virustotal檢測方法對惡意代碼PE文件進 行檢測。
[0101] 需要說明的是,VirusTotal是一個提供免費的可疑文件分析服務(wù)的網(wǎng)站所提供的 算法。
[0102] 進一步地,對檢測結(jié)果進行處理具體包括:
[0103] 對檢測結(jié)果進行預(yù)處理;
[0104] 對預(yù)處理的信息根據(jù)導(dǎo)入的詞表文件進行分詞處理;
[0105] 進一步地,預(yù)處理至少包括;分隔符替換、和特殊符號移除、和簡寫補全。
[0106] 詞頻統(tǒng)計為;對分詞處理后的關(guān)鍵詞進行頻度統(tǒng)計,對非關(guān)鍵詞進行過濾。
[0107] 進行投票處理包括;根據(jù)詞頻統(tǒng)計處理對關(guān)鍵詞中低頻詞進行過濾,對高頻詞進 行由大到小排序。
[010引惡意代碼命名策略包括;行業(yè)命名規(guī)范、公司命名規(guī)范和個性化命名規(guī)范。
[0109] 該里,檢測結(jié)果包含;反惡意代碼(antivirus)部分及其對應(yīng)的結(jié)果(Result)部 分。
[0110] 將惡意代碼的PE文件映射為紋理圖像文件,并從紋理圖像文件獲取惡意代碼的 紋理特征。
[0111] 進一步地,將惡意代碼PE文件映射為紋理圖像文件為:將所述惡意代碼PE文件的 每個惡意代碼使用二進制映射為圖像(B2M)算法映射為無損壓縮格式的紋理圖像文件。
[0112] 從紋理圖像文件獲取惡意代碼的紋理特征為;從所述紋理圖像文件中進行特征提 取,并對提取的紋理特征進行歸一化處理后,得到惡意代碼的紋理特征。
[0113] 歸一化處理包括;使用高斯歸一化算法對紋理特征進行歸一化的處理。
[0114] 特征提取包括:使用灰度共生矩陣方法;或GIST方法;或傅里葉變換方法;或局 部二值模式(LBP)方法進行紋理圖像文件的特征提取。
[0115] 需要說明的是,GIST方法為本領(lǐng)域技術(shù)人員熟知的方法。在此不再費述。
[0116] 進一步地,紋理圖像文件為;PNG格式,或GIF格式,或BMP格式。該里,圖像文件 格式為常見的圖像格式,本領(lǐng)域技術(shù)人員的公知常識。
[0117] 需要說明的是,提取紋理圖像文件,特征提取,紋理圖像文件格式等可W根據(jù)圖像 處理,特征匹配方式等進行相應(yīng)的調(diào)整和改進。
[0118] 步驟101、根據(jù)基準(zhǔn)標(biāo)注及信息摘要簽名,將屬于同一惡意代碼家族的紋理特征生 成相應(yīng)的紋理特征集合。
[0119] 步驟102、根據(jù)紋理特征集合生成第一聚類簇,將第一聚類簇進行合并W生成第二 聚類簇,結(jié)合信息摘要簽名及惡意代碼家族深度命名對第二聚類簇進行深度標(biāo)注
[0120] 本步驟中,根據(jù)紋理特征集合生成第一聚類簇包括:
[0121] 建立位置敏感哈希函數(shù)族,將惡意代碼的紋理特征集合映射到與哈希函數(shù)對應(yīng)的 哈希表的哈希桶中,W生成第一聚類簇。
[0122] 進一步地,建立位置敏感哈希函數(shù)族,將所述惡意代碼的紋理特征映射到與哈希 函數(shù)對應(yīng)的哈希表的哈希桶中,W生成第一聚類簇包括;建立位置敏感哈希函數(shù)族,從中選 擇K個位置敏感的哈希函數(shù),分別使用K個位置敏感哈希函數(shù)對同一惡意代碼家族的紋理 特征進行哈希操作,得到K個哈希值W構(gòu)成K維的哈希桶地址,將紋理特征映射于哈希桶地 址中,W生成第一類聚類簇;
[0123] 所述K為自然數(shù)。
[0124] 將第一聚類簇進行合并W生成第二聚類簇為:將第一聚類簇按照共享的紋理特征 進行合并,生成第二聚類簇。
[0125] 在將第一聚類簇按照共享的紋理特征進行合并,生成第二聚類簇時,本發(fā)明方法 還包括:生成第二聚類簇時還生成聚類簇ID、聚類簇規(guī)模。
[0126] 惡意代碼家族深度命名包括:基準(zhǔn)標(biāo)注、聚類簇ID、聚類簇規(guī)模、聚類簇比例;
[0127] 所述,聚類簇比例為當(dāng)前聚類簇占基準(zhǔn)標(biāo)注后的惡意代碼的比例。
[0128] 基本標(biāo)注后,本發(fā)明方法還包括:對所述基準(zhǔn)標(biāo)記結(jié)果作為惡意代碼的描述信息 存儲到惡意代碼的語料庫中。
[0129] 進行深度標(biāo)注后,本發(fā)明方法還包括;將深度標(biāo)注的結(jié)果與消息摘要標(biāo)簽結(jié)合作 為惡意代碼的基準(zhǔn)標(biāo)簽。
[0130] 需要說明的是,通過投票標(biāo)注使本專利提出的方法具有通用性。由于不同公司對 于惡意代碼的標(biāo)注不同,經(jīng)常出現(xiàn)惡意代碼被標(biāo)注為不同的家族;另外,對于不同公司的被 標(biāo)注為同一個家族的惡意代碼在PE文件不一定是相同的惡意代碼文件,即并不是從一個 原始的惡意代碼家族(惡意代碼的祖先)進化而來,本發(fā)明使用聚類技術(shù),將屬于同一個家 族的惡意代碼(祖先的惡意代碼)歸為一個相同的聚類簇進行家族標(biāo)注,因此更為準(zhǔn)確。
[0131] 圖2為本發(fā)明實現(xiàn)惡意代碼標(biāo)注的方法的結(jié)構(gòu)框圖,如圖2所示,包括:文件處理 單元、特征集合單元、深度標(biāo)注單元;其中,
[0132] 文件處理單元,用于將惡意代碼的PE文件進行處理,獲取惡意代碼的信息摘要簽 名和基準(zhǔn)標(biāo)