一種基于特征向量的相似惡意樣本匹配方法及系統(tǒng)的制作方法
【專利說明】-種基于特征向量的相似惡意樣本匹配方法及系統(tǒng)
[0001]
技術(shù)領(lǐng)域
[0002] 本發(fā)明設(shè)及信息安全技術(shù)領(lǐng)域,尤其設(shè)及一種基于特征向量的相似惡意樣本匹配 方法及系統(tǒng)。
【背景技術(shù)】
[0003] 隨著近些年來數(shù)據(jù)的井噴式的增長,在網(wǎng)絡(luò)安全運(yùn)個領(lǐng)域,惡意程序的種類、數(shù)量 也在飛速增長。如何能夠在運(yùn)海量的惡意代碼中,發(fā)現(xiàn)惡意代碼的共性,對于反病毒技術(shù)的 發(fā)展有著很大的幫助。
【發(fā)明內(nèi)容】
[0004] 針對上述技術(shù)問題,本發(fā)明提供了一種基于特征向量的相似惡意樣本匹配方法及 系統(tǒng),能夠在海量惡意樣本文件中快速發(fā)現(xiàn)惡意樣本文件間的共性,查詢到所需的相似樣 本,生成報告,W提供給相關(guān)人員進(jìn)行分析。解決了傳統(tǒng)方法中檢索速度慢、耗時長等技術(shù) 問題。 陽〇化]本發(fā)明采用如下方法來實現(xiàn):一種基于特征向量的相似惡意樣本匹配方法,包 括: 提取海量惡意樣本文件庫中的各惡意樣本文件的行為特征; 過濾所述行為特征,計算過濾后的各行為特征的hash值,并針對各惡意樣本文件生成 行為特征向量組,所述行為特征向量組包含m個行為特征向量,所述m個行為特征向量對應(yīng) 于各惡意樣本文件的m類行為特征; 所述行為特征向量的結(jié)構(gòu)為:行為特征類型:[行為分量1,行為分量2…行為分量η]; 獲取待查詢樣本文件的待查詢特征向量組; 求取待查詢樣本文件與各惡意樣本文件的樣本相似度,獲取樣本相似度大于或等于目 標(biāo)相似度的惡意樣本文件的行為特征向量組,根據(jù)所述行為特征向量組,找到相應(yīng)的惡意 樣本文件,所述惡意樣本文件為與待查詢樣本文件相似的惡意樣本文件; 所述求取樣本相似度的具體方法為: 將待查詢特征向量組的行為特征向量與各惡意樣本文件的行為特征向量進(jìn)行比對,求 取任一行為特征類型下,兩者所含的相同行為分量的數(shù)目; 求取相同行為分量的數(shù)目與該行為特征向量的行為分量總數(shù)目的比值,再乘W該行為 特征向量的預(yù)設(shè)權(quán)重,獲得該行為特征向量的中間權(quán)重值,并W同樣的方法求取其余行為 特征向量的中間權(quán)重值,計算所有中間權(quán)重值之和,獲得樣本相似度; 所述的全部行為特征向量權(quán)重總和為1。
[0006] 進(jìn)一步地,在求取樣本相似度之前,還包括:基于預(yù)設(shè)過濾條件,對海量惡意樣本 文件庫進(jìn)行過濾。
[0007] 進(jìn)一步地,所述預(yù)設(shè)過濾條件為: 選取待查詢特征向量組的任一行為特征向量作為單一變量,假設(shè)其余行為特征向量完 全匹配,根據(jù)行為分量數(shù)目、目標(biāo)相似度W及行為特征向量的權(quán)重之間的運(yùn)算關(guān)系,求出相 對應(yīng)各行為分量的最少匹配分量數(shù); 計算行為分量的子權(quán)重,從大到小排列,形成倒敘子權(quán)重列表; 逐一累加列表中子權(quán)重,直至累加之和大于預(yù)設(shè)目標(biāo)權(quán)重,列表中參與累加的行為分 量的個數(shù)即為最少匹配總數(shù); 基于獲取的各行為分量的最少匹配分量數(shù)和最少匹配總數(shù)進(jìn)一步過濾海量惡意樣本 文件庫。
[0008] 本發(fā)明采用如下系統(tǒng)來實現(xiàn):一種基于特征向量的相似惡意樣本匹配系統(tǒng),包 括: 惡意樣本文件庫處理模塊,用于提取海量惡意樣本文件庫中的各惡意樣本文件的行為 特征; 過濾所述行為特征,計算過濾后的各行為特征的hash值,并針對各惡意樣本文件生成 行為特征向量組,所述行為特征向量組包含m個行為特征向量,所述m個行為特征向量對應(yīng) 于各惡意樣本文件的m類行為特征; 所述行為特征向量的結(jié)構(gòu)為:行為特征類型:[行為分量1,行為分量2…行為分量η]; 待查詢樣本文件處理模塊,用于獲取待查詢樣本文件的待查詢特征向量組; 匹配計算模塊,用于求取待查詢樣本文件與各惡意樣本文件的樣本相似度,獲取樣本 相似度大于或等于目標(biāo)相似度的惡意樣本文件的行為特征向量組,根據(jù)所述行為特征向量 組,找到相應(yīng)的惡意樣本文件,所述惡意樣本文件為與待查詢樣本文件相似的惡意樣本文 件; 所述求取樣本相似度的具體方法為: 將待查詢特征向量組的行為特征向量與各惡意樣本文件的行為特征向量進(jìn)行比對,求 取任一行為特征類型下,兩者所含的相同行為分量的數(shù)目; 求取相同行為分量的數(shù)目與該行為特征向量的行為分量總數(shù)目的比值,再乘W該行為 特征向量的預(yù)設(shè)權(quán)重,獲得該行為特征向量的中間權(quán)重值,并W同樣的方法求取其余行為 特征向量的中間權(quán)重值,計算所有中間權(quán)重值之和,獲得樣本相似度; 所述的全部行為特征向量權(quán)重總和為1。
[0009] 進(jìn)一步地,在求取樣本相似度之前,還包括:基于預(yù)設(shè)過濾條件,對海量惡意樣本 文件進(jìn)行過濾。
[0010] 進(jìn)一步地,所述預(yù)設(shè)過濾條件為: 選取待查詢特征向量組的任一行為特征向量作為單一變量,假設(shè)其余行為特征向量完 全匹配,根據(jù)行為分量數(shù)目、目標(biāo)相似度W及行為特征向量的權(quán)重之間的運(yùn)算關(guān)系,求出相 對應(yīng)各行為分量的最少匹配分量數(shù); 計算行為分量的子權(quán)重,從大到小排列,形成倒敘子權(quán)重列表; 逐一累加列表中子權(quán)重,直至累加之和大于預(yù)設(shè)目標(biāo)權(quán)重,列表中參與累加的行為分 量的個數(shù)即為最少匹配總數(shù); 基于獲取的各行為分量的最少匹配分量數(shù)和最少匹配總數(shù)進(jìn)一步過濾海量惡意樣本 文件庫。
[0011] 綜上所述,本發(fā)明所述技術(shù)方案首先提取海量惡意樣本文件庫中的各惡意樣本文 件的行為特征;過濾所述行為特征,計算過濾后的各行為特征的hash值,并針對各惡意樣 本文件生成行為特征向量組;獲取待查詢樣本文件的待查詢特征向量組;求取待查詢樣本 文件與各惡意樣本文件的樣本相似度,獲取樣本相似度大于或等于目標(biāo)相似度的惡意樣本 文件的行為特征向量組,根據(jù)所述行為特征向量組,找到相應(yīng)的惡意樣本文件,所述惡意樣 本文件為與待查詢樣本文件相似的惡意樣本文件。本發(fā)明所述技術(shù)方案能夠在海量惡意樣 本文件中快速發(fā)現(xiàn)惡意樣本文件間的共性,查詢到所需的相似樣本,并生成報告W提供給 相關(guān)人員進(jìn)行分析。
[0012] 本發(fā)明的有益效果為:本發(fā)明基于惡意樣本文件的行為特征向量,使用了有效的 相似樣本匹配算法,能夠在海量惡意樣本文件中快速發(fā)現(xiàn)惡意樣本文件間的共性,查詢到 所需的相似樣本,生成報告,W提供給相關(guān)人員進(jìn)行分析。解決了傳統(tǒng)方法中檢索速度慢、 耗時長等技術(shù)問題。
【附圖說明】
[0013] 為了更清楚地說明本發(fā)明的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡 單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域 普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可W根據(jù)運(yùn)些附圖獲得其他的附圖。
[0014] 圖1為本發(fā)明提供的一種基于特征向量的相似惡意樣本匹配方法實施例流程圖; 圖2為本發(fā)明提供的一種基于特征向量的相似惡意樣本匹配系統(tǒng)實施例結(jié)構(gòu)圖。
【具體實施方式】
[0015] 本發(fā)明給出了一種基于特征向量的相似惡意樣本匹配方法及系統(tǒng),為了使本技術(shù) 領(lǐng)域的人員更好地理解本發(fā)明實施例中的技術(shù)方案,并使本發(fā)明的上述目的、特征和優(yōu)點 能夠更加明顯易懂,下面結(jié)合附圖對本發(fā)明中技術(shù)方案作進(jìn)一步詳細(xì)的說明: 本發(fā)明首先提供了一種基于特征向量的相似惡意樣本匹配方法實施例,如圖1所示, 包括: S101提取海量惡意樣本文件庫中的各惡意樣本文件的行為特征; 其中,所述行為特征包括惡意樣本文件訪問的m?L,IP,域名等信息; S102過濾所述行為特征,計算過濾后的各行為特征的hash值,并針對各惡意樣本文件 生成行為特征向量組; 所述行為特征向量組包含m個行為特征向量,所述m個行為特征向量對應(yīng)于各惡意樣 本文件的m類行為特征; 所述行為特征向量的結(jié)構(gòu) 為:行為特征類型:[行為分量1,行為分量2…行為分量η]; 其中,過濾所述行為特征是基于原有的惡意樣本庫進(jìn)行的。
[0016