亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于FTS模型的病毒特征提取方法及系統(tǒng)與流程

文檔序號:12669993閱讀:281來源:國知局
一種基于FTS模型的病毒特征提取方法及系統(tǒng)與流程

本發(fā)明涉及信息安全技術領域,尤其涉及一種基于FTS模型的病毒特征提取方法及系統(tǒng)。



背景技術:

信息安全領域中,針對病毒的分析與識別需要對其特征進行提取,而隨著提取特征數(shù)量的增加,模型分類的準確度也有所提高,但是提取特征數(shù)量達到一定限度的時候,再增加特征,模型分類的準確度不是持續(xù)增加,反而會降低。這就是經(jīng)典的“維數(shù)災難”問題。通常不經(jīng)專業(yè)篩選的特征空間一般是高維度且非線性,不僅占用存儲空間,而且特征間的冗余度、特征與類別的相似度都沒有考慮,導致分類的準確度降低。由此,控制特征空間的維度是至關重要的,特征既不能過剩,也不能缺失。



技術實現(xiàn)要素:

本發(fā)明為解決上述問題,本發(fā)明提出一種基于FTS模型的病毒特征提取方法及系統(tǒng),結(jié)合FTS模型算法以及GUS、GDS思想,通過將原始非線性高維樣本空間通過高斯函數(shù)的變換映射到低維度的線性樣本空間,提取一些表現(xiàn)突出的特征作為首選特征。此過程無需任何模型參數(shù)需要訓練,操作簡單,降維效果絕佳。雖然維度降低了,但仍含有一些冗余特征沒有剔除干凈,也沒有考慮與類別的相關程度。所以,本發(fā)明還利用余弦度去除特征間的冗余,優(yōu)選地,兩個特征間的余弦值越小,表示不相關程度越大,余弦值越大,表示不相關程度越小,所以,保留余弦值小的特征值,剔除余弦值大的特征。利用相似度去除與類別無關的特征,優(yōu)選地,兩個特征間的相似度越小,表示與類別相關程度越小,相似度越大,表示與類別相關程度越大,保留相似度大的特征,剔除相似度小的特征。

具體發(fā)明內(nèi)容包括:

一種基于FTS模型的病毒特征提取方法,包括:

收集病毒樣本文件,提取樣本文件信息,建立原始樣本集;

按規(guī)定定義樣本集包含的特征類別;

計算并得到原始樣本集的高斯矩陣;

對高斯矩陣中心化,并計算中心化后的高斯矩陣的特征值和特征向量;

對特征值進行排序,選出規(guī)定特征值所對應的特征向量;

按規(guī)定對選出的特征向量進行計算,得到特征樣本集;

將特征樣本集中的特征與特征類別進行相似度計算,根據(jù)相似度計算結(jié)果選出指定的特征,并將指定特征存入中間特征樣本集;

按規(guī)定對中間特征樣本集中的特征進行計算,保留滿足規(guī)定條件的特征,刪除不滿足規(guī)定條件的特征;

將滿足規(guī)定條件的特征存入特征樣本集,得到最優(yōu)特征集。

進一步地,所述樣本文件信息包括:文件名、擴展名、文件編碼格式、MD5值、KMD5值。

進一步地,所述計算并得到原始樣本集的高斯矩陣,具體為:將原始樣本集映射到高維度線性特征空間中,計算原始樣本集中各個病毒特征間的高斯函數(shù)值,得到高斯矩陣。

進一步地,所述對特征值進行排序,選出規(guī)定特征值所對應的特征向量,具體為:對特征值進行降序排序,從序列前端依次選出大于規(guī)定閾值且滿足規(guī)定數(shù)量的特征值所對應的特征向量;或?qū)μ卣髦颠M行升序排序,從序列后端依次選出大于規(guī)定閾值且滿足規(guī)定數(shù)量的特征值所對應的特征向量;根據(jù)不同場景和需求,所述規(guī)定閾值和規(guī)定數(shù)量可自行設置不同的值,一般情況下規(guī)定數(shù)量小于原始樣本集中特征的數(shù)量。

進一步地,所述按規(guī)定對選出的特征向量進行計算,具體為:將選出的特征向量與原始樣本集做積運算。

進一步地,所述將特征樣本集中的特征與特征類別進行相似度計算,其計算方式包括:將所述特征與特征類別進行余弦計算、將所述特征與特征類別按照向量空間模型的形式進行相似度計算。

進一步地,所述根據(jù)相似度計算結(jié)果選出指定的特征,具體為:將計算得到的相似度結(jié)果進行降序排序,從序列前端依次選出與指定數(shù)量相對應的相似度結(jié)果所對應的特征;或?qū)⒂嬎愕玫降南嗨贫扔嬎憬Y(jié)果進行升序排序,從序列后端依次選出與指定數(shù)量相對應的相似度計算結(jié)果所對應的特征;根據(jù)不同場景和需求,所述指定數(shù)量可自行設置,一般地,該數(shù)量設置的數(shù)值越高,最終結(jié)果的精確度越高,反之最終結(jié)果的精確度越低。

進一步地,所述按規(guī)定對中間特征樣本集中的特征進行計算,保留滿足規(guī)定條件的特征,刪除不滿足規(guī)定條件的特征,具體為:計算中間特征樣本集中的特征間的余弦值,將余弦值進行降序/升序排序,保留余弦值滿足規(guī)定范圍的余弦值所對應的特征,刪除余弦值不滿足規(guī)定范圍的余弦值所對應的特征;根據(jù)不同場景和需求,所述余弦值得規(guī)定范圍可自行設置,一般地,該數(shù)值范圍越大,最終結(jié)果的精確度越高,反之最終結(jié)果的精確度越低。

進一步地,迭代執(zhí)行下述過程,直到特征樣本集中特征的數(shù)量滿足預設條件,并得到最優(yōu)特征集:將特征樣本集中的特征與特征類別進行相似度計算,根據(jù)相似度計算結(jié)果選出指定的特征,并將指定特征存入中間特征樣本集,按規(guī)定對中間特征樣本集中的特征進行計算,保留滿足規(guī)定條件的特征,刪除不滿足規(guī)定條件的特征,將滿足規(guī)定條件的特征存入特征樣本集;一般地,最優(yōu)特征集中的特征數(shù)量不少于原始樣本集中特征數(shù)量的一半。

另,當有新特征加入時,根據(jù)新進入的特征數(shù)量以及具體需求,只需進行上述一次或幾次迭代過程即可,來確定新加入的特征是否可以加入最優(yōu)特征集。

一種基于FTS模型的病毒特征提取系統(tǒng),包括:

原始樣本集建立模塊,用于收集病毒樣本文件,提取樣本文件信息,建立原始樣本集;

特征類別定義模塊,用于按規(guī)定定義樣本集包含的特征類別;

原始樣本集降維模塊,用于計算并得到原始樣本集的高斯矩陣,并對高斯矩陣中心化,計算中心化后的高斯矩陣的特征值和特征向量;

特征樣本集生成模塊,用于對所述特征值進行排序,選出規(guī)定特征值所對應的特征向量,并按規(guī)定對選出的特征向量進行計算,得到特征樣本集;

降低特征冗余度模塊,用于將特征樣本集中的特征與特征類別進行相似度計算,根據(jù)相似度計算結(jié)果選出指定的特征,并將指定特征存入中間特征樣本集,按規(guī)定對中間特征樣本集中的特征進行計算,保留滿足規(guī)定條件的特征,刪除不滿足規(guī)定條件的特征;

最優(yōu)特征集生成模塊,用于將所述滿足規(guī)定條件的特征存入特征樣本集,得到最優(yōu)特征集。

進一步地,所述樣本文件信息包括:文件名、擴展名、文件編碼格式、MD5值、KMD5值。

進一步地,所述計算并得到原始樣本集的高斯矩陣,具體為:將原始樣本集映射到高維度線性特征空間中,計算原始樣本集中各個病毒特征間的高斯函數(shù)值,得到高斯矩陣。

進一步地,所述對特征值進行排序,選出規(guī)定特征值所對應的特征向量,具體為:對特征值進行降序排序,從序列前端依次選出大于規(guī)定閾值且滿足規(guī)定數(shù)量的特征值所對應的特征向量;或?qū)μ卣髦颠M行升序排序,從序列后端依次選出大于規(guī)定閾值且滿足規(guī)定數(shù)量的特征值所對應的特征向量;根據(jù)不同場景和需求,所述規(guī)定閾值和規(guī)定數(shù)量可自行設置不同的值,一般情況下規(guī)定數(shù)量小于原始樣本集中特征的數(shù)量。

進一步地,所述按規(guī)定對選出的特征向量進行計算,具體為:將選出的特征向量與原始樣本集做積運算。

進一步地,所述將特征樣本集中的特征與特征類別進行相似度計算,其計算方式包括:將所述特征與特征類別進行余弦計算、將所述特征與特征類別按照向量空間模型的形式進行相似度計算。

進一步地,所述根據(jù)相似度計算結(jié)果選出指定的特征,具體為:將計算得到的相似度結(jié)果進行降序排序,從序列前端依次選出與指定數(shù)量相對應的相似度結(jié)果所對應的特征;或?qū)⒂嬎愕玫降南嗨贫扔嬎憬Y(jié)果進行升序排序,從序列后端依次選出與指定數(shù)量相對應的相似度計算結(jié)果所對應的特征;根據(jù)不同場景和需求,所述指定數(shù)量可自行設置,一般地,該數(shù)量設置的數(shù)值越高,最終結(jié)果的精確度越高,反之最終結(jié)果的精確度越低。

進一步地,所述按規(guī)定對中間特征樣本集中的特征進行計算,保留滿足規(guī)定條件的特征,刪除不滿足規(guī)定條件的特征,具體為:計算中間特征樣本集中的特征間的余弦值,將余弦值進行降序/升序排序,保留余弦值滿足規(guī)定范圍的余弦值所對應的特征,刪除余弦值不滿足規(guī)定范圍的余弦值所對應的特征;根據(jù)不同場景和需求,所述余弦值得規(guī)定范圍可自行設置,一般地,該數(shù)值范圍越大,最終結(jié)果的精確度越高,反之最終結(jié)果的精確度越低。

進一步地,迭代運行降低特征冗余度模塊與最優(yōu)特征集生成模塊,直到特征樣本集中特征的數(shù)量滿足預設條件,并得到最終的最優(yōu)特征集;一般地,最優(yōu)特征集中的特征數(shù)量不少于原始樣本集中特征數(shù)量的一半。

另,當有新特征加入時,根據(jù)新進入的特征數(shù)量以及具體需求,只需進行上述一次或幾次迭代過程即可,來確定新加入的特征是否可以加入最優(yōu)特征集。

本發(fā)明的有益效果是:

本發(fā)明能夠有效降低病毒特征集的維度和特征冗余度,保障病毒特征集的精準性,并有效降低病毒特征集的資源空間占用;

進一步地,當有新特征加入時,只需將新特征與特征集中的特征進行相似度計算,確定其冗余度即可,使得特征集易于維護。

附圖說明

為了更清楚地說明本發(fā)明或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明一種基于FTS模型的病毒特征提取的方法流程圖;

圖2為本發(fā)明一種基于FTS模型的病毒特征提取的系統(tǒng)結(jié)構(gòu)圖。

具體實施方式

為了使本技術領域的人員更好地理解本發(fā)明實施例中的技術方案,并使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖對本發(fā)明中技術方案作進一步詳細的說明。

本發(fā)明給出了一種基于FTS模型的病毒特征提取的方法實施例,如圖1所示,包括:

S101:收集病毒樣本文件,提取樣本文件信息,建立原始樣本集;

S102:按規(guī)定定義樣本集包含的特征類別;

S103:計算并得到原始樣本集的高斯矩陣;

S104:對高斯矩陣中心化,并計算中心化后的高斯矩陣的特征值和特征向量;

S105:對特征值進行排序,選出規(guī)定特征值所對應的特征向量;

S106:按規(guī)定對選出的特征向量進行計算,得到特征樣本集;

S107:將特征樣本集中的特征與特征類別進行相似度計算,根據(jù)相似度計算結(jié)果選出指定的特征,并將指定特征存入中間特征樣本集;

S108:按規(guī)定對中間特征樣本集中的特征進行計算,保留滿足規(guī)定條件的特征,刪除不滿足規(guī)定條件的特征;

S109:將滿足規(guī)定條件的特征存入特征樣本集,得到最優(yōu)特征集。

優(yōu)選地,所述樣本文件信息包括:文件名、擴展名、文件編碼格式、MD5值、KMD5值。

優(yōu)選地,所述計算并得到原始樣本集的高斯矩陣,具體為:將原始樣本集映射到高維度線性特征空間中,計算原始樣本集中各個病毒特征間的高斯函數(shù)值,得到高斯矩陣。

優(yōu)選地,所述對特征值進行排序,選出規(guī)定特征值所對應的特征向量,具體為:對特征值進行降序排序,從序列前端依次選出大于規(guī)定閾值且滿足規(guī)定數(shù)量的特征值所對應的特征向量;或?qū)μ卣髦颠M行升序排序,從序列后端依次選出大于規(guī)定閾值且滿足規(guī)定數(shù)量的特征值所對應的特征向量;根據(jù)不同場景和需求,所述規(guī)定閾值和規(guī)定數(shù)量可自行設置不同的值,一般情況下規(guī)定數(shù)量小于原始樣本集中特征的數(shù)量。

優(yōu)選地,所述按規(guī)定對選出的特征向量進行計算,具體為:將選出的特征向量與原始樣本集做積運算。

優(yōu)選地,所述將特征樣本集中的特征與特征類別進行相似度計算,其計算方式包括:將所述特征與特征類別進行余弦計算、將所述特征與特征類別按照向量空間模型的形式進行相似度計算。

優(yōu)選地,所述根據(jù)相似度計算結(jié)果選出指定的特征,具體為:將計算得到的相似度結(jié)果進行降序排序,從序列前端依次選出與指定數(shù)量相對應的相似度結(jié)果所對應的特征;或?qū)⒂嬎愕玫降南嗨贫扔嬎憬Y(jié)果進行升序排序,從序列后端依次選出與指定數(shù)量相對應的相似度計算結(jié)果所對應的特征;根據(jù)不同場景和需求,所述指定數(shù)量可自行設置,一般地,該數(shù)量設置的數(shù)值越高,最終結(jié)果的精確度越高,反之最終結(jié)果的精確度越低。

優(yōu)選地,所述按規(guī)定對中間特征樣本集中的特征進行計算,保留滿足規(guī)定條件的特征,刪除不滿足規(guī)定條件的特征,具體為:計算中間特征樣本集中的特征間的余弦值,將余弦值進行降序/升序排序,保留余弦值滿足規(guī)定范圍的余弦值所對應的特征,刪除余弦值不滿足規(guī)定范圍的余弦值所對應的特征;根據(jù)不同場景和需求,所述余弦值得規(guī)定范圍可自行設置,一般地,該數(shù)值范圍越大,最終結(jié)果的精確度越高,反之最終結(jié)果的精確度越低。

優(yōu)選地,迭代執(zhí)行下述過程,直到特征樣本集中特征的數(shù)量滿足預設條件,并得到最優(yōu)特征集:將特征樣本集中的特征與特征類別進行相似度計算,根據(jù)相似度計算結(jié)果選出指定的特征,并將指定特征存入中間特征樣本集,按規(guī)定對中間特征樣本集中的特征進行計算,保留滿足規(guī)定條件的特征,刪除不滿足規(guī)定條件的特征,將滿足規(guī)定條件的特征存入特征樣本集;一般地,最優(yōu)特征集中的特征數(shù)量不少于原始樣本集中特征數(shù)量的一半。

另,當有新特征加入時,根據(jù)新進入的特征數(shù)量以及具體需求,只需進行上述一次或幾次迭代過程即可,來確定新加入的特征是否可以加入最優(yōu)特征集。

本發(fā)明還給出了一種基于FTS模型的病毒特征提取的系統(tǒng)實施例,如圖2所述,包括:

原始樣本集建立模塊201,用于收集病毒樣本文件,提取樣本文件信息,建立原始樣本集;

特征類別定義模塊202,用于按規(guī)定定義樣本集包含的特征類別;

原始樣本集降維模塊203,用于計算并得到原始樣本集的高斯矩陣,并對高斯矩陣中心化,計算中心化后的高斯矩陣的特征值和特征向量;

特征樣本集生成模塊204,用于對所述特征值進行排序,選出規(guī)定特征值所對應的特征向量,并按規(guī)定對選出的特征向量進行計算,得到特征樣本集;

降低特征冗余度模塊205,用于將特征樣本集中的特征與特征類別進行相似度計算,根據(jù)相似度計算結(jié)果選出指定的特征,并將指定特征存入中間特征樣本集,按規(guī)定對中間特征樣本集中的特征進行計算,保留滿足規(guī)定條件的特征,刪除不滿足規(guī)定條件的特征;

最優(yōu)特征集生成模塊206,用于將所述滿足規(guī)定條件的特征存入特征樣本集,得到最優(yōu)特征集。

優(yōu)選地,所述樣本文件信息包括:文件名、擴展名、文件編碼格式、MD5值、KMD5值。

優(yōu)選地,所述計算并得到原始樣本集的高斯矩陣,具體為:將原始樣本集映射到高維度線性特征空間中,計算原始樣本集中各個病毒特征間的高斯函數(shù)值,得到高斯矩陣。

優(yōu)選地,所述對特征值進行排序,選出規(guī)定特征值所對應的特征向量,具體為:對特征值進行降序排序,從序列前端依次選出大于規(guī)定閾值且滿足規(guī)定數(shù)量的特征值所對應的特征向量;或?qū)μ卣髦颠M行升序排序,從序列后端依次選出大于規(guī)定閾值且滿足規(guī)定數(shù)量的特征值所對應的特征向量;根據(jù)不同場景和需求,所述規(guī)定閾值和規(guī)定數(shù)量可自行設置不同的值,一般情況下規(guī)定數(shù)量小于原始樣本集中特征的數(shù)量。

優(yōu)選地,所述按規(guī)定對選出的特征向量進行計算,具體為:將選出的特征向量與原始樣本集做積運算。

優(yōu)選地,所述將特征樣本集中的特征與特征類別進行相似度計算,其計算方式包括:將所述特征與特征類別進行余弦計算、將所述特征與特征類別按照向量空間模型的形式進行相似度計算。

優(yōu)選地,所述根據(jù)相似度計算結(jié)果選出指定的特征,具體為:將計算得到的相似度結(jié)果進行降序排序,從序列前端依次選出與指定數(shù)量相對應的相似度結(jié)果所對應的特征;或?qū)⒂嬎愕玫降南嗨贫扔嬎憬Y(jié)果進行升序排序,從序列后端依次選出與指定數(shù)量相對應的相似度計算結(jié)果所對應的特征;根據(jù)不同場景和需求,所述指定數(shù)量可自行設置,一般地,該數(shù)量設置的數(shù)值越高,最終結(jié)果的精確度越高,反之最終結(jié)果的精確度越低。

優(yōu)選地,所述按規(guī)定對中間特征樣本集中的特征進行計算,保留滿足規(guī)定條件的特征,刪除不滿足規(guī)定條件的特征,具體為:計算中間特征樣本集中的特征間的余弦值,將余弦值進行降序/升序排序,保留余弦值滿足規(guī)定范圍的余弦值所對應的特征,刪除余弦值不滿足規(guī)定范圍的余弦值所對應的特征;根據(jù)不同場景和需求,所述余弦值得規(guī)定范圍可自行設置,一般地,該數(shù)值范圍越大,最終結(jié)果的精確度越高,反之最終結(jié)果的精確度越低。

優(yōu)選地,迭代運行降低特征冗余度模塊與最優(yōu)特征集生成模塊,直到特征樣本集中特征的數(shù)量滿足預設條件,并得到最終的最優(yōu)特征集;一般地,最優(yōu)特征集中的特征數(shù)量不少于原始樣本集中特征數(shù)量的一半。

另,當有新特征加入時,根據(jù)新進入的特征數(shù)量以及具體需求,只需進行上述一次或幾次迭代過程即可,來確定新加入的特征是否可以加入最優(yōu)特征集。

本說明書中方法的實施例采用遞進的方式描述,對于系統(tǒng)的實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。本發(fā)明提出一種基于FTS模型的病毒特征提取方法及系統(tǒng),結(jié)合FTS模型算法以及GUS、GDS思想,通過將原始非線性高維樣本空間通過高斯函數(shù)的變換映射到低維度的線性樣本空間,提取一些表現(xiàn)突出的特征作為首選特征。此過程無需任何模型參數(shù)需要訓練,操作簡單,降維效果絕佳。本發(fā)明能夠有效降低病毒特征集的維度和特征冗余度,保障病毒特征集的精準性,并有效降低病毒特征集的資源空間占用;進一步地,當有新特征加入時,只需將新特征與特征集中的特征進行相似度計算,確定其冗余度即可,使得特征集易于維護。

雖然通過實施例描繪了本發(fā)明,本領域普通技術人員知道,本發(fā)明有許多變形和變化而不脫離本發(fā)明的精神,希望所附的權利要求包括這些變形和變化而不脫離本發(fā)明的精神。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1