亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

勒索軟件檢測的方法與流程

文檔序號:11775150閱讀:2358來源:國知局
勒索軟件檢測的方法與流程
本發(fā)明涉及網(wǎng)絡安全
技術(shù)領(lǐng)域
,具體涉及一種勒索軟件檢測的方法。
背景技術(shù)
:勒索軟件是黑客用來劫持用戶設備或資源,并以此為條件向用戶勒索錢財?shù)囊环N惡意軟件。勒索軟件通常會將用戶系統(tǒng)中多種類型的文件進行加密或篡改系統(tǒng)配置,干擾用戶正常使用,用戶只有支付贖金后方可獲得解密文件的密碼或者獲得恢復系統(tǒng)正常使用的方法。2016年,360公司共截獲電腦端新增勒索軟件樣本16.7萬個,全國至少有497多萬臺用戶電腦遭到了勒索軟件攻擊。勒索軟件是惡意代碼的一種,目前惡意代碼檢測方法主要分為靜態(tài)檢測和動態(tài)檢測兩類。靜態(tài)分析通過逆向工程抽取程序特征,分析函數(shù)調(diào)用、程序指令等序列。但是惡意代碼會使用代碼混淆、花指令等手段對抗靜態(tài)分析。動態(tài)檢測是通過攔截或監(jiān)控的方式分析程序運行時的行為特征,使用沙箱或虛擬機模擬運行程序,繞過代碼混淆等代碼保護機制,檢測惡意代碼的動態(tài)行為。動態(tài)檢測中,葛雨瑋等人,從代碼執(zhí)行程序的控制流和數(shù)據(jù)流中抽取動態(tài)特征,然后將惡意代碼特征分為特征代碼、api函數(shù)特征、數(shù)據(jù)特征和行為特征,其中api函數(shù)特征按調(diào)用順序連接形成api序列字符串,同時計數(shù)提取api函數(shù)調(diào)用的不同參數(shù),結(jié)合bp神經(jīng)網(wǎng)絡算法,檢測惡意代碼的同源性。在研究api函數(shù)的調(diào)用與惡意代碼的關(guān)系上,韓蘭勝等人從9個動態(tài)鏈接庫中選取126個api構(gòu)造記錄調(diào)用的子集。結(jié)合熵與機器學習算法訓練檢測模型,他們共檢測了920個惡意軟件樣本以及450個正常軟件樣本。主流的惡意代碼檢測方法包括基于n-grams算法計算api調(diào)用的相似度進行惡意代碼的檢測。kyeomcho等人有不同的嘗試,他們結(jié)合信息生物學的序列比對法,首先將惡意軟件的api調(diào)用行為構(gòu)造為一組基因序列,再通過比對待測軟件的api調(diào)用序列與已知惡意軟件的調(diào)用序列進行檢測。同樣的問題,惡意樣本對api的調(diào)用存在大量的冗余操作。所以隨著監(jiān)測的樣本動態(tài)行為越多,檢測的結(jié)果受到的干擾越嚴重。勒索軟件有著自己特有的行為,所以基于行為的頻繁度檢測勒索軟件是一種很好的檢測方法。國外的研究者使用api名稱、api調(diào)用的參數(shù)并選取了24種api計算惡意代碼api調(diào)用的頻繁度,構(gòu)造特征進行惡意軟件的檢測。但由于api庫的龐大,基于24種api調(diào)用的頻繁度無法全面的描述惡意代碼的行為。korkmaz等人則在基于調(diào)用的頻繁度上做了拓展,他們將api調(diào)用分為不同的調(diào)用類,基于api調(diào)用類別的頻繁度來描述惡意代碼的行為,對勒索軟件的準確率為88%。已有專利中,從防止勒索軟件感染電腦的角度上,倪茂志提出一種勒索軟件的防范方法和系統(tǒng),構(gòu)建至少一個符合勒索軟件加密類型的誘餌文件,并插入到欲保護磁盤原有的文件序列中,再判斷誘餌文件是否發(fā)生變化;在誘餌文件發(fā)生變化的情況下,禁止對欲保護磁盤進行預設操作。缺點是如果勒索軟件檢測到有誘餌軟件,則不表現(xiàn)勒索行為,導致無法識別是否為勒索軟件。此外倪茂志提出另外一種勒索軟件的防范方法,構(gòu)建備份數(shù)據(jù)庫,其中,備份數(shù)據(jù)庫包括至少一個還原點以及與每個還原點對應的還原數(shù)據(jù),還原數(shù)據(jù)包括注冊表數(shù)據(jù)和磁盤文件數(shù)據(jù);接收處理請求,根據(jù)處理請求從備份數(shù)據(jù)庫中選擇一個還原點,并調(diào)用與一個還原點對應的磁盤文件數(shù)據(jù)。遍歷磁盤,根據(jù)與一個還原點對應的磁盤文件數(shù)據(jù)確定磁盤是否有新增的文件;在磁盤中有新增的文件的情況下,對新增的文件添加啟動時鎖定的屬性,并根據(jù)與一個還原點對應的注冊表數(shù)據(jù)對磁盤進行還原。該發(fā)明能夠縮小勒索軟件在所有文件中的判定范圍,并有效的對勒索軟件進行鎖定,防止勒索軟件的進一步侵害,同時能夠?qū)Υ疟P進行還原,使磁盤恢復正常。從恢復數(shù)據(jù)的角度上,安天實驗室的葉佳旭提出一種基于數(shù)據(jù)重定向的勒索軟件防御系統(tǒng)及方法。該發(fā)明提出一種基于數(shù)據(jù)重定向的勒索軟件防御系統(tǒng),通過在用戶和勒索軟件的服務器間增加數(shù)據(jù)重定向服務器,同時接收來自客戶端發(fā)送的請求消息以及目的服務器的數(shù)字證書,并向客戶端發(fā)送重定向服務器數(shù)字證書,客戶端用重定向服務器數(shù)字證書加密后發(fā)送至重定向服務器,重定向服務器解密信息后又用目的服務器的數(shù)字證書重新加密,發(fā)送至目的服務器,實現(xiàn)對已感染勒索類病毒的系統(tǒng)內(nèi)的文件進行還原。從備份數(shù)據(jù)的角度上,倪茂志提出一種針對防御勒索軟件文件數(shù)據(jù)的備份保護方法和系統(tǒng),該發(fā)明設計一種針對防御勒索軟件文件數(shù)據(jù)的備份保護方法和系統(tǒng)。其中方法包括:接收對文件的操作請求;確定文件的大小是否小于預設上限值;在文件的大小小于預設上限值的情況下,確定文件是否屬于預設文件備份類型;在文件屬于預設文件備份類型的情況下,在存儲介質(zhì)中對文件進行備份后,執(zhí)行對文件的操作請求;在文件不屬于預設文件備份類型的情況下,直接執(zhí)行對文件的操作請求。現(xiàn)有的靜態(tài)和動態(tài)檢測方法主要是針對惡意軟件的通用檢測技術(shù)和方法,并沒有對勒索軟件在行為特征上的差異性進行深入分析。辨別勒索軟件是分析勒索軟件的家族、特征與研究防范方法最重要的一步,本發(fā)明重點解決勒索軟件檢測問題。目前,檢測勒索軟件的主要問題在于:(1)勒索軟件在對抗靜態(tài)檢測方面下了很大的功夫,使得靜態(tài)檢測方法難以檢測勒索軟件。例如cerber家族的勒索軟件使用虛擬內(nèi)存映射等手段來逃避靜態(tài)檢測,并使用重新打壓縮包和加載機制的方式逃避靜態(tài)機器學習檢測。(2)勒索軟件有著明顯的行為特征,雖然已經(jīng)有研究者從api函數(shù)調(diào)用頻繁度的角度進行勒索軟件的檢測,但對不同類型的勒索軟件的特征研究不深入,檢測的效果有待提高。(3)使用機器學習檢測勒索軟件,在構(gòu)造行為特征時,主流使用的n-grams、序列比對法等描述api的調(diào)用有大量的冗余,隨著監(jiān)測的樣本動態(tài)行為越多,檢測的結(jié)果受到的干擾越嚴重,并且構(gòu)建的算法維度與復雜度高。技術(shù)實現(xiàn)要素:為解決上述問題,本發(fā)明提供了一種勒索軟件檢測的方法,有效避免了現(xiàn)有技術(shù)中難以檢測勒索軟件、對不同類型的勒索軟件的特征研究不深入、檢測的結(jié)果受到的干擾越嚴重以及構(gòu)建的算法維度與復雜度高的缺陷。為了克服現(xiàn)有技術(shù)中的不足,本發(fā)明提供了一種勒索軟件檢測的方法的解決方案,具體如下:一種勒索軟件檢測的方法,所述勒索軟件檢測的方法分為先后順序執(zhí)行的兩個部分,勒索軟件的檢測模型訓練:首先,需要確定訓練勒索軟件檢測模型的訓練集,訓練集分為2個子集:①勒索軟件樣本集合;②正常樣本集合;利用分布式沙箱對訓練集合中樣本進行動態(tài)分析,提取沙箱分析后的報告;2)勒索軟件的檢測模型的測試;根據(jù)特征構(gòu)造算法建立特征集,采用五折交叉法進行模型的訓練與測試,使用準確率這樣的指標衡量模型性能。將所述樣本的動態(tài)分析的實驗環(huán)境設置在虛擬機中,設置了快照與檢查機制,當系統(tǒng)檢測到惡意樣本嘗試逃逸分析機時,啟動快照回滾到干凈狀態(tài)。所述勒索軟件的檢測模型包括:勒索軟件樣本集合和正常樣本集合;把所述勒索軟件樣本集合和正常樣本集合利用分布式沙箱對訓練集合中的樣本進行動態(tài)分析,提取沙箱分析后的報告;根據(jù)特征構(gòu)造算法建立特征集,采用五折交叉法進行模型的訓練與測試,使用準確率這樣的指標衡量模型性能。所述特征集分別為api函數(shù)特征、行為特征以及內(nèi)存特征。所述api函數(shù)特征的類別包括加密應用程序api類crypto、系統(tǒng)進程管理類api類process、進程服務類apiservices、注冊表類apiregistry、資源類apiresource。所述行為特征的網(wǎng)絡行為構(gòu)建一組特征,表示樣本的網(wǎng)絡行為中建立連接的主機域名個數(shù),建立的tcp或者udp連接。所述注冊表行為包括注冊表的訪問、讀取、修改與刪除。所述文件行為定義了一組描述對敏感文件的向量,捕獲樣本對敏感文件的操作,敏感文件集由"dll","exe","jpg","doc"這樣的擴展名組成。所述文件夾行為包括敏感路徑刪除、移動、讀取、遍歷的計數(shù)值。所述內(nèi)存特征基于沙箱的行為捕獲不能完全捕獲樣本的行為,結(jié)合volatility內(nèi)存取證工具以及yara匹配工具,使用內(nèi)存行為特征對沙箱捕獲到的行為進行補充;在沙箱分析樣本完畢后,首先使用volatility獲取執(zhí)行后的沙箱的內(nèi)存鏡像,再使用yara匹配工具根據(jù)匹配規(guī)則對鏡像進行掃描、分析,獲取行為標簽。所述特征構(gòu)造算法為隨機森林(randomforest,rf)算法有更高的穩(wěn)定性和魯棒性,恰當?shù)挠柧殔?shù)可以獲得更好的分類,隨機森林算法是bagging算法和randomsubspace算法的組合,基本構(gòu)成單元是決策樹,通過多棵決策樹的組合h1(x),h2(x),…,hn(x)來提高分類的準確性,通過子樹的最終投票對未知類別的樣本進行分類。所述樣本t的信息熵為公式(1)所示:其中,pi表示類別i樣本占總樣本數(shù)量的比例,在特征a作用后,樣本t被分成了k個部分,此時基尼系數(shù)計算為公式(2)和公式(3)所示:rf中降低過擬合的方式為剪枝,使用悲觀剪枝(pessimisticerrorpruning)進行剪枝,pep首先計算規(guī)則在它應用的訓練樣例上的精度,然后假定此估計精度為二項式分布,并計算它的標準差。對于給定的置信區(qū)間,采用下界估計作為規(guī)則性能的度量,其中當節(jié)點tt滿足公式(4)時,tt就會被裁剪掉,e′(t)≤e′(tt)+se(e′(tt))(4)e(t)為結(jié)點t的誤差;i為覆蓋tt的葉子結(jié)點;nt為子樹tt的葉子樹;n(t)為在結(jié)點t處的訓練集合數(shù)量。在進行rf框架選擇和改進時,選取完最佳子樹特征集后,另一個影響過擬合能力的參數(shù)為基學習器。rf框架中,基學習器(baselearner)的偏差小但方差較大,rf框架中整體模型的方差為:基學習器數(shù)量為b,基學習器方差為σ2,兩兩基學習器間的相關(guān)性為ρ。所以基于pep剪枝算法進行剪枝并結(jié)合網(wǎng)格搜索法選取基學習器的最優(yōu)值。本發(fā)明的技術(shù)效果為:本發(fā)明為基于特征行為的頻繁度并結(jié)合內(nèi)存特征的方法,使用基于參數(shù)優(yōu)化的隨機森林算法構(gòu)造模型。實驗表明,與以往的勒索代碼檢測方法相比,在降低構(gòu)建特征的維度、復雜度的同時,能很好的檢測勒索軟件與未知的勒索軟件。附圖說明圖1是本發(fā)明的勒索軟件檢測的方法的系統(tǒng)結(jié)構(gòu)示意圖;圖2是本發(fā)明的算法的流程圖。具體實施方式下面將結(jié)合附圖和實施例對本發(fā)明做進一步地說明。如圖1-圖2所示,勒索軟件檢測的方法,所述勒索軟件檢測的方法分為先后順序執(zhí)行的兩個部分,勒索軟件的檢測模型訓練:首先,需要確定訓練勒索軟件檢測模型的訓練集,訓練集分為2個子集:①勒索軟件樣本集合;②正常樣本集合;利用分布式沙箱對訓練集合中樣本進行動態(tài)分析,提取沙箱分析后的報告;2)勒索軟件的檢測模型的測試;根據(jù)特征構(gòu)造算法建立特征集,采用五折交叉法進行模型的訓練與測試,使用準確率這樣的指標衡量模型性能。為了降低惡意樣本在執(zhí)行中可能造成的危害,將所述樣本的動態(tài)分析的實驗環(huán)境設置在虛擬機中,設置了快照與檢查機制,當系統(tǒng)檢測到惡意樣本嘗試逃逸分析機時,啟動快照回滾到干凈狀態(tài)。所述勒索軟件的檢測模型包括:如圖1所示,勒索軟件樣本集合和正常樣本集合;把所述勒索軟件樣本集合和正常樣本集合利用分布式沙箱對訓練集合中的樣本進行動態(tài)分析,提取沙箱分析后的報告;根據(jù)特征構(gòu)造算法建立特征集,采用五折交叉法進行模型的訓練與測試,使用準確率這樣的指標衡量模型性能。根據(jù)分析,勒索軟件會頻繁訪問個人文件夾以及目錄,加密敏感文件。此外,還會進行注冊表項更新,以保持持久性,或訪問密鑰來檢索已安裝的設備列表。勒索軟件通常會試圖搜索python代理,檢測是否在虛擬環(huán)境內(nèi)。本專利主要目的在于檢測勒索軟件,所以從勒索軟件剛植入電腦時的行為出發(fā)進行分析,基于此構(gòu)建了三類特征集,所述特征集分別為api函數(shù)特征、行為特征以及內(nèi)存特征。即如表1所示的構(gòu)建的特征及特征的說明:表1大多數(shù)情況下,勒索軟件會啟動大量的系統(tǒng)調(diào)用,單個系統(tǒng)調(diào)用的計數(shù)量大,并難以表征勒索軟件的行為。所以根據(jù)系統(tǒng)調(diào)用類別定義了api函數(shù)特征的特征向量,確定了不同類別的系統(tǒng)調(diào)用類型,所述api函數(shù)特征的類別如表2所示包括加密應用程序api類crypto、系統(tǒng)進程管理類api類process、進程服務類apiservices、注冊表類apiregistry、資源類apiresource。如表2所示:表2類別描述crypto加密應用程序api類process系統(tǒng)進程管理類api類services進程服務類apiregistry注冊表類apiresource資源類api......通常系統(tǒng)調(diào)用不是由程序直接訪問,而是通過調(diào)用實際系統(tǒng)調(diào)用本身的高級應用程序接口(api),例如windowsapi。而api由各種api函數(shù)實現(xiàn),包含在幾個api庫文件中,通常是動態(tài)鏈接庫dll文件。所以本方法抽取了256個api函數(shù),以及96個動態(tài)鏈接庫文件,計算樣本的api調(diào)用、dll調(diào)用的頻繁度,如表3所示:表3所述行為特征的網(wǎng)絡行為是基于勒索軟件遍歷敏感文件后,通常會建立多個網(wǎng)絡連接。由此構(gòu)建一組特征,表示樣本的網(wǎng)絡行為中建立連接的主機域名個數(shù),建立的tcp或者udp連接。所述注冊表行為關(guān)注注冊表的四個功能的計數(shù),包括注冊表的訪問、讀取、修改與刪除。當讀取和訪問大量注冊表項時,考慮到嵌套的路徑遍歷。所述文件行為,通過對勒索軟件常加密的文件以及攻擊方式進行分析,定義了一組描述對敏感文件的向量,捕獲樣本對敏感文件的操作,敏感文件集由"dll","exe","jpg","doc"這樣的擴展名組成。所述文件夾行為基于勒索軟件執(zhí)行后,通常會在文件系統(tǒng)中特定的路徑或位置下創(chuàng)建文件。并在windows操作系統(tǒng)中命名。由此包括敏感路徑刪除、移動、讀取、遍歷的計數(shù)值。如表4所示:表4所述內(nèi)存特征考慮到惡意軟件的對抗分析的技術(shù),基于沙箱的行為捕獲不能完全捕獲樣本的行為,結(jié)合volatility內(nèi)存取證工具以及yara匹配工具,使用內(nèi)存行為特征對沙箱捕獲到的行為進行補充;在沙箱分析樣本完畢后,首先使用volatility獲取執(zhí)行后的沙箱的內(nèi)存鏡像,再使用yara匹配工具根據(jù)匹配規(guī)則對鏡像進行掃描、分析,獲取行為標簽。根據(jù)前期對勒索軟件的分析,結(jié)合yara匹配工具構(gòu)造行為標簽特征,構(gòu)造了一組基于行為標簽的特征,此外另定義了一組描述互斥體(mutex)的特征,如表5所示:表5相比svm及邏輯回歸的方式,所述特征構(gòu)造算法為隨機森林(randomforest,rf)算法有更高的穩(wěn)定性和魯棒性,恰當?shù)挠柧殔?shù)可以獲得更好的分類,隨機森林算法是bagging算法和randomsubspace算法的組合,基本構(gòu)成單元是決策樹,通過多棵決策樹的組合h1(x),h2(x),…,hn(x)(可能是二叉樹,也可能是多叉樹)來提高分類的準確性,通過子樹的最終投票對未知類別的樣本進行分類。從特征集k中選取最佳分類節(jié)點有三種,分別是根據(jù)信息增益、信息增益率或基尼系數(shù)。對應決策樹類型為id3、c4.5和cart,屬性篩選的方法對算法性能影響較小,由此基于基尼系數(shù)選取最佳子樹特征集。根據(jù)信息論中的熵值定義,信息熵越大表示數(shù)據(jù)的純度越高。所述樣本t的信息熵為公式(1)所示:其中,pi表示類別i樣本占總樣本數(shù)量的比例,在特征a作用后,樣本t被分成了k個部分,此時基尼系數(shù)計算為公式(2)和公式(3)所示:剪枝是訓練樹重要的一部分,rf算法中當子樹劃分的太細時,會發(fā)生過擬合。rf中降低過擬合的方式為剪枝,使用悲觀剪枝(pessimisticerrorpruning)進行剪枝,pep首先計算規(guī)則在它應用的訓練樣例上的精度,然后假定此估計精度為二項式分布,并計算它的標準差。對于給定的置信區(qū)間,采用下界估計作為規(guī)則性能的度量,其中當節(jié)點tt滿足公式(4)時,tt就會被裁剪掉,e′(t)≤e′(tt)+se(e′(tt))(4)e(t)為結(jié)點t的誤差;i為覆蓋tt的葉子結(jié)點;nt為子樹tt的葉子樹;n(t)為在結(jié)點t處的訓練集合數(shù)量。在進行rf框架選擇和改進時,選取完最佳子樹特征集后,另一個影響過擬合能力的參數(shù)為基學習器。rf框架中,基學習器(baselearner)的偏差小但方差較大,rf框架中整體模型的方差為:基學習器數(shù)量為b,基學習器方差為σ2,兩兩基學習器間的相關(guān)性為ρ。一般來說b值太小,容易欠擬合,太大容易過擬合。對于rf來說,增加b值可以明顯降低整體模型的方差,且不會對子模型的偏差和方差有任何影響。所以基于pep剪枝算法進行剪枝并結(jié)合網(wǎng)格搜索法選取基學習器的最優(yōu)值?;趐ep剪枝算法的流程圖如圖2所示。經(jīng)由實踐,即從互聯(lián)網(wǎng)下載近幾年的勒索病毒,并且從360官方商城下載正常樣本。正常樣本集中包含16類軟件共397個樣本(辦公軟件類、聊天工具類、數(shù)據(jù)恢復類、驅(qū)動工具類等)。勒索樣本集中包含16類勒索家族共1412個勒索樣本,包含當前主流與新出現(xiàn)的勒索軟件(cryptowall、cryptlocker、cryptmic、cerber、teslacrypt等)。正常樣本集僅從360的官方應用商店,按軟件使用比例下載軟件。并檢測兩者數(shù)據(jù)集在virustotal上的結(jié)果,篩選未被污染的樣本。實驗的環(huán)境如表6所示:表6接著與其他分類算法進行比較,即通過上面特征的選取,所生成的特征向量空間被轉(zhuǎn)換為dataframe格式,然后使用python的scikit-learn庫進行處理分類,為了評價用于檢測勒索樣本的特征向量與模型的性能,將本專利提出的優(yōu)化隨機森林算法op-randomforest方法與svm,logisticregression,decisiontree進行比較,評估的指標包括準確率、f1值。實驗結(jié)果如表7所示:表7從表7中可以看出,五種分類器的準確率都高于89%。其中使用隨機森林算法構(gòu)建的分類器性能最好準確率為96.57%,優(yōu)化參數(shù)后的隨機森林準確率下降了2%,但oob_score提高了0.7%,泛化能力有所提升。svm和決策樹的f1值以及準確率較低。在時間上分類器分類所有樣本所消耗的時間中除svm外,所用時間都低于6.6s。另外還與常見殺毒軟件進行比較,即本次取另一組勒索樣本,首先計算每個樣本在virustotal上被殺毒軟件檢測的平均檢測率`r=p/t,t為virustotal上所有殺毒軟件的計數(shù),p為殺毒軟軟件檢測為陽性的計數(shù)。根據(jù)平均檢測率低于0.1,0.3分兩組勒索樣本集合n1和n2。使用本專利提出的模型分別檢測兩組樣本集并與殺毒軟件avg、avira、clamav、kaspersky、mcafee進行對比,對比`r1=0.1與`r2=0.3的結(jié)果,如表8所示,n為樣本集的總數(shù)。其中殺毒軟件mcafee的檢測率最高,其次檢測率較好的殺毒軟件為avira,而本專利提出的方法在兩組實驗中檢測率都不低于95%,可以得出本方法相比常見殺毒軟件,并且對于未知的勒索軟件有更好的檢測率。表8本發(fā)明的技術(shù)效果為:本發(fā)明為基于特征行為的頻繁度并結(jié)合內(nèi)存特征的方法,使用基于參數(shù)優(yōu)化的隨機森林算法構(gòu)造模型。實驗表明,與以往的勒索代碼檢測方法相比,在降低構(gòu)建特征的維度、復雜度的同時,能很好的檢測勒索軟件與未知的勒索軟件。以上以附圖說明的方式對本發(fā)明作了描述,本領(lǐng)域的技術(shù)人員應當理解,本公開不限于以上描述的實施例,在不偏離本發(fā)明的范圍的情況下,可以做出各種變化、改變和替換。當前第1頁12
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1