專利名稱:一種用于木馬事件預(yù)測的最小二乘支持向量機(jī)的訓(xùn)練方法及預(yù)測方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機(jī)網(wǎng)絡(luò)信息安全領(lǐng)域,尤其涉及計算機(jī)網(wǎng)絡(luò)安全中木馬事件的預(yù)測方法。
背景技術(shù):
當(dāng)前,隨著信息技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)的網(wǎng)絡(luò)規(guī)模,網(wǎng)絡(luò)信息量以及網(wǎng)絡(luò)應(yīng)用等都在不斷增長。互聯(lián)網(wǎng)在涉及到人們生活的各方面領(lǐng)域,如政治,商業(yè),金融,文教,通信等, 發(fā)揮著越來越重要的作用。但是互聯(lián)網(wǎng)在帶給人們極大便利的同時,也面臨著越來越多的網(wǎng)絡(luò)安全事件。網(wǎng)絡(luò)安全事件預(yù)測技術(shù)是在充分收集當(dāng)前網(wǎng)絡(luò)流量狀況、獲取網(wǎng)絡(luò)歷史安全事件發(fā)生情況的基礎(chǔ)之上進(jìn)行預(yù)測的一門技術(shù)。由于木馬攻擊在大規(guī)模網(wǎng)絡(luò)下的安全事件中占很大比例,通過對未來時刻網(wǎng)絡(luò)中木馬事件發(fā)生數(shù)量進(jìn)行預(yù)測,一方面可以方便網(wǎng)絡(luò)管理人員對整個網(wǎng)絡(luò)的大體情況有一個初步的判斷,并根據(jù)判斷的情況制定與之相符的網(wǎng)絡(luò)安全策略,另一方面可以提前預(yù)判將要發(fā)生的網(wǎng)絡(luò)災(zāi)害或者攻擊,并且在災(zāi)害和攻擊發(fā)生之前及時采取應(yīng)對措施,把問題消滅在萌芽狀態(tài)?,F(xiàn)有的木馬事件預(yù)測方法有如下幾種線性回歸方法以經(jīng)典的自回歸滑動平均模型為代表,這類方法認(rèn)為未來木馬事件發(fā)生數(shù)量是受以前數(shù)量和噪聲的直接影響,因此預(yù)測值即是歷史數(shù)據(jù)和噪聲數(shù)據(jù)的加權(quán)求和,表達(dá)式如下
xt = (Pixt-I + 識Λ—2 +......+ (ppxt-p +(Pt--θ2φ(—2-......-9qcpt—q其中ρ為自回歸模型階數(shù),q為滑動平均模型階數(shù),Xt是預(yù)測值,Xi是第i次的觀測值,仍(i = 1,2,…,ρ),θ “j = 1,2, -,q)分別為自回歸參數(shù)和滑動平均參數(shù)。其特點(diǎn)是模型簡單,容易實現(xiàn),但是其一方面需要用戶正確的配置模型的參數(shù),這需要用戶具備相應(yīng)的領(lǐng)域經(jīng)驗,限制了算法的使用,另一方面對該方法對預(yù)測函數(shù)的逼近不夠準(zhǔn)確,所以預(yù)測效果不夠好?;谝?guī)則發(fā)現(xiàn)的方法如時序規(guī)則發(fā)現(xiàn),這類方法是通過根據(jù)頻繁項集在時間上的先后順序,推出它們的時序關(guān)聯(lián)規(guī)則,并根據(jù)這個規(guī)則對后面將要發(fā)生的時間進(jìn)行預(yù)測。 這種方法由于不能對預(yù)測這種復(fù)雜非線性問題建立一個結(jié)構(gòu)清晰的模型,所以預(yù)測效果不夠好。
發(fā)明內(nèi)容
因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,以最小二乘支持向量機(jī)作為預(yù)測模型,提出了一種木馬事件預(yù)測方法,在提升預(yù)測模型準(zhǔn)確度的同時保持較好的性能。本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的
一方面,本發(fā)明提供了一種用于木馬事件預(yù)測的最小二乘支持向量機(jī)的訓(xùn)練方法,包括以下步驟步驟1)將木馬事件序列Iivr2,……,Γι}中的每個值與前面的m個相隔為τ的值相關(guān),即r1+mT =F(ri;r1+,,……,r1+(m_1)T),其中,1為樣本總數(shù),m和τ是小于1的正整數(shù);步驟2)將樣本數(shù)據(jù)劃分為多個訓(xùn)練數(shù)據(jù)對(Xi,yi),i = 1,2,……,n,其中輸入向量Xi e Rm,Rm是輸入向量的維數(shù),輸出向量71 e R,R是輸出向量的維數(shù),η = l-l-(m-l) τ ;步驟3)構(gòu)造最小二乘支持向量機(jī)為J(X) = Iil1fMc(Ix) + A,其中K(Xi,X)為核函數(shù),應(yīng)滿足K(Xi,X) = exp{- Xi-X /2σ2},。為核寬度;步驟4)基于樣本數(shù)據(jù)采用遺傳算法來確定所述最小二乘向量機(jī)的參數(shù)α dPb的最優(yōu)值;根據(jù)本發(fā)明實施例的訓(xùn)練方法,其中m的取值范圍為[1,10],τ的取值范圍為[1, 3] ο根據(jù)本發(fā)明實施例的訓(xùn)練方法,其中步驟4)包括以下步驟步驟4-1)將訓(xùn)練數(shù)據(jù)對的輸入向量代入最小二乘支持向量機(jī)來計算預(yù)測結(jié)果;步驟4- 根據(jù)預(yù)測結(jié)果與訓(xùn)練數(shù)據(jù)對的輸出向量來計算誤差;步驟4- 如果誤差大于預(yù)測精度,則使用遺傳算法來優(yōu)化參數(shù)α i和b ;步驟4-4)將經(jīng)優(yōu)化的參數(shù)代入到最小二乘支持向量機(jī),接收下一個訓(xùn)練數(shù)據(jù)對并轉(zhuǎn)到步驟4-1),重復(fù)執(zhí)行步驟4-1)至4-4)直至誤差小于或等于預(yù)測精度為止。根據(jù)本發(fā)明實施例的訓(xùn)練方法,其中預(yù)測精度為0. 05。根據(jù)本發(fā)明實施例的訓(xùn)練方法,步驟4-3)包括以下步驟步驟4-3-1)對參數(shù)α i、b采用進(jìn)行編碼,染色體基因位上的每一個基因都代表一個參數(shù)值,α2,…,an,b];步驟4-3-2)設(shè)置適應(yīng)度函數(shù)為Ffit = 1/(Err+1),其中,=雄+)]2/[ *(maX-min)2]其中,η 為訓(xùn)練數(shù)據(jù)對的總數(shù),x(i)為期
望值,對0為預(yù)測值,max和min為η個期望值中的最大值和最小值;所述期望值為訓(xùn)練數(shù)據(jù)對的輸出向量;步驟4-3- 個體適應(yīng)度大的s個個體直接進(jìn)入下一代種群Child,剩余的(N-s) 個個體集合記作臨時種群Temp ;步驟4-3-4)將臨時種群Temp中的個體兩兩隨機(jī)配對進(jìn)行交叉,產(chǎn)生的新個體與父類個體作適應(yīng)度比較,保留較大者,操作完成后得到的種群ft~el,其中交叉概率Pc應(yīng)用 兩足
Jpc0*[1 -(/1 -7)/(Jmax-/)]/Iog2fe+1),/1 >/^ ,^&=1 ,其他情況其中g(shù)為當(dāng)前進(jìn)化代
數(shù),fMX為Temp中個體適應(yīng)度最大的值,_7為Temp中個體的平均適應(yīng)度,/I為一對交叉?zhèn)€體中適應(yīng)度較大值;步驟4-3- 對臨時種群Temp中的個體進(jìn)行變異操作,產(chǎn)生的新個體與父類個體作適應(yīng)度比較,保留較大者,操作完成后得到種群記為ft~e2,其中變異概率Rii應(yīng)滿足
權(quán)利要求
1.一種用于木馬事件預(yù)測的最小二乘支持向量機(jī)的訓(xùn)練方法,所述方法包括步驟1)將木馬事件序列Iivr2,……,ri}中的每個值與前面的m個相隔為τ的值相關(guān),即Γι+ωτ =F(ri;r1+,,……,IV0lri) τ),其中,1為樣本總數(shù),m和τ是小于1的正整數(shù); 步驟2)將樣本數(shù)據(jù)劃分為多個訓(xùn)練數(shù)據(jù)對(Xi,yi),i = 1,2,……,n,其中輸入向量 Xi e Rm,Rm是輸入向量的維數(shù),輸出向量71 e R,R是輸出向量的維數(shù),η = l-l-(m-l) τ ;步驟3)構(gòu)造最小二乘支持向量機(jī)為
2.根據(jù)權(quán)利要求1所述的訓(xùn)練方法,其中m的取值范圍為[1,10],τ的取值范圍為[1, ο
3.根據(jù)權(quán)利要求1所述的訓(xùn)練方法,其中步驟4)包括以下步驟步驟4-1)將訓(xùn)練數(shù)據(jù)對的輸入向量代入最小二乘支持向量機(jī)來計算預(yù)測結(jié)果; 步驟4- 根據(jù)預(yù)測結(jié)果與訓(xùn)練數(shù)據(jù)對的輸出向量來計算誤差; 步驟4- 如果誤差大于預(yù)測精度,則使用遺傳算法來優(yōu)化參數(shù)α i和b ; 步驟4-4)將經(jīng)優(yōu)化的參數(shù)代入到最小二乘支持向量機(jī),接收下一個訓(xùn)練數(shù)據(jù)對并轉(zhuǎn)到步驟4-1),重復(fù)執(zhí)行步驟4-1)至4-4)直至誤差小于或等于預(yù)測精度為止。
4.根據(jù)權(quán)利要求3所述的訓(xùn)練方法,其中預(yù)測精度為0.05。
5.根據(jù)權(quán)利要求3所述的訓(xùn)練方法,步驟4- 包括以下步驟步驟4-3-1)對參數(shù)α i、b采用進(jìn)行編碼,染色體基因位上的每一個基因都代表一個參數(shù)值,[Q1, α 2,…,αη,b];步驟4-3-2)設(shè)置適應(yīng)度函數(shù)為Ffit = l/(Err+l),其中,
6.根據(jù)權(quán)利要求5所述的訓(xùn)練方法,其中,對參數(shù)α”b采用實數(shù)編碼的方式,其初始值隨機(jī)生成,取值范圍為W,l]。
7.根據(jù)權(quán)利要求5所述的訓(xùn)練方法,在步驟4-3-3)中s不超過占個體總數(shù)量的10%。
8.一種利用根據(jù)權(quán)利要求1至7之一所述的訓(xùn)練方法訓(xùn)練好的最小二乘支持向量機(jī)進(jìn)行木馬事件預(yù)測的方法,所述方法包括以對某類木馬事件發(fā)生數(shù)量的統(tǒng)計數(shù)據(jù)的序列為所述最小二乘支持向量機(jī)的輸入,所述最小二乘支持向量機(jī)的輸出為網(wǎng)絡(luò)中將要發(fā)生的該類木馬事件的數(shù)量。
全文摘要
本發(fā)明提供了用于木馬事件預(yù)測的最小二乘支持向量機(jī)的訓(xùn)練方法和預(yù)測方法。其中利用改進(jìn)的遺傳算法優(yōu)化最小二乘支持向量機(jī)的參數(shù),利用訓(xùn)練好的最小二乘支持向量機(jī)來進(jìn)行預(yù)測。改進(jìn)的遺傳算法能夠快速收斂,且更接近全局最優(yōu)值,而且優(yōu)化后的最小二乘支持向量機(jī)能夠在提升預(yù)測準(zhǔn)確度的同時保持較好的性能,可應(yīng)用于大規(guī)模網(wǎng)絡(luò)中的木馬事件發(fā)生數(shù)量的預(yù)測。
文檔編號G06N3/12GK102456109SQ20111021792
公開日2012年5月16日 申請日期2011年8月1日 優(yōu)先權(quán)日2011年8月1日
發(fā)明者劉 東, 劉斐, 周斌, 夏榕澤, 張建鋒, 徐鏡湖, 李遠(yuǎn)征, 楊樹強(qiáng), 王雯霞, 賈焰, 鄭黎明, 韓偉紅 申請人:中國人民解放軍國防科學(xué)技術(shù)大學(xué)