亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)知識(shí)訓(xùn)練方法和預(yù)測(cè)方法

文檔序號(hào):7722885閱讀:113來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)知識(shí)訓(xùn)練方法和預(yù)測(cè)方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)安全領(lǐng)域,特別涉及大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)方法。
背景技術(shù)
大規(guī)模網(wǎng)絡(luò)的態(tài)勢(shì)感知對(duì)網(wǎng)絡(luò)安全具有重要意義,由于各種安全事件的規(guī)模體現(xiàn) 出了網(wǎng)絡(luò)安全態(tài)勢(shì)信息,而對(duì)網(wǎng)絡(luò)安全事件(特別是時(shí)間粒度較大的網(wǎng)絡(luò)安全事件)的規(guī) 模的有效預(yù)測(cè)可以為后續(xù)的決策爭(zhēng)取時(shí)間,因此預(yù)測(cè)網(wǎng)絡(luò)安全事件規(guī)模是網(wǎng)絡(luò)安全中的重
要一環(huán)。現(xiàn)有技術(shù)中已經(jīng)存在一些用于預(yù)測(cè)大規(guī)模網(wǎng)絡(luò)安全事件規(guī)模的方法。其中一 類(lèi)方法是采用了以統(tǒng)計(jì)學(xué)為基礎(chǔ)的線(xiàn)性預(yù)測(cè)模型,如參考文獻(xiàn)1 “GEP.Box,G. Μ. Jenki s, GC. Reinsel. Time Series Analysis -Forecasting andControl[M]. reviseded, Holden Day, SanFrancisco, 1978”所公開(kāi)的線(xiàn)性預(yù)測(cè)模型,該類(lèi)預(yù)測(cè)模型在解決時(shí)間序列預(yù)測(cè)問(wèn)題 上已經(jīng)被廣泛研究,并產(chǎn)生了多個(gè)具體的預(yù)測(cè)模型。這些預(yù)測(cè)模型在模型識(shí)別、階的確定、 模型參數(shù)的估計(jì)等問(wèn)題上已經(jīng)基本完善和成熟。例如,基于回歸對(duì)呈現(xiàn)為時(shí)間序列形式的 數(shù)據(jù)進(jìn)行預(yù)測(cè)是最經(jīng)典的一種預(yù)測(cè)方法,其主要思想是利用一些常用的曲線(xiàn)(使用較多的 是直線(xiàn)和二次曲線(xiàn))來(lái)近似近期歷史數(shù)據(jù)的變化,并以擬合曲線(xiàn)的延展情況為依據(jù)預(yù)測(cè)時(shí) 序數(shù)據(jù)的未來(lái)發(fā)展。基于回歸擬合的預(yù)測(cè)方法由于其簡(jiǎn)單和高效而被廣泛的使用。但在將 此類(lèi)方法應(yīng)用到網(wǎng)絡(luò)安全事件規(guī)模的預(yù)測(cè)時(shí),由于網(wǎng)絡(luò)安全事件規(guī)模數(shù)據(jù)存在短期波動(dòng)、 低信噪比和非穩(wěn)態(tài)性等特點(diǎn),實(shí)際應(yīng)用中影響時(shí)間序列數(shù)據(jù)規(guī)律的因素非常復(fù)雜,無(wú)法掌 握其包含的全部信息,因此難以構(gòu)建精確的數(shù)學(xué)模型,使得通過(guò)設(shè)置假設(shè)條件強(qiáng)行建立時(shí) 間序列的數(shù)學(xué)模型并進(jìn)行后續(xù)分析的做法不能滿(mǎn)足網(wǎng)絡(luò)安全事件規(guī)模預(yù)測(cè)的需求,特別是 當(dāng)數(shù)據(jù)規(guī)律發(fā)生變化時(shí)預(yù)測(cè)準(zhǔn)確性將急劇下降。另一類(lèi)方法是基于DFT或小波的預(yù)測(cè)方法。如參考文獻(xiàn)2 “S.Soltani,On the use of wavelet decomposition for time series prediction, NeurocomputOct.2002, vol. 48 J67-277”中所公開(kāi)的方法,該類(lèi)方法也是一種有代表性的時(shí)序數(shù)據(jù)預(yù)測(cè)方法,該類(lèi) 方法采用小波分解分離時(shí)序數(shù)據(jù)中代表穩(wěn)定因素的低頻成分和代表隨機(jī)因素的高頻成分, 然后對(duì)二者分別進(jìn)行處理后再組合得到預(yù)測(cè)結(jié)果。采用這種方法可以將數(shù)據(jù)中較為穩(wěn)定 的周期性成分和變化較大的隨機(jī)性成分分別處理,對(duì)周期性較強(qiáng)的數(shù)據(jù)具有較好的預(yù)測(cè)效 果。但對(duì)于大規(guī)模網(wǎng)絡(luò)安全事件規(guī)模數(shù)據(jù)而言,隨著周邊網(wǎng)絡(luò)環(huán)境的不斷演化,數(shù)據(jù)特征呈 現(xiàn)多模式性,分別對(duì)應(yīng)了不同的網(wǎng)絡(luò)安全態(tài)勢(shì)和風(fēng)險(xiǎn)狀態(tài),因此基于DFT或小波預(yù)測(cè)大規(guī) 模網(wǎng)絡(luò)安全事件規(guī)模時(shí),當(dāng)數(shù)據(jù)中的周期性成分穩(wěn)定時(shí)才有較好的效果,但大部分情況下 當(dāng)網(wǎng)絡(luò)態(tài)勢(shì)和風(fēng)險(xiǎn)狀態(tài)發(fā)生變化時(shí),這種周期性成分也會(huì)隨之而變化,從而使預(yù)測(cè)效果較 差。還有一類(lèi)方法是基于非線(xiàn)性模型的預(yù)測(cè)方法。此類(lèi)方法的典型代表包括混 沌時(shí)間序列預(yù)測(cè)方法(請(qǐng)參見(jiàn)參考文獻(xiàn)3 “WJ Baumol,REQuandt. Chaos models and their implications for forecasting. Eastern economic journal, 1985,11 :3-15.,,)以及基于神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)方法(請(qǐng)參見(jiàn)參考文獻(xiàn)4 "A. Lapedes, R. Farber, Nonlinear signal processing using neuralnetworks Prediction and system modelling. IEEE international conference onneural networks,San Diego,CA,USA,21Jun 1987·,,)?;?沌時(shí)間序列預(yù)測(cè)方法研究確定性系統(tǒng)中表現(xiàn)出來(lái)的隨機(jī)運(yùn)動(dòng),有可能進(jìn)行較準(zhǔn)確的短期預(yù) 測(cè),但無(wú)法進(jìn)行長(zhǎng)期精確預(yù)測(cè)?;谏窠?jīng)網(wǎng)絡(luò)的預(yù)測(cè)方法通過(guò)在輸入和輸出變量之間構(gòu)建 神經(jīng)元節(jié)點(diǎn)來(lái)模擬人類(lèi)大腦的結(jié)構(gòu),通過(guò)訓(xùn)練過(guò)程為神經(jīng)元賦權(quán)值,再通過(guò)對(duì)這些權(quán)值的 組合近似地得到輸出變量值?;谏窠?jīng)網(wǎng)絡(luò)的預(yù)測(cè)方法學(xué)習(xí)過(guò)程速度較慢,且存在局部最 優(yōu)解,內(nèi)部結(jié)構(gòu)呈現(xiàn)為黑箱,直觀解釋性較差??傊F(xiàn)有技術(shù)中用于預(yù)測(cè)大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模的方法存在各自的缺點(diǎn), 因而需要一種預(yù)測(cè)準(zhǔn)確性高的預(yù)測(cè)方法。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)知識(shí)的訓(xùn)練方法,包 括步驟1)、將作為訓(xùn)練數(shù)據(jù)的歷史數(shù)據(jù)分段,從分段所得到的多個(gè)子段中提取與預(yù) 測(cè)有關(guān)的數(shù)據(jù)特征,將這些數(shù)據(jù)特征分別離散化為特征事件,形成特征事件序列;步驟2~)、從所述訓(xùn)練數(shù)據(jù)的特征事件序列中挖掘頻繁情節(jié),得到用于預(yù)測(cè)的頻繁 情節(jié)集合。上述技術(shù)方案中,所述的挖掘頻繁情節(jié)包括步驟2-1)、從候選鄰接情節(jié)集合中按順序依次選取候選鄰接情節(jié);步驟2_2~)、將所述候選鄰接情節(jié)在所述特征事件序列中的出現(xiàn)次數(shù)加以統(tǒng)計(jì),將 出現(xiàn)次數(shù)高于支持度閾值的情節(jié)作為頻繁鄰接情節(jié);步驟2- 、將一個(gè)頻繁鄰接情節(jié)的后綴與另一個(gè)頻繁鄰接情節(jié)的前綴做匹配測(cè) 試,合并匹配的頻繁鄰接情節(jié)從而得到最終的頻繁情節(jié)。上述技術(shù)方案中,所述的步驟1)包括步驟1-1-1)、將作為訓(xùn)練數(shù)據(jù)的歷史數(shù)據(jù)分段,從分段所得到的多個(gè)子段中提取 均值特征;步驟1-1- 、將訓(xùn)練數(shù)據(jù)中整個(gè)均值特征的值域分成兩個(gè)部分,分別對(duì)應(yīng)兩種事 件類(lèi)型,將切分后的值域稱(chēng)為離散間隔;步驟1-1-3)、在訓(xùn)練數(shù)據(jù)的各個(gè)離散間隔內(nèi)分別挖掘頻繁情節(jié),當(dāng)所挖掘出的頻 繁情節(jié)中的最后一個(gè)事件與其前一個(gè)事件的類(lèi)型相同,則認(rèn)為該頻繁情節(jié)是一個(gè)平穩(wěn)的頻 繁情節(jié);步驟1-1-4)、當(dāng)所述的平穩(wěn)的頻繁情節(jié)在總的頻繁情節(jié)中所占的比重大于第一閾 值時(shí),將訓(xùn)練數(shù)據(jù)中整個(gè)均值特征的值域做進(jìn)一步切分,然后重新執(zhí)行步驟1-1- ,直到所 述平穩(wěn)的頻繁情節(jié)在總的頻繁情節(jié)中所占比重小于該第一閾值或者切分次數(shù)達(dá)到最大切 分次數(shù);步驟1-1-5)、將各個(gè)所述離散間隔內(nèi)的均值特征轉(zhuǎn)換為與該離散間隔所對(duì)應(yīng)的事 件。上述技術(shù)方案中,所述的步驟1)包括
步驟1-2-1)、將作為訓(xùn)練數(shù)據(jù)的歷史數(shù)據(jù)分段,從分段所得到的多個(gè)子段中提取 斜率值;步驟1-2- 、將各個(gè)子段中出現(xiàn)過(guò)的斜率值的值域等值離散為N個(gè)不同的數(shù)值區(qū) 間,每一個(gè)數(shù)值區(qū)間設(shè)定為一個(gè)事件類(lèi)型。本發(fā)明還提供了一種大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)方法,包括步驟1)、對(duì)近期數(shù)據(jù)分段,從分段所得到的多個(gè)子段中提取數(shù)據(jù)特征,將這些數(shù)據(jù) 特征分別離散化為特征事件,形成近期數(shù)據(jù)的特征事件序列;步驟2)、從所述的大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)知識(shí)的訓(xùn)練方法得到的用于預(yù) 測(cè)的頻繁情節(jié)集合的頻繁情節(jié)中提取前綴事件,然后將這些前綴事件與所述近期數(shù)據(jù)的特 征事件序列進(jìn)行匹配,在匹配成功的前提下由頻繁情節(jié)中的后綴事件得到預(yù)測(cè)值。上述技術(shù)方案中,在所述的步驟1)中,所述的數(shù)據(jù)特征為均值特征,所述的特征 事件為均值特征事件;所述的步驟i)包括步驟2-1-1)、從由均值特征事件所組成的頻繁情節(jié)中提取前綴事件;步驟2-1- 、將所得到的前綴事件與從近期數(shù)據(jù)中所得到的均值特征事件序列進(jìn) 行匹配;步驟2-1- 、在匹配過(guò)程中,當(dāng)找到適合的頻繁情節(jié)時(shí),用該頻繁情節(jié)的后綴事件 來(lái)預(yù)測(cè)未來(lái)時(shí)序子段的均值特征事件;步驟2-1-4)、由所述均值特征事件的類(lèi)型所對(duì)應(yīng)的數(shù)值區(qū)間的中點(diǎn)得到相應(yīng)時(shí)序 子段中各點(diǎn)的數(shù)值預(yù)測(cè)值。上述技術(shù)方案中,在所述的步驟1)中,所述的數(shù)據(jù)特征為趨勢(shì)特征,所述的特征 事件為趨勢(shì)特征事件;所述的步驟i)包括步驟2-2-1)、從由趨勢(shì)特征事件所組成的頻繁情節(jié)中提取前綴事件;步驟2-2- 、將所得到的前綴事件與從近期數(shù)據(jù)中所得到的趨勢(shì)特征事件序列進(jìn) 行匹配;步驟2-2- 、在匹配過(guò)程中,當(dāng)找到適合的頻繁情節(jié)時(shí),用該頻繁情節(jié)的后綴事件 來(lái)預(yù)測(cè)未來(lái)時(shí)序子段的預(yù)測(cè)斜率;步驟2-2-4)、根據(jù)當(dāng)前時(shí)序子段的末端值以及預(yù)測(cè)得到的下一時(shí)序子段的斜率計(jì) 算下一時(shí)序子段的預(yù)測(cè)值。本發(fā)明的優(yōu)點(diǎn)在于本發(fā)明的預(yù)測(cè)方法較現(xiàn)有方法相比預(yù)測(cè)準(zhǔn)確率更高,錯(cuò)誤率更小。


圖1為事件序列的一個(gè)范例;圖2為本發(fā)明的大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)方法的流程圖;圖3為實(shí)施例中所涉及的均值特征的示意圖;圖4為不適合利用均值特征預(yù)測(cè)的數(shù)據(jù)集的示意圖;圖5(a)為測(cè)試數(shù)據(jù)集中數(shù)據(jù)規(guī)模最大的一種木馬的實(shí)際值與預(yù)測(cè)值之間的比較 結(jié)果示意圖;圖5(b)為測(cè)試數(shù)據(jù)集中數(shù)據(jù)規(guī)模次大的一種木馬的實(shí)際值與預(yù)測(cè)值之間的比較結(jié)果示意圖;圖5(c)為測(cè)試數(shù)據(jù)集中數(shù)據(jù)規(guī)模列第三的木馬的實(shí)際值與預(yù)測(cè)值之間的比較結(jié) 果示意圖;圖6(a)為對(duì)第一僵尸網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間的比較示意圖;圖6(b)為對(duì)第二僵尸網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間的比較示意圖;圖6(c)為對(duì)第三僵尸網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間的比較示意圖;圖6(d)為對(duì)第四僵尸網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間的比較示意圖;圖6(e)為對(duì)第五僵尸網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間的比較示意圖。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明加以說(shuō)明。在對(duì)本發(fā)明的預(yù)測(cè)方法做詳細(xì)說(shuō)明前,首先對(duì)本發(fā)明中所涉及的一些概念加以說(shuō) 明,以方便理解。事件事件指系統(tǒng)在某一特定時(shí)間上的狀態(tài)或行為,這些狀態(tài)或行為一般被設(shè)定 為固定的若干種類(lèi)型。事件可以表示為(Ai,、),其中Ai表示某種事件類(lèi)型(從一個(gè)有限的 字符表α中取值),、表示該事件發(fā)生的時(shí)間。時(shí)序子段的特征事件由時(shí)序數(shù)據(jù)的某一較短片段中提取出的某種數(shù)據(jù)特征或性 質(zhì)按一定的標(biāo)準(zhǔn)離散后形成的事件。事件序列將多個(gè)事件按照時(shí)間的先后順序依次排列所得到的序列被稱(chēng)為事件序 列。一個(gè)事件序列s用一個(gè)三元組(S,Ts,Te)表示,其中,S = < (A^t1), (A2, t2),... , (An, tn) >,(Ai e α,、彡ti+1)是事件按時(shí)間的有序排列,Ts和Te分別為起始時(shí)間和結(jié)束時(shí) 間,且有Ts彡、彡 ;。在圖1中給出了事件序列的一個(gè)范例,該事件序列表示為s = (S, 1,17),其中 S = < (A,2),(B,4),(C,6),(A,8),(B,10),(E,12),(C,15) >。情節(jié)一個(gè)情節(jié)印表示為(V,彡,g),V是一個(gè)節(jié)點(diǎn)的集合,彡是V上定義的偏序 關(guān)系,α是每一個(gè)V中的節(jié)點(diǎn)到一個(gè)α中事件類(lèi)型的映射。即情節(jié)定義為g(V)所 代表的事件類(lèi)型按照《所描述的次序依次發(fā)生。頻繁情節(jié)對(duì)于給定的支持度閾值ε,如果一個(gè)情節(jié)印在事件序列s中的出現(xiàn)次 數(shù)sup> ε (任何一次出現(xiàn)均在時(shí)間窗口 w內(nèi)完成,且同一個(gè)情節(jié)的多次出現(xiàn)不能重疊(即 一個(gè)情節(jié)出現(xiàn)完成一次之后才可能開(kāi)始該情節(jié)的另一次出現(xiàn))),則稱(chēng)ep為s中的一個(gè)頻繁 情節(jié)。鄰接事件由連續(xù)的數(shù)個(gè)時(shí)序數(shù)據(jù)片段中提取的特征事件,稱(chēng)其相互之間的關(guān)系 為鄰接關(guān)系,多個(gè)具有鄰接關(guān)系的事件組合稱(chēng)為鄰接事件組合。鄰接頻繁情節(jié)由鄰接事件組成的頻繁情節(jié)。大規(guī)模網(wǎng)絡(luò)安全事件規(guī)模大規(guī)模網(wǎng)絡(luò)中部署的檢測(cè)設(shè)備所發(fā)現(xiàn)的各種安全事件 的出現(xiàn)數(shù)量。在對(duì)上述概念加以說(shuō)明后,下面對(duì)本發(fā)明方法的實(shí)現(xiàn)過(guò)程做詳細(xì)說(shuō)明。本發(fā)明的大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)方法總體上可以分為兩個(gè)階段,第一階 段是訓(xùn)練階段,該階段要實(shí)現(xiàn)對(duì)包含頻繁情節(jié)在內(nèi)的知識(shí)的提取,第二階段是預(yù)測(cè)階段,該 階段要根據(jù)提取得到的知識(shí)實(shí)現(xiàn)網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)。下面結(jié)合圖2分別對(duì)上述兩個(gè)階段的實(shí)現(xiàn)過(guò)程加以說(shuō)明。在訓(xùn)練階段中,對(duì)知識(shí)的提取是在訓(xùn)練數(shù)據(jù)的基礎(chǔ)上實(shí)現(xiàn)的。訓(xùn)練數(shù)據(jù)通常為從 諸如互聯(lián)網(wǎng)的大規(guī)模網(wǎng)絡(luò)上采集的已知的歷史數(shù)據(jù),這些數(shù)據(jù)中包括網(wǎng)絡(luò)安全事件在各個(gè) 歷史時(shí)間點(diǎn)上由統(tǒng)計(jì)而得到的規(guī)模量值。一般來(lái)說(shuō),訓(xùn)練數(shù)據(jù)的樣本范圍應(yīng)當(dāng)盡可能地大, 使得由訓(xùn)練數(shù)據(jù)最終得到的頻繁情節(jié)盡可能地全面。在由訓(xùn)練數(shù)據(jù)生成頻繁情節(jié)時(shí),首先將訓(xùn)練數(shù)據(jù)按照時(shí)間順序以一定的時(shí)間間隔 做分段處理,得到多個(gè)子段,然后從各個(gè)子段中提取與預(yù)測(cè)有關(guān)的某一數(shù)據(jù)特征,并將這一 數(shù)據(jù)特征離散化為特征事件,所有子段的特征事件形成該訓(xùn)練數(shù)據(jù)的特征事件序列,最后 從上述特征事件序列中挖掘頻繁情節(jié),生成預(yù)測(cè)用的知識(shí)。在上述實(shí)現(xiàn)過(guò)程中,與預(yù)測(cè)有關(guān)的數(shù)據(jù)特征有多種類(lèi)型,不同類(lèi)型的數(shù)據(jù)特征的 提取有不同的實(shí)現(xiàn)方式。在一個(gè)實(shí)施例中,所述的數(shù)據(jù)特征可以是均值特征,下面結(jié)合圖 3,對(duì)該實(shí)施例如何利用均值特征生成特征事件加以說(shuō)明。圖3中的波浪形曲線(xiàn)代表訓(xùn)練數(shù) 據(jù),水平軸代表時(shí)間,垂直軸代表數(shù)據(jù)的數(shù)值。與時(shí)間軸相垂直的各條虛線(xiàn)代表了對(duì)訓(xùn)練時(shí) 間的分段。對(duì)各個(gè)子段中的訓(xùn)練數(shù)據(jù)做平均值計(jì)算以后就能得到該子段中訓(xùn)練數(shù)據(jù)的均值 特征,在圖3中用水平的橫線(xiàn)表示均值特征。從圖3的范例可以看出,該范例的6個(gè)子段對(duì) 應(yīng)有6個(gè)均值特征,要實(shí)現(xiàn)均值特征的事件化,就是要將這些均值特征轉(zhuǎn)化為某一類(lèi)型的 事件。在將均值特征事件化的過(guò)程中,需要選擇合適的離散間隔。在本實(shí)施例中采用指數(shù) 級(jí)逐步遞減的方法來(lái)設(shè)定均值特征離散間隔,該方法的實(shí)現(xiàn)步驟如下首先,將訓(xùn)練數(shù)據(jù)集 的整個(gè)均值特征的值域劃分成兩個(gè)部分,對(duì)應(yīng)兩種事件類(lèi)型;然后在訓(xùn)練數(shù)據(jù)集上挖掘頻 繁情節(jié)(關(guān)于如何挖掘頻繁情節(jié)的技術(shù)細(xì)節(jié)將在下文中予以說(shuō)明),如果所挖掘出的頻繁 情節(jié)中最后一個(gè)事件(即用于預(yù)測(cè)的事件)與其前一個(gè)事件的類(lèi)型相同,則認(rèn)為該頻繁情 節(jié)是一個(gè)平穩(wěn)的頻繁情節(jié);接著,考察平穩(wěn)的頻繁情節(jié)在總的頻繁情節(jié)中所占的比重,如果 比重過(guò)大,則預(yù)測(cè)出的大部分時(shí)序子段的均值特征事件類(lèi)型將和其前一個(gè)時(shí)序子段的均值 特征事件類(lèi)型相同,由此可以推定離散間隔的設(shè)定偏大,使得挖掘出的頻繁情節(jié)無(wú)法有效 區(qū)分不同時(shí)序子段中的均值特征,從而無(wú)法達(dá)到有效預(yù)測(cè)的目的。在這種情況下,可以將離
散間隔按指數(shù)級(jí)縮小,即將其依次設(shè)定為整個(gè)均值特征值域區(qū)間范圍的1/4、1/8........
直至所挖掘出的頻繁情節(jié)中平穩(wěn)的頻繁情節(jié)所占比例小于劃分閾值W或達(dá)到最大劃分次 數(shù)。在成功設(shè)定均值特征的離散間隔后,就可以將各個(gè)離散間隔內(nèi)的均值特征轉(zhuǎn)換為與該 離散間隔所對(duì)應(yīng)的事件。所述事件可以用字符表示,如英文字母、阿拉伯?dāng)?shù)字等皆可,所有 事件可以生成一個(gè)對(duì)應(yīng)的事件字符表。繼續(xù)以圖3為例,該例子中將均值特征的值域分為 [-2,-1)、[-1,0)、[0,1)、[1,2)多個(gè)區(qū)間,將[1,2)區(qū)間內(nèi)的均值特征對(duì)應(yīng)為事件A,將[0, 1)區(qū)間內(nèi)的均值特征對(duì)應(yīng)為事件B,將[_1,0)區(qū)間內(nèi)的均值特征對(duì)應(yīng)為事件C,將[-2,-1) 區(qū)間內(nèi)的均值特征對(duì)應(yīng)為事件D。于是,圖3所示的6個(gè)子段包括一個(gè)事件A、兩個(gè)事件B、 兩個(gè)事件C、一個(gè)事件D。需要說(shuō)明的是,在上述通過(guò)指數(shù)級(jí)逐步遞減來(lái)設(shè)定均值特征離散 間隔時(shí),設(shè)定最大劃分次數(shù)的原因是由于在實(shí)驗(yàn)中發(fā)現(xiàn)有些數(shù)據(jù)過(guò)于平滑(甚至到達(dá)機(jī)器 精度極限后仍無(wú)法達(dá)到劃分閾值),對(duì)于這種情況,繼續(xù)劃分下去已無(wú)意義,故應(yīng)該及早停 止劃分。下面給出了利用均值特征生成特征事件的方法的偽代碼,以利于理解。
權(quán)利要求
1.一種大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)知識(shí)的訓(xùn)練方法,包括步驟1)、將作為訓(xùn)練數(shù)據(jù)的歷史數(shù)據(jù)分段,從分段所得到的多個(gè)子段中提取與預(yù)測(cè)有 關(guān)的數(shù)據(jù)特征,將這些數(shù)據(jù)特征分別離散化為特征事件,形成特征事件序列;步驟i)、從所述訓(xùn)練數(shù)據(jù)的特征事件序列中挖掘頻繁情節(jié),得到用于預(yù)測(cè)的頻繁情節(jié)集合。
2.根據(jù)權(quán)利要求1所述的大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)知識(shí)的訓(xùn)練方法,其特征在 于,所述的挖掘頻繁情節(jié)包括步驟2-1)、從候選鄰接情節(jié)集合中按順序依次選取候選鄰接情節(jié); 步驟2-2~)、將所述候選鄰接情節(jié)在所述特征事件序列中的出現(xiàn)次數(shù)加以統(tǒng)計(jì),將出現(xiàn) 次數(shù)高于支持度閾值的情節(jié)作為頻繁鄰接情節(jié);步驟2- 、將一個(gè)頻繁鄰接情節(jié)的后綴與另一個(gè)頻繁鄰接情節(jié)的前綴做匹配測(cè)試,合 并匹配的頻繁鄰接情節(jié)從而得到最終的頻繁情節(jié)。
3.根據(jù)權(quán)利要求1或2所述的大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)知識(shí)的訓(xùn)練方法,其特 征在于,所述的步驟1)包括步驟1-1-1)、將作為訓(xùn)練數(shù)據(jù)的歷史數(shù)據(jù)分段,從分段所得到的多個(gè)子段中提取均值 特征;步驟1-1- 、將訓(xùn)練數(shù)據(jù)中整個(gè)均值特征的值域分成兩個(gè)部分,分別對(duì)應(yīng)兩種事件類(lèi) 型,將切分后的值域稱(chēng)為離散間隔;步驟1-1-3)、在訓(xùn)練數(shù)據(jù)的各個(gè)離散間隔內(nèi)分別挖掘頻繁情節(jié),當(dāng)所挖掘出的頻繁情 節(jié)中的最后一個(gè)事件與其前一個(gè)事件的類(lèi)型相同,則認(rèn)為該頻繁情節(jié)是一個(gè)平穩(wěn)的頻繁情 節(jié);步驟1-1-4)、當(dāng)所述的平穩(wěn)的頻繁情節(jié)在總的頻繁情節(jié)中所占的比重大于第一閾值 時(shí),將訓(xùn)練數(shù)據(jù)中整個(gè)均值特征的值域做進(jìn)一步切分,然后重新執(zhí)行步驟1-1- ,直到所述 平穩(wěn)的頻繁情節(jié)在總的頻繁情節(jié)中所占比重小于該第一閾值或者切分次數(shù)達(dá)到最大切分 次數(shù);步驟1-1-5)、將各個(gè)所述離散間隔內(nèi)的均值特征轉(zhuǎn)換為與該離散間隔所對(duì)應(yīng)的事件。
4.根據(jù)權(quán)利要求1或2所述的大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)知識(shí)的訓(xùn)練方法,其特 征在于,所述的步驟1)包括步驟1-2-1)、將作為訓(xùn)練數(shù)據(jù)的歷史數(shù)據(jù)分段,從分段所得到的多個(gè)子段中提取斜率值;步驟1-2- 、將各個(gè)子段中出現(xiàn)過(guò)的斜率值的值域等值離散為N個(gè)不同的數(shù)值區(qū)間, 每一個(gè)數(shù)值區(qū)間設(shè)定為一個(gè)事件類(lèi)型。
5.一種大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)方法,包括步驟1)、對(duì)近期數(shù)據(jù)分段,從分段所得到的多個(gè)子段中提取數(shù)據(jù)特征,將這些數(shù)據(jù)特征 分別離散化為特征事件,形成近期數(shù)據(jù)的特征事件序列;步驟2)、從權(quán)利要求1-4之一的大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)知識(shí)的訓(xùn)練方法得 到的用于預(yù)測(cè)的頻繁情節(jié)集合的頻繁情節(jié)中提取前綴事件,然后將這些前綴事件與所述近 期數(shù)據(jù)的特征事件序列進(jìn)行匹配,在匹配成功的前提下由頻繁情節(jié)中的后綴事件得到預(yù)測(cè) 值。
6.根據(jù)權(quán)利要求5所述的大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)方法,其特征在于,在所述 的步驟1)中,所述的數(shù)據(jù)特征為均值特征,所述的特征事件為均值特征事件;所述的步驟 2)包括步驟2-1-1)、從由均值特征事件所組成的頻繁情節(jié)中提取前綴事件;步驟2-1- 、將所得到的前綴事件與從近期數(shù)據(jù)中所得到的均值特征事件序列進(jìn)行匹配;步驟2-1- 、在匹配過(guò)程中,當(dāng)找到適合的頻繁情節(jié)時(shí),用該頻繁情節(jié)的后綴事件來(lái)預(yù) 測(cè)未來(lái)時(shí)序子段的均值特征事件;步驟2-1-4)、由所述均值特征事件的類(lèi)型所對(duì)應(yīng)的數(shù)值區(qū)間的中點(diǎn)得到相應(yīng)時(shí)序子段 中各點(diǎn)的數(shù)值預(yù)測(cè)值。
7.根據(jù)權(quán)利要求5所述的大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)方法,其特征在于,在所述 的步驟1)中,所述的數(shù)據(jù)特征為趨勢(shì)特征,所述的特征事件為趨勢(shì)特征事件;所述的步驟 2)包括步驟2-2-1)、從由趨勢(shì)特征事件所組成的頻繁情節(jié)中提取前綴事件;步驟2-2- 、將所得到的前綴事件與從近期數(shù)據(jù)中所得到的趨勢(shì)特征事件序列進(jìn)行匹配;步驟2-2- 、在匹配過(guò)程中,當(dāng)找到適合的頻繁情節(jié)時(shí),用該頻繁情節(jié)的后綴事件來(lái)預(yù) 測(cè)未來(lái)時(shí)序子段的預(yù)測(cè)斜率;步驟2-2-4)、根據(jù)當(dāng)前時(shí)序子段的末端值以及預(yù)測(cè)得到的下一時(shí)序子段的斜率計(jì)算下 一時(shí)序子段的預(yù)測(cè)值。
全文摘要
本發(fā)明提供一種大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)知識(shí)的訓(xùn)練方法,包括將作為訓(xùn)練數(shù)據(jù)的歷史數(shù)據(jù)分段,從分段所得到的多個(gè)子段中提取與預(yù)測(cè)有關(guān)的數(shù)據(jù)特征,將這些數(shù)據(jù)特征分別離散化為特征事件,形成特征事件序列;從所述訓(xùn)練數(shù)據(jù)的特征事件序列中挖掘頻繁情節(jié),得到用于預(yù)測(cè)的頻繁情節(jié)集合。本發(fā)明還提gon一種大規(guī)模網(wǎng)絡(luò)安全事件的規(guī)模預(yù)測(cè)方法,包括形成近期數(shù)據(jù)的特征事件序列;從頻繁情節(jié)集合的頻繁情節(jié)中提取前綴事件,然后將這些前綴事件與所述近期數(shù)據(jù)的特征事件序列進(jìn)行匹配,在匹配成功的前提下由頻繁情節(jié)中的后綴事件得到預(yù)測(cè)值。本發(fā)明的預(yù)測(cè)方法較現(xiàn)有方法相比預(yù)測(cè)準(zhǔn)確率更高,錯(cuò)誤率更小。
文檔編號(hào)H04L9/00GK102118245SQ200910260748
公開(kāi)日2011年7月6日 申請(qǐng)日期2009年12月31日 優(yōu)先權(quán)日2009年12月31日
發(fā)明者周斌, 李?lèi)?ài)平, 楊書(shū)強(qiáng), 楊尹, 程文聰, 賈焰, 鄒鵬, 韓偉紅 申請(qǐng)人:中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1