本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,尤其是一種可同時(shí)應(yīng)對(duì)數(shù)據(jù)中的類不均衡和概念漂移問(wèn)題,有效提高檢測(cè)精度的基于雙加權(quán)在線極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法。
背景技術(shù):
隨著計(jì)算機(jī)網(wǎng)絡(luò)的飛速發(fā)展,網(wǎng)絡(luò)通信已經(jīng)滲透到各行各業(yè),對(duì)人類社會(huì)的發(fā)展起到了關(guān)鍵作用,并影響和改變著人們的生活。網(wǎng)絡(luò)雖然給人們帶來(lái)了便利,但同時(shí)也因?yàn)榫W(wǎng)絡(luò)入侵而帶來(lái)了各種安全問(wèn)題。如:網(wǎng)絡(luò)黑客可以攻破機(jī)密文件,盜取銀行存款,篡改并破壞數(shù)據(jù)塊等等。目前,對(duì)于網(wǎng)絡(luò)入侵產(chǎn)生的大量數(shù)據(jù),基本上是借助數(shù)據(jù)挖掘的相關(guān)方法從中挖掘出有用的知識(shí),進(jìn)而對(duì)網(wǎng)絡(luò)入侵進(jìn)行檢測(cè),因此對(duì)數(shù)據(jù)流挖掘的分類技術(shù)則成為目前研究的重中之重。
數(shù)據(jù)流分類是數(shù)據(jù)流挖掘的關(guān)鍵技術(shù),它是通過(guò)訓(xùn)練樣本集訓(xùn)練一個(gè)分類模型,將一個(gè)未知類的新樣本映射到一個(gè)已知類,它是一種有指導(dǎo)的學(xué)習(xí)方法。數(shù)據(jù)流分類主要涵蓋以下兩個(gè)方面:首先,訓(xùn)練一個(gè)模型,根據(jù)已知類標(biāo)簽的訓(xùn)練樣本集構(gòu)建分類模型;其次,利用所訓(xùn)練的模型學(xué)習(xí)新樣本,用評(píng)價(jià)指標(biāo)評(píng)估分類模型?,F(xiàn)有數(shù)據(jù)流的分類方法主要分為單分類器模型和多分類器模型。單分類器模型就是用一個(gè)學(xué)習(xí)器分類數(shù)據(jù)流。早期的數(shù)據(jù)是非動(dòng)態(tài)的且數(shù)量有限,因此用單分類器模型就能得到較好的分類效果,然而數(shù)據(jù)流是快速、連續(xù)且動(dòng)態(tài)的,用原來(lái)的單分類器模型很難準(zhǔn)確分類,因此很多學(xué)者展開了對(duì)數(shù)據(jù)流單分類器模型的研究。例如,決策樹是最流行的挖掘數(shù)據(jù)流的工具之一,Domingos和Hulten提出了快速?zèng)Q策樹(VFDT)算法分類數(shù)據(jù)流,VFDT能夠在線處理數(shù)據(jù)流。之后,Hulten對(duì)VFDT進(jìn)行改進(jìn),提出了適應(yīng)概念的快速?zèng)Q策樹(CVFDT),CVFDT是一個(gè)增量的學(xué)習(xí)算法,在數(shù)據(jù)流發(fā)生概念漂移時(shí)能夠重新構(gòu)建決策樹分類器。相比于單分類器模型,多分類器(即集成分類器)模型是一個(gè)比較流行的解決數(shù)據(jù)流分類問(wèn)題的方法。集成方法是使用多個(gè)相同或不同的單分類模型來(lái)產(chǎn)生具有更好預(yù)測(cè)性能的新模式,集成方法的預(yù)測(cè)模型能被增量地更新或使用最近的數(shù)據(jù)塊重新訓(xùn)練分類模型。Enwall和Polikar提出了一個(gè)動(dòng)態(tài)集成方法Learn++.NSE,能夠處理不同類型的概念漂移。然而,Learn++.NSE方法是根據(jù)最近數(shù)據(jù)塊的分類誤差給集成模型中的分類器賦權(quán)重,這并不適用于處理不均衡分布的數(shù)據(jù)。Brzezinski和Stefanowski提出了一個(gè)新的增量集成分類器,在線準(zhǔn)確率更新集成,它組合了基于塊的和在線方法處理概念漂移,但提出的方法也并不適用于不均衡的數(shù)據(jù)流。即現(xiàn)有的網(wǎng)絡(luò)入侵方法并不能同時(shí)應(yīng)對(duì)數(shù)據(jù)中的類不均衡和概念漂移問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明是為了解決現(xiàn)有技術(shù)所存在的上述技術(shù)問(wèn)題,提供一種可同時(shí)應(yīng)對(duì)數(shù)據(jù)中的類不均衡和概念漂移問(wèn)題,有效提高檢測(cè)精度的的基于雙加權(quán)在線極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法。
本發(fā)明的技術(shù)解決方案是:一種基于雙加權(quán)在線極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法,其特征在于:
a.在線極限學(xué)習(xí)機(jī)按照如下步驟進(jìn)行:
步驟1:初始化
1.1 從訓(xùn)練集D 中隨機(jī)選擇n0個(gè)樣本作為初始訓(xùn)練集D0;
1.2隨機(jī)分配輸入權(quán)重和閾值;
1.3利用式對(duì)初始訓(xùn)練樣本集D0計(jì)算初始中間層輸出矩陣H0,g (x )為激勵(lì)函數(shù);
1.4 利用式,計(jì)算在時(shí)間方面的權(quán)重w0,并對(duì)角化矩陣;
1.5 利用式計(jì)算矩陣M0;
1.6 訓(xùn)練初始的PNN,獲得每個(gè)樣本屬于每個(gè)類別的得分scores0,并利用公式計(jì)算隸屬度,得到在空間層次的權(quán)重u0;
1.7 利用式組合在時(shí)間層次的權(quán)重w0和在空間層次的權(quán)重u0,計(jì)算初始輸出權(quán)重,其中T0為真實(shí)輸出;
步驟2:連續(xù)學(xué)習(xí)階段
2.1將訓(xùn)練集D 中剩下的數(shù)據(jù)進(jìn)行分塊處理,第k +1塊數(shù)據(jù)集Dk+1到達(dá)后,利用式更新中間層輸出矩陣Hk+1;
2.2 利用式,更新在時(shí)間層面的權(quán)值wk+1,并對(duì)角化矩陣;所述和分別代表第j 個(gè)數(shù)據(jù)塊的正類數(shù)目和負(fù)類數(shù)目,;
2.3 利用式計(jì)算矩陣;
2.4 更新PNN得到scoresk+1,用與初始化階段相同的方法得到空間層面的權(quán)值;
2.5 利用式更新輸出權(quán)值矩陣;
b.對(duì)于網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行檢測(cè):
當(dāng)?shù)?i>k +1塊網(wǎng)絡(luò)數(shù)據(jù)集Dk+1到達(dá)后,利用式更新中間層輸出矩陣Hk+1;按照計(jì)算輸出層的權(quán)值;分類判決。
本發(fā)明考慮到網(wǎng)絡(luò)入侵中數(shù)據(jù)的動(dòng)態(tài)性及不均衡性,利用在線極限學(xué)習(xí)機(jī)(OS-ELM)作為分類器,采用自適應(yīng)雙加權(quán)策略,即從時(shí)間和空間角度分析樣本的分布特點(diǎn),分別采用概率密度函數(shù)計(jì)算在時(shí)間層面的權(quán)值,以及采用增量式的概率神經(jīng)網(wǎng)絡(luò)(PNN)計(jì)算在空間層面的權(quán)值。利用雙權(quán)值來(lái)平衡當(dāng)前數(shù)據(jù)的類分布,更新整個(gè)模型,既考慮了類不均衡率也考慮了類的概率分布,從而解決了基于塊的學(xué)習(xí)或在線學(xué)習(xí)的類不均衡和概念漂移問(wèn)題,保證了分類準(zhǔn)確率及健壯性,有效提高分類精度,從而能夠準(zhǔn)確檢測(cè)入侵網(wǎng)絡(luò)。
具體實(shí)施方式:
一種基于雙加權(quán)在線極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法,其特征在于:
a.在線極限學(xué)習(xí)機(jī)按照如下步驟進(jìn)行:
步驟1:初始化
1.1 從訓(xùn)練集D 中隨機(jī)選擇n0個(gè)樣本作為初始訓(xùn)練集D0,,本發(fā)明選訓(xùn)練集D 的5 %作為初始訓(xùn)練集,剩下的數(shù)據(jù)進(jìn)行分塊處理,對(duì)于不同的數(shù)據(jù)采用不同的塊大小。為了確保測(cè)試集的不均衡率與整個(gè)數(shù)據(jù)集的不均衡率相同,根據(jù)不均衡率大小,本發(fā)明選擇剩下的95%數(shù)據(jù)中的20%作為測(cè)試數(shù)據(jù), 80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。
1.2隨機(jī)分配輸入權(quán)重和閾值;
1.3利用式對(duì)初始訓(xùn)練樣本集D0計(jì)算初始中間層輸出矩陣H0,g (x )為激勵(lì)函數(shù);
1.4 利用式,計(jì)算在時(shí)間方面的權(quán)重w0,并對(duì)角化矩陣;和分別代表正類的權(quán)值和負(fù)類的權(quán)值,和分別代表初始訓(xùn)練集中正類總數(shù)和負(fù)類總數(shù),,為了計(jì)算方便,對(duì)角化權(quán)值w0并生成對(duì)角矩陣。
1.5 利用式計(jì)算矩陣M0;
1.6訓(xùn)練初始的PNN,獲得每個(gè)樣本屬于每個(gè)類別的得分scores0,歸一化這
些得分并獲得的模糊隸屬度矩陣,
利用所獲得的模糊隸屬度矩陣計(jì)算隸屬度,得到在空間層次的權(quán)重u0;其中 scores+和scores-分別代表屬于正類和負(fù)類樣本的得分;
1.7 利用式組合在時(shí)間層次的權(quán)重w0和在空間層次的權(quán)重u0,計(jì)算初始輸出權(quán)重,代表矩陣的整除操作,比如相對(duì)應(yīng)的矩陣A 和B ,的表示方式為;
步驟2:連續(xù)學(xué)習(xí)階段
2.1將訓(xùn)練集D 中剩下的數(shù)據(jù)進(jìn)行分塊處理,第k +1塊數(shù)據(jù)集Dk+1到達(dá)后,利用式更新中間層輸出矩陣Hk+1;
2.2 利用式,更新在時(shí)間層面的權(quán)值wk+1,并對(duì)角化矩陣;所述和分別代表第j 個(gè)數(shù)據(jù)塊的正類(被入侵)數(shù)目和負(fù)類(未被入侵)數(shù)目,;
2.3 利用式計(jì)算矩陣;
和分別代表第j 個(gè)數(shù)據(jù)塊的正類數(shù)目和負(fù)類數(shù)目,。
2.4 更新PNN得到scoresk+1,用與初始化階段相同的方法得到空間層面的權(quán)值;
2.5 利用式更新輸出權(quán)值矩陣;
b.對(duì)于網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行檢測(cè):
當(dāng)?shù)?i>k +1塊網(wǎng)絡(luò)數(shù)據(jù)集Dk+1到達(dá)后,利用式更新中間層輸出矩陣Hk+1;按照計(jì)算輸出層的權(quán)值;分類判決。
針對(duì)本發(fā)明實(shí)施例,進(jìn)行實(shí)驗(yàn)分析如下:
準(zhǔn)確率是重要的評(píng)估分類表現(xiàn)的標(biāo)準(zhǔn),然而,它不適用于具有不均衡分布的數(shù)據(jù)流。為了評(píng)估分類器的表現(xiàn),本發(fā)明使用G-mean和F-measure作為評(píng)估標(biāo)準(zhǔn)。這兩個(gè)標(biāo)準(zhǔn)同時(shí)涵蓋了正類和負(fù)類的表現(xiàn)性能,因此被廣泛用于研究中。它們的定義如下:
用TP (true positive),F(xiàn)N (false negative),F(xiàn)P (false positive)和TN (true negative)分別表示真正類,假負(fù)類,假正類和真負(fù)類。在G-mean中,真正率(TPR =TP/(TP + F N ) )是指被分類器正確分類的正類樣本,代表少數(shù)類的表現(xiàn)性能,真負(fù)率(TNR=TN/(TN + F P ) )是指被分類器正確分類的負(fù)類樣本,代表了多數(shù)類的表現(xiàn)性能。在F-measure中,精確率Precision=TP/(TP+FP),召回率Recall=TP/(TP+FN)。是平衡precision和recall相對(duì)重要性的系數(shù),本發(fā)明中設(shè)定值為1。
本發(fā)明使用網(wǎng)絡(luò)入侵的數(shù)據(jù)如表1。
表1 數(shù)據(jù)描述
本發(fā)明實(shí)施例與以下三個(gè)方法進(jìn)行了實(shí)驗(yàn)比較:OS-ELM(Online Sequential Extreme Learning Machine),WOS-ELM(Weighted Online Sequential Extreme Learning Machine)以及基于采樣的OS-ELM方法。一般用過(guò)采樣和欠采樣方法解決數(shù)據(jù)的不均衡分類問(wèn)題。SMOTE方法改進(jìn)了過(guò)采樣方法,它隨機(jī)合成新的少數(shù)類樣本來(lái)平衡數(shù)據(jù)。在基于采樣的OS-ELM方法中,本發(fā)明選擇SMOTE作為采樣策略。
首先通過(guò)基于塊的模型驗(yàn)證四種方法在測(cè)試集上的表現(xiàn)。實(shí)驗(yàn)采用十折交叉驗(yàn)證。表2列出了實(shí)驗(yàn)結(jié)果,每個(gè)標(biāo)準(zhǔn)采用“平均值標(biāo)準(zhǔn)差”的形式。
表2 四種算法的實(shí)驗(yàn)結(jié)果
從表2中看出,本發(fā)明實(shí)施例的網(wǎng)絡(luò)入侵檢測(cè)方法的表現(xiàn)性能高于其他三個(gè)算法(基于采樣的OS-ELM,OS-ELM,WOS-ELM)。同時(shí),本發(fā)明還評(píng)估了在類不均衡環(huán)境下的魯棒性。在實(shí)驗(yàn)中,對(duì)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)采用不同的塊大小,增量學(xué)習(xí)樣本,在測(cè)試數(shù)據(jù)集上評(píng)估每個(gè)增量學(xué)習(xí)階段的G-mean。
為公平起見,比較的四種方法采用相同的增量學(xué)習(xí)階段,在每個(gè)過(guò)程中,它們采用相同的增量數(shù)據(jù)塊。實(shí)驗(yàn)重復(fù)執(zhí)行10次。本發(fā)明首先隨機(jī)地把每個(gè)訓(xùn)練集平等的分成幾個(gè)動(dòng)態(tài)數(shù)據(jù)塊。之后,對(duì)于剩下的9次,根據(jù)與第一次具有相同不均衡率的情況下把訓(xùn)練樣本集平等分成幾個(gè)數(shù)據(jù)塊。