基于雙加權(quán)在線極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法與流程

文檔序號(hào)：11843008閱讀：725來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域，尤其是一種可同時(shí)應(yīng)對(duì)數(shù)據(jù)中的類不均衡和概念漂移問(wèn)題，有效提高檢測(cè)精度的基于雙加權(quán)在線極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法。

背景技術(shù)：

隨著計(jì)算機(jī)網(wǎng)絡(luò)的飛速發(fā)展，網(wǎng)絡(luò)通信已經(jīng)滲透到各行各業(yè)，對(duì)人類社會(huì)的發(fā)展起到了關(guān)鍵作用，并影響和改變著人們的生活。網(wǎng)絡(luò)雖然給人們帶來(lái)了便利，但同時(shí)也因?yàn)榫W(wǎng)絡(luò)入侵而帶來(lái)了各種安全問(wèn)題。如：網(wǎng)絡(luò)黑客可以攻破機(jī)密文件，盜取銀行存款，篡改并破壞數(shù)據(jù)塊等等。目前，對(duì)于網(wǎng)絡(luò)入侵產(chǎn)生的大量數(shù)據(jù)，基本上是借助數(shù)據(jù)挖掘的相關(guān)方法從中挖掘出有用的知識(shí)，進(jìn)而對(duì)網(wǎng)絡(luò)入侵進(jìn)行檢測(cè)，因此對(duì)數(shù)據(jù)流挖掘的分類技術(shù)則成為目前研究的重中之重。

數(shù)據(jù)流分類是數(shù)據(jù)流挖掘的關(guān)鍵技術(shù)，它是通過(guò)訓(xùn)練樣本集訓(xùn)練一個(gè)分類模型，將一個(gè)未知類的新樣本映射到一個(gè)已知類，它是一種有指導(dǎo)的學(xué)習(xí)方法。數(shù)據(jù)流分類主要涵蓋以下兩個(gè)方面：首先，訓(xùn)練一個(gè)模型，根據(jù)已知類標(biāo)簽的訓(xùn)練樣本集構(gòu)建分類模型；其次，利用所訓(xùn)練的模型學(xué)習(xí)新樣本，用評(píng)價(jià)指標(biāo)評(píng)估分類模型?，F(xiàn)有數(shù)據(jù)流的分類方法主要分為單分類器模型和多分類器模型。單分類器模型就是用一個(gè)學(xué)習(xí)器分類數(shù)據(jù)流。早期的數(shù)據(jù)是非動(dòng)態(tài)的且數(shù)量有限，因此用單分類器模型就能得到較好的分類效果，然而數(shù)據(jù)流是快速、連續(xù)且動(dòng)態(tài)的，用原來(lái)的單分類器模型很難準(zhǔn)確分類，因此很多學(xué)者展開了對(duì)數(shù)據(jù)流單分類器模型的研究。例如，決策樹是最流行的挖掘數(shù)據(jù)流的工具之一，Domingos和Hulten提出了快速?zèng)Q策樹（VFDT）算法分類數(shù)據(jù)流，VFDT能夠在線處理數(shù)據(jù)流。之后，Hulten對(duì)VFDT進(jìn)行改進(jìn)，提出了適應(yīng)概念的快速?zèng)Q策樹（CVFDT），CVFDT是一個(gè)增量的學(xué)習(xí)算法，在數(shù)據(jù)流發(fā)生概念漂移時(shí)能夠重新構(gòu)建決策樹分類器。相比于單分類器模型，多分類器（即集成分類器）模型是一個(gè)比較流行的解決數(shù)據(jù)流分類問(wèn)題的方法。集成方法是使用多個(gè)相同或不同的單分類模型來(lái)產(chǎn)生具有更好預(yù)測(cè)性能的新模式，集成方法的預(yù)測(cè)模型能被增量地更新或使用最近的數(shù)據(jù)塊重新訓(xùn)練分類模型。Enwall和Polikar提出了一個(gè)動(dòng)態(tài)集成方法Learn++.NSE，能夠處理不同類型的概念漂移。然而，Learn++.NSE方法是根據(jù)最近數(shù)據(jù)塊的分類誤差給集成模型中的分類器賦權(quán)重，這并不適用于處理不均衡分布的數(shù)據(jù)。Brzezinski和Stefanowski提出了一個(gè)新的增量集成分類器，在線準(zhǔn)確率更新集成，它組合了基于塊的和在線方法處理概念漂移，但提出的方法也并不適用于不均衡的數(shù)據(jù)流。即現(xiàn)有的網(wǎng)絡(luò)入侵方法并不能同時(shí)應(yīng)對(duì)數(shù)據(jù)中的類不均衡和概念漂移問(wèn)題。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明是為了解決現(xiàn)有技術(shù)所存在的上述技術(shù)問(wèn)題，提供一種可同時(shí)應(yīng)對(duì)數(shù)據(jù)中的類不均衡和概念漂移問(wèn)題，有效提高檢測(cè)精度的的基于雙加權(quán)在線極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法。

本發(fā)明的技術(shù)解決方案是：一種基于雙加權(quán)在線極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法，其特征在于：

a．在線極限學(xué)習(xí)機(jī)按照如下步驟進(jìn)行：

步驟1：初始化

1.1 從訓(xùn)練集D 中隨機(jī)選擇n₀個(gè)樣本作為初始訓(xùn)練集D₀；

1.2隨機(jī)分配輸入權(quán)重和閾值；

1.3利用式對(duì)初始訓(xùn)練樣本集D₀計(jì)算初始中間層輸出矩陣H₀，g (x )為激勵(lì)函數(shù)；

1.4 利用式，計(jì)算在時(shí)間方面的權(quán)重w₀，并對(duì)角化矩陣；

1.5 利用式計(jì)算矩陣M₀；

1.6 訓(xùn)練初始的PNN，獲得每個(gè)樣本屬于每個(gè)類別的得分scores₀，并利用公式計(jì)算隸屬度，得到在空間層次的權(quán)重u₀；

1.7 利用式組合在時(shí)間層次的權(quán)重w₀和在空間層次的權(quán)重u₀，計(jì)算初始輸出權(quán)重，其中T₀為真實(shí)輸出；

步驟2：連續(xù)學(xué)習(xí)階段

2.1將訓(xùn)練集D 中剩下的數(shù)據(jù)進(jìn)行分塊處理，第k +1塊數(shù)據(jù)集D_k+1到達(dá)后，利用式更新中間層輸出矩陣H_k+1；

2.2 利用式，更新在時(shí)間層面的權(quán)值w_k+1，并對(duì)角化矩陣；所述和分別代表第j 個(gè)數(shù)據(jù)塊的正類數(shù)目和負(fù)類數(shù)目，；

2.3 利用式計(jì)算矩陣;

2.4 更新PNN得到scores_k+1，用與初始化階段相同的方法得到空間層面的權(quán)值；

2.5 利用式更新輸出權(quán)值矩陣；

b．對(duì)于網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行檢測(cè)：

當(dāng)?shù)?i>k +1塊網(wǎng)絡(luò)數(shù)據(jù)集D_k+1到達(dá)后，利用式更新中間層輸出矩陣H_k+1；按照計(jì)算輸出層的權(quán)值；分類判決。

本發(fā)明考慮到網(wǎng)絡(luò)入侵中數(shù)據(jù)的動(dòng)態(tài)性及不均衡性，利用在線極限學(xué)習(xí)機(jī)（OS-ELM）作為分類器，采用自適應(yīng)雙加權(quán)策略，即從時(shí)間和空間角度分析樣本的分布特點(diǎn)，分別采用概率密度函數(shù)計(jì)算在時(shí)間層面的權(quán)值，以及采用增量式的概率神經(jīng)網(wǎng)絡(luò)（PNN）計(jì)算在空間層面的權(quán)值。利用雙權(quán)值來(lái)平衡當(dāng)前數(shù)據(jù)的類分布，更新整個(gè)模型，既考慮了類不均衡率也考慮了類的概率分布，從而解決了基于塊的學(xué)習(xí)或在線學(xué)習(xí)的類不均衡和概念漂移問(wèn)題，保證了分類準(zhǔn)確率及健壯性，有效提高分類精度，從而能夠準(zhǔn)確檢測(cè)入侵網(wǎng)絡(luò)。

具體實(shí)施方式：

一種基于雙加權(quán)在線極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法，其特征在于：

a．在線極限學(xué)習(xí)機(jī)按照如下步驟進(jìn)行：

步驟1：初始化

1.1 從訓(xùn)練集D 中隨機(jī)選擇n₀個(gè)樣本作為初始訓(xùn)練集D_0，，本發(fā)明選訓(xùn)練集D 的5 %作為初始訓(xùn)練集，剩下的數(shù)據(jù)進(jìn)行分塊處理，對(duì)于不同的數(shù)據(jù)采用不同的塊大小。為了確保測(cè)試集的不均衡率與整個(gè)數(shù)據(jù)集的不均衡率相同，根據(jù)不均衡率大小，本發(fā)明選擇剩下的95%數(shù)據(jù)中的20%作為測(cè)試數(shù)據(jù)， 80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。

1.2隨機(jī)分配輸入權(quán)重和閾值；

1.3利用式對(duì)初始訓(xùn)練樣本集D₀計(jì)算初始中間層輸出矩陣H₀，g (x )為激勵(lì)函數(shù)；

1.4 利用式，計(jì)算在時(shí)間方面的權(quán)重w₀，并對(duì)角化矩陣；和分別代表正類的權(quán)值和負(fù)類的權(quán)值，和分別代表初始訓(xùn)練集中正類總數(shù)和負(fù)類總數(shù)，，為了計(jì)算方便，對(duì)角化權(quán)值w₀并生成對(duì)角矩陣。

1.5 利用式計(jì)算矩陣M₀；

1.6訓(xùn)練初始的PNN，獲得每個(gè)樣本屬于每個(gè)類別的得分scores₀，歸一化這

些得分并獲得的模糊隸屬度矩陣，

利用所獲得的模糊隸屬度矩陣計(jì)算隸屬度，得到在空間層次的權(quán)重u₀；其中 scores₊和scores_-分別代表屬于正類和負(fù)類樣本的得分；

1.7 利用式組合在時(shí)間層次的權(quán)重w₀和在空間層次的權(quán)重u₀，計(jì)算初始輸出權(quán)重，代表矩陣的整除操作，比如相對(duì)應(yīng)的矩陣A 和B ，的表示方式為；

步驟2：連續(xù)學(xué)習(xí)階段

2.1將訓(xùn)練集D 中剩下的數(shù)據(jù)進(jìn)行分塊處理，第k +1塊數(shù)據(jù)集D_k+1到達(dá)后，利用式更新中間層輸出矩陣H_k+1；

2.2 利用式，更新在時(shí)間層面的權(quán)值w_k+1，并對(duì)角化矩陣；所述和分別代表第j 個(gè)數(shù)據(jù)塊的正類（被入侵）數(shù)目和負(fù)類（未被入侵）數(shù)目，；

2.3 利用式計(jì)算矩陣;

和分別代表第j 個(gè)數(shù)據(jù)塊的正類數(shù)目和負(fù)類數(shù)目，。

2.4 更新PNN得到scores_k+1，用與初始化階段相同的方法得到空間層面的權(quán)值；

2.5 利用式更新輸出權(quán)值矩陣；

b．對(duì)于網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行檢測(cè)：

當(dāng)?shù)?i>k +1塊網(wǎng)絡(luò)數(shù)據(jù)集D_k+1到達(dá)后，利用式更新中間層輸出矩陣H_k+1；按照計(jì)算輸出層的權(quán)值；分類判決。

針對(duì)本發(fā)明實(shí)施例，進(jìn)行實(shí)驗(yàn)分析如下：

準(zhǔn)確率是重要的評(píng)估分類表現(xiàn)的標(biāo)準(zhǔn)，然而，它不適用于具有不均衡分布的數(shù)據(jù)流。為了評(píng)估分類器的表現(xiàn)，本發(fā)明使用G-mean和F-measure作為評(píng)估標(biāo)準(zhǔn)。這兩個(gè)標(biāo)準(zhǔn)同時(shí)涵蓋了正類和負(fù)類的表現(xiàn)性能，因此被廣泛用于研究中。它們的定義如下：

用TP (true positive)，F(xiàn)N (false negative)，F(xiàn)P (false positive)和TN (true negative)分別表示真正類，假負(fù)類，假正類和真負(fù)類。在G-mean中，真正率(TPR =TP/(TP + F N ) )是指被分類器正確分類的正類樣本，代表少數(shù)類的表現(xiàn)性能，真負(fù)率(TNR=TN/(TN + F P ) )是指被分類器正確分類的負(fù)類樣本，代表了多數(shù)類的表現(xiàn)性能。在F-measure中，精確率Precision=TP/(TP+FP)，召回率Recall=TP/(TP+FN)。是平衡precision和recall相對(duì)重要性的系數(shù)，本發(fā)明中設(shè)定值為1。

本發(fā)明使用網(wǎng)絡(luò)入侵的數(shù)據(jù)如表1。

表1 數(shù)據(jù)描述

本發(fā)明實(shí)施例與以下三個(gè)方法進(jìn)行了實(shí)驗(yàn)比較：OS-ELM（Online Sequential Extreme Learning Machine），WOS-ELM（Weighted Online Sequential Extreme Learning Machine）以及基于采樣的OS-ELM方法。一般用過(guò)采樣和欠采樣方法解決數(shù)據(jù)的不均衡分類問(wèn)題。SMOTE方法改進(jìn)了過(guò)采樣方法，它隨機(jī)合成新的少數(shù)類樣本來(lái)平衡數(shù)據(jù)。在基于采樣的OS-ELM方法中，本發(fā)明選擇SMOTE作為采樣策略。

首先通過(guò)基于塊的模型驗(yàn)證四種方法在測(cè)試集上的表現(xiàn)。實(shí)驗(yàn)采用十折交叉驗(yàn)證。表2列出了實(shí)驗(yàn)結(jié)果，每個(gè)標(biāo)準(zhǔn)采用“平均值標(biāo)準(zhǔn)差”的形式。

表2 四種算法的實(shí)驗(yàn)結(jié)果

從表2中看出，本發(fā)明實(shí)施例的網(wǎng)絡(luò)入侵檢測(cè)方法的表現(xiàn)性能高于其他三個(gè)算法(基于采樣的OS-ELM，OS-ELM，WOS-ELM)。同時(shí)，本發(fā)明還評(píng)估了在類不均衡環(huán)境下的魯棒性。在實(shí)驗(yàn)中，對(duì)網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)采用不同的塊大小，增量學(xué)習(xí)樣本，在測(cè)試數(shù)據(jù)集上評(píng)估每個(gè)增量學(xué)習(xí)階段的G-mean。

為公平起見，比較的四種方法采用相同的增量學(xué)習(xí)階段，在每個(gè)過(guò)程中，它們采用相同的增量數(shù)據(jù)塊。實(shí)驗(yàn)重復(fù)執(zhí)行10次。本發(fā)明首先隨機(jī)地把每個(gè)訓(xùn)練集平等的分成幾個(gè)動(dòng)態(tài)數(shù)據(jù)塊。之后，對(duì)于剩下的9次，根據(jù)與第一次具有相同不均衡率的情況下把訓(xùn)練樣本集平等分成幾個(gè)數(shù)據(jù)塊。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張永;劉文哲;劉博;
技術(shù)所有人：遼寧師范大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于雙加權(quán)在線極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)入侵檢測(cè)方法與流程