基于數(shù)據(jù)挖掘的異常檢測方法

文檔序號：6566107閱讀：423來源：國知局

專利名稱：基于數(shù)據(jù)挖掘的異常檢測方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計算機異常檢測方法，尤其是一種基于數(shù)據(jù)挖掘的異常檢測方法。
背景技術(shù)：
入侵檢測是對計算機系統(tǒng)攻擊行為的檢測，提供了對內(nèi)部攻擊、外部攻擊和誤操作的實時保護。為了能夠準確的識別攻擊類型，入侵檢測通過從計算機本地系統(tǒng)中的日志記錄文件、計算機的網(wǎng)絡(luò)系統(tǒng)中的若干個關(guān)鍵結(jié)點等中收集相關(guān)資料信息的，并且在通過對于這些數(shù)據(jù)的分析，得到檢測的計算機本地系統(tǒng)或者是計算機網(wǎng)絡(luò)系統(tǒng)中是否有違反安全策略的行為發(fā)生或者是否遭受到侵襲的跡象的結(jié)果。入侵檢測可以監(jiān)測并且分析用戶和系統(tǒng)的日常記錄活動、檢查系統(tǒng)配置中的安全漏洞、評估計算機系統(tǒng)的關(guān)鍵資源與數(shù)據(jù)文件的完整性、識別現(xiàn)有已知的攻擊行為或者是用戶濫用、統(tǒng)計并且分析異常行為、對于系統(tǒng)日志記錄進行管理和維護，即在計算機系統(tǒng)性能并不會受到影響的情況下，對計算機系統(tǒng)網(wǎng)絡(luò)進行實時的監(jiān)測和控制。由于現(xiàn)有入侵檢測技術(shù)中，采集到的大量數(shù)據(jù)作為入侵檢測系統(tǒng)的數(shù)據(jù)源，對其進行分析處理以判斷是否發(fā)生入侵事件，大量的數(shù)據(jù)在提供了可供利用的信息量的同時，也增加了有效利用這些數(shù)據(jù)的困難，有用信息反而可能會淹沒在大量的冗余數(shù)據(jù)之中，增加了特征提取的困難。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于數(shù)據(jù)挖掘的異常檢測方法，通過提取網(wǎng)絡(luò)數(shù)據(jù)中有用網(wǎng)絡(luò)數(shù)據(jù)特征，消除了網(wǎng)絡(luò)數(shù)據(jù)中的冗余屬性，提高了檢測的精度，且降低了誤報和漏報的概率。為了實現(xiàn)上述目的，本發(fā)明提供了一種一種基于數(shù)據(jù)挖掘的異常檢測方法，其特征在于由以下步驟組成
51、以網(wǎng)絡(luò)數(shù)據(jù)作為觀測變量，采用!^ast-ICA方法從所述觀測變量中提取觀測變量特征，構(gòu)成觀測變量特征集合Z，即獲得消除冗余屬性且降低數(shù)據(jù)維數(shù)的網(wǎng)絡(luò)數(shù)據(jù)特征；
52、采用AdaBoost方法訓練觀測變量特征以觀測變量特征集為訓練集，各觀測變量特征作為訓練文本，向各訓練文本賦予一個權(quán)值，其中所述權(quán)值用于表示所述訓練文本被弱分類器選入訓練集的概率，當弱分類器訓練結(jié)束后，根據(jù)訓練集的分類結(jié)果調(diào)節(jié)各訓練文本的權(quán)重如果所述訓練樣本被所述弱分類器精確分類，則所述弱分類器的權(quán)重降低，則其被下一弱分類器選入訓練集的概率降低；如果所述訓練樣本未被所述弱分類器精確分類，則其被下一弱分類器選入訓練集的概率提升，最終獲得強分類器；
53、根據(jù)所述強分類器對異常網(wǎng)絡(luò)數(shù)據(jù)進行檢測。在所述步驟Sl中由以下步驟組成
S10、設(shè)定N個觀測變量Xi，構(gòu)成觀測變量集合且每個觀測變量均表示為M個獨立分量^的線性組合，其中M個獨立分量力·構(gòu)成獨立分量集合，i=l，……，N，j=l，……，M且N、M均為大于1的整數(shù)，求取觀測變量集合的轉(zhuǎn)置矩陣X= ( ,-, ^以及獨立分量集合的轉(zhuǎn)置矩陣S= (S1,約,·■■, /,且設(shè)定X=A*S，其中A = (αφΝ.又M為未知的混合矩陣；
511、對所述觀測變量進行白化處理；
512、設(shè)定混合矩陣A的廣義逆為分離矩陣W，根據(jù)公式通過隨機梯度方法調(diào)節(jié)所述分離矩陣W，求取所述轉(zhuǎn)置矩陣S的最優(yōu)估汁^從而獲得消除冗余屬性且降低數(shù)據(jù)維數(shù)的網(wǎng)絡(luò)數(shù)據(jù)特征。所述步驟S12中通過隨機梯度法調(diào)節(jié)分離矩陣W由以下步驟組成
(1)根據(jù)公式Wi + = KiO(W^ik)Ki) i-S I G(Wfik)Xi) I Wi (k)對所述分離矩陣 W 以
行為單位進行迭代處理,其中mm表示k次迭代后所述分離矩陣w中與觀測變量集合中第
i個觀測變量巧相對應(yīng)的一行向量，^Ci + !)表示k+l次迭代后分離矩陣W中與觀測變量集
合中第i個觀測變量巧相對應(yīng)的一行向量，Wf (M表示k次迭代后分離矩陣w中與觀測變
量集合中第i個觀測變量巧相對應(yīng)的一行向量的轉(zhuǎn)置矩陣，E為期望運算符，G為高斯分布運算符，i、k均為大于1的整數(shù)；
(2)、判斷巧汸+1)-巧(i)的絕對值<ξ是否成立，如果成立則結(jié)束迭代處理，獲得最
終分離矩陣W(n)，執(zhí)行步驟(3)，如果不成立則重復(fù)執(zhí)行步驟(1)，其中ξ取0 1之間的任意數(shù)值；
Wi ( )
(3)、對所述最終分離矩陣W(η)以行為單位進行歸一化處理，即兩(功=|^|，其中 I Il表示求取范數(shù)；
(4)將最終分離矩陣W(η)代入公式壙=W*X中求得所述轉(zhuǎn)置矩陣S的最優(yōu)估計>
，從而獲得消除冗余屬性且降低數(shù)據(jù)維數(shù)的網(wǎng)絡(luò)數(shù)據(jù)特征。在所述步驟S2中由以下步驟組成
520、設(shè)定訓練集為
權(quán)利要求
1.一種基于數(shù)據(jù)挖掘的異常檢測方法，其特征在于由以下步驟組成51、以網(wǎng)絡(luò)數(shù)據(jù)作為觀測變量，采用!^ast-ICA方法從所述觀測變量中提取觀測變量特征，構(gòu)成觀測變量特征集合Z，即獲得消除冗余屬性且降低數(shù)據(jù)維數(shù)的網(wǎng)絡(luò)數(shù)據(jù)特征；52、采用AdaBoost方法訓練觀測變量特征以觀測變量特征集為訓練集，各觀測變量特征作為訓練文本，向各訓練文本賦予一個權(quán)值，其中所述權(quán)值用于表示所述訓練文本被弱分類器選入訓練集的概率，當弱分類器訓練結(jié)束后，根據(jù)訓練集的分類結(jié)果調(diào)節(jié)各訓練文本的權(quán)重如果所述訓練樣本被所述弱分類器精確分類，則所述弱分類器的權(quán)重降低，則其被下一弱分類器選入訓練集的概率降低；如果所述訓練樣本未被所述弱分類器精確分類，則其被下一弱分類器選入訓練集的概率提升，最終獲得強分類器；53、根據(jù)所述強分類器對異常網(wǎng)絡(luò)數(shù)據(jù)進行檢測。
2.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)挖掘的異常檢測方法，其特征在于在所述步驟Sl 中由以下步驟組成510、設(shè)定N個觀測變量X1,構(gòu)成觀測變量集合且每個觀測變量均表示為M個獨立分量 ^的線性組合，其中M個獨立分量。構(gòu)成獨立分量集合，i=l，……，N，j=l，……，M且N、 M均為大于1的整數(shù)，求取觀測變量集合的轉(zhuǎn)置矩陣X= ( , ,-,%/以及獨立分量集合的轉(zhuǎn)置矩陣S= …,且設(shè)定X=A*S，其中A= (%)況><1/為未知的混合矩陣；511、對所述觀測變量進行白化處理；512、設(shè)定混合矩陣A的廣義逆為分離矩陣W，根據(jù)公式7= W*X通過隨機梯度方法調(diào)節(jié)所述分離矩陣W，求取所述轉(zhuǎn)置矩陣S的最優(yōu)估汁^從而獲得消除冗余屬性且降低數(shù)據(jù)維數(shù)的網(wǎng)絡(luò)數(shù)據(jù)特征。
3.根據(jù)權(quán)利要求2所述的基于數(shù)據(jù)挖掘的異常檢測方法，其特征在于所述步驟S12 中通過隨機梯度法調(diào)節(jié)分離矩陣W由以下步驟組成(1)根據(jù)公式m(k+ l) = E\ XiG(Wfik)Xi) I-EI G(WfiMxi) i WM 對所述分離矩陣 W 以行為單位進行迭代處理，其中WKi表示k次迭代后所述分離矩陣w中與觀測變量集合中第i個觀測變量，相對應(yīng)的一行向量，im+x)表示k+i次迭代后分離矩陣w中與觀測變量集合中第i個觀測變量^相對應(yīng)的一行向量，Wf (k)表示k次迭代后分離矩陣W中與觀測變量集合中第i個觀測變量相對應(yīng)的一行向量的轉(zhuǎn)置矩陣，E為期望運算符，G為高斯分布運算符，i、k均為大于1的整數(shù)；(2)、判斷》+-巧(λ)的絕對值< ξ是否成立，如果成立則結(jié)束迭代處理，獲得最終分離矩陣W(n)，執(zhí)行步驟(3)，如果不成立則重復(fù)執(zhí)行步驟(1)，其中ξ取O 1之間的任意數(shù)值；ψ. (η)(3)、對所述最終分離矩陣W(η)以行為單位進行歸一化處理，即兩(《) = Jji^I，其中I! Il表示求取范數(shù)；(4)將最終分離矩陣W (η)代入公式f = IV*X中求得所述轉(zhuǎn)置矩陣S的最優(yōu)估計1，從而獲得消除冗余屬性且降低數(shù)據(jù)維數(shù)的網(wǎng)絡(luò)數(shù)據(jù)特征。
4.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)挖掘的異常檢測方法，其特征在于在所述步驟S2 中由以下步驟組成S20、設(shè)定訓練集為G={( , ),……H)} , A- e少，=，其中y為轉(zhuǎn)置矩陣S的最優(yōu)估計，i=l，……，m+n，m+n為大于1的整數(shù)；&為類標號， =+1時為少數(shù)類， =一 1時為多數(shù)類，少數(shù)類樣本的個數(shù)為m，多數(shù)類樣本的個數(shù)為n，且m<<n ；S21、初始化所述訓練集將訓練集G中各(而為)的權(quán)重均初始化為1/n；S22、以BP為弱分類器，調(diào)用Weaklearn進行T次迭代訓練，其中每次迭代訓練獲得一組弱分類器函數(shù)；S23、在每次迭代訓練前判定迭代次數(shù)>T是否成立，如果成立則由T組弱分類器函數(shù)組合獲得強分類器，如果不成立則調(diào)整權(quán)重，重復(fù)執(zhí)行步驟S22。
全文摘要
本發(fā)明公開了一種基于數(shù)據(jù)挖掘的異常檢測方法，屬于網(wǎng)絡(luò)安全技術(shù)領(lǐng)域。該異常檢測方法基于獨立分量分析和Adaboost方法，首先用Fast-ICA算法進行特征提取，以消除冗余屬性，降低數(shù)據(jù)維數(shù)。AdaBoost方法依次訓練一組弱分類器,將它們集成為一個強分類器。通過本發(fā)明，有效地消除網(wǎng)絡(luò)數(shù)據(jù)中的冗余屬性信息，減少了分類器的訓練和檢測的運算量；同時也提高了檢測的精度，降低樣本誤報和漏報的概率。
文檔編號G06F21/00GK102324007SQ20111028301
公開日2012年1月18日申請日期2011年9月22日優(yōu)先權(quán)日2011年9月22日
發(fā)明者嚴鳴, 唐朝偉, 張雪臻, 時豪, 李超群, 楊磊申請人:重慶大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：唐朝偉;時豪;嚴鳴;張雪臻;李超群;楊磊
技術(shù)所有人：重慶大學
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)挖掘異常檢測方法相關(guān)技術(shù)

數(shù)據(jù)挖掘異常檢測算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于數(shù)據(jù)挖掘的異常檢測方法