專利名稱:基于數(shù)據(jù)挖掘的異常檢測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機異常檢測方法,尤其是一種基于數(shù)據(jù)挖掘的異常檢測方法。
背景技術(shù):
入侵檢測是對計算機系統(tǒng)攻擊行為的檢測,提供了對內(nèi)部攻擊、外部攻擊和誤操作的實時保護。為了能夠準確的識別攻擊類型,入侵檢測通過從計算機本地系統(tǒng)中的日志記錄文件、計算機的網(wǎng)絡(luò)系統(tǒng)中的若干個關(guān)鍵結(jié)點等中收集相關(guān)資料信息的,并且在通過對于這些數(shù)據(jù)的分析,得到檢測的計算機本地系統(tǒng)或者是計算機網(wǎng)絡(luò)系統(tǒng)中是否有違反安全策略的行為發(fā)生或者是否遭受到侵襲的跡象的結(jié)果。入侵檢測可以監(jiān)測并且分析用戶和系統(tǒng)的日常記錄活動、檢查系統(tǒng)配置中的安全漏洞、評估計算機系統(tǒng)的關(guān)鍵資源與數(shù)據(jù)文件的完整性、識別現(xiàn)有已知的攻擊行為或者是用戶濫用、統(tǒng)計并且分析異常行為、對于系統(tǒng)日志記錄進行管理和維護,即在計算機系統(tǒng)性能并不會受到影響的情況下,對計算機系統(tǒng)網(wǎng)絡(luò)進行實時的監(jiān)測和控制。由于現(xiàn)有入侵檢測技術(shù)中,采集到的大量數(shù)據(jù)作為入侵檢測系統(tǒng)的數(shù)據(jù)源,對其進行分析處理以判斷是否發(fā)生入侵事件,大量的數(shù)據(jù)在提供了可供利用的信息量的同時, 也增加了有效利用這些數(shù)據(jù)的困難,有用信息反而可能會淹沒在大量的冗余數(shù)據(jù)之中,增加了特征提取的困難。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于數(shù)據(jù)挖掘的異常檢測方法,通過提取網(wǎng)絡(luò)數(shù)據(jù)中有用網(wǎng)絡(luò)數(shù)據(jù)特征,消除了網(wǎng)絡(luò)數(shù)據(jù)中的冗余屬性,提高了檢測的精度,且降低了誤報和漏報的概率。為了實現(xiàn)上述目的,本發(fā)明提供了一種一種基于數(shù)據(jù)挖掘的異常檢測方法,其特征在于由以下步驟組成
51、以網(wǎng)絡(luò)數(shù)據(jù)作為觀測變量,采用!^ast-ICA方法從所述觀測變量中提取觀測變量特征,構(gòu)成觀測變量特征集合Z,即獲得消除冗余屬性且降低數(shù)據(jù)維數(shù)的網(wǎng)絡(luò)數(shù)據(jù)特征;
52、采用AdaBoost方法訓練觀測變量特征以觀測變量特征集為訓練集,各觀測變量特征作為訓練文本,向各訓練文本賦予一個權(quán)值,其中所述權(quán)值用于表示所述訓練文本被弱分類器選入訓練集的概率,當弱分類器訓練結(jié)束后,根據(jù)訓練集的分類結(jié)果調(diào)節(jié)各訓練文本的權(quán)重如果所述訓練樣本被所述弱分類器精確分類,則所述弱分類器的權(quán)重降低,則其被下一弱分類器選入訓練集的概率降低;如果所述訓練樣本未被所述弱分類器精確分類,則其被下一弱分類器選入訓練集的概率提升,最終獲得強分類器;
53、根據(jù)所述強分類器對異常網(wǎng)絡(luò)數(shù)據(jù)進行檢測。在所述步驟Sl中由以下步驟組成
S10、設(shè)定N個觀測變量Xi,構(gòu)成觀測變量集合且每個觀測變量均表示為M個獨立分量^的線性組合,其中M個獨立分量力·構(gòu)成獨立分量集合,i=l,……,N,j=l,……,M且N、M均為大于1的整數(shù),求取觀測變量集合的轉(zhuǎn)置矩陣X= ( ,-, ^以及獨立分量集合的轉(zhuǎn)置矩陣S= (S1,約,·■■, /,且設(shè)定X=A*S,其中A = (αφΝ.又M為未知的混合矩陣;
511、對所述觀測變量進行白化處理;
512、設(shè)定混合矩陣A的廣義逆為分離矩陣W,根據(jù)公式通過隨機梯度方法調(diào)節(jié)所述分離矩陣W,求取所述轉(zhuǎn)置矩陣S的最優(yōu)估汁^從而獲得消除冗余屬性且降低數(shù)據(jù)維數(shù)的網(wǎng)絡(luò)數(shù)據(jù)特征。所述步驟S12中通過隨機梯度法調(diào)節(jié)分離矩陣W由以下步驟組成
(1)根據(jù)公式Wi + = KiO(W^ik)Ki) i-S I G(Wfik)Xi) I Wi (k)對所述分離矩陣 W 以
行為單位進行迭代處理,其中mm表示k次迭代后所述分離矩陣w中與觀測變量集合中第
i個觀測變量巧相對應(yīng)的一行向量,^Ci + !)表示k+l次迭代后分離矩陣W中與觀測變量集
合中第i個觀測變量巧相對應(yīng)的一行向量,Wf (M表示k次迭代后分離矩陣w中與觀測變
量集合中第i個觀測變量巧相對應(yīng)的一行向量的轉(zhuǎn)置矩陣,E為期望運算符,G為高斯分布運算符,i、k均為大于1的整數(shù);
(2)、判斷巧汸+1)-巧(i)的絕對值<ξ是否成立,如果成立則結(jié)束迭代處理,獲得最
終分離矩陣W(n),執(zhí)行步驟(3),如果不成立則重復(fù)執(zhí)行步驟(1),其中ξ取0 1之間的任意數(shù)值;
Wi ( )
(3)、對所述最終分離矩陣W(η)以行為單位進行歸一化處理,即兩(功=|^|,其中 I Il表示求取范數(shù);
(4)將最終分離矩陣W(η)代入公式壙=W*X中求得所述轉(zhuǎn)置矩陣S的最優(yōu)估計>
,從而獲得消除冗余屬性且降低數(shù)據(jù)維數(shù)的網(wǎng)絡(luò)數(shù)據(jù)特征。在所述步驟S2中由以下步驟組成
520、設(shè)定訓練集為
權(quán)利要求
1.一種基于數(shù)據(jù)挖掘的異常檢測方法,其特征在于由以下步驟組成51、以網(wǎng)絡(luò)數(shù)據(jù)作為觀測變量,采用!^ast-ICA方法從所述觀測變量中提取觀測變量特征,構(gòu)成觀測變量特征集合Z,即獲得消除冗余屬性且降低數(shù)據(jù)維數(shù)的網(wǎng)絡(luò)數(shù)據(jù)特征;52、采用AdaBoost方法訓練觀測變量特征以觀測變量特征集為訓練集,各觀測變量特征作為訓練文本,向各訓練文本賦予一個權(quán)值,其中所述權(quán)值用于表示所述訓練文本被弱分類器選入訓練集的概率,當弱分類器訓練結(jié)束后,根據(jù)訓練集的分類結(jié)果調(diào)節(jié)各訓練文本的權(quán)重如果所述訓練樣本被所述弱分類器精確分類,則所述弱分類器的權(quán)重降低,則其被下一弱分類器選入訓練集的概率降低;如果所述訓練樣本未被所述弱分類器精確分類,則其被下一弱分類器選入訓練集的概率提升,最終獲得強分類器;53、根據(jù)所述強分類器對異常網(wǎng)絡(luò)數(shù)據(jù)進行檢測。
2.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)挖掘的異常檢測方法,其特征在于在所述步驟Sl 中由以下步驟組成510、設(shè)定N個觀測變量X1,構(gòu)成觀測變量集合且每個觀測變量均表示為M個獨立分量 ^的線性組合,其中M個獨立分量。構(gòu)成獨立分量集合,i=l,……,N,j=l,……,M且N、 M均為大于1的整數(shù),求取觀測變量集合的轉(zhuǎn)置矩陣X= ( , ,-,%/以及獨立分量集合的轉(zhuǎn)置矩陣S= …,且設(shè)定X=A*S,其中A= (%)況><1/為未知的混合矩陣;511、對所述觀測變量進行白化處理;512、設(shè)定混合矩陣A的廣義逆為分離矩陣W,根據(jù)公式7= W*X通過隨機梯度方法調(diào)節(jié)所述分離矩陣W,求取所述轉(zhuǎn)置矩陣S的最優(yōu)估汁^從而獲得消除冗余屬性且降低數(shù)據(jù)維數(shù)的網(wǎng)絡(luò)數(shù)據(jù)特征。
3.根據(jù)權(quán)利要求2所述的基于數(shù)據(jù)挖掘的異常檢測方法,其特征在于所述步驟S12 中通過隨機梯度法調(diào)節(jié)分離矩陣W由以下步驟組成(1)根據(jù)公式m(k+ l) = E\ XiG(Wfik)Xi) I-EI G(WfiMxi) i WM 對所述分離矩陣 W 以行為單位進行迭代處理,其中WKi表示k次迭代后所述分離矩陣w中與觀測變量集合中第i個觀測變量,相對應(yīng)的一行向量,im+x)表示k+i次迭代后分離矩陣w中與觀測變量集合中第i個觀測變量^相對應(yīng)的一行向量,Wf (k)表示k次迭代后分離矩陣W中與觀測變量集合中第i個觀測變量 相對應(yīng)的一行向量的轉(zhuǎn)置矩陣,E為期望運算符,G為高斯分布運算符,i、k均為大于1的整數(shù);(2)、判斷》+-巧(λ)的絕對值< ξ是否成立,如果成立則結(jié)束迭代處理,獲得最終分離矩陣W(n),執(zhí)行步驟(3),如果不成立則重復(fù)執(zhí)行步驟(1),其中ξ取O 1之間的任意數(shù)值;ψ. (η)(3)、對所述最終分離矩陣W(η)以行為單位進行歸一化處理,即兩(《) = Jji^I,其中I! Il表示求取范數(shù);(4)將最終分離矩陣W (η)代入公式f = IV*X中求得所述轉(zhuǎn)置矩陣S的最優(yōu)估計1,從而獲得消除冗余屬性且降低數(shù)據(jù)維數(shù)的網(wǎng)絡(luò)數(shù)據(jù)特征。
4.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)挖掘的異常檢測方法,其特征在于在所述步驟S2 中由以下步驟組成S20、設(shè)定訓練集為G={( , ),……H)} , A- e少,=,其中y為轉(zhuǎn)置矩陣S的最優(yōu)估計,i=l,……,m+n,m+n為大于1的整數(shù);&為類標號, =+1時為少數(shù)類, =一 1時為多數(shù)類,少數(shù)類樣本的個數(shù)為m,多數(shù)類樣本的個數(shù)為n,且m<<n ;S21、初始化所述訓練集將訓練集G中各(而為)的權(quán)重均初始化為1/n;S22、以BP為弱分類器,調(diào)用Weaklearn進行T次迭代訓練,其中每次迭代訓練獲得一組弱分類器函數(shù);S23、在每次迭代訓練前判定迭代次數(shù)>T是否成立,如果成立則由T組弱分類器函數(shù)組合獲得強分類器,如果不成立則調(diào)整權(quán)重,重復(fù)執(zhí)行步驟S22。
全文摘要
本發(fā)明公開了一種基于數(shù)據(jù)挖掘的異常檢測方法,屬于網(wǎng)絡(luò)安全技術(shù)領(lǐng)域。該異常檢測方法基于獨立分量分析和Adaboost方法,首先用Fast-ICA算法進行特征提取,以消除冗余屬性,降低數(shù)據(jù)維數(shù)。AdaBoost方法依次訓練一組弱分類器,將它們集成為一個強分類器。通過本發(fā)明,有效地消除網(wǎng)絡(luò)數(shù)據(jù)中的冗余屬性信息,減少了分類器的訓練和檢測的運算量;同時也提高了檢測的精度,降低樣本誤報和漏報的概率。
文檔編號G06F21/00GK102324007SQ20111028301
公開日2012年1月18日 申請日期2011年9月22日 優(yōu)先權(quán)日2011年9月22日
發(fā)明者嚴鳴, 唐朝偉, 張雪臻, 時豪, 李超群, 楊磊 申請人:重慶大學