1.一種網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法,其特征在于,包括下述步驟:
步驟S110:構(gòu)建KDDCUP99數(shù)據(jù)集,并對(duì)所述數(shù)據(jù)集進(jìn)行處理,得到高維向量組;
步驟S120:基于Re-ReliefF算法剔除所述高維向量組中無關(guān)特征,構(gòu)成候選特征集;
步驟S130:基于改進(jìn)的Re-ReliefF算法獲得一個(gè)與所述候選特征集具有最小相關(guān)性的特征。
2.如權(quán)利要求1所述的網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法,其特征在于,步驟S110中,構(gòu)建KDDCUP99數(shù)據(jù)集,并對(duì)所述數(shù)據(jù)集進(jìn)行處理,得到高維向量組,包括下述步驟:
將所述KDDCUP99數(shù)據(jù)集分為連續(xù)型數(shù)據(jù)及非數(shù)值型數(shù)據(jù);
對(duì)所述連續(xù)型數(shù)據(jù)對(duì)連續(xù)型變量進(jìn)行預(yù)處理,將其數(shù)據(jù)取值從[min,max]映射到[0,1]區(qū)間;
對(duì)于所述非數(shù)值型數(shù)據(jù)離散化處理,利用編碼映射成數(shù)值;
用連續(xù)型變量的方法將所述數(shù)值從[min,max]映射到[0,1]區(qū)間。
3.如權(quán)利要求2所述的網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法,其特征在于,步驟S120中,基于Re-ReliefF算法剔除所述高維向量組中無關(guān)特征,構(gòu)成候選特征集,包括下述步驟:
將所述高維向量組的原始特征個(gè)數(shù)記為N,Re-ReliefF階段設(shè)定迭代次數(shù)m,最近鄰樣本個(gè)數(shù)k,初始化權(quán)重W[A]=0;
循環(huán)遍歷所述高維向量組中的樣本集,通過以下的權(quán)重公式計(jì)算并更新W[A],權(quán)重公式如下:
其中,m代表樣本抽樣次數(shù),Mj(C)代表不同類別C中的第j個(gè)最近鄰樣本,P(C)代表C類目標(biāo)樣本數(shù)占樣本總數(shù)的比例,class(Ri)表示Ri所屬的類別,函數(shù)diff(A,Ri,Rj)是用來計(jì)算樣本實(shí)例Ri和Rj關(guān)于某個(gè)特征A之間的距離大?。?/p>
將所有的特征按照W[A]從大到小排序,按照特征權(quán)值最低大于0.001,選出候選特征集。
4.如權(quán)利要求1所述的網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法,其特征在于,步驟S130中,基于改進(jìn)的Re-ReliefF算法獲得一個(gè)與所述候選特征集具有最小相關(guān)性的特征,包括下述步驟:
通過改進(jìn)的Re-ReliefF計(jì)算出所述選特征集中每個(gè)特征的權(quán)重,選擇其中最大的特征,構(gòu)成候選特征子集;
進(jìn)行遍歷,計(jì)算所述候選特征子集與類之間的皮爾遜相關(guān)系數(shù)c(fj,si);
根據(jù)以下的選擇準(zhǔn)則,選擇出特征子集,其中,m-1個(gè)特征,要從F-Sm-1的特征集中選出第m個(gè)特征,c(fj,fi)是特征間的皮爾遜相關(guān)系數(shù),代表兩個(gè)特征間相關(guān)性大小的度量,其絕對(duì)值在[0,1]區(qū)間內(nèi),
使用SVM確定與所述候選特征集具有最小相關(guān)性的特征,形成特征子集。
5.一種網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇系統(tǒng),其特征在于,包括:
數(shù)據(jù)采集模塊,用于構(gòu)建KDDCUP99數(shù)據(jù)集,并對(duì)所述數(shù)據(jù)集進(jìn)行處理,得到高維向量組;
第一數(shù)據(jù)處理模塊,用于基于Re-ReliefF算法剔除所述高維向量組中無關(guān)特征,構(gòu)成候選特征集;
第二數(shù)據(jù)處理模塊,基于改進(jìn)的Re-ReliefF算法獲得一個(gè)與所述候選特征集具有最小相關(guān)性的特征。
6.如權(quán)利要求5所述的網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇系統(tǒng),其特征在于,數(shù)據(jù)采集模塊包括:
數(shù)據(jù)分類單元,將所述KDDCUP99數(shù)據(jù)集分為連續(xù)型數(shù)據(jù)及非數(shù)值型數(shù)據(jù);
數(shù)據(jù)處理單元,對(duì)所述連續(xù)型數(shù)據(jù)對(duì)連續(xù)型變量進(jìn)行預(yù)處理,將其數(shù)據(jù)取值從[min,max]映射到[0,1]區(qū)間;
數(shù)據(jù)離散單元,對(duì)于所述非數(shù)值型數(shù)據(jù)離散化處理,利用編碼映射成數(shù)值;及
數(shù)據(jù)映射單元,用連續(xù)型變量的方法將所述數(shù)值從[min,max]映射到[0,1]區(qū)間。
7.如權(quán)利要求5所述的網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇系統(tǒng),其特征在于,所述第一數(shù)據(jù)處理模塊包括:
初始化單元,用于將所述高維向量組的原始特征個(gè)數(shù)記為N,Re-ReliefF階段設(shè)定迭代次數(shù)m,最近鄰樣本個(gè)數(shù)k,初始化權(quán)重W[A]=0;
第一計(jì)算單元,循環(huán)遍歷所述高維向量組中的樣本集,通過以下的權(quán)重公式計(jì)算并更新W[A],權(quán)重公式如下:
其中,m代表樣本抽樣次數(shù),Mj(C)代表不同類別C中的第j個(gè)最近鄰樣本,P(C)代表C類目標(biāo)樣本數(shù)占樣本總數(shù)的比例,class(Ri)表示Ri所屬的類別,函數(shù)diff(A,Ri,Rj)是用來計(jì)算樣本實(shí)例Ri和Rj關(guān)于某個(gè)特征A之間的距離大小;
排序單元,用于將所有的特征按照W[A]從大到小排序,按照特征權(quán)值最低大于0.001,選出候選特征集。
8.如權(quán)利要求5所述的網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇系統(tǒng),其特征在于,所述第二數(shù)據(jù)處理模塊包括:
特征子集候選單元,通過Re-ReliefF計(jì)算出所述選特征集中每個(gè)特征的權(quán)重,選擇其中最大的特征,構(gòu)成候選特征子集;
第二計(jì)算單元,用于進(jìn)行遍歷,計(jì)算所述候選特征子集與類之間的皮爾遜相關(guān)系數(shù)c(fj,si);
特征選擇單元,根據(jù)以下的選擇準(zhǔn)則,選擇出特征子集,其中,c(fj,fi)是特征間的皮爾遜相關(guān)系數(shù),代表兩個(gè)特征間相關(guān)性大小的度量,其絕對(duì)值在[0,1]區(qū)間內(nèi),
SVM單元,使用SVM確定與所述候選特征集具有最小相關(guān)性的特征,形成特征子集。