亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法及系統(tǒng)與流程

文檔序號(hào):12470224閱讀:481來(lái)源:國(guó)知局
一種網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法及系統(tǒng)與流程

本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)安全處理技術(shù)領(lǐng)域,特別涉及一種網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法及系統(tǒng)。



背景技術(shù):

對(duì)具有高維度小樣本特性的數(shù)據(jù)進(jìn)行特征選擇是數(shù)據(jù)挖掘領(lǐng)域研究熱點(diǎn)之一。該類型數(shù)據(jù)普遍存在數(shù)據(jù)量巨大、特征維度高、樣本數(shù)量少的特點(diǎn)。常用的數(shù)據(jù)分析方法具有樣本趨向性,進(jìn)行高維小樣本數(shù)據(jù)分析的效率低而準(zhǔn)確性不高。

ReliefF算法具有評(píng)估效率高,對(duì)數(shù)據(jù)類型沒(méi)有限制,可以較好地去除無(wú)關(guān)特征的優(yōu)點(diǎn),但ReliefF算法的缺點(diǎn)是設(shè)計(jì)沒(méi)有考慮特征之間的相關(guān)性,不能去除冗余特征,算法會(huì)賦予所有和類別相關(guān)性高的特征較高的權(quán)值,而不管該特征是否和其余特征冗余。

mRmR(最大相關(guān)最小冗余)算法是基于信息理論的典型特征降維算法。主要思想是從特征空間中尋找與目標(biāo)類別有最大相關(guān)性且相互之間具有最少冗余性的m個(gè)特征。mRmR算法可以得出與目標(biāo)類別有最大相關(guān)性且相互之間具有最少冗余性的特征子集,但是其無(wú)法得到各個(gè)特征的權(quán)重系數(shù),提取出來(lái)的特征子集無(wú)法體現(xiàn)不同特征對(duì)分類作用的差異。

支持向量機(jī)是20世紀(jì)90年代初由V.Vipnik等人根據(jù)統(tǒng)計(jì)學(xué)理論(Statistical Learning Theory,簡(jiǎn)稱:SLT)提出的一種新的機(jī)器學(xué)習(xí)方法,在解決小樣本、非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特有的優(yōu)勢(shì),已經(jīng)在模式識(shí)別、函數(shù)逼近和概率密度估計(jì)等方面取得了良好的效果;支持向量機(jī)從本質(zhì)上講是一種前向神經(jīng)網(wǎng)路,根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,在使訓(xùn)練樣本分類誤差極小化的前提下,盡量提高分類器的泛化推廣能力。

專利CN201210055566.5提供了一種面向SNP數(shù)據(jù)的特征選擇方法,其具體步驟如下:首先進(jìn)行數(shù)據(jù)預(yù)處理;然后用重新設(shè)計(jì)的Relief算法剔除無(wú)關(guān)SNP特征;然后用改進(jìn)的SVM-RFE算法對(duì)SNP特征進(jìn)行關(guān)鍵性程度排序;最后使用十字交叉驗(yàn)證來(lái)篩選關(guān)鍵SNPs。該發(fā)明結(jié)合了Filter式特征選擇和Wrapper式特征選擇的優(yōu)勢(shì),并在機(jī)器學(xué)習(xí)過(guò)程中使用二次劃分方法,解決了SNP數(shù)據(jù)特征選擇中的高維小樣本及SNP致病組合模式的問(wèn)題,提高了分析效率和準(zhǔn)確率,盡管Relief可以計(jì)算出每一個(gè)特征的權(quán)重,再使用SVM-RFE算法對(duì)權(quán)重進(jìn)行比較,可以去除不相關(guān)的屬性,但對(duì)冗余特征沒(méi)有進(jìn)行處理。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,有必要提供一種能夠剔除數(shù)據(jù)里的冗余數(shù)據(jù)的網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法。

為實(shí)現(xiàn)上述目的,本申請(qǐng)采用下述技術(shù)方案:

一種網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法,包括下述步驟:

步驟S110:構(gòu)建KDDCUP99數(shù)據(jù)集,并對(duì)所述數(shù)據(jù)集進(jìn)行處理,得到高維向量組;

步驟S120:基于Re-ReliefF算法剔除所述高維向量組中無(wú)關(guān)特征,構(gòu)成候選特征集;

步驟S130:基于改進(jìn)的Re-ReliefF算法獲得一個(gè)與所述候選特征集具有最小相關(guān)性的特征。

在一些實(shí)施例中,步驟S110中,構(gòu)建KDDCUP99數(shù)據(jù)集,并對(duì)所述數(shù)據(jù)集進(jìn)行處理,得到高維向量組,包括下述步驟:

將所述KDDCUP99數(shù)據(jù)集分為連續(xù)型數(shù)據(jù)及非數(shù)值型數(shù)據(jù);

對(duì)所述連續(xù)型數(shù)據(jù)對(duì)連續(xù)型變量進(jìn)行預(yù)處理,將其數(shù)據(jù)取值從[min,max]映射到[0,1]區(qū)間;

對(duì)于所述非數(shù)值型數(shù)據(jù)離散化處理,利用編碼映射成數(shù)值;

用連續(xù)型變量的方法將所述數(shù)值從[min,max]映射到[0,1]區(qū)間。

在一些實(shí)施例中,步驟S120中,基于Re-ReliefF算法剔除所述高維向量組中無(wú)關(guān)特征,構(gòu)成候選特征集,包括下述步驟:

將所述高維向量組的原始特征個(gè)數(shù)記為N,Re-ReliefF階段設(shè)定迭代次數(shù)m,最近鄰樣本個(gè)數(shù)k,初始化權(quán)重W[A]=0;

循環(huán)遍歷所述高維向量組中的樣本集,通過(guò)以下的權(quán)重公式計(jì)算并更新W[A],權(quán)重公式如下:

<mrow> <mi>w</mi> <mo>&lsqb;</mo> <mi>A</mi> <mo>&rsqb;</mo> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munder> <mi>&Sigma;</mi> <mrow> <mi>C</mi> <mo>&NotEqual;</mo> <mi>c</mi> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>c</mi> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>s</mi> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>d</mi> <mi>i</mi> <mi>f</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>M</mi> <mi>j</mi> </msub> <mo>(</mo> <mi>C</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>d</mi> <mi>i</mi> <mi>f</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>H</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中,m代表樣本抽樣次數(shù),Mj(C)代表不同類別C中的第j個(gè)最近鄰樣本,P(C)代表C類目標(biāo)樣本數(shù)占樣本總數(shù)的比例,class(Ri)表示Ri所屬的類別,函數(shù)diff(A,Ri,Rj)是用來(lái)計(jì)算樣本實(shí)例Ri和Rj關(guān)于某個(gè)特征A之間的距離大?。?/p>

將所有的特征按照W[A]從大到小排序,按照特征權(quán)值最低大于0.001,選出候選特征集。

在一些實(shí)施例中,步驟S130中,基于改進(jìn)的Re-ReliefF算法獲得一個(gè)與所述候選特征集具有最小相關(guān)性的特征,包括下述步驟:

通過(guò)Re-ReliefF計(jì)算出所述選特征集中每個(gè)特征的權(quán)重,選擇其中最大的特征,構(gòu)成候選特征子集;

進(jìn)行遍歷,計(jì)算所述候選特征子集與類之間的皮爾遜相關(guān)系數(shù)c(fj,si);

根據(jù)以下的選擇準(zhǔn)則,選擇出特征子集,其中,c(fj,fi)是特征間的皮爾遜相關(guān)系數(shù),代表兩個(gè)特征間相關(guān)性大小的度量,其絕對(duì)值在[0,1]區(qū)間內(nèi),

<mrow> <munder> <mrow> <mi>M</mi> <mi>A</mi> <mi>X</mi> </mrow> <mrow> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>F</mi> <mo>-</mo> <msub> <mi>S</mi> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> </munder> <mo>&lsqb;</mo> <msub> <mi>F</mi> <mi>j</mi> </msub> <mo>&divide;</mo> <mfrac> <mn>1</mn> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>S</mi> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> </munder> <mo>|</mo> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>&rsqb;</mo> <mo>;</mo> </mrow>

使用SVM確定與所述候選特征集具有最小相關(guān)性的特征,形成特征子集。

另外,本發(fā)明還提供了一種網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇系統(tǒng),包括:

數(shù)據(jù)采集模塊,用于構(gòu)建KDDCUP99數(shù)據(jù)集,并對(duì)所述數(shù)據(jù)集進(jìn)行處理,得到高維向量組;

第一數(shù)據(jù)處理模塊,用于基于Re-ReliefF算法剔除所述高維向量組中無(wú)關(guān)特征,構(gòu)成候選特征集;

第二數(shù)據(jù)處理模塊,基于改進(jìn)的Re-ReliefF算法獲得一個(gè)與所述候選特征集具有最小相關(guān)性的特征。

在一些實(shí)施例中,數(shù)據(jù)采集模塊包括:

數(shù)據(jù)分類單元,將所述KDDCUP99數(shù)據(jù)集分為連續(xù)型數(shù)據(jù)及非數(shù)值型數(shù)據(jù);

數(shù)據(jù)處理單元,對(duì)所述連續(xù)型數(shù)據(jù)對(duì)連續(xù)型變量進(jìn)行預(yù)處理,將其數(shù)據(jù)取值從[min,max]映射到[0,1]區(qū)間;

數(shù)據(jù)離散單元,對(duì)于所述非數(shù)值型數(shù)據(jù)離散化處理,利用編碼映射成數(shù)值;及

數(shù)據(jù)映射單元,用連續(xù)型變量的方法將所述數(shù)值從[min,max]映射到[0,1]區(qū)間。

在一些實(shí)施例中,所述第一數(shù)據(jù)處理模塊包括:

初始化單元,用于將所述高維向量組的原始特征個(gè)數(shù)記為N,Re-ReliefF階段設(shè)定迭代次數(shù)m,最近鄰樣本個(gè)數(shù)k,初始化權(quán)重W[A]=0;

第一計(jì)算單元,循環(huán)遍歷所述高維向量組中的樣本集,通過(guò)以下的權(quán)重公式計(jì)算并更新W[A],權(quán)重公式如下:

<mrow> <mi>w</mi> <mo>&lsqb;</mo> <mi>A</mi> <mo>&rsqb;</mo> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munder> <mo>&Sigma;</mo> <mrow> <mi>C</mi> <mo>&NotEqual;</mo> <mi>c</mi> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>c</mi> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>s</mi> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>d</mi> <mi>i</mi> <mi>f</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>M</mi> <mi>j</mi> </msub> <mo>(</mo> <mi>C</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>d</mi> <mi>i</mi> <mi>f</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>H</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中,m代表樣本抽樣次數(shù),Mj(C)代表不同類別C中的第j個(gè)最近鄰樣本,P(C)代表C類目標(biāo)樣本數(shù)占樣本總數(shù)的比例,class(Ri)表示Ri所屬的類別,函數(shù)diff(A,Ri,Rj)是用來(lái)計(jì)算樣本實(shí)例Ri和Rj關(guān)于某個(gè)特征A之間的距離大?。?/p>

排序單元,用于將所有的特征按照W[A]從大到小排序,按照特征權(quán)值最低大于0.001,選出候選特征集。

在一些實(shí)施例中,所述第二數(shù)據(jù)處理模塊包括:

特征子集候選單元,通過(guò)改進(jìn)的Re-ReliefF計(jì)算出所述選特征集中每個(gè)特征的權(quán)重,選擇其中最大的特征,構(gòu)成候選特征子集;

第二計(jì)算單元,用于進(jìn)行遍歷,計(jì)算所述候選特征子集與類之間的皮爾遜相關(guān)系數(shù)c(fj,si);

特征選擇單元,根據(jù)以下的選擇準(zhǔn)則,選擇出特征子集,其中,c(fj,fi)是特征間的皮爾遜相關(guān)系數(shù),代表兩個(gè)特征間相關(guān)性大小的度量,其絕對(duì)值在[0,1]區(qū)間內(nèi),

<mrow> <munder> <mrow> <mi>M</mi> <mi>A</mi> <mi>X</mi> </mrow> <mrow> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>F</mi> <mo>-</mo> <msub> <mi>S</mi> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> </munder> <mo>&lsqb;</mo> <msub> <mi>F</mi> <mi>j</mi> </msub> <mo>&divide;</mo> <mfrac> <mn>1</mn> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>S</mi> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> </munder> <mo>|</mo> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>&rsqb;</mo> <mo>;</mo> </mrow>

SVM單元,使用SVM確定與所述候選特征集具有最小相關(guān)性的特征,形成特征子集。

本發(fā)明采用上述技術(shù)方案,其有益效果在于:

本發(fā)明提出了一種網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法及系統(tǒng),對(duì)KDDCUP99數(shù)據(jù)集進(jìn)行數(shù)據(jù)規(guī)范化處理,對(duì)向量組進(jìn)行Re-Relieff數(shù)據(jù)降維,并剔除無(wú)關(guān)或相關(guān)性較小的數(shù)據(jù),構(gòu)成一個(gè)候選特征集,再利用改進(jìn)的Re-ReliefF算法獲得一個(gè)與候選特征集具有最小相關(guān)性的特征,本發(fā)明提供的網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法及系統(tǒng),對(duì)于數(shù)據(jù)里存在的冗余特征,借用了MRMR的思想,剔除了數(shù)據(jù)里的冗余數(shù)據(jù),提高了分類器的效率。

另外,本發(fā)明對(duì)KDDCUP99數(shù)據(jù)集進(jìn)行數(shù)據(jù)規(guī)范化處理,加快了算法的學(xué)習(xí)速度;同時(shí),采用改進(jìn)的ReliefF特征選擇算法相對(duì)于原始ReliefF算法對(duì)于特征的區(qū)分度更高,對(duì)于分類性能差別不大的特征也具有很好的識(shí)別效果,降低了數(shù)據(jù)集的維度,提高了算法的速度;此外,采用改進(jìn)的Re-ReliefF算法結(jié)合SVM能更有效區(qū)分有效的特征,減少有效特征的數(shù)量且能夠進(jìn)一步降低數(shù)據(jù)維度后,實(shí)現(xiàn)分類準(zhǔn)確率相對(duì)高點(diǎn)的情況下降低預(yù)測(cè)時(shí)間和表現(xiàn)較好的魯棒性。

附圖說(shuō)明

圖1為本發(fā)明提供的網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法的步驟流程圖。

圖2為本發(fā)明提供的構(gòu)建KDDCUP99數(shù)據(jù)集,并對(duì)所述數(shù)據(jù)集進(jìn)行處理,得到高維向量組的步驟流程圖。

圖3為本發(fā)明提供的網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇系統(tǒng)的結(jié)構(gòu)示意圖。

圖4為本發(fā)明實(shí)施例提供的數(shù)據(jù)采集模塊的結(jié)構(gòu)示意圖。

圖5為本發(fā)明實(shí)施例提供的第一數(shù)據(jù)處理模塊的結(jié)構(gòu)示意圖。

圖6為本發(fā)明實(shí)施例提供的第二數(shù)據(jù)處理模塊的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。

請(qǐng)參閱圖1,本申請(qǐng)?zhí)峁┑木W(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法,包括下述步驟:

步驟S110:構(gòu)建KDDCUP99數(shù)據(jù)集,并對(duì)所述數(shù)據(jù)集進(jìn)行處理,得到高維向量組;

可以理解,在特征選擇中,數(shù)據(jù)集的選擇是研究和評(píng)價(jià)算法的第一步,數(shù)據(jù)集的準(zhǔn)確與否好將直接決定各種算法的評(píng)價(jià)結(jié)果。本申請(qǐng)?zhí)峁┑腒DDCUP99數(shù)據(jù)集由哥倫比亞大學(xué)IDS實(shí)驗(yàn)室整理形成的安全審計(jì)數(shù)據(jù)集KDDCUP99。該數(shù)據(jù)集分為訓(xùn)練集與檢測(cè)集,該數(shù)據(jù)集中包含了大量的網(wǎng)絡(luò)連接記錄,每條連接記錄含有41維特征,共有39種類型的攻擊記錄,其中,訓(xùn)練數(shù)據(jù)集中每個(gè)網(wǎng)絡(luò)連接記錄都被標(biāo)記為正?;蚰撤N攻擊,其中有22種攻擊類型的記錄。另有17種未知攻擊類型出現(xiàn)在檢測(cè)集中。

請(qǐng)參閱圖2,構(gòu)建KDDCUP99數(shù)據(jù)集,并對(duì)所述數(shù)據(jù)集進(jìn)行處理,得到高維向量組,包括下述步驟:

步驟S111:將所述KDDCUP99數(shù)據(jù)集分為連續(xù)型數(shù)據(jù)及非數(shù)值型數(shù)據(jù);

可以理解,由于KDDCUP99源數(shù)據(jù)集中既包含連續(xù)型數(shù)據(jù)又包含非數(shù)值型數(shù)據(jù),所以對(duì)二者分別進(jìn)行歸一化處理。

步驟S112:對(duì)所述連續(xù)型數(shù)據(jù)對(duì)連續(xù)型變量進(jìn)行預(yù)處理,將其數(shù)據(jù)取值從[min,max]映射到[0,1]區(qū)間;

可以理解,由于連續(xù)型數(shù)據(jù),不同的度量單位會(huì)對(duì)聚類分析結(jié)果產(chǎn)生影響,為了使數(shù)據(jù)之間的量綱具有可比性,對(duì)連續(xù)型數(shù)據(jù)進(jìn)行預(yù)處理,將其數(shù)據(jù)取值從[min,max]映射到[0,1]區(qū)間。

步驟S113:對(duì)于所述非數(shù)值型數(shù)據(jù)離散化處理,利用編碼映射成數(shù)值;

步驟S114:用連續(xù)型變量的方法將所述數(shù)值從[min,max]映射到[0,1]區(qū)間。

可以理解,由于對(duì)于非數(shù)值型數(shù)據(jù)項(xiàng),不能直接處理,因此先將其離散化,利用編碼映射成數(shù)值,然后用類似連續(xù)型變量的方法將其數(shù)據(jù)取值從[min,max]映射到[0,1]區(qū)間。

可以理解,通過(guò)上述方法,KDDCUP99數(shù)據(jù)集經(jīng)過(guò)預(yù)處理變成高維向量組。

步驟S120:基于Re-ReliefF算法剔除所述高維向量組中無(wú)關(guān)特征,構(gòu)成候選特征集;

具體地,基于Re-ReliefF算法剔除所述高維向量組中無(wú)關(guān)SNP特征,構(gòu)成候選特征集,包括下述步驟:

步驟S121:將所述高維向量組的原始特征個(gè)數(shù)記為N,Re-ReliefF階段設(shè)定迭代次數(shù)m,最近鄰樣本個(gè)數(shù)k,初始化權(quán)重W[A]=0;

步驟S122:循環(huán)遍歷所述高維向量組中的樣本集,通過(guò)以下的權(quán)重公式計(jì)算并更新W[A],權(quán)重公式如下:

<mrow> <mi>w</mi> <mo>&lsqb;</mo> <mi>A</mi> <mo>&rsqb;</mo> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munder> <mi>&Sigma;</mi> <mrow> <mi>C</mi> <mo>&NotEqual;</mo> <mi>c</mi> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>c</mi> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>s</mi> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>d</mi> <mi>i</mi> <mi>f</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>M</mi> <mi>j</mi> </msub> <mo>(</mo> <mi>C</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>d</mi> <mi>i</mi> <mi>f</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>H</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中,m代表樣本抽樣次數(shù),Mj(C)代表不同類別C中的第j個(gè)最近鄰樣本,P(C)代表C類目標(biāo)樣本數(shù)占樣本總數(shù)的比例,class(Ri)表示Ri所屬的類別,函數(shù)diff(A,Ri,Rj)是用來(lái)計(jì)算樣本實(shí)例Ri和Rj關(guān)于某個(gè)特征A之間的距離大??;

步驟S123:將所有的特征按照W[A]從大到小排序,按照特征權(quán)值最低大于0.001,選出候選特征集。

可以理解,本申請(qǐng)采用改進(jìn)后的ReliefF特征選擇算法相對(duì)于原始ReliefF算法對(duì)于特征的區(qū)分度更高,對(duì)于分類性能差別不大的特征也具有很好的識(shí)別效果。降低了數(shù)據(jù)集的維度,提高的了算法的速度。

步驟S130:基于Re-ReliefF算法獲得一個(gè)與所述候選特征集具有最小相關(guān)性的特征。

具體地,基于Re-ReliefF算法獲得一個(gè)與所述候選特征集具有最小相關(guān)性的特征,包括下述步驟:

步驟S131:通過(guò)Re-ReliefF計(jì)算出所述選特征集中每個(gè)特征的權(quán)重,選擇其中最大的特征,構(gòu)成候選特征子集;

步驟S132:進(jìn)行遍歷,計(jì)算所述候選特征子集與類之間的皮爾遜相關(guān)系數(shù)c(fj,si);

步驟S133:根據(jù)以下的選擇準(zhǔn)則,選擇出特征子集,其中,c(fj,fi)是特征間的皮爾遜相關(guān)系數(shù),代表兩個(gè)特征間相關(guān)性大小的度量,其絕對(duì)值在[0,1]區(qū)間內(nèi),

<mrow> <munder> <mrow> <mi>M</mi> <mi>A</mi> <mi>X</mi> </mrow> <mrow> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>F</mi> <mo>-</mo> <msub> <mi>S</mi> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> </munder> <mo>&lsqb;</mo> <msub> <mi>F</mi> <mi>j</mi> </msub> <mo>&divide;</mo> <mfrac> <mn>1</mn> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>S</mi> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> </munder> <mo>|</mo> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>&rsqb;</mo> <mo>;</mo> </mrow>

步驟S134:使用SVM確定與所述候選特征集具有最小相關(guān)性的特征,形成特征子集。

可以理解,SVM根據(jù)它在該實(shí)驗(yàn)中所需參數(shù)范圍進(jìn)行循環(huán)測(cè)試,然后比較得到支持向量機(jī)這兩個(gè)參數(shù)的最佳值。模擬的參數(shù)C和λ的支持向量機(jī)從50000到0.01不等。支持向量機(jī)應(yīng)用于該最佳參數(shù)(C和λ),得到特征子集最大化分類的評(píng)估指標(biāo)。

可以理解,本申請(qǐng)采用改進(jìn)的Re-ReliefF算法結(jié)合SVM能更有效區(qū)分有效的特征,減少有效特征的數(shù)量。改進(jìn)的Re-ReliefF算法相對(duì)于Re-ReliefF算法在進(jìn)一步降低數(shù)據(jù)維度后,實(shí)現(xiàn)分類準(zhǔn)確率相對(duì)高點(diǎn)的情況下降低預(yù)測(cè)時(shí)間和表現(xiàn)較好的魯棒性。

請(qǐng)參閱圖3,本申請(qǐng)還提供了一種網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇系統(tǒng)200,包括:數(shù)據(jù)采集模塊210、第一數(shù)據(jù)處理模塊220及第二數(shù)據(jù)處理模塊230。

其中:

數(shù)據(jù)采集模塊210用于構(gòu)建KDDCUP99數(shù)據(jù)集,并對(duì)所述數(shù)據(jù)集進(jìn)行處理,得到高維向量組;

請(qǐng)參閱圖4,數(shù)據(jù)采集模塊210包括:數(shù)據(jù)分類單元211、數(shù)據(jù)處理單元212、數(shù)據(jù)離散單元213及數(shù)據(jù)映射單元214。其中,

數(shù)據(jù)分類單元211,將所述KDDCUP99數(shù)據(jù)集分為連續(xù)型數(shù)據(jù)及非數(shù)值型數(shù)據(jù);數(shù)據(jù)處理單元212,對(duì)所述連續(xù)型數(shù)據(jù)對(duì)連續(xù)型變量進(jìn)行預(yù)處理,將其數(shù)據(jù)取值從[min,max]映射到[0,1]區(qū)間;數(shù)據(jù)離散單元213,對(duì)于所述非數(shù)值型數(shù)據(jù)離散化處理,利用編碼映射成數(shù)值;及數(shù)據(jù)映射單元214,用連續(xù)型變量的方法將所述數(shù)值從[min,max]映射到[0,1]區(qū)間。

可以理解,通過(guò)數(shù)據(jù)采集模塊210KDDCUP99數(shù)據(jù)集經(jīng)過(guò)預(yù)處理變成高維向量組。

請(qǐng)參閱圖5,第一數(shù)據(jù)處理模塊220用于基于Re-ReliefF算法剔除所述高維向量組中無(wú)關(guān)特征,構(gòu)成候選特征集,包括:

初始化單元221,用于將所述高維向量組的原始特征個(gè)數(shù)記為N,Re-ReliefF階段設(shè)定迭代次數(shù)m,最近鄰樣本個(gè)數(shù)k,初始化權(quán)重W[A]=0;

第一計(jì)算單元222,循環(huán)遍歷所述高維向量組中的樣本集,通過(guò)以下的權(quán)重公式計(jì)算并更新W[A],權(quán)重公式如下:

<mrow> <mi>w</mi> <mo>&lsqb;</mo> <mi>A</mi> <mo>&rsqb;</mo> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munder> <mo>&Sigma;</mo> <mrow> <mi>C</mi> <mo>&NotEqual;</mo> <mi>c</mi> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>c</mi> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>s</mi> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>d</mi> <mi>i</mi> <mi>f</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>M</mi> <mi>j</mi> </msub> <mo>(</mo> <mi>C</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>d</mi> <mi>i</mi> <mi>f</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>H</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

其中,m代表樣本抽樣次數(shù),Mj(C)代表不同類別C中的第j個(gè)最近鄰樣本,P(C)代表C類目標(biāo)樣本數(shù)占樣本總數(shù)的比例,class(Ri)表示Ri所屬的類別,函數(shù)diff(A,Ri,Rj)是用來(lái)計(jì)算樣本實(shí)例Ri和Rj關(guān)于某個(gè)特征A之間的距離大??;

排序單元223,用于將所有的特征按照W[A]從大到小排序,按照特征權(quán)值最低大于0.001,選出候選特征集。

可以理解,本申請(qǐng)?zhí)峁┑牡谝粩?shù)據(jù)處理模塊220采用改進(jìn)后的ReliefF特征選擇算法相對(duì)于原始ReliefF算法對(duì)于特征的區(qū)分度更高,對(duì)于分類性能差別不大的特征也具有很好的識(shí)別效果。降低了數(shù)據(jù)集的維度,提高的了算法的速度。

請(qǐng)參閱圖6,第二數(shù)據(jù)處理模塊230,基于Re-ReliefF算法獲得一個(gè)與所述候選特征集具有最小相關(guān)性的特征,包括:

特征子集候選單元231,通過(guò)Re-ReliefF計(jì)算出所述選特征集中每個(gè)特征的權(quán)重,選擇其中最大的特征,構(gòu)成候選特征子集;

第二計(jì)算單元232,用于進(jìn)行遍歷,計(jì)算所述候選特征子集與類之間的皮爾遜相關(guān)系數(shù)c(fj,si);

特征選擇單元233,根據(jù)以下的選擇準(zhǔn)則,選擇出特征子集,其中,c(fj,fi)是特征間的皮爾遜相關(guān)系數(shù),代表兩個(gè)特征間相關(guān)性大小的度量,其絕對(duì)值在[0,1]區(qū)間內(nèi),

<mrow> <munder> <mrow> <mi>M</mi> <mi>A</mi> <mi>X</mi> </mrow> <mrow> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>F</mi> <mo>-</mo> <msub> <mi>S</mi> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> </munder> <mo>&lsqb;</mo> <msub> <mi>F</mi> <mi>j</mi> </msub> <mo>&divide;</mo> <mfrac> <mn>1</mn> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>S</mi> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> </munder> <mo>|</mo> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>&rsqb;</mo> <mo>;</mo> </mrow>

SVM單元234,使用SVM確定與所述候選特征集具有最小相關(guān)性的特征,形成特征子集。

可以理解,SVM根據(jù)它在該實(shí)驗(yàn)中所需參數(shù)范圍進(jìn)行循環(huán)測(cè)試,然后比較得到支持向量機(jī)這兩個(gè)參數(shù)的最佳值。模擬的參數(shù)C和λ的支持向量機(jī)從50000到0.01不等。支持向量機(jī)應(yīng)用于該最佳參數(shù)(C和λ),得到特征子集最大化分類的評(píng)估指標(biāo)。

可以理解,本申請(qǐng)采用的第二數(shù)據(jù)處理模塊230,基于改進(jìn)的Re-ReliefF算法結(jié)合SVM能更有效區(qū)分有效的特征,減少有效特征的數(shù)量。改進(jìn)的Re-ReliefF算法相對(duì)于Re-ReliefF算法在進(jìn)一步降低數(shù)據(jù)維度后,實(shí)現(xiàn)分類準(zhǔn)確率相對(duì)高點(diǎn)的情況下降低預(yù)測(cè)時(shí)間和表現(xiàn)較好的魯棒性。

本發(fā)明提出了一種網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法及系統(tǒng),對(duì)KDDCUP99數(shù)據(jù)集進(jìn)行數(shù)據(jù)規(guī)范化處理,對(duì)向量組進(jìn)行Re-Relieff數(shù)據(jù)降維,并剔除無(wú)關(guān)或相關(guān)性較小的數(shù)據(jù),構(gòu)成一個(gè)候選特征集,再利用改進(jìn)的Re-ReliefF算法獲得一個(gè)與候選特征集具有最小相關(guān)性的特征,本發(fā)明提供的網(wǎng)絡(luò)安全數(shù)據(jù)的特征選擇方法及系統(tǒng),對(duì)于數(shù)據(jù)里存在的冗余特征,借用了MRMR的思想,剔除了數(shù)據(jù)里的冗余數(shù)據(jù),提高了分類器的效率。

另外,本發(fā)明對(duì)KDDCUP99數(shù)據(jù)集進(jìn)行數(shù)據(jù)規(guī)范化處理,加快了算法的學(xué)習(xí)速度;同時(shí),采用改進(jìn)的ReliefF特征選擇算法相對(duì)于原始ReliefF算法對(duì)于特征的區(qū)分度更高,對(duì)于分類性能差別不大的特征也具有很好的識(shí)別效果,降低了數(shù)據(jù)集的維度,提高了算法的速度;此外,采用改進(jìn)的Re-ReliefF算法結(jié)合SVM能更有效區(qū)分有效的特征,減少有效特征的數(shù)量且能夠進(jìn)一步降低數(shù)據(jù)維度后,實(shí)現(xiàn)分類準(zhǔn)確率相對(duì)高點(diǎn)的情況下降低預(yù)測(cè)時(shí)間和表現(xiàn)較好的魯棒性。

雖然本發(fā)明參照當(dāng)前的較佳實(shí)施方式進(jìn)行了描述,但本領(lǐng)域的技術(shù)人員應(yīng)能理解,上述較佳實(shí)施方式僅用來(lái)說(shuō)明本發(fā)明,并非用來(lái)限定本發(fā)明的保護(hù)范圍,任何在本發(fā)明的精神和原則范圍之內(nèi),所做的任何修飾、等效替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1