亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于增量學(xué)習(xí)的分類方法及裝置與流程

文檔序號(hào):12468701閱讀:628來(lái)源:國(guó)知局
一種基于增量學(xué)習(xí)的分類方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種基于增量學(xué)習(xí)的分類方法及裝置。



背景技術(shù):

云計(jì)算、物聯(lián)網(wǎng)等新興技術(shù)的快速發(fā)展促使數(shù)據(jù)的規(guī)模正以前所未有的速度增長(zhǎng),大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。如何在海量的復(fù)雜數(shù)據(jù)中及時(shí)有效地獲取有價(jià)值的信息,依賴于一種能夠主動(dòng)學(xué)習(xí),并且根據(jù)需求自行分析數(shù)據(jù)中的有價(jià)值信息,主動(dòng)進(jìn)行數(shù)據(jù)計(jì)算處理的模型——認(rèn)知計(jì)算模型。應(yīng)理解的,認(rèn)知計(jì)算模型能夠快速、準(zhǔn)確的發(fā)現(xiàn)有價(jià)值的信息,提取有效信息并將這些有價(jià)值的信息組織起來(lái),給出一個(gè)有效的解決方案。

作為一種應(yīng)用較為普遍的認(rèn)知計(jì)算模型,支持向量機(jī)(Support Vector Machine,SVM)分類算法采用的是批量處理算法,由于批量處理算法需要將整個(gè)數(shù)據(jù)集加載到內(nèi)存之中,而內(nèi)存的存儲(chǔ)量有限,使得該算法不適合于大數(shù)據(jù)的運(yùn)算,無(wú)法應(yīng)用于實(shí)時(shí)性較高的場(chǎng)合。同時(shí),還會(huì)使得在構(gòu)建分類器時(shí)需要耗費(fèi)大量的時(shí)間,導(dǎo)致后面到達(dá)的數(shù)據(jù)可能會(huì)由于處理不及時(shí)導(dǎo)致丟失,造成嚴(yán)重的后果。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例提供了一種基于增量學(xué)習(xí)的分類方法及裝置,可以實(shí)現(xiàn)在增量學(xué)習(xí)中,主動(dòng)刪除無(wú)用的數(shù)據(jù)以及保留有用的數(shù)據(jù),從而提高認(rèn)知計(jì)算模型的適應(yīng)性和準(zhǔn)確率。

本發(fā)明實(shí)施例第一方面提供了一種基于增量學(xué)習(xí)的分類方法,包括:

構(gòu)建分類器并確定分類特征向量;

根據(jù)所述分類器和所述分類特征向量,對(duì)新增的數(shù)據(jù)樣本進(jìn)行訓(xùn)練;

根據(jù)訓(xùn)練所得到的相關(guān)參數(shù),對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留。

在第一方面的第一種可能實(shí)現(xiàn)方式中,所述構(gòu)建分類器并確定分類特征向 量,包括:

確定待構(gòu)建的分類器的數(shù)量;

構(gòu)建各個(gè)所述分類器;

確定各個(gè)所述分類器的分類特征向量。

在第一方面的第二種可能實(shí)現(xiàn)方式中,所述根據(jù)所述分類器和所述分類特征向量,對(duì)新增的數(shù)據(jù)樣本進(jìn)行訓(xùn)練,包括:

①通過(guò)隨機(jī)梯度下降SGD算法,隨機(jī)抽取新增的數(shù)據(jù)樣本子集B1進(jìn)行訓(xùn)練;

②通過(guò)初始分類器Γ1判斷所述樣本子集B1分類的正確性,并根據(jù)判斷結(jié)果將所述樣本子集B1劃分為測(cè)試錯(cuò)誤集Berr和測(cè)試正確集Bok

③判斷所述測(cè)試錯(cuò)誤集Berr是否為空集,

若是,則通過(guò)所述SGD算法抽取新一批數(shù)據(jù)樣本進(jìn)行訓(xùn)練,

若否,則將原始的數(shù)據(jù)樣本中支持向量SV的集合與所述樣本子集B1進(jìn)行合并以得到新的集合和新的分類器Γ2,以及將所述集合中除所述集合的數(shù)據(jù)樣本外的剩余數(shù)據(jù)樣本與所述測(cè)試正確集Bok進(jìn)行合并以得到所述分類器Γ2的增量數(shù)據(jù)樣本集B1′;

重復(fù)執(zhí)行上述①、②和③三個(gè)步驟。

結(jié)合第一方面的第二種可能實(shí)現(xiàn)方式,在第三種可能實(shí)現(xiàn)方式中,所述根據(jù)訓(xùn)練所得到的相關(guān)參數(shù),對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留,包括:

根據(jù)公式(1)、公式(2)和公式(3),求得遺忘因子αi,其中,αi表示數(shù)據(jù)樣本經(jīng)T次訓(xùn)練后第i個(gè)數(shù)據(jù)樣本支持向量SV的比率,Ti表示總訓(xùn)練次數(shù),ri表示第i個(gè)數(shù)據(jù)樣本經(jīng)訓(xùn)練后支持向量SV的次數(shù),所述測(cè)試錯(cuò)誤集Berr內(nèi)每個(gè)數(shù)據(jù)樣本的ri=0,所述測(cè)試正確集Bok內(nèi)每個(gè)數(shù)據(jù)樣本的ri=1;

根據(jù)基于所述遺忘因子αi的預(yù)測(cè)增量學(xué)習(xí)機(jī)制,對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留。

結(jié)合第一方面的第三種可能實(shí)現(xiàn)方式,在第四種可能實(shí)現(xiàn)方式中,所述根據(jù)基于所述遺忘因子αi的預(yù)測(cè)增量學(xué)習(xí)機(jī)制,對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留, 包括:

設(shè)置β、γ和δ三個(gè)閾值;

比較所述遺忘因子αi與β、γ和δ的大小關(guān)系;

根據(jù)比較的結(jié)果,對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留。

結(jié)合第一方面的第四種可能實(shí)現(xiàn)方式,在第五種可能實(shí)現(xiàn)方式中,所述設(shè)置β、γ和δ三個(gè)閾值之后,還包括:

每經(jīng)10次訓(xùn)練后,根據(jù)公式(4)求得各個(gè)數(shù)據(jù)樣本與所設(shè)閾值的誤差權(quán)值,其中,ei表示誤差權(quán)值,P表示所設(shè)閾值;

ei=P-αi(1≤i≤10) (4)

選擇所述誤差權(quán)值最大的遺忘因子αi作為新的閾值;

根據(jù)所述遺忘因子αi,適應(yīng)調(diào)整β、γ和δ的取值。

結(jié)合第一方面的第四種可能實(shí)現(xiàn)方式,在第六種可能實(shí)現(xiàn)方式中,所述根據(jù)比較的結(jié)果,對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留,包括:

當(dāng)所述遺忘因子αi=0時(shí),保留所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本;

當(dāng)所述遺忘因子0<αi<β時(shí),刪除所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本;

當(dāng)所述遺忘因子β≤αi<δ時(shí),選擇大于γ的數(shù)據(jù)樣本作為下一次的數(shù)據(jù)樣本集進(jìn)行測(cè)試;

當(dāng)所述遺忘因子δ<αi<1時(shí),將所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本作為下一次的數(shù)據(jù)樣本集進(jìn)行測(cè)試。

本發(fā)明實(shí)施例第二方面提供了一種基于增量學(xué)習(xí)的分類裝置,包括:

初始化模塊,用于構(gòu)建分類器并確定分類特征向量;

數(shù)據(jù)訓(xùn)練模塊,用于根據(jù)所述分類器和所述分類特征向量,對(duì)新增的數(shù)據(jù)樣本進(jìn)行訓(xùn)練;

數(shù)據(jù)處理模塊,用于根據(jù)訓(xùn)練所得到的相關(guān)參數(shù),對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留。

在第二方面的第一種可能實(shí)現(xiàn)方式中,所述初始化模塊,具體用于:

確定待構(gòu)建的分類器的數(shù)量;

構(gòu)建各個(gè)所述分類器;

確定各個(gè)所述分類器的分類特征向量。

在第二方面的第二種可能實(shí)現(xiàn)方式中,所述數(shù)據(jù)訓(xùn)練模塊,具體用于:

①通過(guò)隨機(jī)梯度下降SGD算法,隨機(jī)抽取新增的數(shù)據(jù)樣本子集B1進(jìn)行訓(xùn)練;

②通過(guò)初始分類器Γ1判斷所述樣本子集B1分類的正確性,并根據(jù)判斷結(jié)果將所述樣本子集B1劃分為測(cè)試錯(cuò)誤集Berr和測(cè)試正確集Bok;

③判斷所述測(cè)試錯(cuò)誤集Berr是否為空集,

若是,則通過(guò)所述SGD算法抽取新一批數(shù)據(jù)樣本進(jìn)行訓(xùn)練,

若否,則將原始的數(shù)據(jù)樣本中支持向量SV的集合與所述樣本子集B1進(jìn)行合并以得到新的集合和新的分類器Γ2,以及將所述集合中除所述集合的數(shù)據(jù)樣本外的剩余數(shù)據(jù)樣本與所述測(cè)試正確集Bok進(jìn)行合并以得到所述分類器Γ2的增量數(shù)據(jù)樣本集B1′;

重復(fù)執(zhí)行上述①、②和③三個(gè)步驟。

結(jié)合第二方面的第二種可能實(shí)現(xiàn)方式,在第三種可能實(shí)現(xiàn)方式中,所述數(shù)據(jù)處理模塊包括:

參數(shù)計(jì)算單元,用于根據(jù)公式(1)、公式(2)和公式(3),求得遺忘因子αi,其中,αi表示數(shù)據(jù)樣本經(jīng)T次訓(xùn)練后第i個(gè)數(shù)據(jù)樣本支持向量SV的比率,Ti表示總訓(xùn)練次數(shù),ri表示第i個(gè)數(shù)據(jù)樣本經(jīng)訓(xùn)練后支持向量SV的次數(shù),所述測(cè)試錯(cuò)誤集Berr內(nèi)每個(gè)數(shù)據(jù)樣本的ri=0,所述測(cè)試正確集Bok內(nèi)每個(gè)數(shù)據(jù)樣本的ri=1;

數(shù)據(jù)處理單元,用于根據(jù)基于所述遺忘因子αi的預(yù)測(cè)增量學(xué)習(xí)機(jī)制,對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留。

結(jié)合第二方面的第三種可能實(shí)現(xiàn)方式,在第四種可能實(shí)現(xiàn)方式中,所述數(shù)據(jù)處理單元,具體用于:

設(shè)置β、γ和δ三個(gè)閾值;

比較所述遺忘因子αi與β、γ和δ的大小關(guān)系;

根據(jù)比較的結(jié)果,對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留。

結(jié)合第二方面的第四種可能實(shí)現(xiàn)方式,在第五種可能實(shí)現(xiàn)方式中,所述數(shù)據(jù)處理模塊還包括閾值調(diào)整單元,用于:

每經(jīng)10次訓(xùn)練后,根據(jù)公式(4)求得各個(gè)數(shù)據(jù)樣本與所設(shè)閾值的誤差權(quán)值,其中,ei表示誤差權(quán)值,P表示所設(shè)閾值;

ei=P-αi(1≤i≤10) (4)

選擇所述誤差權(quán)值最大的遺忘因子αi作為新的閾值;

根據(jù)所述遺忘因子αi,適應(yīng)調(diào)整β、γ和δ的取值。

結(jié)合第二方面的第四種可能實(shí)現(xiàn)方式,在第六種可能實(shí)現(xiàn)方式中,所述數(shù)據(jù)處理單元,還具體用于:

當(dāng)所述遺忘因子αi=0時(shí),保留所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本;

當(dāng)所述遺忘因子0<αi<β時(shí),刪除所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本;

當(dāng)所述遺忘因子β≤αi<δ時(shí),選擇大于γ的數(shù)據(jù)樣本作為下一次的數(shù)據(jù)樣本集進(jìn)行測(cè)試;

當(dāng)所述遺忘因子δ<αi<1時(shí),將所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本作為下一次的數(shù)據(jù)樣本集進(jìn)行測(cè)試。

由上可見(jiàn),本發(fā)明實(shí)施例先構(gòu)建分類器并確定分類特征向量,再根據(jù)分類器和分類特征向量對(duì)新增的數(shù)據(jù)樣本進(jìn)行訓(xùn)練,進(jìn)而根據(jù)訓(xùn)練所得到的相關(guān)參數(shù)對(duì)數(shù)據(jù)樣本進(jìn)行刪除和保留,可以實(shí)現(xiàn)在增量學(xué)習(xí)中,主動(dòng)刪除無(wú)用的數(shù)據(jù)以及保留有用的數(shù)據(jù),從而提高認(rèn)知計(jì)算模型的適應(yīng)性和準(zhǔn)確率。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明實(shí)施例提供的一種基于增量學(xué)習(xí)的分類方法的流程示意圖;

圖2是本發(fā)明實(shí)施例提供的另一種基于增量學(xué)習(xí)的分類方法的流程示意圖;

圖3是本發(fā)明實(shí)施例提供的一種基于增量學(xué)習(xí)的分類裝置的結(jié)構(gòu)示意圖;

圖4是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理模塊的結(jié)構(gòu)示意圖;

圖5是本發(fā)明實(shí)施例提供的另一種基于增量學(xué)習(xí)的分類裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明實(shí)施例提供的基于增量學(xué)習(xí)的分類方法,應(yīng)用于大數(shù)據(jù)的學(xué)習(xí)訓(xùn)練算法,除了可以應(yīng)用于批量數(shù)據(jù)處理領(lǐng)域,例如生物識(shí)別、信號(hào)識(shí)別和檢測(cè)、圖像識(shí)別等多個(gè)領(lǐng)域,還可以應(yīng)用于海量實(shí)時(shí)數(shù)據(jù)流的分類、回歸、聚類,例如實(shí)時(shí)證券交易和電子商務(wù)中的經(jīng)濟(jì)數(shù)據(jù)分類分析、物聯(lián)網(wǎng)系統(tǒng)中移動(dòng)醫(yī)療的實(shí)時(shí)醫(yī)療診斷,智慧交通的實(shí)時(shí)交通流量預(yù)測(cè)等實(shí)時(shí)數(shù)據(jù)流的分析。

圖1是本發(fā)明實(shí)施例中一種基于增量學(xué)習(xí)的分類方法的流程示意圖。如圖所示本實(shí)施例中的基于增量學(xué)習(xí)的分類方法的流程可以包括:

S101,構(gòu)建分類器并確定分類特征向量。

具體的,根據(jù)需要處理的數(shù)據(jù)樣本量,確定待構(gòu)建的分類器的數(shù)量,進(jìn)而構(gòu)建相應(yīng)數(shù)量的分類器,并確定各個(gè)分類器的分類特征向量。其中,訓(xùn)練步驟如下:

①用分類器將所有數(shù)據(jù)樣本集的特征分類;

②根據(jù)預(yù)先選定的核函數(shù)分別計(jì)算各個(gè)分類器中每個(gè)特征向量的有關(guān)值;

③根據(jù)得到的有關(guān)值計(jì)算協(xié)方差矩陣空間進(jìn)行Householder變換;

④計(jì)算分類特征系數(shù);

⑤獲得分類器的模型參數(shù)。

S102,根據(jù)所述分類器和所述分類特征向量,對(duì)新增的數(shù)據(jù)樣本進(jìn)行訓(xùn)練。

具體的,根據(jù)分類器和分類特征向量,對(duì)新增的數(shù)據(jù)樣本進(jìn)行訓(xùn)練的步驟包括:

①通過(guò)隨機(jī)梯度下降SGD算法,隨機(jī)抽取新增的數(shù)據(jù)樣本子集B1進(jìn)行訓(xùn)練;

②通過(guò)初始分類器Γ1判斷所述樣本子集B1分類的正確性,并根據(jù)判斷結(jié)果將所述樣本子集B1劃分為測(cè)試錯(cuò)誤集Berr和測(cè)試正確集Bok

③判斷所述測(cè)試錯(cuò)誤集Berr是否為空集,

若是,則通過(guò)所述SGD算法抽取新一批數(shù)據(jù)樣本進(jìn)行訓(xùn)練,

若否,則將原始的數(shù)據(jù)樣本中支持向量SV的集合與所述樣本子集B1進(jìn)行合并以得到新的集合和新的分類器Γ2,以及將所述集合中除所述集合的數(shù)據(jù)樣本外的剩余數(shù)據(jù)樣本與所述測(cè)試正確集Bok進(jìn)行合并以得到所述分類器Γ2的增量數(shù)據(jù)樣本集B1′;

重復(fù)執(zhí)行上述①、②和③三個(gè)步驟。

S103,根據(jù)訓(xùn)練所得到的相關(guān)參數(shù),對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留。

具體的,首先,根據(jù)公式(1)、公式(2)和公式(3),求得遺忘因子αi,其中,αi表示數(shù)據(jù)樣本經(jīng)T次訓(xùn)練后第i個(gè)數(shù)據(jù)樣本支持向量SV的比率,Ti表示總訓(xùn)練次數(shù),ri表示第i個(gè)數(shù)據(jù)樣本經(jīng)訓(xùn)練后支持向量SV的次數(shù),所述測(cè)試錯(cuò)誤集Berr內(nèi)每個(gè)數(shù)據(jù)樣本的ri=0,即該數(shù)據(jù)樣本為正常數(shù)據(jù),所述測(cè)試正確集Bok內(nèi)每個(gè)數(shù)據(jù)樣本的ri=1,即該數(shù)據(jù)樣本為異常數(shù)據(jù)。需要指出的是,由改進(jìn)的KKT(Karush Kuhn Tucker)定理可知,公式(1)和公式(2)是滿足最優(yōu)超平面的條件。

接著,根據(jù)基于所述遺忘因子αi的預(yù)測(cè)增量學(xué)習(xí)機(jī)制,對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留。具體實(shí)現(xiàn)過(guò)程中,先設(shè)置β、γ和δ三個(gè)閾值,例如β=0.3,γ=0.4,δ=0.7,再比較遺忘因子αi與β、γ和δ的大小關(guān)系,進(jìn)而根據(jù)比較的結(jié)果,按預(yù)設(shè)規(guī)則對(duì)數(shù)據(jù)樣本進(jìn)行刪除和保留。其中,預(yù)設(shè)規(guī)則如下:

當(dāng)所述遺忘因子αi=0時(shí),保留所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本,原因在于,新增的數(shù)據(jù)樣本是錯(cuò)誤樣本,這些樣本不影響原有分類器,但可能會(huì)是新的分類,所以保留作為下次訓(xùn)練的測(cè)試樣本的一個(gè)子集;

當(dāng)所述遺忘因子0<αi<β時(shí),刪除所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本,原因在于,經(jīng)過(guò)多次訓(xùn)練后數(shù)據(jù)樣本SV的比率很低,將該數(shù)據(jù)樣本不是一種新的分類,所以將其刪除,減少原始數(shù)據(jù)的存儲(chǔ)的同時(shí)提高了入侵檢測(cè)的訓(xùn)練速度;

當(dāng)所述遺忘因子β≤αi<δ時(shí),選擇大于γ的數(shù)據(jù)樣本作為下一次的數(shù)據(jù)樣本集進(jìn)行測(cè)試,可加速SV搜索的收斂速度;

當(dāng)所述遺忘因子δ<αi<1時(shí),將所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本作為下一次的 數(shù)據(jù)樣本集進(jìn)行測(cè)試。

進(jìn)一步可選的,每經(jīng)10次訓(xùn)練后,根據(jù)公式(4)求得各個(gè)數(shù)據(jù)樣本與所設(shè)閾值的誤差權(quán)值,選擇誤差權(quán)值最大的遺忘因子αi作為新的閾值,并根據(jù)遺忘因子αi,適應(yīng)調(diào)整β、γ和δ的取值。其中,ei表示誤差權(quán)值,P表示所設(shè)閾值

ei=P-αi(1≤i≤10) (4)

由上可見(jiàn),本發(fā)明實(shí)施例先構(gòu)建分類器并確定分類特征向量,再根據(jù)分類器和分類特征向量對(duì)新增的數(shù)據(jù)樣本進(jìn)行訓(xùn)練,進(jìn)而根據(jù)訓(xùn)練所得到的相關(guān)參數(shù)對(duì)數(shù)據(jù)樣本進(jìn)行刪除和保留,可以實(shí)現(xiàn)在增量學(xué)習(xí)中,主動(dòng)刪除無(wú)用的數(shù)據(jù)以及保留有用的數(shù)據(jù),從而提高認(rèn)知計(jì)算模型的適應(yīng)性和準(zhǔn)確率。

圖2是本發(fā)明實(shí)施例中一種基于增量學(xué)習(xí)的分類方法的流程示意圖,該方法應(yīng)用于網(wǎng)絡(luò)信息的入侵檢測(cè)場(chǎng)景,可以針對(duì)海量的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行入侵檢測(cè)。如圖所示本實(shí)施例中的基于增量學(xué)習(xí)的分類方法的流程可以包括:

S201,構(gòu)建攻擊分類器并確定分類特征向量。

具體的,根據(jù)需要處理的網(wǎng)絡(luò)流量數(shù)據(jù)樣本量,確定待構(gòu)建的攻擊分類器的數(shù)量,進(jìn)而構(gòu)建相應(yīng)數(shù)量的攻擊分類器,并確定各個(gè)攻擊分類器的分類特征向量。其中,訓(xùn)練步驟如下:

①用攻擊分類器將所有網(wǎng)絡(luò)流量數(shù)據(jù)樣本集的特征分類;

②根據(jù)預(yù)先選定的核函數(shù)分別計(jì)算各個(gè)攻擊分類器中每個(gè)特征向量的有關(guān)值;

③根據(jù)得到的有關(guān)值計(jì)算協(xié)方差矩陣空間進(jìn)行Householder變換;

④計(jì)算分類特征系數(shù);

⑤獲得攻擊分類器的模型參數(shù)。

S202,設(shè)置β、γ和δ三個(gè)閾值。

例如β=0.3,γ=0.4,δ=0.7。

S203,根據(jù)所述攻擊分類器和所述分類特征向量,對(duì)新增的網(wǎng)絡(luò)流量數(shù)據(jù)樣本進(jìn)行訓(xùn)練,同時(shí)求取遺忘因子。

具體的,根據(jù)攻擊分類器和分類特征向量,對(duì)新增的網(wǎng)絡(luò)流量數(shù)據(jù)樣本進(jìn)行訓(xùn)練的步驟包括:

①通過(guò)隨機(jī)梯度下降SGD算法,隨機(jī)抽取新增的網(wǎng)絡(luò)流量數(shù)據(jù)樣本子集B1 進(jìn)行訓(xùn)練;

②通過(guò)初始攻擊分類器Γ1判斷所述樣本子集B1分類的正確性,并根據(jù)判斷結(jié)果將所述樣本子集B1劃分為測(cè)試錯(cuò)誤集Berr和測(cè)試正確集Bok

③判斷所述測(cè)試錯(cuò)誤集Berr是否為空集,

若是,則通過(guò)所述SGD算法抽取新一批網(wǎng)絡(luò)流量數(shù)據(jù)樣本進(jìn)行訓(xùn)練,

若否,則將原始的網(wǎng)絡(luò)流量數(shù)據(jù)樣本中支持向量SV的集合與所述樣本子集B1進(jìn)行合并以得到新的集合和新的攻擊分類器Γ2,以及將所述集合中除所述集合的網(wǎng)絡(luò)流量數(shù)據(jù)樣本外的剩余網(wǎng)絡(luò)流量數(shù)據(jù)樣本與所述測(cè)試正確集Bok進(jìn)行合并以得到所述攻擊分類器Γ2的增量數(shù)據(jù)樣本集B1′;

重復(fù)執(zhí)行上述①、②和③三個(gè)步驟。

進(jìn)一步的,根據(jù)公式(1)、公式(2)和公式(3),求得遺忘因子αi,其中,αi表示網(wǎng)絡(luò)流量數(shù)據(jù)樣本經(jīng)T次訓(xùn)練后第i個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)樣本支持向量SV的比率,Ti表示總訓(xùn)練次數(shù),ri表示第i個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)樣本經(jīng)訓(xùn)練后支持向量SV的次數(shù),所述測(cè)試錯(cuò)誤集Berr內(nèi)每個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)樣本的ri=0,即該網(wǎng)絡(luò)流量數(shù)據(jù)樣本為正常網(wǎng)絡(luò)流量數(shù)據(jù),所述測(cè)試正確集Bok內(nèi)每個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)樣本的ri=1,即該網(wǎng)絡(luò)流量數(shù)據(jù)樣本為攻擊型網(wǎng)絡(luò)流量數(shù)據(jù)。需要指出的是,由改進(jìn)的KKT(Karush Kuhn Tucker)定理可知,公式(1)和公式(2)是滿足最優(yōu)超平面的條件。

S204,求取各個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)樣本與所設(shè)閾值的誤差權(quán)值。

具體的,根據(jù)公式(4)求得各個(gè)網(wǎng)絡(luò)流量數(shù)據(jù)樣本與所設(shè)閾值的誤差權(quán)值,其中,ei表示誤差權(quán)值,P表示所設(shè)閾值。

ei=P-αi(1≤i≤10) (4)

S205,選擇所述誤差權(quán)值最大的遺忘因子作為新的閾值。

S206,根據(jù)所述遺忘因子,適應(yīng)調(diào)整β、γ和δ的取值。

S207,比較所述遺忘因子與β、γ和δ的大小關(guān)系。

S208,根據(jù)比較的結(jié)果,對(duì)所述網(wǎng)絡(luò)流量數(shù)據(jù)樣本進(jìn)行刪除和保留。

具體的,根據(jù)比較的結(jié)果,按預(yù)設(shè)規(guī)則對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)樣本進(jìn)行刪除和保留。其中,預(yù)設(shè)規(guī)則如下:

當(dāng)所述遺忘因子αi=0時(shí),保留所述遺忘因子αi對(duì)應(yīng)網(wǎng)絡(luò)流量數(shù)據(jù)樣本,原因在于,新增的網(wǎng)絡(luò)流量數(shù)據(jù)樣本是錯(cuò)誤樣本,這些樣本不影響原有攻擊分類器,但可能會(huì)是新的分類,即可能是一種新的攻擊分類,所以保留作為下次訓(xùn)練的測(cè)試樣本的一個(gè)子集;

當(dāng)所述遺忘因子0<αi<β時(shí),刪除所述遺忘因子αi對(duì)應(yīng)網(wǎng)絡(luò)流量數(shù)據(jù)樣本,原因在于,經(jīng)過(guò)多次訓(xùn)練后網(wǎng)絡(luò)流量數(shù)據(jù)樣本SV的比率很低,將該網(wǎng)絡(luò)流量數(shù)據(jù)樣本不是一種新的攻擊分類,所以將其刪除,減少原始網(wǎng)絡(luò)流量數(shù)據(jù)的存儲(chǔ)的同時(shí)提高了入侵檢測(cè)的訓(xùn)練速度;

當(dāng)所述遺忘因子β≤αi<δ時(shí),選擇大于γ的網(wǎng)絡(luò)流量數(shù)據(jù)樣本作為下一次的網(wǎng)絡(luò)流量數(shù)據(jù)樣本集進(jìn)行測(cè)試,可加速SV搜索的收斂速度;

當(dāng)所述遺忘因子δ<αi<1時(shí),將所述遺忘因子αi對(duì)應(yīng)網(wǎng)絡(luò)流量數(shù)據(jù)樣本作為下一次的網(wǎng)絡(luò)流量數(shù)據(jù)樣本集進(jìn)行測(cè)試,原因在于,該網(wǎng)絡(luò)流量數(shù)據(jù)樣本為攻擊數(shù)據(jù)樣本。

由上可見(jiàn),本發(fā)明實(shí)施例先構(gòu)建攻擊分類器并確定分類特征向量,再根據(jù)攻擊分類器和分類特征向量對(duì)新增的網(wǎng)絡(luò)流量數(shù)據(jù)樣本進(jìn)行訓(xùn)練,進(jìn)而根據(jù)訓(xùn)練所得到的相關(guān)參數(shù)對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)樣本進(jìn)行刪除和保留,可以實(shí)現(xiàn)在增量學(xué)習(xí)中,主動(dòng)刪除無(wú)用的網(wǎng)絡(luò)流量數(shù)據(jù)以及保留有用的網(wǎng)絡(luò)流量數(shù)據(jù),從而提高認(rèn)知計(jì)算模型的適應(yīng)性和準(zhǔn)確率。

圖3是本發(fā)明實(shí)施例中一種基于增量學(xué)習(xí)的分類裝置的結(jié)構(gòu)示意圖。如圖所示本發(fā)明實(shí)施例中的基于增量學(xué)習(xí)的分類裝置至少可以包括初始化模塊310、數(shù)據(jù)訓(xùn)練模塊320以及數(shù)據(jù)處理模塊330,其中:

初始化模塊310,用于構(gòu)建分類器并確定分類特征向量。

具體的,根據(jù)需要處理的數(shù)據(jù)樣本量,確定待構(gòu)建的分類器的數(shù)量,進(jìn)而構(gòu)建相應(yīng)數(shù)量的分類器,并確定各個(gè)分類器的分類特征向量。其中,訓(xùn)練步驟如下:

①用分類器將所有數(shù)據(jù)樣本集的特征分類;

②根據(jù)預(yù)先選定的核函數(shù)分別計(jì)算各個(gè)分類器中每個(gè)特征向量的有關(guān)值;

③根據(jù)得到的有關(guān)值計(jì)算協(xié)方差矩陣空間進(jìn)行Householder變換;

④計(jì)算分類特征系數(shù);

⑤獲得分類器的模型參數(shù)。

數(shù)據(jù)訓(xùn)練模塊320,用于根據(jù)所述分類器和所述分類特征向量,對(duì)新增的數(shù)據(jù)樣本進(jìn)行訓(xùn)練。

具體的,根據(jù)分類器和分類特征向量,對(duì)新增的數(shù)據(jù)樣本進(jìn)行訓(xùn)練的步驟包括:

①通過(guò)隨機(jī)梯度下降SGD算法,隨機(jī)抽取新增的數(shù)據(jù)樣本子集B1進(jìn)行訓(xùn)練;

②通過(guò)初始分類器Γ1判斷所述樣本子集B1分類的正確性,并根據(jù)判斷結(jié)果將所述樣本子集B1劃分為測(cè)試錯(cuò)誤集Berr和測(cè)試正確集Bok;

③判斷所述測(cè)試錯(cuò)誤集Berr是否為空集,

若是,則通過(guò)所述SGD算法抽取新一批數(shù)據(jù)樣本進(jìn)行訓(xùn)練,

若否,則將原始的數(shù)據(jù)樣本中支持向量SV的集合與所述樣本子集B1進(jìn)行合并以得到新的集合和新的分類器Γ2,以及將所述集合中除所述集合的數(shù)據(jù)樣本外的剩余數(shù)據(jù)樣本與所述測(cè)試正確集Bok進(jìn)行合并以得到所述分類器Γ2的增量數(shù)據(jù)樣本集B1′;

重復(fù)執(zhí)行上述①、②和③三個(gè)步驟。

數(shù)據(jù)處理模塊330,用于根據(jù)訓(xùn)練所得到的相關(guān)參數(shù),對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留。具體實(shí)現(xiàn)中,數(shù)據(jù)處理模塊330可以如圖4所示進(jìn)一步包括參數(shù)計(jì)算單元331和數(shù)據(jù)處理單元332,其中:

參數(shù)計(jì)算單元331,用于根據(jù)公式(1)、公式(2)和公式(3),求得遺忘因子αi,其中,αi表示數(shù)據(jù)樣本經(jīng)T次訓(xùn)練后第i個(gè)數(shù)據(jù)樣本支持向量SV的比率,Ti表示總訓(xùn)練次數(shù),ri表示第i個(gè)數(shù)據(jù)樣本經(jīng)訓(xùn)練后支持向量SV的次數(shù),所述測(cè)試錯(cuò)誤集Berr內(nèi)每個(gè)數(shù)據(jù)樣本的ri=0,所述測(cè)試正確集Bok內(nèi)每個(gè)數(shù)據(jù)樣本的ri=1。

數(shù)據(jù)處理單元332,用于根據(jù)基于所述遺忘因子αi的預(yù)測(cè)增量學(xué)習(xí)機(jī)制,對(duì) 所述數(shù)據(jù)樣本進(jìn)行刪除和保留。具體實(shí)現(xiàn)過(guò)程中,先設(shè)置β、γ和δ三個(gè)閾值,例如β=0.3,γ=0.4,δ=0.7,再比較遺忘因子αi與β、γ和δ的大小關(guān)系,進(jìn)而根據(jù)比較的結(jié)果,按預(yù)設(shè)規(guī)則對(duì)數(shù)據(jù)樣本進(jìn)行刪除和保留。其中,預(yù)設(shè)規(guī)則如下:

當(dāng)所述遺忘因子αi=0時(shí),保留所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本,原因在于,新增的數(shù)據(jù)樣本是錯(cuò)誤樣本,這些樣本不影響原有分類器,但可能會(huì)是新的分類,所以保留作為下次訓(xùn)練的測(cè)試樣本的一個(gè)子集;

當(dāng)所述遺忘因子0<αi<β時(shí),刪除所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本,原因在于,經(jīng)過(guò)多次訓(xùn)練后數(shù)據(jù)樣本SV的比率很低,將該數(shù)據(jù)樣本不是一種新的分類,所以將其刪除,減少原始數(shù)據(jù)的存儲(chǔ)的同時(shí)提高了入侵檢測(cè)的訓(xùn)練速度;

當(dāng)所述遺忘因子β≤αi<δ時(shí),選擇大于γ的數(shù)據(jù)樣本作為下一次的數(shù)據(jù)樣本集進(jìn)行測(cè)試,可加速SV搜索的收斂速度;

當(dāng)所述遺忘因子δ<αi<1時(shí),將所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本作為下一次的數(shù)據(jù)樣本集進(jìn)行測(cè)試。

請(qǐng)參閱圖4,如圖所示數(shù)據(jù)處理模塊330還可以包括閾值調(diào)整單元333,用于:

每經(jīng)10次訓(xùn)練后,根據(jù)公式(4)求得各個(gè)數(shù)據(jù)樣本與所設(shè)閾值的誤差權(quán)值;

ei=P-αi(1≤i≤10) (4)

選擇所述誤差權(quán)值最大的遺忘因子αi作為新的閾值;

根據(jù)所述遺忘因子αi,適應(yīng)調(diào)整β、γ和δ的取值。

圖5是本發(fā)明實(shí)施例中的另一種基于增量學(xué)習(xí)的分類裝置的結(jié)構(gòu)示意圖,如圖5所示,該基于增量學(xué)習(xí)的分類裝置可以包括:至少一個(gè)處理器501,例如CPU,至少一個(gè)通信總線502,至少一個(gè)網(wǎng)絡(luò)接口503,存儲(chǔ)器504。其中,通信總線502用于實(shí)現(xiàn)這些組件之間的連接通信;存儲(chǔ)器504可以是高速RAM存儲(chǔ)器,也可以是非易失的存儲(chǔ)器(non-volatile memory),例如至少一個(gè)磁盤存儲(chǔ)器??蛇x的,存儲(chǔ)器504還可以是至少一個(gè)位于遠(yuǎn)離前述處理器501的存儲(chǔ)裝置。存儲(chǔ)器504中存儲(chǔ)一組程序代碼,處理器501用于調(diào)用存儲(chǔ)器x04中存儲(chǔ)的程序代碼,執(zhí)行以下操作:

構(gòu)建分類器并確定分類特征向量;

根據(jù)所述分類器和所述分類特征向量,對(duì)新增的數(shù)據(jù)樣本進(jìn)行訓(xùn)練;

根據(jù)訓(xùn)練所得到的相關(guān)參數(shù),對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留。

可選的,處理器501構(gòu)建分類器并確定分類特征向量的具體操作為:

確定待構(gòu)建的分類器的數(shù)量;

構(gòu)建各個(gè)所述分類器;

確定各個(gè)所述分類器的分類特征向量。

又可選的,處理器501根據(jù)所述分類器和所述分類特征向量,對(duì)新增的數(shù)據(jù)樣本進(jìn)行訓(xùn)練的具體操作為:

①通過(guò)隨機(jī)梯度下降SGD算法,隨機(jī)抽取新增的數(shù)據(jù)樣本子集B1進(jìn)行訓(xùn)練;

②通過(guò)初始分類器Γ1判斷所述樣本子集B1分類的正確性,并根據(jù)判斷結(jié)果將所述樣本子集B1劃分為測(cè)試錯(cuò)誤集Berr和測(cè)試正確集Bok;

③判斷所述測(cè)試錯(cuò)誤集Berr是否為空集,

若是,則通過(guò)所述SGD算法抽取新一批數(shù)據(jù)樣本進(jìn)行訓(xùn)練,

若否,則將原始的數(shù)據(jù)樣本中支持向量SV的集合與所述樣本子集B1進(jìn)行合并以得到新的集合和新的分類器Γ2,以及將所述集合中除所述集合的數(shù)據(jù)樣本外的剩余數(shù)據(jù)樣本與所述測(cè)試正確集Bok進(jìn)行合并以得到所述分類器Γ2的增量數(shù)據(jù)樣本集B1′;

重復(fù)執(zhí)行上述①、②和③三個(gè)步驟。

進(jìn)一步的,處理器501根據(jù)訓(xùn)練所得到的相關(guān)參數(shù),對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留的具體操作為:

根據(jù)公式(1)、公式(2)和公式(3),求得遺忘因子αi,其中,αi表示數(shù)據(jù)樣本經(jīng)T次訓(xùn)練后第i個(gè)數(shù)據(jù)樣本支持向量SV的比率,Ti表示總訓(xùn)練次數(shù),ri表示第i個(gè)數(shù)據(jù)樣本經(jīng)訓(xùn)練后支持向量SV的次數(shù),所述測(cè)試錯(cuò)誤集Berr內(nèi)每個(gè)數(shù)據(jù)樣本的ri=0,所述測(cè)試正確集Bok內(nèi)每個(gè)數(shù)據(jù)樣本的ri=1;

根據(jù)基于所述遺忘因子αi的預(yù)測(cè)增量學(xué)習(xí)機(jī)制,對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留。

更進(jìn)一步的,處理器501根據(jù)基于所述遺忘因子αi的預(yù)測(cè)增量學(xué)習(xí)機(jī)制,對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留的具體操作為:

設(shè)置β、γ和δ三個(gè)閾值;

比較所述遺忘因子αi與β、γ和δ的大小關(guān)系;

根據(jù)比較的結(jié)果,對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留。

可選的,處理器501設(shè)置β、γ和δ三個(gè)閾值之后,還執(zhí)行:

每經(jīng)10次訓(xùn)練后,根據(jù)公式(4)求得各個(gè)數(shù)據(jù)樣本與所設(shè)閾值的誤差權(quán)值;

ei=P-αi(1≤i≤10) (4)

選擇所述誤差權(quán)值最大的遺忘因子αi作為新的閾值;

根據(jù)所述遺忘因子αi,適應(yīng)調(diào)整β、γ和δ的取值。

又可選的,處理器501根據(jù)比較的結(jié)果,對(duì)所述數(shù)據(jù)樣本進(jìn)行刪除和保留的具體操作為:

當(dāng)所述遺忘因子αi=0時(shí),保留所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本;

當(dāng)所述遺忘因子0<αi<β時(shí),刪除所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本;

當(dāng)所述遺忘因子β≤αi<δ時(shí),選擇大于γ的數(shù)據(jù)樣本作為下一次的數(shù)據(jù)樣本集進(jìn)行測(cè)試;

當(dāng)所述遺忘因子δ<αi<1時(shí),將所述遺忘因子αi對(duì)應(yīng)數(shù)據(jù)樣本作為下一次的數(shù)據(jù)樣本集進(jìn)行測(cè)試。

由上可見(jiàn),本發(fā)明實(shí)施例先構(gòu)建分類器并確定分類特征向量,再根據(jù)分類器和分類特征向量對(duì)新增的數(shù)據(jù)樣本進(jìn)行訓(xùn)練,進(jìn)而根據(jù)訓(xùn)練所得到的相關(guān)參數(shù)對(duì)數(shù)據(jù)樣本進(jìn)行刪除和保留,可以實(shí)現(xiàn)在增量學(xué)習(xí)中,主動(dòng)刪除無(wú)用的數(shù)據(jù)以及保留有用的數(shù)據(jù),從而提高認(rèn)知計(jì)算模型的適應(yīng)性和準(zhǔn)確率。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory,ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory,RAM)等。

以上所揭露的僅為本發(fā)明較佳實(shí)施例而已,當(dāng)然不能以此來(lái)限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1