亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法

文檔序號:6520724閱讀:196來源:國知局
一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法
【專利摘要】本發(fā)明涉及智能信息處理【技術(shù)領(lǐng)域】,公開了一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,本發(fā)明采用集成學(xué)習(xí)和混合模型框架構(gòu)建數(shù)據(jù)流分類模型,可以適應(yīng)數(shù)據(jù)流的海量性、實時性和動態(tài)變化性三種特點的要求,并提高數(shù)據(jù)流分類的準確率。其中,集成學(xué)習(xí)模型利用了集成學(xué)習(xí)理論相關(guān)內(nèi)容,通過使用多個分類器進行分類,提高分類效果和適應(yīng)數(shù)據(jù)流動態(tài)性的能力。此外,聚類方法對分類結(jié)果進行匯總,有效利用分類結(jié)果之間的內(nèi)部關(guān)系,有利于提高分類準確率,減少因分類所消耗時間。
【專利說明】一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能信息處理【技術(shù)領(lǐng)域】,特別涉及一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,適用于網(wǎng)絡(luò)入侵檢測,網(wǎng)絡(luò)安全監(jiān)控、傳感器數(shù)據(jù)監(jiān)控和電網(wǎng)供電等方面。
【背景技術(shù)】
[0002]隨著物聯(lián)網(wǎng)的發(fā)展,以及“大數(shù)據(jù)”時代的到來,傳統(tǒng)數(shù)據(jù)挖掘方法正面臨著新的挑戰(zhàn),其中數(shù)據(jù)形式的變化是最為重要和基本的內(nèi)容。傳統(tǒng)數(shù)據(jù)形式主要以靜態(tài)數(shù)據(jù)為主,其容量有限,可被存儲且基本無變化。因此,對傳統(tǒng)數(shù)據(jù)挖掘算法的設(shè)計,往往假設(shè)數(shù)據(jù)是靜態(tài),考慮更多的是算法本身而不是數(shù)據(jù)形式適應(yīng)問題。
[0003]但近些年,隨著信息化發(fā)展的深入,一種嶄新的數(shù)據(jù)形式,即數(shù)據(jù)流,逐漸成為主流數(shù)據(jù)形式。與靜態(tài)數(shù)據(jù)形式不同,數(shù)據(jù)流主要包含三種基本特征,即海量性、實時性和動態(tài)變化性,因此如果再繼續(xù)單純的套用傳統(tǒng)數(shù)據(jù)挖掘方法,往往無法得到令人滿意的結(jié)果,甚至是完全失效。也正因為如此,目前針對數(shù)據(jù)流挖掘的研究成為新的研究熱點。
[0004]對數(shù)據(jù)流分類問題來說,其核心問題是設(shè)計適應(yīng)數(shù)據(jù)流特點(海量性、實時性和動態(tài)變化性)的分類方法。具體來說,較傳統(tǒng)分類方法來說,數(shù)據(jù)流的海量性特點要求數(shù)據(jù)流分類方法能夠在無法存儲歷史數(shù)據(jù)的前提下,對數(shù)據(jù)進行訓(xùn)練和分類;數(shù)據(jù)流的實時性要求分類模型在分類過程中,除了要考慮分類準確率方面外,還需要對分類時間進行優(yōu)化和壓縮,盡可能的在新數(shù)據(jù)流產(chǎn)生前完成分類整體過程,對分類模型的運行效率提出了新的要求;數(shù)據(jù)流的動態(tài)變化性要求分類模型具有一定的擴充性和自我更新性,能夠適應(yīng)數(shù)據(jù)流的變化。因為如此,設(shè)計出完全滿足數(shù)據(jù)流三種特點的分類模型,一直是學(xué)術(shù)界追求的目標,而當前所提出分類方法,大部分只能滿足一種或兩種數(shù)據(jù)流特點,只能在一定程度上達到分類的要求。
[0005]目前國際、國內(nèi)尚未出現(xiàn)完全適應(yīng)數(shù)據(jù)流特點的分類方法,亟待一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的是:為解決上述現(xiàn)有技術(shù)中存在的問題,提供一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,能夠滿足數(shù)據(jù)流海量性、實時性和動態(tài)變化性的特點,達到分類要求。
[0007]為達到上述目的,本發(fā)明采用的技術(shù)方案是:一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,具體包括以下步驟:
步驟1:動態(tài)數(shù)據(jù)流收集模塊102從海量實時數(shù)據(jù)流101中按照時間順序收集數(shù)據(jù)。
[0008]步驟2:數(shù)據(jù)流劃分模塊103讀取步驟I中的數(shù)據(jù)流數(shù)據(jù),并且根據(jù)數(shù)據(jù)流數(shù)據(jù)的時間先后關(guān)系對數(shù)據(jù)流進行劃分;所述數(shù)據(jù)流初始化模塊103劃分得到的數(shù)據(jù)塊中,包含3類數(shù)據(jù)分別是訓(xùn)練集、驗證集和測試集,每個數(shù)據(jù)集中所包含的數(shù)據(jù)樣本數(shù)量為N ;N是固定變量,由使用者提前設(shè)定。[0009]步驟3:將經(jīng)過數(shù)據(jù)流劃分模塊103所得到的三種靜態(tài)數(shù)據(jù)集即訓(xùn)練集、測試集和驗證集輸入到數(shù)據(jù)初始化模塊104,對靜態(tài)數(shù)據(jù)集進行歸一化處理。
[0010]步驟4:將經(jīng)過數(shù)據(jù)初始化模塊104處理后的訓(xùn)練集數(shù)據(jù)輸入到集成分類器模塊105中,所述集成分類器模塊105對訓(xùn)練集數(shù)據(jù)進行分類并構(gòu)建集成分類器。
[0011]步驟5:利用參數(shù)優(yōu)化模塊(106)對步驟4中集成分類器模型進行參數(shù)優(yōu)化;
步驟6:將經(jīng)過數(shù)據(jù)初始化模塊(104)處理后的驗證集輸入到步驟5優(yōu)化后的集成分類
器中,得到的數(shù)據(jù)類別標簽為數(shù)據(jù)集L ;
步驟7:將數(shù)據(jù)集L輸入到聚類模塊107中,對所使用的聚類模型進行訓(xùn)練。
[0012]步驟8:將數(shù)據(jù)初始化模塊104所得到的測試集數(shù)據(jù)輸入到所構(gòu)建的混合分類模型中,完成數(shù)據(jù)流分類過程。
[0013]其中,所述步驟2中數(shù)據(jù)流劃分模塊103對數(shù)據(jù)流的劃分,包括以下步驟:
步驟2.1:首先使用滑動窗口法對海量實時數(shù)據(jù)流進行靜態(tài)化處理;其中,滑動窗口每次滑動的距離為見且每個靜態(tài)子集所包含的樣本數(shù)量也為#個;
步驟2.2:使用隨機抽取方法對步驟2.1所得到的子集進行混合,分別得到三個數(shù)據(jù)集,即訓(xùn)練集、測試集和驗證集,其中訓(xùn)練集和測試集的大小均為4#。
[0014]其中,所述步驟3中數(shù)據(jù)初始化模塊104采用MapMinMax歸一化方法對數(shù)據(jù)進行歸一化處理,包括以下步驟:
步驟3.1:首先將得到的訓(xùn)練集、測試集和驗證集,分別對其各個屬性值進行統(tǒng)計,找到各屬性的最大和最小屬性值;``
步驟3.2:對數(shù)據(jù)集的各個屬性進行歸一化處理,所述歸一化方法公式為:
【權(quán)利要求】
1.一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,具體包括以下步驟: 步驟1:動態(tài)數(shù)據(jù)流收集模塊(102)從海量實時數(shù)據(jù)流(101)中按照時間順序收集數(shù)據(jù); 步驟2:數(shù)據(jù)流劃分模塊(103)讀取步驟I中的數(shù)據(jù)流數(shù)據(jù),并且根據(jù)數(shù)據(jù)流數(shù)據(jù)的時間先后關(guān)系對數(shù)據(jù)流進行劃分;所述數(shù)據(jù)流初始化模塊(103)劃分得到的數(shù)據(jù)塊中,包含3類數(shù)據(jù)分別是訓(xùn)練集、驗證集和測試集,每個數(shù)據(jù)集中所包含的數(shù)據(jù)樣本數(shù)量為N ;N是固定變量,由使用者提前設(shè)定; 步驟3:將經(jīng)過數(shù)據(jù)流劃分模塊(103)所得到的三種靜態(tài)數(shù)據(jù)集即訓(xùn)練集、測試集和驗證集輸入到數(shù)據(jù)初始化模塊(104),對靜態(tài)數(shù)據(jù)集進行歸一化處理; 步驟4:將經(jīng)過數(shù)據(jù)初始化模塊(104)處理后的訓(xùn)練集數(shù)據(jù)輸入到集成分類器模塊(105)中,所述集成分類器模塊(105)使用訓(xùn)練集數(shù)據(jù)進行訓(xùn)練,構(gòu)建集成分類器模型;步驟5:利用參數(shù)優(yōu)化模塊(106)對步驟4中集成分類器模型進行參數(shù)優(yōu)化; 步驟6:將經(jīng)過數(shù)據(jù)初始化模塊(104)處理后的驗證集輸入到步驟5優(yōu)化后的集成分類器中,得到的數(shù)據(jù)類別標簽為數(shù)據(jù)集L ; 步驟7:將數(shù)據(jù)集L輸入到聚類模塊(107)中,對所使用的聚類模型進行訓(xùn)練; 步驟8:將數(shù)據(jù)初始化模塊(104)所得到的測試集數(shù)據(jù)輸入到所構(gòu)建的混合分類模型中,完成數(shù)據(jù)流分類過程。
2.根據(jù)權(quán)利 要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟2中數(shù)據(jù)流劃分模塊(103)對數(shù)據(jù)流的劃分,包括以下步驟: 步驟2.1:首先使用滑動窗口法對海量實時數(shù)據(jù)流進行靜態(tài)化處理;其中,滑動窗口每次滑動的距離為N,且每個靜態(tài)子集所包含的樣本數(shù)量也為#個; 步驟2.2:使用隨機抽取方法對步驟2.1所得到的子集進行混合,分別得到三個數(shù)據(jù)集,即訓(xùn)練集、測試集和驗證集,其中訓(xùn)練集和測試集的大小均為4#。
3.根據(jù)權(quán)利要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟3中數(shù)據(jù)初始化模塊(104)采用MapMinMax歸一化方法對數(shù)據(jù)進行歸一化處理,包括以下步驟: 步驟3.1:首先將得到的訓(xùn)練集、測試集和驗證集,分別對其各個屬性值進行統(tǒng)計,找到各屬性的最大和最小屬性值; 步驟3.2:對數(shù)據(jù)集的各個屬性進行歸一化處理,所述歸一化方法公式為:/ (x.) - (ymax ^ymm) -mmOi))^ 1 (ma^(x.)-mm(^)) + ymm 其中,Xi表示當前樣本的第i個屬性值,HiinCri)和max Cri)分別表示當前第i個屬性的最小和最大值,ymax和ymin分別表示歸一化的上限和下限,如果想歸一化到[0,I]區(qū)間時,則 ymax 為 I, ymin 為 O。
4.根據(jù)權(quán)利要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟4中數(shù)據(jù)集成分類器模塊(105)采用支持向量機模型作為基本分類模型對數(shù)據(jù)流進行分類,并構(gòu)建集成分類器,包括以下步驟: 步驟4.1:首先使用兩種支持向量機模型作為基本分類模型,即C-SVM和V (nu)-SVM模型; 步驟4.2:使用三種個函數(shù)對上述兩種支持向量機模型進行劃分,得到六個不同的支持向量機分類模型,其中,所使用核函數(shù)為線性核函數(shù)、高斯徑向基核函數(shù)和Sigmoid核函數(shù); 步驟4.3:對得到的集成學(xué)習(xí)模型進行訓(xùn)練。
5.根據(jù)權(quán)利要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟5中參數(shù)優(yōu)化模塊(106)對所構(gòu)建的集成分類器進行參數(shù)優(yōu)化,所使用優(yōu)化方法為粒子群算法,優(yōu)化過程包含以下步驟: 步驟5.1:首先將使用C-SVM和高斯徑向基核函數(shù)所構(gòu)建的分類模型中的參數(shù)c和^?進行提?。? 步驟5.2:將數(shù)據(jù)流初始化模塊(104)歸一化后的驗證數(shù)據(jù)集輸入到該模型中,然后使用PSO算法對參數(shù)進行優(yōu)化,其中優(yōu)化過程中的適應(yīng)性函數(shù)使用《交叉驗證的方法,其公式表示為:
6.根據(jù)權(quán)利要求1所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟7中聚類模塊(107)針對集成分類器給出的分類結(jié)果即數(shù)據(jù)集L進行聚類,得到最終的分類結(jié)果,所使用聚類方法為自組織映射,包含以下步驟: 步驟7.1:首先對SOM模型進行訓(xùn)練,得到訓(xùn)練后的SOM模型; 步驟7.2:將測試集輸入到構(gòu)建好后的集成分類模型中,得到測試集對應(yīng)的類別標簽數(shù)據(jù)集; 步驟7.3:將類別標簽數(shù)據(jù)集輸入到訓(xùn)練好的SOM模型中,模型計算所輸入樣本與最終類別的距離,找到被激活節(jié)點,計算方法如下:
7.據(jù)權(quán)利要求2所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟2.2中所使用的測試集是驗證集和訓(xùn)練集之外的集合,其大小等同于滑動窗口大小見參數(shù)#必須提前人為設(shè)定。
8.根據(jù)權(quán)利要求4所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟4.3中所使用集成學(xué)習(xí)模型訓(xùn)練方法,包含以下子步驟: 步驟4.3.1:首先將訓(xùn)練集劃分為六個數(shù)據(jù)子集,劃分方法為等分法;步驟4.3.2:將劃分好后的分別輸入到集成學(xué)習(xí)模型中的六個分類器中進行訓(xùn)練。
9.據(jù)權(quán)利要求5所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟5.2中所使用PSO優(yōu)化方法,包含以下子步驟: 步驟5.2.1:首先使用隨機值對所要優(yōu)化的變量進行賦值; 步驟5.2.2:然后在優(yōu)化過程中不斷更新兩個變量K]和的值,更新方法如下,
10.根據(jù)權(quán)利要求6所述的一種動態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流混合分類方法,其特征在于,所述步驟7.1中所使用SOM聚類模型的訓(xùn)練過程包含以下步驟: 步驟7.1.1:首先將驗證數(shù)據(jù)集輸入到集成學(xué)習(xí)分類模型中,得到驗證數(shù)據(jù)集所對應(yīng)的類別數(shù)據(jù)集L ; 步驟7.1.2:將所得到的類別數(shù)據(jù)集對SOM模型進行訓(xùn)練。
【文檔編號】G06F17/30GK103678512SQ201310608553
【公開日】2014年3月26日 申請日期:2013年12月26日 優(yōu)先權(quán)日:2013年12月26日
【發(fā)明者】姚遠 申請人:大連民族學(xué)院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1