適應(yīng)動(dòng)態(tài)調(diào)整基分類器權(quán)重的集成學(xué)習(xí)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域,尤其涉及一種自適應(yīng)動(dòng)態(tài)調(diào)整基分類器 權(quán)重的集成學(xué)習(xí)方法及裝置。
【背景技術(shù)】
[0002] 集成學(xué)習(xí)是近年來數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一。集成學(xué)習(xí)通過將多 個(gè)基分類器的分類結(jié)果按一定的方式進(jìn)行組合集成,從而決定最終的分類,可以顯著提高 學(xué)習(xí)系統(tǒng)的泛化能力,被視為具有廣泛應(yīng)用前景的技術(shù)。
[0003] 現(xiàn)有集成學(xué)習(xí)方法在集成過程中,往往忽略了測(cè)試樣本與基分類器之間的適應(yīng)性 問題,即有的測(cè)試樣本適合第一個(gè)基分類器,有的適合第二個(gè)基分類器等。
[0004] Boosting方法是一種應(yīng)用廣泛的基分類器組合方法,該算法雖然在一定程度上提 高了基分類器的分類性能,但是由于該算法是靜態(tài)地對(duì)基分類器進(jìn)行權(quán)重賦值,這樣就可 能會(huì)導(dǎo)致給予與測(cè)試樣本不相匹配的基分類器權(quán)重分配,降低了集成分類正確率。
【發(fā)明內(nèi)容】
[0005] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決或 者減緩上述測(cè)試樣本與基分類器的適應(yīng)性問題。
[0006] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種自適應(yīng)動(dòng)態(tài)調(diào)整基分類器權(quán)重的集成學(xué)習(xí)方 法,包括:
[0007] 構(gòu)建多個(gè)基分類器;
[0008] 基于多個(gè)所述基分類器,對(duì)采集到的訓(xùn)練樣本進(jìn)行聚類;
[0009] 確定各個(gè)所述基分類器對(duì)聚類后的訓(xùn)練樣本的各個(gè)簇的適應(yīng)度;
[0010] 計(jì)算所述測(cè)試樣本與聚類后的訓(xùn)練樣本各個(gè)簇的相似度;
[0011] 對(duì)所述適應(yīng)度和所述相似度進(jìn)行整合,得到每個(gè)所述測(cè)試樣本針對(duì)各個(gè)所述基分 類器相適應(yīng)的權(quán)重,并將多個(gè)所述權(quán)重組合為一個(gè)強(qiáng)分類器。
[0012] 進(jìn)一步地,采用下列任意一種方式構(gòu)建多個(gè)所述基分類器:
[0013] 通過對(duì)相同的所述訓(xùn)練樣本選取不同的分類算法訓(xùn)練得到;
[0014] 調(diào)整所述訓(xùn)練樣本的權(quán)重并利用不同或相同的分類算法訓(xùn)練得到;
[0015] 調(diào)整所述訓(xùn)練樣本的特征權(quán)重并利用不同或相同的分類算法訓(xùn)練得到。
[0016] 進(jìn)一步地,采用下列任意一種方式對(duì)所述訓(xùn)練樣本進(jìn)行聚類:
[0017] 劃分聚類、層次聚類、密度聚類、網(wǎng)格聚類。
[0018] 進(jìn)一步地,計(jì)算各個(gè)所述基分類器對(duì)聚類后的訓(xùn)練樣本的各個(gè)簇的適應(yīng)度矩陣的 過程進(jìn)一步包括:
[0019] 利用η個(gè)所述基分類器對(duì)聚類算法生成的k個(gè)簇分別進(jìn)行測(cè)試,計(jì)算得出基分類器 在各個(gè)簇上的錯(cuò)誤率e1J;
[0020] 利用錯(cuò)誤率eij進(jìn)行相應(yīng)的對(duì)數(shù)處理,從而得到η個(gè)基分類器對(duì)k個(gè)簇的適應(yīng)度f^, 并以n*k矩陣的形式進(jìn)行存儲(chǔ),得到適應(yīng)度矩陣;其中,i表示第i個(gè)基分類器,j表示第j個(gè)簇 類。
[0021]進(jìn)一步地,計(jì)算所述測(cè)試樣本與聚類后的訓(xùn)練樣本各個(gè)簇的相似度向量的過程進(jìn) 一步包括:
[0022]針對(duì)某一個(gè)測(cè)試樣本,在動(dòng)態(tài)求出所述測(cè)試樣本到各個(gè)簇質(zhì)心的距離山后,得出 所述測(cè)試樣本與各個(gè)簇的相似度1/山,并以k*l向量的形式進(jìn)行存儲(chǔ),得到相似度向量。
[0023] 進(jìn)一步地,當(dāng)所述適應(yīng)度以適應(yīng)度矩陣形式存以及所述相似度以相似度向量形式 存儲(chǔ)時(shí),則所述適應(yīng)度矩陣和所述相似度向量進(jìn)行整合的過程進(jìn)一步包括:
[0024] 將所述適應(yīng)度矩陣和所述相似度向量相乘,最終得到針對(duì)每一個(gè)所述測(cè)試樣本的 多個(gè)基分類器的權(quán)重向量,將多個(gè)基分類器的權(quán)重向量組合為一個(gè)適合所述測(cè)試樣本的強(qiáng) 分類器。
[0025] 根據(jù)本發(fā)明的另一個(gè)方面,提供了一種自適應(yīng)動(dòng)態(tài)調(diào)整基分類器權(quán)重的集成學(xué)習(xí) 裝置,包括:
[0026] 構(gòu)建模塊,用于構(gòu)建多個(gè)基分類器;
[0027] 聚類模塊,用于基于多個(gè)所述基分類器,對(duì)采集到的訓(xùn)練樣本進(jìn)行聚類;
[0028] 適應(yīng)度確定模塊,用于確定各個(gè)所述基分類器對(duì)聚類后的訓(xùn)練樣本的各個(gè)簇的適 應(yīng)度;
[0029]相似度計(jì)算模塊,用于計(jì)算所述測(cè)試樣本與聚類后的訓(xùn)練樣本各個(gè)簇的相似度;
[0030] 組合模塊,用于對(duì)所述適應(yīng)度和所述相似度進(jìn)行整合,得到每個(gè)所述測(cè)試樣本針 對(duì)各個(gè)所述基分類器相適應(yīng)的權(quán)重,并將多個(gè)所述權(quán)重組合為一個(gè)強(qiáng)分類器。
[0031] 進(jìn)一步地,所述構(gòu)建模塊采用下列任意一種方式構(gòu)建多個(gè)所述基分類器:
[0032] 通過對(duì)相同的所述訓(xùn)練樣本選取不同的分類算法訓(xùn)練得到;
[0033] 調(diào)整所述訓(xùn)練樣本的權(quán)重并利用不同或相同的分類算法訓(xùn)練得到;
[0034] 調(diào)整所述訓(xùn)練樣本的特征權(quán)重并利用不同或相同的分類算法訓(xùn)練得到。
[0035] 進(jìn)一步地,所述聚類模塊采用下列任意一種方式對(duì)所述訓(xùn)練樣本進(jìn)行聚類:
[0036] 劃分聚類、層次聚類、密度聚類、網(wǎng)格聚類。
[0037] 進(jìn)一步地,所述適應(yīng)度確定模塊進(jìn)一步用于,利用η個(gè)所述基分類器對(duì)聚類算法生 成的k個(gè)簇分別進(jìn)行測(cè)試,計(jì)算得出基分類器在各個(gè)簇上的錯(cuò)誤率e lj;利用錯(cuò)誤率eij進(jìn)行 相應(yīng)的對(duì)數(shù)處理,從而得到η個(gè)基分類器對(duì)k個(gè)簇的適應(yīng)度f^,并以n*k矩陣的形式進(jìn)行存 儲(chǔ),得到適應(yīng)度矩陣;其中,i表示第i個(gè)基分類器,j表示第j個(gè)簇類。
[0038] 進(jìn)一步地,所述相似度計(jì)算模塊進(jìn)一步用于,針對(duì)某一個(gè)測(cè)試樣本,在動(dòng)態(tài)求出所 述測(cè)試樣本到各個(gè)簇質(zhì)心的距離山后,得出所述測(cè)試樣本與各個(gè)簇的相似度1/山,并以k*l 向量的形式進(jìn)行存儲(chǔ),得到相似度向量。
[0039] 進(jìn)一步地,當(dāng)所述適應(yīng)度以適應(yīng)度矩陣形式存以及所述相似度以相似度向量形式 存儲(chǔ)時(shí),所述組合模塊進(jìn)一步用于,將所述適應(yīng)度矩陣和所述相似度向量相乘,最終得到針 對(duì)每個(gè)所述測(cè)試樣本的多個(gè)基分類器的權(quán)重向量,將多個(gè)基分類器的權(quán)重向量組合為適合 所述測(cè)試樣本的強(qiáng)分類器。
[0040] 本發(fā)明的有益效果為:
[0041] 本發(fā)明通過結(jié)合聚類算法,并考慮測(cè)試樣本與基分類器的適應(yīng)性,動(dòng)態(tài)地對(duì)基分 類器進(jìn)行權(quán)重賦值,可有效提高分類器的泛化能力和分類精確率。
[0042] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0043] 通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0044] 圖1為本發(fā)明所述方法實(shí)施例的流程示意圖;
[0045] 圖2為本發(fā)明所述方法實(shí)施例中,單層決策樹基分類器構(gòu)建流程示意圖;
[0046] 圖3為本發(fā)明所述方法實(shí)施例中,測(cè)試樣本與基分類器的關(guān)系示意圖;
[0047] 圖4為本發(fā)明所述裝置實(shí)施例的結(jié)構(gòu)示意圖。 具體實(shí)施例
[0048] 為了更清楚地說明本申請(qǐng)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其 他的附圖。
[0049] 下面結(jié)合附圖和具體的實(shí)施方式對(duì)本發(fā)明所述方法作進(jìn)一步的描述。
[0050] 參考圖1,圖1為本發(fā)明實(shí)施例一提供基于數(shù)據(jù)流量特征的流量異常檢測(cè)中的自適 應(yīng)動(dòng)態(tài)調(diào)整基分類器權(quán)重的集成學(xué)習(xí)方法流程圖,具體可以包括如下步驟:
[0051 ] S101,基分類器構(gòu)建
[0052]參考圖2,圖2為本實(shí)施例提供單層決策樹基分類器構(gòu)建流程示意圖,其中,gl代表 第i個(gè)訓(xùn)練樣本集的權(quán)重向量,Di代表第i個(gè)訓(xùn)練樣本集,DSi代表第i個(gè)單層決策樹。本實(shí)施 例中,使用給定帶有標(biāo)簽的數(shù)據(jù)樣本對(duì)單層決策樹進(jìn)行訓(xùn)練,選擇AdaBoost算法的方式構(gòu) 建η個(gè)單層決策樹,每個(gè)單層決策樹即為一個(gè)基分類器。
[0053]其中,帶有標(biāo)簽的數(shù)據(jù)樣本是由多維特征屬性組成,數(shù)據(jù)樣本為異常的,其標(biāo)簽為 1;反之,數(shù)據(jù)樣本正常的,其標(biāo)簽為〇。
[0054]其中,多個(gè)基分類器的構(gòu)建可選擇下列任意一種方式:
[