結(jié)合類別權(quán)重的集成學(xué)習(xí)分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種對未知類別的分類型數(shù)據(jù)進(jìn)行分類處理的方法,特別是一種結(jié)合 類別權(quán)重的集成學(xué)習(xí)分類方法。
【背景技術(shù)】
[0002] 集成學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)中的一個重要研究方向。因為集成學(xué)習(xí)有一定的理論 基礎(chǔ),并且實現(xiàn)簡單,同時有較好的分類預(yù)測準(zhǔn)確度,所以得到廣泛的認(rèn)可和應(yīng)用。隨著技 術(shù)的進(jìn)步使得數(shù)據(jù)收集變得越來越容易,使用集成學(xué)習(xí)去分類多類別的數(shù)據(jù)也變得越來越 常見。
[0003] 使用集成學(xué)習(xí)分類是使用一系列基分類器進(jìn)行學(xué)習(xí),并使用某種規(guī)則把這些基分 類器的結(jié)果進(jìn)行整合,從而獲得比這些基分類器擁有更好學(xué)習(xí)效果和泛化能力的集成分類 器。當(dāng)類別數(shù)已知,但數(shù)據(jù)集中的數(shù)據(jù)類別未知時,我們常常借助訓(xùn)練數(shù)據(jù)集來構(gòu)造集成學(xué) 習(xí)模型。
[0004] 在多類別情況下,特別是類別較多時,受數(shù)據(jù)不平衡以及基分類器在模型訓(xùn)練時 對不同類別的"過學(xué)習(xí)"程度不同等因素的影響,導(dǎo)致預(yù)測精度下降,使得集成學(xué)習(xí)往往不 能提供理想的分類預(yù)測參考。為了解決這個問題,許多學(xué)者針對非平衡數(shù)據(jù)提出代價敏感 的集成學(xué)習(xí)方法。但是,代價敏感的集成學(xué)習(xí)方法只適用于非平衡數(shù)據(jù),而不適用于平衡數(shù) 據(jù)。另外,在模型訓(xùn)練時,沒有真正考慮到每個基分類器對不同類別的"過學(xué)習(xí)"程度不同 的影響,類別間的不平衡問題依然存在。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的之一在于解決現(xiàn)有技術(shù)存在的問題,獲得更精確的分類預(yù)測參考, 提供一種結(jié)合類別權(quán)重的集成學(xué)習(xí)分類方法。
[0006] 為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案: 一種結(jié)合類別權(quán)重的集成學(xué)習(xí)分類方法,其特征在于該方法具體步驟如下: A. 將原始數(shù)據(jù)進(jìn)行預(yù)處理,轉(zhuǎn)換成分類方法能處理的數(shù)據(jù)格式,同時獲得訓(xùn)練數(shù)據(jù)集 和待分類數(shù)據(jù)集; B. 初始化訓(xùn)練數(shù)據(jù)集樣本權(quán)重; C. 從m=l到M迭代,依據(jù)訓(xùn)練數(shù)據(jù)集及其樣本權(quán)重訓(xùn)練M個基分類器; D. 集成步驟C中的所有基分類器,結(jié)合類別權(quán)重使用判別分類器,對待分類數(shù)據(jù)集進(jìn) 行分類; E. 將分類結(jié)果保存到文件中,提供分類預(yù)測的參考。
[0007] 上述步驟A中的具體方法為: A-1.每條數(shù)據(jù)必須有固定的f個屬性值,在最后還要添加一個類別屬性,表示這條數(shù) 據(jù)的類別已知,因此,總共為f+1個屬性值; A-2.待分類數(shù)據(jù)集的每條數(shù)據(jù)形式必須與訓(xùn)練數(shù)據(jù)集的前f?個屬性形式一致,并且無 類別屬性值字段,因此,總共為f個屬性值。
[0008] 上述步驟B的方法為:令每個樣本的權(quán)重(^ = 1/n,i=l, 2,3…n,其中n為樣 本個數(shù); 上述步驟C的具體方法為: C-1?依據(jù)訓(xùn)練數(shù)據(jù)集,以權(quán)重練得到基分類器(x:); c-2.計算基分類器(x)錯誤率:
【主權(quán)項】
1. 一種結(jié)合類別權(quán)重的集成學(xué)習(xí)分類方法,其特征在于該方法具體步驟如下: A. 將原始數(shù)據(jù)進(jìn)行預(yù)處理,轉(zhuǎn)換成分類方法能處理的數(shù)據(jù)格式,同時獲得訓(xùn)練數(shù)據(jù)集 和待分類數(shù)據(jù)集; B. 初始化訓(xùn)練數(shù)據(jù)集樣本權(quán)重; C. 從m=l到M迭代,依據(jù)訓(xùn)練數(shù)據(jù)集及其樣本權(quán)重訓(xùn)練M個基分類器; D. 集成步驟C中的所有基分類器,結(jié)合類別權(quán)重使用判別分類器,對待分類數(shù)據(jù)集進(jìn) 行分類; E. 將分類結(jié)果保存到文件中,提供分類預(yù)測的參考。
2. 根據(jù)權(quán)利要求1所述的一種結(jié)合類別權(quán)重的集成學(xué)習(xí)分類方法,其特征在于所述步 驟A中的具體方法為: A-1.每條數(shù)據(jù)必須有固定的f個屬性值,在最后還要添加一個類別屬性,表示這條數(shù) 據(jù)的類別已知,因此,總共為f+1個屬性值; A-2.待分類數(shù)據(jù)集的每條數(shù)據(jù)形式必須與訓(xùn)練數(shù)據(jù)集的前f?個屬性形式一致,并且無 類別屬性值字段,因此,總共為f個屬性值。
3. 根據(jù)權(quán)利要求1所述的一種結(jié)合類別權(quán)重的集成學(xué)習(xí)分類方法,其特征在于所述步 驟B的方法為:令每個樣本的權(quán)重0)1=1/11,i=l, 2,3…n,其中n為樣本個數(shù)。
4. 根據(jù)權(quán)利要求1所述的一種結(jié)合類別權(quán)重的集成學(xué)習(xí)分類方法,其特征在于所述步 驟C的具體方法為: C-1?依據(jù)訓(xùn)練數(shù)據(jù)集,以權(quán)重(\訓(xùn)練得到基分類器T(m) (Xj); C-2.計算基分類器(xs )錯誤率:
該分類器錯誤率err'^即為當(dāng)前迭代的分類器錯誤率C-3.計算基分類器對每個類別的權(quán)重:
C-4.從i=l到n,更新訓(xùn)練數(shù)據(jù)集樣本權(quán)重:
C-5.重新規(guī)范化使其總和為1; C-6.若M次迭代結(jié)束,則退出迭代,否則跳轉(zhuǎn)到C1)繼續(xù)迭代。
5. 根據(jù)權(quán)利要求4所述的一種結(jié)合類別權(quán)重的集成學(xué)習(xí)分類方法,其特征在于所述步 驟C-3中類別權(quán)重bim)的計算方法為:對于訓(xùn)練好的基分類器(Xi),在每個(X,)的分類類別k中,計算正確率,即為bj?1的值,其中表示模把樣本x/分為第 k類的情況,
|即表示模型把樣本Xi分為第k類,同時分類結(jié)果和類別標(biāo) 簽q吻合的概率,此概率體現(xiàn)了模型對類k的權(quán)重和可信度,迭代次數(shù)m 算法趨于 收斂。
6. 根據(jù)權(quán)利要求1所述的一種結(jié)合類別權(quán)重的集成學(xué)習(xí)分類方法,其特征在于上述步 驟D的操作步驟如下: D1)集成并計算判別分類器,輸出M個基分類器集成后的判別分類器; D2)使用D1)中計算的判別分類器,為待分類數(shù)據(jù)集中的所有樣本進(jìn)行分類。
7. 根據(jù)權(quán)利要求6所述的一種結(jié)合類別權(quán)重的集成學(xué)習(xí)分類方法,其特征在于,上述 步驟D1)的計算公式為:
其中C(x)即為集成學(xué)習(xí)所輸出的判別分類器,首先累加所有基分類器的判別概率,再 累加基分類器可信度和各個類別權(quán)重的乘積a ,最后把兩個累加結(jié)果相乘,其中包 含的權(quán)重不僅有基分類器權(quán)重"(印,還有類別權(quán)重。
【專利摘要】本發(fā)明涉及一種結(jié)合類別權(quán)重的集成學(xué)習(xí)分類方法,首先將原始數(shù)據(jù)進(jìn)行預(yù)處理,轉(zhuǎn)換成分類方法可以處理的數(shù)據(jù)格式,獲得訓(xùn)練數(shù)據(jù)集和待分類數(shù)據(jù)集;然后初始化訓(xùn)練數(shù)據(jù)集樣本權(quán)重;然后依據(jù)訓(xùn)練數(shù)據(jù)集及其樣本權(quán)重迭代訓(xùn)練M個基分類器,其中計算類別權(quán)重;然后集成所有基分類器,結(jié)合類別權(quán)重使用判別分類器,對待分類數(shù)據(jù)集進(jìn)行分類;最后將分類結(jié)果保存到文件中,提供分類預(yù)測的參考。本發(fā)明解決了在集成學(xué)習(xí)的多類別分類問題中,類別之間訓(xùn)練不平衡的問題,更好地抵制了“過學(xué)習(xí)”并且提高了模型預(yù)測精度,為分類預(yù)測提供更可靠的參考。
【IPC分類】G06K9-66, G06K9-62, G06F17-30
【公開號】CN104573013
【申請?zhí)枴緾N201510010783
【發(fā)明人】吳悅, 嚴(yán)超
【申請人】上海大學(xué)
【公開日】2015年4月29日
【申請日】2015年1月9日