專利名稱:一種平均錯分代價最小化的分類器集成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機器學(xué)習(xí)和模式識別方法,特別涉及一種平均錯分代價最小化的分類器集成方法,具體涉及到多分類代價敏感學(xué)習(xí)的分類器集成方法和多標(biāo)簽分類問題的分類器集成方法。
背景技術(shù):
目前的分類方法一般都追求分類準(zhǔn)確率,即分類錯誤率最小,其基于所有類被錯分的代價相等。當(dāng)不同類被錯分的代價不等時,便引出了代價敏感分類問題,此時要求設(shè)計的分類器滿足錯分代價最小而非分類錯誤率最小。目前已有不少代價敏感學(xué)習(xí)方法,如 Domingos 等人于 1999 年在文章《MetaCost :A general method for making classifiers cost-sensitive》中采用元代價處理方法把一般的分類模型轉(zhuǎn)換成代價敏感分類模型的方法,Elkan 禾口 Bruka 等人在文章((The foundations of cost-sensitive learning))禾口 《A support for decision making Cost-sensitive learning system》中也指出用錯分代價調(diào)整樣本初始分布來解決代價敏感分類的集成學(xué)習(xí)方法,以及Ling等人于2006年在文章《Test strategies for cost-sensitive decision trees》中提出的一些最小代價決策分類法等。Ling等人于2007年在文章《A comparative study of cost-sensitive classifiers)),葉志飛等人于2009年在文章《不平衡分類問題研究綜述》中都對目前已有的眾多代價敏感學(xué)習(xí)算法進行了比較。在眾多代價敏感學(xué)習(xí)方法中,基于AdaBoost引入錯分代價的代價敏感學(xué)習(xí)方法,因AdaBoost算法自身具有的顯著性能,在代價敏感學(xué)習(xí)方法中受到了更多的重視和關(guān)注。目前的代價敏感學(xué)習(xí)方法主要針對二分類問題,已有的多分類問題的代價敏感學(xué)習(xí)方法只能區(qū)分錯分代價總和而無法區(qū)分錯分成不同類代價的差異。郝紅衛(wèi)等人在專利CNlOllM^eA中提出了一種分類器動態(tài)選擇與循環(huán)集成方法,高常鑫等人在專利CN100587708C中闡述了一種分類器集成方法,Zhu和Fu等人于2009年分別在 JC M ((Multi-class AdaBoost))禾口〈〈Effictive property and best combination of classifiers linear combination》中考慮了直接用于多分類問題的集成學(xué)習(xí)方法,但都沒有引入代價。對多分類的代價敏感分類,目前通常做法是把問題轉(zhuǎn)換成多級二分類問題來處理,為此必須進行錯分代價的合并,但只能考慮每一類被錯分的代價總和而無法區(qū)分被錯分成不同類的代價。合并錯分代價完全掩蓋了不同錯分代價的差異,無法獲得真正的錯分代價最小化分類器。多標(biāo)簽分類問題是一種比較復(fù)雜的分類問題,它不同于兩類分類問題,它允許問題中存在多個類別(或稱為標(biāo)簽);不同于多類分類問題,它允許樣本同時屬于多個類別; 它不同于單標(biāo)簽分類問題(包括兩類問題和多類問題),在單標(biāo)簽分類問題中,標(biāo)簽(類別)與標(biāo)簽之間都是相互排斥的,每個樣本只能屬于唯一的一個類別,而在多標(biāo)簽分類問題中,標(biāo)簽與標(biāo)簽之間是相瓦關(guān)聯(lián)的,允許問題中的部分樣本同時屬于多個標(biāo)簽。由于多標(biāo)簽分類問題的復(fù)雜性和廣泛的應(yīng)用價值,引起了越來越多國內(nèi)外研究者的關(guān)注,并取得了一定的成果。目前,對于多標(biāo)簽分類問題在許多文獻資料中都有相關(guān)的研究,已形成多種解決多標(biāo)簽分類問題的方法,根據(jù)總體設(shè)計思路不同,一般分為兩種一種是基于數(shù)據(jù)分解的多標(biāo)簽分類方法;一種是基于單個優(yōu)化問題的多標(biāo)簽分類方法。其中,基于數(shù)據(jù)分解的多標(biāo)簽分類方法實質(zhì)上是將多標(biāo)簽分類問題分解為多個單標(biāo)簽分類子問題,然后使用現(xiàn)有的單標(biāo)簽分類方法處理這些子問題,再將所有子問題的解集成,最終得到總的多標(biāo)簽分類問題的解。再者是基于單個優(yōu)化問題的多標(biāo)簽分類方法,它通過對一般的分類方法進行改造,只建立一個最優(yōu)化問題直接處理數(shù)據(jù)集中的所有樣本,從而完成能夠直接處理多標(biāo)簽分類問題的任務(wù)。在多標(biāo)簽數(shù)據(jù)集中的樣本擁有多個標(biāo)簽,怎樣建立和求解這樣的最優(yōu)化問題是要解決的重要問題,它沒有改變數(shù)據(jù)集的結(jié)構(gòu),沒有破壞類別之間的關(guān)聯(lián)關(guān)系,反映了多標(biāo)簽分類的特殊性質(zhì),但該方法的實現(xiàn)有一定的難度??偟膩碚f,構(gòu)造多標(biāo)簽分類問題的集成學(xué)習(xí)方法是很難的。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的問題,本發(fā)明的主要目的在于提供一種平均錯分代價最小化的分類器集成方法,該方法能夠真正實現(xiàn)分類結(jié)果偏向錯分代價較小的類,并在不直接要求各個分類器相互獨立的條件下,確保訓(xùn)練錯誤率隨著訓(xùn)練的分類器的個數(shù)增加而降低。為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案構(gòu)思原理如下本發(fā)明采取把用符號函數(shù)表示的錯分代價的極值問題轉(zhuǎn)換成用指數(shù)函數(shù)表示的極值問題,并基于遞推思想,得到了一種平均錯分代價最小化的分類器集成方法。對訓(xùn)練樣本集S = {(Xl,yi),···,0^^)},考慮1(分類問題^ e {1,2,... ,Kj0 弱分類器ht(x)輸出標(biāo)簽1的置信度為ht(x,1),1 = 1,...,K. (x,y) e S簡記為χ e S。集成學(xué)習(xí)方法通常指通過某種方式得到T個弱分類器ht (χ),t = 1,...,T, 然后進行組合得到分類性能更好的組合分類器。線性組合最常用,
權(quán)利要求
1.一種多分類代價敏感學(xué)習(xí)的分類器集成方法,包括以下步驟.51、獲取訓(xùn)練樣本集;.52、初始化樣本權(quán)值并賦初值;.53、迭代T次后,訓(xùn)練得到T個最佳弱分類器;.54、組合T個最佳弱分類器得到最佳組合分類器,其特征在于所述步驟S2給訓(xùn)練樣本賦初值的方法為Al=(VZ0)(CiyJ)Im),其中,i = 1, ... ,m, 1 = l,...,K,yi e {1,2,..., K}, Z0為咚的歸一化因子,c (Yi, 1)表示yi類被錯分成1類的代價,m為訓(xùn)練樣本數(shù);所述步驟S3具體包括如下步驟.531、基于有權(quán)值.<的訓(xùn)練樣本集S訓(xùn)練弱分類器,t= 1,. . .,T,通過如下步驟實現(xiàn).5311、對應(yīng)樣本集S的劃分
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟S4得到最佳組合分類器的方法為
3.一種利用權(quán)利要求1所述的方法實現(xiàn)的多分類連續(xù)AdaBoost集成學(xué)習(xí)方法,包括以下步驟.51、獲取訓(xùn)練樣本集;.52、初始化樣本權(quán)值并賦初值;.53、迭代T次后,訓(xùn)練得到T個最佳弱分類器;.54、組合T個最佳弱分類器得到最佳組合分類器,其特征在于所述步驟S2給訓(xùn)練樣本賦初值的方法為
4.根據(jù)權(quán)利要求3所述的方法,其特征在于所述步驟S4得到最佳組合分類器的方法為F(x) = argmp{/(x’/)},其中= ;^ 力仁/)。
5.一種利用權(quán)利要求1所述的方法實現(xiàn)的過預(yù)測標(biāo)簽最少化Adaboost集成學(xué)習(xí)方法, 包括以下步驟Si、獲取訓(xùn)練樣本集;S2a、初始化樣本權(quán)值并賦初值;S3a、迭代T次后,訓(xùn)練得到T個最佳弱分類器;S4a、組合T個最佳弱分類器得到最佳組合分類器,其特征在于所述步驟Sh給訓(xùn)練樣本賦初值的方法為<; = (Ce(uV(‘))/z。,其中,i = 1,. . .,m,1 =1,...,K,Z0是歸一化因子,C0 (i,1)表示過預(yù)測標(biāo)簽最少化時,i類被錯分成1類的代價矩陣;所述步驟S3a具體包括如下步驟S31a、基于有權(quán)值<的訓(xùn)練樣本集S訓(xùn)練弱分類器,t = 1,. . .,T,通過如下步驟實現(xiàn) S311a、對應(yīng)樣本集S的劃分,S=SU + + + U《,計算<=[,:(,,碎)<,其中j = 1,. . .,nt,1表示多分類問題中的類,Xi表示第i個樣本,ft^表示劃分段^內(nèi)并標(biāo)簽集包含除標(biāo)簽1外的標(biāo)簽的樣本的概率;S312a、定義弱分類器ht(x),當(dāng),有蚧,0 = -1+/'),其中,ht(x,l)為弱分類器ht(χ) 輸出標(biāo)簽1的置信度;S3I3L選取弱分類器ht (χ),使ζ,=^^(11)/4)1"最小,其中,Zt代表樣本權(quán)值調(diào)整后的歸一化因子;S32a、根據(jù)步驟S31a的結(jié)果來調(diào)整樣本權(quán)值,< = ( Α,)ε>Φ(Α,(χ,.,/)-( /Γ)Σ〖=Α( ^); S33a、判斷t是否小于T,若是,則令t = t+Ι,返回步驟S31a,若否,則進入步驟S4a。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于所述步驟S^得到最佳組合分類器的方法為丑⑷={/:/(")》,其中/(χ,ο=Σ『=Α(4),7⑷=(ι/ι)Σ:/(4)。
7.一種利用權(quán)利要求1所述的方法實現(xiàn)的欠預(yù)測標(biāo)簽最少化AdaBoost集成學(xué)習(xí)方法, 包括以下步驟Si、獲取訓(xùn)練樣本集;S2b、初始化樣本權(quán)值并賦初值;S3b、迭代T次后,訓(xùn)練得到T個最佳弱分類器;S4b、組合T個最佳弱分類器得到最佳組合分類器,其特征在于所述步驟S^給訓(xùn)練樣本賦初值的方法為、=( /ζ。)( (υ)/(‘)),其中i = 1,. . .,m 1 =1,...,K,Z0是歸一化因子,Cy (i,1)表示欠預(yù)測標(biāo)簽最少化時,i類被錯分成1類的代價矩陣;所述步驟S!3b具體包括如下步驟S31b、基于有權(quán)值<的訓(xùn)練樣本集S訓(xùn)練弱分類器,t = 1,. . .,T,通過如下步驟實現(xiàn) S311b、對應(yīng)樣本集S的劃分+ + + ,計
8.根據(jù)權(quán)利要求7所述的方法,其特征在于所述步驟S4b得到最佳組合分類器的方法為
9.一種利用權(quán)利要求1所述的方法實現(xiàn)的多標(biāo)簽分類問題AdaBoost集成學(xué)習(xí)方法,包括以下步驟Si、獲取訓(xùn)練樣本集;S2c、初始化樣本權(quán)值并賦初值;S3c、迭代T次后,訓(xùn)練得到T個最佳弱分類器;S4c、組合T個最佳弱分類器得到最佳組合分類器,其特征在于所述步驟S2c給訓(xùn)練樣本賦初值的方法為
10.根據(jù)權(quán)利要求9所述的方法,其特征在于所述步驟Sk得到最佳組合分類器的方法為丑⑷={/:/(")》,其中/(χ,ο=Σ『=Α(4),7⑷=(ι/ι)Σ:/(4)。
全文摘要
本發(fā)明公開了一種平均錯分代價最小化的分類器集成方法,該方法包括如下步驟S1、獲取訓(xùn)練樣本集;S2、初始化樣本權(quán)值并賦初值,S3、迭代T次后,訓(xùn)練得到T個最佳弱分類器,包括如下步驟S31、基于有權(quán)值的訓(xùn)練樣本集S訓(xùn)練弱分類器;S32、根據(jù)步驟S31的結(jié)果來調(diào)整樣本權(quán)值,S33、判斷t是否小于T,若是,則令t=t+1,返回步驟S31,若否,則進入步驟S4;S4、組合T個最佳弱分類器得到最佳組合分類器,本發(fā)明相對于現(xiàn)有技術(shù),可真正實現(xiàn)分類結(jié)果向錯分代價小的類集中,并在不直接要求各個分類器相互獨立的條件下,確保訓(xùn)練錯誤率隨著訓(xùn)練的分類器的個數(shù)增加而降低,解決了目前已有的代價敏感學(xué)習(xí)方法只能向錯分代價總和最小的類集中的問題。
文檔編號G06K9/66GK102184422SQ201110126230
公開日2011年9月14日 申請日期2011年5月15日 優(yōu)先權(quán)日2011年5月15日
發(fā)明者付忠良, 姚宇, 李昕, 趙向輝 申請人:中科院成都信息技術(shù)有限公司