專利名稱:一種小樣本決策樹(shù)分類器構(gòu)造中的連續(xù)屬性分割方法
一種小樣本決策樹(shù)分類器構(gòu)造中的連續(xù)屬性分割方法技術(shù)領(lǐng)域
本發(fā)明屬于決策樹(shù)構(gòu)造技術(shù)領(lǐng)域,涉及一種小樣本決策樹(shù)分類器構(gòu)造中的連續(xù)屬性分割方法。
背景技術(shù):
決策樹(shù)分類器構(gòu)造過(guò)程是屬性選擇、屬性分割兩種操作的迭代的過(guò)程,直至決策樹(shù)的分類誤差足夠小。因此屬性分割優(yōu)化是決策樹(shù)構(gòu)造的關(guān)鍵和核心技術(shù)。屬性分割可分為離散屬性分割和連續(xù)屬性分割,由于離散屬性取有限值,若離散屬性取值較少,則直接利用這些取值點(diǎn)進(jìn)行分割,否則作為連續(xù)屬性處理。因此如何處理連續(xù)屬性分割問(wèn)題一直是國(guó)內(nèi)外共同關(guān)注的問(wèn)題,也是制約所構(gòu)造決策樹(shù)性能的關(guān)鍵技術(shù)問(wèn)題。自上世紀(jì)九十年代,決策樹(shù)學(xué)習(xí)一直是國(guó)內(nèi)外共同關(guān)注的研究熱點(diǎn)。經(jīng)過(guò)20多年的發(fā)展,出現(xiàn)了一批如C4. 5、CART、CHAID、SLIQ、PUBLIC等經(jīng)典決策樹(shù)分類器構(gòu)造算法,提出了決策樹(shù)分類器構(gòu)造中連續(xù)屬性分割等相關(guān)關(guān)鍵技術(shù),有效地推動(dòng)了決策樹(shù)的應(yīng)用,取得了顯著的應(yīng)用效果。深入分析現(xiàn)有的決策樹(shù)構(gòu)造方法可以看出,這些方法基本上都屬于基于傳統(tǒng)統(tǒng)計(jì)學(xué)的方法,屬于基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化機(jī)器學(xué)習(xí)方法的范疇,只有在樣本趨于無(wú)窮大時(shí)其性能才有理論上的保證。而在多數(shù)實(shí)際應(yīng)用中,樣本數(shù)目通常是有限的,這使很多方法都難于取得理想的效果。同時(shí)現(xiàn)有的決策樹(shù)構(gòu)法方法也存在有很多理論問(wèn)題尚沒(méi)有解決,如現(xiàn)有的基于信息熵、基尼系數(shù)等的連續(xù)屬性分割點(diǎn)數(shù)與分割位置選擇方法都屬于經(jīng)驗(yàn)性的,尚缺少理論依據(jù)。目前已提出了不少連續(xù)屬性分割算法,包括基于信息熵、X2分布、基尼系數(shù)等方法。由于分類面的位置與形狀特征是指導(dǎo)屬性空間合理分割的根本依據(jù),因此盡管基于信息熵的方法以及基于X2分布分析的方法具有一定程度的應(yīng)用效果,但由于它們僅僅間接反映分類超曲面的位置與形狀特征,從而限制了它們應(yīng)用的有效性。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種小樣本決策樹(shù)分類器構(gòu)造中的連續(xù)屬性分割方法,以使決策樹(shù)具有統(tǒng)計(jì)學(xué)習(xí)意義下的最優(yōu)分類面,實(shí)現(xiàn)決策樹(shù)性能的最優(yōu)化。本發(fā)明的小樣本決策樹(shù)構(gòu)造的連續(xù)屬性分割方法步驟如下(I)根據(jù)訓(xùn)練樣本集構(gòu)造SVM分類面模型;(2)確定SVM分類面模型的邊界點(diǎn),根據(jù)分類面點(diǎn)沿SVM分類面均勻分布的原則,選擇合理異類邊界點(diǎn)對(duì),并計(jì)算各合理異類邊界點(diǎn)對(duì)連線上的分類面點(diǎn);(3)采用現(xiàn)有的屬性選擇方法選擇優(yōu)先擴(kuò)展屬性,若無(wú)擴(kuò)展屬性則結(jié)束,否則轉(zhuǎn)步驟⑷;(4)根據(jù)所有分類面模型的分類面點(diǎn),對(duì)于離散屬性,其取值點(diǎn)即為分割點(diǎn),轉(zhuǎn)步驟(3);對(duì)于連續(xù)屬性,確定連續(xù)分割點(diǎn)數(shù)和初始分割位置;(5)根據(jù)所有分類面模型的分類面點(diǎn),對(duì)于每個(gè)SVM分類面模型,依該模型的決策面點(diǎn)和決策面與分割面的逼近誤差,計(jì)算屬性分割面與該SVM分類面的逼近誤差
C
E(Modeli),并依=進(jìn)行逼近誤差E(Modeli)融合;
權(quán)利要求
1.一種小樣本決策樹(shù)分類器構(gòu)造中的連續(xù)屬性分割方法,其特征在于,該方法的步驟如下 (1)根據(jù)訓(xùn)練樣本集,構(gòu)造SVM分類面模型; (2)確定SVM分類面的邊界點(diǎn),根據(jù)分類面點(diǎn)沿SVM分類面均勻分布的原則,選擇合理異類邊界點(diǎn)對(duì),并計(jì)算各合理異類邊界點(diǎn)對(duì)連線上的分類面點(diǎn); (3)采用現(xiàn)有的屬性選擇方法選擇優(yōu)先擴(kuò)展屬性,若無(wú)擴(kuò)展屬性則結(jié)束,否則轉(zhuǎn)步驟(4); (4)根據(jù)所有分類面模型的分類面點(diǎn),對(duì)于離散屬性,其取值點(diǎn)即為分割點(diǎn),轉(zhuǎn)步驟(3);對(duì)于連續(xù)屬性,確定連續(xù)分割點(diǎn)數(shù)和初始分割位置; (5)根據(jù)所有分類面模型的分類面點(diǎn),對(duì)于每個(gè)SVM分類面模型,依該模型的決策面點(diǎn)和決策面與分割面的逼近誤差,計(jì)算屬性分割面與該SVM分類面的逼近誤差E (Modeli),并依 F - m;r>或
2.根據(jù)權(quán)利要求I所述的方法,其特征在于所述步驟(I)中構(gòu)造SVM分類面模型的方式為對(duì)于多分類問(wèn)題的每個(gè)類別,構(gòu)造該類與其它類別所組成的2分類SVM分類面模型Modeli, i = 1,2,...,C,其中,C為類別數(shù);對(duì)于2分類問(wèn)題,則僅構(gòu)造I個(gè)SVM分類面模型。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟(I)中對(duì)于給定的訓(xùn)練樣本集S =,其中Xm G Rn為第m個(gè)樣本點(diǎn)的屬性值向量,ym G {-I, +1}為相應(yīng)的二分類類別標(biāo)號(hào),則SVM分類面模型可表示為
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟(2)中對(duì)于給定的訓(xùn)練樣本集S,其邊界點(diǎn)集合Sb可定義為
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟(4)中確定連續(xù)分割點(diǎn)數(shù)和初始分割位置的過(guò)程如下 (41)置分割點(diǎn)數(shù)K= 0 ;對(duì)于給定的訓(xùn)練樣本子集求出樣本子集Sr所限定的屬性y取值區(qū)間為[郵4),5私,)],其中
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟(5)中決策面與分割面Ck的逼近誤差為
7.根據(jù)權(quán)利要求6所述的方法,其特征在于所述步驟(5)中逼近誤差E(Modeli)融合是采用以下兩個(gè)公式
8.根據(jù)權(quán)利要求1-7中任一項(xiàng)所述的方法,其特征在于,所述步驟(6)采用帶約束復(fù)合型優(yōu)化方法依下式所示模型進(jìn)行連續(xù)屬性分割位置優(yōu)化, 優(yōu)化目標(biāo)MinE 優(yōu)化條件
全文摘要
本發(fā)明涉及一種小樣本決策樹(shù)分類器構(gòu)造中的連續(xù)屬性分割方法,包括連續(xù)屬性分割點(diǎn)數(shù)確定和分割位置優(yōu)化兩部分;首先由訓(xùn)練樣本集,構(gòu)造SVM分類面模型,確定其邊界點(diǎn),選擇合理異類邊界點(diǎn)對(duì),并計(jì)算各合理異類邊界點(diǎn)對(duì)連線上的分類面點(diǎn);對(duì)于連續(xù)屬性,根據(jù)所有分類面點(diǎn)的分類間隔分布確定連續(xù)分割點(diǎn)數(shù)和初始分割位置;根據(jù)所有分類面模型的分類面點(diǎn),對(duì)于每個(gè)SVM分類面模型,計(jì)算屬性分割面與該SVM分類面的逼近誤差,并對(duì)所有SVM分類面的逼近誤差進(jìn)行融合,進(jìn)而以逼近誤差為目標(biāo)優(yōu)化連續(xù)屬性分割位置;本發(fā)明的方法具有屬性分割點(diǎn)數(shù)與位置選擇快速準(zhǔn)確等特點(diǎn),可顯著減少所構(gòu)造決策樹(shù)的大小,提高決策樹(shù)的預(yù)測(cè)精度。
文檔編號(hào)G06K9/62GK102622612SQ201210073278
公開(kāi)日2012年8月1日 申請(qǐng)日期2012年3月19日 優(yōu)先權(quán)日2012年3月19日
發(fā)明者于俊偉, 劉燦, 張德賢, 張苗, 李保利, 楊衛(wèi)東, 梁義濤, 王洪群, 許偉濤, 靳小波 申請(qǐng)人:河南工業(yè)大學(xué)