一種決策樹生成方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種決策樹生成方法及系統(tǒng)。
【背景技術(shù)】
[0002]傳統(tǒng)的決策樹在進(jìn)行分支劃分時,使用的是基于信息熵的大小進(jìn)行劃分的方法,而基于信息熵的劃分的結(jié)果通常區(qū)分度較差,導(dǎo)致的問題就是無法判斷出哪些屬性是主要的區(qū)別屬性,導(dǎo)致決策樹劃分結(jié)果參考性差。
【發(fā)明內(nèi)容】
[0003]為解決上述問題,本發(fā)明提出了一種決策樹生成方法及系統(tǒng),通過計算樣本屬性的區(qū)分度,確定劃分依據(jù),能夠使決策樹的分支劃分更加合理,使決策樹具有更好的參考性。
[0004]一種決策樹生成方法,包括:
獲取訓(xùn)練樣本集及樣本屬性,所述樣本屬性個數(shù)為m ;
統(tǒng)計每個樣本屬性在訓(xùn)練樣本集中不同取值的種類數(shù),定義為C1 (I ^ i ^ m);
分別計算每個樣本屬性的區(qū)分度q1:
所述Cl1為以c i為底2 X的對數(shù),其中c在遠(yuǎn)小于2 x;因此當(dāng)c i大于I時,l<q ^ X,當(dāng)Ci等于I時,q ;等于O ;
選取區(qū)分度值最大的樣本屬性作為決策樹分支劃分的依據(jù)屬性,分別將訓(xùn)練樣本集中所述依據(jù)屬性的取值相同的樣本形成一個決策樹分支,所包含的樣本為一個子集;
對每個決策樹分支的子集遞歸執(zhí)行上述步驟,進(jìn)行決策樹分支劃分,直到分支節(jié)點達(dá)到預(yù)設(shè)的閾值,停止劃分,決策樹生成完成。
[0005]所述的方法中,分別計算每個樣本屬性的區(qū)分度時,如果存在兩個以上樣本屬性的區(qū)分度相同,則進(jìn)一步計算區(qū)分度相同的樣本屬性的次要區(qū)分度t1;假設(shè)一個樣本屬性的不同取值在訓(xùn)練集合中的數(shù)量分別為K1、K2、......Kc1,則訓(xùn)練樣本集中樣本總數(shù)
Ii=KfK2+......+Kc1JJ:
t,= (K1XK2X......XKc1) (1/n);
選取次要區(qū)分度取值最大的屬性作為決策樹分支劃分的依據(jù)屬性。
[0006]一種決策樹生成系統(tǒng),包括:
樣本獲取模塊,用于獲取訓(xùn)練樣本集及樣本屬性,所述樣本屬性個數(shù)為m ;
統(tǒng)計模塊,用于統(tǒng)計每個樣本屬性在訓(xùn)練樣本集中不同取值的種類數(shù),定義為C1(I ^ i ^ m);
區(qū)分度計算模塊,用于分別計算每個樣本屬性的區(qū)分度q1:
所述Cl1為以c i為底2 X的對數(shù),c i遠(yuǎn)小于2 x;因此當(dāng)c i大于I時,l<q X,當(dāng)c i等于I時,Qi等于O ;
決策樹生成模塊,用于選取區(qū)分度值最大的樣本屬性作為決策樹分支劃分的依據(jù)屬性,分別將訓(xùn)練樣本集中所述依據(jù)屬性的取值相同的樣本形成一個決策樹分支,所包含的樣本為一個子集;
對每個決策樹分支的子集遞歸執(zhí)行上述步驟,進(jìn)行決策樹分支劃分,直到分支節(jié)點達(dá)到預(yù)設(shè)的閾值,停止劃分,決策樹生成完成。
[0007]所述的系統(tǒng)中,分別計算每個樣本屬性的區(qū)分度時,如果存在兩個以上樣本屬性的區(qū)分度相同,則進(jìn)一步計算區(qū)分度相同的樣本屬性的次要區(qū)分度t1;假設(shè)一個樣本屬性的不同取值在訓(xùn)練集合中的數(shù)量分別為K1、K2、......Kc1,則訓(xùn)練樣本集中樣本總數(shù)
Ii=KfK2+......+Kc1JJ:
t,= (K1XK2X......XKc1) (1/n);
選取次要區(qū)分度取值最大的屬性作為決策樹分支劃分的依據(jù)屬性。
[0008]優(yōu)勢在于,本發(fā)明能夠合理有效的選擇進(jìn)行決策樹分支劃分的屬性,使決策樹劃分的結(jié)果更加具有參考性。
[0009]本發(fā)明提出了一種決策樹生成方法及系統(tǒng),所述方法包括:獲取訓(xùn)練樣本集及樣本屬性,統(tǒng)計每個樣本屬性在訓(xùn)練樣本集中不同取值的種類數(shù),根據(jù)其并分別計算每個樣本屬性的區(qū)分度,選擇區(qū)分度最高的樣本屬性作為決策樹分支劃分的依據(jù)屬性;將劃分后的訓(xùn)練樣本集繼續(xù)按照上述方法遞歸計算劃分,直到分支節(jié)點達(dá)到預(yù)設(shè)的閾值,決策樹生成完成。本發(fā)明還給出了對應(yīng)的系統(tǒng),通過本發(fā)明的方法,能夠合理進(jìn)行決策樹劃分屬性的選擇,使得劃分的結(jié)果更準(zhǔn)確并具有實用價值。
【附圖說明】
[0010]為了更清楚地說明本發(fā)明或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0011]圖1為本發(fā)明一種決策樹生成方法實施例流程圖;
圖2為本發(fā)明一種決策樹生成系統(tǒng)實施例結(jié)構(gòu)示意圖。
【具體實施方式】
[0012]為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實施例中的技術(shù)方案,并使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖對本發(fā)明中技術(shù)方案作進(jìn)一步詳細(xì)的說明。
[0013]為解決上述問題,本發(fā)明提出了一種決策樹生成方法及系統(tǒng),通過計算樣本屬性的區(qū)分度,確定劃分依據(jù),能夠使決策樹的分支劃分更加合理,使決策樹具有更好的參考性。
[0014]—種決策樹生成方法,如圖1所示,包括:
5101:獲取訓(xùn)練樣本集及樣本屬性,所述樣本屬性個數(shù)為m ;
5102:統(tǒng)計每個樣本屬性在訓(xùn)練樣本集中不同取值的種類數(shù),定義為C1 (I ^ i ^ m);
5103:分別計算每個樣本屬性的區(qū)分度Ci1:
所述Cl1為以c i為底2 X的對數(shù),其中c在遠(yuǎn)小于2 x;因此當(dāng)c i大于I時,l<q ^ X,當(dāng)Ci等于I時,q i等于O ;
5104:選取區(qū)分度值最大的樣本屬性作為決策樹分支劃分的依據(jù)屬性,分別將訓(xùn)練樣本集中所述依據(jù)屬性的取值相同的樣本形成一個決策樹分支,所包含的樣本為一個子集;
5105:對每個決策樹分支的子集遞歸執(zhí)行上述步驟,進(jìn)行決策樹分支劃分,直到分支節(jié)點達(dá)到預(yù)設(shè)的閾值,停止劃分,決策樹生成完成。
[0015]所述的方法中,分別計算每個樣本屬性的區(qū)分度時,如果存在兩個以上樣本屬性的區(qū)分度相同,則進(jìn)一步計算區(qū)分度相同的樣本屬性的次要區(qū)分度t1;假設(shè)一個樣本屬性的不同取值在訓(xùn)練集合中的數(shù)量分別為K1、K2、......Kc1,則訓(xùn)練樣本集中樣本總數(shù)
Ii=KfK2+......+Kc1JJ:
t,= (K1XK2X......XKc1) (1/n);
選取次要區(qū)分度取值最大的屬性作為決策樹分支劃分的依據(jù)屬性。根據(jù)初等不等式的關(guān)系,如果樣本分布越均勻,則^就越大,而樣本分布越均勻,則認(rèn)為次要區(qū)分度越好。
[0016]如假設(shè)訓(xùn)練樣本集中有十條樣本,共4個樣本屬性,