偏好代價敏感決策樹構(gòu)造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人工智能領(lǐng)域,具體涉及一種偏好代價敏感決策樹構(gòu)造方法。
【背景技術(shù)】
[0002] 決策樹決策方法是機器學習領(lǐng)域中的重要問題。早期的決策樹模型以ID3為代 表,側(cè)重于分裂屬性選擇方法和優(yōu)化剪枝策略兩方面的研宄,并取得了長足的發(fā)展和廣泛 的應(yīng)用。初期的決策樹方法研宄大多以提高分類精確性為最高目標,最大限度地減少誤分 類,忽略了不同分類可能引起的代價問題。比如一只羊被錯誤地分入一群狼中可能的代價 只是損失一只羊,而一只狼被錯誤地分入一群羊中可能的代價則是損失一群羊,因此Elkan 等提出代價敏感決策樹問題。代價敏感問題在考慮分類精確性的同時,充分考慮不同分類 可能帶來的代價大小,并且以最小代價為最高目標。但由于代價敏感問題的代價矩陣主要 由專家給定,任何專家都摻雜一定主觀因素,存在個人偏好。比如診斷感冒病人時,醫(yī)生A 偏好讓病人多喝水,而醫(yī)生B偏好讓病人吃藥,我們在考慮代價問題的同時,在決策過程中 還需要考慮偏好可能帶來的影響?;谶@種應(yīng)用需求,本發(fā)明提出偏好代價敏感決策樹構(gòu) 造方法。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明所要解決的技術(shù)問題是決策過程中個人主觀偏好對決策樹所形成的影響, 提供一種偏好代價敏感決策樹構(gòu)造方法。
[0004] 為解決上述問題,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
[0005] -種偏好代價敏感決策樹構(gòu)造方法,包括如下步驟:
[0006] 步驟1.用戶根據(jù)自己的偏好設(shè)置偏好類、偏好度和偏好代價矩陣;
[0007] 步驟2.遍歷輸入的訓(xùn)練樣本集的候選屬性列表,并計算每個候選屬性的分裂屬 性選擇因子;
[0008] 步驟3.選擇具有最大分裂屬性選擇因子的候選屬性作為偏好代價敏感決策樹的 擴展結(jié)點;
[0009] 步驟4.對應(yīng)于具有最大分裂屬性選擇因子的候選屬性的每一個屬性值,在結(jié)點 下生成一個分支;每個分支的樣本集合為所有屬性值等于對應(yīng)分支的訓(xùn)練樣本,這樣訓(xùn)練 樣本集就被分為j個子集,上述j為屬性值的個數(shù);
[0010] 步驟5.將每個子集^乍為新的訓(xùn)練樣本集,并循環(huán)執(zhí)行步驟2-5,直至在一個結(jié) 點中的所有樣本為空或?qū)儆谙嗤念悓傩浴?br>[0011] 步驟1中,偏好代價矩陣的設(shè)置過程如下:
[0012] 設(shè)訓(xùn)練數(shù)據(jù)集T中有m個不同的類別標識lp12,...,lm,定義其偏好代價矩陣C 為:
[0013] C = (CiJ)
[0014] 其中,Cij表示偏好代價矩陣的元素,iG{1,2,......,m},jG{1,2,......,m};
[0015] 當i=j時,表示lj被正確分類,此時cu= 0 ;
[0016] 當i辛j時,表示L被錯誤分類,錯誤分類又分下面兩種情況:
[0017] 當li為非偏好類時,此時Cij= 1,只表示產(chǎn)生一次錯誤分類;
[0018] 當h為偏好類時,此時cu的值為預(yù)先給出的偏好代價值。
[0019] 步驟2中,候選屬性A的分裂屬性選擇因子ASF(A)為:
【主權(quán)項】
1. 偏好代價敏感決策樹構(gòu)造方法,其特征是,包括如下步驟: 步驟1.用戶根據(jù)自己的偏好設(shè)置偏好類、偏好度和偏好代價矩陣; 步驟2.遍歷輸入的訓(xùn)練樣本集的候選屬性列表,并計算每個候選屬性的分裂屬性選 擇因子; 步驟3.選擇具有最大分裂屬性選擇因子的候選屬性作為偏好代價敏感決策樹的擴展 結(jié)點; 步驟4.對應(yīng)于具有最大分裂屬性選擇因子的候選屬性的每一個屬性值,在結(jié)點下生 成一個分支;每個分支的樣本集合為所有屬性值等于對應(yīng)分支的訓(xùn)練樣本,該樣訓(xùn)練樣本 集就被分為j個子集,上述j為屬性值的個數(shù); 步驟5.將每個子集Sj作為新的訓(xùn)練樣本集,并循環(huán)執(zhí)行步驟2-5,直至在一個結(jié)點中 的所有樣本為空或?qū)儆谙嗤念悓傩浴?br>2. 根據(jù)權(quán)利要求1所述的偏好代價敏感決策樹構(gòu)造方法,其特征是,步驟1中,偏好代 價矩陣的設(shè)置過程如下: 設(shè)訓(xùn)練數(shù)據(jù)集T中有m個不同的類別標識1。1,,...,Im,定義其偏好代價矩陣C為: C=k。') 其中,C。.表示偏好代價矩的元素,iG(1,2,......,m},jG{1,2,......,m}; 當i=j時,表示Ij被正確分類,此時cu= 0 ; 當ilj時,表示Ij被錯誤分類,錯誤分類又分下面兩種情況: 當li為非偏好類時,此時Cu= 1,只表示產(chǎn)生一次錯誤分類; 當li為偏好類時,此時CU的值為預(yù)先給出的偏好代價值。
3. 根據(jù)權(quán)利要求1所述的偏好代價敏感決策樹構(gòu)造方法,其特征是,步驟2中,候選屬 性A的分裂屬性選擇因子ASF(A)為:
其中,Averagegain(A)表示屬性A的平均信息增益;m表示當前屬性A所對應(yīng)的屬性值 個數(shù),Aq表示當前屬性A所對應(yīng)的第q個屬性值,riAqi表示由當前屬性A第q個屬性值所劃 分的樣本子集中類屬性等于類i的樣本個數(shù),rVj.表示由當前屬性A第q個屬性值所劃分的 樣本子集中類屬性等于類j的樣本個數(shù),n,表示該結(jié)點中類別為1i的樣例個數(shù),nj.表示該結(jié) 點中類別為1j的樣例個數(shù),當i為偏好類時,pref(11)表示偏好度,cy表示偏好代價,當i為 非偏好類時,pref(li) = 1為正確分類標記,Cu= 1為誤分類標記,i,jG(1,2,......,m}。
4. 根據(jù)權(quán)利要求1所述的偏好代價敏感決策樹構(gòu)造方法,其特征是,還進一步包括自 動調(diào)節(jié)偏好度的過程,即; 首先,初始化各類別的偏好度為1,并指定偏好類,并根據(jù)設(shè)定的偏好度的調(diào)整步長調(diào) 節(jié)偏好度,獲得一系列的prefQi); 然后,根據(jù)不同的prefQi)所對應(yīng)的不同分裂屬性選擇因子來生成不同的偏好代價敏 感決策樹,并根據(jù)下式計算不同偏好代價敏感決策樹的偏好度調(diào)節(jié)因子F;當偏好類精度 RC為100%或不再改變時,則停止調(diào)節(jié)偏好度的過程;
式中,RC表示偏好類精度,P表示決策樹的整體精度,F(xiàn)為偏好度調(diào)節(jié)因子; 最后,找出最大的F值,此時對應(yīng)的prefQi)即為最佳偏好度。
【專利摘要】本發(fā)明公開一種偏好代價敏感決策樹構(gòu)造方法,用戶根據(jù)自己的偏好設(shè)置偏好類、偏好度和偏好代價矩陣;遍歷輸入的訓(xùn)練樣本集的候選屬性列表,并計算每個候選屬性的分裂屬性選擇因子;選擇具有最大分裂屬性選擇因子的候選屬性作為偏好代價敏感決策樹的擴展結(jié)點;對應(yīng)于具有最大分裂屬性選擇因子的候選屬性的每一個屬性值,在結(jié)點下生成1個分支;每個分支的樣本集合為所有屬性值等于對應(yīng)分支的訓(xùn)練樣本;循環(huán)執(zhí)行上述直至在一個結(jié)點中的所有樣本為空或?qū)儆谙嗤膶傩浴1景l(fā)明用于在決策樹建立過程中平衡決策者對偏好類的主觀偏好,以解決偏好環(huán)境下的代價敏感決策問題。
【IPC分類】G06N5-04
【公開號】CN104850892
【申請?zhí)枴緾N201510277512
【發(fā)明人】袁鼎榮, 周美琴, 陳詩旭, 馬順, 劉令強, 展雪梅, 李艷紅
【申請人】廣西師范大學
【公開日】2015年8月19日
【申請日】2015年5月27日