一種標(biāo)準(zhǔn)化的多維尺度代價(jià)敏感決策樹(shù)構(gòu)建方法與流程

文檔序號(hào)：11063710閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種標(biāo)準(zhǔn)化的多維尺度代價(jià)敏感決策樹(shù)構(gòu)建方法與制造工藝

技術(shù)特征：

1.一種標(biāo)準(zhǔn)化的多維尺度代價(jià)敏感決策樹(shù)構(gòu)建方法，本發(fā)明涉及涉及機(jī)器學(xué)習(xí)、人工智能以及數(shù)據(jù)挖掘領(lǐng)域，其特征是，包括如下步驟：

步驟1：設(shè)訓(xùn)練集中有X個(gè)樣本，屬性個(gè)數(shù)為n，即,同時(shí)分裂屬性對(duì)應(yīng)了m個(gè)類(lèi)L，其中，相關(guān)領(lǐng)域用戶(hù)設(shè)定好誤分類(lèi)代價(jià)矩陣C、屬性測(cè)試代價(jià)為、資源調(diào)節(jié)因子、相對(duì)等待時(shí)間代價(jià)、修正系數(shù)，判定條件閾值以及

1）上述步驟1中所述的誤分類(lèi)代價(jià)矩陣C具體設(shè)定過(guò)程如下：

相關(guān)領(lǐng)域用戶(hù)誤分類(lèi)代價(jià)矩陣C的設(shè)定：

類(lèi)別標(biāo)識(shí)個(gè)數(shù)為m，則該數(shù)據(jù)的代價(jià)矩陣方陣是：

其中表示第j類(lèi)數(shù)據(jù)分為第i類(lèi)的代價(jià)，如果為正確分類(lèi)，則否則為錯(cuò)誤分類(lèi)其值由相關(guān)領(lǐng)域用戶(hù)給定,這里

步驟2：創(chuàng)建根節(jié)點(diǎn)G

步驟3：如果訓(xùn)練數(shù)據(jù)集為空，則返回節(jié)點(diǎn)G并標(biāo)記失敗

步驟4：如果訓(xùn)練數(shù)據(jù)集中所有記錄都屬于同一類(lèi)別，則該類(lèi)型標(biāo)記節(jié)點(diǎn)G

步驟5：如果候選屬性為空，則返回G為葉子結(jié)點(diǎn)，標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類(lèi)

步驟6：根據(jù)屬性的目標(biāo)函數(shù)從候選屬性中選擇

目標(biāo)函數(shù)：

為平均信息增益函數(shù)，為標(biāo)準(zhǔn)化總測(cè)試代價(jià)函數(shù)，為標(biāo)準(zhǔn)化的誤分類(lèi)代價(jià)比率函數(shù)，當(dāng)選擇屬性滿(mǎn)足目標(biāo)函數(shù)越大，則找到標(biāo)記節(jié)點(diǎn)G

當(dāng)出現(xiàn)目標(biāo)函數(shù)相等時(shí)，為打破平局標(biāo)準(zhǔn)，則按照下面的優(yōu)先順序再進(jìn)行選擇：

（1）更小的

（2）更小的

步驟7：標(biāo)記節(jié)點(diǎn)G為屬性

步驟8：由節(jié)點(diǎn)延伸出滿(mǎn)足條件為分支,這里假設(shè)滿(mǎn)足條件的分支個(gè)數(shù)為k,此時(shí)在此節(jié)點(diǎn)再加一個(gè)空節(jié)點(diǎn)，即當(dāng)前節(jié)點(diǎn)的分支個(gè)數(shù)為k+1,同時(shí)利用先剪枝技術(shù)對(duì)節(jié)點(diǎn)進(jìn)行剪枝操作，一邊建樹(shù)一邊剪枝，如果滿(mǎn)足以下兩條件之一，就停止建樹(shù)

8.1這里假設(shè)為訓(xùn)練數(shù)據(jù)集中的樣本集合，如果為空，加上一個(gè)葉子結(jié)點(diǎn)，標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類(lèi)

8.2此節(jié)點(diǎn)中所有例子屬于同一類(lèi)

步驟9：非8.1與8.2中情況，則遞歸調(diào)用步驟6至步驟8。

2.根據(jù)權(quán)利要求1中所述一種標(biāo)準(zhǔn)化的多維尺度代價(jià)敏感決策樹(shù)構(gòu)建方法，其特征是，以上所述步驟6中的具體計(jì)算過(guò)程如下：

步驟6：根據(jù)屬性的目標(biāo)函數(shù)從候選屬性中選擇

目標(biāo)函數(shù)：

為平均信息增益函數(shù)，為標(biāo)準(zhǔn)化總測(cè)試代價(jià)函數(shù)，為標(biāo)準(zhǔn)化誤分類(lèi)代價(jià)比率函數(shù)

當(dāng)選擇屬性滿(mǎn)足目標(biāo)函數(shù)越大，則找到標(biāo)記節(jié)點(diǎn)G

2）上述步驟6求解目標(biāo)函數(shù)，需要先求解平均信息增益函數(shù)，標(biāo)準(zhǔn)化總測(cè)試代價(jià)函數(shù)，標(biāo)準(zhǔn)化誤分類(lèi)代價(jià)比率函數(shù)，具體求解過(guò)程如下：

2.1)計(jì)算平均信息增益函數(shù)的具體過(guò)程如下：

信息增益函數(shù)：

上式E(X)為整個(gè)訓(xùn)練集的信息熵，為屬性所對(duì)應(yīng)的信息熵；

上式表示為類(lèi)的個(gè)數(shù)，為訓(xùn)練集對(duì)應(yīng)類(lèi)的概率，類(lèi)的個(gè)數(shù)總共為m個(gè)

上式k為屬性所對(duì)應(yīng)屬性值的個(gè)數(shù)，為對(duì)應(yīng)屬性值為i的樣本數(shù), 為修正系數(shù)

這里為了避免在構(gòu)建決策樹(shù)中存在分類(lèi)偏置的問(wèn)題，即偏置到數(shù)量級(jí)更大的類(lèi)問(wèn)題

所以

最后求得的—平均信息增益函數(shù)為如下所式：

作用：可以提高決策樹(shù)的分類(lèi)精度，解決決策樹(shù)偏置問(wèn)題

2.2) 計(jì)算標(biāo)準(zhǔn)化總測(cè)試代價(jià)函數(shù)具體過(guò)程如下：

2.2.1）先求解總測(cè)試代價(jià)函數(shù)，其表達(dá)式為：

以下具體介紹相對(duì)等待時(shí)間代價(jià)：

等待時(shí)間代價(jià)與時(shí)間有關(guān)，即我們可以用數(shù)值來(lái)描述這些時(shí)間敏感代價(jià)，如

果結(jié)果可以馬上得到，等待時(shí)間代價(jià)為0；如果結(jié)果要幾天，就由相應(yīng)專(zhuān)家確定一個(gè)數(shù)值，另外規(guī)定，如果一定要這個(gè)測(cè)試結(jié)果出來(lái)才能進(jìn)行下一個(gè)測(cè)試，即使等待的時(shí)間不多，如半天或一天，都把這個(gè)等待時(shí)間代價(jià)設(shè)為一個(gè)很大的常數(shù)，即

等待時(shí)間同時(shí)還和當(dāng)?shù)刭Y源有關(guān)，同時(shí)考慮時(shí)間代價(jià)和資源約束代價(jià)

上式是個(gè)調(diào)節(jié)因子，不同資源不同，資源越多越大，反之也成立

2.2.2）再求解標(biāo)準(zhǔn)化總測(cè)試代價(jià)函數(shù)具體求解步驟如下：

這里

上式中屬性個(gè)數(shù)為n, 為測(cè)試代價(jià)成本最大值，代表相對(duì)等待時(shí)間最大值

所以

的作用：避免屬性信息過(guò)小而被忽略的風(fēng)險(xiǎn)，另外把不同單位量化為同一單位

2.3）求解標(biāo)準(zhǔn)化誤分類(lèi)代價(jià)比率函數(shù)具體過(guò)程如下：

標(biāo)準(zhǔn)化誤分類(lèi)代價(jià)比率函數(shù)的表達(dá)式為：

上式為屬性誤分為類(lèi)的誤分類(lèi)代價(jià)期望值，為訓(xùn)練集中屬性誤分類(lèi)代價(jià)期望的最大值

先求解屬性的誤分類(lèi)代價(jià)期望值其具體計(jì)算過(guò)程如下：

如果對(duì)事例預(yù)測(cè)的類(lèi)標(biāo)簽與真實(shí)類(lèi)標(biāo)簽相同，則分類(lèi)正確，此時(shí)的誤分類(lèi)代價(jià)如果則，在分類(lèi)過(guò)程中，通常不知道事例的實(shí)際標(biāo)簽，所以這里用誤分類(lèi)代價(jià)的期望Emc來(lái)代替誤分類(lèi)代價(jià)的值，即，把一個(gè)事例的類(lèi)標(biāo)簽預(yù)測(cè)為的誤分類(lèi)代價(jià)的期望為：

Emc

其中，L為數(shù)據(jù)集中所有類(lèi)標(biāo)簽集合，為當(dāng)前選擇屬性中含有類(lèi)的概率，為把類(lèi)誤分為類(lèi)的代價(jià)花費(fèi)

綜上所述，即標(biāo)準(zhǔn)化誤分類(lèi)代價(jià)比率函數(shù)：

的作用：不同單位代價(jià)統(tǒng)一

當(dāng)出現(xiàn)目標(biāo)函數(shù)相等時(shí)，為打破平局標(biāo)準(zhǔn)，則按照下面的優(yōu)先順序再進(jìn)行選擇：

（1）更小的

（2）更小的。

3.根據(jù)權(quán)利要求1中所述的一種標(biāo)準(zhǔn)化的多維尺度代價(jià)敏感決策樹(shù)構(gòu)建方法，其特征是，以上所述步驟8中的具體內(nèi)容如下：

步驟8：由結(jié)點(diǎn)延伸出滿(mǎn)足條件為分支,同時(shí)利用先剪枝技術(shù)對(duì)葉子節(jié)點(diǎn)進(jìn)行剪枝操作，一邊建樹(shù)一邊剪枝，如果滿(mǎn)足以下兩條件之一，就停止建樹(shù)

8.2此結(jié)點(diǎn)中所有例子屬于同一類(lèi)

3）上述步驟8所述的先剪枝技術(shù)，其判定條件順序具體如下：

(1)

(2)

(3)

為一個(gè)葉子節(jié)點(diǎn)類(lèi)的樣本數(shù)，X為訓(xùn)練集總體樣本數(shù)，p為用戶(hù)基于訓(xùn)練集的樣本個(gè)數(shù)百分比的最小值設(shè)定的一個(gè)適當(dāng)?shù)拈撝?，剪支條件首先要達(dá)到用戶(hù)指定條件，即所占的類(lèi)達(dá)到最小閾值，再是標(biāo)準(zhǔn)化誤分類(lèi)代價(jià)比率函數(shù)達(dá)到用戶(hù)設(shè)定的最小值閾值，最后考慮標(biāo)準(zhǔn)化總測(cè)試代價(jià)函數(shù)達(dá)到用戶(hù)指定的做小閾值

這個(gè)剪枝條件更嚴(yán)謹(jǐn)，構(gòu)成的決策樹(shù)可以更有效的預(yù)防過(guò)渡擬合的問(wèn)題。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

決策樹(shù)算法相關(guān)技術(shù)

標(biāo)準(zhǔn)化法相關(guān)技術(shù)

決策樹(shù)理論相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種標(biāo)準(zhǔn)化的多維尺度代價(jià)敏感決策樹(shù)構(gòu)建方法與流程