1.一種基于CART算法的分析用戶信用等級(jí)的方法,其特征在于,所述方法步驟如下:
1)根據(jù)調(diào)研和供電公司提供的數(shù)據(jù),對(duì)調(diào)研結(jié)果和數(shù)據(jù)進(jìn)行分析綜合,為客戶群體的數(shù)據(jù)模型建立做準(zhǔn)備;
2)建立電費(fèi)繳納客戶的用戶畫(huà)像;
3)基于CART算法對(duì)用戶的繳費(fèi)偏好進(jìn)行建模;
4)通過(guò)數(shù)據(jù)訓(xùn)練實(shí)現(xiàn)用戶信用等級(jí)分析技術(shù)。
2.根據(jù)權(quán)利要求1所述的一種基于CART算法的分析用戶信用等級(jí)的方法,其特征在于:
所述步驟1)中,對(duì)繳費(fèi)客戶群體典型行為進(jìn)行分析,首先需要用特征權(quán)重優(yōu)化方法對(duì)個(gè)體用戶畫(huà)像中各權(quán)重進(jìn)行調(diào)整優(yōu)化,得到調(diào)整后的最優(yōu)個(gè)體用戶畫(huà)像,再對(duì)最優(yōu)個(gè)體用戶畫(huà)像進(jìn)行聚類及建模,得到群體用戶畫(huà)像及數(shù)據(jù)模型。
3.根據(jù)權(quán)利要求1所述的一種基于CART算法的分析用戶信用等級(jí)的方法,其特征在于:
所述步驟2)中,建立電費(fèi)繳納客戶的用戶畫(huà)像可分為三個(gè)層次:第一層次是群體用戶的調(diào)查分析;第二層次是數(shù)據(jù)分析的具象化個(gè)體描述;第三層次是抽象數(shù)據(jù)建模后的開(kāi)發(fā)應(yīng)用。
4.根據(jù)權(quán)利要求1所述的一種基于CART算法的分析用戶信用等級(jí)的方法,其特征在于:
所述步驟3)中,CART算法是將基尼指標(biāo)作為選擇最佳分裂屬性的標(biāo)準(zhǔn),建樹(shù)時(shí)采用遞歸的方式;
Gini指標(biāo)是樣本純凈程度的一種度量,其值越小越純凈;己知樣本集T,則Gini值表示如下:
式中:pi-屬于某一類的幾率概率;N-類別數(shù);
若數(shù)據(jù)集T選擇屬性A作為分裂屬性,將原數(shù)據(jù)集T分成T1和T2兩個(gè)子集,則分裂后的Gini值表示如下:
式中:Gini(T1)和Gini(T2)分別表示根據(jù)(1-1)式計(jì)算得到;
在決策樹(shù)構(gòu)建的過(guò)程中,選擇分裂前后雜質(zhì)變化量最大的屬性作為最佳分裂屬性,其公式表示如下:
Gini(A,T)=Gini(T)-GiniSplit(A)(T) (1-3)
式中Gini(T)和GiniSplit(A)(T)分別根據(jù)公式(1-1)和(1-2)計(jì)算。
5.根據(jù)權(quán)利要求1所述的一種基于CART算法的分析用戶信用等級(jí)的方法,其特征在于:
所述步驟3)中,CART算法建立模型的樹(shù)生長(zhǎng)階段選用GINI差異性指標(biāo)作為分支標(biāo)準(zhǔn),在最優(yōu)樹(shù)選擇階段選用K-折交叉驗(yàn)證作為驗(yàn)證方法;其它設(shè)定的參數(shù)為:此模型建立選擇不對(duì)變量加權(quán)重,既不人為地強(qiáng)調(diào)某個(gè)變量的重要性,也不根據(jù)某變量值出現(xiàn)的頻率而加重此變量值的重要性;樹(shù)的最高深度設(shè)置為5層;采用訓(xùn)練集中的類的概率分布,并使用成本矩陣糾正先驗(yàn)概率;不對(duì)缺失值的處理參數(shù)進(jìn)行設(shè)置;當(dāng)父節(jié)點(diǎn)中的對(duì)象個(gè)數(shù)少于總對(duì)象個(gè)數(shù)的2%時(shí),或者孩子節(jié)點(diǎn)中的對(duì)象個(gè)數(shù)少于總對(duì)象個(gè)數(shù)的1%時(shí),停止樹(shù)的增長(zhǎng);選擇Prune tree,即當(dāng)一個(gè)節(jié)點(diǎn)的以下分支所建的模型準(zhǔn)確率提高不明顯時(shí),那么將自動(dòng)刪除此節(jié)點(diǎn)以下的所有分支。
6.根據(jù)權(quán)利要求1所述的一種基于CART算法的分析用戶信用等級(jí)的方法,其特征在于,所述步驟4)中數(shù)據(jù)訓(xùn)練的具體方法是:
將通過(guò)用戶畫(huà)像建立得到的用戶因素經(jīng)過(guò)量化、歸一化預(yù)處理,轉(zhuǎn)換為數(shù)字信息,作為網(wǎng)絡(luò)的輸入向量;經(jīng)過(guò)挖掘系統(tǒng)智能配置,采用兩個(gè)隱層,每個(gè)隱層二十個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò);網(wǎng)絡(luò)的輸出為對(duì)應(yīng)與輸入因素的一個(gè)關(guān)于用戶欠費(fèi)風(fēng)險(xiǎn)的判斷;在數(shù)據(jù)訓(xùn)練指導(dǎo)中,如果用戶欠費(fèi)則風(fēng)險(xiǎn)置1,否則置0;網(wǎng)絡(luò)的學(xué)習(xí)因子為η=0.3;慣性系數(shù)初始化為α0=0.5,αmax=0。