本發(fā)明屬于一體化網(wǎng)絡繳費領域,特別涉及一種基于CART算法的分析用戶信用等級的方法。
背景技術:
隨著繳費渠道建設多樣化、交費方式多元化的發(fā)展,原有電力機構營業(yè)所繳費的“單一交費”模式被打破,一體化繳費接入管理平臺應運而生,隨著網(wǎng)絡繳費的用戶規(guī)模不斷擴大,網(wǎng)絡空間失信事件頻發(fā),網(wǎng)絡用戶信用出現(xiàn)問題,因此設計一個合理的規(guī)避電費回收風險機制,減少供電企業(yè)的經(jīng)營風險,具有現(xiàn)實意義。
隨著社會的快速發(fā)展,計算機、網(wǎng)絡和通訊等信息技術也發(fā)展迅速,人們利用一體化繳費接入平臺來進行電費繳納的數(shù)量也在大大提高,應用的需求促使一門新的技術,也就是數(shù)據(jù)挖掘,應用于一體化繳費平臺。數(shù)據(jù)挖掘研究所涉及的學科領域和方法眾多,應用領域廣泛。決策樹算法屬于機器學習范疇,是一種建立分類模型的技術。由于模型結構和生成規(guī)則的簡潔性,而且決策樹自動控制程度很高,所以一直以來它都是很受歡迎的分類技術。決策樹算法也有多種,其中CART(Classification and Regression Trees)即分類回歸樹算法,是一種非參數(shù)的統(tǒng)計方法,主要用來進行分類研究的,可以同時處理連續(xù)變量和分類變量,其首要目標就是構造一個準確的分類模型用來進行預測,也就是研究引起分類現(xiàn)象發(fā)生的變量及變量之間的相互作用,通過建立決策樹和決策規(guī)則對類型未知的對象進行類別預測,即通過類型未知的對象的某些相關變量值就可以對其做出類型判定。
技術實現(xiàn)要素:
本發(fā)明的目的在于考慮上述問題而提供一種基于CART算法對電力用戶進行分級,對不同信用等級的用戶采取不同的電費回收措施,從而規(guī)避電費回收的風險的方法。
本發(fā)明的技術方案是:基于CART算法,對用戶信用等級進行分析,建立繳電用戶畫像,設計并實現(xiàn)用戶信用等級分析模型,包括如下步驟:
1)根據(jù)調研和供電公司提供的數(shù)據(jù),對調研結果和數(shù)據(jù)進行分析綜合,為客戶群體的數(shù)據(jù)模型建立做準備;
2)建立電費繳納客戶的用戶畫像;
3)基于CART算法對用戶的繳費偏好進行建模;
4)通過數(shù)據(jù)訓練實現(xiàn)用戶信用等級分析技術。
進一步地,在所述步驟1)中,對繳費客戶群體典型行為進行分析,首先需要用特征權重優(yōu)化方法對個體用戶畫像中各權重進行調整優(yōu)化,得到調整后的最優(yōu)個體用戶畫像,再對最優(yōu)個體用戶畫像進行聚類及建模,得到群體用戶畫像及數(shù)據(jù)模型。
進一步地,在所述步驟2)中,建立電費繳納客戶的用戶畫像可分為三個層次:第一層次是群體用戶的調查分析;第二層次是數(shù)據(jù)分析的具象化個體描述;第三層次是抽象數(shù)據(jù)建模后的開發(fā)應用。
進一步地,在所述步驟3)中,CART算法是將基尼指標作為選擇最佳分裂屬性的標準,建樹時采用遞歸的方式;
Gini指標是樣本純凈程度的一種度量,其值越小越純凈;己知樣本集T,則Gini值表示如下:
式中:pi-屬于某一類的幾率概率;N-類別數(shù);
若數(shù)據(jù)集T選擇屬性A作為分裂屬性,將原數(shù)據(jù)集T分成T1和T2兩個子集,則分裂后的Gini值表示如下:
式中:Gini(T1)和Gini(T2)分別表示根據(jù)(1-1)式計算得到;
在決策樹構建的過程中,選擇分裂前后雜質變化量最大的屬性作為最佳分裂屬性,其公式表示如下:
Gini(A,T)=Gini(T)-GiniSplit(A)(T) (1-3)
式中Gini(T)和GiniSplit(A)(T)分別根據(jù)公式(1-1)和(1-2)計算。
進一步地,在所述步驟3)中,CART算法建立模型的樹生長階段選用GINI差異性指標作為分支標準,在最優(yōu)樹選擇階段選用K-折交叉驗證作為驗證方法。其它設定的參數(shù)為:此模型建立選擇不對變量加權重,既不人為地強調某個變量的重要性,也不根據(jù)某變量值出現(xiàn)的頻率而加重此變量值的重要性;樹的最高深度設置為5層;采用訓練集中的類的概率分布,并使用成本矩陣糾正先驗概率;不對缺失值的處理參數(shù)進行設置;當父節(jié)點中的對象個數(shù)少于總對象個數(shù)的2%時,或者孩子節(jié)點中的對象個數(shù)少于總對象個數(shù)的1%時,停止樹的增長;選擇Prune tree,即當一個節(jié)點的以下分支所建的模型準確率提高不明顯時,那么將自動刪除此節(jié)點以下的所有分支。
進一步地,所述步驟4)中數(shù)據(jù)訓練的具體方法是:
將通過用戶畫像建立得到的用戶因素經(jīng)過量化、歸一化預處理,轉換為數(shù)字信息,作為網(wǎng)絡的輸入向量;經(jīng)過挖掘系統(tǒng)智能配置,采用兩個隱層,每個隱層二十個節(jié)點的網(wǎng)絡;網(wǎng)絡的輸出為對應與輸入因素的一個關于用戶欠費風險的判斷;在數(shù)據(jù)訓練指導中,如果用戶欠費則風險置1,否則置0;網(wǎng)絡的學習因子為η=0.3;慣性系數(shù)初始化為α0=0.5,αmax=0。
本申請基于CART算法對電力用戶進行分析,有益效果是得到了消費走高-信譽走高模式的結論,具體表現(xiàn)為企業(yè)用戶用電量大幅度的增長并且持續(xù)時間較長時,該企業(yè)具有較好的信譽,欠費幾率相對很小。本申請基于CART算法對電力用戶進行分級,對不同信用等級的用戶采取不同的電費回收措施,從而可以規(guī)避電費回收的風險。因此,基于CART算法的用戶信用等級分析技術具有一定的實用性。
附圖說明
圖1為建立用戶畫像層次。
圖2為CART算法流程圖。
具體實施方式
實施例:
基于CART算法,對用戶信用等級進行分析,建立繳電用戶畫像,設計并實現(xiàn)用戶信用等級分析模型,包括有如下步驟:
1)根據(jù)調研和供電公司提供的數(shù)據(jù),對調研結果和數(shù)據(jù)進行分析綜合,為客戶群體的數(shù)據(jù)模型建立做準備;
2)建立電費繳納客戶的用戶畫像;
3)基于CART算法對用戶的繳費偏好進行建模;
4)通過數(shù)據(jù)訓練實現(xiàn)用戶信用等級分析技術。
在上述步驟1)中,對繳費客戶群體典型行為進行分析,首先需要用特征權重優(yōu)化方法對個體用戶畫像中各權重進行調整優(yōu)化,得到調整后的最優(yōu)個體用戶畫像,再對最優(yōu)個體用戶畫像進行聚類及建模,得到群體用戶畫像及數(shù)據(jù)模型。
繳費客戶群體典型行為分析主要依據(jù)是問卷調查和供電公司提供的繳費數(shù)據(jù),分析內容包括:
在上述步驟2)中,建立電費繳納客戶的用戶畫像可分為三個層次:第一層次是群體用戶的調查分析;第二層次是數(shù)據(jù)分析的具象化個體描述;第三層次是抽象數(shù)據(jù)建模后的開發(fā)應用,如附圖1。
在上述步驟3)中,CART算法是將基尼指標作為選擇最佳分裂屬性的標準,建樹時采用遞歸的方式;
Gini指標是樣本純凈程度的一種度量,其值越小越純凈。己知樣本集T,則Gini值表示如下:
式中:pi-屬于某一類的幾率概率;N-類別數(shù)。
若數(shù)據(jù)集T選擇屬性A作為分裂屬性,將原數(shù)據(jù)集T分成T1和T2兩個子集,則分裂后的Gini值表示如下:
式中:Gini(T1)和Gini(T2)分別表示根據(jù)(1-1)式計算得到;
在決策樹構建的過程中,選擇分裂前后雜質變化量最大的屬性作為最佳分裂屬性,其公式表示如下:
Gini(A,T)=Gini(T)-GiniSplit(A)(T) (1-3)
式中Gini(T)和GiniSplit(A)(T)分別根據(jù)公式(1-1)和(1-2)計算。
CART模型構建的基本流程圖如附圖2所示。
在上述步驟3)中,CART算法建立模型的樹生長階段選用GINI差異性指標作為分支標準,在最優(yōu)樹選擇階段選用K-折交叉驗證作為驗證方法。其它設定的參數(shù)為:此模型建立選擇不對變量加權重,既不人為地強調某個變量的重要性,也不根據(jù)某變量值出現(xiàn)的頻率而加重此變量值的重要性;樹的最高深度設置為5層;采用訓練集中的類的概率分布,并使用成本矩陣糾正先驗概率;不對缺失值的處理參數(shù)進行設置;當父節(jié)點中的對象個數(shù)少于總對象個數(shù)的2%時,或者孩子節(jié)點中的對象個數(shù)少于總對象個數(shù)的1%時,停止樹的增長;選擇Prune tree,即當一個節(jié)點的以下分支所建的模型準確率提高不明顯時,那么將自動刪除此節(jié)點以下的所有分支。
在上述步驟4)中,數(shù)據(jù)訓練的具體方法是:
將通過用戶畫像建立得到的用戶因素經(jīng)過量化、歸一化預處理,轉換為數(shù)字信息,作為網(wǎng)絡的輸入向量;經(jīng)過挖掘系統(tǒng)智能配置,采用兩個隱層,每個隱層二十個節(jié)點的網(wǎng)絡;網(wǎng)絡的輸出為對應與輸入因素的一個關于用戶欠費風險的判斷;在數(shù)據(jù)訓練指導中,如果用戶欠費則風險置1,否則置0;網(wǎng)絡的學習因子為η=0.3;慣性系數(shù)初始化為α0=0.5,αmax=0。