一種基于CART算法的分析用戶信用等級的方法與流程

文檔序號：12125678閱讀：740來源：國知局

本發(fā)明屬于一體化網(wǎng)絡繳費領域，特別涉及一種基于CART算法的分析用戶信用等級的方法。

背景技術：

隨著繳費渠道建設多樣化、交費方式多元化的發(fā)展，原有電力機構營業(yè)所繳費的“單一交費”模式被打破，一體化繳費接入管理平臺應運而生，隨著網(wǎng)絡繳費的用戶規(guī)模不斷擴大，網(wǎng)絡空間失信事件頻發(fā)，網(wǎng)絡用戶信用出現(xiàn)問題，因此設計一個合理的規(guī)避電費回收風險機制，減少供電企業(yè)的經(jīng)營風險，具有現(xiàn)實意義。

隨著社會的快速發(fā)展，計算機、網(wǎng)絡和通訊等信息技術也發(fā)展迅速，人們利用一體化繳費接入平臺來進行電費繳納的數(shù)量也在大大提高，應用的需求促使一門新的技術，也就是數(shù)據(jù)挖掘，應用于一體化繳費平臺。數(shù)據(jù)挖掘研究所涉及的學科領域和方法眾多，應用領域廣泛。決策樹算法屬于機器學習范疇，是一種建立分類模型的技術。由于模型結構和生成規(guī)則的簡潔性，而且決策樹自動控制程度很高，所以一直以來它都是很受歡迎的分類技術。決策樹算法也有多種，其中CART(Classification and Regression Trees)即分類回歸樹算法，是一種非參數(shù)的統(tǒng)計方法，主要用來進行分類研究的，可以同時處理連續(xù)變量和分類變量，其首要目標就是構造一個準確的分類模型用來進行預測，也就是研究引起分類現(xiàn)象發(fā)生的變量及變量之間的相互作用，通過建立決策樹和決策規(guī)則對類型未知的對象進行類別預測，即通過類型未知的對象的某些相關變量值就可以對其做出類型判定。

技術實現(xiàn)要素：

本發(fā)明的目的在于考慮上述問題而提供一種基于CART算法對電力用戶進行分級，對不同信用等級的用戶采取不同的電費回收措施，從而規(guī)避電費回收的風險的方法。

本發(fā)明的技術方案是：基于CART算法，對用戶信用等級進行分析，建立繳電用戶畫像，設計并實現(xiàn)用戶信用等級分析模型，包括如下步驟：

1)根據(jù)調研和供電公司提供的數(shù)據(jù)，對調研結果和數(shù)據(jù)進行分析綜合，為客戶群體的數(shù)據(jù)模型建立做準備；

2)建立電費繳納客戶的用戶畫像；

3)基于CART算法對用戶的繳費偏好進行建模；

4)通過數(shù)據(jù)訓練實現(xiàn)用戶信用等級分析技術。

進一步地，在所述步驟1)中，對繳費客戶群體典型行為進行分析，首先需要用特征權重優(yōu)化方法對個體用戶畫像中各權重進行調整優(yōu)化，得到調整后的最優(yōu)個體用戶畫像，再對最優(yōu)個體用戶畫像進行聚類及建模，得到群體用戶畫像及數(shù)據(jù)模型。

進一步地，在所述步驟2)中，建立電費繳納客戶的用戶畫像可分為三個層次：第一層次是群體用戶的調查分析；第二層次是數(shù)據(jù)分析的具象化個體描述；第三層次是抽象數(shù)據(jù)建模后的開發(fā)應用。

進一步地，在所述步驟3)中，CART算法是將基尼指標作為選擇最佳分裂屬性的標準，建樹時采用遞歸的方式；

Gini指標是樣本純凈程度的一種度量，其值越小越純凈；己知樣本集T，則Gini值表示如下：

式中：p_i-屬于某一類的幾率概率；N-類別數(shù)；

若數(shù)據(jù)集T選擇屬性A作為分裂屬性，將原數(shù)據(jù)集T分成T₁和T₂兩個子集，則分裂后的Gini值表示如下：

式中：Gini(T₁)和Gini(T₂)分別表示根據(jù)(1-1)式計算得到；

在決策樹構建的過程中，選擇分裂前后雜質變化量最大的屬性作為最佳分裂屬性，其公式表示如下：

Gini(A,T)＝Gini(T)-Gini_Split(A)(T) (1-3)

式中Gini(T)和Gini_Split(A)(T)分別根據(jù)公式(1-1)和(1-2)計算。

進一步地，在所述步驟3)中，CART算法建立模型的樹生長階段選用GINI差異性指標作為分支標準，在最優(yōu)樹選擇階段選用K-折交叉驗證作為驗證方法。其它設定的參數(shù)為：此模型建立選擇不對變量加權重，既不人為地強調某個變量的重要性，也不根據(jù)某變量值出現(xiàn)的頻率而加重此變量值的重要性；樹的最高深度設置為5層；采用訓練集中的類的概率分布，并使用成本矩陣糾正先驗概率；不對缺失值的處理參數(shù)進行設置；當父節(jié)點中的對象個數(shù)少于總對象個數(shù)的2％時，或者孩子節(jié)點中的對象個數(shù)少于總對象個數(shù)的1％時，停止樹的增長；選擇Prune tree，即當一個節(jié)點的以下分支所建的模型準確率提高不明顯時，那么將自動刪除此節(jié)點以下的所有分支。

進一步地，所述步驟4)中數(shù)據(jù)訓練的具體方法是：

將通過用戶畫像建立得到的用戶因素經(jīng)過量化、歸一化預處理，轉換為數(shù)字信息，作為網(wǎng)絡的輸入向量；經(jīng)過挖掘系統(tǒng)智能配置，采用兩個隱層，每個隱層二十個節(jié)點的網(wǎng)絡；網(wǎng)絡的輸出為對應與輸入因素的一個關于用戶欠費風險的判斷；在數(shù)據(jù)訓練指導中，如果用戶欠費則風險置1，否則置0；網(wǎng)絡的學習因子為η＝0.3；慣性系數(shù)初始化為α₀＝0.5，α_max＝0。

本申請基于CART算法對電力用戶進行分析，有益效果是得到了消費走高-信譽走高模式的結論，具體表現(xiàn)為企業(yè)用戶用電量大幅度的增長并且持續(xù)時間較長時，該企業(yè)具有較好的信譽，欠費幾率相對很小。本申請基于CART算法對電力用戶進行分級，對不同信用等級的用戶采取不同的電費回收措施，從而可以規(guī)避電費回收的風險。因此，基于CART算法的用戶信用等級分析技術具有一定的實用性。

附圖說明

圖1為建立用戶畫像層次。

圖2為CART算法流程圖。

具體實施方式

實施例：

基于CART算法，對用戶信用等級進行分析，建立繳電用戶畫像，設計并實現(xiàn)用戶信用等級分析模型，包括有如下步驟：

1)根據(jù)調研和供電公司提供的數(shù)據(jù)，對調研結果和數(shù)據(jù)進行分析綜合，為客戶群體的數(shù)據(jù)模型建立做準備；

2)建立電費繳納客戶的用戶畫像；

3)基于CART算法對用戶的繳費偏好進行建模；

4)通過數(shù)據(jù)訓練實現(xiàn)用戶信用等級分析技術。

在上述步驟1)中，對繳費客戶群體典型行為進行分析，首先需要用特征權重優(yōu)化方法對個體用戶畫像中各權重進行調整優(yōu)化，得到調整后的最優(yōu)個體用戶畫像，再對最優(yōu)個體用戶畫像進行聚類及建模，得到群體用戶畫像及數(shù)據(jù)模型。

繳費客戶群體典型行為分析主要依據(jù)是問卷調查和供電公司提供的繳費數(shù)據(jù)，分析內容包括：

在上述步驟2)中，建立電費繳納客戶的用戶畫像可分為三個層次：第一層次是群體用戶的調查分析；第二層次是數(shù)據(jù)分析的具象化個體描述；第三層次是抽象數(shù)據(jù)建模后的開發(fā)應用，如附圖1。

在上述步驟3)中，CART算法是將基尼指標作為選擇最佳分裂屬性的標準，建樹時采用遞歸的方式；

Gini指標是樣本純凈程度的一種度量，其值越小越純凈。己知樣本集T，則Gini值表示如下：

式中：p_i-屬于某一類的幾率概率；N-類別數(shù)。

若數(shù)據(jù)集T選擇屬性A作為分裂屬性，將原數(shù)據(jù)集T分成T₁和T₂兩個子集，則分裂后的Gini值表示如下：

式中：Gini(T₁)和Gini(T₂)分別表示根據(jù)(1-1)式計算得到；

在決策樹構建的過程中，選擇分裂前后雜質變化量最大的屬性作為最佳分裂屬性，其公式表示如下：

Gini(A,T)＝Gini(T)-Gini_Split(A)(T) (1-3)

式中Gini(T)和Gini_Split(A)(T)分別根據(jù)公式(1-1)和(1-2)計算。

CART模型構建的基本流程圖如附圖2所示。

在上述步驟3)中，CART算法建立模型的樹生長階段選用GINI差異性指標作為分支標準，在最優(yōu)樹選擇階段選用K-折交叉驗證作為驗證方法。其它設定的參數(shù)為：此模型建立選擇不對變量加權重，既不人為地強調某個變量的重要性，也不根據(jù)某變量值出現(xiàn)的頻率而加重此變量值的重要性；樹的最高深度設置為5層；采用訓練集中的類的概率分布，并使用成本矩陣糾正先驗概率；不對缺失值的處理參數(shù)進行設置；當父節(jié)點中的對象個數(shù)少于總對象個數(shù)的2％時，或者孩子節(jié)點中的對象個數(shù)少于總對象個數(shù)的1％時，停止樹的增長；選擇Prune tree，即當一個節(jié)點的以下分支所建的模型準確率提高不明顯時，那么將自動刪除此節(jié)點以下的所有分支。

在上述步驟4)中，數(shù)據(jù)訓練的具體方法是：

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：胡博;金宇坤;劉君;姜德利;梁凱;韓春成;劉劍鋒;覃華勤;陳沖;馬紅波;袁浩;趙興遠;王瑩煜;
技術所有人：國網(wǎng)遼寧省電力有限公司鞍山供電公司;北京科東電力控制系統(tǒng)有限責任公司;
我是此專利的發(fā)明人

上一篇：一種自帶TF卡防掉卡機構的手機殼的制作方法與工藝
上一篇：一種系統(tǒng)權限管理方法、裝置及相應的設備與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

用戶畫像數(shù)據(jù)建模算法相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于CART算法的分析用戶信用等級的方法與流程