本發(fā)明涉及電力客戶價值分群的一種聚類方法,具體涉及電力客戶價值分群的一種加權(quán)K-means方法。
背景技術(shù):
21世紀是一個信息的時代,信息對于各行各業(yè)的影響都起到了一個至關(guān)重要的作用。面對目前供電企業(yè)每天都在產(chǎn)生和更新的龐大的企業(yè)運營管理數(shù)據(jù),那么要怎樣去利用這些數(shù)據(jù),從眾多凌亂的數(shù)據(jù)中挖掘出潛在的客戶價值,進而幫助電力企業(yè)改進營銷決策、降低運營成本、提高企業(yè)收益,是每個供電企業(yè)都在努力的方向。數(shù)據(jù)挖掘技術(shù)作為一種可以在大量數(shù)據(jù)中發(fā)現(xiàn)潛在的信息的數(shù)據(jù)處理手段便在此脫穎而出,該技術(shù)已經(jīng)成了處理電力行業(yè)信息化的建設(shè)過程中所積累的海量歷史數(shù)據(jù)的重要手段,數(shù)據(jù)挖掘技術(shù)的應用也將會為供電企業(yè)提供一個更為廣闊的發(fā)展空間。
傳統(tǒng)K-means聚類算法是目前客戶分群常用的一種數(shù)據(jù)挖掘技術(shù)手段。傳統(tǒng)K-means聚類算法簡單,收斂速度也很快,因此常常被用于客戶的分群。其做法是首先隨機生成K個初始聚類中心,然后將剩余的數(shù)據(jù)樣本歸入K個聚類中心所屬群,重新計算聚類中心,假如中心改變,則重新聚類,直至聚類中心不改變,結(jié)束算法。
對于電力客戶特征變量數(shù)據(jù)分布密度差異大的特點,如果直接采用傳統(tǒng)K-means聚類算法,顯然會造成高密度小群瓜分低密度大群的現(xiàn)象。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是:提出一種電力客戶價值分群的一種加權(quán)K-means方法,它適合實際運營數(shù)據(jù),并且達到了提高聚類緊湊性的效果,保證決策高效實施。
針對電力客戶價值分群的一種加權(quán)K-means方法,其特征在于:從電力客戶特征變量數(shù)據(jù)分布密度差異大的特點出發(fā),使用加權(quán)的K-means聚類算法對電力 客戶實現(xiàn)有效價值分群,具體包括以下步驟:
步驟1:首先算法確定了以加權(quán)的電力客戶群內(nèi)數(shù)據(jù)的標準差之和為聚類準則函數(shù),權(quán)重為該電力客戶群內(nèi)客戶個數(shù)占總客戶個數(shù)的比例;
步驟2:然后根據(jù)該準則函數(shù)在計算電力客戶對象與客戶群中心點之間的相似度時,以歐氏距離為前提,施以客戶群內(nèi)數(shù)據(jù)標準差為參考因素的權(quán)重,實現(xiàn)密度不均的電力客戶對象更精確的價值分群。
以加權(quán)的電力客戶群內(nèi)標準差之和為聚類準則函數(shù),是對電力客戶分群聚類效果的衡量;首先計算分群結(jié)果的各個電力客戶群內(nèi)數(shù)據(jù)的標準差,并給對應的標準差輔以該群內(nèi)客戶數(shù)占總客戶數(shù)的比例作為權(quán)重,權(quán)重的作用是增加客戶數(shù)較多的客戶群標準差的貢獻度,最后將各個加權(quán)的標準差值的總和作為最終電力客戶分群效果的衡量準則。
根據(jù)加權(quán)的聚類準則函數(shù),在計算電力客戶對象與客戶群中心點之間的相似度時,以歐氏距離為前提,施以客戶群內(nèi)數(shù)據(jù)標準差為參考因素的權(quán)重;計算客戶對象與客戶群中心點之間的相似度時,首先計算客戶對象與客戶群中心點之間的歐式距離,在此基礎(chǔ)上,施以客戶群中心原本的群內(nèi)數(shù)據(jù)標準差開方的倒數(shù)為權(quán)重,以此加權(quán)歐式距離作為客戶對象與客戶群中心點之間的相似度的度量,權(quán)重的作用是增加密度低大群數(shù)據(jù)歐氏距離的貢獻度,可以降低高密度小群與低密度大群之間邊界客戶的錯分情況,使得零散的客戶歸于稀疏的客戶群。
本發(fā)明具有如下有益效果:本發(fā)明使用了一種適合于電力客戶特征變量數(shù)據(jù)特點的加權(quán)K-means聚類算法,首先算法確定了以加權(quán)的電力客戶群內(nèi)數(shù)據(jù)的標準差之和為聚類準則函數(shù),權(quán)重為該電力客戶群內(nèi)客戶個數(shù)占總客戶個數(shù)的比例;然后根據(jù)該準則函數(shù)在計算電力客戶對象與客戶群中心點之間的相似度時,以歐氏距離為前提,施以客戶群內(nèi)數(shù)據(jù)標準差為參考因素的權(quán)重,實現(xiàn)密度不均的電力客戶對象更精確的價值分群。加權(quán)K-means聚類算法應用在電力客戶價值分群上的分群聚類結(jié)果表明,本發(fā)明是適合實際運營數(shù)據(jù)的,并且達到了提高聚類緊湊性的效果。更加優(yōu)質(zhì)的分群聚類結(jié)果也可以保證決策高效實施,最終為供電企業(yè)帶來更高的收益。
附圖說明
圖1為本發(fā)明的流程圖;
圖2為本發(fā)明的步驟1數(shù)據(jù)預處理的流程圖;
圖3為重要客戶提升度圖;
圖4為大客戶提升度圖;
圖5為重點關(guān)注客戶提升度圖;
圖6為居民客戶提升度圖;
圖7為其他客戶提升度圖。
具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明。
電力客戶價值分群的加權(quán)K-means聚類方法過程,具體步驟如下:
步驟1:數(shù)據(jù)預處理。首先對原始電力客戶營銷數(shù)據(jù)進行探索性分析,在此基礎(chǔ)上,剔除與分析目標無關(guān)的變量或者提取(構(gòu)造)模型所需變量,針對這些已選擇的數(shù)據(jù)進行處理。通過電力客戶營銷數(shù)據(jù)清洗、數(shù)據(jù)集成和數(shù)據(jù)變換,將原始電力客戶營銷數(shù)據(jù)處理成模型所需要的輸入特征數(shù)據(jù)集。
步驟2:對步驟1已經(jīng)處理好的電力客戶特征變量數(shù)據(jù)集初次聚類分群。首先使用隨機的方法選取K個初始聚類中心,使用歐式距離最短原則,將剩余的N-K個電力客戶對象歸入分屬K個聚類中心的群,完成初次聚類的K個電力客戶價值群。根據(jù)計算均值的方法重新計算K個電力客戶價值群的聚類中心,假如中心點發(fā)生變化則進行步驟3的迭代,否則終止算法,輸出聚類結(jié)果。
步驟3:如果步驟2沒有終止,則使用加權(quán)歐氏距離重新分群聚類,此過程為創(chuàng)新的迭代過程。首先根據(jù)前一次分群結(jié)果計算聚類中心所屬電力客戶價值群數(shù)據(jù)的標準差,以該標準差開方的倒數(shù)為對應電力客戶聚類中心的權(quán)重,計算除中心以外電力客戶對象分別到K個聚類中心的加權(quán)歐式距離,使用加權(quán)歐式距離最短的原則,將未分群的電力客戶對象歸入分屬K個聚類中心所在群,完成迭代分群聚類。然后以計算均值的方法重新計算得到新的聚類中心,如果中心發(fā)生變化,重復該步驟3的迭代過程,否則終止算法,輸出結(jié)果。
步驟4:模型評價。從模型的緊湊性和提升度來衡量模型的精確度。模型的緊湊性采用電力客戶分群結(jié)果的標準差來衡量,模型的提升度采用傳統(tǒng)K-means聚類與加權(quán)K-means聚類結(jié)果標準差的減少率來衡量。
所述的步驟1:具體說明如下:
抽取貴陽某供電企業(yè)2個月(2015年8月-2015年9月)電力客戶運營數(shù)據(jù)作為原始數(shù)據(jù)集。經(jīng)過數(shù)據(jù)探索性分析,確定了建模原始數(shù)據(jù)集,其數(shù)量總共有6078801條記錄,從該數(shù)據(jù)集中對進行數(shù)據(jù)清洗(如刪除實收電費記錄小于0的數(shù)據(jù))、數(shù)據(jù)變換(如對行業(yè)代碼重新編碼)、變量構(gòu)造(如月均用電量=總用電量/應繳次數(shù))、變量標準化。最終確定的建模指標變量包括月均用電量、平均電價、按期償還率、平均繳費時長、信用分值、用電類別代碼、行業(yè)分類代碼、合同容量,指標消除量綱標準化過程采用的是極差標準化: 其中,X′代表極差標準化后的電力客戶特征變量數(shù)據(jù),X代表原始電力客戶特征變量數(shù)據(jù),Xmax代表電力客戶特征變量數(shù)據(jù)最大值,相反Xmin代表電力客戶特征變量數(shù)據(jù)的最小值。預處理后抽取2516721條記錄,作為實驗建模數(shù)據(jù)集??紤]到不同的客戶類變量數(shù)據(jù)值的數(shù)量級差異很大,如居民客戶與大客戶的用電量和電費的差異都是很大的,為了降低這種變量值差異帶來的價值分群誤差,本實驗將電力客戶分成5大類,包括重要客戶、大客戶、重點關(guān)注客戶、居民客戶、其他客戶,分別進行客戶價值分群聚類。
所述的步驟2具體說明如下:
對步驟1已經(jīng)處理好的電力客戶特征變量數(shù)據(jù)集初次聚類分群。首先使用隨機的方法選取K個電力客戶對象作為初始聚類中心,使用歐式距離最短原則,將剩余的N-K個電力客戶對象歸入分屬K個電力客戶聚類中心的群,完成初次聚類的K個電力客戶價值群。根據(jù)計算均值的方法重新計算K個電力客戶價值群的聚類中心(該中心可以是非某個電力客戶的數(shù)據(jù),屬于均值的概念),假如客戶價值群的中心點發(fā)生變化則進行步驟3的迭代,否則終止算法,輸出電力客戶價值分群聚類結(jié)果。
歐式距離的計算公式為:
其中,d代表歐式距離,q代表電力客戶價值特征變量的個數(shù),p代表第p個電力客戶價值特征變量,x1、x2代表兩個電力客戶對象。
所述的步驟3具體說明如下:
如果步驟2沒有終止,則使用加權(quán)歐氏距離重新分群聚類,此過程為創(chuàng)新 的迭代過程。首先根據(jù)前一次電力客戶價值分群結(jié)果計算聚類中心所屬電力客戶價值群數(shù)據(jù)的標準差,以該標準差開方的倒數(shù)為對應電力客戶聚類中心的權(quán)重,計算除中心以外電力客戶對象分別到K個聚類中心的加權(quán)歐式距離,使用加權(quán)歐式距離最短的原則,將未分群的電力客戶對象歸入分屬K個聚類中心所在群,完成迭代分群聚類。然后以計算均值的方法重新計算得到新的電力客戶價值分群結(jié)果的聚類中心,如果中心發(fā)生變化,重復該步驟3的迭代過程,否則終止算法,輸出電力客戶價值分群聚類結(jié)果。
加權(quán)歐式距離計算公式:Wk·dist(Ck·x)
其中dist()表示計算電力客戶對象之間數(shù)據(jù)的歐式距離;Ck代表第k個電力客戶價值群的聚類中心;x代表除聚類中心的任意電力客戶對象;Wk代表第k個電力客戶價值群的聚類中心對應的權(quán)重,即該聚類中心原來的客戶群數(shù)據(jù)的標準差開方的倒數(shù)
標準差的計算公式:
其中,n代表該電力客戶價值群的總客戶數(shù),xi表示該電力客戶價值群的一個客戶數(shù)據(jù)對象,μ表示該電力客戶價值群的數(shù)據(jù)均值。
所述的步驟4具體說明如下:
從模型的緊湊性和提升度來衡量模型的精確度。模型的緊湊性采用電力客戶分群結(jié)果的標準差來衡量,模型的提升度采用傳統(tǒng)K-means聚類與加權(quán)K-means聚類結(jié)果標準差的減少率來衡量。
標準差的計算公式由步驟3已給出,標準差越小說明電力客戶價值分群的緊湊性越強,分群聚類效果越好。
提升度的計算公式:r=[(σ′-σ)/σ′]×100%
其中,r表示提升度,也是加權(quán)K-means聚類算法相比傳統(tǒng)K-means聚類算法標準差的減少率,σ表示加權(quán)K-means聚類算法得到的電力客戶價值分群結(jié)果的數(shù)據(jù)標準差,σ′表示傳統(tǒng)的K-means聚類算法使用同樣的初始聚類中心的前提下,得到的電力客戶價值分群結(jié)果的數(shù)據(jù)標準差。提升度為正值說明加權(quán)K-means 聚類算法比傳統(tǒng)K-means算法聚類效果緊湊性更好,為負值時說明效果更差;提升度的值越大說明加權(quán)K-means比傳統(tǒng)K-means聚類效果越好,越小說明效果越差。
從表1可以看出,加權(quán)的K-means聚類算法使得電力客戶價值分群聚類結(jié)果的所有客戶價值群標準差的平均值都有顯著減少,5個客戶類的客戶價值群標準差平均減少14.50%,這說明加權(quán)的K-means聚類算法使得電力客戶價值分群聚類的各個客戶價值群更為緊湊。特別地,居民客戶的價值分群聚類結(jié)果中,所有客戶群的標準差都減少了,減少率范圍是4.88%-96.00%,明顯改善了價值分群聚類的效果。其他4個客戶類中雖然都會出現(xiàn)有一個客戶群的標準差變差了,但是促使了其它客戶群的標準差更顯著地改善,從而保證了整體分群效果的緊湊性。加權(quán)的K-means聚類算法是通過犧牲原本比較松散的客戶群為代價,以確保電力客戶整體的價值分群聚類效果的改善。而且,原本比較松散的的電力客戶對象就是比較模棱兩可的客戶,很可能就是一個比較松散的電力客戶價值群,或者是噪聲點、異常值之類的電力客戶對象,故將密度大的電力客戶價值群周邊比較松散的電力客戶對象劃分到松散的電力客戶價值群,可以保證電力客戶整體價值分群聚類效果的改進。
表1 傳統(tǒng)K-means與加權(quán)K-means結(jié)果各群標準差比較
當然,以上只是本發(fā)明的具體應用范例,本發(fā)明還有其他的實施方式,凡采用等同替換或等效變換形成的技術(shù)方案,均落在本發(fā)明所要求的保護范圍之內(nèi)。