本使用新型專利涉及通信行業(yè)用戶消費趨勢的特征分析;
背景技術(shù):
有關(guān)時間序列的分析被廣泛地應(yīng)用于科學(xué)研究、工程應(yīng)用乃至社會、經(jīng)濟領(lǐng)域;時間序列分析建模基于一定數(shù)據(jù)假設(shè),比如服從某平穩(wěn)過程ARMA模型,或者經(jīng)過差分處理的平穩(wěn)過程ARIMA模型;但是,這些模型假設(shè)很難完全應(yīng)用于實際的電信客戶消費序列分析中;總體上看,客戶的通信消費應(yīng)當(dāng)是一個穩(wěn)定的過程,但是由于競爭對手、替代服務(wù)、以及其它不確定、突變的因素都不同程度對客戶通信消費產(chǎn)生影響;
我們提取出一組客戶消費序列,以下是通用用戶消費趨勢的分類以及抽樣圖形展示:
相對穩(wěn)定的消費序列,如附圖1、附圖2;
趨勢穩(wěn)定但波動較大的消費序列,如附圖3、附圖4;
有明顯時序傾向的消費序列,如附圖5、附圖6;
通信用戶消費并不符合“高斯獨立同分布”(I.I.D)假設(shè),主要原因是:雖然客戶消費存一定的隨機性,但大多數(shù)消費序列都體現(xiàn)出一定連續(xù)性,與前一段時間的消費成一定相關(guān)性,并非完全的“噪聲”分布;采用基于時間滑動窗口的識別手段也不理想,難以確定合適的窗口大小,統(tǒng)計結(jié)果表現(xiàn)很大的隨機性,影響正常的業(yè)務(wù)分析;如果簡單就“時間”和“月消費額”的二維矢量進行一般性的聚類處理,比如采用K均值算法,可能會出現(xiàn)非嚴(yán)格時序排列的聚類分割,分割的簇在時間上彼此交叉,這樣不利于進行時序分析;
技術(shù)實現(xiàn)要素:
為了解決上述現(xiàn)有技術(shù)方案所存在的問題,本發(fā)明專利提出了能夠根據(jù)通信用戶消費序列對用戶消費水平進行聚類細(xì)分;本發(fā)明專利是通過以下技術(shù)方案實現(xiàn)的:
通信用戶消費信息采集模塊:從運營商計費系統(tǒng)、或者數(shù)據(jù)倉庫系統(tǒng),采集用戶消費的賬單數(shù)據(jù),并將消費數(shù)據(jù)按照用戶粒度、月/日粒度進行匯總,每個用戶形成一個消費序列;
在線序列聚類計算模塊:根據(jù)采集模塊輸入的用戶序列數(shù)據(jù),進行序列聚類,將時間相近、消費差距小的點進行聚集,聚類數(shù)量根據(jù)一定測度標(biāo)準(zhǔn),最終形成一定數(shù)量的聚類;
消費趨勢分析模塊:對計算形成的聚類簇均值,進行比較,可以進行聚類簇均值的環(huán)比,判定用戶的消費趨勢;同時對于只有1-2個成員的聚類簇,可視為消費異常點;
附圖說明
結(jié)合附圖,本發(fā)明專利的技術(shù)特征以及優(yōu)點將會被本領(lǐng)域技術(shù)人員更好地理解,其中:
圖1、圖2為相對穩(wěn)定的客戶消費序列;
圖3、圖4為趨勢穩(wěn)定但波動較大的消費序列;
圖5、圖6為有明顯時序傾向的消費序列;
圖7、圖8為消費序列進行聚類劃分之后,對每個簇的評價,以有效反映客戶不同時期的消費特性;
圖9 為本發(fā)明專利基于通信消費序列數(shù)據(jù)聚類識別消費趨勢的實施流程圖;
圖10為本發(fā)明專利基于通信消費序列數(shù)據(jù)聚類識別消費異常的實施流程圖;
具體實施方式
采用聚類的基本思路,將消費相近的序列聚合成一簇,將不同時期差異化的消費水平,分離出來;為此,參考“層次聚類”分析的基本思路,對消費序列進行聚類處理,將消費相近的一類用戶;
序列聚類的基本思路是:基于時間順序,將消費額相近的數(shù)據(jù)化為一簇,進而通過簇內(nèi)、簇間的數(shù)據(jù)分析描述客戶的整體消費行為;參考了基于層次聚類的基本思想,具體算法如下:
序列聚類算法
1.初始化序列:將序列按照時間順序輸入數(shù)組A[]中;
2.遍歷A[],按照某種測度,比較相鄰兩簇之間的相似性,得出最“近似”的兩相鄰簇:
3.進行簇歸并,對歸并后的模型進行評價,記入B[]中,如果已經(jīng)歸并到根節(jié)點,則轉(zhuǎn)下一步,否則轉(zhuǎn)第步;
4.遍歷B[],取出模型評價最高的聚類模型,作為實際的聚類模型;
其中簇之間的“測度”可以考慮采用“簇之間均值的差異”、“歸并后增加的簇內(nèi)距離和”、“歸并后增加的簇內(nèi)平均距離”、“簇之間分布的相似性”(比如基于某類分布的優(yōu)先擬合度檢驗)等;在原型通信用戶消費序列聚類建模中,第l、3種方法受異常孤立點的干擾影響較大,傾向于“大簇”之間的歸并,這樣不利我們的時序分析,根據(jù)實際情況,采用第2種方法“歸并后增加的簇內(nèi)距離和”,用于實際的序列聚類建模;
模型評價采用基于BIC[4](Bayesian Information Criterion貝葉斯信息準(zhǔn)則)描述:
(1)
其中是對數(shù)似然,d是模型自由參數(shù)的個數(shù),N是樣本數(shù)目;假定每個簇內(nèi),數(shù)據(jù)(己剔除孤立點)服從正態(tài)分布,求解對數(shù)似然,具體如下:
(2)
、是各個簇i的均值和方差的估計值,自由參數(shù)d設(shè)定為3M-1,M為簇的數(shù)目,是BIC對復(fù)雜模型的懲罰項,式(1)綜合考慮了模型的數(shù)據(jù)擬合度和模型復(fù)雜性;在所有的聚類組合中,計算各自的BIC,選擇其中的極小值;
對消費序列進行聚類劃分之后,可以通過對每個簇的評價,比如簇大小、簇內(nèi)均值、方差等,以及簇之間的變化能夠有效反映客戶不同時期的消費特性;參考附圖7、附圖8;
對客戶歷史消費序列的聚類建模,能夠有效地區(qū)分出消費差異顯著的不同起止時間段,為“消防趨勢”提供直接的數(shù)據(jù)支持;
比如在收入流失鑒別中,通過比較時間最近兩“簇”的消費平均值,作為流失評價的依據(jù),比如將最后一“簇”的平均消費值低于前一“簇”平均值30%視為“收入流失”,并將此作為進一步個體流失分析的輸入數(shù)據(jù)依據(jù),參考圖9,具體操作步驟101~104所述;
除此以外,還能夠?qū)νㄐ畔M中的異常孤立點進行監(jiān)控,在上述計算方法中,孤立點是指僅僅包括1-2個點的簇,可以對個體用戶的消費孤立點進行進一步分析,參考圖10,具體步驟201~204。