一種基于聚類算法的通信用戶消費趨勢檢測方法與流程

文檔序號：11952947閱讀：573來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本使用新型專利涉及通信行業(yè)用戶消費趨勢的特征分析；

背景技術(shù)：

有關(guān)時間序列的分析被廣泛地應(yīng)用于科學(xué)研究、工程應(yīng)用乃至社會、經(jīng)濟領(lǐng)域；時間序列分析建模基于一定數(shù)據(jù)假設(shè)，比如服從某平穩(wěn)過程ARMA模型，或者經(jīng)過差分處理的平穩(wěn)過程ARIMA模型；但是，這些模型假設(shè)很難完全應(yīng)用于實際的電信客戶消費序列分析中；總體上看，客戶的通信消費應(yīng)當(dāng)是一個穩(wěn)定的過程，但是由于競爭對手、替代服務(wù)、以及其它不確定、突變的因素都不同程度對客戶通信消費產(chǎn)生影響；

我們提取出一組客戶消費序列，以下是通用用戶消費趨勢的分類以及抽樣圖形展示:

相對穩(wěn)定的消費序列，如附圖1、附圖2；

趨勢穩(wěn)定但波動較大的消費序列，如附圖3、附圖4；

有明顯時序傾向的消費序列，如附圖5、附圖6；

通信用戶消費并不符合“高斯獨立同分布”(I.I.D)假設(shè)，主要原因是：雖然客戶消費存一定的隨機性，但大多數(shù)消費序列都體現(xiàn)出一定連續(xù)性，與前一段時間的消費成一定相關(guān)性，并非完全的“噪聲”分布；采用基于時間滑動窗口的識別手段也不理想，難以確定合適的窗口大小，統(tǒng)計結(jié)果表現(xiàn)很大的隨機性，影響正常的業(yè)務(wù)分析；如果簡單就“時間”和“月消費額”的二維矢量進行一般性的聚類處理，比如采用K均值算法，可能會出現(xiàn)非嚴(yán)格時序排列的聚類分割，分割的簇在時間上彼此交叉，這樣不利于進行時序分析；

技術(shù)實現(xiàn)要素：

為了解決上述現(xiàn)有技術(shù)方案所存在的問題，本發(fā)明專利提出了能夠根據(jù)通信用戶消費序列對用戶消費水平進行聚類細(xì)分；本發(fā)明專利是通過以下技術(shù)方案實現(xiàn)的：

通信用戶消費信息采集模塊：從運營商計費系統(tǒng)、或者數(shù)據(jù)倉庫系統(tǒng)，采集用戶消費的賬單數(shù)據(jù)，并將消費數(shù)據(jù)按照用戶粒度、月/日粒度進行匯總，每個用戶形成一個消費序列；

在線序列聚類計算模塊：根據(jù)采集模塊輸入的用戶序列數(shù)據(jù)，進行序列聚類，將時間相近、消費差距小的點進行聚集，聚類數(shù)量根據(jù)一定測度標(biāo)準(zhǔn)，最終形成一定數(shù)量的聚類；

消費趨勢分析模塊：對計算形成的聚類簇均值，進行比較，可以進行聚類簇均值的環(huán)比，判定用戶的消費趨勢；同時對于只有1-2個成員的聚類簇，可視為消費異常點；

附圖說明

結(jié)合附圖，本發(fā)明專利的技術(shù)特征以及優(yōu)點將會被本領(lǐng)域技術(shù)人員更好地理解，其中：

圖1、圖2為相對穩(wěn)定的客戶消費序列；

圖3、圖4為趨勢穩(wěn)定但波動較大的消費序列；

圖5、圖6為有明顯時序傾向的消費序列；

圖7、圖8為消費序列進行聚類劃分之后，對每個簇的評價，以有效反映客戶不同時期的消費特性；

圖9 為本發(fā)明專利基于通信消費序列數(shù)據(jù)聚類識別消費趨勢的實施流程圖；

圖10為本發(fā)明專利基于通信消費序列數(shù)據(jù)聚類識別消費異常的實施流程圖；

具體實施方式

采用聚類的基本思路，將消費相近的序列聚合成一簇，將不同時期差異化的消費水平，分離出來；為此，參考“層次聚類”分析的基本思路，對消費序列進行聚類處理，將消費相近的一類用戶；

序列聚類的基本思路是：基于時間順序，將消費額相近的數(shù)據(jù)化為一簇，進而通過簇內(nèi)、簇間的數(shù)據(jù)分析描述客戶的整體消費行為；參考了基于層次聚類的基本思想，具體算法如下：

序列聚類算法

1．初始化序列：將序列按照時間順序輸入數(shù)組A[]中；

2．遍歷A[]，按照某種測度，比較相鄰兩簇之間的相似性，得出最“近似”的兩相鄰簇：

3．進行簇歸并，對歸并后的模型進行評價，記入B[]中，如果已經(jīng)歸并到根節(jié)點，則轉(zhuǎn)下一步，否則轉(zhuǎn)第步；

4．遍歷B[]，取出模型評價最高的聚類模型，作為實際的聚類模型；

其中簇之間的“測度”可以考慮采用“簇之間均值的差異”、“歸并后增加的簇內(nèi)距離和”、“歸并后增加的簇內(nèi)平均距離”、“簇之間分布的相似性”(比如基于某類分布的優(yōu)先擬合度檢驗)等；在原型通信用戶消費序列聚類建模中，第l、3種方法受異常孤立點的干擾影響較大，傾向于“大簇”之間的歸并，這樣不利我們的時序分析，根據(jù)實際情況，采用第2種方法“歸并后增加的簇內(nèi)距離和”，用于實際的序列聚類建模；

模型評價采用基于BIC^[4](Bayesian Information Criterion貝葉斯信息準(zhǔn)則)描述：

(1)

其中是對數(shù)似然，d是模型自由參數(shù)的個數(shù)，N是樣本數(shù)目；假定每個簇內(nèi)，數(shù)據(jù)(己剔除孤立點)服從正態(tài)分布，求解對數(shù)似然，具體如下：

(2)

、是各個簇i的均值和方差的估計值，自由參數(shù)d設(shè)定為3M-1，M為簇的數(shù)目，是BIC對復(fù)雜模型的懲罰項，式(1)綜合考慮了模型的數(shù)據(jù)擬合度和模型復(fù)雜性；在所有的聚類組合中，計算各自的BIC，選擇其中的極小值；

對消費序列進行聚類劃分之后，可以通過對每個簇的評價，比如簇大小、簇內(nèi)均值、方差等，以及簇之間的變化能夠有效反映客戶不同時期的消費特性；參考附圖7、附圖8；

對客戶歷史消費序列的聚類建模，能夠有效地區(qū)分出消費差異顯著的不同起止時間段，為“消防趨勢”提供直接的數(shù)據(jù)支持；

比如在收入流失鑒別中，通過比較時間最近兩“簇”的消費平均值，作為流失評價的依據(jù)，比如將最后一“簇”的平均消費值低于前一“簇”平均值30％視為“收入流失”，并將此作為進一步個體流失分析的輸入數(shù)據(jù)依據(jù)，參考圖9，具體操作步驟101～104所述；

除此以外，還能夠?qū)νㄐ畔M中的異常孤立點進行監(jiān)控，在上述計算方法中，孤立點是指僅僅包括1-2個點的簇，可以對個體用戶的消費孤立點進行進一步分析，參考圖10，具體步驟201～204。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：不公告發(fā)明人;
技術(shù)所有人：南京坦道信息科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于聚類算法的通信用戶消費趨勢檢測方法與流程