一種基于隱馬爾可夫模型的移動通信用戶流失預測方法
【技術領域】
[0001] 本發(fā)明屬于數(shù)據(jù)業(yè)務領域,特別涉及一種基于隱馬爾可夫模型的移動通信用戶流 失預測方法。
【背景技術】
[0002] 移動通信用戶流失預測,對移動通信網(wǎng)絡制定適當?shù)臓I銷策略非常關鍵。營銷策 略是移動通信網(wǎng)絡公司通過對移動通信用戶的通信數(shù)據(jù)進行詳細分析,向移動通信用戶推 薦合適的套餐,減少用戶的損失,有利于挽回將要流失的其他通信網(wǎng)絡的用戶,由此加強移 動用戶的忠誠度,挽回和吸引其他通信網(wǎng)絡的用戶,從而促進移動通信網(wǎng)絡的發(fā)展。
[0003] 有關移動通信用戶流失預測方法的現(xiàn)有文獻中,碩士學位論文"基于數(shù)據(jù)挖掘的 移動客戶虛假離網(wǎng)研究"比較接近,其中的虛假離網(wǎng)是指某在網(wǎng)用戶因各種原因暫時離網(wǎng) 后,又以相同(或不同)的名義入網(wǎng)。該方法主要是通過人工分析影響移動客戶流失的因 素有哪些,從而建立模型,研究移動客戶虛假離網(wǎng)。但該方法僅僅是通過對小量數(shù)據(jù)進行分 析建模,難免會對移動用戶流失的關鍵因素產(chǎn)生錯誤判斷。
【發(fā)明內(nèi)容】
[0004] 針對現(xiàn)有技術存在的不足,本發(fā)明提供一種基于隱馬爾可夫模型的移動通信用戶 流失預測方法。
[0005] 本發(fā)明的技術方案是這樣:
[0006] -種基于隱馬爾可夫模型的移動通信用戶流失預測方法,包括以下步驟且各步驟 均是在hadoop大數(shù)據(jù)平臺上完成:
[0007] 步驟1 :采集移動用戶的通信記錄數(shù)據(jù);
[0008] 步驟2:數(shù)據(jù)預處理;
[0009] 基于移動用戶的通信記錄數(shù)據(jù),以月為單位,并按照下述8種屬性類別對移動用 戶的通信情況進行統(tǒng)計:(1)計費用戶號碼;(2)月通話時長;(3)月通話次數(shù);(4)月主被 叫比例;(5)月漫游次數(shù);(6)月掉話次數(shù);(7)月基本費用;(8)月長途費用;
[0010] 步驟3 :建立隱馬爾可夫模型,以下簡稱HMM模型;
[0011] 定義隱馬爾可夫模型中的觀測狀態(tài)節(jié)點集合3_= {S^Si,…,SJ對應{月通話 時長,月通話次數(shù),月主被叫比例,月漫游次數(shù),月掉話次數(shù),月基本費用,月長途費用};隱 狀態(tài)節(jié)點X={〇, 1},其中0代表客戶流失狀態(tài),1代表客戶未流失狀態(tài);
[0012] 步驟4 :對觀測狀態(tài)節(jié)點對應的數(shù)據(jù)進行處理;
[0013] 步驟4. 1:將觀測狀態(tài)節(jié)點對應的靜態(tài)數(shù)據(jù)轉換成趨勢數(shù)據(jù);
[0014] 利用公式(1)將觀測狀態(tài)節(jié)點的靜態(tài)數(shù)據(jù)轉換成趨勢數(shù)據(jù);
[0015]
[0016] 其中i的取值范圍0~6 ; 表示觀測狀態(tài)節(jié)點Si在第t個月的數(shù)據(jù)值;If>表 示轉換后的觀測狀態(tài)節(jié)點Si在第t個月的趨勢狀態(tài)數(shù)據(jù);-1表示該用戶這個月沒有通信數(shù) 據(jù);0表示該用戶這個月的通信數(shù)據(jù)下降;1表示該用戶這個月的通信數(shù)據(jù)平穩(wěn);2表示該 用戶這個月的通信數(shù)據(jù)上升;
[0017] 步驟4. 2 :將多個觀測狀態(tài)節(jié)點壓縮成一個觀測狀態(tài)節(jié)點;
[0018] 利用狀態(tài)壓縮的方式將多個觀測狀態(tài)節(jié)點壓縮成一個觀測狀態(tài)節(jié)點,如公式(2) 所示;
[0019]
[0020] 步驟5 :基于建立的HMM模型進行移動用戶流失預測;
[0021] 利用前T個月已知的觀測狀態(tài)節(jié)點的趨勢狀態(tài)數(shù)據(jù),計算第T月隱狀態(tài)節(jié)點的概 率分布,再進行歸一化,利用第T月隱狀態(tài)節(jié)點的概率分布計算隱狀態(tài)節(jié)點的狀態(tài)之間的 概率轉移得到移動用戶第T+1月的流失概率;具體包括如下步驟:
[0022] 步驟5. 1 :利用步驟1至步驟4的方法獲得T個月觀測狀態(tài)節(jié)點的趨勢狀態(tài)數(shù)據(jù);
[0023] 步驟5. 2 :初始化HMM模型參數(shù)λ= (A,B,π),并設置t= 0 ;
[0024]步驟5. 3 :通過第t個月的隱狀態(tài)節(jié)點X的概率分布Bel(X),利用隱狀態(tài)節(jié)點概 率轉移矩陣A計算第t+Ι個月隱狀態(tài)節(jié)點X的概率分布
;其 中Bel(X)表示隱狀態(tài)節(jié)點X在第t個月時的修正概率分布;P(Xt+11X)表示隱狀態(tài)節(jié)點X在第t個月轉移到第t+Ι個月的概率轉移;
[0025] 步驟5. 4 :使用隱狀態(tài)節(jié)點與觀測狀態(tài)節(jié)點的概率轉移矩陣B,修正第t+Ι個月 隱狀態(tài)節(jié)點X的概率分布得到修正概率分布Be1 (Xt+1)p(Yt+11xt+1)Be丨'(χ?);其中 P(Yt+1|Xt+1)表示在第t+1個月隱狀態(tài)節(jié)點與觀測狀態(tài)節(jié)點的概率轉移,目的通過第t+1個 月的觀測狀態(tài)節(jié)點修正第t+Ι個月的隱狀態(tài)節(jié)點的概率分布;
[0026] 步驟5. 5 :對第t+Ι個月的隱狀態(tài)節(jié)點X的修正概率分布進行歸一化,使隱狀態(tài)節(jié) 點的所有狀態(tài)的概率和為1 ;
[0027] 步驟 5. 6 :令t=t+Ι;
[0028] 步驟5. 7 :若t〈T,跳轉執(zhí)行步驟5. 3,否則執(zhí)行步驟5. 8 ;
[0029]步驟5. 8 :利用移動通信用戶第T個月隱狀態(tài)節(jié)點X的概率分布Bel(Χτ),通過隱 狀態(tài)節(jié)點概率轉移矩陣Α,計算下一個月即第T+1月移動通信用戶的隱狀態(tài)節(jié)點X的概率分 布
[0030] 根據(jù)所述的基于隱馬爾可夫模型的移動通信用戶流失預測方法,所述用戶流失為 該用戶在一個月內(nèi)沒有任何通信記錄的狀態(tài);
[0031] 根據(jù)所述的基于隱馬爾可夫模型的移動通信用戶流失預測方法,所述步驟5. 2中 所述初始化HMM模型參數(shù),包括如下具體步驟:
[0032] 步驟5. 2. 1:初始化隱含狀態(tài)轉移概率矩陣A;
[0033]
[0034]
[0035] 其中NUM(Xt=XuXt+1=Xj)表示在第t個月隱狀態(tài)節(jié)點X取值等于\并且在第 t+Ι個月隱狀態(tài)節(jié)點X取值等于X]的移動通信用戶數(shù)量總和;根據(jù)公式(3),⑷所示,在 完整數(shù)據(jù)集中,參數(shù)A的初始化是統(tǒng)計所有&1],即可得到隱狀態(tài)節(jié)點X的隱含狀態(tài)轉移概 率矩陣;
[0036] 步驟5. 2. 2 :初始化觀測狀態(tài)轉移概率矩陣B ;
[0037]
[0038]
[0039] 在公式(5)中,NUM(Xt=X,Yt=y)表示在第t個月隱狀態(tài)節(jié)點X取值為X,并且 在第t個月觀測狀態(tài)節(jié)點Y取值為y的移動通信用戶數(shù)量總和;根據(jù)公式(5),(6)可知, 參數(shù)B的初始化操作與參數(shù)A的初始化操作相似,但又有點不同,那就是參數(shù)A是不同月份 隱狀態(tài)節(jié)點的狀態(tài)轉移概率,而參數(shù)B是同一月份隱狀態(tài)節(jié)點與觀測狀態(tài)節(jié)點間的轉移概 率;
[0040] 步驟5. 2. 3:初始化初始狀態(tài)概率矩陣31;
[0041] 針對參數(shù)31,Jr表示初始隱狀態(tài)節(jié)點的狀態(tài)出現(xiàn)的概率,相當于第0個月隱狀 態(tài)節(jié)點的概率分布,因為該參數(shù)η無法從數(shù)據(jù)集中學習,一般設置每個狀態(tài)出現(xiàn)的概率相 等,即
[0042] 、7)。
[0043] 本發(fā)明的有益效果:本發(fā)明在大數(shù)據(jù)Hadoop分布式平臺上對通信數(shù)據(jù)進行分析 并預測,充分利用大數(shù)據(jù)的優(yōu)勢,對移動通信用戶的所有數(shù)據(jù)進行分析,提升了預測移動通 信用戶流失的準確性和高效性,為移動網(wǎng)絡通信營銷策略的規(guī)劃方案提供依據(jù)。
【附圖說明】
[0044]圖1為本發(fā)明【具體實施方式】的基于隱馬爾可夫模型的移動通信用戶流失預測方 法流程圖;
[0045]圖2為本發(fā)明【具體實施方式】構建的隱馬爾可夫模型的機構示意圖;
[0046]圖3為本發(fā)明【具體實施方式】基于建立的隱馬爾可夫模型進行移動用戶流失預測 的流程圖。
【具體實施方式】
[0047] 下面結合附圖對本發(fā)明的【具體實施方式】做詳細說明。
[0048] 本實施方式的基于隱馬爾可夫模型的移動通信用戶流失預測方法,如圖1所示, 包括如下步驟,其中步驟S2至步驟S6是在hadoop大數(shù)據(jù)平臺上完成的:
[0049] 步驟S1:定義移動用戶的流失狀態(tài);
[0050] 建立用戶流失預測模型的一個主要問題是對流失用戶給定一個邏輯定義。在前面 大部分的文獻研究中,移動通信用戶是與移動通信服務商簽訂合約,使用移動通信服務商 提供的通信服務。因此,"流失"應該被定義成用戶單方面終止合約或者合約過期。但是對 于預付費的移動通信服務商來說情況不同,用戶與服務商沒有合約,任何一個人可以買一 個SIM卡成為用戶。因此任何用戶在一段時間內(nèi)停止使用移動通信服務商提供的服務,即 可認定為流失用戶,也就是說流失用戶發(fā)生在沒有任何通話記錄的情況下。在本實施方式 中認定當一個用戶在一個月內(nèi)沒有任何通信記錄,即定義為流失用戶。
[0051] 步驟S2:采集移動用戶的通信記錄信息;
[0052] 通信記錄信息指移動用戶每次通信產(chǎn)生的數(shù)據(jù),包括:計費用戶號碼,對端用戶號 碼,通話起始時間,通話時長,呼叫類型,漫游類型,本地計費單元量,長途計費單元量,標準 批價基本費,標準批價長途費,生成時間(用戶第一次使用計費用戶號碼的時間);
[0053] 步驟S3:通過在hadoop大數(shù)據(jù)平臺上對移動用戶通話記錄數(shù)據(jù)進行預處理;
[0054] 根據(jù)移動用戶的通信記錄信息,以月為單位,并按照下述8種屬性類別對移動用 戶的通信情況進行統(tǒng)計;
[0055] (1)計費用戶號碼:移動通信用戶的唯一標識;(2)月通話時長:移動通信用戶每 個月的通話總時長;(3)月通話次數(shù):移動通信用戶每個月的通話總次數(shù);(4)月主被叫比 例:移動通信用戶每個月的主叫次數(shù)除以被叫次數(shù);(5)月漫游次數(shù):移動通信用戶每個月 的漫游總次數(shù);(6)月掉話次數(shù):移動通信用戶每個月的掉話次數(shù);所述掉話次數(shù)為某一移 動通信用戶給同一用戶在30秒內(nèi)進行2次及以上的通話次數(shù),定義該移動通信用戶通信過 程中發(fā)生掉話現(xiàn)象;(7)月基本費用:移動通信用戶每個月的本地通信費用總和;(8)月長 途費用:移動通信用戶每個月的長途通信費用總和;
[0056] 步驟S4:建立隱馬爾可夫模型;
[0057] 隱馬爾可夫模型(HiddenMarkovModel,HMM)(以下稱為HMM模型)如圖2所示, 其結構主要分為觀測狀態(tài)節(jié)點和隱狀態(tài)節(jié)點兩部分。本實施方式中定義隱馬爾可夫模型中 的觀測狀態(tài)節(jié)點集合S_= {S。,Si,…,SJ對應{月通話時長,月通話次數(shù),月主被叫比例, 月漫游次數(shù),月掉話次數(shù),月基本費用,月長途費用}。本實施方式中定義隱狀態(tài)節(jié)點X= {0, 1},其中0代表客流失狀態(tài),1代表未流失狀態(tài)。隱馬爾可夫模型中的觀測狀態(tài)節(jié)點會對 隱狀態(tài)節(jié)點產(chǎn)生影響,而利用月通話時長,月通話次數(shù)等這些觀測狀態(tài)節(jié)點并不能直接表 示出對隱狀態(tài)節(jié)點的具體影響如何,需要對觀測狀態(tài)節(jié)點數(shù)據(jù)作進一步處理,參見步驟5。
[0058] 步驟S5:對觀測狀態(tài)節(jié)點對應的數(shù)據(jù)進行處理;
[0059] 步驟S5. 1:將觀測狀態(tài)節(jié)點靜態(tài)數(shù)據(jù)轉換成趨勢數(shù)據(jù);
[0060] 為了使觀測狀態(tài)節(jié)點數(shù)據(jù)能直接反映其對隱狀態(tài)節(jié)點數(shù)據(jù)的影響,本實施方式將 觀測狀態(tài)節(jié)點靜態(tài)數(shù)據(jù)轉換成趨勢數(shù)據(jù),比如移動通信用戶費用突增,就能直接反應移動 通信用戶的流失狀態(tài)。本實施方式利用公式(1)將觀測狀態(tài)節(jié)點的靜態(tài)數(shù)據(jù)轉換成趨勢數(shù) 據(jù)。