專利名稱:一種基于聚類的移動通信業(yè)務用戶虛開識別方法
技術領域:
本發(fā)明涉及數據挖掘領域,特別涉及一種基于聚類的移動通信業(yè)務用戶虛開識別 方法。
背景技術:
中國電信業(yè)經過多年的發(fā)展,在網絡建設、產品規(guī)劃、服務提升還是市場占有率等 方面都取得了長足發(fā)展,形成了在規(guī)模、收益和消費傾向上總體優(yōu)良的龐大客戶群。如何發(fā) 揮電信企業(yè)的綜合優(yōu)勢,實現靈活多變的市場營銷策略,為客戶提供更具有針對性的滿意 服務,同時最大限度合理配置和優(yōu)化資源,降低運營成本,增強核心競爭力,成為當前迫切 需要解決的問題之一。虛開客戶主要是指客戶資料虛假、開戶之后沒有或者幾乎沒有有效的語音話單, 但運營商卻要向發(fā)展該客戶的代理商支付一定的代理費。虛開客戶帶給運營商的實際收入 很少或者幾乎沒有,反而增加運營成本,造成不少損失。通常地,虛開用戶主要表現為1)收入少虛開用戶出賬費用一般很少,小于新入網用戶平均出賬費用的一半以 上,大部分虛開客戶甚至根本不出賬。2)話務量少如果開戶后一月之內還沒有或者很少的有效話單,這些客戶很可能是 虛開的;如果通話次數或者通話時長低于某一閾值,則也可能是虛開客戶。3)繳費少虛開客戶很少去繳費,或者繳費金額很少。4)客戶資料虛假多數虛開用戶的資料是虛假的,例如沒有用戶姓名或者身份證號 碼;格式不正確或者身份證號碼有誤;甚至沒有提供用戶資料。虛開行為和動機主要可歸納為1)銷售政策不合理,造成代理商騙取傭金,套機套卡等。2)指標壓力大,為了完成任務,拼命發(fā)展,不顧質量或者弄虛作假。3)用戶滿意度不高,對資費、服務、網絡等方面不滿,初期使用一兩次后就再也沒 有興趣使用。4)其他因素,如SP自消費、偶然因素、用戶自身短期流動,買卡后即離開等。通過識別虛開用戶,可以對新發(fā)展用戶質量進行監(jiān)控,規(guī)避市場風險。建立新發(fā)展 用戶質量評估體系,實現代理商的績效考核,為制定合理的代理傭金標準提供可靠的依據, 使銷售政策與質量評估掛鉤,傭金政策與質量評估掛鉤,贈費、贈款政策與質量評估掛鉤。 在保證用戶發(fā)展數量的同時,更應該注重用戶發(fā)展質量,加強用戶發(fā)展渠道管控。
發(fā)明內容
為了在眾多的移動通信業(yè)務新發(fā)展用戶中識別出以騙取代理傭金為目的的虛開 用戶,本發(fā)明提供了一種基于聚類的移動通信業(yè)務用戶虛開識別方法,所述方法包括如下 步驟
步驟101,數據準備,獲取移動通信業(yè)務新發(fā)展用戶近期的通話詳單和出帳費用明 細數據;步驟102,數據清洗,過濾掉無效的新發(fā)展用戶;步驟103,話務結構篩選,對于有效的新發(fā)展用戶根據其話務結構的關鍵指標進行 判別,劃分為正常和疑似虛開兩類用戶,即如果有效的新發(fā)展用戶的14個話務結構關鍵指 標值均大于當月在網用戶平均值的為正常用戶,否則為疑似虛開用戶,所述話務結構的關 鍵指標包括月計費總時長、月主叫計費時長、月被叫計費時長、月本地主叫計費時長、月本 地被叫計費時長、月長途主叫計費時長、月長途被叫計費時長、月計費總次數、月主叫計費 次數、月被叫計費次數、月本地主叫計費次數、月本地被叫計費次數、月長途主叫計費次數 和月長途被叫計費次數,共14個;步驟104,消費行為篩選,針對話務結構篩選后判定為疑似虛開的用戶,根據其消 費行為的關鍵指標進行判別,劃分為正常和疑似虛開兩類用戶,即日均消費額大于在網用 戶日均消費額的為正常用戶,否則為疑似虛開用戶;步驟105,通話行為篩選。針對經話務結構和消費行為篩選均判定為疑似虛開的用 戶,利用其入網后前100次通話時間間隔進行聚類分析;步驟106,虛開用戶鎖定,分析聚類結果,確定真正的虛開用戶。在本發(fā)明中,步驟105中對疑似的虛開用戶進行聚類的一種算法為1)隨機選擇k個樣本作為初始的聚類中心C1,C2,...,ck,設每個樣本向量為& = [屯,d12,...,dln],其中n為向量維度;2)將每個樣本向量按歐氏距離Ik-Ml = m丨nib _。|歸入聚類中心為Ci的類;3)重新調整聚類中心
其中=^en ‘丨“',隊是第土個
類別中的向量數;4)如果3)中的聚類中心不再變化,則停止迭代;否則,轉至2)。采用本發(fā)明的技術方案,利用數據挖掘技術通過對移動通信業(yè)務新發(fā)展用戶近期 的話務結構、消費行為和通話行為特征的深入挖掘,可以識別貌似正常但以騙取代理傭金 為目的的虛開用戶。通過識別虛開用戶,可以對新發(fā)展用戶質量進行監(jiān)控,規(guī)避市場風險。建立新發(fā)展 用戶質量評估體系,實現代理商的績效考核,為制定合理的代理傭金標準提供可靠的依據, 使銷售政策與質量評估掛鉤,傭金政策與質量評估掛鉤,贈費、贈款政策與質量評估掛鉤。 在保證用戶發(fā)展數量的同時,更應該注重用戶發(fā)展質量,加強用戶發(fā)展渠道管控。
圖1是本發(fā)明實施例1中提供的一種基于聚類的移動通信業(yè)務用戶虛開識別方法 的原理圖。圖2是本發(fā)明實施例1中提供的一種基于聚類的移動通信業(yè)務用戶虛開識別方法 的流程圖。
具體實施例方式為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明實施方 式作進一步地詳細描述。實施例1本實施例提供一種基于聚類的移動通信業(yè)務用戶虛開識別方法,該方法通過對移 動通信業(yè)務新發(fā)展用戶近期的話務結構、消費行為和通話行為特征的深入挖掘,可以識別 貌似正常但以騙取代理傭金為目的的虛開用戶。如圖2所示,本實施例所述方法的具體步驟如下步驟101 獲取移動通信業(yè)務新發(fā)展用戶近期的通話詳單和出帳費用明細數據。獲取某市運營商2008年12月新發(fā)展CDMA用戶146,283作為分析對象,從 ODS(Operation Data Store)系統(tǒng)和業(yè)務支撐系統(tǒng)抽取其最近連續(xù)三個月的通話詳單和出 賬費用明細數據,并合并匯總。步驟102 數據清洗,過濾掉無效的新發(fā)展用戶,其中無效的新發(fā)展用戶包括1) CDMA智能網用戶和C+W用戶2)當月離網的新發(fā)展用戶3)無客戶資料的用戶清洗后,當月有效的新發(fā)展用戶為125,629,其中CDMA準預付費用戶39,107,CDMA 后付費用戶86,522。步驟103 話務結構篩選。對于有效的新發(fā)展用戶根據其話務結構的14個關鍵指 標進行判別,劃分為正常和疑似虛開兩類用戶,即如果有效的新發(fā)展用戶的14個話務結構 關鍵指標值均大于當月在網用戶平均值的為正常用戶,否則為疑似虛開用戶,所述話務結 構的關鍵指標包括月計費總時長、月主叫計費時長、月被叫計費時長、月本地主叫計費時 長、月本地被叫計費時長、月長途主叫計費時長、月長途被叫計費時長、月計費總次數、月主 叫計費次數、月被叫計費次數、月本地主叫計費次數、月本地被叫計費次數、月長途主叫計 費次數和月長途被叫計費次數。對于當月有效的新發(fā)展CDMA用戶125,629,經過話務結構的14個關鍵指標篩選 后,發(fā)現疑似虛開用戶65,318,正常用戶60,311。步驟104 消費行為篩選。針對話務結構篩選后判定為疑似虛開的用戶,根據其消 費行為的關鍵指標進行判別,劃分為正常和疑似虛開兩類用戶,即日均消費額大于在網用 戶日均消費額的為正常用戶,否則為疑似虛開用戶。對于話務結構篩選后判定為疑似虛開的用戶65,318進行消費行為篩選,發(fā)現疑 似虛開用戶49,423,正常用戶15,895。步驟105 通話行為篩選。針對經話務結構和消費行為篩選均判定為疑似虛開的 用戶,利用其入網后前100次通話時間間隔進行聚類。對49,423疑似虛開用戶的前100次通話時間間隔(以小時為單位)進行聚類,聚 類結果如表1所示。表 1
對經話務結構和消費行為篩選均判定為疑似虛開的用戶前100次通話時間間隔 進行聚類的一種算法的具體步驟為1)隨機選擇k個樣本作為初始的聚類中心Cl,c2,. . .,ck,設每個樣本向量為& =[dn, d12,... , dln],其中n為向量維度,本例中k = 5,n = 100 ;2)將每個樣本向量按歐氏距離lh-c'l 二 minlh —。||歸入聚類中心為Ci的類;
J3)重新調整聚類中心 令(^ = [cn,ci2,cin],其中
隊是第i個
類別中的向量數;4)如果3)中的聚類中心不再變化,則停止迭代;否則,轉至2)。步驟106 分析話務結構和消費行為篩選均為疑似虛開用戶的前100次通話時間 間隔的聚類結果,由表1可知第一類用戶3205戶,入網24小時之內發(fā)生了通話行為,表面上看這類用戶不是虛 開的,三天內通話5次,但第7和第8次通話間隔時間持續(xù)一周左右。第二類用戶4782戶,入網后基本沒有通話。第三類用戶36584戶,通話間隔時間較為均勻,為正常使用的用戶。第四類用戶3491戶,入網后48小時之內通話3次,第3和第4次通話時間間隔近 10天,第5和第6次通話間隔時間更長達2個月。第五類用戶1361戶,入網初期通話行為與正常用戶相似,只是通話間隔時間是正 常用戶群的3 4倍,但隨著時間的推移,通話稀少,這類用戶具有潛在的離網風險。最終鎖定第一、二和四類為虛開客戶,共計11,478,占當月有效的新發(fā)展CDMA用 戶 125,629 的 9. 1%。本實施例基于聚類的移動通信業(yè)務虛開用戶識別的應用如下利用所述虛開用戶識別的建模,定期對移動通信業(yè)務的新發(fā)展用戶的話務結構、 消費行為和通話行為的特征深入挖掘,鎖定其中貌似正常但以騙取代理傭金為目的的虛開 用戶,并通過與定購套餐、入網地域、發(fā)展渠道等進行關聯分析,建立新發(fā)展用戶質量評估 體系,實現代理商的績效考核,為制定合理的代理傭金標準提供可靠的依據,使銷售政策與 質量評估掛鉤,傭金政策與質量評估掛鉤,贈費、贈款政策與質量評估掛鉤。實施例2本實施例描述了實現一種基于聚類的移動通信業(yè)務用戶虛開識別方法的計算機 程序流程,具體步驟如下步驟201 獲取如下數據1)匯總移動通信業(yè)務新發(fā)展用戶的月計費總時長total_Call_time、月主叫計費 時長zj_time、月被叫計費時長bj_time、月本地主叫計費時長local_z j_time、月本地被叫 計費時長loCal_bj_time、月長途主叫計費時長long_Zj_time、月長途被叫計費時長long_ bj_time、月計費總次數total_charge_time、月主叫計費次數z j_charge_time、月被叫計 費次數b j_charge_t ime、月本地主叫計費次數1 ocal_z j_charge_t ime、月本地被叫計費次 數local_bj_charge_time、月長途主叫計費次數long_z j_charge_time和月長途被叫計費 次數 long_b j_charge_time ;2)計算移動通信業(yè)務新發(fā)展用戶的日均消費額aVg_arpU ;3)匯總移動通信業(yè)務新發(fā)展用戶入網后100次通話時間的間隔屯,d2,. . .,d1QQ。步驟202 數據清洗,剔除無效的新發(fā)展用戶,即Nvalid = Ntotal-Ninvalid ;
步驟203 判斷有效的新發(fā)展用戶的月計費總時長total_Call_time、月主叫計費 時長z j_time等14個話務結構關鍵指標值是否大于當月在網用戶的平均值,如果有效的新 發(fā)展用戶的14個話務結構關鍵指標值均大于當月在網用戶的平均值,則是正常用戶;否則 為疑似虛開用戶。步驟204 判斷經話務結構篩選判定為疑似虛開用戶的aVg_arpu是否大于在網用 戶日均消費額,如果大于,則是正常用戶;否則為疑似虛開用戶;步驟205 對經話務結構和消費行為篩選后均為疑似虛開用戶的入網后前100次 通話時間間隔,設每個樣本向量為隊=[dn, d12,... , dln],其中n為向量的維度,隨機選擇 k個樣本作為初始的聚類中心Cl,c2,. . .,ck,本例中k = 5,n = 100 ;步驟206 按歐氏距離Ik -Mhminlb 歸入聚類中心為Ci的類;
J步驟207:將每個樣本向量重新調整聚類中心 令(^ = [cn, ci2, cin],其中
隊是第i個類別中的向量數; im N,步驟208 如果步驟207中的聚類中心不再變化,則轉至步驟209 ;否則,轉至步驟 206 ;步驟209 分析聚類結果,確定真正的虛開用戶。本發(fā)明具有如下優(yōu)點1.識別準確因為其識別原理,采用了三個層次逐級篩選的識別方法,識別虛開 用戶的精度較高;2.動態(tài)識別因為聚類過程中,采用了半監(jiān)督的聚類算法,引入了聚類類別數k, 由于聚類類別數是可以控制的,所以聚類的效果也是可以控制的。隨著實際情況的不同,改 變k值,保證算法收斂,實現動態(tài)識別虛開用戶;3.高效性識別過程中抽取了一系列關鍵指標,從多個維度刻畫了虛開用戶的典 型特征,操作簡單,成本低。以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和 原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
權利要求
一種基于聚類的移動通信業(yè)務用戶虛開識別方法,其特征在于,所述方法包括如下步驟步驟101,數據準備,獲取移動通信業(yè)務新發(fā)展用戶近期的通話詳單和出帳費用明細數據;步驟102,數據清洗,過濾掉無效的新發(fā)展用戶;步驟103,話務結構篩選,對于有效的新發(fā)展用戶根據其話務結構的關鍵指標進行判別,劃分為正常和疑似虛開兩類用戶,即如果有效的新發(fā)展用戶的14個話務結構關鍵指標值均大于當月在網用戶平均值的為正常用戶,否則為疑似虛開用戶,所述話務結構的關鍵指標包括月計費總時長、月主叫計費時長、月被叫計費時長、月本地主叫計費時長、月本地被叫計費時長、月長途主叫計費時長、月長途被叫計費時長、月計費總次數、月主叫計費次數、月被叫計費次數、月本地主叫計費次數、月本地被叫計費次數、月長途主叫計費次數和月長途被叫計費次數,共14個;步驟104,消費行為篩選,針對話務結構篩選后判定為疑似虛開的用戶,根據其消費行為的關鍵指標進行判別,劃分為正常和疑似虛開兩類用戶,即日均消費額大于在網用戶日均消費額的為正常用戶,否則為疑似虛開用戶;步驟105,通話行為篩選,針對經話務結構和消費行為篩選均判定為疑似虛開的用戶,利用其入網后前100次通話時間間隔進行聚類分析;步驟106,虛開用戶鎖定,分析聚類結果,確定真正的虛開用戶。
2.根據權利要求1所述的一種基于聚類的移動通信業(yè)務用戶虛開識別方法,其特征在 于,步驟105中對經話務結構和消費行為篩選均判定為疑似虛開用戶的前100次通話時間 間隔進行聚類的一種算法為1)隨機選擇!^個樣本作為初始的聚類中心^,^”…,^,設每個樣本向量為化=[dn, d12,...,dln],其中η為向量的維度;2)將每個樣本向量按歐氏距離Ih-Mhminh-cJ歸入聚類中心為Ci的類;J3)重新調整聚類中心Ci,令Ci=[cn,Ci2,Cin],其中二五,''Ni是第i個類別c,m N1中的向量數;4)如果3)中的聚類中心不再變化,則停止迭代;否則,轉至2)。
全文摘要
基于聚類的移動通信業(yè)務用戶虛開識別方法,屬于數據挖掘領域。為了在眾多的移動通信業(yè)務新發(fā)展用戶中識別以騙取代理傭金為目的的虛開用戶,本發(fā)明公開了一種基于聚類的移動通信業(yè)務用戶虛開識別方法。1.以移動通信業(yè)務新發(fā)展用戶為分析對象,采集新發(fā)展用戶近期話務結構、消費行為和通話行為的特征;2.經過數據清洗過濾無效的新發(fā)展用戶;3.利用話務結構和消費行為的關鍵指標進行甄別,然后針對通話行為進行聚類分析,完成識別虛開用戶的建模過程。通過識別虛開用戶,可以對新發(fā)展用戶質量進行監(jiān)控,規(guī)避市場風險。建立新發(fā)展用戶質量評估體系,為代理商績效考核以及代理傭金合理標準的制定提供科學依據。
文檔編號G06Q10/00GK101882146SQ20101017469
公開日2010年11月10日 申請日期2010年5月18日 優(yōu)先權日2010年5月18日
發(fā)明者鄭巖 申請人:北京郵電大學