一種用于電信潛在換機(jī)用戶發(fā)現(xiàn)的數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)集構(gòu)建方法、類別不均衡問題解決方法,以及在數(shù)據(jù)集上采用決 策樹算法挖掘出電信潛在換機(jī)用戶的技術(shù)。
【背景技術(shù)】
[0002] 利用數(shù)據(jù)挖掘技術(shù)可以智能分析電信用戶數(shù)據(jù),發(fā)現(xiàn)潛在的用戶換機(jī)規(guī)律。常用 的電信潛在換機(jī)用戶數(shù)據(jù)挖掘中有一類應(yīng)用是決策樹分類算法,其基于用戶的消費(fèi)數(shù)據(jù)、 換機(jī)信息等對用戶未來的換機(jī)行為進(jìn)行預(yù)測。本發(fā)明也使用了KNN算法和聚類算法對類別 不均衡數(shù)據(jù)進(jìn)行了欠采樣處理,構(gòu)造數(shù)據(jù)平衡、分布均勻的數(shù)據(jù)集。同時在數(shù)據(jù)進(jìn)行預(yù)處理 時使用信息增益率進(jìn)行屬性選擇,選擇合適的屬性。也嘗試用數(shù)據(jù)處理技術(shù)去除干擾性噪 音數(shù)據(jù)。
[0003] 電信行業(yè)的運(yùn)營商幾乎每分每秒都在產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù),這些實(shí)時海量的數(shù)據(jù) 對于運(yùn)營商就像一座含有無數(shù)礦藏的礦山,本身并不能產(chǎn)生價值,但如果開采得當(dāng),就可以 得到想象不到的價值,而數(shù)據(jù)挖掘無疑就是最好的開采工具。在激烈的運(yùn)營商競爭中,運(yùn)用 數(shù)據(jù)挖掘去分析海量的業(yè)務(wù)數(shù)據(jù),對理解商業(yè)行為、了解客戶需求、把握產(chǎn)品和服務(wù)的走向 等等無疑有著不可估量的價值。
[0004] 基于數(shù)據(jù)挖掘進(jìn)行潛在換機(jī)用戶定位這一思路打破了傳統(tǒng)經(jīng)驗(yàn)總結(jié)的換機(jī)模型 的慣例,采用數(shù)據(jù)挖掘中的決策樹算法可以深入挖掘用戶換機(jī)的信息,發(fā)現(xiàn)用戶更換手機(jī) 的特點(diǎn)以及用戶換機(jī)的規(guī)律,克服了傳統(tǒng)地人為經(jīng)驗(yàn)總結(jié)不能更具針對性同時高精確性的 不足。
[0005] 近期以來,隨著大數(shù)據(jù)時代的來臨,將數(shù)據(jù)挖掘技術(shù)用于電信行業(yè)進(jìn)行商業(yè)價值 提升逐漸成為一種趨勢。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的,構(gòu)造預(yù)測用戶換機(jī)行為所需的訓(xùn)練數(shù)據(jù)集和預(yù)測數(shù)據(jù)集,并在訓(xùn) 練數(shù)據(jù)集上采用KNN和聚類算法,以處理類別不均衡的數(shù)據(jù)集。最后在數(shù)據(jù)集上實(shí)施決策 樹算法,以快速有效地發(fā)現(xiàn)潛在換機(jī)用戶。
[0007] 為解決上述問題,本發(fā)明的技術(shù)方案是,用于電信潛在換機(jī)用戶發(fā)現(xiàn)的數(shù)據(jù)挖掘 方法,包括如下步驟:
[0008] 1)數(shù)據(jù)集構(gòu)造階段:
[0009]a收集用戶消費(fèi)信息、用戶歷史換機(jī)信息、用戶信息、終端信息;
[0010] b數(shù)據(jù)預(yù)處理,同時產(chǎn)生數(shù)據(jù)集;
[0011] c處理類別不均衡的數(shù)據(jù)集,形成最終的訓(xùn)練集和預(yù)測集;
[0012] d結(jié)束。
[0013] 2)挖掘階段:
[0014]a獲取步驟l)-c中處理生成的數(shù)據(jù)集;
[0015] b實(shí)施數(shù)據(jù)挖掘算法發(fā)現(xiàn)潛在換機(jī)用戶;
[0016] c保存結(jié)果;
[0017] d結(jié)束。
[0018]步驟l)_a中所說的收集數(shù)據(jù)為收集電信客戶的消費(fèi)信息等相關(guān)數(shù)據(jù)。
[0019]步驟l)_b中所說的數(shù)據(jù)預(yù)處理具體過程如下:
[0020] 1)選擇用戶狀態(tài)表中狀態(tài)正常的用戶作為我們的預(yù)測用戶,每個用戶都有一個唯 一的user_id;
[0021] 2)以時間點(diǎn)為分割,規(guī)劃出每個用戶在該時間點(diǎn)之前的消費(fèi)信息、換機(jī)信息等,并 通過uSer_id關(guān)聯(lián)起來,以當(dāng)前月為時間分割點(diǎn)的是預(yù)測數(shù)據(jù)集,以前的其他月為時間分 割點(diǎn)的是訓(xùn)練數(shù)據(jù)集;
[0022] 3)求出每個屬性的信息增益率,選擇信息增益率大的屬性,摒棄信息增益率小的
【主權(quán)項(xiàng)】
1.用于電信潛在換機(jī)用戶發(fā)現(xiàn)的數(shù)據(jù)挖掘方法,其特征是包括如下步驟: 1) 數(shù)據(jù)集構(gòu)造階段: a收集用戶的消費(fèi)信息、用戶歷史換機(jī)信息、用戶信息、終端信息;b數(shù)據(jù)預(yù)處理,同時產(chǎn)生數(shù)據(jù)集; C處理類別不均衡的數(shù)據(jù)集,形成最終的訓(xùn)練集和預(yù)測集;d結(jié)束; 2) 挖掘階段: a獲取步驟1)-C中處理生成的數(shù)據(jù)集;b實(shí)施數(shù)據(jù)挖掘算法發(fā)現(xiàn)潛在換機(jī)用戶; C保存結(jié)果;d結(jié)束; 步驟1)-a中所說的收集數(shù)據(jù)為收集電信客戶的消費(fèi)信息等相關(guān)數(shù)據(jù); 步驟l)-b中所說的數(shù)據(jù)預(yù)處理具體過程如下: 1)選擇用戶狀態(tài)表中狀態(tài)正常的用戶作為我們的預(yù)測用戶,每個用戶都有一個唯一的user_id; 。則寸間點(diǎn)為分割,規(guī)劃出每個用戶在該時間點(diǎn)之前的消費(fèi)信息、換機(jī)信息等,并通過user_id關(guān)聯(lián)起來,W當(dāng)前月為時間分割點(diǎn)的是預(yù)測數(shù)據(jù)集,W前的其他月為時間分割點(diǎn)的 是訓(xùn)練數(shù)據(jù)集; 3) 求出每個屬性的信息增益率,選擇信息增益率大的屬性,擬棄信息增益率小的屬性
其中S表示數(shù)據(jù)集,n表示數(shù)據(jù)集的類標(biāo)中值的個數(shù),Pi表示第i個值出現(xiàn)的概率,E(S) 表示數(shù)據(jù)集S的滴
屬性A有n個取值Cl,C2. . .C。,將數(shù)據(jù)集S分為n個不相交的子集Si,S2. . .S。,ISI為數(shù) 據(jù)集的實(shí)例數(shù),ISiI為數(shù)據(jù)集的第i個子集的實(shí)例數(shù),E(S,A)表示數(shù)據(jù)集S由屬性A分裂 后的滴計(jì)算公式 InfoGain化A) =E做-E(S,A) In化Gain化A)表示屬性A的信息增益;
n。 。 4) 過濾掉消費(fèi)屬性值為空的數(shù)據(jù); 5) 過濾掉用機(jī)時間屬性值小于15天的數(shù)據(jù); 6) 過濾掉歷史用機(jī)個數(shù)屬性值超于50個的數(shù)據(jù); 7) 過濾掉手機(jī)imei重復(fù)的數(shù)據(jù); 8) 為訓(xùn)練數(shù)據(jù)集的每一條記錄添加類標(biāo); 9) 結(jié)束; 步驟1)-C具體過程如下: 1) 基于KNN算法對訓(xùn)練數(shù)據(jù)集中的邊界數(shù)據(jù)進(jìn)行過濾; 2) 對訓(xùn)練數(shù)據(jù)集中大類數(shù)據(jù)進(jìn)行聚類; 3) 對聚類后的大類數(shù)據(jù)進(jìn)行分層抽樣; 4) 結(jié)合小類數(shù)據(jù)組合成最終的訓(xùn)練集; 5) 結(jié)束; 步驟2)-b中數(shù)據(jù)挖掘決策樹算法的一次構(gòu)建過程具體如下: 1) 創(chuàng)建一個根節(jié)點(diǎn)N; 2) 若訓(xùn)練數(shù)據(jù)集集為空,則標(biāo)記節(jié)點(diǎn)N為空,并將其返回; 3) 若訓(xùn)練數(shù)據(jù)集屬于同一個類標(biāo)C,則將節(jié)點(diǎn)N標(biāo)記為C,并將其作為葉子節(jié)點(diǎn)返回; 4) 若屬性集合A為空,則將節(jié)點(diǎn)N標(biāo)記為訓(xùn)練集中最多的那個類標(biāo)M,并將其作為葉子 節(jié)點(diǎn)返回; 5) 對屬性集合A中的每個屬性進(jìn)行離散型判斷; 6) 將連續(xù)型屬性離散化處理; 7) 選擇屬性集合A中信息增益最高的屬性a; 8) 根據(jù)屬性a的取值a=di對結(jié)點(diǎn)N進(jìn)行分支劃分,確定每個分支的子數(shù)據(jù)集; 9) 建立a=di的分支,并且節(jié)點(diǎn)N按該分支建立子結(jié)點(diǎn)N 10. WNi為根節(jié)點(diǎn),屬性aW外的屬性為屬性集,遞歸構(gòu)建決策樹。
【專利摘要】本發(fā)明提供用于電信潛在換機(jī)用戶發(fā)現(xiàn)的數(shù)據(jù)挖掘方法,包括如下步驟:1)數(shù)據(jù)集構(gòu)造階段:a收集用戶的消費(fèi)信息、用戶歷史換機(jī)信息、用戶信息、終端信息;b數(shù)據(jù)預(yù)處理,同時產(chǎn)生數(shù)據(jù)集;c處理類別不均衡的數(shù)據(jù)集,形成最終的訓(xùn)練集和預(yù)測集;挖掘階段:a)獲取步驟1-c中處理生成的數(shù)據(jù)集;b)實(shí)施決策樹算法發(fā)現(xiàn)潛在換機(jī)用戶;c)結(jié)束。本發(fā)明是基于數(shù)據(jù)挖掘的技術(shù)在電信用戶中找出潛在的換機(jī)用戶。和傳統(tǒng)的方法相比更精確、更高效,具有實(shí)現(xiàn)簡單、代價低等一系列的優(yōu)點(diǎn)。
【IPC分類】G06F17-30
【公開號】CN104794195
【申請?zhí)枴緾N201510186319
【發(fā)明人】張雷, 張奎亮, 資帥, 彭岳, 蔡洋, 王崇駿, 李寧
【申請人】南京大學(xué)
【公開日】2015年7月22日
【申請日】2015年4月17日