1.一種基于多模型融合的潛在換機(jī)用戶發(fā)現(xiàn)方法,其特征在于,包括以下步驟:
(1)數(shù)據(jù)采集和預(yù)處理,收集用戶的基本信息和用戶歷史換機(jī)軌跡信息,刪除異常信息,處理缺失信息,對(duì)數(shù)值型信息進(jìn)行歸一化處理;利用時(shí)間窗口劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集;
(2)特征構(gòu)建,根據(jù)步驟(1)訓(xùn)練集和測(cè)試集中的數(shù)據(jù)提取出基本信息,以及對(duì)基本信息進(jìn)行擴(kuò)展得到原始特征;對(duì)原始特征分別進(jìn)行排序得到排序特征;用皮爾遜相關(guān)系數(shù)衡量原始特征和目標(biāo)之間變量的相關(guān)性,構(gòu)建多項(xiàng)式特征;將訓(xùn)練集和測(cè)試集中的無關(guān)聯(lián)屬性特征作為離散特征;
(3)模型構(gòu)建及模型融合,分別構(gòu)建樹型模型、超平面模型和惰性模型中的典型的分類器Xgboost、LIBSVM和KNN,用訓(xùn)練集中的數(shù)據(jù)分別對(duì)Xgboost,LIBSVM和KNN進(jìn)行訓(xùn)練,再用訓(xùn)練后的Xgboost、LIBSVM和KNN分別訓(xùn)練測(cè)試集;
(4)用步驟(3)所述Xgboost、LIBSVM和KNN分類器分別對(duì)未知樣本進(jìn)行預(yù)測(cè),得到的多個(gè)預(yù)測(cè)結(jié)果進(jìn)行加權(quán)投票為最終的預(yù)測(cè)結(jié)果。
2.根據(jù)權(quán)利要求1所述一種基于多模型融合的潛在換機(jī)用戶發(fā)現(xiàn)方法,其特征在于:所述用戶的基本信息和用戶歷史換機(jī)軌跡信息從運(yùn)營商的用戶最近1年消費(fèi)信息中獲取。
3.根據(jù)權(quán)利要求1或2所述一種基于多模型融合的潛在換機(jī)用戶發(fā)現(xiàn)方法,其特征在于:所述步驟(1)中還包括根據(jù)用戶歷史換機(jī)軌跡信息對(duì)用戶打標(biāo)簽,具體為:過濾換機(jī)時(shí)間小于20天的用戶歷史換機(jī)軌跡;統(tǒng)計(jì)用戶在整個(gè)考察時(shí)間窗內(nèi)使用的手機(jī)機(jī)型集合(PA)和考察時(shí)間窗之前使用的手機(jī)機(jī)型集合(PB),若集合PA和PB存在差異,那么用1標(biāo)注該用戶為換機(jī)用戶,否則用0標(biāo)注該用戶不是換機(jī)用戶。
4.根據(jù)權(quán)利要求1所述一種基于多模型融合的潛在換機(jī)用戶發(fā)現(xiàn)方法,其特征在于:所述異常信息是指用戶的特征缺失率大于50%,則刪除。
5.根據(jù)權(quán)利要求1所述一種基于多模型融合的潛在換機(jī)用戶發(fā)現(xiàn)方法,其特征在于:所述處理缺失信息包括,當(dāng)用戶在某一個(gè)時(shí)間段內(nèi)使用的手機(jī)缺失,按照時(shí)間點(diǎn)向后滾動(dòng),即用用戶的下個(gè)時(shí)間段的手機(jī)參數(shù)填充該缺失,若用戶的下個(gè)時(shí)間段內(nèi)手機(jī)也存在缺失,那么向前滾動(dòng),即用用戶的上個(gè)時(shí)間段的手機(jī)參數(shù)填充該缺失。
6.根據(jù)權(quán)利要求1所述一種基于多模型融合的潛在換機(jī)用戶發(fā)現(xiàn)方法,其特征在于:所述Xgboost分類器的構(gòu)建方法如下:分別對(duì)原始特征、排序特征、離散特征、多項(xiàng)式特征進(jìn)行特征選擇,按照特征重要性排序,在原始特征中選取前N1個(gè)特征,在排序特征中選取前N2個(gè)特征,在離散特征中選取前N3個(gè)特征,在多項(xiàng)式特征中選取前N4個(gè)特征,參數(shù)N1,N2,N3,N4隨機(jī)取值,但N1,N2,N3,N4分別小于原始特征個(gè)數(shù)、排序特征個(gè)數(shù)、離散特征個(gè)數(shù)、多項(xiàng)式特征個(gè)數(shù),Xgboost模型參數(shù)在±0.5圍內(nèi)隨機(jī)擾動(dòng),生成多個(gè)不同的Xgboost模型,所有的模型投票得到最終的Xgboost模型。