本發(fā)明涉及互聯(lián)網(wǎng)支付技術(shù)領(lǐng)域,具體涉及一種基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析方法及系統(tǒng)。
背景技術(shù):
目前,數(shù)字娛樂、電子商務(wù)迅速興起,網(wǎng)絡(luò)支付技術(shù)也快速發(fā)展。網(wǎng)絡(luò)支付過程中會(huì)產(chǎn)生大量的用戶支付信息,其擁有來自支付用戶最基礎(chǔ)和直接的支付數(shù)據(jù)。
同時(shí),各個(gè)商家或商戶也需要獲取用戶的需求,甚至展開問卷調(diào)查,以抓取用戶需求,調(diào)整運(yùn)營(yíng)策略。部分商家會(huì)結(jié)合交易數(shù)據(jù),分析用戶需求或流失率,但是分析結(jié)果準(zhǔn)確度差。
如何最大限度的挖掘與應(yīng)用支付數(shù)據(jù),有效預(yù)測(cè)用戶消費(fèi)行為,是本領(lǐng)域技術(shù)人員亟需解決的問題。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供一種基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析方法及系統(tǒng),能夠最大限度的挖掘與應(yīng)用支付數(shù)據(jù),有效預(yù)測(cè)用戶消費(fèi)行為。
第一方面,本發(fā)明提供一種基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析方法,該方法包括:
數(shù)據(jù)獲取步驟:獲取用戶的交易數(shù)據(jù)、行為數(shù)據(jù)和客服反饋數(shù)據(jù);
數(shù)據(jù)匯總步驟:匯總交易數(shù)據(jù)、行為數(shù)據(jù)和客服反饋數(shù)據(jù),形成特征和該特征對(duì)應(yīng)的特征變量;
標(biāo)準(zhǔn)特征形成步驟:根據(jù)特征對(duì)應(yīng)的業(yè)務(wù)知識(shí),剔除特征對(duì)應(yīng)的異常特征變量;根據(jù)特征變量,構(gòu)造并篩選復(fù)合變量;采用套索算法篩選特征中符合線性要求的特征,形成標(biāo)準(zhǔn)特征;
預(yù)測(cè)模型確定步驟:根據(jù)設(shè)定比例將預(yù)獲取的樣本集劃分為訓(xùn)練集和測(cè)試集;采用用戶流失預(yù)測(cè)模型,對(duì)訓(xùn)練集進(jìn)行預(yù)測(cè),獲得預(yù)測(cè)結(jié)果;根據(jù)預(yù)測(cè)結(jié)果與訓(xùn)練集的實(shí)際流失標(biāo)簽,獲得訓(xùn)練質(zhì)量指標(biāo);采用用戶流失預(yù)測(cè)模型,處理測(cè)試集,獲得測(cè)試質(zhì)量指標(biāo);根據(jù)訓(xùn)練質(zhì)量指標(biāo)和測(cè)試質(zhì)量指標(biāo),確定符合穩(wěn)定性標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型;
實(shí)際測(cè)試步驟:根據(jù)標(biāo)準(zhǔn)特征,獲取待測(cè)試用戶的標(biāo)準(zhǔn)特征對(duì)應(yīng)的特征變量;采用穩(wěn)定性符合標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型,處理標(biāo)準(zhǔn)特征對(duì)應(yīng)的特征變量,獲得用戶消費(fèi)行為預(yù)測(cè)結(jié)果。
進(jìn)一步地,根據(jù)特征變量,構(gòu)造并篩選復(fù)合變量,具體包括:
根據(jù)特征變量,構(gòu)造特征變量的平方復(fù)合變量和/或交叉復(fù)合變量,
根據(jù)特征變量和復(fù)合變量的業(yè)務(wù)意義,篩選符合業(yè)務(wù)需求的復(fù)合變量。
基于上述任意用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析方法實(shí)施例,進(jìn)一步地,在構(gòu)造并篩選復(fù)合變量之后,采用套索算法篩選特征中符合線性要求的特征之前,該方法還包括:根據(jù)特征的方差膨脹因子檢測(cè)結(jié)果和/或特征的業(yè)務(wù)意義,判斷特征是否符合線性要求。
進(jìn)一步地,根據(jù)特征的方差膨脹因子檢測(cè)結(jié)果,判斷特征是否符合線性要求,具體包括:
若特征的方差膨脹因子檢測(cè)結(jié)果小于線性閾值,則判斷特征符合線性要求;若特征的方差膨脹因子檢測(cè)結(jié)果大于等于線性閾值,則判斷特征不符合線性要求,線性閾值為預(yù)先設(shè)定的。
基于上述任意用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析方法實(shí)施例,進(jìn)一步地,采用穩(wěn)定性符合標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型,處理標(biāo)準(zhǔn)特征對(duì)應(yīng)的特征變量,獲得用戶消費(fèi)行為預(yù)測(cè)結(jié)果,具體包括:
采用穩(wěn)定性符合標(biāo)準(zhǔn)的用戶一周流失模型,處理標(biāo)準(zhǔn)特征對(duì)應(yīng)的特征變量,獲得流失概率;
若流失概率大于等于流失閾值,則判定該用戶為將流失用戶;
若流失概率小于流失閾值,則判定該用戶為不流失用戶;
穩(wěn)定性符合標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型包括穩(wěn)定性符合標(biāo)準(zhǔn)的用戶一周流失模型,用戶消費(fèi)行為預(yù)測(cè)結(jié)果包括將流失用戶和不流失用戶。
第二方面,本發(fā)明提供一種基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析系統(tǒng),該系統(tǒng)包括數(shù)據(jù)獲取子系統(tǒng)、數(shù)據(jù)匯總子系統(tǒng)、標(biāo)準(zhǔn)特征形成子系統(tǒng)、預(yù)測(cè)模型確定子系統(tǒng)和實(shí)際測(cè)試子系統(tǒng)。數(shù)據(jù)獲取子系統(tǒng)用于獲取用戶的交易數(shù)據(jù)、行為數(shù)據(jù)和客服反饋數(shù)據(jù);數(shù)據(jù)匯總子系統(tǒng)用于匯總交易數(shù)據(jù)、行為數(shù)據(jù)和客服反饋數(shù)據(jù),形成特征和該特征對(duì)應(yīng)的特征變量;標(biāo)準(zhǔn)特征形成子系統(tǒng)用于根據(jù)特征對(duì)應(yīng)的業(yè)務(wù)知識(shí),剔除特征對(duì)應(yīng)的異常特征變量,還用于根據(jù)特征變量,構(gòu)造并篩選復(fù)合變量,以及用于采用套索算法篩選特征中符合線性要求的特征,形成標(biāo)準(zhǔn)特征;預(yù)測(cè)模型確定子系統(tǒng)用于根據(jù)設(shè)定比例將預(yù)獲取的樣本集劃分為訓(xùn)練集和測(cè)試集,采用用戶流失預(yù)測(cè)模型,對(duì)訓(xùn)練集進(jìn)行預(yù)測(cè),獲得預(yù)測(cè)結(jié)果,根據(jù)預(yù)測(cè)結(jié)果與訓(xùn)練集的實(shí)際流失標(biāo)簽,獲得訓(xùn)練質(zhì)量指標(biāo),采用用戶流失預(yù)測(cè)模型,處理測(cè)試集,獲得測(cè)試質(zhì)量指標(biāo),以及用于根據(jù)訓(xùn)練質(zhì)量指標(biāo)和測(cè)試質(zhì)量指標(biāo),確定符合穩(wěn)定性標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型;實(shí)際測(cè)試子系統(tǒng)用于根據(jù)標(biāo)準(zhǔn)特征,獲取待測(cè)試用戶的標(biāo)準(zhǔn)特征對(duì)應(yīng)的特征變量,還用于采用穩(wěn)定性符合標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型,處理標(biāo)準(zhǔn)特征對(duì)應(yīng)的特征變量,獲得用戶消費(fèi)行為預(yù)測(cè)結(jié)果。
進(jìn)一步地,標(biāo)準(zhǔn)特征形成子系統(tǒng)在根據(jù)特征變量,構(gòu)造并篩選復(fù)合變量,具體用于:根據(jù)特征變量,構(gòu)造特征變量的平方復(fù)合變量和/或交叉復(fù)合變量,根據(jù)特征變量和復(fù)合變量的業(yè)務(wù)意義,篩選符合業(yè)務(wù)需求的復(fù)合變量。
基于上述任意用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析系統(tǒng)實(shí)施例,進(jìn)一步地,該系統(tǒng)還包括共線性判斷子系統(tǒng),用于根據(jù)特征的方差膨脹因子檢測(cè)結(jié)果和/或特征的業(yè)務(wù)意義,判斷特征是否符合線性要求。
進(jìn)一步地,共線性判斷子系統(tǒng)在根據(jù)特征的方差膨脹因子檢測(cè)結(jié)果,判斷特征是否符合線性要求時(shí),具體用于:若特征的方差膨脹因子檢測(cè)結(jié)果小于線性閾值,則判斷特征符合線性要求,若特征的方差膨脹因子檢測(cè)結(jié)果大于等于線性閾值,則判斷特征不符合線性要求,線性閾值為預(yù)先設(shè)定的。
基于上述任意用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析系統(tǒng)實(shí)施例,進(jìn)一步地,實(shí)際測(cè)試子系統(tǒng)具體用于:采用穩(wěn)定性符合標(biāo)準(zhǔn)的用戶一周流失模型,處理標(biāo)準(zhǔn)特征對(duì)應(yīng)的特征變量,獲得流失概率,若流失概率大于等于流失閾值,則判定該用戶為將流失用戶,若流失概率小于流失閾值,則判定該用戶為不流失用戶,穩(wěn)定性符合標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型包括穩(wěn)定性符合標(biāo)準(zhǔn)的用戶一周流失模型,用戶消費(fèi)行為預(yù)測(cè)結(jié)果包括將流失用戶和不流失用戶。
由上述技術(shù)方案可知,本發(fā)明基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析方法及系統(tǒng),能夠結(jié)合傳統(tǒng)的交易數(shù)據(jù)、用戶的行為數(shù)據(jù)和客服反饋數(shù)據(jù)等最底層數(shù)據(jù),對(duì)用戶的行為進(jìn)行全方位的刻畫,能夠反映用戶最真實(shí)狀況。
同時(shí),本發(fā)明基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析方法及系統(tǒng)能夠確定出符合線性要求的標(biāo)準(zhǔn)特征,以及符合穩(wěn)定性標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型,采用該用戶流失預(yù)測(cè)模型處理標(biāo)特征對(duì)應(yīng)的特征變量,能夠?qū)τ脩袅魇У刃袨檫M(jìn)行精準(zhǔn)預(yù)測(cè),以支撐商戶的運(yùn)營(yíng)和精準(zhǔn)營(yíng)銷等。
因此,本實(shí)施例基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析方法及系統(tǒng),能夠最大限度的挖掘與應(yīng)用最底層互聯(lián)網(wǎng)支付信息,有效預(yù)測(cè)用戶消費(fèi)行為,為商戶進(jìn)行精準(zhǔn)營(yíng)銷提供準(zhǔn)確的信息支持。
附圖說明
為了更清楚地說明本發(fā)明具體實(shí)施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)具體實(shí)施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹。在所有附圖中,類似的元件或部分一般由類似的附圖標(biāo)記標(biāo)識(shí)。附圖中,各元件或部分并不一定按照實(shí)際的比例繪制。
圖1示出了本發(fā)明所提供的一種基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析方法流程圖;
圖2示出了本發(fā)明所提供的一種基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合附圖對(duì)本發(fā)明技術(shù)方案的實(shí)施例進(jìn)行詳細(xì)的描述。以下實(shí)施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,因此只是作為示例,而不能以此來限制本發(fā)明的保護(hù)范圍。
需要注意的是,除非另有說明,本申請(qǐng)使用的技術(shù)術(shù)語或者科學(xué)術(shù)語應(yīng)當(dāng)為本發(fā)明所屬領(lǐng)域技術(shù)人員所理解的通常意義。
第一方面,本發(fā)明實(shí)施例提供一種基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析方法,結(jié)合圖1,該方法包括:
數(shù)據(jù)獲取步驟S1:獲取用戶的交易數(shù)據(jù)、行為數(shù)據(jù)和客服反饋數(shù)據(jù);
在實(shí)際應(yīng)用過程中,該方法可以通過客戶端采集用戶在收銀臺(tái)內(nèi)部的行為數(shù)據(jù)、應(yīng)用信息或其他信息,或通過基礎(chǔ)平臺(tái)獲取交易數(shù)據(jù)。其中,行為數(shù)據(jù)主要是展示用戶的操作,如進(jìn)入游戲初始化,調(diào)起收銀臺(tái),顯示收銀臺(tái),調(diào)起支付方式,各種支付方式的點(diǎn)擊、調(diào)用和返回,收銀臺(tái)點(diǎn)擊充值,各種支付方式充值、支付和返回,修改支付密碼,登陸,注冊(cè)等等;應(yīng)用信息主要是當(dāng)前應(yīng)用信息,渠道信息,支付接口版本,應(yīng)用版本,應(yīng)用包名,終端系統(tǒng)版本,終端當(dāng)前已安裝的所有應(yīng)用信息;每當(dāng)用戶點(diǎn)開收銀臺(tái)或者進(jìn)行支付時(shí)都可以采集到用戶的支付數(shù)據(jù),包含但不限于購(gòu)買商品,支付金額,支付時(shí)間,支付方式;每當(dāng)商戶接入愛貝的支付接口,他們的商戶信息和應(yīng)用信息也是分析的要素。另外,愛貝為用戶配備了7*24小時(shí)的客服,從客服那里可以收集用戶的投訴信息,退款信息等等。
數(shù)據(jù)匯總步驟S2:匯總交易數(shù)據(jù)、行為數(shù)據(jù)和客服反饋數(shù)據(jù),形成特征和該特征對(duì)應(yīng)的特征變量;
其中,該步驟可以利用大數(shù)據(jù)技術(shù)結(jié)合數(shù)據(jù)倉庫框架對(duì)采集的數(shù)據(jù)進(jìn)行處理和匯總,具體利用hadoop和hive為平臺(tái),對(duì)數(shù)據(jù)進(jìn)行處理,先加載所有數(shù)據(jù)到數(shù)據(jù)倉庫的數(shù)據(jù)源層,然后結(jié)合商戶信息、應(yīng)用信息和其他信息組建成的寬表層,最后根據(jù)業(yè)務(wù)需要生成業(yè)務(wù)層表。將交易數(shù)據(jù)、行為數(shù)據(jù)和客服反饋數(shù)據(jù)轉(zhuǎn)化為特征和該特征對(duì)應(yīng)的特征變量,便于后續(xù)數(shù)據(jù)的調(diào)取或處理。
標(biāo)準(zhǔn)特征形成步驟S3:
根據(jù)特征對(duì)應(yīng)的業(yè)務(wù)知識(shí),剔除特征對(duì)應(yīng)的異常特征變量;
其中,異常特征變量主要指某個(gè)特征的特征變量偏離均值太遠(yuǎn),它們通常會(huì)使模型產(chǎn)生明顯的偏離,從而影響模型質(zhì)量,需要剔除。一般需要結(jié)合業(yè)務(wù)知識(shí)及統(tǒng)計(jì)數(shù)據(jù)來確定異常的標(biāo)準(zhǔn),不同特征的異常值標(biāo)準(zhǔn)會(huì)有不同;
根據(jù)特征變量,構(gòu)造并篩選復(fù)合變量;
采用套索算法篩選特征中符合線性要求的特征,形成標(biāo)準(zhǔn)特征;
其中,套索(Lasso)算法能夠解決特征的共線性問題,且能夠自動(dòng)挑選特征。在此,采用套索(Lasso)算法獲得的標(biāo)準(zhǔn)特征如下:
PAY_MONEY_2WEEKS_LOG(近兩周交易總額的對(duì)數(shù))
PAY_MONEY_4WEEKS_LOG(近四周交易總額取對(duì)數(shù))
PAY_MONEY_1WEEK_RATIO(近一周交易總額與上上周交易總額比值)
PAY_MONEY_2WEEKS_RATIO(近兩周交易總額與上上個(gè)兩周交易總額比值)
PAY_TIMES_HISTORY(歷史交易次數(shù))
PAY_TIMES_1WEEK(近一周交易次數(shù))
PAY_TIMES_2WEEKS(近兩周交易次數(shù))
PAY_TIMES_4WEEKS(近4周交易次數(shù))
PAY_TIMES_WORKDAY_RATIO_1WEEK(近一周周末交易天數(shù)與工作日交易天數(shù)比值)
PAY_TIMES_WORKDAY_RATIO_2WEEKS(近兩周周末交易天數(shù)與工作日交易天數(shù)比值)
PAY_TIMES_WORKDAY_RATIO_4WEEKS(近四周周末交易天數(shù)與工作日交易天數(shù)比值)
PAY_DAYS_1WEEK(近一周存在交易的天數(shù))
PAY_DAYS_2WEEKS(近兩周存在交易的天數(shù))
PAY_DAYS_4WEEKS(近四周存在交易的天數(shù))
PAY_DAYS_RATIO_1WEEK(近一周存在交易天數(shù)與上上周存在交易天數(shù)比值)
PAY_SILENCE_1WEEK(沉默天數(shù)是否大于一周)
PAY_FIRSTPAY_IS_NEW(是否首次交易)
PAY_D_ENTROPY(當(dāng)天跟前一天的熵值差)
PAY_D_TIMEDEV_EUCLIDEANDISTANCE(當(dāng)天跟前一天的向量歐式距離)
預(yù)測(cè)模型確定步驟S4:
根據(jù)設(shè)定比例將預(yù)獲取的樣本集劃分為訓(xùn)練集和測(cè)試集;
在此,將樣本集分測(cè)試集、訓(xùn)練集兩部分,通過訓(xùn)練集來建立模型,模型建好后將其用在測(cè)試集上做測(cè)試。合理的模型在訓(xùn)練集和測(cè)試集的表現(xiàn)應(yīng)非常接近,否則就有過度擬合的問題,也即模型對(duì)訓(xùn)練集的預(yù)測(cè)很好,但對(duì)測(cè)試集的預(yù)測(cè)很差。如果存在明顯的過度擬合問題,則模型將失去推廣應(yīng)用的意義。在劃分訓(xùn)練集和測(cè)試集操作中,隨機(jī)抽取80%樣本集做訓(xùn)練集,其余的樣本做測(cè)試集。
采用用戶流失預(yù)測(cè)模型,對(duì)訓(xùn)練集進(jìn)行預(yù)測(cè),獲得預(yù)測(cè)結(jié)果;
用戶流失預(yù)測(cè)模型采用的算法包括邏輯回歸算法,該算法的應(yīng)用條件是各個(gè)特征之間沒有明顯的共線性問題。該算法計(jì)算的復(fù)雜度不高,且易于理解和實(shí)現(xiàn)。
根據(jù)預(yù)測(cè)結(jié)果與訓(xùn)練集的實(shí)際流失標(biāo)簽,獲得訓(xùn)練質(zhì)量指標(biāo);
其中,評(píng)價(jià)模型質(zhì)量的主要質(zhì)量指標(biāo)包括整體準(zhǔn)確率、召回率、精度、F1-Measure,這四個(gè)質(zhì)量指標(biāo)有內(nèi)在聯(lián)系,單個(gè)質(zhì)量指標(biāo)越接近1,則該模型的預(yù)測(cè)效果越好。在此,該方法可以只給出整體準(zhǔn)確率指標(biāo)的結(jié)果,整體準(zhǔn)確率也即預(yù)測(cè)正確的特征變量總數(shù)占總特橫變量的比例,我們所建立的模型而言訓(xùn)練集的整體準(zhǔn)確率達(dá)到了兩個(gè)星號(hào),即刻認(rèn)為效果良好。
采用用戶流失預(yù)測(cè)模型,處理測(cè)試集,獲得測(cè)試質(zhì)量指標(biāo);
根據(jù)訓(xùn)練質(zhì)量指標(biāo)和測(cè)試質(zhì)量指標(biāo),確定符合穩(wěn)定性標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型;
在此,該模型在測(cè)試集上的表現(xiàn)來看,對(duì)測(cè)試集做預(yù)測(cè)得到的上述四個(gè)質(zhì)量指標(biāo)和訓(xùn)練集對(duì)應(yīng)的質(zhì)量指標(biāo)非常接近,結(jié)果在訓(xùn)練集和測(cè)試集之間是平衡的,說明該模型具有很好的穩(wěn)定性。
實(shí)際測(cè)試步驟S5:
根據(jù)標(biāo)準(zhǔn)特征,獲取待測(cè)試用戶的標(biāo)準(zhǔn)特征對(duì)應(yīng)的特征變量;
采用穩(wěn)定性符合標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型,處理標(biāo)準(zhǔn)特征對(duì)應(yīng)的特征變量,獲得用戶消費(fèi)行為預(yù)測(cè)結(jié)果。
由上述技術(shù)方案可知,本實(shí)施例基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析方法,能夠結(jié)合傳統(tǒng)的交易數(shù)據(jù)、用戶的行為數(shù)據(jù)和客服反饋數(shù)據(jù)等最底層數(shù)據(jù),對(duì)用戶的行為進(jìn)行全方位的刻畫,能夠反映用戶最真實(shí)狀況。
同時(shí),該方法能夠確定出符合線性要求的標(biāo)準(zhǔn)特征,以及符合穩(wěn)定性標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型,采用該用戶流失預(yù)測(cè)模型處理標(biāo)特征對(duì)應(yīng)的特征變量,能夠?qū)τ脩袅魇У刃袨檫M(jìn)行精準(zhǔn)預(yù)測(cè),以支撐商戶的運(yùn)營(yíng)和精準(zhǔn)營(yíng)銷等。在此,可采用網(wǎng)頁多維度展示分析處理后的預(yù)測(cè)結(jié)果,包含但不限于銷售排行、付費(fèi)習(xí)慣、付費(fèi)滲透率、游戲習(xí)慣等。
因此,本實(shí)施例基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析方法,能夠最大限度的挖掘與應(yīng)用最底層互聯(lián)網(wǎng)支付信息,有效預(yù)測(cè)用戶消費(fèi)行為,為商戶進(jìn)行精準(zhǔn)營(yíng)銷提供準(zhǔn)確的信息支持。
具體地,在標(biāo)準(zhǔn)特征形成過程中,為了對(duì)上述數(shù)據(jù)進(jìn)一步進(jìn)行組合,以挖掘更多的信息,從而提高后續(xù)建模的質(zhì)量,根據(jù)特征變量,構(gòu)造并篩選復(fù)合變量,具體包括:根據(jù)特征變量,構(gòu)造特征變量的平方復(fù)合變量和/或交叉復(fù)合變量,根據(jù)特征變量和復(fù)合變量的業(yè)務(wù)意義,篩選符合業(yè)務(wù)需求的復(fù)合變量。該方法能夠?qū)⑻卣髯兞窟M(jìn)行自身相乘,或與其他的特征變量進(jìn)行交叉相乘,獲得大量的復(fù)合變量,再根據(jù)特征變量自身的重要等級(jí),以及復(fù)合變量的業(yè)務(wù)意義,篩選出符合業(yè)務(wù)需求的復(fù)合變量。
在構(gòu)造并篩選復(fù)合變量之后,采用套索算法篩選特征中符合線性要求的特征之前,該方法還包括:根據(jù)特征的方差膨脹因子檢測(cè)結(jié)果和/或特征的業(yè)務(wù)意義,判斷特征是否符合線性要求。若特征的方差膨脹因子檢測(cè)結(jié)果小于線性閾值,則判斷特征符合線性要求;若特征的方差膨脹因子檢測(cè)結(jié)果大于等于線性閾值,則判斷特征不符合線性要求,線性閾值為預(yù)先設(shè)定的。采用方差膨脹因子(Variance Inflation Factor,VIF)來檢查特征的共線性問題。通常認(rèn)為VIF>10就存在共線性的問題,有時(shí)也要根據(jù)業(yè)務(wù)邏輯來判斷。以VIF>10為標(biāo)準(zhǔn),經(jīng)計(jì)算后發(fā)現(xiàn)特征的共線性問題比較明顯。根據(jù)方差膨脹因子或特征的業(yè)務(wù)意義,判斷特征是否具有共線性問題,再進(jìn)一步采用套索算法篩選出符合線性要求的特征,以提高數(shù)據(jù)處理效率和準(zhǔn)確性。
具體地,在實(shí)際測(cè)試過程中,對(duì)于某類應(yīng)用而言,先確定需要做預(yù)測(cè)的用戶ID,并獲取對(duì)應(yīng)的30個(gè)特征變量,如歷史交易金額數(shù)據(jù)、歷史交易頻次數(shù)據(jù)、交易沉默天數(shù)數(shù)據(jù)、交易金額行為模式變量、交易時(shí)間行為模式變量、用戶交易時(shí)間段內(nèi)時(shí)間差行為模式變量,這些特征變量對(duì)應(yīng)的特征,也就是上述19個(gè)標(biāo)準(zhǔn)特征。對(duì)于用戶未來一周流失預(yù)測(cè),將上述特征變量輸入用戶一周流失模型,該模型會(huì)輸出對(duì)應(yīng)的流失概率p,概率大于0.5的歸為將流失用戶,小于或等于0.5的歸為不流失用戶;同樣,對(duì)于用戶未來兩周流失預(yù)測(cè),將上述特征變量輸入用戶兩周流失模型,并按同樣的標(biāo)準(zhǔn)將用戶歸為流失或不會(huì)流失。
第二方面,本發(fā)明實(shí)施例提供一種基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析系統(tǒng),結(jié)合圖2,該系統(tǒng)包括數(shù)據(jù)獲取子系統(tǒng)1、數(shù)據(jù)匯總子系統(tǒng)2、標(biāo)準(zhǔn)特征形成子系統(tǒng)3、預(yù)測(cè)模型確定子系統(tǒng)4和實(shí)際測(cè)試子系統(tǒng)5。數(shù)據(jù)獲取子系統(tǒng)1用于獲取用戶的交易數(shù)據(jù)、行為數(shù)據(jù)和客服反饋數(shù)據(jù)。數(shù)據(jù)匯總子系統(tǒng)2用于匯總交易數(shù)據(jù)、行為數(shù)據(jù)和客服反饋數(shù)據(jù),形成特征和該特征對(duì)應(yīng)的特征變量。標(biāo)準(zhǔn)特征形成子系統(tǒng)3用于根據(jù)特征對(duì)應(yīng)的業(yè)務(wù)知識(shí),剔除特征對(duì)應(yīng)的異常特征變量,還用于根據(jù)特征變量,構(gòu)造并篩選復(fù)合變量,以及用于采用套索算法篩選特征中符合線性要求的特征,形成標(biāo)準(zhǔn)特征。預(yù)測(cè)模型確定子系統(tǒng)4用于根據(jù)設(shè)定比例將預(yù)獲取的樣本集劃分為訓(xùn)練集和測(cè)試集,采用用戶流失預(yù)測(cè)模型,對(duì)訓(xùn)練集進(jìn)行預(yù)測(cè),獲得預(yù)測(cè)結(jié)果,根據(jù)預(yù)測(cè)結(jié)果與訓(xùn)練集的實(shí)際流失標(biāo)簽,獲得訓(xùn)練質(zhì)量指標(biāo),采用用戶流失預(yù)測(cè)模型,處理測(cè)試集,獲得測(cè)試質(zhì)量指標(biāo),以及用于根據(jù)訓(xùn)練質(zhì)量指標(biāo)和測(cè)試質(zhì)量指標(biāo),確定符合穩(wěn)定性標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型。實(shí)際測(cè)試子系統(tǒng)5,用于根據(jù)標(biāo)準(zhǔn)特征,獲取待測(cè)試用戶的標(biāo)準(zhǔn)特征對(duì)應(yīng)的特征變量,還用于采用穩(wěn)定性符合標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型,處理標(biāo)準(zhǔn)特征對(duì)應(yīng)的特征變量,獲得用戶消費(fèi)行為預(yù)測(cè)結(jié)果。
由上述技術(shù)方案可知,本實(shí)施例基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析系統(tǒng),能夠結(jié)合傳統(tǒng)的交易數(shù)據(jù)、用戶的行為數(shù)據(jù)和客服反饋數(shù)據(jù)等最底層數(shù)據(jù),對(duì)用戶的行為進(jìn)行全方位的刻畫,能夠反映用戶最真實(shí)狀況。
同時(shí),該系統(tǒng)能夠確定出符合線性要求的標(biāo)準(zhǔn)特征,以及符合穩(wěn)定性標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型,采用該用戶流失預(yù)測(cè)模型處理標(biāo)特征對(duì)應(yīng)的特征變量,能夠?qū)τ脩袅魇У刃袨檫M(jìn)行精準(zhǔn)預(yù)測(cè),以支撐商戶的運(yùn)營(yíng)和精準(zhǔn)營(yíng)銷等。在此,可采用網(wǎng)頁多維度展示分析處理后的預(yù)測(cè)結(jié)果,包含但不限于銷售排行、付費(fèi)習(xí)慣、付費(fèi)滲透率、游戲習(xí)慣等。
因此,本實(shí)施例基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析系統(tǒng),能夠最大限度的挖掘與應(yīng)用最底層互聯(lián)網(wǎng)支付信息,有效預(yù)測(cè)用戶消費(fèi)行為,為商戶進(jìn)行精準(zhǔn)營(yíng)銷提供準(zhǔn)確的信息支持。
為了對(duì)上述數(shù)據(jù)進(jìn)一步進(jìn)行組合,以挖掘更多的信息,從而提高后續(xù)建模的質(zhì)量,標(biāo)準(zhǔn)特征形成子系統(tǒng)3在根據(jù)特征變量,構(gòu)造并篩選復(fù)合變量,具體用于:根據(jù)特征變量,構(gòu)造特征變量的平方復(fù)合變量和/或交叉復(fù)合變量,根據(jù)特征變量和復(fù)合變量的業(yè)務(wù)意義,篩選符合業(yè)務(wù)需求的復(fù)合變量。該標(biāo)準(zhǔn)特征形成子系統(tǒng)3能夠?qū)⑻卣髯兞窟M(jìn)行自身相乘,或與其他的特征變量進(jìn)行交叉相乘,獲得大量的復(fù)合變量,再根據(jù)特征變量自身的重要等級(jí),以及復(fù)合變量的業(yè)務(wù)意義,篩選出符合業(yè)務(wù)需求的復(fù)合變量。
同時(shí),本實(shí)施例基于用戶支付信息的用戶消費(fèi)行為預(yù)測(cè)分析系統(tǒng)還包括共線性判斷子系統(tǒng),其用于根據(jù)特征的方差膨脹因子檢測(cè)結(jié)果和/或特征的業(yè)務(wù)意義,判斷特征是否符合線性要求。共線性判斷子系統(tǒng)在根據(jù)特征的方差膨脹因子檢測(cè)結(jié)果,判斷特征是否符合線性要求時(shí),具體用于:若特征的方差膨脹因子檢測(cè)結(jié)果小于線性閾值,則判斷特征符合線性要求,若特征的方差膨脹因子檢測(cè)結(jié)果大于等于線性閾值,則判斷特征不符合線性要求,線性閾值為預(yù)先設(shè)定的。共線性判斷子系統(tǒng)根據(jù)方差膨脹因子或特征的業(yè)務(wù)意義,判斷特征是否具有共線性問題,再進(jìn)一步采用套索算法篩選出符合線性要求的特征,以提高數(shù)據(jù)處理效率和準(zhǔn)確性。
在實(shí)際測(cè)試過程中,若欲獲取用戶在未來一周的流失預(yù)測(cè)結(jié)果時(shí),實(shí)際測(cè)試子系統(tǒng)5具體用于:采用穩(wěn)定性符合標(biāo)準(zhǔn)的用戶一周流失模型,處理標(biāo)準(zhǔn)特征對(duì)應(yīng)的特征變量,獲得流失概率,若流失概率大于等于流失閾值,則判定該用戶為將流失用戶,若流失概率小于流失閾值,則判定該用戶為不流失用戶,穩(wěn)定性符合標(biāo)準(zhǔn)的用戶流失預(yù)測(cè)模型包括穩(wěn)定性符合標(biāo)準(zhǔn)的用戶一周流失模型,用戶消費(fèi)行為預(yù)測(cè)結(jié)果包括將流失用戶和不流失用戶。
最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。