亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用戶流失預(yù)測方法及裝置與流程

文檔序號:12470135閱讀:303來源:國知局
用戶流失預(yù)測方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種用戶流失預(yù)測方法及裝置。



背景技術(shù):

隨著網(wǎng)絡(luò)的普及,越來越多的互聯(lián)網(wǎng)公司以會員收費(fèi)制作為創(chuàng)收的一種方式。例如,影視APP推出付費(fèi)會員業(yè)務(wù),會員享有更廣泛觀看權(quán)限、去廣告服務(wù)等。會員是優(yōu)質(zhì)客戶,需要進(jìn)行專業(yè)的運(yùn)營,提升會員的活躍度和留存率。然而,由于各種原因,每個(gè)月會員都會有一部分的流失,例如,某影視APP一個(gè)月流失300萬會員。留存老用戶的代價(jià)往往是挖掘新用戶的幾倍之多,因此如何找到流失的300萬會員并挖掘他們的流失原因,采取合適的方案留住這部分會員,預(yù)測老會員的流失行為具有重要的商業(yè)價(jià)值。



技術(shù)實(shí)現(xiàn)要素:

為了挖掘用戶流失可能的原因,本發(fā)明實(shí)施例提供一種基于數(shù)據(jù)分析的用戶流失預(yù)測方法及裝置。

根據(jù)本發(fā)明的一個(gè)方面,提供一種用戶流失預(yù)測方法,包括:選取用戶樣本數(shù)據(jù),并從所述用戶樣本數(shù)據(jù)中提取特征數(shù)據(jù),其中,所述特征數(shù)據(jù)包括歷史操作行為信息、訂單信息和/或用戶基本信息;基于所述特征數(shù)據(jù)進(jìn)行建模,得到用戶流失預(yù)測模型,其中,所述用戶流失預(yù)測模型采用多個(gè)特征維度表明用戶的流失概率;從待預(yù)測的用戶數(shù)據(jù)中提取特征數(shù)據(jù),并輸入到所述用戶流失預(yù)測模型,輸出得到流失概率。

優(yōu)選的,所述基于所述特征數(shù)據(jù)進(jìn)行建模,得到用戶流失預(yù)測模型包括::基于所述特征數(shù)據(jù)統(tǒng)一建立一個(gè)模型。

優(yōu)選的,所述基于所述特征數(shù)據(jù)進(jìn)行建模,得到用戶流失預(yù)測模型包括::對特征數(shù)據(jù)按照子類別或數(shù)量劃分為多個(gè)子特征數(shù)據(jù),針對各個(gè)子特征數(shù)據(jù)分別建立多個(gè)子用戶流失預(yù)測模型。

優(yōu)選的,根據(jù)所述特征數(shù)據(jù)中的歷史操作行為信息、訂單信息和/或用戶基本信息的各個(gè)子特征,分別建立對應(yīng)的多個(gè)子用戶流失預(yù)測模型;從所述待預(yù)測的用戶數(shù)據(jù)中提取歷史操作行為信息、訂單信息和/或用戶基本信息,并分別輸入到對應(yīng)的子用戶流失預(yù)測模型中,輸出得到各子特征對應(yīng)的流失概率。

優(yōu)選的,所述選取用戶樣本數(shù)據(jù),包括:選取用戶過期時(shí)間節(jié)點(diǎn)前后預(yù)定時(shí)間段內(nèi)流失用戶以及續(xù)費(fèi)用戶的數(shù)據(jù)作為用戶樣本數(shù)據(jù)。

根據(jù)本發(fā)明的另一方面,提供一種用戶流失預(yù)測裝置,包括訓(xùn)練模塊和預(yù)測模塊,述訓(xùn)練模塊包括:樣本數(shù)據(jù)選取子模塊,用于選取用戶樣本數(shù)據(jù);特征數(shù)據(jù)提取子模塊,用于從所述用戶樣本數(shù)據(jù)中提取特征數(shù)據(jù),其中,所述特征數(shù)據(jù)包括歷史操作行為信息、訂單信息和/或用戶基本信息;以及,預(yù)測模型建立子模塊,用于基于所述特征數(shù)據(jù)進(jìn)行建模,得到用戶流失預(yù)測模型,其中,所述用戶流失預(yù)測模型采用多個(gè)特征維度表明用戶的流失概率;所述預(yù)測模塊包括:待預(yù)測特征數(shù)據(jù)提取子模塊,用于從待預(yù)測的用戶數(shù)據(jù)中提取特征數(shù)據(jù),以及,預(yù)測子模塊,用于將待預(yù)測的特征數(shù)據(jù)輸入到所述用戶流失預(yù)測模型,輸出得到流失概率。

優(yōu)選的,所述預(yù)測模型建立子模塊基于所述特征數(shù)據(jù)統(tǒng)一建立一個(gè)模型。

優(yōu)選的,所述預(yù)測模型建立子模塊,對特征數(shù)據(jù)按照子類別或數(shù)量劃分為多個(gè)子特征數(shù)據(jù),針對各個(gè)子特征數(shù)據(jù)分別建立多個(gè)子用戶流失預(yù)測模型。

優(yōu)選的,所述預(yù)測模型建立子模塊,根據(jù)所述特征數(shù)據(jù)中的歷史操作行為信息、訂單信息和/或用戶基本信息的各個(gè)子特征,分別建立對應(yīng)的多個(gè)子用戶流失預(yù)測模型;所述預(yù)測子模塊,從待預(yù)測的用戶數(shù)據(jù)中提取歷史操作行為信息、訂單信息和/或用戶基本信息,并分別輸入到對應(yīng)的子用戶流失預(yù)測模型中,輸出得到各子特征對應(yīng)的流失概率。

優(yōu)選的,所述樣本數(shù)據(jù)選取子模塊,選取用戶過期時(shí)間節(jié)點(diǎn)前后預(yù)定時(shí)間段內(nèi)流失用戶和續(xù)費(fèi)用戶作為用戶樣本。

可見,本發(fā)明實(shí)施例提出的用戶流失預(yù)測方案中包括訓(xùn)練階段和預(yù)測階段,訓(xùn)練階段包含三個(gè)步驟:選取流失/續(xù)費(fèi)會員樣本;對會員行為和基礎(chǔ)信息做特征提??;采用機(jī)器學(xué)習(xí)算法訓(xùn)練模型。預(yù)測計(jì)算包含兩個(gè)步驟:抽取待預(yù)測會員特征;利用訓(xùn)練得到的模型預(yù)測流失概率,并可根據(jù)模型分析流失原因。本發(fā)明為VIP會員運(yùn)營提供支持,預(yù)測流失的人群,挖掘流失人群的流失原因。

附圖說明

圖1是本發(fā)明實(shí)施例提供的用戶流失預(yù)測方法流程圖;

圖2是本發(fā)明實(shí)施例提供的用戶流失預(yù)測裝置結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明作進(jìn)一步詳細(xì)的說明。

以某個(gè)影視網(wǎng)站為例,用戶通過注冊成為注冊用戶,并提供個(gè)人基本信息。然后購買一定期限的VIP服務(wù)成為會員。如果會員在過期之后沒有續(xù)費(fèi),則轉(zhuǎn)換為普通的注冊用戶,即過期會員。如果在過期之后續(xù)費(fèi),則重新轉(zhuǎn)變?yōu)闀T狀態(tài)。據(jù)統(tǒng)計(jì),挖掘新用戶需要的代價(jià)是留存老用戶的六倍,因此預(yù)測老用戶的流失行為具有重要的價(jià)值。

本發(fā)明中,用戶可以泛指合法的、享有一定操作特權(quán)的用戶,例如通過注冊、交費(fèi)或其他方式(如,轉(zhuǎn)發(fā)微信進(jìn)行宣傳)而成為某個(gè)網(wǎng)站或組織的成員的用戶。為了簡便,實(shí)施例中以“會員”代替上述特定用戶。

本發(fā)明實(shí)施例基于數(shù)據(jù)分析,對會員行為數(shù)據(jù)進(jìn)行特征提取,并基于所提取的特征,采用機(jī)器學(xué)習(xí)方法對海量的會員行為數(shù)據(jù)進(jìn)行建模,并預(yù)測會員的續(xù)費(fèi)行為。

參見圖1,為本發(fā)明實(shí)施例提供的用戶流失預(yù)測方法流程圖。該方法包括:

S101:選取用戶樣本數(shù)據(jù),并從用戶樣本數(shù)據(jù)中提取特征數(shù)據(jù),其中,特征數(shù)據(jù)包括歷史操作行為信息、訂單信息和/或用戶基本信息;

S102:基于特征數(shù)據(jù)進(jìn)行建模,得到用戶流失預(yù)測模型,其中,用戶流失預(yù)測模型采用多個(gè)特征維度表明用戶的流失概率;

S103:從待預(yù)測的用戶數(shù)據(jù)中提取特征數(shù)據(jù),并輸入到用戶流失預(yù)測模型,輸出得到流失概率。

可見,上述S101-S102是訓(xùn)練階段;S103是預(yù)測階段。

訓(xùn)練階段可進(jìn)一步分為三個(gè)步驟:

第一步驟:選取會員樣本數(shù)據(jù)。

由于本發(fā)明是針對會員流失進(jìn)行預(yù)測,因此,選取一部分流失的會員以及一部分續(xù)費(fèi)的會員作為樣本。具體的,以會員過期的時(shí)間節(jié)點(diǎn)作為坐標(biāo)零點(diǎn),選取該時(shí)間節(jié)點(diǎn)前后一定時(shí)間段內(nèi)成功續(xù)費(fèi)以及未成功續(xù)費(fèi)的用戶作為會員樣本,例如,選取會員過期節(jié)點(diǎn)前后15天內(nèi)成功續(xù)費(fèi)或未成功續(xù)費(fèi)的用戶作為會員樣本。

第二步驟:從會員樣本數(shù)據(jù)中提取特征數(shù)據(jù)。

特征數(shù)據(jù)是用于表明會員的歷史操作行為、訂單情況、用戶基本情況等方面的數(shù)據(jù)。優(yōu)選的,特征數(shù)據(jù)包括:歷史行為信息、訂單信息和/或用戶基本信息。其中,歷史行為信息進(jìn)一步包括但不限于:歷史操作行為信息,比如對于影視網(wǎng)站,歷史行為信息是指用戶的觀影行為信息,包括一定時(shí)間段的觀影流量(例如一周內(nèi)觀影流量)、觀影類型、觀影時(shí)長、會員期內(nèi)登錄次數(shù)、等等;訂單信息一般是指一定時(shí)間段內(nèi)的付費(fèi)或免費(fèi)訂單數(shù)目;用戶基本信息一般包括用戶性別、用戶名、年齡、居住地、郵箱、教育程度等信息。特征數(shù)據(jù)類別越多,預(yù)測的越準(zhǔn)確。

第三步驟:基于機(jī)器學(xué)習(xí)對特征數(shù)據(jù)進(jìn)行建模,得到會員流失預(yù)測模型。

例如,可以基于Xgboost方法對特征數(shù)據(jù)進(jìn)行建模,其中,通過統(tǒng)計(jì)分支條件的增益之和,對各特征數(shù)據(jù)進(jìn)行重要性排序。Xgboost方法是集成學(xué)習(xí)算法GBDT(Gradient Boosting Decision Tree迭代決策樹算法)的一種實(shí)現(xiàn),GBDT算法由多棵決策樹組成,屬于集成機(jī)器學(xué)習(xí)算法的一種。

在具體建模過程中,可以將第二步驟中得到的所有特征數(shù)據(jù)統(tǒng)一建立一個(gè)模型,也可以對各特征數(shù)據(jù)按照子類別或數(shù)量分別建立多個(gè)子用戶流失預(yù)測模型。

建立多個(gè)子用戶流失預(yù)測模型的方式為:預(yù)先設(shè)定特征數(shù)據(jù)的子類別,然后分別為各個(gè)子類別特征數(shù)據(jù)建立子用戶流失預(yù)測模型。例如,如果將特征數(shù)據(jù)劃分為歷史行為信息、訂單信息和用戶基本信息這三個(gè)子類別,那么,根據(jù)歷史行為信息、訂單信息和用戶基本信息的各個(gè)特征,分別建立對應(yīng)的三個(gè)特征子用戶流失預(yù)測模型,即,建立歷史行為子用戶流失預(yù)測模型、訂單子用戶流失預(yù)測模型、用戶信息子用戶流失預(yù)測模型這三個(gè)子用戶流失預(yù)測模型。再如,還可以將特征數(shù)據(jù)分為以下子類別:歷史訂單信息、會員活躍信息、會員聯(lián)系信息、會員年齡信息、會員期訂單信息,那么,在建模時(shí),可針對這五個(gè)子類別分別建立五個(gè)子用戶流失預(yù)測模型:歷史訂單子用戶流失預(yù)測模型、會員活躍子用戶流失預(yù)測模型、會員聯(lián)系信息子用戶流失預(yù)測模型、會員年齡子用戶流失預(yù)測模型、會員期訂單子用戶流失預(yù)測模型。

在建立多個(gè)子用戶流失預(yù)測模型的情況,后續(xù)在預(yù)測階段也需要分別提取各子用戶流失預(yù)測模型對應(yīng)的特征數(shù)據(jù)分別輸入子用戶流失預(yù)測模型進(jìn)行預(yù)測。

與上述訓(xùn)練階段對應(yīng),在預(yù)測階段,從待預(yù)測的會員數(shù)據(jù)中提取的特征數(shù)據(jù)也包括:歷史行為信息、訂單信息和/或用戶基本信息。

在預(yù)測時(shí),針對一個(gè)統(tǒng)一的模型,是將提取的特征數(shù)據(jù)輸入到該統(tǒng)一的模型中,輸出得到預(yù)測結(jié)果,即輸出得到流失概率,并可根據(jù)輸出結(jié)果分析流失原因。對于多個(gè)子用戶流失預(yù)測模型的情況,是將對應(yīng)類別/分組的特征數(shù)據(jù)分別輸入到對應(yīng)的子用戶流失預(yù)測模型中,分別得到各特征對應(yīng)的流失概率,然后可以通過預(yù)置各特征加權(quán)值的方式,綜合分析流失原因和概率。

由于在訓(xùn)練階段,選取了流失/續(xù)費(fèi)會員的樣本數(shù)據(jù),并從樣本數(shù)據(jù)中提取出了多維特征數(shù)據(jù),因此建立的模型可以通過不同角度描述流失原因。在預(yù)測階段,通過將待預(yù)測會員數(shù)據(jù)輸入到模型中,可以得到流失概率,并進(jìn)行流失原因的分析。

下面以影視網(wǎng)站一個(gè)具體實(shí)例對本發(fā)明實(shí)施例進(jìn)行詳細(xì)介紹。

概括而言,本發(fā)明實(shí)施例采用機(jī)器學(xué)習(xí)技術(shù)解決會員流失預(yù)測問題。會員的續(xù)費(fèi)行為與他們在會員期間體驗(yàn)到的視頻服務(wù)息息相關(guān)。因此,抽取會員的觀影行為、訂單信息和基本信息來描述每一個(gè)會員。觀影行為反應(yīng)了會員在會員期內(nèi)和非會員期間在電影、VIP內(nèi)容、各個(gè)頻道、各個(gè)端等多個(gè)維度上享用網(wǎng)站視頻服務(wù)的情況。訂單信息則表示會員在影視網(wǎng)站上的付費(fèi)行為,能夠反映用戶對付費(fèi)服務(wù)的依賴程度?;拘畔⑹菚T主動提供的個(gè)人基礎(chǔ)信息,從一定程度上而言,填寫的基礎(chǔ)信息越多,表示越對影視網(wǎng)站賬號越重視。

在本例子中,會員預(yù)測問題被看作一個(gè)二分類問題,分為模型訓(xùn)練和預(yù)測兩個(gè)階段。

1)在訓(xùn)練過程中,從過去67天到38天(共30天)購買的會員中圈取流失用戶和續(xù)費(fèi)用戶作為正負(fù)例,并且從付費(fèi)會員中剔除自動續(xù)費(fèi)會員。然后,構(gòu)建訓(xùn)練集中每個(gè)會員的特征向量。最后,利用GBDT的一種實(shí)現(xiàn)Xgboost(eXtreme Gradient Boosting)訓(xùn)練模型,并做測試。

2)在預(yù)測過程中,選取最近37天(一般選擇一個(gè)月即30天的用戶行為數(shù)據(jù),但是要考慮過期之后7天是否會再次訪問該網(wǎng)站,因此多選7天)內(nèi)付費(fèi)的會員進(jìn)行預(yù)測。其中,訓(xùn)練過程及預(yù)測過程中,所選取的時(shí)間天數(shù)均為經(jīng)驗(yàn)值,本發(fā)明實(shí)施例并不以此為限。

下面從訓(xùn)練和預(yù)測兩個(gè)方面分別描述具體實(shí)現(xiàn)。

一、訓(xùn)練階段

(1)流失/續(xù)費(fèi)用戶選取

以會員的過期時(shí)間(end_time)作為坐標(biāo)零點(diǎn),統(tǒng)計(jì)會員在不同時(shí)間的續(xù)費(fèi)人數(shù),可以得到會員的續(xù)費(fèi)行為。經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn),大部分用戶續(xù)費(fèi)集中在過期15天之內(nèi),因此將過期前后15天之內(nèi)續(xù)費(fèi)行為視為正例,把一直沒有續(xù)費(fèi)的會員視為負(fù)例,其他會員忽略,正負(fù)例的選取條件越嚴(yán)格,訓(xùn)練出的模型區(qū)分度越強(qiáng)。

(2)特征數(shù)據(jù)提取

本例子根據(jù)影視網(wǎng)站會員業(yè)務(wù)的特點(diǎn),從用戶基本信息、觀影行為和訂單信息三個(gè)角度總共提出了256維特征,并在每個(gè)維度上進(jìn)行了用戶留存率的計(jì)算。

本例子中采用的特征數(shù)據(jù)詳細(xì)介紹如下

A用戶基礎(chǔ)信息(共42維)

-性別(男、女、未知,共3維)

-年齡(1維)

-注冊到成為會員的天數(shù)(1維)

-填充率(1維)

-是否填寫手機(jī)號(1維)

-是否填寫email(1維)

-是否填寫昵稱(1維)

-居住地(一線、二線、三線、四線城市、其他、未知,共6維)

-教育程度(小學(xué)、初中、高中、大專、本科等共7維)

-收入情況(1000元以下、1001-2000元、2001-3000元等共9維)

-第三方賬號接入類別(百度、新浪、人人網(wǎng)、QQ等共11維)

B觀影行為信息(共209維)

-各端VV總量(分別在歷史和會員期各一個(gè)月內(nèi)統(tǒng)計(jì),共54維)

-各頻道VV總量(分別在歷史和會員期各一個(gè)月內(nèi)統(tǒng)計(jì),除電影頻道,共76維)

-在電影、付費(fèi)視頻和所有視頻上的VV、天頻、部數(shù)、時(shí)長和距離過期時(shí)間指標(biāo)(分別在歷史和會員期一個(gè)月內(nèi)統(tǒng)計(jì),共30維)

-付費(fèi)視頻和電影的VV分別占總VV的比例(分別在歷史和會員期各一個(gè)月內(nèi)統(tǒng)計(jì),共4維)

-會員期每周的VV量(共4維)

-新片的VV量和劇量(分別從歷史和會員期各一個(gè)月統(tǒng)計(jì),分為上線一周、兩周、三周、更長四個(gè)時(shí)段,共16維)

-PGC和UGC的VV量和劇量(分別從歷史和會員期一個(gè)月統(tǒng)計(jì),共8維)

-院線電影、庫存影片和網(wǎng)絡(luò)大電影的觀看量(分別從歷史和會員期一個(gè)月統(tǒng)計(jì),共6維)

-會員期內(nèi)觀看第一部電影距離會員生效的時(shí)間(分天數(shù)和小時(shí),共2維)

-會員期內(nèi)觀看第一部付費(fèi)視頻距離會員生效的時(shí)間(分天數(shù)和小時(shí),共2維)

-會員期內(nèi)觀看第一部視頻距離會員生效的時(shí)間(分天數(shù)和小時(shí),共2維)

-會員賬號登陸設(shè)備數(shù)量(分別從歷史一個(gè)月和會員期一個(gè)月統(tǒng)計(jì),共2維)

-有過觀影行為的平臺數(shù)量(分別從歷史和會員期各一個(gè)月統(tǒng)計(jì),共2維)

-過期一周之內(nèi)是否活躍(1維度)

C訂單信息(共5維)

-六個(gè)月內(nèi)付費(fèi)訂單數(shù)(1維)

-六個(gè)月內(nèi)免費(fèi)訂單數(shù)(1維)

-六個(gè)月內(nèi)是否有付費(fèi)訂單(1維)

-六個(gè)月內(nèi)是否有免費(fèi)訂單(1維)

-訂單價(jià)格(購買當(dāng)前會員的訂單價(jià)格,1維)

(3)模型訓(xùn)練

Xgboost是集成學(xué)習(xí)算法GBDT的一種實(shí)現(xiàn),GBDT是一個(gè)加性回歸模型,通過boosting迭代的方法構(gòu)造一組弱學(xué)習(xí)器,主要優(yōu)點(diǎn)是精度高,不需要做特征的歸一化,自動進(jìn)行特征選擇,容易處理缺失值,模型可解釋性較好,可以適應(yīng)多種損失函數(shù)如SquareLoss,LogLoss等。其中,在訓(xùn)練過程中,通過統(tǒng)計(jì)分支條件的增益之和,可以對特征重要性進(jìn)行排序。訓(xùn)練樣本與預(yù)測數(shù)據(jù)的輸入格式均是:會員id(特征編號、特征值)等。

二:預(yù)測階段

根據(jù)訓(xùn)練階段選取樣本的要求,選取最近37天發(fā)生付費(fèi)行為的會員作為預(yù)測數(shù)據(jù)集。根據(jù)訓(xùn)練階段中的特征集合(256維特征數(shù)據(jù)),為每個(gè)預(yù)測會員構(gòu)建特征向量,并將特征向量輸入訓(xùn)練模型,預(yù)測每個(gè)會員的流失概率。其中,特征向量可以采用“索引:值”(Index:value)的形式,比如:第一維度是1:2,第十維是10:45等。

另外,為了進(jìn)一步細(xì)致地解釋流失原因,優(yōu)選的,可以把特征分成五組,分別建立子用戶流失預(yù)測模型,把會員行為特征分別輸入不同的模型,得到一組未概率化的留存值,留存值越高表示流失概率越低。把會員特征分成以下五組:歷史訂單量,會員活躍度,會員聯(lián)系方式,會員年齡性別,會員期訂單信息付費(fèi)習(xí)慣。具體將特征分為五組的方式是:將上述256維特征根據(jù)特征的定義進(jìn)行分組,即,相當(dāng)于把數(shù)據(jù)集分成了五份,每份上的特征是不同的,比如訂單組就只有訂單相關(guān)的特征,活躍度組就只有觀看天數(shù)、觀看時(shí)長、觀看VV量的特征;以此類推。

可見,本發(fā)明實(shí)施例提出的會員流失預(yù)測方案中包括訓(xùn)練階段和預(yù)測階段,訓(xùn)練階段包含三個(gè)步驟:選取流失/續(xù)費(fèi)會員樣本;對會員行為和基礎(chǔ)信息做特征工程;采用機(jī)器學(xué)習(xí)算法訓(xùn)練模型。預(yù)測計(jì)算包含兩個(gè)步驟:抽取待預(yù)測會員特征;利用訓(xùn)練得到的模型預(yù)測流失概率,并解釋流失原因。

需要說明的是,對于方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動作并不一定是本發(fā)明實(shí)施例所必須的。

參照圖2,是本發(fā)明實(shí)施例提供的一種用戶流失預(yù)測裝置結(jié)構(gòu)示意圖,該裝置包括:訓(xùn)練模塊201和預(yù)測模塊202:

所述訓(xùn)練模塊201包括:

樣本數(shù)據(jù)選取子模塊2011,用于選取用戶樣本數(shù)據(jù);

優(yōu)選的,所述樣本數(shù)據(jù)選取子模塊2011,選取用戶過期時(shí)間節(jié)點(diǎn)前后預(yù)定時(shí)間段內(nèi)流失用戶和續(xù)費(fèi)用戶作為用戶樣本。例如,由于本發(fā)明是針對會員流失進(jìn)行預(yù)測,因此,選取一部分流失的會員以及一部分續(xù)費(fèi)的會員作為樣本。具體的,以會員過期的時(shí)間節(jié)點(diǎn)作為坐標(biāo)零點(diǎn),選取該時(shí)間節(jié)點(diǎn)前后一定時(shí)間段內(nèi)成功續(xù)費(fèi)以及未成功續(xù)費(fèi)的用戶作為會員樣本,例如,選取會員過期節(jié)點(diǎn)前后15天內(nèi)成功續(xù)費(fèi)或未成功續(xù)費(fèi)的用戶作為會員樣本。

特征數(shù)據(jù)提取子模塊2012,用于從所述用戶樣本數(shù)據(jù)中提取特征數(shù)據(jù),其中,所述特征數(shù)據(jù)包括歷史操作行為信息、訂單信息和/或用戶基本信息;

特征數(shù)據(jù)是用于表明會員的歷史操作行為、訂單情況、用戶基本情況等方面的數(shù)據(jù)。優(yōu)選的,特征數(shù)據(jù)包括:歷史行為信息、訂單信息和/或用戶基本信息。其中,歷史行為信息進(jìn)一步包括但不限于:歷史操作行為信息,比如對于影視網(wǎng)站,歷史行為信息是指用戶的觀影行為信息,包括一定時(shí)間段的觀影流量(例如一周內(nèi)觀影流量)、觀影類型、觀影時(shí)長、會員期內(nèi)登錄次數(shù)、等等;訂單信息一般是指一定時(shí)間段內(nèi)的付費(fèi)或免費(fèi)訂單數(shù)目;用戶基本信息一般包括用戶性別、用戶名、年齡、居住地、郵箱、教育程度等信息。特征數(shù)據(jù)類別越多,預(yù)測的越準(zhǔn)確。

以及,

預(yù)測模型建立子模塊2013,用于基于所述特征數(shù)據(jù)進(jìn)行建模,得到會員流失預(yù)測模型,其中,所述用戶流失預(yù)測模型采用多個(gè)特征維度表明用戶的流失概率;

例如,可以基于Xgboost方法對特征數(shù)據(jù)進(jìn)行建模,其中,通過統(tǒng)計(jì)分支條件的增益之和,對各特征數(shù)據(jù)進(jìn)行重要性排序。Xgboost方法是集成學(xué)習(xí)算法GBDT(Gradient Boosting Decision Tree迭代決策樹算法)的一種實(shí)現(xiàn),GBDT算法由多棵決策樹組成,屬于集成機(jī)器學(xué)習(xí)算法的一種。

所述預(yù)測模塊202包括:

待預(yù)測特征數(shù)據(jù)提取子模塊2021,用于從待預(yù)測的用戶數(shù)據(jù)中提取特征數(shù)據(jù),以及,

預(yù)測子模塊2022,用于將待預(yù)測的特征數(shù)據(jù)輸入到所述用戶流失預(yù)測模型,輸出得到流失概率。

優(yōu)選的,所述預(yù)測模型建立子模塊2013基于所述特征數(shù)據(jù)統(tǒng)一建立一個(gè)模型,或者,所述預(yù)測模型建立子模塊2013,對特征數(shù)據(jù)按照子類別或數(shù)量劃分為多個(gè)子特征數(shù)據(jù),針對各個(gè)子特征數(shù)據(jù)分別建立多個(gè)子用戶流失預(yù)測模型。

優(yōu)選的,所述預(yù)測模型建立子模塊2013,根據(jù)所述特征數(shù)據(jù)中的歷史操作行為信息、訂單信息和/或用戶基本信息的各個(gè)子特征,分別建立對應(yīng)的多個(gè)子用戶流失預(yù)測模型;所述預(yù)測子模塊2022,從待預(yù)測的用戶數(shù)據(jù)中提取歷史操作行為信息、訂單信息和/或用戶基本信息,并分別輸入到對應(yīng)的子用戶流失預(yù)測模型中,輸出得到各子特征對應(yīng)的流失概率。

在具體建模過程中,可以將得到的所有特征數(shù)據(jù)統(tǒng)一建立一個(gè)模型,也可以對各特征數(shù)據(jù)按照子類別或數(shù)量分別建立多個(gè)子用戶流失預(yù)測模型。建立多個(gè)子用戶流失預(yù)測模型的方式為:預(yù)先設(shè)定特征數(shù)據(jù)的子類別,然后分別為各個(gè)子類別特征數(shù)據(jù)建立子用戶流失預(yù)測模型。例如,如果將特征數(shù)據(jù)劃分為歷史行為信息、訂單信息和用戶基本信息這三個(gè)子類別,那么,根據(jù)歷史行為信息、訂單信息和用戶基本信息的各個(gè)特征,分別建立對應(yīng)的三個(gè)特征子用戶流失預(yù)測模型,即,建立歷史行為子用戶流失預(yù)測模型、訂單子用戶流失預(yù)測模型、用戶信息子用戶流失預(yù)測模型這三個(gè)子用戶流失預(yù)測模型。再如,還可以將特征數(shù)據(jù)分為以下子類別:歷史訂單信息、會員活躍信息、會員聯(lián)系信息、會員年齡信息、會員期訂單信息,那么,在建模時(shí),可針對這五個(gè)子類別分別建立五個(gè)子用戶流失預(yù)測模型:歷史訂單子用戶流失預(yù)測模型、會員活躍子用戶流失預(yù)測模型、會員聯(lián)系信息子用戶流失預(yù)測模型、會員年齡子用戶流失預(yù)測模型、會員期訂單子用戶流失預(yù)測模型。

對于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。

本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明實(shí)施例的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明實(shí)施例可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本發(fā)明實(shí)施例是參照根據(jù)本發(fā)明實(shí)施例的方法、終端設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲器中,使得存儲在該計(jì)算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備上,使得在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

盡管已描述了本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明實(shí)施例范圍的所有變更和修改。

最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設(shè)備中還存在另外的相同要素。

以上對本發(fā)明所提供的一種關(guān)系型數(shù)據(jù)庫的調(diào)度方法及系統(tǒng),進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1