基于bbd或/和rf模型獲取潛客級別的方法和系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及潛在數(shù)據(jù)挖掘技術領域,尤其涉及一種基于BBD或/和RF模型獲取潛 客級別的方法和系統(tǒng)。
【背景技術】
[0002] 每天,有一部分購車潛在用戶會以很大的概率在短期內轉化為實際購車用戶(比 如有過下SL行為的用戶),如果售車網(wǎng)站通過對網(wǎng)站用戶的歷史行為分析,預測出用戶的 潛在級別,就可以提前對用戶做預判,從而幫助廠商、經(jīng)銷商和網(wǎng)站自己做相應的運營策 略,以提高或影響用戶的體驗或決策過程。因此,整個潛在客戶(簡稱潛客)的挖掘工作屬 于售車網(wǎng)站UP中重要的一部分。
[0003] 目前,一般采用如下方法做潛客分析:
[0004] 從數(shù)據(jù)庫中抽樣用戶行為日志,但由于數(shù)據(jù)量問題,時間周期較短;人工對用戶行 為日志分析,比如,用戶訪問了網(wǎng)站的哪個頻道,頻次如何,時長怎樣;人工對不同類型、不 同來源行為做權重設置,比如:用戶下過銷售線索,權重為:〇. 5 ;人工對上述權重做組合, 并人工確定閾值,劃分潛客級別。
[0005] 但是,現(xiàn)有技術均存在以下缺陷:
[0006] 大部分數(shù)據(jù)都是基于數(shù)據(jù)庫的,所以能夠處理的數(shù)據(jù)量有限,而要想深入了解用 戶行為往往需要大量的數(shù)據(jù)分析;人工進行用戶行為分析工作量較大,且容易出錯;人工 利用先驗知識對用戶的不同行為確定權重及做權重組合,導致人工干擾較多,且結果無法 衡量,效果無法得到保證。
【發(fā)明內容】
[0007] 本發(fā)明的目的在于提供一種基于BBD或/和RF模型獲取潛客級別的方法和系統(tǒng), 從而解決現(xiàn)有技術中存在的前述問題。
[0008] 為了實現(xiàn)上述目的,本發(fā)明采用的技術方案如下:
[0009] -種基于BBD模型獲取潛客級別的方法,包括如下步驟:
[0010] Sl,構建BBD模型,所述BBD模型的形式如下:
[0011]
[0012]式中,
[0013] C :用戶歷史下單行為次數(shù),
[0014] I :用戶歷史瀏覽行為次數(shù),
[0015] Ctr :用戶潛在下單概率,
[0016] α、β :BBD模型的參數(shù);
[0017] S2,采用MLE方法,建立如下算式:
[0018]
[0019] 式中,
[0020] η :樣本的個數(shù);
[0021] S3,對S2中的算式取In后獲得完全數(shù)據(jù)的log likelihood function ;
[0022] S4,計算所述完全數(shù)據(jù)的log likelihood function的數(shù)學期望;
[0023] S5,根據(jù)所述數(shù)學期望獲得如下形式的迭代式; Γλλο/ι?
[0026] S6,根據(jù)S5中的迭代式計算所述BBD模型的參數(shù):α、β的值;
[0027] S7,將α、β的值代入SI中的所述BBD模型中,根據(jù)所述BBD模型計算用戶潛在 下單概率。
[0028] 其中,Sl中,用戶歷史下單行為服從二項分布:
[0029]
[0030] 下單概率服從beta分布:
[0031] '、 · ··, 〇
[0032] 優(yōu)選地,S3中,所述完全數(shù)據(jù)的log likelihood function為:
[0033]
[0034] 優(yōu)選地,S4中,所述計算所述完全數(shù)據(jù)的log likelihood function的數(shù)學期望, 采用EM算法,具體為:
[0035]
LUUbI」一柙盎t BBU悮型犾耿潸各級別的糸軌,忸拈:
[0052] 數(shù)據(jù)平臺:包括特征數(shù)據(jù)層和畫像數(shù)據(jù)層,所述特征數(shù)據(jù)層包括:網(wǎng)站用戶的歷 史行為數(shù)據(jù)、由行為數(shù)據(jù)挖掘出的行為特征數(shù)據(jù)及由已有用戶畫像數(shù)據(jù)生成的特征數(shù)據(jù); 畫像數(shù)據(jù)層包括:由所述特征數(shù)據(jù)通過模型學習得到的用戶畫像數(shù)據(jù);
[0053] 計算平臺:包括模型層、算法層和計算層,所述模型層包括:BBD模型;所述算法層 包括:SGD/GD、LBFGS和CD優(yōu)化算法;所述計算層通過讀取所述數(shù)據(jù)平臺的所述特征數(shù)據(jù), 使用所述算法層提供的優(yōu)化算法訓練得到所述BBD模型參數(shù);
[0054] 應用平臺:讀取所述計算平臺得到的BBD模型和所述數(shù)據(jù)平臺存儲的所述特征數(shù) 據(jù),應用BBD模型并輸出潛客級別。
[0055] -種基于BBD模型和RF模型獲取潛客級別的方法,包括如下步驟:
[0056] 步驟1,利用機器學習模型,構建基于BBD模型和RF模型的RF融合模型;其中,BBD 模型求解的方法如權利要求1-6任一項中所述的基于BBD模型獲取潛客級別的方法;
[0057] 步驟2,應用所述RF融合模型并輸出潛客級別數(shù)據(jù)。
[0058] 其中,所述步驟1包括如下步驟:
[0059] 步驟101,將樣本集劃分為訓練樣本集一、訓練樣本集二和測試樣本集;
[0060] 步驟102,利用所述訓練樣本集一進行BBD模型求解,且進行BBD模型求解的方法 如權利要求1-6任一項所述的方法,獲取BBD模型并輸出結果;
[0061] 步驟103,利用所述訓練樣本集二進行RF模型求解,獲取RF模型并輸出結果;
[0062] 步驟104,將步驟102和103中獲得的BBD模型的輸出結果和RF模型的輸出結果 進行合并,作為訓練樣本集三,并利用所述訓練樣本集三進行RF融合模型求解,生成RF融 合模型;
[0063] 步驟105,利用所述測試樣本集對所述RF融合模型進行測試,得到測試結果;
[0064] 步驟106,根據(jù)測試結果判斷是否調整BBD模型,如果是,則跳轉到步驟102,否則, 判斷是否調整RF模型,如果是,則跳轉到步驟103,否則,輸出所述RF融合模型的評價指標, 以及所述RF融合模型。
[0065] -種基于BBD模型和RF模型獲取潛客級別的系統(tǒng),包括:
[0066] 數(shù)據(jù)平臺:包括特征數(shù)據(jù)層和畫像數(shù)據(jù)層,所述特征數(shù)據(jù)層包括:網(wǎng)站用戶的歷 史行為數(shù)據(jù)、由行為數(shù)據(jù)挖掘出的行為特征數(shù)據(jù)及由已有用戶畫像數(shù)據(jù)生成的特征數(shù)據(jù); 畫像數(shù)據(jù)層包括:由所述特征數(shù)據(jù)通過模型學習得到的用戶畫像數(shù)據(jù);
[0067] 計算平臺:包括模型層、算法層和計算層,所述模型層包括:BBD模型、RF模型和RF 融合模型;所述算法層包括:SGD/GD、LBFGS和CD優(yōu)化算法;所述計算層通過讀取所述數(shù)據(jù) 平臺的所述特征數(shù)據(jù),使用所述算法層提供的優(yōu)化算法訓練得到所述BBD模型、RF模型的 參數(shù),獲取RF融合模型的參數(shù);
[0068] 應用平臺:讀取所述計算平臺得到的RF融合模型以及所述數(shù)據(jù)平臺存儲的所述 特征數(shù)據(jù),應用RF融合模型輸出潛客級別。
[0069] 本發(fā)明的有益效果是:本發(fā)明實施例提供的基于BBD或/和RF模型獲取潛客級別 的方法和系統(tǒng),通過構建和使用BBD或/和RF模型,獲取潛客級別,充分利用了用戶歷史行 為數(shù)據(jù),利用大數(shù)據(jù)平臺提取用戶在多天(比如120天)內的行為數(shù)據(jù),從而可以深入了解 用戶行為;另外,構建特征工程系統(tǒng),自動化計算用戶偏好、時長、頻次等行為特征,采用模 式識別方法,通過對數(shù)據(jù)概率分布的合理假設,讓模型自己學習數(shù)據(jù)規(guī)律,自動確定自變量 與因變量之間的權重關系,既解決了人工進行用戶行為分析工作量大的問題,也完全排除 了人工影響,同時,還有明確的衡量指標:AUC、Recall、Precision、MSE,自動通過真實數(shù)據(jù) 對模型效果做衡量,從而使輸出的潛客級別的結果得到有效的衡量,保證結果的有效性。
【附圖說明】
[0070] 圖1是本發(fā)明實施例一提供的基于BBD模型獲取潛客級別的方法流程示意圖;
[0071] 圖2是本發(fā)明實施例二提供的基于BBD模型獲取潛客級別的系統(tǒng)結構示意圖;
[0072] 圖3是本發(fā)明實施例三提供的基于BBD模型和RF模型獲取潛客級別的方法流程 示意圖;
[0073] 圖4是本發(fā)明實施例四提供的基于BBD模型和RF