本發(fā)明涉及電子商務(wù)領(lǐng)域,具體來說,涉及一種用于電子商務(wù)中商品推薦列表的生成方法及生成系統(tǒng)。
背景技術(shù):
目前,互聯(lián)網(wǎng)電子商務(wù)的購買預(yù)測算法的標(biāo)準(zhǔn)是基于多維特征數(shù)據(jù)源,使用logistic regression模型,模型學(xué)習(xí)訓(xùn)練方法基本是最大似然算法,或是梯度下降算法。預(yù)測模型多采用統(tǒng)一的數(shù)據(jù)源,統(tǒng)一的模型,單終端的算法預(yù)測模型。
在目前的商品購買預(yù)測中,單一模型的使用仍較為普遍,但同時也暴露出其難以全面描述復(fù)雜業(yè)務(wù)的全部關(guān)系,預(yù)測精度和魯棒性不盡如人意的問題。同樣,單終端和統(tǒng)一的數(shù)據(jù)源,也不利于提高商品購買的預(yù)測精度。
技術(shù)實現(xiàn)要素:
技術(shù)問題:本發(fā)明實施例所要解決的技術(shù)問題是:提供一種用于電子商務(wù)中商品推薦列表的生成方法及生成系統(tǒng),能夠提高商品推薦列表的預(yù)測精度。
技術(shù)方案:為解決上述技術(shù)問題,一方面,本實施例提供一種用于電子商務(wù)中商品推薦列表的生成方法,該方法包括以下步驟:
S11采集用戶的特征數(shù)據(jù),并將各終端數(shù)據(jù)特征融合,得到融合后的實時預(yù)測特征向量;
S12計算行為商品的購買概率;
S13對S12得到的行為商品的購買概率進行修正,得到修正后的行為商品的購買概率;
S14根據(jù)修正后的行為商品的購買概率,測算相似相關(guān)商品的購買概率,并按照購買率大小排序,生成商品推薦列表。
作為一種實施例,所述的步驟S11中,所述的特征數(shù)據(jù)來源于PC端、WAP端和/或APP端站內(nèi)數(shù)據(jù),以及第三方線上數(shù)據(jù)和第三方線下終端數(shù)據(jù);所述的 特征數(shù)據(jù)包括歷史離線特征數(shù)據(jù)和實時特征數(shù)據(jù)。
作為一種實施例,所述的實時特征數(shù)據(jù)采用解析訪問日志、點擊日志、曝光日志、事件日志和/或訂單日志的方法得到。
作為一種實施例,所述的S11進一步包括:建立終端的映射關(guān)系,打通或?qū)ぢ犯鹘K端的數(shù)據(jù)連接通道,將各特征數(shù)據(jù)通過映射關(guān)系關(guān)聯(lián)得到融合后的特征向量,將各終端特征向量融合,得到融合后的實時預(yù)測特征向量。
作為一種實施例,所述的S12進一步包括:首先對用戶進行分類,并建立各類用戶對應(yīng)的分模型;然后將S11得到的實時預(yù)測特征向量帶入相應(yīng)用戶的分模型中,計算行為商品的購買概率。
作為一種實施例,所述的對用戶進行分類包括:按照終端類型、用戶類型和訪客類型三種維度,對用戶進行分類。
作為一種實施例,所述的S13中,對S12得到的行為商品的購買概率進行修正是:采用將各分模型的首次訓(xùn)練結(jié)果和新修正參數(shù)作為模型融合的偏移融合因子,對S12得到的行為商品的購買概率進行修正,得到修正后的商品購買概率。
作為一種實施例,所述的S14中,相似相關(guān)商品的購買概率按照式(1)測算:
Score_i=Master_SPU_Pos*SKU_Score_i/max(SKU_Score_i) 式(1)
其中,Score_i表示相似相關(guān)商品的購買概率,Master_SPU_Pos表示行為商品的購買概率,max(SKU_Score_i)表示相似相關(guān)商品列表中關(guān)聯(lián)度最高值,SKU_Score_i表示相似相關(guān)商品SKU_i與行為商品的關(guān)聯(lián)度。
另一方面,本實施例提供一種用于電子商務(wù)中商品推薦列表的生成系統(tǒng),該系統(tǒng)包括:
采集模塊:用于采集用戶的特征數(shù)據(jù),并將各終端數(shù)據(jù)融合,得到融合后的實時預(yù)測特征向量;
計算模塊:用于計算行為商品的購買概率;
融合模塊:用于對行為商品的購買概率進行修正,得到融合后的行為商品的購買概率;
生成模塊:用于測算相似相關(guān)商品的購買概率,并按照購買率大小排序,生成商品推薦列表。
作為一種實施例,所述的采集模塊中,特征數(shù)據(jù)來源于PC端、WAP端、APP端站內(nèi)數(shù)據(jù),以及第三方線上數(shù)據(jù)和線下終端數(shù)據(jù);所述的特征數(shù)據(jù)包括歷史離線特征數(shù)據(jù)和實時特征數(shù)據(jù)。
作為一種實施例,所述的采集模塊具體用于:建立終端的映射關(guān)系,打通各終端的數(shù)據(jù)連接通道,將各特征數(shù)據(jù)通過映射關(guān)系關(guān)聯(lián)得到融合后的特征向量,將各終端特征向量融合,得到融合后的實時預(yù)測特征向量。
作為一種實施例,所述的計算模塊包括:
分類子模塊:用于對用戶進行分類,形成多類用戶;
建模子模塊:用于對各類用戶建立對應(yīng)的分模型;
計算子模塊:用于采集模塊得到的實時預(yù)測特征向量帶入相應(yīng)用戶的分模型中,計算行為商品的購買概率。
作為一種實施例,所述的融合模塊中,對行為商品的購買概率進行修正是,采用將各分模型的首次訓(xùn)練結(jié)果和新修正參數(shù)作為模型融合的偏移融合因子,對行為商品的購買概率進行修正,得到融合后的商品購買概率。
作為一種實施例,所述的生成模塊中,相似相關(guān)商品的購買概率按照式(1)測算:
Score_i=Master_SPU_Pos*SKU_Score_i/max(SKU_Score_i) 式(1)
其中,Score_i表示相似相關(guān)商品的購買概率,Master_SPU_Pos表示行為商品的購買概率,max(SKU_Score_i)表示相似相關(guān)商品列表中關(guān)聯(lián)度最高值,SKU_Score_i表示相似相關(guān)商品SKU_i與行為商品的關(guān)聯(lián)度。
有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明實施例提供的用于電子商務(wù)中商品推薦列表的生成方法及系統(tǒng),采集多終端的特征數(shù)據(jù),多數(shù)據(jù)融合,可以解決數(shù)據(jù)的完整性,提高模型精度。同時,根據(jù)用戶分類建立多模型,利用多模型分別計算購買概率,多模型可以提高預(yù)測概率的準(zhǔn)確性和推薦的準(zhǔn)確性。多模型融合可以把多個模型的結(jié)果歸一化,使得生成的商品推薦列表的精度更高,更符合用戶的需求。另外,多終端數(shù)據(jù)融合可以解決不同終端的行為推薦的穩(wěn)定性和準(zhǔn)確性,多終端的數(shù)據(jù)覆蓋的用戶行為數(shù)據(jù)比單一終端的更加全面、豐富,從而使得魯棒性更好。
附圖說明
圖1是本發(fā)明一實施例的流程框圖;
圖2是本發(fā)明一實施例中模型訓(xùn)練的流程框圖;
圖3是本發(fā)明一實施例中模型的分布圖;
圖4是本發(fā)明另一實施例的結(jié)構(gòu)框圖。
具體實施方式
下面結(jié)合附圖,對本發(fā)明實施例的技術(shù)方案進行詳細的說明。
如圖1所述,本實施例提供一種用于電子商務(wù)中商品推薦列表的生成方法,包括以下步驟:
S11采集用戶的特征數(shù)據(jù),并將各終端數(shù)據(jù)融合,得到融合后的實時預(yù)測特征向量;
S12計算行為商品的購買概率;
S13對S12得到的行為商品的購買概率進行修正,得到融合后的行為商品的購買概率;
S14測算相似相關(guān)商品的購買概率,并按照購買率大小排序,生成商品推薦列表。
上述實施例中,采集的用戶特征數(shù)據(jù)來源于PC端、WAP端、APP端站內(nèi)數(shù)據(jù),以及第三方線上數(shù)據(jù)和線下終端數(shù)據(jù)。這樣,從數(shù)據(jù)采集角度而言,這些特征數(shù)據(jù)覆蓋了多個終端。與單個終端,例如WAP端相比,本實施例采集的數(shù)據(jù)來源范圍廣。多終端數(shù)據(jù)來源,為后續(xù)的購買概率預(yù)測提供了更準(zhǔn)確的基礎(chǔ)數(shù)據(jù)。作為一種優(yōu)選方案,特征數(shù)據(jù)包括歷史離線特征數(shù)據(jù)和實時特征數(shù)據(jù)。歷史離線特征數(shù)據(jù)可以選擇:會員屬性或標(biāo)簽、會員忠誠度、會員購買力、會員偏好、會員歷史訪問指標(biāo)等等。會員歷史訪問指標(biāo)可以是:過去N天添加購物車行為次數(shù)、過去N天添加收藏夾行為次數(shù)、過去N天PV數(shù)、過去N天一個會話內(nèi)最多PV數(shù)、過去N天網(wǎng)站訪問時長、過去N天一個會話的最大時長、過去N天瀏覽商品詳情頁數(shù)量、過去N天一個會話內(nèi)最多訪問詳情頁數(shù)量、過去N天會話數(shù)量、過去N天天訂單數(shù)量等等。實時特征數(shù)據(jù)采用解析訪問日志、點擊日志、曝光日志、事件日志、訂單日志的方法得到。例如,實時特征數(shù)據(jù)包括四級頁商品詳情區(qū)點擊 次數(shù)(包括評價)、商品四級頁收藏點擊次數(shù)、列表頁推薦點擊次數(shù)、列表頁收藏點擊次數(shù)、列表頁商品點擊次數(shù)、用戶瀏覽pv、搜索頁收藏點擊次數(shù)、搜索頁推薦點擊次數(shù)、新動態(tài)促銷頁商品點擊次數(shù)、用戶靜態(tài)商品促銷頁pv等等。
在S11中,實時預(yù)測特征向量的確定方法為:建立終端的映射關(guān)系,打通各終端的數(shù)據(jù)連接通道,將各特征數(shù)據(jù)通過映射關(guān)系關(guān)聯(lián)得到融合后的特征向量,將各終端特征向量融合,得到融合后的實時預(yù)測特征向量。對于非會員,可以通過cookie、手機串號等對應(yīng)映射關(guān)系關(guān)聯(lián)得到融合后的特征指標(biāo)。對于會員,可以通過會員編碼等關(guān)聯(lián)實時數(shù)據(jù)和歷史數(shù)據(jù),得到融合后的特征指標(biāo)。通過會員關(guān)系、各終端識別碼進行數(shù)據(jù)連接和關(guān)聯(lián),得到融合數(shù)據(jù)。
在通過S11得到融合后的實時預(yù)測特征向量后,需要計算行為商品的購買概率。本實施例提供的行為商品的購買概率的測算方法不同于傳統(tǒng)方法。本實施例采用多模型的預(yù)測方法,具體來說:首先,對用戶進行分類,并建立各類用戶對應(yīng)的分模型;然后,將S11得到的實時預(yù)測特征向量帶入相應(yīng)用戶的分模型中,計算行為商品的購買概率。
對用戶進行分類的方式有很多,作為一種優(yōu)選方案,本實施例選擇按照終端類型、用戶類型、訪客類型三種維度,對用戶進行分類,并對每類用戶建立一分模型。例舉一實例,將用戶分為8類,具體分類如下:
PC新訪客模型:針對無歷史行為特征的、且今天訪問網(wǎng)站的PC訪客而建立的模型。
PC老訪客模型:針對有歷史行為特征的PC訪客而建立的模型。
PC新會員模型,針對無歷史行為特征的、且今天注冊為會員的PC會員而建立的模型。
PC老會員模型,針對有歷史行為特征的、且之前注冊為會員的PC會員而建立的模型。
WAP訪客模型,針對非注冊會員的WAP訪客而建立的模型。
WAP會員模型,針對注冊會員的WAP會員而建立的模型。
APP訪客模型,針對非注冊會員的APP訪客而建立的模型。
APP會員模型,針對注冊會員的APP會員而建立的模型。
當(dāng)然除此之外,其他的用戶分類方法亦可行,只要分別建立相應(yīng)分類的模型, 并進行訓(xùn)練。
采用上述多模型測算得到的行為商品的購買概率也為多個。本實施例對多個模型進行融合,得到統(tǒng)一的行為商品的購買概率,即融合后的行為商品的購買概率。對S12得到的行為商品的購買概率進行修正,具體過程為:采用將各分模型的首次訓(xùn)練結(jié)果和新修正參數(shù)作為模型融合的偏移融合因子,對S12得到的行為商品的購買概率進行概率修正,得到修正的概率,即得到融合后的商品購買概率。修正的方法是多模型概率融合模型進行計算。
各分模型的新修正參數(shù)可以自由設(shè)定,例如,新修正參數(shù)為轉(zhuǎn)化率、點擊率或者模型分類。
多模型融合可視為再次的機器學(xué)習(xí)過程。設(shè)有3個分類模型:分模型M1、分模型M2和分模型M3,利用測試樣本數(shù)據(jù)進行模型測試,測試數(shù)據(jù)輸出的結(jié)果分別為F1,F(xiàn)2和F3。用訓(xùn)練樣本數(shù)據(jù)通過模型輸出的訓(xùn)練數(shù)據(jù)預(yù)測結(jié)果為f1,f2和f3。將f1,f2、f3和各分模型的轉(zhuǎn)化率合并到訓(xùn)練樣本數(shù)據(jù)中,對各分模型再次訓(xùn)練,得到修正的模型。再用修正的模型訓(xùn)練測試樣本數(shù)據(jù),得到結(jié)果a,b和c。
本實施例中,行為商品是指用戶在電子商務(wù)網(wǎng)站上有操作行為的商品。操作行為例如:瀏覽、點擊、加入收藏夾等行為。相似相關(guān)商品是指與行為商品相似或相關(guān)的商品。相似相關(guān)商品由行為商品按照關(guān)聯(lián)規(guī)則、協(xié)同過濾等關(guān)聯(lián)方法計算得出的商品列表,然后根據(jù)支持度和信任度選取分別滿足用戶給定的閾值,按照閾值過濾得到商品。其中選取的關(guān)聯(lián)場景包括但不限于瀏覽最終購買、看了還看、看了最終購買、配件搭配場景等。本實施例以式(1)計算相似相關(guān)商品的購買概率:
Score_i=Master_SPU_Pos*SKU_Score_i/max(SKU_Score_i) 式(1)
其中,Score_i表示相似相關(guān)商品的購買概率,Master_SPU_Pos表示行為商品的購買概率,max(SKU_Score_i)表示相似相關(guān)商品列表中關(guān)聯(lián)度最高值,SKU_Score_i表示相似相關(guān)商品與行為商品的關(guān)聯(lián)度。
本實施例采用多數(shù)據(jù)源、多終端類型的數(shù)據(jù),進行訓(xùn)練多模型的實時計算購買轉(zhuǎn)化預(yù)測概率。同時模型采用線性分片和融合打通的訓(xùn)練樣本數(shù)據(jù),并且對分片的多模型采用偏移量因子進行模型融合歸一處理,最終得到一個精度高、多終 端融合的實時購買概率預(yù)測的模型。本實施例根據(jù)不同終端、不同人群的實時訪問行為,提供一個實時、個性化的基于用戶購買概率的商品推薦方法。本實施例可以實時采集數(shù)據(jù),并進行計算,向用戶實時推薦商品。
本實施例根據(jù)不同的數(shù)據(jù)終端和融合數(shù)據(jù),按照人群分別訓(xùn)練模型,然后按照分群片區(qū)的偏移修正,融合各模型,得到統(tǒng)一的模型。融合所用的方法有很多,大部分人直接用機器學(xué)習(xí)里的各類方法,或者用統(tǒng)計回歸等。本實施例選用各分模型初步預(yù)測結(jié)果加新修正參數(shù)重新訓(xùn)練的方法,得到融合模型。其他機器學(xué)習(xí)的方法預(yù)測精度提高有限、模型比較復(fù)雜。本實施例中,步驟S11采集的數(shù)據(jù)來源于多個終端。步驟S13中,對人群進行了分類,并對每類人群分別建立了分模型;然后對各分模型進行訓(xùn)練,將首次訓(xùn)練結(jié)果和新修正參數(shù)作為模型融合的偏移融合因子,對各分模型進行融合歸一處理,得到修正后的統(tǒng)一模型,即融合后的統(tǒng)一模型;最后利用該融合后的統(tǒng)一模型進行概率測算。相比較其他機器學(xué)習(xí)方法,本實施例從數(shù)據(jù)來源和模型建立兩方面,尤其是融合后的統(tǒng)一模型,提高了預(yù)測精度。與現(xiàn)有技術(shù)中建立一個總模型相比,本實施例采用對各分類人群分別建立分模型,模型簡單。不同類別的人群,影響購買概率的因素不同。建立一個總模型需要考慮各類人群的影響因素。而對各分類人群建立分模型,僅僅需要考慮該類人群的影響因素,不需要考慮其他類人群的影響因素。因此,本實施例的模型簡單。
對本實施例采用的方法和利用單一模型進行預(yù)測的方法進行比較。按照單一模型預(yù)測,分類器正確判斷陽性樣本的值高于陰性樣本之概率(英文全稱:Area Under the ROC Curve,文中簡稱:AUC)為0.70。采用本實施例方法,AUC=0.85。本實施例的方法的預(yù)測精度高于單一模型的預(yù)測精度。
圖2所示,為本實施例中涉及的模型的離線自動訓(xùn)練流程,具體如下:
S21根據(jù)不同終端選取實時行為特征數(shù)據(jù)和歷史特征數(shù)據(jù)。
該實時行為特征數(shù)據(jù)和歷史特征數(shù)據(jù)包括PC端、WAP端、APP端等站內(nèi)數(shù)據(jù),也包括第三方線上數(shù)據(jù)和線下終端數(shù)據(jù)。例如,實時行為特征數(shù)據(jù)包括:詳情訪問特征、搜索特征、列表頁訪問特征、促銷訪問特征、頁面點擊特征、收藏夾次數(shù)、購物車次數(shù)等。歷史特征數(shù)據(jù)包括:會員屬性或標(biāo)簽、會員忠誠度、會員購買力、會員偏好、會員歷史訪問指標(biāo)等。舉例來說,會員歷史訪問指標(biāo)包括過去 N天添加購物車行為次數(shù)、過去N天添加收藏夾行為次數(shù)、過去N天PV數(shù)、過去N天一個會話內(nèi)最多PV數(shù)、過去N天網(wǎng)站訪問時長、過去N天一個會話的最大時長、過去N天瀏覽商品詳情頁數(shù)量、過去N天一個會話內(nèi)最多訪問詳情頁數(shù)量、過去N天會話數(shù)量、過去N天訂單數(shù)量。
S22根據(jù)S21采集的實時行為特征數(shù)據(jù)和歷史特征數(shù)據(jù),分別提取部分?jǐn)?shù)據(jù)作為訓(xùn)練樣本數(shù)據(jù)和離線測試樣本數(shù)據(jù),得到特征向量。
該特征向量包括實時行為特征和歷史特征指標(biāo)。提取部分?jǐn)?shù)據(jù)可以是1-30天產(chǎn)生的數(shù)據(jù),也可以是其他天數(shù)內(nèi)產(chǎn)生的數(shù)據(jù)。
S23根據(jù)S22得到的數(shù)據(jù),訓(xùn)練模型。
依照上述實施例所述,按照終端類型、用戶類型和訪客類型維度,對用戶進行分類,并對每類用戶建立一分模型。使用logistic regression模型訓(xùn)練各分模型。
舉例來說,訓(xùn)練的各分模型包括:
PC新訪客模型,訓(xùn)練的樣本數(shù)據(jù)包括無歷史行為特征的PC訪客(非會員);
PC老訪客模型,訓(xùn)練的樣本數(shù)據(jù)包括有歷史歷史行為特征的PC訪客(非會員);
PC新會員模型,訓(xùn)練的樣本數(shù)據(jù)包括無歷史行為特征的PC會員;
PC老會員模型,訓(xùn)練的樣本數(shù)據(jù)包括有歷史歷史行為特征的PC會員;
WAP訪客模型,訓(xùn)練的樣本數(shù)據(jù)包括WAP訪客(非會員);
WAP會員模型,訓(xùn)練的樣本數(shù)據(jù)包括WAP會員;
APP訪客模型,訓(xùn)練的樣本數(shù)據(jù)包括APP訪客(非會員);
APP會員模型,訓(xùn)練的樣本數(shù)據(jù)包括APP會員。
用p(y=1|x)表示邏輯回歸函數(shù)(用戶購買概率的模型),如式(2)所示:
其中,p(y=1|x)表示轉(zhuǎn)化概率,f(x)表示特征向量的線性函數(shù)。
由于特征選取較多,且模型比較復(fù)雜,會產(chǎn)生過擬合、特征共線性等問題,選用LASSO回歸的方法進行模型的變量選擇和正則化,lasso回歸的RSS形式如下:
其中,y表示預(yù)測變量,β0表示常量,βj表示變量參數(shù),λ表示lasso懲罰系數(shù),i表示樣本數(shù)量,j表示模型變量數(shù)量,xij表示變量。
模型按照終端、用戶類型、訪客類型維度進行分片處理,分片后的模型如式(4):
其中,p(y=1|x)表示轉(zhuǎn)化概率,即購買概率;π表示分模型,即各分類用戶對應(yīng)的分模型,m表示模型數(shù)量,x表示變量,ω表示權(quán)重,i表示樣本數(shù)量。
S24,根據(jù)S23得到的如式(4)所示的訓(xùn)練模型,加入首次訓(xùn)練結(jié)果和新修正參數(shù)進行融合,得到融合后的統(tǒng)一模型。
如圖4所示,為另一實施例。該實施例提供一種用于電子商務(wù)中商品推薦列表的生成系統(tǒng),包括:
采集模塊:用于采集用戶的特征數(shù)據(jù),并將各終端數(shù)據(jù)融合,得到融合后的實時預(yù)測特征向量;
計算模塊:用于計算行為商品的購買概率;
融合模塊:用于對行為商品的購買概率進行修正,得到融合后的行為商品的購買概率;
生成模塊:用于測算相似相關(guān)商品的購買概率,并按照購買率大小排序,生成商品推薦列表。
該實施例中,采集模塊采集的用戶特征數(shù)據(jù)來源于PC端、WAP端、APP端站內(nèi)數(shù)據(jù),以及第三方線上數(shù)據(jù)和線下終端數(shù)據(jù)。這樣,從數(shù)據(jù)采集角度而言,這些特征數(shù)據(jù)覆蓋了多個終端。與單個終端,例如WAP端相比,本實施例采集的數(shù)據(jù)來源范圍廣。多終端數(shù)據(jù)來源,為后續(xù)的購買概率預(yù)測提供了更準(zhǔn)確的基礎(chǔ)數(shù)據(jù)。作為一種優(yōu)選方案,特征數(shù)據(jù)包括歷史離線特征數(shù)據(jù)和實時特征數(shù)據(jù)。歷史離線特征數(shù)據(jù)可以選擇:會員屬性或標(biāo)簽、會員忠誠度、會員購買力、會員偏好、會員歷史訪問指標(biāo)等等。會員歷史訪問指標(biāo)可以是:過去N天添加購物車行為次 數(shù)、過去N天添加收藏夾行為次數(shù)、過去N天PV數(shù)、過去N天一個會話內(nèi)最多PV數(shù)等等。實時特征數(shù)據(jù)采用解析訪問日志、點擊日志、曝光日志、事件日志、訂單日志的方法得到。例如,實時特征數(shù)據(jù)包括四級頁商品詳情區(qū)點擊次數(shù)(包括評價)、商品四級頁收藏點擊次數(shù)、列表頁推薦點擊次數(shù)、列表頁收藏點擊次數(shù)、列表頁商品點擊次數(shù)等等。
在采集模塊中,實時預(yù)測特征向量的方法為:建立終端的映射關(guān)系,打通各終端的數(shù)據(jù)連接通道,將各特征數(shù)據(jù)通過映射關(guān)系關(guān)聯(lián)得到融合后的特征向量,將各終端特征向量融合,得到融合后的實時預(yù)測特征向量。對于非會員,可以通過cookie、手機串號等對應(yīng)映射關(guān)系關(guān)聯(lián)得到融合后的特征指標(biāo)。對于會員,可以通過會員編碼等關(guān)聯(lián)實時數(shù)據(jù)和歷史數(shù)據(jù),得到融合后的特征指標(biāo)。通過會員關(guān)系、各終端識別碼進行數(shù)據(jù)連接和關(guān)聯(lián),得到融合數(shù)據(jù)。
通過采集模塊得到融合后的實時預(yù)測特征向量后,需要計算行為商品的購買概率。本實施例中的計算模塊包括:
分類子模塊:用于對用戶進行分類,形成多類用戶;
建模子模塊:用于對各類用戶建立對應(yīng)的分模型;
計算子模塊:用于采集模塊得到的實時預(yù)測特征向量帶入相應(yīng)用戶的分模型中,計算行為商品的購買概率。
該計算模塊不同于現(xiàn)有的其他計算模塊。該計算模塊通過分類子模塊對用戶進行分類,形成多類用戶;然后通過建模子模塊對各類用戶建立對應(yīng)的分模型;最后利用計算子模塊將采集模塊得到的實時預(yù)測特征向量,帶入相應(yīng)用戶的分模型中,計算行為商品的購買概率。對用戶進行分類的方式有很多,作為一種優(yōu)選方案,本實施例選擇按照終端類型、用戶類型、訪客類型三種維度,對用戶進行分類,并對每類用戶建立一分模型。本計算模塊由于采用了多個分模型,其測算得到的行為商品的購買概率為多個。本實施例對多個模型進行融合,得到統(tǒng)一的行為商品的購買概率,即融合后的行為商品的購買概率。對計算模塊得到的行為商品的購買概率進行修正,具體過程為:采用將各分模型的首次訓(xùn)練結(jié)果和新修正參數(shù)作為模型融合的偏移融合因子,對計算模塊得到的行為商品的購買概率進行概率修正,得到修正的概率。修正的方法是多模型概率融合模型進行計算。
各分模型的新修正參數(shù)可以自由設(shè)定,例如,新修正參數(shù)為轉(zhuǎn)化率、點擊率 或者模型分類。
多模型融合可視為再次的機器學(xué)習(xí)過程。設(shè)有3個分類模型:分模型M1、分模型M2和分模型M3,利用測試樣本數(shù)據(jù)進行模型測試,測試數(shù)據(jù)輸出的結(jié)果分別為F1,F(xiàn)2和F3。用訓(xùn)練樣本數(shù)據(jù)通過模型輸出的訓(xùn)練數(shù)據(jù)預(yù)測結(jié)果為f1,f2和f3。將f1,f2、f3和各分模型的轉(zhuǎn)化率合并到訓(xùn)練樣本數(shù)據(jù)中,對各分模型再次訓(xùn)練,得到修正的模型。再用修正的模型訓(xùn)練測試樣本數(shù)據(jù),得到結(jié)果a,b和c。
本實施例中,行為商品是用戶有訪問等行為的商品,相似相關(guān)商品是指與用戶行為商品相似或相關(guān)的商品。作為一種優(yōu)選方案,按照式(1)測算相似相關(guān)商品的購買概率。
Score_i=Master_SPU_Pos*SKU_Score_i/max(SKU_Score_i) 式(1)
其中,Score_i表示相似相關(guān)商品的購買概率,Master_SPU_Pos表示行為商品的購買概率,max(SKU_Score_i)表示相似相關(guān)商品列表中關(guān)聯(lián)度最高值,SKU_Score_i表示相似相關(guān)商品SKU_i與行為商品的關(guān)聯(lián)度。
本領(lǐng)域技術(shù)人員應(yīng)該知曉,實現(xiàn)上述實施例的方法或者系統(tǒng),可以通過計算機程序指令來實現(xiàn)。該計算機程序指令裝載到可編程數(shù)據(jù)處理設(shè)備上,例如計算機,從而在可編程數(shù)據(jù)處理設(shè)備上執(zhí)行相應(yīng)的指令,用于實現(xiàn)上述實施例的方法或者系統(tǒng)實現(xiàn)的功能。
本領(lǐng)域技術(shù)人員依據(jù)上述實施例,可以對本申請進行非創(chuàng)造性的技術(shù)改進,而不脫離本發(fā)明的精神實質(zhì)。這些改進仍應(yīng)視為在本申請權(quán)利要求的保護范圍之內(nèi)。