一種用戶行為的機器學習模型的訓練方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種用戶行為的機器學習模型的訓練方法及裝置,無需特征降維即可解決數(shù)據(jù)稀疏問題,提高用戶行為預測的準確性。該方法包括:收集用戶的歷史訪問數(shù)據(jù);將用戶的歷史訪問數(shù)據(jù)按照包含有一個或多個維度的特征集進行分類聚合,形成多個樣本;計算每一樣本對應的用戶行為統(tǒng)計信息,用戶行為統(tǒng)計信息包括用戶流量數(shù);當當前樣本對應的用戶流量數(shù)小于流量數(shù)第一閾值時,計算當前樣本與其他樣本的距離;選擇距離小于距離閾值的其他樣本作為當前樣本的鄰近樣本;將當前樣本的用戶行為統(tǒng)計信息與鄰近樣本的用戶行為統(tǒng)計信息合并生成新樣本;使用新樣本訓練預先建立的機器學習模型,機器學習模型用于根據(jù)特征集在各維度下的特征值預測用戶行為。
【專利說明】-種用戶行為的機器學習模型的訓練方法及裝置
【技術領域】
[0001] 本發(fā)明涉及計算機【技術領域】,具體涉及一種用戶行為的機器學習模型的訓練方法 及裝置。
【背景技術】
[0002] 非搜索廣告是區(qū)別于搜索引擎中所投放的關鍵詞廣告而言的。
[0003] 在信息推薦方案中,包括基于關鍵詞的信息推薦方式及基于用戶訪問歷史的信息 推薦方式。基于關鍵詞的信息推薦方式是根據(jù)用戶在搜索引擎中輸入的關鍵詞來確定向用 戶推送的信息?;谟脩粼L問歷史的信息推薦方式則根據(jù)用戶的歷史訪問日志向用戶推送 用戶可能感興趣的信息。
[0004] 信息投放平臺是為網(wǎng)站主和信息投放者提供信息投放服務的中介平臺。信息投放 平臺可以使信息投放者更簡單便捷地選擇信息投放方式及信息投放對象。在信息投放平臺 中,信息投放者提供需要投放的信息內(nèi)容或數(shù)據(jù)。
[0005] 基于用戶訪問歷史的信息推薦方式中,當用戶訪問某個網(wǎng)站時,信息投放平臺收 集用戶的cookie信息、網(wǎng)站類型、IP地址等多維度信息。信息投放平臺根據(jù)這些信息為進 行頁面訪問的當前用戶確定推送的信息內(nèi)容。此場景的核心在于用戶的歷史行為的統(tǒng)計分 析,根據(jù)用戶的歷史行為的統(tǒng)計分析挖掘用戶的偏好或可能感興趣的內(nèi)容。
[0006] 目前,業(yè)界可以基于用戶的歷史數(shù)據(jù)建立統(tǒng)計模型,并使用模型預測用戶行為偏 好。用戶的歷史數(shù)據(jù)是包含了在各個維度上的特征集的樣本集合,每一個樣本(或樣本點) 記錄了特征集,每個樣本與用戶行為的統(tǒng)計信息(比如頁面訪問量、點擊率等統(tǒng)計信息對 應,以鍵(key)-值對形式表示,如表1所示。特征集和統(tǒng)計值是由需求方平臺根據(jù)競價日 志記錄得到。
[0007] 表1、特征集與統(tǒng)計值的關系示例
【權利要求】
1. 一種用戶行為的機器學習模型的訓練方法,其特征在于,包括: 收集用戶的歷史訪問數(shù)據(jù); 將用戶的歷史訪問數(shù)據(jù)按照包含有一個或多個維度的特征集進行分類聚合,形成多個 樣本; 計算每一樣本對應的用戶行為統(tǒng)計信息,所述用戶行為統(tǒng)計信息包括用戶流量數(shù); 當當前樣本對應的用戶流量數(shù)小于流量數(shù)第一閾值時,計算當前樣本與其他樣本的距 離,所述距離由當前樣本對應特征集在各維度下的特征值與其他樣本對應特征集在各維度 下的特征值確定; 選擇距離小于距離閾值的其他樣本作為當前樣本的鄰近樣本; 將當前樣本的用戶行為統(tǒng)計信息與鄰近樣本的用戶行為統(tǒng)計信息合并生成新樣本; 使用新樣本訓練預先建立的機器學習模型,所述機器學習模型用于根據(jù)所述特征集在 各維度下的特征值預測用戶行為。
2. 如權利要求1所述的方法,其特征在于, 所述將用戶的歷史訪問數(shù)據(jù)按照包含有一個或多個維度的特征集進行分類聚合,形成 多個樣本,包括: 選擇一個或多個維度作為基準維度; 將所述基準維度對應的特征的特征值相同的歷史訪問數(shù)據(jù)集合為一個樣本。
3. 如權利要求1所述的方法,其特征在于, 所述特征集包括用戶的特征及用戶訪問的對象的特征。
4. 如權利要求3所述的方法,其特征在于, 所述用戶的特征包括:用戶的IP地址信息、用戶行為的時間信息及用戶的類型中的一 種或多種維度。
5. 如權利要求3所述的方法,其特征在于, 所述用戶訪問的對象的特征包括:該對象的類型、該對象來源網(wǎng)站的類型、該對象在頁 面的位置信息及該對象的尺寸信息中的一種或多種維度。
6. 如權利要求1所述的方法,其特征在于, 所述計算當前樣本與其他樣本的距離,包括: 采用下式計算當前樣本與其他樣本的距離:
,,i〇,//(x;=χ;) 苴中 /(X1-X2) = ^ 八11 ' 其中,Distance (keyl,key2)表示當前樣本與其他樣本的距離%為特征集中第i個維 度的權重,η為特征集的總維度數(shù),4、$分別為當前樣本和其他樣本在第i個維度對應的 特征的特征值。
7. 如權利要求1所述的方法,其特征在于: 所述選擇距離小于距離閾值的其他樣本作為當前樣本的鄰近樣本后,所述方法還包 括:過濾鄰近樣本,一旦當前樣本與所有鄰近樣本的用戶流量數(shù)之和大于流量數(shù)第二閾值 下限時,停止過濾。
8. -種用戶行為的機器學習模型的訓練裝置,其特征在于,包括數(shù)據(jù)收集單元、樣本形 成單元、統(tǒng)計信息計算單元、距離計算單元、鄰近樣本選擇單元和訓練單元,其中 : 所述數(shù)據(jù)收集單元,用于收集用戶的歷史訪問數(shù)據(jù); 所述樣本形成單元,用于將用戶的歷史訪問數(shù)據(jù)按照包含有一個或多個維度的特征集 進行分類聚合,形成多個樣本; 所述統(tǒng)計信息計算單元,用于計算每一樣本對應的用戶行為統(tǒng)計信息,所述用戶行為 統(tǒng)計信息包括用戶流量數(shù); 所述距離計算單元,用于當當前樣本對應的用戶流量數(shù)小于流量數(shù)第一閾值時,計算 當前樣本與其他樣本的距離,所述距離由當前樣本對應特征集在各維度下的特征值與其他 樣本對應特征集在各維度下的特征值確定; 所述鄰近樣本選擇單元,用于選擇距離小于距離閾值的其他樣本作為當前樣本的鄰近 樣本; 所述訓練單元,用于將當前樣本的用戶行為統(tǒng)計信息與鄰近樣本的用戶行為統(tǒng)計信息 合并生成新樣本,使用新樣本訓練預先建立的機器學習模型,所述機器學習模型用于根據(jù) 所述特征集在各維度下的特征值預測用戶行為。
9. 如權利要求8所述的訓練裝置,其特征在于, 所述樣本形成單元將用戶的歷史訪問數(shù)據(jù)按照包含有一個后多個維度的特征集進行 分類聚合,形成多個樣本,包括: 所述樣本形成單元選擇一個或多個維度作為基準維度,將所述基準維度對應的特征的 特征值相同的歷史訪問數(shù)據(jù)集合為一個樣本。
10. 如權利要求8所述的訓練裝置,其特征在于, 所述特征集包括用戶的特征及用戶訪問的對象的特征。
11. 如權利要求10所述的訓練裝置,其特征在于, 所述用戶的特征包括:用戶的IP地址信息、用戶行為的時間信息及用戶的類型中的一 種或多種維度。
12. 如權利要求10所述的訓練裝置,其特征在于, 所述用戶訪問的對象的特征包括:該對象的類型、該對象來源網(wǎng)站的類型、該對象在頁 面的位置信息及該對象的尺寸信息中的一種或多種維度。
13. 如權利要求8所述的訓練裝置,其特征在于, 所述距離計算單元計算當前樣本與其他樣本的距離,包括: 所述距離計算單元采用下式計算當前樣本與其他樣本的距離:
,.! \Q,if{x)=x;) a中,/(χ; _χ,') = 4 ΧυΜφχ:) ? 其中,Distance(keyl,key2)表示當前樣本與其他樣本的距離%為特征集中第i個維 度的權重,η為特征集的總維度數(shù),< <分別為當前樣本和其他樣本在第i個維度對應的 特征的特征值。
14.如權利要求8所述的訓練裝置,其特征在于: 所述鄰近樣本選擇單元還用于在選擇距離小于距離閾值的其他樣本作為當前樣本的 鄰近樣本后,過濾鄰近樣本,一旦當前樣本與所有鄰近樣本的用戶流量數(shù)之和大于流量數(shù) 第二閾值下限時,停止過濾。
【文檔編號】G06F17/30GK104239351SQ201310247161
【公開日】2014年12月24日 申請日期:2013年6月20日 優(yōu)先權日:2013年6月20日
【發(fā)明者】何憲, 殷維棟, 孟曉楠 申請人:阿里巴巴集團控股有限公司