一種基于支持向量機原理的用戶行為識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種基于支持向量機原理的用戶行為識別方 法,是一種針對電商購物網(wǎng)站用戶,用于分析其購物行為模式的一項模式識別技術(shù)。
【背景技術(shù)】
[0002] 伴隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,電子商務(wù)領(lǐng)域迅速崛起,越來越多的人開始參與 網(wǎng)絡(luò)購物,甚至對于許多群體而言,網(wǎng)絡(luò)購物已經(jīng)成為不可替代的重要消費方式。據(jù)艾瑞咨 詢統(tǒng)計數(shù)據(jù)顯示,2013年中國電子商務(wù)市場交易規(guī)模100720. 4億元(其中網(wǎng)絡(luò)購物交易規(guī) 模18409. 5億元),同比增長22. 6 %。而伴隨著參與人數(shù)和交易規(guī)模的上漲,海量的用戶行 為數(shù)據(jù)被儲存下來。越來越多的人已經(jīng)意識到,在這個海量的信息空間中蘊藏著巨大的價 值,許多學(xué)者、業(yè)內(nèi)人士和科研機構(gòu)都已經(jīng)參與到這場轟轟烈烈的尋寶運動中來,探索一切 可能的挖掘數(shù)據(jù)中所蘊含價值的方法。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明要解決的技術(shù)問題是:本發(fā)明首先分析用戶行為數(shù)據(jù)的特點,基于支持向 量機分類原理,利用用戶在瀏覽產(chǎn)品頁面時所留下的歷史行為數(shù)據(jù)進行訓(xùn)練,通過訓(xùn)練出 的分類超平面對未來用戶短期內(nèi)購買產(chǎn)品所屬品牌進行識別。
[0004] 本發(fā)明所采用的技術(shù)方案為:
[0005] 一種基于支持向量機原理的用戶行為識別方法,所述方法首先分析電商用戶行為 數(shù)據(jù)的特點,基于支持向量機分類原理,利用用戶在瀏覽產(chǎn)品頁面時所留下的非平衡性歷 史行為數(shù)據(jù)進行訓(xùn)練,通過訓(xùn)練出的分類超平面對未來用戶短期內(nèi)購買產(chǎn)品所屬品牌進行 識別。
[0006] 所述方法針對電商用戶行為數(shù)據(jù)的特點從原始數(shù)據(jù)中提取特征,使其能夠適用于 支持向量機的分類模型,再通過調(diào)整懲罰參數(shù)相對值的方式進行參數(shù)尋優(yōu),并在測試數(shù)據(jù) 集中進行分析驗證。
[0007] 所述識別方法實現(xiàn)方式如下:
[0008] 1)、對于已經(jīng)收集到的原始數(shù)據(jù),要首先對其所具備的特點進行分析,數(shù)據(jù)所具備 的結(jié)構(gòu)特征、體積以及噪聲的含量等信息,會影響甚至決定著應(yīng)采用怎樣的方法去處理分 析這些數(shù)據(jù);
[0009] 2)、針對已獲取數(shù)據(jù)的特點,基于支持向量機原理,提取特征,建立適合于該數(shù)據(jù) 的,并且能夠達到預(yù)期功能的支持向量機分析模型;
[0010] 3)、編寫程序,導(dǎo)入數(shù)據(jù),完成模型的計算,得到分析結(jié)果,并對結(jié)果予以展示。
[0011] 所述識別方法的具體操作步驟如下:
[0012] 1)獲取原始數(shù)據(jù),并儲存在數(shù)據(jù)庫中;
[0013] 2)總覽原始數(shù)據(jù),分析總結(jié)原始數(shù)據(jù)的特點;
[0014] 3)提出可行的基于支持向量機原理的分析模型;
[0015] 4)選取特征并建立評價指標(biāo);
[0016] 5)利用相關(guān)專業(yè)軟件,同時編寫核心程序,完成模型的計算;
[0017] 6)展示識別結(jié)果。
[0018] 本發(fā)明的有益效果為:本發(fā)明有效地利用用戶在瀏覽商品網(wǎng)頁時所產(chǎn)生的點擊、 收藏和加入購物車三類行為,來識別用戶是否購買該產(chǎn)品或該品牌,在未來大數(shù)據(jù)時代背 景下具有良好的應(yīng)用前景。
【附圖說明】
[0019] 圖1為原始數(shù)據(jù)字段表;
[0020] 圖2為特征數(shù)據(jù)字段表;
[0021] 圖3為數(shù)據(jù)集混淆矩陣;
[0022] 圖4為分析結(jié)果數(shù)據(jù)表;
[0023] 圖5為分類超平面變化趨勢示意圖;
[0024] 圖6為本發(fā)明功能實現(xiàn)流程圖。
【具體實施方式】
[0025] 下面參照附圖所示,通過【具體實施方式】對本發(fā)明進一步說明:
[0026] 如圖6所示,所述方法實施步驟如下:
[0027] (1)、使用常用的SQL數(shù)據(jù)庫軟件儲存網(wǎng)站中的用戶行為日志,編寫SQL語句組織 并提取數(shù)據(jù),構(gòu)成數(shù)據(jù)的原始形式。
[0028] (2)、原始數(shù)據(jù)的特點如下:
[0029] a)體積龐大
[0030] 據(jù)估算,淘寶網(wǎng)單日訪問量可突破一億次,經(jīng)營狀態(tài)較好的網(wǎng)店單日訪問量可達 數(shù)百萬次,用戶每次點擊瀏覽網(wǎng)站中的商品頁面,或?qū)υ撋唐愤M行其它操作或標(biāo)記時,其行 為都會被記錄下來儲存在數(shù)據(jù)庫中??梢姡?dāng)今的用戶行為數(shù)據(jù)體積龐大,一方面表現(xiàn)在海 量的存量,另一方面也表現(xiàn)為高速的增量。
[0031] b)特征維度低
[0032] 人們在瀏覽商品時,能夠?qū)ι唐愤M行的操作其實是有限的,最常用的無非是點擊、 購買、收藏和加入購物車四種形式,人們對商品品類的偏好信息,往往就是蘊藏在這四種看 似簡單行為的循環(huán)往復(fù)之中。
[0033] c)稀疏性和非平衡性
[0034] 在用戶行為數(shù)據(jù)矩陣中存在大量零元素,這樣的稀疏數(shù)據(jù)大大阻礙了像協(xié)同過濾 這樣的基于相似性度量的推薦方法的效果。另一方面,用戶所產(chǎn)生的大量行為之中,購買行 為只占非常小的一部分,這就導(dǎo)致了購買與非購買的兩類產(chǎn)品之間具有極強的非平衡性。
[0035] (3)、構(gòu)建基于支持向量機原理的模型
[0036] 支持向量機(簡稱SVM)是由Vapnik等人在1992到1995年期間提出的,該方法 是建立在統(tǒng)計學(xué)習(xí)理論中結(jié)構(gòu)風(fēng)險最小化原則和最優(yōu)化問題基礎(chǔ)上的,具有堅實的理論基 礎(chǔ)、較強的泛化能力等優(yōu)點,被廣泛應(yīng)用于模式識別、數(shù)據(jù)挖掘、人工智能、機器學(xué)習(xí)等領(lǐng) 域。
[0037] 考慮在n+1維輸入空間上的1個樣本點組成的集合:
[0038] T = {(x1; Y1),......, (Xi, Yi)} (I)
[0039] 其中x是輸入向量,Xi e R n,yie {-1,1}是χ i的類標(biāo)。求解如下優(yōu)化問題:
【主權(quán)項】
1. 一種基于支持向量機原理的用戶行為識別方法,其特征在于;所述方法首先分析電 商用戶行為數(shù)據(jù)的特點,基于支持向量機分類原理,利用用戶在瀏覽產(chǎn)品頁面時所留下的 非平衡性歷史行為數(shù)據(jù)進行訓(xùn)練,通過訓(xùn)練出的分類超平面對未來用戶短期內(nèi)購買產(chǎn)品所 屬品牌進行識別。
2. 根據(jù)權(quán)利要求1所述的一種基于支持向量機原理的用戶行為識別方法,其特征在 于,所述識別方法實現(xiàn)方式如下: 1) 、對于已經(jīng)收集到的原始數(shù)據(jù),要首先對其所具備的特點進行分析; 2) 、針對已獲取數(shù)據(jù)的特點,基于支持向量機原理,提取特征,建立適合于該數(shù)據(jù)的,并 且能夠達到預(yù)期功能的支持向量機分析模型; 3) 、編寫程序,導(dǎo)入數(shù)據(jù),完成模型的計算,得到分析結(jié)果,并對結(jié)果予W展示。
3. 根據(jù)權(quán)利要求1或2所述的一種基于支持向量機原理的用戶行為識別方法,其特征 在于,所述識別方法的具體操作步驟如下: 1) 獲取原始數(shù)據(jù),并儲存在數(shù)據(jù)庫中; 2) 總覽原始數(shù)據(jù),分析總結(jié)原始數(shù)據(jù)的特點; 3) 提出可行的基于支持向量機原理的分析模型; 4) 選取特征并建立評價指標(biāo); 5) 利用相關(guān)專業(yè)軟件,同時編寫核屯、程序,完成模型的計算; 6) 展示識別結(jié)果。
【專利摘要】本發(fā)明公開了一種基于支持向量機原理的用戶行為識別方法,所述方法首先分析電商用戶行為數(shù)據(jù)的特點,基于支持向量機分類原理,利用用戶在瀏覽產(chǎn)品頁面時所留下的非平衡性歷史行為數(shù)據(jù)進行訓(xùn)練,通過訓(xùn)練出的分類超平面對未來用戶短期內(nèi)購買產(chǎn)品所屬品牌進行識別。本發(fā)明有效地利用用戶在瀏覽商品網(wǎng)頁時所產(chǎn)生的點擊、收藏和加入購物車三類行為,來識別用戶是否購買該產(chǎn)品或該品牌,在未來大數(shù)據(jù)時代背景下具有良好的應(yīng)用前景。
【IPC分類】G06Q30-02
【公開號】CN104599159
【申請?zhí)枴緾N201510063343
【發(fā)明人】焦裕朋, 范瑩, 于治樓
【申請人】浪潮集團有限公司
【公開日】2015年5月6日
【申請日】2015年2月6日