重復(fù)負(fù)序列模式在客戶購買行為分析中的應(yīng)用
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及重復(fù)負(fù)序列模式在客戶購買行為分析中的應(yīng)用,屬于重復(fù)負(fù)序列模式 的應(yīng)用技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)高潮來臨,使得網(wǎng)絡(luò)購物的用戶規(guī)模不斷上升。對消費者來說,網(wǎng)絡(luò) 購物已經(jīng)成為一種全新的購物體驗,并逐步成為生活中不可或缺的一部分?;ヂ?lián)網(wǎng)提供了 一個新的交互的購物渠道,消費者獲得巨大的優(yōu)勢;豐富的商品信息,克服地理與時間的 障礙,獲得有價格競爭力的商品,產(chǎn)品的個性化、定制化,更多的商品選擇,更大的購物便利 等。近年來,網(wǎng)絡(luò)購物呈爆發(fā)式增長,每年都W幾何數(shù)級增長,與此同時很多大型的電子商 務(wù)網(wǎng)站,如Amazon、阿里己己旗下的淘寶和天貓商城、京東等都積累了大量的客戶交易數(shù) 據(jù)。如何充分利用該些數(shù)據(jù)對客戶購買行為進(jìn)行有效的分析、組織利用,如何了解到客戶 盡可能多的愛好和價值取向,W優(yōu)化網(wǎng)站設(shè)計,為客戶提供個性化服務(wù),成為電子商務(wù)發(fā) 展迫切要解決的問題。
[0003] 與傳統(tǒng)的經(jīng)營方式相比,網(wǎng)絡(luò)購物的產(chǎn)品信息量大,數(shù)量、種類豐富,選擇范圍廣。 在傳統(tǒng)購物環(huán)境下,消費者獲取商品信息的來源主要靠生活積累,捜集過程較長,得到的 信息比較片面。在網(wǎng)絡(luò)購物環(huán)境下,消費者就可W集中時間捜集、查找大量的有關(guān)商品的 信息。網(wǎng)上商品種類豐富,有些商品消費者想要購買而傳統(tǒng)商鋪不容易找到,就可W通過網(wǎng) 絡(luò)商店方便的查詢購買,補充了傳統(tǒng)商店某些產(chǎn)品的短缺。但是目前的電子商務(wù)商家通常 不能直觀的去了解客戶,獲取的相關(guān)的數(shù)據(jù)有限(比如用戶的注冊信息,購買記錄等)。通 過對大量的客戶購買記錄進(jìn)行分析和挖掘,發(fā)現(xiàn)客戶的頻繁訪問序列模式,針對不同的客 戶屬性和網(wǎng)上購物步驟,采用不同的商品推薦形式,適時的向客戶推薦恰當(dāng)?shù)纳唐?,并?yōu)化 電子商務(wù)網(wǎng)站商品的擺放位置,可W有效的增加客戶的交易機會,將網(wǎng)站瀏覽者轉(zhuǎn)變?yōu)橘?買者,提高交叉銷售能力,提高客戶的忠誠度,W及提高購物網(wǎng)站的服務(wù)質(zhì)量和經(jīng)濟效益。
[0004] 序列模式分析所要解決的問題是客戶在完成一次交易之后,在W后的特定時間 內(nèi),還會購買什么商品,是發(fā)現(xiàn)交易之間關(guān)系規(guī)律的過程,使得售貨方能夠根據(jù)當(dāng)前的商品 買賣情況來預(yù)測W后的商品買賣情況,從而能夠更好的安排商品的擺放。它的主要目的是 研究商品購買的先后關(guān)系,找出其中的規(guī)律,即不僅需要知道商品是否被購買,而且需要確 定該商品與其它商品購買的先后順序,例如,在線購買DVD的一個典型的順序是購買"星球 大戰(zhàn)",之后很有可能繼續(xù)購買"帝國反擊戰(zhàn)",再是購買"杰達(dá)武±歸來"。因此序列模式能 夠發(fā)現(xiàn)數(shù)據(jù)庫中某一段時間內(nèi)的一個頻繁序列,即在該個時間段內(nèi)哪些商品會被客戶購買 的比較多,多或少的標(biāo)準(zhǔn)是由最小支持度來決定的。每個序列是按照交易的時間排列的一 組集合,可W設(shè)置最小支持度來挖掘滿足不同頻繁程度的序列。但在應(yīng)用序列模式分析客 戶購買行為,解決個性化商品推薦問題時,他們僅考慮了已發(fā)生的事件,也稱為正序列模式 (Positive Sequent ial 化ttern,PSF〇 挖掘。
[0005] 與傳統(tǒng)的正序列模式(Positive Sequential化ttern,PSF〇不同,負(fù)序列模式 (Negative Sequential化ttern,NS巧挖掘不僅考慮了已經(jīng)發(fā)生的事件,還關(guān)注于未發(fā)生 事件,它能夠更深入地分析和理解數(shù)據(jù)中的潛在含義,從而挖掘出容易被人們忽略但是非 常有價值的信息。例如;a代表面包,b代表咖啡,C代表茶,d代表糖,〈油-cd>表示一個客 戶購買序列模式,該模式說明在某一段時間內(nèi),該客戶在購買了商品a、b后,在沒有購買商 品C的情況下,購買了商品d。如今負(fù)序列模式的價值越來越被人們認(rèn)可,在深入理解和處 理許多商業(yè)應(yīng)用方面,如對客戶購買行為分析方面,它更有一種不可替代的作用。
[0006] 目前,關(guān)于負(fù)序列模式挖掘算法的研究成果較少,如,NSPM,PNSP,Neg-GSP,e-NSP 等等。但是該些算法在計算負(fù)序列支持度的時候,僅僅考慮了它是否在一條數(shù)據(jù)序列中出 現(xiàn),而忽略了其在數(shù)據(jù)序列中出現(xiàn)的次數(shù)。在現(xiàn)實生活中,由一個批發(fā)型顧客所構(gòu)成的一條 數(shù)據(jù)序列,其中的某些商品應(yīng)該是重復(fù)多次出現(xiàn)的,那么只考慮該些商品組成序列是否出 現(xiàn),而不考慮其出現(xiàn)的次數(shù)是很不公平的。因此,有人提出了一些基于重復(fù)支持度的序列模 式挖掘算法,如GSgrow,CloGSgrow和化tGSP算法。它們在計算由商品所組成序列的支持 度的時候均考慮了其在數(shù)據(jù)序列重復(fù)出現(xiàn)的情況,該使得此商品序列比傳統(tǒng)方法可能具有 更高的支持度,更有可能滿足所設(shè)定的最小支持度而被挖掘出來。但是該些方法中只考慮 了重復(fù)正序列模式挖掘,我們目前沒有找到任何有關(guān)于重復(fù)負(fù)模式挖掘方法的研究。
[0007] 電子商務(wù)平臺中的網(wǎng)站用戶購買訂單數(shù)據(jù)為挖掘的數(shù)據(jù)源。W5個客戶在2個月 內(nèi)的交易為例,如表1是由客戶ID和交易時間為關(guān)鍵字所排序的事務(wù)數(shù)據(jù)庫。一個事務(wù)數(shù) 據(jù)庫,一個事務(wù)代表一筆交易,一個單項代表交易的商品,單項屬性中的字母記錄的是商品 ID。
[000引表1事務(wù)數(shù)據(jù)庫
[0009]
【主權(quán)項】
1. 一種重復(fù)負(fù)序列模式在客戶購買行為分析中的應(yīng)用,包括步驟如下: (1) 定義一個負(fù)序列在一個數(shù)據(jù)序列中出現(xiàn)的次數(shù) MPS (ns)是指一個由客戶購買的商品組成的負(fù)序列ns的最大正子序列,其由ns中包含 的所有正元素按照原順序組成; 一個負(fù)序列在一個數(shù)據(jù)序列中出現(xiàn)的次數(shù)由它的左終止位置決定;令ds = 〈dlCl2…dn>是一個數(shù)據(jù)序列,對一個負(fù)序列ns,如果《化辦并且3m (1< w分),使得 卜丨,則稱 m 為左終止位置,定義為 LAE (ns, ds) = m, 其中m多1因為已經(jīng)?兩足;如果則LAE(ns, ds) = I ; 計算ns在ds中出現(xiàn)的次數(shù)t,并將該計算t的方法定義為t = RptTimes (ns, ds): 首先使用LAE(ns, ds)獲得ns在ds中的左終止位置m,如果m>0,則t = t+Ι,之后令 ds = <dm+1…dn>,重復(fù)以上步驟直到/?λ?/λ'; 負(fù)序列ns : RptTimes (ns, ds) = RptTimes (MPS (ns),ds),如果".s' g ?/λ (i) 例如,給出 S1= <ab>,λ':>=<<2飛/r>; (Is1=〈aca (ab) cb>,ds2=〈abababd〉,則 LAE (s (Is1) =4, LAE(S^ds2) = 2, RptTimes (S1, ds^ = I, RptTimes (S1, ds2) = 3 ;LAE (S2^s1) = 2, LAE (s2, ds2)不存在因為,RptTimes (s2, (Is1) = RptTimes (MPS(S2),(Is1) = 2 ; (2) 負(fù)序列的重復(fù)支持度計算 負(fù)序列ns的重復(fù)支持度是負(fù)序列在所有數(shù)據(jù)序列中重復(fù)出現(xiàn)的次數(shù),定義為rps_ count (ns),那么ns在數(shù)據(jù)庫D中的重復(fù)支持度為:
(3) 利用e-RNSP算法的步驟如下: 首先,使用重復(fù)正序列挖掘算法RptGSP挖掘得到所有的重復(fù)正序列模式,即在某一段 時間內(nèi),客戶重復(fù)購買量大的商品; 然后,基于所述重復(fù)正序列模式生成相應(yīng)的重復(fù)負(fù)候選序列,該負(fù)候選序列用于判斷 在某一段時間內(nèi),哪些商品客戶購買的多,哪些商品客戶沒有購買; 其次,利用相關(guān)的重復(fù)正序列模式的支持度來計算負(fù)侯選序列的重復(fù)支持度; 再從所述負(fù)侯選序列里篩選出符合最小支持度要求的重復(fù)負(fù)序列模式,再用現(xiàn)有適當(dāng) 的篩選方法將能用于決策的序列模式篩選出來,利用這些篩選后的重復(fù)負(fù)序列模式對客戶 的購買行為進(jìn)行分析;商家根據(jù)分析結(jié)果針對客戶提供個性化服務(wù),根據(jù)客戶購買習(xí)慣安 排商品的推薦順序和頻率; (4) e-RNSP負(fù)侯選序列的生成 改變正序列模式中任意不相鄰元素為負(fù)元素; (5) 計算負(fù)侯選序列的支持度 定義一個負(fù)侯選序列: I-IiegMSns:負(fù)序列ns的子序列,并且該子序列是由MPS(ns)以及一個負(fù)元素組成; l-negMSSns:包含負(fù)序列ns的所有序列的集合; p(l-negMS):序列1-negMS中的正元素不變,將負(fù)元素轉(zhuǎn)換為相應(yīng)的正元素; 一個大小為m并且含有η個負(fù)元素的序列ns,對于VliegMS, e (I < i < η),在序列數(shù)據(jù)庫D中ns的支持度sup (ns)由以下幾個公式計算得出:
使用公式(iii)來獲得所有包含ns的數(shù)據(jù)序列的sid,其中{MPS(ns)}是所有包含 MPS(ns)的數(shù)據(jù)序列的sid,哎.__V/5;)j丨·是所有{pd-negMSi)}組成的sid集合的并 集; 所述ns的傳統(tǒng)支持度由I {ns} I計算出,I {ns} I表示{ns}集合中sid的個數(shù);所述ns 的重復(fù)支持度為:
其中(^是指包含ns的第i個數(shù)據(jù)序列,通過公式(i)計算RptTimes (ns, ds汐, 如果ns的大小是1,那么負(fù)序列ns的支持度是: sup (ns) = ID I -sup (p (ns)) (v) (6)算法偽代碼 設(shè)計一個數(shù)據(jù)結(jié)構(gòu)來存儲e-RNSP相關(guān)數(shù)據(jù),所述數(shù)據(jù)結(jié)構(gòu)存儲正侯選序列和包含它 的數(shù)據(jù)序列的{sid}以及重復(fù)次數(shù); 所述e-RNSP算法是基于正序列模式來挖掘重復(fù)負(fù)序列模式,算法e-RNSP包括步驟如 下: 其中,輸入:D :客戶購買序列數(shù)據(jù)庫;min_sup:最小支持度; 輸出:RNSP :用于分析客戶購買行為的重復(fù)負(fù)序列模式的集合;
所述步驟(1)是用重復(fù)正序列模式挖掘算法RptGSP從序列數(shù)據(jù)庫中挖掘出所有的重 復(fù)正序列模式;步驟(2)和步驟(3)將所有的重復(fù)正侯選序列以及它的重復(fù)支持度和sid 的集合都被存儲到哈希表RNSPHash ; 所述步驟(6)是對于每一個重復(fù)正序列模式,通過剛才所說的"負(fù)侯選序列的生成"方 法來生成負(fù)侯選序列RNSC ; 步驟(7)至步驟(24),通過公式(i)_ (V)計算出RNSC中的每一個rnsc的支持度;步 驟(25)至步驟(27)然后判斷出哪些是重復(fù)負(fù)序列模式RNSP ; 其中步驟(8)至步驟(10),通過公式(V)計算出只含有一個負(fù)元素的rnsc的支持度, 對于包含多于一個負(fù)元素的rnsc的支持度,通過公式(i)到公式(iv)計算出,如步驟(12) 至步驟(24); 如果rnsc. support〉= min_sup那么rnsc被加入到RNSP中,如步驟(25)至步驟(27); 返回結(jié)果,如步驟(29),再用適當(dāng)?shù)暮Y選方法將能用于決策的序列模式篩選出來,利用 這些篩選后的重復(fù)負(fù)序列模式來分析客戶的購買行為。
【專利摘要】一種重復(fù)負(fù)序列模式在客戶購買行為分析中的應(yīng)用,提出一個名為e-RNSP的高效算法來挖掘重復(fù)負(fù)序列模式,所述算法的主要思想是首先通過RptGSP算法挖掘得到重復(fù)正序列模式,并且將挖掘出來的重復(fù)正序列模式以及包含它們的數(shù)據(jù)序列中的重復(fù)次數(shù)對應(yīng)保存下來,然后用和e-NSP相同的方法生成負(fù)序列候選模式,最后通過公式來計算負(fù)序列侯選模式的重復(fù)支持度,而無需多次掃描數(shù)據(jù)庫。所述e-RNSP是第一個重復(fù)負(fù)序列模式挖掘算法,通過該算法挖掘得到的重復(fù)負(fù)序列模式可以更全面的分析客戶購買行為,使得售貨方能夠根據(jù)當(dāng)前的商品銷售情況來預(yù)測以后的商品銷售。
【IPC分類】G06Q30-02
【公開號】CN104537553
【申請?zhí)枴緾N201510025944
【發(fā)明人】董祥軍, 宮永順
【申請人】齊魯工業(yè)大學(xué)
【公開日】2015年4月22日
【申請日】2015年1月19日