確定訪問路徑的方法和裝置、確定頁面流失率的方法和系統(tǒng)的制作方法
【專利摘要】本申請(qǐng)公開了確定訪問路徑的方法和裝置、確定頁面流失率的方法和系統(tǒng),其中確定訪問路徑的方法包括:在訪問日志中獲取記錄;確定具有相同用戶標(biāo)識(shí)的記錄集合并確定目標(biāo)分析記錄;根據(jù)當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址獲取的上一級(jí)記錄中確定下一目標(biāo)分析記錄;將該下一目標(biāo)分析記錄作為當(dāng)前目標(biāo)分析記錄;重復(fù)本步驟,直至該當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址記錄為非有效訪問網(wǎng)址鏈接;構(gòu)建網(wǎng)址記錄。由于訪問路徑中包括了完整的訪問網(wǎng)頁和網(wǎng)頁訪問順序,所以訪問路徑中包括的信息量要遠(yuǎn)遠(yuǎn)地大于現(xiàn)有技術(shù)中的路徑對(duì)所包括的信息量,可以直接反映訪問用戶的訪問行為,所以以訪問路徑為統(tǒng)計(jì)依據(jù)可以有效地降低網(wǎng)站分析的計(jì)算成本。
【專利說明】確定訪問路徑的方法和裝置、確定頁面流失率的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及網(wǎng)站分析領(lǐng)域,特別是確定訪問路徑的方法和裝置、確定頁面流失率的方法和系統(tǒng)。
【背景技術(shù)】
[0002]網(wǎng)站分析是對(duì)網(wǎng)站中的訪問用戶的行為的研究,通過研究網(wǎng)站中訪問用戶的行為特點(diǎn),可以反映網(wǎng)站的設(shè)計(jì)是否存在缺陷。
[0003]網(wǎng)站分析的重要的方式為通過采用訪問日志中的記錄,來提取訪問用戶在網(wǎng)站中的訪問數(shù)據(jù)?,F(xiàn)有技術(shù)中,常用的方法是將網(wǎng)站的各個(gè)頁面按照其樹形結(jié)構(gòu)分解為多個(gè)網(wǎng)站路徑對(duì);舉例來說,如圖1所示,網(wǎng)站的樹狀結(jié)構(gòu)示出,網(wǎng)站分為三層,共包括6個(gè)頁面,可以劃分為(首頁,產(chǎn)品list),(首頁,資訊首頁),(產(chǎn)品list,產(chǎn)品detail),(產(chǎn)品list,產(chǎn)品detail),(資訊首頁,咨詢帖子)共計(jì)5個(gè)網(wǎng)站路徑對(duì);訪問用戶在訪問網(wǎng)站時(shí)的每個(gè)頁面跳轉(zhuǎn)可以作為訪問路徑對(duì),比如,如果訪問用戶從首頁網(wǎng)頁跳轉(zhuǎn)到資訊首頁網(wǎng)頁,然后跳轉(zhuǎn)至咨詢帖子網(wǎng)頁,則該訪問用戶的訪問路徑對(duì)包括(首頁,資訊首頁)和(資訊首頁,咨詢帖子)。
[0004]在進(jìn)行網(wǎng)站分析時(shí),提取訪問日志中包括有直接跳轉(zhuǎn)鏈接關(guān)系的兩個(gè)頁面的路徑對(duì),通過統(tǒng)計(jì)分析提取到的路徑對(duì),從而可以獲取訪問用戶對(duì)網(wǎng)站的訪問特性;比如,通過路徑對(duì)的分析,可以統(tǒng)計(jì)出頁面的流失率。頁面流失率是指網(wǎng)站訪問用戶在訪問網(wǎng)站頁面時(shí)對(duì)某一頁面的退出或跳出的比率。通過對(duì)各個(gè)頁面的流失率進(jìn)行統(tǒng)計(jì),可以為網(wǎng)站的優(yōu)化,提高網(wǎng)站的訪問率提供重要的分析依據(jù)。
[0005]目前,業(yè)界采用的方式一般為,通過判斷訪問日志中提取的路徑對(duì)是否包括了需要分析的完整路徑的網(wǎng)站路徑對(duì),從而可以判斷訪問用戶是否流失,以及是由哪一個(gè)網(wǎng)站路徑對(duì)所對(duì)應(yīng)的網(wǎng)頁造成的流失。
[0006]具體的,當(dāng)需要統(tǒng)計(jì)訪問用戶從首頁到產(chǎn)品list頁面,然后到產(chǎn)品detail頁面這一路徑的流失率的時(shí)候,需要將(首頁,產(chǎn)品list)和(產(chǎn)品list,產(chǎn)品detail)這兩個(gè)網(wǎng)站路徑對(duì)與每個(gè)訪問用戶的訪問路徑對(duì)進(jìn)行比較,進(jìn)而將包括有與訪問路徑對(duì)對(duì)應(yīng)的訪問用戶統(tǒng)計(jì)為非流失,否則將統(tǒng)計(jì)為流失。
[0007]由于目前大型網(wǎng)站中,自身結(jié)構(gòu)比較復(fù)雜,包括的網(wǎng)站路徑對(duì)數(shù)量很大,而且由于訪問用戶的數(shù)量較大,所以訪問用戶的訪問路徑對(duì)也會(huì)數(shù)量巨大。
[0008]綜上所述,現(xiàn)有技術(shù)中,以路徑對(duì)為統(tǒng)計(jì)依據(jù)的網(wǎng)站分析方法,計(jì)算成本巨大,會(huì)使得系統(tǒng)資源的耗費(fèi)較大。
【發(fā)明內(nèi)容】
[0009]有鑒于此,本申請(qǐng)?zhí)峁┝舜_定訪問路徑的方法和裝置、確定頁面流失率的方法和系統(tǒng),以實(shí)現(xiàn)降低計(jì)算成本的目的。[0010]本申請(qǐng)的
【發(fā)明內(nèi)容】
如下:
[0011]一種確定訪問路徑的方法,包括步驟:
[0012]S11、在訪問日志中獲取包括有訪問用戶標(biāo)識(shí)、訪問網(wǎng)址、訪問時(shí)間和上一訪問網(wǎng)址的記錄;
[0013]S12、確定具有相同用戶標(biāo)識(shí)的記錄集合,將所述記錄集合內(nèi)最后訪問時(shí)間的記錄確定為目標(biāo)分析記錄;
[0014]S13、在根據(jù)當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址獲取的上一級(jí)記錄中確定下一目標(biāo)分析記錄;將該下一目標(biāo)分析記錄作為當(dāng)前目標(biāo)分析記錄;重復(fù)本步驟,直至該當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址記錄為非有效訪問網(wǎng)址鏈接;
[0015]S14、按照目標(biāo)分析記錄的獲取順序排列,構(gòu)建該訪問用戶一次訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄。
[0016]優(yōu)選的,在本申請(qǐng)中,在S 14、按照目標(biāo)分析記錄的獲取順序排列,構(gòu)建該訪問用戶一次訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄之后還包括:
[0017]S15、在所述記錄集合內(nèi)尚未被確定為目標(biāo)分析記錄的記錄中,將最后訪問時(shí)間的記錄確定為另一目標(biāo)分析記錄;
[0018]S16、重復(fù)執(zhí)行步驟S13至S15,至所有記錄均被確定為目標(biāo)分析記錄。
[0019]優(yōu)選的,在本申請(qǐng)中,所述在根據(jù)當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址獲取的上一級(jí)記錄中確定下一目標(biāo)分析記錄,包括:
[0020]當(dāng)所述上一級(jí)記錄為多個(gè)時(shí),確定訪問時(shí)間為最后的上一級(jí)記錄中的訪問網(wǎng)址對(duì)應(yīng)的記錄為下一目標(biāo)分析記錄。
[0021]優(yōu)選的,在本申請(qǐng)中,所述分別確定具有相同用戶標(biāo)識(shí)的記錄集合,包括:
[0022]將所述記錄按照用戶標(biāo)識(shí)排序。
[0023]優(yōu)選的,在本申請(qǐng)中,所述上一記錄為非有效訪問網(wǎng)址鏈接,包括:
[0024]所述上一訪問網(wǎng)址記錄為空或所述上一訪問網(wǎng)址鏈接無效。
[0025]在本申請(qǐng)的另一方面,還提供了一種確定頁面流失率的方法,包括步驟:
[0026]S21、在訪問日志中獲取包括有訪問用戶標(biāo)識(shí)、訪問網(wǎng)址、訪問時(shí)間和上一訪問網(wǎng)址的記錄;
[0027]S22、確定具有相同用戶標(biāo)識(shí)的記錄集合,將所述記錄集合內(nèi)最后訪問時(shí)間的記錄確定為目標(biāo)分析記錄;
[0028]S23、在根據(jù)當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址獲取的上一級(jí)記錄中確定下一目標(biāo)分析記錄;將該下一目標(biāo)分析記錄作為當(dāng)前目標(biāo)分析記錄;重復(fù)本步驟,直至該當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址記錄為非有效訪問網(wǎng)址鏈接;
[0029]S24、按照目標(biāo)分析記錄的獲取順序排列,構(gòu)建該訪問用戶一次訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄;
[0030]S25、在所述記錄集合內(nèi)尚未被確定為目標(biāo)分析記錄的記錄中,將最后訪問時(shí)間的記錄確定為目標(biāo)分析記錄;
[0031]S26、重復(fù)執(zhí)行步驟S23至S25,至所有記錄均被確定為目標(biāo)分析記錄。
[0032]S27、獲取所述網(wǎng)址記錄的集合中第一訪問網(wǎng)址數(shù)量和第二訪問網(wǎng)址數(shù)量,計(jì)算所述第一訪問網(wǎng)址與所述第二訪問網(wǎng)址的比值以獲取第一訪問網(wǎng)址到所述第二訪問網(wǎng)址的流失率;所述第二訪問網(wǎng)址為由所述第一訪問網(wǎng)址通過至少一次鏈接跳轉(zhuǎn)可以實(shí)現(xiàn)訪問的訪問網(wǎng)址。
[0033]在本申請(qǐng)的另一方面,還提供了一種確定訪問路徑的裝置,其特征在于,包括:
[0034]記錄獲取單元,用于在訪問日志中獲取包括有訪問用戶標(biāo)識(shí)、訪問網(wǎng)址、訪問時(shí)間和上一訪問網(wǎng)址的記錄;
[0035]目標(biāo)分析記錄確定單元,用于確定具有相同用戶標(biāo)識(shí)的記錄集合,將所述記錄集合內(nèi)最后訪問時(shí)間的記錄確定為目標(biāo)分析記錄;
[0036]下一目標(biāo)分析記錄確定單元,用在根據(jù)當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址獲取的上一級(jí)記錄中確定下一目標(biāo)分析記錄;將該下一目標(biāo)分析記錄作為當(dāng)前目標(biāo)分析記錄;重復(fù)本步驟,直至該當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址記錄為非有效訪問網(wǎng)址鏈接;
[0037]訪問網(wǎng)址集合獲取單元,用于按照目標(biāo)分析記錄的獲取順序排列,構(gòu)建該訪問用戶一次訪問過程中所訪問的訪問網(wǎng)址的網(wǎng)址集合。
[0038]優(yōu)選的,在本申請(qǐng)中,所述下一目標(biāo)分析記錄確定單元包括:
[0039]時(shí)間判定模塊,用于當(dāng)所述上一級(jí)記錄為多個(gè)時(shí),確定訪問時(shí)間為最后的上一級(jí)記錄中的訪問網(wǎng)址對(duì)應(yīng)的記錄為下一目標(biāo)分析記錄。
[0040]優(yōu)選的,在本申請(qǐng)中,所述目標(biāo)分析記錄確定單元包括:
[0041]排序模塊,用于將所述記錄按照用戶標(biāo)識(shí)排序。
[0042]優(yōu)選的,在本申請(qǐng)中,所述上一記錄為非有效訪問網(wǎng)址鏈接,包括:
[0043]所述上一訪問網(wǎng)址記錄為空或所述上一訪問網(wǎng)址鏈接無效。
[0044]在本申請(qǐng)的另一方面,還提供了一種確定頁面流失率的系統(tǒng),其特征在于,包括上述訪問路徑的裝置,和,
[0045]統(tǒng)計(jì)單元,用于獲取網(wǎng)址記錄的集合中第一訪問網(wǎng)址數(shù)量和第二訪問網(wǎng)址數(shù)量,計(jì)算所述第一訪問網(wǎng)址與所述第二訪問網(wǎng)址的比值以獲取第一訪問網(wǎng)址到所述第二訪問網(wǎng)址的流失率;所述第二訪問網(wǎng)址為由所述第一訪問網(wǎng)址通過至少一次鏈接跳轉(zhuǎn)可以實(shí)現(xiàn)訪問的訪問網(wǎng)址;
[0046]通過上述技術(shù)方案可以看出,本申請(qǐng)通過訪問日志的記錄中所包括的上一訪問網(wǎng)址,從而可以追蹤訪問用戶在訪問網(wǎng)站時(shí)的所訪問到的網(wǎng)址和訪問順序,進(jìn)而可以將訪問用戶的訪問行為進(jìn)行整合,構(gòu)建該訪問用戶每次訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄。由于所述網(wǎng)址記錄中包括了訪問用戶在訪問網(wǎng)站時(shí)的所有訪問頁面,并將所有訪問頁面按照訪問順序排列,所以網(wǎng)址記錄可以作為訪問用戶的訪問路徑;由于訪問路徑中包括了完整的訪問網(wǎng)頁和網(wǎng)頁訪問順序,所以訪問路徑中包括的信息量要遠(yuǎn)遠(yuǎn)地大于現(xiàn)有技術(shù)中的路徑對(duì)所包括的信息量,可以直接反映訪問用戶的訪問行為,所以以訪問路徑為統(tǒng)計(jì)依據(jù)可以有效地降低網(wǎng)站分析的計(jì)算成本,從而降低系統(tǒng)資源的耗費(fèi)。
【專利附圖】
【附圖說明】
[0047]圖1為現(xiàn)有技術(shù)中所述網(wǎng)站的樹狀結(jié)構(gòu)示意圖;
[0048]圖2為本申請(qǐng)實(shí)施例中所述確定訪問路徑的方法的流程示意圖;
[0049]圖3為本申請(qǐng)實(shí)施例中所述確定頁面流失率的方法的流程不意圖;
[0050]圖4為本申請(qǐng)實(shí)施例中所述確定訪問路徑的裝置的結(jié)構(gòu)示意圖;[0051]圖5為本申請(qǐng)實(shí)施例中所述確定頁面流失率的系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0052]下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
[0053]為了實(shí)現(xiàn)降低計(jì)算成本的目的,本申請(qǐng)?zhí)峁┝艘环N確定頁面流失率的方法,如圖2所示,包括步驟:
[0054]S11、在訪問日志中獲取包括有訪問用戶標(biāo)識(shí)、訪問網(wǎng)址、訪問時(shí)間和上一訪問網(wǎng)址的記錄;
[0055]在本申請(qǐng)中,訪問日志中的記錄包括有用戶標(biāo)識(shí)、訪問網(wǎng)址、訪問時(shí)間和上一訪問網(wǎng)址。具體的訪問日志中的記錄可以為如下形式:
[0056]1,Jack,www.alibaba.com,www.google, com,12:00:01 ;
[0057]2,Mike,www.alibaba.com,www.baidu.com,12:00:02 ;
[0058]3,Jack,www.alibaba.com/offer I ist/mp3.html,www.alibaba.com,12:01:01 ;
[0059]4,Jack,www.alibaba.com/offerdetai 1/123.html, www.alibaba.com/offerlist/mp3.html,12:02:02 ;
[0060]5,Jack,www.alibaba.com/offerdetai 1/234.html, www.alibaba.com/offerlist/mp3.html,12:03:01 ;
[0061]6,Mike,www.alibaba.com/offer I ist/mp3.html, www.alibaba.com,12:04:02
[0062]7,Jack,Jack,community, alibaba.com/,www.alibaba.com/,12:04:31 ;
[0063]8,Mike,www.alibaba.com/offerdetai 1/234.html, www.alibaba.com/offerlist/mp3.html,12:05:31
[0064]9,Jack,community, alibaba.com/help.html, community, alibaba.com/,12:06:31
[0065]其中,1,2,3—9為每條記錄的標(biāo)識(shí);Jack和Mike為訪問用戶的標(biāo)識(shí);與用戶標(biāo)識(shí)臨近的網(wǎng)址為該記錄所記錄的用戶當(dāng)前所訪問的訪問網(wǎng)址,如序號(hào)為I的記錄中的WWW.alibaba.com ;在當(dāng)前訪問網(wǎng)址后的網(wǎng)址為用戶所訪問的上一訪問網(wǎng)址,即,用戶是由上一訪問網(wǎng)址跳轉(zhuǎn)至本記錄中的當(dāng)前訪問網(wǎng)址的,如序號(hào)為I的記錄中的www.google,com ;也就是說,訪問用戶在訪問網(wǎng)頁www.google, com后,由該網(wǎng)址跳轉(zhuǎn)到了網(wǎng)頁www.alibaba.com ;此外,序號(hào)為I的記錄中的12:00:01還表示訪問www.alibaba.com的時(shí)間為
12:00:01ο
[0066]S12、確定具有相同用戶標(biāo)識(shí)的記錄集合,將所述記錄集合內(nèi)最后訪問時(shí)間的記錄確定為目標(biāo)分析記錄;
[0067]為了構(gòu)建每個(gè)用戶的每次完整的訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄,需要先建立每個(gè)用戶的記錄集合,這樣,每個(gè)記錄集合中只包括該訪問用戶的記錄。
[0068]此外,由于只有從最后訪問的網(wǎng)址的記錄中追蹤上一訪問網(wǎng)址才能完整的構(gòu)建訪問用戶一次完整的訪問過程中所訪問的訪問網(wǎng)址的集合,所以,在記錄集合中將時(shí)間為最后的記錄作為目標(biāo)分析記錄。
[0069]具體的,可以在步驟Sll中所列出的各個(gè)記錄中確定用戶標(biāo)識(shí)為Mike的記錄集合;然后,在該記錄集合中將其中訪問時(shí)間為最后的記錄確定為目標(biāo)分析記錄,從而可以確定記錄 8, Mike, www.alibaba.com/offerdetai 1/234.html, www.alibaba.com/offerlist/mp3, html, 12:05:31為目標(biāo)分析記錄。
[0070]S13、在根據(jù)當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址獲取的上一級(jí)記錄中確定下一目標(biāo)分析記錄;將該下一目標(biāo)分析記錄作為當(dāng)前目標(biāo)分析記錄;重復(fù)本步驟,直至該當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址記錄為非有效訪問網(wǎng)址鏈接;
[0071]在當(dāng)前目標(biāo)分析記錄中,包括有上一訪問網(wǎng)址,根據(jù)上一訪問網(wǎng)址可以追蹤到上一級(jí)記錄,也就是跳轉(zhuǎn)到當(dāng)前目標(biāo)分析記錄中的訪問網(wǎng)址的來源網(wǎng)址;例如,當(dāng)前目標(biāo)分析記錄 8, Mike, www.alibaba.com/offerdetai1/234.html, www.alibaba.com/offerlist/mp3, html, 12:05:31中,根據(jù)其上一訪問網(wǎng)址可以找到該上一訪問網(wǎng)址多對(duì)應(yīng)的記錄,即,
6,Mike, www.alibaba.com/offer I ist/mp3.html, www.alibaba.com, 12:04:02 ;也就是說,可以找到以該上一訪問網(wǎng)址為訪問網(wǎng)址的記錄。
[0072]優(yōu)選的,在本申請(qǐng)中,還可以在上一級(jí)記錄為多個(gè)時(shí),確定訪問時(shí)間為最后的上一級(jí)記錄中的訪問網(wǎng)址對(duì)應(yīng)的記錄為下一目標(biāo)分析記錄;這是因?yàn)?,很多時(shí)候,通過上一訪問網(wǎng)址來獲取上一級(jí)記錄會(huì)找到多個(gè)上一級(jí)記錄,由于真正的上一級(jí)記錄一般情況下為距離其下一級(jí)記錄時(shí)間最近的記錄,所以,可以通過訪問時(shí)間來確定真正地上一級(jí)記錄。
[0073]由于訪問用戶很可能是在網(wǎng)站中通過一次完整的訪問路徑訪問了很多個(gè)網(wǎng)頁,所以需要重復(fù)本步驟直至該當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址記錄為非有效訪問網(wǎng)址鏈接,也就是說,要追蹤到訪問用戶初始的訪問網(wǎng)址所對(duì)應(yīng)的記錄,該初始的訪問記錄中不會(huì)再包括有效的訪問網(wǎng)址鏈接。具體的,非有效訪問網(wǎng)址鏈接可以包括:上一訪問網(wǎng)址記錄為空或上一訪問網(wǎng)址鏈接無效。比如,步驟Sll中所列出的多個(gè)記錄為例,9,Jack,community, alibaba.com/help, html, community, alibaba.com/, 12:06:31 的上一級(jí)記錄為
7,Jack, Jack, community, alibaba.com/, www.alibaba.com/, 12:04:31 ;而記錄 7, Jack,Jack, community, alibaba.com/, www.alibaba.com/, 12:04:31 ;的上一級(jí)記錄為 2, Mike,www.alibaba.com, www.baidu.com, 12:00:02 ;此時(shí),記錄 2, Mike, www.alibaba.com, www.baidu.com, 12:00:02 ;中的上一訪問網(wǎng)址www.baidu.com并沒有包含在該用戶的記錄集合中,為非有效的網(wǎng)址鏈接,所以此時(shí)完成了該用戶的一次完整訪問的訪問路徑的追蹤。
[0074]S14、按照目標(biāo)分析記錄的獲取順序排列,構(gòu)建該訪問用戶一次訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄;
[0075]通過對(duì)該訪問用戶的一次完整訪問的訪問路徑中,每次訪問網(wǎng)址的順序排列形成網(wǎng)址記錄,從而可以直觀的反應(yīng)該訪問用戶的網(wǎng)址的訪問行為。具體的,可以將步驟S13中的各個(gè)當(dāng)前目標(biāo)分析記錄按照獲取順序排列,得到網(wǎng)址記錄:9, Jack, community, alibaba.comhelp.html/|community, alibaba.com/|www.alibaba.com/|www.baidu.com。
[0076]在上述網(wǎng)址記錄中,包括時(shí)間為最后的記錄標(biāo)識(shí)9,訪問用戶標(biāo)識(shí)Jack,以及,訪問用戶該次訪問時(shí)的各級(jí)網(wǎng)址 community, alibaba.com/help, html, community, alibaba.com, www.alibaba.com, www.baidu.com ;各級(jí)網(wǎng)址之間可以通過符號(hào)|來分隔,從而可以被識(shí)別為不同的網(wǎng)址。[0077]網(wǎng)址記錄的記錄內(nèi)容可以有多種記錄方式,只要其中按照訪問順序包括了訪問用戶的一次訪問中的所有訪問網(wǎng)頁即可,在此并不作限定。
[0078]在訪問日志中所有的記錄均被確定為目標(biāo)分析記錄并構(gòu)建網(wǎng)址記錄后,所構(gòu)建的多個(gè)網(wǎng)址記錄集合中,包括了訪問日志中的每個(gè)訪問用戶的每次訪問的訪問路徑;由于網(wǎng)址記錄中包括了訪問用戶在訪問網(wǎng)站時(shí)的所有訪問頁面,并將所有訪問頁面按照訪問順序排列,所以網(wǎng)址記錄可以作為訪問用戶的訪問路徑;由于訪問路徑中包括了完整的訪問網(wǎng)頁和網(wǎng)頁訪問順序,所以訪問路徑中包括的信息量要遠(yuǎn)遠(yuǎn)地大于現(xiàn)有技術(shù)中的路徑對(duì)所包括的信息量,可以直接反映訪問用戶的訪問行為,所以以訪問路徑為統(tǒng)計(jì)依據(jù)可以有效地降低網(wǎng)站分析的計(jì)算成本,從而降低系統(tǒng)資源的耗費(fèi)。
[0079]具體的,以計(jì)算網(wǎng)頁訪問的流失率為例,現(xiàn)有技術(shù)在分析大型網(wǎng)站的訪問網(wǎng)頁流失率時(shí),如果網(wǎng)站有1000萬人訪問,則至少要包括1000萬個(gè)訪問路徑,估計(jì)要拆分為I億個(gè)路徑對(duì),此時(shí)如果需要計(jì)算1000條路徑來進(jìn)行分析,就需要進(jìn)行1000億次的比較計(jì)算,可見現(xiàn)有技術(shù)中的方式計(jì)算量龐大,極其耗費(fèi)系統(tǒng)資源。而通過本申請(qǐng)中的技術(shù)方案,建立網(wǎng)址記錄集合是以拼接日志記錄的方式,如果還是網(wǎng)站有1000萬人訪問,包括1000萬個(gè)訪問路徑為例,由于網(wǎng)址記錄所記錄的既是每個(gè)用戶單次訪問網(wǎng)站的訪問路徑,所以僅需要建立1000萬個(gè)網(wǎng)址記錄即可;在建立網(wǎng)址記錄集合后,通過查詢語句即可方便的實(shí)現(xiàn),具體的,可以是通過SQL語句分別計(jì)算出兩個(gè)有鏈接關(guān)系的頁面在網(wǎng)址記錄的集合中的數(shù)量,然后計(jì)算出兩個(gè)網(wǎng)頁的數(shù)量比值即可得到這兩個(gè)網(wǎng)頁之間的訪問網(wǎng)頁流失率了。從而極大地降低網(wǎng)站分析的計(jì)算成本,從而也就降低系統(tǒng)資源的耗費(fèi)。
[0080]進(jìn)一步的,本申請(qǐng)中,在S14、按照目標(biāo)分析記錄的獲取順序排列,構(gòu)建該訪問用戶一次訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄之后還包括以下步驟:
[0081]S15、在所述記錄集合內(nèi)尚未被確定為目標(biāo)分析記錄的記錄中,將最后訪問時(shí)間的記錄確定為另一目標(biāo)分析記錄;
[0082]為了在構(gòu)建每個(gè)訪問用戶的每次完整的訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄過程中,避免重復(fù)分析記錄,所以需要在所述記錄集合內(nèi)尚未被確定為目標(biāo)分析記錄的記錄中確定另一目標(biāo)分析記錄,以便以該目標(biāo)分析記錄為基礎(chǔ)確定該目標(biāo)分析記錄中的訪問網(wǎng)址的上一訪問網(wǎng)址,從而建立另一網(wǎng)址記錄。
[0083]S16、重復(fù)執(zhí)行步驟13至15,至所有記錄均被確定為目標(biāo)分析記錄;
[0084]為了可以將訪問日志中的各個(gè)記錄都進(jìn)行分析,以構(gòu)建每個(gè)訪問用戶每次訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄,需要遍歷訪問日志中的各個(gè)記錄來執(zhí)行步驟13至15。
[0085]在本申請(qǐng)中,由于用戶標(biāo)識(shí)可以為多個(gè),所以還可以分別確定具有相同用戶標(biāo)識(shí)的記錄集合,以為各個(gè)用戶標(biāo)識(shí)的記錄均確定記錄集合。進(jìn)一步的,還可以將記錄按照用戶標(biāo)識(shí)將各個(gè)記錄集合進(jìn)行排序。
[0086]如圖3所示,在本申請(qǐng)中,還提供了一種確定頁面流失率的方法,包括步驟:
[0087]S21、在訪問日志中獲取包括有訪問用戶標(biāo)識(shí)、訪問網(wǎng)址、訪問時(shí)間和上一訪問網(wǎng)址的記錄;
[0088]S22、確定具有相同用戶標(biāo)識(shí)的記錄集合,將所述記錄集合內(nèi)最后訪問時(shí)間的記錄確定為目標(biāo)分析記錄;[0089]S23、在根據(jù)當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址獲取的上一級(jí)記錄中確定下一目標(biāo)分析記錄;將該下一目標(biāo)分析記錄作為當(dāng)前目標(biāo)分析記錄;重復(fù)本步驟,直至該當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址記錄為非有效訪問網(wǎng)址鏈接;
[0090]S24、按照目標(biāo)分析記錄的獲取順序排列,構(gòu)建該訪問用戶一次訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄;
[0091]S25、在所述記錄集合內(nèi)尚未被確定為目標(biāo)分析記錄的記錄中,將最后訪問時(shí)間的記錄確定為目標(biāo)分析記錄;
[0092]S26、重復(fù)執(zhí)行步驟S23至S25,至所有記錄均被確定為目標(biāo)分析記錄。
[0093]由于本申請(qǐng)中步驟S21至S26與圖1所對(duì)應(yīng)的步驟Sll至S16內(nèi)容相同,其原理和作用也相同,所以在此就不再贅述。
[0094]S27、獲取所述網(wǎng)址記錄的集合中第一訪問網(wǎng)址數(shù)量和第二訪問網(wǎng)址數(shù)量,計(jì)算所述第一訪問網(wǎng)址與所述第二訪問網(wǎng)址的比值以獲取第一訪問網(wǎng)址到所述第二訪問網(wǎng)址的流失率;所述第二訪問網(wǎng)址為由所述第一訪問網(wǎng)址通過至少一次鏈接跳轉(zhuǎn)可以實(shí)現(xiàn)訪問的訪問網(wǎng)址。
[0095]在進(jìn)行網(wǎng)站中的兩個(gè)頁面間流失率的統(tǒng)計(jì)時(shí),首先要確認(rèn)這兩個(gè)頁面的網(wǎng)址之間是可以實(shí)現(xiàn)鏈接跳轉(zhuǎn)的,即通過至少一次鏈接跳轉(zhuǎn)可以實(shí)現(xiàn)訪問。具體的可以設(shè)進(jìn)行流失率統(tǒng)計(jì)的兩個(gè)頁面分別為第一訪問網(wǎng)址和第二訪問網(wǎng)址。
[0096]由于在構(gòu)建的網(wǎng)址記錄中,包括了所有訪問用戶的每次完整的訪問行為中對(duì)網(wǎng)站中的網(wǎng)址的訪問記錄,所以只要獲取網(wǎng)址記錄的集合中第一訪問網(wǎng)址數(shù)量和第二訪問網(wǎng)址數(shù)量,計(jì)算第一訪問網(wǎng)址與所述第二訪問網(wǎng)址的比值就可以獲取第一訪問網(wǎng)址到第二訪問網(wǎng)址的流失率。
[0097]綜上所述,本申請(qǐng)通過訪問日志的記錄中所包括的上一訪問網(wǎng)址,從而可以追蹤訪問用戶在訪問網(wǎng)站時(shí)的所訪問到的網(wǎng)址和訪問順序,進(jìn)而可以將訪問用戶在訪問行為進(jìn)行整合,構(gòu)建該訪問用戶每次訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄。在構(gòu)建網(wǎng)址記錄后,可以通過直接比較網(wǎng)站中的兩個(gè)訪問網(wǎng)址在網(wǎng)址記錄集合中的記錄數(shù)量,即可得到上述兩個(gè)訪問網(wǎng)址間的網(wǎng)頁流失率。與現(xiàn)有技術(shù)中需要將需要計(jì)算網(wǎng)頁流失率中的兩個(gè)訪問網(wǎng)址與訪問日志中的每個(gè)路徑對(duì)的方式相比,本申請(qǐng)有效的降低了計(jì)算成本,提高了網(wǎng)頁流失率的統(tǒng)計(jì)效率。
[0098]如圖4所示,在本申請(qǐng)中,還提供了一種確定訪問路徑的裝置,包括:記錄獲取單元1、目標(biāo)分析記錄確定單元2、下一目標(biāo)分析記錄確定單元3和訪問網(wǎng)址集合獲取單元4,其中:
[0099]記錄獲取單元1,用于在訪問日志中獲取包括有訪問用戶標(biāo)識(shí)、訪問網(wǎng)址、訪問時(shí)間和上一訪問網(wǎng)址的記錄;
[0100]在本申請(qǐng)中,訪問日志中的記錄包括有用戶標(biāo)識(shí)、訪問網(wǎng)址、訪問時(shí)間和上一訪問網(wǎng)址。具體的訪問日志中的記錄可以為如下形式:
[0101]1,Jack,www.alibaba.com,www.google, com,12:00:01 ;
[0102]2,Mike,www.alibaba.com,www.baidu.com,12:00:02 ;
[0103]3,Jack,www.alibaba.com/offer I ist/mp3.html, www.alibaba.com,12:01:01 ;
[0104]4,Jack,www.alibaba.com/offerdetai 1/123.html, www.alibaba.com/offerlist/mp3.html,12:02:02 ;
[0105]5, Jack, www.alibaba.com/offerdetai 1/234.html, www.alibaba.com/offerlist/mp3.html,12:03:01 ;
[0106]6, Mike, www.alibaba.com/offerIist/mp3.html, www.alibaba.com,12:04:02
[0107]7, Jack, Jack, community, alibaba.com/, www.alibaba.com/, 12:04:31 ;
[0108]8, Mike, www.alibaba.com/offerdetai 1/234.html, www.alibaba.com/offerlist/mp3.html,12:05:31
[0109]9, Jack, community, alibaba.com/help, html, community, alibaba.com/,12:06:31
[0110]其中,1,2,3— 9為每條記錄的標(biāo)識(shí)Jack和Mike為訪問用戶標(biāo)識(shí);與用戶標(biāo)識(shí)臨近的網(wǎng)址為該記錄所記錄的用戶所訪問的訪問網(wǎng)址,如序號(hào)為I的記錄中的www.alibaba.com ;在訪問網(wǎng)址后的網(wǎng)址為用戶所訪問的上一訪問網(wǎng)址,即,用戶是由上一訪問網(wǎng)址跳轉(zhuǎn)至本記錄中的訪問網(wǎng)址的,如序號(hào)為I的記錄中的www.google, com ;也就是說,訪問用戶在訪問網(wǎng)頁www.google, com后,由該網(wǎng)址跳轉(zhuǎn)到了網(wǎng)頁www.alibaba.com ;此外,序號(hào)為I的記錄中的12:00:01還表示訪問www.alibaba.com的時(shí)間為12:00:01。
[0111]目標(biāo)分析記錄確定單元2,用于確定具有相同用戶標(biāo)識(shí)的記錄集合,在在各個(gè)所述記錄集合內(nèi)尚未被確定為目標(biāo)分析記錄的記錄中,自最后訪問時(shí)間的記錄開始,確定一目標(biāo)分析記錄;
[0112]為了構(gòu)建每個(gè)用戶的每次完整的訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄,第一目標(biāo)分析記錄確定單元2需要先將建立每個(gè)用戶的記錄集合,這樣,每個(gè)記錄集合中只包括該訪問用戶的記錄。
[0113]為了在構(gòu)建每個(gè)訪問用戶的每次完整的訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄過程中,避免重復(fù)分析記錄目標(biāo)分析記錄確定單元2,需要在所述記錄集合內(nèi)尚未被確定為目標(biāo)分析記錄的記錄中,將最后訪問時(shí)間的記錄確定為目標(biāo)分析記錄。
[0114]此外,由于只有從最后訪問的網(wǎng)址的記錄中追蹤上一訪問網(wǎng)址才能完整的構(gòu)建訪問用戶一次完整的訪問過程中所訪問的訪問網(wǎng)址的集合,所以,在記錄集合中將時(shí)間為最后的記錄作為目標(biāo)分析記錄。
[0115]具體的,可以在上述所列出的各個(gè)記錄中確定用戶標(biāo)識(shí)為Mike的記錄集合;然后,在該記錄集合中將其中訪問時(shí)間為最后的記錄確定為目標(biāo)分析記錄,從而可以確定記錄 8, Mike, www.alibaba.com/of ferdetai 1/234.html, www.alibaba.com/offer I ist/mp3.html, 12:05:31為目標(biāo)分析記錄。
[0116]在本申請(qǐng)中,目標(biāo)分析記錄確定單元具體可以包括排序模塊,用于將所述記錄按照用戶標(biāo)識(shí)排序。
[0117]下一目標(biāo)分析記錄確定單元3,用于在根據(jù)當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址獲取的上一級(jí)記錄中確定下一目標(biāo)分析記錄;將所述下一目標(biāo)分析記錄作為當(dāng)前目標(biāo)分析記錄;重復(fù)進(jìn)行下一目標(biāo)分析記錄確定,直至所述當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址記錄為非有效訪問網(wǎng)址鏈接;
[0118]在當(dāng)前目標(biāo)分析記錄中,包括有上一訪問網(wǎng)址,根據(jù)上一訪問網(wǎng)址可以追蹤到上一級(jí)記錄,也就是跳轉(zhuǎn)到當(dāng)前目標(biāo)分析記錄中的訪問網(wǎng)址的來源網(wǎng)址;例如,當(dāng)前目標(biāo)分析記錄 8, Mike, www.alibaba.com/offerdetai1/234.html, www.alibaba.com/offerlist/mp3, html, 12:05:31中,根據(jù)其上一訪問網(wǎng)址可以找到該上一訪問網(wǎng)址多對(duì)應(yīng)的記錄,即,6, Mike, www.alibaba.com/offer I ist/mp3.html, www.alibaba.com, 12:04:02 ;也就是說,可以找到以該上一訪問網(wǎng)址為訪問網(wǎng)址的記錄。
[0119]優(yōu)選的,在本申請(qǐng)中,下一目標(biāo)分析記錄確定單元3具體可以包括時(shí)間判定模塊,用于當(dāng)上一級(jí)記錄為多個(gè)時(shí),確定訪問時(shí)間為最后的上一級(jí)記錄中的訪問網(wǎng)址對(duì)應(yīng)的記錄為下一目標(biāo)分析記錄。
[0120]很多時(shí)候,通過上一訪問網(wǎng)址來獲取上一級(jí)記錄會(huì)找到多個(gè)上一級(jí)記錄,由于真正的上一級(jí)記錄一般情況下為距離其下一級(jí)記錄時(shí)間最近的記錄,所以,可以通過訪問時(shí)間來確定真正地上一級(jí)記錄。
[0121]由于訪問用戶很可能是在網(wǎng)站中通過一次完整的訪問路徑訪問了很多個(gè)網(wǎng)頁,所以需要重復(fù)本步驟直至該當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址記錄為非有效訪問網(wǎng)址鏈接,也就是說,要追蹤到訪問用戶初始的訪問網(wǎng)址所對(duì)應(yīng)的記錄,該初始的訪問記錄中不會(huì)在包括有效的訪問網(wǎng)址鏈接。具體的,非有效訪問網(wǎng)址鏈接可以包括:上一訪問網(wǎng)址記錄為空或上一訪問網(wǎng)址鏈接無效。比如,上述所列出的多個(gè)記錄為例,9, Jack, community,alibaba.com/help, html, community, alibaba.com/, 12:06:31 的上一級(jí)記錄為 7, Jack,Jack, community, alibaba.com/, www.alibaba.com/,12:04:31 ;而記錄 7,Jack, Jack,community, alibaba.com/, www.alibaba.com/, 12:04:31 ;的上一級(jí)記錄為 2, Mike, www.alibaba.com, www.baidu.com, 12:00:02 ;此時(shí),記錄 2, Mike, www.alibaba.com, www.baidu.com, 12:00:02 ;中的上一訪問網(wǎng)址www.baidu.com并沒有包含在該用戶的記錄集合中,為非有效的網(wǎng)址鏈接,所以此時(shí)完成了該用戶的一次完整訪問的訪問路徑的追蹤。
[0122]訪問網(wǎng)址集合獲取單元4,用于按照目標(biāo)分析記錄的獲取順序排列,構(gòu)建該訪問用戶一次訪問過程中所訪問的訪問網(wǎng)址的網(wǎng)址集合。
[0123]通過對(duì)該訪問用戶的一次完整訪問的訪問路徑中,每次訪問網(wǎng)址的順序排列形成網(wǎng)址記錄,從而可以直觀的反應(yīng)該訪問用戶的網(wǎng)址的訪問行為。具體的,可以將各個(gè)當(dāng)前目標(biāo)分析記錄按照獲取順序排列,得到網(wǎng)址記錄:9, Jack, community, alibaba.com/help,html/I community, alibaba.com/|www.alibaba.com/|www.baidu.com。
[0124]在上述網(wǎng)址記錄中,包括時(shí)間為最后的記錄標(biāo)識(shí)9,訪問用戶標(biāo)識(shí)Jack,以及,訪問用戶該次訪問時(shí)的各級(jí)網(wǎng)址 community, alibaba.com/help, html, community, alibaba.com, www.alibaba.com, www.baidu.com ;各級(jí)網(wǎng)址之間可以通過符號(hào)|來分隔,從而可以被識(shí)別為不同的網(wǎng)址。
[0125]網(wǎng)址記錄的記錄內(nèi)容可以有多種記錄方式,只要其中按照訪問順序包括了訪問用戶的一次訪問中的所有訪問網(wǎng)頁即可,在此并不作限定。
[0126]在訪問日志中所有的記錄均被確定為目標(biāo)分析記錄并構(gòu)建網(wǎng)址記錄中后,所構(gòu)建的多個(gè)網(wǎng)址記錄集合中,包括了訪問日志中的每個(gè)訪問用戶的每次訪問的訪問路徑;由于網(wǎng)址記錄中包括了訪問用戶在訪問網(wǎng)站時(shí)的所有訪問頁面,并將所有訪問頁面按照訪問順序排列,所以網(wǎng)址記錄可以作為訪問用戶的訪問路徑;由于訪問路徑中包括了完整的訪問網(wǎng)頁和網(wǎng)頁訪問順序,所以訪問路徑中包括的信息量要遠(yuǎn)遠(yuǎn)地大于現(xiàn)有技術(shù)中的路徑對(duì)所包括的信息量,可以直接反映訪問用戶的訪問行為,所以以訪問路徑為統(tǒng)計(jì)依據(jù)可以有效地降低網(wǎng)站分析的計(jì)算成本,從而降低系統(tǒng)資源的耗費(fèi)。
[0127]具體的,以計(jì)算網(wǎng)頁訪問的流失率為例,現(xiàn)有技術(shù)在分析大型網(wǎng)站的訪問網(wǎng)頁流失率時(shí),如果網(wǎng)站有1000萬人訪問,則至少要包括1000萬個(gè)路徑,估計(jì)要拆分為I億個(gè)路徑對(duì),此時(shí)如果需要計(jì)算1000條路徑來進(jìn)行分析,就需要進(jìn)行1000億次的比較計(jì)算,可見現(xiàn)有技術(shù)中的方式計(jì)算量龐大,極其耗費(fèi)系統(tǒng)資源。而通過本申請(qǐng)中的技術(shù)方案,在建立網(wǎng)址記錄集合后,通過查詢語句即可方便的實(shí)現(xiàn),具體的,可以是通過SQL語句分別計(jì)算出兩個(gè)有鏈接關(guān)系的頁面在網(wǎng)址記錄的集合中的數(shù)量,然后計(jì)算出兩個(gè)網(wǎng)頁的數(shù)量比值即可得到這兩個(gè)網(wǎng)頁之間的訪問網(wǎng)頁流失率了。從而極大地降低網(wǎng)站分析的計(jì)算成本,從而也就降低系統(tǒng)資源的耗費(fèi)。
[0128]如圖5所示,在本申請(qǐng)中,還提供了一種確定頁面流失率的系統(tǒng),包括圖3所對(duì)應(yīng)實(shí)施例中的確定訪問路徑的裝置以及統(tǒng)計(jì)單元5 ;
[0129]統(tǒng)計(jì)單元5用于獲取網(wǎng)址記錄的集合中第一訪問網(wǎng)址數(shù)量和第二訪問網(wǎng)址數(shù)量,計(jì)算所述第一訪問網(wǎng)址與所述第二訪問網(wǎng)址的比值以獲取第一訪問網(wǎng)址到所述第二訪問網(wǎng)址的流失率;所述第二訪問網(wǎng)址為由所述第一訪問網(wǎng)址通過至少一次鏈接跳轉(zhuǎn)可以實(shí)現(xiàn)訪問的訪問網(wǎng)址:
[0130]由于本申請(qǐng)中確定訪問路徑的裝置與圖3所對(duì)應(yīng)的確定訪問路徑的裝置結(jié)構(gòu)相同,其原理和作用也相同,所以在此就不再贅述。
[0131]在進(jìn)行網(wǎng)站中的兩個(gè)頁面間流失率的統(tǒng)計(jì)時(shí),首先要確認(rèn)這兩個(gè)頁面的網(wǎng)址之間是可以實(shí)現(xiàn)鏈接跳轉(zhuǎn)的,即通過至少一次鏈接跳轉(zhuǎn)可以實(shí)現(xiàn)訪問。具體的可以設(shè)進(jìn)行流失率的統(tǒng)計(jì)兩個(gè)頁面分別為第一訪問網(wǎng)址和第二訪問網(wǎng)址。
[0132]由于在構(gòu)建的網(wǎng)址記錄中,包括了所有訪問用戶的每次完整的訪問行為中對(duì)網(wǎng)站中的網(wǎng)址的訪問記錄,所以統(tǒng)計(jì)單元5通過獲取網(wǎng)址記錄的集合中第一訪問網(wǎng)址數(shù)量和第二訪問網(wǎng)址數(shù)量,計(jì)算第一訪問網(wǎng)址與所述第二訪問網(wǎng)址的比值就可以獲取第一訪問網(wǎng)址到第二訪問網(wǎng)址的流失率。
[0133]綜上所述,本申請(qǐng)通過訪問日志的記錄中所包括的上一訪問網(wǎng)址,從而可以追蹤訪問用戶在訪問網(wǎng)站時(shí)的所訪問到的網(wǎng)址和訪問順序,進(jìn)而可以將訪問用戶在訪問行為進(jìn)行整合,構(gòu)建該訪問用戶每次訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄。在構(gòu)建網(wǎng)址記錄后,可以通過直接比較網(wǎng)站中的兩個(gè)訪問網(wǎng)址在網(wǎng)址記錄集合中的記錄數(shù)量,即可得到上述兩個(gè)訪問網(wǎng)址間的網(wǎng)頁流失率。與現(xiàn)有技術(shù)中需要將需要計(jì)算網(wǎng)頁流失率中的兩個(gè)訪問網(wǎng)址與訪問日志中的每個(gè)路徑對(duì)的方式相比,本申請(qǐng)有效的降低了計(jì)算成本,提高了網(wǎng)頁流失率的統(tǒng)計(jì)效率。
[0134]對(duì)所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本申請(qǐng)。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本申請(qǐng)的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本申請(qǐng)將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。
【權(quán)利要求】
1.一種確定訪問路徑的方法,其特征在于,包括: 511、在訪問日志中獲取包括有訪問用戶標(biāo)識(shí)、訪問網(wǎng)址、訪問時(shí)間和上一訪問網(wǎng)址的記錄; 512、確定具有相同用戶標(biāo)識(shí)的記錄集合,將所述記錄集合內(nèi)最后訪問時(shí)間的記錄確定為目標(biāo)分析記錄; 513、在根據(jù)當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址獲取的上一級(jí)記錄中確定下一目標(biāo)分析記錄;將該下一目標(biāo)分析記錄作為當(dāng)前目標(biāo)分析記錄;重復(fù)本步驟,直至該當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址記錄為非有效訪問網(wǎng)址鏈接; 514、按照目標(biāo)分析記錄的獲取順序排列,構(gòu)建該訪問用戶一次訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄。
2.根據(jù)權(quán)利要求1所述確定訪問路徑的方法,其特征在于,在S14、按照目標(biāo)分析記錄的獲取順序排列,構(gòu)建該訪問用戶一次訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄之后還包括: 515、在所述記錄集合內(nèi)尚未被確定為目標(biāo)分析記錄的記錄中,將最后訪問時(shí)間的記錄確定為另一目標(biāo)分析記錄; 516、重復(fù)執(zhí)行步驟S13至S15,至所有記錄均被確定為目標(biāo)分析記錄。
3.根據(jù)權(quán)利要求2所述確定訪問路徑的方法,其特征在于,所述在根據(jù)當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址獲取的上一級(jí)記錄中確定下一目標(biāo)分析記錄,包括:` 當(dāng)所述上一級(jí)記錄為多個(gè)時(shí),確定訪問時(shí)間為最后的上一級(jí)記錄中的訪問網(wǎng)址對(duì)應(yīng)的記錄為下一目標(biāo)分析記錄。
4.根據(jù)權(quán)利要求3所述確定訪問路徑的方法,其特征在于,所述分別確定具有相同用戶標(biāo)識(shí)的記錄集合,包括: 將所述記錄按照用戶標(biāo)識(shí)排序。
5.根據(jù)權(quán)利要求4所述確定訪問路徑的方法,其特征在于,所述上一記錄為非有效訪問網(wǎng)址鏈接,包括: 所述上一訪問網(wǎng)址記錄為空或所述上一訪問網(wǎng)址鏈接無效。
6.一種確定頁面流失率的方法,其特征在于,包括: ` 521、在訪問日志中獲取包括有訪問用戶標(biāo)識(shí)、訪問網(wǎng)址、訪問時(shí)間和上一訪問網(wǎng)址的記錄; ` 522、確定具有相同用戶標(biāo)識(shí)的記錄集合,將所述記錄集合內(nèi)最后訪問時(shí)間的記錄確定為目標(biāo)分析記錄; ` 523、在根據(jù)當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址獲取的上一級(jí)記錄中確定下一目標(biāo)分析記錄;將該下一目標(biāo)分析記錄作為當(dāng)前目標(biāo)分析記錄;重復(fù)本步驟,直至該當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址記錄為非有效訪問網(wǎng)址鏈接; `524、按照目標(biāo)分析記錄的獲取順序排列,構(gòu)建該訪問用戶一次訪問過程中所訪問的訪問網(wǎng)址的集合的網(wǎng)址記錄; `525、在所述記錄集合內(nèi)尚未被確定為目標(biāo)分析記錄的記錄中,將最后訪問時(shí)間的記錄確定為目標(biāo)分析記錄; `526、重復(fù)執(zhí)行步驟S23至S25,至所有記錄均被確定為目標(biāo)分析記錄。S27、獲取所述網(wǎng)址記錄的集合中第一訪問網(wǎng)址數(shù)量和第二訪問網(wǎng)址數(shù)量,計(jì)算所述第一訪問網(wǎng)址與所述第二訪問網(wǎng)址的比值以獲取第一訪問網(wǎng)址到所述第二訪問網(wǎng)址的流失率;所述第二訪問網(wǎng)址為由所述第一訪問網(wǎng)址通過至少一次鏈接跳轉(zhuǎn)可以實(shí)現(xiàn)訪問的訪問網(wǎng)址。
7.一種確定訪問路徑的裝置,其特征在于,包括: 記錄獲取單元,用于在訪問日志中獲取包括有訪問用戶標(biāo)識(shí)、訪問網(wǎng)址、訪問時(shí)間和上一訪問網(wǎng)址的記錄; 目標(biāo)分析記錄確定單元,用于確定具有相同用戶標(biāo)識(shí)的記錄集合,將所述記錄集合內(nèi)最后訪問時(shí)間的記錄確定為目標(biāo)分析記錄; 下一目標(biāo)分析記錄確定單元,用在根據(jù)當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址獲取的上一級(jí)記錄中確定下一目標(biāo)分析記錄;將該下一目標(biāo)分析記錄作為當(dāng)前目標(biāo)分析記錄;重復(fù)本步驟,直至該當(dāng)前目標(biāo)分析記錄中的上一訪問網(wǎng)址記錄為非有效訪問網(wǎng)址鏈接; 訪問網(wǎng)址集合獲取單元,用于按照目標(biāo)分析記錄的獲取順序排列,構(gòu)建該訪問用戶一次訪問過程中所訪問的訪問網(wǎng)址的網(wǎng)址集合。
8.根據(jù)權(quán)利要求7所述確定頁面流失率的裝置,其特征在于,所述下一目標(biāo)分析記錄確定單元包括: 時(shí)間判定模塊,用于當(dāng)所述上一級(jí)記錄為多個(gè)時(shí),確定訪問時(shí)間為最后的上一級(jí)記錄中的訪問網(wǎng)址對(duì)應(yīng)的記錄為下一目標(biāo)分析記錄。
9.根據(jù)權(quán)利要求8所述確定頁面流失率的裝置, 其特征在于,所述目標(biāo)分析記錄確定單元包括: 排序模塊,用于將所述記錄按照用戶標(biāo)識(shí)排序。
10.根據(jù)權(quán)利要求9所述確定頁面流失率的裝置,其特征在于,所述上一記錄為非有效訪問網(wǎng)址鏈接,包括: 所述上一訪問網(wǎng)址記錄為空或所述上一訪問網(wǎng)址鏈接無效。
11.一種確定頁面流失率的系統(tǒng),其特征在于,包括如權(quán)利要求7中確定訪問路徑的裝置,和, 統(tǒng)計(jì)單元,用于獲取網(wǎng)址記錄的集合中第一訪問網(wǎng)址數(shù)量和第二訪問網(wǎng)址數(shù)量,計(jì)算所述第一訪問網(wǎng)址與所述第二訪問網(wǎng)址的比值以獲取第一訪問網(wǎng)址到所述第二訪問網(wǎng)址的流失率;所述第二訪問網(wǎng)址為由所述第一訪問網(wǎng)址通過至少一次鏈接跳轉(zhuǎn)可以實(shí)現(xiàn)訪問的訪問網(wǎng)址。
【文檔編號(hào)】G06F17/30GK103631828SQ201210311662
【公開日】2014年3月12日 申請(qǐng)日期:2012年8月28日 優(yōu)先權(quán)日:2012年8月28日
【發(fā)明者】吳偉勛 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司