亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用戶點(diǎn)擊行為鏈的處理方法及裝置與流程

文檔序號(hào):11133984閱讀:1356來源:國(guó)知局
用戶點(diǎn)擊行為鏈的處理方法及裝置與制造工藝

本發(fā)明涉及互聯(lián)網(wǎng)行為分析技術(shù)領(lǐng)域,尤其涉及一種用戶點(diǎn)擊行為鏈的處理方法及裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)科技的發(fā)展,各種圍繞互聯(lián)網(wǎng)的分析和研究越來越多。例如在互聯(lián)網(wǎng)企業(yè)中,海量的用戶點(diǎn)擊行為日志是最重要的數(shù)據(jù)資產(chǎn)之一,通過對(duì)用戶點(diǎn)擊日志處理,并構(gòu)建用戶點(diǎn)擊行為鏈,進(jìn)而挖掘用戶的行為模式、興趣點(diǎn)等等,可以為推薦、廣告預(yù)估等業(yè)務(wù)提供強(qiáng)有力的數(shù)據(jù)支持。因此,用戶點(diǎn)擊行為鏈的構(gòu)建在互聯(lián)網(wǎng)大數(shù)據(jù)處理中處于非?;A(chǔ)和關(guān)鍵的位置。

隨著數(shù)據(jù)應(yīng)用和數(shù)據(jù)融合的發(fā)展,用戶點(diǎn)擊行為鏈分析不再局限于同一產(chǎn)品線、同一企業(yè)內(nèi)部,而往往是跨產(chǎn)品線、跨企業(yè)的融合數(shù)據(jù)。由于不同產(chǎn)品線和企業(yè)間收集的用戶點(diǎn)擊日志由于日志規(guī)則、用戶標(biāo)識(shí)等的不兼容,現(xiàn)有技術(shù)中,通常僅能夠?qū)Ω鱾€(gè)產(chǎn)品線分別做點(diǎn)擊行為鏈的劃分和分析。使用時(shí),再基于簡(jiǎn)單的用戶標(biāo)識(shí)關(guān)聯(lián)信息,分別抽取對(duì)應(yīng)于各產(chǎn)品線中的行為鏈數(shù)據(jù)。即現(xiàn)有技術(shù)的跨產(chǎn)品線的用戶點(diǎn)擊行為鏈,而只是把各產(chǎn)品線的數(shù)據(jù)簡(jiǎn)單累加到一起。

但是,實(shí)際應(yīng)用中用戶的點(diǎn)擊行為在各產(chǎn)品線之間往往會(huì)出現(xiàn)交叉現(xiàn)象,但是現(xiàn)有技術(shù)的方案對(duì)這種交叉跳轉(zhuǎn)行為沒有進(jìn)行有效處理,導(dǎo)致現(xiàn)有技術(shù)所構(gòu)建的用戶點(diǎn)擊行為鏈的準(zhǔn)確性較差,不能準(zhǔn)確的反映用戶的實(shí)際點(diǎn)擊行為序列。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提供了一種用戶點(diǎn)擊行為鏈的處理方法的方法和裝置,用于提高構(gòu)建的用戶點(diǎn)擊行為鏈的準(zhǔn)確性,以使得用戶點(diǎn)擊行為鏈能夠準(zhǔn)確的反映用戶的實(shí)際點(diǎn)擊行為序列。

本發(fā)明提供一種用戶點(diǎn)擊行為鏈的處理方法,所述方法包括:

根據(jù)各用戶的點(diǎn)擊行為信息,生成各所述用戶在各產(chǎn)品線內(nèi)的行為序列;

根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,劃分各所述用戶的行為簇;

對(duì)各所述用戶在各所述產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

進(jìn)一步可選地,如上所述的方法中,根據(jù)各用戶的點(diǎn)擊行為信息,生成各所述用戶在各產(chǎn)品線內(nèi)的行為序列,具體包括:

從各所述產(chǎn)品線的日志信息中,將具有相同用戶標(biāo)識(shí)的點(diǎn)擊行為信息按照時(shí)間先后順序排列,生成各所述用戶在各所述產(chǎn)品線內(nèi)的行為序列,所述點(diǎn)擊行為信息包括點(diǎn)擊時(shí)間戳、當(dāng)前鏈接的URL、前向鏈接的URL、后向鏈接的URL、當(dāng)前所述產(chǎn)品線內(nèi)的所述用戶標(biāo)識(shí)以及通用用戶標(biāo)識(shí)。

進(jìn)一步可選地,如上所述的方法中,所述通用用戶標(biāo)識(shí)包括IP信息、瀏覽器標(biāo)識(shí)、硬件設(shè)備標(biāo)識(shí)和媒體訪問控制地址中的至少一個(gè)。

進(jìn)一步可選地,如上所述的方法中,根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,劃分各所述用戶的行為簇,具體包括:

根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,獲取各所述用戶在各所述產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn);

根據(jù)各所述用戶在各所述產(chǎn)品線的所述鏈入點(diǎn)和所述鏈出點(diǎn),將同一所述用戶標(biāo)識(shí)在同一所述產(chǎn)品線中的所述鏈入點(diǎn),分別與在同一所述產(chǎn)品線對(duì)應(yīng)的相鄰的所述鏈出點(diǎn)或者在同一所述產(chǎn)品線對(duì)應(yīng)的后相鄰的所述鏈入點(diǎn)之間的行為序列,劃分為各所述用戶的行為簇。

進(jìn)一步可選地,如上所述的方法中,對(duì)各所述用戶在各所述產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈,具體包括:

根據(jù)各所述通用用戶標(biāo)識(shí),對(duì)各所述產(chǎn)品線的所述用戶進(jìn)行匹配;

將匹配后屬于同一所述用戶的各個(gè)所述行為簇的所述鏈入點(diǎn)和所述鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

進(jìn)一步可選地,如上所述的方法中,根據(jù)各所述通用用戶標(biāo)識(shí),對(duì)各所述產(chǎn)品線的所述用戶進(jìn)行匹配,具體包括:

將不同所述產(chǎn)品線中,所述通用用戶標(biāo)識(shí)相同的用戶匹配為同一個(gè)所述用戶。

進(jìn)一步可選地,如上所述的方法中,將匹配后屬于同一所述用戶的各個(gè)所述行為簇的所述鏈入點(diǎn)和所述鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈,具體包括:

提取匹配后屬于同一所述用戶的各個(gè)所述行為簇的所述鏈出點(diǎn)的所述點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及后向鏈接的URL的hostname和path;

提取匹配后屬于同一所述用戶的各個(gè)所述行為簇的所述鏈入點(diǎn)的所述點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path;

根據(jù)匹配后屬于同一所述用戶的各個(gè)所述行為簇的所述鏈出點(diǎn)的所述點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一所述用戶的各個(gè)所述行為簇的所述鏈入點(diǎn)的所述點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個(gè)所述行為簇的所述鏈入點(diǎn)和所述鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

進(jìn)一步可選地,如上所述的方法中,根據(jù)匹配后屬于同一所述用戶的各個(gè)所述行為簇的所述鏈出點(diǎn)的所述點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一所述用戶的各個(gè)所述行為簇的所述鏈入點(diǎn)的所述點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個(gè)所述行為簇的所述鏈入點(diǎn)和所述鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈,具體包括:

對(duì)于各所述鏈出點(diǎn)和各所述鏈入點(diǎn),計(jì)算所述鏈出點(diǎn)當(dāng)前鏈接URL的hostname與所述鏈入點(diǎn)的前向鏈接的URL的hostname的第一相似度;

計(jì)算所述鏈出點(diǎn)后向鏈接的URL的hostname與所述鏈入點(diǎn)的當(dāng)前鏈接URL的hostname的第二相似度;

計(jì)算所述鏈出點(diǎn)當(dāng)前鏈接URL的path與所述鏈入點(diǎn)的前向鏈接的URL的path的第三相似度;

計(jì)算所述鏈出點(diǎn)后向鏈接的URL的path與所述鏈入點(diǎn)的當(dāng)前鏈接URL的path的第四相似度;

計(jì)算所述鏈出點(diǎn)的所述點(diǎn)擊時(shí)間戳和所述鏈入點(diǎn)的所述點(diǎn)擊時(shí)間戳的差值;

根據(jù)各所述鏈出點(diǎn)和各所述鏈入點(diǎn)對(duì)應(yīng)的所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度、所述差值以及預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型,確定跳轉(zhuǎn)鏈接匹配的所述鏈出點(diǎn)和所述鏈入點(diǎn);

根據(jù)所述跳轉(zhuǎn)鏈接匹配的所述鏈出點(diǎn)和所述鏈入點(diǎn),將同一所述用戶的各個(gè)所述行為簇鏈接起來,生成對(duì)應(yīng)所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

進(jìn)一步可選地,如上所述的方法中,所述預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型為采用機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練得到的;所述采用機(jī)器學(xué)習(xí)方法包括邏輯回歸、決策樹或者SVM。

本發(fā)明還提供一種用戶點(diǎn)擊行為鏈的處理裝置,所述裝置包括:

行為序列生成模塊,用于根據(jù)各用戶的點(diǎn)擊行為信息,生成各所述用戶在各產(chǎn)品線內(nèi)的行為序列;

行為簇劃分模塊,用于根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,劃分各所述用戶的行為簇;

全網(wǎng)點(diǎn)擊行為鏈生成模塊,用于對(duì)各所述用戶在各所述產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

進(jìn)一步可選地,如上所述的裝置中,所述行為序列生成模塊,具體用于從各所述產(chǎn)品線的日志信息中,將具有相同用戶標(biāo)識(shí)的點(diǎn)擊行為信息按照時(shí)間先后順序排列,生成各所述用戶在各所述產(chǎn)品線內(nèi)的行為序列,所述點(diǎn)擊行為信息包括點(diǎn)擊時(shí)間戳、當(dāng)前鏈接的URL、前向鏈接的URL、后向鏈接的URL、當(dāng)前所述產(chǎn)品線內(nèi)的所述用戶標(biāo)識(shí)以及通用用戶標(biāo)識(shí)。

進(jìn)一步可選地,如上所述的裝置中,所述通用用戶標(biāo)識(shí)包括IP信息、瀏覽器標(biāo)識(shí)、硬件設(shè)備標(biāo)識(shí)和媒體訪問控制地址中的至少一個(gè)。

進(jìn)一步可選地,如上所述的裝置中,所述行為簇劃分模塊,具體用于:

根據(jù)各所述用戶在各所述產(chǎn)品線的行為序列,獲取各所述用戶在各所述產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn);

根據(jù)各所述用戶在各所述產(chǎn)品線的所述鏈入點(diǎn)和所述鏈出點(diǎn),將同一所述用戶標(biāo)識(shí)在同一所述產(chǎn)品線中的所述鏈入點(diǎn),分別與在同一所述產(chǎn)品線對(duì)應(yīng)的相鄰的所述鏈出點(diǎn)或者在同一所述產(chǎn)品線對(duì)應(yīng)的后相鄰的所述鏈入點(diǎn)之間的行為序列,劃分為各所述用戶的行為簇。

進(jìn)一步可選地,如上所述的裝置中,所述全網(wǎng)點(diǎn)擊行為鏈生成模塊,具體包括:

用戶匹配單元,用于根據(jù)各所述通用用戶標(biāo)識(shí),對(duì)各所述產(chǎn)品線的所述用戶進(jìn)行匹配;

全網(wǎng)點(diǎn)擊行為鏈生成單元,用于將匹配后屬于同一所述用戶的各個(gè)所述行為簇的所述鏈入點(diǎn)和所述鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

進(jìn)一步可選地,如上所述的裝置中,所述用戶匹配單元,用于將不同所述產(chǎn)品線中,所述通用用戶標(biāo)識(shí)相同的用戶匹配為同一個(gè)所述用戶。

進(jìn)一步可選地,如上所述的裝置中,所述全網(wǎng)點(diǎn)擊行為鏈生成單元,具體包括:

提取子單元,用于提取匹配后屬于同一所述用戶的各個(gè)所述行為簇的所述鏈出點(diǎn)的所述點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及后向鏈接的URL的hostname和path;

所述提取子單元,還用于提取匹配后屬于同一所述用戶的各個(gè)所述行為簇的所述鏈入點(diǎn)的所述點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path;

全網(wǎng)點(diǎn)擊行為鏈子單元,用于根據(jù)匹配后屬于同一所述用戶的各個(gè)所述行為簇的所述鏈出點(diǎn)的所述點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一所述用戶的各個(gè)所述行為簇的所述鏈入點(diǎn)的所述點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個(gè)所述行為簇的所述鏈入點(diǎn)和所述鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

進(jìn)一步可選地,如上所述的裝置中,所述全網(wǎng)點(diǎn)擊行為鏈子單元,具體用于:

對(duì)于各所述鏈出點(diǎn)和各所述鏈入點(diǎn),計(jì)算所述鏈出點(diǎn)當(dāng)前鏈接URL的hostname與所述鏈入點(diǎn)的前向鏈接的URL的hostname的第一相似度;

計(jì)算所述鏈出點(diǎn)后向鏈接的URL的hostname與所述鏈入點(diǎn)的當(dāng)前鏈接URL的hostname的第二相似度;

計(jì)算所述鏈出點(diǎn)當(dāng)前鏈接URL的path與所述鏈入點(diǎn)的前向鏈接的URL的path的第三相似度;

計(jì)算所述鏈出點(diǎn)后向鏈接的URL的path與所述鏈入點(diǎn)的當(dāng)前鏈接URL的path的第四相似度;

計(jì)算所述鏈出點(diǎn)的所述點(diǎn)擊時(shí)間戳和所述鏈入點(diǎn)的所述點(diǎn)擊時(shí)間戳的差值;

根據(jù)各所述鏈出點(diǎn)和各所述鏈入點(diǎn)對(duì)應(yīng)的所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度、所述差值以及預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型,確定跳轉(zhuǎn)鏈接匹配的所述鏈出點(diǎn)和所述鏈入點(diǎn);

根據(jù)所述跳轉(zhuǎn)鏈接匹配的所述鏈出點(diǎn)和所述鏈入點(diǎn),將同一所述用戶的各個(gè)所述行為簇鏈接起來,生成對(duì)應(yīng)所述用戶的全網(wǎng)點(diǎn)擊行為鏈。

進(jìn)一步可選地,如上所述的裝置中,所述預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型為采用機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練得到的;所述采用機(jī)器學(xué)習(xí)方法包括邏輯回歸、決策樹或者SVM。

本發(fā)明的用戶點(diǎn)擊行為鏈的處理方法及裝置,通過根據(jù)各用戶的點(diǎn)擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列;根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇;對(duì)各用戶在各產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。通過采用本發(fā)明的技術(shù)方案生成的用戶點(diǎn)擊行為鏈的準(zhǔn)確性較高,能夠準(zhǔn)確的反映用戶的實(shí)際點(diǎn)擊行為序列。在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,跨產(chǎn)品線多源數(shù)據(jù)的融合變的越來越重要。本發(fā)明的技術(shù)方案,通過融合不同產(chǎn)品線的數(shù)據(jù),可以更好、更全面的分析了解用戶的個(gè)性化特征,提升數(shù)據(jù)的價(jià)值。因此,本發(fā)明的技術(shù)方案,能夠準(zhǔn)確的串聯(lián)起用戶的真實(shí)行為序列,在全網(wǎng)session分析項(xiàng)目中得到很好的應(yīng)用,有效地提升用戶行為分析的客觀性和準(zhǔn)確性。

【附圖說明】

圖1為本發(fā)明的用戶點(diǎn)擊行為鏈的處理方法實(shí)施例的流程圖。

圖2為本發(fā)明實(shí)施例的匹配的鏈入點(diǎn)和鏈出點(diǎn)的關(guān)系圖。

圖3為本發(fā)明實(shí)施例的一種用戶的全網(wǎng)點(diǎn)擊行為鏈的示意圖。

圖4為本發(fā)明的用戶點(diǎn)擊行為鏈的處理裝置實(shí)施例一的結(jié)構(gòu)圖。

圖5為本發(fā)明的用戶點(diǎn)擊行為鏈的處理裝置實(shí)施例二的結(jié)構(gòu)圖。

【具體實(shí)施方式】

為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。

圖1為本發(fā)明的用戶點(diǎn)擊行為鏈的處理方法實(shí)施例的流程圖。如圖1所示,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,具體可以包括如下步驟:

100、根據(jù)各用戶的點(diǎn)擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列;

101、根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇;

102、對(duì)各用戶在各產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法的執(zhí)行主體為戶點(diǎn)擊行為鏈的處理裝置,該裝置可以設(shè)置在一個(gè)網(wǎng)絡(luò)管理設(shè)備中,用于進(jìn)行該公司內(nèi)或者公司內(nèi)外的全網(wǎng)session分析。例如,本實(shí)施例的技術(shù)方案可以適用于百度公司,其對(duì)應(yīng)的各產(chǎn)品線可以包括搜索、百度百科、百度貼吧、百度地圖等等百度域內(nèi)產(chǎn)品線,或者還可以包括微博、愛奇藝等域外數(shù)據(jù)。由于每個(gè)產(chǎn)品線對(duì)用戶標(biāo)識(shí)的定義都不盡相同,采集的用戶日志信息也千差萬別,直接基于時(shí)間序列構(gòu)建用戶行為鏈就變的非常困難。因此,本實(shí)施例中,首先根據(jù)各用戶的點(diǎn)擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列。具體地,各產(chǎn)品線內(nèi)部的用戶行為日志通常會(huì)有獨(dú)立的用戶標(biāo)識(shí)字段,用于標(biāo)識(shí)同一用戶。在產(chǎn)品線內(nèi)部,可基于獨(dú)立而明確的用戶標(biāo)識(shí)進(jìn)行聚合,并按時(shí)間序列進(jìn)行排序,由此得到每個(gè)產(chǎn)品線內(nèi)的基礎(chǔ)用戶的行為序列。每一個(gè)產(chǎn)品線內(nèi)可以采集到多個(gè)用戶的點(diǎn)擊行為信息,對(duì)應(yīng)生成多個(gè)用戶的行為序列。

本實(shí)施例中,針對(duì)不同產(chǎn)品線的用戶點(diǎn)擊行為信息進(jìn)行融合處理,這些點(diǎn)擊行為信息可以從對(duì)應(yīng)產(chǎn)品線的日志數(shù)據(jù)中獲取。因此,首先需要明確若干通用的日志信息或日志字段,所謂“通用”,是指這些信息或字段在所有典型的點(diǎn)擊日志中都會(huì)被包含。因此,本實(shí)施例的點(diǎn)擊行為信息即通用日志信息或字段包括但不限于:

用戶標(biāo)識(shí):用于標(biāo)識(shí)該用于在該產(chǎn)品線內(nèi)的標(biāo)識(shí);

點(diǎn)擊時(shí)間戳:記錄點(diǎn)擊行為發(fā)生時(shí)的時(shí)間戳;

當(dāng)前鏈接的統(tǒng)一資源定位符(Uniform Resoure Locator;URL):記錄點(diǎn)擊行為發(fā)生的當(dāng)前頁面URL;

前向鏈接的URL:記錄導(dǎo)入當(dāng)前頁面的URL,即當(dāng)前頁面的前一頁面URL,可以簡(jiǎn)稱為前鏈的URL;

后向鏈接的URL:記錄由當(dāng)前頁面導(dǎo)出的目標(biāo)頁面URL,即當(dāng)前頁面的后一頁面的URL,可以簡(jiǎn)稱為后鏈的URL;

通用用戶標(biāo)識(shí):包括但不限于IP信息、瀏覽器標(biāo)識(shí)、硬件設(shè)備信息以及媒體訪問控制(Media Access Control;MAC)地址中的至少一個(gè)。

因此,步驟100具體可以為從各產(chǎn)品線的日志信息中,將具有相同用戶標(biāo)識(shí)的點(diǎn)擊行為信息按照時(shí)間先后順序排列,生成各用戶在各產(chǎn)品線內(nèi)的行為序列,點(diǎn)擊行為信息包括點(diǎn)擊時(shí)間戳、當(dāng)前鏈接的URL、前向鏈接的URL、后向鏈接的URL、當(dāng)前產(chǎn)品線內(nèi)的用戶標(biāo)識(shí)以及通用用戶標(biāo)識(shí)。

生成各用戶在各產(chǎn)品線內(nèi)的行為序列之后,可以將同一用戶在同一各產(chǎn)品線內(nèi)具有先后時(shí)序關(guān)系的行為序列作為一個(gè)行為簇,即根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇。具體地,步驟101“根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇”,具體可以包括如下步驟:

(a1)根據(jù)各用戶在各產(chǎn)品線的行為序列,獲取各用戶在各產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn);

(a2)根據(jù)各用戶在各產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn),將同一用戶標(biāo)識(shí)在同一產(chǎn)品線中的鏈入點(diǎn),分別與在同一產(chǎn)品線對(duì)應(yīng)的相鄰的鏈出點(diǎn)或者在同一產(chǎn)品線對(duì)應(yīng)的后相鄰的鏈入點(diǎn)之間的行為序列,劃分為各用戶的行為簇。

具體地,在劃分用戶在每個(gè)產(chǎn)品線的行為簇時(shí),可以根據(jù)該用戶在該產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn)來劃分。鏈入點(diǎn)可以定義為當(dāng)前用戶行為日志的前鏈的URL不屬于本產(chǎn)品線,即當(dāng)前用戶行為是從其他產(chǎn)品線跳轉(zhuǎn)過來的。鏈出點(diǎn)定義為當(dāng)前用戶行為日志的后鏈的URL不屬于本產(chǎn)品線,即從當(dāng)前用戶行為跳轉(zhuǎn)至其他產(chǎn)品線。同一個(gè)產(chǎn)品線,同一個(gè)用戶可以包括多個(gè)鏈出點(diǎn),也可以包括多個(gè)鏈入點(diǎn),在劃分行為簇時(shí),將同一用戶標(biāo)識(shí)在同一產(chǎn)品線中的鏈入點(diǎn)與在同一產(chǎn)品線對(duì)應(yīng)的相鄰的鏈出點(diǎn)(包括該鏈出點(diǎn))之間的行為序列,劃分為該用戶的一個(gè)行為簇。另外,對(duì)于有的用戶的行為序列,存在鏈入點(diǎn),而不存在相鄰的鏈出點(diǎn),然后再多一段時(shí)間,再會(huì)存在一個(gè)后相鄰的鏈入點(diǎn)。此時(shí)還可以將同一用戶標(biāo)識(shí)在同一產(chǎn)品線中的鏈入點(diǎn)與在同一產(chǎn)品線對(duì)應(yīng)的后相鄰的鏈入點(diǎn)(不包括該鏈入點(diǎn))之間的行為序列,劃分為該用戶的一個(gè)行為簇。用戶的行為簇是生成全網(wǎng)用戶行為鏈的最小不可分單元。特殊的,當(dāng)一用戶日志既是日志鏈入點(diǎn),又是鏈出點(diǎn)時(shí),該條日志獨(dú)立形成一用戶行為簇。也就是說,用戶的行為簇不限制有幾條用戶的點(diǎn)擊行為信息,可以只包括一條,也可以包括多條。

根據(jù)劃分好的行為簇,對(duì)各用戶在各產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,從而將全網(wǎng)的同一用戶的各個(gè)行為簇鏈接在一起,從而生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,通過根據(jù)各用戶的點(diǎn)擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列;根據(jù)各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇;對(duì)各用戶在各產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。通過采用本實(shí)施例的技術(shù)方案生成的用戶點(diǎn)擊行為鏈的準(zhǔn)確性較高,能夠準(zhǔn)確的反映用戶的實(shí)際點(diǎn)擊行為序列。在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,跨產(chǎn)品線多源數(shù)據(jù)的融合變的越來越重要。本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,通過融合不同產(chǎn)品線的數(shù)據(jù),可以更好、更全面的分析了解用戶的個(gè)性化特征,提升數(shù)據(jù)的價(jià)值。因此,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,能夠準(zhǔn)確的串聯(lián)起用戶的真實(shí)行為序列,在全網(wǎng)session分析項(xiàng)目中得到很好的應(yīng)用,有效地提升用戶行為分析的客觀性和準(zhǔn)確性。

進(jìn)一步可選地,在上述實(shí)施例的技術(shù)方案的基礎(chǔ)上,步驟102“對(duì)各用戶在各產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈”,具體可以包括如下步驟:

(b1)根據(jù)各通用用戶標(biāo)識(shí),對(duì)各產(chǎn)品線的用戶進(jìn)行匹配;

例如該步驟具體可以包括:將不同產(chǎn)品線中,通用用戶標(biāo)識(shí)相同的用戶匹配為同一個(gè)用戶。

由于跨產(chǎn)品線之間往往不存在統(tǒng)一的明確用戶標(biāo)識(shí),無法直接對(duì)某一用戶的所有行為進(jìn)行聚合。另外,由于產(chǎn)品線之間日志信息采集上的差異,簡(jiǎn)單的比較鏈入點(diǎn)鏈出點(diǎn)的URL是否相同來進(jìn)行跳轉(zhuǎn)匹配,也是很難行得通的。因此,本實(shí)施例中,首先基于通用用戶標(biāo)識(shí)的模糊聚合。由于各產(chǎn)品線用戶日志信息雖然沒有統(tǒng)一的明確的用戶標(biāo)識(shí),但是都會(huì)收集前述的通用用戶標(biāo)識(shí)信息,包括但不限于IP信息、瀏覽器標(biāo)識(shí)、硬件設(shè)備信息以及mac地址等等中的至少一個(gè),通用用戶標(biāo)識(shí)用于標(biāo)識(shí)該用戶所使用的硬件的信息??筛鶕?jù)這些通用用戶標(biāo)識(shí)對(duì)用戶行為簇進(jìn)行模糊聚合,即將通用用戶標(biāo)識(shí)相同的用戶作為同一用戶,可以有效縮小后續(xù)用戶跳轉(zhuǎn)行為鏈匹配的搜索范圍。

具體在根據(jù)通用用戶標(biāo)識(shí)對(duì)用戶行為簇進(jìn)行模糊聚合時(shí),可以認(rèn)為,不同產(chǎn)品線的點(diǎn)擊行為信息對(duì)應(yīng)的通用用戶標(biāo)識(shí)中的IP信息、瀏覽器標(biāo)識(shí)、硬件設(shè)備信息以及mac地址只要有一個(gè)相同,可以認(rèn)為是同一用戶,為了提高匹配的準(zhǔn)確性,不同產(chǎn)品線中的點(diǎn)擊行為信息中的通用用戶標(biāo)識(shí)中的IP信息、瀏覽器標(biāo)識(shí)、硬件設(shè)備信息以及mac地址中相同的越多,說明匹配的準(zhǔn)確性越高。因此,在實(shí)施時(shí),也可以將匹配的標(biāo)準(zhǔn)設(shè)置為:不同產(chǎn)品線的點(diǎn)擊行為信息對(duì)應(yīng)的通用用戶標(biāo)識(shí)中的IP信息、瀏覽器標(biāo)識(shí)、硬件設(shè)備信息以及mac地址中預(yù)設(shè)數(shù)值個(gè)相同,這個(gè)預(yù)設(shè)數(shù)值可以根據(jù)每個(gè)產(chǎn)品的需求,設(shè)置為一個(gè)、兩個(gè)、或者三個(gè)或者其他數(shù)值個(gè)。另外,通用用戶標(biāo)識(shí)除了上述參數(shù),還可以進(jìn)一步擴(kuò)展包括其他標(biāo)識(shí)用戶的信息。

(b2)將匹配后屬于同一用戶的各個(gè)行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

例如,該步驟(b2)“將匹配后屬于同一用戶的各個(gè)行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈”,具體可以包括如下步驟:

(c1)提取匹配后屬于同一用戶的各個(gè)行為簇的鏈出點(diǎn)的點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及后向鏈接的URL的hostname和path;

(c2)提取匹配后屬于同一用戶的各個(gè)行為簇的鏈入點(diǎn)的點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path;

(c3)根據(jù)匹配后屬于同一用戶的各個(gè)行為簇的鏈出點(diǎn)的點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一用戶的各個(gè)行為簇的鏈入點(diǎn)的點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個(gè)行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

通過對(duì)同一用戶的鏈出點(diǎn)和鏈入點(diǎn)的精確匹配,可以實(shí)現(xiàn)確定跨產(chǎn)品線的用戶跳轉(zhuǎn)行為鏈打通。由于日志信息記錄的偏差,直接匹配鏈出點(diǎn)和鏈入點(diǎn)的URL是否相同并不可取。為此,本實(shí)施例中通過拆解鏈入點(diǎn)的URL和鏈出點(diǎn)URL的組成子域分別比較來提升對(duì)信息偏差的容忍度。URL的一般結(jié)構(gòu)為:protocol://hostname[:port]/path/[;parameters][?query]#fragment,其中hostname和path是關(guān)鍵信息,為此,本實(shí)施例中針對(duì)各個(gè)鏈出鏈入的URL、前向鏈接的URL、后向鏈接的URL分別提取hostname及path。

然后根據(jù)提取的匹配后屬于同一用戶的各個(gè)行為簇的鏈入點(diǎn)和鏈出點(diǎn)的上述信息以及匹配后屬于同一用戶的各個(gè)行為簇的鏈入點(diǎn)的點(diǎn)擊時(shí)間戳,將各個(gè)行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

例如,步驟(c3)“根據(jù)匹配后屬于同一用戶的各個(gè)行為簇的鏈出點(diǎn)的點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一用戶的各個(gè)行為簇的鏈入點(diǎn)的點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個(gè)行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈”,具體可以包括:

(d1)對(duì)于各鏈出點(diǎn)和各鏈入點(diǎn),計(jì)算鏈出點(diǎn)當(dāng)前鏈接URL的hostname與鏈入點(diǎn)的前向鏈接的URL的hostname的第一相似度;

(d2)計(jì)算鏈出點(diǎn)后向鏈接的URL的hostname與鏈入點(diǎn)的當(dāng)前鏈接URL的hostname的第二相似度;

(d3)計(jì)算鏈出點(diǎn)當(dāng)前鏈接URL的path與鏈入點(diǎn)的前向鏈接的URL的path的第三相似度;

(d4)計(jì)算鏈出點(diǎn)后向鏈接的URL的path與鏈入點(diǎn)的當(dāng)前鏈接URL的path的第四相似度;

(d5)計(jì)算鏈出點(diǎn)的點(diǎn)擊時(shí)間戳和鏈入點(diǎn)的點(diǎn)擊時(shí)間戳的差值;

(d6)根據(jù)各鏈出點(diǎn)和各鏈入點(diǎn)對(duì)應(yīng)的第一相似度、第二相似度、第三相似度、第四相似度、差值以及預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型,確定跳轉(zhuǎn)鏈接匹配的鏈出點(diǎn)和鏈入點(diǎn);

(d7)根據(jù)跳轉(zhuǎn)鏈接匹配的鏈出點(diǎn)和鏈入點(diǎn),將同一用戶的各個(gè)行為簇鏈接起來,生成對(duì)應(yīng)用戶的全網(wǎng)點(diǎn)擊行為鏈。

由于匹配的鏈入點(diǎn)和鏈出點(diǎn)具有圖2所示的關(guān)系。因此本實(shí)施例中通過步驟(d1)-(d4)計(jì)算第一相似度到第四相似度,以確定鏈出點(diǎn)和鏈入點(diǎn)是否匹配。具體計(jì)算時(shí),可以參考兩個(gè)字符串的最長(zhǎng)公共子串的長(zhǎng)度與兩者中較長(zhǎng)字符串長(zhǎng)度的比值:

其中str1和str2分別為要比較的兩個(gè)客體,如在計(jì)算第一相似度時(shí),str1對(duì)應(yīng)鏈出點(diǎn)當(dāng)前鏈接URL的hostname,str2對(duì)應(yīng)鏈入點(diǎn)的前向鏈接的URL的hostname。如在計(jì)算第二相似度時(shí),str1對(duì)應(yīng)鏈出點(diǎn)后向鏈接的URL的hostname,str2對(duì)應(yīng)鏈入點(diǎn)的當(dāng)前鏈接URL的hostname。如在計(jì)算第三相似度時(shí),str1對(duì)應(yīng)鏈出點(diǎn)當(dāng)前鏈接URL的path,str2對(duì)應(yīng)鏈入點(diǎn)的前向鏈接的URL的path。如在計(jì)算第四相似度時(shí),str1對(duì)應(yīng)鏈出點(diǎn)后向鏈接的URL的path,str2對(duì)應(yīng)鏈入點(diǎn)的當(dāng)前鏈接URL的path。

經(jīng)上述步驟(d1)-(d5)提取特征之后,然后通過機(jī)器學(xué)習(xí)方法確定預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型。具體地,利用人工標(biāo)注的方式獲得一定量的訓(xùn)練樣本集,即對(duì)于一些確定是匹配的鏈出點(diǎn)和對(duì)應(yīng)鏈入點(diǎn)對(duì),以及確定的一些不匹配的鏈出點(diǎn)和對(duì)應(yīng)鏈入點(diǎn)對(duì),分別進(jìn)行人工標(biāo)注,從而得到大量的訓(xùn)練樣本集。然后分別利用訓(xùn)練的樣本集訓(xùn)練鏈入點(diǎn)和鏈出點(diǎn)的匹配模型,從而確定鏈入點(diǎn)和鏈出點(diǎn)的匹配模型的參數(shù),從而確定預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型。

然后,將上述步驟(d1)-(d5)計(jì)算的第一相似度、第二相似度、第三相似度以及第四相似度點(diǎn)和點(diǎn)擊時(shí)間戳的差值,分別輸入到預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型中,從而可以輸出對(duì)應(yīng)的鏈入點(diǎn)和鏈出點(diǎn)是否匹配的結(jié)果。通過對(duì)所有的鏈出點(diǎn)和鏈入點(diǎn)采用上述方式進(jìn)行確定,可以得到所有匹配的鏈出點(diǎn)和鏈入點(diǎn)。

本實(shí)施例的機(jī)器學(xué)習(xí)方法包括但不限于邏輯回歸、決策樹或者支持向量機(jī)(Support Vector Machine;SVM)方法。

最后,根據(jù)跳轉(zhuǎn)鏈接匹配的鏈出點(diǎn)和鏈入點(diǎn),將同一用戶的各個(gè)行為簇鏈接起來,生成對(duì)應(yīng)用戶的全網(wǎng)點(diǎn)擊行為鏈,即根據(jù)各行為簇的鏈入點(diǎn)和鏈出點(diǎn)的匹配結(jié)果,導(dǎo)出用戶的全網(wǎng)點(diǎn)擊行為鏈。例如圖3為本發(fā)明實(shí)施例的一種用戶的全網(wǎng)點(diǎn)擊行為鏈的示意圖。如圖3所示,首先找到具有最早時(shí)間戳的行為簇G1,假設(shè)G1具有鏈出點(diǎn)G1o,確定G1o的最佳匹配鏈入點(diǎn)為G2i,此鏈入點(diǎn)屬于行為簇G2,則可將行為簇G1和G2串聯(lián)起來,通過G1o—>G2i實(shí)現(xiàn)跳轉(zhuǎn)。依次進(jìn)行,直至無法找到合適的鏈出鏈入匹配,或者行為簇?zé)o鏈出點(diǎn)時(shí)停止,由此即可獲得一條用戶的全網(wǎng)點(diǎn)擊行為鏈。

上述實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,通過采用上述技術(shù)方案生成的用戶點(diǎn)擊行為鏈的準(zhǔn)確性較高,能夠準(zhǔn)確的反映用戶的實(shí)際點(diǎn)擊行為序列。在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,跨產(chǎn)品線多源數(shù)據(jù)的融合變的越來越重要。本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,通過融合不同產(chǎn)品線的數(shù)據(jù),可以更好、更全面的分析了解用戶的個(gè)性化特征,提升數(shù)據(jù)的價(jià)值。因此,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理方法,能夠準(zhǔn)確的串聯(lián)起用戶的真實(shí)行為序列,在全網(wǎng)session分析項(xiàng)目中得到很好的應(yīng)用,有效地提升用戶行為分析的客觀性和準(zhǔn)確性。

圖4為本發(fā)明的用戶點(diǎn)擊行為鏈的處理裝置實(shí)施例一的結(jié)構(gòu)圖。如圖4所示,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置,具體可以包括:行為序列生成模塊10、行為簇劃分模塊11和全網(wǎng)點(diǎn)擊行為鏈生成模塊12。

其中,行為序列生成模塊10用于根據(jù)各用戶的點(diǎn)擊行為信息,生成各用戶在各產(chǎn)品線內(nèi)的行為序列;行為簇劃分模塊11用于根據(jù)行為序列生成模塊10生成的各用戶在各產(chǎn)品線的行為序列,劃分各用戶的行為簇;全網(wǎng)點(diǎn)擊行為鏈生成模塊12用于對(duì)行為簇劃分模塊11劃分的各用戶在各產(chǎn)品線的行為簇進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置,通過采用上述模塊實(shí)現(xiàn)用戶點(diǎn)擊行為鏈的處理,與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)原理以及技術(shù)效果相同,詳細(xì)可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。

圖5為本發(fā)明的用戶點(diǎn)擊行為鏈的處理裝置實(shí)施例二的結(jié)構(gòu)圖。如圖5所示,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置在上述圖4所示實(shí)施例的技術(shù)方案的基礎(chǔ)上,進(jìn)一步更加詳細(xì)地介紹本發(fā)明的技術(shù)方案。

本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置中,行為序列生成模塊10具體用于從各產(chǎn)品線的日志信息中,將具有相同用戶標(biāo)識(shí)的點(diǎn)擊行為信息按照時(shí)間先后順序排列,生成各用戶在各產(chǎn)品線內(nèi)的行為序列,點(diǎn)擊行為信息包括點(diǎn)擊時(shí)間戳、當(dāng)前鏈接的URL、前向鏈接的URL、后向鏈接的URL、當(dāng)前產(chǎn)品線內(nèi)的用戶標(biāo)識(shí)以及通用用戶標(biāo)識(shí)。

進(jìn)一步可選地,其中的通用用戶標(biāo)識(shí)包括IP信息、瀏覽器標(biāo)識(shí)、硬件設(shè)備標(biāo)識(shí)和媒體訪問控制地址中的至少一個(gè)。

本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置中,行為簇劃分模塊11具體用于:

根據(jù)行為序列生成模塊10生成的各用戶在各產(chǎn)品線的行為序列,獲取各用戶在各產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn);

根據(jù)各用戶在各產(chǎn)品線的鏈入點(diǎn)和鏈出點(diǎn),將同一用戶標(biāo)識(shí)在同一產(chǎn)品線中的鏈入點(diǎn),分別與在同一產(chǎn)品線對(duì)應(yīng)的相鄰的鏈出點(diǎn)或者在同一產(chǎn)品線對(duì)應(yīng)的后相鄰的鏈入點(diǎn)之間的行為序列,劃分為各用戶的行為簇。

進(jìn)一步可選地,如圖5所示,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置中,全網(wǎng)點(diǎn)擊行為鏈生成模塊12具體包括:用戶匹配單元121和全網(wǎng)點(diǎn)擊行為鏈生成單元122。

其中用戶匹配單元121用于根據(jù)行為序列生成模塊10生成的各用戶在各產(chǎn)品線內(nèi)的行為序列中的點(diǎn)擊行為信息中的各通用用戶標(biāo)識(shí),對(duì)各產(chǎn)品線的用戶進(jìn)行匹配;

全網(wǎng)點(diǎn)擊行為鏈生成單元122用于將用戶匹配單元121匹配后屬于同一用戶的各個(gè)行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

例如,用戶匹配單元121用于將不同產(chǎn)品線中,通用用戶標(biāo)識(shí)相同的用戶匹配為同一個(gè)用戶。

進(jìn)一步可選地,如圖5所示,本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置中,全網(wǎng)點(diǎn)擊行為鏈生成單元122具體包括:提取子單元1221和全網(wǎng)點(diǎn)擊行為鏈子單元1222。

其中提取子單元1221用于根據(jù)用戶匹配單元121的匹配結(jié)果,提取匹配后屬于同一用戶的各個(gè)行為簇的鏈出點(diǎn)的點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及后向鏈接的URL的hostname和path;提取子單元1221還用于提取匹配后屬于同一用戶的各個(gè)行為簇的鏈入點(diǎn)的點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path;全網(wǎng)點(diǎn)擊行為鏈子單元1222用于根據(jù)匹配后屬于同一用戶的各個(gè)行為簇的鏈出點(diǎn)的點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、后向鏈接的URL的hostname和path,以及匹配后屬于同一用戶的各個(gè)行為簇的鏈入點(diǎn)的點(diǎn)擊時(shí)間戳、當(dāng)前鏈接URL的hostname和path、以及前向鏈接的URL的hostname和path,將各個(gè)行為簇的鏈入點(diǎn)和鏈出點(diǎn)進(jìn)行跳轉(zhuǎn)鏈接匹配,生成各用戶的全網(wǎng)點(diǎn)擊行為鏈。

進(jìn)一步可選地,全網(wǎng)點(diǎn)擊行為鏈子單元1222具體用于:

對(duì)于各鏈出點(diǎn)和各鏈入點(diǎn),計(jì)算鏈出點(diǎn)當(dāng)前鏈接URL的hostname與鏈入點(diǎn)的前向鏈接的URL的hostname的第一相似度;

計(jì)算鏈出點(diǎn)后向鏈接的URL的hostname與鏈入點(diǎn)的當(dāng)前鏈接URL的hostname的第二相似度;

計(jì)算鏈出點(diǎn)當(dāng)前鏈接URL的path與鏈入點(diǎn)的前向鏈接的URL的path的第三相似度;

計(jì)算鏈出點(diǎn)后向鏈接的URL的path與鏈入點(diǎn)的當(dāng)前鏈接URL的path的第四相似度;

計(jì)算鏈出點(diǎn)的點(diǎn)擊時(shí)間戳和鏈入點(diǎn)的點(diǎn)擊時(shí)間戳的差值;

根據(jù)各鏈出點(diǎn)和各鏈入點(diǎn)對(duì)應(yīng)的第一相似度、第二相似度、第三相似度、第四相似度、差值以及預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型,確定跳轉(zhuǎn)鏈接匹配的鏈出點(diǎn)和鏈入點(diǎn);

根據(jù)跳轉(zhuǎn)鏈接匹配的鏈出點(diǎn)和鏈入點(diǎn),將同一用戶的各個(gè)行為簇鏈接起來,生成對(duì)應(yīng)用戶的全網(wǎng)點(diǎn)擊行為鏈。

進(jìn)一步可選地,預(yù)設(shè)的鏈入點(diǎn)和鏈出點(diǎn)的匹配模型為采用機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練得到的;采用機(jī)器學(xué)習(xí)方法包括邏輯回歸、決策樹或者SVM。

本實(shí)施例的用戶點(diǎn)擊行為鏈的處理裝置,通過采用上述模塊實(shí)現(xiàn)用戶點(diǎn)擊行為鏈的處理,與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)原理以及技術(shù)效果相同,詳細(xì)可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。

在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。

另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。

上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(Read-Only Memory,ROM)、隨機(jī)存取存儲(chǔ)器(Random Access Memory,RAM)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1