基于用戶行為的日志過濾方法與流程

文檔序號：12802569閱讀：373來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及信息技術(shù)領(lǐng)域。更具體地說，本發(fā)明涉及一種基于用戶行為的日志過濾方法。

背景技術(shù)：

隨著互聯(lián)網(wǎng)的迅速發(fā)展，用戶在使用網(wǎng)絡(luò)的過程中產(chǎn)生海量的日志信息。用戶在面對海量的互聯(lián)網(wǎng)信息時，無法從中獲取自己感興趣的信息，產(chǎn)生信息超載問題。因此，各種推薦方法便成為研究熱點，使得用戶群體可以實時、有效地獲取自己感興趣的信息(比如感興趣的微博推薦、商品推薦、電影推薦等等)。在推薦中日志過濾是一個必不可少的環(huán)節(jié)，然而，目前的日志過濾技術(shù)存在許多不足，例如數(shù)據(jù)缺失(數(shù)據(jù)不完整、缺少id、時間、商品id等)比如僅僅對含有噪聲、缺失值(例如圖片缺光)的數(shù)據(jù)進(jìn)行過濾。并且不同的推薦系統(tǒng)所用的過濾方法不一樣，不能達(dá)到通用性。如今在大數(shù)據(jù)環(huán)境下，互聯(lián)網(wǎng)中各類網(wǎng)站產(chǎn)生越來越多種類的用戶行為，根據(jù)用戶行為設(shè)計通用的日志過濾方法是一個研究趨勢。

技術(shù)實現(xiàn)要素：

本發(fā)明的一個目的是解決至少上述問題，并提供至少后面將說明的優(yōu)點。

本發(fā)明還有一個目的是提供一種基于用戶行為的日志過濾方法，其能夠?qū)Ａ咳罩拘畔⒍芜^濾，及時響應(yīng)用戶的當(dāng)前需求和感興趣的信息，提高處理效率，本發(fā)明容易擴(kuò)展以及具有一定的容錯性。

為了實現(xiàn)根據(jù)本發(fā)明的這些目的和其它優(yōu)點，提供了一種基于用戶行為的日志過濾方法，包括以下步驟：

步驟一、將用戶行為劃分成多種子行為并分配相應(yīng)的權(quán)重，通過分布式日志采集工具獲取并存儲用戶行為的日志信息，提取并濾除低于權(quán)重閾值的相應(yīng)子行為的日志信息；

步驟二、對保留的子行為的日志信息通過效用函數(shù)進(jìn)行并行處理，所述效用函數(shù)建立用戶興趣度與子行為指標(biāo)的映射關(guān)系，提取并濾除低于興趣度閾值的子行為相應(yīng)的日志信息，保留用戶偏好的子行為的日志信息，形成推薦結(jié)果的優(yōu)化數(shù)據(jù)源，存儲在數(shù)據(jù)集群中。

優(yōu)選的是，所述的基于用戶行為的日志過濾方法，步驟一中，建立用戶行為的行為函數(shù)，定義多種子行為，根據(jù)用戶的需求對多種子行為的權(quán)重調(diào)整賦值，行為函數(shù)為

其中，wi為用戶α各子行為對應(yīng)的權(quán)重，0<wi<1，x1.x2……xm為用戶α對應(yīng)的m種子行為。

優(yōu)選的是，所述的基于用戶行為的日志過濾方法，子行為包括用戶信息、用戶訪問時間、頁面地址、子行為指標(biāo)。

優(yōu)選的是，所述的基于用戶行為的日志過濾方法，子行為指標(biāo)為多個獨立的參數(shù)時，步驟二中的效用函數(shù)為

根據(jù)用戶的需求對各參數(shù)的權(quán)重調(diào)整賦值，計算該子行為的用戶興趣度，其中，wi為子行為β各參數(shù)對應(yīng)的權(quán)重，0<wi<1，y1.y2……yn為子行為β對應(yīng)的n個參數(shù)。

優(yōu)選的是，所述的基于用戶行為的日志過濾方法，子行為指標(biāo)為執(zhí)行與未執(zhí)行的兩個選項時，步驟二中的效用函數(shù)為

保留取值為1的選項對應(yīng)的子行為相應(yīng)的日志信息。

優(yōu)選的是，所述的基于用戶行為的日志過濾方法，子行為為搜索行為時，讀取用戶搜索的關(guān)鍵詞，采用語義模型獲取關(guān)鍵詞的關(guān)聯(lián)詞，子行為指標(biāo)為關(guān)鍵詞與關(guān)聯(lián)詞的相似度，步驟二中的效用函數(shù)為

從數(shù)據(jù)集群的歷史搜索行為的日志信息中提取取值為1的含有關(guān)鍵詞的日志信息，提取不低于相似度閾值的關(guān)聯(lián)詞的日志信息。

本發(fā)明至少包括以下有益效果：

第一、本發(fā)明通過采用分布式的模式從網(wǎng)絡(luò)中收集來自各個業(yè)務(wù)系統(tǒng)的日志信息得到用戶行為的日志信息，通過自定義函數(shù)進(jìn)行二次過濾來處理來得到優(yōu)化結(jié)果，本發(fā)明更能及時響應(yīng)用戶的當(dāng)前需求和感興趣的信息為，提高處理效率，更好地提升了用戶行為日志的使用高效性，并且該方法容易擴(kuò)展以及具有一定的容錯性；

第二、本發(fā)明能夠快速和高效地處理小批量數(shù)據(jù)，確保日志過濾的高效性和實用性，并且該方法容易擴(kuò)展，同時能方便地實現(xiàn)容錯恢復(fù)機(jī)制。

本發(fā)明的其它優(yōu)點、目標(biāo)和特征將部分通過下面的說明體現(xiàn)，部分還將通過對本發(fā)明的研究和實踐而為本領(lǐng)域的技術(shù)人員所理解。

附圖說明

圖1為本發(fā)明多個業(yè)務(wù)系統(tǒng)的示意圖；

圖2為本發(fā)明用戶行為的分布示意圖；

圖3為本發(fā)明方法的流程示意圖。

具體實施方式

下面結(jié)合附圖對本發(fā)明做進(jìn)一步的詳細(xì)說明，以令本領(lǐng)域技術(shù)人員參照說明書文字能

需要說明的是，下述實施方案中所述實驗方法，如無特殊說明，均為常規(guī)方法，所述試劑和材料，如無特殊說明，均可從商業(yè)途徑獲得。

一種基于用戶行為的日志過濾方法，如圖2～3所示，用戶行為指的是用戶在使用網(wǎng)絡(luò)的過程中的瀏覽行為，日志信息即為瀏覽行為中記錄的信息，由于日志流并發(fā)產(chǎn)生并且數(shù)量大，為了保準(zhǔn)數(shù)據(jù)的實時性和完整性，在進(jìn)入日志過濾階段之前，將日志信息流保存在數(shù)據(jù)集群中，為后續(xù)的日志過濾提供安全可靠的消息傳輸。本發(fā)明的過濾方法包括以下步驟：

步驟一、如圖1所示，用戶在各個業(yè)務(wù)系統(tǒng)(例如：網(wǎng)絡(luò)購物、微博瀏覽、新聞推薦等客戶端應(yīng)用或頁面)會產(chǎn)生海量用戶行為，頁面開發(fā)者在后端針對不同的業(yè)務(wù)系統(tǒng)預(yù)先將用戶行為劃分成多種子行為并分配相應(yīng)的權(quán)重，以下以網(wǎng)絡(luò)購物的業(yè)務(wù)系統(tǒng)舉例，用戶行為被劃分為瀏覽行為、點擊行為、購買行為等多種子行為，微博瀏覽時，用戶行為被劃分為瀏覽行為、點擊行為、搜索行為等多種子行為，而當(dāng)用戶進(jìn)行網(wǎng)絡(luò)購物時，頁面開發(fā)者預(yù)先針對大多數(shù)消費者的購物習(xí)慣，廣泛列舉多種子行為，并依據(jù)用戶的購買概率為多種子行為分配權(quán)重，通過現(xiàn)有的分布式日志采集工具訪問數(shù)據(jù)庫的日志表，解析日志任務(wù)，提取用戶的日志信息，獲取并存儲用戶行為的日志信息，保存到數(shù)據(jù)集群，該數(shù)據(jù)集群可以承載海量的用戶行為日志信息，為后續(xù)的日志過濾階段提供了可靠的信息傳輸，提取并濾除低于權(quán)重閾值的相應(yīng)子行為的日志信息，即去除部分相對不具有參考價值的子行為的日志信息，實現(xiàn)行為日志的第一次過濾；

步驟二、步驟一保留多種不同的子行為，對保留的子行為的日志信息分別通過效用函數(shù)進(jìn)行并行處理，即對每一種子行為分別處理，建立具有針對性的效用函數(shù)，再次濾除各子行為中不具有參考價值的部分日志信息，子行為包括屬性信息與指標(biāo)，指標(biāo)包括多個具有參數(shù)的子指標(biāo)，子指標(biāo)的數(shù)值大小具有比較意義，所述效用函數(shù)建立用戶興趣度與至少一個子行為指標(biāo)的映射關(guān)系，針對不同類型的效用函數(shù)分別計算用戶興趣度，分別預(yù)設(shè)定興趣度閾值，提取并濾除低于興趣度閾值的子行為相應(yīng)的部分日志信息，不低于興趣度閾值的剩余的日志信息即為用戶偏好的子行為，保留用戶偏好的子行為的日志信息，形成推薦結(jié)果的優(yōu)化數(shù)據(jù)源，作為針對各推薦端具有廣泛適用性的數(shù)據(jù)源存儲在數(shù)據(jù)集群中，實現(xiàn)行為日志的第二次過濾。

在另一種技術(shù)方案中，所述的基于用戶行為的日志過濾方法，步驟一中，建立用戶行為的行為函數(shù)，定義多種子行為，例如，瀏覽行為(一次點擊查看的頁面會記錄多條瀏覽數(shù)據(jù)，記錄用戶信息、時間、地址、商品id、當(dāng)前鼠標(biāo)停留時間、當(dāng)前頁面滾動次數(shù)等)、點擊行為(點擊子行為是點擊搜索商品還是推薦列表中的商品，記錄用戶信息、時間、地址、點擊商品id等)、購買行為(購買的子行為有將商品加入購物車付款或者不付款，記錄用戶信息、商品id、付款時間、訂單時間、地址等)、對比行為(將多個商品加入對比欄進(jìn)行各項參數(shù)的比較)等，(各行為存在一定的重疊，比如瀏覽過程會有點擊行為，均會分別針對兩個子行為進(jìn)行提取和考量，記錄用戶信息、商品id、對比時間、地址等)根據(jù)用戶的需求對多種子行為的權(quán)重調(diào)整賦值，行為函數(shù)為

其中，wi為用戶α各子行為對應(yīng)的權(quán)重，0<wi<1，x1.x2……xm為用戶α對應(yīng)的m種子行為，其中瀏覽行為、點擊行為、購買行為的權(quán)重均高于閾值，對比行為的權(quán)重低于閾值，故所有的對比行為的日志信息濾除，瀏覽行為、點擊行為、購買行為的日志信息保留。

在另一種技術(shù)方案中，所述的基于用戶行為的日志過濾方法，子行為包括用戶信息(用戶id、賬號注冊時間)、用戶當(dāng)前頁面訪問時間、當(dāng)前頁面地址、子行為指標(biāo)，子行為指標(biāo)針對不同的子行為時其囊括項目不完全相同，基于頁面開發(fā)者在后面的預(yù)設(shè)置，例如，當(dāng)子行為為瀏覽行為時，子行為指標(biāo)為鼠標(biāo)停留時間、當(dāng)前頁面滾動次數(shù)等。

在另一種技術(shù)方案中，所述的基于用戶行為的日志過濾方法，子行為指標(biāo)為多個獨立的參數(shù)時，多個獨立的參數(shù)彼此之間無相對、互補(bǔ)等關(guān)系，均具有考量價值，例如，當(dāng)子行為為瀏覽行為時，子行為指標(biāo)為鼠標(biāo)停留時間、當(dāng)前頁面滾動次數(shù)等，瀏覽時間、當(dāng)前頁面滾動次數(shù)為獨立的參數(shù)，步驟二中的效用函數(shù)為

根據(jù)用戶的需求對各參數(shù)的權(quán)重調(diào)整賦值，計算該子行為當(dāng)前頁面的用戶興趣度，其中，wi為子行為β各參數(shù)對應(yīng)的權(quán)重，0<wi<1，w鼠標(biāo)停留時間預(yù)設(shè)為0.8，w當(dāng)前頁面滾動次數(shù)預(yù)設(shè)為0.2，即把鼠標(biāo)停留時間這個操作看作用戶更感興趣的行為，y1.y2……yn為子行為β對應(yīng)的n個參數(shù)，對于某個頁面，y鼠標(biāo)停留時間為5s，y當(dāng)前頁面滾動次數(shù)為1次，g(β)計算得到為4.2，頁面開發(fā)者在設(shè)定興趣度閾值時，將4.2作為滿足用戶感興趣的興趣度閾值，即當(dāng)g(β)≥4.2時，保留該頁面對應(yīng)的日志信息，對于不滿足函數(shù)條件的日志進(jìn)行刪除。

在另一種技術(shù)方案中，所述的基于用戶行為的日志過濾方法，子行為指標(biāo)為執(zhí)行與未執(zhí)行的兩個選項時，二者具有相對性、互補(bǔ)性，即二選一的情況，如當(dāng)用戶的子行為為購買行為時，子行為包括購買、未購買兩個選項，即兩個具有相對性的指標(biāo)，再比如，當(dāng)用戶的子行為為點擊行為時，子行為包括點擊推薦中商品、點擊搜索的商品兩個選項，即兩個具有互補(bǔ)性的指標(biāo)，步驟二中的效用函數(shù)為

保留取值為1的選項(即用戶興趣度為1，興趣度閾值為1)對應(yīng)的子行為相應(yīng)的日志信息，即保留產(chǎn)生訂單信息的子行為日志信息，或者保留用戶點擊搜索的商品的子行為日志信息，值得注意的是，當(dāng)用戶的子行為為購買行為時，此處強(qiáng)調(diào)的是未購買的商品與已購買的商品的受歡迎程度的相對性，即便是購物車未購買的商品(或收藏夾未購買的商品)，在本子行為的效用函數(shù)中被濾除，不代表該商品不收歡迎或者用戶不感興趣，在其他子行為(例如雖未購買、但是鼠標(biāo)停留時間長)也會被瀏覽的子行為的效用函數(shù)考慮并保留，所以本處不存在遺漏，更多考量的是相對性，受歡迎、感興趣的商品最終會以各種行為保留在數(shù)據(jù)集群。

在另一種技術(shù)方案中，所述的基于用戶行為的日志過濾方法，子行為為搜索行為時，搜索的子行為是輸入關(guān)鍵詞進(jìn)行查詢，記錄用戶信息、商品id、檢索的關(guān)鍵字、地址等，讀取用戶搜索的關(guān)鍵詞，例如，用戶輸入搜索框的關(guān)鍵詞為“電影票”，采用語義模型獲取關(guān)鍵詞的關(guān)聯(lián)詞，語義模型為現(xiàn)有技術(shù)，包含語義擴(kuò)展的查詢接口、語義支持系統(tǒng)、推理系統(tǒng)和本體系統(tǒng)，語義擴(kuò)展查詢接口用來分析用戶請求，確定用戶的語義，綁定到相關(guān)概念，語義支持系統(tǒng)為語義分析做支持，推理系統(tǒng)為語義分析和知識處理服務(wù)，本體系統(tǒng)用于知識表示和處理，根據(jù)用戶輸入的關(guān)鍵詞通過語義模型推理出關(guān)聯(lián)詞，從而獲得關(guān)聯(lián)的對象信息，比如，用戶的歷史訂單中，某個訂單中包括“電影票”與“尿不濕”，此處關(guān)聯(lián)詞可以為“長城”“羅曼蒂克消亡史”“電影頻道”“尿不濕”等，子行為指標(biāo)為關(guān)鍵詞與關(guān)聯(lián)詞的相似度，當(dāng)該關(guān)聯(lián)詞出現(xiàn)在同一歷史訂單中時，該關(guān)聯(lián)詞的用戶興趣度定義為1，當(dāng)該關(guān)聯(lián)詞未出現(xiàn)在歷史訂單中時，用戶興趣度的計算方法可以通過相似度體現(xiàn)，相似度為現(xiàn)有技術(shù)，很多論文、文獻(xiàn)中均有體現(xiàn)，步驟二中的效用函數(shù)為

從數(shù)據(jù)集群的歷史搜索行為的日志信息中提取取值為1的含有關(guān)鍵詞的日志信息，即歷史訂單中與“電影票”一同購買的“尿不濕”的日志信息，提取不低于相似度閾值的關(guān)聯(lián)詞的日志信息，即“長城”“羅曼蒂克消亡史”，濾除“電影頻道”。

最后，對于各效用函數(shù)進(jìn)行并行處理，將最后的結(jié)果進(jìn)行保存并且進(jìn)行復(fù)制，以備后續(xù)應(yīng)用提供優(yōu)化的數(shù)據(jù)源。

這里說明的設(shè)備數(shù)量和處理規(guī)模是用來簡化本發(fā)明的說明的。對本發(fā)明的應(yīng)用、修改和變化對本領(lǐng)域的技術(shù)人員來說是顯而易見的。

盡管本發(fā)明的實施方案已公開如上，但其并不僅僅限于說明書和實施方式中所列運用，它完全可以被適用于各種適合本發(fā)明的領(lǐng)域，對于熟悉本領(lǐng)域的人員而言，可容易地實現(xiàn)另外的修改，因此在不背離權(quán)利要求及等同范圍所限定的一般概念下，本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的圖例。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：潘穎;程茂華;元昌安;蔣雪玲
技術(shù)所有人：廣西師范學(xué)院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

用戶行為日志相關(guān)技術(shù)

用戶行為日志收集相關(guān)技術(shù)

thinkphp用戶行為日志相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于用戶行為的日志過濾方法與流程