本發(fā)明涉及信息技術(shù)領(lǐng)域。更具體地說,本發(fā)明涉及一種基于用戶行為的日志過濾方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的迅速發(fā)展,用戶在使用網(wǎng)絡(luò)的過程中產(chǎn)生海量的日志信息。用戶在面對海量的互聯(lián)網(wǎng)信息時,無法從中獲取自己感興趣的信息,產(chǎn)生信息超載問題。因此,各種推薦方法便成為研究熱點,使得用戶群體可以實時、有效地獲取自己感興趣的信息(比如感興趣的微博推薦、商品推薦、電影推薦等等)。在推薦中日志過濾是一個必不可少的環(huán)節(jié),然而,目前的日志過濾技術(shù)存在許多不足,例如數(shù)據(jù)缺失(數(shù)據(jù)不完整、缺少id、時間、商品id等)比如僅僅對含有噪聲、缺失值(例如圖片缺光)的數(shù)據(jù)進(jìn)行過濾。并且不同的推薦系統(tǒng)所用的過濾方法不一樣,不能達(dá)到通用性。如今在大數(shù)據(jù)環(huán)境下,互聯(lián)網(wǎng)中各類網(wǎng)站產(chǎn)生越來越多種類的用戶行為,根據(jù)用戶行為設(shè)計通用的日志過濾方法是一個研究趨勢。
技術(shù)實現(xiàn)要素:
本發(fā)明的一個目的是解決至少上述問題,并提供至少后面將說明的優(yōu)點。
本發(fā)明還有一個目的是提供一種基于用戶行為的日志過濾方法,其能夠?qū)A咳罩拘畔⒍芜^濾,及時響應(yīng)用戶的當(dāng)前需求和感興趣的信息,提高處理效率,本發(fā)明容易擴(kuò)展以及具有一定的容錯性。
為了實現(xiàn)根據(jù)本發(fā)明的這些目的和其它優(yōu)點,提供了一種基于用戶行為的日志過濾方法,包括以下步驟:
步驟一、將用戶行為劃分成多種子行為并分配相應(yīng)的權(quán)重,通過分布式日志采集工具獲取并存儲用戶行為的日志信息,提取并濾除低于權(quán)重閾值的相應(yīng)子行為的日志信息;
步驟二、對保留的子行為的日志信息通過效用函數(shù)進(jìn)行并行處理,所述效用函數(shù)建立用戶興趣度與子行為指標(biāo)的映射關(guān)系,提取并濾除低于興趣度閾值的子行為相應(yīng)的日志信息,保留用戶偏好的子行為的日志信息,形成推薦結(jié)果的優(yōu)化數(shù)據(jù)源,存儲在數(shù)據(jù)集群中。
優(yōu)選的是,所述的基于用戶行為的日志過濾方法,步驟一中,建立用戶行為的行為函數(shù),定義多種子行為,根據(jù)用戶的需求對多種子行為的權(quán)重調(diào)整賦值,行為函數(shù)為
其中,wi為用戶α各子行為對應(yīng)的權(quán)重,0<wi<1,x1.x2……xm為用戶α對應(yīng)的m種子行為。
優(yōu)選的是,所述的基于用戶行為的日志過濾方法,子行為包括用戶信息、用戶訪問時間、頁面地址、子行為指標(biāo)。
優(yōu)選的是,所述的基于用戶行為的日志過濾方法,子行為指標(biāo)為多個獨立的參數(shù)時,步驟二中的效用函數(shù)為
根據(jù)用戶的需求對各參數(shù)的權(quán)重調(diào)整賦值,計算該子行為的用戶興趣度,其中,wi為子行為β各參數(shù)對應(yīng)的權(quán)重,0<wi<1,y1.y2……yn為子行為β對應(yīng)的n個參數(shù)。
優(yōu)選的是,所述的基于用戶行為的日志過濾方法,子行為指標(biāo)為執(zhí)行與未執(zhí)行的兩個選項時,步驟二中的效用函數(shù)為
保留取值為1的選項對應(yīng)的子行為相應(yīng)的日志信息。
優(yōu)選的是,所述的基于用戶行為的日志過濾方法,子行為為搜索行為時,讀取用戶搜索的關(guān)鍵詞,采用語義模型獲取關(guān)鍵詞的關(guān)聯(lián)詞,子行為指標(biāo)為關(guān)鍵詞與關(guān)聯(lián)詞的相似度,步驟二中的效用函數(shù)為
從數(shù)據(jù)集群的歷史搜索行為的日志信息中提取取值為1的含有關(guān)鍵詞的日志信息,提取不低于相似度閾值的關(guān)聯(lián)詞的日志信息。
本發(fā)明至少包括以下有益效果:
第一、本發(fā)明通過采用分布式的模式從網(wǎng)絡(luò)中收集來自各個業(yè)務(wù)系統(tǒng)的日志信息得到用戶行為的日志信息,通過自定義函數(shù)進(jìn)行二次過濾來處理來得到優(yōu)化結(jié)果,本發(fā)明更能及時響應(yīng)用戶的當(dāng)前需求和感興趣的信息為,提高處理效率,更好地提升了用戶行為日志的使用高效性,并且該方法容易擴(kuò)展以及具有一定的容錯性;
第二、本發(fā)明能夠快速和高效地處理小批量數(shù)據(jù),確保日志過濾的高效性和實用性,并且該方法容易擴(kuò)展,同時能方便地實現(xiàn)容錯恢復(fù)機(jī)制。
本發(fā)明的其它優(yōu)點、目標(biāo)和特征將部分通過下面的說明體現(xiàn),部分還將通過對本發(fā)明的研究和實踐而為本領(lǐng)域的技術(shù)人員所理解。
附圖說明
圖1為本發(fā)明多個業(yè)務(wù)系統(tǒng)的示意圖;
圖2為本發(fā)明用戶行為的分布示意圖;
圖3為本發(fā)明方法的流程示意圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明做進(jìn)一步的詳細(xì)說明,以令本領(lǐng)域技術(shù)人員參照說明書文字能
需要說明的是,下述實施方案中所述實驗方法,如無特殊說明,均為常規(guī)方法,所述試劑和材料,如無特殊說明,均可從商業(yè)途徑獲得。
一種基于用戶行為的日志過濾方法,如圖2~3所示,用戶行為指的是用戶在使用網(wǎng)絡(luò)的過程中的瀏覽行為,日志信息即為瀏覽行為中記錄的信息,由于日志流并發(fā)產(chǎn)生并且數(shù)量大,為了保準(zhǔn)數(shù)據(jù)的實時性和完整性,在進(jìn)入日志過濾階段之前,將日志信息流保存在數(shù)據(jù)集群中,為后續(xù)的日志過濾提供安全可靠的消息傳輸。本發(fā)明的過濾方法包括以下步驟:
步驟一、如圖1所示,用戶在各個業(yè)務(wù)系統(tǒng)(例如:網(wǎng)絡(luò)購物、微博瀏覽、新聞推薦等客戶端應(yīng)用或頁面)會產(chǎn)生海量用戶行為,頁面開發(fā)者在后端針對不同的業(yè)務(wù)系統(tǒng)預(yù)先將用戶行為劃分成多種子行為并分配相應(yīng)的權(quán)重,以下以網(wǎng)絡(luò)購物的業(yè)務(wù)系統(tǒng)舉例,用戶行為被劃分為瀏覽行為、點擊行為、購買行為等多種子行為,微博瀏覽時,用戶行為被劃分為瀏覽行為、點擊行為、搜索行為等多種子行為,而當(dāng)用戶進(jìn)行網(wǎng)絡(luò)購物時,頁面開發(fā)者預(yù)先針對大多數(shù)消費者的購物習(xí)慣,廣泛列舉多種子行為,并依據(jù)用戶的購買概率為多種子行為分配權(quán)重,通過現(xiàn)有的分布式日志采集工具訪問數(shù)據(jù)庫的日志表,解析日志任務(wù),提取用戶的日志信息,獲取并存儲用戶行為的日志信息,保存到數(shù)據(jù)集群,該數(shù)據(jù)集群可以承載海量的用戶行為日志信息,為后續(xù)的日志過濾階段提供了可靠的信息傳輸,提取并濾除低于權(quán)重閾值的相應(yīng)子行為的日志信息,即去除部分相對不具有參考價值的子行為的日志信息,實現(xiàn)行為日志的第一次過濾;
步驟二、步驟一保留多種不同的子行為,對保留的子行為的日志信息分別通過效用函數(shù)進(jìn)行并行處理,即對每一種子行為分別處理,建立具有針對性的效用函數(shù),再次濾除各子行為中不具有參考價值的部分日志信息,子行為包括屬性信息與指標(biāo),指標(biāo)包括多個具有參數(shù)的子指標(biāo),子指標(biāo)的數(shù)值大小具有比較意義,所述效用函數(shù)建立用戶興趣度與至少一個子行為指標(biāo)的映射關(guān)系,針對不同類型的效用函數(shù)分別計算用戶興趣度,分別預(yù)設(shè)定興趣度閾值,提取并濾除低于興趣度閾值的子行為相應(yīng)的部分日志信息,不低于興趣度閾值的剩余的日志信息即為用戶偏好的子行為,保留用戶偏好的子行為的日志信息,形成推薦結(jié)果的優(yōu)化數(shù)據(jù)源,作為針對各推薦端具有廣泛適用性的數(shù)據(jù)源存儲在數(shù)據(jù)集群中,實現(xiàn)行為日志的第二次過濾。
在另一種技術(shù)方案中,所述的基于用戶行為的日志過濾方法,步驟一中,建立用戶行為的行為函數(shù),定義多種子行為,例如,瀏覽行為(一次點擊查看的頁面會記錄多條瀏覽數(shù)據(jù),記錄用戶信息、時間、地址、商品id、當(dāng)前鼠標(biāo)停留時間、當(dāng)前頁面滾動次數(shù)等)、點擊行為(點擊子行為是點擊搜索商品還是推薦列表中的商品,記錄用戶信息、時間、地址、點擊商品id等)、購買行為(購買的子行為有將商品加入購物車付款或者不付款,記錄用戶信息、商品id、付款時間、訂單時間、地址等)、對比行為(將多個商品加入對比欄進(jìn)行各項參數(shù)的比較)等,(各行為存在一定的重疊,比如瀏覽過程會有點擊行為,均會分別針對兩個子行為進(jìn)行提取和考量,記錄用戶信息、商品id、對比時間、地址等)根據(jù)用戶的需求對多種子行為的權(quán)重調(diào)整賦值,行為函數(shù)為
其中,wi為用戶α各子行為對應(yīng)的權(quán)重,0<wi<1,x1.x2……xm為用戶α對應(yīng)的m種子行為,其中瀏覽行為、點擊行為、購買行為的權(quán)重均高于閾值,對比行為的權(quán)重低于閾值,故所有的對比行為的日志信息濾除,瀏覽行為、點擊行為、購買行為的日志信息保留。
在另一種技術(shù)方案中,所述的基于用戶行為的日志過濾方法,子行為包括用戶信息(用戶id、賬號注冊時間)、用戶當(dāng)前頁面訪問時間、當(dāng)前頁面地址、子行為指標(biāo),子行為指標(biāo)針對不同的子行為時其囊括項目不完全相同,基于頁面開發(fā)者在后面的預(yù)設(shè)置,例如,當(dāng)子行為為瀏覽行為時,子行為指標(biāo)為鼠標(biāo)停留時間、當(dāng)前頁面滾動次數(shù)等。
在另一種技術(shù)方案中,所述的基于用戶行為的日志過濾方法,子行為指標(biāo)為多個獨立的參數(shù)時,多個獨立的參數(shù)彼此之間無相對、互補(bǔ)等關(guān)系,均具有考量價值,例如,當(dāng)子行為為瀏覽行為時,子行為指標(biāo)為鼠標(biāo)停留時間、當(dāng)前頁面滾動次數(shù)等,瀏覽時間、當(dāng)前頁面滾動次數(shù)為獨立的參數(shù),步驟二中的效用函數(shù)為
根據(jù)用戶的需求對各參數(shù)的權(quán)重調(diào)整賦值,計算該子行為當(dāng)前頁面的用戶興趣度,其中,wi為子行為β各參數(shù)對應(yīng)的權(quán)重,0<wi<1,w鼠標(biāo)停留時間預(yù)設(shè)為0.8,w當(dāng)前頁面滾動次數(shù)預(yù)設(shè)為0.2,即把鼠標(biāo)停留時間這個操作看作用戶更感興趣的行為,y1.y2……yn為子行為β對應(yīng)的n個參數(shù),對于某個頁面,y鼠標(biāo)停留時間為5s,y當(dāng)前頁面滾動次數(shù)為1次,g(β)計算得到為4.2,頁面開發(fā)者在設(shè)定興趣度閾值時,將4.2作為滿足用戶感興趣的興趣度閾值,即當(dāng)g(β)≥4.2時,保留該頁面對應(yīng)的日志信息,對于不滿足函數(shù)條件的日志進(jìn)行刪除。
在另一種技術(shù)方案中,所述的基于用戶行為的日志過濾方法,子行為指標(biāo)為執(zhí)行與未執(zhí)行的兩個選項時,二者具有相對性、互補(bǔ)性,即二選一的情況,如當(dāng)用戶的子行為為購買行為時,子行為包括購買、未購買兩個選項,即兩個具有相對性的指標(biāo),再比如,當(dāng)用戶的子行為為點擊行為時,子行為包括點擊推薦中商品、點擊搜索的商品兩個選項,即兩個具有互補(bǔ)性的指標(biāo),步驟二中的效用函數(shù)為
保留取值為1的選項(即用戶興趣度為1,興趣度閾值為1)對應(yīng)的子行為相應(yīng)的日志信息,即保留產(chǎn)生訂單信息的子行為日志信息,或者保留用戶點擊搜索的商品的子行為日志信息,值得注意的是,當(dāng)用戶的子行為為購買行為時,此處強(qiáng)調(diào)的是未購買的商品與已購買的商品的受歡迎程度的相對性,即便是購物車未購買的商品(或收藏夾未購買的商品),在本子行為的效用函數(shù)中被濾除,不代表該商品不收歡迎或者用戶不感興趣,在其他子行為(例如雖未購買、但是鼠標(biāo)停留時間長)也會被瀏覽的子行為的效用函數(shù)考慮并保留,所以本處不存在遺漏,更多考量的是相對性,受歡迎、感興趣的商品最終會以各種行為保留在數(shù)據(jù)集群。
在另一種技術(shù)方案中,所述的基于用戶行為的日志過濾方法,子行為為搜索行為時,搜索的子行為是輸入關(guān)鍵詞進(jìn)行查詢,記錄用戶信息、商品id、檢索的關(guān)鍵字、地址等,讀取用戶搜索的關(guān)鍵詞,例如,用戶輸入搜索框的關(guān)鍵詞為“電影票”,采用語義模型獲取關(guān)鍵詞的關(guān)聯(lián)詞,語義模型為現(xiàn)有技術(shù),包含語義擴(kuò)展的查詢接口、語義支持系統(tǒng)、推理系統(tǒng)和本體系統(tǒng),語義擴(kuò)展查詢接口用來分析用戶請求,確定用戶的語義,綁定到相關(guān)概念,語義支持系統(tǒng)為語義分析做支持,推理系統(tǒng)為語義分析和知識處理服務(wù),本體系統(tǒng)用于知識表示和處理,根據(jù)用戶輸入的關(guān)鍵詞通過語義模型推理出關(guān)聯(lián)詞,從而獲得關(guān)聯(lián)的對象信息,比如,用戶的歷史訂單中,某個訂單中包括“電影票”與“尿不濕”,此處關(guān)聯(lián)詞可以為“長城”“羅曼蒂克消亡史”“電影頻道”“尿不濕”等,子行為指標(biāo)為關(guān)鍵詞與關(guān)聯(lián)詞的相似度,當(dāng)該關(guān)聯(lián)詞出現(xiàn)在同一歷史訂單中時,該關(guān)聯(lián)詞的用戶興趣度定義為1,當(dāng)該關(guān)聯(lián)詞未出現(xiàn)在歷史訂單中時,用戶興趣度的計算方法可以通過相似度體現(xiàn),相似度為現(xiàn)有技術(shù),很多論文、文獻(xiàn)中均有體現(xiàn),步驟二中的效用函數(shù)為
從數(shù)據(jù)集群的歷史搜索行為的日志信息中提取取值為1的含有關(guān)鍵詞的日志信息,即歷史訂單中與“電影票”一同購買的“尿不濕”的日志信息,提取不低于相似度閾值的關(guān)聯(lián)詞的日志信息,即“長城”“羅曼蒂克消亡史”,濾除“電影頻道”。
最后,對于各效用函數(shù)進(jìn)行并行處理,將最后的結(jié)果進(jìn)行保存并且進(jìn)行復(fù)制,以備后續(xù)應(yīng)用提供優(yōu)化的數(shù)據(jù)源。
這里說明的設(shè)備數(shù)量和處理規(guī)模是用來簡化本發(fā)明的說明的。對本發(fā)明的應(yīng)用、修改和變化對本領(lǐng)域的技術(shù)人員來說是顯而易見的。
盡管本發(fā)明的實施方案已公開如上,但其并不僅僅限于說明書和實施方式中所列運用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對于熟悉本領(lǐng)域的人員而言,可容易地實現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的圖例。