一種基于用戶瀏覽行為的網(wǎng)頁推薦方法
【專利摘要】本發(fā)明涉及一種基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于:步驟1:利用瀏覽器收集每個頁面的停留時間以及頁面內(nèi)容信息;步驟2:對頁面內(nèi)容進行文本分析,獲得頁面的特征項;步驟3:根據(jù)頁面停留時間和特征項,分析出用戶對每個特征項的興趣程度,得到用戶興趣類權(quán)值;步驟4:將權(quán)值較高的興趣類作為關(guān)鍵詞,利用爬蟲程序,將Web上與用戶興趣有關(guān)的網(wǎng)頁按照類別全部抓取下來;步驟5:利用余弦夾角函數(shù)計算抓取的網(wǎng)頁與用戶已瀏覽的網(wǎng)頁的相似度,將相似度較高的網(wǎng)頁推送給用戶。
【專利說明】一種基于用戶瀏覽行為的網(wǎng)頁推薦方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于用戶瀏覽行為的網(wǎng)頁推薦方法。
【背景技術(shù)】
[0002]在網(wǎng)絡(luò)技術(shù)飛速發(fā)展的今天,信息和資源也隨之迅猛增長。在網(wǎng)絡(luò)方面這種趨勢顯得尤為突出。面對Web上如此龐大的信息資源,Web上的“信息迷航”和“信息過載”等問題也在加劇。為了防止此類問題的愈演愈烈,有必要提供一種基于用戶瀏覽行為的網(wǎng)頁推薦方法,在Web上尋找更相關(guān)的信息以滿足不同用戶的個性化需求。
【發(fā)明內(nèi)容】
[0003]本發(fā)明目的在于提供一種基于用戶瀏覽行為的網(wǎng)頁推薦方法,通過獲取并分析用戶的瀏覽行為數(shù)據(jù),向用戶推薦他可能感興趣的網(wǎng)頁,滿足用戶的個性化需求。
[0004]實現(xiàn)本發(fā)明目的技術(shù)方案:
[0005]一種基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于:
[0006]步驟1:利用瀏覽器收集每個頁面的停留時間以及頁面內(nèi)容信息;
[0007]步驟2:對頁面內(nèi)容進行文本分析,獲得頁面的特征項;
[0008]步驟3:根據(jù)頁面停留時間和特征項,分析出用戶對每個特征項的興趣程度,得到用戶興趣類權(quán)值;
[0009]步驟4:將權(quán)值較高的興趣類作為關(guān)鍵詞,利用爬蟲程序,將Web上與用戶興趣有關(guān)的網(wǎng)頁按照類別全部抓取下來;
[0010]步驟5:利用余弦夾角函數(shù)計算抓取的網(wǎng)頁與用戶已瀏覽的網(wǎng)頁的相似度,將相似度較高的網(wǎng)頁推送給用戶。
[0011]步驟I中,利用瀏覽器監(jiān)聽頁面的創(chuàng)建和消亡、鼠標滾輪的滑動,統(tǒng)計頁面的停留時間;利用在瀏覽器中得到所有頁面url,對頁面源代碼即頁面內(nèi)容進行獲取。
[0012]步驟2中,首先對網(wǎng)頁中的干擾信息進行清理,所說的干擾信息為HTML頁面的框架結(jié)構(gòu)信息、超鏈接信息或者腳本信息。
[0013]步驟2中,文本分析時,首先,對處理過的頁面文檔集進行分詞處理,然后,對文本中所有特征項進行權(quán)值計算,并抽取權(quán)值最高的N個詞語作為頁面的主題內(nèi)容,N值由用戶設(shè)定。
[0014]步驟3中,興趣類權(quán)值計算公式如下所示:
[0015]InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij)
[0016]興趣等級InterestDegree(Ij),表示用戶興趣類權(quán)值;
[0017]頁面停留時間等級ViewtimeDegree(Ij),表示用戶在每一關(guān)鍵詞中花費的時間時間占總瀏覽時間的比值,Ij e T,T表示特征集合;
[0018]關(guān)鍵詞興趣等級KeywordDegree (Ij),表示每一關(guān)鍵詞在主題詞集合T中出現(xiàn)的次數(shù)占關(guān)鍵詞的總數(shù)的比值,Ij e T,T表示特征集合。
[0019]本發(fā)明具有的有益效果:
[0020]本發(fā)明在用戶進行瀏覽網(wǎng)頁時,利用瀏覽器將每個頁面的停留時間以及頁面內(nèi)容收集起來;在數(shù)據(jù)預處理階段,對頁面內(nèi)容進行文本分析,獲得頁面的特征項;根據(jù)頁面停留時間和特征項出現(xiàn)頻率分析出用戶對每個特征項的興趣程度,得到用戶的當前興趣模型;最后根據(jù)頁面停留時間和特征項對用戶興趣的影響分析出用戶對每個特征項的興趣程度,得到用戶的當前興趣,將相關(guān)網(wǎng)頁推送給用戶。本發(fā)明不僅能夠自動記錄用戶行為,實時分析,挖掘用戶當前的興趣偏好,還可以掌握用戶對所有興趣的喜愛程度,可以利用此信息進行實時的個性化推薦服務(wù)。
[0021]本發(fā)明在數(shù)據(jù)預處理階段即步驟2中,首先對網(wǎng)頁中的干擾信息進行清理,在文本分析時,首先,對處理過的頁面文檔集進行分詞處理,然后,對文本中所有特征項進行權(quán)值計算,并抽取權(quán)值最高的N個詞語作為頁面的主題內(nèi)容,能夠有效提高獲得頁面特征項的速度和準確率。本發(fā)明在步驟3中通過興趣類權(quán)值計算公式,能夠充分體現(xiàn)出用戶對瀏覽網(wǎng)頁的興趣。
【具體實施方式】
[0022]步驟1:利用瀏覽器收集每個頁面的停留時間以及頁面內(nèi)容信息;
[0023]利用瀏覽器監(jiān)聽頁面的創(chuàng)建和消亡、鼠標滾輪的滑動,統(tǒng)計頁面的停留時間;每當一個頁面(PageA)加載完成時,瀏覽器會將此時的系統(tǒng)時間記錄下來,作為頁面停留時間的開始時刻T(StartA)。當這個頁面進入非活躍狀態(tài)時,也就是用戶進行了關(guān)閉頁面的操作或進行了新的網(wǎng)頁瀏覽,瀏覽器就會再次記錄系統(tǒng)時間,作為頁面停留時間的結(jié)束時刻T(endA)。那么用戶在此頁面的頁面停留時間StayTime (pageA)就等于結(jié)束時刻與開始時刻的時間差。頁面停留時間計算公式如下:
[0024]StayTime(pageA) = T(endA)-T(startA)
[0025]利用在瀏覽器中得到所有頁面url,對頁面源代碼,即頁面內(nèi)容,進行獲取。
[0026]步驟2:對頁面內(nèi)容進行文本分析,獲得頁面的特征項;
[0027]首先對網(wǎng)頁中的干擾信息進行清理,所說的干擾信息為HTML頁面的框架結(jié)構(gòu)信息、超鏈接信息或者腳本信息。
[0028]文本分析時,首先,對處理過的頁面文檔集進行分詞處理,然后,對文本中所有特征項進行權(quán)值計算,并抽取權(quán)值最高的N個詞語作為頁面的主題內(nèi)容,N值由用戶設(shè)定,本實施例中,N取7。
[0029]步驟3:根據(jù)頁面停留時間和特征項,分析出用戶對每個特征項的興趣程度,得到用戶興趣類權(quán)值;
[0030]在用戶興趣挖掘階段,考慮到頁面停留時間和特征項對用戶興趣的影響,對用戶每一興趣類進行興趣強度計算,即計算用戶興趣類權(quán)值。
[0031]興趣等級InterestDegree (I」):表示用戶興趣類權(quán)值。
[0032]頁面停留時間等級ViewtimeDegree (I」)(I」e Τ) (T表示特征集合)::表示用戶在每一關(guān)鍵詞中花費的時間時間占總瀏覽時間的比值。
[0033]關(guān)鍵詞興趣等級KeywordDegree (Ij) (Ij e T):表示每一關(guān)鍵詞在主題詞集合T中出現(xiàn)的次數(shù)占關(guān)鍵詞的總數(shù)的比值。
[0034]興趣權(quán)值計算公式如下所示:
[0035]InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij)
[0036]通過計算頁面停留時間等級和關(guān)鍵詞興趣等級,就可計算出用戶對每個興趣類的興趣強度,從而得到用戶興趣表示。
[0037]用戶興趣表示為:((I1,InterestDegree (I1)), (I2, InterestDegree (I2)),...,(In, InterestDegree (In))。
[0038]其中,In表示用戶的興趣類,InterestDegree(In)表示In對應的用戶興趣類權(quán)值。
[0039]經(jīng)過文本分析后,就可以利用特征項表示頁面內(nèi)容,構(gòu)建向量空間模型。對于頁面集合 P = (P1, Pa,, pn}中的任意頁面 Pi (1< = i〈 = η),表示成 Pi = {(tn, wn),(ti2, wi2),...,(tin, win)} (n> = I)。其中 tik(l〈 = k〈 = n)表示頁面的特征項,wik(l< = k〈 = η)表示特征項對應的權(quán)值。在向量空間模型下,使用特征項的權(quán)重集合表示頁面向量,頁面Pi和Pj的頁面向量分別為Pi (Wil, wi2,...,win), Pj (Wj1, Wj2,...,wJn)。兩個頁面之間的相似度Sim(PpPj)的公式為:
【權(quán)利要求】
1.一種基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于: 步驟1:利用瀏覽器收集每個頁面的停留時間以及頁面內(nèi)容信息; 步驟2:對頁面內(nèi)容進行文本分析,獲得頁面的特征項; 步驟3:根據(jù)頁面停留時間和特征項,分析出用戶對每個特征項的興趣程度,得到用戶興趣類權(quán)值; 步驟4:將權(quán)值較高的興趣類作為關(guān)鍵詞,利用爬蟲程序,將Web上與用戶興趣有關(guān)的網(wǎng)頁按照類別全部抓取下來; 步驟5:利用余弦夾角函數(shù)計算抓取的網(wǎng)頁與用戶已瀏覽的網(wǎng)頁的相似度,將相似度較高的網(wǎng)頁推送給用戶。
2.根據(jù)權(quán)利要求1所述的基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于:步驟I中,利用瀏覽器監(jiān)聽頁面的創(chuàng)建和消亡、鼠標滾輪的滑動,統(tǒng)計頁面的停留時間;利用在瀏覽器中得到所有頁面url,對頁面源代碼即頁面內(nèi)容進行獲取。
3.根據(jù)權(quán)利要求2所述的基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于:步驟2中,首先對網(wǎng)頁中的干擾信息進行清理,所說的干擾信息為HTML頁面的框架結(jié)構(gòu)信息、超鏈接信息或者腳本信息。
4.根據(jù)權(quán)利要求3所述的基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于:步驟2中,文本分析時,首先,對處理過的頁面文檔集進行分詞處理,然后,對文本中所有特征項進行權(quán)值計算,并抽取權(quán)值最高的N個詞語作為頁面的主題內(nèi)容,N值由用戶設(shè)定。
5.根據(jù)權(quán)利要求4所述的基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于:步驟3中, 興趣類權(quán)值計算公式如下所示:
InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij) 興趣等級InterestDegree(Ij),表示用戶興趣類權(quán)值; 頁面停留時間等級ViewtimeDegree (Ij),表示用戶在每一關(guān)鍵詞中花費的時間時間占總瀏覽時間的比值,Ij e T,T表示特征集合; 關(guān)鍵詞興趣等級KeywordDegree (Ij),表示每一關(guān)鍵詞在主題詞集合T中出現(xiàn)的次數(shù)占關(guān)鍵詞的總數(shù)的比值,Ij e T,T表示特征集合。
【文檔編號】G06F17/30GK104199874SQ201410412077
【公開日】2014年12月10日 申請日期:2014年8月20日 優(yōu)先權(quán)日:2014年8月20日
【發(fā)明者】姚念民, 張薇 申請人:哈爾濱工程大學