專利名稱:一種網(wǎng)頁推薦方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種網(wǎng)頁推薦方法和裝置。
背景技術(shù):
隨著計算機技術(shù)的發(fā)展和hternet因特網(wǎng)的普及,Web網(wǎng)絡(luò)數(shù)據(jù)突破傳統(tǒng)意義上 的數(shù)據(jù)格式的限制,變得越來越重要,成為Web用戶更好的獲得信息地一個有效的途徑。Web訪問日志數(shù)據(jù)是記錄用戶對Web站點訪問信息的數(shù)據(jù),保存有大量的路徑信 息,通過挖掘這些日志信息所得到的用戶訪問模式,在個性化信息服務(wù)、改進門戶站點設(shè)計 和服務(wù)、開展有針對性的電子商務(wù)、構(gòu)建智能化Web站點、提高網(wǎng)站的聲譽和效益等方面都 將起到重要的作用。Web訪問日志的內(nèi)容通常包括以下幾項用戶IP、Session標(biāo)識符、用 戶訪問的目標(biāo)站點URL(Uniform Resource Locator,網(wǎng)頁地址)、訪問時間、跳轉(zhuǎn)來源等等。 用戶可以在瀏覽器地址欄中輸入目標(biāo)網(wǎng)頁URL,或點擊超鏈接來搜索得到想要的目標(biāo)網(wǎng)頁。發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),現(xiàn)有技術(shù)至少存在以下缺點用戶在搜索時, 一般需要構(gòu)造并輸入查詢詞,才能引導(dǎo)搜索引擎完成搜索工作,有時由于獲得了一些無關(guān) 的內(nèi)容項,使得會獲得一些垃圾網(wǎng)站,無法得到用戶真正需要的網(wǎng)頁。
發(fā)明內(nèi)容
為了使用戶能盡快地搜索到自己所需要的網(wǎng)頁,得到有價值的推薦網(wǎng)頁,減少冗 余時間,提高處理效率,提高用戶體驗,本發(fā)明實施例提供了一種網(wǎng)頁推薦方法和裝置,所 述技術(shù)方案如下一種網(wǎng)頁推薦方法,所述方法包括獲得網(wǎng)頁訪問記錄;根據(jù)網(wǎng)頁訪問記錄獲得網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫;當(dāng)需要為用戶進行網(wǎng)頁推薦時,根據(jù)所述網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫為用戶進行 網(wǎng)頁推薦。所述網(wǎng)頁訪問記錄至少包括用戶會話標(biāo)識,目標(biāo)網(wǎng)頁標(biāo)識以及所述目標(biāo)網(wǎng)頁的跳 轉(zhuǎn)來源網(wǎng)頁標(biāo)識,根據(jù)網(wǎng)頁訪問記錄獲得網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息包括至少基于所述用戶會話標(biāo)識對所述網(wǎng)頁訪問記錄進行分類;對擁有相同用戶會話標(biāo)識的網(wǎng)頁訪問記錄,根據(jù)目標(biāo)網(wǎng)頁標(biāo)識以及所述目標(biāo)網(wǎng)頁 的跳轉(zhuǎn)來源網(wǎng)頁標(biāo)識建立代表網(wǎng)頁跳轉(zhuǎn)關(guān)系的跳轉(zhuǎn)連通分支,在所述跳轉(zhuǎn)連通分支中,各 網(wǎng)頁以網(wǎng)頁節(jié)點的形式存在;匯集各用戶標(biāo)識下對應(yīng)的所述跳轉(zhuǎn)連通分支,形成網(wǎng)頁跳轉(zhuǎn)關(guān)系信息庫。所述網(wǎng)頁訪問記錄還包括從所述跳轉(zhuǎn)來源網(wǎng)頁跳轉(zhuǎn)至目標(biāo)網(wǎng)頁的跳轉(zhuǎn)時間;所述至少根據(jù)所述用戶會話標(biāo)識對所述網(wǎng)頁訪問記錄進行分類還包括對擁有相 同會話標(biāo)識的網(wǎng)頁訪問記錄按照所述跳轉(zhuǎn)時間遞增的順序進行排序;所述根據(jù)目標(biāo)網(wǎng)頁標(biāo)識以及所述目標(biāo)網(wǎng)頁的跳轉(zhuǎn)來源網(wǎng)頁標(biāo)識建立代表網(wǎng)頁跳轉(zhuǎn)關(guān)系的跳轉(zhuǎn)連通分支還包括在建立所述跳轉(zhuǎn)連通分支的過程中,參考所述跳轉(zhuǎn)時間對 特定的網(wǎng)頁跳轉(zhuǎn)記錄進行篩選。所述匯集各用戶標(biāo)識下對應(yīng)的所述跳轉(zhuǎn)連通分支,形成網(wǎng)頁跳轉(zhuǎn)關(guān)系信息庫包 括同一用戶會話標(biāo)識下的跳轉(zhuǎn)連通分支構(gòu)成同一用戶會話中的網(wǎng)頁跳轉(zhuǎn)關(guān)系有向 樹;匯集所述各有向樹構(gòu)建代表網(wǎng)頁跳轉(zhuǎn)關(guān)系的點擊樹模型,所述點擊樹模型成為網(wǎng) 頁之間的跳轉(zhuǎn)關(guān)系信息庫。所述匯集各有向樹構(gòu)建代表網(wǎng)頁跳轉(zhuǎn)關(guān)系的點擊樹模型包括匯集所述各有向樹構(gòu)建網(wǎng)頁跳轉(zhuǎn)關(guān)系森林;為所述構(gòu)建的網(wǎng)頁跳轉(zhuǎn)關(guān)系森林添加虛擬根節(jié)點,形成點擊樹模型。所述方法還包括根據(jù)快速檢索需要,對所述網(wǎng)頁跳轉(zhuǎn)關(guān)系信息庫進行優(yōu)化。所述根據(jù)快速檢索需求,對所述網(wǎng)頁跳轉(zhuǎn)關(guān)系信息庫進行優(yōu)化包括為所述點擊樹模型中的所有不同的節(jié)點建立索引指針,所述索引指針用于指向按 照前序遍歷方式遍歷時和用戶查詢的當(dāng)前網(wǎng)址相同的第一個節(jié)點;為所述點擊樹模型中的每一個節(jié)點添加一個鏈接指針,所述鏈接指針用于指向按 照前序遍歷方式遍歷時和當(dāng)前節(jié)點相同的后續(xù)最近的節(jié)點。在所述跳轉(zhuǎn)關(guān)系信息庫中各網(wǎng)頁以網(wǎng)頁節(jié)點的形式存在,所述根據(jù)所述網(wǎng)頁之間 的跳轉(zhuǎn)關(guān)系信息庫為用戶進行網(wǎng)頁推薦包括獲得用戶當(dāng)前訪問的網(wǎng)頁的第一網(wǎng)頁標(biāo)識;在所述跳轉(zhuǎn)關(guān)系信息庫中查找所述第一網(wǎng)頁標(biāo)識對應(yīng)的至少一個第一網(wǎng)頁節(jié)點, 所述第一網(wǎng)頁節(jié)點的標(biāo)識與所述第一網(wǎng)頁標(biāo)識相同;在所述跳轉(zhuǎn)關(guān)系信息庫中查找從所述第一網(wǎng)頁節(jié)點經(jīng)過至少一跳而跳轉(zhuǎn)到的后 續(xù)網(wǎng)頁節(jié)點,所述查找到的后續(xù)網(wǎng)頁節(jié)點構(gòu)成所述第一網(wǎng)頁的推薦網(wǎng)頁候選集;根據(jù)預(yù)置策略在所述推薦網(wǎng)頁候選集中選取至少一個網(wǎng)頁為所述用戶進行推薦。根據(jù)預(yù)置策略在所述推薦網(wǎng)頁候選集中選取至少一個網(wǎng)頁為所述用戶進行推薦 包括獲得所述推薦網(wǎng)頁候選集中的網(wǎng)頁和當(dāng)前訪問網(wǎng)頁之間的平均點擊距離;獲得所述推薦網(wǎng)頁候選集中的網(wǎng)頁和當(dāng)前訪問網(wǎng)頁之間的訪問概率;根據(jù)所述網(wǎng)頁之間的平均點擊距離、所述網(wǎng)頁之間的訪問概率以及所述候選推薦 網(wǎng)頁集,為用戶進行網(wǎng)頁推薦。所述根據(jù)所述網(wǎng)頁之間的平均點擊距離、所述網(wǎng)頁之間的訪問概率以及所述候選 推薦網(wǎng)頁集,為用戶進行網(wǎng)頁推薦包括對所述網(wǎng)頁之間的平均點擊距離以及訪問概率進行線性加權(quán)處理,獲得所述候選 推薦網(wǎng)頁集中的各網(wǎng)頁的得分值;將所述計算出的各網(wǎng)頁得分值,根據(jù)由高到低的順序進行排序;根據(jù)所述得分值的排序結(jié)果,生成推薦網(wǎng)頁。所述對所述網(wǎng)頁之間的平均點擊距離以及訪問概率進行線性加權(quán)處理,獲得所述 候選推薦網(wǎng)頁集中的各網(wǎng)頁的得分值包括
當(dāng)訪問概率一定時,所述平均點擊距離越遠(yuǎn),所述網(wǎng)頁得分值越高;相應(yīng)地,當(dāng)所述平均點擊距離一定時,所述訪問概率越高,所述網(wǎng)頁得分值越高。所述網(wǎng)頁之間的平均點擊距離是通過平均點擊距離公式獲得,所述平均點擊距離 公式包括平均點擊距離Σ成/"( ^),其中,n(a,b)為同時出現(xiàn)了網(wǎng)頁a和網(wǎng)頁b/=1的會話個數(shù),d代表兩個網(wǎng)頁之間的點擊距離,a和b代表所述候選推薦網(wǎng)頁集中的任意2 個網(wǎng)頁;相應(yīng)地,所述兩個網(wǎng)頁之間的訪問概率是通過網(wǎng)頁之間的訪問概率的公式獲得, 所述網(wǎng)頁之間的訪問概率的公式包括Np(a,b) = \og(~—)xn(a,b),其中,N是所有會話的總數(shù),n(b)為出現(xiàn)了網(wǎng)頁b的會Φ)話個數(shù),η (a,b)為同時出現(xiàn)了網(wǎng)頁a和網(wǎng)頁b的會話個數(shù);相應(yīng)地,所述線性加權(quán)公式具體為v(a,b) = λ Xd(a, b) + (1-λ ) Xρ (a, b),其 中,λ為融合參數(shù),λ的取值范圍為λ ( l,d(a,b)代表平均點擊距離、ρ (a,b)代表 訪問概率、a和b代表所述候選推薦網(wǎng)頁集中的任意2個網(wǎng)頁。所述獲得網(wǎng)頁訪問記錄包括獲得Web訪問日志。所述目標(biāo)網(wǎng)頁標(biāo)識具體是目標(biāo)網(wǎng)頁的網(wǎng)址,所述目標(biāo)網(wǎng)頁的跳轉(zhuǎn)來源網(wǎng)頁標(biāo)識具 體是所述跳轉(zhuǎn)來源網(wǎng)頁的網(wǎng)址。一種網(wǎng)頁推薦裝置,所述裝置包括網(wǎng)頁訪問記錄模塊、網(wǎng)頁跳轉(zhuǎn)關(guān)系模塊、網(wǎng)頁 推薦模塊;所述網(wǎng)頁訪問記錄模塊,用于獲得網(wǎng)頁訪問記錄;所述網(wǎng)頁跳轉(zhuǎn)關(guān)系模塊,用于根據(jù)所述網(wǎng)頁訪問記錄模塊獲得的網(wǎng)頁訪問記錄獲 得網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫;所述網(wǎng)頁推薦模塊,用于當(dāng)需要為用戶進行網(wǎng)頁推薦時,根據(jù)所述網(wǎng)頁跳轉(zhuǎn)關(guān)系 模塊獲得的網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫為用戶進行網(wǎng)頁推薦。所述網(wǎng)頁訪問記錄模塊獲得的網(wǎng)頁訪問記錄至少包括用戶會話標(biāo)識,目標(biāo)網(wǎng)頁標(biāo) 識以及所述目標(biāo)網(wǎng)頁的跳轉(zhuǎn)來源網(wǎng)頁標(biāo)識,所述網(wǎng)頁跳轉(zhuǎn)關(guān)系模塊包括分類單元、建立單 元、構(gòu)建單元;所述分類單元,用于基于所述用戶會話標(biāo)識對所述網(wǎng)頁訪問記錄模塊獲得的網(wǎng)頁 訪問記錄進行分類;所述建立單元,用于對擁有相同用戶會話標(biāo)識的網(wǎng)頁訪問記錄,根據(jù)目標(biāo)網(wǎng)頁標(biāo) 識以及所述目標(biāo)網(wǎng)頁的跳轉(zhuǎn)來源網(wǎng)頁標(biāo)識建立代表網(wǎng)頁跳轉(zhuǎn)關(guān)系的跳轉(zhuǎn)連通分支,在所述 跳轉(zhuǎn)連通分支中,各網(wǎng)頁以網(wǎng)頁節(jié)點的形式存在;所述構(gòu)建單元,用于匯集各用戶標(biāo)識下對應(yīng)的所述跳轉(zhuǎn)連通分支,形成網(wǎng)頁跳轉(zhuǎn) 關(guān)系信息庫。所述網(wǎng)頁訪問記錄模塊獲得的網(wǎng)頁訪問記錄還包括從所述跳轉(zhuǎn)來源網(wǎng)頁跳轉(zhuǎn)至 目標(biāo)網(wǎng)頁的跳轉(zhuǎn)時間;所述分類單元還包括排序子單元;
所述排序子單元,用于對擁有相同會話標(biāo)識的網(wǎng)頁訪問記錄按照所述跳轉(zhuǎn)時間遞 增的順序進行排序;所述建立單元還包括篩選子單元;所述篩選子單元,用于在建立所述跳轉(zhuǎn)連通分支的過程中,參考所述跳轉(zhuǎn)時間對 特定的網(wǎng)頁跳轉(zhuǎn)記錄進行篩選。所述構(gòu)建單元包括構(gòu)成子單元、匯集子單元;所述構(gòu)成子單元,用于同一用戶會話標(biāo)識下的跳轉(zhuǎn)連通分支構(gòu)成同一用戶會話中 的網(wǎng)頁跳轉(zhuǎn)關(guān)系有向樹;所述匯集子單元,用于匯集所述各有向樹構(gòu)建代表網(wǎng)頁跳轉(zhuǎn)關(guān)系的點擊樹模型。所述匯集子單元包括匯集子單元1、匯集子單元2 ;所述匯集子單元1,用于匯集所述各有向樹構(gòu)建網(wǎng)頁跳轉(zhuǎn)關(guān)系森林;所述匯集子單元2,用于為所述匯集子單元1構(gòu)建的網(wǎng)頁跳轉(zhuǎn)關(guān)系森林添加虛擬 根節(jié)點,形成點擊樹模型。所述裝置還包括優(yōu)化模塊;所述優(yōu)化模塊用于根據(jù)快速檢索需要,對所述網(wǎng)頁跳轉(zhuǎn)關(guān)系模塊獲得的網(wǎng)頁跳轉(zhuǎn) 關(guān)系信息庫進行優(yōu)化。所述優(yōu)化模塊包括索引指針建立單元、鏈接指針添加單元;所述索引指針建立單元,用于為所述點擊樹模型中的所有不同的節(jié)點建立索引指 針,所述索引指針用于指向按照前序遍歷方式遍歷時和用戶查詢的當(dāng)前網(wǎng)址相同的第一個 節(jié)點。所述鏈接指針添加單元,用于為所述點擊樹模型中的每一個節(jié)點添加一個鏈接指 針,所述鏈接指針用于指向按照前序遍歷方式遍歷時和當(dāng)前節(jié)點相同的后續(xù)最近的節(jié)點。在所述跳轉(zhuǎn)關(guān)系信息庫中各網(wǎng)頁以網(wǎng)頁節(jié)點的形式存在,所述推薦模塊包括網(wǎng) 頁標(biāo)識獲得單元、網(wǎng)頁節(jié)點查找單元、推薦網(wǎng)頁候選集查找單元、推薦網(wǎng)頁選取單元;所述網(wǎng)頁標(biāo)識獲得單元,用于獲得用戶當(dāng)前訪問的網(wǎng)頁的第一網(wǎng)頁標(biāo)識;所述網(wǎng)頁節(jié)點查找單元,用于在所述跳轉(zhuǎn)關(guān)系信息庫中查找所述第一網(wǎng)頁標(biāo)識對 應(yīng)的至少一個第一網(wǎng)頁節(jié)點;所述推薦網(wǎng)頁候選集查找單元,用于在所述跳轉(zhuǎn)關(guān)系信息庫中查找從所述第一網(wǎng) 頁節(jié)點經(jīng)過至少一跳而跳轉(zhuǎn)到的后續(xù)網(wǎng)頁節(jié)點,所述查找到的后續(xù)網(wǎng)頁節(jié)點構(gòu)成所述第一 網(wǎng)頁的推薦網(wǎng)頁候選集;所述推薦網(wǎng)頁選取單元,用于根據(jù)預(yù)置策略在所述推薦網(wǎng)頁候選集中選取至少一 個網(wǎng)頁為所述用戶進行推薦。所述推薦網(wǎng)頁選取單元包括平均點擊距離計算子單元、訪問概率計算子單元、推 薦子單元;所述平均點擊距離計算子單元,用于獲得所述推薦網(wǎng)頁候選集中的網(wǎng)頁和當(dāng)前訪 問網(wǎng)頁之間的平均點擊距離;所述訪問概率計算子單元,用于獲得所述推薦網(wǎng)頁候選集中的網(wǎng)頁和當(dāng)前訪問網(wǎng) 頁之間的訪問概率;所述推薦子單元,用于根據(jù)所述平均點擊距離計算子單元獲得的網(wǎng)頁和當(dāng)前訪問網(wǎng)頁之間的平均點擊距離、所述訪問概率計算子單元獲得的網(wǎng)頁和當(dāng)前訪問網(wǎng)頁之間的訪 問概率以及所述候選推薦網(wǎng)頁集,為用戶進行網(wǎng)頁推薦。所述推薦子單元包括線性加權(quán)處理子單元、排序子單元、生成子單元;所述線性加權(quán)處理子單元,用于對所述網(wǎng)頁之間的平均點擊距離以及訪問概率進 行線性加權(quán)處理,獲得所述候選推薦網(wǎng)頁集中的各網(wǎng)頁的得分值;所述排序子單元,用于將所述計算出的各網(wǎng)頁得分值,根據(jù)由高到低的順序進行 排序;所述生成子單元,用于根據(jù)所述得分值的排序結(jié)果,生成推薦網(wǎng)頁。本發(fā)明實施例提供的技術(shù)方案的有益效果是通過對訪問日志進行數(shù)據(jù)預(yù)處理, 獲得只包含對用戶有用的內(nèi)容項;對獲得的對用戶有用的內(nèi)容項進行離線構(gòu)建點擊樹模 型;利用點擊樹模型生成候選推薦網(wǎng)頁集,從中選擇出滿足實際需求的網(wǎng)頁集合,用戶可以 較早地搜索到自己所需的網(wǎng)頁,減少了冗余時間,提高了效率,滿足了實際應(yīng)用中的需要。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實施例1提供的一種網(wǎng)頁推薦方法的流程圖;圖2是本發(fā)明實施例1提供的一種網(wǎng)頁推薦方法的示意圖;圖3是本發(fā)明實施例2提供的一種網(wǎng)頁推薦方法的詳細(xì)流程圖;圖4是本發(fā)明實施例2提供的點擊樹模型構(gòu)建示意圖;圖5是本發(fā)明實施例2提供的前端瀏覽器插件demo的截圖;圖6是本發(fā)明實施例3提供的一種網(wǎng)頁推薦裝置的流程圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方 式作進一步地詳細(xì)描述。為了協(xié)助互聯(lián)網(wǎng)用戶更好地進行網(wǎng)絡(luò)瀏覽,提出基于Web訪問日志分析的網(wǎng)頁推 薦方法。該方法涉及到前端(即用戶瀏覽器客戶端)展現(xiàn)方式和后臺(網(wǎng)頁推薦服務(wù)器) 推薦計算兩個部分。前端通過開發(fā)瀏覽器插件,實時獲取用戶當(dāng)前瀏覽的網(wǎng)頁URL,將其發(fā) 送至后臺服務(wù)器,然后接收后臺服務(wù)器計算出的推薦結(jié)果并在瀏覽器側(cè)邊欄中顯示出來。 對于推薦結(jié)果,用戶可以查看摘要或點擊瀏覽。后臺服務(wù)器通過對互聯(lián)網(wǎng)用戶訪問網(wǎng)頁行 為的宏觀分析,過濾Web訪問日志中可能存在的垃圾和噪音信息,將具有點擊跳轉(zhuǎn)關(guān)系的 網(wǎng)頁相關(guān)聯(lián),離線構(gòu)建出點擊樹模型,在給定某用戶已訪問過的網(wǎng)頁資源情況下,在線計算 出訪問概率高且點擊距離較遠(yuǎn)的網(wǎng)頁,生成推薦結(jié)果。具體內(nèi)容描述如下1、互聯(lián)網(wǎng)用戶在瀏覽網(wǎng)頁過程中,會在瀏覽器地址欄輸入目標(biāo)網(wǎng)頁URL,或點擊當(dāng) 前瀏覽網(wǎng)頁中的超鏈接。這些操作都會使瀏覽器發(fā)出對新網(wǎng)頁的請求。通過用戶主動在瀏 覽器上安裝的工具條,這些操作將會被記錄在Web訪問日志中,日志數(shù)據(jù)反映了用戶瀏覽網(wǎng)頁的行為習(xí)慣;2、依照Web訪問日志中的網(wǎng)頁跳轉(zhuǎn)關(guān)系,將日志數(shù)據(jù)自動劃分成大量的點擊序 列,每個點擊序列稱為一個會話,會話之間相對獨立,會話內(nèi)的網(wǎng)頁具有點擊跳轉(zhuǎn)關(guān)系,每 個會話都代表著一個用戶在一段時期內(nèi)的一個訪問意圖;3、從用戶的訪問意圖上看,同一個會話里的網(wǎng)頁都有一個共同的主題。兩個網(wǎng)頁 在所有會話中同時出現(xiàn)的頻度越高,說明越多的用戶認(rèn)為它們具有相同的主題,越可能被 同時訪問。在給定網(wǎng)頁a的條件下,通過計算網(wǎng)頁b與網(wǎng)頁a共同出現(xiàn)的頻度以及一些全 局信息,得到用戶訪問網(wǎng)頁a之后將會訪問網(wǎng)頁b的概率;4、從用戶操作上來看,同一個會話中的網(wǎng)頁,根據(jù)點擊跳轉(zhuǎn)關(guān)系,將構(gòu)成一個樹結(jié) 構(gòu)。樹結(jié)構(gòu)中的點表示該會話中的網(wǎng)頁,樹結(jié)構(gòu)中的邊表示點擊跳轉(zhuǎn)關(guān)系。當(dāng)且僅當(dāng)對應(yīng) 的網(wǎng)頁有直接點擊跳轉(zhuǎn)關(guān)系,兩個點在樹中相鄰。在給定網(wǎng)頁a的條件下,通過計算網(wǎng)頁b 在某個樹結(jié)構(gòu)中與網(wǎng)頁a的距離,得到它們在對應(yīng)會話里的點擊距離。通過計算網(wǎng)頁b在 所有會話中與網(wǎng)頁a的點擊距離,得到它們的平均點擊距離。網(wǎng)頁b與網(wǎng)頁a的平均點擊 距離越大,表示用戶從網(wǎng)頁a訪問到達(dá)網(wǎng)頁b需要進行的點擊跳轉(zhuǎn)操作越多;5、已知當(dāng)前瀏覽的網(wǎng)頁a,根據(jù)訪問概率和平均點擊距離兩大因素,將所有候選網(wǎng) 頁進行排序,選取排名靠前的網(wǎng)頁,這就構(gòu)成了推薦結(jié)果。6、通過開發(fā)前端瀏覽器插件,實現(xiàn)網(wǎng)頁推薦的實際應(yīng)用,瀏覽器插件負(fù)責(zé)輸入和 輸出任務(wù),即實時將用戶當(dāng)前瀏覽的網(wǎng)頁URL發(fā)送至后臺服務(wù)器,并將推薦結(jié)果顯示出來, 供用戶點擊瀏覽。請參見下述實施例,對本方法作進一步的說明。實施例1本發(fā)明實施例提供了一種網(wǎng)頁推薦的方法,參見圖1,該方法包括步驟101 獲得網(wǎng)頁訪問記錄。其中,網(wǎng)頁訪問記錄可以是Web訪問日志。網(wǎng)頁訪問記錄至少包括用戶會話標(biāo) 識,目標(biāo)網(wǎng)頁標(biāo)識以及所述目標(biāo)網(wǎng)頁的跳轉(zhuǎn)來源網(wǎng)頁標(biāo)識。為了達(dá)到更好的效果,網(wǎng)頁訪問 記錄還可以包括從跳轉(zhuǎn)來源網(wǎng)頁跳轉(zhuǎn)至目標(biāo)網(wǎng)頁的跳轉(zhuǎn)時間,后續(xù)會對這種優(yōu)選情況進行 更詳細(xì)的說明。步驟102 根據(jù)網(wǎng)頁訪問記錄獲得網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫。其中,根據(jù)網(wǎng)頁訪問記錄獲得網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫具體包括至少基于用戶會話標(biāo)識對網(wǎng)頁訪問記錄進行分類;對擁有相同用戶會話標(biāo)識的網(wǎng) 頁訪問記錄,根據(jù)目標(biāo)網(wǎng)頁標(biāo)識以及目標(biāo)網(wǎng)頁的跳轉(zhuǎn)來源網(wǎng)頁標(biāo)識建立代表網(wǎng)頁跳轉(zhuǎn)關(guān)系 的跳轉(zhuǎn)連通分支,在跳轉(zhuǎn)連通分支中,各網(wǎng)頁以網(wǎng)頁節(jié)點的形式存在。匯集各用戶標(biāo)識下對 應(yīng)的跳轉(zhuǎn)連通分支,形成網(wǎng)頁跳轉(zhuǎn)關(guān)系信息庫。至少根據(jù)用戶會話標(biāo)識對網(wǎng)頁訪問記錄進行分類還包括對擁有相同會話標(biāo)識的 網(wǎng)頁訪問記錄按照跳轉(zhuǎn)時間遞增的順序進行排序;根據(jù)目標(biāo)網(wǎng)頁標(biāo)識以及目標(biāo)網(wǎng)頁的跳轉(zhuǎn) 來源網(wǎng)頁標(biāo)識建立代表網(wǎng)頁跳轉(zhuǎn)關(guān)系的跳轉(zhuǎn)連通分支還包括在建立跳轉(zhuǎn)連通分支的過程 中,參考跳轉(zhuǎn)時間對特定的網(wǎng)頁跳轉(zhuǎn)記錄進行篩選。匯集各用戶標(biāo)識下對應(yīng)的跳轉(zhuǎn)連通分支,形成網(wǎng)頁跳轉(zhuǎn)關(guān)系信息庫包括同一用 戶會話標(biāo)識下的跳轉(zhuǎn)連通分支構(gòu)成同一用戶會話中的網(wǎng)頁跳轉(zhuǎn)關(guān)系有向樹;匯集各有向樹構(gòu)建代表網(wǎng)頁跳轉(zhuǎn)關(guān)系的點擊樹模型,點擊樹模型成為網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫。匯集 各有向樹構(gòu)建代表網(wǎng)頁跳轉(zhuǎn)關(guān)系的點擊樹模型包括匯集各有向樹構(gòu)建網(wǎng)頁跳轉(zhuǎn)關(guān)系森 林;為構(gòu)建的網(wǎng)頁跳轉(zhuǎn)關(guān)系森林添加虛擬根節(jié)點,形成點擊樹模型。步驟103 當(dāng)需要為用戶進行網(wǎng)頁推薦時,根據(jù)網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫為用 戶進行網(wǎng)頁推薦。其中,根據(jù)網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫為用戶進行網(wǎng)頁推薦具體包括獲得用戶 當(dāng)前訪問的網(wǎng)頁的第一網(wǎng)頁標(biāo)識;在跳轉(zhuǎn)關(guān)系信息庫中查找第一網(wǎng)頁標(biāo)識對應(yīng)的至少一個 第一網(wǎng)頁節(jié)點,第一網(wǎng)頁節(jié)點的標(biāo)識與第一網(wǎng)頁標(biāo)識相同;在跳轉(zhuǎn)關(guān)系信息庫中查找從第 一網(wǎng)頁節(jié)點經(jīng)過至少一跳而跳轉(zhuǎn)到的后續(xù)網(wǎng)頁節(jié)點,查找到的后續(xù)網(wǎng)頁節(jié)點構(gòu)成第一網(wǎng)頁 的推薦網(wǎng)頁候選集;根據(jù)預(yù)置策略在推薦網(wǎng)頁候選集中選取至少一個網(wǎng)頁為用戶進行推薦,具體包 括獲得推薦網(wǎng)頁候選集中的網(wǎng)頁和當(dāng)前訪問網(wǎng)頁之間的平均點擊距離;獲得推薦網(wǎng)頁候 選集中的網(wǎng)頁和當(dāng)前訪問網(wǎng)頁之間的訪問概率;根據(jù)網(wǎng)頁之間的平均點擊距離、網(wǎng)頁之間 的訪問概率以及候選推薦網(wǎng)頁集,為用戶進行網(wǎng)頁推薦。本發(fā)明實施例提供的方法,通過對訪問日志進行數(shù)據(jù)預(yù)處理,獲得網(wǎng)頁訪問記錄, 根據(jù)網(wǎng)頁訪問記錄獲得網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫,當(dāng)需要為用戶進行網(wǎng)頁推薦時,根據(jù) 網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫為用戶進行網(wǎng)頁推薦。用戶可以在推薦網(wǎng)頁集中查看摘要或點 擊瀏覽,較早地搜索到自己所需的網(wǎng)頁,減少了冗余時間,提高了效率,提高了用戶的使用 體驗,此方法的復(fù)雜度低,能支持在線實時計算,并在實驗測試數(shù)據(jù)上取得較好性能,滿足 實際應(yīng)用中的需要。為了對上述本發(fā)明實施例提供的方法進行詳細(xì)說明,請參見如下實施例實施例2為了使用戶能盡快地搜索到自己所需要的網(wǎng)頁,減少冗余時間,提高處理效率,本 發(fā)明實施例提供了一種網(wǎng)頁推薦方法,具體內(nèi)容如下參見圖2,圖2中給出了網(wǎng)頁推薦的示意圖,結(jié)合圖2,對各個部分的主要工作方式 進行詳細(xì)的描述
首先,對Web訪問日志進行數(shù)據(jù)預(yù)處理,獲得網(wǎng)頁訪問記錄,詳見下文描述數(shù)據(jù)預(yù)處理部分網(wǎng)頁推薦所依據(jù)的數(shù)據(jù)集合來自于互聯(lián)網(wǎng)用戶的Web訪問日 志,對于某個Web訪問日志而言,它至少包括JessionID、Dst URL、Src URL、還可以包括 Time,參見表1,表1為供網(wǎng)頁推薦的Web訪問日志包括的內(nèi)容,包括記錄內(nèi)容和記錄位數(shù)兩 項內(nèi)容,其中,記錄的位數(shù)表明了 kssionID、DstURL、Src URL、Time中的內(nèi)容通過編碼格 式的轉(zhuǎn)換,將統(tǒng)一的編碼格式轉(zhuǎn)換為字符串形式所占據(jù)的存儲空間大小。表1供網(wǎng)頁推薦的Web訪問日志包括的內(nèi)容
權(quán)利要求
1.一種網(wǎng)頁推薦方法,其特征在于,所述方法包括獲得網(wǎng)頁訪問記錄;根據(jù)網(wǎng)頁訪問記錄獲得網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫;當(dāng)需要為用戶進行網(wǎng)頁推薦時,根據(jù)所述網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫為用戶進行網(wǎng)頁 推薦。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)頁訪問記錄至少包括用戶會話標(biāo) 識,目標(biāo)網(wǎng)頁標(biāo)識以及所述目標(biāo)網(wǎng)頁的跳轉(zhuǎn)來源網(wǎng)頁標(biāo)識,根據(jù)網(wǎng)頁訪問記錄獲得網(wǎng)頁之 間的跳轉(zhuǎn)關(guān)系信息包括至少基于所述用戶會話標(biāo)識對所述網(wǎng)頁訪問記錄進行分類;對擁有相同用戶會話標(biāo)識的網(wǎng)頁訪問記錄,根據(jù)目標(biāo)網(wǎng)頁標(biāo)識以及所述目標(biāo)網(wǎng)頁的跳 轉(zhuǎn)來源網(wǎng)頁標(biāo)識建立代表網(wǎng)頁跳轉(zhuǎn)關(guān)系的跳轉(zhuǎn)連通分支,在所述跳轉(zhuǎn)連通分支中,各網(wǎng)頁 以網(wǎng)頁節(jié)點的形式存在;匯集各用戶標(biāo)識下對應(yīng)的所述跳轉(zhuǎn)連通分支,形成網(wǎng)頁跳轉(zhuǎn)關(guān)系信息庫。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述網(wǎng)頁訪問記錄還包括從所述跳轉(zhuǎn)來 源網(wǎng)頁跳轉(zhuǎn)至目標(biāo)網(wǎng)頁的跳轉(zhuǎn)時間;所述至少根據(jù)所述用戶會話標(biāo)識對所述網(wǎng)頁訪問記錄進行分類還包括對擁有相同會 話標(biāo)識的網(wǎng)頁訪問記錄按照所述跳轉(zhuǎn)時間遞增的順序進行排序;所述根據(jù)目標(biāo)網(wǎng)頁標(biāo)識以及所述目標(biāo)網(wǎng)頁的跳轉(zhuǎn)來源網(wǎng)頁標(biāo)識建立代表網(wǎng)頁跳轉(zhuǎn)關(guān) 系的跳轉(zhuǎn)連通分支還包括在建立所述跳轉(zhuǎn)連通分支的過程中,參考所述跳轉(zhuǎn)時間對特定 的網(wǎng)頁跳轉(zhuǎn)記錄進行篩選。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述匯集各用戶標(biāo)識下對應(yīng)的所述跳轉(zhuǎn) 連通分支,形成網(wǎng)頁跳轉(zhuǎn)關(guān)系信息庫包括同一用戶會話標(biāo)識下的跳轉(zhuǎn)連通分支構(gòu)成同一用戶會話中的網(wǎng)頁跳轉(zhuǎn)關(guān)系有向樹;匯集所述各有向樹構(gòu)建代表網(wǎng)頁跳轉(zhuǎn)關(guān)系的點擊樹模型,所述點擊樹模型成為網(wǎng)頁之 間的跳轉(zhuǎn)關(guān)系信息庫。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述匯集各有向樹構(gòu)建代表網(wǎng)頁跳轉(zhuǎn)關(guān) 系的點擊樹模型包括匯集所述各有向樹構(gòu)建網(wǎng)頁跳轉(zhuǎn)關(guān)系森林;為所述構(gòu)建的網(wǎng)頁跳轉(zhuǎn)關(guān)系森林添加虛擬根節(jié)點,形成點擊樹模型。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括根據(jù)快速檢索需要,對 所述網(wǎng)頁跳轉(zhuǎn)關(guān)系信息庫進行優(yōu)化。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)快速檢索需求,對所述網(wǎng)頁跳轉(zhuǎn) 關(guān)系信息庫進行優(yōu)化包括為所述點擊樹模型中的所有不同的節(jié)點建立索引指針,所述索引指針用于指向按照前 序遍歷方式遍歷時和用戶查詢的當(dāng)前網(wǎng)址相同的第一個節(jié)點;為所述點擊樹模型中的每一個節(jié)點添加一個鏈接指針,所述鏈接指針用于指向按照前 序遍歷方式遍歷時和當(dāng)前節(jié)點相同的后續(xù)最近的節(jié)點。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述跳轉(zhuǎn)關(guān)系信息庫中各網(wǎng)頁以網(wǎng)頁 節(jié)點的形式存在,所述根據(jù)所述網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫為用戶進行網(wǎng)頁推薦包括獲得用戶當(dāng)前訪問的網(wǎng)頁的第一網(wǎng)頁標(biāo)識;在所述跳轉(zhuǎn)關(guān)系信息庫中查找所述第一網(wǎng)頁標(biāo)識對應(yīng)的至少一個第一網(wǎng)頁節(jié)點,所述 第一網(wǎng)頁節(jié)點的標(biāo)識與所述第一網(wǎng)頁標(biāo)識相同;在所述跳轉(zhuǎn)關(guān)系信息庫中查找從所述第一網(wǎng)頁節(jié)點經(jīng)過至少一跳而跳轉(zhuǎn)到的后續(xù)網(wǎng) 頁節(jié)點,所述查找到的后續(xù)網(wǎng)頁節(jié)點構(gòu)成所述第一網(wǎng)頁的推薦網(wǎng)頁候選集;根據(jù)預(yù)置策略在所述推薦網(wǎng)頁候選集中選取至少一個網(wǎng)頁為所述用戶進行推薦。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,根據(jù)預(yù)置策略在所述推薦網(wǎng)頁候選集中 選取至少一個網(wǎng)頁為所述用戶進行推薦包括獲得所述推薦網(wǎng)頁候選集中的網(wǎng)頁和當(dāng)前訪問網(wǎng)頁之間的平均點擊距離; 獲得所述推薦網(wǎng)頁候選集中的網(wǎng)頁和當(dāng)前訪問網(wǎng)頁之間的訪問概率; 根據(jù)所述網(wǎng)頁之間的平均點擊距離、所述網(wǎng)頁之間的訪問概率以及所述候選推薦網(wǎng)頁 集,為用戶進行網(wǎng)頁推薦。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述根據(jù)所述網(wǎng)頁之間的平均點擊距 離、所述網(wǎng)頁之間的訪問概率以及所述候選推薦網(wǎng)頁集,為用戶進行網(wǎng)頁推薦包括對所述網(wǎng)頁之間的平均點擊距離以及訪問概率進行線性加權(quán)處理,獲得所述候選推薦 網(wǎng)頁集中的各網(wǎng)頁的得分值;將所述計算出的各網(wǎng)頁得分值,根據(jù)由高到低的順序進行排序; 根據(jù)所述得分值的排序結(jié)果,生成推薦網(wǎng)頁。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述對所述網(wǎng)頁之間的平均點擊距離 以及訪問概率進行線性加權(quán)處理,獲得所述候選推薦網(wǎng)頁集中的各網(wǎng)頁的得分值包括當(dāng)訪問概率一定時,所述平均點擊距離越遠(yuǎn),所述網(wǎng)頁得分值越高;相應(yīng)地,當(dāng)所述平均點擊距離一定時,所述訪問概率越高,所述網(wǎng)頁得分值越高。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述網(wǎng)頁之間的平均點擊距離是通過 平均點擊距離公式獲得,所述平均點擊距離公式包括n{a,b)平均點擊距離 /Ο,δ)= Σ成/ 0,的,其中,n(a,b)為同時出現(xiàn)了網(wǎng)頁a和網(wǎng)頁b的會/=1話個數(shù),d代表兩個網(wǎng)頁之間的點擊距離,a和b代表所述候選推薦網(wǎng)頁集中的任意2個網(wǎng) 頁;相應(yīng)地,所述兩個網(wǎng)頁之間的訪問概率是通過網(wǎng)頁之間的訪問概率的公式獲得,所述 網(wǎng)頁之間的訪問概率的公式包括 Np(a,b) = \og(-—)xn(a,b),其中,N是所有會話的總數(shù),n(b)為出現(xiàn)了網(wǎng)頁b的會話個Φ)數(shù),η (a, b)為同時出現(xiàn)了網(wǎng)頁a和網(wǎng)頁b的會話個數(shù);相應(yīng)地,所述線性加權(quán)公式具體為v(a,b) = λ Xd(a,b) + (l-X)Xp(a,b),其中,λ 為融合參數(shù),λ的取值范圍為λ ( l,d(a,b)代表平均點擊距離、ρ (a,b)代表訪問概 率、a和b代表所述候選推薦網(wǎng)頁集中的任意2個網(wǎng)頁。
13.根據(jù)權(quán)利要求1至12中任意一項所述的方法,其特征在于,所述獲得網(wǎng)頁訪問記錄 包括獲得Web訪問日志。
14.根據(jù)權(quán)利要求3至7中任一項所述的方法,其特征在于,所述目標(biāo)網(wǎng)頁標(biāo)識具體是目標(biāo)網(wǎng)頁的網(wǎng)址,所述目標(biāo)網(wǎng)頁的跳轉(zhuǎn)來源網(wǎng)頁標(biāo)識具體是所述跳轉(zhuǎn)來源網(wǎng)頁的網(wǎng)址。
15.一種網(wǎng)頁推薦裝置,其特征在于,所述裝置包括網(wǎng)頁訪問記錄模塊、網(wǎng)頁跳轉(zhuǎn)關(guān) 系模塊、網(wǎng)頁推薦模塊;所述網(wǎng)頁訪問記錄模塊,用于獲得網(wǎng)頁訪問記錄;所述網(wǎng)頁跳轉(zhuǎn)關(guān)系模塊,用于根據(jù)所述網(wǎng)頁訪問記錄模塊獲得的網(wǎng)頁訪問記錄獲得網(wǎng) 頁之間的跳轉(zhuǎn)關(guān)系信息庫;所述網(wǎng)頁推薦模塊,用于當(dāng)需要為用戶進行網(wǎng)頁推薦時,根據(jù)所述網(wǎng)頁跳轉(zhuǎn)關(guān)系模塊 獲得的網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫為用戶進行網(wǎng)頁推薦。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述網(wǎng)頁訪問記錄模塊獲得的網(wǎng)頁訪 問記錄至少包括用戶會話標(biāo)識,目標(biāo)網(wǎng)頁標(biāo)識以及所述目標(biāo)網(wǎng)頁的跳轉(zhuǎn)來源網(wǎng)頁標(biāo)識,所 述網(wǎng)頁跳轉(zhuǎn)關(guān)系模塊包括分類單元、建立單元、構(gòu)建單元;所述分類單元,用于基于所述用戶會話標(biāo)識對所述網(wǎng)頁訪問記錄模塊獲得的網(wǎng)頁訪問 記錄進行分類;所述建立單元,用于對擁有相同用戶會話標(biāo)識的網(wǎng)頁訪問記錄,根據(jù)目標(biāo)網(wǎng)頁標(biāo)識以 及所述目標(biāo)網(wǎng)頁的跳轉(zhuǎn)來源網(wǎng)頁標(biāo)識建立代表網(wǎng)頁跳轉(zhuǎn)關(guān)系的跳轉(zhuǎn)連通分支,在所述跳轉(zhuǎn) 連通分支中,各網(wǎng)頁以網(wǎng)頁節(jié)點的形式存在;所述構(gòu)建單元,用于匯集各用戶標(biāo)識下對應(yīng)的所述跳轉(zhuǎn)連通分支,形成網(wǎng)頁跳轉(zhuǎn)關(guān)系信息庫。
17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述網(wǎng)頁訪問記錄模塊獲得的網(wǎng)頁訪 問記錄還包括從所述跳轉(zhuǎn)來源網(wǎng)頁跳轉(zhuǎn)至目標(biāo)網(wǎng)頁的跳轉(zhuǎn)時間;所述分類單元還包括排序子單元;所述排序子單元,用于對擁有相同會話標(biāo)識的網(wǎng)頁訪問記錄按照所述跳轉(zhuǎn)時間遞增的 順序進行排序;所述建立單元還包括篩選子單元;所述篩選子單元,用于在建立所述跳轉(zhuǎn)連通分支的過程中,參考所述跳轉(zhuǎn)時間對特定 的網(wǎng)頁跳轉(zhuǎn)記錄進行篩選。
18.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述構(gòu)建單元包括構(gòu)成子單元、匯集 子單元;所述構(gòu)成子單元,用于同一用戶會話標(biāo)識下的跳轉(zhuǎn)連通分支構(gòu)成同一用戶會話中的網(wǎng) 頁跳轉(zhuǎn)關(guān)系有向樹;所述匯集子單元,用于匯集所述各有向樹構(gòu)建代表網(wǎng)頁跳轉(zhuǎn)關(guān)系的點擊樹模型。
19.根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述匯集子單元包括匯集子單元1、匯 集子單元2 ;所述匯集子單元1,用于匯集所述各有向樹構(gòu)建網(wǎng)頁跳轉(zhuǎn)關(guān)系森林;所述匯集子單元2,用于為所述匯集子單元1構(gòu)建的網(wǎng)頁跳轉(zhuǎn)關(guān)系森林添加虛擬根節(jié) 點,形成點擊樹模型。
20.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述裝置還包括優(yōu)化模塊;所述優(yōu)化模塊用于根據(jù)快速檢索需要,對所述網(wǎng)頁跳轉(zhuǎn)關(guān)系模塊獲得的網(wǎng)頁跳轉(zhuǎn)關(guān)系 信息庫進行優(yōu)化。
21.根據(jù)權(quán)利要求20所述的裝置,其特征在于,所述優(yōu)化模塊包括索引指針建立單 元、鏈接指針添加單元;所述索引指針建立單元,用于為所述點擊樹模型中的所有不同的節(jié)點建立索引指針, 所述索引指針用于指向按照前序遍歷方式遍歷時和用戶查詢的當(dāng)前網(wǎng)址相同的第一個節(jié)點所述鏈接指針添加單元,用于為所述點擊樹模型中的每一個節(jié)點添加一個鏈接指針, 所述鏈接指針用于指向按照前序遍歷方式遍歷時和當(dāng)前節(jié)點相同的后續(xù)最近的節(jié)點。
22.根據(jù)權(quán)利要求15至21中任一項所述的裝置,其特征在于,在所述跳轉(zhuǎn)關(guān)系信息庫 中各網(wǎng)頁以網(wǎng)頁節(jié)點的形式存在,所述推薦模塊包括網(wǎng)頁標(biāo)識獲得單元、網(wǎng)頁節(jié)點查找單 元、推薦網(wǎng)頁候選集查找單元、推薦網(wǎng)頁選取單元;所述網(wǎng)頁標(biāo)識獲得單元,用于獲得用戶當(dāng)前訪問的網(wǎng)頁的第一網(wǎng)頁標(biāo)識; 所述網(wǎng)頁節(jié)點查找單元,用于在所述跳轉(zhuǎn)關(guān)系信息庫中查找所述第一網(wǎng)頁標(biāo)識對應(yīng)的 至少一個第一網(wǎng)頁節(jié)點;所述推薦網(wǎng)頁候選集查找單元,用于在所述跳轉(zhuǎn)關(guān)系信息庫中查找從所述第一網(wǎng)頁節(jié) 點經(jīng)過至少一跳而跳轉(zhuǎn)到的后續(xù)網(wǎng)頁節(jié)點,所述查找到的后續(xù)網(wǎng)頁節(jié)點構(gòu)成所述第一網(wǎng)頁 的推薦網(wǎng)頁候選集;所述推薦網(wǎng)頁選取單元,用于根據(jù)預(yù)置策略在所述推薦網(wǎng)頁候選集中選取至少一個網(wǎng) 頁為所述用戶進行推薦。
23.根據(jù)權(quán)利要求22所述的裝置,其特征在于,所述推薦網(wǎng)頁選取單元包括平均點擊 距離計算子單元、訪問概率計算子單元、推薦子單元;所述平均點擊距離計算子單元,用于獲得所述推薦網(wǎng)頁候選集中的網(wǎng)頁和當(dāng)前訪問網(wǎng) 頁之間的平均點擊距離;所述訪問概率計算子單元,用于獲得所述推薦網(wǎng)頁候選集中的網(wǎng)頁和當(dāng)前訪問網(wǎng)頁之 間的訪問概率;所述推薦子單元,用于根據(jù)所述平均點擊距離計算子單元獲得的網(wǎng)頁和當(dāng)前訪問網(wǎng)頁 之間的平均點擊距離、所述訪問概率計算子單元獲得的網(wǎng)頁和當(dāng)前訪問網(wǎng)頁之間的訪問概 率以及所述候選推薦網(wǎng)頁集,為用戶進行網(wǎng)頁推薦。
24.根據(jù)權(quán)利要求23所述的裝置,其特征在于,所述推薦子單元包括線性加權(quán)處理子 單元、排序子單元、生成子單元;所述線性加權(quán)處理子單元,用于對所述網(wǎng)頁之間的平均點擊距離以及訪問概率進行線 性加權(quán)處理,獲得所述候選推薦網(wǎng)頁集中的各網(wǎng)頁的得分值;所述排序子單元,用于將所述計算出的各網(wǎng)頁得分值,根據(jù)由高到低的順序進行排序;所述生成子單元,用于根據(jù)所述得分值的排序結(jié)果,生成推薦網(wǎng)頁。
全文摘要
本發(fā)明公開了一種網(wǎng)頁推薦方法和裝置,屬于數(shù)據(jù)挖掘領(lǐng)域。所述方法包括獲得網(wǎng)頁訪問記錄;根據(jù)網(wǎng)頁訪問記錄獲得網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫;當(dāng)需要為用戶進行網(wǎng)頁推薦時,根據(jù)所述網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系信息庫為用戶進行網(wǎng)頁推薦。本發(fā)明提供的方案,使得用戶可以在推薦網(wǎng)頁集中查看摘要或點擊瀏覽,較早地搜索到自己所需的網(wǎng)頁,減少了冗余時間,提高了效率,提高了用戶的使用體驗,此方法的復(fù)雜度低,能支持在線實時計算,并在實驗測試數(shù)據(jù)上取得了較好的性能,滿足了實際應(yīng)用中的需要。
文檔編號G06F17/30GK102054004SQ200910236869
公開日2011年5月11日 申請日期2009年11月4日 優(yōu)先權(quán)日2009年11月4日
發(fā)明者佟子健, 劉奕群, 張敏, 方奇, 茹立云, 金奕江, 馬少平 申請人:北京搜狗科技發(fā)展有限公司, 清華大學(xué)