一種面向網(wǎng)絡用戶的個性化文本排序及推薦方法
【專利摘要】本發(fā)明提供一種面向網(wǎng)絡用戶的個性化文本排序及推薦方法,所述個性化文本排序方法包括對于用戶的每條包括具有關鍵詞和運算符的表達式的興趣規(guī)則,執(zhí)行以下步驟:1)、對于多個文本中的每個文本提取關鍵詞和該關鍵詞在該文本中的權(quán)重。2)、對于所述多個文本中的每個文本,計算該文本與該興趣規(guī)則對應的表達式樹的相似度;其中,表達式樹是根據(jù)興趣規(guī)則中包括的表達式建立的,表達式樹中的節(jié)點分為運算符節(jié)點和文本節(jié)點,文本節(jié)點包括關鍵詞和該關鍵詞在該興趣規(guī)則中的權(quán)重。3)、根據(jù)與所述表達式樹的相似度大小,對所述多個文本中的每個文本進行排序。本發(fā)明能夠在稀疏用戶行為的場景下有效地將符合個性化需求的文本信息推薦給用戶。
【專利說明】一種面向網(wǎng)絡用戶的個性化文本排序及推薦方法
【技術(shù)領域】
[0001]本發(fā)明涉及信息檢索和過濾推薦【技術(shù)領域】,以及更具體地,涉及一種面向網(wǎng)絡用 戶的個性化文本排序及推薦方法。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)時刻產(chǎn)生著海量的信息,新聞、論壇、博客等媒體不停地生成供用戶瀏覽的 網(wǎng)頁,這些網(wǎng)頁中承載了各種文本信息。一方面,網(wǎng)絡信息的豐富性與透明性為用戶提供 了前所未有的便利;另一方面,由于信息的數(shù)量過于龐大,因此給用戶查詢帶來了很大的困 難,其中大量的用戶不感興趣的信息或者垃圾信息將很多有意義的信息淹沒。目前,很多網(wǎng) 站通過將熱門信息推薦給用戶來提高服務質(zhì)量。然而,熱門信息的量仍然非常大,并且所有 用戶接收到的信息是完全相同的。在現(xiàn)實中,由于不同的人對信息種類的需求不同,用戶希 望能夠?qū)⒂邢薜木τ迷陂喿x自己關心的內(nèi)容上,因此,按照用戶的興趣為不同用戶提供 不同的個性化文本,將用戶真正關心和感興趣的內(nèi)容排在文本列表的前面推薦給用戶,能 夠極大地滿足用戶閱讀的效率和滿意度。
[0003] 當前,如何將個性化文本進行排序并推薦給用戶已受到廣泛的關注。其中一類是 基于內(nèi)容過濾的方法,該方法將文本與用戶收藏的文本計算相似度,如果相似度大于某一 設定閾值,就將該文本推薦給用戶,其中被推薦的文本按照相似度來排序呈現(xiàn)。然而,這類 方法的相似度計算比較費時,同時用戶收藏的文本的質(zhì)量、數(shù)量以及時效性也會制約相似 度計算的效果,因此采用這類方法對文本數(shù)量和質(zhì)量的要求較高。另一類是協(xié)同過濾方法, 該方法根據(jù)最近鄰用戶的行為來推斷用戶的興趣。由于這類方法需要有大量的用戶群體, 因此對用戶數(shù)量以及用戶之間關系的要求較高。此外需要處理的信息往往是最新的,而此 時很少有近鄰用戶能夠提供有效的信息?,F(xiàn)有方法中,可采用興趣規(guī)則來表示用戶的行為 興趣,根據(jù)規(guī)則構(gòu)建trie樹來匹配文本,并且基于匹配結(jié)果進行文本排序以用于推薦。這 種方法容易推廣應用,但在計算排序時沒有考慮到規(guī)則中操作符的影響,且基于文本字符 串與trie樹的匹配也容易造成誤配。
[0004] 綜上所述,在用戶數(shù)量較小的個性化文本排序應用場景下,采用協(xié)同過濾的方法 是不適用的,而基于內(nèi)容過濾的方法對用戶收藏的文本數(shù)量和質(zhì)量的要求較高。因此,針對 稀疏用戶行為,如何實現(xiàn)有效的個性化文本排序及推薦是當前亟待解決的問題。其中,稀疏 用戶行為指的是用戶數(shù)量?。从脩粝∈琛㈦y以尋找近鄰用戶)或者用戶行為稀疏(即沒 有大量的瀏覽、收藏等可以揭示用戶行為興趣的用戶行為)。
【發(fā)明內(nèi)容】
[0005] 針對上述問題,本發(fā)明提供一種面向網(wǎng)絡用戶的個性化文本排序方法。對于用戶 的每條包括具有關鍵詞和運算符的表達式的興趣規(guī)則,所述方法包括以下步驟:
[0006] 步驟1)、對于多個文本中的每個文本提取關鍵詞和該關鍵詞在該文本中的權(quán)重;
[0007] 步驟2)、對于所述多個文本中的每個文本,計算該文本與該興趣規(guī)則對應的表達 式樹的相似度;其中,表達式樹是根據(jù)該興趣規(guī)則中包括的表達式建立的,表達式樹中的節(jié) 點分為運算符節(jié)點和文本節(jié)點,文本節(jié)點包括關鍵詞和該關鍵詞在該興趣規(guī)則中的權(quán)重;
[0008] 步驟3)、根據(jù)與所述表達式樹的相似度大小,對所述多個文本中的每個文本進行 排序。
[0009] 上述方法中,步驟2)包括:
[0010] 對于所述多個文本中的每個文本,后序遍歷與該興趣規(guī)則對應的表達式樹,在遍 歷時根據(jù)如下方式計算每個節(jié)點的相似度分值:
[0011] 如果該節(jié)點N是文本節(jié)點,則其相似度分值計算如下:
[0012] f (N) = g(T(N))
[0013] 其中,T (N)表示節(jié)點N中的關鍵詞,g (T (N))表示關鍵詞τ (N)在該興趣規(guī)則中的 權(quán)重;
[0014] 如果該節(jié)點N是"&"運算符節(jié)點,則其相似度分值計算如下:
[0015]
【權(quán)利要求】
1. 一種面向網(wǎng)絡用戶的個性化文本排序方法,對于用戶的每條包括具有關鍵詞和運算 符的表達式的興趣規(guī)則,所述方法包括以下步驟: 步驟1)、對于多個文本中的每個文本提取關鍵詞和該關鍵詞在該文本中的權(quán)重; 步驟2)、對于所述多個文本中的每個文本,計算該文本與該興趣規(guī)則對應的表達式樹 的相似度;其中,表達式樹是根據(jù)該興趣規(guī)則中包括的表達式建立的,表達式樹中的節(jié)點分 為運算符節(jié)點和文本節(jié)點,文本節(jié)點包括關鍵詞和該關鍵詞在該興趣規(guī)則中的權(quán)重; 步驟3)、根據(jù)與所述表達式樹的相似度大小,對所述多個文本中的每個文本進行排序。
2. 根據(jù)權(quán)利要求1所述的方法,其中,步驟2)包括: 對于所述多個文本中的每個文本,后序遍歷與該興趣規(guī)則對應的表達式樹,在遍歷時 根據(jù)如下方式計算每個節(jié)點的相似度分值: 如果該節(jié)點N是文本節(jié)點,則其相似度分值計算如下: f(N) = g(T(N)) 其中,T (N)表示節(jié)點N中的關鍵詞,g (T (N))表示關鍵詞T (N)在該興趣規(guī)則中的權(quán)重; 如果該節(jié)點N是"&"運算符節(jié)點,則其相似度分值計算如下: X/P(7V;.)(l-w(r(iV(r + Σ /P(iV,.) I" /(Λ,)= 1-包-^-己出- \ 卜1 J 其中,心...,乂表示節(jié)點N的子節(jié)點并且前m個是文本節(jié)點,p為正整數(shù),T(Ni)表示 節(jié)點隊中的關鍵詞,《(以隊))表示關鍵詞T(Ni)在該文本中的權(quán)重,其中如果T(Ni)不是該 文本中的關鍵詞,則w(T(Ni) = 0 ; 如果該節(jié)點N是" | "運算符節(jié)點,則其相似度分值計算如下: (fn κ ? TJfP(N,)wp(T(Nl))+ £ fiN,) f{N)= ^τ^- Σ跑) V J 其中,&,. . .,NK表示節(jié)點N的子節(jié)點且前m個是文本節(jié)點,并且其中前m個是文本節(jié) 占. 如果該節(jié)點N是運算符節(jié)點,則其相似度分值計算如下: f(N) = 1-峨) 其中,K為節(jié)點N的子節(jié)點; 在得到根節(jié)點的相似度分值后,將該根節(jié)點的相似度分值作為該文本與所述表達式樹 的相似度。
3. 根據(jù)權(quán)利要求2所述的方法,其中,p = 2。
4. 根據(jù)權(quán)利要求1-3中任何一個所述的方法,其中,將關鍵詞在興趣規(guī)則中出現(xiàn)的次 數(shù)除以該興趣規(guī)則中所有關鍵詞出現(xiàn)次數(shù)的最大值,來得到該關鍵詞在該興趣規(guī)則中的權(quán) 重。
5. 根據(jù)權(quán)利要求1-3中任何一個所述的方法,其中,在步驟2)中還包括:在得到該文 本與所述表達式樹的相似度后修正該相似度。
6. 根據(jù)權(quán)利要求5所述的方法,其中,修正該文本與所述表達式樹的相似度包括: 步驟a)、得到該文本的標題與所述表達式樹中的每個關鍵詞的最長公共子串以及該最 長公共子串的長度; 步驟b)、根據(jù)如下方式修正相似度: 如果相似度小于k并且所有最長公共子串的長度都小于η個漢字,則令該相似度為0, 其中k為小于1的正數(shù)且η為正整數(shù); 如果相似度大于或等于k并且所有最長公共子串的長度都小于η個漢字,則將相似度 乘以小于1的正數(shù)1 ; 如果相似度小于k并且存在長度大于或等于η個漢字的最長公共子串,則在該文本的 關鍵詞中查找該最長公共子串;如果找到,則將具有該最長公共子串的該文本的關健詞替 換為對應的所述表達式樹中的關鍵詞;如果未找,則在該文本的關健詞中添加對應的所述 表達式樹中的關鍵詞,并且該關鍵詞在該文本中的權(quán)重為該文本的關鍵詞的權(quán)重的中值; 重新后序遍歷所述表達式樹,用根節(jié)點的相似度分值作為該文本與所述表達式樹的相似 度; 如果相似度大于或等于k并且存在長度大于或等于η個漢字的最長公共子串,則不修 改相似度。
7. 根據(jù)權(quán)利要求6所述的方法,其中,k = 0. 0001,η = 2, 1 = 0. 1。
8. 根據(jù)權(quán)利要求1-3中任何一個所述的方法,其中,在步驟2)之前還包括: 根據(jù)該興趣規(guī)則中包括的表達式建立對應的表達式樹的步驟。
9. 根據(jù)權(quán)利要求1-3中任何一個所述的方法,步驟1)中,在根據(jù)興趣規(guī)則建立對應的 表達式樹之前還要將該興趣規(guī)則中的空格替換為邏輯與運算符,以及將沒有運算符連接的 子句采用邏輯與運算符進行連接。
10. 根據(jù)權(quán)利要求1-3中任何一個所述的方法,在步驟1)中,對于每個文本所提取的關 鍵詞個數(shù)為10-30中的一個整數(shù)。
11. 一種面向網(wǎng)絡用戶的個性化文本推薦方法,包括: 步驟Α)、根據(jù)用戶的興趣規(guī)則請求,獲得采用如權(quán)利要求1-10中任何一個所述的排序 方法得到的與該興趣規(guī)則對應的排序的文本; 步驟Β)、將該排序的文本推薦給用戶。
【文檔編號】G06F17/30GK104298732SQ201410514028
【公開日】2015年1月21日 申請日期:2014年9月29日 優(yōu)先權(quán)日:2014年9月29日
【發(fā)明者】程學旗, 杜慧, 張瑾, 黃康平, 余智華, 劉悅, 劉瑋 申請人:中國科學院計算技術(shù)研究所