專利名稱:一種改進(jìn)的基于用戶興趣模型的個(gè)性化摘要系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)屬于信息檢索、數(shù)據(jù)挖掘、人工智能領(lǐng)域。
背景技術(shù):
自動(dòng)摘要技術(shù)是計(jì)算機(jī)語言學(xué)和情報(bào)科學(xué)共同關(guān)注的課題,其本質(zhì)是信息的挖掘和信息的濃縮。按照目標(biāo)或功能的不同,摘要可以劃分為指示性摘要、信息性摘要、概括性摘要和評(píng)論性摘要等,但這些摘要的生成過程通常不考慮具體用戶的知識(shí)水平、興趣領(lǐng)域和信息需求,而是直接為不同背景的用戶提供相同的摘要內(nèi)容。個(gè)性化摘要是指通過分析用戶的興趣和需求信息,為不同的用戶生成與其個(gè)人信息緊密相關(guān)的摘要內(nèi)容的過程。傳統(tǒng)方式的摘要忽略了不同用戶之間的興趣差異,若摘要的生成過程能夠根據(jù)用戶的興趣進(jìn)行匹配,則可以提高摘要的有效性以及用戶的滿意度。
發(fā)明內(nèi)容
本申請(qǐng)?jiān)谘芯楷F(xiàn)有用戶興趣建模和文檔摘要技術(shù)的基礎(chǔ)上,設(shè)計(jì)了一種基于用戶興趣模型的個(gè)性化摘要系統(tǒng)PerSum,具體內(nèi)容如下。①通過分析用戶檢索日志,利用概念聚類的方法隱式的建立和更新以層次概念結(jié)構(gòu)描述的用戶興趣模型;②討論了個(gè)性化摘要與查詢偏重摘要的相同點(diǎn)和不同點(diǎn),針對(duì)查詢偏重摘要在表達(dá)文檔內(nèi)容時(shí)的不足,設(shè)計(jì)了一個(gè)個(gè)性化摘要提取模型。本申請(qǐng)?jiān)O(shè)計(jì)了一種改進(jìn)的基于用戶興趣模型的個(gè)性化摘要系統(tǒng)PerSum。系統(tǒng)在一個(gè)Web信息檢索子系統(tǒng)的基礎(chǔ)上,加入了用戶興趣子系統(tǒng)和個(gè)性化摘要子系統(tǒng)。PerSum系統(tǒng)的體系結(jié)構(gòu)如圖1所示。①Web信息檢索子系統(tǒng)一方面對(duì)指定的Web頁面進(jìn)行索引和存儲(chǔ),另一方面接收用戶的查詢請(qǐng)求,檢索出查詢結(jié)果,主要包括搜索、索引、存儲(chǔ)、檢索和檢索日志部分。②用戶興趣子系統(tǒng)根據(jù)用戶的檢索日志,構(gòu)建或更新用戶的興趣模型,主要包括興趣更新、興趣存儲(chǔ)和興趣訪問接口三個(gè)部分。③個(gè)性化摘要子系統(tǒng)根據(jù)用戶的興趣模型和檢索結(jié)果,生成用戶的個(gè)性化摘要,主要包括句子評(píng)分和摘要自動(dòng)提取兩個(gè)部分。
圖1是PerSum系統(tǒng)體系結(jié)構(gòu)圖,圖2是文檔索引圖示例,圖3是點(diǎn)的內(nèi)部結(jié)構(gòu)。
具體實(shí)施例方式用戶興趣模型通??杀硎緸橐粋€(gè)概念集合,記作C= {Cl,C2, ...cn},其中每個(gè)概念可用一組關(guān)鍵詞及其權(quán)重的二元組描述,即Ci= Ia15W1), a2,w2),... am,Wm)},如概念 “政治”可以表示為K政治,0.9),(訪問,0.8),(政府,0.6)}。
僅僅使用關(guān)鍵詞往往難以準(zhǔn)確表達(dá)出用戶的興趣信息,因?yàn)樵趯?duì)Web頁面建立索引的過程中原有豐富的語義信息已經(jīng)消失殆盡。為了盡可能多的保留原有的語義信息,在用戶興趣的表示方法中加入短語的因素是一種理想的方法。短語是由多個(gè)關(guān)鍵詞按順序組成的一個(gè)序列,通常能夠比單個(gè)的關(guān)鍵詞包含更多的語義信息。在本發(fā)明中,選擇文檔索引圖的方法表示用戶興趣,這種方法不但考慮了單個(gè)關(guān)鍵詞的因素,而且考慮了短語的因素。 文檔索引圖是一種有向圖,如圖2所示。一個(gè)文檔索引圖可形式化表示為G = (V,E),其中G表示文檔索引圖,V是η個(gè)節(jié)點(diǎn)組成的集合Iv1,力...\},每個(gè)節(jié)點(diǎn)\(1<1<11)表示文檔中的一個(gè)關(guān)鍵詞;E表示圖中邊組成的集合{ei,e2...em},ej(l ^ j ^ m)表示一條邊,m表示邊的數(shù)目。用文檔索引圖表示用戶興趣時(shí),將用戶訪問過的Web文檔建立文檔索引圖。如圖 2列出了兩個(gè)文檔建立的文檔索引圖。建立時(shí),每個(gè)文檔被分割成多個(gè)句子,每個(gè)句子依次添加到文檔索引圖中,句子中每個(gè)關(guān)鍵詞對(duì)應(yīng)圖中一個(gè)節(jié)點(diǎn),若該關(guān)鍵詞已存在于圖中,則直接修改對(duì)應(yīng)節(jié)點(diǎn)的信息,否則新建一個(gè)節(jié)點(diǎn)保存該關(guān)鍵詞的信息。每個(gè)節(jié)點(diǎn)的內(nèi)部存儲(chǔ)結(jié)構(gòu)如圖3所示。節(jié)點(diǎn)的內(nèi)部結(jié)構(gòu)包括兩個(gè)部分,即文檔表和邊表。文檔表中每一行記錄了文檔編號(hào)、關(guān)鍵詞頻率TF以及邊信息ET,其中邊信息ET對(duì)應(yīng)了一個(gè)邊表,邊表中每一行記錄了邊編號(hào)(如El和E2)和該節(jié)點(diǎn)在句子中的位置信息(如Sl(I)表示句子1中的第一個(gè)關(guān)鍵詞,S3(l)表示句子3中的第一個(gè)關(guān)鍵詞),邊表反映了句子的結(jié)構(gòu)信息。在用戶和Web信息檢索系統(tǒng)的一個(gè)典型交互中,用戶根據(jù)自己的檢索意圖提交查詢,然后得到大量的檢索結(jié)果。用戶不可能閱讀每個(gè)結(jié)果的所有內(nèi)容,因此檢索結(jié)果往往采用偏重摘要(query-biased summary)的形式。偏重摘要不同于通用摘要,后者是對(duì)文檔主體內(nèi)容的概括濃縮,而前者是根據(jù)用戶的查詢需求而生成的存在側(cè)重點(diǎn)的摘要。由于偏重摘要通常僅根據(jù)查詢條件生成,而查詢條件往往不能準(zhǔn)確表達(dá)用戶的查詢意圖,另一方面, 偏重摘要內(nèi)容不考慮用戶的興趣差異,只要查詢內(nèi)容相同,摘要內(nèi)容就相同,因此在Web信息檢索系統(tǒng)中用偏重摘要表達(dá)文檔內(nèi)容的方式亟待改善。個(gè)性化摘要在偏重摘要的基礎(chǔ)上,結(jié)合了用戶的興趣特點(diǎn),能夠滿足用戶的個(gè)性化需求。借鑒查詢偏重摘要的生成方法,個(gè)性化摘要通過一個(gè)句子抽取模型創(chuàng)建。Web頁面文本內(nèi)容由一系列的句子組成,通過評(píng)定每個(gè)句子的重要性,選出分值最高的部分句子組成該頁面內(nèi)容的摘要。句子重要性的評(píng)定,在生成查詢偏重摘要時(shí)通常需要考慮以下幾個(gè)主要的因素標(biāo)題、位置、詞頻和查詢偏重。Vechtomova提出的查詢偏重摘要方法結(jié)合了詞頻和查詢偏重兩個(gè)因素,取得了良好的效果。本申請(qǐng)?jiān)赩echtomova生成偏重摘要方法的基礎(chǔ)上,加入了用戶興趣因素,即依次考慮以下因素(1)句子中出現(xiàn)的查詢關(guān)鍵詞的IDF值。用戶通常很容易從包含有查詢關(guān)鍵詞的句子中判斷出檢索結(jié)果的相關(guān)性,因此,根據(jù)句子中查詢關(guān)鍵詞的分布,計(jì)算每個(gè)句子的分值
權(quán)利要求
1.一種改進(jìn)的基于用戶興趣模型的個(gè)性化摘要系統(tǒng),該個(gè)性化摘要系統(tǒng)由Web信息檢索子系統(tǒng)、用戶興趣子系統(tǒng)和個(gè)性化摘要子系統(tǒng)組成;其特征在于所述Web信息檢索子系統(tǒng)根據(jù)查詢請(qǐng)求負(fù)責(zé)完成對(duì)Web頁面的索引和檢索任務(wù),并將檢索結(jié)果輸出給個(gè)性化摘要子系統(tǒng)、將檢索日志輸出給用戶興趣子系統(tǒng);所述用戶興趣子系統(tǒng)根據(jù)Web信息檢索子系統(tǒng)提供的檢索日志,利用文檔索引圖結(jié)構(gòu)描述用戶興趣模型;所述個(gè)性化摘要子系統(tǒng)包括以下步驟(A)根據(jù)用戶興趣子系統(tǒng)提供的用戶興趣模型與Web信息檢索子系統(tǒng)輸出的檢索結(jié)果進(jìn)行用戶興趣c與檢索結(jié)果中句子相似度s的計(jì)算,獲得相似度sim(c,s),sim(c, s) = θ · simTerm(c, s) + (l- θ ) · simPhrase(c, s)輸出給個(gè)性化句子評(píng)分處理; sim(c, s) = θ · simTerm(c, s) + (l- θ ) · simPhrase(c, s)中,c 表示用戶興趣模型,s 表示一個(gè)句子,simTerm(c, s)表示c和s之間基于單個(gè)關(guān)鍵詞的相似度,simPhr_(c,s)表示c和s之間基于短語的相似度,θ為一個(gè)調(diào)節(jié)因子,調(diào)節(jié)兩種相似度計(jì)算方法的比重;(B)利用檢索結(jié)果計(jì)算出句子中的查詢關(guān)鍵詞的逆文本頻率IDF,然后依據(jù)逆文本頻率IDF計(jì)算每一個(gè)句子s的分值Sidf(S),并將分值Sidf(S)輸出給個(gè)性化句子評(píng)分處理;(C)利用檢索結(jié)果計(jì)算出每一個(gè)句子s中的信息量Sic;(s),并將信息量Sic;(s)輸出給個(gè)性化句子評(píng)分處理;aSlrif(s) + β S1As) + ysim(c,s)(D)個(gè)性化句子評(píng)分處理依據(jù)最終評(píng)分
2.根據(jù)權(quán)利要求1所述的改進(jìn)的基于用戶興趣模型的個(gè)性化摘要系統(tǒng),其特征在于 用戶興趣c用文檔索引圖結(jié)構(gòu)進(jìn)行表示;
3.根據(jù)權(quán)利要求1所述的改進(jìn)的基于用戶興趣模型的個(gè)性化摘要系統(tǒng),其特征在于在個(gè)性化摘要子系統(tǒng)中,用戶興趣與檢索結(jié)果中句子基于單個(gè)關(guān)鍵詞的相似度simTCTm (c,s)的計(jì)算采用向量空間模型中的cosine公式計(jì)算得到
4.根據(jù)權(quán)利要求1所述的改進(jìn)的基于用戶興趣模型的個(gè)性化摘要系統(tǒng),其特征在于 在個(gè)性化摘要子系統(tǒng)中,用戶興趣與檢索結(jié)果中句子基于短語的相似度simPh_(C,S)的計(jì)算方法為SimphrasXc,s)=丄^1柳ifX其中,Simphrase (c, s)表示用戶興趣,C和句子S的基于短語的相似度,P為用戶興趣C和句子S相匹配短語的個(gè)數(shù),Ii為第i個(gè)匹配短語的長(zhǎng)度,fi,。和fi,s分別為第i個(gè)匹配短語在用戶興趣C和句子S中出現(xiàn)的次數(shù), g(li)是一個(gè)對(duì)匹配短語長(zhǎng)度進(jìn)行評(píng)分的函數(shù),g (Ii) = (li/lsj), Isi為原始短語的長(zhǎng)度, Sj, J和分別表示用戶興趣C和句子S中原始句子的長(zhǎng)度。
5.根據(jù)權(quán)利要求1所述的改進(jìn)的基于用戶興趣模型的個(gè)性化摘要系統(tǒng),其特征在于在個(gè)性化摘要子系統(tǒng)中,所述分值s^ = '中IDFt表示出現(xiàn)在句子s中的查詢關(guān)鍵tetq詞t的倒排詞頻,tq表示查詢q中的關(guān)鍵詞組成的集合,Sidf(S)反映了句子包含查詢關(guān)鍵詞的多少。
6.根據(jù)權(quán)利要求1所述的改進(jìn)的基于用戶興趣模型的個(gè)性化摘要系統(tǒng),其特征在于^Weight在個(gè)性化摘要子系統(tǒng)中,所述信息量眺=燭^__!中Weightt表示TF*IDF算法計(jì)算得到的關(guān)鍵詞t的權(quán)重,ts表示句子s中的關(guān)鍵詞組成的集合,f表示一個(gè)句子長(zhǎng)度調(diào)節(jié)系數(shù);Sic;(s)反映了句子所包含信息的多少,在生成摘要的過程中作為Sidf(S)的輔助因素。
7.根據(jù)權(quán)利要求1所述的改進(jìn)的基于用戶興趣模型的個(gè)性化摘要系統(tǒng),其特征在于 排序結(jié)果中前K項(xiàng)中K的取值為排序結(jié)果中的前2 5句句子。
全文摘要
本發(fā)明公開了一種改進(jìn)的基于用戶興趣模型的個(gè)性化摘要系統(tǒng),該系統(tǒng)由Web信息檢索子系統(tǒng)、用戶興趣子系統(tǒng)和個(gè)性化摘要子系統(tǒng)3部分組成。該個(gè)性化摘要系統(tǒng)通過分析用戶檢索日志,利用文檔索引圖方法建立和/或更新用戶興趣模型;然后依據(jù)該用戶興趣模型與檢索結(jié)果進(jìn)行用戶興趣與檢索結(jié)果中句子相似度的度量,從而得到滿足用戶需要的個(gè)性化摘要。采用的個(gè)性化句子評(píng)分處理得到的個(gè)性化摘要充分考慮了用戶的興趣特點(diǎn),使摘要的生成過程根據(jù)用戶的興趣進(jìn)行匹配,可以提高摘要的有效性以及用戶的滿意度。
文檔編號(hào)G06F17/30GK102156728SQ20111008309
公開日2011年8月17日 申請(qǐng)日期2011年3月31日 優(yōu)先權(quán)日2011年3月31日
發(fā)明者劉永利 申請(qǐng)人:河南理工大學(xué)