專利名稱:一種基于用戶閱讀興趣的相關(guān)事件生成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)搜索引擎和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種基于用戶閱讀興趣的相關(guān)事件生成方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,網(wǎng)絡(luò)中充斥了大量的新聞信息。人們對(duì)于新聞事件閱讀的需求體現(xiàn)在快速、準(zhǔn)確等方面。此外,用戶閱讀體驗(yàn)的質(zhì)量,也與閱讀連貫性有著緊密的關(guān)系。閱讀連貫性可以理解為用戶瀏覽了當(dāng)前事件之后,接著瀏覽與之相關(guān)的事件,進(jìn)而逐步延長(zhǎng)用戶的停留時(shí)間。例如,當(dāng)前事件為“北京雨雪將持續(xù)40小時(shí)降溫幅度將達(dá)到8 10度”,該事件的關(guān)鍵詞為“雨雪”、“降溫”、“出行”等,通過(guò)用戶歷史點(diǎn)擊數(shù)據(jù)可以賦予關(guān)鍵詞權(quán)重,然后檢索出本事件的相關(guān)事件?,F(xiàn)有的研究或?qū)@晒饕塾趩螚l輿情網(wǎng)頁(yè)的相關(guān)推薦,而事件是一系列相似輿情文檔的集合,因此事件級(jí)別更加抽象化。如何針對(duì)特定領(lǐng)域、準(zhǔn)確檢索和定位相關(guān)事件,進(jìn)而找出用戶所需的內(nèi)容,具有現(xiàn)實(shí)的研究?jī)r(jià)值。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種基于用戶閱讀興趣的相關(guān)事件生成方法,針對(duì)特定領(lǐng)域、準(zhǔn)確檢索和定位相關(guān)事件,進(jìn)而找出用戶所需的內(nèi)容。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:一種基于用戶閱讀興趣的相關(guān)事件生成方法,該方法包括:A、對(duì)輿情文檔進(jìn)行數(shù)據(jù)預(yù)處理,得到事件的核心子集,并從核心子集中提取事件的核心文檔以及事件的關(guān)鍵詞列表的步驟;B、通過(guò)所述核心文檔的正文對(duì)事件進(jìn)行倒排索引,倒排word的初始權(quán)重值為TF-1DF值或Hit Number ;后臺(tái)記錄用戶點(diǎn)擊事件E的時(shí)間軸TA和頻率CF,并計(jì)算得到事件對(duì)應(yīng)關(guān)鍵詞的權(quán)重因子a (E);C、對(duì)于歷史事件集進(jìn)行人工標(biāo)注,標(biāo)注的內(nèi)容主要包括事件的點(diǎn)擊頻率CF、時(shí)間軸信息TA、該事件作為相關(guān)事件的影響因子,通過(guò)映射將上述三部分信息即a (E),CF和TA,轉(zhuǎn)化為事件E對(duì)應(yīng)的實(shí)數(shù)值;D、通過(guò)機(jī)器學(xué)習(xí)的方法,對(duì)步驟C中得到的訓(xùn)練數(shù)據(jù)進(jìn)行回歸運(yùn)算,獲得函數(shù)表達(dá)式的原型ct (E)=m*TA+n*CF,并通過(guò)線性回歸運(yùn)算確定參數(shù)m和η的值;Ε、通過(guò)上述函數(shù)表達(dá)式調(diào)整事件關(guān)鍵詞在索引中的權(quán)重,然后對(duì)新事件的相關(guān)事件進(jìn)行檢索和展示。其中,步驟B所述事件對(duì)應(yīng)關(guān)鍵詞的權(quán)重因子a (E):a (E) =F (TA, CF);其中:a (E) >=1。步驟D所述機(jī)器學(xué)習(xí)的方法,具體為支持向量機(jī)SVM法。步驟E所述對(duì)新事件的相關(guān)事件進(jìn)行檢索和展示,具體為:當(dāng)某一事件E被用戶點(diǎn)擊需要展示時(shí),通過(guò)調(diào)整權(quán)重之后的事件關(guān)鍵詞檢索其相關(guān)事件,并且不斷重復(fù)步驟B的如下過(guò)程對(duì)獲得的事件核心文檔的正文進(jìn)行倒排索引,倒排word的權(quán)重初始值為TF-1DF值或 Hit Number。本發(fā)明所提供的基于用戶閱讀興趣的相關(guān)事件生成方法,具有以下優(yōu)點(diǎn)通過(guò)分析用戶對(duì)歷史事件的點(diǎn)擊記錄,刻畫出用戶級(jí)別的關(guān)鍵詞權(quán)重,從而給出當(dāng)前事件更為合理的相關(guān)事件。應(yīng)用本發(fā)明,能夠針對(duì)特定的領(lǐng)域、準(zhǔn)確檢索和定位相關(guān)事件,進(jìn)而找出用戶所需的內(nèi)容。譬如,對(duì)于特定領(lǐng)域如輿情系統(tǒng),能夠?qū)τ脩羲栊畔⒌亩ㄎ桓訙?zhǔn)確和清楚。應(yīng)用在輿情、新聞檢索等系統(tǒng)中,方便進(jìn)行定位和更新用戶的閱讀興趣,推出具有較好用戶體驗(yàn)到相關(guān)事件,提高用戶閱讀的連貫性。
圖1為本發(fā)明基于用戶閱讀興趣的相關(guān)事件生成方法流程圖。
具體實(shí)施例方式下面結(jié)合附圖及本發(fā)明的實(shí)施例對(duì)本發(fā)明的方法作進(jìn)一步詳細(xì)的說(shuō)明。本發(fā)明基于用戶閱讀興趣的相關(guān)事件生成方法,主要應(yīng)用了以下幾種技術(shù)事件生成和合并技術(shù)、倒排索引技術(shù)以及事件關(guān)鍵詞提取技術(shù)。其中事件生成和合并是相關(guān)事件推薦的數(shù)據(jù)基礎(chǔ),倒排索引和事件關(guān)鍵詞提取是相關(guān)事件推薦的核心部分。圖1為本發(fā)明基于用戶閱讀興趣的相關(guān)事件生成方法流程圖。如圖1所示,本發(fā)明方法包括如下步驟步驟11 :對(duì)輿情文檔進(jìn)行數(shù)據(jù)預(yù)處理的步驟。具體為對(duì)輿情文檔進(jìn)行在線抓取和信息抽取,抽取的內(nèi)容包括文本特征(文本頻率-反向文檔頻率值[TF-1DF,TermFrequency-1nverse Document Frequency]、文本結(jié)構(gòu)刻畫等)、關(guān)鍵詞信息、敏感詞信息、正文長(zhǎng)度等。通過(guò)UPGMA等算法對(duì)這一過(guò)程中產(chǎn)生的文檔進(jìn)行聚類處理,得到具有一定泛化性的事件集合。對(duì)于聚類產(chǎn)生的事件進(jìn)行數(shù)據(jù)處理,主要包括最大核心子集生成、核心文檔抽取、事件關(guān)鍵詞生成等。這里,對(duì)當(dāng)前事件數(shù)據(jù)進(jìn)行信息抽取,首先是獲得事件的核心子集(例如事件A的文檔集合A. set,文檔數(shù)為N,核心子集A.set’GA.set,可理解為剔除噪音后包含核心文檔的子集),在此核心子集中提取出事件的核心文檔以及事件的關(guān)鍵詞列表,這一過(guò)程涉及到事件的地域信息以及用戶定制等策略。步驟12 :通過(guò)核心文檔的正文對(duì)事件進(jìn)行倒排索引,倒排word的初始權(quán)重,用TF-1DF值刻畫。但后臺(tái)記錄用戶點(diǎn)擊事件E的時(shí)間軸(Time Axis, TA)和頻率(ClickFrequence,CF)信息,通過(guò)下式計(jì)算得到事件對(duì)應(yīng)關(guān)鍵詞的權(quán)重因子a (E)a (E) =F (TA, CF)其中a (E) >=1 (1.1)對(duì)經(jīng)過(guò)步驟12獲得的事件核心文檔的正文進(jìn)行倒排索引時(shí),word的權(quán)重初始值為TF-1DF值,還可以是Hit Number。步驟13 :對(duì)于歷史事件集進(jìn)行人工標(biāo)注的步驟。標(biāo)注的內(nèi)容主要包括事件的點(diǎn)擊頻率(CF,即總次數(shù)、平均每周點(diǎn)擊數(shù)、平均每日點(diǎn)擊數(shù)等)、時(shí)間軸信息(TA,即每周的點(diǎn)擊時(shí)間段、每日的點(diǎn)擊時(shí)間段等)、該事件作為相關(guān)事件的影響因子(該值越高,意味著作為相關(guān)事件的收益越大,該值直接作用于事件的關(guān)鍵詞權(quán)重)。通過(guò)映射將這三部分信息轉(zhuǎn)化為事件E對(duì)應(yīng)的實(shí)數(shù)值:a (E),CF,TA。步驟14:通過(guò)支持向量機(jī)(SVM, Support Vector Machines)等機(jī)器學(xué)習(xí)的方法,對(duì)步驟13中得到的訓(xùn)練數(shù)據(jù)進(jìn)行回歸運(yùn)算,獲得函數(shù)表達(dá)式(式1.1)。這一過(guò)程可以考慮使用全監(jiān)督的回歸方法,即首先確定函數(shù)表達(dá)式的原型:a (E) =m*TA+n*CF (式1.2)只需通過(guò)線性回歸運(yùn)算獲得參數(shù)m和η的值。步驟15:使用上述函數(shù)表達(dá)式的原型(式1.2)調(diào)整事件關(guān)鍵詞在索引中的權(quán)重。步驟16:對(duì)新事件的相關(guān)事件進(jìn)行檢索和展示。根據(jù)所述檢索結(jié)果,對(duì)相關(guān)事件進(jìn)行推薦。具體為:當(dāng)某一事件E被用戶點(diǎn)擊需要展示時(shí),通過(guò)調(diào)整權(quán)重之后的事件關(guān)鍵詞去檢索其相關(guān)事件,并且不斷重復(fù)步驟12中的如下過(guò)程:對(duì)獲得的事件核心文檔的正文進(jìn)行倒排索引,倒排word的權(quán)重初始值為TF-1DF值(或者 Hit Number)ο本發(fā)明的基于用戶閱讀興趣的相關(guān)事件生成方法具有如下特點(diǎn):I)本發(fā)明的研究主體不是單篇的輿情文檔,而是聚類產(chǎn)生的文檔集合,即事件。其中涉及到了事件級(jí)別的一系列操作:核心文檔提取、事件關(guān)鍵詞抽取等。2)通過(guò)用戶對(duì)于事件的點(diǎn)擊記錄,刻畫出用戶的閱讀興趣。通過(guò)機(jī)器學(xué)習(xí)等方法得到(式1.0的函數(shù)表達(dá)式,從而可以調(diào)整事件的關(guān)鍵詞權(quán)重,以產(chǎn)生更為準(zhǔn)確的相關(guān)事件,提升用戶體驗(yàn)。3)加入時(shí)間軸(TA)這一特征,更好地刻畫用戶的閱讀行為。假設(shè)現(xiàn)在已有當(dāng)前事件和歷史事件的數(shù)據(jù)集,主要包括以下幾個(gè)步驟:即對(duì)輿情文檔進(jìn)行數(shù)據(jù)預(yù)處理的步驟、對(duì)用戶閱讀興趣進(jìn)行刻畫的步驟和對(duì)相關(guān)事件進(jìn)行推薦的步驟。以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種基于用戶閱讀興趣的相關(guān)事件生成方法,其特征在于,該方法包括: A、對(duì)輿情文檔進(jìn)行數(shù)據(jù)預(yù)處理,得到事件的核心子集,并從核心子集中提取事件的核心文檔以及事件的關(guān)鍵詞列表的步驟; B、通過(guò)所述核心文檔的正文對(duì)事件進(jìn)行倒排索引,倒排word的初始權(quán)重值為TF-1DF值或Hit Number ;后臺(tái)記錄用戶點(diǎn)擊事件E的時(shí)間軸TA和頻率CF,并計(jì)算得到事件對(duì)應(yīng)關(guān)鍵詞的權(quán)重因子a (E); C、對(duì)于歷史事件集進(jìn)行人工標(biāo)注,標(biāo)注的內(nèi)容主要包括事件的點(diǎn)擊頻率CF、時(shí)間軸信息TA、該事件作為相關(guān)事件的影響因子,通過(guò)映射將上述三部分信息即α (Ε),CF和TA,轉(zhuǎn)化為事件E對(duì)應(yīng)的實(shí)數(shù)值; D、通過(guò)機(jī)器學(xué)習(xí)的方法,對(duì)步驟C中得到的訓(xùn)練數(shù)據(jù)進(jìn)行回歸運(yùn)算,獲得函數(shù)表達(dá)式的原型ct (E)=m*TA+n*CF,并通過(guò)線性回歸運(yùn)算確定參數(shù)m和η的值; Ε、通過(guò)上述函數(shù)表達(dá)式調(diào)整事件關(guān)鍵詞在索引中的權(quán)重,然后對(duì)新事件的相關(guān)事件進(jìn)行檢索和展示。
2.根據(jù)權(quán)利要求1所述基于用戶閱讀興趣的相關(guān)事件生成方法,其特征在于,步驟B所述事件對(duì)應(yīng)關(guān)鍵詞的權(quán)重因子a (E):a (E) =F (TA, CF);其中:a (E) >=1。
3.根據(jù)權(quán)利要求1所述基于用戶閱讀興趣的相關(guān)事件生成方法,其特征在于,步驟D所述機(jī)器學(xué)習(xí)的方法,具體為支持向量機(jī)SVM法。
4.根據(jù)權(quán)利要求1所述基于用戶閱讀興趣的相關(guān)事件生成方法,其特征在于,步驟E所述對(duì)新事件的相關(guān)事件 進(jìn)行檢索和展示,具體為:當(dāng)某一事件E被用戶點(diǎn)擊需要展示時(shí),通過(guò)調(diào)整權(quán)重之后的事件關(guān)鍵詞檢索其相關(guān)事件,并且不斷重復(fù)步驟B的如下過(guò)程:對(duì)獲得的事件核心文檔的正文進(jìn)行倒排索引,倒排word的權(quán)重初始值為TF-1DF值或Hit Number。
全文摘要
本發(fā)明公開(kāi)了一種基于用戶閱讀興趣的相關(guān)事件生成方法,包括A、對(duì)輿情文檔進(jìn)行數(shù)據(jù)預(yù)處理的步驟;B、通過(guò)所述核心文檔的正文對(duì)事件進(jìn)行倒排索引,倒排word的初始權(quán)重值為TF-IDF值;C、對(duì)于歷史事件集進(jìn)行人工標(biāo)注,標(biāo)注的內(nèi)容主要包括事件的點(diǎn)擊頻率CF、時(shí)間軸信息TA、該事件作為相關(guān)事件的影響因子,通過(guò)映射將上述三部分信息即,CF和TA,轉(zhuǎn)化為事件E對(duì)應(yīng)的實(shí)數(shù)值;D、通過(guò)機(jī)器學(xué)習(xí)的方法,獲得函數(shù)表達(dá)式的原型,并通過(guò)線性回歸運(yùn)算確定參數(shù)m和n的值;E、調(diào)整事件關(guān)鍵詞在索引中的權(quán)重,然后對(duì)新事件的相關(guān)事件進(jìn)行檢索和展示。采用本發(fā)明,能夠針對(duì)特定領(lǐng)域、準(zhǔn)確檢索和定位相關(guān)事件,進(jìn)而找出用戶所需的內(nèi)容。
文檔編號(hào)G06F17/30GK103077193SQ20121056874
公開(kāi)日2013年5月1日 申請(qǐng)日期2012年12月24日 優(yōu)先權(quán)日2012年12月24日
發(fā)明者薛飛, 黃叢蕊, 付萬(wàn)宇, 楊之光, 楊青 申請(qǐng)人:人民搜索網(wǎng)絡(luò)股份公司