一種基于用戶閱讀興趣的相關(guān)事件生成方法

文檔序號(hào)：6385322閱讀：252來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于用戶閱讀興趣的相關(guān)事件生成方法
技術(shù)領(lǐng)域：
本發(fā)明涉及互聯(lián)網(wǎng)搜索引擎和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域，尤其涉及一種基于用戶閱讀興趣的相關(guān)事件生成方法。
背景技術(shù)：
隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展，網(wǎng)絡(luò)中充斥了大量的新聞信息。人們對(duì)于新聞事件閱讀的需求體現(xiàn)在快速、準(zhǔn)確等方面。此外，用戶閱讀體驗(yàn)的質(zhì)量，也與閱讀連貫性有著緊密的關(guān)系。閱讀連貫性可以理解為用戶瀏覽了當(dāng)前事件之后，接著瀏覽與之相關(guān)的事件，進(jìn)而逐步延長(zhǎng)用戶的停留時(shí)間。例如，當(dāng)前事件為“北京雨雪將持續(xù)40小時(shí)降溫幅度將達(dá)到8 10度”，該事件的關(guān)鍵詞為“雨雪”、“降溫”、“出行”等，通過(guò)用戶歷史點(diǎn)擊數(shù)據(jù)可以賦予關(guān)鍵詞權(quán)重，然后檢索出本事件的相關(guān)事件?，F(xiàn)有的研究或?qū)＠晒饕塾趩螚l輿情網(wǎng)頁(yè)的相關(guān)推薦，而事件是一系列相似輿情文檔的集合，因此事件級(jí)別更加抽象化。如何針對(duì)特定領(lǐng)域、準(zhǔn)確檢索和定位相關(guān)事件，進(jìn)而找出用戶所需的內(nèi)容，具有現(xiàn)實(shí)的研究?jī)r(jià)值。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明的主要目的在于提供一種基于用戶閱讀興趣的相關(guān)事件生成方法，針對(duì)特定領(lǐng)域、準(zhǔn)確檢索和定位相關(guān)事件，進(jìn)而找出用戶所需的內(nèi)容。為達(dá)到上述目的，本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:一種基于用戶閱讀興趣的相關(guān)事件生成方法，該方法包括:A、對(duì)輿情文檔進(jìn)行數(shù)據(jù)預(yù)處理，得到事件的核心子集，并從核心子集中提取事件的核心文檔以及事件的關(guān)鍵詞列表的步驟；B、通過(guò)所述核心文檔的正文對(duì)事件進(jìn)行倒排索引，倒排word的初始權(quán)重值為TF-1DF值或Hit Number ;后臺(tái)記錄用戶點(diǎn)擊事件E的時(shí)間軸TA和頻率CF，并計(jì)算得到事件對(duì)應(yīng)關(guān)鍵詞的權(quán)重因子a (E)；C、對(duì)于歷史事件集進(jìn)行人工標(biāo)注，標(biāo)注的內(nèi)容主要包括事件的點(diǎn)擊頻率CF、時(shí)間軸信息TA、該事件作為相關(guān)事件的影響因子，通過(guò)映射將上述三部分信息即a (E)，CF和TA，轉(zhuǎn)化為事件E對(duì)應(yīng)的實(shí)數(shù)值；D、通過(guò)機(jī)器學(xué)習(xí)的方法，對(duì)步驟C中得到的訓(xùn)練數(shù)據(jù)進(jìn)行回歸運(yùn)算，獲得函數(shù)表達(dá)式的原型ct (E)=m*TA+n*CF,并通過(guò)線性回歸運(yùn)算確定參數(shù)m和η的值；Ε、通過(guò)上述函數(shù)表達(dá)式調(diào)整事件關(guān)鍵詞在索引中的權(quán)重，然后對(duì)新事件的相關(guān)事件進(jìn)行檢索和展示。其中，步驟B所述事件對(duì)應(yīng)關(guān)鍵詞的權(quán)重因子a (E):a (E) =F (TA, CF);其中:a (E) >=1。步驟D所述機(jī)器學(xué)習(xí)的方法，具體為支持向量機(jī)SVM法。步驟E所述對(duì)新事件的相關(guān)事件進(jìn)行檢索和展示，具體為:當(dāng)某一事件E被用戶點(diǎn)擊需要展示時(shí)，通過(guò)調(diào)整權(quán)重之后的事件關(guān)鍵詞檢索其相關(guān)事件，并且不斷重復(fù)步驟B的如下過(guò)程對(duì)獲得的事件核心文檔的正文進(jìn)行倒排索引，倒排word的權(quán)重初始值為TF-1DF值或 Hit Number。本發(fā)明所提供的基于用戶閱讀興趣的相關(guān)事件生成方法，具有以下優(yōu)點(diǎn)通過(guò)分析用戶對(duì)歷史事件的點(diǎn)擊記錄，刻畫出用戶級(jí)別的關(guān)鍵詞權(quán)重，從而給出當(dāng)前事件更為合理的相關(guān)事件。應(yīng)用本發(fā)明，能夠針對(duì)特定的領(lǐng)域、準(zhǔn)確檢索和定位相關(guān)事件，進(jìn)而找出用戶所需的內(nèi)容。譬如，對(duì)于特定領(lǐng)域如輿情系統(tǒng)，能夠?qū)τ脩羲栊畔⒌亩ㄎ桓訙?zhǔn)確和清楚。應(yīng)用在輿情、新聞檢索等系統(tǒng)中，方便進(jìn)行定位和更新用戶的閱讀興趣，推出具有較好用戶體驗(yàn)到相關(guān)事件，提高用戶閱讀的連貫性。

圖1為本發(fā)明基于用戶閱讀興趣的相關(guān)事件生成方法流程圖。
具體實(shí)施例方式下面結(jié)合附圖及本發(fā)明的實(shí)施例對(duì)本發(fā)明的方法作進(jìn)一步詳細(xì)的說(shuō)明。本發(fā)明基于用戶閱讀興趣的相關(guān)事件生成方法，主要應(yīng)用了以下幾種技術(shù)事件生成和合并技術(shù)、倒排索引技術(shù)以及事件關(guān)鍵詞提取技術(shù)。其中事件生成和合并是相關(guān)事件推薦的數(shù)據(jù)基礎(chǔ)，倒排索引和事件關(guān)鍵詞提取是相關(guān)事件推薦的核心部分。圖1為本發(fā)明基于用戶閱讀興趣的相關(guān)事件生成方法流程圖。如圖1所示，本發(fā)明方法包括如下步驟步驟11 :對(duì)輿情文檔進(jìn)行數(shù)據(jù)預(yù)處理的步驟。具體為對(duì)輿情文檔進(jìn)行在線抓取和信息抽取，抽取的內(nèi)容包括文本特征(文本頻率-反向文檔頻率值[TF-1DF，TermFrequency-1nverse Document Frequency]、文本結(jié)構(gòu)刻畫等)、關(guān)鍵詞信息、敏感詞信息、正文長(zhǎng)度等。通過(guò)UPGMA等算法對(duì)這一過(guò)程中產(chǎn)生的文檔進(jìn)行聚類處理，得到具有一定泛化性的事件集合。對(duì)于聚類產(chǎn)生的事件進(jìn)行數(shù)據(jù)處理,主要包括最大核心子集生成、核心文檔抽取、事件關(guān)鍵詞生成等。這里，對(duì)當(dāng)前事件數(shù)據(jù)進(jìn)行信息抽取，首先是獲得事件的核心子集(例如事件A的文檔集合A. set，文檔數(shù)為N，核心子集A.set’GA.set，可理解為剔除噪音后包含核心文檔的子集)，在此核心子集中提取出事件的核心文檔以及事件的關(guān)鍵詞列表，這一過(guò)程涉及到事件的地域信息以及用戶定制等策略。步驟12 :通過(guò)核心文檔的正文對(duì)事件進(jìn)行倒排索引，倒排word的初始權(quán)重，用TF-1DF值刻畫。但后臺(tái)記錄用戶點(diǎn)擊事件E的時(shí)間軸(Time Axis, TA)和頻率(ClickFrequence，CF)信息，通過(guò)下式計(jì)算得到事件對(duì)應(yīng)關(guān)鍵詞的權(quán)重因子a (E)a (E) =F (TA, CF)其中a (E) >=1 (1.1)對(duì)經(jīng)過(guò)步驟12獲得的事件核心文檔的正文進(jìn)行倒排索引時(shí)，word的權(quán)重初始值為TF-1DF值，還可以是Hit Number。步驟13 :對(duì)于歷史事件集進(jìn)行人工標(biāo)注的步驟。標(biāo)注的內(nèi)容主要包括事件的點(diǎn)擊頻率(CF，即總次數(shù)、平均每周點(diǎn)擊數(shù)、平均每日點(diǎn)擊數(shù)等)、時(shí)間軸信息(TA，即每周的點(diǎn)擊時(shí)間段、每日的點(diǎn)擊時(shí)間段等)、該事件作為相關(guān)事件的影響因子(該值越高，意味著作為相關(guān)事件的收益越大，該值直接作用于事件的關(guān)鍵詞權(quán)重)。通過(guò)映射將這三部分信息轉(zhuǎn)化為事件E對(duì)應(yīng)的實(shí)數(shù)值:a (E)，CF，TA。步驟14:通過(guò)支持向量機(jī)(SVM, Support Vector Machines)等機(jī)器學(xué)習(xí)的方法，對(duì)步驟13中得到的訓(xùn)練數(shù)據(jù)進(jìn)行回歸運(yùn)算，獲得函數(shù)表達(dá)式(式1.1)。這一過(guò)程可以考慮使用全監(jiān)督的回歸方法，即首先確定函數(shù)表達(dá)式的原型:a (E) =m*TA+n*CF (式1.2)只需通過(guò)線性回歸運(yùn)算獲得參數(shù)m和η的值。步驟15:使用上述函數(shù)表達(dá)式的原型(式1.2)調(diào)整事件關(guān)鍵詞在索引中的權(quán)重。步驟16:對(duì)新事件的相關(guān)事件進(jìn)行檢索和展示。根據(jù)所述檢索結(jié)果，對(duì)相關(guān)事件進(jìn)行推薦。具體為:當(dāng)某一事件E被用戶點(diǎn)擊需要展示時(shí)，通過(guò)調(diào)整權(quán)重之后的事件關(guān)鍵詞去檢索其相關(guān)事件，并且不斷重復(fù)步驟12中的如下過(guò)程:對(duì)獲得的事件核心文檔的正文進(jìn)行倒排索引，倒排word的權(quán)重初始值為TF-1DF值(或者 Hit Number)ο本發(fā)明的基于用戶閱讀興趣的相關(guān)事件生成方法具有如下特點(diǎn):I)本發(fā)明的研究主體不是單篇的輿情文檔，而是聚類產(chǎn)生的文檔集合，即事件。其中涉及到了事件級(jí)別的一系列操作:核心文檔提取、事件關(guān)鍵詞抽取等。2)通過(guò)用戶對(duì)于事件的點(diǎn)擊記錄，刻畫出用戶的閱讀興趣。通過(guò)機(jī)器學(xué)習(xí)等方法得到(式1.0的函數(shù)表達(dá)式，從而可以調(diào)整事件的關(guān)鍵詞權(quán)重，以產(chǎn)生更為準(zhǔn)確的相關(guān)事件，提升用戶體驗(yàn)。3)加入時(shí)間軸(TA)這一特征，更好地刻畫用戶的閱讀行為。假設(shè)現(xiàn)在已有當(dāng)前事件和歷史事件的數(shù)據(jù)集，主要包括以下幾個(gè)步驟:即對(duì)輿情文檔進(jìn)行數(shù)據(jù)預(yù)處理的步驟、對(duì)用戶閱讀興趣進(jìn)行刻畫的步驟和對(duì)相關(guān)事件進(jìn)行推薦的步驟。以上所述，僅為本發(fā)明的較佳實(shí)施例而已，并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種基于用戶閱讀興趣的相關(guān)事件生成方法，其特征在于，該方法包括: A、對(duì)輿情文檔進(jìn)行數(shù)據(jù)預(yù)處理，得到事件的核心子集，并從核心子集中提取事件的核心文檔以及事件的關(guān)鍵詞列表的步驟； B、通過(guò)所述核心文檔的正文對(duì)事件進(jìn)行倒排索引，倒排word的初始權(quán)重值為TF-1DF值或Hit Number ;后臺(tái)記錄用戶點(diǎn)擊事件E的時(shí)間軸TA和頻率CF,并計(jì)算得到事件對(duì)應(yīng)關(guān)鍵詞的權(quán)重因子a (E)； C、對(duì)于歷史事件集進(jìn)行人工標(biāo)注,標(biāo)注的內(nèi)容主要包括事件的點(diǎn)擊頻率CF、時(shí)間軸信息TA、該事件作為相關(guān)事件的影響因子，通過(guò)映射將上述三部分信息即α (Ε)，CF和TA，轉(zhuǎn)化為事件E對(duì)應(yīng)的實(shí)數(shù)值； D、通過(guò)機(jī)器學(xué)習(xí)的方法，對(duì)步驟C中得到的訓(xùn)練數(shù)據(jù)進(jìn)行回歸運(yùn)算，獲得函數(shù)表達(dá)式的原型ct (E)=m*TA+n*CF,并通過(guò)線性回歸運(yùn)算確定參數(shù)m和η的值； Ε、通過(guò)上述函數(shù)表達(dá)式調(diào)整事件關(guān)鍵詞在索引中的權(quán)重，然后對(duì)新事件的相關(guān)事件進(jìn)行檢索和展示。
2.根據(jù)權(quán)利要求1所述基于用戶閱讀興趣的相關(guān)事件生成方法，其特征在于，步驟B所述事件對(duì)應(yīng)關(guān)鍵詞的權(quán)重因子a (E):a (E) =F (TA, CF);其中:a (E) >=1。
3.根據(jù)權(quán)利要求1所述基于用戶閱讀興趣的相關(guān)事件生成方法，其特征在于，步驟D所述機(jī)器學(xué)習(xí)的方法，具體為支持向量機(jī)SVM法。
4.根據(jù)權(quán)利要求1所述基于用戶閱讀興趣的相關(guān)事件生成方法，其特征在于，步驟E所述對(duì)新事件的相關(guān)事件進(jìn)行檢索和展示，具體為:當(dāng)某一事件E被用戶點(diǎn)擊需要展示時(shí)，通過(guò)調(diào)整權(quán)重之后的事件關(guān)鍵詞檢索其相關(guān)事件，并且不斷重復(fù)步驟B的如下過(guò)程:對(duì)獲得的事件核心文檔的正文進(jìn)行倒排索引，倒排word的權(quán)重初始值為TF-1DF值或Hit Number。
全文摘要
本發(fā)明公開(kāi)了一種基于用戶閱讀興趣的相關(guān)事件生成方法，包括A、對(duì)輿情文檔進(jìn)行數(shù)據(jù)預(yù)處理的步驟；B、通過(guò)所述核心文檔的正文對(duì)事件進(jìn)行倒排索引，倒排word的初始權(quán)重值為TF-IDF值；C、對(duì)于歷史事件集進(jìn)行人工標(biāo)注，標(biāo)注的內(nèi)容主要包括事件的點(diǎn)擊頻率CF、時(shí)間軸信息TA、該事件作為相關(guān)事件的影響因子，通過(guò)映射將上述三部分信息即，CF和TA，轉(zhuǎn)化為事件E對(duì)應(yīng)的實(shí)數(shù)值；D、通過(guò)機(jī)器學(xué)習(xí)的方法，獲得函數(shù)表達(dá)式的原型，并通過(guò)線性回歸運(yùn)算確定參數(shù)m和n的值；E、調(diào)整事件關(guān)鍵詞在索引中的權(quán)重，然后對(duì)新事件的相關(guān)事件進(jìn)行檢索和展示。采用本發(fā)明，能夠針對(duì)特定領(lǐng)域、準(zhǔn)確檢索和定位相關(guān)事件，進(jìn)而找出用戶所需的內(nèi)容。
文檔編號(hào)G06F17/30GK103077193SQ20121056874
公開(kāi)日2013年5月1日申請(qǐng)日期2012年12月24日優(yōu)先權(quán)日2012年12月24日
發(fā)明者薛飛, 黃叢蕊, 付萬(wàn)宇, 楊之光, 楊青申請(qǐng)人:人民搜索網(wǎng)絡(luò)股份公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：薛飛;黃叢蕊;付萬(wàn)宇;楊之光;楊青
技術(shù)所有人：人民搜索網(wǎng)絡(luò)股份公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

用戶興趣模型相關(guān)技術(shù)

用戶興趣標(biāo)簽相關(guān)技術(shù)

用戶興趣愛(ài)好標(biāo)簽相關(guān)技術(shù)

用戶興趣衰減模型相關(guān)技術(shù)

用戶興趣標(biāo)簽分類相關(guān)技術(shù)

用戶興趣建模相關(guān)技術(shù)

用戶興趣圖譜相關(guān)技術(shù)

用戶興趣相關(guān)技術(shù)

興趣部落用戶名稱修改相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于用戶閱讀興趣的相關(guān)事件生成方法