基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法及系統(tǒng)的制作方法

文檔序號：9200415閱讀：353來源：國知局

基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域，更為具體而言，涉及一種基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法和系統(tǒng)。
【背景技術(shù)】
[0002]當(dāng)今網(wǎng)絡(luò)信息發(fā)展迅速，人們已普遍采用網(wǎng)絡(luò)查閱各類新聞和信息。在網(wǎng)絡(luò)新聞的發(fā)展過程中，作為成熟商業(yè)推薦系統(tǒng)不可或缺的重要組成部分，推薦理由客觀準(zhǔn)確地闡述推薦邏輯。
[0003]讓用戶感知推薦系統(tǒng)的智能，對提升用戶體驗(yàn)具有重要意義。目前推薦理由主要依靠預(yù)定義模板方式生成，受限于模板的豐富度，推薦理由在語言表達(dá)上缺乏多樣性。在娛樂明星推薦這一類娛樂推薦場景中，目前也僅限于“相關(guān)人物”、“猜你喜歡”、“其他人也在搜”這些千篇一律的推薦理由與娛樂至上的精神格格不入，難以博取用戶青睞。
[0004]為解決現(xiàn)有技術(shù)中網(wǎng)頁智能推薦系統(tǒng)的推薦理由缺乏趣味性這一問題，同時(shí)使推薦理由兼顧準(zhǔn)確性和吸引力，亟需一種全新的推薦數(shù)據(jù)處理方法及系統(tǒng)。

【發(fā)明內(nèi)容】

[0005]為了解決現(xiàn)有技術(shù)中網(wǎng)頁智能推薦系統(tǒng)的推薦理由缺乏趣味性這一問題，本發(fā)明的實(shí)施方式提供了一種基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法和系統(tǒng)。
[0006]一方面，本發(fā)明實(shí)施方式提供了一種基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法，所述方法包括:
[0007]從網(wǎng)頁中識別與實(shí)體對相關(guān)的新聞標(biāo)題；
[0008]計(jì)算所述實(shí)體對的關(guān)鍵詞集合；
[0009]從所述新聞標(biāo)題中截取文本片段，得到帶時(shí)間信息的文本片段集合，提取所述文本片段集合中各文本片段的第一特征值；
[0010]計(jì)算所述文本片段集合中各個(gè)文本片段的語義向量，根據(jù)所述語義向量提取得到所述各個(gè)文本片段的第二特征值；
[0011]根據(jù)用戶的點(diǎn)擊數(shù)據(jù)，將所述第一特征值和所述第二特征值擬合得到推薦理由排序。
[0012]相應(yīng)的，本發(fā)明實(shí)施方式還提供了一種基于新聞標(biāo)題的推薦數(shù)據(jù)處理系統(tǒng)，所述系統(tǒng)包括:
[0013]標(biāo)題識別模塊，用于從網(wǎng)頁中識別與實(shí)體對相關(guān)的新聞標(biāo)題；
[0014]關(guān)鍵詞計(jì)算模塊，用于計(jì)算所述實(shí)體對的關(guān)鍵詞集合；
[0015]文本片段截取模塊，用于從所述新聞標(biāo)題中截取文本片段，得到帶時(shí)間信息的文本片段集合，提取所述文本片段集合中各文本片段的第一特征值；
[0016]特征值計(jì)算模塊，用于計(jì)算所述文本片段集合中各個(gè)文本片段的語義向量，根據(jù)所述語義向量提取得到所述各個(gè)文本片段的第二特征值；
[0017]篩選模塊，用于根據(jù)用戶的點(diǎn)擊數(shù)據(jù)，將所述第一特征值和所述第二特征值擬合得到推薦理由排序。
[0018]實(shí)施本發(fā)明的各種實(shí)施方式具有以下有益效果:可準(zhǔn)確又智能地向用戶推薦更具趣味性和吸引力的網(wǎng)絡(luò)信息。
【附圖說明】
[0019]圖1是根據(jù)本發(fā)明實(shí)施方式的基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法的流程圖；
[0020]圖2示出了圖1所示方法的步驟S5的具體流程圖；
[0021]圖3是根據(jù)本發(fā)明實(shí)施方式的基于新聞標(biāo)題的推薦數(shù)據(jù)處理系統(tǒng)的架構(gòu)圖；
[0022]圖4示出了圖3所示的篩選模塊500的框圖。
【具體實(shí)施方式】
[0023]以下結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明的各個(gè)方面進(jìn)行詳細(xì)闡述。其中，眾所周知的模塊、單元及其相互之間的連接、鏈接、通信或操作沒有示出或未作詳細(xì)說明。并且，所描述的特征、架構(gòu)或功能可在一個(gè)或一個(gè)以上實(shí)施方式中以任何方式組合。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解，下述的各種實(shí)施方式只用于舉例說明，而非用于限制本發(fā)明的保護(hù)范圍。還可以容易理解，本文所述和附圖所示的各實(shí)施方式中的模塊或單元或處理方式可以按各種不同配置進(jìn)行組合和設(shè)計(jì)。
[0024]圖1是根據(jù)本發(fā)明實(shí)施方式的基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法的流程圖。參見圖1，所述方法包括如下步驟:
[0025]SI，從網(wǎng)頁中識別與實(shí)體對相關(guān)的新聞標(biāo)題；
[0026]S2，計(jì)算所述實(shí)體對的關(guān)鍵詞集合；
[0027]S3，從所述新聞標(biāo)題中截取文本片段，得到帶時(shí)間信息的文本片段集合，提取所述文本片段集合中各文本片段的第一特征值；
[0028]S4，計(jì)算所述文本片段集合中各個(gè)文本片段的語義向量，根據(jù)所述語義向量提取得到所述各個(gè)文本片段的第二特征值；S5，根據(jù)用戶的點(diǎn)擊數(shù)據(jù)，將所述第一特征值和所述第二特征值擬合得到推薦理由排序。
[0029]在本發(fā)明的實(shí)施方式中，基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法可包括:執(zhí)行步驟SI，從網(wǎng)頁中識別與實(shí)體對相關(guān)的新聞標(biāo)題。在步驟SI和步驟S2之間，還可包括如下步驟:檢測所述實(shí)體對新聞爆發(fā)的時(shí)間區(qū)間?？衫酶咚巩惓｜c(diǎn)在先檢測模型檢測實(shí)體對新聞爆發(fā)的時(shí)間區(qū)間。例如:可檢測到某明星在A時(shí)間段內(nèi)的新聞總量，以及在B時(shí)間段內(nèi)該明星新聞量異常增多，即該明星的新聞爆發(fā)時(shí)間為B時(shí)間段。通過上述檢測實(shí)體對新聞爆發(fā)的時(shí)間區(qū)間的步驟，可查詢到與實(shí)體對相關(guān)新聞的集中時(shí)間，從而減少推薦理由數(shù)據(jù)的查詢范圍和提高查詢效率。
[0030]接下來，執(zhí)行步驟S2，計(jì)算所述實(shí)體對的關(guān)鍵詞集合，具體而言，可包括根據(jù)tf-1df算法計(jì)算所述實(shí)體對在某一時(shí)間區(qū)間的關(guān)鍵詞集合。其中，tf-1df(termfrequency -1nverse document frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)?？筛鶕?jù)tf-1df模型提取得到關(guān)鍵詞列表，例如:在某時(shí)間段，按照tf-1df值由高至低的順序截取前N名的關(guān)鍵詞集合。
[0031]接下來，執(zhí)行步驟S3，從所述新聞標(biāo)題中截取文本片段，得到帶時(shí)間信息的文本片段集合，提取所述文本片段集合中各文本片段的第一特征值。例如，可利用正則表達(dá)式從新聞標(biāo)題中截取文本片段，得到帶有時(shí)間信息的實(shí)體對文本片段集合。
[0032]然后，執(zhí)行步驟S4，計(jì)算所述文本片段集合中各個(gè)文本片段的語義向量，根據(jù)所述語義向量提取得到所述各個(gè)文本片段的第二特征值。例如，可通過卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型，每個(gè)語義片段會得到200維的語義特征向量，例如:“浪漫求婚成功”會得到VI，“求婚成功上頭條”得到V2，由于這兩個(gè)文本片段語義相近，Vl和V2的余弦相似度會接近1，而語義不相同的文本片段得到的余弦相似度會趨于O甚至小于O ;
[0033]其中，所述第一特征值包括:語法結(jié)構(gòu)特征和時(shí)效性特征；所述第二特征值包括:相關(guān)性特征、關(guān)注度特征、吸引力特征。具體而言，可利用依存分析工具計(jì)算文本片段的語法結(jié)構(gòu)特征，將不符合中文語法結(jié)構(gòu)的文本片段刪除；可根據(jù)帶有時(shí)間信息的文本片段，查詢到該實(shí)體對的時(shí)效性特征，例如爆發(fā)新聞的時(shí)間區(qū)間；可根據(jù)是否具有吸引力人工標(biāo)注一批文本片段作為標(biāo)準(zhǔn)數(shù)據(jù)集，訓(xùn)練SVM(Support Vector Machine，支持向量機(jī))分類模型，并利用該SVM模型預(yù)測文本片段的吸引力，得到吸引力特征；從搜索引擎搜索日志挖掘?qū)嶓w對的熱搜詞，計(jì)算熱搜詞與實(shí)體對文本片段的語義相似度，得到用戶關(guān)注度特征；從知識庫獲取實(shí)體對的關(guān)系，計(jì)算實(shí)體對關(guān)系與文本片段的語義相似度，得到相關(guān)性特征，例如:通過卷積神經(jīng)網(wǎng)絡(luò)，可以得到“夫妻”、“女朋友”、“男朋友”這些實(shí)體關(guān)系詞匯的語義特征向量，它們與文本片段的語義相似度用于表示該關(guān)系與文本片段的相關(guān)性特征。比如“浪漫求婚成功”這個(gè)文本片段與“男朋友”的相似度要高于“無人機(jī)想上頭條”的相似度，因此可將實(shí)體對的關(guān)系與文本片段的語義特征向量的余弦相似度來表示相關(guān)性特征。
[0034]通過采用本發(fā)明的所述方法，可解決現(xiàn)有技術(shù)中網(wǎng)頁智能推薦系統(tǒng)的推薦理由缺乏趣味性的問題，同時(shí)使推薦理由兼顧準(zhǔn)確性和吸引力。
[0035]圖2示出了圖1所示方法的步驟S5的具體流程圖。參見圖2，所述步驟S5包括:
[0036]S51，將所述點(diǎn)擊數(shù)據(jù)轉(zhuǎn)化為對所述第一特征值和所述第二特征值的投票數(shù)據(jù)；
[0037]S52，根據(jù)所述投票數(shù)據(jù)得到所述推薦理由排序，并根據(jù)所述推薦理由排序由高至低的順序提取推薦理由。
[0038]在本發(fā)明的實(shí)施方式中，根據(jù)人工標(biāo)注結(jié)果及線上點(diǎn)擊數(shù)據(jù)，綜合考慮吸引力、結(jié)構(gòu)特征、用戶關(guān)注度、相關(guān)性、時(shí)效性等特征訓(xùn)練文本片段的排序模型，每個(gè)實(shí)體對中，排名最高的文本片段就作為該實(shí)體對的推薦理由用戶每一次點(diǎn)擊可以理解為對文本片段的一次正向投票，文本片段點(diǎn)擊次數(shù)越多表明它越受歡迎，也越適合作為推薦理由，這樣便將用戶的點(diǎn)擊行為轉(zhuǎn)化為排序模型的訓(xùn)練數(shù)據(jù)，利用該訓(xùn)練數(shù)據(jù)，我們可以在文本片段的5個(gè)基礎(chǔ)特征之上訓(xùn)練邏輯回歸(Logistic Regress1n)模型，從而選擇優(yōu)質(zhì)的文本片段作為推薦理由，也可提取排名第一或前N名的文本片段作為推薦理由。
[0039]圖3是根據(jù)本發(fā)明實(shí)施方式的基于新聞標(biāo)題的推薦數(shù)據(jù)處理系統(tǒng)I的架構(gòu)圖。參見圖3，所述系統(tǒng)I包括:
[0040]標(biāo)題識別模塊100，用于從網(wǎng)頁中識別與實(shí)體對相關(guān)的新聞標(biāo)題；
[0041]關(guān)鍵詞計(jì)算模塊200，用于計(jì)算所述實(shí)體對的關(guān)鍵詞集合；
[0042]文本片段截取模塊300，用于從所述新聞標(biāo)題中截取文本片段，得到帶時(shí)間信息的文本片段集合，提取所述文本片段集合中各

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法及系統(tǒng)的制作方法