基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域,更為具體而言,涉及一種基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法和系統(tǒng)。
【背景技術(shù)】
[0002]當(dāng)今網(wǎng)絡(luò)信息發(fā)展迅速,人們已普遍采用網(wǎng)絡(luò)查閱各類新聞和信息。在網(wǎng)絡(luò)新聞的發(fā)展過程中,作為成熟商業(yè)推薦系統(tǒng)不可或缺的重要組成部分,推薦理由客觀準(zhǔn)確地闡述推薦邏輯。
[0003]讓用戶感知推薦系統(tǒng)的智能,對提升用戶體驗(yàn)具有重要意義。目前推薦理由主要依靠預(yù)定義模板方式生成,受限于模板的豐富度,推薦理由在語言表達(dá)上缺乏多樣性。在娛樂明星推薦這一類娛樂推薦場景中,目前也僅限于“相關(guān)人物”、“猜你喜歡”、“其他人也在搜”這些千篇一律的推薦理由與娛樂至上的精神格格不入,難以博取用戶青睞。
[0004]為解決現(xiàn)有技術(shù)中網(wǎng)頁智能推薦系統(tǒng)的推薦理由缺乏趣味性這一問題,同時(shí)使推薦理由兼顧準(zhǔn)確性和吸引力,亟需一種全新的推薦數(shù)據(jù)處理方法及系統(tǒng)。
【發(fā)明內(nèi)容】
[0005]為了解決現(xiàn)有技術(shù)中網(wǎng)頁智能推薦系統(tǒng)的推薦理由缺乏趣味性這一問題,本發(fā)明的實(shí)施方式提供了一種基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法和系統(tǒng)。
[0006]一方面,本發(fā)明實(shí)施方式提供了一種基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法,所述方法包括:
[0007]從網(wǎng)頁中識別與實(shí)體對相關(guān)的新聞標(biāo)題;
[0008]計(jì)算所述實(shí)體對的關(guān)鍵詞集合;
[0009]從所述新聞標(biāo)題中截取文本片段,得到帶時(shí)間信息的文本片段集合,提取所述文本片段集合中各文本片段的第一特征值;
[0010]計(jì)算所述文本片段集合中各個(gè)文本片段的語義向量,根據(jù)所述語義向量提取得到所述各個(gè)文本片段的第二特征值;
[0011]根據(jù)用戶的點(diǎn)擊數(shù)據(jù),將所述第一特征值和所述第二特征值擬合得到推薦理由排序。
[0012]相應(yīng)的,本發(fā)明實(shí)施方式還提供了一種基于新聞標(biāo)題的推薦數(shù)據(jù)處理系統(tǒng),所述系統(tǒng)包括:
[0013]標(biāo)題識別模塊,用于從網(wǎng)頁中識別與實(shí)體對相關(guān)的新聞標(biāo)題;
[0014]關(guān)鍵詞計(jì)算模塊,用于計(jì)算所述實(shí)體對的關(guān)鍵詞集合;
[0015]文本片段截取模塊,用于從所述新聞標(biāo)題中截取文本片段,得到帶時(shí)間信息的文本片段集合,提取所述文本片段集合中各文本片段的第一特征值;
[0016]特征值計(jì)算模塊,用于計(jì)算所述文本片段集合中各個(gè)文本片段的語義向量,根據(jù)所述語義向量提取得到所述各個(gè)文本片段的第二特征值;
[0017]篩選模塊,用于根據(jù)用戶的點(diǎn)擊數(shù)據(jù),將所述第一特征值和所述第二特征值擬合得到推薦理由排序。
[0018]實(shí)施本發(fā)明的各種實(shí)施方式具有以下有益效果:可準(zhǔn)確又智能地向用戶推薦更具趣味性和吸引力的網(wǎng)絡(luò)信息。
【附圖說明】
[0019]圖1是根據(jù)本發(fā)明實(shí)施方式的基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法的流程圖;
[0020]圖2示出了圖1所示方法的步驟S5的具體流程圖;
[0021]圖3是根據(jù)本發(fā)明實(shí)施方式的基于新聞標(biāo)題的推薦數(shù)據(jù)處理系統(tǒng)的架構(gòu)圖;
[0022]圖4示出了圖3所示的篩選模塊500的框圖。
【具體實(shí)施方式】
[0023]以下結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明的各個(gè)方面進(jìn)行詳細(xì)闡述。其中,眾所周知的模塊、單元及其相互之間的連接、鏈接、通信或操作沒有示出或未作詳細(xì)說明。并且,所描述的特征、架構(gòu)或功能可在一個(gè)或一個(gè)以上實(shí)施方式中以任何方式組合。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,下述的各種實(shí)施方式只用于舉例說明,而非用于限制本發(fā)明的保護(hù)范圍。還可以容易理解,本文所述和附圖所示的各實(shí)施方式中的模塊或單元或處理方式可以按各種不同配置進(jìn)行組合和設(shè)計(jì)。
[0024]圖1是根據(jù)本發(fā)明實(shí)施方式的基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法的流程圖。參見圖1,所述方法包括如下步驟:
[0025]SI,從網(wǎng)頁中識別與實(shí)體對相關(guān)的新聞標(biāo)題;
[0026]S2,計(jì)算所述實(shí)體對的關(guān)鍵詞集合;
[0027]S3,從所述新聞標(biāo)題中截取文本片段,得到帶時(shí)間信息的文本片段集合,提取所述文本片段集合中各文本片段的第一特征值;
[0028]S4,計(jì)算所述文本片段集合中各個(gè)文本片段的語義向量,根據(jù)所述語義向量提取得到所述各個(gè)文本片段的第二特征值;S5,根據(jù)用戶的點(diǎn)擊數(shù)據(jù),將所述第一特征值和所述第二特征值擬合得到推薦理由排序。
[0029]在本發(fā)明的實(shí)施方式中,基于新聞標(biāo)題的推薦數(shù)據(jù)處理方法可包括:執(zhí)行步驟SI,從網(wǎng)頁中識別與實(shí)體對相關(guān)的新聞標(biāo)題。在步驟SI和步驟S2之間,還可包括如下步驟:檢測所述實(shí)體對新聞爆發(fā)的時(shí)間區(qū)間??衫酶咚巩惓|c(diǎn)在先檢測模型檢測實(shí)體對新聞爆發(fā)的時(shí)間區(qū)間。例如:可檢測到某明星在A時(shí)間段內(nèi)的新聞總量,以及在B時(shí)間段內(nèi)該明星新聞量異常增多,即該明星的新聞爆發(fā)時(shí)間為B時(shí)間段。通過上述檢測實(shí)體對新聞爆發(fā)的時(shí)間區(qū)間的步驟,可查詢到與實(shí)體對相關(guān)新聞的集中時(shí)間,從而減少推薦理由數(shù)據(jù)的查詢范圍和提高查詢效率。
[0030]接下來,執(zhí)行步驟S2,計(jì)算所述實(shí)體對的關(guān)鍵詞集合,具體而言,可包括根據(jù)tf-1df算法計(jì)算所述實(shí)體對在某一時(shí)間區(qū)間的關(guān)鍵詞集合。其中,tf-1df(termfrequency -1nverse document frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)??筛鶕?jù)tf-1df模型提取得到關(guān)鍵詞列表,例如:在某時(shí)間段,按照tf-1df值由高至低的順序截取前N名的關(guān)鍵詞集合。
[0031]接下來,執(zhí)行步驟S3,從所述新聞標(biāo)題中截取文本片段,得到帶時(shí)間信息的文本片段集合,提取所述文本片段集合中各文本片段的第一特征值。例如,可利用正則表達(dá)式從新聞標(biāo)題中截取文本片段,得到帶有時(shí)間信息的實(shí)體對文本片段集合。
[0032]然后,執(zhí)行步驟S4,計(jì)算所述文本片段集合中各個(gè)文本片段的語義向量,根據(jù)所述語義向量提取得到所述各個(gè)文本片段的第二特征值。例如,可通過卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型,每個(gè)語義片段會得到200維的語義特征向量,例如:“浪漫求婚成功”會得到VI,“求婚成功上頭條”得到V2,由于這兩個(gè)文本片段語義相近,Vl和V2的余弦相似度會接近1,而語義不相同的文本片段得到的余弦相似度會趨于O甚至小于O ;
[0033]其中,所述第一特征值包括:語法結(jié)構(gòu)特征和時(shí)效性特征;所述第二特征值包括:相關(guān)性特征、關(guān)注度特征、吸引力特征。具體而言,可利用依存分析工具計(jì)算文本片段的語法結(jié)構(gòu)特征,將不符合中文語法結(jié)構(gòu)的文本片段刪除;可根據(jù)帶有時(shí)間信息的文本片段,查詢到該實(shí)體對的時(shí)效性特征,例如爆發(fā)新聞的時(shí)間區(qū)間;可根據(jù)是否具有吸引力人工標(biāo)注一批文本片段作為標(biāo)準(zhǔn)數(shù)據(jù)集,訓(xùn)練SVM(Support Vector Machine,支持向量機(jī))分類模型,并利用該SVM模型預(yù)測文本片段的吸引力,得到吸引力特征;從搜索引擎搜索日志挖掘?qū)嶓w對的熱搜詞,計(jì)算熱搜詞與實(shí)體對文本片段的語義相似度,得到用戶關(guān)注度特征;從知識庫獲取實(shí)體對的關(guān)系,計(jì)算實(shí)體對關(guān)系與文本片段的語義相似度,得到相關(guān)性特征,例如:通過卷積神經(jīng)網(wǎng)絡(luò),可以得到“夫妻”、“女朋友”、“男朋友”這些實(shí)體關(guān)系詞匯的語義特征向量,它們與文本片段的語義相似度用于表示該關(guān)系與文本片段的相關(guān)性特征。比如“浪漫求婚成功”這個(gè)文本片段與“男朋友”的相似度要高于“無人機(jī)想上頭條”的相似度,因此可將實(shí)體對的關(guān)系與文本片段的語義特征向量的余弦相似度來表示相關(guān)性特征。
[0034]通過采用本發(fā)明的所述方法,可解決現(xiàn)有技術(shù)中網(wǎng)頁智能推薦系統(tǒng)的推薦理由缺乏趣味性的問題,同時(shí)使推薦理由兼顧準(zhǔn)確性和吸引力。
[0035]圖2示出了圖1所示方法的步驟S5的具體流程圖。參見圖2,所述步驟S5包括:
[0036]S51,將所述點(diǎn)擊數(shù)據(jù)轉(zhuǎn)化為對所述第一特征值和所述第二特征值的投票數(shù)據(jù);
[0037]S52,根據(jù)所述投票數(shù)據(jù)得到所述推薦理由排序,并根據(jù)所述推薦理由排序由高至低的順序提取推薦理由。
[0038]在本發(fā)明的實(shí)施方式中,根據(jù)人工標(biāo)注結(jié)果及線上點(diǎn)擊數(shù)據(jù),綜合考慮吸引力、結(jié)構(gòu)特征、用戶關(guān)注度、相關(guān)性、時(shí)效性等特征訓(xùn)練文本片段的排序模型,每個(gè)實(shí)體對中,排名最高的文本片段就作為該實(shí)體對的推薦理由用戶每一次點(diǎn)擊可以理解為對文本片段的一次正向投票,文本片段點(diǎn)擊次數(shù)越多表明它越受歡迎,也越適合作為推薦理由,這樣便將用戶的點(diǎn)擊行為轉(zhuǎn)化為排序模型的訓(xùn)練數(shù)據(jù),利用該訓(xùn)練數(shù)據(jù),我們可以在文本片段的5個(gè)基礎(chǔ)特征之上訓(xùn)練邏輯回歸(Logistic Regress1n)模型,從而選擇優(yōu)質(zhì)的文本片段作為推薦理由,也可提取排名第一或前N名的文本片段作為推薦理由。
[0039]圖3是根據(jù)本發(fā)明實(shí)施方式的基于新聞標(biāo)題的推薦數(shù)據(jù)處理系統(tǒng)I的架構(gòu)圖。參見圖3,所述系統(tǒng)I包括:
[0040]標(biāo)題識別模塊100,用于從網(wǎng)頁中識別與實(shí)體對相關(guān)的新聞標(biāo)題;
[0041]關(guān)鍵詞計(jì)算模塊200,用于計(jì)算所述實(shí)體對的關(guān)鍵詞集合;
[0042]文本片段截取模塊300,用于從所述新聞標(biāo)題中截取文本片段,得到帶時(shí)間信息的文本片段集合,提取所述文本片段集合中各