亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種新聞熱度預(yù)估方法及系統(tǒng)與流程

文檔序號:12887252閱讀:719來源:國知局
一種新聞熱度預(yù)估方法及系統(tǒng)與流程

本發(fā)明屬于新聞的個性化推薦領(lǐng)域,尤其涉及一種新聞熱度預(yù)估方法及系統(tǒng)。



背景技術(shù):

在新聞個性化推薦領(lǐng)域中,往往需要對新聞熱度進行計算打分,來實現(xiàn)對高熱度新聞進行推薦。

傳統(tǒng)的新聞熱度計算方式多采用基于歷史點擊統(tǒng)計狀況的熱文評分技術(shù),比如利用貝葉斯平滑的新聞熱度計算等。具體地,熱文評分技術(shù),一般是通過對用戶在文章的點擊情況進行統(tǒng)計,進而對文章進行熱度打分,也就是說,在該熱文評分技術(shù)中,新聞必須有曝光才能計算分值。

眾所周知,在新聞推薦領(lǐng)域中,新聞推薦的準(zhǔn)確性和時效性是影響用戶體驗十分重要的因素之一,從而使得新聞熱度計算的準(zhǔn)確性與實時性尤為重要,而所述熱文評分技術(shù),由于需要以新聞曝光為前提,從而會大大降低新聞推送的時效性,同時對于曝光次數(shù)有限的文章其打分精度顯然存在精度較低的問題,導(dǎo)致新聞推薦的置信度不高。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明的目的在于提供一種新聞熱度預(yù)估方法及系統(tǒng),旨在克服現(xiàn)有技術(shù)的熱文評分技術(shù)在進行新聞熱度評分時存在的時效性及準(zhǔn)確性較低的問題,提高新聞推薦的時效性及置信度。

為此,本發(fā)明公開如下技術(shù)方案:

一種新聞熱度預(yù)估方法,包括:

獲取具有熱度信息的歷史新聞作為訓(xùn)練數(shù)據(jù),并對訓(xùn)練數(shù)據(jù)進行預(yù)處理;

對預(yù)處理后的訓(xùn)練數(shù)據(jù)中的歷史新聞進行詞語向量化處理,得到歷史新聞在語義層面上的新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量以及新聞主題詞的詞向量;其中,所述新聞標(biāo)題詞為對歷史新聞的標(biāo)題進行分詞所得的詞語,所述新聞主題詞為對歷史新聞的新聞全文數(shù)據(jù)對應(yīng)的分詞進行聚類所得的詞語;

利用預(yù)定的第一深度神經(jīng)網(wǎng)絡(luò)、第二深度神經(jīng)網(wǎng)絡(luò)及第三深度神經(jīng)網(wǎng)絡(luò),以一對一方式分別以所述新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量及新聞主題詞的詞向量為特征進行并行訓(xùn)練,得到基于深度和寬度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,并獲得訓(xùn)練后輸出的向量結(jié)果;所述向量結(jié)果包括:新聞標(biāo)題在語義特征上的向量,新聞關(guān)鍵詞在語義特征上的向量以及新聞主題在語義特征上的向量;

對所述向量結(jié)果包括的各種向量進行連接,得到連接向量,并以所述連接向量為特征,以歷史新聞的熱度信息為參考,利用預(yù)定分類算法訓(xùn)練新聞的熱度預(yù)估模型;

利用所述熱度預(yù)估模型,對存在熱度預(yù)估需求的新聞進行熱度預(yù)估。

上述方法,優(yōu)選的,所述對訓(xùn)練數(shù)據(jù)進行預(yù)處理,包括:

對所述訓(xùn)練數(shù)據(jù)中的新聞內(nèi)容進行超文本標(biāo)記語言html標(biāo)簽過濾;

對去掉html標(biāo)簽的新聞內(nèi)容中的標(biāo)題部分、關(guān)鍵詞部分及正文部分進行分詞,得到新聞標(biāo)題詞、新聞關(guān)鍵詞及新聞?wù)脑~;并對各分詞結(jié)果進行編號。

上述方法,優(yōu)選的,所述對預(yù)處理后的訓(xùn)練數(shù)據(jù)中的歷史新聞進行詞語向量化處理,得到歷史新聞在語義層面上的新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量以及新聞主題詞的詞向量,包括:

利用預(yù)訓(xùn)練的詞語轉(zhuǎn)向量模型對歷史新聞的新聞標(biāo)題詞、新聞關(guān)鍵詞及新聞?wù)脑~進行向量化處理,得到歷史新聞的在語義層面上的新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量以及新聞?wù)脑~的詞向量;所述詞語轉(zhuǎn)向量模型為利用預(yù)定的詞向量算法基于預(yù)訓(xùn)練時所使用文章中詞的上下文預(yù)訓(xùn)練的模型;

對所述新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量以及新聞?wù)脑~的詞向量進行聚類,得到新聞主題詞的詞向量。

上述方法,優(yōu)選的,所述利用預(yù)定的第一深度神經(jīng)網(wǎng)絡(luò)、第二深度神經(jīng)網(wǎng)絡(luò)及第三深度神經(jīng)網(wǎng)絡(luò),以一對一方式分別以所述新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量及新聞主題詞的詞向量為特征進行并行訓(xùn)練,包括:

采用長短期記憶模型lstm,并以所述新聞標(biāo)題詞的詞向量為lstm的特征輸入,采用卷積神經(jīng)網(wǎng)絡(luò)cnn,并以所述新聞關(guān)鍵詞的詞向量為cnn的特征輸入,采用多層感知機mlp,并以新聞主題詞的詞向量為mlp的特征輸入進行并行訓(xùn)練,得到基于深度和寬度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型。

上述方法,優(yōu)選的,所述以所述連接向量為特征,以歷史新聞的熱度信息為參考,利用預(yù)定分類算法訓(xùn)練新聞的熱度預(yù)估模型,包括:

采用邏輯回歸分類算法lr,并以所述連接向量為lr的特征輸入,訓(xùn)練新聞的熱度預(yù)估模型;訓(xùn)練所得的所述熱度預(yù)估模型提供各種詞向量特征的熱度貢獻度權(quán)重,以支持對新聞進行熱度預(yù)估;

將所述熱度預(yù)估模型輸出的歷史新聞的熱度預(yù)估結(jié)果,與歷史新聞的實際熱度信息進行比對,并將比對結(jié)果反饋至所述神經(jīng)網(wǎng)絡(luò)模型以及所述熱度預(yù)估模型的訓(xùn)練中,通過基于反饋的多次迭代訓(xùn)練過程使得所述神經(jīng)網(wǎng)絡(luò)模型以及所述熱度預(yù)估模型不斷得以校準(zhǔn)。

一種新聞熱度預(yù)估系統(tǒng),包括:

數(shù)據(jù)獲取及預(yù)處理單元,用于獲取具有熱度信息的歷史新聞作為訓(xùn)練數(shù)據(jù),并對訓(xùn)練數(shù)據(jù)進行預(yù)處理;

向量化處理單元,用于對預(yù)處理后的訓(xùn)練數(shù)據(jù)中的歷史新聞進行詞語向量化處理,得到歷史新聞在語義層面上的新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量以及新聞主題詞的詞向量;其中,所述新聞標(biāo)題詞為對歷史新聞的標(biāo)題進行分詞所得的詞語,所述新聞主題詞為對歷史新聞的新聞全文數(shù)據(jù)對應(yīng)的分詞進行聚類所得的詞語;

神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練單元,用于利用預(yù)定的第一深度神經(jīng)網(wǎng)絡(luò)、第二深度神經(jīng)網(wǎng)絡(luò)及第三深度神經(jīng)網(wǎng)絡(luò),以一對一方式分別以所述新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量及新聞主題詞的詞向量為特征進行并行訓(xùn)練,得到基于深度和寬度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,并獲得訓(xùn)練后輸出的向量結(jié)果;所述向量結(jié)果包括:新聞標(biāo)題在語音特征上的向量,新聞關(guān)鍵詞在語義特征上的向量以及新聞主題在語義特征上的向量;

預(yù)估模型訓(xùn)練單元,用于對所述向量結(jié)果包括的各種向量進行連接,得到連接向量,并以所述連接向量為特征,以歷史新聞的熱度信息為參考,利用預(yù)定分類算法訓(xùn)練新聞的熱度預(yù)估模型;

預(yù)測單元,用于利用所述熱度預(yù)估模型,對存在熱度預(yù)估需求的新聞進行熱度預(yù)估。

上述系統(tǒng),優(yōu)選的,所述數(shù)據(jù)獲取及預(yù)處理單元對訓(xùn)練數(shù)據(jù)進行預(yù)處理,進一步包括:

對所述訓(xùn)練數(shù)據(jù)中的新聞內(nèi)容進行html標(biāo)簽過濾;對去掉html標(biāo)簽的新聞內(nèi)容中的標(biāo)題部分、關(guān)鍵詞部分及正文部分進行分詞,得到新聞標(biāo)題詞、新聞關(guān)鍵詞及新聞?wù)脑~;并對各分詞結(jié)果進行編號。

上述系統(tǒng),優(yōu)選的,所述向量化處理單元,具體用于:

利用預(yù)訓(xùn)練的詞語轉(zhuǎn)向量模型對歷史新聞的新聞標(biāo)題詞、新聞關(guān)鍵詞及新聞?wù)脑~進行向量化處理,得到歷史新聞的在語義層面上的新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量以及新聞?wù)脑~的詞向量;所述詞語轉(zhuǎn)向量模型為利用預(yù)定的詞向量算法基于預(yù)訓(xùn)練時所使用文章中詞的上下文預(yù)訓(xùn)練的模型;對所述新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量以及新聞?wù)脑~的詞向量進行聚類,得到新聞主題詞的詞向量。

上述系統(tǒng),優(yōu)選的,所述神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練單元,具體用于:

采用長短期記憶模型lstm,并以所述新聞標(biāo)題詞的詞向量為lstm的特征輸入,采用卷積神經(jīng)網(wǎng)絡(luò)cnn,并以所述新聞關(guān)鍵詞的詞向量為cnn的特征輸入,采用多層感知機mlp,并以新聞主題詞的詞向量為mlp的特征輸入進行并行訓(xùn)練,得到基于深度和寬度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型。

上述系統(tǒng),優(yōu)選的,所述預(yù)估模型訓(xùn)練單元,具體用于:

采用邏輯回歸分類算法lr,并以所述連接向量為lr的特征輸入,訓(xùn)練新聞的熱度預(yù)估模型;訓(xùn)練所得的所述熱度預(yù)估模型提供各種詞向量特征的熱度貢獻度權(quán)重,以支持對新聞進行熱度預(yù)估;將所述熱度預(yù)估模型輸出的歷史新聞的熱度預(yù)估結(jié)果,與歷史新聞的實際熱度信息進行比對,并將比對結(jié)果反饋至所述神經(jīng)網(wǎng)絡(luò)模型以及所述熱度預(yù)估模型的訓(xùn)練中,通過基于反饋的多次迭代訓(xùn)練過程使得所述神經(jīng)網(wǎng)絡(luò)模型以及所述熱度預(yù)估模型不斷得以校準(zhǔn)。

由以上方案可知,本發(fā)明提供的新聞熱度預(yù)估方法及系統(tǒng),相對于傳統(tǒng)的基于統(tǒng)計的新聞熱度打分系統(tǒng)而言,例如貝葉斯平滑等方法,本發(fā)明提出了基于深度和寬度學(xué)習(xí)構(gòu)建冷啟動新聞(即沒有展示歷史點擊、曝光信息的新入庫的新聞)的熱度預(yù)估模型,并利用該模型對冷啟動新聞進行熱度預(yù)估的方案,基于深度和寬度學(xué)習(xí)訓(xùn)練模型的構(gòu)思可使得模型取得準(zhǔn)確率上的提升,且由于本發(fā)明方案能夠?qū)崿F(xiàn)對冷啟動新聞進行熱度預(yù)估,從而無需以新聞曝光為前提,且可加大高質(zhì)量的冷啟動新聞曝光的概率,并提高高質(zhì)量冷啟動新聞曝光的實時性。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。

圖1是本發(fā)明實施例提供的新聞熱度預(yù)估方法的流程示意圖;

圖2是本發(fā)明實施例提供的基于深度和寬度學(xué)習(xí)進行并行訓(xùn)練以及在訓(xùn)練基礎(chǔ)上進行新聞熱度預(yù)估的原理示意圖;

圖3是本發(fā)明實施例提供的新聞熱度預(yù)估系統(tǒng)的結(jié)構(gòu)示意圖。

具體實施方式

為了引用和清楚起見,下文中使用的技術(shù)名詞、簡寫或縮寫總結(jié)解釋如下:

冷啟動新聞:沒有展示歷史點擊、曝光信息的新入庫的新聞。

wordembedding:詞語轉(zhuǎn)成向量,比如‘蘋果’這個表示成一個200維的語義向量。傳統(tǒng)方式的one-hot的編碼方式高度稀疏,而且這種編碼方式使得‘蘋果’和‘a(chǎn)pple’不具備任何相似性,但是利用本發(fā)明的深度學(xué)習(xí)做的wordembedding生成的向量攜帶語義層信息,會認(rèn)為‘蘋果’和‘a(chǎn)pple’高度相似。

下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

本發(fā)明的一實施例提供一種新聞熱度預(yù)估方法,旨在通過在深度和寬度學(xué)習(xí)基礎(chǔ)上對冷啟動新聞進行新聞熱度預(yù)估,來提升新聞熱度計算的準(zhǔn)確性和實時性,進而提升線上新聞質(zhì)量,完善用戶體驗。參考圖1示出的本發(fā)明實施例的新聞熱度預(yù)估方法的流程示意圖,該方法可以包括以下步驟:

步驟101、獲取具有熱度信息的歷史新聞作為訓(xùn)練數(shù)據(jù),并對訓(xùn)練數(shù)據(jù)進行預(yù)處理。

與現(xiàn)有技術(shù)在新聞有曝光的前提下,通過對用戶在已曝光新聞的點擊情況進行統(tǒng)計進而實現(xiàn)對新聞進行熱度評分的熱文評分技術(shù)不同,本發(fā)明無需以新聞曝光為前提,并具體基于深度和寬度學(xué)習(xí),來實現(xiàn)對冷啟動新聞進行熱度預(yù)估。其中,冷啟動新聞是指:沒有展示歷史點擊、曝光信息的新入庫的新聞。

鑒于此,在對冷啟動新聞進行熱度預(yù)估之前,需首先使用訓(xùn)練數(shù)據(jù)來進行冷啟動新聞熱度預(yù)估的深度和寬度學(xué)習(xí),進而在深度和寬度學(xué)習(xí)的基礎(chǔ)上建立相應(yīng)的預(yù)估模型。所述訓(xùn)練數(shù)據(jù)可以是具有熱度信息的歷史新聞,如具有歷史點擊、曝光信息的歷史新聞等。

其中,可從hdfs(hadoopdistributedfilesystem,分布式文件系統(tǒng))中獲取具有熱度信息的歷史新聞作為訓(xùn)練數(shù)據(jù),并對所述訓(xùn)練數(shù)據(jù)進行以下的預(yù)處理:

對所述訓(xùn)練數(shù)據(jù)中的新聞內(nèi)容進行html(hypertextmarkuplanguage,超文本標(biāo)記語言)標(biāo)簽過濾;對去掉html標(biāo)簽的新聞內(nèi)容中的標(biāo)題部分、關(guān)鍵詞部分及正文部分進行分詞,得到新聞標(biāo)題詞、新聞關(guān)鍵詞及新聞?wù)脑~;并對各分詞結(jié)果進行編號。

實際應(yīng)用中,例如具體可針對多個新聞頻道,分別進行學(xué)習(xí)并建立獨立模型,每個頻道下,以該頻道下的平均點擊數(shù)最高的前預(yù)定比例(如前25%)的新聞作為正樣本,其他為負(fù)樣本,進行深度和寬度學(xué)習(xí)及模型訓(xùn)練。

步驟102、對預(yù)處理后的訓(xùn)練數(shù)據(jù)中的歷史新聞進行詞語向量化處理,得到歷史新聞在語義層面上的新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量以及新聞主題詞的詞向量;其中,所述新聞標(biāo)題詞為對歷史新聞的標(biāo)題進行分詞所得的詞語,所述新聞主題詞為對歷史新聞的新聞全文數(shù)據(jù)對應(yīng)的分詞進行聚類所得的詞語。

為了進一步提升后續(xù)基于學(xué)習(xí)所創(chuàng)建的模型的性能,本發(fā)明對歷史新聞中的詞進行了預(yù)訓(xùn)練(pre-training),具體地,本實施例利用skip-gram與哈夫曼樹結(jié)合的思想基于預(yù)訓(xùn)練時所使用的文章中詞的上下文,來預(yù)訓(xùn)練詞語轉(zhuǎn)向量模型(wordembedding模型),之后可基于該詞語轉(zhuǎn)向量模型為后續(xù)的深度和寬度學(xué)習(xí)提供語義層面上的詞向量,其中,詞向量維度可以是但不局限于300維。

在以上預(yù)訓(xùn)練詞語轉(zhuǎn)向量模型的基礎(chǔ)上,本步驟可利用所述詞語轉(zhuǎn)向量模型對歷史新聞的新聞標(biāo)題詞、新聞關(guān)鍵詞及新聞?wù)脑~進行詞語向量化處理,得到歷史新聞在語義層面上的新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量以及新聞?wù)脑~的詞向量;并對所述新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量以及新聞?wù)脑~的詞向量進行聚類,得到新聞主題詞的詞向量,從而得到了文章的topic(主題詞)分布。

步驟103、利用預(yù)定的第一深度神經(jīng)網(wǎng)絡(luò)、第二深度神經(jīng)網(wǎng)絡(luò)及第三深度神經(jīng)網(wǎng)絡(luò),以一對一方式分別以所述新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量及新聞主題詞的詞向量為特征進行并行訓(xùn)練,得到基于深度和寬度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,并獲得訓(xùn)練后輸出的向量結(jié)果;所述向量結(jié)果包括:新聞標(biāo)題在語音特征上的向量,新聞關(guān)鍵詞在語義特征上的向量以及新聞主題在語義特征上的向量。

參考圖2示出的基于深度和寬度學(xué)習(xí)進行并行訓(xùn)練以及在訓(xùn)練基礎(chǔ)上進行新聞熱度預(yù)估的原理示意圖,本實施例采用lstm(longshort-termmemory,長短期記憶模型),cnn(convolutionalneuralnetwork,卷積神經(jīng)網(wǎng)絡(luò))和mlp(multi-layerperceptron,多層感知機)并行訓(xùn)練的深度和寬度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),并分別以所述新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量及新聞主題詞的詞向量為特征,進行深度和寬度學(xué)習(xí),以此實現(xiàn)基于lstm、cnn和mlp的神經(jīng)網(wǎng)絡(luò)并行訓(xùn)練。

其中,具體地,lstm采用歷史新聞的新聞標(biāo)題詞向量作為特征輸入進行模型訓(xùn)練,網(wǎng)絡(luò)深度為15(不限于此深度),其中,在訓(xùn)練過程中,采用dropout機制,以保證模型的魯棒性,dropout是指訓(xùn)練過程中丟失掉一定比例的神經(jīng)元節(jié)點,以防止對訓(xùn)練數(shù)據(jù)過度擬合,進而導(dǎo)致預(yù)測效果下降。在將歷史新聞的新聞標(biāo)題詞向量作為特征輸入實現(xiàn)模型訓(xùn)練時,可獲得lstm輸出的向量結(jié)果,該向量結(jié)果為:新聞標(biāo)題在語義特征上的向量。

cnn采用歷史新聞的新聞關(guān)鍵詞向量作為特征輸入進行模型訓(xùn)練,在cnn的第一層卷積層激活函數(shù)采用relu(一激活函數(shù)),對第一層卷積層的輸出即該卷積層輸出的新聞關(guān)鍵詞在語義特征上的向量,采用信息提取函數(shù)maxpooling進行信息提取并對提取結(jié)果采用dropout機制處理,再對dropout處理結(jié)果經(jīng)過第二層卷積層接maxpooling并且采用dropout機制處理,最終對該dropout結(jié)果接全連接層作為cnn網(wǎng)絡(luò)的輸出結(jié)果,該cnn網(wǎng)絡(luò)的輸出結(jié)果為:新聞關(guān)鍵詞在語義特征上的向量。

mlp采用歷史新聞的新聞主題詞向量作為特征輸入進行模型訓(xùn)練,輸入的主題詞數(shù)量示例性地例如可以是200個,mlp采用3層的全連接網(wǎng)絡(luò)結(jié)構(gòu),每層后都會接入dropout機制保證model的魯棒性,最終的全連接層為mlp提供輸出向量,mlp的輸出向量為:新聞主題詞在語義特征上的向量。

步驟104、對所述向量結(jié)果包括的各種向量進行連接,得到連接向量,并以所述連接向量為特征,以歷史新聞的熱度信息為參考,利用預(yù)定分類算法訓(xùn)練新聞的熱度預(yù)估模型。

在利用lstm、cnn和mlp進行并行訓(xùn)練,得到基于深度和寬度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上,可對該模型的向量輸出,即新聞標(biāo)題在語義特征上的向量、新聞關(guān)鍵詞在語義特征上的向量以及新聞主題在語義特征上的向量進行連接(concat),即將三者首尾相接,并以連接后的向量作為lr(logisticregression,邏輯回歸分類)的特征輸入進行最終訓(xùn)練并生成新聞的熱度預(yù)估模型,其中,訓(xùn)練所得的該熱度預(yù)估模型提供新聞的各種詞向量特征的熱度貢獻度權(quán)重,以支持基于詞向量特征的熱度貢獻度權(quán)重基礎(chǔ)上的新聞熱度評分預(yù)估。

需要說明的是,基于深度和寬度學(xué)習(xí)的各模型的訓(xùn)練以及在深度和寬度學(xué)習(xí)基礎(chǔ)上的最終預(yù)估模型的訓(xùn)練,是一個基于反饋的迭代訓(xùn)練過程,具體地,每次迭代中,均是以歷史新聞的實際熱度信息為參考,通過將熱度預(yù)估模型輸出的歷史新聞的熱度預(yù)估結(jié)果與歷史新聞的實際熱度信息進行比對,并將比對結(jié)果反饋至所述神經(jīng)網(wǎng)絡(luò)模型以及所述熱度預(yù)估模型的訓(xùn)練中,通過基于反饋的多次迭代訓(xùn)練過程使得所述神經(jīng)網(wǎng)絡(luò)模型以及所述熱度預(yù)估模型不斷得以校準(zhǔn),比如,不斷對lstm、cnn和mlp深度和寬度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型的向量結(jié)果進行校準(zhǔn),對熱度預(yù)估模型提供的詞向量特征的熱度貢獻度權(quán)重進行校準(zhǔn)等等。其中,迭代次數(shù)可由本領(lǐng)域技術(shù)人員依據(jù)實際需求自由設(shè)定。

步驟105、利用所述熱度預(yù)估模型,對存在熱度預(yù)估需求的新聞進行熱度預(yù)估。

在訓(xùn)練出基于深度和寬度學(xué)習(xí)的新聞熱度預(yù)估模型的基礎(chǔ)上,可利用訓(xùn)練的該模型對實時的冷啟動新聞進行熱度預(yù)估,給出相應(yīng)的熱度打分,對新聞進行熱度打分時無需以新聞曝光為前提,實時性高,且基于深度和寬度學(xué)習(xí)訓(xùn)練模型的構(gòu)思可使得模型取得準(zhǔn)確率上的提升。

其中,經(jīng)過發(fā)明人測試,本發(fā)明方法提供的新聞熱度預(yù)估方式在準(zhǔn)確率上取得了遠(yuǎn)超傳統(tǒng)機器學(xué)習(xí)model的成績。在新聞熱度打分準(zhǔn)確性上,現(xiàn)有的基于svm(supportvectormachine,支持向量機)的打分方案準(zhǔn)確率為87%,而本發(fā)明提供的基于深度和寬度學(xué)習(xí)的打分方案的熱度預(yù)估準(zhǔn)確率為94%?;诒景l(fā)明方案的新熱度預(yù)估系統(tǒng)上線后,新聞點擊率可普遍提升2-3個百分點。

本發(fā)明實施例的提供的新聞熱度預(yù)估方法,相對于傳統(tǒng)的基于統(tǒng)計的新聞熱度打分系統(tǒng)而言,例如貝葉斯平滑等方法,本發(fā)明提出了基于深度和寬度學(xué)習(xí)構(gòu)建冷啟動新聞(即沒有展示歷史點擊、曝光信息的新入庫的新聞)的熱度預(yù)估模型,并利用該模型對冷啟動新聞進行熱度預(yù)估的方案,基于深度和寬度學(xué)習(xí)訓(xùn)練模型的構(gòu)思可使得模型取得準(zhǔn)確率上的提升,且由于本發(fā)明方案能夠?qū)崿F(xiàn)對冷啟動新聞進行熱度預(yù)估,從而無需以新聞曝光為前提,且可加大高質(zhì)量的冷啟動新聞曝光的概率,并提高高質(zhì)量冷啟動新聞曝光的實時性。

本發(fā)明的另一實施例提供一種新聞熱度預(yù)估系統(tǒng),旨在通過在深度和寬度學(xué)習(xí)基礎(chǔ)上對冷啟動新聞進行新聞熱度預(yù)估,來提升新聞熱度計算的準(zhǔn)確性和實時性,進而提升線上新聞質(zhì)量,完善用戶體驗。參考圖3示出的本發(fā)明實施例的新聞熱度預(yù)估系統(tǒng)的結(jié)構(gòu)示意圖,該系統(tǒng)可以包括:

數(shù)據(jù)獲取及預(yù)處理單元301,用于獲取具有熱度信息的歷史新聞作為訓(xùn)練數(shù)據(jù),并對訓(xùn)練數(shù)據(jù)進行預(yù)處理;向量化處理單元302,用于對預(yù)處理后的訓(xùn)練數(shù)據(jù)中的歷史新聞進行詞語向量化處理,得到歷史新聞在語義層面上的新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量以及新聞主題詞的詞向量;其中,所述新聞標(biāo)題詞為對歷史新聞的標(biāo)題進行分詞所得的詞語,所述新聞主題詞為對歷史新聞的新聞全文數(shù)據(jù)對應(yīng)的分詞進行聚類所得的詞語;神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練單元303,用于利用預(yù)定的第一深度神經(jīng)網(wǎng)絡(luò)、第二深度神經(jīng)網(wǎng)絡(luò)及第三深度神經(jīng)網(wǎng)絡(luò),以一對一方式分別以所述新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量及新聞主題詞的詞向量為特征進行并行訓(xùn)練,得到基于深度和寬度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,并獲得訓(xùn)練后輸出的向量結(jié)果;所述向量結(jié)果包括:新聞標(biāo)題在語音特征上的向量,新聞關(guān)鍵詞在語義特征上的向量以及新聞主題在語義特征上的向量;預(yù)估模型訓(xùn)練單元304,用于對所述向量結(jié)果包括的各種向量進行連接,得到連接向量,并以所述連接向量為特征,以歷史新聞的熱度信息為參考,利用預(yù)定分類算法訓(xùn)練新聞的熱度預(yù)估模型。預(yù)測單元305,用于利用所述熱度預(yù)估模型,對存在熱度預(yù)估需求的新聞進行熱度預(yù)估。

在本發(fā)明實施例的一實施方式中,所述數(shù)據(jù)獲取及預(yù)處理單元對訓(xùn)練數(shù)據(jù)進行預(yù)處理,進一步包括:對所述訓(xùn)練數(shù)據(jù)中的新聞內(nèi)容進行html標(biāo)簽過濾;對去掉html標(biāo)簽的新聞內(nèi)容中的標(biāo)題部分、關(guān)鍵詞部分及正文部分進行分詞,得到新聞標(biāo)題詞、新聞關(guān)鍵詞及新聞?wù)脑~;并對各分詞結(jié)果進行編號。

在本發(fā)明實施例的一實施方式中,所述向量化處理單元,具體用于:利用預(yù)訓(xùn)練的詞語轉(zhuǎn)向量模型對歷史新聞的新聞標(biāo)題詞、新聞關(guān)鍵詞及新聞?wù)脑~進行向量化處理,得到歷史新聞的在語義層面上的新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量以及新聞?wù)脑~的詞向量;所述詞語轉(zhuǎn)向量模型為利用預(yù)定的詞向量算法基于預(yù)訓(xùn)練時所使用文章中詞的上下文預(yù)訓(xùn)練的模型;對所述新聞標(biāo)題詞的詞向量、新聞關(guān)鍵詞的詞向量以及新聞?wù)脑~的詞向量進行聚類,得到新聞主題詞的詞向量。

在本發(fā)明實施例的一實施方式中,所述神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練單元,具體用于:采用長短期記憶模型lstm,并以所述新聞標(biāo)題詞的詞向量為lstm的特征輸入,采用卷積神經(jīng)網(wǎng)絡(luò)cnn,并以所述新聞關(guān)鍵詞的詞向量為cnn的特征輸入,采用多層感知機mlp,并以新聞主題詞的詞向量為mlp的特征輸入進行并行訓(xùn)練,得到基于深度和寬度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型。

在本發(fā)明實施例的一實施方式中,所述預(yù)估模型訓(xùn)練單元,具體用于:采用邏輯回歸分類算法lr,并以所述連接向量為lr的特征輸入,訓(xùn)練新聞的熱度預(yù)估模型;訓(xùn)練所得的所述熱度預(yù)估模型提供各種詞向量特征的熱度貢獻度權(quán)重,以支持對新聞進行熱度預(yù)估;將所述熱度預(yù)估模型輸出的歷史新聞的熱度預(yù)估結(jié)果,與歷史新聞的實際熱度信息進行比對,并將比對結(jié)果反饋至所述神經(jīng)網(wǎng)絡(luò)模型以及所述熱度預(yù)估模型的訓(xùn)練中,通過基于反饋的多次迭代訓(xùn)練過程使得所述神經(jīng)網(wǎng)絡(luò)模型以及所述熱度預(yù)估模型不斷得以校準(zhǔn)。

對于本發(fā)明實施例公開的新聞熱度預(yù)估系統(tǒng)而言,由于其與以上實施例公開的新聞熱度預(yù)估方法相對應(yīng),且具有相同的技術(shù)效果,所以描述的比較簡單,相關(guān)相似之處請參見以上實施例中新聞熱度預(yù)估方法部分的說明即可,此處不再詳述。

綜上所述,本發(fā)明具有以下優(yōu)勢:本發(fā)明提供了基于新聞內(nèi)容的靜態(tài)屬性的新聞熱度預(yù)估方案,該方案基于深度和寬度學(xué)習(xí)技術(shù),在保證網(wǎng)絡(luò)深度的基礎(chǔ)上,采用不同種類的神經(jīng)網(wǎng)絡(luò)并行訓(xùn)練來增加網(wǎng)絡(luò)寬度,并在此基礎(chǔ)上進行預(yù)估模型的訓(xùn)練。有效的解決了每天海量冷啟動的文章的熱度預(yù)估問題,在時效性和準(zhǔn)確性上有了顯著的提高,加大了高質(zhì)量冷啟動新聞曝光的概率,提高高質(zhì)量新聞曝光的實時性,進而提高了用戶閱讀體驗。

需要說明的是,本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。

為了描述的方便,描述以上系統(tǒng)或裝置時以功能分為各種模塊或單元分別描述。當(dāng)然,在實施本申請時可以把各單元的功能在同一個或多個軟件和/或硬件中實現(xiàn)。

通過以上的實施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,本申請的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如rom/ram、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實施例或者實施例的某些部分所述的方法。

最后,還需要說明的是,在本文中,諸如第一、第二、第三和第四等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1