一種新聞推薦方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明屬于計算機及網(wǎng)絡技術領域,尤其設及一種新聞推薦方法及裝置。
【背景技術】
[0002] 大型口戶網(wǎng)站每天發(fā)布的各類文章非常之多,但是有的文章用戶訪問占比卻不到 10%,大量的文章無人瀏覽而得不到展示的機會。在運種情況下,對用戶實施文章推薦是眾 多網(wǎng)站的首要選擇。然而,大型網(wǎng)站的用戶訪問量是巨大的,每天的用戶訪問日志量多達億 級別。尤其是新聞類文章,每天待發(fā)布的熱點新聞數(shù)量巨大,同時熱點新聞對時效性要求比 較高,運也對熱點新聞的推薦系統(tǒng)提出了挑戰(zhàn)。
[0003] 現(xiàn)有技術中,推薦方法主要分為兩種:第一種是基于內容的推薦,即,對物品 (item)和用戶(user)分別建模,然后計算用戶和物品的模型相似度,把和用戶的模型相似 度最高的物品推薦給用戶;第二種是基于協(xié)同過濾的推薦,即,根據(jù)用戶的訪問記錄挖掘出 相似度,而不再根據(jù)用戶和物品本身的屬性計算相似度,并且協(xié)同過濾推薦與業(yè)務無關。
[0004] 但是在上述現(xiàn)有技術中,基于內容的推薦通常不考慮像新聞熱點因素,即沒有考 慮新聞的生命周期,所W推薦效果并不理想;而基于協(xié)同過濾的推薦是基于訪問記錄進行 的推薦,只有被訪問過的熱點新聞才能被推薦,對時效性要求非常高的熱點新聞來說,達不 到實時推送的效果。熱點新聞生命周期極其短暫,很可能下一時刻就被下一條熱點新聞取 代而造成無人訪問的結果,從而導致訪問記錄非常稀疏,給實施根據(jù)訪問記錄來計算相似 度的方法造成一定程度的困難,并且計算的相似度準確性不高。
【發(fā)明內容】
陽〇化]本發(fā)明提供一種新聞推薦方法及裝置,通過綜合用戶對新聞的真實興趣和新聞的 時效性向用戶推薦新聞,W提高推薦新聞的準確率。
[0006] 本發(fā)明第一方面提供一種新聞推薦方法,包括:
[0007] 將新聞按照內容進行分類;獲取選定時刻用戶對各類新聞的點擊量和所有用戶對 各類新聞的點擊總量,并根據(jù)各類新聞的所述點擊量和所述點擊總量,計算得到所述用戶 在所述選定時刻的新聞興趣模型;按照所述選定時刻的新聞興趣模型,加權平均得到包含 多個所述選定時刻的預置時間段內的最終新聞興趣模型;按照所述最終新聞興趣模型聚類 各用戶,并根據(jù)所述最終新聞興趣模型及新聞熱度確定向聚類后的各類用戶推薦的新聞候 選集;將所述新聞候選集中的新聞推薦給所述用戶。
[0008] 本發(fā)明第二方面提供一種新聞推薦裝置,包括:
[0009]分類模塊,用于將新聞按照內容進行分類;獲取模塊,用于獲取選定時刻用戶對各 類新聞的點擊量和所有用戶對各類新聞的點擊總量;計算模塊,用于根據(jù)各類新聞的所述 點擊量和所述點擊總量,計算得到所述用戶在所述選定時刻的新聞興趣模型;所述計算模 塊,還用于按照所述選定時刻的新聞興趣模型,加權平均得到包含多個所述選定時刻的預 置時間段內的最終新聞興趣模型;聚類模塊,用于按照所述最終新聞興趣模型聚類各用戶; 確定模塊,用于根據(jù)所述最終新聞興趣模型及新聞熱度確定向聚類后的各類用戶推薦的新 聞候選集;推薦模塊,用于將所述新聞候選集中的新聞推薦給所述用戶。
[0010] 從上述本發(fā)明實施例可知,相較于現(xiàn)有技術,本發(fā)明一方面通過根據(jù)用戶對不同 類別的新聞點擊量W及對應的總點擊量建立新聞興趣模型,平衡點擊分布中新聞熱度的影 響,可提高新聞推薦的合理性和準確性,另一方面通過將新聞興趣度相似的用戶進行聚類, 可加快推送速度且可保證實時性,并且通過計算當前一段較長時間內用戶的最終新聞興趣 模型,可進一步提高推薦準確性和時效性。
【附圖說明】
[0011] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領域技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可W根 據(jù)運些附圖獲得其他的附圖。
[0012] 圖1是本發(fā)明第一實施例提供的新聞推薦方法的實現(xiàn)流程示意圖;
[0013] 圖2是本發(fā)明第二實施例提供的新聞推薦裝置的結構示意圖;
[0014]圖3是本發(fā)明第=實施例提供的新聞推薦裝置的結構示意圖。
【具體實施方式】
[0015] 為使得本發(fā)明的發(fā)明目的、特征、優(yōu)點能夠更加的明顯和易懂,下面將結合本發(fā)明 實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實 施例僅僅是本發(fā)明一部分實施例,而非全部實施例。基于本發(fā)明中的實施例,本領域技術人 員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0016] 請參閱圖1,本發(fā)明第一實施例提供了一種新聞推薦方法,該方法主要包括W下步 驟:
[0017]S101、將新聞按照內容進行分類。
[0018] 按照內容將新聞分類,新聞可分為社會類、軍事類、科技類、財經類、娛樂類、教育 類等類別。
[0019] 具體地,可通過多項式模型的樸素貝葉斯分類算法來對新聞進行分類,其優(yōu)點在 于,對熱點新聞之類的新聞信息,樸素貝葉斯分類算法的分類和訓練的速度都很快。對新 聞分類的主要目的是實現(xiàn)對各網(wǎng)站口戶新聞的自動分類,從而為用戶興趣分析提供基礎數(shù) 據(jù),W新聞的內容的類別為粒度來描述用戶的興趣。
[0020] S102、獲取選定時刻用戶對各類新聞的點擊量和所有用戶對各類新聞的點擊總 量,并根據(jù)各類新聞的該點擊量和該點擊總量,計算得到該用戶在該選定時刻的新聞興趣 模型。
[0021] 需要說明的是,用戶對新聞的點擊分布是指用戶對新聞的點擊量的分布情況,可 W反映用戶對不同類新聞的不同興趣,但由于用戶對新聞的點擊行為,受用戶自身的真實 興趣和新聞熱點兩個因素的影響,無法準確的反映該用戶對新聞的真實興趣。因此,用全體 用戶的點擊分布平衡單個用戶的點擊分布中新聞熱點運個因素的影響,更能反映用戶的真 實興趣。
[0022] 下面建立用戶的新聞興趣模型,該新聞興趣模型是指用戶和其感興趣的新聞的對 應關系,即,用戶對各類新聞的新聞興趣度。獲取t時刻用戶對各類新聞的點擊量和所有用 戶對各類新聞的點擊總量,并根據(jù)各類新聞的該點擊量和該點擊總量,計算得到該用戶在t 時刻的新聞興趣模型。
[0023] 具體地,用U表示該用戶,Ci表示類別為i的新聞的所有文章,I(u,Ci)表示用戶U 對Ci的新聞興趣度。
[0024] 采用貝葉斯全概率公式來計算用戶的新聞興趣度計算公式為:
[00巧]P (click I categoiT = Ci)
[00%] 根據(jù)貝葉斯全概率公式:
[0027]
[002引其中,
,表不用戶U點擊C;新聞的點擊分布,即,用戶U對Ci的 新聞的點擊量; 陽029] N(u,Ci)表示用戶U點擊過的C沖的新聞數(shù)量,N(u)表示用戶U點擊過的所有類 別的新聞總數(shù);
[0030] D(Ci)表示全體用戶點擊Ci的點擊分布,即所有用戶對C1的點擊量;
[0031] P (category=Cil click)近似為用戶U對Ci的點擊分布D(u,Ci); 陽032] Pt(category=Ci)近似為全體用戶對Ci的點擊分布D(ci);
[003引Pt(click)為描述用戶點擊事件的概率常量,因此,t時刻用戶U對Ci產生的興趣 度計算公式可簡化為:
[0034]
。)
[0035] 所W,用全體用戶的點擊分布Dt(Ci)平衡單個用戶U的點擊分布Dt(u,Ci)中Ci類 新聞熱點運個因素的影響,更能反映用戶的真實興趣。
[0036] 用全體用戶的點擊分布Dt(Ci)對在口戶網(wǎng)站中占主導地位的新聞分類的權重進 行了懲罰,使得對新聞推薦的結果更具有多樣性。
[0037] S103、按照該選定時刻的新聞興趣模型,加權平均得到包含多個該選定時刻的預 置時間段內的最終新聞興趣模型。
[0038] 最終新聞興趣模型,是計算包含多個該選定時刻的預置時間段內的用戶新聞興趣 額度,可進一步增加確定用戶新聞興趣度的準確度。新聞熱度具有時效性,W及為了計算的 簡便,本實施例中,該預置時間段為該選定時刻所在的當天24小時。
[0039]具體地,根據(jù)前述用戶在時刻t的新聞興趣度的貝葉斯計算公式(I),計算當天的 用戶對各類新聞的最終新聞興趣度。
[0040]
[0041] 其中,I(u,Ci)表示用戶對Ci的新聞的最終興趣度。kt是新聞在t時刻的時刻權重 值,kt的范圍是0~1,鑒于新聞的時效性,時間越靠近當前時刻,新聞的時刻權重值越大。 It(U,Ci)表示用戶在t時刻對Ci的新聞的興趣度。
[0042] 經過上述加權平均得到的計算結果,更接近用戶的真實興趣模型。此時,可W為該 用戶添加新聞興趣標簽,即記錄該用戶的最終新聞興趣模型信息。
[0043]S104、按照該最終新聞興趣模型