度的 預(yù)測裝置可以包括:生成模塊81、聚類模塊82和預(yù)測模塊83;
[0070] 其中,生成模塊81,用于根據(jù)用戶在當(dāng)前時(shí)刻之前的預(yù)定時(shí)間長度內(nèi)發(fā)表的歷史 文章的關(guān)鍵詞,為上述用戶最新發(fā)表的文章生成第一矢量,上述第一矢量的維度等于上述 關(guān)鍵詞的個(gè)數(shù),上述第一矢量中各維度的值分別對應(yīng)每個(gè)關(guān)鍵詞在上述用戶最新發(fā)表的文 章中的出現(xiàn)情況。
[0071] 舉例來說,假設(shè)上述關(guān)鍵詞的個(gè)數(shù)為10,則第一矢量為10維矢量,上述第一矢量中 第一個(gè)維度的值表示第一個(gè)關(guān)鍵詞是否在上述用戶最新發(fā)表的文章中出現(xiàn),如果出現(xiàn),則 上述第一矢量中第一個(gè)維度的值可以為"1",如果未出現(xiàn),則上述第一矢量中第一個(gè)維度的 值可以為"Ο",以此類推。當(dāng)然,本實(shí)施例并不限定用"Γ表示關(guān)鍵詞在上述用戶最新發(fā)表的 文章中出現(xiàn),用"〇"表示關(guān)鍵詞在上述用戶最新發(fā)表的文章中未出現(xiàn)。
[0072]其中,上述預(yù)定時(shí)間長度可以在具體實(shí)現(xiàn)時(shí)根據(jù)系統(tǒng)性能和/或?qū)崿F(xiàn)需求等自行 設(shè)定,本實(shí)施例對上述預(yù)定時(shí)間長度的大小不作限定,舉例來說,上述預(yù)定時(shí)間長度可以為 6個(gè)月。
[0073]聚類模塊82,用于通過聚類模型對生成模塊81生成的第一矢量進(jìn)行聚類判斷,獲 得上述用戶最新發(fā)表的文章所屬的類別;
[0074]預(yù)測模塊83,用于通過上述用戶最新發(fā)表的文章所屬類別的回歸模型對上述用戶 最新發(fā)表的文章的熱度值進(jìn)行預(yù)測。
[0075] 上述文章熱度的預(yù)測裝置中,生成模塊81根據(jù)用戶在當(dāng)前時(shí)刻之前的預(yù)定時(shí)間長 度內(nèi)發(fā)表的歷史文章的關(guān)鍵詞,為上述用戶最新發(fā)表的文章生成第一矢量,然后聚類模塊 82通過聚類模型對上述第一矢量進(jìn)行聚類判斷,獲得上述用戶最新發(fā)表的文章所屬的類 另IJ,最后預(yù)測模塊83通過上述用戶最新發(fā)表的文章所屬類別的回歸模型對上述用戶最新發(fā) 表的文章的熱度值進(jìn)行預(yù)測,從而可以實(shí)現(xiàn)在對用戶發(fā)表的文章進(jìn)行聚類判斷之后,再根 據(jù)上述文章所屬的類別對上述文章的熱度值進(jìn)行預(yù)測,提高了文章熱度預(yù)測的準(zhǔn)確度。
[0076] 圖9為本發(fā)明文章熱度的預(yù)測裝置另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖,與圖8所示的文章 熱度的預(yù)測裝置相比,不同之處在于,圖9所示的文章熱度的預(yù)測裝置還可以包括:
[0077]降維模塊84,用于在聚類模塊82通過聚類模型對上述第一矢量進(jìn)行聚類判斷之 前,對上述第一矢量進(jìn)行降維處理。具體地,降維模塊84可以使用主成分分析等特征提煉方 法,對第一矢量進(jìn)行降維處理。
[0078]進(jìn)一步地,上述文章熱度的預(yù)測裝置還可以包括:
[0079]獲取模塊85,用于在生成模塊81為上述用戶最新發(fā)表的文章生成第一矢量之前, 獲取上述用戶在當(dāng)前時(shí)刻之前的預(yù)定時(shí)間長度內(nèi)發(fā)表的歷史文章的關(guān)鍵詞。
[0080] 本實(shí)施例中,獲取模塊85,具體用于獲得上述用戶在當(dāng)前時(shí)刻之前的預(yù)定時(shí)間長 度內(nèi)發(fā)表的歷史文章,使用分詞工具從上述歷史文章中獲取熱度排名在預(yù)定名次之前的關(guān) 鍵詞。
[0081] 其中,上述預(yù)定名次可以在具體實(shí)現(xiàn)時(shí)根據(jù)系統(tǒng)性能和/或?qū)崿F(xiàn)需求等自行設(shè)定, 本實(shí)施例對上述預(yù)定名次不作限定,舉例來說,上述預(yù)定名次可以為10。
[0082] 進(jìn)一步地,聚類模塊82,還用于在對上述第一矢量進(jìn)行聚類判斷之前,生成上述聚 類模型。
[0083]本實(shí)施例中,生成模塊81,還用于根據(jù)上述關(guān)鍵詞,為上述用戶在當(dāng)前時(shí)刻之前的 預(yù)定時(shí)間長度內(nèi)發(fā)表的每篇?dú)v史文章生成對應(yīng)的第二矢量;
[0084] 其中,上述每篇?dú)v史文章對應(yīng)的第二矢量的維度等于上述關(guān)鍵詞的個(gè)數(shù),上述每 篇?dú)v史文章對應(yīng)的第二矢量中各維度的值分別對應(yīng)每個(gè)關(guān)鍵詞在每篇?dú)v史文章中的出現(xiàn) 情況。
[0085] 舉例來說,假設(shè)上述關(guān)鍵詞的個(gè)數(shù)為10,則上述每篇?dú)v史文章對應(yīng)的第二矢量為 10維矢量,以第一篇?dú)v史文章對應(yīng)的第二矢量為例,上述第一篇?dú)v史文章對應(yīng)的第二矢量 中第一個(gè)維度的值表示第一個(gè)關(guān)鍵詞是否在上述第一篇?dú)v史文章中出現(xiàn),如果出現(xiàn),則上 述第一篇?dú)v史文章對應(yīng)的第二矢量中第一個(gè)維度的值可以為"1",如果未出現(xiàn),則上述第一 篇?dú)v史文章對應(yīng)的第二矢量中第一個(gè)維度的值可以為"ο",以此類推。當(dāng)然,本實(shí)施例并不 限定用"Γ表示關(guān)鍵詞在第一篇?dú)v史文章中出現(xiàn),用"0"表示關(guān)鍵詞在第一篇?dú)v史文章中未 出現(xiàn)。
[0086] 這時(shí),聚類模塊82,具體用于對上述每篇?dú)v史文章對應(yīng)的第二矢量進(jìn)行聚類,生成 上述聚類模型,以將所述用戶在當(dāng)前時(shí)刻之前的預(yù)定時(shí)間長度內(nèi)發(fā)表的歷史文章聚為預(yù)定 個(gè)數(shù)的類別。
[0087] 其中,上述預(yù)定個(gè)數(shù)可以在具體實(shí)現(xiàn)時(shí)根據(jù)上述用戶在當(dāng)前時(shí)刻之前的預(yù)定時(shí)間 長度內(nèi)發(fā)表的歷史文章的篇數(shù)設(shè)定,本實(shí)施例對上述預(yù)定個(gè)數(shù)的大小不作限定,舉例來說, 上述預(yù)定個(gè)數(shù)可以為3。
[0088] 具體地,聚類模塊82可以使用kmeans聚類算法對上述每篇?dú)v史文章對應(yīng)的第二矢 量進(jìn)行聚類,生成上述聚類模型。
[0089]進(jìn)一步地,上述文章熱度的預(yù)測裝置還可以包括:降維模塊84;
[0090] 降維模塊84,用于在聚類模塊82對上述每篇?dú)v史文章對應(yīng)的第二矢量進(jìn)行聚類之 前,對上述每篇?dú)v史文章對應(yīng)的第二矢量進(jìn)行降維處理。
[0091] 具體地,降維模塊84可以使用主成分分析等特征提煉方法,對上述每篇?dú)v史文章 對應(yīng)的第二矢量進(jìn)行降維處理。
[0092] 進(jìn)一步地,上述文章熱度的預(yù)測裝置還可以包括:
[0093]建立模塊86,用于在預(yù)測模塊83對上述用戶最新發(fā)表的文章的熱度值進(jìn)行預(yù)測之 前,針對上述用戶在當(dāng)前時(shí)刻之前的預(yù)定時(shí)間長度內(nèi)發(fā)表的歷史文章所屬的類別,分別根 據(jù)每個(gè)類別中的歷史文章的熱度值建立每個(gè)類別的回歸模型。
[0094]這樣,在預(yù)測模塊83通過上述用戶最新發(fā)表的文章所屬類別的回歸模型對上述用 戶最新發(fā)表的文章的熱度值進(jìn)行預(yù)測時(shí),可以根據(jù)上述用戶最新發(fā)表的文章所屬類別中的 歷史文章的熱度值獲得上述用戶最新發(fā)表的文章所屬類別中的歷史文章的熱度值的最佳 期望值,以上述最佳期望值作為上述用戶最新發(fā)表的文章的熱度值。
[0095]本實(shí)施例提供的文章熱度的預(yù)測裝置,可以提高文章熱度預(yù)測的準(zhǔn)確度,不使用 本實(shí)施例提供的文章熱度的預(yù)測裝置時(shí),用戶的微博熱度的預(yù)測準(zhǔn)確度為1 % (即1〇〇篇中 有1篇可以準(zhǔn)確預(yù)測),使用本實(shí)施例提供的文章熱度的預(yù)測裝置之后,用戶的微博熱度的 預(yù)測準(zhǔn)確度可以提升到33%。
[0096]需要說明的是,在本發(fā)明的描述中,術(shù)語"第一"、"第二"等僅用于描述目的,而不 能理解為指示或暗示相對重要性。此外,在本發(fā)明的描述中,除非另有說明,"多個(gè)"的含義 是兩個(gè)或兩個(gè)以上。
[0097] 流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括 一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部 分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順 序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明 的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
[0098] 應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述 實(shí)施方式中,多個(gè)