本發(fā)明文章熱度的預(yù)測方法再一個實施例的流程圖,如圖3所示,步驟101之 前,還可以包括:
[0035] 步驟301,獲取上述用戶在當(dāng)前時刻之前的預(yù)定時間長度內(nèi)發(fā)表的歷史文章的關(guān) 鍵詞。
[0036] 具體地,獲取上述用戶在當(dāng)前時刻之前的預(yù)定時間長度內(nèi)發(fā)表的歷史文章的關(guān)鍵 詞可以為:獲得上述用戶在當(dāng)前時刻之前的預(yù)定時間長度內(nèi)發(fā)表的歷史文章;使用分詞工 具從上述歷史文章中獲取熱度排名在預(yù)定名次之前的關(guān)鍵詞。
[0037] 其中,上述預(yù)定名次可以在具體實現(xiàn)時根據(jù)系統(tǒng)性能和/或?qū)崿F(xiàn)需求等自行設(shè)定, 本實施例對上述預(yù)定名次不作限定,舉例來說,上述預(yù)定名次可以為10。
[0038] 圖4為本發(fā)明文章熱度的預(yù)測方法再一個實施例的流程圖,如圖4所示,步驟102之 前,還可以包括:
[0039] 步驟401,生成聚類模型。
[0040]其中,步驟401與步驟101可以并行執(zhí)行,也可以先后執(zhí)行,本實施例對步驟401與 步驟101的執(zhí)行順序不作限定,但本實施例以步驟401在步驟101之前,且在步驟301之后執(zhí) 行為例示出。
[0041]圖5為本發(fā)明文章熱度的預(yù)測方法再一個實施例的流程圖,如圖5所示,步驟401可 以包括:
[0042]步驟501,根據(jù)上述關(guān)鍵詞,為上述用戶在當(dāng)前時刻之前的預(yù)定時間長度內(nèi)發(fā)表的 每篇歷史文章生成對應(yīng)的第二矢量。
[0043]其中,上述每篇歷史文章對應(yīng)的第二矢量的維度等于上述關(guān)鍵詞的個數(shù),上述每 篇歷史文章對應(yīng)的第二矢量中各維度的值分別對應(yīng)每個關(guān)鍵詞在每篇歷史文章中的出現(xiàn) 情況。
[0044]舉例來說,假設(shè)上述關(guān)鍵詞的個數(shù)為10,則上述每篇歷史文章對應(yīng)的第二矢量為 10維矢量,以第一篇歷史文章對應(yīng)的第二矢量為例,上述第一篇歷史文章對應(yīng)的第二矢量 中第一個維度的值表示第一個關(guān)鍵詞是否在上述第一篇歷史文章中出現(xiàn),如果出現(xiàn),則上 述第一篇歷史文章對應(yīng)的第二矢量中第一個維度的值可以為"1",如果未出現(xiàn),則上述第一 篇歷史文章對應(yīng)的第二矢量中第一個維度的值可以為"〇",以此類推。當(dāng)然,本實施例并不 限定用"Γ表示關(guān)鍵詞在第一篇歷史文章中出現(xiàn),用"0"表示關(guān)鍵詞在第一篇歷史文章中未 出現(xiàn)。
[0045] 步驟502,對上述每篇歷史文章對應(yīng)的第二矢量進行聚類判斷,生成聚類模型,以 將上述用戶在當(dāng)前時刻之前的預(yù)定時間長度內(nèi)發(fā)表的歷史文章聚為預(yù)定個數(shù)的類別。
[0046] 其中,上述預(yù)定個數(shù)可以在具體實現(xiàn)時根據(jù)上述用戶在當(dāng)前時刻之前的預(yù)定時間 長度內(nèi)發(fā)表的歷史文章的篇數(shù)設(shè)定,本實施例對上述預(yù)定個數(shù)的大小不作限定,舉例來說, 上述預(yù)定個數(shù)可以為3。
[0047] 具體地,可以使用kmeans聚類算法對上述每篇歷史文章對應(yīng)的第二矢量進行聚類 判斷,生成上述聚類模型。
[0048] 可選地,步驟502之前,還可以對上述每篇歷史文章對應(yīng)的第二矢量進行降維處 理。具體地,可以使用主成分分析等特征提煉方法,對上述每篇歷史文章對應(yīng)的第二矢量進 行降維處理。
[0049] 圖6為本發(fā)明文章熱度的預(yù)測方法再一個實施例的流程圖,如圖6所示,步驟103之 前,還可以包括:
[0050] 步驟601,針對上述用戶在當(dāng)前時刻之前的預(yù)定時間長度內(nèi)發(fā)表的歷史文章所屬 的類別,分別根據(jù)每個類別中的歷史文章的熱度值建立每個類別的回歸模型。
[0051] 這樣,在步驟103,通過上述用戶最新發(fā)表的文章所屬類別的回歸模型對上述用戶 最新發(fā)表的文章的熱度值進行預(yù)測時,可以根據(jù)上述用戶最新發(fā)表的文章所屬類別中的歷 史文章的熱度值獲得上述用戶最新發(fā)表的文章所屬類別中的歷史文章的熱度值的最佳期 望值,以上述最佳期望值作為上述用戶最新發(fā)表的文章的熱度值。
[0052]本實施例中,步驟601可以與步驟101~步驟102并行執(zhí)行,也可以先后執(zhí)行,本實 施例對步驟601與步驟101~步驟102的執(zhí)行順序不作限定,但圖6以步驟601在步驟101之 前,且在步驟502之后執(zhí)行為例示出。
[0053] 上述文章熱度的預(yù)測方法中,根據(jù)用戶在當(dāng)前時刻之前的預(yù)定時間長度內(nèi)發(fā)表的 歷史文章的關(guān)鍵詞,為上述用戶最新發(fā)表的文章生成第一矢量,然后通過聚類模型對上述 第一矢量進行聚類判斷,獲得上述用戶最新發(fā)表的文章所屬的類別,最后通過上述用戶最 新發(fā)表的文章所屬類別的回歸模型對上述用戶最新發(fā)表的文章的熱度值進行預(yù)測,從而可 以實現(xiàn)在對用戶發(fā)表的文章進行聚類判斷之后,再根據(jù)上述文章所屬的類別對上述文章的 熱度值進行預(yù)測,提高了文章熱度預(yù)測的準(zhǔn)確度,并且整個過程自動化完成,不需要人工干 預(yù)。
[0054] 圖7為本發(fā)明文章熱度的預(yù)測方法再一個實施例的流程圖,本實施例對本發(fā)明提 供的文章熱度的預(yù)測方法進行舉例說明,如圖7所示,可以包括:
[0055]步驟701,提取出用戶在當(dāng)前時刻之前的6個月時間內(nèi)發(fā)表的微博總計1312篇。 [0056]步驟702,使用分詞工具從上述1312篇微博中獲取熱度排名前10的關(guān)鍵詞。
[0057]其中,獲取的前10個關(guān)鍵詞可以如表1所示。
[0058] 表1
[0059]
[0060] 步驟703,根據(jù)上述關(guān)鍵詞,為上述用戶的1312篇微博生成1312個10維矢量。
[0061] 其中,各矢量的10個維度的值分別對應(yīng)10個關(guān)鍵詞在該微博中的出現(xiàn)情況,如果 出現(xiàn),則對應(yīng)維度的值可以為"Γ ;如果未出現(xiàn),則對應(yīng)維度的值可以為"〇"。
[0062]本實施例中,由于生成的矢量的維度為10,維度較小,不做降維處理。
[0063]步驟704,使用Kmeans聚類算法,對1312個矢量進行聚類,生成聚類模型。
[0064]本實施例中,在對1312個矢量進行聚類之后,可以將上述1312篇微博聚為兩類。 [0065]步驟705,根據(jù)每個類別中微博的熱度值分別建立每個類別的回歸模型。
[0066]步驟706,對于上述用戶最新發(fā)表的微博,根據(jù)上述10個關(guān)鍵詞為上述用戶最新發(fā) 表的微博生成10維矢量,使用上述聚類模型對生成的10維矢量進行聚類判斷,獲得上述用 戶最新發(fā)表的微博所屬的類別,并通過上述用戶最新發(fā)表的微博所屬類別的回歸模型對上 述用戶最新發(fā)表的微博的熱度值進行預(yù)測。
[0067] 具體地,在通過上述用戶最新發(fā)表的微博所屬類別的回歸模型對上述用戶最新發(fā) 表的微博的熱度值進行預(yù)測時,可以根據(jù)上述用戶最新發(fā)表的微博所屬類別中的歷史微博 的熱度值獲得上述用戶最新發(fā)表的微博所屬類別中的歷史微博的熱度值的最佳期望值,以 上述最佳期望值作為上述用戶最新發(fā)表的微博的熱度值。
[0068] 本發(fā)明提供的文章熱度的預(yù)測方法,可以提高文章熱度預(yù)測的準(zhǔn)確度,不使用本 發(fā)明提供的文章熱度的預(yù)測方法時,用戶的微博熱度的預(yù)測準(zhǔn)確度為1% (即100篇中有1篇 可以準(zhǔn)確預(yù)測),使用本發(fā)明提供的文章熱度的預(yù)測方法之后,用戶的微博熱度的預(yù)測準(zhǔn)確 度可以提升到33%。
[0069] 圖8為本發(fā)明文章熱度的預(yù)測裝置一個實施例的結(jié)構(gòu)示意圖,本實施例中的文章 熱度的預(yù)測裝置可以實現(xiàn)本發(fā)明圖1~圖7所示實施例的流程,如圖8所示,上述文章熱