一種基于數(shù)據(jù)挖掘技術的微博推薦方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及計算機科學及網(wǎng)絡技術領域,特別是涉及一種微博推薦方法的數(shù)據(jù)挖 掘技術。
【背景技術】
[0002] 微博網(wǎng)站每天都會發(fā)布數(shù)據(jù)量非常之多的微博,尤其是大型網(wǎng)站的用戶訪問量多 達億級別,而且信息更新速度非???,對微博的時效性也有很高的要求。網(wǎng)站針對這種情 況,首要選擇就是實施微博推薦,快速有效的找到用戶感興趣的微博,獲取用戶想要了解的 信息。
[0003] 現(xiàn)有技術中,推薦方法主要分為三種:第一種是基于內(nèi)容過濾,基于內(nèi)容過濾的推 薦系統(tǒng)通過比較項(商品)之間的相似性而不是用戶之間的相似性實現(xiàn)推薦功能;第二種是 基于協(xié)同過濾,基于協(xié)同過濾技術的電子商務推薦系統(tǒng)并不分析商品之間的相似性,而是 學習目標用戶和歷史用戶之間行為的相似性,而不依賴商品的特征,從而根據(jù)相似歷史用 戶的行為生成推薦結果;第三種是混合型,結合使用前面兩種技術,盡量利用它們的優(yōu)點而 避免其缺點,提高推薦系統(tǒng)的性能和推薦質(zhì)量。
[0004] 但是在上述現(xiàn)有技術中,基于內(nèi)容過濾,只能考慮到微博的相似性而不能考慮到 微博的時效性,所以推薦效果不理想;基于協(xié)同過濾,必須是鑒于訪問記錄而進行的推薦, 對時效性要求較高的微博推薦而言,只推薦被訪問過的熱門微博,故在協(xié)同過濾中,就會生 成已過期的熱門微博。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于提供一種基于數(shù)據(jù)挖掘技術的微博推薦方法及裝置,克服現(xiàn)有 技術中針對微博上現(xiàn)有的大量微博信息不能有效合理地推薦給相關用戶的難題,,以實現(xiàn) 能夠通過數(shù)據(jù)挖掘技術,匹配相關類別的微博和用戶,并根據(jù)相關性給用戶有效的推薦意 見。
[0006] 為了解決以上技術問題,本發(fā)明采用的具體技術方案如下:
[0007] -種基于數(shù)據(jù)挖掘技術的微博推薦方法,其特征在于包括以下步驟:
[0008] 步驟一,將微博按照內(nèi)容進行分類
[0009] 通過KNN分類算法,將微博按照內(nèi)容進行分類。按照內(nèi)容可分為情感類、社會類、明 星類、財經(jīng)類、體育類、科技類、軍事類、教育類、游戲類;
[0010]步驟二,獲取預置時間段內(nèi)選定用戶對各類微博的點擊量,并根據(jù)各類微博的該 所述點擊量,計算得到所述用戶在所述時間段內(nèi)的微博興趣模型;
[0011]根據(jù)各類微博的所述點擊量,通過貝葉斯全概率公式計算得到所述用戶在所述時 間段內(nèi)的微博興趣模型。根據(jù)所述用戶在所述時間段的微博興趣模型,加權平均計算得到 所述用戶在包含多個所述時間段的當天24小時的最終微博興趣模型;
[0012]步驟三,按照所述最終微博興趣模型聚類所有用戶,并根據(jù)所述最終微博興趣模 型確定向聚類后的各類用戶推薦的微博候選集;
[0013] 將對微博的興趣向量相似的用戶聚成一個用戶類,向?qū)儆谕粋€聚類的用戶推薦 相同的微博,具體采用鑒于K均值算法的MapReduce模型實現(xiàn)用戶聚類,根據(jù)預置時間段內(nèi) 最終微博興趣模型得到微博候選集;
[0014] 步驟四,將所述微博候選集中的微博推薦給所述用戶
[0015] 將所述微博候選集中的微博按照一定的規(guī)則推薦給用戶,根據(jù)用戶興趣標簽推薦 相關類別的微博。規(guī)則為:在相關類別中,將所述微博候選集中的微博按照權重值進行降序 排列,并按照排列的先后順序向所述用戶推薦微博。
[0016] -種基于數(shù)據(jù)挖掘技術的微博推薦裝置,其特征在于:包括微博分類模塊,興趣建 模模塊,用戶聚類模塊,候選集確定模塊,微博推薦模塊;
[0017] 所述微博分類模塊,用于將微博按照內(nèi)容進行分類;興趣建模模塊,獲取預置時間 段內(nèi)選定用戶對各類微博的點擊量,并根據(jù)各類微博的該所述點擊量,計算得到所述用戶 在所述時間段內(nèi)的微博興趣模型;用戶聚類模塊,用于按照所述最終微博興趣模型聚類各 用戶;候選集確定模塊,根據(jù)所述最終微博興趣模型確定向聚類后的各類用戶推薦的微博 候選集;微博推薦模塊,用于將所述微博候選集中的微博推薦給所述用戶。本發(fā)明的工作過 程為:將發(fā)布微博按照內(nèi)容在微博分類模塊中進行分類,獲得微博類別;獲取預置時間段內(nèi) 選定用戶對各類微博的點擊量,并根據(jù)各類微博的該所述點擊量,在興趣建模模塊中計算 得到所述用戶在所述時間段內(nèi)的微博興趣模型;在用戶聚類模塊中將對微博的興趣向量相 似的用戶聚成一個用戶類,向?qū)儆谕粋€聚類的用戶推薦相同的微博;根據(jù)所述最終微博 興趣模型,在候選集確定模塊中確定向聚類后的各類用戶推薦的微博候選集;最后在微博 推薦模塊中將所述微博候選集中的微博推薦給用戶。
[0018] 本發(fā)明具有有益效果。本發(fā)明通過采用數(shù)據(jù)挖掘技術,使得微博推薦方法及裝置 更加準確有效。具體體現(xiàn)在:通過KNN分類方法,用較低的代價得到高效的分類結果;用貝葉 斯全概率公式計算微博興趣模型,在推薦的實時性方面得到提升;用K均值聚類方法,對所 有用戶進行有效聚類。
【附圖說明】
[0019] 圖1是本發(fā)明的摘要附圖;
[0020] 圖2是本發(fā)明的實施流程圖;
[0021 ]圖3是本發(fā)明的裝置示意圖;
[0022]圖3中:1、微博分類模塊;2、興趣建模模塊;3、用戶聚類模塊;4、候選集確定模塊; 5、微博推薦模塊。
【具體實施方式】
[0023]下面結合附圖對本發(fā)明的【具體實施方式】進行詳細闡述,以使本發(fā)明的優(yōu)點和特征 更容易被本領域技術人員理解,從而對本發(fā)明的保護范圍做出更為清楚明確的界定。
[0024] 實施例一:
[0025] 本發(fā)明提供了一種基于數(shù)據(jù)挖掘的微博推薦方法,其實施流程如圖2所示,包括如 下步驟:
[0026] 步驟一,將微博根據(jù)內(nèi)容進行分類。
[0027] 按照內(nèi)容可分為情感類、社會類、明星類、財經(jīng)類、體育類、科技類、軍事類、教育 類、游戲類。
[0028] 具體地,可通過多項式模型的KNN分類算法來對微博進行分類,其優(yōu)點在于,重新 訓練的代價較低,而且簡單有效,另外該算法比較適用于樣本容量比較大的類域的自動分 類,由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別 的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。對 微博分類的主要目的是實現(xiàn)對各認證微博或者公眾號微博以及熱門微博的自動分類,分類 結果用來分析用戶興趣,將按照內(nèi)容分類得到的類別作為描述用戶興趣的參照。
[0029]步驟二,獲取預置時間段內(nèi)選定用戶對各類微博的點擊量,并根據(jù)各類微博的該 所述點擊量,計算得到所述用戶在所述時間段內(nèi)的微博興趣模型。
[0030] 下面建立選定用戶的微博興趣模型,微博興趣模型指的是用戶和用戶所感興趣的 微博之間相互對應的關系,即,用戶對各類微博的微博興趣度,獲取某時間段內(nèi)用戶對各類 微博的點擊量,并根據(jù)所述點擊量,計算得到選定用戶在所述時間段內(nèi)的微博興趣模型。
[0031] 其中,選定用戶作為訓練集,為了能夠代表微博用戶的真實使用情況,采用隨機抽 樣的方法來選定,則得到所述選定用戶在某時間段的微博興趣模型就是全體用戶