一種基于數(shù)據(jù)挖掘技術的微博推薦方法及裝置的制造方法

文檔序號：9810740閱讀：324來源：國知局

一種基于數(shù)據(jù)挖掘技術的微博推薦方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及計算機科學及網(wǎng)絡技術領域，特別是涉及一種微博推薦方法的數(shù)據(jù)挖掘技術。
【背景技術】
[0002] 微博網(wǎng)站每天都會發(fā)布數(shù)據(jù)量非常之多的微博，尤其是大型網(wǎng)站的用戶訪問量多達億級別，而且信息更新速度非?？?，對微博的時效性也有很高的要求。網(wǎng)站針對這種情況，首要選擇就是實施微博推薦，快速有效的找到用戶感興趣的微博，獲取用戶想要了解的信息。
[0003] 現(xiàn)有技術中，推薦方法主要分為三種:第一種是基于內(nèi)容過濾，基于內(nèi)容過濾的推薦系統(tǒng)通過比較項(商品）之間的相似性而不是用戶之間的相似性實現(xiàn)推薦功能;第二種是基于協(xié)同過濾，基于協(xié)同過濾技術的電子商務推薦系統(tǒng)并不分析商品之間的相似性，而是學習目標用戶和歷史用戶之間行為的相似性，而不依賴商品的特征，從而根據(jù)相似歷史用戶的行為生成推薦結果;第三種是混合型，結合使用前面兩種技術，盡量利用它們的優(yōu)點而避免其缺點，提高推薦系統(tǒng)的性能和推薦質(zhì)量。
[0004] 但是在上述現(xiàn)有技術中，基于內(nèi)容過濾，只能考慮到微博的相似性而不能考慮到微博的時效性，所以推薦效果不理想；基于協(xié)同過濾，必須是鑒于訪問記錄而進行的推薦，對時效性要求較高的微博推薦而言，只推薦被訪問過的熱門微博，故在協(xié)同過濾中，就會生成已過期的熱門微博。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于提供一種基于數(shù)據(jù)挖掘技術的微博推薦方法及裝置，克服現(xiàn)有技術中針對微博上現(xiàn)有的大量微博信息不能有效合理地推薦給相關用戶的難題，，以實現(xiàn) 能夠通過數(shù)據(jù)挖掘技術，匹配相關類別的微博和用戶，并根據(jù)相關性給用戶有效的推薦意見。
[0006] 為了解決以上技術問題，本發(fā)明采用的具體技術方案如下：
[0007] -種基于數(shù)據(jù)挖掘技術的微博推薦方法，其特征在于包括以下步驟：
[0008] 步驟一，將微博按照內(nèi)容進行分類
[0009] 通過KNN分類算法，將微博按照內(nèi)容進行分類。按照內(nèi)容可分為情感類、社會類、明星類、財經(jīng)類、體育類、科技類、軍事類、教育類、游戲類；
[0010]步驟二，獲取預置時間段內(nèi)選定用戶對各類微博的點擊量，并根據(jù)各類微博的該所述點擊量，計算得到所述用戶在所述時間段內(nèi)的微博興趣模型；
[0011]根據(jù)各類微博的所述點擊量，通過貝葉斯全概率公式計算得到所述用戶在所述時間段內(nèi)的微博興趣模型。根據(jù)所述用戶在所述時間段的微博興趣模型，加權平均計算得到所述用戶在包含多個所述時間段的當天24小時的最終微博興趣模型；
[0012]步驟三，按照所述最終微博興趣模型聚類所有用戶，并根據(jù)所述最終微博興趣模型確定向聚類后的各類用戶推薦的微博候選集；
[0013] 將對微博的興趣向量相似的用戶聚成一個用戶類，向?qū)儆谕粋€聚類的用戶推薦相同的微博，具體采用鑒于K均值算法的MapReduce模型實現(xiàn)用戶聚類，根據(jù)預置時間段內(nèi) 最終微博興趣模型得到微博候選集；
[0014] 步驟四，將所述微博候選集中的微博推薦給所述用戶
[0015] 將所述微博候選集中的微博按照一定的規(guī)則推薦給用戶，根據(jù)用戶興趣標簽推薦相關類別的微博。規(guī)則為:在相關類別中，將所述微博候選集中的微博按照權重值進行降序排列，并按照排列的先后順序向所述用戶推薦微博。
[0016] -種基于數(shù)據(jù)挖掘技術的微博推薦裝置，其特征在于:包括微博分類模塊，興趣建模模塊，用戶聚類模塊，候選集確定模塊，微博推薦模塊；
[0017] 所述微博分類模塊，用于將微博按照內(nèi)容進行分類;興趣建模模塊，獲取預置時間段內(nèi)選定用戶對各類微博的點擊量，并根據(jù)各類微博的該所述點擊量，計算得到所述用戶在所述時間段內(nèi)的微博興趣模型；用戶聚類模塊，用于按照所述最終微博興趣模型聚類各用戶；候選集確定模塊，根據(jù)所述最終微博興趣模型確定向聚類后的各類用戶推薦的微博候選集;微博推薦模塊，用于將所述微博候選集中的微博推薦給所述用戶。本發(fā)明的工作過程為:將發(fā)布微博按照內(nèi)容在微博分類模塊中進行分類，獲得微博類別;獲取預置時間段內(nèi) 選定用戶對各類微博的點擊量，并根據(jù)各類微博的該所述點擊量，在興趣建模模塊中計算得到所述用戶在所述時間段內(nèi)的微博興趣模型;在用戶聚類模塊中將對微博的興趣向量相似的用戶聚成一個用戶類，向?qū)儆谕粋€聚類的用戶推薦相同的微博;根據(jù)所述最終微博興趣模型，在候選集確定模塊中確定向聚類后的各類用戶推薦的微博候選集;最后在微博推薦模塊中將所述微博候選集中的微博推薦給用戶。
[0018] 本發(fā)明具有有益效果。本發(fā)明通過采用數(shù)據(jù)挖掘技術，使得微博推薦方法及裝置更加準確有效。具體體現(xiàn)在:通過KNN分類方法，用較低的代價得到高效的分類結果；用貝葉斯全概率公式計算微博興趣模型，在推薦的實時性方面得到提升；用K均值聚類方法，對所有用戶進行有效聚類。
【附圖說明】
[0019] 圖1是本發(fā)明的摘要附圖；
[0020] 圖2是本發(fā)明的實施流程圖；
[0021 ]圖3是本發(fā)明的裝置示意圖；
[0022]圖3中：1、微博分類模塊;2、興趣建模模塊;3、用戶聚類模塊;4、候選集確定模塊； 5、微博推薦模塊。
【具體實施方式】
[0023]下面結合附圖對本發(fā)明的【具體實施方式】進行詳細闡述，以使本發(fā)明的優(yōu)點和特征更容易被本領域技術人員理解，從而對本發(fā)明的保護范圍做出更為清楚明確的界定。
[0024] 實施例一：
[0025] 本發(fā)明提供了一種基于數(shù)據(jù)挖掘的微博推薦方法，其實施流程如圖2所示，包括如下步驟：
[0026] 步驟一，將微博根據(jù)內(nèi)容進行分類。
[0027] 按照內(nèi)容可分為情感類、社會類、明星類、財經(jīng)類、體育類、科技類、軍事類、教育類、游戲類。
[0028] 具體地，可通過多項式模型的KNN分類算法來對微博進行分類，其優(yōu)點在于，重新訓練的代價較低，而且簡單有效，另外該算法比較適用于樣本容量比較大的類域的自動分類，由于KNN方法主要靠周圍有限的鄰近的樣本，而不是靠判別類域的方法來確定所屬類別的，因此對于類域的交叉或重疊較多的待分樣本集來說，KNN方法較其他方法更為適合。對微博分類的主要目的是實現(xiàn)對各認證微博或者公眾號微博以及熱門微博的自動分類，分類結果用來分析用戶興趣，將按照內(nèi)容分類得到的類別作為描述用戶興趣的參照。
[0029]步驟二，獲取預置時間段內(nèi)選定用戶對各類微博的點擊量，并根據(jù)各類微博的該所述點擊量，計算得到所述用戶在所述時間段內(nèi)的微博興趣模型。
[0030] 下面建立選定用戶的微博興趣模型，微博興趣模型指的是用戶和用戶所感興趣的微博之間相互對應的關系，即，用戶對各類微博的微博興趣度，獲取某時間段內(nèi)用戶對各類微博的點擊量，并根據(jù)所述點擊量，計算得到選定用戶在所述時間段內(nèi)的微博興趣模型。
[0031] 其中，選定用戶作為訓練集，為了能夠代表微博用戶的真實使用情況，采用隨機抽樣的方法來選定，則得到所述選定用戶在某時間段的微博興趣模型就是全體用戶

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：施化吉;郝梓琳;周從華;劉志鋒;朱小龍;陳偉鶴;徐宗保;
技術所有人：江蘇大學;
我是此專利的發(fā)明人

上一篇：一種基于IDistance的細粒度位碼過濾的相似性檢索方法
上一篇：一種多索引磁盤哈希結構的圖像檢索方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于數(shù)據(jù)挖掘技術的微博推薦方法及裝置的制造方法