基于隨機森林的社交網(wǎng)絡用戶畫像方法與流程

文檔序號：12722296閱讀：837來源：國知局

本發(fā)明涉及在線社會網(wǎng)絡技術(shù)領(lǐng)域，特別涉及一種基于隨機森林的社交網(wǎng)絡用戶畫像方法。

背景技術(shù)：

在線社會網(wǎng)絡的研究是近年來學術(shù)研究的重點領(lǐng)域，我國有著世界上規(guī)模最大的互聯(lián)網(wǎng)網(wǎng)民，因此，在互聯(lián)網(wǎng)的前期推廣階段和現(xiàn)階段的使用過程中產(chǎn)生了大量的數(shù)據(jù)。絕大多數(shù)的數(shù)據(jù)資源被閑置，不能很好的處理和商業(yè)化應用，造成巨大的損失，同時也不利于社交網(wǎng)絡的進一步發(fā)展，各大互聯(lián)網(wǎng)公司紛紛投入巨大的財力和人力對在線社會關(guān)系領(lǐng)域開展一系列研究，把互聯(lián)網(wǎng)的數(shù)據(jù)資源合理的開發(fā)和使用意義重大。

技術(shù)實現(xiàn)要素：

本發(fā)明提供一種基于隨機森林的社交網(wǎng)絡用戶畫像方法，目的在于采用隨機森林模型，用于用戶的屬性標簽劃分，有效改進了傳統(tǒng)的基于小樣本抽樣劃分屬性的不足和復雜度的問題。

為解決上述問題，本發(fā)明實施例提供一種基于隨機森林的社交網(wǎng)絡用戶畫像方法，具體包括如下步驟：

獲取在線社交網(wǎng)站的多源屬性數(shù)據(jù)；

將原始多源屬性的數(shù)據(jù)屬性集合進行原始屬性標號，調(diào)用相似度函數(shù)對不同屬性的數(shù)據(jù)屬性集合遍歷相似檢測；

根據(jù)原始單層多源屬性的決策樹，將相似度滿足閾值范圍的數(shù)據(jù)屬性集合合并生成合并屬性標簽后，采用隨機森林算法訓練樣本；

獲取投票眾數(shù)，將獲得的投票眾數(shù)賦予權(quán)重，再按照權(quán)重的由大到小排序，獲取全部的標簽權(quán)重值；

保留預設(shè)閾值內(nèi)的標簽，形成新的標簽屬性集用于用戶社交網(wǎng)絡中屬性的畫像。

作為一種實施方式，還包括以下步驟：

設(shè)定最低檢測終止閾值，當相似度小于最低檢測終止閾值時，終止該集合的相似度檢測。

作為一種實施方式，所述最低檢測終止閾值為0.15。

作為一種實施方式，所述相似度函數(shù)為：

其中，α為相似度調(diào)節(jié)參數(shù)，α∈[0,1]，ω(x)代表標簽相似度較高的兩種屬性函數(shù)。

作為一種實施方式，所述α取值為0.001。

作為一種實施方式，所述保留預設(shè)閾值內(nèi)的標簽，形成新的標簽屬性集用于用戶社交網(wǎng)絡中屬性的畫像步驟，具體包括以下步驟：

設(shè)定標簽眾數(shù)閾值,當隨機森林算法獲取的投票眾數(shù)小于標簽眾數(shù)時，則認為該標簽不具代表性，舍棄該標簽；

將保留后的標簽根據(jù)標簽權(quán)重值由大到小排序，形成新的標簽屬性集。

作為一種實施方式，所述相似度閾值范圍為[0.9,1]。

本發(fā)明相比于現(xiàn)有技術(shù)的有益效果在于：采用隨機森林模型，用于用戶的屬性標簽劃分，有效改進了傳統(tǒng)的基于小樣本抽樣劃分屬性的不足和復雜度的問題。

附圖說明

圖1為本發(fā)明的基于隨機森林的社交網(wǎng)絡用戶畫像方法的流程圖。

具體實施方式

以下結(jié)合附圖，對本發(fā)明上述的和另外的技術(shù)特征和優(yōu)點進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明的部分實施例，而不是全部實施例。

如圖所示，一種基于隨機森林的社交網(wǎng)絡用戶畫像方法，具體包括如下步驟：

S100：獲取在線社交網(wǎng)站的多源屬性數(shù)據(jù)，將其導入數(shù)據(jù)存儲系統(tǒng)；

S101：將原始多源屬性的數(shù)據(jù)屬性集合進行原始屬性標號，調(diào)用相似度函數(shù)對不同屬性的集合遍歷相似檢測，相似度函數(shù)為：

其中，其中，α為相似度調(diào)節(jié)參數(shù)，α∈[0,1]，ω(x)代表標簽相似度較高的兩種屬性函數(shù)。但是實際中α取值一般非常小，依賴于樣本的測試取值不斷修正，根據(jù)實驗結(jié)果表明當α提高一個數(shù)量級時，選擇的特征非常少，而當α降低一個數(shù)量級時獲取的數(shù)值幾乎不變，因此，本實施例中α使用0.001；

S102：設(shè)定最低檢測終止閾值，當相似度小于最低檢測終止閾值時，終止該集合的相似度檢測，其中，最低檢測終止閾值為0.15；

S103：根據(jù)原始單層多源屬性的決策樹，將相似度滿足閾值范圍的集合合并生成合并屬性標簽后，采用隨機森林算法訓練樣本，相似度閾值范圍為[0.9,1]；

S104：獲取投票眾數(shù)，將獲得的投票眾數(shù)賦予權(quán)重，再按照權(quán)重的由大到小排序，獲取全部的標簽權(quán)重值；

S105：保留預設(shè)閾值內(nèi)的標簽，形成新的標簽屬性集用于用戶社交網(wǎng)絡中屬性的畫像，具體實施方式為：設(shè)定標簽眾數(shù)閾值,當隨機森林算法獲取的投票眾數(shù)小于標簽眾數(shù)閾值時，則認為該標簽不具代表性，舍棄該標簽；將保留后的標簽根據(jù)標簽權(quán)重值由大到小排序，形成新的標簽屬性集，新的標簽屬性集用于社交網(wǎng)絡的用戶畫像。

以上所述的具體實施例，對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步的詳細說明，應當理解，以上所述僅為本發(fā)明的具體實施例而已，并不用于限定本發(fā)明的保護范圍。特別指出，對于本領(lǐng)域技術(shù)人員來說，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進等，均應包含在本發(fā)明的保護范圍之內(nèi)。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：琚春華;胡坤;鮑福光
技術(shù)所有人：浙江工商大學
我是此專利的發(fā)明人

上一篇：信息推送方法和裝置與流程
上一篇：一種社交媒體賬號影響力的判斷方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

用戶網(wǎng)絡行為畫像相關(guān)技術(shù)

用戶網(wǎng)絡行為畫像下載相關(guān)技術(shù)

社交網(wǎng)絡用戶行為分析相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于隨機森林的社交網(wǎng)絡用戶畫像方法與流程