本發(fā)明涉及在線社會網(wǎng)絡技術(shù)領(lǐng)域,特別涉及一種基于隨機森林的社交網(wǎng)絡用戶畫像方法。
背景技術(shù):
在線社會網(wǎng)絡的研究是近年來學術(shù)研究的重點領(lǐng)域,我國有著世界上規(guī)模最大的互聯(lián)網(wǎng)網(wǎng)民,因此,在互聯(lián)網(wǎng)的前期推廣階段和現(xiàn)階段的使用過程中產(chǎn)生了大量的數(shù)據(jù)。絕大多數(shù)的數(shù)據(jù)資源被閑置,不能很好的處理和商業(yè)化應用,造成巨大的損失,同時也不利于社交網(wǎng)絡的進一步發(fā)展,各大互聯(lián)網(wǎng)公司紛紛投入巨大的財力和人力對在線社會關(guān)系領(lǐng)域開展一系列研究,把互聯(lián)網(wǎng)的數(shù)據(jù)資源合理的開發(fā)和使用意義重大。
技術(shù)實現(xiàn)要素:
本發(fā)明提供一種基于隨機森林的社交網(wǎng)絡用戶畫像方法,目的在于采用隨機森林模型,用于用戶的屬性標簽劃分,有效改進了傳統(tǒng)的基于小樣本抽樣劃分屬性的不足和復雜度的問題。
為解決上述問題,本發(fā)明實施例提供一種基于隨機森林的社交網(wǎng)絡用戶畫像方法,具體包括如下步驟:
獲取在線社交網(wǎng)站的多源屬性數(shù)據(jù);
將原始多源屬性的數(shù)據(jù)屬性集合進行原始屬性標號,調(diào)用相似度函數(shù)對不同屬性的數(shù)據(jù)屬性集合遍歷相似檢測;
根據(jù)原始單層多源屬性的決策樹,將相似度滿足閾值范圍的數(shù)據(jù)屬性集合合并生成合并屬性標簽后,采用隨機森林算法訓練樣本;
獲取投票眾數(shù),將獲得的投票眾數(shù)賦予權(quán)重,再按照權(quán)重的由大到小排序,獲取全部的標簽權(quán)重值;
保留預設(shè)閾值內(nèi)的標簽,形成新的標簽屬性集用于用戶社交網(wǎng)絡中屬性的畫像。
作為一種實施方式,還包括以下步驟:
設(shè)定最低檢測終止閾值,當相似度小于最低檢測終止閾值時,終止該集合的相似度檢測。
作為一種實施方式,所述最低檢測終止閾值為0.15。
作為一種實施方式,所述相似度函數(shù)為:
其中,α為相似度調(diào)節(jié)參數(shù),α∈[0,1],ω(x)代表標簽相似度較高的兩種屬性函數(shù)。
作為一種實施方式,所述α取值為0.001。
作為一種實施方式,所述保留預設(shè)閾值內(nèi)的標簽,形成新的標簽屬性集用于用戶社交網(wǎng)絡中屬性的畫像步驟,具體包括以下步驟:
設(shè)定標簽眾數(shù)閾值,當隨機森林算法獲取的投票眾數(shù)小于標簽眾數(shù)時,則認為該標簽不具代表性,舍棄該標簽;
將保留后的標簽根據(jù)標簽權(quán)重值由大到小排序,形成新的標簽屬性集。
作為一種實施方式,所述相似度閾值范圍為[0.9,1]。
本發(fā)明相比于現(xiàn)有技術(shù)的有益效果在于:采用隨機森林模型,用于用戶的屬性標簽劃分,有效改進了傳統(tǒng)的基于小樣本抽樣劃分屬性的不足和復雜度的問題。
附圖說明
圖1為本發(fā)明的基于隨機森林的社交網(wǎng)絡用戶畫像方法的流程圖。
具體實施方式
以下結(jié)合附圖,對本發(fā)明上述的和另外的技術(shù)特征和優(yōu)點進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明的部分實施例,而不是全部實施例。
如圖所示,一種基于隨機森林的社交網(wǎng)絡用戶畫像方法,具體包括如下步驟:
S100:獲取在線社交網(wǎng)站的多源屬性數(shù)據(jù),將其導入數(shù)據(jù)存儲系統(tǒng);
S101:將原始多源屬性的數(shù)據(jù)屬性集合進行原始屬性標號,調(diào)用相似度函數(shù)對不同屬性的集合遍歷相似檢測,相似度函數(shù)為:
其中,其中,α為相似度調(diào)節(jié)參數(shù),α∈[0,1],ω(x)代表標簽相似度較高的兩種屬性函數(shù)。但是實際中α取值一般非常小,依賴于樣本的測試取值不斷修正,根據(jù)實驗結(jié)果表明當α提高一個數(shù)量級時,選擇的特征非常少,而當α降低一個數(shù)量級時獲取的數(shù)值幾乎不變,因此,本實施例中α使用0.001;
S102:設(shè)定最低檢測終止閾值,當相似度小于最低檢測終止閾值時,終止該集合的相似度檢測,其中,最低檢測終止閾值為0.15;
S103:根據(jù)原始單層多源屬性的決策樹,將相似度滿足閾值范圍的集合合并生成合并屬性標簽后,采用隨機森林算法訓練樣本,相似度閾值范圍為[0.9,1];
S104:獲取投票眾數(shù),將獲得的投票眾數(shù)賦予權(quán)重,再按照權(quán)重的由大到小排序,獲取全部的標簽權(quán)重值;
S105:保留預設(shè)閾值內(nèi)的標簽,形成新的標簽屬性集用于用戶社交網(wǎng)絡中屬性的畫像,具體實施方式為:設(shè)定標簽眾數(shù)閾值,當隨機森林算法獲取的投票眾數(shù)小于標簽眾數(shù)閾值時,則認為該標簽不具代表性,舍棄該標簽;將保留后的標簽根據(jù)標簽權(quán)重值由大到小排序,形成新的標簽屬性集,新的標簽屬性集用于社交網(wǎng)絡的用戶畫像。
本發(fā)明相比于現(xiàn)有技術(shù)的有益效果在于:采用隨機森林模型,用于用戶的屬性標簽劃分,有效改進了傳統(tǒng)的基于小樣本抽樣劃分屬性的不足和復雜度的問題。
以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步的詳細說明,應當理解,以上所述僅為本發(fā)明的具體實施例而已,并不用于限定本發(fā)明的保護范圍。特別指出,對于本領(lǐng)域技術(shù)人員來說,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。