基于關鍵詞提取和基尼系數的微博用戶分類方法
【專利摘要】基于關鍵詞提取和基尼系數的微博用戶分類方法。在本發(fā)明中,我們對微博用戶發(fā)表的內容進行關鍵詞的提取與聚類以得到興趣領域,由用戶在不同興趣領域的興趣度,使用洛倫茲曲線和基尼系數對其進行分類。計算用戶基尼系數的均值μ和標準差σ,以(μ-2σ)、(μ-σ)、μ、(μ+σ)和(μ+2σ)作為分界值,將微博用戶分為六種類型:興趣極廣泛型、興趣較廣泛型、興趣中庸偏廣泛型、興趣中庸偏狹窄型、興趣較狹窄型、興趣極狹窄型。在投放廣告時,按照投放廣告的大眾程度,對基尼系數排名使用控制值進行投放。通過使用控制值,能夠避免胡亂投發(fā)廣告,引起用戶反感。本發(fā)明對微博用戶的分類提供了一種全新的方法,并為微博營銷、個性化服務等提供了一種新的參考,具有較強的實用性與實踐價值。
【專利說明】基于關鍵詞提取和基尼系數的微博用戶分類方法
【技術領域】
[0001] 本發(fā)明屬于用戶分類技術,具體涉及一種基于關鍵詞提取、洛倫茲曲線以及基尼 系數的微博用戶分類方法。
【背景技術】
[0002] 隨著信息技術以及網絡的高速發(fā)展,越來越多的Web2. 0服務出現在人們的生活 中。微博是一個基于用戶關注與微博轉發(fā)的信息分享與傳播平臺,用戶可以通過網頁客戶 端,手機客戶端和第三方應用程序等多種方式,隨時隨地發(fā)布140個字符以內的微博信息, 實現用戶之間的即時分享。3G技術的發(fā)展和手機移動上網功能逐步完善,為微博"井噴式" 的發(fā)展提供了便利的條件。2013年1月,中國互聯網絡信息中心發(fā)布《第31次中國互聯網 絡發(fā)展統(tǒng)計報告》,統(tǒng)計結果顯示,截至2012年12月底,我國微博用戶規(guī)模為3. 09億,較 2011年底增幅達到23. 5%。
[0003] 現如今,微博已經成為中國網民使用的主流應用。微博具有的龐大用戶規(guī)模,進一 步地鞏固了其網絡輿論傳播中心的地位。微博以其龐大的用戶規(guī)模和影響力進一步鞏固加 強了微博作為網絡輿論的傳播中心的地位,無論是普通網民,草根用戶,還是傳統(tǒng)媒體或意 見領袖,其獲取消息、傳播新聞、制造輿論、發(fā)表觀點的途徑都不同程度地向微博平臺傾斜 轉向,微博正重新塑造著輿論的產生和傳播機制。微博持續(xù)增長的人氣使得對其內容的分 析十分重要,以便于在此類事件中,微博的信息可以被有效地利用。
[0004] 作為一個用戶基數極大、用戶活躍度很高的社交平臺,微博是一個非常有潛力的 市場。通過對微博進行分析,可以挖掘出很多有用的信息,從而發(fā)揮其商業(yè)價值?;谟脩?興趣、行為習慣和在網絡中的位置等,對微博用戶進行劃分,可以幫助商品的制造商和銷售 商更加準確地找到自己產品的潛在購買者,也便于進行更加精準的市場營銷;挖掘出其中 最有影響力、最受關注的用戶,對其進行有針對性地投放一些市場調查或商業(yè)廣告,可以取 得更好的效果。
[0005] 隨著微博在國內的普及,微博用戶數量的急劇增加,對微博用戶的研究也逐漸展 開。目前國內對于微博用戶興趣的研究大多為根據用戶以往的歷史行為如關注信息等對其 進行興趣建模,在此基礎上對用戶進行分類。但是,用戶不僅有不同的興趣領域,他們對不 同興趣領域的興趣程度也是不同的。有些用戶興趣廣泛,對很多領域內的事物都保持著相 當的興趣,且樂于接受相關領域內的新事物。而有些用戶非常專一,只喜歡特定的少部分的 事物,并且只希望在該領域內繼續(xù)深入,而不希望拓展自己的興趣領域。所以,很多時候會 出現這樣的情況。例如,雖然兩個用戶都喜歡音樂,但一名用戶是愛好廣泛型,而另一名用 戶為愛好狹窄型,則對這兩名用戶所做的推薦就應該有所區(qū)別。另外,如果一名用戶只喜歡 音樂,而另一名用戶只喜歡電影,那么這兩名用戶也擁有著相同的興趣模式,而已有的劃分 方法往往將他們分到不同的類別中去。因此有必要找到一種能夠劃分用戶興趣領域并度量 用戶對各個興趣領域的興趣度的方法,從而對用戶進行分類。
[0006] 本發(fā)明新提出基于關鍵詞提取和基尼系數的微博用戶劃分方法,在對微博用戶發(fā) 表的內容進行關鍵詞提取并聚類得到興趣領域的基礎上,計算用戶的基尼系數并對其進行 客觀的劃分。在本發(fā)明中,我們使用API接口,抓取微博數據,對用戶發(fā)表的微博內容進行 關鍵詞提取并聚類以得到興趣領域,使用空間向量模型表示用戶對興趣領域的興趣度,利 用洛倫茲曲線和基尼系數對用戶興趣度進行定性與定量的度量,并據此對用戶進行分類。 本發(fā)明對微博用戶的分類從新的角度提供了一種新的方法,并為以后對微博用戶進行推薦 提供了參考。
【發(fā)明內容】
[0007] 本發(fā)明是使用微博開放平臺提供的API接口,抓取數據,對每個用戶發(fā)表的最近 一個月的微博內容進行關鍵詞提取,使用K-均值聚類算法對關鍵詞進行聚類以得到興趣 領域,并對各個領域進行分析。使用空間向量模型表示用戶對興趣領域的興趣度,首次提出 將國民經濟研究中的洛倫茲曲線和基尼系數應用到對微博用戶的興趣模式建立中,并據此 對用戶進行分類。以此考察用戶在每個月內的興趣分布情況,以及隨著時間的推移,用戶興 趣分布的改變情況。
[0008] 目前很多主流的用戶權限認證都使用Oauth協議認證。用戶向服務器請求數據 時,使用Oauth協議認證可以避免每次都需要傳輸用戶名和密碼,通過access_token和 accessjecret使得用戶正常訪問數據的同時保證了用戶賬號的安全性。國內所有的微博 平臺都是開放的,并為廣大開發(fā)者和用戶提供了開放數據分享與傳播的微博開放平臺,其 上有許多供用戶使用的API。通過Oauth認證后,基于這些API,可以進行微博數據的抓取。
[0009] 在取得數據之后,對微博內容經過預處理,并對微博進行分詞處理與去除停用詞。 然后使用TF-IDF算法進行關鍵詞的提取。具體公式與方法如下:
[0010]
【權利要求】
1. 每次抓取數據,只選取微博用戶在最近1個月發(fā)布的微博,每個月都實現一次本發(fā) 明方法,以此來觀察用戶興趣分布的變化情況。
2. 對每個微博用戶使用TF-IDF算法進行關鍵詞的提取,剔除重復的關鍵詞,并進行頻 數的統(tǒng)計,按照頻數的降序排列,這里的頻數指的是有多少個不同用戶出現了該關鍵詞,對 頻數設定閾值為3,去掉頻數為1和2的關鍵詞。
3. 統(tǒng)計所有關鍵詞的共現次數,以此建立維度分別為關鍵詞、內容為兩個關鍵詞之間 共現次數的關鍵詞共現矩陣,將關鍵詞共現矩陣導入UCINET軟件中計算兩兩之間的相似 度,然后使用K-均值聚類算法對整體關鍵詞進行聚類,得到的聚類即為興趣領域。
4. 使用空間向量模型表示微博用戶對每個興趣領域的興趣度,這里的興趣度指的是每 個用戶關鍵詞列表中所有關鍵詞在各個領域中的數目比重,第一步將用戶對各個領域的興 趣度由低到高排序,第二步由第一步得到的向量模型計算每個用戶在每個領域興趣度的百 分比,第三步對每一個用戶計算第二步中第1組的百分比累加到第t組1 < τ < 7)興趣 度之和占全體興趣度的百分比得到Ueini向量,以全體興趣領域為橫坐標,用戶的興趣度亦 即用戶的U eini向量中的數值作為縱坐標繪制所有用戶的洛倫茲曲線,然后利用洛倫茲曲線 計算基尼系數。
5. 計算整體用戶基尼系數的均值μ和標準差〇,以(μ-2σ)、(μ-σ)、μ、(μ + σ) 和(μ +2 σ )作為分界值,將微博用戶分為六種類型:興趣極廣泛型:0 < Gini < ( μ -2 〇 ); 興趣較廣泛型:(μ -2 〇 ) < Gini < ( μ - σ );興趣中庸偏廣泛型:(μ - σ ) < Gini < μ ; 興趣中庸偏狹窄型:μ < Gini < ( μ + σ );興趣較狹窄型:(μ + σ ) < Gini < ( μ +2 σ ); 興趣極狹窄型:(μ+2 σ )< Gini < 1. 0。針對不同的用戶類型,可以采取不同的推薦與營 銷策略以及個性化服務。
【文檔編號】G06F17/30GK104142950SQ201310169655
【公開日】2014年11月12日 申請日期:2013年5月10日 優(yōu)先權日:2013年5月10日
【發(fā)明者】施曉菁, 梁循, 張海燕 申請人:中國人民大學