基于微博文本的微博用戶興趣發(fā)現(xiàn)方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出一種基于微博文本的微博用戶興趣發(fā)現(xiàn)方法,包括以下步驟:從互聯(lián)網(wǎng)上獲取數(shù)據(jù)信息,其中,數(shù)據(jù)信息包括微博文本、轉(zhuǎn)發(fā)信息和關(guān)注信息;對微博文本進(jìn)行分析以獲取先驗知識,其中,先驗知識包括用戶互動關(guān)系和種子詞;對微博文本進(jìn)行主題聚類以生成主題模型;以及將先驗知識集成至主題模型中以對用戶的興趣進(jìn)行發(fā)現(xiàn)。本發(fā)明實施例的方法能夠快速的從海量微博用戶及其文本中發(fā)現(xiàn)用戶興趣分布,另外,該方法自適應(yīng)性好、易于擴(kuò)展。本發(fā)明還提供了一種基于微博文本的微博用戶興趣發(fā)現(xiàn)系統(tǒng)。
【專利說明】基于微博文本的微博用戶興趣發(fā)現(xiàn)方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)應(yīng)用技術(shù)與互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,特別涉及一種基于微博文本的微博用戶興趣發(fā)現(xiàn)方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)與Web2.0的不斷發(fā)展,微博已經(jīng)成為了人們?nèi)粘I钪杏涗浭录?、發(fā)表看法的重要渠道。在微博上,不同的用戶有著不同的興趣愛好,發(fā)布著不同領(lǐng)域的微博。通過對用戶發(fā)布的微博文本進(jìn)行分析,我們可以推斷出用戶的興趣所在。也正是由于這個原因,各大廠商都在致力于從微博上挖掘單個用戶和所有用戶的興趣分布并加以聚類,從而為今后的決策提供數(shù)據(jù)支持。但是,以新浪微博為例,新浪微博共有約5億注冊用戶,每天有超過2億條新微博被發(fā)布。如果這些微博全由人工處理,顯然既費(fèi)時費(fèi)力,又不能把握最新的用戶興趣。
【發(fā)明內(nèi)容】
[0003]本發(fā)明旨在至少在一定程度上解決上述相關(guān)技術(shù)中的技術(shù)問題之一。
[0004]為此,本發(fā)明的一個目的在于提出一種基于微博文本的微博用戶興趣發(fā)現(xiàn)方法,該方法能夠快速的從海量微博用戶及其文本中發(fā)現(xiàn)用戶興趣分布,另外,該方法自適應(yīng)性好,易于擴(kuò)展。
[0005]本發(fā)明的另一個目的在于提供一種基于微博文本的微博用戶興趣發(fā)現(xiàn)系統(tǒng)。
[0006]為了實現(xiàn)上述目的,本發(fā)明第一方面的實施例提出了一種基于微博文本的微博用戶興趣發(fā)現(xiàn)方法,包括以下步驟:從互聯(lián)網(wǎng)上獲取數(shù)據(jù)信息,其中,所述數(shù)據(jù)信息包括微博文本、轉(zhuǎn)發(fā)信息和關(guān)注信息;對所述微博文本進(jìn)行分析以獲取先驗知識,其中,所述先驗知識包括用戶互動關(guān)系和自動提取的種子詞;對所述微博文本進(jìn)行主題聚類以生成主題模型;以及將所述先驗知識集成至所述主題模型中以對用戶的興趣進(jìn)行發(fā)現(xiàn)。
[0007]根據(jù)本發(fā)明實施例的基于微博文本的微博用戶興趣發(fā)現(xiàn)方法,從互聯(lián)網(wǎng)上獲取微博文本、轉(zhuǎn)發(fā)信息和關(guān)注信息,并對微博文本進(jìn)行分析以獲取先驗知識(即用戶互動關(guān)系和種子詞),并對微博文本進(jìn)行主題聚類以生成主題模型,并進(jìn)一步將先驗知識集成至主題模型中以對用戶的興趣進(jìn)行發(fā)現(xiàn)。因此,該方法無需對當(dāng)前的微博文本進(jìn)行人工分析,即可快速、自動地得到用戶的興趣分布,省時省力。另外,該方法的自適應(yīng)性強(qiáng),即對興趣種類數(shù)能自適應(yīng),在用戶指定興趣的種類數(shù)后,能自動地重新抽取需要的先驗知識,并重新訓(xùn)練模型,不需要對核心算法進(jìn)行修改。進(jìn)一步地,該方法能夠很容易地通過加入先驗知識的方式對核心算法進(jìn)行擴(kuò)展,另外當(dāng)有新的數(shù)據(jù)信息加入時,可在原有模型的基礎(chǔ)上,使用新數(shù)據(jù)對模型進(jìn)行更新,無需重新訓(xùn)練整個模型,因此,該方法還具有良好的擴(kuò)展性。
[0008]另外,根據(jù)本發(fā)明上述實施例的基于微博文本的微博用戶興趣發(fā)現(xiàn)方法還可以具有如下附加的技術(shù)特征:
[0009]在一些示例中,所述主題模型為隱式狄利克雷分配(LDA),所述LDA通過吉布斯采樣實現(xiàn),采樣公式為:
【權(quán)利要求】
1.一種基于微博文本的微博用戶興趣發(fā)現(xiàn)方法,其特征在于,包括以下步驟: 從互聯(lián)網(wǎng)上獲取數(shù)據(jù)信息,其中,所述數(shù)據(jù)信息包括微博文本、轉(zhuǎn)發(fā)信息和關(guān)注信息;對所述微博文本進(jìn)行分析以獲取先驗知識,其中,所述先驗知識包括用戶互動關(guān)系和自動提取的種子詞; 對所述微博文本進(jìn)行主題聚類以生成主題模型;以及 將所述先驗知識集成至所述主題模型中以對用戶的興趣進(jìn)行發(fā)現(xiàn)。
2.根據(jù)權(quán)利要求1所述的基于微博文本的微博用戶興趣發(fā)現(xiàn)方法,其特征在于,所述主題模型為隱式狄利克雷分配(LDA),而所述LDA則通過吉布斯采樣實現(xiàn),采樣公式為:
3.根據(jù)權(quán)利要求2所述的基于微博文本的微博用戶興趣發(fā)現(xiàn)方法,其特征在于,所述用戶互動關(guān)系包括@、轉(zhuǎn)發(fā)和關(guān)注。
4.根據(jù)權(quán)利要求3所述的基于微博文本的微博用戶興趣發(fā)現(xiàn)方法,其特征在于,所述將所述先驗知識集成至所述主題模型中以對用戶的興趣進(jìn)行發(fā)現(xiàn),具體包括: 通過非對稱狄利克雷分配對所述用戶互動關(guān)系進(jìn)行集成,其中,用戶m對于主題k的互動系數(shù)為:
5.根據(jù)權(quán)利要求4所述的基于微博文本的微博用戶興趣發(fā)現(xiàn)方法,其特征在于,還包括: 對集成后的用戶互動關(guān)系進(jìn)行釆樣,釆樣公式為:
6.根據(jù)權(quán)利要求4所述的基于微博文本的微博用戶興趣法發(fā)現(xiàn)方法,其特征在于,還包括: 通過計算和加入文檔-主題相關(guān)度對所述種子詞進(jìn)行集成,其中,文檔m和主題k的相關(guān)度計算公式為:
7.根據(jù)權(quán)利要求6所述的基于微博文本的微博用戶興趣法發(fā)現(xiàn)方法,其特征在于,還包括: 對集成后的種子詞進(jìn)行采樣,采樣公式為:
8.一種基于微博文本的微博用戶興趣發(fā)現(xiàn)系統(tǒng),其特征在于,包括: 用戶界面模塊,所述用戶界面模塊用于為用戶提供圖形化的操作界面,以使用戶瀏覽所需的興趣分布或計算用戶之間的興趣相似度; 數(shù)據(jù)庫接口模塊,所述數(shù)據(jù)庫接口模塊用于為所述發(fā)現(xiàn)系統(tǒng)提供數(shù)據(jù)庫讀寫接口 ; 功能模塊,所述功能模塊包括: 數(shù)據(jù)信息獲取子模塊,所述數(shù)據(jù)信息獲取子模塊用于從互聯(lián)網(wǎng)上獲取數(shù)據(jù)信息,其中,所述數(shù)據(jù)信息包括微博文本、轉(zhuǎn)發(fā)信息和關(guān)注信息; 先驗知識獲取子模塊,所述先驗知識獲取子模塊用于對所述微博文本進(jìn)行分析以獲取先驗知識,其中,所述先驗知識包括用戶互動關(guān)系和自動提取的種子詞; 主題模型子模塊,所述主題模型子模塊用于對所述微博文本進(jìn)行主題聚類以生成主題模型; 集成子模塊,所述集成子模塊用于將所述先驗知識集成至所述主題模型中以對用戶的興趣進(jìn)行發(fā)現(xiàn)。
9.根據(jù)權(quán)利要求8所述的基于微博文本的微博用戶興趣發(fā)現(xiàn)系統(tǒng),其特征在于,所述主題模型為隱式狄利克雷分配(LDA),所述LDA通過吉布斯采樣實現(xiàn),采樣公式為:
10.根據(jù)權(quán)利要求9所述的基于微博文本的微博用戶興趣發(fā)現(xiàn)系統(tǒng),其特征在于,所述用戶互動關(guān)系包括@、轉(zhuǎn)發(fā)和關(guān)注。
11.根據(jù)權(quán)利要求10所述的基于微博文本的微博用戶興趣發(fā)現(xiàn)系統(tǒng),其特征在于,所述集成子模塊還用于通過非對稱狄利克雷分配對所述用戶互動關(guān)系進(jìn)行集成,其中,用戶m對于主題k的互動系數(shù)為:
12.根據(jù)權(quán)利要求11所述的基于微博文本的微博用戶興趣發(fā)現(xiàn)系統(tǒng),其特征在于,所述集成子模塊還用于對集成后的用戶互動關(guān)系進(jìn)行采樣,采樣公式為:
13.根據(jù)權(quán)利要求11所述的基于微博文本的微博用戶興趣發(fā)現(xiàn)系統(tǒng),其特征在于,所述集成子模塊還用于通過計算和加入文檔-主題相關(guān)度對所述種子詞進(jìn)行集成,其中,文檔m和主題k的相關(guān)度計算公式為:
14.根據(jù)權(quán)利要求13所述的基于微博文本的微博用戶興趣發(fā)現(xiàn)系統(tǒng),其特征在于,所述集成子模塊還用于對集成后的種子進(jìn)行采樣,采樣公式為:
【文檔編號】G06F17/30GK103970866SQ201410194170
【公開日】2014年8月6日 申請日期:2014年5月8日 優(yōu)先權(quán)日:2014年5月8日
【發(fā)明者】徐華, 楊煒煒, 王瑋 申請人:清華大學(xué)