一種基于改進的lda的微博話題發(fā)現(xiàn)方法
【專利摘要】本發(fā)明請求保護一種基于改進的LDA的微博話題發(fā)現(xiàn)方法涉及自然語言處理領(lǐng)域,具體是一種基于改進的LDA的微博話題發(fā)現(xiàn)的方法。本發(fā)明采用高斯加權(quán)處理對LDA進行改進,根據(jù)LDA得出的結(jié)果,選取出最有可能跟話題相關(guān)的微博文本,然后用兩層的K均值和層次聚類的混合聚類方法,對那些最有可能跟話題相關(guān)的微博文本進行聚類,從而檢測出新聞話題。本發(fā)明能較好地解決微博短文本的數(shù)據(jù)稀疏性及數(shù)據(jù)量巨大的問題,還能提高熱點話題發(fā)現(xiàn)的準確度。
【專利說明】一種基于改進的LDA的微博話題發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于一種微博話題挖掘方法,具體是一種基于改進的LDA的微博話題發(fā)現(xiàn) 方法。
【背景技術(shù)】
[0002] 隨著移動互聯(lián)網(wǎng)的快速發(fā)展,我們逐漸步入大數(shù)據(jù)時代,越來越多的人在網(wǎng)上發(fā) 表自己的觀點、評論、看法等。微博是一個基于用戶關(guān)系的信息分享傳播及獲取平臺。微博 內(nèi)容簡單傳播迅速,有利于熱點話題在其中快速擴散。因此從微博中檢測出的熱點話題,對 輿情監(jiān)控信息安全金融證券行業(yè)調(diào)研都有十分重要的意義。目前,已經(jīng)有許多微博話題發(fā) 現(xiàn)的方法,但是其準確率都不是很高。文獻檢索:[1]、10. 1145/290941. 290954,1998-08. [2],1000-3428 (2011)04-0067-03,2011-02. [3],1001-9081 (2011)03-0674-03,2011-03.
[4]、10.1145/1498759. 1498809,2009. [5]、1673-0291 (2010)02-0111-04,2010-04.
[0003] 近幾年里,已經(jīng)有許多關(guān)于話題發(fā)現(xiàn)的研宄[1],大多數(shù)研宄的方向都是如何改進 聚類算法來提高文本聚類的準確率。雖然最近的許多基于LDA的話題模型研宄方法已經(jīng)不 再是研宄聚類算法性能的提升,都是關(guān)于削弱標準LDA里的假設(shè)條件的,但是這些方法都 沒考慮到加權(quán)策略,而合理的加權(quán)策略已經(jīng)廣泛應(yīng)用于主題模型中,比如[2,3]都是采用 了加權(quán)策略的主題模型。
[0004] 標準的LDA模型同等對待每個詞項而不考慮它們的權(quán)重,LDA是一種文檔主題生 成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu),從信息理論學(xué)和 語言學(xué)的觀點角度來講,這種假設(shè)是不成立的,不同權(quán)重的詞項對熱點話題的貢獻程度是 不一樣的。[4]提出一種基于LDA模型的文檔標簽詞頻加權(quán)策略,目的是對具有相同語義的 標簽進行合并來表示文檔,提出LDA加權(quán)的合理性。[5]證明文檔中的特征詞符合冪律分 布,會使得LDA模型的主題分布向高頻詞傾斜,導(dǎo)致能夠代表主題的多數(shù)詞被少量高頻詞 淹沒,使主題表達能力降低,這也證明LDA模型中考慮權(quán)重是必要的。
[0005] 盡管上述研宄應(yīng)用LDA模型體現(xiàn)出很多優(yōu)點,也能抓住語料庫的語義信息,但是 其結(jié)果還是會受詞頻影響,這樣對于話題發(fā)現(xiàn)的質(zhì)量有很大影響。本發(fā)明是采用高斯加權(quán) 處理對LDA進行改進,不但能有效地降低復(fù)雜度,還可以很好地提高微博話題發(fā)現(xiàn)的準確 度。
【發(fā)明內(nèi)容】
[0006] 針對以上現(xiàn)有技術(shù)中的不足,本發(fā)明的目的在于提供一種能有效地降低復(fù)雜度, 還可以很好地提高微博話題發(fā)現(xiàn)的準確度的基于改進的LDA的微博話題發(fā)現(xiàn)方法,本發(fā)明 的技術(shù)方案如下:
[0007] -種基于改進的LDA的微博話題發(fā)現(xiàn)方法,其包括以下步驟:101、獲取微博數(shù)據(jù), 根據(jù)微博的轉(zhuǎn)發(fā)數(shù)N_rel b和評論數(shù)N_com b對每條微博進行評分Score b= a N_rel b+ β N_ comb,其中α和β是加權(quán)因子,選取所有Scoreb多t的微博文本;
[0008] 102、采用改進的三層貝葉斯概率模型LDA確定主題,具體包括以下步驟:
[0009] A1、采用三層貝葉斯概率模型LDA的分詞系統(tǒng)對文檔進行分詞,并過濾停用詞形 成微博文檔集;
[0010] B1、統(tǒng)計步驟Al中微博文檔集中所有出現(xiàn)的詞匯,并統(tǒng)計詞頻;
[0011] C1、采用高斯加權(quán)公式對文檔中的每個詞匯m加權(quán),其中fm 是詞m的詞頻,A是平均詞頻;
【權(quán)利要求】
1. 一種基于改進的LDA的微博話題發(fā)現(xiàn)方法,其特征在于:包括以下步驟:101、獲取 微博數(shù)據(jù),根據(jù)微博的轉(zhuǎn)發(fā)數(shù)N_relb和評論數(shù)N_comb對每條微博進行評分Scoreb=αN_ relb+0N_comb,其中α和β是加權(quán)因子,選取所有Scoreb彡t的微博文本; 102、 采用改進的三層貝葉斯概率模型LDA確定主題,具體包括以下步驟: A1、采用三層貝葉斯概率模型LDA的分詞系統(tǒng)對文檔進行分詞,并過濾停用詞形成微 博文檔集; B1、統(tǒng)計步驟Al中微博文檔集中所有出現(xiàn)的詞匯,并統(tǒng)計詞頻; Cl、采用高斯加權(quán)公式對文檔中的每個詞匯m加權(quán)=exp(-( /": .5.)),其中f;是詞 2σ- m的詞頻,A是平均詞頻; D1、給定參數(shù)N作為微博中包含的主題數(shù),一般取Ne[200,500]且N為整數(shù),并采用 改進的LDA主題模型訓(xùn)練文檔集; 103、 采用混合聚類法發(fā)現(xiàn)話題,具體步驟為: A2、經(jīng)過步驟102中改進的三層貝葉斯概率模型LDA處理后,得到文檔-主題矩陣; B2、用K均值聚類方法做第一層聚類,選取一個類數(shù)目K,K<<選取出來的微博數(shù)量;B3、對經(jīng)過步驟B2K均值聚類的結(jié)果,給定閾值,再進行層次聚類,最后獲得熱點話題。
2. 根據(jù)權(quán)利要求1所述的基于改進的LDA的微博話題發(fā)現(xiàn)方法,其特征在于:步驟101 中獲取微博數(shù)據(jù)采用微博平臺Twitter的數(shù)據(jù)集。
【文檔編號】G06F17/30GK104462286SQ201410704252
【公開日】2015年3月25日 申請日期:2014年11月27日 優(yōu)先權(quán)日:2014年11月27日
【發(fā)明者】周由勝, 彭恩偉, 劉宴兵, 肖云鵬 申請人:重慶郵電大學(xué)