一種基于改進的lda的微博話題發(fā)現(xiàn)方法

文檔序號：6636253閱讀：766來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于改進的lda的微博話題發(fā)現(xiàn)方法
【專利摘要】本發(fā)明請求保護一種基于改進的LDA的微博話題發(fā)現(xiàn)方法涉及自然語言處理領(lǐng)域，具體是一種基于改進的LDA的微博話題發(fā)現(xiàn)的方法。本發(fā)明采用高斯加權(quán)處理對LDA進行改進，根據(jù)LDA得出的結(jié)果，選取出最有可能跟話題相關(guān)的微博文本，然后用兩層的K均值和層次聚類的混合聚類方法，對那些最有可能跟話題相關(guān)的微博文本進行聚類，從而檢測出新聞話題。本發(fā)明能較好地解決微博短文本的數(shù)據(jù)稀疏性及數(shù)據(jù)量巨大的問題，還能提高熱點話題發(fā)現(xiàn)的準確度。
【專利說明】一種基于改進的LDA的微博話題發(fā)現(xiàn)方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于一種微博話題挖掘方法，具體是一種基于改進的LDA的微博話題發(fā)現(xiàn) 方法。

【背景技術(shù)】
[0002] 隨著移動互聯(lián)網(wǎng)的快速發(fā)展，我們逐漸步入大數(shù)據(jù)時代，越來越多的人在網(wǎng)上發(fā) 表自己的觀點、評論、看法等。微博是一個基于用戶關(guān)系的信息分享傳播及獲取平臺。微博內(nèi)容簡單傳播迅速，有利于熱點話題在其中快速擴散。因此從微博中檢測出的熱點話題，對輿情監(jiān)控信息安全金融證券行業(yè)調(diào)研都有十分重要的意義。目前，已經(jīng)有許多微博話題發(fā) 現(xiàn)的方法，但是其準確率都不是很高。文獻檢索：[1]、10. 1145/290941. 290954,1998-08. [2],1000-3428 (2011)04-0067-03,2011-02. [3],1001-9081 (2011)03-0674-03,2011-03.
[4]、10.1145/1498759. 1498809,2009. [5]、1673-0291 (2010)02-0111-04,2010-04.
[0003] 近幾年里，已經(jīng)有許多關(guān)于話題發(fā)現(xiàn)的研宄[1]，大多數(shù)研宄的方向都是如何改進聚類算法來提高文本聚類的準確率。雖然最近的許多基于LDA的話題模型研宄方法已經(jīng)不再是研宄聚類算法性能的提升，都是關(guān)于削弱標準LDA里的假設(shè)條件的，但是這些方法都沒考慮到加權(quán)策略，而合理的加權(quán)策略已經(jīng)廣泛應(yīng)用于主題模型中，比如[2,3]都是采用了加權(quán)策略的主題模型。
[0004] 標準的LDA模型同等對待每個詞項而不考慮它們的權(quán)重，LDA是一種文檔主題生成模型，也稱為一個三層貝葉斯概率模型，包含詞、主題和文檔三層結(jié)構(gòu)，從信息理論學(xué)和語言學(xué)的觀點角度來講，這種假設(shè)是不成立的，不同權(quán)重的詞項對熱點話題的貢獻程度是不一樣的。[4]提出一種基于LDA模型的文檔標簽詞頻加權(quán)策略，目的是對具有相同語義的標簽進行合并來表示文檔，提出LDA加權(quán)的合理性。[5]證明文檔中的特征詞符合冪律分布，會使得LDA模型的主題分布向高頻詞傾斜，導(dǎo)致能夠代表主題的多數(shù)詞被少量高頻詞淹沒，使主題表達能力降低，這也證明LDA模型中考慮權(quán)重是必要的。
[0005] 盡管上述研宄應(yīng)用LDA模型體現(xiàn)出很多優(yōu)點，也能抓住語料庫的語義信息，但是其結(jié)果還是會受詞頻影響，這樣對于話題發(fā)現(xiàn)的質(zhì)量有很大影響。本發(fā)明是采用高斯加權(quán) 處理對LDA進行改進，不但能有效地降低復(fù)雜度，還可以很好地提高微博話題發(fā)現(xiàn)的準確度。

【發(fā)明內(nèi)容】

[0006] 針對以上現(xiàn)有技術(shù)中的不足，本發(fā)明的目的在于提供一種能有效地降低復(fù)雜度，還可以很好地提高微博話題發(fā)現(xiàn)的準確度的基于改進的LDA的微博話題發(fā)現(xiàn)方法，本發(fā)明的技術(shù)方案如下：
[0007] -種基于改進的LDA的微博話題發(fā)現(xiàn)方法，其包括以下步驟：101、獲取微博數(shù)據(jù)，根據(jù)微博的轉(zhuǎn)發(fā)數(shù)N_rel b和評論數(shù)N_com b對每條微博進行評分Score b= a N_rel b+ β N_ comb，其中α和β是加權(quán)因子，選取所有Scoreb多t的微博文本；
[0008] 102、采用改進的三層貝葉斯概率模型LDA確定主題，具體包括以下步驟：
[0009] A1、采用三層貝葉斯概率模型LDA的分詞系統(tǒng)對文檔進行分詞，并過濾停用詞形成微博文檔集；
[0010] B1、統(tǒng)計步驟Al中微博文檔集中所有出現(xiàn)的詞匯，并統(tǒng)計詞頻；
[0011] C1、采用高斯加權(quán)公式對文檔中的每個詞匯m加權(quán)，其中fm 是詞m的詞頻，A是平均詞頻；

【權(quán)利要求】
1. 一種基于改進的LDA的微博話題發(fā)現(xiàn)方法，其特征在于：包括以下步驟：101、獲取微博數(shù)據(jù)，根據(jù)微博的轉(zhuǎn)發(fā)數(shù)N_relb和評論數(shù)N_comb對每條微博進行評分Scoreb=αN_ relb+0N_comb，其中α和β是加權(quán)因子，選取所有Scoreb彡t的微博文本； 102、采用改進的三層貝葉斯概率模型LDA確定主題，具體包括以下步驟： A1、采用三層貝葉斯概率模型LDA的分詞系統(tǒng)對文檔進行分詞，并過濾停用詞形成微博文檔集； B1、統(tǒng)計步驟Al中微博文檔集中所有出現(xiàn)的詞匯，并統(tǒng)計詞頻； Cl、采用高斯加權(quán)公式對文檔中的每個詞匯m加權(quán)=exp(-( /": .5.))，其中f；是詞 2σ- m的詞頻，A是平均詞頻； D1、給定參數(shù)N作為微博中包含的主題數(shù)，一般取Ne[200,500]且N為整數(shù)，并采用改進的LDA主題模型訓(xùn)練文檔集； 103、采用混合聚類法發(fā)現(xiàn)話題，具體步驟為： A2、經(jīng)過步驟102中改進的三層貝葉斯概率模型LDA處理后，得到文檔-主題矩陣； B2、用K均值聚類方法做第一層聚類，選取一個類數(shù)目K，K<<選取出來的微博數(shù)量；B3、對經(jīng)過步驟B2K均值聚類的結(jié)果，給定閾值，再進行層次聚類，最后獲得熱點話題。
2. 根據(jù)權(quán)利要求1所述的基于改進的LDA的微博話題發(fā)現(xiàn)方法，其特征在于：步驟101 中獲取微博數(shù)據(jù)采用微博平臺Twitter的數(shù)據(jù)集。
【文檔編號】G06F17/30GK104462286SQ201410704252
【公開日】2015年3月25日申請日期:2014年11月27日優(yōu)先權(quán)日:2014年11月27日
【發(fā)明者】周由勝, 彭恩偉, 劉宴兵, 肖云鵬申請人:重慶郵電大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周由勝;彭恩偉;劉宴兵;肖云鵬;
技術(shù)所有人：重慶郵電大學(xué);
我是此專利的發(fā)明人

上一篇：一種幼兒成長記錄裝置制造方法
上一篇：采用識別卡的礦用崗位持證控制信號裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于改進的lda的微博話題發(fā)現(xiàn)方法