一種基于文本挖掘的微博用戶興趣識別方法

文檔序號：6546016閱讀：248來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于文本挖掘的微博用戶興趣識別方法
【專利摘要】本發(fā)明公開了一種基于文本挖掘的微博用戶興趣識別方法，屬于文本挖掘、自然語言處理領(lǐng)域，采集微博文本集的最新話題性微博文本數(shù)據(jù)和指定用戶微博文本數(shù)據(jù)；將采集到的微博文本數(shù)據(jù)進(jìn)行規(guī)范化處理；將規(guī)范化處理后的話題性微博文本數(shù)據(jù)采用微博新詞識別方法，識別出最新微博新詞并更新新詞詞典；將規(guī)范化處理后的指定用戶微博文本數(shù)據(jù)，利用新詞詞典的分詞方法進(jìn)行中文分詞，得到文本向量表示；對經(jīng)過文本向量表示的指定用戶微博文本數(shù)據(jù)進(jìn)行聚類，重組原始微博文本數(shù)據(jù)；采用主題模型，提取新的文本集特征；給定主題詞典，基于新的文本集特征，計算每個主題詞典權(quán)重，獲得最終主題，作為微博用戶興趣識別，使特征提取的準(zhǔn)確性提高。
【專利說明】一種基于文本挖掘的微博用戶興趣識別方法
【技術(shù)領(lǐng)域】
[0001]一種基于文本挖掘的微博用戶興趣識別方法，文本聚類——利用改進(jìn)的K-Means算法進(jìn)行短文本聚類，以及主題模型——利用VSM和LDA模型結(jié)合的方法進(jìn)行文本特征詞提取，屬于文本挖掘、自然語言處理、機(jī)器學(xué)習(xí)領(lǐng)域。
【背景技術(shù)】
[0002]文本特征提取是文本挖掘中關(guān)鍵環(huán)節(jié)，根據(jù)提取出的特征計算文本間的相似度，應(yīng)用于文本分類、聚類等。微博的廣泛應(yīng)用，使得文本挖掘技術(shù)被廣泛應(yīng)用于微博文本中，通過分析微博文本，挖掘當(dāng)前的熱門話題、事件追蹤等。
[0003]主題模型應(yīng)用于文本特征提取具有比較理想的效果，它將文本看作是服從一定概率分布的主題集組成，每個主題又是由一定概率分布的詞項組成，將文本從“文本-詞”的二維空間擴(kuò)展到“文本-主題-詞”三維空間。主題模型可以有效的獲取文本的特征，并發(fā)現(xiàn)其潛在的語義，也就是主題。主題模型應(yīng)用于微博短文本中，由于短文本的主題不確切、數(shù)據(jù)稀疏，不能較準(zhǔn)確的發(fā)現(xiàn)微博短文本主題。
[0004]通過聚類算法將微博短文本集重新組合成新的長文本集，使得新文本集主題更加明確，數(shù)據(jù)稀疏性降低。K-Means聚類算法是典型的基于距離的聚類算法。工作原理為:隨機(jī)選擇K個樣本作為K個類別的中心，計算其它樣本到各個中心的距離，將樣本歸類到距離最短的中心所在的類。更新歸類后的每個類別的中心，迭代此步驟，直到兩次迭代的中心不再變化結(jié)束。
[0005]LDA(Latent Dirichlet Analysis,潛在狄利克雷模型)是主題模型中比較好的模型，它將文本看作是由一系列服從多項分布的主題組成，每個主題又是由一系列服從Dirichlet分布組成。LDA模型思想是根據(jù)概率分布抽樣:根據(jù)主題分布抽取一個主題，再根據(jù)此主題下的詞分布，抽取一個詞。迭代此步驟，直到抽取出文本中所有的詞，并得到最終結(jié)果:“文本-主題”概率矩陣和“主題-詞”概率矩陣。根據(jù)這兩個矩陣，提取原始文本的主題。基于微博短文本的特性，改進(jìn)LDA模型，如MB-LDA模型，它綜合考慮了微博作者和文本的關(guān)聯(lián)關(guān)系，來輔助進(jìn)行微博的主題挖掘.采用吉布斯抽樣方法對模型進(jìn)行推導(dǎo)，不僅能挖掘出微博的主題，還能挖掘出聯(lián)系人關(guān)注的主題。
[0006]中文分詞指的是將一個漢字序列切分成一個一個單獨的詞。
[0007]N元切詞是指分詞得到的每個詞是由N個字組成，目前比較好的中文分詞系統(tǒng)如中科院的ICTCLAS分詞系統(tǒng)，可以通過加入用戶給定的詞典來提高分詞效果。
[0008]文本表不是將將文本表不成為一個簡潔的、統(tǒng)一的、能夠被學(xué)習(xí)算法和分類器所識別的結(jié)構(gòu)化形式，文本表示模型中比較普遍使用的模型是空間向量模型，空間向量模型是指計算每個文本中的特征權(quán)值，每個文本都可以由特征向量唯一表示。其中特征向量的每個值通過計算TF-1DF值得到。
[0009]現(xiàn)有技術(shù)中的微博用戶興趣識別方法還存在許多不足之處，具體如下:
[0010]一、微博短文本特征提取，沒有將有效的新詞加入，導(dǎo)致得到的結(jié)果漏檢率偏高。[0011]二、已有的技術(shù)一般針對海量微博文本或?qū)⑽⒉┕δ芤脒M(jìn)行分析，挖掘熱門話題、事件等，而沒有合理的提出一種針對單個用戶的微博文本關(guān)聯(lián)用戶興趣的分析方法，而用戶的微博文本對于用戶興趣的識別是一個重要信息來源。
[0012]三、由于微博短文本的無結(jié)構(gòu)化、稀疏等特性，特征提取的準(zhǔn)確性較低。

【發(fā)明內(nèi)容】

[0013]本發(fā)明針對現(xiàn)有技術(shù)的不足之處提供一種基于文本挖掘的微博用戶興趣識別方法，可以通過某用戶發(fā)布的微博，直接觀察該用戶近期的興趣習(xí)慣。
[0014]為實現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案為:
[0015]一種基于文本挖掘的微博用戶興趣識別方法，其特征在于，如下步驟:
[0016](I)采集微博文體集的最新話題性微博文本數(shù)據(jù)以及指定用戶微博文本數(shù)據(jù)；
[0017](2)將采集到的話題性微博文本數(shù)據(jù)和指定用戶微博文本數(shù)據(jù)進(jìn)行規(guī)范化處理；
[0018](3)將規(guī)范化處理后的話題性微博文本數(shù)據(jù)采用微博新詞識別方法，識別出最新微博新詞，并更新新詞詞典；
[0019](4)將規(guī)范化處理后的指定用戶微博文本數(shù)據(jù)，利用新詞詞典的分詞方法進(jìn)行中文分詞，計算中文分詞得到的每個詞項的TF-1DF值，得到文本向量表示；
[0020](5)對經(jīng)過文本向量表示的指定用戶微博文本數(shù)據(jù)進(jìn)行聚類，重組步驟⑴中的原始指定用戶微博文本數(shù)據(jù)，得到新的文本集以及聚類數(shù)目；
[0021](6)采用LDA主題建模，提取聚類后得到的新的文本集特征詞；
[0022](7)給定主題詞典，基于新的文本集特征詞，計算每個主題詞典權(quán)重，獲得最終主題，作為微博用戶興趣識別。
[0023]作為優(yōu)選，步驟(3)中，所述微博新詞識別方法的步驟為:
[0024](31)采集規(guī)范化處理后的話題性微博文本數(shù)據(jù)；
[0025](32)對話題性微博文本數(shù)據(jù)進(jìn)行預(yù)處理；
[0026](33)將預(yù)處理后的話題性微博文本數(shù)據(jù)進(jìn)行多元切詞；
[0027](34)將多元切詞進(jìn)行詞過濾，即對舊詞過濾、詞頻過濾、相鄰串過濾和互信息值過濾。
[0028]作為優(yōu)選，步驟(34)中，所述互信息值的計算是通過公
式:
【權(quán)利要求】
1.一種基于文本挖掘的微博用戶興趣識別方法，其特征在于，如下步驟: (1)采集微博文體集的最新話題性微博文本數(shù)據(jù)以及指定用戶微博文本數(shù)據(jù)； (2)將采集到的話題性微博文本數(shù)據(jù)和指定用戶微博文本數(shù)據(jù)進(jìn)行規(guī)范化處理； (3)將規(guī)范化處理后的話題性微博文本數(shù)據(jù)采用微博新詞識別方法，識別出最新微博新詞，并更新新詞詞典； (4)將規(guī)范化處理后的指定用戶微博文本數(shù)據(jù)，利用新詞詞典的分詞方法進(jìn)行中文分詞，計算中文分詞得到的每個詞項的TF-1DF值，得到文本向量表示； (5)對經(jīng)過文本向量表示的指定用戶微博文本數(shù)據(jù)進(jìn)行聚類，重組步驟(1)中的原始指定用戶微博文本數(shù)據(jù)，得到新的文本集以及聚類數(shù)目； (6)采用LDA主題建模，提取聚類后得到的新的文本集特征詞； (7)給定主題詞典，基于新的文本集特征詞，計算每個主題詞典權(quán)重，獲得最終主題，作為微博用戶興趣識別。
2.根據(jù)權(quán)利要求1所述的一種基于文本挖掘的微博用戶興趣識別方法，其特征在于，步驟(3)中，所述微博新詞識別方法的步驟為: (31)采集規(guī)范化處理后的話題性微博文本數(shù)據(jù)； (32)對話題性微博文本數(shù)據(jù)進(jìn)行預(yù)處理； (33)將預(yù)處理后的話題性微博文本數(shù)據(jù)進(jìn)行多元切詞； (34)將多元切詞進(jìn)行詞過濾，即對舊詞過濾、詞頻過濾、相鄰串過濾和互信息值過濾。
3.根據(jù)權(quán)利要求2所述的一種基于文本挖掘的微博用戶興趣識別方法，其特征在于，步驟(34)中，所述互信息值的計算是通過公式:
4.根據(jù)權(quán)利要求1所述的一種基于文本挖掘的微博用戶興趣識別方法，其特征在于，步驟(5)中，所述聚類的步驟為: (51)將指定用戶微博文本數(shù)據(jù)轉(zhuǎn)化為V維的文本向量表示，V為N篇文本(指定用戶微博文本數(shù)據(jù))長度的平均值，通過初始中心給定方法選擇K個數(shù)據(jù)點作為K個聚類類別的中心； (52)利用歐式距離計算指定用戶微博文本數(shù)據(jù)中每個數(shù)據(jù)點與K個中心的距離，獲得聚類，記為:dij(i = I~N, j = I~K),其中，(Iij表示第i個數(shù)據(jù)點到第j個中心的距離，N為數(shù)據(jù)點個數(shù)，i是第i個數(shù)據(jù)點，j是第j個聚類中心的中心點； (53)重新計算每個所獲聚類的聚類中心，選取.
5.根據(jù)權(quán)利要求4所述的一種基于文本挖掘的微博用戶興趣識別方法，其特征在于，步驟(51)中,所述初始中心給定方法步驟如下: (511)從N個數(shù)據(jù)點中，隨機(jī)選擇一個數(shù)據(jù)點,記作center； (512)計算其它N-1個數(shù)據(jù)點到center的距離dis(center, m) (m = I~N),并累加所有的距離:sum {dis (center, m)}；
(513)隨機(jī)選取值r = random (sum {dis (center, m)})，計算 r = r-dis (center, m)，若r〈0,則m數(shù)據(jù)點記為中心點，其中，random (sum {dis (center, m)})表示從0-sum{dis (center, m)}隨機(jī)選取一個值； (514)重復(fù)(511)和(512)兩個步驟，直到選出K個中心點。
6.根據(jù)權(quán)利要求1所述的一種基于文本挖掘的微博用戶興趣識別方法，其特征在于，步驟(6)中，提取新的文本集特征詞的步驟為: (61)根據(jù)聚類后得到的新的文本集，計算每篇新的文本集中詞的TF-1DF值，得到新的文本向量； (62)采用LDA模型對新的文本集建模，給定參數(shù)值并多次改變初始參數(shù)值，抽樣獲取“主題-詞”分布和“文檔-主題”分布； (63)采用最終特征詞提取方法，提取特征詞。
7.根據(jù)權(quán)利要求7所述的一種基于文本挖掘的微博用戶興趣識別方法，其特征在于，在步驟(63)中，最終特征詞提取方法的步驟如下: (631)針對新的文本集，從“文檔-主題”分布中，選擇一個權(quán)重最大的Topic作為關(guān)鍵主題 keyTopic ； (632)選擇keyTopic對應(yīng)的“主題-詞”分布； (633)從keyTopic對應(yīng)的詞分布中，獲取比重較大的前三個詞，若一個主題被多次提取，則保留被提取的次數(shù)keyCount ； (634)重復(fù)步驟(631)、(632)、(633)，遍歷完新的文本集，得到所有的特征詞。
8.根據(jù)權(quán)利要求1或6所述的一種基于文本挖掘的微博用戶興趣識別方法，其特征在于，步驟(4)和步驟(61)中，所述TF-1DF值計算公式如下:
9.根據(jù)權(quán)利要求1所述的一種基于文本挖掘的微博用戶興趣識別方法，其特征在于，步驟(7)中，所述微博用戶興趣識別的步驟為:(71)給定S個主題詞典； (72)根據(jù)LDA模型對新的文本集建模提取出的特征詞，計算每個主題詞典包含的特征詞數(shù)目Ni (Ni為整數(shù))，若詞不匹配任何一個詞典，則標(biāo)記為額外類別； (73)每個特征詞都自帶一個權(quán)值，計算每個主題詞典的權(quán)重大小，計算公式如下:
【文檔編號】G06F17/30GK103942340SQ201410195244
【公開日】2014年7月23日申請日期:2014年5月9日優(yōu)先權(quán)日:2014年5月9日
【發(fā)明者】屈鴻, 王曉斌, 李浩, 方正, 袁建申請人:電子科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于文本挖掘的微博用戶興趣識別方法