一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)及方法

文檔序號：6525530閱讀：1752來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)及方法
【專利摘要】本發(fā)明涉及社交網(wǎng)絡(luò)【技術(shù)領(lǐng)域】，特別是一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)及方法，所述方法包括如下步驟：對微博中發(fā)布的內(nèi)容數(shù)據(jù)進(jìn)行預(yù)處理，獲得候選熱詞序列；根據(jù)候選熱詞集合，考慮候選熱詞在當(dāng)前時刻和給定歷史時間窗口內(nèi)的出現(xiàn)頻率和突發(fā)性，計算每個候選熱詞的生命力，篩選出熱詞集合；根據(jù)篩選出的熱詞集合，計算熱詞相關(guān)性，構(gòu)造熱詞共現(xiàn)網(wǎng)絡(luò)；根據(jù)熱詞共現(xiàn)網(wǎng)絡(luò)，使用基于多標(biāo)簽傳播的熱詞聚類算法對熱詞集合進(jìn)行劃分，獲得熱點(diǎn)話題集。該系統(tǒng)及方法可以實(shí)現(xiàn)微博熱詞與熱點(diǎn)話題的高效挖掘，提高了挖掘精度和處理效率。
【專利說明】一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及社交網(wǎng)絡(luò)【技術(shù)領(lǐng)域】，特別是一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)及方法。
【背景技術(shù)】
[0002]隨著微博的興起，人們的參與度不斷地提高，用戶可以通過電腦、手機(jī)隨時隨地地發(fā)布自己的所見所聞，并實(shí)現(xiàn)即時分享。現(xiàn)在微博已成為互聯(lián)網(wǎng)的一種時尚，同時也是熱點(diǎn)話題產(chǎn)生和討論的重要場所，熱點(diǎn)話題是指在一段時間內(nèi)，頻繁出現(xiàn)在網(wǎng)絡(luò)上，人們廣泛關(guān)注并討論的話題。微博信息的指數(shù)增長，使得如何有效地掌控海量信息并提取熱點(diǎn)話題，成為亟待解決的問題。
[0003]對于熱點(diǎn)話題檢測，傳統(tǒng)的方法是對文本進(jìn)行聚類，但是這種方法不利于用戶直觀地識別出熱點(diǎn)話題，而且微博具有短文本特性，數(shù)據(jù)稀疏且分布不平衡，導(dǎo)致這類方法用于發(fā)現(xiàn)熱點(diǎn)話題的效果并不理想。因此主流的方法是通過熱詞抽取并聚類實(shí)現(xiàn)熱點(diǎn)話題發(fā)現(xiàn)。
[0004]用來權(quán)衡詞重要性并抽取熱詞的經(jīng)典方法有TFIDF和TFPDF等。TFIDF的主要思想是，詞出現(xiàn)的頻率并不能充分代表文本特征，比如“是”、“神馬”這種詞，頻繁出現(xiàn)，但幾乎沒有表述文本的能力。而如果一個詞在該文本的出現(xiàn)的頻率非常高，在其他文本中出現(xiàn)的次數(shù)低，這樣就能更加充分體現(xiàn)出這個文本的特征，然而，這種方法并不適合于微博中詞的權(quán)重計算，微博具有短文本特性，一條微博上很少會出現(xiàn)重復(fù)的詞，而且微博上的熱點(diǎn)話題出現(xiàn)之后，會引起用戶的廣泛轉(zhuǎn)發(fā)和討論，大量微博上包含有同樣的關(guān)鍵詞，如果用TFIDF的方法來進(jìn)行關(guān)鍵詞抽取，會在一定程度上導(dǎo)致重要詞匯遺失。因此，有學(xué)者提出了 TFPDF的方法，其賦予那些在多數(shù)文檔中出現(xiàn)的詞更高的權(quán)重，來抽取熱點(diǎn)詞匯。這種方法有利于提取熱點(diǎn)話題相關(guān)的重點(diǎn)詞匯，但是也會提取出一些頻繁出現(xiàn)但沒有表述話題能力的詞。熱點(diǎn)詞匯是指在一段時間內(nèi)詞頻劇增的詞，而上述兩種方法都沒有考慮到詞隨時間的分布情況，不利于熱詞的抽取。
[0005]針對熱詞聚類，現(xiàn)有的方法有:1)采用初始簇不敏感的Bisecting K_mean聚類算法；2)通過構(gòu)建詞相似度矩陣,利用Affinity Propagation算法在無需指定簇個數(shù)情況下進(jìn)行聚類，其時間復(fù)雜度接近；3)基于密度聚類的算法，如DBSCAN ；4)層次聚類算法等。
[0006]對于海量微博數(shù)據(jù)的熱點(diǎn)發(fā)現(xiàn)問題，現(xiàn)有的熱詞聚類方法的主要問題在于:首先，聚類結(jié)果中不同的話題所涉及的詞不允許存在交集，這與實(shí)際情況并不相符，易導(dǎo)致一些話題沒有被發(fā)現(xiàn)，或者是話題的辨識度很低。比如，“高校花費(fèi)問題”和“高校排行榜”這兩個話題中，“高?！?一詞最多只能屬于一個話題，而這兩個話題無論哪個缺少了 “高?！边@一關(guān)鍵詞，將很難辨識出原本的話題。另外，傳統(tǒng)的聚類算法時間復(fù)雜度較高，難以適應(yīng)海量微博數(shù)據(jù)聚類的要求。
[0007]綜上，針對社交網(wǎng)絡(luò)中用戶個體的影響力分析已經(jīng)出現(xiàn)了較完善的技術(shù)和方法，但是針對社交網(wǎng)絡(luò)中社區(qū)級別的影響力分析的方法還相對較少，且缺乏對社交網(wǎng)絡(luò)中各社區(qū)的影響力的全面分析評估，面對大規(guī)模社交網(wǎng)絡(luò)的場景，現(xiàn)有方法無論是在分析效果和效率上都難以滿足要求。

【發(fā)明內(nèi)容】

[0008]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)及方法，該系統(tǒng)及方法有利于提高微博熱點(diǎn)發(fā)現(xiàn)的準(zhǔn)確率和處理效率。
[0009]為實(shí)現(xiàn)上述目的，本發(fā)明的技術(shù)方案是:一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)，所述系統(tǒng)包括:預(yù)處理模塊、熱詞篩選模塊、熱詞共現(xiàn)網(wǎng)絡(luò)構(gòu)造模塊和熱詞聚類模塊；
預(yù)處理模塊，用于對社交網(wǎng)絡(luò)中發(fā)布的內(nèi)容數(shù)據(jù)進(jìn)行預(yù)處理，獲取候選熱詞，并以此構(gòu)建候選熱詞集合；
熱詞篩選模塊，用于根據(jù)所述候選熱詞集合中各個候選熱詞在當(dāng)前時刻和給定歷史時間窗口內(nèi)的出現(xiàn)頻率和突發(fā)性，計算每個候選熱詞的生命力，篩選出熱詞，并以此構(gòu)建熱詞集合;
熱詞共現(xiàn)網(wǎng)絡(luò)構(gòu)造模塊，用于計算熱詞集合中各個熱詞的相關(guān)性，并以此構(gòu)造熱詞共現(xiàn)網(wǎng)絡(luò)；
熱詞聚類模塊，用于根據(jù)所述熱詞共現(xiàn)網(wǎng)絡(luò)，使用基于多標(biāo)簽傳播的熱詞聚類算法對熱詞集合進(jìn)行劃分，獲得熱點(diǎn)話題集。
[0010]本發(fā)明還提供一種微博熱詞與熱點(diǎn)話題挖掘方法，所述方法包括如下步驟:
步驟A:對社交網(wǎng)絡(luò)中發(fā)布的內(nèi)容數(shù)據(jù)進(jìn)行預(yù)處理，獲取候選熱詞，并以此構(gòu)建候選熱
詞集合；
步驟B:根據(jù)所述候選熱詞集合中各個候選熱詞在當(dāng)前時刻和給定歷史時間窗口內(nèi)的出現(xiàn)頻率和突發(fā)性，計算每個候選熱詞的生命力，篩選出熱詞，并以此構(gòu)建熱詞集合；
步驟C:計算所述熱詞集合中各個熱詞的相關(guān)性，并以此構(gòu)造熱詞共現(xiàn)網(wǎng)絡(luò)；
步驟D:根據(jù)所述熱詞共現(xiàn)網(wǎng)絡(luò)，使用基于多標(biāo)簽傳播的熱詞聚類算法對熱詞集合進(jìn)行劃分，獲得熱點(diǎn)話題集。
[0011]進(jìn)一步地，所述步驟B中，篩選熱詞并構(gòu)建熱詞集合的過程，具體包括以下步驟: 步驟B1:計算在時間段(內(nèi)，各個候選熱詞的營養(yǎng)值；候選熱詞#的營養(yǎng)值MVrl"為
在時間段t內(nèi)，微博集合Iwt中每條微博對候選熱詞tr的營養(yǎng)值的貢獻(xiàn)之和，計算公式為:
【權(quán)利要求】
1.一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)，其特征在于，所述系統(tǒng)包括: 預(yù)處理模塊，用于對社交網(wǎng)絡(luò)中發(fā)布的內(nèi)容數(shù)據(jù)進(jìn)行預(yù)處理，獲取候選熱詞，并以此構(gòu)建候選熱詞集合；熱詞篩選模塊，用于根據(jù)所述候選熱詞集合中各個候選熱詞在當(dāng)前時刻和給定歷史時間窗口內(nèi)的出現(xiàn)頻率和突發(fā)性，計算每個候選熱詞的生命力，篩選出熱詞，并以此構(gòu)建熱詞集合; 熱詞共現(xiàn)網(wǎng)絡(luò)構(gòu)造模塊，用于計算熱詞集合中各個熱詞的相關(guān)性，并以此構(gòu)造熱詞共現(xiàn)網(wǎng)絡(luò)；熱詞聚類模塊，用于根據(jù)所述熱詞共現(xiàn)網(wǎng)絡(luò)，使用基于多標(biāo)簽傳播的熱詞聚類算法對熱詞集合進(jìn)行劃分，獲得熱點(diǎn)話題集。
2.一種微博熱詞與熱點(diǎn)話題挖掘方法，其特征在于，所述方法包括如下步驟: 步驟A:對社交網(wǎng)絡(luò)中發(fā)布的內(nèi)容數(shù)據(jù)進(jìn)行預(yù)處理，獲取候選熱詞，并以此構(gòu)建候選熱詞集合；步驟B:根據(jù)所述候選熱詞集合中各個候選熱詞在當(dāng)前時刻和給定歷史時間窗口內(nèi)的出現(xiàn)頻率和突發(fā)性，計算每個候選熱詞的生命力，篩選出熱詞，并以此構(gòu)建熱詞集合；步驟C:計算所述熱詞集合中各個熱詞的相關(guān)性，并以此構(gòu)造熱詞共現(xiàn)網(wǎng)絡(luò)；步驟D:根據(jù)所述熱詞共現(xiàn)網(wǎng)絡(luò)，使用基于多標(biāo)簽傳播的熱詞聚類算法對熱詞集合進(jìn)行劃分，獲得熱點(diǎn)話題集。
3.根據(jù)權(quán)利要求2所述的一種微博熱詞與熱點(diǎn)話題挖掘方法，其特征在于，所述步驟B中，篩選熱詞并構(gòu)建熱詞集合的過程，具體包括以下步驟: 步驟B1:計算在時間段(內(nèi)，各個候選熱詞的營養(yǎng)值；候選熱詞#的營養(yǎng)值MVrl"為在時間段t內(nèi)，微博集合Iwt中每條微博對候選熱詞tr的營養(yǎng)值的貢獻(xiàn)之和，計算公式為:

4.根據(jù)權(quán)利要求2所述的一種微博熱詞與熱點(diǎn)話題挖掘方法，其特征在于，所述步驟C中，熱詞z和熱詞k在給定時間段t內(nèi)的相關(guān)性cz’k定義為:
5.根據(jù)權(quán)利要求4所述的一種微博熱詞與熱點(diǎn)話題挖掘方法，其特征在于，所述步驟D中，熱詞集合中的每個熱詞，即每個節(jié)點(diǎn)都有一個標(biāo)簽隸屬度集合，在每次迭代中更新節(jié)點(diǎn)的標(biāo)簽隸屬度集合，直到算法收斂，具體包括以下步驟: 步驟Dl:根據(jù)所述熱詞共現(xiàn)網(wǎng)絡(luò)，進(jìn)行節(jié)點(diǎn)的標(biāo)簽初始化；步驟D2:隨機(jī)獲取未更新標(biāo)簽的節(jié)點(diǎn)K，遍歷節(jié)點(diǎn)r的鄰居節(jié)點(diǎn)，根據(jù)鄰居節(jié)點(diǎn)的標(biāo)簽集合，更新節(jié)點(diǎn)r的標(biāo)簽集合中每個標(biāo)簽的隸屬度，對節(jié)點(diǎn)r進(jìn)行標(biāo)簽隸屬度歸一化；步驟D3:反復(fù)迭代，直到滿足迭代終止條件；步驟D4:根據(jù)迭代獲得的節(jié)點(diǎn)的標(biāo)簽隸屬度集合，對節(jié)點(diǎn)進(jìn)行歸類，獲得熱點(diǎn)話題集。
6.根據(jù)權(quán)利要求5所述的一種微博熱詞與熱點(diǎn)話題挖掘方法，其特征在于，所述步驟Dl中，標(biāo)簽初始化的方法為:為每個節(jié)點(diǎn)分配一個唯一的標(biāo)簽號，并分別以隸屬度1.0隸屬于這個標(biāo)簽號，這些唯一的標(biāo)簽號集合記為urdqueLabels。
7.根據(jù)權(quán)利要求6所述的一種微博熱詞與熱點(diǎn)話題挖掘方法，其特征在于，所述步驟D2中，標(biāo)簽隸屬度的更新規(guī)則為:隨機(jī)獲取未更新標(biāo)簽的節(jié)點(diǎn)K，獲取該節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集令Nb (K)，進(jìn)而得到鄰居節(jié)點(diǎn)擁有的標(biāo)簽集合仏知/5，則在第h次迭代，節(jié)點(diǎn)K屬于標(biāo)簽號e labels的隸屬度為:
8.根據(jù)權(quán)利要求7所述的一種微博熱詞與熱點(diǎn)話題挖掘方法，其特征在于，所述步驟D3中，迭代終止條件為:
【文檔編號】G06F17/30GK103678670SQ201310725400
【公開日】2014年3月26日申請日期:2013年12月25日優(yōu)先權(quán)日:2013年12月25日
【發(fā)明者】陳羽中, 郭文忠, 陳國龍, 方明月申請人:福州大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳羽中;郭文忠;陳國龍;方明月;
技術(shù)所有人：福州大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

微博熱點(diǎn)話題相關(guān)技術(shù)

2017微博熱點(diǎn)話題相關(guān)技術(shù)

2017年微博熱點(diǎn)話題相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)及方法