一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)及方法
【專利摘要】本發(fā)明涉及社交網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,特別是一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)及方法,所述方法包括如下步驟:對微博中發(fā)布的內(nèi)容數(shù)據(jù)進(jìn)行預(yù)處理,獲得候選熱詞序列;根據(jù)候選熱詞集合,考慮候選熱詞在當(dāng)前時刻和給定歷史時間窗口內(nèi)的出現(xiàn)頻率和突發(fā)性,計算每個候選熱詞的生命力,篩選出熱詞集合;根據(jù)篩選出的熱詞集合,計算熱詞相關(guān)性,構(gòu)造熱詞共現(xiàn)網(wǎng)絡(luò);根據(jù)熱詞共現(xiàn)網(wǎng)絡(luò),使用基于多標(biāo)簽傳播的熱詞聚類算法對熱詞集合進(jìn)行劃分,獲得熱點(diǎn)話題集。該系統(tǒng)及方法可以實(shí)現(xiàn)微博熱詞與熱點(diǎn)話題的高效挖掘,提高了挖掘精度和處理效率。
【專利說明】一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及社交網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,特別是一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)及方法。
【背景技術(shù)】
[0002]隨著微博的興起,人們的參與度不斷地提高,用戶可以通過電腦、手機(jī)隨時隨地地發(fā)布自己的所見所聞,并實(shí)現(xiàn)即時分享。現(xiàn)在微博已成為互聯(lián)網(wǎng)的一種時尚,同時也是熱點(diǎn)話題產(chǎn)生和討論的重要場所,熱點(diǎn)話題是指在一段時間內(nèi),頻繁出現(xiàn)在網(wǎng)絡(luò)上,人們廣泛關(guān)注并討論的話題。微博信息的指數(shù)增長,使得如何有效地掌控海量信息并提取熱點(diǎn)話題,成為亟待解決的問題。
[0003]對于熱點(diǎn)話題檢測,傳統(tǒng)的方法是對文本進(jìn)行聚類,但是這種方法不利于用戶直觀地識別出熱點(diǎn)話題,而且微博具有短文本特性,數(shù)據(jù)稀疏且分布不平衡,導(dǎo)致這類方法用于發(fā)現(xiàn)熱點(diǎn)話題的效果并不理想。因此主流的方法是通過熱詞抽取并聚類實(shí)現(xiàn)熱點(diǎn)話題發(fā)現(xiàn)。
[0004]用來權(quán)衡詞重要性并抽取熱詞的經(jīng)典方法有TFIDF和TFPDF等。TFIDF的主要思想是,詞出現(xiàn)的頻率并不能充分代表文本特征,比如“是”、“神馬”這種詞,頻繁出現(xiàn),但幾乎沒有表述文本的能力。而如果一個詞在該文本的出現(xiàn)的頻率非常高,在其他文本中出現(xiàn)的次數(shù)低,這樣就能更加充分體現(xiàn)出這個文本的特征,然而,這種方法并不適合于微博中詞的權(quán)重計算,微博具有短文本特性,一條微博上很少會出現(xiàn)重復(fù)的詞,而且微博上的熱點(diǎn)話題出現(xiàn)之后,會引起用戶的廣泛轉(zhuǎn)發(fā)和討論,大量微博上包含有同樣的關(guān)鍵詞,如果用TFIDF的方法來進(jìn)行關(guān)鍵詞抽取,會在一定程度上導(dǎo)致重要詞匯遺失。因此,有學(xué)者提出了 TFPDF的方法,其賦予那些在多數(shù)文檔中出現(xiàn)的詞更高的權(quán)重,來抽取熱點(diǎn)詞匯。這種方法有利于提取熱點(diǎn)話題相關(guān)的重點(diǎn)詞匯,但是也會提取出一些頻繁出現(xiàn)但沒有表述話題能力的詞。熱點(diǎn)詞匯是指在一段時間內(nèi)詞頻劇增的詞,而上述兩種方法都沒有考慮到詞隨時間的分布情況,不利于熱詞的抽取。
[0005]針對熱詞聚類,現(xiàn)有的方法有:1)采用初始簇不敏感的Bisecting K_mean聚類算法;2)通過構(gòu)建詞相似度矩陣,利用Affinity Propagation算法在無需指定簇個數(shù)情況下進(jìn)行聚類,其時間復(fù)雜度接近;3)基于密度聚類的算法,如DBSCAN ;4)層次聚類算法等。
[0006]對于海量微博數(shù)據(jù)的熱點(diǎn)發(fā)現(xiàn)問題,現(xiàn)有的熱詞聚類方法的主要問題在于:首先,聚類結(jié)果中不同的話題所涉及的詞不允許存在交集,這與實(shí)際情況并不相符,易導(dǎo)致一些話題沒有被發(fā)現(xiàn),或者是話題的辨識度很低。比如,“高校花費(fèi)問題”和“高校排行榜”這兩個話題中,“高?!?一詞最多只能屬于一個話題,而這兩個話題無論哪個缺少了 “高?!边@一關(guān)鍵詞,將很難辨識出原本的話題。另外,傳統(tǒng)的聚類算法時間復(fù)雜度較高,難以適應(yīng)海量微博數(shù)據(jù)聚類的要求。
[0007]綜上,針對社交網(wǎng)絡(luò)中用戶個體的影響力分析已經(jīng)出現(xiàn)了較完善的技術(shù)和方法,但是針對社交網(wǎng)絡(luò)中社區(qū)級別的影響力分析的方法還相對較少,且缺乏對社交網(wǎng)絡(luò)中各社區(qū)的影響力的全面分析評估,面對大規(guī)模社交網(wǎng)絡(luò)的場景,現(xiàn)有方法無論是在分析效果和效率上都難以滿足要求。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng)及方法,該系統(tǒng)及方法有利于提高微博熱點(diǎn)發(fā)現(xiàn)的準(zhǔn)確率和處理效率。
[0009]為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng),所述系統(tǒng)包括:預(yù)處理模塊、熱詞篩選模塊、熱詞共現(xiàn)網(wǎng)絡(luò)構(gòu)造模塊和熱詞聚類模塊;
預(yù)處理模塊,用于對社交網(wǎng)絡(luò)中發(fā)布的內(nèi)容數(shù)據(jù)進(jìn)行預(yù)處理,獲取候選熱詞,并以此構(gòu)建候選熱詞集合;
熱詞篩選模塊,用于根據(jù)所述候選熱詞集合中各個候選熱詞在當(dāng)前時刻和給定歷史時間窗口內(nèi)的出現(xiàn)頻率和突發(fā)性,計算每個候選熱詞的生命力,篩選出熱詞,并以此構(gòu)建熱詞集合;
熱詞共現(xiàn)網(wǎng)絡(luò)構(gòu)造模塊,用于計算熱詞集合中各個熱詞的相關(guān)性,并以此構(gòu)造熱詞共現(xiàn)網(wǎng)絡(luò);
熱詞聚類模塊,用于根據(jù)所述熱詞共現(xiàn)網(wǎng)絡(luò),使用基于多標(biāo)簽傳播的熱詞聚類算法對熱詞集合進(jìn)行劃分,獲得熱點(diǎn)話題集。
[0010]本發(fā)明還提供一種微博熱詞與熱點(diǎn)話題挖掘方法,所述方法包括如下步驟:
步驟A:對社交網(wǎng)絡(luò)中發(fā)布的內(nèi)容數(shù)據(jù)進(jìn)行預(yù)處理,獲取候選熱詞,并以此構(gòu)建候選熱
詞集合;
步驟B:根據(jù)所述候選熱詞集合中各個候選熱詞在當(dāng)前時刻和給定歷史時間窗口內(nèi)的出現(xiàn)頻率和突發(fā)性,計算每個候選熱詞的生命力,篩選出熱詞,并以此構(gòu)建熱詞集合;
步驟C:計算所述熱詞集合中各個熱詞的相關(guān)性,并以此構(gòu)造熱詞共現(xiàn)網(wǎng)絡(luò);
步驟D:根據(jù)所述熱詞共現(xiàn)網(wǎng)絡(luò),使用基于多標(biāo)簽傳播的熱詞聚類算法對熱詞集合進(jìn)行劃分,獲得熱點(diǎn)話題集。
[0011]進(jìn)一步地,所述步驟B中,篩選熱詞并構(gòu)建熱詞集合的過程,具體包括以下步驟: 步驟B1:計算在時間段(內(nèi),各個候選熱詞的營養(yǎng)值;候選熱詞#的營養(yǎng)值MVrl"為
在時間段t內(nèi),微博集合Iwt中每條微博對候選熱詞tr的營養(yǎng)值的貢獻(xiàn)之和,計算公式為:
【權(quán)利要求】
1.一種微博熱詞與熱點(diǎn)話題挖掘系統(tǒng),其特征在于,所述系統(tǒng)包括: 預(yù)處理模塊,用于對社交網(wǎng)絡(luò)中發(fā)布的內(nèi)容數(shù)據(jù)進(jìn)行預(yù)處理,獲取候選熱詞,并以此構(gòu)建候選熱詞集合; 熱詞篩選模塊,用于根據(jù)所述候選熱詞集合中各個候選熱詞在當(dāng)前時刻和給定歷史時間窗口內(nèi)的出現(xiàn)頻率和突發(fā)性,計算每個候選熱詞的生命力,篩選出熱詞,并以此構(gòu)建熱詞集合; 熱詞共現(xiàn)網(wǎng)絡(luò)構(gòu)造模塊,用于計算熱詞集合中各個熱詞的相關(guān)性,并以此構(gòu)造熱詞共現(xiàn)網(wǎng)絡(luò); 熱詞聚類模塊,用于根據(jù)所述熱詞共現(xiàn)網(wǎng)絡(luò),使用基于多標(biāo)簽傳播的熱詞聚類算法對熱詞集合進(jìn)行劃分,獲得熱點(diǎn)話題集。
2.一種微博熱詞與熱點(diǎn)話題挖掘方法,其特征在于,所述方法包括如下步驟: 步驟A:對社交網(wǎng)絡(luò)中發(fā)布的內(nèi)容數(shù)據(jù)進(jìn)行預(yù)處理,獲取候選熱詞,并以此構(gòu)建候選熱詞集合; 步驟B:根據(jù)所述候選熱詞集合中各個候選熱詞在當(dāng)前時刻和給定歷史時間窗口內(nèi)的出現(xiàn)頻率和突發(fā)性,計算每個候選熱詞的生命力,篩選出熱詞,并以此構(gòu)建熱詞集合; 步驟C:計算所述熱詞集合中各個熱詞的相關(guān)性,并以此構(gòu)造熱詞共現(xiàn)網(wǎng)絡(luò); 步驟D:根據(jù)所述熱詞共現(xiàn)網(wǎng)絡(luò),使用基于多標(biāo)簽傳播的熱詞聚類算法對熱詞集合進(jìn)行劃分,獲得熱點(diǎn)話題集。
3.根據(jù)權(quán)利要求2所述的一種微博熱詞與熱點(diǎn)話題挖掘方法,其特征在于,所述步驟B中,篩選熱詞并構(gòu)建熱詞集合的過程,具體包括以下步驟: 步驟B1:計算在時間段(內(nèi),各個候選熱詞的營養(yǎng)值;候選熱詞#的營養(yǎng)值MVrl"為在時間段t內(nèi),微博集合Iwt中每條微博對候選熱詞tr的營養(yǎng)值的貢獻(xiàn)之和,計算公式為:
4.根據(jù)權(quán)利要求2所述的一種微博熱詞與熱點(diǎn)話題挖掘方法,其特征在于,所述步驟C中,熱詞z和熱詞k在給定時間段t內(nèi)的相關(guān)性cz’k定義為:
5.根據(jù)權(quán)利要求4所述的一種微博熱詞與熱點(diǎn)話題挖掘方法,其特征在于,所述步驟D中,熱詞集合中的每個熱詞,即每個節(jié)點(diǎn)都有一個標(biāo)簽隸屬度集合,在每次迭代中更新節(jié)點(diǎn)的標(biāo)簽隸屬度集合,直到算法收斂,具體包括以下步驟: 步驟Dl:根據(jù)所述熱詞共現(xiàn)網(wǎng)絡(luò),進(jìn)行節(jié)點(diǎn)的標(biāo)簽初始化; 步驟D2:隨機(jī)獲取未更新標(biāo)簽的節(jié)點(diǎn)K,遍歷節(jié)點(diǎn)r的鄰居節(jié)點(diǎn),根據(jù)鄰居節(jié)點(diǎn)的標(biāo)簽集合,更新節(jié)點(diǎn)r的標(biāo)簽集合中每個標(biāo)簽的隸屬度,對節(jié)點(diǎn)r進(jìn)行標(biāo)簽隸屬度歸一化; 步驟D3:反復(fù)迭代,直到滿足迭代終止條件; 步驟D4:根據(jù)迭代獲得的節(jié)點(diǎn)的標(biāo)簽隸屬度集合,對節(jié)點(diǎn)進(jìn)行歸類,獲得熱點(diǎn)話題集。
6.根據(jù)權(quán)利要求5所述的一種微博熱詞與熱點(diǎn)話題挖掘方法,其特征在于,所述步驟Dl中,標(biāo)簽初始化的方法為:為每個節(jié)點(diǎn)分配一個唯一的標(biāo)簽號,并分別以隸屬度1.0隸屬于這個標(biāo)簽號,這些唯一的標(biāo)簽號集合記為urdqueLabels。
7.根據(jù)權(quán)利要求6所述的一種微博熱詞與熱點(diǎn)話題挖掘方法,其特征在于,所述步驟D2中,標(biāo)簽隸屬度的更新規(guī)則為:隨機(jī)獲取未更新標(biāo)簽的節(jié)點(diǎn)K,獲取該節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集令Nb (K),進(jìn)而得到鄰居節(jié)點(diǎn)擁有的標(biāo)簽集合仏知/5,則在第h次迭代,節(jié)點(diǎn)K屬于標(biāo)簽號e labels的隸屬度為:
8.根據(jù)權(quán)利要求7所述的一種微博熱詞與熱點(diǎn)話題挖掘方法,其特征在于,所述步驟D3中,迭代終止條件為:
【文檔編號】G06F17/30GK103678670SQ201310725400
【公開日】2014年3月26日 申請日期:2013年12月25日 優(yōu)先權(quán)日:2013年12月25日
【發(fā)明者】陳羽中, 郭文忠, 陳國龍, 方明月 申請人:福州大學(xué)