亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種中文微博客的熱點(diǎn)話題檢測(cè)方法

文檔序號(hào):6536757閱讀:174來源:國(guó)知局
一種中文微博客的熱點(diǎn)話題檢測(cè)方法
【專利摘要】本發(fā)明涉及一種中文微博客的熱點(diǎn)話題檢測(cè)方法,包括以下步驟:(1)首先基于一定的垃圾過濾規(guī)則對(duì)垃圾微博進(jìn)行過濾;(2)對(duì)分布在微博中的關(guān)鍵字進(jìn)行初步聚合,得到初步表示話題的詞集合;檢索各條微博最相似的前k條微博,然后利用檢索的結(jié)果和關(guān)鍵字初步聚合的結(jié)果來豐富各條微博特征,得到各條微博特征豐富后的特征向量;(3)基于各條微博特征豐富后的特征向量,利用增量聚類方法對(duì)所有微博進(jìn)行聚類,得到聚類的話題集合,然后通過一定的話題熱度計(jì)算公式對(duì)聚類的話題集合進(jìn)行話題熱度計(jì)算,最終得到熱點(diǎn)話題列表。該方法能夠高效、準(zhǔn)確地對(duì)中文微博客進(jìn)行熱點(diǎn)話題檢測(cè),檢測(cè)速度快,準(zhǔn)確度高,適用范圍廣,應(yīng)用性強(qiáng)。
【專利說明】一種中文微博客的熱點(diǎn)話題檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及話題檢測(cè)與跟蹤【技術(shù)領(lǐng)域】,更具體地,涉及一種中文微博客的熱點(diǎn)話題檢測(cè)方法,能應(yīng)用于熱點(diǎn)話題的檢測(cè)和熱度排序,適用于中文微博客,包括新浪微博、騰訊微博、網(wǎng)易微博等。
【背景技術(shù)】
[0002]話題檢測(cè)與跟蹤(TDT)任務(wù)始于1996年,一個(gè)話題包含了一系列事件或者活動(dòng),或者伴隨的直接相關(guān)的事件和活動(dòng)。一個(gè)TDT事件表示在特定時(shí)間和場(chǎng)合發(fā)生的事情,連同所有必要的先決條件和不可避免的后果。
[0003]話題檢測(cè)與跟蹤經(jīng)過十多年的高速發(fā)展,已經(jīng)有了一系列成熟的理論,其中包括隱馬爾可夫模型、老化理論、時(shí)間序列分析、LDA等。
[0004]熱點(diǎn)話題是在一個(gè)時(shí)間段內(nèi)頻繁出現(xiàn)的話題。一個(gè)話題經(jīng)常出現(xiàn)表示它可能是熱點(diǎn)話題,但是這不是唯一的條件。每件事都有它的生命周期:出生、發(fā)展、衰落、死亡。所以,時(shí)間也是一個(gè)評(píng)價(jià)條件。熱點(diǎn)話題的基本特征:1)在大量的信息中頻繁出現(xiàn);2)熱點(diǎn)話題是從當(dāng)前網(wǎng)絡(luò)用戶發(fā)布的微博中抽取的,所以是實(shí)時(shí)的,必須保證熱點(diǎn)話題的“熱”。
[0005]熱點(diǎn)話題是話題檢測(cè)與跟蹤研究在實(shí)際問題中的應(yīng)用。常見的話題發(fā)現(xiàn)算法,如中心向量法、層次聚類法、K-means、Single-Pass聚類算法等,在普通文本的TDT任務(wù)中已經(jīng)取得了較好的效果。利用聚類方法來實(shí)現(xiàn)話題發(fā)現(xiàn)的技術(shù)已經(jīng)比較成熟,但是在處理海量的文本數(shù)據(jù)時(shí),大多數(shù)文本聚類算法速度過低,時(shí)間和空間復(fù)雜度往往大于O(n2)。而且這些算法主要是針對(duì)傳統(tǒng)媒介平臺(tái)的新聞數(shù)據(jù),微博中的信息多呈現(xiàn)短文本、口語化、即時(shí)性、冗余信息、互動(dòng)性強(qiáng)等特性,其中情感詞所占比重也比傳統(tǒng)文本要大,故傳統(tǒng)的TDT不適合直接應(yīng)用于微博的熱點(diǎn)發(fā)現(xiàn)。
[0006]在現(xiàn)有技術(shù)中,有將傳統(tǒng)的文本分類方法應(yīng)用在微博平臺(tái)上進(jìn)行熱點(diǎn)信息篩選,針對(duì)可能成為熱點(diǎn)信息的微博條目,有研究者提出可以針對(duì)一部分特別關(guān)心的信息進(jìn)行檢測(cè)。如果能設(shè)計(jì)一種切合當(dāng)前熱點(diǎn)事件的分類器,那么就可以實(shí)時(shí)監(jiān)控事件的發(fā)展。但是熱點(diǎn)事件和話題在其出現(xiàn)之前是未知的,所以問題就變?yōu)閷?duì)一些特定的,敏感的話題的固定檢測(cè)。比如有日本學(xué)者訓(xùn)練了一個(gè)分類器來判斷用戶發(fā)布的內(nèi)容是不是屬于和地震相關(guān)的報(bào)道。分類器針對(duì)特定的話題篩選可以有良好的效果,但是微博上文本內(nèi)容分布范圍廣,話題千變?nèi)f化,在發(fā)生之前無法認(rèn)為預(yù)知,這使得設(shè)計(jì)一個(gè)完備的詞典式分類器來對(duì)所有的信息進(jìn)行分類變得幾乎不可能,一般的分類器難以勝任這樣的任務(wù)。
[0007]在現(xiàn)有技術(shù)中,有利用微博情感波動(dòng)和相鄰時(shí)段詞集的差異性來識(shí)別熱點(diǎn)話題,并取得較好效果,但其沒有考慮微博多噪聲特點(diǎn)以及熱點(diǎn)話題引起的突發(fā)關(guān)鍵字。
[0008]在現(xiàn)有技術(shù)中,有從社會(huì)學(xué)的角度出發(fā),考慮了微博的基本信息來進(jìn)行熱點(diǎn)話題檢測(cè)。比如有工作再計(jì)算詞的權(quán)重的時(shí)候考慮了用戶權(quán)重、粉絲數(shù)、回復(fù)數(shù)、轉(zhuǎn)發(fā)數(shù)。首先使用一個(gè)成熟的理論來對(duì)詞生命周期進(jìn)行建模,然后考慮了用戶權(quán)重,通過pagerank來計(jì)算詞的權(quán)重,最后使用無監(jiān)督的學(xué)習(xí)算法發(fā)現(xiàn)爆炸性話題。[0009]因?yàn)槎涛谋緵]有足夠的單詞出現(xiàn)信息,傳統(tǒng)的聚類方法,比如詞袋方法,受到了限制。為了解決這個(gè)問題,有工作把一個(gè)用戶的推文當(dāng)做一個(gè)文檔。但是這樣處理忽略了一個(gè)重要的事實(shí):一條推文經(jīng)常是和一個(gè)話題相關(guān)的。也有工作從用戶的簡(jiǎn)介和文本中抽取出領(lǐng)域特征。其考慮了用戶在推特上意圖的分類標(biāo)簽和特征集合,比如平時(shí)的聊天,交流,分享,轉(zhuǎn)發(fā)的信息。把tweets分成指定的的新聞、事件、觀點(diǎn)、交易、私人信息類別。還有利用維基百科和WordNet整合短文本信息,用于短文本聚類。實(shí)驗(yàn)表明這種豐富文本特征的方法能很大地提高聚類精度,所以本發(fā)明中使用了類似的技術(shù)來豐富微博文本特征。
[0010]在現(xiàn)有技術(shù)中,有從建模角度出發(fā),比如通過改進(jìn)LDA的以適用于微博的Author-topic、Twitter-LDA模型等,可以有效用于微博話題建模,但是該類算法復(fù)雜度普通偏高,不利于從大規(guī)模微博數(shù)據(jù)集合中檢測(cè)熱點(diǎn)話題。
[0011]然而,現(xiàn)有的大部分中文微博熱點(diǎn)話題檢測(cè)方法沒有充分考慮以下三個(gè)問題:1)微博客中存在大量的噪聲信息;2)微博短文本造成信息缺失;3)海量微博數(shù)據(jù)帶來的性能挑戰(zhàn)。
[0012]微博經(jīng)過這幾年的快速發(fā)展,已經(jīng)成為中國(guó)互聯(lián)網(wǎng)的主流應(yīng)用。龐大規(guī)模的用戶也確保了其網(wǎng)絡(luò)信息傳播的核心作用。用戶通過微博自由、便捷、即時(shí)地抒發(fā)自己的情感,已成為互聯(lián)網(wǎng)上的時(shí)尚,同時(shí)也使得其成為熱點(diǎn)話題產(chǎn)生和談?wù)摰闹匾獔?chǎng)所。由于微博具有自主性強(qiáng),影響力大,信息傳播便捷迅速等特點(diǎn),從微博中檢測(cè)出熱點(diǎn)話題,可以幫助公眾了解社會(huì)焦點(diǎn),發(fā)現(xiàn)社會(huì)趨勢(shì),為市場(chǎng)研究和咨詢行業(yè)等提供理論依據(jù),也可以基于熱點(diǎn)話題進(jìn)行個(gè)性化的推薦服務(wù)、客戶群偏好分析等,有很好的現(xiàn)實(shí)的應(yīng)用價(jià)值和廣闊的應(yīng)用前景。因此,迫切需要一種高效準(zhǔn)確的中文微博熱點(diǎn)話題檢測(cè)方法,該方法應(yīng)該能夠快速地發(fā)現(xiàn)微博中的熱點(diǎn)話題,并對(duì)熱點(diǎn)話題按照熱度進(jìn)行排序。

【發(fā)明內(nèi)容】

[0013]本發(fā)明的目的在于提供一種中文微博客的熱點(diǎn)話題檢測(cè)方法,該方法檢測(cè)速度快,準(zhǔn)確度高,適用范圍廣,應(yīng)用性強(qiáng)。
[0014]為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種中文微博客的熱點(diǎn)話題檢測(cè)方法,包括以下步驟:
(1)首先基于一定的垃圾過濾規(guī)則對(duì)垃圾微博進(jìn)行過濾;
(2)對(duì)分布在微博中的關(guān)鍵字進(jìn)行初步聚合,得到初步表示話題的詞集合;檢索各條微博最相似的前A條微博,然后利用檢索的結(jié)果和關(guān)鍵字初步聚合的結(jié)果來豐富各條微博特征,得到各條微博特征豐富后的特征向量;
(3)基于各條微博特征豐富后的特征向量,利用增量聚類方法對(duì)所有微博進(jìn)行聚類,得到聚類的話題集合,然后通過一定的話題熱度計(jì)算公式對(duì)聚類的話題集合進(jìn)行話題熱度計(jì)算,最終得到熱點(diǎn)話題列表。
[0015]進(jìn)一步的,所述步驟(I)中,所述垃圾過濾規(guī)則為過濾掉包含有以下內(nèi)容之一的微博:
a)特殊字符;
b)推廣相關(guān)的特殊漢字;
c)網(wǎng)頁鏈接“http://t.cn/” ;d)符號(hào)
【權(quán)利要求】
1.一種中文微博客的熱點(diǎn)話題檢測(cè)方法,其特征在于,包括以下步驟: (1)首先基于一定的垃圾過濾規(guī)則對(duì)垃圾微博進(jìn)行過濾; (2)對(duì)分布在微博中的關(guān)鍵字進(jìn)行初步聚合,得到初步表示話題的詞集合;檢索各條微博最相似的前A條微博,然后利用檢索的結(jié)果和關(guān)鍵字初步聚合的結(jié)果來豐富各條微博特征,得到各條微博特征豐富后的特征向量; (3)基于各條微博特征豐富后的特征向量,利用增量聚類方法對(duì)所有微博進(jìn)行聚類,得到聚類的話題集合,然后通過一定的話題熱度計(jì)算公式對(duì)聚類的話題集合進(jìn)行話題熱度計(jì)算,最終得到熱點(diǎn)話題列表。
2.根據(jù)權(quán)利要求1所述的一種中文微博客的熱點(diǎn)話題檢測(cè)方法,其特征在于,所述步驟(I)中,所述垃圾過濾規(guī)則為過濾掉包含有以下內(nèi)容之一的微博: a)特殊字符; b)推廣相關(guān)的特殊漢字; c)網(wǎng)頁鏈接“http://t.cn/” ; d)符號(hào)
3.根據(jù)權(quán)利要求1所述的一種中文微博客的熱點(diǎn)話題檢測(cè)方法,其特征在于:所述步驟(2)中,按如下方法對(duì)關(guān)鍵字進(jìn)行初步聚合: 采用如下的關(guān)鍵字相似度計(jì)算公式分別計(jì)算微博中所有關(guān)鍵字兩兩之間的相似度:


4.根據(jù)權(quán)利要求3所述的一種中文微博客的熱點(diǎn)話題檢測(cè)方法,其特征在于:所述步驟(2)中,檢索各條微博最相似的前A條微博,然后利用檢索的結(jié)果和關(guān)鍵字初步聚合的結(jié)果來豐富各條微博特征,具體方法如下: 對(duì)于微博B,通過信息檢索中的BM25檢索模型檢索得到與其最相似的前A條微博{B1;B2,......,BJ,然后將微博B表示為((W1MWw2J2XL ,),其中: &表示微博中的關(guān)鍵字,J‘=l,2,……,η ;η表示微博中所有關(guān)鍵字的個(gè)數(shù);
5.根據(jù)權(quán)利要求1所述的一種中文微博客的熱點(diǎn)話題檢測(cè)方法,其特征在于:所述步驟(3)中,基于聚類的話題集合,將每個(gè)話題包含的微博按照時(shí)間窗口進(jìn)行劃分,得到《個(gè)時(shí)間窗口的微博集合:、BTU BT2,…,BT”…,BO,所述話題熱度HT的計(jì)算公式為:
【文檔編號(hào)】G06F17/30GK103745000SQ201410034402
【公開日】2014年4月23日 申請(qǐng)日期:2014年1月24日 優(yōu)先權(quán)日:2014年1月24日
【發(fā)明者】陳國(guó)龍, 廖祥文, 郭德清, 郭文忠, 魏晶晶 申請(qǐng)人:福州大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1