一種時間敏感和自適應的子話題在線檢測方法及系統(tǒng)的制作方法
【技術(shù)領域】
[0001] 本發(fā)明屬于信息技術(shù)領域,具體涉及一種時間敏感和自適應的子話題在線檢測方 法及系統(tǒng),可以應用于突發(fā)事件檢測、子話題分析、輿情分析、社交媒體數(shù)據(jù)挖掘等領域。
【背景技術(shù)】
[0002] 微博是微型博客(Microblog)的簡稱。用戶注冊微博賬號,就可以通過關注好友、 名人、機構(gòu)等方式,使得不同的用戶建立起網(wǎng)絡關系。微博的消息流中充斥著各方各面的事 物,但不同的社會實體關注的內(nèi)容卻截然不同,例如產(chǎn)品公司關注相關產(chǎn)品在網(wǎng)絡中實時 的口碑,知名人物關注自身在網(wǎng)民中的輿論形象與影響。因此基于社交網(wǎng)絡針對特定目標 實體的在線子話題檢測引起了公司、高校以及許多研究人員的高度關注。微博子話題檢測 可以為用戶節(jié)省瀏覽微博的時間,了解微博平臺上的熱門話題,理清話題發(fā)展脈絡,還可以 讓用戶獲得與重大事件有關的原始材料,因為這些材料的發(fā)布者通常都親身經(jīng)歷了整個事 件,具有較高的真實性。因此,對微博進行在線子話題檢測與分析技術(shù)的研究具有重大意 義。
[0003] 子話題檢測旨在將目標文檔流歸入不同的類,當新的文檔不屬于歷史的任何一個 類時建立一個新類,新類即代表新的子話題。目標文檔流,可以是關于一個話題,一個事件 或者一個實體的報道。從本質(zhì)上說,子話題分析是一種無指導增量式聚類研究方法。系統(tǒng)無 法預知有多少子話題,也并不知道什么時候建立新的子話題。子話題檢測是對目標數(shù)據(jù)流 起著監(jiān)控,跟蹤,分析的作用。目前國外針對Twitter做的相關研究比國內(nèi)的研究多,國內(nèi)關 于微博的話題檢測技術(shù)研究還處于起步階段。而微博文本較短,表達偏口語化,將傳統(tǒng)的方 法直接應用到微博上往往會出現(xiàn)計算量過大,檢測率低等問題,這就需要研究適合微博特 點的熱點新聞發(fā)現(xiàn)與跟蹤方法。
[0004] 目前,在話題檢測方面比較有代表性的研究有:Yiming Yang采用凝聚式聚類算法 與平均聚類算法相結(jié)合的策略(Yang Y.,Pierce T.,and Carbonell J.A Study on Retrospective and On-Line Event Detection!! J] · In Proceedings of the 21st ACM SIGIR. 1998),將近似于同一話題模型的相關事件綜合在一起作為話題檢測的結(jié)果。在線首 話題檢測傳統(tǒng)的方法是單次掃描聚類(Single-pass)方法,代表系統(tǒng)有CMU系統(tǒng),速度較慢。 張闊等人用索引樹方法(Zhang,Kuo,Juan Zi,and Li Gang Wu,New event detection based on indexing-tree and named entity,SIGIR'07:Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval,ACM,New York,NY,USA,pp· 215-222· 2007)提高速度和精度。Sasa Petrovic等人用局部敏感哈希算法,在不損失精度的情況下,大幅度提高了速度(S_:a§a Petrovic,Miles Osborne, and Victor Lavrenko. Streaming first story detection with application to Twitter.HLr10·2010·)〇
[0005] Daniela Pohl提出了一個能應用于社交媒體數(shù)據(jù)子話題檢測的框架(D.Pohl, A.Bouchachia,and H.Hellwagner,"Automatic Sub-Event Detection in Emergency Management Using Social Media",in In First Inter.Workshop on Social Web for Disaster Management(SWDM), In conjunction with WWW'12,Lyon,France,2012·)??蚣?由四個模塊組成,分別是:數(shù)據(jù)流接口模塊,事件檢測模塊,極性與標簽模塊,摘要模塊。在 事件檢測模塊中,作者抽取出多媒體數(shù)據(jù)中的標題、描述、標簽等元數(shù)據(jù)作為特征,采用自 組織神經(jīng)網(wǎng)絡特征映射作為聚類方法,將上述特征映射到桶中。每個桶內(nèi)的數(shù)據(jù)代表一個 子話題。該方法的優(yōu)點是相似的特征會被映射到相同的桶中,從而被聚到一起;缺點是無法 在線處理,無法處理信息隨意性強的微博。
[0000] Dhekar Abhik沿用Daniela Pohl的框架,但在子話題檢測模塊提出一種新的檢測 方法。該檢測方法分為兩步(Dhekar Abhik,Durga Toshniwal. "Sub-Event Detection During Natural Hazards Using Features of Social Media Data".Workshop on Social Web for Disaster Management(SffDM), In conjunction with Wffff'lS^io de Jane iro,Braz i 1,2013.)。第一步:令(Fi,F(xiàn)2,. . .,F(xiàn)k)為所有媒體數(shù)據(jù)的特征,如時間、地點、 標題、內(nèi)容等,對每個特征Fi都采用Single-pass聚類算法i得到聚類結(jié)果G。第二步:對上述 k個聚類結(jié)果(&,&,...,&)進行投票,每個類的權(quán)重為(W^Ws,...,Wk),最終得到聚類結(jié)果 (Si,&,...,&)。每個聚類結(jié)果SHf表一個子事件(子話題)。
[0007] 突發(fā)事件檢測技術(shù)也可以應用于子話題分析系統(tǒng)中。突發(fā)事件檢測主要思想是檢 測文檔流中的突發(fā)文檔數(shù)量或者突發(fā)關鍵詞,從而達到檢測突發(fā)事件的目的。
[0008] 目前子話題分析主要應用于自然災害的后續(xù)跟蹤報道,緊急事件處理等。各種社 交媒體的數(shù)據(jù)都可以作為系統(tǒng)的數(shù)據(jù)源。
[0009] 上述系統(tǒng)存在如下問題:第一,不區(qū)分歷史文檔的權(quán)重和最新文檔的權(quán)重。系統(tǒng)應 關注當前子話題,歷史數(shù)據(jù)反映的是歷史子話題,歷史文檔的權(quán)重應當隨時間衰減。第二: 無法對子話題的內(nèi)容和數(shù)量自適應的調(diào)整。上述系統(tǒng)的輸出子話題數(shù)量偏多,即出現(xiàn)長尾 現(xiàn)象。應當對沒有意義的長尾進行檢測,及時進行子話題的合并或者刪除。第三:基于突發(fā) 檢測的系統(tǒng)只能得到突發(fā)事件,無法檢測出熱門事件(子話題),即無法檢測出長時間大眾 都關心的事件(熱門子話題)。
【發(fā)明內(nèi)容】
[0010] 本發(fā)明的目的是克服上述現(xiàn)有子話題分析技術(shù)存在的問題,提出一種時間敏感和 自適應的子話題在線檢測方法及系統(tǒng),該方案中歷史文檔權(quán)重隨時間衰減,并且基于閾值 判斷和長尾檢測進行子話題數(shù)量和內(nèi)容的動態(tài)更新。
[0011] 為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0012] -種時間敏感和自適應的子話題在線檢測方法,其步驟包括:
[0013] 1)對文檔流中的每篇文檔進行向量化表示;
[0014] 2)對向量化表示后的文檔進行增量式聚類,若文檔屬于某個子話題,則將該文檔 加入到該子話題中,并根據(jù)隨時間衰減的文檔權(quán)重調(diào)整該子話題的中心權(quán)重;若文檔不屬 于任何一個子話題,則建立一個新子話題,并同樣根據(jù)隨時間衰減的文檔權(quán)重調(diào)整該新子 話題的中心權(quán)重;
[0015] 3)當增量式聚類產(chǎn)生的子話題數(shù)量或者某個子話題權(quán)重占比滿足閾值條件,或者 子話題滿足長尾檢測條件時,進行子話題間的合并或者刪除無意義的子話題;
[0016] 4)根據(jù)每個新子話題的權(quán)重已及其內(nèi)在的文檔分布,對新子話題生成摘要,并輸 出展示。
[0017] 進一步地,步驟2)通過計算文檔與子話題的相似度,判斷文檔是否屬于某個子話 題。
[0018] 進一步地,步驟2)所述隨時間衰減的文檔權(quán)重,是指歷史文檔的權(quán)重隨時間衰減, 最新的文檔具有最高的權(quán)重。
[0019] 進一步地,步驟2)根據(jù)隨時間衰減的文檔權(quán)重調(diào)整子話題的中心權(quán)重的方法是:
[0020] (i)文檔權(quán)重更新:當文檔權(quán)重低于設定的閾值時,即文檔的時間距離當前時間很 遠,是過時的歷史子話題,從系統(tǒng)中刪除該文檔;
[0021] (ii)類中心更新:根據(jù)已經(jīng)更新權(quán)重的文檔,計算該類的權(quán)重及類中心。
[0022] -種時間敏感和自適應的子話