一種面向?qū)崟r微博消息流的在線突發(fā)事件檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于互聯(lián)網(wǎng)信息管理領(lǐng)域,尤其涉及一種面向?qū)崟r微博消息流的在線突發(fā) 事件檢測方法。
【背景技術(shù)】
[0002] 微博已經(jīng)成為網(wǎng)民獲取信息的重要途徑之一并且從滿足人們?nèi)蹶P(guān)系的社交需求 上逐漸演變成為大眾化的輿論平臺,越來越多組織機構(gòu)及公眾人物都通過微博來發(fā)布或傳 播信息。隨著信息量的膨脹和參與用戶數(shù)量的激增,微博已經(jīng)成為互聯(lián)網(wǎng)輿情形成的主要 網(wǎng)絡(luò)媒體之一。由于微博的即時性、自主性以及互動性,使得許多突發(fā)事件發(fā)生后,微博作 為人們信息發(fā)布的主要載體為突發(fā)事件提供了第一傳播平臺,包括自然災害以及社會民生 等問題引起等突發(fā)事件,微博都是最早的信息來源。
[0003] 微博消息流具有實時性強、消息數(shù)量規(guī)模巨大等特點,首先針對海量實時微博消 息流構(gòu)建高效且易擴展的消息流實時處理模型是在線突發(fā)事件檢測首要解決的問題之一。 其次,由于微博消息具有短文本、噪聲大、內(nèi)容實體多樣化等特點,如何面向?qū)崟r微博消息 流設(shè)計適用于中文微博特性的突發(fā)事件檢測算法是在線微博突發(fā)事件檢測區(qū)別于其他媒 體平臺亟需解決的問題。
[0004] 傳統(tǒng)的微博突發(fā)事件檢測方法沒有針對微博消息流構(gòu)建高效的分布式消息流實 時處理模型,同時由于微博短文本、噪聲大、內(nèi)容實體多樣化等特點會導致突發(fā)事件檢測結(jié) 果的準確率較低。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是提供一種能夠提高突發(fā)事件檢測的實時性和準確度的,一種面向 實時微博消息流的在線突發(fā)事件檢測方法。
[0006] -種面向?qū)崟r微博消息流的在線突發(fā)事件檢測方法,包括以下幾個步驟:
[0007] 步驟一:實時接收微博消息流,計算微博消息的原始微博的關(guān)注度,選取原始微博 中的潛在突發(fā)消息,潛在突發(fā)消息滿足的條件為
[0008] Oiii. c-num+nv r_num) ^ PBT
[0009] 其中,PBT為潛在突發(fā)閾值,
[0010] 將滿足潛在突發(fā)消息條件的微博消息Hi1分發(fā)至監(jiān)測服務(wù)器s,微博消息m i和監(jiān)測 服務(wù)器s的關(guān)系為:
[0011] s = Hii. root_mid% | S
[0012] 步驟二:各個消息監(jiān)測節(jié)點實時接收并存儲微博消息,建立基于時間窗口和二層 哈希表的微博消息存儲及更新模型,將實時微博消息存儲或者更新在二層哈希表中;
[0013] 步驟三:利用突發(fā)消息檢測方法提取二層哈希表中存儲突發(fā)消息集合;
[0014] 步驟四:對突發(fā)消息集合中的突發(fā)消息進行預處理,融合事件特征對時間窗口內(nèi) 突發(fā)消息進行增量聚類分析,每個聚類中心即為微博突發(fā)事件。
[0015] 本發(fā)明一種面向?qū)崟r微博消息流的在線突發(fā)事件檢測方法,還可以包括:
[0016] 1、基于時間窗口和二層哈希表的微博消息存儲及更新模型為:
[0017] 二層哈希表具有兩個子哈希表T。和T i,二層哈希表中的子哈希表T1是子哈希表 T0的碰撞緩沖區(qū),|TQ| =hs。,IT1I =Iis1,且 Iis1= hsQXr, 0〈r〈l,slot;」表示子哈希表 Ti 的第 j 個槽位,即 SlotiJ= I\.j= (list,ofbufTer),ie {〇,1},je [O1Iisi),其中 list 為鏈接法處理哈希碰撞的碰撞鏈,當i = 0時,T。的每個槽slot j e [0, hs。)都有一個 ofbuffer,存儲由于slot?!沟呐鲎叉湵淼拈L度已經(jīng)達到d。需要插入到T 的微博消息, Slotii的碰撞鏈中每個消息節(jié)點為node = (m, N),其中m為該節(jié)點存儲的微博消息,N為該 消息節(jié)點在滑動時間窗口內(nèi)的關(guān)注度序列。
[0018] 2、將實時微博消息存儲或者更新在二層哈希表中的方法為:
[0019] (1)如果需要處理的微博消息的原始消息不在二層哈希表中,則將該原始消息插 入到二層哈希表中,插入操作分兩種情況:子哈希表T。的碰撞鏈未滿,插入到子哈希表T。 中;子哈希表T。中的碰撞鏈已滿,插入到子哈希表T沖,當向T沖插入消息節(jié)點node時, 便向ofbuffer尾部插入節(jié)點node信息;
[0020] (2)如果需要處理的微博消息的原始消息已經(jīng)在二層哈希表中,則查找并更新該 原始消息對應的節(jié)點信息;
[0021] (3)如果需要處理的微博消息的原始消息超過算法設(shè)定的老化時間,則刪除該微 博消息節(jié)點信息;
[0022] (4)當時間窗口切換時,計算二層哈希表中每個消息節(jié)點的歷史窗口的關(guān)注度序 列,并存儲在二層哈希表中。
[0023] 3、提取二層哈希表中存儲突發(fā)消息集合的方法為:
[0024] Iiii為二層哈希表中任一消息節(jié)點對應的微博消息,N ;= (η κ,…,n2, Ii1)為Iiii對應 的關(guān)注度序列,K為滑動時間窗口大小,WT為時間窗口過濾條件,自適應突發(fā)閾值為:
[0025] BT = mean (MAk) +2*std (MAk)
[0026] 其中Hi1. Ii1為消息m i在當前時間窗口的關(guān)注度,MA κ為微博消息m i的關(guān)注度時間 序列隊的K窗口移動平均值,
[0027] 當關(guān)注度Iiii. r^BT時,將微博消息Iiii加入到突發(fā)消息集合BM。
[0028] 4、融合事件特征對時間窗口內(nèi)突發(fā)消息進行增量聚類分析方法為:
[0029] BM。為當前時間窗口突發(fā)消息集合,BE。為突發(fā)事件集合,MT為相似度閾值,對于 Vd騰e SMo,ν€. e 5五〇,計算當前時間窗口突發(fā)消息bmi與突發(fā)事件E ,的相似度S I
[0030] Sli J= 2* |bmi. FE 門 E j. FHbmi. NFE 門 Ej. F
[0031 ] 如果35;·.../ > ΜΓ,則將當前時間窗口突發(fā)消息Im1合并到突發(fā)事件E ,中并更新突 發(fā)事件E,中消息、用戶以及特征集合;否則為當前時間窗口突發(fā)消息Imi1建立新聚類中心并 加到突發(fā)事件集合BE。。
[0032] 有益效果:
[0033] 本發(fā)明提出了一種面向微博消息流的在線突發(fā)事件檢測方法,首先基于滑動時間 窗口構(gòu)建高效的二層哈希表模型并提出一個自適應調(diào)整突發(fā)閾值的突發(fā)消息檢測算法,然 后采用融合事件特征的在線突發(fā)事件檢測算法對突發(fā)消息進行增量聚類分析從而檢測突 發(fā)事件,該方法能夠更加準確地檢測實時微博消息流中的突發(fā)事件。
[0034] 本發(fā)明針對海量微博消息流提出了一個面向?qū)崟r微博消息流的分布式實時處理 模型,該模型根據(jù)時間窗口對微博消息流進行切分,并設(shè)計一個高效的二層哈希表結(jié)構(gòu)存 儲及更新各個時間窗口內(nèi)的潛在突發(fā)消息,該模型適用于處理實時微博消息流,具有較強 的可擴展性。
[0035] 本發(fā)明提出了一個自適應調(diào)整突發(fā)閾值的突發(fā)消息檢測算法,該算法能夠根據(jù)歷 史窗口自適應調(diào)整突發(fā)閾值從而檢測突發(fā)消息,為后續(xù)突發(fā)事件檢測奠定基礎(chǔ)。
[0036] 本發(fā)明針對微博消息的短文本、噪聲大等特點提出了一個基于時間窗口的在線突 發(fā)事件檢測方法,該方法融合事件特征并對時間窗口內(nèi)突發(fā)消息進行單遍聚類,能夠有效 的過濾事件無關(guān)消息形成的聚類結(jié)果,提高突發(fā)事件檢測準確率。
【附圖說明】
[0037] 圖1是本發(fā)明提供的微博突發(fā)事件檢測的方法的流程圖。
[0038] 圖2是本發(fā)明提供的二層哈希表結(jié)構(gòu)的示意圖。
【具體實施方式】
[0039] 下面將結(jié)合附圖對本發(fā)明做進一步詳細說明。
[0040] 本發(fā)明的目的是提供一種面向?qū)崟r微博消息流的突發(fā)事件檢測方法,以提高突發(fā) 事件檢測的實時性和準確度。此方法將微博消息流中分發(fā)至不同的消息監(jiān)測節(jié)點;各個消 息監(jiān)測節(jié)點實時接收微博消息,將實時微博消息存儲或更新在二層哈希表中;利用突發(fā)消 息檢測算法提取二層哈希表中存儲突發(fā)消息集合;融合事件特征對時間窗口內(nèi)突發(fā)消息進 行增量聚類分析,每個聚類中心即為微博突發(fā)事件。
[0041] 為實現(xiàn)上述發(fā)明目的,本發(fā)明提供一種面向?qū)崟r微博消息流的突發(fā)事件檢測方 法,其包括以下四個步驟