亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向?qū)崟r(shí)微博消息流的在線突發(fā)事件檢測(cè)方法_4

文檔序號(hào):9399170閱讀:來(lái)源:國(guó)知局
4] 在步驟103中,利用突發(fā)消息檢測(cè)算法提取二層哈希表中存儲(chǔ)突發(fā)消息集合。
[0105] 示例性地,在步驟102的基礎(chǔ)上利用自適應(yīng)突發(fā)消息檢測(cè)算法判定哈希表中該消 息節(jié)點(diǎn)對(duì)應(yīng)的微博消息是否為突發(fā)消息。突發(fā)消息檢測(cè)算法中假設(shè)Hl1為二層哈希表中任一 消息節(jié)點(diǎn)對(duì)應(yīng)的微博消息,N1= (ηκ,〃,η2,ηι)為叫對(duì)應(yīng)的關(guān)注度序列,K為滑動(dòng)時(shí)間窗口大 小,WT為時(shí)間窗口過(guò)濾條件。首先計(jì)算Hi 1的關(guān)注度時(shí)間序列N 窗口移動(dòng)平均值MA κ, 然后計(jì)算Hi1自適應(yīng)突發(fā)閾值ΒΤ,計(jì)算公式如下:
[0106] BT = mean (MAk)+2*std (MAk)
[0107] 當(dāng)nv r^BT時(shí),將Iiii加入到突發(fā)消息集合BM。其中Iiii. Ii1為消息m ;在當(dāng)前時(shí)間窗 口的關(guān)注度,WT為窗口過(guò)濾條件,避免引起由于人類作息時(shí)間等因素引起的偽突發(fā)現(xiàn)象,BT 為突發(fā)閾值,該閾值根據(jù)消息的歷史關(guān)注度序列自適應(yīng)調(diào)整,能夠有效的解決實(shí)時(shí)微博流 中的突發(fā)閾值設(shè)定問(wèn)題。
[0108] 在步驟104中,融合事件特征對(duì)時(shí)間窗口內(nèi)突發(fā)消息進(jìn)行增量聚類分析,每個(gè)聚 類中心即為微博突發(fā)事件。
[0109] 示例性地,在步驟103的基礎(chǔ)上按照時(shí)間窗口的先后順序?qū)θ我淮翱趦?nèi)突發(fā)消息 集合的突發(fā)消息進(jìn)行處理,包括兩個(gè)階段:消息預(yù)處理及突發(fā)消息聚類分析。在預(yù)處理階 段首先去除文本信息中的用戶昵稱以及非法字符、提取URL、標(biāo)簽文本、非標(biāo)簽文本,利用 ICTCLAS分詞系統(tǒng)對(duì)標(biāo)簽文本及非標(biāo)簽文本進(jìn)行分詞,根據(jù)標(biāo)簽與非標(biāo)簽文本中提取的動(dòng) 詞、名詞以及文本中包含的URL等實(shí)體描述突發(fā)消息,然后通過(guò)志愿者人工標(biāo)注的突發(fā)事 件的事件特征詞與描述突發(fā)消息的實(shí)體集合匹配從而提取事件特征詞,最后將標(biāo)簽詞、事 件特征詞、URL作為突發(fā)消息的特征實(shí)體,其它詞作為普通實(shí)體。因此,對(duì)于任意一條突發(fā) 消息Imi 1可以形式化表示為bm (FE, NFE),其中FE為特征實(shí)體集合,NFE為普通實(shí)體集 合。在基于時(shí)間窗口的突發(fā)消息聚類階段,首先將第一個(gè)時(shí)間窗口內(nèi)的第一個(gè)突發(fā)消息作 為初始聚類中心,并用突發(fā)消息的特征實(shí)體描述突發(fā)事件,然后利用融合事件特征的突發(fā) 消息聚類算法檢測(cè)突發(fā)事件。
[0110] 在融合事件特征的突發(fā)消息聚類算法中假設(shè)BM。為當(dāng)前時(shí)間窗口突發(fā)消息集合, BE。為突發(fā)事件集合,MT為相似度閾值,對(duì)于VZ)肋e SMo,V忍e SjEo,計(jì)算1^與E。的 相似度Sli j,相似度計(jì)算公式如下:
[0111] S1, J= 2* |bmi. FE 門 E j. FHbmi. NFE 門 Ej. F
[0112] 如果3及合并到E ,中并更新1中消息、用戶以及特征集合;否則 為Imi1建立新聚類中心并加到突發(fā)事件集合BE。。
[0113] 通過(guò)比較突發(fā)消息檢測(cè)算法識(shí)別出的突發(fā)消息集合的規(guī)模,其規(guī)模遠(yuǎn)遠(yuǎn)小于實(shí)時(shí) 微博消息流的規(guī)模,在突發(fā)消息集合的基礎(chǔ)上檢測(cè)突發(fā)事件大大降低了時(shí)間復(fù)雜度,具有 較高的實(shí)時(shí)性,因此適用于在線突發(fā)事件檢測(cè)。
【主權(quán)項(xiàng)】
1. 一種面向?qū)崟r(shí)微博消息流的在線突發(fā)事件檢測(cè)方法,其特征在于:包括以下幾個(gè)步 驟:步驟一:實(shí)時(shí)接收微博消息流,計(jì)算微博消息的原始微博的關(guān)注度,選取原始微博中的 潛在突發(fā)消息,潛在突發(fā)消息滿足的條件為 (nvc-num+nii.r_num)多PBT 其中,PBT為潛在突發(fā)閾值, 將滿足潛在突發(fā)消息條件的微博消息叫分發(fā)至監(jiān)測(cè)服務(wù)器s,微博消息mi和監(jiān)測(cè)服務(wù) 器s的關(guān)系為: root_mid% |S 步驟二:各個(gè)消息監(jiān)測(cè)節(jié)點(diǎn)實(shí)時(shí)接收并存儲(chǔ)微博消息,建立基于時(shí)間窗口和二層哈希 表的微博消息存儲(chǔ)及更新模型,將實(shí)時(shí)微博消息存儲(chǔ)或者更新在二層哈希表中; 步驟三:利用突發(fā)消息檢測(cè)方法提取二層哈希表中存儲(chǔ)突發(fā)消息集合; 步驟四:對(duì)突發(fā)消息集合中的突發(fā)消息進(jìn)行預(yù)處理,融合事件特征對(duì)時(shí)間窗口內(nèi)突發(fā) 消息進(jìn)行增量聚類分析,每個(gè)聚類中心即為微博突發(fā)事件。2. 根據(jù)權(quán)利要求1所述的一種面向?qū)崟r(shí)微博消息流的在線突發(fā)事件檢測(cè)方法,其特征 在于: 所述的基于時(shí)間窗口和二層哈希表的微博消息存儲(chǔ)及更新模型為: 二層哈希表具有兩個(gè)子哈希表1。和Ti,二層哈希表中的子哈希表是子哈希表T。的 碰撞緩沖區(qū),|1'。|=118。,|1'1|=1181,且1181=118。\1',0〈1'〈1,81〇1^」表示子哈希表1\的第]_個(gè)槽 位,即81〇1^」=1'^=(1181:,0作11打61'),;[£{〇,1},」£[〇,]18丄其中1181:為鏈接法處理哈 希碰撞的碰撞鏈,當(dāng)1=0時(shí),1'。的每個(gè)槽81〇1:?!梗埂闧0,]18。)都有一個(gè)〇€131冊(cè)61',存儲(chǔ)由于 slot。,j的碰撞鏈表的長(zhǎng)度已經(jīng)達(dá)到d。需要插入到T沖的微博消息,slot。的碰撞鏈中每 個(gè)消息節(jié)點(diǎn)為node= (m,N),其中m為該節(jié)點(diǎn)存儲(chǔ)的微博消息,N為該消息節(jié)點(diǎn)在滑動(dòng)時(shí)間窗 口內(nèi)的關(guān)注度序列。3. 根據(jù)權(quán)利要求1所述的一種面向?qū)崟r(shí)微博消息流的在線突發(fā)事件檢測(cè)方法,其特征 在于: 所述的將實(shí)時(shí)微博消息存儲(chǔ)或者更新在二層哈希表中的方法為: (1) 如果需要處理的微博消息的原始消息不在二層哈希表中,則將該原始消息插入到 二層哈希表中,插入操作分兩種情況:子哈希表T。的碰撞鏈未滿,插入到子哈希表T。中;子 哈希表T。中的碰撞鏈已滿,插入到子哈希表T:中,當(dāng)向T:中插入消息節(jié)點(diǎn)node時(shí),便向 ofbuffer尾部插入節(jié)點(diǎn)node信息; (2) 如果需要處理的微博消息的原始消息已經(jīng)在二層哈希表中,則查找并更新該原始 消息對(duì)應(yīng)的節(jié)點(diǎn)信息; (3) 如果需要處理的微博消息的原始消息超過(guò)算法設(shè)定的老化時(shí)間,則刪除該微博消 息節(jié)點(diǎn)信息; (4) 當(dāng)時(shí)間窗口切換時(shí),計(jì)算二層哈希表中每個(gè)消息節(jié)點(diǎn)的歷史窗口的關(guān)注度序列,并 存儲(chǔ)在二層哈希表中。4. 根據(jù)權(quán)利要求1所述的一種面向?qū)崟r(shí)微博消息流的在線突發(fā)事件檢測(cè)方法,其特征 在于: 所述的提取二層哈希表中存儲(chǔ)突發(fā)消息集合的方法為: 為二層哈希表中任一消息節(jié)點(diǎn)對(duì)應(yīng)的微博消息,N;=〇!!(,???,n2,叫)為in;對(duì)應(yīng)的關(guān)注 度序列,K為滑動(dòng)時(shí)間窗口大小,WT為時(shí)間窗口過(guò)濾條件,自適應(yīng)突發(fā)閾值為: BT=mean(MAK) +2*std(MAK) 其中叫.ni為消息mi在當(dāng)前時(shí)間窗口的關(guān)注度,MAK為微博消息mi的關(guān)注度時(shí)間序列 隊(duì)的1(窗口移動(dòng)平均值, 當(dāng)關(guān)注度叫.nABT時(shí),將微博消息叫加入到突發(fā)消息集合BM。5.根據(jù)權(quán)利要求1所述的一種面向?qū)崟r(shí)微博消息流的在線突發(fā)事件檢測(cè)方法,其特征 在于: 所述的融合事件特征對(duì)時(shí)間窗口內(nèi)突發(fā)消息進(jìn)行增量聚類分析方法為: BM。為當(dāng)前時(shí)間窗口突發(fā)消息集合,BE。為突發(fā)事件集合,MT為相似度閾值,對(duì)于eM/o,V爲(wèi)e你〇,計(jì)算當(dāng)前時(shí)間窗口突發(fā)消息bmi與突發(fā)事件E澗相似度Sj: S^fSdbmi.FEnEj.Fl+lbmi.NFEnEj.F 如果3.S、./ >Mr,則將當(dāng)前時(shí)間窗口突發(fā)消息^^^合并到突發(fā)事件E,中并更新突發(fā)事 件&中消息、用戶以及特征集合;否則為當(dāng)前時(shí)間窗口突發(fā)消息^^^建立新聚類中心并加到 突發(fā)事件集合BE。。
【專利摘要】本發(fā)明公開(kāi)了一種面向?qū)崟r(shí)微博消息流的在線突發(fā)事件檢測(cè)方法,屬于互聯(lián)網(wǎng)信息管理領(lǐng)域。實(shí)時(shí)接收微博消息流,計(jì)算微博消息的原始微博的關(guān)注度,選取原始微博中的潛在突發(fā)消息,將滿足潛在突發(fā)消息條件的微博消息mi分發(fā)至監(jiān)測(cè)服務(wù)器s;各個(gè)消息監(jiān)測(cè)節(jié)點(diǎn)實(shí)時(shí)接收并存儲(chǔ)微博消息,建立基于時(shí)間窗口和二層哈希表的微博消息存儲(chǔ)及更新模型,將實(shí)時(shí)微博消息存儲(chǔ)或者更新在二層哈希表中;利用突發(fā)消息檢測(cè)方法提取二層哈希表中存儲(chǔ)突發(fā)消息集合;對(duì)突發(fā)消息集合中的突發(fā)消息進(jìn)行預(yù)處理,融合事件特征對(duì)時(shí)間窗口內(nèi)突發(fā)消息進(jìn)行增量聚類分析,每個(gè)聚類中心即為微博突發(fā)事件。本發(fā)明能夠提高突發(fā)事件檢測(cè)的實(shí)時(shí)性和準(zhǔn)確度。
【IPC分類】H04L12/26, H04L12/58
【公開(kāi)號(hào)】CN105119807
【申請(qǐng)?zhí)枴緾N201510419763
【發(fā)明人】楊武, 董國(guó)忠, 王巍, 苘大鵬, 玄世昌
【申請(qǐng)人】哈爾濱工程大學(xué)
【公開(kāi)日】2015年12月2日
【申請(qǐng)日】2015年7月17日
當(dāng)前第4頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1