亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于模板的在線社交網(wǎng)絡(luò)垃圾信息實(shí)時(shí)檢測(cè)方法

文檔序號(hào):9399271閱讀:308來(lái)源:國(guó)知局
基于模板的在線社交網(wǎng)絡(luò)垃圾信息實(shí)時(shí)檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)安全技術(shù)領(lǐng)域,具體涉及一種基于模板的在線社交網(wǎng)絡(luò)垃圾信 息實(shí)時(shí)檢測(cè)方法。
【背景技術(shù)】
[0002] 在之前對(duì)Twitter數(shù)據(jù)的研究中,有至少4%的信息是垃圾信息。而到了 2014年, 5%的Twitter用戶是垃圾信息機(jī)器人。垃圾信息的傳播不僅會(huì)耗費(fèi)大量的網(wǎng)絡(luò)資源,還會(huì) 影響用戶的上網(wǎng)體驗(yàn),更有可能騙取用戶點(diǎn)擊相關(guān)的惡意鏈接從而造成經(jīng)濟(jì)損失。
[0003] 文南犬 "Beyond blacklists: learning to detect malicious web sites from suspicious ur I s',( J. Ma, L. K. Sau I,S. Savage, and G. M. Voe lker, in KDD,2009, pp. 1245 - 1254)公開了一種基于信息URL重定向鏈接以及惡意URL的進(jìn)行垃圾 信息檢測(cè)的方法,即通過(guò)對(duì)社交網(wǎng)絡(luò)中信息最后附帶的URL進(jìn)行分析,用重定向以及黑名 單檢測(cè)等方法找出惡意的URL,它們所對(duì)應(yīng)的信息即為垃圾信息,等等。
[0004] 盡管這些方法都能夠從一定程度上減輕在線社交網(wǎng)絡(luò)垃圾信息對(duì)人們?cè)斐傻呢?fù) 面影響,但是對(duì)于垃圾信息制造者如何批量生產(chǎn)垃圾信息,使用了何種技術(shù)都很少有涉及。
[0005] A.Pitsillidis,等人提出了一種基于模板的垃圾信息檢測(cè)方法,詳見(jiàn)參考文獻(xiàn) "Botnet Judo:Fighting Spam with Itself," in NDSS,2010〇
[0006] 但是該方法也存在如下局限性:
[0007] 第一,在進(jìn)行檢測(cè)時(shí),假設(shè)所有模板都存在固定詞匯,而在現(xiàn)實(shí)的在線社交網(wǎng)絡(luò)中 往往會(huì)使用兩個(gè)等價(jià)的詞或短語(yǔ)表達(dá)同一個(gè)意思,這使得檢測(cè)精度下降;
[0008] 第二,大部分信息中存在的一些影響全局的噪聲詞匯,除了某些標(biāo)簽以外還有一 些語(yǔ)義無(wú)關(guān)詞匯會(huì)影響模板的創(chuàng)建,導(dǎo)致創(chuàng)建的模板不準(zhǔn)確,進(jìn)而無(wú)法進(jìn)行精確的識(shí)別;
[0009] 第三,需要一條明確的垃圾信息作為某一類模板的基準(zhǔn)。這使得模板創(chuàng)建的范圍 變得狹隘,效率變低。這些局限性使得該方法并不能很好地用于復(fù)雜多變的在線社交網(wǎng)絡(luò)。

【發(fā)明內(nèi)容】

[0010] 針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種高精度的基于模板的在線社交網(wǎng)絡(luò)垃圾 信息實(shí)時(shí)檢測(cè)方法。該在線社交網(wǎng)絡(luò)垃圾信息實(shí)時(shí)檢測(cè)方法主要用于英文在線社交網(wǎng)絡(luò), 如Twitter, Facebook等大部分垃圾信息是基于模板創(chuàng)建的平臺(tái))。通過(guò)提取垃圾信息中潛 在的模板來(lái)實(shí)時(shí)創(chuàng)建模板,然后實(shí)例化模板進(jìn)行垃圾信息匹配,從而起到垃圾信息檢測(cè)功 能,進(jìn)而能夠有效實(shí)現(xiàn)在垃圾信息傳播前的抑制功能。
[0011] -種基于模板的在線社交網(wǎng)絡(luò)垃圾信息實(shí)時(shí)檢測(cè)方法,進(jìn)行檢測(cè)前先初始化一個(gè) 空的垃圾模板庫(kù),檢測(cè)時(shí)利用所述的垃圾模板庫(kù)對(duì)待檢測(cè)信息進(jìn)行模板匹配以進(jìn)行模板匹 配:
[0012] 若匹配成功,則認(rèn)為該信息為垃圾信息,并利用所述的垃圾模板庫(kù)對(duì)后續(xù)待檢測(cè) 信息進(jìn)行垃圾信息過(guò)濾;
[0013] 否則,進(jìn)行如下步驟:
[0014] (a)對(duì)該待檢測(cè)信息進(jìn)行輔助過(guò)濾以確定其是否為垃圾信息,以及為垃圾信息時(shí) 的所屬類別并按類別對(duì)垃圾信息進(jìn)行緩存(即按類別將確定為垃圾信息的待檢測(cè)信息放 入緩存中);
[0015] (b)根據(jù)緩存結(jié)果更新所述的垃圾模板庫(kù),并利用更新后的垃圾模板庫(kù)對(duì)后續(xù)待 檢測(cè)信息進(jìn)行模板匹配。
[0016] 對(duì)于在線社交網(wǎng)絡(luò)垃圾信息實(shí)時(shí)檢測(cè)方法,待檢測(cè)的信息通常為信息流,垃圾信 息檢測(cè)時(shí)可以逐條處理,也可以針對(duì)若干條信息進(jìn)行并行處理。
[0017] 通過(guò)模板匹配進(jìn)行垃圾信息過(guò)濾時(shí)去掉垃圾信息,并保留非垃圾信息作為垃圾信 息過(guò)濾的結(jié)果進(jìn)行后續(xù)處理。
[0018] 初始情況下,垃圾模板庫(kù)為空(即不存在垃圾模板),此時(shí)所有信息均不能與垃圾 模板庫(kù)匹配(即垃圾模板庫(kù)中不存在與該信息相匹配的垃圾模板)
[0019] 作為優(yōu)選,所述垃圾模板庫(kù)中的各個(gè)垃圾模板為正則表達(dá)式,相應(yīng)的進(jìn)行模板匹 配時(shí)基于正則表達(dá)式進(jìn)行。
[0020] 所述步驟(a)利用本文相似度采用基于學(xué)習(xí)的方法對(duì)待檢測(cè)信息進(jìn)行輔助過(guò)濾。
[0021] 本發(fā)明垃圾信息過(guò)濾的結(jié)果進(jìn)行輔助過(guò)濾時(shí)具體采用如文獻(xiàn)" To war d s On I i n e Spam Filtering in Social Networks',(H. Gao, Y. Chen, K. Lee, D. Palsetia, and A. Choudhary,in NDSS,2012)公開的垃圾信息的檢測(cè)方法,具體如下:
[0022] 首先獲取信息的獨(dú)立特征,形成大規(guī)模的訓(xùn)練集進(jìn)行訓(xùn)練,再利用文本相似度得 到不同的信息分類,包括加入到原有分類與新增分類,最后利用有監(jiān)督的機(jī)器學(xué)習(xí)方法,分 出垃圾信息類與非垃圾信息類。
[0023] 輔助垃圾信息過(guò)濾器的選擇:垃圾信息制造者可以避免垃圾信息被輔助垃圾信息 過(guò)濾器過(guò)濾從而使得系統(tǒng)得不到相應(yīng)的訓(xùn)練樣本,本發(fā)明選擇的輔助垃圾信息過(guò)濾方法增 加了輔助垃圾信息過(guò)濾器的多樣性,結(jié)合多種已存在的垃圾信息檢測(cè)系統(tǒng)作為輔助垃圾信 息過(guò)濾器。
[0024] 根據(jù)分類的垃圾信息更新所述的垃圾模板庫(kù)時(shí):
[0025] 統(tǒng)計(jì)緩存中所有類垃圾信息的總條數(shù),當(dāng)總條數(shù)大于閾值時(shí),針對(duì)每一類垃圾信 息分別構(gòu)建相應(yīng)的垃圾模板并存入垃圾模板庫(kù)以更新垃圾模板庫(kù)。
[0026] 在進(jìn)行檢測(cè)時(shí),將輔助過(guò)濾后每類垃圾信息中垃圾信息按照類別進(jìn)行緩存,每次 進(jìn)行輔助過(guò)濾后立即統(tǒng)計(jì)緩存中垃圾信息的總條數(shù)
[0027] 作為優(yōu)選,所述閾值為1000。
[0028] 通過(guò)如下步驟構(gòu)建每類垃圾信息的垃圾模板:
[0029] (SI)將該類中的垃圾信息分為若干個(gè)小類:
[0030] (S2)計(jì)算該小類垃圾信息的公共超串,再利用所述的公共超串計(jì)算得到相應(yīng)的列 縮減矩陣;
[0031] (S3)對(duì)列縮減矩陣進(jìn)行列連接,并將列連接后的列縮減矩陣中字段性質(zhì)相同的元 素映射到相同的區(qū)域;
[0032] (S4)針對(duì)經(jīng)過(guò)步驟(S3)處理后的列縮減矩陣的每個(gè)區(qū)域,將該區(qū)域中的內(nèi)容合 并,并利用正則表達(dá)式表示該區(qū)域的合并結(jié)果進(jìn)而得到相應(yīng)的垃圾模板。
[0033] 作為優(yōu)選,所述步驟(SI)中將含有k個(gè)具有連續(xù)相同詞匯的垃圾信息歸為同一小 類,k為2~8。
[0034] 為提高在線社交網(wǎng)絡(luò)垃圾信息實(shí)時(shí)檢測(cè)方法的檢測(cè)精確度,所述步驟(b)更新模 板庫(kù)前還對(duì)緩存中的垃圾信息進(jìn)行去噪,并利用去噪后的結(jié)果更新垃圾模板庫(kù)。
[0035] 作為優(yōu)選,本發(fā)明中利用條件隨機(jī)場(chǎng)模型進(jìn)行去噪:
[0036] 利用CRFs (條件隨機(jī)場(chǎng))模型,F(xiàn)req (s)代表詞匯s出現(xiàn)的頻率。CRFs模型 中的三個(gè)特性:Freq(ti)得到 ti 的普及度,F(xiàn)req(ti*ti+1) ~2/freq(ti) freq(ti+l)和 freq(ti_l*ti) ~2/freq(ti_l)freq(ti)代表在ti發(fā)生的概率與其周圍詞匯的關(guān)系。將這 些特性加入CRFs模型中。進(jìn)一步地,增加了 4條正交特性來(lái)得到噪音的共同特性,即ti是 否大寫,是否為數(shù)字,是否是標(biāo)簽,是否是用戶提及(并且手工標(biāo)記了 1000條實(shí)例 信息作為訓(xùn)練集來(lái)訓(xùn)練CRFs模型,標(biāo)記出每條信息里面的每個(gè)詞為噪音還是非噪音。
[0037] 利用CFRs,人工標(biāo)記噪音詞匯以去除噪聲,使得模板創(chuàng)建被噪音的影響降到最低。
[0038] 與現(xiàn)有技術(shù)相比,本發(fā)明的在線社交網(wǎng)絡(luò)垃圾信息實(shí)時(shí)檢測(cè)方法具有如下優(yōu)點(diǎn):
[0039] 不需要使用固定詞匯創(chuàng)建模
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1