一種微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體的識別方法
【專利摘要】本發(fā)明公開一種微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體的識別方法,包括:1)通過話題傳播網(wǎng)絡(luò)中的拓?fù)涮匦詠碜R別分布在多個(gè)話題中的垃圾信息發(fā)布團(tuán)體;2)基于相鄰時(shí)間間隔的話題轉(zhuǎn)發(fā)網(wǎng)絡(luò)之間的相似度對比,識別垃圾信息發(fā)布團(tuán)體參與的異常話題;3)根據(jù)用戶在多個(gè)話題中的累計(jì)權(quán)重進(jìn)行聚類,把參與異常話題的所有用戶分為正常用戶和垃圾信息發(fā)布團(tuán)體的異常用戶;本發(fā)明所公開的一種微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體的識別方法,基于話題傳播中的轉(zhuǎn)發(fā)網(wǎng)絡(luò)的拓?fù)湫畔⑦M(jìn)行分析,不需要相關(guān)話題的文本內(nèi)容及用戶的其他信息,使得實(shí)現(xiàn)算法簡單、計(jì)算復(fù)雜度低,能夠有效識別微博中的垃圾信息發(fā)布團(tuán)體。
【專利說明】
-種微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體的 識別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及在線社會網(wǎng)絡(luò)領(lǐng)域,特別設(shè)及一種微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的 垃圾信息發(fā)布團(tuán)體的識別方法。
【背景技術(shù)】
[0002] 近些年在線社會網(wǎng)絡(luò)取得了令人矚目的發(fā)展速度,逐漸成為人們的日常生活和獲 取信息的重要手段。同時(shí),垃圾信息及其發(fā)布者隨著社會網(wǎng)絡(luò)的發(fā)展W各種形式入侵了各 個(gè)社會網(wǎng)絡(luò)。運(yùn)些垃圾信息發(fā)布者利用蓄意的用戶行為影響了正常用戶的交流和在線活 動,或者W傳播一些惡意的、錯(cuò)誤的信息為目的。例如郵件系統(tǒng)中的垃圾郵件,移動通訊系 統(tǒng)中的垃圾短信,微博中的惡意軟件和釣魚網(wǎng)站,購物網(wǎng)站中的虛假評論等等。由于低成本 和易傳播,運(yùn)些垃圾信息及其發(fā)布者在各個(gè)社交網(wǎng)站中變得極為泛濫并且成長迅速。
[0003] 近期在微博社會網(wǎng)絡(luò)中,有一種新的協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體成長的 極為迅速,被人們稱為"水軍"。他們受雇于一些公關(guān)公司,通過發(fā)布某些特定的微博內(nèi)容來 營銷他們的產(chǎn)品或者傳播特定的觀點(diǎn)來影響公眾輿情。由于影響公共輿論已經(jīng)成為一個(gè)有 競爭性的商業(yè)領(lǐng)域,運(yùn)些用戶演變成為一種有組織的協(xié)同合作的團(tuán)體來獲取更大的影響 力。他們偽裝成為普通用戶來參與到各個(gè)熱點(diǎn)話題中。如果某個(gè)團(tuán)體擁有足夠多的社交網(wǎng) 絡(luò)賬號,那么他們就能輕易的引導(dǎo)某個(gè)熱點(diǎn)話題的輿論導(dǎo)向。運(yùn)些組織內(nèi)的用戶通過某個(gè) 蓄意的觀點(diǎn)參與到話題中來,運(yùn)就會誤導(dǎo)人們遠(yuǎn)離某個(gè)話題的真實(shí)情況,從而嚴(yán)重影響人 們的判斷和決定。
【發(fā)明內(nèi)容】
[0004] 為了克服上述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種微博社會網(wǎng)絡(luò)中協(xié)作 化及組織化的垃圾信息發(fā)布團(tuán)體的識別方法,首先通過基于拓?fù)浣Y(jié)構(gòu)的圖相似度,動態(tài)地 對比熱點(diǎn)話題發(fā)展過程中的轉(zhuǎn)發(fā)網(wǎng)絡(luò),來識別垃圾信息發(fā)布團(tuán)體參與的異常話題;在參與 多個(gè)異常話題的用戶中,定義了話題參與用戶的權(quán)重,通過對多個(gè)話題累計(jì)用戶權(quán)重進(jìn)行 聚類來識別垃圾信息發(fā)布團(tuán)體,本發(fā)明可解決微博社會網(wǎng)絡(luò)中垃圾信息發(fā)布組織的發(fā)現(xiàn)問 題,為識別和阻斷虛假的、蓄意的網(wǎng)絡(luò)信息傳播提供技術(shù)支持。
[0005] 為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
[0006] -種微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體的識別方法,包括:
[0007] 步驟1,在多個(gè)熱點(diǎn)話題中發(fā)現(xiàn)有垃圾信息發(fā)布團(tuán)體參與的異常話題,具體步驟如 下:
[000引步驟1.1,構(gòu)建熱點(diǎn)話題的動態(tài)轉(zhuǎn)發(fā)網(wǎng)絡(luò),熱點(diǎn)話題Tl在時(shí)間t的轉(zhuǎn)發(fā)網(wǎng)絡(luò)表示為 有向圖Gt= (VSEt),其中Vt和Et分別是節(jié)點(diǎn)集合和邊集合,Vt中的任意一個(gè)節(jié)點(diǎn)表示用戶Ui 在起始時(shí)間到時(shí)間t之間發(fā)表了話題Tl相關(guān)的微博,Et中任意一條邊(Ug,Uk,Wug,Uk)表示用戶 Uk轉(zhuǎn)發(fā)了用戶Ug關(guān)于話題Tl的微博,Wug,Uk為邊的權(quán)重,表示用戶Uk和Ug之間轉(zhuǎn)發(fā)微博的次 數(shù);由于熱點(diǎn)話題隨著時(shí)間在不斷的動態(tài)變化,熱點(diǎn)話題Tl的動態(tài)轉(zhuǎn)發(fā)網(wǎng)絡(luò)表示為Gt(Ti) = {Gi,G2,...,Gt};
[0009] 步驟1.2,對每個(gè)熱點(diǎn)話題Tl的轉(zhuǎn)發(fā)網(wǎng)絡(luò),計(jì)算相鄰時(shí)間段的轉(zhuǎn)發(fā)網(wǎng)絡(luò)的相似度; 話題在時(shí)間t的轉(zhuǎn)發(fā)網(wǎng)絡(luò)護(hù)表示為j個(gè)弱連通子圖Gt={git,g2t,…,g/},其中g(shù)/表示第j個(gè) 弱連通子圖;計(jì)算相鄰時(shí)間間隔轉(zhuǎn)發(fā)網(wǎng)絡(luò)的相似度指計(jì)算GW=(V^jW)和Gt=(VSEt)之 間的相似度SimS首先對兩個(gè)網(wǎng)絡(luò)的弱連通子圖按照節(jié)點(diǎn)個(gè)數(shù)進(jìn)行排序,分別得到兩個(gè)網(wǎng) 絡(luò)的弱連通子圖序列,兩個(gè)子圖的相似度由對應(yīng)子圖序列之間的斯皮爾曼相關(guān)系數(shù)來表 示;
[0010] 步驟1.3,根據(jù)各個(gè)轉(zhuǎn)發(fā)網(wǎng)絡(luò)的相似度序列,識別異常話題;通過話題Tl的動態(tài)轉(zhuǎn) 發(fā)網(wǎng)絡(luò)Gt(Ti) = {Gi,G2,…,G*}得到相鄰網(wǎng)絡(luò)的相似度序列{simi,sim2,…,simt-i},若該序 列中存在某個(gè)相似度小于相似度闊值0.6,則該話題為異常話題;
[0011] 步驟2,在參與異常話題的所有用戶中,識別垃圾信息發(fā)布團(tuán)體用戶,具體步驟如 下:
[0012] 步驟2.1,在話題轉(zhuǎn)發(fā)網(wǎng)絡(luò)中定義用戶權(quán)重;根據(jù)話題轉(zhuǎn)發(fā)網(wǎng)絡(luò)的定義,出度大的 節(jié)點(diǎn)對于話題傳播和信息擴(kuò)散具有更多的影響力,在單個(gè)話題轉(zhuǎn)發(fā)網(wǎng)絡(luò)中的用戶權(quán)重由該 用戶在轉(zhuǎn)發(fā)網(wǎng)絡(luò)中的出度來定義,再利用歸一化和對數(shù)函數(shù)進(jìn)行變形來便于計(jì)算;由于多 次參與異常話題的用戶W及參與多個(gè)異常話題的用戶具有更大的可能是垃圾信息發(fā)布團(tuán) 體的成員,因此對單個(gè)轉(zhuǎn)發(fā)網(wǎng)絡(luò)中的用戶權(quán)重進(jìn)行加權(quán)求和來得到該用戶的累計(jì)用戶權(quán) 重;
[0013] 步驟2.2,在參與所有熱點(diǎn)話題的用戶中人工標(biāo)注多個(gè)初始標(biāo)簽用戶化abel={ui, U2,…,Uq};為了使標(biāo)簽用戶盡可能地少參與相同話題并且每個(gè)標(biāo)簽用戶參與盡可能多的話 題,初始標(biāo)簽用戶的選擇遵循W下策略:迭代地根據(jù)話題參與的頻率來選擇標(biāo)簽用戶,在每 次迭代中選擇一個(gè)標(biāo)簽用戶,從話題集合中移除上個(gè)標(biāo)簽用戶參與的話題,重復(fù)之前的迭 代直到話題集合中的大部分話題都被移除;
[0014] 步驟2.3,對于初始標(biāo)簽用戶集中的每個(gè)用戶Uq,首先獲得該用戶參與的熱點(diǎn)話題 序列T(Uq) = {Ti,T2,…,Tuq},對于參與該話題序列的所有用戶U(Uq)的權(quán)重進(jìn)行加權(quán)求和獲 得每個(gè)用戶的累計(jì)用戶權(quán)重W(Uq),然后基于k-means算法對累計(jì)用戶權(quán)重列表進(jìn)行聚類獲 得與初始標(biāo)簽用戶屬于同一組織的垃圾信息發(fā)布團(tuán)體。
[0015] 所述步驟1.1中,熱點(diǎn)話題的動態(tài)轉(zhuǎn)發(fā)網(wǎng)絡(luò)的構(gòu)建,W用戶為節(jié)點(diǎn),W用戶之間的 轉(zhuǎn)發(fā)關(guān)系為邊。
[0016] 所述步驟1.2中,通過網(wǎng)絡(luò)中弱連通子圖排序得到子圖序列,通過計(jì)算子圖序列之 間的距離來定義網(wǎng)絡(luò)之間的相似度,所述弱連通子圖是指將有向圖的所有有向邊替換為無 向邊,若該子圖在無向圖中是聯(lián)通子圖,則稱該子圖為弱連通子圖;斯皮爾曼相關(guān)系數(shù)指兩 個(gè)向量之間的相關(guān)系數(shù),是反映向量相關(guān)程度的統(tǒng)計(jì)分析指標(biāo)。
[0017] 所述步驟1.3中,通過判斷轉(zhuǎn)發(fā)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的劇烈變化而引起的相似度變化,從 而識別有垃圾信息發(fā)布團(tuán)體參與的異常話題,轉(zhuǎn)發(fā)網(wǎng)絡(luò)之間的相似度具體計(jì)算如下:
[001 引
[0019]
[0020]
[0021] 其中A表示參與排序的弱連通子圖中最小的節(jié)點(diǎn)個(gè)數(shù),g(A)表示選擇節(jié)點(diǎn)個(gè)數(shù)大 于A的子圖來排序;當(dāng)A = O時(shí),表示所有網(wǎng)絡(luò)中的子圖包括單一節(jié)點(diǎn)都用來排序;Wv表示單 一節(jié)點(diǎn)子圖的權(quán)重,Ws表示出了單一節(jié)點(diǎn)的其他子圖的權(quán)重;Wg表示子圖g的權(quán)重;Rgt-I表示 子圖g在Gt^i中的排名,Rgt表示子圖g在Gt中的排名;Vv^表示Gt-I中單一節(jié)點(diǎn)的集合,Vyt表示 護(hù)中單一節(jié)點(diǎn)的集合;yt-i表示Gt-I中所有節(jié)點(diǎn)的集合,yt表示Gt中所有節(jié)點(diǎn)的集合。
[0022] 所述步驟2.1中,根據(jù)單個(gè)話題中用戶節(jié)點(diǎn)出度的歸一化和對數(shù)函數(shù)變化來定義 用戶權(quán)重,然后通過加權(quán)求和來計(jì)算多個(gè)話題中用戶的累計(jì)用戶權(quán)重,用戶Ui在單個(gè)話題 轉(zhuǎn)發(fā)網(wǎng)絡(luò)Gh中的權(quán)重定義為:
[0023]
[0024] 其中dc/=h(化讀示用戶的出度;|EGh|表轉(zhuǎn)發(fā)網(wǎng)絡(luò)中總的邊數(shù),相當(dāng)于所有節(jié)點(diǎn)的出 度和;Z是一個(gè)正整數(shù),用來保證用戶權(quán)重大于零,
[0025] 用戶Ui在H個(gè)話題轉(zhuǎn)發(fā)網(wǎng)絡(luò){Gi,G2,…,Gh}中的累計(jì)權(quán)重定義為:
[0026]
[0027] 其中F(UWh)表示用戶Ui在轉(zhuǎn)發(fā)網(wǎng)絡(luò)Gh中發(fā)表微博的次數(shù),hui表示用戶Ui在H個(gè)話題 中出現(xiàn)的次數(shù)。
[0028] 所述步驟2.2中,初始標(biāo)簽用戶的選擇策略,通過迭代使得初始標(biāo)簽用戶能夠盡可 能多地覆蓋步驟1中所得到異常話題。初始的輸入為步驟1中所發(fā)現(xiàn)的異常話題序列和參加 話題的所有用戶,每次迭代過程為:計(jì)算話題序列中所有用戶參加異常話題的頻率,在運(yùn)些 用戶中選擇頻率最高的用戶作為初始標(biāo)記用戶,然后從話題序列中刪除該用戶參與的異常 話題。在初始異常話題序列中迭代W上過程,直到話題序列中的大多數(shù)話題被刪除,迭代終 止。
[0029] 所述步驟2.3中,基于對垃圾信息發(fā)布者的用戶行為分析,在聚類過程中選擇目標(biāo) 類別k=3。首先獲得該用戶參與的熱點(diǎn)話題序列T(Uq)= {Ti,T2,…,Tuq},對于參與該話題序 列的所有用戶U(Uq)的權(quán)重進(jìn)行加權(quán)求和獲得每個(gè)用戶的累計(jì)用戶權(quán)重W(Uq),然后基于k- means算法對累計(jì)用戶權(quán)重列表進(jìn)行聚類獲得與初始標(biāo)簽用戶屬于同一組織的垃圾信息發(fā) 布團(tuán)體。
[0030] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
[0031] 1.本方法基于熱點(diǎn)話題動態(tài)傳播中的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特性來識別垃圾信息發(fā)布團(tuán) 體,不需要相關(guān)話題的文本內(nèi)容及用戶的其他信息,從而使算法的適應(yīng)性得到提高。
[0032] 2.在計(jì)算相鄰動態(tài)網(wǎng)絡(luò)相似度的過程中,對不同網(wǎng)絡(luò)中的子圖進(jìn)行排名,把網(wǎng)絡(luò) 的相似度轉(zhuǎn)化為兩個(gè)排名列表的相似度比較,降低了相關(guān)計(jì)算量和復(fù)雜度,并且具有較高 的準(zhǔn)確率。
【附圖說明】
[0033] 圖1是本發(fā)明一種微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體識別方法 框架示意圖。
[0034] 圖2是一個(gè)真實(shí)熱點(diǎn)話題參與人數(shù)及相似度的動態(tài)演化圖。
[0035] 圖3是正常話題和異常話題相鄰時(shí)間間隔相似度的動態(tài)對比圖。
[0036] 圖4是異常用戶的發(fā)現(xiàn)流程圖。
[0037] 圖5是本發(fā)明對于一個(gè)熱點(diǎn)話題的垃圾信息發(fā)布團(tuán)體識別的結(jié)果示意圖。
【具體實(shí)施方式】
[0038] 下面結(jié)合附圖和實(shí)施例詳細(xì)說明本發(fā)明的實(shí)施方式。
[0039] 參考圖1,所示為本發(fā)明一個(gè)微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán) 體識別方法框架示意圖,包括W下異常話題識別和異常用戶發(fā)現(xiàn)兩個(gè)步驟:
[0040] 1、異常話題識別
[0041] 圖2是一個(gè)真實(shí)熱點(diǎn)話題參與人數(shù)及相似度的動態(tài)演化圖,參與話題的用戶數(shù)在 10個(gè)小時(shí)內(nèi)逐漸增加到5000人左右,相似度變化的序列為{1,1,1,1,1,0.54,0.92,0.98, 0.99}。垃圾信息發(fā)布團(tuán)體在第7個(gè)時(shí)間間隔的時(shí)候參與到改熱點(diǎn)話題的傳播中,從而引起 了話題轉(zhuǎn)發(fā)網(wǎng)絡(luò)拓?fù)涮匦缘拇笠?guī)模變化,對應(yīng)相鄰時(shí)間間隔的轉(zhuǎn)發(fā)網(wǎng)絡(luò)之間的相似度突然 減小到0.54左右,小于相似度闊值0.6。因此運(yùn)個(gè)熱點(diǎn)話題被識別為垃圾信息發(fā)布團(tuán)體參與 的異常話題。轉(zhuǎn)發(fā)網(wǎng)絡(luò)之間的相似度具體計(jì)算如下:
[0042]
[0043]
[0044] Ws = I-Wv
[0045] 其中A表示參與排序的弱連通子圖中最小的節(jié)點(diǎn)個(gè)數(shù),g(A)表示選擇節(jié)點(diǎn)個(gè)數(shù)大 于A的子圖來排序;當(dāng)A = O時(shí),表示所有網(wǎng)絡(luò)中的子圖(包括單一節(jié)點(diǎn))都用來排序;Wv表示 單一節(jié)點(diǎn)子圖的權(quán)重,Ws表示出了單一節(jié)點(diǎn)的其他子圖的權(quán)重;Wg表示子圖g的權(quán)重;Rgt^i表 示子圖g在Gt-I中的排名,Rg嗦示子圖g在護(hù)中的排名;Vyt-嗦示Gt-I中單一節(jié)點(diǎn)的集合,Vv嗦 示護(hù)中單一節(jié)點(diǎn)的集合;yt-i表示Gt-I中所有節(jié)點(diǎn)的集合,yt表示Gt中所有節(jié)點(diǎn)的集合。
[0046] 圖3是正常話題和異常話題相鄰時(shí)間間隔相似度的動態(tài)對比圖,其中話題1和2正 常話題,相似度變化基本保持不變;話題3、4、5是有垃圾信息發(fā)布團(tuán)體參與的話題,他們的 相似度序列都在某一時(shí)間間隔發(fā)生了較大的變化,從而可W被識別為異常話題。
[0047] 2、異常用戶發(fā)現(xiàn)
[0048] 圖4是異常用戶的發(fā)現(xiàn)流程圖,根據(jù)步驟1中所識別的異常話題數(shù)據(jù)及參與對應(yīng)話 題的用戶數(shù)據(jù),首先標(biāo)注初始標(biāo)簽用戶,獲得對應(yīng)標(biāo)簽用戶的話題序列和參與用戶;然后根 據(jù)定義的用戶權(quán)重分別計(jì)算在單個(gè)話題中的用戶權(quán)重和多個(gè)話題中的累計(jì)權(quán)重;最后根據(jù) 累計(jì)用戶權(quán)重進(jìn)行聚類獲得最終的垃圾信息發(fā)布團(tuán)體。
[0049] 用戶Ui在單個(gè)話題轉(zhuǎn)發(fā)網(wǎng)絡(luò)Gh中的權(quán)重定義為:
[(K)加 ]
[0051] 其中dc/=h(ui)表示用戶的出度;阿h|表轉(zhuǎn)發(fā)網(wǎng)絡(luò)中總的邊數(shù),相當(dāng)于所有節(jié)點(diǎn)的出 度和;Z是一個(gè)正整數(shù),用來保證用戶權(quán)重大于零。
[0052] 用戶Ui在H個(gè)話題轉(zhuǎn)發(fā)網(wǎng)絡(luò){Gi,G2,…,Gh}中的累計(jì)權(quán)重定義為:
[0化3]
[0054] 其中F(UWh)表示用戶Ui在轉(zhuǎn)發(fā)網(wǎng)絡(luò)Gh中發(fā)表微博的次數(shù),hui表示用戶Ui在H個(gè)話題 中出現(xiàn)的次數(shù)。
[0055] 垃圾信息發(fā)布者會在單個(gè)話題中發(fā)布多條微博,并且運(yùn)些用戶會重復(fù)參加多個(gè)異 常話題。根據(jù)上面的用戶權(quán)重定義,垃圾信息發(fā)布者的累計(jì)權(quán)重會遠(yuǎn)大于正常用戶。在垃圾 信息發(fā)布團(tuán)體中,被轉(zhuǎn)發(fā)者在轉(zhuǎn)發(fā)網(wǎng)絡(luò)中會有比較大的出度,因此被轉(zhuǎn)發(fā)者的累計(jì)用戶權(quán) 重會大于轉(zhuǎn)發(fā)者的累計(jì)用戶權(quán)重。在參與異常話題序列的所有用戶中,運(yùn)些用戶的累計(jì)權(quán) 重會被聚類為3個(gè)差異比較大的類。其中用戶權(quán)重最大的用戶是垃圾信息發(fā)布團(tuán)體中的核 屯、用戶;權(quán)重次之的類別中的用戶是垃圾信息發(fā)布團(tuán)體中的轉(zhuǎn)發(fā)用戶;權(quán)重最小的類別中 的用戶是參與到運(yùn)些異常話題中的正常用戶。
[0056] 圖5是本發(fā)明對于一個(gè)熱點(diǎn)話題的垃圾信息發(fā)布團(tuán)體識別的結(jié)果示意圖。其中圖 5A表示一個(gè)完整的熱點(diǎn)話題的轉(zhuǎn)發(fā)網(wǎng)絡(luò),不同用戶之間的轉(zhuǎn)發(fā)關(guān)系構(gòu)成了多個(gè)弱連通子 圖,圖5B表示了話題轉(zhuǎn)發(fā)網(wǎng)絡(luò)中的一個(gè)弱連通子圖在不同時(shí)間點(diǎn)的拓?fù)浣Y(jié)構(gòu)變化,識別出 來的垃圾信息發(fā)布者和正常用戶分別用圓圈和方塊來表示。
【主權(quán)項(xiàng)】
1. 一種微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體的識別方法,其特征在 于,包括: 步驟1,在多個(gè)熱點(diǎn)話題中發(fā)現(xiàn)有垃圾信息發(fā)布團(tuán)體參與的異常話題,具體步驟如下: 步驟1.1,構(gòu)建熱點(diǎn)話題的動態(tài)轉(zhuǎn)發(fā)網(wǎng)絡(luò),熱點(diǎn)話題Ti在時(shí)間t的轉(zhuǎn)發(fā)網(wǎng)絡(luò)表示為有向圖 (^=(¥'0 ),其中,和礦分別是節(jié)點(diǎn)集合和邊集合^中的任意一個(gè)節(jié)點(diǎn)表示用戶111在起始 時(shí)間到時(shí)間t之間發(fā)表了話題Ti相關(guān)的微博,Et中任意一條邊(u g,Uk,wug, Uk)表示用戶Uk轉(zhuǎn)發(fā) 了用戶如關(guān)于話題1\的微博,wug,uk為邊的權(quán)重,表示用戶1^和 %之間轉(zhuǎn)發(fā)微博的次數(shù);由于 熱點(diǎn)話題隨著時(shí)間在不斷的動態(tài)變化,熱點(diǎn)話題!\的動態(tài)轉(zhuǎn)發(fā)網(wǎng)絡(luò)表示為GYTO = (61, G2,…,G*}; 步驟1.2,對每個(gè)熱點(diǎn)話題1\的轉(zhuǎn)發(fā)網(wǎng)絡(luò),計(jì)算相鄰時(shí)間段的轉(zhuǎn)發(fā)網(wǎng)絡(luò)的相似度;話題在 時(shí)間t的轉(zhuǎn)發(fā)網(wǎng)絡(luò)0表示為j個(gè)弱連通子圖^二化^^^…⑷^其中^表示第^'個(gè)弱連通 子圖;計(jì)算相鄰時(shí)間間隔轉(zhuǎn)發(fā)網(wǎng)絡(luò)的相似度指計(jì)算6Μ=(νΜ,ΕΜ)和0=(ν\Ε,之間的相 似度simS首先對兩個(gè)網(wǎng)絡(luò)的弱連通子圖按照節(jié)點(diǎn)個(gè)數(shù)進(jìn)行排序,分別得到兩個(gè)網(wǎng)絡(luò)的弱 連通子圖序列,兩個(gè)子圖的相似度由對應(yīng)子圖序列之間的斯皮爾曼相關(guān)系數(shù)來表示; 步驟1.3,根據(jù)各個(gè)轉(zhuǎn)發(fā)網(wǎng)絡(luò)的相似度序列,識別異常話題;通過話題1\的動態(tài)轉(zhuǎn)發(fā)網(wǎng)絡(luò) 6\1\) = {61,62,"_,61得到相鄰網(wǎng)絡(luò)的相似度序列{>比1,以111 2,"_,5^11^1},若該序列中存 在某個(gè)相似度小于相似度閾值〇. 6,則該話題為異常話題; 步驟2,在參與異常話題的所有用戶中,識別垃圾信息發(fā)布團(tuán)體用戶,具體步驟如下: 步驟2.1,在話題轉(zhuǎn)發(fā)網(wǎng)絡(luò)中定義用戶權(quán)重;根據(jù)話題轉(zhuǎn)發(fā)網(wǎng)絡(luò)的定義,出度大的節(jié)點(diǎn) 對于話題傳播和信息擴(kuò)散具有更多的影響力,在單個(gè)話題轉(zhuǎn)發(fā)網(wǎng)絡(luò)中的用戶權(quán)重由該用戶 在轉(zhuǎn)發(fā)網(wǎng)絡(luò)中的出度來定義,再利用歸一化和對數(shù)函數(shù)進(jìn)行變形來便于計(jì)算;由于多次參 與異常話題的用戶以及參與多個(gè)異常話題的用戶具有更大的可能是垃圾信息發(fā)布團(tuán)體的 成員,因此對單個(gè)轉(zhuǎn)發(fā)網(wǎng)絡(luò)中的用戶權(quán)重進(jìn)行加權(quán)求和來得到該用戶的累計(jì)用戶權(quán)重; 步驟2.2,在參與所有熱點(diǎn)話題的用戶中人工標(biāo)注多個(gè)初始標(biāo)簽用戶Ul-l = {U1,U2,…, uq};為了使標(biāo)簽用戶盡可能地少參與相同話題并且每個(gè)標(biāo)簽用戶參與盡可能多的話題,初 始標(biāo)簽用戶的選擇遵循以下策略:迭代地根據(jù)話題參與的頻率來選擇標(biāo)簽用戶,在每次迭 代中選擇一個(gè)標(biāo)簽用戶,從話題集合中移除上個(gè)標(biāo)簽用戶參與的話題,重復(fù)之前的迭代直 到話題集合中的大部分話題都被移除; 步驟2.3,對于初始標(biāo)簽用戶集中的每個(gè)用戶uq,首先獲得該用戶參與的熱點(diǎn)話題序列T (11<1) = {1'1,1'2,一,1\1(1},對于參與該話題序列的所有用戶1](1 1(1)的權(quán)重進(jìn)行加權(quán)求和獲得每 個(gè)用戶的累計(jì)用戶權(quán)重W(uq),然后基于k-means算法對累計(jì)用戶權(quán)重列表進(jìn)行聚類獲得與 初始標(biāo)簽用戶屬于同一組織的垃圾信息發(fā)布團(tuán)體。2. 根據(jù)權(quán)利要求1所述微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體的識別方 法,其特征在于,所述步驟1.1中,熱點(diǎn)話題的動態(tài)轉(zhuǎn)發(fā)網(wǎng)絡(luò)的構(gòu)建,以用戶為節(jié)點(diǎn),以用戶 之間的轉(zhuǎn)發(fā)關(guān)系為邊。3. 根據(jù)權(quán)利要求1所述微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體的識別方 法,其特征在于,所述步驟1.2中,通過網(wǎng)絡(luò)中弱連通子圖排序得到子圖序列,通過計(jì)算子圖 序列之間的距離來定義網(wǎng)絡(luò)之間的相似度,所述弱連通子圖是指將有向圖的所有有向邊替 換為無向邊,若該子圖在無向圖中是聯(lián)通子圖,則稱該子圖為弱連通子圖;斯皮爾曼相關(guān)系 數(shù)指兩個(gè)向量之間的相關(guān)系數(shù),是反映向量相關(guān)程度的統(tǒng)計(jì)分析指標(biāo)。4. 根據(jù)權(quán)利要求1所述微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體的識別方 法,其特征在于,所述步驟1.3中,通過判斷轉(zhuǎn)發(fā)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的劇烈變化而引起的相似度 變化,從而識別有垃圾信息發(fā)布團(tuán)體參與的異常話題,轉(zhuǎn)發(fā)網(wǎng)絡(luò)之間的相似度具體計(jì)算如 下:其中λ表示參與排序的弱連通子圖中最小的節(jié)點(diǎn)個(gè)數(shù),g(A)表示選擇節(jié)點(diǎn)個(gè)數(shù)大于λ的 子圖來排序;當(dāng)λ = 0時(shí),表示所有網(wǎng)絡(luò)中的子圖包括單一節(jié)點(diǎn)都用來排序;Wv表示單一節(jié)點(diǎn) 子圖的權(quán)重,Ws表不出了單一節(jié)點(diǎn)的其他子圖的權(quán)重;Wg表不子圖g的權(quán)重;Rgt 1表不子圖g 在GM中的排名,V表示子圖g在0中的排名;V廣1表示Gt1中單一節(jié)點(diǎn)的集合,VJ表示0中 單一節(jié)點(diǎn)的集合;VM表示Gt 1中所有節(jié)點(diǎn)的集合,f表示C中所有節(jié)點(diǎn)的集合。5. 根據(jù)權(quán)利要求1所述微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體的識別方 法,其特征在于,所述步驟2.1中,根據(jù)單個(gè)話題中用戶節(jié)點(diǎn)出度的歸一化和對數(shù)函數(shù)變化 來定義用戶權(quán)重,然后通過加權(quán)求和來計(jì)算多個(gè)話題中用戶的累計(jì)用戶權(quán)重,用戶m在單 個(gè)話題轉(zhuǎn)發(fā)網(wǎng)絡(luò)Gh中的權(quán)雷宙義為:其中dc/^m)表示用戶的出度;|Eeh|表轉(zhuǎn)發(fā)網(wǎng)絡(luò)中總的邊數(shù),相當(dāng)于所有節(jié)點(diǎn)的出度 和;Z是一個(gè)正整數(shù),用來保證用戶權(quán)重大于零, 用戶m在Η個(gè)話題轉(zhuǎn)發(fā)網(wǎng)絡(luò),G2,…,GH}中的累計(jì)權(quán)重定義為:其中F(ui,ch)表示用戶m在轉(zhuǎn)發(fā)網(wǎng)絡(luò)Gh中發(fā)表微博的次數(shù),hui表示用戶m在Η個(gè)話題中出 現(xiàn)的次數(shù)。6. 根據(jù)權(quán)利要求1所述微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體的識別方 法,其特征在于,所述步驟2.2中,初始標(biāo)簽用戶的選擇策略,通過迭代使得初始標(biāo)簽用戶能 夠盡可能多地覆蓋步驟1中所得到異常話題。初始的輸入為步驟1中所發(fā)現(xiàn)的異常話題序列 和參加話題的所有用戶,每次迭代過程為:計(jì)算話題序列中所有用戶參加異常話題的頻率, 在這些用戶中選擇頻率最高的用戶作為初始標(biāo)記用戶,然后從話題序列中刪除該用戶參與 的異常話題。在初始異常話題序列中迭代以上過程,直到話題序列中的大多數(shù)話題被刪除, 迭代終止。7.根據(jù)權(quán)利要求1所述微博社會網(wǎng)絡(luò)中協(xié)作化及組織化的垃圾信息發(fā)布團(tuán)體的識別方 法,其特征在于,所述步驟2.3中,基于對垃圾信息發(fā)布者的用戶行為分析,在聚類過程中選 擇目標(biāo)類別讓=3。首先獲得該用戶參與的熱點(diǎn)話題序列1'(11( 1) = {1'1,12,一,1\?1},對于參與該 話題序列的所有用戶U(uq)的權(quán)重進(jìn)行加權(quán)求和獲得每個(gè)用戶的累計(jì)用戶權(quán)重W(u q),然后 基于k-means算法對累計(jì)用戶權(quán)重列表進(jìn)行聚類獲得與初始標(biāo)簽用戶屬于同一組織的垃圾 信息發(fā)布團(tuán)體。
【文檔編號】G06F17/30GK105956184SQ201610383009
【公開日】2016年9月21日
【申請日】2016年6月1日
【發(fā)明人】周亞東, 黨琪, 高峰, 管曉宏
【申請人】西安交通大學(xué)