基于最大頻繁項集挖掘的微博炒作群體發(fā)現(xiàn)方法
【專利摘要】本發(fā)明涉及基于最大頻繁項集挖掘的微博炒作群體發(fā)現(xiàn)方法,有效解決微博炒作群體的發(fā)現(xiàn),防止虛假惡意炒作的問題,方法是,以炒作微博的相關(guān)性為線索,基于爬蟲技術(shù)或微博公共開放平臺獲取參與炒作微博傳播的賬戶集合;以單個微博為事務,參與微博傳播的賬戶為項,構(gòu)建炒作微博事務數(shù)據(jù)庫;對待檢測微博組所對應的事務數(shù)據(jù)庫中的每個事務,找出所有事務中包含的最大頻繁項集,計算每個最大頻繁項集間的重疊率,將規(guī)模小的項集歸并到大項集中,減少交集次數(shù),事務間取交集時,用二分查找法判斷事務中是否包含某項目,提高挖掘最大頻繁項集的效率,發(fā)現(xiàn)微博炒作群體,本發(fā)明方法簡單,能準確發(fā)現(xiàn)惡意微博炒作群體,防止給社會造成的不良影響。
【專利說明】基于最大頻繁項集挖掘的微博炒作群體發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及微博輿情監(jiān)控領(lǐng)域,特別是一種基于最大頻繁項集挖掘的微博炒作群體發(fā)現(xiàn)方法。
【背景技術(shù)】
[0002]微博作為一種新興的社會媒體形式,兼具博客、媒體、即時通訊功能于一身。微博自身的即時性、草根性、移動性、互動性等特點使其成為網(wǎng)絡輿情傳播的天然載體。在網(wǎng)絡輿情中,微博不僅成為輿論傳播的中心和渠道,同時也參與輿論的形成、發(fā)展與引導過程。
[0003]微博傳播是一把雙刃劍:一方面,微博為一些社會事件中的信息公開提供了一個快速響應的平臺,它在一定程度上彌補了傳統(tǒng)媒體和其他網(wǎng)絡工具的不足;另一方面,微博不同于傳統(tǒng)新聞媒體,其新聞的發(fā)布存在重復性,且真實性無法保證,可能會被利用成為謠言傳播的載體、不滿情緒的導火索,甚至給國家安全和社會穩(wěn)定造成極壞的后果。網(wǎng)絡不實信息始于其制造者,擴散于其傳播者。
[0004]惠普公司旗下的社交計算研究團隊在最新報告中稱,新浪微博存在異常嚴重的話題炒作問題,圍繞熱門話題轉(zhuǎn)發(fā)的微博中有半數(shù)都是由炒作用戶發(fā)送的。研究發(fā)現(xiàn),熱門話題傳播中人為操縱的虛假轉(zhuǎn)發(fā)數(shù)量極大,1%的垃圾消息發(fā)送者創(chuàng)造了 49%的轉(zhuǎn)發(fā)量。自2013年8月以來,政府部門加大了對網(wǎng)絡輿論引導的力度,根據(jù)對“秦火火”、“立二拆四”等所在網(wǎng)絡推手公司的調(diào)查結(jié)果來看,網(wǎng)絡中存在著大量有組織的推手團隊,他們伙同少數(shù)“意見領(lǐng)袖”組織網(wǎng)絡“水軍”,長期在網(wǎng)上炮制虛假新聞、故意歪曲事實,制造事端,混淆是非,嚴重擾亂了網(wǎng)絡輿論秩序,其行為已經(jīng)受到國家輿情管控的高度關(guān)注,相關(guān)人等也因涉嫌犯罪被依法刑事拘留。
[0005]因此,面向新興媒體,針對各種隱藏的輿論煽動行為,開展對炒作微博的識別,分析其傳播群體特征,收集虛假推送行為的識別證據(jù),甄別人為制造的炒作熱點,對于發(fā)現(xiàn)、預測、弓I導網(wǎng)絡輿論,提高政府輿論監(jiān)管能力,維護社會和諧穩(wěn)定具有重要的理論價值和現(xiàn)實意義。
[0006]隨著微博的爆炸式發(fā)展,針對微博賬戶的研究吸引了國內(nèi)外學者的廣泛興趣,一些研究成果近年來在WWW、KDD等重要會議上發(fā)表。目前對微博賬戶的研究可以大致分為以下三類:1)特征分析,包括賬戶屬性特征和行為特征等;2)影響力分析,包括影響力評價體系構(gòu)建及度量方法等;3)賬戶間關(guān)系網(wǎng)絡分析,包括賬戶關(guān)系網(wǎng)絡的基本屬性、生成與演進等。
[0007]然而,目前國內(nèi)外對炒作群體研究的文獻相對較少,主要相關(guān)文獻有對垃圾賬戶(spammer)、馬甲賬戶(sockpuppet)、僵尸賬戶的識別。垃圾賬戶是指經(jīng)常發(fā)布垃圾信息的賬戶,Z.Yi等人從多個角度分析了垃圾賬戶的特征,并采用機器學習的方式自動識別垃圾賬戶。Chao Yang等人深入分析了垃圾賬戶間的社會關(guān)系,提出了一種根據(jù)賬戶間親密度來發(fā)現(xiàn)垃圾賬戶的方法。馬甲賬戶是指通過注冊多個賬號進行發(fā)帖、轉(zhuǎn)發(fā)、評論等行為的虛假賬戶,Xueling Zheng等人提出了一種利用文本內(nèi)容、相似度匹配來識別馬甲賬戶的方法。僵尸賬戶是指為了進行粉絲買賣而惡意注冊的賬戶,方明等提出了一種基于微博注冊賬戶名特征提取的智能分類方法,具有較高的準確率。但這些方法并未解決如何發(fā)現(xiàn)微博炒作群體,防止虛假炒作,炒作賬戶與以上幾類賬戶之間最大的區(qū)別是,炒作賬戶側(cè)重于其“炒作”行為,參與炒作的賬戶較為分散且直接關(guān)系不明顯,隱蔽性和組織性更強,也更加難以發(fā)現(xiàn)。
[0008]群體炒作與普通微博類似,傳播人群的發(fā)帖、轉(zhuǎn)發(fā)、評論等行為表面上是孤立的,但是非常規(guī)的惡意傳播往往不是單個人的行為,而是有組織的群體行為,但是這種群體行為是隱蔽的,難以察覺。因此,如何發(fā)現(xiàn)微博炒作群體,防止虛假惡意炒作給社會造成的不良影響和不必要的經(jīng)濟損失,是必需認真解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0009]針對上述情況,為克服現(xiàn)有技術(shù)之缺陷,本發(fā)明之目的就是提供一種基于最大頻繁項集挖掘的微博炒作群體發(fā)現(xiàn)方法,可有效解決微博炒作群體的發(fā)現(xiàn),防止虛假惡意炒作的問題。
[0010]本發(fā)明解決的技術(shù)方案是,基于最大頻繁項集挖掘的微博炒作賬戶發(fā)現(xiàn)方法包括如下步驟:
[0011](I)炒作微博樣本搜集:以炒作微博的相關(guān)性為線索,基于爬蟲技術(shù)或微博公共開放平臺獲取參與炒作微博傳播的賬戶集合;
[0012](2)事務數(shù)據(jù)庫構(gòu)建:以單個微博為事務,參與微博傳播的賬戶為項,構(gòu)建炒作微博事務數(shù)據(jù)庫;
[0013](3)最大頻繁項集挖掘:對待檢測微博組所對應的事務數(shù)據(jù)庫中的每個事務,利用迭代交集法找出所有事務中包含的最大頻繁項集,得到若干最大頻繁項集集合;
[0014]由于炒作微博事務庫中每個事務包含的項目大都數(shù)以萬計,直接在原始事務數(shù)據(jù)庫中挖掘最大頻繁項集將會影響算法執(zhí)行的效率,利用二分查找法,快速剔除事務中的非頻繁項目,找出最大頻繁項集的候選集合,縮減事務數(shù)據(jù)庫規(guī)模;
[0015](4)最大頻繁項集歸并:對每個最大頻繁項集,計算項集間的重疊率,對最大頻繁項集進行合并,盡量將規(guī)模較小的項集歸并到較大項集中,并保證歸并后項集中的賬戶依然具有一定的關(guān)聯(lián)性;通過縮減事務數(shù)據(jù)庫規(guī)模,減少交集次數(shù),事務間取交集時,采用二分查找法判斷事務中是否包含某項目,以提高挖掘最大頻繁項集的效率,從而發(fā)現(xiàn)微博炒作群體。
[0016]本發(fā)明方法簡單,易操作,能準確發(fā)現(xiàn)惡意微博炒作群體,防止給社會造成的不良影響和不必要的經(jīng)濟損失,具有實際的應用價值。
【專利附圖】
【附圖說明】
[0017]圖1為本發(fā)明流程框示圖。
[0018]圖2為本發(fā)明的炒作微博事務數(shù)據(jù)庫示意圖。
[0019]圖3為本發(fā)明炒作微博事務數(shù)據(jù)庫截圖。
[0020]圖4為本發(fā)明算法在Mushroom數(shù)據(jù)集上執(zhí)行時間對比圖。
[0021]圖5為本發(fā)明算法在炒作微博數(shù)據(jù)集上執(zhí)行時間對比圖。[0022]圖6為本發(fā)明MFS中項集個數(shù)變化圖。
[0023]圖7為本發(fā)明MFS中項集的最大長度變化圖。
【具體實施方式】
[0024]以下結(jié)合附圖對本發(fā)明的【具體實施方式】作詳細說明。
[0025]由圖1給出,本發(fā)明包括炒作微博事務庫、最大頻繁項集挖掘以及最大頻繁項集歸并部分,炒作微博事務庫構(gòu)建模塊主要負責采集數(shù)據(jù)并進行預處理,構(gòu)建事務數(shù)據(jù)庫D ;最大頻繁項集挖掘模塊首先基于二分查找方法篩選候選最大頻繁項集,然后基于迭代交集方法從事務數(shù)據(jù)庫D中挖掘出最大頻繁項集MFS ;最大頻繁項集歸并模塊主要對MFS進行歸并處理,以盡可能還原真實的炒作群體,具體步驟是:
[0026]I)、搜集炒作微博樣本
[0027]炒作微博樣本搜集實現(xiàn)本發(fā)明的最初步驟,微博樣本的選擇應具有相關(guān)性,若某個炒作賬戶曾經(jīng)參與的若干微博,或與某個主題相關(guān)的若干微博,微博樣本的判定應借鑒已有的成熟判別方法或?qū)<蚁到y(tǒng),炒作微博樣本搜集有兩種方法:一種方法是選擇爬蟲技術(shù),從微博網(wǎng)頁下載網(wǎng)頁、解析頁面結(jié)構(gòu)并提取微博傳播賬戶的信息;另一種方法是調(diào)用微博公共開放平臺,調(diào)用微博官方對外提供的API函數(shù)獲取微博傳播賬戶的信息,為了有利于對炒作群體的發(fā)現(xiàn),在選取炒作微博樣本時還應遵循以下原則:
[0028]a、選取轉(zhuǎn)發(fā)數(shù)相對較高的熱門微博;
[0029]b、微博發(fā)布 時間跨度〈180天;
[0030]按照待挖掘炒作賬戶的算法分析條件,樣本搜集的內(nèi)容應包括微博標識號、微博賬戶標識號、微博賬戶的基本信息;
[0031]2)構(gòu)建事務數(shù)據(jù)庫
[0032]將炒作群體發(fā)現(xiàn)問題轉(zhuǎn)化為數(shù)據(jù)挖掘中的最大頻繁項集挖掘,在炒作微博樣本搜集的基礎上,將炒作微博對應事務,參與微博轉(zhuǎn)發(fā)的賬戶對應事務中的項,構(gòu)建事務數(shù)據(jù)庫,如圖2所示;
[0033]3)基于二分查找的候選最大頻繁項集篩選
[0034]由于炒作微博事務庫中每個事務包含的項目大都數(shù)以萬計,直接在原始事務庫中挖掘最大頻繁項集將會影響算法執(zhí)行的效率,基于二分查找的方法,能夠快速剔除事務中的非頻繁項目,找出最大頻繁項集的候選集合,縮減事務庫規(guī)模,給定事務數(shù)據(jù)庫D,最小支持數(shù)S,進行候選最大頻繁項集篩選,方法是:
[0035](I)將事務庫D中的事務按項目個數(shù)從大到小排序
[0036](2)記頻繁項目集合EI = 0,非頻繁項目集合NFI = 0 ;從i = I開始,按順序遍歷D中的每個事務TiQ ( i ( |D|),對事務Ti中的每個項目u:
[0037]a)若 u e FI,則保留 u ;
[0038]b)若u e NFI,則從Ti中剔除u ;
[0039]c)若u € FIa u € NFI,則轉(zhuǎn)到下一步判斷U是否是頻繁項目;
[0040](3)、從」=i+1開始遍歷剩余的事務,并利用二分查找法判斷Tj, i〈j≤D|中是否包含u,終止條件為:
[0041]a)當包含u的事務個數(shù)達到S時,說明u是頻繁項目,將u加入到FI中;[0042]b)當剩余的事務個數(shù)與包含了 U的事務個數(shù)之和小于S時,說明U是非頻繁項目,從Ti中剔除U。若此時包含了 u的事務個數(shù)大于1,說明u還出現(xiàn)在Ti之外的事務中,則將u加入到NFI中;
[0043](4)剔除完D中所有事務中的非頻繁項目后,即可得到縮減后的事務庫D1 ;
[0044]4)基于迭代交集的最大頻繁項集挖掘:
[0045]通過對事務迭代取交集的方式挖掘最大頻繁項集,給定縮減后的事務庫D1,最小支持數(shù)S,最大頻繁項集挖掘的方法如下:
[0046](1)將事務庫D1中的事務按項的個數(shù)從大到小排序,以盡早發(fā)現(xiàn)最大頻繁項集,為縮減事務庫規(guī)模,合并事務庫中重復的事務,并對事務個數(shù)計數(shù);
[0047](2)為減少取交集的次數(shù),對于事務Ti, 1≤ i ≤M1-S+1,從i = 1開始,首先找出包含了 Ti中任意項的事務集合TjITj至少包含了 Ti中的一個項目;j>i),Ti依次與Tj取交集,將兩者的交集移入新的事務庫D2,同時剔除Tp T,
[0048](3)對于新事務庫D2中的事務T,如果T是由不小于S個事務取交集而得,則將T移入最大頻繁候選項集集合MFCS中,同時剔除T在D2中的子事務;
[0049](4)如果新事務庫D2中的剩余事務個數(shù)小于S,則結(jié)束對事務庫D2的處理,返回到上層事務庫;否則,對D2從第I步開始再進行此過程;
[0050](5)當事務庫D1中剩余的事務數(shù)小于S時,即DlD11-S+1,結(jié)束對當前事務庫DJA處理;
[0051](6)對MFCS中的項集進行合并同時剔除非最大頻繁項集,最后的結(jié)果即為所求的最大頻繁項集集合MFS ;
[0052]5)最大頻繁項集歸并:
[0053]由于最小支持數(shù)的限制,使得MFS中最大頻繁項集規(guī)模較小,而且有些項集之間存在大量的重疊項,這些項集代表的賬戶群很可能從屬于同一個炒作群體,為解決這一問題,使用重疊率來反映兩個項集之間的相似性,設項集X1, X2 e MFS,將X1和X2的重疊率記為:
[0054]
【權(quán)利要求】
1.一種基于最大頻繁項集挖掘的微博炒作群體發(fā)現(xiàn)方法,其特征在于,包括如下步驟: (1)炒作微博樣本搜集:以炒作微博的相關(guān)性為線索,基于爬蟲技術(shù)或微博公共開放平臺獲取參與炒作微博傳播的賬戶集合; (2)事務數(shù)據(jù)庫構(gòu)建:以單個微博為事務,參與微博傳播的賬戶為項,構(gòu)建炒作微博事務數(shù)據(jù)庫; (3)最大頻繁項集挖掘:對待檢測微博組所對應的事務數(shù)據(jù)庫中的每個事務,利用迭代交集法找出所有事務中包含的最大頻繁項集,得到若干最大頻繁項集集合; 由于炒作微博事務庫中每個事務包含的項目大都數(shù)以萬計,直接在原始事務數(shù)據(jù)庫中挖掘最大頻繁項集將會影響算法執(zhí)行的效率,利用二分查找法,快速剔除事務中的非頻繁項目,找出最大頻繁項集的候選集合,縮減事務數(shù)據(jù)庫規(guī)模; (4)最大頻繁項集歸并:對每個最大頻繁項集,計算項集間的重疊率,對最大頻繁項集進行合并,盡量將規(guī)模 較小的項集歸并到較大項集中,并保證歸并后項集中的賬戶依然具有一定的關(guān)聯(lián)性;通過縮減事務數(shù)據(jù)庫規(guī)模,減少交集次數(shù),事務間取交集時,采用二分查找法判斷事務中是否包含某項目,以提高挖掘最大頻繁項集的效率,從而發(fā)現(xiàn)微博炒作群體。
2.根據(jù)權(quán)利要求1所述的基于最大頻繁項集挖掘的微博炒作群體發(fā)現(xiàn)方法,其特征在于,包括炒作微博事務庫、最大頻繁項集挖掘以及最大頻繁項集歸并部分,炒作微博事務庫構(gòu)建模塊主要負責采集數(shù)據(jù)并進行預處理,構(gòu)建事務數(shù)據(jù)庫D ;最大頻繁項集挖掘模塊首先基于二分查找方法篩選候選最大頻繁項集,然后基于迭代交集方法從事務數(shù)據(jù)庫D中挖掘出最大頻繁項集MFS ;最大頻繁項集歸并模塊主要對MFS進行歸并處理,還原真實的炒作群體,具體步驟是: 1)、搜集炒作微博樣本 炒作微博樣本搜集實現(xiàn)本發(fā)明的最初步驟,微博樣本的選擇應具有相關(guān)性,若某個炒作賬戶曾經(jīng)參與的若干微博,或與某個主題相關(guān)的若干微博,微博樣本的判定應借鑒已有的成熟判別方法或?qū)<蚁到y(tǒng),炒作微博樣本搜集有兩種方法:一種方法是選擇爬蟲技術(shù),從微博網(wǎng)頁下載網(wǎng)頁、解析頁面結(jié)構(gòu)并提取微博傳播賬戶的信息;另一種方法是調(diào)用微博公共開放平臺,調(diào)用微博官方對外提供的API函數(shù)獲取微博傳播賬戶的信息; 按照待挖掘炒作賬戶的算法分析條件,樣本搜集的內(nèi)容應包括微博標識號、微博賬戶標識號、微博賬戶的基本信息; 2)構(gòu)建事務數(shù)據(jù)庫 將炒作群體發(fā)現(xiàn)問題轉(zhuǎn)化為數(shù)據(jù)挖掘中的最大頻繁項集挖掘,在炒作微博樣本搜集的基礎上,將炒作微博對應事務,參與微博轉(zhuǎn)發(fā)的賬戶對應事務中的項,構(gòu)建事務數(shù)據(jù)庫,如圖2所示; 3)基于二分查找的候選最大頻繁項集篩選 由于炒作微博事務庫中每個事務包含的項目大都數(shù)以萬計,直接在原始事務庫中挖掘最大頻繁項集將會影響算法執(zhí)行的效率,基于二分查找的方法,能夠快速剔除事務中的非頻繁項目,找出最大頻繁項集的候選集合,縮減事務庫規(guī)模,給定事務數(shù)據(jù)庫D,最小支持數(shù)S,進行候選最大頻繁項集篩選,方法是:(1)將事務庫D中的事務按項目個數(shù)從大到小排序 (2)記頻繁項目集合FI= 0,非頻繁項目集合NKl = 0 ;從i = I開始,按順序遍歷D中的每個事務TiQ ≤ i ≤ |D|),對事務Ti中的每個項目u: a)若ue FI,則保留u; b)若ue NFI,則從Ti中剔除u ; c)若M€ FIa u € NFI,則轉(zhuǎn)到下一步判斷U是否是頻繁項目; (3)、從」_= i+1開始遍歷剩余的事務,并利用二分查找法判斷Tj, i〈j ≤|D|中是否包含u,終止條件為: a)當包含u的事務個數(shù)達到S時,說明u是頻繁項目,將u加入到FI中; b)當剩余的事務個數(shù)與包含了u的事務個數(shù)之和小于S時,說明u是非頻繁項目,從Ti中剔除U,若此時包含了 u的事務個數(shù)大于1,說明u還出現(xiàn)在Ti之外的事務中,則將u加入到NFI中; (4)剔除完D中所有事務中的非頻繁項目后,即可得到縮減后的事務庫D1; 4)基于迭代交集的最大頻繁項集挖掘: 通過對事務迭代取交集的方式挖掘最大頻繁項集,給定縮減后的事務庫D1,最小支持數(shù)S,最大頻繁項集挖掘的方法如下: (1)將事務庫D1中的事務按項的個數(shù)從大到小排序,以盡早發(fā)現(xiàn)最大頻繁項集,為縮減事務庫規(guī)模,合并事務庫中重復的事務,并對事務個數(shù)計數(shù); (2)為減少取交集的次數(shù),對于事務Ti;l≤i≤^+^|土二丄開始’首先找出包含了 Ti中任意項的事務集合1?, TjITj至少包含了 Ti中的一個項目;j>i),Ti依次與Tj取交集,將兩者的交集移入新的事務庫D2,同時剔除TjCTl , (3)對于新事務庫D2中的事務T,如果T是由不小于S個事務取交集而得,則將T移入最大頻繁候選項集集合MFCS中,同時剔除T在D2中的子事務; (4)如果新事務庫D2中的剩余事務個數(shù)小于S,則結(jié)束對事務庫D2的處理,返回到上層事務庫;否則,對D2從第I步開始再進行此過程; (5)當事務庫D1中剩余的事務數(shù)小于S時,即DlDil-S+Ι,結(jié)束對當前事務庫D1的處理; (6)對MFCS中的項集進行合并同時剔除非最大頻繁項集,最后的結(jié)果即為所求的最大頻繁項集集合MFS ; 5)最大頻繁項集歸并: 由于最小支持數(shù)的限制,使得MFS中最大頻繁項集規(guī)模較小,而且有些項集之間存在大量的重疊項,這些項集代表的賬戶群很可能從屬于同一個炒作群體,為解決這一問題,使用重疊率來反映兩個項集之間的相似性,設項集X1, X2 e MFSJf X1和X2的重疊率記為:
3.根據(jù)權(quán)利要求2所述的基于最大頻繁項集挖掘的微博炒作群體發(fā)現(xiàn)方法,其特征在于,所述的步驟1)中,搜集炒作微博樣本應符合如下條件: a、選取轉(zhuǎn)發(fā)數(shù)相對較高的熱門微博; b、微博發(fā)布時間跨度〈180天;以利于對炒作群體的發(fā)現(xiàn)。
【文檔編號】G06F17/30GK103927398SQ201410188004
【公開日】2014年7月16日 申請日期:2014年5月7日 優(yōu)先權(quán)日:2014年5月7日
【發(fā)明者】劉琰, 張進, 羅軍勇, 羅向陽, 董雨辰, 陳靜, 常斌 申請人:中國人民解放軍信息工程大學