一種基于信任關聯(lián)度的微博網(wǎng)絡社區(qū)發(fā)現(xiàn)方法
【技術領域】
[0001] 本發(fā)明屬于社區(qū)分類技術,具體涉及一種基于信任關聯(lián)度的的微博網(wǎng)絡社區(qū)發(fā)現(xiàn) 方法。
【背景技術】
[0002] 在WEB2. 0時代的大環(huán)境下,社交型網(wǎng)站(SNS)正日益增多。微博作為SNS的一種 升級版社會網(wǎng)絡交互模式,正逐漸成為眾多研究者關注的熱點。社會網(wǎng)絡和其他的復雜網(wǎng) 絡一樣,都具有社區(qū)結(jié)構。但與其他網(wǎng)絡的不同之處在于,它是由多個社區(qū)組成的。比如在 現(xiàn)實生活中,在一個社區(qū)的內(nèi)部,個體之間的交往會比較多,兩個不同的社區(qū)之間,兩個個 體之間的交往會比較少。這個例子其實說明一個社區(qū)結(jié)構的一個性質(zhì),在網(wǎng)絡中,一個社區(qū) 內(nèi)部聯(lián)系密集,而社區(qū)之間聯(lián)系相對稀疏。社區(qū)形成的原因多種多樣,但社區(qū)最重要的基礎 是信任關系。信任是人類社會活動的基石,社區(qū)內(nèi)的信任關系維系了社區(qū)的存在、發(fā)展。而 社區(qū)之間可能的興趣也不同,個性化推薦服務需要根據(jù)不同社區(qū)中不同的屬性來推薦不同 的個性化信息。所以,微博網(wǎng)絡社區(qū)發(fā)現(xiàn)的研究對于微博上的輿情監(jiān)測、個性化推薦系統(tǒng)和 營銷模式的研究具有重要意義。
[0003] 社區(qū)發(fā)現(xiàn)的目的在于發(fā)現(xiàn)復雜網(wǎng)絡中的社區(qū)結(jié)構,或?qū)哟谓Y(jié)構。而社區(qū)發(fā)現(xiàn)算法 的早期研究主要表現(xiàn)為兩大類:(1)基于圖劃分研究和譜平分研究;(2)基于節(jié)點相似性的 層次聚類研究。而基于圖劃分的經(jīng)典算法有B. W. Kernighan和S. Lin等人于1970年提出 的Kernighan-Lin算法,Barbes于1982年提出的基于Laplace圖的譜二分法?;趫D劃 分的算法均需要對給定的復雜網(wǎng)絡實行對半分,若需要劃分為多個社區(qū),則需要迭代處理。 由于該類算法的限制條件較苛刻,需事先知道劃分為子社區(qū)的個數(shù),甚至還需要知道子社 區(qū)的規(guī)模,所以這類圖劃分算法并不適合于進行社區(qū)劃分。而基于層次聚類的社區(qū)發(fā)現(xiàn)算 法大致又分為兩類:分裂式層次聚類和聚合式層次聚類。Girvan和Newman等人于2001年 提出的基于移除網(wǎng)絡邊介數(shù)值最大邊的G-N算法,是分裂式層次聚類中較經(jīng)典的社區(qū)發(fā)現(xiàn) 算法。雖然該算法的準確度較好,但時間復雜度較高,需要不斷的計算邊介值,僅適合處理 小規(guī)模的網(wǎng)絡。基于這方面局限,又出現(xiàn)了一些較經(jīng)典、具有代表性的聚合式層次聚類算法 如:Newman提出的快速算法,Clauset、Newman和Moore等人提出的CNM算法。
[0004] κ-medoids聚類算法是一種基于劃分的聚類算法,該算法是目前應用比較廣 泛的聚類算法之一,它具有算法簡單、收斂速度快和局部搜索能力強的特點。本文利用 K-medoids算法結(jié)合微博網(wǎng)絡的結(jié)構屬性,提出一種基于信任關聯(lián)度的微博網(wǎng)絡社區(qū)發(fā)現(xiàn) 算法。該算法引入信息群度的概念,將微博社區(qū)網(wǎng)絡邊權重的值不設為固定值1,而是動態(tài) 設定。以最大信任關聯(lián)度原則選取新的聚類中心,并進行模式歸類,直到所有節(jié)點都劃分完 為止,最后根據(jù)LC模塊度來確定理想的微博社區(qū)數(shù)目。該算法能夠更貼近微博網(wǎng)絡的特性 并且較好的找到聚類中心,使得社區(qū)發(fā)現(xiàn)的質(zhì)量大大提高。
【發(fā)明內(nèi)容】
[0005] 針對以上現(xiàn)有微博社區(qū)發(fā)現(xiàn)方法中的不足,本發(fā)明的目的在于提供一種能有效地 降低復雜度,還可以很好地提高微博社區(qū)發(fā)現(xiàn)的準確度的基于任關聯(lián)度的微博網(wǎng)絡社區(qū)發(fā) 現(xiàn)算法,本發(fā)明的技術方案如下:
[0006] -種基于信任關聯(lián)度的微博網(wǎng)絡社區(qū)發(fā)現(xiàn)方法,其特征在于包括以下步驟:
[0007] 101、獲取微博數(shù)據(jù)來定義節(jié)點的信息群度,具體包括以下步驟:
[0008] A1、根據(jù)節(jié)點的原創(chuàng)微博數(shù)%、微博轉(zhuǎn)發(fā)數(shù)!Tu來計算出節(jié)點之間的活躍值a ^,其 中有
[0009] Bl、根據(jù)節(jié)點之間的評論數(shù)為C1 j、贊數(shù)為I1 j,微博總數(shù)η來計算出節(jié)點之間的博文 質(zhì)量值Ql j,其中有
[0010] C1、將節(jié)點之間邊權重Wl j的值設為節(jié)點對的信息群度,即
[0011] 102、根據(jù)101中求的信息群度來計算節(jié)點之間的信任關聯(lián)度,具體包括以下步 驟:
[0012] Α2、由于節(jié)點i與j之間的節(jié)點對的信息群度越小,它們的信任關聯(lián)度就越大,定 義兩個相鄰節(jié)點Vl、V j的信任關聯(lián)度: node Re Iation(VilVj) = I-Wij
[0013] B2、利用深度優(yōu)先搜索算法求得圖中所有的非相鄰節(jié)點之間的最短路徑,然后再 求出非相鄰節(jié)點之間的最大信任關聯(lián)度。假設微博網(wǎng)絡中非相鄰節(jié)點V 1和節(jié)點V 之間的 最短路徑為shortPath (Vi, Vj) = {(Vi, vk),(vk, vm),. . .,(vn, Vj)},如果非相鄰節(jié)點間的最短 路徑數(shù)為s,則選擇其中乘積最大的作為非相鄰節(jié)點的信任關聯(lián)度,BP
[0014] C2、根據(jù)A2、B2可以構造微博網(wǎng)絡的節(jié)點信任關聯(lián)度矩陣R,即 R = [node Re lation(v;, Vj)] |V|x|V
[0015] D2、由于R是一個對稱矩陣,根據(jù)節(jié)點與其自身的信任關聯(lián)度值為1,因此為了計 算方便,將矩陣R主對角線上的元素值設為相應節(jié)點的度,即
[0016] 103、在10U102的基礎上再采用LC模塊度,它與社區(qū)的連接密度和內(nèi)聚系數(shù)相 關,具體包括以下步驟: _7] A3、假設有某種劃分形式,將網(wǎng)絡G劃分為S1, S2,…,Sn。首先,計算社區(qū)Si的連 接密度L(Si),其中,&表示社區(qū)Si的節(jié)點數(shù);E(S1)表示社區(qū)Si內(nèi)部的邊數(shù),即 LlN 丄UOioyy丄(65 A yJ^ rVJ ·* J/O JM
[0018] B3、然后,計算社區(qū)Si的內(nèi)聚系數(shù)Coh(Si),其中,i乒j,并且A(S1Jj)表示連接 社區(qū)Si和Sj之間的邊的總數(shù),即
C3、在A3、B3的基礎上計算LC模塊度Q(Sd S2,. . .,Sn),即
[0019] D3、再用改進的K-medoids算法對節(jié)點進行聚類,首先為每個簇隨意選擇一個代 表對象,剩余的對象根據(jù)其與代表對象的距離分配給最近的一個簇,以簇類各個節(jié)點輪換 為相應的聚類中心,最后得出最大的LC模塊度值對應社區(qū)劃分的最佳結(jié)果。
[0020] 進一步的,步驟101中獲取微博數(shù)據(jù)即采用微博平臺新浪微博的數(shù)據(jù)集。
[0021] 本發(fā)明的優(yōu)點及有益效果如下:
[0022] 本發(fā)明采用一種基于信任關聯(lián)度的微博網(wǎng)絡社區(qū)發(fā)現(xiàn)算法,在定義社區(qū)節(jié)點對信 息群度、動態(tài)分配網(wǎng)絡邊權重值的基礎上,計算節(jié)點的信任關聯(lián)度矩陣,再通過后續(xù)的改進 K-medoids算法對節(jié)點進行聚類分析,還可以很好地提高微博社區(qū)發(fā)現(xiàn)的準確度。
【附圖說明】
[0023] 圖1是按照本發(fā)明基于信任關聯(lián)度的微博網(wǎng)絡社區(qū)發(fā)現(xiàn)算法流程圖;
[0024] 圖2為改進K-medoids算法對節(jié)點進行聚類的流程圖。
【具體實施方式】
[0025] 下面結(jié)合附圖給出一個非限定的實施例對本發(fā)明作進一步的闡述。但是應該理 解,這些描述只是示例的,而并非要