本發(fā)明涉及一種重疊社區(qū)發(fā)現(xiàn)方法。
背景技術(shù):
在大自然界與人類社會(huì)中,有很多的真實(shí)的網(wǎng)絡(luò)都可以被描述為復(fù)雜網(wǎng)絡(luò)。例如信息流動(dòng)的網(wǎng)絡(luò)、生物界中的代謝系統(tǒng)網(wǎng)絡(luò)與蛋白質(zhì)網(wǎng)絡(luò)。最常見(jiàn)的復(fù)雜網(wǎng)絡(luò)就是用戶個(gè)體及其之間關(guān)系(這種關(guān)系可能是親屬、同事、朋友等)形成的社會(huì)網(wǎng)絡(luò),簡(jiǎn)而言之,社會(huì)網(wǎng)絡(luò)就是網(wǎng)絡(luò)中的用戶、用戶與用戶之間的關(guān)系構(gòu)成的網(wǎng)絡(luò)。人們都希望通過(guò)對(duì)其進(jìn)行有效的、定量的數(shù)據(jù)挖掘與分析,能夠揭示出隱藏在背后的信息與規(guī)律,這樣極大地推進(jìn)了社會(huì)網(wǎng)絡(luò)的研究熱潮。
隨著研究的深入,人們逐漸發(fā)現(xiàn)了社會(huì)網(wǎng)絡(luò)不僅具有小世界特性與無(wú)尺度特性,還具有網(wǎng)絡(luò)簇結(jié)構(gòu)特性。網(wǎng)絡(luò)簇結(jié)構(gòu)特性表明社會(huì)網(wǎng)絡(luò)具有一定的社區(qū)結(jié)構(gòu),社區(qū)結(jié)構(gòu)是一個(gè)團(tuán)體,由一群相似的節(jié)點(diǎn)組成的,同一社區(qū)內(nèi)部節(jié)點(diǎn)之間的連接較為緊密,不同社區(qū)之間的連接較為稀疏。這一特點(diǎn)符合人類行為的高聚集性與社會(huì)性,使得挖掘社會(huì)網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)成為近幾年社會(huì)網(wǎng)絡(luò)研究的一個(gè)重點(diǎn)與熱點(diǎn)。
研究社區(qū)發(fā)現(xiàn)問(wèn)題具有很多的現(xiàn)實(shí)意義,例如,在營(yíng)銷(xiāo)方法中,可以將用戶劃分為特定的社區(qū),根據(jù)特定的社區(qū)進(jìn)行特定的商品推薦,在一定程度上實(shí)現(xiàn)個(gè)性化推薦。這種推薦方式現(xiàn)在京東、淘寶等電子商務(wù)網(wǎng)站得到了廣泛的應(yīng)用,是社區(qū)營(yíng)銷(xiāo)的典型方法。另外,在視頻網(wǎng)站中,同樣可以針對(duì)特定社區(qū)進(jìn)行廣告的投放,能夠節(jié)省資源,并為商家創(chuàng)造更高的利潤(rùn)額等等。
傳統(tǒng)的節(jié)點(diǎn)影響力計(jì)算方法比較常用的主要有度中心性、介數(shù)中心度、緊密中心度、k-shell分解算法、pagerank算法、特征向量中心度等等。但是度中心性思想簡(jiǎn)單,算法效率高,但是度中心性主要刻畫(huà)了節(jié)點(diǎn)的局部信息,忽略了節(jié)點(diǎn)在網(wǎng)絡(luò)中的整體信息;介數(shù)中心度、緊密中心度、pagerank算法、特征向量中心度刻畫(huà)了網(wǎng)絡(luò)中的全局信息,但是算法時(shí)間復(fù)雜度較高,不適合大規(guī)模網(wǎng)絡(luò)。本發(fā)明選擇k-shell分解算法,k-shell分解算法思想簡(jiǎn)單,時(shí)間復(fù)雜度較低。
k-shell分解算法的主要思想如下:
遍歷網(wǎng)絡(luò)中的所有節(jié)點(diǎn),去除網(wǎng)絡(luò)中節(jié)點(diǎn)度為1的節(jié)點(diǎn)及其連邊,考察剩下的節(jié)點(diǎn),如果仍有度為1的節(jié)點(diǎn),重復(fù)上面的操作,直至網(wǎng)絡(luò)中不存在度為1的節(jié)點(diǎn),把這些被去掉的節(jié)點(diǎn)處于1-shell,其ks值記為1。然后依次去除節(jié)點(diǎn)度小于或者等于2,3…k…的節(jié)點(diǎn)及其連邊,直至網(wǎng)絡(luò)中的所有節(jié)點(diǎn)都有ks值。
k-shell分解算法利用剝洋蔥類似的思想,將網(wǎng)絡(luò)中的節(jié)點(diǎn)劃分成不同的層級(jí)。每個(gè)節(jié)點(diǎn)都擁有一個(gè)屬于自己的ks值,就相當(dāng)于在網(wǎng)絡(luò)中擁有自己的層級(jí)位置。ks值大的節(jié)點(diǎn)在整體網(wǎng)絡(luò)結(jié)構(gòu)中的連通性與ks值小的節(jié)點(diǎn)相比要好,相比之下更加適合作為傳播模型的傳播源,所以這類節(jié)點(diǎn)相對(duì)于其他節(jié)點(diǎn)來(lái)說(shuō),越有可能是核心節(jié)點(diǎn),其節(jié)點(diǎn)影響力可能越大,而且k-shell分解算法是遍歷整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)節(jié)點(diǎn)賦予ks值,因此,k-shell分解算法成為能夠度量節(jié)點(diǎn)的全局影響力的方法之一。
但是k-shell分解算法也存在一定的局限性:第一,k-shell分解算法得到的結(jié)果是一種粗?;瘎澐值慕Y(jié)果。同一影響力數(shù)值的節(jié)點(diǎn)較多,節(jié)點(diǎn)影響力區(qū)分不大;第二,ks值衡量了節(jié)點(diǎn)在整體網(wǎng)絡(luò)結(jié)構(gòu)中的連通性,ks值高的節(jié)點(diǎn)的連通性較好,所以該節(jié)點(diǎn)的影響力有可能更大。但是還缺乏對(duì)節(jié)點(diǎn)局部信息的考慮,例如節(jié)點(diǎn)的度;第三,比照拓?fù)鋭?shì)的思想,若一個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的地位越高,則該節(jié)點(diǎn)的地位越高,重要性越大。假設(shè)若某個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的全局影響力與局部影響力越大,則說(shuō)明了這些鄰居節(jié)點(diǎn)在在網(wǎng)絡(luò)中的地位越高,重要性越大,這樣就相對(duì)增加了該節(jié)點(diǎn)本身的重要程度。所以,節(jié)點(diǎn)的影響力還應(yīng)考慮的是鄰居節(jié)點(diǎn)對(duì)該節(jié)點(diǎn)本身的影響力的貢獻(xiàn),k-shell分解算法缺乏了對(duì)鄰居節(jié)點(diǎn)的貢獻(xiàn)這方面因素的考慮。
在重疊社區(qū)發(fā)現(xiàn)算法中,啟發(fā)式算法copra算法是一個(gè)較為經(jīng)典的算法。其主要過(guò)程描述如下:
定義每個(gè)節(jié)點(diǎn)帶有標(biāo)簽二元組(c,b),其中c表示節(jié)點(diǎn)所屬的社區(qū),b表示節(jié)點(diǎn)對(duì)該社區(qū)的歸屬系數(shù),且節(jié)點(diǎn)的各個(gè)歸屬系數(shù)之和等于1。每個(gè)節(jié)點(diǎn)的歸屬系數(shù)計(jì)算公式(1)所示:
其中,bt(c,x)代表第t次迭代該節(jié)點(diǎn)x對(duì)社區(qū)c的歸屬系數(shù),n(x)代表了節(jié)點(diǎn)x的鄰居節(jié)點(diǎn)集合,算法具體流程如下:
(1)為網(wǎng)絡(luò)中每一個(gè)節(jié)點(diǎn)x設(shè)置初始標(biāo)簽cx,設(shè)置該標(biāo)簽的歸屬系數(shù)為1,表示為(cx,1)。
(2)每次迭代過(guò)程中,使用公式計(jì)算節(jié)點(diǎn)對(duì)標(biāo)簽的歸屬系數(shù),設(shè)定每個(gè)節(jié)點(diǎn)可以攜帶的最大的數(shù)量的標(biāo)簽個(gè)數(shù)v,根據(jù)v選擇保留和刪除的標(biāo)簽,采用同步更新策略進(jìn)行更新操作。將所選擇的標(biāo)簽按照公式所示進(jìn)行歸一化。
(3)如果滿足停止條件則停止算法,否則重復(fù)步驟(2)。
(4)將標(biāo)簽相同的節(jié)點(diǎn)劃分為同一社區(qū),具有多個(gè)標(biāo)簽的節(jié)點(diǎn)是重疊節(jié)點(diǎn)。
傳統(tǒng)的copra算法在更新的過(guò)程中打破了節(jié)點(diǎn)只能選擇一個(gè)標(biāo)簽的原則,每個(gè)可以選擇保留多個(gè)標(biāo)簽,代表了該節(jié)點(diǎn)可以被多個(gè)社區(qū)共享,但該算法隨機(jī)性較強(qiáng),魯棒性較差。wu等人提出了一種copra的改進(jìn)算法bmlpa,首先利用利用核心節(jié)點(diǎn)團(tuán)進(jìn)行標(biāo)簽初始化,另外設(shè)定了重疊閾值,通過(guò)重疊閾值決定某標(biāo)簽的保留或者刪除,但在bmlpa中所有的節(jié)點(diǎn)都設(shè)置相同一個(gè)重疊閾值,沒(méi)有考慮節(jié)點(diǎn)本身的特性;xie等人拓寬了思路,提出了改進(jìn)算法slpa。slpa算法將兩個(gè)節(jié)點(diǎn)其中一個(gè)看做說(shuō)話者,另外一個(gè)看做聽(tīng)話者,將這兩個(gè)節(jié)點(diǎn)看做一個(gè)整體,代替了原算法中的單節(jié)點(diǎn)模式,采用特定的規(guī)則將標(biāo)簽在節(jié)點(diǎn)對(duì)之間進(jìn)行傳播。在重疊閾值方面,slpa算法保留了所有標(biāo)簽信息,更加全面,但是需要保留和計(jì)算的標(biāo)簽的數(shù)量比copra要多,計(jì)算的時(shí)間相比之下會(huì)所有增加,保留標(biāo)簽信息也會(huì)增加空間復(fù)雜度的需求。dlpa算法只計(jì)算歸屬系數(shù)最大的標(biāo)簽,在這些標(biāo)簽中保留了大于閾值的標(biāo)簽,從一定程度上縮短了計(jì)算的時(shí)間,但是也損失了節(jié)點(diǎn)的標(biāo)簽信息。
在重疊閾值方面,dlpa算法將重疊閾值設(shè)置為每個(gè)節(jié)點(diǎn)度的倒數(shù),如此具有特異性,但是網(wǎng)絡(luò)中非重疊節(jié)點(diǎn)占多數(shù),重疊節(jié)點(diǎn)占少數(shù),如果按照dlpa算法中的方式設(shè)定閾值,則度數(shù)高的節(jié)點(diǎn)閾值小,而節(jié)點(diǎn)度高的節(jié)點(diǎn)可能會(huì)是核心節(jié)點(diǎn),這種保留的標(biāo)簽就會(huì)變多,與現(xiàn)實(shí)情況不符。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種能夠解決標(biāo)簽傳播類重疊社區(qū)發(fā)現(xiàn)算法中的copra算法存在隨機(jī)性以及在計(jì)算過(guò)程中欠缺對(duì)節(jié)點(diǎn)影響力的考慮等問(wèn)題的基于節(jié)點(diǎn)影響力的重疊社區(qū)發(fā)現(xiàn)方法。
本發(fā)明的目的是這樣實(shí)現(xiàn)的:
步驟一、將節(jié)點(diǎn)影響力按照降序排序;
步驟二、節(jié)點(diǎn)編號(hào)設(shè)置為節(jié)點(diǎn)的最初標(biāo)簽,完成標(biāo)簽初始化;
步驟三、每一次更新過(guò)程中,對(duì)于每一個(gè)節(jié)點(diǎn),統(tǒng)計(jì)該節(jié)點(diǎn)周?chē)泥従庸?jié)點(diǎn)所攜帶的標(biāo)簽及鄰居影響力;
步驟四、確定節(jié)點(diǎn)x對(duì)標(biāo)簽c的歸屬系數(shù),計(jì)算為:
其中,b(x,c)是節(jié)點(diǎn)x對(duì)社區(qū)c的歸屬系數(shù),n+(x)是節(jié)點(diǎn)x及其鄰居節(jié)點(diǎn)的集合,z(c)是保留標(biāo)簽的節(jié)點(diǎn)集合,c代表節(jié)點(diǎn)x及其鄰接節(jié)點(diǎn)擁有的標(biāo)簽種類的集合,inf(y)代表節(jié)點(diǎn)y的影響力;
根據(jù)公式,統(tǒng)計(jì)該節(jié)點(diǎn)本身的攜帶的標(biāo)簽及歸屬系數(shù),作為節(jié)點(diǎn)本身的歸屬傾向,結(jié)合其本身影響力和鄰居節(jié)點(diǎn)的影響力,計(jì)算該節(jié)點(diǎn)對(duì)于每一個(gè)種類標(biāo)簽的歸屬系數(shù);
步驟五、確定重疊閾值,計(jì)算公式為:
其中,t(x)代表了節(jié)點(diǎn)x的重疊閾值,inf(x)節(jié)點(diǎn)x的影響力,infm代表了節(jié)點(diǎn)影響力的最大值;
根據(jù)上述公式計(jì)算重疊閾值,根據(jù)重疊閾值決定保留或者刪除標(biāo)簽,如果所有種類的標(biāo)簽的歸屬系數(shù)都小于重疊閾值,就選擇歸屬系數(shù)最大的標(biāo)簽作為最終的結(jié)果,若有多個(gè)則隨機(jī)選擇一個(gè),最后對(duì)節(jié)點(diǎn)保留下來(lái)的標(biāo)簽做歸一化處理,更新完畢;
步驟六、檢查是否滿足終止條件,若不滿足,則轉(zhuǎn)向步驟(2),若滿足,則停止;
步驟七、統(tǒng)計(jì)網(wǎng)絡(luò)中的標(biāo)簽種類,將保留了同一標(biāo)簽的所有節(jié)點(diǎn)看作同一個(gè)社區(qū)內(nèi)的節(jié)點(diǎn),具有多個(gè)標(biāo)簽的節(jié)點(diǎn),就是多個(gè)社區(qū)共享的重疊節(jié)點(diǎn)。
本發(fā)明還可以包括:
1、所述節(jié)點(diǎn)影響力通過(guò)以下步驟獲得:
(1)、運(yùn)用k-shell分解算法,求出網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的ks值;
(2)、統(tǒng)計(jì)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的鄰居及其個(gè)數(shù);
(3)、判斷是否為孤立節(jié)點(diǎn),若是孤立節(jié)點(diǎn)影響力為0;若不是孤立節(jié)點(diǎn),進(jìn)行步驟(4);
(4)、定義節(jié)點(diǎn)v的鄰居節(jié)點(diǎn)u對(duì)其影響力的貢獻(xiàn)系數(shù)如下:
其中,n+(v)是節(jié)點(diǎn)v及其鄰居節(jié)點(diǎn)的集合,遍歷每一個(gè)節(jié)點(diǎn),計(jì)算該節(jié)點(diǎn)及其各個(gè)鄰居節(jié)點(diǎn)貢獻(xiàn)系數(shù);
(5)、綜合考慮節(jié)點(diǎn)的ks值即全局影響力、節(jié)點(diǎn)的度即局部影響力以及鄰居節(jié)點(diǎn)的貢獻(xiàn)度,定義節(jié)點(diǎn)v的影響力為:
根據(jù)上述公式計(jì)算節(jié)點(diǎn)影響力。
本發(fā)明是為了解決標(biāo)簽傳播類重疊社區(qū)發(fā)現(xiàn)算法中的copra算法存在隨機(jī)性,以及在計(jì)算過(guò)程中欠缺對(duì)節(jié)點(diǎn)影響力的考慮的不足之處而提出的。
更新順序:首先遍歷節(jié)點(diǎn),計(jì)算網(wǎng)絡(luò)中節(jié)點(diǎn)的ks值、節(jié)點(diǎn)的度,根據(jù)計(jì)算節(jié)點(diǎn)影響力,并將節(jié)點(diǎn)按照影響力大小降序排序,確定節(jié)點(diǎn)更新順序,完成初始化過(guò)程。如果按照copra算法的完全更新,則會(huì)出現(xiàn)如圖4所示狀況,按照完全隨機(jī)更新的順序,此時(shí)應(yīng)該更新標(biāo)簽的節(jié)點(diǎn)是d,計(jì)算節(jié)點(diǎn)d的社區(qū)歸屬系數(shù),假定節(jié)點(diǎn)d現(xiàn)在所保留的標(biāo)簽有d、c、f,其三個(gè)標(biāo)簽的歸屬系數(shù)假設(shè)計(jì)算出的結(jié)果是1/2、1/2、1/6,則節(jié)點(diǎn)d所暫時(shí)具有的標(biāo)簽二元組有(d,1/2),(c,1/2),(f,1/6),設(shè)定的重疊閾值y為1/2,則刪除歸屬系數(shù)小于1/2的標(biāo)簽f,經(jīng)過(guò)歸一化,最后節(jié)點(diǎn)d保留的標(biāo)簽二元組為(a,1/2)與(c,1/2)。接下來(lái)需要被更新的節(jié)點(diǎn)假設(shè)為節(jié)點(diǎn)f,計(jì)算節(jié)點(diǎn)f對(duì)各個(gè)標(biāo)簽的歸屬系數(shù),假定節(jié)點(diǎn)f暫時(shí)具有的標(biāo)簽二元組有(a,1/2),(c,1/2),(e,1/3),(g,1/6),設(shè)定的重疊系數(shù)y為1/2,刪除小于1/2的標(biāo)簽g,經(jīng)過(guò)歸一化,最后節(jié)點(diǎn)f保留的標(biāo)簽二元組有(a,3/8),(c,3/8),(e,1/4)。如果按照完全隨機(jī)更新的順序接下來(lái)被更新的節(jié)點(diǎn)為e、g……,標(biāo)簽a與標(biāo)簽c則有可能會(huì)隨著節(jié)點(diǎn)e與g而繼續(xù)傳播下去,這樣到最后上述網(wǎng)絡(luò)中的節(jié)點(diǎn)則可能會(huì)劃分在一個(gè)社區(qū)之內(nèi),即節(jié)點(diǎn)a、b、c、d、e、f、g、h屬于同一社區(qū)。然而由觀察法所得,上述小型網(wǎng)絡(luò)中,a、b、c、d是其中一個(gè)社區(qū)內(nèi)的節(jié)點(diǎn),節(jié)點(diǎn)e、f、g、h是另一社區(qū)的節(jié)點(diǎn)更符合社區(qū)的定義,8個(gè)節(jié)點(diǎn)分屬于兩個(gè)社區(qū),得到的社區(qū)結(jié)構(gòu)準(zhǔn)確度更高,質(zhì)量更好。如果將8個(gè)節(jié)點(diǎn)劃分一個(gè)社區(qū),就出現(xiàn)了劃分范圍過(guò)大的現(xiàn)象,得到的社區(qū)結(jié)果存在不足之處,社區(qū)發(fā)現(xiàn)的效果并不理想。本發(fā)明提出的這種更新方式,標(biāo)簽作為被傳播的信息,將社會(huì)網(wǎng)絡(luò)中進(jìn)行傳播。從影響力大的節(jié)點(diǎn)開(kāi)始傳播將,由于節(jié)點(diǎn)影響力的作用因素,影響力大的節(jié)點(diǎn)所攜帶的標(biāo)簽相比影響力小的節(jié)點(diǎn)所攜帶的標(biāo)簽,應(yīng)該得到更加廣泛的傳播。
鄰居節(jié)點(diǎn)影響力作用:每一次更新過(guò)程中,對(duì)于每一個(gè)節(jié)點(diǎn),統(tǒng)計(jì)該節(jié)點(diǎn)周?chē)泥従庸?jié)點(diǎn)所攜帶的標(biāo)簽及鄰居影響力。如圖5a-圖5b所示,假設(shè)節(jié)點(diǎn)x所有的相鄰節(jié)點(diǎn)中,有a、b、d、e、f這5個(gè)節(jié)點(diǎn)同時(shí)屬于社區(qū)c,且每個(gè)節(jié)點(diǎn)的影響力,已在上圖中標(biāo)明。在情況之一中,a、b、d的影響力虛擬值都是50,c、f的影響力虛擬值是10,在情況二中,a、b的影響力虛擬值是50,d、c、f的影響力虛擬值是10。假設(shè)在以上2種不同的狀況下,這5個(gè)節(jié)點(diǎn)對(duì)社區(qū)c的歸屬系數(shù)不變。如果僅僅考慮鄰居節(jié)點(diǎn)的歸屬系數(shù),使用公式(4)計(jì)算節(jié)點(diǎn)x對(duì)社區(qū)c的歸屬系數(shù)時(shí),在以上兩種狀況下計(jì)算得到的結(jié)果是一樣的。但是現(xiàn)實(shí)情況下以上兩種狀態(tài)卻是有區(qū)別的,一個(gè)節(jié)點(diǎn)的影響力越大,則該節(jié)點(diǎn)的鄰居節(jié)點(diǎn)越有可能同該節(jié)點(diǎn)一樣屬于同一社區(qū)。例如在第一種狀況下,d的影響力相比第二種狀況下的d的影響力大,那么第一種狀況下的d相比第二種狀況下更加靠近社區(qū)c核心位置,所以在歸屬系數(shù)一樣的情況下,x在第一種情況的歸屬c的概率要大于第二種情況。
由以上情況分析可知,如公式(4)僅僅依靠計(jì)算鄰居節(jié)點(diǎn)對(duì)社區(qū)歸屬系數(shù),是不全面的,在計(jì)算節(jié)點(diǎn)x對(duì)社區(qū)對(duì)社區(qū)c的歸屬系數(shù)時(shí),應(yīng)注意在社區(qū)c內(nèi)的鄰居節(jié)點(diǎn)的影響力對(duì)x的歸屬系數(shù)的影響。
節(jié)點(diǎn)本身歸屬傾向及影響力:如果不考慮節(jié)點(diǎn)本身攜帶的標(biāo)簽和影響力作用,如圖6所示,假設(shè)影響力最大的節(jié)點(diǎn)為a,a在更新前的攜帶標(biāo)簽二元組是(a,1)。如果不對(duì)節(jié)點(diǎn)a此時(shí)現(xiàn)有的標(biāo)簽信息加以考慮,也不考慮a的影響力,只憑借a的鄰居b、c、d與e決定a的社區(qū)歸屬情況,則更新后的節(jié)點(diǎn)a的標(biāo)簽有可能是標(biāo)簽b、c、d和e。由于在更新的過(guò)程中采用的是異步更新的策略,在遍歷到節(jié)點(diǎn)b的時(shí)候,統(tǒng)計(jì)相鄰節(jié)點(diǎn)所保留的標(biāo)簽的種類就會(huì)參考a的剛剛更新的新標(biāo)簽信息,此時(shí)a的標(biāo)簽信息已經(jīng)是b、c和d、e了。a節(jié)點(diǎn)原先的標(biāo)簽,也就是標(biāo)簽a就消失了。這種情況就是出現(xiàn)影響力大的節(jié)點(diǎn)的標(biāo)簽被影響力小的標(biāo)簽吞并的現(xiàn)象,并不符合社會(huì)網(wǎng)絡(luò)信息傳播的特點(diǎn),與實(shí)際情況并不符合。
如果在初始階段就考慮節(jié)點(diǎn)a的標(biāo)簽及其影響力,則作為此局部網(wǎng)絡(luò)中影響力最大的節(jié)點(diǎn),節(jié)點(diǎn)a沒(méi)有影響力大于本身影響力的鄰居節(jié)點(diǎn),則節(jié)點(diǎn)a本身的標(biāo)簽?zāi)軌虮A?,在更新?jié)點(diǎn)b、c、d和e標(biāo)簽的時(shí)候能夠繼續(xù)傳播下去,由影響力大的節(jié)點(diǎn)傳播的信息,既符合社會(huì)網(wǎng)絡(luò)信息傳播的特點(diǎn),在傳播過(guò)程相對(duì)于影響力小的節(jié)點(diǎn)也能夠更加穩(wěn)定。假設(shè)在某次迭代中,節(jié)點(diǎn)a、e、c擁有標(biāo)簽a,即節(jié)點(diǎn)a的鄰居節(jié)點(diǎn)與節(jié)點(diǎn)a擁有相同的標(biāo)簽,當(dāng)此時(shí)更新節(jié)點(diǎn)a的標(biāo)簽時(shí),如果計(jì)算節(jié)點(diǎn)a對(duì)標(biāo)簽a的歸屬系數(shù),不僅僅要考慮鄰居節(jié)點(diǎn)c與e的影響力與歸屬系數(shù),還應(yīng)該考慮節(jié)點(diǎn)a本身所帶有的標(biāo)簽與歸屬系數(shù),以及節(jié)點(diǎn)a的影響力。如圖7所示。
本發(fā)明將節(jié)點(diǎn)本身?yè)碛械臉?biāo)簽信息,看做節(jié)點(diǎn)本身有具有的社區(qū)歸屬傾向,節(jié)點(diǎn)本身的影響力,看做節(jié)點(diǎn)的歸屬能力。綜合考慮節(jié)點(diǎn)的標(biāo)簽歸屬傾向及歸屬能力,能夠更加合理的計(jì)算得到每個(gè)節(jié)點(diǎn)在更新之后所保留的標(biāo)簽。
計(jì)算重疊閾值:影響力較大的節(jié)點(diǎn)有很大的可能靠近社區(qū)核心,這樣的節(jié)點(diǎn)所保留的標(biāo)簽應(yīng)該比較少,重疊閾值應(yīng)該越高,越能夠刪除不合理的標(biāo)簽,保留最核心的標(biāo)簽,影響力小的節(jié)點(diǎn)狀況相反。另外數(shù)值不必統(tǒng)一指定,由于每個(gè)節(jié)點(diǎn)影響力是存在差異的,根據(jù)每個(gè)節(jié)點(diǎn)影響力這個(gè)固有屬性計(jì)算得到的結(jié)果能符合節(jié)點(diǎn)本身的特征,降低普遍性,增加特異性,符合實(shí)際情況。
本發(fā)明的有益效果為:
本發(fā)明的計(jì)算節(jié)點(diǎn)影響力的方法,針對(duì)現(xiàn)有的k-shell分解算法,存在結(jié)果粗?;约扒啡睂?duì)節(jié)點(diǎn)除全局影響力之外的其它因素考慮的不足,在k-shell分解算法的基礎(chǔ)上,通過(guò)綜合并全面考慮節(jié)點(diǎn)的全局影響力、局部影響力以及鄰居節(jié)點(diǎn)的貢獻(xiàn)度共三類因素,提出了一種新的節(jié)點(diǎn)影響力計(jì)算方法;
本發(fā)明提出的計(jì)算影響力算法在影響力的區(qū)分度及準(zhǔn)確度上有著較好的效果;
本發(fā)明在計(jì)算了節(jié)點(diǎn)影響力的基礎(chǔ)上,將節(jié)點(diǎn)影響力與標(biāo)簽傳播重疊社區(qū)發(fā)現(xiàn)算法相結(jié)合,提出了一種基于節(jié)點(diǎn)影響力的標(biāo)簽傳播重疊社區(qū)發(fā)現(xiàn)算法。該算法依據(jù)影響力降序順序更新節(jié)點(diǎn),符合社會(huì)網(wǎng)絡(luò)信息傳播特性,降低算法的隨機(jī)性,并在計(jì)算歸屬系數(shù)的時(shí)候,不僅僅考慮了鄰居節(jié)點(diǎn)影響力的影響,還將節(jié)點(diǎn)本身的歸屬傾向及節(jié)點(diǎn)本身影響力考慮在內(nèi)。在設(shè)定重疊閾值等方面,融合了節(jié)點(diǎn)影響力,為每個(gè)節(jié)點(diǎn)設(shè)置了合理的閾值。
本發(fā)明提出的社區(qū)發(fā)現(xiàn)算法相比以往算法能夠在模塊度上得到提高,能夠降低原算法的隨機(jī)性,挖據(jù)出高質(zhì)量的社區(qū)結(jié)構(gòu)。本發(fā)明提出的計(jì)算節(jié)點(diǎn)影響力的方法是根據(jù)以上不足之處進(jìn)行了改進(jìn)。在k-shell分解算法的基礎(chǔ)上,提出一種結(jié)合節(jié)點(diǎn)的全局影響力、局部影響力以及相鄰節(jié)點(diǎn)的貢獻(xiàn)度的計(jì)算影響力的方法ksadwn。
在已獲得的節(jié)點(diǎn)影響力的基礎(chǔ)上,針對(duì)標(biāo)簽傳播類重疊社區(qū)發(fā)現(xiàn)算法中的copra算法存在隨機(jī)性,以及在計(jì)算過(guò)程中欠缺對(duì)節(jié)點(diǎn)影響力的考慮的不足之處,在標(biāo)簽傳播過(guò)程中更改了標(biāo)簽更新順序,并且不僅僅考慮鄰居節(jié)點(diǎn)影響力對(duì)歸屬系數(shù)造成的影響,還增加了對(duì)被更新節(jié)點(diǎn)自身歸屬傾向及影響力這類因素的考慮,改進(jìn)了節(jié)點(diǎn)對(duì)標(biāo)簽的歸屬系數(shù)的計(jì)算方法,并且融合節(jié)點(diǎn)影響力改進(jìn)重疊閾值的設(shè)定方式,更為合理的計(jì)算歸屬系數(shù)與重疊閾值,能夠降低以往算法的隨機(jī)性,增加魯棒性,挖掘出高質(zhì)量的重疊社區(qū)。
附圖說(shuō)明
圖1為本發(fā)明的計(jì)算節(jié)點(diǎn)影響力的流程框圖;
圖2為本發(fā)明節(jié)點(diǎn)影響力涉及的不同算法的m指標(biāo)數(shù)值對(duì)比圖;
圖3為本發(fā)明節(jié)點(diǎn)影響力涉及的kendall’stau值隨感染概率變化趨勢(shì)圖;
圖4為本發(fā)明社區(qū)發(fā)現(xiàn)涉及的完全隨機(jī)更新順序示意圖;
圖5a-圖5b為本發(fā)明社區(qū)發(fā)現(xiàn)算法涉及的鄰居節(jié)點(diǎn)影響力對(duì)社區(qū)歸屬系數(shù)影響示意圖;其中圖5a為3個(gè)影響力較大的鄰居與2個(gè)影響力較小的鄰居,圖5b為2個(gè)影響力較大的鄰居與3個(gè)影響力較小的鄰居;
圖6為本發(fā)明社區(qū)發(fā)現(xiàn)算法涉及的不考慮節(jié)點(diǎn)自身標(biāo)簽及影響力更新過(guò)程示例圖;
圖7為本發(fā)明社區(qū)發(fā)現(xiàn)算法涉及的考慮節(jié)點(diǎn)自身標(biāo)簽及影響力更新過(guò)程示例圖;
圖8為本發(fā)明社區(qū)發(fā)現(xiàn)算法流程圖;
圖9為本發(fā)明社區(qū)發(fā)現(xiàn)算法模塊度隨迭代次數(shù)變化趨勢(shì)圖;
圖10為本發(fā)明社區(qū)發(fā)現(xiàn)算法各個(gè)算法模塊度數(shù)值圖。
具體實(shí)施方式
下面結(jié)合附圖舉例對(duì)本發(fā)明作進(jìn)一步描述。
結(jié)合圖1,計(jì)算節(jié)點(diǎn)影響力通過(guò)以下步驟實(shí)現(xiàn):
步驟一、運(yùn)用k-shell分解算法,求出網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的ks值;
步驟二、統(tǒng)計(jì)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的鄰居及其個(gè)數(shù);
步驟三、判斷是否為孤立節(jié)點(diǎn),若是孤立節(jié)點(diǎn)影響力為0;若不是孤立節(jié)點(diǎn),進(jìn)行步驟四;
步驟四、定義節(jié)點(diǎn)v的鄰居節(jié)點(diǎn)u對(duì)其影響力的貢獻(xiàn)系數(shù)如下所示:
其中,n+(v)是節(jié)點(diǎn)v及其鄰居節(jié)點(diǎn)的集合。遍歷每一個(gè)節(jié)點(diǎn),計(jì)算該節(jié)點(diǎn)及其各個(gè)鄰居節(jié)點(diǎn)貢獻(xiàn)系數(shù)。
步驟五、綜合考慮節(jié)點(diǎn)的ks值(全局影響力)、節(jié)點(diǎn)的度(局部影響力)以及鄰居節(jié)點(diǎn)的貢獻(xiàn)度,定義節(jié)點(diǎn)v的影響力如下所示:
根據(jù)上述公式計(jì)算節(jié)點(diǎn)影響力。
結(jié)合圖8,社區(qū)發(fā)現(xiàn)算法通過(guò)以下步驟實(shí)現(xiàn):
步驟一、將已經(jīng)得到的節(jié)點(diǎn)影響力按照降序排序。
步驟二、節(jié)點(diǎn)編號(hào)設(shè)置為節(jié)點(diǎn)的最初標(biāo)簽,完成標(biāo)簽初始化過(guò)程。
步驟三、每一次更新過(guò)程中,對(duì)于每一個(gè)節(jié)點(diǎn),統(tǒng)計(jì)該節(jié)點(diǎn)周?chē)泥従庸?jié)點(diǎn)所攜帶的標(biāo)簽及鄰居影響力。
步驟四、定義節(jié)點(diǎn)x對(duì)標(biāo)簽c的歸屬系數(shù)計(jì)算公式如下所示:
其中,b(x,c)是節(jié)點(diǎn)x對(duì)社區(qū)c的歸屬系數(shù),n+(x)是節(jié)點(diǎn)x及其鄰居節(jié)點(diǎn)的集合,z(c)是保留標(biāo)簽的節(jié)點(diǎn)集合,c代表節(jié)點(diǎn)x及其鄰接節(jié)點(diǎn)擁有的標(biāo)簽種類的集合,inf(y)代表節(jié)點(diǎn)y的影響力。
根據(jù)公式,統(tǒng)計(jì)該節(jié)點(diǎn)本身的攜帶的標(biāo)簽及歸屬系數(shù),作為節(jié)點(diǎn)本身的歸屬傾向,結(jié)合其本身影響力和鄰居節(jié)點(diǎn)的影響力,計(jì)算該節(jié)點(diǎn)對(duì)于每一個(gè)種類標(biāo)簽的歸屬系數(shù)。
步驟五、定義重疊閾值計(jì)算公式如下所示:
其中,t(x)代表了節(jié)點(diǎn)x的重疊閾值,inf(x)節(jié)點(diǎn)x的影響力,infm代表了節(jié)點(diǎn)影響力的最大值。
根據(jù)上述公式計(jì)算重疊閾值,根據(jù)重疊閾值決定保留或者刪除標(biāo)簽,如果所有種類的標(biāo)簽的歸屬系數(shù)都小于重疊閾值,就選擇歸屬系數(shù)最大的標(biāo)簽作為最終的結(jié)果,若有多個(gè)則隨機(jī)選擇一個(gè)。最后對(duì)節(jié)點(diǎn)保留下來(lái)的標(biāo)簽做歸一化處理,更新完畢。
步驟六、檢查算法是否滿足終止條件。若不滿足,則轉(zhuǎn)向步驟(2),若滿足,則算法停止。
步驟七、統(tǒng)計(jì)網(wǎng)絡(luò)中的標(biāo)簽種類,將保留了同一標(biāo)簽的所有節(jié)點(diǎn)看作同一個(gè)社區(qū)內(nèi)的節(jié)點(diǎn)。具有多個(gè)標(biāo)簽的節(jié)點(diǎn),就是多個(gè)社區(qū)共享的重疊節(jié)點(diǎn)。尋找到重疊節(jié)點(diǎn)之后,就找到了最終的重疊社區(qū)。
實(shí)驗(yàn)結(jié)果與分析:
(一)數(shù)據(jù)集的選取
本章實(shí)驗(yàn)選取的數(shù)據(jù)集皆為網(wǎng)絡(luò)上可用于研究社會(huì)網(wǎng)絡(luò)相關(guān)理論的真實(shí)社區(qū)的公用數(shù)據(jù)集,分別為:空手道俱樂(lè)部數(shù)據(jù)集(zacharykarateclub)、海豚社會(huì)網(wǎng)絡(luò)數(shù)據(jù)集(dolphinsocialnetwork)、美國(guó)足球隊(duì)數(shù)據(jù)集(americancollegefootball)、科學(xué)家網(wǎng)絡(luò)數(shù)據(jù)集(networkscientists)以及高壓電路網(wǎng)格數(shù)據(jù)集(powergrid)5個(gè)數(shù)據(jù)集。
(二)評(píng)價(jià)方法
節(jié)點(diǎn)影響力:
m指標(biāo):在極度理想情況下,每個(gè)節(jié)點(diǎn)都應(yīng)該有一個(gè)不一樣數(shù)值的影響力。在這種狀況下,核心節(jié)點(diǎn)與非核心節(jié)點(diǎn)能夠被明顯的區(qū)分出來(lái),每個(gè)節(jié)點(diǎn)的影響力都有明顯的區(qū)分。節(jié)點(diǎn)影響力的評(píng)價(jià)指標(biāo)m可以用于評(píng)價(jià)這種狀況,相同影響力的節(jié)點(diǎn)個(gè)數(shù)越少,m的值就越大,證明用于計(jì)算節(jié)點(diǎn)影響力的方法效果越好。公式如下所示:
在上述公式中,r表示已求得的影響力數(shù)值中,有多少種不同的節(jié)點(diǎn)影響力數(shù)值,nr表示了同一節(jié)點(diǎn)影響力數(shù)值的節(jié)點(diǎn)的個(gè)數(shù),n的值就是網(wǎng)絡(luò)中節(jié)點(diǎn)的個(gè)數(shù)。如果經(jīng)過(guò)某種計(jì)算方法,得到的一種狀況就是網(wǎng)絡(luò)中的所有節(jié)點(diǎn),它們都有相同大小的影響力,則此時(shí)的m(r)值為0;另外一種情況就是,如果每個(gè)節(jié)點(diǎn)都具有不重復(fù)的影響力,則m(r)值為1,所以,m(r)越接近于1越好。
kendall’stau:定義(a1,b1),(a2,b2),……(an,bn)是節(jié)點(diǎn)影響力序列對(duì),其中a1,a2……an代表了使用方法a計(jì)算之后,每一個(gè)節(jié)點(diǎn)的影響力的數(shù)值序列,同理,b1,b2……bn代表了方法b計(jì)算得到的節(jié)點(diǎn)影響力的數(shù)值序列,(a1,b1)代表了第一個(gè)節(jié)點(diǎn)用方法a計(jì)算的影響力,與方法b計(jì)算的影響力,同一個(gè)節(jié)點(diǎn)用兩種方法計(jì)算,得到兩種數(shù)值的影響力,相互對(duì)應(yīng)組成的影響力序列對(duì)。如果兩個(gè)序列對(duì)滿足ai>aj且bi>bj,或者ai<aj且bi<bj時(shí),則認(rèn)為序列對(duì)(ai,bi),(aj,bj)是一致的;如果兩個(gè)序列對(duì)滿足ai>aj且bi<bj,或者ai<aj且bi>bj時(shí),則認(rèn)為序列對(duì)(ai,bi),(aj,bj)是不一致的;如果兩個(gè)序列對(duì)滿足ai=aj或者bi=bj,則認(rèn)為序列對(duì)(ai,bi),(aj,bj)既不是一致的也不是不一致的。公式如下:
其中,nc代表一致的序列對(duì)的個(gè)數(shù),nd代表不一致的序列對(duì)的個(gè)數(shù),n代表網(wǎng)絡(luò)中節(jié)點(diǎn)的個(gè)。
由kendall’stau指標(biāo)的定義可知,越高的τ值,越能夠說(shuō)明方法a與方法b的相關(guān)性越大,方法a與方法b判斷出來(lái)的結(jié)果越相似。
按照通用的實(shí)驗(yàn)法,選擇sir模型進(jìn)行影響力傳播,模擬出節(jié)點(diǎn)影響力的大小,作為方法b的結(jié)果。
社區(qū)發(fā)現(xiàn):
模塊度:公式如下所示:
其中,c代表網(wǎng)絡(luò)中的以劃分的所有的社區(qū)組成的集合,c是c中一個(gè)社區(qū)結(jié)構(gòu),b(v,c)代表節(jié)點(diǎn)v相對(duì)于社區(qū)c的歸屬系數(shù)。m代表網(wǎng)絡(luò)總邊數(shù),kv代表節(jié)點(diǎn)v的度數(shù)。
(三)結(jié)果及分析
節(jié)點(diǎn)影響力:圖2表示算法m指標(biāo)數(shù)值的對(duì)比圖,橫坐標(biāo)代表了數(shù)據(jù)集,縱坐標(biāo)代表m值。從圖中可以直觀的看出算法dc、bc、ks、mdd、min-ks在5個(gè)數(shù)據(jù)集波動(dòng)較大,且數(shù)值基本在0.2與0.85之間,cc、ks-k、bc與本文提出的ksadwn算法的在這5個(gè)數(shù)據(jù)集上波動(dòng)較小,數(shù)值基本在0.7與1之間,且ksadwn算法的m數(shù)值基本上是最高的,所以本章提出的ksadwn算法在m評(píng)判指標(biāo)上表現(xiàn)較為較好,使用ksadwn算法計(jì)算影響力,影響力能夠得到更明顯的區(qū)分。
從圖3中數(shù)據(jù)可以看出,以上8個(gè)計(jì)算節(jié)點(diǎn)影響力的算法在不同數(shù)據(jù)集上的kendall’stau值隨感染概率的變化趨勢(shì)并不一致。由于本文對(duì)比算法并未涉及感染概率,并且同一感染概率的下的不同算法的計(jì)算而得kendall’stau值的大小也并非固定不變。所以需要從宏觀角度對(duì)5個(gè)數(shù)據(jù)集的總體變化趨勢(shì)進(jìn)行總體分析可。在karate數(shù)據(jù)集上,各個(gè)算法感染概率0.6到0.8之間存在波動(dòng),雖然存在波動(dòng),但是本文提出的ksadwn算法計(jì)算得到的結(jié)果在以上對(duì)比算法中一直能夠保持最優(yōu)值。在dolphins數(shù)據(jù)集上,ksadwn在感染概率0.68之前,其kendall’stau值小于cc算法與ks-k算法得到的數(shù)值,在0.68之后,ksadwn算法的kendall’stau值逐漸增大,并在數(shù)值上一直領(lǐng)先。而在football數(shù)據(jù)集上,ksadwn在感染概率0.68之前,其kendall’stau值小于cc算法得到的數(shù)值,在0.68之后,ksadwn算法的kendall’stau值與cc算法相近,與其他對(duì)比算法相比,共同保持了最優(yōu)值。在數(shù)據(jù)集netscience與power上,所有算法的變化趨勢(shì)相比其他數(shù)據(jù)集較為平緩,ksadwn算法的kendall’stau數(shù)值上依舊保持領(lǐng)先。
從圖10中可以看出,在以上5個(gè)數(shù)據(jù)集上運(yùn)行時(shí),在不同網(wǎng)絡(luò)模塊度達(dá)到穩(wěn)定時(shí)的迭代次數(shù)并不相等,說(shuō)明不同網(wǎng)絡(luò)結(jié)構(gòu)具有不同的特點(diǎn),從而導(dǎo)致相同算法之間的表現(xiàn)存在差異。在5個(gè)數(shù)據(jù)集中,模塊度達(dá)到較為穩(wěn)定狀態(tài)的迭代次數(shù)均在3-15次之間,其中數(shù)據(jù)集karate大約在3次左右,dolphins在5次左右,football與netscience分別是7次與9次,power數(shù)據(jù)集由于數(shù)據(jù)量較大,所以迭代次數(shù)最多,大概在15次之后模塊度基本不再改變,數(shù)值趨于穩(wěn)定狀態(tài)。雖然在以后的迭代中模塊度數(shù)值略有變化,但是總體波動(dòng)非常微小,影響模塊度變化的原因可能是非常少量重疊節(jié)點(diǎn)的所屬于的社區(qū)有所變化,達(dá)不到第t次與第t-1節(jié)點(diǎn)標(biāo)簽完全一樣的條件,或是節(jié)點(diǎn)社區(qū)并沒(méi)有改變,只是社區(qū)對(duì)應(yīng)的歸屬系數(shù)有少許差異,以及計(jì)算過(guò)程中存在精度損失。但以上原因并不影響整體結(jié)構(gòu),模塊度可視為不變,重疊社區(qū)結(jié)構(gòu)已穩(wěn)定。
(四)結(jié)論:
本發(fā)明的基于節(jié)點(diǎn)影響力的重疊社區(qū)發(fā)現(xiàn)算法,主要做了以下幾點(diǎn)改進(jìn):
(1)通過(guò)研究傳統(tǒng)k-shell分解算法在影響力計(jì)算方面,存在粗粒度劃分,以及只考慮節(jié)點(diǎn)全局因素,未考慮節(jié)點(diǎn)其他因素的不足之處,提出了一種節(jié)點(diǎn)影響力計(jì)算方法ksadwn。該算法選擇時(shí)間復(fù)雜度較低的k-shell分解算法為基礎(chǔ),綜合考慮節(jié)點(diǎn)全局特性、局部特性與鄰居節(jié)點(diǎn)三方面因素,在求得節(jié)點(diǎn)的ks值這個(gè)全局影響力的基礎(chǔ)上,結(jié)合節(jié)點(diǎn)的度以及鄰居節(jié)點(diǎn)的貢獻(xiàn)程度,重新計(jì)算節(jié)點(diǎn)影響力。該算法全方面考慮了節(jié)點(diǎn)的全局影響力和局部影響力,以及鄰居節(jié)點(diǎn)的貢獻(xiàn),將這三個(gè)因素的共同作用綜合起來(lái),思考的因素較為全面。既能夠改進(jìn)k-shell分解算法存在的不足之處,還能夠更全面的計(jì)算節(jié)點(diǎn)的影響力。
(2)以求得的節(jié)點(diǎn)影響力作為基礎(chǔ),針對(duì)標(biāo)簽傳播類重疊社區(qū)發(fā)現(xiàn)算法中的copra算法存在隨機(jī)性,以及在計(jì)算過(guò)程中欠缺對(duì)節(jié)點(diǎn)影響力的考慮的不足之處,提出了基于節(jié)點(diǎn)影響力的重疊社區(qū)發(fā)現(xiàn)算法inilpa。該算法首先依據(jù)節(jié)點(diǎn)的影響力的大小,將節(jié)點(diǎn)進(jìn)行降序排列。然后按照排好的順序,依次更新節(jié)點(diǎn)的標(biāo)簽。在傳播的過(guò)程中,除了需要考察鄰居節(jié)點(diǎn)的影響力,對(duì)被更新節(jié)點(diǎn)是否屬于該社區(qū)的歸屬程度產(chǎn)生的不同影響,還加入對(duì)被更新節(jié)點(diǎn)本身的保留的標(biāo)簽,即節(jié)點(diǎn)本身的歸屬傾向和節(jié)點(diǎn)影響力這類重要因素的考慮,重新定義了歸屬系數(shù)的計(jì)算方法,更加合理的計(jì)算了歸屬系數(shù)。在重疊系數(shù)設(shè)定中,相比已有的計(jì)算的方式,結(jié)合節(jié)點(diǎn)影響力為每一個(gè)節(jié)點(diǎn)設(shè)定合理的閾值,能夠更好地去除不合理的標(biāo)簽,提高社區(qū)發(fā)現(xiàn)質(zhì)量。
(3)雖然本發(fā)明綜合表現(xiàn)良好,但是也存在一定的不足之處,仍需要進(jìn)一步研究并改進(jìn)。其中之一就是算法的終止條件除了標(biāo)簽不在改變之外,與迭代次數(shù)也有關(guān)系,本文通過(guò)進(jìn)行大量實(shí)驗(yàn)的方式尋找到合適的迭代次數(shù)。如何從相關(guān)理論上合理設(shè)定迭代次數(shù),挖掘不同的網(wǎng)絡(luò)規(guī)模與迭代次數(shù)之間有什么樣的規(guī)律,是下一步研究工作重點(diǎn)。