亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種在動態(tài)大規(guī)模社交網(wǎng)絡(luò)中發(fā)現(xiàn)關(guān)鍵人物的方法與流程

文檔序號:12491665閱讀:589來源:國知局
一種在動態(tài)大規(guī)模社交網(wǎng)絡(luò)中發(fā)現(xiàn)關(guān)鍵人物的方法與流程

本發(fā)明涉及復(fù)雜網(wǎng)路中節(jié)點重要性指標計算和動態(tài)大規(guī)模社交網(wǎng)絡(luò)中關(guān)鍵人物發(fā)現(xiàn)的方法,屬于數(shù)據(jù)挖掘和社交網(wǎng)絡(luò)分析領(lǐng)域。



背景技術(shù):

近年來,越來越多的人開始使用像微博、推特和臉書等在線社交網(wǎng)絡(luò)應(yīng)用,使得社交網(wǎng)絡(luò)數(shù)據(jù)總量呈爆發(fā)式增長;同時,網(wǎng)絡(luò)規(guī)模的快速增長導(dǎo)致了網(wǎng)絡(luò)結(jié)構(gòu)的動態(tài)變化。用戶可以在這些社交網(wǎng)絡(luò)平臺上交換和共享信息,而不同的用戶所具備的影響力是各不相同的,所以識別社交網(wǎng)絡(luò)中的關(guān)鍵人物是有現(xiàn)實意義的。

在研究的起步階段,傳統(tǒng)的中心度指標被廣泛使用。其中,最簡單的是度中心度:僅僅依據(jù)一個節(jié)點的鄰居節(jié)點個數(shù)來衡量這個節(jié)點的重要性程度。另外兩個被廣泛使用的傳統(tǒng)中心度指標是接近中心度和介數(shù)中心度。接近中心度使用當前節(jié)點到所有其他節(jié)點最短路徑長度的平均值作為評價標準。介數(shù)中心度基于當前節(jié)點落在所有節(jié)點對間最短路徑上的次數(shù)來比較節(jié)點的重要性。

由于傳統(tǒng)的中心度指標的適用性不強,研究者致力于提取復(fù)雜網(wǎng)絡(luò)中高度互連的部分子網(wǎng)。K-shell分解方法就是這一方向的杰出成果:通過迭代地移出度中心度小于等于k的節(jié)點直到網(wǎng)絡(luò)中不再包含度中心度小于等于k的節(jié)點,并將這些節(jié)點的K-shell指標值賦為k,然后繼續(xù)移出度中心度小于等于k+1的節(jié)點直到網(wǎng)絡(luò)中不再有節(jié)點時算法結(jié)束。Dorogovtsev等人在2006年提出了K-core分解來描述真實復(fù)雜網(wǎng)絡(luò)的拓撲結(jié)構(gòu)(參考文獻【1】:S.N.Dorogovtsev,A.V.Goltsev,and J.F.F.Mendes.K-core organization of complex networks,Physical review letters,vol.96,no.4,p.040601,2006.)。為了提高K-shell方法的準確度,A.Zeng等人在2013年提出了混合度分解方法:通過自定義新的混合度指標來作為分解網(wǎng)絡(luò)的依據(jù)(參考文獻【2】:D.-B.Chen,R.Xiao,A.Zeng,and Y.-C.Zhang.Path diversity improves the identification of influential spreaders,EPL(Europhysics Letters),vol.104,no.6,p.68006,2013.)。

Domingos和Richardson等人在2002年將影響力最大化作為一個算法問題,提出了一個從協(xié)同過濾數(shù)據(jù)庫中挖掘社交網(wǎng)絡(luò)模型的概率性算法(參考文獻【3】:M.Richardson and P.Domingos,Mining knowledge-sharing sites for viral marketing,in Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2002,pp.61–70.),并將這一模型應(yīng)用于最優(yōu)化市場決定上。這是一個理論問題,對應(yīng)的實際問題是如何在現(xiàn)實復(fù)雜網(wǎng)絡(luò)中識別關(guān)鍵節(jié)點。

Qingcheng Hu等人于2013年提出了一個K-shell社區(qū)中心度模型(參考文獻【4】:Q.Hu,Y.Gao,P.Ma,Y.Yin,Y.Zhang,and C.Xing.A new approach to identify influential spreaders in complex networks,in Web-Age Information Management.Springer,2013,pp.99–104.):不僅考慮節(jié)點的內(nèi)部屬性,同時參考節(jié)點所屬社區(qū)這樣的外部信息。Joonhyun Bae等人在2014年提出了內(nèi)核中心度指標(參考文獻【5】:J.Bae and S.Kim.Identifying and ranking influential spreaders in complex networks by neighborhood coreness,Physica A:Statistical Mechanics and its Applications,vol.395,pp.549–559,2014.):綜合考慮鄰居節(jié)點的K-shell指標值來計算該節(jié)點的重要性程度。

以上社交網(wǎng)絡(luò)分析和關(guān)鍵人物發(fā)現(xiàn)的工作沒有考慮到現(xiàn)實社交網(wǎng)絡(luò)的動態(tài)性和大數(shù)據(jù)性質(zhì),其中全局性的算法時間復(fù)雜度較高。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的是提供一種創(chuàng)新的社交網(wǎng)絡(luò)中節(jié)點重要性指標計算方法并依據(jù)節(jié)點的重要性指標排序結(jié)果來識別社交網(wǎng)絡(luò)中的關(guān)鍵人物。本發(fā)明是受到了牛頓在物理學(xué)中提出的萬有引力定律的啟發(fā),假設(shè)社交網(wǎng)絡(luò)中的任意兩個節(jié)點之間存在著相互影響力:根據(jù)萬有引力定律,用節(jié)點的度中心度指標作為節(jié)點的質(zhì)量,兩節(jié)點之間的距離用兩節(jié)點間最短路徑長度表示。本發(fā)明通過局部分解策略將整個網(wǎng)絡(luò)分解出局部子網(wǎng)絡(luò),并在局部子網(wǎng)絡(luò)中計算節(jié)點的重要性指標。

本發(fā)明包含了節(jié)點標號與參數(shù)選擇、局部網(wǎng)絡(luò)提取與節(jié)點間相互影響力計算、單節(jié)點的重要性指標計算以及依據(jù)任務(wù)類型找到關(guān)鍵人物四個部分。本發(fā)明提出的創(chuàng)新計算方法包含一個參數(shù)k,這個參數(shù)可以依據(jù)不同規(guī)模的應(yīng)用對時間復(fù)雜度和準確率兩方面的要求來動態(tài)調(diào)整。為了評估算法的表現(xiàn),本發(fā)明基于SIR(Suspectible-Infected-Recovered)模型分別在一個簡單社交網(wǎng)絡(luò)數(shù)據(jù)集和一個真實復(fù)雜社交網(wǎng)絡(luò)數(shù)據(jù)集中做了模擬實驗,結(jié)果表明本發(fā)明提出的創(chuàng)新計算方法優(yōu)于K-shell分解、介數(shù)中心度和度中心度方法。

本發(fā)明提供的一種在動態(tài)大規(guī)模社交網(wǎng)絡(luò)中發(fā)現(xiàn)關(guān)鍵人物的方法,包括以下幾個步驟:

步驟1:節(jié)點標號與參數(shù)選擇。

先將社交網(wǎng)絡(luò)中的各個節(jié)點用簡單的數(shù)字序號表示,同時,需要通過參數(shù)k的指定來決定用于計算的局部網(wǎng)絡(luò)規(guī)格大小。k為距離待計算節(jié)點跳數(shù)的最大值。

步驟2:局部網(wǎng)絡(luò)提取與節(jié)點間相互影響力計算。

本發(fā)明中提出的影響力計算方法并不是基于整個網(wǎng)絡(luò)進行計算的,而是先選擇到待計算節(jié)點的跳數(shù)小于等于參數(shù)k的所有節(jié)點組成一個局部網(wǎng)絡(luò),然后再在局部網(wǎng)絡(luò)中使用影響力計算方法來算出該節(jié)點的重要性指標。影響力計算方法是受到牛頓萬有引力理論的啟發(fā),假設(shè)局部網(wǎng)絡(luò)中的任意兩個節(jié)點之間存在著萬有影響力,這個萬有影響力的大小與兩個節(jié)點的度中心度之間是正比例關(guān)系其中,與兩個節(jié)點間距離的對數(shù)是反比例關(guān)系。

步驟3:單節(jié)點的重要性指標計算。

待計算節(jié)點的重要性指標由局部網(wǎng)絡(luò)中的其它節(jié)點對它的萬有影響力的和來表示。本發(fā)明提出的重要性指標計算屬于局部計算方法,在動態(tài)大規(guī)模社交網(wǎng)絡(luò)中可以通過調(diào)節(jié)參數(shù)k的大小來平衡計算復(fù)雜度和準確性之間的關(guān)系。

步驟4:依據(jù)任務(wù)類型找到關(guān)鍵人物。

本發(fā)明中步驟3中的重要性指標計算結(jié)果是找到關(guān)鍵人物的依據(jù),應(yīng)用步驟3中對單節(jié)點重要性指標計算的方法來對整個網(wǎng)絡(luò)中所有節(jié)點進行計算,最后根據(jù)任務(wù)類型的不同可以有不同的計算結(jié)果處理策略:如果需要影響力最高或者最低的m個人,此時,可以通過使用最大堆或者最小堆保存計算結(jié)果的方式實現(xiàn)一邊計算結(jié)果一邊篩選關(guān)鍵人物,同時大大減少保存結(jié)果的空間;但如果需要知道所有人的影響力指標值就需要對所有的結(jié)果進行排序了。最后,依據(jù)標號與人物的對應(yīng)關(guān)系找到對應(yīng)的人。

本發(fā)明的優(yōu)點在于:

(1)提出了萬有影響力的概念并給出計算兩個節(jié)點間萬有影響力的公式,可以通過定量計算來得到任意兩個節(jié)點之間的相互影響力值。

(2)提出了一種根據(jù)萬有影響力來計算單節(jié)點重要性指標的局部計算方法,該方法不是全局計算方法,所以在大規(guī)模動態(tài)社交網(wǎng)絡(luò)中有優(yōu)勢。

(3)提出了一種在動態(tài)大規(guī)模社交網(wǎng)絡(luò)中發(fā)現(xiàn)關(guān)鍵人物的方法,該方法根據(jù)任務(wù)類型的不同可以有不同的計算結(jié)果處理策略,并通過調(diào)整參數(shù)k來平衡時間復(fù)雜度和準確率。

附圖說明

圖1是簡單社交網(wǎng)絡(luò)圖例。

圖2是本發(fā)明的整體步驟流程示意圖。

圖3是簡單社交網(wǎng)絡(luò)單源結(jié)果圖。

圖4是真實復(fù)雜社交網(wǎng)絡(luò)單源傳播結(jié)果圖。

圖5是真實復(fù)雜社交網(wǎng)絡(luò)多源傳播結(jié)果圖。

具體實施方式

下面將結(jié)合附圖和實施例對本發(fā)明做進一步的詳細說明。

本發(fā)明提出了一種在動態(tài)大規(guī)模社交網(wǎng)絡(luò)中發(fā)現(xiàn)關(guān)鍵人物的方法,目的是提供一種創(chuàng)新的社交網(wǎng)絡(luò)中節(jié)點重要性指標計算方法并依據(jù)節(jié)點的重要性指標排序結(jié)果來識別社交網(wǎng)絡(luò)中的關(guān)鍵人物。所述的動態(tài)大規(guī)模社交網(wǎng)絡(luò)是指真實生活中的復(fù)雜網(wǎng)絡(luò),例如新浪微博所有用戶組成的社交網(wǎng)絡(luò),網(wǎng)絡(luò)數(shù)據(jù)規(guī)模巨大、結(jié)構(gòu)異常復(fù)雜而且人與人之間的關(guān)系在動態(tài)變化。所述的關(guān)鍵人物是指能在網(wǎng)絡(luò)中起到關(guān)鍵作用的人物,例如新浪微博中的大V可以影響他的粉絲,并在傳播信息方面起到關(guān)鍵作用。

本發(fā)明中提出的在動態(tài)大規(guī)模社交網(wǎng)絡(luò)中發(fā)現(xiàn)關(guān)鍵人物方法主要包括四個過程:(1)節(jié)點標號與參數(shù)選擇;(2)局部網(wǎng)絡(luò)提取與節(jié)點間相互影響力計算;(3)單節(jié)點的重要性指標計算;(4)依據(jù)任務(wù)類型找到關(guān)鍵人物。

本發(fā)明提出的在動態(tài)大規(guī)模社交網(wǎng)絡(luò)中發(fā)現(xiàn)關(guān)鍵人物的具體實現(xiàn)流程如圖2所示,包括以下幾個步驟:

步驟1:節(jié)點標號與參數(shù)選擇。

將社交網(wǎng)絡(luò)中的各個節(jié)點從1到n順序標號,用簡單的數(shù)字序號表示節(jié)點,并記錄對應(yīng)關(guān)系。如圖1所示,該簡單社交網(wǎng)絡(luò)圖例中總共包括14個節(jié)點和15條邊,對應(yīng)于真實社交網(wǎng)絡(luò)中的14個人及15種對應(yīng)關(guān)系。由于目前真實的復(fù)雜社交網(wǎng)絡(luò)具有大數(shù)據(jù)和動態(tài)變化的特性,所以全局計算方法并不適合應(yīng)用在這種場景下,所以本發(fā)明提出的是一個局部計算的方法。該方法需要通過參數(shù)k的指定來決定用于計算的局部網(wǎng)絡(luò)規(guī)格大小,即只需要關(guān)注待求節(jié)點在k跳范圍內(nèi)的所有節(jié)點:通常在處理小規(guī)模網(wǎng)絡(luò)時,指定k為3;當網(wǎng)絡(luò)的規(guī)模比較大時,可以指定k為6。

步驟2:局部網(wǎng)絡(luò)提取與節(jié)點間相互影響力計算。

本發(fā)明中提出的創(chuàng)新計算方法并不是基于整個網(wǎng)絡(luò)進行計算的,而是先選擇到待計算節(jié)點的跳數(shù)小于等于參數(shù)k的所有節(jié)點組成一個局部網(wǎng)絡(luò),然后再在局部網(wǎng)絡(luò)中使用創(chuàng)新計算方法來算出待計算節(jié)點的重要性指標。創(chuàng)新計算方法是受到牛頓萬有引力理論的啟發(fā),假設(shè)局部網(wǎng)絡(luò)中的任意兩個節(jié)點之間存在著萬有影響力,這個萬有影響力的大小與兩個節(jié)點的度中心度之間是正比例關(guān)系,與兩個節(jié)點間距離的對數(shù)是反比例關(guān)系。

以圖1網(wǎng)絡(luò)中的節(jié)點4來舉例說明:它的1跳節(jié)點包括節(jié)點2、5、6、12和14,它的2跳節(jié)點包括1、3、7、8和13,它的3跳節(jié)點只有9,它的4跳節(jié)點有10和11。用MI(a,b)表示節(jié)點a與節(jié)點b之間的相互影響力大小,其計算公式如下:

其中,DC(a)為節(jié)點a的度中心度指標值,DC(b)為節(jié)點b的度中心度指標值,D(a,b)為節(jié)點a與節(jié)點b之間的距離即兩節(jié)點之間的最短路徑長度,e為自然對數(shù)的底數(shù),是一個無限不循環(huán)小數(shù),其值約為2.718281828459...。

步驟3:單節(jié)點的重要性指標計算。

待計算節(jié)點的重要性指標由所有局部網(wǎng)絡(luò)中的其它節(jié)點對它的萬有影響力的和來表示,用II(v)來表示節(jié)點v的重要性指標的大小,其計算公式如下:

其中,v為待計算節(jié)點,G(v)表示節(jié)點v的局部網(wǎng)絡(luò)。

當k=1時,節(jié)點4的重要性指標為:

IIk=1(4)=MI(2,4)+MI(5,4)+MI(6,4)+MI(12,4)+MI(14,4)

當k=2時,

IIk=2(4)=IIk=1(4)+MI(1,4)+MI(3,4)+MI(7,4)+MI(8,4)+MI(13,4)

當k=3時,

IIk=3(4)=IIk=2(4)+MI(9,4)

當k=4時,

IIk=4(4)=IIk=3(4)+MI(10,4)+MI(11,4)

本發(fā)明提出的計算方法屬于可調(diào)整的局部計算方法,在動態(tài)大規(guī)模社交網(wǎng)絡(luò)中可以通過調(diào)節(jié)參數(shù)k的大小來平衡計算復(fù)雜度和準確性之間的關(guān)系。當k=4時,該方法退化為全局計算方法,時間復(fù)雜度較高但同時準確度上較高。

步驟4:依據(jù)任務(wù)類型找到關(guān)鍵人物。

本發(fā)明中步驟3中的計算結(jié)果是找到關(guān)鍵人物的依據(jù),應(yīng)用步驟3中對單節(jié)點重要性指標計算的方法來對整個網(wǎng)絡(luò)中所有節(jié)點進行計算,最后根據(jù)任務(wù)類型的不同可以有不同的計算結(jié)果處理策略:如果需要影響力最高或者最低的m個人,此時,可以通過使用最大堆或者最小堆保存計算結(jié)果的方式實現(xiàn)一邊計算結(jié)果一邊篩選關(guān)鍵人物,可以將最終較少的m個結(jié)果以表格的形式展現(xiàn)出來同時大大減少保存結(jié)果所需的空間;但如果需要知道所有人的重要性排序就必須對所有人的重要性指標值進行排序了。得到了關(guān)鍵人物的標號之后,依據(jù)步驟1保存的標號與人物的對應(yīng)關(guān)系就可以找出對應(yīng)的關(guān)鍵人物了。

圖3是對圖1中網(wǎng)絡(luò)進行K-shell中心度、介數(shù)中心度、度中心度和本發(fā)明提出的方法計算后得到的重要性指標值結(jié)果圖:其中最后一列中的模擬感染率是通過使用SIR模型模擬信息傳播過程以各節(jié)點作為單一感染源去感染整個網(wǎng)絡(luò)得到的被感染節(jié)點占整個網(wǎng)絡(luò)中節(jié)點的比例,該值可以作為節(jié)點的近似重要性指標值,是節(jié)點真實重要性的一個重要參考;第2、3、4和5列中都是對應(yīng)的重要性指標值。通過圖片可以了解到本發(fā)明提供的方法能夠最準確地計算出各節(jié)點的重要性,同時也說明本發(fā)明的方法在這種簡單網(wǎng)絡(luò)結(jié)構(gòu)中是有實際作用的。

圖4是在網(wǎng)絡(luò)中的真實數(shù)據(jù)集(斯坦福大學(xué)收集的GR-QC數(shù)據(jù)集)模擬單源(以單一節(jié)點作為初始節(jié)點)傳播進行K-shell中心度、介數(shù)中心度、度中心度和本發(fā)明提出的方法計算后得到的重要性指標值結(jié)果圖。圖中橫坐標代表這四個方法計算出來的重要性指標值,縱坐標代表各節(jié)點的近似重要性指標值,理想情況下,最后描點顯示的曲線應(yīng)該是一條正比例直線。從介數(shù)中心度圖中可以看到感染率高的節(jié)點對應(yīng)的介數(shù)中心度值較低,說明介數(shù)中心度對這些重要節(jié)點的區(qū)分度很低,各點分布比較散,無法擬合正比例曲線。K-shell中心度圖中有很多具有相同的K-shell值但是對應(yīng)的感染率卻各不相同的節(jié)點,總體擬合正比例關(guān)系比較差。度中心度圖中感染率高的點對應(yīng)的度中心度的值也比較高,結(jié)果曲線擬合正比例關(guān)系比較好,但也有很多噪音點。本發(fā)明圖中曲線擬合正比例關(guān)系最好,基本滿足感染率越高的節(jié)點對應(yīng)的重要性指標值也越大,噪音點的數(shù)目也明顯比其他三種方法的少;雖然重要性低的節(jié)點會出現(xiàn)積聚現(xiàn)象,這可能是由兩方面原因?qū)е碌模阂环矫媸怯捎诰植坑嬎銓?dǎo)致的,雖然這些低重要性節(jié)點的總體網(wǎng)絡(luò)結(jié)構(gòu)有差異,但是本發(fā)明使用的方法只考慮k跳范圍內(nèi)節(jié)點組成的局部網(wǎng)絡(luò),局部網(wǎng)絡(luò)結(jié)構(gòu)相同就會有相同的重要性指標值;另一方面是由于通過計算得到這些節(jié)點的重要性指標值差異比較小,在圖中的區(qū)分度比較低,在顯示上出現(xiàn)了重疊。結(jié)果表明,本發(fā)明提出的方法比其他三種得到的結(jié)果更好,即本發(fā)明提出中的方法應(yīng)用在單源傳播上可以達到很好的效果;同時局部計算性使其在時間復(fù)雜度上有一定優(yōu)勢。

圖5是在網(wǎng)絡(luò)中的真實數(shù)據(jù)集(斯坦福大學(xué)收集的GR-QC數(shù)據(jù)集)模擬多源(以多個節(jié)點作為初始節(jié)點集合)傳播進行K-shell中心度、介數(shù)中心度、度中心度和本發(fā)明提出的方法計算后得到的重要性指標值結(jié)果圖。圖中橫坐標代表初始傳播節(jié)點的個數(shù),縱坐標代表選中節(jié)點集合的近似重要性指標值,縱坐標值越大表示選出的節(jié)點集合重要性越高。結(jié)果表明,本發(fā)明提出的方法在從多源傳播中找出重要人物上比其他三種方法得到的結(jié)果更好,即本發(fā)明提出的方法應(yīng)用在多源傳播上也可以達到很理想的效果;同時局部計算性使其在時間復(fù)雜度上有一定優(yōu)勢。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1