一種多源異構(gòu)網(wǎng)絡中社會關系的預測方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明的主要工作是基于多源異構(gòu)網(wǎng)絡推斷主體(用戶)之間的社會關系(包括同類型之間或不同類型之間的主體關系,本發(fā)明中只以用戶為例)的方法,異構(gòu)網(wǎng)絡是指網(wǎng)絡中主體類型多種或者主體之間的關系類型多種,關系可以分為好友和其他兩種。主要內(nèi)容包括在兩個(例如Twitter網(wǎng)絡、通訊網(wǎng)絡)異構(gòu)網(wǎng)絡中,兩個網(wǎng)絡的主體類型都包含有用戶,但不同網(wǎng)絡中主體之間的關系鏈接類型是不同的在Twitter網(wǎng)絡中用戶之間的關系是關注、被關注兩種,在通訊網(wǎng)中關系類型為好友和其他兩種等。要推斷不同網(wǎng)絡主體之間的社會關系必須要通過兩個網(wǎng)絡之間通過重疊用戶關聯(lián)起來,即部分用戶同時存在于兩個網(wǎng)絡中。
【專利說明】一種多源異構(gòu)網(wǎng)絡中社會關系的預測方法與系統(tǒng)
【技術領域】
[0001] 本發(fā)明屬于網(wǎng)絡應用【技術領域】,更具體地,涉及一種多源異構(gòu)網(wǎng)絡中社會關系的 預測方法與系統(tǒng)。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)的興起,越來越多的人在使用網(wǎng)絡。網(wǎng)絡給人們帶來了各種各樣的方 便,網(wǎng)絡資源無奇不有,網(wǎng)絡內(nèi)容無所不包。研宄表明,截止2011年12月31日,全球共有 22. 672億網(wǎng)絡用戶,全球網(wǎng)絡普及率為32. 7%。在2011年3月,InternetWorldStats公 布的全球網(wǎng)絡用戶數(shù)為20. 95億,9個月時間內(nèi)全球網(wǎng)絡用戶增加了 1.7222億。按照這個 速度計算,截止目前全球網(wǎng)民數(shù)量已超過23億。平均每秒新增約8個網(wǎng)絡用戶,可見現(xiàn)在 使用網(wǎng)絡的人群數(shù)量是非常龐大的。隨著互聯(lián)網(wǎng)的普及,網(wǎng)民越來越多,社會網(wǎng)絡普及程度 越來越高。
[0003] 社會網(wǎng)絡源自個體與個體之間的社交關系組成的網(wǎng)絡,現(xiàn)有的在線社會網(wǎng)絡如 Twitter網(wǎng)絡、Facebook網(wǎng)絡、新浪微博、淘寶網(wǎng)等。對于Twitter網(wǎng)絡如果使用Twitter 的用戶及用戶所發(fā)布的推文Tweet視為網(wǎng)絡中的主體,用戶發(fā)表、轉(zhuǎn)發(fā)推文等視為網(wǎng)絡主 體之間的關聯(lián),就可以將其抽象成為一個典型的社會網(wǎng)絡。但社會網(wǎng)絡并不是一層不變的, 它是隨著時間推移由新節(jié)點的添加或者節(jié)點間新關系的形成動態(tài)變化的,因此對社會網(wǎng)絡 結(jié)構(gòu)的動態(tài)變化的研宄是很有意義的??紤]將關系鏈接的形成過程作為網(wǎng)絡發(fā)展和演變的 基本原則,那么在給定節(jié)點的網(wǎng)絡中,網(wǎng)絡的成長發(fā)展是通過節(jié)點之間新關系的建立而形 成。而本發(fā)明目的是通過研宄異構(gòu)網(wǎng)絡中給定節(jié)點之間新關系的建立從而發(fā)現(xiàn)網(wǎng)絡發(fā)展和 演變的過程。廣義來講,社會網(wǎng)絡可以是蛋白質(zhì)相互作用網(wǎng)絡,神經(jīng)網(wǎng)絡等生物信息網(wǎng)絡; 還可以是萬維網(wǎng)的Web結(jié)構(gòu)、Internet的拓撲結(jié)構(gòu)、通訊網(wǎng)絡等信息網(wǎng)絡;生活中最常見的 也是最直觀的社會網(wǎng)絡當屬社交網(wǎng)絡,包括學術合作、人物關系、在線交友等應用等。針對 于異構(gòu)網(wǎng)絡主體相關性的研宄可以應用到社交網(wǎng)絡和電子商務的結(jié)合,如新浪微博和淘寶 商品推薦等;還可以應用到?jīng)Q策通訊網(wǎng)網(wǎng)絡主體間通訊模式(如電話、短信等);還有生物 學中酵母菌蛋白質(zhì)相互作用問題的研宄等。
[0004] 目前社會網(wǎng)絡是在其網(wǎng)絡結(jié)構(gòu)內(nèi)部是相互鏈接的?,F(xiàn)有的對自然科學、社會信息 網(wǎng)絡的研宄都是假定網(wǎng)絡類型結(jié)構(gòu)是同構(gòu)類型的,即網(wǎng)絡節(jié)點類型相同,鏈接節(jié)點之間的 關系類型也相同。但現(xiàn)實生活中大部分的網(wǎng)絡是異構(gòu)類型的,即網(wǎng)絡節(jié)點類型多種,鏈接節(jié) 點之間的關系類型也是多種。如DBLP網(wǎng)絡主體節(jié)點類型有作者、論文、會議和關鍵詞,而他 們之間的多種關系如作者、論文之間撰寫、引用,論文、會議之間發(fā)表、收錄等;蛋白質(zhì)網(wǎng)絡 主體節(jié)點類型基因、酵母等都是異構(gòu)類型。
[0005] 傳統(tǒng)網(wǎng)絡中預測兩個主體之間的關系方法已經(jīng)存在多種,鏈接預測是眾多方法中 最常用到的。在同構(gòu)網(wǎng)絡中鏈接預測已經(jīng)得到了廣泛的應用,但是在異構(gòu)網(wǎng)絡中由于網(wǎng)絡 本身結(jié)構(gòu)的特點導致常用鏈接預測在異構(gòu)網(wǎng)絡內(nèi)不能實現(xiàn)。
【發(fā)明內(nèi)容】
[0006] 異構(gòu)網(wǎng)絡的特點主要有首先異構(gòu)網(wǎng)絡中雖然存在一些結(jié)構(gòu)特征,但是沒有一種特 征能夠很好地概括整個網(wǎng)絡;其次異構(gòu)網(wǎng)絡的標簽是復雜的,網(wǎng)絡中標簽一般都是昂貴或 者難以獲取的;再次網(wǎng)絡復雜,異構(gòu)網(wǎng)絡中主體類型多種,關系類型也是多種。另外現(xiàn)有關 系預測的研宄大多針對靜態(tài)無權網(wǎng)絡,而對動態(tài)加權網(wǎng)絡的研宄相對較少;對局部因素考 慮得比較具體,而對整體因素考慮得過于抽象。
[0007] 為了能夠?qū)崿F(xiàn)預測異構(gòu)社會網(wǎng)絡主體之間的社會關系,按照本發(fā)明的一個方面, 提供了一種基于多源異構(gòu)網(wǎng)絡的社會關系預測方法,包括以下步驟:
[0008] (1)對網(wǎng)絡G= (V,E)按照相等的時間片長度分別進行劃分,分成η個時間片快 照,整個網(wǎng)絡表示為G= {1\,T2,T3,...,TJ;其中對于網(wǎng)絡G= (V,E),其中V表示網(wǎng)絡中 所有主體(用戶)集合,E表示所有主體間存在的鏈接關系集合;
[0009] (2)統(tǒng)計兩兩主體的時序動作特征向量Edge_Vector( ·),并對主體的時序特征向 量Edge_Vector(·)內(nèi)所有元素求和,從而得到主體間的鏈接關系的時序權重w(u,v);
[0010] ⑶分別對異構(gòu)網(wǎng)絡Gs= (Vs,Es)、Gt= (Vt,Et)采用步驟⑴(2)的方法獲得網(wǎng)絡 主體之間的時序權重ws、Wt,通過計算Gs、Gt中重疊的用戶即同時存在于兩個網(wǎng)絡中的主體 v,VeVjVeVt,從而將Gs、Gt網(wǎng)絡組合成Gnew;
[0011] (4)以最小路徑權重和為原則米用最短路徑Dijkstra算法,計算網(wǎng)絡Gnew中主體 間的最短時序權重路徑;根據(jù)最短時序權重路徑所屬的鏈接關系從而構(gòu)成最短關系路徑 Shortest_Relation-Path;
[0012] (5)預測異構(gòu)網(wǎng)絡Gnew中主體之間潛在的社會關系概率,根據(jù)已知的異構(gòu)網(wǎng) 絡Gne中的主體u和主體V之間的最短關系路徑Shortest_Relation_Path(u,V)= (R1,R2,R1),采用HeteFlow方法計算u和V間社會關系的概率;
[0013] (6)基于給定閾值δ判斷異構(gòu)網(wǎng)絡主體u和V之間的社會關系,主體u和V之間 的社會關系概率大于設定閾值S,則存在關系,否則不存在關系。
[0014] 按照本發(fā)明的另一方面,還提供了一種多源異構(gòu)網(wǎng)絡中社會關系的預測系統(tǒng), 包括網(wǎng)絡劃分模塊、時序權重計算模塊、網(wǎng)絡組合模塊、最短路徑計算模塊、社會關系概 率計算模塊以及社會關系預測模塊,其中:所述網(wǎng)絡劃分模塊,用于對網(wǎng)絡G= (V,E) 按照相等的時間片長度分別進行劃分,分成η個時間片快照,整個網(wǎng)絡表示為G= IT1,T2,T3,…,TJ;其中對于網(wǎng)絡G= (V,Ε),其中V表示網(wǎng)絡中所有主體(用戶)集合,E 表示所有主體間存在的鏈接關系集合;
[0015] 所述時序權重計算模塊,用于統(tǒng)計兩兩主體的時序動作特征向量Edge_ Vector( ·),并對主體的時序特征向量Edge_Vector( ·)內(nèi)所有元素求和,從而得到主體間 的鏈接關系的時序權重w (U, V);
[0016] 所述網(wǎng)絡組合模塊,用于分別對異構(gòu)網(wǎng)絡1= (VS,ES)、Gt= (Vt,Et)采用網(wǎng)絡劃 分模塊及時序權重計算模塊獲得網(wǎng)絡主體之間的時序權重ws、wt,通過計算Gs、Gt中重疊的 用戶即同時存在于兩個網(wǎng)絡中的主體v,Ve入且VeVt,從而將Gs、Gt網(wǎng)絡組合成Gnew;
[0017]所述最短路徑計算模塊,用于以最小路徑權重和為原則采用最短路徑Dijkstra 算法,計算網(wǎng)絡Gnrat中主體間的最短時序權重路徑;根據(jù)最短時序權重路徑所屬的鏈接關 系從而構(gòu)成最短關系路徑Shortest_Relation_Path;
[0018] 所述社會關系概率計算模塊,用于預測異構(gòu)網(wǎng)絡Gnrat中主體之間潛在的社會關 系概率,根據(jù)已知的異構(gòu)網(wǎng)絡Gnew中的主體u和主體V之間的最短關系路徑Shortest_Relation_Path(u,v) = (R1,R2, · · ·,R1),采用HeteFlow方法計算u和V間社會關系的概率; [0019] 所述社會關系預測模塊,用于基于給定閾值δ判斷異構(gòu)網(wǎng)絡主體u*v之間的社 會關系,主體u和V之間的社會關系概率大于設定閾值δ,則存在關系,否則不存在關系。
[0020] 通過本發(fā)明所構(gòu)思的以上技術方案,與現(xiàn)有技術相比,本發(fā)明具有以下的有益效 果:
[0021] (1)靈活高效性:因為采用了步驟(1),所以該方法不僅適用于靜態(tài)不變的拓撲結(jié) 構(gòu),而且還可以應用到網(wǎng)絡動態(tài)演變拓撲結(jié)構(gòu);由于采用了步驟(3),系統(tǒng)會根據(jù)自身的網(wǎng) 絡組成和特性自動調(diào)整其拓撲結(jié)構(gòu),不僅僅是針對于同構(gòu)網(wǎng)絡而使得異構(gòu)網(wǎng)絡關系預測具 有普遍適用性,且主體的類型不在受限即針對于不同的主體類型或者相同主體類型都能靈 活使用;
[0022] (2)自適應性:由于采用了步驟(2),使用了根據(jù)時序權重特性下主體間最短時序 路徑特性,使得在處理的過程中自適應式的將時間對關系的影響考慮在范圍內(nèi),并且根據(jù) 關系動作而自行調(diào)整而不需要人工干預,只需在初始化階段之前制定好需要的參數(shù)(如時 序關系動作值等),這樣系統(tǒng)在后面的運行過程中針對所有獲取的結(jié)果自動調(diào)整操作。
【專利附圖】
【附圖說明】
[0023] 圖1是本發(fā)明多源異構(gòu)網(wǎng)絡主體社會關系預測方法的流程圖。
[0024] 圖2是本發(fā)明步驟⑴的細化流程圖。
[0025] 圖3是本發(fā)明步驟(3)的細化流程圖。
[0026] 圖4為影響最大化的加權級聯(lián)圖。
【具體實施方式】
[0027] 為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實施方式中所涉及到的技術特征只要 彼此之間未構(gòu)成沖突就可以相互組合。
[0028] 本發(fā)明針對于社會網(wǎng)絡演變過程中主體的關系建立存在的問題,提出了一套基于 多源異構(gòu)網(wǎng)絡推斷主體之間社會關系的方法。它綜合考慮了隨著時間演變主體之間關系權 重的微弱變化,并利用不同異構(gòu)網(wǎng)絡中重疊的主體通過網(wǎng)絡的拓撲關系路徑組合的方式, 使得兩個不同異構(gòu)網(wǎng)絡主體相互關聯(lián)從而發(fā)現(xiàn)異構(gòu)網(wǎng)絡主體之間潛在的社會關系。首先對 本發(fā)明中涉及到的名詞和術語進行說明和解釋:
[0029] 社交網(wǎng)絡節(jié)點關系預測是指通過已知的社交網(wǎng)絡結(jié)構(gòu)等信息,如何預測網(wǎng)絡中尚 未存在連邊的兩個節(jié)點之間產(chǎn)生連接的可能性。而預測未來可能產(chǎn)生的連邊則與網(wǎng)絡的演 化相關。傳統(tǒng)的方法是基于機器學習的,雖然能夠得到較高的預測精度,但是由于計算的復 雜度以及非普適性使其應用范圍受到限制,也存在著如下問題:1)目前針對網(wǎng)絡主體關系 的研宄著重于同構(gòu)網(wǎng)絡中,但現(xiàn)實中大部分的網(wǎng)絡是異構(gòu)類型的,譬如用戶商品推薦網(wǎng)絡、 DBLP網(wǎng)絡等;2)在社交網(wǎng)絡中進行關系預測時,單個網(wǎng)絡的數(shù)據(jù)稀疏性仍是很大的挑戰(zhàn);
[0030] 同構(gòu)網(wǎng)絡是指:網(wǎng)絡中所有主體類型相同,所有主體的關系類型也相同。
[0031] 異構(gòu)網(wǎng)絡是指:網(wǎng)絡中主體類型多種或者主體的關系類型多種。例如:商品推薦 網(wǎng)絡主體類型有用戶、商品等,主體關系類型有用戶購買商品、商品被用戶購買等;DBLP網(wǎng) 絡中主體類型有作者、會議、論文、關鍵詞,而主體的關系類型有作者發(fā)表論文、論文被會議 錄用、論文中包含有關鍵詞等。
[0032] 為了能夠?qū)崿F(xiàn)預測異構(gòu)社會網(wǎng)絡主體之間的社會關系,如圖1所示,本發(fā)明提供 了一種基于多源異構(gòu)網(wǎng)絡主體間社會關系的預測方法,主要包括以下步驟:
[0033] 對于網(wǎng)絡G= (V,E),其中V表示網(wǎng)絡中所有主體(用戶)集合,E表示所有主體 間存在的鏈接關系集合。定義三種鏈接關系的動作特征:創(chuàng)建(e)、保留(c)、取消(r),并 分別初始化e,c,r為-1、-0. 5、2,表示在不同時間片中網(wǎng)絡主體(用戶)之間鏈接關系的 動作狀態(tài)。
[0034] 如采用E(〇、C(*)、R(·)記錄主體(用戶)之間鏈接關系的動作狀態(tài)結(jié)果,則 E(u,V,k),C(u,V,k),R(u,V,k)分別表示時間片k內(nèi)主體(用戶)之間的創(chuàng)建、保留、取消 鏈接關系的動作狀態(tài)結(jié)果。其時序特征的形式化表達如下:
[0035]
【權利要求】
1. 一種多源異構(gòu)網(wǎng)絡中社會關系的預測方法,其特征在于,所述方法包括如下步驟: (1)對網(wǎng)絡G= (V,E)按照相等的時間片長度分別進行劃分,分成n個時間片快照,整個網(wǎng) 絡表示為G= (m...,!;);其中對于網(wǎng)絡G= (V,E),其中V表示網(wǎng)絡中所有主體(用 戶)集合,E表示所有主體間存在的鏈接關系集合; (2)統(tǒng)計兩兩主體的時序動作特征向量Edge_Vector( ?),并對主體的時序特征向量 Edge_Vector(*)內(nèi)所有元素求和,從而得到主體間的鏈接關系的時序權重w(u,v); (3) 分別對異構(gòu)網(wǎng)絡&= (Vs,Es)、Gt= (Vt,Et)采用步驟⑴⑵的方法獲得網(wǎng)絡主 體之間的時序權重ws、wt,通過計算Gs、Gt中重疊的用戶即同時存在于兩個網(wǎng)絡中的主體V, vGVs且vGVt,從而將Gs、Gt網(wǎng)絡組合成Gnew; (4)以最小路徑權重和為原則米用最短路徑Di jkstra算法,計算網(wǎng)絡Gnew中主體 間的最短時序權重路徑;根據(jù)最短時序權重路徑所屬的鏈接關系從而構(gòu)成最短關系路徑 Shortest_Relation-Path ; (5) 預測異構(gòu)網(wǎng)絡GnOT中主體之間潛在的社會關系概率,根據(jù)已知的異構(gòu)網(wǎng)絡GM中的 主體u和主體v之間的最短關系路徑Shortest_Relation_Path(u,v)=況,R2,…,札),采 用HeteFlow方法計算u和v間社會關系的概率; (6) 基于給定閾值S判斷異構(gòu)網(wǎng)絡主體u和v之間的社會關系,主體u和v之間的社 會關系概率大于設定閾值S,則存在關系,否則不存在關系。
2. 如權利要求1所述的方法,其特征在于,所述步驟(1)中定義的三種鏈接關系的動作 特征具體為: 創(chuàng)建(e)、保留(c)、取消(r),并分別初始化e,c,i為_1、-0.5、2,用于表示在不同時間 片中網(wǎng)絡主體之間鏈接關系的動作狀態(tài); 采用E( ?)、(:(?)、!?(?)記錄主體之間鏈接關系的動作狀態(tài)結(jié)果,則E(u,v,k),C(u,v,k),R(u,v,k)分別表示時間片k內(nèi)主體(用戶)之間的創(chuàng)建、保留、取消鏈接關系的 動作狀態(tài)結(jié)果;其時序特征的形式化表達如下:
3. 如權利要求1或2所述的方法,其特征在于,所述步驟(2)具體包括如下子步驟: (2-1)統(tǒng)計網(wǎng)絡G中任意兩主體之間的鏈接關系在n個時間片內(nèi)所有的動作狀態(tài)集合, 即時序動作特征向量Edge_Vector(*); (2-2)將主體的時序特征向量Edge_Vector(〇中所有元素求和得到主體間鏈接關 系的時序權重w(u,v);對于時序特征向量Edge_Vector(u,v)中的第k個向量元素Edge_ Vector(u,v) [k],具體采用如下的公式計算時序權重:
4. 如權利要求1或2所述的方法,其特征在于,所述步驟(4)具體包括如下子步驟: (4-1)初始化主體u到主體集合V中任意主體k的路徑權重weight為極大值,將主體 集合V中任意主體k的先前主體prev(k)設置為空,源主體u路徑權重weight的初始值為 〇 ; (4-2)將集合V中所有主體的路徑權重值存放在優(yōu)先隊列H內(nèi),并按路徑權重值大小 排列;只要優(yōu)先隊列H不為空,則首先查找最小的路徑權重節(jié)點p,并從優(yōu)先隊列H中刪除 該主體P及其路徑權重weight;然后在鏈接關系集合E中,對于與主體p有鏈接關系的所 有主體q,計算主體p的路徑權重與時序權重路徑w(p,q)之和;并將該和與主體q的路徑 權重比較大?。蝗魞?yōu)先隊列H中主體q的路徑權重略高,則采用主體p的路徑權重與時序權 重路徑w(p,q)之和進行替換;然后重置主體q的先前主體為P,并更新優(yōu)先隊列H中主體q 的路徑權重;如此循環(huán)迭代優(yōu)先隊列H為空; (4-3)從目標主體v開始,使用先前主體方法獲取主體v的先前主體k;如果先前主體k不是源主體u,則將主體k與v的鏈接關系類型R保存到關系路徑矩陣Shortest_Relation_ Path;并將主體k設置為目標主體v,再根據(jù)先前主體方法更新先前主體k,如此逆序向前 直到找到源主體u循環(huán)停止;否則直接將主體u和v之間的鏈接關系類型保存到關系路徑 Shortest_Relation_Path中。
5. 如權利要求1或2所述的方法,其特征在于,所述步驟(5)具體包括如下子步驟: (5-1)采用寬度搜索的方式,結(jié)合影響最大化中加權級聯(lián)的方法,獲取主體u對其鄰居 V的影響概率flow(u,v),將主體u的信息值score(u)、主體u和v的時序權重w(u,v)及主 體u的度d(u)作為輸入,計算出主體u到v的影響概率flow(u,v);其具體公式描述為:
(5-2)根據(jù)主體節(jié)點u及主體u和v之間的最短關系路徑向量Shortest_Relation_Path(u,v),查找關系路徑Shortest_Relation_Path(u,v)中的第一個鏈接關系類型R1;然 后計算出以&為鏈接關系類型并從主體u出發(fā)的出度OOilRi);再統(tǒng)計出所有從主體u出 發(fā)并經(jīng)過&鏈接關系類型而到達的主體節(jié)點集合P= {Pl,P2,...Pm};最后計算從主體u到 集合P中任一主體Pi的影響概率值flow(u,pi); (5-3)根據(jù)主體節(jié)點v及主體u和v之間的最短關系路徑向量Shortest_Relation_Path(u,v),查找關系路徑Shortest_Relation_Path(u,v)中的最后一個鏈接關系類型R1; 然后計算出以&為鏈接關系類型并到達主體v的入度I(v|R〇 ;再以&鏈接關系類型統(tǒng)計 出所有到達主體v的主體節(jié)點集合Q={qpq2,. . .qk};最后計算出從Q內(nèi)任一主體q』到主 體v的影響概率值flow(q』,V); (5-4)采用步驟(5-2)獲得主體u到集合P中任一主體Pi的影響概率值flow(u,pJ; 采用步驟(5-3)得到Q內(nèi)任一主體qj到主體v的影響概率值flow(q』,v);并將影響概率 flow(u,pD、flow(qj,v)求和;判斷主體口1與q』是否相同,相同則表示主體p1與q』為同一 主體節(jié)點,跳轉(zhuǎn)到步驟(6); (5-5)將主體u重置為主體Pi,主體v重置為主體%重復步驟(5-2);具體公式為:
6. -種多源異構(gòu)網(wǎng)絡中社會關系的預測系統(tǒng),其特征在于,所述系統(tǒng)包括網(wǎng)絡劃分模 塊、時序權重計算模塊、網(wǎng)絡組合模塊、最短路徑計算模塊、社會關系概率計算模塊以及社 會關系預測模塊,其中:所述網(wǎng)絡劃分模塊,用于對網(wǎng)絡G= (V,E)按照相等的時間片長度 分別進行劃分,分成n個時間片快照,整個網(wǎng)絡表示為G= {m...,!;};其中對于網(wǎng) 絡G= (V,E),其中V表示網(wǎng)絡中所有主體(用戶)集合,E表示所有主體間存在的鏈接關 系集合; 所述時序權重計算模塊,用于統(tǒng)計兩兩主體的時序動作特征向量Edge_Vector(?),并 對主體的時序特征向量Edge_Vector(?)內(nèi)所有元素求和,從而得到主體間的鏈接關系的 時序權重w(u,v); 所述網(wǎng)絡組合模塊,用于分別對異構(gòu)網(wǎng)絡&= (Vs,Es)、Gt= (Vt,Et)采用網(wǎng)絡劃分模 塊及時序權重計算模塊獲得網(wǎng)絡主體之間的時序權重ws、wt,通過計算Gs、Gt中重疊的用戶 即同時存在于兩個網(wǎng)絡中的主體v,vG入且vGVt,從而將Gs、Gt網(wǎng)絡組合成Gn"; 所述最短路徑計算模塊,用于以最小路徑權重和為原則采用最短路徑Dijkstra算法, 計算網(wǎng)絡GnOT中主體間的最短時序權重路徑;根據(jù)最短時序權重路徑所屬的鏈接關系從而 構(gòu)成最短關系路徑Shortest_Relation_Path ; 所述社會關系概率計算模塊,用于預測異構(gòu)網(wǎng)絡GnOT中主體之間潛在的社會關系概率, 根據(jù)已知的異構(gòu)網(wǎng)絡Gnew中的主體u和主體v之間的最短關系路徑Shortest_Relation_ Path (u, v)=況,R2,? ? ?,札),采用HeteFlow方法計算u和v間社會關系的概率; 所述社會關系預測模塊,用于基于給定閾值S判斷異構(gòu)網(wǎng)絡主體u和v之間的社會關 系,主體u和v之間的社會關系概率大于設定閾值S,則存在關系,否則不存在關系。
7. 如權利要求6所述的系統(tǒng),其特征在于,所述網(wǎng)絡劃分模塊中定義的三種鏈接關系 的動作特征具體為: 創(chuàng)建(e)、保留(c)、取消(r),并分別初始化e,c,i為_1、-0.5、2,用于表示在不同時間 片中網(wǎng)絡主體之間鏈接關系的動作狀態(tài); 采用E( ?)、(:(?)、!?(?)記錄主體之間鏈接關系的動作狀態(tài)結(jié)果,則E(u,v,k),C(u,v,k),R(u,v,k)分別表示時間片k內(nèi)主體(用戶)之間的創(chuàng)建、保留、取消鏈接關系的 動作狀態(tài)結(jié)果;其時序特征的形式化表達如下:
8. 如權利要求6或7所述的系統(tǒng),其特征在于,所述時序權重計算模塊具體包括時序動 作特征向量統(tǒng)計子模塊和時序權重計算子模塊,其中: 所述時序動作特征向量統(tǒng)計子模塊,用于統(tǒng)計網(wǎng)絡G中任意兩主體之間的鏈接關系在n個時間片內(nèi)所有的動作狀態(tài)集合,即時序動作特征向量Edge_Vector( ?); 所述時序權重計算子模塊,用于將主體的時序特征向量Edge_Vector( ?)中所有元素 求和得到主體間鏈接關系的時序權重w(u,v);對于時序特征向量Edge_Vector(u,v)中的 第k個向量元素Edge_Vector(u,v) [k],具體采用如下的公式計算時序權重:
9. 如權利要求6或7所述的系統(tǒng),其特征在于,所述最短路徑計算模塊具體包括權重值 初始化子模塊、路徑權重計算子模塊以及最短路徑生成子模塊,其中: 權重值初始化子模塊,用于初始化主體u到主體集合V中任意主體k的路徑權重weight為極大值,將主體集合V中任意主體k的先前主體prev(k)設置為空,源主體u路徑 權重weight的初始值為0 ; 所述路徑權重計算子模塊,用于將集合V中所有主體的路徑權重值存放在優(yōu)先隊列H內(nèi),并按路徑權重值大小排列;只要優(yōu)先隊列H不為空,則首先查找最小的路徑權重節(jié)點p, 并從優(yōu)先隊列H中刪除該主體p及其路徑權重weight;然后在鏈接關系集合E中,對于與 主體P有鏈接關系的所有主體q,計算主體P的路徑權重與時序權重路徑w(p,q)之和;并 將該和與主體q的路徑權重比較大??;若優(yōu)先隊列H中主體q的路徑權重略高,則采用主體 P的路徑權重與時序權重路徑w(p,q)之和進行替換;然后重置主體q的先前主體為p,并更 新優(yōu)先隊列H中主體q的路徑權重;如此循環(huán)迭代優(yōu)先隊列H為空; 所述最短路徑生成子模塊,用于從目標主體v開始,使用先前主體方法獲取主體v的先 前主體k;如果先前主體k不是源主體u,則將主體k與v的鏈接關系類型R保存到關系路 徑矩陣Shortest_Relation_Path;并將主體k設置為目標主體V,再根據(jù)先前主體方法更新 先前主體k,如此逆序向前直到找到源主體u循環(huán)停止;否則直接將主體u和v之間的鏈接 關系類型保存到關系路徑Shortest_Relation_Path中。
10. 如權利要求6或7所述的系統(tǒng),其特征在于,所述步驟社會關系概率計算模塊具體 包括影響概率計算子模塊、第一路徑影響概率值計算子模塊、第二路徑影響概率值計算子 模塊、相同主體判斷子模塊以及迭代計算子模塊,其中: 所述影響概率計算子模塊,用于采用寬度搜索的方式,結(jié)合影響最大化中加權級聯(lián)的 方法,獲取主體u對其鄰居v的影響概率flow(u,v),將主體u的信息值score(u)、主體 u和v的時序權重w(u,v)及主體u的度d(u)作為輸入,計算出主體u到v的影響概率 f low(u,v);其具體公式描述為:
所述第一路徑影響概率值計算子模塊,用于根據(jù)主體節(jié)點U及主體U和V之間的最 短關系路徑向量Shortest_Relation_Path(u,v),查找關系路徑Shortest_Relation_ Path(u,v)中的第一個鏈接關系類型R1;然后計算出以Ri為鏈接關系類型并從主體u出發(fā) 的出度OOilRi);再統(tǒng)計出所有從主體u出發(fā)并經(jīng)過&鏈接關系類型而到達的主體節(jié)點集 合?={口14 2,..4!£};最后計算從主體11到集合?中任一主體口1的影響概率值;^0¥(11,口) ; 所述第二路徑影響概率值計算子模塊,用于根據(jù)主體節(jié)點V及主體U和V之間的最 短關系路徑向量Shortest_Relation_Path(u,v),查找關系路徑Shortest_Relation_ Path(u,v)中的最后一個鏈接關系類型R1;然后計算出以L為鏈接關系類型并到達主 體v的入度I(v|Ri);再以札鏈接關系類型統(tǒng)計出所有到達主體v的主體節(jié)點集合Q= {qpq2, . . .qk};最后計算出從Q內(nèi)任一主體q』到主體v的影響概率值flow(q』,V); 所述相同主體判斷子模塊,用于利用第一路徑影響概率值計算子模塊獲得主體u到集 合P中任一主體Pi的影響概率值flow(u,pi),以及第二路徑影響概率值計算子模塊獲得Q 內(nèi)任一主體q」到主體v的影響概率值flow(q」,V);并將影響概率flow(u,pD、flow(q」,V) 求和;判斷主體?1與q」是否相同,相同則表示主體P1與q」為同一主體節(jié)點,跳轉(zhuǎn)到所述社 會關系預測模塊; 所述迭代計算子模塊,用于將主體u重置為主體Pi,主體v重置為主體%并轉(zhuǎn)第一路 徑影響概率值計算子模塊;具體公式為:
【文檔編號】G06F17/30GK104484365SQ201410734192
【公開日】2015年4月1日 申請日期:2014年12月5日 優(yōu)先權日:2014年12月5日
【發(fā)明者】金海 , 余辰, 李瑞丹, 姚德中 申請人:華中科技大學