本發(fā)明涉及鏈路預測和數(shù)據(jù)挖掘領域,特別是涉及基于網(wǎng)絡節(jié)點相似性的連邊權(quán)值預測方法。
背景技術:
現(xiàn)實中很多系統(tǒng)都能抽象為復雜網(wǎng)絡的模型,系統(tǒng)內(nèi)的個體對象抽象為節(jié)點,個體與個體之間的關系抽象為連邊,比如社交網(wǎng)絡,蛋白質(zhì)相互作用網(wǎng)絡,電力網(wǎng)絡等。其中,網(wǎng)絡連邊作為連接個體對象之間的橋梁,對揭示網(wǎng)絡結(jié)構(gòu)有重要的作用?,F(xiàn)實中很多網(wǎng)絡的連邊是帶有權(quán)值的,這些連邊權(quán)值都具有明確的物理意義。由于種種原因,部分網(wǎng)絡連邊權(quán)值可能缺失,特別是當缺失的權(quán)值包含有重要的網(wǎng)絡結(jié)構(gòu)信息時,對這些權(quán)值的預測就顯得很關鍵。
技術實現(xiàn)要素:
為了克服現(xiàn)有網(wǎng)絡連邊權(quán)值缺失導致的模型預測結(jié)果較差的不足,本發(fā)明將利用網(wǎng)絡節(jié)點相似性,采用多元線性回歸模型預測缺失的連邊權(quán)值,提供一種模型預測結(jié)果較好的基于無向網(wǎng)絡節(jié)點相似性的連邊權(quán)值預測方法,本發(fā)明涉及的是無向網(wǎng)絡的權(quán)值預測。
本發(fā)明解決其技術問題所采用的技術方案如下:
一種基于網(wǎng)絡節(jié)點相似性的連邊權(quán)值預測方法,包括以下步驟:
s1:利用已有的無向網(wǎng)絡結(jié)構(gòu)數(shù)據(jù)集,其中包含網(wǎng)絡節(jié)點與節(jié)點之間的連邊權(quán)值,構(gòu)建無向網(wǎng)絡圖g=(v,e);
s2:根據(jù)圖g=(v,e),利用鏈路預測中的節(jié)點相似性理論,分別計算出如下三類特征:局部相似性指標、全局相似性指標和半局部相似性指標,其中,局部相似性指標包括共同鄰居cn、salton指標、jaccard指標、sφrensen指標、大度節(jié)點有利指標hpi、大度節(jié)點不利指標hdi、lhn-i指標、優(yōu)先鏈接指標pa、adamic-adar指標aa和資源分配指標ra;全局相似性指標包括katz指標、lhn-ii指標、平均通勤時間act、基于隨機游走的余弦相似性cos+、帶重啟的隨機游走rwr、simrank指標simr和矩陣森林指標mfi;半局部相似性指標包括局部路徑指標lp、局部隨機游走指標lrw和疊加的局部隨機游走指標srw;
s3:根據(jù)十折交叉驗證方法,將數(shù)據(jù)集中的網(wǎng)絡連邊權(quán)值平均劃分為十份,其中的九份作為訓練集,剩下的一份的作為測試集;根據(jù)s2中計算出的特征,用r語言進行多元線性回歸分析,最后根據(jù)擬合的結(jié)果與原始數(shù)據(jù)得到如下評價指標:皮爾森相關系數(shù)和均方根值。
本發(fā)明的有益效果為:利用節(jié)點相似性,采用多元線性回歸模型預測缺失的連邊權(quán)值,模型簡單,預測結(jié)果較好。
附圖說明
圖1為本發(fā)明實例中結(jié)合節(jié)點相似性的無向網(wǎng)絡連邊預測方法的流程圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明做進一步說明。
參照圖1,一種基于節(jié)點相似性的無向網(wǎng)絡連邊權(quán)值預測方法,包括以下步驟:
s1:利用已有的線蟲的神經(jīng)網(wǎng)絡(c.elegans)數(shù)據(jù)集,其中節(jié)點表示線蟲的神經(jīng)元,邊表示神經(jīng)元突觸或者間隙連接,構(gòu)建無向網(wǎng)絡圖g=(v,e);
s2:圖g的鄰接矩陣a=(aij)n×n,i,j∈{1,2,...,n},
其中:
根據(jù)鄰接矩陣a,分別計算如下相似性指標:
1)共同鄰居cn:
其中|q|表示集合q的元素個數(shù),γ(x)定義為節(jié)點x的鄰居節(jié)點集合,
2)salton指標:
其中kx表示x的度值;
3)jaccard指標:
4)sφrensen指標:
5)大度節(jié)點有利指標hpi:
6)大度節(jié)點不利指標hdi:
7)lhn-i指標:
8)優(yōu)先鏈接指標pa:
9)adamic-adar指標aa:
10)資源分配指標(ra):
11)katz指標:
skatz=(i-βa)-1-i
其中,i為單位矩陣,參數(shù)β的值必須小于鄰接矩陣a的最大特征值λ1的倒數(shù)以保證矩陣收斂;
12)lhn-ii指標:
其中,δxy是kronecker函數(shù),當x=y(tǒng)時δxy=1,否則,δxy=0,d為無向網(wǎng)絡圖g的度矩陣,即dij=kiδij,kx表示x的度值,φ為可調(diào)參數(shù),其值范圍為(0,1),λ1是鄰接矩陣a的最大特征值,m為網(wǎng)絡的總邊數(shù);
13)平均通勤時間act:
其中,網(wǎng)絡g的拉普拉斯矩陣l(l=d-a)的偽逆為l+,
14)基于隨機游走的余弦相似性cos+:
15)帶重啟的隨機游走rwr:
其中,
元素πxy表示為從節(jié)點x出發(fā)的粒子最終有多少概率走到節(jié)點y,(1-c)為粒子返回概率,p為網(wǎng)絡的馬爾可夫概率轉(zhuǎn)移矩陣,其元素pxy表示節(jié)點x處的粒子下一步走到節(jié)點y的概率;
16)simrank指標simr:
其中sxx=1,c∈[0,1]為相似性傳遞時的衰減參數(shù);
17)矩陣森林指標mfi:
smfi=(i+αl)-1,α>0
其中,網(wǎng)絡g的拉普拉斯矩陣為l(l=d-a),i為單位矩陣;
18)局部路徑指標lp:
slp=a2+εa3
其中ε的參數(shù)值是任意的,當其值為0時,lp等價于cn;
19)局部隨機游走指標lrw:
其中,節(jié)點x的初始資源分布為qx,
20)疊加的局部隨機游走指標srw:
s3:根據(jù)十折交叉驗證方法,將數(shù)據(jù)集中的網(wǎng)絡連邊權(quán)值平均劃分為十份,其中的九份作為訓練集,剩下的一份的作為測試集;根據(jù)s2中計算出的特征,用r語言進行多元線性回歸分析,得到測試集擬合的結(jié)果,并與原始數(shù)據(jù)比較得到如下評價指標:皮爾森相關系數(shù)和均方根值,本發(fā)明模型簡單并能得到良好的預測結(jié)果。
如上所述為本發(fā)明在無向網(wǎng)絡圖中連邊權(quán)值預測方法的實例介紹,本發(fā)明結(jié)合網(wǎng)絡節(jié)點相似性并用多元線性回歸模型分析,最終的預測結(jié)果較好,達到了實際使用的要求。對發(fā)明而言僅僅是說明性的,而非限制性的。本專業(yè)技術人員理解,在發(fā)明權(quán)利要求所限定的精神和范圍內(nèi)可對其進行許多改變,修改,甚至等效,但都將落入本發(fā)明的保護范圍內(nèi)。