專利名稱:一種基于譜優(yōu)化的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及軟件安全工程技術(shù)領(lǐng)域;特別是涉及軟件安全需求分析方法。
背景技術(shù):
隨著近些年復(fù)雜網(wǎng)絡(luò)的發(fā)展,尤其是社交網(wǎng)絡(luò)的發(fā)展,在網(wǎng)絡(luò)中進(jìn)行社區(qū)發(fā)現(xiàn)的需求越來越受到人們的關(guān)注。現(xiàn)在,復(fù)雜網(wǎng)絡(luò)的體積不斷擴(kuò)大,混合度不斷上升,網(wǎng)絡(luò)中的社區(qū)個數(shù)不易確定,社區(qū)不平衡性問題也顯現(xiàn)出來。以前人們提出了一些模型,可有效識別復(fù)雜網(wǎng)絡(luò)中的社區(qū),但算法的復(fù)雜度依然很高。例如,經(jīng)典社區(qū)發(fā)現(xiàn)算法Girvan-Newman迭代一次的時間復(fù)雜度為0(n2m),其中n為節(jié)點(diǎn)數(shù)量,m為邊數(shù)量。所以有必要在保證結(jié)果準(zhǔn)確度的基礎(chǔ)上,有效降低復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法的時間復(fù)雜度。本模型研究對象是對無向無權(quán)圖提出一個有效的分割算法,叫譜優(yōu)化社區(qū)發(fā)現(xiàn)算法,該算法也可以用于有權(quán)圖中。
發(fā)明內(nèi)容
基于上述現(xiàn)有技術(shù)存在的問題,本發(fā)明提出了一種基于譜優(yōu)化的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,采取啟發(fā)式策略對邊中心性進(jìn)行測量,選擇中心性高的邊作為候選邊,然后進(jìn)行網(wǎng)絡(luò)連通性優(yōu)化,從候選邊集中選擇出k條對網(wǎng)絡(luò)連通性影響最大的邊作為刪除邊。這樣可有效降低算法的時間復(fù)雜度,同時保持很高的準(zhǔn)確性。為了避免過度分割,利用社區(qū)模塊系數(shù)(Modularity)作為算法終止條件。其有效降低算法復(fù)雜度并保持與Girvan Newman相同的分表I]效果。本發(fā)明提供一種基于譜優(yōu)化的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,該方法包括以下步驟首先,將復(fù)雜網(wǎng)絡(luò)存儲于圖數(shù)據(jù)結(jié)構(gòu)中,表示為復(fù)雜網(wǎng)絡(luò)圖G= (V,E),其中V表示復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)集,E表示復(fù)雜網(wǎng)絡(luò)邊集;并且,將復(fù)雜網(wǎng)絡(luò)圖G表示為拉普拉斯矩陣L,利用拉普拉斯矩陣的第二小特征值對整個復(fù)雜網(wǎng)絡(luò)進(jìn)行二分處理,得到G1=(V,El)和G2=(V,E2)兩個子網(wǎng)絡(luò);然后,利用矩陣L的第二特征向量最小化RatioCut近似求得X2(L(x)),公式如下X1 (Z) = min J 1 fV\
"V ) 1丄[I', Y J復(fù)雜網(wǎng)絡(luò)圖G的拉普拉斯矩陣的第二小特征值\ 2被定義為代數(shù)連通性,通過Gossip算法近似計(jì)算代數(shù)連通性函數(shù),有效降低時間復(fù)雜度通過模型從復(fù)雜網(wǎng)絡(luò)邊集E中選擇k條對代數(shù)連通性影響最大的邊Erat,假設(shè)Erat G E。被定義為minimize A 2 (L (E-Ecut))subject to |Ecut| ^ k,Ecu, c E,計(jì)算復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)的中心性測度;根據(jù)中心性測度選出m。個候選刪除邊,通過刪邊學(xué)習(xí)器模型刪除k條邊;選擇k條對網(wǎng)絡(luò)代數(shù)連通性影響最大的邊,將上述優(yōu)化處理更、新為 X1 (/屮1)) = K1 (/⑷)+ ¢2 其中a k是第k步迭代次梯度方法的系數(shù),¥是次梯度;執(zhí)行譜優(yōu)化社區(qū)發(fā)現(xiàn)算法,具體包括以下步驟步驟一、計(jì)算復(fù)雜網(wǎng)絡(luò)G中每條邊的edge_betweenness值,選擇m。個為候選刪除邊;步驟二、運(yùn)行割邊學(xué)習(xí)模型,刪除k條邊后,計(jì)算更新后的復(fù)雜網(wǎng)絡(luò)Gn 的第二小特征值、2 (L (Gnew)),如果其值等于0則運(yùn)行步驟三,反之則返回運(yùn)行步驟一;步驟三、計(jì)算分割后全局模塊系數(shù)測度,如果其值上升則在該非連通子圖遞歸運(yùn)行下去,否則終止該分支算法。該方法在復(fù)雜網(wǎng)絡(luò)被分割為兩個非連通子圖之前,還包括以下步驟先采用譜優(yōu)化社區(qū)發(fā)現(xiàn)模型每次迭代通過割邊學(xué)習(xí)模型刪除k條邊,再計(jì)算出第二小特征值X2對應(yīng)的Fielder向量,該計(jì)算進(jìn)行Hi1次迭代后終止,其中rn^lOO ;然后用m個元素的最小堆選出m。個最大的元素。當(dāng)復(fù)雜社會網(wǎng)絡(luò)被分割為兩個非連通子圖時,算法遞歸在每個非連通子圖中執(zhí)行。與現(xiàn)有技術(shù)相比,本發(fā)明在保證結(jié)果準(zhǔn)確度的基礎(chǔ)上,有效降低復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法的時間復(fù)雜度。本模型研究對象是無向無權(quán)圖提出一個有效的分割算法,叫譜優(yōu)化社區(qū)發(fā)現(xiàn)算法,其可以用于有權(quán)圖中,該方法能有效降低算法復(fù)雜度并保持與GirvanNewman相同的分割效果。
圖I為將復(fù)雜網(wǎng)絡(luò)轉(zhuǎn)換的圖數(shù)據(jù)結(jié)構(gòu)示意圖;圖2為復(fù)雜網(wǎng)絡(luò)拉普拉斯矩陣的費(fèi)德勒向量分布示意圖;圖3為200節(jié)點(diǎn)虛擬網(wǎng)絡(luò)中分別實(shí)施NG算法與譜優(yōu)化社區(qū)發(fā)現(xiàn)模型Jaccard系數(shù)與互信息結(jié)果比較圖;圖4為500節(jié)點(diǎn)虛擬網(wǎng)絡(luò)分別實(shí)施NG算法與譜優(yōu)化社區(qū)發(fā)現(xiàn)模型Jaccard系數(shù)與互信息結(jié)果比較圖。
具體實(shí)施方式
鄰接矩陣形式以下結(jié)合附圖及較佳實(shí)施例,對依據(jù)本發(fā)明提供的具體實(shí)施方式
、結(jié)構(gòu)、特征及其功效,詳細(xì)說明如下。本發(fā)明采取啟發(fā)式策略對邊中心性進(jìn)行測量,選擇中心性高的邊作為候選邊,然后進(jìn)行網(wǎng)絡(luò)連通性優(yōu)化,從候選邊集中選擇出k條對網(wǎng)絡(luò)連通性影響最大的邊作為刪除邊。這樣可有效降低算法的時間復(fù)雜度,同時保持很高的準(zhǔn)確性。為了避免過度分割,利用社區(qū)模塊系數(shù)(Modularity)作為算法終止條件。I、拉普拉斯特征值的性質(zhì)及譜優(yōu)化割邊學(xué)習(xí)器如圖I所示,首先,將復(fù)雜網(wǎng)絡(luò)存儲于圖數(shù)據(jù)結(jié)構(gòu)中,G = (V,E)表示復(fù)雜網(wǎng)絡(luò),其中V表示復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)集,E表示復(fù)雜網(wǎng)絡(luò)邊集。節(jié)點(diǎn)個數(shù)為n,邊個數(shù)為m。連接節(jié)點(diǎn)i與j的邊用I表示,l(i,j)。B1 G Rn向量表示邊I,其中偽=I,與=-1,其余元素為O。復(fù)雜網(wǎng)絡(luò)圖G的關(guān)聯(lián)矩陣Anxm的每維列向量由B1組成。G的拉普拉斯矩陣公式化,如公式I所示
權(quán)利要求
1.一種基于譜優(yōu)化的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,該方法包括以下步驟 首先,將復(fù)雜網(wǎng)絡(luò)存儲于圖數(shù)據(jù)結(jié)構(gòu)中,表示為復(fù)雜網(wǎng)絡(luò)圖G= (V,E),其中V表示復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)集,E表示復(fù)雜網(wǎng)絡(luò)邊集;并且,將復(fù)雜網(wǎng)絡(luò)圖G表示為拉普拉斯矩陣L,利用拉普拉斯矩陣的第二小特征值對整個復(fù)雜網(wǎng)絡(luò)進(jìn)行二分處理,得到G1=(V,El)和G2=(V,E2)兩個非連通子網(wǎng)絡(luò); 然后,利用矩陣L的第二特征向量最小化RatioCut近似求得λ 2(L(x)),公式如下 復(fù)雜網(wǎng)絡(luò)圖G的拉普拉斯矩陣的第二小特征值λ 2被定義為代數(shù)連通性, 通過Gossip算法近似計(jì)算代數(shù)連通性函數(shù),有效降低時間復(fù)雜度通過模型從復(fù)雜網(wǎng)絡(luò)邊集E中選擇k條對代數(shù)連通性影響最大的邊Erat,假設(shè)Erat e E。被定義為minimize 入 2 (L (E-Ecut))subject to I Ecut I ミ k, J^cut Cl 計(jì)算復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)的中心性測度;根據(jù)中心性測度選出m。個候選刪除邊,通過刪邊學(xué)習(xí)器模型刪除k條邊;選擇k條對網(wǎng)絡(luò)代數(shù)連通性影響最大的邊,將上述優(yōu)化處理更新為4(/( +1)) = λ2(/( ))+ ν 其中ak是第k步迭代次梯度方法的系數(shù),是次梯度; 執(zhí)行譜優(yōu)化社區(qū)發(fā)現(xiàn)算法,具體包括以下步驟 步驟一、計(jì)算復(fù)雜網(wǎng)絡(luò)G中姆條邊的edge_betweenness值,選擇m。個為候選刪除邊;步驟ニ、運(yùn)行割邊學(xué)習(xí)模型,刪除k條邊后,計(jì)算更新后的復(fù)雜網(wǎng)絡(luò)Gn 的第二小特征值λ 2 (L (Gnew)),如果其值等于O則運(yùn)行步驟三,反之則返回運(yùn)行步驟ー; 步驟三、計(jì)算分割后全局模塊系數(shù)測度,如果其值上升則在該非連通子圖遞歸運(yùn)行下去,否則終止該分支算法。
2.如權(quán)利要求I所述的基于譜優(yōu)化的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,該方法在復(fù)雜社會網(wǎng)絡(luò)被分割為兩個非連通子圖之前,還包括以下步驟 先采用譜優(yōu)化社區(qū)發(fā)現(xiàn)模型每次迭代通過割邊學(xué)習(xí)模型刪除k條邊,再計(jì)算出第二小特征值λ2對應(yīng)的Fielder向量,該計(jì)算進(jìn)行Hi1次迭代后終止,其中ι ,ΙΟΟ ;然后用m個元素的最小堆選出m。個最大的元素。
3.如權(quán)利要求I所述的基于譜優(yōu)化的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,其特征在于,該方法當(dāng)復(fù)雜社會網(wǎng)絡(luò)被分割為兩個非連通子圖時,算法遞歸在每個非連通子圖中執(zhí)行。
全文摘要
本發(fā)明公開了一種基于譜優(yōu)化的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,首先,將復(fù)雜網(wǎng)絡(luò)存儲于圖數(shù)據(jù)結(jié)構(gòu)中,對整個復(fù)雜網(wǎng)絡(luò)進(jìn)行二分處理,得到兩個非連通子網(wǎng)絡(luò);復(fù)雜網(wǎng)絡(luò)圖G的拉普拉斯矩陣的第二小特征值λ2被定義為代數(shù)連通性,通過Gossip算法近似計(jì)算代數(shù)連通性函數(shù),有效降低時間復(fù)雜度通過模型從復(fù)雜網(wǎng)絡(luò)邊集E中選擇k條對代數(shù)連通性影響最大的邊Ecut,計(jì)算復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)的中心性測度;根據(jù)中心性測度選出mc個候選刪除邊,通過刪邊學(xué)習(xí)器模型刪除k條邊;選擇k條對網(wǎng)絡(luò)代數(shù)連通性影響最大的邊,對前面處理進(jìn)一步優(yōu)化;以及,執(zhí)行譜優(yōu)化社區(qū)發(fā)現(xiàn)算法。與現(xiàn)有技術(shù)相比,本發(fā)明在保證結(jié)果準(zhǔn)確度的基礎(chǔ)上有效降低復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法的時間復(fù)雜度。
文檔編號G06F21/00GK102708327SQ20121019217
公開日2012年10月3日 申請日期2012年6月12日 優(yōu)先權(quán)日2012年6月12日
發(fā)明者孫越恒, 張爍, 李競飛 申請人:天津大學(xué)