1.一種在線社會網(wǎng)絡(luò)多尺度社區(qū)發(fā)現(xiàn)方法,其特征在于,包括如下步驟:
1)基于連接密度與連接模式的大尺度網(wǎng)絡(luò)的粗化
基于貪婪的-階結(jié)點(diǎn)合并算法,將輸入的大尺度網(wǎng)絡(luò)通過逐層粗化的方式得到粗化網(wǎng)絡(luò)其中L表示粗化的最大層數(shù);
2)粗化網(wǎng)絡(luò)上的社區(qū)發(fā)現(xiàn)初始化
基于NMM算法對最上層的粗化網(wǎng)絡(luò)進(jìn)行社區(qū)發(fā)現(xiàn)初始化,得到粗略的社區(qū)發(fā)現(xiàn)結(jié)果QL;
3)考慮光滑性假設(shè)的社區(qū)發(fā)現(xiàn)
將得到的社區(qū)發(fā)現(xiàn)初始結(jié)果QL通過逐層計算,得到大尺度輸入網(wǎng)絡(luò)上的社區(qū)檢測結(jié)果Q0。
2.根據(jù)權(quán)利要求1所述在線社會網(wǎng)絡(luò)多尺度社區(qū)發(fā)現(xiàn)方法,其特征在于,所述步驟1)中,在網(wǎng)絡(luò)粗化過程中,采用階合并策略:在一次粗化過程中,對于中的每一個超節(jié)點(diǎn)由中不超過個節(jié)點(diǎn)結(jié)合而成,相當(dāng)于一個上界;另一方面,本質(zhì)上也是粗化速率和整體算法精度的一個權(quán)衡。
3.根據(jù)權(quán)利要求2所述在線社會網(wǎng)絡(luò)多尺度社區(qū)發(fā)現(xiàn)方法,其特征在于,所述步驟1)中,給定網(wǎng)絡(luò)按如下步驟進(jìn)行粗化:
step1:隨機(jī)選取沒有合并過的結(jié)點(diǎn)v,以v為初始節(jié)點(diǎn)構(gòu)建結(jié)點(diǎn)集合
step2:從v的鄰域結(jié)點(diǎn)中隨機(jī)選擇結(jié)點(diǎn)u,若Sim(u,U)>δ,δ為提前設(shè)定的閾值,則根據(jù)此做法不斷擴(kuò)充直到或者結(jié)點(diǎn)v的鄰域集合被選擇完畢,則終止的合并,將其用中的超結(jié)點(diǎn)代表;
step3:重新跳至step1,或者所有結(jié)點(diǎn)均被合并完畢,則跳至下一步;
step4:合并中的邊及權(quán)重,形成中的邊及權(quán)重,對于超結(jié)點(diǎn)和分別對應(yīng)于結(jié)點(diǎn)集合和則其中,分別表示中節(jié)點(diǎn)到的邊的權(quán)值以及中節(jié)點(diǎn)到的邊的權(quán)值;
Sim(u,U)定義為結(jié)合連接密度和連接模式的相似度:
其中,
表示基于連接模式的結(jié)點(diǎn)v和結(jié)點(diǎn)集合U之間的相似度;
表示基于連接密度的結(jié)點(diǎn)v和結(jié)點(diǎn)集合U之間的相似度;
⊕是操作符號,表示取最大值、取幾何平均值或者取算術(shù)平均值;
進(jìn)一步地:
PairSimc(v,u)表示基于連接模式的結(jié)點(diǎn)v和結(jié)點(diǎn)u之間的相似度,參照公式PairSimc(vi,vj)=sig(cos(∠(pi,pj)))進(jìn)行計算,sig(·)表示sigmoid函數(shù),將相似度映射至(0,1)范圍內(nèi),令n表示網(wǎng)絡(luò)中的節(jié)點(diǎn)總量,pi=(βi,j)n×1,反映了結(jié)點(diǎn)vi與網(wǎng)絡(luò)內(nèi)所有結(jié)點(diǎn)的連接規(guī)律,表示連接模式,反映結(jié)點(diǎn)vi與結(jié)點(diǎn)vj之間的連接規(guī)律,其中wij表示節(jié)點(diǎn)vi到vj的邊的權(quán)值,表示節(jié)點(diǎn)vi的出度;
表示兩端結(jié)點(diǎn)均在內(nèi)部的邊的集合,表示只有一端結(jié)點(diǎn)在內(nèi)部的邊的集合,
4.根據(jù)權(quán)利要求1所述在線社會網(wǎng)絡(luò)多尺度社區(qū)發(fā)現(xiàn)方法,其特征在于,所述步驟2)中,基于NMM算法對最上層的粗化網(wǎng)絡(luò)進(jìn)行社區(qū)發(fā)現(xiàn)初始化的過程如下:
給定其中和εL分別表示所有節(jié)點(diǎn)、邊的集合,表示節(jié)點(diǎn)之間的連接矩陣;
定義為節(jié)點(diǎn)所屬的社區(qū)標(biāo)簽,為社區(qū)g中節(jié)點(diǎn)數(shù)量所占的比例,或隨機(jī)選取的一個節(jié)點(diǎn)隸屬于社區(qū)g的概率;為社區(qū)g中任意節(jié)點(diǎn)有邊連接到節(jié)點(diǎn)j的概率,且滿足其中C為社團(tuán)數(shù)目,n為結(jié)點(diǎn)數(shù)目,gL、πL和θL分別表示集合和上的社區(qū)檢測問題轉(zhuǎn)化為優(yōu)化如下概率函數(shù):
采用期望最大化算法進(jìn)行推理,按照如下推理公式進(jìn)行迭代計算,得到最終結(jié)果:
其中,是結(jié)點(diǎn)的出度,表示結(jié)點(diǎn)的社區(qū)標(biāo)簽向量,表示網(wǎng)絡(luò)上的社區(qū)檢測結(jié)果,c是第c個社區(qū),C是總社區(qū)數(shù)目,s是第s個社區(qū)。
5.根據(jù)權(quán)利要求1所述在線社會網(wǎng)絡(luò)多尺度社區(qū)發(fā)現(xiàn)方法,其特征在于,所述步驟3)中,將得到的社區(qū)發(fā)現(xiàn)初始結(jié)果QL通過逐層計算,得到大尺度輸入網(wǎng)絡(luò)上的社區(qū)檢測結(jié)果Q0,主要包括兩個步驟:
第一步,將上層網(wǎng)絡(luò)中的社區(qū)發(fā)現(xiàn)結(jié)果Ql+1映射至下層網(wǎng)絡(luò)
第二步,基于光滑性假設(shè),構(gòu)建優(yōu)化函數(shù),通過圖上的學(xué)習(xí)方法推理出上的社區(qū)檢測結(jié)果Ql,通過逐層推理,最終得到輸入的大尺度網(wǎng)絡(luò)上的社區(qū)檢測結(jié)果Q0。
6.根據(jù)權(quán)利要求5所述在線社會網(wǎng)絡(luò)多尺度社區(qū)發(fā)現(xiàn)方法,其特征在于,所述第一步中,如果中的一個超結(jié)點(diǎn)是由中的若干結(jié)點(diǎn)聚合而成,則的社區(qū)標(biāo)簽向量跟一致。
7.根據(jù)權(quán)利要求5所述在線社會網(wǎng)絡(luò)多尺度社區(qū)發(fā)現(xiàn)方法,其特征在于,所述第二步中,采用圖上半監(jiān)督學(xué)習(xí)方法來估計社區(qū)標(biāo)簽向量,網(wǎng)絡(luò)上的標(biāo)簽估計問題通過最小化如下函數(shù)來獲得:
其中式中第一項表示光滑項,即標(biāo)簽向量與相鄰結(jié)點(diǎn)的標(biāo)簽向量之間的差別,第二項表示誤差項,是結(jié)點(diǎn)在上一時刻的社區(qū)標(biāo)簽估計值,為結(jié)點(diǎn)在網(wǎng)絡(luò)中形成的超結(jié)點(diǎn)對應(yīng)的類別標(biāo)簽向量,λ為控制參數(shù),用來平衡光滑項和誤差項之前的重要性,k是節(jié)點(diǎn)標(biāo)號,是節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集;
通過獨(dú)立地最小化每個結(jié)點(diǎn)對應(yīng)的代價函數(shù)來完成上述函數(shù)的最小化,最終的求解結(jié)果通過迭代計算下式而完成:
8.根據(jù)權(quán)利要求7所述在線社會網(wǎng)絡(luò)多尺度社區(qū)發(fā)現(xiàn)方法,其特征在于,設(shè)置λ=1,迭代10次左右使得迭代計算收斂。