專利名稱:社區(qū)相似度計(jì)算方法與社會(huì)網(wǎng)絡(luò)合作模式發(fā)現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)模式挖掘,特別涉及一種社會(huì)網(wǎng)絡(luò)合作模式發(fā)現(xiàn)方法。
背景技術(shù):
社會(huì)網(wǎng)絡(luò)(Social Networking,簡(jiǎn)稱SN)是一種用來表示社會(huì)中各個(gè)個(gè)體之間相互聯(lián)系的關(guān)系網(wǎng)絡(luò),如學(xué)術(shù)合作網(wǎng)絡(luò)、在線交友網(wǎng)絡(luò)等。現(xiàn)實(shí)生活中廣受歡迎Whcebook、 Twitter等都可視為社會(huì)網(wǎng)絡(luò)。社會(huì)網(wǎng)絡(luò)可以用矩陣法或圖示法加以表示。在圖示法中,用圖中的節(jié)點(diǎn)表示社會(huì)中的某一個(gè)體,用節(jié)點(diǎn)間的鏈接表示個(gè)體間的聯(lián)系,用鏈接的大小表示個(gè)體間聯(lián)系的緊密程度。社會(huì)網(wǎng)絡(luò)中的個(gè)體與網(wǎng)絡(luò)中其它個(gè)體之間的聯(lián)系存在緊密與稀疏的差別,將社會(huì)網(wǎng)絡(luò)中那些具有緊密聯(lián)系的個(gè)體的集合稱為社區(qū)。社區(qū)往往體現(xiàn)出多種多樣的合作模式。 所述的合作模式被認(rèn)為是一種常常固定出現(xiàn)的組合,它可以被提煉出來供研究者進(jìn)行規(guī)律分析。例如,在學(xué)術(shù)合作網(wǎng)絡(luò)中,用戶往往希望了解具有一定影響力的作者之間的合作規(guī)律以及他們領(lǐng)導(dǎo)組織學(xué)術(shù)團(tuán)隊(duì)的組織結(jié)構(gòu),從而可以起到定位學(xué)術(shù)前沿、并組織引導(dǎo)自己的團(tuán)隊(duì)的作用;在在線交友網(wǎng)絡(luò)中,用戶往往發(fā)現(xiàn)個(gè)別話題總是能夠獲得快速傳播,研究信息流動(dòng)和特定的網(wǎng)絡(luò)結(jié)構(gòu)的關(guān)系可以在商業(yè)情報(bào)分析、產(chǎn)品推廣、垃圾廣告檢測(cè)方面起到重要的作用;在蛋白質(zhì)相互作用的網(wǎng)絡(luò)結(jié)構(gòu)中,研究者總是能夠發(fā)現(xiàn)某些類型的蛋白質(zhì)能夠迅速結(jié)合,研究這種結(jié)合和其結(jié)構(gòu)網(wǎng)絡(luò)的關(guān)系可以幫助發(fā)現(xiàn)各種蛋白質(zhì)中有效成分的結(jié)合規(guī)律,從而有效提升研究水平。從社區(qū)中提煉出所述合作模式的過程被稱為模式挖掘。社區(qū)上的模式挖掘是近年來的研究熱點(diǎn)之一,面向無標(biāo)度圖的頻繁模式挖掘是其中的一個(gè)主要方向。在無標(biāo)度圖上實(shí)現(xiàn)的頻繁模式挖掘方法的主要思想是給定一個(gè)支持度閾值,將社會(huì)網(wǎng)絡(luò)中發(fā)現(xiàn)的頻繁程度不低于這個(gè)閾值的頻繁的子圖作為挖掘出來的模式。與在事務(wù)性數(shù)據(jù)上的頻繁模式挖掘方法類似,現(xiàn)有技術(shù)中主流的社區(qū)頻繁模式挖掘方法也可以概括為基于Apriori算法的方法和基于I^attern-Growth的方法。但與事務(wù)性數(shù)據(jù)不同的是,社區(qū)頻繁模式挖掘方法中用于表示社會(huì)網(wǎng)絡(luò)的圖結(jié)構(gòu)的立體性給計(jì)算帶來了新的挑戰(zhàn)。例如,基于Apriori算法的方法中,圖模式候選集的生成不但需要考慮節(jié)點(diǎn)的擴(kuò)展,還需要同時(shí)考慮邊的擴(kuò)展,這樣所帶來的組合爆炸問題十分明顯。伊利諾伊香檳分校的 Yan,Han等人在02年提出了一種基于I^attern-Growth的頻繁模式挖掘算法gSpan,為了避免發(fā)現(xiàn)重復(fù)的結(jié)構(gòu),其給出了一種右路優(yōu)先的遍歷策略;該方法僅僅使用頻繁度作為衡量模式好與壞的唯一標(biāo)準(zhǔn),沒有考慮頻繁模式挖掘中的其他代表性因素,因此會(huì)影響挖掘結(jié)果的準(zhǔn)確性。在前述的頻繁模式挖掘思想下,人們通常使用能否符合給定的同構(gòu)映射來判斷兩個(gè)子圖是否相等。但在現(xiàn)實(shí)世界里,社會(huì)網(wǎng)絡(luò)的鏈接上往往攜帶有豐富的信息,因此結(jié)構(gòu)相同的子圖并不意味著相同的合作模式,這就給圖的挖掘算法帶來了更多的困難。例如, 在學(xué)術(shù)合作網(wǎng)絡(luò)中,一個(gè)連接形式完全相同的子圖,如完全圖Clique,可能代表成員社會(huì)地位對(duì)等的工作組,但也可能是少數(shù)重要影響力的作者領(lǐng)導(dǎo)的一個(gè)學(xué)術(shù)團(tuán)體。在這種情況下,圖中節(jié)點(diǎn)與邊的權(quán)重信息和標(biāo)注信息往往有助于對(duì)圖中重要節(jié)點(diǎn)進(jìn)行識(shí)別,并作為衡量子圖相似性的一個(gè)參考。在參考文獻(xiàn)1 “L. Page,S. Brin, R. Motwani, and Τ. Winograd. The pagerank citation ranking :Bringing order to the web. 1998,,禾口參考文獻(xiàn) 2 "J. Kleinberg,R. Kumar,P. Raghavan, S. Rajagopalan,and A. Tomkins. The web as a graph Measurements,models,and methods. Computing and Combinatorics,pages 1-17,1999” 所提到的方法中,對(duì)圖的鏈接關(guān)系的結(jié)構(gòu)加以提煉,并將這種結(jié)構(gòu)帶來的信息傳遞效應(yīng)轉(zhuǎn)化為節(jié)點(diǎn)的重要性指標(biāo),這種指標(biāo)也可以作為衡量不同社區(qū)節(jié)點(diǎn)間相似度的標(biāo)準(zhǔn)。然而,由于圖結(jié)構(gòu)的復(fù)雜性,往往該類計(jì)算的開銷與節(jié)點(diǎn)規(guī)模和邊密度呈指數(shù)級(jí)規(guī)模增長(zhǎng),算法的伸縮性不強(qiáng),很難應(yīng)用到大規(guī)模的網(wǎng)絡(luò)結(jié)構(gòu)中。此外,基于支持度閾值的頻繁模式挖掘算法也存在應(yīng)用上的局限性。在某些社會(huì)網(wǎng)絡(luò)中,帶有某些典型特征的合作模式往往并不很常見。例如,在學(xué)術(shù)網(wǎng)絡(luò)中,某些知名學(xué)者間的合作模式并不頻繁出現(xiàn);在在線交友網(wǎng)站或微博客的網(wǎng)站中,由名人效應(yīng)帶來的聚集群體在數(shù)量上也會(huì)比一般的討論區(qū)少很多。支持度閾值設(shè)置過高往往會(huì)導(dǎo)致算法忽略網(wǎng)絡(luò)中的一些特定結(jié)構(gòu),而支持度閾值設(shè)置過低又會(huì)帶來性能問題。本領(lǐng)域技術(shù)人員很難設(shè)定一個(gè)合適的支持度閾值。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有的頻繁模式挖掘方法在應(yīng)用上的局限性,從而提供了一種社區(qū)相似度計(jì)算方法,包括步驟1)、將待計(jì)算相似度的第一社區(qū)與第二社區(qū)分別用第一圖與第二圖表示,其中,所述第一圖與所述第二圖中的節(jié)點(diǎn)上標(biāo)注有用來表示該節(jié)點(diǎn)所對(duì)應(yīng)的社區(qū)中個(gè)體的權(quán)威性的節(jié)點(diǎn)權(quán)威性值,所述節(jié)點(diǎn)之間的邊上標(biāo)注有用來表示該邊所連接的兩節(jié)點(diǎn)之間某一類型信息的邊標(biāo)注值;步驟i)、將所述第一圖與所述第二圖中的各個(gè)節(jié)點(diǎn)分別按照所述節(jié)點(diǎn)權(quán)威性值進(jìn)行降序排列;步驟;3)、為步驟2~)所得到的第一圖與第二圖計(jì)算相似值,進(jìn)而得到所述第一圖與所述第二圖所代表的社區(qū)的相似程度。上述技術(shù)方案中,在所述的步驟1)和步驟2、之間還包括步驟a)、比較所述第一圖與第二圖的節(jié)點(diǎn)數(shù)目,為節(jié)點(diǎn)數(shù)較少的圖添加空節(jié)點(diǎn),確保兩個(gè)圖有相同的節(jié)點(diǎn)數(shù)量;步驟b)、在所添加的空節(jié)點(diǎn)之間以及所述空節(jié)點(diǎn)與原有節(jié)點(diǎn)之間添加虛擬邊,使得所述第一圖與第二圖成為完全圖;所述虛擬邊的邊標(biāo)注值為0。上述技術(shù)方案中,在所述的步驟3)中,所述相似值為余弦相似值;計(jì)算余弦相似值的公式為Ζ^Λ) = "(Χ^(Ζ〈/“《),/“《)〉) + (1-灼 cos(z〈4CS;),/£(實(shí))〉)其中,ZO表示向量間的夾角;β表示加權(quán)因子,S1'代表在添加虛擬邊后成為完全圖的第一圖,實(shí)代表在添加虛擬邊后成為完全圖的第二圖,1V(SD表示 < 的節(jié)點(diǎn)權(quán)重向量, 1E(SD表示《中的邊權(quán)重向量。
本發(fā)明還提供了一種從社會(huì)網(wǎng)絡(luò)中查找合作模式的方法,包括步驟1)、從用于表示社會(huì)網(wǎng)絡(luò)的圖中找出所有用于表示社區(qū)的子圖,將這些子圖所代表的社區(qū)存入一個(gè)集合中;步驟2)、從步驟1)所找出的社區(qū)的集合中,提取一個(gè)社區(qū),將該社區(qū)作為模式庫中的第一個(gè)合作模式;步驟幻、從步驟1)所找出的社區(qū)的集合中繼續(xù)提取一個(gè)新的社區(qū),根據(jù)所述的社區(qū)相似度計(jì)算方法對(duì)該新的社區(qū)與所述模式庫中的已有合作模式進(jìn)行相似度計(jì)算,根據(jù)相似度計(jì)算結(jié)果將該新的社區(qū)與已有合作模式合并或者作為一種新的合作模式添加到所述模式庫中;步驟4)、判斷所述社區(qū)的集合中的社區(qū)是否已經(jīng)被提取完,如果有尚未處理的新的社區(qū),重新執(zhí)行步驟3),否則,結(jié)束操作,輸出模式庫中的所有合作模式。上述技術(shù)方案中,在所述的步驟1)中還包括將從用于表示社會(huì)網(wǎng)絡(luò)的圖中所找出的所有社區(qū)的顯著性與一預(yù)先設(shè)定的顯著性指標(biāo)進(jìn)行比較,將顯著性小于該顯著性指標(biāo)的社區(qū)作為非重要社區(qū)從所述社區(qū)的集合中剔除。上述技術(shù)方案中,在所述的步驟幻中,所述的根據(jù)相似度計(jì)算結(jié)果將該新的社區(qū)與已有合作模式合并或者作為一種新的合作模式添加到所述模式庫中包括所述相似度計(jì)算結(jié)果大于一設(shè)定的相似度閾值,將所述新的社區(qū)與已有合作模式
口井O上述技術(shù)方案中,在所述的步驟幻中,所述的根據(jù)相似度計(jì)算結(jié)果將該新的社區(qū)與已有合作模式合并或者作為一種新的合作模式添加到所述模式庫中還包括所述相似度計(jì)算結(jié)果小于或等于一設(shè)定的相似度閾值,將所述新的社區(qū)作為一種新的合作模式添加到所述模式庫中。本發(fā)明的優(yōu)點(diǎn)在于本發(fā)明在發(fā)現(xiàn)合作模式的過程中,不僅僅考慮了結(jié)構(gòu)特征,也考慮了節(jié)點(diǎn)的權(quán)威性分布(即重要節(jié)點(diǎn)需在相似的結(jié)構(gòu)中處于相似的社會(huì)地位),使得所發(fā)現(xiàn)的合作模式更具有代表性。
圖1 (a)為一個(gè)實(shí)施例中所涉及的一個(gè)子圖的示意圖;圖1 (b)為一個(gè)實(shí)施例中所涉及的另一個(gè)子圖的示意圖;圖2為描述了在本發(fā)明的一個(gè)實(shí)驗(yàn)中,一個(gè)數(shù)據(jù)集中節(jié)點(diǎn)度分布的情況;圖3為在本發(fā)明的一個(gè)實(shí)驗(yàn)中,相似度閾值α與最終發(fā)現(xiàn)模式數(shù)量的關(guān)系示意圖;圖4為對(duì)應(yīng)于圖3的相似度閾值α設(shè)置生成的模式數(shù)量規(guī)模和運(yùn)行時(shí)間的關(guān)系示意圖;圖5為相似度閾值α和運(yùn)行時(shí)間的關(guān)系示意圖;圖6中為根據(jù)實(shí)驗(yàn)結(jié)果所得到的點(diǎn)/邊加權(quán)因子β與模式庫規(guī)模的關(guān)系圖;圖7為本發(fā)明方法在一個(gè)實(shí)施例中的流程圖。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明加以說明。在對(duì)本發(fā)明方法做詳細(xì)說明前,首先對(duì)本發(fā)明中所涉及的相關(guān)概念加以定義。1、社會(huì)網(wǎng)絡(luò)的表示方法在現(xiàn)實(shí)生活中,存在多種類型的社會(huì)網(wǎng)絡(luò),如在線交友網(wǎng)站、學(xué)術(shù)合作網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、生物蛋白質(zhì)相互作用網(wǎng)絡(luò)等,這些網(wǎng)絡(luò)雖然形式多樣,但都可以通過公知的統(tǒng)計(jì)或測(cè)量的方法模型化為距離加權(quán)圖。在本發(fā)明中可以采用如下的四元組來表示圖形化后的社會(huì)網(wǎng)絡(luò)G = (V,E,£,W)。其中,ν e V表示個(gè)體和個(gè)體集,個(gè)體間的關(guān)系由無向邊e= {u,v} eE 表示,E代表邊(鏈接)的集合;£(▽)用來表示節(jié)點(diǎn)ν上的標(biāo)注函數(shù),通常表示節(jié)點(diǎn)ν在整個(gè)圖中的權(quán)威性,它是一個(gè)數(shù)值型變量,可以通過某些統(tǒng)計(jì)數(shù)據(jù)(如在博客網(wǎng)絡(luò)中的發(fā)帖量) 或由結(jié)構(gòu)運(yùn)算產(chǎn)生的變量(如節(jié)點(diǎn)ν的I^geRank值)獲?。籛⑷是邊e = {u, ν}上的標(biāo)注函數(shù),代表邊e兩端的節(jié)點(diǎn)U、ν在圖上的距離,該函數(shù)的值可以表示物理距離上的遠(yuǎn)近、 社會(huì)關(guān)系的強(qiáng)弱、相互通信的頻率等多種類型的信息,其值的大小通常通過公知的統(tǒng)計(jì)方法或測(cè)量方法獲得。2、社區(qū)的表示方法由于社區(qū)是社會(huì)網(wǎng)絡(luò)的一個(gè)組成部分,因此可以適用導(dǎo)出子圖anduced Subgraph)來定義圖G上的社區(qū)C,在這一定義過程中要求用來表示社區(qū)C的子圖的連接關(guān)系和全圖的連接關(guān)系一致。在對(duì)本發(fā)明方法的以下描述中,出于敘述簡(jiǎn)單的考慮,以無向加權(quán)圖為例來表示社區(qū),但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)了解,本發(fā)明方法通過簡(jiǎn)單變換也可以直接應(yīng)用到用有向加權(quán)圖表示的社區(qū)中。3、如何定義社區(qū)的重要性在真實(shí)世界中,往往那些具有顯著性特征的社區(qū)被認(rèn)為是重要的,值得關(guān)注的。例如,在學(xué)術(shù)合作網(wǎng)絡(luò)中,合作產(chǎn)生論文數(shù)較多的群體;在Web結(jié)構(gòu)中,點(diǎn)擊率高的網(wǎng)頁集合和鏈接結(jié)構(gòu);在在線社會(huì)網(wǎng)絡(luò)服務(wù)中,能夠快速發(fā)布信息的節(jié)點(diǎn)群等。在本發(fā)明中,使用目標(biāo)函數(shù)和顯著性特征來定義社區(qū)的重要性,即給定一個(gè)顯著性函數(shù)和一個(gè)顯著性閾值 δ,對(duì)于一個(gè)社區(qū)C,如果:F(C) 2 δ,則C是一個(gè)重要社區(qū)。F(C)在不同的社會(huì)網(wǎng)絡(luò)中可以表達(dá)不同的意義,例如在學(xué)術(shù)合作網(wǎng)絡(luò)中,表達(dá)一個(gè)群體合作論文的總數(shù);在Ρ2Ρ網(wǎng)絡(luò)中,可以表達(dá)某個(gè)群體中內(nèi)聯(lián)流量等。4、合作模式的表示方法合作模式可以用一個(gè)加權(quán)的子圖P = (V,Ε,£,W)表示,其中,V⑵表示其節(jié)點(diǎn)集, E(P)表示其邊集,£, W分別是節(jié)點(diǎn)和邊的標(biāo)注函數(shù)。合作模式是用于表示社會(huì)網(wǎng)絡(luò)的圖的子圖的一種抽象。5、模式對(duì)社區(qū)的描述能力一個(gè)合作模式能否代表一個(gè)社區(qū)需要有一個(gè)衡量標(biāo)準(zhǔn)。在本發(fā)明中定義一種相似度函數(shù)來表達(dá)合作模式對(duì)社區(qū)的描述能力。當(dāng)一個(gè)合作模式和一個(gè)社區(qū)的相似度達(dá)到一定標(biāo)準(zhǔn)時(shí),就認(rèn)為這種合作模式可以代表該類型的社區(qū)。對(duì)于模式對(duì)社區(qū)的描述能力可以做以下定義定義α -描述對(duì)于一個(gè)社區(qū)C和一個(gè)模式P,desc (P — C)表示P對(duì)C的描述能力;給定一個(gè)描述度閾值α,如果desc (P —C) ^ α,就說模式P對(duì)社區(qū)C滿足α -描述要求。 6、合作模式與社區(qū)的相似性度量方法與有關(guān)的相似性度量函數(shù)
從前面的描述可以知道,在本發(fā)明中,無論是合作模式還是社區(qū),都可以用圖來表示,因此合作模式與社區(qū)的相似性度量問題也就會(huì)演變成對(duì)用來表示社會(huì)網(wǎng)絡(luò)的大規(guī)模圖 G中的兩個(gè)子圖S1和&之間的相似性度量問題。在現(xiàn)有技術(shù)中,要衡量?jī)蓚€(gè)圖的相似度存在多種方法,如計(jì)算圖編輯距離(Graph Edit Distance)的方法,或者通過計(jì)算兩個(gè)圖的公共結(jié)構(gòu)來衡量?jī)蓤D的相似程度。但這些方法不僅有計(jì)算開銷大的問題,而且在相似性度量上也存在局限性。在本發(fā)明中,在度量相似性時(shí)不僅要考慮圖結(jié)構(gòu)間的相似性,也要考慮圖中個(gè)體權(quán)威性和個(gè)體間連接關(guān)系緊密度分布上的相似性。因此,本發(fā)明采用了基于余弦相似度的相似度度量方法。下面對(duì)這一方法的具體實(shí)現(xiàn)加以說明。在衡量圖S1和&的相似度時(shí),首先將S1和&中的節(jié)點(diǎn)根據(jù)節(jié)點(diǎn)的權(quán)威性標(biāo)注進(jìn)行降序排列,如圖1中所示的順時(shí)針方向,其目的是要給圖中的節(jié)點(diǎn)做一個(gè)全局遍歷序,以確保不同圖中具有相當(dāng)社會(huì)地位的節(jié)點(diǎn)能夠被在同一級(jí)別上進(jìn)行結(jié)構(gòu)比較。也就是說,兩個(gè)相似的社區(qū)首先要保證權(quán)重和結(jié)構(gòu)的一致性。例如,在交友網(wǎng)絡(luò)中,星形和雪花型是常見的組織結(jié)構(gòu),如果要認(rèn)定兩個(gè)星形結(jié)構(gòu)的社區(qū)是一致的,那么需要首先保證其對(duì)應(yīng)重要節(jié)點(diǎn)處在兩個(gè)結(jié)構(gòu)的同一相對(duì)位置(如中心)。對(duì)于兩個(gè)社區(qū)中節(jié)點(diǎn)數(shù)量不對(duì)等的情況,S卩Is1I Φ |&|,為了方便表示,將會(huì)在社區(qū)所對(duì)應(yīng)的圖中添加空節(jié)點(diǎn),以確保兩個(gè)圖有相同的節(jié)點(diǎn)數(shù)量。在兩個(gè)圖中節(jié)點(diǎn)數(shù)量相同的前提下,可以采用余弦相似度來衡量?jī)缮鐓^(qū)間節(jié)點(diǎn)權(quán)威性分布的差別和邊權(quán)重的差別。 如圖1(a)、(b)所示,將圖1(a)中的子圖用&表示,將圖1(b)中的子圖用&表示,由于& 中的節(jié)點(diǎn)數(shù)目少于S1中的節(jié)點(diǎn)數(shù)目,因此在圖1(b)中添加一個(gè)空節(jié)點(diǎn)。此外還要在這兩個(gè)圖中為節(jié)點(diǎn)間不存在連接之處添加權(quán)重為零的虛擬邊(在圖中用虛線表示)。通過上述操作,S1和&就被擴(kuò)充成為兩個(gè)節(jié)點(diǎn)數(shù)量完全相等的完全圖<和劣。在完成對(duì)社區(qū)所對(duì)應(yīng)圖的上述操作后,就可以用相似性度量函數(shù)來衡量?jī)蓚€(gè)社區(qū)的相似程度。假
權(quán)利要求
1.一種社區(qū)相似度計(jì)算方法,包括步驟1)、將待計(jì)算相似度的第一社區(qū)與第二社區(qū)分別用第一圖與第二圖表示,其中,所述第一圖與所述第二圖中的節(jié)點(diǎn)上標(biāo)注有用來表示該節(jié)點(diǎn)所對(duì)應(yīng)的社區(qū)中個(gè)體的權(quán)威性的節(jié)點(diǎn)權(quán)威性值,所述節(jié)點(diǎn)之間的邊上標(biāo)注有用來表示該邊所連接的兩節(jié)點(diǎn)之間某一類型信息的邊標(biāo)注值;步驟2·)、將所述第一圖與所述第二圖中的各個(gè)節(jié)點(diǎn)分別按照所述節(jié)點(diǎn)權(quán)威性值進(jìn)行降序排列;步驟幻、為步驟2~)所得到的第一圖與第二圖計(jì)算相似值,進(jìn)而得到所述第一圖與所述第二圖所代表的社區(qū)的相似程度。
2.根據(jù)權(quán)利要求1所述的社區(qū)相似度計(jì)算方法,其特征在于,在所述的步驟1)和步驟 2)之間還包括步驟a)、比較所述第一圖與第二圖的節(jié)點(diǎn)數(shù)目,為節(jié)點(diǎn)數(shù)較少的圖添加空節(jié)點(diǎn),確保兩個(gè)圖有相同的節(jié)點(diǎn)數(shù)量;步驟b)、在所添加的空節(jié)點(diǎn)之間以及所述空節(jié)點(diǎn)與原有節(jié)點(diǎn)之間添加虛擬邊,使得所述第一圖與第二圖成為完全圖;所述虛擬邊的邊標(biāo)注值為0。
3.根據(jù)權(quán)利要求1或2所述的社區(qū)相似度計(jì)算方法,其特征在于,在所述的步驟3)中, 所述相似值為余弦相似值;計(jì)算余弦相似值的公式為
4.一種從社會(huì)網(wǎng)絡(luò)中查找合作模式的方法,包括步驟1)、從用于表示社會(huì)網(wǎng)絡(luò)的圖中找出所有用于表示社區(qū)的子圖,將這些子圖所代表的社區(qū)存入一個(gè)集合中;步驟2)、從步驟1)所找出的社區(qū)的集合中,提取一個(gè)社區(qū),將該社區(qū)作為模式庫中的第一個(gè)合作模式;步驟幻、從步驟1)所找出的社區(qū)的集合中繼續(xù)提取一個(gè)新的社區(qū),根據(jù)權(quán)利要求1-3 之一所述的社區(qū)相似度計(jì)算方法對(duì)該新的社區(qū)與所述模式庫中的已有合作模式進(jìn)行相似度計(jì)算,根據(jù)相似度計(jì)算結(jié)果將該新的社區(qū)與已有合作模式合并或者作為一種新的合作模式添加到所述模式庫中;步驟4)、判斷所述社區(qū)的集合中的社區(qū)是否已經(jīng)被提取完,如果有尚未處理的新的社區(qū),重新執(zhí)行步驟3),否則,結(jié)束操作,輸出模式庫中的所有合作模式。
5.根據(jù)權(quán)利要求4所述的從社會(huì)網(wǎng)絡(luò)中查找合作模式的方法,其特征在于,在所述的步驟1)中還包括將從用于表示社會(huì)網(wǎng)絡(luò)的圖中所找出的所有社區(qū)的顯著性與一預(yù)先設(shè)定的顯著性指標(biāo)進(jìn)行比較,將顯著性小于該顯著性指標(biāo)的社區(qū)作為非重要社區(qū)從所述社區(qū)的集合中剔除。
6.根據(jù)權(quán)利要求4或5所述的從社會(huì)網(wǎng)絡(luò)中查找合作模式的方法,其特征在于,在所述的步驟3)中,所述的根據(jù)相似度計(jì)算結(jié)果將該新的社區(qū)與已有合作模式合并或者作為一種新的合作模式添加到所述模式庫中包括所述相似度計(jì)算結(jié)果大于一設(shè)定的相似度閾值,將所述新的社區(qū)與已有合作模式合并。
7.根據(jù)權(quán)利要求4或5所述的從社會(huì)網(wǎng)絡(luò)中查找合作模式的方法,其特征在于,在所述的步驟3)中,所述的根據(jù)相似度計(jì)算結(jié)果將該新的社區(qū)與已有合作模式合并或者作為一種新的合作模式添加到所述模式庫中還包括所述相似度計(jì)算結(jié)果小于或等于一設(shè)定的相似度閾值,將所述新的社區(qū)作為一種新的合作模式添加到所述模式庫中。
全文摘要
本發(fā)明提供一種用于計(jì)算社區(qū)之間相似度的方法,包括將待計(jì)算相似度的第一社區(qū)與第二社區(qū)分別用第一圖與第二圖表示;將所述第一圖與所述第二圖中的各個(gè)節(jié)點(diǎn)分別按照所述節(jié)點(diǎn)權(quán)威性值進(jìn)行降序排列;為第一圖與第二圖計(jì)算相似值,進(jìn)而得到所述第一圖與所述第二圖所代表的社區(qū)的相似程度。本發(fā)明還提供了一種從社會(huì)網(wǎng)絡(luò)中查找合作模式的方法。本發(fā)明在發(fā)現(xiàn)合作模式的過程中,不僅僅考慮了結(jié)構(gòu)特征,也考慮了節(jié)點(diǎn)的權(quán)威性分布,使得所發(fā)現(xiàn)的合作模式更具有代表性。
文檔編號(hào)G06F17/30GK102456062SQ201010535509
公開日2012年5月16日 申請(qǐng)日期2010年11月4日 優(yōu)先權(quán)日2010年11月4日
發(fā)明者周斌, 方濱興, 李愛平, 楊樹強(qiáng), 賈焰, 韓偉紅, 韓毅 申請(qǐng)人:中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)