專利名稱:在社會網(wǎng)絡(luò)中實(shí)現(xiàn)社區(qū)發(fā)現(xiàn)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及在社會網(wǎng)絡(luò)中實(shí)現(xiàn)社區(qū)發(fā)現(xiàn)的方法。
背景技術(shù):
社會網(wǎng)絡(luò)(Social Networking,簡稱SN)是一種用來表示社會中各個(gè)個(gè)體之間相互聯(lián)系的關(guān)系網(wǎng)絡(luò)。近年來,社會網(wǎng)絡(luò)在研究上獲得了廣泛的關(guān)注,度分布分析、個(gè)體排名、 社區(qū)發(fā)現(xiàn)、模式發(fā)現(xiàn)等都是對社會網(wǎng)絡(luò)的典型應(yīng)用。在過去的許多研究中,許多學(xué)者關(guān)注于挖掘和分析社會網(wǎng)絡(luò)個(gè)體的重要性和影響力。例如,搜索引擎分析Web的鏈接結(jié)構(gòu),并計(jì)算網(wǎng)頁的重要性,期望為用戶提供最符合需要的搜索結(jié)果;在學(xué)術(shù)合作網(wǎng)絡(luò)中,人們期望通過對合作結(jié)構(gòu)和主題進(jìn)行層次分析,從而發(fā)現(xiàn)合作模式和重要學(xué)者;在在線社交網(wǎng)站中,廣告商期望針對討論話題對個(gè)體進(jìn)行重要程度和個(gè)人興趣進(jìn)行分類,從而進(jìn)行精準(zhǔn)的商業(yè)推廣。在社會網(wǎng)絡(luò)中,個(gè)體的重要性和影響力往往與個(gè)體在網(wǎng)絡(luò)中所處的位置有密切的聯(lián)系,如在在線交友網(wǎng)站中,對于擁有較多的社會關(guān)系的個(gè)體(表現(xiàn)為網(wǎng)絡(luò)中心及橋梁節(jié)點(diǎn)),往往可以比普通人受到更多的關(guān)注,其重要性和影響力顯然更高。對個(gè)體在網(wǎng)絡(luò)中所處位置的研究實(shí)質(zhì)上是對網(wǎng)絡(luò)中個(gè)體與個(gè)體間依賴關(guān)系的研究,因此,對社會網(wǎng)絡(luò)中節(jié)點(diǎn)間依賴關(guān)系的挖掘和分析對研究個(gè)體在社會網(wǎng)絡(luò)中的重要性和影響力起著十分重要的作用。目前專門針對社會網(wǎng)絡(luò)中節(jié)點(diǎn)間依賴關(guān)系的挖掘和分析的研究工作還不多見,已知的一種受到廣泛關(guān)注的方法是分析網(wǎng)絡(luò)結(jié)構(gòu),從而對個(gè)體的重要性進(jìn)行指標(biāo)衡量。此類方法中最為著名的例子之一要數(shù)上世紀(jì)末提出的隨機(jī)游走模型和I^ageRank模型(請
JC^sk 1 "L. Page et al. The pagerank citation ranking -Bringing order to the web. Technical report, Stanford University,1998”)。此類模型的主要思想是將用戶瀏覽網(wǎng)頁的行為模型化為在網(wǎng)頁鏈接結(jié)構(gòu)中根據(jù)鏈接方向進(jìn)行隨機(jī)前進(jìn),并具有一定的概率隨機(jī)跳轉(zhuǎn)到其他頁面。由于網(wǎng)絡(luò)的鏈接疏密程度和復(fù)雜網(wǎng)絡(luò)中呈現(xiàn)的小世界模型,每個(gè)頁面在隨機(jī)游走模型下獲得訪問的概率也不盡相同,這種概率也被稱為I^ageRank。 I^ageRank將鏈接關(guān)系的結(jié)構(gòu)提煉,把這種結(jié)構(gòu)帶來的信息傳遞效應(yīng)轉(zhuǎn)化為節(jié)點(diǎn)的重要性指標(biāo),與之類似的方法還有康奈爾大學(xué)的Jon Kleinberg等提出的HITS模型等(請參見參考文獻(xiàn) 2 "J. M. Kleinberg. Authoritative sources in a hyper linked environment. In SODA' 98”)。I^geRank根據(jù)其所在網(wǎng)絡(luò)特點(diǎn)和分析目標(biāo)的不同,也產(chǎn)生了一些變種,例如, 判斷節(jié)點(diǎn)間距離的RWRS以及結(jié)合話題主題的隨機(jī)游走等。上述方法主要根據(jù)節(jié)點(diǎn)受訪的概率對節(jié)點(diǎn)的重要性進(jìn)行衡量,在社會網(wǎng)絡(luò)中越容易被遍歷到的節(jié)點(diǎn),其重要程度就越高。 但由隨機(jī)游走模型和I^geRank模型計(jì)算出的節(jié)點(diǎn)的重要性并不全面,例如,它不能反映節(jié)點(diǎn)在社會網(wǎng)絡(luò)中的“不可或缺性”。一些節(jié)點(diǎn)在社會網(wǎng)絡(luò)中可能很容易被訪問到,但如果這些結(jié)點(diǎn)被刪除,可能對社會網(wǎng)絡(luò)中其它節(jié)點(diǎn)的影響有限,這類節(jié)點(diǎn)的不可或缺性就較低。相反的,另一些節(jié)點(diǎn)在社會網(wǎng)絡(luò)中被訪問的概率較低,但一旦被刪除,對社會網(wǎng)絡(luò)中其它節(jié)點(diǎn)的影響嚴(yán)重,這類節(jié)點(diǎn)的不可或缺性就較高?,F(xiàn)有技術(shù)中就缺少對所述“不可或缺性”進(jìn)行衡量與計(jì)算的相關(guān)方法。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)中缺乏對節(jié)點(diǎn)的不可或缺性進(jìn)行衡量與計(jì)算的方法,從而提供一種能夠?qū)?jié)點(diǎn)的不可或缺性加以衡量與計(jì)算的方法。為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種在社會網(wǎng)絡(luò)中實(shí)現(xiàn)社區(qū)發(fā)現(xiàn)的方法,包括步驟1)、對一社會網(wǎng)絡(luò)中的任一節(jié)點(diǎn),計(jì)算所述社會網(wǎng)絡(luò)中的其他節(jié)點(diǎn)對該節(jié)點(diǎn)的依賴性,找出依賴性最大的k個(gè)節(jié)點(diǎn)作為該任一節(jié)點(diǎn)的k近鄰;步驟2、、從所述社會網(wǎng)絡(luò)中選取一個(gè)未經(jīng)處理的節(jié)點(diǎn),然后執(zhí)行下一步,直到所述社會網(wǎng)絡(luò)中的節(jié)點(diǎn)都已經(jīng)被處理;步驟3)、判斷所述未經(jīng)處理的節(jié)點(diǎn)的k個(gè)最依賴的節(jié)點(diǎn)是否滿足k社區(qū)要求,如果滿足,輸出該社區(qū)后重新執(zhí)行步驟2、,如果不滿足,從所述未經(jīng)處理的節(jié)點(diǎn)的k個(gè)最依賴的節(jié)點(diǎn)所組成的集合中選取一個(gè)子集,對該子集繼續(xù)做是否滿足k社區(qū)要求的判斷,直到找出滿足k社區(qū)要求的社區(qū)或者所有子集都已經(jīng)被嘗試過,然后重新執(zhí)行步驟2)。上述技術(shù)方案中,在所述的步驟1)中,所述的計(jì)算所述社會網(wǎng)絡(luò)中的其他節(jié)點(diǎn)對該節(jié)點(diǎn)的依賴性包括步驟1-1)、對于每個(gè)節(jié)點(diǎn)V e V(G),計(jì)算W(^G);其中,G表示圖,c/Z(v,G)表示節(jié)點(diǎn)V在網(wǎng)絡(luò)G下的重要性取值;步驟1-2)、斷開節(jié)點(diǎn)u的鏈接生成Gu,并計(jì)算c/z(v, Gu);步驟1-3)、計(jì)算節(jié)點(diǎn)ν對節(jié)點(diǎn)u的依賴函數(shù)cbp (ν — U);
權(quán)利要求
1.一種在社會網(wǎng)絡(luò)中實(shí)現(xiàn)社區(qū)發(fā)現(xiàn)的方法,包括步驟1)、對一社會網(wǎng)絡(luò)中的任一節(jié)點(diǎn),計(jì)算所述社會網(wǎng)絡(luò)中的其他節(jié)點(diǎn)對該節(jié)點(diǎn)的依賴性,找出依賴性最大的k個(gè)節(jié)點(diǎn)作為該任一節(jié)點(diǎn)的k近鄰;步驟2、、從所述社會網(wǎng)絡(luò)中選取一個(gè)未經(jīng)處理的節(jié)點(diǎn),然后執(zhí)行下一步,直到所述社會網(wǎng)絡(luò)中的節(jié)點(diǎn)都已經(jīng)被處理;步驟3)、判斷所述未經(jīng)處理的節(jié)點(diǎn)的k個(gè)最依賴的節(jié)點(diǎn)是否滿足k社區(qū)要求,如果滿足,輸出該社區(qū)后重新執(zhí)行步驟幻,如果不滿足,從所述未經(jīng)處理的節(jié)點(diǎn)的k個(gè)最依賴的節(jié)點(diǎn)所組成的集合中選取一個(gè)子集,對該子集繼續(xù)做是否滿足k社區(qū)要求的判斷,直到找出滿足k社區(qū)要求的社區(qū)或者所有子集都已經(jīng)被嘗試過,然后重新執(zhí)行步驟2)。
2.根據(jù)權(quán)利要求1所述的在社會網(wǎng)絡(luò)中實(shí)現(xiàn)社區(qū)發(fā)現(xiàn)的方法,其特征在于,在所述的步驟1)中,所述的計(jì)算所述社會網(wǎng)絡(luò)中的其他節(jié)點(diǎn)對該節(jié)點(diǎn)的依賴性包括步驟1-1)、對于每個(gè)節(jié)點(diǎn)ν e V(G),計(jì)算c/Z(v,G);其中,G表示圖,d(v,G)表示節(jié)點(diǎn) ν在網(wǎng)絡(luò)G下的重要性取值;步驟1-2)、斷開節(jié)點(diǎn)u的鏈接生成Gu,并計(jì)算Gu); 步驟1-3)、計(jì)算節(jié)點(diǎn)ν對節(jié)點(diǎn)u的依賴函數(shù)cbp (v - u);
3.根據(jù)權(quán)利要求2所述的在社會網(wǎng)絡(luò)中實(shí)現(xiàn)社區(qū)發(fā)現(xiàn)的方法,其特征在于,所述的計(jì)算所述社會網(wǎng)絡(luò)中的其他節(jié)點(diǎn)對該節(jié)點(diǎn)的依賴性還包括步驟1-4)、計(jì)算節(jié)點(diǎn)支持力,根據(jù)所述節(jié)點(diǎn)支持力的大小判斷其他節(jié)點(diǎn)對該節(jié)點(diǎn)的依賴性;節(jié)點(diǎn)u的所述節(jié)點(diǎn)支持力的定義如下
4.根據(jù)權(quán)利要求1所述的在社會網(wǎng)絡(luò)中實(shí)現(xiàn)社區(qū)發(fā)現(xiàn)的方法,其特征在于,所述的k社區(qū)要求包括將所述未經(jīng)處理的節(jié)點(diǎn)的k個(gè)最依賴的節(jié)點(diǎn)依次判斷是否為所述未經(jīng)處理的節(jié)點(diǎn)的k近鄰,當(dāng)所有k個(gè)最依賴的節(jié)點(diǎn)都是k近鄰時(shí),即被認(rèn)為是k社區(qū)。
全文摘要
本發(fā)明提供一種在社會網(wǎng)絡(luò)中實(shí)現(xiàn)社區(qū)發(fā)現(xiàn)的方法,包括對一社會網(wǎng)絡(luò)中的任一節(jié)點(diǎn),計(jì)算所述社會網(wǎng)絡(luò)中的其他節(jié)點(diǎn)對該節(jié)點(diǎn)的依賴性,找出依賴性最大的k個(gè)節(jié)點(diǎn)作為該任一節(jié)點(diǎn)的k近鄰;從所述社會網(wǎng)絡(luò)中選取一個(gè)未經(jīng)處理的節(jié)點(diǎn),然后執(zhí)行下一步,直到所述社會網(wǎng)絡(luò)中的節(jié)點(diǎn)都已經(jīng)被處理;判斷所述未經(jīng)處理的節(jié)點(diǎn)的k個(gè)最依賴的節(jié)點(diǎn)是否滿足k社區(qū)要求,如果滿足,輸出該社區(qū)后重新執(zhí)行前一步驟,如果不滿足,從所述未經(jīng)處理的節(jié)點(diǎn)的k個(gè)最依賴的節(jié)點(diǎn)所組成的集合中選取一個(gè)子集,對該子集繼續(xù)做是否滿足k社區(qū)要求的判斷,直到找出滿足k社區(qū)要求的社區(qū)或者所有子集都已經(jīng)被嘗試過,然后重新執(zhí)行前一步驟。
文檔編號G06F17/30GK102456064SQ20111010349
公開日2012年5月16日 申請日期2011年4月25日 優(yōu)先權(quán)日2011年4月25日
發(fā)明者丁兆云, 周斌, 張魯民, 方濱興, 李愛平, 楊樹強(qiáng), 賈焰, 鄧鐳, 韓偉紅, 韓毅 申請人:中國人民解放軍國防科學(xué)技術(shù)大學(xué)