社團(tuán)融合事件的預(yù)測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,尤其涉及一種社團(tuán)融合事件的預(yù)測(cè)方法。
【背景技術(shù)】
[0002] 在我們的生活中,復(fù)雜網(wǎng)絡(luò)已經(jīng)無(wú)處不在,其共同特點(diǎn)是規(guī)模巨大、結(jié)構(gòu)復(fù)雜。例 如社交網(wǎng)絡(luò)就是由實(shí)際生活中人與人之間關(guān)系構(gòu)成的一種典型的復(fù)雜網(wǎng)絡(luò),其節(jié)點(diǎn)代表網(wǎng) 絡(luò)用戶或真實(shí)社會(huì)中的人,節(jié)點(diǎn)間的連接代表網(wǎng)絡(luò)用戶間的好友關(guān)系或真實(shí)的人際關(guān)系。 社交網(wǎng)絡(luò)中這種由節(jié)點(diǎn),和節(jié)點(diǎn)之間的連接形成的結(jié)構(gòu)稱為網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),該結(jié)構(gòu)在不同 類型、不同階段的社交網(wǎng)絡(luò)中呈現(xiàn)出不同的特征。
[0003] 社團(tuán)是代表復(fù)雜網(wǎng)絡(luò)重要特征的一種子網(wǎng)絡(luò)。社團(tuán)同樣具有網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),并且 社團(tuán)結(jié)構(gòu)會(huì)隨著社團(tuán)演化及其關(guān)鍵事件的發(fā)生呈現(xiàn)出不同的特征。復(fù)雜網(wǎng)絡(luò)中關(guān)鍵事件的 發(fā)生代表著某種群體的行為導(dǎo)向。例如社交網(wǎng)絡(luò)中的社團(tuán)代表著各種社交圈,可以是朋友 圈、親情圈、同事圈等等。這些社團(tuán)可能意味著某些興趣因素或社會(huì)因素的形成。對(duì)關(guān)鍵事 件進(jìn)行預(yù)測(cè)有助于提前挖掘這些因素并加以利用,進(jìn)一步指導(dǎo)網(wǎng)絡(luò)行為。因此,對(duì)社團(tuán)演化 關(guān)鍵事件的預(yù)測(cè)無(wú)論在研宄方面還是應(yīng)用方面都有非常重要的意義。
[0004] 社團(tuán)演化關(guān)鍵事件包括社團(tuán)的消亡,新生,收縮,擴(kuò)張,分裂和融合。目前,對(duì)社團(tuán) 演化關(guān)鍵事件的預(yù)測(cè)方法已有一些研宄,但僅限于預(yù)測(cè)單個(gè)社團(tuán)的演化傾向。社團(tuán)融合事 件的發(fā)生涉及到多個(gè)社團(tuán),以往的研宄工作僅實(shí)現(xiàn)了對(duì)單個(gè)社團(tuán)是否有融合傾向的預(yù)測(cè), 并沒有明確的方法來(lái)預(yù)測(cè)哪幾個(gè)社團(tuán)在未來(lái)的一段時(shí)間內(nèi)會(huì)發(fā)生融合。
[0005] 綜上,亟需一種方法來(lái)對(duì)將發(fā)生融合的社團(tuán)進(jìn)行更加詳細(xì)的預(yù)測(cè)。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明所要解決的技術(shù)問題之一是提供一種方法來(lái)對(duì)將發(fā)生融合的社團(tuán)進(jìn)行更 加詳細(xì)的預(yù)測(cè)。
[0007] 為了解決上述技術(shù)問題,本申請(qǐng)的實(shí)施例提供了一種社團(tuán)融合事件的預(yù)測(cè)方法, 包括:步驟一、將網(wǎng)絡(luò)原始數(shù)據(jù)按照設(shè)定的時(shí)間片進(jìn)行分割,并從中選取多個(gè)時(shí)間片數(shù)據(jù)作 為訓(xùn)練數(shù)據(jù);步驟二、對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行靜態(tài)社團(tuán)和動(dòng)態(tài)社團(tuán)的劃分;步驟三、基于訓(xùn)練數(shù)據(jù) 提取任意兩個(gè)社團(tuán)之間的關(guān)鍵因素指標(biāo);步驟四、對(duì)所述關(guān)鍵因素指標(biāo)進(jìn)行監(jiān)督訓(xùn)練,并根 據(jù)監(jiān)督訓(xùn)練的學(xué)習(xí)結(jié)果判斷任意兩個(gè)社團(tuán)是否會(huì)發(fā)生融合。
[0008] 優(yōu)選地,關(guān)鍵因素指標(biāo)包括兩個(gè)社團(tuán)之間的內(nèi)部結(jié)構(gòu)指標(biāo)、所述內(nèi)部結(jié)構(gòu)指標(biāo)的 一階變化指標(biāo)、二階變化指標(biāo)以及兩個(gè)社團(tuán)的外部結(jié)構(gòu)相似度指標(biāo)。
[0009] 優(yōu)選地,利用如下表達(dá)式提取所述兩個(gè)社團(tuán)之間的內(nèi)部結(jié)構(gòu)指標(biāo):
[0011] 式中,Bd(i,j)為社團(tuán)i與社團(tuán)j之間的內(nèi)部結(jié)構(gòu)指標(biāo),Eu為社團(tuán)i與社團(tuán)j之 間的連接數(shù),EjPL分別為社團(tuán)i和社團(tuán)j內(nèi)部的連接數(shù),N ^分別為社團(tuán)i和社團(tuán)j 內(nèi)部的節(jié)點(diǎn)數(shù)。
[0012] 優(yōu)選地,利用如下表達(dá)式提取所述兩個(gè)社團(tuán)的外部結(jié)構(gòu)相似度指標(biāo):
[0014] 式中,Sim(i,j)為社團(tuán)i與社團(tuán)j的外部結(jié)構(gòu)相似度指標(biāo);wi;k和w11;分別表示社 團(tuán)i和社團(tuán)k之間以及社團(tuán)j和社團(tuán)k之間的權(quán),其中,
,Ei,k 和Eu分別為社團(tuán)i與社團(tuán)k之間以及社團(tuán)j與社團(tuán)k之間的連接數(shù),N 和Nk分別為社 團(tuán)i、社團(tuán)j與社團(tuán)k內(nèi)部的節(jié)點(diǎn)數(shù);m為社團(tuán)序號(hào)數(shù)。
[0015] 優(yōu)選地,步驟四中包括以下步驟:利用基于訓(xùn)練數(shù)據(jù)得到的關(guān)鍵因素指標(biāo)構(gòu)建預(yù) 測(cè)模型,并確定社團(tuán)發(fā)生融合的分界線值;將基于距待預(yù)測(cè)的時(shí)間點(diǎn)最近的時(shí)間片的數(shù)據(jù) 得到的關(guān)鍵因素指標(biāo)代入所述預(yù)測(cè)模型,并將得到的預(yù)測(cè)結(jié)果與所述分界線值進(jìn)行比較以 判斷社團(tuán)是否會(huì)發(fā)生融合。
[0016] 優(yōu)選地,利用如下表達(dá)式構(gòu)建所述預(yù)測(cè)模型:
[0018] 式中,W,。為社團(tuán)i與社團(tuán)j之間發(fā)生融合事件的傾向度,
為概率擬合函數(shù),
和
分別為社團(tuán)i與社團(tuán)j之間的內(nèi)部結(jié)構(gòu)指標(biāo)的一階變化指標(biāo)、二階變化指標(biāo) 以及外部結(jié)構(gòu)相似度指標(biāo);tjPtt分別表示不同的時(shí)間點(diǎn),△t為時(shí)間間隔。
[0019] 優(yōu)選地,在確定社團(tuán)發(fā)生融合的分界線值的步驟中包括:將根據(jù)所述預(yù)測(cè)模型預(yù) 測(cè)得到的傾向度值進(jìn)行歸一化處理;利用處理后的傾向度值與基于訓(xùn)練數(shù)據(jù)提取得到的社 團(tuán)融合情況建立基準(zhǔn)函數(shù);將基準(zhǔn)函數(shù)取得最大值時(shí)的傾向度值作為社團(tuán)發(fā)生融合的分界 線值。
[0020] 優(yōu)選地,基準(zhǔn)函數(shù)根據(jù)如下表達(dá)式建立:
[0024] 式中,F(xiàn)為基準(zhǔn)函數(shù),a和0為參數(shù),T%為基于訓(xùn)練數(shù)據(jù)提取得到的發(fā)生融合的 社團(tuán)對(duì)所對(duì)應(yīng)的傾向度值。
[0025] 優(yōu)選地,步驟四包括以下步驟:將基于訓(xùn)練數(shù)據(jù)得到的關(guān)鍵因素指標(biāo)組成的向量 代入SVM預(yù)測(cè)模型進(jìn)行訓(xùn)練以確定社團(tuán)發(fā)生融合的分類器;將基于距待預(yù)測(cè)的時(shí)間點(diǎn)最近 的時(shí)間片的數(shù)據(jù)得到的關(guān)鍵因素指標(biāo)組成的向量代入所述SVM預(yù)測(cè)模型,并根據(jù)得到的分 類預(yù)測(cè)結(jié)果判斷社團(tuán)是否會(huì)發(fā)生融合。
[0026] 優(yōu)選地,在步驟三之前還包括:基于所述靜態(tài)社團(tuán)和所述動(dòng)態(tài)社團(tuán)對(duì)每一個(gè)社團(tuán) 分別進(jìn)行預(yù)測(cè),得到將會(huì)參與融合的社團(tuán)集合;在步驟三中,基于訓(xùn)練數(shù)據(jù)提取所述社團(tuán)集 合中任意兩個(gè)社團(tuán)之間的關(guān)鍵因素指標(biāo)。
[0027] 與現(xiàn)有技術(shù)相比,上述方案中的一個(gè)或多個(gè)實(shí)施例可以具有如下優(yōu)點(diǎn)或有益效 果:
[0028] 通過提取兩個(gè)社團(tuán)之間的關(guān)鍵因素指標(biāo),實(shí)現(xiàn)了對(duì)任意兩個(gè)社團(tuán)或多個(gè)社團(tuán)是否 會(huì)發(fā)生融合事件的預(yù)測(cè),該方法預(yù)測(cè)可靠性高,可普適于絕大多數(shù)有權(quán)或無(wú)權(quán)的復(fù)雜網(wǎng)絡(luò) 的分析。
[0029] 本發(fā)明的其他優(yōu)點(diǎn)、目標(biāo),和特征在某種程度上將在隨后的說明書中進(jìn)行闡述,并 且在某種程度上,基于對(duì)下文的考察研宄對(duì)本領(lǐng)域技術(shù)人員而言將是顯而易見的,或者可 以從本發(fā)明的實(shí)踐中得到教導(dǎo)。本發(fā)明的目標(biāo)和其他優(yōu)點(diǎn)可以通過下面的說明書,權(quán)利要 求書,以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。
【附圖說明】
[0030] 附圖用來(lái)提供對(duì)本申請(qǐng)的技術(shù)方案或現(xiàn)有技術(shù)的進(jìn)一步理解,并且構(gòu)成說明書的 一部分。其中,表達(dá)本申請(qǐng)實(shí)施例的附圖與本申請(qǐng)的實(shí)施例一起用于解釋本申請(qǐng)的技術(shù)方 案,但并不構(gòu)成對(duì)本申請(qǐng)技術(shù)方案的限制。
[0031] 圖1為本申請(qǐng)實(shí)施例的社團(tuán)融合事件的預(yù)測(cè)方法的流程示意圖;
[0032] 圖2為內(nèi)部結(jié)構(gòu)指標(biāo)累積分布曲線圖;
[0033] 圖3為外部結(jié)構(gòu)相似度指標(biāo)累積分布曲線圖;
[0034] 圖4為本申請(qǐng)實(shí)施例的利用關(guān)鍵因素指標(biāo)進(jìn)行監(jiān)督訓(xùn)練的流程示意圖;
[0035] 圖5為本申請(qǐng)實(shí)施例的社團(tuán)融合事件的預(yù)測(cè)方法的流程示意圖。
【具體實(shí)施方式】
[0036] 以下將結(jié)合附圖及實(shí)施例來(lái)詳細(xì)說明本發(fā)明的實(shí)施方式,借此對(duì)本發(fā)明如何應(yīng)用 技術(shù)手段來(lái)解決技術(shù)問題,并達(dá)成相應(yīng)技術(shù)效果的實(shí)現(xiàn)過程能充分理解并據(jù)以實(shí)施。本申 請(qǐng)實(shí)施例以及實(shí)施例中的各個(gè)特征,在不相沖突前提下可以相互結(jié)合,所形成的技術(shù)方案 均在本發(fā)明的保護(hù)范圍之內(nèi)。
[0037] 另外,附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng) 中執(zhí)行。并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的 順序執(zhí)行所示出或描述的步驟。
[0038] 對(duì)于出現(xiàn)在本申請(qǐng)中的一些領(lǐng)域內(nèi)常用語(yǔ)進(jìn)行如下解釋:
[0039] 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu):網(wǎng)絡(luò)中由節(jié)點(diǎn)和節(jié)點(diǎn)間的連接組成的結(jié)構(gòu)稱為網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。
[0040] 網(wǎng)絡(luò)社團(tuán):借助數(shù)學(xué)中的圖論等工具研宄復(fù)雜網(wǎng)絡(luò)。給定圖G,網(wǎng)絡(luò)社團(tuán)是一個(gè)各 點(diǎn)緊密相連的子圖G'。社團(tuán)結(jié)構(gòu)最直觀的量化方法是網(wǎng)絡(luò)社團(tuán)內(nèi)部密度大于外部密度。
[0041] 時(shí)間片:即在固定某一個(gè)時(shí)間點(diǎn)時(shí)對(duì)網(wǎng)絡(luò)進(jìn)行快照,如同對(duì)不斷變化發(fā)展的網(wǎng)絡(luò) 在某個(gè)時(shí)間點(diǎn)進(jìn)行切片,稱為時(shí)間片。
[0042] 靜態(tài)社團(tuán):在某個(gè)時(shí)間片劃分出來(lái)的社團(tuán)。
[0043] 動(dòng)態(tài)社團(tuán):將在一系列時(shí)間片劃分出來(lái)的靜態(tài)社團(tuán)按照時(shí)間先后順序連接起來(lái)形 成的社團(tuán)演化軌跡。
[0044] 社團(tuán)融合事件:兩個(gè)及以上數(shù)目的社團(tuán)中的節(jié)點(diǎn)在未來(lái)的某個(gè)時(shí)間被檢測(cè)到連通 于一個(gè)社團(tuán)中。
[0045] 監(jiān)督訓(xùn)練:即根據(jù)訓(xùn)練集輸入輸出數(shù)據(jù)進(jìn)行迭代計(jì)算得到分類、預(yù)測(cè)等模型。
[0046] 訓(xùn)練數(shù)據(jù):用來(lái)得到訓(xùn)練模型的歷史數(shù)據(jù)。
[0047] 圖1為本申請(qǐng)實(shí)施例的社團(tuán)融合事件的預(yù)測(cè)方法的流程示意圖。該方法包括:步 驟S110、將網(wǎng)絡(luò)原始數(shù)據(jù)按照設(shè)定的