本發(fā)明屬于信息傳播領(lǐng)域,尤其涉及一種面向團(tuán)體的影響最大化方法。
背景技術(shù):
互聯(lián)網(wǎng)的快速發(fā)展促使形成了一種可觀測的社會網(wǎng)絡(luò),為研究信息傳播,疾病擴(kuò)散等現(xiàn)象提供了極大的便利,同時在輿情控制、電視營銷、疾病預(yù)防等應(yīng)用的驅(qū)動下,如何從給定網(wǎng)絡(luò)中尋找一組有限子集,并根據(jù)影響的級聯(lián)傳遞,使得該子集的影響最大化的問題受到了廣泛的關(guān)注。目前關(guān)于影響最大化的研究對象主要聚焦于實體點(diǎn)(如個人或博客),通過這些實體點(diǎn)的影響關(guān)系,設(shè)計相關(guān)的算法搜索具有最大影響力的k-點(diǎn)組合。但是,在現(xiàn)實生活中,人們的更加趨向于分析團(tuán)體(如社區(qū)或各類人群)組合的影響力,來對即將實施的行為做出指導(dǎo)。
一個團(tuán)體的影響力通常視為其內(nèi)所有“感染”(如采納謠言或購買產(chǎn)品)點(diǎn)的影響力之和。團(tuán)體間的影響本質(zhì)上是團(tuán)體間點(diǎn)的影響,但在基于團(tuán)體粒度上的影響最大化分析,導(dǎo)致了點(diǎn)影響關(guān)系的不可見,從而使得團(tuán)體間影響存在不確定性,同時團(tuán)體作為點(diǎn)的集合可能被多個鄰居同時影響并且狀態(tài)為連續(xù)取值,使得在動態(tài)模擬團(tuán)體影響傳遞時需要建立更加復(fù)雜的規(guī)則來計算影響大小。所以,在基于團(tuán)體粒度上的影響最大化分析時,如何表達(dá)團(tuán)體的不確定性影響并描述團(tuán)體影響傳遞過程是關(guān)鍵與難點(diǎn)。
技術(shù)實現(xiàn)要素:
為了解決上述技術(shù)問題,本發(fā)明提供了一種面向團(tuán)體影響最大化方法。通過使用概率關(guān)聯(lián)的形式描述團(tuán)體影響的不確定性,并通過對團(tuán)體歷史“感染”數(shù)據(jù)進(jìn)行統(tǒng)計計算得到團(tuán)體影響的量值。
本發(fā)明所采用的技術(shù)方案是:
一種面向團(tuán)體的影響最大化確定方法,其特征在于,定義團(tuán)體集M的每一個團(tuán)體mi對應(yīng)的點(diǎn)集為mi(x),從每個mi(x)中選擇一個點(diǎn)組成點(diǎn)集X,記X={x1,...,x|M|}。在疾病cl下,X中任一點(diǎn)xi的是否被感染認(rèn)為是cl對xi的不確定性影響造成的,記xi感染cl的概率為pl(xi),未感染cl的概率為1-pl(xi)。
步驟1:設(shè)定閾值ε,使用團(tuán)體集M構(gòu)造一個以團(tuán)體為結(jié)點(diǎn)的完全圖IG*(M,I,W)。然后在概率空間D上計算點(diǎn)集X中任意兩個點(diǎn)xi、xj的互信息熵Inf(xi,xj),并根據(jù)Inf(xi,xj)和閾值ε閾比較結(jié)果選擇:
若Inf(xi,xj)<ε,說明xi、xj對應(yīng)的團(tuán)體mi、mj不存在關(guān)聯(lián),則直接從圖IG*(M,I,W)中刪去邊Ii,j。
若Inf(xi,xj)≥ε,則計算xi、xj的條件概率獨(dú)立程度ind(xi,xj)來判斷關(guān)聯(lián)類型:若ind(xi,xj)=0,則xi、xj對應(yīng)的團(tuán)體mi、mj不存在直接關(guān)聯(lián),直接從圖IG*(M,I,W)中刪除邊Ii,j;如果ind(xi,xj)>0,說明xi、xj對應(yīng)的團(tuán)體mi、mj存在直接關(guān)聯(lián),則將圖IG*(M,I,W)中的邊Ii,j的權(quán)值設(shè)置為wij=ind(xi,xj)。將刪除IG*(M,I,W)中所有無關(guān)聯(lián)的邊后得到圖記為IG(M,I,W)。X中任意兩個點(diǎn)xi、xj的條件概率獨(dú)立程度的具體計算為:
其中ε為給定的閾值;Inf((xi,xj)|(X-(xi,xj)))為xi和xj關(guān)于{X-(xi,xj)}的條件互信息熵。
步驟2:初始化一個空集S作為種子集。對于團(tuán)體集合M中的每一個團(tuán)體mi,以S∪mi作為備選種子,計算S∪mi的影響范圍σ(S∪mi),選取邊際影響收益σ(S∪mi)-σ(S)最大的mi加入S并從團(tuán)體集合M中刪除該團(tuán)體,重復(fù)此過程直到種子集S的大小達(dá)到預(yù)設(shè)的大小k。每個網(wǎng)絡(luò)中不同k值得到的種子集S的影響范圍函數(shù)σ(S)的計算為:
其中Rj表示團(tuán)體mj中受感染的個體的比例;N(j)表示在圖IG中和mj直接相連的結(jié)點(diǎn)集合;n表示N(j)其中的一個結(jié)點(diǎn);child(j)表示集合N(j)中和S之間存在軌的結(jié)點(diǎn)的集合;c表示child(j)其中的一個結(jié)點(diǎn);wcj表示結(jié)點(diǎn)c和結(jié)點(diǎn)j之間的邊Ic,j的權(quán)值;λ為設(shè)定激活因子。
在上述的一種面向團(tuán)體的影響最大化確定方法,xi被感染或未感染的定義如下:在將同一團(tuán)體內(nèi)的點(diǎn)看作同質(zhì)時,認(rèn)為pl(xi)=Hli。對于點(diǎn)集X中的每一個點(diǎn)xi,使用一個二元變量ei來表示其狀態(tài),ei=1表示xi的狀態(tài)為感染,ei=0表示xi的狀態(tài)為未感染。點(diǎn)集X的一個狀態(tài)取值為Ex=(x1=e1,…,x|M|=e|M|),計算出X在整個疾病集C下以不同狀態(tài)取值Ex出現(xiàn)的概率p(X=Ex),從而得到在同質(zhì)性假設(shè)下H上點(diǎn)集狀態(tài)的完備概率空間D。p(X=Ex)的具體計算為:
其中|C|表示在社會網(wǎng)絡(luò)中總共發(fā)生“疾病”的次數(shù);|M|表示團(tuán)體集M的大??;pl(xi)表示xi“感染”cl的概率;ei是xi的狀態(tài)取值。
在上述的一種面向團(tuán)體的影響最大化確定方法,對于疾病cl的定義為:社會網(wǎng)絡(luò)中,疾病的每次出現(xiàn)引起一次傳播過程,第l次疾病使用cl來表示,并將網(wǎng)絡(luò)中總共發(fā)生的|C|次疾病用集合C={c1…c|C|}表示。當(dāng)cl∈C傳播停止后,網(wǎng)絡(luò)中由|M|個團(tuán)體組成的團(tuán)體集M={m1,...,m|M|}受感染程度記為其中表示團(tuán)體mi在第l次疾病中被感染的比例,并使用一張|C|×|M|二維表H組織整個歷史數(shù)據(jù),表中l(wèi)行第i個元素
在上述的一種面向團(tuán)體的影響最大化確定方法,所述步驟1中,ε∈(0,1)。
在上述的一種面向團(tuán)體的影響最大化確定方法,所述步驟2中,λ∈[0,1]。
因此,本發(fā)明具有如下優(yōu)點(diǎn):本發(fā)明通過團(tuán)體在歷史數(shù)據(jù)上的條件概率獨(dú)立描述團(tuán)體的結(jié)構(gòu)化關(guān)聯(lián),進(jìn)而根據(jù)關(guān)聯(lián)強(qiáng)弱推測其間不確定性影響,并結(jié)合團(tuán)體“感染”程度動態(tài)計算團(tuán)體影響范圍,最后使用貪心算法搜索最大影響力的k-團(tuán)體組合。
附圖說明
圖1是本發(fā)明實施例的流程圖。
圖2a是本發(fā)明實施例的網(wǎng)絡(luò)Net1中k值得到的種子集S的影響范圍圖。
圖2b是本發(fā)明實施例的網(wǎng)絡(luò)Net2中k值得到的種子集S的影響范圍圖。
圖2c是本發(fā)明實施例的網(wǎng)絡(luò)Net3中k值得到的種子集S的影響范圍圖。
圖2d是本發(fā)明實施例的網(wǎng)絡(luò)Dblp中k值得到的種子集S的影響范圍圖。
具體實施方式
為了便于本領(lǐng)域普通技術(shù)人員理解和實施本發(fā)明,下面結(jié)合附圖及實施例對本發(fā)明作進(jìn)一步的詳細(xì)描述,應(yīng)當(dāng)理解,此處所描述的實施示例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
在本實施例中,我們使用了四個網(wǎng)絡(luò)(如表1所示),其中網(wǎng)絡(luò)Net1,Net2和Net3是采用LFR算法在人工數(shù)據(jù)集上生成的人工網(wǎng)絡(luò),Dblp是一個作者合作網(wǎng)絡(luò),其中結(jié)點(diǎn)表示作者,邊表示兩個作者之間存在合作關(guān)系。每個網(wǎng)絡(luò)的歷史數(shù)據(jù)生成過程如下:假定網(wǎng)絡(luò)中點(diǎn)的傳播概率相同,每次“疾病”傳播過程中,從測試網(wǎng)絡(luò)中隨機(jī)選擇1%的點(diǎn)作為“感染”點(diǎn),并根據(jù)IC模型進(jìn)行影響傳播模擬,在傳播模擬結(jié)束后,記錄各個團(tuán)體的“感染”狀態(tài)作為一條記錄,并生成多條記錄作為實驗的觀測數(shù)據(jù)集。
表1實驗網(wǎng)絡(luò)
請見圖1,本發(fā)明包括以下步驟:
步驟1:在社會網(wǎng)絡(luò)中,“疾病”的每次出現(xiàn)引起一次傳播過程,第l次“疾病”使用cl來表示,并將網(wǎng)絡(luò)中總共發(fā)生的|C|次“疾病”用集合C={c1…c|C|}表示。當(dāng)cl∈C傳播停止后,網(wǎng)絡(luò)中由|M|個團(tuán)體組成的團(tuán)體集M={m1,...,m|M|}受“感染”程度記為其中表示團(tuán)體mi在第l次“疾病”中被“感染”的比例,并使用一張|C|×|M|二維表H組織整個歷史數(shù)據(jù),表中l(wèi)行第i個元素
步驟2:設(shè)團(tuán)體集M的每一個團(tuán)體mi對應(yīng)的點(diǎn)集為mi(x),從每個mi(x)中選擇一個點(diǎn)組成點(diǎn)集X,記X={x1,...,x|M|}。在“疾病”cl下,X中任一點(diǎn)xi的是否被“感染”可認(rèn)為是cl對xi的不確定性影響造成的,記xi“感染”cl的概率為pl(xi),“未感染”cl的概率為1-pl(xi)。在將同一團(tuán)體內(nèi)的點(diǎn)看作同質(zhì)時(簡稱為同質(zhì)性假設(shè)),認(rèn)為pl(xi)=Hli。對于點(diǎn)集X中的每一個點(diǎn)xi,使用一個二元變量ei來表示其狀態(tài),ei=1表示xi的狀態(tài)為“感染”,ei=0表示xi的狀態(tài)為“未感染”。設(shè)點(diǎn)集X的一個狀態(tài)取值為Ex=(x1=e1,…,x|M|=e|M|),計算出X在整個“疾病”集C下以不同狀態(tài)取值Ex出現(xiàn)的概率p(X=Ex),從而得到在同質(zhì)性假設(shè)下H上點(diǎn)集狀態(tài)的完備概率空間D。p(X=Ex)的具體計算為:
其中|C|表示在社會網(wǎng)絡(luò)中總共發(fā)生“疾病”的次數(shù);|M|表示團(tuán)體集M的大?。籶l(xi)表示xi“感染”cl的概率;ei是xi的狀態(tài)取值。
步驟3:首先使用團(tuán)體集M構(gòu)造一個以團(tuán)體為結(jié)點(diǎn)的完全圖IG*(M,I,W)。然后在概率空間D上計算點(diǎn)集X中任意兩個點(diǎn)xi、xj的互信息熵Inf(xi,xj),如果Inf(xi,xj)小于給定的閾值ε,說明xi、xj對應(yīng)的團(tuán)體mi、mj不存在關(guān)聯(lián),則直接從圖IG*(M,I,W)中刪去邊Ii,j。如果Inf(xi,xj)≥ε,則進(jìn)一步計算xi、xj的條件概率獨(dú)立程度ind(xi,xj)來判斷關(guān)聯(lián)類型:若ind(xi,xj)=0,說明xi、xj對應(yīng)的團(tuán)體mi、mj不存在直接關(guān)聯(lián),直接從圖IG*(M,I,W)中刪除邊Ii,j;如果ind(xi,xj)>0,說明xi、xj對應(yīng)的團(tuán)體mi、mj存在直接關(guān)聯(lián),則將圖IG*(M,I,W)中的邊Ii,j的權(quán)值設(shè)置為wij=ind(xi,xj)。將刪除IG*(M,I,W)中所有無關(guān)聯(lián)的邊后得到圖記為IG(M,I,W)。X中任意兩個點(diǎn)xi、xj的條件概率獨(dú)立程度的具體計算為:
其中ε為給定的閾值;Inf((xi,xj)|(X-(xi,xj)))為xi和xj關(guān)于{X-(xi,xj)}的條件互信息熵,其中,ε∈(0,1)。
步驟4:初始化一個空集S作為種子集。對于團(tuán)體集合M中的每一個團(tuán)體mi,以S∪mi作為備選種子,計算S∪mi的影響范圍σ(S∪mi),選取邊際影響收益σ(S∪mi)-σ(S)最大的mi加入S并從團(tuán)體集合M中刪除該團(tuán)體,重復(fù)此過程直到種子集S的大小達(dá)到預(yù)設(shè)的大小k。每個網(wǎng)絡(luò)中不同k值得到的種子集S的影響范圍如圖2所示。影響范圍函數(shù)σ(S)的計算為:
其中Rj表示團(tuán)體mj中受感染的個體的比例;N(j)表示在圖IG中和mj直接相連的結(jié)點(diǎn)集合;n表示N(j)其中的一個結(jié)點(diǎn);child(j)表示集合N(j)中和S之間存在軌的結(jié)點(diǎn)的集合;c表示child(j)其中的一個結(jié)點(diǎn);wcj表示結(jié)點(diǎn)c和結(jié)點(diǎn)j之間的邊Ic,j的權(quán)值;λ為設(shè)定激活因子,其中,λ∈[0,1]。
本發(fā)明研究了團(tuán)體影響最大化問題,通過研究使用歷史“感染”數(shù)據(jù)中團(tuán)體的概率關(guān)聯(lián)給出了一種高效的團(tuán)體最大化算法。該方法不依賴于點(diǎn)影響關(guān)系的獲取即可快速定位最有影響力的團(tuán)體種子集。并且當(dāng)網(wǎng)絡(luò)中團(tuán)體數(shù)量遠(yuǎn)小于點(diǎn)數(shù)量時,本文的方法算法較一般算法更高效、更準(zhǔn)確。
應(yīng)當(dāng)理解的是,本說明書未詳細(xì)闡述的部分均屬于現(xiàn)有技術(shù),上述針對較佳實施例的描述較為詳細(xì),并不能因此而認(rèn)為是對本發(fā)明專利保護(hù)范圍的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下,在不脫離本發(fā)明權(quán)利要求所保護(hù)的范圍情況下,還可以做出替換或變形,均落入本發(fā)明的保護(hù)范圍之內(nèi),本發(fā)明的請求保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。