基于抽樣的線性閾值模型下的影響力最大化方法與流程

文檔序號(hào)：11691476閱讀：1882來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于社會(huì)網(wǎng)絡(luò)科學(xué)領(lǐng)域，特別是一種基于抽樣的線性閾值模型下的影響力最大化方法。

背景技術(shù)：

個(gè)體與個(gè)體、群體與個(gè)體之間存在著相互影響的關(guān)系，例如個(gè)體依賴于群體的行為有利于獵食或者減少被捕獲的可能。人類作為具有復(fù)雜交流手段的高級(jí)社會(huì)性動(dòng)物，社會(huì)影響力在社會(huì)生活中更是無(wú)處不在。小到聽(tīng)歌大到政治觀點(diǎn)，我們的決定深刻的受著朋友、親人的影響。深入的認(rèn)識(shí)影響力的產(chǎn)生和傳播模式有助于了解人類的個(gè)體和群體的行為，進(jìn)而可以預(yù)期人們的行為，為政府、機(jī)構(gòu)、企業(yè)等部門提供可靠地依據(jù)。

在計(jì)算機(jī)科學(xué)領(lǐng)域，基于互聯(lián)網(wǎng)和大數(shù)據(jù)的影響力傳播研究也從21世紀(jì)開(kāi)始興起。影響力傳播的研究主要有三大支柱：第一是影響力傳播的模型，主要描述影響力在社交網(wǎng)絡(luò)中如何傳播、有何特點(diǎn)和性質(zhì)；第二是影響力傳播的學(xué)習(xí)，即如何利用網(wǎng)絡(luò)大數(shù)據(jù)挖掘?qū)W習(xí)影響力傳播模式和具體傳播模型的參數(shù)；第三是影響力傳播優(yōu)化，著重于考慮在不同的傳播模型下，如何通過(guò)施加外部作用(比如選取有影響力的初始傳播用戶和改變傳播途徑等)來(lái)擴(kuò)大希望傳播的影響力或者控制和減弱不希望傳播的影響力，也包括有效的監(jiān)控影響力的傳播等。

在傳統(tǒng)的線性閾值模型中，每條有向邊(u,v)∈e上都有一個(gè)權(quán)重w(u,v)∈[0,1]。直觀上來(lái)說(shuō)，w(u，v)反映了節(jié)點(diǎn)u在節(jié)點(diǎn)v的所有鄰居中影響力的重要性占比。要求若是，則節(jié)點(diǎn)v在時(shí)刻t被激活(v∈st)；否者，節(jié)點(diǎn)v仍然保持不活躍狀態(tài)。當(dāng)某一時(shí)刻不再有新的節(jié)點(diǎn)被激活時(shí)，傳播過(guò)程結(jié)束。可以將模型中節(jié)點(diǎn)v的閾值看成一個(gè)節(jié)點(diǎn)對(duì)一個(gè)新實(shí)體的接受傾向：閾值越高，節(jié)點(diǎn)v越不容易被影響；反之，閾值越低越容易被影響。相比于經(jīng)典的獨(dú)立級(jí)聯(lián)模型，節(jié)點(diǎn)v的入鄰居中的任何一個(gè)都不可以單獨(dú)的激活，但幾個(gè)入鄰居聯(lián)合起來(lái)就可能是對(duì)節(jié)點(diǎn)v的影響力權(quán)重超過(guò)了節(jié)點(diǎn)v的閾值，從而使得節(jié)點(diǎn)v被激活。

kemped等人在kemped,kleinbergj,maximizingthespreadofinfluencethroughasocialnetwork[c]//acmsigkddinternationalconferenceonknowledgediscoveryanddatamining.acm,2003:137-146.中提出了“l(fā)ive-edge”的模型(le)，其將統(tǒng)線性閾值模型(lt)下影響力擴(kuò)散看成了一種離散隨機(jī)的過(guò)程。le模型中依據(jù)節(jié)點(diǎn)v的入邊使用賭輪法選取，一旦這一條邊被選中，則將會(huì)被標(biāo)注為‘live’，而這個(gè)節(jié)點(diǎn)的其他節(jié)點(diǎn)則為‘dead’。傳統(tǒng)的lt模型下對(duì)于影響力的估計(jì)需要一個(gè)擴(kuò)散的過(guò)程，這也是lt模型下最為耗時(shí)的部分。

影響力最大化問(wèn)題實(shí)際上是在給定節(jié)點(diǎn)個(gè)數(shù)的情況下，在網(wǎng)絡(luò)中選擇種子節(jié)點(diǎn)，使得最終被激活的節(jié)點(diǎn)數(shù)量最大化。kemped證明了這一個(gè)問(wèn)題是一個(gè)np-hard，所以現(xiàn)有的方法大多是基于貪心算法及其改進(jìn)后的一些算法，貪心算法的時(shí)空復(fù)雜性很高，并且只能是對(duì)最優(yōu)解的一種逼近。在大規(guī)模網(wǎng)絡(luò)(超過(guò)500k條邊)中使用貪心算法帶來(lái)的開(kāi)銷是難以忍受的。而且選擇不同的種子節(jié)點(diǎn)的個(gè)數(shù)的種子集合時(shí)，都需要重新計(jì)算，在線社交網(wǎng)絡(luò)分析中顯示出較大的弊端。

chernoff界是一種常用的抽樣方法，其依據(jù)于置信度、誤差和樣本期望就可以得出需要抽樣的樣本大小，抽樣后的樣本在置信度下對(duì)全部樣本具有充分的代表性；得到有向圖中路徑的準(zhǔn)確的數(shù)學(xué)期望，一般使用隨機(jī)游走的方法，方法精度不是太好。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明所解決的技術(shù)問(wèn)題在于提供一種基于抽樣的線性閾值模型下的影響力最大化方法，提出了節(jié)點(diǎn)影響力指標(biāo)pr(u)，在面對(duì)不同大小的種子集合時(shí)可以一次計(jì)算，多次選??；本發(fā)明采用于基于抽樣的方法，克服了傳統(tǒng)線性閾值算法在進(jìn)行多次計(jì)算種子集合時(shí)面臨的時(shí)間復(fù)雜度高、空間復(fù)雜度高等問(wèn)題。

本發(fā)明與現(xiàn)有技術(shù)相比，其顯著優(yōu)點(diǎn)：

(1)該方法不僅能對(duì)最終影響力做出預(yù)測(cè)，而且通過(guò)計(jì)算節(jié)點(diǎn)的影響力指標(biāo)可以實(shí)現(xiàn)一次計(jì)算，多次選取種子集合，因此本發(fā)明的方法計(jì)算速度較快，顯著提高了可重用性。

(2)該方法在初期不需要固定種子節(jié)點(diǎn)的數(shù)量，具有較高的靈活性能。

(3)本發(fā)明的計(jì)算開(kāi)銷及存儲(chǔ)開(kāi)銷和傳統(tǒng)的線性閾值算法相當(dāng)，但是卻可以取得更高質(zhì)量的預(yù)測(cè)結(jié)果。

實(shí)現(xiàn)本發(fā)明目的的技術(shù)解決方案為：

一種基于抽樣的線性閾值模型下的影響力最大化方法，包括以下步驟：

步驟1、根據(jù)有向圖中一個(gè)節(jié)點(diǎn)對(duì)另一個(gè)節(jié)點(diǎn)的影響力，計(jì)算出有向圖g的所有可能世界g′的集合w(g)；

步驟2、計(jì)算得到路徑的激活概率：包括路徑存在的概率i(s,v,g′)、可能世界的概率pr(g′)；

步驟3、使用chernoff界和設(shè)定的參數(shù)(數(shù)學(xué)期望μ、誤差ε、置信度δ)得到抽樣后樣本個(gè)數(shù)r；依據(jù)抽樣后的樣本個(gè)數(shù)r在可能世界集合w(g)中選取無(wú)偏抽樣集合u(g′)；

步驟4、計(jì)算有向圖g中每一個(gè)節(jié)點(diǎn)v在無(wú)偏抽樣集合u(g′)中的每一個(gè)可能世界下的種子集合s影響力大小函數(shù)σ(s)；

步驟5、計(jì)算每一個(gè)節(jié)點(diǎn)u的影響力指標(biāo)pr(u)和最終的影響力大小函數(shù)σ(s)，依據(jù)種子集合的個(gè)數(shù)確定種子集合s。

下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。

附圖說(shuō)明

圖1為本發(fā)明的流程示意圖。

具體實(shí)施方式

結(jié)合圖1，本發(fā)明的一種基于抽樣的線性閾值模型下的影響力最大化方法，包括以下步驟：

步驟1、根據(jù)有向圖中一個(gè)節(jié)點(diǎn)對(duì)另一個(gè)節(jié)點(diǎn)的影響力(在邊上)，計(jì)算出有向圖g的所有可能世界g′的集合w(g)，

有向圖中節(jié)點(diǎn)u對(duì)節(jié)點(diǎn)v的影響力存儲(chǔ)在邊(u,v)上的值介于0和1之間，數(shù)值越大則說(shuō)明節(jié)點(diǎn)間的影響力越大，節(jié)點(diǎn)v越容易被節(jié)點(diǎn)u所影響。其中(u,v)被作為u和v之間的有向邊存在的概率，采用monto-carlo方法進(jìn)行多次模擬可以得到所有可能世界的集合w(g)；

步驟2、計(jì)算得到路徑的激活概率：包括路徑存在的概率i(s,v,g′)、可能世界的概率pr(g′)：

2.1、計(jì)算路徑存在的概率i(s,v,g′)：

對(duì)于由種子集合s出發(fā)得到的所有路徑計(jì)算得出∑v∈vi(s,v,g′)，從種子集合s中出發(fā)在可能世界g′上進(jìn)行游走最終可達(dá)到節(jié)點(diǎn)v，i(s,v,g′)則記為1，具體的計(jì)算如下：

其中v是有向圖中的單個(gè)節(jié)點(diǎn)，v是有向圖g節(jié)點(diǎn)的集合；

2.2、計(jì)算可能世界存在的概率pr(g′)：

由于一個(gè)可能世界g′是對(duì)邊的抽樣得到的，那么可能世界g′存在的概率可以依據(jù)在有向圖g中每一條邊存在或者不存在的概率來(lái)得到，即

∏e∈e′p(e)∏e∈e-e′[1-p(e)]計(jì)算得到pr(g′)，

其中，e是有向圖g中所有的邊，e′是在可能世界g′中存在的邊，p(e)是邊e存在的概率；

3.1使用chernoff界和設(shè)定的參數(shù)(數(shù)學(xué)期望μ、誤差ε、置信度δ)得到抽樣后樣本的個(gè)數(shù)r：

定義g′i是抽樣后可能世界集合u(g′)的第i個(gè)具體的可能世界。

定義i1,i2,i3,……ir為可能世界g′1,g′2,g′3,……g′r的變量i(s,v,g′)，且數(shù)學(xué)期望μ＝e[g′i]，其中ii(i∈[1,r])為g′i的變量i(s,v,g′)的值，g′i為抽樣后第i個(gè)可能世界。

運(yùn)用chernoff界抽樣，設(shè)|u(g′)|＝r為抽樣樣本的個(gè)數(shù)，μ是g′i的數(shù)學(xué)期望，δ為置信度，ε為誤差，如果則有

則即所需計(jì)算路徑的數(shù)學(xué)期望。

對(duì)于給定的概率δ，如果取則使抽樣后樣本的計(jì)算結(jié)果相對(duì)于抽樣前樣本的計(jì)算結(jié)果在置信度δ下小于給定的誤差ε。

在路徑抽樣中，由于相連邊的概率的連乘使得連續(xù)邊的概率很小，因此路路徑存在時(shí)路徑長(zhǎng)度不會(huì)太長(zhǎng)，設(shè)定ρ為在路徑抽樣長(zhǎng)度，在路徑抽樣中路徑長(zhǎng)度小于ρ的路徑忽略不計(jì)，這樣便省去了估計(jì)數(shù)學(xué)期望μ，得到

在實(shí)際應(yīng)用中，參數(shù)ρ可以依據(jù)圖中邊的傳播概率的大小，多次選取，逐步調(diào)優(yōu)。

3.2：依據(jù)抽樣樣本個(gè)數(shù)r在可能世界集合w(g)中選取無(wú)偏抽樣集合u(g′)

依據(jù)抽樣樣本個(gè)數(shù)r，在可能世界集合w(g)中進(jìn)行隨機(jī)選取r個(gè)可能世界g′，得到無(wú)偏抽樣集合u(g′)。

步驟4、計(jì)算有向圖g中每一個(gè)節(jié)點(diǎn)v在無(wú)偏抽樣集合u(g′)中的每一個(gè)可能世界下的種子集合s影響力大小函數(shù)σ(s)；

依據(jù)于lt模型等價(jià)于一個(gè)‘live-edge’模型，只需要計(jì)算通過(guò)由種子集合s可達(dá)的節(jié)點(diǎn)的路徑數(shù)量就可以進(jìn)行計(jì)算影響力大小函數(shù)σ(s)；

將影響力大小函數(shù)寫成：

其中，pr(u,v)表示節(jié)點(diǎn)u到節(jié)點(diǎn)v在可能世界g′下存在路徑的概率，也代表了節(jié)點(diǎn)被節(jié)點(diǎn)u影響的概率。

步驟5、計(jì)算每一個(gè)節(jié)點(diǎn)u的影響力指標(biāo)pr(u)和最終的影響力大小函數(shù)σ(s)，依據(jù)種子集合的個(gè)數(shù)確定種子集合s；

5.1計(jì)算每一個(gè)節(jié)點(diǎn)的影響力指標(biāo)pr(u)和最終的影響力大小函數(shù)σ(s)：

對(duì)步驟4中的pr(u,v)進(jìn)行累加得到節(jié)點(diǎn)u的影響力指標(biāo)：

pr(u)＝∑v∈v-upr(u,v)

則最終的影響力大小函數(shù)可以改寫為σ(s)＝∑u∈spr(u)。

5.2依據(jù)種子集合的個(gè)數(shù)確定種子集合s：

對(duì)種子集合s的最終擴(kuò)散的影響力的衡量就可以通過(guò)每一個(gè)節(jié)點(diǎn)的影響力指標(biāo)pr(u)的大小可以直觀上的反應(yīng)，要寫選取最終影響力大的種子節(jié)點(diǎn)必然是那些影響力指標(biāo)較大的節(jié)點(diǎn)，對(duì)影響力指標(biāo)pr(u)從大到小進(jìn)行排序后，根據(jù)種子節(jié)點(diǎn)的個(gè)數(shù)依據(jù)節(jié)點(diǎn)影響力指標(biāo)pr(u)從大到小進(jìn)行選擇種子集合s。這樣就可以一次計(jì)算，多次選取，在大規(guī)模的社交網(wǎng)絡(luò)分析中，可以節(jié)省多次計(jì)算的時(shí)間。

本發(fā)明采用影響力最終擴(kuò)散的節(jié)點(diǎn)數(shù)量作為衡量的指標(biāo)，在epinions、slashdot、facebook、twitter、dblp和wiki-vote等數(shù)據(jù)集上經(jīng)過(guò)測(cè)試；結(jié)合圖2，本發(fā)明在epinions上和其他方法最終影響力擴(kuò)散的大小進(jìn)行比較，最終的激活節(jié)點(diǎn)的個(gè)數(shù)比pagerank、degreediscountic方法選取的種子所激活的節(jié)點(diǎn)數(shù)量更高，因此本發(fā)明所選擇的種子的影響力更高；且本方法可以靈活的選取種子節(jié)點(diǎn)的數(shù)量，并獲取影響力較大的種子集合s，相比于其他現(xiàn)有的方法，本方法一次計(jì)算，多次選取，節(jié)省了多次計(jì)算所需要的時(shí)間，具有較好的實(shí)用性和經(jīng)濟(jì)效益。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳崚;賈蘇
技術(shù)所有人：揚(yáng)州大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

閾值相關(guān)技術(shù)

閾值分割相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于抽樣的線性閾值模型下的影響力最大化方法與流程