一種基于成本效益的影響最大化方法
【專利摘要】本發(fā)明公開了一中基于成本效益的影響最大化方法,針對處理好的新浪微博網(wǎng)絡(luò)和固定的預(yù)算,首先在分析網(wǎng)絡(luò)拓?fù)淠P秃托畔鞑ヌ卣鞯幕A(chǔ)上對節(jié)點的成本進(jìn)行建模,給出節(jié)點成本的計算方法;然后基于信號傳播模型對節(jié)點的影響力進(jìn)行建模,提出了節(jié)點概率覆蓋模型;設(shè)計了惰性節(jié)點選擇算法,根據(jù)節(jié)點的概率覆蓋模型和節(jié)點的邊際收益計算方法得到節(jié)點概率覆蓋范圍的邊際收益,將節(jié)點概率覆蓋范圍的邊際收益與節(jié)點成本的比值作為選擇標(biāo)準(zhǔn),選擇種子節(jié)點集合,分別在固定概率的獨立級聯(lián)模型和變概率下的獨立級聯(lián)模型上進(jìn)行實驗得到種子節(jié)點最終的影響范圍。
【專利說明】
-種基于成本效益的影響最大化方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及一種基于成本效益的影響最大化方法,屬于社會計算領(lǐng)域,特別是社 交網(wǎng)絡(luò)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的飛速發(fā)展W及人們對信息時代新型社交形式的探索,大量的社交網(wǎng) 絡(luò)服務(wù)(SNS)應(yīng)運而生,例如國外的化cebook、TwitterW及國內(nèi)的人人網(wǎng)和新浪微博等。人 們在網(wǎng)絡(luò)中因不同的社會關(guān)系和人際互動而形成不同的社會網(wǎng)絡(luò),運些在線社交網(wǎng)絡(luò)大大 降低了人們社交的時間和物質(zhì)成本,并且在很大程度上將線下真實的人際關(guān)系網(wǎng)絡(luò)復(fù)制到 了線上,真實地反映了人們的社會關(guān)系,社交網(wǎng)絡(luò)在改變?nèi)藗兩罘绞降耐瑫r,也為科研工 作者提供了一個良好的研究平臺。
[0003] 信息時代下,依托社交網(wǎng)絡(luò)產(chǎn)生了一種全新的營銷模式一一"病毒式營銷"(viral marketing),病毒營銷的基礎(chǔ)是"口碑效應(yīng)"(word-of-mouth),通過鼓勵目標(biāo)受眾,把想要 推廣的信息像病毒一樣傳遞給周圍的人,讓每一個受眾都成為傳播者,讓要推廣的信息在 曝光率和營銷上產(chǎn)生幾何級的增長速度。
[0004] 確定有影響力的個人或群體作為最初的目標(biāo)受眾是病毒營銷最關(guān)鍵的步驟,商家 希望要推廣的產(chǎn)品可W影響到盡可能多的人,也即將自己的影響力最大化。但是,在W往對 影響最大化問題的研究中,人們忽略了重要的一點,就是在選擇初始受眾時對各個節(jié)點要 付出的成本。許多學(xué)者在選擇初始受眾時,對選擇不同節(jié)點所要付出的成本"一視同仁",然 而事實并非如此,請明星做推廣與普通人做推廣所需要的花費相差巨大,不同的明星之間 也是千差萬別。
【發(fā)明內(nèi)容】
[0005] 發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明提出一種基于成本效益的影響最 大化方法,給定網(wǎng)絡(luò)和預(yù)算,在分析網(wǎng)絡(luò)拓?fù)淠P秃托畔鞑ヌ卣鞯幕A(chǔ)上對節(jié)點成本進(jìn) 行建模,經(jīng)過對影響力的傳播分析后,提出了節(jié)點的概率覆蓋模型,設(shè)計了選擇初始種子集 合的方法,使得最終種子集合的影響范圍得W提高。
[0006] 技術(shù)方案:一種基于成本效益的影響最大化方法,給定一個網(wǎng)絡(luò)和固定的預(yù)算,在 花費不超過預(yù)算的情況下選擇一個初始節(jié)點集合來傳播所述初始節(jié)點集合的影響力,使得 最終受到影響的節(jié)點數(shù)量最多;包括如下步驟:
[0007] 1)對從新浪微博獲取的數(shù)據(jù)集進(jìn)行預(yù)處理,剔除不活躍的用戶節(jié)點,得到新浪微 博關(guān)注關(guān)系的子圖;
[000引2)分析步驟1)所得子圖的網(wǎng)絡(luò)拓?fù)淠P秃托畔鞑ヌ卣鳎瑢W(wǎng)絡(luò)中用戶節(jié)點的成 本進(jìn)行建模,給出節(jié)點成本的計算方法為:
[0009] cost(v) =degree(v) (I)
[0010] 其中:COSt(V)表示節(jié)點V的成本,degree(v)表示節(jié)點V的粉絲數(shù)或好友數(shù);
[0011] 3)基于步驟2)所得信號傳播特征設(shè)計節(jié)點概率覆蓋模型,根據(jù)節(jié)點概率覆蓋模型 和節(jié)點的邊際收益計算方法得到節(jié)點概率覆蓋范圍的邊際收益;具體步驟如下:
[0012] (1)節(jié)點V的最短路徑為:
[0013] SP(s,v)=<s,si,???,¥> (2)
[0014] (2)節(jié)點S到V的最短距離:
[0015] dis1:ance(s, V) = I SP(s, V) I-1 (3)
[0016] (3)節(jié)點S到V的影響力傳播路徑:
[0017] Path(s,v)=<s,sl,...,v〉 (4)
[0018] 其中:dis1:ance(s,s)《distance(s,sl)《…《distance(s,v),從節(jié)點s開始經(jīng)過 一條路徑激活節(jié)點V,運條路徑上的節(jié)點順序只能是離S越來越遠(yuǎn),只允許節(jié)點向相對源點S 更遠(yuǎn)的節(jié)點傳播影響力,而禁止一個節(jié)點向比自己近的節(jié)點傳播影響力,同時,為了避免節(jié) 點概率覆蓋范圍的重復(fù),從源節(jié)點出發(fā)到其它節(jié)點的影響力傳播路徑不會經(jīng)過已經(jīng)處于激 活態(tài)的節(jié)點,即權(quán)Si,n A = 0,A為待選種子集合;
[0019] (4)節(jié)點S沿影響力傳播路徑化th(s,v)傳播給V的信號量強度為:
[0020]
(5)
[0021] 其中:卵(Si,Si+i)是影響力傳播路徑中S擁節(jié)點Si+i的影響概率;因為節(jié)點巧Ij節(jié)點 V有許多條概率傳播路徑,給定一個闊值0,規(guī)定只取路徑傳播概率不小于0的概率傳播路 徑;
[0022] (5)節(jié)點V接收到節(jié)點S的影響力信號累計為:
[002;3] Prob(S)V) = Ep(Path(s,v))>0p(F*a1:h(s, V)) (6)
[0024] (6)節(jié)點S的概率覆蓋范圍為:
[00 巧]Probcover(S) = EvevProb(SiV) (7)
[0026] (7)節(jié)點S的概率覆蓋范圍的邊際收益為:
[0027] MGs,A=ProbCover(AU {s} )-Probcover(A) (8)
[00%] 4)將步驟3)得到的節(jié)點概率覆蓋范圍的邊際收益與節(jié)點成本的比值MGv,A/cost (V)作為選擇初始種子節(jié)點集合的標(biāo)準(zhǔn),選擇性價比最優(yōu)的節(jié)點;
[0029] 5)分別在固定概率的獨立級聯(lián)模型和變概率下的獨立級聯(lián)模型上進(jìn)行模擬傳播 實驗,得出種子集合最終的影響范圍。
[0030] 進(jìn)一步的,步驟1所述的數(shù)據(jù)集為通過爬蟲程序從新浪微博API (應(yīng)用程序編程接 口)獲得。
[0031] 進(jìn)一步的,步驟1)所述的剔除不活躍的用戶節(jié)點的具體方法為:設(shè)定一個闊值曰, 對爬蟲程序中爬取數(shù)據(jù)的時間段內(nèi)所發(fā)微博數(shù)目大于闊值〇的用戶保留下來,其余用戶將 作為不活躍用戶被剔除。
[0032] 進(jìn)一步的,所述步驟5)具體如下:在固定概率的情況下,兩個節(jié)點間的影響概率Puv 是一個系統(tǒng)常量;在變概率的情況下,由于新浪微博網(wǎng)絡(luò)中,用戶之間通過轉(zhuǎn)發(fā)和評論進(jìn)行 動態(tài)交互,節(jié)點之間的傳播概率由節(jié)點間的交互強度決定,節(jié)點U對節(jié)點V的傳播概率為:
[0033]
冷。
[0034] 進(jìn)一步的,采用惰性計算方法計算節(jié)點的概率覆蓋范圍的邊際收益。
[0035] 有益效果:本發(fā)明采用如上技術(shù)方案,具有如下優(yōu)點:
[0036] 1、考慮到節(jié)點推廣成本的差異,不同的人推廣成本各異,更符合現(xiàn)實情況的需求;
[0037] 2、引入了節(jié)點的概率覆蓋模型,綜合考慮網(wǎng)絡(luò)拓?fù)浜蛡鞑ツP偷奶攸c,用節(jié)點的 概率覆蓋范圍來衡量節(jié)點的影響力,比一般從節(jié)點自身屬性出發(fā)來標(biāo)識節(jié)點影響力,比如 節(jié)點的度數(shù)、介數(shù)、聚類系數(shù)等更為準(zhǔn)確;
[0038] 3、利用了子模函數(shù)的特性,減少不必要的重復(fù)計算;
[0039] 4、在成本一定的情況下,種子節(jié)點集合的影響范圍更大。
【附圖說明】
[0040] 圖1為本發(fā)明的種子集合選取流程圖;
[0041] 圖2為本發(fā)明的整體系統(tǒng)框架圖。
【具體實施方式】
[0042] 下面結(jié)合具體實施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解運些實施例僅用于說明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等同 變換均落于本申請所附權(quán)利要求所限定的范圍。
[0043] 本發(fā)明所述的一種基于成本效益的影響最大化方法,給定一個網(wǎng)絡(luò)和固定的預(yù) 算,在花費不超過預(yù)算的情況下選擇一個初始節(jié)點集合來傳播所述初始節(jié)點集合的影響 力,使得最終受到影響的節(jié)點數(shù)量最多;包括如下步驟:
[0044] 1)對從新浪微博獲取的數(shù)據(jù)集進(jìn)行預(yù)處理,剔除不活躍的用戶節(jié)點,得到新浪微 博關(guān)注關(guān)系的子圖;所述的數(shù)據(jù)集為通過爬蟲程序從新浪微博API(應(yīng)用程序編程接口)獲 得。所述的剔除不活躍的用戶節(jié)點的具體方法為:設(shè)定一個闊值0,對爬蟲程序中爬取數(shù)據(jù) 的時間段內(nèi)所發(fā)微博數(shù)目大于闊值O的用戶保留下來,其余用戶將作為不活躍用戶被剔除。
[0045] 2)分析步驟1)所得子圖的網(wǎng)絡(luò)拓?fù)淠P秃托畔鞑ヌ卣?,對網(wǎng)絡(luò)中用戶節(jié)點的成 本進(jìn)行建模,社交網(wǎng)絡(luò)的拓?fù)湫再|(zhì)決定了不同位置的用戶節(jié)點具有不同的重要性,處于網(wǎng) 絡(luò)中屯、位置的用戶有更大的節(jié)點度數(shù),在信息傳播的過程中更有可能取得鄰居節(jié)點的信任 并起到信息傳遞的橋梁紐帶作用,在產(chǎn)品的推廣過程中,運些節(jié)點的傳播影響力更大。根據(jù) W上分析,給出節(jié)點成本的計算方法為:
[0046] cost(v) =degree(v) (I)
[0047] 其中:COSt(V)表示節(jié)點V的成本,degree(v)表示節(jié)點V的粉絲數(shù)或好友數(shù);廣告商 在利用社交平臺做推廣時,通常根據(jù)用戶的粉絲數(shù)或好友數(shù)來支付相應(yīng)的報酬,節(jié)點用戶 的粉絲數(shù)越高,節(jié)點的成本越高。
[004引3)基于步驟2)所得信號傳播特征設(shè)計節(jié)點概率覆蓋模型,根據(jù)節(jié)點概率覆蓋模型 和節(jié)點的邊際收益計算方法得到節(jié)點概率覆蓋范圍的邊際收益;把節(jié)點的影響力看做是一 種信號,假設(shè)節(jié)點S是一個信息源,W它為中屯、向周圍發(fā)射信號(也即傳播影響力),信號向 外傳播時會根據(jù)邊上的概率衰減,其他節(jié)點接收到信號后會累積記錄下自己收到的信號 量,并且規(guī)定信號只能Ws為中屯、向外擴(kuò)散傳播,也即信號在傳播的過程中是由距離S近的 節(jié)點傳遞給距離S遠(yuǎn)的節(jié)點,而信號衰減到一定程度后也會停止傳播,最后統(tǒng)計所有節(jié)點收 到的信號量之和,那么節(jié)點S傳播出去的信號量越大就認(rèn)為它的影響力越強。具體步驟如 下:
[0049] (I)節(jié)點V的最短路徑為:
[0050] SP(s,v)=<s,si,???,¥> (2)
[0051] (2)節(jié)點S到V的最短距離:
[0052] dis1:ance(s, V) = I SP(s, V) I-1 (3)
[0053] (3)節(jié)點S到V的影響力傳播路徑:
[0054] Path(s,v)=<s,sl,...,v〉 (4)
[0化5]其中:dis1:ance(s,s)《distance(s,sl)《…《distance(s,v),從節(jié)點s開始經(jīng)過 一條路徑激活節(jié)點V,運條路徑上的節(jié)點順序只能是離S越來越遠(yuǎn),只允許節(jié)點向相對源點S 更遠(yuǎn)的節(jié)點傳播影響力,而禁止一個節(jié)點向比自己近的節(jié)點傳播影響力,同時,為了避免節(jié) 點概率覆蓋范圍的重復(fù),從源節(jié)點出發(fā)到其它節(jié)點的影響力傳播路徑不會經(jīng)過已經(jīng)處于激 活態(tài)的節(jié)點,即
A為待選種子集合;
[0056] (4)節(jié)點S沿影響力傳播路徑化th(s,v)傳播給V的信號量強度為:
[0化7]
說
[005引其中:pp(si,sw)是影響力傳播路徑中S擁節(jié)點SW的影響概率;因為節(jié)點巧IJ節(jié)點 V有許多條概率傳播路徑,給定一個闊值0,規(guī)定只取路徑傳播概率不小于0的概率傳播路 徑;
[0059] (5)節(jié)點V接收到節(jié)點S的影響力信號累計為:
[0060] Prob(S)V)= Xp(Path(s,v))>0P(F*a1:h(s,V)) (6)
[0061] (6)節(jié)點S的概率覆蓋范圍為:
[0062] ProbCover (s) = E vevProb (s, v) (7)
[0063] (7)節(jié)點S的概率覆蓋范圍的邊際收益為:
[0064] MGs,A=ProbCover(A U {s} )-Probcover(A) (8)
[0065] 此處,如果初始節(jié)點集合A較大即處于激活態(tài)節(jié)點的數(shù)量較多,運時從源節(jié)點出發(fā) 到達(dá)節(jié)點V的影響力傳播路徑有可能減少,那么節(jié)點V所能獲得的影響力累積也會隨之減 少。相應(yīng)的,該節(jié)點的概率覆蓋范圍也會隨著初始節(jié)點集合的增大而減小,可W假設(shè)有兩個 初始節(jié)點集合S和T,且S是T的子集,節(jié)點V加入到兩個不同的初始節(jié)點集合所得到的概率覆 蓋范圍的邊際收益滿足:
[0066]
(9)
[0067] 公式(8)(9)說明節(jié)點概率覆蓋范圍計算方法符合子模函數(shù)的特性,節(jié)點V在當(dāng)前 輪數(shù)所能獲得的邊際收益不會超過之前輪數(shù)所能獲得的邊際收益,即符合子模特性,就可 W根據(jù)惰性計算方法減少不必要的重復(fù)計算。
[0068] 4)將步驟3)得到的節(jié)點概率覆蓋范圍的邊際收益與節(jié)點成本的比值MGv,A/cost (V)作為選擇初始種子節(jié)點集合的標(biāo)準(zhǔn),選擇性價比最優(yōu)的節(jié)點;
[0069] 5)分別在固定概率的獨立級聯(lián)模型和變概率下的獨立級聯(lián)模型上進(jìn)行模擬傳播 實驗,得出種子集合最終的影響范圍。具體如下:在固定概率的情況下,兩個節(jié)點間的影響 概率Puv是一個系統(tǒng)常量;在變概率的情況下,由于新浪微博網(wǎng)絡(luò)中,用戶之間通過轉(zhuǎn)發(fā)和評 論進(jìn)行動態(tài)交互,節(jié)點之間的傳播概率由節(jié)點間的交互強度決定,節(jié)點U對節(jié)點V的傳播概 率為:
[0070]
(10)。
[0071] W上實施例僅為說明本發(fā)明的技術(shù)思想,不能W此限定本發(fā)明的保護(hù)范圍,凡是 按照本發(fā)明提出的技術(shù)思想,在技術(shù)方案基礎(chǔ)上所做的任何改動,均落入本發(fā)明保護(hù)范圍 之內(nèi)。
【主權(quán)項】
1. 一種基于成本效益的影響最大化方法,其特征在于,給定一個網(wǎng)絡(luò)和固定的預(yù)算,在 花費不超過預(yù)算的情況下選擇一個初始節(jié)點集合來傳播所述初始節(jié)點集合的影響力,使得 最終受到影響的節(jié)點數(shù)量最多;包括如下步驟: 1) 對從新浪微博獲取的數(shù)據(jù)集進(jìn)行預(yù)處理,剔除不活躍的用戶節(jié)點,得到新浪微博關(guān) 注關(guān)系的子圖; 2) 分析步驟1)所得子圖的網(wǎng)絡(luò)拓?fù)淠P秃托畔鞑ヌ卣?,對網(wǎng)絡(luò)中用戶節(jié)點的成本進(jìn) 行建模,給出節(jié)點成本的計算方法為: cost(v) =degree(v) (1) 其中:cost (V)表示節(jié)點V的成本,degree(v)表示節(jié)點V的粉絲數(shù)或好友數(shù); 3) 基于步驟2)所得信息傳播特征設(shè)計節(jié)點概率覆蓋模型,根據(jù)節(jié)點概率覆蓋模型和節(jié) 點的邊際收益計算方法得到節(jié)點概率覆蓋范圍的邊際收益;具體步驟如下: (1) 節(jié)點V的最短路徑為: SP(s,v) = <s,sl ,··· ,v> (2) (2) 節(jié)點8到?的最短距離: distance(s,v)=|SP(s,v)|-I (3) (3) 節(jié)點s到v的影響力傳播路徑: Path(s,v) = <s,si ,·' (4) 其中:虹8七&11〇6(8,8)<(118七&11〇6(8,81)^^"<(118七&11〇6(8,¥),|8,.51,.,..,¥}〇/\ = 0;( A為待選種子集合; (4) 節(jié)點s沿影響力傳播路徑Path(s,v)傳播給v的信號量強度為: p(Paih(s,.V)): = Π? PP (Wf J , n = |Path(s',. v)| - I (5) 其中:PP ( Si,Si+l )是影響力傳播路徑中Si對節(jié)點Si+l的影響概率;給定一個閾值θ,規(guī)定 只取路徑傳播概率不小于Θ的概率傳播路徑; (5) 節(jié)點V接收到節(jié)點s的影響力信號累計為: Prob(s ,v) = EP(Path(s,v))^0p(Path(s, ν)) (6) (6) 節(jié)點s的概率覆蓋范圍為: ProbCover (s) = Σ vevProb (s, v) (7) (7) 節(jié)點s的概率覆蓋范圍的邊際收益為: MGs, a=ProbCover(A U{s})-Probcover(A) (8) 4) 將步驟3)得到的節(jié)點概率覆蓋范圍的邊際收益與節(jié)點成本的比值MGv,A/C〇st( V)作 為選擇初始種子節(jié)點集合的標(biāo)準(zhǔn),選擇性價比最優(yōu)的節(jié)點; 5) 分別在固定概率的獨立級聯(lián)模型和變概率下的獨立級聯(lián)模型上進(jìn)行模擬傳播實驗, 得出種子集合最終的影響范圍。2. 根據(jù)權(quán)利要求1所述的基于成本效益的影響最大化方法,其特征在于,步驟1所述的 數(shù)據(jù)集為通過爬蟲程序從新浪微博API獲得。3. 根據(jù)權(quán)利要求2所述的基于成本效益的影響最大化方法,其特征在于,步驟1)所述的 剔除不活躍的用戶節(jié)點的具體方法為:設(shè)定一個閾值〇,對爬蟲程序中爬取數(shù)據(jù)的時間段內(nèi) 所發(fā)微博數(shù)目大于閾值σ的用戶保留下來,其余用戶將作為不活躍用戶被剔除。4. 根據(jù)權(quán)利要求1所述的基于成本效益的影響最大化方法,其特征在于,所述步驟5)具 體如下:在固定概率的情況下,兩個節(jié)點間的影響概率Puv是一個系統(tǒng)常量;在變概率的情況 下,由于新浪微博網(wǎng)絡(luò)中,用戶之間通過轉(zhuǎn)發(fā)和評論進(jìn)行動態(tài)交互,節(jié)點之間的傳播概率由 節(jié)點間的交互強度決定,節(jié)點U對節(jié)點V的傳播概率為: _ 轉(zhuǎn)發(fā)U的微博數(shù)i V評論U的微博數(shù) puv = ^~U的微博數(shù)~十~U的微博數(shù)~)丨 ^ 一5.根據(jù)權(quán)利要求1所述的基于成本效益的影響最大化方法,其特征在于,采用惰性計算 方法計算節(jié)點的概率覆蓋范圍的邊際收益。
【文檔編號】G06Q30/02GK106022821SQ201610319986
【公開日】2016年10月12日
【申請日】2016年5月13日
【發(fā)明人】曹玖新, 薛凌云, 趙釗, 劉波
【申請人】東南大學(xué)