本發(fā)明屬于計算機(jī)
技術(shù)領(lǐng)域:
,涉及一種在線社會網(wǎng)絡(luò)中影響力最大化初始節(jié)點(diǎn)選取方法。
背景技術(shù):
:隨著在線社會網(wǎng)絡(luò)的發(fā)展,如Google+,Facebook等在線社交平臺已成為信息傳播的重要渠道。正如信息在網(wǎng)絡(luò)節(jié)點(diǎn)中的傳播過程一樣,影響力借助“口碑效應(yīng)”和“病毒式營銷”方式級聯(lián)性地在網(wǎng)絡(luò)中擴(kuò)散開來。如何最大限度地利用在線社會網(wǎng)絡(luò)信息傳播的特性,并發(fā)掘個人所蘊(yùn)含的潛在影響力大小,成為許多亟待解決的問題之一,因此,影響力最大化問題的研究具有至關(guān)重要的意義,如何找到初始用戶群體使得信息最終的影響傳播范圍最大已成為熱點(diǎn)研究領(lǐng)域之一。影響力最大化就是尋找網(wǎng)絡(luò)中最具影響力的初始關(guān)鍵節(jié)點(diǎn),使得信息最終的傳播范圍最廣。在現(xiàn)實(shí)社會網(wǎng)絡(luò)中,影響力傳播與話題、用戶標(biāo)簽、用戶網(wǎng)絡(luò)結(jié)構(gòu)、用戶行為偏好息息相關(guān)。當(dāng)前大多數(shù)工作是對基于IC模型(獨(dú)立級聯(lián)模型)和LT模型(線性閾值模型)的啟發(fā)策略進(jìn)行改進(jìn)或是結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)提高算法的執(zhí)行效率,并沒有考慮社會網(wǎng)絡(luò)中異構(gòu)節(jié)點(diǎn)之間的復(fù)雜影響作用。在影響力傳播時,節(jié)點(diǎn)對于信息的偏好程度,以及擁有共同標(biāo)簽和朋友的用戶對于他們之間影響力的提升作用很少被研究并作為初始節(jié)點(diǎn)的評判依據(jù)。因此,有必要提供一種更為完善的在線社會網(wǎng)絡(luò)中影響力最大化初始節(jié)點(diǎn)選取方法。技術(shù)實(shí)現(xiàn)要素:本發(fā)明所解決的技術(shù)問題是,針對現(xiàn)有技術(shù)的不足,提出一種在線社會網(wǎng)絡(luò)中影響力最大化初始節(jié)點(diǎn)選取方法,基于在線社會網(wǎng)絡(luò)用戶行為記錄和異構(gòu)節(jié)點(diǎn)關(guān)聯(lián)關(guān)系,求解最大邊際收益節(jié)點(diǎn)作為影響力最大化初始節(jié)點(diǎn),結(jié)果更加準(zhǔn)確和可靠。本發(fā)明的技術(shù)方案為:一種在線社會網(wǎng)絡(luò)中影響力最大化初始節(jié)點(diǎn)選取方法,包括以下步驟:步驟1:對在線社會網(wǎng)絡(luò)的數(shù)據(jù)集進(jìn)行處理,得到真實(shí)的用戶執(zhí)行行為記錄得到真實(shí)的用戶執(zhí)行行為記錄和在線社會網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)圖G(V,E);其中,V表示在線社會網(wǎng)絡(luò)中的節(jié)點(diǎn)集合,包括用戶節(jié)點(diǎn)和消息節(jié)點(diǎn);E代表在線社會網(wǎng)絡(luò)中的邊集合;計算考慮時間延遲后用戶節(jié)點(diǎn)u對v的直接影響力D_Inf(u,v);步驟2:基于用戶節(jié)點(diǎn)的標(biāo)簽屬性,推測擁有相同標(biāo)簽的用戶節(jié)點(diǎn)節(jié)點(diǎn)會互相影響,計算基于標(biāo)簽的用戶節(jié)點(diǎn)u和v之間基于標(biāo)簽的潛在影響力Tag_Inf(u,v);步驟3:基于用戶節(jié)點(diǎn)的共同鄰居節(jié)點(diǎn)屬性,推測影響力通過節(jié)點(diǎn)的鄰居節(jié)點(diǎn)進(jìn)行傳播擴(kuò)散,計算基于共同鄰居節(jié)點(diǎn)的用戶節(jié)點(diǎn)u和v之間基于共同鄰居節(jié)點(diǎn)的潛在影響力N_Inf(u,v):步驟4:將Tag_Inf(u,v)和N_Inf(u,v)加權(quán)計算得到用戶節(jié)點(diǎn)u和v之間基于用戶節(jié)點(diǎn)屬性的潛在影響力Attr_Pot_Inf(u,v);步驟5:根據(jù)用戶節(jié)點(diǎn)對于消息執(zhí)行的行為,并由消息的話題關(guān)鍵字得到消息的內(nèi)容相似度,計算用戶節(jié)點(diǎn)u和v之間的基于行為的潛在影響力Act_Pot_Inf(u,v);步驟6:將Attr_Pot_Inf(u,v)和Act_Pot_Inf(u,v)加權(quán)計算得到用戶節(jié)點(diǎn)u和v之間的潛在影響力Pot_Inf(u,v);步驟7:將D_Inf(u,v)與Pot_Inf(u,v)加權(quán)計算得到u對v的綜合影響力Comp_Inf(u,v);步驟8:根據(jù)步驟7計算結(jié)果,得到在線社會網(wǎng)絡(luò)中綜合影響力傳播路徑,計算用戶節(jié)點(diǎn)u對v的傳播綜合影響力總和φu,v(v);步驟9:定義節(jié)點(diǎn)u邊際收益為σMarginal_Revenue(u),計算公式如下:σMarginal_Revenue(u)=(1-Σs∈Sφs,u(u))·Σv∈(A-S)φu,v(v)]]>其中,s為初始節(jié)點(diǎn)集合S中的節(jié)點(diǎn),φs,u(u)代表節(jié)點(diǎn)s對節(jié)點(diǎn)u的傳播綜合影響力,A代表在線社會網(wǎng)絡(luò)中所有用戶節(jié)點(diǎn)的集合;初始節(jié)點(diǎn)集合的初始值為由上述公式計算在線社會網(wǎng)絡(luò)中所有用戶節(jié)點(diǎn)的邊際收益,并將計算得到的邊際收益從大到小進(jìn)行排序,選取排序后的前10k個用戶節(jié)點(diǎn)插入到隊(duì)列Q中,從隊(duì)列Q中選出邊際收益最大的用戶節(jié)點(diǎn)插入初始節(jié)點(diǎn)集合S中;步驟10:判斷初始節(jié)點(diǎn)集合中元素的個數(shù)|S|是否已經(jīng)達(dá)到要求的個數(shù)k,如果未達(dá)到,返回步驟9,重新計算并更新隊(duì)列Q中剩余節(jié)點(diǎn)的邊際收益,然后重新排序,選出邊際收益最大的用戶節(jié)點(diǎn)插入初始節(jié)點(diǎn)集合S中;如果已經(jīng)達(dá)到,則得到影響力最大化初始節(jié)點(diǎn)集合S。以下對上述各個步驟進(jìn)行進(jìn)一步具體說明。所述步驟1中,考慮時間延遲后用戶節(jié)點(diǎn)u對v的直接影響力D_Inf(u,v)的計算方法為:設(shè)V中存在兩個用戶節(jié)點(diǎn)u和v,若v對與u相關(guān)的消息執(zhí)行過行為,則u和v之間存在直接影響力,u和v之間存在一條連邊,u和v稱為相鄰節(jié)點(diǎn);其中執(zhí)行過行為指進(jìn)行過發(fā)布、點(diǎn)贊、評論或轉(zhuǎn)發(fā)行為;與u相關(guān)的消息是指u發(fā)布、點(diǎn)贊、評論或轉(zhuǎn)發(fā)的消息;給定兩個相鄰節(jié)點(diǎn)u和v,定義u對v的影響力Inf(u,v)計算公式如下:Inf(u,v)=|M(u)∩M(v)||M(u)|]]>其中,M(u)表示u執(zhí)行過行為的消息集合,|M(u)|代表u執(zhí)行過行為的消息條數(shù);M(v)表示用戶v執(zhí)行過行為的消息集合,|M(v)|代表v執(zhí)行過行為的消息條數(shù);|M(u)∩M(v)|表示u和v共同執(zhí)行過行為的消息條數(shù);考慮用戶執(zhí)行行為的時間延遲對影響力的衰減效應(yīng),定義考慮時間延遲后u對v的直接影響力D_Inf(u,v)計算公式如下:D_Inf(u,v)=Inf(u,v)·e-t-TT]]>其中,t表示v對與u相關(guān)的消息執(zhí)行行為的平均時間延遲,T表示v對與其所有鄰居節(jié)點(diǎn)相關(guān)的消息執(zhí)行行為的平均時間延遲。所述步驟2中,基于標(biāo)簽的用戶節(jié)點(diǎn)u和v之間基于標(biāo)簽的潛在影響力Tag_Inf(u,v)的計算方法為:將所有用戶節(jié)點(diǎn)的標(biāo)簽匯總構(gòu)建一個標(biāo)簽詞袋(TagsBag),標(biāo)簽詞袋中所有標(biāo)簽的個數(shù)記為N;依據(jù)用戶節(jié)點(diǎn)的標(biāo)簽構(gòu)建用戶節(jié)點(diǎn)的標(biāo)簽特征向量,標(biāo)簽特征向量的維度就是標(biāo)簽詞袋中所有標(biāo)簽的個數(shù)N,每一維代表標(biāo)簽詞袋(TagsBag)中的一個標(biāo)簽;初始化標(biāo)簽特征向量的每一維的元素值都為0;用戶節(jié)點(diǎn)u的標(biāo)簽特征向量記為ξu_tags=(ξu_tag1,ξu_tag2,…,ξu_tagi,…,ξu_tagN);對于任意一個用戶節(jié)點(diǎn)u和其對應(yīng)的標(biāo)簽集合,計算標(biāo)簽集合中每個標(biāo)簽tagi對應(yīng)于u的標(biāo)簽特征值TF-IDF(Tagi,u),公式如下:TF-IDF(Tagi,u)=n(tag)i,uΣkn(tag)k,u·log|U||{tagi∈u}|]]>其中n(tag)i,u表示標(biāo)簽tagi在用戶節(jié)點(diǎn)u的所有標(biāo)簽中出現(xiàn)的次數(shù),表示用戶節(jié)點(diǎn)u的所有標(biāo)簽總數(shù),|U|表示在線社會網(wǎng)絡(luò)中所有用戶節(jié)點(diǎn)個數(shù),|{tagi∈u}|表示在線社會網(wǎng)絡(luò)中擁有標(biāo)簽tagi的用戶節(jié)點(diǎn)個數(shù);根據(jù)用戶節(jié)點(diǎn)u對應(yīng)的標(biāo)簽集合中每個標(biāo)簽tagi對應(yīng)于u的標(biāo)簽特征值TF-IDF(Tagi,u),更新u的標(biāo)簽特征向量ξu_tags中相應(yīng)維的元素值ξu_tagi,得到更新后的ξu_tags;對于G(V,E)中的任意兩個用戶節(jié)點(diǎn)u和v,根據(jù)它們相應(yīng)的標(biāo)簽特征向量ξu_tags和ξv_tags的余弦相似度,計算兩個用戶節(jié)點(diǎn)u和v之間基于標(biāo)簽的潛在影響力Tag_Inf(u,v):Tag_Inf(u,v)=cos(ξu_tags,ξv_tags)。所述步驟3中,基于共同鄰居節(jié)點(diǎn)的用戶節(jié)點(diǎn)u和v之間基于共同鄰居節(jié)點(diǎn)的潛在影響力N_Inf(u,v)的計算方法為:對于G(V,E)中任意一個用戶節(jié)點(diǎn),依據(jù)鄰居節(jié)點(diǎn)構(gòu)建用戶的鄰居節(jié)點(diǎn)特征向量,維度為在線社會網(wǎng)絡(luò)中的用戶節(jié)點(diǎn)個數(shù)|U|,初始化鄰居節(jié)點(diǎn)特征向量的每一維的元素值均為0;用戶節(jié)點(diǎn)u的鄰居節(jié)點(diǎn)特征向量記為ξu_neighbors=(ξu_neighbor1,ξu_neighbor2,…,ξu_neighbori,…,ξu_neighbor|U|);對于用戶節(jié)點(diǎn)u和其對應(yīng)的鄰居節(jié)點(diǎn)集合,計算鄰居節(jié)點(diǎn)集合每個鄰居節(jié)點(diǎn)neighbori對于u的鄰居節(jié)點(diǎn)特征值TF-IDF(Neighbori,u),公式如下:TF-IDF(Neighbori,u)=n(neighbor)i,uΣkn(neighbor)k,u·log|U||{neighbori∈u}|]]>其中n(neighbor)i,u表示鄰居節(jié)點(diǎn)neighbori在u的所有鄰居中出現(xiàn)的次數(shù)(取值為1),表示u的所有鄰居節(jié)點(diǎn)個數(shù),|{neighbori∈u}|表示在線社會網(wǎng)絡(luò)中擁有鄰居節(jié)點(diǎn)neighbori的用戶節(jié)點(diǎn)個數(shù);根據(jù)每個鄰居節(jié)點(diǎn)neighbori對于u的鄰居節(jié)點(diǎn)特征值TF-IDF(Neighbori,u),更新u的鄰居節(jié)點(diǎn)特征向量ξu_neighbors中相應(yīng)維的元素值ξu_neighbori,得到更新后的ξu_neighbors;對于G(V,E)中的任意兩個用戶節(jié)點(diǎn)u和v,根據(jù)它們相應(yīng)的鄰居節(jié)點(diǎn)特征向量ξu_neighbors和ξv_neighbors的余弦相似度,計算兩個用戶節(jié)點(diǎn)u和v之間基于共同鄰居節(jié)點(diǎn)的潛在影響力N_Inf(u,v):N_Inf(u,v)=cos(ξu_neighbors,ξv_neighbors)。所述步驟4中,用戶節(jié)點(diǎn)u和v之間基于用戶節(jié)點(diǎn)屬性的潛在影響力Attr_Pot_Inf(u,v)的計算方法為:將用戶節(jié)點(diǎn)u和v之間基于標(biāo)簽的用戶之間潛在影響力和基于共同鄰居節(jié)點(diǎn)的用戶之間潛在影響力加權(quán)之和定義為u和v之間基于用戶屬性的潛在影響力Attr_Pot_Inf(u,v),計算公式如下:Attr_Pot_Inf(u,v)=α·Tag_Inf(u,v)+(1-α)·N_Inf(u,v)其中0<α<1。所述步驟5中,用戶節(jié)點(diǎn)u和v之間的基于行為的潛在影響力Act_Pot_Inf(u,v)的計算方法為:在G(V,E)中,用戶節(jié)點(diǎn)u和消息節(jié)點(diǎn)m是異構(gòu)的關(guān)系,根據(jù)用戶節(jié)點(diǎn)u對于消息節(jié)點(diǎn)m執(zhí)行的行為【包括發(fā)布、接收的點(diǎn)贊、評論和轉(zhuǎn)發(fā)行為】,挖掘異構(gòu)節(jié)點(diǎn)構(gòu)成的邊<用戶-消息>、<消息-用戶>的特征,并且挖掘消息節(jié)點(diǎn)之間構(gòu)成的邊<消息-消息>的特征,根據(jù)消息的話題關(guān)鍵字得到消息的內(nèi)容相似度,以此為依據(jù)計算兩個用戶之間的基于行為的潛在影響力,具體步驟如下:步驟5.1:挖掘異構(gòu)節(jié)點(diǎn)構(gòu)成的邊<用戶-消息>、<消息-用戶>的特征:對于特定用戶節(jié)點(diǎn)u,針對其發(fā)布的消息m,計算接收到其他用戶點(diǎn)贊、評論和轉(zhuǎn)發(fā)行為次數(shù)分別為a1、a2和a3,構(gòu)建行為次數(shù)特征向量ξaction={a1,a2,a3},設(shè)置相應(yīng)的權(quán)重向量為ω={m1,m2,m3},其中m1,m2,m3∈(0,1);計算用戶節(jié)點(diǎn)u對于其發(fā)布的消息m產(chǎn)生的影響力UM_Inf(u,m),公式為:UM_Inf(u,m)=11+e-(ξaction·ω)]]>同理,消息m對于它的發(fā)布者u傳遞作用產(chǎn)生的影響力MU_Inf(m,u)等價于用戶u對于其發(fā)布的消息m產(chǎn)生的影響力UM_Inf(u,m),即MU_Inf(m,u)=UM_Inf(u,m)。步驟5.2:挖掘消息節(jié)點(diǎn)m構(gòu)成的邊<消息-消息>的特征,根據(jù)消息的話題關(guān)鍵字得到消息的內(nèi)容相似度,步驟可分為:提取每條消息的話題關(guān)鍵字,將所有消息的話題關(guān)鍵字匯總,構(gòu)建話題關(guān)鍵字詞袋,話題關(guān)鍵字詞袋中話題關(guān)鍵字總數(shù)記為M;針對每條消息構(gòu)建話題關(guān)鍵字特征向量,話題關(guān)鍵字特征向量的維度就是話題關(guān)鍵字詞袋中話題關(guān)鍵字總數(shù)M,初始化話題關(guān)鍵字特征向量的每一維的元素值均為0;消息節(jié)點(diǎn)m的話題關(guān)鍵字特征向量記為ξm_topics=(ξm_topic1,ξm_topic2,…,ξm_topici,…,ξm_topicM);對于消息節(jié)點(diǎn)m和其對應(yīng)的話題關(guān)鍵字集合,計算話題關(guān)鍵字集合中每個話題關(guān)鍵字topici對于消息節(jié)點(diǎn)m的話題關(guān)鍵字特征值TF-IDF(topici,m),計算如下:TF-IDF(topici,m)=n(topic)i,mΣkn(topic)k,m·log|M||{topici∈m}|]]>其中n(topic)i,m表示話題關(guān)鍵字topici在消息節(jié)點(diǎn)m的所有話題關(guān)鍵字中出現(xiàn)的次數(shù),表示消息節(jié)點(diǎn)m的所有話題關(guān)鍵字出現(xiàn)的次數(shù)總和,|M|表示在線社會網(wǎng)絡(luò)中的消息節(jié)點(diǎn)個數(shù),|{topici∈m}|表示擁有話題關(guān)鍵字topici的消息節(jié)點(diǎn)個數(shù);根據(jù)每個話題關(guān)鍵字topici對于消息節(jié)點(diǎn)m的話題關(guān)鍵字特征值TF-IDF(topici,m),更新消息節(jié)點(diǎn)m的話題關(guān)鍵字特征向量ξm_topics中相應(yīng)維的元素值ξm_topici,得到更新后的ξm_topics;對于G(V,E)中的任意兩個消息節(jié)點(diǎn)m和n,根據(jù)它們相應(yīng)的話題特征向量ξm_topics和ξn_topics的余弦相似度,計算兩個消息節(jié)點(diǎn)m和n的內(nèi)容相似度:Sim(m,n)=cos(ξm_topics,ξn_topics);步驟5.3:對于給定用戶u和v,根據(jù)u和v發(fā)布的消息的相似度,通過以下公式來計算基于用戶行為的用戶之間的潛在影響力Act_Pot_Inf(u,v):Act_Pot_Inf(u,v)=Σm∈M′(u),n∈M′(v)UM_Inf(u,m)·Sim(m,n)·MU_Inf(n,v);]]>其中,M′(u)表示u發(fā)布過的消息集合,M′(v)表示用戶v發(fā)布過的消息集合。所述步驟6中,用戶節(jié)點(diǎn)u和v之間的潛在影響力Pot_Inf(u,v)的計算方法為:根據(jù)兩個用戶之間基于用戶屬性的潛在影響力和基于行為的潛在影響力,由以下公式計算用戶u和用戶v之間的潛在影響力Pot_Inf(u,v):Pot_Inf(u,v)=λ·Attr_Pot_Inf(u,v)+(1-λ)·Act_Pot_Inf(u,v)其中λ∈(0,1)。所述步驟7中,u對v的綜合影響力Comp_Inf(u,v)的計算方法為:對于G(V,E)中任意兩個用戶節(jié)點(diǎn)u和v,對考慮時間延遲后用戶節(jié)點(diǎn)u對v的直接影響力和用戶u和用戶v之間的潛在影響力進(jìn)行綜合,得到u對v的綜合影響力Comp_Inf(u,v):Comp_Inf(u,v)=D_Inf(u,v)+Pot_Inf(u,v);所述步驟8中,用戶節(jié)點(diǎn)u對v的傳播綜合影響力總和φu,v(v)的計算方法為:根據(jù)步驟7計算結(jié)果,得到在線社會網(wǎng)絡(luò)中綜合影響力傳播路徑,對于用戶節(jié)點(diǎn)u和用戶節(jié)點(diǎn)v,使用φu,v(v)表示用戶節(jié)點(diǎn)u對用戶節(jié)點(diǎn)v的傳播綜合影響力總和φu,v(v),其計算公式如下:φu,v(v)=0ifXComp_Inf(u,v)ifYΣw∈I(v)φu,w(w)·Comp_Inf(w,v)ifZ]]>其中,條件X表示u對v沒有綜合影響力傳播路徑,則φu,v(v)=0;條件Y表示u對v的綜合影響力傳播路徑只存在一條一跳路徑u→v,則φu,v(v)=Comp_Inf(u,v);條件Z表示u對v的綜合影響力傳播路徑存在多條,其中φu,w(w)表示用戶節(jié)點(diǎn)u對用戶節(jié)點(diǎn)w的傳播綜合影響力總和;I(v)表示在線社會網(wǎng)絡(luò)中對v的綜合影響力傳播路徑存在一條一跳路徑的用戶節(jié)點(diǎn)集合{w1,w2,...,wn}。上述公式推導(dǎo)過程為:遍歷用戶節(jié)點(diǎn)u對用戶節(jié)點(diǎn)v的綜合影響力傳播路徑,若u對v的綜合影響力傳播路徑只存在一條一跳路徑:u→v,則φu,v(v)=φu,u(u)·Comp_Inf(u,v)=Comp_Inf(u,v),因?yàn)棣誹,u(u)=1;若u對v的綜合影響力傳播路徑只存在一條兩跳路徑:u→w→v,則φu,v(v)=φu,w(w)·Comp_Inf(w,v)且φu,w(w)=Comp_Inf(u,w),因此φu,v(v)=Comp_Inf(u,w)·Comp_Inf(w,v);若u對v的綜合影響力傳播路徑存在多條兩跳路徑:u→w1→v,u→w2→v,......,u→wn→v,則且φu,w(v)=Comp_Inf(u,w);若u對v的綜合影響力傳播路徑存在多條多跳路徑:u→h1→...→b1→w1→v,u→h2→...→b2→w2→v,......,u→hn→...→bn→wn→v,則其中I(v)表示在線社會網(wǎng)絡(luò)中對用戶節(jié)點(diǎn)v有綜合影響力的節(jié)點(diǎn)的集合{w1,w2,...,wn},由此可知,u對v的傳播綜合影響力總和可以通過遍歷綜合影響力傳播路徑,遞推計算,因此u對v的傳播綜合影響力總和可以總結(jié)歸納為有益效果:本發(fā)明提出了一種在線社會網(wǎng)絡(luò)中影響力最大化初始節(jié)點(diǎn)選取方法?;谠诰€社會網(wǎng)絡(luò)用戶行為記錄和異構(gòu)節(jié)點(diǎn)關(guān)聯(lián)關(guān)系,提出一種綜合考慮節(jié)點(diǎn)之間直接和潛在影響力的影響力傳播混合模型,命名為DPIS(DirectAndPotentialInfluenceSpread)模型。該模型大致分為兩部分,第一階段,根據(jù)用戶的行為日志,得到用戶對于他的鄰居用戶基于行為時間延遲的直接影響力。第二階段,結(jié)合社會網(wǎng)絡(luò)中所有異構(gòu)節(jié)點(diǎn)的點(diǎn)特征和不同個體之間的邊特征,構(gòu)建用戶節(jié)點(diǎn)特征向量并計算向量之間的相似度,以此作為社會網(wǎng)絡(luò)中用戶節(jié)點(diǎn)之間的潛在影響力的評判依據(jù)。最后結(jié)合貪心算法和DPIS模型提出了CIGA算法求解最大邊際收益節(jié)點(diǎn)作為影響力最大化初始節(jié)點(diǎn)。實(shí)驗(yàn)在Hadoop、Spark分布式集群平臺下,基于真實(shí)社會網(wǎng)絡(luò)數(shù)據(jù)集,借助Mapreduce、Rdd計算框架進(jìn)行建模。實(shí)驗(yàn)結(jié)果表明,結(jié)合分布式大數(shù)據(jù)平臺的DPIS模型和CIGA算法對比于傳統(tǒng)IC、LT和CD-NF模型上的方法,具有更好的影響力傳播效果和更高的初始節(jié)點(diǎn)選取質(zhì)量。本發(fā)明構(gòu)建了一種新的社會網(wǎng)絡(luò)初始關(guān)鍵節(jié)點(diǎn)選取方法,在Hadoop和Spark分布式集群平臺高效處理數(shù)據(jù),綜合考慮用戶行為記錄和社會網(wǎng)絡(luò)復(fù)雜的異構(gòu)節(jié)點(diǎn)的關(guān)聯(lián)關(guān)系有效地選取影響力最大化初始關(guān)鍵節(jié)點(diǎn),并更加真實(shí)地反映影響力傳播效果。附圖說明圖1是本發(fā)明提出的一種基于用戶行為和相似度的社會網(wǎng)絡(luò)影響力最大化初始節(jié)點(diǎn)選取方法的流程圖;圖2是實(shí)施例1中DPIS,CD-NF,IC和LT這4種不同的方法選取的初始關(guān)鍵節(jié)點(diǎn)的影響力傳播效果對比圖;圖3是實(shí)施例1中DPIS,CD-NF,IC和LT這4種不同的方法選取的初始關(guān)鍵節(jié)點(diǎn)所接收的其他節(jié)點(diǎn)的真實(shí)行為執(zhí)行次數(shù)對比圖;圖4是實(shí)施例1中只考慮直接影響力和考慮綜合影響力選取的初始關(guān)鍵節(jié)點(diǎn)的影響力傳播效果對比圖;圖5是實(shí)施例1中只考慮直接影響力和考慮綜合影響力選取的初始關(guān)鍵節(jié)點(diǎn)的所接收的其他節(jié)點(diǎn)的真實(shí)行為執(zhí)行次數(shù)對比圖;圖6是實(shí)施例1中DPIS,CD-NF,IC和LT這4種不同的方法選取的前10個初始關(guān)鍵節(jié)點(diǎn)所接受的其他節(jié)點(diǎn)真實(shí)的行為執(zhí)行次數(shù)對比圖。具體實(shí)施方式為了更加詳細(xì)的描述本發(fā)明提出的一種基于用戶行為和相似度的社會網(wǎng)絡(luò)影響力最大化初始節(jié)點(diǎn)選取方法,下面結(jié)合附圖和實(shí)例對本發(fā)明作進(jìn)一步的說明。本發(fā)明提出一種基于用戶行為和相似度的社會網(wǎng)絡(luò)影響力最大化初始關(guān)鍵節(jié)點(diǎn)選取方法。基于在線社會網(wǎng)絡(luò)用戶行為記錄和異構(gòu)節(jié)點(diǎn)關(guān)聯(lián)關(guān)系,提出一種綜合考慮節(jié)點(diǎn)之間直接和潛在影響力的影響力傳播混合模型,命名為DPIS(DirectAndPotentialInfluenceSpread)模型。該模型大致分為兩部分,第一階段,根據(jù)用戶的行為日志,得到用戶對于他的鄰居用戶基于行為時間延遲的直接影響力。第二階段,結(jié)合社會網(wǎng)絡(luò)中所有異構(gòu)節(jié)點(diǎn)的點(diǎn)特征和不同個體之間的邊特征,構(gòu)建用戶節(jié)點(diǎn)特征向量并計算向量之間的相似度,以此作為社會網(wǎng)絡(luò)中用戶節(jié)點(diǎn)之間的潛在影響力的評判依據(jù)。最后結(jié)合貪心算法和DPIS模型提出了CIGA算法求解最大邊際收益節(jié)點(diǎn)作為影響力最大化初始節(jié)點(diǎn)。圖1為本發(fā)明提出的一種基于用戶屬性和相似度的社會網(wǎng)絡(luò)影響力最大化初始關(guān)鍵節(jié)點(diǎn)選取方法流程圖,具體實(shí)施步驟如下:實(shí)施例1:在該實(shí)施例中,使用來自SNAP中的Flickr圖片媒體分享社交網(wǎng)絡(luò)的原始數(shù)據(jù)集,原始數(shù)據(jù)集是Flickr社交網(wǎng)絡(luò)的xml文件,提取關(guān)于用戶行為記錄和用戶屬性信息的關(guān)鍵字段,包括4546張照片,2662個照片發(fā)布者節(jié)點(diǎn),40808個用戶節(jié)點(diǎn)和618491條邊。本實(shí)施例在分布式Hadoop和Spark集群上實(shí)現(xiàn),借助HDFS(分布式文件系統(tǒng))作為數(shù)據(jù)存儲層,借助Mapreduce和Rdd計算框架搭建計算編程模型作為數(shù)據(jù)計算層,高效快速并行處理數(shù)據(jù),構(gòu)建模型和算法求解影響力最大化初始節(jié)點(diǎn),并設(shè)計不同的對比實(shí)驗(yàn)分析初始節(jié)點(diǎn)選取效果和質(zhì)量,從而驗(yàn)證理論分析方法的正確性。本實(shí)施例主要對基于直接和潛在影響力傳播模型DPIS和CIGA算法進(jìn)行設(shè)計,并且與傳統(tǒng)IC模型(獨(dú)立級聯(lián)模型)、LT模型(線性閾值模型)和CD-NF模型(基于節(jié)點(diǎn)特性的信用分布模型)對比,IC模型中相鄰點(diǎn)之間的邊激活概率是通過EM算法(最大期望算法)學(xué)習(xí)而來,而LT模型相鄰節(jié)點(diǎn)v和u的邊激活概率pp(u,v)使用公式pp(u,v)=1/N(u)進(jìn)行計算,其中N(u)代表節(jié)點(diǎn)u的鄰居節(jié)點(diǎn)個數(shù)。針對不同方法選取的初始節(jié)點(diǎn),設(shè)計對比實(shí)驗(yàn)比較影響力傳播效果,驗(yàn)證本發(fā)明的模型和算法對于影響力最大化初始節(jié)點(diǎn)選取的有效性。同時統(tǒng)計社會網(wǎng)絡(luò)中節(jié)點(diǎn)接收的真實(shí)行為執(zhí)行次數(shù)來對比基于綜合影響力和直接影響力傳播的初始節(jié)點(diǎn)選取結(jié)果,驗(yàn)證綜合考慮直接和潛在影響力選取的初始節(jié)點(diǎn)相比于只考慮直接影響力選取的初始節(jié)點(diǎn)會產(chǎn)生更廣的影響力傳播范圍。最后統(tǒng)計社會網(wǎng)絡(luò)中四種模型前10個初始節(jié)點(diǎn)接收的真實(shí)行為執(zhí)行次數(shù),對比結(jié)果并驗(yàn)證本發(fā)明的方法相比于其他三種方法對于影響力初始節(jié)點(diǎn)選取方面具有更高的質(zhì)量。由圖2可知,當(dāng)初始節(jié)點(diǎn)個數(shù)為50時,DPIS、CD-NF、IC、LT四種方法求解的初始節(jié)點(diǎn)在社會網(wǎng)絡(luò)中產(chǎn)生的影響力總和依次為1046、544、416、412。圖3表示四種方法求解的初始節(jié)點(diǎn)真實(shí)影響效果,即在真實(shí)社交網(wǎng)站中接收到其他用戶的行為執(zhí)行次數(shù),包括點(diǎn)贊、評論、轉(zhuǎn)發(fā)等行為執(zhí)行次數(shù)。由圖2和3可知,DPIS不僅在影響力傳播結(jié)果(影響力分布結(jié)果)明顯高于其他三個方法,并且與真實(shí)用戶接收的行為記錄對比,DPIS求解的初始節(jié)點(diǎn)接收的其他節(jié)點(diǎn)行為執(zhí)行次數(shù)總和也明顯高于其它三種方法。相比于IC和LT模型,DPIS是根據(jù)社會網(wǎng)絡(luò)真實(shí)用戶行為記錄和異構(gòu)節(jié)點(diǎn)關(guān)聯(lián)來分析挖掘影響力傳播,而不僅僅是依據(jù)網(wǎng)絡(luò)結(jié)構(gòu)對用戶影響力和影響力傳播進(jìn)行評判。而相比于CD-NF模型,DPIS綜合考慮所有異構(gòu)節(jié)點(diǎn)的點(diǎn)特征和異構(gòu)節(jié)點(diǎn)構(gòu)成的邊特性,并且加入用戶節(jié)點(diǎn)的標(biāo)簽屬性,挖掘用戶的潛在影響力,而CD-NF僅僅考慮用戶節(jié)點(diǎn)的基于時間因素和行為的點(diǎn)特征,所以本發(fā)明的模型和算法更加全面地考慮影響力傳播過程中各個因素,更加準(zhǔn)確地反映影響力傳播效果。DPIS模型綜合考慮了用戶直接和潛在影響力。為了驗(yàn)證用戶潛在影響力對于初始節(jié)點(diǎn)選取的效果提升,本實(shí)施例設(shè)計實(shí)驗(yàn)對比只考慮用戶直接影響力和綜合考慮直接和潛在影響力求解的初始節(jié)點(diǎn)結(jié)果。值得說明的是,在本實(shí)驗(yàn)中,步驟4中的α、步驟6中的λ的取值分別為0.5和0.67,由圖4可知,當(dāng)選取50個初始節(jié)點(diǎn)時,綜合考慮直接和潛在影響力求解的初始節(jié)點(diǎn)影響力總和與只考慮直接影響力求解的初始節(jié)點(diǎn)影響力總和分別為1046和760,在真實(shí)社交網(wǎng)絡(luò)集中接收的其他節(jié)點(diǎn)行為執(zhí)行次數(shù)分別為11754和11381。由圖5可知,綜合考慮直接和潛在影響求解的初始節(jié)點(diǎn)接收到的行為執(zhí)行次數(shù)總體上都高于只考慮直接影響力,因此表明潛在影響力能有效擴(kuò)大影響力傳播范圍。為了對比DPIS與其他三種方法求解的初始節(jié)點(diǎn)的質(zhì)量,將DPIS、CD-NF、CD、LT四種方法求解的前10個初始節(jié)點(diǎn)接收的其他節(jié)點(diǎn)行為執(zhí)行次數(shù)對比。由圖6可知,基于DPIS模型求解的前10個初始節(jié)點(diǎn)接收到的其他節(jié)點(diǎn)的行為執(zhí)行次數(shù)總體上都高于其他三個模型。同時,基于真實(shí)Flickr社會網(wǎng)絡(luò)數(shù)據(jù)集,統(tǒng)計每個用戶接收的其他用戶執(zhí)行行為的次數(shù)并按從大到小排序,由于我們的目標(biāo)是對比用戶影響力大小,將DPIS求解的前10個初始節(jié)點(diǎn)與用戶實(shí)際接收行為執(zhí)行次數(shù)逆序排序結(jié)果對比。DPIS求解的第一個初始節(jié)點(diǎn)為行為執(zhí)行次數(shù)逆序排序結(jié)果的第一名,此節(jié)點(diǎn)接收到1314次其他節(jié)點(diǎn)行為,并且DPIS方法求解的初始節(jié)點(diǎn)接收的行為執(zhí)行次數(shù)大體上都很高,在用戶接收行為執(zhí)行次數(shù)逆序排序結(jié)果中排名很靠前,由此表明本發(fā)明的模型和算法能有效地挖掘網(wǎng)絡(luò)中的能引起其他節(jié)點(diǎn)關(guān)注并執(zhí)行行為的節(jié)點(diǎn),從而保證了初始節(jié)點(diǎn)的選取質(zhì)量。從以上實(shí)驗(yàn)可知,本發(fā)明方法基于用戶行為記錄和用戶復(fù)雜的關(guān)聯(lián)關(guān)系,綜合考慮用戶的直接影響力和潛在影響力來挖掘影響力最大化初始節(jié)點(diǎn),能夠更加真實(shí)地反映用戶行為和用戶的影響力,實(shí)驗(yàn)表明本發(fā)明方法在初始節(jié)點(diǎn)選取質(zhì)量和影響力傳播評估效果方面具有準(zhǔn)確性和可靠性。當(dāng)前第1頁1 2 3