亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于多模式混合模型的在線(xiàn)社會(huì)網(wǎng)絡(luò)信息傳播建模方法與流程

文檔序號(hào):12470947閱讀:1060來(lái)源:國(guó)知局

本發(fā)明屬于計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,涉及數(shù)據(jù)挖掘、在線(xiàn)社會(huì)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí),特別涉及一種基于多模式混合模型的在線(xiàn)社會(huì)網(wǎng)絡(luò)信息傳播建模方法。



背景技術(shù):

近年來(lái),互聯(lián)網(wǎng)服務(wù)正經(jīng)歷著從以信息為中心向以用戶(hù)為中心的重大轉(zhuǎn)變。微博、博客和論壇等強(qiáng)調(diào)用戶(hù)作用的新型網(wǎng)絡(luò)應(yīng)用服務(wù)深刻改變了人們的信息交流方式,成為人們獲取、傳播信息的重要平臺(tái)。由此形成的在線(xiàn)社會(huì)網(wǎng)絡(luò)(Online Social Networks,OSN)已經(jīng)成為了當(dāng)前研究的熱點(diǎn)。作為在線(xiàn)社會(huì)網(wǎng)絡(luò)的典型代表之一,微博已成為一種重要的信息交流平臺(tái)和公共話(huà)題傳播平臺(tái)。

在線(xiàn)社會(huì)網(wǎng)絡(luò)上的信息傳播是人類(lèi)社會(huì)文化傳播的一種新形式,較傳統(tǒng)信息傳播形式而言具有新的特點(diǎn):a)傳播互動(dòng)性,信息的傳播者和受眾之間可以進(jìn)行互動(dòng);b)信息多源化,信息可以跨新聞、論壇、微博等多種源進(jìn)行傳播;c)信息形式多樣化,包括文本、圖像、視音頻等多種數(shù)據(jù)。這些特點(diǎn)使得信息傳播的過(guò)程更為復(fù)雜,探求其本質(zhì)更具有挑戰(zhàn)性。從應(yīng)用角度來(lái)講,信息傳播規(guī)律的研究可為網(wǎng)絡(luò)輿情分析與評(píng)估、信息推薦等重要應(yīng)用提供理論基礎(chǔ)與支持。

目前,在線(xiàn)社會(huì)網(wǎng)絡(luò)方面研究主要涉及信息傳播建模、網(wǎng)絡(luò)結(jié)構(gòu)和用戶(hù)行為分析以及內(nèi)容推薦等,這些研究彼此之間存在密切的關(guān)系。信息傳播規(guī)律受多個(gè)屬性的影響,包括網(wǎng)絡(luò)結(jié)構(gòu)、用戶(hù)角色及用戶(hù)行為等。部分研究者針對(duì)這些屬性對(duì)信息傳播的影響開(kāi)展了初步研究。Zhao等人分析發(fā)現(xiàn)弱連接對(duì)于網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)以及信息傳播速度與廣度具有顯著影響。Valafar等人研究了Flickr站點(diǎn)中照片信息的分享過(guò)程,發(fā)現(xiàn)用戶(hù)更傾向于從非好友用戶(hù)節(jié)點(diǎn)獲得感興趣的照片信息。Letierce等人研究了標(biāo)簽對(duì)于信息在用戶(hù)之間傳播的作用。目前針對(duì)網(wǎng)絡(luò)用戶(hù)間連接關(guān)系與強(qiáng)度的研究取得一定進(jìn)展。Yun等人分析了Twitter中影響用戶(hù)間連接共同好友數(shù)量的五項(xiàng)因素。Xiang等人提出一種基于好友連接關(guān)系的用戶(hù)交互強(qiáng)度評(píng)估算法。Chen等人基于用戶(hù)連接強(qiáng)度分析了在線(xiàn)社會(huì)網(wǎng)絡(luò)的連接對(duì)等性等屬性。Grabowicz等人分析了Twitter中用戶(hù)連接關(guān)系強(qiáng)度與社會(huì)網(wǎng)絡(luò)用戶(hù)群組形成之間的相關(guān)性。以上研究主要側(cè)重于社會(huì)網(wǎng)絡(luò)中的多種屬性對(duì)信息傳播過(guò)程的影響,沒(méi)有著力研究信息傳播的建模問(wèn)題。

目前,社會(huì)網(wǎng)絡(luò)環(huán)境中的信息傳播動(dòng)態(tài)模型的研究主要集中在信息傳播規(guī)模、信息傳播與用戶(hù)行為的關(guān)系兩個(gè)方面。Nekovee等人在無(wú)尺度網(wǎng)絡(luò)中的流言傳播模型的基礎(chǔ)上,用平均場(chǎng)方程的數(shù)值解方法驗(yàn)證了流言的閾值行為和模型的動(dòng)力學(xué),并研究了網(wǎng)絡(luò)結(jié)構(gòu)、移動(dòng)性和擴(kuò)散過(guò)程對(duì)流言傳播的影響。Zhou等人通過(guò)分析網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和結(jié)點(diǎn)位置對(duì)流言傳播的影響,給出了特定度的群體最終感染密度計(jì)算方法。Doerr等人建立一種流言傳播的偽隨機(jī)模型,證明了這種偽隨機(jī)模型的傳播效率高于經(jīng)典的隨機(jī)模型。在上述研究的基礎(chǔ)上,在線(xiàn)社會(huì)網(wǎng)絡(luò)信息傳播路徑與規(guī)模的研究也取得了一些成果。Galuba等人對(duì)Twitter上URL信息流在用戶(hù)之間的傳播規(guī)律進(jìn)行了研究,并提出了一個(gè)預(yù)測(cè)微博用戶(hù)URL轉(zhuǎn)發(fā)路徑的傳播模型。Stewart等人將從博客中發(fā)現(xiàn)信息擴(kuò)散路徑的問(wèn)題定義為一個(gè)常見(jiàn)頻繁模式挖掘問(wèn)題。Kossinets等人基于電子郵件交互數(shù)據(jù),分析了信息流傳播路徑的時(shí)間動(dòng)態(tài)特性。Tang等人從數(shù)據(jù)集分別提取了用戶(hù)群組和信息擴(kuò)散途徑,研究了社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)信息傳播的影響。Cha等人分析了FIickr中的信息傳播路徑,發(fā)現(xiàn)網(wǎng)站中的照片傳播速度較慢,且傳播路徑較短。Yang等人通過(guò)研究Twitter數(shù)據(jù),發(fā)現(xiàn)信息內(nèi)容對(duì)相關(guān)用戶(hù)的提及率是影響該信息傳播速度、規(guī)模以及范圍的重要因素。Cha等人對(duì)多個(gè)博客站點(diǎn)中用戶(hù)發(fā)布的視頻及圖片進(jìn)行了分析,發(fā)現(xiàn)不同內(nèi)容類(lèi)別的視頻、圖片具有不同的傳播模式。Lerman等人研究了Digg和Twitter的用戶(hù)數(shù)據(jù),對(duì)其中的熱點(diǎn)信息進(jìn)行了跟蹤,并分析了網(wǎng)絡(luò)結(jié)構(gòu)對(duì)信息傳播動(dòng)力學(xué)的影響。Wang等人考慮了用戶(hù)數(shù)量以及對(duì)話(huà)題的興趣度,采用線(xiàn)性偏微分模型來(lái)對(duì)信息傳播過(guò)程進(jìn)行建模。以上研究中,部分工作沒(méi)有給出定量的信息傳播模型,有些工作提出的模型過(guò)于復(fù)雜,模型的訓(xùn)練復(fù)雜度高。

同時(shí),在真實(shí)在線(xiàn)社會(huì)網(wǎng)絡(luò)中,信息擴(kuò)散模式蘊(yùn)含在海量信息傳播產(chǎn)生的數(shù)據(jù)中,難以清晰地刻劃出每一個(gè)數(shù)據(jù)的擴(kuò)散模式。另一方面,每一個(gè)發(fā)帖所產(chǎn)生的傳播過(guò)程,無(wú)法用單一的簡(jiǎn)單信息擴(kuò)散模式來(lái)描述,而是由多個(gè)擴(kuò)散模式共同作用的結(jié)果。



技術(shù)實(shí)現(xiàn)要素:

為了克服上述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種基于多模式混合模型(Multi-Pattern Mixture Diffusion Model,簡(jiǎn)稱(chēng)MPMDM)的在線(xiàn)社會(huì)網(wǎng)絡(luò)信息傳播建模方法,來(lái)更真實(shí)地刻畫(huà)信息在網(wǎng)絡(luò)中傳播的動(dòng)態(tài)過(guò)程,同時(shí)挖掘潛在的擴(kuò)散模式。

為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:

一種基于多模式混合模型的在線(xiàn)社會(huì)網(wǎng)絡(luò)信息傳播建模方法,包括如下步驟:

1)適合于描述信息傳播的特征提取:引入影響信息傳播的3類(lèi)特征:Tie Strength(簡(jiǎn)稱(chēng)TS)特征、Homophily特征、Structural Equivalence(簡(jiǎn)稱(chēng)SE)特征。

2)單一傳播模式定義與描述:為了能夠準(zhǔn)確定量刻畫(huà)在線(xiàn)社會(huì)網(wǎng)絡(luò)中的信息傳播模式,本發(fā)明采用概率模型對(duì)用戶(hù)是否轉(zhuǎn)發(fā)信息的概率進(jìn)行建模。假定存在C種基本的信息傳播模式,則通過(guò)定義第c∈{1,2,…,C}種基本傳播模式驅(qū)動(dòng)下的從結(jié)點(diǎn)u到結(jié)點(diǎn)v信息轉(zhuǎn)移概率kc,u,v、結(jié)點(diǎn)v在tm,v被激活的概率在[tm,u,tm,v]時(shí)間范圍內(nèi)結(jié)點(diǎn)v未能被激活的概率、節(jié)點(diǎn)w在Tm時(shí)刻仍未被節(jié)點(diǎn)v激活的概率來(lái)刻畫(huà)單一傳播模式的概率模型。

3)多模式混合傳播模型構(gòu)建:本發(fā)明認(rèn)為在線(xiàn)社會(huì)網(wǎng)絡(luò)中的信息傳播是多種基本傳播模式共同作用的結(jié)果,因此提出多模式混合傳播模型(MPMDM)來(lái)對(duì)傳播過(guò)程進(jìn)行定量刻畫(huà),即:

其中,Θc表示第c個(gè)基本傳播模型的參數(shù),M(pi;Θc)表示第c個(gè)信息傳播模式對(duì)應(yīng)的模型,wc表示該基本模型在信息pi傳播過(guò)程中的權(quán)重,Θ={Θ12,…,ΘC}表示混合傳播模型的參數(shù)集合。

4)基于期望最大化算法的模型學(xué)習(xí)與推理:針對(duì)MPMDM模型,基于期望最大化EM算法來(lái)對(duì)其進(jìn)行參數(shù)估計(jì),給出參數(shù)估計(jì)公式。

該混合模型中的參數(shù)估計(jì)具有較大難度,主要原因有三:a)該混合模型中含有隱含變量,難以通過(guò)簡(jiǎn)單的參數(shù)估計(jì)方法進(jìn)行估計(jì);b)在線(xiàn)社交網(wǎng)絡(luò)數(shù)據(jù)量巨大,計(jì)算復(fù)雜度高;c)信息傳播產(chǎn)生的數(shù)據(jù)是動(dòng)態(tài)的,隨著時(shí)間的變化,觀(guān)測(cè)數(shù)據(jù)遵循的分布可能會(huì)發(fā)生變化。

與現(xiàn)有技術(shù)研究工作不同,本發(fā)明認(rèn)為信息傳播過(guò)程中存在一些基本的典型傳播模式,而信息的傳播過(guò)程是這些典型基本模式共同作用的結(jié)果。該研究思路優(yōu)點(diǎn)有二:每一種典型傳播模式都較為固定,對(duì)應(yīng)的概率模型相對(duì)簡(jiǎn)單,最終降低了信息傳播建模的復(fù)雜度;典型傳播模式對(duì)應(yīng)了一種基本的信息傳播過(guò)程,有利于探求信息傳播規(guī)律的本質(zhì)。

具體實(shí)施方式

下面結(jié)合實(shí)施例詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式。

一種基于多模式混合模型的在線(xiàn)社會(huì)網(wǎng)絡(luò)信息傳播建模方法,包括如下步驟:

步驟1:

假設(shè)在線(xiàn)社會(huì)網(wǎng)絡(luò)中蘊(yùn)含了C種信息傳播模式,信息的傳播模式體現(xiàn)為信息的傳播速度、可能的信息傳播樹(shù)結(jié)構(gòu)以及信息傳播路徑上兩個(gè)結(jié)點(diǎn)之間的結(jié)構(gòu)、興趣等特性。用向量xu,v表示節(jié)點(diǎn)對(duì)或者邊(u,v)的特征向量。本發(fā)明具體采用了3種特征進(jìn)行表示,并將其連接構(gòu)成特征向量xu,v

Tie Strength(簡(jiǎn)稱(chēng)TS)特征:定義節(jié)點(diǎn)u,v之間的tie strength為:

其中,為u和v的共同朋友結(jié)點(diǎn)數(shù)量,分別為u,v的朋友結(jié)點(diǎn)集合,||表示集合種元素的個(gè)數(shù)。

Homophily特征:定義u,v之間的homophily為它們興趣的相似程度:

其中,為u,v的共同關(guān)注的結(jié)點(diǎn)數(shù),分別為u,v關(guān)注的結(jié)點(diǎn)集合。

Structural Equivalence(SE)

其中,為共同關(guān)注u,v的結(jié)點(diǎn)(粉絲)數(shù),分別為u,v的粉絲集合。

步驟2:

在第c個(gè)傳播模式驅(qū)動(dòng)下,從結(jié)點(diǎn)u到結(jié)點(diǎn)v(表示為u→v)的信息轉(zhuǎn)移概率為

其中αc是參數(shù)向量。u∈Bm,v在tm,v時(shí)刻激活v的概率密度為:

其中tm,u是結(jié)點(diǎn)u被激活的時(shí)間,rc表示參數(shù),Bm,v表示結(jié)點(diǎn)v的鄰居結(jié)點(diǎn)集合。u∈Bm,v在[tm,u,tm,v]時(shí)間范圍內(nèi)未能激活v的概率為:

進(jìn)一步,節(jié)點(diǎn)v在tm,v時(shí)刻被激活的概率密度為:

此外,節(jié)點(diǎn)w在Tm時(shí)刻仍未被節(jié)點(diǎn)v激活的概率為:

這里假設(shè)第m個(gè)帖子傳播停止的時(shí)間遠(yuǎn)早于整個(gè)時(shí)間窗的最終時(shí)間,即Tm>>max{tm,v;(v,tm,v)∈Dm},從而可以看作Tm→∞,于是

因此,第c個(gè)傳播模式驅(qū)動(dòng)下,第m個(gè)帖子傳播得到的信息傳播樹(shù)生成概率為:

步驟3:

有多個(gè)基本信息傳播過(guò)程共同作用得到的信息傳播概率模型為:

其中Θ={π12,...,πC;α12,...,αC;r1,r2,...,rC},πc為第c個(gè)傳播模式在整個(gè)傳播過(guò)程中的比重,即隨機(jī)挑選一個(gè)擴(kuò)散軌跡樹(shù)屬于模式c的概率。

則給定一個(gè)樣本集合D={D1,D2,…,Dm},則描述模型與數(shù)據(jù)吻合程度的對(duì)數(shù)似然函數(shù)可以定義為:

步驟4:基于期望最大化算法的模型學(xué)習(xí)與推理

期望最大化算法是采用迭代的策略來(lái)求得模型參數(shù)。假設(shè)給定參數(shù)則在此參數(shù)下,信息傳播樹(shù)集合D由第c個(gè)傳播模式產(chǎn)生的條件概率為:

定義期望最大化算法中的Q函數(shù)如下:

最大化上述Q函數(shù)。由于限制條件∑cπc=1,可以求得:

在Q函數(shù)中忽略掉與參數(shù)αc、rc無(wú)關(guān)的項(xiàng),得到如下函數(shù):

Q函數(shù)的優(yōu)化問(wèn)題則轉(zhuǎn)化為求的最優(yōu)解。定義如下變量:

令分別為αc、rc的當(dāng)前估量。同理,和分別為和根據(jù)計(jì)算得到。

于是,將轉(zhuǎn)化為:

其中,

易知在和時(shí)取最大值,從而可以分別對(duì)于α和r獨(dú)立地最大化Q1和Q2,來(lái)實(shí)現(xiàn)的最大化。首先,得到Q1函數(shù)對(duì)于αc的一階導(dǎo)數(shù)向量和Hessian矩陣:

顯然,由于的正定性,上述Hessian矩陣為非正定矩陣,于是可以運(yùn)用牛頓迭代方法對(duì)于所有αc最大化Q1。同理,得到Q2對(duì)于所有rc的一階導(dǎo)數(shù)和二階導(dǎo)數(shù):

顯然,二階導(dǎo)數(shù)非正,同理根據(jù)牛頓迭代法得到Q2最大值的解。

通過(guò)重復(fù)以上估計(jì)過(guò)程,可以得到在給定參數(shù)情況下得到的更好參數(shù)Θ。重復(fù)該過(guò)程,可以得到最終的最優(yōu)解Θ*={π1*2*,...,πC*;α1*2*,...,αC*;r1*,r2*,...,rC*}。最終得到對(duì)應(yīng)于多個(gè)信息傳播模式的模型{M(·;Θc*)|c=1,2,…,C},其中Θc*={πc*c*,rc*}。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1