亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于個(gè)體用戶特征的信息傳播方法與流程

文檔序號(hào):12887765閱讀:467來源:國知局
基于個(gè)體用戶特征的信息傳播方法與流程

本發(fā)明屬于在線社交網(wǎng)絡(luò)信息傳播技術(shù)領(lǐng)域,特別涉及基于個(gè)體用戶特征的信息傳播方法。



背景技術(shù):

隨著互聯(lián)網(wǎng)快速的發(fā)展和在線社交平臺(tái)的普及,信息的傳播方式發(fā)生了根本的變化。四通八達(dá)的網(wǎng)絡(luò)將人們無時(shí)無刻地聯(lián)系在一起,打破了傳統(tǒng)的通過熟人社交網(wǎng)絡(luò)和中心節(jié)點(diǎn)進(jìn)行信息傳播。截止2016年6月中國網(wǎng)民數(shù)量已經(jīng)高達(dá)7.10億,2017年新浪的月活躍用戶達(dá)到4億,同比增長(zhǎng)了46%。網(wǎng)絡(luò)社交平臺(tái)有助于國家政策的普及、商品的推廣、新聞的傳播等。微博作為web2.0應(yīng)用的代表,其對(duì)社會(huì)的影響備受關(guān)注。微博社交平臺(tái)為人們提供了一個(gè)信息傳播平臺(tái)和言論自由的空間,然而在社交平臺(tái)給大家?guī)碇T多便利的同時(shí),也有一些不法分子在網(wǎng)絡(luò)上散布謠言以及制造輿論來破壞社會(huì)治安。因此如何有效的預(yù)測(cè)信息的傳播成為亟待解決的難題。

國內(nèi)外都對(duì)微博的信息傳播模型展開了相關(guān)的研究,各有所側(cè)重,總體上分為兩種:一種是從宏觀上入手,這類模型一般是基于倉室模型,側(cè)重于信息傳播時(shí),不同人群總?cè)藬?shù)隨時(shí)間變化的特征,例如:轉(zhuǎn)發(fā)人數(shù)占總?cè)藬?shù)的比例,接收到信息的人數(shù)占總?cè)藬?shù)的比例等。另一種是從微觀上入手,隨著無標(biāo)度網(wǎng)絡(luò)、小世界網(wǎng)絡(luò)等復(fù)雜網(wǎng)絡(luò)的興起,信息傳播與在線社交網(wǎng)絡(luò)的結(jié)合使信息傳播模型的研究深入到了個(gè)人層面,所建立的信息傳播模型通常會(huì)以復(fù)雜網(wǎng)絡(luò)或者在線社交網(wǎng)絡(luò)為基礎(chǔ),并考慮信息在傳播時(shí)所涉及到的用戶個(gè)體特征、用戶在整個(gè)關(guān)系網(wǎng)絡(luò)中的特征、用戶之間的關(guān)系特征等。

經(jīng)典的倉室模型是sir模型,由kermack等人在1927年提出,該模型將人群分為三類(即三個(gè)倉室):易感染者(s)、感染者(i)、移出者(r),不同類別的人群根據(jù)現(xiàn)實(shí)條件在三個(gè)倉室間遷移。張彥超等人建立的信息傳播模型以sir模型為基礎(chǔ),首先將社交網(wǎng)絡(luò)中的節(jié)點(diǎn)狀態(tài)劃分為三種,可以傳播信息的節(jié)點(diǎn),可以接收信息的節(jié)點(diǎn),已經(jīng)接受但不傳播信息的節(jié)點(diǎn),并且節(jié)點(diǎn)間的狀態(tài)可以相互轉(zhuǎn)化。同時(shí)考慮了網(wǎng)絡(luò)中節(jié)點(diǎn)度的相關(guān)性,以此制定相關(guān)的信息傳播規(guī)則,并根據(jù)規(guī)則建立了信息傳播的動(dòng)力學(xué)演化方程組,從宏觀的角度預(yù)測(cè)信息的傳播趨勢(shì)。但是這類信息傳播模型反映的是全局的信息傳播趨勢(shì),無法反映出每個(gè)用戶在信息傳播時(shí)所起到的作用,無法確定信息傳播網(wǎng)絡(luò)中的關(guān)鍵用戶和影響信息傳播的關(guān)鍵因素,因此目前大部分的研究主要從微觀角度入手。王振飛等人提出的基于邏輯回歸模型的微博轉(zhuǎn)發(fā)預(yù)測(cè)方法,從微觀角度入手,提取了用戶和微博兩者的特征,并結(jié)合邏輯回歸算法實(shí)現(xiàn)了對(duì)微博的預(yù)測(cè),并與傳統(tǒng)方法進(jìn)行對(duì)比實(shí)驗(yàn)驗(yàn)證了文本方法的正確性與有效性。馬曉峰等人提出的基于混合特征學(xué)習(xí)的微博轉(zhuǎn)發(fā)預(yù)測(cè)方法,在考慮用戶與微博特征的同時(shí),并對(duì)預(yù)測(cè)微博進(jìn)行了分類,實(shí)驗(yàn)對(duì)比了不同主題類別微博的轉(zhuǎn)發(fā)預(yù)測(cè)效果。zhang等人提出的基于lda的內(nèi)容轉(zhuǎn)發(fā)預(yù)測(cè)模型較基于詞頻的內(nèi)容轉(zhuǎn)發(fā)預(yù)測(cè)模型起到較好的預(yù)測(cè)結(jié)果。劉清提出的融合興趣和行為的用戶轉(zhuǎn)發(fā)行為預(yù)測(cè)方法,在預(yù)測(cè)用戶的轉(zhuǎn)發(fā)行為時(shí)融合了用戶的興趣和歷史行為特征。馬瑩瑩提出的微博用戶轉(zhuǎn)發(fā)行為及情感預(yù)測(cè)研究重點(diǎn)考慮了情感因素對(duì)用戶轉(zhuǎn)發(fā)行為的影響。

在本發(fā)明之前,這些文章都從微觀角度入手并考慮了一些用戶的個(gè)體特征,但是仍然存在一下幾方面的不足之處:(1)對(duì)用戶的個(gè)體特征考慮不夠全面,僅僅考慮用戶興趣與微博內(nèi)容特征或者網(wǎng)絡(luò)特征,并未考慮用戶間關(guān)系的特征,例如兩者是否互相提及過對(duì)方,這種關(guān)系往往比相互關(guān)注更加緊密。(2)所有的用戶使用同一個(gè)預(yù)測(cè)模型,這樣必然會(huì)使不同用戶的預(yù)測(cè)結(jié)果出現(xiàn)同質(zhì)性。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于克服上述缺陷,提供基于個(gè)體用戶特征的信息傳播方法。

本發(fā)明的技術(shù)方案為:

基于個(gè)體用戶特征的信息傳播方法,其主要技術(shù)特征在于,包括如下步驟:

(10)轉(zhuǎn)發(fā)特征提取:提取影響用戶轉(zhuǎn)發(fā)行為的相關(guān)特征;

(20)歷史數(shù)據(jù)提取:從社交網(wǎng)絡(luò)中提取出用戶的轉(zhuǎn)發(fā)微博和未轉(zhuǎn)發(fā)微博;

(30)為每個(gè)用戶生成預(yù)測(cè)模型:通過每個(gè)用戶的歷史數(shù)據(jù)為每個(gè)用戶生成一個(gè)預(yù)測(cè)模型;

(40)生成參考好友選擇模型:首先確定參考好友的相關(guān)特征,然后建立參考好友選擇模型,最后對(duì)參考好友模型進(jìn)行求解;

(50)轉(zhuǎn)發(fā)預(yù)測(cè):當(dāng)用戶接受到一條新的微博時(shí),首先判斷該用戶是否擁有自己的轉(zhuǎn)發(fā)預(yù)測(cè)模型,如果有則使用該用戶自己的轉(zhuǎn)發(fā)模型進(jìn)行預(yù)測(cè),如果沒有則使用參考好友選擇模型選擇一個(gè)參考好友,通過該參考好友的轉(zhuǎn)發(fā)預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。

本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn)和效果為:可以更有效的預(yù)測(cè)每一個(gè)用戶的轉(zhuǎn)發(fā)行為,避免對(duì)不同用戶轉(zhuǎn)發(fā)預(yù)測(cè)時(shí)出現(xiàn)同質(zhì)性,同時(shí)對(duì)于缺乏歷史數(shù)據(jù)的新用戶也有一定的預(yù)測(cè)能力。

下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。

附圖說明

圖1——本發(fā)明主框架示意圖。

圖2——本發(fā)明實(shí)體間的關(guān)系示意圖。

圖3——本發(fā)明邏輯回歸算法、樸素貝葉斯算法、實(shí)驗(yàn)結(jié)果對(duì)比示意圖。

圖4——本發(fā)明特征箱線示意圖,其中a為發(fā)送者權(quán)威箱線圖,b為接收者對(duì)微博的興趣箱線圖,c為發(fā)送者意愿箱線圖,d為發(fā)送者影響力箱線圖。

具體實(shí)施方式

本發(fā)明的技術(shù)思路是基于如下問題而設(shè)計(jì)的:

研究信息的傳播模型有利于預(yù)測(cè)信息傳播的趨勢(shì)和范圍,可以反映出相關(guān)事件的發(fā)展趨勢(shì),有助于政策普及,使商業(yè)營銷做出正確的決策并杜絕謠言、虛假信息、淫穢暴力信息的傳播。但是信息在網(wǎng)絡(luò)中傳播時(shí)會(huì)受到不同因素的影響,如果僅僅考慮微博內(nèi)容和用戶興趣對(duì)轉(zhuǎn)發(fā)行為的影響并且所有用戶共享一個(gè)預(yù)測(cè)模型,這樣會(huì)導(dǎo)致預(yù)測(cè)模型不夠精確。因此提出一個(gè)基于個(gè)體用戶特征的信息傳播方法來準(zhǔn)確模擬信息在社交網(wǎng)絡(luò)傳播過程,有著重要的意義。

下面具體說明本發(fā)明。

如圖1、2所示,本發(fā)明基于個(gè)體用戶特征的信息傳播方法,包括如下步驟:

(10)轉(zhuǎn)發(fā)特征提?。禾崛∮绊懹脩艮D(zhuǎn)發(fā)行為的相關(guān)特征;

所述(10)轉(zhuǎn)發(fā)特提取步驟具體為:

信息在社交網(wǎng)絡(luò)中的傳播可以劃分為點(diǎn)到點(diǎn)的傳播,每一個(gè)傳播實(shí)例都會(huì)涉及到三個(gè)實(shí)體:信息發(fā)送者、信息接收者、傳播的信息,實(shí)體間的關(guān)系如圖2所示。影響用戶轉(zhuǎn)發(fā)行為的特征包括:信息發(fā)送者和信息接收者的屬性特征、傳播信息的特征、實(shí)體之間關(guān)系的特征。

轉(zhuǎn)發(fā)特征表示如下:

1)節(jié)點(diǎn)的影響力:用戶所有微博的轉(zhuǎn)發(fā)量(ar),微博的數(shù)量為(an)。

2)節(jié)點(diǎn)的權(quán)威度:m(ui)是關(guān)注ui的用戶集合,uj是ui的一個(gè)粉絲,l(uj)是uj關(guān)注的數(shù)量,n是網(wǎng)絡(luò)中總的用戶數(shù)量。

3)節(jié)點(diǎn)是否認(rèn)證:1表示認(rèn)證,0表示未認(rèn)證。

4)節(jié)點(diǎn)的活躍度:posts為發(fā)送微博的總數(shù)量,days為天數(shù)。

5)轉(zhuǎn)發(fā)者轉(zhuǎn)發(fā)微博的意愿:用戶轉(zhuǎn)發(fā)微博量retweet_post,關(guān)注數(shù)量fellowings_num。

6)是否包含url:1未包含,0為未包含。

7)是否包含標(biāo)簽:1未包含,0為未包含。

8)是否為好友。相互關(guān)注的用戶互稱為好友。雙邊關(guān)系的好友相對(duì)于單邊關(guān)系更加的緊密,因此有較大的概率會(huì)影響微博的轉(zhuǎn)發(fā)。該特征的表示形式如公式(8)。

9)是否提及過對(duì)方:1表示提及,0表示未提及。

10)信息發(fā)送者和信息轉(zhuǎn)發(fā)者的興趣相似度:公式(11)為改進(jìn)后的kl公式。p和q分別表示兩個(gè)用戶的興趣向量。

11)信息接收者對(duì)信息感興趣的程度:其中p代表用戶的興趣向量,q代表微博主題向量。

(20)歷史數(shù)據(jù)提?。簭纳缃痪W(wǎng)絡(luò)中提取出用戶的轉(zhuǎn)發(fā)微博和未轉(zhuǎn)發(fā)微博;所述(20)轉(zhuǎn)發(fā)特提取步驟具體為:

(21)提取用戶轉(zhuǎn)發(fā)的微博:可以直接提取,用戶ui的轉(zhuǎn)發(fā)微博集合表示為

(22)提取用戶未轉(zhuǎn)發(fā)的微博:用戶ui關(guān)注的用戶集合為用戶ui的轉(zhuǎn)發(fā)微博集合對(duì)應(yīng)的上一級(jí)微博集合為用戶ui對(duì)應(yīng)的未轉(zhuǎn)發(fā)微博集合為

(30)為每個(gè)用戶生成預(yù)測(cè)模型:為每個(gè)用戶生成預(yù)測(cè)模型:通過每個(gè)用戶的歷史數(shù)據(jù)為每個(gè)用戶生成一個(gè)預(yù)測(cè)模型;

所述(30)轉(zhuǎn)發(fā)特提取步驟具體為:

首先判斷用戶歷史轉(zhuǎn)發(fā)微博數(shù)據(jù)是否大于100條。如果小于100條,則結(jié)束;如果大于100條,進(jìn)行如下步驟:

1)按照步驟10所提取的特征,對(duì)步驟20所提取的數(shù)據(jù)進(jìn)行處理,將用戶數(shù)據(jù)表示成向量的形式。

2)使用處理后的向量,生成svm預(yù)測(cè)模型。

(40)生成參考好友選擇模型:首先確定參考好友的相關(guān)特征,然后建立參考好友選擇模型,最后對(duì)參考好友模型進(jìn)行求解;

所述(40)轉(zhuǎn)發(fā)特提取步驟具體為:

(41)參考好友特征選擇,選擇如下特征:

1)性別是否相同:gender1,gender2分別代表兩個(gè)用戶的性別。

2)年齡的相似度:age1,age2分別表示兩個(gè)用戶的年齡,年齡越相近,相似度越高值越接近1。

3)興趣相似度:ins1,ins2分別表示兩個(gè)用戶的興趣向量。

4)關(guān)注相同微博的用戶數(shù)目。其中seti(fellows),setj(fellows)分別表示用戶i和用戶j關(guān)注微博的集合,||seti(fellows)∪setj(fellows)||表示用戶i和用戶j關(guān)注微博的總數(shù)目,||seti(fellows)∩setj(fellows)||表示用戶i和用戶j關(guān)注相同微博的數(shù)量。

5)用戶的權(quán)威相似度:authority(ai),authority(aj)分別表示兩個(gè)用戶的權(quán)威值。

(42)模型建立:步驟如下:

1)首先用所選取的特征建立一個(gè)特征向量,如公式(3-23)。

2)建立基礎(chǔ)函數(shù)公式(27),其中u和v表示互相關(guān)注的兩個(gè)微博用戶,φ為這兩個(gè)用戶間的關(guān)系特征,α0是常量,α1是好友特征的權(quán)重

fα(u,v)=α0+α1tφ(19)

3)使用貝葉斯邏輯斯蒂函數(shù)表示,兩個(gè)用戶對(duì)同一微博都轉(zhuǎn)發(fā)的概率為p(u,v),如公式(28)。

4)g(v,e)為微博構(gòu)成的網(wǎng)絡(luò),v是所有用戶的集合,e是所有用戶間的關(guān)注關(guān)系。對(duì)于用戶集合中任意一個(gè)用戶u,其好友集合為fri(u),相互關(guān)注的用戶互稱為好友。用戶u的好友集合中和用戶u轉(zhuǎn)發(fā)過相同微博的好友集合為sf(u)∈fri(u),兩個(gè)好友轉(zhuǎn)發(fā)的相同微博的集合為swei(u,v),||swei(u,v)||表示集合swei(u,v)中元素的數(shù)量。一個(gè)u用戶和其中一個(gè)好友v轉(zhuǎn)發(fā)過相同微博的概率為:。

5)sf(u)為用戶u的好友集合中和用戶u轉(zhuǎn)發(fā)過相同微博的好友集合,用戶u和所有好友轉(zhuǎn)發(fā)過相同微博的概率為:

6)在整個(gè)數(shù)據(jù)集中好友間轉(zhuǎn)發(fā)過相同微博的概率為:

7)最終形式為式:

8)滿足全局似然概率f(g(v,e),α)最大的參數(shù)估計(jì)α即為該模型的解。計(jì)算出參數(shù)后將參數(shù)的值帶入到公式(19),當(dāng)選擇一個(gè)用戶參考好友時(shí),將該用戶與相鄰好友的關(guān)系特征向量分別帶入到公式(19),選擇值最大的好友作為參考好友。

(43)好友模型求解

1)求上式(24)的解,等價(jià)于式(25)取得最小值時(shí),α的值即為所求的解。

2)設(shè)參數(shù)α,目標(biāo)函數(shù)l(α)=-lgf(g(v,e),α),該式的求解可以通過隨機(jī)梯度下降算法來求解。首先初始化α(0)的值,然后根據(jù)要學(xué)習(xí)的數(shù)據(jù)集合,每次沿著目標(biāo)函數(shù)的下降方向前進(jìn)一小步,步伐的大小為δ,經(jīng)過若干次迭代和對(duì)α值的更新,可以使目標(biāo)函數(shù)收斂到全局或者局部的最優(yōu)值。為了防止目標(biāo)函數(shù)收斂的值是局部最優(yōu)值,嘗試不同的初始值,然后比較目標(biāo)函數(shù)收斂后的值。

(50)轉(zhuǎn)發(fā)預(yù)測(cè):當(dāng)用戶接受到一條新的微博時(shí),首先判斷該用戶是否擁有自己的轉(zhuǎn)發(fā)預(yù)測(cè)模型,如果有則使用該用戶自己的轉(zhuǎn)發(fā)模型進(jìn)行預(yù)測(cè),如果沒有則使用參考好友選擇模型選擇一個(gè)參考好友,通過該參考好友的轉(zhuǎn)發(fā)預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。

所述(50)轉(zhuǎn)發(fā)預(yù)測(cè)步驟包括:

(51)當(dāng)一個(gè)用戶接受到一個(gè)新的微博時(shí),按照步驟(10)所提取的特征,對(duì)這條微博處理,將微博表示成特征向量;

(52)判斷該用戶是否擁有轉(zhuǎn)發(fā)預(yù)測(cè)模型,如果有,使用自己的轉(zhuǎn)發(fā)預(yù)測(cè)模型進(jìn)行預(yù)測(cè);如果沒有,使用步驟(40)的參考好友選擇模型從相鄰的好友中選擇出一位參考好友,通過該參考好友的轉(zhuǎn)發(fā)預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。

為了驗(yàn)證本發(fā)明方法的有效性,對(duì)本發(fā)明方法進(jìn)行下述實(shí)驗(yàn)分析。

硬件環(huán)境:英特爾第二代酷睿i5-2430m@2.40ghz雙核

軟件環(huán)境:windows7旗艦版64位

(61)圖4為所選擇的部分特征的箱線示意圖,圖4中a為發(fā)送者權(quán)威箱線圖,b為接收者對(duì)微博的興趣箱線圖,c為發(fā)送者意愿箱線圖,d為發(fā)送者影響力箱線圖,以圖4中a進(jìn)行說明,可以看出相同特征在轉(zhuǎn)發(fā)微博和未轉(zhuǎn)發(fā)微博中的中位值和值域相差較大,因此這些特征具有良好的區(qū)分轉(zhuǎn)發(fā)微博與未轉(zhuǎn)發(fā)微博的能力。

(62)通過將基于個(gè)體用戶特征的信息傳播方法和邏輯回歸算法(lr)、樸素貝葉斯算法(nb)進(jìn)行對(duì)比,驗(yàn)證本方法的有效性。

在不同的數(shù)據(jù)量的情況下,使用f值來衡量本方法、邏輯回歸算法(lr)、樸素貝葉斯算法(nb)的預(yù)測(cè)效果,結(jié)果都顯示本方法都具有更好的效果,如圖3所示。當(dāng)用戶數(shù)據(jù)量達(dá)到100-200的時(shí)候,邏輯回歸算法和樸素貝葉斯算法迅速發(fā)揮作用,準(zhǔn)確率迅速提高,但是其f值和本算法仍相差10%左右。

從圖3中可以看出當(dāng)用戶的歷史數(shù)據(jù)量不足100時(shí),本方法通過相鄰好友進(jìn)行預(yù)測(cè),準(zhǔn)確率在接近40%,而樸素貝葉斯算法和邏輯回歸算法由于歷史數(shù)據(jù)的缺乏甚至沒法進(jìn)行預(yù)測(cè)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1