本發(fā)明涉及社交網(wǎng)絡(luò)分析領(lǐng)域,涉及在線社交網(wǎng)絡(luò)信息傳播的建模,揭示了熱點(diǎn)話題的傳播內(nèi)在規(guī)律及趨勢(shì)。
背景技術(shù):
隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,特別是近幾年移動(dòng)終端的快速普及,以臉書,推特,微信,微博為代表的在線社交網(wǎng)絡(luò)軟件越來越成為人們?nèi)粘I畹闹匾ぞ?。在線社交網(wǎng)絡(luò)的蓬勃發(fā)展和活躍用戶的急劇增長(zhǎng)、使得擁有社交性、信息共享性等多種屬性的在線社會(huì)網(wǎng)絡(luò)迅速成為人們信息傳播、輿論管制、商品營(yíng)銷、觀點(diǎn)表達(dá)、產(chǎn)生社會(huì)影響力的理想平臺(tái),吸引了越來越多的高校及企業(yè)研究機(jī)構(gòu)的關(guān)注。
目前國(guó)內(nèi)外在信息傳播領(lǐng)域的研究多是從三個(gè)角度出發(fā)的,第一種是基于復(fù)雜網(wǎng)絡(luò)的信息傳播研究,主要以傳染病動(dòng)力學(xué)應(yīng)用最為廣泛;第二種是融入用戶影響力在線社交網(wǎng)絡(luò)信息傳播研究,從用戶差異性角度探索信息傳播演化過程,其中影響力傳播的線性閾值模型和獨(dú)立級(jí)聯(lián)模型得到了廣泛應(yīng)用;第三種是在線社交網(wǎng)絡(luò)信息轉(zhuǎn)發(fā)相關(guān)因素研究,目前主要的轉(zhuǎn)發(fā)預(yù)測(cè)方法是可以分為基于用戶過往行為的預(yù)測(cè)、基于用戶文本興趣的預(yù)測(cè)、基于用戶所受群體影響、基于混合特征學(xué)習(xí)的預(yù)測(cè)。
目前的研究主要集中在網(wǎng)絡(luò)靜態(tài)特征對(duì)信息傳播的影響,但忽視了網(wǎng)絡(luò)的動(dòng)態(tài)特征,如用戶影響力、用戶間的關(guān)注關(guān)系等都在社交網(wǎng)絡(luò)中不斷的變化。因此在網(wǎng)絡(luò)靜態(tài)特征的基礎(chǔ)上,充分考慮用戶行為等動(dòng)態(tài)特性,更加真實(shí)的揭示信息傳播的內(nèi)在規(guī)律。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在解決以上現(xiàn)有技術(shù)的問題,從新的角度提出一種基于在線社交網(wǎng)絡(luò)的信息傳播模型及方法。
本發(fā)明的技術(shù)方案如下:一種基于在線社交網(wǎng)絡(luò)的信息傳播模型,包括獲取數(shù)據(jù)集模塊,用戶靜態(tài)狀態(tài)變化因素提取模塊,動(dòng)態(tài)狀態(tài)特征預(yù)測(cè)模塊和熱點(diǎn)話題傳播模型構(gòu)建模塊。
其中所述獲取數(shù)據(jù)集模塊,用于在在線社交網(wǎng)絡(luò)平臺(tái)的公共api下獲取相關(guān)熱點(diǎn)話題下的相關(guān)信息。相關(guān)熱點(diǎn)話題下的相關(guān)信息包括用戶自身信息、用戶的歷史行為記錄和用戶間的關(guān)系。
所述用戶靜態(tài)狀態(tài)變化因素提取模塊,用于從用戶屬性、內(nèi)容屬性和用戶關(guān)系屬性三個(gè)維度,量化影響用戶參與話題的靜態(tài)因素,利用邏輯回歸方法衡量每個(gè)因素的權(quán)重,構(gòu)建用戶靜態(tài)狀態(tài)改變機(jī)制。
所述動(dòng)態(tài)狀態(tài)特征預(yù)測(cè)模塊,用于將用戶的歷史行為中,每日參與話題數(shù)據(jù)整理為時(shí)間序列形式,然后利用混沌時(shí)間序列方法預(yù)測(cè)下一步動(dòng)態(tài),最后再將預(yù)測(cè)的結(jié)果歸一化,以預(yù)測(cè)用戶動(dòng)態(tài)行為特征。
所述熱點(diǎn)話題傳播模型構(gòu)建模塊,將用戶靜態(tài)狀態(tài)改變屬性機(jī)制與動(dòng)態(tài)狀態(tài)特征預(yù)測(cè)模塊所得到的歸一化預(yù)測(cè)結(jié)果結(jié)合,將二者相乘后的結(jié)果作為sir模型的傳染率μ,以(1-μ)作為恢復(fù)率,構(gòu)建新的熱點(diǎn)話題信息傳播模型。
本發(fā)明還提供一種基于混沌理論的信息傳播方法,包括以下步驟:
s1:獲取數(shù)據(jù)集,在線社交網(wǎng)絡(luò)平臺(tái)的公共api下爬取相關(guān)熱點(diǎn)話題下的相關(guān)信息。
s2:提取用戶靜態(tài)狀態(tài)變化因素,構(gòu)建用戶靜態(tài)狀態(tài)改變機(jī)制,從用戶屬性、內(nèi)容屬性和用戶關(guān)系屬性三個(gè)維度,量化影響用戶參與話題的靜態(tài)因素,利用邏輯回歸方法衡量每個(gè)因素的權(quán)重,構(gòu)建用戶靜態(tài)狀態(tài)改變機(jī)制。
s3:預(yù)測(cè)用戶動(dòng)態(tài)行為特征,將用戶的歷史行為中,每日參與話題數(shù)據(jù)整理為時(shí)間序列形式,然后利用混沌時(shí)間序列方法預(yù)測(cè)下一步動(dòng)態(tài),最后再將預(yù)測(cè)的結(jié)果歸一化,以預(yù)測(cè)用戶動(dòng)態(tài)行為特征。
s4:構(gòu)建熱點(diǎn)話題傳播模型,將用戶靜態(tài)狀態(tài)改變屬性機(jī)制與動(dòng)態(tài)狀態(tài)特征預(yù)測(cè)模塊所得到的歸一化預(yù)測(cè)結(jié)果結(jié)合,將二者相乘后的結(jié)果作為sir模型的傳染率μ,以(1-μ)作為恢復(fù)率,構(gòu)建新的熱點(diǎn)話題信息傳播模型。
步驟s2所述構(gòu)建用戶靜態(tài)狀態(tài)改變機(jī)制包括以下步驟:
s21:從用戶屬性維度出發(fā),提取用戶影響狀態(tài)改變的特征因子。
s22:從用戶社交關(guān)系維度出發(fā),提取該用戶與上游用戶主題興趣相似度和用戶間的交互強(qiáng)度特性因子。
s23:從內(nèi)容屬性維度出發(fā),提取用戶是否包含url、是否為轉(zhuǎn)發(fā)微博、微博主題和用戶主題興趣相似度的特征因子;
s24:采用邏輯回歸算法計(jì)算用戶的轉(zhuǎn)發(fā)概率
其中y表示用戶參與話題的決策,當(dāng)其為1的時(shí)候表示用戶參與了話題,其為0的時(shí)候表示用戶未參與了話題;θ是模型參數(shù),即回歸系數(shù);σ是sigmoid函數(shù),p()函數(shù)代表計(jì)算轉(zhuǎn)發(fā)概率的函數(shù),x表示該微博的特征集合,包含了s21、s22、s23中提取的特征因子,為模型自變量。用獲取的用戶的歷史數(shù)據(jù)對(duì)上述公式進(jìn)行訓(xùn)練,通過對(duì)用戶的歷史行為進(jìn)行分析從而得到用戶的狀態(tài)改變概率。
步驟s3預(yù)測(cè)用戶動(dòng)態(tài)行為特征的具體步驟為:
s31:將用戶的行為時(shí)間序列{x(i),i=1,2,...,n}根據(jù)c-c算法,將行為時(shí)間序列分為t個(gè)不相交的時(shí)間序列,計(jì)算各個(gè)子序列的統(tǒng)計(jì)量s(m,n,r,τ)=c(m,n,r,τ)-cm(1,n,r,τ),c(m,n,r,τ)為時(shí)間序列的關(guān)聯(lián)積分,s(m,n,r,τ)為反映序列的自相關(guān)特性的統(tǒng)計(jì)量,cm(1,n,r,τ)為關(guān)聯(lián)積分c(m,n,r,τ)的m次方。
s32:重構(gòu)相空間:對(duì)行為時(shí)間序列為{x(i),i=1,2,...,n},τ為時(shí)間延遲,m為嵌入維數(shù),n為數(shù)據(jù)組的大小,m=n-(m-1)*τ,m為相點(diǎn)個(gè)數(shù),此時(shí)間序列嵌入m維相空間得到n個(gè)相點(diǎn)的空間軌跡為:
式中,x即為表示空間軌跡的矩陣,xn為其中某個(gè)m維相空間點(diǎn),x(n)為其中某個(gè)時(shí)間序列。
s33:用戶行為時(shí)間序列的混沌性識(shí)別:采用小數(shù)據(jù)量方法,尋找給定軌道上每個(gè)點(diǎn)的最近鄰近點(diǎn),即
其中p為時(shí)間序列的平均周期,dj(0)為在初始時(shí)刻一對(duì)最近鄰點(diǎn)之間的距離,yi為相空間狀態(tài)點(diǎn),yj為相空間中的任一點(diǎn),
s34:根據(jù)一階加權(quán)的行為進(jìn)行預(yù)測(cè)計(jì)算,得到用戶的下一步行為特征。先對(duì)時(shí)間序列{x(i),i=1,2,...,n}進(jìn)行相空間重構(gòu),在重構(gòu)的相空間中計(jì)算各點(diǎn)到中心點(diǎn)yk之間的空間距離,找出yk的參考向量集為yki,i=1,2,…,q,并且點(diǎn)yki到y(tǒng)k的距離為di,從而尋找鄰近點(diǎn),然后進(jìn)行計(jì)算預(yù)測(cè)。
本發(fā)明的優(yōu)點(diǎn)及有益效果如下:
本發(fā)明從用戶靜態(tài)狀態(tài)改變概率和用戶動(dòng)態(tài)行為特征出發(fā),構(gòu)建熱點(diǎn)話題信息傳播模型。對(duì)于用戶靜態(tài)屬性,從用戶、內(nèi)容和用戶關(guān)系三個(gè)維度,量化影響用戶參與話題的靜態(tài)因素,利用邏輯回歸方法衡量每個(gè)因素的權(quán)重,從而構(gòu)建用戶靜態(tài)參與概率機(jī)制。對(duì)于用戶動(dòng)態(tài)行為預(yù)測(cè)機(jī)制,利用混沌時(shí)間序列預(yù)測(cè),重構(gòu)相空間,結(jié)合rbf神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)出用戶的下一步動(dòng)態(tài)行為。最后,將用戶的靜態(tài)屬性與動(dòng)態(tài)特征結(jié)合起來,融入到傳統(tǒng)的傳染病動(dòng)力學(xué)機(jī)制中,改進(jìn)得到一種基于混沌理論和用戶行為的信息傳播模型,能有效表征在線社交網(wǎng)絡(luò)中的信息傳播動(dòng)態(tài)趨勢(shì),發(fā)現(xiàn)信息傳播中的重要影響因素。
附圖說明
圖1是本發(fā)明提供優(yōu)選實(shí)施例基于在線社交網(wǎng)絡(luò)的信息傳播模型的整體框;
圖2是本發(fā)明基于混沌理論的信息傳播模型框圖。
具體實(shí)施方式
下面將結(jié)合發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、詳細(xì)地描述。所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例。
如圖1為本發(fā)明的主要整體架構(gòu),表明本發(fā)明的輸入是熱點(diǎn)話題的初始信息,在熱點(diǎn)話題傳播模型的處理上,輸出信息已知者、信息未知者、信息免疫者的最終演化趨勢(shì)。如圖2所示為本發(fā)明的總體流程圖,包括:包括獲取數(shù)據(jù)集模塊,用戶靜態(tài)狀態(tài)變化因素提取模塊,動(dòng)態(tài)狀態(tài)特征預(yù)測(cè)模塊和熱點(diǎn)話題傳播模型構(gòu)建模塊,共四大模塊?;谝陨细髂K本發(fā)明的詳細(xì)實(shí)施過程,包括如下四個(gè)步驟:
s1:獲取數(shù)據(jù)集。本發(fā)明需要的數(shù)據(jù)集是在在線社交網(wǎng)絡(luò)平臺(tái)的api獲取的。
s2:用戶靜態(tài)狀態(tài)變化因素提取。從用戶、內(nèi)容和用戶關(guān)系三個(gè)維度,量化影響用戶參與話題的靜態(tài)因素,利用邏輯回歸方法衡量每個(gè)因素的權(quán)重,從而構(gòu)建用戶靜態(tài)參與概率fstatic。
s3:預(yù)測(cè)用戶動(dòng)態(tài)行為特征。將爬取話題下的所有用戶的每日參與話題數(shù)據(jù)整理為以時(shí)間序列形式,然后利用混沌時(shí)間序列方法預(yù)測(cè)下一步動(dòng)態(tài),最后再將預(yù)測(cè)的結(jié)果歸一化,得到用戶的預(yù)測(cè)結(jié)果。
s4:構(gòu)建熱點(diǎn)話題傳播模型,將用戶的靜態(tài)屬性與動(dòng)態(tài)特征結(jié)合,將相乘后的結(jié)果作為sir模型的傳染率μ,在以(1-μ)作為恢復(fù)率,進(jìn)而構(gòu)建新的熱點(diǎn)話題信息傳播模型。
上述步驟s1獲取數(shù)據(jù)源,提取相關(guān)屬性。主要分以下2個(gè)步驟:
s11:抓取數(shù)據(jù)。在某社交媒體上,抓取某個(gè)熱點(diǎn)話題下的用戶信息,主要包括用戶信息、用戶社交關(guān)系、用戶歷史行為記錄三個(gè)方面。
s12:數(shù)據(jù)處理。首先,對(duì)數(shù)據(jù)進(jìn)行時(shí)間分片,將數(shù)據(jù)按照時(shí)間區(qū)間進(jìn)行劃分。然后,在單位時(shí)間內(nèi),從數(shù)據(jù)中找出已參與該話題的用戶及其粉絲,據(jù)此建立網(wǎng)絡(luò)拓?fù)洹?/p>
上述步驟s2用戶靜態(tài)狀態(tài)變化因素提取機(jī)制。主要分以下四個(gè)步驟:
s21:從用戶屬性維度出發(fā),提取用戶的粉絲數(shù)、轉(zhuǎn)發(fā)活躍度、性別、是否為注冊(cè)用戶、用戶的網(wǎng)絡(luò)行為動(dòng)態(tài)數(shù)目和用戶的pagerank值等影響狀態(tài)改變的特征因子,其中用戶的轉(zhuǎn)發(fā)活躍度是指用戶近期發(fā)表的微博中屬于轉(zhuǎn)發(fā)的概率,用戶的pagerank值是采用pagerank算法計(jì)算用戶在關(guān)注網(wǎng)絡(luò)中的pagerank值,作為用戶影響力的度量指標(biāo)之一。
s22:從社交關(guān)系度出發(fā),提取用戶的與上游用戶主題興趣相似度和用戶間的交互強(qiáng)度特性因子,其中與上游用戶主題興趣相似度是考慮到相同興趣的傳遞者的影響,因?yàn)橛脩舻泥従庸?jié)點(diǎn)的相似度同樣影響到其狀態(tài)改變。
s23:從內(nèi)容維度出發(fā),提取用戶的是否包含url、是否為轉(zhuǎn)發(fā)和主題和用戶主題興趣相似度特征因子。
s24:采用邏輯回歸算法,
其中y表示用戶參與話題的決策,當(dāng)其為1的時(shí)候表示用戶參與了話題,其為0的時(shí)候表示用戶未參與了話題。θ是模型參數(shù),也就是回歸系數(shù),σ是sigmoid函數(shù),用獲取的用戶的歷史數(shù)據(jù)進(jìn)行訓(xùn)練,通過對(duì)用戶的歷史行為進(jìn)行分析從而得到用戶的狀態(tài)改變概率。p()函數(shù)代表計(jì)算轉(zhuǎn)發(fā)概率的函數(shù),x表示該微博的特征集合,包含了s21、s22、s23中提取的特征因子,為模型自變量。
上述步驟s3預(yù)測(cè)用戶動(dòng)態(tài)行為特征機(jī)制。主要分以下四個(gè)步驟:
s31:將用戶的行為時(shí)間序列{x(i),i=1,2,...,n,根據(jù)c-c算法采用下列方式進(jìn)行計(jì)算:首先將行為時(shí)間序列分為t個(gè)不相交的時(shí)間序列,然后計(jì)算各個(gè)子序列的統(tǒng)計(jì)量s(m,n,r,τ)=c(m,n,r,τ)-cm(1,n,r,τ),c(m,n,r,τ)為時(shí)間序列的關(guān)聯(lián)積分,s(m,n,r,τ)為反映序列的自相關(guān)特性的統(tǒng)計(jì)量,cm(1,n,r,τ)為關(guān)聯(lián)積分c(m,n,r,τ)的m次方,其中關(guān)聯(lián)積分描述了系統(tǒng)的動(dòng)態(tài)過程中全部變量的相關(guān)程度,其定義為
ψ(·)為heaviside單位函數(shù),m為嵌入維數(shù),r為鄰域半徑大小,yki+1=ae+byki,i=1,2,…,q為相空間重構(gòu)的值。
將結(jié)果
其中差量為δs(m,t)=max[s(m,n,rj,τ)]-min[s(m,n,rk,τ)]j≠k,
s32:重構(gòu)相空間:對(duì)行為時(shí)間序列為{x(i),i=1,2,...,n},τ為時(shí)間延遲,m為嵌入維數(shù),n為數(shù)據(jù)組的大小,m=n-(m-1)*τ,此時(shí)間序列嵌入m維相空間的到n個(gè)相點(diǎn)的空間軌跡為:
式中,x即為表示空間軌跡的矩陣,xn為其中某個(gè)m維相空間點(diǎn),x(n)為其中某個(gè)時(shí)間序列。
s33:用戶行為時(shí)間序列的混沌性識(shí)別,采用小數(shù)據(jù)量方法:
在重構(gòu)相空間中,尋找給定軌道上每個(gè)點(diǎn)的最近鄰近點(diǎn),即
其中dj(0)為在初始時(shí)刻一對(duì)最近鄰點(diǎn)之間的距離,yi為相空間狀態(tài)點(diǎn),yj為相空間中的任一點(diǎn),
其中δt為樣本周期;dj(i)為基本軌道上第j對(duì)最近鄰點(diǎn)對(duì)經(jīng)過i個(gè)離散時(shí)間步長(zhǎng)后的距離,后來sato改進(jìn)了估計(jì)表達(dá)式,λ1(i)為估計(jì)的李雅普諾夫指數(shù)表達(dá)式,i為離散時(shí)間,dj(i)表示步長(zhǎng)的距離。
式中,λ1(i,k)表示最大李雅普諾夫指數(shù)估計(jì)表達(dá)式,k為常數(shù),最大lyapunov指數(shù)的幾何意義是量化初始閉軌道的指數(shù)發(fā)散和估計(jì)系統(tǒng)的總體混沌水平的量,所以結(jié)合sato的估計(jì)式有
兩邊取對(duì)數(shù)得
lndj(i)≈λ1(iδt)+lncj
所以,最大的lyapunov指數(shù)可以近似看成上式這組直線的斜率,可以用過最小二乘逼近這組直線而得到,即
式中ω為非零dj(i)的數(shù)目,結(jié)果發(fā)現(xiàn)大部分用戶的行為是處于混沌的。
s34:基于加權(quán)一階的行為發(fā)展預(yù)測(cè)模型,其步驟可分為如下四步:
step1:重構(gòu)相空間。根據(jù)c-c算法計(jì)算出時(shí)間序列的嵌入維數(shù)m和時(shí)間延遲τ,得到重構(gòu)相空間為y(t)=(x(t),x(t+τ),…,x(t+(m-1)τ))∈rm,t=1,2,…,m,其中m為重構(gòu)相空間點(diǎn)的個(gè)數(shù)m=n-(m-1)τ。如果s33步驟后發(fā)現(xiàn)時(shí)間序列具有混沌特性,則可省略step1:重構(gòu)相空間,直接進(jìn)行step2:計(jì)算最近鄰點(diǎn)。
step2:計(jì)算最近鄰點(diǎn)。在相空間中計(jì)算各點(diǎn)到中心點(diǎn)yk之間的空間距離,找出yk的參考向量集為yki,i=1,2,…,q,并且點(diǎn)yki到y(tǒng)k的距離為di,設(shè)dm是di中的最小值,定義點(diǎn)yki的權(quán)值為:
a為參數(shù),不妨取a=1。如果步驟s33發(fā)現(xiàn)時(shí)間序列具有混沌特性,則進(jìn)入下一步,進(jìn)行預(yù)測(cè)。
step3:進(jìn)行計(jì)算預(yù)測(cè)。一階加權(quán)局域線性擬合為
其中
就m=1的情況進(jìn)行討論,m>1的情況類似,即
應(yīng)用加權(quán)最小二乘法有
將上式看成是關(guān)于未知數(shù)a,b的二元函數(shù),兩邊求偏導(dǎo)得到
即簡(jiǎn)化得到未知數(shù)a,b方程組得:
step4:將上式得到的未知數(shù)a,b帶入公式:yki+1=ae+byki,i=1,2,…,q。參考向量集為yki,i=1,2,…,q的一步預(yù)測(cè)為yki+1,i=1,2,…,q,從而得到預(yù)測(cè)結(jié)果。
從而最后得到用戶的下一步行為特征。
上述步驟s4構(gòu)建熱點(diǎn)話題傳播模型,將用戶的靜態(tài)屬性與動(dòng)態(tài)特征結(jié)合,將相乘后的結(jié)果作為sir模型的傳染率λ,在以μ=1-λ作為恢復(fù)率,進(jìn)而構(gòu)建新的熱點(diǎn)話題信息傳播模型。將參數(shù)帶入如下傳染病動(dòng)力學(xué)方程,從而得到話題的演化趨勢(shì):
s+r+i=1
sir模型中,用戶群體有三種狀態(tài):易感染狀態(tài)s,感染狀態(tài)i,免疫狀態(tài)r,λ為感染概率,μ為恢復(fù)率。
本發(fā)明從用戶靜態(tài)狀態(tài)改變概率和用戶動(dòng)態(tài)行為特征出發(fā),構(gòu)建熱點(diǎn)話題信息傳播模型。對(duì)于用戶靜態(tài)屬性,從用戶、內(nèi)容和用戶關(guān)系三個(gè)維度,量化影響用戶參與話題的靜態(tài)因素,利用邏輯回歸方法衡量每個(gè)因素的權(quán)重,從而構(gòu)建用戶靜態(tài)參與概率機(jī)制。對(duì)于用戶動(dòng)態(tài)行為預(yù)測(cè)機(jī)制,利用混沌時(shí)間序列預(yù)測(cè),重構(gòu)相空間,結(jié)合加權(quán)一階預(yù)測(cè)出用戶的下一步動(dòng)態(tài)行為。最后,將用戶的靜態(tài)屬性與動(dòng)態(tài)特征結(jié)合起來,融入到傳統(tǒng)的傳染病動(dòng)力學(xué)機(jī)制中,改進(jìn)得到一種基于混沌理論和用戶行為的信息傳播模型,能有效表征在線社交網(wǎng)絡(luò)中的信息傳播動(dòng)態(tài)趨勢(shì),發(fā)現(xiàn)信息傳播中的重要影響因素。
以上這些實(shí)施例應(yīng)理解為僅用于說明本發(fā)明而不用于限制本發(fā)明的保護(hù)范圍。在閱讀了本發(fā)明的記載的內(nèi)容之后,技術(shù)人員可以對(duì)本發(fā)明作各種改動(dòng)或修改,這些等效變化和修飾同樣落入本發(fā)明權(quán)利要求所限定的范圍。