本發(fā)明涉及社交網(wǎng)絡分析領域,涉及在線社交網(wǎng)絡信息傳播的建模,揭示不同驅動因素對信息傳播的影響。
背景技術:
互聯(lián)網(wǎng)技術的迅速發(fā)展,促使各種不同類型的在線社交媒體不斷涌現(xiàn),并逐漸成為人們獲取信息、分享信息的重要工具,深刻影響改變了人們的生活的方式。社交網(wǎng)絡為人們提供了十分廣泛的信息來源,用戶在網(wǎng)絡上留下的數(shù)據(jù)成為研究人員重要的數(shù)據(jù)來源。社交網(wǎng)絡的信息傳播問題已成為充滿潛力的研究方向,吸引了眾多研究人員關注。對社交網(wǎng)絡信息傳播模式的研究可以解決許多實際問題,如市場營銷、購物網(wǎng)站信息推薦、輿情監(jiān)控、優(yōu)化社交網(wǎng)絡的商業(yè)行為等。
近年來,社會學、計算機科學以及復雜網(wǎng)絡領域的專家和學者從不同的角度對社交網(wǎng)絡信息傳播進行表示、分類和預測,揭示信息傳播的潛在機制。其主要研究領域在網(wǎng)絡結構、群體狀態(tài)、信息特性等方向有不同程度的探索?;谌后w狀態(tài)的信息傳播主要從兩個角度出發(fā):一種是從群體出發(fā),借鑒傳染病的思想,描繪信息傳播過程;另一種是從個體出發(fā),考慮不同個體對信息傳播不同作用,建立個體影響力模型。
基于群體狀態(tài)的傳播模型通過描述網(wǎng)絡中用戶對信息的接受狀態(tài),以及個體在這幾個狀態(tài)間的重新分配,刻畫信息傳播的動態(tài)變化。雖然有很多的描述群體狀態(tài)的模型被提出,但大多忽視了信息傳播過程中用戶之間動態(tài)的觀點交互行為和變換策略的過程對信息傳播的影響以及信息傳播的多源性問題。
技術實現(xiàn)要素:
本發(fā)明旨在解決以上現(xiàn)有技術的問題。提出了一種提高描繪準確度的基于在線社交網(wǎng)絡的信息傳播模型及方法。本發(fā)明的技術方案如下:
一種基于在線社交網(wǎng)絡的信息傳播模型,其包括:獲取數(shù)據(jù)模塊、多維屬性驅動機制建立模塊、動態(tài)演化策略建立模塊及熱點話題傳播模型構建模塊,所述獲取數(shù)據(jù)模塊用于從在線社交媒體的公共API獲取熱點話題下的用戶相關信息并進行數(shù)據(jù)處理;多維屬性驅動機制建立模塊,用于提取用戶網(wǎng)絡結構屬性和歷史行為屬性,并定義和量化相關用戶屬性,利用多元線性回歸方法構建用戶多維屬性驅動機制;動態(tài)演化策略建立模塊,用于定義感知流行度、策略集和收益矩陣,根據(jù)演化博弈論中的復制動態(tài)方程思想建立動態(tài)演化策略;熱點話題傳播模型構建模塊,用于以傳統(tǒng)SIR傳染病模型為基礎,結合多維屬性驅動機制和動態(tài)演化策略建立熱點話題傳播模型,分析內部驅動因素和外部驅動因素對信息傳播的影響。
進一步的,所述獲取數(shù)據(jù)模塊獲取熱點話題下的用戶相關信息,主要包括用戶信息、用戶社交關系、用戶歷史行為記錄三個方面的數(shù)據(jù);數(shù)據(jù)處理主要包括:對以上三個方面的數(shù)據(jù)進行時間分片,將數(shù)據(jù)按照時間區(qū)間進行劃分,然后,在單位時間內,從數(shù)據(jù)中找出已參與該話題的用戶及其粉絲,據(jù)此建立網(wǎng)絡拓撲。
進一步的,所述多維屬性驅動機制建立模塊構建用戶多維屬性驅動機制,首先,分別從網(wǎng)絡拓撲結構和用戶歷史行為屬性兩個方面提取用戶屬性;然后,根據(jù)提取的屬性量化驅動力形成的網(wǎng)絡結構要素fnetwork(ui)和用戶歷史行為要素fhistory(ui),用多元線性回歸的方法構建用戶多維屬性驅動機制,并求解基于內部驅動因素用戶參與話題的驅動力Dri(ui)。
進一步的,所述網(wǎng)絡拓撲結構提取用戶屬性包括:用戶的度Deg(ui)、用戶介數(shù)CB(ui),
所述用戶歷史行為屬性包括:內容相似性Sim(ui)、活躍用戶Act(ui)。
進一步的,所述動態(tài)演化策略建立模塊定義感知流行度、策略集和收益矩陣,
根據(jù)演化博弈論中的復制動態(tài)方程思想建立動態(tài)演化策略包括:
首先,定義收益矩陣Pn和Pa以及感知流行度M(t);Pn和Pa分別表示不主動關注熱點話題和主動關注熱點話題的收益。然后,從已有數(shù)據(jù)中提取未參與話題的活躍用戶作為未感染個體中選擇主動關注策略的用戶;最后,依據(jù)演化博弈論的復制動態(tài)方程建立動態(tài)演化策略。
進一步的,所述熱點話題傳播模型構建模塊,將多維屬性驅動機制和動態(tài)演化策略相結合,以傳統(tǒng)SIR模型為基礎構建信息傳播模型,分別將用戶參與話題的驅動力Dri(ui)和動態(tài)策略比例xn和xa在內的參數(shù)輸入到傳統(tǒng)SIR模型,進而構建新的熱點話題信息傳播模型。
進一步的,所述策略集包括定義“不主動關注的策略”inactive和“主動關注策略”active,個體接受主動關注的策略理解為個體主動關注熱點話題,反之亦然,我們用pn和pa分別表示用戶選擇策略inactive和active時參與話題的概率,其中pa>pn,下面我定義兩種不同的收益函數(shù):
Pn(t)=mnM(t)
Pa(t)=-k+maM(t)
選擇策略active的個體要付出一個額外的固定支付k,其中,ma>mn,ma和mn是與用戶參與話題的概率有關的變量;
定義感知流行度:依據(jù)傳統(tǒng)的SIR模型中感染率為理論基礎,建立感知流行度的概念,表示過去某一段時間,用戶感知到參與話題個體的變化率,
其中,x表示未參與話題用戶中選擇“不主動關注的策略”inactive的比例。
一種基于所述模型的基于在線社交網(wǎng)絡的信息傳播方法,其包括以下步驟:
獲取數(shù)據(jù)的步驟、建立多維屬性驅動機制的步驟,建立動態(tài)演化策略的步驟及構建熱點話題傳播模型的步驟。
進一步的,獲取數(shù)據(jù)的步驟主要從現(xiàn)有的社交媒體獲取熱點話題下的用戶社交關系、用戶歷史行為信息;建立多維屬性驅動機制的步驟主要包括,提取用戶網(wǎng)絡結構屬性和歷史行為屬性,并定義和量化相關用戶屬性,利用多元線性回歸方法構建用戶多維屬性驅動機制;建立動態(tài)演化策略的步驟包括,定義感知流行度、策略集和收益矩陣,根據(jù)演化博弈論中的復制動態(tài)方程思想建立動態(tài)演化策略;構建熱點話題傳播模型的步驟包括,以SIR模型為基礎,結合多維屬性驅動機制和動態(tài)演化策略建立熱點話題傳播模型,分析內部驅動因素和外部驅動因素對信息傳播的影響。
進一步的,所述獲取數(shù)據(jù)的步驟還包括對數(shù)據(jù)處理的步驟,主要包括:對用戶信息、用戶社交關系、用戶歷史行為記錄三個方面的數(shù)據(jù)進行時間分片,將數(shù)據(jù)按照時間區(qū)間進行劃分,然后,在單位時間內,從數(shù)據(jù)中找出已參與該話題的用戶及其粉絲,據(jù)此建立網(wǎng)絡拓撲。
本發(fā)明的優(yōu)點及有益效果如下:
本發(fā)明從用戶參與熱點話題的內部和外部驅動因素出發(fā),構建熱點話題信息傳播模型。對于內部驅動因素,提取用戶的網(wǎng)絡結構屬性和歷史行為屬性,利用多元線性回歸方法構建用戶多維屬性驅動機制,對個體參與話題的內部驅動因素進行分析,為信息傳播過程中不同群體狀態(tài)的轉變提供理論依據(jù)。對于外部驅動因素,考慮到信息傳播的多源性和用戶交互行為的復雜性,定義感知流行度的概念,并以演化博弈論為基礎,提出一種用戶行為的動態(tài)演化策略,揭示外部驅動因素對用戶行為的影響。最后,綜合考慮影響熱點信息傳播的內部和外部驅動因素,將動態(tài)演化策略和用戶多維屬性驅動機制結合作為群體狀態(tài)改變的理論依據(jù),以傳統(tǒng)SIR模型為基礎構建熱點話題信息傳播模型。從而實現(xiàn)對熱點話題信息在社交網(wǎng)絡中的傳播過程進行更加準確的描繪,揭示信息傳播過程中多因素耦合的本質規(guī)律。
附圖說明
圖1是本發(fā)明提供優(yōu)選實施例基于在線社交網(wǎng)絡的信息傳播模型的整體框圖。
圖2是本發(fā)明基于在線社交網(wǎng)絡的信息傳播模型框圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、詳細地描述。所描述的實施例僅僅是本發(fā)明的一部分實施例。
本發(fā)明解決上述技術問題的技術方案是,
如圖1所示為本發(fā)明整體框圖,表明本發(fā)明的輸入是話題下網(wǎng)絡結構,經(jīng)過熱點話題傳播模型后的輸出是消息已知者、消息未知者、消息免疫者在整體網(wǎng)絡中的情況。如圖2所示為本發(fā)明的總體流程圖,包括:獲取數(shù)據(jù)模塊,建立多維屬性驅動機制,建立動態(tài)演化策略模塊,構建熱點話題傳播模型模塊,共四大模塊。具體說明本發(fā)明的詳細實施過程,包括如下四個步驟:
S1:獲取數(shù)據(jù)源。本發(fā)明所需要的數(shù)據(jù)從在線社交媒體的公共API獲取
S2:構建用戶多維屬性驅動機制。首先,分別從網(wǎng)絡拓撲結構和用戶歷史行為屬性兩個方面提取用戶屬性。然后,根據(jù)提取的屬性量化驅動力形成的網(wǎng)絡結構要素fnetwork(ui)和用戶歷史行為要素fhistory(ui),用多元線性回歸的方法構建用戶多維屬性驅動機制,并求解基于內部驅動因素用戶參與話題的驅動力Dri(ui)。
S3:構建動態(tài)演化策略。首先,定義收益矩陣Pn和Pa以及感知流行度M(t);然后,從已有數(shù)據(jù)中提取未參與話題的活躍用戶作為未感染個體中選擇主動關注策略的用戶。最后,依據(jù)演化博弈論的復制動態(tài)方程建立動態(tài)演化策略。
S4:構建熱點話題傳播模型,將多維屬性驅動機制和動態(tài)演化策略相結合,以SIR為基礎構建信息傳播模型。分別將用戶參與話題的驅動力Dri(ui)和動態(tài)策略比例xn和xa等參數(shù)輸入到傳統(tǒng)SIR模型,進而構建新的熱點話題信息傳播模型。
上述步驟S1獲取數(shù)據(jù)源,提取相關屬性。主要分以下2個步驟:
S11:抓取數(shù)據(jù)。在某社交媒體上,抓取某個熱點話題下的用戶信息,主要包括用戶信息、用戶社交關系、用戶歷史行為記錄三個方面。
S12:數(shù)據(jù)處理。首先,對數(shù)據(jù)進行時間分片,將數(shù)據(jù)按照時間區(qū)間進行劃分。然后,在單位時間內,從數(shù)據(jù)中找出已參與該話題的用戶及其粉絲,據(jù)此建立網(wǎng)絡拓撲。
上述步驟S2建立多維屬性驅動機制。主要分以下四個步驟:
S21:提取網(wǎng)絡結構屬性??紤]用戶參與話題討論和轉發(fā)行為的網(wǎng)絡結構屬性因素,本發(fā)明就一下幾個方面定義了相關的屬性。
1)用戶的度Deg(ui)
節(jié)點的度(Degree)定義為與某節(jié)點ui相關聯(lián)的邊的數(shù)目。在線社交網(wǎng)絡是有向圖,若用戶ui關注uj,我們稱之為出度并表示為ui→uj,用戶ui的關注者總和記為Deg-(ui);若用戶uk關注ui,我們稱之為入度并表示為uk→ui,關注用戶ui的數(shù)量總和記為Deg+(ui)。所以有:
Deg(ui)=Deg-(ui)+Deg+(ui)
2)用戶介數(shù)CB(ui)
在網(wǎng)絡中,介數(shù)(Betweeness)定義為所有最短路徑經(jīng)過該節(jié)點(或邊)的概率之和,描述了某個節(jié)點在網(wǎng)絡中的影響力與中心性程度。假設某節(jié)點j和k之間的最短路徑的數(shù)量為δjk,這兩個節(jié)點之間的最短路徑經(jīng)過某用戶節(jié)點ui的數(shù)量為δjk(ui)。在此基礎上,用戶ui的介數(shù)可定義為
S22:提取用戶歷史行為屬性
1)內容相似性Sim(ui)
內容相似性(Similarity)用于描述某用戶ui的興趣與話題標簽的相似程度。通過提取用戶標簽和熱點話題中的關鍵字,用Jaccard系數(shù)進行歸一化處理。Jaccard系數(shù)的大小與用戶個人興趣成正相關。在這里我們設定A為用戶行為標簽,B為熱點話題高頻詞匯,則內容相似性為
2)活躍用戶Act(ui)
Act(vi)用于描述用戶ui是否是活躍用戶(Active User),1代表該用戶是活躍用戶,0代表該用戶不是活躍用戶。在參與話題的概率上,相比非活躍用戶,活躍用戶的概率更大,在這里定義活躍用戶為
其中,Active(ui)代表用戶ui的活躍指數(shù),τ為可調參數(shù)。
Active(ui)=ρ*Num[orig(ui)]+Num[retw(ui)]
ρ∈[0,1]為弱化系數(shù),Num[orig(ui)],Nun[retw(ui],分別是用戶ui在話題發(fā)起前一段時間發(fā)表微博和轉發(fā)微博的數(shù)量。
S23:結合網(wǎng)絡結構屬性和用戶歷史行為屬性,用戶ui參與話題的驅動力為:
Dri(ui)=θ0+θ1*fnetwork(ui)+θ2*fnetwork(ui)
其中,θ0、θ1、θ2是偏回歸系數(shù),θ1,θ2代表網(wǎng)絡結構屬性和用戶歷史行為記錄的在用戶驅動力中的占比,三個參數(shù)均采用多元線性回歸訓練得出。
表示網(wǎng)絡結構屬性,為歸一化因子,i表示用戶編號。
ψik表示歷史行為屬性,maxu∈V(ψ(ui))為歸一化因子,i表示用戶編號。
S3:構建動態(tài)演化策略。首先,定義收益矩陣Pn和Pa以及感知流行度M(t);然后,從已有數(shù)據(jù)中提取未參與話題的活躍用戶作為未感染個體中選擇主動關注策略的用戶。最后,依據(jù)演化博弈論中復制動態(tài)方程的思想建立動態(tài)演化策略。
S31:定義策略集和收益矩陣。首先,在這里我們定義兩種策略:“不主動關注的策略”inactive和“主動關注策略”active,個體接受主動關注的策略可以理解為個體主動關注熱點話題,反之亦然。我們用pn和pa分別表示用戶選擇策略inactive和active時參與話題的概率,其中pa>pn。
下面我定義兩種不同的收益函數(shù):
Pn(t)=mnM(t)
Pa(t)=-k+maM(t)
選擇策略active的個體要付出一個額外的固定支付k。其中,ma>mn。ma和mn是與用戶參與話題的概率有關的變量。
S32:定義感知流行度(Perceived Popularity):依據(jù)傳統(tǒng)的SIR模型中感染率為理論基礎,建立感知流行度的概念。表示過去某一段時間,用戶感知到參與話題個體的變化率。
其中,x表示未參與話題用戶中選擇“不主動關注的策略”inactive的比例,
S33:定義動態(tài)演化策略。依據(jù)演化博弈論中復制動態(tài)的思想,參與人能夠通過與遇到的個體的收益進行比較從而動態(tài)的改變自己的策略。選擇不同策略群體的變化比例與相應的收益成正比(ΔP=Pn-Pa)。
由于我們的策略集中只包含兩種策略,在這里我們定義動態(tài)演化策略為:
其中,x和1-x分別表示選擇不同策略群體的比例,表示選擇不同策略個體相互遇到概率,φ是一個比例常量。
一個策略只有已經(jīng)被人們采用才會被傳播(由于x=0或者x=1是一種均衡),為了避免這種情況,我們這里認為有極少數(shù)個體忽視收益的均衡,采取非理性的策略(以概率)。改進后為:
在這里
S4:構建熱點話題傳播模型,將多維屬性驅動機制和動態(tài)演化策略結合,以SIR為基礎構建信息傳播模型。分別將狀態(tài)改變概率Dri(ui)和動態(tài)策略比例xn和xa等參數(shù)輸入到傳統(tǒng)SIR模型,進而構建新的熱點話題信息傳播模型。
S41:將動態(tài)策略演化模型與SIR模型相結合可得:
其中,m=(ma-mn)/k,ρ=kω,當λ=λm且r=μ時感知流行度等于一段時間內實際參與話題人數(shù)的變化率。
S42:引入多維屬性模型,可得
本發(fā)明從用戶參與熱點話題的內部和外部驅動因素出發(fā),提出一種熱點話題信息傳播模型。對于內部驅動因素,利用多元線性回歸方法構建用戶多維驅動機制,對個體參與話題的內部驅動因素進行分析。對于外部驅動因素,提出一種基于感知流行度的用戶行為動態(tài)演化策略,揭示外部驅動因素對用戶行為的影響。最后,結合傳統(tǒng)SIR模型,綜合考慮影響熱點話題信息傳播的驅動因素,得到一種基于用戶多維屬性和演化博弈論的熱點話題傳播模型。揭示不同驅動因素對信息傳播的影響,描繪社交網(wǎng)絡中熱點信息的傳播趨勢。
以上這些實施例應理解為僅用于說明本發(fā)明而不用于限制本發(fā)明的保護范圍。在閱讀了本發(fā)明的記載的內容之后,技術人員可以對本發(fā)明作各種改動或修改,這些等效變化和修飾同樣落入本發(fā)明權利要求所限定的范圍。