一種對社交網(wǎng)絡信息傳播趨勢預測的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種對社交網(wǎng)絡信息傳播趨勢預測的方法及系統(tǒng),包括獲取社交網(wǎng)絡中的信息數(shù)據(jù)和用戶數(shù)據(jù),利用用戶數(shù)據(jù)計算出用戶類別分布向量;對信息數(shù)據(jù)進行歸一化處理;利用移動平均方法對歸一化的信息數(shù)據(jù)進行平滑處理,結合Diffusion-Info用戶類別分布向量計算出信息傳播趨勢的預測點,繪制信息傳播趨勢線;將通過K-SC算法得到的若干基本信息傳播曲線與信息傳播趨勢線擬合,獲取信息傳播趨勢預測線的后續(xù)趨勢線;本發(fā)明能夠盡早的對信息傳播能力進行估計,減少了傳統(tǒng)方法的滯后性,對信息及時推送和社交網(wǎng)絡的輿情及時控制提供了幫助;同時本發(fā)明的系統(tǒng)在運行時內(nèi)存代價低,擁有很高的效率,擁有獨立性和可移植性。
【專利說明】一種對社交網(wǎng)絡信息傳播趨勢預測的方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及社交網(wǎng)絡中的信息傳播領域,尤其涉及一種對社交網(wǎng)絡信息傳播趨勢預測的方法及系統(tǒng)。
【背景技術】
[0002]目前,網(wǎng)絡已經(jīng)成為人獲取信息的重要途徑,尤其是隨著各種社交網(wǎng)站的快速崛起,更方便的信息獲取和更快速的信息傳播隨之而來。更多的信息利用網(wǎng)絡來到人們面前,更多的問題也就會出現(xiàn)。社交網(wǎng)絡已經(jīng)形成了龐大的線上社會群體,構建了密切的線上人際關系。然而,這種前所未有的信息傳播優(yōu)勢和巨大的影響力,怎樣最大化的突起其優(yōu)勢,摒棄其缺點,讓社交網(wǎng)絡這個線上社會充滿正能量成為此方法的動力和目標。
[0003]社交網(wǎng)絡上的信息傳播不同于信件、口頭、報紙等傳統(tǒng)的信息傳播,社交網(wǎng)絡中的信息傳播具有以下幾方面的突出特征,第一,具有很強的實時性,科技的進步,信息的發(fā)出者很容易將看到的重大事件用最快的時間向外傳播,例如:2009年I月15日的美國哈爾遜河墜機時間,不到15分鐘,Twitter中已經(jīng)廣泛傳播,而紐約日報的報道卻在15小時之后。第二,擁有較強的群體性,社交網(wǎng)絡的信息發(fā)布變得隨心所欲,不同的人出于一些目的會發(fā)布一些具有煽動性的信息,而這些信息廣泛傳播將會引發(fā)群體性。第三,信息更新周期性變小,由于信息的大量發(fā)布,信息的來源越來越廣,所以信息在傳播中逐漸被新的信息所取代,周期性變小。
[0004]信息傳播的趨勢預測結合社交網(wǎng)絡上信息傳播的特點,會有效的解決很多問題,本發(fā)明要解決的主要是以下兩個方面的問題:
[0005]第一,信息的及時推送,現(xiàn)在各大社交網(wǎng)站以及網(wǎng)民對信息的及時推送需求越來越高,能夠根據(jù)信息的傳播趨勢來推送信息,會得到很好的實時性效果。讓信息更準,更快的推送到需求人面前。
[0006]第二,網(wǎng)絡輿情控制,網(wǎng)絡信息具有很強的群體性和突發(fā)性,如果能將輿情信息提前發(fā)現(xiàn)和有效的控制,就會避免很多的群體性事件,將線上的社會變得更加和諧,穩(wěn)定。
[0007]能夠及早的發(fā)現(xiàn)信息傳播中的變化,盡早的對信息的傳播趨勢做出預測成為了信息實時推送和社會網(wǎng)絡輿情監(jiān)測的主要部分。目前,對信息推送和輿情傳播都是采用的監(jiān)測方法,設置一個閥值,當信息的某些參數(shù)大于這個閥值時,就會定義為推送信息或者輿情信息。這些方法相對粗糙,信息的實時特征很難得到保證。
【發(fā)明內(nèi)容】
[0008]本發(fā)明所要解決的技術問題是提供一種可實時、有效、快速對社交網(wǎng)絡信息傳播趨勢預測的方法及系統(tǒng),用于解決現(xiàn)有技術中存在的在社交網(wǎng)絡信息傳播過程中,熱點發(fā)現(xiàn)滯后,信息推送以及網(wǎng)絡輿情監(jiān)測難以實現(xiàn)實時性等問題。
[0009]本發(fā)明解決上述技術問題的技術方案如下:一種對社交網(wǎng)絡信息傳播趨勢預測的方法,包括如下步驟:[0010]步驟1:獲取社交網(wǎng)絡中的信息數(shù)據(jù)和用戶數(shù)據(jù),并將信息數(shù)據(jù)和用戶數(shù)據(jù)存入到數(shù)據(jù)庫中;
[0011]步驟2:從數(shù)據(jù)庫獲取用戶數(shù)據(jù),統(tǒng)計出用戶類別及用戶類別在不同社交網(wǎng)站的分布情況,進而計算出Diffusion_Info用戶類別分布向量;
[0012]步驟3:從數(shù)據(jù)庫獲取信息數(shù)據(jù),將信息傳播趨勢以時間間隔進行統(tǒng)計,得到的時序序列作為信息傳播中熱度趨勢特征,將不同的社交網(wǎng)絡平臺信息數(shù)據(jù)進行歸一化處理;
[0013]步驟4:利用移動平均方法對歸一化的信息數(shù)據(jù)進行平滑處理,結合Diffusion-1nfo用戶類別分布向量計算出當前信息傳播點,繪制當前信息傳播曲線;
[0014]步驟5:將通過K-SC算法得到的若干基本信息傳播曲線與步驟4中得到的當前信息傳播曲線擬合,取擬合差值最小的基本信息傳播曲線為社交網(wǎng)絡信息傳播趨勢線。
[0015]本發(fā)明的有益效果是:本發(fā)明充分考慮了社交網(wǎng)絡信息的實時性,利用當前信息的部分傳播趨勢,與K-SC中所得到的信息傳播曲線進行擬合,K-SC的傳播曲線是對完整的信息傳播曲線模式的一個類別劃分,因此根據(jù)部分當前信息傳播曲線利用趨勢預測,能夠盡早的對信息傳播能力進行估計,減少了傳統(tǒng)方法的滯后性,對信息及時推送和社交網(wǎng)絡的輿情及時控制提供了幫助。
[0016]在上述技術方案的基礎上,本發(fā)明還可以做如下改進。
[0017]進一步,步驟I中獲取社交網(wǎng)絡中的信息數(shù)據(jù)和用戶數(shù)據(jù)時,根據(jù)不同類型的社交網(wǎng)站采取不同的數(shù)據(jù)獲取方式;對于以文本形式體現(xiàn)的社交網(wǎng)絡,采用網(wǎng)絡爬蟲獲取所需的信息數(shù)據(jù)與用戶數(shù)據(jù),對于短文本類的社交網(wǎng)絡,使用平臺提供的API獲取所需的信息數(shù)據(jù)與用戶數(shù)據(jù)。
[0018]進一步,步驟I中獲取信息數(shù)據(jù)時,獲取信息的基本特征數(shù)據(jù),將噪音數(shù)據(jù)去除,以統(tǒng)一形式存入數(shù)據(jù)庫;獲取用戶數(shù)據(jù)時,獲取用戶對信息做出反應的時間數(shù)據(jù),記錄其采納信息的時間,存入數(shù)據(jù)庫。
[0019]進一步,步驟2的具體實現(xiàn)為:
[0020]步驟2.1:從數(shù)據(jù)庫中獲取用戶數(shù)據(jù),根據(jù)用戶數(shù)據(jù)獲取用戶對信息做出反應的時間;
[0021]步驟2.2:采用Gaussian Logit Curve模型方法,將用戶對信息做出反應時間進行統(tǒng)計,計算得出每種社交網(wǎng)絡用戶類別分布;
[0022]步驟2.3:利用用戶類別分布結合Rogers創(chuàng)新擴散理論,計算得出Diffusion_Info用戶類別分布向量。
[0023]進一步,步驟5的具體實現(xiàn)為:
[0024]步驟5.1:通過K-SC算法將社交網(wǎng)絡上的信息傳播聚類成若干種基本信息傳播曲線.[0025]步驟5.2:將通過K-SC算法得到的基本信息傳播曲線與步驟4得到的當前信息傳播曲線進行擬合;
[0026]步驟5.3:找到與當前信息傳播曲線擬合度最高的基本信息傳播曲線,即為社交網(wǎng)絡信息傳播趨勢線。
[0027]本發(fā)明解決上述技術問題的另一技術方案如下:一種對社交網(wǎng)絡信息傳播趨勢預測的系統(tǒng),包括數(shù)據(jù)獲取模塊、數(shù)據(jù)庫模塊、用戶數(shù)據(jù)處理模塊、信息數(shù)據(jù)處理模塊、當前信息傳播曲線計算模塊和信息傳播趨勢線預測模塊;
[0028]所述數(shù)據(jù)獲取模塊,其用于獲取社交網(wǎng)絡中的信息數(shù)據(jù)和用戶數(shù)據(jù),并將信息數(shù)據(jù)和用戶數(shù)據(jù)存入到數(shù)據(jù)庫中;
[0029]所述數(shù)據(jù)庫模塊,其用于存放歸一化的信息數(shù)據(jù)及用戶數(shù)據(jù);
[0030]所述用戶數(shù)據(jù)處理模塊,其用于從數(shù)據(jù)庫獲取用戶數(shù)據(jù),統(tǒng)計出用戶類別及用戶類別在不同社交網(wǎng)站的分布情況,進而計算出Diffusion_Info用戶類別分布向量;
[0031]所述信息數(shù)據(jù)處理模塊,其用于從數(shù)據(jù)庫獲取信息數(shù)據(jù),將信息傳播趨勢以時間間隔進行統(tǒng)計,得到的時序序列作為信息傳播中熱度趨勢特征,將不同的社交網(wǎng)絡平臺信息數(shù)據(jù)進行歸一化處理;
[0032]所述當前信息傳播曲線計算模塊,其用于利用移動平均方法對歸一化的信息數(shù)據(jù)進行平滑處理,結合Diffusion-1nfo用戶類別分布向量計算出當前信息傳播點,繪制當前信息傳播曲線;
[0033]所述信息傳播趨勢線預測模塊,其用于將通過K-SC算法得到的若干基本信息傳播曲線與當前信息傳播曲線擬合,取擬合差值最小的基本信息傳播曲線為社交網(wǎng)絡信息傳播趨勢線。
[0034]本發(fā)明的有益效果是:本發(fā)明的系統(tǒng)在運行時內(nèi)存代價低,擁有很高的效率,擁有獨立性和可移植性;本發(fā)明能夠?qū)π畔鞑ペ厔葑龀黾霸绲念A測,對信息的及時推送,和網(wǎng)絡的輿情及時控制都有很大的幫助。
[0035]在上述技術方案的基礎上,本發(fā)明還可以做如下改進。
[0036]進一步,所述數(shù)據(jù)獲取模塊包括信息數(shù)據(jù)獲取單元和用戶數(shù)據(jù)獲取單元;
[0037]所述信息數(shù)據(jù)獲取單元,其用于獲取信息的基本特征數(shù)據(jù),將噪音數(shù)據(jù)去除,以統(tǒng)一形式存入數(shù)據(jù)庫;
[0038]所述用戶數(shù)據(jù)獲取單元,其用于獲取用戶對信息做出反應的時間數(shù)據(jù),記錄其采納信息的時間,存入數(shù)據(jù)庫。
[0039]進一步,所述用戶數(shù)據(jù)處理模塊包括數(shù)據(jù)時間間隔統(tǒng)計單元、社交網(wǎng)絡用戶類別統(tǒng)計單元和用戶類別分布向量計算單元;
[0040]所述數(shù)據(jù)時間間隔統(tǒng)計單元,根據(jù)用戶數(shù)據(jù)獲取用戶對信息做出反應的時間;
[0041]所述社交網(wǎng)絡用戶類別統(tǒng)計單元,其用于采用Gaussian Logit Curve模型方法,將用戶對信息做出反應時間進行統(tǒng)計,計算得出每種社交網(wǎng)絡用戶類別分布;
[0042]用戶類別分布向量計算單元,其用于利用用戶類別分布結合Rogers創(chuàng)新擴散理論,計算得出Diffusion_Info用戶類別分布向量。
[0043]進一步,所述信息傳播趨勢線預測模塊包括基本信息傳播曲線聚類單元和信息傳播趨勢預測單元;
[0044]所述基本信息傳播曲線聚類單元,其用于通過K-SC算法將社交網(wǎng)絡上的信息傳播聚類成若干種基本信息傳播曲線;
[0045]所述信息傳播趨勢預測單元步驟,其用于將基本信息傳播曲線與當前信息傳播曲線進行擬合,找到與預測值擬合度最高的基本信息傳播曲線,即為社交網(wǎng)絡信息傳播趨勢預測趨勢線?!緦@綀D】
【附圖說明】
[0046]圖1為本發(fā)明所述一種對社交網(wǎng)絡信息傳播趨勢預測的方法流程圖;
[0047]圖2為本發(fā)明所述一種對社交網(wǎng)絡信息傳播趨勢預測的系統(tǒng)框圖;
[0048]圖3為本發(fā)明所述數(shù)據(jù)獲取模塊結構框圖;
[0049]圖4為本發(fā)明所述用戶數(shù)據(jù)處理模塊結構框圖;
[0050]圖5為本發(fā)明所述信息傳播趨勢線預測模塊結構框圖。
[0051]附圖中,各標號所代表的部件列表如下:
[0052]1、數(shù)據(jù)獲取模塊,2、數(shù)據(jù)庫模塊,3、用戶數(shù)據(jù)處理模塊,4、信息數(shù)據(jù)處理模塊,5、當前信息傳播曲線計算模塊,6、信息傳播趨勢線預測模塊,11、信息數(shù)據(jù)獲取單元,12、用戶數(shù)據(jù)獲取單元,31、數(shù)據(jù)時間間隔統(tǒng)計單元,32、社交網(wǎng)絡用戶類別統(tǒng)計單元,33和用戶類別分布向量計算單元,,61、基本信息傳播曲線聚類單元,62、和信息傳播趨勢預測單元62。
【具體實施方式】
[0053]以下結合附圖對本發(fā)明的原理和特征進行描述,所舉實例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。
[0054]如圖1所示,一種對社交網(wǎng)絡信息傳播趨勢預測的方法,包括如下步驟:
[0055]步驟1:獲取社交網(wǎng)絡中的信息數(shù)據(jù)和用戶數(shù)據(jù),并將信息數(shù)據(jù)和用戶數(shù)據(jù)存入到數(shù)據(jù)庫中;
[0056]步驟2:從數(shù)據(jù)庫獲取用戶數(shù)據(jù),統(tǒng)計出用戶類別及用戶類別在不同社交網(wǎng)站的分布情況,進而計算出Diffusion_Info用戶類別分布向量;
[0057]步驟3:從數(shù)據(jù)庫獲取信息數(shù)據(jù),將信息傳播趨勢以時間間隔進行統(tǒng)計,得到的時序序列作為信息傳播中熱度趨勢特征,將不同的社交網(wǎng)絡平臺信息數(shù)據(jù)進行歸一化處理;
[0058]步驟4:利用移動平均方法對歸一化的信息數(shù)據(jù)進行平滑處理,結合Diffusion-1nfo用戶類別分布向量計算出當前信息傳播點,繪制當前信息傳播曲線;
[0059]步驟5:將通過K-SC算法得到的若干基本信息傳播曲線與步驟4中得到的當前信息傳播曲線擬合,取擬合差值最小的基本信息傳播曲線為社交網(wǎng)絡信息傳播趨勢線。
[0060]所述步驟2和步驟3的執(zhí)行沒有先后順序限制。
[0061]其中,步驟I中獲取社交網(wǎng)絡中的信息數(shù)據(jù)和用戶數(shù)據(jù)時,根據(jù)不同類型的社交網(wǎng)站采取不同的數(shù)據(jù)獲取方式;對于以文本形式體現(xiàn)的社交網(wǎng)絡,采用網(wǎng)絡爬蟲獲取所需的信息數(shù)據(jù)與用戶數(shù)據(jù),對于短文本類的社交網(wǎng)絡,使用平臺提供的API獲取所需的信息數(shù)據(jù)與用戶數(shù)據(jù)。
[0062]步驟I中獲取信息數(shù)據(jù)時,獲取信息的基本特征數(shù)據(jù),將噪音數(shù)據(jù)去除,以統(tǒng)一形式存入數(shù)據(jù)庫;獲取用戶數(shù)據(jù)時,獲取用戶對信息做出反應的時間數(shù)據(jù),記錄其采納信息的時間,存入數(shù)據(jù)庫。
[0063]步驟2的具體實現(xiàn)為:
[0064]步驟2.1:從數(shù)據(jù)庫中獲取用戶數(shù)據(jù),根據(jù)用戶數(shù)據(jù)獲取用戶對信息做出反應的時間;
[0065]步驟2.2:采用Gaussian Logit Curve模型方法,將用戶對信息做出反應時間進行統(tǒng)計,計算得出每種社交網(wǎng)絡用戶類別分布;[0066]步驟2.3:利用用戶類別分布結合Rogers創(chuàng)新擴散理論,計算得出Diffusion_Info用戶類別分布向量。
[0067]所述的Rogers的創(chuàng)新擴散理論是根據(jù)生活中人們對采納新事物的時間,把創(chuàng)新的采用者分為創(chuàng)新者、早期采用者、早期大多數(shù)、晚期大多數(shù)和落后者。創(chuàng)新者是勇敢的先行者,自覺推動創(chuàng)新,創(chuàng)新交流中發(fā)揮重要作用。早期采用者是受人尊敬的社會人士,是公眾意見領袖,但行為謹慎。早期大多數(shù)是有思想的一群人,也比較謹慎,但他們較之普通人群更愿意、更早地接受變革。晚期大多數(shù)是持懷疑態(tài)度的一群人,只有當社會大眾普遍接受了新鮮事物的時候,才會采用。落后者是保守傳統(tǒng)的一群人,習慣于因循守舊,對新鮮事物吹毛求疵,只有當新的發(fā)展成為主流、成為傳統(tǒng)時,才會被動接受。
[0068]步驟4中移動平均法是用一組最近的實際數(shù)據(jù)值來預測未來一期或幾期內(nèi)公司產(chǎn)品的需求量、公司產(chǎn)能等的一種常用方法。移動平均法適用于即期預測。當產(chǎn)品需求既不快速增長也不快速下降,且不存在季節(jié)性因素時,移動平均法能有效地消除預測中的隨機波動,是非常有用的。
[0069]步驟5的具體實現(xiàn)為:
[0070]步驟5.1:通過K-SC算法將社交網(wǎng)絡上的信息傳播聚類成若干種基本信息傳播曲線.[0071]步驟5.2:將通過K-SC算法得到的基本信息傳播曲線與步驟4得到的當前信息傳播曲線進行擬合;
[0072]步驟5.3:找到與當前信息傳播曲線擬合度最高的基本信息傳播曲線,即為社交網(wǎng)絡信息傳播趨勢線。
[0073]這里所提到K-SC算法是來自斯坦福大學的Jaewon Yang等人采用聚類方法,對社交網(wǎng)絡中的信息進行分析,從而找到了 6種基本社交網(wǎng)絡信息的時序傳播模式。
[0074]如圖2所示,一種對社交網(wǎng)絡信息傳播趨勢預測的系統(tǒng),包括數(shù)據(jù)獲取模塊1、數(shù)據(jù)庫模塊2、用戶數(shù)據(jù)處理模塊3、信息數(shù)據(jù)處理模塊4、當前信息傳播曲線計算模塊5和信息傳播趨勢線預測模塊6;
[0075]所述數(shù)據(jù)獲取模塊1,其用于獲取社交網(wǎng)絡中的信息數(shù)據(jù)和用戶數(shù)據(jù),并將信息數(shù)據(jù)和用戶數(shù)據(jù)存入到數(shù)據(jù)庫中;
[0076]所述數(shù)據(jù)庫模塊2,其用于存放歸一化的信息數(shù)據(jù)及用戶數(shù)據(jù);
[0077]所述用戶數(shù)據(jù)處理模塊3,其用于從數(shù)據(jù)庫獲取用戶數(shù)據(jù),統(tǒng)計出用戶類別及用戶類別在不同社交網(wǎng)站的分布情況,進而計算出Diffusion_Info用戶類別分布向量;
[0078]所述信息數(shù)據(jù)處理模塊4,其用于從數(shù)據(jù)庫獲取信息數(shù)據(jù),將信息傳播趨勢以時間間隔進行統(tǒng)計,得到的時序序列作為信息傳播中熱度趨勢特征,將不同的社交網(wǎng)絡平臺信息數(shù)據(jù)進行歸一化處理;
[0079]所述當前信息傳播曲線計算模塊5,其用于利用移動平均方法對歸一化的信息數(shù)據(jù)進行平滑處理,結合Diffusion-1nfo用戶類別分布向量計算出當前信息傳播點,繪制當前信息傳播曲線;
[0080]所述信息傳播趨勢線預測模塊6,其用于將通過K-SC算法得到的若干基本信息傳播曲線與當前信息傳播曲線擬合,取擬合差值最小的基本信息傳播曲線為社交網(wǎng)絡信息傳播趨勢線。[0081]如圖3所示,所述數(shù)據(jù)獲取模塊I包括信息數(shù)據(jù)獲取單元11和用戶數(shù)據(jù)獲取單元12 ;
[0082]所述信息數(shù)據(jù)獲取單元11,其用于獲取信息的基本特征數(shù)據(jù),將噪音數(shù)據(jù)去除,以統(tǒng)一形式存入數(shù)據(jù)庫;
[0083]所述用戶數(shù)據(jù)獲取單元12,其用于獲取用戶對信息做出反應的時間數(shù)據(jù),記錄其采納信息的時間,存入數(shù)據(jù)庫。
[0084]如圖4所示,所述用戶數(shù)據(jù)處理模塊3包括數(shù)據(jù)時間間隔統(tǒng)計單元31、社交網(wǎng)絡用戶類別統(tǒng)計單元32和用戶類別分布向量計算單元33 ;
[0085]所述數(shù)據(jù)時間間隔統(tǒng)計單元31,根據(jù)用戶數(shù)據(jù)獲取用戶對信息做出反應的時間;
[0086]所述社交網(wǎng)絡用戶類別統(tǒng)計單元32,其用于采用Gaussian Logit Curve模型方法,將用戶對信息做出反應時間進行統(tǒng)計,計算得出每種社交網(wǎng)絡用戶類別分布;
[0087]用戶類別分布向量計算單元33,其用于利用用戶類別分布結合Rogers創(chuàng)新擴散理論,計算得出Diffusion_Info用戶類別分布向量。
[0088]如圖5所示,所述信息傳播趨勢線預測模塊6包括基本信息傳播曲線聚類單元61和信息傳播趨勢預測單元62 ;
[0089]所述基本信息傳播曲線聚類單元61,其用于通過K-SC算法將社交網(wǎng)絡上的信息傳播聚類成若干種基本信息傳播曲線;
[0090]所述信息傳播趨勢預測單元步驟62,其用于將基本信息傳播曲線與當前信息傳播曲線進行擬合,找到與預測值擬合度最高的基本信息傳播曲線,即為社交網(wǎng)絡信息傳播趨勢預測趨勢線。
[0091]本發(fā)明以天涯論壇為例,對于上述步驟具體實施步驟描述如下:
[0092]天涯論壇是開放性的BBS平臺,目前論壇所給的API接口還不是足夠完善,沒有達到實際要求,其本身又是以網(wǎng)頁html為主,所以本實施例,采用網(wǎng)絡爬蟲的方式來獲取信息數(shù)據(jù)和用戶數(shù)據(jù)。
[0093]第一,獲取社交網(wǎng)絡中的信息數(shù)據(jù)和用戶數(shù)據(jù),并將信息數(shù)據(jù)和用戶數(shù)據(jù)存入到數(shù)據(jù)庫中。
[0094]準備過程:在32位windows7平臺下安裝配置Microsoft SQL Server2008數(shù)據(jù)庫,編寫網(wǎng)絡爬蟲程序TYCrawler。
[0095]I)通過在主機上設置爬取啟動時間來執(zhí)行爬蟲程序TYCrawler。對于信息數(shù)據(jù),每個帖子都有自己獨有的ID,所以不用對信息的URL進行去重操作。爬取符合條件并被加入待爬取隊列的URL。對于用戶數(shù)據(jù),由于一個用戶可以對一個帖子進行多次回復,所以在爬取用戶數(shù)據(jù)的時候,要建立一個已爬取的用戶表,每次對要爬取的用戶進行判斷。
[0096]用正則表達式來選擇符合爬取要求的URL,并將符合的URL加入到Wait_URL隊列,利用JSoup的對抓取的html進行解析。其中,getWait_URL(URL)函數(shù)是獲取符合待爬取的URL,getlnfo (Post_ID)函數(shù)功能是爬取給定ID帖子的全部特征信息,包括標題、內(nèi)容、點擊量、回復量、回復時間等。getR印ly_ID(Post_ID)函數(shù)功能是獲取回復帖子的用戶ID。最終將信息數(shù)據(jù)存入到SQL Server2008數(shù)據(jù)庫中。
[0097]TYCrawler 定義如下:
[0098]void TYCrawler Q
{
定義爬蟲爬取的URL入口 ;
初始化待爬取隊列Wait-URL;
利用getWa U—URL (URL)將符合條件的URL入隊;
While ( Wai 1-URL 不為空)
{
從隊列中讀取一個URL;
利用getlnfo (Post-1D)對帖子的信息進行爬??;
將爬取的信息數(shù)據(jù)存入數(shù)據(jù)庫\
利用getRepl y_TD (PosUTD)獲取回復帖子的用戶TD列表,加入Users-List}
函數(shù)結束;
}
[0099]2) SQL Server2008數(shù)據(jù)庫的設計。信息數(shù)據(jù)和用戶數(shù)據(jù)的設計字段如下:
[0100]信息數(shù)據(jù):ID(帖子ID), text (帖子內(nèi)容),click(點擊量),reply(回復量),time(發(fā)帖時間)ο
[0101]用戶數(shù)據(jù):ID(用戶ID),PostID(回復帖子ID),text (回復內(nèi)容),floor (回復樓層),time(回復時間)。
[0102]這里,函數(shù)void TYCrawler O的定義只是起到示例和說明作用,本領域普通技術人員應該理解,可以在現(xiàn)有的操作系統(tǒng)平臺上使用已有的任何編程語言來實現(xiàn)該函數(shù)的功能,即獲取信息數(shù)據(jù)和用戶數(shù)據(jù)。
[0103]第二,利用Gaussian Logit Curve模型求解出用戶類別的分布,計算出Diffusion_Info向量。這里Gaussian Logit Curve模型是在創(chuàng)新擴散理論的基礎上提出來的,倉Il新擴散理論中把群體分為了 5類,而Gaussian Logit Curve模型求解就是這幾類用戶的分布。
[0104]在本實施例中,首先要根據(jù)用戶數(shù)據(jù)統(tǒng)計出時間特征,getTime_Span(time)函數(shù)實現(xiàn)。利用Gaussian Logit Curve進行時間數(shù)據(jù)處理,求解出用戶類別分布。將用戶類別分布結合創(chuàng)新擴散理論,計算出Diffusion_Info向量值。函數(shù)getDiffusion_Info O實現(xiàn)這個過程。[0105]getDiffusion_Info ()主要定義如下:
[0106]getDiffusion_Info () {
[0107]數(shù)據(jù)庫讀取用戶數(shù)據(jù),提取時間集合T ;
[0108]利用getTime_Span(time)函數(shù)統(tǒng)計出時間特征;
[0109]對時間進行Gaussian Logit Curve模型方法處理;
[0110]利用函數(shù)getDiffusion_Info O 計算出 Diffusion_Info 向量;
[0111]返回Diffusion_Info ;
[0112]函數(shù)結束;
[0113]}
[0114]第三,利用生成的Diffusi0n_lnf0用戶類別分布向量和移動均值法對信息數(shù)據(jù)進行計算,得出預測點值。
[0115]這里采用加權移動平均法求解信息傳播的預測點,因為每一種社交網(wǎng)絡,由于服務的內(nèi)容不同,所以用戶類別的分布是有所差異的,時間上對信息傳播的影響也是不同的。加入Diffusion_Info向量可以解決這個問題。
[0116]加權移動平均法的計算公式如下:
[0117]Ft = w1At_1+w2At_2+w3At_3+...+wnAt_n 式中,W1 是第 t_l 期實際的權重;w2 為第 t_2 期實際的權重;wn是第t_n期實際的權重;n為預測的時期數(shù);其中= I。
[0118]
【權利要求】
1.一種對社交網(wǎng)絡信息傳播趨勢預測的方法,其特征在于,包括如下步驟: 步驟1:獲取社交網(wǎng)絡中的信息數(shù)據(jù)和用戶數(shù)據(jù),并將信息數(shù)據(jù)和用戶數(shù)據(jù)存入到數(shù)據(jù)庫中; 步驟2:從數(shù)據(jù)庫獲取用戶數(shù)據(jù),統(tǒng)計出用戶類別及用戶類別在不同社交網(wǎng)站的分布情況,進而計算出Diffusion_Info用戶類別分布向量; 步驟3:從數(shù)據(jù)庫獲取信息數(shù)據(jù),將信息傳播趨勢以時間間隔進行統(tǒng)計,得到的時序序列作為信息傳播中熱度趨勢特征,將不同的社交網(wǎng)絡平臺信息數(shù)據(jù)進行歸一化處理; 步驟4:利用移動平均方法對歸一化的信息數(shù)據(jù)進行平滑處理,結合Diffusion-1nfo用戶類別分布向量計算出當前信息傳播點,繪制當前信息傳播曲線; 步驟5:將通過K-SC算法得到的若干基本信息傳播曲線與步驟4中得到的當前信息傳播曲線擬合,取擬合差值最小的基本信息傳播曲線為社交網(wǎng)絡信息傳播趨勢線。
2.根據(jù)權利要求1所述一種對社交網(wǎng)絡信息傳播趨勢預測的方法,其特征在于,步驟I中獲取社交網(wǎng)絡中的信息數(shù)據(jù)和用戶數(shù)據(jù)時,根據(jù)不同類型的社交網(wǎng)站采取不同的數(shù)據(jù)獲取方式;對于以文本形式體現(xiàn)的社交網(wǎng)絡,采用網(wǎng)絡爬蟲獲取所需的信息數(shù)據(jù)與用戶數(shù)據(jù),對于短文本類的社交網(wǎng)絡,使用平臺提供的API獲取所需的信息數(shù)據(jù)與用戶數(shù)據(jù)。
3.根據(jù)權利要求1所述一種對社交網(wǎng)絡信息傳播趨勢預測的方法,其特征在于,步驟I中獲取信息數(shù)據(jù)時,獲 取信息的基本特征數(shù)據(jù),將噪音數(shù)據(jù)去除,以統(tǒng)一形式存入數(shù)據(jù)庫;獲取用戶數(shù)據(jù)時,獲取用戶對信息做出反應的時間數(shù)據(jù),記錄其采納信息的時間,存入數(shù)據(jù)庫。
4.根據(jù)權利要求1所述一種對社交網(wǎng)絡信息傳播趨勢預測的方法,其特征在于,步驟2的具體實現(xiàn)為: 步驟2.1:從數(shù)據(jù)庫中獲取用戶數(shù)據(jù),根據(jù)用戶數(shù)據(jù)獲取用戶對信息做出反應的時間;步驟2.2:采用Gaussian Logit Curve模型方法,將用戶對信息做出反應時間進行統(tǒng)計,計算得出每種社交網(wǎng)絡用戶類別分布; 步驟2.3:利用用戶類別分布結合Rogers創(chuàng)新擴散理論,計算得出Diffusion_Info用戶類別分布向量。
5.根據(jù)權利要求1所述一種對社交網(wǎng)絡信息傳播趨勢預測的方法,其特征在于,步驟5的具體實現(xiàn)為: 步驟5.1:通過K-SC算法將社交網(wǎng)絡上的信息傳播聚類成若干種基本信息傳播曲線;步驟5.2:將通過K-SC算法得到的基本信息傳播曲線與步驟4得到的當前信息傳播曲線進行擬合; 步驟5.3:找到與當前信息傳播曲線擬合度最高的基本信息傳播曲線,即為社交網(wǎng)絡信息傳播趨勢線。
6.一種對社交網(wǎng)絡信息傳播趨勢預測的系統(tǒng),其特征在于,包括數(shù)據(jù)獲取模塊、數(shù)據(jù)庫模塊、用戶數(shù)據(jù)處理模塊、信息數(shù)據(jù)處理模塊、當前信息傳播曲線計算模塊和信息傳播趨勢線預測模塊; 所述數(shù)據(jù)獲取模塊,其用于獲取社交網(wǎng)絡中的信息數(shù)據(jù)和用戶數(shù)據(jù),并將信息數(shù)據(jù)和用戶數(shù)據(jù)存入到數(shù)據(jù)庫中; 所述數(shù)據(jù)庫模塊,其用于存放歸一化的信息數(shù)據(jù)及用戶數(shù)據(jù);所述用戶數(shù)據(jù)處理模塊,其用于從數(shù)據(jù)庫獲取用戶數(shù)據(jù),統(tǒng)計出用戶類別及用戶類別在不同社交網(wǎng)站的分布情況,進而計算出Diffusion_Info用戶類別分布向量; 所述信息數(shù)據(jù)處理模塊,其用于從數(shù)據(jù)庫獲取信息數(shù)據(jù),將信息傳播趨勢以時間間隔進行統(tǒng)計,得到的時序序列作為信息傳播中熱度趨勢特征,將不同的社交網(wǎng)絡平臺信息數(shù)據(jù)進行歸一化處理; 所述當前信息傳播曲線計算模塊,其用于利用移動平均方法對歸一化的信息數(shù)據(jù)進行平滑處理,結合Diffusion-1nfo用戶類別分布向量計算出當前信息傳播點,繪制當前信息傳播曲線; 所述信息傳播趨勢線預測模塊,其用于將通過K-SC算法得到的若干基本信息傳播曲線與當前信息傳播曲線擬合,取擬合差值最小的基本信息傳播曲線為社交網(wǎng)絡信息傳播趨勢線。
7.根據(jù)權利要求6所述一種對社交網(wǎng)絡信息傳播趨勢預測的系統(tǒng),其特征在于,所述數(shù)據(jù)獲取模塊包括信息數(shù)據(jù)獲取單元和用戶數(shù)據(jù)獲取單元; 所述信息數(shù)據(jù)獲取單 元,其用于獲取信息的基本特征數(shù)據(jù),將噪音數(shù)據(jù)去除,以統(tǒng)一形式存入數(shù)據(jù)庫; 所述用戶數(shù)據(jù)獲取單元,其用于獲取用戶對信息做出反應的時間數(shù)據(jù),記錄其采納信息的時間,存入數(shù)據(jù)庫。
8.根據(jù)權利要求6所述一種對社交網(wǎng)絡信息傳播趨勢預測的系統(tǒng),其特征在于,所述用戶數(shù)據(jù)處理模塊包括數(shù)據(jù)時間間隔統(tǒng)計單元、社交網(wǎng)絡用戶類別統(tǒng)計單元和用戶類別分布向量計算單元; 所述數(shù)據(jù)時間間隔統(tǒng)計單元,根據(jù)用戶數(shù)據(jù)獲取用戶對信息做出反應的時間; 所述社交網(wǎng)絡用戶類別統(tǒng)計單元,其用于采用Gaussian Logit Curve模型方法,將用戶對信息做出反應時間進行統(tǒng)計,計算得出每種社交網(wǎng)絡用戶類別分布; 用戶類別分布向量計算單元,其用于利用用戶類別分布結合Rogers創(chuàng)新擴散理論,計算得出Diffusion_Info用戶類別分布向量。
9.根據(jù)權利要求6所述一種對社交網(wǎng)絡信息傳播趨勢預測的系統(tǒng),其特征在于,所述信息傳播趨勢線預測模塊包括基本信息傳播曲線聚類單元和信息傳播趨勢預測單元; 所述基本信息傳播曲線聚類單元,其用于通過K-SC算法將社交網(wǎng)絡上的信息傳播聚類成若干種基本信息傳播曲線; 所述信息傳播趨勢預測單元步驟,其用于將基本信息傳播曲線與當前信息傳播曲線進行擬合,找到與預測值擬合度最高的基本信息傳播曲線,即為社交網(wǎng)絡信息傳播趨勢預測趨勢線。
【文檔編號】G06F17/30GK104008150SQ201410213602
【公開日】2014年8月27日 申請日期:2014年5月20日 優(yōu)先權日:2014年5月20日
【發(fā)明者】于延宇, 胡玥, 李歌, 李丹 申請人:中國科學院信息工程研究所