專利名稱:一種面向微博熱門話題社區(qū)的動態(tài)預(yù)測方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于社會化媒體數(shù)據(jù)分析與挖掘領(lǐng)域,尤其涉及一種面向微博熱門話題社區(qū)的動態(tài)預(yù)測方法及系統(tǒng)。
背景技術(shù):
社會網(wǎng)絡(luò)分析與挖掘,成為近幾年學(xué)術(shù)界和產(chǎn)業(yè)界的熱門研究領(lǐng)域,社區(qū)結(jié)構(gòu)研究則是其中一個非常重要的研究課題。當(dāng)前對社區(qū)結(jié)構(gòu)的研究往往集中于靜態(tài)層面,即給定一個網(wǎng)絡(luò),如何去發(fā)現(xiàn)其中隱藏的社區(qū)結(jié)構(gòu)。然而,事實上,社會網(wǎng)絡(luò)是不斷變化的,社區(qū)結(jié)構(gòu)也會隨著網(wǎng)絡(luò)的變化而演化。然而,本發(fā)明的發(fā)明人發(fā)現(xiàn),到目前為止,業(yè)界還未有針對動態(tài)變化的社區(qū)進行預(yù)測的方法。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供一種面向微博熱門話題社區(qū)的動態(tài)預(yù)測方法及系統(tǒng),旨在解決當(dāng)前未有針對動態(tài)變化的社區(qū)進行預(yù)測的問題。為此,本發(fā)明實施例提供了如下技術(shù)方案:一種面向微博熱門話題社區(qū)的動態(tài)預(yù)測方法,包括:獲取微博的熱門話題社區(qū)數(shù)據(jù);對交互數(shù)據(jù)進行形式化建模,并定義其對應(yīng)的矩陣;生成融合各種歷史交互行為的預(yù)測模型;根據(jù)熱門話題社區(qū)的歷史數(shù)據(jù)進行模型參數(shù)求解;以及對社區(qū)進行預(yù)測并輸出結(jié)果。另外,本發(fā)明實施例還進一步提供了如下技術(shù)方案:一種面向微博熱門話題社區(qū)的動態(tài)預(yù)測系統(tǒng),包括:數(shù)據(jù)獲取模塊,用于獲取微博的熱門話題社區(qū)數(shù)據(jù);建模模塊,用于對交互數(shù)據(jù)進行形式化建模,并定義其對應(yīng)的矩陣;預(yù)測模型生成模塊,用于生成融合各種歷史交互行為的預(yù)測模型;參數(shù)求解模塊,用于根據(jù)熱門話題社區(qū)的歷史數(shù)據(jù)進行模型參數(shù)求解;以及預(yù)測及輸出模塊,用于對社區(qū)進行預(yù)測并輸出結(jié)果。相對于現(xiàn)有技術(shù),本發(fā)明實施例提供的面向微博熱門話題社區(qū)的動態(tài)預(yù)測方法及系統(tǒng)能有效獲取熱門話題的社區(qū)數(shù)據(jù),并基于預(yù)測模型,充分利用熱門話題社區(qū)的歷史數(shù)據(jù)進行預(yù)測,從而獲得較高的預(yù)測準(zhǔn)確率,能較佳地為運營商或政府提供輔助決策支持。
圖1是本發(fā)明第一實施例提供的面向微博熱門話題社區(qū)的動態(tài)預(yù)測方法的流程圖2是基于騰訊微博開放平臺的主題微博數(shù)據(jù)獲取流程圖;圖3是騰訊微博的主題社區(qū)數(shù)據(jù)獲取界面圖;圖4是通過圖3獲取到的數(shù)據(jù)格式示意圖;圖5是第一實施例構(gòu)建的模型隨著K值的變化在四種數(shù)據(jù)集上的預(yù)測性能示意圖;圖6是本發(fā)明第二實施例提供的面向微博熱門話題社區(qū)的動態(tài)預(yù)測系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的僅是本發(fā)明的一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。需要指明的是,本發(fā)明實施例是基于微博開放平臺(如騰訊微博開放平臺)來獲取具有專題特性的微博數(shù)據(jù),從而進行的社區(qū)預(yù)測。微博,即微博客(Micro Blog)的簡稱,目前尚未有統(tǒng)一的定義,有學(xué)者將微博定義成一種通過關(guān)注機制分享簡短實時信息的廣播式社交網(wǎng)絡(luò)平臺,并指出微博的四個重要特點:(I)關(guān)注機制:可單向可雙向;(2)簡短內(nèi)容:通常為140字;(3)實時信息:最新的實時信息;(4)廣播式:公開的信息,任何人都可以瀏覽。微博兼具媒體和溝通工具的雙重性質(zhì),用戶可以通過電腦、手機、PDA (Personal Digital Assistant,掌上電腦)等各種終端隨時發(fā)布個人看法或信息,從而進行實時實地分享與溝通。在騰訊微博中,用戶A可以收聽任何一個他/她感興趣的用戶B,而被收聽的用戶B不必收聽用戶A。作為收聽者,用戶A能查閱所有他/她收聽的用戶的微博內(nèi)容(消息)。此外,在騰訊微博中,具有顯式的社區(qū)結(jié)構(gòu),對某一話題感興趣的用戶會參與到該話題的討論中,分享個人觀點、瀏覽別人的微博、撰寫評論、轉(zhuǎn)播某個新聞或微博等。騰訊微博提供了一個開放平臺API應(yīng)用程序接口,便于進行微博數(shù)據(jù)的收集。騰訊微博開放平臺,是基于騰訊微博系統(tǒng),為廣大開發(fā)者和用戶提供的開放數(shù)據(jù)分享與傳播平臺。廣大開發(fā)者和用戶登錄平臺后,就可以使用平臺提供的開放API接口,創(chuàng)建應(yīng)用從微博系統(tǒng)獲取信息,或?qū)⑿碌男畔鞑サ秸麄€微博系統(tǒng)中。實施例一圖1是本發(fā)明第一實施例提供的一種面向微博熱門話題社區(qū)的動態(tài)預(yù)測方法的方法流程圖,其包括步驟101至步驟105。步驟101:獲取微博的熱門話題社區(qū)數(shù)據(jù);步驟102:對交互數(shù)據(jù)進行形式化建模,并定義其對應(yīng)的矩陣;步驟103:生成融合各種歷史交互行為的預(yù)測模型;步驟104:根據(jù)熱門話題社區(qū)的歷史數(shù)據(jù)進行模型參數(shù)求解;以及步驟105:對社區(qū)進行預(yù)測并輸出結(jié)果。請一起參閱圖2-圖5,下面將結(jié)合具體實施方式
對上述方法進行說明。在步驟101中,可基于騰訊微博開放平臺獲取具有專題特性的微博數(shù)據(jù),獲取流程如圖2所示,具體包括:(I)、根據(jù)騰訊開放平臺提供的權(quán)限設(shè)定權(quán)限參數(shù),進行權(quán)限驗證。在本實施例中,主要是依據(jù)騰訊開放平臺提供的權(quán)限和權(quán)限驗證方法進行設(shè)定,設(shè)定成功時獲取數(shù)據(jù),否則需要更換權(quán)限密鑰。(2)、通過參數(shù)設(shè)定和主題設(shè)定確定出需要獲取的微博數(shù)據(jù),然后對微博數(shù)據(jù)進行抓取,并對抓取到的數(shù)據(jù)進行內(nèi)容分析和數(shù)據(jù)存儲,具體是將其存儲至數(shù)據(jù)庫中。(3)、通過參數(shù)更新從而進入下一個循環(huán),直至該主題下的所有微博數(shù)據(jù)全部抓取到為止。圖3為騰訊微博的主題社區(qū)數(shù)據(jù)獲取界面圖,圖4為抓取到的數(shù)據(jù)格式。在步驟102中,首先給出數(shù)據(jù)的形式化定義,然后給出問題的形式化定義,其中數(shù)據(jù)的形式化定義包括以下定義1-定義5。定義1:時序狀態(tài)矩陣(Temporal State Matrix)定義Ytxn為一個時序狀態(tài)矩陣,表示社區(qū)結(jié)構(gòu)的時序狀態(tài)。其中,T表示社區(qū)所持續(xù)的時間片總數(shù),N表示該社區(qū)所涉及的成員總數(shù),矩陣的元素表示每個成員在每個時刻下的狀態(tài):
權(quán)利要求
1.種面向微博熱門話題社區(qū)的動態(tài)預(yù)測方法,包括: 獲取微博的熱門話題社區(qū)數(shù)據(jù); 對交互數(shù)據(jù)進行形式化建模,并定義其對應(yīng)的矩陣; 生成融合各種歷史交互行為的預(yù)測模型; 根據(jù)熱門話題社區(qū)的歷史數(shù)據(jù)進行模型參數(shù)求解;以及 對社區(qū)進行預(yù)測并輸出結(jié)果。
2.權(quán)利要求1所述的面向微博熱門話題社區(qū)的動態(tài)預(yù)測方法,其特征在于,所述獲取微博的熱門話題社區(qū)數(shù)據(jù)包括: 根據(jù)開放平臺提供的權(quán)限設(shè)定權(quán)限參數(shù),進行權(quán)限驗證; 通過參數(shù)設(shè)定和主題設(shè)定確定出需要獲取的微博數(shù)據(jù),并對微博數(shù)據(jù)進行抓取。
3.權(quán)利要求2所述的面向微博熱門話題社區(qū)的動態(tài)預(yù)測方法,其特征在于,所述獲取微博的熱門話題社區(qū)數(shù)據(jù)進一步包括:對參數(shù)進行更新。
4.權(quán)利要求1所述的面向微博熱門話題社區(qū)的動態(tài)預(yù)測方法,其特征在于,所述對交互數(shù)據(jù)進行形式化建模,并定義其對應(yīng)的矩陣,包括:時序狀態(tài)矩陣、交互流、時序行為矩陣、時序收聽矩陣、以及時序交互矩陣的形式化定義。
5.權(quán)利要求1所述的面向微博熱門話題社區(qū)的動態(tài)預(yù)測方法,其特征在于,所述生成融合各種歷史交互行為的預(yù)測模型是基于logistic創(chuàng)建的K-歷史模型。
6.種面向微博熱門話題社區(qū)的動態(tài)預(yù)測系統(tǒng),包括: 數(shù)據(jù)獲取模塊,用于獲取微博的熱門話題社區(qū)數(shù)據(jù); 建模模塊,用于對交互數(shù)據(jù)進行形式化建模,并定義其對應(yīng)的矩陣; 預(yù)測模型生成模塊,用于生成融合各種歷史交互行為的預(yù)測模型; 參數(shù)求解模塊,用于根據(jù)熱門話題社區(qū)的歷史數(shù)據(jù)進行模型參數(shù)求解;以及 預(yù)測及輸出模塊,用于對社區(qū)進行預(yù)測并輸出結(jié)果。
7.權(quán)利要求6所述的面向微博熱門話題社區(qū)的動態(tài)預(yù)測系統(tǒng),其特征在于,所述數(shù)據(jù)獲取模塊包括: 權(quán)限驗證單元,用于根據(jù)開放平臺提供的權(quán)限設(shè)定權(quán)限參數(shù),進行權(quán)限驗證; 參數(shù)設(shè)定單元,用于通過參數(shù)設(shè)定和主題設(shè)定確定出需要獲取的微博數(shù)據(jù),并對微博數(shù)據(jù)進行抓取。
8.權(quán)利要求7所述的面向微博熱門話題社區(qū)的動態(tài)預(yù)測系統(tǒng),其特征在于,所述數(shù)據(jù)獲取模塊進一步包括參數(shù)更新單元,用于對參數(shù)進行更新。
9.權(quán)利要求6所述的面向微博熱門話題社區(qū)的動態(tài)預(yù)測系統(tǒng),其特征在于,所述建模模塊包括形式化定義時序狀態(tài)矩陣、交互流、時序行為矩陣、時序收聽矩陣、以及時序交互矩陣。
10.權(quán)利要求6所述的面向微博熱門話題社區(qū)的動態(tài)預(yù)測系統(tǒng),其特征在于,所述預(yù)測模型生成模塊基于logistic創(chuàng)建K-歷史模型。
全文摘要
本發(fā)明涉及社會化媒體數(shù)據(jù)分析與挖掘領(lǐng)域,公開了一種面向微博熱門話題社區(qū)的動態(tài)預(yù)測方法,包括獲取微博的熱門話題社區(qū)數(shù)據(jù);對交互數(shù)據(jù)進行形式化建模,并定義其對應(yīng)的矩陣;生成融合各種歷史交互行為的預(yù)測模型;根據(jù)熱門話題社區(qū)的歷史數(shù)據(jù)進行模型參數(shù)求解;以及對社區(qū)進行預(yù)測并輸出結(jié)果。另外,本發(fā)明還公開了一種面向微博熱門話題社區(qū)的動態(tài)預(yù)測系統(tǒng)。所述方法和系統(tǒng)能有效獲取熱門話題的社區(qū)數(shù)據(jù),并基于預(yù)測模型,充分利用熱門話題社區(qū)的歷史數(shù)據(jù)進行預(yù)測,從而獲得較高的預(yù)測準(zhǔn)確率,能較佳地為運營商或政府提供輔助決策支持。
文檔編號G06F17/30GK103092921SQ20121057625
公開日2013年5月8日 申請日期2012年12月26日 優(yōu)先權(quán)日2012年12月26日
發(fā)明者趙中英, 張涌, 李超, 馮圣中, 樊建平 申請人:中國科學(xué)院深圳先進技術(shù)研究院