本發(fā)明涉及微博數(shù)據(jù)傳播領(lǐng)域,尤其涉及一種微博數(shù)據(jù)的傳播路徑確定方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人們每日通過互聯(lián)網(wǎng)平臺(tái)不斷轉(zhuǎn)載各種媒體報(bào)道的事件,如新浪微博、騰訊微博等互聯(lián)網(wǎng)平臺(tái)。
互聯(lián)網(wǎng)平臺(tái)具有信息傳播快,且用戶以虛擬網(wǎng)名進(jìn)行微博數(shù)據(jù)的傳播等特點(diǎn),這就使得被轉(zhuǎn)載的微博數(shù)據(jù),其傳播、擴(kuò)散的路徑難以被全面掌握。若被轉(zhuǎn)載的微博數(shù)據(jù)中具有負(fù)面煽動(dòng)、不安全威脅性的言論,則其對(duì)社會(huì)公眾安全會(huì)形成威脅。
因此,亟需建立可以對(duì)微博數(shù)據(jù)的傳播擴(kuò)散路徑進(jìn)行追蹤的方法,以用于對(duì)信息溯源并對(duì)信息的傳播路徑進(jìn)行掌控,保證國家信息安全,保證公眾獲取到正面且積極的網(wǎng)絡(luò)信息。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種微博數(shù)據(jù)的傳播路徑確定方法和裝置,用于解決現(xiàn)有技術(shù)中對(duì)傳播速度快,信息量大的微博數(shù)據(jù)難于掌控其傳播路徑的問題,本發(fā)明通過對(duì)微博數(shù)據(jù)進(jìn)行分析,能夠從微博數(shù)據(jù)中提取出其被轉(zhuǎn)載的轉(zhuǎn)發(fā)關(guān)系鏈,從而實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)傳播的微博數(shù)據(jù)追根溯源,得到微博數(shù)據(jù)的傳播路徑,以保證國家及公眾的信息安全利益。
本發(fā)明提供一種微博數(shù)據(jù)的傳播路徑確定方法,包括:
采集微博數(shù)據(jù);所述微博數(shù)據(jù)包括:所述微博數(shù)據(jù)的內(nèi)容信息、所述微博數(shù)據(jù)的屬性信息;其中,所述微博數(shù)據(jù)的屬性信息包括:所述微博數(shù)據(jù)的發(fā)布者標(biāo)識(shí)、與所述微博數(shù)據(jù)的內(nèi)容信息唯一對(duì)應(yīng)的內(nèi)容標(biāo)識(shí);
對(duì)采集得到的每一條所述微博數(shù)據(jù)進(jìn)行解析,在每一條所述微博數(shù)據(jù)的 內(nèi)容信息中確定所述微博數(shù)據(jù)中是否包含有轉(zhuǎn)發(fā)的微博數(shù)據(jù);
獲取所述轉(zhuǎn)發(fā)的微博數(shù)據(jù)的原創(chuàng)者標(biāo)識(shí),獲取與所述轉(zhuǎn)發(fā)的微博數(shù)據(jù)的內(nèi)容信息唯一對(duì)應(yīng)的原創(chuàng)內(nèi)容標(biāo)識(shí);在所述微博數(shù)據(jù)的內(nèi)容信息中確定是否存在從所述發(fā)布者標(biāo)識(shí)到所述原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí),形成轉(zhuǎn)發(fā)關(guān)系鏈;
根據(jù)所述原創(chuàng)內(nèi)容標(biāo)識(shí),在所有所述微博數(shù)據(jù)中,確定與所述原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有所述轉(zhuǎn)發(fā)關(guān)系鏈;
對(duì)每個(gè)所述原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有所述轉(zhuǎn)發(fā)關(guān)系鏈進(jìn)行去重操作,得到每個(gè)所述原創(chuàng)內(nèi)容標(biāo)識(shí)各自對(duì)應(yīng)的微博數(shù)據(jù)的傳播路徑。
可選的,所述在所述微博數(shù)據(jù)的內(nèi)容信息中確定是否存在從所述發(fā)布者標(biāo)識(shí)到所述原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí),形成轉(zhuǎn)發(fā)關(guān)系鏈,包括:
在所述微博數(shù)據(jù)的內(nèi)容信息中確定是否存在從所述發(fā)布者標(biāo)識(shí)到所述原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí);
若存在,根據(jù)所述轉(zhuǎn)發(fā)用戶標(biāo)識(shí)排列的先后順序形成轉(zhuǎn)發(fā)序列,將所述原創(chuàng)者標(biāo)識(shí)設(shè)置在所述轉(zhuǎn)發(fā)序列的起始位置,將所述發(fā)布者標(biāo)識(shí)設(shè)置在所述轉(zhuǎn)發(fā)序列的終止位置,形成所述轉(zhuǎn)發(fā)關(guān)系鏈;
若不存在,形成僅包含從所述原創(chuàng)者標(biāo)識(shí)到所述發(fā)布者標(biāo)識(shí)的所述轉(zhuǎn)發(fā)關(guān)系鏈。
可選的,在所述微博數(shù)據(jù)的內(nèi)容信息中確定是否存在從所述發(fā)布者標(biāo)識(shí)到所述原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí),包括:
在所述微博數(shù)據(jù)的內(nèi)容信息中定位文本編輯字段;
在所述文本編輯字段中,確定是否存在轉(zhuǎn)發(fā)標(biāo)志;
若存在,提取所述轉(zhuǎn)發(fā)標(biāo)志所標(biāo)識(shí)的所述轉(zhuǎn)發(fā)用戶標(biāo)識(shí)。
可選的,所述微博數(shù)據(jù)的屬性信息還包括:
所述微博數(shù)據(jù)的發(fā)布時(shí)間、所述微博數(shù)據(jù)的來源網(wǎng)站、所述微博數(shù)據(jù)的url;
相應(yīng)的,所述對(duì)采集得到的每一條所述微博數(shù)據(jù)進(jìn)行解析之前,還包括:
根據(jù)所述微博數(shù)據(jù)的發(fā)布時(shí)間、所述微博數(shù)據(jù)的來源網(wǎng)站、所述微博數(shù)據(jù)的url中的至少一項(xiàng),對(duì)采集得到的所述微博數(shù)據(jù)進(jìn)行分類及排序;
所述對(duì)采集得到的每一條所述微博數(shù)據(jù)進(jìn)行解析,包括:
根據(jù)所述分類及排序后的先后順序,逐一對(duì)采集得到所述微博數(shù)據(jù)進(jìn)行解析。
可選的,所述對(duì)每個(gè)所述原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有所述轉(zhuǎn)發(fā)關(guān)系鏈進(jìn)行去重操作,得到每個(gè)所述原創(chuàng)內(nèi)容標(biāo)識(shí)各自對(duì)應(yīng)的微博數(shù)據(jù)的傳播路徑,包括:
將每個(gè)所述原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有所述轉(zhuǎn)發(fā)關(guān)系鏈兩兩比對(duì),去除從所述轉(zhuǎn)發(fā)關(guān)系鏈中的首位開始,每個(gè)轉(zhuǎn)發(fā)用戶標(biāo)識(shí)及每個(gè)轉(zhuǎn)發(fā)用戶標(biāo)識(shí)的排列先后順序完全被其他轉(zhuǎn)發(fā)關(guān)系鏈包含的轉(zhuǎn)發(fā)關(guān)系鏈。
本發(fā)明還提供一種微博數(shù)據(jù)的傳播路徑確定裝置,包括:采集模塊,用于采集微博數(shù)據(jù);所述微博數(shù)據(jù)包括:所述微博數(shù)據(jù)的內(nèi)容信息、所述微博數(shù)據(jù)的屬性信息;其中,所述微博數(shù)據(jù)的屬性信息包括:所述微博數(shù)據(jù)的發(fā)布者標(biāo)識(shí)、與所述微博數(shù)據(jù)的內(nèi)容信息唯一對(duì)應(yīng)的內(nèi)容標(biāo)識(shí);
解析模塊,用于對(duì)采集得到的每一條所述微博數(shù)據(jù)進(jìn)行解析;
確定模塊,用于在每一條所述微博數(shù)據(jù)的內(nèi)容信息中確定所述微博數(shù)據(jù)中是否包含有轉(zhuǎn)發(fā)的微博數(shù)據(jù);
獲取模塊,用于獲取所述轉(zhuǎn)發(fā)的微博數(shù)據(jù)的原創(chuàng)者標(biāo)識(shí),獲取與所述轉(zhuǎn)發(fā)的微博數(shù)據(jù)的內(nèi)容信息唯一對(duì)應(yīng)的原創(chuàng)內(nèi)容標(biāo)識(shí);
所述確定模塊,還用于在所述微博數(shù)據(jù)的內(nèi)容信息中確定是否存在從所述發(fā)布者標(biāo)識(shí)到所述原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí),形成轉(zhuǎn)發(fā)關(guān)系鏈;根據(jù)所述原創(chuàng)內(nèi)容標(biāo)識(shí),在所有所述微博數(shù)據(jù)中,確定與所述原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有所述轉(zhuǎn)發(fā)關(guān)系鏈;
去重模塊,用于對(duì)每個(gè)所述原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有所述轉(zhuǎn)發(fā)關(guān)系鏈進(jìn)行去重操作,得到每個(gè)所述原創(chuàng)內(nèi)容標(biāo)識(shí)各自對(duì)應(yīng)的微博數(shù)據(jù)的傳播路徑。
可選的,所述確定模塊包括:
標(biāo)識(shí)確定子模塊,用于在所述微博數(shù)據(jù)的內(nèi)容信息中確定是否存在從所述發(fā)布者標(biāo)識(shí)到所述原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí);
序列確定子模塊,用于在所述標(biāo)識(shí)確定子模塊確定存在從所述發(fā)布者標(biāo)識(shí)到所述原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí)后,根據(jù)所述轉(zhuǎn)發(fā)用戶標(biāo)識(shí)排列的先后順序形成轉(zhuǎn)發(fā)序列,將所述原創(chuàng)者標(biāo)識(shí)設(shè)置在所述轉(zhuǎn)發(fā)序列的起始位置,將所述發(fā)布者標(biāo)識(shí)設(shè)置在所述轉(zhuǎn)發(fā)序列的終止位置,形成所述轉(zhuǎn)發(fā)關(guān)系鏈;
所述序列確定子模塊,還用于在所述標(biāo)識(shí)確定子模塊確定不存在從所述發(fā)布者標(biāo)識(shí)到所述原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí)后,形成僅包含從所述原創(chuàng)者標(biāo)識(shí)到所述發(fā)布者標(biāo)識(shí)的所述轉(zhuǎn)發(fā)關(guān)系鏈。
可選的,所述確定模塊包括:
定位子模塊,用于在所述微博數(shù)據(jù)的內(nèi)容信息中定位文本編輯字段;
標(biāo)志確定子模塊,用于在所述文本編輯字段中,確定是否存在轉(zhuǎn)發(fā)標(biāo)志;
提取子模塊,用于在所述標(biāo)志確定子模塊確定存在所述轉(zhuǎn)發(fā)標(biāo)志后,提取所述轉(zhuǎn)發(fā)標(biāo)志所標(biāo)識(shí)的所述轉(zhuǎn)發(fā)用戶標(biāo)識(shí)。
可選的,所述微博數(shù)據(jù)的屬性信息還包括:
所述微博數(shù)據(jù)的發(fā)布時(shí)間、所述微博數(shù)據(jù)的來源網(wǎng)站、所述微博數(shù)據(jù)的url;
相應(yīng)的,所述裝置還包括:
分類排序模塊,用于根據(jù)所述微博數(shù)據(jù)的發(fā)布時(shí)間、所述微博數(shù)據(jù)的來源網(wǎng)站、所述微博數(shù)據(jù)的url中的至少一項(xiàng),對(duì)采集得到的所述微博數(shù)據(jù)進(jìn)行分類及排序;
所述解析模塊,具體用于根據(jù)所述分類及排序后的先后順序,逐一對(duì)采集得到所述微博數(shù)據(jù)進(jìn)行解析。
可選的,所述去重模塊,具體用于將每個(gè)所述原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有所述轉(zhuǎn)發(fā)關(guān)系鏈兩兩比對(duì),去除從所述轉(zhuǎn)發(fā)關(guān)系鏈中的首位開始,每個(gè)轉(zhuǎn)發(fā)用戶標(biāo)識(shí)及每個(gè)轉(zhuǎn)發(fā)用戶標(biāo)識(shí)的排列先后順序完全被其他轉(zhuǎn)發(fā)關(guān)系鏈包含的轉(zhuǎn)發(fā)關(guān)系鏈。
本發(fā)明提供的一種微博數(shù)據(jù)的傳播路徑確定方法和裝置,通過采集微博數(shù)據(jù),并對(duì)采集得到的每一條微博數(shù)據(jù)進(jìn)行解析,以在每一條微博數(shù)據(jù)的內(nèi)容信息中確定出所包含的轉(zhuǎn)發(fā)的微博數(shù)據(jù),并從轉(zhuǎn)發(fā)的微博數(shù)據(jù)中確定出被轉(zhuǎn)發(fā)的微博數(shù)據(jù)的原創(chuàng)者標(biāo)識(shí)、原創(chuàng)內(nèi)容標(biāo)識(shí);再通過在微博數(shù)據(jù)的內(nèi)容信息中確定是否存在從發(fā)布者標(biāo)識(shí)到原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí),以形成該條微博數(shù)據(jù)的一條轉(zhuǎn)發(fā)關(guān)系鏈;再根據(jù)原創(chuàng)內(nèi)容標(biāo)識(shí),在所有微博數(shù)據(jù)中,確定與原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有轉(zhuǎn)發(fā)關(guān)系鏈;對(duì)每個(gè)原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有轉(zhuǎn)發(fā)關(guān)系鏈進(jìn)行去重操作,從而得到每個(gè)原創(chuàng)內(nèi)容標(biāo)識(shí)各自對(duì)應(yīng)的微博數(shù)據(jù)的傳播路徑。實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)傳播的微博數(shù)據(jù)追根溯源,掌握微博數(shù)據(jù)的傳 播路徑,保證國家及公眾的信息安全利益。
附圖說明
圖1a為本發(fā)明微博數(shù)據(jù)的傳播路徑確定方法的實(shí)施例一的流程圖;
圖1b為圖1a所示實(shí)施例一的一種傳播路徑分布示意圖;
圖2為本發(fā)明微博數(shù)據(jù)的傳播路徑確定方法的實(shí)施例二的流程圖;
圖3為本發(fā)明微博數(shù)據(jù)的傳播路徑確定裝置的實(shí)施例一的結(jié)構(gòu)示意圖;
圖4為本發(fā)明微博數(shù)據(jù)的傳播路徑確定裝置的實(shí)施例二的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。需要說明的是,在附圖或說明書中,相似或相同的元件皆使用相同的附圖標(biāo)記。
圖1a為本發(fā)明微博數(shù)據(jù)的傳播路徑確定方法的實(shí)施例一的流程圖,如圖1a所示,微博數(shù)據(jù)的傳播路徑確定方法,包括:
步驟101、采集微博數(shù)據(jù)。
在本步驟中,微博數(shù)據(jù)包括:微博數(shù)據(jù)的內(nèi)容信息、微博數(shù)據(jù)的屬性信息;其中,微博數(shù)據(jù)的屬性信息包括:微博數(shù)據(jù)的發(fā)布者標(biāo)識(shí)、與微博數(shù)據(jù)的內(nèi)容信息唯一對(duì)應(yīng)的內(nèi)容標(biāo)識(shí)。該微博數(shù)據(jù)可以為任意互聯(lián)網(wǎng)平臺(tái)上的任意形式的電子數(shù)據(jù),例如,圖片、文本、視頻等。微博數(shù)據(jù)的發(fā)布者標(biāo)識(shí)可以為用戶在發(fā)布該微博數(shù)據(jù)的互聯(lián)網(wǎng)平臺(tái)上的用戶id或與用戶id對(duì)應(yīng)的用戶名稱;例如,用戶名稱可以為微博用戶“張三”;張三的用戶id可以為“80651236”;內(nèi)容標(biāo)識(shí),是用于對(duì)用戶發(fā)出的每條微博數(shù)據(jù)的內(nèi)容進(jìn)行標(biāo)識(shí)的標(biāo)識(shí)信息,該內(nèi)容標(biāo)識(shí)的生成可以通過對(duì)每條微博數(shù)據(jù)生成與其唯一對(duì)應(yīng)的數(shù)據(jù)串得到,例如消息摘要算法第五版md5碼(messagedigestalgorithm,簡(jiǎn)稱“md5”),該內(nèi)容標(biāo)識(shí)與其所對(duì)應(yīng)的微博數(shù)據(jù)的內(nèi)容具有唯一對(duì)應(yīng)關(guān)系,根據(jù)內(nèi)容標(biāo)識(shí)就可以獲知與其對(duì)應(yīng)的微博數(shù)據(jù)的內(nèi)容。
步驟102、對(duì)采集得到的每一條微博數(shù)據(jù)進(jìn)行解析,在每一條微博數(shù)據(jù)的內(nèi)容信息中確定微博數(shù)據(jù)中是否包含有轉(zhuǎn)發(fā)的微博數(shù)據(jù)。
在本步驟中,對(duì)采集得到的所有微博數(shù)據(jù)進(jìn)行逐條的分析,以建立每條 微博數(shù)據(jù)的屬性信息表,明確每條微博數(shù)據(jù)的個(gè)體特征。該屬性信息表中可以包含有該條微博的微博id(相當(dāng)于上面提到的與微博數(shù)據(jù)的內(nèi)容信息唯一對(duì)應(yīng)的內(nèi)容標(biāo)識(shí))、微博內(nèi)容(相當(dāng)于微博數(shù)據(jù)的內(nèi)容信息)、微博用戶id(相當(dāng)于微博數(shù)據(jù)的發(fā)布者標(biāo)識(shí))、發(fā)布時(shí)間、來源網(wǎng)站(該微博的發(fā)布平臺(tái),如新浪、騰訊等)、轉(zhuǎn)發(fā)微博id(轉(zhuǎn)發(fā)該微博內(nèi)容的轉(zhuǎn)發(fā)者的標(biāo)識(shí))、統(tǒng)一資源定位符(uniformresourcelocator,簡(jiǎn)稱:“url”)等信息。若對(duì)每條微博數(shù)據(jù)進(jìn)行解析的過程中,發(fā)現(xiàn)微博數(shù)據(jù)中包含有轉(zhuǎn)載轉(zhuǎn)發(fā)的微博數(shù)據(jù)內(nèi)容,則對(duì)該微博數(shù)據(jù)進(jìn)行標(biāo)記,以備后續(xù)在該微博數(shù)據(jù)中提取出被轉(zhuǎn)發(fā)的微博數(shù)據(jù),它的傳播路徑信息。
步驟103、獲取轉(zhuǎn)發(fā)的微博數(shù)據(jù)的原創(chuàng)者標(biāo)識(shí),獲取與轉(zhuǎn)發(fā)的微博數(shù)據(jù)的內(nèi)容信息唯一對(duì)應(yīng)的原創(chuàng)內(nèi)容標(biāo)識(shí);在微博數(shù)據(jù)的內(nèi)容信息中確定是否存在從發(fā)布者標(biāo)識(shí)到原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí),形成轉(zhuǎn)發(fā)關(guān)系鏈。
在本步驟中,從該微博數(shù)據(jù)中提取出轉(zhuǎn)發(fā)的微博數(shù)據(jù)的原創(chuàng)者標(biāo)識(shí),通常來說,對(duì)某一微博數(shù)據(jù)進(jìn)行轉(zhuǎn)發(fā)的過程中,該微博數(shù)據(jù)的原創(chuàng)者信息是與微博數(shù)據(jù)的內(nèi)容信息進(jìn)行綁定的,因此可以從轉(zhuǎn)發(fā)的微博數(shù)據(jù)中獲取到原創(chuàng)者標(biāo)識(shí),例如,在微博的轉(zhuǎn)發(fā)過程中,在轉(zhuǎn)發(fā)文稿的首位具有“@張三”的標(biāo)識(shí),則張三為該轉(zhuǎn)發(fā)文稿的原創(chuàng)者標(biāo)識(shí)。同時(shí),在該微博數(shù)據(jù)的內(nèi)容信息中包含有兩部分內(nèi)容,一個(gè)是該微博數(shù)據(jù)的發(fā)布者自己的觀點(diǎn)描述,另一個(gè)是該微博數(shù)據(jù)的發(fā)布者轉(zhuǎn)載的他人原創(chuàng)的轉(zhuǎn)發(fā)文稿內(nèi)容;則原創(chuàng)內(nèi)容標(biāo)識(shí)為與該轉(zhuǎn)發(fā)文稿內(nèi)容唯一對(duì)應(yīng)的標(biāo)識(shí)。此外,很多平臺(tái)提供有該轉(zhuǎn)發(fā)文稿的傳播路徑信息,可以根據(jù)不同平臺(tái)預(yù)設(shè)的轉(zhuǎn)發(fā)用戶標(biāo)識(shí),在微博數(shù)據(jù)的內(nèi)容信息中確定出從發(fā)布者標(biāo)識(shí)到原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí),以形成包含原創(chuàng)者標(biāo)識(shí)→轉(zhuǎn)發(fā)用戶標(biāo)識(shí)1→轉(zhuǎn)發(fā)用戶標(biāo)識(shí)2→轉(zhuǎn)發(fā)用戶標(biāo)識(shí)3→發(fā)布者標(biāo)識(shí)的轉(zhuǎn)發(fā)關(guān)系鏈。
步驟104、根據(jù)原創(chuàng)內(nèi)容標(biāo)識(shí),在所有微博數(shù)據(jù)中,確定與原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有轉(zhuǎn)發(fā)關(guān)系鏈。
在本步驟中,根據(jù)步驟103中確定出的原創(chuàng)內(nèi)容標(biāo)識(shí),在其他微博數(shù)據(jù)中找到同樣對(duì)該原創(chuàng)內(nèi)容標(biāo)識(shí)所對(duì)應(yīng)的轉(zhuǎn)發(fā)微博進(jìn)行了轉(zhuǎn)發(fā)操作的其他轉(zhuǎn)發(fā)關(guān)系鏈,從而找到如圖1b所示的由“和訊網(wǎng)”發(fā)出的原創(chuàng)微博的全部轉(zhuǎn)發(fā)關(guān)系鏈。
步驟105、對(duì)每個(gè)原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有轉(zhuǎn)發(fā)關(guān)系鏈進(jìn)行去重操作,得到每個(gè)原創(chuàng)內(nèi)容標(biāo)識(shí)各自對(duì)應(yīng)的微博數(shù)據(jù)的傳播路徑。
在本步驟中,對(duì)獲取得到的不同長(zhǎng)度的轉(zhuǎn)發(fā)關(guān)系鏈,若其中存在重復(fù)且具有包含關(guān)系的轉(zhuǎn)發(fā)關(guān)系鏈,則可以將處于被包含關(guān)系的轉(zhuǎn)發(fā)關(guān)系鏈去除,保留較長(zhǎng)的轉(zhuǎn)發(fā)關(guān)系鏈。由于本發(fā)明的目的是要確定微博數(shù)據(jù)的傳播路徑,則對(duì)于被重復(fù)的路徑,僅保留從頭到尾最完整的一條路徑即可,去除重復(fù)的路徑,以減輕對(duì)微博數(shù)據(jù)傳播路徑的統(tǒng)計(jì)數(shù)據(jù)量。舉例來說,若一條轉(zhuǎn)發(fā)微博得到的轉(zhuǎn)發(fā)關(guān)系鏈為a→b→c→d;而另一條得到的轉(zhuǎn)發(fā)關(guān)系鏈為a→b→c→d→e,則保留a→b→c→d→e的轉(zhuǎn)發(fā)關(guān)系鏈,去除a→b→c→d的轉(zhuǎn)發(fā)關(guān)系鏈??梢钥闯鯽→b→c→d→e中已經(jīng)包含了a→b→c→d的轉(zhuǎn)發(fā)路徑關(guān)系,因此,可以去除a→b→c→d、a→b→c、a→b等多條轉(zhuǎn)發(fā)關(guān)系鏈。
本實(shí)施例提供的微博數(shù)據(jù)的傳播路徑確定方法,通過采集微博數(shù)據(jù),并對(duì)采集得到的每一條微博數(shù)據(jù)進(jìn)行解析,以在每一條微博數(shù)據(jù)的內(nèi)容信息中確定出所包含的轉(zhuǎn)發(fā)的微博數(shù)據(jù),并從轉(zhuǎn)發(fā)的微博數(shù)據(jù)中確定出被轉(zhuǎn)發(fā)的微博數(shù)據(jù)的原創(chuàng)者標(biāo)識(shí)、原創(chuàng)內(nèi)容標(biāo)識(shí);再通過在微博數(shù)據(jù)的內(nèi)容信息中確定是否存在從發(fā)布者標(biāo)識(shí)到原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí),以形成該條微博數(shù)據(jù)的一條轉(zhuǎn)發(fā)關(guān)系鏈;再根據(jù)原創(chuàng)內(nèi)容標(biāo)識(shí),在所有微博數(shù)據(jù)中,確定與原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有轉(zhuǎn)發(fā)關(guān)系鏈;對(duì)每個(gè)原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有轉(zhuǎn)發(fā)關(guān)系鏈進(jìn)行去重操作,從而得到每個(gè)原創(chuàng)內(nèi)容標(biāo)識(shí)各自對(duì)應(yīng)的微博數(shù)據(jù)的傳播路徑。實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)傳播的微博數(shù)據(jù)追根溯源,掌握微博數(shù)據(jù)的傳播路徑,保證國家及公眾的信息安全利益。
圖2為本發(fā)明微博數(shù)據(jù)的傳播路徑確定方法的實(shí)施例二的流程圖,如圖2所示,在上述實(shí)施例一的基礎(chǔ)上,本實(shí)施例的方法包括:
步驟201、采集微博數(shù)據(jù)。
在本步驟中,微博數(shù)據(jù)包括:微博數(shù)據(jù)的內(nèi)容信息、微博數(shù)據(jù)的屬性信息;其中,微博數(shù)據(jù)的屬性信息包括:微博數(shù)據(jù)的發(fā)布者標(biāo)識(shí)、與微博數(shù)據(jù)的內(nèi)容信息唯一對(duì)應(yīng)的內(nèi)容標(biāo)識(shí);此外,采集得到的微博數(shù)據(jù)的屬性信息中還可以包括:微博數(shù)據(jù)的發(fā)布時(shí)間、微博數(shù)據(jù)的來源網(wǎng)站、微博數(shù)據(jù)的url等。
步驟202、根據(jù)微博數(shù)據(jù)的發(fā)布時(shí)間、微博數(shù)據(jù)的來源網(wǎng)站、微博數(shù)據(jù)的url中的至少一項(xiàng),對(duì)采集得到的微博數(shù)據(jù)進(jìn)行分類及排序。
在本步驟中,對(duì)采集得到的微博數(shù)據(jù)進(jìn)行分類及排序的方法可由本領(lǐng)域技術(shù)人員根據(jù)微博數(shù)據(jù)的分析目標(biāo)進(jìn)行設(shè)定,例如,需要對(duì)某一網(wǎng)絡(luò)平臺(tái)發(fā)布的微博數(shù)據(jù)的傳播路徑進(jìn)行分析,則可以根據(jù)微博數(shù)據(jù)的來源網(wǎng)站對(duì)微博數(shù)據(jù)進(jìn)行分類;還可以根據(jù)時(shí)間先后對(duì)微博數(shù)據(jù)進(jìn)行排序或根據(jù)時(shí)間段對(duì)微博數(shù)據(jù)進(jìn)行分段處理等等。
步驟203、根據(jù)分類及排序后的先后順序,逐一對(duì)采集得到微博數(shù)據(jù)進(jìn)行解析,以在每一條微博數(shù)據(jù)的內(nèi)容信息中確定微博數(shù)據(jù)中是否包含有轉(zhuǎn)發(fā)的微博數(shù)據(jù)。
在本步驟中,對(duì)于采集得到的微博數(shù)據(jù)一般包含以下三種內(nèi)容,一種是僅包含由發(fā)布者原創(chuàng)的內(nèi)容a;該內(nèi)容可以是任何形式的電子數(shù)據(jù),圖片、視頻、文本等;也可以僅包含有由發(fā)布者轉(zhuǎn)發(fā)的他人原創(chuàng)的內(nèi)容b;還可以既包含由發(fā)布者轉(zhuǎn)發(fā)的他人原創(chuàng)的內(nèi)容b,還包含發(fā)布者對(duì)該轉(zhuǎn)發(fā)的內(nèi)容的評(píng)論內(nèi)容;該評(píng)論內(nèi)容可視為發(fā)布者原創(chuàng)的內(nèi)容a。則可以清楚得到三種內(nèi)容形式為:1)僅包含a內(nèi)容;2)僅包含b內(nèi)容;3)既包含a內(nèi)容也包含b內(nèi)容。
步驟204、獲取轉(zhuǎn)發(fā)的微博數(shù)據(jù)的原創(chuàng)者標(biāo)識(shí),獲取與轉(zhuǎn)發(fā)的微博數(shù)據(jù)的內(nèi)容信息唯一對(duì)應(yīng)的原創(chuàng)內(nèi)容標(biāo)識(shí)。
在本步驟中,通常各個(gè)網(wǎng)絡(luò)平臺(tái)對(duì)轉(zhuǎn)發(fā)的微博數(shù)據(jù)采用特定的標(biāo)志符號(hào)進(jìn)行標(biāo)識(shí),例如新浪微博轉(zhuǎn)發(fā)內(nèi)容中包含有“@xx”標(biāo)志;騰訊微博轉(zhuǎn)發(fā)內(nèi)容中也包含有“@xx”標(biāo)志;其中“xx”代表被轉(zhuǎn)發(fā)的內(nèi)容的原創(chuàng)者標(biāo)識(shí)。且該標(biāo)志符號(hào)位于被轉(zhuǎn)發(fā)內(nèi)容的開頭位置,通過對(duì)網(wǎng)絡(luò)平臺(tái)特定的標(biāo)志符號(hào)進(jìn)行識(shí)別并對(duì)該標(biāo)志符號(hào)出現(xiàn)的位置進(jìn)行定位,可以確定出該轉(zhuǎn)發(fā)內(nèi)容的原創(chuàng)者標(biāo)識(shí)。對(duì)原創(chuàng)內(nèi)容標(biāo)識(shí)的確定過程同上,根據(jù)各個(gè)網(wǎng)絡(luò)平臺(tái)的設(shè)置屬性,找到與轉(zhuǎn)發(fā)的微博數(shù)據(jù)的內(nèi)容信息唯一對(duì)應(yīng)的原創(chuàng)內(nèi)容標(biāo)識(shí)所處的位置并獲取該標(biāo)識(shí),例如,很多網(wǎng)絡(luò)平臺(tái)將該原創(chuàng)內(nèi)容標(biāo)識(shí)設(shè)置在該原創(chuàng)內(nèi)容的url中,則通過解析原創(chuàng)內(nèi)容對(duì)應(yīng)的url可以獲取到與其內(nèi)容唯一對(duì)應(yīng)的標(biāo)識(shí)。需要說明的是,各個(gè)網(wǎng)絡(luò)平臺(tái)可以有其自定義該原創(chuàng)者標(biāo)識(shí)及原創(chuàng)內(nèi)容標(biāo)識(shí)的標(biāo)準(zhǔn),本申請(qǐng)對(duì)此不作限定。
步驟205、在微博數(shù)據(jù)的內(nèi)容信息中確定是否存在從發(fā)布者標(biāo)識(shí)到原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí)。若存在,執(zhí)行步驟206;若不存在,執(zhí)行步驟207。
在本步驟中,在微博數(shù)據(jù)的內(nèi)容信息中,尤其在發(fā)布者原創(chuàng)的內(nèi)容a部分存在該被轉(zhuǎn)發(fā)的原創(chuàng)內(nèi)容從原創(chuàng)者開始,傳播到該發(fā)布者之間的路徑關(guān)系,例如,新浪微博平臺(tái)對(duì)轉(zhuǎn)發(fā)路徑的標(biāo)識(shí)為“//@axx//@bxx//@cxx”;騰訊微博平臺(tái)對(duì)轉(zhuǎn)發(fā)路徑的標(biāo)識(shí)為“||@axx||@bxx||@cxx”。每個(gè)“//@”或“||@”后的“axx”、“bxx”、“cxx”為轉(zhuǎn)發(fā)該原創(chuàng)內(nèi)容的轉(zhuǎn)發(fā)人物關(guān)系鏈。上述過程的具體實(shí)現(xiàn)可以通過,在微博數(shù)據(jù)的內(nèi)容信息中定位文本編輯字段;在文本編輯字段中,確定是否存在轉(zhuǎn)發(fā)標(biāo)志;若存在轉(zhuǎn)發(fā)標(biāo)志,提取轉(zhuǎn)發(fā)標(biāo)志所標(biāo)識(shí)的轉(zhuǎn)發(fā)用戶標(biāo)識(shí)。由于上述指示原創(chuàng)內(nèi)容傳播路徑的信息通常包含在發(fā)布者原創(chuàng)的內(nèi)容a部分,也就是發(fā)布者可以進(jìn)行評(píng)論或文本編輯的部分;因此發(fā)布者可以自己選擇是否公開上述轉(zhuǎn)發(fā)人物關(guān)系鏈,同時(shí),發(fā)布者還可以對(duì)該人物關(guān)系鏈進(jìn)行修改或刪除操作。因此,在對(duì)該人物關(guān)系鏈進(jìn)行定位時(shí),可以通過找到微博數(shù)據(jù)的內(nèi)容信息中的文本編輯字段,如“text”字段,再在該字段內(nèi)獲取轉(zhuǎn)發(fā)標(biāo)志,如“//@”或“||@”,從而提取到該轉(zhuǎn)發(fā)標(biāo)志后標(biāo)明的轉(zhuǎn)發(fā)用戶標(biāo)識(shí),得到轉(zhuǎn)發(fā)人物關(guān)系鏈。
步驟206、根據(jù)轉(zhuǎn)發(fā)用戶標(biāo)識(shí)排列的先后順序形成轉(zhuǎn)發(fā)序列,將原創(chuàng)者標(biāo)識(shí)設(shè)置在轉(zhuǎn)發(fā)序列的起始位置,將發(fā)布者標(biāo)識(shí)設(shè)置在轉(zhuǎn)發(fā)序列的終止位置,形成轉(zhuǎn)發(fā)關(guān)系鏈。
在本步驟中,通常在上一步驟中獲取得到的轉(zhuǎn)發(fā)人物關(guān)系鏈中標(biāo)明的是原創(chuàng)者與發(fā)布者之間的轉(zhuǎn)發(fā)人物,若使該人物關(guān)系鏈完整,則將原創(chuàng)者標(biāo)識(shí)設(shè)置在轉(zhuǎn)發(fā)序列的起始位置,將發(fā)布者標(biāo)識(shí)設(shè)置在轉(zhuǎn)發(fā)序列的終止位置,形成完整的轉(zhuǎn)發(fā)關(guān)系鏈。
步驟207、形成僅包含從原創(chuàng)者標(biāo)識(shí)到發(fā)布者標(biāo)識(shí)的轉(zhuǎn)發(fā)關(guān)系鏈。
在本步驟中,在步驟205中提及由于轉(zhuǎn)發(fā)關(guān)系鏈通常被包含在發(fā)布者原創(chuàng)的內(nèi)容a部分,也就是發(fā)布者可以進(jìn)行評(píng)論或文本編輯的部分;因此發(fā)布者可以自己選擇是否公開上述轉(zhuǎn)發(fā)人物關(guān)系鏈,同時(shí),發(fā)布者還可以對(duì)該人物關(guān)系鏈進(jìn)行修改或刪除操作。因此,很可能在a部分無法獲取到該原創(chuàng)內(nèi)容的傳播路徑信息,則此時(shí)的傳播路徑為最短傳播路徑,也就是直接從原創(chuàng) 者到發(fā)布者,則形成該僅包含從原創(chuàng)者標(biāo)識(shí)到發(fā)布者標(biāo)識(shí)的轉(zhuǎn)發(fā)關(guān)系鏈。
步驟208、根據(jù)原創(chuàng)內(nèi)容標(biāo)識(shí),在所有微博數(shù)據(jù)中,確定與原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有轉(zhuǎn)發(fā)關(guān)系鏈。
在本步驟中,由于原創(chuàng)內(nèi)容標(biāo)識(shí)是與內(nèi)容唯一對(duì)應(yīng)的標(biāo)識(shí),因此通過該標(biāo)識(shí)可以找到所有包含有該原創(chuàng)內(nèi)容標(biāo)識(shí)的微博數(shù)據(jù),從而在這些包含有原創(chuàng)內(nèi)容標(biāo)識(shí)的微博數(shù)據(jù)中提取出所有關(guān)聯(lián)該原創(chuàng)內(nèi)容標(biāo)識(shí)的轉(zhuǎn)發(fā)關(guān)系鏈,可以根據(jù)所有的轉(zhuǎn)發(fā)關(guān)系鏈形成與該原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的轉(zhuǎn)發(fā)關(guān)系拓?fù)鋱D,如圖1b所示的形式。
步驟209、將每個(gè)原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有轉(zhuǎn)發(fā)關(guān)系鏈兩兩比對(duì),去除從轉(zhuǎn)發(fā)關(guān)系鏈中的首位開始,每個(gè)轉(zhuǎn)發(fā)用戶標(biāo)識(shí)及每個(gè)轉(zhuǎn)發(fā)用戶標(biāo)識(shí)的排列先后順序完全被其他轉(zhuǎn)發(fā)關(guān)系鏈包含的轉(zhuǎn)發(fā)關(guān)系鏈。
在本步驟中,在所有的轉(zhuǎn)發(fā)關(guān)系鏈中進(jìn)行去重操作,以簡(jiǎn)化轉(zhuǎn)發(fā)關(guān)系拓?fù)鋱D的復(fù)雜性,該去重的原則可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際統(tǒng)計(jì)需要自行設(shè)定,也可以為去除從轉(zhuǎn)發(fā)關(guān)系鏈中的首位開始,每個(gè)轉(zhuǎn)發(fā)用戶標(biāo)識(shí)及每個(gè)轉(zhuǎn)發(fā)用戶標(biāo)識(shí)的排列先后順序完全被其他轉(zhuǎn)發(fā)關(guān)系鏈包含的轉(zhuǎn)發(fā)關(guān)系鏈,例如,一條轉(zhuǎn)發(fā)微博得到的轉(zhuǎn)發(fā)關(guān)系鏈為a→b→c→d;而另一條得到的轉(zhuǎn)發(fā)關(guān)系鏈為a→b→c→d→e,則保留a→b→c→d→e的轉(zhuǎn)發(fā)關(guān)系鏈,去除a→b→c→d的轉(zhuǎn)發(fā)關(guān)系鏈??梢钥闯鯽→b→c→d→e中已經(jīng)包含了a→b→c→d的轉(zhuǎn)發(fā)路徑關(guān)系,因此,可以去除a→b→c→d、a→b→c、a→b等多條轉(zhuǎn)發(fā)關(guān)系鏈。
圖3為本發(fā)明微博數(shù)據(jù)的傳播路徑確定裝置的實(shí)施例一的結(jié)構(gòu)示意圖,如圖3所示,本實(shí)施例的裝置包括:采集模塊31,用于采集微博數(shù)據(jù);微博數(shù)據(jù)包括:微博數(shù)據(jù)的內(nèi)容信息、微博數(shù)據(jù)的屬性信息;其中,微博數(shù)據(jù)的屬性信息包括:微博數(shù)據(jù)的發(fā)布者標(biāo)識(shí)、與微博數(shù)據(jù)的內(nèi)容信息唯一對(duì)應(yīng)的內(nèi)容標(biāo)識(shí);解析模塊32,用于對(duì)采集得到的每一條微博數(shù)據(jù)進(jìn)行解析;確定模塊33,用于在每一條微博數(shù)據(jù)的內(nèi)容信息中確定微博數(shù)據(jù)中是否包含有轉(zhuǎn)發(fā)的微博數(shù)據(jù);獲取模塊34,用于獲取轉(zhuǎn)發(fā)的微博數(shù)據(jù)的原創(chuàng)者標(biāo)識(shí),獲取與轉(zhuǎn)發(fā)的微博數(shù)據(jù)的內(nèi)容信息唯一對(duì)應(yīng)的原創(chuàng)內(nèi)容標(biāo)識(shí);確定模塊33,還用于在微博數(shù)據(jù)的內(nèi)容信息中確定是否存在從發(fā)布者標(biāo)識(shí)到原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí),形成轉(zhuǎn)發(fā)關(guān)系鏈;根據(jù)原創(chuàng)內(nèi)容標(biāo)識(shí),在所有微博數(shù)據(jù)中, 確定與原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有轉(zhuǎn)發(fā)關(guān)系鏈;去重模塊35,用于對(duì)每個(gè)原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有轉(zhuǎn)發(fā)關(guān)系鏈進(jìn)行去重操作,得到每個(gè)原創(chuàng)內(nèi)容標(biāo)識(shí)各自對(duì)應(yīng)的微博數(shù)據(jù)的傳播路徑。
本實(shí)施例的裝置,可以用于執(zhí)行圖1a所示方法實(shí)施例一的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
本實(shí)施例提供的微博數(shù)據(jù)的傳播路徑確定裝置,通過采集微博數(shù)據(jù),并對(duì)采集得到的每一條微博數(shù)據(jù)進(jìn)行解析,以在每一條微博數(shù)據(jù)的內(nèi)容信息中確定出所包含的轉(zhuǎn)發(fā)的微博數(shù)據(jù),并從轉(zhuǎn)發(fā)的微博數(shù)據(jù)中確定出被轉(zhuǎn)發(fā)的微博數(shù)據(jù)的原創(chuàng)者標(biāo)識(shí)、原創(chuàng)內(nèi)容標(biāo)識(shí);再通過在微博數(shù)據(jù)的內(nèi)容信息中確定是否存在從發(fā)布者標(biāo)識(shí)到原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí),以形成該條微博數(shù)據(jù)的一條轉(zhuǎn)發(fā)關(guān)系鏈;再根據(jù)原創(chuàng)內(nèi)容標(biāo)識(shí),在所有微博數(shù)據(jù)中,確定與原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有轉(zhuǎn)發(fā)關(guān)系鏈;對(duì)每個(gè)原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有轉(zhuǎn)發(fā)關(guān)系鏈進(jìn)行去重操作,從而得到每個(gè)原創(chuàng)內(nèi)容標(biāo)識(shí)各自對(duì)應(yīng)的微博數(shù)據(jù)的傳播路徑。實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)傳播的微博數(shù)據(jù)追根溯源,掌握微博數(shù)據(jù)的傳播路徑,保證國家及公眾的信息安全利益。
圖4為本發(fā)明微博數(shù)據(jù)的傳播路徑確定裝置的實(shí)施例二的結(jié)構(gòu)示意圖,如圖4所示,本實(shí)施例的裝置在圖3所示裝置的基礎(chǔ)上,進(jìn)一步地,確定模塊33包括:標(biāo)識(shí)確定子模塊331,用于在微博數(shù)據(jù)的內(nèi)容信息中確定是否存在從發(fā)布者標(biāo)識(shí)到原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí);序列確定子模塊332,用于在標(biāo)識(shí)確定子模塊331確定存在從發(fā)布者標(biāo)識(shí)到原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí)后,根據(jù)轉(zhuǎn)發(fā)用戶標(biāo)識(shí)排列的先后順序形成轉(zhuǎn)發(fā)序列,將原創(chuàng)者標(biāo)識(shí)設(shè)置在轉(zhuǎn)發(fā)序列的起始位置,將發(fā)布者標(biāo)識(shí)設(shè)置在轉(zhuǎn)發(fā)序列的終止位置,形成轉(zhuǎn)發(fā)關(guān)系鏈;序列確定子模塊332還用于在標(biāo)識(shí)確定子模塊331確定不存在從發(fā)布者標(biāo)識(shí)到原創(chuàng)者標(biāo)識(shí)之間的轉(zhuǎn)發(fā)用戶標(biāo)識(shí)后,形成僅包含從原創(chuàng)者標(biāo)識(shí)到發(fā)布者標(biāo)識(shí)的轉(zhuǎn)發(fā)關(guān)系鏈。
可選的,確定模塊33包括:定位子模塊333,用于在微博數(shù)據(jù)的內(nèi)容信息中定位文本編輯字段;標(biāo)志確定子模塊334,用于在文本編輯字段中,確定是否存在轉(zhuǎn)發(fā)標(biāo)志;提取子模塊335,用于在標(biāo)志確定子模塊334確定存在轉(zhuǎn)發(fā)標(biāo)志后,提取轉(zhuǎn)發(fā)標(biāo)志所標(biāo)識(shí)的轉(zhuǎn)發(fā)用戶標(biāo)識(shí)。
可選的,微博數(shù)據(jù)的屬性信息還包括:微博數(shù)據(jù)的發(fā)布時(shí)間、微博數(shù)據(jù) 的來源網(wǎng)站、微博數(shù)據(jù)的url;相應(yīng)的,裝置還包括:分類排序模塊36,用于根據(jù)微博數(shù)據(jù)的發(fā)布時(shí)間、微博數(shù)據(jù)的來源網(wǎng)站、微博數(shù)據(jù)的url中的至少一項(xiàng),對(duì)采集得到的微博數(shù)據(jù)進(jìn)行分類及排序;解析模塊32,具體用于根據(jù)分類及排序后的先后順序,逐一對(duì)采集得到微博數(shù)據(jù)進(jìn)行解析。
可選的,去重模塊35,具體用于將每個(gè)原創(chuàng)內(nèi)容標(biāo)識(shí)對(duì)應(yīng)的所有轉(zhuǎn)發(fā)關(guān)系鏈兩兩比對(duì),去除從轉(zhuǎn)發(fā)關(guān)系鏈中的首位開始,每個(gè)轉(zhuǎn)發(fā)用戶標(biāo)識(shí)及每個(gè)轉(zhuǎn)發(fā)用戶標(biāo)識(shí)的排列先后順序完全被其他轉(zhuǎn)發(fā)關(guān)系鏈包含的轉(zhuǎn)發(fā)關(guān)系鏈。
本實(shí)施例的裝置,可以用于執(zhí)行圖2所示方法實(shí)施例二的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。