亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

過往微博數(shù)據(jù)收集與處理方法

文檔序號:6549054閱讀:531來源:國知局
過往微博數(shù)據(jù)收集與處理方法
【專利摘要】本發(fā)明公開了一種過往微博數(shù)據(jù)收集與處理方法,首先獲取活躍微博用戶ID,然后獲取活躍微博用戶微博數(shù)據(jù),最后對微博數(shù)據(jù)進(jìn)行處理。本發(fā)明改進(jìn)了新浪第三方API,以彌補(bǔ)微博接口獲得數(shù)據(jù)精確度的不足,能夠滿足過往微博數(shù)據(jù)收集與處理的要求。
【專利說明】過往微博數(shù)據(jù)收集與處理方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及微博數(shù)據(jù)處理方法領(lǐng)域,具體是一種過往微博數(shù)據(jù)收集與處理方法。

【背景技術(shù)】
[0002] 隨著微博的興起,這種包含了大量微觀點(diǎn)并帶有情感傾向的短文本迅速富集,微 博文本分析成為熱門研究方向。
[0003] 在微博數(shù)據(jù)搜集過程中,大量的微博數(shù)據(jù)搜集策略通常采用爬蟲抓取方法,該方 法抓取速度快、效率高,但是抓取的數(shù)據(jù)噪音大,雖然減少了數(shù)據(jù)搜集的時(shí)間,但是卻成倍 的增加了獲得精確數(shù)據(jù)的預(yù)處理時(shí)間;且爬蟲不穩(wěn)定,常常面臨被新浪封禁的危險(xiǎn)。少量微 博數(shù)據(jù)一般采用新浪微博第三方API進(jìn)行調(diào)用搜集,該方法搜集的數(shù)據(jù)噪音少、區(qū)域明顯, 但是包含了大量的推送廣告,又額外增加了無用數(shù)據(jù)比例。
[0004] 無論是爬蟲方法還是傳統(tǒng)的新浪第三方API調(diào)用,都無法大量獲得指定域下的微 博數(shù)據(jù),特別是過往微博數(shù)據(jù)的處理,爬蟲方法和新浪第三方API調(diào)用皆無法適用。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的是提供一種過往微博數(shù)據(jù)收集與處理方法,以解決現(xiàn)有技術(shù)中爬蟲 方法或第三方API調(diào)用無法大量獲取過往微博數(shù)據(jù)的問題。
[0006] 為了達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案為:
[0007] 過往微博數(shù)據(jù)收集與處理方法,其特征在于:包括以下步驟:
[0008] (1)、獲取活躍微博用戶ID :
[0009] 調(diào)用微博第三方API接口獲取微博廣場上公開的微博數(shù)據(jù),公開的微博數(shù)據(jù)為微 博作者的用戶信息字段,其中包括用戶UID、用戶所在城市ID信息;根據(jù)獲取到的微博廣場 上公開的微博數(shù)據(jù),提取出用戶WD,去重后即為可用的活躍微博用戶ID ;
[0010] (2)、獲取活躍微博用戶微博數(shù)據(jù):
[0011] 將獲取到的用戶UID拆分為7個(gè)本地用戶UID庫,分別使用7個(gè)微博第三方API Token并行運(yùn)行,提升單位時(shí)間內(nèi)獲取微博的數(shù)量;然后根據(jù)用戶UID賬號,調(diào)用微博第三 方API應(yīng)用接口獲得對應(yīng)賬號下的所有微博數(shù)據(jù)文件,微博數(shù)據(jù)文件包括微博創(chuàng)建時(shí)間、 微博信息內(nèi)容、微博來源、微博作者的用戶信息字段,微博數(shù)據(jù)文件保存為UTF-8格式的 TXT文本文件,設(shè)微博數(shù)據(jù)文件為D ;
[0012] (3)、微博數(shù)據(jù)處理:
[0013] 根據(jù)相關(guān)熱點(diǎn)事件,指定熱點(diǎn)事件種子關(guān)鍵詞,確定熱點(diǎn)事件發(fā)生時(shí)間段;根據(jù) 確定的熱點(diǎn)事件時(shí)間段,從本地的微博數(shù)據(jù)文件D中提取指定事件時(shí)間段內(nèi)的微博文本 數(shù)據(jù);微博文本數(shù)據(jù)包括微博創(chuàng)建時(shí)間、微博信息內(nèi)容、用戶昵稱、用戶所在地;提取后的 微博精細(xì)內(nèi)容文件本地保存為UTF-8格式的TXT文本文件,設(shè)微博精細(xì)內(nèi)容文件為73 根據(jù)用戶所在地,對微博精細(xì)內(nèi)容文件萬再次提取拆分為文本文件D all以及文本文件類 ,其中文本文件Dall為i亥微博事件對·應(yīng)的全國微博m據(jù),文本文件類 為該微博熱點(diǎn)事件對應(yīng)的某城市微博數(shù)據(jù),i尹〇,為對應(yīng)的城市代碼;文本文件Dall以 及文本文件類中微博數(shù)據(jù)包括微博創(chuàng)建時(shí)間、微博信息內(nèi)容,根據(jù)確定的熱 點(diǎn)事件發(fā)生時(shí)間段,進(jìn)一步將文本文件Dall與文本文件類拆分為該熱點(diǎn)事件 對應(yīng)的全國微博數(shù)據(jù)單日數(shù)據(jù)集及該熱點(diǎn)事件對應(yīng)的某城市微博單日數(shù)據(jù)集 D/omfew,· ,其中t為日期可。
[0014] 本發(fā)明改進(jìn)了新浪第三方API,采用并行多用戶調(diào)用方式增加數(shù)據(jù)搜集流量;采 用多信息點(diǎn)覆蓋搜集微博數(shù)據(jù),以彌補(bǔ)微博接口獲得數(shù)據(jù)精確度的不足,能夠滿足過往微 博數(shù)據(jù)收集與處理的要求。

【具體實(shí)施方式】
[0015] 過往微博數(shù)據(jù)收集與處理方法,過往微博數(shù)據(jù)是指用戶在當(dāng)前時(shí)間以前所發(fā)布的 微博數(shù)據(jù),其特點(diǎn)是數(shù)據(jù)固定,事后分析方便,包括以下步驟:
[0016] (1)、獲取活躍微博用戶ID :
[0017] 調(diào)用微博第三方API接口獲取微博廣場上公開的微博數(shù)據(jù),公開的微博數(shù)據(jù)為微 博作者的用戶信息字段,其中包括用戶UID、用戶所在城市ID信息;根據(jù)獲取到的微博廣場 上公開的微博數(shù)據(jù),提取出用戶WD,去重后即為可用的活躍微博用戶ID ;
[0018] (2)、獲取活躍微博用戶微博數(shù)據(jù):
[0019] 將獲取到的用戶UID拆分為7個(gè)本地用戶UID庫,分別使用7個(gè)微博第三方API Token并行運(yùn)行,提升單位時(shí)間內(nèi)獲取微博的數(shù)量;然后根據(jù)用戶UID賬號,調(diào)用微博第三 方API應(yīng)用接口獲得對應(yīng)賬號下的所有微博數(shù)據(jù)文件,微博數(shù)據(jù)文件包括微博創(chuàng)建時(shí)間、 微博信息內(nèi)容、微博來源、微博作者的用戶信息字段,微博數(shù)據(jù)文件保存為UTF-8格式的 TXT文本文件,設(shè)微博數(shù)據(jù)文件為D ;
[0020] (3)、微博數(shù)據(jù)處理:
[0021] 根據(jù)相關(guān)熱點(diǎn)事件,指定熱點(diǎn)事件種子關(guān)鍵詞,確定熱點(diǎn)事件發(fā)生時(shí)間段;根據(jù) 確定的熱點(diǎn)事件時(shí)間段,從本地的微博數(shù)據(jù)文件D中提取指定事件時(shí)間段內(nèi)的微博文本 數(shù)據(jù);微博文本數(shù)據(jù)包括微博創(chuàng)建時(shí)間、微博信息內(nèi)容、用戶昵稱、用戶所在地;提取后的 微博精細(xì)內(nèi)容文件本地保存為UTF-8格式的TXT文本文件,設(shè)微博精細(xì)內(nèi)容文件為萬; 根據(jù)用戶所在地,對微博精細(xì)內(nèi)容文件萬再次提取拆分為文本文件D all以及文本文件類 ,其中文本文件Dall為i亥微博事件對·應(yīng)的全國微博數(shù)據(jù),文本文件類 為該微博熱點(diǎn)事件對應(yīng)的某城市微博數(shù)據(jù),i尹〇,為對應(yīng)的城市代碼;文本文件Dall以 及文本文件類中微博數(shù)據(jù)包括微博創(chuàng)建時(shí)間、微博信息內(nèi)容,根據(jù)確定的熱
【權(quán)利要求】
1.過往微博數(shù)據(jù)收集與處理方法,其特征在于:可以獲得指定過往時(shí)間點(diǎn)或時(shí)間段內(nèi) 的微博數(shù)據(jù)。包括以下步驟: (1) 、獲取活躍微博用戶ID: 調(diào)用微博第三方API接口獲取微博廣場上公開的微博數(shù)據(jù),公開的微博數(shù)據(jù)為微博作 者的用戶信息字段,其中包括用戶UID、用戶所在城市ID信息;根據(jù)獲取到的微博廣場上公 開的微博數(shù)據(jù),提取出用戶WD,去重后即為可用的活躍微博用戶ID ; (2) 、獲取活躍微博用戶微博數(shù)據(jù): 將獲取到的用戶UID拆分為7個(gè)本地用戶UID庫,分別使用7個(gè)微博第三方API Token 并行運(yùn)行,提升單位時(shí)間內(nèi)獲取微博的數(shù)量;然后根據(jù)用戶UID賬號,調(diào)用微博第三方API 應(yīng)用接口獲得對應(yīng)賬號下的所有微博數(shù)據(jù)文件,微博數(shù)據(jù)文件包括微博創(chuàng)建時(shí)間、微博信 息內(nèi)容、微博來源、微博作者的用戶信息字段,微博數(shù)據(jù)文件保存為UTF-8格式的TXT文本 文件,設(shè)微博數(shù)據(jù)文件為D; (3) 、微博數(shù)據(jù)處理: 根據(jù)相關(guān)熱點(diǎn)事件,指定熱點(diǎn)事件種子關(guān)鍵詞,確定熱點(diǎn)事件發(fā)生時(shí)間段;根據(jù)確定 的熱點(diǎn)事件時(shí)間段,從本地的微博數(shù)據(jù)文件D中提取指定事件時(shí)間段內(nèi)的微博文本數(shù)據(jù); 微博文本數(shù)據(jù)包括微博創(chuàng)建時(shí)間、微博信息內(nèi)容、用戶昵稱、用戶所在地;提取后的微博精 細(xì)內(nèi)容文件本地保存為UTF-8格式的TXT文本文件,設(shè)微博精細(xì)內(nèi)容文件為萬;根據(jù)用戶 所在地,對微博精細(xì)內(nèi)容文件;5再次提取拆分為文本文件Dall以及文本文件類, 其中文本文件Dall為該微博事件對應(yīng)的全國微博數(shù)據(jù),文本文件類為該微博熱 點(diǎn)事件對應(yīng)的某城市微博數(shù)據(jù),i尹〇,為對應(yīng)的城市代碼;文本文件Dall以及文本文件類 中微博數(shù)據(jù)包括微博創(chuàng)建時(shí)間、微博信息內(nèi)容,根據(jù)確定的熱點(diǎn)事件發(fā)生時(shí)間 段,進(jìn)一步將文本文件Dall與文本文件類^\_^拆分為該熱點(diǎn)事件對應(yīng)的全國微博數(shù) 據(jù)單日數(shù)據(jù)集及該熱點(diǎn)事件對應(yīng)的某城市微博單日數(shù)據(jù)集,其 中t為日期號。
【文檔編號】G06F17/30GK104111971SQ201410254061
【公開日】2014年10月22日 申請日期:2014年6月9日 優(yōu)先權(quán)日:2014年6月9日
【發(fā)明者】任福繼, 劉寧, 全昌勤, 魏希權(quán) 申請人:合肥工業(yè)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1