亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

指定地域微博數(shù)據(jù)收集與處理方法

文檔序號:6549052閱讀:1246來源:國知局
指定地域微博數(shù)據(jù)收集與處理方法
【專利摘要】本發(fā)明公開了一種指定地域微博數(shù)據(jù)收集與處理方法,首先進行GEO地理信息種子點選取,然后獲取微博數(shù)據(jù),最后對微博數(shù)據(jù)處理。本發(fā)明采用并行多用戶調(diào)用方式增加數(shù)據(jù)搜集流量;采用多信息點覆蓋搜集微博數(shù)據(jù),能夠滿足指定地域下微博數(shù)據(jù)收集與處理的要求。
【專利說明】指定地域微博數(shù)據(jù)收集與處理方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及微博數(shù)據(jù)處理方法領(lǐng)域,具體是一種指定地域微博數(shù)據(jù)收集與處理方法。

【背景技術(shù)】
[0002]隨著微博的興起,這種包含了大量微觀點并帶有情感傾向的短文本迅速富集,微博文本分析成為熱門研究方向。
[0003]在微博數(shù)據(jù)搜集過程中,大量的微博數(shù)據(jù)搜集策略通常采用爬蟲抓取方法,該方法抓取速度快、效率高,但是抓取的數(shù)據(jù)噪音大,雖然減少了數(shù)據(jù)搜集的時間,但是卻成倍的增加了獲得精確數(shù)據(jù)的預處理時間;且爬蟲不穩(wěn)定,常常面臨被新浪封禁的危險。少量微博數(shù)據(jù)一般采用新浪微博第三方API進行調(diào)用搜集,該方法搜集的數(shù)據(jù)噪音少、區(qū)域明顯,但是包含了大量的推送廣告,又額外增加了無用數(shù)據(jù)比例。
[0004]無論是爬蟲方法還是傳統(tǒng)的新浪第三方API調(diào)用,都無法大量獲得指定域下的微博數(shù)據(jù),特別是指定地域下微博數(shù)據(jù)的處理,爬蟲方法和新浪第三方API調(diào)用皆無法適用。


【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的是提供一種指定地域微博數(shù)據(jù)收集與處理方法,以解決現(xiàn)有技術(shù)爬蟲方法或第三方API調(diào)用無法大量獲取指定地域下微博數(shù)據(jù)的問題。
[0006]為了達到上述目的,本發(fā)明所采用的技術(shù)方案為:
[0007]指定地域微博數(shù)據(jù)收集與處理方法,其特征在于:包括以下步驟:
[0008](I)、GEO地理信息種子點選取:
[0009]設目標種子點數(shù)量為N,對指定城市區(qū)域使用矩形切割,確定城市邊緣;做矩形區(qū)域?qū)蔷€,以地圖比例尺長度10公里間距做平行線,分割矩形區(qū)域;在各條分割平行線上,以地圖比例尺長度5公里為半徑做圓形區(qū)域依次覆蓋矩形區(qū)域,各圓形區(qū)域不重疊;分隔線上不足5公里的區(qū)域按實際情況采用合適圓形區(qū)域覆蓋;對于各圓形區(qū)域結(jié)合處,以比例尺半徑為R公里的圓形區(qū)域覆蓋該區(qū)域,R ^ 5,要求做到重疊區(qū)域不超過3% ;覆蓋指定地域的各圓形區(qū)域的圓心即為候選GEO地理信息種子點,候選GEO地理信息種子點總數(shù)量記為N’,根據(jù)公式(I)確定最后種子點數(shù)量:
r I /' ?Ν^ Ν'<Νπλ
[0010]f =<, (I)
[N, N<N
[0011]公式(I)中,f表示種子點數(shù)量,當候選GEO地理信息種子點數(shù)量N’小于目標種子點數(shù)量N時,取候選GEO地理信息種子點作為最終種子點;當候選GEO地理信息種子點數(shù)量N’大于目標種子點數(shù)量N時,調(diào)整候選GEO地理信息種子點圓形區(qū)域的位置及半徑大小,使覆蓋矩形區(qū)域的圓形區(qū)域數(shù)量為N以內(nèi)的整數(shù),此時選擇調(diào)整后的圓形區(qū)域的為最終種子點區(qū)域;
[0012]根據(jù)上述獲得的最終種子點,即f所代表的種子點,定位地圖信息,導出經(jīng)緯度數(shù)據(jù),即可得到種子點的GEO地理信息;
[0013](2)、微博數(shù)據(jù)獲取;
[0014]根據(jù)步驟(1)獲取的種子點GEO地理信息數(shù)據(jù),調(diào)用微博第三方API接口,獲取指定區(qū)域內(nèi)的微博數(shù)據(jù);微博數(shù)據(jù)包括微博創(chuàng)建時間、微博信息內(nèi)容、地理信息字段;獲取的微博數(shù)據(jù)通過UTF-8格式的TXT文本文件保存在本地,記為D.;
[0015](3)、微博數(shù)據(jù)處理:
[0016]將步驟⑵中獲取的微博文本文件D.按照微博創(chuàng)建時間及對應的地理信息成對提取出來,并以UTF_8格式的文本文件保存在本地,記為Dtxgra ;從微博文本文件D.中提取出微博信息內(nèi)容,并本地以UTF-8格式的文本保存,記為D_t。
[0017]本發(fā)明改進了新浪第三方API,采用并行多用戶調(diào)用方式增加數(shù)據(jù)搜集流量;采用多信息點覆蓋搜集微博數(shù)據(jù),以彌補微博接口獲得數(shù)據(jù)精確度的不足,能夠滿足指定地域下微博數(shù)據(jù)收集與處理的要求。

【具體實施方式】
[0018]指定地域微博數(shù)據(jù)收集與處理方法,地域為存在微博使用者發(fā)布微博的區(qū)域,地域邊界以行政邊界劃分;地域微博為出現(xiàn)在指定地域內(nèi)的微博用戶所發(fā)送的所有微博。包括以下步驟:
[0019](I)、GEO地理信息種子點選取:
[0020]設目標種子點數(shù)量為N,對指定城市區(qū)域使用矩形切割,確定城市邊緣;做矩形區(qū)域?qū)蔷€,以地圖比例尺長度10公里間距做平行線,分割矩形區(qū)域;在各條分割平行線上,以地圖比例尺長度5公里為半徑做圓形區(qū)域依次覆蓋矩形區(qū)域,各圓形區(qū)域不重疊;分隔線上不足5公里的區(qū)域按實際情況采用合適圓形區(qū)域覆蓋;對于各圓形區(qū)域結(jié)合處,以比例尺半徑為R公里的圓形區(qū)域覆蓋該區(qū)域,R ^ 5,要求做到重疊區(qū)域不超過3% ;覆蓋指定地域的各圓形區(qū)域的圓心即為候選GEO地理信息種子點,候選GEO地理信息種子點總數(shù)量記為N’,根據(jù)公式(I)確定最后種子點數(shù)量:

【權(quán)利要求】
1.指定地域微博數(shù)據(jù)收集與處理方法,其特征在于:包括以下步驟: (1)、GEO地理信息種子點選取: 設目標種子點數(shù)量為N,對指定城市區(qū)域使用矩形切割,確定城市邊緣;做矩形區(qū)域?qū)蔷€,以地圖比例尺長度10公里間距做平行線,分割矩形區(qū)域;在各條分割平行線上,以地圖比例尺長度5公里為半徑做圓形區(qū)域依次覆蓋矩形區(qū)域,各圓形區(qū)域不重疊;分隔線上不足5公里的區(qū)域按實際情況采用合適圓形區(qū)域覆蓋;對于各圓形區(qū)域結(jié)合處,以比例尺半徑為R公里的圓形區(qū)域覆蓋該區(qū)域,R ^ 5,要求做到重疊區(qū)域不超過3% ;覆蓋指定地域的各圓形區(qū)域的圓心即為候選GEO地理信息種子點,候選GEO地理信息種子點總數(shù)量記為N’,根據(jù)公式(I)確定最后種子點數(shù)量:
[N', N'<N
謂’(1) 公式(I)中,f表示種子點數(shù)量,當候選GEO地理信息種子點數(shù)量N’小于目標種子點數(shù)量N時,取候選GEO地理信息種子點作為最終種子點;當候選GEO地理信息種子點數(shù)量N’大于目標種子點數(shù)量N時,調(diào)整候選GEO地理信息種子點圓形區(qū)域的位置及半徑大小,使覆蓋矩形區(qū)域的圓形區(qū)域數(shù)量為N以內(nèi)的整數(shù),此時選擇調(diào)整后的圓形區(qū)域的為最終種子點區(qū)域; 根據(jù)上述獲得的最終種子點,即f所代表的種子點,定位地圖信息,導出經(jīng)緯度數(shù)據(jù),即可得到種子點的GEO地理信息; (2)、微博數(shù)據(jù)獲??; 根據(jù)步驟(I)獲取的種子點GEO地理信息數(shù)據(jù),調(diào)用微博第三方API接口,獲取指定區(qū)域內(nèi)的微博數(shù)據(jù);微博數(shù)據(jù)包括微博創(chuàng)建時間、微博信息內(nèi)容、地理信息字段;獲取的微博數(shù)據(jù)通過UTF-8格式的TXT文本文件保存在本地,記為D.; (3)、微博數(shù)據(jù)處理: 將步驟(2)中獲取的微博文本文件D.按照微博創(chuàng)建時間及對應的地理信息成對提取出來,并以UTF_8格式的文本文件保存在本地,記為Dtxgra ;從微博文本文件Dero中提取出微博信息內(nèi)容,并本地以UTF-8格式的文本保存,記為D_t。
【文檔編號】G06F17/30GK104133834SQ201410254030
【公開日】2014年11月5日 申請日期:2014年6月9日 優(yōu)先權(quán)日:2014年6月9日
【發(fā)明者】任福繼, 劉寧, 全昌勤, 華磊 申請人:合肥工業(yè)大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1