一種微博熱點事件的地理位置發(fā)現方法
【技術領域】
[0001] 本發(fā)明設及一種微博熱點事件的地理位置發(fā)現方法,特別是群體事件的定位,具 有較高的準確度。
【背景技術】
[0002] 微博,即微博客(Micro-blog),作為Web2.0的產物,是一個基于用戶關系信息分 享、傳播W及獲取的平臺,用戶可W通過WEB、WAP等客戶端組建個人社區(qū),W最多140字左右 的文字更新信息,并實現即時分享。微博作為一種新型的社交傳播媒體,發(fā)展迅猛,具有傳 播速度快、互動性強、信息更新方便等特點,已經開始對社會生活產生巨大影響,并且為事 件的發(fā)布、傳播、擴散提供了更高效的途徑。比起傳統(tǒng)媒體,微博更可能占據信息發(fā)布的制 高點,運點在突發(fā)熱點事件中表現尤為突出。例如2013年4月雅安地震爆發(fā)1分鐘內就有微 博用戶發(fā)布相關地震信息。而在隨后的將近一小時內,有1300余條微博發(fā)出了雅安發(fā)生較 為劇烈地震的微博。而國家官方網站第一次發(fā)布該信息是在15分鐘之后。
[0003] 具相關資料統(tǒng)計90% W上的熱點事件往往與地理位置密切相關,當事件發(fā)生并被 廣泛傳播時事件的常用第一定語就是地理位置信息,如議川地震,哈爾濱火災等,之后傳播 的才是事件的其他細節(jié)。所W如果可W將突發(fā)事件發(fā)生地的信息快速標記在地圖上,使用 之就可W直觀、形象地了解事件發(fā)生的地理位置,從而為突發(fā)事件之后的救援方案等提供 科學的依據,因此從事件信息中挖掘出地理位置信息對于了解突發(fā)事件至關重要。
[0004] 傳統(tǒng)的方法多是分析微博用戶的注冊地址或者是微博發(fā)布的地理位置或者是用 戶上網時地理位置,但是運些地理位置代表的是用戶的所在地而非是事件發(fā)生的地理位 置。因此本發(fā)明將研究如何從微博文本中抽取出事件相關的地理位置信息。
【發(fā)明內容】
[0005] 針對現有技術中存在的技術問題,本發(fā)明的目的在于提供一種高效、準確的微博 熱點事件定位方法,用W更好的了解突發(fā)事件。
[0006] 本發(fā)明的技術方案如下:
[0007] -種微博事件地理位置發(fā)現方法,包括W下5個步驟:
[000引步驟1,數據獲取,基于用戶提供的事件關鍵字,如"地震",在已爬取的微博中捜索 所有包含該關鍵字的微博信息。
[0009] 步驟2,數據清洗:過濾掉微博文本中所有非名詞詞性的中文詞組,為地理位置詞 抽取做準備;
[0010] 步驟3,地理位置詞抽取:基于我國行政區(qū)規(guī)劃的地理位置詞詞典及中文簡稱詞的 相應命名規(guī)則構建我國的簡稱詞詞典,并通過唯一的id號將簡稱詞詞典與全稱詞詞典相關 聯(lián);判斷微博分詞后的名詞是否在兩個詞典中,若不在則判斷該分詞不是地理位置名詞;如 果存在,則將該名詞作為候選地理位置詞保留。為提高準確率,依據簡稱詞的命名特征采用 相應規(guī)則遍歷全稱詞詞典;
[0011] 步驟4,地理位置詞判定:當一條微博中出現多個候選地理位置詞時,本文提供一 種判定方法計算不同地理位置詞的權重值(1/距離值,即距離值的倒數),并選取權重值最 大的地理詞作為該微博描述事件的地點。當微博文本中缺失地理位置詞時采用基于微博用 戶及微博內容的可信度方法最終對事件地理位置進行判定。
[0012] 步驟4,群體事件爆發(fā)點定位:我們采用自頂向下的分層聚類+K-means的聚類方法 對已獲取一組地理位置經締度信息進行聚類,從而根據聚類中屯、判斷出事件爆發(fā)的地點。
[0013] 與現有技術相比,本發(fā)明的積極效果為:
[0014] 本發(fā)明技術實現了微博熱點事件地理位置定位技術,數據集采用新浪微博數據, 并且完成了數據清洗、地理位置詞抽取、地理位置詞判定、群體事件爆發(fā)點定位四個主要模 塊。該項發(fā)明技術精準的挖掘出了微博事件發(fā)生的地理位置,并將結果標記在地圖上,可W 直觀、形象地了解事件發(fā)生的地點。
【附圖說明】
[0015] 附圖為本發(fā)明的方法流程圖。
【具體實施方式】
[0016] 為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,W下結合附圖對本發(fā)明進 一步詳細說明。
[0017] 如附圖所示,本發(fā)明技術按照4項重要步驟分別闡述其具體實現方法:
[001引.數據清洗
[0019] 因為微博文本內容通常是非正式、口語話的,為了抽取出與事件相關的地理位置 因此首先對微博文本數據進行過濾,從而只保留可能為地理位置詞的名詞詞性的詞組,具 體清洗過程如下:
[0020] -)過濾表情符號:微博用戶通常通過表情符號(如[給力],[驚訝])來表達自己的 情緒(如高興、憤怒、驚訝等),但是運對分析熱點事件發(fā)生的地理位置沒有具體的研究價 值,因此我們首先將運些表情符號過濾掉;
[0021] 二)過濾超鏈接:據統(tǒng)計,8.6 %的博文中含有超鏈接,如http: //t. cn/RziCtcA,同 樣運些超鏈接對分析微博用處不大,因此應當被過濾掉;
[0022] Ξ)過濾@功能:當微博用戶發(fā)布一條微博并希望向指定用戶傳達時就可W通過@+ 昵稱來實現,但運些昵稱同樣成為干擾數據,例如小沈陽",沈陽雖是地名,但與事件發(fā)生 的地點并不相關,為了避免對事件地理位置詞的分析造成的干擾,運些信息也要被過濾掉;
[0023] 四)只保留名詞等詞性:為了抽取出微博文本中的地理位置詞,我們需要過濾掉所 有的非名詞詞性的詞,本發(fā)明采用中國科學院計算技術研究所的分詞系統(tǒng)ICTCLAS對微博 文本進行分詞和詞性標注。只保留名詞集合化作為地理位置詞抽取的輸入。
[0024] .地理位置詞抽取
[0025] -)構建我國的行政區(qū)規(guī)劃的地理位置詞詞典。我們從網上下載了 2012年底最新 統(tǒng)計的中國行政區(qū)規(guī)劃地理詞詞典,該詞典包含了中國所有縣級W上的地理位置實體名, 詞典每行的字段:地理位置實體名,行政級別0-5,行政級別1代表省、直轄市和自治區(qū):34 個;行政級別2代表地級市:344;行政級別3代表縣、區(qū):3152;行政級別4代表鄉(xiāng)、鎮(zhèn)、街道辦 事處:43920:行政級別5代表村、社區(qū):719472。并采用12位唯一id代碼表示具體的行政區(qū)規(guī) 劃,如雅克薩社區(qū)居委會的行政區(qū)代碼:15 07 22 100 005,其中15代表內蒙古,07代表呼 倫貝爾,22代表莫力達瓦達幹爾族自治旗,100代表尼爾基鎮(zhèn),005代表雅克薩社區(qū)。
[0026] 二)構造我國行政區(qū)規(guī)劃簡稱詞詞典。由于微博表達口語化,因此微博文本中使用 的地理位置詞W簡稱詞居多,因此為了判斷分詞后的名詞是否為地理位置詞,我們還需要 構造地理詞簡稱詞詞典,并通過唯一的id對將全稱詞與簡稱詞進行關聯(lián)。中國的地理詞命 名有一些明顯的命名規(guī)則,我們根據W下的規(guī)則來構造簡稱詞詞典。
[0027] a)地理全稱詞(即行政區(qū)規(guī)劃地理詞)W自治區(qū)、自治州、自治縣、自治旗等為后綴 [00%]簡稱詞的命名規(guī)則:地名+**族(〉=1)+后綴;例:全稱詞為"湘西±家族苗族自治 少r時,先匹配后綴自治州,再重復匹配56個民族,之后剩余的地名"湘西"即為該全稱詞的 簡稱詞。
[0029] b)地理全稱詞W省、市、區(qū)、州、縣、鎮(zhèn)、村等為后綴
[0030] 簡稱詞的命名規(guī)則:地名+后綴;例:全稱詞為"北京市","海淀區(qū)"時,先匹配后綴 市(區(qū))等,之后剩余的地名"北京"、"海淀"即為簡稱詞。
[0031] C)全稱地理詞無簡稱詞的情況
[0032] 全稱詞的規(guī)則:地理位置詞的字數小于2;例如"茂縣",說明此時地理詞沒有簡稱 詞,我們無需構造簡稱詞。
[0033] 我們通過構建的地理全稱詞詞典及與之對應的簡稱詞詞典建立哈希表,直接判斷 待檢查名詞是否在哈希表里即可判斷其是否為地理名詞。
[0034] Ξ)候選詞過濾。雖然我們構造了簡稱詞詞典,但是中國地理名詞簡稱詞可能并不 唯一,如"內蒙古自治區(qū)"的簡稱詞有"內蒙古","內蒙";"莫力達瓦達幹爾族自治旗"的簡稱 詞有"莫力達瓦旗","莫力達瓦","莫旗";同時有些簡稱詞的構造規(guī)則并不規(guī)范,如"新己爾 虎左旗"的簡稱詞為"新左旗"。
[0035] 我們發(fā)現簡稱詞還有W下的構造規(guī)則:
[0036] a)簡稱詞的第一個字基本都與全稱詞的第一個字相同
[0037] 如"陳己爾虎旗"的簡稱詞"陳旗"的第一個字都是"陳"
[0038] b)簡稱詞的每個字都包含于全稱詞中
[0039] 如地理簡稱詞"新左旗"Ξ個字都包含于全稱"新己爾虎左旗"
[0040] 因此我們采用相應的規(guī)則來判斷微博文本過濾后剩余的名詞(即未出現在該簡稱 詞詞典或全稱詞詞典中的分詞)是否為地理位置詞簡稱詞W完成地理位置詞的抽取功能。 [0041 ] a)首先創(chuàng)建hash表,W地理詞全稱詞典中的首字作為關鍵字,之后將所有W該字 為首字的地理全稱詞組成集合作為value(即該關鍵字的鍵值),因此我們需要首先匹配首 字