締度信息存儲與文本文件中,如下所示:
[0104] 福建省 1 350000000000 117.984943 26.050118
[0105] 福建 1 350000000000 117.984943 26.050118
[0106] 湖南省 1 430000000000 111.720664 27.695864
[0107] 湖南 1 430000000000 111.720664 27.695864 [010引 河北省 1 130000000000 115.661434 38.61384
[0109] 河北 1 130000000000 115.661434 38.61384
[0110] 安徽省 1 340000000000 117.216005 31.859252
[0111] 安徽 1 340000000000 117.216005 31.859252
[0112] 新疆維吾爾自治區(qū) 1 650000000000 85.614899 42.127001
[0113] 新疆 1 650000000000 85.614899 42.127001
[0114] 二)采用聚類的方法發(fā)現(xiàn)群體事件的爆發(fā)點。
[0115] 自底向上的分層聚類,首先將每個坐標(biāo)作為一個類,然后根據(jù)坐標(biāo)之間的距離將 運些類合并為較大的類,直到滿足闊值即距離終止條件為止。但是缺點是一旦一組坐標(biāo)被 合并之后,下一步不能對已合并的坐標(biāo)內(nèi)部進行修改,即類之間不能交換坐標(biāo)。
[0116] Kmeans算法是最為經(jīng)典的基于劃分的聚類方法,其基本思想是:隨機選擇數(shù)據(jù)空 間中k個點為初始聚類中屯、進行聚類,對所有坐標(biāo)按到K個點的距離歸類,隨即更新每個類 簇的中屯、。通過迭代計算,直至聚類結(jié)果收斂。但是缺點是需要輸入初始聚類個數(shù)。
[0117] 因此我們采用分層聚類與K-means聚類相結(jié)合的方法:
[0118] 首先通過分層聚類獲得初始的聚類信息:即聚類的個數(shù)和聚類中屯、點的位置,然 后將聚類的個數(shù)作為k-means聚類的初始聚類數(shù),聚類中屯、則為k-means聚類的初始類中屯、 點,重新計算并聚類,直至成員都不發(fā)生變化。
[0119] 其中坐標(biāo)之間的距離采用歐幾里德距離,公式如下:
[0120]
[0121] 其中disatanceij表示第i個點與第j個點之間的歐幾里德距離,(xi,yi),(xj,yj) 非別表示第i,j個點的經(jīng)締度坐標(biāo)。
[0122] 聚類過程的具體過程:
[0123] 1.η個2維向量(η個坐標(biāo))構(gòu)建數(shù)據(jù)矩陣da化[n][2];
[0124] 2.計算兩兩之間的距離值,構(gòu)建距離矩陣d[n][n];
[0125] 3.找出距離值最小的兩個數(shù)據(jù)點,將運它們合并成為一個類,即從η個類別合并成 了η-1個類別,采用中屯、點距離的方法計算不同類別之間的距離,計算新類別的中屯、點與其 它所有類別的中屯、點之間的距離,構(gòu)建了一個新的η-1維的空間距離矩陣;
[01%] 4.重復(fù)步驟2,3,直到最小距離大于定義的距離闊值為止;
[0127] 5.將上述的聚類個數(shù)及聚類中屯、作為k-means算法的初始類個數(shù)及中屯、點;
[0128] 6.遍歷data矩陣中每個坐標(biāo),計算運個坐標(biāo)點與分層聚類得到的所有類的中屯、之 間的距離,找出與數(shù)據(jù)點距離最小的類別,并將數(shù)據(jù)點歸為該類。
[0129] 7.重新計算每個新類別的中屯、點;
[0130] 8.重復(fù)步驟6,7直至類中成員都不發(fā)生變化。
[0131] 上述過程中,步驟1~4為分層聚類的過程,5~8為k-means的過程,最后獲得的各 個聚類的中屯、就是我們預(yù)測的事件發(fā)生的地理位置。
[0132] 將聚類后的聚類中屯、(經(jīng)締度坐標(biāo))標(biāo)注在地圖上。
[0133] 上述說明僅是本發(fā)明技術(shù)方案的概述,但其并不能用W限定本發(fā)明。本發(fā)明所屬 技術(shù)領(lǐng)域中的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),做些許的改動與修飾,都在 本發(fā)明的保護范圍內(nèi)。因此本發(fā)明的保護范圍當(dāng)W權(quán)利要求所界定者為準(zhǔn)。
【主權(quán)項】
1. 一種微博熱點事件的地理位置發(fā)現(xiàn)方法,其步驟為: 1) 基于行政區(qū)規(guī)劃地理詞詞典及中文簡稱詞的命名規(guī)則構(gòu)建一簡稱詞詞典,然后將該 簡稱詞詞典與全稱詞詞典進行關(guān)聯(lián); 2) 根據(jù)事件關(guān)鍵字,獲取包含該事件關(guān)鍵字的微博信息; 3) 對步驟2)獲取的每一微博信息進行分詞處理,得到該微博的分詞集合,然后判斷該 分詞集合中每一名詞是否在該簡稱詞詞典或全稱詞詞典中,如果存在,則將該名詞作為候 選地理位置詞保留;當(dāng)該微博中出現(xiàn)多個候選地理位置詞時,則選取一候選地理位置詞作 為該微博的地點; 4) 獲取步驟3)確定的每一地點的地理位置經(jīng)煒度信息,然后對得到的地理位置經(jīng)煒度 信息進行聚類,根據(jù)聚類中心判斷出事件爆發(fā)的地點。2. 如權(quán)利要求1所述的方法,其特征在于,構(gòu)建所述簡稱詞詞典的方法為: a) 對于以自治區(qū)、自治州、自治縣、自治旗為后綴的地理全稱詞,先匹配地理全稱詞的 后綴,再匹配民族,然后將剩余部分作為該地理全稱詞的簡稱詞; b) 對于以省、市、區(qū)、州、縣、鎮(zhèn)、村為后綴的地理全稱詞,先匹配地理全稱詞的后綴,然 后將剩余部分作為該地理全稱詞的簡稱詞; c) 對于字?jǐn)?shù)小于2的地理全稱詞,直接將該地理全稱詞作為其簡稱詞。3. 如權(quán)利要求1或2所述的方法,其特征在于,對于分詞集合集合中未出現(xiàn)在該簡稱詞 詞典或全稱詞詞典中的分詞進一步判斷是否為候選地理位置詞,其方法為: a) 創(chuàng)建一hash表:以全稱詞詞典中的每一全稱詞首字作為關(guān)鍵字,將所有以該關(guān)鍵字 為首字的全稱詞集合作為該關(guān)鍵字的鍵值value; b) 遍歷每一 value中的全稱詞,判斷全稱詞是否包含當(dāng)前待檢查分詞中的每一字,若全 部包含則判斷該名詞為簡稱詞,并分配一id號與對應(yīng)全稱詞進行關(guān)聯(lián),補充到簡稱詞庫中; 同時將該分詞作為一候選地理位置詞。4. 如權(quán)利要求1或2所述的方法,其特征在于,對每一分詞集合進行過濾,過濾掉所有的 非名詞詞性的詞。5. 如權(quán)利要求1或2所述的方法,其特征在于,將該簡稱詞詞典與全稱詞詞典進行關(guān)聯(lián) 的方法為:將該全稱詞詞典中的全稱詞與該簡稱詞詞典中對應(yīng)的簡稱詞設(shè)置相同的id號, 實現(xiàn)該簡稱詞詞典與全稱詞詞典相關(guān)聯(lián)。6. 如權(quán)利要求1所述的方法,其特征在于,選取一候選地理位置詞作為該微博的地點的 方法為: 61) 檢查多個候選地理位置詞之間是否存在包含關(guān)系,如果存在,則保留最細(xì)粒度的候 選地理位置詞; 62) 如果步驟61)處理之后只剩余一個候選地理位置詞,則將其作為該微博的地點;如 果剩余多個候選地理位置詞,則計算剩余的每一候選地理位置詞的距離值II;其中,Distancei表示的是第i個候選地理位置詞的 距離值,geolndexi表示第i個候選地理位置詞在該微博中的索引位置,key Indexk表示第k個 事件關(guān)鍵字在該微博中的索引位置;然后選取距離值最大的候選地理位置詞作為該微博的 地點。7. 如權(quán)利要求6所述的方法,其特征在于,對所述距離值進行修正,即對作為最細(xì)粒度 保留的候選地理位置詞對應(yīng)的距離值減去一修正值β;如果修正后的距離值為負(fù)數(shù),則采用 以下的公式來平移對應(yīng)距離值其中,η代表剩余多個候選地理位置詞的個數(shù),Distancei代表第i個地理詞的距離值, Distancek代表第k個地理詞的距離值。8. 如權(quán)利要求1或6所述的方法,其特征在于,如果一微博信息中未得到候選地理位置 詞,則采用基于微博用戶及微博內(nèi)容的可信度確定出一候選地理位置詞。9. 如權(quán)利要求1所述的方法,其特征在于,所述聚類方法為自頂向下的分層聚類+K-means聚類方法。
【專利摘要】本發(fā)明公開了一種微博熱點事件的地理位置發(fā)現(xiàn)方法。本方法為:1)基于行政區(qū)規(guī)劃地理詞詞典及中文簡稱詞的命名規(guī)則構(gòu)建一簡稱詞詞典,然后將該簡稱詞詞典與全稱詞詞典進行關(guān)聯(lián);2)根據(jù)事件關(guān)鍵字,獲取包含該事件關(guān)鍵字的微博信息;3)對獲取的微博信息進行分詞處理,得到該微博的分詞集合,然后判斷該分詞集合中每一名詞是否在該簡稱詞詞典或全稱詞詞典中,如果存在則將該名詞作為候選地理位置詞保留;當(dāng)該微博中出現(xiàn)多個候選地理位置詞時,則選取一候選地理位置詞作為該微博的地點;4)獲取確定的每一地點的地理位置經(jīng)緯度信息,然后對得到的地理位置經(jīng)緯度信息進行聚類,根據(jù)聚類中心判斷出事件爆發(fā)地點。本方法可更好的了解突發(fā)事件。
【IPC分類】G06F17/30
【公開號】CN105630884
【申請?zhí)枴緾N201510957634
【發(fā)明人】敖吉, 牛溫佳, 曹亞男, 張鵬, 喬治, 譚建龍, 郭莉
【申請人】中國科學(xué)院信息工程研究所
【公開日】2016年6月1日
【申請日】2015年12月18日