亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

時空地理空間可視化的分析方法與流程

文檔序號:11545221閱讀:2906來源:國知局
時空地理空間可視化的分析方法與流程

本發(fā)明涉及時空數(shù)據(jù)處理領域,特別涉及一種時空地理空間可視化的分析方法,其主要用于面向開放事件。



背景技術(shù):

隨著大數(shù)據(jù)時代的到來,每天都有大量的文本時空數(shù)據(jù)產(chǎn)生,數(shù)據(jù)量大,雜亂零散、且多數(shù)為非結(jié)構(gòu)化數(shù)據(jù),人們淹沒在數(shù)據(jù)的海洋之中。如何從這些文本數(shù)據(jù)中提取出用戶感興趣的信息,并充分利用其時空屬性,對事件進行分析是急需解決的問題。

事件抽取是從非結(jié)構(gòu)化文本中抽取出事件信息,以結(jié)構(gòu)化的形式呈現(xiàn),是一種有效的數(shù)據(jù)組織方式。傳統(tǒng)的事件抽取采用兩步策略,包括事件類別的識別與分類以及事件元素的識別,但其往往局限于特定領域,且依賴于已標注文本。隨著twitter和微博等開放領域文本的異軍突起,ritter等人提出了開放領域的事件抽取方法,采用鏈式結(jié)構(gòu),容易產(chǎn)生層疊錯誤的問題。weifeng等在twitter數(shù)據(jù)流中,采用hashtag聚類的方法,從不用的時空粒度抽取出事件信息,這種方法考慮了事件的時間屬性和空間屬性,但未綜合考慮事件的時空屬性,且依賴于監(jiān)督學習框架,難以應用到大規(guī)模未標注的文本中。



技術(shù)實現(xiàn)要素:

鑒于現(xiàn)有方案存在的問題,為了克服上述現(xiàn)有技術(shù)方案的不足,本發(fā)明提出了一種時空地理空間可視化分析方法。

根據(jù)本發(fā)明的一個方面,提供了一種時空地理空間可視化的分析方法,包括以下步驟:對未標注的源數(shù)據(jù)進行預處理,獲得時間實體、地點實體及事件詞;將時間、地理經(jīng)度、地理緯度作為三個維度構(gòu)建數(shù)據(jù)立方體;將選定時空粒度下的事件詞聚類為至少一個事件;以及構(gòu)建時空地理信息可視化系統(tǒng)。

從上述技術(shù)方案可以看出,本發(fā)明具有以下有益效果:

本發(fā)明針對非結(jié)構(gòu)化未標注大規(guī)模文本,不局限于專門領域,不依賴于監(jiān)督學習框架,能夠高效率地提取出高質(zhì)量的某一時間某一地點事件聚類結(jié)果,可以提取不同時、空粒度下的事件,建立交互性良好的時空地理信息可視化系統(tǒng);

對文本數(shù)據(jù)進行預處理,獲得事件詞,用于表征描述事件;

建立數(shù)據(jù)立方體,用于方便提取不同時空粒度下的事件詞,充分利用事件的時空屬性;

對事件詞進行近鄰聚類,分成多個事件,提高事件抽取的效率及準確性;

構(gòu)建可視化系統(tǒng),實現(xiàn)了事件可視化在時空粒度上的可視化。

附圖說明

圖1是本發(fā)明實施例時空地理空間可視化分析方法的流程圖;

圖2是圖1中源數(shù)據(jù)預處理的流程圖;

圖3是圖1中構(gòu)建數(shù)據(jù)立方體的流程圖;

圖4是圖3中數(shù)據(jù)立方體構(gòu)建的示意圖;

圖5是圖3中數(shù)據(jù)立方體時空緯度上的處理示意圖;

圖6是是圖1中對事件詞進行聚類的流程圖;

圖7為可視化事件抽取結(jié)構(gòu)的示例圖。

具體實施方式

本發(fā)明某些實施例于后方將參照所附附圖做更全面性地描述,其中一些但并非全部的實施例將被示出。實際上,本發(fā)明的各種實施例可以許多不同形式實現(xiàn),而不應被解釋為限于此數(shù)所闡述的實施例;相對地,提供這些實施例使得本發(fā)明滿足適用的法律要求。

在本說明書中,下述用于描述本發(fā)明原理的各種實施例只是說明,不應該以任何方式解釋為限制發(fā)明的范圍。參照附圖的下述描述用于幫助全面理解由權(quán)利要求及其等同物限定的本發(fā)明的示例性實施例。下述描述包括多種具體細節(jié)來幫助理解,但這些細節(jié)應認為僅僅是示例性的。因此,本領域普通技術(shù)人員應認識到,在不悖離本發(fā)明的范圍和精神的情況下,可以對本文中描述的實施例進行多種改變和修改。此外,為了清楚和簡潔起見,省略了公知功能和結(jié)構(gòu)的描述。此外,貫穿附圖,相同附圖標記用于相似功能和操作。

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。

本發(fā)明實施例提供了一種時空地理空間可視化分析方法,其主要用于面向開放事件,充分利用事件的時空屬性,提高事件抽取的效率和準確性,進而能夠進行更為有效的可視分析。

圖1示出了本發(fā)明實施例時空地理空間可視化分析方法的流程圖,請參照圖1,本方法實施例中的時空地理空間可視化分析方法具體包括:

s1、獲取源數(shù)據(jù);

具體的,本實例針對開放事件數(shù)據(jù),采用網(wǎng)絡爬蟲在網(wǎng)絡上抓取開放領域的文件,例如選取了6個月,12萬條的文本數(shù)據(jù),每個文件中包含大量數(shù)據(jù),形成未標注的文件集;

s2、對未標注的源數(shù)據(jù)進行預處理,具體包括以下步驟,如圖2所示:

s21、對未標注文件中的數(shù)據(jù)進行分詞;

具體的,對未標注的文件中的數(shù)據(jù)進行分詞,例如,采用自然語言處理工具ictclas對未標注的文件進行中文分詞。

s22、對分詞結(jié)果進行詞性標注;

具體地,對各個分詞進行詞性標注,區(qū)分名詞、動詞、形容詞等;

s23、命名實體識別;

具體地,針對名詞進行命名實體識別,獲得時間實體、地點實體及人名實體;

s24、獲取事件詞。

具體的,將人名實體和事件觸發(fā)詞作為事件詞,其中事件觸發(fā)詞包括動詞和/或動名詞,本實施例中,根據(jù)timebank數(shù)據(jù)集的標注指南對n篇新聞文本的事件觸發(fā)詞進行標注,將其作為訓練集訓練條件隨機場模型,用于提取事件觸發(fā)詞,n大于等于500。

s3、構(gòu)建數(shù)據(jù)立方體,在不同時、空層級下儲存事件詞,對數(shù)據(jù)立方體進行上卷、下鉆、分塊、切片操作,可以提取不同時、空粒度下的事件詞;具體包括以下步驟,如圖3所示:

s31、構(gòu)建數(shù)據(jù)立方體的坐標系;

具體地,數(shù)據(jù)立方體具有三個緯度,包括與時間對應的時間軸,以及與地理位置對應的地點的經(jīng)緯度對應的經(jīng)度軸和緯度軸;

s32、將事件詞置入數(shù)據(jù)立方體中;

具體地,如圖4所示,取事件詞所在文件日期作為事件詞對應的時間,對事件詞所在文件中多個地點實體進行消歧、合并,例如采用最近鄰的方法,取與事件詞最相近的地名作為事件詞的發(fā)生位置,將其映射到地理數(shù)據(jù)庫,得到地點對應的經(jīng)緯度,將某一時間,某一地點的事件詞儲存在數(shù)據(jù)立方體對應的位置。

圖5示出了數(shù)據(jù)立方體時空緯度上的處理示意圖,如圖5所示,可以對數(shù)據(jù)立方體進行上卷、下鉆、分塊、切片操作,可以提取不同時、空粒度下的事件詞。

s4、對選定時空粒度下的事件詞進行聚類;具體包括以下步驟,如圖6所示:

s41、獲取事件詞的詞向量;

首先,統(tǒng)計數(shù)據(jù)立方體中所有事件詞的共現(xiàn)信息,生成共現(xiàn)矩陣;

具體地,事件詞之間的關(guān)聯(lián)度可由詞語之間共現(xiàn)概率表示,如果事件詞i和事件詞j共同出現(xiàn)于同一文件,則稱事件詞i和事件詞j共現(xiàn),兩事件詞之間的共現(xiàn)概率反比于出現(xiàn)距離,根據(jù)如下公式計算事件詞i和事件詞j的共現(xiàn)概率:

其中l(wèi)di表示事件詞i在文件d中的出現(xiàn)位置,ldj表示事件詞j在文件d中的出現(xiàn)位置,d表示整個源數(shù)據(jù)的文件數(shù)量。根據(jù)如下公式計算事件詞j出現(xiàn)于事件詞i的上下文的頻率:

其中,k表示事件詞i上下文中出現(xiàn)的事件詞。

所有事件詞之間的頻率pij組成共現(xiàn)矩陣。

然后,將共現(xiàn)矩陣放入glove模型中訓練,采用梯度下降法,得到每個事件詞的詞向量w,每一事件詞與其詞向量一一對應,事件詞可以用其詞向量來表征。

s42:從數(shù)據(jù)立方體中在選定的時空粒度下提取事件詞;

對數(shù)據(jù)立方體進行上卷、下鉆、分塊、切片操作,可以提取不同時、空粒度下的事件詞,例如提取某日某省or某月某市or某年某國的事件詞;其中,上卷為沿著維的層次向上聚集匯總數(shù)據(jù),例如沿著時間維上卷,求出月度、季度、年度的數(shù)據(jù),下鉆為上卷的逆操作,即沿著維的層次向下,獲得更詳細的數(shù)據(jù),分塊為選擇維中特定區(qū)間的數(shù)據(jù),比如選擇2015年第一季度到2016年第二季度的數(shù)據(jù),切片為選擇維中特定的值進行分析,比如只選擇2016年第二季度的數(shù)據(jù)。上述上卷、下鉆、分塊、切片操作操作都是改變維的層次,變換分析粒度的操作。

s43、對提取的事件詞進行實時聚類;

具體地,對于事件集e={e1,e2,…,ek},根據(jù)如下公式計算事件ei={w1,w2,…wn,…wn}的均值向量作為每個事件ei的聚類中心:

其中,wn表示事件ei中包含的第n個事件詞的詞向量,用于表征n個事件詞,n表示事件ei包含的總事件詞數(shù)目。

對于新出現(xiàn)的事件詞w’,根據(jù)如下公式計算事件詞w’與事件集中每一事件ei的余弦相似度si:

獲得最大余弦相似度的smax,若smax大于等于閾值,則將事件詞w’歸為事件emax類;否則將事件詞w’單獨聚為一個事件類。

其中,閾值s為選定時空粒度下所有事件詞的平均余弦相似度,由下式獲得:

其中n為選定時空粒度下事件詞的個數(shù),wi為選定時空粒度下第i個事件詞的詞向量,wj為選定時空粒度下第j個事件詞的詞向量。

步驟5、構(gòu)建時空地理信息可視化系統(tǒng)。

具體地,利用d3.js將空間可視化模型與時間概念相結(jié)合,實現(xiàn)時空可視化模型,基于不同的時間粒度和空間粒度,展現(xiàn)出事件抽取結(jié)果,d3.js是一個javascript庫,它利用現(xiàn)有的web標準,讓使用者以更簡單的方式(數(shù)據(jù)驅(qū)動)制作炫目的可視化效果,把數(shù)據(jù)更鮮活形象地展示出來。

以2015年4月上海市的事件抽取結(jié)果為例,如圖7所示,清晰明了的展示了2015年4月上海市的經(jīng)過聚類的事件抽取結(jié)果。

前面的附圖中所描繪的進程或方法可通過包括硬件(例如,電路、專用邏輯等)、固件、軟件(例如,被承載在非瞬態(tài)計算機可讀介質(zhì)上的軟件),或兩者的組合的處理邏輯來執(zhí)行。雖然上文按照某些順序操作描述了進程或方法,但是,應該理解,所描述的某些操作能以不同順序來執(zhí)行。此外,可并行地而非順序地執(zhí)行一些操作。

需要說明的是,在附圖或說明書正文中,未繪示或描述的實現(xiàn)方式,均為所屬技術(shù)領域中普通技術(shù)人員所知的形式,并未進行詳細說明。此外,上述對各元件和方法的定義并不僅限于實施例中提到的各種具體結(jié)構(gòu)、形狀或方式,本領域普通技術(shù)人員可對其進行簡單地更改或替換。

以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1