亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向中文新聞文本的事件地點抽取方法與流程

文檔序號:11734645閱讀:512來源:國知局
一種面向中文新聞文本的事件地點抽取方法與流程
本發(fā)明涉及計算機科學與技術(shù)中的文本挖掘、自然語言處理、輿情分析領(lǐng)域,特別涉及一種面向中文新聞文本的事件地點抽取方法。

背景技術(shù):
新聞文本中,存在機構(gòu)名、處所名詞、地名等詞匯或短語,但是它們并不一定是事件發(fā)生的地點。例如,在新聞文本中“2012年6月19日,在墨西哥洛斯卡沃斯召開的G20峰會期間,阿根廷總統(tǒng)克里斯蒂娜向英國首相卡梅倫遞交有關(guān)馬爾維納斯群島主權(quán)的函件”中,存在地名“墨西哥”、“洛斯卡沃斯”、“馬爾維納斯群島”三個地名,但是“馬爾維納斯群島”并不是事件發(fā)生的地點。如何從機構(gòu)名、處所名詞、地名中識別出事件地點是事件抽取中的一個難題。關(guān)于面向中文新聞文本的事件地點抽取的專利。專利名稱《一種地名識別方法和裝置》公開號CN103186524A;該發(fā)明公開了一種地名識別方法和裝置,用以進行地名識別。該發(fā)明方法包括:對待識別的字符串進行分詞得到候選詞;獲取各候選詞在地址名稱庫中的所屬類別;對各候選詞進行遍歷,若當前候選詞的所屬類別為第一類別,則將當前候選詞作為地名添加到候選地名集合;若當前候選詞的所屬類別為第二類別,則對當前候選詞以及在所述地址名稱庫中與當前候選詞臨近的候選詞進行組合得到合成詞,并將所述合成詞作為地名添加到候選地名集合。但是該專利只能識別文本中的地名,還不能識別出事件地點。

技術(shù)實現(xiàn)要素:
為了克服上述現(xiàn)有技術(shù)的缺陷,本發(fā)明的目的在于提供一種面向中文新聞文本的事件地點抽取方法,該方法從新聞文本中抽取上下文特征、位置特征、拓撲特征三個特征構(gòu)成特征向量,利用RandomForest分類器從分詞獲取機構(gòu)名、處所名詞、地名中識別出事件地點;能夠在地名識別的基礎(chǔ)上,進一步識別出新聞事件發(fā)生的地點。為達到以上目的,本發(fā)明的技術(shù)方案為:一種面向中文新聞文本的事件地點抽取方法,包括如下步驟:步驟一:候選事件地點抽取(1)首先,利用ICTCLAS中文分詞工具對中文新聞文本T進行分詞,生成一個由二元組構(gòu)成的序列ST=(w1,p1),(w2,p2),...,(wi,pi),...,(wn,pn),其中,n表示切分出的詞匯的個數(shù),n>0,wi表示ICTCLAS切分出的詞匯,pi表示wi的詞性;(2)從ST中依次選擇所有滿足pi=″ni″pi=″nl″、pi=″ns″三種情況之一的二元組,pi=″ni″pi=″nl″、pi=″ns″分別表示對應(yīng)的wi為機構(gòu)名、處所名詞、地名;所有被選中的二元組中的wi構(gòu)成一個集合WT={w′1,w′2,...,w′j,...,w′m},WT將作為候選事件地點的集合,m表示W(wǎng)T中詞匯的個數(shù),m>0;步驟二:特征向量構(gòu)建對于集合WT中的每個w′j,選擇三個特征,包括:w′j在新聞文本T中的上下文Context特征;w′j在新聞文本T中的位置特征;w′j在新聞文本T中的拓撲特征;三個特征的計算如下:特征一:w′j在新聞文本T中的上下文特征cjw′j在新聞文本T中的上下文特征用w′j所匹配的正則表達式的權(quán)重表示,記為cj;(1)若w′j在新聞文本T中能夠匹配下表中的某個正則表達式,假設(shè)為第k個,則cj=ak;ak表示“若詞匯匹配第k個正則表達式,則該詞匯是事件地點的比率”,ak的計算公式為:ak=|Lk|/|Sk|,其中,Sk表示標注數(shù)據(jù)中能成功匹配第k個正則表達式的所有詞匯的集合,Lk表示屬于Sk且在標注數(shù)據(jù)中是事件地點的詞匯構(gòu)成的集合,標注數(shù)據(jù)是指人工標注了事件地點的新聞文本集;(2)若w′j在新聞文本T中能夠匹配下表中的多個正則表達式,設(shè)為第k1,k2,...,kl(l>1)個正則表達式,則(3)若w′j在新聞文本T中不能匹配下表中的正則表達式,則cj=0。特征二:w′j在新聞文本T中的位置特征pjpj=loc(w′j,T),其中,loc(w′j,T)表示詞匯w′j在新聞文本T中首次出現(xiàn)的位置,即從文本T起始處到詞匯w′j第一次出現(xiàn)位置之間的字數(shù)。特征三:w′j在新聞文本T中的拓撲特征tj初始化空集合E;對于任意二元組(w′j,w′j)∈WT×WT且,執(zhí)行以下兩個步驟:STEP1:將字符串“http://www.baike.com/wiki/”與w′j組成URL,下載該URL對應(yīng)的頁面;若下載不到,則不處理二元組(w′j,w′i);STEP2:利用正則表達式/<a[^>]*?href=[″’]?([^’″>]*)[’″]?[^>]*?>(.*?)</a>/ig匹配頁面文件,獲取所有錨文本;若錨文本中包含w′i,則把E∪{(w′j,w′i)}的結(jié)果賦給E;對于任意二元組(w′j,w′i)∈WT×WT且,執(zhí)行上述兩個步驟后,生成以WT為結(jié)點集合,E為有向邊集合的有向圖G;對任意w′j∈WT,計算其聚集系數(shù)C(w′j),聚集系數(shù)用于衡量不同結(jié)點之間連接的緊密程度;上式中,GΔ(w′j)表示G中包含w′j的閉三點組的數(shù)量,GΔ(w′j)為表示G中包含w′j的開三點組的數(shù)量;閉三點組指圖中任意兩兩相連的三個結(jié)點,開三點組指圖中被兩條邊連接起來的三個結(jié)點;令w′j在新聞文本T中的拓撲特征tj為C(w′j),即tj=C(w′j);利用w′j在新聞文本T中的上下文特征、位置特征、拓撲特征,構(gòu)建w′j的三維特征向量(cj,pj,tj)。步驟三:事件地點識別選擇100-200個特征向量,人工為每個特征向量標注一個類標簽(事件地點與非事件地點),形成一個訓(xùn)練數(shù)據(jù)集;采用RandomForest分類器訓(xùn)練一個分類器,利用該分類器將集合WT中的每個w′j按照事件地點與非事件地點進行二值分類,從而實現(xiàn)事件地點的抽取。本發(fā)明能依據(jù)新聞文本中詞匯的上下文特征、位置特征、拓撲特征,建立分類器,實現(xiàn)事件地點的自動抽取。附圖說明附圖1是面向中文新聞文本的事件地點抽取過程。附圖2是用于計算拓撲特征tj的一個有向圖實例。具體實施方式下面結(jié)合附圖對本發(fā)明做詳細敘述。參照附圖,該方法的具體實施方案可分為候選事件地點抽取、特征向量構(gòu)建、事件地點識別三個步驟。具體描述如下:步驟一:候選事件地點抽取a)首先,利用ICTCLAS中文分詞工具對中文新聞文本T進行分詞,生成一個由二元組構(gòu)成的序列ST=(w1,p1),(w2,p2),...,(wi,pi),...,(wn,pn),其中,n表示切分出的詞匯的個數(shù),n>0,wi表示ICTCLAS切分出的詞匯,pi表示wi的詞性;b)從ST中依次選擇所有滿足pi=″ni″、pi=″nl″、pi=″ns″三種情況之一的二元組,pi=″ni″、pi=″nl″、pi=″ns″分別表示對應(yīng)的wi為機構(gòu)名、處所名詞、地名;所有被選中的二元組中的wi構(gòu)成一個集合WT={w′1,w′2,...,w′j,...,w′m},WT將作為候選事件地點的集合。以新聞文本“2012年6月19日,在墨西哥洛斯卡沃斯召開的G20峰會期間,阿根廷總統(tǒng)克里斯蒂娜向英國首相卡梅倫遞交有關(guān)馬爾維納斯群島主權(quán)的函件”為例,經(jīng)過上述步驟,可生成集合{墨西哥,洛斯卡沃斯,阿根廷,英國,馬爾維納斯群島}。步驟二:特征向量構(gòu)建對于集合WT中的每個w′j,選擇三個特征,包括:w′j在新聞文本T中的上下文(Context)特征;w′j在新聞文本T中的位置特征;w′j在新聞文本T中的拓撲特征;三個特征的計算如下:特征一:w′j在新聞文本T中的上下文(Context)特征cjw′j在新聞文本T中的上下文特征用w′j所匹配的正則表達式的權(quán)重表示,記為cj:a)若w′j在新聞文本T中能夠匹配下表中的某個正則表達式,假設(shè)為第k個,則cj=ak;ak表示“若詞匯匹配第k個正則表達式,則該詞匯是事件地點的比率”,ak的計算公式為:ak=|Lk|/|Sk|,其中,Sk表示標注數(shù)據(jù)中能成功匹配第k個正則表達式的所有詞匯的集合,Lk表示屬于Sk且在標注數(shù)據(jù)中是事件地點的詞匯構(gòu)成的集合,標注數(shù)據(jù)是指人工標注了事件地點的新聞文本集;b)若w′j在新聞文本T中能夠匹配下表中的多個正則表達式,設(shè)為第k1,k2,...,kl(l>1)個正則表達式,則c)若w′j在新聞文本T中不能匹配下表中的正則表達式,則cj=0。以新聞文本“2012年6月19日,在墨西哥洛斯卡沃斯召開的G20峰會期間,阿根廷總統(tǒng)克里斯蒂娜向英國首相卡梅倫遞交有關(guān)馬爾維納斯群島主權(quán)的函件”為例,集合{墨西哥,洛斯卡沃斯,阿根廷,英國,馬爾維納斯群島}中“墨西哥”可匹配第一個正則表達式“^\在\w+$”,則對應(yīng)的cj為0.64。特征二:w′j在新聞文本T中的位置特征pj對人工標注事件地點的新聞文本統(tǒng)計分析表明,當機構(gòu)名、處所名詞、地名出現(xiàn)的位置越靠前,越有可能是時間地點。為此,引入位置特征,并定義為:pj=loc(w′j,T),其中,loc(w′j,T)表示詞匯w′j在新聞文本T中首次出現(xiàn)的位置,即從文本T起始處到詞匯w′j第一次出現(xiàn)位置之間的字數(shù)。仍以新聞文本“2012年6月19日,在墨西哥洛斯卡沃斯召開的G20峰會期間,阿根廷總統(tǒng)克里斯蒂娜向英國首相卡梅倫遞交有關(guān)馬爾維納斯群島主權(quán)的函件”為例,“墨西哥”在該文本首次的位置為12,故對應(yīng)的pj為12。特征三:w′j在新聞文本T中的拓撲特征tj對人工標注事件地點的新聞文本統(tǒng)計分析表明,如果事件發(fā)生的地點有多個,則這些事件地點存在較強的相關(guān)性。為此,用地點對在“互動百科”對應(yīng)頁面中是否互相出現(xiàn)來描述是否存在相關(guān)性。初始化空集合E;對于任意二元組(w′j,w′i)∈WT×WT且,執(zhí)行以下兩個步驟:STEP1:將字符串“http://www.baike.com/wiki/”與w′j組成URL,下載該URL對應(yīng)的頁面;若下載不到,則不處理二元組(w′j,w′i);STEP2:利用正則表達式/<a[^>]*?href=[″’]?([^’″>]*)[’″]?[^>]*?>(.*?)</a>/ig匹配頁面文件,獲取所有錨文本;若錨文本中包含w′i,則把E∪{(w′j,w′i)}的結(jié)果賦給E。對于任意二元組(w′j,w′i)∈WT×WT且,執(zhí)行上述兩個步驟后,生成以WT為結(jié)點集合,E為有向邊集合的有向圖G;以新聞文本“2012年6月19日,在墨西哥洛斯卡沃斯召開的G20峰會期間,阿根廷總統(tǒng)克里斯蒂娜向英國首相卡梅倫遞交有關(guān)馬爾維納斯群島主權(quán)的函件”為例,可生成圖2所示的有向圖。對任意w′j∈WT,計算其聚集系數(shù)C(w′j),聚集系數(shù)用于衡量不同結(jié)點之間連接的緊密程度;這里,用于衡量多個獲選時間地點之間的相關(guān)程度;上式中,GΔ(w′j)表示G中包含w′j的閉三點組的數(shù)量,GΔ(w′j)為表示G中包含w′j的開三點組的數(shù)量。閉三點組指圖中任意兩兩相連的三個結(jié)點,開三點組指圖中被兩條邊連接起來的三個結(jié)點;令w′j在新聞文本T中的拓撲特征tj為C(w′j),即tj=C(w′j)。根據(jù)圖2,“墨西哥”的拓撲特征利用w′j在新聞文本T中的上下文特征、位置特征、拓撲特征,構(gòu)建w′j的三維特征向量(cj,pi,tj)。以新聞文本“2012年6月19日,在墨西哥洛斯卡沃斯召開的G20峰會期間,阿根廷總統(tǒng)克里斯蒂娜向英國首相卡梅倫遞交有關(guān)馬爾維納斯群島主權(quán)的函件”為此,“墨西哥”在此文本中的特征向量為(0.64,12,0.6)步驟三:事件地點識別選擇100-200特征向量,人工為每個特征向量標注一個類標簽(事件地點與非事件地點),形成一個訓(xùn)練數(shù)據(jù)集。根據(jù)w′j在新聞文本T中的上下文特征、位置特征、拓撲特征,采用RandomForest分類器訓(xùn)練出一個分類模型,能夠?qū)T中的詞匯按照事件地點與非事件地點進行二值分類,從而實現(xiàn)事件地點的抽取。
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1