技術(shù)特征:1.一種面向中文新聞文本的事件地點(diǎn)抽取方法,其特征在于,包括如下步驟:步驟一:候選事件地點(diǎn)抽取(1)首先,利用ICTCLAS中文分詞工具對(duì)中文新聞文本T進(jìn)行分詞,生成一個(gè)由二元組構(gòu)成的序列ST=(w1,p1),(w2,p2),...,(wi,pi),...,(wn,pn),其中,n表示切分出的詞匯的個(gè)數(shù),n>0,ωi表示ICTCLAS切分出的詞匯,pi表示wi的詞性;(2)從ST中依次選擇所有滿足pi="ni"、pi="nl"、pi="ns"三種情況之一的二元組,pi="ni"、pi="nl"、pi="ns"分別表示對(duì)應(yīng)的wi為機(jī)構(gòu)名、處所名詞、地名;所有被選中的二元組中的wi構(gòu)成一個(gè)集合WT={w′1,w′2,...,w′j,...,w′m},WT將作為候選事件地點(diǎn)的集合,m表示W(wǎng)T中詞匯的個(gè)數(shù),m>0;步驟二:特征向量構(gòu)建對(duì)于集合WT中的每個(gè)w′j,選擇三個(gè)特征,包括:w′j在新聞文本T中的上下文Context特征;w′j在新聞文本T中的位置特征;w′j在新聞文本T中的拓?fù)涮卣?;步驟三:事件地點(diǎn)識(shí)別選擇100-200個(gè)特征向量,人工為每個(gè)特征向量標(biāo)注一個(gè)類(lèi)標(biāo)簽(事件地點(diǎn)與非事件地點(diǎn)),形成一個(gè)訓(xùn)練數(shù)據(jù)集;采用RandomForest分類(lèi)器訓(xùn)練一個(gè)分類(lèi)器,利用該分類(lèi)器將集合WT中的每個(gè)w′j按照事件地點(diǎn)與非事件地點(diǎn)進(jìn)行二值分類(lèi),從而實(shí)現(xiàn)事件地點(diǎn)的抽??;所述的步驟二中所述的w′j在新聞文本T中的上下文Context特征;w′j在新聞文本T中的位置特征;w′j在新聞文本T中的拓?fù)涮卣鳎齻€(gè)特征的計(jì)算如下:特征一:w′j在新聞文本T中的上下文特征cjw′j在新聞文本T中的上下文特征用w′j所匹配的正則表達(dá)式的權(quán)重表示,記為cj;(1)若w′j在新聞文本T中能夠匹配下表中的某個(gè)正則表達(dá)式,假設(shè)為第k個(gè),則cj=ak;ak表示“若詞匯匹配第k個(gè)正則表達(dá)式,則該詞匯是事件地點(diǎn)的比率”,ak的計(jì)算公式為:ak=|Lk|/|Sk|,其中,Sk表示標(biāo)注數(shù)據(jù)中能成功匹配第k個(gè)正則表達(dá)式的所有詞匯的集合,Lk表示屬于Sk且在標(biāo)注數(shù)據(jù)中是事件地點(diǎn)的詞匯構(gòu)成的集合,標(biāo)注數(shù)據(jù)是指人工標(biāo)注了事件地點(diǎn)的新聞文本集;(2)若w′j在新聞文本T中能夠匹配下表中的多個(gè)正則表達(dá)式,設(shè)為第k1,k2,...,kl(l>1)個(gè)正則表達(dá)式,則(3)若w′j在新聞文本T中不能匹配下表中的正則表達(dá)式,則cj=0;特征二:w′j在新聞文本T中的位置特征pjpj=loc(w′j,T),其中,loc(w′j,T)表示詞匯w′j在新聞文本T中首次出現(xiàn)的位置,即從文本T起始處到詞匯w′j第一次出現(xiàn)位置之間的字?jǐn)?shù);特征三:w′j在新聞文本T中的拓?fù)涮卣鱰j初始化空集合E;對(duì)于任意二元組(w′j,w′i)∈WT×WT且,執(zhí)行以下兩個(gè)步驟:STEP1:將字符串“http://www.baike.com/wiki/”與w′j組成URL,下載該URL對(duì)應(yīng)的頁(yè)面;若下載不到,則不處理二元組(w′j,w′i);STEP2:利用正則表達(dá)式/<a[^>]*?href=["']?([^'">]*)['"]?[^>]*?>(.*?)</a>/ig匹配頁(yè)面文件,獲取所有錨文本;若錨文本中包含w′i,則把E∪{(w′j,w′i)}的結(jié)果賦給E;對(duì)于任意二元組(w′j,w′i)∈WT×WT且,執(zhí)行上述兩個(gè)步驟后,生成以WT為結(jié)點(diǎn)集合,E為有向邊集合的有向圖G;對(duì)任意w′j∈WT,計(jì)算其聚集系數(shù)C(w′j),聚集系數(shù)用于衡量不同結(jié)點(diǎn)之間連接的緊密程度;上式中,GΔ(w′j)表示G中包含w′j的閉三點(diǎn)組的數(shù)量,G∧(w′j)為表示G中包含w′j的開(kāi)三點(diǎn)組的數(shù)量;閉三點(diǎn)組指圖中任意兩兩相連的三個(gè)結(jié)點(diǎn),開(kāi)三點(diǎn)組指圖中被兩條邊連接起來(lái)的三個(gè)結(jié)點(diǎn);令w′j在新聞文本T中的拓?fù)涮卣鱰j為C(w′j),即tj=C(w′j);利用w′j在新聞文本T中的上下文特征、位置特征、拓?fù)涮卣?,?gòu)建w′j的三維特征向量(cj,pj,tj)。