相同;2)觸發(fā)詞語義相似度Θ大于 等于第一閾值;3)兩個觸發(fā)詞均為二字詞并且具有相同前綴(首字)或后綴(尾字)。
[0043] 其中,兩個觸發(fā)詞tl和t2的語義相似度Θ計算方法如下:
d是在 Hownet義原層次體系中tl的義原到t2的義原的路徑長度,α是一個可調(diào)節(jié)的參數(shù), Hownet是一個漢語詞匯語義的本體,
[0044] 另外,假設(shè)兩個事件El和Ε2的論元相同個數(shù)記為SA,E1中包含但Ε2不包含的論 元數(shù)記為NSA1,E2包含但El不包含的論元數(shù)記為NSA2,事件對(E1,E2)的轉(zhuǎn)化組合項(xiàng)特 征設(shè)置方法如下:
[0045] 如果SA>0則把特征19置為1,否則轉(zhuǎn)2);
[0046] 如果NSADO并且NSA2>0則把特征19置為0,否則轉(zhuǎn)3);
[0047] 如果SA>NSA1或者SA>NSA2則把特征19置為1,否則置為0。
[0048] 優(yōu)選的,步驟S3還包括:
[0049] S301、把標(biāo)注文本特征集合中的特征作為輸入,調(diào)用分類工具訓(xùn)練得到一個同指 事件識別模型,其中,所述同指事件識別模型包括標(biāo)注文本(訓(xùn)練集)特征集合、訓(xùn)練得到 的參數(shù)和分類工具;
[0050] S302、把測試文本特征集合中每個事件對的特征作為輸入,調(diào)用同指事件識別模 型識別每個所述事件對是否為同指事件,得到事件同指第一集合。
[0051] 優(yōu)選的,優(yōu)化過程為:根據(jù)事件同指第一集合構(gòu)建全局優(yōu)化文檔集合,所述全局優(yōu) 化文檔集合中的每個文檔包括一個目標(biāo)函數(shù)和4種約束條件,所述4種約束條件為傳遞性 約束、觸發(fā)詞詞距離約束、觸發(fā)詞句距離約束和角色約束;并調(diào)用整形線性規(guī)劃工具,對所 述全局優(yōu)化文檔集合中的每個文檔求解,得到最終的事件同指集合。
[0052] 優(yōu)選的,步驟S4還包括:
[0053] S401、以文檔為單位,基于分類概率最大化的思想為測試文本中的每個文檔創(chuàng)建 目標(biāo)函數(shù),加入所述文檔對應(yīng)的全局優(yōu)化文檔(初始為空),所有的全局優(yōu)化文檔構(gòu)成全局 優(yōu)化文檔集合;
[0054] S402、根據(jù)同指事件的傳遞性原理,如果Ei和Ej是同指事件,并且Ej和Ek是同 指事件,則Ei和Ek是同指事件,為全局優(yōu)化文檔集合中的每個文檔加入傳遞性約束條件, 所述傳遞性約束條件為1 ;
[0055] S403、如果事件同指第一集合中任意一個事件對(Ei,Ej)的觸發(fā)詞詞距離小于第 二閾值,并且它們的語義相似度Θ大于等于第三閾值,為全局優(yōu)化文檔集合中的事件對 (Ei,Ej)所在的文檔加入觸發(fā)詞詞距離約束條件為 :Χ<1ι]>= 1,其中,觸發(fā)詞詞距離是指分 詞后文檔中的兩個觸發(fā)詞之間詞組的數(shù)量;
[0056] S404、如果事件同指第一集合中任意一個事件對(Ei, Ej)在文檔中對應(yīng)的事件句 是相鄰句或間隔1句,并且它們對應(yīng)的事件類型在所述文檔中出現(xiàn)次數(shù)最多,為全局優(yōu)化 文檔集合中的事件對(Ei, Ej)所在的文檔加入觸發(fā)詞句距離約束條件為= 1,其 中,相鄰句是指在文檔中首尾相鄰的兩個句子;間隔1句是指兩個句子中間有一個句子間 隔;
[0057] S405、如果事件同指第一集合中任意一個事件對(Ei, Ej)具有至少一個相同的論 元,并且所述論元在不同事件中對應(yīng)的角色都在預(yù)先設(shè)定的角色約束集合中,則為全局優(yōu) 化文檔集合中的事件對(Ei, Ej)所在的文檔加入角色約束條件為1,其中,所述 角色約束集合為根據(jù)同指標(biāo)注文本統(tǒng)計得到的角色集合;
[0058] S406、把全局優(yōu)化文檔集合中的每個全局優(yōu)化文檔作為輸入,調(diào)用整形線性規(guī)劃 工具,對每個所述全局優(yōu)化文檔求解,得到最終的事件同指集合。其中,所述事件同指集合 的每一項(xiàng)表示一個事件對的結(jié)果,其格式為:χ<?= 〇或1,其中值為1表示事件對(Ei, Ej) 是同指事件,值為〇表不不是同指事件。
[0059] 優(yōu)選的,所述目標(biāo)函數(shù)如下:
[0061] 其中,D表示一個文檔中的所有事件對集合,每個文檔都有一個目標(biāo)函數(shù);Ρ<1ιΡ表 示事件對(Ei,Ej)被分類為同指事件的概率,來自事件同指第一集合中的置信度C,如果所 述事件同指第一集合中事件對(Ei,Ej)被分類為同指事件(同指結(jié)果R^= I) =C〈i, j> ;否則,Pd= 分別表示在所述事件同指第一集合中事件對 (Ei,Ej)的同指結(jié)果和置信度屬性,在Χ<1ι]>是一個二元變量(0或1),是目標(biāo)函數(shù)最終的輸 出結(jié)果,χ<?為1表示事件對(Ei, Ej)被推理為同指事件,為0表示事件對(Ei, Ej)被推 理為非同指事件。
[0062] 本發(fā)明還提供一種中文同指事件識別系統(tǒng),包括:文本預(yù)處理模塊、同指特征抽取 模塊、同指事件初步識別模塊及同指事件全局優(yōu)化模塊,所述文本預(yù)處理模塊連接同指特 征抽取模塊,所述同指特征抽取模塊連接同指事件初步識別模塊,所述同指事件初步識別 模塊連接同指事件全局優(yōu)化模塊,所述文本預(yù)處理模塊,用于對同指標(biāo)注文本和測試文本 中每個事件句分別調(diào)用分詞工具、實(shí)體識別工具和句法分析工具進(jìn)行詞語切分、實(shí)體識別 和句法分析,得到預(yù)處理標(biāo)注文本集合和預(yù)處理測試文本集合;所述同指特征抽取模塊,用 于分別從預(yù)處理標(biāo)注文本集合和預(yù)處理測試文本集合中以文檔為單位抽取事件類型相同 的事件對及其特征信息,得到標(biāo)注文本特征集合和測試文本特征集合;所述同指事件初步 識別模塊,用于根據(jù)標(biāo)注文本特征集合中各個事件對的特征,訓(xùn)練一個同指事件識別模型; 再利用所述同指事件識別模型判別測試文本特征集合中每個特征對應(yīng)的事件對是否存在 同指關(guān)系,得到事件同指第一集合;所述同指事件全局優(yōu)化模塊,用于對事件同指第一集合 中初步識別的同指事件結(jié)果以文檔為單位進(jìn)行全局優(yōu)化,得到事件同指集合。
[0063] 根據(jù)本發(fā)明提供的中文同指事件識別方法及系統(tǒng),所述方法對同指標(biāo)注文本和測 試文本中每個包含事件的句子分別調(diào)用分詞工具、實(shí)體識別工具和句法分析工具進(jìn)行詞語 切分、實(shí)體識別和句法分析,得到預(yù)處理標(biāo)注文本集合和預(yù)處理測試文本集合,并分別從預(yù) 處理標(biāo)注文本集合和預(yù)處理測試文本集合中以文檔為單位抽取事件類型相同的事件對及 其特征信息,得到標(biāo)注文本特征集合和測試文本特征集合。根據(jù)標(biāo)注文本特征集合中各個 事件對的特征,訓(xùn)練一個同指事件識別模型;再利用所述同指事件識別模型判別測試文本 特征集合中每個特征對應(yīng)的事件對是否存在同指關(guān)系,得到事件同指第一集合。對事件同 指第一集合中初步識別的同指事件結(jié)果以文檔為單位進(jìn)行全局優(yōu)化,得到事件同指集合。 如此,提高了同指事件識別的性能。
【附圖說明】
[0064] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0065] 圖1是本發(fā)明較佳實(shí)施例提供的中文同指事件識別方法流程圖;
[0066] 圖2是本發(fā)明較佳實(shí)施例提供的中文同指事件識別方法步驟Sl分解流程圖;
[0067] 圖3是本發(fā)明較佳實(shí)施例提供的中文同指事件識別方法步驟S2分解流程圖;
[0068] 圖4是本發(fā)明較佳實(shí)施例提供的中文同指事件識別方法步驟S3分解流程圖;
[0069] 圖5是本發(fā)明較佳實(shí)施例提供的中文同指事件識別方法步驟S4分解流程圖;
[0070] 圖6是本發(fā)明較佳實(shí)施例提供的中文同指事件識別系統(tǒng)示意圖;
[0071] 圖7是本發(fā)明較佳實(shí)施例提供的中文同指事件識別系統(tǒng)文本預(yù)處理模塊內(nèi)部結(jié) 構(gòu)示意圖;
[0072] 圖8是本發(fā)明較佳實(shí)施例提供的中文同指事件識別系統(tǒng)同指特征抽取模塊內(nèi)部 結(jié)構(gòu)示意圖;
[0073] 圖9是本發(fā)明較佳實(shí)施例提供的中文同指事件識別系統(tǒng)同指事件初步識別模塊 內(nèi)部結(jié)構(gòu)示意圖;
[0074] 圖10是本發(fā)明較佳實(shí)施例提供的中文同指事件識別系統(tǒng)同指事件全局優(yōu)化模塊 內(nèi)部結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0075] 下文中將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。需要說明的是,在不沖突的 情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0076] 圖1是本發(fā)明較佳實(shí)施例提供的中文同指事件識別方法流程圖。如圖1所示,本 發(fā)明較佳實(shí)施例提供的中文同指事件識別方法包括步驟Sl~S4。
[0077] 步驟Sl :對同指標(biāo)注文本和測試文本中每個包含事件的句子分別調(diào)用分詞工具、 實(shí)體識別工具和句法分析工具進(jìn)行詞語切分、實(shí)體識別和句法分析,得到預(yù)處理標(biāo)注文本 集合和預(yù)處理測試文本集合。
[0078] 具體而言,在本步驟中,所述同指標(biāo)注文本和所述測試文本是已經(jīng)標(biāo)注了事件各 類信息的文本,由各種事件抽取工具或人工生成,且所述同指標(biāo)注文本是進(jìn)行同指事件識 別的訓(xùn)練語料,標(biāo)注了所有的同指事件關(guān)系;所述測試文本是進(jìn)行同指事件識別的文本。
[0079] 以下是一個自然文本的例子:
[0080] 例I :2012年12月14日早上7點(diǎn),10多個猴子在陳棚村玉米地用猴爪制造了一 起傷人案。4名村民遭猴爪抓撓而受傷。隨后,制造傷人案的猴子被民警驅(qū)趕。截至目前, 2名村民重傷?!@群猴子曾闖入一名獨(dú)居老人的住處。猴子在攻擊了老人時,遭遇了老 人反抗。在老人輕傷后,猴子又沖入了陳棚村玉米地。
[0081] 事件標(biāo)注信息可以由事件抽取工具或人工生成,如例2所示:
[0082] 例 2 :E1: Tri =傷人案 SenID = I Type = Attack Args = {2012 年 12 月 14 日早 上 7 點(diǎn) /TIME/Time ;10 多個猴子 /PER/Attacker ;猴爪 /WEA/Instrument ;陳棚村玉米地 / LOC/Place}Polarity = True Tense = Past
[0083] E2:Tri =抓燒 SenID = 2 Type = Attack Args = {村民 /PER/Target ;猴爪 / WEA/Instrument}Polarity = True Tense = Past
[0084] E3:Tri =受傷 SenID = 2 Type = Injure Args = {村民 /PER/Victim ;猴爪 / WEA/Instrument}Polarity = True Tense = Past
[0085] E4:Tri =傷人案 SenID = 3 Type = Attack Args = {猴子 /PER/Attacker} Polarity = True Tense = Past
[0086] E5:Tri =驅(qū)趕 SenID = 3 Type = Arrest Args = {民警/PER/Agent ;猴子/PER/ Person}Polarity = True