Tense = Past
[0087] E6:Tri =重傷 SenID = 4 Type = Injure Args = {目前 /TIME/Time ;村民/PER/ Victim}Polarity = True Tense = Past
[0088] E7: Tri =闖入 SenID = 9 Type = Transport Args = {猴子/PER/Artifact ;住 處 /LOC/Place}Polarity = True Tense = Past
[0089] E8: Tri =攻擊 SenID = 10 Type = Attack Args = {猴子/PER/Attacker ;老人 /PER/Target}Polarity = True Tense = Past
[0090] E9:Tri =輕傷 SenID = 11 Type = Injure Args = {猴子/PER/Attacker ;老人 /PER/Target}Polarity = True Tense = Past
[0091] ElO: Tri =沖入 SenID = 11 Type = Transport Args = {猴子 /PER/Artifact ; 陳棚村玉米地/LOC/Place} Polarity = True Tense = Past
[0092] 其中,El-ElO 是事件的編號,Tri、SenID、Args、Type、Polarity 和 Tense 分別是 該事件的觸發(fā)詞、句子序號、論元集合、事件類型、極性(True-肯定;False-否定)和時態(tài) 等事件信息;每個論元的格式為:論元/實體類型/事件角色^ Time、Place、Instrument、 Artifact、Attacker、Target、Victim、Agent 和 Person 分別表示角色時間、地點、武器裝 備、運送對象、攻擊者、攻擊目標、犧牲者、驅(qū)趕者和被驅(qū)趕者D Attack、Injure、Arrest和 Transport是事件類型,分別表示攻擊事件、受傷事件、驅(qū)趕事件和移動事件。
[0093] 例1和例2的內(nèi)容構(gòu)成了每個所述測試文本,同指事件識別的目的是從中找出同 指事件。其中,例2的事件信息可以根據(jù)例1的自然文本由事件抽取工具或人工生成。而 所述同指標注文本則除了包含例1的自然文本和例2的事件標注信息外,還包含有標注同 指事件表,如下所示:
[0094] 例 3 :〈E1E2E4>
[0095] <E3E6>
[0096] 表示El和E2, El和E4, E2和E4, E3和E6是同指事件。
[0097] 圖2是本發(fā)明較佳實施例提供的中文同指事件識別方法步驟Sl分解流程圖。如 圖2所示,本發(fā)明較佳實施例提供的中文同指事件識別方法步驟Sl還包括如下步驟。
[0098] S101、分別對同指標注文本和測試文本中的每個事件句調(diào)用分詞工具切分詞語, 得到用空格分隔詞語的分詞標注集合和分詞測試集合。
[0099] 例如:事件句"2012年12月14日早上7點多,10多個猴子在陳棚村玉米地用猴 爪制造了一起傷人案。"經(jīng)過詞語切分后為:
[0100] 例4 :2012年12月14日早上7點,10多個猴子在陳棚村玉米地用猴爪制造了一 起傷人案。
[0101] S102、分別對分詞標注集合和分詞測試集合中的每個事件句調(diào)用實體識別工具識 別實體并標注實體類型,得到實體識別標注集合和實體識別測試集合,所述實體識別標注 集合和實體識別測試集合中每個實體標注格式為"實體/實體類型"。
[0102] 例4經(jīng)過實體識別后,部分詞語合并為一個實體,如下所示:
[0103] 例5 :2012年12月14日早上7點/??ΜΕ,10多個猴子/PER在陳棚村玉米地/LOC 用猴爪/WEA制造了一起傷人案。
[0104] 其中,Time、PER、WEA和LOC分別表示實體類型時間、人或動物、武器裝備和地點。
[0105] S103、分別對實體識別標注集合和實體識別測試集合中的每個事件句調(diào)用句法分 析工具進行句法分析,得到預(yù)處理標注文本集合和預(yù)處理測試文本集合。
[0106] 例5經(jīng)過句法分析后為:
[0107] 例 6:(IP(NP(NT 2012 年 12 月 14 日早上 7 點))(PU,)(NP(NR 10 多個猴子)) (VP (PP (P 在)(NP (NR 陳棚村玉米地)))(PP (P 用)(NP (NN 猴爪)))(VP (VV 制造 )(AS 了) (NP (NP (NN -起))(NP (NN 傷人案)))))(PU。))
[0108] 其中,句法分析是指對句子中的詞語語法功能進行分析。"NT"、"NR"、"P"、"NN"、 "VV"、"PU"、"AS"是句法分析的標簽,分別表示時間詞、專用名詞、介詞、普通名詞、普通動 詞、標點符號、時態(tài)詞;"NP"、"VP"、"PP"和"IP"分別表示名詞性短語、動詞性短語、介詞性 短語和子句。
[0109] 步驟S2 :分別從預(yù)處理標注文本集合和預(yù)處理測試文本集合中以文檔為單位抽 取事件類型相同的事件對及其特征信息,得到標注文本特征集合和測試文本特征集合。
[0110] 圖3是本發(fā)明較佳實施例提供的中文同指事件識別方法步驟S2分解流程圖。如 圖3所示,本發(fā)明較佳實施例提供的中文同指事件識別方法步驟S2還包括以下步驟。
[0111] S201 :從預(yù)處理測試文本集合中以文檔為單位抽取事件類型相同的事件,每種事 件類型對應(yīng)的所有事件集合作為一個表項,每個文檔創(chuàng)建一張同類型事件表;遍歷所有的 同類型事件表的每個表項,若所述表項中事件的數(shù)量大于1,則所述表項中的任意2個事件 構(gòu)成1個事件對,加入測試文本事件對集合。
[0112] 具體地,一個所述同類型事件表中的一個表項假如有η個事件,則可以抽取 ηΧ (η-1)/2個事件對。
[0113] 假如例1和例2組成的文檔是所述預(yù)處理測試文本集合中的一個文檔,則所述文 檔的同類型事件表如下:
[0114] 例 7 :〈E1 E2 E4 E8>
[0115] <E3 E6 E9>
[0116] <E7 E10>
[0117] <E5>
[0118] 每種事件類型作為一個表項,一共有Attack、Injure、Arrest和Transport四種事 件類型,所以有4個表項。例7中的所述同類型事件表可以生成的事件對有6+3+1+0 = 10 對,具體如下:
[0119] 例 8 : (EI,E2) (EI,E4) (EI,E8) (E2,E4) (E2,E8) (E4,E8) (E3,E6) (E3,E9) (E6,E9) (E7, E10)
[0120] 需要說明的是,如果2個事件的事件類型不同,那它們就肯定不是同指事件。所 以,不需要把所有的事件都兩兩配對。
[0121] S202 :從預(yù)處理標注文本集合中以文檔為單位抽取事件類型相同的事件,每種事 件類型對應(yīng)的所有事件集合作為一個表項,每個文檔創(chuàng)建一張同類型事件表;遍歷所有的 所述同類型事件表的每個表項,如果所述表項中事件的數(shù)量大于1,則所述表項中的任意2 個事件構(gòu)成1個事件對,加入標注文本事件對集合。
[0122] 本步驟對所述預(yù)處理標注文本集合的處理方法和S201 -致。
[0123] S203 :為標注文本事件對集合和測試文本事件對集合中的每個事件對分別從預(yù)處 理標注文本集合和預(yù)處理測試文本集合中抽取所述事件對的事件屬性特征,得到標注文本 第一特征集合和測試文本第一特征集合。
[0124] 每個事件對(El,E2)的事件屬性特征集合如下:
[0125] 〈1 = El的觸發(fā)詞>〈2 = El的觸發(fā)詞的詞性>〈3 = El的觸發(fā)詞在句法樹中的層 數(shù)深度>〈4 = El的核心論元的實體類型>〈5 = E2的觸發(fā)詞>〈6 = E2的觸發(fā)詞的詞性>〈7 =E2的觸發(fā)詞在句法樹中的層數(shù)深度>〈8 = E2的核心論元的實體類型〉
[0126] 其中,句法樹是由工具Berkeley Parser生成,這是一個自然語言處理中常用的基 礎(chǔ)工具,用于分析生成一個句子的句法樹。以觸發(fā)詞為起點往上找一條到達該句法樹根結(jié) 點的路徑的長度就是觸發(fā)詞在句法樹中的層數(shù)深度。特征1-8可從事件標注信息、預(yù)處理 標注文本集合和預(yù)處理測試文本集合中得到。除了事件和地點角色外的所有事件角色均為 核心角色,填充核心角色的論元稱為核心論元。
[0127] 例如:例2中的事件El和E2的事件對(El,E2)的事件屬性特征為:
[0128] 例 9 :〈1 =傷人案 >〈2 = NNX3 = 5X4 = PERX4 = WEAX4 = L0CX5 =抓撓 >〈6 =VVX7 = 5X8 = PERX8 = WEA>
[0129] 由于事件El和E2的核心論元分別有3個和2個,所以特征4和8各有3個和2 個。
[0130] S204 :為標注文本事件對集合和測試文本事件對集合中的每個事件對從預(yù)處理標 注文本集合和預(yù)處理測試文本集合中抽取所述事件對的事件對特征,分別和標注文本第一 特征集合和測試文本第一特征集合中所述事件對的事件屬性特征合并,添加到標注文本特 征集合和測試文本特征集合。
[0131] 具體地,每個事件對(El,E2)的事件對特征集合如下:
[0132] 〈9 =事件El和E2的事件類型(Type)是否相同(0-不相同;1-相同)XlO =事 件El和E2的極性(Polarity)是否相同(0-不相同;1-相同)>〈11 =事件El和E2的時 態(tài)(Tense)是否相同(0-不相同;1-相同)>〈12 =事件El和E2的觸發(fā)詞是否相同(0-不 相同;1_相同)>〈13 =事件El和E2觸發(fā)詞是否為同義詞(〇-不是;1-是)>〈14 =事件El 和E2相同論元個數(shù)>〈15 =事件El和E2不相同論元個數(shù)>〈16 =事件El和E2間隔句子 數(shù)>〈17 =事件E1和E2的觸發(fā)詞是否匹配(〇-不是;1-是)>〈18 =事件El和E2的轉(zhuǎn)化 組合項特征〉
[0133] 其中,事件類型(Type)、極性(Polarity)、時態(tài)(Tense)、論元信息可從標注好的 事件信息中獲取。兩個詞是否是同義詞根據(jù)同義詞詞典《同義詞詞林》檢索得到。
[0134] 特征17的設(shè)置方法如下:如果兩個事件的觸發(fā)詞滿足以下任意一個條件,則認為 觸發(fā)詞匹配,否則為不匹配:1)兩個觸發(fā)詞相同;2)觸發(fā)詞語義相似度Θ大于等于第一閾 值;3)兩個觸發(fā)詞均為二字詞并且具有相同前綴(首字)或后綴(尾字)。其中,兩個觸發(fā) 詞tl和t2的語義