一種中文同指事件識別方法及系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明屬于自然語言處理領域,具體涉及一種識別事件間的中文同指事件識別方 法及系統(tǒng)。
【背景技術】
[0002] 事件(Event)是信息表示的一種主要形式,它是一種特定人、物、事在特定時間和 特定地點相互作用的客觀事實(也稱"自然事件"),如人的受傷、死亡事件和食品的添加劑 事件等。一篇文章中經(jīng)常會包含許多事件,這些事件之間存在各種關系。當兩個事件指向 同一個事件本體時,認為這兩個事件具有同指(或共指)關系。例如:
[0003] 例1 :兩國首腦今天在巴黎舉行會談?!p方在會談中討論了中東和平問題。
[0004] 例2 :2007年美國爆發(fā)了金融危機?!@一事件對美國乃至全世界產(chǎn)生了深遠 的影響。
[0005] 例1中觸發(fā)詞"會談"在兩個語句中都指向同一個事件本體,它們具有同指關系。 例2中"這一事件"與"金融危機"都指向了同一事件,它們也互為同指事件。
[0006] 同指事件識別(也稱消解)是信息抽取的一個子任務,用于識別一個文檔中指向 同一個事件本體的事件集合。正確識別同指事件,將更加準確地概括文章大意,有利于篇章 理解、文本摘要、機器翻譯等應用。與實體指代大多數(shù)情況存在于相鄰句子之間有所不同, 同指事件往往跨越句子、跨越段落,甚至跨文本,這是同指事件識別的難點之一。此外,中文 和英文同指事件也有所不同。英文的語法更加嚴謹,詞語多義性相對較少。而中文常常省 略主語,沒有明顯的時態(tài)、單復數(shù)等,導致中文語法較為復雜、隨意。而且,中文詞匯量龐大, 一詞多義性普遍存在,使得中文同指事件識別的研究具有很大困難,識別率偏低。
[0007] 目前,對事件同指問題研究相對較少,絕大多數(shù)面向英文。Ahn在研究英文事件抽 取時提到了事件同指識別問題,依據(jù)實體同指的思想把事件同指問題轉(zhuǎn)化成事件對相似度 計算問題。Adrian則更加具體化事件對的特征屬性,認為事件的結(jié)構(gòu)包含該事件與其他事 件之間的關系狀態(tài),使用結(jié)構(gòu)化特征進行同指事件的研究,并提供了標注規(guī)則以及英文語 料庫。Chen基于英文ACE語料庫建立了特征壓縮的事件對同指識別系統(tǒng)。此外,Chen利用 聚類算法,將英文同指事件聚集生成圖模型。Fatemeh在AQUAINT TimeML語料庫上手工標 注了同指鏈,利用語義類型識別和相似度匹配方法識別英文同指事件。
[0008] 相對于英文事件同指問題,中文事件的同指識別研究更少。針對中文語料庫上的 指代消解問題,胡乃全基于最大熵模型建立中文指代消解系統(tǒng),在ACE05bnews中文語料庫 上有一定提高。張牧宇等使用中心詞匹配約束,對共指消解效果有很大提高。龐寧等針對 突發(fā)事件新聞,使用了多種語義特征進行共指消解,增加了維基百科的語義相關特征,使得 共指消解t旲型有所提尚。
[0009] 目前,在中文同指事件識別領域,多數(shù)方法采用基于分類器的機器學習方法和規(guī) 則方法,這些方法存在以下問題:1)多數(shù)采用機器學習的中文同指事件識別方法還是沿用 英文同指事件識別的方法,語言針對性不夠。和英文不同,中文是一種意合語言,具有語法 較為復雜、表達較為隨意、常常省略主語、沒有明顯的時態(tài)、單復數(shù)等特點。這些特點使得沿 用英文同指事件識別的方法在性能上欠缺;2)機器學習方法假設事件對之間相互獨立,容 易造成分類結(jié)果矛盾,同指事件鏈不一致等問題;3)規(guī)則方法的缺點在于規(guī)則的構(gòu)建成本 高,而且通用性不夠,無法跨領域使用。
[0010] 為此,本發(fā)明首先按照事件對識別思想,將同指事件識別轉(zhuǎn)化成事件對的語義相 似度問題,以具有中文特色的詞語相似度特征、詞語匹配特征,轉(zhuǎn)化組合項特征為核心利用 分類模型來識別同指事件。其次,本發(fā)明利用全局優(yōu)化方法進一步對分類模型識別出的同 指事件鏈進行文檔級的全局推理,消除部分識別錯誤的同指事件,并能根據(jù)同指事件的傳 遞性等推理出分類模型未識別的同指事件。和現(xiàn)有方法相比,本發(fā)明的方法大大提高了同 指事件識別的性能。
[0011] 為更好地理解本發(fā)明,下面首先對相關名詞作相應介紹。
[0012] 實體(Entity):-個語義類別中的對象或?qū)ο蟮募?,如人名、機構(gòu)名和地名等。
[0013] 事件(Event):在真實世界中已經(jīng)/可能/將要發(fā)生的事情,一般包括時間、地點 和人物等角色,如出生、死亡、地震和車禍等事件。
[0014] 論元(Argument):參與事件的實體,每個論元在事件中都有對應的角色。
[0015] 角色(Role):事件的參與者和屬性,一般用論元來填充。如死亡者、死亡時間和事 件地點就是死亡事件的角色。
[0016] 觸發(fā)詞(Trigger):用于識別事件的核心詞(一般為動詞和名詞居多)。如"生于"、 "出生"等就是出生事件觸發(fā)詞。
[0017] 句法樹(Syntax Tree):對句子中的詞語語法功能進行分析就是句法分析。句子 經(jīng)過句法分析后產(chǎn)生的樹形結(jié)構(gòu)為句法樹。
[0018] 同指事件(Co-reference Events):當兩個事件指向同一個事件本體時,這兩個事 件具有同指(或共指)關系。如爆炸事件"天津爆炸發(fā)生于2015年。"和"2015年8月晚 11時30分左右,天津濱海新區(qū)瑞海公司危險品倉庫發(fā)生爆炸。"屬于同指事件。
[0019] 召回率(Recall):系統(tǒng)正確識別的同指事件個數(shù)占所有同指事件個數(shù)的比例。衡 量同指事件識別性能的指標之一。
[0020] 準確率(Pricision):系統(tǒng)正確識別的同指事件個數(shù)占所有識別為同指事件個數(shù) 的比例。衡量同指事件識別性能的指標之一。
[0021] Fl指數(shù)(Fl-Measure):衡量同指事件識別性能的綜合指標之一,準確率(P)和召 回率(R)的加權幾何平均值,SP :
【發(fā)明內(nèi)容】
[0022] 本發(fā)明提供一種中文同指事件識別方法,包括以下步驟:
[0023] S1、對同指標注文本和測試文本中每個包含事件的句子分別調(diào)用分詞工具、實體 識別工具和句法分析工具進行詞語切分、實體識別和句法分析,得到預處理標注文本集合 和預處理測試文本集合;
[0024] S2、分別從預處理標注文本集合和預處理測試文本集合中以文檔為單位抽取事件 類型相同的事件對及其特征信息,得到標注文本特征集合和測試文本特征集合;
[0025] S3、根據(jù)標注文本特征集合中各個事件對的特征,訓練一個同指事件識別模型;再 利用所述同指事件識別模型判別測試文本特征集合中每個特征對應的事件對是否存在同 指關系,得到事件同指第一集合;
[0026] S4、對事件同指第一集合中初步識別的同指事件結(jié)果以文檔為單位進行全局優(yōu) 化,得到事件同指集合。
[0027] 優(yōu)選的,在步驟Sl中,所述同指標注文本和所述測試文本是已經(jīng)標注了事件各類 信息的文本,由各種事件抽取工具或人工生成,且所述同指標注文本是進行同指事件識別 的訓練語料,標注了所有的同指事件關系;所述測試文本是進行同指事件識別的文本。
[0028] 優(yōu)選的,步驟S1還包括:
[0029] S101、分別對同指標注文本和測試文本中的每個事件句調(diào)用分詞工具切分詞語, 得到用空格分隔詞語的分詞標注集合和分詞測試集合;
[0030] S102、分別對分詞標注集合和分詞測試集合中的每個事件句調(diào)用實體識別工具識 別實體并標注實體類型,得到實體識別標注集合和實體識別測試集合,所述實體識別標注 集合和實體識別測試集合中每個實體標注格式為"實體/實體類型";
[0031] S103、分別對實體識別標注集合和實體識別測試集合中的每個事件句調(diào)用句法分 析工具進行句法分析,得到預處理標注文本集合和預處理測試文本集合。
[0032] 優(yōu)選的,步驟S2還包括:
[0033] S201、從預處理測試文本集合中以文檔為單位抽取事件類型相同的事件,每種事 件類型對應的所有事件集合作為一個表項,每個文檔創(chuàng)建一張同類型事件表;遍歷所有的 同類型事件表的每個表項,若所述表項中事件的數(shù)量大于1,則所述表項中的任意2個事件 構(gòu)成1個事件對,加入測試文本事件對集合;
[0034] S202、從預處理標注文本集合中以文檔為單位抽取事件類型相同的事件,每種事 件類型對應的所有事件集合作為一個表項,每個文檔創(chuàng)建一張同類型事件表;遍歷所有的 所述同類型事件表的每個表項,如果所述表項中事件的數(shù)量大于1,則所述表項中的任意2 個事件構(gòu)成1個事件對,加入標注文本事件對集合;
[0035] S203、為標注文本事件對集合和測試文本事件對集合中的每個事件對分別從預處 理標注文本集合和預處理測試文本集合中抽取所述事件對的事件屬性特征,得到標注文本 第一特征集合和測試文本第一特征集合;
[0036] 其中,每個事件對(El,E2)的事件屬性特征集合如下:
[0037] 〈1 = El的觸發(fā)詞>〈2 = El的觸發(fā)詞的詞性>〈3 = El的觸發(fā)詞在句法樹中的層 數(shù)深度>〈4 = El的核心論元的實體類型>〈5 = E2的觸發(fā)詞>〈6 = E2的觸發(fā)詞的詞性>〈7 =E2的觸發(fā)詞在句法樹中的層數(shù)深度>〈8 = E2的核心論元的實體類型〉;
[0038] S204、為標注文本事件對集合和測試文本事件對集合中的每個事件對從預處理標 注文本集合和預處理測試文本集合中抽取所述事件對的事件對特征,分別和標注文本第一 特征集合和測試文本第一特征集合中所述事件對的事件屬性特征合并,添加到標注文本特 征集合和測試文本特征集合;
[0039] 其中,每個事件對(El,E2)的事件對特征集合如下:
[0040] 〈9 =事件El和E2的事件類型(Type)是否相同(0-不相同;1-相同)XlO =事 件El和E2的極性(Polarity)是否相同(0-不相同;1-相同)>〈11 =事件El和E2的時 態(tài)(Tense)是否相同(0-不相同;1-相同)>〈12 =事件El和E2的觸發(fā)詞是否相同(0-不 相同;1_相同)>〈13 =事件El和Ε2觸發(fā)詞是否為同義詞(〇-不是;1-是)>〈14 =事件El 和Ε2相同論元個數(shù)>〈15 =事件El和Ε2不相同論元個數(shù)>〈16 =事件El和Ε2間隔句子 數(shù)>〈17 =事件E1和Ε2的觸發(fā)詞是否匹配(〇-不是;1-是)>〈18 =事件El和Ε2的轉(zhuǎn)化 組合項特征〉;
[0041] S205、為標注文本特征集合中的每個特征根據(jù)所述特征對應的事件對從同指標注 文本中檢索所述事件對是否存在于標注同指事件表中:如果存在,把類別"1"加入所述特 征前;如果不存在,把類別"0"加入所述特征前,最后,把加了所述類別的特征更新到標注 文本特征集合。
[0042] 優(yōu)選的,特征17的設置方法如下:如果兩個事件的觸發(fā)詞滿足以下任意一個條 件,則認為觸發(fā)詞匹配,否則為不匹配:1)兩個觸發(fā)詞