一種中文事件觸發(fā)詞的抽取系統(tǒng)及方法
【專利摘要】本發(fā)明提供一種中文事件觸發(fā)詞的抽取系統(tǒng)及方法。所述系統(tǒng)包括句法和依存分析模塊、核心和輔助角色定義模塊、訓(xùn)練語料特征抽取模塊、候選觸發(fā)詞抽取模塊、基本特征抽取模塊、訓(xùn)練集模板抽取模塊、候選模板抽取模塊、實(shí)體特征抽取模塊及觸發(fā)詞識別模塊。本發(fā)明根據(jù)角色語義是事件語義的表示形式之一,提供了利用核心角色和輔助角色來表示角色語義的方法,并用于中文事件觸發(fā)詞的抽取。與現(xiàn)有最好的中文事件抽取方法和系統(tǒng)相比,本發(fā)明提供的方法對于中文事件觸發(fā)詞的抽取性能有了明顯提升。
【專利說明】-種中文事件觸發(fā)詞的抽取系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于自然語言處理領(lǐng)域,特別是涉及一種抽取某個事件觸發(fā)詞的抽取系統(tǒng) 及方法。
【背景技術(shù)】
[0002] 事件巧vent)是信息表示的一種主要形式,它是一種特定人、物、事在特定時間和 特定地點(diǎn)相互作用的客觀事實(shí)(也稱"自然事件"),如人的受傷、死亡事件和食品的添加劑 事件等。作為信息抽取的一個子任務(wù),事件抽取是信息抽取的研究熱點(diǎn),它的研究內(nèi)容是自 動地從自然文本中發(fā)現(xiàn)特定類型的事件及其事件元素。事件作為理解自然語言的基本要素 之一,是自動文摘、機(jī)器翻譯、問答系統(tǒng)和決策系統(tǒng)等主要自然語言理解應(yīng)用的基礎(chǔ)。如從 互聯(lián)網(wǎng)抽取恐怖襲擊有關(guān)的事件(包括攻擊事件、死亡事件等),可W用于分析各個國家、 地區(qū)的安全狀況;從海量文本中抽取藥品副作用事件,可W為藥品使用、監(jiān)管和研發(fā)服務(wù)。 所W,對事件抽取方法的研究,特別是對中文事件抽取的研究有著重要的應(yīng)用價(jià)值。
[0003] 由于事件抽取嚴(yán)重依賴于實(shí)體識別、句法和依存關(guān)系分析等前續(xù)環(huán)節(jié),而且事件 在文本中的表達(dá)方式更多依賴于語義關(guān)系而非語法關(guān)系,導(dǎo)致了事件抽取性能在各個信息 抽取任務(wù)中最低。目前,事件抽取的2個子任務(wù)觸發(fā)詞抽取和論元抽取的Fl值一般分別在 50 %?60 %和40 %?50 %左右,性能較低。由于事件抽取的核也是抽取其中的觸發(fā)詞并判 斷其事件類型,因此目前業(yè)界討論的重點(diǎn)是事件觸發(fā)詞抽取。
[0004] 在事件中,觸發(fā)詞和角色對應(yīng)的實(shí)體,W及它們之間的內(nèi)在關(guān)系是事件抽取的主 要依據(jù)。所W,如何捕獲觸發(fā)詞、實(shí)體和兩者之間關(guān)系的語義信息將很重要。但是,由于語義 信息難于獲取,在英文中絕大多數(shù)句子級別的事件抽取系統(tǒng)主要還是沿用了語義角色標(biāo)注 的方法,充分利用句法信息來識別事件實(shí)例及其角色。然而,事件的角色不同于語義角色標(biāo) 注的角色。語義角色標(biāo)注中的角色表達(dá)了和謂詞之間在語法層面上的關(guān)系,只有籠統(tǒng)的幾 種(如;ArgO-ArgS, ArgM)。而事件中的角色和觸發(fā)詞之間的關(guān)系則基于語義層面。而且, 由于表述的多樣性,它們之間并不一定存在明確的語法關(guān)系。另外,事件的角色類別較多, 每個角色都體現(xiàn)了它在不同事件中的語義(如攻擊事件中的角色攻擊者和攻擊對象)。由 于英文句子相對而言具有比較嚴(yán)謹(jǐn)?shù)木浞ńY(jié)構(gòu),多數(shù)事件的論元和觸發(fā)詞之間也有相對明 確的句法結(jié)構(gòu),所W句法信息在英文事件抽取中被證明有效。但是,中文是一種意合語言, 其句子結(jié)構(gòu)較為松散,句子成分搭配也較為靈活。而且,作為一種話題驅(qū)動的語言,中文為 了表述的連貫性和簡潔性,部分句法成分缺省是一種常態(tài)。該些中文固有特點(diǎn)造成了句法 特征在中文事件抽取中的效果不像在英文中那么明顯。所W,如何針對中文的行文特點(diǎn),從 事件中獲取更為有效、適合中文事件抽取的語義信息,特別是角色語義信息是需要解決的 一個關(guān)鍵問題。
[0005] 當(dāng)前,絕大多數(shù)的中文觸發(fā)詞抽取方法沿用了語義角色標(biāo)注方法,利用句法信息 來識別事件實(shí)例及其角色。由于中文是一種意合語言,其句子結(jié)構(gòu)較為松散,句子成分搭配 也較為靈活。而且,作為一種話題驅(qū)動的語言,中文為了表述的連貫性和簡潔性,部分句法 成分缺省是一種常態(tài)。該些中文固有特點(diǎn)造成了句法信息在中文事件抽取中的效果不像在 英文中那么明顯,相對性能較差。
[0006] 針對W上問題,本發(fā)明提出面向中文固有特點(diǎn)的中文事件觸發(fā)詞抽取系統(tǒng)和方 法,根據(jù)角色語義是事件語義的表示形式之一,利用核也角色和輔助角色來表示論元語義, 并利用機(jī)器學(xué)習(xí)的方法來進(jìn)行中文事件觸發(fā)詞抽取。本發(fā)明的方法和系統(tǒng),與現(xiàn)有最好的 中文事件抽取方法和系統(tǒng)相比,抽取性能得到了明顯提升。
[0007] 為更好地理解本發(fā)明,下面對一些專用名詞作出介紹。
[0008] 實(shí)體巧ntity):-個語義類別中的對象或?qū)ο蟮募?,如人名、交通工具和地?等。
[0009] 事件巧vent);在真實(shí)世界中已經(jīng)/可能/將要發(fā)生的事情,一般包括時間、地點(diǎn) 和人物等角色,如出生、死亡、地震和車禍等事件。
[0010] 角色(Role);事件的參與者和屬性,一般用實(shí)體來填充。如死亡者、死亡時間和事 件地點(diǎn)就是死亡事件的角色。
[0011] 觸發(fā)詞(Trigger);用于識別事件的核也詞(一般為動詞和名詞居多)。如"生于"、 "出生"等就是出生事件觸發(fā)詞。
[0012] 依存關(guān)系值巧endency Tree);依存句法是由法國語言學(xué)家L Tesniere提出,通 過分析語言各成分之間的依存關(guān)系掲示其句法結(jié)構(gòu),主張句子中謂語動詞是支配其它成分 的中也成分,而它本身卻不受其他任何成分的支配,所有受支配成分都W某種依存關(guān)系從 屬于支配者。依存關(guān)系由支配成分(Government)、受支配成分值巧endent)和它們之間的 語法關(guān)系巧elation)組成的H元組,如"nsubj (攻擊,機(jī)器人軍隊(duì))",表示支配成分"機(jī) 器人軍隊(duì)"是受支配成分"攻擊"的nsub j (形式主語)。
[0013] 依存路徑值巧endency化th);在依存樹上任意2個結(jié)點(diǎn)之間不包含結(jié)點(diǎn)、只包含 邊(依存關(guān)系)的路徑。
[0014] Pro地ank ;-個W動詞詞典為標(biāo)注基礎(chǔ),W動詞的論元角色為標(biāo)注對象,集語義詞 典和標(biāo)注語料庫于一身的論元角色語義知識庫。
[0015] 知網(wǎng)化owNet);-個由董振東等建立的,W漢語和英語的詞語所代表的概念為描 述對象,W掲示概念與概念之間W及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識 庫。
[0016] 召回率巧ecall):系統(tǒng)正確抽取的事件個數(shù)占所有正確事件的比例。衡量事件抽 取性能的指標(biāo)之一。
[0017] 準(zhǔn)確率化icision);系統(tǒng)正確抽取的事件個數(shù)占所有抽取出的事件的比例。衡 量事件抽取性能的指標(biāo)之一。
[001引 Fl指數(shù)化-Measure);衡量事件抽取性能的綜合指標(biāo)之一,準(zhǔn)確率(巧和召回率 (R)的加權(quán)幾何平均值,即; 0
【發(fā)明內(nèi)容】
[0019] 本發(fā)明提供一種中文事件觸發(fā)詞的抽取系統(tǒng),包括句法和依存分析模塊、核也和 輔助角色定義模塊、訓(xùn)練語料特征抽取模塊、候選觸發(fā)詞抽取模塊、基本特征抽取模塊、訓(xùn) 練集模板抽取模塊、候選模板抽取模塊、實(shí)體特征抽取模塊、觸發(fā)詞識別模塊,所述句法和 依存分析模塊連接核也和輔助角色定義模塊,所述核也和輔助角色定義模塊連接訓(xùn)練語料 特征抽取模塊,所述訓(xùn)練語料特征抽取模塊連接候選觸發(fā)詞抽取模塊,所述候選觸發(fā)詞抽 取模塊連接基本特征抽取模塊,所述基本特征抽取模塊連接訓(xùn)練集模板抽取模塊,所述訓(xùn) 練集模板抽取模塊連接候選模板抽取模塊,所述候選模板抽取模塊連接實(shí)體特征抽取模 塊,所述實(shí)體特征抽取模塊連接觸發(fā)詞識別模塊。所述分句單元連接實(shí)體識別單元,所述實(shí) 體識別單元連接句法分析單元,所述句法分析單元連接依存分析單元。所述訓(xùn)練語料特征 抽取模塊,包括訓(xùn)練語料觸發(fā)詞抽取單元、訓(xùn)練語料句法和依存分析單元、訓(xùn)練語料特征抽 取單元,所述訓(xùn)練語料觸發(fā)詞抽取單元連接訓(xùn)練語料句法和依存分析單元,所述訓(xùn)練語料 句法和依存分析單元連接訓(xùn)練語料特征抽取單元。所述候選觸發(fā)詞抽取模塊,包括候選觸 發(fā)詞選擇單元及相似候選觸發(fā)詞選擇單元,所述候選觸發(fā)詞選擇單元連接相似候選觸發(fā)詞 選擇單元。所述訓(xùn)練集模板抽取模塊,包括核也實(shí)體抽取單元、核也模板抽取單元、輔助實(shí) 體抽取單元及輔助模板抽取單元,所述核也實(shí)體抽取單元連接核也模板抽取單元,所述核 也模板抽取單元連接輔助實(shí)體抽取單元,所述輔助實(shí)體抽取單元連接輔助模板抽取單元。 所述候選模板抽取模塊,包括事件類型初判單元、實(shí)體類型生成單元、候選實(shí)體選擇單元及 候選模板抽取單元,所述事件類型初判單元連接實(shí)體類型生成單元,所述實(shí)體類型生成單 元連接候選實(shí)體選擇單元,所述候選實(shí)體選擇單元連接候選模板抽取單元。所述實(shí)體特征 抽取模塊,包括核也模板相似度計(jì)算單元、輔助模板相似度計(jì)算單元、核也實(shí)體特征抽取單 元及輔助實(shí)體特征抽取單元,所述核也模板相似度計(jì)算單元連接輔助模板相似度計(jì)算單 元,所述輔助模板相似度計(jì)算單元連接核也實(shí)體特征抽取單元,所述核也實(shí)體特征抽取單 元連接輔助實(shí)體特征抽取單元。所述觸發(fā)詞識別模塊,包括觸發(fā)詞抽取訓(xùn)練單元及觸發(fā)詞 抽取單元,所述觸發(fā)詞抽取訓(xùn)練單元連接觸發(fā)詞抽取單元。
[0020] 本發(fā)明還提供一種中文事件觸發(fā)詞的抽取方法,包括W下步驟:
[0021] S1、對原始文本每個文檔中的句子分別進(jìn)行詞語切分,實(shí)體識別、句法分析和依存 關(guān)系分析,得到依存和句法文檔集合;
[0022] S2、根據(jù)需要抽取事件的定義,人工定義每類事件的核也角色和輔助角色,得到核 也輔助角色集合;
[0023] S3、根據(jù)訓(xùn)練語料標(biāo)注的事件信息,抽取所有的事件實(shí)例及其特征,得到訓(xùn)練集觸 發(fā)詞集合和訓(xùn)練集特征集合;
[0024] S4、根據(jù)訓(xùn)練集觸發(fā)詞集合中標(biāo)注的觸發(fā)詞,從依存和句法文檔集合中抽取候選 觸發(fā)詞,構(gòu)成候選觸發(fā)詞集合;
[0025] S5、對候選觸發(fā)詞集合中的每個候選觸發(fā)詞,從依存和句法文檔集合中得到基本 特征集合;
[0026] S6、對訓(xùn)練集觸發(fā)詞集合中每個觸發(fā)詞,根據(jù)所述觸發(fā)詞的事件類型,分別獲取核 也或輔助實(shí)體及其各自對應(yīng)的實(shí)體類型,和所述觸發(fā)詞、所述觸發(fā)詞事件類型、所述觸發(fā)詞 和所述核也或輔助實(shí)體間的依存路徑構(gòu)成核也或輔助模板五元組,得到訓(xùn)練集核也模板集 合和訓(xùn)練集輔助模板集合;
[0027] S7、對基本特征集合中的每個候選觸發(fā)詞,判斷所述候選觸發(fā)詞的初步事件類型; 再根據(jù)所述初步事件類型抽取所述初步事件類型的核也和輔助角色對應(yīng)的所有核也和輔 助實(shí)體及其實(shí)體類型,和所述候選觸發(fā)詞、所述觸發(fā)詞事件類型、所述候選觸發(fā)詞與所述核 也和輔助實(shí)體間的依存路徑,分別構(gòu)成核也和輔助論元模板五元組,得到候選核也模板集 合和候選輔助模板集合;
[0028] S8、對基本特征集合中的每個候選觸發(fā)詞,分別從候選核也模板集合和候選輔助 模板集合中為所述觸發(fā)詞的初步事件類型對應(yīng)的核也角色和輔助角色選擇核也實(shí)體和輔 助實(shí)體,把所述核也實(shí)體和輔助實(shí)體及其實(shí)體類型作為新特征加入基本特征集合,得到完 整特征集合;
[0029] S9、根據(jù)訓(xùn)練集特征集合中的特征,訓(xùn)練一個最大賭事件觸發(fā)詞抽取模型;再利用 所述最大賭事件觸發(fā)詞抽取模型對的每個候選觸發(fā)詞根據(jù)完整特征集合進(jìn)行識別,得到識 別觸發(fā)詞集合。
[0030] 優(yōu)選的,步驟Sl還包括W下步驟:
[0031] S101、對原始文本每個文檔中的句子進(jìn)行分句,并對每個分句后句子調(diào)用分詞工 具切分詞語,得到用空格分隔詞語的第一文檔集合;
[0032] S102、調(diào)用實(shí)體識別工具從第一文檔集合的每個文檔中識別實(shí)體并進(jìn)行標(biāo)注,得 到第二文檔集合;
[0033] S103、對第二文檔集合中每個文檔調(diào)用句法分析工具進(jìn)行句法分析,得到第H文 檔集合;
[0034] S104、對第H文檔集合中每個文檔調(diào)用依存關(guān)系分析工具進(jìn)行依存分析,得到依 存和句法文檔集合。
[0035] 優(yōu)選的,步驟S3還包括W下步驟:
[0036] S301、從訓(xùn)練語料中抽取標(biāo)注的事件觸發(fā)詞,得到訓(xùn)練集觸發(fā)詞集合;
[0037] S302、對訓(xùn)練語料中包含事件觸發(fā)詞的每個句子,調(diào)用Sl對所述句子進(jìn)行詞語切 分,句法分析和依存關(guān)系分析,得到依存和句法訓(xùn)練集合;
[0038] S303、根據(jù)預(yù)先選擇的觸發(fā)詞特征,從依存和句法訓(xùn)練集合中抽取訓(xùn)練集觸發(fā)詞 集合中每個觸發(fā)詞的特征,構(gòu)成訓(xùn)練集特征集合。
[0039] 優(yōu)選的,步驟S4還包括W下步驟:
[0040] S401、從依存和句法文檔集合中選擇詞性標(biāo)注為名詞或動詞且在訓(xùn)練集觸發(fā)詞集 合中出現(xiàn)的詞作為候選觸發(fā)詞,加入候選觸發(fā)詞第一集合;
[0041] S402、對依存和句法文檔集合中每個詞性標(biāo)注為名詞或動詞且與訓(xùn)練集觸發(fā)詞集 合中的任意一個觸發(fā)詞具有至少一個相同漢字的詞,計(jì)算所述詞和所述訓(xùn)練集觸發(fā)詞集合 中的任意一個觸發(fā)詞的語義相似度的最大值;如果所述語義相似度的最大值等于1,則把 所述詞加入候選觸發(fā)詞第一集合,得到候選觸發(fā)詞集合。
[0042] 優(yōu)選的,步驟S5的具體過程為;根據(jù)預(yù)先選擇的觸發(fā)詞特征,從依存和句法集合 中抽取候選觸發(fā)詞集合中每個候選觸發(fā)詞的基本特征,構(gòu)成基本特征集合。
[0043] 優(yōu)選的,步驟S6還包括W下步驟:
[0044] S601、對訓(xùn)練集觸發(fā)詞集合中每個觸發(fā)詞,根據(jù)所述觸發(fā)詞在訓(xùn)練語料中標(biāo)注的 事件類型獲取所述事件類型的所有核也角色對應(yīng)的核也實(shí)體及其實(shí)體類型;每個所述核也 實(shí)體及其實(shí)體類型和所述觸發(fā)詞及其事件類型構(gòu)成一個四元組,所有的四元組構(gòu)成了核也 實(shí)體觸發(fā)詞集合;
[0045] S602、對核也實(shí)體觸發(fā)詞集合中的每個四元組,從依存和句法訓(xùn)練集合中得到所 述四元組中的核也實(shí)體和觸發(fā)詞之間的依存路徑,構(gòu)成核也模板五元組,得到訓(xùn)練集核也 模板集合;
[0046] S603、對訓(xùn)練集觸發(fā)詞集合中每個觸發(fā)詞,根據(jù)所述觸發(fā)詞在訓(xùn)練語料中標(biāo)注的 事件類型獲取所述事件類型的所有輔助角色對應(yīng)的輔助實(shí)體及其實(shí)體類型;每個所述輔助 實(shí)體及其實(shí)體類型和所述觸發(fā)詞及其事件類型構(gòu)成一個四元組,所有的四元組構(gòu)成了輔助 實(shí)體觸發(fā)詞集合;
[0047] S604、對輔助實(shí)體觸發(fā)詞集合中的每個四元組,從依存和句法訓(xùn)練集合中得到所 述四元組中的輔助實(shí)體和觸發(fā)詞之間的依存路徑,構(gòu)成輔助模板五元組,得到訓(xùn)練集輔助 模板集合。
[004引優(yōu)選的,在步驟S7中,對基本特征集合中的每個候選觸發(fā)詞化,執(zhí)行W下步驟:
[0049] S701、根據(jù)觸發(fā)詞集合中的觸發(fā)詞和語義相似度,初步判斷所述候選觸發(fā)詞tri的 初步事件類型tti ;
[0050] S702、從所述核也輔助角色集合中分別獲取所述事件類型tti的所有核也角色和 輔助角色;把所述核也角色對應(yīng)的所有核也實(shí)體類型加入候選核也實(shí)體類型集合;把所述 輔助角色對應(yīng)的所有輔助實(shí)體類型加入候選輔助實(shí)體類型集合;
[0051] S703、從依存和句法集合中抽取和所述候選觸發(fā)詞tr;在同一個句子的所有實(shí)體, 得到候選實(shí)體第一集合;從所述候選實(shí)體第一集合中過濾掉實(shí)體類型不在候選核也實(shí)體類 型集合中的實(shí)體,得到候選核也實(shí)體集合;從所述候選實(shí)體第一集合中過濾掉實(shí)體類型不 在候選輔助實(shí)體類型集合中的實(shí)體,得到候選輔助實(shí)體集合;
[0052] S704、候選核也實(shí)體集合中的每個核也實(shí)體日1及其實(shí)體類型eti和所述觸發(fā)詞tri 及其初步事件類型tti、所述核也實(shí)體Gi和候選觸發(fā)詞tr;的依存路徑Pi,構(gòu)成核也模板五 元組,得到候選觸發(fā)詞tri的候選核也模板集合;候選輔助實(shí)體集合中的每個輔助實(shí)體曰1及 其實(shí)體類型eti和所述觸發(fā)詞tri及其事件類型tti、所述輔助實(shí)體Gi和候選觸發(fā)詞tri之 間的依存路徑Pi,構(gòu)成輔助模板五元組,得到候選觸發(fā)詞tri的候選輔助模板集合。
[0053] 優(yōu)選的,在步驟S8中,對基本特征集合中的每個候選觸發(fā)詞付1,執(zhí)行W下步驟:
[0054] S801、計(jì)算候選觸發(fā)詞付1的候選核也模板集合中每個核也模板五元組CandPi 和訓(xùn)練集核也模板集合中事件類型為tti,核也實(shí)體類型為eti的每個核也模板五元組 化tterrij的模板相似度SimP (CandP。Patterrij)的最大值MCPi ;把所述最大值MCPi加入核 也模板五元組CandPi,得到帶相似度核也模板六元組,加入帶相似度候選核也模板集合。
[00巧]S802、計(jì)算候選觸發(fā)詞tr;的候選輔助模板集合中每個輔助模板五元組CandPi 和訓(xùn)練集輔助模板集合中事件類型為tti,輔助實(shí)體類型為eti的每個輔助模板五元組 化tterrij的模板相似度SimP (CandP。Patterrij)的最大值MCPi ;把所述最大值MCPi加入輔 助模板五元組CandPi,得到帶相似度輔助模板六元組,加入帶相似度候選輔助模板集合。 [0056] S803、從核也輔助角色集合中分別獲取所述事件類型tti的所有核也角色;對每個 核也角色,根據(jù)所述核也角色對應(yīng)的核也實(shí)體類型集合選擇一個核也實(shí)體類型屬于所述核 也實(shí)體類型集合且相似度最大的帶相似度核也模板六元組;把所述帶相似度核也模板六元 組中的核也實(shí)體e;和核也實(shí)體類型eti作為候選觸發(fā)詞化1的新特征加入基本特征集合中 候選觸發(fā)詞tri的基本特征中,并把所述帶相似度核也模板六元組從帶相似度候選核也模 板集合中刪除。
[0057] S804、從核也輔助角色集合中分別獲取所述事件類型tti的所有輔助角色;對每個 輔助角色,根據(jù)所述輔助角色對應(yīng)的輔助實(shí)體類型集合選擇一個輔助實(shí)體類型屬于所述輔 助實(shí)體類型集合且相似度最大的帶相似度輔助模板六元組;把所述帶相似度輔助模板六元 組中的輔助實(shí)體Gi和輔助實(shí)體類型eti作為候選觸發(fā)詞的新特征加入基本特征集合中 候選觸發(fā)詞tr,的基本特征中,并把所述帶相似度輔助模板六元組從帶相似度候選輔助模 板集合中刪除;最終得到的基本特征集合就是完整特征集合。
[005引優(yōu)選的,步驟S9還包括W下步驟:
[0059] S901、把訓(xùn)練集特征集合中的特征作為輸入,調(diào)用最大賭分類工具訓(xùn)練得到一個 最大賭事件觸發(fā)詞抽取模型;
[0060] S902、把完整特征集合中每個候選觸發(fā)詞的特征作為輸入,調(diào)用所述最大賭事件 觸發(fā)詞抽取模型對候選觸發(fā)詞進(jìn)行識別,獲得每個候選觸發(fā)詞的事件類型(或被識別為非 事件),得到識別觸發(fā)詞集合。
[0061] 通過本發(fā)明提供的中文事件觸發(fā)詞的抽取方法及系統(tǒng),通過利用角色的語義信 息,并利用核也角色和輔助角色來表示論元語義、利用機(jī)器學(xué)習(xí)的方法來進(jìn)行中文事件觸 發(fā)詞抽取。與現(xiàn)有最好的中文事件抽取方法和系統(tǒng)相比,大大提升了事件抽取的性能。
【專利附圖】
【附圖說明】
[0062] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可W 根據(jù)該些附圖獲得其他的附圖。
[0063] 圖1是本發(fā)明較佳實(shí)施例提供的中文事件觸發(fā)詞的抽取系統(tǒng)的結(jié)構(gòu)示意圖。
[0064] 圖2是本發(fā)明較佳實(shí)施例提供的句法和依存分析模塊的結(jié)構(gòu)示意圖。
[0065] 圖3是本發(fā)明較佳實(shí)施例提供的訓(xùn)練語料特征抽取模塊的結(jié)構(gòu)示意圖。
[0066] 圖4是本發(fā)明較佳實(shí)施例提供的候選觸發(fā)詞抽取模塊的結(jié)構(gòu)示意圖。
[0067] 圖5是本發(fā)明較佳實(shí)施例提供的訓(xùn)練集模板抽取模塊的結(jié)構(gòu)示意圖。
[0068] 圖6是本發(fā)明較佳實(shí)施例提供的候選模板抽取模塊的結(jié)構(gòu)示意圖。
[0069] 圖7是本發(fā)明較佳實(shí)施例提供的實(shí)體特征抽取模塊的結(jié)構(gòu)示意圖。
[0070] 圖8是本發(fā)明較佳實(shí)施例提供的觸發(fā)詞識別模塊的結(jié)構(gòu)示意圖。
[0071] 圖9是本發(fā)明較佳實(shí)施例提供的中文事件觸發(fā)詞的抽取方法的流程圖。
[0072] 圖10是本發(fā)明較佳實(shí)施例提供的句法和依存分析模塊工作流程圖。
[0073] 圖11是本發(fā)明較佳實(shí)施例提供的訓(xùn)練語料特征抽取模塊工作流程圖。
[0074] 圖12是本發(fā)明較佳實(shí)施例提供的訓(xùn)練語料特征抽取方法中的示例句法樹圖。
[00巧]圖13是本發(fā)明較佳實(shí)施例提供的候選觸發(fā)詞抽取模塊工作流程圖。
[0076] 圖14是本發(fā)明較佳實(shí)施例提供的訓(xùn)練集模板抽取模塊工作流程圖。
[0077] 圖15是本發(fā)明較佳實(shí)施例提供的候選模板抽取模塊工作流程圖。
[0078] 圖16是本發(fā)明較佳實(shí)施例提供的實(shí)體特征抽取模塊工作流程圖。
[0079] 圖17是本發(fā)明較佳實(shí)施例提供的觸發(fā)詞識別模塊工作流程圖。
【具體實(shí)施方式】
[0080] 下文中將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。需要說明的是,在不沖突的 情況下,本申請中的實(shí)施例及實(shí)施例中的特征可W相互組合。
[0081] 本實(shí)施例W從自然文本中ACE (Automatic Context Extraction)定義的33類事 件為例,詳細(xì)說明本發(fā)明的實(shí)施過程。
[0082] 圖1是本發(fā)明較佳實(shí)施例提供的中文事件觸發(fā)詞的抽取系統(tǒng)的結(jié)構(gòu)示意圖。如圖 1所示,本發(fā)明較佳實(shí)施例提供的中文事件觸發(fā)詞的抽取系統(tǒng)包括句法和依存分析模塊1、 核也和輔助角色定義模塊2、訓(xùn)練語料特征抽取模塊3、候選觸發(fā)詞抽取模塊4、基本特征抽 取模塊5、訓(xùn)練集模板抽取模塊6、候選模板抽取模塊7、實(shí)體特征抽取模塊8、觸發(fā)詞識別模 塊9,所述句法和依存分析模塊1連接核也和輔助角色定義模塊2,所述核也和輔助角色定 義模塊2連接訓(xùn)練語料特征抽取模塊3,所述訓(xùn)練語料特征抽取模塊3連接候選觸發(fā)詞抽取 模塊4,所述候選觸發(fā)詞抽取模塊4連接基本特征抽取模塊5,所述基本特征抽取模塊5連 接訓(xùn)練集模板抽取模塊6,所述訓(xùn)練集模板抽取模塊6連接候選模板抽取模塊7,所述候選 模板抽取模塊7連接實(shí)體特征抽取模塊8,所述實(shí)體特征抽取模塊8連接觸發(fā)詞識別模塊 9。
[0083] 圖2是本發(fā)明較佳實(shí)施例提供的句法和依存分析模塊的結(jié)構(gòu)示意圖。如圖2所示, 本發(fā)明較佳實(shí)施例提供的句法和依存分析模塊包括分句單元101、實(shí)體識別單元102、句法 分析單元103及依存分析單元104,所述分句單元101連接實(shí)體識別單元102,所述實(shí)體識 別單元102連接句法分析單元103,所述句法分析單元103連接依存分析單元104。
[0084] 圖3是本發(fā)明較佳實(shí)施例提供的訓(xùn)練語料特征抽取模塊的結(jié)構(gòu)示意圖。如圖3所 示,本發(fā)明較佳實(shí)施例提供的訓(xùn)練語料特征抽取模塊包括訓(xùn)練語料觸發(fā)詞抽取單元301、訓(xùn) 練語料句法和依存分析單元302、訓(xùn)練語料特征抽取單元303,所述訓(xùn)練語料觸發(fā)詞抽取單 元301連接訓(xùn)練語料句法和依存分析單元302,所述訓(xùn)練語料句法和依存分析單元302連接 訓(xùn)練語料特征抽取單元303。
[0085] 圖4是本發(fā)明較佳實(shí)施例提供的候選觸發(fā)詞抽取模塊的結(jié)構(gòu)示意圖。如圖4所 示,本發(fā)明較佳實(shí)施例提供的候選觸發(fā)詞抽取模塊包括候選觸發(fā)詞選擇單元401及相似候 選觸發(fā)詞選擇單元402,所述候選觸發(fā)詞選擇單元401連接相似候選觸發(fā)詞選擇單元402。
[0086] 圖5是本發(fā)明較佳實(shí)施例提供的訓(xùn)練集模板抽取模塊的結(jié)構(gòu)示意圖。如圖5所示, 本發(fā)明較佳實(shí)施例提供的訓(xùn)練集模板抽取模塊包括核也實(shí)體抽取單元601、核也模板抽取 單元602、輔助實(shí)體抽取單元603及輔助模板抽取單元604,所述核也實(shí)體抽取單元601連 接核也模板抽取單元602,所述核也模板抽取單元602連接輔助實(shí)體抽取單元603,所述輔 助實(shí)體抽取單元603連接輔助模板抽取單元604。
[0087] 圖6是本發(fā)明較佳實(shí)施例提供的候選模板抽取模塊的結(jié)構(gòu)示意圖。如圖6所示, 本發(fā)明較佳實(shí)施例提供的候選模板抽取模塊包括事件類型初判單元701、實(shí)體類型生成單 元702、候選實(shí)體選擇單元703及候選模板抽取單元704,所述事件類型初判單元701連接 實(shí)體類型生成單元702,所述實(shí)體類型生成單元702連接候選實(shí)體選擇單元703,所述候選 實(shí)體選擇單元703連接候選模板抽取單元704。
[0088] 圖7是本發(fā)明較佳實(shí)施例提供的實(shí)體特征抽取模塊的結(jié)構(gòu)示意圖。如圖7所示, 本發(fā)明較佳實(shí)施例提供的實(shí)體特征抽取模塊包括核也模板相似度計(jì)算單元801、輔助模板 相似度計(jì)算單元802、核也實(shí)體特征抽取單元803及輔助實(shí)體特征抽取單元804,所述核也 模板相似度計(jì)算單元801連接輔助模板相似度計(jì)算單元802,所述輔助模板相似度計(jì)算單 元802連接核也實(shí)體特征抽取單元803,所述核也實(shí)體特征抽取單元803連接輔助實(shí)體特征 抽取單元804。
[0089] 圖8是本發(fā)明較佳實(shí)施例提供的觸發(fā)詞識別模塊的結(jié)構(gòu)示意圖。如圖8所示,本 發(fā)明較佳實(shí)施例提供的觸發(fā)詞識別模塊包括觸發(fā)詞抽取訓(xùn)練單元901及觸發(fā)詞抽取單元 902,所述觸發(fā)詞抽取訓(xùn)練單元901連接觸發(fā)詞抽取單元902。
[0090] 圖9是本發(fā)明較佳實(shí)施例提供的中文事件觸發(fā)詞的抽取方法的流程圖。如圖9所 示,本發(fā)明較佳實(shí)施例提供的中文事件觸發(fā)詞的抽取方法包括步驟Sl?S9。
[0091] 步驟Sl ;對原始文本每個文檔中的句子分別進(jìn)行詞語切分,實(shí)體識別、句法分析 和依存關(guān)系分析,得到依存和句法文檔集合。
[0092] 具體而言,對原始文本每個文檔中的句子分別調(diào)用分詞工具、實(shí)體識別工具、句法 分析工具和依存關(guān)系分析工具進(jìn)行詞語切分、實(shí)體識別、句法分析和依存關(guān)系分析。
[0093] 圖10是本發(fā)明較佳實(shí)施例提供的句法和依存分析模塊工作流程圖。如圖10所示, 本發(fā)明較佳實(shí)施例提供的句法和依存分析模塊工作流程包括步驟SlOl?S104。
[0094] S101、對原始文本每個文檔中的句子進(jìn)行分句,并對每個分句后句子調(diào)用分詞工 具切分詞語,得到用空格分隔詞語的第一文檔集合。本步驟中,對原始文本每個文檔中的句 子W "。"和"?"為分隔符進(jìn)行分句。
[0095] 舉例而言,句子"機(jī)器人軍隊(duì)用導(dǎo)彈攻擊銀河系共和國納布星球,并且造成了 3名 銀河系共和國平民受傷。"經(jīng)過詞語切分后為例1 ;機(jī)器人軍隊(duì)用導(dǎo)彈攻擊銀河系共和國納 布星球,并且造成了 3名銀河系共和國平民受傷。
[0096] S102、調(diào)用實(shí)體識別工具從第一文檔集合的每個文檔中識別實(shí)體并進(jìn)行標(biāo)注,得 到第二文檔集合。本步驟中,所述第二文檔集合中每個實(shí)體標(biāo)注格式為"實(shí)體/實(shí)體類型"。
[0097] 比如,例2 ;機(jī)器人軍隊(duì)/ORG用導(dǎo)彈/WEA攻擊銀河系共和國/GPE納布星球/L0C, 并且造成了 3名/NUM銀河系共和國/GPE平民/P邸受傷。其中,"0RG"、"WEA"、"GPE"、 "L0C"、"NUM"和"陽R"分別表示的實(shí)體類別是組織機(jī)構(gòu)、武器裝備、政治性實(shí)體、位置、數(shù)量 和人。除此之外,常用的實(shí)體類別還有"TIME "、" JOB "、"FAC"和"VEH"等,分別表示時間、工 作崗位、場所和交通工具等。
[0098] S103、對第二文檔集合中每個文檔調(diào)用句法分析工具進(jìn)行句法分析,得到第H文 檔集合。
[009引具體地,例2經(jīng)過句法分析后得到的句法結(jié)構(gòu)如例3所示,例3 ;((IP (NP (NR機(jī)器 人軍隊(duì)))(VP (VP (PP (P用)(NP (順導(dǎo)彈)))(VP (VV攻擊)(NP (NR銀河系共和國)(NR納布星 球))))(PU,) (CC并且)(VP (W造成)(AS 了)(NP (CD3名)(NR銀河系共和國)(順平民)) (IP(VP(W受傷)))))(PU。)))。其中,句法分析是指對句子中的詞語語法功能進(jìn)行分析。 "NR"、"P"、"順"、"W"、"PU"、"CC"、"AS"和"CD"分別是句法分析后的標(biāo)簽,分別表示專用名 詞、介詞、普通名詞、普通動詞、標(biāo)點(diǎn)符號、連詞、時態(tài)詞和數(shù)量詞;"NP"、"VP"、"PP"和"IP" 分別表示名詞性短語、動詞性短語、介詞性短語和子句。
[0100] S104、對第H文檔集合中每個文檔調(diào)用依存關(guān)系分析工具進(jìn)行依存分析,得到依 存和句法文檔集合。本步驟中,所述依存和句法文檔集合為標(biāo)注了實(shí)體、句法結(jié)構(gòu)和依存關(guān) 系的依存和句法文檔集合。
[0101] 如前所述,例3經(jīng)過自動依存分析后,得到的結(jié)果部分如例4所示,例4 ;nsubj (攻 擊-4,機(jī)器人軍隊(duì)-1) ;prep (攻擊-4,用-2) ;pobj (用-2,導(dǎo)彈-3) ;nn(納布星球-6, 銀河系共和國-5) ;dobj (攻擊-4,納布星球-6) ;cc (攻擊-4,并且-8) ;dep (攻擊-4, 造成-9) ;asp (造成-9,了-10) ;nummod(平民-13, 3名-11) ;nn (平民-13,銀河系共和 國-。);nsubj (受傷-14,平民-蝴;ccomp (造成-9,受傷-14)。
[010引 其中,"nn,V'nsub j,,、'' dob j,,、'' CC,,、'' con j,,、'' asp,V'numod,,、'' ccomp,,、'' Cbp,,、 "pobj "和"prep"是Stan壯ord依存分析工具輸出的關(guān)系標(biāo)簽,分別表示并列名詞、主謂關(guān) 系、直接賓語、連接關(guān)系、聯(lián)合關(guān)系、數(shù)量修飾、時態(tài)標(biāo)詞、從句補(bǔ)語、介詞賓語、其它關(guān)系和 介詞關(guān)系。依存關(guān)系由支配成分(Government)、受支配成分值ependent)和它們之間的語 法關(guān)系巧elation)組成的H元組,如"nsubj (攻擊-3,機(jī)器人軍隊(duì)-1)",表示支配成分"機(jī) 器人軍隊(duì)"是受支配成分"攻擊"的形式主語。詞語后面的數(shù)字表示該詞語在句子中的序 號。
[0103] 步驟S2 ;根據(jù)需要抽取事件的定義,人工定義每類事件的核也角色和輔助角色, 得到核也輔助角色集合。
[0104] 具體而言,所述核也輔助角色集合中的每一項(xiàng)結(jié)構(gòu)為,
[0105] <事件類型〉
[0106] <核也角色I(xiàn)X核也實(shí)體類型集合1〉
[0107] ......
[010引 < 核也角色n〉<核也實(shí)體類型集合n>
[0109] <輔助角色I(xiàn)X輔助實(shí)體類型集合1〉
[0110] ......
[0111] <輔助角色n〉<輔助實(shí)體類型集合n〉。
[0112] 舉例而言,攻擊事件(Attack)的核也和輔助角色定義如例5所示,例5 ;<7〉//7是 攻擊事件的事件類型編號
[0113] <K :AttackerXPER/0RG/GPE>
[0114] <K :TargetXPER/0RG/GPE/VEH/FAC/L0C>
[01 巧]<A ; InstrumentX肥A〉
[0116] 其中,K和A分別表示核也角色和輔助角色。攻擊事件有2個核也角色,分別是攻 擊者(Attacker)和被攻擊者(Target);有一個輔助角色(Instrument ;攻擊設(shè)備)。每類 事件具有多個核也角色和輔助角色,每個核也角色/輔助角色均具有對應(yīng)的可填充的實(shí)體 類型集合。
[0117] 一個完整事件可W表達(dá)成為"5化H"形式(Who (施事者誰),What (什么),Whom (受 事者誰),When(什么時候),Where (什么地方),How(怎么樣)),其中"What"的語義一般由 事件觸發(fā)詞體現(xiàn),其余"4W"則對應(yīng)事件中扮演不同角色的實(shí)體。其中,"When"和"Where" 對應(yīng)的角色絕大多數(shù)情況下為時間和地點(diǎn),它們對應(yīng)的實(shí)體一般不具有明顯的事件類型區(qū) 分度。所隊(duì)只有"Who"和"Whom"對應(yīng)的角色所填充的實(shí)體才具有區(qū)分度,才能用于識別 事件。為此,本發(fā)明定義了用于觸發(fā)詞抽取的核也角色,回答了事件中核也的"2W" (Who, Whom)問題,一般是事件的施事者和受事者(如攻擊事件的角色攻擊者和被攻擊者)。填充 核也角色的實(shí)體稱為核也實(shí)體。"1H"用于輔助說明事件的一些細(xì)節(jié)信息(如宣判事件中的 判決結(jié)果、攻擊事件中的武器等),主要包括交通工具、職位、具體罪行、武器等,對應(yīng)的角色 稱為輔助角色(如離職事件的角色職位)。填充輔助角色的實(shí)體稱為輔助實(shí)體。輔助角色 同樣可為事件觸發(fā)詞抽取提供有力依據(jù),其作用不亞于核也角色,是體現(xiàn)事件語義的主要 指標(biāo)之一。
[0118] 步驟S3 ;根據(jù)訓(xùn)練語料標(biāo)注的事件信息,抽取所有的事件實(shí)例及其特征,得到訓(xùn) 練集觸發(fā)詞集合和訓(xùn)練集特征集合。
[0119] 圖11是本發(fā)明較佳實(shí)施例提供的訓(xùn)練語料特征抽取模塊工作流程圖。如圖11所 示,本發(fā)明較佳實(shí)施例提供的訓(xùn)練語料特征抽取模塊工作流程包括步驟S301?S303。
[0120] S301、從訓(xùn)練語料中抽取標(biāo)注的事件觸發(fā)詞,得到訓(xùn)練集觸發(fā)詞集合。
[0121] 具體地,一個標(biāo)注事件例如例6所示;<9日早上,Time:TIME> -個穿白色 衣服的〈少年,Attacker:陽R〉在〈大街,Place:L0C〉上用〈棒,Instrument:WEAX 打,Anchor:Attack〉了一個 < 中年婦女,Target:陽R〉。
[0122] 其中,"Anchor:Attack"表示事件的觸發(fā)詞,其類型是"Attack"(攻擊); "Time:TIME"表示其角色是"Time"(攻擊時間),實(shí)體類型是"TIME",其它角色的標(biāo)注類似。
[0123] 從該事件中可抽取一個事件觸發(fā)詞"打"。可從訓(xùn)練語料所有標(biāo)注的事件中抽取所 有的觸發(fā)詞,構(gòu)成訓(xùn)練集觸發(fā)詞集合。
[0124] S302、對訓(xùn)練語料中包含事件觸發(fā)詞的每個句子,調(diào)用Sl對所述句子進(jìn)行詞語切 分,句法分析和依存關(guān)系分析,得到依存和句法訓(xùn)練集合。
[01巧]具體地,例6的句子經(jīng)過詞語切分,句法分析和依存關(guān)系分析得到的句法結(jié)構(gòu)和 依存關(guān)系如例7所示,例7 :
[0126] 句法;((IP (NP (CP (IP (NP (NT9 日早上))(NP (順一個))(VP (W 穿)(NP (ADJP (JJ 白色))(NP (順衣服)))))值EC 的))(NP (順少年)))(VP (PP (P 在)(LCP (NP (順大街))(LC 上)))(PP(P用)(化P(M棒)))(VP(VV打)(AS 了)(NP(順一個)(順中年婦女))))(PU。)))。
[0127] 部分依存關(guān)系;nsubj (打-13,少年-7),prep (打-13,用-11),dep (用-11, 棒-12),dobj (打-13,中年婦女-16)。
[012引 S303、根據(jù)預(yù)先選擇的觸發(fā)詞特征,從依存和句法訓(xùn)練集合中抽取訓(xùn)練集觸發(fā)詞 集合中每個觸發(fā)詞的特征,構(gòu)成訓(xùn)練集特征集合。
[0129] 在S303中,每個觸發(fā)詞付1的特征集合為:
[0130] <類別;n> (第n(n〉0)類事件的觸發(fā)詞;0-非事件觸發(fā)詞)
[0131] <1 =付1〉<2 =化1的詞性〉<3 =化1前面的詞+化1〉<4 =化1前面詞的詞性+化1 的詞性〉<5 =付1+化1后面的詞〉<6 = tr;的詞性+化1后面詞的詞性〉<7 =在句法樹中tr; 到第一個IP標(biāo)記的路徑長度〉<8 =在句法樹中付1到頂層IP標(biāo)記的路徑〉<9 =包含付1 的短語結(jié)構(gòu)XlO = tr,在同義詞詞林中的語義類別Xll = tr,是否在PropBank中作為謂 詞X12 = tr;在依存關(guān)系中的支配者X13 = tr;在依存關(guān)系中的被支配者X14 = tr;的 依存關(guān)系X15 =付1的核也角色對應(yīng)的實(shí)體X16 =付1的核也角色對應(yīng)的實(shí)體的實(shí)體類 型X17 = tr;的輔助角色對應(yīng)的實(shí)體X18 = tr;的輔助角色對應(yīng)的實(shí)體的實(shí)體類型〉。其 中,1《n《N,N為需要抽取的總的事件類別數(shù)目,每個類別賦予一個不同的數(shù)字來表示事 件類別編號。
[0132] 舉例而言,例6中的觸發(fā)詞"打"的特征集合如例8 :
[013引 7 1 =打 2 = W 3=棒打 4 = M+VV 5=打了 6 = W+AS 7 = 4 8 = W-VP-VP-IP 9 = VP 10 = FaOl 11 = I 12 =少年 12 =用 12 =中年婦女 14 = nsubj 14 = prep 14 =dob j 15 =少年 16 =陽R 15 =中年婦女 16 =陽R 17 =棒 18 = WEA。
[0134] 其中,事件類型Attack的編號是7,特征1-6和9可W從例7的句法結(jié)構(gòu)中得到;7 和8可W根據(jù)例7的句法結(jié)構(gòu)對應(yīng)的句法樹得到(如圖12所示),其中路徑長度是指在該路 徑中句法標(biāo)記的數(shù)量(在例圖4中為4);特征10從"同義詞詞林"檢索得到"打"的語義編 號是"化01";特征11從Pro地ank中檢索得到"打"是一個謂詞(1 ;是;0-不是);特征12-14 從例7的依存關(guān)系中得到,在該例中,沒有"打"的被支配者,只有支配者(nsubj (打-13,少 年-7),pr巧(打-13,用-11),dobj (打-13,中年婦女-16))說明"少年"、"用"和"中年婦 女"是"打"的支配者),依存關(guān)系有"nsubjV'prep"和"dobj";另外,從標(biāo)注語料(例6) 和攻擊事件的核也和輔助角色定義(例5)可知攻擊者(Attacker)和被攻擊者(Target) 是核也角色,對應(yīng)的核也實(shí)體為"少年"和"中年婦女",實(shí)體類型都是"PER";對應(yīng)的輔助角 色是攻擊設(shè)備(Instrument),輔助實(shí)體是"棒",類型"WEA"。
[0135] 步驟S4 ;根據(jù)訓(xùn)練集觸發(fā)詞集合中標(biāo)注的觸發(fā)詞,從依存和句法文檔集合中抽取 候選觸發(fā)詞,構(gòu)成候選觸發(fā)詞集合。
[0136] 圖13是本發(fā)明較佳實(shí)施例提供的候選觸發(fā)詞抽取模塊工作流程圖。如圖13所示, 本發(fā)明較佳實(shí)施例提供的候選觸發(fā)詞抽取模塊工作流程包括步驟S401?S402。
[0137] S401、從依存和句法文檔集合中選擇詞性標(biāo)注為名詞或動詞且在訓(xùn)練集觸發(fā)詞集 合中出現(xiàn)的詞作為候選觸發(fā)詞,加入候選觸發(fā)詞第一集合。
[0138] 具體而言,從依存和句法文檔集合中選擇詞性標(biāo)注為"順"(名詞)或"W"(動 詞)且在訓(xùn)練集觸發(fā)詞集合中出現(xiàn)的詞作為候選觸發(fā)詞,加入候選觸發(fā)詞第一集合,所述 觸發(fā)詞集合中的每一個候選觸發(fā)詞項(xiàng)包括;< 候選觸發(fā)詞X標(biāo)注了實(shí)體、句法結(jié)構(gòu)和依存 關(guān)系的候選觸發(fā)詞所在句子〉。由于在中文中絕大多數(shù)事件觸發(fā)詞是動詞或名詞,所W本發(fā) 明選擇動詞和名詞作為候選觸發(fā)詞。
[0139] 例如,例1所示句子"機(jī)器人軍隊(duì)用導(dǎo)彈攻擊銀河系共和國納布星球,并且造成了 3名銀河系共和國平民受傷。"根據(jù)它的句法結(jié)構(gòu)例3可W得到5個詞性為"W/順"的詞, 為"導(dǎo)彈"、"攻擊"、"造成"、"平民"和"受傷"。由于只有"受傷"在訓(xùn)練集觸發(fā)詞集合中出 現(xiàn)過,所W把該詞加入候選觸發(fā)詞第一集合。
[0140] S402、對依存和句法文檔集合中每個詞性標(biāo)注為名詞或動詞且與訓(xùn)練集觸發(fā)詞集 合中的任意一個觸發(fā)詞具有至少一個相同漢字的詞,計(jì)算所述詞和所述訓(xùn)練集觸發(fā)詞集合 中的任意一個觸發(fā)詞的語義相似度的最大值;如果所述語義相似度的最大值等于1,則把 所述詞加入候選觸發(fā)詞第一集合,得到候選觸發(fā)詞集合。
[01川于此,所述名詞標(biāo)注為"順"動詞標(biāo)注為"W"。本實(shí)施例中,詞t和觸發(fā)詞a的語 義相似度SimT(t,a)定義為SimT(t,a) = a/(a+d)。此外,本發(fā)明采用化wNet的語義距 離來計(jì)算詞匯的相似度,返回值為0-1之間的一個浮點(diǎn)數(shù),值越大說明兩個詞越相似。d為 候選觸發(fā)詞t和種子觸發(fā)詞a在化WNet中的路徑距離,通過調(diào)用化WNet提供的函數(shù)獲得。 a是一個可調(diào)節(jié)的參數(shù),本發(fā)明設(shè)置為1.6。
[0142] 例如,例I所示句子中的動詞"攻擊"和訓(xùn)練集觸發(fā)詞集合中的觸發(fā)詞"突擊"具 有相同的字"擊",并且它們的語義相似度為1(同義詞),所W把"攻擊"作為候選觸發(fā)詞。
[0143] 步驟S5 ;對候選觸發(fā)詞集合中的每個候選觸發(fā)詞,從依存和句法文檔集合中得到 基本特征集合。
[0144] 步驟S5的具體過程為;根據(jù)預(yù)先選擇的觸發(fā)詞特征,從依存和句法集合中抽取候 選觸發(fā)詞集合中每個候選觸發(fā)詞的基本特征,構(gòu)成基本特征集合。
[0145] 其中,每個觸發(fā)詞tri的基本特征集合為;<1 =付1〉<2 = tr;的詞性〉<3 = tr;前 面的詞+化1〉<4 =化i前面詞的詞性+化1的詞性〉<5 =付1+化1后面的詞〉<6 = tr;的詞性 +仕1后面詞的詞性〉<7 =在句法樹中到第一個IP標(biāo)記的路徑長度〉<8 =在句法樹中 化1到頂層IP標(biāo)記的路徑〉<9 =包含付1的短語結(jié)構(gòu)XlO =付1在同義詞詞林中的語義類 別Xll = tr;是否在PropBank中作為謂詞〉<12 = tr;在依存關(guān)系中的支配者〉<13 = tr; 在依存關(guān)系中的被支配者X14 = tr;的依存關(guān)系〉。
[0146] 于此,由于沒有事件的標(biāo)注信息,和訓(xùn)練集特征集合相比,缺少4個特征(即 15-18)。例如,可W根據(jù)例3和例4為候選觸發(fā)詞"攻擊"和"受傷"抽取特征1-14。該些 特征可作為識別候選觸發(fā)詞"攻擊"和"受傷"是那類事件觸發(fā)詞的依據(jù)。
[0147] 步驟S6 ;對訓(xùn)練集觸發(fā)詞集合中每個觸發(fā)詞,根據(jù)所述觸發(fā)詞的事件類型,分別 獲取核也或輔助實(shí)體及其各自對應(yīng)的實(shí)體類型,和所述觸發(fā)詞、所述觸發(fā)詞事件類型、所述 觸發(fā)詞和所述核也或輔助實(shí)體間的依存路徑構(gòu)成核也或輔助模板五元組,得到訓(xùn)練集核也 模板集合和訓(xùn)練集輔助模板集合。
[014引圖14是本發(fā)明較佳實(shí)施例提供的訓(xùn)練集模板抽取模塊工作流程圖。如圖14所示, 本發(fā)明較佳實(shí)施例提供的訓(xùn)練集模板抽取模塊工作流程包括步驟S601?S604。
[0149] S601、對訓(xùn)練集觸發(fā)詞集合中每個觸發(fā)詞,根據(jù)所述觸發(fā)詞在訓(xùn)練語料中標(biāo)注的 事件類型獲取所述事件類型的所有核也角色對應(yīng)的核也實(shí)體及其實(shí)體類型;每個所述核也 實(shí)體及其實(shí)體類型和所述觸發(fā)詞及其事件類型構(gòu)成一個四元組,所有的四元組構(gòu)成了核也 實(shí)體觸發(fā)詞集合。其中,所述四元組表述為,<核也實(shí)體,核也實(shí)體類型,觸發(fā)詞,觸發(fā)詞事 件類型〉。
[0150] 例如,根據(jù)攻擊事件的核也角色定義(例5)可知攻擊者(Attacker)和被攻擊者 (Target)是核也角色。則例6中攻擊事件的觸發(fā)詞"打"的核也實(shí)體為"少年"和"中年婦 女",實(shí)體類型都是叩邸"。則該兩個實(shí)體和觸發(fā)詞"打"構(gòu)成了 2個如例9所述的四元組:
[0151] 例9;
[015引 < 少年,P邸,打,7〉
[015引 < 中年婦女,P邸,打,7〉
[0154] S602、對核也實(shí)體觸發(fā)詞集合中的每個四元組,從依存和句法訓(xùn)練集合中得到所 述四元組中的核也實(shí)體和觸發(fā)詞之間的依存路徑,構(gòu)成核也模板五元組,得到訓(xùn)練集核也 模板集合。其中,所述核也模板五元組表述為,<核也實(shí)體,核也實(shí)體類型,觸發(fā)詞,觸發(fā)詞 事件類型,依存路徑〉。
[0155] 具體地,例9中的2個四元組中"少年"和"打"的依存路徑是"nsubj",而"中年婦 女"和"打"的依存路徑是"dobj",則得到的核也模板五元組如例10 :
[0156] < 少年,P邸,打,7, nsubj〉
[0157] <中年婦女,P邸,打,7, dob j>
[0158] S603、對訓(xùn)練集觸發(fā)詞集合中每個觸發(fā)詞,根據(jù)所述觸發(fā)詞在訓(xùn)練語料中標(biāo)注的 事件類型獲取所述事件類型的所有輔助角色對應(yīng)的輔助實(shí)體及其實(shí)體類型;每個所述輔助 實(shí)體及其實(shí)體類型和所述觸發(fā)詞及其事件類型構(gòu)成一個四元組,所有的四元組構(gòu)成了輔助 實(shí)體觸發(fā)詞集合。其中,所述四元組表述為,<輔助實(shí)體,輔助實(shí)體類型,觸發(fā)詞,觸發(fā)詞事 件類型〉。
[0159] 例如,根據(jù)攻擊事件的輔助角色定義(例5)可知攻擊設(shè)備(Instrument)是輔助 角色。則例6中攻擊事件的觸發(fā)詞"打"的輔助實(shí)體為"棒",實(shí)體類型都是"WEA"。則該個 實(shí)體和觸發(fā)詞"打"構(gòu)成了 1個如例11所述的四元組:
[0160] 例 11 ;< 棒,WEA,打,7〉
[0161] S604、對輔助實(shí)體觸發(fā)詞集合中的每個四元組,從依存和句法訓(xùn)練集合中得到所 述四元組中的輔助實(shí)體和觸發(fā)詞之間的依存路徑,構(gòu)成輔助模板五元組,得到訓(xùn)練集輔助 模板集合。其中,所述輔助模板五元組表述為,<輔助實(shí)體,輔助實(shí)體類型,觸發(fā)詞,觸發(fā)詞 事件類型,依存路徑〉。
[016引例11中的四元組中"棒"和"打"的依存路徑是"pr巧-Cbp"(從"prep (打-13, 用-11)"和"dep (用-11,棒-12)"得到),則得到的輔助模板五元組如例12 :
[0163] 例 12 ;< 棒,P邸,打,7, prep-dep〉
[0164] 步驟S7 ;對基本特征集合中的每個候選觸發(fā)詞,判斷所述候選觸發(fā)詞的初步事件 類型;再根據(jù)所述初步事件類型抽取所述初步事件類型的核也和輔助角色對應(yīng)的所有核也 和輔助實(shí)體及其實(shí)體類型,和所述候選觸發(fā)詞、所述觸發(fā)詞事件類型、所述候選觸發(fā)詞與所 述核也和輔助實(shí)體間的依存路徑,分別構(gòu)成核也和輔助論元模板五元組,得到候選核也模 板集合和候選輔助模板集合。
[0165] 圖15是本發(fā)明較佳實(shí)施例提供的候選模板抽取模塊工作流程圖。如圖15所示, 本發(fā)明較佳實(shí)施例提供的候選模板抽取模塊工作流程包括步驟S701?S704。
[0166] S701、根據(jù)觸發(fā)詞集合中的觸發(fā)詞和語義相似度,初步判斷所述候選觸發(fā)詞付1的 初步事件類型tti。
[0167] 具體而言,所述判斷候選觸發(fā)詞tr,的初步事件類型的具體方法如下;如果所述候 選觸發(fā)詞tri在觸發(fā)詞集合中出現(xiàn),則從所述觸發(fā)詞集合中抽取所有觸發(fā)詞為tri的事件, 并統(tǒng)計(jì)所有的所述事件中出現(xiàn)次數(shù)最多的事件類型作為候選觸發(fā)詞tr,的初步事件類型 tti ;否則,計(jì)算所述候選觸發(fā)詞tr,和訓(xùn)練集觸發(fā)詞集合中的任意一個觸發(fā)詞的語義相 似度SimT (tr。ap ;統(tǒng)計(jì)訓(xùn)練集觸發(fā)詞集合中和候選觸發(fā)詞付1的語義相似度值等于1的所 有觸發(fā)詞的事件類型及其出現(xiàn)次數(shù),把出現(xiàn)次數(shù)最多的事件類型作為候選觸發(fā)詞tr;的初 步事件類型tti ;所述語義相似度SimT(tr。ap計(jì)算方法同步驟S402中的語義相似度計(jì)算 方法。
[016引例如,例1所示句子"機(jī)器人軍隊(duì)用導(dǎo)彈攻擊銀河系共和國納布星球,并且造成了 3名銀河系共和國平民受傷。"中的候選觸發(fā)詞"受傷"在觸發(fā)詞集合中出現(xiàn)次數(shù)最多的事 件類型是受傷事件(Injure),所W候選觸發(fā)詞"受傷"的初步事件類型為6 (受傷事件的事 件類型編號是6)。另外一個候選觸發(fā)詞"攻擊"在觸發(fā)詞集合中沒有出現(xiàn),則計(jì)算它和觸 發(fā)詞集合中的每個觸發(fā)詞的語義相似度,得到語義相似度值為1的觸發(fā)詞有H個;"突擊"、 "擊"和"進(jìn)攻",它們都作為攻擊事件的觸發(fā)詞,所W候選觸發(fā)詞"攻擊"的初步事件類型為 7。需要說明的是,有的觸發(fā)詞(如;"射"既可W觸發(fā)攻擊事件(發(fā)射子彈),又可W觸發(fā)移 動事件(如:發(fā)射飛船))可W觸發(fā)不止一類事件,所W本發(fā)明把該類觸發(fā)詞最常出現(xiàn)的事 件類型作為它們的初步事件類型。
[0169] S702、從所述核也輔助角色集合中分別獲取所述事件類型tti的所有核也角色和 輔助角色;把所述核也角色對應(yīng)的所有核也實(shí)體類型加入候選核也實(shí)體類型集合;把所述 輔助角色對應(yīng)的所有輔助實(shí)體類型加入候選輔助實(shí)體類型集合。
[0170] 例如,候選觸發(fā)詞"攻擊"的初步事件類型為攻擊事件,那么它的核也角色是攻擊 者(Attacker)和被攻擊者(Target),核也實(shí)體類型集合是"陽R/0RG/GPE/VEH/FAC/L0C"。 輔助角色是攻擊設(shè)備(Instrument),輔助實(shí)體類型集合是"WEA"。
[0171] S703、從依存和句法集合中抽取和所述候選觸發(fā)詞在同一個句子的所有實(shí)體, 得到候選實(shí)體第一集合;從所述候選實(shí)體第一集合中過濾掉實(shí)體類型不在候選核也實(shí)體類 型集合中的實(shí)體,得到候選核也實(shí)體集合;從所述候選實(shí)體第一集合中過濾掉實(shí)體類型不 在候選輔助實(shí)體類型集合中的實(shí)體,得到候選輔助實(shí)體集合。
[0172] 例如,例1所示句子"機(jī)器人軍隊(duì)用導(dǎo)彈攻擊銀河系共和國納布星球,并且造成了 3名銀河系共和國平民受傷。"中有7個實(shí)體(機(jī)器人軍隊(duì)/0RG、導(dǎo)彈/WEA、銀河系共和國 /GPE、納布星球/L0C、3名/NUM、銀河系共和國/GPE、平民/PER),加入候選實(shí)體第一集合; 由于攻擊事件的核也實(shí)體類型集合是"PER/0RG/GPE/VEH/FAC/L0C",則過濾掉候選實(shí)體"導(dǎo) 彈/WEA"、"3名/NUM",把其余5個實(shí)體加入候選核也實(shí)體集合;由于攻擊事件的輔助實(shí)體 類型集合是"WEA",則過濾掉6個候選實(shí)體,只有"導(dǎo)彈/WEA"加入候選輔助實(shí)體集合。
[0173] S704、候選核也實(shí)體集合中的每個核也實(shí)體e;及其實(shí)體類型eti和所述觸發(fā)詞tri 及其初步事件類型tti、所述核也實(shí)體Gi和候選觸發(fā)詞tr;的依存路徑Pi,構(gòu)成核也模板五 元組,得到候選觸發(fā)詞tri的候選核也模板集合;候選輔助實(shí)體集合中的每個輔助實(shí)體曰1及 其實(shí)體類型eti和所述觸發(fā)詞tri及其事件類型tti、所述輔助實(shí)體Gi和候選觸發(fā)詞tri之 間的依存路徑Pi,構(gòu)成輔助模板五元組,得到候選觸發(fā)詞tri的候選輔助模板集合。
[0174] 具體地,候選核也實(shí)體集合中的每個核也實(shí)體Gi及其實(shí)體類型eti和所述觸發(fā)詞 付1及其初步事件類型tti構(gòu)成 < 核也實(shí)體日1,核也實(shí)體類型eti,候選觸發(fā)詞tr;,初步事件 類型tti〉四元組,得到候選核也實(shí)體觸發(fā)詞集合;對所述候選核也實(shí)體觸發(fā)詞集合中的每 個四元組,從依存和句法訓(xùn)練集合中得到所述四元組中的核也實(shí)體e;和候選觸發(fā)詞tr;之 間的依存路徑Pi,構(gòu)成核也模板五元組 < 核也實(shí)體日1,核也實(shí)體類型eti,候選觸發(fā)詞付1,初 步事件類型tti,依存路徑Pi〉,得到候選觸發(fā)詞tri的候選核也模板集合;候選輔助實(shí)體集 合中的每個輔助實(shí)體Gi及其實(shí)體類型eti和所述觸發(fā)詞tri及其事件類型tti構(gòu)成 < 輔助 實(shí)體61,輔助實(shí)體類型eti,候選觸發(fā)詞化,初步事件類型tti〉四元組,得到候選輔助實(shí)體 觸發(fā)詞集合;對所述候選輔助實(shí)體觸發(fā)詞集合中的每個四元組,從依存和句法訓(xùn)練集合中 得到所述四元組中的輔助實(shí)體曰1和候選觸發(fā)詞tri之間的依存路徑Pi,構(gòu)成輔助模板五元 組 < 輔助實(shí)體日1,輔助實(shí)體類型eti,候選觸發(fā)詞付1,初步事件類型tti,依存路徑Pi〉,得到 候選觸發(fā)詞tri的候選輔助模板集合。
[0175] 例如,候選觸發(fā)詞"攻擊"的候選核也實(shí)體集合中有5個候選核也實(shí)體,則得到5個 核也模板五元組。如例13所示:
[0176] <機(jī)器人軍隊(duì),ORG,攻擊,7, nsubj〉
[0177] <銀河系共和國(第一個),GPE,攻擊,7, dobj-nn〉
[0178] < 納布星球,L0C,攻擊,7, dobj〉
[0179] < 銀河系共和國(第二個),GPE,攻擊,7, dep-ccomp-nsubj-nn〉
[0180] < 平民,P邸,攻擊,7, cbp-ccomp-nsub j〉。
[018。 在候選輔助實(shí)體集合中有一個候選輔助實(shí)體,則得到I個輔助模板五元組。如例 14 所示;< 導(dǎo)彈,WEA,攻擊,7, prep-pobj〉。
[0182] 步驟S8 ;對基本特征集合中的每個候選觸發(fā)詞,分別從候選核也模板集合和候選 輔助模板集合中為所述觸發(fā)詞的初步事件類型對應(yīng)的核也角色和輔助角色選擇核也實(shí)體 和輔助實(shí)體,把所述核也實(shí)體和輔助實(shí)體及其實(shí)體類型作為新特征加入基本特征集合,得 到完整特征集合。
[0183] 圖16是本發(fā)明較佳實(shí)施例提供的實(shí)體特征抽取模塊工作流程圖。如圖16所示, 本發(fā)明較佳實(shí)施例提供的實(shí)體特征抽取模塊工作流程,即對基本特征集合中的每個候選觸 發(fā)詞付1執(zhí)行步驟S801?S804。
[0184] S801、計(jì)算候選觸發(fā)詞付1的候選核也模板集合中每個核也模板五元組CandPi 和訓(xùn)練集核也模板集合中事件類型為tti,核也實(shí)體類型為eti的每個核也模板五元組 化tterrij的模板相似度SimP (CandP。Patterrij)的最大值MCPi ;把所述最大值MCPi加入核 也模板五元組CandPi,得到帶相似度核也模板六元組,加入帶相似度候選核也模板集合。
[0185] 具體地,所述核也模板五元組CandPi為 < 核也實(shí)體日1,核也實(shí)體類型eti,候選觸 發(fā)詞tr;,初步事件類型tti,依存路徑Pi〉,所述核也模板五元組化tterrij為 < 核也實(shí)體Gj, 核也實(shí)體類型etj.,觸發(fā)詞觸發(fā)詞事件類型ttj.,依存路徑Pj.〉,所述帶相似度核也模板六 元組為 < 核也實(shí)體日1,核也實(shí)體類型eti,候選觸發(fā)詞付1,初步事件類型tti,依存路徑Pi,相 似度MCPi〉。其中,MCPi的計(jì)算方法為,
[0186]
【權(quán)利要求】
1. 中文事件觸發(fā)詞的抽取方法,其特征在于,包括以下步驟: 51、 對原始文本每個文檔中的句子分別進(jìn)行詞語切分,實(shí)體識別、句法分析和依存關(guān)系 分析,得到依存和句法文檔集合; 52、 根據(jù)需要抽取事件的定義,人工定義每類事件的核心角色和輔助角色,得到核心輔 助角色集合; 53、 根據(jù)訓(xùn)練語料標(biāo)注的事件信息,抽取所有的事件實(shí)例及其特征,得到訓(xùn)練集觸發(fā)詞 集合和訓(xùn)練集特征集合; 54、 根據(jù)訓(xùn)練集觸發(fā)詞集合中標(biāo)注的觸發(fā)詞,從依存和句法文檔集合中抽取候選觸發(fā) 詞,構(gòu)成候選觸發(fā)詞集合; 55、 對候選觸發(fā)詞集合中的每個候選觸發(fā)詞,從依存和句法文檔集合中得到基本特征 集合; 56、 對訓(xùn)練集觸發(fā)詞集合中每個觸發(fā)詞,根據(jù)所述觸發(fā)詞的事件類型,分別獲取核心或 輔助實(shí)體及其各自對應(yīng)的實(shí)體類型,和所述觸發(fā)詞、所述觸發(fā)詞事件類型、所述觸發(fā)詞和所 述核心或輔助實(shí)體間的依存路徑構(gòu)成核心或輔助模板五元組,得到訓(xùn)練集核心模板集合和 訓(xùn)練集輔助模板集合; 57、 對基本特征集合中的每個候選觸發(fā)詞,判斷所述候選觸發(fā)詞的初步事件類型;再根 據(jù)所述初步事件類型抽取所述初步事件類型的核心和輔助角色對應(yīng)的所有核心和輔助實(shí) 體及其實(shí)體類型,和所述候選觸發(fā)詞、所述觸發(fā)詞事件類型、所述候選觸發(fā)詞與所述核心和 輔助實(shí)體間的依存路徑,分別構(gòu)成核心和輔助論元模板五元組,得到候選核心模板集合和 候選輔助模板集合; 58、 對基本特征集合中的每個候選觸發(fā)詞,分別從候選核心模板集合和候選輔助模板 集合中為所述觸發(fā)詞的初步事件類型對應(yīng)的核心角色和輔助角色選擇核心實(shí)體和輔助實(shí) 體,把所述核心實(shí)體和輔助實(shí)體及其實(shí)體類型作為新特征加入基本特征集合,得到完整特 征集合; 59、 根據(jù)訓(xùn)練集特征集合中的特征,訓(xùn)練一個最大熵事件觸發(fā)詞抽取模型;再利用所述 最大熵事件觸發(fā)詞抽取模型對的每個候選觸發(fā)詞根據(jù)完整特征集合進(jìn)行識別,得到識別觸 發(fā)詞集合。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S1包括: 5101、 對原始文本每個文檔中的句子進(jìn)行分句,并對每個分句后句子調(diào)用分詞工具切 分詞語,得到用空格分隔詞語的第一文檔集合; 5102、 調(diào)用實(shí)體識別工具從第一文檔集合的每個文檔中識別實(shí)體并進(jìn)行標(biāo)注,得到第 二文檔集合; 5103、 對第二文檔集合中每個文檔調(diào)用句法分析工具進(jìn)行句法分析,得到第三文檔集 合; 5104、 對第三文檔集合中每個文檔調(diào)用依存關(guān)系分析工具進(jìn)行依存分析,得到依存和 句法文檔集合。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3包括: 5301、 從訓(xùn)練語料中抽取標(biāo)注的事件觸發(fā)詞,得到訓(xùn)練集觸發(fā)詞集合; 5302、 對訓(xùn)練語料中包含事件觸發(fā)詞的每個句子,調(diào)用S1對所述句子進(jìn)行詞語切分, 句法分析和依存關(guān)系分析,得到依存和句法訓(xùn)練集合; S303、根據(jù)預(yù)先選擇的觸發(fā)詞特征,從依存和句法訓(xùn)練集合中抽取訓(xùn)練集觸發(fā)詞集合 中每個觸發(fā)詞的特征,構(gòu)成訓(xùn)練集特征集合。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S4包括: 5401、 從依存和句法文檔集合中選擇詞性標(biāo)注為名詞或動詞且在訓(xùn)練集觸發(fā)詞集合中 出現(xiàn)的詞作為候選觸發(fā)詞,加入候選觸發(fā)詞第一集合; 5402、 對依存和句法文檔集合中每個詞性標(biāo)注為名詞或動詞且與訓(xùn)練集觸發(fā)詞集合中 的任意一個觸發(fā)詞具有至少一個相同漢字的詞,計(jì)算所述詞和所述訓(xùn)練集觸發(fā)詞集合中的 任意一個觸發(fā)詞的語義相似度的最大值;如果所述語義相似度的最大值等于1,則把所述 詞加入候選觸發(fā)詞第一集合,得到候選觸發(fā)詞集合。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S5的具體過程為: 根據(jù)預(yù)先選擇的觸發(fā)詞特征,從依存和句法集合中抽取候選觸發(fā)詞集合中每個候選觸 發(fā)詞的基本特征,構(gòu)成基本特征集合。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S6還包括: 5601、 對訓(xùn)練集觸發(fā)詞集合中每個觸發(fā)詞,根據(jù)所述觸發(fā)詞在訓(xùn)練語料中標(biāo)注的事件 類型獲取所述事件類型的所有核心角色對應(yīng)的核心實(shí)體及其實(shí)體類型;每個所述核心實(shí)體 及其實(shí)體類型和所述觸發(fā)詞及其事件類型構(gòu)成一個四元組,所有的四元組構(gòu)成了核心實(shí)體 觸發(fā)詞集合; 5602、 對核心實(shí)體觸發(fā)詞集合中的每個四元組,從依存和句法訓(xùn)練集合中得到所述四 元組中的核心實(shí)體和觸發(fā)詞之間的依存路徑,構(gòu)成核心模板五元組,得到訓(xùn)練集核心模板 集合; 5603、 對訓(xùn)練集觸發(fā)詞集合中每個觸發(fā)詞,根據(jù)所述觸發(fā)詞在訓(xùn)練語料中標(biāo)注的事件 類型獲取所述事件類型的所有輔助角色對應(yīng)的輔助實(shí)體及其實(shí)體類型;每個所述輔助實(shí)體 及其實(shí)體類型和所述觸發(fā)詞及其事件類型構(gòu)成一個四元組,所有的四元組構(gòu)成了輔助實(shí)體 觸發(fā)詞集合; 5604、 對輔助實(shí)體觸發(fā)詞集合中的每個四元組,從依存和句法訓(xùn)練集合中得到所述四 元組中的輔助實(shí)體和觸發(fā)詞之間的依存路徑,構(gòu)成輔助模板五元組,得到訓(xùn)練集輔助模板 集合。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S7中,對基本特征集合中的每個候 選觸發(fā)詞tri,執(zhí)行以下步驟: 5701、 根據(jù)觸發(fā)詞集合中的觸發(fā)詞和語義相似度,初步判斷所述候選觸發(fā)詞tri的初步 事件類型; 5702、 從所述核心輔助角色集合中分別獲取所述事件類型的所有核心角色和輔助 角色;把所述核心角色對應(yīng)的所有核心實(shí)體類型加入候選核心實(shí)體類型集合;把所述輔助 角色對應(yīng)的所有輔助實(shí)體類型加入候選輔助實(shí)體類型集合; 5703、 從依存和句法集合中抽取和所述候選觸發(fā)詞tri在同一個句子的所有實(shí)體,得到 候選實(shí)體第一集合;從所述候選實(shí)體第一集合中過濾掉實(shí)體類型不在候選核心實(shí)體類型集 合中的實(shí)體,得到候選核心實(shí)體集合;從所述候選實(shí)體第一集合中過濾掉實(shí)體類型不在候 選輔助實(shí)體類型集合中的實(shí)體,得到候選輔助實(shí)體集合; S704、候選核心實(shí)體集合中的每個核心實(shí)體ei及其實(shí)體類型eti和所述觸發(fā)詞tri及 其初步事件類型ttp所述核心實(shí)體ei和候選觸發(fā)詞tn的依存路徑Pi,構(gòu)成核心模板五元 組,得到候選觸發(fā)詞tri的候選核心模板集合;候選輔助實(shí)體集合中的每個輔助實(shí)體ei及其 實(shí)體類型eti和所述觸發(fā)詞tri及其事件類型tti、所述輔助實(shí)體 ei和候選觸發(fā)詞tri之間 的依存路徑Pi,構(gòu)成輔助模板五元組,得到候選觸發(fā)詞tri的候選輔助模板集合。
8. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S8中,對基本特征集合中的每個候 選觸發(fā)詞tri,執(zhí)行以下步驟: 5801、 計(jì)算候選觸發(fā)詞tn的候選核心模板集合中每個核心模板五元組CandPi和訓(xùn)練 集核心模板集合中事件類型為ttp核心實(shí)體類型為eh的每個核心模板五元組Pattern』的 模板相似度SimP (CandPi,Patten^)的最大值MCPi ;把所述最大值MCPi加入核心模板五元 組CandPi,得到帶相似度核心模板六元組,加入帶相似度候選核心模板集合。 5802、 計(jì)算候選觸發(fā)詞tri的候選輔助模板集合中每個輔助模板五元組CandPi和訓(xùn)練 集輔助模板集合中事件類型為ttp輔助實(shí)體類型為eh的每個輔助模板五元組Pattern」的 模板相似度SimP (CandPi,Patten^)的最大值MCPi ;把所述最大值MCPi加入輔助模板五元 組CandPi,得到帶相似度輔助模板六元組,加入帶相似度候選輔助模板集合。 5803、 從核心輔助角色集合中分別獲取所述事件類型的所有核心角色;對每個核心 角色,根據(jù)所述核心角色對應(yīng)的核心實(shí)體類型集合選擇一個核心實(shí)體類型屬于所述核心實(shí) 體類型集合且相似度最大的帶相似度核心模板六元組;把所述帶相似度核心模板六元組中 的核心實(shí)體ei和核心實(shí)體類型el^作為候選觸發(fā)詞tA的新特征加入基本特征集合中候選 觸發(fā)詞tn的基本特征中,并把所述帶相似度核心模板六元組從帶相似度候選核心模板集 合中刪除。 5804、 從核心輔助角色集合中分別獲取所述事件類型的所有輔助角色;對每個輔助 角色,根據(jù)所述輔助角色對應(yīng)的輔助實(shí)體類型集合選擇一個輔助實(shí)體類型屬于所述輔助實(shí) 體類型集合且相似度最大的帶相似度輔助模板六元組;把所述帶相似度輔助模板六元組中 的輔助實(shí)體ei和輔助實(shí)體類型eh作為候選觸發(fā)詞tri的新特征加入基本特征集合中候選 觸發(fā)詞tri的基本特征中,并把所述帶相似度輔助模板六元組從帶相似度候選輔助模板集 合中刪除;最終得到的基本特征集合就是完整特征集合。
9. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S9包括: 5901、 把訓(xùn)練集特征集合中的特征作為輸入,調(diào)用最大熵分類工具訓(xùn)練得到一個最大 熵事件觸發(fā)詞抽取模型; 5902、 把完整特征集合中每個候選觸發(fā)詞的特征作為輸入,調(diào)用所述最大熵事件觸發(fā) 詞抽取模型對候選觸發(fā)詞進(jìn)行識別,獲得每個候選觸發(fā)詞的事件類型(或被識別為非事 件),得到識別觸發(fā)詞集合。
10. -種中文事件觸發(fā)詞的抽取系統(tǒng),其特征在于,包括句法和依存分析模塊、核心和 輔助角色定義模塊、訓(xùn)練語料特征抽取模塊、候選觸發(fā)詞抽取模塊、基本特征抽取模塊、訓(xùn) 練集模板抽取模塊、候選模板抽取模塊、實(shí)體特征抽取模塊、觸發(fā)詞識別模塊,所述句法和 依存分析模塊連接核心和輔助角色定義模塊,所述核心和輔助角色定義模塊連接訓(xùn)練語料 特征抽取模塊,所述訓(xùn)練語料特征抽取模塊連接候選觸發(fā)詞抽取模塊,所述候選觸發(fā)詞抽 取模塊連接基本特征抽取模塊,所述基本特征抽取模塊連接訓(xùn)練集模板抽取模塊,所述訓(xùn) 練集模板抽取模塊連接候選模板抽取模塊,所述候選模板抽取模塊連接實(shí)體特征抽取模 塊,所述實(shí)體特征抽取模塊連接觸發(fā)詞識別模塊, 其中,所述句法和依存分析模塊,包括分句單元、實(shí)體識別單元、句法分析單元及依存 分析單元,所述分句單元連接實(shí)體識別單元,所述實(shí)體識別單元連接句法分析單元,所述句 法分析單元連接依存分析單元, 所述訓(xùn)練語料特征抽取模塊,包括訓(xùn)練語料觸發(fā)詞抽取單元、訓(xùn)練語料句法和依存分 析單元、訓(xùn)練語料特征抽取單元,所述訓(xùn)練語料觸發(fā)詞抽取單元連接訓(xùn)練語料句法和依存 分析單元,所述訓(xùn)練語料句法和依存分析單元連接訓(xùn)練語料特征抽取單元, 所述候選觸發(fā)詞抽取模塊,包括候選觸發(fā)詞選擇單元及相似候選觸發(fā)詞選擇單元,所 述候選觸發(fā)詞選擇單元連接相似候選觸發(fā)詞選擇單元, 所述訓(xùn)練集模板抽取模塊,包括核心實(shí)體抽取單元、核心模板抽取單元、輔助實(shí)體抽取 單元及輔助模板抽取單元,所述核心實(shí)體抽取單元連接核心模板抽取單元,所述核心模板 抽取單元連接輔助實(shí)體抽取單元,所述輔助實(shí)體抽取單元連接輔助模板抽取單元, 所述候選模板抽取模塊,包括事件類型初判單元、實(shí)體類型生成單元、候選實(shí)體選擇單 元及候選模板抽取單元,所述事件類型初判單元連接實(shí)體類型生成單元,所述實(shí)體類型生 成單元連接候選實(shí)體選擇單元,所述候選實(shí)體選擇單元連接候選模板抽取單元, 所述實(shí)體特征抽取模塊,包括核心模板相似度計(jì)算單元、輔助模板相似度計(jì)算單元、核 心實(shí)體特征抽取單元及輔助實(shí)體特征抽取單元,所述核心模板相似度計(jì)算單元連接輔助模 板相似度計(jì)算單元,所述輔助模板相似度計(jì)算單元連接核心實(shí)體特征抽取單元,所述核心 實(shí)體特征抽取單元連接輔助實(shí)體特征抽取單元, 所述觸發(fā)詞識別模塊,包括觸發(fā)詞抽取訓(xùn)練單元及觸發(fā)詞抽取單元,所述觸發(fā)詞抽取 訓(xùn)練單元連接觸發(fā)詞抽取單元。
【文檔編號】G06F17/27GK104331480SQ201410626003
【公開日】2015年2月4日 申請日期:2014年11月7日 優(yōu)先權(quán)日:2014年11月7日
【發(fā)明者】李培峰, 周國棟, 朱巧明, 孔芳, 朱曉旭 申請人:蘇州大學(xué)