本發(fā)明涉及自然語言處理領域,尤其涉及一種中文事件事實性識別方法和系統(tǒng)。
背景技術:
當人們談論某一事件,表達對事件的觀點和想法時,不僅僅傳達了事件發(fā)生的時間、地點和人物等信息,還包含了對事件的立場和態(tài)度。其中態(tài)度和立場可分為兩類:主觀性和確定性,主觀性即敘述者對當前事件主觀性的看法,如贊成、反對或中立[2]。確定性即敘述者對當前事件真實與否的確定性程度,如一定發(fā)生、可能發(fā)生或者仍未發(fā)生等[3]。這里的確定性,即本文所指的事件事實性。
事件事實性識別就是判定當前事件發(fā)生的確定性程度。事件事實性的影響因素很多,事件句中的謂詞語義往往隱含了事件敘述者的態(tài)度,例如“確實”、“證實”表示確定,“懷疑”、“推斷”表示可能。否定詞和一些特殊的句法結構如條件和目的從句,也會影響事件事實性的表達。除此之外,事件發(fā)生的時態(tài)、一些特殊的形容詞和副詞(可能、必須等)都會對事件的事實性造成影響。
目前有關事件事實性的研究較少,主要集中在英文方面,Diab[7]提出了一個基于機器學習模型的事實性標記方法。為簡化模型,只認為事實性由文檔作者表達,然后將事實性分為三類:“確定的事實性”(非常有可能會發(fā)生)、“不確定的事實性”(有可能會發(fā)生)和“不存在”(無法確定是否發(fā)生)。為驗證他們的想法,建立了小型的語料庫并使用YAMCHA序列標簽系統(tǒng),除一些基本特征外還使用了詞性標簽、詞類特征、淺層句法信息等作為特征。Prabhakaran[8]使用了類似的方法,將其分成兩個子任務:識別文檔的主題和根據(jù)主題進行事實性分類,在引入了依存句法關系作為特征的同時使用了基于SVM和CRF模型的標記工具。Velldal[9]在Conan Doyle語料庫的基礎上,將事實性分為兩類:“確定的事實性”和“不確定的事實性”,利用已標注的否定信息用于事實性分類,并將該方法用于輔助否定事件檢測任務,使得否定事件檢測精度得到提升。Kilicoglu[11]提出了一種基于規(guī)則的組合方法用于識別生物醫(yī)學領域事件的事實性,該方法注重同一覆蓋域內事件謂詞之間的聯(lián)系,并對其進行分類。實驗通過一系列規(guī)則實現(xiàn)事件的確定性和極性的識別,使用GENIA事件語料庫,在事件確定性的識別上取得不錯的效果,但在極性的識別上稍弱。使用機器學習的方法分別識別克羅地亞語料事件的確定性和極性,考慮到克羅地亞語的特性,對特定的詞匯信息進行處理并作為特征來識別極性,而在識別確定性上則著重考慮到某些觸發(fā)詞出現(xiàn)的位置信息,整體上取得了不錯的效果。Lee[13]驗證了無監(jiān)督的方法用于事件監(jiān)測和事實性識別的可行性,通過使用高質量的數(shù)據(jù)樣本和一些簡單的模型可以在一定程度上完成事件檢測和事實性識別兩個任務。
Sauri[5]從語言學的角度設計了一個事實性分析器-De Facto。為驗證自己的思想,在TimeBank語料庫的基礎上,建立了用于事件事實性分析的FactBank語料庫[6],F(xiàn)actBank將事件事實性分為七類:“確定發(fā)生”、“確定不發(fā)生”、“很可能發(fā)生”、“很有可能不發(fā)生”、“有可能發(fā)生”、“有可能不發(fā)生”和“不確定”。錢忠[10]提出了一個將事件事實性分析拆解為兩步的方法。首先,依據(jù)事件事實性相關信息建立最大熵模型將事件分為“確定發(fā)生”和“不確定發(fā)生”兩類,然后根據(jù)規(guī)則對“確定發(fā)生”類別再進行細分。
中文方面,曹媛構建一個基于ACE(Automatic Content Extraction)2005的事件事實性分析語料庫[1],將事件事實性分為五類:“當然發(fā)生”、“當然不發(fā)生”、“可能發(fā)生”、“可能不發(fā)生”和“不確定”。同時,對語料庫中的中文事件進行標注,標注了五類事實性相關信息,如“事件選擇謂詞”、“事件源”、“程度詞”、“否定詞”和“從句”。她認為事件事實性相關信息大部分是詞匯級信息,不利于分析事件事實性,為此提出三維的中文事件事實性表示方法[4]。在已標注的事件事實性信息基礎上依據(jù)規(guī)則建立三維模型(級別、極性和時態(tài)),這三類屬性由五類事實性相關信息通過一定的規(guī)則轉化而成,然后根據(jù)三類屬性對事件事實性的影響不同,制定規(guī)則,將級別、極性和時態(tài)結合推出的事件事實性。
當前,主要的中文事件事實性分析方法存在三個問題:1)通過制定規(guī)則來分析事件的事實性,識別的效率很大程度上依賴于規(guī)則制定的好壞,所以需要相關領域的專家學者來制定。這就需要較高的成本,同時不具備普遍的適用性。2)在當前規(guī)則的方法下,類別的不均衡問題導致識別性能的不均衡出現(xiàn)的更為嚴重,事件數(shù)較多的類別能取得不錯的召回率,但準確率不高,事件數(shù)較少的類別能取得不錯的準確率,但召回率偏低。3)機器學習領域的大發(fā)展推動計算機相關研究領域方向進一步發(fā)展,事件事實性識別方法本質上也可簡化成分類問題,天然的適合機器學習的方法來進行研究。
有鑒于上述的缺陷,本設計人,積極加以研究創(chuàng)新,提出一種新的中文事件事實性識別方法和系統(tǒng)。
術語解釋:
事件(Event):在真實世界中已經/可能/將要發(fā)生的事情,一般包括時間、地點和人物等角色,如出生、死亡、地震和車禍等事件。
事件源(Event Source):事件的敘述者,事件態(tài)度的持有者。
事件選擇謂詞(Event Selecting Predicate):通常以事件觸發(fā)詞的上層謂詞形式出現(xiàn),代表事件敘述者對事件的立場與態(tài)度。不同的謂詞,對其包含事件的可信度影響不同。1)意見型謂詞(如建議、認為)表示可能;2)證明型謂詞(顯示、證明)表示確定等。因此,謂詞有級別屬性,表示不同的謂詞對事件事實性的不同的確定程度。
程度詞(Degree):用于表示事實性的確定性程度或者事件發(fā)生的時間,此類詞一般包含兩個屬性:時態(tài)和級別??煞譃槿悾?)時態(tài)程度詞(純時態(tài)詞,多為表示時間的副詞或名詞,級別屬性為無);2)級別程度詞(多用于修飾動詞,表示事件的確定性程度,時態(tài)屬性為無);3)混合程度詞(既表示事件的時態(tài)也表示事件的確定性程度,既包含時態(tài)屬性也包含級別屬性)。
否定詞(Negative):表示否定意義的詞,一般為副詞,也有動詞的情形,對事件的極性有著決定性的影響。
情態(tài)(Modality):該屬性用于表示該事件是否是在真實世界中發(fā)生的事件。一般有兩個值:Asserted(確定的)和Other(其他)。
極性(Polarity):表示事件是否發(fā)生,是為正,否為負。
時態(tài)(Tense):表示事件發(fā)生時間,有“過去”、“現(xiàn)在”和“將來”三種。
級別(Degree):表示事件發(fā)生的可能性,有“確定”、“可能”和“不確定”三種。
事件事實性(Event Factuality):表示事件的敘述者,也可稱為事件源,對事件發(fā)生與否的確定性程度。本文使用語料庫將事件的事實性分為五類:“當然發(fā)生”、“當然不發(fā)生”、“可能發(fā)生”、“可能不發(fā)生”和“不確定”。
正確率(Accuracy):系統(tǒng)正確識別時序關系的事件對個數(shù)占所有事件對的比例,是衡量事件時序關系識別性能的指標。
語料庫文檔:每個語料庫文檔由一系列不同類型的事件句組成,而每個事件句包含一系列中文事件。其中,每個事件句標注有所屬的“事件句ID”(用于標識唯一性)、“事件句情態(tài)”和“事件句時態(tài)”。其中的每個中文事件分別標注了當前事件的事實性相關信息,包括“事件文本”、“事件源”、“事件選擇謂詞”、“程度詞”和“否定詞”。另外,標注語料庫標注了當前事件的事實性信息,而測試語料庫并未標注。
參考文獻:
[1]曹媛,朱巧明,李培峰.中文事件事實性信息語料庫的構建方法[J].中文信息學報,2013,27(6):38-44.
[2]曹韻.主觀性與主觀化簡析[J].黑龍江教育學院學報.2013(4):137-138.
[3]劉碧輝.文學語言的不確定性[J].廣東培正學院學報.2013(4):47-50.
[4]CAO Yuan,ZHUQiaoming,LIPeifeng.3D Representation of Chinese Event Factuality[C]//Chinese Lexical Semantic Workshop.2014:7-13.
[5]SauríR.A factuality profiler for eventualities in text[M].ProQuest,2008.
[6]SauríR,Pustejovsky J.FactBank:a corpus annotated with event factuality.[J].Language Resources&Evaluation,2009,43(3):227-268.
[7]Diab M T,Levin L,Mitamura T,et al.Committed belief annotation and tagging[C]//Linguistic Annotation Workshop.Association for Computational Linguistics.2009:68-73.
[8]Prabhakaran V,Rambow O,Diab M.Automat-ic committed belief tagging[C]//International Conference on Computational Linguistics.2010:1014-1022.
[9]Velldal E,Read J.Factuality detection on the cheap:inferring factuality for increased precision in detecting negated events[C]//Proceedings of the Workshop on ExtraPropositional Aspects of Meaning in Computational Linguistics.2012:28-36.
[10]QIAN Zhong,LI Peifeng,ZHUQiaoming.A Two-Step Approach for Event Factuality Identification[C]//The 19th International Conference on Asian Language Processing.2015:10-16.
[11]Kilicoglu H,Rosemblat G,Cairelli M J,et al.A Compositional Interpretation of Biomedical Event Factuality[J].ExProM 2015,2015,22(3):16-26.
[12]G,J,B D.Are You for Real?Learning Event Factuality in Croatian Texts[C]//Information Society 2012-Con-ference on Data Mining and Data Warehouse-s.2012:18-22.
Lee K,Artzi Y,Choi Y,et al.Event Detect-ion and Factuality Assessment with NonExpert Supervision[J].Computer Science&Engineering,2015,12(2):18-24.
技術實現(xiàn)要素:
為解決上述技術問題,本發(fā)明的目的是提供一種中文事件事實性識別方法和系統(tǒng),利用事件事實性信息和它們之間的聯(lián)系,采用機器學習和推理相結合的方法來識別中文事件的事實性。本發(fā)明的方法和系統(tǒng),與現(xiàn)有的方法和系統(tǒng)相比,總體的識別性能有所提升,同時,在處理類別的不均衡問題上有更好的效果,尤其在事件數(shù)目較少的類別的事實性識別上有明顯的性能提升。
本發(fā)明的中文事件事實性識別方法,其特征在于:用于識別中文事件的事實性,包括步驟:
S10、從預先標注了各類事實性信息的標注語料庫中抽取中文事件的事實性相關信息及其真實事實性構造基本的標注語料集合;從預先標注了各類事實性信息的測試語料庫中抽取中文事件的事實性相關信息構造基本的測試語料集合;
S20、在標注語料集合上,針對每個中文事件的事實性相關信息,使用規(guī)則的方法,進行特征的處理、轉化和融合,得到一系列事實性相關特征,再加入事件的真實事實性,構造出標注語料特征集合;
在測試語料集合上,針對每個中文事件的事實性相關信息,使用相同規(guī)則的方法,進行特征的處理、轉化和融合,得到一系列事實性相關特征,構造出測試語料特征集合;
S30、根據(jù)標注語料特征集合中各個事件的特征,訓練一個最大熵事件事實性識別模型,再利用最大熵事件事實性識別模型識別測試語料特征集合中事件的事實性。
進一步的,所述步驟S10的具體過程如下:
S101、從標注語料庫中將每個事件所屬事件句的“事件句情態(tài)”和“事件句時態(tài)”信息抽取出來,同時,從當前事件信息中抽取事件的“事件源”、“事件選擇謂詞”、“程度詞”和“否定詞”,最后,抽取該事件的真實“事件事實性”,構造出標注語料集合;
從測試語料庫中將每個事件所屬事件句的“事件句情態(tài)”和“事件句時態(tài)”抽取出來,同時,從當前事件信息中抽取出事件的“事件源”、“事件選擇謂詞”、“程度詞”和“否定詞”,構造出測試語料集合;
其中,事件句情態(tài)是event結點的Modality屬性值,事件句時態(tài)是event結點的Tense屬性值,事件源是source結點值,事件選擇謂詞是event_selecting_predicates結點值,并包括LEVEL這個級別屬性,程度詞為degree的結點值,包括LEVEL級別屬性值和TENSE時態(tài)屬性值,否定詞為negative_word的結點值。
進一步的,所述步驟S20的具體過程如下:
S201、事件句特征處理,選取每個事件所屬的事件句情態(tài)和時態(tài)信息作為特征,并以此構造語料特征集合;
在標注語料集合中,選取每個事件所屬的事件句的情態(tài)和時態(tài)信息作為事件句特征,并構造標注語料特征集合;
在測試語料集合中,選取每個事件所屬的事件句的情態(tài)和時態(tài)信息作為事件句特征,并構造測試語料特征集合;
S202、詞匯級特征處理,對每個事件的事件源、否定詞和程度詞進行詞性標注,進而選取此三者詞性作為詞匯級特征,并加入到語料特征集合中;
在標注語料集合中,使用詞性標注工具對事件源、否定詞和程度詞三類詞匯信息進行詞性標注,選取它們的詞性作為特征,若當前事件不存在以上某一詞匯,則默認其對應詞性特征為“無”,并將此三類信息加入到語料特征集合中;
在測試語料集合中,使用詞性標注工具對事件源、否定詞和程度詞三類詞匯信息進行詞性標注,選取它們的詞性作為特征,若當前事件不存在以上某一詞匯,則默認其對應詞性特征為“無”,并將此三類信息加入到語料特征集合中;
S203、謂詞級別特征處理,對每個事件的事件選擇謂詞的級別屬性進行規(guī)則轉化,進而獲取謂詞級別特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件按規(guī)則轉化其事件選擇謂詞的級別屬性,進而獲取謂詞級別特征;
在測試語料集合中,對每個事件按規(guī)則轉化其事件選擇謂詞的級別屬性,進而獲取謂詞級別特征;
考慮到有部分事件包含多個事件選擇謂詞,其具體轉化規(guī)則如下:
(1)首先默認當前事件的謂詞級別特征為“無”;
(2)如果當前事件僅存在單個事件選擇謂詞,則選擇其級別屬性作為謂詞級別特征;
(3)如果當前事件存在多個事件選擇謂詞,則按照“不確定”>“可能”>“確定”的優(yōu)先級順序進行選擇性獲取,作為謂詞級別特征;
S204、程度詞屬性特征處理,對每個事件的程度詞時態(tài)和級別進行特征轉化,獲取程度詞的時態(tài)特征和級別特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件的程度詞時態(tài)和級別按規(guī)則進行特征轉化,獲取程度詞的時態(tài)特征和級別特征,即程度詞屬性特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的程度詞時態(tài)和級別按規(guī)則進行特征轉化,獲取程度詞的時態(tài)特征和級別特征,即程度詞屬性特征,并加入到語料特征集合中;
程度詞包含時態(tài)和級別兩種屬性,分別對其時態(tài)和級別進行特征轉化,形成程度詞時態(tài)特征和程度詞級別特征;
由于存在三種程度詞,即時態(tài)程度詞(包含時態(tài),級別為“無”)、級別程度詞(包含級別,時態(tài)為“無”)和混合程度詞(既包含時態(tài)也包含級別),則需進行如下的特征轉化:
程度詞時態(tài)特征將由時態(tài)程度詞和混合程度詞的時態(tài)進行簡單的詞匯組合,形成程度詞時態(tài)特征,如存在時態(tài)程度詞“明天”(級別為“無”,時態(tài)為“將來”),混合程度詞“被”(級別為“確定”,時態(tài)為“過去”),則其時態(tài)特征為“將來_過去”;
程度詞級別特征將按如下規(guī)則進行轉化:
(1)首先默認當前事件的程度詞級別特征為“無”;
(2)如果當前事件僅存在單個包含級別的程度詞(級別程度詞和混合程度詞都包含級別屬性),則選擇其級別作為程度詞級別特征;
(3)如果當前事件存在多個包含級別的程度詞(級別程度詞和混合程度詞都包含級別屬性),則按照“不確定”>“可能”>“確定”優(yōu)先級對這些程度詞的級別屬性進行選擇性獲取,作為程度詞級別特征;
S205、級別特征處理,對每個事件的事件選擇謂詞的級別和程度詞的級別進行規(guī)則轉化,進而獲取級別特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件的事件選擇謂詞的級別和程度詞的級別按規(guī)則進行特征轉化,獲取級別特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的事件選擇謂詞的級別和程度詞的級別按規(guī)則進行特征轉化,獲取級別特征,并加入到語料特征集合中;
具體的轉化規(guī)則如下:
(1)首先默認當前事件的級別特征為“確定”;
(2)如果當前事件中存在事件選擇謂詞或者包含級別的程度詞,若它們的級別是一致的,則選擇該級別作為級別特征,若不一致,則按照“不確定”>“可能”>“確定”的優(yōu)先級對這些級別屬性進行選擇性獲取,作為級別特征;
S206、極性特征處理,依據(jù)每個事件的否定詞的個數(shù)對其進行特征處理,得到極性特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件進行極性特征處理,若否定詞個數(shù)為偶數(shù),則極性特征為“正”,若為奇數(shù),則極性特征為“負”,繼而獲取極性特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件進行極性特征處理,若否定詞個數(shù)為偶數(shù),則極性特征為“正”,若為奇數(shù),則極性特征為“負”,繼而獲取極性特征,并加入到語料特征集合中;
S207、時態(tài)特征處理,依據(jù)每個事件的所屬事件句時態(tài)和其包含時態(tài)的程度詞(時態(tài)程度詞和混合程度詞都包含時態(tài)),進行規(guī)則轉化,獲取時態(tài)特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件的所屬事件句時態(tài)和包含時態(tài)的程度詞(時態(tài)程度詞和混合程度詞都包含時態(tài))按照規(guī)則進行轉化,進而獲取時態(tài)特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的所屬事件句時態(tài)和包含時態(tài)的程度詞(時態(tài)程度詞和混合程度詞都包含時態(tài))按照規(guī)則進行轉化,進而獲取時態(tài)特征,并加入到語料特征集合中;
具體的轉化規(guī)則如下:
(1)首先默認事件的時態(tài)為“過去”;
(2)如果當前事件中存在時態(tài)程度詞(包含時態(tài),級別為“無”),則以時態(tài)程度詞的時態(tài)為準,若僅存在單個時態(tài)程度詞,則選擇其時態(tài)作為時態(tài)特征,若存在多個時態(tài)程度詞,則按照“過去”>“現(xiàn)在”>“將來”的優(yōu)先級進行選擇性獲取,作為最終的時態(tài)特征,后續(xù)的步驟將不再進行;
(3)如果當前事件中存在混合程度詞(包含時態(tài)和級別兩種屬性),則以混合程度詞的時態(tài)為準,若僅存在單個混合程度詞,則選擇其時態(tài)作為時態(tài)特征,若存在多個混合程度詞,則同樣按照“過去”>“現(xiàn)在”>“將來”的優(yōu)先級進行選擇性獲取,作為最終的時態(tài)特征,后續(xù)的步驟將不再進行;
(4)如果當前事件中既不存在時態(tài)程度詞也不存在混合程度詞,則此時考慮其所屬事件句的時態(tài),若所屬事件句的時態(tài)為“Future”,則置其時態(tài)特征為“將來”;
具體的轉化規(guī)則如下:
(1)將事件的級別與極性結合出初始事實性特征;
(2)將初始事實性特征與時態(tài)結合出最終的事件事實性特征;
S208、事實性特征處理,在經過步驟S201~S207后,將獲取到的事件級別特征、極性特征和時態(tài)特征按照規(guī)則進行特征轉化,構造出事件事實性特征,并加入到語料特征集合中;
在標注語料集合中,對獲取到的事件級別特征、極性特征和時態(tài)特征的按照規(guī)則進行轉化,進而構造出事實性特征,并加入到語料特征集合中;
在測試語料集合中,對獲取到的事件級別特征、極性特征和時態(tài)特征的按照規(guī)則進行轉化,進而構造出事實性特征,并加入到語料特征集合中。
進一步的,所述步驟S30的具體過程如下:
S301、將標注語料特征集合中的事件的特征作為輸入,調用最大熵分類工具訓練得到一個最大熵事件事實性識別模型;所述的最大熵事件事實性識別模型包括標注語料特征集合、訓練得到的參數(shù)和最大熵分類工具;
S302、把測試語料特征集合中的事件特征作為輸入,調用最大熵事件事實性識別模型識別每個事件的事實性。
本發(fā)明的中文事件事實性識別系統(tǒng),包括:
事件預處理模塊,用于從預先標注了各類事實性信息的標注語料庫中抽取中文事件的事實性相關信息及其真實事實性構造基本的標注語料集合;從預先標注了各類事實性信息的測試語料庫中抽取中文事件的事實性相關信息構造基本的測試語料集合;
事件特征處理模塊,用于在標注語料集合的上,針對每個中文事件的事實性相關信息,使用規(guī)則的方法,進行特征的處理、轉化和融合,得到一系列事實性相關特征,再加入事件的真實事實性,繼而構造出標注語料特征集合;
在測試語料集合的上,針對每個中文事件的事實性相關信息,使用相同規(guī)則的方法,進行特征的處理、轉化和融合,得到一系列事實性相關特征,繼而構造出測試語料特征集合;
事件事實性推理模塊,用于根據(jù)標注語料特征集合中各個事件的特征,訓練一個最大熵事件事實性識別模型,再利用最大熵事件事實性識別模型識別測試語料特征集合中事件的事實性。
進一步的,所述事件預處理模塊的具體包括:
事件事實性信息抽取單元,用于從標注語料庫中將每個事件所屬事件句的“事件句情態(tài)”和“事件句時態(tài)”信息抽取出來,同時,從當前事件信息中抽取事件的“事件源”、“事件選擇謂詞”、“程度詞”和“否定詞”,最后,抽取該事件的真實“事件事實性”,并構造出標注語料集合;
從測試語料庫中將每個事件所屬事件句的“事件句情態(tài)”和“事件句時態(tài)”抽取出來,同時,從當前事件信息中抽取出事件的“事件源”、“事件選擇謂詞”、“程度詞”和“否定詞”,構造出測試語料集合;
其中,事件句情態(tài)是event結點的Modality屬性值,事件句時態(tài)是event結點的Tense屬性值,事件源是source結點值,事件選擇謂詞是event_selecting_predicates結點值,并包括LEVEL這個級別屬性,程度詞為degree的結點值,包括LEVEL級別屬性值和TENSE時態(tài)屬性值,否定詞為negative_word的結點值。
進一步的,所述事件特征處理模塊具體包括:
事件句特征處理單元,用于事件句特征的處理,選取每個事件所屬的事件句情態(tài)和時態(tài)信息作為特征,并以此構造語料特征集合;
在標注語料集合中,選取每個事件所屬的事件句的情態(tài)和時態(tài)信息作為事件句特征,并構造標注語料特征集合;
在測試語料集合中,選取每個事件所屬的事件句的情態(tài)和時態(tài)信息作為事件句特征,并構造測試語料特征集合;
詞匯級特征處理單元,用于詞匯級特征的處理,對每個事件的事件源、否定詞和程度詞進行詞性標注,進而選取此三者詞性作為詞匯級特征,并加入到語料特征集合中;
在標注語料集合中,使用詞性標注工具對事件源、否定詞和程度詞三類詞匯信息進行詞性標注,選取它們的詞性作為特征,若當前事件不存在以上某一詞匯,則默認其對應詞性特征為“無”,并將此三類信息加入到語料特征集合中;
在測試語料集合中,使用詞性標注工具對事件源、否定詞和程度詞三類詞匯信息進行詞性標注,選取它們的詞性作為特征,若當前事件不存在以上某一詞匯,則默認其對應詞性特征為“無”,并將此三類信息加入到語料特征集合中;
謂詞級別特征處理單元,用于謂詞級別特征的處理,對每個事件的事件選擇謂詞的級別屬性進行規(guī)則轉化,進而獲取謂詞級別特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件按規(guī)則轉化其事件選擇謂詞的級別屬性,進而獲取謂詞級別特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件按規(guī)則轉化其事件選擇謂詞的級別屬性,進而獲取謂詞級別特征,并加入到語料特征集合中;
考慮到有部分事件包含多個事件選擇謂詞,其具體轉化規(guī)則如下:
(1)首先默認當前事件的謂詞級別特征為“無”;
(2)如果當前事件僅存在單個事件選擇謂詞,則選擇其級別屬性作為謂詞級別特征;
(3)如果當前事件存在多個事件選擇謂詞,則按照“不確定”>“可能”>“確定”的優(yōu)先級順序進行選擇性獲取,作為謂詞級別特征;
程度詞屬性特征處理單元,用于程度詞屬性特征的處理,對每個事件的程度詞時態(tài)和級別進行特征轉化,獲取程度詞的時態(tài)特征和級別特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件的程度詞時態(tài)和級別按規(guī)則進行特征轉化,獲取程度詞的時態(tài)特征和級別特征,即程度詞屬性特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的程度詞時態(tài)和級別按規(guī)則進行特征轉化,獲取程度詞的時態(tài)特征和級別特征,即程度詞屬性特征,并加入到語料特征集合中;
程度詞包含時態(tài)和級別兩種屬性,分別對其時態(tài)和級別進行特征轉化,形成程度詞時態(tài)特征和程度詞級別特征;
由于存在三種程度詞,即時態(tài)程度詞(包含時態(tài),級別為“無”)、級別程度詞(包含級別,時態(tài)為“無”)和混合程度詞(既包含時態(tài)也包含級別),則需進行如下的特征轉化;
程度詞時態(tài)特征將由時態(tài)程度詞和混合程度詞的時態(tài)進行簡單的詞匯組合,形成程度詞時態(tài)特征,如存在時態(tài)程度詞“明天”(級別為“無”,時態(tài)為“將來”),混合程度詞“被”(級別為“確定”,時態(tài)為“過去”),則其時態(tài)特征為“將來_過去”;
程度詞級別特征將按如下規(guī)則進行轉化:
(1)首先默認當前事件的程度詞級別特征為“無”;
(2)如果當前事件僅存在單個包含級別的程度詞(級別程度詞和混合程度詞都包含級別屬性),則選擇其級別作為程度詞級別特征;
(3)如果當前事件存在多個包含級別的程度詞(級別程度詞和混合程度詞都包含級別屬性),則按照“不確定”>“可能”>“確定”優(yōu)先級對這些程度詞的級別屬性進行選擇性獲取,作為程度詞級別特征;
級別特征處理單元,用于級別特征的處理,對每個事件的事件選擇謂詞的級別和程度詞的級別進行規(guī)則轉化,進而獲取級別特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件的事件選擇謂詞的級別和程度詞的級別按規(guī)則進行特征轉化,獲取級別特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的事件選擇謂詞的級別和程度詞的級別按規(guī)則進行特征轉化,獲取級別特征,并加入到語料特征集合中;
具體的轉化規(guī)則如下:
(1)首先默認當前事件的級別特征為“確定”;
(2)如果當前事件中存在事件選擇謂詞或者包含級別的程度詞,若它們的級別是一致的,則選擇該級別作為級別特征,若不一致,則按照“不確定”>“可能”>“確定”的優(yōu)先級對這些級別屬性進行選擇性獲取,作為級別特征;
極性特征處理單元,用于極性特征的處理,依據(jù)每個事件的否定詞的個數(shù)對其進行特征處理,得到極性特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件進行極性特征處理,若否定詞個數(shù)為偶數(shù),則極性特征為“正”,若為奇數(shù),則極性特征為“負”,繼而獲取極性特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件進行極性特征處理,若否定詞個數(shù)為偶數(shù),則極性特征為“正”,若為奇數(shù),則極性特征為“負”,繼而獲取極性特征,并加入到語料特征集合中;
時態(tài)特征處理單元,用于時態(tài)特征的處理,依據(jù)每個事件的所屬事件句時態(tài)和其包含時態(tài)的程度詞(時態(tài)程度詞和混合程度詞都包含時態(tài)),進行規(guī)則轉化,獲取時態(tài)特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件的所屬事件句時態(tài)和包含時態(tài)的程度詞(時態(tài)程度詞和混合程度詞都包含時態(tài))按照規(guī)則進行轉化,進而獲取時態(tài)特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的所屬事件句時態(tài)和包含時態(tài)的程度詞(時態(tài)程度詞和混合程度詞都包含時態(tài))按照規(guī)則進行轉化,進而獲取時態(tài)特征,并加入到語料特征集合中;
具體的轉化規(guī)則如下:
(1)首先默認事件的時態(tài)為“過去”;
(2)如果當前事件中存在時態(tài)程度詞(包含時態(tài),級別為“無”),則以時態(tài)程度詞的時態(tài)為準,若僅存在單個時態(tài)程度詞,則選擇其時態(tài)作為時態(tài)特征,若存在多個時態(tài)程度詞,則按照“過去”>“現(xiàn)在”>“將來”的優(yōu)先級進行選擇性獲取,作為最終的時態(tài)特征,后續(xù)的步驟將不再進行;
(3)如果當前事件中存在混合程度詞(包含時態(tài)和級別兩種屬性),則以混合程度詞的時態(tài)為準,若僅存在單個混合程度詞,則選擇其時態(tài)作為時態(tài)特征,若存在多個混合程度詞,則同樣按照“過去”>“現(xiàn)在”>“將來”的優(yōu)先級進行選擇性獲取,作為最終的時態(tài)特征,后續(xù)的步驟將不再進行;
(4)如果當前事件中既不存在時態(tài)程度詞也不存在混合程度詞,則此時考慮其所屬事件句的時態(tài),若所屬事件句的時態(tài)為“Future”,則置其時態(tài)特征為“將來”;
事實性特征處理單元,用于事實性特征處理,將獲取到的事件級別特征、極性特征和時態(tài)特征按照規(guī)則進行特征轉化,構造出事件事實性特征,并加入到語料特征集合中;
在標注語料集合中,對獲取到的事件級別特征、極性特征和時態(tài)特征的按照規(guī)則進行轉化,進而構造出事實性特征,并加入到語料特征集合中;
在測試語料集合中,對獲取到的事件級別特征、極性特征和時態(tài)特征的按照規(guī)則進行轉化,進而構造出事實性特征,并加入到語料特征集合中;
具體的轉化規(guī)則如下:
(1)將事件的級別與極性結合出初始事實性特征;
(2)將初始事實性特征與時態(tài)結合出最終的事件事實性特征。
進一步的,所述事件事實性推理模塊的具體包括:
事件事實性模型訓練單元,用于將標注語料特征集合中的事件的特征作為輸入,調用最大熵分類工具訓練得到一個最大熵事件事實性識別模型;所述最大熵事件事實性識別模型包括標注語料特征集合、訓練得到的參數(shù)和最大熵分類工具;
事件事實性識別單元,用于把測試語料特征集合中的事件特征作為輸入,調用最大熵事件事實性識別模型識別每個事件的事實性。
借由上述方案,本發(fā)明使用了事件句的事實性信息,事件句中每個中文事件的基本信息及其事實性信息,并充分利用了它們之間的關系,運用語言學知識通過規(guī)則的方法構造出更有利于最大熵分類器訓練的特征,從而提高事件事實性識別的性能;本發(fā)明在現(xiàn)有標準語料庫中測試結果表明,本發(fā)明與現(xiàn)有方法相比在正確率上提高了3.35%,同時在處理類別不均衡問題時,具有更好的識別效果。
上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,并可依照說明書的內容予以實施,以下以本發(fā)明的較佳實施例并配合附圖詳細說明如后。
附圖說明
圖1是本發(fā)明中文事件事實性識別方法的流程圖;
圖2是本發(fā)明事件預處理的流程圖;
圖3是本發(fā)明事件事實性特征轉化的流程圖;
圖4是事實性特征處理的具體轉化過程中將事件的級別與極性結合出初始事實性特征表;
圖5是事實性特征處理的具體轉化過程中將初始事實性特征與時態(tài)結合出最終的事件事實性特征表;
圖6是本發(fā)明事件事實性推理的流程圖;
圖7是本發(fā)明中文事件事實性識別系統(tǒng)的結構圖;
圖8是本發(fā)明事件預處理模塊的結構圖;
圖9是本發(fā)明事件事實性特征轉化模塊的結構圖;
圖10是本發(fā)明事件事實性推理模塊的結構圖。
具體實施方式
下面結合一個具體的實例,對本發(fā)明的具體實施方式作進一步詳細描述。以下實例用于說明本發(fā)明,并不用于限制本發(fā)明的范圍。
為了簡化說明流程,下面將結合例圖說明本發(fā)明的實施過程。
一種中文事件事實性識別方法,如圖1所示,包括步驟:
S10,從預先標注了各類事實性信息的標注語料庫中抽取中文事件的事實性相關信息及其真實事實性構造基本的標注語料集合;從預先標注了各類事實性信息的測試語料庫中抽取中文事件的事實性相關信息構造基本的測試語料集合。
其中,如圖2所示,S10的具體過程如下:
S101,從標注語料庫中將每個事件所屬事件句的“事件句情態(tài)”和“事件句時態(tài)”信息抽取出來,同時,從當前事件信息中抽取事件的“事件源”、“事件選擇謂詞”、“程度詞”和“否定詞”,最后,抽取該事件的真實“事件事實性”,并構造出標注語料集合;
從測試語料庫中將每個事件所屬事件句的“事件句情態(tài)”和“事件句時態(tài)”抽取出來,同時,從當前事件信息中抽取出事件的“事件源”、“事件選擇謂詞”、“程度詞”和“否定詞”,繼而構造出測試語料集合。
其中,事件句情態(tài)是event結點的Modality屬性值,事件句時態(tài)是event結點的Tense屬性值,事件源是source結點值,事件選擇謂詞是event_selecting_predicates結點值,并包括LEVEL這個級別屬性,程度詞為degree的結點值,包括LEVEL級別屬性值和TENSE時態(tài)屬性值,否定詞為negative_word的結點值(如例1所示)。
例1:檢警人員擔心[級別:可能]她可能[時態(tài):無,級別:可能]真的就這樣不回臺灣了,目前正密切透過駐外人員和國際合作試圖掌握朱婉清的行蹤。
如例1所示,抽取出其所屬的事件句情態(tài)(event結點的Modality屬性)為“Other”,其事件句時態(tài)(event結點Tense屬性)為“Unspecified”;
然后,抽取出事件的事件源(souce結點)為“檢警人員”,事件選擇謂詞(event_selecting_predicates結點)為“擔心”,其級別(event_selecting_predicates結點LEVEL屬性)為“可能”;
最后,抽取事件的程度詞(degree結點)為“可能”,其級別(degree結點LEVEL屬性)為“可能”,其時態(tài)(degree結點TENSE屬性)為“無”,否定詞(negative_word結點)為“不”;事件真實的事實性(Factual結點)為“可能不發(fā)生”,另外,測試語料庫中無事件事實性,不需抽取。
抽取出以上信息后,標注語料集合內的信息構造如例2所示,而測試語料集合內的信息構造如例3所示。
例2:Modality:Other/Tense:Unspecified/Source:檢警人員/ESP_Word:擔心/ESP_Level:可能/Degree_Word:可能/Degree_Level:可能/Degree_Tense=無/Negative:不/Facutuality:可能不發(fā)生。
例3:Modality:Other/Tense:Unspecified/Source:檢警人員/ESP_Word:擔心/ESP_Level:可能/Degree_Word:可能/Degree_Level:可能/Degree_Tense=無/Negative:不。
S20,在標注語料集合上,針對每個中文事件的事實性相關信息,使用規(guī)則的方法,進行特征的處理、轉化和融合,得到一系列事實性相關特征,再加入事件的真實事實性,繼而構造出標注語料特征集合;
在測試語料集合上,針對每個中文事件的事實性相關信息,使用相同規(guī)則的方法,進行特征的處理、轉化和融合,得到一系列事實性相關特征,繼而構造出測試語料特征集合。
其中,如圖3所示,S20的具體過程如下:
S201,事件句特征處理,選取每個事件所屬的事件句情態(tài)和時態(tài)信息作為特征,并以此構造語料特征集合;
在標注語料集合中,選取每個事件所屬的事件句的情態(tài)和時態(tài)信息作為事件句特征,并構造標注語料特征集合;
在測試語料集合中,選取每個事件所屬的事件句的情態(tài)和時態(tài)信息作為事件句特征,并構造測試語料特征集合。
如例2和例3所示,其事件句情態(tài)為“Other”,事件句時態(tài)為“Unspecified”。將此兩者信息直接作為特征抽取出來構造特征集合,標注語料特征集合和測試語料特征集合經相同處理后均如例4所示。
例4:<1=Other><2=Unspecified>。
S202,詞匯級特征處理,對每個事件的事件源、否定詞和程度詞進行詞性標注,進而選取此三者詞性作為詞匯級特征,并加入到語料特征集合中。
在標注語料集合中,使用詞性標注工具對事件源、否定詞和程度詞三類詞匯信息進行詞性標注,選取它們的詞性作為特征,若當前事件不存在以上某一詞匯,則默認其對應詞性特征為“無”,并將此三類信息加入到語料特征集合中。
在測試語料集合中,使用詞性標注工具對事件源、否定詞和程度詞三類詞匯信息進行詞性標注,選取它們的詞性作為特征,若當前事件不存在以上某一詞匯,則默認其對應詞性特征為“無”,并將此三類信息加入到語料特征集合中。
在例2和例3中,事件源“檢警人員”被標注為“NN”,否定詞“不”被標注為“AD”,程度詞“可能”被標注“VV”。將此三類信息作為特征加入到語料特征集合中,則標注語料特征集合和測試語料特征集合經相同處理后均如例5所示。
例5:<1=Other><2=Unspecified><3=NN><4=AD><5=VV>。
S203,謂詞級別特征處理,對每個事件的事件選擇謂詞的級別屬性進行規(guī)則轉化,進而獲取謂詞級別特征,并加入到語料特征集合中。
在標注語料集合中,對每個事件按規(guī)則轉化其事件選擇謂詞的級別屬性,進而獲取謂詞級別特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件按規(guī)則轉化其事件選擇謂詞的級別屬性,進而獲取謂詞級別特征,并加入到語料特征集合中。
考慮到有部分事件包含多個事件選擇謂詞,其具體轉化規(guī)則如下:
(1)首先默認當前事件的謂詞級別特征為“無”;
(2)如果當前事件僅存在單個事件選擇謂詞,則選擇其級別屬性作為謂詞級別特征;
(3)如果當前事件存在多個事件選擇謂詞,則按照“不確定”>“可能”>“確定”的優(yōu)先級順序進行選擇性獲取,作為謂詞級別特征。
在例2和例3中,事件選擇謂詞為“擔心”,其級別為“可能”。因其僅存在單個事件選擇謂詞,則經過轉化后,其謂詞級別特征為“可能”。將此特征加入到語料特征集合中,則標注語料特征集合和測試語料特征集合經相同處理后均如例6所示。
例6:<1=Other><2=Unspecified><3=NN><4=AD><5=VV><6=可能>。
S204,程度詞屬性特征處理,對每個事件的程度詞時態(tài)和級別進行特征轉化,獲取程度詞的時態(tài)特征和級別特征,并加入到語料特征集合中。
在標注語料集合中,對每個事件的程度詞時態(tài)和級別按規(guī)則進行特征轉化,獲取程度詞的時態(tài)特征和級別特征,即程度詞屬性特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的程度詞時態(tài)和級別按規(guī)則進行特征轉化,獲取程度詞的時態(tài)特征和級別特征,即程度詞屬性特征,并加入到語料特征集合中。
程度詞包含時態(tài)和級別兩種屬性,分別對其時態(tài)和級別進行特征轉化,形成程度詞時態(tài)特征和程度詞級別特征。
由于存在三種程度詞,即時態(tài)程度詞(包含時態(tài),級別為“無”)、級別程度詞(包含級別,時態(tài)為“無”)和混合程度詞(既包含時態(tài)也包含級別),則需進行如下的特征轉化。
程度詞時態(tài)特征將由時態(tài)程度詞和混合程度詞的時態(tài)進行簡單的詞匯組合,形成程度詞時態(tài)特征。如存在時態(tài)程度詞“明天”(級別為“無”,時態(tài)為“將來”),混合程度詞“被”(級別為“確定”,時態(tài)為“過去”),則其時態(tài)特征為“將來_過去”。
程度詞級別特征將按如下規(guī)則進行轉化:
(1)首先默認當前事件的程度詞級別特征為“無”;
(2)如果當前事件僅存在單個包含級別的程度詞(級別程度詞和混合程度詞都包含級別屬性),則選擇其級別作為程度詞級別特征。
(3)如果當前事件存在多個包含級別的程度詞(級別程度詞和混合程度詞都包含級別屬性),則按照“不確定”>“可能”>“確定”優(yōu)先級對這些程度詞的級別屬性進行選擇性獲取,作為程度詞級別特征。
在例2和例3中,僅存在單個表級別的程度詞“可能”(其級別為“可能”,時態(tài)為“無”),故其程度詞時態(tài)特征為“無”,程度詞級別特征為“可能”。將這兩類特征加入到語料特征集合中,則標注語料特征集合和測試語料特征集合經相同處理后均如例7所示。
例7:<1=Other><2=Unspecified><3=NN><4=AD><5=VV><6=可能><7=無><8=可能>。
S205,級別特征處理,對每個事件的事件選擇謂詞的級別和程度詞的級別進行規(guī)則轉化,進而獲取級別特征,并加入到語料特征集合中。
在標注語料集合中,對每個事件的事件選擇謂詞的級別和程度詞的級別按規(guī)則進行特征轉化,獲取級別特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的事件選擇謂詞的級別和程度詞的級別按規(guī)則進行特征轉化,獲取級別特征,并加入到語料特征集合中。
具體的轉化規(guī)則如下:
(1)首先默認當前事件的級別特征為“確定”;
(2)如果當前事件中存在事件選擇謂詞或者包含級別的程度詞,若它們的級別是一致的,則選擇該級別作為級別特征,若不一致,則按照“不確定”>“可能”>“確定”的優(yōu)先級對這些級別屬性進行選擇性獲取,作為級別特征。
在例2和例3中,事件選擇謂詞“擔心”的級別為“可能”,程度詞“可能”級別也為“可能”,故而其級別特征轉化后為“可能”。將這此級別特征加入到語料特征集合中,則標注語料特征集合和測試語料特征集合經相同處理后均如例8所示。
例8:<1=Other><2=Unspecified><3=NN><4=AD><5=VV><6=可能><7=無><8=可能><9=可能>。
S206,極性特征處理,依據(jù)每個事件的否定詞的個數(shù)對其進行特征處理,得到極性特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件進行極性特征處理,若否定詞個數(shù)為偶數(shù),則極性特征為“正”,若為奇數(shù),則極性特征為“負”,繼而獲取極性特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件進行極性特征處理,若否定詞個數(shù)為偶數(shù),則極性特征為“正”,若為奇數(shù),則極性特征為“負”,繼而獲取極性特征,并加入到語料特征集合中。
在例2和例3中,存在一個否定詞“不”,則其極性特征為“負”。將這此極性特征加入到語料特征集合中,則標注語料特征集合和測試語料特征集合經相同處理后均如例9所示。
例9:<1=Other><2=Unspecified><3=NN><4=AD><5=VV><6=可能><7=無><8=可能><9=可能><10=負>。
S207,時態(tài)特征處理,依據(jù)每個事件的所屬事件句時態(tài)和其包含時態(tài)的程度詞(時態(tài)程度詞和混合程度詞都包含時態(tài)),進行規(guī)則轉化,獲取時態(tài)特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件的所屬事件句時態(tài)和包含時態(tài)的程度詞(時態(tài)程度詞和混合程度詞都包含時態(tài))按照規(guī)則進行轉化,進而獲取時態(tài)特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的所屬事件句時態(tài)和包含時態(tài)的程度詞(時態(tài)程度詞和混合程度詞都包含時態(tài))按照規(guī)則進行轉化,進而獲取時態(tài)特征,并加入到語料特征集合中。
具體的轉化規(guī)則如下:
(1)首先默認事件的時態(tài)為“過去”;
(2)如果當前事件中存在時態(tài)程度詞(包含時態(tài),級別為“無”),則以時態(tài)程度詞的時態(tài)為準,若僅存在單個時態(tài)程度詞,則選擇其時態(tài)作為時態(tài)特征,若存在多個時態(tài)程度詞,則按照“過去”>“現(xiàn)在”>“將來”的優(yōu)先級進行選擇性獲取,作為最終的時態(tài)特征,后續(xù)的步驟將不再進行;
(3)如果當前事件中存在混合程度詞(包含時態(tài)和級別兩種屬性),則以混合程度詞的時態(tài)為準,若僅存在單個混合程度詞,則選擇其時態(tài)作為時態(tài)特征,若存在多個混合程度詞,則同樣按照“過去”>“現(xiàn)在”>“將來”的優(yōu)先級進行選擇性獲取,作為最終的時態(tài)特征,后續(xù)的步驟將不再進行;
(4)如果當前事件中既不存在時態(tài)程度詞也不存在混合程度詞,則此時考慮其所屬事件句的時態(tài),若所屬事件句的時態(tài)為“Future”,則置其時態(tài)特征為“將來”。
在例2和例3中,首先默認時態(tài)特征為“過去”,但其僅存在級別程度詞“可能”(其級別為“可能”,時態(tài)為“無”),不存在時態(tài)程度詞和混合程度詞,同時事件句時態(tài)為“Unspecified”而不是“Future”,不滿足轉化條件,故其時態(tài)特征為“過去”。將這此時態(tài)特征加入到語料特征集合中,則標注語料特征集合和測試語料特征集合經相同處理后均如例10所示。
例10:<1=Other><2=Unspecified><3=NN><4=AD><5=VV><6=可能><7=無><8=可能><9=可能><10=負><11=過去>。
S208,事實性特征處理,在經過上述步驟后,將獲取到的事件級別特征、極性特征和時態(tài)特征按照規(guī)則進行特征轉化,構造出事件事實性特征,并加入到語料特征集合中;
在標注語料集合中,對獲取到的事件級別特征、極性特征和時態(tài)特征的按照規(guī)則進行轉化,進而構造出事實性特征,并加入到語料特征集合中;
在測試語料集合中,對獲取到的事件級別特征、極性特征和時態(tài)特征的按照規(guī)則進行轉化,進而構造出事實性特征,并加入到語料特征集合中。
具體的轉化規(guī)則如下:
(1)將事件的級別與極性結合出初始事實性特征,如圖4所示,在例10中,事件的級別為“可能”,極性為“負”,則其初始事實性特征為“可能不發(fā)生”;
(2)將初始事實性特征與時態(tài)結合出最終的事件事實性特征,如圖5所示,在例10中,事件時態(tài)為“過去”且其初始事實性特征為“可能不發(fā)生”,則其最終的事實性特征為“可能不發(fā)生”。將這此事實性特征加入到語料特征集合中,則標注語料特征集合和測試語料特征集合經相同處理后均如例11所示。
例11:<1=Other><2=Unspecified><3=NN><4=AD><5=VV><6=可能><7=無><8=可能><9=可能><10=負><11=過去><12=可能不發(fā)生>。
另外,在處理完上述特征后,需在標注語料特征集合的事件特征后加上其事件真實事實性,從例2中可知事件真實事實性為“可能不發(fā)生”,則構造完畢后的標注語料特征集合如例12所示:
例12:<1=Other><2=Unspecified><3=NN><4=AD><5=VV><6=可能><7=無><8=可能><9=可能><10=負><11=過去><12=可能不發(fā)生><Label=可能不發(fā)生>。
而測試語料特征集合不需加入真實事實性,例3處理后即如例11所示。
S30,根據(jù)標注語料特征集合中各個事件的特征,訓練一個最大熵事件事實性識別模型,再利用最大熵事件事實性識別模型識別測試語料特征集合中事件的事實性。
其中,如圖6所示,S30的具體過程如下:
S301,將標注語料特征集合中的事件的特征作為輸入,調用最大熵分類工具訓練得到一個最大熵事件事實性識別模型;所述的最大熵事件事實性識別模型包括標注語料(訓練集)特征集合、訓練得到的參數(shù)和最大熵分類工具。
標注語料特征集合中的特征的例子如例12所示,然后利用最大熵分類工具,如Mallet,Maxent,Stanford Classifier等,可以訓練得到一個最大熵事件事實性識別模型。
S302,把測試語料特征集合中的事件特征作為輸入,調用最大熵事件事實性識別模型即可識別每個事件的事實性。
對測試語料特征集合進行測試后,即可得到如例13所示的事件的集合,其中對例11測試后,得到事件的事實性為“可能不發(fā)生”。
例13:<1=Other><2=Unspecified><3=NN><4=AD><5=VV><6=可能><7=無><8=可能><9=可能><10=負><11=過去><12=可能不發(fā)生><Label=可能不發(fā)生>。
本發(fā)明的中文事件事實性識別系統(tǒng),如圖7所示,包括事件預處理模塊10,事件特征處理模塊20和事件事實性推理模塊30。
具體的,事件預處理模塊10,用于從預先標注了各類事實性信息的標注語料庫中抽取中文事件的事實性相關信息及其真實事實性構造基本的標注語料集合;從預先標注了各類事實性信息的測試語料庫中抽取中文事件的事實性相關信息構造基本的測試語料集合;
事件特征處理模塊20,用于在標注語料集合的上,針對每個中文事件的事實性相關信息,使用規(guī)則的方法,進行特征的處理、轉化和融合,得到一系列事實性相關特征,再加入事件的真實事實性,繼而構造出標注語料特征集合;
在測試語料集合的上,針對每個中文事件的事實性相關信息,使用相同規(guī)則的方法,進行特征的處理、轉化和融合,得到一系列事實性相關特征,繼而構造出測試語料特征集合;
事件事實性推理模塊30,用于根據(jù)標注語料特征集合中各個事件的特征,訓練一個最大熵事件事實性識別模型,再利用最大熵事件事實性識別模型識別測試語料特征集合中事件的事實性。
其中,如圖8所示,事件預處理模塊10包括事件事實性信息抽取單元101。
事件事實性信息抽取單元101,用于從標注語料庫中將每個事件所屬事件句的“事件句情態(tài)”和“事件句時態(tài)”信息抽取出來,同時,從當前事件信息中抽取事件的“事件源”、“事件選擇謂詞”、“程度詞”和“否定詞”,最后,抽取該事件的真實“事件事實性”,并構造出標注語料集合;
從測試語料庫中將每個事件所屬事件句的“事件句情態(tài)”和“事件句時態(tài)”抽取出來,同時,從當前事件信息中抽取出事件的“事件源”、“事件選擇謂詞”、“程度詞”和“否定詞”,繼而構造出測試語料集合。
其中,事件句情態(tài)是event結點的Modality屬性值,事件句時態(tài)是event結點的Tense屬性值,事件源是source結點值,事件選擇謂詞是event_selecting_predicates結點值,并包括LEVEL這個級別屬性,程度詞為degree的結點值,包括LEVEL級別屬性值和TENSE時態(tài)屬性值,否定詞為negative_word的結點值(如例1所示)。
其中,如圖9所示,事件特征轉化模塊20包括事件句特征處理單元201、詞匯級特征處理單元202、謂詞級別特征處理單元203、程度詞屬性特征處理單元204、級別特征處理單元205、極性特征處理單元206、時態(tài)特征處理單元207和事實性特征處理單元208。
事件句特征處理單元201,用于事件句特征的處理,選取每個事件所屬的事件句情態(tài)和時態(tài)信息作為特征,并以此構造語料特征集合;
在標注語料集合中,選取每個事件所屬的事件句的情態(tài)和時態(tài)信息作為事件句特征,并構造標注語料特征集合;
在測試語料集合中,選取每個事件所屬的事件句的情態(tài)和時態(tài)信息作為事件句特征,并構造測試語料特征集合。
詞匯級特征處理單元202,用于詞匯級特征的處理,對每個事件的事件源、否定詞和程度詞進行詞性標注,進而選取此三者詞性作為詞匯級特征,并加入到語料特征集合中;
在標注語料集合中,使用詞性標注工具對事件源、否定詞和程度詞三類詞匯信息進行詞性標注,選取它們的詞性作為特征,若當前事件不存在以上某一詞匯,則默認其對應詞性特征為“無”,并將此三類信息加入到語料特征集合中;
在測試語料集合中,使用詞性標注工具對事件源、否定詞和程度詞三類詞匯信息進行詞性標注,選取它們的詞性作為特征,若當前事件不存在以上某一詞匯,則默認其對應詞性特征為“無”,并將此三類信息加入到語料特征集合中。
謂詞級別特征處理單元203,用于謂詞級別特征的處理,對每個事件的事件選擇謂詞的級別屬性進行規(guī)則轉化,進而獲取謂詞級別特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件按規(guī)則轉化其事件選擇謂詞的級別屬性,進而獲取謂詞級別特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件按規(guī)則轉化其事件選擇謂詞的級別屬性,進而獲取謂詞級別特征,并加入到語料特征集合中。
考慮到有部分事件包含多個事件選擇謂詞,其具體轉化規(guī)則如下:
(1)首先默認當前事件的謂詞級別特征為“無”;
(2)如果當前事件僅存在單個事件選擇謂詞,則選擇其級別屬性作為謂詞級別特征;
(3)如果當前事件存在多個事件選擇謂詞,則按照“不確定”>“可能”>“確定”的優(yōu)先級順序進行選擇性獲取,作為謂詞級別特征。
程度詞屬性特征處理單元204,用于程度詞屬性特征的處理,對每個事件的程度詞時態(tài)和級別進行特征轉化,獲取程度詞的時態(tài)特征和級別特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件的程度詞時態(tài)和級別按規(guī)則進行特征轉化,獲取程度詞的時態(tài)特征和級別特征,即程度詞屬性特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的程度詞時態(tài)和級別按規(guī)則進行特征轉化,獲取程度詞的時態(tài)特征和級別特征,即程度詞屬性特征,并加入到語料特征集合中。
程度詞包含時態(tài)和級別兩種屬性,分別對其時態(tài)和級別進行特征轉化,形成程度詞時態(tài)特征和程度詞級別特征。
由于存在三種程度詞,即時態(tài)程度詞(包含時態(tài),級別為“無”)、級別程度詞(包含級別,時態(tài)為“無”)和混合程度詞(既包含時態(tài)也包含級別),則需進行如下的特征轉化。
程度詞時態(tài)特征將由時態(tài)程度詞和混合程度詞的時態(tài)進行簡單的詞匯組合,形成程度詞時態(tài)特征。如存在時態(tài)程度詞“明天”(級別為“無”,時態(tài)為“將來”),混合程度詞“被”(級別為“確定”,時態(tài)為“過去”),則其時態(tài)特征為“將來_過去”。
程度詞級別特征將按如下規(guī)則進行轉化:
(1)首先默認當前事件的程度詞級別特征為“無”;
(2)如果當前事件僅存在單個包含級別的程度詞(級別程度詞和混合程度詞都包含級別屬性),則選擇其級別作為程度詞級別特征;
(3)如果當前事件存在多個包含級別的程度詞(級別程度詞和混合程度詞都包含級別屬性),則按照“不確定”>“可能”>“確定”優(yōu)先級對這些程度詞的級別屬性進行選擇性獲取,作為程度詞級別特征。
級別特征處理單元205,用于級別特征的處理,對每個事件的事件選擇謂詞的級別和程度詞的級別進行規(guī)則轉化,進而獲取級別特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件的事件選擇謂詞的級別和程度詞的級別按規(guī)則進行特征轉化,獲取級別特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的事件選擇謂詞的級別和程度詞的級別按規(guī)則進行特征轉化,獲取級別特征,并加入到語料特征集合中。
具體的轉化規(guī)則如下:
(1)首先默認當前事件的級別特征為“確定”;
(2)如果當前事件中存在事件選擇謂詞或者包含級別的程度詞,若它們的級別是一致的,則選擇該級別作為級別特征,若不一致,則按照“不確定”>“可能”>“確定”的優(yōu)先級對這些級別屬性進行選擇性獲取,作為級別特征。
極性特征處理單元206,用于極性特征的處理,依據(jù)每個事件的否定詞的個數(shù)對其進行特征處理,得到極性特征,并加入到語料特征集合中。
在標注語料集合中,對每個事件進行極性特征處理,若否定詞個數(shù)為偶數(shù),則極性特征為“正”,若為奇數(shù),則極性特征為“負”,繼而獲取極性特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件進行極性特征處理,若否定詞個數(shù)為偶數(shù),則極性特征為“正”,若為奇數(shù),則極性特征為“負”,繼而獲取極性特征,并加入到語料特征集合中。
時態(tài)特征處理單元207,用于時態(tài)特征的處理,依據(jù)每個事件的所屬事件句時態(tài)和其包含時態(tài)的程度詞(時態(tài)程度詞和混合程度詞都包含時態(tài)),進行規(guī)則轉化,獲取時態(tài)特征,并加入到語料特征集合中;
在標注語料集合中,對每個事件的所屬事件句時態(tài)和包含時態(tài)的程度詞(時態(tài)程度詞和混合程度詞都包含時態(tài))按照規(guī)則進行轉化,進而獲取時態(tài)特征,并加入到語料特征集合中;
在測試語料集合中,對每個事件的所屬事件句時態(tài)和包含時態(tài)的程度詞(時態(tài)程度詞和混合程度詞都包含時態(tài))按照規(guī)則進行轉化,進而獲取時態(tài)特征,并加入到語料特征集合中。
具體的轉化規(guī)則如下:
(1)首先默認事件的時態(tài)為“過去”;
(2)如果當前事件中存在時態(tài)程度詞(包含時態(tài),級別為“無”),則以時態(tài)程度詞的時態(tài)為準,若僅存在單個時態(tài)程度詞,則選擇其時態(tài)作為時態(tài)特征,若存在多個時態(tài)程度詞,則按照“過去”>“現(xiàn)在”>“將來”的優(yōu)先級進行選擇性獲取,作為最終的時態(tài)特征,后續(xù)的步驟將不再進行;
(3)如果當前事件中存在混合程度詞(包含時態(tài)和級別兩種屬性),則以混合程度詞的時態(tài)為準,若僅存在單個混合程度詞,則選擇其時態(tài)作為時態(tài)特征,若存在多個混合程度詞,則同樣按照“過去”>“現(xiàn)在”>“將來”的優(yōu)先級進行選擇性獲取,作為最終的時態(tài)特征,后續(xù)的步驟將不再進行;
(4)如果當前事件中既不存在時態(tài)程度詞也不存在混合程度詞,則此時考慮其所屬事件句的時態(tài),若所屬事件句的時態(tài)為“Future”,則置其時態(tài)特征為“將來”。
事實性特征處理單元208,用于事實性特征處理,在經過上述步驟后,將獲取到的事件級別特征、極性特征和時態(tài)特征按照規(guī)則進行特征轉化,構造出事件事實性特征,并加入到語料特征集合中。
在標注語料集合中,對獲取到的事件級別特征、極性特征和時態(tài)特征的按照規(guī)則進行轉化,進而構造出事實性特征,并加入到語料特征集合中;
在測試語料集合中,對獲取到的事件級別特征、極性特征和時態(tài)特征的按照規(guī)則進行轉化,進而構造出事實性特征,并加入到語料特征集合中。
具體的轉化規(guī)則如下:
(1)將事件的級別與極性結合出初始事實性特征,如圖4所示;
(2)將初始事實性特征與時態(tài)結合出最終的事件事實性特征,如圖5所示。
其中,如圖10所示,事件事實性識別模塊30包括事件事實性模型訓練單元301和事件事實性識別單元302。
事件事實性模型訓練單元301,用于將標注語料特征集合中的事件的特征作為輸入,調用最大熵分類工具訓練得到一個最大熵事件事實性識別模型;所述的最大熵事件事實性識別模型包括標注語料(訓練集)特征集合、訓練得到的參數(shù)和最大熵分類工具;
事件事實性識別單元302,用于把測試語料特征集合中的事件特征作為輸入,調用最大熵事件事實性識別模型識別每個事件的事實性。
本發(fā)明主要利用機器學習的方法完成了中文事件事實性識別方法和系統(tǒng),利用事件的事實性信息并充分考慮到它們之間的聯(lián)系,采用機器學習和推理相結合的方法來識別中文事件的事實性。本發(fā)明的方法和系統(tǒng),與現(xiàn)有的方法和系統(tǒng)相比,總體的識別性能有所提升,同時,在處理類別的不均衡問題上有更好的效果,尤其在事件數(shù)目較少的類別的事實性識別上有明顯的性能提升。
以上所述僅是本發(fā)明的優(yōu)選實施方式,并不用于限制本發(fā)明,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明技術原理的前提下,還可以做出若干改進和變型,這些改進和變型也應視為本發(fā)明的保護范圍。