本發(fā)明涉及計(jì)算機(jī)應(yīng)用中的輿情分析和文本處理
技術(shù)領(lǐng)域:
,具體來(lái)說(shuō)涉及一種基于規(guī)劃-目標(biāo)圖的新聞事件信息抽取方法。
背景技術(shù):
:隨著web技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)普及率逐漸上升,信息公開(kāi)化程度逐步提高,網(wǎng)絡(luò)已經(jīng)成為新聞事件報(bào)道和傳播的重要平臺(tái)?;ヂ?lián)網(wǎng)上新聞網(wǎng)頁(yè)的數(shù)量急劇增長(zhǎng),新聞量和冗余信息的增加,給閱讀和信息分析帶來(lái)了新的挑戰(zhàn)。快速、精準(zhǔn)地從新聞報(bào)道中自動(dòng)抽取新聞事件信息,尤其是新聞事件的關(guān)鍵信息,一方面,能夠輔助分析和管理新聞事件,降低人工成本,提高分析效率;另一方面,能夠?yàn)榫W(wǎng)絡(luò)輿情的監(jiān)控和預(yù)警、熱點(diǎn)事件的檢索和追蹤、智能問(wèn)答系統(tǒng)及大數(shù)據(jù)決策支持等上層應(yīng)用提供支持,具有廣泛的應(yīng)用前景。新聞事件是指發(fā)生在某時(shí)某地的一件特別的事情,它可以由許多信息組成,其中較為關(guān)鍵的信息包括:事件發(fā)生的時(shí)間、事件發(fā)生的地點(diǎn)、事件的參與者、事件的關(guān)鍵詞和事件的某些關(guān)鍵數(shù)字等。這些信息不僅有助于新聞閱讀者快速把握新聞事件的主體內(nèi)容信息,而且可以為海量新聞數(shù)據(jù)的自動(dòng)分析和處理提供必要的基礎(chǔ)內(nèi)容。由于新聞文本在形式上具有詞匯、句式規(guī)范、篇章結(jié)構(gòu)統(tǒng)一、語(yǔ)言風(fēng)格穩(wěn)定等特點(diǎn),使得自動(dòng)抽取新聞事件的關(guān)鍵信息成為可能。然而,目前最常見(jiàn)的新聞抽取系統(tǒng)所解決的問(wèn)題主要是從新聞網(wǎng)頁(yè)中抽取正文中的個(gè)別句子作為新聞?wù)蛘邔?duì)新聞?wù)倪M(jìn)行簡(jiǎn)單的分類(lèi)處理,關(guān)于理解新聞事件內(nèi)容,特別是自動(dòng)地、可解釋地進(jìn)行事件信息抽取等方面的工作仍然空缺。有鑒于此,特提出本發(fā)明。技術(shù)實(shí)現(xiàn)要素:為了解決現(xiàn)有技術(shù)中的上述問(wèn)題,即為了解決如何自動(dòng)、快速、充分地挖掘新聞事件信息的技術(shù)問(wèn)題而提供一種基于規(guī)劃-目標(biāo)圖的新聞事件信息抽取方法。為了實(shí)現(xiàn)上述目的,提供了以下技術(shù)方案:一種基于規(guī)劃-目標(biāo)圖的新聞事件信息抽取方法,該方法包括:抽取新聞文本的新聞實(shí)體信息和關(guān)鍵詞信息;基于新聞實(shí)體信息和關(guān)鍵詞信息,建立新聞事件信息抽取規(guī)劃-目標(biāo)圖;設(shè)置新聞事件信息抽取規(guī)劃-目標(biāo)圖的狀態(tài);根據(jù)新聞事件信息抽取規(guī)劃-目標(biāo)圖的狀態(tài),建立新聞事件信息抽取規(guī)劃-目標(biāo)圖的判定規(guī)則;執(zhí)行新聞事件信息抽取規(guī)劃-目標(biāo)圖的判定規(guī)則,抽取新聞事件信息。進(jìn)一步地,抽取新聞文本的新聞實(shí)體信息和關(guān)鍵詞信息具體包括:將新聞文本分為:標(biāo)題、摘要和正文;針對(duì)標(biāo)題、摘要和正文,分別進(jìn)行分詞、詞性標(biāo)注和命名實(shí)體識(shí)別處理,抽取出時(shí)間實(shí)體、地點(diǎn)實(shí)體、人物實(shí)體、機(jī)構(gòu)實(shí)體,并提取出正文的關(guān)鍵詞。進(jìn)一步地,當(dāng)時(shí)間實(shí)體和地點(diǎn)實(shí)體為多個(gè)時(shí),將多個(gè)時(shí)間實(shí)體中的一個(gè)作為時(shí)間實(shí)體抽取值,將多個(gè)地點(diǎn)實(shí)體中的一個(gè)多為地點(diǎn)實(shí)體抽取值。進(jìn)一步地,基于新聞實(shí)體信息和關(guān)鍵詞信息,建立新聞事件信息抽取規(guī)劃-目標(biāo)圖,具體包括:基于新聞實(shí)體信息和關(guān)鍵詞信息,建立層級(jí)節(jié)點(diǎn)關(guān)系圖;其中,層級(jí)節(jié)點(diǎn)關(guān)系圖由規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)交替組成;設(shè)置同一目標(biāo)節(jié)點(diǎn)的多個(gè)規(guī)劃節(jié)點(diǎn)之間的優(yōu)先級(jí)。進(jìn)一步地,設(shè)置新聞事件信息抽取規(guī)劃-目標(biāo)圖的狀態(tài)具體包括:設(shè)置規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的邏輯屬性;確定同一目標(biāo)節(jié)點(diǎn)的多個(gè)規(guī)劃節(jié)點(diǎn)之間的優(yōu)先級(jí)。進(jìn)一步地,執(zhí)行新聞事件信息抽取規(guī)劃-目標(biāo)圖的判定規(guī)則,抽取新聞事件信息,具體包括:當(dāng)頂層節(jié)點(diǎn)的邏輯屬性為真時(shí),根據(jù)目標(biāo)節(jié)點(diǎn)的規(guī)劃節(jié)點(diǎn)的優(yōu)先級(jí),抽取新聞事件信息。進(jìn)一步地,新聞事件信息包括新聞文本的時(shí)間、地點(diǎn)、參與者和事件關(guān)鍵詞信息。本發(fā)明實(shí)施例提供一種基于規(guī)劃-目標(biāo)圖的新聞事件信息抽取方法。其中,該方法可以包括:抽取新聞文本的新聞實(shí)體信息和關(guān)鍵詞信息;基于新聞實(shí)體信息和關(guān)鍵詞信息,建立新聞事件信息抽取規(guī)劃-目標(biāo)圖;設(shè)置新聞事件信息抽取規(guī)劃-目標(biāo)圖的狀態(tài);根據(jù)新聞事件信息抽取規(guī)劃-目標(biāo)圖的狀態(tài),建立新聞事件信息抽取規(guī)劃-目標(biāo)圖的判定規(guī)則;執(zhí)行新聞事件信息抽取規(guī)劃-目標(biāo)圖的判定規(guī)則,抽取新聞事件信息。本發(fā)明實(shí)施例通過(guò)對(duì)抽取任務(wù)進(jìn)行子目標(biāo)與子規(guī)劃的劃分,建立新聞事件信息抽取規(guī)劃-目標(biāo)圖及其判定規(guī)則,并據(jù)此來(lái)抽取新聞事件信息。由此,本發(fā)明實(shí)施例解決了如何自動(dòng)、快速、充分地挖掘新聞事件信息的技術(shù)問(wèn)題,能夠?qū)崿F(xiàn)對(duì)新聞信息的高效自動(dòng)整理;具有非常強(qiáng)的過(guò)程解釋性,能夠根據(jù)規(guī)劃-目標(biāo)圖的節(jié)點(diǎn)屬性和判定規(guī)則隨時(shí)追蹤抽取任務(wù)的進(jìn)程和狀態(tài);同時(shí)本發(fā)明實(shí)施例還具有非常強(qiáng)的操作擴(kuò)展性,能夠在不改變方法進(jìn)程的同時(shí),對(duì)規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)進(jìn)行靈活地增、刪、改等操作。本發(fā)明實(shí)施例公開(kāi)的方法能為新聞事件檢索、新聞報(bào)道跟蹤和輿情分析等上層應(yīng)用提供支持。附圖說(shuō)明圖1是根據(jù)本發(fā)明實(shí)施例的基于規(guī)劃-目標(biāo)圖的新聞事件信息抽取方法的流程示意圖;圖2是根據(jù)本發(fā)明實(shí)施例的新聞事件信息抽取規(guī)劃-目標(biāo)示意圖。具體實(shí)施方式下面參照附圖來(lái)描述本發(fā)明的優(yōu)選實(shí)施方式。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,這些實(shí)施方式僅僅用于解釋本發(fā)明的技術(shù)原理,并非旨在限制本發(fā)明的保護(hù)范圍。在實(shí)際應(yīng)用中,為了解決如何自動(dòng)、快速、充分地挖掘新聞事件信息的技術(shù)問(wèn)題。本發(fā)明實(shí)施例提供一種基于規(guī)劃-目標(biāo)圖的新聞事件信息抽取方法。如圖1所示,該方法可以包括:S100:抽取新聞文本的新聞實(shí)體信息和關(guān)鍵詞信息。具體地,本步驟可以包括:S101:將新聞文本分為:標(biāo)題、摘要和正文。在一個(gè)優(yōu)選的實(shí)施例中,將新聞文本的首段文本確定為摘要;將新聞文本中除去標(biāo)題和摘要后的內(nèi)容確定為正文。舉例來(lái)說(shuō),標(biāo)題可以為“殲—10女飛行員余旭在訓(xùn)練中不幸犧牲”。摘要可以為“11月12日,空軍殲—10女飛行員余旭,在天津武清上空進(jìn)行飛行訓(xùn)練時(shí)不幸犧牲?!?。正文可以為“空軍新聞發(fā)言人申進(jìn)科表示,飛行是勇敢者的事業(yè),確保飛行安全是世界各國(guó)空軍的共同追求和良好愿望??哲娕w行員余旭同志在飛行訓(xùn)練中不幸犧牲,我們失去了一名好戰(zhàn)友。空軍官兵對(duì)余旭同志的不幸犧牲深表痛惜,深表哀悼??哲娨^續(xù)堅(jiān)持從難從嚴(yán)訓(xùn)練,忠實(shí)履行使命責(zé)任,不負(fù)祖國(guó)和人民對(duì)空軍的期望。犧牲的女飛行員余旭,1986年出生于四川崇州,2005年9月入伍,空軍上尉,二級(jí)飛行員,為空軍八一飛行表演隊(duì)中隊(duì)長(zhǎng)。2005年,余旭考入中國(guó)人民解放軍空軍航空大學(xué),成為第八批女飛行學(xué)員,2009年4月成為北空某部飛行員。2009年10月1日,參加中華人民共和國(guó)國(guó)慶60周年閱兵,擔(dān)任教—8梯隊(duì)三中隊(duì)右二僚機(jī)。2012年7月29日,駕馭中國(guó)自主研發(fā)的三代戰(zhàn)機(jī)首次單飛。余旭不僅是中國(guó)首批殲擊機(jī)女飛行員,也是中國(guó)第一位殲—10戰(zhàn)斗機(jī)女飛行員。她還曾參加國(guó)慶60周年閱兵,擔(dān)任教—8梯隊(duì)三中隊(duì)右二僚機(jī)。在參加2015年紀(jì)念抗日戰(zhàn)爭(zhēng)勝利70周年閱兵時(shí),她作為地面?zhèn)浞萑藛T,為左邊位置3號(hào)機(jī)備份。在八一飛行表演隊(duì)中,余旭的代號(hào)是“金孔雀”,是全國(guó)僅有的幾名具備表演機(jī)飛行資格的女飛行員之一?!?。S102:針對(duì)標(biāo)題、摘要和正文,分別進(jìn)行分詞、詞性標(biāo)注和命名實(shí)體識(shí)別處理,抽取出時(shí)間實(shí)體、地點(diǎn)實(shí)體、人物實(shí)體、機(jī)構(gòu)實(shí)體,并提取出正文的關(guān)鍵詞。在一個(gè)可選的實(shí)施例中,對(duì)于步驟S102,當(dāng)時(shí)間實(shí)體和地點(diǎn)實(shí)體有多個(gè)時(shí),可以只保留第一個(gè)抽取值,即將多個(gè)時(shí)間實(shí)體中的一個(gè)作為時(shí)間實(shí)體抽取值,將多個(gè)地點(diǎn)實(shí)體中的一個(gè)作為地點(diǎn)實(shí)體抽取值。表1示例性地示出了對(duì)新聞文本進(jìn)行新聞實(shí)體信息和關(guān)鍵詞信息抽取后得到的信息。表1:S110:基于新聞實(shí)體信息和關(guān)鍵詞信息,建立新聞事件信息抽取規(guī)劃-目標(biāo)圖。具體地,本步驟可以通過(guò)步驟S111至步驟S112來(lái)實(shí)現(xiàn)。S111:基于新聞實(shí)體信息和關(guān)鍵詞信息,建立層級(jí)節(jié)點(diǎn)關(guān)系圖,該層級(jí)節(jié)點(diǎn)關(guān)系圖由規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)交替組成。其中,目標(biāo)節(jié)點(diǎn)代表實(shí)現(xiàn)事件類(lèi)新聞信息(即新聞事件信息)抽取任務(wù)的各個(gè)子目標(biāo)。一個(gè)目標(biāo)有多種規(guī)劃方法,舉例來(lái)說(shuō),“新聞事件的時(shí)間信息抽取”這個(gè)目標(biāo),可以采取“從標(biāo)題中抽取時(shí)間信息”的規(guī)劃方法,也可以采取“從摘要中抽取時(shí)間信息”的規(guī)劃方法,還可以采取“從正文中抽取時(shí)間信息”的規(guī)劃方法。組成目標(biāo)節(jié)點(diǎn)的若干規(guī)劃節(jié)點(diǎn)之間是“邏輯或”的關(guān)系。其中,規(guī)劃節(jié)點(diǎn)代表為了實(shí)現(xiàn)某個(gè)目標(biāo)而采用的方法規(guī)劃,一個(gè)規(guī)劃可以分成若干個(gè)子目標(biāo)來(lái)完成,組成規(guī)劃節(jié)點(diǎn)的若干目標(biāo)節(jié)點(diǎn)之間是“邏輯與”的關(guān)系。每個(gè)規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)都有屬性,屬性表示規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的狀態(tài)。S112:設(shè)置同一目標(biāo)節(jié)點(diǎn)的多個(gè)規(guī)劃節(jié)點(diǎn)之間的優(yōu)先級(jí)。下面以?xún)?yōu)選實(shí)施例的方式來(lái)詳細(xì)說(shuō)明建立層級(jí)節(jié)點(diǎn)關(guān)系圖的過(guò)程。需要說(shuō)明的是,該優(yōu)選實(shí)施例不代表實(shí)施例的優(yōu)劣,僅僅為更好地說(shuō)明本發(fā)明。設(shè)置規(guī)劃-目標(biāo)圖的頂層節(jié)點(diǎn)為規(guī)劃節(jié)點(diǎn)P0,還可設(shè)置頂層規(guī)劃節(jié)點(diǎn)由四個(gè)目標(biāo)節(jié)點(diǎn)組成,即:G1“時(shí)間信息抽取”、G2“地點(diǎn)信息抽取”、G3“參與者信息抽取”、G4“關(guān)鍵詞信息抽取”。其中,G表示GOAL,G1即GOAL1,其他以此類(lèi)推;P表示PLAN,P0即PLAN0,其他以此類(lèi)推。應(yīng)指出的是,新聞事件可以不限于本優(yōu)選實(shí)施例中列舉的四個(gè)目標(biāo)節(jié)點(diǎn),其還可以有其他目標(biāo)節(jié)點(diǎn),比如新聞情感信息、新聞分類(lèi)信息等。其中,目標(biāo)節(jié)點(diǎn)G1“時(shí)間信息抽取”包括三種規(guī)劃節(jié)點(diǎn),分別為P11“從標(biāo)題中抽取時(shí)間信息”、P12“從摘要中抽取時(shí)間信息”和P13“從正文中抽取時(shí)間信息”;目標(biāo)節(jié)點(diǎn)G2“地點(diǎn)信息抽取”包括三種規(guī)劃節(jié)點(diǎn),分別為P21“從標(biāo)題中抽取地點(diǎn)信息”、P22“從摘要中抽取地點(diǎn)信息”和P23“從正文中抽取地點(diǎn)信息”;目標(biāo)節(jié)點(diǎn)G3“參與者信息抽取”包括三種規(guī)劃節(jié)點(diǎn),分別為P31“從標(biāo)題中抽取參與者信息”、P32“從摘要中抽取參與者信息”和P33“從正文中抽取參與者信息”;目標(biāo)節(jié)點(diǎn)G4“關(guān)鍵詞信息抽取”包括三種規(guī)劃節(jié)點(diǎn),分別為P41“從標(biāo)題中抽取關(guān)鍵詞信息”、P42“從摘要中抽取關(guān)鍵詞信息”和P42“從正文中抽取關(guān)鍵詞信息”。其中,G表示GOAL,G1即GOAL1,其他以此類(lèi)推;P表示PLAN,P1即PLAN1,其他以此類(lèi)推。圖2示例性地示出了新聞事件信息抽取規(guī)劃-目標(biāo)示意圖。S120:設(shè)置新聞事件信息抽取規(guī)劃-目標(biāo)圖的狀態(tài)。具體地,本步驟可以通過(guò)步驟S121至步驟S122來(lái)實(shí)現(xiàn)。S121:設(shè)置規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的邏輯屬性。每個(gè)規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)都有邏輯屬性,邏輯屬性表示規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的狀態(tài)。本發(fā)明實(shí)施例可以設(shè)置全部規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的邏輯屬性值為假或真。舉例來(lái)說(shuō),可以設(shè)置全部規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的屬性值為假。當(dāng)標(biāo)題時(shí)間實(shí)體存在時(shí),P11的邏輯屬性為真;當(dāng)摘要時(shí)間實(shí)體存在時(shí),P12的邏輯屬性為真;當(dāng)正文時(shí)間實(shí)體存在時(shí),P13的邏輯屬性為真;當(dāng)標(biāo)題地點(diǎn)實(shí)體存在時(shí),P21的邏輯屬性為真。當(dāng)摘要地點(diǎn)實(shí)體存在時(shí),P22的邏輯屬性為真;當(dāng)正文地點(diǎn)實(shí)體存在時(shí),P23的邏輯屬性為真;當(dāng)標(biāo)題參與者實(shí)體存在時(shí),P31的邏輯屬性為真;當(dāng)摘要參與者實(shí)體存在時(shí),P32的邏輯屬性為真。當(dāng)正文參與者實(shí)體存在時(shí),P33的邏輯屬性為真;當(dāng)標(biāo)題關(guān)鍵詞實(shí)體存在時(shí),P41的邏輯屬性為真;當(dāng)摘要關(guān)鍵詞實(shí)體存在時(shí),P42的邏輯屬性為真;當(dāng)正文關(guān)鍵詞實(shí)體存在時(shí),P43的邏輯屬性為真。S122:確定同一目標(biāo)節(jié)點(diǎn)的多個(gè)規(guī)劃節(jié)點(diǎn)之間的優(yōu)先級(jí)。作為示例,以頂層節(jié)點(diǎn)P0、目標(biāo)節(jié)點(diǎn)G1“時(shí)間信息抽取”、G2“地點(diǎn)信息抽取”、G3“參與者信息抽取”、G4“關(guān)鍵詞信息抽取”為例,其中,G1的規(guī)劃節(jié)點(diǎn)為P11、P12、P13;G2的規(guī)劃節(jié)點(diǎn)為P21、P22、P23;G3的規(guī)劃節(jié)點(diǎn)為P31、P32、P33;G4的規(guī)劃節(jié)點(diǎn)為P41、P42、P43。確定目標(biāo)節(jié)點(diǎn)G1的規(guī)劃節(jié)點(diǎn)優(yōu)先級(jí)時(shí),可以確定P11優(yōu)先級(jí)最高,P12優(yōu)先級(jí)次之,P13優(yōu)先級(jí)最低。確定目標(biāo)節(jié)點(diǎn)G2的規(guī)劃節(jié)點(diǎn)優(yōu)先級(jí)時(shí),可以確定P21優(yōu)先級(jí)最高,P22優(yōu)先級(jí)次之,P23優(yōu)先級(jí)最低。確定目標(biāo)節(jié)點(diǎn)G3的規(guī)劃節(jié)點(diǎn)優(yōu)先級(jí)時(shí),可以確定P31優(yōu)先級(jí)最高,P32優(yōu)先級(jí)次之,P33優(yōu)先級(jí)最低。確定目標(biāo)節(jié)點(diǎn)G4的規(guī)劃節(jié)點(diǎn)優(yōu)先級(jí)時(shí),可以確定P41優(yōu)先級(jí)最高,P42優(yōu)先級(jí)次之,P43優(yōu)先級(jí)最低。表2示例性地示出了新聞事件信息抽取規(guī)劃-目標(biāo)圖初始狀態(tài)。表2:S130:根據(jù)新聞事件信息抽取規(guī)劃-目標(biāo)圖的狀態(tài),建立新聞事件信息抽取規(guī)劃-目標(biāo)圖的判定規(guī)則。舉例來(lái)說(shuō),以頂層節(jié)點(diǎn)P0、目標(biāo)節(jié)點(diǎn)G1“時(shí)間信息抽取”、G2“地點(diǎn)信息抽取”、G3“參與者信息抽取”、G4“關(guān)鍵詞信息抽取”為例,其中,G1的規(guī)劃節(jié)點(diǎn)為P11、P12、P13;G2的規(guī)劃節(jié)點(diǎn)為P21、P22、P23;G3的規(guī)劃節(jié)點(diǎn)為P31、P32、P33;G4的規(guī)劃節(jié)點(diǎn)為P41、P42、P43。如果P11的邏輯屬性為真或P12的邏輯屬性為真或P13的邏輯屬性為真,那么G1的邏輯屬性為真;如果P21的邏輯屬性為真或P22的邏輯屬性為真或P23的邏輯屬性為真,那么G2的邏輯屬性為真;如果P31的邏輯屬性為真或P32的邏輯屬性為真或P33的邏輯屬性為真,那么G3的邏輯屬性為真;如果P41的邏輯屬性為真或P42的邏輯屬性為真或P43的邏輯屬性為真,那么G4的邏輯屬性為真;如果G1的邏輯屬性為真與G2的邏輯屬性為真與G3的邏輯屬性為真與G4的邏輯屬性為真,那么P0的邏輯屬性為真。S140:執(zhí)行新聞事件信息抽取規(guī)劃-目標(biāo)圖的判定規(guī)則,抽取新聞事件信息。具體地,本步驟可以包括:當(dāng)頂層節(jié)點(diǎn)的邏輯屬性為真時(shí),根據(jù)目標(biāo)節(jié)點(diǎn)的規(guī)劃節(jié)點(diǎn)的優(yōu)先級(jí),抽取新聞事件信息。作為示例,抽取新聞事件信息可以為依次抽取新聞文本的時(shí)間、地點(diǎn)、參與者和事件關(guān)鍵詞信息。表3示例性地示出了執(zhí)行新聞事件信息抽取規(guī)劃-目標(biāo)圖的判定規(guī)則,抽取得到的新聞事件信息。表3:示例新聞事件信息信息值事件發(fā)生時(shí)間11月12日事件發(fā)生地點(diǎn)天津武清事件參與者余旭事件關(guān)鍵詞殲—10,女飛行員,訓(xùn)練,犧牲下面以一優(yōu)選實(shí)施例來(lái)對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。本優(yōu)選實(shí)施例以《南京日?qǐng)?bào)》的一篇文章“殲—10女飛行員余旭在訓(xùn)練中不幸犧牲”為例。其中,新聞原文如下:“11月12日,空軍殲—10女飛行員余旭,在天津武清上空進(jìn)行飛行訓(xùn)練時(shí)不幸犧牲??哲娦侣劙l(fā)言人申進(jìn)科表示,飛行是勇敢者的事業(yè),確保飛行安全是世界各國(guó)空軍的共同追求和良好愿望??哲娕w行員余旭同志在飛行訓(xùn)練中不幸犧牲,我們失去了一名好戰(zhàn)友。空軍官兵對(duì)余旭同志的不幸犧牲深表痛惜,深表哀悼??哲娨^續(xù)堅(jiān)持從難從嚴(yán)訓(xùn)練,忠實(shí)履行使命責(zé)任,不負(fù)祖國(guó)和人民對(duì)空軍的期望。犧牲的女飛行員余旭,1986年出生于四川崇州,2005年9月入伍,空軍上尉,二級(jí)飛行員,為空軍八一飛行表演隊(duì)中隊(duì)長(zhǎng)。2005年,余旭考入中國(guó)人民解放軍空軍航空大學(xué),成為第八批女飛行學(xué)員,2009年4月成為北空某部飛行員。2009年10月1日,參加中華人民共和國(guó)國(guó)慶60周年閱兵,擔(dān)任教—8梯隊(duì)三中隊(duì)右二僚機(jī)。2012年7月29日,駕馭中國(guó)自主研發(fā)的三代戰(zhàn)機(jī)首次單飛。余旭不僅是中國(guó)首批殲擊機(jī)女飛行員,也是中國(guó)第一位殲—10戰(zhàn)斗機(jī)女飛行員。她還曾參加國(guó)慶60周年閱兵,擔(dān)任教—8梯隊(duì)三中隊(duì)右二僚機(jī)。在參加2015年紀(jì)念抗日戰(zhàn)爭(zhēng)勝利70周年閱兵時(shí),她作為地面?zhèn)浞萑藛T,為左邊位置3號(hào)機(jī)備份。在八一飛行表演隊(duì)中,余旭的代號(hào)是“金孔雀”,是全國(guó)僅有的幾名具備表演機(jī)飛行資格的女飛行員之一?!盨200:將新聞文本分為:標(biāo)題、摘要和正文。其中,標(biāo)題為“殲—10女飛行員余旭在訓(xùn)練中不幸犧牲”;摘要為“11月12日,空軍殲—10女飛行員余旭,在天津武清上空進(jìn)行飛行訓(xùn)練時(shí)不幸犧牲”;正文為“空軍新聞發(fā)言人申進(jìn)科表示,飛行是勇敢者的事業(yè),確保飛行安全是世界各國(guó)空軍的共同追求和良好愿望??哲娕w行員余旭同志在飛行訓(xùn)練中不幸犧牲,我們失去了一名好戰(zhàn)友??哲姽俦鴮?duì)余旭同志的不幸犧牲深表痛惜,深表哀悼。空軍要繼續(xù)堅(jiān)持從難從嚴(yán)訓(xùn)練,忠實(shí)履行使命責(zé)任,不負(fù)祖國(guó)和人民對(duì)空軍的期望。犧牲的女飛行員余旭,1986年出生于四川崇州,2005年9月入伍,空軍上尉,二級(jí)飛行員,為空軍八一飛行表演隊(duì)中隊(duì)長(zhǎng)。2005年,余旭考入中國(guó)人民解放軍空軍航空大學(xué),成為第八批女飛行學(xué)員,2009年4月成為北空某部飛行員。2009年10月1日,參加中華人民共和國(guó)國(guó)慶60周年閱兵,擔(dān)任教—8梯隊(duì)三中隊(duì)右二僚機(jī)。2012年7月29日,駕馭中國(guó)自主研發(fā)的三代戰(zhàn)機(jī)首次單飛。余旭不僅是中國(guó)首批殲擊機(jī)女飛行員,也是中國(guó)第一位殲—10戰(zhàn)斗機(jī)女飛行員。她還曾參加國(guó)慶60周年閱兵,擔(dān)任教—8梯隊(duì)三中隊(duì)右二僚機(jī)。在參加2015年紀(jì)念抗日戰(zhàn)爭(zhēng)勝利70周年閱兵時(shí),她作為地面?zhèn)浞萑藛T,為左邊位置3號(hào)機(jī)備份。在八一飛行表演隊(duì)中,余旭的代號(hào)是‘金孔雀’,是全國(guó)僅有的幾名具備表演機(jī)飛行資格的女飛行員之一?!逼渲校感侣勎谋菊牡氖锥挝谋?,正文指除去標(biāo)題和摘要后的新聞文本。S201:對(duì)標(biāo)題、摘要和正文進(jìn)行分詞、詞性標(biāo)注和命名實(shí)體識(shí)別,抽取出時(shí)間實(shí)體、地點(diǎn)實(shí)體、人物實(shí)體、機(jī)構(gòu)實(shí)體,并提取出正文的關(guān)鍵詞。S202:當(dāng)時(shí)間實(shí)體和地點(diǎn)實(shí)體有多個(gè)時(shí),保留第一個(gè)抽取值。表4示例性地示出了經(jīng)過(guò)步驟3處理后得到的信息。表4:S203:建立層級(jí)節(jié)點(diǎn)關(guān)系圖,該層級(jí)節(jié)點(diǎn)關(guān)系圖由規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)交替組成。S204:設(shè)置同一目標(biāo)節(jié)點(diǎn)的多個(gè)規(guī)劃節(jié)點(diǎn)之間的優(yōu)先級(jí)。S205:設(shè)置規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的邏輯屬性如下:當(dāng)標(biāo)題時(shí)間實(shí)體存在時(shí),P11的邏輯屬性為真;當(dāng)摘要時(shí)間實(shí)體存在時(shí),P12的邏輯屬性為真;當(dāng)正文時(shí)間實(shí)體存在時(shí),P13的邏輯屬性為真;當(dāng)標(biāo)題地點(diǎn)實(shí)體存在時(shí),P21的邏輯屬性為真。當(dāng)摘要地點(diǎn)實(shí)體存在時(shí),P22的邏輯屬性為真;當(dāng)正文地點(diǎn)實(shí)體存在時(shí),P23的邏輯屬性為真;當(dāng)標(biāo)題參與者實(shí)體存在時(shí),P31的邏輯屬性為真;當(dāng)摘要參與者實(shí)體存在時(shí),P32的邏輯屬性為真。當(dāng)正文參與者實(shí)體存在時(shí),P33的邏輯屬性為真;當(dāng)標(biāo)題關(guān)鍵詞實(shí)體存在時(shí),P41的邏輯屬性為真;當(dāng)摘要關(guān)鍵詞實(shí)體存在時(shí),P42的邏輯屬性為真;當(dāng)正文關(guān)鍵詞實(shí)體存在時(shí),P43的邏輯屬性為真。S206:確定同一目標(biāo)節(jié)點(diǎn)的多個(gè)規(guī)劃節(jié)點(diǎn)之間的優(yōu)先級(jí)如下:對(duì)于目標(biāo)節(jié)點(diǎn)G1的規(guī)劃節(jié)點(diǎn)優(yōu)先級(jí),確定P11優(yōu)先級(jí)最高,P12優(yōu)先級(jí)次之,P13優(yōu)先級(jí)最低;對(duì)于目標(biāo)節(jié)點(diǎn)G2的規(guī)劃節(jié)點(diǎn)優(yōu)先級(jí),確定P21優(yōu)先級(jí)最高,P22優(yōu)先級(jí)次之,P23優(yōu)先級(jí)最低;對(duì)于目標(biāo)節(jié)點(diǎn)G3的規(guī)劃節(jié)點(diǎn)優(yōu)先級(jí),確定P31優(yōu)先級(jí)最高,P32優(yōu)先級(jí)次之,P33優(yōu)先級(jí)最低;對(duì)于目標(biāo)節(jié)點(diǎn)G4的規(guī)劃節(jié)點(diǎn)優(yōu)先級(jí),確定P41優(yōu)先級(jí)最高,P42優(yōu)先級(jí)次之,P43優(yōu)先級(jí)最低。S207:根據(jù)新聞事件信息抽取規(guī)劃-目標(biāo)圖的狀態(tài),建立新聞事件信息抽取規(guī)劃-目標(biāo)圖的判定規(guī)則如下:如果P11的邏輯屬性為真或P12的邏輯屬性為真或P13的邏輯屬性為真,那么G1的邏輯屬性為真;如果P21的邏輯屬性為真或P22的邏輯屬性為真或P23的邏輯屬性為真,那么G2的邏輯屬性為真;如果P31的邏輯屬性為真或P32的邏輯屬性為真或P33的邏輯屬性為真,那么G3的邏輯屬性為真;如果P41的邏輯屬性為真或P42的邏輯屬性為真或P43的邏輯屬性為真,那么G4的邏輯屬性為真;如果G1的邏輯屬性為真與G2的邏輯屬性為真與G3的邏輯屬性為真與G4的邏輯屬性為真,那么頂層節(jié)點(diǎn)P0的邏輯屬性為真。S208:當(dāng)頂層節(jié)點(diǎn)的屬性為真時(shí),根據(jù)目標(biāo)節(jié)點(diǎn)的規(guī)劃節(jié)點(diǎn)的優(yōu)先級(jí),依次抽取新聞文本的時(shí)間、地點(diǎn)、參與者和關(guān)鍵詞信息。本發(fā)明實(shí)施例提供的基于規(guī)劃-目標(biāo)圖的新聞事件信息抽取方法,通過(guò)對(duì)抽取任務(wù)進(jìn)行子目標(biāo)與子規(guī)劃的劃分,能夠?qū)崿F(xiàn)對(duì)新聞信息的高效自動(dòng)整理。本發(fā)明實(shí)施例具有非常強(qiáng)的過(guò)程解釋性,能夠根據(jù)規(guī)劃-目標(biāo)圖的節(jié)點(diǎn)屬性和判定規(guī)則隨時(shí)追蹤到抽取任務(wù)的進(jìn)程和狀態(tài);本發(fā)明實(shí)施例同時(shí)具有非常強(qiáng)的操作擴(kuò)展性,能夠在不改變方法進(jìn)程的同時(shí),對(duì)規(guī)劃節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)進(jìn)行靈活地增、刪、改等操作。本發(fā)明實(shí)施例公開(kāi)的方法能為新聞事件檢索、新聞報(bào)道跟蹤和輿情分析等上層應(yīng)用提供支持。上述實(shí)施例中雖然將各個(gè)步驟按照上述先后次序的方式進(jìn)行了描述,但是本領(lǐng)域技術(shù)人員可以理解,為了實(shí)現(xiàn)本實(shí)施例的效果,不同的步驟之間不必按照這樣的次序執(zhí)行,其可以同時(shí)(并行)執(zhí)行或以顛倒的次序執(zhí)行,這些簡(jiǎn)單的變化都在本發(fā)明的保護(hù)范圍之內(nèi)。本發(fā)明實(shí)施例提供的方法既可以在個(gè)人計(jì)算機(jī)、工控機(jī)及服務(wù)器上以軟件的形式安裝并執(zhí)行,也可將方法做成嵌入式芯片以硬件的形式來(lái)體現(xiàn)。本發(fā)明實(shí)施例提供的方法還可以實(shí)施為計(jì)算機(jī)程序軟件或程序模塊(其包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類(lèi)型的例程、程序、對(duì)象、組件或數(shù)據(jù)結(jié)構(gòu)等等),例如根據(jù)本發(fā)明的實(shí)施例可以是一種計(jì)算機(jī)程序產(chǎn)品,運(yùn)行該計(jì)算機(jī)程序產(chǎn)品使計(jì)算機(jī)執(zhí)行用于所示范的方法。所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該介質(zhì)上包含計(jì)算機(jī)程序邏輯或代碼部分,用于實(shí)現(xiàn)所述方法。所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是被安裝在計(jì)算機(jī)中的內(nèi)置介質(zhì)或者可以從計(jì)算機(jī)主體上拆卸下來(lái)的可移動(dòng)介質(zhì)(例如:采用熱插拔技術(shù)的存儲(chǔ)設(shè)備)。所述內(nèi)置介質(zhì)包括但不限于可重寫(xiě)的非易失性存儲(chǔ)器,例如:RAM、ROM、快閃存儲(chǔ)器和硬盤(pán)。所述可移動(dòng)介質(zhì)包括但不限于:光存儲(chǔ)介質(zhì)(例如:CD-ROM和DVD)、磁光存儲(chǔ)介質(zhì)(例如:MO)、磁存儲(chǔ)介質(zhì)(例如:磁帶或移動(dòng)硬盤(pán))、具有內(nèi)置的可重寫(xiě)非易失性存儲(chǔ)器的媒體(例如:存儲(chǔ)卡)和具有內(nèi)置ROM的媒體(例如:ROM盒)。以上對(duì)本發(fā)明的示例實(shí)施例的詳細(xì)描述是為了說(shuō)明和描述的目的而提供。不是為了窮盡或?qū)⒈景l(fā)明限制為所描述的精確形式。顯然,許多變型和改變對(duì)本領(lǐng)域技術(shù)人員而言是顯而易見(jiàn)的。實(shí)施例的選擇和描述是為了最佳地說(shuō)明本發(fā)明的原理及其實(shí)際應(yīng)用,從而使本領(lǐng)域其他技術(shù)人員能夠理解本發(fā)明的各種實(shí)施例和適于特定使用預(yù)期的各種變型。本發(fā)明的實(shí)施例可以省略上述技術(shù)特征中的一些技術(shù)特征,僅解決現(xiàn)有技術(shù)中存在的部分技術(shù)問(wèn)題。而且,所描述的技術(shù)特征可以進(jìn)行任意組合。本發(fā)明的保護(hù)范圍由所附權(quán)利要求及其等價(jià)物來(lái)限定,本領(lǐng)域技術(shù)其他人員可以對(duì)所附權(quán)利要求中所描述的技術(shù)方案進(jìn)行各種變型或替換和組合,這些更改或替換之后的技術(shù)方案都將落入本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁(yè)1 2 3