本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體涉及一種基于事件要素的事件抽取方法及系統(tǒng)。
背景技術(shù):
由于現(xiàn)在互聯(lián)網(wǎng)的發(fā)展,以微博為代表的自媒體大行其道,相比起官方的通告,互聯(lián)網(wǎng)自媒體的聲音要更迅速,更貼近。對(duì)于應(yīng)對(duì)各類突發(fā)事件(如火災(zāi)、地震等),互聯(lián)網(wǎng)上的信息變得尤為重要,但面對(duì)互聯(lián)網(wǎng)龐大的數(shù)據(jù)增量,這類數(shù)據(jù)又顯得極為稀疏,因此從互聯(lián)網(wǎng)龐大的聲音中找到各類突發(fā)事件的聲音,以便即使的做出響應(yīng)和對(duì)策,是現(xiàn)在無論政府還是企業(yè)都迫切需要的一種數(shù)據(jù)挖掘能力。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于解決上述的技術(shù)問題而提供一種基于事件要素的事件抽取方法及系統(tǒng)。
為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
一種基于事件要素的事件抽取方法,包括以下步驟:
根據(jù)預(yù)設(shè)事件識(shí)別模型,對(duì)顯示在預(yù)設(shè)長度文本窗口內(nèi)的數(shù)據(jù)中所包含的事件構(gòu)成要素識(shí)別:
根據(jù)該預(yù)設(shè)事件識(shí)別模型,對(duì)所述數(shù)據(jù)中所包含的事件特征詞進(jìn)行識(shí)別;
對(duì)所述事件特征詞以及事件構(gòu)成要素組合成描述相應(yīng)事件的新的數(shù)據(jù)對(duì)象。
本發(fā)明的目的還在于提供一種基于事件要素的事件抽取系統(tǒng),包括:
要素識(shí)別模塊,用于根據(jù)預(yù)設(shè)事件識(shí)別模型,對(duì)顯示在預(yù)設(shè)長度文本窗口內(nèi)的數(shù)據(jù)中所包含的事件構(gòu)成要素識(shí)別:
特征詞識(shí)別模塊,用于根據(jù)該預(yù)設(shè)事件識(shí)別模型,根據(jù)預(yù)設(shè)事件識(shí)別模型對(duì)所述數(shù)據(jù)中所包含的事件特征詞進(jìn)行識(shí)別;
數(shù)據(jù)組合模塊,用于對(duì)所述事件特征詞以及事件構(gòu)成要素組合成描述相應(yīng)事件的新的數(shù)據(jù)對(duì)象。
本發(fā)明通過數(shù)據(jù)中所包含的事件的構(gòu)成要素進(jìn)行識(shí)別后,利用預(yù)置的要素同現(xiàn)模型識(shí)別出該數(shù)據(jù)中包含的事件特征詞,原來將事件特征詞與事件的構(gòu)成要素進(jìn)行組合,形成新的描述事件的數(shù)據(jù)對(duì)象,從而實(shí)現(xiàn)快速對(duì)互聯(lián)網(wǎng)上傳播的數(shù)據(jù)的抽取,且本發(fā)明事件抽取方法可控可干預(yù),從而可極大地滿足互聯(lián)網(wǎng)信息中數(shù)據(jù)抽取的需要,最終獲得效果理想的事件識(shí)別結(jié)果。
附圖說明
圖1為本發(fā)明實(shí)施例提供的基于事件要素的事件抽取方法的流程圖;
圖2為本發(fā)明實(shí)施例提供的基于事件要素的事件抽取系統(tǒng)的原理圖。
具體實(shí)施方式
下面,結(jié)合實(shí)例對(duì)本發(fā)明的實(shí)質(zhì)性特點(diǎn)和優(yōu)勢作進(jìn)一步的說明,但本發(fā)明并不局限于所列的實(shí)施例。
本發(fā)明是通過要素識(shí)別、復(fù)合以及同現(xiàn)手段以實(shí)現(xiàn)對(duì)事件自動(dòng)化的提取的。
見圖1所示,一種基于事件要素的事件抽取方法,包括
根據(jù)預(yù)設(shè)事件識(shí)別模型,對(duì)顯示在預(yù)設(shè)長度文本窗口內(nèi)的數(shù)據(jù)中所包含的事件構(gòu)成要素識(shí)別:
根據(jù)該預(yù)設(shè)事件識(shí)別模型對(duì)所述數(shù)據(jù)中所包含的事件特征詞進(jìn)行識(shí)別;
對(duì)所述事件特征詞以及事件構(gòu)成要素組合成描述相應(yīng)事件的新的數(shù)據(jù)對(duì)象。
所述預(yù)設(shè)長度文本窗口可以根據(jù)需要來設(shè)定,如可以根據(jù)數(shù)據(jù)的事件表達(dá)的經(jīng)驗(yàn)值來設(shè)定相應(yīng)的文本窗口的長度,以使一個(gè)文本窗口內(nèi)數(shù)據(jù)可以表述一個(gè)完整的事件為原則。
所述事件構(gòu)成要素主要是指能構(gòu)成一個(gè)事件的關(guān)鍵要素,該要素組合起來能完整、簡要地描述一個(gè)事件的發(fā)生時(shí)間、地點(diǎn)等。
所述事件特征詞,是能夠確定事件內(nèi)容的一類特征詞,通常是事件具體描述詞,是指能表述事件或描述事件的主要特征的詞,即描述這是一個(gè)什么事件,如火災(zāi)事件或爆炸事件。
由于不同類型的事件在互聯(lián)網(wǎng)文本傳播時(shí),在一定文本窗口內(nèi)所出現(xiàn)的要素類型及要素內(nèi)容是不同的,也就是說同一個(gè)要素內(nèi)容對(duì)于不同的事件貢獻(xiàn)不同,根據(jù)事件識(shí)別模型及數(shù)據(jù)文本的要素的同現(xiàn)情況,就能確定這段文本數(shù)據(jù)的具體事件描述。
所述預(yù)設(shè)事件識(shí)別模型根據(jù)不同事件抽取的需要而設(shè)置,因而對(duì)應(yīng)不同的事件抽取需要,可以是多個(gè)事件識(shí)別模型,如火災(zāi)事件識(shí)別模型、爆炸事件識(shí)別模型等,不同的事件識(shí)別模型要求同現(xiàn)的要素不同,如火災(zāi)事件識(shí)別模型要求同現(xiàn)的要素可以是事件構(gòu)成要素如時(shí)間、地點(diǎn)與對(duì)應(yīng)的火災(zāi)特征詞,而爆炸事件識(shí)別模型要求同現(xiàn)的要素可以是事件構(gòu)成要素如時(shí)間、地點(diǎn)與對(duì)應(yīng)的爆炸特征詞。
如原始文本為:“2016年1月15日凌晨2:50左右,東關(guān)鎮(zhèn)東華社區(qū)一民房因電線老化漏電發(fā)生火災(zāi)”
利用火災(zāi)同現(xiàn)模型,形成的新的數(shù)據(jù)對(duì)象如下:
文本內(nèi)容:2016年1月15日凌晨2:50左右,東關(guān)鎮(zhèn)東華社區(qū)一民房因電線老化漏電發(fā)生火災(zāi)
事件特征詞:火災(zāi)
發(fā)生時(shí)間:2016年1月15日凌晨2:50
發(fā)生地點(diǎn):東關(guān)鎮(zhèn)。
本發(fā)明通過數(shù)據(jù)中所包含的事件的構(gòu)成要素進(jìn)行識(shí)別后,利用預(yù)置的要素同現(xiàn)模型識(shí)別出該數(shù)據(jù)中包含的事件特征詞,原來將事件特征詞與事件的構(gòu)成要素進(jìn)行組合,形成新的描述事件的數(shù)據(jù)對(duì)象,從而實(shí)現(xiàn)快速對(duì)互聯(lián)網(wǎng)上傳播的數(shù)據(jù)的抽取,且本發(fā)明事件抽取方法可控可干預(yù),從而可極大地滿足互聯(lián)網(wǎng)信息中數(shù)據(jù)抽取的需要,最終獲得效果理想的事件識(shí)別結(jié)果。
具體實(shí)現(xiàn)上,本發(fā)明中,所述事件構(gòu)成要素可以是包括時(shí)間、地點(diǎn)、數(shù)量以及人物;所述數(shù)量包括數(shù)字及對(duì)應(yīng)的數(shù)量單位。
所述時(shí)間如數(shù)據(jù)中的包含的“14年5月20日12點(diǎn)24分”,地點(diǎn)如數(shù)據(jù)中包含的的“濟(jì)南市”,數(shù)量如數(shù)據(jù)中包含的“1,111平方米”,人物如數(shù)據(jù)中包含的“張某某說”。
進(jìn)一步的,本發(fā)明中,在對(duì)事件構(gòu)成要素識(shí)別還包括以下格式化的步驟:
對(duì)識(shí)別出的時(shí)間要素,按預(yù)置方法進(jìn)行格式歸一化處理轉(zhuǎn)換統(tǒng)一的時(shí)間格式;
對(duì)識(shí)別出的數(shù)量要素,將數(shù)量要素中的數(shù)字與對(duì)應(yīng)的數(shù)量單位拆分,將數(shù)字轉(zhuǎn)換為預(yù)設(shè)的數(shù)字格式;
對(duì)識(shí)別出的地點(diǎn)要素,根據(jù)地點(diǎn)分類標(biāo)準(zhǔn)將地點(diǎn)分為多級(jí),并給每個(gè)地點(diǎn)賦予上級(jí)行政區(qū)劃的屬性;
對(duì)識(shí)別的出人物要素進(jìn)行格式化處理,提取出相應(yīng)的人名。
具體的,對(duì)上述關(guān)于對(duì)時(shí)間要素、數(shù)量要素及地點(diǎn)要素的處理可以是采用如下方法:
時(shí)間----從文本中識(shí)別出時(shí)間,并對(duì)時(shí)間進(jìn)行格式歸一化,時(shí)間分為絕對(duì)時(shí)間和相對(duì)時(shí)間:
絕對(duì)時(shí)間轉(zhuǎn)化為標(biāo)準(zhǔn)時(shí)間格式,如14年5月20日12點(diǎn)24分,轉(zhuǎn)化為:2014-05-20 12:24:00;
相對(duì)時(shí)間通過基準(zhǔn)時(shí)間進(jìn)行調(diào)整,并轉(zhuǎn)化為標(biāo)準(zhǔn)時(shí)間格式;
如昨天(基準(zhǔn)時(shí)間2014-05-20 12:24:00,)轉(zhuǎn)化為2014-05-19 12:24:00。
地點(diǎn)---從文本中識(shí)別出地點(diǎn),根據(jù)地點(diǎn)分類標(biāo)準(zhǔn),將地點(diǎn)可以分為5級(jí)(如國家,省,市,區(qū)縣,鄉(xiāng)鎮(zhèn)),并給每個(gè)地點(diǎn)賦予高級(jí)行政區(qū)劃的屬性。
如濟(jì)南市,級(jí)別為3級(jí),高級(jí)行政區(qū)劃:中國-山東省。
數(shù)量---從文本中識(shí)別出數(shù)字,對(duì)數(shù)字進(jìn)行分類,將數(shù)字中的數(shù)和單位拆分,數(shù)轉(zhuǎn)化為標(biāo)準(zhǔn)的數(shù)字格式。
如:1,111平方米,格式化數(shù)字:1111,單位:平方米。
人物---從文本中識(shí)別出人名。
如:張某某說,格式化人名:張某某。
通過以上的方法,對(duì)數(shù)據(jù)中包含的時(shí)間、地點(diǎn)、數(shù)量要素進(jìn)行統(tǒng)一處的處理,形成了統(tǒng)一的格式,便于事件抽取時(shí)數(shù)據(jù)處理統(tǒng)一。
進(jìn)一步的,本發(fā)明中,在對(duì)事件構(gòu)成要素中的時(shí)間、地點(diǎn)、數(shù)量要素識(shí)別出后還包括以下步驟:
根據(jù)預(yù)選設(shè)置的時(shí)間、地點(diǎn)、數(shù)量的篩選條件,對(duì)識(shí)別出的事件構(gòu)成要素中的時(shí)間、地點(diǎn)、數(shù)量進(jìn)行篩選。
通過對(duì)識(shí)別出的地名,時(shí)間,數(shù)字可以再進(jìn)行針對(duì)性地篩選,可以取得更為細(xì)分的結(jié)果,從而滿足相應(yīng)的事件識(shí)別要求,輸出符合要求的事件識(shí)別結(jié)構(gòu),使得事件識(shí)別處理更為準(zhǔn)確。
具體的,在時(shí)間篩選上,可以通過日期比較篩選實(shí)現(xiàn):篩選某一天前后的日期或某個(gè)區(qū)間的日期;時(shí)間篩選:篩選某個(gè)時(shí)間點(diǎn)前后的時(shí)間或某個(gè)區(qū)間的時(shí)間;自定義時(shí)間段篩選:可以自定義篩選某個(gè)時(shí)間特征,如:2016-05-27前的日期,09:10:00后的時(shí)間,4月份的時(shí)間
地點(diǎn),根據(jù)行政區(qū)劃進(jìn)行篩選,如屬于中國河南的地點(diǎn),屬于中國浙江省慈溪市的地點(diǎn)
數(shù)字,根據(jù)數(shù)字大小篩選,單位篩選;如大于20的數(shù),單位是“小時(shí)”的數(shù)量。
需要說明的是,本發(fā)明中,所述對(duì)顯示在預(yù)設(shè)長度文本窗口內(nèi)的數(shù)據(jù)中所包含的事件構(gòu)成要素識(shí)別時(shí)以在句內(nèi)的數(shù)據(jù)為限進(jìn)行識(shí)別。
事件模型的一重要維度,通常分為整句(句號(hào)等結(jié)尾),半句(逗號(hào)等結(jié)尾)兩種劃分,因此事件識(shí)別模型通過以在句內(nèi)的數(shù)據(jù)為限進(jìn)行識(shí)別,能夠降低自然語言在跨句時(shí)的歧義問題。
如文本窗口內(nèi)顯示的原始文本內(nèi)容為“2016年1月15日凌晨2:50左右,東關(guān)鎮(zhèn)東華社區(qū)一民房因電線老化漏電發(fā)生火災(zāi)”
該火災(zāi)事件識(shí)別模型要求必須包括的要素有:時(shí)間+地點(diǎn)+火災(zāi)特征詞(一句話內(nèi))
事件特征詞:火災(zāi)
事件時(shí)間:2016年1月15日凌晨2:50
時(shí)間地點(diǎn):東關(guān)鎮(zhèn)。
本發(fā)明的目的還在于提供一種基于事件要素的事件抽取系統(tǒng),包括:
要素識(shí)別模塊,用于根據(jù)預(yù)設(shè)事件識(shí)別模型,對(duì)顯示在預(yù)設(shè)長度文本窗口內(nèi)的數(shù)據(jù)中所包含的事件構(gòu)成要素識(shí)別:
特征詞識(shí)別模塊,用于根據(jù)該預(yù)設(shè)事件識(shí)別模型,根據(jù)預(yù)設(shè)事件識(shí)別模型對(duì)所述數(shù)據(jù)中所包含的事件特征詞進(jìn)行識(shí)別;
數(shù)據(jù)組合模塊,用于對(duì)所述事件特征詞以及事件構(gòu)成要素組合成描述相應(yīng)事件的新的數(shù)據(jù)對(duì)象。
所述的預(yù)設(shè)長度文本窗口可以根據(jù)需要來設(shè)定,如可以根據(jù)數(shù)據(jù)的事件表達(dá)的經(jīng)驗(yàn)值來設(shè)定相應(yīng)的文本窗口的長度,以使一個(gè)文本窗口內(nèi)數(shù)據(jù)可以表述一個(gè)完整的事件為原則。
所述事件構(gòu)成要素主要是指能構(gòu)成一個(gè)事件的關(guān)鍵要素,該要素組合起來能完整、簡要地描述一個(gè)事件的發(fā)生時(shí)間、地點(diǎn)等。
所述事件特征詞,是能夠確定事件內(nèi)容的一類特征詞,通常是事件具體描述詞,是指能表述事件或描述事件的主要特征的詞,即描述這是一個(gè)什么事件,如火災(zāi)事件或爆炸事件。
由于不同類型的事件在互聯(lián)網(wǎng)文本傳播時(shí),在一定文本窗口內(nèi)所出現(xiàn)的要素類型及要素內(nèi)容是不同的,也就是說同一個(gè)要素內(nèi)容對(duì)于不同的事件貢獻(xiàn)不同,根據(jù)事件識(shí)別模型及數(shù)據(jù)文本的要素同現(xiàn)情況,就能確定這段文本數(shù)據(jù)的具體事件描述。
所述預(yù)設(shè)事件識(shí)別模型根據(jù)不同事件抽取的需要而設(shè)置,因而對(duì)應(yīng)不同的事件抽取需要,可以是多個(gè)事件識(shí)別模型,如火災(zāi)事件識(shí)別模型、爆炸事件識(shí)別模型等,不同的事件識(shí)別模型要求同現(xiàn)的要素不同,如火災(zāi)事件識(shí)別模型要求同現(xiàn)的要素可以是事件構(gòu)成要素如時(shí)間、地點(diǎn)與對(duì)應(yīng)的火災(zāi)特征詞,而爆炸事件識(shí)別模型要求同現(xiàn)的要素可以是事件構(gòu)成要素如時(shí)間、地點(diǎn)與對(duì)應(yīng)的爆炸特征詞。
如原始文本為:“2016年1月15日凌晨2:50左右,東關(guān)鎮(zhèn)東華社區(qū)一民房因電線老化漏電發(fā)生火災(zāi)”
利用火災(zāi)同現(xiàn)模型,形成的新的數(shù)據(jù)對(duì)象如下:
文本內(nèi)容:2016年1月15日凌晨2:50左右,東關(guān)鎮(zhèn)東華社區(qū)一民房因電線老化漏電發(fā)生火災(zāi)
事件特征詞:火災(zāi)
發(fā)生時(shí)間:2016年1月15日凌晨2:50
發(fā)生地點(diǎn):東關(guān)鎮(zhèn)。
本發(fā)明通過數(shù)據(jù)中所包含的事件的構(gòu)成要素進(jìn)行識(shí)別后,利用預(yù)置的要素同現(xiàn)模型識(shí)別出該數(shù)據(jù)中包含的事件特征詞,原來將事件特征詞與事件的構(gòu)成要素進(jìn)行組合,形成新的描述事件的數(shù)據(jù)對(duì)象,從而實(shí)現(xiàn)快速對(duì)互聯(lián)網(wǎng)上傳播的數(shù)據(jù)的抽取,且本發(fā)明事件抽取方法可控可干預(yù),從而可極大地滿足互聯(lián)網(wǎng)信息中數(shù)據(jù)抽取的需要,最終獲得效果理想的事件識(shí)別結(jié)果。
具體實(shí)現(xiàn)上,本發(fā)明中,所述事件構(gòu)成要素包括時(shí)間、地點(diǎn)、數(shù)量以及人物;所述數(shù)量包括數(shù)字及對(duì)應(yīng)的數(shù)量單位。
所述時(shí)間如數(shù)據(jù)中的包含的“14年5月20日12點(diǎn)24分”,地點(diǎn)如數(shù)據(jù)中包含的的“濟(jì)南市”,數(shù)量如數(shù)據(jù)中包含的“1,111平方米”,人物如數(shù)據(jù)中包含的“張某某說”。
進(jìn)一步的,本發(fā)明中,所述要素識(shí)別模塊包括:
時(shí)間要素處理單元,用于對(duì)識(shí)別出的時(shí)間要素,按預(yù)置方法進(jìn)行格式歸一化處理轉(zhuǎn)換統(tǒng)一的時(shí)間格式;
數(shù)量要素處理單元,用于對(duì)識(shí)別出的數(shù)量要素,將數(shù)量要素中的數(shù)字與對(duì)應(yīng)的數(shù)量單位拆分,將數(shù)字轉(zhuǎn)換為預(yù)設(shè)的數(shù)字格式;
地點(diǎn)要素處理單元,用于對(duì)識(shí)別出的地點(diǎn)要素,根據(jù)地點(diǎn)分類標(biāo)準(zhǔn)將地點(diǎn)分為多級(jí),并給每個(gè)地點(diǎn)賦予上級(jí)行政區(qū)劃的屬性。
人名要素處理單元,用于對(duì)識(shí)別的出人物要素進(jìn)行格式化處理,提取出相應(yīng)的人名。
具體的,對(duì)上述關(guān)于對(duì)時(shí)間要素、數(shù)量要素及地點(diǎn)要素的處理可以是采用如下方法:
時(shí)間----從文本中識(shí)別出時(shí)間,并對(duì)時(shí)間進(jìn)行格式歸一化,時(shí)間分為絕對(duì)時(shí)間和相對(duì)時(shí)間:
絕對(duì)時(shí)間轉(zhuǎn)化為標(biāo)準(zhǔn)時(shí)間格式,如14年5月20日12點(diǎn)24分,轉(zhuǎn)化為:2014-05-20 12:24:00;
相對(duì)時(shí)間通過基準(zhǔn)時(shí)間進(jìn)行調(diào)整,并轉(zhuǎn)化為標(biāo)準(zhǔn)時(shí)間格式;
如昨天(基準(zhǔn)時(shí)間2014-05-20 12:24:00,)轉(zhuǎn)化為2014-05-19 12:24:00。
地點(diǎn)---從文本中識(shí)別出地點(diǎn),根據(jù)地點(diǎn)分類標(biāo)準(zhǔn),將地點(diǎn)可以分為5級(jí)(如國家,省,市,區(qū)縣,鄉(xiāng)鎮(zhèn)),并給每個(gè)地點(diǎn)賦予高級(jí)行政區(qū)劃的屬性。
如濟(jì)南市,級(jí)別為3級(jí),高級(jí)行政區(qū)劃:中國-山東省。
數(shù)量---從文本中識(shí)別出數(shù)字,對(duì)數(shù)字進(jìn)行分類,將數(shù)字中的數(shù)和單位拆分,數(shù)轉(zhuǎn)化為標(biāo)準(zhǔn)的數(shù)字格式。
如:1,111平方米,格式化數(shù)字:1111,單位:平方米。
人物---從文本中識(shí)別出人名。
如:張某某說,格式化人名:張某某。
通過以上的方法,對(duì)數(shù)據(jù)中包含的時(shí)間、地點(diǎn)、數(shù)量要素進(jìn)行統(tǒng)一處的處理,形成了統(tǒng)一的格式,便于事件抽取時(shí)數(shù)據(jù)處理統(tǒng)一。
進(jìn)一步的,本發(fā)明中,所述要素識(shí)別模塊包括篩選單元,用于在對(duì)事件構(gòu)成要素中的時(shí)間、地點(diǎn)、數(shù)量要素識(shí)別出后,根據(jù)預(yù)選設(shè)置的時(shí)間、地點(diǎn)、數(shù)量的篩選條件,對(duì)識(shí)別出的事件構(gòu)成要素中的時(shí)間、地點(diǎn)、數(shù)量進(jìn)行篩選。
通過對(duì)識(shí)別出的地名,時(shí)間,數(shù)字可以再進(jìn)行針對(duì)性地篩選,可以取得更為細(xì)分的結(jié)果,從而滿足相應(yīng)的事件識(shí)別要求,輸出符合要求的事件識(shí)別結(jié)構(gòu),使得事件識(shí)別處理更為準(zhǔn)確。
具體的,在時(shí)間篩選上,可以通過日期比較篩選實(shí)現(xiàn):篩選某一天前后的日期或某個(gè)區(qū)間的日期;時(shí)間篩選:篩選某個(gè)時(shí)間點(diǎn)前后的時(shí)間或某個(gè)區(qū)間的時(shí)間;自定義時(shí)間段篩選:可以自定義篩選某個(gè)時(shí)間特征,如:2016-05-27前的日期,09:10:00后的時(shí)間,4月份的時(shí)間
地點(diǎn),根據(jù)行政區(qū)劃進(jìn)行篩選,如屬于中國河南的地點(diǎn),屬于中國浙江省慈溪市的地點(diǎn)
數(shù)字,根據(jù)數(shù)字大小篩選,單位篩選;如大于20的數(shù),單位是“小時(shí)”的數(shù)量。
需要說明的是,本發(fā)明中,所述對(duì)顯示在預(yù)設(shè)長度文本窗口內(nèi)的數(shù)據(jù)中所包含的事件構(gòu)成要素識(shí)別時(shí)以在句內(nèi)的數(shù)據(jù)為限進(jìn)行識(shí)別。
事件模型的一重要維度,通常分為整句(句號(hào)等結(jié)尾),半句(逗號(hào)等結(jié)尾)兩種劃分,因此事件識(shí)別模型通過以在句內(nèi)的數(shù)據(jù)為限進(jìn)行識(shí)別,能夠降低自然語言在跨句時(shí)的歧義問題。
如文本窗口內(nèi)顯示的原始文本內(nèi)容為“2016年1月15日凌晨2:50左右,東關(guān)鎮(zhèn)東華社區(qū)一民房因電線老化漏電發(fā)生火災(zāi)”
該火災(zāi)事件識(shí)別模型要求必須包括的要素有:時(shí)間+地點(diǎn)+火災(zāi)特征詞(一句話內(nèi))
事件特征詞:火災(zāi)
事件時(shí)間:2016年1月15日凌晨2:50
時(shí)間地點(diǎn):東關(guān)鎮(zhèn)。
可以看出,本發(fā)明通過使用要素識(shí)別以及事件識(shí)別模型,能靈活的針對(duì)開放文本進(jìn)行事件抽取,要素識(shí)別為后續(xù)處理提供了標(biāo)準(zhǔn)的格式化的事件要素,另外通過要素篩選,要素同現(xiàn)的事件特征詞、句內(nèi)設(shè)置及能夠簡單的對(duì)事件抽取效果進(jìn)行干預(yù),使事件抽取可運(yùn)營,可干預(yù),效果可控,通過模型的改進(jìn),最終獲得效果理想的事件識(shí)別結(jié)果。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。