亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于事件要素的事件抽取方法及系統(tǒng)與流程

文檔序號(hào):12271386閱讀:325來源:國知局
一種基于事件要素的事件抽取方法及系統(tǒng)與流程

本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體涉及一種基于事件要素的事件抽取方法及系統(tǒng)。



背景技術(shù):

由于現(xiàn)在互聯(lián)網(wǎng)的發(fā)展,以微博為代表的自媒體大行其道,相比起官方的通告,互聯(lián)網(wǎng)自媒體的聲音要更迅速,更貼近。對(duì)于應(yīng)對(duì)各類突發(fā)事件(如火災(zāi)、地震等),互聯(lián)網(wǎng)上的信息變得尤為重要,但面對(duì)互聯(lián)網(wǎng)龐大的數(shù)據(jù)增量,這類數(shù)據(jù)又顯得極為稀疏,因此從互聯(lián)網(wǎng)龐大的聲音中找到各類突發(fā)事件的聲音,以便即使的做出響應(yīng)和對(duì)策,是現(xiàn)在無論政府還是企業(yè)都迫切需要的一種數(shù)據(jù)挖掘能力。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于解決上述的技術(shù)問題而提供一種基于事件要素的事件抽取方法及系統(tǒng)。

為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

一種基于事件要素的事件抽取方法,包括以下步驟:

根據(jù)預(yù)設(shè)事件識(shí)別模型,對(duì)顯示在預(yù)設(shè)長度文本窗口內(nèi)的數(shù)據(jù)中所包含的事件構(gòu)成要素識(shí)別:

根據(jù)該預(yù)設(shè)事件識(shí)別模型,對(duì)所述數(shù)據(jù)中所包含的事件特征詞進(jìn)行識(shí)別;

對(duì)所述事件特征詞以及事件構(gòu)成要素組合成描述相應(yīng)事件的新的數(shù)據(jù)對(duì)象。

本發(fā)明的目的還在于提供一種基于事件要素的事件抽取系統(tǒng),包括:

要素識(shí)別模塊,用于根據(jù)預(yù)設(shè)事件識(shí)別模型,對(duì)顯示在預(yù)設(shè)長度文本窗口內(nèi)的數(shù)據(jù)中所包含的事件構(gòu)成要素識(shí)別:

特征詞識(shí)別模塊,用于根據(jù)該預(yù)設(shè)事件識(shí)別模型,根據(jù)預(yù)設(shè)事件識(shí)別模型對(duì)所述數(shù)據(jù)中所包含的事件特征詞進(jìn)行識(shí)別;

數(shù)據(jù)組合模塊,用于對(duì)所述事件特征詞以及事件構(gòu)成要素組合成描述相應(yīng)事件的新的數(shù)據(jù)對(duì)象。

本發(fā)明通過數(shù)據(jù)中所包含的事件的構(gòu)成要素進(jìn)行識(shí)別后,利用預(yù)置的要素同現(xiàn)模型識(shí)別出該數(shù)據(jù)中包含的事件特征詞,原來將事件特征詞與事件的構(gòu)成要素進(jìn)行組合,形成新的描述事件的數(shù)據(jù)對(duì)象,從而實(shí)現(xiàn)快速對(duì)互聯(lián)網(wǎng)上傳播的數(shù)據(jù)的抽取,且本發(fā)明事件抽取方法可控可干預(yù),從而可極大地滿足互聯(lián)網(wǎng)信息中數(shù)據(jù)抽取的需要,最終獲得效果理想的事件識(shí)別結(jié)果。

附圖說明

圖1為本發(fā)明實(shí)施例提供的基于事件要素的事件抽取方法的流程圖;

圖2為本發(fā)明實(shí)施例提供的基于事件要素的事件抽取系統(tǒng)的原理圖。

具體實(shí)施方式

下面,結(jié)合實(shí)例對(duì)本發(fā)明的實(shí)質(zhì)性特點(diǎn)和優(yōu)勢作進(jìn)一步的說明,但本發(fā)明并不局限于所列的實(shí)施例。

本發(fā)明是通過要素識(shí)別、復(fù)合以及同現(xiàn)手段以實(shí)現(xiàn)對(duì)事件自動(dòng)化的提取的。

見圖1所示,一種基于事件要素的事件抽取方法,包括

根據(jù)預(yù)設(shè)事件識(shí)別模型,對(duì)顯示在預(yù)設(shè)長度文本窗口內(nèi)的數(shù)據(jù)中所包含的事件構(gòu)成要素識(shí)別:

根據(jù)該預(yù)設(shè)事件識(shí)別模型對(duì)所述數(shù)據(jù)中所包含的事件特征詞進(jìn)行識(shí)別;

對(duì)所述事件特征詞以及事件構(gòu)成要素組合成描述相應(yīng)事件的新的數(shù)據(jù)對(duì)象。

所述預(yù)設(shè)長度文本窗口可以根據(jù)需要來設(shè)定,如可以根據(jù)數(shù)據(jù)的事件表達(dá)的經(jīng)驗(yàn)值來設(shè)定相應(yīng)的文本窗口的長度,以使一個(gè)文本窗口內(nèi)數(shù)據(jù)可以表述一個(gè)完整的事件為原則。

所述事件構(gòu)成要素主要是指能構(gòu)成一個(gè)事件的關(guān)鍵要素,該要素組合起來能完整、簡要地描述一個(gè)事件的發(fā)生時(shí)間、地點(diǎn)等。

所述事件特征詞,是能夠確定事件內(nèi)容的一類特征詞,通常是事件具體描述詞,是指能表述事件或描述事件的主要特征的詞,即描述這是一個(gè)什么事件,如火災(zāi)事件或爆炸事件。

由于不同類型的事件在互聯(lián)網(wǎng)文本傳播時(shí),在一定文本窗口內(nèi)所出現(xiàn)的要素類型及要素內(nèi)容是不同的,也就是說同一個(gè)要素內(nèi)容對(duì)于不同的事件貢獻(xiàn)不同,根據(jù)事件識(shí)別模型及數(shù)據(jù)文本的要素的同現(xiàn)情況,就能確定這段文本數(shù)據(jù)的具體事件描述。

所述預(yù)設(shè)事件識(shí)別模型根據(jù)不同事件抽取的需要而設(shè)置,因而對(duì)應(yīng)不同的事件抽取需要,可以是多個(gè)事件識(shí)別模型,如火災(zāi)事件識(shí)別模型、爆炸事件識(shí)別模型等,不同的事件識(shí)別模型要求同現(xiàn)的要素不同,如火災(zāi)事件識(shí)別模型要求同現(xiàn)的要素可以是事件構(gòu)成要素如時(shí)間、地點(diǎn)與對(duì)應(yīng)的火災(zāi)特征詞,而爆炸事件識(shí)別模型要求同現(xiàn)的要素可以是事件構(gòu)成要素如時(shí)間、地點(diǎn)與對(duì)應(yīng)的爆炸特征詞。

如原始文本為:“2016年1月15日凌晨2:50左右,東關(guān)鎮(zhèn)東華社區(qū)一民房因電線老化漏電發(fā)生火災(zāi)”

利用火災(zāi)同現(xiàn)模型,形成的新的數(shù)據(jù)對(duì)象如下:

文本內(nèi)容:2016年1月15日凌晨2:50左右,東關(guān)鎮(zhèn)東華社區(qū)一民房因電線老化漏電發(fā)生火災(zāi)

事件特征詞:火災(zāi)

發(fā)生時(shí)間:2016年1月15日凌晨2:50

發(fā)生地點(diǎn):東關(guān)鎮(zhèn)。

本發(fā)明通過數(shù)據(jù)中所包含的事件的構(gòu)成要素進(jìn)行識(shí)別后,利用預(yù)置的要素同現(xiàn)模型識(shí)別出該數(shù)據(jù)中包含的事件特征詞,原來將事件特征詞與事件的構(gòu)成要素進(jìn)行組合,形成新的描述事件的數(shù)據(jù)對(duì)象,從而實(shí)現(xiàn)快速對(duì)互聯(lián)網(wǎng)上傳播的數(shù)據(jù)的抽取,且本發(fā)明事件抽取方法可控可干預(yù),從而可極大地滿足互聯(lián)網(wǎng)信息中數(shù)據(jù)抽取的需要,最終獲得效果理想的事件識(shí)別結(jié)果。

具體實(shí)現(xiàn)上,本發(fā)明中,所述事件構(gòu)成要素可以是包括時(shí)間、地點(diǎn)、數(shù)量以及人物;所述數(shù)量包括數(shù)字及對(duì)應(yīng)的數(shù)量單位。

所述時(shí)間如數(shù)據(jù)中的包含的“14年5月20日12點(diǎn)24分”,地點(diǎn)如數(shù)據(jù)中包含的的“濟(jì)南市”,數(shù)量如數(shù)據(jù)中包含的“1,111平方米”,人物如數(shù)據(jù)中包含的“張某某說”。

進(jìn)一步的,本發(fā)明中,在對(duì)事件構(gòu)成要素識(shí)別還包括以下格式化的步驟:

對(duì)識(shí)別出的時(shí)間要素,按預(yù)置方法進(jìn)行格式歸一化處理轉(zhuǎn)換統(tǒng)一的時(shí)間格式;

對(duì)識(shí)別出的數(shù)量要素,將數(shù)量要素中的數(shù)字與對(duì)應(yīng)的數(shù)量單位拆分,將數(shù)字轉(zhuǎn)換為預(yù)設(shè)的數(shù)字格式;

對(duì)識(shí)別出的地點(diǎn)要素,根據(jù)地點(diǎn)分類標(biāo)準(zhǔn)將地點(diǎn)分為多級(jí),并給每個(gè)地點(diǎn)賦予上級(jí)行政區(qū)劃的屬性;

對(duì)識(shí)別的出人物要素進(jìn)行格式化處理,提取出相應(yīng)的人名。

具體的,對(duì)上述關(guān)于對(duì)時(shí)間要素、數(shù)量要素及地點(diǎn)要素的處理可以是采用如下方法:

時(shí)間----從文本中識(shí)別出時(shí)間,并對(duì)時(shí)間進(jìn)行格式歸一化,時(shí)間分為絕對(duì)時(shí)間和相對(duì)時(shí)間:

絕對(duì)時(shí)間轉(zhuǎn)化為標(biāo)準(zhǔn)時(shí)間格式,如14年5月20日12點(diǎn)24分,轉(zhuǎn)化為:2014-05-20 12:24:00;

相對(duì)時(shí)間通過基準(zhǔn)時(shí)間進(jìn)行調(diào)整,并轉(zhuǎn)化為標(biāo)準(zhǔn)時(shí)間格式;

如昨天(基準(zhǔn)時(shí)間2014-05-20 12:24:00,)轉(zhuǎn)化為2014-05-19 12:24:00。

地點(diǎn)---從文本中識(shí)別出地點(diǎn),根據(jù)地點(diǎn)分類標(biāo)準(zhǔn),將地點(diǎn)可以分為5級(jí)(如國家,省,市,區(qū)縣,鄉(xiāng)鎮(zhèn)),并給每個(gè)地點(diǎn)賦予高級(jí)行政區(qū)劃的屬性。

如濟(jì)南市,級(jí)別為3級(jí),高級(jí)行政區(qū)劃:中國-山東省。

數(shù)量---從文本中識(shí)別出數(shù)字,對(duì)數(shù)字進(jìn)行分類,將數(shù)字中的數(shù)和單位拆分,數(shù)轉(zhuǎn)化為標(biāo)準(zhǔn)的數(shù)字格式。

如:1,111平方米,格式化數(shù)字:1111,單位:平方米。

人物---從文本中識(shí)別出人名。

如:張某某說,格式化人名:張某某。

通過以上的方法,對(duì)數(shù)據(jù)中包含的時(shí)間、地點(diǎn)、數(shù)量要素進(jìn)行統(tǒng)一處的處理,形成了統(tǒng)一的格式,便于事件抽取時(shí)數(shù)據(jù)處理統(tǒng)一。

進(jìn)一步的,本發(fā)明中,在對(duì)事件構(gòu)成要素中的時(shí)間、地點(diǎn)、數(shù)量要素識(shí)別出后還包括以下步驟:

根據(jù)預(yù)選設(shè)置的時(shí)間、地點(diǎn)、數(shù)量的篩選條件,對(duì)識(shí)別出的事件構(gòu)成要素中的時(shí)間、地點(diǎn)、數(shù)量進(jìn)行篩選。

通過對(duì)識(shí)別出的地名,時(shí)間,數(shù)字可以再進(jìn)行針對(duì)性地篩選,可以取得更為細(xì)分的結(jié)果,從而滿足相應(yīng)的事件識(shí)別要求,輸出符合要求的事件識(shí)別結(jié)構(gòu),使得事件識(shí)別處理更為準(zhǔn)確。

具體的,在時(shí)間篩選上,可以通過日期比較篩選實(shí)現(xiàn):篩選某一天前后的日期或某個(gè)區(qū)間的日期;時(shí)間篩選:篩選某個(gè)時(shí)間點(diǎn)前后的時(shí)間或某個(gè)區(qū)間的時(shí)間;自定義時(shí)間段篩選:可以自定義篩選某個(gè)時(shí)間特征,如:2016-05-27前的日期,09:10:00后的時(shí)間,4月份的時(shí)間

地點(diǎn),根據(jù)行政區(qū)劃進(jìn)行篩選,如屬于中國河南的地點(diǎn),屬于中國浙江省慈溪市的地點(diǎn)

數(shù)字,根據(jù)數(shù)字大小篩選,單位篩選;如大于20的數(shù),單位是“小時(shí)”的數(shù)量。

需要說明的是,本發(fā)明中,所述對(duì)顯示在預(yù)設(shè)長度文本窗口內(nèi)的數(shù)據(jù)中所包含的事件構(gòu)成要素識(shí)別時(shí)以在句內(nèi)的數(shù)據(jù)為限進(jìn)行識(shí)別。

事件模型的一重要維度,通常分為整句(句號(hào)等結(jié)尾),半句(逗號(hào)等結(jié)尾)兩種劃分,因此事件識(shí)別模型通過以在句內(nèi)的數(shù)據(jù)為限進(jìn)行識(shí)別,能夠降低自然語言在跨句時(shí)的歧義問題。

如文本窗口內(nèi)顯示的原始文本內(nèi)容為“2016年1月15日凌晨2:50左右,東關(guān)鎮(zhèn)東華社區(qū)一民房因電線老化漏電發(fā)生火災(zāi)”

該火災(zāi)事件識(shí)別模型要求必須包括的要素有:時(shí)間+地點(diǎn)+火災(zāi)特征詞(一句話內(nèi))

事件特征詞:火災(zāi)

事件時(shí)間:2016年1月15日凌晨2:50

時(shí)間地點(diǎn):東關(guān)鎮(zhèn)。

本發(fā)明的目的還在于提供一種基于事件要素的事件抽取系統(tǒng),包括:

要素識(shí)別模塊,用于根據(jù)預(yù)設(shè)事件識(shí)別模型,對(duì)顯示在預(yù)設(shè)長度文本窗口內(nèi)的數(shù)據(jù)中所包含的事件構(gòu)成要素識(shí)別:

特征詞識(shí)別模塊,用于根據(jù)該預(yù)設(shè)事件識(shí)別模型,根據(jù)預(yù)設(shè)事件識(shí)別模型對(duì)所述數(shù)據(jù)中所包含的事件特征詞進(jìn)行識(shí)別;

數(shù)據(jù)組合模塊,用于對(duì)所述事件特征詞以及事件構(gòu)成要素組合成描述相應(yīng)事件的新的數(shù)據(jù)對(duì)象。

所述的預(yù)設(shè)長度文本窗口可以根據(jù)需要來設(shè)定,如可以根據(jù)數(shù)據(jù)的事件表達(dá)的經(jīng)驗(yàn)值來設(shè)定相應(yīng)的文本窗口的長度,以使一個(gè)文本窗口內(nèi)數(shù)據(jù)可以表述一個(gè)完整的事件為原則。

所述事件構(gòu)成要素主要是指能構(gòu)成一個(gè)事件的關(guān)鍵要素,該要素組合起來能完整、簡要地描述一個(gè)事件的發(fā)生時(shí)間、地點(diǎn)等。

所述事件特征詞,是能夠確定事件內(nèi)容的一類特征詞,通常是事件具體描述詞,是指能表述事件或描述事件的主要特征的詞,即描述這是一個(gè)什么事件,如火災(zāi)事件或爆炸事件。

由于不同類型的事件在互聯(lián)網(wǎng)文本傳播時(shí),在一定文本窗口內(nèi)所出現(xiàn)的要素類型及要素內(nèi)容是不同的,也就是說同一個(gè)要素內(nèi)容對(duì)于不同的事件貢獻(xiàn)不同,根據(jù)事件識(shí)別模型及數(shù)據(jù)文本的要素同現(xiàn)情況,就能確定這段文本數(shù)據(jù)的具體事件描述。

所述預(yù)設(shè)事件識(shí)別模型根據(jù)不同事件抽取的需要而設(shè)置,因而對(duì)應(yīng)不同的事件抽取需要,可以是多個(gè)事件識(shí)別模型,如火災(zāi)事件識(shí)別模型、爆炸事件識(shí)別模型等,不同的事件識(shí)別模型要求同現(xiàn)的要素不同,如火災(zāi)事件識(shí)別模型要求同現(xiàn)的要素可以是事件構(gòu)成要素如時(shí)間、地點(diǎn)與對(duì)應(yīng)的火災(zāi)特征詞,而爆炸事件識(shí)別模型要求同現(xiàn)的要素可以是事件構(gòu)成要素如時(shí)間、地點(diǎn)與對(duì)應(yīng)的爆炸特征詞。

如原始文本為:“2016年1月15日凌晨2:50左右,東關(guān)鎮(zhèn)東華社區(qū)一民房因電線老化漏電發(fā)生火災(zāi)”

利用火災(zāi)同現(xiàn)模型,形成的新的數(shù)據(jù)對(duì)象如下:

文本內(nèi)容:2016年1月15日凌晨2:50左右,東關(guān)鎮(zhèn)東華社區(qū)一民房因電線老化漏電發(fā)生火災(zāi)

事件特征詞:火災(zāi)

發(fā)生時(shí)間:2016年1月15日凌晨2:50

發(fā)生地點(diǎn):東關(guān)鎮(zhèn)。

本發(fā)明通過數(shù)據(jù)中所包含的事件的構(gòu)成要素進(jìn)行識(shí)別后,利用預(yù)置的要素同現(xiàn)模型識(shí)別出該數(shù)據(jù)中包含的事件特征詞,原來將事件特征詞與事件的構(gòu)成要素進(jìn)行組合,形成新的描述事件的數(shù)據(jù)對(duì)象,從而實(shí)現(xiàn)快速對(duì)互聯(lián)網(wǎng)上傳播的數(shù)據(jù)的抽取,且本發(fā)明事件抽取方法可控可干預(yù),從而可極大地滿足互聯(lián)網(wǎng)信息中數(shù)據(jù)抽取的需要,最終獲得效果理想的事件識(shí)別結(jié)果。

具體實(shí)現(xiàn)上,本發(fā)明中,所述事件構(gòu)成要素包括時(shí)間、地點(diǎn)、數(shù)量以及人物;所述數(shù)量包括數(shù)字及對(duì)應(yīng)的數(shù)量單位。

所述時(shí)間如數(shù)據(jù)中的包含的“14年5月20日12點(diǎn)24分”,地點(diǎn)如數(shù)據(jù)中包含的的“濟(jì)南市”,數(shù)量如數(shù)據(jù)中包含的“1,111平方米”,人物如數(shù)據(jù)中包含的“張某某說”。

進(jìn)一步的,本發(fā)明中,所述要素識(shí)別模塊包括:

時(shí)間要素處理單元,用于對(duì)識(shí)別出的時(shí)間要素,按預(yù)置方法進(jìn)行格式歸一化處理轉(zhuǎn)換統(tǒng)一的時(shí)間格式;

數(shù)量要素處理單元,用于對(duì)識(shí)別出的數(shù)量要素,將數(shù)量要素中的數(shù)字與對(duì)應(yīng)的數(shù)量單位拆分,將數(shù)字轉(zhuǎn)換為預(yù)設(shè)的數(shù)字格式;

地點(diǎn)要素處理單元,用于對(duì)識(shí)別出的地點(diǎn)要素,根據(jù)地點(diǎn)分類標(biāo)準(zhǔn)將地點(diǎn)分為多級(jí),并給每個(gè)地點(diǎn)賦予上級(jí)行政區(qū)劃的屬性。

人名要素處理單元,用于對(duì)識(shí)別的出人物要素進(jìn)行格式化處理,提取出相應(yīng)的人名。

具體的,對(duì)上述關(guān)于對(duì)時(shí)間要素、數(shù)量要素及地點(diǎn)要素的處理可以是采用如下方法:

時(shí)間----從文本中識(shí)別出時(shí)間,并對(duì)時(shí)間進(jìn)行格式歸一化,時(shí)間分為絕對(duì)時(shí)間和相對(duì)時(shí)間:

絕對(duì)時(shí)間轉(zhuǎn)化為標(biāo)準(zhǔn)時(shí)間格式,如14年5月20日12點(diǎn)24分,轉(zhuǎn)化為:2014-05-20 12:24:00;

相對(duì)時(shí)間通過基準(zhǔn)時(shí)間進(jìn)行調(diào)整,并轉(zhuǎn)化為標(biāo)準(zhǔn)時(shí)間格式;

如昨天(基準(zhǔn)時(shí)間2014-05-20 12:24:00,)轉(zhuǎn)化為2014-05-19 12:24:00。

地點(diǎn)---從文本中識(shí)別出地點(diǎn),根據(jù)地點(diǎn)分類標(biāo)準(zhǔn),將地點(diǎn)可以分為5級(jí)(如國家,省,市,區(qū)縣,鄉(xiāng)鎮(zhèn)),并給每個(gè)地點(diǎn)賦予高級(jí)行政區(qū)劃的屬性。

如濟(jì)南市,級(jí)別為3級(jí),高級(jí)行政區(qū)劃:中國-山東省。

數(shù)量---從文本中識(shí)別出數(shù)字,對(duì)數(shù)字進(jìn)行分類,將數(shù)字中的數(shù)和單位拆分,數(shù)轉(zhuǎn)化為標(biāo)準(zhǔn)的數(shù)字格式。

如:1,111平方米,格式化數(shù)字:1111,單位:平方米。

人物---從文本中識(shí)別出人名。

如:張某某說,格式化人名:張某某。

通過以上的方法,對(duì)數(shù)據(jù)中包含的時(shí)間、地點(diǎn)、數(shù)量要素進(jìn)行統(tǒng)一處的處理,形成了統(tǒng)一的格式,便于事件抽取時(shí)數(shù)據(jù)處理統(tǒng)一。

進(jìn)一步的,本發(fā)明中,所述要素識(shí)別模塊包括篩選單元,用于在對(duì)事件構(gòu)成要素中的時(shí)間、地點(diǎn)、數(shù)量要素識(shí)別出后,根據(jù)預(yù)選設(shè)置的時(shí)間、地點(diǎn)、數(shù)量的篩選條件,對(duì)識(shí)別出的事件構(gòu)成要素中的時(shí)間、地點(diǎn)、數(shù)量進(jìn)行篩選。

通過對(duì)識(shí)別出的地名,時(shí)間,數(shù)字可以再進(jìn)行針對(duì)性地篩選,可以取得更為細(xì)分的結(jié)果,從而滿足相應(yīng)的事件識(shí)別要求,輸出符合要求的事件識(shí)別結(jié)構(gòu),使得事件識(shí)別處理更為準(zhǔn)確。

具體的,在時(shí)間篩選上,可以通過日期比較篩選實(shí)現(xiàn):篩選某一天前后的日期或某個(gè)區(qū)間的日期;時(shí)間篩選:篩選某個(gè)時(shí)間點(diǎn)前后的時(shí)間或某個(gè)區(qū)間的時(shí)間;自定義時(shí)間段篩選:可以自定義篩選某個(gè)時(shí)間特征,如:2016-05-27前的日期,09:10:00后的時(shí)間,4月份的時(shí)間

地點(diǎn),根據(jù)行政區(qū)劃進(jìn)行篩選,如屬于中國河南的地點(diǎn),屬于中國浙江省慈溪市的地點(diǎn)

數(shù)字,根據(jù)數(shù)字大小篩選,單位篩選;如大于20的數(shù),單位是“小時(shí)”的數(shù)量。

需要說明的是,本發(fā)明中,所述對(duì)顯示在預(yù)設(shè)長度文本窗口內(nèi)的數(shù)據(jù)中所包含的事件構(gòu)成要素識(shí)別時(shí)以在句內(nèi)的數(shù)據(jù)為限進(jìn)行識(shí)別。

事件模型的一重要維度,通常分為整句(句號(hào)等結(jié)尾),半句(逗號(hào)等結(jié)尾)兩種劃分,因此事件識(shí)別模型通過以在句內(nèi)的數(shù)據(jù)為限進(jìn)行識(shí)別,能夠降低自然語言在跨句時(shí)的歧義問題。

如文本窗口內(nèi)顯示的原始文本內(nèi)容為“2016年1月15日凌晨2:50左右,東關(guān)鎮(zhèn)東華社區(qū)一民房因電線老化漏電發(fā)生火災(zāi)”

該火災(zāi)事件識(shí)別模型要求必須包括的要素有:時(shí)間+地點(diǎn)+火災(zāi)特征詞(一句話內(nèi))

事件特征詞:火災(zāi)

事件時(shí)間:2016年1月15日凌晨2:50

時(shí)間地點(diǎn):東關(guān)鎮(zhèn)。

可以看出,本發(fā)明通過使用要素識(shí)別以及事件識(shí)別模型,能靈活的針對(duì)開放文本進(jìn)行事件抽取,要素識(shí)別為后續(xù)處理提供了標(biāo)準(zhǔn)的格式化的事件要素,另外通過要素篩選,要素同現(xiàn)的事件特征詞、句內(nèi)設(shè)置及能夠簡單的對(duì)事件抽取效果進(jìn)行干預(yù),使事件抽取可運(yùn)營,可干預(yù),效果可控,通過模型的改進(jìn),最終獲得效果理想的事件識(shí)別結(jié)果。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1