亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種實體抽取的方法及裝置與流程

文檔序號:11386496閱讀:160來源:國知局
一種實體抽取的方法及裝置與流程
本發(fā)明涉及結(jié)構(gòu)化表格處理領(lǐng)域,尤其涉及一種實體抽取的方法及裝置。
背景技術(shù)
:隨著互聯(lián)網(wǎng)的迅猛發(fā)展,越來越多的信息以電子文本的形式出現(xiàn)在人們的生活中,如何幫助人們在電子文本信息源中迅速找到真正需要的信息成為要解決的問題,由此產(chǎn)生了信息抽取的方法。信息抽取的主要功能是從文本中抽取出特定的事實信息,實體抽取為信息抽取中的一種。信息抽取在金融領(lǐng)域也得到廣泛的應(yīng)用,金融領(lǐng)域經(jīng)常需要從一些文本信息中獲取指定的信息,現(xiàn)有技術(shù)中通常采用的方法是通過人工瀏覽的方式,即用戶需要依次瀏覽文本中的信息,然后從中找出指定的信息。但是,當(dāng)用戶需要從大量的文本信息中獲取指定的信息時,例如,從上千家公司的新股發(fā)行公告、招股說明書、年報和季報等文本中找出指定信息,采用現(xiàn)有技術(shù)中的方法,勢必需要花費大量的時間和人力才能實現(xiàn),如此不僅浪費人力和時間,還降低了工作的效率。技術(shù)實現(xiàn)要素:本發(fā)明提供了一種實體抽取的方法及裝置,能夠解決當(dāng)用戶需要從面對大量的文本信息中獲取指定的信息時,現(xiàn)有技術(shù)中的方法浪費人力和時間,降低工作的效率的問題。第一方面,本發(fā)明實施例提供一種實體抽取的方法,包括:確定目標(biāo)文本的實體關(guān)系詞,所述目標(biāo)文本包括與預(yù)定實體相關(guān)的信息,所述實體關(guān)系詞表示所述預(yù)定實體與待抽取實體之間為目標(biāo)實體關(guān)系的詞;抽取所述目標(biāo)文本中的表格,以及與所述表格一一對應(yīng)的表格描述,所述表格描述為所述目標(biāo)文本中位于所述表格之前的一個句子;基于所述實體關(guān)系詞從所述表格描述中篩選目標(biāo)表格描述,所述目標(biāo)表格描述包括記錄了所述目標(biāo)實體關(guān)系的表格描述;將所述目標(biāo)表格描述對應(yīng)的表格確定為待抽取表格;基于所述待抽取表格的內(nèi)容確定所述待抽取表格中記錄所述待抽取實體的列或行;抽取所述記錄待抽取實體的列或行中的目標(biāo)數(shù)據(jù),將所述目標(biāo)數(shù)據(jù)作為所述待抽取實體。第二方面,本發(fā)明實施例提供一種實體抽取的裝置,包括:確定單元,用于確定目標(biāo)文本的實體關(guān)系詞,所述目標(biāo)文本包括與預(yù)定實體相關(guān)的信息,所述實體關(guān)系詞表示所述預(yù)定實體與待抽取實體之間為目標(biāo)實體關(guān)系的詞;抽取單元,用于抽取所述目標(biāo)文本中的表格,以及與所述表格一一對應(yīng)的表格描述,所述表格描述為所述目標(biāo)文本中位于所述表格之前的一個句子;篩選單元,用于基于所述實體關(guān)系詞從所述表格描述中篩選目標(biāo)表格描述,所述目標(biāo)表格描述包括記錄了所述實體關(guān)系詞的表格描述;所述確定單元,還用于將所述目標(biāo)表格描述對應(yīng)的表格確定為待抽取表格;所述確定單元,還用于基于所述待抽取表格的內(nèi)容確定所述待抽取表格中記錄所述待抽取實體的列或行;所述抽取單元,還用于抽取所述記錄待抽取實體的列或行中的目標(biāo)數(shù)據(jù),將所述目標(biāo)數(shù)據(jù)作為所述待抽取實體。本發(fā)明實施例提供一種實體關(guān)系抽取的方法及裝置,本發(fā)明實施例中目標(biāo)文本包括與預(yù)定實體相關(guān)的信息,確定目標(biāo)文本的實體關(guān)系詞后,從目標(biāo)文本中抽取其中的表格和與表格一一對應(yīng)的表格描述;基于實體關(guān)系詞從表格描述中篩選記錄了目標(biāo)實體關(guān)系的目標(biāo)表格描述;并從目標(biāo)表格描述對應(yīng)的表格中確定記錄待抽取實體的列或行。本發(fā)明實施例中,對目標(biāo)文本中表格提取滿足目標(biāo)實體關(guān)系的實體,首先通過表格描述確定出待抽取表格,然后從記錄預(yù)設(shè)關(guān)系的表格中確定記錄抽取目標(biāo)的列,記錄抽取目標(biāo)的列對應(yīng)內(nèi)容即為抽取目標(biāo),如此,通過對目標(biāo)文本中表格分析可得出滿足預(yù)設(shè)關(guān)系的內(nèi)容,即不需要用戶需要依次瀏覽目標(biāo)文本中,就可以找出指定信息,從而節(jié)省大量的人力和時間,提高工作的效率。附圖說明從下面結(jié)合附圖對本發(fā)明的具體實施方式的描述中可以更好地理解本發(fā)明,其中:通過閱讀以下參照附圖對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯,其中,相同或相似的附圖標(biāo)記表示相同或相似的特征。圖1為根據(jù)本發(fā)明一實施例提供的實體抽取的方法的示意性流程圖;圖2是根據(jù)本發(fā)明一實施例提供的實體抽取的裝置的示意性框圖;圖3是根據(jù)本發(fā)明又一個或多個實施例提供的實體抽取的裝置的示意性框圖。具體實施方式為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。下面將詳細描述本發(fā)明的各個方面的特征和示例性實施例。在下面的詳細描述中,提出了許多具體細節(jié),以便提供對本發(fā)明的全面理解。但是,對于本領(lǐng)域技術(shù)人員來說很明顯的是,本發(fā)明可以在不需要這些具體細節(jié)中的一些細節(jié)的情況下實施。下面對實施例的描述僅僅是為了通過示出本發(fā)明的示例來提供對本發(fā)明的更好的理解。本發(fā)明決不限于下面所提出的任何具體配置和算法,而是在不脫離本發(fā)明的精神的前提下覆蓋了元素、部件和算法的任何修改、替換和改進。在附圖和下面的描述中,沒有示出公知的結(jié)構(gòu)和技術(shù),以便避免對本發(fā)明造成不必要的模糊。本發(fā)明實施例適用于在目標(biāo)文本中抽取與預(yù)設(shè)實體為目標(biāo)實體關(guān)系的實體的場景,即在目標(biāo)文本中抽取與預(yù)設(shè)實體存在某種關(guān)系的實體的場景。目標(biāo)文本包括與預(yù)定實體相關(guān)的信息,即目標(biāo)文本中的內(nèi)容與預(yù)定實體相關(guān),包括:預(yù)設(shè)實體發(fā)布的與其相關(guān)的文本,或者預(yù)設(shè)實體發(fā)布的只與其相關(guān)的文本。預(yù)設(shè)實體為抽取實體關(guān)系前預(yù)先設(shè)定的實體,包括組織機構(gòu)、公司名稱等等。例如,金融領(lǐng)域中對于上市公司a發(fā)布的與其相關(guān)的文本有:招股說明書、年度報告、半年度報告、季度報告、公司股份變更報告、發(fā)行證券申請、發(fā)行證券募集說明書、權(quán)益變動報告、上市公司收購報告、要約收購報告等等,本發(fā)明實施例可以以上述文本為目標(biāo)文本,以a為預(yù)設(shè)實體,在上述文本中抽取與a存在合作關(guān)系、競爭關(guān)系、客戶關(guān)系、供應(yīng)商關(guān)系等等關(guān)系的實體。本發(fā)明實施例中所涉及的實體關(guān)系抽取表示對與發(fā)布文本的預(yù)設(shè)實體滿足要抽取的目標(biāo)實體關(guān)系的實體進行抽取,即抽取的為實體。圖1是根據(jù)本發(fā)明一實施例提供的實體抽取的方法的示意性流程圖。該方法可以用于具有計算功能的設(shè)備,例如計算機。如圖1所示,該方法包括:步驟101、確定目標(biāo)文本的實體關(guān)系詞;步驟102、抽取目標(biāo)文本中的表格,以及與表格一一對應(yīng)的表格描述;步驟103、基于實體關(guān)系詞從表格描述中篩選目標(biāo)表格描述;步驟104,將目標(biāo)表格描述對應(yīng)的表格確定為待抽取表格;步驟105、基于待抽取表格的內(nèi)容確定待抽取表格中記錄待抽取實體的列或行;步驟106、抽取記錄待抽取實體的列或行中的目標(biāo)數(shù)據(jù),將目標(biāo)數(shù)據(jù)作為待抽取實體。在步驟101中,目標(biāo)文本可以包括與預(yù)定實體相關(guān)的信息。實體關(guān)系詞表示預(yù)定實體與待抽取實體之間為目標(biāo)實體關(guān)系的詞,實體關(guān)系詞可以預(yù)先設(shè)定,例如,合作、競爭等等。本發(fā)明實施例中中為從目標(biāo)文本的表格中抽取與預(yù)設(shè)實體存在目標(biāo)實體關(guān)系的實體。在步驟102中,表格描述為目標(biāo)文本中位于表格之前的一個句子。通常情況下,文本中表格之前均有用一句話介紹或概括表格中內(nèi)容的句子,即為表格描述,所以本發(fā)明實施例中在抽取表格的同時,還抽取每個表格的表格描述,即為目標(biāo)文本中位于表格之前的一個句子。在步驟103中,目標(biāo)表格描述包括記錄了目標(biāo)實體關(guān)系的表格描述。通過分析抽取的表格描述的內(nèi)容,基于實體關(guān)系詞可以得出記錄了目標(biāo)實體關(guān)系的表格描述。由于實體關(guān)系詞能夠體現(xiàn)出預(yù)設(shè)實體與待抽取實體之間為目標(biāo)實體關(guān)系,所以基于實體關(guān)系詞對表格描述進行篩選,篩選出目標(biāo)表格描述。在步驟104中,在篩選出目標(biāo)表格描述后,由于目標(biāo)表格描述記錄了目標(biāo)實體關(guān)系,所以可以確定出目標(biāo)表格描述對應(yīng)的表格中記錄與預(yù)設(shè)實體之間存在目標(biāo)實體關(guān)系的內(nèi)容,所以目標(biāo)表格描述對應(yīng)的表格為待抽取表格。在步驟105中,表格通常由列和行構(gòu)成,所以在確定待抽取實體之前需要首先確定待抽取表格中記錄了待抽取實體的行或者列。在步驟106中,在確定出記錄了待抽取實體的行或者列后,記錄了待抽取實體的行或者列對應(yīng)的數(shù)據(jù)即為待抽取實體。本發(fā)明實施例中,對目標(biāo)文本中表格提取滿足目標(biāo)實體關(guān)系的實體,首先通過表格描述確定出待抽取表格,然后從記錄預(yù)設(shè)關(guān)系的表格中確定記錄抽取目標(biāo)的列,記錄抽取目標(biāo)的列對應(yīng)內(nèi)容即為抽取目標(biāo),如此,通過對目標(biāo)文本中表格分析可得出滿足預(yù)設(shè)關(guān)系的內(nèi)容,即不需要用戶需要依次瀏覽目標(biāo)文本中,就可以找出指定信息,從而節(jié)省大量的人力和時間,提高工作的效率可以理解的是,在本發(fā)明實施例中,步驟103可以具體執(zhí)行為如下步驟:1031,根據(jù)預(yù)設(shè)啟發(fā)式規(guī)則從表格描述中篩選符合預(yù)設(shè)啟發(fā)式規(guī)則的表格描述;1032,計算符合預(yù)設(shè)啟發(fā)式規(guī)則的表格描述中每個詞的信息增益;1033,基于信息增益的大小從每個詞中選取至少一個特征詞;1034,基于至少一個特征詞和特征向量構(gòu)建規(guī)則構(gòu)建每個表格描述的特征向量,特征向量中的元素表示特征向量對應(yīng)的表格描述是否包含至少一個特征詞;1035,根據(jù)特征向量從表格描述中篩選目標(biāo)表格描述。在步驟1031中,預(yù)設(shè)啟發(fā)式規(guī)則可以根據(jù)實體關(guān)系詞設(shè)定。對于某種特定關(guān)系,使用一個啟發(fā)式規(guī)則可以將所有表格描述分為兩部分:極可能符合該關(guān)系的部分和極可能不符合該關(guān)系的部分。本發(fā)明實施例中,啟發(fā)式規(guī)則基于實體關(guān)系詞設(shè)定,實體關(guān)系詞體現(xiàn)的是預(yù)設(shè)實體與帶抽取實體之間的目標(biāo)實體關(guān)系,則基于該啟發(fā)式規(guī)則,可以將表格描述分為極可能符合目標(biāo)實體關(guān)系的部分和極可能不符合目標(biāo)實體關(guān)系的部分,則極可能符合目標(biāo)實體關(guān)系的部分即為滿足啟發(fā)式規(guī)則的表格描述。例如,本發(fā)明實施例中目標(biāo)實體關(guān)系為合作伙伴關(guān)系時,利用啟發(fā)式規(guī)則:表格描述中是否包含“合作”這個詞,來把所有表格描述分成極可能符合合作關(guān)系的表格描述和極可能不符合合作關(guān)系的表格描述,進而得出目標(biāo)表格描述。在步驟1032中,計算信息增益的方式可以為通過如下過程計算每個此的信息增益。在本發(fā)明實施例中給定條件為啟發(fā)式規(guī)則,基于啟發(fā)式規(guī)則將表格描述分為兩部分。對于表格描述c中符合目標(biāo)關(guān)系的表格描述中的一個詞t,其在表格描述c的信息增益ig(t),ig(t)定義為c的熵h(c)與t在給定條件下c的條件熵h(c∣t)之差,即為公式1。ig(t)=h(c)-h(c|t)公式1其中,h(c)可以通過公式2計算得出,h(c|t)可以通過公式3計算得出。在公式2中,i表示表格描述基于啟發(fā)式規(guī)則被劃分的個數(shù),即本發(fā)明實施例中表格描述分為兩部分,則i取值為1和2,例如,i等于1表示表格描述中符合目標(biāo)關(guān)系的部分,i等于2表示表格描述中不符合目標(biāo)關(guān)系的部分;ci表示表格描述中符合或者不符合目標(biāo)關(guān)系;p(ci)表示所有表格描述中符合(或不符合)目標(biāo)實體關(guān)系的類別出現(xiàn)的概率;t表示表格描述c中不符合目標(biāo)關(guān)系的表格描述中的一個詞,p(t)表示該詞在表格描述中出現(xiàn)的概率,表示該詞在表格描述中不出現(xiàn)的概率,且p(ci∣t)表示在詞t出現(xiàn)的條件下,該表格描述屬于類別ci的概率,表示在詞t不出現(xiàn)的條件下,該表格描述屬于類別ci的概率;綜上,某個詞t對表格描述c的信息增益ig(t)可以通過公式4計算。需要說明的是,在計算每個詞的信息增益之前,還可以對表格描述進行分詞,以此來確定表格描述中包括的詞。在步驟1033中,基于表格描述中各詞的信息增益的大小可以體現(xiàn)出各詞在表格描述中出現(xiàn)的頻率,或者各詞的信息增益的大小可以體現(xiàn)在區(qū)分表格描述是否符合啟發(fā)式規(guī)則時各詞所起作用的大小,信息增益越大的詞在符合啟發(fā)式規(guī)則的表格描述中出現(xiàn)的頻率越大、在區(qū)分表格描述是否符合啟發(fā)式規(guī)則時所起作用的越大,所以基于各詞的信息增益的大小選取至少一個特征詞。特征詞為能夠在表格描述中體現(xiàn)目標(biāo)實體關(guān)系的詞,即表示如果在表格描述中包含了特征詞,此表格描述很有可能是目標(biāo)表格描述的詞。具體的,步驟1033可以具體執(zhí)行為:從每個詞中選取預(yù)設(shè)數(shù)目個信息增益最大的詞為特征詞,預(yù)設(shè)數(shù)目為不小于1的整數(shù)。例如,將每個詞按照信息增益由大到小的順序進行排序,則排在前面的預(yù)設(shè)數(shù)目個詞即為選取的特征詞。在步驟1034中,特征向量中的元素表示特征向量對應(yīng)的表格描述是否包含至少一個特征詞。即特征向量中的元素的值表示特征向量對應(yīng)的表格描述中有沒有選取的各特征詞。具體的,本發(fā)明實施例中設(shè)置特征向量構(gòu)建規(guī)則包括特征向量中的元素與一個特征詞一一對應(yīng),步驟1034具體執(zhí)行為:對每個表格描述,確定表格描述中包含的特征詞和不包含的特征詞;在表格描述的特征向量中,將包含的特征詞對應(yīng)元素的值設(shè)置為第一預(yù)設(shè)值,將不包含的特征詞對應(yīng)的元素的值設(shè)置為第二預(yù)設(shè)值。其中,特征向量中的每一個元素與一個特征詞一一對應(yīng),當(dāng)表格描述中有某個特征詞時,此表格描述對應(yīng)特征向量中與此特征詞對應(yīng)的元素的值確定為第一預(yù)設(shè)值;當(dāng)表格描述中沒有某個特征詞時,此表格描述對應(yīng)特征向量中與此特征詞對應(yīng)的元素的值確定為第二預(yù)設(shè)值,通過上述規(guī)則來構(gòu)建每個表格描述的特征向量。如果某個表格描述中包含所有的特征詞,則此表格描述的特征向量中元素的值均為第一預(yù)設(shè)值;如果某個表格描述中不包含任何一個特征詞,則此表格描述的特征向量中元素的值均為第二預(yù)設(shè)值。在步驟1035中,根據(jù)構(gòu)建出的每個表格描述的特征向量可以從表格描述中篩選目標(biāo)表格描述。具體的,本發(fā)明實施例中步驟1035可以具體執(zhí)行為:通過分類模型從特征向量中篩選滿足預(yù)設(shè)規(guī)則的特征向量,其中,分類模型為對特征向量中的一部分特征向量進行標(biāo)注后、通過標(biāo)注的特征向量訓(xùn)練得到的,標(biāo)注用于表示特征向量是否滿足預(yù)設(shè)規(guī)則;將滿足預(yù)設(shè)規(guī)則的特征向量對應(yīng)的表格描述確定為目標(biāo)表格描述。其中,標(biāo)注可以為人工判斷后完成,則分類模型可以為通過經(jīng)人工標(biāo)注的部分特征向量學(xué)習(xí)訓(xùn)練后得到的,即為用戶在全部特征向量中選定一部分作為訓(xùn)練樣本,并對訓(xùn)練樣本進行標(biāo)注,標(biāo)注出哪些特征向量為目標(biāo)表格描述的特征向量,以及標(biāo)注出哪些特征向量不為目標(biāo)表格描述的特征向量,這樣分類模型通過訓(xùn)練樣本訓(xùn)練后,就可以將所有的特征向量識別,并篩選出目標(biāo)表格描述的特征向量,進而確定出哪些為目標(biāo)表格描述。本實施例通過機器學(xué)習(xí)中的分類模型篩選目標(biāo)表格描述,可以快速準(zhǔn)確的得出滿足預(yù)設(shè)規(guī)則的特征向量,進而保證實體抽取的準(zhǔn)確性。用戶可以通過對樣本中每個特征向量對應(yīng)表格實體表達的含義來判定哪些為目標(biāo)表格描述的特征向量。可以理解的是,在本發(fā)明實施例中,步驟105可以具體可以通過兩種方式來實現(xiàn)。方式一:將待抽取表格中數(shù)據(jù)與預(yù)設(shè)詞庫匹配,確定所述待抽取表格中記錄所述待抽取實體的行或列。方式二:基于預(yù)定特征構(gòu)建所述待抽取表格中各行或各列的特征向量,預(yù)定特征包括各行或各列所包括數(shù)據(jù)的特征;從各行或各列的特征向量中篩選出記錄所述待抽取實體的行或列。在方式一中,預(yù)設(shè)詞庫為根據(jù)表格中通常在記錄待抽取實體時的記錄規(guī)律建立的。具體的可以執(zhí)行為如下步驟:將待抽取表格中數(shù)據(jù)與預(yù)設(shè)詞庫匹配,確定待抽取表格中記錄待抽取實體的列或行。例如,本發(fā)明實施例中預(yù)設(shè)實體為a公司(a為公司名稱),目標(biāo)實體關(guān)系為合作,表1為待抽取表格,從表1中抽取第一行和第一列的所有詞,得出第一行為:序號、客戶名稱、銷售額(元)、占年度銷售總額比例;第一列為:序號、1、2、3、4、5。將抽取的數(shù)據(jù)與預(yù)設(shè)詞庫進行比較。由于本發(fā)明實施例中待抽取的實體為與預(yù)設(shè)實體之間為目標(biāo)實體關(guān)系的實體,則所以待抽取的實體應(yīng)為公司名稱,所以預(yù)設(shè)詞庫中包括公司名稱,此時將從表1中抽取的第一行和第一列數(shù)據(jù)與預(yù)設(shè)詞庫匹配,得出第一行中客戶名稱能夠與預(yù)設(shè)詞庫匹配,從而將表1中客戶名稱所在列作為記錄待抽取實體的列。表1序號客戶名稱銷售額(元)占年度銷售總額比例1a34584143.001.49%2b15915190.810.68%3c7162135.000.31%4d7049503.000.30%5e5970553.000.26%合計-70681524.813.04%在方式二中,預(yù)定特征包括各行或各列所包括數(shù)據(jù)的特征,例如,是否包括某個字符,各行或各列的字符串長度,行數(shù)或列數(shù)等等。具體可以包括:第一行是否包含字符串“公司”(是為1,否有為0)、第一行是否包含字符串“名稱”(是為1,否有為0)、第一行是否包含字符串“供應(yīng)商”(是為1,否有為0)、第一行是否包含字符串“合作伙伴”(是為1,否有為0)、第一行是否包含字符串“客戶”(是為1,否有為0)、第一行是否包含字符串“競爭對手”(是為1,否有為0)、該列包含字符串“公司”的行數(shù)、該列包含字符串“廠”的行數(shù)、該列包含數(shù)字的行數(shù)、該列的平均字符串長度等等。在構(gòu)建出各行或各列的特征向量后,從各行或各列的特征向量中篩選出記錄待抽取實體的列或行的方式可以為根據(jù)機器學(xué)習(xí)訓(xùn)練行分類模型或列分類模型,通過行分類模型或列分類模型篩選出記錄待抽取實體的行或列。例如,從各行或各列的特征向量中篩選出記錄待抽取實體的行可以具體為:對行特征向量中的一部分行特征向量進行標(biāo)注,標(biāo)注用于表示行特征向量是否滿足預(yù)設(shè)規(guī)則;通過標(biāo)注的行特征向量訓(xùn)練行分類模型;通過行分類模型從全部的行特征向量中篩選滿足預(yù)設(shè)規(guī)則的行特征向量;將滿足預(yù)設(shè)規(guī)則的行特征向量對應(yīng)的行確定為記錄待抽取實體的行。例如,從各行或各列的特征向量中篩選出記錄待抽取實體的列可以具體為:對列特征向量中的一部分列特征向量進行標(biāo)注,標(biāo)注用于表示列特征向量是否滿足預(yù)設(shè)規(guī)則;通過標(biāo)注的列特征向量訓(xùn)練列分類模型;通過列分類模型從全部的列特征向量中篩選滿足預(yù)設(shè)規(guī)則的列特征向量;將滿足預(yù)設(shè)規(guī)則的列特征向量對應(yīng)的列確定為記錄待抽取實體的列。需要說明的是,由于一些表格中為了對某些數(shù)據(jù)進行統(tǒng)計或者其他目的,通常會存在“合計”、“其他”等類似的數(shù)據(jù),而這些數(shù)據(jù)并不僅是待抽取的實體,所以在通過步驟106確定稱呼目標(biāo)數(shù)據(jù)后,還可以在對目標(biāo)數(shù)據(jù)進行過濾。具體可以實現(xiàn)為:根據(jù)過濾詞列表對目標(biāo)數(shù)據(jù)進行過濾,過濾詞列表包括至少一個過濾詞,過濾詞為預(yù)估的記錄待抽取實體的列或行中不屬于抽取實體的詞;將過濾后的目標(biāo)數(shù)據(jù)作為待抽取實體。通過對目標(biāo)數(shù)據(jù)進行過濾,濾除預(yù)估的可能存在的不屬于抽取實體的詞,提高抽取實體的準(zhǔn)確性。需要說明的是,目標(biāo)格式為設(shè)備可以解析或識別其表格和文字的格式,例如doc或docx格式。在實際場景中,用戶經(jīng)常用到的目標(biāo)文本并不是文檔格式的,例如,pdf格式,這時就需要說先將目標(biāo)文本轉(zhuǎn)化為文檔格式,在進行操作。例如,使用固態(tài)轉(zhuǎn)換器solidconverter將pdf格式的招股說明書轉(zhuǎn)換成docx格式以方便解析招股說明書的表格內(nèi)容。圖2是根據(jù)本發(fā)明一實施例提供的實體抽取的裝置的示意性框圖。如圖2所示,所述裝置20包括:確定單元21,用于確定目標(biāo)文本的實體關(guān)系詞,所述目標(biāo)文本包括與預(yù)定實體相關(guān)的信息,所述實體關(guān)系詞表示所述預(yù)定實體與待抽取實體之間為目標(biāo)實體關(guān)系的詞;抽取單元22,用于抽取所述目標(biāo)文本中的表格,以及與所述表格一一對應(yīng)的表格描述,所述表格描述為所述目標(biāo)文本中位于所述表格之前的一個句子;篩選單元23,用于基于所述實體關(guān)系詞從所述表格描述中篩選目標(biāo)表格描述,所述目標(biāo)表格描述包括記錄了所述實體關(guān)系詞的表格描述;所述確定單元21,還用于將所述目標(biāo)表格描述對應(yīng)的表格確定為待抽取表格;所述確定單元21,還用于基于所述待抽取表格的內(nèi)容確定所述待抽取表格中記錄所述待抽取實體的列或行;所述抽取單元22,還用于抽取所述記錄待抽取實體的列或行中的目標(biāo)數(shù)據(jù),將所述目標(biāo)數(shù)據(jù)作為所述待抽取實體。本發(fā)明實施例中,對目標(biāo)文本中表格提取滿足目標(biāo)實體關(guān)系的實體,首先通過表格描述確定出待抽取表格,然后從記錄預(yù)設(shè)關(guān)系的表格中確定記錄抽取目標(biāo)的列,記錄抽取目標(biāo)的列對應(yīng)內(nèi)容即為抽取目標(biāo),如此,通過對目標(biāo)文本中表格分析可得出滿足預(yù)設(shè)關(guān)系的內(nèi)容,即不需要用戶需要依次瀏覽目標(biāo)文本中,就可以找出指定信息,從而節(jié)省大量的人力和時間,提高工作的效率??梢岳斫獾氖?,所述篩選單元23還可以用于:根據(jù)預(yù)設(shè)啟發(fā)式規(guī)則從所述表格描述中篩選符合所述預(yù)設(shè)啟發(fā)式規(guī)則的表格描述,所述預(yù)設(shè)啟發(fā)式規(guī)則根據(jù)所述實體關(guān)系詞設(shè)定;計算所述符合所述預(yù)設(shè)啟發(fā)式規(guī)則的表格描述中每個詞的信息增益;基于所述信息增益的大小從所述每個詞中選取至少一個特征詞;基于所述至少一個特征詞和特征向量構(gòu)建規(guī)則構(gòu)建每個所述表格描述的特征向量,所述特征向量中的元素表示所述特征向量對應(yīng)的表格描述是否包含所述至少一個特征詞;根據(jù)所述特征向量從所述表格描述中篩選所述目標(biāo)表格描述??梢岳斫獾氖?,所述特征向量構(gòu)建規(guī)則包括特征向量中的元素與一個所述特征詞一一對應(yīng);所述篩選單元23還可以用于:對每個所述表格描述執(zhí)行如下步驟:確定所述表格描述中包含的特征詞和不包含的特征詞;在所述表格描述的特征向量中,將所述包含的特征詞對應(yīng)元素的值設(shè)置為第一預(yù)設(shè)值,將所述不包含的特征詞對應(yīng)的元素的值設(shè)置為第二預(yù)設(shè)值??梢岳斫獾氖?,所述篩選單元23還可以用于:從所述每個詞中選取預(yù)設(shè)數(shù)目個所述信息增益最大的詞為所述特征詞,所述預(yù)設(shè)數(shù)目為不小于1的整數(shù)??梢岳斫獾氖?,所述篩選單元23還可以用于:通過所述分類模型從所述特征向量中篩選滿足所述預(yù)設(shè)規(guī)則的特征向量,其中,所述分類模型為對所述特征向量中的一部分特征向量進行標(biāo)注后、通過標(biāo)注的特征向量訓(xùn)練得到的,所述標(biāo)注用于表示所述特征向量是否滿足預(yù)設(shè)規(guī)則;將所述滿足所述預(yù)設(shè)規(guī)則的特征向量對應(yīng)的表格描述確定為所述目標(biāo)表格描述。可以理解的是,所述確定單元21還可以用于:獲取所述待抽取表格的第一列的數(shù)據(jù);判斷所述第一列的數(shù)據(jù)中是否包括與所述預(yù)設(shè)詞庫匹配的詞,所述預(yù)設(shè)詞庫根據(jù)所述表格中記錄所述待抽取實體的規(guī)律設(shè)定;當(dāng)所述第一列的數(shù)據(jù)中包括與所述預(yù)設(shè)詞庫匹配的詞時,將所述待抽取表格中所述與所述預(yù)設(shè)詞庫匹配的詞對應(yīng)的行確定為所述待抽取實體的行。可以理解的是,所述確定單元21還可以用于:獲取所述待抽取表格的第一行的數(shù)據(jù);判斷所述第一行的數(shù)據(jù)中是否包括與所述預(yù)設(shè)詞庫匹配的詞,所述預(yù)設(shè)詞庫根據(jù)所述表格中記錄所述待抽取實體的規(guī)律設(shè)定;當(dāng)所述第一行的數(shù)據(jù)中包括與所述預(yù)設(shè)詞庫匹配的詞時,將所述待抽取表格中所述與所述預(yù)設(shè)詞庫匹配的詞對應(yīng)的列確定為所述待抽取實體的列。可以理解的是,所述確定單元21還可以用于:構(gòu)建所述待抽取表格中每一行的行特征向量;對所述行特征向量中的一部分行特征向量進行標(biāo)注,所述標(biāo)注用于表示所述行特征向量是否滿足預(yù)設(shè)規(guī)則;通過標(biāo)注的行特征向量訓(xùn)練行分類模型;通過所述行分類模型從全部的行特征向量中篩選滿足所述預(yù)設(shè)規(guī)則的行特征向量;將所述滿足所述預(yù)設(shè)規(guī)則的行特征向量對應(yīng)的行確定為所述記錄所述待抽取實體的行??梢岳斫獾氖牵龃_定單元21還可以用于:構(gòu)建所述待抽取表格中每一列的列特征向量;對所述列特征向量中的一部分列特征向量進行標(biāo)注,所述標(biāo)注用于表示所述列特征向量是否滿足預(yù)設(shè)規(guī)則;通過標(biāo)注的列特征向量訓(xùn)練列分類模型;通過所述列分類模型從全部的列特征向量中篩選滿足所述預(yù)設(shè)規(guī)則的列特征向量;將所述滿足所述預(yù)設(shè)規(guī)則的列特征向量對應(yīng)的列確定為所述記錄所述待抽取實體的列。圖3是根據(jù)本發(fā)明又一個或多個實施例提供的實體抽取的裝置的示意性框圖。作為一個可選實施例,如圖3所示,所述裝置20還可以包括:過濾單元24,用于根據(jù)過濾詞列表對所述目標(biāo)數(shù)據(jù)進行過濾,所述過濾詞列表包括至少一個過濾詞,所述過濾詞為預(yù)估的所述記錄待抽取實體的列或行中不屬于抽取實體的詞;所述確定單元21還用于將過濾后的目標(biāo)數(shù)據(jù)作為所述待抽取實體。作為一個可選實施例,如圖3所示,所述裝置20還可以包括:轉(zhuǎn)化單元25,用于將所述目標(biāo)文本的格式轉(zhuǎn)化為文檔格式。需要說明的是,根據(jù)本發(fā)明實施例的實體抽取的裝置200可對應(yīng)于根據(jù)本發(fā)明實施例的實體抽取的方法中的執(zhí)行主體,并且實體抽取的裝置200中的各個模塊的上述和其它操作和/或功能分別為了實現(xiàn)圖1中的各個方法的相應(yīng)流程,為了簡潔,在此不再贅述。本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本
技術(shù)領(lǐng)域
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到各種等效的修改或替換,這些修改或替換都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以權(quán)利要求的保護范圍為準(zhǔn)。以上所述的結(jié)構(gòu)框圖中所示的功能塊可以實現(xiàn)為硬件、軟件、固件或者它們的組合。當(dāng)以硬件方式實現(xiàn)時,其可以例如是電子電路、專用集成電路(asic)、適當(dāng)?shù)墓碳?、插件、功能卡等等。?dāng)以軟件方式實現(xiàn)時,本發(fā)明的元素是被用于執(zhí)行所需任務(wù)的程序或者代碼段。程序或者代碼段可以存儲在機器可讀介質(zhì)中,或者通過載波中攜帶的數(shù)據(jù)信號在傳輸介質(zhì)或者通信鏈路上傳送?!皺C器可讀介質(zhì)”可以包括能夠存儲或傳輸信息的任何介質(zhì)。機器可讀介質(zhì)的例子包括電子電路、半導(dǎo)體存儲器設(shè)備、rom、閃存、可擦除rom(erom)、軟盤、cd-rom、光盤、硬盤、光纖介質(zhì)、射頻(rf)鏈路,等等。代碼段可以經(jīng)由諸如因特網(wǎng)、內(nèi)聯(lián)網(wǎng)等的計算機網(wǎng)絡(luò)被下載。當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1