亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于依存語義的中文無監(jiān)督開放式實(shí)體關(guān)系抽取方法與流程

文檔序號:12034576閱讀:1084來源:國知局
一種基于依存語義的中文無監(jiān)督開放式實(shí)體關(guān)系抽取方法與流程

本發(fā)明涉及人工智能與自然語言處理領(lǐng)域的信息抽取研究,尤其是涉及一種基于依存語義的中文無監(jiān)督開放式實(shí)體關(guān)系抽取方法。



背景技術(shù):

大數(shù)據(jù)的浪潮宛有錢塘江之勢洶涌而來,互聯(lián)網(wǎng)積存的數(shù)據(jù)呈爆炸式增長。面對web中的海量信息,用戶想快速的找到自己關(guān)心的信息,變得十分困難。傳統(tǒng)搜索引擎只能將與用戶查詢內(nèi)容相關(guān)的大量網(wǎng)頁返回給用戶,必須再對網(wǎng)頁進(jìn)行瀏覽后才能得到用戶自己需要的信息。這種單一的返回網(wǎng)頁的搜索方式已不能滿足用戶面對海量網(wǎng)絡(luò)數(shù)據(jù)的實(shí)際需求?;ヂ?lián)網(wǎng)為人們提供了一個取之不盡用之不竭的信息源,如何快速準(zhǔn)確地從中自動挖掘有價值的信息成為人們關(guān)注的焦點(diǎn)。

信息抽取技術(shù)應(yīng)運(yùn)而生。把文本中蘊(yùn)含的無結(jié)構(gòu)化信息以結(jié)構(gòu)化或者半結(jié)構(gòu)化的形式輸出,快速獲取用戶真正關(guān)心的內(nèi)容,從而提供智能化、人性化的信息服務(wù),這就是信息抽取的任務(wù)。例如,從飛機(jī)失事事件的新聞報道中,抽取人物、時間、地點(diǎn)、傷亡人數(shù)、事故原因等信息,讓用戶快速獲取事件原委。而命名實(shí)體關(guān)系抽取是信息抽取的一個核心子任務(wù),也叫做實(shí)體關(guān)系抽取或關(guān)系抽取,從無結(jié)構(gòu)的自然語言文本中抽取相關(guān)命名實(shí)體之間的語義關(guān)系,并整理成結(jié)構(gòu)化的關(guān)系三元組(entity1,relationwords,entity2),其中entity1、entity2是存在關(guān)系的實(shí)體對,relationwords則是描述實(shí)體之間語義關(guān)系的詞或詞序列。

實(shí)體關(guān)系抽取有著重要的研究價值,在知識圖譜、智能搜索引擎、自動問答系統(tǒng)、文本挖掘、機(jī)器翻譯等許多人工智能領(lǐng)域都有廣泛的應(yīng)用。

傳統(tǒng)的信息抽取通過訓(xùn)練好的抽取器識別目標(biāo)關(guān)系類型,需要預(yù)先定義的關(guān)系類型和大量標(biāo)注的訓(xùn)練語料。傳統(tǒng)的中文關(guān)系抽取基于有監(jiān)督的機(jī)器學(xué)習(xí)算法,主要包括基于特征的方法和基于核的方法。此類方法有幾點(diǎn)不足:首先,定義一個全面的實(shí)體關(guān)系類型體系是很困難的;其次,嚴(yán)重依賴于大規(guī)模已標(biāo)注的訓(xùn)練語料,手工標(biāo)注語料是費(fèi)時費(fèi)力的,且標(biāo)注的質(zhì)量難以把控;最后,開放式網(wǎng)絡(luò)文本海量且不能預(yù)先定義,因此傳統(tǒng)的方法無法適應(yīng)開放領(lǐng)域信息抽取需求。開放式實(shí)體關(guān)系抽取技術(shù)克服了傳統(tǒng)關(guān)系抽取的弊端,可以自動地發(fā)現(xiàn)網(wǎng)絡(luò)文本中任意的關(guān)系類型,具有重要的發(fā)展前景和研究價值。在開放式關(guān)系抽取研究方面,主要是應(yīng)用聚類算法。通過位置限制、距離限制等手段,抽取候選實(shí)體對,然后聚類生成相似實(shí)體對的類簇,然后為各類簇標(biāo)注關(guān)系類標(biāo)簽,選擇較有代表性的詞作為該類的關(guān)系描述詞。這樣的方法存在兩個問題:聚類算法需要相當(dāng)數(shù)量的相關(guān)實(shí)體對,即對于單個或者少量的實(shí)體對無法得到有效的結(jié)果,當(dāng)訓(xùn)練語料不足時會嚴(yán)重影響此類方法的效果;很難確定最后的核心關(guān)系詞是否能夠成為一個有效的關(guān)系特征詞,最后所確定類族的描述詞也不一定適合該簇中的每一對實(shí)體。此外,有學(xué)者研究基于深層句法分析或語義角色標(biāo)注的方法,取得不錯的效果,此方面研究主要集中在英文語料上。

開放式關(guān)系抽取在英語語料上的研究,已經(jīng)取得非常矚目的成果,但是對中文語料的研究相對較少。中文語料在構(gòu)詞、構(gòu)句和表述方面具有其獨(dú)特的靈活性和復(fù)雜性,其研究難度要遠(yuǎn)大于英文,因此,現(xiàn)有的一些英文實(shí)體關(guān)系抽取系統(tǒng)無法適應(yīng)于中文語料。必需仔細(xì)研究中文詞法、句法,并將其引入實(shí)體關(guān)系抽取,才能獲得適合中文領(lǐng)域的實(shí)體關(guān)系抽取系統(tǒng)。

研究發(fā)現(xiàn),在進(jìn)行實(shí)體關(guān)系抽取時,存在關(guān)系的實(shí)體對之間往往存在一定的句法關(guān)系。例如,如果兩個實(shí)體分別是句子的主語和賓語,那么實(shí)體對的關(guān)系特征詞就極可能是謂語動詞。如果提前知道了實(shí)體對之間的句法關(guān)系,那么就可以比較準(zhǔn)確的確定實(shí)體對之間的關(guān)系特征詞。依存句法分析可以反映出句子各成分之間的語義修飾關(guān)系。由于句子中的命名實(shí)體必定會作為一個名詞短語出現(xiàn)在依存結(jié)構(gòu)中,那么實(shí)體之間的依存路徑也必然會反映出相應(yīng)實(shí)體對的關(guān)系特征。

綜上所述,為使實(shí)體關(guān)系抽取方法更適用于中文語料,立足于中文特有的句法語義特征,充分展現(xiàn)無監(jiān)督方法在開放領(lǐng)域的適應(yīng)性和有效性。本發(fā)明提出了一種無監(jiān)督的中文開放式關(guān)系抽取方法——依存語義范式(dependencysemanticnormalforms,dsnfs)。為中文開放式關(guān)系抽取研究領(lǐng)域提帶來創(chuàng)新性成果。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于依存語義的中文無監(jiān)督開放式實(shí)體關(guān)系抽取方法。本發(fā)明的目的是規(guī)避傳統(tǒng)抽取方法訓(xùn)練語料要求高、移植性擴(kuò)展性差和無法適應(yīng)開放式網(wǎng)絡(luò)文本等弊端,又考慮到中文在詞法語法等方面的復(fù)雜靈活等特性導(dǎo)致的英文語料下的抽取方法無法移植到中文上來,本發(fā)明提出一種立足中文語言特色的針對網(wǎng)絡(luò)文本的開放式無監(jiān)督實(shí)體關(guān)系抽取方法。

為了解決上述技術(shù)問題,本發(fā)明以實(shí)體關(guān)系與依存分析樹之間的映射為基礎(chǔ),深入挖掘最短依存路徑所蘊(yùn)涵的依存語義,利用依存關(guān)系、詞性信息和位置關(guān)系等特征為限定,得到依存語義范式,提出并實(shí)現(xiàn)了一種新穎的無監(jiān)督中文開放式關(guān)系抽取方法。

本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):

一種基于依存語義的中文無監(jiān)督開放式實(shí)體關(guān)系抽取方法,該方法包括以下步驟:

s1、預(yù)處理輸入文本:對輸入文本進(jìn)行中文分詞、詞性標(biāo)注和依存句法分析;

s2、對輸入文本進(jìn)行命名實(shí)體識別;

s3、從識別出的實(shí)體中任意選出兩個實(shí)體構(gòu)成候選實(shí)體對;

s4、尋找候選實(shí)體對中的兩個實(shí)體之間的依存路徑;

s5、分析候選實(shí)體對中的兩個實(shí)體之間的依存路徑所映射的句法結(jié)構(gòu)是否與依存語義范式集的范式匹配,若是,則根據(jù)被匹配的范式從輸入文本的剩余部分中抽取出詞或短語作為關(guān)系詞,抽取的關(guān)系詞與候選實(shí)體對構(gòu)成關(guān)系三元組,若否則進(jìn)行下一組候選實(shí)體對的范式匹配;

s6、輸出關(guān)系三元組。

所述的關(guān)系三元組形式為:(entity1,relationwords,entity2),其中entity1、entity2是存在關(guān)系的實(shí)體對,relationwords是描述實(shí)體之間語義關(guān)系的詞或短語。

所述的依存語義范式包括第一類前修飾結(jié)構(gòu)類、第二類并列結(jié)構(gòu)類、第三類動詞相關(guān)類、第四類模板化類和其他類。

所述的第一類前修飾結(jié)構(gòu)類包括組合式定語結(jié)構(gòu)和由結(jié)構(gòu)助詞“的”與中心語連接的結(jié)構(gòu),組合式定語結(jié)構(gòu)對應(yīng)依存語義范式“entity1+attword1(+attword2)+entity2”,由結(jié)構(gòu)助詞“的”與中心語連接的結(jié)構(gòu)對應(yīng)語義范式“entity1+的+noun+entity2”或“entity1+的+entity2+noun”,其中entity1、entity2是存在關(guān)系的實(shí)體對,attword1和attword2為不同的定語詞,noun為名詞。

所述的第二類并列結(jié)構(gòu)類包括并列名詞結(jié)構(gòu)和并列動詞結(jié)構(gòu)。

所述的并列名詞結(jié)構(gòu)包括并列實(shí)體作為主語結(jié)構(gòu),并列實(shí)體作為謂詞賓語結(jié)構(gòu),并列實(shí)體作為介詞賓語結(jié)構(gòu)以及前三種的混合結(jié)構(gòu),并列實(shí)體作為主語結(jié)構(gòu)對應(yīng)依存語義范式“entity2+conj+(entity1++)+pred+entity3”,并列實(shí)體作為謂詞賓語結(jié)構(gòu)對應(yīng)依存語義范式“entity2+pred+entity3+conj+(entity1++)”,并列實(shí)體作為介詞賓語結(jié)構(gòu)對應(yīng)依存語義范式“entity2+prep+entity3+conj+(entity1++)+pred(+dobj)”,其中entity2、entity3為存在關(guān)系的實(shí)體對,(entity1++)表示存在一個或多個并列實(shí)體,conj為連詞,pred為謂詞,prep為介詞,dobj為直接賓語。

所述的并列動詞結(jié)構(gòu)包括動詞連用結(jié)構(gòu)和并列類復(fù)句結(jié)構(gòu)。

所述的第三類動詞相關(guān)類包括主謂動賓結(jié)構(gòu)和主謂介賓結(jié)構(gòu),主謂動賓結(jié)構(gòu)對應(yīng)依存語義范式“entity1+pred+entity2”,主謂介賓結(jié)構(gòu)對應(yīng)依存語義范式“entity1+prep+entity2+pred(+dobj)”,其中,entity1、entity2是存在關(guān)系的實(shí)體對,pred為謂詞,prep為介詞,dobj為直接賓語。

與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):

1)本發(fā)明提出的方法有充足的能力應(yīng)對復(fù)雜的中文句法,抽取過程中,無需限制實(shí)體對與關(guān)系詞的相對位置,避免傳統(tǒng)方法中位置限制帶來的弊端;

2)本發(fā)明提出的方法可以獲得更豐富的結(jié)果,可以抽取以動詞或名詞為核心的關(guān)系短語,相較之下,其他一些效果較好的抽取器只能抽取動詞為關(guān)系詞;

3)本發(fā)明提出的方法可以較好地識別長跨度的依存關(guān)系,特別是在并列結(jié)構(gòu)的情況下,可以抽取共現(xiàn)的關(guān)系三元組,避免傳統(tǒng)方法中距離限制帶來的弊端;

4)本發(fā)明提出的方法無需模型訓(xùn)練語料,一條句子也可以進(jìn)行關(guān)系抽取,計(jì)算復(fù)雜度低,抽取效率高,可滿足高實(shí)時性需求。

附圖說明

圖1為本發(fā)明抽取方法流程示意圖;

圖2為依存語義范式dsnf1圖模型;

圖3為依存語義范式dsnf2圖模型;

圖4為依存語義范式dsnf3圖模型;

圖5為依存語義范式dsnf4圖模型;

圖6為依存語義范式dsnf5圖模型;

圖7為依存語義范式dsnf6圖模型;

圖8為依存語義范式dsnf7圖模型;

圖9為依存語義范式dsnf8圖模型;

圖10為依存語義范式dsnf9圖模型。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明的一部分實(shí)施例,而不是全部實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實(shí)施例,都應(yīng)屬于本發(fā)明保護(hù)的范圍。

實(shí)施例

本發(fā)明提出的一種基于依存語義的中文無監(jiān)督開放式實(shí)體關(guān)系抽取方法,為基于依存語義范式(dsnfs)的實(shí)體關(guān)系抽取方法,可以實(shí)現(xiàn)自動抽取,無需人工干預(yù),輸入是未經(jīng)任何處理的自然語言句子,輸出就是實(shí)體關(guān)系三元組。如圖1所示,整個過程可以描述如下:

步驟1:預(yù)處理輸入文本。每個句子將經(jīng)過分詞、詞性標(biāo)注、依存句法分析等一系列自然語言處理操作,為后續(xù)步驟做準(zhǔn)備。本發(fā)明所提出的方法借助哈工大社會計(jì)算與信息檢索研究中心研發(fā)的“語言技術(shù)平臺(ltp)”所提供的自然語言處理技術(shù)進(jìn)行上述操作。

步驟2:選擇候選實(shí)體對。通過命名實(shí)體識別模塊進(jìn)行輸入文本的實(shí)體識別,然后將所有識別出來的候選實(shí)體進(jìn)行兩兩組對。本方法采用哈工大語言技術(shù)平臺提供的命名實(shí)體識別技術(shù)和迭代的啟發(fā)式方法進(jìn)行命名實(shí)體識別。后者是通過合并相連名詞獲取最大化名詞短語,其中名詞的詞性只能是{ni,nh,ns,nz,j},分別代表機(jī)構(gòu)名、人名、地理名、其他專有名詞和縮略詞。兩種方法互為補(bǔ)充,同時展開。

步驟3:匹配依存語義范式。對于步驟二中得到候選實(shí)體對,分析實(shí)體間的依存最短路徑所映射的句法結(jié)構(gòu)是否能夠匹配某一個dsnf,

步驟4:輸出關(guān)系三元組。步驟3執(zhí)行完后,若匹配,則從中抽取出關(guān)系詞,輸出關(guān)系三元組;若未匹配,則進(jìn)行下一組候選實(shí)體對的匹配。

本發(fā)明提出的方法的核心在于依存語義范式,下面將著重介紹其相關(guān)內(nèi)容:

通過統(tǒng)計(jì)分析大量關(guān)系實(shí)例后發(fā)現(xiàn),關(guān)系三元組總是會出現(xiàn)在某些固定的句法結(jié)構(gòu)中,對實(shí)體關(guān)系有表征作用的句法結(jié)構(gòu)有:主謂關(guān)系、動賓關(guān)系、介詞賓語、并列成分和修飾關(guān)系等。將這些結(jié)構(gòu)映射到依存樹中可以得到依存語義范式(dsnfs)。dsnfs是由詞序列、詞性、依存路徑及其相關(guān)的依存標(biāo)簽組合而成。本方法將該范式集分為前修飾、并列、動詞相關(guān)、模板化的、其他五大類,在每一類中,可以得到一種或多種dsnf,為關(guān)系抽取提供合理的依據(jù)。

一、前修飾(pre-modificationclass,premod)

前修飾在中文短語中是一種非常重要的修飾類型。在中文語言學(xué)看來,premod句法類的關(guān)系表述是一種偏正結(jié)構(gòu),它能形成一個偏正短語。而偏正短語的結(jié)構(gòu)由定語中心語和修飾語配對組成,其中定語是名詞性偏正短語中的前附加成分。定語的構(gòu)成成分范圍很廣泛,除了副詞和“的”字短語之外,其他各類實(shí)詞(名詞、動詞和形容詞)和短語都可以充當(dāng)定語。除此之外,定語的復(fù)雜性還在于它的多層次性,從不同的側(cè)面加以限定、描寫并同時疊加在一個中心語之前,使得一個中心語可以帶有多個定語。

從形式結(jié)構(gòu)看,定語可以分為以下兩種類型:

1)組合式定語,直接附加在中心語之前,中間不加“的”的定語,即“定語+中心語”。例如,“<org>高二3班</org>班主任<per>王某</per>”中的“高二3班”是“班主任”的定語,“高二3班班主任”是“王某”的定語,“班主任”也表述了實(shí)體“高二3班”和“王某”之間的語義關(guān)系,從而構(gòu)成一個關(guān)系三元組(高二3班,班主任,王某)。由于定語的多層次性,可能由多個詞組合共同作為關(guān)系特征詞,例如,“<org>某公司</org>首席執(zhí)行官<per>趙某</per>”可以抽取關(guān)系(某公司,首席執(zhí)行官,趙某),其中由“首席”和“執(zhí)行官”組合為關(guān)系特征詞。per表示人名,org表示機(jī)構(gòu)名。

將組合式定語結(jié)構(gòu)映射在依存分析中表現(xiàn)為:定語依存于中心語,依存關(guān)系為“定中關(guān)系”,若存在多層定語,則距離中心語較遠(yuǎn)的定語詞依存于距離中心語較近的定語詞或直接依存于中心語,依存關(guān)系也為“定中關(guān)系”。經(jīng)統(tǒng)計(jì)研究,在實(shí)際的關(guān)系抽取中,我們主要考慮有兩層定語和三層定語的結(jié)構(gòu),既得到關(guān)系抽取范式dsnf1:“entity1+attword1(+attword2)+entity2”,依存分析如圖2所示。此外還要考慮詞性的限制,只考慮定語詞(attword1、attword2)為名詞的情況,如果“attword1”為職業(yè)相關(guān)名詞(主要包括與機(jī)構(gòu)、工作相關(guān)的名詞,如董事長、總經(jīng)理、縣長等);或者“attword1”為普通名詞(相對于職業(yè)相關(guān)名詞)且“entity2”為人物實(shí)體,滿足這兩種限制時才會進(jìn)行關(guān)系抽取。

2)由結(jié)構(gòu)助詞“的”與中心語連接的定語,即“定語+的+中心語”。例如,“<per1>張某</per1>的妻子<per2>孫某</per2>”可以抽取關(guān)系元組(張某,妻子,孫某)。再如,“<org>某大學(xué)</org>的<per>裴某某</per>老師”和“<org>某大學(xué)</org>的老師<per>裴某某</per>”,雖然結(jié)構(gòu)有所不同,但表達(dá)相同的含義。因此可以表達(dá)為兩種關(guān)系抽取范式dsnf2和dsnf3:“entity1+的+noun+entity2”或“entity1+的+entity2+noun”。從這兩種結(jié)構(gòu)中可以抽取關(guān)系三元組(entity1,noun,entity1)。可映射為依存句法分析形式,如圖3,圖4。

在關(guān)系抽取中還可能遇到這樣的情況,偏正短語中只包含一個實(shí)體名詞,例如“劉某某教師游覽上?!?、“小明的妻子是小紅”等,這種偏正短語往往蘊(yùn)含在其他關(guān)系句法類中。此時,實(shí)體作為定語修飾中心語,在依存句法分析時,實(shí)體將不會再直接作為主語或賓語,而是其修飾的中心語成為了句法結(jié)構(gòu)中的主干成分。在關(guān)系抽取過程中充分考慮這種情況,將中心語作為“偽實(shí)體(pseudo-entity,pe)”在依存分析時做相應(yīng)的轉(zhuǎn)換。例如“<per>劉某某</per><pe-per>教師</pe-per>游覽<loc>上海</loc>”,抽取偽實(shí)體“教師”和實(shí)體“上?!敝g的關(guān)系“游覽”,然后轉(zhuǎn)換并輸出關(guān)系三元組(劉某某,游覽,上海)。在接下來的分析中遇到此種情況將不再贅述。pe-per表示人名類偽實(shí)體。

二、動詞相關(guān)(verbalclass,verb)

該類中,相關(guān)的兩個實(shí)體,往往一個處于主語的位置,而另一個處于賓語的位置,可以是動詞的賓語(動賓結(jié)構(gòu)),也可以是介詞(preposition,prep)的賓語(介賓結(jié)構(gòu)),且實(shí)體間的關(guān)系可以直接由一個謂詞(predicate,pred)表達(dá)。根據(jù)賓語的不同又可以進(jìn)一步分為“主謂—動賓”結(jié)構(gòu)和“主謂—介賓”結(jié)構(gòu)。

1)對于“主謂—動賓”結(jié)構(gòu),例如,“<per>劉某某</per>游覽<loc>上海</loc>”,該例句中“劉某某”是主語,“上海”是賓語,“游覽”則是兩實(shí)體發(fā)生關(guān)聯(lián)的謂語動詞,可以抽取三元組(劉某某,游覽,上海)。將“主謂—動賓”結(jié)構(gòu)映射到依存分析圖中,兩實(shí)體都依存于核心動詞,依存關(guān)系分別為“主謂關(guān)系”和“動賓關(guān)系”??傻藐P(guān)系抽取范式dsnf4:“entity1+pred+entity2”,可以抽取關(guān)系三元組(entity1,pred,entity2)。依存分析如圖5所示。loc表示地理名詞,

2)對于“主謂—介賓”結(jié)構(gòu),例如“<per>劉某某</per>對<loc>上海</loc>進(jìn)行深度游”,主語是實(shí)體“劉某某”,動詞“進(jìn)行”是句子的謂語,主語實(shí)體依存于謂語動詞,依存關(guān)系為“主謂關(guān)系”?!皩ι虾!睒?gòu)成介賓短語,實(shí)體“上?!币来嬗诮樵~“對”,依存關(guān)系為“介賓關(guān)系”;介詞“對”以關(guān)系“狀中結(jié)構(gòu)”依存于謂語動詞。名詞短語“深度游”則是謂詞的直接賓語,由此可以抽取關(guān)系元組(劉某某,進(jìn)行深度游,上海)。值得說明的地方,由于實(shí)體2處于介賓短語的位置,它通過介詞間接與謂語動詞發(fā)生依存關(guān)系,所以為了使關(guān)系抽取結(jié)果具有更明確的語義,本文將謂詞短語和謂語的直接賓語(directobject,dobj)共同作為關(guān)系特征詞?!爸髦^—介賓”結(jié)構(gòu)可映射為關(guān)系抽取范式dsnf5:“entity1+prep+entity2+pred(+dobj)”,可以抽取關(guān)系三元組(entity1,pred-dobj,entity2)依存分析如圖6所示。

特別地,對于“主謂—介賓”結(jié)構(gòu),如果介詞為“由、被”等表示被動的詞語,此時將entity1和entity2的位置互換,構(gòu)成關(guān)系三元組(entity2,pred-dobj,entity1)。

三、并列(coordinationclass,coor)

并列關(guān)系在中文語句中也是相當(dāng)常見的。并列表示句子或短語之間具有的一種相互關(guān)聯(lián),或是同時并舉,或是同時進(jìn)行的關(guān)系,并列成分只有前后之分而無主次之分。發(fā)生并列關(guān)系的,可以是相互關(guān)聯(lián)的不同事物,也可以是同一事物的不同方面,還可以是同一主體的不同動作。并列短語又叫并列詞組,一般是由兩個或兩個以上的名詞、動詞、形容詞、代詞或數(shù)量詞等組合而成,構(gòu)成詞的詞性一般要求相同。詞與詞之間是并列關(guān)系,中間常用頓號或“和、及、又、與、并”等連詞(conjunction,conj)。在關(guān)系抽取中主要考慮并列名詞和并列動詞兩種。

如在“<per1>劉某某</per1>和<per2>彭某某</per2>游覽<org>上海</org>”中,“劉某某”和“彭某某”是兩個具有并列關(guān)系的名詞。兩個實(shí)體發(fā)生這種名詞短語并列關(guān)系時,它們產(chǎn)生相同的行為并作用在另一個共同實(shí)體上。示例中可以提取關(guān)系三元組(劉某某,游覽,上海),同時,“劉某某”的并列成分“彭某某”也與“上?!敝g存在“游覽”關(guān)系,可以抽取關(guān)系元組(彭某某,游覽,上海)。實(shí)際上,coor句法類需要依賴于其他句法類而存在,如上例中,關(guān)系元組(劉某某,游覽,上海)應(yīng)該屬于verb句法類。因?yàn)閷?shí)體“彭某某”依存于實(shí)體“劉某某”,依存關(guān)系為“并列關(guān)系”,所以發(fā)生在實(shí)體“劉某某”上的關(guān)系同樣適用于實(shí)體“彭某某”。根據(jù)實(shí)體在句法中所處的位置主要有主語位置、謂詞賓語位置和介詞賓語位置三類,由此可得,

1)并列名詞作為主語時,提取出關(guān)系抽取范式dsnf6:“entity2+conj+(entity1++)+pred+entity3”,(其中(entity1++)表示存在一個或多個并列實(shí)體,下同)。由關(guān)系三元組(entity2,pred,entity3)可得三元組(entity1,pred,entity3),依存關(guān)系如圖7所示。

2)并列名詞作為謂詞賓語時,提取出關(guān)系抽取范式dsnf7:“entity2+pred+entity3+conj+(entity1++)”,由關(guān)系三元組(entity2,pred,entity3)可得三元組(entity2,pred,entity1),依存關(guān)系如圖8所示。

3)并列名詞作為介詞賓語時,提取出關(guān)系抽取范式dsnf8:“entity2+prep+entity3+conj+(entity1++)+pred(+dobj)”,由關(guān)系三元組(entity2,pred-dobj,entity3)可得三元組(entity2,pred-dobj,entity1),依存關(guān)系如圖9所示。

4)前三種類型的混合型。如“<per1>李某某</per1>同學(xué)、<per2>張某某</per2>同學(xué)一起,分別在<org1>上海</org1>和<org2>杭州</org2>邀約了<per3>張某某</per3>同學(xué)和<per4>高某某</per4>同學(xué)?!笔乔叭N類型的混合。

并列動詞主要描述由同一個主語同時發(fā)出的兩個不同的動作。分兩類情況,

1)第一類情況,是動詞連用。在中文構(gòu)句時,當(dāng)一個動詞無法將行為的涵義描述完整時,往往會兩個動詞連用,第一個動詞對第二個動詞進(jìn)行補(bǔ)充,第二個動詞是及物動詞,因此一般抽取距離賓語更近的第二個動詞作為關(guān)系特征詞。如“<per>張某某</per>踏雪游覽<loc>廬山</loc>”,其中“踏雪”和“游覽”構(gòu)成并列關(guān)系,可以抽取關(guān)系(張某某,游覽,廬山)。

2)第二類情況,則是并列類復(fù)句,指的是復(fù)句中的幾個子句在語義上具有平等并列的關(guān)系。如果兩個或多個事件之間存在并舉羅列的關(guān)系,而不存在因果上的聯(lián)系,就可以構(gòu)成并列類復(fù)句。子句之間常常用逗號和“并、還、而且”等連詞分開。如例句“<org1>某公司</org1>經(jīng)理<per>高某</per>參觀<org2>廠房</org2>,并在<org3>某車間</org3>發(fā)表生產(chǎn)指導(dǎo)建議?!倍禾枌?fù)句分成兩個子句,分別表達(dá)了兩個事件,且主語同為實(shí)體“高某”,因此兩個子句構(gòu)成并列。并列子句中的謂詞“參觀”和“發(fā)表”構(gòu)成并列,依存關(guān)系為“并列關(guān)系”。映射到依存句法時可描述為:如果實(shí)體2作為賓語依存于謂語動詞2,而此動詞2與另外一個動詞1構(gòu)成并列(依存關(guān)系為“并列關(guān)系”),同時存在實(shí)體1作為主語依存于動詞1,那么可以推斷實(shí)體1和實(shí)體2之間存在關(guān)系,關(guān)系特征詞為動詞2。因此可以得到關(guān)系抽取范式dsnf9:“entity1+pred1+pred2+entity2”,依存分析如圖10所示。范式dsnf9可以涵蓋上述兩類情況。

值得說明,并列結(jié)構(gòu)是嵌套在其他句法類中存在的。范式dsnf6、dsnf7、dsnf8和dsnf9只表達(dá)了并列名詞依賴于verb句法類中“主謂—動賓”結(jié)構(gòu)時的表現(xiàn)狀況。其他狀況不再贅述。實(shí)際抽取操作步驟相似,當(dāng)entity1和entity2存在并列關(guān)系時,如果三元組(entity2,relationword,entity3)成立,則可得關(guān)系三元組(entity1,relationword,entity3);如果三元組(entity3,relationword,entity2)成立,則可得關(guān)系三元組(entity3,relationword,entity1)。

四、模式化的(formulaicclass,form)

form的類型往往是一些在中文中經(jīng)常出現(xiàn),無法歸納到前面幾種關(guān)系句法類中,但一般具有固定的表達(dá)格式。例如,“王某,某大學(xué)教授,發(fā)表……”,“王某”和“某大學(xué)教授”之間無法找到相應(yīng)連接詞,沒有直接修飾關(guān)系,所以都不符合上述幾種類型。但是從此句中可抽取實(shí)體關(guān)系三元組(王某,教授,某大學(xué))。類似的行文表達(dá)方式是很常見的,它是中國人的寫作習(xí)慣。針對這些特殊語法表達(dá)結(jié)構(gòu),只需提取出模板做硬性匹配就可以取得很好效果。

五、其他(otherclass)

本方法把所有目前無法分辨的其他關(guān)系類型歸納到這一類。由于該類的不確定性,本文對這一類不做深入研究。

本發(fā)明公布了一種基于依存語義的中文無監(jiān)督開放式實(shí)體關(guān)系抽取方法,規(guī)避傳統(tǒng)方法人工標(biāo)注依賴性大,結(jié)果不合理等弊端,立足于中文獨(dú)特、靈活的句法特征,以實(shí)體關(guān)系與依存分析樹之間的映射為基礎(chǔ),深入挖掘最短依存路徑所蘊(yùn)涵的依存語義,利用依存關(guān)系、詞性信息和位置關(guān)系等特征為限定,得到依存語義范式(dsnfs),利用此范式集可以從海量大數(shù)據(jù)中快速準(zhǔn)確地自動抽取實(shí)體關(guān)系。無需任何人工,可實(shí)現(xiàn)全自動抽取,無需依賴模型訓(xùn)練語料,計(jì)算復(fù)雜度低,抽取效率高,可滿足高實(shí)時性需求。本發(fā)明可以廣泛應(yīng)用于知識圖譜、智能搜索引擎、自動問答系統(tǒng)、文本挖掘、機(jī)器翻譯等人工智能領(lǐng)域。

以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到各種等效的修改或替換,這些修改或替換都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1