本發(fā)明屬于Web挖掘和信息抽取技術(shù)領(lǐng)域,涉及一種基于多粒度語義塊的實體屬性和屬性值提取方法及系統(tǒng)。本發(fā)明在信息檢索、主題檢測、自動問答等領(lǐng)域具有廣闊的應(yīng)用前景。
背景技術(shù):
實體屬性和屬性值知識提取是Web挖掘和信息抽取領(lǐng)域的重要研究課題。實體屬性和屬性值知識提取是指從文本中抽取實體、屬性及其屬性值三元組。
實體屬性和屬性值知識提取方法包括三類:基于規(guī)則的方法、基于統(tǒng)計的方法以及混合方法?;谝?guī)則的方法主要是根據(jù)網(wǎng)頁的組織結(jié)構(gòu)規(guī)則、頁面內(nèi)容的布局規(guī)則、自然語言的詞匯句法規(guī)則來抽取知識。該方法的特點是不受領(lǐng)域限制,準確率較高,需要人工構(gòu)建規(guī)則。盧漢等提出了一種基于屬性元性質(zhì)和正則表達式的數(shù)量型屬性值提取方法(基于元性質(zhì)的數(shù)量型屬性值自動提取系統(tǒng)的實現(xiàn).計算機研究與發(fā)展,2010)。Sanchez研制了一種基于模式和搜索引擎的方法來獲取目標概念的屬性和屬性值(A Methodology to Learn Ontological Attributes from the Web,Data and Knowledge Engineering,2010)。
基于統(tǒng)計的方法主要是利用統(tǒng)計度量或分類方法來抽取知識,該方法的特點是召回率較高,需要人工標注訓練樣本。Poesio等采用了一種基于分類器的屬性提取方法(Identifying Concept Attributes Using a Classifier.The ACL-SIGLEX Workshop on Deep Lexical Acquisition,2005)。張銘等采用支持向量機和隱馬爾科夫模型混合的方法來抽取論文的元數(shù)據(jù)信息(SVM+BiHMM:基于統(tǒng)計方法的元數(shù)據(jù)抽取混合模型,軟件學報,2008)。
混合方法是基于規(guī)則和基于統(tǒng)計的方法的融合。Wong等針對以列表型文本為主的半結(jié)構(gòu)化網(wǎng)頁,提出了一種基于貝葉斯學習的信息抽取方法(Learning to Adapt Web Information Extraction Knowledge and Discovering New Attributes via a Bayesian Approach.IEEE Transactions on Knowledge and Data Engineering,2010)。
上述現(xiàn)有的實體屬性和屬性值知識提取方法主要是從結(jié)構(gòu)化網(wǎng)頁和以列表型文本為主的半結(jié)構(gòu)化網(wǎng)頁中抽取屬性知識,對從以自由文本或非結(jié)構(gòu)化文本為主的網(wǎng)頁中獲取屬性知識研究較少。目前屬性知識提取方法以抽取實體給定屬性的屬性值為主,對抽取實體的未給定屬性及其屬性值的研究較少。
現(xiàn)有實體屬性知識提取方法主要以詞語為粒度表示實體屬性和屬性值,導致屬性值表達語義不完整;難以滿足對同一知識不同粒度表示的需求服務(wù)。因此,迫切需要一種從自由文本或非結(jié)構(gòu)化文本為主的網(wǎng)頁中獲取實體的未給定屬性及其屬性值的方法,以提供高質(zhì)量的知識服務(wù)。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是為解決現(xiàn)有實體屬性和屬性值知識提取方法的屬性值語義不完整、難以提取未給定屬性及其屬性值、以及難以滿足不同粒度知識需求服務(wù)等問題,提出一種基于多粒度語義塊的實體屬性和屬性值提取方法。該方法從以非結(jié)構(gòu)化文本為主的網(wǎng)頁中提取實體的未給定屬性及其屬性值。
本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的。
一種基于多粒度語義塊的實體屬性和屬性值提取方法,包括如下步驟:
步驟1,構(gòu)建實體的屬性和屬性值提取語料集;
采用網(wǎng)絡(luò)爬蟲爬取詞條網(wǎng)頁并對網(wǎng)頁進行自由文本提取,而后保存到本地計算機,構(gòu)建為實體的屬性和屬性值提取語料以供后續(xù)步驟使用。
步驟2,對屬性和屬性值提取語料集中自由文本的句子進行分詞、詞性標注和短語識別;
利用分詞和詞性標注工具對句子進行分詞和詞性標注,另外,利用短語識別工具對句子進行短語識別。
步驟3,對屬性和屬性值提取語料集中自由文本的句子進行語義角色標注;
語義角色是指句子中以謂語動詞為中心的擔當一個意義完整的語義成分。采用語義角色標注工具對句子進行語義角色標注。
步驟4,對屬性和屬性值提取語料集中自由文本的句子進行依存句法分析;
依存句法分析是指通過分析詞語之間的依存關(guān)系來描述句子的句法結(jié)構(gòu)。采用依存句法分析工具進行依存句法分析。
步驟5,對屬性和屬性值提取抽取語料集中自由文本的句子進行語義依存分析;
語義依存分析是指分析詞語之間的語義關(guān)聯(lián),目標是挖掘詞語的語義信息。采用語義依存分析工具進行語義依存分析。
步驟6:根據(jù)句子的分詞、詞性標注和語義角色標注結(jié)果,提取以語義角色為粒度的候選實體、屬性和屬性值,獲取候選實體、屬性和屬性值三元組。
作為優(yōu)選,本步驟通過以下過程實現(xiàn):對于句子中的動詞x1,若字符串y1為動詞x1的表示主體的語義角色,則將字符串y1識別為候選實體;然后通過以下過程識別屬性和屬性值:
第一,若字符串z1為動詞x1的表示客體的語義角色,則將字符串z1識別為候選屬性值,將動詞x1識別為候選屬性,即得到候選實體、屬性和屬性值三元組(y1,x1,z1);
第二,若字符串z1為動詞x1的除了主體和客體以外的語義角色s,則將字符串z1識別為候選屬性值,候選屬性為動詞x1和語義角色s的組合,即得到候選實體、屬性和屬性值三元組(y1,x1+s,z1);所述s可能為時間、地點、程度、頻率、方式、原因、條件、方向、擴展、主題、謂語動詞、受益人、持有者、被持有、并列參數(shù)或附加標記語義角色,x1+s表示動詞x1和語義角色s的組合。
步驟7:根據(jù)句子的分詞、詞性標注、短語識別和依存句法分析結(jié)果,提取以短語為粒度的候選實體、屬性和屬性值,獲取候選實體、屬性和屬性值三元組。
作為優(yōu)選,本步驟通過以下過程實現(xiàn):
首先,根據(jù)步驟2句子的短語識別結(jié)果,獲取句子的非嵌套式短語識別結(jié)果。句子的非嵌套式短語識別結(jié)果是指不存在一短語內(nèi)部包含另一短語的識別結(jié)果。句子的短語類型包括名詞短語、動詞短語、副詞短語、形容詞短語、限定詞短語、量詞短語、介詞短語、方位詞短語、修飾關(guān)系短語,以及所屬關(guān)系短語。作為優(yōu)選,獲取句子的非嵌套式短語識別結(jié)果的過程如下:第一,對于名詞短語、形容詞短語、限定詞短語、介詞短語、量詞短語、修飾關(guān)系短語、所屬關(guān)系短語和方位詞短語中任一短語嵌套另外短語的情形,則只保留最長字符串的短語標記,稱為最長短語;第二,若一動詞短語嵌套動詞或另一動詞短語,則去掉前一動詞短語的標記;若一動詞短語嵌套除了動詞短語的其他短語,則保留動詞短語的標記。
然后,對于句子依存句法分析結(jié)果中主謂關(guān)系SBV(y2,x2)和動賓關(guān)系VOB(y2,z2),將字符串x2所在的最長短語u識別為候選實體,將字符串y2識別為候選屬性,將字符串z2所在的最長短語v識別為候選屬性值。也就是,獲取候選實體、屬性和屬性值三元組(u,y2,v)。
步驟8:根據(jù)句子的分詞、詞性標注和語義依存分析結(jié)果,提取以詞語為粒度的候選實體、屬性和屬性值,獲取候選實體、屬性和屬性值三元組。
作為優(yōu)選,本步驟通過以下過程實現(xiàn):首先,對于句子中的動詞x3,若詞語y3與動詞x3具有施事關(guān)系、當事關(guān)系、感事關(guān)系、領(lǐng)事關(guān)系、屬事關(guān)系、或比較關(guān)系,則將詞語y3識別為候選實體,然后通過以下兩種方式獲取屬性和屬性值:
第一,若詞語z3與該動詞x3具有受事關(guān)系、客事關(guān)系、成事關(guān)系、源事關(guān)系、涉事關(guān)系、或類事關(guān)系,則將詞語z3識別為候選屬性值。進一步,將動詞x3識別為候選屬性。由此,獲取候選實體、屬性和屬性值三元組(y3,x3,z3)。
第二,若詞語z3與該動詞x3具有依據(jù)、緣故、意圖、結(jié)局、方式、工具、材料、時間、空間、歷程、趨向、范圍、數(shù)量、頻率、順序、描寫、程度、或宿主等關(guān)系r,則將該詞語z3識別為候選屬性值。進一步,候選屬性為動詞x3和依存關(guān)系r的組合。也就是,獲取候選實體、屬性和屬性值三元組(y3,x3+r,z3)。其中,x3+r表示動詞x3和依存關(guān)系r的組合。
步驟9:利用經(jīng)訓練的分類器對候選實體、屬性和屬性值三元組進行正確和錯誤分類;
作為優(yōu)選,本步驟通過以下過程實現(xiàn):
首先,在利用經(jīng)訓練的分類器進行分類前通過下述過程使用訓練語料集訓練分類器:
所述訓練語料集可以從上述語料集中選??;
步驟9.1:通過以下過程構(gòu)建詞語、短語和語義角色三種粒度的實體、屬性和屬性值的種子三元組:首先,根據(jù)語料集中句子的分詞、詞性標注和語義依存分析結(jié)果,人工構(gòu)建基于詞語粒度的實體、屬性和屬性值種子三元組;其次,根據(jù)語料集中句子的分詞、詞性標注、短語識別和依存句法分析結(jié)果,人工構(gòu)建基于短語粒度的實體、屬性和屬性值種子三元組;最后,根據(jù)語料集中句子的分詞、詞性標注和語義角色識別結(jié)果,人工構(gòu)建基于語義角色粒度實體、屬性和屬性值種子三元組。
步驟9.2:通過以下過程構(gòu)建訓練樣本:
對于實體、屬性和屬性值的種子三元組(e,a,v),在語料集中搜索包含字符串e,a,v的句子,其中e表示實體,a表示屬性,v表示屬性值;若能夠從句子中提取三元組(e,a,v),則將該句子標注為正例訓練句子,否則標注為負例訓練句子。
步驟9.3:從正例訓練句子和負例訓練句子中提取分類特征,構(gòu)建訓練句子的特征向量;
分類特征包括:候選屬性a和候選屬性值v的左相鄰和右相鄰的三個詞語及其詞性;候選屬性a和候選屬性值v的順序關(guān)系;候選屬性a和候選屬性值v的依存句法關(guān)系;候選屬性a和候選屬性值v間隔的詞語的數(shù)目。
訓練句子的特征向量為句子的所有分類特征的特征值構(gòu)成的向量;分類標簽為1或0,當句子為正例訓練句子時,設(shè)分類標簽為1;否則為0。
本實施例使用的分類器為支持向量機分類器。
然后,利用上述訓練好的分類器通過以下過程進行識別:
步驟9.4:對于通過步驟6~步驟8提取的候選實體、屬性和屬性值三元組所在的句子,從該句子中按步驟9.3所述內(nèi)容提取分類特征,構(gòu)建該句子的特征向量。
步驟9.5:利用支持向量機分類器對候選實體、屬性和屬性值三元組所在句子的特征向量進行分類,類別包括1和0,分別表示候選三元組正確和候選三元組錯誤。
至此,就完成了本方法的全部過程,類別標注為1的候選三元組即是我們需要的實體屬性和屬性值知識自動提取結(jié)果。
基于上述方法構(gòu)建的一種基于多粒度語義塊的實體屬性和屬性值提取系統(tǒng),包括語料采集模塊、分詞和短語識別模塊、語義角色標注模塊、依存句法分析模塊、語義依存分析模塊、基于語義角色粒度的屬性知識提取模塊、基于短語粒度的屬性知識提取模塊、基于詞語粒度的屬性知識提取模塊,以及屬性知識分類模塊;語料采集模塊分別與分詞和短語識別模塊、語義角色標注模塊、依存句法分析模塊、語義依存分析模塊相連;分詞和短語識別模塊、語義角色標注模塊分別與基于語義角色粒度的屬性知識提取模塊相連;分詞和短語識別模塊、依存句法分析模塊分別與基于短語粒度的屬性知識提取模塊相連;分詞和短語識別模塊、語義依存分析模塊分別與基于詞語粒度的屬性知識提取模塊相連;基于語義角色粒度的屬性知識提取模塊、基于短語粒度的屬性知識提取模塊、基于詞語粒度的屬性知識提取模塊分別與屬性知識分類模塊相連。
所述語料采集模塊用于采集網(wǎng)絡(luò)上的詞條網(wǎng)頁,并進行自由文本提取,構(gòu)建為后續(xù)模塊從中提取實體的屬性和屬性值的語料;
所述分詞和短語識別模塊用于對所述語料采集模塊提取的自由文本的句子進行分詞、詞性標注和短語識別;
所述語義角色標注模塊用于對所述語料采集模塊提取的自由文本的句子進行語義角色標注;
所述依存句法分析模塊用于對所述語料采集模塊提取的自由文本的句子進行依存句法分析;
所述語義依存分析模塊用于對所述語料采集模塊提取的自由文本的句子進行語義依存分析;
所述基于語義角色粒度的屬性知識提取模塊用于對所述分詞和短語識別模塊和語義角色標注模塊標注的自由文本的句子進行基于語義角色粒度的實體的屬性和屬性值提??;
所述基于短語粒度的屬性知識提取模塊用于對所述分詞和短語識別模塊和依存句法分析模塊識別的句子進行基于短語粒度的實體的屬性和屬性值提??;
所述基于詞語粒度的屬性知識提取模塊用于對所述分詞和短語識別模塊和語義依存分析模塊識別的句子進行基于詞語粒度的實體的屬性和屬性值提取;
所述屬性知識分類模塊用于使用經(jīng)訓練的分類器對所述語義角色粒度的屬性知識提取模塊、短語粒度的屬性知識提取模塊、詞語粒度的屬性知識提取模塊提取的候選實體、屬性和屬性值進行分類判別。
有益效果
本發(fā)明的方法,針對現(xiàn)有實體屬性和屬性值提取方法從自由文本或非結(jié)構(gòu)化文本中獲取屬性知識研究較少;現(xiàn)有實體屬性和屬性值知識提取方法的屬性值語義不完整;難以提取未給定屬性及其屬性值;以及難以滿足不同粒度知識需求服務(wù)等問題,提供一種基于多粒度語義塊的實體屬性和屬性值提取方法,能夠提高實體屬性知識獲取的正確性和效率,在主題檢測、信息檢索、自動文摘、問答系統(tǒng)等領(lǐng)域具有廣闊的應(yīng)用前景。與現(xiàn)有技術(shù)相比,該方法具有如下特點:
(1)選取維基百科、百度百科和互動百科網(wǎng)頁自由文本作為實體屬性知識獲取的來源,具有實時性、全面性和海量性的特點。
(2)將自由文本句子中詞語搭配、詞性鏈接、句法依存和語義依存特點與分類器有機地結(jié)合,融合了基于規(guī)則和基于統(tǒng)計方法的特點。
(3)針對現(xiàn)有實體屬性知識提取方法主要以詞語為屬性和屬性值表示粒度的現(xiàn)狀,本發(fā)明采用基于短語粒度和語義角色粒度的實體屬性和屬性值提取方法,解決了由于詞語表達意義不完整而導致的提取準確率下降的問題。
(4)針對句子表達實體屬性知識的復雜性、歧義性和靈活性,本發(fā)明提取基于詞語粒度、短語粒度、語義角色粒度的實體屬性和屬性值,提供了實體屬性和屬性值知識的多粒度的描述,一方面提高了實體屬性知識獲取的準確率和效率,另一方面用戶可以根據(jù)需求選擇不同粒度的實體屬性知識服務(wù)。
本發(fā)明中,將實體屬性知識獲取問題轉(zhuǎn)化為多粒度的實體屬性和屬性值三元組的分類問題,對處理其他來源文本具有較強的魯棒性,能夠有效地提取實體候選屬性和屬性值的判別特征;通過提取三種粒度的實體屬性和屬性值知識,提高了實體屬性知識服務(wù)的效率,滿足了實體屬性知識多層次的服務(wù)需求。
附圖說明
圖1為本發(fā)明實施例一種基于多粒度語義塊的實體屬性和屬性值提取方法的流程示意圖。
圖2為本發(fā)明實施例一種基于多粒度語義塊的實體屬性和屬性值提取系統(tǒng)的組成結(jié)構(gòu)示意圖。
具體實施方式
根據(jù)上述技術(shù)方案,下面結(jié)合附圖與實施例對本發(fā)明的優(yōu)選實施方式進行詳細說明。
實施例1
步驟1:構(gòu)建實體的屬性和屬性值提取語料集。
采用基于Python、Selenium和PhantomJS技術(shù)的網(wǎng)絡(luò)爬蟲采集維基百科、百度百科和互動百科中的詞條網(wǎng)頁,將其保存到本地計算機,構(gòu)建為實體的屬性和屬性值提取語料。進一步,對網(wǎng)頁進行自由文本提取,也就是,抽取網(wǎng)頁的標題、自由文本,去除網(wǎng)頁中的導航和圖片等信息。例如,對于實體故宮,采集該實體在維基百科、百度百科和互動百科中的詞條網(wǎng)頁,并保存在本地計算機。
步驟2,對屬性和屬性值提取語料集中自由文本的句子進行分詞、詞性標注和短語識別。
利用哈爾濱工業(yè)大學語言技術(shù)平臺LTP的分詞和詞性標注工具或其它工具或方法對自由文本進行分詞和詞性標注。另外,利用斯坦福大學Stanford Parser或其它工具或方法對自由文本進行短語識別。
例如,對于句子“北京故宮于明成祖永樂四年開始建設(shè)”,使用哈爾濱工業(yè)大學語言技術(shù)平臺LTP的分詞和詞性標注工具,分詞和詞性標注后的結(jié)果為:“北京(ns)故宮(ns)于(p)明(nt)成祖(v)永樂四年(nt)開始(v)建設(shè)(v)”,其中,ns表示地理名稱,p表示介詞,nt表示時間名詞,v表示動詞。使用斯坦福大學Stanford Parser對該句子進行短語識別的結(jié)果為“北京故宮(NP),于明成祖永樂四年開始建設(shè)(VP),于明成祖永樂四年(PP),明成祖永樂四年(QP),明成祖永樂(NP),四年(QP),開始建設(shè)(VP)”,其中NP表示名詞短語,PP表示介詞短語,QP表示量詞短語,VP表示動詞短語。
步驟3:對屬性和屬性值提取語料集中自由文本的句子進行語義角色標注。
語義角色是指以謂語動詞為中心的擔當一個意義完整的語義成分。采用哈爾濱工業(yè)大學語言技術(shù)平臺中語義角色標注工具或其它工具或方法進行語義角色標注。
例如,對于句子“北京故宮于明成祖永樂四年開始建設(shè)”,使用哈爾濱工業(yè)大學語言技術(shù)平臺LTP的語義角色標注工具,語義角色標注結(jié)果為:“北京故宮(A0),于明成祖永樂四年(TMP),建設(shè)(v)”和“開始(v),建設(shè)(A1)”,其中,A0表示動作的施事,A1表示動作的影響,TMP表示時間。
步驟4:對屬性和屬性值提取語料集中自由文本的句子進行依存句法分析。
依存句法分析是指通過分析詞語之間的依存關(guān)系來描述句子的句法結(jié)構(gòu)。采用哈爾濱工業(yè)大學語言技術(shù)平臺中依存句法分析工具或其它工具或方法進行依存句法分析。
例如,對于句子“北京故宮于明成祖永樂四年開始建設(shè)”,使用哈爾濱工業(yè)大學語言技術(shù)平臺LTP的依存句法分析工具,依存句法分析結(jié)果為:“ATT(故宮,北京),POB(于,明),POB(于,永樂四年),ATT(永樂四年,成祖),ADV(開始,于),SBV(開始,故宮),VOB(開始,建設(shè)),WP(開始,。)”,其中,ATT表示定中關(guān)系,POB表示介賓關(guān)系,ADV表示狀中結(jié)構(gòu),SBV表示主謂關(guān)系,VOB表示動賓關(guān)系,WP表示標點。
步驟5:對屬性和屬性值提取語料集中自由文本的句子進行語義依存分析。
語義依存分析是指分析詞語之間的語義關(guān)聯(lián),目標是挖掘詞語的語義信息。采用哈爾濱工業(yè)大學語言技術(shù)平臺中語義依存分析工具或其它工具或方法進行語義依存分析。
例如,對于句子“故宮位于北京中軸線的中心”,使用哈爾濱工業(yè)大學語言技術(shù)平臺LTP的語義依存分析工具,語義依存分析結(jié)果為:Exp(位于,故宮),Loc(位于,中心),Sco(中軸線,北京),mAux(中軸線,的),Poss(中心,中軸線),mPunc(位于,。),其中,Exp表示當事關(guān)系,Loc表示空間角色,Sco表示范圍角色,mAux表示的字標記,Poss表示領(lǐng)事關(guān)系,mPunc表示標點標記。
步驟6:根據(jù)句子的分詞、詞性標注和語義角色標注結(jié)果,提取以語義角色為粒度的候選實體、屬性和屬性值,獲取候選實體、屬性和屬性值三元組。
具體過程為:對于句子中的動詞x1,若字符串y1為動詞x1的表示主體的語義角色,則將字符串y1識別為候選實體。例如,y1可以為施事角色。然后通過以下過程識別屬性和屬性值:
第一,若字符串z1為動詞x1的表示客體的語義角色,則將字符串z1識別為候選屬性值;將動詞x1識別為候選屬性。例如,z1可以為客事角色。也就是,獲取候選實體、屬性和屬性值三元組(y1,x1,z1)。第二,若字符串z1為動詞x1的除了主體和客體以外的語義角色s,則將字符串z1識別為候選屬性值,候選屬性為動詞x1和語義角色s的組合。也就是,獲取候選實體、屬性和屬性值三元組(y1,x1+s,z1)。這里,s可能為時間、地點、程度、頻率、方式、原因、條件、方向、擴展、主題、謂語動詞、受益人、持有者、被持有、并列參數(shù)、或附加標記語義角色,x1+s表示動詞x1和語義角色s的組合。
例如,對于句子“北京故宮于明成祖永樂四年開始建設(shè)”,根據(jù)與動詞“建設(shè)”相關(guān)的語義角色標注結(jié)果“北京故宮(A0),于明成祖永樂四年(TMP)”,由于“北京故宮”的語義角色為施事(A0表示施事),即是為表示主體的語義角色,因此,構(gòu)建“北京故宮”為候選實體。進一步,因為“于明成祖永樂四年”的語義角色為時間(TMP表示時間),因此,構(gòu)建“于明成祖永樂四年”為候選屬性值,候選屬性為動詞“建設(shè)”和語義角色“時間”的組合“建設(shè)時間”。由此,構(gòu)建候選實體、屬性和屬性值三元組(北京故宮,建設(shè)時間,于明成祖永樂四年)。
步驟7:根據(jù)句子的分詞、詞性標注、短語識別和依存句法分析結(jié)果,提取以短語為粒度的候選實體、屬性和屬性值,獲取候選實體、屬性和屬性值三元組。
首先,根據(jù)步驟2句子的短語識別結(jié)果,獲取句子的非嵌套式短語識別結(jié)果。句子的非嵌套式短語識別結(jié)果是指不存在一短語內(nèi)部包含另一短語的識別結(jié)果。句子的短語類型包括名詞短語、動詞短語、副詞短語、形容詞短語、限定詞短語、量詞短語、介詞短語、方位詞短語、修飾關(guān)系短語,以及所屬關(guān)系短語。
獲取句子的非嵌套式短語識別結(jié)果的過程如下:第一,對于名詞短語、形容詞短語、限定詞短語、介詞短語、量詞短語、修飾關(guān)系短語、所屬關(guān)系短語和方位詞短語中任一短語嵌套另外短語的情形,則只保留最長字符串的短語標記,稱為最長短語;第二,若一動詞短語嵌套動詞或另一動詞短語,則去掉前一動詞短語的標記;若一動詞短語嵌套除了動詞短語的其他短語,則保留動詞短語的標記。
例如:對于句子“故宮位于北京中軸線的中心”,短語識別結(jié)果如下:
也就是,句子包含名詞短語NP“故宮”、動詞短語VP“位于北京中軸線的中心”。該動詞短語包含動詞VV“位于”和名詞短語NP“北京中軸線的中心”。該名詞短語包括所屬關(guān)系短語DNP“北京中軸線的”和名詞短語NP“中心”。所屬關(guān)系短語DNP“北京中軸線的”包含名詞短語NP“北京”和名詞短語NP“中軸線”。
該句子的非嵌套式短語識別結(jié)果的獲取過程如下:由于動詞短語“位于北京中軸線的中心”包含動詞“位于”和名詞短語“北京中軸線的中心”,因此,去掉“位于北京中軸線的中心”的動詞短語標記。由于名詞短語NP“北京中軸線的中心”嵌套一個所屬關(guān)系短語DNP和多個名詞短語NP,因此,只保留最長字符串“北京中軸線的中心”的短語標記。由此,句子的非嵌套式短語識別結(jié)果為:“故宮(NP),位于,北京中軸線的中心(NP)”。
然后,對于句子依存句法分析結(jié)果中主謂關(guān)系SBV(y2,x2)和動賓關(guān)系VOB(y2,z2),將字符串x2所在的最長短語u識別為候選實體,將字符串y2識別為候選屬性,將字符串z2所在的最長短語v識別為候選屬性值。也就是,獲取候選實體、屬性和屬性值三元組(u,y2,v)。
例如:對于上述示例句子,該句子的依存句法分析結(jié)果為“SBV(位于,故宮),VOB(位于,中軸線),RAD(位于,的),ATT(中軸線,北京),ATT(中心,位于)”,其中RAD表示右附加關(guān)系。對于主謂關(guān)系“SBV(位于,故宮)”和動賓關(guān)系“VOB(位于,中軸線)”,將“故宮”所在的名詞短語“故宮”識別為候選實體,將“位于”識別為候選屬性,將“中軸線”所在的名詞短語“北京中軸線的中心”識別為候選屬性值。由此,構(gòu)建候選實體、屬性和屬性值三元組(故宮,位于,北京中軸線的中心)。
步驟8:根據(jù)句子的分詞、詞性標注和語義依存分析結(jié)果,提取以詞語為粒度的候選實體、屬性和屬性值,獲取候選實體、屬性和屬性值三元組。
具體過程如下:首先,對于句子中的動詞x3,若詞語y3與動詞x3具有施事關(guān)系、當事關(guān)系、感事關(guān)系、領(lǐng)事關(guān)系、屬事關(guān)系、或比較關(guān)系,則將詞語y3識別為候選實體,然后通過以下兩種方式獲取屬性和屬性值:
第一,若詞語z3與該動詞x3具有受事關(guān)系、客事關(guān)系、成事關(guān)系、源事關(guān)系、涉事關(guān)系、或類事關(guān)系,則將詞語z3識別為候選屬性值。進一步,將動詞x3識別為候選屬性。由此,獲取候選實體、屬性和屬性值三元組(y3,x3,z3)。
第二,若詞語z3與該動詞x3具有依據(jù)、緣故、意圖、結(jié)局、方式、工具、材料、時間、空間、歷程、趨向、范圍、數(shù)量、頻率、順序、描寫、程度、或宿主等關(guān)系r,則將該詞語z3識別為候選屬性值。進一步,候選屬性為動詞x3和依存關(guān)系r的組合。也就是,獲取候選實體、屬性和屬性值三元組(y3,x3+r,z3)。其中,x3+r表示動詞x3和依存關(guān)系r的組合。本實施例中句子的依存關(guān)系類型來自哈爾濱工業(yè)大學語言技術(shù)平臺。
步驟9:利用分類器對候選實體、屬性和屬性值三元組進行正確和錯誤分類,具體過程如下:
首先,在利用分類器進行分類前通過下述過程使用訓練語料集訓練分類器:
所述訓練語料集可以從上述語料集中選?。?/p>
步驟9.1:通過以下過程構(gòu)建詞語、短語和語義角色三種粒度的實體、屬性和屬性值的種子三元組:首先,根據(jù)語料集中句子的分詞、詞性標注和語義依存分析結(jié)果,人工構(gòu)建基于詞語粒度的實體、屬性和屬性值種子三元組;其次,根據(jù)語料集中句子的分詞、詞性標注、短語識別和依存句法分析結(jié)果,人工構(gòu)建基于短語粒度的實體、屬性和屬性值種子三元組;最后,根據(jù)語料集中句子的分詞、詞性標注和語義角色識別結(jié)果,人工構(gòu)建基于語義角色粒度實體、屬性和屬性值種子三元組。
步驟9.2:通過以下過程構(gòu)建訓練樣本:
對于實體、屬性和屬性值的種子三元組(e,a,v),在語料集中搜索包含字符串e,a,v的句子,其中e表示實體,a表示屬性,v表示屬性值;若能夠從句子中提取三元組(e,a,v),則將該句子標注為正例訓練句子,否則標注為負例訓練句子。
步驟9.3:從正例訓練句子和負例訓練句子中提取分類特征,構(gòu)建訓練句子的特征向量;
分類特征包括:候選屬性a和候選屬性值v的左相鄰和右相鄰的三個詞語及其詞性;候選屬性a和候選屬性值v的順序關(guān)系;候選屬性a和候選屬性值v的依存句法關(guān)系;候選屬性a和候選屬性值v間隔的詞語的數(shù)目。
訓練句子的特征向量為句子的所有分類特征的特征值構(gòu)成的向量。
本實施例使用的分類器為支持向量機分類器。
然后,利用上述訓練好的分類器通過以下過程進行識別:
步驟9.4:對于通過步驟6~步驟8提取的候選實體、屬性和屬性值三元組所在的句子,從該句子中按步驟9.3所述內(nèi)容提取分類特征,構(gòu)建該句子的特征向量。
步驟9.5:利用支持向量機分類器對候選實體、屬性和屬性值三元組所在句子的特征向量進行分類,類別包括1和0,分別表示候選三元組正確和候選三元組錯誤。
至此,就完成了從自由文中自動提取實體、屬性和屬性值三元組知識的全過程。
實施例2
基于上述方法構(gòu)建的一種基于多粒度語義塊的實體屬性和屬性值提取系統(tǒng),如圖2所示,包括語料采集模塊、分詞和短語識別模塊、語義角色標注模塊、依存句法分析模塊、語義依存分析模塊、基于語義角色粒度的屬性知識提取模塊、基于短語粒度的屬性知識提取模塊、基于詞語粒度的屬性知識提取模塊,以及屬性知識分類模塊;語料采集模塊分別與分詞和短語識別模塊、語義角色標注模塊、依存句法分析模塊、語義依存分析模塊相連;分詞和短語識別模塊、語義角色標注模塊分別與基于語義角色粒度的屬性知識提取模塊相連;分詞和短語識別模塊、依存句法分析模塊分別與基于短語粒度的屬性知識提取模塊相連;分詞和短語識別模塊、語義依存分析模塊分別與基于詞語粒度的屬性知識提取模塊相連;基于語義角色粒度的屬性知識提取模塊、基于短語粒度的屬性知識提取模塊、基于詞語粒度的屬性知識提取模塊分別與屬性知識分類模塊相連。
所述語料采集模塊用于采集網(wǎng)絡(luò)上的詞條網(wǎng)頁,并進行自由文本提取,構(gòu)建為后續(xù)模塊從中提取實體的屬性和屬性值的語料;
所述分詞和短語識別模塊用于對所述語料采集模塊提取的自由文本的句子進行分詞、詞性標注和短語識別;
所述語義角色標注模塊用于對所述語料采集模塊提取的自由文本的句子進行語義角色標注;
所述依存句法分析模塊用于對所述語料采集模塊提取的自由文本的句子進行依存句法分析;
所述語義依存分析模塊用于對所述語料采集模塊提取的自由文本的句子進行語義依存分析;
所述基于語義角色粒度的屬性知識提取模塊用于對所述分詞和短語識別模塊和語義角色標注模塊標注的自由文本的句子進行基于語義角色粒度的實體的屬性和屬性值提取;
所述基于短語粒度的屬性知識提取模塊用于對所述分詞和短語識別模塊和依存句法分析模塊識別的句子進行基于短語粒度的實體的屬性和屬性值提?。?/p>
所述基于詞語粒度的屬性知識提取模塊用于對所述分詞和短語識別模塊和語義依存分析模塊識別的句子進行基于詞語粒度的實體的屬性和屬性值提??;
所述屬性知識分類模塊用于使用經(jīng)訓練的分類器對所述語義角色粒度的屬性知識提取模塊、短語粒度的屬性知識提取模塊、詞語粒度的屬性知識提取模塊提取的候選實體、屬性和屬性值進行分類判別。
為說明本發(fā)明的實體屬性和屬性值提取效果,以句子“北京故宮于明成祖永樂四年開始建設(shè)”和“故宮位于北京中軸線的中心”為例,本發(fā)明的基于多粒度語義塊的實體屬性和屬性值提取方法分別提取實體、屬性和屬性值三元組(北京故宮,建設(shè)時間,于明成祖永樂四年)和三元組(故宮,位于,北京中軸線的中心)。基于詞語或短語的實體屬性和屬性值提取方法分別提取實體、屬性和屬性值三元組(北京故宮,開始,建設(shè))和(故宮,位于空間,中心)。從自然語言語句表達實體屬性知識的角度講,描述實體的屬性和屬性值知識的語義單元可能為詞語、短語或語義角色。本發(fā)明不僅提取了現(xiàn)有方法的以詞語為粒度的實體屬性知識,而且提取了以短語和語義角色為粒度的實體屬性知識,克服了以詞語為語義單元表示實體屬性值帶來的表達語義不完整問題。上述表明,本發(fā)明的實體屬性和屬性值提取方法比現(xiàn)有方法更加準確,提高了用戶獲取實體屬性和屬性值知識的效率。
為了說明本發(fā)明的內(nèi)容及實施方式,本說明書給出了具體實施例。在實施例中引入細節(jié)的目的不是限制權(quán)利要求書的范圍,而是幫助理解本發(fā)明所述方法。本領(lǐng)域的技術(shù)人員應(yīng)理解:在不脫離本發(fā)明及其所附權(quán)利要求的精神和范圍內(nèi),對最佳實施例步驟的各種修改、變化或替換都是可能的。因此,本發(fā)明不應(yīng)局限于最佳實施例及附圖所公開的內(nèi)容。