亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種CRF識(shí)別器的訓(xùn)練及技術(shù)及其屬性名關(guān)系對(duì)抽取方法與流程

文檔序號(hào):12122019閱讀:241來源:國知局
一種CRF識(shí)別器的訓(xùn)練及技術(shù)及其屬性名關(guān)系對(duì)抽取方法與流程
本發(fā)明涉及信息抽取
技術(shù)領(lǐng)域
,尤其涉及面向科技領(lǐng)域的一種CRF識(shí)別器的訓(xùn)練及技術(shù)及其屬性名關(guān)系對(duì)抽取方法。
背景技術(shù)
:技術(shù)實(shí)體及其屬性名稱關(guān)系對(duì)(本文簡(jiǎn)稱技術(shù)及屬性名關(guān)系對(duì))抽取是指從各類數(shù)據(jù)資源中抽取特指技術(shù)的命名實(shí)體以及對(duì)該實(shí)體進(jìn)行描述的各種屬性名稱,特指顯性的屬性名。比如在句子“TheenergyconversionefficiencyoftheDSSCbasedonK1was5.2%.”中,“DSSC”為技術(shù)實(shí)體,而"energyconversionefficiency"為它的一個(gè)屬性,”5.2%”為屬性值。技術(shù)實(shí)體及其屬性抽取是科技知識(shí)庫構(gòu)建的重要一環(huán),可以進(jìn)一步應(yīng)用到技術(shù)評(píng)價(jià)、技術(shù)預(yù)測(cè)、自動(dòng)問答等領(lǐng)域。隨著學(xué)科之間的互相滲透,越來越多的交叉技術(shù)相繼涌現(xiàn),針對(duì)科技知識(shí)庫構(gòu)建的研究已經(jīng)不能僅僅局限于某一個(gè)特定的
技術(shù)領(lǐng)域
,而面向開放領(lǐng)域的技術(shù)及其屬性名的抽取是迫切需要的。技術(shù)及其屬性抽取其實(shí)質(zhì)是關(guān)系抽取的一種,與屬性抽取相關(guān)的研究大致可以分為屬性名和屬性值對(duì)、實(shí)體/概念和屬性名對(duì)、屬性名和情感描述的提取,屬性抽取技術(shù)廣泛用于知識(shí)庫構(gòu)建、意見挖掘或情感分析、商品評(píng)價(jià)分析等應(yīng)用場(chǎng)景。目前尚沒有對(duì)技術(shù)及其屬性名關(guān)系對(duì)進(jìn)行抽取的研究,甚至還沒有對(duì)技術(shù)實(shí)體有效識(shí)別的研究。針對(duì)技術(shù)與屬性名關(guān)系對(duì)的抽取,目前存在諸多挑戰(zhàn)。首先,面向開放
技術(shù)領(lǐng)域
,不同的技術(shù)往往有不同的屬性名,描述方式也不同,導(dǎo)致很難建立統(tǒng)一的模板。其次,不同于商品、服務(wù)等領(lǐng)域可以找到客戶評(píng)論或者日志等高價(jià)值語料,一般語料中對(duì)技術(shù)的描述不夠集中、技術(shù)屬性的特征極其稀疏,導(dǎo)致采用監(jiān)督式機(jī)器學(xué)習(xí)方法時(shí)需要耗費(fèi)大量精力標(biāo)注訓(xùn)練樣本,同時(shí)稀疏的特征不適用于基于話題模型的屬性抽取方法(參見文獻(xiàn)[1]ArjunMukherjeeandBingLiu,“AspectExtractionthroughsemi-SupervisedModeling,”presentedattheACL,2012.,文獻(xiàn)[2]ZhiyuanChen,BingLiu,MeichunHsu,andMalúCastellanos,“Exploitingdomainknowledgeinaspectextraction,”presentedattheEMNLP2013-2013ConferenceonEmpiricalMethodsinNaturalLanguage,2013.)。最后,目前尚沒有公開報(bào)道的開放領(lǐng)域的技術(shù)知識(shí)庫,新的陌生的技術(shù)名詞仍在不斷涌現(xiàn),因此在技術(shù)及其屬性名關(guān)系對(duì)的抽取中,不但屬性名是未知的,而且技術(shù)實(shí)體名稱也是未知的,因此技術(shù)實(shí)體、屬性名及其之間的關(guān)系都屬于抽取對(duì)象,任務(wù)量比較大。目前已有文獻(xiàn)分別提出了實(shí)體與屬性名關(guān)系對(duì)的抽取方法,其中,文獻(xiàn)[3](KedarBellare,ParthaPratimTalukdar,andGiridharKumaran.“Lightly-SupervisedAttributeExtraction.”NeuralInformationProcessingSystems,2007.)不適用于開放領(lǐng)域的關(guān)系抽取,并且未提及方法的召回率;文獻(xiàn)[4](JosephReisinger,andMariusPas,ca.“Low-CostSupervisionforMultiple-SourceAttributeExtraction,”2009.)實(shí)現(xiàn)了指定實(shí)體類的屬性名的抽取,假設(shè)同一類實(shí)體具有相同的屬性名稱,而這一假設(shè)并不適用于技術(shù);文獻(xiàn)[5](TaesungLee,ZhongyuanWang,HaixunWang,andSeung-wonHwang,“AttributeExtractionandScoring:AProbabilisticApproach,”presentedattheInternationalConferenceonDataEngineering(ICDE),2013.)采用了簡(jiǎn)單的“of”模板進(jìn)行實(shí)體/概念和屬性名對(duì)的抽取,因此召回率極低,同時(shí)該方法中的實(shí)體名稱都來自現(xiàn)成的知識(shí)庫/詞表,而對(duì)技術(shù)實(shí)體來說目前并沒有現(xiàn)成的知識(shí)庫或詞表做支撐。文獻(xiàn)[6](LidongBing,WaiLam,andTak-LamWong,“WikipediaEntityExpansionandAttributeExtractionfromtheWebUsingSemi-supervisedLearning,”presentedattheAcmInternationalConferenceonWebSearch&DataMining,2013.)針對(duì)特征豐富的半結(jié)構(gòu)化語料,實(shí)現(xiàn)了知識(shí)庫中實(shí)體的擴(kuò)充和對(duì)應(yīng)屬性名的完善,而對(duì)應(yīng)于技術(shù)則無法獲得如此高質(zhì)量的語料。綜述,現(xiàn)有實(shí)體和屬性名關(guān)系對(duì)抽取技術(shù)都不適用于開放領(lǐng)域技術(shù)和屬性名關(guān)系對(duì)的抽取。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于克服目前實(shí)體和屬性名關(guān)系對(duì)抽取方法存在的上述缺陷,針對(duì)科技知識(shí)庫構(gòu)建、技術(shù)分析、自動(dòng)問答等應(yīng)用需求,提出一種CRF識(shí)別器的訓(xùn)練方法,基于該方法訓(xùn)練的CRF識(shí)別器,本發(fā)明提供了一種技術(shù)及其屬性名關(guān)系對(duì)抽取方法,通過該方法,在極少人工參與的情況下,可以實(shí)現(xiàn)開放
技術(shù)領(lǐng)域
中技術(shù)及屬性名關(guān)系對(duì)的抽取。為了實(shí)現(xiàn)上述目的,本發(fā)明提出了一種CRF識(shí)別器的訓(xùn)練方法,所述CRF識(shí)別器包括一個(gè)屬性名CRF識(shí)別器和一個(gè)關(guān)系對(duì)CRF識(shí)別器,所述屬性名CRF識(shí)別器和關(guān)系對(duì)CRF識(shí)別器都為CRF模型;所述方法包括:步驟1)建立屬性名訓(xùn)練樣本,提取屬性名訓(xùn)練樣本的屬性名特征,作為屬性名CRF識(shí)別器的輸入,由此訓(xùn)練出屬性名CRF識(shí)別器;步驟2)獲取屬性名CRF識(shí)別器輸出的屬性名,再根據(jù)與技術(shù)名詞形成的所屬關(guān)系搜集種子對(duì),然后再收集語料,解析得到依存樹,由此形成關(guān)系對(duì)訓(xùn)練樣本,提取關(guān)系對(duì)訓(xùn)練樣本的關(guān)系對(duì)特征,作為關(guān)系對(duì)CRF識(shí)別器的輸入,由此訓(xùn)練出關(guān)系對(duì)CRF識(shí)別器;步驟3)將屬性名CRF識(shí)別器和關(guān)系對(duì)CRF識(shí)別器連接在一起,即所述屬性名CRF識(shí)別器的輸出為關(guān)系對(duì)CRF識(shí)別器的輸入,形成CRF識(shí)別器。上述技術(shù)方案中,所述步驟1)具體包括:步驟101)從文本中收集屬性名種子;步驟102)以屬性名種子為檢索詞,從摘要庫中檢索得到包含屬性名的語句,該語句為屬性名語料語句;步驟103)對(duì)屬性名語料語句中屬于和不屬于屬性名的詞按照IBO標(biāo)準(zhǔn)進(jìn)行標(biāo)注,形成屬性名訓(xùn)練樣本;步驟104)提取屬性名訓(xùn)練樣本的屬性名特征;步驟105)將屬性名訓(xùn)練樣本的屬性名特征輸入CRF模型,根據(jù)其標(biāo)注的結(jié)果訓(xùn)練CRF識(shí)別器。上述技術(shù)方案中,所述屬性名特征包括:當(dāng)前單詞、當(dāng)前單詞的詞形、當(dāng)前單詞的詞性、當(dāng)前單詞的詞根、當(dāng)前單詞的后四個(gè)字母、前一個(gè)單詞和當(dāng)前單詞的組合、當(dāng)前單詞和后一個(gè)詞的組合、前一個(gè)單詞和當(dāng)前單詞詞性的組合及當(dāng)前單詞和后一個(gè)詞詞性的組合。上述技術(shù)方案中,所述步驟2)具體包括:步驟201)通過信息抽取方式得到一個(gè)包含若干個(gè)技術(shù)名詞的列表;步驟202)使用步驟1)訓(xùn)練得到的屬性名CRF識(shí)別器識(shí)別文本中每一條句子中代表屬性名的詞或短語;步驟203)收集關(guān)系對(duì)種子;所述關(guān)系對(duì)種子指的是由技術(shù)名詞以及與其存在事實(shí)性所屬關(guān)系的屬性名所組成的關(guān)系對(duì);步驟204)同一關(guān)系對(duì)種子中的技術(shù)名詞和屬性名通過“and”組配成檢索式,在摘要庫中檢索得到同時(shí)包含該技術(shù)和屬性名稱的語句,形成關(guān)系對(duì)語料語句;步驟205)將關(guān)系對(duì)語料語句中的句子解析成以詞或者名詞短語為節(jié)點(diǎn)的句法依存樹;步驟206)對(duì)關(guān)系對(duì)語料語句中屬于和不屬于關(guān)系對(duì)的詞組按照IBO標(biāo)準(zhǔn)進(jìn)行標(biāo)注,形成關(guān)系對(duì)訓(xùn)練樣本;步驟207)提取關(guān)系對(duì)訓(xùn)練樣本的關(guān)系對(duì)特征;步驟208)將關(guān)系對(duì)訓(xùn)練樣本的關(guān)系對(duì)特征輸入CRF模型,根據(jù)其標(biāo)注的結(jié)果訓(xùn)練關(guān)系對(duì)CRF識(shí)別器。上述技術(shù)方案中,所述步驟205)的具體實(shí)現(xiàn)過程為:步驟205-1)使用Spacy軟件包對(duì)關(guān)系對(duì)語料語句中的句子進(jìn)行依存句法解析,得到對(duì)應(yīng)的句法依存樹;步驟205-2)使用Spacy軟件包對(duì)句子中的名詞短語進(jìn)行識(shí)別;步驟205-3)將依存樹中屬于同一個(gè)名詞短語的節(jié)點(diǎn)聚合成一個(gè)節(jié)點(diǎn),稱為名詞短語節(jié)點(diǎn),記為NPn;步驟205-4)由于每條句子都包含一個(gè)表示屬性名的名詞短語,該名詞短語對(duì)應(yīng)于依存樹中的節(jié)點(diǎn)記為ATTRn。上述技術(shù)方案中,所述步驟206)的具體實(shí)現(xiàn)過程為:步驟206-1)使用Dijkstra算法計(jì)算ATTRn節(jié)點(diǎn)到任意其他NPn節(jié)點(diǎn)之間的最短路徑;步驟206-2)記錄路徑中的所有節(jié)點(diǎn)以及順序,用對(duì)應(yīng)單詞表示非名詞短語節(jié)點(diǎn),用符號(hào)’NPn’表示NPn節(jié)點(diǎn);步驟206-3)如果最短路徑的起點(diǎn)ATTRn和終點(diǎn)NPn同時(shí)對(duì)應(yīng)屬性名稱和技術(shù)名詞,則該條最短路徑記為訓(xùn)練樣本的正例,反之記為反例;步驟206-4)使用IBO標(biāo)準(zhǔn)對(duì)訓(xùn)練樣本進(jìn)行標(biāo)注。上述技術(shù)方案中,所述關(guān)系對(duì)特征包括:詞形特征、詞性特征、依存類型特征和依存方向特征;所述詞形特征包括:當(dāng)前詞的拼寫、前一個(gè)詞拼寫、后一個(gè)詞拼寫、前一個(gè)詞拼寫以及當(dāng)前詞拼寫的組合、當(dāng)前詞拼寫以及后一個(gè)詞拼寫的組合和前一個(gè)詞的拼寫和當(dāng)前詞的拼寫以及后一個(gè)詞的拼寫的組合;所述詞性特征包括:當(dāng)前詞的詞性、前一個(gè)詞的詞性、后一個(gè)詞的詞性、前一個(gè)詞詞性以及當(dāng)前詞詞性的組合、當(dāng)前詞詞性以及后一個(gè)詞詞性的組合和前一個(gè)詞詞性及當(dāng)前詞詞性以及后一個(gè)詞詞性的組合;所述依存類型特征包括:與前一個(gè)詞之間的依存類型、與后一個(gè)詞之間的依存類型、當(dāng)前詞拼寫以及與前一個(gè)詞之間的依存類型的組合、當(dāng)前詞拼寫以及與后一個(gè)詞之間的依存類型的組合、前兩個(gè)詞之間的依存類型前一個(gè)詞以及前兩個(gè)詞之間的依存類型的組合、前一個(gè)詞以及當(dāng)前詞與前一個(gè)詞之間依存類型的組合、后兩個(gè)詞之間的依存類型、后一個(gè)詞以及后兩個(gè)詞之間依存類型的組合、后一個(gè)詞以及當(dāng)前詞與后一個(gè)詞之間依存類型的組合、前一個(gè)詞拼寫及前一個(gè)詞與當(dāng)前詞依存類型以及當(dāng)前此拼寫的組合、當(dāng)前詞拼寫及當(dāng)前詞與后一個(gè)詞依存類型以及后一個(gè)詞拼寫的組合、當(dāng)前詞拼寫及當(dāng)前詞與后一個(gè)詞依存類型以及后一個(gè)詞拼寫的組合、前一個(gè)詞拼寫及前一個(gè)詞與當(dāng)前詞依存類型及當(dāng)前詞拼寫及當(dāng)前詞與后一個(gè)詞依存類型以及后一個(gè)詞拼寫的組合;所述依存方向特征包括:與前一個(gè)詞之間的依存方向、與后一個(gè)詞之間的依存方向、當(dāng)前詞拼寫以及與前一個(gè)詞之間的依存方向的組合、當(dāng)前詞拼寫以及與后一個(gè)詞之間的依存方向的組合、前兩個(gè)詞之間的依存方向、前一個(gè)詞以及前兩個(gè)詞之間的依存方向的組合、前一個(gè)詞以及當(dāng)前詞與前一個(gè)詞之間依存方向的組合、后兩個(gè)詞之間的依存方向、后一個(gè)詞以及后兩個(gè)詞之間依存方向的組合、后一個(gè)詞以及后兩個(gè)詞之間依存方向的組合、后一個(gè)詞以及當(dāng)前詞與后一個(gè)詞之間依存方向的組合、前一個(gè)詞拼寫及前一個(gè)詞與當(dāng)前詞依存方向以及當(dāng)前此拼寫的組合、當(dāng)前詞拼寫及當(dāng)前詞與后一個(gè)詞依存方向以及后一個(gè)詞拼寫的組合、前一個(gè)詞拼寫及前一個(gè)詞與當(dāng)前詞依存方向及當(dāng)前此拼寫及當(dāng)前詞與后一個(gè)詞依存方向以及后一個(gè)詞拼寫的組合。基于上述方法訓(xùn)練得到的CRF識(shí)別器,本發(fā)明還提供了一種技術(shù)及其屬性名關(guān)系對(duì)抽取方法,所述方法包括:步驟S1)獲取待識(shí)別的數(shù)據(jù)樣本;步驟S2)提取數(shù)據(jù)樣本的屬性名特征,并輸入屬性名CRF識(shí)別器,得到經(jīng)過標(biāo)注的屬性名;步驟S3)基于名詞短語的依存句法解析,計(jì)算步驟S2)得到的屬性名所在名詞短語到其它名詞短語之間的最短依存路徑,由此提取關(guān)系對(duì)特征,輸入關(guān)系對(duì)CRF識(shí)別器,得到技術(shù)及屬性名關(guān)系對(duì)。本發(fā)明的技術(shù)優(yōu)勢(shì)在于:1、本發(fā)明提出的技術(shù)及其屬性名關(guān)系對(duì)抽取方法面向的是開放
技術(shù)領(lǐng)域
,不局限于某特定
技術(shù)領(lǐng)域
,為交叉技術(shù)或者新興技術(shù)的預(yù)測(cè)與分析提供了基礎(chǔ);2、本發(fā)明提出的方法僅需要極少的人工參與,避免了其他方法中人工標(biāo)注語料的過程;3、目前,對(duì)技術(shù)名稱的識(shí)別鮮有研究,屬于世界級(jí)的難題,本發(fā)明的方法從屬性名的識(shí)別入手,有效避免了一開始識(shí)別技術(shù)名稱所帶來的阻力;而且,本發(fā)明的方法在訓(xùn)練關(guān)系對(duì)識(shí)別器時(shí)采用了基于名詞短語的依存句法分析,并且采用了大量依存類型和依存方向等特征,有效提高了識(shí)別器的準(zhǔn)確率和召回率。附圖說明圖1為本發(fā)明的CRF識(shí)別器訓(xùn)練方法的流程圖;圖2a為本發(fā)明的基于名詞短語的句法解析句法依存樹的示意圖;圖2b為本發(fā)明的基于名詞短語的句法依存樹的示意圖;圖3為本發(fā)明的技術(shù)實(shí)體及其屬性名關(guān)系對(duì)抽取方法的流程圖。具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)的說明。如圖1所示,一種CRF(ConditionalRandomField,條件隨機(jī)場(chǎng))識(shí)別器的訓(xùn)練方法,所述CRF識(shí)別器包括一個(gè)屬性名CRF識(shí)別器和一個(gè)關(guān)系對(duì)CRF識(shí)別器,所述屬性名CRF識(shí)別器的輸出為關(guān)系對(duì)CRF識(shí)別器的輸入,所述屬性名CRF識(shí)別器和關(guān)系對(duì)CRF識(shí)別器都為CRF模型;所述方法包括:步驟1)訓(xùn)練屬性名CRF識(shí)別器;所述文本是互聯(lián)網(wǎng)科技新聞或者科技文獻(xiàn)等科技類英文文本。屬性名CRF識(shí)別器用于識(shí)別和標(biāo)注文本中的屬性名稱;所述步驟1)具體包括:步驟101)從文本中收集屬性名種子;通過觀察大量科技類文本,人工指定10個(gè)技術(shù)屬性名詞作為種子(如precision、reliability、flexibility、robustness等)。使用“Googleword2vec”(https://code.google.com/p/word2vec/)工具對(duì)約1億篇科技文獻(xiàn)(INSPEC、WPI、EI、Elsvier、Springer等30種文獻(xiàn)庫,包含1995年到2015年20年的1億篇科技文獻(xiàn))的摘要文本生成Word2vec模型,計(jì)算每一個(gè)屬性名種子的相似詞,取最相似的前20個(gè)詞,共得到200個(gè)詞,剔除重復(fù)后最后得到一個(gè)131個(gè)屬性名的詞表,作為屬性名種子。步驟102)以屬性名種子為檢索詞,從摘要庫中檢索得到包含屬性名的語句,該語句為語料語句;步驟103)對(duì)語料語句中屬于和不屬于屬性名的詞按照IBO標(biāo)準(zhǔn)進(jìn)行標(biāo)注,形成屬性名訓(xùn)練樣本;對(duì)于語料中的一條句子,如果某個(gè)屬性名種子出現(xiàn)在句子的某個(gè)名詞短語中,則將該短語標(biāo)注為屬性名。使用IBO方式對(duì)句子進(jìn)行標(biāo)注,以句子"Itenablesustomeasureorobservevariousaerodynamiccharacteristicsoftheflappingmicroairvehicles."為例,標(biāo)注如表1所示:其中B_ATTR表示對(duì)應(yīng)詞為屬性名詞短語的起始詞,而I_ATTR表示非起始詞,O表示不屬于屬性名詞短語的詞或者符號(hào)。本實(shí)施例共標(biāo)注屬性名CRF識(shí)別器訓(xùn)練樣本10000條。表1Itenablesustomeasureorobservevariousaerodynamiccharacteristicsof……OOOOOOOB_ATTRI_ATTRI_ATTRO……步驟104)提取屬性名訓(xùn)練樣本的屬性名特征;屬性名特征如表2所示:表2表達(dá)式說明w0當(dāng)前單詞shape0當(dāng)前單詞的詞形pos0當(dāng)前單詞的詞性lemma0當(dāng)前單詞的詞根w[-4:]當(dāng)單詞的后四個(gè)字母w-1,w0前一個(gè)單詞和當(dāng)前單詞的組合w0,w+1當(dāng)前詞和后一個(gè)詞的組合pos-1,pos0前一個(gè)單詞和當(dāng)前單詞詞性的組合pos0,pos+1當(dāng)前詞和后一個(gè)詞詞性的組合步驟105)將屬性名訓(xùn)練樣本的屬性名特征輸入CRF模型,根據(jù)其標(biāo)注的結(jié)果訓(xùn)練CRF模型,得到屬性名識(shí)別CRF模型,稱為屬性名CRF識(shí)別器。在本實(shí)施例中,使用CRFSuite工具(http://www.chokkan.org/software/crfsuite/)對(duì)訓(xùn)練樣本以及特征進(jìn)行訓(xùn)練。步驟2)訓(xùn)練關(guān)系對(duì)CRF識(shí)別器;關(guān)系對(duì)CRF識(shí)別器用于識(shí)別出技術(shù)與屬性名關(guān)系對(duì),其中關(guān)系對(duì)的識(shí)別需要用到屬性名識(shí)別的結(jié)果。關(guān)系對(duì)RCF識(shí)別器生成包括抽取技術(shù)名稱詞表、標(biāo)注屬性名稱、收集關(guān)系對(duì)種子、收集語料、基于名詞短語的句法解析、標(biāo)注關(guān)系對(duì)訓(xùn)練樣本、提取特征以及訓(xùn)練CRF模型等8個(gè)步驟。所述步驟2)具體包括:步驟201)通過信息抽取方式得到一個(gè)技術(shù)名詞的列表;維基百科的“新興技術(shù)”頁面(https://en.wikipedia.org/wiki/Emerging_technologies)列舉出了若干新興技術(shù)名稱,本發(fā)明抽取這些技術(shù)名稱作為技術(shù)名稱列表,得到226個(gè)技術(shù)名稱。需要說明的是技術(shù)名稱也可以通過其他方式收集獲得,但必須保證該技術(shù)名詞詞表的準(zhǔn)確性,并且需要盡可能覆蓋多個(gè)
技術(shù)領(lǐng)域
。步驟202)使用步驟1)訓(xùn)練得到的屬性名CRF識(shí)別器識(shí)別文本中每一條句子中代表屬性名的詞或短語;步驟203)收集關(guān)系對(duì)種子;所述關(guān)系對(duì)種子指的是由技術(shù)以及與其存在事實(shí)性所屬關(guān)系的屬性名所組成的關(guān)系對(duì);如果在科技類文本中出現(xiàn)如“AttributeAofTechnologyT”形式的字符串,則該字符串中的AttributeA與TechnologyT存在事實(shí)性所屬關(guān)系。因此,在收集關(guān)系對(duì)種子時(shí),采用“AttributeAofTechnologyT”的字符串組合方式從摘要庫中進(jìn)行檢索,其中AttributeA來自于屬性名CRF識(shí)別器的識(shí)別結(jié)果,TechnologyT來自于技術(shù)名稱詞表,如果存在檢索結(jié)果,則把AttributeA與TechnologyT組成的元組加入關(guān)系對(duì)種子集合。本發(fā)明共收集關(guān)系對(duì)種子1773個(gè)。步驟204)以同一關(guān)系對(duì)種子中的技術(shù)和屬性名通過“and”組配成的檢索式,在摘要庫中檢索得到同時(shí)包含該技術(shù)和屬性名稱的語句,形成關(guān)系對(duì)語料語句;步驟205)將關(guān)系對(duì)語料語句中的句子解析成以詞或者名詞短語為節(jié)點(diǎn)的句法依存樹;首先使用Spacy軟件包(https://spacy.io/)對(duì)句子進(jìn)行依存句法解析,得到對(duì)應(yīng)的句法依存樹,同時(shí)使用Spacy對(duì)句子中的名詞短語進(jìn)行識(shí)別。然后將依存樹中屬于同一個(gè)名詞短語的節(jié)點(diǎn)聚合成一個(gè)節(jié)點(diǎn),稱為名詞短語節(jié)點(diǎn),記為NPn。由于每條句子都是由檢索獲得,因此每條句子都包含一個(gè)表示屬性名的名詞短語,該名詞短語對(duì)應(yīng)于依存樹中的節(jié)點(diǎn)記為ATTRn。以句子:"Itenablesustomeasureorobservevariousaerodynamiccharacteristicsoftheflappingmicroairvehicles."為例,進(jìn)行句法依存解析后得到的句法依存樹如圖2a所示,該句子中包含4個(gè)名詞短語[It,us,variousaerodynamiccharacteristics,theflappingmicroairvehicles],本發(fā)明基于名詞短語的句法解析后得到依存樹如圖2b所示。步驟206)自動(dòng)標(biāo)注關(guān)系對(duì)訓(xùn)練樣本;基于上一步的句法解析,使用Dijkstra算法計(jì)算ATTRn節(jié)點(diǎn)到任意其他NPn節(jié)點(diǎn)之間的最短路徑,記錄路徑中的所有節(jié)點(diǎn)以及順序,用對(duì)應(yīng)單詞表示非名詞短語節(jié)點(diǎn),用符號(hào)’NPn’表示NPn節(jié)點(diǎn)。如果最短路徑的起點(diǎn)ATTRn和終點(diǎn)NPn同時(shí)對(duì)應(yīng)屬性名稱和技術(shù)名詞,則該條最短路徑記為訓(xùn)練樣本的正例,反之記為反例。同樣使用IBO形式對(duì)訓(xùn)練樣本進(jìn)行標(biāo)注,以句子:"Itenablesustomeasureorobservevariousaerodynamiccharacteristicsoftheflappingmicroairvehicles."為例,如圖2b所示,其中“實(shí)線”路徑為反例,而“虛線”路徑為正例,標(biāo)注后如表3所示:表3步驟207)提取關(guān)系對(duì)訓(xùn)練樣本的關(guān)系對(duì)特征;所用特征如表4所示,可以看出本發(fā)明采用了大量詞間依存關(guān)系和依存方向的特征。表4注:最短依存路徑中的NPn或者ATTRn的拼寫以及詞性分別記為”NP”和”ATTR”,與其他詞的依存類型和方向指的是NPn或者ATTRn短語中心詞與其他詞的依存類型和方向。步驟207)將關(guān)系對(duì)訓(xùn)練樣本的關(guān)系對(duì)特征輸入CRF模型,根據(jù)其標(biāo)注的結(jié)果訓(xùn)練CRF模型,得到關(guān)系對(duì)識(shí)別CRF模型,稱為關(guān)系對(duì)CRF識(shí)別器。在本實(shí)施例中,使用CRFSuite工具(http://www.chokkan.org/software/crfsuite/)對(duì)訓(xùn)練樣本以及特征進(jìn)行訓(xùn)練。步驟3)將屬性名CRF識(shí)別器和關(guān)系對(duì)CRF識(shí)別器連接在一起,形成CRF識(shí)別器;基于上述方法訓(xùn)練得到的CRF識(shí)別器,如圖3所示,本發(fā)明還提供了一種技術(shù)及其屬性名關(guān)系對(duì)抽取方法,所述方法包括:步驟S1)獲取待識(shí)別的數(shù)據(jù)樣本;本發(fā)明針對(duì)的數(shù)據(jù)來源是科技文獻(xiàn)或者科技新聞等英文文本數(shù)據(jù)。步驟S2)提取數(shù)據(jù)樣本的屬性名特征,并輸入屬性名CRF識(shí)別器,得到經(jīng)過標(biāo)注的屬性名;步驟S3)基于名詞短語的依存句法解析,計(jì)算屬性名所在名詞短語到其它任一一個(gè)名詞短語之間的最短依存路徑,由此提取關(guān)系對(duì)特征,輸入關(guān)系對(duì)CRF識(shí)別器,得到技術(shù)及屬性名關(guān)系對(duì)。本發(fā)明方法適合從海量文本數(shù)據(jù)中抽取技術(shù)及屬性名關(guān)系對(duì),表5給出了燃料電池和碳納米管的部分關(guān)系對(duì)抽取結(jié)果。表5當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1