一種利用中文在線資源實(shí)現(xiàn)遠(yuǎn)程監(jiān)督人物關(guān)系抽取的方法
【專利摘要】本發(fā)明公開了一種利用中文在線資源實(shí)現(xiàn)遠(yuǎn)程監(jiān)督人物關(guān)系抽取的方法,該方法首先利用Web上已經(jīng)通過半人工化方式形成的在線百科網(wǎng)站自動(dòng)構(gòu)建知識(shí)庫,以獲取盡可能全面且準(zhǔn)確的關(guān)系類型及其人物關(guān)系實(shí)例。接著提取語料庫中所有共現(xiàn)的人名對(duì)以及上下文特征,并將人名對(duì)與知識(shí)庫中關(guān)系實(shí)例相互匹配,得到標(biāo)記關(guān)系的人名對(duì)集合和未標(biāo)記的人名對(duì)集合。最后,引入標(biāo)簽傳播算法實(shí)現(xiàn)未標(biāo)記人名對(duì)的關(guān)系匹配,從而實(shí)現(xiàn)人物關(guān)系抽取。本發(fā)明能夠自動(dòng)構(gòu)建人物關(guān)系知識(shí)庫,其中涵蓋了更為豐富、準(zhǔn)確的關(guān)系類型,基于該知識(shí)庫,引入標(biāo)簽傳播算法實(shí)現(xiàn)遠(yuǎn)程監(jiān)督的中文人物關(guān)系抽取,保證了關(guān)系抽取結(jié)果的準(zhǔn)確性。
【專利說明】一種利用中文在線資源實(shí)現(xiàn)遠(yuǎn)程監(jiān)督人物關(guān)系抽取的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及的【技術(shù)領(lǐng)域】包括網(wǎng)頁信息爬取、文本預(yù)處理、特征提取、人物對(duì)相似度計(jì)算、標(biāo)簽傳播算法等,其中文本預(yù)處理包括分句、分詞、詞性標(biāo)注和人名識(shí)別等技術(shù)??偟膩碚f,本發(fā)明是關(guān)系抽取領(lǐng)域中一種對(duì)中文人物關(guān)系有效的抽取方法,利用大量在線資源采用遠(yuǎn)程監(jiān)督學(xué)習(xí)方法以抽取人物關(guān)系。
【背景技術(shù)】
[0002]自然語言處理(NLP)中,信息抽取是一個(gè)重要的研究領(lǐng)域,并得到廣泛實(shí)際應(yīng)用。信息抽取是指從自然文本中抽取出結(jié)構(gòu)化的信息,以幫助人們從海量信息中快速找到有用的信息。其中,人物關(guān)系抽取是信息抽取研究的一個(gè)重要方向,被廣泛應(yīng)用于人際網(wǎng)絡(luò)分析、社交網(wǎng)絡(luò)服務(wù)和犯罪組織關(guān)系抽取等實(shí)際領(lǐng)域。
[0003]現(xiàn)有的人物關(guān)系抽取方法可以分為有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),其中最近幾年提出的遠(yuǎn)程監(jiān)督學(xué)習(xí)被認(rèn)為是半監(jiān)督學(xué)習(xí)的一種。有監(jiān)督學(xué)習(xí)需要依賴領(lǐng)域?qū)<揖帉戧P(guān)系模式,成本較高且移植性較差。無監(jiān)督學(xué)習(xí)采用聚類方法實(shí)現(xiàn)關(guān)系類型及對(duì)應(yīng)實(shí)例的自動(dòng)抽取,不需要人工干預(yù),但所得關(guān)系類型較粗糙,不能合適地表達(dá)人物關(guān)系,并且準(zhǔn)確率較低。常用的半監(jiān)督學(xué)習(xí)采用少量種子不斷迭代,獲取更多人物關(guān)系實(shí)例,折中了有監(jiān)督和無監(jiān)督學(xué)習(xí)的優(yōu)缺點(diǎn),因此被廣泛采用。但半監(jiān)督學(xué)習(xí)方法存在以下不足:1)不斷迭代容易產(chǎn)生語義漂移問題,從而降低準(zhǔn)確率;2)需要事先定義人物關(guān)系類型,易導(dǎo)致定義的關(guān)系類型不夠全面,例如以往的方法中所定義的關(guān)系類型都沒有涵蓋“敵對(duì)”、“鄰里”等出現(xiàn)頻率不高的關(guān)系。而最近幾年提出的遠(yuǎn)程監(jiān)督方法利用已有的大量結(jié)構(gòu)化數(shù)據(jù),即利用含有關(guān)系實(shí)例的知識(shí)庫,來抽取更多的關(guān)系實(shí)例,由于知識(shí)庫規(guī)模較大,涵蓋關(guān)系類型豐富,且不需要不斷循環(huán)迭代,從而保證了準(zhǔn)確率。但在中文人物關(guān)系抽取中,遠(yuǎn)程監(jiān)督方法遲遲沒有得到應(yīng)用,這和沒有大規(guī)模可用的中文關(guān)系知識(shí)庫有必然聯(lián)系。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足而提供的一種新的中文人物關(guān)系抽取方法,利用中文百科網(wǎng)站中的關(guān)系信息自動(dòng)構(gòu)建人物關(guān)系知識(shí)庫,采用遠(yuǎn)程監(jiān)督的方法實(shí)現(xiàn)關(guān)系抽取。該方法首先利用Web上已經(jīng)通過半人工化方式形成的在線百科網(wǎng)站自動(dòng)構(gòu)建知識(shí)庫,以獲取盡可能全面且準(zhǔn)確的關(guān)系類型及其人物關(guān)系實(shí)例。接著提取語料庫中所有共現(xiàn)的人名對(duì)以及上下文特征,并將人名對(duì)與知識(shí)庫中關(guān)系實(shí)例相互匹配,得到標(biāo)記關(guān)系的人名對(duì)集合和未標(biāo)記的人名對(duì)集合。最后,引入標(biāo)簽傳播算法實(shí)現(xiàn)未標(biāo)記人名對(duì)的關(guān)系匹配,從而實(shí)現(xiàn)人物關(guān)系抽取。
[0005]實(shí)現(xiàn)本發(fā)明目的的具體技術(shù)方案是:
一種利用中文在線資源實(shí)現(xiàn)遠(yuǎn)程監(jiān)督人物關(guān)系抽取的方法,該方法包括以下具體步
驟:I)構(gòu)建人物關(guān)系知識(shí)庫D,利用中文在線百科中人名詞條下的人物關(guān)系信息自動(dòng)構(gòu)建知識(shí)庫;具體包括:
利用中文在線百科來構(gòu)建知識(shí)庫,以人名P11為關(guān)鍵字提交到在線百科網(wǎng)站的搜索入
口,則顯示有關(guān)P11大量信息的頁面,其中包括Pa的人際關(guān)系信息,并以列表形式呈現(xiàn)在網(wǎng)頁
中。提取出Pn的人物關(guān)系信息并存入結(jié)構(gòu)為三元組< P1.Pj.r >的D中,其中pt、Pj為人名,r表示人物關(guān)系描述詞。利用網(wǎng)絡(luò)爬蟲的程序不斷獲得新的人名詞條的人物關(guān)系信息,構(gòu)建大規(guī)模的知識(shí)庫D。
[0006]2)對(duì)待抽取人物關(guān)系的語料庫(生語料庫)進(jìn)行標(biāo)記處理,具體包括:
首先對(duì)語料庫進(jìn)行預(yù)處理,包括分句、分詞、詞性標(biāo)注以及人名識(shí)別。抽取出包含至少
兩個(gè)人名的句子,并提取句子中的所有相鄰且詞距不超過設(shè)定閾值的人名對(duì)< P1.Pj >及其
上下文窗口中的文本信息Cpre、Cmit^PCptist ,其中^表示句子中n.前的詞語集合Y表示
FJ.和D之間的詞語集合Y 表示D后的詞語集合。對(duì)每一個(gè)< Pi, Pj >,依次查找在知識(shí)庫中
是否存在,若存在,則將該人名對(duì)標(biāo)記上對(duì)應(yīng)的關(guān)系I并添加到標(biāo)記人物對(duì)集合L中;若不存在,則將該人名對(duì)添加到未標(biāo)記的人物對(duì)集合U中。
[0007]3)采用標(biāo)簽傳播算法實(shí)現(xiàn)為U中人物對(duì)匹配最可能的關(guān)系I' ,且r e Rt, Rl表示標(biāo)記人名對(duì)集合L中所有關(guān)系類型的集合,具體包括:
采用標(biāo)簽傳播算法,并簡化其中已標(biāo)記的樣本數(shù)據(jù),在集合L中根據(jù)Rli將人名對(duì)分成丨Rd類。在構(gòu)造轉(zhuǎn)移矩陣T和標(biāo)簽矩陣Y時(shí),將其中的已標(biāo)記樣本節(jié)點(diǎn)替換成為關(guān)系類型節(jié)點(diǎn)。具體來說,mXm的矩陣T中的每個(gè)元素根據(jù)公式(I) (2) (3)計(jì)算,其中m = Iiy+ |?|,S(r)表示標(biāo)記為關(guān)手I的所有人名對(duì)集合,sim(i,I)是指人名對(duì)〖和人名對(duì)丨之間的相似度。
由計(jì)算公式可知,轉(zhuǎn)移矩陣T是一個(gè)對(duì)稱矩陣。MCIRlI +丨Ul) X IRlI的矩陣Y,前IRlI行為單位矩陣,由于Y最終收斂,后_行的值可隨機(jī)取值。
【權(quán)利要求】
1.一種利用中文在線資源實(shí)現(xiàn)遠(yuǎn)程監(jiān)督人物關(guān)系抽取的方法,其特征在于該方法包括以下具體步驟: O構(gòu)建人物關(guān)系知識(shí)庫D ,具體包括: 利用中文在線百科來構(gòu)建知識(shí)庫,以人名1為關(guān)鍵字提交到在線百科網(wǎng)站的搜索入口,則顯示有關(guān)Pr大量信息的頁面,其中包括Pe的人際關(guān)系信息,并以列表形式呈現(xiàn)在網(wǎng)頁中;提取出Pn的人物關(guān)系信息并以此構(gòu)建相同結(jié)構(gòu)的人物關(guān)系知識(shí)庫D,其中K、Pj為人名, 表示人物關(guān)系描述詞; 2)對(duì)待抽取人物關(guān)系的語料庫即生語料庫進(jìn)行標(biāo)記處理,具體包括: 對(duì)語料庫進(jìn)行預(yù)處理,包括分句、分詞、詞性標(biāo)注以及人名識(shí)別;抽取出包含至少兩個(gè)人名的句子,并提取句子中的所有相鄰且詞距不超過所定閾值的人名對(duì)< P1.Pi >及其上下文窗口中的文本信息Cpre、Cmid和Cpnst,其中-表不句子中前的詞語集合,表不和PiCmid Pi之間的詞語集合,P 表示后的詞語集合;對(duì)每一f<Pi1.Pi >,依次查找在知識(shí)庫中是PiCpost Pj -否存在,若存在,則將該人名對(duì)標(biāo)記上對(duì)應(yīng)的關(guān)系 ,并添加到標(biāo)記人物對(duì)集合L中;若不存在,則將該人名對(duì)添加到未標(biāo)記的人物對(duì)集合U中; 3)采用標(biāo)簽傳播算法實(shí)現(xiàn)為未標(biāo)記的人物對(duì)集合U中人物對(duì)匹配最可能的關(guān)系 ,且r e ,Rli表示標(biāo)記人名對(duì)集合L中所有關(guān)系類型的集合,具體包括: 利用標(biāo)簽傳播算法,并簡化其中已標(biāo)記的樣本數(shù)據(jù),在集合L中根據(jù)Rti將人名對(duì)分成IRd類;在構(gòu)造轉(zhuǎn)移矩陣T和標(biāo)簽矩陣Y時(shí),將其中的已標(biāo)記樣本節(jié)點(diǎn)替換成為關(guān)系類型節(jié)點(diǎn);具體來說,m Xm的矩陣T中的每個(gè)元素根據(jù)公式(I) (2) (3)計(jì)算,其中m =丨R1J + _,S(r)表示標(biāo)記為關(guān)系r的所有人名對(duì)集合,Sim(Lj)是指人名對(duì)〗和人名_之間的相似度;由計(jì)算公式可知,轉(zhuǎn)移矩陣T是一個(gè)對(duì)稱矩陣;MCIRlI + !01) X IRlI的矩陣Y,前IRJ行為單位矩陣,由于Y最終收斂,后W行的值可隨機(jī)取值;
【文檔編號(hào)】G06F17/30GK104035975SQ201410219184
【公開日】2014年9月10日 申請(qǐng)日期:2014年5月23日 優(yōu)先權(quán)日:2014年5月23日
【發(fā)明者】楊靜, 潘云, 郝娟, 楊辰翌, 黃保荃 申請(qǐng)人:華東師范大學(xué)