一種基于本體的中文人名消歧方法
【專利摘要】本發(fā)明提供了一種基于本體的中文人名消歧方法,包括以下步驟:定義人物屬性,定義出人物本體中涉及的概念、屬性和關(guān)系;構(gòu)建人物本體,根據(jù)人物的屬性信息,定義一個(gè)底層、詳細(xì)的應(yīng)用本體,將人物本體定義為一個(gè)四元組PO={C,P,R,I},其中,C代表概念或類的集合,P代表數(shù)據(jù)屬性或?qū)ο髮傩缘募?,R代表概念之間、概念與概念的實(shí)例之間、概念與屬性之間的關(guān)系集合,I代表實(shí)例集合,R代表四類核心關(guān)系:種類關(guān)系、部分關(guān)系、實(shí)例關(guān)系和屬性關(guān)系,基于本發(fā)明的一種基于本體的中文人名消歧方法,可以有效解決中文人名的實(shí)體鏈接問題,較好的解決了人名誤匹的問題,提高了識(shí)別效果。
【專利說明】一種基于本體的中文人名消歧方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理領(lǐng)域,具體地是通過構(gòu)建人物本體將中文人名和其擁有的屬性信息建立聯(lián)系,實(shí)現(xiàn)人名與真實(shí)實(shí)體之間的鏈接,以消解人名關(guān)鍵詞的歧義的技術(shù)。
【背景技術(shù)】
[0002]人名消歧逐漸成為搜索資源的熱點(diǎn),人名歧義給人名查詢、人物關(guān)系挖掘、敏感人物的信息過濾等應(yīng)用上帶來了眾多不利的影響,當(dāng)進(jìn)行檢索時(shí),搜索引擎會(huì)返回大量包含該人名的網(wǎng)頁,而且這些網(wǎng)頁可能描述多個(gè)實(shí)體,同時(shí)人名有很高的歧義性,多人同名或者非人名。因此,近年來國內(nèi)外開始逐步關(guān)注于人名消歧任務(wù)的研究。目前現(xiàn)有的方法大都是利用文檔中的特征信息對(duì)出現(xiàn)人名的文檔進(jìn)行聚類,即將指向同一個(gè)人的文檔集聚成一個(gè)個(gè)單獨(dú)的類。然而,如何確定文檔中出現(xiàn)的歧義人名所指向的現(xiàn)實(shí)生活當(dāng)中的特定的人,仍然是一個(gè)亟待解決的問題。
[0003]本發(fā)明是基于斯坦福大學(xué)開發(fā)SUMO (Suggested Upper Merged Ontology)的本體構(gòu)建“七步法”,以及人物的各種屬性名稱(如國籍、職業(yè)等),來對(duì)人物本體中的概念及其層次結(jié)構(gòu)等方面進(jìn)行定義,創(chuàng)建一個(gè)人體實(shí)例的知識(shí)庫,主要針對(duì)人名詞條在百度百科中的百科名片半結(jié)構(gòu)(例如:姚明這樣的名人)和人物簡介非結(jié)構(gòu)(例如:王偉這樣的普通人)這兩類信息,分別研究出基于HTML結(jié)構(gòu)特征、基于自然語言理解和規(guī)則相結(jié)合這兩類方式來對(duì)人物屬性信息進(jìn)行抽取,再利用Jena對(duì)抽取的信息本體實(shí)例化,建立一個(gè)樹結(jié)構(gòu),從人物本體的概念層級(jí)和屬性值層級(jí)上來研究人物本體實(shí)例之間的相似性,再結(jié)合人物實(shí)例的總體相似度衡量。
[0004]有鑒于此,發(fā)明人提供了一種基于本體的中文人名消歧方法。
【發(fā)明內(nèi)容】
[0005]針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供了一種基于本體的中文人名消歧方法,克服了現(xiàn)有技術(shù)的困難,根據(jù)網(wǎng)絡(luò)信息先構(gòu)建人物本體,當(dāng)有人物信息時(shí),提取其信息模塊,創(chuàng)建人物實(shí)例,并與本體里的信息進(jìn)行匹配,名字與目標(biāo)實(shí)體列表中的相應(yīng)實(shí)體的定義進(jìn)行鏈接。例如,“姚明周圍的文本,如“《前門情思大碗茶》”、“劉曉慶”等與當(dāng)前人名有關(guān)的信息”,可以確定其是作曲家姚明,而不是鎖定在籃球運(yùn)動(dòng)員姚明。
[0006]根據(jù)本發(fā)明的一個(gè)方面,提供一種基于本體的中文人名消歧方法,包括以下步驟:
[0007]定義人物屬性,定義出人物本體中涉及的概念、屬性和關(guān)系;
[0008]定義人物本體的概念及其結(jié)構(gòu),創(chuàng)建實(shí)體這個(gè)頂層類,再在其下層添加抽象和物質(zhì)兩大子類;
[0009]定義人物本體的屬性,屬性包括兩個(gè)部分:數(shù)據(jù)屬性和對(duì)象屬性;
[0010]抽取人物屬性;
[0011 ] 人名實(shí)例化,將人物本體中所有的概念創(chuàng)建相應(yīng)的實(shí)例,主要是對(duì)本體中的概念所關(guān)聯(lián)的屬性進(jìn)行賦值;
[0012]人物本體實(shí)例樹匹配,通過在本體的概念層級(jí)上度量人物實(shí)例間的相似度以及在本體的屬性值層級(jí)上度量人物實(shí)例間的相似度來衡量人物實(shí)例間的總體相似度;
[0013]相似度排序;以及
[0014]鏈接人名到最相似的人物實(shí)例。
[0015]優(yōu)選地,所述人物屬性為人物所具有的特征集合,包含人物名稱屬性、人物基本屬性、人物介紹性屬性、人物社會(huì)。
[0016]優(yōu)選地,物質(zhì)類下層定義人物這個(gè)概念實(shí)體,代表人物自身;
[0017]抽象類下層繼續(xù)構(gòu)建屬性類,并在其下層,即中間層級(jí)上,繼續(xù)添加人物名稱、基本屬性、介紹性信息、聯(lián)系方式、值類、個(gè)人關(guān)系這六大概念類,將人物本體組織成一個(gè)具有上下位關(guān)系的樹狀結(jié)構(gòu)。
[0018]優(yōu)選地,所述抽取人物屬性包括半結(jié)構(gòu)文本的屬性抽取,從網(wǎng)頁中的所有百科名片中抽取出人物的基本信息,并轉(zhuǎn)換為一種自定義的有結(jié)構(gòu)的可擴(kuò)展標(biāo)記語言頁面,主要將超文本標(biāo)記語言結(jié)構(gòu)的方式和半結(jié)構(gòu)化文本抽取方式結(jié)合,搜集由人名對(duì)應(yīng)的百科頁面,對(duì)源碼解析,確定所抽取的信息塊,分析信息塊的特征及超文本標(biāo)記語言特征標(biāo)簽,歸納總結(jié)信息項(xiàng)的抽取規(guī)則,用于后續(xù)的大批量的百科頁面的信息抽取。
[0019]優(yōu)選地,所述抽取人物屬性包括非結(jié)構(gòu)文本的屬性抽取,通過非結(jié)構(gòu)的人物簡介來描述人物的相關(guān)信息。
[0020]優(yōu)選地,從三個(gè)方面來定義每個(gè)屬性的抽取規(guī)則:屬性信息的前后觸發(fā)詞、屬性信息的自身特征以及屬性信息的左右邊界。
[0021]優(yōu)選地,在本體的概念層級(jí)上度量人物實(shí)例間的相似度的計(jì)算公式如下:
[0022]
【權(quán)利要求】
1.一種基于本體的中文人名消歧方法,其特征在于,包括以下步驟: 定義人物屬性,定義出人物本體中涉及的概念、屬性和關(guān)系; 定義人物本體的概念及其結(jié)構(gòu),創(chuàng)建實(shí)體這個(gè)頂層類,再在其下層添加抽象和物質(zhì)兩大子類; 定義人物本體的屬性,屬性包括兩個(gè)部分:數(shù)據(jù)屬性和對(duì)象屬性; 抽取人物屬性; 人名實(shí)例化,將人物本體中所有的概念創(chuàng)建相應(yīng)的實(shí)例,主要是對(duì)本體中的概念所關(guān)聯(lián)的屬性進(jìn)行賦值; 人物本體實(shí)例樹匹配,通過在本體的概念層級(jí)上度量人物實(shí)例間的相似度以及在本體的屬性值層級(jí)上度量人物實(shí)例間的相似度來衡量人物實(shí)例間的總體相似度; 相似度排序;以及 鏈接人名到最相似的人物實(shí)例。
2.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述人物屬性為人物所具有的特征集合,包含人物名稱屬性、人物基本屬性、人物介紹性屬性、人物社
O
3.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述物質(zhì)類下層定義人物這個(gè)概念實(shí)體,代表人物自身; 抽象類下層繼續(xù)構(gòu)建屬性類,并在其下層,即中間層級(jí)上,繼續(xù)添加人物名稱、基本屬性、介紹性信息、聯(lián)系方式、值類、個(gè)人關(guān)系這六大概念類,將人物本體組織成一個(gè)具有上下位關(guān)系的樹狀結(jié)構(gòu)。
4.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述抽取人物屬性包括半結(jié)構(gòu)文本的屬性抽取,從網(wǎng)頁中的所有百科名片中抽取出人物的基本信息,并轉(zhuǎn)換為一種自定義的有結(jié)構(gòu)的可擴(kuò)展標(biāo)記語言頁面,主要將超文本標(biāo)記語言結(jié)構(gòu)的方式和半結(jié)構(gòu)化文本抽取方式結(jié)合,搜集由人名對(duì)應(yīng)的百科頁面,對(duì)源碼解析,確定所抽取的信息塊,分析信息塊的特征及超文本標(biāo)記語言特征標(biāo)簽,歸納總結(jié)信息項(xiàng)的抽取規(guī)則,用于后續(xù)的大批量的百科頁面的信息抽取。
5.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述抽取人物屬性包括非結(jié)構(gòu)文本的屬性抽取,通過非結(jié)構(gòu)的人物簡介來描述人物的相關(guān)信息。
6.如權(quán)利要求5所述的一種基于本體的中文人名消歧方法,其特征在于:從三個(gè)方面來定義每個(gè)屬性的抽取規(guī)則:屬性信息的前后觸發(fā)詞、屬性信息的自身特征以及屬性信息的左右邊界。
7.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:在所述本體的概念層級(jí)上度量人物實(shí)例間的相似度的計(jì)算公式如下:
I[ 分別表示Cl, C2集合中的任意概念節(jié)點(diǎn);sim (cj_,(4)表示概念節(jié)點(diǎn)對(duì)之間的相似性Aimc^P1, P2)表示兩個(gè)人物實(shí)例Pl和P2在本體的概念層級(jí)上的相似性。
8.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:在所述本體的屬性值層級(jí)上度量人物實(shí)例間的相似度的計(jì)算公式如下:
ξ, g分別表示I1, I2集合中的任意屬性值節(jié)點(diǎn);ν?ρ, vlq分別巧,g這兩個(gè)任意屬性值節(jié)點(diǎn)中的某個(gè)值;wv為賦予給某個(gè)屬性值的權(quán)重;SVlp,SV2q分別表示屬性值Vlp和V2q中包含的詞的集合。
9.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法,其特征在于:所述衡量人物實(shí)例間的總體相似度包括設(shè)P1與P2之間的一個(gè)匹配對(duì)為M = (P1, P2),最終兩個(gè)人物實(shí)例之間的總體相似度的計(jì)算公式如下:
Simp (P1, P2) = ffc*Simc (P1, P2) + (1-Wc) ^Simi (P1, P2) 若兩樹之間的相似度超過一個(gè)預(yù)設(shè)的閾值,則判定這兩個(gè)樹是相似的。
【文檔編號(hào)】G06F17/30GK104182420SQ201310202444
【公開日】2014年12月3日 申請日期:2013年5月27日 優(yōu)先權(quán)日:2013年5月27日
【發(fā)明者】呂釗, 羅年潔 申請人:華東師范大學(xué)