一種基于本體的中文人名消歧方法

文檔序號(hào)：6503324閱讀：164來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于本體的中文人名消歧方法
【專利摘要】本發(fā)明提供了一種基于本體的中文人名消歧方法，包括以下步驟：定義人物屬性，定義出人物本體中涉及的概念、屬性和關(guān)系；構(gòu)建人物本體，根據(jù)人物的屬性信息，定義一個(gè)底層、詳細(xì)的應(yīng)用本體，將人物本體定義為一個(gè)四元組PO＝{C，P，R，I}，其中，C代表概念或類的集合，P代表數(shù)據(jù)屬性或?qū)ο髮傩缘募?，R代表概念之間、概念與概念的實(shí)例之間、概念與屬性之間的關(guān)系集合，I代表實(shí)例集合，R代表四類核心關(guān)系：種類關(guān)系、部分關(guān)系、實(shí)例關(guān)系和屬性關(guān)系，基于本發(fā)明的一種基于本體的中文人名消歧方法，可以有效解決中文人名的實(shí)體鏈接問題，較好的解決了人名誤匹的問題，提高了識(shí)別效果。
【專利說明】一種基于本體的中文人名消歧方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理領(lǐng)域，具體地是通過構(gòu)建人物本體將中文人名和其擁有的屬性信息建立聯(lián)系，實(shí)現(xiàn)人名與真實(shí)實(shí)體之間的鏈接，以消解人名關(guān)鍵詞的歧義的技術(shù)。

【背景技術(shù)】
[0002]人名消歧逐漸成為搜索資源的熱點(diǎn)，人名歧義給人名查詢、人物關(guān)系挖掘、敏感人物的信息過濾等應(yīng)用上帶來了眾多不利的影響，當(dāng)進(jìn)行檢索時(shí)，搜索引擎會(huì)返回大量包含該人名的網(wǎng)頁，而且這些網(wǎng)頁可能描述多個(gè)實(shí)體，同時(shí)人名有很高的歧義性，多人同名或者非人名。因此，近年來國內(nèi)外開始逐步關(guān)注于人名消歧任務(wù)的研究。目前現(xiàn)有的方法大都是利用文檔中的特征信息對(duì)出現(xiàn)人名的文檔進(jìn)行聚類，即將指向同一個(gè)人的文檔集聚成一個(gè)個(gè)單獨(dú)的類。然而，如何確定文檔中出現(xiàn)的歧義人名所指向的現(xiàn)實(shí)生活當(dāng)中的特定的人，仍然是一個(gè)亟待解決的問題。
[0003]本發(fā)明是基于斯坦福大學(xué)開發(fā)SUMO (Suggested Upper Merged Ontology)的本體構(gòu)建“七步法”，以及人物的各種屬性名稱(如國籍、職業(yè)等)，來對(duì)人物本體中的概念及其層次結(jié)構(gòu)等方面進(jìn)行定義，創(chuàng)建一個(gè)人體實(shí)例的知識(shí)庫，主要針對(duì)人名詞條在百度百科中的百科名片半結(jié)構(gòu)(例如:姚明這樣的名人)和人物簡介非結(jié)構(gòu)(例如:王偉這樣的普通人)這兩類信息，分別研究出基于HTML結(jié)構(gòu)特征、基于自然語言理解和規(guī)則相結(jié)合這兩類方式來對(duì)人物屬性信息進(jìn)行抽取，再利用Jena對(duì)抽取的信息本體實(shí)例化，建立一個(gè)樹結(jié)構(gòu),從人物本體的概念層級(jí)和屬性值層級(jí)上來研究人物本體實(shí)例之間的相似性,再結(jié)合人物實(shí)例的總體相似度衡量。
[0004]有鑒于此，發(fā)明人提供了一種基于本體的中文人名消歧方法。

【發(fā)明內(nèi)容】

[0005]針對(duì)現(xiàn)有技術(shù)中的缺陷，本發(fā)明提供了一種基于本體的中文人名消歧方法，克服了現(xiàn)有技術(shù)的困難，根據(jù)網(wǎng)絡(luò)信息先構(gòu)建人物本體，當(dāng)有人物信息時(shí)，提取其信息模塊，創(chuàng)建人物實(shí)例，并與本體里的信息進(jìn)行匹配，名字與目標(biāo)實(shí)體列表中的相應(yīng)實(shí)體的定義進(jìn)行鏈接。例如，“姚明周圍的文本，如“《前門情思大碗茶》”、“劉曉慶”等與當(dāng)前人名有關(guān)的信息”，可以確定其是作曲家姚明，而不是鎖定在籃球運(yùn)動(dòng)員姚明。
[0006]根據(jù)本發(fā)明的一個(gè)方面，提供一種基于本體的中文人名消歧方法，包括以下步驟:
[0007]定義人物屬性，定義出人物本體中涉及的概念、屬性和關(guān)系；
[0008]定義人物本體的概念及其結(jié)構(gòu)，創(chuàng)建實(shí)體這個(gè)頂層類，再在其下層添加抽象和物質(zhì)兩大子類；
[0009]定義人物本體的屬性，屬性包括兩個(gè)部分:數(shù)據(jù)屬性和對(duì)象屬性；
[0010]抽取人物屬性；
[0011 ] 人名實(shí)例化，將人物本體中所有的概念創(chuàng)建相應(yīng)的實(shí)例，主要是對(duì)本體中的概念所關(guān)聯(lián)的屬性進(jìn)行賦值；
[0012]人物本體實(shí)例樹匹配，通過在本體的概念層級(jí)上度量人物實(shí)例間的相似度以及在本體的屬性值層級(jí)上度量人物實(shí)例間的相似度來衡量人物實(shí)例間的總體相似度；
[0013]相似度排序；以及
[0014]鏈接人名到最相似的人物實(shí)例。
[0015]優(yōu)選地，所述人物屬性為人物所具有的特征集合，包含人物名稱屬性、人物基本屬性、人物介紹性屬性、人物社會(huì)。
[0016]優(yōu)選地，物質(zhì)類下層定義人物這個(gè)概念實(shí)體，代表人物自身；
[0017]抽象類下層繼續(xù)構(gòu)建屬性類，并在其下層，即中間層級(jí)上，繼續(xù)添加人物名稱、基本屬性、介紹性信息、聯(lián)系方式、值類、個(gè)人關(guān)系這六大概念類，將人物本體組織成一個(gè)具有上下位關(guān)系的樹狀結(jié)構(gòu)。
[0018]優(yōu)選地，所述抽取人物屬性包括半結(jié)構(gòu)文本的屬性抽取，從網(wǎng)頁中的所有百科名片中抽取出人物的基本信息，并轉(zhuǎn)換為一種自定義的有結(jié)構(gòu)的可擴(kuò)展標(biāo)記語言頁面，主要將超文本標(biāo)記語言結(jié)構(gòu)的方式和半結(jié)構(gòu)化文本抽取方式結(jié)合，搜集由人名對(duì)應(yīng)的百科頁面，對(duì)源碼解析，確定所抽取的信息塊，分析信息塊的特征及超文本標(biāo)記語言特征標(biāo)簽，歸納總結(jié)信息項(xiàng)的抽取規(guī)則，用于后續(xù)的大批量的百科頁面的信息抽取。
[0019]優(yōu)選地，所述抽取人物屬性包括非結(jié)構(gòu)文本的屬性抽取，通過非結(jié)構(gòu)的人物簡介來描述人物的相關(guān)信息。
[0020]優(yōu)選地，從三個(gè)方面來定義每個(gè)屬性的抽取規(guī)則:屬性信息的前后觸發(fā)詞、屬性信息的自身特征以及屬性信息的左右邊界。
[0021]優(yōu)選地，在本體的概念層級(jí)上度量人物實(shí)例間的相似度的計(jì)算公式如下:
[0022]

【權(quán)利要求】
1.一種基于本體的中文人名消歧方法，其特征在于，包括以下步驟: 定義人物屬性，定義出人物本體中涉及的概念、屬性和關(guān)系；定義人物本體的概念及其結(jié)構(gòu)，創(chuàng)建實(shí)體這個(gè)頂層類，再在其下層添加抽象和物質(zhì)兩大子類；定義人物本體的屬性，屬性包括兩個(gè)部分:數(shù)據(jù)屬性和對(duì)象屬性；抽取人物屬性；人名實(shí)例化，將人物本體中所有的概念創(chuàng)建相應(yīng)的實(shí)例，主要是對(duì)本體中的概念所關(guān)聯(lián)的屬性進(jìn)行賦值；人物本體實(shí)例樹匹配，通過在本體的概念層級(jí)上度量人物實(shí)例間的相似度以及在本體的屬性值層級(jí)上度量人物實(shí)例間的相似度來衡量人物實(shí)例間的總體相似度；相似度排序；以及鏈接人名到最相似的人物實(shí)例。
2.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法，其特征在于:所述人物屬性為人物所具有的特征集合，包含人物名稱屬性、人物基本屬性、人物介紹性屬性、人物社
O
3.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法，其特征在于:所述物質(zhì)類下層定義人物這個(gè)概念實(shí)體，代表人物自身；抽象類下層繼續(xù)構(gòu)建屬性類，并在其下層，即中間層級(jí)上，繼續(xù)添加人物名稱、基本屬性、介紹性信息、聯(lián)系方式、值類、個(gè)人關(guān)系這六大概念類，將人物本體組織成一個(gè)具有上下位關(guān)系的樹狀結(jié)構(gòu)。
4.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法，其特征在于:所述抽取人物屬性包括半結(jié)構(gòu)文本的屬性抽取，從網(wǎng)頁中的所有百科名片中抽取出人物的基本信息，并轉(zhuǎn)換為一種自定義的有結(jié)構(gòu)的可擴(kuò)展標(biāo)記語言頁面，主要將超文本標(biāo)記語言結(jié)構(gòu)的方式和半結(jié)構(gòu)化文本抽取方式結(jié)合，搜集由人名對(duì)應(yīng)的百科頁面，對(duì)源碼解析，確定所抽取的信息塊，分析信息塊的特征及超文本標(biāo)記語言特征標(biāo)簽，歸納總結(jié)信息項(xiàng)的抽取規(guī)則，用于后續(xù)的大批量的百科頁面的信息抽取。
5.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法，其特征在于:所述抽取人物屬性包括非結(jié)構(gòu)文本的屬性抽取，通過非結(jié)構(gòu)的人物簡介來描述人物的相關(guān)信息。
6.如權(quán)利要求5所述的一種基于本體的中文人名消歧方法，其特征在于:從三個(gè)方面來定義每個(gè)屬性的抽取規(guī)則:屬性信息的前后觸發(fā)詞、屬性信息的自身特征以及屬性信息的左右邊界。
7.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法，其特征在于:在所述本體的概念層級(jí)上度量人物實(shí)例間的相似度的計(jì)算公式如下:
I[ 分別表示Cl, C2集合中的任意概念節(jié)點(diǎn)；sim (cj_，(4)表示概念節(jié)點(diǎn)對(duì)之間的相似性Aimc^P1, P2)表示兩個(gè)人物實(shí)例Pl和P2在本體的概念層級(jí)上的相似性。
8.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法，其特征在于:在所述本體的屬性值層級(jí)上度量人物實(shí)例間的相似度的計(jì)算公式如下:
ξ, g分別表示I1, I2集合中的任意屬性值節(jié)點(diǎn)；ν?ρ, vlq分別巧，g這兩個(gè)任意屬性值節(jié)點(diǎn)中的某個(gè)值;wv為賦予給某個(gè)屬性值的權(quán)重；SVlp，SV2q分別表示屬性值Vlp和V2q中包含的詞的集合。
9.如權(quán)利要求1所述的一種基于本體的中文人名消歧方法，其特征在于:所述衡量人物實(shí)例間的總體相似度包括設(shè)P1與P2之間的一個(gè)匹配對(duì)為M = (P1, P2)，最終兩個(gè)人物實(shí)例之間的總體相似度的計(jì)算公式如下:
Simp (P1, P2) = ffc*Simc (P1, P2) + (1-Wc) ^Simi (P1, P2) 若兩樹之間的相似度超過一個(gè)預(yù)設(shè)的閾值，則判定這兩個(gè)樹是相似的。
【文檔編號(hào)】G06F17/30GK104182420SQ201310202444
【公開日】2014年12月3日申請日期:2013年5月27日優(yōu)先權(quán)日:2013年5月27日
【發(fā)明者】呂釗, 羅年潔申請人:華東師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：呂釗;羅年潔
技術(shù)所有人：華東師范大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

消防接口本體相關(guān)技術(shù)

詞義消歧相關(guān)技術(shù)

實(shí)體消歧相關(guān)技術(shù)

消費(fèi)歧視相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于本體的中文人名消歧方法