一種面向中文語(yǔ)言的大規(guī)模本體映射方法

文檔序號(hào)：8381027閱讀：1027來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種面向中文語(yǔ)言的大規(guī)模本體映射方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及中文本體映射領(lǐng)域。
【背景技術(shù)】
[0002] 語(yǔ)義Web的愿景是建立一數(shù)據(jù)之網(wǎng)Il (Web of Data)，以使機(jī)器能夠理解網(wǎng)絡(luò)上的語(yǔ)義信息。本體作為語(yǔ)義Web的核心元素，是描述特定領(lǐng)域共享概念的形式化、規(guī)范化說(shuō) 明，是實(shí)現(xiàn)網(wǎng)絡(luò)知識(shí)共享和語(yǔ)義互操作的基礎(chǔ)。目前由于不同本體之間存在異構(gòu)性，導(dǎo)致了本體間的重用和共享變得困難。
[0003] 本體映射（Ontology Alignment)的任務(wù)就是要發(fā)現(xiàn)異構(gòu)本體之間的概念語(yǔ)義關(guān) 聯(lián)。但是由于文化和背景原因，目前尚缺乏成熟的面向中文語(yǔ)言描述的本體映射系統(tǒng)。而隨著語(yǔ)義網(wǎng)的發(fā)展，大規(guī)模的中文語(yǔ)言描述的本體和知識(shí)庫(kù)也越來(lái)越多地被構(gòu)建和共享。同時(shí)，中文本體映射系統(tǒng)的構(gòu)建尚處于起步階段。因此，本發(fā)明主要解決面向中文描述的大規(guī) 模本體映射系統(tǒng)的構(gòu)建問題。
[0004] 國(guó)內(nèi)外研究人員已提出了多種映射方法和典型系統(tǒng)。文獻(xiàn)[Cohen W, Ravikumar Pj Fienberg S. A comparison of string distance metrics for name-matching tasks[C]. Proceedings of the IJCAI Workshop on Information Integration on the Web (IIWeb). Acapulco, Mexico, 2003: 73-78]中列出了基于編輯距離和基于 Token的幾種典型元素級(jí)相似度計(jì)算算法，并對(duì)幾種算法的性能進(jìn)行了評(píng)測(cè)。Melnik S 等[Melnik Sj Garcia-Molina Hj Rahm E.Similarity flooding:A versatile graph matching algorithm and its application to schema Matching[C]. Proceedings of the 18th International Conference of Data Engineering (ICDE). San Jose，California，2002:117-128]提出了一種結(jié)構(gòu)級(jí)本體映射算法：Similarity flooding，該系統(tǒng)利用本體的概念體系構(gòu)造相似度傳播圖，并對(duì)概念之間的相似度進(jìn)行傳播和修正。Zhong Qian 等[Zhong Qj Li Hj Li Jj Xie Gj Tang Jj Zhou Lj Pan Y. A gauss function based approach for unbalanced ontology matching[C] · Proceedings of the 28th International Conference on Management of Data (SIGMOD). Rhode Island，USA，2009:669-680]開發(fā)了 RiMOM系統(tǒng)，該系統(tǒng)基于本體實(shí)例、概念名稱以及本體結(jié)構(gòu)等特征的多策略映射方式，并通過(guò)引入普適的場(chǎng)論思想，使其適用于大規(guī)模本體的映射任務(wù)。但其缺乏針對(duì)中文特定語(yǔ)言特點(diǎn)的優(yōu)化。Giunchiglia F等[Giunchiglia F.，Yat skevich M. . Element level semantic matching[D]· Italy:Dept. of Information and Communication Technology University of Trento, 2004]提出基于語(yǔ)言學(xué)方法，并引入共享知識(shí)詞典（如：WordNet)，利用語(yǔ)言關(guān)系進(jìn)行語(yǔ)義關(guān)系發(fā)現(xiàn)。文獻(xiàn)[Isaac A，Meij LjSchlobach SjWang S. An empirical study of instance-based ontology matching[C]. Proceedings of the 6th International Semantic Web Conference and the 2nd Asian Semantic Web Conference(ISWC/ASWC).Busan，Korea，2007:253-266]提出一種實(shí)例級(jí)的本體映射算法，它根據(jù)本體概念的公共實(shí)例數(shù)量來(lái)度量概念之間的相似度。
[0005] 近年來(lái)，大規(guī)模中文本體庫(kù)和本體映射系統(tǒng)構(gòu)建的相關(guān)研究工作正逐步展開。李佳等提出了一種基于知網(wǎng)（Hownet)的元素層概念相似度計(jì)算的方法，并實(shí)現(xiàn)了一個(gè) 中文本體映射系統(tǒng)[李佳，祝銘，劉辰，等.中文本體映射研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào)，2007, 21 (4) :27-33]，該系統(tǒng)在面對(duì)大規(guī)模本體映射任務(wù)時(shí)，其適用性有待驗(yàn) 證。田久樂等提出一種基于同義詞詞林的中文詞語(yǔ)語(yǔ)義相似度計(jì)算算法[田久樂，趙蔚.基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào)，2010,28(6):602-608]，但其成果并未在語(yǔ)義網(wǎng)環(huán)境下應(yīng)用。Wang Zhi-chun等學(xué)者[Z. Wang, Z. Wang, J.Li et al. Knowledge extraction from Chinese wiki encyclopedias[J]. Journal of Zhejiang University-Science C, voI 13, no. 4, pp. 268 - 280, 2012]提出基于中文百科的分類體系抽取概念間的層次關(guān)系、獲取含有Infobox的詞條web頁(yè)面中的概念屬性及百科詞條實(shí)例，最終建立起基于百度百科和互動(dòng)百科的兩大中文大規(guī)模本體庫(kù)，并根據(jù)簡(jiǎn)單的關(guān) 鍵字匹配策略，與DBpedia建立起實(shí)例間的共指關(guān)系。Niu Xing等[Niu X，Sun X，Wang H, et al. Zhishi. me-weaving Chinese linking open data[C]. ISffC 2011. Springer Berlin Heidelberg, 2011:205-220]研究人員將百度百科、互動(dòng)百科以及中文維基百科進(jìn)行語(yǔ)義集成，并開發(fā)出基于中文描述的語(yǔ)義web數(shù)據(jù)查詢應(yīng)用系統(tǒng)。Yidong Chen等 [Chen Yidong, Chen Liwei, Xu Kun. Learning Chinese entity attributes from online encyclopedia[C]. APWeb 2012:179-186]提出利用中文百科Infobox中的屬性-值對(duì)信息，自動(dòng)提取良構(gòu)的訓(xùn)練樣本，進(jìn)而基于統(tǒng)計(jì)學(xué)習(xí)模型從百科的非結(jié)構(gòu)化文本中抽取海量的知識(shí)三元組，最終構(gòu)建了一個(gè)面向開放域的中文知識(shí)庫(kù)。
[0006] 現(xiàn)有系統(tǒng)存在的不足以及本發(fā)明的主要貢獻(xiàn)為：
[0007] 1)提出一種新的面向中文大規(guī)模本體映射模型的總體框架。
[0008] 目前對(duì)于中文環(huán)境中的語(yǔ)義數(shù)據(jù)集之間的本體概念等價(jià)關(guān)系發(fā)現(xiàn)的研究還較少。在語(yǔ)義web環(huán)境中，隨著本體的規(guī)模越來(lái)越大，如何保證本體映射的效率就成為亟待解決的問題。因此，本研究提出的一種面向中文的框架級(jí)本體映射模型。首先，采用基于編輯距離和同義詞詞林相結(jié)合的多策略融合方法來(lái)計(jì)算待映射本體之間的概念初始相似度。其次，基于數(shù)據(jù)場(chǎng)理論并以概念初始相似度為輸入，對(duì)待映射本體的規(guī)模進(jìn)行壓縮。最后，根據(jù)中文概念和百科知識(shí)庫(kù)所含有的語(yǔ)義特征，通過(guò)引入生物信息學(xué)中的序列比對(duì)思想，提出了一種新的中文本體概念等價(jià)關(guān)系確定性映射策略。
[0009] 2)提出了一種對(duì)大規(guī)模本體映射規(guī)模進(jìn)行壓縮約簡(jiǎn)的新方法。
[0010] 傳統(tǒng)的本體映射系統(tǒng)和方法往往只注重映射結(jié)果,而忽視了映射效率。因此在面對(duì)大規(guī)模本體映射任務(wù)時(shí)，傳統(tǒng)方法顯得實(shí)用性不強(qiáng)。本研究在對(duì)中文大規(guī)模本體進(jìn)行等價(jià)關(guān)系的確定性映射前，為了將時(shí)間復(fù)雜度控制在可以接受的范圍內(nèi)，提出了一種新的數(shù) 據(jù)場(chǎng)勢(shì)函數(shù)，并以此為基礎(chǔ)，對(duì)大規(guī)模本體首先進(jìn)行映射規(guī)模的約簡(jiǎn)和壓縮。具體來(lái)說(shuō)，在對(duì)原始擬核力場(chǎng)勢(shì)函數(shù)進(jìn)行改進(jìn)的基礎(chǔ)上，基于《同義詞詞林》（擴(kuò)展版），提出一種綜合計(jì) 算概念間語(yǔ)義相似度和相異度值來(lái)衡量數(shù)據(jù)對(duì)象勢(shì)值的新方法，并以此為依據(jù)設(shè)計(jì)了一種針對(duì)大規(guī)模本體的映射規(guī)模進(jìn)行約簡(jiǎn)的新算法。
[0011] 3)提出了一種基于生物信息學(xué)全局雙序列比對(duì)思想的概念語(yǔ)義相似度計(jì)算新方法。
[0012] 文獻(xiàn)[Zhong Q，Li H，Li J，Xie G，Tang J，Zhou L，Pan Y. A gauss function based approach for unbalanced ontology matching[C] · Proceedings of the 28th International Conference on Management of Data (SIGMOD). Rhode Island，USA，2009:669-680]的研究工作目前只適用于基于英文描述的本體及其映射任務(wù)，而其缺乏對(duì)多語(yǔ)言本體的支持，特別是沒有針對(duì)中文本體的特點(diǎn)進(jìn)行優(yōu)化。同時(shí)，傳統(tǒng)的中文本體映射系統(tǒng)中的概念相似度計(jì)算方法并未考慮組合概念中的原子概念順序差異及一詞多義現(xiàn)象對(duì)構(gòu)建兩個(gè)組合概念之間映射關(guān)系質(zhì)量的影響，而忽視

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王汀;劉經(jīng)緯;蔡萬(wàn)江;
技術(shù)所有人：首都經(jīng)濟(jì)貿(mào)易大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向中文語(yǔ)言的大規(guī)模本體映射方法