亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向中文語(yǔ)言的大規(guī)模本體映射方法

文檔序號(hào):8381027閱讀:1027來(lái)源:國(guó)知局
一種面向中文語(yǔ)言的大規(guī)模本體映射方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及中文本體映射領(lǐng)域。
【背景技術(shù)】
[0002] 語(yǔ)義Web的愿景是建立一數(shù)據(jù)之網(wǎng)Il (Web of Data),以使機(jī)器能夠理解網(wǎng)絡(luò)上 的語(yǔ)義信息。本體作為語(yǔ)義Web的核心元素,是描述特定領(lǐng)域共享概念的形式化、規(guī)范化說(shuō) 明,是實(shí)現(xiàn)網(wǎng)絡(luò)知識(shí)共享和語(yǔ)義互操作的基礎(chǔ)。目前由于不同本體之間存在異構(gòu)性,導(dǎo)致了 本體間的重用和共享變得困難。
[0003] 本體映射(Ontology Alignment)的任務(wù)就是要發(fā)現(xiàn)異構(gòu)本體之間的概念語(yǔ)義關(guān) 聯(lián)。但是由于文化和背景原因,目前尚缺乏成熟的面向中文語(yǔ)言描述的本體映射系統(tǒng)。而隨 著語(yǔ)義網(wǎng)的發(fā)展,大規(guī)模的中文語(yǔ)言描述的本體和知識(shí)庫(kù)也越來(lái)越多地被構(gòu)建和共享。同 時(shí),中文本體映射系統(tǒng)的構(gòu)建尚處于起步階段。因此,本發(fā)明主要解決面向中文描述的大規(guī) 模本體映射系統(tǒng)的構(gòu)建問題。
[0004] 國(guó)內(nèi)外研究人員已提出了多種映射方法和典型系統(tǒng)。文獻(xiàn)[Cohen W, Ravikumar Pj Fienberg S. A comparison of string distance metrics for name-matching tasks[C]. Proceedings of the IJCAI Workshop on Information Integration on the Web (IIWeb). Acapulco, Mexico, 2003: 73-78]中列出了 基于編輯距離和基于 Token的幾種典型元素級(jí)相似度計(jì)算算法,并對(duì)幾種算法的性能進(jìn)行了評(píng)測(cè)。Melnik S 等[Melnik Sj Garcia-Molina Hj Rahm E.Similarity flooding:A versatile graph matching algorithm and its application to schema Matching[C]. Proceedings of the 18th International Conference of Data Engineering (ICDE). San Jose,California,2002:117-128]提出了 一種結(jié)構(gòu)級(jí)本體映射算法:Similarity flooding,該系統(tǒng)利用本體的概念體系構(gòu)造相似度傳播圖,并對(duì)概念之間的相似度進(jìn)行傳 播和修正。Zhong Qian 等[Zhong Qj Li Hj Li Jj Xie Gj Tang Jj Zhou Lj Pan Y. A gauss function based approach for unbalanced ontology matching[C] · Proceedings of the 28th International Conference on Management of Data (SIGMOD). Rhode Island,USA,2009:669-680]開發(fā)了 RiMOM系統(tǒng),該系統(tǒng)基于本體實(shí)例、概念名稱以及本體 結(jié)構(gòu)等特征的多策略映射方式,并通過(guò)引入普適的場(chǎng)論思想,使其適用于大規(guī)模本體的映 射任務(wù)。但其缺乏針對(duì)中文特定語(yǔ)言特點(diǎn)的優(yōu)化。Giunchiglia F等[Giunchiglia F.,Yat skevich M. . Element level semantic matching[D]· Italy:Dept. of Information and Communication Technology University of Trento, 2004]提出基于語(yǔ)言學(xué)方法,并引 入共享知識(shí)詞典(如:WordNet),利用語(yǔ)言關(guān)系進(jìn)行語(yǔ)義關(guān)系發(fā)現(xiàn)。文獻(xiàn)[Isaac A,Meij LjSchlobach SjWang S. An empirical study of instance-based ontology matching[C]. Proceedings of the 6th International Semantic Web Conference and the 2nd Asian Semantic Web Conference(ISWC/ASWC).Busan,Korea,2007:253-266]提出一種實(shí)例級(jí)的 本體映射算法,它根據(jù)本體概念的公共實(shí)例數(shù)量來(lái)度量概念之間的相似度。
[0005] 近年來(lái),大規(guī)模中文本體庫(kù)和本體映射系統(tǒng)構(gòu)建的相關(guān)研究工作正逐步展開。 李佳等提出了一種基于知網(wǎng)(Hownet)的元素層概念相似度計(jì)算的方法,并實(shí)現(xiàn)了一個(gè) 中文本體映射系統(tǒng)[李佳,祝銘,劉辰,等.中文本體映射研究與實(shí)現(xiàn)[J].中文信 息學(xué)報(bào),2007, 21 (4) :27-33],該系統(tǒng)在面對(duì)大規(guī)模本體映射任務(wù)時(shí),其適用性有待驗(yàn) 證。田久樂等提出一種基于同義詞詞林的中文詞語(yǔ)語(yǔ)義相似度計(jì)算算法[田久樂,趙 蔚.基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào),2010,28(6):602-608], 但其成果并未在語(yǔ)義網(wǎng)環(huán)境下應(yīng)用。Wang Zhi-chun等學(xué)者[Z. Wang, Z. Wang, J.Li et al. Knowledge extraction from Chinese wiki encyclopedias[J]. Journal of Zhejiang University-Science C, voI 13, no. 4, pp. 268 - 280, 2012]提出基于中文百科的分類體 系抽取概念間的層次關(guān)系、獲取含有Infobox的詞條web頁(yè)面中的概念屬性及百科詞條 實(shí)例,最終建立起基于百度百科和互動(dòng)百科的兩大中文大規(guī)模本體庫(kù),并根據(jù)簡(jiǎn)單的關(guān) 鍵字匹配策略,與DBpedia建立起實(shí)例間的共指關(guān)系。Niu Xing等[Niu X,Sun X,Wang H, et al. Zhishi. me-weaving Chinese linking open data[C]. ISffC 2011. Springer Berlin Heidelberg, 2011:205-220]研究人員將百度百科、互動(dòng)百科以及中文維基百科 進(jìn)行語(yǔ)義集成,并開發(fā)出基于中文描述的語(yǔ)義web數(shù)據(jù)查詢應(yīng)用系統(tǒng)。Yidong Chen等 [Chen Yidong, Chen Liwei, Xu Kun. Learning Chinese entity attributes from online encyclopedia[C]. APWeb 2012:179-186]提出利用中文百科Infobox中的屬性-值對(duì)信息, 自動(dòng)提取良構(gòu)的訓(xùn)練樣本,進(jìn)而基于統(tǒng)計(jì)學(xué)習(xí)模型從百科的非結(jié)構(gòu)化文本中抽取海量的知 識(shí)三元組,最終構(gòu)建了一個(gè)面向開放域的中文知識(shí)庫(kù)。
[0006] 現(xiàn)有系統(tǒng)存在的不足以及本發(fā)明的主要貢獻(xiàn)為:
[0007] 1)提出一種新的面向中文大規(guī)模本體映射模型的總體框架。
[0008] 目前對(duì)于中文環(huán)境中的語(yǔ)義數(shù)據(jù)集之間的本體概念等價(jià)關(guān)系發(fā)現(xiàn)的研究還較少。 在語(yǔ)義web環(huán)境中,隨著本體的規(guī)模越來(lái)越大,如何保證本體映射的效率就成為亟待解決 的問題。因此,本研究提出的一種面向中文的框架級(jí)本體映射模型。首先,采用基于編輯距 離和同義詞詞林相結(jié)合的多策略融合方法來(lái)計(jì)算待映射本體之間的概念初始相似度。其 次,基于數(shù)據(jù)場(chǎng)理論并以概念初始相似度為輸入,對(duì)待映射本體的規(guī)模進(jìn)行壓縮。最后,根 據(jù)中文概念和百科知識(shí)庫(kù)所含有的語(yǔ)義特征,通過(guò)引入生物信息學(xué)中的序列比對(duì)思想,提 出了一種新的中文本體概念等價(jià)關(guān)系確定性映射策略。
[0009] 2)提出了一種對(duì)大規(guī)模本體映射規(guī)模進(jìn)行壓縮約簡(jiǎn)的新方法。
[0010] 傳統(tǒng)的本體映射系統(tǒng)和方法往往只注重映射結(jié)果,而忽視了映射效率。因此在面 對(duì)大規(guī)模本體映射任務(wù)時(shí),傳統(tǒng)方法顯得實(shí)用性不強(qiáng)。本研究在對(duì)中文大規(guī)模本體進(jìn)行等 價(jià)關(guān)系的確定性映射前,為了將時(shí)間復(fù)雜度控制在可以接受的范圍內(nèi),提出了一種新的數(shù) 據(jù)場(chǎng)勢(shì)函數(shù),并以此為基礎(chǔ),對(duì)大規(guī)模本體首先進(jìn)行映射規(guī)模的約簡(jiǎn)和壓縮。具體來(lái)說(shuō),在 對(duì)原始擬核力場(chǎng)勢(shì)函數(shù)進(jìn)行改進(jìn)的基礎(chǔ)上,基于《同義詞詞林》(擴(kuò)展版),提出一種綜合計(jì) 算概念間語(yǔ)義相似度和相異度值來(lái)衡量數(shù)據(jù)對(duì)象勢(shì)值的新方法,并以此為依據(jù)設(shè)計(jì)了一種 針對(duì)大規(guī)模本體的映射規(guī)模進(jìn)行約簡(jiǎn)的新算法。
[0011] 3)提出了一種基于生物信息學(xué)全局雙序列比對(duì)思想的概念語(yǔ)義相似度計(jì)算新方 法。
[0012] 文獻(xiàn)[Zhong Q,Li H,Li J,Xie G,Tang J,Zhou L,Pan Y. A gauss function based approach for unbalanced ontology matching[C] · Proceedings of the 28th International Conference on Management of Data (SIGMOD). Rhode Island,USA,2009:669-680]的研究工作目前只適用于基于英文描述的本體及其映射任務(wù), 而其缺乏對(duì)多語(yǔ)言本體的支持,特別是沒有針對(duì)中文本體的特點(diǎn)進(jìn)行優(yōu)化。同時(shí),傳統(tǒng)的中 文本體映射系統(tǒng)中的概念相似度計(jì)算方法并未考慮組合概念中的原子概念順序差異及一 詞多義現(xiàn)象對(duì)構(gòu)建兩個(gè)組合概念之間映射關(guān)系質(zhì)量的影響,而忽視
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1