基于實(shí)體的文本數(shù)據(jù)與xml文檔的匹配方法

文檔序號：9911107閱讀：408來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于實(shí)體的文本數(shù)據(jù)與xml文檔的匹配方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)集成技術(shù)領(lǐng)域，特別涉及一種利用實(shí)體抽取技術(shù)，針對文本數(shù)據(jù) 與可擴(kuò)展標(biāo)記語言(XML，EXtensible Markup Language)文檔進(jìn)行匹配以實(shí)現(xiàn)數(shù)據(jù)集成的方法。
【背景技術(shù)】
[0002] 在大數(shù)據(jù)的時代，很多企業(yè)采用大數(shù)據(jù)技術(shù)對各類數(shù)據(jù)進(jìn)行集中統(tǒng)一分析，然而大數(shù)據(jù)技術(shù)的前提是高效的數(shù)據(jù)集成。要為企業(yè)提供全面的數(shù)據(jù)共享，就需要把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中。
[0003] 數(shù)據(jù)集成為各種異構(gòu)數(shù)據(jù)提供統(tǒng)一的表示、存儲和管理。數(shù)據(jù)集成屏蔽了異構(gòu)數(shù) 據(jù)之間的差異，通過異構(gòu)數(shù)據(jù)集成系統(tǒng)統(tǒng)一操作。現(xiàn)有的異構(gòu)數(shù)據(jù)集成的體系結(jié)構(gòu)有三種：聯(lián)邦數(shù)據(jù)庫、中間件結(jié)構(gòu)和數(shù)據(jù)倉庫結(jié)構(gòu)。其中聯(lián)邦數(shù)據(jù)庫結(jié)構(gòu)和中間件結(jié)構(gòu)需要預(yù)處理數(shù)據(jù)構(gòu)建虛擬視圖，因此屬于虛擬視圖（Virtual view)方法。數(shù)據(jù)倉庫結(jié)構(gòu)則直接將所有數(shù)據(jù)集中在一起，形成新的統(tǒng)一的數(shù)據(jù)源，稱為物化的(Material ized)方法。
[0004] 數(shù)據(jù)集成中基礎(chǔ)的操作之一是模式集成，而大多數(shù)基于模式匹配的需求來源于模式集成。模式匹配的任務(wù)是利用一些相關(guān)信息尋找分布在給定的兩個模式中的元素之間的某種映射關(guān)系(語義對應(yīng)關(guān)系）。由于模式匹配的復(fù)雜性，模式匹配需要使用各種技術(shù)來彌補(bǔ)信息的不足，如利用字典、名稱相似性、公共模式結(jié)構(gòu)、公共值分布、重用映射結(jié)果、約束、常識推理。迄今，各研究團(tuán)體或組織已提出了許多匹配方法和原型系統(tǒng)。例如Cupid [1]， Similarity Flooding[2]，C0MA[3]，LSD[4]，Clio [5]等。
[0005] 異構(gòu)數(shù)據(jù)的集成已經(jīng)得到廣泛的研究，不僅包括關(guān)系數(shù)據(jù)庫間的模式匹配m ，還包括非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)的匹配，例如XML數(shù)據(jù)間的匹配％9，％和文本與關(guān)系數(shù)據(jù)庫間的匹配[11，12，13]等。
[0006] XML數(shù)據(jù)之間的匹配，主要應(yīng)用在對大量的XML文檔進(jìn)行聚類、對異構(gòu)數(shù)據(jù)源進(jìn)行基于XML的匹配等方面。由于半結(jié)構(gòu)化、可擴(kuò)展的特殊性質(zhì)，XML可以靈活表示各種類型數(shù) 據(jù)。其實(shí)許多關(guān)系數(shù)據(jù)庫模式的匹配算法，其模式也是采用XML作為中間表示。文獻(xiàn)[9]采用一種基于模式匹配的方法進(jìn)行XML模式的聚類。該文的XML模式之間的相似度計算使用了語法匹配器和結(jié)構(gòu)匹配器。文獻(xiàn)[10]則提出了一種XML模式匹配工具Hermes，匹配引擎使用了元素和結(jié)構(gòu)匹配器，其采用RDF庫保存匹配過程的信息。
[0007] 而文本與關(guān)系數(shù)據(jù)庫間的匹配方面，文獻(xiàn)[11]提出的SCORE系統(tǒng)，通過把和用戶語境相關(guān)的附加文件和查詢結(jié)果相關(guān)聯(lián)以改善結(jié)構(gòu)化數(shù)據(jù)檢索效果。文獻(xiàn)[12]提出的ER0CS 系統(tǒng)，將數(shù)據(jù)庫視為一系列實(shí)體，識別出與給定文檔最匹配的實(shí)體，其支持文檔分段匹配不同實(shí)體。文獻(xiàn)[13 ]提出的LIPTUS系統(tǒng)與ER0CS解決的問題類似，ER0CS是面向一般匹配情景的，LIPTUS則緊密結(jié)合實(shí)際需求，針對銀行領(lǐng)域客戶交流情景，通過客戶ID或賬號ID來建立文本和關(guān)系數(shù)據(jù)庫間的關(guān)聯(lián)關(guān)系。LIPTUS分析文本信息自動抽取ID標(biāo)識，然后與客戶信息綁定，實(shí)現(xiàn)用戶行為分析和銀行業(yè)務(wù)規(guī)劃等需求。
[0008] 目前，尚無文獻(xiàn)研究文本數(shù)據(jù)與XML文檔間的匹配方法。實(shí)現(xiàn)非結(jié)構(gòu)化的文本與半結(jié)構(gòu)化的XML數(shù)據(jù)匹配有兩個關(guān)鍵點(diǎn)：文本數(shù)據(jù)的信息抽取，及抽取出的信息與XML文檔的匹配。文本的預(yù)處理我們采用命名實(shí)體抽取方式，文本數(shù)據(jù)的實(shí)體抽取是自然語言處理的一項重要技術(shù)，且應(yīng)用的范圍廣泛，例如社交網(wǎng)絡(luò)事件識別 [14]等。目前大多數(shù)命名實(shí)體抽取研究都基本集中在人名、組織名等幾類上。實(shí)體抽取技術(shù)主要分為兩類:基于規(guī)則和詞典的方法 [15]和基于統(tǒng)計的方法[16，17]。單獨(dú)使用某種方法往往存在不足，因此一般都使用混合方法 [18'19]。實(shí)體信息與XML數(shù)據(jù)的匹配近似XML上的關(guān)鍵字檢索。對大XML文檔的檢索，用戶只需要最小結(jié)果片段，即包含關(guān)鍵字的最低公共祖先(LCA，Lowest Common Ancestors)節(jié) 點(diǎn)。在LCA問題上，基于Dewey編碼的求解方法是XML關(guān)鍵字檢索的常用方法，如XKSearch [2Q]。文獻(xiàn)[20]針對最小結(jié)果片段提出了SLCA(Smallest Lowest Common Ancestor)的定義，即對XML樹的查詢，返回結(jié)果應(yīng)為包含這些關(guān)鍵字的節(jié)點(diǎn)集，且節(jié)點(diǎn)集中的任兩個節(jié)點(diǎn) 間不存在祖孫關(guān)系。文獻(xiàn)[21]提出了 XML關(guān)鍵字查詢中"最緊湊片段"的概念，返回結(jié)果與其它文獻(xiàn)的SLCA子樹不同，其還要求僅包含感興趣的節(jié)點(diǎn)。
[0009] 參考文獻(xiàn)如下：
[0010] [1]Madhavan J,Bernstein PA,Rahm E.Generic Schema Matching with Cupid.VLDB Conference.2001:49-58.
[0011] [2]Melnik S，Molina_Garcia H,Rahm E.Similarity flooding:A versatile graph matching algorithm.ICDE Conference.2002.
[0012] [3]Do HH,Rahm E.C0MA:A System for Flexible Combination of Schema Matching Approaches[C].Proceedings of VLDB,2002,610-621.
[0013] [4]Doan AH，Domingos P,Levy A.Learning source descriptions for data integration.Proc. of the Workshop on the Web and Database.2000.
[0014] [5]Miller RJ,Hernandez MA,Haas LM,Yan L.The Clio Project:Managing Heterogeneity.SIGM0D Record.2001:30(1).
[0015] [6]Rahm E，Bernstein PA.A Survey of Approaches to Automatic Schema Matching[J].The VLDB Journal，2001，10(4):334-350·
[0016] [7]Du Xia〇-kun.Research on Schema matching Algorithm of Database[D] .Huazhong University of Science & Technology,2010.
[0017] [8]Cao Lan-ying,Yan Yi，et al.Automating XML document transformations based on schema matching[J].Computer Engineering and Applications,2012,48 (25):72-76.
[0018] [9]Alsayed A，Eike S，Gunter S.A schema matching-based approach to XML schema clustering[C].Proceedings of iiffAS,2008,131-136.
[0019] [10]Checiu L,Ionescu D.A new algorithm for mapping XML Schema to XMLSchema[C].Proceedings of IEEE ICCC-C0NTI,2010,625-630.
[0020] [ll]Roy P,Mohania M,Bamba B and Raman S.Towards automatic association of relevant unstructured content with structured query results[C].Proceedings of ACM CIKM，2005,405-412.
[0021] [12]Chakaravarthy V，Gupta H，et al.Efficiently Linking Text Documents with Relevant Structured Information[C].Proceedings of VLDB,2006,667-678.
[0022] [13]Bhide M,Gupta A,et al.LIPTUS: Associating Structured and Unstructured Information in a Banking Environment[C].Proceedings of SIGMOD， 2007,915-923.
[0023] [14]Hansu G，Mike G，Liang Z，et al.AnchorMF: towards effective event context identification[C].Proceedings of CIKM,2013,629-638.
[0024] [15]Liu Xian-min, Li Jian-zhong. Key-Based Method for Extracting Entities from XML Data[J].Journal of Computer Research and Development，2014， 51(1):64-75.
[0025] [16]Peng F，McCallum A.Information extraction from research papers using conditional random fields[J]. Information Processing and Management Journal，2006，42(4):963-979.
[0026] [17]Liu Kai, Zhou Xue-zhong,et al. Named Entity Extraction of Traditional Chinese Medicine Medical Records Based on Conditional Random Field[J].Computer Engineering,2014,40(9):312-316.
[0027] [18]Specia L，Motta E.A Hybrid Approach for Extracting Semantic Relations from Texts[C].Proceedings of 0LP,2006,57-64.
[0028] [19]Jiang Ren-hui，Wang Ting，et al.Named Entity Recognition for Micro-blog[J].Computer & Digital Engineering,2014,42(4):647-651.
[0029] [20]Xu Y,Papakonstantinou Y.Efficient keyword search for smallest LCAs in XML databases[C].Proceedings of ACM SIGM0D,2005,527-538.
[0030] [21]Kong L,Gilleron R,L

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔡喁;楊衛(wèi)東;劉木強(qiáng);
技術(shù)所有人：中國民用航空上海航空器適航審定中心;
我是此專利的發(fā)明人

上一篇：頁面資源按需加載的方法及裝置的制造方法
上一篇：一種視頻索引設(shè)置方法和裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于實(shí)體的文本數(shù)據(jù)與xml文檔的匹配方法