基于實(shí)體的文本數(shù)據(jù)與xml文檔的匹配方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)集成技術(shù)領(lǐng)域,特別涉及一種利用實(shí)體抽取技術(shù),針對文本數(shù)據(jù) 與可擴(kuò)展標(biāo)記語言(XML,EXtensible Markup Language)文檔進(jìn)行匹配以實(shí)現(xiàn)數(shù)據(jù)集成的 方法。
【背景技術(shù)】
[0002] 在大數(shù)據(jù)的時代,很多企業(yè)采用大數(shù)據(jù)技術(shù)對各類數(shù)據(jù)進(jìn)行集中統(tǒng)一分析,然而 大數(shù)據(jù)技術(shù)的前提是高效的數(shù)據(jù)集成。要為企業(yè)提供全面的數(shù)據(jù)共享,就需要把不同來源、 格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中。
[0003] 數(shù)據(jù)集成為各種異構(gòu)數(shù)據(jù)提供統(tǒng)一的表示、存儲和管理。數(shù)據(jù)集成屏蔽了異構(gòu)數(shù) 據(jù)之間的差異,通過異構(gòu)數(shù)據(jù)集成系統(tǒng)統(tǒng)一操作。現(xiàn)有的異構(gòu)數(shù)據(jù)集成的體系結(jié)構(gòu)有三種: 聯(lián)邦數(shù)據(jù)庫、中間件結(jié)構(gòu)和數(shù)據(jù)倉庫結(jié)構(gòu)。其中聯(lián)邦數(shù)據(jù)庫結(jié)構(gòu)和中間件結(jié)構(gòu)需要預(yù)處理 數(shù)據(jù)構(gòu)建虛擬視圖,因此屬于虛擬視圖(Virtual view)方法。數(shù)據(jù)倉庫結(jié)構(gòu)則直接將所有 數(shù)據(jù)集中在一起,形成新的統(tǒng)一的數(shù)據(jù)源,稱為物化的(Material ized)方法。
[0004] 數(shù)據(jù)集成中基礎(chǔ)的操作之一是模式集成,而大多數(shù)基于模式匹配的需求來源于模 式集成。模式匹配的任務(wù)是利用一些相關(guān)信息尋找分布在給定的兩個模式中的元素之間的 某種映射關(guān)系(語義對應(yīng)關(guān)系)。由于模式匹配的復(fù)雜性,模式匹配需要使用各種技術(shù)來彌 補(bǔ)信息的不足,如利用字典、名稱相似性、公共模式結(jié)構(gòu)、公共值分布、重用映射結(jié)果、約束、 常識推理。迄今,各研究團(tuán)體或組織已提出了許多匹配方法和原型系統(tǒng)。例如Cupid [1], Similarity Flooding[2],C0MA[3],LSD[4],Clio [5]等。
[0005] 異構(gòu)數(shù)據(jù)的集成已經(jīng)得到廣泛的研究,不僅包括關(guān)系數(shù)據(jù)庫間的模式匹 配m ,還包括非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)的匹配,例如XML數(shù)據(jù)間的匹配%9,%和文本 與關(guān)系數(shù)據(jù)庫間的匹配[11,12,13]等。
[0006] XML數(shù)據(jù)之間的匹配,主要應(yīng)用在對大量的XML文檔進(jìn)行聚類、對異構(gòu)數(shù)據(jù)源進(jìn)行 基于XML的匹配等方面。由于半結(jié)構(gòu)化、可擴(kuò)展的特殊性質(zhì),XML可以靈活表示各種類型數(shù) 據(jù)。其實(shí)許多關(guān)系數(shù)據(jù)庫模式的匹配算法,其模式也是采用XML作為中間表示。文獻(xiàn)[9]采用 一種基于模式匹配的方法進(jìn)行XML模式的聚類。該文的XML模式之間的相似度計算使用了語 法匹配器和結(jié)構(gòu)匹配器。文獻(xiàn)[10]則提出了一種XML模式匹配工具Hermes,匹配引擎使用了 元素和結(jié)構(gòu)匹配器,其采用RDF庫保存匹配過程的信息。
[0007] 而文本與關(guān)系數(shù)據(jù)庫間的匹配方面,文獻(xiàn)[11]提出的SCORE系統(tǒng),通過把和用戶語 境相關(guān)的附加文件和查詢結(jié)果相關(guān)聯(lián)以改善結(jié)構(gòu)化數(shù)據(jù)檢索效果。文獻(xiàn)[12]提出的ER0CS 系統(tǒng),將數(shù)據(jù)庫視為一系列實(shí)體,識別出與給定文檔最匹配的實(shí)體,其支持文檔分段匹配不 同實(shí)體。文獻(xiàn)[13 ]提出的LIPTUS系統(tǒng)與ER0CS解決的問題類似,ER0CS是面向一般匹配情景 的,LIPTUS則緊密結(jié)合實(shí)際需求,針對銀行領(lǐng)域客戶交流情景,通過客戶ID或賬號ID來建立 文本和關(guān)系數(shù)據(jù)庫間的關(guān)聯(lián)關(guān)系。LIPTUS分析文本信息自動抽取ID標(biāo)識,然后與客戶信息 綁定,實(shí)現(xiàn)用戶行為分析和銀行業(yè)務(wù)規(guī)劃等需求。
[0008] 目前,尚無文獻(xiàn)研究文本數(shù)據(jù)與XML文檔間的匹配方法。實(shí)現(xiàn)非結(jié)構(gòu)化的文本與半 結(jié)構(gòu)化的XML數(shù)據(jù)匹配有兩個關(guān)鍵點(diǎn):文本數(shù)據(jù)的信息抽取,及抽取出的信息與XML文檔的 匹配。文本的預(yù)處理我們采用命名實(shí)體抽取方式,文本數(shù)據(jù)的實(shí)體抽取是自然語言處理的 一項重要技術(shù),且應(yīng)用的范圍廣泛,例如社交網(wǎng)絡(luò)事件識別 [14]等。目前大多數(shù)命名實(shí)體抽 取研究都基本集中在人名、組織名等幾類上。實(shí)體抽取技術(shù)主要分為兩類:基于規(guī)則和詞典 的方法 [15]和基于統(tǒng)計的方法[16,17]。單獨(dú)使用某種方法往往存在不足,因此一般都使用混合 方法 [18'19]。實(shí)體信息與XML數(shù)據(jù)的匹配近似XML上的關(guān)鍵字檢索。對大XML文檔的檢索,用戶 只需要最小結(jié)果片段,即包含關(guān)鍵字的最低公共祖先(LCA,Lowest Common Ancestors)節(jié) 點(diǎn)。在LCA問題上,基于Dewey編碼的求解方法是XML關(guān)鍵字檢索的常用方法,如XKSearch [2Q]。文獻(xiàn)[20]針對最小結(jié)果片段提出了SLCA(Smallest Lowest Common Ancestor)的定 義,即對XML樹的查詢,返回結(jié)果應(yīng)為包含這些關(guān)鍵字的節(jié)點(diǎn)集,且節(jié)點(diǎn)集中的任兩個節(jié)點(diǎn) 間不存在祖孫關(guān)系。文獻(xiàn)[21]提出了 XML關(guān)鍵字查詢中"最緊湊片段"的概念,返回結(jié)果與其 它文獻(xiàn)的SLCA子樹不同,其還要求僅包含感興趣的節(jié)點(diǎn)。
[0009] 參考文獻(xiàn)如下:
[0010] [1]Madhavan J,Bernstein PA,Rahm E.Generic Schema Matching with Cupid.VLDB Conference.2001:49-58.
[0011] [2]Melnik S,Molina_Garcia H,Rahm E.Similarity flooding:A versatile graph matching algorithm.ICDE Conference.2002.
[0012] [3]Do HH,Rahm E.C0MA:A System for Flexible Combination of Schema Matching Approaches[C].Proceedings of VLDB,2002,610-621.
[0013] [4]Doan AH,Domingos P,Levy A.Learning source descriptions for data integration.Proc. of the Workshop on the Web and Database.2000.
[0014] [5]Miller RJ,Hernandez MA,Haas LM,Yan L.The Clio Project:Managing Heterogeneity.SIGM0D Record.2001:30(1).
[0015] [6]Rahm E,Bernstein PA.A Survey of Approaches to Automatic Schema Matching[J].The VLDB Journal,2001,10(4):334-350·
[0016] [7]Du Xia〇-kun.Research on Schema matching Algorithm of Database[D] .Huazhong University of Science & Technology,2010.
[0017] [8]Cao Lan-ying,Yan Yi,et al.Automating XML document transformations based on schema matching[J].Computer Engineering and Applications,2012,48 (25):72-76.
[0018] [9]Alsayed A,Eike S,Gunter S.A schema matching-based approach to XML schema clustering[C].Proceedings of iiffAS,2008,131-136.
[0019] [10]Checiu L,Ionescu D.A new algorithm for mapping XML Schema to XMLSchema[C].Proceedings of IEEE ICCC-C0NTI,2010,625-630.
[0020] [ll]Roy P,Mohania M,Bamba B and Raman S.Towards automatic association of relevant unstructured content with structured query results[C].Proceedings of ACM CIKM,2005,405-412.
[0021] [12]Chakaravarthy V,Gupta H,et al.Efficiently Linking Text Documents with Relevant Structured Information[C].Proceedings of VLDB,2006,667-678.
[0022] [13]Bhide M,Gupta A,et al.LIPTUS: Associating Structured and Unstructured Information in a Banking Environment[C].Proceedings of SIGMOD, 2007,915-923.
[0023] [14]Hansu G,Mike G,Liang Z,et al.AnchorMF: towards effective event context identification[C].Proceedings of CIKM,2013,629-638.
[0024] [15]Liu Xian-min, Li Jian-zhong. Key-Based Method for Extracting Entities from XML Data[J].Journal of Computer Research and Development,2014, 51(1):64-75.
[0025] [16]Peng F,McCallum A.Information extraction from research papers using conditional random fields[J]. Information Processing and Management Journal,2006,42(4):963-979.
[0026] [17]Liu Kai, Zhou Xue-zhong,et al. Named Entity Extraction of Traditional Chinese Medicine Medical Records Based on Conditional Random Field[J].Computer Engineering,2014,40(9):312-316.
[0027] [18]Specia L,Motta E.A Hybrid Approach for Extracting Semantic Relations from Texts[C].Proceedings of 0LP,2006,57-64.
[0028] [19]Jiang Ren-hui,Wang Ting,et al.Named Entity Recognition for Micro-blog[J].Computer & Digital Engineering,2014,42(4):647-651.
[0029] [20]Xu Y,Papakonstantinou Y.Efficient keyword search for smallest LCAs in XML databases[C].Proceedings of ACM SIGM0D,2005,527-538.
[0030] [21]Kong L,Gilleron R,L