專利名稱:一種基于本體模式的異構(gòu)數(shù)據(jù)集成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種分布式異構(gòu)數(shù)據(jù)庫的數(shù)據(jù)集成方法,特別涉及一種基于本體模式的異構(gòu)數(shù)據(jù)集成方法。
背景技術(shù):
隨著信息和網(wǎng)絡(luò)時代的飛速發(fā)展,各行業(yè)領(lǐng)域都已積累了海量的行業(yè)數(shù)據(jù),而且這些數(shù)據(jù)仍在呈指數(shù)級不斷增長的趨勢。實現(xiàn)這些數(shù)據(jù)最大共享與集成應(yīng)用對于行業(yè)的發(fā)展,減少重復(fù)性建設(shè),節(jié)約人力物力資源,以最小的成本贏得最大化的利潤都具有十分重要的意義。然而由于行業(yè)在長期的發(fā)展過程中,由于不同的發(fā)展時期和特殊需求采用了不同模式來描述數(shù)據(jù),并使用各種不同的模型數(shù)據(jù)庫來存儲。這為行業(yè)部門之間、甚至行業(yè)之間的數(shù)據(jù)共享和集成造成了極大的困難。
發(fā)明內(nèi)容
為了解決現(xiàn)有行業(yè)之間不同數(shù)據(jù)庫數(shù)據(jù)共享存在的上述技術(shù)問題,本發(fā)明提供一種基于本體模式的異構(gòu)數(shù)據(jù)集成方法。本發(fā)明引入“本體”作為公共語義模型,通過本體映射在異構(gòu)數(shù)據(jù)間建立語義映射關(guān)系,屏蔽語義異構(gòu)有效地解決了語義異構(gòu)問題。本發(fā)明解決上述技術(shù)問題的技術(shù)方案包括以下步驟
(1)配置各異構(gòu)數(shù)據(jù)源資源屬性使用語義映射編輯工具配置異構(gòu)數(shù)據(jù)源資源的訪問 fn息;
(2)異構(gòu)數(shù)據(jù)庫局部本體構(gòu)建根據(jù)數(shù)據(jù)庫資源注冊文件獲取數(shù)據(jù)庫模式信息,根據(jù)不同的模式信息用本體的建模語言構(gòu)建各異構(gòu)數(shù)據(jù)源的局部本體;
(3)全局本體構(gòu)建按照本體模式描述文件獲取集成平臺數(shù)據(jù)庫的模式信息,并圖形化地顯示出來供用戶操作,采用OWL作為本體的描述語言構(gòu)建全局本體;
(4)局部本體同全局本體的語義映射將局部本體同全局本體作為輸入,按照語義關(guān)聯(lián)關(guān)系將本體中的元素建立相應(yīng)的語義關(guān)系。上述的基于本體模式的異構(gòu)數(shù)據(jù)集成方法中,所述的步驟(4)中構(gòu)建局部本體同全局本體的語義映射步驟如下
構(gòu)建全局本體的值屬性與局部本體的值屬性間的映射關(guān)系(1:1、1 :η、η :1、1 :皿11、 n:m);
構(gòu)建全局本體模式的對象屬性同異構(gòu)數(shù)據(jù)庫中數(shù)據(jù)表間的連接關(guān)系之間的映射關(guān)系 (1:1、1 :n)。本發(fā)明的技術(shù)效果在于本發(fā)明根據(jù)不同的模式信息用本體的建模語言構(gòu)建各異構(gòu)數(shù)據(jù)源的局部本體及全局本體,并按照語義關(guān)聯(lián)關(guān)系將本體中的元素建立相應(yīng)的語義關(guān)系,這樣可以解決了行業(yè)部門之間、甚至行業(yè)之間數(shù)據(jù)共享和集成的技術(shù)難題。
附圖1為本發(fā)明中基于本體異構(gòu)數(shù)據(jù)集成模型。附圖2為本發(fā)明中實施例的部分全局本體示意圖。附圖3為本發(fā)明中實施例的部分局部本體示意圖。附圖4為本發(fā)明中本體映射的流程圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明作進(jìn)一步的說明。附圖1為本發(fā)明基于本體的異構(gòu)數(shù)據(jù)庫集成模型。本集成方法的數(shù)據(jù)流程如附圖1所示,圖中對本方法的數(shù)據(jù)的具體流向過程進(jìn)行了圖形化的表示通過對各異構(gòu)數(shù)據(jù)庫(結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù))提取框架結(jié)構(gòu)信息生成各局部本體模式,然后構(gòu)建集成平臺全局本體模式與各個局部本體模式間的映射關(guān)系。配置異構(gòu)數(shù)據(jù)源信息
使用語義映射編輯工具配置各個異構(gòu)數(shù)據(jù)源數(shù)據(jù)庫資源的訪問信息用戶名、密碼、IP 地址、端口號、數(shù)據(jù)庫名、數(shù)據(jù)庫實例名等;
附圖2和3為實例構(gòu)建本體模式中一個實例,圖2所示為全局模式中業(yè)務(wù)_污水處理廠信息在集成平臺數(shù)據(jù)庫中構(gòu)建后地一個本體實例。圖3所示為某異構(gòu)數(shù)據(jù)庫構(gòu)建局部本體中污水處理廠信息的本體實例。(一)構(gòu)建本體模式
局部本體是對異構(gòu)數(shù)據(jù)源的語義描述,根據(jù)異構(gòu)數(shù)據(jù)源模型構(gòu)建。構(gòu)建本體應(yīng)遵循的原則
清晰性、明確性和客觀性即本體應(yīng)該采用自然語言對所定義術(shù)語給出明確的、客觀的語義定義;
完全性即所給出的定義是完整的,完全能表達(dá)所描述術(shù)語的含義; 一致性即由術(shù)語得出的推論與術(shù)語本身的含義是相容的,不會產(chǎn)生矛盾; 最大單調(diào)可擴(kuò)展性即向本體中添加通用或?qū)S玫男g(shù)語時,不需要修改其已有的概念定義和內(nèi)容;
最小承諾即對待建模對象給出盡可能少的約束。1)關(guān)系數(shù)據(jù)庫構(gòu)建本體
從關(guān)系數(shù)據(jù)庫構(gòu)建本體,關(guān)鍵在于分析關(guān)系模型中的信息結(jié)構(gòu),然后將其用本體來表達(dá)。關(guān)系數(shù)據(jù)庫構(gòu)建本體的方法
關(guān)系模式的關(guān)系名映射到一個QWL =Class ; 關(guān)系模式的普通屬性的域映射到一個XSD =XsdDataType ;
關(guān)系模式的普通屬性映射到一個OWL:DatatypeProperty,并對 OffLiDatatypeProperty StJ rdfs: range 禾口 rdfs domain ¢(1 ^] ^ /^ ; 關(guān)系模式中的外鍵映射為一個OWL = Objectfroperty ;
創(chuàng)建兩個0WL:0bjectftx)perty來表示兩個關(guān)系之間的多對多關(guān)系??梢杂?WL:inverser0f定義這兩個OffLiObjectProperty互逆,然后定義 OWL:ObjectProperty 的 rdfsdomain 禾口 rdfs:range。2)從XML文檔構(gòu)建本體對于以XML半結(jié)構(gòu)化文檔形式的異構(gòu)數(shù)據(jù)源,構(gòu)建本體可以利用局部數(shù)據(jù)源的 XMLSchema并依據(jù)相應(yīng)的轉(zhuǎn)化關(guān)系構(gòu)建。在XMI^chema中,元素和屬性是基本的構(gòu)成單位,元素能夠被表達(dá)為簡單類型和復(fù)雜類型,可以使用minLength和MaxLength來限制數(shù)據(jù)值得長度,minlnclusive和 maxlnclusive來限制取值范圍,使用key和keyref來描述數(shù)據(jù)間的主外鍵關(guān)系。XMUchema構(gòu)建本體的方法 XMLSchema映射到一個本體中的元素; SimpleType 映射至Ij一個 OffL :DatatypeProperty ; ComplexType 映射到一個 OffL =Class ; Attribute 映射至Ij一個 OWL :DatatypeProperty。( 二 )全局本體同局部本體間的映射構(gòu)建
映射關(guān)系的構(gòu)建流程如附圖4所示。映射將全局本體同一個或多個局部本體作為輸入,遍歷全局本體與各局部本體中語義關(guān)聯(lián)的本體元素(概念、屬性、關(guān)系)在語法距離、語義詞典、結(jié)構(gòu)、約束屬性等方面的相似度。最終綜合得到一個相似度值,若該相似度值大于給定的相似閾值就構(gòu)建映射關(guān)系,若小于則不認(rèn)為兩者有相似映射關(guān)系。在局部本體同全局本體之間,按照語義關(guān)聯(lián)關(guān)系將本體中的元素(概念、屬性、關(guān)系)建立相應(yīng)的語義關(guān)系。全局本體的值屬性與局部本體的值屬性間的映射關(guān)系(1:1、1 run :1、1 mull)。映射類型如表1。(0為全局本體,P為局部本體)
表1映射模型
權(quán)利要求
1.一種基于本體模式的異構(gòu)數(shù)據(jù)集成方法,包括以下步驟1)配置各異構(gòu)數(shù)據(jù)源資源屬性使用語義映射編輯工具配置異構(gòu)數(shù)據(jù)源資源的訪問信息;2)異構(gòu)數(shù)據(jù)庫局部本體構(gòu)建根據(jù)數(shù)據(jù)庫資源注冊文件獲取數(shù)據(jù)庫模式信息,根據(jù)不同的模式信息用本體的建模語言構(gòu)建各異構(gòu)數(shù)據(jù)源的局部本體;3)全局本體構(gòu)建按照本體模式描述文件獲取集成平臺數(shù)據(jù)庫的模式信息,并圖形化地顯示出來供用戶操作,采用OffL作為本體的描述語言構(gòu)建全局本體;4)局部本體同全局本體的語義映射將局部本體同全局本體作為輸入,按照語義關(guān)聯(lián)關(guān)系將本體中的元素建立相應(yīng)的語義關(guān)系。
2.根據(jù)權(quán)利要求1所述的基于本體模式的異構(gòu)數(shù)據(jù)集成方法,所述的步驟4)中構(gòu)建局部本體同全局本體的語義映射步驟如下構(gòu)建全局本體的值屬性與局部本體的值屬性間的映射關(guān)系為1:1、1 :η、η :1、1 :皿11、n:m ;構(gòu)建全局本體模式的對象屬性同異構(gòu)數(shù)據(jù)庫中數(shù)據(jù)表間的連接關(guān)系之間的映射關(guān)系為 1 1、1 :n。
全文摘要
本發(fā)明公開了一種基于本體模式的異構(gòu)數(shù)據(jù)集成方法。它包括以下步驟使用語義映射編輯工具配置異構(gòu)數(shù)據(jù)源資源的訪問信息;根據(jù)數(shù)據(jù)庫資源注冊文件獲取數(shù)據(jù)庫模式信息,根據(jù)不同的模式信息用本體的建模語言構(gòu)建各異構(gòu)數(shù)據(jù)源的局部本體;按照本體模式描述文件獲取集成平臺數(shù)據(jù)庫的模式信息,并圖形化地顯示出來供用戶操作,采用OWL作為本體的描述語言構(gòu)建全局本體;將局部本體同全局本體作為輸入,按照語義關(guān)聯(lián)關(guān)系將本體中的元素建立相應(yīng)的語義關(guān)系。本發(fā)明可以使用戶完全不用考慮異構(gòu)數(shù)據(jù)庫結(jié)構(gòu)的差異就可以得到所需要的數(shù)據(jù),并具有可行性、可擴(kuò)展性、透明性、普遍性的優(yōu)點。
文檔編號G06F17/30GK102385635SQ20111041747
公開日2012年3月21日 申請日期2011年12月14日 優(yōu)先權(quán)日2011年12月14日
發(fā)明者馮志元, 吳柏燕, 李擁, 李朝奎, 王文杰, 陶能成, 高振記 申請人:湖南科技大學(xué)