專利名稱:一種基于本體詞法信息和語義信息的本體匹配方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于本體詞法信息和語義信息的本體匹配方法,屬于計算機(jī)技術(shù)領(lǐng)域,特別是屬于本體技術(shù)領(lǐng)域。
背景技術(shù):
本體(ontology)是共享概念模型的明確的形式化規(guī)范說明,使得計算機(jī)對知識能夠共享、重用、互操作,并在語義ffeb,知識數(shù)據(jù)工程,電子商務(wù)等領(lǐng)域中廣泛應(yīng)用。由于不同背景的知識工程師構(gòu)造和維護(hù)相似或相同域的本體,導(dǎo)致了本體之間的異構(gòu),這阻礙了知識的共享、重用、互操作,本體匹配(ontology matching)是解決該問題主要方法之一。本體匹配是指發(fā)現(xiàn)相似或相同域中不同本體中相同類型實(shí)體(entity)之間的匹配關(guān)系,實(shí)體包括概念(cone印ts)、屬性(properties)、個體(individuals)。目前,本體匹配系統(tǒng)多是利用實(shí)體標(biāo)簽和評論中單詞的單個詞義和本體中實(shí)體間的結(jié)構(gòu),計算實(shí)體間的相似性,從而得出匹配關(guān)系。由于這些本體匹配系統(tǒng)沒有有效利用本體的詞法信息和語義信息,較少關(guān)注實(shí)體中的單詞詞義的擴(kuò)展,單詞詞義的組合方式,特殊含義單詞的處理,本體中的語義信息等對匹配結(jié)果的影響,導(dǎo)致這些本體匹配系統(tǒng)的實(shí)際匹配結(jié)果并不好。因此如何有效利用本體的詞法信息和語義信息,提高本體匹配的質(zhì)量,成為本體應(yīng)用過程中一個急需要解決的技術(shù)難題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是發(fā)明一種本體匹配方法,能有效利用本體的詞法信息和語義信息。為了達(dá)到上述目的,本發(fā)明提出了一種基于本體詞法信息和語義信息的本體匹配方法,所述方法包括下列操作步驟(1)將待匹配的兩個本體分別定為源本體和目標(biāo)本體,計算來自源本體與目標(biāo)本體的概念匹配候選集合,計算來自源本體與目標(biāo)本體的屬性匹配候選集合,然后合并所述的屬性匹配候選集合和概念匹配候選集合,得到第一匹配候選集合MCO ;(2)對步驟1所獲得的第一匹配候選集合MCO中的匹配候選進(jìn)行循環(huán)過濾,得到第二匹配候選集合MCF;(3)對步驟2所獲得的第二匹配候選集合MCF,根據(jù)相似性原則進(jìn)行細(xì)化,產(chǎn)生第三匹配候選集合MCFS ;(4)對步驟2所獲得的第二匹配候選集合MCF,根據(jù)包含原則進(jìn)行細(xì)化,產(chǎn)生第四匹配候選集合MCFC ;(5)把步驟3所獲得的第三匹配候選集合MCFS和步驟4所獲得的第四匹配候選集合MCFC進(jìn)行合并,得到最終的匹配集合。所述步驟1中的計算來自源本體與目標(biāo)本體的概念匹配候選集合的具體內(nèi)容包括下列操作步驟(101)得到源本體概念列表CLS,得到目標(biāo)本體概念列表CLT ;(102)取源本體概念列表CLS中的概念Conc印tSource,取目標(biāo)本體概念列表CLT 中的概念 ConceptTarget ;(103)按照設(shè)定的實(shí)體之間關(guān)系的計算方法,計算概念Conc印tSource和概念CoiK^ptTarget之間的關(guān)系,如果存在關(guān)系Relation,則獲得如下匹配候選 MC(ConceptSource, ConceptTarget) = <ConceptSource, ConceptTarget, Relation〉, 并添加到所述的概念匹配候選集合中;關(guān)系Relation分為包括include關(guān)系、被包括 belncluded關(guān)系、相等equivalent關(guān)系、不相交disjoint關(guān)系四類;(104)轉(zhuǎn)到步驟102直到遍歷計算完分別來自源本體概念列表CLS和目標(biāo)本體概念列表CLT中的任意兩個概念。所述步驟1中的計算來自源本體與目標(biāo)本體的屬性匹配候選集合的具體內(nèi)容包括下列操作步驟(111)得到源本體屬性列表PLS,得到目標(biāo)本體屬性列表PLT ;(112)取源本體屬性列表PLS中的屬性ftOpertySource,取目標(biāo)本體屬性列表PLT 中的屬性 PropertyTarget ;(113)按照設(shè)定的實(shí)體之間關(guān)系的計算方法,計算屬性I^opertySource和屬性ftOpertyTarget之間的關(guān)系,如果存在關(guān)系Relation,則獲得如下匹配候選 MC (PropertySource,PropertyTarget) = <PropertySource, PropertyTarget, Relation), 并添加到所述的屬性匹配候選集合中;關(guān)系Relation分為包括include關(guān)系、被包括 belncluded關(guān)系、相等equivalent關(guān)系、不相交disjoint關(guān)系四類;(114)轉(zhuǎn)到步驟112直到遍歷計算完分別來自源本體屬性列表PLS和目標(biāo)本體屬性列表PLT中的任意兩個屬性。所述步驟103和步驟113中所述設(shè)定的實(shí)體之間關(guān)系的計算方法的具體內(nèi)容包括以下操作步驟(1031)計算得到實(shí)體EntitySource的詞法信息集合C(EntitySource)和實(shí)體 EntityTarget 的詞法信息集合 C (EntityTarget);(1032)計算分別來自實(shí)體EntitySource的詞法信息集合C (EntitytSource)和實(shí)體EntityTarget的詞法信息集合C(EntitytTarget)的任何兩個元素之間的概念關(guān)系,并根據(jù)設(shè)定的關(guān)系轉(zhuǎn)換規(guī)則,將計算出的實(shí)體關(guān)系轉(zhuǎn)化為匹配關(guān)系,并記錄每種匹配關(guān)系的次數(shù);所述設(shè)定的關(guān)系轉(zhuǎn)換規(guī)則包括父類-包括關(guān)系SupClass-include、子類-被包括關(guān)系SubClass-belncluded、不相交類-不相交關(guān)系Dis jointClass_dis joint、相等類-相等關(guān)系 EquivalentClass-equivalent 四條規(guī)貝1J ;(1033)選擇具有次數(shù)值最大的關(guān)系作為實(shí)體EntitySource和實(shí)體EntitySource 之間的匹配候選關(guān)系。所述步驟2中對所獲得的第一匹配候選集合MCO中的匹配候選進(jìn)行循環(huán)過濾的具體內(nèi)容包括下列操作步驟(21)按照設(shè)定的過濾規(guī)則,對第一匹配候選集合MCO進(jìn)行過濾,得到第二匹配候選集合MCF ;所述的設(shè)定的過濾規(guī)則有如下二條,第一條如果本體的一個實(shí)體與另一本體的實(shí)體有多于一個的匹配候選,則這些匹配候選不應(yīng)該導(dǎo)致所述的這兩個待集成本體構(gòu)成的集成本體的不一致no-consistency,也不應(yīng)該直接在所述的這兩個待集成本體中產(chǎn)生新的公理axiom;第二條如果違反了第一條規(guī)則,則刪除匹配關(guān)系較弱的匹配,直至滿足第一條過濾規(guī)則,匹配關(guān)系從強(qiáng)到弱的順序依次是相等關(guān)系,包括關(guān)系,被包括關(guān)系,不相交關(guān)系;(22)檢查所述的第二匹配候選集合MCF是否滿足過濾充分性條件,如果滿足,則循環(huán)過濾操作結(jié)束,否則轉(zhuǎn)到步驟23 ;所述的充分性條件是指對于任意一個屬于所述的第一匹配候選集合MCO的匹配候選MC,則在所述的第二匹配候選集合MCF中一定存在一個匹配候選MC’,并且使得所述的匹配候選MC的源實(shí)體等于所述的匹配候選MC’的源實(shí)體或者所述的匹配候選MC的目標(biāo)實(shí)體等于所述的匹配候選MC’的目標(biāo)實(shí)體;(23)按照設(shè)定的標(biāo)記方法標(biāo)記由于過濾而失去的匹配候選集合MissingMC ;所述的設(shè)定的標(biāo)記方法是對于一個屬于第一匹配候選集合MCO的匹配候選MC,如果滿足如下條件,則被標(biāo)記;所述條件是對該匹配候選MC,如果存在一個所述的第二匹配候選集合 MCF中的匹配候選MC’,使得匹配候選MC的源實(shí)體不等于匹配候選MC’的源實(shí)體并且匹配候選MC的目標(biāo)實(shí)體不等于匹配候選MC’的目標(biāo)實(shí)體同時成立;(24)所述的由于過濾而失去的匹配候集合MissingMC與所述的第二匹配候選集合MCF合并,作為新的第一匹配候選集合MC0,然后轉(zhuǎn)到步驟21,繼續(xù)過濾過程。所述步驟21中,對所述的第一匹配候選集合MCO進(jìn)行過濾的具體內(nèi)容包括下列操作步驟(2101)合并源本體中的公理和目標(biāo)本體中的公理形成集成本體;(2102)從所述的第一匹配候選集合MCO中,按照源實(shí)體的不同,分解出所有源實(shí)體歸類匹配候選集合MC (A,*),并構(gòu)成一個源實(shí)體歸類匹配候選集合列表;所述的源實(shí)體歸類匹配候選集合MC (A,*)中的A表示源本體中一個源實(shí)體,*表示在所述的第一匹配候選集合MCO中與源實(shí)體A有匹配關(guān)系的任意目標(biāo)實(shí)體,所述的源實(shí)體歸類匹配候選集合MC(A, *)表示所述的第一匹配候選集合MCO中與源實(shí)體A存在匹配關(guān)系的所有匹配候選的集合;(2103)從源實(shí)體歸類匹配候選集合列表取出一個源實(shí)體歸類匹配候選集合 MC(A,氺);(2104)如果在源實(shí)體歸類匹配候選集合MC(A,*)中的匹配候選具有相等 equivalent的關(guān)系,則直接刪除源實(shí)體歸類匹配候選集合MC(A,*)中非等關(guān)系的匹配候選,然后在源實(shí)體歸類匹配候選集合MC(A,*)僅保留一個具有相等關(guān)系的匹配候選;保留原則是選擇源實(shí)體和目標(biāo)實(shí)體間具有最大串相似度的匹配候選;(2105)如果在源實(shí)體歸類匹配候選集合MC (A,*)中存在多個匹配候選,則將源實(shí)體歸類匹配候選集合MC (A,*)作為公理添加到所述的集成本體中,并檢測該集成本體是否一致,如果不一致,則刪除源實(shí)體歸類匹配候選集合MC(A,*)中導(dǎo)致所述的集成本體不一致的匹配候選;(2106)轉(zhuǎn)到步驟2103,直到遍歷過濾完源實(shí)體歸類匹配候選集合列表中所有的源實(shí)體歸類匹配候選集合;(2107)將經(jīng)過步驟2106過濾后的新的第一匹配候選集合MC0,按照目標(biāo)實(shí)體的不同,分解出所有目標(biāo)實(shí)體歸類匹配候選集合MC(*,A),并構(gòu)成一個目標(biāo)實(shí)體歸類匹配候選集合列表;目標(biāo)實(shí)體歸類匹配候選集合MC (*,A)中的A表示目標(biāo)本體中的一個目標(biāo)實(shí)體,*表示在新的第一匹配候選集合MCO中與目標(biāo)實(shí)體A有匹配關(guān)系的任意源實(shí)體,目標(biāo)實(shí)體歸類匹配候選集合MC(*,A)表示新的第一匹配候選集合MCO中與目標(biāo)實(shí)體A存在匹配關(guān)系的所有匹配候選的集合;(2108)從目標(biāo)實(shí)體歸類匹配候選集合列表取出一個目標(biāo)實(shí)體歸類匹配候選集合 MC(*,Α);(2109)如果在目標(biāo)實(shí)體歸類匹配候選集合MC(*,Α)中的匹配候選具有相等 equivalent的關(guān)系,則直接刪除目標(biāo)實(shí)體歸類匹配候選集合MC (*,Α)中非等關(guān)系的匹配候選,然后在目標(biāo)實(shí)體歸類匹配候選集合MC(*,Α)僅保留一個具有相等關(guān)系的匹配候選;保留原則是選擇源實(shí)體和目標(biāo)實(shí)體間具有最大串相似度的匹配候選;(2110)如果在目標(biāo)實(shí)體歸類匹配候選集合MC (*,A)中存在多個匹配候選,則將目標(biāo)實(shí)體歸類匹配候選集合MC (*,A)作為公理添加到所述的集成本體中,并檢測該集成本體是否一致,如果不一致,則刪除目標(biāo)實(shí)體歸類匹配候選集合MC(*,Α)中導(dǎo)致所述的集成本體不一致的匹配候選;(2111)轉(zhuǎn)到步驟2108,直到遍歷過濾完目標(biāo)實(shí)體歸類匹配候選集合列表中的所有目標(biāo)實(shí)體歸類匹配候選集合,從而得到過濾后的第二匹配候選集合MCF。所述步驟3中的根據(jù)相似性原則對步驟2所獲得的所述的第二匹配候選集合MCF 進(jìn)行細(xì)化以產(chǎn)生第三匹配候選集合MCFS的具體內(nèi)容包括下列操作步驟(31)取源本體中的任意實(shí)體A,取目標(biāo)本體中任意實(shí)體B,并保證所述實(shí)體A和實(shí)體B為同一類型實(shí)體;(32)按照設(shè)定的方法,計算實(shí)體A和實(shí)體B之間的詞法相似性LS (A,B)、語義相似性SS(A,B)和字符串相似性SM (A,B),然后計算實(shí)體A和實(shí)體B之間的相似性S(A,B);所述實(shí)體A和實(shí)體B之間的詞法相似性LS (A,B)的計算方法是如果所述實(shí)體A和實(shí)體B是所述步驟2所得到的第二匹配候選集合MCF中的匹配候選,則所述實(shí)體A和實(shí)體B之間的詞法相似性LS (A,B)為一個不大于1的正實(shí)數(shù)VI,否則為零;所述實(shí)體A和實(shí)體B之間的相似性S (A,B)就是所述實(shí)體A和實(shí)體B之間的詞法相似性LS (A,B)、語義相似性SS (A,B) 和字符串相似性SM(A,B)三者之和;(3 轉(zhuǎn)到步驟31遍歷任何兩個分別來自源本體和目標(biāo)本體的相同類型實(shí)體;(34)把任何兩個有相同類型來自不同本體的實(shí)體A和實(shí)體B的匹配描述成<A,B, Relation, S (A, B) >的形式,如果A和B分別作為所述步驟2所得到的所述的第二匹配候選集合MCF里某個匹配候選的源實(shí)體和目標(biāo)實(shí)體,則關(guān)系Relation即為所述第二匹配候選集合MCF中的匹配的關(guān)系,否則使用無關(guān)系NoReIation,即實(shí)體A和實(shí)體B的匹配描述成<A, B, NoRelation, S(Α,B)> ;(35)將上述計算所得到匹配中的實(shí)體之間的相似性與設(shè)定的閥值進(jìn)行比較,如果大于所設(shè)定的閥值,則為合格的匹配,添加到第三匹配候選集合MCFS中。所述步驟32中的計算實(shí)體A和實(shí)體B之間的語義相似性SS(A,B)的方法是包括如下操作步驟(3201)如果所述實(shí)體A和實(shí)體B都是概念,則轉(zhuǎn)步驟3202,否則實(shí)體A和實(shí)體B 之間的語義相似性SS (A,B)值為零;
(3202)獲得實(shí)體A即概念A(yù)的所有父實(shí)體(SupEntity) PA和實(shí)體B即概念B的所有父實(shí)體PB,定義一個計數(shù)器counter,并設(shè)該計數(shù)器counter的初始值為零;(3203)計算實(shí)體A的所有父實(shí)體PA和實(shí)體A的所有相關(guān)屬性的屬性集合PS (A), 計算實(shí)體B的所有父實(shí)體PB和實(shí)體B的所有相關(guān)屬性的屬性集合PS (B);(3204)如果分別來自所述屬性集合PS㈧和屬性集合PS (B)的兩個屬性是所述步驟2所得到的所述的第二匹配候選集合MCF中的不相交disjoint匹配候選,則將所述的計數(shù)器counter加1 ;(3205)轉(zhuǎn)到步驟3204遍歷分別來自所述屬性集合PS(A)和屬性集合PS (B)的任何兩個屬性;(3206)按照下式計算實(shí)體A和實(shí)體B之間的語義相似性SS(A,B)的值,
counterSS(A'B) = PS(A).siZe +PS(B). size上式中,PS(A). size表示所述屬性集合PS (A)的大小,PS (B). size表示所述屬性集合PS⑶的大小。所述步驟4中根據(jù)包含原則對步驟2所獲得的所述的第二的匹配候選集合MCF進(jìn)行細(xì)化以產(chǎn)生所述第四匹配候選集合MCFC的具體內(nèi)容包括如下操作步驟(41)從步驟2所獲得的所述第二匹配候選集合MCF中選擇具有相等equivalent 關(guān)系并且所對應(yīng)的兩實(shí)體A和B之間的相似性S(A,B)大于設(shè)定閾值的匹配候選MC,記為 <A,B, equivalent, S (A, B) > ;所述的兩實(shí)體A和B之間的相似性S (A,B)由步驟32計算獲得;(42)按照設(shè)定的方法計算實(shí)體A最近子實(shí)體集cs (A)和實(shí)體B的最近子實(shí)體集 cs(B);(43)對于實(shí)體B的最近子實(shí)體集cs (B)中的任意一個元素實(shí)體C,產(chǎn)生新的匹配候選,即<A,C,include, 0>,實(shí)體A和實(shí)體C是包含關(guān)系include,相似度值設(shè)為0,并添加到所述的第四匹配候選集合MCFC中;對于實(shí)體A的最近子實(shí)體集Cs(A)中的任意一個元素實(shí)體D對,產(chǎn)生新的匹配候選,即<D,B, bdncluded,?!?,實(shí)體D和實(shí)體B是被包含關(guān)系 behcluded,相似度值設(shè)為0,并添加到所述的第四匹配候選集合MCFC中。所述步驟42中所述的計算一個實(shí)體最近子實(shí)體集的方法的具體內(nèi)容包括如下操作步驟(4201)對于一個實(shí)體E,計算其所有的子實(shí)體所構(gòu)成的集合SS;(4202)取集合SS中任意一個實(shí)體SE,如果實(shí)體SE不是集合SS中任何實(shí)體的子實(shí)體,則把實(shí)體SE添加進(jìn)實(shí)體E的最近子實(shí)體集cs (E)中;(4203)重復(fù)步驟4202,直到遍歷完集合SS中所有的實(shí)體。本發(fā)明的有益效果在于本發(fā)明通過構(gòu)建實(shí)體之間候選的方法保證了本體匹配的的覆蓋率(recall),使用基于語義的循環(huán)過濾方法保證了本體匹配的準(zhǔn)確率 (precision),使用最近子實(shí)體集的方法提高了本體匹配的覆蓋率也提高了本體匹配的準(zhǔn)確率。
圖1是本發(fā)明的一種基于本體詞法信息和語義信息的本體匹配方法的操作步驟流程2是本發(fā)明方法的比較試驗(yàn)結(jié)果圖
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對本發(fā)明作進(jìn)一步的詳細(xì)描述。參見圖1,介紹本發(fā)明提出的一種基于本體詞法信息和語義信息的本體匹配方法, 所述方法包括下列操作步驟(1)將待匹配的兩個本體分別定為源本體和目標(biāo)本體,計算來自源本體與目標(biāo)本體的概念匹配候選集合,計算來自源本體與目標(biāo)本體的屬性匹配候選集合,然后合并所述的屬性匹配候選集合和概念匹配候選集合,得到第一匹配候選集合MCO ;(2)對步驟1所獲得的第一匹配候選集合MCO中的匹配候選進(jìn)行循環(huán)過濾,得到第二匹配候選集合MCF;(3)對步驟2所獲得的第二匹配候選集合MCF,根據(jù)相似性原則進(jìn)行細(xì)化,產(chǎn)生第三匹配候選集合MCFS ;(4)對步驟2所獲得的第二匹配候選集合MCF,根據(jù)包含原則進(jìn)行細(xì)化,產(chǎn)生第四匹配候選集合MCFC ;(5)把步驟3所獲得的第三匹配候選集合MCFS和步驟4所獲得的第四匹配候選集合MCFC進(jìn)行合并,得到最終的匹配集合。所述步驟1中的計算來自源本體與目標(biāo)本體的概念匹配候選集合的具體內(nèi)容包括下列操作步驟(101)得到源本體概念列表CLS,得到目標(biāo)本體概念列表CLT ;(102)取源本體概念列表CLS中的概念Conc印tSource,取目標(biāo)本體概念列表CLT 中的概念 ConceptTarget ;(103)按照設(shè)定的實(shí)體之間關(guān)系的計算方法,計算概念Conc印tSource和概念CoiK^ptTarget之間的關(guān)系,如果存在關(guān)系Relation,則獲得如下匹配候選 MC(ConceptSource, ConceptTarget) = <ConceptSource, ConceptTarget, Relation〉, 并添加到所述的概念匹配候選集合中;關(guān)系Relation分為包括include關(guān)系、被包括 belncluded關(guān)系、相等equivalent關(guān)系、不相交disjoint關(guān)系四類;(104)轉(zhuǎn)到步驟102直到遍歷計算完分別來自源本體概念列表CLS和目標(biāo)本體概念列表CLT中的任意兩個概念。所述步驟1中的計算來自源本體與目標(biāo)本體的屬性匹配候選集合的具體內(nèi)容包括下列操作步驟(111)得到源本體屬性列表PLS,得到目標(biāo)本體屬性列表PLT ;(112)取源本體屬性列表PLS中的屬性ftOpertySource,取目標(biāo)本體屬性列表PLT 中的屬性 PropertyTarget ;(113)按照設(shè)定的實(shí)體之間關(guān)系的計算方法,計算屬性I^opertySource和屬性ftOpertyTarget之間的關(guān)系,如果存在關(guān)系Relation,則獲得如下匹配候選 MC (PropertySource,PropertyTarget) = <PropertySource, PropertyTarget, Relation),并添加到所述的屬性匹配候選集合中;關(guān)系Relation分為包括include關(guān)系、被包括 belncluded關(guān)系、相等equivalent關(guān)系、不相交disjoint關(guān)系四類;(114)轉(zhuǎn)到步驟112直到遍歷計算完分別來自源本體屬性列表PLS和目標(biāo)本體屬性列表PLT中的任意兩個屬性。所述步驟103和步驟113中所述設(shè)定的實(shí)體之間關(guān)系的計算方法的具體內(nèi)容包括以下操作步驟(1031)計算得到實(shí)體EntitySource的詞法信息集合C(EntitySource)和實(shí)體 EntityTarget的詞法信息集合C(EntityTarget);本申請人在中國發(fā)明專利申請(專利名稱一種用于本體匹配的本體詞法分析方法;申請?zhí)?01110290913. 8)提出了一種用于本體匹配的本體詞法分析方法,該方法可以用來實(shí)現(xiàn)本發(fā)明中實(shí)體詞法信息集合的計算;當(dāng)然本發(fā)明也可以采用其他的計算方法來得到實(shí)體的詞法信息集合;(1032)計算分別來自實(shí)體EntitySource的詞法信息集合C (EntitytSource)和實(shí)體EntityTarget的詞法信息集合C(EntitytTarget)的任何兩個元素之間的概念關(guān)系,并根據(jù)設(shè)定的關(guān)系轉(zhuǎn)換規(guī)則,將計算出的實(shí)體關(guān)系轉(zhuǎn)化為匹配關(guān)系,并記錄每種匹配關(guān)系的次數(shù);所述設(shè)定的關(guān)系轉(zhuǎn)換規(guī)則包括父類-包括關(guān)系SupClass-include、子類-被包括關(guān)系SubClass-belncluded、不相交類-不相交關(guān)系Dis jointClass_dis joint、相等類-相等關(guān)系 EquivalentClass-equivalent 四條規(guī)貝1J ;(1033)選擇具有次數(shù)值最大的關(guān)系作為實(shí)體EntitySource和實(shí)體EntitySource 之間的匹配候選關(guān)系。以2009年國際本體匹配競賽使用的標(biāo)準(zhǔn)測試集中的本體101 (http:// oaei.ontologymatching.org/2011/benchmarks/101/onto.rdf)作為源本體禾口本體 302 (http://oaei. ontologymatching. org/2011/benchmarks/302/onto, rdf)作為巨標(biāo)本體為例,并以<101:實(shí)體〉和<302:實(shí)體〉的表達(dá)方式表示相應(yīng)本體中的實(shí)體,對本發(fā)明的內(nèi)容進(jìn)行舉例說明。例如,計算<101 Book〉詞法信息和<302: Book〉詞法信息之間的關(guān)系時,計算得到 <101:Book〉和<302:Book〉之間是相等類EquivalentClass的次數(shù)為5,計算得到它們之間是子類Subclass的次數(shù)為4,則<101 Book〉和<302 Book〉是相等的類,并將此轉(zhuǎn)化為相等關(guān)系,即 <101:Book,302:Book,相等 >。所述步驟2中對所獲得的第一匹配候選集合MCO中的匹配候選進(jìn)行循環(huán)過濾的具體內(nèi)容包括下列操作步驟(21)按照設(shè)定的過濾規(guī)則,對第一匹配候選集合MCO進(jìn)行過濾,得到第二匹配候選集合MCF ;所述的設(shè)定的過濾規(guī)則有如下二條,第一條如果本體的一個實(shí)體與另一本體的實(shí)體有多于一個的匹配候選,則這些匹配候選不應(yīng)該導(dǎo)致所述的這兩個待集成本體構(gòu)成的集成本體的不一致no-consistency,也不應(yīng)該直接在所述的這兩個待集成本體中產(chǎn)生新的公理axiom;第二條如果違反了第一條規(guī)則,則刪除匹配關(guān)系較弱的匹配,直至滿足第一條過濾規(guī)則,匹配關(guān)系從強(qiáng)到弱的順序依次是相等關(guān)系,包括關(guān)系,被包括關(guān)系,不相交關(guān)系;(22)檢查所述的第二匹配候選集合MCF是否滿足過濾充分性條件,如果滿足,則循環(huán)過濾操作結(jié)束,否則轉(zhuǎn)到步驟23 ;所述的充分性條件是指對于任意一個屬于所述的第一匹配候選集合MCO的匹配候選MC,則在所述的第二匹配候選集合MCF中一定存在一個匹配候選MC’,并且使得所述的匹配候選MC的源實(shí)體等于所述的匹配候選MC’的源實(shí)體或者所述的匹配候選MC的目標(biāo)實(shí)體等于所述的匹配候選MC’的目標(biāo)實(shí)體;(23)按照設(shè)定的標(biāo)記方法標(biāo)記由于過濾而失去的匹配候選集合MissingMC ;所述的設(shè)定的標(biāo)記方法是對于一個屬于第一匹配候選集合MCO的匹配候選MC,如果滿足如下條件,則被標(biāo)記;所述條件是對該匹配候選MC,如果存在一個所述的第二匹配候選集合 MCF中的匹配候選MC’,使得匹配候選MC的源實(shí)體不等于匹配候選MC’的源實(shí)體并且匹配候選MC的目標(biāo)實(shí)體不等于匹配候選MC’的目標(biāo)實(shí)體同時成立;(24)所述的由于過濾而失去的匹配候集合MissingMC與所述的第二匹配候選集合MCF合并,作為新的第一匹配候選集合MC0,然后轉(zhuǎn)到步驟21,繼續(xù)過濾過程。所述步驟21中,對所述的第一匹配候選集合MCO進(jìn)行過濾的具體內(nèi)容包括下列操作步驟(2101)合并源本體中的公理和目標(biāo)本體中的公理形成集成本體;(2102)從所述的第一匹配候選集合MCO中,按照源實(shí)體的不同,分解出所有源實(shí)體歸類匹配候選集合MC (A,*),并構(gòu)成一個源實(shí)體歸類匹配候選集合列表;所述的源實(shí)體歸類匹配候選集合MC (A,*)中的A表示源本體中一個源實(shí)體,*表示在所述的第一匹配候選集合MCO中與源實(shí)體A有匹配關(guān)系的任意目標(biāo)實(shí)體,所述的源實(shí)體歸類匹配候選集合MC(A, *)表示所述的第一匹配候選集合MCO中與源實(shí)體A存在匹配關(guān)系的所有匹配候選的集合;(2103)從源實(shí)體歸類匹配候選集合列表取出一個源實(shí)體歸類匹配候選集合 MC(A,氺);(2104)如果在源實(shí)體歸類匹配候選集合MC(A,*)中的匹配候選具有相等 equivalent的關(guān)系,則直接刪除源實(shí)體歸類匹配候選集合MC(A,*)中非等關(guān)系的匹配候選,然后在源實(shí)體歸類匹配候選集合MC (A,*)僅保留一個具有相等關(guān)系的匹配候選;保留原則是選擇源實(shí)體和目標(biāo)實(shí)體間具有最大串相似度的匹配候選;例如,在源實(shí)體歸類匹配候選集合MC(101:Book,*)中有如下匹配候選 <101:Book,302:Book,相等 >,<101:Book,302:Publication,被包含〉和 <101:Book, 302: InBook,相等〉。首先過濾掉<101 :Book, 302:Publication,被包含〉,然后計算 <101: Book〉和<302: Book)之間的串相似度(計算結(jié)果相似度值為1. 0),計算<101: Book〉 和<302:InBOOk>之間的串相似度(計算結(jié)果相似度值為0. 93),于是刪除<101:Book, 302:InBook,相等 >,最后保留 <101 :Book,302 :Book,相等 >。(2105)如果在源實(shí)體歸類匹配候選集合MC (A,*)中存在多個匹配候選,則將源實(shí)體歸類匹配候選集合MC (A,*)作為公理添加到所述的集成本體中,并檢測該集成本體是否一致,如果不一致,則刪除源實(shí)體歸類匹配候選集合MC(A,*)中導(dǎo)致所述的集成本體不一致的匹配候選;例如,在源實(shí)體歸類匹配候選集合MC(101 :Book,*)中有<101:InBook, 302:InBook,被包含 > 和<101 hBook,302 Resource,包含 > 兩個匹配候選,將它們添加到待集成的本體中,經(jīng)檢測這兩個匹配候選會導(dǎo)致待集成本體不一致,則要根據(jù)不一致的原因,刪掉 <101: InBook, 302 InBook,被包含 > 或 <101 InBook, 302 Resource,包含 > 或同時刪掉它們兩個。
(2106)轉(zhuǎn)到步驟2103,直到遍歷過濾完源實(shí)體歸類匹配候選集合列表中所有的源實(shí)體歸類匹配候選集合;(2107)將經(jīng)過步驟2106過濾后的新的第一匹配候選集合MC0,按照目標(biāo)實(shí)體的不同,分解出所有目標(biāo)實(shí)體歸類匹配候選集合MC(*,A),并構(gòu)成一個目標(biāo)實(shí)體歸類匹配候選集合列表;目標(biāo)實(shí)體歸類匹配候選集合MC (*,A)中的A表示目標(biāo)本體中的一個目標(biāo)實(shí)體,*表示在新的第一匹配候選集合MCO中與目標(biāo)實(shí)體A有匹配關(guān)系的任意源實(shí)體,目標(biāo)實(shí)體歸類匹配候選集合MC(*,A)表示新的第一匹配候選集合MCO中與目標(biāo)實(shí)體A存在匹配關(guān)系的所有匹配候選的集合;(2108)從目標(biāo)實(shí)體歸類匹配候選集合列表取出一個目標(biāo)實(shí)體歸類匹配候選集合 MC(*,Α);(2109)如果在目標(biāo)實(shí)體歸類匹配候選集合MC(*,Α)中的匹配候選具有相等 equivalent的關(guān)系,則直接刪除目標(biāo)實(shí)體歸類匹配候選集合MC(*,A)中非等關(guān)系的匹配候選,然后在目標(biāo)實(shí)體歸類匹配候選集合MC(*,Α)僅保留一個具有相等關(guān)系的匹配候選;保留原則是選擇源實(shí)體和目標(biāo)實(shí)體間具有最大串相似度的匹配候選;(2110)如果在目標(biāo)實(shí)體歸類匹配候選集合MC (*,A)中存在多個匹配候選,則將目標(biāo)實(shí)體歸類匹配候選集合MC (*,A)作為公理添加到所述的集成本體中,并檢測該集成本體是否一致,如果不一致,則刪除目標(biāo)實(shí)體歸類匹配候選集合MC(*,Α)中導(dǎo)致所述的集成本體不一致的匹配候選;(2111)轉(zhuǎn)到步驟2108,直到遍歷過濾完目標(biāo)實(shí)體歸類匹配候選集合列表中的所有目標(biāo)實(shí)體歸類匹配候選集合,從而得到過濾后的第二匹配候選集合MCF。所述步驟3中的根據(jù)相似性原則對步驟2所獲得的所述的第二匹配候選集合MCF 進(jìn)行細(xì)化以產(chǎn)生第三匹配候選集合MCFS的具體內(nèi)容包括下列操作步驟(31)取源本體中的任意實(shí)體A,取目標(biāo)本體中任意實(shí)體B,并保證所述實(shí)體A和實(shí)體B為同一類型實(shí)體;(32)按照設(shè)定的方法,計算實(shí)體A和實(shí)體B之間的詞法相似性LS (A,B)、語義相似性SS(A,B)和字符串相似性SM (A,B),然后計算實(shí)體A和實(shí)體B之間的相似性S(A,B);所述實(shí)體A和實(shí)體B之間的詞法相似性LS (A,B)的計算方法是如果所述實(shí)體A和實(shí)體B是所述步驟2所得到的第二匹配候選集合MCF中的匹配候選,則所述實(shí)體A和實(shí)體B之間的詞法相似性LS (A,B)為一個不大于1的正實(shí)數(shù)Vl (比如Vl = 0. 5),否則為零;所述實(shí)體A 和實(shí)體B之間的相似性S (A,B)就是所述實(shí)體A和實(shí)體B之間的詞法相似性LS (A,B)、語義相似性SS(A,B)和字符串相似性SM(A,B)三者之和;例如,設(shè)實(shí)體A是<101:Book〉,實(shí)體B是<302:Book〉,他們都出現(xiàn)在第二匹配候選集合MCF中,計算它們之間的相似性S (A,B)具體如下如果設(shè)定Vl = 0. 5,則詞法相似性 LS(A,B)為0. 5 ;它們之間字符串相似性SM(A,B)為1. 0 ;它們之間SS(A,B)的值為0. 35, 則 <101:Book> 和 <302:Book)之間的相似性為 0. 5+1. 0+0. 35 = 1. 85。(33)轉(zhuǎn)到步驟31遍歷任何兩個分別來自源本體和目標(biāo)本體的相同類型實(shí)體;(34)把任何兩個有相同類型來自不同本體的實(shí)體A和實(shí)體B的匹配描述成<A,B, Relation, S (A, B) >的形式,如果A和B分別作為所述步驟2所得到的所述的第二匹配候選集合MCF里某個匹配候選的源實(shí)體和目標(biāo)實(shí)體,則關(guān)系Relation即為所述第二匹配候選集合MCF中的匹配的關(guān)系,否則使用無關(guān)系NoRelation,即實(shí)體A和實(shí)體B的匹配描述成<A, B, NoRelation, S(A,B)> ;(35)將上述計算所得到匹配中的實(shí)體之間的相似性與設(shè)定的閥值進(jìn)行比較,如果大于所設(shè)定的閥值,則為合格的匹配,添加到第三匹配候選集合MCFS中。例如對于<101: InBook, 302: InBook,被包含,1. 5> 和 <101 Book,302:Book,相等,1. 85>這兩個匹配,如果閥值設(shè)為1. 6,則將<101:Book, 302:Book,相等,1. 85>添加到第三匹配候選集合MCFS中。所述步驟32中的計算實(shí)體A和實(shí)體B之間的語義相似性SS(A,B)的方法是包括如下操作步驟(3201)如果所述實(shí)體A和實(shí)體B都是概念,則轉(zhuǎn)步驟3202,否則實(shí)體A和實(shí)體B 之間的語義相似性SS (A,B)值為零;(3202)獲得實(shí)體A即概念A(yù)的所有父實(shí)體(SupEntity) PA和實(shí)體B即概念B的所有父實(shí)體PB,定義一個計數(shù)器counter,并設(shè)該計數(shù)器counter的初始值為零;(3203)計算實(shí)體A的所有父實(shí)體PA和實(shí)體A的所有相關(guān)屬性的屬性集合PS (A), 計算實(shí)體B的所有父實(shí)體PB和實(shí)體B的所有相關(guān)屬性的屬性集合PS (B);(3204)如果分別來自所述屬性集合PS㈧和屬性集合PS (B)的兩個屬性是所述步驟2所得到的所述的第二匹配候選集合MCF中的不相交disjoint匹配候選,則將所述的計數(shù)器counter加1 ;(3205)轉(zhuǎn)到步驟3204遍歷分別來自所述屬性集合PS(A)和屬性集合PS (B)的任何兩個屬性;(3206)按照下式計算實(shí)體A和實(shí)體B之間的語義相似性SS(A,B)的值,
counterSS(A'B) = PS(A). size+ PS(B). size上式中,PS(A). size表示所述屬性集合PS(A)的大小,PS(B). size表示所述屬性集合PS⑶的大小。例如,計算實(shí)體<101 Book)和實(shí)體<302 Book)之間語義相似性SS (A,B),假設(shè)屬性集合PS(101:BOOk)為15,屬性集合PS(302:Book)為8,如果在第二匹配候選集合MCF中存在8對匹配候選,它們的源實(shí)體來自PS(101:BOOk)并且它們的目標(biāo)實(shí)體來自 PS (302: Book), PJSS(A,B) =^ =0.35。
15+8所述步驟4中根據(jù)包含原則對步驟2所獲得的所述的第二的匹配候選集合MCF進(jìn)行細(xì)化以產(chǎn)生所述第四匹配候選集合MCFC的具體內(nèi)容包括如下操作步驟(41)從步驟2所獲得的所述第二匹配候選集合MCF中選擇具有相等equivalent 關(guān)系并且所對應(yīng)的兩實(shí)體A和B之間的相似性S(A,B)大于設(shè)定閾值的匹配候選MC,記為 <A,B, equivalent, S (A, B) > ;所述的兩實(shí)體A和B之間的相似性S (A,B)由步驟32計算獲得;例如,在第二匹配候選集合MCF中有匹配候選<101JnBook,302:InBook,被包含,1. 5>和<101:Book,302:Book,相等,1. 85>,如果閥值設(shè)為1. 6,則匹配候選<101:Book, 302Book,相等,1. 85> 被選中。(42)按照設(shè)定的方法計算實(shí)體A最近子實(shí)體集cs (A)和實(shí)體B的最近子實(shí)體集cs(B);(43)對于實(shí)體B的最近子實(shí)體集cs (B)中的任意一個元素實(shí)體C,產(chǎn)生新的匹配候選,即<A,C,include, 0>,實(shí)體A和實(shí)體C是包含關(guān)系include,相似度值設(shè)為0,并添加到所述的第四匹配候選集合MCFC中;對于實(shí)體A的最近子實(shí)體集Cs(A)中的任意一個元素實(shí)體D對,產(chǎn)生新的匹配候選,即<D,B, behcluded,?!担瑢?shí)體D和實(shí)體B是被包含關(guān)系 behcluded,相似度值設(shè)為0,并添加到所述的第四匹配候選集合MCFC中。例如,對于匹配候選<101:Book,302:Book,相等 >,實(shí)體<101:Book>的最近子實(shí)體集為cs (101:Book) ={101 !Collection, 101 :Monograph, 101 !Proceedings},從而可推出 <101 Collection, 302:Book,被包含,0. 0>,<101 !Monograph, 302Book,被包含,0. 0> 禾口 <101 :Proceedings, 302:Book,被包含,0. 0>等新的匹配候選,并將它們加入到第四匹配候選集合MCFC中;如果實(shí)體<302:BOOk>的最近子實(shí)體集為cs (302:Book) = {},則沒有相應(yīng)的新匹配候選被加入到第四匹配候選集合MCFC中;所述步驟42中所述的計算一個實(shí)體最近子實(shí)體集的方法的具體內(nèi)容包括如下操作步驟(4201)對于一個實(shí)體E,計算其所有的子實(shí)體所構(gòu)成的集合SS;(4202)取集合SS中任意一個實(shí)體SE,如果實(shí)體SE不是集合SS中任何實(shí)體的子實(shí)體,則把實(shí)體SE添加進(jìn)實(shí)體E的最近子實(shí)體集cs (E)中;(4203)重復(fù)步驟4202,直到遍歷完集合SS中所有的實(shí)體。以2009年國際本體匹配競賽使用的標(biāo)準(zhǔn)測試集中的本體 101(http:// oaei. ontologymatching. org/2011/benchmarks/101/onto, rdf)作為源本體,以本體 301(http:// oaei. ontologymatching. org/2011/benchmarks/301/onto, rdf)、* # 302 (http://oaei. ontologymatching. org/201l/benchmarks/302/onto. rdf)、本體 303 (http://oaei. ontologymatching. org/2011/benchmarks/303/onto. rdf)和本體 304 (http://oaei. ontologymatching. org/201l/benchmarks/302/onto, rdf)作為目標(biāo)本體,發(fā)明人通過試驗(yàn)測試本發(fā)明方法的本體匹配性能,并與國際上其他的本體匹配方法(包括 edna、MapPS0、Lily、RiM0M、DSSim、AR0MA、GeRoMe、Kosimap、TaxoMap、 S0B0M)進(jìn)行了試驗(yàn)比較,試驗(yàn)結(jié)果參見圖2。圖2中本發(fā)明的方法用OMI-DL表示,圖中F 測度(F-Measure)指標(biāo)反映了本體匹配準(zhǔn)確率和覆蓋率的綜合值,從圖2中可以看出本發(fā)明方法的F測度(F-Measure)指標(biāo)比其他方法都要高。
權(quán)利要求
1.一種基于本體詞法信息和語義信息的本體匹配方法,其特征在于所述方法包括下列操作步驟(1)將待匹配的兩個本體分別定為源本體和目標(biāo)本體,計算來自源本體與目標(biāo)本體的概念匹配候選集合,計算來自源本體與目標(biāo)本體的屬性匹配候選集合,然后合并所述的屬性匹配候選集合和概念匹配候選集合,得到第一匹配候選集合MCO ;(2)對步驟1所獲得的第一匹配候選集合MCO中的匹配候選進(jìn)行循環(huán)過濾,得到第二匹配候選集合MCF ;(3)對步驟2所獲得的第二匹配候選集合MCF,根據(jù)相似性原則進(jìn)行細(xì)化,產(chǎn)生第三匹配候選集合MCFS ;(4)對步驟2所獲得的第二匹配候選集合MCF,根據(jù)包含原則進(jìn)行細(xì)化,產(chǎn)生第四匹配候選集合MCFC ;(5)把步驟3所獲得的第三匹配候選集合MCFS和步驟4所獲得的第四匹配候選集合 MCFC進(jìn)行合并,得到最終的匹配集合。
2.根據(jù)權(quán)利要求1所述的一種基于本體詞法信息和語義信息的本體匹配方法,其特征在于所述步驟1中的計算來自源本體與目標(biāo)本體的概念匹配候選集合的具體內(nèi)容包括下列操作步驟(101)得到源本體概念列表CLS,得到目標(biāo)本體概念列表CLT;(102)取源本體概念列表CLS中的概念ConceptSource,取目標(biāo)本體概念列表CLT中的概念 ConceptTarget ;(103)按照設(shè)定的實(shí)體之間關(guān)系的計算方法,計算概念ConceptSource和概念Conc^ptTarget之間的關(guān)系,如果存在關(guān)系Relation,則獲得如下匹配候選 MC(ConceptSource, ConceptTarget) = 〈ConceptSource, ConceptTarget, Relation〉, 并添加到所述的概念匹配候選集合中;關(guān)系Relation分為包括include關(guān)系、被包括 belncluded關(guān)系、相等equivalent關(guān)系、不相交disjoint關(guān)系四類;(104)轉(zhuǎn)到步驟102直到遍歷計算完分別來自源本體概念列表CLS和目標(biāo)本體概念列表CLT中的任意兩個概念。
3.根據(jù)權(quán)利要求1所述的一種基于本體詞法信息和語義信息的本體匹配方法,其特征在于所述步驟1中的計算來自源本體與目標(biāo)本體的屬性匹配候選集合的具體內(nèi)容包括下列操作步驟(111)得到源本體屬性列表PLS,得到目標(biāo)本體屬性列表PLT;(112)取源本體屬性列表PLS中的屬性ftOpertySource,取目標(biāo)本體屬性列表PLT中的屬性 PropertyTarget ;(113)按照設(shè)定的實(shí)體之間關(guān)系的計算方法,計算屬性ftOpertySource和屬性ftOpertyTarget之間的關(guān)系,如果存在關(guān)系Relation,則獲得如下匹配候選 MC (PropertySource,PropertyTarget) = <PropertySource, PropertyTarget, Relation), 并添加到所述的屬性匹配候選集合中;關(guān)系Relation分為包括include關(guān)系、被包括 belncluded關(guān)系、相等equivalent關(guān)系、不相交disjoint關(guān)系四類;(114)轉(zhuǎn)到步驟112直到遍歷計算完分別來自源本體屬性列表PLS和目標(biāo)本體屬性列表PLT中的任意兩個屬性。
4.根據(jù)權(quán)利要求2和3所述的一種基于本體詞法信息和語義信息的本體匹配方法,其特征在于所述步驟103和步驟113中所述設(shè)定的實(shí)體之間關(guān)系的計算方法的具體內(nèi)容包括以下操作步驟(1031)計算得到實(shí)體EntitySource的詞法信息集合C(EntitySource)和實(shí)體 EntityTarget 的詞法信息集合 C (EntityTarget);(1032)計算分別來自實(shí)體EntitySource的詞法信息集合C(EntitytSource)和實(shí)體 EntityTarget的詞法信息集合C (EntitytTarget)的任何兩個元素之間的概念關(guān)系,并根據(jù)設(shè)定的關(guān)系轉(zhuǎn)換規(guī)則,將計算出的實(shí)體關(guān)系轉(zhuǎn)化為匹配關(guān)系,并記錄每種匹配關(guān)系的次數(shù);所述設(shè)定的關(guān)系轉(zhuǎn)換規(guī)則包括父類-包括關(guān)系SupClass-include、子類-被包括關(guān)系 SubClass-belncluded、不相交類-不相交關(guān)系DisjointClass_disjoint、相等類-相等關(guān)系 EquivalentClass-equivalent 四條規(guī)貝1J ;(1033)選擇具有次數(shù)值最大的關(guān)系作為實(shí)體EntitySource和實(shí)體EntitySource之間的匹配候選關(guān)系。
5.根據(jù)權(quán)利要求1所述的一種基于本體詞法信息和語義信息的本體匹配方法,其特征在于所述步驟2中對所獲得的第一匹配候選集合MCO中的匹配候選進(jìn)行循環(huán)過濾的具體內(nèi)容包括下列操作步驟(21)按照設(shè)定的過濾規(guī)則,對第一匹配候選集合MCO進(jìn)行過濾,得到第二匹配候選集合MCF ;所述的設(shè)定的過濾規(guī)則有如下二條,第一條如果本體的一個實(shí)體與另一本體的實(shí)體有多于一個的匹配候選,則這些匹配候選不應(yīng)該導(dǎo)致所述的這兩個待集成本體構(gòu)成的集成本體的不一致no-consistency,也不應(yīng)該直接在所述的這兩個待集成本體中產(chǎn)生新的公理axiom;第二條如果違反了第一條規(guī)則,則刪除匹配關(guān)系較弱的匹配,直至滿足第一條過濾規(guī)則,匹配關(guān)系從強(qiáng)到弱的順序依次是相等關(guān)系,包括關(guān)系,被包括關(guān)系,不相交關(guān)系;(22)檢查所述的第二匹配候選集合MCF是否滿足過濾充分性條件,如果滿足,則循環(huán)過濾操作結(jié)束,否則轉(zhuǎn)到步驟23 ;所述的充分性條件是指對于任意一個屬于所述的第一匹配候選集合MCO的匹配候選MC,則在所述的第二匹配候選集合MCF中一定存在一個匹配候選MC’,并且使得所述的匹配候選MC的源實(shí)體等于所述的匹配候選MC’的源實(shí)體或者所述的匹配候選MC的目標(biāo)實(shí)體等于所述的匹配候選MC’的目標(biāo)實(shí)體;(23)按照設(shè)定的標(biāo)記方法標(biāo)記由于過濾而失去的匹配候選集合MissingMC;所述的設(shè)定的標(biāo)記方法是對于一個屬于第一匹配候選集合MCO的匹配候選MC,如果滿足如下條件, 則被標(biāo)記;所述條件是對該匹配候選MC,如果存在一個所述的第二匹配候選集合MCF中的匹配候選MC’,使得匹配候選MC的源實(shí)體不等于匹配候選MC’的源實(shí)體并且匹配候選MC的目標(biāo)實(shí)體不等于匹配候選MC’的目標(biāo)實(shí)體同時成立;(24)所述的由于過濾而失去的匹配候集合MissingMC與所述的第二匹配候選集合MCF 合并,作為新的第一匹配候選集合MC0,然后轉(zhuǎn)到步驟21,繼續(xù)過濾過程。
6.根據(jù)權(quán)利要求5所述的一種基于本體詞法信息和語義信息的本體匹配方法,其特征在于所述步驟21中,對所述的第一匹配候選集合MCO進(jìn)行過濾的具體內(nèi)容包括下列操作步驟(2101)合并源本體中的公理和目標(biāo)本體中的公理形成集成本體;(2102)從所述的第一匹配候選集合MCO中,按照源實(shí)體的不同,分解出所有源實(shí)體歸類匹配候選集合MC (A,*),并構(gòu)成一個源實(shí)體歸類匹配候選集合列表;所述的源實(shí)體歸類匹配候選集合MC(A,*)中的A表示源本體中一個源實(shí)體,*表示在所述的第一匹配候選集合MCO中與源實(shí)體A有匹配關(guān)系的任意目標(biāo)實(shí)體,所述的源實(shí)體歸類匹配候選集合MC(A,*) 表示所述的第一匹配候選集合MCO中與源實(shí)體A存在匹配關(guān)系的所有匹配候選的集合;(2103)從源實(shí)體歸類匹配候選集合列表取出一個源實(shí)體歸類匹配候選集合MC(A,*);(2104)如果在源實(shí)體歸類匹配候選集合MC(A,*)中的匹配候選具有相等equivalent 的關(guān)系,則直接刪除源實(shí)體歸類匹配候選集合MC(A,*)中非等關(guān)系的匹配候選,然后在源實(shí)體歸類匹配候選集合MC (A,*)僅保留一個具有相等關(guān)系的匹配候選;保留原則是選擇源實(shí)體和目標(biāo)實(shí)體間具有最大串相似度的匹配候選;(2105)如果在源實(shí)體歸類匹配候選集合MC(A,*)中存在多個匹配候選,則將源實(shí)體歸類匹配候選集合MC (A,*)作為公理添加到所述的集成本體中,并檢測該集成本體是否一致,如果不一致,則刪除源實(shí)體歸類匹配候選集合MC(A,*)中導(dǎo)致所述的集成本體不一致的匹配候選;(2106)轉(zhuǎn)到步驟2103,直到遍歷過濾完源實(shí)體歸類匹配候選集合列表中所有的源實(shí)體歸類匹配候選集合;(2107)將經(jīng)過步驟2106過濾后的新的第一匹配候選集合MC0,按照目標(biāo)實(shí)體的不同, 分解出所有目標(biāo)實(shí)體歸類匹配候選集合MC(*,A),并構(gòu)成一個目標(biāo)實(shí)體歸類匹配候選集合列表;目標(biāo)實(shí)體歸類匹配候選集合MC (*,A)中的A表示目標(biāo)本體中的一個目標(biāo)實(shí)體,*表示在新的第一匹配候選集合MCO中與目標(biāo)實(shí)體A有匹配關(guān)系的任意源實(shí)體,目標(biāo)實(shí)體歸類匹配候選集合MC (*,A)表示新的第一匹配候選集合MCO中與目標(biāo)實(shí)體A存在匹配關(guān)系的所有匹配候選的集合;(2108)從目標(biāo)實(shí)體歸類匹配候選集合列表取出一個目標(biāo)實(shí)體歸類匹配候選集合 MC(*,A);(2109)如果在目標(biāo)實(shí)體歸類匹配候選集合MC(*,Α)中的匹配候選具有相等 equivalent的關(guān)系,則直接刪除目標(biāo)實(shí)體歸類匹配候選集合MC(*,A)中非等關(guān)系的匹配候選,然后在目標(biāo)實(shí)體歸類匹配候選集合MC(*,Α)僅保留一個具有相等關(guān)系的匹配候選;保留原則是選擇源實(shí)體和目標(biāo)實(shí)體間具有最大串相似度的匹配候選;(2110)如果在目標(biāo)實(shí)體歸類匹配候選集合MC(*,A)中存在多個匹配候選,則將目標(biāo)實(shí)體歸類匹配候選集合MC (*,A)作為公理添加到所述的集成本體中,并檢測該集成本體是否一致,如果不一致,則刪除目標(biāo)實(shí)體歸類匹配候選集合MC(*,Α)中導(dǎo)致所述的集成本體不一致的匹配候選;(2111)轉(zhuǎn)到步驟2108,直到遍歷過濾完目標(biāo)實(shí)體歸類匹配候選集合列表中的所有目標(biāo)實(shí)體歸類匹配候選集合,從而得到過濾后的第二匹配候選集合MCF。
7.根據(jù)權(quán)利要求1所述的一種基于本體詞法信息和語義信息的本體匹配方法,其特征在于所述步驟3中的根據(jù)相似性原則對步驟2所獲得的所述的第二匹配候選集合MCF進(jìn)行細(xì)化以產(chǎn)生第三匹配候選集合MCFS的具體內(nèi)容包括下列操作步驟(31)取源本體中的任意實(shí)體A,取目標(biāo)本體中任意實(shí)體B,并保證所述實(shí)體A和實(shí)體B 為同一類型實(shí)體;(32)按照設(shè)定的方法,計算實(shí)體A和實(shí)體B之間的詞法相似性LS(A,B)、語義相似性 SS(A,B)和字符串相似性SM(A,B),然后計算實(shí)體A和實(shí)體B之間的相似性S(A,B);所述實(shí)體A和實(shí)體B之間的詞法相似性LS (A,B)的計算方法是如果所述實(shí)體A和實(shí)體B是所述步驟2所得到的第二匹配候選集合MCF中的匹配候選,則所述實(shí)體A和實(shí)體B之間的詞法相似性LS (A,B)為一個不大于1的正實(shí)數(shù)VI,否則為零;所述實(shí)體A和實(shí)體B之間的相似性S (A,B)就是所述實(shí)體A和實(shí)體B之間的詞法相似性LS (A,B)、語義相似性SS (A,B)和字符串相似性SM (A,B)三者之和;(33)轉(zhuǎn)到步驟31遍歷任何兩個分別來自源本體和目標(biāo)本體的相同類型實(shí)體;(34)把任何兩個有相同類型來自不同本體的實(shí)體A和實(shí)體B的匹配描述成<A,B, Relation, S (A, B) >的形式,如果A和B分別作為所述步驟2所得到的所述的第二匹配候選集合MCF里某個匹配候選的源實(shí)體和目標(biāo)實(shí)體,則關(guān)系Relation即為所述第二匹配候選集合MCF中的匹配的關(guān)系,否則使用無關(guān)系NoReIation,即實(shí)體A和實(shí)體B的匹配描述成<A, B, NoRelation, S(Α,B)> ;(35)將上述計算所得到匹配中的實(shí)體之間的相似性與設(shè)定的閥值進(jìn)行比較,如果大于所設(shè)定的閥值,則為合格的匹配,添加到第三匹配候選集合MCFS中。
8.根據(jù)權(quán)利要求7所述的一種基于本體詞法信息和語義信息的本體匹配方法,其特征在于所述步驟32中的計算實(shí)體A和實(shí)體B之間的語義相似性SS(A,B)的方法是包括如下操作步驟(3201)如果所述實(shí)體A和實(shí)體B都是概念,則轉(zhuǎn)步驟3202,否則實(shí)體A和實(shí)體B之間的語義相似性SS (A,B)值為零;(3202)獲得實(shí)體A即概念A(yù)的所有父實(shí)體PA和實(shí)體B即概念B的所有父實(shí)體PB,定義一個計數(shù)器counter,并設(shè)該計數(shù)器counter的初始值為零;(3203)計算實(shí)體A的所有父實(shí)體PA和實(shí)體A的所有相關(guān)屬性的屬性集合PS(A),計算實(shí)體B的所有父實(shí)體PB和實(shí)體B的所有相關(guān)屬性的屬性集合PS (B);(3204)如果分別來自所述屬性集合PS㈧和屬性集合PS(B)的兩個屬性是所述步驟2 所得到的所述的第二匹配候選集合MCF中的不相交disjoint匹配候選,則將所述的計數(shù)器 counter 力口 1 ;(3205)轉(zhuǎn)到步驟3204遍歷分別來自所述屬性集合PS(A)和屬性集合PS (B)的任何兩個屬性;(3206)按照下式計算實(shí)體A和實(shí)體B之間的語義相似性SS(A,B)的值,counterSS(A'B) = PS(A). size+ PS(B). size上式中,PS(A). size表示所述屬性集合PS(A)的大小,PS(B). size表示所述屬性集合 PS(B)的大小。
9.根據(jù)權(quán)利要求1所述的一種基于本體詞法信息和語義信息的本體匹配方法,其特征在于所述步驟4中根據(jù)包含原則對步驟2所獲得的所述的第二匹配候選集合MCF進(jìn)行細(xì)化以產(chǎn)生所述第四匹配候選集合MCFC的具體內(nèi)容包括如下操作步驟(41)從步驟2所獲得的所述第二匹配候選集合MCF中選擇具有相等equivalent關(guān)系并且所對應(yīng)的兩實(shí)體A和B之間的相似性S (A,B)大于設(shè)定閾值的匹配候選MC,記為<A,B, equivalent, S (A, B) > ;所述的兩實(shí)體A和B之間的相似性S (A,B)由步驟32計算獲得;(42)按照設(shè)定的方法計算實(shí)體A最近子實(shí)體集cs㈧和實(shí)體B的最近子實(shí)體集 cs(B);(43)對于實(shí)體B的最近子實(shí)體集Cs(B)中的任意一個元素實(shí)體C,產(chǎn)生新的匹配候選,即<A,C,include,0>,實(shí)體A和實(shí)體C是包含關(guān)系include,相似度值設(shè)為0,并添加到所述的第四匹配候選集合MCFC中;對于實(shí)體A的最近子實(shí)體集Cs(A)中的任意一個元素實(shí)體D對,產(chǎn)生新的匹配候選,即<D,B, behcluded,?!?,實(shí)體D和實(shí)體B是被包含關(guān)系 behcluded,相似度值設(shè)為0,并添加到所述的第四匹配候選集合MCFC中。
10.根據(jù)權(quán)利要求9所述的一種基于本體詞法信息和語義信息的本體匹配方法,其特征在于所述步驟42中所述的計算一個實(shí)體最近子實(shí)體集的方法的具體內(nèi)容包括如下操作步驟(4201)對于一個實(shí)體E,計算其所有的子實(shí)體所構(gòu)成的集合SS;(4202)取集合SS中任意一個實(shí)體SE,如果實(shí)體SE不是集合SS中任何實(shí)體的子實(shí)體, 則把實(shí)體SE添加進(jìn)實(shí)體E的最近子實(shí)體集cs (E)中;(4203)重復(fù)步驟4202,直到遍歷完集合SS中所有的實(shí)體。
全文摘要
一種用于本體匹配的本體詞法分析方法,包括以下操作步驟(1)將待匹配的兩個本體分別定為源本體和目標(biāo)本體,分別計算來自源本體與目標(biāo)本體的概念匹配候選集合和屬性匹配候選集合,然后合并所述的屬性匹配候選集合和概念匹配候選集合,得到第一匹配候選集合;(2)對第一匹配候選集合中的匹配候選進(jìn)行循環(huán)過濾,得到第二匹配候選集合;(3)對第二匹配候選集合,根據(jù)相似性原則進(jìn)行細(xì)化,產(chǎn)生第三匹配候選集合;(4)對第二匹配候選集合,根據(jù)包含原則進(jìn)行細(xì)化,產(chǎn)生第四匹配候選集合(5)把第三匹配候選集合和第四匹配候選集合進(jìn)行合并,得到最終的匹配集合。本發(fā)明的方法提高了本體匹配的覆蓋率和準(zhǔn)確率。
文檔編號G06F17/27GK102360394SQ20111033095
公開日2012年2月22日 申請日期2011年10月27日 優(yōu)先權(quán)日2011年10月27日
發(fā)明者劉秀磊, 廖建新, 張磊, 戚琦, 李煒, 樊利民, 沈奇威, 王純 申請人:北京郵電大學(xué)