專(zhuān)利名稱(chēng):大規(guī)模語(yǔ)義知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息處理技術(shù),特別是涉及一種基于*吐2.0網(wǎng)絡(luò)的異構(gòu)語(yǔ)義知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)系統(tǒng)。
背景技術(shù):
本發(fā)明所涉及的有以下幾個(gè)技術(shù)1.語(yǔ)義^feb的知識(shí)庫(kù)語(yǔ)義Web已經(jīng)發(fā)展了十余年時(shí)間。知識(shí)表示、知識(shí)存儲(chǔ)和查詢(xún)、知識(shí)推理等語(yǔ)義 Web技術(shù)的研究已經(jīng)有了長(zhǎng)足的進(jìn)步。但是與傳統(tǒng)的Web相比,語(yǔ)義Web的知識(shí)庫(kù)規(guī)模還相差甚遠(yuǎn),能夠?qū)嶋H應(yīng)用的本體知識(shí)庫(kù)鳳毛麟角,很難滿(mǎn)足語(yǔ)義Web對(duì)大規(guī)模知識(shí)庫(kù)的需求。究其原因,本體的構(gòu)建成本、效率,以及本體的管理難題都是制約語(yǔ)義知識(shí)庫(kù)發(fā)展的障礙。本體是構(gòu)成知識(shí)庫(kù)的主體,目前構(gòu)建本體的途徑主要是由領(lǐng)域?qū)<彝ㄟ^(guò)手工來(lái)制作本體,不但成本高、效率低,而且維護(hù)起來(lái)非常困難,也有研究人員通過(guò)統(tǒng)計(jì)分析和自然語(yǔ)言處理的方法對(duì)已有的Web頁(yè)面進(jìn)行標(biāo)注或者抽取來(lái)獲取語(yǔ)義知識(shí),但是語(yǔ)義識(shí)別準(zhǔn)確率不高,造成了本體質(zhì)量低下。至今人們尚未找到一種能夠持續(xù)、高效、優(yōu)質(zhì)地構(gòu)建本體的途徑。 然而,自底向上的建設(shè)語(yǔ)義Web已經(jīng)獲得越來(lái)越多的共識(shí),從簡(jiǎn)單地關(guān)聯(lián)大量的開(kāi)放數(shù)據(jù)集開(kāi)始,逐漸積累并豐富其語(yǔ)義,從而構(gòu)建帶有語(yǔ)義的Web知識(shí)庫(kù)的工作已經(jīng)起步并獲得了顯著的進(jìn)展。2.分布式本體研究語(yǔ)義Web的發(fā)展從一開(kāi)始就是建立在Web2. 0基礎(chǔ)之上的,必將包含海量的語(yǔ)義數(shù)據(jù)。此外,在語(yǔ)義發(fā)展初期,眾多的標(biāo)準(zhǔn)和技術(shù)形成了大量的異構(gòu)語(yǔ)義數(shù)據(jù)源,如何聯(lián)合異構(gòu)語(yǔ)義數(shù)據(jù)源并在海量語(yǔ)義數(shù)據(jù)中進(jìn)行查詢(xún)和推理已經(jīng)越來(lái)越受到科研人員的重視,然而由于大規(guī)模的語(yǔ)義Web知識(shí)庫(kù)尚未建立,因此對(duì)分布式本體的研究也很難找到著力點(diǎn)。但是,在研究中提出來(lái)的一些思想和架構(gòu)依然可以被借鑒,用來(lái)解決分布式本體條件下的難題。3.知識(shí)庫(kù)維護(hù)研究語(yǔ)義知識(shí)庫(kù)的維護(hù)主要是指對(duì)大量異構(gòu)語(yǔ)義數(shù)據(jù)源的管理,以使整個(gè)語(yǔ)義知識(shí)庫(kù)保持上層語(yǔ)義網(wǎng)應(yīng)用所需的一致性以及推理和查詢(xún)的效率。目前圍繞知識(shí)庫(kù)不一致性處理方面,已經(jīng)產(chǎn)生了各個(gè)研究領(lǐng)域,如不一致性檢測(cè)、不一致性推理、不一致性調(diào)試等,在提升推理和查詢(xún)效率上,一方面有對(duì)本體推理查詢(xún)算法的改進(jìn),如圍繞描述邏輯推理算法 tabular算法的優(yōu)化,對(duì)SPARQL查詢(xún)機(jī)制的優(yōu)化,另一方面有通過(guò)對(duì)本體之間數(shù)據(jù)關(guān)系的挖掘,來(lái)優(yōu)化知識(shí)庫(kù)中本體的存儲(chǔ)結(jié)構(gòu),進(jìn)而提高推理查詢(xún)的效率,如本體合并、本體分割。針對(duì)大規(guī)模語(yǔ)義知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)的難題,如何將各種本體維護(hù)算法結(jié)合起來(lái)構(gòu)建一個(gè)能夠提供不一致性本體處理,并能動(dòng)態(tài)優(yōu)化知識(shí)庫(kù)中本體存儲(chǔ)結(jié)構(gòu)的管理接口是本領(lǐng)域所要解決的問(wèn)題。
發(fā)明內(nèi)容
基于上述現(xiàn)有技術(shù),本發(fā)明提出一種大規(guī)模語(yǔ)義知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)系統(tǒng),結(jié)合本體合并算法、本體不一致性處理算法和本體分割算法,將不一致性處理算法與大規(guī)模語(yǔ)義知識(shí)庫(kù)進(jìn)行了整合,從而實(shí)現(xiàn)了大規(guī)模語(yǔ)義知識(shí)庫(kù)的一致性管理。本發(fā)明提出了一種大規(guī)模語(yǔ)義知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)系統(tǒng),該系統(tǒng)包括主服務(wù)器、分布式數(shù)據(jù)服務(wù)器以及存儲(chǔ)采用OffL語(yǔ)言描述的本體知識(shí)庫(kù),其特征在于,該系統(tǒng)還包括部署于主服務(wù)器上的全局知識(shí)管理系統(tǒng)和部署于該系統(tǒng)的分布式數(shù)據(jù)服務(wù)器的局部數(shù)據(jù)管理系統(tǒng),所述全局知識(shí)管理系統(tǒng)和所述局部數(shù)據(jù)管理系統(tǒng)通過(guò)知識(shí)總線控制器,以一套標(biāo)準(zhǔn)的知識(shí)通信指令進(jìn)行交互,其中局部數(shù)據(jù)管理系統(tǒng),用于監(jiān)聽(tīng)通過(guò)總線MULE傳送來(lái)的指令并根據(jù)總線返回的控制流指令返回本體處理數(shù)據(jù),實(shí)現(xiàn)語(yǔ)義知識(shí)庫(kù)動(dòng)態(tài)維護(hù)算法數(shù)據(jù)的存儲(chǔ)與管理,包括本體的合并、分割以及不一致性處理;全局知識(shí)管理系統(tǒng),用于統(tǒng)籌、維護(hù)和應(yīng)用本體知識(shí)庫(kù),該系統(tǒng)包括局部服務(wù)器索引,該索引用來(lái)記錄位于輔助數(shù)據(jù)服務(wù)器上的局部服務(wù)器的標(biāo)注的信息,然后位于主服務(wù)器上負(fù)責(zé)統(tǒng)籌、維護(hù)和應(yīng)用本體知識(shí)庫(kù)的全局知識(shí)管理系統(tǒng)運(yùn)行核心處理,依據(jù)請(qǐng)求查詢(xún)相應(yīng)索引信息,并發(fā)出多播和廣播指令;API解釋器,用于將來(lái)自上層的功能API的請(qǐng)求,解釋成基礎(chǔ)的核心查詢(xún)指令,支持系統(tǒng)運(yùn)行;全局知識(shí)庫(kù)管理模塊,運(yùn)行于主服務(wù)器后臺(tái),用于執(zhí)行本體知識(shí)庫(kù)推理和演化算法,優(yōu)化知識(shí)庫(kù)結(jié)構(gòu)和存儲(chǔ),實(shí)現(xiàn)一致本體視圖抽取、本體合并、本體分割、負(fù)載均衡,具體算法如下本體合并算法,首先找到兩個(gè)輸入本體之間實(shí)體的關(guān)聯(lián),然后指定一個(gè)本體A作為基本體,將另一個(gè)本體B導(dǎo)入本體A中,然后在合并本體B中添加關(guān)聯(lián)描述,則得到了所需的合并后的本體結(jié)果;本體不一致性處理算法,對(duì)每個(gè)不一致本體,計(jì)算不一致本體的不可滿(mǎn)足概念集; 讀取每一個(gè)不可滿(mǎn)足概念的最小不一致子本體從每個(gè)不一致子本體中抽取一個(gè)三元組, 如果子本體有相交,則抽取相交部分的三元組,組成三元組集合;從原本體中去除這個(gè)三元組集合,使得所有不一致本體一致;得到最大一致子本體;本體分割算法,給定一個(gè)本體,首先將其轉(zhuǎn)化為圖形結(jié)構(gòu),然后判斷其是否全連通,如果全連通則計(jì)算最小割集,包括割點(diǎn)與割邊;根據(jù)割集分割;如果不是全連通,則計(jì)算極大連通子圖,然后根據(jù)子圖進(jìn)行分割。所述局部服務(wù)器的標(biāo)識(shí)信息包括如通信地址、本體列表、局部服務(wù)器狀態(tài)信息。所述找到兩個(gè)輸入本體之間實(shí)體的關(guān)聯(lián)的步驟,具體包括基于實(shí)體字符串距離構(gòu)造一個(gè)距離矩陣,通過(guò)字符串距離計(jì)算算法,求得每一對(duì)實(shí)體之間的距離,距離最近的實(shí)體即認(rèn)為是有關(guān)聯(lián)的實(shí)體。所述字符串距離計(jì)算算法采用ontosim中的符串距離計(jì)算算法。所述找到兩個(gè)輸入本體之間實(shí)體的關(guān)聯(lián)的步驟,該步驟的具體實(shí)現(xiàn)包括以下步驟通過(guò)對(duì)外部語(yǔ)義工具的調(diào)用,找到實(shí)體名之間的關(guān)聯(lián)度,關(guān)聯(lián)度最小的即認(rèn)為是有關(guān)聯(lián)的實(shí)體;
所述外部語(yǔ)義工具為WordNet或Wikipedia。所述通過(guò)總線MULE傳送來(lái)的指令,該指令文件名必須與ontologyURI —致。與現(xiàn)有技術(shù)相比,本發(fā)明能夠通過(guò)平臺(tái)及平臺(tái)之上的優(yōu)化算法,實(shí)現(xiàn)對(duì)大規(guī)模語(yǔ)義知識(shí)庫(kù)本體的優(yōu)化,從而減少存儲(chǔ)規(guī)模,以及優(yōu)化推理和查詢(xún)的效率。
圖1為分布式本體管理體系架構(gòu)圖;圖2為本體合并算法流程圖;圖3為本體不一致性處理算法流程圖;圖4為本體分割算法流程具體實(shí)施例方式首先,本發(fā)明利用了本體合并算法。由于本體數(shù)據(jù)源之間的異構(gòu)以及概念的重疊, 找到本體之間結(jié)構(gòu)的關(guān)聯(lián),減少存儲(chǔ)規(guī)模從而優(yōu)化推理和查詢(xún)的效率就變得可能,該算法主要通過(guò)尋找本體的實(shí)體之間的距離,從而在合并后的本體中添加實(shí)體關(guān)系的描述,進(jìn)而建立本體之間的關(guān)聯(lián)。其次,本發(fā)明利用了本體不一致性處理算法?,F(xiàn)實(shí)開(kāi)放世界中的知識(shí)本身存在不完全性以及知識(shí)隨時(shí)間的動(dòng)態(tài)演化性,因此不一致性的出現(xiàn)不可避免。通過(guò)本發(fā)明提出了一種提取最大一致子本體的算法來(lái)解決這些問(wèn)題。在本發(fā)明中的本體是采用基于描述邏輯的語(yǔ)言——OffL描述的。并且,將這個(gè)算法與底層知識(shí)庫(kù)結(jié)合了起來(lái),從而實(shí)現(xiàn)了分布式環(huán)境下全局知識(shí)庫(kù)的一致性管理。以及,本發(fā)明還利用了本體分割算法的應(yīng)用。在本體知識(shí)庫(kù)中,有時(shí)會(huì)出現(xiàn)一些大規(guī)模本體,這些本體的出現(xiàn)對(duì)知識(shí)庫(kù)推理和查詢(xún)的效率會(huì)有顯著的影響,通過(guò)將其分割成一些小規(guī)模本體就可以極大地提高推理和查詢(xún)的效率。各個(gè)算法的功能如下一、本體合并算法。對(duì)任意給定的兩個(gè)OffL本體,找到他們的實(shí)體(類(lèi)、屬性、實(shí)例)之間的關(guān)聯(lián)(子類(lèi)或者等價(jià))。二、本體不一致性處理算法。對(duì)任意給定的一個(gè)不一致本體,返回一個(gè)臨時(shí)的最大一致子本體。三、本體分割算法。對(duì)任意一個(gè)規(guī)則的OffL本體,返回它的最小割集。算法演示平臺(tái)綜合了以上三種算法,從而可以更加方便地對(duì)這些算法進(jìn)行測(cè)試, 此外在這個(gè)平臺(tái)的基礎(chǔ)上以及對(duì)大規(guī)模語(yǔ)義知識(shí)庫(kù)的整體設(shè)計(jì)上,將不一致性處理算法整合到知識(shí)庫(kù)的管理接口中來(lái),實(shí)現(xiàn)了對(duì)大規(guī)模語(yǔ)義知識(shí)庫(kù)的一致性管理。以下通過(guò)具體實(shí)施方式
的描述,進(jìn)一步說(shuō)明本發(fā)明的技術(shù)方案1.大規(guī)模語(yǔ)義知識(shí)庫(kù)設(shè)計(jì)我們將這個(gè)大規(guī)模語(yǔ)義知識(shí)庫(kù)設(shè)計(jì)成由一個(gè)主服務(wù)器控制多個(gè)輔助數(shù)據(jù)服務(wù)器的模式。如圖1所示,該分布式本體管理體系架構(gòu)以知識(shí)總線控制器為邊界,分為兩個(gè)部分。上面的是全局知識(shí)管理系統(tǒng),下面的是位于分布式數(shù)據(jù)服務(wù)器上的局部數(shù)據(jù)管理系統(tǒng)。這兩個(gè)部分通過(guò)知識(shí)總線控制器和一套標(biāo)準(zhǔn)的知識(shí)通信指令進(jìn)行交互,最終完成知識(shí)庫(kù)的管理工作。局部數(shù)據(jù)管理系統(tǒng)位于輔助數(shù)據(jù)服務(wù)器上,負(fù)責(zé)監(jiān)聽(tīng)總線傳來(lái)的指令,并返回所需數(shù)據(jù),維護(hù)局部數(shù)據(jù)的存儲(chǔ)與管理。全局知識(shí)管理系統(tǒng)則位于主服務(wù)器上,負(fù)責(zé)統(tǒng)籌、維護(hù)和應(yīng)用本體知識(shí)庫(kù)的功能。首先該系統(tǒng)需要一個(gè)局部服務(wù)器索引用來(lái)記錄局部服務(wù)器的信息,如通信地址、本體列表、局部服務(wù)器狀態(tài)等信息。然后查詢(xún)運(yùn)行核心程序需要查詢(xún)?cè)撍饕畔?,并發(fā)出多播和廣播指令。API解釋器相當(dāng)于一個(gè)適配器,將上層五花八門(mén)的API 請(qǐng)求,解釋成基礎(chǔ)的核心查詢(xún)指令,以此來(lái)支持系統(tǒng)運(yùn)行。全局知識(shí)庫(kù)管理器則是一個(gè)特殊的程序,它不停地運(yùn)行于主服務(wù)器后臺(tái),并執(zhí)行本體知識(shí)庫(kù)推理和演化算法,不斷地優(yōu)化知識(shí)庫(kù)結(jié)構(gòu)和存儲(chǔ),其作用應(yīng)該包括一致本體視圖抽取、本體合并、本體分割、負(fù)載均衡等。2.本體合并算法如圖2所示,為本體合并算法流程,使用Jena進(jìn)行本體的合并時(shí),首先找到兩個(gè)輸入本體之間實(shí)體的關(guān)聯(lián),然后指定一個(gè)本體A作為基本體,將另一個(gè)本體B導(dǎo)入本體A中, 然后在合并本體B中添加關(guān)聯(lián)描述,則得到了所需的合并后的本體結(jié)果。合并后的本體可能會(huì)存在不一致性anconsistency)的情況,這時(shí)可以采用Jena或者Pellet進(jìn)行一致性驗(yàn)證。例如,在本體B中添加完關(guān)聯(lián)描述以后就可以調(diào)用Jena或者Pellet的推理器接口 (Reasoner),進(jìn)行一致性驗(yàn)證了。如果不一致,則可通過(guò)再次調(diào)用Jena或者Pellet的推理器接口(Reas0ner)檢驗(yàn)是哪些概念導(dǎo)致了本體不一致性的出現(xiàn)。本體合并算法的核心以及主要計(jì)算量集中在尋找本體之間的實(shí)體關(guān)聯(lián)。尋找關(guān)聯(lián)的原則主要有兩類(lèi)基于實(shí)體字符串距離,借助外部語(yǔ)義工具(如WordNetJikipedia)?;诘谝活?lèi)原則的方法主要是構(gòu)造一個(gè)距離矩陣,通過(guò)計(jì)算字符串相似度算法,求得每一對(duì)實(shí)體名之間的距離,距離最近的實(shí)體即認(rèn)為是有關(guān)聯(lián)的實(shí)體。在ontosim中,作者提供了多種計(jì)算字符串距離的算法,這些算法可以很方便的與Alignment API結(jié)合。借助該API的幫助,我們可以比較各種算法的結(jié)果,并且與標(biāo)準(zhǔn)結(jié)果進(jìn)行比較等功能。在本發(fā)明中,為了簡(jiǎn)化上述字符串距離算法,假定如果字符串相等,則距離為0,否則為1。基于第二種原則的方法則是通過(guò)對(duì)外部語(yǔ)義工具的調(diào)用,找到實(shí)體名之間的關(guān)聯(lián)度,關(guān)聯(lián)度最小的即認(rèn)為是有關(guān)聯(lián)的實(shí)體。例如,BLOOMS系統(tǒng)利用了 Wikipedia的分類(lèi)系統(tǒng)(category hierarchy),對(duì)每對(duì)即將合并的類(lèi)名,調(diào)用Wikipedia的服務(wù)(Webservice) 得到它所屬的種類(lèi)(category),遞歸得到一個(gè)高度為4的樹(shù),比較這些樹(shù)之間的重合度,得到類(lèi)之間的關(guān)系是相等、子類(lèi)還是無(wú)關(guān)。此外,在Alignment API中,利用WordNet的合并算法可以很方便地找到兩個(gè)概念之間的語(yǔ)義距離。這兩種原則在實(shí)際中都取得了比較好的效果。3.本體不一致性處理算法本發(fā)明考慮的本體是采用OWL語(yǔ)言描述的本體,而OWL語(yǔ)言遵循的邏輯基礎(chǔ)是描述邏輯的子集。在邏輯中,矛盾可以推導(dǎo)出一切,因而一個(gè)不一致本體是不能直接用來(lái)推理的。但現(xiàn)實(shí)環(huán)境中,因?yàn)橹R(shí)的不完全性以及隨時(shí)間的動(dòng)態(tài)演化性,使得知識(shí)的不一致性不可避免。因而我們需要尋找一種方法來(lái)解決在不一致環(huán)境下的本體推理。一種常用的方法就是構(gòu)造不一致本體的臨時(shí)最大一致子本體。如圖3所示,為計(jì)算最小不一致子本體的算法流程。簡(jiǎn)單說(shuō)來(lái),對(duì)每個(gè)不一致本體,第一步,計(jì)算不一致本體的不可滿(mǎn)足概念集;第二步,讀取每一個(gè)不可滿(mǎn)足概念的最小不一致子本體從每個(gè)不一致子本體中抽取一個(gè)三元組(如果子本體有相交,則抽取相交部分的三元組),組成三元組集合;從原本體中去除這個(gè)三元組集合,使得所有不一致本體一致,即得到了最大一致子本體;例如,定位本體0的最小子集0’,使得0’不能滿(mǎn)足概念C。換句話講,概念C在本體0的任意一個(gè)最大真子集中得到滿(mǎn)足,且在最小子集0’中不能滿(mǎn)足。本算法將可用于確定抽取一致本體的規(guī)模的上限。4.本體分割算法現(xiàn)實(shí)Web環(huán)境中存在各種規(guī)模的本體數(shù)據(jù),特別是一些專(zhuān)業(yè)組織開(kāi)放的本體。如果要將這些大規(guī)模本體添加到一個(gè)本體知識(shí)庫(kù)中,必須將其分割成小本體,以有利于知識(shí)庫(kù)的存儲(chǔ)和推理的效率。如果將類(lèi)看作節(jié)點(diǎn),類(lèi)之間的關(guān)系(子類(lèi)、互斥等)看作邊,則其存儲(chǔ)結(jié)構(gòu)就是一張圖。在實(shí)現(xiàn)本體分割算法的時(shí)候,可以將該視圖看作無(wú)向圖,并借鑒圖論中求割點(diǎn)(關(guān)節(jié)點(diǎn))的算法進(jìn)行分割。這里的圖是指一種復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)元素間的關(guān)系是任意的。其他數(shù)據(jù)結(jié)構(gòu)(如樹(shù)、線性表等)都有明確的條件限制,而圖形結(jié)構(gòu)中任意兩個(gè)數(shù)據(jù)元素間均可相關(guān)聯(lián)。如圖4所示,為本體分割算法流程。給定一個(gè)本體的視圖,首先將其轉(zhuǎn)化為圖形結(jié)構(gòu),然后判斷其是否全連通,如果全連通則計(jì)算最小割集(包括割點(diǎn)與割邊),根據(jù)割集分割;如果不是全連通,則計(jì)算極大連通子圖,然后根據(jù)子圖進(jìn)行分割。該本體分割算法的主要過(guò)程就是求關(guān)節(jié)點(diǎn)。求關(guān)節(jié)點(diǎn)的過(guò)程就是一次深度優(yōu)先遍歷的過(guò)程,該算法的時(shí)間復(fù)雜度為0(n+e)(其中η為節(jié)點(diǎn)數(shù),e為邊數(shù))。該算法僅僅針對(duì)本體結(jié)構(gòu)上的劃分;若再結(jié)合本體的語(yǔ)義等信息的考慮,本發(fā)明另外提出了一個(gè)模塊化本體的表示和推理的框架,這種模塊化表示可以看做本體分割的進(jìn)一步深化,本發(fā)明的本體模塊化具有以下三個(gè)特征松耦合性(loose coupling)、自包含性(self-containment)與完整性(integrity)。
權(quán)利要求
1.一種大規(guī)模語(yǔ)義知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)系統(tǒng),該系統(tǒng)包括主服務(wù)器、分布式數(shù)據(jù)服務(wù)器以及存儲(chǔ)采用OffL語(yǔ)言描述的本體知識(shí)庫(kù),其特征在于,該系統(tǒng)還包括部署于主服務(wù)器上的全局知識(shí)管理系統(tǒng)和部署于該系統(tǒng)的分布式數(shù)據(jù)服務(wù)器的局部數(shù)據(jù)管理系統(tǒng),所述全局知識(shí)管理系統(tǒng)和所述局部數(shù)據(jù)管理系統(tǒng)通過(guò)知識(shí)總線控制器,以一套標(biāo)準(zhǔn)的知識(shí)通信指令進(jìn)行交互,其中局部數(shù)據(jù)管理系統(tǒng),用于監(jiān)聽(tīng)通過(guò)總線MULE傳送來(lái)的指令并根據(jù)總線返回的控制流指令返回本體處理數(shù)據(jù),實(shí)現(xiàn)語(yǔ)義知識(shí)庫(kù)動(dòng)態(tài)維護(hù)算法數(shù)據(jù)的存儲(chǔ)與管理,包括本體的合并、分割以及不一致性處理;全局知識(shí)管理系統(tǒng),用于統(tǒng)籌、維護(hù)和應(yīng)用本體知識(shí)庫(kù),該系統(tǒng)包括局部服務(wù)器索引,該索引用來(lái)記錄位于輔助數(shù)據(jù)服務(wù)器上的局部服務(wù)器的標(biāo)注的信息,然后位于主服務(wù)器上負(fù)責(zé)統(tǒng)籌、維護(hù)和應(yīng)用本體知識(shí)庫(kù)的全局知識(shí)管理系統(tǒng)運(yùn)行核心處理,依據(jù)請(qǐng)求查詢(xún)相應(yīng)索引信息,并發(fā)出多播和廣播指令;API解釋器,用于將來(lái)自上層的功能API的請(qǐng)求,解釋成基礎(chǔ)的核心查詢(xún)指令,支持系統(tǒng)運(yùn)行;全局知識(shí)庫(kù)管理模塊,運(yùn)行于主服務(wù)器后臺(tái),用于執(zhí)行本體知識(shí)庫(kù)推理和演化算法,優(yōu)化知識(shí)庫(kù)結(jié)構(gòu)和存儲(chǔ),實(shí)現(xiàn)一致本體視圖抽取、本體合并、本體分割、負(fù)載均衡,具體算法如下本體合并算法,首先找到兩個(gè)輸入本體之間實(shí)體的關(guān)聯(lián),然后指定一個(gè)本體A作為基本體,將另一個(gè)本體B導(dǎo)入本體A中,然后在合并本體B中添加關(guān)聯(lián)描述,則得到了所需的合并后的本體結(jié)果;本體不一致性處理算法,對(duì)每個(gè)不一致本體,計(jì)算不一致本體的不可滿(mǎn)足概念集;讀取每一個(gè)不可滿(mǎn)足概念的最小不一致子本體從每個(gè)不一致子本體中抽取一個(gè)三元組,如果子本體有相交,則抽取相交部分的三元組,組成三元組集合;從原本體中去除這個(gè)三元組集合,使得所有不一致本體一致;得到最大一致子本體;本體分割算法,給定一個(gè)本體,首先將其轉(zhuǎn)化為圖形結(jié)構(gòu),然后判斷其是否全連通,如果全連通則計(jì)算最小割集,包括割點(diǎn)與割邊;根據(jù)割集分割;如果不是全連通,則計(jì)算極大連通子圖,然后根據(jù)子圖進(jìn)行分割。
2.如權(quán)利要求1所述的大規(guī)模語(yǔ)義知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)系統(tǒng),其特征在于,所述局部服務(wù)器的標(biāo)識(shí)信息包括如通信地址、本體列表、局部服務(wù)器狀態(tài)信息。
3.如權(quán)利要求1所述的大規(guī)模語(yǔ)義知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)系統(tǒng),其特征在于,所述找到兩個(gè)輸入本體之間實(shí)體的關(guān)聯(lián)的步驟,具體包括基于實(shí)體字符串距離構(gòu)造一個(gè)距離矩陣,通過(guò)字符串距離計(jì)算算法,求得每一對(duì)實(shí)體之間的距離,距離最近的實(shí)體即認(rèn)為是有關(guān)聯(lián)的實(shí)體。
4.如權(quán)利要求3所述的大規(guī)模語(yǔ)義知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)系統(tǒng),其特征在于,所述字符串距離計(jì)算算法采用ontosim中的符串距離計(jì)算算法。
5.如權(quán)利要求1所述的大規(guī)模語(yǔ)義知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)系統(tǒng),其特征在于,所述找到兩個(gè)輸入本體之間實(shí)體的關(guān)聯(lián)的步驟,該步驟的具體實(shí)現(xiàn)包括以下步驟通過(guò)對(duì)外部語(yǔ)義工具的調(diào)用,找到實(shí)體名之間的關(guān)聯(lián)度,關(guān)聯(lián)度最小的即認(rèn)為是有關(guān)聯(lián)的實(shí)體;
6.如權(quán)利要求1所述的大規(guī)模語(yǔ)義知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)系統(tǒng),其特征在于,所述外部語(yǔ)義工具為 WordNet 或 Wikipedia。
7.如權(quán)利要求1所述的大規(guī)模語(yǔ)義知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)系統(tǒng),其特征在于,所述通過(guò)總線MULE傳送來(lái)的指令,該指令文件名必須與ontologyURI —致。
全文摘要
本發(fā)明公開(kāi)了一種大規(guī)模語(yǔ)義知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)系統(tǒng),該系統(tǒng)包括主服務(wù)器、分布式數(shù)據(jù)服務(wù)器以及存儲(chǔ)采用OWL語(yǔ)言描述的本體知識(shí)庫(kù),其特征在于,該系統(tǒng)還包括部署于主服務(wù)器上的全局知識(shí)管理系統(tǒng)和部署于該系統(tǒng)的分布式數(shù)據(jù)服務(wù)器的局部數(shù)據(jù)管理系統(tǒng),所述全局知識(shí)管理系統(tǒng)和所述局部數(shù)據(jù)管理系統(tǒng)通過(guò)知識(shí)總線控制器,以一套標(biāo)準(zhǔn)的知識(shí)通信指令進(jìn)行交互,與現(xiàn)有技術(shù)相比,本發(fā)明大規(guī)模語(yǔ)義知識(shí)庫(kù)本體的優(yōu)化,從而減少存儲(chǔ)規(guī)模,以及優(yōu)化推理和查詢(xún)的效率。
文檔編號(hào)G06F17/30GK102402599SQ20111036604
公開(kāi)日2012年4月4日 申請(qǐng)日期2011年11月17日 優(yōu)先權(quán)日2011年11月17日
發(fā)明者馮志勇, 賈彪, 饒國(guó)政 申請(qǐng)人:天津大學(xué)