專利名稱:基于資源描述框架的網(wǎng)絡(luò)資源語義檢索方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種基于資源描述框架的網(wǎng)絡(luò)資源語義 檢索方法及系統(tǒng)。
背景技術(shù):
隨著全球信息化進(jìn)程的加速,網(wǎng)絡(luò)上的信息越來越多,對信息檢索方法的要求也 越來越高。目前大多數(shù)檢索方法都是基于關(guān)鍵字匹配的全文檢索技術(shù),查詢結(jié)果經(jīng)常出現(xiàn) 檢索不全、答非所問的現(xiàn)象。語義檢索正是克服了機(jī)械式文字匹配局限于表面形式的缺點(diǎn), 從網(wǎng)絡(luò)(Web)資源信息所表達(dá)的語義層次上來分析和處理用戶的檢索請求,將信息檢索從 目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解與處理能力。此 外,目前已有一些基于語義檢索的搜索引擎,但是此類技術(shù)基本上都還停留在處理靜態(tài)信 息的層面,這對隨時(shí)千變?nèi)f化的Web資源來說,不能完全滿足其檢索要求。
基于語義的檢索技術(shù)代表了搜索引擎發(fā)展的一個新方向,其基于語義的優(yōu)勢和作 用在今后還會逐步顯現(xiàn),并切實(shí)地影響著人們的工作、學(xué)習(xí)和生活。早在上世紀(jì)八十年代對 語義檢索的討論就出現(xiàn)在國際信息檢索大會(SIGIR)會議論文中,但語義檢索研究始終受 制于語義信息處理發(fā)展水平的局限。隨著自然語言處理、人工智能的發(fā)展,尤其是語義網(wǎng)技 術(shù)的興起與發(fā)展,語義檢索研究自上世紀(jì)末以來得以迅速發(fā)展。盡管到目前為止對語義檢 索在概念上仍沒有統(tǒng)一的界定,但不同的研究卻有著共同之處,就是基于對Web資源的語 義處理實(shí)現(xiàn)效率更高的檢索。語義信息的提取和處理可以是基于語義網(wǎng)方法與技術(shù)的,也 可以是基于自然語言處理技術(shù)的。目前,前者在語義檢索研究中相對更為普遍。事實(shí)上,正 是由于語義網(wǎng)的出現(xiàn)與發(fā)展,才使語義檢索的研究更加得以明確并發(fā)展如此迅速。
目前,國外對基于語義的信息檢索及相關(guān)理論作了一定的研究。近年來概念檢索 領(lǐng)域較為突出的研究成果,如美國伊利諾大學(xué)與亞利桑那大學(xué)已經(jīng)開發(fā)出基于美國國防高 級研究署信息技術(shù)辦公室(ITO)的國防科技項(xiàng)目研究報(bào)告摘要信息的主題概念空間(ΙΤ0 Space)及其概念圖(ΙΤ0 Map),以及基于美國癌癥醫(yī)學(xué)數(shù)據(jù)庫的癌癥概念空間(Cancer Space)及其癌癥概念圖(Cancer Map)。國內(nèi)的研究主要集中在對基于語義搜索引擎的特 征和體系結(jié)構(gòu)模型的探討,以及基于概念檢索的實(shí)現(xiàn)方法,如唐培麗就提出采用“以網(wǎng)對 網(wǎng)”的方法來實(shí)現(xiàn)概念檢索。目前已有的搜索引擎還遠(yuǎn)遠(yuǎn)沒有達(dá)到能夠像人一樣分析與理 解自然語言語義的水平,而且在今后短時(shí)期內(nèi)也達(dá)不到這樣的水平。國外雖然有一些公司 做出了基于概念的產(chǎn)品,但僅僅做到了語用層面,語義層面尚未涉及。而對于中文搜索引擎 來說,因?yàn)橛兄形奶幚矸矫娴膯栴},這方面的工作才剛剛開始。此外,當(dāng)前用于語義Web 的檢索技術(shù)主要集中在對靜態(tài)信息的描述上,而未能考慮到對動態(tài)的和不斷變化的內(nèi)容的 處理。因此,如何在一系列語義相關(guān)的動態(tài)實(shí)體上實(shí)現(xiàn)語義查詢,也成為基于語義查詢研究 的一個新方向。正是由于人們實(shí)際生活中迫切需要基于語義的檢索技術(shù)的出現(xiàn),而目前的 技術(shù)還遠(yuǎn)遠(yuǎn)不能滿足人們的需要。發(fā)明內(nèi)容
針對上述技術(shù)問題,本發(fā)明的目的在于提供一種基于資源描述框架的網(wǎng)絡(luò)資源語 義檢索方法及系統(tǒng),其利用資源描述框架(Resource Description Framework, RDF)所提供 的資源描述等相關(guān)方法,不僅支持在查詢時(shí)的基于語義的web資源檢索,可以處理Web上資 源的動態(tài)變化,而且能確保將經(jīng)常被查詢的對象放入高速緩沖存儲器(Cache)中,保證了查 全率、查準(zhǔn)率,有效地縮短了返回查詢結(jié)果的時(shí)間。
為達(dá)此目的,本發(fā)明采用以下技術(shù)方案
—種基于資源描述框架的網(wǎng)絡(luò)資源語義檢索方法,包括如下步驟
AJfWeb上的異構(gòu)資源進(jìn)行數(shù)據(jù)建模,并基于資源描述框架(RDF)對Web資源進(jìn) 行描述,生成RDF數(shù)據(jù);
B、將所述RDF數(shù)據(jù)以三元組的形式作為關(guān)系數(shù)據(jù)庫的記錄,完成對RDF數(shù)據(jù)的存 儲;
C、利用貝葉斯(Bayes)決策理論對高速緩沖存儲器(Cache)中的對象進(jìn)行動態(tài)篩 選;
D、用戶提交RDF查詢請求,并將所述RDF查詢請求轉(zhuǎn)換為關(guān)系數(shù)據(jù)庫可以處理的 SQL語句;
E、通過所述SQL語句對Cache進(jìn)行查詢,若查詢到所需數(shù)據(jù),則將所述數(shù)據(jù)返回給 用戶,若未查詢到所需數(shù)據(jù),則直接和關(guān)系數(shù)據(jù)庫引擎進(jìn)行通信,從關(guān)系數(shù)據(jù)庫中獲取所述 數(shù)據(jù),并將其返回給用戶;
F、建立分布的資源語義相關(guān)庫,存儲在語義上具有相關(guān)度的web資源;當(dāng)收到用 戶提交的RDF請求時(shí),關(guān)系數(shù)據(jù)庫引擎首先在資源語義相關(guān)庫中進(jìn)行查詢,若查詢到所需 數(shù)據(jù),則將所述數(shù)據(jù)返回給用戶,若未查詢到所需數(shù)據(jù),則從關(guān)系數(shù)據(jù)庫中獲取所述數(shù)據(jù), 并將其返回給用戶。
特別地,所述步驟A具體包括
Al、以Web中的原始異構(gòu)資源作為數(shù)據(jù)源進(jìn)行數(shù)據(jù)建模,用于建立新的類型,并對 類型的屬性進(jìn)行界定,如果系統(tǒng)中的所述原始異構(gòu)資源是以文件的形式組織的,則以文件 為數(shù)據(jù)源,如果所述原始異構(gòu)資源是以數(shù)據(jù)庫的形式組織的,則以數(shù)據(jù)庫中的數(shù)據(jù)作為數(shù) 據(jù)源;
A2、應(yīng)用RDF自帶的詞匯表及步驟Al中數(shù)據(jù)建模過程自定義的詞匯表,對Web資 源進(jìn)行描述,生成以可擴(kuò)展標(biāo)記語言(XML)形式組織的RDF文件。
特別地,所述步驟B具體包括
建立資源描述框架模式(RDF Schema,RDFS)與實(shí)體-聯(lián)系模型(E-R模型)的對應(yīng) 關(guān)系,將RDFS轉(zhuǎn)換成E-R模型,依據(jù)該E-R模型建立關(guān)系數(shù)據(jù)庫,將RDF數(shù)據(jù)以三元組的形 式作為關(guān)系數(shù)據(jù)庫的記錄,完成對RDF數(shù)據(jù)的存儲。
特別地,所述步驟C具體包括
基于貝葉斯決策理論,利用最大熵原理選出的特征屬性作為屬性,并將已經(jīng)被查 詢過的RDF記錄作為訓(xùn)練數(shù)據(jù)集,構(gòu)建出優(yōu)化器;所述優(yōu)化器在查詢的空閑對所述RDF記 錄進(jìn)行計(jì)算,得出其被調(diào)用的后驗(yàn)概率,選出所述被調(diào)用的后驗(yàn)概率最高的RDF對象調(diào)入 cache中;在cache容量已滿時(shí),計(jì)算cache中RDF對象將被查詢命中的概率,并將具有最小概率的RDF對象換出。
特別地,所述步驟D中將所述RDF查詢請求轉(zhuǎn)換為關(guān)系數(shù)據(jù)庫可以處理的SQL語 句,具體包括
在用戶和關(guān)系數(shù)據(jù)庫之間建立查詢引擎,在查詢引擎中封裝查詢語言轉(zhuǎn)換規(guī)則, 當(dāng)用戶將RDF查詢請求提交給所述查詢引擎時(shí),查詢引擎通過所述語言轉(zhuǎn)換規(guī)則將RDF查 詢請求轉(zhuǎn)換為關(guān)系數(shù)據(jù)庫可以處理的SQL語句。
特別地,所述步驟D中選擇RQL、SquishQL, SPARQL及DQL中的任一種RDF查詢語 言作為用戶接口,通過查詢引擎完成RDF查詢語言與SQL語言之間的轉(zhuǎn)換。
特別地,所述步驟F中資源語義相關(guān)庫是在用戶的查詢過程中動態(tài)建立的,并且 只將資源與查詢條件的語義相關(guān)度大于所設(shè)閾值的資源加入資源語義相關(guān)庫。
本發(fā)明還公開了一種基于資源描述框架的網(wǎng)絡(luò)資源語義檢索系統(tǒng),包括SPARQL 查詢接口、SPARQL/SQL轉(zhuǎn)換器、Cache緩存、批量RDF/XML文件導(dǎo)入接口、關(guān)系數(shù)據(jù)庫引擎以 及關(guān)系數(shù)據(jù)庫;
所述SPARQL查詢接口用于供用戶提交SPARQL查詢請求,并將獲取的web資源以 RDF文件或XML文件的格式返回給所述用戶;
所述SPARQL/SQL轉(zhuǎn)換器用于將所述SPARQL查詢請求轉(zhuǎn)換為SQL語句,實(shí)現(xiàn) SPARQL語言與SQL語言之間的轉(zhuǎn)換,向用戶提供統(tǒng)一的SPARQL查詢接口 ;
所述Cache緩存用于基于貝葉斯決策理論,利用最大熵原理選出的特征屬性作為 屬性,并將已經(jīng)被查詢過的RDF記錄作為訓(xùn)練數(shù)據(jù)集,構(gòu)建優(yōu)化器,并通過所述優(yōu)化器在查 詢的空閑對所述RDF記錄進(jìn)行計(jì)算,得出其被調(diào)用的后驗(yàn)概率,選出所述被調(diào)用的后驗(yàn)概 率最高的RDF對象調(diào)入cache中,在cache容量已滿時(shí),計(jì)算cache中RDF對象將被查詢命 中的概率,并將具有最小概率的RDF對象換出;
所述批量RDF/XML文件導(dǎo)入接口用于輸入RDF文件或XML文件格式的RDF數(shù)據(jù)或 RDFS數(shù)據(jù);
所述RDF/XML文件解析器用于從所述批量RDF/XML文件導(dǎo)入接口獲取RDF文件或 XML文件,根據(jù)RDF文件或XML文件中每個標(biāo)簽的功能,提取每個三元組(triple)對應(yīng)的 主、謂、賓,并通過關(guān)系數(shù)據(jù)庫引擎存入關(guān)系數(shù)據(jù)庫中;
所述關(guān)系數(shù)據(jù)庫弓I擎用于將RDF數(shù)據(jù)存儲到關(guān)系數(shù)據(jù)庫中,并提供對關(guān)系數(shù)據(jù)庫 進(jìn)行操作的接口。
本發(fā)明利用資源描述框架(Resource Description Framework, RDF)所提供的資 源描述等相關(guān)方法對Web上的異構(gòu)資源進(jìn)行數(shù)據(jù)建模,再根據(jù)這些模型進(jìn)行基于RDF的統(tǒng) 一描述,從而支持在查詢時(shí)基于語義的信息檢索,使得原本系統(tǒng)中在物理上松散的資源通 過基于RDF的統(tǒng)一描述有效地在邏輯上聚合到了 一起,能夠更有效地利用web資源,進(jìn)而 達(dá)到不同平臺之間的資源共享的目標(biāo)。引入資源語義相關(guān)庫來存放在語義上具有相關(guān)度的 資源,可以成功地處理Web上資源的動態(tài)變化,保證了查全率、查準(zhǔn)率。并采用基于貝葉斯 (Bayes)決策理論的動態(tài)篩選算法確保經(jīng)常被查詢的對象放入高速緩沖存儲器(Cache )中, 將其作為查詢的第一目標(biāo),有效地縮短了返回查詢結(jié)果的時(shí)間。
圖1為本發(fā)明實(shí)施例提供的基于資源描述框架的網(wǎng)絡(luò)資源語義檢索方法流程圖2為本發(fā)明實(shí)施例提供的基于資源描述框架的網(wǎng)絡(luò)資源語義檢索系統(tǒng)框圖3為本發(fā)明實(shí)施例提供的SPARQL/SQL轉(zhuǎn)換器原理示意圖4為本發(fā)明實(shí)施例提供的Cache緩存原理圖示意。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和實(shí)施例對本發(fā)明 作進(jìn)一步說明。
請參照圖1所示,圖1為本發(fā)明實(shí)施例提供的基于資源描述框架的網(wǎng)絡(luò)資源語義 檢索方法流程圖。
本實(shí)施例中基于資源描述框架的網(wǎng)絡(luò)資源語義檢索方法包括如下步驟
步驟SlOlJtWeb上的異構(gòu)資源進(jìn)行數(shù)據(jù)建模,并基于資源描述框架(RDF)對Web 資源進(jìn)行描述,生成RDF數(shù)據(jù)。數(shù)據(jù)建模和資源描述的具體過程如下
步驟S1011、以Web中的原始異構(gòu)資源作為數(shù)據(jù)源進(jìn)行數(shù)據(jù)建模,用于建立新的類 型,并對類型的屬性進(jìn)行界定,如果系統(tǒng)中的所述原始異構(gòu)資源是以文件的形式組織的,則 以文件為數(shù)據(jù)源,如果所述原始異構(gòu)資源是以數(shù)據(jù)庫的形式組織的,則以數(shù)據(jù)庫中的數(shù)據(jù) 作為數(shù)據(jù)源。但是,數(shù)據(jù)建模的方法是獨(dú)立于資源系統(tǒng)的組織形式的,不失一般性。
步驟S1012、應(yīng)用RDF自帶的詞匯表及步驟SlOll中數(shù)據(jù)建模過程自定義的詞匯 表,對Web資源進(jìn)行描述,生成以可擴(kuò)展標(biāo)記語言(XML)形式組織的RDF文件。該方法使得 原本系統(tǒng)中在物理上松散的資源通過這種描述方法有效地在邏輯上聚合到了一起,能夠更 為有效地利用web資源,進(jìn)而達(dá)到不同平臺之間的資源共享的目標(biāo)。
步驟S102、將所述RDF數(shù)據(jù)以三元組的形式作為關(guān)系數(shù)據(jù)庫的記錄,完成對RDF數(shù) 據(jù)的存儲。
建立資源描述框架模式(RDF Schema, RDFS)與實(shí)體-聯(lián)系模型(E-R模型)的對應(yīng) 關(guān)系,將RDFS轉(zhuǎn)換成E-R模型,依據(jù)該E-R模型建立關(guān)系數(shù)據(jù)庫,將RDF數(shù)據(jù)以三元組的形 式作為關(guān)系數(shù)據(jù)庫的記錄,完成對RDF數(shù)據(jù)的存儲。分析RDFS與關(guān)系數(shù)據(jù)庫各自的特點(diǎn), 建立兩者之間的對應(yīng)關(guān)系,從RDFS出發(fā),依據(jù)其所描述的類以及屬性等,轉(zhuǎn)換成E-R模型中 對應(yīng)的實(shí)體、實(shí)體屬性以及實(shí)體關(guān)系等。再依據(jù)該E-R模型設(shè)計(jì)合理的關(guān)系數(shù)據(jù)庫,將RDF 數(shù)據(jù)以三元組的形式作為關(guān)系數(shù)據(jù)庫的記錄,完成對RDF數(shù)據(jù)的有效存儲,為RDF的查詢提 供基于語義層的物理載體。
關(guān)系數(shù)據(jù)庫存儲模型的建立,主要考慮存儲空間和查詢效率的結(jié)合,簡單的 如schema-oblivious三元組直接存儲方案,實(shí)現(xiàn)起來簡單,并且查詢效率非常的高, 但是這樣會存儲重復(fù)的命名空間前綴或者具有多個屬性的資源??紤]時(shí)間和空間,在 schema-oblivious方案的基礎(chǔ)上,數(shù)據(jù)庫中除了三元組表之外,引入了資源表、命名空間 表、文字表。因此,三元組表中存儲的主、謂、賓,僅僅是資源表或者文字表中的索引值,并且 借鑒Jena2思想,允許數(shù)據(jù)庫中存在多個三元組表,不同的RDF文件可以映射到不同的三 元組表中,這樣可以限制表的大小。其中,所述Jena2是一個java的API ((Application Programming Interface,應(yīng)用程序編程接口)。下表是RDF/RDFS存儲的幾個常用表結(jié)構(gòu)。
權(quán)利要求
1.一種基于資源描述框架的網(wǎng)絡(luò)資源語義檢索方法,其特征在于,包括如下步驟 AJ^Web上的異構(gòu)資源進(jìn)行數(shù)據(jù)建模,并基于資源描述框架(RDF)對Web資源進(jìn)行描述,生成RDF數(shù)據(jù); B、將所述RDF數(shù)據(jù)以三元組的形式作為關(guān)系數(shù)據(jù)庫的記錄,完成對RDF數(shù)據(jù)的存儲; C、利用貝葉斯(Bayes)決策理論對高速緩沖存儲器(Cache)中的對象進(jìn)行動態(tài)篩選; D、用戶提交RDF查詢請求,并將所述RDF查詢請求轉(zhuǎn)換為關(guān)系數(shù)據(jù)庫可以處理的SQL語句; E、通過所述SQL語句對Cache進(jìn)行查詢,若查詢到所需數(shù)據(jù),則將所述數(shù)據(jù)返回給用戶,若未查詢到所需數(shù)據(jù),則直接和關(guān)系數(shù)據(jù)庫引擎進(jìn)行通信,從關(guān)系數(shù)據(jù)庫中獲取所述數(shù)據(jù),并將其返回給用戶; F、建立分布的資源語義相關(guān)庫,存儲在語義上具有相關(guān)度的web資源;當(dāng)收到用戶提交的RDF請求時(shí),關(guān)系數(shù)據(jù)庫引擎首先在資源語義相關(guān)庫中進(jìn)行查詢,若查詢到所需數(shù)據(jù),則將所述數(shù)據(jù)返回給用戶,若未查詢到所需數(shù)據(jù),則從關(guān)系數(shù)據(jù)庫中獲取所述數(shù)據(jù),并將其返回給用戶。
2.根據(jù)權(quán)利要求1所述的基于資源描述框架的網(wǎng)絡(luò)資源語義檢索方法,其特征在于,所述步驟A具體包括 Al、以Web中的原始異構(gòu)資源作為數(shù)據(jù)源進(jìn)行數(shù)據(jù)建模,用于建立新的類型,并對類型的屬性進(jìn)行界定,如果系統(tǒng)中的所述原始異構(gòu)資源是以文件的形式組織的,則以文件為數(shù)據(jù)源,如果所述原始異構(gòu)資源是以數(shù)據(jù)庫的形式組織的,則以數(shù)據(jù)庫中的數(shù)據(jù)作為數(shù)據(jù)源; A2、應(yīng)用RDF自帶的詞匯表及步驟Al中數(shù)據(jù)建模過程自定義的詞匯表,對Web資源進(jìn)行描述,生成以可擴(kuò)展標(biāo)記語言(XML)形式組織的RDF文件。
3.根據(jù)權(quán)利要求2所述的基于資源描述框架的網(wǎng)絡(luò)資源語義檢索方法,其特征在于,所述步驟B具體包括 建立資源描述框架模式(RDF Schema, RDFS)與實(shí)體-聯(lián)系模型(E-R模型)的對應(yīng)關(guān)系,將RDFS轉(zhuǎn)換成E-R模型,依據(jù)該E-R模型建立關(guān)系數(shù)據(jù)庫,將RDF數(shù)據(jù)以三元組的形式作為關(guān)系數(shù)據(jù)庫的記錄,完成對RDF數(shù)據(jù)的存儲。
4.根據(jù)權(quán)利要求3所述的基于資源描述框架的網(wǎng)絡(luò)資源語義檢索方法,其特征在于,所述步驟C具體包括 基于貝葉斯決策理論,利用最大熵原理選出的特征屬性作為屬性,并將已經(jīng)被查詢過的RDF記錄作為訓(xùn)練數(shù)據(jù)集,構(gòu)建出優(yōu)化器;所述優(yōu)化器在查詢的空閑對所述RDF記錄進(jìn)行計(jì)算,得出其被調(diào)用的后驗(yàn)概率,選出所述被調(diào)用的后驗(yàn)概率最高的RDF對象調(diào)入cache中;在cache容量已滿時(shí),計(jì)算cache中RDF對象將被查詢命中的概率,并將具有最小概率的RDF對象換出。
5.根據(jù)權(quán)利要求4所述的基于資源描述框架的網(wǎng)絡(luò)資源語義檢索方法,其特征在于,所述步驟D中將所述RDF查詢請求轉(zhuǎn)換為關(guān)系數(shù)據(jù)庫可以處理的SQL語句,具體包括 在用戶和關(guān)系數(shù)據(jù)庫之間建立查詢引擎,在查詢引擎中封裝查詢語言轉(zhuǎn)換規(guī)則,當(dāng)用戶將RDF查詢請求提交給所述查詢引擎時(shí),查詢引擎通過所述語言轉(zhuǎn)換規(guī)則將RDF查詢請求轉(zhuǎn)換為關(guān)系數(shù)據(jù)庫可以處理的SQL語句。
6.根據(jù)權(quán)利要求5述的基于資源描述框架的網(wǎng)絡(luò)資源語義檢索方法,其特征在于,所述步驟D中選擇RQL、SquishQL, SPARQL及DQL中的任一種RDF查詢語言作為用戶接口,通過查詢引擎完成RDF查詢語言與SQL語言之間的轉(zhuǎn)換。
7.根據(jù)權(quán)利要求6的基于資源描述框架的網(wǎng)絡(luò)資源語義檢索方法,其特征在于,所述步驟F中資源語義相關(guān)庫是在用戶的查詢過程中動態(tài)建立的,并且只將資源與查詢條件的語義相關(guān)度大于所設(shè)閾值的資源加入資源語義相關(guān)庫。
8.一種基于資源描述框架的網(wǎng)絡(luò)資源語義檢索系統(tǒng),其特征在于,包括SPARQL查詢接口、SPARQL/SQL轉(zhuǎn)換器、Cache緩存、批量RDF/XML文件導(dǎo)入接口、關(guān)系數(shù)據(jù)庫引擎以及關(guān)系數(shù)據(jù)庫; 所述SPARQL查詢接口用于供用戶提交SPARQL查詢請求,并將獲取的web資源以RDF文件或XML文件的格式返回給所述用戶; 所述SPARQL/SQL轉(zhuǎn)換器用于將所述SPARQL查詢請求轉(zhuǎn)換為SQL語句,實(shí)現(xiàn)SPARQL語言與SQL語言之間的轉(zhuǎn)換,向用戶提供統(tǒng)一的SPARQL查詢接口 ; 所述Cache緩存用于基于貝葉斯決策理論,利用最大熵原理選出的特征屬性作為屬性,并將已經(jīng)被查詢過的RDF記錄作為訓(xùn)練數(shù)據(jù)集,構(gòu)建優(yōu)化器,并通過所述優(yōu)化器在查詢的空閑對所述RDF記錄進(jìn)行計(jì)算,得出其被調(diào)用的后驗(yàn)概率,選出所述被調(diào)用的后驗(yàn)概率最高的RDF對象調(diào)入cache中,在cache容量已滿時(shí),計(jì)算cache中RDF對象將被查詢命中的概率,并將具有最小概率的RDF對象換出; 所述批量RDF/XML文件導(dǎo)入接口用于輸入RDF文件或XML文件格式的RDF數(shù)據(jù)或RDFS數(shù)據(jù); 所述RDF/XML文件解析器用于從所述批量RDF/XML文件導(dǎo)入接口獲取RDF文件或XML文件,根據(jù)RDF文件或XML文件中每個標(biāo)簽的功能,提取每個三元組(triple)對應(yīng)的主、謂、賓,并通過關(guān)系數(shù)據(jù)庫引擎存入關(guān)系數(shù)據(jù)庫中; 所述關(guān)系數(shù)據(jù)庫引擎用于將RDF數(shù)據(jù)存儲到關(guān)系數(shù)據(jù)庫中,并提供對關(guān)系數(shù)據(jù)庫進(jìn)行操作的接口。
全文摘要
本發(fā)明公開一種基于資源描述框架的網(wǎng)絡(luò)資源語義檢索方法及系統(tǒng),利用資源描述框架所提供的資源描述方法對Web上的異構(gòu)資源進(jìn)行數(shù)據(jù)建模,再根據(jù)這些模型進(jìn)行基于RDF的統(tǒng)一描述,從而支持在查詢時(shí)基于語義的信息檢索,使得原本系統(tǒng)中在物理上松散的資源通過基于RDF的統(tǒng)一描述有效地在邏輯上聚合到了一起,能夠更有效地利用web資源,達(dá)到不同平臺之間的資源共享的目標(biāo)。引入資源語義相關(guān)庫來存放在語義上具有相關(guān)度的資源,成功地處理了Web上資源的動態(tài)變化,保證了查全率、查準(zhǔn)率。采用基于貝葉斯決策理論的動態(tài)篩選算法確保經(jīng)常被查詢的對象放入高速緩沖存儲器中,有效地縮短了返回查詢結(jié)果的時(shí)間。
文檔編號G06F17/30GK102999563SQ20121043393
公開日2013年3月27日 申請日期2012年11月1日 優(yōu)先權(quán)日2012年11月1日
發(fā)明者黎明, 吳少智, 陳佳, 吳躍 申請人:無錫成電科大科技發(fā)展有限公司