本發(fā)明總體來說涉及大數(shù)據(jù)處理領(lǐng)域。更具體地講,涉及一種面向大規(guī)模rdf數(shù)據(jù)的可達(dá)性查詢索引的構(gòu)建方法。
背景技術(shù):
資料描述框架(resourcedescriptionframework,簡稱rdf)是用于描述web資源的標(biāo)記語言,同時(shí)也是整個(gè)語義網(wǎng)系統(tǒng)結(jié)構(gòu)中的核心,它被廣泛用于描述互聯(lián)網(wǎng)上存在的各種信息資源。如今rdf數(shù)據(jù)成幾何量級增長,已經(jīng)達(dá)到百億級三元組規(guī)模。這樣大規(guī)模的rdf數(shù)據(jù)的高效存儲和查詢工作已經(jīng)成為語義web研究的重點(diǎn)問題。
rdf數(shù)據(jù)的可達(dá)性查詢是最近幾年來研究界對rdf的sparql查詢語言提出的新要求,rdf數(shù)據(jù)的可達(dá)性查詢可以概述為:給定rdf數(shù)據(jù)中的兩個(gè)頂點(diǎn)u和v,判斷頂點(diǎn)u是否可通過一條路徑到達(dá)頂點(diǎn)v。這里,由于rdf數(shù)據(jù)的可達(dá)性查詢不僅是最普遍的一種查詢方式,更是在rdf圖數(shù)據(jù)上進(jìn)行其他查詢的基礎(chǔ),不管是基于sparql查詢語言的rdf數(shù)據(jù)集圖模式查詢,還是其他的聚合查詢、子查詢、否定查詢等,基本前提都是rdf數(shù)據(jù)的可達(dá)性查詢。因此,鑒于rdf可達(dá)性查詢的重要性,構(gòu)造rdf數(shù)據(jù)的可達(dá)性查詢索引以用于可達(dá)性查詢已成為相關(guān)領(lǐng)域的研究人員的研究熱點(diǎn)。
傳統(tǒng)的基于圖論的算法進(jìn)行rdf圖數(shù)據(jù)的可達(dá)性查詢,由于復(fù)雜度非常高和擴(kuò)展性非常差而無法實(shí)際應(yīng)用。目前,已有的rdf數(shù)據(jù)的可達(dá)性查詢主要有兩種方法:第一種方法是rdf圖的標(biāo)簽約束可達(dá)性查詢方法,這種方法能夠?qū)? 頂點(diǎn)數(shù)目較少的rdf數(shù)據(jù)進(jìn)行有效地可達(dá)性查詢,但是,這種方式受設(shè)備配置的影響較大,無法有效地處理超過100萬個(gè)頂點(diǎn)的rdf數(shù)據(jù)集,因此,該種方式無法用于大規(guī)模的rdf數(shù)據(jù)的可達(dá)性查詢;第二種方法是基于k階雙似的索引結(jié)構(gòu)可達(dá)性查詢方法,這種方法雖然可以處理大規(guī)模的rdf數(shù)據(jù)并且擴(kuò)展性較好,但是需要根據(jù)頂點(diǎn)的屬性來劃分等價(jià)類頂點(diǎn),由于會重復(fù)地處理等價(jià)的頂點(diǎn),因此浪費(fèi)了大量的時(shí)間,因此,該種方式也由于時(shí)間花費(fèi)較長而難以應(yīng)用到實(shí)際。
綜上所述,現(xiàn)有的rdf數(shù)據(jù)的可達(dá)性查詢方式無法滿足快速、有效地處理大規(guī)模rdf數(shù)據(jù)的需求。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種面向大規(guī)模rdf數(shù)據(jù)的可達(dá)性查詢索引的構(gòu)建方法,以克服現(xiàn)有的構(gòu)造rdf數(shù)據(jù)的可達(dá)性查詢索引并通過該索引進(jìn)行可達(dá)性查詢的方式無法滿足快速、有效地處理大規(guī)模rdf數(shù)據(jù)的缺陷。
根據(jù)本發(fā)明示例性實(shí)施例,提供一種面向大規(guī)模rdf數(shù)據(jù)的可達(dá)性查詢索引的構(gòu)建方法,包括:(a)將長字符串類型的rdf三元組進(jìn)行預(yù)處理,得到與各長字符串類型的rdf三元組一一對應(yīng)的長整型rdf三元組,其中,每個(gè)長整型rdf三元組由主體、謂詞和客體組成,其中,謂詞指示主體指向客體的邊的屬性;(b)利用預(yù)設(shè)框架對所述長整型rdf三元組進(jìn)行分割處理,以生成多種類別的索引文件夾;(c)利用所述多種類別的索引文件夾構(gòu)建rdf數(shù)據(jù)的可達(dá)性查詢索引。
可選地,所述方法可還包括:(d)保存構(gòu)建的rdf數(shù)據(jù)的可達(dá)性查詢索引,并對構(gòu)建的rdf數(shù)據(jù)的可達(dá)性查詢索引進(jìn)行驗(yàn)證和評估。
可選地,所述預(yù)設(shè)框架可以為mapreduce框架或者spark框架。
可選地,當(dāng)預(yù)設(shè)框架為mapreduce框架時(shí),步驟(b)可包括:基于所述長整型rdf三元組結(jié)構(gòu)的屬性,利用mapreduce框架設(shè)置多種分類方式,并分別根據(jù)所述多種分類方式將所述長整型rdf三元組進(jìn)行排序分類,生成與每一種分類方式對應(yīng)的索引文件夾。
可選地,所述多種分類方式可包括以rdf三元組結(jié)構(gòu)屬性中的主體-謂詞-客體、客體、主體-客體后代以及初始客體等價(jià)類為分類標(biāo)準(zhǔn)進(jìn)行分類的方式,并且,生成的與所述分類方式對應(yīng)的索引文件夾分別是主體-謂詞-客體索引文件夾、客體索引文件夾、主體-客體后代索引文件夾和初始客體等價(jià)類索引文件夾,其中,每個(gè)類別的索引文件夾包括多個(gè)子文件,所述子文件按照第一預(yù)設(shè)規(guī)則進(jìn)行命名。
可選地,步驟(c)可包括:(c1)利用主體-謂詞-客體索引文件夾和客體索引文件夾中的內(nèi)容確定rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類;(c2)根據(jù)集合的獨(dú)立性定理,利用主體-客體后代索引文件夾、根節(jié)點(diǎn)等價(jià)類以及客體等價(jià)類索引文件夾中的內(nèi)容確定rdf數(shù)據(jù)的可達(dá)性查詢索引的非根節(jié)點(diǎn)等價(jià)類;(c3)利用rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類、rdf數(shù)據(jù)的可達(dá)性查詢索引的非根節(jié)點(diǎn)等價(jià)類、客體索引文件夾和主體-謂詞-客體索引文件夾中的內(nèi)容確定rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類與非根節(jié)點(diǎn)等價(jià)類的謂詞;(c4)生成rdf數(shù)據(jù)的可達(dá)性查詢索引。
可選地,步驟(c1)可包括:(c11)判斷客體索引文件夾中是否存在與主體-謂詞-客體索引文件夾中名稱相同的子文件;(c12)當(dāng)客體索引文件夾中存在與主體-謂詞-客體索引文件夾中名稱相同的子文件時(shí),獲取主體-謂詞-客體索引文件夾中不作為客體索引文件夾中相同名稱的子文件的客體的主體,并將其放 入rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類;當(dāng)客體索引文件夾中不存在與主體-謂詞-客體索引文件夾中名稱相同的子文件時(shí),將主體-謂詞-客體索引文件夾中該子文件中的所有主體放入rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類(此處應(yīng)該有分段縮)可選地,步驟(c2)可包括:利用集合的獨(dú)立性定理,依次使用主體-客體后代索引文件夾中根節(jié)點(diǎn)等價(jià)類中的主體的客體后代來劃分初始客體等價(jià)類,得到劃分后的客體等價(jià)類集合,再依次利用主體-客體后代索引文件夾中之前劃分后得到的客體等價(jià)類集合中的每個(gè)客體等價(jià)類的客體后代來劃分所述之前劃分后得到的客體等價(jià)類集合中的每個(gè)客體等價(jià)類直到劃分后得到的客體等價(jià)類集合不變?yōu)橹?,將所得不變的客體等價(jià)類集合作為rdf數(shù)據(jù)的可達(dá)性查詢索引的非根節(jié)點(diǎn)等價(jià)類。
可選地,步驟(c3)可包括:(c31)按照第二預(yù)設(shè)規(guī)則將rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類進(jìn)行命名,并將根節(jié)點(diǎn)等價(jià)類的名稱作為根節(jié)點(diǎn)等價(jià)類中每個(gè)根節(jié)點(diǎn)的標(biāo)記存儲于根節(jié)點(diǎn)等價(jià)類集合中;(c32)按照第二預(yù)設(shè)規(guī)則將rdf數(shù)據(jù)的可達(dá)性查詢索引的所有非根節(jié)點(diǎn)等價(jià)類進(jìn)行命名,并將每組非根節(jié)點(diǎn)等價(jià)類的名稱作為該組中每個(gè)非根節(jié)點(diǎn)的標(biāo)記,定位客體索引文件夾中每一條客體,同時(shí)將每個(gè)非根節(jié)點(diǎn)的標(biāo)記添加到客體索引文件夾中與每個(gè)非根節(jié)點(diǎn)對應(yīng)的客體所在行的相應(yīng)位置;(c33)針對主體-謂詞-客體索引文件夾中的每一條主體-謂詞-客體長整型rdf三元組,在根節(jié)點(diǎn)等價(jià)類集合以及客體索引文件夾中查找與該條主體-謂詞-客體長整型rdf三元組的主體和客體對應(yīng)的標(biāo)記,并將該條主體-謂詞-客體長整型rdf三元組的謂詞添加到與該條主體-謂詞-客體長整型rdf三元組的主體和客體對應(yīng)的標(biāo)記表示的節(jié)點(diǎn)之間。
在根據(jù)本發(fā)明示例性實(shí)施例的面向大規(guī)模rdf數(shù)據(jù)的可達(dá)性查詢索引的構(gòu)建方法中,不僅可以高效、準(zhǔn)確地建立大規(guī)模rdf數(shù)據(jù)的可達(dá)性查詢索引,還 具備擴(kuò)展性好,易于實(shí)現(xiàn)的優(yōu)點(diǎn)。
附圖說明
通過下面結(jié)合附圖進(jìn)行的詳細(xì)描述,本發(fā)明的上述和其它目的、特點(diǎn)和優(yōu)點(diǎn)將會變得更加清楚,其中:
圖1示出根據(jù)本發(fā)明示例性實(shí)施例的面向大規(guī)模rdf數(shù)據(jù)的可達(dá)性查詢索引的構(gòu)建方法的流程圖;
圖2示出根據(jù)本發(fā)明示例性實(shí)施例的生成主體-謂詞-客體索引文件夾的示例;
圖3示出根據(jù)本發(fā)明示例性實(shí)施例的構(gòu)建rdf數(shù)據(jù)的可達(dá)性查詢索引的步驟的流程圖;
圖4示出根據(jù)本發(fā)明示例性實(shí)施例的確定rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類的步驟的流程圖;
圖5示出根據(jù)本發(fā)明示例性實(shí)施例的確定rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類與非根節(jié)點(diǎn)等價(jià)類的謂詞的步驟的流程圖。
具體實(shí)施方式
現(xiàn)將詳細(xì)參照本發(fā)明的示例性實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中,相同的標(biāo)號始終指的是相同的部件。以下將通過參照附圖來說明所述實(shí)施例,以便解釋本發(fā)明。
圖1示出根據(jù)本發(fā)明示例性實(shí)施例的面向大規(guī)模rdf數(shù)據(jù)的可達(dá)性查詢索引的構(gòu)建方法的流程圖。這里,作為示例,所述方法可由用于構(gòu)建大規(guī)模rdf數(shù)據(jù)的可達(dá)性查詢索引的設(shè)備來實(shí)現(xiàn),也可完全通過計(jì)算機(jī)程序來實(shí)現(xiàn)。
如圖1所示,在步驟s100,將長字符串類型的rdf三元組進(jìn)行預(yù)處理,得 到與各長字符串類型的rdf三元組一一對應(yīng)的長整型rdf三元組,其中,每個(gè)長整型rdf三元組由主體、謂詞和客體組成,其中,謂詞指示主體指向客體的邊的屬性。
這里,所述長字符串類型的rdf三元組可來源于dbpedia(從維基百科的語義網(wǎng)知識庫中抽取的結(jié)構(gòu)化數(shù)據(jù)),其中,dbpedia可包含多個(gè)領(lǐng)域的數(shù)據(jù),并且,dbpedia可在維基百科和其他數(shù)據(jù)集之間創(chuàng)建連接。這里,應(yīng)注意,本發(fā)明的示例性實(shí)施例適用于任何來源的rdf數(shù)據(jù),包括但不局限于來源于dbpedia的rdf數(shù)據(jù)。
這里,所述預(yù)處理是采用本領(lǐng)域的常規(guī)方法,例如,將長字符串類型的rdf三元組進(jìn)行映射,其中,相同的長字符串對應(yīng)相應(yīng)的整數(shù),從而得到與各長字符串類型的rdf三元組對應(yīng)的長整型rdf三元組,在此不再贅述。通過將長字符串類型的rdf三元組處理成長整型rdf三元組,可以消除數(shù)據(jù)冗余,避免了大量的長字符串的匹配操作,提高了后續(xù)處理的效率。
在步驟s200,利用預(yù)設(shè)框架對所述長整型rdf三元組進(jìn)行分割處理,以生成多種類別的索引文件夾。這里,所述預(yù)設(shè)框架可以為mapreduce框架或者spark框架。
作為示例,當(dāng)預(yù)設(shè)框架為mapreduce框架時(shí),可基于所述長整型rdf三元組結(jié)構(gòu)的屬性,利用mapreduce框架設(shè)置多種分類方式,并分別根據(jù)所述多種分類方式將所述長整型rdf三元組進(jìn)行排序分類,生成與每一種分類方式對應(yīng)的索引文件夾。
例如,所述多種分類方式可包括以rdf三元組結(jié)構(gòu)屬性中的主體-謂詞-客體、客體、主體-客體后代以及初始客體等價(jià)類為分類標(biāo)準(zhǔn)進(jìn)行分類的方式,具體說來,以主體-謂詞-客體為分類標(biāo)準(zhǔn)進(jìn)行分類的方式可以是指以主體為標(biāo)準(zhǔn)建 立的包括主體-謂詞-客體三元組的索引文件夾;以客體為分類標(biāo)準(zhǔn)進(jìn)行分類的方式可以是以客體為標(biāo)準(zhǔn)建立的僅包括客體的索引文件夾;以主體-客體后代為分類標(biāo)準(zhǔn)進(jìn)行分類的方式可以是以主體以及屬于同一主體的客體為標(biāo)準(zhǔn)建立的僅包括主體和屬于該主體的后代客體的索引文件夾;以初始客體等價(jià)類為分類標(biāo)準(zhǔn)進(jìn)行分類的方式可以是以謂詞為標(biāo)準(zhǔn)建立的僅包括與相同謂詞集合關(guān)聯(lián)的客體集合構(gòu)成的索引文件夾。因此,按照上述分類方式生成的與上述分類方式對應(yīng)的索引文件夾可以分別是主體-謂詞-客體索引文件夾、客體索引文件夾、主體-客體后代索引文件夾和初始客體等價(jià)類索引文件夾,其中,每個(gè)類別的索引文件夾可包括多個(gè)子文件,所述子文件可按照第一預(yù)設(shè)規(guī)則進(jìn)行命名。
這里,作為示例,可將下面的等式(1)作為第一預(yù)設(shè)規(guī)則用于確定子文件的名稱:
max=(xa/d)×d(1)
其中,max表示以a分類方式分類后所得到的索引文件夾中長整型rdf數(shù)據(jù)x所屬的子文件的名稱,d表示預(yù)定參數(shù),d可取正整數(shù),例如1000,xa表示以a分類方式分類后所獲得的長整型rdf數(shù)據(jù)x被保留的第一個(gè)組分的整數(shù)型,這里,組成長整型rdf三元組的主體、謂詞、客體都可以作為長整型rdf數(shù)據(jù)的一個(gè)組分。
下面以生成主體-謂詞-客體索引文件夾為例來說明該類別索引文件夾的生成過程。圖2示出根據(jù)本發(fā)明示例性實(shí)施例的生成主體-謂詞-客體索引文件夾的示例。
如圖2所示,可將所有長整型rdf三元組分成n個(gè)數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊中包括多組長整型rdf三元組(s、p、o),根據(jù)預(yù)先設(shè)置的mapreduce程序,針對每一個(gè)長整型rdf三元組(s、p、o),利用map函數(shù)進(jìn)行讀取,將讀取的每 個(gè)長整型rdf三元組中的長整型主體s作為輸出的關(guān)鍵字、長整型rdf三元組的長整型謂詞p和長整型客體o的組合作為輸出值,經(jīng)過shuffle(洗牌)過程,將關(guān)鍵詞進(jìn)行去重排序,同時(shí)將輸出值合并,生成輸出值列表[“p1o”、“p3o”······]等,從而得到關(guān)于關(guān)鍵字和輸出值列表的鍵值對<s1,“p1o”、“p3o”······>等,接下來,可將所述鍵值對以關(guān)鍵字為標(biāo)準(zhǔn)進(jìn)行排序,并將排序好的鍵值對傳遞給reduce函數(shù),reduce函數(shù)取出排好序的長整型主體s和與其對應(yīng)的輸出列表中的長整型謂詞p和長整型客體o,根據(jù)長整型主體s的范圍重新組合主體-謂詞-客體的對應(yīng)關(guān)系,寫入主體-謂詞-客體索引文件夾所包括的多個(gè)子文件中,這里,可將主體-謂詞-客體索引文件夾中所包括的子文件命名為(xspo/d)×d,其中,xspo為以主體-謂詞-客體為分類方式進(jìn)行分類后所獲得的rdf數(shù)據(jù)x的主體的長整型,d表示預(yù)定參數(shù)。
相似地,可用與生成主體-謂詞-客體索引文件夾相類似的方式生成其他類別的索引文件夾,在此將不再贅述。
再次參照圖1,在步驟s300,利用所述多種類別的索引文件夾構(gòu)建rdf數(shù)據(jù)的可達(dá)性查詢索引。
下面,在獲得前述四種類別的索引文件夾之后,將結(jié)合圖3來具體描述根據(jù)本發(fā)明示例性實(shí)施例的構(gòu)建rdf數(shù)據(jù)的可達(dá)性查詢索引的步驟。
如圖3所示,在步驟s310,可利用主體-謂詞-客體索引文件夾和客體索引文件夾中的內(nèi)容確定rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類。這里,作為示例,所述rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類是指rdf數(shù)據(jù)的可達(dá)性查詢索引中地位相同的根節(jié)點(diǎn)的集合。
圖4示出根據(jù)本發(fā)明示例性實(shí)施例的確定rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類的步驟的流程圖。
如圖4所示,在步驟s311,判斷客體索引文件夾中是否存在與主體-謂詞-客體索引文件夾中名稱相同的子文件。當(dāng)客體索引文件夾中存在與主體-謂詞-客體索引文件夾中名稱相同的子文件時(shí),在步驟s312,獲取主體-謂詞-客體索引文件夾中不作為客體索引文件夾中相同名稱的子文件的客體的主體,并將其放入rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類。當(dāng)客體索引文件夾中不存在與主體-謂詞-客體索引文件夾中名稱相同的子文件時(shí),在步驟s313,將主體-謂詞-客體索引文件夾中該子文件中的所有主體放入rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類。
再次參照圖3,在步驟s320,根據(jù)集合的獨(dú)立性定理,利用主體-客體后代索引文件夾、根節(jié)點(diǎn)等價(jià)類和客體等價(jià)類索引文件夾中的內(nèi)容確定rdf數(shù)據(jù)的可達(dá)性查詢索引的非根節(jié)點(diǎn)等價(jià)類。這里,集合的獨(dú)立性定理描述如下:集合p與集合q獨(dú)立,當(dāng)且僅當(dāng)集合p與集合q的后代集合的差集或者集合p與集合q的后代集合的交集為空。具體說來,可利用集合的獨(dú)立性定理,依次使用主體-客體后代索引文件夾中根節(jié)點(diǎn)等價(jià)類中的主體的客體后代來劃分初始客體等價(jià)類,得到劃分后的客體等價(jià)類集合,然后依次利用主體-客體后代索引文件夾中之前劃分后得到的客體等價(jià)類集合中每個(gè)客體等價(jià)類的客體后代來劃分所述之前劃分后得到的客體等價(jià)類集合中的每個(gè)客體等價(jià)類,直到劃分后得到的客體等價(jià)類集合不變?yōu)橹?,將所得不變的客體等價(jià)類集合作為rdf數(shù)據(jù)的可達(dá)性查詢索引的非根節(jié)點(diǎn)等價(jià)類。
在步驟s330,利用rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類、rdf數(shù)據(jù)的可達(dá)性查詢索引的非根節(jié)點(diǎn)等價(jià)類、客體索引文件夾和主體-謂詞-客體索引文件夾中的內(nèi)容確定rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類與非根節(jié)點(diǎn)等價(jià)類的謂詞。
下面,將結(jié)合圖5來詳細(xì)說明如何確定rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類與非根節(jié)點(diǎn)等價(jià)類的謂詞。
具體說來,在步驟s331,可按照第二預(yù)設(shè)規(guī)則將rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類進(jìn)行命名,并將根節(jié)點(diǎn)等價(jià)類的名稱作為根節(jié)點(diǎn)等價(jià)類中每個(gè)根節(jié)點(diǎn)的標(biāo)記存儲于根節(jié)點(diǎn)等價(jià)類集合中。
在步驟s332,可按照第二預(yù)設(shè)規(guī)則將rdf數(shù)據(jù)的可達(dá)性查詢索引的所有非根節(jié)點(diǎn)等價(jià)類進(jìn)行命名,并將每組非根節(jié)點(diǎn)等價(jià)類的名稱作為該組中每個(gè)非根節(jié)點(diǎn)的標(biāo)記,定位客體索引文件夾中每一條客體,同時(shí)將每個(gè)非根節(jié)點(diǎn)的標(biāo)記添加到客體索引文件夾中與每個(gè)非根節(jié)點(diǎn)對應(yīng)的客體所在行的相應(yīng)位置。
這里,所述第二預(yù)設(shè)規(guī)則可以是指將rdf數(shù)據(jù)的可達(dá)性查詢索引的根節(jié)點(diǎn)等價(jià)類中或者非根節(jié)點(diǎn)等價(jià)類中的最小整數(shù)型作為rdf數(shù)據(jù)所屬的根節(jié)點(diǎn)等價(jià)類或者非根節(jié)點(diǎn)等價(jià)類的名稱。例如,非根節(jié)點(diǎn)等價(jià)類h為{4、5、6、7},其中,4為最小非根節(jié)點(diǎn)整數(shù)型,則非根節(jié)點(diǎn)等價(jià)類h的名稱為4,標(biāo)記為[4],并且,非根節(jié)點(diǎn)等價(jià)類h中每個(gè)非根節(jié)點(diǎn)整數(shù)型的標(biāo)記均為[4]。
在步驟s333,針對主體-謂詞-客體索引文件夾中的每一條主體-謂詞-客體長整型rdf三元組,在根節(jié)點(diǎn)等價(jià)類集合以及客體索引文件夾中查找與該條主體-謂詞-客體長整型rdf三元組的主體和客體對應(yīng)的標(biāo)記,并將該條主體-謂詞-客體長整型rdf三元組的謂詞添加到與該條主體-謂詞-客體長整型rdf三元組的主體和客體對應(yīng)的標(biāo)記表示的節(jié)點(diǎn)之間。具體說來,當(dāng)將所述主體-謂詞-客體長整型rdf三元組的謂詞添加到與該條主體-謂詞-客體長整型rdf三元組的主體和客體對應(yīng)的標(biāo)記表示的節(jié)點(diǎn)之間時(shí),可以構(gòu)成rdf數(shù)據(jù)的可達(dá)性查詢索引的一條邊。通過上述方式,可以將根節(jié)點(diǎn)等價(jià)類與非根節(jié)點(diǎn)等價(jià)類通過謂詞進(jìn)行關(guān)聯(lián),從而可在步驟s340,生成rdf數(shù)據(jù)的可達(dá)性查詢索引。
此外,作為示例,附加地,為了驗(yàn)證rdf可達(dá)性查詢索引的正確性,圖1所述的方法可還附加地包括步驟s400,作為示例,在步驟s400,可保存構(gòu)建的rdf數(shù)據(jù)的可達(dá)性查詢索引,并對構(gòu)建的rdf數(shù)據(jù)的可達(dá)性查詢索引進(jìn)行驗(yàn)證和評估。
綜上所述,在根據(jù)本發(fā)明示例性實(shí)施例的面向大規(guī)模rdf數(shù)據(jù)的可達(dá)性查詢索引的構(gòu)建方法中,不僅可以高效、準(zhǔn)確地建立大規(guī)模rdf數(shù)據(jù)的可達(dá)性查詢索引,還具備擴(kuò)展性好,易于實(shí)現(xiàn)的優(yōu)點(diǎn)。
雖然已表示和描述了本發(fā)明的一些示例性實(shí)施例,但本領(lǐng)域技術(shù)人員應(yīng)該理解,在不脫離由權(quán)利要求及其等同物限定其范圍的本發(fā)明的原理和精神的情況下,可以對這些實(shí)施例進(jìn)行修改。