一種關(guān)聯(lián)數(shù)據(jù)查詢結(jié)果排序方法
【專利摘要】本發(fā)明涉及一種關(guān)聯(lián)數(shù)據(jù)查詢結(jié)果排序方法,屬于計(jì)算機(jī)領(lǐng)域。具體操作步驟為:①給出概念重要性、關(guān)系重要性和公理重要性的計(jì)算模型;②得到給定本體中概念重要性、關(guān)系重要性和公理重要性的度量結(jié)果;③得到資源的重要性的度量結(jié)果;④根據(jù)用戶查詢需求,通過(guò)查詢語(yǔ)句在給定關(guān)聯(lián)數(shù)據(jù)源中得到查詢結(jié)果;⑤得到查詢結(jié)果的重要性進(jìn)行度量;⑥將查詢結(jié)果按照重要性大小進(jìn)行排序。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是使關(guān)聯(lián)數(shù)據(jù)查詢結(jié)果排序效果更符合人類認(rèn)知,能夠優(yōu)先輸出更為重要的查詢結(jié)果,而且計(jì)算速度快。
【專利說(shuō)明】一種關(guān)聯(lián)數(shù)據(jù)查詢結(jié)果排序方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種關(guān)聯(lián)數(shù)據(jù)查詢結(jié)果排序方法,屬于計(jì)算機(jī)領(lǐng)域。
【背景技術(shù)】
[0002] 關(guān)聯(lián)數(shù)據(jù)(Linked Data)是一種發(fā)布在萬(wàn)維網(wǎng)上,符合關(guān)聯(lián)數(shù)據(jù)基本原則的資源 描述框架(resource description framework, RDF)數(shù)據(jù)。關(guān)聯(lián)數(shù)據(jù)源之間通過(guò)RDF鏈接 相互連接形成了一個(gè)全球分布式數(shù)據(jù)空間,即關(guān)聯(lián)數(shù)據(jù)網(wǎng)(the Web of Linked Data)。目 前針對(duì)RDF數(shù)據(jù)存在多種查詢語(yǔ)言,其中SPARQL是世界標(biāo)準(zhǔn)化組織W3C推薦的一種RDF查 詢語(yǔ)言,也是應(yīng)用最廣泛的RDF查詢語(yǔ)言。本發(fā)明針對(duì)的是SPARQL在關(guān)聯(lián)數(shù)據(jù)網(wǎng)上的查詢 結(jié)果排序問(wèn)題。
[0003] 傳統(tǒng)的排序方法大多基于排序?qū)ο笾g的鏈接關(guān)系進(jìn)行排序,比如谷歌(Google) 的網(wǎng)頁(yè)排序(PageRank)方法。這類方法的排序?qū)ο笾g僅存在簡(jiǎn)單的鏈接關(guān)系,因此可 以通過(guò)對(duì)象被指向的次數(shù)多少等參數(shù)度量對(duì)象的重要性,對(duì)HTML頁(yè)面等對(duì)象的排序具有 良好的效果。但是,關(guān)聯(lián)數(shù)據(jù)是通過(guò)本體進(jìn)行描述的數(shù)據(jù),除了數(shù)據(jù)彼此之間的鏈接關(guān)系, 描述數(shù)據(jù)的本體中概念(類)和關(guān)系(屬性)自身的重要性也是影響其重要性的關(guān)鍵因 素。此外,傳統(tǒng)萬(wàn)維網(wǎng)與關(guān)聯(lián)數(shù)據(jù)網(wǎng)中的鏈接結(jié)構(gòu)不同。一個(gè)超文本標(biāo)記語(yǔ)言(HTML)頁(yè) 面或者WORD格式的文檔中包含多條信息,一個(gè)信息源(網(wǎng)站)包含多個(gè)HTML頁(yè)以及其他 格式的文檔;而一條關(guān)聯(lián)數(shù)據(jù)是一個(gè)簡(jiǎn)單的RDF三元組:{主體,屬性,客體}或{sub ject, predicate, object}。主體(subject)和客體(object)是本體中定義的類的實(shí)例;屬性 (predicate)是本體中定義的關(guān)系;整個(gè)關(guān)聯(lián)數(shù)據(jù)網(wǎng)可以看作是一個(gè)分布式存儲(chǔ)的巨大 RDF數(shù)據(jù)庫(kù)。因此,傳統(tǒng)的類PageRank方法不適合對(duì)SPARQL在關(guān)聯(lián)數(shù)據(jù)網(wǎng)上的查詢結(jié)果進(jìn) 行排序。
[0004] 本發(fā)明提出一種基于類和屬性重要性的關(guān)聯(lián)數(shù)據(jù)查詢結(jié)果排序方法,可以對(duì)包括 但不限于SPARQL在關(guān)聯(lián)數(shù)據(jù)網(wǎng)上的查詢結(jié)果進(jìn)行排序。該技術(shù)能夠輸出比PageRank算法 更符合人類認(rèn)知的排序結(jié)果,而且計(jì)算速度快。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是為了克服已有排序方法存在的不足,提出一種關(guān)聯(lián)數(shù)據(jù)查詢結(jié)果 排序方法。
[0006] 本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的。
[0007] 本發(fā)明提出的一種關(guān)聯(lián)數(shù)據(jù)查詢結(jié)果排序方法,其具體操作步驟為:
[0008] 步驟一、給出概念重要性、關(guān)系重要性和公理重要性的計(jì)算模型。
[0009] 本體構(gòu)建的過(guò)程可以看作是知識(shí)工程師運(yùn)用概念和關(guān)系的綜合過(guò)程。知識(shí)工程師 們利用概念和關(guān)系作為素材,以公理為工具描述領(lǐng)域知識(shí)。因此,本體可以看作創(chuàng)建者自身 對(duì)知識(shí)理解的一個(gè)影像。本體構(gòu)建者首先將客觀世界中的對(duì)象抽象為概念,然后定義概念 之間的相互關(guān)系和概念的屬性,最后應(yīng)用各種各樣的公理對(duì)概念及其相互關(guān)系作更加詳細(xì) 的描述,形成一個(gè)領(lǐng)域知識(shí)模型?;谏鲜鏊枷耄瑢⒈倔w中概念重要性、關(guān)系重要性和公理 重要性刻畫為以下四個(gè)特征:
[0010] (1) 一個(gè)概念或者關(guān)系被越多的公理所描述,這個(gè)概念或者關(guān)系越重要。
[0011] (2) -個(gè)公理中包含越多的概念和關(guān)系,這個(gè)公理越重要。
[0012] (3) -個(gè)概念或者關(guān)系被越重要的公理描述,這個(gè)概念或者關(guān)系越重要。
[0013] (4) 一個(gè)公理描述的概念和關(guān)系越重要,這個(gè)公理越重要。
[0014] 這四個(gè)特征主要包含三個(gè)意義:第一,公理、概念和關(guān)系的重要性作為本體構(gòu)建者 認(rèn)為領(lǐng)域知識(shí)重要程度的度量。第二,公理作為一個(gè)知識(shí)片段,是構(gòu)成本體的基本單元。最 后,概念和關(guān)系與公理重要性之間是一種相互加強(qiáng)的關(guān)系。
[0015] 上述四個(gè)特征可以轉(zhuǎn)化為本體中概念重要性、關(guān)系重要性和公理重要性的計(jì)算模 型。
[0016] 用符號(hào)A表不本體中所有公理構(gòu)成的集合,
【權(quán)利要求】
1. 一種關(guān)聯(lián)數(shù)據(jù)查詢結(jié)果排序方法,其特征在于:其具體操作步驟為: 步驟一、給出概念重要性、關(guān)系重要性和公理重要性的計(jì)算模型; 本體構(gòu)建的過(guò)程可以看作是知識(shí)工程師運(yùn)用概念和關(guān)系的綜合過(guò)程;知識(shí)工程師們利 用概念和關(guān)系作為素材,以公理為工具描述領(lǐng)域知識(shí);因此,本體可以看作創(chuàng)建者自身對(duì)知 識(shí)理解的一個(gè)影像;本體構(gòu)建者首先將客觀世界中的對(duì)象抽象為概念,然后定義概念之間 的相互關(guān)系和概念的屬性,最后應(yīng)用各種各樣的公理對(duì)概念及其相互關(guān)系作更加詳細(xì)的描 述,形成一個(gè)領(lǐng)域知識(shí)模型;基于上述思想,將本體中概念重要性、關(guān)系重要性和公理重要 性刻畫為以下四個(gè)特征: (1) 一個(gè)概念或者關(guān)系被越多的公理所描述,這個(gè)概念或者關(guān)系越重要; (2) -個(gè)公理中包含越多的概念和關(guān)系,這個(gè)公理越重要; (3) -個(gè)概念或者關(guān)系被越重要的公理描述,這個(gè)概念或者關(guān)系越重要; (4) 一個(gè)公理描述的概念和關(guān)系越重要,這個(gè)公理越重要; 這四個(gè)特征主要包含三個(gè)意義:第一,公理、概念和關(guān)系的重要性作為本體構(gòu)建者認(rèn)為 領(lǐng)域知識(shí)重要程度的度量;第二,公理作為一個(gè)知識(shí)片段,是構(gòu)成本體的基本單元;最后, 概念和關(guān)系與公理重要性之間是一種相互加強(qiáng)的關(guān)系; 上述四個(gè)特征可以轉(zhuǎn)化為本體中概念重要性、關(guān)系重要性和公理重要性的計(jì)算模型; 用符號(hào)A表示本體中所有公理構(gòu)成的集合,A= (A1,A2, ...,AJ,用符號(hào)C表示本體中 所有概念構(gòu)成的集合,C=IC1,C2, ...,CJ,用符號(hào)R表示本體中所有概念構(gòu)成的集合,R= {R"R2, ? ? ?,Rt},則: 對(duì)于本體中任一概念Cp的重要性的計(jì)算模型如公式(1)所示,pG[l,n],且p為正整 數(shù); Ic (Cp) =Wc (A1)Ia (A1) +Wc (A2)Ia (A2) +. . . +Wc (Affl)Ia (Affl) (1) 其中,Ic (Cp)表示概念Cp的重要性;Ia(Ai)表示公JSAi的重要性,iG[l,m],且i為正 整數(shù);W。(Ai)表示公理Ai對(duì)于概念Cp的權(quán)重,可通過(guò)公式(2)計(jì)算得到;
本體中所有概念重要性之和為1 ; 對(duì)于本體中任一關(guān)系&的重要性的計(jì)算模型如公式(3)所示,jG[1,t],且j為正整 數(shù); Ie (Rj) =We (A1)Ia (A1) +We (A2)Ia (A2) +. . . +We (Affl)Ia (Affl) (3) 其中,Ili(Rj)表示關(guān)系Rj的重要性(Ai)表示公理Ai對(duì)于關(guān)系Rj的權(quán)重,可通過(guò)公 式⑷計(jì)算得到;
本體中所有關(guān)系重要性之和為1 ; 對(duì)于本體中任一公理Ai的重要性的計(jì)算模型如公式(5)所示,ie[l,m],且i為正整 數(shù);
步驟2. 6 :通過(guò)公式(12)計(jì)算在第k+1次和第k次迭代中所有公理重要性的方差o;
如果o<e成立,e是人為設(shè)定的正實(shí)數(shù),O<e <0.8,則終止操作;否則,重復(fù)執(zhí) 行步驟2. 4至步驟2. 6的操作; 經(jīng)過(guò)步驟二的操作,得到給定本體中概念重要性、關(guān)系重要性和公理重要性的度量結(jié) 果; 步驟三、得到資源的重要性的度量結(jié)果; 在步驟二操作的基礎(chǔ)上,對(duì)給定關(guān)聯(lián)數(shù)據(jù)源進(jìn)行處理,得到關(guān)聯(lián)數(shù)據(jù)源中RDF資源的 重要性的度量結(jié)果;所述RDF資源是本體的描述對(duì)象;具體操作為: 關(guān)聯(lián)數(shù)據(jù)源是RDF三元組的集合;RDF三元組為{主體,屬性,客體};一個(gè)RDF三元組 的集合可表示為一個(gè)RDF圖G,G= (V,E);其中,V是節(jié)點(diǎn)的集合,也即資源的集合;E是邊的 集合;主體和客體是節(jié)點(diǎn);屬性是從主體指向客體的有向邊,表示主體和客體之間的關(guān)系; 通過(guò)公式(13)計(jì)算RDF圖G中資源Vq的重要性Iv(Vq);
其中,M是RDF圖G中包含節(jié)點(diǎn)的總數(shù)^是調(diào)節(jié)因子,其值由人為確定,@G[〇, 1]; Vz是RDF圖G中節(jié)點(diǎn)Vq指向的節(jié)點(diǎn)集合;%^彳是從節(jié)點(diǎn)Vq指向節(jié)點(diǎn)V的邊,VGVz ; 步驟四、根據(jù)用戶查詢需求,通過(guò)查詢語(yǔ)句在給定關(guān)聯(lián)數(shù)據(jù)源中得到查詢結(jié)果; 此步驟可與步驟一同步操作; 步驟五、得到查詢結(jié)果的重要性進(jìn)行度量; 在步驟三和步驟四的基礎(chǔ)上,通過(guò)公式(14)對(duì)步驟四得到的每一條查詢結(jié)果進(jìn)行重 要性度量;
其中,s是一條查詢結(jié)果;Is (s)是查詢結(jié)果的重要性;X是查詢結(jié)果s中包含的變量集 合;Xb是查詢結(jié)果s中變量X的綁定值,XeX;Ix (Xb)是資源Xb的重要性,可通過(guò)公式(15) 計(jì)算得到;
步驟六、將查詢結(jié)果按照重要性大小進(jìn)行排序; 在步驟五的基礎(chǔ)上,將步驟四得到的查詢結(jié)果按照查詢結(jié)果的重要性從大到小的順序 進(jìn)行排序; 經(jīng)過(guò)上述步驟的操作,即可得到關(guān)聯(lián)數(shù)據(jù)查詢結(jié)果的最終排序。
【文檔編號(hào)】G06F17/30GK104268215SQ201410495157
【公開日】2015年1月7日 申請(qǐng)日期:2014年9月25日 優(yōu)先權(quán)日:2014年9月25日
【發(fā)明者】牛振東, 李學(xué)進(jìn), ??? 申請(qǐng)人:北京理工大學(xué)