專利名稱:一種用于從數(shù)據(jù)集獲取信息的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及智能數(shù)據(jù)分析技術(shù)領(lǐng)域,更具體地涉及用于從數(shù)據(jù)集獲取信息的方法和系統(tǒng)。
背景技術(shù):
隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,各種數(shù)據(jù)和信息資源越來(lái)越為豐富,為了有效地對(duì)這些信息進(jìn)行管理,W3C提出了用于描述這些資源的方法,即資源描述框架(RDF)。根據(jù)RDF的定義,數(shù)據(jù)或者資源可以使用ー個(gè)三元組來(lái)表示,該三元組包括主體、謂語(yǔ)和客體,其中主體和客體指示數(shù)據(jù)或者資源,謂語(yǔ)指示主體和客體之間的關(guān)系。例如,對(duì)于三兀組 instanceOf (X, author), instanceOf (Y, paper), hasPaper (X, Y)以及 Topic (Y, D),其分別表示X是作者,Y是論文,作者X是論文Y的作者,以及D是論文Y的主題。基于這樣的三元組,可以利用邏輯語(yǔ)言來(lái)描述規(guī)則(或者公理)以便利用該規(guī)則來(lái)執(zhí)行自動(dòng)推理過(guò)程。一個(gè)規(guī)則的實(shí)例為“hasPaper (X,Y) AND Topic (Y,D)- > author (X,D) ”,其表示如果作者X是論文Y的作者且論文Y的主題為D,則作者X是主題D的作者或者主題D方面的專家。這樣的描述機(jī)制使得自動(dòng)化推理成為可能,從而可以基于三元組和規(guī)則來(lái)實(shí)現(xiàn)智能語(yǔ)義信息檢索和挖掘。在對(duì)大規(guī)模數(shù)據(jù)或者網(wǎng)絡(luò)規(guī)模數(shù)據(jù)進(jìn)行推理時(shí),效率一直是令人困擾并亟待解決的難題。而且這一問(wèn)題也成為在實(shí)際的信息處理中廣泛應(yīng)用語(yǔ)義推理的障礙。針對(duì)該問(wèn)題,在本領(lǐng)域中已經(jīng)提出了一些解決方案。例如在美國(guó)專利US7689526B2中提出了一種解決方案,根據(jù)該解決方案,首先基于已有的知識(shí)規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類,然后針對(duì)分類后的數(shù)據(jù)利用壓縮模型來(lái)表示知識(shí)規(guī)則。該方案g在通過(guò)使用由壓縮模型表示的規(guī)則來(lái)提高推理效率。另夕卜,在由E. Amir 和 S. McIIraith 發(fā)表于 Representation and Reasoning (2000)題為“Partition-based Logical Reasoning”一文中,公開(kāi)了另ー種解決方案,該解決方案首先對(duì)規(guī)則集進(jìn)行分析,然后對(duì)規(guī)則進(jìn)行劃分,以由此來(lái)改善推理效率。前述兩種解決方案都是通過(guò)對(duì)規(guī)則進(jìn)行預(yù)處理來(lái)改善推理效率,因此屬于基于規(guī)則的技木。然而,由于規(guī)則通常是僅僅適用于特定情形(例如,依賴于查詢),因此這兩種解決方案具有適應(yīng)性不好、靈活性較差的缺陷。此外,對(duì)于數(shù)據(jù)量巨大的情況,即便是利用一條規(guī)則來(lái)進(jìn)行推理也需花費(fèi)大量時(shí)間,因此在這種情況下,這兩種解決方案對(duì)效率改善具有有限的作用。此タ卜,在由Y. Zeng, Y. Wang, Z. Huang 和 N. Zhong 發(fā)表于 Lecture Notes inComputer Science (2009, Vol. 5820,第 418-429 頁(yè))題為 “Unifying Web-Scale Searchand Reasoning from the Viewpoint of Granularity,,一文中,公開(kāi)了一種基于模型的節(jié)點(diǎn)分組技術(shù)的解決方案。出于說(shuō)明的目的,在圖IA至圖IC中示意性地示出了根據(jù)該技術(shù)方案的原理的圖示。如圖IA所示,根據(jù)該解決方案,數(shù)據(jù)集通過(guò)包括節(jié)點(diǎn)和邊的圖來(lái)表示,其中節(jié)點(diǎn)表示數(shù)據(jù)或者資源,例如RDF的主體和客體,邊表示數(shù)據(jù)或者資源之間的關(guān)系,例如RDF的謂語(yǔ)。為了清晰起見(jiàn),在圖IA中分別采用圓形、方形和三角形圖案的節(jié)點(diǎn)來(lái)表示前面給出的三元組的示例中的作者、論文和主題,圓形節(jié)點(diǎn)與方形節(jié)點(diǎn)之間的邊(鏈接)表示“hasPaper”這ー關(guān)系,以及方形節(jié)點(diǎn)與三角形節(jié)點(diǎn)之間邊(鏈接)表示“hasTopic”這ー關(guān)系O接著,如圖IB所示,可以基于預(yù)先建立的節(jié)點(diǎn)分組模型,對(duì)該圖中的節(jié)點(diǎn)執(zhí)行分組操作,從而得到一個(gè)排序的節(jié)點(diǎn)組列表。節(jié)點(diǎn)組列表的排序是基于例如作者論文的數(shù)目來(lái)進(jìn)行,論文數(shù)目較多的作者排序較為靠前。然后,如圖IC所示,按照各個(gè)節(jié)點(diǎn)組的排序,分別在第一、第二和第三推理事務(wù)中,對(duì)各個(gè)節(jié)點(diǎn)組逐個(gè)地執(zhí)行推理,推理的范圍為對(duì)應(yīng)節(jié)點(diǎn)組及與該節(jié)點(diǎn)組相連通的所有其他節(jié)點(diǎn),以及這些節(jié)點(diǎn)之間的邊。由于這ー技術(shù)方案是通過(guò)預(yù)先建立的節(jié)點(diǎn)分組模型來(lái)針對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,所以這種方案對(duì)于預(yù)先建立的節(jié)點(diǎn)分組模型具有很大的依賴性,這使得該解決方案的靈活性較 差,不能適用于動(dòng)態(tài)的查詢需求。另外,該解決方案是通過(guò)節(jié)點(diǎn)分組限制推理規(guī)模,但其僅僅限制了觸發(fā)推理的節(jié)點(diǎn)的數(shù)量,由于節(jié)點(diǎn)之間還存在大量錯(cuò)綜復(fù)雜的關(guān)系,所以推理規(guī)模實(shí)際上難以得到有效的控制。此外,根據(jù)該技術(shù)方案,在每個(gè)推理事務(wù)中還涉及大量重復(fù)的節(jié)點(diǎn),這也進(jìn)一步惡化了推理模塊的控制有效性。為此,本領(lǐng)域存在一種對(duì)于在數(shù)據(jù)分析過(guò)程中采用的推理技術(shù)進(jìn)行改進(jìn)的迫切需要。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種用于從數(shù)據(jù)集獲取信息的方法和系統(tǒng),以克服或者至少部分消除現(xiàn)有技術(shù)中存在的缺陷。根據(jù)本發(fā)明的ー個(gè)方面,提供了一種用于從數(shù)據(jù)集獲取信息的方法。該方法可以包括對(duì)表示所述數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖,其中所述圖包括表示數(shù)據(jù)的節(jié)點(diǎn)以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊;以及針對(duì)得到的所述多個(gè)子圖的至少ー個(gè)在子圖的范圍內(nèi)進(jìn)行推理。在根據(jù)本發(fā)明的ー個(gè)優(yōu)選實(shí)施方式中,該方法可以進(jìn)一歩包括根據(jù)各個(gè)子圖的重要性,對(duì)得到的所述多個(gè)子圖進(jìn)行排序。在該實(shí)施方式中,推理可以按照所述多個(gè)子圖的排序依次地進(jìn)行。在根據(jù)本發(fā)明的一個(gè)實(shí)施方式中,各個(gè)子圖的重要性可以由以下其中一項(xiàng)或者多項(xiàng)來(lái)度量子圖的緊密度;子圖的獨(dú)立性;以及子圖的層級(jí)。在根據(jù)本發(fā)明的另ー實(shí)施方式中,該方法可以進(jìn)一歩包括響應(yīng)于在一子圖中進(jìn)行推理未得到結(jié)果,通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理。在根據(jù)本發(fā)明的再ー實(shí)施方式中,按照以下各項(xiàng)其中之一來(lái)選擇其他子圖中與該子圖相連的節(jié)點(diǎn)子圖的排序;該子圖中缺少的節(jié)點(diǎn)關(guān)系類型;以及節(jié)點(diǎn)之間的關(guān)系的優(yōu)先級(jí)。在根據(jù)本發(fā)明的又ー實(shí)施方式中,該方法可以進(jìn)一歩包括響應(yīng)于通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理得到結(jié)果,合并所述子圖和所述其他子圖以形成新子圖;以及在所述新子圖內(nèi)進(jìn)行推理。
在根據(jù)本發(fā)明的另ー優(yōu)選實(shí)施方式中,該方法可以進(jìn)一歩包括保存新子圖以供隨后使用。此外,根據(jù)本發(fā)明的另一方面,還提供了一種用于從數(shù)據(jù)集獲取信息的系統(tǒng)。該系統(tǒng)可以包括聚類裝置,配置用于對(duì)表示所述數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖,其中所述圖包括表示數(shù)據(jù)的節(jié)點(diǎn)以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊;以及推理裝置,配置用于針對(duì)得到的所述多個(gè)子圖的至少ー個(gè)在子圖的范圍內(nèi)進(jìn)行推理。根據(jù)本發(fā)明的實(shí)施方式,對(duì)圖的聚類是以無(wú)監(jiān)瞀的方式進(jìn)行的,其不需要任何預(yù)先定義的模型,因此非常靈活且具有很強(qiáng)的適應(yīng)性。另外,推理在子圖范圍內(nèi)進(jìn)行,基于聚類而得到的每個(gè)子圖中的節(jié)點(diǎn)數(shù)目及其關(guān)系均得到限制,且基于聚類而得到的每個(gè)子圖中沒(méi)有重復(fù)的節(jié)點(diǎn)和關(guān)系。因此根據(jù)本發(fā)明的實(shí)施方式,推理規(guī)模易于控制,從而使得推理效率得以提尚。
通過(guò)對(duì)結(jié)合附圖所示出的實(shí)施方式進(jìn)行詳細(xì)說(shuō)明,本發(fā)明的上述以及其他特征將更加明顯,本發(fā)明附圖中相同的標(biāo)號(hào)表示相同或相似的部件。在附圖中圖IA至圖IC示出了根據(jù)現(xiàn)有技術(shù)的ー種從數(shù)據(jù)集獲取信息的技術(shù)方案。圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式用于從數(shù)據(jù)集獲取信息的方法的流程圖。圖3是示出了本發(fā)明的原理的示意圖。圖4示出了根據(jù)本發(fā)明的另ー實(shí)施方式用于從數(shù)據(jù)集獲取信息的方法的流程圖。圖5示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施方式用于對(duì)子圖進(jìn)行調(diào)整的原理示意圖。圖6示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式用于從數(shù)據(jù)集獲取信息的系統(tǒng)的方框圖。
具體實(shí)施例方式在下文中,將參考附圖通過(guò)實(shí)施方式對(duì)本發(fā)明提供的用于從數(shù)據(jù)集獲取信息的方法和系統(tǒng)進(jìn)行詳細(xì)的描述。首先將參考圖2至圖5來(lái)描述本發(fā)明所提供的方法。參考圖2,該圖2示出根據(jù)本發(fā)明的一個(gè)實(shí)施方式用于從數(shù)據(jù)集獲取信息的方法的流程圖。如圖2所示,首先在步驟201,對(duì)表示數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖。該圖包括表示數(shù)據(jù)的節(jié)點(diǎn)以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊。聚類是圖論中的ー項(xiàng)重要技術(shù),其目標(biāo)是將圖中的節(jié)點(diǎn)和關(guān)系劃分成類簇。圖聚類的總體思路是基于圖中的邊(關(guān)系)結(jié)構(gòu)來(lái)進(jìn)行聚類,以使得每個(gè)類簇內(nèi)部的關(guān)系比兩個(gè)類簇之間的關(guān)系更加密切。為此,本發(fā)明人將圖形聚類技術(shù)應(yīng)用于智能數(shù)據(jù)分析的領(lǐng)域,利用圖聚類技術(shù)將表示數(shù)據(jù)集的圖分割成若干子圖。圖3是示出了本發(fā)明的原理的示意圖。如圖3所示,在本發(fā)明中,采用圖來(lái)表示數(shù)據(jù)集,其中圖的節(jié)點(diǎn)表示數(shù)據(jù),而節(jié)點(diǎn)之間的鏈路或者邊表示節(jié)點(diǎn)之間的關(guān)系。針對(duì)該表示數(shù)據(jù)集的圖,基于圖形聚類技術(shù)來(lái)進(jìn)行聚類,從而將該圖聚類成如圖3中所示的以圓形虛線示出的若干子圖(類簇)。表示數(shù)據(jù)集的圖可以存儲(chǔ)在存儲(chǔ)單元中。例如,各個(gè)節(jié)點(diǎn)可以存儲(chǔ)在節(jié)點(diǎn)存儲(chǔ)單元中,并例如以[節(jié)點(diǎn)ID,節(jié)點(diǎn)名]的形式存儲(chǔ);節(jié)點(diǎn)之間的關(guān)系可以存儲(chǔ)在節(jié)點(diǎn)關(guān)系存儲(chǔ)、単元中,且例如以[關(guān)系ID,關(guān)系名,主體節(jié)點(diǎn)ID,客體節(jié)點(diǎn)ID]的形式存儲(chǔ);聚類得到的子圖或者類簇可以存儲(chǔ)在例如子圖存儲(chǔ)単元中,例如以[子圖ID,節(jié)點(diǎn)列表,關(guān)系列表]的形式來(lái)存儲(chǔ)。對(duì)表示數(shù)據(jù)集的圖進(jìn)行聚類可以采用已知的或者將來(lái)開(kāi)發(fā)出的任何圖聚類方法來(lái)實(shí)現(xiàn)。例如,可以采用基于連通性的圖聚類算法,依據(jù)該算法可以將每對(duì)節(jié)點(diǎn)之間存在的路徑的數(shù)目作為進(jìn)行聚類時(shí)的ー種度量,對(duì)于屬于相同類簇的節(jié)點(diǎn),它們之間應(yīng)當(dāng)具有高度的連通性。在根據(jù)本發(fā)明的ー種具體實(shí)現(xiàn)中,可以采用高連通子圖(HCS)算法,其中設(shè)置了邊連通性閾值k。然后,可以針對(duì)圖G執(zhí)行對(duì)該圖的最小割算法(minimum-cut)以將該圖分割成兩個(gè)子圖H,H’。如果子圖G的邊連通性高于連通性閾值k,則返回圖G作為分類后 的類簇,否則將子圖H和H’作為新的輸入以便進(jìn)行下一次迭代處理。該過(guò)程一直重復(fù)直至得到的子圖的連通性均高于閾值k。這樣,就可以得到若干個(gè)具有高度內(nèi)部關(guān)聯(lián)性的子圖。得到的子圖,如前所述可以存儲(chǔ)在子圖存儲(chǔ)単元中。此外,也可以在全局層次上利用分層聚類將子圖形成為分層結(jié)構(gòu)。例如,在采用HCS算法的情況下,可以設(shè)置多個(gè)邊連通性閾值,其中可以將較低的閾值應(yīng)用于更高層次的聚類,而將較高的閾值應(yīng)用較低層次的聚類。通過(guò)這樣的聚類,就可以獲得具有分層結(jié)構(gòu)的多個(gè)子圖。然后,可以在步驟S202中,針對(duì)得到的所述多個(gè)子圖的至少ー個(gè)在子圖的范圍內(nèi)進(jìn)行推理。推理使用的推理規(guī)則,例如可以存儲(chǔ)在規(guī)則(公理)存儲(chǔ)單元中,且例如以[規(guī)貝IJID,規(guī)則語(yǔ)句]的形式存儲(chǔ)。在各個(gè)子圖中執(zhí)行推理可以采用現(xiàn)有技術(shù)中的方法來(lái)進(jìn)行,此處出于簡(jiǎn)化的目的,不再對(duì)推理的具體細(xì)節(jié)進(jìn)行贅述。根據(jù)本發(fā)明的實(shí)施方式,對(duì)表示數(shù)據(jù)集的圖進(jìn)行分組是基于圖聚類技術(shù),其是以自動(dòng)地、無(wú)監(jiān)瞀的方式進(jìn)行的,而無(wú)需依賴任何預(yù)定義的分組模型,因此,本發(fā)明具有很高的靈活性和很強(qiáng)的適應(yīng)性。此外,本發(fā)明是基于圖聚類技術(shù)實(shí)現(xiàn)的分組,每個(gè)組中的節(jié)點(diǎn)和關(guān)系都得到了限制,因此可以提高推理效率,同時(shí)可以很好地控制推理的規(guī)模。此外,圖4中還給出了根據(jù)本發(fā)明的另ー實(shí)施方式的方法的流程圖。在圖4中,步驟S401和S402基本對(duì)應(yīng)于圖2中的步驟S201和S202,因此不再對(duì)此進(jìn)行詳細(xì)描述。與圖2中不同的是,在圖4所示的實(shí)施方式中,在步驟S402之前還進(jìn)一歩包括步驟S403。在該步驟S403中,進(jìn)ー步根據(jù)各個(gè)子圖的重要性,對(duì)得到的所述多個(gè)子圖進(jìn)行排序,以便確定對(duì)子圖執(zhí)行推理的順序。根據(jù)本發(fā)明,在獲得了多個(gè)子圖之后,逐個(gè)地對(duì)子圖進(jìn)行推理。然而,對(duì)于諸如搜索等在線應(yīng)用場(chǎng)景,通常設(shè)置有系統(tǒng)的響應(yīng)時(shí)間,如果能在有限的響應(yīng)時(shí)間內(nèi)對(duì)最重要的子圖進(jìn)行推理,這將是有益的。為此,根據(jù)本發(fā)明的優(yōu)選實(shí)施例,對(duì)聚類得到的子圖進(jìn)行排序以使得包括重要信息的子圖排序更為靠前。這樣對(duì)子圖執(zhí)行聚類時(shí),可以按照子圖的排序依次來(lái)進(jìn)行,以便使得在響應(yīng)時(shí)間結(jié)束后向用戶返回最為有效的結(jié)果。例如,可以使用子圖的內(nèi)部特征作為重要性的度量。通常,緊密度更高、獨(dú)立性更高的子圖更可能得到更有效的結(jié)果,因此,這樣的子圖也更為重要。在根據(jù)本發(fā)明的一個(gè)實(shí)施方式中,選擇子圖與其他子圖之間的獨(dú)立性作為對(duì)子圖進(jìn)行排序的依據(jù)。該獨(dú)立性例如通過(guò)連通度(conductance)來(lái)度量。子圖S的連通度Φ (S)可以通過(guò)下式來(lái)計(jì)算得到
c(5,G\5) _min{deg(5),deg(G \ S)}式⑴其中G表示整個(gè)圖;S表示子圖;G\S是圖G排除S后的剩余部分;c (S,G\S)是子圖S與剩余部分G\S之間的分割尺寸,即在S與G\S之間的邊數(shù)目;deg(S)是子圖S的度,即子圖內(nèi)部的邊數(shù)目。對(duì)子圖的排序可以基于該連通度Φ (S)進(jìn)行,連通度值較低(即獨(dú)立性高)的子圖可以排序較為靠前,連通度值較高(即獨(dú)立性低)的子圖可以排序較為靠后。另外,也可以將緊密度和獨(dú)立性兩者(即相對(duì)緊密度)作為排序的ー種度量。子 圖S的相對(duì)緊密度P (S),例如可以通過(guò)下式來(lái)表示バS) = deg(“GW 式⑵其中類似地,S表示子圖;G\S是圖G排除S后的剩余部分;deg(S)和c(S,G\S)分別是子圖S的度以及子圖S和剰余部分(G\S)之間的分割尺寸。在采用相對(duì)緊密度的情況下,可以將具有較大相對(duì)緊密度值的子圖排在較為靠前的位置,而將將具有較小相對(duì)緊密度值的子圖排在較為靠后的位置。此外,在采用分層聚類的情況下,還可以進(jìn)ー步基于各個(gè)子圖的層級(jí)來(lái)進(jìn)行排序。例如,可以將位于在層級(jí)中較低層的那些子圖排在位于較高層中的那些子圖之前。這樣,就可以在步驟S402,基于多個(gè)子圖的排序,逐一地對(duì)子圖執(zhí)行推理,直至總的推理時(shí)間已經(jīng)達(dá)到限制或者已經(jīng)完成對(duì)所有子圖的推理。這樣就可以盡可能在推理時(shí)間結(jié)束時(shí)向用戶返回最重要的推理結(jié)果。此外,還優(yōu)選的是,可以在步驟S402之后,在步驟S404中響應(yīng)于在一子圖中進(jìn)行推理未得到結(jié)果,通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理。如前所述,基于圖聚類的推理有效地限制了推理規(guī)模,但發(fā)明人也注意到,這種方式同時(shí)也斷開(kāi)了ー些節(jié)點(diǎn)之間的關(guān)系。而在ー些特定情況下,聚類很可能斷開(kāi)了將用于推理的重要關(guān)系,從而導(dǎo)致針對(duì)特定的推理規(guī)則在一些子圖內(nèi)無(wú)法得出推理結(jié)果??紤]到這ー情況,特別是對(duì)于重要性較高的子圖,本發(fā)明優(yōu)選地,通過(guò)考慮其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理,以便能夠得到有效的推理結(jié)果。此外,如果通過(guò)考慮這些節(jié)點(diǎn)能夠得到有效的推理結(jié)果,則可以將這些節(jié)點(diǎn)合并到該子圖中,以便在隨后推理時(shí)使用。備選地,也可以在步驟S405將該子圖與這些節(jié)點(diǎn)所在的子圖合并,從而形成新的子圖并在步驟S406針對(duì)新子圖執(zhí)行推理,以便得到有效的推理結(jié)果。此外還優(yōu)選的是,可以保存合并得到的新子圖,以便例如隨后在利用相應(yīng)的推理規(guī)則進(jìn)行推理時(shí)使用。根據(jù)本發(fā)明的一個(gè)實(shí)施方式,如果在ー個(gè)子圖Cl的范圍內(nèi)進(jìn)行推理得到的推理結(jié)果為空,即該推理沒(méi)有得到結(jié)果,則調(diào)查其他子圖,即考慮其他子圖中與該子圖相連的節(jié)點(diǎn)。鑒于與該子圖相連的節(jié)點(diǎn)可能存在于多個(gè)子圖中,因此可以設(shè)置選擇這些節(jié)點(diǎn)的優(yōu)先次序。例如,可以按照備選節(jié)點(diǎn)所在子圖的排序,來(lái)選擇其他子圖中與該子圖相連的節(jié)點(diǎn)。對(duì)于排序較為靠前的子圖的節(jié)點(diǎn),可以優(yōu)先考慮。此外,也可以考慮推理中缺少的節(jié)點(diǎn)關(guān)系類型,并優(yōu)先考慮涉及到缺少的節(jié)點(diǎn)關(guān)系類型的子圖。另外,也可以考慮節(jié)點(diǎn)之間的關(guān)系的優(yōu)先級(jí)。這些優(yōu)先級(jí)可以針對(duì)各個(gè)推理規(guī)則預(yù)先設(shè)定。可以優(yōu)先考慮涉及到優(yōu)先級(jí)較高的關(guān)系的子圖。此外,也可以將上述選擇依據(jù)結(jié)合使用。在根據(jù)本發(fā)明的另ー實(shí)施方式中,可以通過(guò)評(píng)估外部鏈路的必要性來(lái)并入重要的子圖,以便用于進(jìn)一歩推理。例如可以將對(duì)于ー個(gè)子圖而言重要的其他子圖定義如下假設(shè)子圖Cl和子圖C2之間的邊集為E,與該邊集E中的邊相連且位于C2中的邊節(jié)點(diǎn)集合為V,如果在C1+E+V的范圍內(nèi)進(jìn)行推理能夠得有意義的結(jié)果,則對(duì)于該特定的推理規(guī)則而言,C2是該Cl的重要子圖。當(dāng)然,這只是用于確定對(duì)于Cl重要的子圖的ー個(gè)示例,本發(fā)明并局限于此,而是可以采用任何適當(dāng)?shù)姆椒▉?lái)確定。這樣,在找到重要的子圖C2的情況下,則可以將子圖Cl和C2合并,以得到以新子圖,然后在新子圖內(nèi)執(zhí)行推理。圖5示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施方式用于對(duì)子圖進(jìn)行調(diào)整的原理示意圖。如圖 所示,在排序第一的子圖中,沒(méi)有得到推理結(jié)果。因此,可以將推理范圍擴(kuò)展到相鄰的子圖(具有第二排序)中與該子圖相連的節(jié)點(diǎn),例如擴(kuò)展至子圖2的α和d。如果在子圖I擴(kuò)展了外部邊(b, a), (c, a), (I, d)和(2,d)及外部節(jié)點(diǎn)α和d的情況下能夠得到推理結(jié)果,則將該子圖2識(shí)別為重要子圖。然后,例如可以將子圖I與被識(shí)別為是重要子圖的子圖2合并,從而得到新子圖,如在圖5中以點(diǎn)劃線圓圈所示。接著,可以在該合并后的新子圖的范圍內(nèi)執(zhí)行推理。通過(guò)這樣的調(diào)整操作,就可以避免基于聚類的這種分組方法可能帶來(lái)的重要關(guān)系被切斷的情況,從而使得本發(fā)明的技術(shù)方案在考慮推理效率的同時(shí),也能更充分地考慮到推理的有效性。此外,本發(fā)明還提供了一種用于從數(shù)據(jù)集獲取信息的系統(tǒng)。在下文中將參考圖6對(duì)其進(jìn)行描述,該圖6示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式的用于從數(shù)據(jù)集獲取信息的系統(tǒng)。如圖6所示,系統(tǒng)600可以包括聚類裝置601和推理裝置602。該聚類裝置60 I配置用于對(duì)表示數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖。該圖包括表示數(shù)據(jù)的節(jié)點(diǎn)以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊。該推理裝置602,配置用于針對(duì)得到的所述多個(gè)子圖的至少ー個(gè)在子圖的范圍內(nèi)進(jìn)行推理。根據(jù)本發(fā)明的ー個(gè)優(yōu)選實(shí)施方式,該系統(tǒng)600可以進(jìn)一歩包括排序裝置603,配置用于根據(jù)各個(gè)子圖的重要性,對(duì)得到的多個(gè)子圖進(jìn)行排序。在該實(shí)施方式中,所述推理裝置602配置用于按照所述多個(gè)子圖的排序進(jìn)行推理。根據(jù)本發(fā)明的另ー優(yōu)選實(shí)施方式,子圖的重要性可以由以下其中一項(xiàng)或者多項(xiàng)來(lái)度量子圖的緊密度;子圖的獨(dú)立性;以及子圖的層級(jí)。根據(jù)本發(fā)明的再一優(yōu)選實(shí)施方式,推理裝置602可以進(jìn)一歩配置用于響應(yīng)于在ー子圖中進(jìn)行推理未得到結(jié)果,通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理。根據(jù)本發(fā)明的又一優(yōu)選實(shí)施方式,推理裝置602可以配置用于按照以下各項(xiàng)其中之一來(lái)選擇其他子圖中與該子圖相連的節(jié)點(diǎn)子圖的排序;該子圖中缺少的節(jié)點(diǎn)關(guān)系類型;以及節(jié)點(diǎn)之間的關(guān)系的優(yōu)先級(jí)。根據(jù)本發(fā)明的另ー優(yōu)選實(shí)施方式,該系統(tǒng)600可以進(jìn)一歩包括合并裝置604,配置用于響應(yīng)于通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理得到結(jié)果,合并所述子圖和所述其他子圖以形成新子圖。在該實(shí)施方式中,推理裝置602可以配置用于在所述新子圖內(nèi)進(jìn)行推理。根據(jù)本發(fā)明的再一優(yōu)選實(shí)施方式,該系統(tǒng)600可以進(jìn)一歩包括保存裝置605,配置用于保存所述新子圖以供隨后使用。需要指出的是,該系統(tǒng)600中所包括的各個(gè)裝置的操作與前面描述的各個(gè)方法步驟基本上是對(duì)應(yīng)的,因此,關(guān)于該系統(tǒng)600中的各個(gè)裝置的具體操作,可以參考前文結(jié)合圖2至圖5對(duì)本發(fā)明的方法的描述。在上文中主要參考搜索和查詢對(duì)本發(fā)明進(jìn)行了描述。然而本發(fā)明并不僅限于此,而是可以應(yīng)用于其他任何適當(dāng)?shù)那樾?,例如?shù)據(jù)挖掘。此外,在上文中在描述對(duì)聚類得到的子圖進(jìn)行排序時(shí)主要以緊密度、獨(dú)立性、層級(jí)等標(biāo)準(zhǔn)為示例。然而需要說(shuō)明的是,還可以替代地或者附加地采用任何其他適當(dāng)?shù)臉?biāo)準(zhǔn)來(lái)進(jìn)行排序。另外,在將推理擴(kuò)展至其他子組中的節(jié)點(diǎn)時(shí),也可以以按照本文所給的依據(jù)之外的其他依據(jù)來(lái)選擇其他子圖中與該子圖相連的節(jié)點(diǎn)。在上文中主要結(jié)合RDF進(jìn)行了描述,然而需要說(shuō)明的是,并不局限于此,而是也可以與其他任何適當(dāng)?shù)臄?shù)據(jù)或者資源表述方式結(jié)合使用。此外,在上文中結(jié)合簡(jiǎn)單的特定三元組示例對(duì)本發(fā)明進(jìn)行了描述,然而需要說(shuō)明的是,這只是出于示例的目的。本發(fā)明實(shí)際可以應(yīng)用于大規(guī)?;蛘呔W(wǎng)絡(luò)規(guī)模的數(shù)據(jù),而且實(shí)際推理過(guò)程可能也會(huì)復(fù)雜得多。此外,本發(fā)明的實(shí)施方式可以以軟件、硬件或者軟件和硬件的結(jié)合來(lái)實(shí)現(xiàn)。硬件部分可以利用專用邏輯來(lái)實(shí)現(xiàn);軟件部分可以存儲(chǔ)在存儲(chǔ)器中,由適當(dāng)?shù)闹噶顖?zhí)行系統(tǒng),例如微處理器或者專用設(shè)計(jì)硬件來(lái)執(zhí)行。本領(lǐng)域的普通技術(shù)人員可以理解上述的方法和系統(tǒng)可以使用計(jì)算機(jī)可執(zhí)行指令和/或包含在處理器控制代碼中來(lái)實(shí)現(xiàn),例如在諸如磁盤、CD或DVD-ROM的載體介質(zhì)、諸如只讀存儲(chǔ)器(固件)的可編程的存儲(chǔ)器或者諸如光學(xué)或電子信號(hào)載體的數(shù)據(jù)載體上提供了這樣的代碼。本實(shí)施例的系統(tǒng)及其組件可以由諸如超大規(guī)模集成電路或門陣列、諸如邏輯芯片、晶體管等的半導(dǎo)體、或者諸如現(xiàn)場(chǎng)可編程門陣列、可編程邏輯設(shè)備等的可編程硬件設(shè)備的硬件電路實(shí)現(xiàn),也可以用由各種類型的處理器執(zhí)行的軟件實(shí) 現(xiàn),也可以由上述硬件電路和軟件的結(jié)合例如固件來(lái)實(shí)現(xiàn)。雖然已經(jīng)參考目前考慮到的實(shí)施方式描述了本發(fā)明,但是應(yīng)該理解本發(fā)明不限于所公開(kāi)的實(shí)施方式。相反,本發(fā)明_在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改和等同布置。以下權(quán)利要求的范圍符合最廣泛解釋,以便包含所有這樣的修改及等同結(jié)構(gòu)和功能。
權(quán)利要求
1.一種用于從數(shù)據(jù)集獲取信息的方法,包括 對(duì)表示所述數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖,其中所述圖包括表示數(shù)據(jù)的節(jié)點(diǎn)以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊;以及 針對(duì)得到的所述多個(gè)子圖的至少ー個(gè)在子圖的范圍內(nèi)進(jìn)行推理。
2.根據(jù)權(quán)利要求I所述的方法,進(jìn)ー步包括 根據(jù)各個(gè)子圖的重要性,對(duì)得到的所述多個(gè)子圖進(jìn)行排序,以及 其中所述推理按照所述多個(gè)子圖的排序進(jìn)行。
3.根據(jù)權(quán)利要求2所述的方法,其中所述重要性由以下其中一項(xiàng)或者多項(xiàng)來(lái)度量 子圖的緊密度; 子圖的獨(dú)立性;以及 子圖的層級(jí)。
4.根據(jù)權(quán)利要求I所述的方法,進(jìn)ー步包括 響應(yīng)于在一子圖中進(jìn)行推理未得到結(jié)果,通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理。
5.根據(jù)權(quán)利要求4所述的方法,其中,按照以下各項(xiàng)其中之一來(lái)選擇其他子圖中與該子圖相連的節(jié)點(diǎn) 子圖的排序; 該子圖中缺少的節(jié)點(diǎn)關(guān)系類型;以及 節(jié)點(diǎn)之間的關(guān)系的優(yōu)先級(jí)。
6.根據(jù)權(quán)利要求4所述的方法,進(jìn)ー步包括 響應(yīng)于通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理得到結(jié)果,合并所述子圖和所述其他子圖以形成新子圖;以及在所述新子圖內(nèi)進(jìn)行推理。
7.根據(jù)權(quán)利要求6所述的方法,進(jìn)ー步包括 保存所述新子圖以供隨后使用。
8.一種用于從數(shù)據(jù)集獲取信息的系統(tǒng),包括 聚類裝置,配置用于對(duì)表示所述數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖,其中所述圖包括表示數(shù)據(jù)的節(jié)點(diǎn)以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊;以及 推理裝置,配置用于針對(duì)得到的所述多個(gè)子圖的至少ー個(gè)在子圖的范圍內(nèi)進(jìn)行推理。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),進(jìn)一歩包括 排序裝置,配置用于根據(jù)各個(gè)子圖的重要性,對(duì)得到的所述多個(gè)子圖進(jìn)行排序,以及 其中,所述推理裝置配置用于按照所述多個(gè)子圖的排序進(jìn)行推理。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述重要性由以下其中一項(xiàng)或者多項(xiàng)來(lái)度量 子圖的緊密度; 子圖的獨(dú)立性;以及 子圖的層級(jí)。
11.根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述推理裝置進(jìn)ー步配置用于 響應(yīng)于在一子圖中進(jìn)行推理未得到結(jié)果,通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述推理裝置配置用于按照以下各項(xiàng)其中之一來(lái)選擇其他子圖中與該子圖相連的節(jié)點(diǎn) 子圖的排序; 該子圖中缺少的節(jié)點(diǎn)關(guān)系類型;以及 節(jié)點(diǎn)之間的關(guān)系的優(yōu)先級(jí)。
13.根據(jù)權(quán)利要求11所述的系統(tǒng),進(jìn)一歩包括 合并裝置,配置用于響應(yīng)于通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理得到結(jié)果,合并所述子圖和所述其他子圖以形成新子圖;以及其中所述推理裝置配置用于在所述新子圖內(nèi)進(jìn)行推理。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),進(jìn)一歩包括 保存裝置,配置用于保存所述新子圖以供隨后使用。
全文摘要
本發(fā)明公開(kāi)了一種用于從數(shù)據(jù)集獲取信息的方法和系統(tǒng)。該方法可以包括對(duì)表示所述數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖,其中所述圖包括表示數(shù)據(jù)的節(jié)點(diǎn),以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊;以及在得到的所述多個(gè)子圖的至少一個(gè)子圖內(nèi)進(jìn)行推理。根據(jù)該方法,對(duì)圖的聚類是以無(wú)監(jiān)督的方式進(jìn)行的,其不需要任何預(yù)先定義的模型,因此非常靈活且具有很強(qiáng)的適應(yīng)性。另外,基于聚類而得到的每個(gè)子圖中的節(jié)點(diǎn)數(shù)目及其關(guān)系均得到限制,因此根據(jù)本發(fā)明的實(shí)施方式,推理規(guī)模易于控制從而使得推理效率得以提高。
文檔編號(hào)G06F17/30GK102693246SQ20111007743
公開(kāi)日2012年9月26日 申請(qǐng)日期2011年3月22日 優(yōu)先權(quán)日2011年3月22日
發(fā)明者劉博 , 李建強(qiáng), 趙彧 申請(qǐng)人:日電(中國(guó))有限公司