一種用于從數(shù)據(jù)集獲取信息的方法和系統(tǒng)的制作方法

文檔序號(hào)：6357049閱讀：292來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種用于從數(shù)據(jù)集獲取信息的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及智能數(shù)據(jù)分析技術(shù)領(lǐng)域，更具體地涉及用于從數(shù)據(jù)集獲取信息的方法和系統(tǒng)。
背景技術(shù)：
隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展，各種數(shù)據(jù)和信息資源越來(lái)越為豐富，為了有效地對(duì)這些信息進(jìn)行管理，W3C提出了用于描述這些資源的方法，即資源描述框架(RDF)。根據(jù)RDF的定義，數(shù)據(jù)或者資源可以使用ー個(gè)三元組來(lái)表示，該三元組包括主體、謂語(yǔ)和客體，其中主體和客體指示數(shù)據(jù)或者資源，謂語(yǔ)指示主體和客體之間的關(guān)系。例如，對(duì)于三兀組 instanceOf (X, author), instanceOf (Y, paper), hasPaper (X, Y)以及 Topic (Y, D)，其分別表示X是作者，Y是論文，作者X是論文Y的作者，以及D是論文Y的主題。基于這樣的三元組，可以利用邏輯語(yǔ)言來(lái)描述規(guī)則(或者公理)以便利用該規(guī)則來(lái)執(zhí)行自動(dòng)推理過(guò)程。一個(gè)規(guī)則的實(shí)例為“hasPaper (X，Y) AND Topic (Y，D)- > author (X,D) ”，其表示如果作者X是論文Y的作者且論文Y的主題為D，則作者X是主題D的作者或者主題D方面的專家。這樣的描述機(jī)制使得自動(dòng)化推理成為可能，從而可以基于三元組和規(guī)則來(lái)實(shí)現(xiàn)智能語(yǔ)義信息檢索和挖掘。在對(duì)大規(guī)模數(shù)據(jù)或者網(wǎng)絡(luò)規(guī)模數(shù)據(jù)進(jìn)行推理時(shí)，效率一直是令人困擾并亟待解決的難題。而且這一問(wèn)題也成為在實(shí)際的信息處理中廣泛應(yīng)用語(yǔ)義推理的障礙。針對(duì)該問(wèn)題，在本領(lǐng)域中已經(jīng)提出了一些解決方案。例如在美國(guó)專利US7689526B2中提出了一種解決方案，根據(jù)該解決方案，首先基于已有的知識(shí)規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類，然后針對(duì)分類后的數(shù)據(jù)利用壓縮模型來(lái)表示知識(shí)規(guī)則。該方案g在通過(guò)使用由壓縮模型表示的規(guī)則來(lái)提高推理效率。另夕卜，在由E. Amir 和 S. McIIraith 發(fā)表于 Representation and Reasoning (2000)題為“Partition-based Logical Reasoning”一文中，公開(kāi)了另ー種解決方案，該解決方案首先對(duì)規(guī)則集進(jìn)行分析，然后對(duì)規(guī)則進(jìn)行劃分，以由此來(lái)改善推理效率。前述兩種解決方案都是通過(guò)對(duì)規(guī)則進(jìn)行預(yù)處理來(lái)改善推理效率，因此屬于基于規(guī)則的技木。然而，由于規(guī)則通常是僅僅適用于特定情形(例如，依賴于查詢)，因此這兩種解決方案具有適應(yīng)性不好、靈活性較差的缺陷。此外，對(duì)于數(shù)據(jù)量巨大的情況，即便是利用一條規(guī)則來(lái)進(jìn)行推理也需花費(fèi)大量時(shí)間，因此在這種情況下，這兩種解決方案對(duì)效率改善具有有限的作用。此タ卜，在由Y. Zeng, Y. Wang, Z. Huang 和 N. Zhong 發(fā)表于 Lecture Notes inComputer Science (2009, Vol. 5820,第 418-429 頁(yè))題為 “Unifying Web-Scale Searchand Reasoning from the Viewpoint of Granularity，，一文中，公開(kāi)了一種基于模型的節(jié)點(diǎn)分組技術(shù)的解決方案。出于說(shuō)明的目的，在圖IA至圖IC中示意性地示出了根據(jù)該技術(shù)方案的原理的圖示。如圖IA所示，根據(jù)該解決方案，數(shù)據(jù)集通過(guò)包括節(jié)點(diǎn)和邊的圖來(lái)表示，其中節(jié)點(diǎn)表示數(shù)據(jù)或者資源，例如RDF的主體和客體，邊表示數(shù)據(jù)或者資源之間的關(guān)系，例如RDF的謂語(yǔ)。為了清晰起見(jiàn)，在圖IA中分別采用圓形、方形和三角形圖案的節(jié)點(diǎn)來(lái)表示前面給出的三元組的示例中的作者、論文和主題，圓形節(jié)點(diǎn)與方形節(jié)點(diǎn)之間的邊(鏈接)表示“hasPaper”這ー關(guān)系，以及方形節(jié)點(diǎn)與三角形節(jié)點(diǎn)之間邊(鏈接)表示“hasTopic”這ー關(guān)系O接著，如圖IB所示，可以基于預(yù)先建立的節(jié)點(diǎn)分組模型，對(duì)該圖中的節(jié)點(diǎn)執(zhí)行分組操作，從而得到一個(gè)排序的節(jié)點(diǎn)組列表。節(jié)點(diǎn)組列表的排序是基于例如作者論文的數(shù)目來(lái)進(jìn)行，論文數(shù)目較多的作者排序較為靠前。然后，如圖IC所示，按照各個(gè)節(jié)點(diǎn)組的排序，分別在第一、第二和第三推理事務(wù)中，對(duì)各個(gè)節(jié)點(diǎn)組逐個(gè)地執(zhí)行推理，推理的范圍為對(duì)應(yīng)節(jié)點(diǎn)組及與該節(jié)點(diǎn)組相連通的所有其他節(jié)點(diǎn)，以及這些節(jié)點(diǎn)之間的邊。由于這ー技術(shù)方案是通過(guò)預(yù)先建立的節(jié)點(diǎn)分組模型來(lái)針對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，所以這種方案對(duì)于預(yù)先建立的節(jié)點(diǎn)分組模型具有很大的依賴性，這使得該解決方案的靈活性較差，不能適用于動(dòng)態(tài)的查詢需求。另外，該解決方案是通過(guò)節(jié)點(diǎn)分組限制推理規(guī)模，但其僅僅限制了觸發(fā)推理的節(jié)點(diǎn)的數(shù)量，由于節(jié)點(diǎn)之間還存在大量錯(cuò)綜復(fù)雜的關(guān)系，所以推理規(guī)模實(shí)際上難以得到有效的控制。此外，根據(jù)該技術(shù)方案，在每個(gè)推理事務(wù)中還涉及大量重復(fù)的節(jié)點(diǎn)，這也進(jìn)一步惡化了推理模塊的控制有效性。為此，本領(lǐng)域存在一種對(duì)于在數(shù)據(jù)分析過(guò)程中采用的推理技術(shù)進(jìn)行改進(jìn)的迫切需要。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明提供了一種用于從數(shù)據(jù)集獲取信息的方法和系統(tǒng)，以克服或者至少部分消除現(xiàn)有技術(shù)中存在的缺陷。根據(jù)本發(fā)明的ー個(gè)方面，提供了一種用于從數(shù)據(jù)集獲取信息的方法。該方法可以包括對(duì)表示所述數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖，其中所述圖包括表示數(shù)據(jù)的節(jié)點(diǎn)以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊；以及針對(duì)得到的所述多個(gè)子圖的至少ー個(gè)在子圖的范圍內(nèi)進(jìn)行推理。在根據(jù)本發(fā)明的ー個(gè)優(yōu)選實(shí)施方式中，該方法可以進(jìn)一歩包括根據(jù)各個(gè)子圖的重要性，對(duì)得到的所述多個(gè)子圖進(jìn)行排序。在該實(shí)施方式中，推理可以按照所述多個(gè)子圖的排序依次地進(jìn)行。在根據(jù)本發(fā)明的一個(gè)實(shí)施方式中，各個(gè)子圖的重要性可以由以下其中一項(xiàng)或者多項(xiàng)來(lái)度量子圖的緊密度；子圖的獨(dú)立性；以及子圖的層級(jí)。在根據(jù)本發(fā)明的另ー實(shí)施方式中，該方法可以進(jìn)一歩包括響應(yīng)于在一子圖中進(jìn)行推理未得到結(jié)果，通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理。在根據(jù)本發(fā)明的再ー實(shí)施方式中，按照以下各項(xiàng)其中之一來(lái)選擇其他子圖中與該子圖相連的節(jié)點(diǎn)子圖的排序；該子圖中缺少的節(jié)點(diǎn)關(guān)系類型；以及節(jié)點(diǎn)之間的關(guān)系的優(yōu)先級(jí)。在根據(jù)本發(fā)明的又ー實(shí)施方式中，該方法可以進(jìn)一歩包括響應(yīng)于通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理得到結(jié)果，合并所述子圖和所述其他子圖以形成新子圖；以及在所述新子圖內(nèi)進(jìn)行推理。
在根據(jù)本發(fā)明的另ー優(yōu)選實(shí)施方式中，該方法可以進(jìn)一歩包括保存新子圖以供隨后使用。此外，根據(jù)本發(fā)明的另一方面，還提供了一種用于從數(shù)據(jù)集獲取信息的系統(tǒng)。該系統(tǒng)可以包括聚類裝置，配置用于對(duì)表示所述數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖，其中所述圖包括表示數(shù)據(jù)的節(jié)點(diǎn)以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊；以及推理裝置，配置用于針對(duì)得到的所述多個(gè)子圖的至少ー個(gè)在子圖的范圍內(nèi)進(jìn)行推理。根據(jù)本發(fā)明的實(shí)施方式，對(duì)圖的聚類是以無(wú)監(jiān)瞀的方式進(jìn)行的，其不需要任何預(yù)先定義的模型，因此非常靈活且具有很強(qiáng)的適應(yīng)性。另外，推理在子圖范圍內(nèi)進(jìn)行，基于聚類而得到的每個(gè)子圖中的節(jié)點(diǎn)數(shù)目及其關(guān)系均得到限制，且基于聚類而得到的每個(gè)子圖中沒(méi)有重復(fù)的節(jié)點(diǎn)和關(guān)系。因此根據(jù)本發(fā)明的實(shí)施方式，推理規(guī)模易于控制，從而使得推理效率得以提尚。

通過(guò)對(duì)結(jié)合附圖所示出的實(shí)施方式進(jìn)行詳細(xì)說(shuō)明，本發(fā)明的上述以及其他特征將更加明顯，本發(fā)明附圖中相同的標(biāo)號(hào)表示相同或相似的部件。在附圖中圖IA至圖IC示出了根據(jù)現(xiàn)有技術(shù)的ー種從數(shù)據(jù)集獲取信息的技術(shù)方案。圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式用于從數(shù)據(jù)集獲取信息的方法的流程圖。圖3是示出了本發(fā)明的原理的示意圖。圖4示出了根據(jù)本發(fā)明的另ー實(shí)施方式用于從數(shù)據(jù)集獲取信息的方法的流程圖。圖5示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施方式用于對(duì)子圖進(jìn)行調(diào)整的原理示意圖。圖6示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式用于從數(shù)據(jù)集獲取信息的系統(tǒng)的方框圖。
具體實(shí)施例方式在下文中，將參考附圖通過(guò)實(shí)施方式對(duì)本發(fā)明提供的用于從數(shù)據(jù)集獲取信息的方法和系統(tǒng)進(jìn)行詳細(xì)的描述。首先將參考圖2至圖5來(lái)描述本發(fā)明所提供的方法。參考圖2，該圖2示出根據(jù)本發(fā)明的一個(gè)實(shí)施方式用于從數(shù)據(jù)集獲取信息的方法的流程圖。如圖2所示，首先在步驟201，對(duì)表示數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖。該圖包括表示數(shù)據(jù)的節(jié)點(diǎn)以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊。聚類是圖論中的ー項(xiàng)重要技術(shù)，其目標(biāo)是將圖中的節(jié)點(diǎn)和關(guān)系劃分成類簇。圖聚類的總體思路是基于圖中的邊(關(guān)系)結(jié)構(gòu)來(lái)進(jìn)行聚類，以使得每個(gè)類簇內(nèi)部的關(guān)系比兩個(gè)類簇之間的關(guān)系更加密切。為此，本發(fā)明人將圖形聚類技術(shù)應(yīng)用于智能數(shù)據(jù)分析的領(lǐng)域，利用圖聚類技術(shù)將表示數(shù)據(jù)集的圖分割成若干子圖。圖3是示出了本發(fā)明的原理的示意圖。如圖3所示，在本發(fā)明中，采用圖來(lái)表示數(shù)據(jù)集，其中圖的節(jié)點(diǎn)表示數(shù)據(jù)，而節(jié)點(diǎn)之間的鏈路或者邊表示節(jié)點(diǎn)之間的關(guān)系。針對(duì)該表示數(shù)據(jù)集的圖，基于圖形聚類技術(shù)來(lái)進(jìn)行聚類，從而將該圖聚類成如圖3中所示的以圓形虛線示出的若干子圖(類簇)。表示數(shù)據(jù)集的圖可以存儲(chǔ)在存儲(chǔ)單元中。例如，各個(gè)節(jié)點(diǎn)可以存儲(chǔ)在節(jié)點(diǎn)存儲(chǔ)單元中，并例如以[節(jié)點(diǎn)ID，節(jié)點(diǎn)名]的形式存儲(chǔ)；節(jié)點(diǎn)之間的關(guān)系可以存儲(chǔ)在節(jié)點(diǎn)關(guān)系存儲(chǔ)、単元中，且例如以[關(guān)系ID，關(guān)系名，主體節(jié)點(diǎn)ID，客體節(jié)點(diǎn)ID]的形式存儲(chǔ)；聚類得到的子圖或者類簇可以存儲(chǔ)在例如子圖存儲(chǔ)単元中，例如以[子圖ID，節(jié)點(diǎn)列表，關(guān)系列表]的形式來(lái)存儲(chǔ)。對(duì)表示數(shù)據(jù)集的圖進(jìn)行聚類可以采用已知的或者將來(lái)開(kāi)發(fā)出的任何圖聚類方法來(lái)實(shí)現(xiàn)。例如，可以采用基于連通性的圖聚類算法，依據(jù)該算法可以將每對(duì)節(jié)點(diǎn)之間存在的路徑的數(shù)目作為進(jìn)行聚類時(shí)的ー種度量，對(duì)于屬于相同類簇的節(jié)點(diǎn)，它們之間應(yīng)當(dāng)具有高度的連通性。在根據(jù)本發(fā)明的ー種具體實(shí)現(xiàn)中，可以采用高連通子圖(HCS)算法，其中設(shè)置了邊連通性閾值k。然后，可以針對(duì)圖G執(zhí)行對(duì)該圖的最小割算法(minimum-cut)以將該圖分割成兩個(gè)子圖H，H’。如果子圖G的邊連通性高于連通性閾值k，則返回圖G作為分類后的類簇，否則將子圖H和H’作為新的輸入以便進(jìn)行下一次迭代處理。該過(guò)程一直重復(fù)直至得到的子圖的連通性均高于閾值k。這樣，就可以得到若干個(gè)具有高度內(nèi)部關(guān)聯(lián)性的子圖。得到的子圖，如前所述可以存儲(chǔ)在子圖存儲(chǔ)単元中。此外，也可以在全局層次上利用分層聚類將子圖形成為分層結(jié)構(gòu)。例如，在采用HCS算法的情況下，可以設(shè)置多個(gè)邊連通性閾值，其中可以將較低的閾值應(yīng)用于更高層次的聚類，而將較高的閾值應(yīng)用較低層次的聚類。通過(guò)這樣的聚類，就可以獲得具有分層結(jié)構(gòu)的多個(gè)子圖。然后，可以在步驟S202中，針對(duì)得到的所述多個(gè)子圖的至少ー個(gè)在子圖的范圍內(nèi)進(jìn)行推理。推理使用的推理規(guī)則，例如可以存儲(chǔ)在規(guī)則(公理)存儲(chǔ)單元中，且例如以[規(guī)貝IJID，規(guī)則語(yǔ)句]的形式存儲(chǔ)。在各個(gè)子圖中執(zhí)行推理可以采用現(xiàn)有技術(shù)中的方法來(lái)進(jìn)行，此處出于簡(jiǎn)化的目的，不再對(duì)推理的具體細(xì)節(jié)進(jìn)行贅述。根據(jù)本發(fā)明的實(shí)施方式，對(duì)表示數(shù)據(jù)集的圖進(jìn)行分組是基于圖聚類技術(shù)，其是以自動(dòng)地、無(wú)監(jiān)瞀的方式進(jìn)行的，而無(wú)需依賴任何預(yù)定義的分組模型，因此，本發(fā)明具有很高的靈活性和很強(qiáng)的適應(yīng)性。此外，本發(fā)明是基于圖聚類技術(shù)實(shí)現(xiàn)的分組，每個(gè)組中的節(jié)點(diǎn)和關(guān)系都得到了限制，因此可以提高推理效率，同時(shí)可以很好地控制推理的規(guī)模。此外，圖4中還給出了根據(jù)本發(fā)明的另ー實(shí)施方式的方法的流程圖。在圖4中，步驟S401和S402基本對(duì)應(yīng)于圖2中的步驟S201和S202，因此不再對(duì)此進(jìn)行詳細(xì)描述。與圖2中不同的是，在圖4所示的實(shí)施方式中，在步驟S402之前還進(jìn)一歩包括步驟S403。在該步驟S403中，進(jìn)ー步根據(jù)各個(gè)子圖的重要性，對(duì)得到的所述多個(gè)子圖進(jìn)行排序，以便確定對(duì)子圖執(zhí)行推理的順序。根據(jù)本發(fā)明，在獲得了多個(gè)子圖之后，逐個(gè)地對(duì)子圖進(jìn)行推理。然而，對(duì)于諸如搜索等在線應(yīng)用場(chǎng)景，通常設(shè)置有系統(tǒng)的響應(yīng)時(shí)間，如果能在有限的響應(yīng)時(shí)間內(nèi)對(duì)最重要的子圖進(jìn)行推理，這將是有益的。為此，根據(jù)本發(fā)明的優(yōu)選實(shí)施例，對(duì)聚類得到的子圖進(jìn)行排序以使得包括重要信息的子圖排序更為靠前。這樣對(duì)子圖執(zhí)行聚類時(shí)，可以按照子圖的排序依次來(lái)進(jìn)行，以便使得在響應(yīng)時(shí)間結(jié)束后向用戶返回最為有效的結(jié)果。例如，可以使用子圖的內(nèi)部特征作為重要性的度量。通常，緊密度更高、獨(dú)立性更高的子圖更可能得到更有效的結(jié)果，因此，這樣的子圖也更為重要。在根據(jù)本發(fā)明的一個(gè)實(shí)施方式中，選擇子圖與其他子圖之間的獨(dú)立性作為對(duì)子圖進(jìn)行排序的依據(jù)。該獨(dú)立性例如通過(guò)連通度(conductance)來(lái)度量。子圖S的連通度Φ (S)可以通過(guò)下式來(lái)計(jì)算得到
c(5,G\5) _min{deg(5),deg(G \ S)}式⑴其中G表示整個(gè)圖；S表示子圖；G\S是圖G排除S后的剩余部分；c (S，G\S)是子圖S與剩余部分G\S之間的分割尺寸，即在S與G\S之間的邊數(shù)目；deg(S)是子圖S的度，即子圖內(nèi)部的邊數(shù)目。對(duì)子圖的排序可以基于該連通度Φ (S)進(jìn)行，連通度值較低(即獨(dú)立性高)的子圖可以排序較為靠前，連通度值較高(即獨(dú)立性低)的子圖可以排序較為靠后。另外，也可以將緊密度和獨(dú)立性兩者(即相對(duì)緊密度)作為排序的ー種度量。子圖S的相對(duì)緊密度P (S)，例如可以通過(guò)下式來(lái)表示バS) = deg(“GW 式⑵其中類似地，S表示子圖；G\S是圖G排除S后的剩余部分；deg(S)和c(S，G\S)分別是子圖S的度以及子圖S和剰余部分(G\S)之間的分割尺寸。在采用相對(duì)緊密度的情況下，可以將具有較大相對(duì)緊密度值的子圖排在較為靠前的位置，而將將具有較小相對(duì)緊密度值的子圖排在較為靠后的位置。此外，在采用分層聚類的情況下，還可以進(jìn)ー步基于各個(gè)子圖的層級(jí)來(lái)進(jìn)行排序。例如，可以將位于在層級(jí)中較低層的那些子圖排在位于較高層中的那些子圖之前。這樣，就可以在步驟S402，基于多個(gè)子圖的排序，逐一地對(duì)子圖執(zhí)行推理，直至總的推理時(shí)間已經(jīng)達(dá)到限制或者已經(jīng)完成對(duì)所有子圖的推理。這樣就可以盡可能在推理時(shí)間結(jié)束時(shí)向用戶返回最重要的推理結(jié)果。此外，還優(yōu)選的是，可以在步驟S402之后，在步驟S404中響應(yīng)于在一子圖中進(jìn)行推理未得到結(jié)果，通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理。如前所述，基于圖聚類的推理有效地限制了推理規(guī)模，但發(fā)明人也注意到，這種方式同時(shí)也斷開(kāi)了ー些節(jié)點(diǎn)之間的關(guān)系。而在ー些特定情況下，聚類很可能斷開(kāi)了將用于推理的重要關(guān)系，從而導(dǎo)致針對(duì)特定的推理規(guī)則在一些子圖內(nèi)無(wú)法得出推理結(jié)果?？紤]到這ー情況，特別是對(duì)于重要性較高的子圖，本發(fā)明優(yōu)選地，通過(guò)考慮其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理，以便能夠得到有效的推理結(jié)果。此外，如果通過(guò)考慮這些節(jié)點(diǎn)能夠得到有效的推理結(jié)果，則可以將這些節(jié)點(diǎn)合并到該子圖中，以便在隨后推理時(shí)使用。備選地，也可以在步驟S405將該子圖與這些節(jié)點(diǎn)所在的子圖合并，從而形成新的子圖并在步驟S406針對(duì)新子圖執(zhí)行推理，以便得到有效的推理結(jié)果。此外還優(yōu)選的是，可以保存合并得到的新子圖，以便例如隨后在利用相應(yīng)的推理規(guī)則進(jìn)行推理時(shí)使用。根據(jù)本發(fā)明的一個(gè)實(shí)施方式，如果在ー個(gè)子圖Cl的范圍內(nèi)進(jìn)行推理得到的推理結(jié)果為空，即該推理沒(méi)有得到結(jié)果，則調(diào)查其他子圖，即考慮其他子圖中與該子圖相連的節(jié)點(diǎn)。鑒于與該子圖相連的節(jié)點(diǎn)可能存在于多個(gè)子圖中，因此可以設(shè)置選擇這些節(jié)點(diǎn)的優(yōu)先次序。例如，可以按照備選節(jié)點(diǎn)所在子圖的排序，來(lái)選擇其他子圖中與該子圖相連的節(jié)點(diǎn)。對(duì)于排序較為靠前的子圖的節(jié)點(diǎn)，可以優(yōu)先考慮。此外，也可以考慮推理中缺少的節(jié)點(diǎn)關(guān)系類型，并優(yōu)先考慮涉及到缺少的節(jié)點(diǎn)關(guān)系類型的子圖。另外，也可以考慮節(jié)點(diǎn)之間的關(guān)系的優(yōu)先級(jí)。這些優(yōu)先級(jí)可以針對(duì)各個(gè)推理規(guī)則預(yù)先設(shè)定。可以優(yōu)先考慮涉及到優(yōu)先級(jí)較高的關(guān)系的子圖。此外，也可以將上述選擇依據(jù)結(jié)合使用。在根據(jù)本發(fā)明的另ー實(shí)施方式中，可以通過(guò)評(píng)估外部鏈路的必要性來(lái)并入重要的子圖，以便用于進(jìn)一歩推理。例如可以將對(duì)于ー個(gè)子圖而言重要的其他子圖定義如下假設(shè)子圖Cl和子圖C2之間的邊集為E，與該邊集E中的邊相連且位于C2中的邊節(jié)點(diǎn)集合為V，如果在C1+E+V的范圍內(nèi)進(jìn)行推理能夠得有意義的結(jié)果，則對(duì)于該特定的推理規(guī)則而言，C2是該Cl的重要子圖。當(dāng)然，這只是用于確定對(duì)于Cl重要的子圖的ー個(gè)示例，本發(fā)明并局限于此，而是可以采用任何適當(dāng)?shù)姆椒▉?lái)確定。這樣，在找到重要的子圖C2的情況下，則可以將子圖Cl和C2合并，以得到以新子圖，然后在新子圖內(nèi)執(zhí)行推理。圖5示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施方式用于對(duì)子圖進(jìn)行調(diào)整的原理示意圖。如圖所示，在排序第一的子圖中，沒(méi)有得到推理結(jié)果。因此，可以將推理范圍擴(kuò)展到相鄰的子圖(具有第二排序)中與該子圖相連的節(jié)點(diǎn)，例如擴(kuò)展至子圖2的α和d。如果在子圖I擴(kuò)展了外部邊(b, a), (c, a), (I, d)和(2，d)及外部節(jié)點(diǎn)α和d的情況下能夠得到推理結(jié)果，則將該子圖2識(shí)別為重要子圖。然后，例如可以將子圖I與被識(shí)別為是重要子圖的子圖2合并，從而得到新子圖，如在圖5中以點(diǎn)劃線圓圈所示。接著，可以在該合并后的新子圖的范圍內(nèi)執(zhí)行推理。通過(guò)這樣的調(diào)整操作，就可以避免基于聚類的這種分組方法可能帶來(lái)的重要關(guān)系被切斷的情況，從而使得本發(fā)明的技術(shù)方案在考慮推理效率的同時(shí)，也能更充分地考慮到推理的有效性。此外，本發(fā)明還提供了一種用于從數(shù)據(jù)集獲取信息的系統(tǒng)。在下文中將參考圖6對(duì)其進(jìn)行描述，該圖6示意性地示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式的用于從數(shù)據(jù)集獲取信息的系統(tǒng)。如圖6所示，系統(tǒng)600可以包括聚類裝置601和推理裝置602。該聚類裝置60 I配置用于對(duì)表示數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖。該圖包括表示數(shù)據(jù)的節(jié)點(diǎn)以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊。該推理裝置602，配置用于針對(duì)得到的所述多個(gè)子圖的至少ー個(gè)在子圖的范圍內(nèi)進(jìn)行推理。根據(jù)本發(fā)明的ー個(gè)優(yōu)選實(shí)施方式，該系統(tǒng)600可以進(jìn)一歩包括排序裝置603，配置用于根據(jù)各個(gè)子圖的重要性，對(duì)得到的多個(gè)子圖進(jìn)行排序。在該實(shí)施方式中，所述推理裝置602配置用于按照所述多個(gè)子圖的排序進(jìn)行推理。根據(jù)本發(fā)明的另ー優(yōu)選實(shí)施方式，子圖的重要性可以由以下其中一項(xiàng)或者多項(xiàng)來(lái)度量子圖的緊密度；子圖的獨(dú)立性；以及子圖的層級(jí)。根據(jù)本發(fā)明的再一優(yōu)選實(shí)施方式，推理裝置602可以進(jìn)一歩配置用于響應(yīng)于在ー子圖中進(jìn)行推理未得到結(jié)果，通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理。根據(jù)本發(fā)明的又一優(yōu)選實(shí)施方式，推理裝置602可以配置用于按照以下各項(xiàng)其中之一來(lái)選擇其他子圖中與該子圖相連的節(jié)點(diǎn)子圖的排序；該子圖中缺少的節(jié)點(diǎn)關(guān)系類型；以及節(jié)點(diǎn)之間的關(guān)系的優(yōu)先級(jí)。根據(jù)本發(fā)明的另ー優(yōu)選實(shí)施方式，該系統(tǒng)600可以進(jìn)一歩包括合并裝置604，配置用于響應(yīng)于通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理得到結(jié)果，合并所述子圖和所述其他子圖以形成新子圖。在該實(shí)施方式中，推理裝置602可以配置用于在所述新子圖內(nèi)進(jìn)行推理。根據(jù)本發(fā)明的再一優(yōu)選實(shí)施方式，該系統(tǒng)600可以進(jìn)一歩包括保存裝置605，配置用于保存所述新子圖以供隨后使用。需要指出的是，該系統(tǒng)600中所包括的各個(gè)裝置的操作與前面描述的各個(gè)方法步驟基本上是對(duì)應(yīng)的，因此，關(guān)于該系統(tǒng)600中的各個(gè)裝置的具體操作，可以參考前文結(jié)合圖2至圖5對(duì)本發(fā)明的方法的描述。在上文中主要參考搜索和查詢對(duì)本發(fā)明進(jìn)行了描述。然而本發(fā)明并不僅限于此，而是可以應(yīng)用于其他任何適當(dāng)?shù)那樾?，例如?shù)據(jù)挖掘。此外，在上文中在描述對(duì)聚類得到的子圖進(jìn)行排序時(shí)主要以緊密度、獨(dú)立性、層級(jí)等標(biāo)準(zhǔn)為示例。然而需要說(shuō)明的是，還可以替代地或者附加地采用任何其他適當(dāng)?shù)臉?biāo)準(zhǔn)來(lái)進(jìn)行排序。另外，在將推理擴(kuò)展至其他子組中的節(jié)點(diǎn)時(shí)，也可以以按照本文所給的依據(jù)之外的其他依據(jù)來(lái)選擇其他子圖中與該子圖相連的節(jié)點(diǎn)。在上文中主要結(jié)合RDF進(jìn)行了描述，然而需要說(shuō)明的是，并不局限于此，而是也可以與其他任何適當(dāng)?shù)臄?shù)據(jù)或者資源表述方式結(jié)合使用。此外，在上文中結(jié)合簡(jiǎn)單的特定三元組示例對(duì)本發(fā)明進(jìn)行了描述，然而需要說(shuō)明的是，這只是出于示例的目的。本發(fā)明實(shí)際可以應(yīng)用于大規(guī)?；蛘呔W(wǎng)絡(luò)規(guī)模的數(shù)據(jù)，而且實(shí)際推理過(guò)程可能也會(huì)復(fù)雜得多。此外，本發(fā)明的實(shí)施方式可以以軟件、硬件或者軟件和硬件的結(jié)合來(lái)實(shí)現(xiàn)。硬件部分可以利用專用邏輯來(lái)實(shí)現(xiàn)；軟件部分可以存儲(chǔ)在存儲(chǔ)器中，由適當(dāng)?shù)闹噶顖?zhí)行系統(tǒng)，例如微處理器或者專用設(shè)計(jì)硬件來(lái)執(zhí)行。本領(lǐng)域的普通技術(shù)人員可以理解上述的方法和系統(tǒng)可以使用計(jì)算機(jī)可執(zhí)行指令和/或包含在處理器控制代碼中來(lái)實(shí)現(xiàn)，例如在諸如磁盤、CD或DVD-ROM的載體介質(zhì)、諸如只讀存儲(chǔ)器(固件)的可編程的存儲(chǔ)器或者諸如光學(xué)或電子信號(hào)載體的數(shù)據(jù)載體上提供了這樣的代碼。本實(shí)施例的系統(tǒng)及其組件可以由諸如超大規(guī)模集成電路或門陣列、諸如邏輯芯片、晶體管等的半導(dǎo)體、或者諸如現(xiàn)場(chǎng)可編程門陣列、可編程邏輯設(shè)備等的可編程硬件設(shè)備的硬件電路實(shí)現(xiàn)，也可以用由各種類型的處理器執(zhí)行的軟件實(shí) 現(xiàn)，也可以由上述硬件電路和軟件的結(jié)合例如固件來(lái)實(shí)現(xiàn)。雖然已經(jīng)參考目前考慮到的實(shí)施方式描述了本發(fā)明，但是應(yīng)該理解本發(fā)明不限于所公開(kāi)的實(shí)施方式。相反，本發(fā)明_在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改和等同布置。以下權(quán)利要求的范圍符合最廣泛解釋，以便包含所有這樣的修改及等同結(jié)構(gòu)和功能。
權(quán)利要求
1.一種用于從數(shù)據(jù)集獲取信息的方法，包括對(duì)表示所述數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖，其中所述圖包括表示數(shù)據(jù)的節(jié)點(diǎn)以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊；以及針對(duì)得到的所述多個(gè)子圖的至少ー個(gè)在子圖的范圍內(nèi)進(jìn)行推理。
2.根據(jù)權(quán)利要求I所述的方法，進(jìn)ー步包括根據(jù)各個(gè)子圖的重要性，對(duì)得到的所述多個(gè)子圖進(jìn)行排序，以及其中所述推理按照所述多個(gè)子圖的排序進(jìn)行。
3.根據(jù)權(quán)利要求2所述的方法，其中所述重要性由以下其中一項(xiàng)或者多項(xiàng)來(lái)度量子圖的緊密度；子圖的獨(dú)立性；以及子圖的層級(jí)。
4.根據(jù)權(quán)利要求I所述的方法，進(jìn)ー步包括響應(yīng)于在一子圖中進(jìn)行推理未得到結(jié)果，通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理。
5.根據(jù)權(quán)利要求4所述的方法，其中，按照以下各項(xiàng)其中之一來(lái)選擇其他子圖中與該子圖相連的節(jié)點(diǎn) 子圖的排序；該子圖中缺少的節(jié)點(diǎn)關(guān)系類型；以及節(jié)點(diǎn)之間的關(guān)系的優(yōu)先級(jí)。
6.根據(jù)權(quán)利要求4所述的方法，進(jìn)ー步包括響應(yīng)于通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理得到結(jié)果，合并所述子圖和所述其他子圖以形成新子圖；以及在所述新子圖內(nèi)進(jìn)行推理。
7.根據(jù)權(quán)利要求6所述的方法，進(jìn)ー步包括保存所述新子圖以供隨后使用。
8.一種用于從數(shù)據(jù)集獲取信息的系統(tǒng)，包括聚類裝置，配置用于對(duì)表示所述數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖，其中所述圖包括表示數(shù)據(jù)的節(jié)點(diǎn)以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊；以及推理裝置，配置用于針對(duì)得到的所述多個(gè)子圖的至少ー個(gè)在子圖的范圍內(nèi)進(jìn)行推理。
9.根據(jù)權(quán)利要求8所述的系統(tǒng)，進(jìn)一歩包括排序裝置，配置用于根據(jù)各個(gè)子圖的重要性，對(duì)得到的所述多個(gè)子圖進(jìn)行排序，以及其中，所述推理裝置配置用于按照所述多個(gè)子圖的排序進(jìn)行推理。
10.根據(jù)權(quán)利要求9所述的系統(tǒng)，其中所述重要性由以下其中一項(xiàng)或者多項(xiàng)來(lái)度量子圖的緊密度；子圖的獨(dú)立性；以及子圖的層級(jí)。
11.根據(jù)權(quán)利要求8所述的系統(tǒng)，其中所述推理裝置進(jìn)ー步配置用于響應(yīng)于在一子圖中進(jìn)行推理未得到結(jié)果，通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理。
12.根據(jù)權(quán)利要求11所述的系統(tǒng)，其中所述推理裝置配置用于按照以下各項(xiàng)其中之一來(lái)選擇其他子圖中與該子圖相連的節(jié)點(diǎn) 子圖的排序；該子圖中缺少的節(jié)點(diǎn)關(guān)系類型；以及節(jié)點(diǎn)之間的關(guān)系的優(yōu)先級(jí)。
13.根據(jù)權(quán)利要求11所述的系統(tǒng)，進(jìn)一歩包括合并裝置，配置用于響應(yīng)于通過(guò)擴(kuò)展到其他子圖中與該子圖相連的節(jié)點(diǎn)來(lái)進(jìn)行推理得到結(jié)果，合并所述子圖和所述其他子圖以形成新子圖；以及其中所述推理裝置配置用于在所述新子圖內(nèi)進(jìn)行推理。
14.根據(jù)權(quán)利要求13所述的系統(tǒng)，進(jìn)一歩包括保存裝置，配置用于保存所述新子圖以供隨后使用。
全文摘要
本發(fā)明公開(kāi)了一種用于從數(shù)據(jù)集獲取信息的方法和系統(tǒng)。該方法可以包括對(duì)表示所述數(shù)據(jù)集的圖進(jìn)行聚類以得到多個(gè)子圖，其中所述圖包括表示數(shù)據(jù)的節(jié)點(diǎn)，以及表示所述節(jié)點(diǎn)之間的關(guān)系的邊；以及在得到的所述多個(gè)子圖的至少一個(gè)子圖內(nèi)進(jìn)行推理。根據(jù)該方法，對(duì)圖的聚類是以無(wú)監(jiān)督的方式進(jìn)行的，其不需要任何預(yù)先定義的模型，因此非常靈活且具有很強(qiáng)的適應(yīng)性。另外，基于聚類而得到的每個(gè)子圖中的節(jié)點(diǎn)數(shù)目及其關(guān)系均得到限制，因此根據(jù)本發(fā)明的實(shí)施方式，推理規(guī)模易于控制從而使得推理效率得以提高。
文檔編號(hào)G06F17/30GK102693246SQ20111007743
公開(kāi)日2012年9月26日申請(qǐng)日期2011年3月22日優(yōu)先權(quán)日2011年3月22日
發(fā)明者劉博 , 李建強(qiáng), 趙彧申請(qǐng)人:日電(中國(guó))有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙彧;李建強(qiáng);劉博
技術(shù)所有人：日電(中國(guó))有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

用于分類的測(cè)試數(shù)據(jù)集相關(guān)技術(shù)

用于聚類的數(shù)據(jù)集相關(guān)技術(shù)

用于獲取視頻信息的是相關(guān)技術(shù)

獲取信息的過(guò)程與方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于從數(shù)據(jù)集獲取信息的方法和系統(tǒng)的制作方法