本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,具體而言,涉及一種數(shù)據(jù)集合的確定方法和裝置。
背景技術(shù):
:數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對收集來的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。數(shù)據(jù)分析通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。數(shù)據(jù)分析有極廣泛的應(yīng)用范圍。典型的數(shù)據(jù)分析可能包括以下步驟:步驟1,數(shù)據(jù)采集,按照既定的方式采集多份數(shù)據(jù),然后可利用其中置信度較高的一份或者多份數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。步驟2,探索性數(shù)據(jù)分析,當(dāng)數(shù)據(jù)剛?cè)〉脮r(shí),可能雜亂無章,看不出規(guī)律,通過作圖、造表、用各種形式的方程擬合,計(jì)算某些特征量等手段探索規(guī)律性的可能形式,即往什么方向和用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。步驟3,模型選定分析,在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型,然后通過進(jìn)一步的分析從中挑選一定的模型。步驟4,推斷分析,通常使用數(shù)理統(tǒng)計(jì)方法對所定模型或估計(jì)的可靠程度和精確程度作出推斷。在整個(gè)數(shù)據(jù)分析的過程中步驟1顯得格外重要,只有選取了置信度較高的數(shù)據(jù)才有可能獲得較為準(zhǔn)確的數(shù)據(jù)分析結(jié)果。在完成數(shù)據(jù)采集后,得到了多份數(shù)據(jù),選取其中質(zhì)量較高的一份或者多份數(shù)據(jù)對數(shù)據(jù)分析起到至關(guān)重要的作用,若選取到噪音數(shù)據(jù)較多的數(shù)據(jù),將直接導(dǎo)致數(shù)據(jù)分析得到錯(cuò)誤的結(jié)果。目前,選取數(shù)據(jù)主要是隨機(jī)選擇或者用戶根據(jù)經(jīng)驗(yàn)進(jìn)行選擇,可能選取到質(zhì)量較低的數(shù)據(jù)。針對相關(guān)技術(shù)中無法獲取到質(zhì)量較高的數(shù)據(jù)集合的問題,目前尚未提出有效的解決方案。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供了一種數(shù)據(jù)集合的確定方法和裝置,以至少解決相關(guān)技術(shù)中無法獲取到質(zhì)量較高的數(shù)據(jù)集合的技術(shù)問題。根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種數(shù)據(jù)集合的確定方法,包括:接收到用于指示從多個(gè)第一數(shù)據(jù)集合中獲取目標(biāo)數(shù)據(jù)集合的指令,其中,第一數(shù)據(jù)集合中包括按照目標(biāo)類型采集到的至少一個(gè)實(shí)例數(shù)據(jù),目標(biāo)數(shù)據(jù)集合的數(shù)據(jù)用于進(jìn)行數(shù)據(jù)分析;根據(jù)第一屬性集合確定每個(gè)第一數(shù)據(jù)集合中每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率,其中,目標(biāo)概率為實(shí)例數(shù)據(jù)屬于目標(biāo)類型的概率,第一屬性集合中包括用于指示為目標(biāo)類型的數(shù)據(jù)的屬性;基于每個(gè)第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定每個(gè)第一數(shù)據(jù)集合的采集質(zhì)量信息,其中,采集質(zhì)量信息用于指示按照目標(biāo)類型采集到的第一數(shù)據(jù)集合的質(zhì)量;確定多個(gè)第一數(shù)據(jù)集合中采集質(zhì)量信息滿足預(yù)設(shè)質(zhì)量要求的為用于進(jìn)行數(shù)據(jù)分析的目標(biāo)數(shù)據(jù)集合。根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種數(shù)據(jù)集合的確定裝置,包括:接收單元,用于接收到用于指示從多個(gè)第一數(shù)據(jù)集合中獲取目標(biāo)數(shù)據(jù)集合的指令,其中,第一數(shù)據(jù)集合中包括按照目標(biāo)類型采集到的至少一個(gè)實(shí)例數(shù)據(jù),目標(biāo)數(shù)據(jù)集合的數(shù)據(jù)用于進(jìn)行數(shù)據(jù)分析;第一確定單元,用于根據(jù)第一屬性集合確定每個(gè)第一數(shù)據(jù)集合中每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率,其中,目標(biāo)概率為實(shí)例數(shù)據(jù)屬于目標(biāo)類型的概率,第一屬性集合中包括用于指示為目標(biāo)類型的數(shù)據(jù)的屬性;第二確定單元,用于基于每個(gè)第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定每個(gè)第一數(shù)據(jù)集合的采集質(zhì)量信息,其中,采集質(zhì)量信息用于指示按照目標(biāo)類型采集到的第一數(shù)據(jù)集合的質(zhì)量;第三確定單元,用于確定多個(gè)第一數(shù)據(jù)集合中采集質(zhì)量信息滿足預(yù)設(shè)質(zhì)量要求的為用于進(jìn)行數(shù)據(jù)分析的目標(biāo)數(shù)據(jù)集合。在本發(fā)明實(shí)施例中,在接收到用于指示從多個(gè)第一數(shù)據(jù)集合中獲取目標(biāo)數(shù)據(jù)集合的指令時(shí),通過第一屬性集合來確定第一數(shù)據(jù)集合中的實(shí)例數(shù)據(jù)屬于目標(biāo)類型的概率,然后基于第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定第一數(shù)據(jù)集合的采集質(zhì)量信息,并從中選出滿足預(yù)設(shè)質(zhì)量要求的目標(biāo)數(shù)據(jù)集合用于進(jìn)行數(shù)據(jù)分析,可以解決了相關(guān)技術(shù)中無法獲取到質(zhì)量較高的數(shù)據(jù)集合的技術(shù)問題,進(jìn)而達(dá)到獲取到質(zhì)量較高的數(shù)據(jù)集合的技術(shù)效果,保證了數(shù)據(jù)分析結(jié)果的可靠性。附圖說明此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:圖1是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)集合的確定方法的硬件環(huán)境的示意圖;圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)集合的確定方法的流程圖;圖3是根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)集合的確定方法的軟件模塊的示意圖;圖4是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)集合的確定方法的流程圖;圖5是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)集合的確定裝置的示意圖;圖6是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)集合的確定裝置的示意圖;圖7是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)集合的確定裝置的示意圖;以及圖8是根據(jù)本發(fā)明實(shí)施例的一種終端的結(jié)構(gòu)框圖。具體實(shí)施方式為了使本
技術(shù)領(lǐng)域:
的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。首先,在對本發(fā)明實(shí)施例進(jìn)行描述的過程中出現(xiàn)的部分名詞或者術(shù)語適用于如下解釋:本體的形式化定義分為兩種,五元組或七元組,五元組的定義是O=(C,R,HC,Rel,Ao),C是概念的集合、R是關(guān)系的集合、HC表示概念的層次、Rel表示概念間的關(guān)系、Ao表示本體公理;七元組的定義為O={C,AC,R,AR,H,I,X},C是概念的集合、Ao是概念屬性的集合、R是關(guān)系的集合、AR是關(guān)系屬性的集合、H表示層次的集合、I是實(shí)例的集合、X是公理的集合。概念(Concepts)又稱為類(class),是某一領(lǐng)域內(nèi)具有相同性質(zhì)的對象的集合,如:動(dòng)物、人、組織,RDF中通過預(yù)定義屬性“rdf:Class”來定義。另外RDFS(ResourceDescriptionFrameworkSchema)中還提供了預(yù)定義的類來表示一些簡單的數(shù)據(jù)類型,如整數(shù)(xs:integer)、字符串(xs:string)等。實(shí)例(Instances)是某個(gè)概念或類的具體化,例如,奧巴馬是概念“人”的實(shí)例。RDF(ResourceDescriptionFramework):世界萬維網(wǎng)組織(W3C)于1999年推出了用于描述萬維網(wǎng)資源的標(biāo)準(zhǔn)語言資源描述框架RDF,RDF是一種主要的本體描述語言,它為互聯(lián)網(wǎng)上的各種應(yīng)用提供信息描述的規(guī)范。RDF以三元組形式“<主語,謂詞,賓語>”來描述Web上的資源,已成為本體描述的標(biāo)準(zhǔn)之一,被廣泛應(yīng)用于語義網(wǎng)和元數(shù)據(jù)的描述中。is-a關(guān)系:通常來說RDF知識庫分為TBox和ABox兩個(gè)部分,TBox表達(dá)了知識庫中概念間的關(guān)系,而TBox中的is-a關(guān)系則是表達(dá)了概念間的上下位關(guān)系,即subclass-of關(guān)系,例如:subclass-of(Writer,Person)表達(dá)的是“Writer”是“Person”的子類。與TBox不同,而ABox主要包含了實(shí)例間的關(guān)系,ABox中的is-a關(guān)系則表示實(shí)例屬于某個(gè)概念,即instance-of關(guān)系,例如Tom是Person的一個(gè)實(shí)例通常表達(dá)為instance-of(Tom,Person)。subclass-of關(guān)系的抽象是為了形式化的表達(dá)核心概念之間的層次結(jié)構(gòu)。instance-of關(guān)系反映的是實(shí)例與類別的關(guān)系,是概念層和實(shí)例層聯(lián)系的基礎(chǔ)。因此本體中is-a關(guān)系是一些關(guān)鍵技術(shù)的基礎(chǔ),如:推理、一致性檢測等。需要說明的是,本體中的is-a關(guān)系反映的是實(shí)例與類別的關(guān)系,是概念層和實(shí)例層聯(lián)系的基礎(chǔ),例如Tom是Person的一個(gè)實(shí)例通常表達(dá)為Tomis-aPerson,Tom不是Organization的實(shí)例,可以將Tom稱為Organization的反例。在用RDF中,Instanceis-aType是本體中Type(a)斷言常用的表達(dá)方式。在一元關(guān)系Type(a)中,a表示知識庫中的實(shí)例信息,Type表示知識庫中的類別或概念信息,該一元關(guān)系我們稱之為Type斷言。實(shí)施例1根據(jù)本發(fā)明實(shí)施例,提供了一種數(shù)據(jù)集合的確定方法的方法實(shí)施例??蛇x地,在本實(shí)施例中,上述數(shù)據(jù)集合的確定方法可以應(yīng)用于如圖1所示的由服務(wù)器102和終端104所構(gòu)成的硬件環(huán)境中。如圖1所示,服務(wù)器102通過網(wǎng)絡(luò)與終端104進(jìn)行連接,上述網(wǎng)絡(luò)包括但不限于:廣域網(wǎng)、城域網(wǎng)或局域網(wǎng),終端104并不限定于PC、手機(jī)、平板電腦等。本發(fā)明實(shí)施例的方法可以由服務(wù)器102來執(zhí)行,也可以由終端104來執(zhí)行,還可以是由服務(wù)器102和終端104共同執(zhí)行。其中,終端104執(zhí)行本發(fā)明實(shí)施例的方法也可以是由安裝在其上的客戶端來執(zhí)行。圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)集合的確定方法的流程圖,如圖2所示,該方法可以包括以下步驟:步驟S202,接收到用于指示從多個(gè)第一數(shù)據(jù)集合中獲取目標(biāo)數(shù)據(jù)集合的指令,第一數(shù)據(jù)集合中包括按照目標(biāo)類型采集到的至少一個(gè)實(shí)例數(shù)據(jù),目標(biāo)數(shù)據(jù)集合的數(shù)據(jù)用于進(jìn)行數(shù)據(jù)分析;步驟S204,根據(jù)第一屬性集合確定每個(gè)第一數(shù)據(jù)集合中每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率,目標(biāo)概率為實(shí)例數(shù)據(jù)屬于目標(biāo)類型的概率,第一屬性集合中包括用于指示為目標(biāo)類型的數(shù)據(jù)的屬性;步驟S206,基于每個(gè)第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定每個(gè)第一數(shù)據(jù)集合的采集質(zhì)量信息,采集質(zhì)量信息用于指示按照目標(biāo)類型采集到的第一數(shù)據(jù)集合的質(zhì)量;步驟S208,確定多個(gè)第一數(shù)據(jù)集合中采集質(zhì)量信息滿足預(yù)設(shè)質(zhì)量要求的為用于進(jìn)行數(shù)據(jù)分析的目標(biāo)數(shù)據(jù)集合。通過上述步驟S202至步驟S208,在接收到用于指示從多個(gè)第一數(shù)據(jù)集合中獲取目標(biāo)數(shù)據(jù)集合的指令時(shí),通過第一屬性集合來確定第一數(shù)據(jù)集合中的實(shí)例數(shù)據(jù)屬于目標(biāo)類型的概率,然后基于第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定第一數(shù)據(jù)集合的采集質(zhì)量信息,并從中選出滿足預(yù)設(shè)質(zhì)量要求的目標(biāo)數(shù)據(jù)集合用于進(jìn)行數(shù)據(jù)分析,可以解決了相關(guān)技術(shù)中無法獲取到質(zhì)量較高的數(shù)據(jù)集合的技術(shù)問題,進(jìn)而達(dá)到獲取到質(zhì)量較高的數(shù)據(jù)集合的技術(shù)效果,保證了數(shù)據(jù)分析結(jié)果的可靠性。上述的數(shù)據(jù)集合為按照目標(biāo)類型(即概念或者類)采集到的滿足is-a關(guān)系的實(shí)例數(shù)據(jù),實(shí)例數(shù)據(jù)的采集方式可以為自動(dòng)抽取或利用異構(gòu)數(shù)據(jù)集成的方式獲得,如知識庫DBpeida通過抽取維基百科Wikipedia的頁面得到實(shí)例數(shù)據(jù)。上述的數(shù)據(jù)分析是指通過對數(shù)據(jù)進(jìn)行挖掘和處理來尋找和揭示隱含在數(shù)據(jù)中的規(guī)律。上述的第一屬性集合中包括的屬性信息為能夠用來描述上述的目標(biāo)類型的屬性信息,通過這些屬性信息能夠判斷出實(shí)例數(shù)據(jù)是否屬于目標(biāo)類型。上述的采集質(zhì)量信息可以為用來描述第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的采集準(zhǔn)確度、分布情況、混雜度等采集質(zhì)量的信息。在本申請的實(shí)施例中,所使用的方法可以用于數(shù)據(jù)處理中,用于從多份數(shù)據(jù)中篩選出采集質(zhì)量較好的數(shù)據(jù),主要包括以下步驟:通過分類關(guān)聯(lián)規(guī)則挖掘得到每個(gè)概念C的一個(gè)或多個(gè)判定屬性集,并計(jì)算該判定集屬于概念C的置信度;根據(jù)實(shí)例的屬性與每個(gè)概念C的判斷屬性集進(jìn)行匹配,得到每個(gè)實(shí)例is-a關(guān)系的置信度;通過提出的兩個(gè)測度來評價(jià)本體中概念的質(zhì)量。下面結(jié)合圖2詳述本申請的實(shí)施例:在步驟S202提供的技術(shù)方案中,在用戶進(jìn)行數(shù)據(jù)分析的過程中,首先得獲取采集指令較好的數(shù)據(jù),獲取的過程可以為自動(dòng)獲取,即計(jì)算機(jī)會接收到用于指示從多個(gè)第一數(shù)據(jù)集合中獲取目標(biāo)數(shù)據(jù)集合的指令。在步驟S204提供的技術(shù)方案中,在根據(jù)第一屬性集合確定每個(gè)第一數(shù)據(jù)集合中每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率之前,獲取第二數(shù)據(jù)集合,其中,第二數(shù)據(jù)集合中的每一個(gè)數(shù)據(jù)均屬于目標(biāo)類型;通過對第二數(shù)據(jù)集合進(jìn)行數(shù)據(jù)挖掘,得到第一屬性集合。利用本申請的技術(shù)方案,可評估一個(gè)本體中is-a關(guān)系(即目標(biāo)類型或者概念)的質(zhì)量,在這個(gè)過程中,主要挑戰(zhàn)是如何找出本體中is-a關(guān)系錯(cuò)誤的實(shí)例,申請人在經(jīng)過仔細(xì)研究后發(fā)現(xiàn),每個(gè)概念Ci有且僅含有一個(gè)屬性集合Pc={p1,p2….,pn},Pc是知識庫中屬性P的一個(gè)子集,那么會存在至少一個(gè)Pc的子集DPc,能夠用來描述該概念Ci,那么DPc可稱為判定屬性集(即第一屬性集合),若實(shí)例的屬性屬于某個(gè)概念Ci的判斷屬性集,則該實(shí)例很可能屬于Ci,反之該實(shí)例則很可能是噪聲數(shù)據(jù)。例如,對于Country的實(shí)例,通常含有Caption(即首都)的屬性,而對于Person的實(shí)例,通常含有Birthday(生日)這個(gè)屬性,根據(jù)常識可知,一個(gè)國家是含有首都的,而一個(gè)人則有他自己的生日,若一個(gè)Country的實(shí)例含有Birthday這個(gè)屬性則該實(shí)例有很大可能是一個(gè)噪聲數(shù)據(jù)??墒褂梅诸愱P(guān)聯(lián)規(guī)則挖掘算法,計(jì)算出每個(gè)類的判定屬性集,然后利用匹配規(guī)則將實(shí)例和概念進(jìn)行匹配,而將匹配到判定屬性集的置信度作為該實(shí)例屬于該概念的后驗(yàn)概率,即目標(biāo)概率。定義實(shí)例E(a1,a2…an),其中ai是實(shí)例E(即目標(biāo)類型)的屬性,則E屬于類Ci的概率p(Ci│e)=p(Ci│a1,a2…an)。p(Ci│a1,a2…an)可以通過統(tǒng)計(jì)求得。由于數(shù)據(jù)本身不可靠且存在非典型屬性,若直接統(tǒng)計(jì)會出現(xiàn)較大誤差,非典型屬性是指出現(xiàn)頻率極低,且不能表達(dá)某個(gè)類的屬性。針對這種情況,本申請?zhí)岢鲇梅诸愱P(guān)聯(lián)規(guī)則,找到最能代表類Ci的關(guān)聯(lián)規(guī)則集合(即第一屬性集合),把這些屬性集稱作判定屬性集。然后根據(jù)一定匹配規(guī)則找到與該實(shí)例最相近的關(guān)聯(lián)規(guī)則(第一屬性集合)是(s1,s2…sn),那么其置信度最接近真實(shí)的p(Ci│E)。上述的關(guān)聯(lián)規(guī)則挖掘算法有Apriori算法和FP-樹,都可挖掘強(qiáng)關(guān)聯(lián)規(guī)則(即第一屬性集合)及其置信度,但可能會計(jì)算與類Ci無關(guān)的關(guān)聯(lián)規(guī)則,造成信息冗余和額外的內(nèi)存開銷。為了克服該問題,優(yōu)選地,本申請可采用分類關(guān)聯(lián)規(guī)則挖掘算法中的CAR-Apriori算法,只挖掘與類Ci相關(guān)的關(guān)聯(lián)規(guī)則及其置信度,以其置信度作為實(shí)例屬于該類別的概率。CAR-Apriori算法能挖掘指定類別的關(guān)聯(lián)規(guī)則,通過調(diào)整支持度來挖掘能代表類別的屬性集及它們的置信度。雖然本體中實(shí)例的屬性數(shù)量并不算大,根據(jù)CAR-Apriori算法的基本思想,不同的屬性會形成不同頻度的組合,這個(gè)組合數(shù)量是成指數(shù)趨勢增長的。為了減少系統(tǒng)開銷,在實(shí)際處理時(shí)進(jìn)行了部分?jǐn)?shù)據(jù)過濾,即過濾在每個(gè)類別中出現(xiàn)頻率極高的屬性。因?yàn)檫@類屬性無法提供實(shí)例屬于某個(gè)類型的信息,類似于文本挖掘中的停用詞,如“是”、“的”等。可選地,在得到第一屬性集合之后,可根據(jù)第一屬性集合確定每個(gè)第一數(shù)據(jù)集合中每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率,具體如下:獲取每個(gè)實(shí)例數(shù)據(jù)的第二屬性集合,第二屬性集合中包括實(shí)例數(shù)據(jù)所具有的屬性信息;基于第一屬性集合和每個(gè)實(shí)例數(shù)據(jù)的第二屬性集合確定每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率。上述的第一屬性集合的數(shù)量為至少一個(gè),在基于第一屬性集合和每個(gè)實(shí)例數(shù)據(jù)的第二屬性集合確定每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率之前,可獲取每個(gè)第一屬性集合的置信度,置信度用于指示具有第一屬性集合中所有屬性信息的數(shù)據(jù)屬于目標(biāo)類型的概率。在基于第一屬性集合和每個(gè)實(shí)例數(shù)據(jù)的第二屬性集合確定每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率時(shí),可通過將實(shí)例數(shù)據(jù)的第二屬性集合與每一個(gè)第一屬性集合進(jìn)行匹配,確定實(shí)例數(shù)據(jù)相對于每一個(gè)第一屬性集合的目標(biāo)匹配度,即每個(gè)實(shí)例數(shù)據(jù)可以得到至少一個(gè)目標(biāo)匹配度;將與至少一個(gè)目標(biāo)匹配度中的最大匹配度對應(yīng)的第一屬性集合的置信度作為實(shí)例數(shù)據(jù)的目標(biāo)概率??蛇x地,通過將實(shí)例數(shù)據(jù)的第二屬性集合與每一個(gè)第一屬性集合進(jìn)行匹配,確定實(shí)例數(shù)據(jù)相對于每一個(gè)第一屬性集合的目標(biāo)匹配度可通過如下方式實(shí)現(xiàn):確定實(shí)例數(shù)據(jù)的第二屬性集合中的屬性信息與第一屬性集合中的屬性信息的第一匹配度;確定第一屬性集合中的屬性信息與實(shí)例數(shù)據(jù)的第二屬性集合中的屬性信息的第二匹配度;根據(jù)第一匹配度和第二匹配度確定實(shí)例數(shù)據(jù)相對于第一屬性集合的目標(biāo)匹配度。上述的確定實(shí)例數(shù)據(jù)的第二屬性集合中的屬性信息與第一屬性集合中的屬性信息的第一匹配度包括:確定第二屬性集合中與第一屬性集合中的屬性信息匹配的目標(biāo)屬性信息的數(shù)量,如第二屬性集合中與第一屬性集合中的屬性信息相同的目標(biāo)屬性信息的數(shù)量;將目標(biāo)屬性信息的數(shù)量與第一屬性集合中的屬性信息的數(shù)量的比值作為第一匹配度。上述的確定第一屬性集合中的屬性信息與實(shí)例數(shù)據(jù)的第二屬性集合中的屬性信息的第二匹配度包括:確定第一屬性集合中與第二屬性集合中的屬性信息匹配的目標(biāo)屬性信息的數(shù)量,如第一屬性集合中與第二屬性集合中的屬性信息相同的目標(biāo)屬性信息的數(shù)量;將目標(biāo)屬性信息的數(shù)量與第二屬性集合中的屬性信息的數(shù)量的比值作為第二匹配度。上述的根據(jù)第一匹配度和第二匹配度確定實(shí)例數(shù)據(jù)相對于第一屬性集合的目標(biāo)匹配度包括:將第一匹配度和第二匹配度的和作為目標(biāo)匹配度,或者將第一匹配度和第二匹配度的乘積作為目標(biāo)匹配度。在步驟S206提供的技術(shù)方案中,基于每個(gè)第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定每個(gè)第一數(shù)據(jù)集合的采集質(zhì)量信息包括以下至少之一:確定第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率的第一平均值,第一平均值用于指示按照目標(biāo)類型采集到的數(shù)據(jù)的準(zhǔn)確度;確定第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率的熵值,熵值用于指示按照目標(biāo)類型采集到的數(shù)據(jù)的混雜度,采集質(zhì)量信息包括第一平均值和/或熵值??蛇x地,確定第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率的熵值包括:通過對第一數(shù)據(jù)集合中的所有實(shí)例數(shù)據(jù)的目標(biāo)概率進(jìn)行取對數(shù)運(yùn)算確定熵值。本申請?zhí)岢鰞蓚€(gè)測度來評價(jià)一個(gè)概念中is-a關(guān)系的質(zhì)量,其中一個(gè)通過概率的平均值Z(Ci)來評估is-a關(guān)系的正確性,公式如下:需要說明的是,Z(Ci)無法體現(xiàn)數(shù)據(jù)的分布情況,即不能表達(dá)該類中實(shí)例的混雜程度。因此本申請還提出用信息熵來反映數(shù)據(jù)的分布情況,記作M(Ci),信息混雜程度越高,熵值越大。將實(shí)例屬于某個(gè)類別的概率分區(qū)間分為若干個(gè)區(qū)間,落在第i區(qū)間的概率記做qi,區(qū)間個(gè)數(shù)為n,M(Ci)的計(jì)算公式如下:隨著語義網(wǎng)技術(shù)的飛速發(fā)展,本體已經(jīng)被應(yīng)用到了越來越多的領(lǐng)域,本體質(zhì)量評估已經(jīng)成為了語義網(wǎng)技術(shù)用必不可少的部分。本申請?zhí)岢隽艘环N評價(jià)RDF數(shù)據(jù)is-a關(guān)系質(zhì)量的測評方法,基于分類關(guān)聯(lián)規(guī)則計(jì)算出實(shí)例屬于其類別的概率,類的混雜度通過熵來表現(xiàn),類中is-a關(guān)系的正確性通過實(shí)例屬于類的概率均值表現(xiàn)。這兩個(gè)測度能在較全面、正確的反映RDF數(shù)據(jù)的is-a關(guān)系質(zhì)量。這不僅給本體構(gòu)建者提供一個(gè)評價(jià)參考,以便他們發(fā)現(xiàn)知識庫存在的問題,而且給本體使用者提供了一個(gè)參考以便他們選擇一個(gè)“最好的”本體。在步驟S208提供的技術(shù)方案中,確定多個(gè)第一數(shù)據(jù)集合中采集質(zhì)量信息滿足預(yù)設(shè)質(zhì)量要求的為用于進(jìn)行數(shù)據(jù)分析的目標(biāo)數(shù)據(jù)集合包括:將多個(gè)第一數(shù)據(jù)集合中第一平均值達(dá)到第一預(yù)設(shè)值和/或熵值達(dá)到第二預(yù)設(shè)值的作為目標(biāo)數(shù)據(jù)集合。上述的第一預(yù)設(shè)值和第二預(yù)設(shè)值為根據(jù)需求預(yù)先設(shè)置好的數(shù)值,通過利用這些數(shù)值可以過濾出采集質(zhì)量較好的數(shù)據(jù)集合。上述實(shí)施例中,可通過本申請的方法從多個(gè)數(shù)據(jù)集合中選出采集質(zhì)量較好的數(shù)據(jù)集合,用于進(jìn)行數(shù)據(jù)分析,有利于得到正確的分析結(jié)果。利用本申請的方法,還可以實(shí)現(xiàn)對RDF中is-a的質(zhì)量評估。具體在基于每個(gè)第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定每個(gè)第一數(shù)據(jù)集合的采集質(zhì)量信息之后,獲取多個(gè)第一數(shù)據(jù)集合的第一平均值的第二平均值,多個(gè)第一數(shù)據(jù)集合中的數(shù)據(jù)滿足預(yù)設(shè)關(guān)系,預(yù)設(shè)關(guān)系用于指示數(shù)據(jù)和數(shù)據(jù)所屬的類型,第二平均值用于指示按照預(yù)設(shè)關(guān)系采集到的數(shù)據(jù)的準(zhǔn)確度;獲取多個(gè)第一數(shù)據(jù)集合的熵值的第三平均值,第三平均值用于指示按照預(yù)設(shè)關(guān)系采集到的數(shù)據(jù)的混雜度。在本申請的實(shí)施例中,可用Z(O)描述數(shù)據(jù)質(zhì)量的正確性,用M(O)描述類別中的混雜度。其中O表示一個(gè)本體,Cj表示第j個(gè)類,信息混雜程度越高,M(O)越大,數(shù)據(jù)中is-a關(guān)系質(zhì)量正確性越高Z(O)越大。Z(O)和M(O)的計(jì)算公式如下:本申請?zhí)岢鲆环N基于分類管理規(guī)則挖掘的方法來對本體中is-a關(guān)系的質(zhì)量進(jìn)行評估,并提出兩個(gè)測度來評價(jià)類別和概念的質(zhì)量,旨在保證本體的質(zhì)量,實(shí)現(xiàn)對本體的有效維護(hù),從而為本體構(gòu)建者提供參考依據(jù),為本體使用提供選擇依據(jù)。下面結(jié)合圖3所示的實(shí)施方式詳述本申請的實(shí)施例。本申請的方法在軟件上可以分為如圖3所示的四個(gè)模塊:數(shù)據(jù)預(yù)處理模塊32,用于提取知識庫中的數(shù)據(jù),構(gòu)建分類關(guān)聯(lián)規(guī)則挖掘的事務(wù)表,挖掘事務(wù)表中每個(gè)概念C的判定屬性集及其置信度。概率計(jì)算模塊34,用于根據(jù)C的判斷屬性集合對實(shí)例和概念進(jìn)行匹配。質(zhì)量計(jì)算模塊36,用于計(jì)算概念質(zhì)量的兩個(gè)測度。質(zhì)量評估模塊38,完成對每個(gè)概念中Type斷言的質(zhì)量評估,并輸入評估數(shù)據(jù)和日志,以供用戶參考。步驟S402,數(shù)據(jù)預(yù)處理模塊從數(shù)據(jù)源獲取數(shù)據(jù)(如獲取術(shù)語數(shù)據(jù));步驟S404,獲取數(shù)據(jù)表構(gòu)建實(shí)體、數(shù)據(jù)、類矩陣;步驟S406,根據(jù)矩陣做分類關(guān)聯(lián)規(guī)則挖掘,得到類的強(qiáng)關(guān)聯(lián)規(guī)則集合分與置信度;步驟S408,將實(shí)例與類別的強(qiáng)關(guān)聯(lián)規(guī)則集合做匹配,得到實(shí)例數(shù)據(jù)的目標(biāo)概率;步驟S410,通過區(qū)間切分求得類別概率加權(quán)概率和與熵;步驟S412,計(jì)算數(shù)據(jù)集合的is-a指令評分,輸出日志log以便于用戶理解。(1)數(shù)據(jù)預(yù)處理模塊數(shù)據(jù)預(yù)處理模塊是為隨后的關(guān)聯(lián)規(guī)則挖掘服務(wù)的,該模塊通過SPARQL查詢從數(shù)據(jù)源獲取實(shí)例的屬性和類型信息,進(jìn)而構(gòu)建分類關(guān)聯(lián)規(guī)則挖掘所使用的事務(wù)表T,以供分類關(guān)聯(lián)規(guī)則挖掘使用。事務(wù)表T將事務(wù)數(shù)據(jù)(Transaction)分成兩部分。第一部分為Tp={tp1,tp2,…tpn},Tp中的每一個(gè)元素都是一個(gè)屬性集合(即第二屬性集合),tpn表示第n個(gè)事務(wù)數(shù)據(jù)的屬性集合,第二個(gè)部分為Tc={C1,C2,…,Cn},其中,Cn表示第n個(gè)事務(wù)數(shù)據(jù)所屬的概念。本申請采用封閉世界假設(shè)(CloseWorldAssumption),即實(shí)例不包含某個(gè)屬性則該實(shí)例則不具備該屬性。最終事務(wù)如表1所示,其中:表1實(shí)例名nameBirthdayheightweightClassAaron_Line1111PersonWashington1000PlaceBummer1111PersonEdmond1110Person…………………在表1中,name、Birthday、height、weight表示屬性,Class表示類(即數(shù)據(jù)類型或概念)。(2)概率計(jì)算模塊本申請使用分類關(guān)聯(lián)規(guī)則挖掘算法,計(jì)算出每個(gè)類的判定屬性集,然后根據(jù)匹配規(guī)則將實(shí)例和概念進(jìn)行匹配,而匹配到判定屬性集的置信度作為該實(shí)例屬于該概念的后驗(yàn)概率。具體的匹配規(guī)則如下:得到能代表各個(gè)類別的關(guān)聯(lián)規(guī)則集(即第一屬性集合)之后,需要根據(jù)一定的匹配策略找到與該實(shí)例相似度最高的判定集,用該判定集的置信度代表該實(shí)例屬于這個(gè)類的概率,本申請?zhí)岢龅钠ヅ洳呗允菍⒁粋€(gè)實(shí)例的屬性集E與某判定集Ni匹配,用匹配集合中屬性的個(gè)數(shù)|S|占|Ni|的比重來表達(dá)匹配的準(zhǔn)確度,用匹配集合中屬性的個(gè)數(shù)|S|占|E|的比重作為其貢獻(xiàn)值,然后用兩者的乘積做排名,最后選取匹配到最大的置信度,作為實(shí)例E屬于該類別的概率,具體的計(jì)算公式如下:其中,候選集Ni的集合為N,S為匹配項(xiàng)集,E為實(shí)例屬性集。為了進(jìn)一步說明實(shí)例屬于某個(gè)類概率的計(jì)算方式,下面以具體數(shù)據(jù)為例進(jìn)行說明,如為Person類挖掘得到關(guān)聯(lián)規(guī)則集合(即第一屬性集合)包括以下兩個(gè):[[birthday,name,age,address]->person;confidence=0.9];[birthday,gender,name,graduation,email,tell,blogAddress]->person;confidence=0.8]。屬性集合中的birthday、name、age、address、gender、graduation、email、tell、blogAddress表示person的判定屬性信息,confidence表示置信度?,F(xiàn)在有實(shí)例E[birthday,name,gender,age]根據(jù)匹配策略得到與第一個(gè)候選項(xiàng)的匹配得分是3/4*3/4,與第二個(gè)候選項(xiàng)的匹配得分是3/7*3/4,因此與實(shí)例E最匹配的候選集是[[birthday,name,age,address]->person;confidence=0.9],那么該實(shí)例的屬于類Person的概率為0.9。(3)質(zhì)量計(jì)算模塊本申請通過兩個(gè)測度來評價(jià)一個(gè)概念中is-a關(guān)系的質(zhì)量。其中一個(gè)通過概率的平均值Z(Ci)來評估is-a關(guān)系的正確性。但Z(Ci)無法體現(xiàn)數(shù)據(jù)的分布情況,即不能表達(dá)該類中實(shí)例的混雜程度。例如:兩組實(shí)例A和B的概率分布是,A:{0.1,0.8,0.8,0.8,0.8},B:{0.2,0.4,0.9,0.9,0.9},其平均值都是0.66。而事實(shí)上,A組幾乎只有一個(gè)噪聲數(shù)據(jù),而B組很有可能有兩個(gè)噪聲數(shù)據(jù),應(yīng)該是A組數(shù)據(jù)的質(zhì)量更高,是它們的得分卻相等。出現(xiàn)這種現(xiàn)象的原因由于Z(Ci)忽略了數(shù)據(jù)分布的情況,因此本申請還可用信息熵來反映數(shù)據(jù)分布情況。記作M(Ci)。信息混雜程度越高,熵值越大。另外,為了驗(yàn)證本申請?zhí)岢龅姆椒ǖ恼_性,還可以通過如下方式對各個(gè)集合中的噪聲數(shù)據(jù)進(jìn)行抽檢,例如:在DBpedia中執(zhí)行如下SPARQL語句:select?xwhere{?xadbpedia-owl:Person.?xadbpedia-owl:Organization.}上述語句可以從DBpedia中查找同時(shí)屬于Person類和Organization類的實(shí)例,這里的實(shí)例是指某個(gè)具體的人或者組織,通過常識可知,Person和Organization是不相交的,即Person中的實(shí)例不可能存在于Organization中,但根據(jù)上述的SPARQL卻得到了一系列返回結(jié)果,如Jordanhill_College等。這表明DBpedia中存在同時(shí)屬于這個(gè)兩個(gè)類的實(shí)例,因此可以認(rèn)為Jordanhill_College是一個(gè)噪聲數(shù)據(jù)。通過上述方式可以對數(shù)據(jù)集合中的數(shù)據(jù)進(jìn)行驗(yàn)證。(4)質(zhì)量評估模塊本申請用Z(O)描述數(shù)據(jù)質(zhì)量的正確性,用M(O)描述類別中的混雜度。其中O表示一個(gè)本體,Cj表示第j個(gè)類,信息混雜程度越高,M(O)越大,數(shù)據(jù)中is-a關(guān)系質(zhì)量正確性越高Z(O)越大。在通過上述的公式完成對每個(gè)概念中Type斷言的質(zhì)量評估,并輸入評估數(shù)據(jù)和日志,以供用戶參考。本體中的is-a關(guān)系反映的是實(shí)例與類別的關(guān)系,實(shí)例是本體中其他公理的基礎(chǔ),而大部分本體中的實(shí)例都是通過自動(dòng)抽取或異構(gòu)數(shù)據(jù)集成的方法獲得,因此在實(shí)例層中會存在大量的噪音數(shù)據(jù)。這種噪音數(shù)據(jù)會導(dǎo)致基于本體的應(yīng)用得到錯(cuò)誤的數(shù)據(jù)和信息。通過本申請的方法,提出了一種評價(jià)RDF數(shù)據(jù)is-a關(guān)系質(zhì)量的測評方法,基于分類關(guān)聯(lián)規(guī)則計(jì)算出實(shí)例屬于其類別的概率,類的混雜度通過熵來表現(xiàn),類中is-a關(guān)系的正確性通過實(shí)例屬于類的概率均值表現(xiàn)。這兩個(gè)測度能在較全面、正確的反映RDF數(shù)據(jù)的is-a關(guān)系質(zhì)量。需要說明的是,對于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到根據(jù)上述實(shí)施例的方法可借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實(shí)施方式。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在一個(gè)存儲介質(zhì)(如ROM/RAM、磁碟、光盤)中,包括若干指令用以使得一臺終端設(shè)備(可以是手機(jī),計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。實(shí)施例2根據(jù)本發(fā)明實(shí)施例,還提供了一種用于實(shí)施上述數(shù)據(jù)集合的確定方法的數(shù)據(jù)集合的確定裝置。圖5是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)集合的確定裝置的示意圖,如圖5所示,該裝置可以包括:接收單元52、第一確定單元54、第二確定單元56以及第三確定單元58。接收單元52,用于接收到用于指示從多個(gè)第一數(shù)據(jù)集合中獲取目標(biāo)數(shù)據(jù)集合的指令,其中,第一數(shù)據(jù)集合中包括按照目標(biāo)類型采集到的至少一個(gè)實(shí)例數(shù)據(jù),目標(biāo)數(shù)據(jù)集合的數(shù)據(jù)用于進(jìn)行數(shù)據(jù)分析;第一確定單元54,用于根據(jù)第一屬性集合確定每個(gè)第一數(shù)據(jù)集合中每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率,其中,目標(biāo)概率為實(shí)例數(shù)據(jù)屬于目標(biāo)類型的概率,第一屬性集合中包括用于指示為目標(biāo)類型的數(shù)據(jù)的屬性;第二確定單元56,用于基于每個(gè)第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定每個(gè)第一數(shù)據(jù)集合的采集質(zhì)量信息,其中,采集質(zhì)量信息用于指示按照目標(biāo)類型采集到的第一數(shù)據(jù)集合的質(zhì)量;第三確定單元58,用于確定多個(gè)第一數(shù)據(jù)集合中采集質(zhì)量信息滿足預(yù)設(shè)質(zhì)量要求的為用于進(jìn)行數(shù)據(jù)分析的目標(biāo)數(shù)據(jù)集合。需要說明的是,該實(shí)施例中的接收單元52可以用于執(zhí)行本申請實(shí)施例1中的步驟S202,該實(shí)施例中的第一確定單元54可以用于執(zhí)行本申請實(shí)施例1中的步驟S204,該實(shí)施例中的第二確定單元56可以用于執(zhí)行本申請實(shí)施例1中的步驟S206,該實(shí)施例中的第三確定單元58可以用于執(zhí)行本申請實(shí)施例1中的步驟S208。此處需要說明的是,上述模塊與對應(yīng)的步驟所實(shí)現(xiàn)的示例和應(yīng)用場景相同,但不限于上述實(shí)施例1所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運(yùn)行在如圖1所示的硬件環(huán)境中,可以通過軟件實(shí)現(xiàn),也可以通過硬件實(shí)現(xiàn)。通過上述模塊,在接收到用于指示從多個(gè)第一數(shù)據(jù)集合中獲取目標(biāo)數(shù)據(jù)集合的指令時(shí),通過第一屬性集合來確定第一數(shù)據(jù)集合中的實(shí)例數(shù)據(jù)屬于目標(biāo)類型的概率,然后基于第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定第一數(shù)據(jù)集合的采集質(zhì)量信息,并從中選出滿足預(yù)設(shè)質(zhì)量要求的目標(biāo)數(shù)據(jù)集合用于進(jìn)行數(shù)據(jù)分析,可以解決了相關(guān)技術(shù)中無法獲取到質(zhì)量較高的數(shù)據(jù)集合的技術(shù)問題,進(jìn)而達(dá)到獲取到質(zhì)量較高的數(shù)據(jù)集合的技術(shù)效果,保證了數(shù)據(jù)分析結(jié)果的可靠性。上述的數(shù)據(jù)集合為按照目標(biāo)類型(即概念或者類)采集到的滿足is-a關(guān)系的實(shí)例數(shù)據(jù),實(shí)例數(shù)據(jù)的采集方式可以為自動(dòng)抽取或利用異構(gòu)數(shù)據(jù)集成的方式獲得,如知識庫DBpeida通過抽取維基百科Wikipedia的頁面得到實(shí)例數(shù)據(jù)。上述的數(shù)據(jù)分析是指通過對數(shù)據(jù)進(jìn)行挖掘和處理來尋找和揭示隱含在數(shù)據(jù)中的規(guī)律。上述的第一屬性集合中包括的屬性信息為能夠用來描述上述的目標(biāo)類型的屬性信息,通過這些屬性信息能夠判斷出實(shí)例數(shù)據(jù)是否屬于目標(biāo)類型。上述的采集質(zhì)量信息可以為用來描述第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的采集準(zhǔn)確度、分布情況、混雜度等采集質(zhì)量的信息??蛇x地,上述的第一確定單元還用于在根據(jù)第一屬性集合確定每個(gè)第一數(shù)據(jù)集合中每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率之前,獲取第二數(shù)據(jù)集合,其中,第二數(shù)據(jù)集合中的每一個(gè)數(shù)據(jù)均屬于目標(biāo)類型;通過對第二數(shù)據(jù)集合進(jìn)行數(shù)據(jù)挖掘,得到第一屬性集合。利用本申請的技術(shù)方案,可評估一個(gè)本體中is-a關(guān)系(即目標(biāo)類型或者概念)的質(zhì)量,在這個(gè)過程中,主要挑戰(zhàn)是如何找出本體中is-a關(guān)系錯(cuò)誤的實(shí)例,申請人在經(jīng)過仔細(xì)研究后發(fā)現(xiàn),每個(gè)概念Ci有且僅含有一個(gè)屬性集合Pc={p1,p2….,pn},Pc是知識庫中屬性P的一個(gè)子集,那么會存在至少一個(gè)Pc的子集DPc,能夠用來描述該概念Ci,那么DPc可稱為判定屬性集(即第一屬性集合),若實(shí)例的屬性屬于某個(gè)概念Ci的判斷屬性集,則該實(shí)例很可能屬于Ci,反之該實(shí)例則很可能是噪聲數(shù)據(jù)。例如,對于Country的實(shí)例,通常含有Caption(即首都)的屬性,而對于Person的實(shí)例,通常含有Birthday(生日)這個(gè)屬性,根據(jù)常識可知,一個(gè)國家是含有首都的,而一個(gè)人則有他自己的生日,若一個(gè)Country的實(shí)例含有Birthday這個(gè)屬性則該實(shí)例有很大可能是一個(gè)噪聲數(shù)據(jù)。可使用分類關(guān)聯(lián)規(guī)則挖掘算法,計(jì)算出每個(gè)類的判定屬性集,然后利用匹配規(guī)則將實(shí)例和概念進(jìn)行匹配,而將匹配到判定屬性集的置信度作為該實(shí)例屬于該概念的后驗(yàn)概率,即目標(biāo)概率。定義實(shí)例E(a1,a2…an),其中ai是實(shí)例E(即目標(biāo)類型)的屬性,則E屬于類Ci的概率p(Ci│e)=p(Ci│a1,a2…an)。p(Ci│a1,a2…an)可以通過統(tǒng)計(jì)求得。由于數(shù)據(jù)本身不可靠且存在非典型屬性,若直接統(tǒng)計(jì)會出現(xiàn)較大誤差,非典型屬性是指出現(xiàn)頻率極低,且不能表達(dá)某個(gè)類的屬性。針對這種情況,本申請?zhí)岢鲇梅诸愱P(guān)聯(lián)規(guī)則,找到最能代表類Ci的關(guān)聯(lián)規(guī)則集合(即第一屬性集合),把這些屬性集稱作判定屬性集。然后根據(jù)一定匹配規(guī)則找到與該實(shí)例最相近的關(guān)聯(lián)規(guī)則(第一屬性集合)是(s1,s2…sn),那么其置信度最接近真實(shí)的p(Ci│E)。上述的關(guān)聯(lián)規(guī)則挖掘算法有Apriori算法和FP-樹,都可挖掘強(qiáng)關(guān)聯(lián)規(guī)則(即第一屬性集合)及其置信度,但可能會計(jì)算與類Ci無關(guān)的關(guān)聯(lián)規(guī)則,造成信息冗余和額外的內(nèi)存開銷。為了克服該問題,優(yōu)選地,本申請可采用分類關(guān)聯(lián)規(guī)則挖掘算法中的CAR-Apriori算法,只挖掘與類Ci相關(guān)的關(guān)聯(lián)規(guī)則及其置信度,以其置信度作為實(shí)例屬于該類別的概率。CAR-Apriori算法能挖掘指定類別的關(guān)聯(lián)規(guī)則,通過調(diào)整支持度來挖掘能代表類別的屬性集及它們的置信度。雖然本體中實(shí)例的屬性數(shù)量并不算大,根據(jù)CAR-Apriori算法的基本思想,不同的屬性會形成不同頻度的組合,這個(gè)組合數(shù)量是成指數(shù)趨勢增長的。為了減少系統(tǒng)開銷,在實(shí)際處理時(shí)進(jìn)行了部分?jǐn)?shù)據(jù)過濾,即過濾在每個(gè)類別中出現(xiàn)頻率極高的屬性。因?yàn)檫@類屬性無法提供實(shí)例屬于某個(gè)類型的信息,類似于文本挖掘中的停用詞,如“是”、“的”等??蛇x地,如圖6所示,第一確定單元54包括:獲取模塊542,用于獲取每個(gè)實(shí)例數(shù)據(jù)的第二屬性集合,其中,第二屬性集合中包括實(shí)例數(shù)據(jù)所具有的屬性信息;第一確定模塊544,用于基于第一屬性集合和每個(gè)實(shí)例數(shù)據(jù)的第二屬性集合確定每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率。需要說明的是,第一屬性集合的數(shù)量為至少一個(gè),第一確定模塊包括:獲取子模塊,用于獲取每個(gè)第一屬性集合的置信度,其中,置信度用于指示具有第一屬性集合中所有屬性信息的數(shù)據(jù)屬于目標(biāo)類型的概率;確定子模塊,用于通過將實(shí)例數(shù)據(jù)的第二屬性集合與每一個(gè)第一屬性集合進(jìn)行匹配,確定實(shí)例數(shù)據(jù)相對于每一個(gè)第一屬性集合的目標(biāo)匹配度;處理子模塊,用于將與至少一個(gè)目標(biāo)匹配度中的最大匹配度對應(yīng)的第一屬性集合的置信度作為實(shí)例數(shù)據(jù)的目標(biāo)概率。上述的確定子模塊還用于:確定實(shí)例數(shù)據(jù)的第二屬性集合中的屬性信息與第一屬性集合中的屬性信息的第一匹配度;確定第一屬性集合中的屬性信息與實(shí)例數(shù)據(jù)的第二屬性集合中的屬性信息的第二匹配度;根據(jù)第一匹配度和第二匹配度確定實(shí)例數(shù)據(jù)相對于第一屬性集合的目標(biāo)匹配度。具體地,上述確定子模塊通過如下方式確定實(shí)例數(shù)據(jù)的第二屬性集合中的屬性信息與第一屬性集合中的屬性信息的第一匹配度:確定第二屬性集合中與第一屬性集合中的屬性信息匹配的目標(biāo)屬性信息的數(shù)量,如第二屬性集合中與第一屬性集合中的屬性信息相同的目標(biāo)屬性信息的數(shù)量;將目標(biāo)屬性信息的數(shù)量與第一屬性集合中的屬性信息的數(shù)量的比值作為第一匹配度。上述確定子模塊通過如下方式確定第一屬性集合中的屬性信息與實(shí)例數(shù)據(jù)的第二屬性集合中的屬性信息的第二匹配度:確定第一屬性集合中與第二屬性集合中的屬性信息匹配的目標(biāo)屬性信息的數(shù)量,如第一屬性集合中與第二屬性集合中的屬性信息相同的目標(biāo)屬性信息的數(shù)量;將目標(biāo)屬性信息的數(shù)量與第二屬性集合中的屬性信息的數(shù)量的比值作為第二匹配度。可選地,如圖7所示,第二確定單元56包括:第二確定模塊562,用于確定第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率的第一平均值,其中,第一平均值用于指示按照目標(biāo)類型采集到的數(shù)據(jù)的準(zhǔn)確度;第三確定模塊564,用于確定第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率的熵值,其中,熵值用于指示按照目標(biāo)類型采集到的數(shù)據(jù)的混雜度,采集質(zhì)量信息包括第一平均值和/或熵值。本申請?zhí)岢鰞蓚€(gè)測度來評價(jià)一個(gè)概念中is-a關(guān)系的質(zhì)量,其中一個(gè)通過概率的平均值Z(Ci)來評估is-a關(guān)系的正確性,公式如下:需要說明的是,Z(Ci)無法體現(xiàn)數(shù)據(jù)的分布情況,即不能表達(dá)該類中實(shí)例的混雜程度。因此本申請還提出用信息熵來反映數(shù)據(jù)的分布情況,記作M(Ci),信息混雜程度越高,熵值越大。將實(shí)例屬于某個(gè)類別的概率分區(qū)間分為若干個(gè)區(qū)間,落在第i區(qū)間的概率記做qi,區(qū)間個(gè)數(shù)為n,M(Ci)的計(jì)算公式如下:隨著語義網(wǎng)技術(shù)的飛速發(fā)展,本體已經(jīng)被應(yīng)用到了越來越多的領(lǐng)域,本體質(zhì)量評估已經(jīng)成為了語義網(wǎng)技術(shù)用必不可少的部分。本申請?zhí)岢隽艘环N評價(jià)RDF數(shù)據(jù)is-a關(guān)系質(zhì)量的測評方法,基于分類關(guān)聯(lián)規(guī)則計(jì)算出實(shí)例屬于其類別的概率,類的混雜度通過熵來表現(xiàn),類中is-a關(guān)系的正確性通過實(shí)例屬于類的概率均值表現(xiàn)。這兩個(gè)測度能在較全面、正確的反映RDF數(shù)據(jù)的is-a關(guān)系質(zhì)量。這不僅給本體構(gòu)建者提供一個(gè)評價(jià)參考,以便他們發(fā)現(xiàn)知識庫存在的問題,而且給本體使用者提供了一個(gè)參考以便他們選擇一個(gè)“最好的”本體??蛇x地,第三確定單元還用于將多個(gè)第一數(shù)據(jù)集合中第一平均值達(dá)到第一預(yù)設(shè)值和/或熵值達(dá)到第二預(yù)設(shè)值的作為目標(biāo)數(shù)據(jù)集合。利用本申請的方法,還可以實(shí)現(xiàn)對RDF中is-a的質(zhì)量評估。具體在基于每個(gè)第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定每個(gè)第一數(shù)據(jù)集合的采集質(zhì)量信息之后,獲取多個(gè)第一數(shù)據(jù)集合的第一平均值的第二平均值,多個(gè)第一數(shù)據(jù)集合中的數(shù)據(jù)滿足預(yù)設(shè)關(guān)系,預(yù)設(shè)關(guān)系用于指示數(shù)據(jù)和數(shù)據(jù)所屬的類型,第二平均值用于指示按照預(yù)設(shè)關(guān)系采集到的數(shù)據(jù)的準(zhǔn)確度;獲取多個(gè)第一數(shù)據(jù)集合的熵值的第三平均值,第三平均值用于指示按照預(yù)設(shè)關(guān)系采集到的數(shù)據(jù)的混雜度。本申請?zhí)岢鲆环N基于分類管理規(guī)則挖掘的方法來對本體中is-a關(guān)系的質(zhì)量進(jìn)行評估,并提出兩個(gè)測度來評價(jià)類別和概念的質(zhì)量,旨在保證本體的質(zhì)量,實(shí)現(xiàn)對本體的有效維護(hù),從而為本體構(gòu)建者提供參考依據(jù),為本體使用提供選擇依據(jù)。此處需要說明的是,上述模塊與對應(yīng)的步驟所實(shí)現(xiàn)的示例和應(yīng)用場景相同,但不限于上述實(shí)施例1所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運(yùn)行在如圖1所示的硬件環(huán)境中,可以通過軟件實(shí)現(xiàn),也可以通過硬件實(shí)現(xiàn),其中,硬件環(huán)境包括網(wǎng)絡(luò)環(huán)境。實(shí)施例3根據(jù)本發(fā)明實(shí)施例,還提供了一種用于實(shí)施上述數(shù)據(jù)集合的確定方法的服務(wù)器或終端。圖8是根據(jù)本發(fā)明實(shí)施例的一種終端的結(jié)構(gòu)框圖,如圖8所示,該終端可以包括:一個(gè)或多個(gè)(圖中僅示出一個(gè))處理器801、存儲器803、以及傳輸裝置805(如上述實(shí)施例中的發(fā)送裝置),如圖8所示,該終端還可以包括輸入輸出設(shè)備807。其中,存儲器803可用于存儲軟件程序以及模塊,如本發(fā)明實(shí)施例中的方法和裝置對應(yīng)的程序指令/模塊,處理器801通過運(yùn)行存儲在存儲器803內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)上述的方法。存儲器803可包括高速隨機(jī)存儲器,還可以包括非易失性存儲器,如一個(gè)或者多個(gè)磁性存儲裝置、閃存、或者其他非易失性固態(tài)存儲器。在一些實(shí)例中,存儲器803可進(jìn)一步包括相對于處理器801遠(yuǎn)程設(shè)置的存儲器,這些遠(yuǎn)程存儲器可以通過網(wǎng)絡(luò)連接至終端。上述網(wǎng)絡(luò)的實(shí)例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動(dòng)通信網(wǎng)及其組合。上述的傳輸裝置805用于經(jīng)由一個(gè)網(wǎng)絡(luò)接收或者發(fā)送數(shù)據(jù),還可以用于處理器與存儲器之間的數(shù)據(jù)傳輸。上述的網(wǎng)絡(luò)具體實(shí)例可包括有線網(wǎng)絡(luò)及無線網(wǎng)絡(luò)。在一個(gè)實(shí)例中,傳輸裝置805包括一個(gè)網(wǎng)絡(luò)適配器(NetworkInterfaceController,NIC),其可通過網(wǎng)線與其他網(wǎng)絡(luò)設(shè)備與路由器相連從而可與互聯(lián)網(wǎng)或局域網(wǎng)進(jìn)行通訊。在一個(gè)實(shí)例中,傳輸裝置805為射頻(RadioFrequency,RF)模塊,其用于通過無線方式與互聯(lián)網(wǎng)進(jìn)行通訊。其中,具體地,存儲器803用于存儲應(yīng)用程序。處理器801可以通過傳輸裝置805調(diào)用存儲器803存儲的應(yīng)用程序,以執(zhí)行下述步驟:接收到用于指示從多個(gè)第一數(shù)據(jù)集合中獲取目標(biāo)數(shù)據(jù)集合的指令,其中,第一數(shù)據(jù)集合中包括按照目標(biāo)類型采集到的至少一個(gè)實(shí)例數(shù)據(jù),目標(biāo)數(shù)據(jù)集合的數(shù)據(jù)用于進(jìn)行數(shù)據(jù)分析;根據(jù)第一屬性集合確定每個(gè)第一數(shù)據(jù)集合中每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率,其中,目標(biāo)概率為實(shí)例數(shù)據(jù)屬于目標(biāo)類型的概率,第一屬性集合中包括用于指示為目標(biāo)類型的數(shù)據(jù)的屬性;基于每個(gè)第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定每個(gè)第一數(shù)據(jù)集合的采集質(zhì)量信息,其中,采集質(zhì)量信息用于指示按照目標(biāo)類型采集到的第一數(shù)據(jù)集合的質(zhì)量;確定多個(gè)第一數(shù)據(jù)集合中采集質(zhì)量信息滿足預(yù)設(shè)質(zhì)量要求的為用于進(jìn)行數(shù)據(jù)分析的目標(biāo)數(shù)據(jù)集合。處理器801還用于執(zhí)行下述步驟:獲取每個(gè)實(shí)例數(shù)據(jù)的第二屬性集合,其中,第二屬性集合中包括實(shí)例數(shù)據(jù)所具有的屬性信息;基于第一屬性集合和每個(gè)實(shí)例數(shù)據(jù)的第二屬性集合確定每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率。采用本發(fā)明實(shí)施例,在接收到用于指示從多個(gè)第一數(shù)據(jù)集合中獲取目標(biāo)數(shù)據(jù)集合的指令時(shí),通過第一屬性集合來確定第一數(shù)據(jù)集合中的實(shí)例數(shù)據(jù)屬于目標(biāo)類型的概率,然后基于第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定第一數(shù)據(jù)集合的采集質(zhì)量信息,并從中選出滿足預(yù)設(shè)質(zhì)量要求的目標(biāo)數(shù)據(jù)集合用于進(jìn)行數(shù)據(jù)分析,可以解決了相關(guān)技術(shù)中無法獲取到質(zhì)量較高的數(shù)據(jù)集合的技術(shù)問題,進(jìn)而達(dá)到獲取到質(zhì)量較高的數(shù)據(jù)集合的技術(shù)效果,保證了數(shù)據(jù)分析結(jié)果的可靠性??蛇x地,本實(shí)施例中的具體示例可以參考上述實(shí)施例1和實(shí)施例2中所描述的示例,本實(shí)施例在此不再贅述。本領(lǐng)域普通技術(shù)人員可以理解,圖8所示的結(jié)構(gòu)僅為示意,終端可以是智能手機(jī)(如Android手機(jī)、iOS手機(jī)等)、平板電腦、掌上電腦以及移動(dòng)互聯(lián)網(wǎng)設(shè)備(MobileInternetDevices,MID)、PAD等終端設(shè)備。圖8其并不對上述電子裝置的結(jié)構(gòu)造成限定。例如,終端還可包括比圖8中所示更多或者更少的組件(如網(wǎng)絡(luò)接口、顯示裝置等),或者具有與圖8所示不同的配置。本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過程序來指令終端設(shè)備相關(guān)的硬件來完成,該程序可以存儲于一計(jì)算機(jī)可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:閃存盤、只讀存儲器(Read-OnlyMemory,ROM)、隨機(jī)存取器(RandomAccessMemory,RAM)、磁盤或光盤等。實(shí)施例4本發(fā)明的實(shí)施例還提供了一種存儲介質(zhì)??蛇x地,在本實(shí)施例中,上述存儲介質(zhì)可以用于執(zhí)行數(shù)據(jù)集合的確定方法的程序代碼。可選地,在本實(shí)施例中,上述存儲介質(zhì)可以位于上述實(shí)施例所示的網(wǎng)絡(luò)中的多個(gè)網(wǎng)絡(luò)設(shè)備中的至少一個(gè)網(wǎng)絡(luò)設(shè)備上。可選地,在本實(shí)施例中,存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:S11,接收到用于指示從多個(gè)第一數(shù)據(jù)集合中獲取目標(biāo)數(shù)據(jù)集合的指令,其中,第一數(shù)據(jù)集合中包括按照目標(biāo)類型采集到的至少一個(gè)實(shí)例數(shù)據(jù),目標(biāo)數(shù)據(jù)集合的數(shù)據(jù)用于進(jìn)行數(shù)據(jù)分析;S12,根據(jù)第一屬性集合確定每個(gè)第一數(shù)據(jù)集合中每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率,其中,目標(biāo)概率為實(shí)例數(shù)據(jù)屬于目標(biāo)類型的概率,第一屬性集合中包括用于指示為目標(biāo)類型的數(shù)據(jù)的屬性;S13,基于每個(gè)第一數(shù)據(jù)集合中所有實(shí)例數(shù)據(jù)的目標(biāo)概率確定每個(gè)第一數(shù)據(jù)集合的采集質(zhì)量信息,其中,采集質(zhì)量信息用于指示按照目標(biāo)類型采集到的第一數(shù)據(jù)集合的質(zhì)量;S14,確定多個(gè)第一數(shù)據(jù)集合中采集質(zhì)量信息滿足預(yù)設(shè)質(zhì)量要求的為用于進(jìn)行數(shù)據(jù)分析的目標(biāo)數(shù)據(jù)集合??蛇x地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:S21,獲取每個(gè)實(shí)例數(shù)據(jù)的第二屬性集合,其中,第二屬性集合中包括實(shí)例數(shù)據(jù)所具有的屬性信息;S22,基于第一屬性集合和每個(gè)實(shí)例數(shù)據(jù)的第二屬性集合確定每個(gè)實(shí)例數(shù)據(jù)的目標(biāo)概率??蛇x地,本實(shí)施例中的具體示例可以參考上述實(shí)施例1和實(shí)施例2中所描述的示例,本實(shí)施例在此不再贅述??蛇x地,在本實(shí)施例中,上述存儲介質(zhì)可以包括但不限于:U盤、只讀存儲器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲器(RAM,RandomAccessMemory)、移動(dòng)硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。上述本發(fā)明實(shí)施例序號僅僅為了描述,不代表實(shí)施例的優(yōu)劣。上述實(shí)施例中的集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲在上述計(jì)算機(jī)可讀取的存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在存儲介質(zhì)中,包括若干指令用以使得一臺或多臺計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。在本發(fā)明的上述實(shí)施例中,對各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。在本申請所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的客戶端,可通過其它的方式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。當(dāng)前第1頁1 2 3