本發(fā)明屬于數(shù)據(jù)集搜索與分面過(guò)濾、Web數(shù)據(jù)目錄與元數(shù)據(jù)、數(shù)據(jù)質(zhì)量管理等領(lǐng)域的交叉
技術(shù)領(lǐng)域:
,涉及一種基于數(shù)據(jù)質(zhì)量的數(shù)據(jù)集分面過(guò)濾技術(shù),尤其是一種基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾方法與系統(tǒng)。
背景技術(shù):
:數(shù)據(jù)是當(dāng)今世界能創(chuàng)造巨大價(jià)值的重要資源,而萬(wàn)維網(wǎng)(WorldWideWeb,簡(jiǎn)稱Web)已成為數(shù)據(jù)發(fā)布、使用、消費(fèi)的主流平臺(tái)。各種持有大量數(shù)據(jù)集(dataset)的數(shù)據(jù)目錄(datacatalog/catalogue)在Web上集中發(fā)布,形成一個(gè)個(gè)所謂的數(shù)據(jù)目錄門戶(datacatalogportal)或簡(jiǎn)稱為數(shù)據(jù)門戶(dataportal)。有的開放數(shù)據(jù)(opendata)目錄門戶中的數(shù)據(jù)集是供數(shù)據(jù)消費(fèi)者(通常稱為“用戶”)免費(fèi)使用的,如:包括2009年5月始啟用的美國(guó)政府開放數(shù)據(jù)門戶DATA.GOV(https://www.data.gov)和2012年12月始啟用的歐盟開放數(shù)據(jù)門戶(http://data.europa.eu)在內(nèi)的全球數(shù)十個(gè)國(guó)家或地區(qū)及其所轄省市的數(shù)百個(gè)開放政府(opengovernment)數(shù)據(jù)門戶;有的數(shù)據(jù)目錄門戶已成為基于Web的在線數(shù)據(jù)交易集市,如:國(guó)外的DataShop.biz(http://www.datashop.biz/)和國(guó)內(nèi)的數(shù)據(jù)堂(http://datatang.com/)。雖然數(shù)據(jù)目錄門戶為用戶尋找數(shù)據(jù)資源提供了前所未有的新機(jī)會(huì),但是數(shù)據(jù)目錄往往持有大量數(shù)據(jù)集的事實(shí)使用戶面臨了一種新的信息/選擇過(guò)載(information/choiceoverload)難題。例如,DATA.GOV數(shù)據(jù)門戶截止2016年8月9日在其數(shù)據(jù)目錄中發(fā)布了Agriculture(農(nóng)業(yè))、Business(商務(wù))、Climate(氣候)、Consumer(消費(fèi)者)、Ecosystems(生態(tài)系統(tǒng))、Education(教育)、Energy(能源)、Finance(金融)、Health(衛(wèi)生保健)、LocalGovernment(地方政府)、Manufacturing(制造業(yè))、Ocean(海洋)、PublicSafety(公共安全)、Science&Research(科學(xué)與研究)共14個(gè)主題領(lǐng)域的185,989個(gè)數(shù)據(jù)集,用戶很難通過(guò)瀏覽某個(gè)主題領(lǐng)域?qū)ふ业胶线m的數(shù)據(jù)集。為解決此類難題,用戶只能借助于數(shù)據(jù)目錄門戶提供的數(shù)據(jù)集主題搜索(topicalsearch)和分面過(guò)濾(facetedfiltering)技術(shù)。一般來(lái)說(shuō),用戶在數(shù)據(jù)目錄中搜尋滿足其特定“數(shù)據(jù)需求”的數(shù)據(jù)集的過(guò)程通常從該用戶的興趣主題(topicofinterest)出發(fā),首先使用檢索關(guān)鍵詞(keywords)通過(guò)數(shù)據(jù)目錄門戶提供的數(shù)據(jù)集搜索引擎對(duì)整個(gè)數(shù)據(jù)目錄的或用戶選定的某個(gè)主題領(lǐng)域的數(shù)據(jù)集的元數(shù)據(jù)(metadataaboutdatasets)進(jìn)行主題搜索,然后在搜索結(jié)果數(shù)據(jù)集即所謂的主題數(shù)據(jù)集(topicaldatasets)清單中直接瀏覽選擇數(shù)據(jù)集,或借助數(shù)據(jù)目錄門戶提供的對(duì)搜索結(jié)果數(shù)據(jù)集的分面過(guò)濾手段來(lái)進(jìn)一步篩選“中意的”數(shù)據(jù)集。當(dāng)前數(shù)據(jù)門戶,即使是代表最高技術(shù)發(fā)展水平的數(shù)據(jù)門戶(如:美國(guó)政府和歐盟的開放數(shù)據(jù)門戶),僅提供了功能上有限的數(shù)據(jù)集主題搜索和分面過(guò)濾技術(shù)手段:無(wú)論數(shù)據(jù)目錄門戶是否采用最為先進(jìn)的語(yǔ)義(semantic)元數(shù)據(jù),數(shù)據(jù)集搜索引擎通過(guò)簡(jiǎn)單的關(guān)鍵詞匹配或先進(jìn)的語(yǔ)義匹配后返回的結(jié)果數(shù)據(jù)集(即主題數(shù)據(jù)集)通常只能按主題相關(guān)度(relevance)、數(shù)據(jù)集名稱、數(shù)據(jù)集發(fā)布/更新日期、數(shù)據(jù)集的用戶瀏覽次數(shù)即流行度(popularity)等進(jìn)行排序;搜索結(jié)果數(shù)據(jù)集的再過(guò)濾技術(shù)手段也僅有按數(shù)據(jù)集的類型、數(shù)據(jù)格式、發(fā)布機(jī)構(gòu)等的簡(jiǎn)單分面過(guò)濾??傊?,現(xiàn)有的(主題)數(shù)據(jù)集分面過(guò)濾技術(shù)由于忽視了數(shù)據(jù)質(zhì)量(dataquality)這個(gè)重要的數(shù)據(jù)特性,不能完整地體現(xiàn)用戶的“數(shù)據(jù)需求”,從而未幫助用戶很好解決上述信息/選擇過(guò)載難題。用戶的興趣主題固然對(duì)用戶搜尋數(shù)據(jù)資源很重要,但數(shù)據(jù)質(zhì)量是用戶選用數(shù)據(jù)資源時(shí)的一個(gè)關(guān)鍵考慮因素。正如《ISO/IEC25012數(shù)據(jù)質(zhì)量模型》國(guó)際標(biāo)準(zhǔn)的技術(shù)文檔中所言:“dataquality[referstothe]degreetowhichthecharacteristicsofdatasatisfystatedandimpliedneedswhenusedunderspecifiedconditions.(“數(shù)據(jù)質(zhì)量是指數(shù)據(jù)在指定條件下使用時(shí)數(shù)據(jù)的特性對(duì)明確的和隱含的需求的一種滿足程度”)...dataqualityisakeycomponentofthequalityandusefulnessofinformationderivedfromthatdata,andmostbusinessprocessesdependonthequalityofdata.Acommonprerequisitetoallinformationtechnologyprojectsisthequalityofthedatawhichareexchanged,processedandusedbetweenthecomputersystemsandusersandamongcomputersystemsthemselves.(數(shù)據(jù)質(zhì)量是源于該數(shù)據(jù)的信息的質(zhì)量和有用性的一個(gè)關(guān)鍵要素,大多數(shù)業(yè)務(wù)流程取決于數(shù)據(jù)的質(zhì)量;所有信息技術(shù)項(xiàng)目的一個(gè)共同先決條件是在計(jì)算機(jī)系統(tǒng)和用戶之間以及計(jì)算機(jī)系統(tǒng)本身之間交換、處理和使用的數(shù)據(jù)的質(zhì)量)”(摘自:ISO/IEC25012:2008,Softwareengineering–SystemsproductQualityRequirementsandEvaluation(SQuaRE)–Dataqualitymodel.InternationalStandardbytheJointTechnicalCommitteeISO/IECJTC1oftheInternationalOrganizationforStandardization(ISO)andtheInternationalElectrotechnicalCommission(IEC),12/01/2008.http://www.iso.org/iso/catalogue_detail.htm?csnumber=35736或http://iso25000.com/index.php/en/iso-25000-standards/iso-25012);專門制定萬(wàn)維網(wǎng)技術(shù)標(biāo)準(zhǔn)與規(guī)范的萬(wàn)維網(wǎng)聯(lián)盟(WorldWideWebConsortium,簡(jiǎn)稱W3C)近期頒布的《Web數(shù)據(jù)最佳實(shí)踐》規(guī)范中也強(qiáng)調(diào):“Thequalityofadatasetcanhaveabigimpactonthequalityofapplicationsthatuseit.Asaconsequence,theinclusionofdataqualityinformationindatapublishingandconsumptionpipelinesisofprimaryimportance.(數(shù)據(jù)集的質(zhì)量會(huì)對(duì)使用數(shù)據(jù)集的應(yīng)用的質(zhì)量產(chǎn)生很大影響,因此,在數(shù)據(jù)發(fā)布和消費(fèi)管道中包含數(shù)據(jù)質(zhì)量信息是最為重要的。)...Dataqualitymightseriouslyaffectthesuitabilityofdataforspecificapplications...Documentingdataqualitysignificantlyeasestheprocessofdatasetselection,increasingthechancesofreuse.(數(shù)據(jù)質(zhì)量可嚴(yán)重影響數(shù)據(jù)對(duì)特定應(yīng)用的適用性...記載數(shù)據(jù)質(zhì)量可顯著簡(jiǎn)化用戶選用數(shù)據(jù)集的過(guò)程,增加數(shù)據(jù)被復(fù)用的機(jī)會(huì)。)”(摘自:DataontheWebBestPractices.W3CRecommendation,2016.https://www.w3.org/TR/dwbp/[2016-8-14訪問(wèn)])。由此可見,很有必要將數(shù)據(jù)集搜索與分面過(guò)濾、Web數(shù)據(jù)目錄與元數(shù)據(jù)、數(shù)據(jù)質(zhì)量管理等領(lǐng)域的最新技術(shù)進(jìn)行有機(jī)組合,發(fā)明一種基于數(shù)據(jù)質(zhì)量的數(shù)據(jù)集分面過(guò)濾技術(shù)解決方案。這樣的技術(shù)解決方案不僅克服了現(xiàn)有技術(shù)的缺陷(即:數(shù)據(jù)集分面過(guò)濾技術(shù)忽視數(shù)據(jù)質(zhì)量這個(gè)數(shù)據(jù)的關(guān)鍵要素),而且必將取得預(yù)料不到的技術(shù)效果(即:用戶可從數(shù)據(jù)質(zhì)量角度來(lái)選用數(shù)據(jù)資源)。盡管數(shù)據(jù)質(zhì)量管理不是一個(gè)新課題,數(shù)據(jù)目錄的技術(shù)研發(fā)和工業(yè)實(shí)踐也已歷時(shí)多年,但是,現(xiàn)有技術(shù)存在以上缺陷是有原因的:前些年,數(shù)據(jù)目錄技術(shù)與元數(shù)據(jù)領(lǐng)域尚未有效引入數(shù)據(jù)質(zhì)量管理技術(shù)。近年來(lái),由于數(shù)據(jù)目錄技術(shù)的長(zhǎng)足進(jìn)步,尤其是由于本體、RDF(ResourceDescriptionFramework,資源描述框架)(參見:RDF1.1ConceptsandAbstractSyntax.W3CRecommendation,25February2014.https://www.w3.org/TR/rdf11-concepts/)及RDF數(shù)據(jù)的SPARQL查詢語(yǔ)言(參見:SPARQL1.1Overview.W3CRecommendation,21March2013.https://www.w3.org/TR/sparql11-overview/)等語(yǔ)義網(wǎng)(SemanticWeb)技術(shù)開始成功應(yīng)用于數(shù)據(jù)目錄與元數(shù)據(jù)領(lǐng)域,Web數(shù)據(jù)目錄的技術(shù)基礎(chǔ)設(shè)施已今非昔比。這為克服以上技術(shù)缺陷、為用戶解決一直渴望的“從數(shù)據(jù)質(zhì)量角度來(lái)選用數(shù)據(jù)資源”的技術(shù)難題提供了希望和契機(jī)。為了有利于理解本發(fā)明技術(shù)方案的
背景技術(shù):
,下面對(duì)數(shù)據(jù)目錄與元數(shù)據(jù)領(lǐng)域的最新技術(shù)進(jìn)步進(jìn)行簡(jiǎn)介。(1)DCAT——《數(shù)據(jù)目錄詞匯》標(biāo)準(zhǔn)(參見:DataCatalogVocabulary(DCAT).W3CRecommendation,16January2014.https://www.w3.org/TR/vocab-dcat/):W3C于2014年頒布的DCAT(數(shù)據(jù)目錄詞匯)是一種RDF詞匯,用于來(lái)描述數(shù)據(jù)目錄(使用dcat:Catalog類)、數(shù)據(jù)集(使用dcat:Dataset類)、數(shù)據(jù)目錄本身和數(shù)據(jù)集的描述性元數(shù)據(jù)(descriptivemetadata)的屬性(如:dct:title,dct:description,dcat:theme,dcat:keyword,dct:publisher,dct:issued,dct:modified,等)以及數(shù)據(jù)集的訪問(wèn)元數(shù)據(jù)(accessmetadata)的屬性(如:dct:fromat,dcat:accessURL,dcat:downloadURL,等)。DCAT將數(shù)據(jù)目錄定義為數(shù)據(jù)集元數(shù)據(jù)的一個(gè)有組織集合;將數(shù)據(jù)集定義為由單個(gè)主體(agent)在數(shù)據(jù)目錄中發(fā)布的、可以一種或多種格式來(lái)訪問(wèn)或下載的一個(gè)數(shù)據(jù)集合。DCAT并不限定數(shù)據(jù)集的組織方式,數(shù)據(jù)集可以不是關(guān)聯(lián)數(shù)據(jù)(linkeddata)。DCAT是一種機(jī)器可讀的(machine-readable)元數(shù)據(jù),有利于提高數(shù)據(jù)目錄之間的互操作性,便于應(yīng)用程序消費(fèi)來(lái)自多個(gè)數(shù)據(jù)目錄的元數(shù)據(jù);通過(guò)使用DCAT來(lái)描述數(shù)據(jù)目錄中的數(shù)據(jù)集,可提高數(shù)據(jù)集的可發(fā)現(xiàn)性。目前DCAT已有許多實(shí)現(xiàn)與應(yīng)用(參見:https://www.w3.org/2011/gld/wiki/DCAT_Implementations),一些最高技術(shù)水平的數(shù)據(jù)門戶(包括美國(guó)政府和歐盟的開放數(shù)據(jù)門戶)已采用/改用DCAT來(lái)描述其數(shù)據(jù)目錄與數(shù)據(jù)集。(2)DWBP——《Web數(shù)據(jù)最佳實(shí)踐》技術(shù)標(biāo)準(zhǔn)(參見:DataontheWebBestPractices.W3CRecommendation,2016.https://www.w3.org/TR/dwbp/):W3C于2013年底啟動(dòng)的Web數(shù)據(jù)最佳實(shí)踐(DWBP)工作組旨在通過(guò)制定一系列最佳實(shí)踐技術(shù)規(guī)范和標(biāo)準(zhǔn)化詞匯來(lái)指導(dǎo)數(shù)據(jù)發(fā)布者、促進(jìn)數(shù)據(jù)的發(fā)現(xiàn)和復(fù)用、提升數(shù)據(jù)發(fā)布者和消費(fèi)者之間的互動(dòng),幫助發(fā)展Web數(shù)據(jù)生態(tài)系統(tǒng);該工作組計(jì)劃于2016年完成技術(shù)規(guī)范和標(biāo)準(zhǔn)的制訂工作。DWBP(Web數(shù)據(jù)最佳實(shí)踐)技術(shù)標(biāo)準(zhǔn)規(guī)定,數(shù)據(jù)的Web發(fā)布必須遵循Web體系結(jié)構(gòu)原理,并使用標(biāo)準(zhǔn)化詞匯和國(guó)際標(biāo)準(zhǔn)為數(shù)據(jù)目錄和數(shù)據(jù)集提供機(jī)器可讀的元數(shù)據(jù),包括使用DCAT、數(shù)據(jù)質(zhì)量詞匯(DataQualityVocabulary,DQV)和數(shù)據(jù)集使用詞匯(DatasetUsageVocabulary,DUV)等。遵循這些最佳實(shí)踐規(guī)范將促進(jìn)數(shù)據(jù)發(fā)布者和消費(fèi)者之間的有效溝通與互動(dòng),增加雙方之間的相互信任。該技術(shù)標(biāo)準(zhǔn)尤其規(guī)定數(shù)據(jù)發(fā)布者必須以數(shù)據(jù)質(zhì)量元數(shù)據(jù)(dataqualitymetadata)的形式提供關(guān)于數(shù)據(jù)集的數(shù)據(jù)質(zhì)量信息。(3)DQV——《數(shù)據(jù)質(zhì)量詞匯》技術(shù)規(guī)范(參見:DataontheWebBestPractices:DataQualityVocabulary.W3CTechnicalReport,2016.https://www.w3.org/TR/vocab-dqv/):DQV(數(shù)據(jù)質(zhì)量詞匯)是W3C的Web數(shù)據(jù)最佳實(shí)踐(DWBP)工作組制定的關(guān)于數(shù)據(jù)集質(zhì)量的技術(shù)規(guī)范。作為DCAT的擴(kuò)充,DQV是一種RDF詞匯,用來(lái)建模與表達(dá)數(shù)據(jù)目錄中數(shù)據(jù)集的數(shù)據(jù)質(zhì)量。W3C的DWBP工作組認(rèn)為“qualityliesintheeyeofthebeholder...thereisnoobjective,idealdefinitionofit.(數(shù)據(jù)質(zhì)量的好壞是一種觀察者的個(gè)人看法...沒(méi)有完全客觀的、理想的質(zhì)量定義)”;DQV將數(shù)據(jù)質(zhì)量定義為“‘fitnessforuse’foraspecificapplicationorusecase(數(shù)據(jù)對(duì)特定應(yīng)用或用例的使用適合度)”,因此,不限于數(shù)據(jù)發(fā)布者,認(rèn)證機(jī)構(gòu)、數(shù)據(jù)整合商和消費(fèi)者(即用戶)都可以對(duì)數(shù)據(jù)集做出自己的質(zhì)量評(píng)價(jià)(qualityassessment)。DQV引入屬性dqv:hasQualityMetadata來(lái)描述數(shù)據(jù)集(作為dcat:Dataset類的實(shí)例)的質(zhì)量元數(shù)據(jù)(作為dqv:QualityMetadata類的實(shí)例);作為對(duì)數(shù)據(jù)集的質(zhì)量評(píng)價(jià)結(jié)果,DQV引入屬性dqv:hasQualityMeasurement(或其逆屬性dqv:computedOn)來(lái)表達(dá)針對(duì)某個(gè)數(shù)據(jù)集的具體質(zhì)量度量(作為dqv:QualityMeasurement類的實(shí)例),具體質(zhì)量度量以質(zhì)量度量名稱-度量值(即名-值對(duì))的形式來(lái)表示。進(jìn)一步地,DQV采用抽象的質(zhì)量度量層次結(jié)構(gòu)(hierarchicalstructureofqualitymeasurements)來(lái)組織對(duì)全體數(shù)據(jù)集的所有質(zhì)量評(píng)價(jià)結(jié)果,這樣的層次結(jié)構(gòu)稱為數(shù)據(jù)質(zhì)量的層次模型(hierarchicalqualitymodel)。在該層次模型中,用屬性dqv:inMeasurementOf來(lái)描述一個(gè)質(zhì)量度量使用哪個(gè)質(zhì)量度量指標(biāo)(作為dqv:Metric類的實(shí)例),用屬性dqv:inDemension來(lái)進(jìn)一步描述一個(gè)質(zhì)量度量指標(biāo)屬于哪個(gè)質(zhì)量維(作為dqv:Demension類的實(shí)例),用屬性dqv:inCategory來(lái)進(jìn)一步描述一個(gè)質(zhì)量維屬于哪個(gè)質(zhì)量類別(作為dqv:Category類的實(shí)例)。由此可見,DQV采用的數(shù)據(jù)質(zhì)量模型是一種三層(質(zhì)量類別-質(zhì)量維-質(zhì)量度量指標(biāo))抽象模型。在數(shù)據(jù)質(zhì)量管理領(lǐng)域,三層數(shù)據(jù)質(zhì)量層次模型是一種典型的、標(biāo)準(zhǔn)化的數(shù)據(jù)質(zhì)量模型。盡管各種標(biāo)準(zhǔn)化組織或?qū)I(yè)領(lǐng)域或國(guó)民經(jīng)濟(jì)行業(yè)所定義的通用的(generic/general)或領(lǐng)域特定的(domain-specific)數(shù)據(jù)質(zhì)量模型中可能使用不同的層名稱(英文),但是,自頂向下地,數(shù)據(jù)質(zhì)量模型的三個(gè)層的名稱和含義依次為:第一層:質(zhì)量類別(qualitycategory/perspective/characteristic):質(zhì)量類別是質(zhì)量模型中的一種抽象實(shí)體,用來(lái)系統(tǒng)化地組織質(zhì)量維;一個(gè)質(zhì)量類別代表一組質(zhì)量維,即一個(gè)質(zhì)量類別可包含多個(gè)具有相似質(zhì)量特性的質(zhì)量維,而一個(gè)質(zhì)量維通常僅屬于一個(gè)質(zhì)量類別。第二層:質(zhì)量維(qualitydimensions/cluster/sub-characteristic):質(zhì)量維是質(zhì)量模型中的一種抽象實(shí)體,用來(lái)系統(tǒng)化地組織質(zhì)量度量指標(biāo);一個(gè)質(zhì)量維代表一組質(zhì)量度量指標(biāo),即一個(gè)質(zhì)量維可包含多個(gè)具有相似質(zhì)量子特性的質(zhì)量度量指標(biāo),而一個(gè)質(zhì)量度量指標(biāo)通常僅屬于一個(gè)質(zhì)量維。第三層:質(zhì)量度量指標(biāo)(qualitymetric/measurementprocedure/indicator):質(zhì)量度量指標(biāo)是質(zhì)量模型中的一種抽象實(shí)體,用來(lái)系統(tǒng)化地組織具體的質(zhì)量度量;一個(gè)質(zhì)量度量指標(biāo)代表一組質(zhì)量度量,這些質(zhì)量度量使用同一個(gè)質(zhì)量度量指標(biāo)來(lái)計(jì)算質(zhì)量度量值,而一個(gè)具體質(zhì)量度量?jī)H使用一個(gè)質(zhì)量度量指標(biāo)。質(zhì)量度量值可以是數(shù)值型(numeric)的,也可以是布爾型(boolean)的。不同的標(biāo)準(zhǔn)化組織或?qū)I(yè)領(lǐng)域所定義的通用或領(lǐng)域特定的數(shù)據(jù)質(zhì)量模型可能采用不同的層次模型,但是,它們的共性是數(shù)據(jù)質(zhì)量模型的層次結(jié)構(gòu)都是上述三層。舉例如下:前文所述的ISO/IEC25012數(shù)據(jù)質(zhì)量模型是一個(gè)極其通用(verygeneral)的數(shù)據(jù)質(zhì)量層次模型,其中定義了15個(gè)質(zhì)量維,這些質(zhì)量維進(jìn)一步歸屬于3個(gè)質(zhì)量類別;由于該國(guó)際標(biāo)準(zhǔn)是為所有計(jì)算機(jī)軟件應(yīng)用所制定的,其數(shù)據(jù)質(zhì)量模型中沒(méi)有為每個(gè)質(zhì)量維定義質(zhì)量度量指標(biāo),特意留待特定領(lǐng)域的軟件應(yīng)用定義自己的質(zhì)量度量指標(biāo)。Zaveri等人為關(guān)聯(lián)數(shù)據(jù)質(zhì)量評(píng)價(jià)
技術(shù)領(lǐng)域:
提出的數(shù)據(jù)質(zhì)量模型(參見:AmrapaliZaveri,AnisaRula,AndreaMaurino,RicardoPietrobon,JensLehmann,Auer.QualityassessmentforLinkedData:ASurvey.SemanticWeb,vol.7,no.1,pp.63-93,2016)中定義了69個(gè)質(zhì)量度量指標(biāo),這些質(zhì)量度量指標(biāo)進(jìn)一步歸屬于18個(gè)質(zhì)量維,這些質(zhì)量維進(jìn)一步歸屬于4個(gè)質(zhì)量類別。Radulovic等人提出的關(guān)聯(lián)數(shù)據(jù)質(zhì)量模型(LDQM)(參見:F.Radulovic,N.Mihindukulasooriya,R.García-Castro,andA.Gómez-Pérez.AcomprehensivequalitymodelforLinkedData.SubmissiontoSemanticWeb,anIOSPressJournal,2016.http://www.semantic-web-journal.net/content/comprehensive-quality-model-linked-data-0或http://delicias.dia.fi.upm.es/LDQM)以上述通用的ISO/IEC25012數(shù)據(jù)質(zhì)量模型和Zaveri等人提出的數(shù)據(jù)質(zhì)量模型為基礎(chǔ),定義了124個(gè)質(zhì)量度量指標(biāo),這些質(zhì)量度量指標(biāo)進(jìn)一步歸屬于15個(gè)質(zhì)量維,這些質(zhì)量維進(jìn)一步歸屬于2個(gè)質(zhì)量類別。正如W3C的《數(shù)據(jù)質(zhì)量詞匯(DQV)》技術(shù)規(guī)范中所言,所有標(biāo)準(zhǔn)化組織或?qū)I(yè)領(lǐng)域或國(guó)民經(jīng)濟(jì)行業(yè)所定義的通用的或領(lǐng)域特定的數(shù)據(jù)質(zhì)量模型(包括其子集或改編)都可以用DQV進(jìn)行落地(grounding)表示,用于特定的數(shù)據(jù)目錄門戶。DQV技術(shù)規(guī)范文檔中給出了將上述ISO/IEC25012數(shù)據(jù)質(zhì)量模型和Zaveri等人提出的數(shù)據(jù)質(zhì)量模型用DQV來(lái)表示的例子,其基本方法是將數(shù)據(jù)質(zhì)量模型中的質(zhì)量類別表示為dqv:Category類的實(shí)例、將該質(zhì)量類別所包含的質(zhì)量維表示為dqv:Demension類的實(shí)例、將該質(zhì)量維所包含的質(zhì)量度量指標(biāo)表示為dqv:Metric類的實(shí)例。這樣表示三層數(shù)據(jù)質(zhì)量層次模型后,使用某個(gè)質(zhì)量度量指標(biāo)對(duì)某個(gè)數(shù)據(jù)集進(jìn)行質(zhì)量評(píng)價(jià)后產(chǎn)生的質(zhì)量度量就可表示為dqv:QualityMeasurement類的實(shí)例。綜上所述,數(shù)據(jù)目錄與元數(shù)據(jù)
技術(shù)領(lǐng)域:
有效引入數(shù)據(jù)質(zhì)量管理技術(shù)后,用戶一直渴望的“從數(shù)據(jù)質(zhì)量角度來(lái)選用數(shù)據(jù)資源”的技術(shù)難題就有望得到解決。雖然上述W3C《數(shù)據(jù)質(zhì)量詞匯(DQV)》技術(shù)規(guī)范剛剛制定,數(shù)據(jù)目錄門戶工業(yè)界目前(指本發(fā)明專利申請(qǐng)時(shí))尚未運(yùn)用DQV,但是,運(yùn)用DQV必定是數(shù)據(jù)目錄門戶的技術(shù)發(fā)展趨勢(shì)。技術(shù)實(shí)現(xiàn)要素:本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種能對(duì)數(shù)據(jù)目錄門戶的主題搜索結(jié)果數(shù)據(jù)集(即主題數(shù)據(jù)集)進(jìn)行基于數(shù)據(jù)質(zhì)量的多層分面過(guò)濾的方法與系統(tǒng),從而克服現(xiàn)有主題數(shù)據(jù)集過(guò)濾技術(shù)忽視數(shù)據(jù)質(zhì)量的弊端,方便用戶篩選出符合其特定數(shù)據(jù)質(zhì)量要求的主題數(shù)據(jù)集。為解決上述技術(shù)問(wèn)題,本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾方法,包括如下步驟:S1:根據(jù)數(shù)據(jù)目錄中數(shù)據(jù)集質(zhì)量元數(shù)據(jù)構(gòu)建并存儲(chǔ)一個(gè)數(shù)據(jù)質(zhì)量分面分類層次;S2:根據(jù)數(shù)據(jù)質(zhì)量分面分類層次和用戶搜索數(shù)據(jù)目錄所產(chǎn)生的主題數(shù)據(jù)集物化出一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次,并將其樹形結(jié)構(gòu)在人機(jī)交互界面中進(jìn)行可視化;S3:根據(jù)用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面對(duì)主題數(shù)據(jù)集進(jìn)行基于數(shù)據(jù)質(zhì)量的過(guò)濾,并按用戶選定的方式對(duì)過(guò)濾結(jié)果進(jìn)行排序;S4:在人機(jī)交互界面中輸出過(guò)濾并排序后的主題數(shù)據(jù)集信息。在該方法中,所述步驟S1進(jìn)一步包括以下步驟:S11:根據(jù)數(shù)據(jù)目錄中數(shù)據(jù)集質(zhì)量元數(shù)據(jù)構(gòu)建一個(gè)數(shù)據(jù)質(zhì)量分面分類層次H;S12:持久存儲(chǔ)已構(gòu)建的數(shù)據(jù)質(zhì)量分面分類層次H。在該方法中,所述步驟S11進(jìn)一步包括以下步驟:S111:定義一個(gè)與三層數(shù)據(jù)質(zhì)量層次模型相對(duì)應(yīng)的數(shù)據(jù)質(zhì)量分面分類層次H,具體包括:該數(shù)據(jù)質(zhì)量分面分類層次是一種具有依次包含關(guān)系的三層結(jié)構(gòu):第一層是質(zhì)量類別層,其中的每個(gè)質(zhì)量類別有一個(gè)名稱,并通過(guò)指針來(lái)指向質(zhì)量維層中若干個(gè)質(zhì)量維以表明該質(zhì)量類別包含這些質(zhì)量維的關(guān)系,第二層是質(zhì)量維層,其中的每個(gè)質(zhì)量維有一個(gè)名稱,并通過(guò)指針來(lái)指向質(zhì)量度量指標(biāo)層中若干個(gè)質(zhì)量度量指標(biāo)以表明該質(zhì)量維包含這些質(zhì)量度量指標(biāo)的關(guān)系,第三層是質(zhì)量度量指標(biāo)層,其中的每個(gè)質(zhì)量度量指標(biāo)有一個(gè)名稱,在數(shù)據(jù)目錄門戶的實(shí)際應(yīng)用中,一個(gè)質(zhì)量度量指標(biāo)可用于對(duì)若干個(gè)數(shù)據(jù)集進(jìn)行質(zhì)量度量,一個(gè)數(shù)據(jù)集可在若干個(gè)質(zhì)量度量指標(biāo)上有質(zhì)量度量,并且,一個(gè)數(shù)據(jù)集在某個(gè)質(zhì)量度量指標(biāo)上可有若干個(gè)質(zhì)量度量,每個(gè)質(zhì)量度量以質(zhì)量度量名-值對(duì)的形式存在;在上述數(shù)據(jù)質(zhì)量分面分類層次中,每個(gè)數(shù)據(jù)質(zhì)量分面,即:每個(gè)具體的質(zhì)量類別、質(zhì)量維或質(zhì)量度量指標(biāo),都將按以下方式來(lái)記錄擁有與其相關(guān)的質(zhì)量度量的所有數(shù)據(jù)集的標(biāo)識(shí)信息:每個(gè)具體的質(zhì)量度量指標(biāo)都將記錄在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的所有數(shù)據(jù)集的標(biāo)識(shí)符,每個(gè)具體的質(zhì)量維都將記錄在它包含的全部質(zhì)量度量指標(biāo)上有質(zhì)量度量的所有數(shù)據(jù)集的標(biāo)識(shí)符,并將這樣的數(shù)據(jù)集簡(jiǎn)稱為“在該質(zhì)量維下有質(zhì)量度量的數(shù)據(jù)集”,類似地,每個(gè)具體的質(zhì)量類別都將記錄在它包含的全部質(zhì)量維所包含的全部質(zhì)量度量指標(biāo)上有質(zhì)量度量的所有數(shù)據(jù)集的標(biāo)識(shí)符,并將這樣的數(shù)據(jù)集簡(jiǎn)稱為“在該質(zhì)量類別下有質(zhì)量度量的數(shù)據(jù)集”;進(jìn)一步地,上述數(shù)據(jù)質(zhì)量分面分類層次H的數(shù)據(jù)結(jié)構(gòu)用數(shù)學(xué)符號(hào)描述如下:一個(gè)數(shù)據(jù)質(zhì)量分面分類層次是一個(gè)三元組H=(C,D,M),其中,C是質(zhì)量類別的線性表,D是質(zhì)量維的線性表的集合,M是質(zhì)量度量指標(biāo)的線性表的集合;質(zhì)量類別的線性表C=(C1,C2,…,Cl),其中,l為該線性表的長(zhǎng)度,每個(gè)元素Ci,i=1,2,…,l是一個(gè)質(zhì)量類別,包含三個(gè)數(shù)據(jù)項(xiàng):質(zhì)量類別的名稱Ci.Name,在該質(zhì)量類別下有質(zhì)量度量的數(shù)據(jù)集標(biāo)識(shí)符的線性表Ci.ListOfDatasetIDs,指向該質(zhì)量類別所包含的質(zhì)量維的線性表Di的指針Ci.Pointer;Ci所指向的質(zhì)量維的線性表Di=(Di1,Di2,…,Dim),其中,m為該線性表的長(zhǎng)度,每個(gè)元素Dij,j=1,2,…,m是一個(gè)質(zhì)量維,包含三個(gè)數(shù)據(jù)項(xiàng):質(zhì)量維的名稱Dij.Name,在該質(zhì)量維下有質(zhì)量度量的數(shù)據(jù)集標(biāo)識(shí)符的線性表Dij.ListOfDatasetIDs,指向該質(zhì)量維所包含的質(zhì)量度量指標(biāo)的線性表Mij的指針Dij.Pointer;Dij所指向的質(zhì)量度量指標(biāo)的線性表Mij=(Mij1,Mij2,…,Mijn),其中,n為該線性表的長(zhǎng)度,每個(gè)元素Mijk,k=1,2,…,n是一個(gè)質(zhì)量度量指標(biāo),包含兩個(gè)數(shù)據(jù)項(xiàng):質(zhì)量度量指標(biāo)的名稱Mijk.Name,在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的數(shù)據(jù)集標(biāo)識(shí)符的線性表Mijk.ListOfDatasetIDs,這些數(shù)據(jù)集在該質(zhì)量度量指標(biāo)上可有若干個(gè)質(zhì)量度量,每個(gè)質(zhì)量度量以質(zhì)量度量名-值對(duì)的形式存在;S112:從數(shù)據(jù)目錄中獲取所有數(shù)據(jù)集的質(zhì)量元數(shù)據(jù),將其中的質(zhì)量類別、質(zhì)量維、質(zhì)量度量指標(biāo)的名稱及相互包含關(guān)系相應(yīng)地賦值至上述數(shù)據(jù)質(zhì)量分面分類層次,各層中全部的數(shù)據(jù)集標(biāo)識(shí)符的線性表均暫置為空。在該方法中,所述步驟S2進(jìn)一步包括以下步驟:S21:從數(shù)據(jù)目錄門戶的數(shù)據(jù)集搜索引擎獲取用戶搜索數(shù)據(jù)目錄所搜索到的主題數(shù)據(jù)集,若搜索結(jié)果為空則終止處理,否則據(jù)此形成一個(gè)主題數(shù)據(jù)集標(biāo)識(shí)符的線性表TopicalDatasetIDs;S22:讀取已構(gòu)建并存儲(chǔ)的數(shù)據(jù)質(zhì)量分面分類層次H;S23:根據(jù)主題數(shù)據(jù)集標(biāo)識(shí)符的線性表TopicalDatasetIDs來(lái)物化已讀取的數(shù)據(jù)質(zhì)量分面分類層次H,以產(chǎn)生一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次S24:將特定主題的數(shù)據(jù)質(zhì)量分面分類層次的樹形結(jié)構(gòu)在人機(jī)交互界面中進(jìn)行可視化。在該方法中,所述步驟S23進(jìn)一步包括以下步驟:S231:從數(shù)據(jù)目錄中獲取主題數(shù)據(jù)集標(biāo)識(shí)符的線性表TopicalDatasetIDs中所有數(shù)據(jù)集的質(zhì)量元數(shù)據(jù);S232:根據(jù)所獲取的質(zhì)量元數(shù)據(jù)來(lái)物化數(shù)據(jù)質(zhì)量分面分類層次H的質(zhì)量度量指標(biāo)層,以產(chǎn)生特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量度量指標(biāo)層,具體包括:首先,對(duì)數(shù)據(jù)質(zhì)量分面分類層次H中的每個(gè)質(zhì)量度量指標(biāo)Mijk,若質(zhì)量元數(shù)據(jù)中使用了該質(zhì)量度量指標(biāo)進(jìn)行質(zhì)量度量,則將其作為特定主題的數(shù)據(jù)質(zhì)量分面分類層次中的一個(gè)質(zhì)量度量指標(biāo)然后,對(duì)中每一個(gè)這樣的質(zhì)量度量指標(biāo)從主題數(shù)據(jù)集標(biāo)識(shí)符的線性表TopicalDatasetIDs中找出在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的所有主題數(shù)據(jù)集,將這些主題數(shù)據(jù)集的標(biāo)識(shí)符賦值給在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表并將該線性表中的每個(gè)主題數(shù)據(jù)集在該質(zhì)量度量指標(biāo)上的所有質(zhì)量度量的名-值對(duì)存儲(chǔ)于相應(yīng)的集合其中1≤t≤線性表的長(zhǎng)度;S233:根據(jù)特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量度量指標(biāo)層來(lái)進(jìn)一步物化數(shù)據(jù)質(zhì)量分面分類層次H的質(zhì)量維層,以產(chǎn)生特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量維層,具體包括:首先,根據(jù)特定主題的數(shù)據(jù)質(zhì)量分面分類層次中已存在的全部質(zhì)量度量指標(biāo)來(lái)確定數(shù)據(jù)質(zhì)量分面分類層次H中包含這些質(zhì)量度量指標(biāo)的各個(gè)質(zhì)量維,將它們作為特定主題的數(shù)據(jù)質(zhì)量分面分類層次中的各個(gè)質(zhì)量維,然后,對(duì)中每個(gè)這樣的質(zhì)量維通過(guò)指針?biāo)赶虻木€性表來(lái)找出該質(zhì)量維所包含的所有質(zhì)量度量指標(biāo),并將全部x個(gè)在這些質(zhì)量度量指標(biāo)上有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表1≤k≤x進(jìn)行去除重復(fù)元素的合并后,賦值給在該質(zhì)量維下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表即:D^ij.ListOfDatasetIDs=M^ij1.ListOfDatasetIDs∪...∪M^ijx.ListOfDatasetIDs;]]>S234:根據(jù)特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量維層來(lái)進(jìn)一步物化數(shù)據(jù)質(zhì)量分面分類層次H的質(zhì)量類別層,以產(chǎn)生特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量類別層,具體包括:首先,根據(jù)特定主題的數(shù)據(jù)質(zhì)量分面分類層次中已存在的全部質(zhì)量維來(lái)確定數(shù)據(jù)質(zhì)量分面分類層次H中包含這些質(zhì)量維的各個(gè)質(zhì)量類別,將它們作為特定主題的數(shù)據(jù)質(zhì)量分面分類層次中的各個(gè)質(zhì)量類別,然后,對(duì)中每個(gè)這樣的質(zhì)量類別通過(guò)指針?biāo)赶虻木€性表來(lái)找出該質(zhì)量類別所包含的所有質(zhì)量維,并將全部y個(gè)在這些質(zhì)量維下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表1≤j≤y進(jìn)行去除重復(fù)元素的合并后,賦值給在該質(zhì)量類別下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表即:C^i.ListOfDatasetIDs=D^i1.ListOfDatasetIDs∪...∪D^iy.ListOfDatasetIDs.]]>在該方法中,所述步驟S3進(jìn)一步包括以下步驟:S31:根據(jù)用戶在人機(jī)交互界中的上述樹形結(jié)構(gòu)中選擇的一個(gè)用于過(guò)濾的數(shù)據(jù)質(zhì)量分面,產(chǎn)生過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs,具體包括:若用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量類別則將在該質(zhì)量類別下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表中的全部主題數(shù)據(jù)集標(biāo)識(shí)符賦值給過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs;若用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量維則將在該質(zhì)量維下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表中的全部主題數(shù)據(jù)集標(biāo)識(shí)符賦值給過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs;若用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量度量指標(biāo)則將在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表中的全部主題數(shù)據(jù)集標(biāo)識(shí)符賦值給過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs;S32:按用戶在人機(jī)交互界中選定的排序方式對(duì)過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs中的主題數(shù)據(jù)集進(jìn)行排序,產(chǎn)生過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表RankedFilteredTopicalDatasetIDs,具體包括:若用戶選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量度量指標(biāo)則在人機(jī)交互界中向用戶提供對(duì)過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs中的主題數(shù)據(jù)集按質(zhì)量度量值進(jìn)行排序的選項(xiàng):讓用戶選擇在該質(zhì)量度量指標(biāo)上的若干個(gè)質(zhì)量度量中使用哪個(gè)質(zhì)量度量作為排序依據(jù),并選擇升序或降序的排序方式,排序時(shí),數(shù)值型質(zhì)量度量值直接比較大小,布爾型質(zhì)量度量值的比較方式為假小于真,即false<true;若用戶選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量維或質(zhì)量類別則讓用戶在數(shù)據(jù)目錄門戶現(xiàn)有的搜索結(jié)果排序方式中選擇一種方式對(duì)過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs中的數(shù)據(jù)集進(jìn)行排序;將上述兩種情況之一的排序結(jié)果賦值給過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表RankedFilteredTopicalDatasetIDs。在該方法中,所述步驟S4進(jìn)一步包括以下步驟:S41:從數(shù)據(jù)目錄中獲取過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表RankedFilteredTopicalDatasetIDs中所有主題數(shù)據(jù)集的部分描述性元數(shù)據(jù)和部分訪問(wèn)元數(shù)據(jù);S42:將已獲取的上述元數(shù)據(jù)按過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表RankedFilteredTopicalDatasetIDs中的主題數(shù)據(jù)集順序在人機(jī)交互界面中依次呈現(xiàn),若上述用于過(guò)濾的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量度量指標(biāo),則同時(shí)呈現(xiàn)各主題數(shù)據(jù)集在該質(zhì)量度量指標(biāo)上的用于排序的質(zhì)量度量值。根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾系統(tǒng),包括:數(shù)據(jù)質(zhì)量分面分類層次的構(gòu)建并存儲(chǔ)模塊、數(shù)據(jù)質(zhì)量分面分類層次的物化和可視化模塊、基于數(shù)據(jù)質(zhì)量的數(shù)據(jù)集過(guò)濾模塊、主題數(shù)據(jù)集過(guò)濾并排序結(jié)果的輸出模塊、人機(jī)交互界面,其中:所述數(shù)據(jù)質(zhì)量分面分類層次的構(gòu)建并存儲(chǔ)模塊用于實(shí)現(xiàn)本發(fā)明方法中的步驟S1:根據(jù)數(shù)據(jù)目錄中數(shù)據(jù)集質(zhì)量元數(shù)據(jù)構(gòu)建并存儲(chǔ)一個(gè)數(shù)據(jù)質(zhì)量分面分類層次;所述數(shù)據(jù)質(zhì)量分面分類層次的物化和可視化模塊用于實(shí)現(xiàn)本發(fā)明方法中的步驟S2:根據(jù)數(shù)據(jù)質(zhì)量分面分類層次和用戶搜索數(shù)據(jù)目錄所產(chǎn)生的主題數(shù)據(jù)集物化出一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次,并將其樹形結(jié)構(gòu)在人機(jī)交互界面中進(jìn)行可視化;所述基于數(shù)據(jù)質(zhì)量的數(shù)據(jù)集過(guò)濾模塊用于實(shí)現(xiàn)本發(fā)明方法中的步驟S3:根據(jù)用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面對(duì)主題數(shù)據(jù)集進(jìn)行基于數(shù)據(jù)質(zhì)量的過(guò)濾,并按用戶選定的方式對(duì)過(guò)濾結(jié)果進(jìn)行排序;所述主題數(shù)據(jù)集過(guò)濾并排序結(jié)果的輸出模塊用于實(shí)現(xiàn)本發(fā)明方法中的步驟S4:在人機(jī)交互界面中輸出過(guò)濾并排序后的主題數(shù)據(jù)集信息;所述人機(jī)交互界面用于實(shí)現(xiàn)用戶與該系統(tǒng)之間的人機(jī)交互,包括:用戶在該界面中輸入數(shù)據(jù)集搜索主題、系統(tǒng)在該界面中將一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次的樹形結(jié)構(gòu)進(jìn)行可視化、用戶在上述可視化的樹形結(jié)構(gòu)中選擇一個(gè)用于過(guò)濾的數(shù)據(jù)質(zhì)量分面并選定主題數(shù)據(jù)集的排序方式、系統(tǒng)在該界面中呈現(xiàn)過(guò)濾并排序后的主題數(shù)據(jù)集信息。本發(fā)明的有益效果主要包括三個(gè)方面:(1)本發(fā)明克服了現(xiàn)有搜索結(jié)果數(shù)據(jù)集分面過(guò)濾技術(shù)忽視數(shù)據(jù)質(zhì)量的弊端;(2)本發(fā)明通過(guò)將數(shù)據(jù)集Web發(fā)布與消費(fèi)領(lǐng)域中的數(shù)據(jù)目錄及其元數(shù)據(jù)技術(shù)與標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量管理領(lǐng)域中的數(shù)據(jù)質(zhì)量層次模型技術(shù)與標(biāo)準(zhǔn)、Web搜索與信息過(guò)濾領(lǐng)域中的分面瀏覽與過(guò)濾方法與技術(shù)等進(jìn)行有機(jī)組合,在功能上彼此相互支持,形成了一種對(duì)數(shù)據(jù)目錄門戶搜索結(jié)果數(shù)據(jù)集(即主題數(shù)據(jù)集)進(jìn)行基于數(shù)據(jù)質(zhì)量的多層分面過(guò)濾的全新方法與系統(tǒng),從而方便用戶篩選出符合其特定數(shù)據(jù)質(zhì)量要求的主題數(shù)據(jù)集,增加數(shù)據(jù)被消費(fèi)的機(jī)會(huì),促進(jìn)數(shù)據(jù)生態(tài)系統(tǒng)的健康發(fā)展;(3)本發(fā)明充分利用了Web數(shù)據(jù)集的數(shù)據(jù)質(zhì)量模型與詞匯最新技術(shù)標(biāo)準(zhǔn)所帶來(lái)的獨(dú)特技術(shù)效果,實(shí)現(xiàn)了對(duì)主題數(shù)據(jù)集進(jìn)行基于數(shù)據(jù)質(zhì)量的多層分面過(guò)濾,代表了數(shù)據(jù)目錄門戶技術(shù)的必然發(fā)展趨勢(shì)。下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步的描述。本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。附圖說(shuō)明圖1是根據(jù)本發(fā)明技術(shù)方案的基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾方法的步驟流程圖;圖2是根據(jù)本發(fā)明技術(shù)方案的基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾方法中物化前、后的數(shù)據(jù)質(zhì)量分面分類層次的數(shù)據(jù)結(jié)構(gòu)示意圖,其中,頂部框中圖案部分為物化前的數(shù)據(jù)結(jié)構(gòu)示意,全圖中粗線框圖案部分為物化后的數(shù)據(jù)結(jié)構(gòu)示意;圖3是根據(jù)本發(fā)明技術(shù)方案的基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾系統(tǒng)的體系結(jié)構(gòu)與處理流程圖,圖中符號(hào)遵循國(guó)家標(biāo)準(zhǔn)GB1526-89(等同于國(guó)際標(biāo)準(zhǔn)ISO5807-1985);圖4是本發(fā)明的一個(gè)優(yōu)選的具體實(shí)施例中構(gòu)建物化前、后的數(shù)據(jù)質(zhì)量分面分類層次所依據(jù)的數(shù)據(jù)質(zhì)量層次模型及相關(guān)的主要本體類及其關(guān)系;圖5是本發(fā)明的一個(gè)優(yōu)選的具體實(shí)施例中基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾系統(tǒng)(原型)輸出數(shù)據(jù)集過(guò)濾結(jié)果的人機(jī)交互界面截屏。具體實(shí)施方式下面詳細(xì)描述本發(fā)明的實(shí)施方式,所述實(shí)施方式的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的概念、對(duì)象、要素等或具有相同或類似功能的概念、對(duì)象、要素等。下面通過(guò)參考附圖描述的實(shí)施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。本
技術(shù)領(lǐng)域:
技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(yǔ)(包括技術(shù)術(shù)語(yǔ)和科學(xué)術(shù)語(yǔ))具有與本發(fā)明所屬領(lǐng)域及相關(guān)領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語(yǔ)應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣定義,不會(huì)用理想化或過(guò)于正式的含義來(lái)解釋。為便于查閱,表1列出了本發(fā)明技術(shù)方案統(tǒng)一使用的數(shù)學(xué)符號(hào)與公式及它們的含義。表1:統(tǒng)一使用的數(shù)學(xué)符號(hào)與公式及其含義為了解決上述技術(shù)問(wèn)題,本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾方法,如圖1所示,包括如下步驟:S1:根據(jù)數(shù)據(jù)目錄中數(shù)據(jù)集質(zhì)量元數(shù)據(jù)構(gòu)建并存儲(chǔ)一個(gè)數(shù)據(jù)質(zhì)量分面分類層次H,具體包括以下步驟:S11:根據(jù)數(shù)據(jù)目錄中數(shù)據(jù)集質(zhì)量元數(shù)據(jù)構(gòu)建一個(gè)數(shù)據(jù)質(zhì)量分面分類層次H,具體包括以下步驟:S111:定義一個(gè)與三層數(shù)據(jù)質(zhì)量層次模型相對(duì)應(yīng)的數(shù)據(jù)質(zhì)量分面分類層次H,其數(shù)據(jù)結(jié)構(gòu)的示意如圖2中頂部框中圖案部分所示,具體包括:該數(shù)據(jù)質(zhì)量分面分類層次是一種具有依次包含關(guān)系的三層結(jié)構(gòu):第一層是質(zhì)量類別層,其中的每個(gè)質(zhì)量類別有一個(gè)名稱,并通過(guò)指針來(lái)指向質(zhì)量維層中若干個(gè)質(zhì)量維以表明該質(zhì)量類別包含這些質(zhì)量維的關(guān)系,第二層是質(zhì)量維層,其中的每個(gè)質(zhì)量維有一個(gè)名稱,并通過(guò)指針來(lái)指向質(zhì)量度量指標(biāo)層中若干個(gè)質(zhì)量度量指標(biāo)以表明該質(zhì)量維包含這些質(zhì)量度量指標(biāo)的關(guān)系,第三層是質(zhì)量度量指標(biāo)層,其中的每個(gè)質(zhì)量度量指標(biāo)有一個(gè)名稱,在數(shù)據(jù)目錄門戶的實(shí)際應(yīng)用中,一個(gè)質(zhì)量度量指標(biāo)可用于對(duì)若干個(gè)數(shù)據(jù)集進(jìn)行質(zhì)量度量,一個(gè)數(shù)據(jù)集可在若干個(gè)質(zhì)量度量指標(biāo)上有質(zhì)量度量,并且,一個(gè)數(shù)據(jù)集在某個(gè)質(zhì)量度量指標(biāo)上可有若干個(gè)質(zhì)量度量,每個(gè)質(zhì)量度量以質(zhì)量度量名-值對(duì)的形式存在;在上述數(shù)據(jù)質(zhì)量分面分類層次中,每個(gè)數(shù)據(jù)質(zhì)量分面,即:每個(gè)具體的質(zhì)量類別、質(zhì)量維或質(zhì)量度量指標(biāo),都將按以下方式來(lái)記錄擁有與其相關(guān)的質(zhì)量度量的所有數(shù)據(jù)集的標(biāo)識(shí)信息:每個(gè)具體的質(zhì)量度量指標(biāo)都將記錄在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的所有數(shù)據(jù)集的標(biāo)識(shí)符,每個(gè)具體的質(zhì)量維都將記錄在它包含的全部質(zhì)量度量指標(biāo)上有質(zhì)量度量的所有數(shù)據(jù)集的標(biāo)識(shí)符,并將這樣的數(shù)據(jù)集簡(jiǎn)稱為“在該質(zhì)量維下有質(zhì)量度量的數(shù)據(jù)集”,類似地,每個(gè)具體的質(zhì)量類別都將記錄在它包含的全部質(zhì)量維所包含的全部質(zhì)量度量指標(biāo)上有質(zhì)量度量的所有數(shù)據(jù)集的標(biāo)識(shí)符,并將這樣的數(shù)據(jù)集簡(jiǎn)稱為“在該質(zhì)量類別下有質(zhì)量度量的數(shù)據(jù)集”;進(jìn)一步地,上述數(shù)據(jù)質(zhì)量分面分類層次H的數(shù)據(jù)結(jié)構(gòu)用數(shù)學(xué)符號(hào)描述如下:一個(gè)數(shù)據(jù)質(zhì)量分面分類層次是一個(gè)三元組H=(C,D,M),其中,C是質(zhì)量類別的線性表,D是質(zhì)量維的線性表的集合,M是質(zhì)量度量指標(biāo)的線性表的集合;質(zhì)量類別的線性表C=(C1,C2,…,Cl),其中,l為該線性表的長(zhǎng)度,每個(gè)元素Ci,i=1,2,…,l是一個(gè)質(zhì)量類別,包含三個(gè)數(shù)據(jù)項(xiàng):質(zhì)量類別的名稱Ci.Name,在該質(zhì)量類別下有質(zhì)量度量的數(shù)據(jù)集標(biāo)識(shí)符的線性表Ci.ListOfDatasetIDs,指向該質(zhì)量類別所包含的質(zhì)量維的線性表Di的指針Ci.Pointer;Ci所指向的質(zhì)量維的線性表Di=(Di1,Di2,…,Dim),其中,m為該線性表的長(zhǎng)度,每個(gè)元素Dij,j=1,2,…,m是一個(gè)質(zhì)量維,包含三個(gè)數(shù)據(jù)項(xiàng):質(zhì)量維的名稱Dij.Name,在該質(zhì)量維下有質(zhì)量度量的數(shù)據(jù)集標(biāo)識(shí)符的線性表Dij.ListOfDatasetIDs,指向該質(zhì)量維所包含的質(zhì)量度量指標(biāo)的線性表Mij的指針Dij.Pointer;Dij所指向的質(zhì)量度量指標(biāo)的線性表Mij=(Mij1,Mij2,…,Mijn),其中,n為該線性表的長(zhǎng)度,每個(gè)元素Mijk,k=1,2,…,n是一個(gè)質(zhì)量度量指標(biāo),包含兩個(gè)數(shù)據(jù)項(xiàng):質(zhì)量度量指標(biāo)的名稱Mijk.Name,在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的數(shù)據(jù)集標(biāo)識(shí)符的線性表Mijk.ListOfDatasetIDs,這些數(shù)據(jù)集在該質(zhì)量度量指標(biāo)上可有若干個(gè)質(zhì)量度量,每個(gè)質(zhì)量度量以質(zhì)量度量名-值對(duì)的形式存在;S112:從數(shù)據(jù)目錄中獲取所有數(shù)據(jù)集的質(zhì)量元數(shù)據(jù),將其中的質(zhì)量類別、質(zhì)量維、質(zhì)量度量指標(biāo)的名稱及相互包含關(guān)系相應(yīng)地賦值至上述數(shù)據(jù)質(zhì)量分面分類層次H,各層中全部的數(shù)據(jù)集標(biāo)識(shí)符的線性表均暫置為空。S12:持久存儲(chǔ)已構(gòu)建的數(shù)據(jù)質(zhì)量分面分類層次H。S2:根據(jù)數(shù)據(jù)質(zhì)量分面分類層次H和用戶搜索數(shù)據(jù)目錄所產(chǎn)生的主題數(shù)據(jù)集物化出一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次并將其樹形結(jié)構(gòu)在人機(jī)交互界面中進(jìn)行可視化,具體包括以下步驟:S21:從數(shù)據(jù)目錄門戶的數(shù)據(jù)集搜索引擎獲取用戶搜索數(shù)據(jù)目錄所搜索到的主題數(shù)據(jù)集,若搜索結(jié)果為空則終止處理,否則據(jù)此形成一個(gè)主題數(shù)據(jù)集標(biāo)識(shí)符的線性表TopicalDatasetIDs;S22:讀取已構(gòu)建并存儲(chǔ)的數(shù)據(jù)質(zhì)量分面分類層次H;S23:根據(jù)主題數(shù)據(jù)集標(biāo)識(shí)符的線性表TopicalDatasetIDs來(lái)物化已讀取的數(shù)據(jù)質(zhì)量分面分類層次H,以產(chǎn)生一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次其數(shù)據(jù)結(jié)構(gòu)的示意如圖2中粗線框圖案部分所示,具體包括以下步驟:S231:從數(shù)據(jù)目錄中獲取主題數(shù)據(jù)集標(biāo)識(shí)符的線性表TopicalDatasetIDs中所有數(shù)據(jù)集的質(zhì)量元數(shù)據(jù);S232:根據(jù)所獲取的質(zhì)量元數(shù)據(jù)來(lái)物化數(shù)據(jù)質(zhì)量分面分類層次H的質(zhì)量度量指標(biāo)層,以產(chǎn)生特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量度量指標(biāo)層,具體包括:首先,對(duì)數(shù)據(jù)質(zhì)量分面分類層次H中的每個(gè)質(zhì)量度量指標(biāo)Mijk,若質(zhì)量元數(shù)據(jù)中使用了該質(zhì)量度量指標(biāo)進(jìn)行質(zhì)量度量,則將其作為特定主題的數(shù)據(jù)質(zhì)量分面分類層次中的一個(gè)質(zhì)量度量指標(biāo)然后,對(duì)中每一個(gè)這樣的質(zhì)量度量指標(biāo)從主題數(shù)據(jù)集標(biāo)識(shí)符的線性表TopicalDatasetIDs中找出在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的所有主題數(shù)據(jù)集,將這些主題數(shù)據(jù)集的標(biāo)識(shí)符賦值給在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表并將該線性表中的每個(gè)主題數(shù)據(jù)集在該質(zhì)量度量指標(biāo)上的所有質(zhì)量度量的名-值對(duì)存儲(chǔ)于相應(yīng)的集合其中1≤t≤線性表的長(zhǎng)度;S233:根據(jù)特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量度量指標(biāo)層來(lái)進(jìn)一步物化數(shù)據(jù)質(zhì)量分面分類層次H的質(zhì)量維層,以產(chǎn)生特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量維層,具體包括:首先,根據(jù)特定主題的數(shù)據(jù)質(zhì)量分面分類層次中已存在的全部質(zhì)量度量指標(biāo)來(lái)確定數(shù)據(jù)質(zhì)量分面分類層次H中包含這些質(zhì)量度量指標(biāo)的各個(gè)質(zhì)量維,將它們作為特定主題的數(shù)據(jù)質(zhì)量分面分類層次中的各個(gè)質(zhì)量維,然后,對(duì)中每個(gè)這樣的質(zhì)量維通過(guò)指針?biāo)赶虻木€性表來(lái)找出該質(zhì)量維所包含的所有質(zhì)量度量指標(biāo),并將全部x個(gè)在這些質(zhì)量度量指標(biāo)上有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表1≤k≤x進(jìn)行去除重復(fù)元素的合并后,賦值給在該質(zhì)量維下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表即:D^ij.ListOfDatasetIDs=M^ij1.ListOfDatasetIDs∪...∪M^ijx.ListOfDatasetIDs;]]>S234:根據(jù)特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量維層來(lái)進(jìn)一步物化數(shù)據(jù)質(zhì)量分面分類層次H的質(zhì)量類別層,以產(chǎn)生特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量類別層,具體包括:首先,根據(jù)特定主題的數(shù)據(jù)質(zhì)量分面分類層次中已存在的全部質(zhì)量維來(lái)確定數(shù)據(jù)質(zhì)量分面分類層次H中包含這些質(zhì)量維的各個(gè)質(zhì)量類別,將它們作為特定主題的數(shù)據(jù)質(zhì)量分面分類層次中的各個(gè)質(zhì)量類別,然后,對(duì)中每個(gè)這樣的質(zhì)量類別通過(guò)指針?biāo)赶虻木€性表來(lái)找出該質(zhì)量類別所包含的所有質(zhì)量維,并將全部y個(gè)在這些質(zhì)量維下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表1≤j≤y進(jìn)行去除重復(fù)元素的合并后,賦值給在該質(zhì)量類別下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表即:C^i.ListOfDatasetIDs=D^i1.ListOfDatasetIDs∪...∪D^iy.ListOfDatasetIDs.]]>S24:將特定主題的數(shù)據(jù)質(zhì)量分面分類層次的樹形結(jié)構(gòu)在人機(jī)交互界面中進(jìn)行可視化。S3:根據(jù)用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面對(duì)主題數(shù)據(jù)集進(jìn)行基于數(shù)據(jù)質(zhì)量的過(guò)濾,并按用戶選定的方式對(duì)過(guò)濾結(jié)果進(jìn)行排序,具體包括以下步驟:S31:根據(jù)用戶在人機(jī)交互界中的上述樹形結(jié)構(gòu)中選擇的一個(gè)用于過(guò)濾的數(shù)據(jù)質(zhì)量分面,產(chǎn)生過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs,具體包括:若用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量類別則將在該質(zhì)量類別下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表中的全部主題數(shù)據(jù)集標(biāo)識(shí)符賦值給過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs;若用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量維則將在該質(zhì)量維下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表中的全部主題數(shù)據(jù)集標(biāo)識(shí)符賦值給過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs;若用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量度量指標(biāo)則將在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表中的全部主題數(shù)據(jù)集標(biāo)識(shí)符賦值給過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs;S32:按用戶在人機(jī)交互界中選定的排序方式對(duì)過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs中的主題數(shù)據(jù)集進(jìn)行排序,產(chǎn)生過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表RankedFilteredTopicalDatasetIDs,具體包括:若用戶選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量度量指標(biāo)則在人機(jī)交互界中向用戶提供對(duì)過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs中的主題數(shù)據(jù)集按質(zhì)量度量值進(jìn)行排序的選項(xiàng):讓用戶選擇在該質(zhì)量度量指標(biāo)上的若干個(gè)質(zhì)量度量中使用哪個(gè)質(zhì)量度量作為排序依據(jù),并選擇升序或降序的排序方式,排序時(shí),數(shù)值型質(zhì)量度量值直接比較大小,布爾型質(zhì)量度量值的比較方式為假小于真,即false<true;若用戶選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量維或質(zhì)量類別則讓用戶在數(shù)據(jù)目錄門戶現(xiàn)有的搜索結(jié)果排序方式中選擇一種方式對(duì)過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs中的數(shù)據(jù)集進(jìn)行排序;將上述兩種情況之一的排序結(jié)果賦值給過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表RankedFilteredTopicalDatasetIDs。S4:在人機(jī)交互界面中輸出過(guò)濾并排序后的主題數(shù)據(jù)集信息,具體包括以下步驟:S41:從數(shù)據(jù)目錄中獲取過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表RankedFilteredTopicalDatasetIDs中所有主題數(shù)據(jù)集的部分描述性元數(shù)據(jù)(如:數(shù)據(jù)集的標(biāo)題、描述信息、發(fā)布者、發(fā)布日期等)和部分訪問(wèn)元數(shù)據(jù)(如:數(shù)據(jù)集的數(shù)據(jù)格式、訪問(wèn)及下載網(wǎng)址等);S42:將已獲取的上述元數(shù)據(jù)按過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表RankedFilteredTopicalDatasetIDs中的主題數(shù)據(jù)集順序在人機(jī)交互界面中依次呈現(xiàn),若上述用于過(guò)濾的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量度量指標(biāo),則同時(shí)呈現(xiàn)各主題數(shù)據(jù)集在該質(zhì)量度量指標(biāo)上的用于排序的質(zhì)量度量值。對(duì)于上述基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾方法,值得進(jìn)一步指出以下幾點(diǎn):(1)上述步驟S1宜以適當(dāng)頻度來(lái)離線(off-line)執(zhí)行,其執(zhí)行頻度取決于數(shù)據(jù)目錄中數(shù)據(jù)集和/或質(zhì)量元數(shù)據(jù)的批量更新頻度(如:每周一次),執(zhí)行時(shí)間點(diǎn)宜選在數(shù)據(jù)目錄門戶的維護(hù)時(shí)間段,這樣既可提高執(zhí)行效率又可縮短響應(yīng)時(shí)間;(2)針對(duì)用戶的一次主題搜索,上述步驟S2只需在線(on-line)執(zhí)行一次,由于特定主題的數(shù)據(jù)質(zhì)量分面分類層次是根據(jù)步驟S1已構(gòu)建的數(shù)據(jù)質(zhì)量分面分類層次物化出的,因此步驟S2所需的執(zhí)行時(shí)間很短,其有益的技術(shù)效果是縮短了特定主題的數(shù)據(jù)質(zhì)量分面分類層次的樹形結(jié)構(gòu)在人機(jī)交互界面中進(jìn)行可視化的用戶等待時(shí)間;(3)上述步驟S3和S4的組合可重復(fù)執(zhí)行,其重復(fù)執(zhí)行的次數(shù)等于用戶在特定主題的數(shù)據(jù)質(zhì)量分面分類層次的樹形結(jié)構(gòu)中選擇用于過(guò)濾的數(shù)據(jù)質(zhì)量分面的次數(shù),其有益的技術(shù)效果是用戶可以對(duì)主題數(shù)據(jù)集進(jìn)行基于數(shù)據(jù)質(zhì)量的多層分面過(guò)濾(即在多個(gè)質(zhì)量類別、多個(gè)質(zhì)量維、多個(gè)質(zhì)量度量指標(biāo)上進(jìn)行分面過(guò)濾)。根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾系統(tǒng),如圖3所示,包括:數(shù)據(jù)質(zhì)量分面分類層次的構(gòu)建并存儲(chǔ)模塊、數(shù)據(jù)質(zhì)量分面分類層次的物化和可視化模塊、基于數(shù)據(jù)質(zhì)量的數(shù)據(jù)集過(guò)濾模塊、主題數(shù)據(jù)集過(guò)濾并排序結(jié)果的輸出模塊、人機(jī)交互界面,其中:所述數(shù)據(jù)質(zhì)量分面分類層次的構(gòu)建并存儲(chǔ)模塊用于實(shí)現(xiàn)本發(fā)明方法中的步驟S1:根據(jù)數(shù)據(jù)目錄中數(shù)據(jù)集質(zhì)量元數(shù)據(jù)構(gòu)建并存儲(chǔ)一個(gè)數(shù)據(jù)質(zhì)量分面分類層次;所述數(shù)據(jù)質(zhì)量分面分類層次的物化和可視化模塊用于實(shí)現(xiàn)本發(fā)明方法中的步驟S2:根據(jù)數(shù)據(jù)質(zhì)量分面分類層次和用戶搜索數(shù)據(jù)目錄所產(chǎn)生的主題數(shù)據(jù)集物化出一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次,并將其樹形結(jié)構(gòu)在人機(jī)交互界面中進(jìn)行可視化;所述基于數(shù)據(jù)質(zhì)量的數(shù)據(jù)集過(guò)濾模塊用于實(shí)現(xiàn)本發(fā)明方法中的步驟S3:根據(jù)用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面對(duì)主題數(shù)據(jù)集進(jìn)行基于數(shù)據(jù)質(zhì)量的過(guò)濾,并按用戶選定的方式對(duì)過(guò)濾結(jié)果進(jìn)行排序;所述主題數(shù)據(jù)集過(guò)濾并排序結(jié)果的輸出模塊用于實(shí)現(xiàn)本發(fā)明方法中的步驟S4:在人機(jī)交互界面中輸出過(guò)濾并排序后的主題數(shù)據(jù)集信息;所述人機(jī)交互界面用于實(shí)現(xiàn)用戶與該系統(tǒng)之間的人機(jī)交互,包括:用戶在該界面中輸入數(shù)據(jù)集搜索主題、系統(tǒng)在該界面中將一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次的樹形結(jié)構(gòu)進(jìn)行可視化、用戶在上述可視化的樹形結(jié)構(gòu)中選擇一個(gè)用于過(guò)濾的數(shù)據(jù)質(zhì)量分面并選定主題數(shù)據(jù)集的排序方式、系統(tǒng)在該界面中呈現(xiàn)過(guò)濾并排序后的主題數(shù)據(jù)集信息。上述系統(tǒng)的可選實(shí)現(xiàn)方式包括:(1)將該系統(tǒng)集成到現(xiàn)有數(shù)據(jù)目錄門戶中,使得現(xiàn)有主題搜索結(jié)果數(shù)據(jù)集(即主題數(shù)據(jù)集)過(guò)濾技術(shù)中包含基于數(shù)據(jù)質(zhì)量的多層分面過(guò)濾功能;(2)該系統(tǒng)單獨(dú)實(shí)現(xiàn),作為現(xiàn)有數(shù)據(jù)目錄門戶的一種增值服務(wù),實(shí)現(xiàn)對(duì)數(shù)據(jù)目錄門戶的主題搜索結(jié)果數(shù)據(jù)集(即主題數(shù)據(jù)集)進(jìn)行基于數(shù)據(jù)質(zhì)量的多層分面過(guò)濾。由上述技術(shù)方案可以理解的是,本發(fā)明是基于本說(shuō)明書的“
背景技術(shù):
”中所述的多個(gè)相關(guān)
技術(shù)領(lǐng)域:
的技術(shù)背景和技術(shù)發(fā)展趨勢(shì)提出的,提供了一種基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集分面過(guò)濾技術(shù)方案。由于數(shù)據(jù)質(zhì)量模型用于“establishdataqualityrequirements,definedataqualitymeasures,orplanandperformdataqualityevaluations.(建立數(shù)據(jù)質(zhì)量需求,定義數(shù)據(jù)質(zhì)量度量,或計(jì)劃和實(shí)施數(shù)據(jù)質(zhì)量評(píng)價(jià))”(摘自:《ISO/IEC25012數(shù)據(jù)質(zhì)量模型》國(guó)際標(biāo)準(zhǔn)的技術(shù)文檔),因此,基于數(shù)據(jù)質(zhì)量的分面過(guò)濾技術(shù)在本質(zhì)上不同于傳統(tǒng)的分面過(guò)濾技術(shù),必須以數(shù)據(jù)質(zhì)量模型(典型地,三層數(shù)據(jù)質(zhì)量層次模型)為基礎(chǔ)。本發(fā)明技術(shù)方案的最突出的實(shí)質(zhì)性特點(diǎn)是基于數(shù)據(jù)質(zhì)量的分面過(guò)濾方法與過(guò)程是以數(shù)據(jù)質(zhì)量模型(典型地,三層數(shù)據(jù)質(zhì)量層次模型)為基礎(chǔ)的。為此,必須首先定義一個(gè)與三層數(shù)據(jù)質(zhì)量層次模型相對(duì)應(yīng)的數(shù)據(jù)質(zhì)量分面分類層次,在此基礎(chǔ)上再根據(jù)用戶搜索數(shù)據(jù)目錄所產(chǎn)生的主題數(shù)據(jù)集物化出一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次,最后根據(jù)用戶在特定主題的數(shù)據(jù)質(zhì)量分面分類層次的樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面對(duì)主題數(shù)據(jù)集進(jìn)行多層分面過(guò)濾(即在多個(gè)質(zhì)量類別、多個(gè)質(zhì)量維、多個(gè)質(zhì)量度量指標(biāo)上進(jìn)行分面過(guò)濾);本發(fā)明技術(shù)方案的其他突出的實(shí)質(zhì)性特點(diǎn)還包括:本發(fā)明技術(shù)方案適用于Web數(shù)據(jù)目錄與元數(shù)據(jù)、數(shù)據(jù)質(zhì)量管理等領(lǐng)域的最新技術(shù)標(biāo)準(zhǔn)與規(guī)范,等等。下面通過(guò)一個(gè)優(yōu)選的實(shí)施例來(lái)進(jìn)一步描述本發(fā)明技術(shù)方案的具體實(shí)施方式。不失一般性,本實(shí)施例的數(shù)據(jù)目錄門戶選用美國(guó)政府開放數(shù)據(jù)門戶DATA.GOV(https://www.data.gov),該數(shù)據(jù)門戶的數(shù)據(jù)目錄及數(shù)據(jù)集的元數(shù)據(jù)是用W3C制定的DCAT數(shù)據(jù)目錄詞匯標(biāo)準(zhǔn)(參見:本說(shuō)明書的“
背景技術(shù):
”)來(lái)描述的。由于DATA.GOV目前暫未增設(shè)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量元數(shù)據(jù),因此本實(shí)施例用DCAT的擴(kuò)充——W3C的Web數(shù)據(jù)最佳實(shí)踐(DWBP)工作組制定的DQV數(shù)據(jù)質(zhì)量詞匯技術(shù)規(guī)范(參見:本說(shuō)明書的“
背景技術(shù):
”)來(lái)建模與描述DATA.GOV中的數(shù)據(jù)質(zhì)量元數(shù)據(jù)。如圖4所示,DQV定義了一種三層的數(shù)據(jù)質(zhì)量模型:質(zhì)量類別(dqv:Category類)、質(zhì)量維(dqv:Dimension類)和質(zhì)量度量指標(biāo)(dqv:Metric類);用這些本體類的實(shí)例可為DATA.GOV構(gòu)建一個(gè)實(shí)際使用的三層數(shù)據(jù)質(zhì)量模型。不失一般性,如圖4所示以及表2所列,本實(shí)施例選用DQV技術(shù)規(guī)范中推薦的ISO數(shù)據(jù)質(zhì)量模型國(guó)際標(biāo)準(zhǔn)ISO/IEC25012(參見:本說(shuō)明書的“
背景技術(shù):
”)中的部分質(zhì)量類別和部分質(zhì)量維來(lái)構(gòu)建DATA.GOV數(shù)據(jù)質(zhì)量模型的質(zhì)量類別和質(zhì)量維,并選用Radulovic等人提出的LDQM質(zhì)量模型中一些質(zhì)量度量指標(biāo)(參見:本說(shuō)明書的“
背景技術(shù):
”)來(lái)構(gòu)建DATA.GOV數(shù)據(jù)質(zhì)量模型的質(zhì)量度量指標(biāo)。表2:優(yōu)先實(shí)施例中數(shù)據(jù)質(zhì)量分面分類層次所對(duì)應(yīng)的DATA.GOV數(shù)據(jù)質(zhì)量層次模型使用質(zhì)量度量指標(biāo)定義的質(zhì)量度量可以是包括整型(interger)、十進(jìn)制型(decimal)、浮點(diǎn)型(float)、雙精度浮點(diǎn)型(double)等在內(nèi)的各種數(shù)值型值和布爾型(boolean)值。以上述數(shù)據(jù)質(zhì)量層次模型為基礎(chǔ),按表2中質(zhì)量度量指標(biāo)上的度量值類型和值域?yàn)橐?,為DATA.GOV數(shù)據(jù)目錄門戶中部分?jǐn)?shù)據(jù)集(詳見后文中表3)定義了若干質(zhì)量度量(詳見后文中表4,其中,雙精度浮點(diǎn)型值只給出了小數(shù)點(diǎn)后三位,以便下文實(shí)施例中的質(zhì)量度量值表示和屏幕顯示更為簡(jiǎn)潔),假設(shè)其名空間為“hhu:”或“ex:”(不同的名空間表明了有不同的機(jī)構(gòu)或個(gè)人使用上述數(shù)據(jù)質(zhì)量模型對(duì)DATD.GOV中部分?jǐn)?shù)據(jù)集進(jìn)行了質(zhì)量評(píng)估)。如本說(shuō)明書的“
背景技術(shù):
”所述,數(shù)據(jù)目錄的DCAT描述、數(shù)據(jù)集質(zhì)量元數(shù)據(jù)的DQV描述均為RDF描述,是一種RDF數(shù)據(jù)。按上述方法為DATA.GOV數(shù)據(jù)目錄門戶構(gòu)建的數(shù)據(jù)集質(zhì)量元數(shù)據(jù)(含數(shù)據(jù)質(zhì)量模型定義及數(shù)據(jù)集的質(zhì)量度量定義)的RDFTurtle格式表示(參見:RDF1.1Turtle:TerseRDFTripleLanguage.W3CRecommendation,25February2014.https://www.w3.org/TR/turtle/)示意如下:根據(jù)本發(fā)明的一個(gè)方面,一種基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾方法,如圖1所示,包括如下步驟:S1:根據(jù)數(shù)據(jù)目錄中數(shù)據(jù)集質(zhì)量元數(shù)據(jù)構(gòu)建并存儲(chǔ)一個(gè)數(shù)據(jù)質(zhì)量分面分類層次H,具體包括以下步驟:S11:根據(jù)數(shù)據(jù)目錄中數(shù)據(jù)集質(zhì)量元數(shù)據(jù)構(gòu)建一個(gè)數(shù)據(jù)質(zhì)量分面分類層次H,其數(shù)據(jù)結(jié)構(gòu)的示意如圖2中頂部虛線框中所示,具體包括以下步驟:S111:定義一個(gè)與上述DATA.GOV數(shù)據(jù)質(zhì)量層次模型相對(duì)應(yīng)的數(shù)據(jù)質(zhì)量分面分類層次H,具體如下:H=(C,D,M),其中,C是質(zhì)量類別的線性表,D是質(zhì)量維的線性表的集合,M是質(zhì)量度量指標(biāo)的線性表的集合;質(zhì)量類別的線性表C=(iso:inherentDataQuality,iso:systemDependentDataQuality)中元素(質(zhì)量類別)C1或C2包含三個(gè)數(shù)據(jù)項(xiàng):質(zhì)量類別的名稱,在該質(zhì)量類別下有質(zhì)量度量的數(shù)據(jù)集標(biāo)識(shí)符的線性表,指向該質(zhì)量類別所包含的質(zhì)量維的線性表D1或D2的指針;C1所指向的質(zhì)量維的線性表D1=(iso:accuracy,iso:completeness),其中元素(質(zhì)量維)D11或D12包含三個(gè)數(shù)據(jù)項(xiàng):質(zhì)量維的名稱,在該質(zhì)量維下有質(zhì)量度量的數(shù)據(jù)集標(biāo)識(shí)符的線性表,指向該質(zhì)量維所包含的質(zhì)量度量指標(biāo)的線性表M11或M12的指針;D11所指向的質(zhì)量度量指標(biāo)的線性表M11=(ldqm:averageDatatypeCompatibility,ldqm:averageAttributeMisuse),其中元素(質(zhì)量度量指標(biāo))M111或M112包含兩個(gè)數(shù)據(jù)項(xiàng):質(zhì)量度量指標(biāo)的名稱,在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的數(shù)據(jù)集標(biāo)識(shí)符的線性表(見后文);D12所指向的質(zhì)量度量指標(biāo)的線性表M12=(ldqm:averageMissingAttributeValues,ldqm:percentageOfUndefinedAttributes),其中元素(質(zhì)量度量指標(biāo))M121或M122包含兩個(gè)數(shù)據(jù)項(xiàng):質(zhì)量度量指標(biāo)的名稱,在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的數(shù)據(jù)集標(biāo)識(shí)符的線性表(見后文);同樣地,C2所指向的質(zhì)量維的線性表D2=(iso:availability,iso:portability),其中元素(質(zhì)量維)D21或D22包含三個(gè)數(shù)據(jù)項(xiàng):質(zhì)量維的名稱,在該質(zhì)量維下有質(zhì)量度量的數(shù)據(jù)集標(biāo)識(shí)符的線性表,指向該質(zhì)量維所包含的質(zhì)量度量指標(biāo)的線性表M21或M22的指針;D21所指向的質(zhì)量度量指標(biāo)的線性表M21=(ldqm:multipleDataFormats,ldqm:SPARQLSupport),其中元素(質(zhì)量度量指標(biāo))M211或M212包含兩個(gè)數(shù)據(jù)項(xiàng):質(zhì)量度量指標(biāo)的名稱,在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的數(shù)據(jù)集標(biāo)識(shí)符的線性表(見后文);D22所指向的質(zhì)量度量指標(biāo)的線性表M22=(ldqm:termsReuseRatio),其中元素(質(zhì)量度量指標(biāo))M221包含兩個(gè)數(shù)據(jù)項(xiàng):質(zhì)量度量指標(biāo)的名稱,在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的數(shù)據(jù)集標(biāo)識(shí)符的線性表(見后文);S112:從DATA.GOV數(shù)據(jù)目錄中獲取所有數(shù)據(jù)集的質(zhì)量元數(shù)據(jù),將其中的質(zhì)量類別、質(zhì)量維、質(zhì)量度量指標(biāo)的名稱及相互包含關(guān)系相應(yīng)地賦值至上述數(shù)據(jù)質(zhì)量分面分類層次H,各層中全部的數(shù)據(jù)集標(biāo)識(shí)符的線性表均暫置為空。S12:持久存儲(chǔ)已構(gòu)建的數(shù)據(jù)質(zhì)量分面分類層次H,具體存儲(chǔ)格式采用JSON格式的文件。S2:根據(jù)數(shù)據(jù)質(zhì)量分面分類層次H和用戶搜索數(shù)據(jù)目錄所產(chǎn)生的主題數(shù)據(jù)集物化出一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次并將其樹形結(jié)構(gòu)在人機(jī)交互界面中進(jìn)行可視化,具體包括以下步驟:S21:從DATA.GOV數(shù)據(jù)目錄門戶的數(shù)據(jù)集搜索引擎獲取用戶搜索數(shù)據(jù)目錄所搜索到的主題數(shù)據(jù)集,不失一般性,2016年8月12日使用搜索主題“consumercomplaints”(消費(fèi)者投訴)的實(shí)際搜索結(jié)果(如表3所列)不為空,據(jù)此形成一個(gè)主題數(shù)據(jù)集標(biāo)識(shí)符的線性表TopicalDatasetIDs=(d1,d2,…,d23);表3:優(yōu)先實(shí)施例中數(shù)據(jù)目錄門戶DATA.GOV的數(shù)據(jù)集搜索引擎返回的“consumercomplaints”(消費(fèi)者投訴)主題上的搜索結(jié)果數(shù)據(jù)集(按主題相關(guān)度降序排列)S22:讀取已構(gòu)建并存儲(chǔ)的數(shù)據(jù)質(zhì)量分面分類層次H;S23:根據(jù)主題數(shù)據(jù)集標(biāo)識(shí)符的線性表TopicalDatasetIDs來(lái)物化已讀取的數(shù)據(jù)質(zhì)量分面分類層次H,以產(chǎn)生一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次其數(shù)據(jù)結(jié)構(gòu)的示意如圖2中粗線框圖案部分所示,具體包括以下步驟:S231:從DATA.GOV數(shù)據(jù)目錄中獲取主題數(shù)據(jù)集標(biāo)識(shí)符的線性表TopicalDatasetIDs中所有數(shù)據(jù)集的質(zhì)量元數(shù)據(jù);S232:根據(jù)所獲取的質(zhì)量元數(shù)據(jù)來(lái)物化數(shù)據(jù)質(zhì)量分面分類層次H的質(zhì)量度量指標(biāo)層,以產(chǎn)生特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量度量指標(biāo)層,具體包括:首先,對(duì)數(shù)據(jù)質(zhì)量分面分類層次H中的每個(gè)質(zhì)量度量指標(biāo)Mijk,若質(zhì)量元數(shù)據(jù)中使用了該質(zhì)量度量指標(biāo)進(jìn)行質(zhì)量度量,則將其作為特定主題的數(shù)據(jù)質(zhì)量分面分類層次中的一個(gè)質(zhì)量度量指標(biāo)然后,對(duì)中每一個(gè)這樣的質(zhì)量度量指標(biāo)從主題數(shù)據(jù)集標(biāo)識(shí)符的線性表TopicalDatasetIDs中找出在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的所有主題數(shù)據(jù)集,將這些主題數(shù)據(jù)集的標(biāo)識(shí)符賦值給在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表并將該線性表中的每個(gè)主題數(shù)據(jù)集在該質(zhì)量度量指標(biāo)上的所有質(zhì)量度量的名-值對(duì)存儲(chǔ)于相應(yīng)的集合其中1≤t≤線性表的長(zhǎng)度,具體如下:不失一般性,假設(shè)TopicalDatasetIDs中主題數(shù)據(jù)集d6、d20、d21、d23沒(méi)有任何質(zhì)量元數(shù)據(jù)(因此,這4個(gè)數(shù)據(jù)集直接被基于數(shù)據(jù)質(zhì)量的過(guò)濾方法過(guò)濾掉——這是對(duì)主題數(shù)據(jù)集的第一種基于數(shù)據(jù)質(zhì)量的分面過(guò)濾),其他主題數(shù)據(jù)集在若干質(zhì)量度量指標(biāo)上有名空間為“hhu:”或“ex:”的質(zhì)量度量,如表4所列,每個(gè)質(zhì)量度量指標(biāo)上有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表如下:M^111.ListOfDatasetIDs=(d1,d4,d7,d8,d10,d13,d16,d18,d19),]]>M^112.ListOfDatasetIDs=(d2,d4,d5,d13,d16,d17,d18),]]>M^121.ListOfDatasetIDs=(d4,d5,d8,d15,d16,d18,d22),]]>M^211.ListOfDatasetIDs=(d1,d2,...,d5,d7,d8,...,d19,d22);]]>以上每個(gè)主題數(shù)據(jù)集在相應(yīng)質(zhì)量度量指標(biāo)上擁有的所有質(zhì)量度量名-值對(duì)存儲(chǔ)于集合表4:優(yōu)先實(shí)施例中物化出的特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量度量指標(biāo)層及相應(yīng)有質(zhì)量度量值的主題數(shù)據(jù)集S233:根據(jù)特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量度量指標(biāo)層來(lái)進(jìn)一步物化數(shù)據(jù)質(zhì)量分面分類層次H的質(zhì)量維層,以產(chǎn)生特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量維層,具體包括:首先,根據(jù)特定主題的數(shù)據(jù)質(zhì)量分面分類層次中已存在的全部質(zhì)量度量指標(biāo)來(lái)確定數(shù)據(jù)質(zhì)量分面分類層次H中包含這些質(zhì)量度量指標(biāo)的各個(gè)質(zhì)量維,將它們作為特定主題的數(shù)據(jù)質(zhì)量分面分類層次中的各個(gè)質(zhì)量維,然后,對(duì)中每個(gè)這樣的質(zhì)量維通過(guò)指針?biāo)赶虻木€性表來(lái)找出該質(zhì)量維所包含的所有質(zhì)量度量指標(biāo),并將全部x個(gè)在這些質(zhì)量度量指標(biāo)上有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表1≤k≤x進(jìn)行去除重復(fù)元素的合并后,賦值給在該質(zhì)量維下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表即:具體如下:D^11.ListOfDatasetIDs=M^111.ListOfDatasetIDs∪M^112.ListOfDatasetIDs=(d1,d2,d4,d5,d7,d8,d10,d13,d16,d17,d18,d19),]]>D^12.ListOfDatasetIDs=M^121.ListOfDatasetIDs=(d4,d5,d8,d15,d16,d18,d22),]]>D^21.ListOfDatasetIDs=M^211.ListOfDatasetIDs=(d1,d2,...,d5,d7,d8,...,d19,d22);]]>S234:根據(jù)特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量維層來(lái)進(jìn)一步物化數(shù)據(jù)質(zhì)量分面分類層次H的質(zhì)量類別層,以產(chǎn)生特定主題的數(shù)據(jù)質(zhì)量分面分類層次的質(zhì)量類別層,具體包括:首先,根據(jù)特定主題的數(shù)據(jù)質(zhì)量分面分類層次中已存在的全部質(zhì)量維來(lái)確定數(shù)據(jù)質(zhì)量分面分類層次H中包含這些質(zhì)量維的各個(gè)質(zhì)量類別,將它們作為特定主題的數(shù)據(jù)質(zhì)量分面分類層次中的各個(gè)質(zhì)量類別,然后,對(duì)中每個(gè)這樣的質(zhì)量類別通過(guò)指針?biāo)赶虻木€性表來(lái)找出該質(zhì)量類別所包含的所有質(zhì)量維,并將全部y個(gè)在這些質(zhì)量維下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表1≤j≤y進(jìn)行去除重復(fù)元素的合并后,賦值給在該質(zhì)量類別下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表即:這里具體如下:C^1.ListOfDatasetIDs=D^11.ListOfDatasetIDs∪D^12.ListOfDatasetIDs=(d1,d2,d4,d5,d7,d8,d10,d13,d15,d16,d17,d18,d19,d22),]]>C^2.ListOfDatasetIDs=D^21.ListOfDatasetIDs=(d1,d2,...,d5,d7,d8,...,d19,d22).]]>S24:將特定主題的數(shù)據(jù)質(zhì)量分面分類層次的樹形結(jié)構(gòu)在人機(jī)交互界面中進(jìn)行可視化。S3:根據(jù)用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面對(duì)主題數(shù)據(jù)集進(jìn)行基于數(shù)據(jù)質(zhì)量的過(guò)濾,并按用戶選定的方式對(duì)過(guò)濾結(jié)果進(jìn)行排序,具體包括以下步驟:S31:根據(jù)用戶在人機(jī)交互界中的上述樹形結(jié)構(gòu)中選擇的一個(gè)用于過(guò)濾的數(shù)據(jù)質(zhì)量分面,產(chǎn)生過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs,具體包括:若用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量類別則將在該質(zhì)量類別下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表中的全部主題數(shù)據(jù)集標(biāo)識(shí)符賦值給過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs;若用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量維則將在該質(zhì)量維下有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表中的全部主題數(shù)據(jù)集標(biāo)識(shí)符賦值給過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs;若用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量度量指標(biāo)則將在該質(zhì)量度量指標(biāo)上有質(zhì)量度量的主題數(shù)據(jù)集標(biāo)識(shí)符的線性表中的全部主題數(shù)據(jù)集標(biāo)識(shí)符賦值給過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs;不失一般性,舉例如下:假設(shè)用戶選擇的分面是iso:inherentDataQuality(固有數(shù)據(jù)質(zhì)量),則:FilteredTopicalDatasetIDs=C^1.ListOfDatasetIDs=(d1,d2,d4,d5,d7,d8,d10,d13,d15,d16,d17,d18,d19,d22),]]>因此,搜索結(jié)果的23個(gè)主題數(shù)據(jù)集中除以上數(shù)據(jù)集外的其他數(shù)據(jù)集因在該質(zhì)量類別下沒(méi)有質(zhì)量度量值(即用戶無(wú)法判斷這些主題數(shù)據(jù)集是否符合其質(zhì)量要求)而被過(guò)濾掉了;假設(shè)用戶選擇的分面是iso:accuracy(準(zhǔn)確性)則:FilteredTopicalDatasetIDs=D^11.ListOfDatasetIDs=(d1,d2,d4,d5,d7,d8,d10,d13,d16,d17,d18,d19,),]]>因此,搜索結(jié)果的23個(gè)主題數(shù)據(jù)集中除以上數(shù)據(jù)集外的其他數(shù)據(jù)集因在該質(zhì)量維下沒(méi)有質(zhì)量度量值(即用戶無(wú)法判斷這些主題數(shù)據(jù)集是否符合其質(zhì)量要求)而被過(guò)濾掉了;假設(shè)用戶選擇的分面是ldqm:averageAttributeMisuse(平均屬性誤用),則:FilteredTopicalDatasetIDs=M^112.ListOfDatasetIDs=(d2,d4,d5,d13,d16,d17,d18),]]>因此,搜索結(jié)果的23個(gè)主題數(shù)據(jù)集中除以上數(shù)據(jù)集外的其他數(shù)據(jù)集因在該質(zhì)量度量指標(biāo)上沒(méi)有質(zhì)量度量值(即用戶無(wú)法判斷這些主題數(shù)據(jù)集是否符合其質(zhì)量要求)而被過(guò)濾掉了;以上三層數(shù)據(jù)質(zhì)量分面上的過(guò)濾是對(duì)主題數(shù)據(jù)集的第二種基于數(shù)據(jù)質(zhì)量的分面過(guò)濾。S32:按用戶在人機(jī)交互界中選定的排序方式對(duì)過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs中的主題數(shù)據(jù)集進(jìn)行排序,產(chǎn)生過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表RankedFilteredTopicalDatasetIDs,具體包括:若用戶選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量度量指標(biāo)則在人機(jī)交互界中向用戶提供對(duì)過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs中的主題數(shù)據(jù)集按質(zhì)量度量值進(jìn)行排序的選項(xiàng):讓用戶選擇在該質(zhì)量度量指標(biāo)上的若干個(gè)質(zhì)量度量中使用哪個(gè)質(zhì)量度量作為排序依據(jù),并選擇升序或降序的排序方式,排序時(shí),數(shù)值型質(zhì)量度量值直接比較大小,布爾型質(zhì)量度量值的比較方式為假小于真,即false<true;若用戶選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量維或質(zhì)量類別則讓用戶在數(shù)據(jù)目錄門戶現(xiàn)有的搜索結(jié)果排序方式中選擇一種方式對(duì)過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表FilteredTopicalDatasetIDs中的數(shù)據(jù)集進(jìn)行排序;將上述兩種情況之一的排序結(jié)果賦值給過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表RankedFilteredTopicalDatasetIDs。不失一般性,下面我們假定用戶選擇的分面是ldqm:averageAttributeMisuse,并假定用戶選擇的排序依據(jù)是在質(zhì)量度量指標(biāo)上的質(zhì)量度量hhu:avgAttrMisuse,并假定用戶選擇的排序方式是“升序”,通過(guò)質(zhì)量度量值大小比較后的過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表RankedFilteredTopicalDatasetIDs=(d4,d5,d2,d13,d18,d17,d16)。S4:在人機(jī)交互界面中輸出過(guò)濾并排序后的主題數(shù)據(jù)集信息,具體包括以下步驟:S41:從數(shù)據(jù)目錄中獲取過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表RankedFilteredTopicalDatasetIDs中所有主題數(shù)據(jù)集的部分描述性元數(shù)據(jù)(如:數(shù)據(jù)集的標(biāo)題、描述信息、數(shù)據(jù)格式、發(fā)布者、發(fā)布日期等)和部分訪問(wèn)元數(shù)據(jù)(如:數(shù)據(jù)集的訪問(wèn)及下載網(wǎng)址等);S42:將已獲取的上述元數(shù)據(jù)按過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表RankedFilteredTopicalDatasetIDs中的主題數(shù)據(jù)集順序在人機(jī)交互界面中依次呈現(xiàn),這里同時(shí)呈現(xiàn)各主題數(shù)據(jù)集在以上質(zhì)量度量指標(biāo)上的用于排序的質(zhì)量度量的值。舉例說(shuō)明,如圖5所示,假設(shè)某用戶特定數(shù)據(jù)質(zhì)量要求是“數(shù)據(jù)集的平均屬性誤用必須小于1%(即0.010)”,那么,在RankedFilteredTopicalDatasetIDs中只有數(shù)據(jù)集d4(其質(zhì)量度量值為0.005)和d5(其質(zhì)量度量值為0.009)滿足該用戶的以上數(shù)據(jù)質(zhì)量要求,因此,除d4和d5外的其他數(shù)據(jù)集由于其質(zhì)量度量值不符合用戶的質(zhì)量要求而再次被過(guò)濾掉了——這是對(duì)主題數(shù)據(jù)集的第三種基于數(shù)據(jù)質(zhì)量的分面過(guò)濾。根據(jù)本發(fā)明的另一個(gè)方面,一種基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾系統(tǒng),如圖3所示,包括:數(shù)據(jù)質(zhì)量分面分類層次的構(gòu)建并存儲(chǔ)模塊、數(shù)據(jù)質(zhì)量分面分類層次的物化和可視化模塊、基于數(shù)據(jù)質(zhì)量的數(shù)據(jù)集過(guò)濾模塊、主題數(shù)據(jù)集過(guò)濾并排序結(jié)果的輸出模塊、人機(jī)交互界面。作為上述優(yōu)先實(shí)施例的延續(xù),我們實(shí)現(xiàn)了上述一種基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾系統(tǒng)的一個(gè)原型。由于將本系統(tǒng)集成到現(xiàn)有數(shù)據(jù)目錄門戶中的實(shí)現(xiàn)方式比本系統(tǒng)單獨(dú)實(shí)現(xiàn)的方式更為簡(jiǎn)單,不失一般性,該系統(tǒng)原型采用了“單獨(dú)實(shí)現(xiàn)”方式,作為數(shù)據(jù)目錄門戶的一種增值服務(wù),實(shí)現(xiàn)數(shù)據(jù)目錄門戶的主題搜索結(jié)果數(shù)據(jù)集(即主題數(shù)據(jù)集)的基于數(shù)據(jù)質(zhì)量的多層分面過(guò)濾。該系統(tǒng)原型的主要實(shí)現(xiàn)技術(shù)簡(jiǎn)述如下:該系統(tǒng)原型被設(shè)計(jì)并實(shí)現(xiàn)成一個(gè)采用模型–視圖–控制器(MVC)軟件體系結(jié)構(gòu)模式的Web應(yīng)用,其軟件使用Java平臺(tái)企業(yè)版(JavaEE)8.0(參見:http://www.oracle.com/technetwork/java/javaee/overview/index.html)和開源的語(yǔ)義網(wǎng)應(yīng)用開發(fā)Java框架ApacheJena中的核心RDFAPI(參見:http://jena.apache.org/documentation/rdf/index.html)開發(fā),并部署于ApacheTomcat7.0.55(參見:http://tomcat.apache.org/)Web應(yīng)用服務(wù)器。上述一種基于數(shù)據(jù)質(zhì)量的主題數(shù)據(jù)集多層分面過(guò)濾系統(tǒng)中各個(gè)模塊的功能及其在系統(tǒng)原型中的實(shí)現(xiàn)技術(shù)簡(jiǎn)述如下:數(shù)據(jù)質(zhì)量分面分類層次的構(gòu)建并存儲(chǔ)模塊用于實(shí)現(xiàn)本發(fā)明方法中的步驟S1:根據(jù)數(shù)據(jù)目錄中數(shù)據(jù)集質(zhì)量元數(shù)據(jù)構(gòu)建并存儲(chǔ)一個(gè)數(shù)據(jù)質(zhì)量分面分類層次。在系統(tǒng)原型中的實(shí)現(xiàn)技術(shù)如下:定義一個(gè)與三層數(shù)據(jù)質(zhì)量層次模型相對(duì)應(yīng)的數(shù)據(jù)質(zhì)量分面分類層次時(shí),每一層都用Java數(shù)組表(ArrayList)來(lái)實(shí)現(xiàn),下層的數(shù)組表作為其直接上層數(shù)組表元素中的一個(gè)屬性,每個(gè)數(shù)組表元素還包含兩個(gè)屬性:質(zhì)量分面名稱和對(duì)應(yīng)的數(shù)據(jù)集標(biāo)識(shí)符的線性表;如果數(shù)據(jù)目錄門戶提供數(shù)據(jù)集元數(shù)據(jù)的SPARQL端點(diǎn)(如:歐盟開放數(shù)據(jù)門戶的SPARQL端點(diǎn)http://data.europa.eu/euodp/en/linked-data),那么可通過(guò)SPARQL查詢(參見:本說(shuō)明書的“
背景技術(shù):
”)獲取RDF格式的質(zhì)量元數(shù)據(jù),否則,可通過(guò)HTTP請(qǐng)求獲取RDF格式的質(zhì)量元數(shù)據(jù)(如:DATA.GOV數(shù)據(jù)目錄門戶提供數(shù)據(jù)集元數(shù)據(jù)的JSON-LD文檔,即一種RDF文檔);利用ApacheJena中的核心RDFAPI解析已獲取的RDF格式的質(zhì)量元數(shù)據(jù),并通過(guò)Java程序?qū)崿F(xiàn)將質(zhì)量元數(shù)據(jù)中的質(zhì)量類別、質(zhì)量維、質(zhì)量度量指標(biāo)的名稱及相互包含關(guān)系相應(yīng)地賦值至上述數(shù)據(jù)質(zhì)量分面分類層次,各層中全部的數(shù)據(jù)集標(biāo)識(shí)符的線性表均暫置為空;以JSON格式的文件(*.json)持久存儲(chǔ)已構(gòu)建的數(shù)據(jù)質(zhì)量分面分類層次。數(shù)據(jù)質(zhì)量分面分類層次的物化和可視化模塊用于實(shí)現(xiàn)本發(fā)明方法中的步驟S2:根據(jù)數(shù)據(jù)質(zhì)量分面分類層次和用戶搜索數(shù)據(jù)目錄所產(chǎn)生的主題數(shù)據(jù)集物化出一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次,并將其樹形結(jié)構(gòu)在人機(jī)交互界面中進(jìn)行可視化。在系統(tǒng)原型中的實(shí)現(xiàn)技術(shù)為:通過(guò)HTTP請(qǐng)求從數(shù)據(jù)目錄門戶的數(shù)據(jù)集搜索引擎獲取用戶搜索數(shù)據(jù)目錄所搜索到的主題數(shù)據(jù)集,據(jù)此形成一個(gè)主題數(shù)據(jù)集標(biāo)識(shí)符的線性表;讀取已構(gòu)建并存儲(chǔ)的數(shù)據(jù)質(zhì)量分面分類層次JSON格式的文件;使用與數(shù)據(jù)質(zhì)量分面分類層次的構(gòu)建并存儲(chǔ)模塊中相同的方法從數(shù)據(jù)目錄中獲取主題數(shù)據(jù)集標(biāo)識(shí)符的線性表中所有數(shù)據(jù)集的RDF格式的質(zhì)量元數(shù)據(jù),并利用ApacheJena中的核心RDFAPI解析已獲取的RDF格式的質(zhì)量元數(shù)據(jù);通過(guò)Java程序產(chǎn)生一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次;通過(guò)在JavaServerPages(JSP)頁(yè)面中加載Bootstrap前端開發(fā)框架(參見:http://getbootstrap.com/)和JavaScriptjQuery庫(kù)(參見:https://jquery.com/)將特定主題的數(shù)據(jù)質(zhì)量分面分類層次的樹形結(jié)構(gòu)在人機(jī)交互界面中進(jìn)行可視化?;跀?shù)據(jù)質(zhì)量的數(shù)據(jù)集過(guò)濾模塊用于實(shí)現(xiàn)本發(fā)明方法中的步驟S3:根據(jù)用戶在上述樹形結(jié)構(gòu)中選擇的數(shù)據(jù)質(zhì)量分面對(duì)主題數(shù)據(jù)集進(jìn)行基于數(shù)據(jù)質(zhì)量的過(guò)濾,并按用戶選定的方式對(duì)過(guò)濾結(jié)果進(jìn)行排序。在系統(tǒng)原型中的實(shí)現(xiàn)技術(shù)為:使用JavaScript(參見:https://developer.mozilla.org/en-US/docs/Web/JavaScript)的事件驅(qū)動(dòng)編程(event-drivenprogramming)技術(shù)來(lái)實(shí)現(xiàn)對(duì)用戶在數(shù)據(jù)質(zhì)量分面分類層次樹上的鼠標(biāo)點(diǎn)擊事件的監(jiān)聽與響應(yīng),通過(guò)Java程序從特定主題的數(shù)據(jù)質(zhì)量分面分類層次中獲取用戶鼠標(biāo)點(diǎn)擊選取的分面(質(zhì)量類別或質(zhì)量維或質(zhì)量度量指標(biāo))所對(duì)應(yīng)的數(shù)據(jù)集標(biāo)識(shí)符的線性表,將其中的數(shù)據(jù)集標(biāo)識(shí)符賦值給過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表;若用戶選擇的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量度量指標(biāo),則在人機(jī)交互界中向用戶提供對(duì)過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表中的數(shù)據(jù)集按質(zhì)量度量值進(jìn)行排序的選項(xiàng),否則,按數(shù)據(jù)目錄門戶現(xiàn)有的搜索結(jié)果排序方式對(duì)過(guò)濾后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表中的數(shù)據(jù)集進(jìn)行排序(注:主題相關(guān)度順序就是搜索引擎返回的搜索結(jié)果中的順序;數(shù)據(jù)集發(fā)布/更新日期等信息可以從數(shù)據(jù)集元數(shù)據(jù)中獲取,然后據(jù)此對(duì)數(shù)據(jù)集進(jìn)行排序);將排序結(jié)果賦值給過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表。主題數(shù)據(jù)集過(guò)濾并排序結(jié)果的輸出模塊用于實(shí)現(xiàn)本發(fā)明方法中的步驟S4:在人機(jī)交互界面中輸出過(guò)濾并排序后的主題數(shù)據(jù)集信息。在系統(tǒng)原型中的實(shí)現(xiàn)技術(shù)為:使用與數(shù)據(jù)質(zhì)量分面分類層次的構(gòu)建并存儲(chǔ)模塊中相同的方法從數(shù)據(jù)目錄中獲取過(guò)濾并排序后主題數(shù)據(jù)集標(biāo)識(shí)符的線性表中所有數(shù)據(jù)集的標(biāo)題、描述、數(shù)據(jù)格式、發(fā)布者、發(fā)布日期等描述性元數(shù)據(jù)和數(shù)據(jù)集的訪問(wèn)及下載網(wǎng)址等訪問(wèn)元數(shù)據(jù)(均為RDF格式),并利用ApacheJena中的核心RDFAPI進(jìn)行解析,最后通過(guò)Java程序?qū)⒔馕龊蟮脑獢?shù)據(jù)按數(shù)據(jù)集排序結(jié)果的順序在人機(jī)交互界面中呈現(xiàn)(若用于過(guò)濾的數(shù)據(jù)質(zhì)量分面是一個(gè)質(zhì)量度量指標(biāo),則同時(shí)呈現(xiàn)各數(shù)據(jù)集在該質(zhì)量度量指標(biāo)上的用于排序的質(zhì)量度量值)。人機(jī)交互界面用于實(shí)現(xiàn)用戶與該系統(tǒng)之間的人機(jī)交互,包括:用戶在該界面中輸入數(shù)據(jù)集搜索主題、系統(tǒng)在該界面中將一個(gè)特定主題的數(shù)據(jù)質(zhì)量分面分類層次的樹形結(jié)構(gòu)進(jìn)行可視化、用戶在上述可視化的樹形結(jié)構(gòu)中選擇一個(gè)用于過(guò)濾的數(shù)據(jù)質(zhì)量分面并選定主題數(shù)據(jù)集的排序方式、系統(tǒng)在該界面中呈現(xiàn)過(guò)濾并排序后的主題數(shù)據(jù)集信息。在系統(tǒng)原型中的實(shí)現(xiàn)技術(shù)為:人機(jī)交互界面中的內(nèi)容來(lái)自JSP頁(yè)面;使用層疊樣式表(CascadingStyleSheets,CSS)(參見:http://www.w3.org/TR/CSS2/)來(lái)定義JSP頁(yè)面在瀏覽器中的顯示樣式;通過(guò)在JSP頁(yè)面中加載Bootstrap前端開發(fā)框架和JavaScriptjQuery庫(kù)將特定主題的數(shù)據(jù)質(zhì)量分面分類層次的樹形結(jié)構(gòu)在人機(jī)交互界面中進(jìn)行可視化;使用JavaScript的事件驅(qū)動(dòng)編程技術(shù)來(lái)實(shí)現(xiàn)對(duì)用戶在數(shù)據(jù)質(zhì)量分面分類層次樹上的鼠標(biāo)點(diǎn)擊事件的監(jiān)聽與響應(yīng)。作為一個(gè)具體應(yīng)用案例,使用上述已實(shí)現(xiàn)的系統(tǒng)原型來(lái)運(yùn)行前述優(yōu)選實(shí)施例,該系統(tǒng)原型實(shí)現(xiàn)了預(yù)期功能。圖5示出了該系統(tǒng)原型輸出前述優(yōu)選實(shí)施例中一個(gè)主題數(shù)據(jù)集過(guò)濾結(jié)果的人機(jī)交互界面截屏。以這個(gè)數(shù)據(jù)集過(guò)濾結(jié)果為例,假設(shè)某個(gè)用戶特定數(shù)據(jù)質(zhì)量要求是“數(shù)據(jù)集的平均屬性誤用(ldqm:averageAttributeMisuse)必須小于1%(即0.010)”,那么,根據(jù)以上主題數(shù)據(jù)集過(guò)濾結(jié)果,只有數(shù)據(jù)集d4(平均屬性誤用的質(zhì)量度量值為0.005)和d5(平均屬性誤用的質(zhì)量度量值為0.009)是滿足該用戶的以上數(shù)據(jù)質(zhì)量要求的,于是系統(tǒng)原型為該用戶篩選出了數(shù)據(jù)集d4和d5,即使其他數(shù)據(jù)集的“主題相關(guān)度”比d3和d5要高,該用戶也不會(huì)選用它們(例如:數(shù)據(jù)集d2的質(zhì)量度量值大于0.010,不滿足該用戶的質(zhì)量要求;數(shù)據(jù)集d1和d3在該質(zhì)量度量上無(wú)值,用戶無(wú)法確定數(shù)據(jù)集是否滿足其質(zhì)量要求)。以上充分表明了本發(fā)明技術(shù)方案克服了現(xiàn)有主題數(shù)據(jù)集過(guò)濾技術(shù)忽視數(shù)據(jù)質(zhì)量的弊端,方便用戶篩選出符合其特定數(shù)據(jù)質(zhì)量要求的主題數(shù)據(jù)集。以上所述僅是本發(fā)明的部分實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。當(dāng)前第1頁(yè)1 2 3