一種用于數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量的評(píng)估方法

文檔序號(hào)：10612950閱讀：333來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種用于數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量的評(píng)估方法
【專利摘要】本發(fā)明提供了一種用于數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量的評(píng)估方法，包括：獲取在數(shù)據(jù)集上回答自然語言問題時(shí)的問題評(píng)測(cè)集；根據(jù)所述問題評(píng)測(cè)集的問題進(jìn)行總結(jié)和歸納，形成多個(gè)問題模板；以及根據(jù)所述問題模板和使用質(zhì)量度量，將最終的查詢結(jié)果與正確答案進(jìn)行對(duì)比，計(jì)算出查詢結(jié)果的精度、召回率和綜合信息性以便用戶評(píng)估所述數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量。相比于現(xiàn)有技術(shù)，本發(fā)明將數(shù)據(jù)集應(yīng)用于問答系統(tǒng)時(shí)的問題作為使用場(chǎng)景，每個(gè)查詢問題對(duì)應(yīng)于一個(gè)使用場(chǎng)景，并通過可查詢性度量在數(shù)據(jù)集上構(gòu)建查詢的難以程度，以及通過信息性度量特定的使用場(chǎng)景中的查詢結(jié)果所包含的信息量，從而可操作地評(píng)估數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量。
【專利說明】
一種用于數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量的評(píng)估方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種數(shù)據(jù)質(zhì)量評(píng)估技術(shù)，尤其涉及一種用于數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量的評(píng)估方法。
【背景技術(shù)】
[0002] 近些年，各種數(shù)據(jù)源在網(wǎng)上大量發(fā)布，不同數(shù)據(jù)源中的實(shí)例可能會(huì)指向現(xiàn)實(shí)世界中的同一實(shí)體，使得不同的數(shù)據(jù)源彼此關(guān)聯(lián)。例如，這些數(shù)據(jù)源不僅包括百科類的通用數(shù)據(jù) 集，也包括一些特殊領(lǐng)域的數(shù)據(jù)集(諸如醫(yī)療領(lǐng)域、金融領(lǐng)域等）。然而，上述數(shù)據(jù)源中的數(shù) 據(jù)往往會(huì)存在這樣或那樣的質(zhì)量問題，比如，數(shù)據(jù)的不一致性、不完整性或不準(zhǔn)確性等。因此，了解數(shù)據(jù)集的數(shù)據(jù)質(zhì)量是使用數(shù)據(jù)集的一個(gè)重要前提。針對(duì)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量，現(xiàn)有的大量文獻(xiàn)提出了不同的度量，例如，數(shù)據(jù)復(fù)雜度、鏈接質(zhì)量、標(biāo)簽質(zhì)量等等。在一篇有關(guān)數(shù)據(jù) 質(zhì)量的文獻(xiàn)中，其將現(xiàn)有的數(shù)據(jù)質(zhì)量的度量總結(jié)為68個(gè)度量，并將這些度量分成若干個(gè)維度，這些維度可以是數(shù)據(jù)的可用性、數(shù)據(jù)的固有特性、數(shù)據(jù)表示方面的特性。然而，上述總結(jié) 的這些度量并未從用戶的視角考慮，而且也沒有對(duì)數(shù)據(jù)集的使用性進(jìn)行實(shí)際地度量。
[0003] 此外，盡管現(xiàn)有的大量數(shù)據(jù)質(zhì)量研究都認(rèn)同數(shù)據(jù)質(zhì)量是數(shù)據(jù)在特定應(yīng)用場(chǎng)景下的適合使用性這一說法，但是現(xiàn)有的數(shù)據(jù)質(zhì)量并沒有與這個(gè)定義相關(guān)的度量或者模型。有鑒于此，如何設(shè)計(jì)一種能夠有效度量和評(píng)估數(shù)據(jù)集中的數(shù)據(jù)使用質(zhì)量的解決方案，以便反映數(shù)據(jù)在被用戶使用過程中的特性，進(jìn)而從用戶使用層面來體現(xiàn)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量，是相關(guān) 技術(shù)人員面臨的一項(xiàng)課題。

【發(fā)明內(nèi)容】

[0004] 依據(jù)本發(fā)明的一個(gè)方面，提供了一種用于數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量的評(píng)估方法，包括以下步驟：
[0005] 獲取在數(shù)據(jù)集上回答自然語言問題時(shí)的問題評(píng)測(cè)集；
[0006] 根據(jù)所述問題評(píng)測(cè)集的問題進(jìn)行總結(jié)和歸納，形成多個(gè)問題模板；以及
[0007] 根據(jù)所述問題模板和使用質(zhì)量度量，將最終的查詢結(jié)果與正確答案進(jìn)行對(duì)比，計(jì) 算出查詢結(jié)果的精度、召回率和綜合信息性以便用戶評(píng)估所述數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量。
[0008] 在其中的一實(shí)施例，所述使用質(zhì)量度量包括兩個(gè)維度:可查詢性和信息性，其中所述可查詢性用于度量用戶針對(duì)所述自然語言問題在所述數(shù)據(jù)集上構(gòu)建出一個(gè)正確查詢的難易程度;所述信息性用于度量所述自然語言問題中的查詢結(jié)果所包含的信息量。
[0009] 在其中的一實(shí)施例，所述可查詢性包含構(gòu)建查詢的難易等級(jí)、構(gòu)建查詢花費(fèi)的時(shí) 間、在域上構(gòu)造查詢的時(shí)間、在屬性約束上構(gòu)造查詢的時(shí)間以及構(gòu)建查詢的嘗試次數(shù)。
[0010] 在其中的一實(shí)施例，所述信息性包含信息性等級(jí)、精度、召回率和綜合信息性。
[0011] 在其中的一實(shí)施例，所述綜合信息性滿足下列公式：
[0012] €1 ^ X (?5
[0013] 其中，CI表示綜合信息性，NCA表示查詢結(jié)果中的正確答案數(shù)量，ΝΑ表示問題的標(biāo) 準(zhǔn)答案的數(shù)量，A表示查詢結(jié)果的總數(shù)，α表示數(shù)據(jù)集的數(shù)據(jù)正確度，β表示數(shù)據(jù)集的數(shù)據(jù)可理解程度，NCA/NA表示查詢結(jié)果的精度，NCA/A表示查詢結(jié)果的召回率。
[0014] 在其中的一實(shí)施例，數(shù)據(jù)集的數(shù)據(jù)正確度α為0.8,數(shù)據(jù)集的數(shù)據(jù)可理解程度β為 0.8〇
[0015] 在其中的一實(shí)施例，上述獲取所述問題評(píng)測(cè)集的步驟通過以下任意一項(xiàng)實(shí)現(xiàn)：
[0016] -從所述數(shù)據(jù)集的應(yīng)用領(lǐng)域獲取標(biāo)準(zhǔn)問題的集合；
[0017] -從所述數(shù)據(jù)集相關(guān)的網(wǎng)絡(luò)平臺(tái)獲取問題；
[0018] -數(shù)據(jù)使用質(zhì)量的評(píng)估人員自定義問題。
[0019] 在其中的一實(shí)施例，上述根據(jù)所述問題評(píng)測(cè)集的問題進(jìn)行總結(jié)和歸納的步驟還包括:將問題轉(zhuǎn)化為數(shù)據(jù)集上可執(zhí)行的查詢;根據(jù)所述查詢的結(jié)構(gòu)對(duì)查詢進(jìn)行分類，獲得分類結(jié)果；以及根據(jù)分類結(jié)果形成所述問題模板。
[0020] 在其中的一實(shí)施例，上述將問題轉(zhuǎn)化為數(shù)據(jù)集上可執(zhí)行的查詢包括:設(shè)定所述問題所屬的域，以定義在域上構(gòu)造查詢的時(shí)間Ta;添加所述問題的屬性約束，以定義在屬性約束上構(gòu)造查詢的時(shí)間T b;以及根據(jù)所述問題的域和屬性約束，自動(dòng)構(gòu)建與所述問題相對(duì)應(yīng) 的查詢并在所述數(shù)據(jù)集上執(zhí)行所述查詢，其中，構(gòu)建查詢的時(shí)間T滿足下列公式：
[0021] T = N0A*(Ta+Tb)；
[0022] 在此，Ν0Α表示構(gòu)造查詢的嘗試次數(shù)。
[0023] 在其中的一實(shí)施例，所述數(shù)據(jù)集上執(zhí)行所構(gòu)建的查詢時(shí)，當(dāng)查詢結(jié)果不存在或者不正確時(shí)，依次重新設(shè)定所述問題所屬的域和屬性約束。
[0024] 相比于現(xiàn)有技術(shù)，本發(fā)明在評(píng)估數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量時(shí)，獲取在數(shù)據(jù)集上回答自然語言問題時(shí)的問題評(píng)測(cè)集，然后根據(jù)問題評(píng)測(cè)集的問題進(jìn)行總結(jié)和歸納從而形成多個(gè) 問題模板，最后利用問題模板和使用質(zhì)量度量，將最終的查詢結(jié)果與正確答案進(jìn)行對(duì)比，計(jì) 算出查詢結(jié)果的精度、召回率和綜合信息性以便用戶評(píng)估數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量。如此一來，本發(fā)明將數(shù)據(jù)集應(yīng)用于問答系統(tǒng)時(shí)的問題作為使用場(chǎng)景，每個(gè)查詢問題對(duì)應(yīng)于一個(gè)使用場(chǎng)景，通過使用質(zhì)量度量之一個(gè)維度的可查詢性來度量在數(shù)據(jù)集上構(gòu)建查詢的難以程度，并通過使用質(zhì)量度量之另一個(gè)維度的信息性來度量特定的使用場(chǎng)景中的查詢結(jié)果所包含的信息量，從而利用可查詢性和信息性來可操作地評(píng)估數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量。
【附圖說明】
[0025] 讀者在參照附圖閱讀了本發(fā)明的【具體實(shí)施方式】以后，將會(huì)更清楚地了解本發(fā)明的各個(gè)方面。其中，
[0026] 圖1示出依據(jù)本發(fā)明的一實(shí)施方式，用于數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量的評(píng)估方法的流程框圖。
【具體實(shí)施方式】
[0027] 為了使本申請(qǐng)所揭示的技術(shù)內(nèi)容更加詳盡與完備，可參照附圖以及本發(fā)明的下述各種具體實(shí)施例，附圖中相同的標(biāo)記代表相同或相似的組件。然而，本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解，下文中所提供的實(shí)施例并非用來限制本發(fā)明所涵蓋的范圍。此外，附圖僅僅用于示意性地加以說明，并未依照其原尺寸進(jìn)行繪制。
[0028] 下面參照附圖，對(duì)本發(fā)明各個(gè)方面的【具體實(shí)施方式】作進(jìn)一步的詳細(xì)描述。
[0029] 圖1示出依據(jù)本發(fā)明的一實(shí)施方式，用于數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量的評(píng)估方法的流程框圖。
[0030] 參照?qǐng)D1，在該實(shí)施方式中，數(shù)據(jù)使用質(zhì)量的評(píng)估方法通過步驟S1~S3予以實(shí)現(xiàn)。首先，在步驟S1中，獲取在數(shù)據(jù)集上回答自然語言問題時(shí)的問題評(píng)測(cè)集;其次，在步驟S2中，根據(jù)所獲取的問題評(píng)測(cè)集的問題進(jìn)行總結(jié)和歸納，形成多個(gè)問題模板;最后，在步驟S3中，根據(jù)問題模板和使用質(zhì)量度量，將最終的查詢結(jié)果與正確答案進(jìn)行對(duì)比，計(jì)算出查詢結(jié)果的精度、召回率和綜合信息性以便用戶評(píng)估數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量。
[0031] 獲取問題評(píng)測(cè)集
[0032] 在現(xiàn)有技術(shù)中，可以使用的數(shù)據(jù)集包括與領(lǐng)域無關(guān)的通用數(shù)據(jù)集和與領(lǐng)域相關(guān)的數(shù)據(jù)集。一般來說，通用數(shù)據(jù)集是指綜合性的數(shù)據(jù)集，如百度百科上的數(shù)據(jù)。領(lǐng)域相關(guān)的數(shù) 據(jù)集是指特定領(lǐng)域的數(shù)據(jù)集，如海洋領(lǐng)域、醫(yī)療領(lǐng)域。通用數(shù)據(jù)集包含的范圍一般都比較廣，但是知識(shí)的粒度比較粗。而特定領(lǐng)域的數(shù)據(jù)集由于聚焦于某一專業(yè)領(lǐng)域，雖然知識(shí)的廣度沒有通用數(shù)據(jù)集大，但是其知識(shí)粒度則要詳細(xì)很多。在現(xiàn)有的數(shù)據(jù)質(zhì)量研究以及數(shù)據(jù)的使用研究中往往都是側(cè)重于通用數(shù)據(jù)集的數(shù)據(jù)質(zhì)量，所以面向通用數(shù)據(jù)集有很多相關(guān)的問題集合可供使用，例如，在通用數(shù)據(jù)集的問答領(lǐng)域中的問題測(cè)試集：一個(gè)來自Question Answering over Linked Data(QALD)，另一個(gè)來自 Stanford的NLP實(shí)驗(yàn)室的WebQuestions。這兩個(gè)問題測(cè)試集都是數(shù)據(jù)集使用的標(biāo)準(zhǔn)問題集合。此外，問題測(cè)試集中的問題還可從數(shù) 據(jù)集相關(guān)的網(wǎng)絡(luò)平臺(tái)（比如數(shù)據(jù)集相關(guān)的論壇/社區(qū)）獲取，或者也可由使用質(zhì)量評(píng)估人員自定義問題。
[0033]獲取問題評(píng)測(cè)集中的問題模板
[0034] 在獲得問題評(píng)測(cè)集之后，需對(duì)其中的問題進(jìn)行總結(jié)和歸納，形成基本的問題模板。現(xiàn)有技術(shù)中，很多的數(shù)據(jù)質(zhì)量評(píng)測(cè)人員或用戶并不熟悉SQL查詢語言，本發(fā)明為提高數(shù)據(jù)使用質(zhì)量評(píng)估方法的易使用性，將問題評(píng)測(cè)集中的問題歸納為特定的模板，每一個(gè)模板對(duì)應(yīng) 同一類的SQL查詢。這樣，當(dāng)用戶需要在數(shù)據(jù)集上構(gòu)建查詢時(shí)，只需根據(jù)具體的數(shù)據(jù)集將歸納好的模板中的特定參數(shù)填入，即可得到在數(shù)據(jù)集上可執(zhí)行的查詢，并不需要評(píng)測(cè)人員再自行構(gòu)建查詢。
[0035] 以下通過表1來說明根據(jù)問題評(píng)測(cè)集的問題所歸納出的多個(gè)基本模板
[0036] 表1
[0037]
[0038] 例如，若問題為""請(qǐng)給出所有企業(yè)的相關(guān)信息"，則可將該問題歸納為域模板，對(duì) 應(yīng)的描述是查詢某一個(gè)表的所有信息。又如，若問題為"請(qǐng)給出某生于1945年的總統(tǒng)"，則可將該問題歸納為特定屬性值模板，對(duì)應(yīng)的描述是查詢某個(gè)表中某一字段值等于給定值的實(shí) 體（g卩，所有總統(tǒng)的出生年份字段等于1945的總統(tǒng)）。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，表1中的模板僅僅只是示意性的若干基本問題模板，這些基本問題模板之間還可以再組合從而得到更加復(fù)雜的模板。當(dāng)評(píng)測(cè)人員根據(jù)數(shù)據(jù)集中的數(shù)據(jù)的具體情況對(duì)這些模板進(jìn)行實(shí)例化(將相應(yīng)參數(shù)填入），就得到了可執(zhí)行的SQL查詢。
[0039] 在本發(fā)明的數(shù)據(jù)使用質(zhì)量評(píng)估過程中，獲得問題評(píng)測(cè)集和相應(yīng)的問題模板之后，就能對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行數(shù)據(jù)使用質(zhì)量的評(píng)估。
[0040] 定義數(shù)據(jù)使用質(zhì)量的度量
[0041] 在本發(fā)明中，
【申請(qǐng)人】開拓性地設(shè)計(jì)了數(shù)據(jù)使用質(zhì)量的新度量，其包括兩個(gè)維度:可查詢性和信息性。其中，可查詢性用于度量用戶針對(duì)自然語言問題在數(shù)據(jù)集上構(gòu)建出一個(gè) 正確查詢的難易程度。信息性用于度量自然語言問題中的查詢結(jié)果所包含的信息量。數(shù)據(jù) 的使用質(zhì)量反映評(píng)測(cè)人員或用戶在使用數(shù)據(jù)集時(shí)數(shù)據(jù)集自身表現(xiàn)出的特性。因此，數(shù)據(jù)使用質(zhì)量對(duì)應(yīng)于不同的使用場(chǎng)景。然而，在現(xiàn)有的數(shù)據(jù)質(zhì)量模型中并未定義什么是使用場(chǎng)景。
[0042] 數(shù)據(jù)集的一個(gè)重要應(yīng)用領(lǐng)域是問答系統(tǒng)，即在數(shù)據(jù)集上搜索現(xiàn)實(shí)中的若干問題的答案。本發(fā)明將這些問題作為使用場(chǎng)景，一個(gè)查詢問題就是一個(gè)使用場(chǎng)景。此外，問答系統(tǒng) 中的兩個(gè)重要過程是查詢和回答。在查詢上，本發(fā)明使用可查詢性來度量在數(shù)據(jù)集上構(gòu)建查詢的難易程度;在回答上，本發(fā)明使用信息性來度量自然語言問題中的查詢結(jié)果所包含的信息量，評(píng)測(cè)人員或用戶根據(jù)信息量的多少確定查詢結(jié)果的滿意度。由上述可知，本發(fā)明的可查詢性度量和信息性度量反映了用戶對(duì)數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量，是特定場(chǎng)景下的數(shù)據(jù) 質(zhì)量，它們聚焦于查詢的構(gòu)建過程以及查詢的結(jié)果。
[0043] 在數(shù)據(jù)集上進(jìn)行自然語言問題的問答，主要就是依據(jù)自然語言問題構(gòu)建出相應(yīng)的 SQL查詢，主要包括三個(gè)步驟：首先，理解問題，找到問題的模板。例如，問題"誰是abe lincoln的妻子? "包含了查詢中的主語以及謂語，答案是賓語。但是，對(duì)于問題"請(qǐng)給出所有的俄羅斯女性宇航員"就比較復(fù)雜了，首先答案應(yīng)該是宇航員（宇航員應(yīng)該是數(shù)據(jù)集的一個(gè) 表，將查詢所要執(zhí)行的表稱為域），另外需要添加屬性約束，性別為女性且國籍為俄羅斯;然后，找到數(shù)據(jù)集中對(duì)應(yīng)的詞匯。例如，"妻子"在數(shù)據(jù)集中對(duì)應(yīng)的屬性并不一定是"wife"，也可能是"spouse"。不同的數(shù)據(jù)集其數(shù)據(jù)的表述方式有可能會(huì)不一樣。另外，對(duì)于問題"請(qǐng)給出所有的俄羅斯女性宇航員"，相應(yīng)的域(即要查詢的表)可能會(huì)是"astronauts"，也可能是 "Russian astronauts"。不同的數(shù)據(jù)集對(duì)表的分類的復(fù)雜程度也可能會(huì)不一樣;最后，將前面兩步的結(jié)果構(gòu)造一個(gè)SQL查詢，在數(shù)據(jù)集上執(zhí)行后就可得到問題的答案?；谝陨蠈?duì)問答過程的分析，進(jìn)一步理解本發(fā)明的數(shù)據(jù)使用質(zhì)量的維度:可查詢性和信息性。
[0044] 可查詢性:可查詢性度量用戶針對(duì)使用場(chǎng)景在數(shù)據(jù)集上構(gòu)建出一個(gè)正確查詢的難易程度。較佳地，可查詢性度量包括構(gòu)建查詢的難易等級(jí)、構(gòu)建查詢花費(fèi)的時(shí)間（在域上構(gòu) 造查詢的時(shí)間及在屬性約束上構(gòu)造查詢的時(shí)間）、構(gòu)建查詢嘗試的次數(shù)。
[0045] 從主觀和客觀上來劃分，主觀度量包括構(gòu)建SQL查詢的難易等級(jí)，評(píng)估人員需根據(jù) 自己的評(píng)估過程給出一個(gè)反饋。當(dāng)評(píng)測(cè)人員完成查詢的構(gòu)建后，就給出一個(gè)評(píng)分來度量其構(gòu)建過程的難易程度。例如，難易程度表征為五個(gè)等級(jí)：1)非常容易；2)容易；3)-般;4)困難;5)非常困難。客觀度量包括構(gòu)建查詢花費(fèi)的時(shí)間以及構(gòu)建查詢嘗試的次數(shù)。
[0046] 詳細(xì)而言，本發(fā)明使用構(gòu)建查詢的時(shí)間T、在域上構(gòu)造查詢的時(shí)間Ta以及在屬性約束上構(gòu)造查詢的時(shí)間T b來度量構(gòu)建查詢花費(fèi)的時(shí)間T，并使用構(gòu)建查詢的次數(shù)Ν0Α來衡量構(gòu) 建嘗試的次數(shù)。其中，構(gòu)建查詢的時(shí)間T等于NOA*(T a+Tb)。例如，在域上構(gòu)造查詢的時(shí)間Ta和在屬性約束上構(gòu)造查詢的時(shí)間T b都是構(gòu)造查詢分別在域上和屬性約束上花費(fèi)的平均時(shí)間。即，對(duì)于一個(gè)問題，如果評(píng)估人員構(gòu)建多次查詢，Ta和T b則是這幾次構(gòu)建查詢的平均時(shí)間，平均時(shí)間能夠很好地度量在域上和屬性約束上時(shí)間的花費(fèi)情況，而構(gòu)造查詢的時(shí)間T則是這幾次構(gòu)建查詢所花費(fèi)的時(shí)間總和，以便從整體對(duì)構(gòu)建查詢的花費(fèi)時(shí)間進(jìn)行衡量。
[0047] 基于以上對(duì)問題的分析，將問題轉(zhuǎn)化為數(shù)據(jù)集上可執(zhí)行的查詢可包括步驟:設(shè)定問題所屬的域，以定義在域上構(gòu)造查詢的時(shí)間T a;添加問題的屬性約束，以定義在屬性約束上構(gòu)造查詢的時(shí)間Tb;以及根據(jù)問題的域和屬性約束，自動(dòng)構(gòu)建與問題相對(duì)應(yīng)的查詢并在數(shù)據(jù)集上執(zhí)行所構(gòu)建的查詢。其中，T a和數(shù)據(jù)集對(duì)表的分類的復(fù)雜程度有關(guān)系，分類系統(tǒng)的復(fù)雜以及描述類的詞匯很特殊都會(huì)導(dǎo)致1比較大;Tb和數(shù)據(jù)集中的屬性有很大的關(guān)系，屬性的冗余以及屬性的歧義、含義模糊等會(huì)致使T b偏大。一般來說，構(gòu)建查詢的時(shí)間T越大，表明構(gòu)建查詢的過程越困難。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，設(shè)定問題所屬的域以及屬性約束并不一定必須要執(zhí)行，這取決于問題本身。例如，有些問題集中的問題不需要對(duì)屬性約束進(jìn)行設(shè)定（諸如，在通用數(shù)據(jù)集得到所有企業(yè)的相關(guān)信息即可得到企業(yè)這個(gè)數(shù)據(jù)表的所有信息），這種情況下并不需要添加任何屬性約束，只需要設(shè)定企業(yè)這個(gè)域即可。又如，有些問題并不需要對(duì)域進(jìn)行設(shè)定(諸如，在企業(yè)信息數(shù)據(jù)集了解某一個(gè)企業(yè)的員工數(shù)量，只需添加與員工數(shù)量相對(duì)應(yīng)的屬性約束）。
[0048] 此外，需要說明的是，即使用戶構(gòu)建出在數(shù)據(jù)集上的查詢，在執(zhí)行查詢之后，可能并沒有查詢結(jié)果返回或者查詢結(jié)果不對(duì)。例如，構(gòu)建出的查詢存在問題，查詢根本得不出任何結(jié)果;或者，查詢正確，但是數(shù)據(jù)集本身就沒有答案。在這種情形下，仍然需要用戶重新構(gòu) 建查詢，直到返回查詢結(jié)果，或者構(gòu)建查詢嘗試到一定的次數(shù)停止。從這個(gè)意義上說，構(gòu)建查詢的次數(shù)也能夠反映構(gòu)建查詢的難易程度，次數(shù)越多表明越難構(gòu)建。
[0049] 信息性:查詢?cè)跀?shù)據(jù)集上執(zhí)行之后，得到查詢結(jié)果。查詢結(jié)果的正確與否反映了數(shù) 據(jù)集中的數(shù)據(jù)的信息性。正因如此，信息性度量查詢結(jié)果對(duì)用戶是否有益，包含多少有價(jià)值的信息。較佳地，信息性度量包括信息性等級(jí)、精度、召回率和綜合信息性。
[0050] 從主觀和客觀上來劃分，主觀度量包括信息性等級(jí)，是評(píng)測(cè)人員對(duì)查詢結(jié)果所含信息量的評(píng)分。例如，評(píng)分同樣有五個(gè)等級(jí)：1)很少信息；2)少量信息;3)-些信息;4)很多信息；5)大量信息。這五個(gè)等級(jí)表示的信息量逐級(jí)增多?？陀^度量包括精度、召回率和綜合信息性，依據(jù)問題的標(biāo)準(zhǔn)答案進(jìn)行計(jì)算從而度量查詢結(jié)果。
[0051]詳細(xì)而言，精度是指查詢結(jié)果中的正確結(jié)果占查詢結(jié)果的比例，精度度量查詢結(jié) 果的正確度。召回率是指查詢結(jié)果中的正確結(jié)果占所有正確結(jié)果的比例，召回率度量查詢結(jié)果的覆蓋程度。由于查詢結(jié)果的精度和召回率對(duì)于本領(lǐng)域的技術(shù)人員是熟知的，以下特別對(duì)綜合信息性度量進(jìn)行說明。
[0052]綜合信息性(CI)是一個(gè)綜合性的度量，它集成了影響評(píng)測(cè)人員理解查詢結(jié)果的幾個(gè)不同因素。這些因素不僅包括查詢結(jié)果的精度和召回率，還包括數(shù)據(jù)集中的數(shù)據(jù)正確性，也包括數(shù)據(jù)集中的數(shù)據(jù)的可理解程度。在此，綜合信息性滿足下列公式：
[0053]
[0054]其中，CI表示綜合信息性，NCA表示查詢結(jié)果中的正確答案數(shù)量，NA表示問題的標(biāo) 準(zhǔn)答案的數(shù)量，A表示查詢結(jié)果的總數(shù)，α表示數(shù)據(jù)集的數(shù)據(jù)正確度，β表示數(shù)據(jù)集的數(shù)據(jù)可理解程度，NCA/NA表示查詢結(jié)果的精度，NCA/A表示查詢結(jié)果的召回率。使用平方函數(shù)是為了懲罰不相關(guān)的查詢結(jié)果（即錯(cuò)誤結(jié)果）。例如，可將數(shù)據(jù)集的數(shù)據(jù)正確度α設(shè)為0.8。此外，β 是數(shù)據(jù)集中的數(shù)據(jù)可理解性，它反映數(shù)據(jù)是否是可讀的，可將其也設(shè)置為一個(gè)常數(shù)〇. 8。
[0055] 相比于現(xiàn)有技術(shù)，本發(fā)明在評(píng)估數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量時(shí)，獲取在數(shù)據(jù)集上回答自然語言問題時(shí)的問題評(píng)測(cè)集，然后根據(jù)問題評(píng)測(cè)集的問題進(jìn)行總結(jié)和歸納從而形成多個(gè) 問題模板，最后利用問題模板和使用質(zhì)量度量，將最終的查詢結(jié)果與正確答案進(jìn)行對(duì)比，計(jì) 算出查詢結(jié)果的精度、召回率和綜合信息性以便用戶評(píng)估數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量。如此一來，本發(fā)明將數(shù)據(jù)集應(yīng)用于問答系統(tǒng)時(shí)的問題作為使用場(chǎng)景，每個(gè)查詢問題對(duì)應(yīng)于一個(gè)使用場(chǎng)景，通過使用質(zhì)量度量之一個(gè)維度的可查詢性來度量在數(shù)據(jù)集上構(gòu)建查詢的難以程度，并通過使用質(zhì)量度量之另一個(gè)維度的信息性來度量特定的使用場(chǎng)景中的查詢結(jié)果所包含的信息量，從而利用可查詢性和信息性來可操作地評(píng)估數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量。
[0056] 上文中，參照附圖描述了本發(fā)明的【具體實(shí)施方式】。但是，本領(lǐng)域中的普通技術(shù)人員能夠理解，在不偏離本發(fā)明的精神和范圍的情況下，還可以對(duì)本發(fā)明的【具體實(shí)施方式】作各種變更和替換。這些變更和替換都落在本發(fā)明權(quán)利要求書所限定的范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種用于數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量的評(píng)估方法，其特征在于，該評(píng)估方法包括W下步驟：獲取在數(shù)據(jù)集上回答自然語言問題時(shí)的問題評(píng)測(cè)集；根據(jù)所述問題評(píng)測(cè)集的問題進(jìn)行總結(jié)和歸納，形成多個(gè)問題模板；W及根據(jù)所述問題模板和使用質(zhì)量度量，將最終的查詢結(jié)果與正確答案進(jìn)行對(duì)比，計(jì)算出查詢結(jié)果的精度、召回率和綜合信息性W便用戶評(píng)估所述數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量。2. 如權(quán)利要求1所述的評(píng)估方法，其特征在于，所述使用質(zhì)量度量包括兩個(gè)維度:可查詢性和信息性，其中，所述可查詢性用于度量用戶針對(duì)所述自然語言問題在所述數(shù)據(jù)集上構(gòu)建出一個(gè)正確查詢的難易程度;所述信息性用于度量所述自然語言問題中的查詢結(jié)果所包含的信息量。3. 如權(quán)利要求2所述的評(píng)估方法，其特征在于，所述可查詢性包含構(gòu)建查詢的難易等級(jí)、構(gòu)建查詢花費(fèi)的時(shí)間、在域上構(gòu)造查詢的時(shí)間、在屬性約束上構(gòu)造查詢的時(shí)間W及構(gòu)建查詢的嘗試次數(shù)。4. 如權(quán)利要求2所述的評(píng)估方法，其特征在于，所述信息性包含信息性等級(jí)、精度、召回率和綜合信息性。5. 如權(quán)利要求4所述的評(píng)估方法，其特征在于，所述綜合信息性滿足下列公式：其中，CI表示綜合信息性，NCA表示查詢結(jié)果中的正確答案數(shù)量，NA表示問題的標(biāo)準(zhǔn)答案的數(shù)量，A表示查詢結(jié)果的總數(shù)，α表示數(shù)據(jù)集的數(shù)據(jù)正確度，β表示數(shù)據(jù)集的數(shù)據(jù)可理解程度，NCA/NA表示查詢結(jié)果的精度，NCA/A表示查詢結(jié)果的召回率。6. 如權(quán)利要求5所述的評(píng)估方法，其特征在于，數(shù)據(jù)集的數(shù)據(jù)正確度α為0.8,數(shù)據(jù)集的數(shù)據(jù)可理解程度β為0.8。7. 如權(quán)利要求1所述的評(píng)估方法，其特征在于，上述獲取所述問題評(píng)測(cè)集的步驟通過W 下任意一項(xiàng)實(shí)現(xiàn)： -從所述數(shù)據(jù)集的應(yīng)用領(lǐng)域獲取標(biāo)準(zhǔn)問題的集合； -從所述數(shù)據(jù)集相關(guān)的網(wǎng)絡(luò)平臺(tái)獲取問題； -數(shù)據(jù)使用質(zhì)量的評(píng)估人員自定義問題。8. 如權(quán)利要求1所述的評(píng)估方法，其特征在于，上述根據(jù)所述問題評(píng)測(cè)集的問題進(jìn)行總結(jié)和歸納的步驟還包括：將問題轉(zhuǎn)化為數(shù)據(jù)集上可執(zhí)行的查詢；根據(jù)所述查詢的結(jié)構(gòu)對(duì)查詢進(jìn)行分類，獲得分類結(jié)果；W及根據(jù)分類結(jié)果形成所述問題模板。9. 如權(quán)利要求8所述的評(píng)估方法，其特征在于，上述將問題轉(zhuǎn)化為數(shù)據(jù)集上可執(zhí)行的查詢包括：設(shè)定所述問題所屬的域，W定義在域上構(gòu)造查詢的時(shí)間Ta; 添加所述問題的屬性約束，W定義在屬性約束上構(gòu)造查詢的時(shí)間Tb; W及根據(jù)所述問題的域和屬性約束，自動(dòng)構(gòu)建與所述問題相對(duì)應(yīng)的查詢并在所述數(shù)據(jù)集上執(zhí)行所述查詢，其中，構(gòu)建查詢的時(shí)間T滿足下列公式： T = NOA*(TaWb); 在此，NOA表示構(gòu)造查詢的嘗試次數(shù)。10.如權(quán)利要求9所述的評(píng)估方法，其特征在于，在所述數(shù)據(jù)集上執(zhí)行所構(gòu)建的查詢時(shí)，當(dāng)查詢結(jié)果不存在或者不正確時(shí)，依次重新設(shè)定所述問題所屬的域和屬性約束。
【文檔編號(hào)】G06F17/30GK105975631SQ201610389829
【公開日】2016年9月28日
【申請(qǐng)日】2016年6月3日
【發(fā)明人】阮彤, 甘似禹, 葉琪, 李陽, 趙亮
【申請(qǐng)人】華東理工大學(xué), 上海億通國際股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：阮彤;甘似禹;葉琪;李陽;趙亮;
技術(shù)所有人：華東理工大學(xué);上海億通國際股份有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

數(shù)據(jù)質(zhì)量評(píng)估方法相關(guān)技術(shù)

數(shù)據(jù)質(zhì)量評(píng)估相關(guān)技術(shù)

數(shù)據(jù)質(zhì)量評(píng)估報(bào)告相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于數(shù)據(jù)集的數(shù)據(jù)使用質(zhì)量的評(píng)估方法