本發(fā)明涉及數(shù)據(jù)質(zhì)量評估技術(shù)領(lǐng)域,具體涉及一種基于熵權(quán)法的通用數(shù)據(jù)質(zhì)量評估方法。
背景技術(shù):
長期以來,由于數(shù)據(jù)質(zhì)量涉及包括業(yè)務(wù)在內(nèi)的多種復(fù)雜因素,很難使用一種通用的方法進行評估,目前普遍采用的是基于核查規(guī)則的方式,通過在數(shù)據(jù)準確性、完整性、及時性、一致性等質(zhì)量維度下定義核查規(guī)則,計算通過核查規(guī)則驗證的數(shù)據(jù)量占總數(shù)據(jù)量的比重評估和量化數(shù)據(jù)質(zhì)量,采用該方式,主要存在以下問題:1、管理與維護大量與業(yè)務(wù)相關(guān)的數(shù)據(jù)質(zhì)量規(guī)則超出了IT部門的工作范圍與能力范圍;2、復(fù)雜的規(guī)則配置操作使業(yè)務(wù)部門望而生畏;3、數(shù)據(jù)質(zhì)量規(guī)則基于具體的數(shù)據(jù)項定義,且同一數(shù)據(jù)項往往涉在不同維度涉及多項質(zhì)量規(guī)則,維護工作繁瑣、量大。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種基于熵權(quán)法的通用數(shù)據(jù)質(zhì)量評估方法,解決數(shù)據(jù)質(zhì)量核查規(guī)則維護管理工作量大、核查算法復(fù)用困難等問題。
為實現(xiàn)上述目的,本發(fā)明采用了以下技術(shù)方案:
一種基于熵權(quán)法的通用數(shù)據(jù)質(zhì)量評估方法,包括以下步驟:
(1)根據(jù)評估指標,建立指標數(shù)據(jù)質(zhì)量評估模型;
(2)根據(jù)評估指標模型,結(jié)合數(shù)據(jù)質(zhì)量評估場景,優(yōu)化評估指標權(quán)重;
(3)應(yīng)用評估模型核查數(shù)據(jù)質(zhì)量。
所述指標包括合規(guī)性、及時性、準確性、一致性和完整性。
所述合規(guī)性指標的數(shù)據(jù)質(zhì)量評估模型,采用以下公式:
其中,Sda表示合規(guī)率,n表示評估數(shù)據(jù)表個數(shù),Ddq表示一個數(shù)據(jù)中違反規(guī)則的記錄或字段個數(shù),Cr表示一個數(shù)據(jù)表的實際記錄或字段個數(shù)。
所述及時性指標的數(shù)據(jù)質(zhì)量評估模型,采用以下公式:
其中,Stt表示數(shù)據(jù)表及時率,Tq表示違反規(guī)則的數(shù)據(jù)表個數(shù),n表示評估數(shù)據(jù)表個數(shù)。
所述準確性指標的數(shù)據(jù)質(zhì)量評估模型,采用以下公式:
其中,S′da表示準確率,n表示評估數(shù)據(jù)表個數(shù),Ddq表示一個數(shù)據(jù)中違反規(guī)則的記錄或字段個數(shù),Cr表示一個數(shù)據(jù)表的實際記錄或字段個數(shù)。
所述一致性指標的數(shù)據(jù)質(zhì)量評估模型,采用以下公式:
其中,Sdcons表示一致率,n表示評估數(shù)據(jù)表個數(shù),D′dq表示一個數(shù)據(jù)中違反規(guī)則的記錄個數(shù),Cr′表示一個數(shù)據(jù)表的實際記錄個數(shù)。
所述完整性指標的數(shù)據(jù)質(zhì)量評估模型,采用以下公式:
其中,Sdcom表示完整率,n表示評估數(shù)據(jù)表個數(shù),Ddq表示一個數(shù)據(jù)中違反規(guī)則的記錄或字段個數(shù),Cr表示一個數(shù)據(jù)表的實際記錄或字段個數(shù)。
上述步驟中,步驟(2),所述根據(jù)評估指標模型,結(jié)合數(shù)據(jù)質(zhì)量評估場景,優(yōu)化評估指標權(quán)重,具體包括以下步驟:
(21)應(yīng)用專家評分法確定各項數(shù)據(jù)質(zhì)量度量指標對核查對象的適用程度;
(22)通過數(shù)據(jù)標準化消除專家評分過程中的個性化差異;
(23)通過信息熵評估各項數(shù)據(jù)質(zhì)量度量指標包含的信息量;
(24)綜合適用程度和信息量得到指標權(quán)重。
上述步驟中,步驟(3),所述應(yīng)用評估模型核查數(shù)據(jù)質(zhì)量,具體包括以下步驟:
(31)根據(jù)指標數(shù)據(jù)質(zhì)量評估模型,確定數(shù)據(jù)質(zhì)量核查組件;
(32)根據(jù)指標權(quán)重配置數(shù)據(jù)質(zhì)量核查組件參數(shù);
(33)設(shè)定數(shù)據(jù)質(zhì)量核查范圍;
(34)執(zhí)行數(shù)據(jù)質(zhì)量核查過程。
由上述技術(shù)方案可知,本發(fā)明可應(yīng)用于政府機關(guān)、企事業(yè)單位等各類社會組織的信息化數(shù)據(jù)治理、數(shù)據(jù)分析挖掘、數(shù)據(jù)交易評估等工作。通過建立通用的數(shù)據(jù)質(zhì)量評估模型、標準化的質(zhì)量核查過程,以一致的方法定義數(shù)據(jù)質(zhì)量、建立數(shù)據(jù)質(zhì)量評價指標,結(jié)合具體場景借助熵權(quán)法優(yōu)化各質(zhì)量評估指標權(quán)重,支撐數(shù)據(jù)問題的根因分析,并可結(jié)合信息化技術(shù)固化形成通用數(shù)據(jù)質(zhì)量核查組件和自動化工具,解決了數(shù)據(jù)質(zhì)量核查規(guī)則維護管理工作量大、核查算法復(fù)用困難等問題。與以往傳統(tǒng)的數(shù)據(jù)質(zhì)量核查工作方式相比,采用本方法可有效減少人工腳本編寫工作量、提高工作成果復(fù)用度,平均工作效率提升在46%以上。
附圖說明
圖1是本發(fā)明的流程圖;
圖2是本發(fā)明步驟2的流程圖;
圖3是本發(fā)明步驟3的流程圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明做進一步說明:
信息熵是用來度量隨機變量不確定程度,可以用來解決信息量的度量問題,如果某評價指標的熵越小,說明該指標提供的信息量就越大,在綜合評價中所起的作用就越大,權(quán)重就越高;應(yīng)用評估模型核查數(shù)據(jù)質(zhì)量是指基于信息化技術(shù),將通用數(shù)據(jù)質(zhì)量評估模型的各評估維度、評估指標的算法固化為程序組件,提供可靈活調(diào)用的核查數(shù)據(jù)接入接口和核查控制接口,結(jié)合前兩個過程結(jié)果,應(yīng)用程序?qū)⒏鹘M件動態(tài)組合,在具體的數(shù)據(jù)質(zhì)量評估場景中完成數(shù)據(jù)質(zhì)量評估模型的實例化,運行以產(chǎn)生數(shù)據(jù)質(zhì)量評估結(jié)果。
如圖1~3所示,一種基于熵權(quán)法的通用數(shù)據(jù)質(zhì)量評估方法,包括以下步驟:
S1:根據(jù)評估指標,建立指標數(shù)據(jù)質(zhì)量評估模型,該指標包括合規(guī)性、及時性、準確性、一致性和完整性;
S11:合規(guī)性是指數(shù)據(jù)符合既有格式、規(guī)范,值域有效的程度,數(shù)據(jù)合規(guī)性指標的數(shù)據(jù)質(zhì)量評估模型,采用以下公式:
其中,Sda表示合規(guī)率,n表示評估數(shù)據(jù)表個數(shù),Ddq表示一個數(shù)據(jù)中違反規(guī)則的記錄或字段個數(shù),Cr表示一個數(shù)據(jù)表的實際記錄或字段個數(shù)。
S12:及時性是指用戶在正確的時間,獲得所需數(shù)據(jù)的能力和程度,與數(shù)據(jù)可用性相關(guān),該及時性指標的數(shù)據(jù)質(zhì)量評估模型,采用以下公式:
其中,Stt表示數(shù)據(jù)表及時率,Tq表示違反規(guī)則的數(shù)據(jù)表個數(shù),n表示評估數(shù)據(jù)表個數(shù)。
S13:準確性是指數(shù)據(jù)符合預(yù)期規(guī)則的程度,通??苫诔WR、硬性規(guī)定和技術(shù)標準進行定義,該準確性指標的數(shù)據(jù)質(zhì)量評估模型,采用以下公式:
其中,S′da表示準確率,n表示評估數(shù)據(jù)表個數(shù),Ddq表示一個數(shù)據(jù)中違反規(guī)則的記錄或字段個數(shù),Cr表示一個數(shù)據(jù)表的實際記錄或字段個數(shù)。
S14:一致性是指同類數(shù)據(jù)間、或同一數(shù)據(jù)隨時間變化情況下,對等效數(shù)據(jù)集的符合程度,該一致性指標的數(shù)據(jù)質(zhì)量評估模型,采用以下公式:
其中,Sdcons表示一致率,n表示評估數(shù)據(jù)表個數(shù),D′dq表示一個數(shù)據(jù)中違反規(guī)則的記錄個數(shù),Cr′表示一個數(shù)據(jù)表的實際記錄個數(shù)。
S15:完整性是指數(shù)據(jù)對數(shù)據(jù)模型及數(shù)據(jù)關(guān)聯(lián)關(guān)系的符合程度,該完整性指標的數(shù)據(jù)質(zhì)量評估模型,采用以下公式:
其中,Sdcom表示完整率,n表示評估數(shù)據(jù)表個數(shù),Ddq表示一個數(shù)據(jù)中違反規(guī)則的記錄或字段個數(shù),Cr表示一個數(shù)據(jù)表的實際記錄或字段個數(shù)。
S2:根據(jù)評估指標模型,結(jié)合數(shù)據(jù)質(zhì)量評估場景,優(yōu)化評估指標權(quán)重;
確定各項評估指標權(quán)重是指結(jié)合數(shù)據(jù)質(zhì)量評估場景,應(yīng)用信息熵對通用數(shù)據(jù)質(zhì)量模型各維度、指標權(quán)重進行優(yōu)化,信息熵是用來度量隨機變量不確定程度,可以用來解決信息量的度量問題,如果某評價指標的熵越小,說明該指標提供的信息量就越大,在綜合評價中所起的作用就越大,權(quán)重就越高。
通用數(shù)據(jù)質(zhì)量模型是一個關(guān)于數(shù)據(jù)質(zhì)量評估指標的全量集合,在實際的質(zhì)量核查工作中不可能、也不必要全部采用,需結(jié)合具體情況,運用熵權(quán)法確定各指標權(quán)重,通過加權(quán)平均計算對通用質(zhì)量評估模型進行優(yōu)化、裁剪,具體過程如下:
S21:應(yīng)用專家評分法確定各項數(shù)據(jù)質(zhì)量度量指標對核查對象的適用程度:
指標專家評分是指邀請3個以上專家對各數(shù)據(jù)質(zhì)量指標的重要性進行評價,專家基于本人經(jīng)驗以及對數(shù)據(jù)質(zhì)量核查工作的認識,將各指標分為0-不必要,1-次要的,2-一般,3-重要的四個等級,形成專家評份表。
S22:通過數(shù)據(jù)標準化消除專家評分過程中的個性化差異:
數(shù)據(jù)標準化是指運用歸一法對多位專家的評分結(jié)果進行綜合分析,形成指標得分標準化表,假設(shè)給定了k個指標X1,X2,...,Xk,其中Xi={x1,x2,...,xn}。假設(shè)對各指標數(shù)據(jù)標準化后的值為Y1,Y2,...,Yk,那么
S23:通過信息熵評估各項數(shù)據(jù)質(zhì)量度量指標包含的信息量
計算信息熵是指基于計算公式將各指標數(shù)據(jù)標準化得分值代入計算得到各項數(shù)據(jù)質(zhì)量評估指標信息熵。其中如果pij=0,則定義
S24:綜合適用程度和信息量得到指標權(quán)重
確定指標權(quán)重是指根據(jù)信息熵確定各指標在質(zhì)量核查工作中的權(quán)重,假設(shè)計算出各個指標的信息熵為E1,E2,...,Ek,通過信息熵計算各指標的權(quán)重:最后基于層次分析法構(gòu)建適用于質(zhì)量核查工作需要的、經(jīng)優(yōu)化的數(shù)據(jù)質(zhì)量評估模型。
S3:應(yīng)用評估模型核查數(shù)據(jù)質(zhì)量。
應(yīng)用評估模型核查數(shù)據(jù)質(zhì)量是指基于信息化技術(shù),將通用數(shù)據(jù)質(zhì)量評估模型的各評估維度、評估指標的算法固化為程序組件,提供可靈活調(diào)用的核查數(shù)據(jù)接入接口和核查控制接口,結(jié)合前兩個過程結(jié)果,應(yīng)用程序?qū)⒏鹘M件動態(tài)組合,在具體的數(shù)據(jù)質(zhì)量評估場景中完成數(shù)據(jù)質(zhì)量評估模型的實例化,運行以產(chǎn)生數(shù)據(jù)質(zhì)量評估結(jié)果。
如前所述,在實際核查工作中,涉及的數(shù)據(jù)質(zhì)量指標項、各指標項的計算規(guī)則間差異較大,目前主要采用針對各指標項編寫個性化核查腳本的方式進行,存在工作量大、成果難以復(fù)用等問題,本發(fā)明基于組件化“拼裝”思路,將數(shù)據(jù)質(zhì)量核查工作分解到具體的指標計算方法,同時分離數(shù)據(jù)接入接口和控制接口,提高了核查規(guī)則復(fù)用度:
S31:依據(jù)通用數(shù)據(jù)質(zhì)量度量指標開發(fā)數(shù)據(jù)質(zhì)量核查組件:
數(shù)據(jù)質(zhì)量核查組件開發(fā)是以每一核查指標為單位,將各個評估指標的算法固化為程序組件,并按照統(tǒng)一規(guī)格提供核查控制接口、核查控制參數(shù)、數(shù)據(jù)接入接口、結(jié)果輸出接口,參照通用數(shù)據(jù)質(zhì)量評估模型形成數(shù)據(jù)質(zhì)量核查組件集合。
S32:基于指標權(quán)重配置數(shù)據(jù)質(zhì)量核查組件參數(shù):
配置數(shù)據(jù)接口和控制接口是指以前一階段優(yōu)化評估權(quán)重的結(jié)果為輸入,通過編寫驅(qū)動程序和配置文件完成數(shù)據(jù)質(zhì)量核查組件的組裝,構(gòu)建形成面向特定需求的數(shù)據(jù)質(zhì)量核查應(yīng)用。
S33:確定數(shù)據(jù)質(zhì)量核查范圍:
接入數(shù)據(jù)是指完成待核查數(shù)據(jù)庫的連接,并設(shè)定核查業(yè)務(wù)數(shù)據(jù)范圍。
S34:執(zhí)行數(shù)據(jù)質(zhì)量核查過程:
執(zhí)行核查運算是指通過驅(qū)動程序和控制接口依次調(diào)用各數(shù)據(jù)質(zhì)量核查組件,依據(jù)核查情況生成異動數(shù)據(jù)快照和核查結(jié)果,完成數(shù)據(jù)質(zhì)量核查工作的過程。
本發(fā)明所述的基于熵權(quán)法的通用數(shù)據(jù)質(zhì)量評估方法,可為企業(yè)數(shù)據(jù)質(zhì)量核查工作開展提供全過程指引,將數(shù)據(jù)質(zhì)量模型、數(shù)據(jù)質(zhì)量規(guī)則管理簡化為組件和參數(shù)的管理,同時提高了核查工作的規(guī)范程度、減少了腳本編寫工作與人工出錯機會,可為企業(yè)級數(shù)據(jù)治理、數(shù)據(jù)分析挖掘、數(shù)據(jù)交易評估等工作提供有力支撐。
以上所述的實施例僅僅是對本發(fā)明的優(yōu)選實施方式進行描述,并非對本發(fā)明的范圍進行限定,在不脫離本發(fā)明設(shè)計精神的前提下,本領(lǐng)域普通技術(shù)人員對本發(fā)明的技術(shù)方案作出的各種變形和改進,均應(yīng)落入本發(fā)明權(quán)利要求書確定的保護范圍內(nèi)。