1.一種基于熵權法的通用數據質量評估方法,其特征在于,包括以下步驟:
(1)根據評估指標,建立指標數據質量評估模型;
(2)根據評估指標模型,結合數據質量評估場景,優(yōu)化評估指標權重;
(3)應用評估模型核查數據質量。
2.根據權利要求1所述的基于熵權法的通用數據質量評估方法,其特征在于:所述指標包括合規(guī)性、及時性、準確性、一致性和完整性。
3.根據權利要求2所述的基于熵權法的通用數據質量評估方法,其特征在于:所述合規(guī)性指標的數據質量評估模型,采用以下公式:
其中,Sda表示合規(guī)率,n表示評估數據表個數,Ddq表示一個數據中違反規(guī)則的記錄或字段個數,Cr表示一個數據表的實際記錄或字段個數。
4.根據權利要求2所述的基于熵權法的通用數據質量評估方法,其特征在于:所述及時性指標的數據質量評估模型,采用以下公式:
其中,Stt表示數據表及時率,Tq表示違反規(guī)則的數據表個數,n表示評估數據表個數。
5.根據權利要求2所述的基于熵權法的通用數據質量評估方法,其特征在于:所述準確性指標的數據質量評估模型,采用以下公式:
其中,S′da表示準確率,n表示評估數據表個數,Ddq表示一個數據中違反規(guī)則的記錄或字段個數,Cr表示一個數據表的實際記錄或字段個數。
6.根據權利要求2所述的基于熵權法的通用數據質量評估方法,其特征在于:所述一致性指標的數據質量評估模型,采用以下公式:
其中,Sdcons表示一致率,n表示評估數據表個數,D′dq表示一個數據中違反規(guī)則的記錄個數,C′r表示一個數據表的實際記錄個數。
7.根據權利要求2所述的基于熵權法的通用數據質量評估方法,其特征在于:所述完整性指標的數據質量評估模型,采用以下公式:
其中,Sdcom表示完整率,n表示評估數據表個數,Ddq表示一個數據中違反規(guī)則的記錄或字段個數,Cr表示一個數據表的實際記錄或字段個數。
8.根據權利要求1所述的基于熵權法的通用數據質量評估方法,其特征在于:步驟(2),所述根據評估指標模型,結合數據質量評估場景,優(yōu)化評估指標權重,具體包括以下步驟:
(21)應用專家評分法確定各項數據質量度量指標對核查對象的適用程度;
(22)通過數據標準化消除專家評分過程中的個性化差異;
(23)通過信息熵評估各項數據質量度量指標包含的信息量;
(24)綜合適用程度和信息量得到指標權重。
9.根據權利要求1所述的基于熵權法的通用數據質量評估方法,其特征在于:步驟(3),所述應用評估模型核查數據質量,具體包括以下步驟:
(31)根據指標數據質量評估模型,確定數據質量核查組件;
(32)根據指標權重配置數據質量核查組件參數;
(33)設定數據質量核查范圍;
(34)執(zhí)行數據質量核查過程。