1.一種輕量化實時數(shù)據(jù)系統(tǒng),其特征在于:所述系統(tǒng)包括系統(tǒng)管理模塊、數(shù)據(jù)治理模塊、數(shù)據(jù)采集模塊、數(shù)據(jù)服務(wù)模塊和數(shù)據(jù)資產(chǎn)模塊,其中:
2.根據(jù)權(quán)利要求1所述的一種輕量化實時數(shù)據(jù)系統(tǒng),其特征在于:所述數(shù)據(jù)治理模塊中的運用機器學(xué)習算法建立數(shù)據(jù)質(zhì)量評估模型,用于評估數(shù)據(jù)的準確性、完整性、一致性,設(shè)置數(shù)據(jù)集中有個數(shù)據(jù)樣本,每個樣本有個特征,用表示數(shù)據(jù)集,其中表示第個樣本的特征向量,定義質(zhì)量評估函數(shù):
3.根據(jù)權(quán)利要求1所述的一種輕量化實時數(shù)據(jù)系統(tǒng),其特征在于:所述數(shù)據(jù)治理模塊中建立異常檢測模型,用于檢測數(shù)據(jù)中的異常值,設(shè)置數(shù)據(jù)集中有個數(shù)據(jù)樣本,用表示數(shù)據(jù)集,每個樣本有個特征,采用基于距離的異常檢測方法,計算每個樣本與其他樣本之間的歐氏距離:
4.根據(jù)權(quán)利要求1所述的一種輕量化實時數(shù)據(jù)系統(tǒng),其特征在于:所述數(shù)據(jù)采集模塊中的智能調(diào)度算法根據(jù)數(shù)據(jù)源的特點和采集需求,安排采集任務(wù)的執(zhí)行時間和順序,設(shè)數(shù)據(jù)源集合為,每個數(shù)據(jù)源都有不同的采集頻率需求和數(shù)據(jù)量大小;
5.根據(jù)權(quán)利要求1所述的一種輕量化實時數(shù)據(jù)系統(tǒng),其特征在于:所述數(shù)據(jù)服務(wù)模塊中的實時監(jiān)控算法用于對服務(wù)器性能、網(wǎng)絡(luò)流量、數(shù)據(jù)訪問量等進行實時監(jiān)測,及時發(fā)現(xiàn)異常情況,設(shè)置設(shè)服務(wù)器性能指標集合為,為服務(wù)器內(nèi)部各個性能指標,包括cpu利用率、內(nèi)存利用率,網(wǎng)絡(luò)流量用表示,數(shù)據(jù)訪問量用表示;
6.根據(jù)權(quán)利要求1所述的一種輕量化實時數(shù)據(jù)系統(tǒng),其特征在于:所述數(shù)據(jù)資產(chǎn)模塊中通過數(shù)據(jù)資產(chǎn)評估算法對數(shù)據(jù)資產(chǎn)進行評估,確定資產(chǎn)的價值,設(shè)數(shù)據(jù)資產(chǎn)集合為,每個數(shù)據(jù)資產(chǎn)有多個評估指標,包括數(shù)據(jù)準確性、完整性、時效性等;
7.根據(jù)權(quán)利要求1所述的一種輕量化實時數(shù)據(jù)系統(tǒng),其特征在于:所述數(shù)據(jù)資產(chǎn)模塊中的資產(chǎn)分類技術(shù)對數(shù)據(jù)資產(chǎn)進行分類,進行管理和使用,采用聚類算法對數(shù)據(jù)資產(chǎn)進行分類,設(shè)數(shù)據(jù)資產(chǎn)集合為,每個數(shù)據(jù)資產(chǎn)用一個特征向量表示,,采用k-means算法,目標是將數(shù)據(jù)資產(chǎn)劃分為個聚類,使得每個數(shù)據(jù)資產(chǎn)到其所屬聚類中心的距離之和最小,定義目標函數(shù)公式如下:
8.根據(jù)權(quán)利要求1所述的一種輕量化實時數(shù)據(jù)系統(tǒng),其特征在于:所述數(shù)據(jù)資產(chǎn)模塊中在創(chuàng)建數(shù)據(jù)資產(chǎn)目錄時,采用分類編碼等技術(shù),對數(shù)據(jù)資產(chǎn)進行分類和編碼,建立資產(chǎn)目錄更新機制,定期對資產(chǎn)目錄進行更新和維護。
9.根據(jù)權(quán)利要求1所述的一種輕量化實時數(shù)據(jù)系統(tǒng),其特征在于:所述數(shù)據(jù)采集模塊中在手動輸入或?qū)霐?shù)據(jù)的方式中,提供數(shù)據(jù)校驗和驗證功能,確保人工采集的數(shù)據(jù)符合數(shù)據(jù)質(zhì)量要求,建立數(shù)據(jù)審核機制,對人工采集的數(shù)據(jù)進行審核和審批,確保數(shù)據(jù)的準確性和可靠性。