亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法及系統(tǒng)與流程

文檔序號(hào):40363508發(fā)布日期:2024-12-18 13:47閱讀:8來(lái)源:國(guó)知局
一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法及系統(tǒng)與流程

本發(fā)明涉及銀行大數(shù)據(jù)清洗領(lǐng)域,尤其涉及一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法及系統(tǒng)。


背景技術(shù):

1、銀行業(yè)務(wù)每天都會(huì)產(chǎn)生大量的數(shù)據(jù),包括客戶信息、賬戶信息、交易信息、外部數(shù)據(jù)等。這些數(shù)據(jù)對(duì)于銀行的數(shù)據(jù)管理、決策支持和客戶服務(wù)等方面具有重要意義。然而,由于數(shù)據(jù)渠道來(lái)源眾多、數(shù)據(jù)格式不統(tǒng)一、質(zhì)量參差不齊等原因,銀行數(shù)據(jù)中存在大量的臟數(shù)據(jù),如重復(fù)數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、缺失數(shù)據(jù)。這些臟數(shù)據(jù)的存在嚴(yán)重影響了銀行數(shù)據(jù)的質(zhì)量和可用性,因此需要對(duì)銀行數(shù)據(jù)進(jìn)行清洗。

2、傳統(tǒng)的數(shù)據(jù)清洗方法主要依靠人工進(jìn)行,效率低下且容易出錯(cuò)。隨著銀行數(shù)據(jù)量的不斷增長(zhǎng),傳統(tǒng)的數(shù)據(jù)清洗方法已經(jīng)無(wú)法滿足銀行大數(shù)據(jù)環(huán)境下的需求。因此,亟需一種高效、準(zhǔn)確的數(shù)據(jù)清洗系統(tǒng)和方法來(lái)解決銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、鑒于上述問(wèn)題,提出了本發(fā)明以便提供克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法及系統(tǒng)。

2、根據(jù)本發(fā)明的一個(gè)方面,提供了一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,所述數(shù)據(jù)清洗方法包括:

3、從銀行各個(gè)源業(yè)務(wù)系統(tǒng)中采集原始數(shù)據(jù);

4、對(duì)所述原始數(shù)據(jù)進(jìn)行預(yù)處理,獲得預(yù)處理后數(shù)據(jù);

5、對(duì)所述預(yù)處理后數(shù)據(jù)進(jìn)行校驗(yàn)、清洗,獲得清洗后數(shù)據(jù);

6、對(duì)所述清洗后數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。

7、可選的,所述數(shù)據(jù)清洗方法還包括:將清洗后數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。

8、可選的,所述從銀行各個(gè)源業(yè)務(wù)系統(tǒng)中采集原始數(shù)據(jù)具體包括:

9、利用api接口、數(shù)據(jù)爬蟲(chóng)技術(shù),從銀行各個(gè)業(yè)務(wù)系統(tǒng)中自動(dòng)采集數(shù)據(jù),包括客戶信息、賬戶信息和交易信息。

10、可選的,所述對(duì)所述原始數(shù)據(jù)進(jìn)行預(yù)處理具體包括:

11、對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別和分類;

12、對(duì)數(shù)據(jù)進(jìn)行初步校驗(yàn),檢查數(shù)據(jù)是否符合預(yù)定的格式和類型要求,使用正則表達(dá)式、數(shù)據(jù)類型驗(yàn)證等方法來(lái)篩選出不符合要求的數(shù)據(jù);

13、使用統(tǒng)計(jì)學(xué)以及機(jī)器學(xué)習(xí)方法自動(dòng)識(shí)別異常值,并根據(jù)業(yè)務(wù)規(guī)則使用sql語(yǔ)言或linux命令對(duì)數(shù)據(jù)決定是否保留、刪除或修正異常值;

14、利用數(shù)據(jù)去重算法,通過(guò)sql語(yǔ)言、定義函數(shù)進(jìn)行去除重復(fù)的數(shù)據(jù)。

15、可選的,所述對(duì)所述預(yù)處理后數(shù)據(jù)進(jìn)行校驗(yàn)、清洗具體包括:錯(cuò)誤數(shù)據(jù)修正和不完整數(shù)據(jù)補(bǔ)全。

16、可選的,所述對(duì)所述清洗后數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估具體包括:

17、對(duì)清洗后的數(shù)據(jù)通過(guò)sql邏輯進(jìn)行質(zhì)量評(píng)估;

18、設(shè)計(jì)數(shù)據(jù)質(zhì)量評(píng)估指標(biāo),對(duì)數(shù)據(jù)質(zhì)量進(jìn)行量化評(píng)估;

19、建立數(shù)據(jù)質(zhì)量監(jiān)控機(jī)制,定期對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估和監(jiān)控,及時(shí)發(fā)現(xiàn)和解決數(shù)據(jù)問(wèn)題,迭代升級(jí)數(shù)據(jù)清洗算法。

20、可選的,所述將清洗后數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中具體包括:

21、設(shè)計(jì)數(shù)據(jù)存儲(chǔ)方案,包括關(guān)系型數(shù)據(jù)庫(kù)、分布式數(shù)據(jù)庫(kù);

22、根據(jù)數(shù)據(jù)的特點(diǎn)和需求選擇合適的存儲(chǔ)方式。

23、可選的,所述數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)包括數(shù)據(jù)缺失率、數(shù)據(jù)錯(cuò)誤率。

24、本發(fā)明還提供了一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗系統(tǒng),應(yīng)用上述所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,所述數(shù)據(jù)清洗方法包括:

25、數(shù)據(jù)采集模塊,用于從銀行各個(gè)源業(yè)務(wù)系統(tǒng)中采集原始數(shù)據(jù);

26、數(shù)據(jù)預(yù)處理模塊,用于對(duì)所述原始數(shù)據(jù)進(jìn)行預(yù)處理,獲得預(yù)處理后數(shù)據(jù);

27、數(shù)據(jù)清洗模塊,用于對(duì)所述預(yù)處理后數(shù)據(jù)進(jìn)行校驗(yàn)、清洗,獲得清洗后數(shù)據(jù);

28、數(shù)據(jù)質(zhì)量評(píng)估模塊,用于對(duì)所述清洗后數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。

29、可選的,所述數(shù)據(jù)清洗系統(tǒng)還包括:數(shù)據(jù)存儲(chǔ)模塊,用于將清洗后數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。

30、本發(fā)明提供的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法及系統(tǒng),所述數(shù)據(jù)清洗方法包括:從銀行各個(gè)源業(yè)務(wù)系統(tǒng)中采集原始數(shù)據(jù);對(duì)所述原始數(shù)據(jù)進(jìn)行預(yù)處理,獲得預(yù)處理后數(shù)據(jù);對(duì)所述預(yù)處理后數(shù)據(jù)進(jìn)行校驗(yàn)、清洗,獲得清洗后數(shù)據(jù);對(duì)所述清洗后數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。解決現(xiàn)有技術(shù)中銀行數(shù)據(jù)清洗效率低下、準(zhǔn)確性差的問(wèn)題。

31、上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。



技術(shù)特征:

1.一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述數(shù)據(jù)清洗方法包括:

2.根據(jù)權(quán)利要求1所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述數(shù)據(jù)清洗方法還包括:將清洗后數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。

3.根據(jù)權(quán)利要求1所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述從銀行各個(gè)源業(yè)務(wù)系統(tǒng)中采集原始數(shù)據(jù)具體包括:

4.根據(jù)權(quán)利要求1所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述對(duì)所述原始數(shù)據(jù)進(jìn)行預(yù)處理具體包括:

5.根據(jù)權(quán)利要求1所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述對(duì)所述預(yù)處理后數(shù)據(jù)進(jìn)行校驗(yàn)、清洗具體包括:錯(cuò)誤數(shù)據(jù)修正和不完整數(shù)據(jù)補(bǔ)全。

6.根據(jù)權(quán)利要求1所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述對(duì)所述清洗后數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估具體包括:

7.根據(jù)權(quán)利要求2所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述將清洗后數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中具體包括:

8.根據(jù)權(quán)利要求6所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)包括數(shù)據(jù)缺失率、數(shù)據(jù)錯(cuò)誤率。

9.一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗系統(tǒng),應(yīng)用上述權(quán)利要求1-8任意一項(xiàng)所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述數(shù)據(jù)清洗方法包括:

10.根據(jù)權(quán)利要求9所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗系統(tǒng),其特征在于,所述數(shù)據(jù)清洗系統(tǒng)還包括:數(shù)據(jù)存儲(chǔ)模塊,用于將清洗后數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。


技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法及系統(tǒng),所述數(shù)據(jù)清洗方法包括:從銀行各個(gè)源業(yè)務(wù)系統(tǒng)中采集原始數(shù)據(jù);對(duì)所述原始數(shù)據(jù)進(jìn)行預(yù)處理,獲得預(yù)處理后數(shù)據(jù);對(duì)所述預(yù)處理后數(shù)據(jù)進(jìn)行校驗(yàn)、清洗,獲得清洗后數(shù)據(jù);對(duì)所述清洗后數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。解決現(xiàn)有技術(shù)中銀行數(shù)據(jù)清洗效率低下、準(zhǔn)確性差的問(wèn)題。

技術(shù)研發(fā)人員:孫香雪
受保護(hù)的技術(shù)使用者:北銀金融科技有限責(zé)任公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/17
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1