本發(fā)明涉及銀行大數(shù)據(jù)清洗領(lǐng)域,尤其涉及一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法及系統(tǒng)。
背景技術(shù):
1、銀行業(yè)務(wù)每天都會(huì)產(chǎn)生大量的數(shù)據(jù),包括客戶信息、賬戶信息、交易信息、外部數(shù)據(jù)等。這些數(shù)據(jù)對(duì)于銀行的數(shù)據(jù)管理、決策支持和客戶服務(wù)等方面具有重要意義。然而,由于數(shù)據(jù)渠道來(lái)源眾多、數(shù)據(jù)格式不統(tǒng)一、質(zhì)量參差不齊等原因,銀行數(shù)據(jù)中存在大量的臟數(shù)據(jù),如重復(fù)數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、缺失數(shù)據(jù)。這些臟數(shù)據(jù)的存在嚴(yán)重影響了銀行數(shù)據(jù)的質(zhì)量和可用性,因此需要對(duì)銀行數(shù)據(jù)進(jìn)行清洗。
2、傳統(tǒng)的數(shù)據(jù)清洗方法主要依靠人工進(jìn)行,效率低下且容易出錯(cuò)。隨著銀行數(shù)據(jù)量的不斷增長(zhǎng),傳統(tǒng)的數(shù)據(jù)清洗方法已經(jīng)無(wú)法滿足銀行大數(shù)據(jù)環(huán)境下的需求。因此,亟需一種高效、準(zhǔn)確的數(shù)據(jù)清洗系統(tǒng)和方法來(lái)解決銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問(wèn)題,提出了本發(fā)明以便提供克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法及系統(tǒng)。
2、根據(jù)本發(fā)明的一個(gè)方面,提供了一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,所述數(shù)據(jù)清洗方法包括:
3、從銀行各個(gè)源業(yè)務(wù)系統(tǒng)中采集原始數(shù)據(jù);
4、對(duì)所述原始數(shù)據(jù)進(jìn)行預(yù)處理,獲得預(yù)處理后數(shù)據(jù);
5、對(duì)所述預(yù)處理后數(shù)據(jù)進(jìn)行校驗(yàn)、清洗,獲得清洗后數(shù)據(jù);
6、對(duì)所述清洗后數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。
7、可選的,所述數(shù)據(jù)清洗方法還包括:將清洗后數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。
8、可選的,所述從銀行各個(gè)源業(yè)務(wù)系統(tǒng)中采集原始數(shù)據(jù)具體包括:
9、利用api接口、數(shù)據(jù)爬蟲(chóng)技術(shù),從銀行各個(gè)業(yè)務(wù)系統(tǒng)中自動(dòng)采集數(shù)據(jù),包括客戶信息、賬戶信息和交易信息。
10、可選的,所述對(duì)所述原始數(shù)據(jù)進(jìn)行預(yù)處理具體包括:
11、對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)識(shí)別和分類;
12、對(duì)數(shù)據(jù)進(jìn)行初步校驗(yàn),檢查數(shù)據(jù)是否符合預(yù)定的格式和類型要求,使用正則表達(dá)式、數(shù)據(jù)類型驗(yàn)證等方法來(lái)篩選出不符合要求的數(shù)據(jù);
13、使用統(tǒng)計(jì)學(xué)以及機(jī)器學(xué)習(xí)方法自動(dòng)識(shí)別異常值,并根據(jù)業(yè)務(wù)規(guī)則使用sql語(yǔ)言或linux命令對(duì)數(shù)據(jù)決定是否保留、刪除或修正異常值;
14、利用數(shù)據(jù)去重算法,通過(guò)sql語(yǔ)言、定義函數(shù)進(jìn)行去除重復(fù)的數(shù)據(jù)。
15、可選的,所述對(duì)所述預(yù)處理后數(shù)據(jù)進(jìn)行校驗(yàn)、清洗具體包括:錯(cuò)誤數(shù)據(jù)修正和不完整數(shù)據(jù)補(bǔ)全。
16、可選的,所述對(duì)所述清洗后數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估具體包括:
17、對(duì)清洗后的數(shù)據(jù)通過(guò)sql邏輯進(jìn)行質(zhì)量評(píng)估;
18、設(shè)計(jì)數(shù)據(jù)質(zhì)量評(píng)估指標(biāo),對(duì)數(shù)據(jù)質(zhì)量進(jìn)行量化評(píng)估;
19、建立數(shù)據(jù)質(zhì)量監(jiān)控機(jī)制,定期對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估和監(jiān)控,及時(shí)發(fā)現(xiàn)和解決數(shù)據(jù)問(wèn)題,迭代升級(jí)數(shù)據(jù)清洗算法。
20、可選的,所述將清洗后數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中具體包括:
21、設(shè)計(jì)數(shù)據(jù)存儲(chǔ)方案,包括關(guān)系型數(shù)據(jù)庫(kù)、分布式數(shù)據(jù)庫(kù);
22、根據(jù)數(shù)據(jù)的特點(diǎn)和需求選擇合適的存儲(chǔ)方式。
23、可選的,所述數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)包括數(shù)據(jù)缺失率、數(shù)據(jù)錯(cuò)誤率。
24、本發(fā)明還提供了一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗系統(tǒng),應(yīng)用上述所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,所述數(shù)據(jù)清洗方法包括:
25、數(shù)據(jù)采集模塊,用于從銀行各個(gè)源業(yè)務(wù)系統(tǒng)中采集原始數(shù)據(jù);
26、數(shù)據(jù)預(yù)處理模塊,用于對(duì)所述原始數(shù)據(jù)進(jìn)行預(yù)處理,獲得預(yù)處理后數(shù)據(jù);
27、數(shù)據(jù)清洗模塊,用于對(duì)所述預(yù)處理后數(shù)據(jù)進(jìn)行校驗(yàn)、清洗,獲得清洗后數(shù)據(jù);
28、數(shù)據(jù)質(zhì)量評(píng)估模塊,用于對(duì)所述清洗后數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。
29、可選的,所述數(shù)據(jù)清洗系統(tǒng)還包括:數(shù)據(jù)存儲(chǔ)模塊,用于將清洗后數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。
30、本發(fā)明提供的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法及系統(tǒng),所述數(shù)據(jù)清洗方法包括:從銀行各個(gè)源業(yè)務(wù)系統(tǒng)中采集原始數(shù)據(jù);對(duì)所述原始數(shù)據(jù)進(jìn)行預(yù)處理,獲得預(yù)處理后數(shù)據(jù);對(duì)所述預(yù)處理后數(shù)據(jù)進(jìn)行校驗(yàn)、清洗,獲得清洗后數(shù)據(jù);對(duì)所述清洗后數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。解決現(xiàn)有技術(shù)中銀行數(shù)據(jù)清洗效率低下、準(zhǔn)確性差的問(wèn)題。
31、上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
1.一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述數(shù)據(jù)清洗方法包括:
2.根據(jù)權(quán)利要求1所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述數(shù)據(jù)清洗方法還包括:將清洗后數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。
3.根據(jù)權(quán)利要求1所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述從銀行各個(gè)源業(yè)務(wù)系統(tǒng)中采集原始數(shù)據(jù)具體包括:
4.根據(jù)權(quán)利要求1所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述對(duì)所述原始數(shù)據(jù)進(jìn)行預(yù)處理具體包括:
5.根據(jù)權(quán)利要求1所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述對(duì)所述預(yù)處理后數(shù)據(jù)進(jìn)行校驗(yàn)、清洗具體包括:錯(cuò)誤數(shù)據(jù)修正和不完整數(shù)據(jù)補(bǔ)全。
6.根據(jù)權(quán)利要求1所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述對(duì)所述清洗后數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估具體包括:
7.根據(jù)權(quán)利要求2所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述將清洗后數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中具體包括:
8.根據(jù)權(quán)利要求6所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)包括數(shù)據(jù)缺失率、數(shù)據(jù)錯(cuò)誤率。
9.一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗系統(tǒng),應(yīng)用上述權(quán)利要求1-8任意一項(xiàng)所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗方法,其特征在于,所述數(shù)據(jù)清洗方法包括:
10.根據(jù)權(quán)利要求9所述的一種銀行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清洗系統(tǒng),其特征在于,所述數(shù)據(jù)清洗系統(tǒng)還包括:數(shù)據(jù)存儲(chǔ)模塊,用于將清洗后數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。