亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種海量數(shù)據(jù)清洗方法及裝置制造方法

文檔序號(hào):6487853閱讀:289來源:國(guó)知局
一種海量數(shù)據(jù)清洗方法及裝置制造方法
【專利摘要】本申請(qǐng)公開了一種海量數(shù)據(jù)的清洗方法及裝置,該方法首先配置數(shù)據(jù)清洗規(guī)則文件,并能夠根據(jù)數(shù)據(jù)清洗規(guī)則的表名,獲取待清洗數(shù)據(jù)表對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則,并自動(dòng)生成清洗代碼執(zhí)行清洗,在清洗過程中為待清洗的每條數(shù)據(jù)打上標(biāo)簽,通過標(biāo)簽解析,分析出數(shù)據(jù)觸發(fā)了哪條數(shù)據(jù)清洗規(guī)則,從而進(jìn)行相應(yīng)的清洗處理。本申請(qǐng)的海量數(shù)據(jù)清洗裝置包括數(shù)據(jù)規(guī)則配置模塊,數(shù)據(jù)清洗代碼生成模塊,執(zhí)行模塊和解析模塊,根據(jù)本申請(qǐng)公開的海量數(shù)據(jù)清洗方法對(duì)海量數(shù)據(jù)進(jìn)行清洗。本申請(qǐng)能夠?qū)A繑?shù)據(jù)進(jìn)行有效的清洗,效率高,清洗出的臟數(shù)據(jù)被分類保留,可以精確定位每一條臟數(shù)據(jù)的來源去向。
【專利說明】一種海量數(shù)據(jù)清洗方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)屬于數(shù)據(jù)通信【技術(shù)領(lǐng)域】,尤其涉及一種海量數(shù)據(jù)清洗的方法及裝置。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)技術(shù)和通訊技術(shù)的飛速發(fā)展,人們可以獲得越來越多的數(shù)字化信息,但同時(shí)也需要投入更多的時(shí)間對(duì)數(shù)字化信息進(jìn)行組織和整理。例如在業(yè)務(wù)系統(tǒng)中,往往會(huì)因?yàn)榇a缺陷、業(yè)務(wù)定義變更、網(wǎng)絡(luò)延時(shí)等因素產(chǎn)生一些臟數(shù)據(jù),例如一筆訂單的付款時(shí)間早于訂單的創(chuàng)建時(shí)間,這就是一條不符合業(yè)務(wù)邏輯的數(shù)據(jù)。在對(duì)數(shù)據(jù)做統(tǒng)計(jì)分析之前,需要將這些臟數(shù)據(jù)先過濾掉,以確保統(tǒng)計(jì)的準(zhǔn)確性。數(shù)據(jù)清洗是一個(gè)減少數(shù)據(jù)錯(cuò)誤和不一致性的過程,主要任務(wù)是檢測(cè)并刪除或改正將轉(zhuǎn)入數(shù)據(jù)庫(kù)的臟數(shù)據(jù)。另外,對(duì)這些臟數(shù)據(jù)進(jìn)行分析歸類,并反饋給業(yè)務(wù)系統(tǒng),也能幫助業(yè)務(wù)系統(tǒng)更好的定位代碼的缺陷,改進(jìn)業(yè)務(wù)流程,從而提高數(shù)據(jù)的質(zhì)量。
[0003]目前常采用的方法基本上依賴于工程師本身的技能,工程師通過學(xué)習(xí)數(shù)據(jù)的業(yè)務(wù)含義,根據(jù)自己對(duì)數(shù)據(jù)的理解,寫出清洗臟數(shù)據(jù)的代碼,然后將代碼提交給分布式計(jì)算平臺(tái)去執(zhí)行,從而丟棄臟數(shù)據(jù),返回符合要求的結(jié)果。然而顯而易見的是手工輸寫代碼,產(chǎn)出效率較低;代碼運(yùn)行效率依賴工程師的個(gè)人能力,優(yōu)化經(jīng)驗(yàn)難以大規(guī)模推廣;臟數(shù)據(jù)被直接丟棄了,屬于不可逆的操作,對(duì)于數(shù)據(jù)追蹤、查錯(cuò)都不利;同時(shí)不容易保證代碼的規(guī)范性、一致性。
[0004]特別是目前數(shù)據(jù)量越來越大,常用的數(shù)據(jù)庫(kù)擴(kuò)展到萬億字節(jié)TB,一個(gè)數(shù)據(jù)清洗過程需要花費(fèi)的時(shí)間也越來越驚人,因此尋找一種即能規(guī)范的對(duì)數(shù)據(jù)進(jìn)行清洗,又能保障數(shù)據(jù)清洗在合理的時(shí)間范圍內(nèi)完成的數(shù)據(jù)清洗方法成為了數(shù)據(jù)庫(kù)工程師研究的方向之一。

【發(fā)明內(nèi)容】

[0005]本申請(qǐng)的目的是解決現(xiàn)有技術(shù)中數(shù)據(jù)清洗代碼由人工生成,缺少統(tǒng)一規(guī)范,產(chǎn)出效率低,運(yùn)行效率低的問題,同時(shí)可以精確定位每一條臟數(shù)據(jù)的來源去向,為改進(jìn)業(yè)務(wù)代碼,提高數(shù)據(jù)質(zhì)量提供支持。
[0006]一種海量數(shù)據(jù)清洗方法,所述數(shù)據(jù)清洗方法包括步驟:
[0007](I)配置數(shù)據(jù)清洗規(guī)則文件;
[0008](2)根據(jù)數(shù)據(jù)清洗規(guī)則文件,生成數(shù)據(jù)清洗代碼;
[0009](3)執(zhí)行數(shù)據(jù)清洗代碼,為待清洗的數(shù)據(jù)打上標(biāo)簽;
[0010](4)解析標(biāo)簽,對(duì)臟數(shù)據(jù)進(jìn)行清洗。
[0011]所述數(shù)據(jù)清洗規(guī)則文件包括至少一條數(shù)據(jù)清洗規(guī)則,所述數(shù)據(jù)清洗規(guī)則包括數(shù)據(jù)表名,數(shù)據(jù)清洗規(guī)則偽代碼和規(guī)則序號(hào)。每一條數(shù)據(jù)清洗規(guī)則,都設(shè)置了數(shù)據(jù)表名字段,表示該數(shù)據(jù)清洗規(guī)則應(yīng)用于該表名的數(shù)據(jù)表,同時(shí)每一條數(shù)據(jù)清洗規(guī)則還設(shè)置了規(guī)則序號(hào)字段,對(duì)于每一個(gè)數(shù)據(jù)表名,其對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則的規(guī)則序號(hào)按順序排列,相互之間不重復(fù)。[0012]所述步驟(2)進(jìn)一步包括步驟:
[0013](2.1)從所述數(shù)據(jù)清洗規(guī)則文件中獲取待清洗數(shù)據(jù)表的表名對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則,生成臨時(shí)文件;
[0014](2.2)讀取所述臨時(shí)文件的第一條數(shù)據(jù)清洗規(guī)則,將該數(shù)據(jù)清洗規(guī)則中的數(shù)據(jù)清洗規(guī)則偽代碼作為條件判斷的條件部分,生成針對(duì)該數(shù)據(jù)清洗規(guī)則的清洗代碼;
[0015](2.3)遍歷所述臨時(shí)文件中所有的數(shù)據(jù)清洗規(guī)則,為每一條數(shù)據(jù)清洗規(guī)則生成對(duì)應(yīng)的清洗代碼,組合成完整的待清洗數(shù)據(jù)表的清洗代碼。
[0016]所述步驟(3)進(jìn)一步包括步驟:
[0017](3.1)讀取待清洗數(shù)據(jù)表中的一條數(shù)據(jù),為所述數(shù)據(jù)設(shè)置初始標(biāo)簽值;
[0018](3.2)所述數(shù)據(jù)每觸發(fā)一條數(shù)據(jù)清洗規(guī)則,則將其標(biāo)簽值增加2n,其中η為該數(shù)據(jù)清洗規(guī)則的規(guī)則序號(hào);
[0019](3.3)遍歷待清洗數(shù)據(jù)表的表名對(duì)應(yīng)的每一個(gè)數(shù)據(jù)清洗規(guī)則;
[0020](3.4)讀取待清洗數(shù)據(jù)表中下一條數(shù)據(jù),重復(fù)步驟(3.1)至步驟(3,3),遍歷待清洗數(shù)據(jù)表中的每一條數(shù)據(jù),為每一條待清洗數(shù)據(jù)打上標(biāo)簽。
[0021]進(jìn)一步地,所述步驟(4)中解析標(biāo)簽包括:
[0022]將標(biāo)簽值與2η次方分別做與運(yùn)算,如果得到的結(jié)果為2η本身,則說明該標(biāo)簽值對(duì)應(yīng)的數(shù)據(jù)觸發(fā)了 η對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則,否則未觸發(fā)η對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則,η為該數(shù)據(jù)清洗規(guī)則的規(guī)則序號(hào),并對(duì)該數(shù)據(jù)進(jìn)行臟數(shù)據(jù)清洗。通過標(biāo)簽解析,能夠得出觸發(fā)的數(shù)據(jù)清洗規(guī)則的規(guī)則序號(hào),從而能夠分析出每一條數(shù)據(jù)觸發(fā)了哪些數(shù)據(jù)清洗規(guī)則,將觸發(fā)了數(shù)據(jù)清洗規(guī)則的數(shù)據(jù)統(tǒng)統(tǒng)歸類為臟數(shù)據(jù),并對(duì)臟數(shù)據(jù)分類進(jìn)行清洗,具體的清洗方法可以是刪除,修改,或轉(zhuǎn)移存儲(chǔ),根據(jù)實(shí)際的需要做具體的安排。
[0023]本申請(qǐng)還公開了一種海量數(shù)據(jù)清洗裝置,所述海量數(shù)據(jù)清洗裝置包括:
[0024]數(shù)據(jù)規(guī)則配置模塊,用于配置數(shù)據(jù)清洗規(guī)則文件;
[0025]數(shù)據(jù)清洗代碼生成模塊,用于根據(jù)數(shù)據(jù)清洗規(guī)則,生成數(shù)據(jù)清洗代碼;
[0026]執(zhí)行模塊,用于執(zhí)行數(shù)據(jù)清洗代碼,為待清洗的數(shù)據(jù)打上標(biāo)簽;
[0027]和解析模塊,用于解析標(biāo)簽,對(duì)臟數(shù)據(jù)進(jìn)行清洗。
[0028]所述數(shù)據(jù)清洗代碼生成模塊還包括數(shù)據(jù)清洗規(guī)則抽取單元,用于從所述數(shù)據(jù)清洗規(guī)則文件中獲取待清洗數(shù)據(jù)表的表名對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則。
[0029]所述執(zhí)行模塊還包括:
[0030]待清洗數(shù)據(jù)讀取單元,用于逐條讀入待清洗數(shù)據(jù);
[0031]初始標(biāo)簽設(shè)置單元,用于為讀入的待清洗數(shù)據(jù)設(shè)置初始標(biāo)簽;
[0032]數(shù)據(jù)清洗規(guī)則匹配單元,用于逐條匹配數(shù)據(jù)清洗規(guī)則;
[0033]標(biāo)簽重置單元,用于根據(jù)匹配結(jié)果,重置待清洗數(shù)據(jù)的標(biāo)簽,待清洗數(shù)據(jù)每觸發(fā)一條數(shù)據(jù)清洗規(guī)則,則將其標(biāo)簽值增加2η,其中η為該數(shù)據(jù)清洗規(guī)則的規(guī)則序號(hào)。
[0034]而解析模塊在解析時(shí),標(biāo)簽值與2η分別做與運(yùn)算,如果得到的結(jié)果為2η其本身,則說明該標(biāo)簽值對(duì)應(yīng)的數(shù)據(jù)觸發(fā)了 η對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則,否則未觸發(fā)η對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則,η為該數(shù)據(jù)清洗規(guī)則的規(guī)則序號(hào)。
[0035]本申請(qǐng)的海量數(shù)據(jù)清洗方法及裝置,能夠根據(jù)數(shù)據(jù)清洗規(guī)則的表名,獲取待清洗數(shù)據(jù)表對(duì)應(yīng)的清洗規(guī)則,并自動(dòng)生成清洗代碼執(zhí)行清洗,在清洗過程中為待清洗的每條數(shù)據(jù)打上標(biāo)簽,通過標(biāo)簽解析,分析出數(shù)據(jù)觸發(fā)了哪條數(shù)據(jù)清洗規(guī)則,從而進(jìn)行處理。本申請(qǐng)產(chǎn)出效率高,生成的代碼根據(jù)平臺(tái)特性做過優(yōu)化,代碼具有一致性,規(guī)范,并且運(yùn)行效率高;臟數(shù)據(jù)被分類保留,可以精確定位每一條臟數(shù)據(jù)的來源去向。
【專利附圖】

【附圖說明】
[0036]圖1為本申請(qǐng)海量數(shù)據(jù)清洗方法流程示意圖;
[0037]圖2為本申請(qǐng)海量數(shù)據(jù)清洗裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0038]下面結(jié)合附圖和實(shí)施例對(duì)本申請(qǐng)技術(shù)方案做進(jìn)一步詳細(xì)說明,以下實(shí)施例不構(gòu)成對(duì)本申請(qǐng)的限定。
[0039]本申請(qǐng)一種海量數(shù)據(jù)清洗方法如圖1所示,包括步驟:
[0040]步驟101、配置數(shù)據(jù)清洗規(guī)則文件。
[0041]具體地,表1提供了一個(gè)數(shù)據(jù)清洗規(guī)則文件的具體實(shí)施例:
[0042]
【權(quán)利要求】
1.一種海量數(shù)據(jù)清洗方法,其特征在于,所述數(shù)據(jù)清洗方法包括步驟:(1)配置數(shù)據(jù)清洗規(guī)則文件;(2)根據(jù)數(shù)據(jù)清洗規(guī)則文件,生成數(shù)據(jù)清洗代碼;(3)執(zhí)行數(shù)據(jù)清洗代碼,為待清洗的數(shù)據(jù)打上標(biāo)簽;(4)解析標(biāo)簽,對(duì)臟數(shù)據(jù)進(jìn)行清洗。
2.如權(quán)利要求1所述的數(shù)據(jù)清洗方法,其特征在于,所述數(shù)據(jù)清洗規(guī)則文件包括至少一條數(shù)據(jù)清洗規(guī)則,所述數(shù)據(jù)清洗規(guī)則包括數(shù)據(jù)表名,數(shù)據(jù)清洗規(guī)則偽代碼和規(guī)則序號(hào)。
3.如權(quán)利要求2所述的數(shù)據(jù)清洗方法,其特征在于,所述步驟(2)進(jìn)一步包括步驟:(2.1)從所述數(shù)據(jù)清洗規(guī)則文件中獲取待清洗數(shù)據(jù)表的表名對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則,生成臨時(shí)文件;(2.2)讀取所述臨時(shí)文件的第一條數(shù)據(jù)清洗規(guī)則,將該數(shù)據(jù)清洗規(guī)則中的數(shù)據(jù)清洗規(guī)則偽代碼作為條件判斷的條件部分,生成針對(duì)該數(shù)據(jù)清洗規(guī)則的清洗代碼;(2.3)遍歷所述臨時(shí)文件中所有的數(shù)據(jù)清洗規(guī)則,為每一條數(shù)據(jù)清洗規(guī)則生成對(duì)應(yīng)的清洗代碼,組合成完整的待清洗數(shù)據(jù)表的清洗代碼。
4.如權(quán)利要求2所述的數(shù)據(jù)清洗方法,其特征在于,步驟(3)進(jìn)一步包括步驟:(3.1)讀取待清洗數(shù)據(jù)表中的一條數(shù)據(jù),為所述數(shù)據(jù)設(shè)置初始標(biāo)簽值; (3.2)所述數(shù)據(jù)每觸發(fā)一條數(shù)據(jù)清洗規(guī)則,則將其標(biāo)簽值增加2n,其中η為該數(shù)據(jù)清洗規(guī)則的規(guī)則序號(hào);(3.3)遍歷待清洗數(shù)據(jù)表的表名對(duì)應(yīng)的每一個(gè)數(shù)據(jù)清洗規(guī)則;(3.4)讀取待清洗數(shù)據(jù)表中下一條數(shù)據(jù),重復(fù)步驟(3.1)至步驟(3,3),遍歷待清洗數(shù)據(jù)表中的每一條數(shù)據(jù),為每一條待清洗數(shù)據(jù)打上標(biāo)簽。
5.如權(quán)利要求4所述的數(shù)據(jù)清洗方法,其特征在于,所述步驟(4)中解析標(biāo)簽包括:將標(biāo)簽值與2η分別做與運(yùn)算,如果得到的結(jié)果為2η其本身,則說明該標(biāo)簽值對(duì)應(yīng)的數(shù)據(jù)觸發(fā)了 η對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則,否則未觸發(fā)η對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則,η為該數(shù)據(jù)清洗規(guī)則的規(guī)則序號(hào)。
6.一種海量數(shù)據(jù)清洗裝置,其特征在于,所述海量數(shù)據(jù)清洗裝置包括:數(shù)據(jù)規(guī)則模塊,用于配置數(shù)據(jù)清洗規(guī)則文件;數(shù)據(jù)清洗代碼生成模塊,用于根據(jù)待清洗數(shù)據(jù)表和其對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則,生成數(shù)據(jù)清洗代碼;執(zhí)行模塊,用于執(zhí)行數(shù)據(jù)清洗代碼,為待清洗的數(shù)據(jù)打上標(biāo)簽;和解析模塊,用于解析標(biāo)簽,對(duì)臟數(shù)據(jù)進(jìn)行清洗。
7.如權(quán)利要求6所述的海量數(shù)據(jù)清洗裝置,其特征在于,所述數(shù)據(jù)清洗代碼生成模塊還包括數(shù)據(jù)清洗規(guī)則抽取單元,用于從所述數(shù)據(jù)清洗規(guī)則文件中獲取待清洗數(shù)據(jù)表的表名對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則。
8.如權(quán)利要求6所述的海量數(shù)據(jù)清洗裝置,其特征在于,所述執(zhí)行模塊還包括:待清洗數(shù)據(jù)讀取單元,用于從待清洗數(shù)據(jù)表中逐條讀入待清洗數(shù)據(jù);初始標(biāo)簽設(shè)置單元,用于為讀入的待清洗數(shù)據(jù)設(shè)置初始標(biāo)簽;數(shù)據(jù)清洗規(guī)則匹配單元,用于逐條匹配數(shù)據(jù)清洗規(guī)則;標(biāo)簽重置單元,用于根據(jù)匹配結(jié)果,重置待清洗數(shù)據(jù)的標(biāo)簽,待清洗數(shù)據(jù)每觸發(fā)一條數(shù)據(jù)清洗規(guī)則,則將其標(biāo)簽值增加2n,其中η為該數(shù)據(jù)清洗規(guī)則的規(guī)則序號(hào)。
9.如權(quán)利要求8所述的海量數(shù)據(jù)清洗裝置,其特征在于,所述解析模塊用于將標(biāo)簽值與2η分別做與運(yùn)算,如果得到的結(jié)果為2η其本身,則說明該標(biāo)簽值對(duì)應(yīng)的數(shù)據(jù)觸發(fā)了 η對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則,否則未觸發(fā)η對(duì)應(yīng)的數(shù)據(jù)清洗規(guī)則,η為該數(shù)據(jù)清洗規(guī)則的規(guī)則序號(hào)。
【文檔編號(hào)】G06F17/30GK103593352SQ201210289550
【公開日】2014年2月19日 申請(qǐng)日期:2012年8月15日 優(yōu)先權(quán)日:2012年8月15日
【發(fā)明者】劉欣 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1