本發(fā)明屬于數(shù)據(jù)清洗領域,尤其涉及清洗對比入庫方法。
背景技術:
數(shù)據(jù)清洗(Data cleaning)是對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”,指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。因為數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務系統(tǒng)中抽取而來而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗。
現(xiàn)有技術中的數(shù)據(jù)清洗方法都比較簡單,僅能夠進行一些常見的數(shù)據(jù)清洗,清洗后數(shù)據(jù)刪除率較高,由于智能程度不高,清洗過程需要大量的人為參與,用戶體驗較低,此外,現(xiàn)有的數(shù)據(jù)清洗計數(shù)不能有效的利用現(xiàn)有的數(shù)據(jù)資源,數(shù)據(jù)采集和處理不是并行的,不能進行大數(shù)據(jù)清理,不能針對不同的用戶作個性化的數(shù)據(jù)清理?;谏鲜鲋T多問題,現(xiàn)在亟需一種新的清洗對比入庫方法,不依賴于用戶自身的能力,可以進行自動化的、高安全性、高并行的數(shù)據(jù)清洗。
技術實現(xiàn)要素:
為了解決現(xiàn)有技術中的上述問題,本發(fā)明提出了一種清洗比對入庫方法。
一種清洗比對入庫方法,該方法目的是保證數(shù)據(jù)的質(zhì)量,提高數(shù)據(jù)的價值。解決了以下問題:第一、找出相似重復的數(shù)據(jù)以便去重;第二,對不同來源的數(shù)據(jù)進行匹配;第三,使數(shù)據(jù)標準化;第四,支持全量數(shù)據(jù)清洗導入;第五,指出增量數(shù)據(jù)清洗導入;第六,支持大數(shù)據(jù)文件的清洗導入;第七,支持準確的異常數(shù)據(jù)報告功能;第八,支持自定義數(shù)據(jù)的清洗規(guī)則。
本發(fā)明采用的技術方案如下:一種清洗對比入庫方法,其特征在于,該方法包括如下步驟:
(1)數(shù)據(jù)采集單元基于針對數(shù)據(jù)來源的采集策略通過互聯(lián)網(wǎng)進行數(shù)據(jù)獲取,為采集到的數(shù)據(jù)設置來源屬性和時間戳,將數(shù)據(jù)集合關聯(lián)于本次采集的序列編號保存到緩存服務器中相應的位置,然后發(fā)送采集完成指令給統(tǒng)一處理平臺,采集完成指令中攜帶有本次采集的序列編號;
(2)緩存服務器保存來自不同數(shù)據(jù)來源的數(shù)據(jù),并基于統(tǒng)一處理平臺的請求將特定數(shù)據(jù)采集單元采集的匹配所請求序列編號的數(shù)據(jù)集合發(fā)送給統(tǒng)一處理平臺;
(3)統(tǒng)一數(shù)據(jù)處理平臺接收來自于緩存服務器的數(shù)據(jù)集合并將該數(shù)據(jù)集合存放到本地緩存中;在本地緩存中數(shù)據(jù)為空的時候,統(tǒng)一數(shù)據(jù)處理平臺向緩存服務器發(fā)送數(shù)據(jù)獲取請求;請求時攜帶所請求數(shù)據(jù)集合的序列編號,該請求的序列編號大于已處理的數(shù)據(jù)集合對應的序列編號;
(4)統(tǒng)一數(shù)據(jù)處理平臺獲取當前待處理的數(shù)據(jù)集合的數(shù)據(jù)簽名Sig,將該數(shù)據(jù)簽名Sig和歷史數(shù)據(jù)簽名表作對比,如果該數(shù)據(jù)簽名已經(jīng)保存于歷史數(shù)據(jù)簽名表中,則表示該數(shù)據(jù)集合已經(jīng)被處理過,丟棄該數(shù)據(jù)集合,繼續(xù)下一數(shù)據(jù)集合的處理;
(5)統(tǒng)一數(shù)據(jù)處理平臺對數(shù)據(jù)集合中的所有數(shù)據(jù)進行格式內(nèi)容的標準化處理;由于不同的上位機可能有不同的格式要求,需要針對不同的上位機基于不同的標準化規(guī)則進行數(shù)據(jù)的標準化;如果標準化過程中發(fā)現(xiàn)字段值錯誤,則判斷是不是發(fā)生字段值錯位,如果是,則將字段值存放到正確的字段中;
(6)統(tǒng)一數(shù)據(jù)處理平臺去除數(shù)據(jù)記錄中存在的明顯不合理字段值和一條數(shù)據(jù)記錄中存在明顯矛盾的字段值;
(7)統(tǒng)一數(shù)據(jù)處理平臺對數(shù)據(jù)集合進行缺失補全;
(8)統(tǒng)一數(shù)據(jù)處理平臺找出相似重復的數(shù)據(jù)以便去重;
(9)在從一上位機所要求的數(shù)據(jù)來源獲取的數(shù)據(jù)集合均處理完畢后,將處理后的數(shù)據(jù)集合保存到數(shù)據(jù)倉庫中,生成異常數(shù)據(jù)報告,并將該處理后的數(shù)據(jù)集合的保存位置以及異常數(shù)據(jù)報告發(fā)送給該上位機;
(10)上位機訪問數(shù)據(jù)倉庫獲取所需數(shù)據(jù);數(shù)據(jù)倉庫對上位機身份進行驗證,當驗證通過后,允許上位機基于獲取的保存位置進行處理后的數(shù)據(jù)集合的獲取;
進一步的,為不同的數(shù)據(jù)來源設置不同的數(shù)據(jù)采集周期。
進一步的,通過監(jiān)控獲取針對數(shù)據(jù)來源的數(shù)據(jù)產(chǎn)生高峰時間段,在高峰時間段過去后進行數(shù)據(jù)采集。
進一步的,數(shù)據(jù)來源在滿足預設條件后,進行主動的數(shù)據(jù)推送。
進一步的,預設條件是:在數(shù)據(jù)量達到預設值后進行主動的數(shù)據(jù)推送。
進一步的,預設的時間周期達到后進行主動的數(shù)據(jù)推送。
進一步的,支持全量數(shù)和增量數(shù)據(jù)清洗。
進一步的,支持大數(shù)據(jù)文件的清洗導入。
進一步的,支持自定義數(shù)據(jù)的清洗規(guī)則。
進一步的,支持并行的數(shù)據(jù)采集和處理。
本發(fā)明的有益效果包括:清洗后數(shù)據(jù)刪除率明顯降低,智能化程度高,人為參與程度較低,能夠自動化的進行大數(shù)據(jù)清洗,數(shù)據(jù)采集和處理是并行的,大大提高了清洗效率,針對不同的用戶作個性化的數(shù)據(jù)清理,在用戶進行數(shù)據(jù)獲取時對上位機身份作鑒權(quán),提高了安全性。
【附圖說明】
此處所說明的附圖是用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,但并不構(gòu)成對本發(fā)明的不當限定,在附圖中:
圖1是本發(fā)明所應用的清洗對比入庫系統(tǒng)結(jié)構(gòu)圖。
【具體實施方式】
下面將結(jié)合附圖以及具體實施例來詳細說明本發(fā)明,其中的示意性實施例以及說明僅用來解釋本發(fā)明,但并不作為對本發(fā)明的限定。
參見附圖1,是本發(fā)明所應用的一種清洗比對入庫系統(tǒng),該系統(tǒng)包括多數(shù)據(jù)來源,多個數(shù)據(jù)采集單元,緩存服務器,統(tǒng)一數(shù)據(jù)處理平臺,數(shù)據(jù)倉庫,上位機;
基于上述系統(tǒng),下面對本發(fā)明的一種清洗比對入庫方法進行詳細說明。
(1)數(shù)據(jù)采集單元基于針對數(shù)據(jù)來源的采集策略通過互聯(lián)網(wǎng)進行數(shù)據(jù)獲取,為采集到的數(shù)據(jù)設置來源屬性和時間戳,將數(shù)據(jù)集合關聯(lián)于本次采集的序列編號保存到緩存服務器中相應的位置,然后發(fā)送采集完成指令給統(tǒng)一處理平臺,采集完成指令中攜帶有本次采集的序列編號;
由于不同的數(shù)據(jù)來源其數(shù)據(jù)的產(chǎn)生都有一定的規(guī)律性,其產(chǎn)生的數(shù)據(jù)都有一定的特點;同一個數(shù)據(jù)采集單元并行負責多個數(shù)據(jù)來源的數(shù)據(jù)采集,不能對多個數(shù)據(jù)來源進行并行的實時采集,這樣采集效率會很低,統(tǒng)一處理平臺進行數(shù)據(jù)獲取和處理的效率也會很低,需要結(jié)合不同數(shù)據(jù)來源的數(shù)據(jù)產(chǎn)生規(guī)律來更新針對該數(shù)據(jù)來源的數(shù)據(jù)采集策略;針對不同的數(shù)據(jù)來源其采集策略是不同的;針對數(shù)據(jù)來源的采集策略可以設置為:為不同的數(shù)據(jù)來源設置不同的數(shù)據(jù)采集周期;還可設置為,通過監(jiān)控獲取針對數(shù)據(jù)來源的數(shù)據(jù)產(chǎn)生高峰時間段,在高峰時間段過去后進行數(shù)據(jù)采集;還可設置為:數(shù)據(jù)來源在滿足預設條件后,進行主動的數(shù)據(jù)推送,預設條件是:在數(shù)據(jù)量達到預設值后,或預設的時間周期達到后等;
(2)緩存服務器保存來自不同數(shù)據(jù)來源的數(shù)據(jù),并基于統(tǒng)一處理平臺的請求將特定數(shù)據(jù)采集單元采集的匹配所請求序列編號的數(shù)據(jù)集合發(fā)送給統(tǒng)一處理平臺;緩存服務器中為每個數(shù)據(jù)采集單元分配獨立的存儲區(qū)域,同一數(shù)據(jù)采集單元采集的數(shù)據(jù)集合按照采集序列編號的順序保存在同一存儲區(qū)域中;在數(shù)據(jù)采集單元對其對應存儲區(qū)域進行存儲時,如果該存儲區(qū)域用盡,則判斷位于存儲區(qū)域頭部的數(shù)據(jù)集合對應的序列編碼是否已經(jīng)無效,如果是,則直接從該頭部區(qū)域開始存儲,覆蓋該無效序列編碼對應的數(shù)據(jù)集合,如果否,則向緩存服務器申請臨時存儲區(qū)域進行存儲,在申請臨時存儲區(qū)域失敗的情況下,暫停針對當次序列編號的數(shù)據(jù)集合的存儲;
優(yōu)選的:當序列編碼對應的數(shù)據(jù)集合過了保留時間期限后則標記為無效;
優(yōu)選的:序列編號隨著采集次數(shù)的增加而增加;
優(yōu)選的:該臨時存儲區(qū)域在物理上鄰接該存儲區(qū)域;
(3)統(tǒng)一數(shù)據(jù)處理平臺接收來自于緩存服務器的數(shù)據(jù)集合并將該數(shù)據(jù)集合存放到本地緩存中;在本地緩存中數(shù)據(jù)為空的時候,統(tǒng)一數(shù)據(jù)處理平臺向緩存服務器發(fā)送數(shù)據(jù)獲取請求;請求時攜帶所請求數(shù)據(jù)集合的序列編號,該請求的序列編號大于已處理的數(shù)據(jù)集合對應的序列編號;
優(yōu)選的:統(tǒng)一數(shù)據(jù)處理平臺中包含多個并行處理設備,多個并行處理設備可以并行的對多個采集單元采集的數(shù)據(jù)集合進行處理,也可以同時處理同一采集單元采集的數(shù)據(jù)集合;
統(tǒng)一數(shù)據(jù)處理平臺可以一次性獲取多個序列編號的數(shù)據(jù)集合,并同時對該多個序列編號的數(shù)據(jù)集合進行處理;
(4)統(tǒng)一數(shù)據(jù)處理平臺獲取當前待處理的數(shù)據(jù)集合的數(shù)據(jù)簽名Sig,將該數(shù)據(jù)簽名Sig和歷史數(shù)據(jù)簽名表作對比,如果該數(shù)據(jù)簽名已經(jīng)保存于歷史數(shù)據(jù)簽名表中,則表示該數(shù)據(jù)集合已經(jīng)被處理過,丟棄該數(shù)據(jù)集合,繼續(xù)下一數(shù)據(jù)集合的處理;
當數(shù)據(jù)集合處理完畢后,將該數(shù)據(jù)集合的數(shù)據(jù)簽名保存到歷史數(shù)據(jù)簽名表中;
數(shù)據(jù)簽名基于該數(shù)據(jù)集合的數(shù)據(jù)值獲取,可以采用常見的簽名算法,此處不再詳述;
(5)統(tǒng)一數(shù)據(jù)處理平臺對數(shù)據(jù)集合中的所有數(shù)據(jù)進行格式內(nèi)容的標準化處理;由于不同的上位機可能有不同的格式要求,需要針對不同的上位機基于不同的標準化規(guī)則進行數(shù)據(jù)的標準化;如果標準化過程中發(fā)現(xiàn)字段值錯誤,則判斷是不是發(fā)生字段值錯位,如果是,則將字段值存放到正確的字段中;
數(shù)據(jù)格式內(nèi)容的不一致和輸入端有關,在整合多來源數(shù)據(jù)時也有可能遇到,將其處理成一致的某種格式即可;但由于不同的上位機對數(shù)據(jù)格式的要求可能不同,允許上位機設置自己要求的標準化規(guī)則;
檢查每條數(shù)據(jù)記錄,如果一條數(shù)據(jù)記錄中的某個數(shù)據(jù)值是正確的,但是其格式不正確,則根據(jù)上位機要求的標準化規(guī)則中針對數(shù)據(jù)值對應的字段的標準化要求對該字段值進行修改;例如:日期填寫格式不正確,民族填寫方式不符合要求等。
如果一條數(shù)據(jù)記錄中的某個字段值是錯誤的,不能進行標準化,通過錯誤字段值的重填,可以最快速的做數(shù)據(jù)記錄的更改,同時這種更改的可靠性也是比較高的;例如:姓名寫了性別,身份證號寫了手機號等等,均屬這種問題;當一個數(shù)據(jù)記錄中的一個字段值和其字段不符時,確定字段值是錯誤的,確定一條記錄中的所有錯誤字段值,針對每個錯誤字段值,遍歷該數(shù)據(jù)記錄中的其它錯誤字段值對應的字段,如果該個錯誤字段值滿足該其它錯誤字段值對應的字段中的一個字段要求,則將該個錯誤字段值填寫到該一個字段中,將該一個字段中的字段值回寫到該該個錯誤字段值對應的字段中,直到該一條數(shù)據(jù)記錄中的每個錯誤字段值均處理完畢;
(6)統(tǒng)一數(shù)據(jù)處理平臺去除數(shù)據(jù)記錄中存在的明顯不合理字段值和一條數(shù)據(jù)記錄中存在明顯矛盾的字段值;具體的:遍歷所有的數(shù)據(jù)字段值,根據(jù)數(shù)據(jù)字段的取值范圍確定明顯不合理字段值,將該不合理字段值刪除;刪除后該字段的字段值設置為缺失值;對于一條數(shù)據(jù)記錄中存在明顯的矛盾的一對字段值,根據(jù)一個字段值對另一字段值進行修改;
優(yōu)選的:根據(jù)關鍵字段值對另一字段值做修改;例如:根據(jù)身份證字段值對年齡字段值作修改;關鍵字段值可以有統(tǒng)一數(shù)據(jù)處理平臺設置或者由用戶設置;例如:設置身份證號碼、手機號碼、姓名字段為關鍵字段;
例如:有人填表時候瞎填,年齡200歲,年收入100000萬,這些值都可以明確的判定為不合理值;有些字段是可以互相驗證的,如:身份證號是1101031980XXXXXXXX,然后年齡填18歲,這明顯是矛盾的;
(7)統(tǒng)一數(shù)據(jù)處理平臺對數(shù)據(jù)集合進行缺失補全;具體的:統(tǒng)一數(shù)據(jù)處理平臺對數(shù)據(jù)集合中的所有數(shù)據(jù)記錄做遍歷,找出其中存在字段缺失的數(shù)據(jù)記錄,針對存在字段缺失的數(shù)據(jù)記錄先進行計算補全,對于經(jīng)過計算補全后仍然存在字段缺失的數(shù)據(jù)記錄,將其保存在補全緩存中;對于補全緩存中的每條數(shù)據(jù)記錄,根據(jù)當前數(shù)據(jù)記錄中的關鍵字段值到本地緩存中進行全部數(shù)據(jù)集合的查找,根據(jù)查找到的數(shù)據(jù)記錄對當前數(shù)據(jù)記錄中的缺失字段進行補全,如果查找到多個匹配的數(shù)據(jù)字段,則根據(jù)時間戳的先后選擇數(shù)據(jù)記錄進行補全;如果在本地緩存中沒有找到匹配的數(shù)據(jù)記錄,則根據(jù)將該關鍵字段值發(fā)送到緩存服務器中,緩存服務器接收該關鍵數(shù)據(jù)字段值并查找匹配的數(shù)據(jù)記錄,將匹配的數(shù)據(jù)記錄發(fā)送給統(tǒng)一數(shù)據(jù)處理平臺用于對當前數(shù)據(jù)記錄進行補全;如果在緩存服務器中沒有找到匹配的數(shù)據(jù)記錄,在允許人工補全的情況下,將該數(shù)據(jù)記錄發(fā)送給上位機進行人工補全;如果不允許人工補全,判斷該當前數(shù)據(jù)記錄中字段值的缺失率,如果缺失率大于第一缺失閾值,則將該條數(shù)據(jù)記錄做刪除處理,同時更新數(shù)據(jù)刪除計數(shù)值,如果缺失率小于等于第一缺失閾值,則對缺失字段填充默認字段值;
例如:對于生日字段,可以通過身份證號碼字段進行計算補全;還可以當前數(shù)據(jù)記錄中的所有數(shù)據(jù)記錄的該字段值的均值、中位數(shù)、眾數(shù)等填充缺失值;
優(yōu)選的:關鍵字段值可以為一個或者多個,關鍵字段值可以由平臺、數(shù)據(jù)采集單元或用戶來設置;
優(yōu)選的:統(tǒng)一數(shù)據(jù)處理平臺可以將關鍵字段值發(fā)送到一個或者多個緩存服務器中進行查找;
優(yōu)選的:將所有需要進行人工補全的數(shù)據(jù)集合統(tǒng)一發(fā)送到上位機進行人工補全;
(8)統(tǒng)一數(shù)據(jù)處理平臺找出相似重復的數(shù)據(jù)以便去重;具體的:統(tǒng)一數(shù)據(jù)處理平臺計算兩條數(shù)據(jù)記錄之間的相似度,如果相似度S小于第一相似度閾值TS,則認為該兩條數(shù)據(jù)記錄是重復數(shù)據(jù),根據(jù)該兩條數(shù)據(jù)記錄的置信度B選擇一條數(shù)據(jù)記錄進行刪除;采用公式(1)計算兩條數(shù)據(jù)記錄之間的相似度;
其中,第一相似度閾值TS可以由不同的用戶根據(jù)需求來設置;
B=w1×(當前時間-數(shù)據(jù)記錄獲取時間)+w2×數(shù)據(jù)來源置信度+w3*(1-字段值缺失率)公式(2)
其中,數(shù)據(jù)來源的置信度可以根據(jù)該數(shù)據(jù)來源歷史清洗處理中問題數(shù)據(jù)記錄比率來設置;問題數(shù)據(jù)記錄比率是指同一數(shù)據(jù)來源中經(jīng)過(5)~(8)中任一步驟處理的數(shù)據(jù)記錄數(shù)目占總的數(shù)據(jù)記錄的數(shù)目的比值;字段值缺失率是指該條數(shù)據(jù)記錄中存在缺失的字段占總字段數(shù)的比率;w1~w3為權(quán)重值,由統(tǒng)一處理平臺來預設;
優(yōu)選的,刪除置信度較低的一條數(shù)據(jù)記錄;
(9)在從一上位機所要求的數(shù)據(jù)來源獲取的數(shù)據(jù)集合均處理完畢后,將處理后的數(shù)據(jù)集合保存到數(shù)據(jù)倉庫中,生成異常數(shù)據(jù)報告,并將該處理后的數(shù)據(jù)集合的保存位置以及異常數(shù)據(jù)報告發(fā)送給該上位機;
異常數(shù)據(jù)報告中包括所處理的數(shù)據(jù)集合及其獲取數(shù)據(jù)來源,數(shù)據(jù)采集單元的采集時間,被丟棄的數(shù)據(jù)集合及其丟棄原因,明顯不合理和明顯矛盾的數(shù)據(jù)記錄條數(shù),缺失補全的數(shù)據(jù)記錄條數(shù),標準化處理的數(shù)據(jù)記錄條數(shù),重復刪除的數(shù)據(jù)記錄條數(shù),總的數(shù)據(jù)字段缺失率等;
(10)上位機訪問數(shù)據(jù)倉庫獲取所需數(shù)據(jù);數(shù)據(jù)倉庫對上位機身份進行驗證,當驗證通過后,允許上位機基于獲取的保存位置進行處理后的數(shù)據(jù)集合的獲??;
該清洗比對入庫方法還包括如下步驟:
(11)在數(shù)據(jù)處理過程中,統(tǒng)一處理平臺支持增量數(shù)據(jù)清洗導入;具體的:在數(shù)據(jù)處理過程中,如果上位機下達增量數(shù)據(jù)清洗導入的消息,統(tǒng)一處理平臺向數(shù)據(jù)采集單元發(fā)送增量數(shù)據(jù)獲取的請求,數(shù)據(jù)采集單元將增量數(shù)據(jù)發(fā)送到統(tǒng)一處理平臺,統(tǒng)一處理平臺將該增量數(shù)據(jù)保存到本地緩存中最后一數(shù)據(jù)集合后,等待統(tǒng)一處理平臺對該增量數(shù)據(jù)的處理;如果數(shù)據(jù)處理已經(jīng)完成,上位機下達增量數(shù)據(jù)清洗導入的消息,統(tǒng)一處理平臺向數(shù)據(jù)采集單元發(fā)送增量數(shù)據(jù)獲取的請求,數(shù)據(jù)采集單元將增量數(shù)據(jù)發(fā)送到統(tǒng)一處理平臺,統(tǒng)一處理平臺將該增量數(shù)據(jù)保存到本地緩存中,針對該增量數(shù)據(jù)執(zhí)行步驟(4)~(8)的一個或者多個的處理;處理完畢后將該處理后的數(shù)據(jù)集合發(fā)送到數(shù)據(jù)倉庫中,并通知下達消息的上位機獲取增量數(shù)據(jù)處理結(jié)果,同時將該處理后的數(shù)據(jù)集合的保存位置以及針對該增量數(shù)據(jù)集合處理的異常數(shù)據(jù)報告發(fā)送給該上位機;
(12)統(tǒng)一數(shù)據(jù)處理平臺支持大數(shù)據(jù)文件的清洗導入;用戶可以直接將大數(shù)據(jù)文件發(fā)送給統(tǒng)一數(shù)據(jù)處理平臺,上位機也可以直接向統(tǒng)一數(shù)據(jù)處理平臺發(fā)送大數(shù)據(jù)文件,統(tǒng)一數(shù)據(jù)處理平臺在接收到大數(shù)據(jù)文件后,將文件內(nèi)的數(shù)據(jù)記錄保存到本地緩存中,執(zhí)行步驟(4)~(8)的一個或者多個,并將處理結(jié)果發(fā)送給用戶或者上位機;
(13)統(tǒng)一數(shù)據(jù)處理平臺支持自定義數(shù)據(jù)的清洗規(guī)則;用戶可以通過統(tǒng)一數(shù)據(jù)處理平臺設置或修改清洗規(guī)則,還可以通過上位機下發(fā)數(shù)據(jù)清洗規(guī)則;統(tǒng)一處理平臺按照用戶設置的規(guī)則對目標數(shù)據(jù)集合進行清洗;通過清洗規(guī)則的設置不僅可以提供用戶所需的標準化格式,還可以設置清洗的深度,清洗過程中的各項閾值,清洗必選或跳過的步驟,是否允許人工補全等;設置深度清洗時,清洗規(guī)則較為嚴格,可以設置較高的閾值要求,并完成完整的清洗步驟等;而對于寬松的清洗規(guī)則,則對應于淺度清洗,設置較低的閾值要求同時可以選擇完成部分清洗步驟等;
本發(fā)明的清洗比對入庫方法和系統(tǒng),能夠找出相似重復的數(shù)據(jù)以便去重、對不同來源的數(shù)據(jù)進行匹配、進行數(shù)據(jù)集合的去矛盾、補全和標準化、支持全量數(shù)和增量數(shù)據(jù)清洗,支持大數(shù)據(jù)文件的清洗導入、支持自定義數(shù)據(jù)的清洗規(guī)則、支持并行的數(shù)據(jù)采集和處理。
以上所述僅是本發(fā)明的較佳實施方式,故凡依本發(fā)明專利申請范圍所述的構(gòu)造、特征及原理所做的等效變化或修飾,均包括于本發(fā)明專利申請范圍內(nèi)。