技術(shù)總結(jié)
本發(fā)明公開了一種虛擬化環(huán)境下的多元數(shù)據(jù)清洗技術(shù),包含以下步驟:(1)數(shù)據(jù)分析、定義錯誤類型,(2)搜索、識別錯誤記錄,(3)修正錯誤。經(jīng)過本方法數(shù)據(jù)清洗之后:數(shù)據(jù)質(zhì)量至少達(dá)到:1)數(shù)據(jù)對用戶必須是可信的??尚判园ň_性、完整性、一致性、有效性、唯一性等指標(biāo)。(1)精確性:描述數(shù)據(jù)是否與其對應(yīng)的客觀實體的特征相一致。(2)完整性:描述數(shù)據(jù)是否存在缺失記錄或缺失字段。(3)一致性:描述同一實體的同一屬性的值在不同的系統(tǒng)是否一致。(4)有效性:描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍(5)唯一性描述數(shù)據(jù)是否存在重復(fù)記錄。
技術(shù)研發(fā)人員:肖國玉;王瑞青;高廣濤;周專科;陳建楠;徐金龍;劉凱;李娜
受保護(hù)的技術(shù)使用者:上海漢邦京泰數(shù)碼技術(shù)有限公司
文檔號碼:201611002341
技術(shù)研發(fā)日:2016.11.15
技術(shù)公布日:2017.05.31