1.一種虛擬化環(huán)境下的多元數(shù)據(jù)清洗技術(shù),其特征在于,包含以下步驟:(1)數(shù)據(jù)分析、定義錯(cuò)誤類(lèi)型,(2)搜索、識(shí)別錯(cuò)誤記錄,(3)修正錯(cuò)誤。
2.根據(jù)權(quán)利要求1所述的虛擬化環(huán)境下的多元數(shù)據(jù)清洗技術(shù),其特征在于,所述步驟(1)具體是:利用數(shù)據(jù)分析工具,來(lái)篩選錯(cuò)誤數(shù)據(jù);在錯(cuò)誤類(lèi)型分為兩大類(lèi):單數(shù)據(jù)源與多數(shù)據(jù)源,并將它們又各分為結(jié)構(gòu)級(jí)與記錄級(jí)錯(cuò)誤;這種分類(lèi)非常適合于解決數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)清理問(wèn)題。
3.根據(jù)權(quán)利要求1所述的虛擬化環(huán)境下的多元數(shù)據(jù)清洗技術(shù),其特征在于,所述步驟(2)具體是:在搜索、識(shí)別錯(cuò)誤記錄方面,根據(jù)自定義的清理規(guī)則庫(kù),查找不匹配的記錄。
4.根據(jù)權(quán)利要求1所述的虛擬化環(huán)境下的多元數(shù)據(jù)清洗技術(shù),其特征在于,所述步驟(3)具體是:根據(jù)發(fā)現(xiàn)的錯(cuò)誤模式,通過(guò)關(guān)聯(lián)查詢(xún)一定程度上修正錯(cuò)誤;對(duì)數(shù)值字段,能根據(jù)數(shù)理統(tǒng)計(jì)知識(shí)自動(dòng)修正,少量不能自動(dòng)修復(fù)的數(shù)據(jù)可以借助于人工干預(yù)完成。