技術(shù)總結(jié)
本發(fā)明公開一種海量數(shù)據(jù)的清洗方法和系統(tǒng),涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,以提高數(shù)據(jù)清洗的速度和效率。所述海量數(shù)據(jù)的清洗方法包括:根據(jù)預(yù)設(shè)數(shù)據(jù)塊個數(shù)N,將映射歸約并行計算框架內(nèi)映射函數(shù)的個數(shù)設(shè)置為N,將歸約函數(shù)的個數(shù)設(shè)為1;利用映射歸約并行計算框架內(nèi)N個映射函數(shù)將海量數(shù)據(jù)分成N個數(shù)據(jù)塊,對每個數(shù)據(jù)塊中的數(shù)據(jù)進(jìn)行清洗,得到多個清洗的數(shù)據(jù)塊;利用歸約函數(shù)整合多個清洗的數(shù)據(jù)塊,得到整合數(shù)據(jù);對整合數(shù)據(jù)進(jìn)行清洗,完成海量數(shù)據(jù)的清洗。所述海量數(shù)據(jù)的清洗系統(tǒng)包括上述海量數(shù)據(jù)的清洗方法。本發(fā)明提供的海量數(shù)據(jù)的清洗方法用于海量數(shù)據(jù)清洗。
技術(shù)研發(fā)人員:張素香;龐九鳳;高德荃;張東;曹津平;李莉敏;李國春;王乾坤;徐慧明
受保護(hù)的技術(shù)使用者:國家電網(wǎng)公司信息通信分公司;國家電網(wǎng)公司
文檔號碼:201610959853
技術(shù)研發(fā)日:2016.11.03
技術(shù)公布日:2017.03.08