技術總結
本發(fā)明提供一種基于大數(shù)據(jù)量的清洗方法。所述方法包括以下步驟:配置清洗規(guī)則、配置清洗后的數(shù)據(jù)的存儲方式、配置清洗程序的Spark集群服務器資源、部署清洗程序任務以及評估清洗后的數(shù)據(jù)。本發(fā)明具有減少數(shù)據(jù)存儲容量、提高數(shù)據(jù)檢索準確度和檢索速度、降低web展示端響應時間、以及滿足不同業(yè)務需要的優(yōu)點。
技術研發(fā)人員:蒙進財;李鵬;白志凌
受保護的技術使用者:北京北信源軟件股份有限公司
文檔號碼:201610647894
技術研發(fā)日:2016.08.09
技術公布日:2016.12.07