技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種社保大數(shù)據(jù)分布式預(yù)處理方法及系統(tǒng),主要技術(shù)方案是將數(shù)據(jù)預(yù)處理流程定義為包含多個(gè)預(yù)處理操作節(jié)點(diǎn)的數(shù)據(jù)預(yù)處理作業(yè),預(yù)處理操作節(jié)點(diǎn)在獨(dú)立的線程中并行執(zhí)行;對(duì)復(fù)雜度高的數(shù)據(jù)操作節(jié)點(diǎn)分配多個(gè)執(zhí)行線程,并以分布式云服務(wù)器集群的方式并行執(zhí)行數(shù)據(jù)預(yù)處理作業(yè);分布式預(yù)處理系統(tǒng)的數(shù)據(jù)裝載按列方式寫(xiě)入分布式文件系統(tǒng),同時(shí)利用NoSQL對(duì)數(shù)據(jù)寫(xiě)入操作進(jìn)行緩存優(yōu)化。本發(fā)明充分發(fā)揮了預(yù)處理云服務(wù)器的處理性能,克服了單一服務(wù)器的性能瓶頸,也避免了服務(wù)器與HDFS數(shù)據(jù)節(jié)點(diǎn)之間多余的數(shù)據(jù)傳輸,同時(shí)提高數(shù)據(jù)裝載到HDFS的效率,從而提高大數(shù)據(jù)預(yù)處理的效率。
技術(shù)研發(fā)人員:張星明;陳偉健;林育蓓;吳世豪
受保護(hù)的技術(shù)使用者:華南理工大學(xué)
文檔號(hào)碼:201610451305
技術(shù)研發(fā)日:2016.06.20
技術(shù)公布日:2016.11.16