1.一種數(shù)據(jù)處理方法,其特征在于,包括步驟:
獲取待處理數(shù)據(jù)流;
通過流處理將所述待處理數(shù)據(jù)流以時間片為單位切分成數(shù)據(jù)塊;
獲取所述數(shù)據(jù)塊的數(shù)據(jù)塊分區(qū)標識;
根據(jù)批量處理的時間將所述流處理分級為第一級流處理與第二級流處理,其中,所述第一級流處理對應的批量處理的時間小于所述第二級流處理對應的批量處理的時間;
將所述數(shù)據(jù)塊分區(qū)標識通過所述第一級流處理進行清洗后存儲至分布式存儲系統(tǒng);
將所述數(shù)據(jù)塊進行所述第二級流處理,并將處理后的數(shù)據(jù)塊存儲至海杜普分布式文件系統(tǒng)。
2.根據(jù)權利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述獲取待處理數(shù)據(jù)流的步驟包括:
接收數(shù)據(jù)讀取請求指令;
根據(jù)所述數(shù)據(jù)讀取請求指令,獲取待處理數(shù)據(jù)流。
3.根據(jù)權利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述通過流處理將所述待處理數(shù)據(jù)流以時間片為單位切分成數(shù)據(jù)塊的步驟之后還包括:
將每個所述數(shù)據(jù)塊作為單個彈性分布式數(shù)據(jù)集操作對象,并使用彈性分布式數(shù)據(jù)集操作處理所述每個數(shù)據(jù)塊。
4.根據(jù)權利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述將所述數(shù)據(jù)塊分區(qū)標識通過所述第一級流處理進行清洗后存儲至分布式存儲系統(tǒng)的步驟具體包括:
根據(jù)所述數(shù)據(jù)塊的內(nèi)容進行分區(qū)并獲取分區(qū)結果,根據(jù)所述分區(qū)結果將所述數(shù)據(jù)塊分區(qū)標識存儲至分布式存儲系統(tǒng);
根據(jù)對所述數(shù)據(jù)塊訪問的頻數(shù)進行等級劃分,將所述數(shù)據(jù)塊分區(qū)標識存儲至分布式存儲系統(tǒng)。
5.根據(jù)權利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述第一級流處理為秒級流處理,所述第二級流處理為分鐘級流處理。
6.一種數(shù)據(jù)處理系統(tǒng),其特征在于,包括:
數(shù)據(jù)流獲取模塊,用于獲取待處理數(shù)據(jù)流;
數(shù)據(jù)流分割模塊,用于通過流處理將所述待處理數(shù)據(jù)流以時間片為單位切分成數(shù)據(jù)塊;
數(shù)據(jù)塊分區(qū)標識獲取模塊,用于獲取所述數(shù)據(jù)塊的數(shù)據(jù)塊分區(qū)標識;
流處理分級模塊,用于根據(jù)批量處理的時間將所述流處理分級為第一級流處理與第二級流處理,其中,所述第一級流處理對應的批量處理時間小于所述第二級流處理對應的批量處理時間;
第一存儲模塊,用于將所述數(shù)據(jù)塊分區(qū)標識通過所述第一級流處理進行清洗后存儲至分布式存儲系統(tǒng);
第二存儲模塊,用于將所述數(shù)據(jù)塊進行所述第二級流處理,并將處理后的數(shù)據(jù)塊存儲至海杜普分布式文件系統(tǒng)。
7.根據(jù)權利要求6所述的數(shù)據(jù)處理系統(tǒng),其特征在于,所述數(shù)據(jù)流獲取模塊包括:
指令接收單元,用于接收數(shù)據(jù)讀取請求指令;
指令響應單元,用于根據(jù)所述數(shù)據(jù)讀取請求指令,獲取待處理數(shù)據(jù)流。
8.根據(jù)權利要求6所述的數(shù)據(jù)處理系統(tǒng),其特征在于,還包括:
數(shù)據(jù)塊處理模塊,用于將每個所述數(shù)據(jù)塊作為單個彈性分布式數(shù)據(jù)集操作對象,并使用彈性分布式數(shù)據(jù)集操作處理所述每個數(shù)據(jù)塊。
9.根據(jù)權利要求6所述的數(shù)據(jù)處理系統(tǒng),其特征在于,所述第一存儲模塊具體包括:
第一維度分區(qū)單元,用于根據(jù)所述數(shù)據(jù)塊的內(nèi)容進行分區(qū)并獲取分區(qū)結果,根據(jù)所述分區(qū)結果將所述數(shù)據(jù)塊分區(qū)標識存儲至分布式存儲系統(tǒng);
第二維度分區(qū)單元,用于根據(jù)對所述數(shù)據(jù)塊訪問的頻數(shù)進行等級劃分,將所述數(shù)據(jù)塊分區(qū)標識存儲至分布式存儲系統(tǒng)。
10.根據(jù)權利要求6所述的數(shù)據(jù)處理系統(tǒng),其特征在于,所述第一級流處理為秒級流處理,所述第二級流處理為分鐘級流處理。