1.一種實(shí)時(shí)流數(shù)據(jù)的處理方法,其特征在于,所述方法包括:
對待處理數(shù)據(jù)根據(jù)鍵值進(jìn)行哈希分片,得到記錄多個(gè)分片數(shù)據(jù)的哈希表;
將每個(gè)單位時(shí)間內(nèi)的流數(shù)據(jù)進(jìn)行哈希運(yùn)算,得到所述每個(gè)單位時(shí)間內(nèi)的流數(shù)據(jù)的鍵值;
根據(jù)所述哈希表和所述每個(gè)單位時(shí)間內(nèi)的流數(shù)據(jù)的鍵值,將所述每個(gè)單位時(shí)間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在的服務(wù)器,進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述哈希表和所述每個(gè)單位時(shí)間內(nèi)的流數(shù)據(jù)的鍵值,將所述每個(gè)單位時(shí)間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在的服務(wù)器,具體包括:
根據(jù)所述每個(gè)單位時(shí)間內(nèi)的流數(shù)據(jù)的鍵值,在所述哈希表中查找對應(yīng)的分片數(shù)據(jù);
查找到對應(yīng)的分片數(shù)據(jù)時(shí),獲取所述分片數(shù)據(jù)所在的服務(wù)器地址;
根據(jù)所述服務(wù)器地址,將所述單位時(shí)間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的服務(wù)器。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述每個(gè)單位時(shí)間內(nèi)的流數(shù)據(jù)的哈希算法與待處理數(shù)據(jù)進(jìn)行哈希分片的哈希算法相同。
4.如權(quán)利要求1或2所述的方法,其特征在于,所述待處理數(shù)據(jù)的分片數(shù)據(jù)存儲在一個(gè)服務(wù)器或存儲在不同的服務(wù)器。
5.如權(quán)利要求1-4任一所述的方法,其特征在于,所述方法適用于Spark Streaming流數(shù)據(jù)處理平臺、Hadoop MapReduce平臺或Storm平臺。
6.一種實(shí)時(shí)流數(shù)據(jù)的處理裝置,其特征在于,所述處理裝置包括:
分片模塊,用于對待處理數(shù)據(jù)根據(jù)鍵值進(jìn)行哈希分片,得到記錄多個(gè)分片數(shù)據(jù)的哈希表;
哈希模塊,用于將每個(gè)單位時(shí)間內(nèi)的流數(shù)據(jù)進(jìn)行哈希運(yùn)算,得到所述每個(gè)單位時(shí)間內(nèi)的流數(shù)據(jù)的鍵值;
數(shù)據(jù)連接模塊,用于根據(jù)所述分片模塊得到的所述哈希表和所述哈希模塊得到的所述每個(gè)單位時(shí)間內(nèi)的流數(shù)據(jù)的鍵值,將所述每個(gè)單位時(shí)間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在的服務(wù)器,進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集。
7.如權(quán)利要求6所述的處理裝置,其特征在于,所述數(shù)據(jù)連接模塊包括:
查找單元,用于根據(jù)哈希模塊得到的所述每個(gè)單位時(shí)間內(nèi)的流數(shù)據(jù)的鍵值,在所述分片模塊的哈希表中查找對應(yīng)的分片數(shù)據(jù);
獲取單元,用于當(dāng)所述查找單元查找到對應(yīng)的分片數(shù)據(jù)時(shí),獲取所述分片數(shù)據(jù)所在的服務(wù)器地址;
發(fā)送單元,用于根據(jù)所述服務(wù)器地址,將所述單位時(shí)間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的服務(wù)器;
連接單元,用于將所述單位時(shí)間內(nèi)的流數(shù)據(jù)與所述待處理數(shù)據(jù)的分片數(shù)據(jù)進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集。
8.如權(quán)利要求6或7所述的處理裝置,其特征在于,所述哈希模塊中每個(gè)單位時(shí)間內(nèi)的哈希算法與所述分片模塊中待處理數(shù)據(jù)進(jìn)行哈希分片的哈希算法相同。
9.如權(quán)利要求6或7所述的處理裝置,其特征在于,所述分片模塊得到的待處理數(shù)據(jù)的分片數(shù)據(jù)存儲一個(gè)服務(wù)器或不同的服務(wù)器。
10.如權(quán)利要求6-9任一所述的處理裝置,其特征在于,所述服務(wù)器位于Spark Streaming流數(shù)據(jù)處理平臺、Hadoop MapReduce平臺或Storm平臺。