亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

實時流數(shù)據(jù)的處理方法、裝置及服務(wù)器與流程

文檔序號:11807939閱讀:674來源:國知局
實時流數(shù)據(jù)的處理方法、裝置及服務(wù)器與流程

本發(fā)明涉及大數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及實時流數(shù)據(jù)的處理方法、裝置及服務(wù)器。



背景技術(shù):

隨著搜索引擎,廣告系統(tǒng)和推薦系統(tǒng)等技術(shù)在互聯(lián)網(wǎng)企業(yè)中越來越廣泛的應(yīng)用,用戶的瀏覽、點擊等行為的實時收集和聚合計算變得越來越重要。若對用戶行為進(jìn)行分析,進(jìn)行數(shù)據(jù)連接是大數(shù)據(jù)處理領(lǐng)域的重要操作,通過數(shù)據(jù)連接,可以結(jié)合多個不同的數(shù)據(jù)集發(fā)現(xiàn)更多的數(shù)據(jù)特征。

當(dāng)前大數(shù)據(jù)處理中的數(shù)據(jù)連接方法主要有兩種:

方法一、量級相當(dāng)?shù)膬蓚€數(shù)據(jù)集的連接。這種方式下,一般會根據(jù)連接操作使用的鍵值,將兩個數(shù)據(jù)集中鍵值相同的數(shù)據(jù)項通過網(wǎng)絡(luò)傳輸?shù)酵粋€進(jìn)程中完成連接操作。方法二、量級相差較大的兩個數(shù)據(jù)集的連接。這種方式下,一般會將整個小數(shù)據(jù)集通過網(wǎng)絡(luò)傳輸?shù)酱髷?shù)據(jù)集每個分片所在機(jī)器上,然后計算進(jìn)程根據(jù)鍵值將大數(shù)據(jù)集的一個分片和整個小數(shù)據(jù)集做連接。

因?qū)崟r流數(shù)據(jù)處理系統(tǒng)對數(shù)據(jù)操作的延遲有較高的要求,上述兩種方式若直接應(yīng)用到實時流數(shù)據(jù)處理系統(tǒng)中,存在如下不足:

現(xiàn)有方式一,在數(shù)據(jù)連接過程中需要進(jìn)行兩次網(wǎng)絡(luò)上的傳輸和三次內(nèi)存中的計算,復(fù)雜的內(nèi)存操作必然顯著增加數(shù)據(jù)處理延遲;現(xiàn)有方式二,需要在網(wǎng)絡(luò)上對小數(shù)據(jù)集進(jìn)行過多的傳輸,會顯著增加數(shù)據(jù)處理延遲。



技術(shù)實現(xiàn)要素:

本發(fā)明實施例提出了一種實時流數(shù)據(jù)的處理方法、裝置及服務(wù)器,能夠解決數(shù)據(jù)處理延遲的問題,本發(fā)明能夠顯著減小數(shù)據(jù)連接操作的延遲。

第一方面,本發(fā)明實施例提供了一種實時流數(shù)據(jù)的處理方法,所述方法包括:

對待處理數(shù)據(jù)根據(jù)鍵值進(jìn)行哈希分片,得到記錄多個分片數(shù)據(jù)的哈希表;

將每個單位時間內(nèi)的流數(shù)據(jù)進(jìn)行哈希運算,得到所述每個單位時間內(nèi)的流數(shù)據(jù)的鍵值;

根據(jù)所述哈希表和所述每個單位時間內(nèi)的流數(shù)據(jù)的鍵值,將所述每個單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在的服務(wù)器,進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集。

其中,所述根據(jù)所述哈希表和所述每個單位時間內(nèi)的流數(shù)據(jù)的鍵值,將所述每個單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在的服務(wù)器,具體包括:

根據(jù)所述每個單位時間內(nèi)的流數(shù)據(jù)的鍵值,在所述哈希表中查找對應(yīng)的分片數(shù)據(jù);

查找到對應(yīng)的分片數(shù)據(jù)時,獲取所述分片數(shù)據(jù)所在的服務(wù)器地址;

根據(jù)所述服務(wù)器地址,將所述單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的服務(wù)器。

其中,所述每個單位時間內(nèi)的哈希算法與待處理數(shù)據(jù)進(jìn)行哈希分片的哈希算法相同。所述方法適用于Spark Streaming流數(shù)據(jù)處理平臺、Hadoop MapReduce平臺或Storm平臺。

優(yōu)選地,所述待處理數(shù)據(jù)的分片數(shù)據(jù)存儲一個服務(wù)器或不同的服務(wù)器。

第二方面,本發(fā)明實施例提供了一種實時流數(shù)據(jù)的處理裝置,所述處理裝置包括:

分片模塊,用于對待處理數(shù)據(jù)根據(jù)鍵值進(jìn)行哈希分片,得到記錄多個分片數(shù)據(jù)的哈希表;

哈希模塊,用于將每個單位時間內(nèi)的流數(shù)據(jù)進(jìn)行哈希運算,得到所述每個單位時間內(nèi)的流數(shù)據(jù)的鍵值;

數(shù)據(jù)連接模塊,用于根據(jù)所述分片模塊得到的所述哈希表和所述哈希模塊得到的所述每個單位時間內(nèi)的流數(shù)據(jù)的鍵值,將所述每個單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在的服務(wù)器,進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集。

其中,所述數(shù)據(jù)連接模塊包括:

查找單元,用于根據(jù)哈希模塊得到的所述每個單位時間內(nèi)的流數(shù)據(jù)的鍵值,在所述分片模塊的哈希表中查找對應(yīng)的分片數(shù)據(jù);

獲取單元,用于當(dāng)所述查找單元查找到對應(yīng)的分片數(shù)據(jù)時,獲取所述分片數(shù)據(jù)所在的服務(wù)器地址;

發(fā)送單元,用于根據(jù)所述服務(wù)器地址,將所述單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的服務(wù)器;

連接單元,用于將所述單位時間內(nèi)的流數(shù)據(jù)與所述待處理數(shù)據(jù)的分片數(shù)據(jù)進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集。

其中,所述哈希模塊中每個單位時間內(nèi)的哈希算法與所述分片模塊中待處理數(shù)據(jù)進(jìn)行哈希分片的哈希算法相同。所述服務(wù)器位于Spark Streaming流數(shù)據(jù)處理平臺、Hadoop MapReduce平臺或Storm平臺。

優(yōu)選地,所述分片模塊得到的待處理數(shù)據(jù)的分片數(shù)據(jù)存儲一個服務(wù)器或不同的服務(wù)器。

第三方面,本發(fā)明實施例提供了一種服務(wù)器,包括分片服務(wù)器、流數(shù)據(jù)服務(wù)器和主控服務(wù)器,所述分片服務(wù)器與所述流數(shù)據(jù)服務(wù)器與所述主控服務(wù)器連接;

分片服務(wù)器,用于對待處理數(shù)據(jù)根據(jù)鍵值進(jìn)行哈希分片,得到記錄多個分片數(shù)據(jù)的哈希表;

流數(shù)據(jù)服務(wù)器,用于將每個單位時間內(nèi)的流數(shù)據(jù)進(jìn)行哈希運算,得到所述每個單位時間內(nèi)的流數(shù)據(jù)的鍵值;

主控服務(wù)器,用于根據(jù)所述分片服務(wù)器得到的所述哈希表和所述流數(shù)據(jù)服務(wù)器得到的每個單位時間內(nèi)的流數(shù)據(jù)的鍵值,將所述每個單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在的分片服務(wù)器,進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集。

有益效果如下:

本發(fā)明通過首先對待處理數(shù)據(jù)進(jìn)行分片處理,因而在將單位時間內(nèi)的流數(shù)據(jù)連接到待處理數(shù)據(jù)時,根據(jù)單位時間內(nèi)的流數(shù)據(jù)的鍵值和哈希表中記錄的鍵值進(jìn)行比對,找到要連接的對應(yīng)的分片數(shù)據(jù),然后才將每個單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù),進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集,每個單位時間內(nèi)的流數(shù)據(jù)不再需要過多的網(wǎng)絡(luò)傳輸操作,且因不需要在進(jìn)程中完成連接操作,不存在復(fù)雜的內(nèi)存操作,因此,本發(fā)明能夠顯著減小數(shù)據(jù)連接操作的延遲。

附圖說明

下面將參照附圖描述本發(fā)明的具體實施例,其中:

圖1示出了本發(fā)明實施例一中實時流數(shù)據(jù)的處理方法的流程示意圖;

圖2示出了本發(fā)明實施例一中Spark Streaming數(shù)據(jù)連接操作處理流程示意圖;

圖3示出了本發(fā)明實施例二中實時流數(shù)據(jù)的處理方法的流程示意圖;

圖4示出了本發(fā)明實施例二中數(shù)據(jù)連接操作的示意圖;

圖5示出了本發(fā)明實施例三中實時流數(shù)據(jù)的處理裝置的結(jié)構(gòu)示意圖;

圖6示出了本發(fā)明實施例三中實時流數(shù)據(jù)的處理裝置的另一結(jié)構(gòu)示意圖;

圖7示出了本發(fā)明實施例四中服務(wù)器的結(jié)構(gòu)示意圖。

具體實施方式

為了使本發(fā)明的技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖對本發(fā)明的示例性實施例進(jìn)行進(jìn)一步詳細(xì)的說明,顯然,所描述的實施例僅是本發(fā)明的一部分實施例,而不是所有實施例的窮舉。并且在不沖突的情況下,本說明中的實施例及實施例中的特征可以互相結(jié)合。

發(fā)明人在發(fā)明過程中注意到:實時流數(shù)據(jù)中的數(shù)據(jù)連接操作常見于一個單位時間內(nèi)中的流數(shù)據(jù)和一個相對固定的大數(shù)據(jù)集合之間。大數(shù)據(jù)一般指單個機(jī)器處理不了的數(shù)據(jù),如單個機(jī)器無法存儲或無法傳輸處理的數(shù)據(jù)。實時流數(shù)據(jù)處理裝置對數(shù)據(jù)操作的延遲有較高的要求。而當(dāng)前的大數(shù)據(jù)處理領(lǐng)域使用的數(shù)據(jù)連接算法,要么需要過多的網(wǎng)絡(luò)傳輸操作,要么需要過于復(fù)雜的內(nèi)存操作,這樣都會顯著增加數(shù)據(jù)處理延遲。

基于此,本發(fā)明實施例提出了實時流數(shù)據(jù)的處理方法及裝置,先對待處理數(shù)據(jù)進(jìn)行分片處理,因而在將單位時間內(nèi)的流數(shù)據(jù)連接到待處理數(shù)據(jù)時,根據(jù)單位時間內(nèi)的流數(shù)據(jù)的鍵值和哈希表中記錄的鍵值進(jìn)行比對,然后才將每個單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在服務(wù)器,進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集,每個單位時間內(nèi)的流數(shù)據(jù)不再需要過多的網(wǎng)絡(luò)傳輸操作,且因不需要在進(jìn)程中完成連接操作,不存在復(fù)雜的內(nèi)存操作,因此,能夠顯著減小數(shù)據(jù)連接操作的延遲。

實施例一

圖1示出了本發(fā)明實施例中實時流數(shù)據(jù)的處理方法的流程示意圖,如圖所示,包括:

步驟101、對待處理數(shù)據(jù)根據(jù)鍵值進(jìn)行哈希分片,得到記錄多個分片數(shù)據(jù)的哈希表;

步驟102、將每個單位時間內(nèi)的流數(shù)據(jù)進(jìn)行哈希運算,得到每個單位時間內(nèi)的流數(shù)據(jù)的鍵值;

步驟103、根據(jù)哈希表和每個單位時間內(nèi)的流數(shù)據(jù)的鍵值,將每個單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在的服務(wù)器,進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集。

本發(fā)明的方案適用于Spark Streaming流數(shù)據(jù)處理平臺,如圖2所示,大的圓角方框代表待處理數(shù)據(jù),相對固定。單位時間內(nèi)數(shù)據(jù)集中的每個圓角方框代表一個單位時間內(nèi)的數(shù)據(jù),實際過程中,因流數(shù)據(jù)要滿足實時性,單位時間的量值比較小,單位時間內(nèi)的數(shù)據(jù)也可以稱為小時間片數(shù)據(jù),連續(xù)的流數(shù)據(jù)被切分成了離散的小時間片數(shù)據(jù)。每個小時間片內(nèi)的數(shù)據(jù)通過與待處理數(shù)據(jù)集合的連接操作,生成這個小時間片內(nèi)的數(shù)據(jù)連接操作輸出,由圖2右邊的小圓角方框表示。

本發(fā)明利用Spark Streaming平臺的數(shù)據(jù)分片功能和透明的網(wǎng)絡(luò)傳輸功能,實現(xiàn)本發(fā)明提出的數(shù)據(jù)連接操作。同時,本方案也適用于Hadoop MapReduce平臺或Storm平臺。

本發(fā)明通過對待處理數(shù)據(jù)進(jìn)行分片處理,因而在將單位時間內(nèi)的流數(shù)據(jù)連接到待處理數(shù)據(jù)時,根據(jù)單位時間內(nèi)的流數(shù)據(jù)的鍵值和哈希表中記錄的鍵值,就能知道將單位時間內(nèi)的流數(shù)據(jù)與哪個分片數(shù)據(jù)進(jìn)行連接,將每個單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在服務(wù)器,進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集,每個單位時間內(nèi)的流數(shù)據(jù)不再需要過多的網(wǎng)絡(luò)傳輸操作,且因不需要在進(jìn)程中完成連接操作,不存在復(fù)雜的內(nèi)存操作,顯著減小了數(shù)據(jù)連接操作的延遲。

本發(fā)明實施例二以實際中流數(shù)據(jù)的處理方法為例,對本發(fā)明實施例一進(jìn)行詳細(xì)描述。

圖3示出了本發(fā)明實施例中實時流數(shù)據(jù)的處理方法的流程示意圖,如圖所示,包括:

步驟201、對待處理數(shù)據(jù)根據(jù)鍵值進(jìn)行哈希分片,得到記錄多個分片數(shù)據(jù)的哈希表;

其中,該步驟對待處理數(shù)據(jù)進(jìn)行分片操作,目的是將待處理數(shù)據(jù)根據(jù)鍵值分為多個小的分片數(shù)據(jù),因而在與流數(shù)據(jù)進(jìn)行連接時,可以根據(jù)流數(shù)據(jù)的鍵值與分片數(shù)據(jù)的鍵值,先進(jìn)行匹配操作,然后再將流數(shù)據(jù)發(fā)送給對應(yīng)的分片數(shù)據(jù)所在服務(wù)器進(jìn)行數(shù)據(jù)連接,與現(xiàn)有的將流數(shù)據(jù)傳輸?shù)讲煌幚頂?shù)據(jù)所在的服務(wù)器需要多次傳輸方式的方案相比,大大減少了流數(shù)據(jù)的網(wǎng)絡(luò)傳輸。

大數(shù)據(jù)集被預(yù)先根據(jù)鍵值進(jìn)行哈希分片并且每個分片內(nèi)都使用哈希表結(jié)構(gòu)進(jìn)行存儲,方便快速查詢。通過待處理數(shù)據(jù)的預(yù)先哈希分片減少網(wǎng)絡(luò)開銷,通過哈希表結(jié)構(gòu)的快速查詢特點降低內(nèi)存操作時間。

步驟202、將每個單位時間內(nèi)的流數(shù)據(jù)進(jìn)行哈希運算,得到每個單位時間內(nèi)的流數(shù)據(jù)的鍵值;

其中,該步驟中對單位時間內(nèi)的流數(shù)據(jù)進(jìn)行哈希運算的哈希算法,一般來說與待處理數(shù)據(jù)的哈希算法相同。對于每個單位時間內(nèi)的流數(shù)據(jù)均進(jìn)行一次哈希運算,得到每個單位時間內(nèi)的流數(shù)據(jù)的鍵值。每個時間片內(nèi)的每個數(shù)據(jù)項都會根據(jù)相同的哈希函數(shù)傳輸?shù)酱髷?shù)據(jù)集的分片數(shù)據(jù)所在的機(jī)器。這樣,在一次數(shù)據(jù)連接操作中只有一次網(wǎng)絡(luò)傳輸操作。

步驟203、根據(jù)每個單位時間內(nèi)的流數(shù)據(jù)的鍵值,在哈希表中查找對應(yīng)的分片數(shù)據(jù);

該步驟完成數(shù)據(jù)連接操作只需要用小數(shù)據(jù)集每一項的鍵值去查詢特定大數(shù)據(jù)集分片的哈希表,這個操作的復(fù)雜性是0(1)的。

結(jié)合圖3所示的實時流數(shù)據(jù)的處理方法的流程示意圖,對該步驟進(jìn)行說明,因待處理數(shù)據(jù)已經(jīng)進(jìn)行預(yù)先哈希分片得到多個分片數(shù)據(jù),而單位時間內(nèi)的流數(shù)據(jù)本身就是多個時間片,在將每個時間片的流數(shù)據(jù)連接到待處理數(shù)據(jù)時,首先根據(jù)該時間片的流數(shù)據(jù)的鍵值到待處理數(shù)據(jù)的分片數(shù)據(jù)的鍵值中進(jìn)行查找,查找到匹配的鍵值時,則將該時間片的流數(shù)據(jù)發(fā)送給該鍵值對應(yīng)的待處理數(shù)據(jù)進(jìn)行數(shù)據(jù)連接操作,生成新的數(shù)據(jù)集。

其中,本發(fā)明中所述的每個單位時間內(nèi)的流數(shù)據(jù),可以是根據(jù)實際應(yīng)用環(huán)境需求,按照一定的時間段生成的流數(shù)據(jù),如一個小時的流數(shù)據(jù)、一天的流數(shù)據(jù)、一周的流數(shù)據(jù)等,都可以稱為時間片的流數(shù)據(jù),本發(fā)明在此不做具體限定。

步驟204、查找到對應(yīng)的分片數(shù)據(jù)時,獲取分片數(shù)據(jù)所在的服務(wù)器地址;

其中,在上述步驟查找到對應(yīng)的分片數(shù)據(jù)時,需要查找該分片數(shù)據(jù)所在的服務(wù)器地址,然后才能將流數(shù)據(jù)發(fā)送到對應(yīng)的服務(wù)器上,與待處理的大數(shù)據(jù)進(jìn)行連接。

具體地,根據(jù)數(shù)據(jù)ID和分片ID,可用從集群的數(shù)據(jù)管理單元中獲取到數(shù)據(jù)分片所在的服務(wù)器地址。數(shù)據(jù)管理單元常見于各種分布式系統(tǒng)中,比如Hadoop中的NameNode和Spark中的BlockManager。

獲取服務(wù)器地址的方式常用主流方式,在此詳細(xì)描述,是為了便于本領(lǐng)域技術(shù)人員使用或理解。

步驟205、將單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的服務(wù)器;

根據(jù)獲取的服務(wù)器地址,將該單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的服務(wù)器上。

步驟206、將單位時間內(nèi)的流數(shù)據(jù)與待處理數(shù)據(jù)的分片數(shù)據(jù)進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集。

具體的數(shù)據(jù)連接操作,可以是將單位時間內(nèi)的流數(shù)據(jù)連接到待處理數(shù)據(jù)的分片數(shù)據(jù)后面,也可以是將待處理數(shù)據(jù)的分片數(shù)據(jù)連接到單位時間內(nèi)的流數(shù)據(jù)后面。

本發(fā)明先對待處理數(shù)據(jù)進(jìn)行分片處理,因而在將單位時間內(nèi)的流數(shù)據(jù)連接到待處理數(shù)據(jù)時,根據(jù)單位時間內(nèi)的流數(shù)據(jù)的鍵值和哈希表中記錄的鍵值進(jìn)行比對,然后才將每個單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù),進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集,每個單位時間內(nèi)的流數(shù)據(jù)不再需要過多的網(wǎng)絡(luò)傳輸操作,且因不需要在進(jìn)程中完成連接操作,不存在復(fù)雜的內(nèi)存操作,能夠顯著了減小數(shù)據(jù)連接操作的延遲。

基于同一發(fā)明構(gòu)思,本發(fā)明實施例中還提供了一種實時流數(shù)據(jù)的處理裝置,由于這些設(shè)備解決問題的原理與一種實時流數(shù)據(jù)的方法相似,因此這些設(shè)備的實施可以參見方法的實施,重復(fù)之處不再贅述。

如圖5所示,處理裝置可以包括:

分片模塊301,用于對待處理數(shù)據(jù)根據(jù)鍵值進(jìn)行哈希分片,得到記錄多個分片數(shù)據(jù)的哈希表;

哈希模塊302,用于將每個單位時間內(nèi)的流數(shù)據(jù)進(jìn)行哈希運算,得到所述每個單位時間內(nèi)的流數(shù)據(jù)的鍵值;

數(shù)據(jù)連接模塊303,用于根據(jù)所述分片模塊得到的所述哈希表和所述哈希模塊得到的所述每個單位時間內(nèi)的流數(shù)據(jù)的鍵值,將所述每個單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在的服務(wù)器,進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集。

其中,參見圖6,數(shù)據(jù)連接模塊303包括:

查找單元3031,用于根據(jù)哈希模塊得到的所述每個單位時間內(nèi)的流數(shù)據(jù)的鍵值,在所述分片模塊的哈希表中查找對應(yīng)的分片數(shù)據(jù);

獲取單元3032,用于當(dāng)所述查找單元3031查找到對應(yīng)的分片數(shù)據(jù)時,獲取所述分片數(shù)據(jù)所在的服務(wù)器地址;

發(fā)送單元3033,用于根據(jù)所述服務(wù)器地址,將所述單位時間內(nèi)的流數(shù)據(jù)發(fā)送到所述服務(wù)器;

連接單元3034,用于將所述單位時間內(nèi)的流數(shù)據(jù)與所述待處理數(shù)據(jù)的分片數(shù)據(jù)進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集。

其中,哈希模塊302中每個單位時間內(nèi)的哈希算法與分片模塊中待處理數(shù)據(jù)進(jìn)行哈希分片的哈希算法相同。

其中,分片模塊301得到的待處理數(shù)據(jù)的分片數(shù)據(jù)存儲一個服務(wù)器或不同的服務(wù)器。

本發(fā)明提供的處理裝置,由分片模塊對待處理數(shù)據(jù)進(jìn)行分片處理,在數(shù)據(jù)連接模塊進(jìn)行數(shù)據(jù)連接時,可以根據(jù)單位時間內(nèi)的流數(shù)據(jù)的鍵值和哈希表中記錄的鍵值進(jìn)行比對,然后才將每個單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在服務(wù)器,進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集,每個單位時間內(nèi)的流數(shù)據(jù)不再需要過多的網(wǎng)絡(luò)傳輸操作,且因不需要在進(jìn)程中完成連接操作,不存在復(fù)雜的內(nèi)存操作,能夠顯著了減小數(shù)據(jù)連接操作的延遲。

實施例四

本實施例提供了一種服務(wù)器,參見圖7,該服務(wù)器400包括流數(shù)據(jù)服務(wù)器401、分片服務(wù)器402和主控服務(wù)器403,分片服務(wù)器402與流數(shù)據(jù)服務(wù)器401與主控服務(wù)器403連接;

分片服務(wù)器402,用于對待處理數(shù)據(jù)根據(jù)鍵值進(jìn)行哈希分片,得到記錄多個分片數(shù)據(jù)的哈希表;

流數(shù)據(jù)服務(wù)器401,用于將每個單位時間內(nèi)的流數(shù)據(jù)進(jìn)行哈希運算,得到所述每個單位時間內(nèi)的流數(shù)據(jù)的鍵值;

主控服務(wù)器403,用于根據(jù)分片服務(wù)器402得到的所述哈希表和流數(shù)據(jù)服務(wù)器401得到的每個單位時間內(nèi)的流數(shù)據(jù)的鍵值,將所述每個單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在的分片服務(wù)器,進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集。

實際應(yīng)用中,分片服務(wù)器可以包括多個分片模塊,各個分片模塊對不同的待處理數(shù)據(jù)并行實現(xiàn)哈希分片,提高對數(shù)據(jù)的處理速度,流數(shù)據(jù)服務(wù)器也可以包括多個哈希模塊,各個哈希模塊對不同的單位時間內(nèi)的流數(shù)據(jù)進(jìn)行并行處理。

本發(fā)明提供的服務(wù)器,將待處理數(shù)據(jù)進(jìn)行分片處理,主控服務(wù)器進(jìn)行數(shù)據(jù)連接時,可以根據(jù)單位時間內(nèi)的流數(shù)據(jù)的鍵值和哈希表中記錄的鍵值進(jìn)行比對,然后才將每個單位時間內(nèi)的流數(shù)據(jù)發(fā)送到對應(yīng)的分片數(shù)據(jù)所在分片服務(wù)器,進(jìn)行數(shù)據(jù)連接生成數(shù)據(jù)集,每個單位時間內(nèi)的流數(shù)據(jù)不再需要過多的網(wǎng)絡(luò)傳輸操作,且因不需要在進(jìn)程中完成連接操作,不存在復(fù)雜的內(nèi)存操作,能夠顯著了減小數(shù)據(jù)連接操作的延遲。

為了描述的方便,以上裝置的各部分以功能分為各種模塊或單元分別描述。當(dāng)然,在實施本發(fā)明時可以把各模塊或單元的功能在同一個或多個軟件或硬件中實現(xiàn)。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機(jī)程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1