一種數(shù)據(jù)處理方法及裝置制造方法
【專利摘要】本申請(qǐng)公開了一種數(shù)據(jù)處理方法及裝置,包括:取待處理數(shù)據(jù)記錄的至少一個(gè)待處理維度的維度數(shù)據(jù);并針對(duì)每個(gè)待處理維度,根據(jù)該待處理維度的維度數(shù)據(jù),從預(yù)先設(shè)定的與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元中,選擇將要對(duì)該待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元;并將該待處理數(shù)據(jù)記錄分發(fā)給選擇的數(shù)據(jù)處理單元;以及由選擇的數(shù)據(jù)處理單元對(duì)該待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理。采用本申請(qǐng)實(shí)施例提供的方案,提高了進(jìn)行數(shù)據(jù)處理的效率。
【專利說明】一種數(shù)據(jù)處理方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】中的數(shù)據(jù)處理【技術(shù)領(lǐng)域】,尤其涉及一種數(shù)據(jù)處理方法及裝置。
【背景技術(shù)】
[0002]目前,在計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的實(shí)際應(yīng)用中,經(jīng)常需要對(duì)大量的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、聚合計(jì)算以及分析等處理,例如,數(shù)據(jù)求和、數(shù)據(jù)去重、求取數(shù)據(jù)最大值以及求取數(shù)據(jù)最小值等處理。
[0003]現(xiàn)有技術(shù)中,在對(duì)流數(shù)據(jù)進(jìn)行處理時(shí),數(shù)據(jù)源通過消息中間件將數(shù)據(jù)記錄以分批的形式發(fā)送到數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理設(shè)備針對(duì)數(shù)據(jù)記錄的待處理維度的維度數(shù)據(jù)進(jìn)行處理,并得到該批次數(shù)據(jù)記錄的處理結(jié)果,進(jìn)一步的,還可以將對(duì)多個(gè)批次數(shù)據(jù)記錄進(jìn)行處理得到的多個(gè)處理結(jié)果進(jìn)行綜合累加處理,并將數(shù)據(jù)記錄和最終得到的數(shù)據(jù)結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中。
[0004]在現(xiàn)有技術(shù)的上述方案中,數(shù)據(jù)設(shè)備對(duì)數(shù)據(jù)記錄的處理是串行進(jìn)行的,必須等待上一條數(shù)據(jù)記錄被處理完成后,再處理下一條數(shù)據(jù)記錄,并且針對(duì)一個(gè)批次的數(shù)據(jù)記錄,僅能對(duì)一個(gè)維度的維度數(shù)據(jù)進(jìn)行處理,當(dāng)需要針對(duì)多個(gè)數(shù)據(jù)維度進(jìn)行處理時(shí),也只能是依次進(jìn)行的,從而導(dǎo)致對(duì)數(shù)據(jù)處理的效率較低。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本申請(qǐng)實(shí)施例提供一種數(shù)據(jù)處理方法及裝置,用于解決現(xiàn)有技術(shù)中存在的進(jìn)行數(shù)據(jù)處理的效率較低的問題。
[0006]本申請(qǐng)實(shí)施例通過如下技術(shù)方案實(shí)現(xiàn):
[0007]本申請(qǐng)實(shí)施例提供了一種數(shù)據(jù)處理方法,包括:
[0008]獲取待處理數(shù)據(jù)記錄的至少一個(gè)待處理維度的維度數(shù)據(jù);
[0009]針對(duì)每個(gè)待處理維度,根據(jù)該待處理維度的維度數(shù)據(jù),從預(yù)先設(shè)定的與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元中,選擇將要對(duì)所述待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元;
[0010]將所述待處理數(shù)據(jù)記錄分發(fā)給選擇的數(shù)據(jù)處理單元;
[0011]由選擇的數(shù)據(jù)處理單元對(duì)所述待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理。
[0012]本申請(qǐng)實(shí)施例提供的上述數(shù)據(jù)處理方法中,針對(duì)數(shù)據(jù)記錄的不同維度預(yù)先設(shè)定了對(duì)應(yīng)的數(shù)據(jù)處理單元,從而使得針對(duì)不同維度的維度數(shù)據(jù),可以由各維度對(duì)應(yīng)的數(shù)據(jù)處理單元并行處理,并且,針對(duì)每個(gè)維度設(shè)定了對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元,所以可以針對(duì)多個(gè)待處理數(shù)據(jù)記錄的該維度的維度數(shù)據(jù)并行處理,從而提高了進(jìn)行數(shù)據(jù)處理的效率。
[0013]進(jìn)一步的,根據(jù)該待處理維度的維度數(shù)據(jù),從預(yù)先設(shè)定的與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元中,選擇將要對(duì)所述待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元,具體包括:
[0014]確定該待處理維度的維度數(shù)據(jù)的哈希碼;
[0015]使用該維度數(shù)據(jù)的哈希碼對(duì)與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元的數(shù)量取余,得到余數(shù)值;
[0016]從所述多個(gè)數(shù)據(jù)處理單元中,選擇單元ID為所述余數(shù)值的數(shù)據(jù)處理單元,作為將要對(duì)所述待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元。
[0017]這樣,能夠根據(jù)該待處理維度的維度數(shù)據(jù)的哈希碼,準(zhǔn)確地從多個(gè)數(shù)據(jù)處理單元中,選擇將要對(duì)該待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元。
[0018]進(jìn)一步的,由選擇的數(shù)據(jù)處理單元對(duì)所述待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理,具體包括:
[0019]選擇的數(shù)據(jù)處理單元確定所述待處理數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼;
[0020]根據(jù)所述唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位,從保存已接收數(shù)據(jù)記錄的多個(gè)數(shù)據(jù)集中,確定與所述唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位對(duì)應(yīng)的數(shù)據(jù)集,作為待查詢數(shù)據(jù)集,所述多個(gè)數(shù)據(jù)集中每個(gè)數(shù)據(jù)集中保存的數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位相同,且不同數(shù)據(jù)集中保存的數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位不同;
[0021]當(dāng)確定的所述待查詢數(shù)據(jù)集中不存在所述待處理數(shù)據(jù)記錄時(shí),對(duì)所述待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理。
[0022]這樣,在對(duì)待處理數(shù)據(jù)記錄的該維度數(shù)據(jù)進(jìn)行處理時(shí),首先根據(jù)保存已接收數(shù)據(jù)記錄的多個(gè)數(shù)據(jù)集進(jìn)行去重處理,其去重處理時(shí)不再需要從所有已接收數(shù)據(jù)記錄中查詢,只需要從多個(gè)數(shù)據(jù)集之一中查詢即可,減少了去重處理的計(jì)算量,從而進(jìn)一步提高了進(jìn)行數(shù)據(jù)處理的效率。
[0023]進(jìn)一步的,上述數(shù)據(jù)處理方法,還包括:
[0024]根據(jù)所述多個(gè)數(shù)據(jù)集中保存的數(shù)據(jù)記錄的時(shí)間戳,對(duì)所述多個(gè)數(shù)據(jù)集中滿足預(yù)設(shè)丟棄條件的數(shù)據(jù)記錄進(jìn)行丟棄處理,數(shù)據(jù)記錄的時(shí)間戳為該數(shù)據(jù)記錄被保存到數(shù)據(jù)集的時(shí)間信息。
[0025]這樣,可以節(jié)省數(shù)據(jù)集的存儲(chǔ)空間,并且可以減少數(shù)據(jù)集中存儲(chǔ)的數(shù)據(jù)記錄的數(shù)據(jù)量,以便在去重處理過程中減少查詢時(shí)間,提高查詢效率。
[0026]進(jìn)一步的,上述數(shù)據(jù)處理方法,還包括:
[0027]針對(duì)該待處理維度,對(duì)所述多個(gè)數(shù)據(jù)處理單元分別對(duì)各自接收的數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理后得到的處理結(jié)果,進(jìn)行綜合累加處理。
[0028]本申請(qǐng)實(shí)施例還提供一種數(shù)據(jù)處理裝置,包括:
[0029]獲取單元,用于獲取待處理數(shù)據(jù)記錄的至少一個(gè)待處理維度的維度數(shù)據(jù);
[0030]選擇單元,用于針對(duì)每個(gè)待處理維度,根據(jù)該待處理維度的維度數(shù)據(jù),從預(yù)先設(shè)定的與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元中,選擇將要對(duì)所述待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元;
[0031]分發(fā)單元,用于將所述待處理數(shù)據(jù)記錄分發(fā)給選擇的數(shù)據(jù)處理單元;
[0032]數(shù)據(jù)處理單元,用于對(duì)分發(fā)到的所述待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理。
[0033]本申請(qǐng)實(shí)施例提供的上述數(shù)據(jù)處理裝置中,針對(duì)數(shù)據(jù)記錄的不同維度預(yù)先設(shè)定了對(duì)應(yīng)的數(shù)據(jù)處理單元,從而使得針對(duì)不同維度的維度數(shù)據(jù),可以由各維度對(duì)應(yīng)的數(shù)據(jù)處理單元并行處理,并且,針對(duì)每個(gè)維度設(shè)定了對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元,所以可以針對(duì)多個(gè)待處理數(shù)據(jù)記錄的該維度的維度數(shù)據(jù)并行處理,從而提高了進(jìn)行數(shù)據(jù)處理的效率。
[0034]進(jìn)一步的,選擇單元,具體用于確定該待處理維度的維度數(shù)據(jù)的哈希碼;并使用該維度數(shù)據(jù)的哈希碼對(duì)與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元的數(shù)量取余,得到余數(shù)值;以及從所述多個(gè)數(shù)據(jù)處理單元中,選擇單元ID為所述余數(shù)值的數(shù)據(jù)處理單元,作為將要對(duì)所述待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元。
[0035]這樣,能夠根據(jù)該待處理維度的維度數(shù)據(jù)的哈希碼,準(zhǔn)確地從多個(gè)數(shù)據(jù)處理單元中,選擇將要對(duì)該待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元。
[0036]進(jìn)一步的,數(shù)據(jù)處理單元,具體用于確定所述待處理數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼;并根據(jù)所述唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位,從保存已接收數(shù)據(jù)記錄的多個(gè)數(shù)據(jù)集中,確定與所述唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位對(duì)應(yīng)的數(shù)據(jù)集,作為待查詢數(shù)據(jù)集,所述多個(gè)數(shù)據(jù)集中每個(gè)數(shù)據(jù)集中保存的數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位相同,且不同數(shù)據(jù)集中保存的數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位不同;以及當(dāng)確定的所述待查詢數(shù)據(jù)集中不存在所述待處理數(shù)據(jù)記錄時(shí),對(duì)所述待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理。
[0037]這樣,在對(duì)待處理數(shù)據(jù)記錄的該維度數(shù)據(jù)進(jìn)行處理時(shí),首先根據(jù)保存已接收數(shù)據(jù)記錄的多個(gè)數(shù)據(jù)集進(jìn)行去重處理,其去重處理時(shí)不再需要從所有已接收數(shù)據(jù)記錄中查詢,只需要從多個(gè)數(shù)據(jù)集之一中查詢即可,減少了去重處理的計(jì)算量,從而進(jìn)一步提高了進(jìn)行數(shù)據(jù)處理的效率。
[0038]進(jìn)一步的,上述數(shù)據(jù)處理裝置,還包括:
[0039]丟棄單元,用于根據(jù)所述多個(gè)數(shù)據(jù)集中保存的數(shù)據(jù)記錄的時(shí)間戳,對(duì)所述多個(gè)數(shù)據(jù)集中滿足預(yù)設(shè)丟棄條件的數(shù)據(jù)記錄進(jìn)行丟棄處理,數(shù)據(jù)記錄的時(shí)間戳為該數(shù)據(jù)記錄被保存到數(shù)據(jù)集的時(shí)間信息。
[0040]這樣,可以節(jié)省數(shù)據(jù)集的存儲(chǔ)空間,并且可以減少數(shù)據(jù)集中存儲(chǔ)的數(shù)據(jù)記錄的數(shù)據(jù)量,以便在去重處理過程中減少查詢時(shí)間,提高查詢效率。
[0041]進(jìn)一步的,上述數(shù)據(jù)處理裝置,還包括:
[0042]綜合累加單元,用于針對(duì)該待處理維度,對(duì)所述多個(gè)數(shù)據(jù)處理單元分別對(duì)各自接收的數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理后得到的處理結(jié)果,進(jìn)行綜合累加處理。
[0043]本申請(qǐng)的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本申請(qǐng)而了解。本申請(qǐng)的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。
【專利附圖】
【附圖說明】
[0044]附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本申請(qǐng)實(shí)施例一起用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的限制。在附圖中:
[0045]圖1為本申請(qǐng)實(shí)施例提供的數(shù)據(jù)處理方法的流程圖;
[0046]圖2為本申請(qǐng)實(shí)施例提供的數(shù)據(jù)處理方法中選擇將要對(duì)待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元的流程圖;
[0047]圖3為本申請(qǐng)實(shí)施例提供的數(shù)據(jù)處理方法中由數(shù)據(jù)處理單元對(duì)待處理數(shù)據(jù)記錄的維度數(shù)據(jù)進(jìn)行處理的流程圖;
[0048]圖4為本申請(qǐng)實(shí)施例提供的數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0049]為了給出提高進(jìn)行數(shù)據(jù)處理的效率的實(shí)現(xiàn)方案,本申請(qǐng)實(shí)施例提供了一種數(shù)據(jù)處理方法及裝置,該技術(shù)方案可以應(yīng)用于對(duì)數(shù)據(jù)進(jìn)行處理的過程,既可以實(shí)現(xiàn)為一種方法,也可以實(shí)現(xiàn)為一種裝置。以下結(jié)合說明書附圖對(duì)本申請(qǐng)的優(yōu)選實(shí)施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)施例僅用于說明和解釋本申請(qǐng),并不用于限定本申請(qǐng)。并且在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0050]本申請(qǐng)實(shí)施例提供一種數(shù)據(jù)處理方法,如圖1所示,包括:
[0051]步驟101、獲取待處理數(shù)據(jù)記錄的至少一個(gè)待處理維度的維度數(shù)據(jù)。
[0052]步驟102、針對(duì)每個(gè)待處理維度,根據(jù)該待處理維度的維度數(shù)據(jù),從預(yù)先設(shè)定的與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元中,選擇將要對(duì)該待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元。
[0053]步驟103、將該待處理數(shù)據(jù)記錄分發(fā)給選擇的數(shù)據(jù)處理單元。
[0054]步驟104、由選擇的數(shù)據(jù)處理單元對(duì)該待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理。
[0055]下面結(jié)合附圖,用具體實(shí)施例對(duì)本申請(qǐng)?zhí)峁┑姆椒把b置進(jìn)行詳細(xì)描述。
[0056]本申請(qǐng)實(shí)施例中,上述步驟101中獲取的待處理數(shù)據(jù)記錄可以是以流數(shù)據(jù)的形式不斷傳輸至數(shù)據(jù)處理裝置的,待處理數(shù)據(jù)記錄可以是各種類型的數(shù)據(jù)記錄,例如,可以是與互聯(lián)網(wǎng)技術(shù)相關(guān)的數(shù)據(jù)記錄,如電子商務(wù)網(wǎng)站中涉及的交易數(shù)據(jù)記錄。
[0057]待處理維度可以是預(yù)先根據(jù)數(shù)據(jù)處理的實(shí)際需要設(shè)置的,可以設(shè)置為多個(gè),以便后續(xù)能夠針對(duì)不同的待處理維度對(duì)數(shù)據(jù)記錄進(jìn)行并行處理,從而提高數(shù)據(jù)處理效率。待處理維度可以是數(shù)據(jù)記錄的各種數(shù)據(jù)維度,例如,對(duì)于交易數(shù)據(jù)記錄,該待處理維度可以是買家支付金額維度,則該買家支付金額維度的維度數(shù)據(jù)即為交易數(shù)據(jù)記錄中買家購(gòu)買商品時(shí)支付的金額,也可以是賣家收取金額維度,則該賣家收取金額維度的維度數(shù)據(jù)即為交易數(shù)據(jù)記錄中賣家出售商品時(shí)收取的金額,也可以是郵費(fèi)金額維度,則該郵費(fèi)維度的維度數(shù)據(jù)即為交易數(shù)據(jù)記錄中賣家向買家郵寄商品時(shí)買家需要支付的郵費(fèi)。
[0058]進(jìn)一步的,為了減少后續(xù)對(duì)數(shù)據(jù)記錄進(jìn)行處理時(shí)的計(jì)算量,在上述步驟101之前,還可以對(duì)接收的流數(shù)據(jù)的形式的原始數(shù)據(jù)記錄進(jìn)行預(yù)處理,篩選出后續(xù)進(jìn)行數(shù)據(jù)處理所需要的數(shù)據(jù),得到待處理數(shù)據(jù)記錄。
[0059]本申請(qǐng)實(shí)施例中,預(yù)先針對(duì)每種數(shù)據(jù)維度設(shè)置了對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元,從而可以同時(shí)對(duì)多個(gè)待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行并行處理,以提高處理效率。并且,可以為每個(gè)數(shù)據(jù)處理單元設(shè)置單元ID,單元ID可以分別為從O到該多個(gè)數(shù)據(jù)處理單元的數(shù)量之間的整數(shù)。
[0060]相應(yīng)的,在上述步驟102中根據(jù)一個(gè)待處理維度的維度數(shù)據(jù),從預(yù)先設(shè)定的與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元中,選擇將要對(duì)該待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元時(shí),具體可以如圖2所示,包括:
[0061]步驟201、確定獲取的該待處理維度的維度數(shù)據(jù)的哈希碼。
[0062]步驟202、使用該維度數(shù)據(jù)的哈希碼對(duì)與該待處理維度對(duì)應(yīng)的該多個(gè)數(shù)據(jù)處理單元的數(shù)量取余,得到余數(shù)值。
[0063]步驟203、從該多個(gè)數(shù)據(jù)處理單元中,選擇單元ID為該余數(shù)值的數(shù)據(jù)處理單元,作為將要對(duì)該待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元。
[0064]本申請(qǐng)實(shí)施例中,也可以采用與上述圖2所示選擇數(shù)據(jù)處理單元方式相似的處理方式,根據(jù)獲取的該維度數(shù)據(jù),從該多個(gè)數(shù)據(jù)處理單元選擇將要對(duì)該待處理數(shù)據(jù)進(jìn)行處理的數(shù)據(jù)處理單元,在此不再進(jìn)行詳細(xì)描述。
[0065]本申請(qǐng)實(shí)施例提供的上述方法中,在將該待處理數(shù)據(jù)記錄分發(fā)給選擇的數(shù)據(jù)處理單元之后,即可以通過上述步驟104由選擇的數(shù)據(jù)處理單元對(duì)該待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理,具體可以如圖3所示,包括如下處理步驟:
[0066]步驟301、選擇的數(shù)據(jù)處理單元確定該待處理數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼。
[0067]其中,該唯一標(biāo)識(shí)數(shù)據(jù)可以用于區(qū)分不同的待處理數(shù)據(jù)記錄,例如,對(duì)于交易記錄數(shù)據(jù),該唯一標(biāo)識(shí)數(shù)據(jù)可以為交易單號(hào)。
[0068]步驟302、根據(jù)該唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位,從保存已接收數(shù)據(jù)記錄的多個(gè)數(shù)據(jù)集中,確定與該唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位對(duì)應(yīng)的數(shù)據(jù)集,作為待查詢數(shù)據(jù)集。
[0069]其中,該多個(gè)數(shù)據(jù)集中每個(gè)數(shù)據(jù)集中保存的數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位相同,且不同數(shù)據(jù)集中保存的數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位不同。
[0070]本申請(qǐng)實(shí)施例中,數(shù)據(jù)處理單元在接收到待處理數(shù)據(jù)記錄之后,會(huì)將其保存到數(shù)據(jù)集中,并且在保存時(shí)是將唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位相同的數(shù)據(jù)記錄保存到同一個(gè)數(shù)據(jù)集中,從而使得后續(xù)可以基于數(shù)據(jù)集中保存的數(shù)據(jù)記錄,對(duì)新接收的待處理數(shù)據(jù)記錄進(jìn)行去重處理。
[0071]其中,該預(yù)設(shè)數(shù)量可以根據(jù)實(shí)際需要進(jìn)行靈活設(shè)置,例如,可以根據(jù)唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的總位數(shù)進(jìn)行設(shè)置。
[0072]步驟303、在待查詢數(shù)據(jù)集中查詢是否存在該待處理數(shù)據(jù)記錄,當(dāng)該待查詢數(shù)據(jù)集中不存在該待處理數(shù)據(jù)記錄時(shí),對(duì)該待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理,當(dāng)該待查詢數(shù)據(jù)集中存在該待處理數(shù)據(jù)記錄時(shí),表示該待處理數(shù)據(jù)記錄已被接收過,不需要再對(duì)該待處理數(shù)據(jù)記錄進(jìn)行處理,即取消對(duì)該待處理數(shù)據(jù)記錄的處理,進(jìn)一步的,可以丟棄該待處理數(shù)據(jù)記錄。
[0073]本申請(qǐng)實(shí)施例提供的上述方法中,進(jìn)一步的,在與該待處理維度對(duì)應(yīng)的該多個(gè)數(shù)據(jù)處理單元分別對(duì)各自接收的數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù),進(jìn)行處理得到相應(yīng)的處理結(jié)果之后,還可以針對(duì)該待處理維度,對(duì)這些處理結(jié)果進(jìn)行綜合累加處理,例如,如果是數(shù)據(jù)求和處理,則可以將這些處理結(jié)果進(jìn)行累加求和,如果是求取數(shù)據(jù)最大值,可以從這些處理結(jié)果中求取數(shù)據(jù)最大值。
[0074]在得到綜合累加處理的最終處理結(jié)果之后,還可以將與各維度分別對(duì)應(yīng)的最終處理結(jié)果,輸出至預(yù)先設(shè)定的存儲(chǔ)系統(tǒng)中進(jìn)行保存。
[0075]本申請(qǐng)實(shí)施例提供的上述方法中,進(jìn)一步的,在將數(shù)據(jù)記錄保存到數(shù)據(jù)集中時(shí),還可以將數(shù)據(jù)記錄被保存到數(shù)據(jù)集的時(shí)間信息作為時(shí)間戳進(jìn)行記錄,從而可以根據(jù)多個(gè)數(shù)據(jù)集中保存的數(shù)據(jù)記錄的時(shí)間戳,對(duì)多個(gè)數(shù)據(jù)集中滿足預(yù)設(shè)丟棄條件的數(shù)據(jù)記錄進(jìn)行丟棄處理,例如,可以將保存時(shí)間超過預(yù)設(shè)時(shí)間長(zhǎng)度的數(shù)據(jù)記錄丟棄,也可以將時(shí)間戳在預(yù)設(shè)時(shí)刻之前的數(shù)據(jù)記錄丟棄等,從而可以節(jié)省數(shù)據(jù)集的存儲(chǔ)空間,并且可以減少數(shù)據(jù)集中存儲(chǔ)的數(shù)據(jù)記錄的數(shù)據(jù)量,以便在去重處理過程中減少查詢時(shí)間,提高查詢效率。
[0076]基于同一發(fā)明構(gòu)思,根據(jù)本申請(qǐng)上述實(shí)施例提供的數(shù)據(jù)處理方法,相應(yīng)地,本申請(qǐng)另一實(shí)施例還提供了數(shù)據(jù)處理裝置,其結(jié)構(gòu)示意圖如圖4所示,具體包括:
[0077]獲取單元401,用于獲取待處理數(shù)據(jù)記錄的至少一個(gè)待處理維度的維度數(shù)據(jù);
[0078]選擇單元402,用于針對(duì)每個(gè)待處理維度,根據(jù)該待處理維度的維度數(shù)據(jù),從預(yù)先設(shè)定的與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元中,選擇將要對(duì)所述待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元;
[0079]分發(fā)單元403,用于將所述待處理數(shù)據(jù)記錄分發(fā)給選擇的數(shù)據(jù)處理單元;
[0080]數(shù)據(jù)處理單元404,用于對(duì)分發(fā)到的所述待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理。
[0081]進(jìn)一步的,選擇單元402,具體用于確定該待處理維度的維度數(shù)據(jù)的哈希碼;并使用該維度數(shù)據(jù)的哈希碼對(duì)與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元的數(shù)量取余,得到余數(shù)值;以及從所述多個(gè)數(shù)據(jù)處理單元中,選擇單元ID為所述余數(shù)值的數(shù)據(jù)處理單元,作為將要對(duì)所述待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元。
[0082]進(jìn)一步的,數(shù)據(jù)處理單元404,具體用于確定所述待處理數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼;并根據(jù)所述唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位,從保存已接收數(shù)據(jù)記錄的多個(gè)數(shù)據(jù)集中,確定與所述唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位對(duì)應(yīng)的數(shù)據(jù)集,作為待查詢數(shù)據(jù)集,所述多個(gè)數(shù)據(jù)集中每個(gè)數(shù)據(jù)集中保存的數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位相同,且不同數(shù)據(jù)集中保存的數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位不同;以及當(dāng)確定的所述待查詢數(shù)據(jù)集中不存在所述待處理數(shù)據(jù)記錄時(shí),對(duì)所述待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理。
[0083]進(jìn)一步的,上述數(shù)據(jù)處理裝置,還包括:
[0084]丟棄單元405,用于根據(jù)所述多個(gè)數(shù)據(jù)集中保存的數(shù)據(jù)記錄的時(shí)間戳,對(duì)所述多個(gè)數(shù)據(jù)集中滿足預(yù)設(shè)丟棄條件的數(shù)據(jù)記錄進(jìn)行丟棄處理,數(shù)據(jù)記錄的時(shí)間戳為該數(shù)據(jù)記錄被保存到數(shù)據(jù)集的時(shí)間信息。
[0085]進(jìn)一步的,上述數(shù)據(jù)處理裝置,還包括:
[0086]綜合累加單元406,用于針對(duì)該待處理維度,對(duì)所述多個(gè)數(shù)據(jù)處理單元分別對(duì)各自接收的數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理后得到的處理結(jié)果,進(jìn)行綜合累加處理。
[0087]上述各單元的功能可對(duì)應(yīng)于圖1至圖3所示流程中的相應(yīng)處理步驟,在此不再贅述。
[0088]綜上所述,本申請(qǐng)實(shí)施例提供的方案,包括:取待處理數(shù)據(jù)記錄的至少一個(gè)待處理維度的維度數(shù)據(jù);并針對(duì)每個(gè)待處理維度,根據(jù)該待處理維度的維度數(shù)據(jù),從預(yù)先設(shè)定的與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元中,選擇將要對(duì)該待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元;并將該待處理數(shù)據(jù)記錄分發(fā)給選擇的數(shù)據(jù)處理單元;以及由選擇的數(shù)據(jù)處理單元對(duì)該待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理。采用本申請(qǐng)實(shí)施例提供的方案,提高了進(jìn)行數(shù)據(jù)處理的效率。
[0089]本申請(qǐng)的實(shí)施例所提供的數(shù)據(jù)處理裝置可通過計(jì)算機(jī)程序?qū)崿F(xiàn)。本領(lǐng)域技術(shù)人員應(yīng)該能夠理解,上述的模塊劃分方式僅是眾多模塊劃分方式中的一種,如果劃分為其他模塊或不劃分模塊,只要數(shù)據(jù)處理裝置具有上述功能,都應(yīng)該在本申請(qǐng)的保護(hù)范圍之內(nèi)。
[0090]本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
[0091]這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
[0092]這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0093]在一個(gè)典型的配置中,所述計(jì)算機(jī)設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)、其他類型的隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括非持續(xù)性的電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號(hào)和載波。
[0094]顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本申請(qǐng)進(jìn)行各種改動(dòng)和變型而不脫離本申請(qǐng)的精神和范圍。這樣,倘若本申請(qǐng)的這些修改和變型屬于本申請(qǐng)權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請(qǐng)也意圖包含這些改動(dòng)和變型在內(nèi)。
【權(quán)利要求】
1.一種數(shù)據(jù)處理方法,其特征在于,包括: 獲取待處理數(shù)據(jù)記錄的至少一個(gè)待處理維度的維度數(shù)據(jù); 針對(duì)每個(gè)待處理維度,根據(jù)該待處理維度的維度數(shù)據(jù),從預(yù)先設(shè)定的與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元中,選擇將要對(duì)所述待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元;將所述待處理數(shù)據(jù)記錄分發(fā)給選擇的數(shù)據(jù)處理單元; 由選擇的數(shù)據(jù)處理單元對(duì)所述待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理。
2.如權(quán)利要求1所述的方法,其特征在于,根據(jù)該待處理維度的維度數(shù)據(jù),從預(yù)先設(shè)定的與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元中,選擇將要對(duì)所述待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元,具體包括: 確定該待處理維度的維度數(shù)據(jù)的哈希碼; 使用該維度數(shù)據(jù)的哈希碼對(duì)與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元的數(shù)量取余,得到余數(shù)值; 從所述多個(gè)數(shù)據(jù)處理單元中,選擇單元10為所述余數(shù)值的數(shù)據(jù)處理單元,作為將要對(duì)所述待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元。
3.如權(quán)利要求1所述的方法,其特征在于,由選擇的數(shù)據(jù)處理單元對(duì)所述待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理,具體包括: 選擇的數(shù)據(jù)處理單元確定所述待處理數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼; 根據(jù)所述唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位,從保存已接收數(shù)據(jù)記錄的多個(gè)數(shù)據(jù)集中,確定與所述唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位對(duì)應(yīng)的數(shù)據(jù)集,作為待查詢數(shù)據(jù)集,所述多個(gè)數(shù)據(jù)集中每個(gè)數(shù)據(jù)集中保存的數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位相同,且不同數(shù)據(jù)集中保存的數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位不同; 當(dāng)確定的所述待查詢數(shù)據(jù)集中不存在所述待處理數(shù)據(jù)記錄時(shí),對(duì)所述待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理。
4.如權(quán)利要求3所述的方法,其特征在于,還包括: 根據(jù)所述多個(gè)數(shù)據(jù)集中保存的數(shù)據(jù)記錄的時(shí)間戳,對(duì)所述多個(gè)數(shù)據(jù)集中滿足預(yù)設(shè)丟棄條件的數(shù)據(jù)記錄進(jìn)行丟棄處理,數(shù)據(jù)記錄的時(shí)間戳為該數(shù)據(jù)記錄被保存到數(shù)據(jù)集的時(shí)間信肩、0
5.如權(quán)利要求1-4任一所述的方法,其特征在于,還包括: 針對(duì)該待處理維度,對(duì)所述多個(gè)數(shù)據(jù)處理單元分別對(duì)各自接收的數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理后得到的處理結(jié)果,進(jìn)行綜合累加處理。
6.一種數(shù)據(jù)處理裝置,其特征在于,包括: 獲取單元,用于獲取待處理數(shù)據(jù)記錄的至少一個(gè)待處理維度的維度數(shù)據(jù); 選擇單元,用于針對(duì)每個(gè)待處理維度,根據(jù)該待處理維度的維度數(shù)據(jù),從預(yù)先設(shè)定的與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元中,選擇將要對(duì)所述待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元; 分發(fā)單元,用于將所述待處理數(shù)據(jù)記錄分發(fā)給選擇的數(shù)據(jù)處理單元; 數(shù)據(jù)處理單元,用于對(duì)分發(fā)到的所述待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理。
7.如權(quán)利要求6所述的裝置,其特征在于,所述選擇單元,具體用于確定該待處理維度的維度數(shù)據(jù)的哈希碼;并使用該維度數(shù)據(jù)的哈希碼對(duì)與該待處理維度對(duì)應(yīng)的多個(gè)數(shù)據(jù)處理單元的數(shù)量取余,得到余數(shù)值;以及從所述多個(gè)數(shù)據(jù)處理單元中,選擇單元10為所述余數(shù)值的數(shù)據(jù)處理單元,作為將要對(duì)所述待處理數(shù)據(jù)記錄進(jìn)行處理的數(shù)據(jù)處理單元。
8.如權(quán)利要求6所述的裝置,其特征在于,數(shù)據(jù)處理單元,具體用于確定所述待處理數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼;并根據(jù)所述唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位,從保存已接收數(shù)據(jù)記錄的多個(gè)數(shù)據(jù)集中,確定與所述唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位對(duì)應(yīng)的數(shù)據(jù)集,作為待查詢數(shù)據(jù)集,所述多個(gè)數(shù)據(jù)集中每個(gè)數(shù)據(jù)集中保存的數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位相同,且不同數(shù)據(jù)集中保存的數(shù)據(jù)記錄的唯一標(biāo)識(shí)數(shù)據(jù)的哈希碼的后預(yù)設(shè)數(shù)量位不同;以及當(dāng)確定的所述待查詢數(shù)據(jù)集中不存在所述待處理數(shù)據(jù)記錄時(shí),對(duì)所述待處理數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理。
9.如權(quán)利要求8所述的裝置,其特征在于,還包括: 丟棄單元,用于根據(jù)所述多個(gè)數(shù)據(jù)集中保存的數(shù)據(jù)記錄的時(shí)間戳,對(duì)所述多個(gè)數(shù)據(jù)集中滿足預(yù)設(shè)丟棄條件的數(shù)據(jù)記錄進(jìn)行丟棄處理,數(shù)據(jù)記錄的時(shí)間戳為該數(shù)據(jù)記錄被保存到數(shù)據(jù)集的時(shí)間信息。
10.如權(quán)利要求6-9任一所述的裝置,其特征在于,還包括: 綜合累加單元,用于針對(duì)該待處理維度,對(duì)所述多個(gè)數(shù)據(jù)處理單元分別對(duì)各自接收的數(shù)據(jù)記錄的該待處理維度的維度數(shù)據(jù)進(jìn)行處理后得到的處理結(jié)果,進(jìn)行綜合累加處理。
【文檔編號(hào)】G06F17/30GK104424220SQ201310373788
【公開日】2015年3月18日 申請(qǐng)日期:2013年8月23日 優(yōu)先權(quán)日:2013年8月23日
【發(fā)明者】黃曉鋒 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司