亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)據(jù)消重方法及裝置與流程

文檔序號:11729414閱讀:265來源:國知局
數(shù)據(jù)消重方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)消重技術(shù)領(lǐng)域,特別是涉及數(shù)據(jù)消重方法及裝置。



背景技術(shù):

在互聯(lián)網(wǎng)各項技術(shù)中,數(shù)據(jù)消重技術(shù)應(yīng)用場景很多,例如爬蟲系統(tǒng)、搜索系統(tǒng)等等。

現(xiàn)有的數(shù)據(jù)消重技術(shù)將需要對比的數(shù)據(jù)進(jìn)行完整的比對,在需要對比的數(shù)據(jù)較多時,這種方案會導(dǎo)致消重的效率降低。

因此,如何提高數(shù)據(jù)消重的效率仍是本領(lǐng)域亟待解決的技術(shù)難題。



技術(shù)實現(xiàn)要素:

本發(fā)明實施例的目的在于提供一種數(shù)據(jù)消重方法及裝置,以提高數(shù)據(jù)消重的效率。具體技術(shù)方案如下:

一種數(shù)據(jù)消重方法,包括:

將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù);

根據(jù)預(yù)設(shè)的劃分比例,將所述第二數(shù)據(jù)劃分為第一部分和第二部分,其中,所述第一部分在所述第二數(shù)據(jù)中位于所述第二部分左側(cè)且與所述第二部分相鄰;

將所述第一部分和第二部分構(gòu)成的鍵值對確定為與所述第二數(shù)據(jù)對應(yīng)的鍵值對,其中,所述第一部分用作鍵key,所述第二部分用作值value;

查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,如果查找到,則在查找到的消重集合中查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,如果未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入查找到的消重集合中;如果查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則將所述第一數(shù)據(jù)標(biāo)識為重復(fù)數(shù)據(jù)。

可選的,所述方法還包括:

如果未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,則建立與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合中。

可選的,在所述根據(jù)預(yù)設(shè)的劃分比例,將所述第二數(shù)據(jù)劃分為第一部分和第二部分后,所述方法還包括:

確定所述第一數(shù)據(jù)的對應(yīng)的業(yè)務(wù)標(biāo)識,在所述第一部分前插入確定的所述業(yè)務(wù)標(biāo)識;

所述將所述第一部分和第二部分構(gòu)成的鍵值對確定為與所述第二數(shù)據(jù)對應(yīng)的鍵值對,其中,所述第一部分用作鍵key,所述第二部分用作值value,包括:

將所述業(yè)務(wù)標(biāo)識、所述第一部分和第二部分構(gòu)成的鍵值對確定為與所述第二數(shù)據(jù)對應(yīng)的鍵值對,其中,所述業(yè)務(wù)標(biāo)識和所述第一部分一起用作鍵key,所述第二部分用作值value。

可選的,所述根據(jù)預(yù)設(shè)的劃分比例,將所述第二數(shù)據(jù)劃分為第一部分和第二部分,包括:

根據(jù)預(yù)設(shè)的劃分比例1:3,將所述第二數(shù)據(jù)的前1/4劃分為第一部分,將所述第二數(shù)據(jù)的后3/4劃分為第二部分。

可選的,所述將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù),包括:

使用64位循環(huán)冗余校驗crc算法或消息摘要算法第五版md5將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù)。

一種數(shù)據(jù)消重裝置,包括:數(shù)據(jù)轉(zhuǎn)換單元、數(shù)據(jù)劃分單元、鍵值對確定單元、集合查找單元、元素查找單元、元素放入單元和數(shù)據(jù)標(biāo)識單元,

所述數(shù)據(jù)轉(zhuǎn)換單元,用于將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù);

所述數(shù)據(jù)劃分單元,用于根據(jù)預(yù)設(shè)的劃分比例,將所述第二數(shù)據(jù)劃分為第一部分和第二部分,其中,所述第一部分在所述第二數(shù)據(jù)中位于所述第二部分左側(cè)且與所述第二部分相鄰;

所述鍵值對確定單元,用于將所述第一部分和第二部分構(gòu)成的鍵值對確定為與所述第二數(shù)據(jù)對應(yīng)的鍵值對,其中,所述第一部分用作鍵key,所述第二部分用作值value;

所述集合查找單元,用于查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,如果查找到,則觸發(fā)所述元素查找單元;

所述元素查找單元,用于在查找到的消重集合中查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,如果未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則觸發(fā)所述元素放入單元;如果查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則觸發(fā)所述數(shù)據(jù)標(biāo)識單元;

所述元素放入單元,用于將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入查找到的消重集合中;

所述數(shù)據(jù)標(biāo)識單元,用于將所述第一數(shù)據(jù)標(biāo)識為重復(fù)數(shù)據(jù)。

可選的,所述裝置還包括:集合建立單元,用于在所述集合查找單元未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合時,建立與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合中。

可選的,所述裝置還包括:標(biāo)識插入單元,用于在所述數(shù)據(jù)劃分單元根據(jù)預(yù)設(shè)的劃分比例,將所述第二數(shù)據(jù)劃分為第一部分和第二部分后,確定所述第一數(shù)據(jù)的對應(yīng)的業(yè)務(wù)標(biāo)識,在所述第一部分前插入確定的所述業(yè)務(wù)標(biāo)識;

所述鍵值對確定單元,具體用于將所述業(yè)務(wù)標(biāo)識、所述第一部分和第二部分構(gòu)成的鍵值對確定為與所述第二數(shù)據(jù)對應(yīng)的鍵值對,其中,所述業(yè)務(wù)標(biāo)識和所述第一部分一起用作鍵key,所述第二部分用作值value。

可選的,所述數(shù)據(jù)劃分單元,具體用于:根據(jù)預(yù)設(shè)的劃分比例1:3,將所述第二數(shù)據(jù)的前1/4劃分為第一部分,將所述第二數(shù)據(jù)的后3/4劃分為第二部分。

可選的,所述數(shù)據(jù)轉(zhuǎn)換單元,具體用于:使用64位循環(huán)冗余校驗crc算法或消息摘要算法第五版md5將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù)。

本發(fā)明實施例提供的..方法及系統(tǒng),可以….。當(dāng)然,實施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時達(dá)到以上所述的所有優(yōu)點。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實施例提供的一種數(shù)據(jù)消重方法的流程圖;

圖2為本發(fā)明實施例提供的另一種數(shù)據(jù)消重方法的流程圖;

圖3為本發(fā)明實施例提供的另一種數(shù)據(jù)消重方法的流程圖;

圖4為本發(fā)明實施例提供的另一種數(shù)據(jù)消重方法的流程圖;

圖5為本發(fā)明實施例提供的一種數(shù)據(jù)消重裝置的結(jié)構(gòu)示意圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。

如圖1所示,本發(fā)明實施例提供的一種數(shù)據(jù)消重方法,可以包括:

s100、將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù);

具體的,可以使用64位循環(huán)冗余校驗crc算法或消息摘要算法第五版md5將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù)。

其中,待消重的第一數(shù)據(jù)可以有多種形式,如網(wǎng)絡(luò)鏈接、標(biāo)題對應(yīng)的字符串等。

其中,本發(fā)明的數(shù)據(jù)消重方法可以在數(shù)據(jù)消重裝置中執(zhí)行,該數(shù)據(jù)消重裝置可以與業(yè)務(wù)端設(shè)備通信連接,待消重的第一數(shù)據(jù)可以是由業(yè)務(wù)端設(shè)備發(fā)送至數(shù)據(jù)消重裝置的。同時,為了區(qū)分來自不同業(yè)務(wù)端設(shè)備的第一數(shù)據(jù),各業(yè)務(wù)端設(shè)備在發(fā)送第一數(shù)據(jù)時還可以將其業(yè)務(wù)標(biāo)識發(fā)送至數(shù)據(jù)消重裝置。其中,業(yè)務(wù)端設(shè)備可以是一個物理設(shè)備,也可以是一個設(shè)備集群。在業(yè)務(wù)端設(shè)備為一個設(shè)備集群時,多個業(yè)務(wù)端設(shè)備即為多個設(shè)備集群,同一設(shè)備集群內(nèi)的設(shè)備發(fā)送的業(yè)務(wù)標(biāo)識相同。

s200、根據(jù)預(yù)設(shè)的劃分比例,將所述第二數(shù)據(jù)劃分為第一部分和第二部分,其中,所述第一部分在所述第二數(shù)據(jù)中位于所述第二部分左側(cè)且與所述第二部分相鄰;

其中,劃分比例可以為1:3。

步驟s200可以包括:根據(jù)預(yù)設(shè)的劃分比例1:3,將所述第二數(shù)據(jù)的前1/4劃分為第一部分,將所述第二數(shù)據(jù)的后3/4劃分為第二部分。

為了避免消重集合中元素數(shù)量的增長導(dǎo)致本發(fā)明進(jìn)行數(shù)據(jù)消重的效率下降,本發(fā)明將第二數(shù)據(jù)劃分為兩部分,這樣在對比時就可以先通過第一部分縮小范圍,再在小范圍集合中查找第二部分即可,大大提高了數(shù)據(jù)消重的效率。

本申請發(fā)明人經(jīng)過大量的實驗得出在劃分比例為1:3時,可以使得本發(fā)明進(jìn)行數(shù)據(jù)消重的效率最高。

s300、將所述第一部分和第二部分構(gòu)成的鍵值對確定為與所述第二數(shù)據(jù)對應(yīng)的鍵值對,其中,所述第一部分用作鍵key,所述第二部分用作值value;

s400、查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,如果查找到,則執(zhí)行步驟s500;

在本發(fā)明其他實施例中,如果未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,則可以建立與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合中。

具體的,查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,可以包括:查找集合名稱與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key相同的消重集合。

其中,建立與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,可以包括:

建立集合名稱所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key的消重集合。

s500、在查找到的消重集合中查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,如果未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則執(zhí)行步驟s600;如果查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則執(zhí)行步驟s700;

s600、將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入查找到的消重集合中;

s700、將所述第一數(shù)據(jù)標(biāo)識為重復(fù)數(shù)據(jù)。

具體的,在將第一數(shù)據(jù)標(biāo)識為重復(fù)數(shù)據(jù)后,可以將第一數(shù)據(jù)為重復(fù)數(shù)據(jù)的消息返回給發(fā)送第一數(shù)據(jù)的業(yè)務(wù)端設(shè)備。

本發(fā)明實施例提供的一種數(shù)據(jù)消重方法,可以將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù);根據(jù)預(yù)設(shè)的劃分比例,將所述第二數(shù)據(jù)劃分為第一部分和第二部分,其中,所述第一部分在所述第二數(shù)據(jù)中位于所述第二部分左側(cè)且與所述第二部分相鄰;將所述第一部分和第二部分構(gòu)成的鍵值對確定為與所述第二數(shù)據(jù)對應(yīng)的鍵值對;查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,如果查找到,則在查找到的消重集合中查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,如果未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入查找到的消重集合中;如果查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則將所述第一數(shù)據(jù)標(biāo)識為重復(fù)數(shù)據(jù)。由于本發(fā)明將數(shù)據(jù)劃分為兩部分,這樣在對比時就可以先通過第一部分縮小范圍,再在小范圍集合中查找第二部分即可,大大提高了數(shù)據(jù)消重的效率。

如圖2所示,本發(fā)明實施例提供的另一種數(shù)據(jù)消重方法,可以包括:

s100、將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù);

s200、根據(jù)預(yù)設(shè)的劃分比例,將所述第二數(shù)據(jù)劃分為第一部分和第二部分,其中,所述第一部分在所述第二數(shù)據(jù)中位于所述第二部分左側(cè)且與所述第二部分相鄰;

s210、確定所述第一數(shù)據(jù)的對應(yīng)的業(yè)務(wù)標(biāo)識,在所述第一部分前插入確定的所述業(yè)務(wù)標(biāo)識;

s310、將所述業(yè)務(wù)標(biāo)識、所述第一部分和第二部分構(gòu)成的鍵值對確定為與所述第二數(shù)據(jù)對應(yīng)的鍵值對,其中,所述業(yè)務(wù)標(biāo)識和所述第一部分一起用作鍵key,所述第二部分用作值value。

其中,步驟s310是圖1所示步驟s300的一種具體執(zhí)行過程。

s400、查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,如果查找到,則執(zhí)行步驟s500;

s500、在查找到的消重集合中查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,如果未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則執(zhí)行步驟s600;如果查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則執(zhí)行步驟s700;

s600、將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入查找到的消重集合中;

s700、將所述第一數(shù)據(jù)標(biāo)識為重復(fù)數(shù)據(jù)。

圖2所示實施例中,步驟s100、s200、s400、s500、s600、s700與圖1所示實施例中的步驟s100、s200、s400、s500、s600、s700分別相同,不再贅述。

如圖3所示,本發(fā)明實施例提供的另一種數(shù)據(jù)消重方法,可以包括:

s100、將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù);

s220、根據(jù)預(yù)設(shè)的劃分比例1:3,將所述第二數(shù)據(jù)的前1/4劃分為第一部分,將所述第二數(shù)據(jù)的后3/4劃分為第二部分;

s300、將所述第一部分和第二部分構(gòu)成的鍵值對確定為與所述第二數(shù)據(jù)對應(yīng)的鍵值對,其中,所述第一部分用作鍵key,所述第二部分用作值value;

s400、查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,如果查找到,則執(zhí)行步驟s500;

s500、在查找到的消重集合中查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,如果未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則執(zhí)行步驟s600;如果查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則執(zhí)行步驟s700;

s600、將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入查找到的消重集合中;

s700、將所述第一數(shù)據(jù)標(biāo)識為重復(fù)數(shù)據(jù)。

如圖4所示,本發(fā)明實施例提供的另一種數(shù)據(jù)消重方法,可以包括:

s110、使用64位循環(huán)冗余校驗crc算法或消息摘要算法第五版md5將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù);

s220、根據(jù)預(yù)設(shè)的劃分比例1:3,將所述第二數(shù)據(jù)的前1/4劃分為第一部分,將所述第二數(shù)據(jù)的后3/4劃分為第二部分;

s300、將所述第一部分和第二部分構(gòu)成的鍵值對確定為與所述第二數(shù)據(jù)對應(yīng)的鍵值對,其中,所述第一部分用作鍵key,所述第二部分用作值value;

s400、查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,如果查找到,則執(zhí)行步驟s500;如果未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,則執(zhí)行步驟s800;

s500、在查找到的消重集合中查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,如果未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則執(zhí)行步驟s600;如果查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則執(zhí)行步驟s700;

s600、將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入查找到的消重集合中;

s700、將所述第一數(shù)據(jù)標(biāo)識為重復(fù)數(shù)據(jù)。

s800、建立與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合中。

與上述方法實施例相對應(yīng),本發(fā)明還提供了一種數(shù)據(jù)消重裝置。

如圖5所示,本發(fā)明實施例提供的一種數(shù)據(jù)消重裝置,可以包括:數(shù)據(jù)轉(zhuǎn)換單元100、數(shù)據(jù)劃分單元200、鍵值對確定單元300、集合查找單元400、元素查找單元500、元素放入單元600和數(shù)據(jù)標(biāo)識單元700,

所述數(shù)據(jù)轉(zhuǎn)換單元100,用于將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù);

其中,所述數(shù)據(jù)轉(zhuǎn)換單元100,可以具體用于:使用64位循環(huán)冗余校驗crc算法或消息摘要算法第五版md5將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù)。

所述數(shù)據(jù)劃分單元200,用于根據(jù)預(yù)設(shè)的劃分比例,將所述第二數(shù)據(jù)劃分為第一部分和第二部分,其中,所述第一部分在所述第二數(shù)據(jù)中位于所述第二部分左側(cè)且與所述第二部分相鄰;

其中,所述數(shù)據(jù)劃分單元200,可以具體用于:根據(jù)預(yù)設(shè)的劃分比例1:3,將所述第二數(shù)據(jù)的前1/4劃分為第一部分,將所述第二數(shù)據(jù)的后3/4劃分為第二部分。

所述鍵值對確定單元300,用于將所述第一部分和第二部分構(gòu)成的鍵值對確定為與所述第二數(shù)據(jù)對應(yīng)的鍵值對,其中,所述第一部分用作鍵key,所述第二部分用作值value;

所述集合查找單元400,用于查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,如果查找到,則觸發(fā)所述元素查找單元500;

所述元素查找單元500,用于在查找到的消重集合中查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,如果未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則觸發(fā)所述元素放入單元600;如果查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則觸發(fā)所述數(shù)據(jù)標(biāo)識單元700;

所述元素放入單元600,用于將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入查找到的消重集合中;

所述數(shù)據(jù)標(biāo)識單元700,用于將所述第一數(shù)據(jù)標(biāo)識為重復(fù)數(shù)據(jù)。

在本發(fā)明其他實施例中,圖5所示裝置還可以包括:集合建立單元,用于在所述集合查找單元400未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合時,建立與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合中。

在本發(fā)明其他實施例中,本發(fā)明實施例提供的一種數(shù)據(jù)消重裝置還可以包括:標(biāo)識插入單元,用于在所述數(shù)據(jù)劃分單元200根據(jù)預(yù)設(shè)的劃分比例,將所述第二數(shù)據(jù)劃分為第一部分和第二部分后,確定所述第一數(shù)據(jù)的對應(yīng)的業(yè)務(wù)標(biāo)識,在所述第一部分前插入確定的所述業(yè)務(wù)標(biāo)識;

所述鍵值對確定單元300,具體用于將所述業(yè)務(wù)標(biāo)識、所述第一部分和第二部分構(gòu)成的鍵值對確定為與所述第二數(shù)據(jù)對應(yīng)的鍵值對,其中,所述業(yè)務(wù)標(biāo)識和所述第一部分一起用作鍵key,所述第二部分用作值value。

本發(fā)明實施例提供的一種數(shù)據(jù)消重裝置,可以將待消重的第一數(shù)據(jù)轉(zhuǎn)換為固定長度的第二數(shù)據(jù);根據(jù)預(yù)設(shè)的劃分比例,將所述第二數(shù)據(jù)劃分為第一部分和第二部分,其中,所述第一部分在所述第二數(shù)據(jù)中位于所述第二部分左側(cè)且與所述第二部分相鄰;將所述第一部分和第二部分構(gòu)成的鍵值對確定為與所述第二數(shù)據(jù)對應(yīng)的鍵值對;查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的key對應(yīng)的消重集合,如果查找到,則在查找到的消重集合中查找與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,如果未查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則將所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value作為元素放入查找到的消重集合中;如果查找到與所述第二數(shù)據(jù)對應(yīng)的鍵值對中的value相同的元素,則將所述第一數(shù)據(jù)標(biāo)識為重復(fù)數(shù)據(jù)。由于本發(fā)明將數(shù)據(jù)劃分為兩部分,這樣在對比時就可以先通過第一部分縮小范圍,再在小范圍集合中查找第二部分即可,大大提高了數(shù)據(jù)消重的效率。

需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

本說明書中的各個實施例均采用相關(guān)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。

以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1