1.一種數(shù)據(jù)處理的方法,其特征在于,包括:
獲取至少一個(gè)目標(biāo)地址;
從每個(gè)所述目標(biāo)地址對(duì)應(yīng)的網(wǎng)頁中,抽取每個(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù);
對(duì)各個(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行排重處理。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,
所述對(duì)各個(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行排重處理,包括:
針對(duì)每個(gè)目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù),從當(dāng)前目標(biāo)數(shù)據(jù)中抽取預(yù)設(shè)數(shù)量個(gè)出現(xiàn)次數(shù)最多的關(guān)鍵詞,確定每個(gè)所述關(guān)鍵詞的出現(xiàn)次數(shù);
計(jì)算每個(gè)所述關(guān)鍵詞的哈希值;
根據(jù)公式一確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)所述關(guān)鍵詞的關(guān)鍵詞相似參數(shù),其中,所述公式一為:
其中,Wi為所述當(dāng)前目標(biāo)數(shù)據(jù)的第j個(gè)關(guān)鍵詞的第i個(gè)關(guān)鍵詞相似參數(shù),Xj,i為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的哈希值從右開始的第i位的值,Nj為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的出現(xiàn)次數(shù);
根據(jù)公式二確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),其中,所述公式二為:
其中,Ai為所述當(dāng)前目標(biāo)數(shù)據(jù)的第i個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),n為所述預(yù)設(shè)數(shù)量;
根據(jù)公式三,確定所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù),其中,所述公式三為:
其中,Bi為所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值;
根據(jù)公式四,確定每?jī)蓚€(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù)的綜合相似參數(shù),其中,所述公式四為:
C=D xor F,
其中,D為第一目標(biāo)數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標(biāo)數(shù)據(jù)的最終相似參數(shù),C為所述第一目標(biāo)數(shù)據(jù)和所述第二目標(biāo)數(shù)據(jù)的綜合相似參數(shù);
判斷每?jī)蓚€(gè)目標(biāo)數(shù)據(jù)的綜合相似參數(shù)中1的個(gè)數(shù)是否小于等于預(yù)設(shè)個(gè)數(shù),如果是,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)相似,否則,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)不相似;
排除每?jī)蓚€(gè)相似的目標(biāo)數(shù)據(jù)中的任意一個(gè)目標(biāo)數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,
在所述獲取至少一個(gè)目標(biāo)地址之前,進(jìn)一步包括:
預(yù)先設(shè)置目標(biāo)網(wǎng)站對(duì)應(yīng)的地址解析規(guī)則;
所述獲取至少一個(gè)目標(biāo)地址,包括:
根據(jù)所述地址解析規(guī)則,確定所述目標(biāo)網(wǎng)站對(duì)應(yīng)的至少一個(gè)目標(biāo)地址。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,
所述預(yù)先設(shè)置目標(biāo)網(wǎng)站對(duì)應(yīng)的地址解析規(guī)則,包括:
確定所述目標(biāo)網(wǎng)站的地址構(gòu)建規(guī)則;
根據(jù)所述地址構(gòu)建規(guī)則,設(shè)置所述地址解析規(guī)則。
5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,
所述根據(jù)所述地址解析規(guī)則,確定所述目標(biāo)網(wǎng)站對(duì)應(yīng)的至少一個(gè)目標(biāo)地址,包括:
根據(jù)所述地址解析規(guī)則,解析出所述目標(biāo)網(wǎng)址對(duì)應(yīng)的至少一個(gè)待處理地址;
對(duì)所述至少一個(gè)待處理地址進(jìn)行排重處理,將排重處理后剩余的待處理地址作為所述目標(biāo)地址。
6.一種數(shù)據(jù)處理的裝置,其特征在于,包括:
獲取單元,用于獲取至少一個(gè)目標(biāo)地址;
抽取單元,用于從每個(gè)所述目標(biāo)地址對(duì)應(yīng)的網(wǎng)頁中,抽取每個(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù);
排重單元,用于對(duì)各個(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行排重處理。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,
所述排重單元,具體用于:
針對(duì)每個(gè)目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù),從當(dāng)前目標(biāo)數(shù)據(jù)中抽取預(yù)設(shè)數(shù)量個(gè)出現(xiàn)次數(shù)最多的關(guān)鍵詞,確定每個(gè)所述關(guān)鍵詞的出現(xiàn)次數(shù);
計(jì)算每個(gè)所述關(guān)鍵詞的哈希值;
根據(jù)公式一確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)所述關(guān)鍵詞的關(guān)鍵詞相似參數(shù),其中,所述公式一為:
其中,Wi為所述當(dāng)前目標(biāo)數(shù)據(jù)的第j個(gè)關(guān)鍵詞的第i個(gè)關(guān)鍵詞相似參數(shù),Xj,i為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的哈希值從右開始的第i位的值,Nj為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的出現(xiàn)次數(shù);
根據(jù)公式二確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),其中,所述公式二為:
其中,Ai為所述當(dāng)前目標(biāo)數(shù)據(jù)的第i個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),n為所述預(yù)設(shè)數(shù)量;
根據(jù)公式三,確定所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù),其中,所述公式三為:
其中,Bi為所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值;
根據(jù)公式四,確定每?jī)蓚€(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù)的綜合相似參數(shù),其中,所述公式四為:
C=D xor F,
其中,D為第一目標(biāo)數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標(biāo)數(shù)據(jù)的最終相似參數(shù),C為所述第一目標(biāo)數(shù)據(jù)和所述第二目標(biāo)數(shù)據(jù)的綜合相似參數(shù);
判斷每?jī)蓚€(gè)目標(biāo)數(shù)據(jù)的綜合相似參數(shù)中1的個(gè)數(shù)是否小于等于預(yù)設(shè)個(gè)數(shù),如果是,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)相似,否則,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)不相似;
排除每?jī)蓚€(gè)相似的目標(biāo)數(shù)據(jù)中的任意一個(gè)目標(biāo)數(shù)據(jù)。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,
進(jìn)一步包括:設(shè)置單元,用于設(shè)置目標(biāo)網(wǎng)站對(duì)應(yīng)的地址解析規(guī)則;
所述獲取單元,用于根據(jù)所述地址解析規(guī)則,確定所述目標(biāo)網(wǎng)站對(duì)應(yīng)的至少一個(gè)目標(biāo)地址。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,
所述設(shè)置單元,用于確定所述目標(biāo)網(wǎng)站的地址構(gòu)建規(guī)則,根據(jù)所述地址構(gòu)建規(guī)則,設(shè)置所述地址解析規(guī)則。
10.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,
所述所述獲取單元,用于根據(jù)所述地址解析規(guī)則,解析出所述目標(biāo)網(wǎng)址對(duì)應(yīng)的至少一個(gè)待處理地址,對(duì)所述至少一個(gè)待處理地址進(jìn)行排重處理,將排重處理后剩余的待處理地址作為所述目標(biāo)地址。