亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種數(shù)據(jù)處理的方法及裝置與流程

文檔序號:12120905閱讀:293來源:國知局
一種數(shù)據(jù)處理的方法及裝置與流程

本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)處理的方法及裝置。



背景技術(shù):

互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)具有分布廣、格式多樣、非結(jié)構(gòu)化等大數(shù)據(jù)的特點(diǎn),因此需要用特定的方式對互聯(lián)網(wǎng)頁面的數(shù)據(jù)進(jìn)行采集、加工和存儲等工作?;ヂ?lián)網(wǎng)網(wǎng)頁數(shù)據(jù)采集就是一個(gè)獲取互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容的過程,通過分析從網(wǎng)頁中抽取出用戶需要的數(shù)據(jù)內(nèi)容。并對抽取出來的數(shù)據(jù)內(nèi)容通過內(nèi)容和格式的轉(zhuǎn)換和加工處理,存儲用以滿足用戶的需求。

現(xiàn)有技術(shù)中,在獲取網(wǎng)頁中的數(shù)據(jù)時(shí),用戶找到需要獲取的網(wǎng)頁,操作相關(guān)工具從當(dāng)前網(wǎng)頁中提取出數(shù)據(jù)。

通過上述描述可見,現(xiàn)有技術(shù)中,獲取網(wǎng)頁中數(shù)據(jù)的效率較低。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理的方法及裝置,能夠提高獲取網(wǎng)頁中目標(biāo)數(shù)據(jù)的效率。

一方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理的方法,包括:

獲取至少一個(gè)目標(biāo)地址;

從每個(gè)所述目標(biāo)地址對應(yīng)的網(wǎng)頁中,抽取每個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù);

對各個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行排重處理。

進(jìn)一步地,所述對各個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行排重處理,包括:

針對每個(gè)目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù),從當(dāng)前目標(biāo)數(shù)據(jù)中抽取預(yù)設(shè)數(shù)量個(gè)出現(xiàn)次數(shù)最多的關(guān)鍵詞,確定每個(gè)所述關(guān)鍵詞的出現(xiàn)次數(shù);

計(jì)算每個(gè)所述關(guān)鍵詞的哈希值;

根據(jù)公式一確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)所述關(guān)鍵詞的關(guān)鍵詞相似參數(shù),其中,所述公式一為:

其中,Wi為所述當(dāng)前目標(biāo)數(shù)據(jù)的第j個(gè)關(guān)鍵詞的第i個(gè)關(guān)鍵詞相似參數(shù),Xj,i為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的哈希值從右開始的第i位的值,Nj為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的出現(xiàn)次數(shù);

根據(jù)公式二確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),其中,所述公式二為:

其中,Ai為所述當(dāng)前目標(biāo)數(shù)據(jù)的第i個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),n為所述預(yù)設(shè)數(shù)量;

根據(jù)公式三,確定所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù),其中,所述公式三為:

其中,Bi為所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值;

根據(jù)公式四,確定每兩個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)的綜合相似參數(shù),其中,所述公式四為:

C=D xor F,

其中,D為第一目標(biāo)數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標(biāo)數(shù)據(jù)的最終相似參數(shù),C為所述第一目標(biāo)數(shù)據(jù)和所述第二目標(biāo)數(shù)據(jù)的綜合相似參數(shù);

判斷每兩個(gè)目標(biāo)數(shù)據(jù)的綜合相似參數(shù)中1的個(gè)數(shù)是否小于等于預(yù)設(shè)個(gè)數(shù),如果是,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)相似,否則,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)不相似;

排除每兩個(gè)相似的目標(biāo)數(shù)據(jù)中的任意一個(gè)目標(biāo)數(shù)據(jù)。

進(jìn)一步地,在所述獲取至少一個(gè)目標(biāo)地址之前,進(jìn)一步包括:

預(yù)先設(shè)置目標(biāo)網(wǎng)站對應(yīng)的地址解析規(guī)則;

所述獲取至少一個(gè)目標(biāo)地址,包括:

根據(jù)所述地址解析規(guī)則,確定所述目標(biāo)網(wǎng)站對應(yīng)的至少一個(gè)目標(biāo)地址。

進(jìn)一步地,所述預(yù)先設(shè)置目標(biāo)網(wǎng)站對應(yīng)的地址解析規(guī)則,包括:

確定所述目標(biāo)網(wǎng)站的地址構(gòu)建規(guī)則;

根據(jù)所述地址構(gòu)建規(guī)則,設(shè)置所述地址解析規(guī)則。

進(jìn)一步地,所述根據(jù)所述地址解析規(guī)則,確定所述目標(biāo)網(wǎng)站對應(yīng)的至少一個(gè)目標(biāo)地址,包括:

根據(jù)所述地址解析規(guī)則,解析出所述目標(biāo)網(wǎng)址對應(yīng)的至少一個(gè)待處理地址;

對所述至少一個(gè)待處理地址進(jìn)行排重處理,將排重處理后剩余的待處理地址作為所述目標(biāo)地址。

另一方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理的裝置,包括:

獲取單元,用于獲取至少一個(gè)目標(biāo)地址;

抽取單元,用于從每個(gè)所述目標(biāo)地址對應(yīng)的網(wǎng)頁中,抽取每個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù);

排重單元,用于對各個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行排重處理。

進(jìn)一步地,所述排重單元,具體用于:

針對每個(gè)目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù),從當(dāng)前目標(biāo)數(shù)據(jù)中抽取預(yù)設(shè)數(shù)量個(gè)出現(xiàn)次數(shù)最多的關(guān)鍵詞,確定每個(gè)所述關(guān)鍵詞的出現(xiàn)次數(shù);

計(jì)算每個(gè)所述關(guān)鍵詞的哈希值;

根據(jù)公式一確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)所述關(guān)鍵詞的關(guān)鍵詞相似參數(shù),其中,所述公式一為:

其中,Wi為所述當(dāng)前目標(biāo)數(shù)據(jù)的第j個(gè)關(guān)鍵詞的第i個(gè)關(guān)鍵詞相似參數(shù),Xj,i為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的哈希值從右開始的第i位的值,Nj為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的出現(xiàn)次數(shù);

根據(jù)公式二確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),其中,所述公式二為:

其中,Ai為所述當(dāng)前目標(biāo)數(shù)據(jù)的第i個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),n為所述預(yù)設(shè)數(shù)量;

根據(jù)公式三,確定所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù),其中,所述公式三為:

其中,Bi為所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值;

根據(jù)公式四,確定每兩個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)的綜合相似參數(shù),其中,所述公式四為:

C=D xor F,

其中,D為第一目標(biāo)數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標(biāo)數(shù)據(jù)的最終相似參數(shù),C為所述第一目標(biāo)數(shù)據(jù)和所述第二目標(biāo)數(shù)據(jù)的綜合相似參數(shù);

判斷每兩個(gè)目標(biāo)數(shù)據(jù)的綜合相似參數(shù)中1的個(gè)數(shù)是否小于等于預(yù)設(shè)個(gè)數(shù),如果是,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)相似,否則,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)不相似;

排除每兩個(gè)相似的目標(biāo)數(shù)據(jù)中的任意一個(gè)目標(biāo)數(shù)據(jù)。

進(jìn)一步地,進(jìn)一步包括:設(shè)置單元,用于設(shè)置目標(biāo)網(wǎng)站對應(yīng)的地址解析規(guī)則;

所述獲取單元,用于根據(jù)所述地址解析規(guī)則,確定所述目標(biāo)網(wǎng)站對應(yīng)的至少一個(gè)目標(biāo)地址。

進(jìn)一步地,所述設(shè)置單元,用于確定所述目標(biāo)網(wǎng)站的地址構(gòu)建規(guī)則,根據(jù)所述地址構(gòu)建規(guī)則,設(shè)置所述地址解析規(guī)則。

進(jìn)一步地,所述所述獲取單元,用于根據(jù)所述地址解析規(guī)則,解析出所述目標(biāo)網(wǎng)址對應(yīng)的至少一個(gè)待處理地址,對所述至少一個(gè)待處理地址進(jìn)行排重處理,將排重處理后剩余的待處理地址作為所述目標(biāo)地址。

在本發(fā)明實(shí)施例中,獲取至少一個(gè)目標(biāo)地址,從每個(gè)目標(biāo)地址對應(yīng)的網(wǎng)頁中,抽取用戶所需要的目標(biāo)數(shù)據(jù),對抽取的目標(biāo)數(shù)據(jù)進(jìn)行排重處理,無需用戶對每個(gè)網(wǎng)頁通過操作相關(guān)工具來抽取數(shù)據(jù),提高了獲取網(wǎng)頁中目標(biāo)數(shù)據(jù)的效率。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)處理的方法的流程圖;

圖2是本發(fā)明一實(shí)施例提供的另一種數(shù)據(jù)處理的方法的流程圖;

圖3是本發(fā)明一實(shí)施例提供的一種數(shù)據(jù)處理的裝置的示意圖;

圖4是本發(fā)明一實(shí)施例提供的另一種數(shù)據(jù)處理的裝置的示意圖。

具體實(shí)施方式

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例,基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

如圖1所示,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理的方法,該方法可以包括以下步驟:

步驟101:獲取至少一個(gè)目標(biāo)地址;

步驟102:從每個(gè)所述目標(biāo)地址對應(yīng)的網(wǎng)頁中,抽取每個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù);

步驟103:對各個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行排重處理。

在本發(fā)明實(shí)施例中,獲取至少一個(gè)目標(biāo)地址,從每個(gè)目標(biāo)地址對應(yīng)的網(wǎng)頁中,抽取用戶所需要的目標(biāo)數(shù)據(jù),對抽取的目標(biāo)數(shù)據(jù)進(jìn)行排重處理,無需用戶對每個(gè)網(wǎng)頁通過操作相關(guān)工具來抽取數(shù)據(jù),提高了獲取網(wǎng)頁中目標(biāo)數(shù)據(jù)的效率。

在本發(fā)明一實(shí)施例中,所述對各個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行排重處理,包括:

針對每個(gè)目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù),從當(dāng)前目標(biāo)數(shù)據(jù)中抽取預(yù)設(shè)數(shù)量個(gè)出現(xiàn)次數(shù)最多的關(guān)鍵詞,確定每個(gè)所述關(guān)鍵詞的出現(xiàn)次數(shù);

計(jì)算每個(gè)所述關(guān)鍵詞的哈希值;

根據(jù)公式一確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)所述關(guān)鍵詞的關(guān)鍵詞相似參數(shù),其中,所述公式一為:

其中,Wi為所述當(dāng)前目標(biāo)數(shù)據(jù)的第j個(gè)關(guān)鍵詞的第i個(gè)關(guān)鍵詞相似參數(shù),Xj,i為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的哈希值從右開始的第i位的值,Nj為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的出現(xiàn)次數(shù);

根據(jù)公式二確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),其中,所述公式二為:

其中,Ai為所述當(dāng)前目標(biāo)數(shù)據(jù)的第i個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),n為所述預(yù)設(shè)數(shù)量;

根據(jù)公式三,確定所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù),其中,所述公式三為:

其中,Bi為所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值;

根據(jù)公式四,確定每兩個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)的綜合相似參數(shù),其中,所述公式四為:

C=D xor F,

其中,D為第一目標(biāo)數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標(biāo)數(shù)據(jù)的最終相似參數(shù),C為所述第一目標(biāo)數(shù)據(jù)和所述第二目標(biāo)數(shù)據(jù)的綜合相似參數(shù);

判斷每兩個(gè)目標(biāo)數(shù)據(jù)的綜合相似參數(shù)中1的個(gè)數(shù)是否小于等于預(yù)設(shè)個(gè)數(shù),如果是,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)相似,否則,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)不相似;

排除每兩個(gè)相似的目標(biāo)數(shù)據(jù)中的任意一個(gè)目標(biāo)數(shù)據(jù)。

在本發(fā)明實(shí)施例中,通過公式一、公式二和公式三確定出每個(gè)目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)的最終相似參數(shù)。根據(jù)公式四,確定出每兩個(gè)目標(biāo)數(shù)據(jù)對應(yīng)的綜合相似參數(shù),通過每兩個(gè)目標(biāo)數(shù)據(jù)對應(yīng)的綜合相似參數(shù)中1的個(gè)數(shù)來確定每兩個(gè)目標(biāo)數(shù)據(jù)是否相似。每個(gè)關(guān)鍵詞的哈希值為一個(gè)二進(jìn)制數(shù)。最終相似參數(shù)也是一個(gè)二進(jìn)制數(shù)。每兩個(gè)目標(biāo)數(shù)據(jù)對應(yīng)一個(gè)綜合相似參數(shù)。預(yù)設(shè)個(gè)數(shù)可以為3。舉例來說,當(dāng)前目標(biāo)數(shù)據(jù)是一段文字,從中抽取出3個(gè)關(guān)鍵詞分別是:“網(wǎng)頁”“算法”“數(shù)據(jù)”,出現(xiàn)次數(shù)分別是:6次,3次,2次。計(jì)算出“網(wǎng)頁”這個(gè)關(guān)鍵詞的哈希值為:101101,根據(jù)公式一,計(jì)算出“網(wǎng)頁”這個(gè)關(guān)鍵詞的關(guān)鍵詞相似參數(shù)依次為:-6,6,-6,-6,6,-6。計(jì)算出“算法”這個(gè)關(guān)鍵詞的哈希值為:011001,根據(jù)公式一,計(jì)算出“算法”這個(gè)關(guān)鍵詞的關(guān)鍵詞相似參數(shù)依次為:3,-3,-3,3,3,-3。計(jì)算出“數(shù)據(jù)”這個(gè)關(guān)鍵詞的哈希值為:110001,根據(jù)公式一,計(jì)算出“數(shù)據(jù)”這個(gè)關(guān)鍵詞的關(guān)鍵詞相似參數(shù)依次為:-2,-2,2,2,2,-2。根據(jù)公式二,計(jì)算出當(dāng)前目標(biāo)數(shù)據(jù)的第1個(gè)目標(biāo)數(shù)據(jù)相似參數(shù)為(-6)+3+(-2)=-5。其他的目標(biāo)數(shù)據(jù)相似參數(shù)依次為:1,-7,-1,11,-11。根據(jù)公式三,確定當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù)為:010010。假設(shè)計(jì)算出第一目標(biāo)數(shù)據(jù)的最終相似參數(shù)為:010010,第二目標(biāo)數(shù)據(jù)的最終相似參數(shù)為:110110。根據(jù)公式四,計(jì)算出第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù)對應(yīng)的綜合相似參數(shù)為:100100。當(dāng)預(yù)設(shè)個(gè)數(shù)為3時(shí),由于第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù)對應(yīng)的綜合相似參數(shù)中1的個(gè)數(shù)為2小于3,所以確定第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù)相似。需要對第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù)進(jìn)行排重處理。排除每兩個(gè)相似的目標(biāo)數(shù)據(jù)中的任意一個(gè)目標(biāo)數(shù)據(jù),具體包括:刪除兩個(gè)相似的目標(biāo)數(shù)據(jù)中的任意一個(gè)目標(biāo)數(shù)據(jù)。以上述的第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù)為例,可以刪除第一目標(biāo)數(shù)據(jù)或第二目標(biāo)數(shù)據(jù)。

在本發(fā)明一實(shí)施例中,在所述獲取至少一個(gè)目標(biāo)地址之前,進(jìn)一步包括:

預(yù)先設(shè)置目標(biāo)網(wǎng)站對應(yīng)的地址解析規(guī)則;

所述獲取至少一個(gè)目標(biāo)地址,包括:

根據(jù)所述地址解析規(guī)則,確定所述目標(biāo)網(wǎng)站對應(yīng)的至少一個(gè)目標(biāo)地址。

在本發(fā)明實(shí)施例中,一個(gè)目標(biāo)網(wǎng)站中可能有多個(gè)網(wǎng)頁,每個(gè)網(wǎng)頁有對應(yīng)的目標(biāo)地址,通過設(shè)置目標(biāo)網(wǎng)站的地址解析規(guī)則,無需知道目標(biāo)網(wǎng)站的所有目標(biāo)地址,即可通過地址解析規(guī)則解析出該目標(biāo)網(wǎng)站的目標(biāo)地址。用戶無需手動(dòng)查找每個(gè)目標(biāo)地址,提高了抽取網(wǎng)頁中目標(biāo)數(shù)據(jù)的效率。

在本發(fā)明一實(shí)施例中,所述預(yù)先設(shè)置目標(biāo)網(wǎng)站對應(yīng)的地址解析規(guī)則,包括:

確定所述目標(biāo)網(wǎng)站的地址構(gòu)建規(guī)則;

根據(jù)所述地址構(gòu)建規(guī)則,設(shè)置所述地址解析規(guī)則。

在本發(fā)明實(shí)施例中,地址構(gòu)建規(guī)則是指目標(biāo)網(wǎng)站中網(wǎng)址的格式,例如:網(wǎng)址由主域名、多級子域名、多級目錄構(gòu)成。

在本發(fā)明一實(shí)施例中,所述根據(jù)所述地址解析規(guī)則,確定所述目標(biāo)網(wǎng)站對應(yīng)的至少一個(gè)目標(biāo)地址,包括:

根據(jù)所述地址解析規(guī)則,解析出所述目標(biāo)網(wǎng)址對應(yīng)的至少一個(gè)待處理地址;

對所述至少一個(gè)待處理地址進(jìn)行排重處理,將排重處理后剩余的待處理地址作為所述目標(biāo)地址。

在本發(fā)明實(shí)施例中,通過地址解析規(guī)則解析出的至少一個(gè)待處理地址中可能存在重復(fù)的地址,為了避免重復(fù)抽取相同的網(wǎng)頁,對待處理地址進(jìn)行排重處理,能夠加快目標(biāo)數(shù)據(jù)的抽取速度。具體地,可以通過布隆過濾器實(shí)現(xiàn)對至少一個(gè)待處理地址的排重處理。

在獲取目標(biāo)數(shù)據(jù)后,還可以對目標(biāo)數(shù)據(jù)進(jìn)行整合處理,也就是將獲取的目標(biāo)數(shù)據(jù)通過某組關(guān)鍵字建立對應(yīng)關(guān)系,其實(shí)質(zhì)是關(guān)鍵字之間的匹配,使得用戶可以通過關(guān)鍵字來查找所需要的目標(biāo)數(shù)據(jù)。

另外,在對各個(gè)目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行排重處理時(shí),可以通過Simhash算法進(jìn)行排重處理。

如圖2所示,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理的方法,該方法可以包括以下步驟:

步驟201:獲取至少一個(gè)目標(biāo)地址。

具體地,至少一個(gè)目標(biāo)地址可以是至少一個(gè)url(Uniform Resource Locator,統(tǒng)一資源定位符)地址。可以將至少一個(gè)url地址存儲到url隊(duì)列中。可以通過web爬蟲從url隊(duì)列中獲取目標(biāo)地址進(jìn)行處理。

步驟202:從每個(gè)目標(biāo)地址對應(yīng)的網(wǎng)頁中,抽取每個(gè)目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)。

具體地,可以通過web爬蟲從目標(biāo)地址對應(yīng)的網(wǎng)頁抽取目標(biāo)數(shù)據(jù)。在抽取當(dāng)前網(wǎng)頁的目標(biāo)數(shù)據(jù)時(shí)可以根據(jù)預(yù)設(shè)的抽取規(guī)則來抽取。其中,抽取規(guī)則可以包括:根據(jù)網(wǎng)站中網(wǎng)頁的模板中,抽取模板中指定模塊中的目標(biāo)數(shù)據(jù),這里的指定模塊可以是面積最大的模塊。

步驟203:分別從每個(gè)目標(biāo)數(shù)據(jù)中抽取預(yù)設(shè)數(shù)量個(gè)出現(xiàn)次數(shù)最多的關(guān)鍵詞,分別確定每個(gè)目標(biāo)數(shù)據(jù)中每個(gè)關(guān)鍵詞的出現(xiàn)次數(shù)。

步驟204:分別計(jì)算每個(gè)目標(biāo)數(shù)據(jù)中每個(gè)關(guān)鍵詞的哈希值。

具體地,可以通過MD2、MD4、MD5和SHA-1等哈希算法計(jì)算哈希值。

步驟205:根據(jù)公式一確定每個(gè)目標(biāo)數(shù)據(jù)的每個(gè)關(guān)鍵詞的關(guān)鍵詞相似參數(shù)。

其中,公式一為:

其中,Wi為當(dāng)前目標(biāo)數(shù)據(jù)的第j個(gè)關(guān)鍵詞的第i個(gè)關(guān)鍵詞相似參數(shù),Xj,i為當(dāng)前目標(biāo)數(shù)據(jù)的第j個(gè)關(guān)鍵詞的哈希值從右開始的第i位的值,Nj為第j個(gè)關(guān)鍵詞的出現(xiàn)次數(shù)。

步驟206:根據(jù)公式二確定每個(gè)目標(biāo)數(shù)據(jù)的每個(gè)目標(biāo)數(shù)據(jù)相似參數(shù)。

其中,公式二為:

其中,Ai為當(dāng)前目標(biāo)數(shù)據(jù)的第i個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),n為預(yù)設(shè)數(shù)量。

步驟207:根據(jù)公式三,確定每個(gè)目標(biāo)數(shù)據(jù)的最終相似參數(shù)。

其中,公式三為:

其中,Bi為當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值。

步驟208:根據(jù)公式四,確定每兩個(gè)目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)的綜合相似參數(shù)。

其中,公式四為:

C=D xor F,

其中,D為第一目標(biāo)數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標(biāo)數(shù)據(jù)的最終相似參數(shù),C為第一目標(biāo)數(shù)據(jù)和第二目標(biāo)數(shù)據(jù)的綜合相似參數(shù)。

步驟209:確定每兩個(gè)目標(biāo)數(shù)據(jù)的綜合相似參數(shù)中1的個(gè)數(shù),在當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)的綜合相似參數(shù)中1的個(gè)數(shù)小于等于預(yù)設(shè)個(gè)數(shù)時(shí),確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)相似,在當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)的綜合相似參數(shù)中1的個(gè)數(shù)大于預(yù)設(shè)個(gè)數(shù)時(shí),確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)不相似。

步驟210:排除每兩個(gè)相似的目標(biāo)數(shù)據(jù)中的任意一個(gè)目標(biāo)數(shù)據(jù)。

具體地,可以刪除兩個(gè)相似的目標(biāo)數(shù)據(jù)中的一個(gè)。可以將排重處理后的目標(biāo)數(shù)據(jù)存儲到數(shù)據(jù)庫中。

另外,周期性檢測每個(gè)目標(biāo)地址對應(yīng)的網(wǎng)頁的源代碼是否發(fā)生改變,如果是,則重新從源代碼發(fā)生改變的網(wǎng)頁中抽取對應(yīng)的目標(biāo)數(shù)據(jù)。

在本發(fā)明實(shí)施例中,可以對不同類型的目標(biāo)數(shù)據(jù)進(jìn)行采集,比如股票信息、電商數(shù)據(jù)、論壇博客等。用戶可自定義網(wǎng)頁上自己需要的數(shù)據(jù)內(nèi)容,比如時(shí)間、標(biāo)題、正文等。支持翻頁網(wǎng)頁的數(shù)據(jù)采集。網(wǎng)頁信息維護(hù)自動(dòng)化,抓取頁面內(nèi)容有所改變時(shí)系統(tǒng)會自動(dòng)更新并對新內(nèi)容進(jìn)行采集。保證良好的兼容性,支持跨平臺

在本發(fā)明實(shí)施例中,可以依據(jù)用戶事前配置好的規(guī)則進(jìn)行數(shù)據(jù)采集工作,包括網(wǎng)頁下載規(guī)則和地址解析規(guī)則以及抽取規(guī)則等。并采用分布式處理,由采集平臺將配置好的采集任務(wù)傳送到不同的服務(wù)器上,對網(wǎng)站的大量數(shù)據(jù)開始采集工作并提供實(shí)時(shí)監(jiān)控功能。同時(shí)采集平臺可以對服務(wù)器集群進(jìn)行監(jiān)控、管理、分析等操作。

如圖3、圖4所示,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理的裝置。裝置實(shí)施例可以通過軟件實(shí)現(xiàn),也可以通過硬件或者軟硬件結(jié)合的方式實(shí)現(xiàn)。從硬件層面而言,如圖3所示,為本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理的裝置所在設(shè)備的一種硬件結(jié)構(gòu)圖,除了圖3所示的處理器、內(nèi)存、網(wǎng)絡(luò)接口、以及非易失性存儲器之外,實(shí)施例中裝置所在的設(shè)備通常還可以包括其他硬件,如負(fù)責(zé)處理報(bào)文的轉(zhuǎn)發(fā)芯片等等。以軟件實(shí)現(xiàn)為例,如圖4所示,作為一個(gè)邏輯意義上的裝置,是通過其所在設(shè)備的CPU將非易失性存儲器中對應(yīng)的計(jì)算機(jī)程序指令讀取到內(nèi)存中運(yùn)行形成的。本實(shí)施例提供的一種數(shù)據(jù)處理的裝置,包括:

獲取單元401,用于獲取至少一個(gè)目標(biāo)地址;

抽取單元402,用于從每個(gè)所述目標(biāo)地址對應(yīng)的網(wǎng)頁中,抽取每個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù);

排重單元403,用于對各個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行排重處理。

在本發(fā)明一實(shí)施例中,所述排重單元,具體用于:

針對每個(gè)目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù),從當(dāng)前目標(biāo)數(shù)據(jù)中抽取預(yù)設(shè)數(shù)量個(gè)出現(xiàn)次數(shù)最多的關(guān)鍵詞,確定每個(gè)所述關(guān)鍵詞的出現(xiàn)次數(shù);

計(jì)算每個(gè)所述關(guān)鍵詞的哈希值;

根據(jù)公式一確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)所述關(guān)鍵詞的關(guān)鍵詞相似參數(shù),其中,所述公式一為:

其中,Wi為所述當(dāng)前目標(biāo)數(shù)據(jù)的第j個(gè)關(guān)鍵詞的第i個(gè)關(guān)鍵詞相似參數(shù),Xj,i為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的哈希值從右開始的第i位的值,Nj為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的出現(xiàn)次數(shù);

根據(jù)公式二確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),其中,所述公式二為:

其中,Ai為所述當(dāng)前目標(biāo)數(shù)據(jù)的第i個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),n為所述預(yù)設(shè)數(shù)量;

根據(jù)公式三,確定所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù),其中,所述公式三為:

其中,Bi為所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值;

根據(jù)公式四,確定每兩個(gè)所述目標(biāo)地址對應(yīng)的目標(biāo)數(shù)據(jù)的綜合相似參數(shù),其中,所述公式四為:

C=D xor F,

其中,D為第一目標(biāo)數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標(biāo)數(shù)據(jù)的最終相似參數(shù),C為所述第一目標(biāo)數(shù)據(jù)和所述第二目標(biāo)數(shù)據(jù)的綜合相似參數(shù);

判斷每兩個(gè)目標(biāo)數(shù)據(jù)的綜合相似參數(shù)中1的個(gè)數(shù)是否小于等于預(yù)設(shè)個(gè)數(shù),如果是,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)相似,否則,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)不相似;

排除每兩個(gè)相似的目標(biāo)數(shù)據(jù)中的任意一個(gè)目標(biāo)數(shù)據(jù)。

在本發(fā)明一實(shí)施例中,該裝置進(jìn)一步包括:設(shè)置單元,用于設(shè)置目標(biāo)網(wǎng)站對應(yīng)的地址解析規(guī)則;

所述獲取單元,用于根據(jù)所述地址解析規(guī)則,確定所述目標(biāo)網(wǎng)站對應(yīng)的至少一個(gè)目標(biāo)地址。

在本發(fā)明一實(shí)施例中,所述設(shè)置單元,用于確定所述目標(biāo)網(wǎng)站的地址構(gòu)建規(guī)則,根據(jù)所述地址構(gòu)建規(guī)則,設(shè)置所述地址解析規(guī)則。

在本發(fā)明一實(shí)施例中,所述所述獲取單元,用于根據(jù)所述地址解析規(guī)則,解析出所述目標(biāo)網(wǎng)址對應(yīng)的至少一個(gè)待處理地址,對所述至少一個(gè)待處理地址進(jìn)行排重處理,將排重處理后剩余的待處理地址作為所述目標(biāo)地址。

上述裝置內(nèi)的各單元之間的信息交互、執(zhí)行過程等內(nèi)容,由于與本發(fā)明方法實(shí)施例基于同一構(gòu)思,具體內(nèi)容可參見本發(fā)明方法實(shí)施例中的敘述,此處不再贅述。

本發(fā)明各個(gè)實(shí)施例至少具有如下有益效果:

1、在本發(fā)明實(shí)施例中,獲取至少一個(gè)目標(biāo)地址,從每個(gè)目標(biāo)地址對應(yīng)的網(wǎng)頁中,抽取用戶所需要的目標(biāo)數(shù)據(jù),對抽取的目標(biāo)數(shù)據(jù)進(jìn)行排重處理,無需用戶對每個(gè)網(wǎng)頁通過操作相關(guān)工具來抽取數(shù)據(jù),提高了獲取網(wǎng)頁中目標(biāo)數(shù)據(jù)的效率。

2、在本發(fā)明實(shí)施例中,一個(gè)目標(biāo)網(wǎng)站中可能有多個(gè)網(wǎng)頁,每個(gè)網(wǎng)頁有對應(yīng)的目標(biāo)地址,通過設(shè)置目標(biāo)網(wǎng)站的地址解析規(guī)則,無需知道目標(biāo)網(wǎng)站的所有目標(biāo)地址,即可通過地址解析規(guī)則解析出該目標(biāo)網(wǎng)站的目標(biāo)地址。用戶無需手動(dòng)查找每個(gè)目標(biāo)地址,提高了抽取網(wǎng)頁中目標(biāo)數(shù)據(jù)的效率。

3、在本發(fā)明實(shí)施例中,通過地址解析規(guī)則解析出的至少一個(gè)待處理地址中可能存在重復(fù)的地址,為了避免重復(fù)抽取相同的網(wǎng)頁,對待處理地址進(jìn)行排重處理,能夠加快目標(biāo)數(shù)據(jù)的抽取速度。

需要說明的是,在本文中,諸如第一和第二之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)〃·····”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同因素。

本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲在計(jì)算機(jī)可讀取的存儲介質(zhì)中,該程序在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)中。

最后需要說明的是:以上所述僅為本發(fā)明的較佳實(shí)施例,僅用于說明本發(fā)明的技術(shù)方案,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所做的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1