亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)絡(luò)爬蟲識別方法和裝置與流程

文檔序號:12363799閱讀:來源:國知局

技術(shù)特征:

1.一種網(wǎng)絡(luò)爬蟲識別方法,其特征在于,包括:

接收客戶端在網(wǎng)頁渲染完畢后發(fā)送的所述網(wǎng)頁的圖片和所述網(wǎng)頁的URL;

根據(jù)所述URL獲取樣本圖片;

根據(jù)相似度與預(yù)設(shè)閾值的比較,識別所述客戶端是否為網(wǎng)絡(luò)爬蟲,所述相似度為所述網(wǎng)頁的圖片與所述樣本圖片的相似度。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)相似度與預(yù)設(shè)閾值的比較,識別所述客戶端是否為網(wǎng)絡(luò)爬蟲包括:

如果所述網(wǎng)頁的圖片與所述樣本圖片的相似度大于預(yù)設(shè)閾值,則識別所述客戶端不是網(wǎng)絡(luò)爬蟲。

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述URL獲取樣本圖片之前,還包括:

判斷所述客戶端的連接信息和所述URL是否在待驗(yàn)證客戶端庫中;

如果是,則執(zhí)行所述根據(jù)所述URL獲取樣本圖片的步驟。

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述識別所述客戶端不是網(wǎng)絡(luò)爬蟲之前,還包括:

如果所述網(wǎng)頁的圖片與所述樣本圖片的相似度大于預(yù)設(shè)閾值,則從所述待驗(yàn)證客戶端庫中刪除所述網(wǎng)頁的URL;

判斷所述待驗(yàn)證客戶端庫中是否還有所述客戶端對應(yīng)的其他需要驗(yàn)證的URL;

如果否,則執(zhí)行識別所述客戶端不是網(wǎng)絡(luò)爬蟲的步驟。

5.根據(jù)權(quán)利要求3-4任意一項(xiàng)所述的方法,其特征在于,所述接收客戶端在網(wǎng)頁渲染完畢后發(fā)送的所述網(wǎng)頁的圖片和所述網(wǎng)頁的URL之前,還包括:

接收客戶端的連接信息和所述客戶端當(dāng)前訪問的URL,所述客戶端的連接信息包括所述客戶端的IP地址和所述客戶端的連接時(shí)間;

判斷所述客戶端的連接信息是否在待驗(yàn)證客戶端庫中;

如果否,則將所述客戶端的連接信息和所述客戶端當(dāng)前訪問的URL存入所述待驗(yàn)證客戶端庫。

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述判斷所述客戶端的連接信息是否在待驗(yàn)證客戶端庫中之后,還包括:

如果所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中,則判斷所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間是否超過預(yù)設(shè)時(shí)長;

如果是,則識別所述客戶端為網(wǎng)絡(luò)爬蟲,并將所述客戶端的連接信息存入網(wǎng)絡(luò)爬蟲庫;

如果所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間未超過預(yù)設(shè)時(shí)長,則將所述客戶端的連接信息和所述客戶端當(dāng)前訪問的URL存入所述待驗(yàn)證客戶端庫。

7.根據(jù)權(quán)利要求1-4任意一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述URL獲取樣本圖片包括:

根據(jù)所述網(wǎng)頁的圖片的尺寸和所述URL在樣本圖片庫中查找匹配所述URL和所述尺寸的圖片;

如果查找到,則輸出匹配所述URL和所述尺寸的圖片;

如果在所述樣本圖片庫中未查找到匹配所述URL和所述尺寸的圖片,則在所述樣本圖片庫中查找匹配所述URL的圖片,并在查找到的匹配所述URL的圖片中查找與所述尺寸最接近的圖片,并輸出查找到的與所述尺寸最接近的圖片。

8.一種網(wǎng)絡(luò)爬蟲識別方法,其特征在于,包括:

在網(wǎng)頁渲染完畢后,客戶端獲取當(dāng)前渲染的網(wǎng)頁的圖片和所述網(wǎng)頁的URL;

所述客戶端將所述網(wǎng)頁的圖片和所述網(wǎng)頁的URL發(fā)送給服務(wù)器,以便所述服務(wù)器根據(jù)所述URL獲取樣本圖片,并根據(jù)相似度與預(yù)設(shè)閾值的比較,識別所述客戶端是否為網(wǎng)絡(luò)爬蟲,所述相似度為所述網(wǎng)頁的圖片與所述樣本圖片的相似度。

9.一種網(wǎng)絡(luò)爬蟲識別方法,其特征在于,包括:

接收客戶端的連接信息,所述客戶端的連接信息包括所述客戶端的IP地址和所述客戶端的連接時(shí)間;

如果所述客戶端的連接信息在待驗(yàn)證客戶端庫中,并且所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間超過預(yù)設(shè)時(shí)長,則識別所述客戶端為網(wǎng)絡(luò)爬蟲。

10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述識別所述客戶端為網(wǎng)絡(luò)爬蟲之后,還包括:

將所述客戶端的連接信息存入網(wǎng)絡(luò)爬蟲庫。

11.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述接收客戶端的連接信息之后,還包括:

如果所述客戶端的連接信息不在待驗(yàn)證客戶端庫中,將所述客戶端的連接信息和所述客戶端當(dāng)前訪問的URL存入所述待驗(yàn)證客戶端庫。

12.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述接收客戶端的連接信息之后,還 包括:

判斷所述客戶端的連接信息是否在網(wǎng)絡(luò)爬蟲庫中;

如果是,則識別所述客戶端為網(wǎng)絡(luò)爬蟲;

如果所述客戶端的連接信息不在所述網(wǎng)絡(luò)爬蟲庫中,則執(zhí)行所述識別所述客戶端為網(wǎng)絡(luò)爬蟲的步驟。

13.一種網(wǎng)絡(luò)爬蟲識別裝置,其特征在于,包括:

接收模塊,用于接收客戶端在網(wǎng)頁渲染完畢后發(fā)送的所述網(wǎng)頁的圖片和所述網(wǎng)頁的URL;

獲取模塊,用于根據(jù)所述URL獲取樣本圖片;

識別模塊,用于根據(jù)相似度與預(yù)設(shè)閾值的比較,識別所述客戶端是否為網(wǎng)絡(luò)爬蟲,所述相似度為所述接收模塊接收的網(wǎng)頁的圖片與所述獲取模塊獲取的樣本圖片的相似度。

14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,

所述識別模塊,具體用于當(dāng)所述網(wǎng)頁的圖片與所述獲取模塊獲取的樣本圖片的相似度大于預(yù)設(shè)閾值時(shí),識別所述客戶端不是網(wǎng)絡(luò)爬蟲。

15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,還包括:判斷模塊;

所述判斷模塊,用于在所述獲取模塊獲取樣本圖片之前,判斷所述客戶端的連接信息和所述URL是否在待驗(yàn)證客戶端庫中;

所述獲取模塊,具體用于當(dāng)所述判斷模塊確定所述客戶端的連接信息和所述URL在待驗(yàn)證客戶端庫中時(shí),執(zhí)行所述根據(jù)所述URL獲取樣本圖片的步驟。

16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,還包括:刪除模塊;

所述刪除模塊,用于在所述識別模塊識別所述客戶端不是網(wǎng)絡(luò)爬蟲之前,當(dāng)所述網(wǎng)頁的圖片與所述樣本圖片的相似度大于預(yù)設(shè)閾值時(shí),從所述待驗(yàn)證客戶端庫中刪除所述網(wǎng)頁的URL;

所述判斷模塊,還用于判斷所述待驗(yàn)證客戶端庫中是否還有所述客戶端對應(yīng)的其他需要驗(yàn)證的URL;

所述識別模塊,具體用于當(dāng)所述判斷模塊確定所述待驗(yàn)證客戶端庫中已沒有所述客戶端對應(yīng)的其他需要驗(yàn)證的URL時(shí),執(zhí)行識別所述客戶端不是網(wǎng)絡(luò)爬蟲的步驟。

17.根據(jù)權(quán)利要求15-16任意一項(xiàng)所述的裝置,其特征在于,還包括:保存模塊;

所述接收模塊,還用于在接收所述網(wǎng)頁的圖片和所述網(wǎng)頁的URL之前,接收客戶端的連接信息和所述客戶端當(dāng)前訪問的URL,所述客戶端的連接信息包括所述客戶端的IP地址和所述客戶端的連接時(shí)間;

所述判斷模塊,還用于判斷所述客戶端的連接信息是否在待驗(yàn)證客戶端庫中;

所述保存模塊,用于當(dāng)所述判斷模塊確定所述客戶端的連接信息不在待驗(yàn)證客戶端庫中時(shí),將所述客戶端的連接信息和所述客戶端當(dāng)前訪問的URL存入所述待驗(yàn)證客戶端庫。

18.根據(jù)權(quán)利要求17所述的裝置,其特征在于,

所述判斷模塊,還用于在判斷所述客戶端的連接信息是否在待驗(yàn)證客戶端庫中之后,如果所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中,則判斷所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間是否超過預(yù)設(shè)時(shí)長;

所述識別模塊,還用于當(dāng)所述判斷模塊確定所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間超過預(yù)設(shè)時(shí)長時(shí),識別所述客戶端為網(wǎng)絡(luò)爬蟲;

所述保存模塊,還用于在所述識別模塊識別所述客戶端為網(wǎng)絡(luò)爬蟲之后,將所述客戶端的連接信息存入網(wǎng)絡(luò)爬蟲庫;以及在所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間未超過預(yù)設(shè)時(shí)長時(shí),將所述客戶端的連接信息和所述客戶端當(dāng)前訪問的URL存入所述待驗(yàn)證客戶端庫。

19.根據(jù)權(quán)利要求13-16任意一項(xiàng)所述的裝置,其特征在于,所述獲取模塊包括:查找子模塊和輸出子模塊;

所述查找子模塊,用于根據(jù)所述網(wǎng)頁的圖片的尺寸和所述URL在樣本圖片庫中查找匹配所述URL和所述尺寸的圖片;

所述輸出子模塊,用于在所述查找子模塊查找到匹配所述URL和所述尺寸的圖片之后,輸出匹配所述URL和所述尺寸的圖片;

所述查找子模塊,還用于在所述樣本圖片庫中未查找到匹配所述URL和所述尺寸的圖片時(shí),在所述樣本圖片庫中查找匹配所述URL的圖片,并在查找到的匹配所述URL的圖片中查找與所述尺寸最接近的圖片;

所述輸出子模塊,還用于輸出所述查找子模塊查找到的與所述尺寸最接近的圖片。

20.一種網(wǎng)絡(luò)爬蟲識別裝置,其特征在于,包括:

獲取模塊,用于在網(wǎng)頁渲染完畢后,獲取當(dāng)前渲染的網(wǎng)頁的圖片和所述網(wǎng)頁的URL;

發(fā)送模塊,用于將所述獲取模塊獲取的所述網(wǎng)頁的圖片和所述網(wǎng)頁的URL發(fā)送給服務(wù)器,以便所述服務(wù)器根據(jù)所述URL獲取樣本圖片,并根據(jù)相似度與預(yù)設(shè)閾值的比較,識別所述客戶端是否為網(wǎng)絡(luò)爬蟲,所述相似度為所述網(wǎng)頁的圖片與所述樣本圖片的相似度。

21.一種網(wǎng)絡(luò)爬蟲識別裝置,其特征在于,包括:

接收模塊,用于接收客戶端的連接信息,所述客戶端的連接信息包括所述客戶端的IP地址和所述客戶端的連接時(shí)間;

識別模塊,用于當(dāng)所述接收模塊接收的所述客戶端的連接信息在待驗(yàn)證客戶端庫中,并且所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間超過預(yù)設(shè)時(shí)長時(shí),識別所述客戶端為網(wǎng)絡(luò)爬蟲。

22.根據(jù)權(quán)利要求21所述的裝置,其特征在于,還包括:

保存模塊,用于在所述識別模塊識別所述客戶端為網(wǎng)絡(luò)爬蟲之后,將所述客戶端的連接信息存入網(wǎng)絡(luò)爬蟲庫。

23.根據(jù)權(quán)利要求22所述的裝置,其特征在于,

所述保存模塊,還用于當(dāng)所述接收模塊接收的所述客戶端的連接信息不在待驗(yàn)證客戶端庫中時(shí),將所述客戶端的連接信息和所述客戶端當(dāng)前訪問的URL存入所述待驗(yàn)證客戶端庫。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1