1.一種網(wǎng)絡(luò)爬蟲識別方法,其特征在于,包括:
接收客戶端在網(wǎng)頁渲染完畢后發(fā)送的所述網(wǎng)頁的圖片和所述網(wǎng)頁的URL;
根據(jù)所述URL獲取樣本圖片;
根據(jù)相似度與預(yù)設(shè)閾值的比較,識別所述客戶端是否為網(wǎng)絡(luò)爬蟲,所述相似度為所述網(wǎng)頁的圖片與所述樣本圖片的相似度。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)相似度與預(yù)設(shè)閾值的比較,識別所述客戶端是否為網(wǎng)絡(luò)爬蟲包括:
如果所述網(wǎng)頁的圖片與所述樣本圖片的相似度大于預(yù)設(shè)閾值,則識別所述客戶端不是網(wǎng)絡(luò)爬蟲。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述URL獲取樣本圖片之前,還包括:
判斷所述客戶端的連接信息和所述URL是否在待驗(yàn)證客戶端庫中;
如果是,則執(zhí)行所述根據(jù)所述URL獲取樣本圖片的步驟。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述識別所述客戶端不是網(wǎng)絡(luò)爬蟲之前,還包括:
如果所述網(wǎng)頁的圖片與所述樣本圖片的相似度大于預(yù)設(shè)閾值,則從所述待驗(yàn)證客戶端庫中刪除所述網(wǎng)頁的URL;
判斷所述待驗(yàn)證客戶端庫中是否還有所述客戶端對應(yīng)的其他需要驗(yàn)證的URL;
如果否,則執(zhí)行識別所述客戶端不是網(wǎng)絡(luò)爬蟲的步驟。
5.根據(jù)權(quán)利要求3-4任意一項(xiàng)所述的方法,其特征在于,所述接收客戶端在網(wǎng)頁渲染完畢后發(fā)送的所述網(wǎng)頁的圖片和所述網(wǎng)頁的URL之前,還包括:
接收客戶端的連接信息和所述客戶端當(dāng)前訪問的URL,所述客戶端的連接信息包括所述客戶端的IP地址和所述客戶端的連接時(shí)間;
判斷所述客戶端的連接信息是否在待驗(yàn)證客戶端庫中;
如果否,則將所述客戶端的連接信息和所述客戶端當(dāng)前訪問的URL存入所述待驗(yàn)證客戶端庫。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述判斷所述客戶端的連接信息是否在待驗(yàn)證客戶端庫中之后,還包括:
如果所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中,則判斷所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間是否超過預(yù)設(shè)時(shí)長;
如果是,則識別所述客戶端為網(wǎng)絡(luò)爬蟲,并將所述客戶端的連接信息存入網(wǎng)絡(luò)爬蟲庫;
如果所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間未超過預(yù)設(shè)時(shí)長,則將所述客戶端的連接信息和所述客戶端當(dāng)前訪問的URL存入所述待驗(yàn)證客戶端庫。
7.根據(jù)權(quán)利要求1-4任意一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述URL獲取樣本圖片包括:
根據(jù)所述網(wǎng)頁的圖片的尺寸和所述URL在樣本圖片庫中查找匹配所述URL和所述尺寸的圖片;
如果查找到,則輸出匹配所述URL和所述尺寸的圖片;
如果在所述樣本圖片庫中未查找到匹配所述URL和所述尺寸的圖片,則在所述樣本圖片庫中查找匹配所述URL的圖片,并在查找到的匹配所述URL的圖片中查找與所述尺寸最接近的圖片,并輸出查找到的與所述尺寸最接近的圖片。
8.一種網(wǎng)絡(luò)爬蟲識別方法,其特征在于,包括:
在網(wǎng)頁渲染完畢后,客戶端獲取當(dāng)前渲染的網(wǎng)頁的圖片和所述網(wǎng)頁的URL;
所述客戶端將所述網(wǎng)頁的圖片和所述網(wǎng)頁的URL發(fā)送給服務(wù)器,以便所述服務(wù)器根據(jù)所述URL獲取樣本圖片,并根據(jù)相似度與預(yù)設(shè)閾值的比較,識別所述客戶端是否為網(wǎng)絡(luò)爬蟲,所述相似度為所述網(wǎng)頁的圖片與所述樣本圖片的相似度。
9.一種網(wǎng)絡(luò)爬蟲識別方法,其特征在于,包括:
接收客戶端的連接信息,所述客戶端的連接信息包括所述客戶端的IP地址和所述客戶端的連接時(shí)間;
如果所述客戶端的連接信息在待驗(yàn)證客戶端庫中,并且所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間超過預(yù)設(shè)時(shí)長,則識別所述客戶端為網(wǎng)絡(luò)爬蟲。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述識別所述客戶端為網(wǎng)絡(luò)爬蟲之后,還包括:
將所述客戶端的連接信息存入網(wǎng)絡(luò)爬蟲庫。
11.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述接收客戶端的連接信息之后,還包括:
如果所述客戶端的連接信息不在待驗(yàn)證客戶端庫中,將所述客戶端的連接信息和所述客戶端當(dāng)前訪問的URL存入所述待驗(yàn)證客戶端庫。
12.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述接收客戶端的連接信息之后,還 包括:
判斷所述客戶端的連接信息是否在網(wǎng)絡(luò)爬蟲庫中;
如果是,則識別所述客戶端為網(wǎng)絡(luò)爬蟲;
如果所述客戶端的連接信息不在所述網(wǎng)絡(luò)爬蟲庫中,則執(zhí)行所述識別所述客戶端為網(wǎng)絡(luò)爬蟲的步驟。
13.一種網(wǎng)絡(luò)爬蟲識別裝置,其特征在于,包括:
接收模塊,用于接收客戶端在網(wǎng)頁渲染完畢后發(fā)送的所述網(wǎng)頁的圖片和所述網(wǎng)頁的URL;
獲取模塊,用于根據(jù)所述URL獲取樣本圖片;
識別模塊,用于根據(jù)相似度與預(yù)設(shè)閾值的比較,識別所述客戶端是否為網(wǎng)絡(luò)爬蟲,所述相似度為所述接收模塊接收的網(wǎng)頁的圖片與所述獲取模塊獲取的樣本圖片的相似度。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,
所述識別模塊,具體用于當(dāng)所述網(wǎng)頁的圖片與所述獲取模塊獲取的樣本圖片的相似度大于預(yù)設(shè)閾值時(shí),識別所述客戶端不是網(wǎng)絡(luò)爬蟲。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,還包括:判斷模塊;
所述判斷模塊,用于在所述獲取模塊獲取樣本圖片之前,判斷所述客戶端的連接信息和所述URL是否在待驗(yàn)證客戶端庫中;
所述獲取模塊,具體用于當(dāng)所述判斷模塊確定所述客戶端的連接信息和所述URL在待驗(yàn)證客戶端庫中時(shí),執(zhí)行所述根據(jù)所述URL獲取樣本圖片的步驟。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,還包括:刪除模塊;
所述刪除模塊,用于在所述識別模塊識別所述客戶端不是網(wǎng)絡(luò)爬蟲之前,當(dāng)所述網(wǎng)頁的圖片與所述樣本圖片的相似度大于預(yù)設(shè)閾值時(shí),從所述待驗(yàn)證客戶端庫中刪除所述網(wǎng)頁的URL;
所述判斷模塊,還用于判斷所述待驗(yàn)證客戶端庫中是否還有所述客戶端對應(yīng)的其他需要驗(yàn)證的URL;
所述識別模塊,具體用于當(dāng)所述判斷模塊確定所述待驗(yàn)證客戶端庫中已沒有所述客戶端對應(yīng)的其他需要驗(yàn)證的URL時(shí),執(zhí)行識別所述客戶端不是網(wǎng)絡(luò)爬蟲的步驟。
17.根據(jù)權(quán)利要求15-16任意一項(xiàng)所述的裝置,其特征在于,還包括:保存模塊;
所述接收模塊,還用于在接收所述網(wǎng)頁的圖片和所述網(wǎng)頁的URL之前,接收客戶端的連接信息和所述客戶端當(dāng)前訪問的URL,所述客戶端的連接信息包括所述客戶端的IP地址和所述客戶端的連接時(shí)間;
所述判斷模塊,還用于判斷所述客戶端的連接信息是否在待驗(yàn)證客戶端庫中;
所述保存模塊,用于當(dāng)所述判斷模塊確定所述客戶端的連接信息不在待驗(yàn)證客戶端庫中時(shí),將所述客戶端的連接信息和所述客戶端當(dāng)前訪問的URL存入所述待驗(yàn)證客戶端庫。
18.根據(jù)權(quán)利要求17所述的裝置,其特征在于,
所述判斷模塊,還用于在判斷所述客戶端的連接信息是否在待驗(yàn)證客戶端庫中之后,如果所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中,則判斷所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間是否超過預(yù)設(shè)時(shí)長;
所述識別模塊,還用于當(dāng)所述判斷模塊確定所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間超過預(yù)設(shè)時(shí)長時(shí),識別所述客戶端為網(wǎng)絡(luò)爬蟲;
所述保存模塊,還用于在所述識別模塊識別所述客戶端為網(wǎng)絡(luò)爬蟲之后,將所述客戶端的連接信息存入網(wǎng)絡(luò)爬蟲庫;以及在所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間未超過預(yù)設(shè)時(shí)長時(shí),將所述客戶端的連接信息和所述客戶端當(dāng)前訪問的URL存入所述待驗(yàn)證客戶端庫。
19.根據(jù)權(quán)利要求13-16任意一項(xiàng)所述的裝置,其特征在于,所述獲取模塊包括:查找子模塊和輸出子模塊;
所述查找子模塊,用于根據(jù)所述網(wǎng)頁的圖片的尺寸和所述URL在樣本圖片庫中查找匹配所述URL和所述尺寸的圖片;
所述輸出子模塊,用于在所述查找子模塊查找到匹配所述URL和所述尺寸的圖片之后,輸出匹配所述URL和所述尺寸的圖片;
所述查找子模塊,還用于在所述樣本圖片庫中未查找到匹配所述URL和所述尺寸的圖片時(shí),在所述樣本圖片庫中查找匹配所述URL的圖片,并在查找到的匹配所述URL的圖片中查找與所述尺寸最接近的圖片;
所述輸出子模塊,還用于輸出所述查找子模塊查找到的與所述尺寸最接近的圖片。
20.一種網(wǎng)絡(luò)爬蟲識別裝置,其特征在于,包括:
獲取模塊,用于在網(wǎng)頁渲染完畢后,獲取當(dāng)前渲染的網(wǎng)頁的圖片和所述網(wǎng)頁的URL;
發(fā)送模塊,用于將所述獲取模塊獲取的所述網(wǎng)頁的圖片和所述網(wǎng)頁的URL發(fā)送給服務(wù)器,以便所述服務(wù)器根據(jù)所述URL獲取樣本圖片,并根據(jù)相似度與預(yù)設(shè)閾值的比較,識別所述客戶端是否為網(wǎng)絡(luò)爬蟲,所述相似度為所述網(wǎng)頁的圖片與所述樣本圖片的相似度。
21.一種網(wǎng)絡(luò)爬蟲識別裝置,其特征在于,包括:
接收模塊,用于接收客戶端的連接信息,所述客戶端的連接信息包括所述客戶端的IP地址和所述客戶端的連接時(shí)間;
識別模塊,用于當(dāng)所述接收模塊接收的所述客戶端的連接信息在待驗(yàn)證客戶端庫中,并且所述客戶端的連接信息在所述待驗(yàn)證客戶端庫中存在的時(shí)間超過預(yù)設(shè)時(shí)長時(shí),識別所述客戶端為網(wǎng)絡(luò)爬蟲。
22.根據(jù)權(quán)利要求21所述的裝置,其特征在于,還包括:
保存模塊,用于在所述識別模塊識別所述客戶端為網(wǎng)絡(luò)爬蟲之后,將所述客戶端的連接信息存入網(wǎng)絡(luò)爬蟲庫。
23.根據(jù)權(quán)利要求22所述的裝置,其特征在于,
所述保存模塊,還用于當(dāng)所述接收模塊接收的所述客戶端的連接信息不在待驗(yàn)證客戶端庫中時(shí),將所述客戶端的連接信息和所述客戶端當(dāng)前訪問的URL存入所述待驗(yàn)證客戶端庫。