技術(shù)總結(jié)
本申請實(shí)施例公開了實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的方法。其中,預(yù)先將屬于不同網(wǎng)站的網(wǎng)頁劃分到不同的網(wǎng)頁簇中,和/或?qū)儆谙嗤W(wǎng)站中的不同產(chǎn)品的網(wǎng)頁劃分到不同的網(wǎng)頁簇中;該方法包括:對于任意一個(gè)網(wǎng)頁簇,統(tǒng)計(jì)當(dāng)該網(wǎng)頁簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),該網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;在最小置信區(qū)間范圍內(nèi)配置該網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間;將配置的休眠時(shí)間通知給網(wǎng)絡(luò)爬蟲,以便網(wǎng)絡(luò)爬蟲按照配置的休眠時(shí)間抓取該網(wǎng)頁簇中的網(wǎng)頁。通過本申請,可以解決現(xiàn)有技術(shù)中在抓取不同網(wǎng)站中的網(wǎng)頁或者抓取相同網(wǎng)站中的不同產(chǎn)品的網(wǎng)頁時(shí)抓取成功率和抓取效率無法同時(shí)得到有效保障的問題。本申請實(shí)施例還公開了實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的裝置。
技術(shù)研發(fā)人員:劉慶;張美德
受保護(hù)的技術(shù)使用者:阿里巴巴集團(tuán)控股有限公司
文檔號碼:201510250020
技術(shù)研發(fā)日:2015.05.15
技術(shù)公布日:2017.01.04