技術特征:
技術總結
本發(fā)明公開一種分布式爬蟲系統,該系統被配置為基于ZooKeeper的分布式服務、系統組件和數據庫三大部分,其中,系統組件包括系統監(jiān)控組件Monitor、協調組件Coordinator、日志收集組件Logger、基礎爬蟲組件Spider,數據庫包括Redis內存數據庫,redis是key?value的存儲形式,Redis內存數據庫中存放有分布式URL任務隊列和分布式BloomFilter。本發(fā)明還公開一種基于該系統的周期性增量抓取方法,包括:協調組件Coordinator周期性導入任務到分布式URL任務隊列,并喚醒正在休眠的Spider組件;Spider組件根據當前分布式URL任務隊列的執(zhí)行情況進行休眠或周期性增量抓取。該系統及方法解決了如何將單機爬蟲有效的結合在一起,實現集群環(huán)境下高可用、高穩(wěn)定和高吞吐率的分布式爬蟲,并實現周期性增量抓取。
技術研發(fā)人員:張雷;韓建軍;張文哲;譚龍海;王崇駿
受保護的技術使用者:南京大學
技術研發(fā)日:2017.05.24
技術公布日:2017.09.22