技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明涉及一種負(fù)載均衡的分布式大數(shù)據(jù)爬蟲系統(tǒng),包括用戶管理端、服務(wù)器端、爬蟲集群端和數(shù)據(jù)存儲(chǔ)端,用戶管理端是爬蟲系統(tǒng)對(duì)管理者提供的Web接口,管理者通過(guò)用戶管理端連接并訪問(wèn)Web平臺(tái),服務(wù)器端通過(guò)服務(wù)接口連接用戶管理端,在服務(wù)器端設(shè)有爬蟲負(fù)載均衡管理模塊、爬蟲任務(wù)調(diào)度模塊、爬蟲性能監(jiān)控模塊,爬蟲集群端設(shè)有若干個(gè)彼此獨(dú)立的網(wǎng)絡(luò)爬蟲節(jié)點(diǎn),所有網(wǎng)絡(luò)爬蟲節(jié)點(diǎn)均通過(guò)爬行器接口連接服務(wù)器端,設(shè)置在數(shù)據(jù)存儲(chǔ)端的存儲(chǔ)接口通過(guò)數(shù)據(jù)總線連接爬蟲集群端,數(shù)據(jù)存儲(chǔ)端設(shè)有用于存儲(chǔ)抓取結(jié)果文件的數(shù)據(jù)庫(kù)系統(tǒng)。該系統(tǒng)通過(guò)管理者對(duì)網(wǎng)絡(luò)爬蟲集群進(jìn)行統(tǒng)一管理和分布式部署,能靈活管理爬蟲任務(wù),實(shí)現(xiàn)爬蟲集群的負(fù)載均衡,使得爬蟲工作高效、穩(wěn)定。
技術(shù)研發(fā)人員:張宏斌;朱斌;劉威;李心愷;薛曉峰
受保護(hù)的技術(shù)使用者:江蘇飛搏軟件股份有限公司
技術(shù)研發(fā)日:2017.03.28
技術(shù)公布日:2017.08.18