技術(shù)總結(jié)
一種基于selenium的爬蟲抓取方法,其能夠解決數(shù)據(jù)抓取中遇到難破解的網(wǎng)頁/網(wǎng)站,并且抓取效率有所提高,開發(fā)者無需關(guān)注破解js如何加密,是否丟請求、丟參數(shù),大大減少開發(fā)人員的工作時(shí)間和出錯(cuò)概率。該方法包括步驟:(1)執(zhí)行初始url;(2)通過selenium驅(qū)動系統(tǒng)瀏覽器執(zhí)行url地址;(3)當(dāng)頁面加載完畢后,獲取頁面進(jìn)行頁面數(shù)據(jù)解析。還提供了一種基于selenium的爬蟲抓取系統(tǒng)。
技術(shù)研發(fā)人員:周灝;王雪飛
受保護(hù)的技術(shù)使用者:北京量科邦信息技術(shù)有限公司
文檔號碼:201610818690
技術(shù)研發(fā)日:2016.09.12
技術(shù)公布日:2017.03.08