技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明涉及一種基于內(nèi)嵌瀏覽器的可視化網(wǎng)絡(luò)爬蟲系統(tǒng)及分析方法,包括可視化操作界面、元素選擇模式和爬蟲結(jié)構(gòu)樹。該系統(tǒng)以瀏覽器為載體,在載體上通過多種元素選擇模式獲取對應(yīng)元素的路徑,按照多個頁面層次對待爬站點進行配置。手動配置爬蟲結(jié)構(gòu)樹的一個分支,系統(tǒng)即可自動完成整個結(jié)構(gòu)樹的配置。按照配置好的結(jié)構(gòu)樹,將所有元素的文本下載到數(shù)據(jù)庫中。另外,該系統(tǒng)可以爬取任何主題。因此,本發(fā)明具有可視化程度高、自動化程度高、適用性廣和配置簡單的優(yōu)勢。
技術(shù)研發(fā)人員:李煜;王小龍;李鵬
受保護的技術(shù)使用者:武漢大學(xué)
技術(shù)研發(fā)日:2017.04.11
技術(shù)公布日:2017.08.25