技術(shù)總結(jié)
本發(fā)明涉及一種基于多重分析的互聯(lián)網(wǎng)信息精準(zhǔn)爬取方法,包括步驟有:第一步,頁面信息爬取,首先將頁面信息分為靜態(tài)頁面信息和動態(tài)頁面信息,然后將靜態(tài)頁面信息和動態(tài)頁面信息分別進(jìn)行爬?。坏诙?,對上述爬取信息進(jìn)行解析處理,首先將上述爬取信息分類為滿足dom模型的結(jié)構(gòu)信息和非結(jié)構(gòu)信息,然后對分類信息分別進(jìn)行解析規(guī)則分析;第三步,對上述明確解析規(guī)則后的爬取任務(wù)進(jìn)行多線程任務(wù)處理,并配置各種多線程任務(wù)的周期頻度。本發(fā)明爬取準(zhǔn)確度高,靈活性強(qiáng),機(jī)動性強(qiáng),操作簡便,任務(wù)可視化直觀,便于后期對爬取數(shù)據(jù)的各種分析。
技術(shù)研發(fā)人員:陳文康;李江偉;趙光俊;李欣榮;王汝英;柳長俊;宋洋;劉圣通;彭曉武
受保護(hù)的技術(shù)使用者:天津市普迅電力信息技術(shù)有限公司;國網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司
文檔號碼:201610915910
技術(shù)研發(fā)日:2016.10.21
技術(shù)公布日:2017.03.08