技術(shù)總結(jié)
本發(fā)明公開(kāi)了基于Ajax的新聞網(wǎng)頁(yè)動(dòng)態(tài)數(shù)據(jù)的抓取方法及系統(tǒng);建立新聞網(wǎng)頁(yè)爬取內(nèi)容數(shù)據(jù)庫(kù),設(shè)置新聞網(wǎng)頁(yè)爬取內(nèi)容數(shù)據(jù)庫(kù)的編碼方式;獲得待抓取新聞網(wǎng)頁(yè)的新聞列表頁(yè)面的URL地址;訪問(wèn)URL地址,判斷新聞列表頁(yè)面是否是通過(guò)Ajax動(dòng)態(tài)加載數(shù)據(jù)的;如果是,通過(guò)瀏覽器開(kāi)發(fā)者工具找到請(qǐng)求的數(shù)據(jù)源;判斷請(qǐng)求的數(shù)據(jù)源的編碼方式是否一致,如果否,則對(duì)數(shù)據(jù)源進(jìn)行編碼轉(zhuǎn)換,解析數(shù)據(jù)格式:將數(shù)據(jù)源的格式解析成為新聞列表頁(yè)面的后臺(tái)語(yǔ)言處理的對(duì)象格式或者數(shù)組格式;將解析后的數(shù)據(jù)封裝成對(duì)象或數(shù)組類型;判斷封裝是否成功,成功就將數(shù)據(jù)對(duì)象或數(shù)組類型遍歷輸出列表;利用網(wǎng)絡(luò)爬蟲采集得到的輸出列表;將采集到的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中。
技術(shù)研發(fā)人員:張子揚(yáng);韓強(qiáng);梁成福;李廣慶;李濱
受保護(hù)的技術(shù)使用者:山東舜網(wǎng)傳媒股份有限公司
文檔號(hào)碼:201611243223
技術(shù)研發(fā)日:2016.12.29
技術(shù)公布日:2017.05.10