一種爬蟲模擬登陸采集的方法
【專利摘要】本發(fā)明提供一種爬蟲模擬登陸采集的方法,其具體實(shí)現(xiàn)過程為:設(shè)置采集請(qǐng)求模塊、身份認(rèn)證模塊、采集下載模塊,其中采集請(qǐng)求模塊實(shí)現(xiàn)對(duì)待采集頁面發(fā)送采集請(qǐng)求;身份認(rèn)證模塊實(shí)現(xiàn)待采集網(wǎng)站自動(dòng)化登錄認(rèn)證;采集下載模塊實(shí)現(xiàn)對(duì)待采集頁面進(jìn)行采集。該一種爬蟲模擬登陸采集的方法和現(xiàn)有技術(shù)相比,可以實(shí)現(xiàn)采集需要用戶認(rèn)證后才能采集的網(wǎng)頁;解決了需要用戶認(rèn)證才能進(jìn)行訪問的頁面采集問題,提高了網(wǎng)絡(luò)采集的全面性,實(shí)用性強(qiáng),易于推廣。
【專利說明】 一種爬蟲模擬登陸采集的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,具體的說是一種爬蟲模擬登陸采集的方法。
【背景技術(shù)】
[0002]有的網(wǎng)站對(duì)爬蟲做了限制,需要進(jìn)行身份認(rèn)證才能信息采集。如果使用爬蟲直接對(duì)此類網(wǎng)站進(jìn)行采集,得到的通常是用戶信息認(rèn)證失敗后跳轉(zhuǎn)到的用戶登錄頁面,而不是實(shí)際想要采集的頁面內(nèi)容。基于此,現(xiàn)提供一種可以采集到需要的頁面內(nèi)容的方法。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的技術(shù)任務(wù)是解決現(xiàn)有技術(shù)的不足,提供一種爬蟲模擬登陸采集的方法。
[0004]本發(fā)明的技術(shù)方案是按以下方式實(shí)現(xiàn)的,該一種爬蟲模擬登陸采集的方法,其具體實(shí)現(xiàn)過程為:
一、首先設(shè)置采集請(qǐng)求模塊、身份認(rèn)證模塊、采集下載模塊,其中采集請(qǐng)求模塊實(shí)現(xiàn)對(duì)待采集頁面發(fā)送采集請(qǐng)求;身份認(rèn)證模塊實(shí)現(xiàn)待采集網(wǎng)站自動(dòng)化登錄認(rèn)證;采集下載模塊實(shí)現(xiàn)對(duì)待采集頁面進(jìn)行采集;
二、通過瀏覽器自帶的網(wǎng)絡(luò)監(jiān)聽工具監(jiān)聽網(wǎng)絡(luò)數(shù)據(jù)包,查看用戶登錄過程發(fā)送的POST
包;
三、身份認(rèn)證模塊實(shí)現(xiàn)對(duì)步驟二中POST包內(nèi)容再現(xiàn),發(fā)送到待采集網(wǎng)頁;
四、身份認(rèn)證模塊實(shí)現(xiàn)對(duì)待采集網(wǎng)站服務(wù)器返回值的記錄;
五、采集請(qǐng)求模塊把步驟四中返回的相關(guān)記錄值和采集請(qǐng)求做集成處理;
六、采集請(qǐng)求模塊發(fā)送對(duì)待采集頁面的采集請(qǐng)求;
七、采集下載模塊實(shí)現(xiàn)對(duì)待采集頁面的采集;
八、如果不需要模擬登錄采集,只需要進(jìn)行步驟五和六。
[0005]本發(fā)明與現(xiàn)有技術(shù)相比所產(chǎn)生的有益效果是:
本發(fā)明的一種爬蟲模擬登陸采集的方法自動(dòng)化模擬用戶登錄,可以實(shí)現(xiàn)采集需要用戶認(rèn)證后才能采集的網(wǎng)頁;解決了需要用戶認(rèn)證才能進(jìn)行訪問的頁面采集問題,提高了網(wǎng)絡(luò)采集的全面性,實(shí)用性強(qiáng),易于推廣。
【專利附圖】
【附圖說明】
[0006]附圖1為本發(fā)明的實(shí)現(xiàn)流程圖。
【具體實(shí)施方式】
[0007]下面結(jié)合附圖對(duì)本發(fā)明的一種爬蟲模擬登陸采集的方法作以下詳細(xì)說明。
[0008]如附圖1所示,該一種爬蟲模擬登陸采集的方法,其具體實(shí)現(xiàn)過程為:
一、首先設(shè)置采集請(qǐng)求模塊、身份認(rèn)證模塊、采集下載模塊,其中采集請(qǐng)求模塊實(shí)現(xiàn)對(duì)待采集頁面發(fā)送采集請(qǐng)求;身份認(rèn)證模塊實(shí)現(xiàn)待采集網(wǎng)站自動(dòng)化登錄認(rèn)證;采集下載模塊實(shí)現(xiàn)對(duì)待采集頁面進(jìn)行采集;
二、通過瀏覽器自帶的網(wǎng)絡(luò)監(jiān)聽工具監(jiān)聽網(wǎng)絡(luò)數(shù)據(jù)包,查看用戶登錄過程發(fā)送的POST
包;
三、身份認(rèn)證模塊實(shí)現(xiàn)對(duì)步驟二中POST包內(nèi)容再現(xiàn),發(fā)送到待采集網(wǎng)頁;
四、身份認(rèn)證模塊實(shí)現(xiàn)對(duì)待采集網(wǎng)站服務(wù)器返回值的記錄;
五、采集請(qǐng)求模塊把步驟四中返回的相關(guān)記錄值和采集請(qǐng)求做集成處理;
六、采集請(qǐng)求模塊發(fā)送對(duì)待采集頁面的采集請(qǐng)求;
七、采集下載模塊實(shí)現(xiàn)對(duì)待采集頁面的采集;
八、如果不需要模擬登錄采集,只需要進(jìn)行步驟五和六。
[0009]本發(fā)明適用于必須要身份認(rèn)證才能采集的網(wǎng)頁。該方法能夠?qū)崿F(xiàn)對(duì)需要身份認(rèn)證網(wǎng)站的自動(dòng)登錄,并采集該頁面內(nèi)容。
[0010]以上所述僅為本發(fā)明的實(shí)施例而已,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種爬蟲模擬登陸采集的方法,其特征在于其具體實(shí)現(xiàn)過程為: 一、首先設(shè)置采集請(qǐng)求模塊、身份認(rèn)證模塊、采集下載模塊,其中采集請(qǐng)求模塊實(shí)現(xiàn)對(duì)待采集頁面發(fā)送采集請(qǐng)求;身份認(rèn)證模塊實(shí)現(xiàn)待采集網(wǎng)站自動(dòng)化登錄認(rèn)證;采集下載模塊實(shí)現(xiàn)對(duì)待采集頁面進(jìn)行采集; 二、通過瀏覽器自帶的網(wǎng)絡(luò)監(jiān)聽工具監(jiān)聽網(wǎng)絡(luò)數(shù)據(jù)包,查看用戶登錄過程發(fā)送的POST包; 三、身份認(rèn)證模塊實(shí)現(xiàn)對(duì)步驟二中POST包內(nèi)容再現(xiàn),發(fā)送到待采集網(wǎng)頁; 四、身份認(rèn)證模塊實(shí)現(xiàn)對(duì)待采集網(wǎng)站服務(wù)器返回值的記錄; 五、采集請(qǐng)求模塊把步驟四中返回的相關(guān)記錄值和采集請(qǐng)求做集成處理; 六、采集請(qǐng)求模塊發(fā)送對(duì)待采集頁面的采集請(qǐng)求; 七、采集下載模塊實(shí)現(xiàn)對(duì)待采集頁面的采集; 八、如果不需要模擬登錄采集,只需要進(jìn)行步驟五和六。
【文檔編號(hào)】H04L9/32GK103984719SQ201410196086
【公開日】2014年8月13日 申請(qǐng)日期:2014年5月12日 優(yōu)先權(quán)日:2014年5月12日
【發(fā)明者】程瑤 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司