1.一種網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,包括:
獲取多個(gè)賬號(hào),其中,所述多個(gè)賬號(hào)為具有目標(biāo)網(wǎng)站的登錄權(quán)限的賬號(hào);以及
從所述多個(gè)賬號(hào)中選擇賬號(hào),利用選擇的賬號(hào)訪問所述目標(biāo)網(wǎng)站的網(wǎng)頁,爬取所述選擇的賬號(hào)所訪問的網(wǎng)頁的網(wǎng)頁數(shù)據(jù),其中,相鄰兩次選擇的賬號(hào)不相同。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多個(gè)賬號(hào)的賬號(hào)數(shù)量為n,所述n大于等于2,從所述多個(gè)賬號(hào)中選擇賬號(hào),利用選擇的賬號(hào)訪問所述目標(biāo)網(wǎng)站的網(wǎng)頁,爬取所述選擇的賬號(hào)所訪問的網(wǎng)頁的網(wǎng)頁數(shù)據(jù)包括:
從所述多個(gè)賬號(hào)中選擇第i賬號(hào),利用所述第i賬號(hào)訪問目標(biāo)網(wǎng)站的第j網(wǎng)頁,其中,所述i=1,……n,所述j=1,2,3……,當(dāng)所述i大于等于2時(shí),所述第i賬號(hào)為與第i-1賬號(hào)不同的賬號(hào),當(dāng)所述j大于等于2時(shí),所述第j網(wǎng)頁為所述目標(biāo)網(wǎng)站的一個(gè)或者多個(gè)網(wǎng)頁,所述第j網(wǎng)頁為與第1網(wǎng)頁至第j-1網(wǎng)頁均不同的網(wǎng)頁;
爬取所述第j網(wǎng)頁的網(wǎng)頁數(shù)據(jù);
判斷所述i是否等于所述n;
如果判斷出所述i等于所述n,則將所述i的值置1,所述j的值加1,返回執(zhí)行從所述多個(gè)賬號(hào)中選擇第i賬號(hào),利用所述第i賬號(hào)訪問目標(biāo)網(wǎng)站的第j網(wǎng)頁的步驟;
如果判斷出所述i小于所述n,則所述i的值加1,所述j的值加1,并返回執(zhí)行從所述多個(gè)賬號(hào)中選擇第i賬號(hào),利用所述第i賬號(hào)訪問目標(biāo)網(wǎng)站的第j網(wǎng)頁的步驟;
判斷所述目標(biāo)網(wǎng)站的網(wǎng)頁數(shù)據(jù)的爬取量是否達(dá)到預(yù)設(shè)值;
如果判斷出所述目標(biāo)網(wǎng)站的網(wǎng)頁數(shù)據(jù)的爬取量達(dá)到所述預(yù)設(shè)值,則停止所述目標(biāo)網(wǎng)站的網(wǎng)頁數(shù)據(jù)爬取。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,
在利用所述第i賬號(hào)訪問目標(biāo)網(wǎng)站的第j網(wǎng)頁之后,所述方法還包括:對(duì)所述第j網(wǎng)頁進(jìn)行標(biāo)記,其中,標(biāo)記后的網(wǎng)頁后續(xù)不再訪問。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,
獲取多個(gè)賬號(hào)包括:獲取配置文件,其中,所述配置文件中配置有所述多個(gè)賬號(hào)及其對(duì)應(yīng)的密碼;加載所述配置文件,獲取所述多個(gè)賬號(hào)及其對(duì)應(yīng)的密碼,
其中,在獲取多個(gè)賬號(hào)之后,所述方法還包括:利用所述多個(gè)賬號(hào)及其對(duì)應(yīng)的密碼登陸所述目標(biāo)網(wǎng)站,并緩存識(shí)別信息,其中,所述識(shí)別信息為所述目標(biāo)網(wǎng)站識(shí)別所述多個(gè)賬號(hào)的信息。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,利用選擇的賬號(hào)訪問所述目標(biāo)網(wǎng)站的網(wǎng)頁包括:
判斷所述選擇的賬號(hào)登陸所述目標(biāo)網(wǎng)站是否出現(xiàn)異常;
如果判斷出所述選擇的賬號(hào)登陸所述目標(biāo)網(wǎng)站出現(xiàn)異常,則將登陸異常的賬號(hào)從所述多個(gè)賬號(hào)中移除,并重新從移除后的多個(gè)賬號(hào)中選擇賬號(hào);
如果判斷所述選擇的賬號(hào)登陸所述目標(biāo)網(wǎng)站未出現(xiàn)異常,則利用所述選擇的賬號(hào)訪問所述目標(biāo)網(wǎng)站的網(wǎng)頁。
6.一種網(wǎng)頁數(shù)據(jù)獲取裝置,其特征在于,包括:
獲取單元,用于獲取多個(gè)賬號(hào),其中,所述多個(gè)賬號(hào)為具有目標(biāo)網(wǎng)站的登錄權(quán)限的賬號(hào);以及
爬取單元,用于從所述多個(gè)賬號(hào)中選擇賬號(hào),利用選擇的賬號(hào)訪問所述目標(biāo)網(wǎng)站的網(wǎng)頁,爬取所述選擇的賬號(hào)所訪問的網(wǎng)頁的網(wǎng)頁數(shù)據(jù),其中,相鄰兩次選擇的賬號(hào)不相同。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述多個(gè)賬號(hào)的賬號(hào)數(shù)量為n,所述n大于等于2,所述爬取單元包括:
第一訪問模塊,用于從所述多個(gè)賬號(hào)中選擇第i賬號(hào),利用所述第i賬號(hào)訪問目標(biāo)網(wǎng)站的第j網(wǎng)頁,其中,所述i=1,……n,所述j=1,2,3……,當(dāng)所述i大于等于2時(shí),所述第i賬號(hào)為與第i-1賬號(hào)不同的賬號(hào),當(dāng)所述j大于等于2時(shí),所述第j網(wǎng)頁為所述目標(biāo)網(wǎng)站的一個(gè)或者多個(gè)網(wǎng)頁,所述第j網(wǎng)頁為與第1網(wǎng)頁至第j-1網(wǎng)頁均不同的網(wǎng)頁;
爬取模塊,用于爬取所述第j網(wǎng)頁的網(wǎng)頁數(shù)據(jù);
第一判斷模塊,用于判斷所述i是否等于所述n;
第一訪問模塊還用于如果判斷出所述i等于所述n,則將所述i的值置1,所述j的值加1,從所述多個(gè)賬號(hào)中選擇第i賬號(hào),利用所述第i賬號(hào)訪問目標(biāo)網(wǎng)站的第j網(wǎng)頁;
第一訪問模塊還用于如果判斷出所述i小于所述n,則所述i的值加1,所述j的值加1,從所述多個(gè)賬號(hào)中選擇第i賬號(hào),利用所述第i賬號(hào)訪問目標(biāo)網(wǎng)站的第j網(wǎng)頁;
第二判斷模塊,用于判斷所述目標(biāo)網(wǎng)站的網(wǎng)頁數(shù)據(jù)的爬取量是否達(dá)到預(yù)設(shè)值;
停止模塊,用于如果判斷出所述目標(biāo)網(wǎng)站的網(wǎng)頁數(shù)據(jù)的爬取量達(dá)到所述預(yù)設(shè)值,則停止所述目標(biāo)網(wǎng)站的網(wǎng)頁數(shù)據(jù)爬取。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括:
標(biāo)記單元,用于在利用所述第i賬號(hào)訪問目標(biāo)網(wǎng)站的第j網(wǎng)頁之后,對(duì)所述第j網(wǎng)頁進(jìn)行標(biāo)記,其中,標(biāo)記后的網(wǎng)頁后續(xù)不再訪問。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,
所述獲取單元包括:獲取模塊,用于獲取配置文件,其中,所述配置文件中配置有所述多個(gè)賬號(hào)及其對(duì)應(yīng)的密碼;加載模塊,用于加載所述配置文件,獲取所述多個(gè)賬號(hào)及其對(duì)應(yīng)的密碼,
其中,所述裝置還包括:登錄單元,用于在獲取多個(gè)賬號(hào)之后,利用所述多個(gè)賬號(hào)及其對(duì)應(yīng)的密碼登陸所述目標(biāo)網(wǎng)站,并緩存識(shí)別信息,其中,所述識(shí)別信息為所述目標(biāo)網(wǎng)站識(shí)別所述多個(gè)賬號(hào)的信息。
10.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的裝置,其特征在于,所述爬取單元包括:
第三判斷模塊,用于判斷所述選擇的賬號(hào)登陸所述目標(biāo)網(wǎng)站是否出現(xiàn)異常;
移除模塊,用于如果判斷出所述選擇的賬號(hào)登陸所述目標(biāo)網(wǎng)站出現(xiàn)異常,則將登陸異常的賬號(hào)從所述多個(gè)賬號(hào)中移除,并重新從移除后的多個(gè)賬號(hào)中選擇賬號(hào);
第二訪問模塊,用于如果判斷所述選擇的賬號(hào)登陸所述目標(biāo)網(wǎng)站未出現(xiàn)異常,則利用所述選擇的賬號(hào)訪問所述目標(biāo)網(wǎng)站的網(wǎng)頁。