1.一種爬取網(wǎng)站頁面的方法,其特征在于,包括:
獲取爬蟲爬取的超文本傳輸協(xié)議HTTP地址;
檢測所述HTTP地址是否異常;
當(dāng)檢測到所述HTTP地址異常時,按照預(yù)設(shè)規(guī)則修改所述HTTP地址;
將修改后的HTTP地址發(fā)送至預(yù)設(shè)域名系統(tǒng)DNS服務(wù)器,以使所述預(yù)設(shè)DNS服務(wù)器根據(jù)所述修改后的HTTP地址得到對應(yīng)的IP地址,所述IP地址與所述HTTP地址相對應(yīng);
接收所述預(yù)設(shè)DNS服務(wù)器發(fā)送的IP地址,訪問所述IP地址以爬取所述HTTP地址對應(yīng)的網(wǎng)站頁面。
2.根據(jù)權(quán)利要求1所述的爬取網(wǎng)站頁面的方法,其特征在于,所述檢測所述HTTP地址是否異常,包括:
檢測所述HTTP網(wǎng)址是否存在無法正確訪問的記錄;
當(dāng)檢測到所述HTTP網(wǎng)址存在無法正確訪問的記錄時,確定所述HTTP網(wǎng)址存在異常。
3.根據(jù)權(quán)利要求1或2所述的爬取網(wǎng)站頁面的方法,其特征在于,
所述按照預(yù)設(shè)規(guī)則修改所述HTTP地址,包括:
獲取所述預(yù)設(shè)DNS服務(wù)器的地址;
將所述預(yù)設(shè)DNS服務(wù)器的地址添加到所述HTTP地址中,得到修改后的HTTP地址;
所述將修改后的HTTP地址發(fā)送至預(yù)設(shè)域名系統(tǒng)DNS服務(wù)器,包括:
基于所述修改后的HTTP地址中的所述預(yù)設(shè)DNS服務(wù)器的地址,確定所述預(yù)設(shè)DNS服務(wù)器,將所述修改后的HTTP地址發(fā)送至所述預(yù)設(shè)DNS服務(wù)器。
4.根據(jù)權(quán)利要求3所述的爬取網(wǎng)站頁面的方法,其特征在于,所述預(yù)設(shè)DNS服務(wù)器是運行正常的DNS服務(wù)器,所述DNS服務(wù)器具備執(zhí)行正確域名解析的能力;
所述預(yù)設(shè)DNS服務(wù)器根據(jù)所述修改后的HTTP地址得到對應(yīng)的IP地址,包括:
所述預(yù)設(shè)DNS服務(wù)器對所述修改后的HTTP地址進行解析,得到所述爬蟲爬取的所述HTTP地址,查找與所述HTTP地址對應(yīng)的IP地址。
5.根據(jù)權(quán)利要求4所述的爬取網(wǎng)站頁面的方法,所述接收所述預(yù)設(shè)DNS服務(wù)器發(fā)送的IP地址,訪問所述IP地址以爬取所述HTTP地址對應(yīng)的網(wǎng)站頁面,包括:
接收所述預(yù)設(shè)DNS服務(wù)器采用HTTP302協(xié)議發(fā)送的所述IP地址;
根據(jù)所述IP地址跳轉(zhuǎn)至相應(yīng)網(wǎng)站頁面。
6.一種爬取網(wǎng)站頁面的裝置,其特征在于,包括:
獲取單元,用于獲取爬蟲爬取的超文本傳輸協(xié)議HTTP地址;
檢測單元,用于檢測所述獲取單元獲取的所述HTTP地址是否異常;
修改單元,用于當(dāng)所述檢測單元檢測到所述HTTP地址異常時,按照預(yù)設(shè)規(guī)則修改所述HTTP地址;
發(fā)送單元,用于將所述修改單元修改后的HTTP地址發(fā)送至預(yù)設(shè)域名系統(tǒng)DNS服務(wù)器,以使所述預(yù)設(shè)DNS服務(wù)器根據(jù)所述修改后的HTTP地址得到對應(yīng)的IP地址,所述IP地址與所述HTTP地址相對應(yīng);
訪問單元,用于接收所述預(yù)設(shè)DNS服務(wù)器發(fā)送的IP地址,訪問所述IP地址以爬取所述HTTP地址對應(yīng)的網(wǎng)站頁面。
7.根據(jù)權(quán)利要求6所述的爬取網(wǎng)站頁面的裝置,其特征在于,所述檢測單元包括:
檢測模塊,用于檢測所述HTTP網(wǎng)址是否存在無法正確訪問的記錄;
判斷模塊,用于當(dāng)所述檢測模塊檢測到所述HTTP網(wǎng)址存在無法正確訪問的記錄時,確定所述HTTP網(wǎng)址存在異常。
8.根據(jù)權(quán)利要求6或7所述的爬取網(wǎng)站頁面的裝置,其特征在于,所述修改單元包括:
獲取模塊,用于獲取所述預(yù)設(shè)DNS服務(wù)器的地址;
修改模塊,用于將所述獲取模塊獲取的所述預(yù)設(shè)DNS服務(wù)器的地址添加到所述HTTP地址中,得到修改后的HTTP地址;
所述發(fā)送單元,用于基于所述修改后的HTTP地址中的所述預(yù)設(shè)DNS服務(wù)器的地址,確定所述預(yù)設(shè)DNS服務(wù)器,將所述修改后的HTTP地址發(fā) 送至所述預(yù)設(shè)DNS服務(wù)器。
9.根據(jù)權(quán)利要求8所述的爬取網(wǎng)站頁面的裝置,所述訪問單元,包括:
接收模塊,用于接收所述預(yù)設(shè)DNS服務(wù)器采用HTTP302協(xié)議發(fā)送的所述IP地址;
調(diào)整模塊,用于根據(jù)所述接收模塊接收的所述IP地址跳轉(zhuǎn)至相應(yīng)網(wǎng)站頁面。
10.一種爬取網(wǎng)站頁面的系統(tǒng),其特征在于,所述系統(tǒng)包括爬蟲服務(wù)器,預(yù)設(shè)域名系統(tǒng)DNS服務(wù)器;
所述爬蟲服務(wù)器用于將異常的HTTP地址修改后發(fā)送給所述預(yù)設(shè)DNS服務(wù)器;
所述預(yù)設(shè)DNS服務(wù)器是運行正常的DNS服務(wù)器,所述DNS服務(wù)器具備執(zhí)行正確域名解析的能力;所述預(yù)設(shè)DNS服務(wù)器用于接收修改后的HTTP地址,從修改后的HTTP地址中解析得到爬蟲爬取到的HTTP地址,查找與所述HTTP地址對應(yīng)的IP地址。