亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

爬取網(wǎng)站頁面的方法、裝置及系統(tǒng)與流程

文檔序號:11156972閱讀:來源:國知局

技術(shù)特征:

1.一種爬取網(wǎng)站頁面的方法,其特征在于,包括:

獲取爬蟲爬取的超文本傳輸協(xié)議HTTP地址;

檢測所述HTTP地址是否異常;

當(dāng)檢測到所述HTTP地址異常時,按照預(yù)設(shè)規(guī)則修改所述HTTP地址;

將修改后的HTTP地址發(fā)送至預(yù)設(shè)域名系統(tǒng)DNS服務(wù)器,以使所述預(yù)設(shè)DNS服務(wù)器根據(jù)所述修改后的HTTP地址得到對應(yīng)的IP地址,所述IP地址與所述HTTP地址相對應(yīng);

接收所述預(yù)設(shè)DNS服務(wù)器發(fā)送的IP地址,訪問所述IP地址以爬取所述HTTP地址對應(yīng)的網(wǎng)站頁面。

2.根據(jù)權(quán)利要求1所述的爬取網(wǎng)站頁面的方法,其特征在于,所述檢測所述HTTP地址是否異常,包括:

檢測所述HTTP網(wǎng)址是否存在無法正確訪問的記錄;

當(dāng)檢測到所述HTTP網(wǎng)址存在無法正確訪問的記錄時,確定所述HTTP網(wǎng)址存在異常。

3.根據(jù)權(quán)利要求1或2所述的爬取網(wǎng)站頁面的方法,其特征在于,

所述按照預(yù)設(shè)規(guī)則修改所述HTTP地址,包括:

獲取所述預(yù)設(shè)DNS服務(wù)器的地址;

將所述預(yù)設(shè)DNS服務(wù)器的地址添加到所述HTTP地址中,得到修改后的HTTP地址;

所述將修改后的HTTP地址發(fā)送至預(yù)設(shè)域名系統(tǒng)DNS服務(wù)器,包括:

基于所述修改后的HTTP地址中的所述預(yù)設(shè)DNS服務(wù)器的地址,確定所述預(yù)設(shè)DNS服務(wù)器,將所述修改后的HTTP地址發(fā)送至所述預(yù)設(shè)DNS服務(wù)器。

4.根據(jù)權(quán)利要求3所述的爬取網(wǎng)站頁面的方法,其特征在于,所述預(yù)設(shè)DNS服務(wù)器是運行正常的DNS服務(wù)器,所述DNS服務(wù)器具備執(zhí)行正確域名解析的能力;

所述預(yù)設(shè)DNS服務(wù)器根據(jù)所述修改后的HTTP地址得到對應(yīng)的IP地址,包括:

所述預(yù)設(shè)DNS服務(wù)器對所述修改后的HTTP地址進行解析,得到所述爬蟲爬取的所述HTTP地址,查找與所述HTTP地址對應(yīng)的IP地址。

5.根據(jù)權(quán)利要求4所述的爬取網(wǎng)站頁面的方法,所述接收所述預(yù)設(shè)DNS服務(wù)器發(fā)送的IP地址,訪問所述IP地址以爬取所述HTTP地址對應(yīng)的網(wǎng)站頁面,包括:

接收所述預(yù)設(shè)DNS服務(wù)器采用HTTP302協(xié)議發(fā)送的所述IP地址;

根據(jù)所述IP地址跳轉(zhuǎn)至相應(yīng)網(wǎng)站頁面。

6.一種爬取網(wǎng)站頁面的裝置,其特征在于,包括:

獲取單元,用于獲取爬蟲爬取的超文本傳輸協(xié)議HTTP地址;

檢測單元,用于檢測所述獲取單元獲取的所述HTTP地址是否異常;

修改單元,用于當(dāng)所述檢測單元檢測到所述HTTP地址異常時,按照預(yù)設(shè)規(guī)則修改所述HTTP地址;

發(fā)送單元,用于將所述修改單元修改后的HTTP地址發(fā)送至預(yù)設(shè)域名系統(tǒng)DNS服務(wù)器,以使所述預(yù)設(shè)DNS服務(wù)器根據(jù)所述修改后的HTTP地址得到對應(yīng)的IP地址,所述IP地址與所述HTTP地址相對應(yīng);

訪問單元,用于接收所述預(yù)設(shè)DNS服務(wù)器發(fā)送的IP地址,訪問所述IP地址以爬取所述HTTP地址對應(yīng)的網(wǎng)站頁面。

7.根據(jù)權(quán)利要求6所述的爬取網(wǎng)站頁面的裝置,其特征在于,所述檢測單元包括:

檢測模塊,用于檢測所述HTTP網(wǎng)址是否存在無法正確訪問的記錄;

判斷模塊,用于當(dāng)所述檢測模塊檢測到所述HTTP網(wǎng)址存在無法正確訪問的記錄時,確定所述HTTP網(wǎng)址存在異常。

8.根據(jù)權(quán)利要求6或7所述的爬取網(wǎng)站頁面的裝置,其特征在于,所述修改單元包括:

獲取模塊,用于獲取所述預(yù)設(shè)DNS服務(wù)器的地址;

修改模塊,用于將所述獲取模塊獲取的所述預(yù)設(shè)DNS服務(wù)器的地址添加到所述HTTP地址中,得到修改后的HTTP地址;

所述發(fā)送單元,用于基于所述修改后的HTTP地址中的所述預(yù)設(shè)DNS服務(wù)器的地址,確定所述預(yù)設(shè)DNS服務(wù)器,將所述修改后的HTTP地址發(fā) 送至所述預(yù)設(shè)DNS服務(wù)器。

9.根據(jù)權(quán)利要求8所述的爬取網(wǎng)站頁面的裝置,所述訪問單元,包括:

接收模塊,用于接收所述預(yù)設(shè)DNS服務(wù)器采用HTTP302協(xié)議發(fā)送的所述IP地址;

調(diào)整模塊,用于根據(jù)所述接收模塊接收的所述IP地址跳轉(zhuǎn)至相應(yīng)網(wǎng)站頁面。

10.一種爬取網(wǎng)站頁面的系統(tǒng),其特征在于,所述系統(tǒng)包括爬蟲服務(wù)器,預(yù)設(shè)域名系統(tǒng)DNS服務(wù)器;

所述爬蟲服務(wù)器用于將異常的HTTP地址修改后發(fā)送給所述預(yù)設(shè)DNS服務(wù)器;

所述預(yù)設(shè)DNS服務(wù)器是運行正常的DNS服務(wù)器,所述DNS服務(wù)器具備執(zhí)行正確域名解析的能力;所述預(yù)設(shè)DNS服務(wù)器用于接收修改后的HTTP地址,從修改后的HTTP地址中解析得到爬蟲爬取到的HTTP地址,查找與所述HTTP地址對應(yīng)的IP地址。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1