亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)方法和網(wǎng)絡(luò)爬蟲系統(tǒng)的制作方法

文檔序號:9597974閱讀:497來源:國知局
一種網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)方法和網(wǎng)絡(luò)爬蟲系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及一種網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)方法和網(wǎng)絡(luò)爬蟲系統(tǒng)。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)爬蟲,是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。網(wǎng)絡(luò)爬蟲一般駐留在服務(wù)器上,通過給定的一些URL (Uniform Resource Locator,統(tǒng)一資源定位符),利用HTTP (Hyper Text Transfer Protocol,超文本傳輸協(xié)議)等標(biāo)準(zhǔn)協(xié)議讀取相應(yīng)文檔,然后以文檔中包括的所有未訪問過的URL作為新的起點(diǎn),繼續(xù)進(jìn)行漫游,直到?jīng)]有滿足條件的新URL為止。
[0003]然而,由于網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)協(xié)議(Robots Exclus1n Protocol)的限制,網(wǎng)站可以通過建立robots, txt文件限制網(wǎng)絡(luò)爬蟲爬取網(wǎng)站的全部或部分?jǐn)?shù)據(jù),行為良好的網(wǎng)絡(luò)爬蟲不應(yīng)當(dāng)訪問robots, txt中禁止查看的信息。而這樣就造成許多可以通過正常訪問網(wǎng)頁獲得的資源無法通過網(wǎng)絡(luò)爬蟲來獲得。

【發(fā)明內(nèi)容】

[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)方法和網(wǎng)絡(luò)爬蟲系統(tǒng)。
[0005]依據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)方法,包括:
[0006]模擬用戶對網(wǎng)頁的訪問操作發(fā)送網(wǎng)頁訪問請求;
[0007]根據(jù)網(wǎng)頁訪問請求對應(yīng)的反饋內(nèi)容獲得相應(yīng)的網(wǎng)頁內(nèi)容;
[0008]分析獲得的網(wǎng)頁內(nèi)容,獲得目標(biāo)信息。
[0009]可選地,所述模擬用戶對網(wǎng)頁的訪問操作發(fā)送網(wǎng)頁訪問請求包括:
[0010]調(diào)用瀏覽器內(nèi)核進(jìn)行訪問網(wǎng)頁的操作,獲得相應(yīng)的網(wǎng)頁內(nèi)容。
[0011]可選地,該方法進(jìn)一步包括:預(yù)先配置網(wǎng)址列表;
[0012]所述調(diào)用瀏覽器內(nèi)核進(jìn)行訪問網(wǎng)頁的操作,獲得相應(yīng)的網(wǎng)頁內(nèi)容包括:調(diào)用瀏覽器內(nèi)核依次訪問所述網(wǎng)址列表中的各網(wǎng)址對應(yīng)的網(wǎng)頁,獲得相應(yīng)的網(wǎng)頁內(nèi)容。
[0013]可選地,該方法進(jìn)一步包括:預(yù)先配置IP地址列表;
[0014]所述調(diào)用瀏覽器內(nèi)核進(jìn)行訪問網(wǎng)頁的操作包括:從所述預(yù)設(shè)IP地址列表中選擇一個(gè)IP地址,調(diào)用瀏覽器內(nèi)核以所選擇的IP地址作為訪問者地址進(jìn)行訪問網(wǎng)頁操作。
[0015]可選地,該方法進(jìn)一步包括:
[0016]當(dāng)接收到拒絕訪問網(wǎng)頁的反饋消息時(shí),從所述預(yù)設(shè)IP地址列表中重新選擇一個(gè)IP地址,調(diào)用瀏覽器內(nèi)核以重新選擇的IP地址作為訪問者地址進(jìn)行訪問網(wǎng)頁操作。
[0017]可選地,所述調(diào)用瀏覽器內(nèi)核進(jìn)行訪問網(wǎng)頁的操作,獲得相應(yīng)的網(wǎng)頁內(nèi)容包括:
[0018]調(diào)用瀏覽器內(nèi)核根據(jù)本地的cookie進(jìn)行訪問網(wǎng)頁的操作,獲得相應(yīng)的網(wǎng)頁內(nèi)容。
[0019]依據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)絡(luò)爬蟲系統(tǒng),包括:
[0020]網(wǎng)頁訪問處理單元,適于模擬用戶對網(wǎng)頁的訪問操作發(fā)送網(wǎng)頁訪問請求;根據(jù)網(wǎng)頁訪問請求對應(yīng)的反饋內(nèi)容獲得相應(yīng)的網(wǎng)頁內(nèi)容;
[0021 ] 分析單元,適于分析獲得的網(wǎng)頁內(nèi)容,獲得目標(biāo)信息。
[0022]可選地,所述網(wǎng)頁訪問處理單元包括:
[0023]調(diào)用單元,適于調(diào)用瀏覽器內(nèi)核進(jìn)行訪問網(wǎng)頁的操作,獲得相應(yīng)的網(wǎng)頁內(nèi)容;
[0024]瀏覽器內(nèi)核,適于根據(jù)調(diào)用單元的指令進(jìn)行訪問網(wǎng)頁的操作。
[0025]可選地,該系統(tǒng)進(jìn)一步包括:網(wǎng)址配置單元,適于預(yù)先配置網(wǎng)址列表;
[0026]所述調(diào)用單元,適于調(diào)用瀏覽器內(nèi)核依次訪問所述網(wǎng)址列表中的各網(wǎng)址對應(yīng)的網(wǎng)頁,獲得相應(yīng)的網(wǎng)頁內(nèi)容。
[0027]可選地,該系統(tǒng)進(jìn)一步包括:IP地址配置單元,適于預(yù)先配置IP地址列表;
[0028]所述調(diào)用單元,適于從所述預(yù)設(shè)IP地址列表中選擇一個(gè)IP地址,調(diào)用瀏覽器內(nèi)核以所選擇的IP地址作為訪問者地址進(jìn)行訪問網(wǎng)頁操作。
[0029]可選地,所述調(diào)用單元,適于當(dāng)接收到拒絕訪問網(wǎng)頁的反饋消息時(shí),從所述預(yù)設(shè)IP地址列表中重新選擇一個(gè)IP地址,調(diào)用瀏覽器內(nèi)核以重新選擇的IP地址作為訪問者地址進(jìn)行訪問網(wǎng)頁操作。
[0030]可選地,所述調(diào)用單元,適于調(diào)用瀏覽器內(nèi)核根據(jù)本地的cookie進(jìn)行訪問網(wǎng)頁的操作,獲得相應(yīng)的網(wǎng)頁內(nèi)容。
[0031]由上述可知,本發(fā)明的技術(shù)方案,通過模擬用戶對網(wǎng)頁的訪問操作,向網(wǎng)站服務(wù)器發(fā)送網(wǎng)頁訪問請求,并獲取網(wǎng)站服務(wù)器根據(jù)該網(wǎng)頁訪問請求返回的反饋內(nèi)容,進(jìn)一步獲得相應(yīng)的網(wǎng)頁內(nèi)容,并從中分析獲得相應(yīng)的網(wǎng)頁內(nèi)容。通過該技術(shù)方案實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲并不直接訪問網(wǎng)站服務(wù)器獲取資源,而是通過模擬正常用戶的網(wǎng)頁訪問請求,在客戶端如瀏覽器獲取到網(wǎng)頁內(nèi)容,避免了受到網(wǎng)站設(shè)置的robots, txt中對網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)內(nèi)容的限制,并且獲取到的內(nèi)容也是通過正當(dāng)途徑訪問網(wǎng)頁獲取的,既可以滿足用戶爬取數(shù)據(jù)的需求,也不違反網(wǎng)站服務(wù)提供方的約束。
[0032]模擬用戶對網(wǎng)頁的訪問操作發(fā)送網(wǎng)頁訪問請求;根據(jù)網(wǎng)頁訪問請求對應(yīng)的反饋內(nèi)容獲得相應(yīng)的網(wǎng)頁內(nèi)容;分析獲得的網(wǎng)頁內(nèi)容,獲得目標(biāo)信息。。
[0033]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0034]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0035]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)方法的流程圖;
[0036]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種網(wǎng)絡(luò)爬蟲系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0037]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0038]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)方法的流程圖,如圖1所示,該方法包括:
[0039]步驟S110,模擬用戶對網(wǎng)頁的訪問操作發(fā)送網(wǎng)頁訪問請求。其中,可以通過客戶端如瀏覽器發(fā)送網(wǎng)頁訪問請求。
[0040]步驟S120,根據(jù)網(wǎng)頁訪問請求對應(yīng)的反饋內(nèi)容獲得相應(yīng)的網(wǎng)頁內(nèi)容。
[0041]與現(xiàn)有技術(shù)中的網(wǎng)絡(luò)爬蟲不同,本實(shí)施例中的網(wǎng)絡(luò)爬蟲由于并不直接從網(wǎng)站服務(wù)器獲取資源,而是通過網(wǎng)頁訪問請求對應(yīng)的反饋內(nèi)容獲得相應(yīng)的網(wǎng)頁內(nèi)容,如一個(gè)或多個(gè)靜態(tài)HTML(Hyper Text Markup Language,超文本標(biāo)記語言)文件,而這些網(wǎng)頁內(nèi)容有些是需要在客戶端如瀏覽器對反饋內(nèi)容中的某些數(shù)據(jù),如CSS(Cascading Style Sheets,層疊樣式表)文件進(jìn)行計(jì)算才能得到的,因此,本實(shí)施例中的網(wǎng)絡(luò)爬蟲與現(xiàn)有技術(shù)中的網(wǎng)絡(luò)爬蟲實(shí)際獲取的數(shù)據(jù)也是不同的。
[0042]步驟S130,分析獲得的網(wǎng)頁內(nèi)容,獲得目標(biāo)信息。
[0043]可見,圖1所示的方法,通過模擬用戶對網(wǎng)頁的訪問操作,向網(wǎng)站服務(wù)器發(fā)送網(wǎng)頁訪問請求,并獲取網(wǎng)站服務(wù)器根據(jù)該網(wǎng)頁訪問請求返回的反饋內(nèi)容,進(jìn)一步獲得相應(yīng)的網(wǎng)頁內(nèi)容,并從中分析獲得相應(yīng)的網(wǎng)頁內(nèi)容。通過該技術(shù)方案實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲并不直接訪問網(wǎng)站服務(wù)器獲取資源,而是通過模擬正常用戶的網(wǎng)頁訪問請求,在客戶端如瀏覽器獲取到網(wǎng)頁內(nèi)容,避免了受到網(wǎng)站設(shè)置的robots, txt中對網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)內(nèi)容的限制,并且獲取到的內(nèi)容也是通過正當(dāng)途徑訪問網(wǎng)頁獲取的,既可以滿足用戶爬取數(shù)據(jù)的需求,也不違反網(wǎng)站服務(wù)提供方的約束。
[0044]在本發(fā)明的一個(gè)實(shí)施例中,圖1所示的方法中,模擬用戶對網(wǎng)頁的訪問操作發(fā)送網(wǎng)頁訪問請求包括:調(diào)用瀏覽器內(nèi)核進(jìn)行訪問網(wǎng)頁的操作,獲得相應(yīng)的網(wǎng)頁內(nèi)容。
[0045]在現(xiàn)有技術(shù)中,雖然許多普遍被使用的瀏覽器如IE、Chrome都是單核瀏覽器(瀏覽器僅包含一個(gè)瀏覽器內(nèi)核),但也出現(xiàn)了如360安全瀏覽器、獵豹瀏覽器等多核瀏覽器(瀏覽器中包含多個(gè)瀏覽器內(nèi)核)。而不同的網(wǎng)頁針對Trident、WebKit內(nèi)核的瀏覽器呈現(xiàn)的網(wǎng)頁頁面可能是不同的,因此可以根據(jù)需求選取需要調(diào)用的內(nèi)核進(jìn)行問網(wǎng)頁的操作,獲得相應(yīng)的網(wǎng)頁內(nèi)容。特別地,也可以將特定的瀏覽器內(nèi)核封裝在網(wǎng)絡(luò)爬蟲程序中。
[0046]在本發(fā)明的一個(gè)實(shí)施例中,上述方法進(jìn)一步包括:預(yù)先配置網(wǎng)址列表;調(diào)用瀏覽器內(nèi)核進(jìn)行訪問網(wǎng)頁的操作,獲得相應(yīng)的網(wǎng)頁內(nèi)容包括:調(diào)用瀏覽器內(nèi)核依次訪問網(wǎng)址列表中的各網(wǎng)址對應(yīng)的網(wǎng)頁,獲得相應(yīng)的網(wǎng)頁內(nèi)容。
[0047]在本實(shí)施例中,網(wǎng)絡(luò)爬蟲根據(jù)預(yù)先配置網(wǎng)址列表,調(diào)用瀏覽器內(nèi)核依次訪問網(wǎng)址列表中各網(wǎng)址對應(yīng)的網(wǎng)頁。而對于每個(gè)網(wǎng)頁中,可能還包含多個(gè)包含網(wǎng)址的超鏈接,該
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1