網(wǎng)頁信息的獲取系統(tǒng)的制作方法

文檔序號(hào)：6383317閱讀：297來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：網(wǎng)頁信息的獲取系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域，具體涉及一種網(wǎng)頁信息的獲取系統(tǒng)。
背景技術(shù)：
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機(jī)器人，在一些社區(qū)中，更經(jīng)常的被稱為網(wǎng)頁追逐者)是一種自動(dòng)獲取網(wǎng)頁內(nèi)容的程序或腳本，它是搜索引擎的重要組成部分，搜索引擎的優(yōu)化在很大程度上就是針對(duì)網(wǎng)絡(luò)爬蟲而做出的優(yōu)化。網(wǎng)絡(luò)爬蟲一般分為傳統(tǒng)爬蟲和聚焦爬蟲。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL(Uniform/Universal Resource Locator,統(tǒng)一資源定位符)開始，獲得初始網(wǎng)頁的URL ;在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的網(wǎng)頁的URL放入隊(duì)列，直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜，需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊(duì)列；然后，根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁的URL，重復(fù)上述過程，直到達(dá)到系統(tǒng)的某一條件時(shí)停止。另外，所有被爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存儲(chǔ)，進(jìn)行一定的分析和過濾，并建立索引，以便之后的查詢和檢索。上述兩種網(wǎng)絡(luò)爬蟲都是獲取整個(gè)網(wǎng)頁的信息，然后直接存儲(chǔ)。這類爬蟲不會(huì)對(duì)網(wǎng)頁的信息做解析，無法滿足定制化抽取網(wǎng)頁信息的需求。

發(fā)明內(nèi)容
鑒于上述問題，提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的網(wǎng)頁信息的獲取系統(tǒng)。根據(jù)本發(fā)明，提供了一種網(wǎng)頁信息的獲取系統(tǒng)，其包括網(wǎng)頁信息的獲取裝置和站點(diǎn)服務(wù)器，其中，所述網(wǎng)頁信息的獲取裝置包括網(wǎng)頁抓取器,適于從站點(diǎn)服務(wù)器處抓取網(wǎng)頁；頁面信息解析器，適于根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則，從所述網(wǎng)頁的指定位置抽取指定頁面信息；動(dòng)作處理器，適于將所述指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。根據(jù)本發(fā)明提供的網(wǎng)頁信息的獲取系統(tǒng)，在從站點(diǎn)服務(wù)器處抓取到網(wǎng)頁之后，并不是直接存儲(chǔ)整個(gè)網(wǎng)頁的信息，而是根據(jù)頁面抽取規(guī)則從網(wǎng)頁的指定位置抽取指定頁面信息，將該指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。其中頁面抽取規(guī)則可根據(jù)用戶的需求而定制，通過對(duì)網(wǎng)頁的信息做解析，滿足了定制化抽取網(wǎng)頁信息的需求。上述說明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，而可依照說明書的內(nèi)容予以實(shí)施，并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂，以下特舉本發(fā)明的具體實(shí)施方式
。

通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述，各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的，而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中，用相同的參考符號(hào)表示相同的部件。在附圖中圖I示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁信息的獲取方法的流程圖；圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁信息的獲取裝置的結(jié)構(gòu)框圖；以及圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁信息的獲取系統(tǒng)的結(jié)構(gòu)框圖。
具體實(shí)施例方式下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例，然而應(yīng)當(dāng)理解，可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反，提供這些實(shí)施例是為了能夠更透徹地理解本公開，并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。圖I示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁信息的獲取方法100的流程圖。如圖I所示，方法100始于步驟S101，步驟SlOl為抓取步驟，具體為從站點(diǎn)服務(wù)器處抓取網(wǎng)頁。爬蟲系統(tǒng)從站點(diǎn)服務(wù)器處抓取網(wǎng)頁可以具體采用以下三種方法1)從站點(diǎn)服務(wù)器處直接下載網(wǎng)頁，針對(duì)沒有防抓取策略的站點(diǎn)可以采用這種方法。2)通過瀏覽器渲染方法從站點(diǎn)服務(wù)器處下載網(wǎng)頁；由于有些站點(diǎn)使用了 ajax (Asynchronous JavaScript and XML,異步JavaScript和可擴(kuò)展標(biāo)記語言)技術(shù)，需要利用瀏覽器渲染的方法得到完整的頁面結(jié)構(gòu)。爬蟲系統(tǒng)配備了幾種內(nèi)核的渲染模塊，例如IE內(nèi)核、Gecko (火狐)內(nèi)核、Chrome內(nèi)核等。3)為了防止爬蟲系統(tǒng)頻繁訪問某個(gè)站點(diǎn)服務(wù)器導(dǎo)致被該站點(diǎn)服務(wù)器封IP的情況，爬蟲系統(tǒng)可以通過代理服務(wù)器從站點(diǎn)服務(wù)器處下載網(wǎng)頁，采用代理服務(wù)器下載網(wǎng)頁可以確保抓取的及時(shí)性和不間斷性。以上三種方法基本可以解決各種類型的站點(diǎn)的抓取問題。隨后，方法100進(jìn)入步驟S102，步驟S102為頁面信息解析步驟，具體為根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則，從網(wǎng)頁的指定位置抽取指定頁面信息。爬蟲系統(tǒng)分析每個(gè)網(wǎng)頁的頁面結(jié)構(gòu)，根據(jù)頁面抽取規(guī)則抽取指定頁面信息。其中頁面抽取規(guī)則是定制的，可由人工配置?？蛇x地，頁面抽取規(guī)則設(shè)定了指定位置的前后的HTML標(biāo)簽。由于頁面中的有效信息都在HTML標(biāo)簽中，指定位置一般也都是HTML標(biāo)簽，指定位置是由其前后的HTML標(biāo)簽所界定，該指定位置的HTML標(biāo)簽就是要抽取的指定頁面信息。例如，對(duì)于來自某個(gè)站點(diǎn)服務(wù)器的網(wǎng)頁，如果想要抽取該網(wǎng)頁中的“游戲名稱”字段，那么所定制的頁面抽取規(guī)則應(yīng)包括該字段前后的HTML標(biāo)簽<div>。爬蟲系統(tǒng)分析該網(wǎng)頁時(shí)，從中抽取出兩個(gè)HTML標(biāo)簽<div>之間的信息，即“游戲名稱”。對(duì)于下載文件(例如軟件包)鏈接網(wǎng)頁，從中抽取的指定頁面信息通常包括下載文件鏈接，可選的，還包括該網(wǎng)頁的父頁面鏈接，將這些鏈接信息抽取出來以供后續(xù)根據(jù)該鏈接信息下載相應(yīng)的下載文件。父頁面鏈接用于溯源，在下載相應(yīng)的下載文件的同時(shí)還能夠查到該下載文件的來源，包括父頁面或站點(diǎn)等等，便于后續(xù)對(duì)數(shù)據(jù)的維護(hù)以及提供相應(yīng)的查詢功能。進(jìn)一步的，爬蟲系統(tǒng)從站點(diǎn)服務(wù)器處抓取網(wǎng)頁可以采用兩種方式全量爬取方式和增量爬取方式。采用全量爬取方式還是增量爬取方式是根據(jù)需求而定的。例如對(duì)于一個(gè)新的游戲站點(diǎn)服務(wù)器，會(huì)收錄很多新的游戲，這時(shí)需要將該站點(diǎn)服務(wù)器的網(wǎng)頁全部遍歷，即全量爬取，抓取所有游戲，后續(xù)再做統(tǒng)一處理(即頁面信息解析和存儲(chǔ)處理)。在該游戲站點(diǎn)服務(wù)器的游戲全部抓取完畢之后，該站點(diǎn)服務(wù)器每天還會(huì)更新游戲，這時(shí)需要采用增量爬取方式，抓取其每天更新的游戲。針對(duì)全量爬取方式的站點(diǎn)服務(wù)器進(jìn)行一次性任務(wù)投遞，即一次性的抓取來自該站點(diǎn)服務(wù)器的網(wǎng)頁。首先通知任務(wù)調(diào)度器所要抓取的站點(diǎn)服務(wù)器的名稱，任務(wù)調(diào)度器會(huì)自行查詢?cè)撜军c(diǎn)服務(wù)器的抓取規(guī)則，然后即可完成全量爬取。任務(wù)調(diào)度器將抓取任務(wù)投遞給具體工作進(jìn)程，所執(zhí)行的抓取任務(wù)可以包括首先，從站點(diǎn)服務(wù)器處抓取初始網(wǎng)頁。解析該初始網(wǎng)頁，獲取初始網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址。根據(jù)新的網(wǎng)頁的網(wǎng)址從站點(diǎn)服務(wù)器處抓取該新的網(wǎng)頁。通常一個(gè)站點(diǎn)服務(wù)器從初始頁面開始遞歸，會(huì)有十多層甚至更多，任務(wù)調(diào)度器從初始頁面開始抓取，根據(jù)網(wǎng)頁中的鏈接遞歸抓取更深層的網(wǎng)頁，即接著執(zhí)行全量遞歸子步驟，具體為解析新的網(wǎng)頁，再獲取新的網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址，從站點(diǎn)服務(wù)器處抓取再獲取的新的網(wǎng)頁；重復(fù)執(zhí)行該全量遞歸子步驟，直至滿足停止抓取條件。通常而言，爬蟲系統(tǒng)一般需要抓取前幾層的網(wǎng)頁即可滿足需求，所以爬蟲系統(tǒng)可以設(shè)置單個(gè)站點(diǎn)服務(wù)器的遞歸層數(shù)，遞歸抓取到該站點(diǎn)服務(wù)器的設(shè)定遞歸層數(shù)就滿足停止抓取條件。在全量爬取到來自某站點(diǎn)服務(wù)器的網(wǎng)頁后，對(duì)這些網(wǎng)頁做統(tǒng)一處理，包括根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則，從上述抓取的初始網(wǎng)頁和所有新的網(wǎng)頁的指定位置抽取指定頁面信息。針對(duì)增量爬取方式的站點(diǎn)服務(wù)器進(jìn)行周期性任務(wù)調(diào)度，即按照爬蟲系統(tǒng)為站點(diǎn)服務(wù)器設(shè)定的調(diào)度周期抓取來自該站點(diǎn)服務(wù)器的網(wǎng)頁。爬蟲系統(tǒng)為每個(gè)站點(diǎn)服務(wù)器設(shè)定的調(diào)度周期可以不同，有的是I小時(shí)，有的是3小時(shí)，視站點(diǎn)服務(wù)器的更新速度而定。爬蟲系統(tǒng)將需要增量爬取的站點(diǎn)服務(wù)器按照調(diào)度周期排序形成調(diào)度隊(duì)列，每隔預(yù)設(shè)時(shí)間(例如10分鐘)對(duì)該調(diào)度隊(duì)列進(jìn)行檢測(cè)，調(diào)度時(shí)間大于當(dāng)前時(shí)間的站點(diǎn)服務(wù)器視為待抓取的站點(diǎn)服務(wù)器。隨后任務(wù)調(diào)度器將抓取任務(wù)投遞給具體工作進(jìn)程。在具體的工作進(jìn)程中，所執(zhí)行的步驟可以包括首先，從站點(diǎn)服務(wù)器處抓取初始網(wǎng)頁。根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則，從初始網(wǎng)頁的指定位置抽取指定頁面信息。解析初始網(wǎng)頁，獲取初始網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址。根據(jù)新的網(wǎng)頁的網(wǎng)址，從站點(diǎn)服務(wù)器處抓取新的網(wǎng)頁。根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則，從新的網(wǎng)頁的指定位置抽取指定頁面信息。增量遞歸子步驟，解析新的網(wǎng)頁，再獲取新的網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址；從站點(diǎn)服務(wù)器處抓取再獲取的新的網(wǎng)頁；根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則，從再獲取的新的網(wǎng)頁的指定位置抽取指定頁面信息；重復(fù)執(zhí)行該增量遞歸子步驟，直至滿足停止抓取條件。爬蟲系統(tǒng)可以設(shè)置單個(gè)站點(diǎn)服務(wù)器的遞歸層數(shù)，遞歸抓取到該站點(diǎn)服務(wù)器的設(shè)定遞歸層數(shù)就滿足停止抓取條件。與全量爬取方式不同之處主要在于，增量爬取方式是邊抓取網(wǎng)頁邊進(jìn)行解析；而且，增量遞歸子步驟是當(dāng)爬蟲系統(tǒng)為站點(diǎn)服務(wù)器設(shè)定的調(diào)度周期規(guī)定的時(shí)間到達(dá)時(shí)而執(zhí)行的。可選地，本方法中，任務(wù)調(diào)度器將抓取任務(wù)通過gearman傳遞給下游的工作進(jìn)程處理。本方法使用gearman作為進(jìn)程間消息隊(duì)列,通過gearman進(jìn)行進(jìn)程通訊來實(shí)現(xiàn)平行擴(kuò)展和高并發(fā)的處理。上述以時(shí)間為調(diào)度單位的網(wǎng)頁都以有序集合的方式存放在redis中，通過調(diào)用redis接口實(shí)現(xiàn)精確調(diào)度網(wǎng)頁監(jiān)控任務(wù)。redis是一個(gè)key-value類型的內(nèi)存數(shù)據(jù)庫，整個(gè)數(shù)據(jù)庫統(tǒng)統(tǒng)加載在內(nèi)存當(dāng)中進(jìn)行操作，定期通過異步操作把數(shù)據(jù)庫數(shù)據(jù)輸出(flush)到硬盤上進(jìn)行保存。因?yàn)槭羌儍?nèi)存操作，redis的性能非常出色，每秒可以處理超過10萬次讀寫操作，從而提高了爬蟲系統(tǒng)的性能。
在步驟S102之后，方法100進(jìn)入步驟S103的存儲(chǔ)步驟，具體為將指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。所謂結(jié)構(gòu)化存儲(chǔ)是指存儲(chǔ)指定頁面信息并對(duì)指定頁面信息進(jìn)行結(jié)構(gòu)化描述，例如對(duì)“游戲名稱”信息的結(jié)構(gòu)化描述就是游戲名稱，對(duì)“下載文件鏈接”信息的結(jié)構(gòu)化描述就是下載文件鏈接?？蛇x地，可以使用XML (extensible markup language,可擴(kuò)展標(biāo)記語言)進(jìn)行結(jié)構(gòu)化存儲(chǔ)，即將各項(xiàng)指定頁面信息存儲(chǔ)至XML節(jié)點(diǎn)中，這樣便于后續(xù)模塊的處理，同時(shí)也簡化了系統(tǒng)結(jié)構(gòu)。通過進(jìn)行結(jié)構(gòu)化存儲(chǔ)，使用者可以精確地獲知爬蟲系統(tǒng)所爬取到的信息?？蛇x地，在步驟S103之后，方法100進(jìn)入步驟S104，其中根據(jù)指定頁面信息，從站點(diǎn)服務(wù)器處下載網(wǎng)頁的相關(guān)資源，進(jìn)一步存儲(chǔ)網(wǎng)頁的相關(guān)資源以及網(wǎng)頁的相關(guān)資源與指定頁面信息的對(duì)應(yīng)關(guān)系。以指定頁面信息為軟件包鏈接為例，根據(jù)軟件包鏈接可從站點(diǎn)服務(wù)器處下載該軟件包，進(jìn)一步存儲(chǔ)該軟件包以及軟件包與軟件包鏈接的對(duì)應(yīng)關(guān)系。通過該方法，爬蟲系統(tǒng)可以爬取網(wǎng)頁上能看到的任何信息以及下載文件，例如軟件包以及軟件包的相關(guān)信息，如軟件名稱、更新時(shí)間、軟件大小、軟件作者、使用平臺(tái)和軟件描述等，還可以爬取門戶站點(diǎn)的新聞、圖片等資源?？蛇x地，根據(jù)事先定制的策略，爬蟲系統(tǒng)還可以對(duì)抓取的信息和下載的資源做相應(yīng)處理，如發(fā)郵件、推送分布式存儲(chǔ)等。對(duì)于一些只要下載網(wǎng)頁內(nèi)容的站點(diǎn)服務(wù)器，例如門戶、新聞?wù)军c(diǎn)等，只需要抓取所需信息，將抓取的信息推送到指定接口，再郵件通知特定人員。對(duì)于一些軟件包站點(diǎn)服務(wù)器，需要獲得軟件包及其相關(guān)信息，在抓取到必要的信息后，再進(jìn)行后續(xù)的下載和解包，通常軟件包很大，需要推送至分布式存儲(chǔ)。根據(jù)本實(shí)施例提供的網(wǎng)頁信息的獲取方法，在從站點(diǎn)服務(wù)器處抓取到網(wǎng)頁之后，并不是直接存儲(chǔ)整個(gè)網(wǎng)頁的信息，而是根據(jù)頁面抽取規(guī)則從網(wǎng)頁的指定位置抽取指定頁面信息，將該指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。其中頁面抽取規(guī)則可根據(jù)用戶的需求而定制，通過對(duì)網(wǎng)頁的信息做解析，滿足了定制化抽取網(wǎng)頁信息的需求。以爬取某游戲站點(diǎn)的網(wǎng)頁信息為例，通過該方法可以直接得到該游戲站點(diǎn)中所有游戲的下載鏈接，并且將這些下載鏈接進(jìn)行結(jié)構(gòu)化存儲(chǔ)，使用者可以精確地獲知爬蟲系統(tǒng)所爬取到的信息。圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁信息的獲取裝置的結(jié)構(gòu)框圖。如圖2所示，該網(wǎng)頁信息獲取裝置200包括網(wǎng)頁抓取器210、頁面信息解析器220和動(dòng)作處理器230?？蛇x地，網(wǎng)頁信息獲取裝置200還可以包括網(wǎng)頁鏈接解析器240、下載器250和任務(wù)調(diào)度器260。網(wǎng)頁抓取器210適于從站點(diǎn)服務(wù)器處抓取網(wǎng)頁?？蛇x地，網(wǎng)頁抓取器210適于從站點(diǎn)服務(wù)器處直接下載網(wǎng)頁；或者，通過瀏覽器渲染方法從站點(diǎn)服務(wù)器處下載網(wǎng)頁；或者，通過代理服務(wù)器從站點(diǎn)服務(wù)器處下載網(wǎng)頁。網(wǎng)頁抓取器210包括初級(jí)網(wǎng)頁抓取器211和網(wǎng)頁遞歸抓取器212。初級(jí)網(wǎng)頁抓取器211適于從站點(diǎn)服務(wù)器處抓取初始網(wǎng)頁，網(wǎng)頁鏈接解析器240適于解析初始網(wǎng)頁，獲取初始網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址，網(wǎng)頁遞歸抓取器212適于從站點(diǎn)服務(wù)器處抓取新的網(wǎng)頁。網(wǎng)頁鏈接解析器240還適于解析新的網(wǎng)頁，再獲取新的網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址；網(wǎng)頁遞歸抓取器212還適于從站點(diǎn)服務(wù)器處抓取再獲取的新的網(wǎng)頁；網(wǎng)頁鏈接解析器240和網(wǎng)頁遞歸抓取器212重復(fù)工作，直至滿足停止抓取條件。頁面信息解析器220適于根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則，從網(wǎng)頁的指定位置抽取指定頁面信息?？蛇x地，頁面抽取規(guī)則設(shè)定了指定位置的前后的HTML標(biāo)簽；頁面信息解析器220進(jìn)一步適于從網(wǎng)頁中抽取指定位置的前后的HTML標(biāo)簽之間的指定頁面信息。進(jìn)一步的，頁面信息解析器220適于根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則，從初始網(wǎng)頁和新的網(wǎng)頁的指定位置抽取指定頁面信息。動(dòng)作處理器230適于將指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。所謂結(jié)構(gòu)化存儲(chǔ)是指存儲(chǔ)指定頁面信息并對(duì)指定頁面信息進(jìn)行結(jié)構(gòu)化描述，通過進(jìn)行結(jié)構(gòu)化存儲(chǔ)，使用者可以精確地獲知爬蟲系統(tǒng)所爬取到的信息。下載器250適于根據(jù)指定頁面信息，從站點(diǎn)服務(wù)器處下載網(wǎng)頁的相關(guān)資源。動(dòng)作處理器230進(jìn)一步適于存儲(chǔ)網(wǎng)頁的相關(guān)資源以及網(wǎng)頁的相關(guān)資源與指定頁面信息的對(duì)應(yīng)關(guān)系。任務(wù)調(diào)度器260適于根據(jù)分布式的調(diào)用方法(如gearman)將相應(yīng)的任務(wù)投遞給網(wǎng)頁抓取器210。任務(wù)調(diào)取器260和網(wǎng)頁抓取器210可以采用全量爬取方式或增量爬取方式進(jìn)行網(wǎng)頁的抓取，具體過程可參見方法實(shí)施例的描述。該網(wǎng)頁信息獲取裝置200還可以包括緩存數(shù)據(jù)庫，例如redis，適于以有序集合的方式存放以時(shí)間為調(diào)度單位的網(wǎng)頁，通過調(diào)用redis接口實(shí)現(xiàn)精確調(diào)度網(wǎng)頁監(jiān)控任務(wù)。圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁信息的獲取系統(tǒng)的結(jié)構(gòu)框圖。如圖3所示，該網(wǎng)頁信息的獲取系統(tǒng)包括網(wǎng)頁信息獲取裝置200和站點(diǎn)服務(wù)器100，網(wǎng)頁信息獲取裝置200的具體結(jié)構(gòu)可參見上述實(shí)施例的相關(guān)描述。網(wǎng)頁信息獲取裝置200從站點(diǎn)服務(wù)器100處犾取網(wǎng)頁和網(wǎng)頁的相關(guān)資源。根據(jù)本發(fā)明提供的網(wǎng)頁信息的獲取系統(tǒng)，網(wǎng)頁信息的獲取系統(tǒng)在從站點(diǎn)服務(wù)器處抓取到網(wǎng)頁之后，并不是直接存儲(chǔ)整個(gè)網(wǎng)頁的信息，而是根據(jù)頁面抽取規(guī)則從網(wǎng)頁的指定位置抽取指定頁面信息，將該指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。其中頁面抽取規(guī)則可根據(jù)用戶的需求而定制，通過對(duì)網(wǎng)頁的信息做解析，滿足了定制化抽取網(wǎng)頁信息的需求。以爬取某游戲站點(diǎn)的網(wǎng)頁信息為例，通過該裝置可以直接得到該游戲站點(diǎn)中所有游戲的下載鏈接，并且將這些下載鏈接進(jìn)行結(jié)構(gòu)化存儲(chǔ)，使用者可以精確地獲知爬蟲系統(tǒng)所爬取到的信息。在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述，構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外，本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白，可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容，并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。在此處所提供的說明書中，說明了大量具體細(xì)節(jié)。然而，能夠理解，本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中，并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù)，以便不模糊對(duì)本說明書的理解。類似地，應(yīng)當(dāng)理解，為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè)，在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中，本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而，并不應(yīng)將該公開的方法解釋成反映如下意圖即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說，如下面的權(quán)利要求書所反映的那樣，發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此，遵循具體實(shí)施方式
的權(quán)利要求書由此明確地并入該具體實(shí)施方式
，其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域那些技術(shù)人員可以理解，可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中?？梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件，以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外，可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述，本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。此外，本領(lǐng)域的技術(shù)人員能夠理解，盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征，但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如，在下面的權(quán)利要求書中，所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn)，或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn)，或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁信息的獲取系統(tǒng)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如，計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上，或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到，或者在載體信號(hào)上提供，或者以任何其他形式提供。應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制，并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中，不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中，這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
權(quán)利要求
1.一種網(wǎng)頁信息的獲取系統(tǒng)，包括網(wǎng)頁信息的獲取裝置及站點(diǎn)服務(wù)器，其中，所述網(wǎng)頁信息的獲取裝置包括網(wǎng)頁抓取器，適于從站點(diǎn)服務(wù)器處抓取網(wǎng)頁；頁面信息解析器，適于根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則，從所述網(wǎng)頁的指定位置抽取指定頁面信息；動(dòng)作處理器，適于將所述指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。
2.根據(jù)權(quán)利要求I所述的系統(tǒng)，所述頁面抽取規(guī)則設(shè)定了所述指定位置的前后的HTML 標(biāo)簽；所述頁面信息解析器進(jìn)一步適于從所述網(wǎng)頁中抽取所述指定位置的前后的HTML標(biāo)簽之間的指定頁面信息。
3.根據(jù)權(quán)利要求I或2所述的系統(tǒng)，其中，所述網(wǎng)頁信息的獲取裝置還包括網(wǎng)頁鏈接解析器；所述網(wǎng)頁抓取器包括初級(jí)網(wǎng)頁抓取器和網(wǎng)頁遞歸抓取器；所述初級(jí)網(wǎng)頁抓取器適于從站點(diǎn)服務(wù)器處抓取初始網(wǎng)頁，所述網(wǎng)頁鏈接解析器適于解析所述初始網(wǎng)頁，獲取所述初始網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址；所述網(wǎng)頁遞歸抓取器適于從站點(diǎn)服務(wù)器處抓取所述新的網(wǎng)頁；所述網(wǎng)頁鏈接解析器還適于解析所述新的網(wǎng)頁，再獲取所述新的網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址；所述網(wǎng)頁遞歸抓取器還適于從站點(diǎn)服務(wù)器處抓取再獲取的新的網(wǎng)頁；所述網(wǎng)頁鏈接解析器和所述網(wǎng)頁遞歸抓取器重復(fù)工作，直至滿足停止抓取條件。
4.根據(jù)權(quán)利要求3所述的系統(tǒng)，所述頁面信息解析器具體適于根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則，從所述初始網(wǎng)頁和所述新的網(wǎng)頁的指定位置抽取指定頁面信息。
5.根據(jù)權(quán)利要求I至4任一項(xiàng)所述的系統(tǒng)，所述網(wǎng)頁抓取器進(jìn)一步適于從站點(diǎn)服務(wù)器處直接下載網(wǎng)頁；或者，通過瀏覽器渲染方法從站點(diǎn)服務(wù)器處下載網(wǎng)頁；或者，通過代理服務(wù)器從站點(diǎn)服務(wù)器處下載網(wǎng)頁。
6.根據(jù)權(quán)利要求I至4任一項(xiàng)所述的系統(tǒng)，其中，所述網(wǎng)頁信息的獲取裝置還包括下載器，適于根據(jù)所述指定頁面信息，從所述站點(diǎn)服務(wù)器處下載所述網(wǎng)頁的相關(guān)資源；所述動(dòng)作處理器進(jìn)一步適于存儲(chǔ)所述網(wǎng)頁的相關(guān)資源以及所述網(wǎng)頁的相關(guān)資源與所述指定頁面信息的對(duì)應(yīng)關(guān)系。
7.根據(jù)權(quán)利要求I至4任一項(xiàng)所述的系統(tǒng)，其中，所述網(wǎng)頁信息的獲取裝置還包括任務(wù)調(diào)度器；所述任務(wù)調(diào)度器適于根據(jù)分布式的調(diào)用方法將相應(yīng)的任務(wù)投遞給所述網(wǎng)頁抓取器。全文摘要
本發(fā)明公開了一種網(wǎng)頁信息的獲取系統(tǒng)，其包括網(wǎng)頁信息的獲取裝置及站點(diǎn)服務(wù)器，其中，所述網(wǎng)頁信息的獲取裝置包括網(wǎng)頁抓取器，適于從站點(diǎn)服務(wù)器處抓取網(wǎng)頁；頁面信息解析器，適于根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則，從所述網(wǎng)頁的指定位置抽取指定頁面信息；動(dòng)作處理器，適于將所述指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。根據(jù)本發(fā)明提供的網(wǎng)頁信息的獲取系統(tǒng)，在從站點(diǎn)服務(wù)器處抓取到網(wǎng)頁之后，并不是直接存儲(chǔ)整個(gè)網(wǎng)頁的信息，而是根據(jù)頁面抽取規(guī)則從網(wǎng)頁的指定位置抽取指定頁面信息，將該指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。其中頁面抽取規(guī)則可根據(jù)用戶的需求而定制，通過對(duì)網(wǎng)頁的信息做解析，滿足了定制化抽取網(wǎng)頁信息的需求。
文檔編號(hào)G06F17/30GK102982162SQ20121051824
公開日2013年3月20日申請(qǐng)日期2012年12月5日優(yōu)先權(quán)日2012年12月5日
發(fā)明者徐銳波, 路軼申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐銳波;路軼
技術(shù)所有人：北京奇虎科技有限公司;奇智軟件（北京）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)上如何發(fā)布信息相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁信息的獲取系統(tǒng)的制作方法