亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁信息的獲取系統(tǒng)的制作方法

文檔序號(hào):6383317閱讀:297來源:國知局
專利名稱:網(wǎng)頁信息的獲取系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種網(wǎng)頁信息的獲取系統(tǒng)。
背景技術(shù)
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機(jī)器人,在一些社區(qū)中,更經(jīng)常的被稱為網(wǎng)頁追逐者)是一種自動(dòng)獲取網(wǎng)頁內(nèi)容的程序或腳本,它是搜索引擎的重要組成部分,搜索引擎的優(yōu)化在很大程度上就是針對(duì)網(wǎng)絡(luò)爬蟲而做出的優(yōu)化。網(wǎng)絡(luò)爬蟲一般分為傳統(tǒng)爬蟲和聚焦爬蟲。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL(Uniform/Universal Resource Locator,統(tǒng)一資源定位符)開始,獲得初始網(wǎng)頁的URL ;在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的網(wǎng)頁的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列;然后,根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁的URL,重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。另外,所有被爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存儲(chǔ),進(jìn)行一定的分析和過濾,并建立索引,以便之后的查詢和檢索。上述兩種網(wǎng)絡(luò)爬蟲都是獲取整個(gè)網(wǎng)頁的信息,然后直接存儲(chǔ)。這類爬蟲不會(huì)對(duì)網(wǎng)頁的信息做解析,無法滿足定制化抽取網(wǎng)頁信息的需求。

發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的網(wǎng)頁信息的獲取系統(tǒng)。根據(jù)本發(fā)明,提供了一種網(wǎng)頁信息的獲取系統(tǒng),其包括網(wǎng)頁信息的獲取裝置和站點(diǎn)服務(wù)器,其中,所述網(wǎng)頁信息的獲取裝置包括網(wǎng)頁抓取器,適于從站點(diǎn)服務(wù)器處抓取網(wǎng)頁;頁面信息解析器,適于根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則,從所述網(wǎng)頁的指定位置抽取指定頁面信息;動(dòng)作處理器,適于將所述指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。根據(jù)本發(fā)明提供的網(wǎng)頁信息的獲取系統(tǒng),在從站點(diǎn)服務(wù)器處抓取到網(wǎng)頁之后,并不是直接存儲(chǔ)整個(gè)網(wǎng)頁的信息,而是根據(jù)頁面抽取規(guī)則從網(wǎng)頁的指定位置抽取指定頁面信息,將該指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。其中頁面抽取規(guī)則可根據(jù)用戶的需求而定制,通過對(duì)網(wǎng)頁的信息做解析,滿足了定制化抽取網(wǎng)頁信息的需求。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式
。


通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中圖I示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁信息的獲取方法的流程圖;圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁信息的獲取裝置的結(jié)構(gòu)框圖;以及圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁信息的獲取系統(tǒng)的結(jié)構(gòu)框圖。
具體實(shí)施例方式下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。圖I示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁信息的獲取方法100的流程圖。如圖I所示,方法100始于步驟S101,步驟SlOl為抓取步驟,具體為從站點(diǎn)服務(wù)器處抓取網(wǎng)頁。爬蟲系統(tǒng)從站點(diǎn)服務(wù)器處抓取網(wǎng)頁可以具體采用以下三種方法1)從站點(diǎn)服務(wù)器處直接下載網(wǎng)頁,針對(duì)沒有防抓取策略的站點(diǎn)可以采用這種方法。2)通過瀏覽器渲染方法從站點(diǎn)服務(wù)器處下載網(wǎng)頁;由于有些站點(diǎn)使用了 ajax (Asynchronous JavaScript and XML,異步JavaScript和可擴(kuò)展標(biāo)記語言)技術(shù),需要利用瀏覽器渲染的方法得到完整的頁面結(jié)構(gòu)。爬蟲系統(tǒng)配備了幾種內(nèi)核的渲染模塊,例如IE內(nèi)核、Gecko (火狐)內(nèi)核、Chrome內(nèi)核等。3)為了防止爬蟲系統(tǒng)頻繁訪問某個(gè)站點(diǎn)服務(wù)器導(dǎo)致被該站點(diǎn)服務(wù)器封IP的情況,爬蟲系統(tǒng)可以通過代理服務(wù)器從站點(diǎn)服務(wù)器處下載網(wǎng)頁,采用代理服務(wù)器下載網(wǎng)頁可以確保抓取的及時(shí)性和不間斷性。以上三種方法基本可以解決各種類型的站點(diǎn)的抓取問題。隨后,方法100進(jìn)入步驟S102,步驟S102為頁面信息解析步驟,具體為根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則,從網(wǎng)頁的指定位置抽取指定頁面信息。爬蟲系統(tǒng)分析每個(gè)網(wǎng)頁的頁面結(jié)構(gòu),根據(jù)頁面抽取規(guī)則抽取指定頁面信息。其中頁面抽取規(guī)則是定制的,可由人工配置??蛇x地,頁面抽取規(guī)則設(shè)定了指定位置的前后的HTML標(biāo)簽。由于頁面中的有效信息都在HTML標(biāo)簽中,指定位置一般也都是HTML標(biāo)簽,指定位置是由其前后的HTML標(biāo)簽所界定,該指定位置的HTML標(biāo)簽就是要抽取的指定頁面信息。例如,對(duì)于來自某個(gè)站點(diǎn)服務(wù)器的網(wǎng)頁,如果想要抽取該網(wǎng)頁中的“游戲名稱”字段,那么所定制的頁面抽取規(guī)則應(yīng)包括該字段前后的HTML標(biāo)簽<div>。爬蟲系統(tǒng)分析該網(wǎng)頁時(shí),從中抽取出兩個(gè)HTML標(biāo)簽<div>之間的信息,即“游戲名稱”。對(duì)于下載文件(例如軟件包)鏈接網(wǎng)頁,從中抽取的指定頁面信息通常包括下載文件鏈接,可選的,還包括該網(wǎng)頁的父頁面鏈接,將這些鏈接信息抽取出來以供后續(xù)根據(jù)該鏈接信息下載相應(yīng)的下載文件。父頁面鏈接用于溯源,在下載相應(yīng)的下載文件的同時(shí)還能夠查到該下載文件的來源,包括父頁面或站點(diǎn)等等,便于后續(xù)對(duì)數(shù)據(jù)的維護(hù)以及提供相應(yīng)的查詢功能。進(jìn)一步的,爬蟲系統(tǒng)從站點(diǎn)服務(wù)器處抓取網(wǎng)頁可以采用兩種方式全量爬取方式和增量爬取方式。采用全量爬取方式還是增量爬取方式是根據(jù)需求而定的。例如對(duì)于一個(gè)新的游戲站點(diǎn)服務(wù)器,會(huì)收錄很多新的游戲,這時(shí)需要將該站點(diǎn)服務(wù)器的網(wǎng)頁全部遍歷,即全量爬取,抓取所有游戲,后續(xù)再做統(tǒng)一處理(即頁面信息解析和存儲(chǔ)處理)。在該游戲站點(diǎn)服務(wù)器的游戲全部抓取完畢之后,該站點(diǎn)服務(wù)器每天還會(huì)更新游戲,這時(shí)需要采用增量爬取方式,抓取其每天更新的游戲。針對(duì)全量爬取方式的站點(diǎn)服務(wù)器進(jìn)行一次性任務(wù)投遞,即一次性的抓取來自該站點(diǎn)服務(wù)器的網(wǎng)頁。首先通知任務(wù)調(diào)度器所要抓取的站點(diǎn)服務(wù)器的名稱,任務(wù)調(diào)度器會(huì)自行查詢?cè)撜军c(diǎn)服務(wù)器的抓取規(guī)則,然后即可完成全量爬取。任務(wù)調(diào)度器將抓取任務(wù)投遞給具體工作進(jìn)程,所執(zhí)行的抓取任務(wù)可以包括首先,從站點(diǎn)服務(wù)器處抓取初始網(wǎng)頁。解析該初始網(wǎng)頁,獲取初始網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址。根據(jù)新的網(wǎng)頁的網(wǎng)址從站點(diǎn)服務(wù)器處抓取該新的網(wǎng)頁。通常一個(gè)站點(diǎn)服務(wù)器從初始頁面開始遞歸,會(huì)有十多層甚至更多,任務(wù)調(diào)度器從初始頁面開始抓取,根據(jù)網(wǎng)頁中的鏈接遞歸抓取更深層的網(wǎng)頁,即接著執(zhí)行全量遞歸子步驟,具體為解析新的網(wǎng)頁,再獲取新的網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址,從站點(diǎn)服務(wù)器處抓取再獲取的新的網(wǎng)頁;重復(fù)執(zhí)行該全量遞歸子步驟,直至滿足停止抓取條件。通常而言,爬蟲系統(tǒng)一般需要抓取前幾層的網(wǎng)頁即可滿足需求,所以爬蟲系統(tǒng)可以設(shè)置單個(gè)站點(diǎn)服務(wù)器的遞歸層數(shù),遞歸抓取到該站點(diǎn)服務(wù)器的設(shè)定遞歸層數(shù)就滿足停止抓取條件。在全量爬取到來自某站點(diǎn)服務(wù)器的網(wǎng)頁后,對(duì)這些網(wǎng)頁做統(tǒng)一處理,包括根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則,從上述抓取的初始網(wǎng)頁和所有新的網(wǎng)頁的指定位置抽取指定頁面信息。針對(duì)增量爬取方式的站點(diǎn)服務(wù)器進(jìn)行周期性任務(wù)調(diào)度,即按照爬蟲系統(tǒng)為站點(diǎn)服務(wù)器設(shè)定的調(diào)度周期抓取來自該站點(diǎn)服務(wù)器的網(wǎng)頁。爬蟲系統(tǒng)為每個(gè)站點(diǎn)服務(wù)器設(shè)定的調(diào)度周期可以不同,有的是I小時(shí),有的是3小時(shí),視站點(diǎn)服務(wù)器的更新速度而定。爬蟲系統(tǒng)將需要增量爬取的站點(diǎn)服務(wù)器按照調(diào)度周期排序形成調(diào)度隊(duì)列,每隔預(yù)設(shè)時(shí)間(例如10分鐘)對(duì)該調(diào)度隊(duì)列進(jìn)行檢測(cè),調(diào)度時(shí)間大于當(dāng)前時(shí)間的站點(diǎn)服務(wù)器視為待抓取的站點(diǎn)服務(wù)器。隨后任務(wù)調(diào)度器將抓取任務(wù)投遞給具體工作進(jìn)程。在具體的工作進(jìn)程中,所執(zhí)行的步驟可以包括首先,從站點(diǎn)服務(wù)器處抓取初始網(wǎng)頁。根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則,從初始網(wǎng)頁的指定位置抽取指定頁面信息。解析初始網(wǎng)頁,獲取初始網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址。根據(jù)新的網(wǎng)頁的網(wǎng)址,從站點(diǎn)服務(wù)器處抓取新的網(wǎng)頁。根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則,從新的網(wǎng)頁的指定位置抽取指定頁面信息。增量遞歸子步驟,解析新的網(wǎng)頁,再獲取新的網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址;從站點(diǎn)服務(wù)器處抓取再獲取的新的網(wǎng)頁;根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則,從再獲取的新的網(wǎng)頁的指定位置抽取指定頁面信息;重復(fù)執(zhí)行該增量遞歸子步驟,直至滿足停止抓取條件。爬蟲系統(tǒng)可以設(shè)置單個(gè)站點(diǎn)服務(wù)器的遞歸層數(shù),遞歸抓取到該站點(diǎn)服務(wù)器的設(shè)定遞歸層數(shù)就滿足停止抓取條件。與全量爬取方式不同之處主要在于,增量爬取方式是邊抓取網(wǎng)頁邊進(jìn)行解析;而且,增量遞歸子步驟是當(dāng)爬蟲系統(tǒng)為站點(diǎn)服務(wù)器設(shè)定的調(diào)度周期規(guī)定的時(shí)間到達(dá)時(shí)而執(zhí)行的。可選地,本方法中,任務(wù)調(diào)度器將抓取任務(wù)通過gearman傳遞給下游的工作進(jìn)程處理。本方法使用gearman作為進(jìn)程間消息隊(duì)列,通過gearman進(jìn)行進(jìn)程通訊來實(shí)現(xiàn)平行擴(kuò)展和高并發(fā)的處理。上述以時(shí)間為調(diào)度單位的網(wǎng)頁都以有序集合的方式存放在redis中,通過調(diào)用redis接口實(shí)現(xiàn)精確調(diào)度網(wǎng)頁監(jiān)控任務(wù)。redis是一個(gè)key-value類型的內(nèi)存數(shù)據(jù)庫,整個(gè)數(shù)據(jù)庫統(tǒng)統(tǒng)加載在內(nèi)存當(dāng)中進(jìn)行操作,定期通過異步操作把數(shù)據(jù)庫數(shù)據(jù)輸出(flush)到硬盤上進(jìn)行保存。因?yàn)槭羌儍?nèi)存操作,redis的性能非常出色,每秒可以處理超過10萬次讀寫操作,從而提高了爬蟲系統(tǒng)的性能。
在步驟S102之后,方法100進(jìn)入步驟S103的存儲(chǔ)步驟,具體為將指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。所謂結(jié)構(gòu)化存儲(chǔ)是指存儲(chǔ)指定頁面信息并對(duì)指定頁面信息進(jìn)行結(jié)構(gòu)化描述,例如對(duì)“游戲名稱”信息的結(jié)構(gòu)化描述就是游戲名稱,對(duì)“下載文件鏈接”信息的結(jié)構(gòu)化描述就是下載文件鏈接??蛇x地,可以使用XML (extensible markup language,可擴(kuò)展標(biāo)記語言)進(jìn)行結(jié)構(gòu)化存儲(chǔ),即將各項(xiàng)指定頁面信息存儲(chǔ)至XML節(jié)點(diǎn)中,這樣便于后續(xù)模塊的處理,同時(shí)也簡化了系統(tǒng)結(jié)構(gòu)。通過進(jìn)行結(jié)構(gòu)化存儲(chǔ),使用者可以精確地獲知爬蟲系統(tǒng)所爬取到的信息??蛇x地,在步驟S103之后,方法100進(jìn)入步驟S104,其中根據(jù)指定頁面信息,從站點(diǎn)服務(wù)器處下載網(wǎng)頁的相關(guān)資源,進(jìn)一步存儲(chǔ)網(wǎng)頁的相關(guān)資源以及網(wǎng)頁的相關(guān)資源與指定頁面信息的對(duì)應(yīng)關(guān)系。以指定頁面信息為軟件包鏈接為例,根據(jù)軟件包鏈接可從站點(diǎn)服務(wù)器處下載該軟件包,進(jìn)一步存儲(chǔ)該軟件包以及軟件包與軟件包鏈接的對(duì)應(yīng)關(guān)系。通過該方法,爬蟲系統(tǒng)可以爬取網(wǎng)頁上能看到的任何信息以及下載文件,例如軟件包以及軟件包的相關(guān)信息,如軟件名稱、更新時(shí)間、軟件大小、軟件作者、使用平臺(tái)和軟件描述等,還可以爬取門戶站點(diǎn)的新聞、圖片等資源??蛇x地,根據(jù)事先定制的策略,爬蟲系統(tǒng)還可以對(duì)抓取的信息和下載的資源做相應(yīng)處理,如發(fā)郵件、推送分布式存儲(chǔ)等。對(duì)于一些只要下載網(wǎng)頁內(nèi)容的站點(diǎn)服務(wù)器,例如門戶、新聞?wù)军c(diǎn)等,只需要抓取所需信息,將抓取的信息推送到指定接口,再郵件通知特定人員。對(duì)于一些軟件包站點(diǎn)服務(wù)器,需要獲得軟件包及其相關(guān)信息,在抓取到必要的信息后,再進(jìn)行后續(xù)的下載和解包,通常軟件包很大,需要推送至分布式存儲(chǔ)。根據(jù)本實(shí)施例提供的網(wǎng)頁信息的獲取方法,在從站點(diǎn)服務(wù)器處抓取到網(wǎng)頁之后,并不是直接存儲(chǔ)整個(gè)網(wǎng)頁的信息,而是根據(jù)頁面抽取規(guī)則從網(wǎng)頁的指定位置抽取指定頁面信息,將該指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。其中頁面抽取規(guī)則可根據(jù)用戶的需求而定制,通過對(duì)網(wǎng)頁的信息做解析,滿足了定制化抽取網(wǎng)頁信息的需求。以爬取某游戲站點(diǎn)的網(wǎng)頁信息為例,通過該方法可以直接得到該游戲站點(diǎn)中所有游戲的下載鏈接,并且將這些下載鏈接進(jìn)行結(jié)構(gòu)化存儲(chǔ),使用者可以精確地獲知爬蟲系統(tǒng)所爬取到的信息。圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁信息的獲取裝置的結(jié)構(gòu)框圖。如圖2所示,該網(wǎng)頁信息獲取裝置200包括網(wǎng)頁抓取器210、頁面信息解析器220和動(dòng)作處理器230??蛇x地,網(wǎng)頁信息獲取裝置200還可以包括網(wǎng)頁鏈接解析器240、下載器250和任務(wù)調(diào)度器260。網(wǎng)頁抓取器210適于從站點(diǎn)服務(wù)器處抓取網(wǎng)頁??蛇x地,網(wǎng)頁抓取器210適于從站點(diǎn)服務(wù)器處直接下載網(wǎng)頁;或者,通過瀏覽器渲染方法從站點(diǎn)服務(wù)器處下載網(wǎng)頁;或者,通過代理服務(wù)器從站點(diǎn)服務(wù)器處下載網(wǎng)頁。網(wǎng)頁抓取器210包括初級(jí)網(wǎng)頁抓取器211和網(wǎng)頁遞歸抓取器212。初級(jí)網(wǎng)頁抓取器211適于從站點(diǎn)服務(wù)器處抓取初始網(wǎng)頁,網(wǎng)頁鏈接解析器240適于解析初始網(wǎng)頁,獲取初始網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址,網(wǎng)頁遞歸抓取器212適于從站點(diǎn)服務(wù)器處抓取新的網(wǎng)頁。網(wǎng)頁鏈接解析器240還適于解析新的網(wǎng)頁,再獲取新的網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址;網(wǎng)頁遞歸抓取器212還適于從站點(diǎn)服務(wù)器處抓取再獲取的新的網(wǎng)頁;網(wǎng)頁鏈接解析器240和網(wǎng)頁遞歸抓取器212重復(fù)工作,直至滿足停止抓取條件。頁面信息解析器220適于根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則,從網(wǎng)頁的指定位置抽取指定頁面信息??蛇x地,頁面抽取規(guī)則設(shè)定了指定位置的前后的HTML標(biāo)簽;頁面信息解析器220進(jìn)一步適于從網(wǎng)頁中抽取指定位置的前后的HTML標(biāo)簽之間的指定頁面信息。進(jìn)一步的,頁面信息解析器220適于根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則,從初始網(wǎng)頁和新的網(wǎng)頁的指定位置抽取指定頁面信息。動(dòng)作處理器230適于將指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。所謂結(jié)構(gòu)化存儲(chǔ)是指存儲(chǔ)指定頁面信息并對(duì)指定頁面信息進(jìn)行結(jié)構(gòu)化描述,通過進(jìn)行結(jié)構(gòu)化存儲(chǔ),使用者可以精確地獲知爬蟲系統(tǒng)所爬取到的信息。下載器250適于根據(jù)指定頁面信息,從站點(diǎn)服務(wù)器處下載網(wǎng)頁的相關(guān)資源。動(dòng)作處理器230進(jìn)一步適于存儲(chǔ)網(wǎng)頁的相關(guān)資源以及網(wǎng)頁的相關(guān)資源與指定頁面信息的對(duì)應(yīng)關(guān)系。任務(wù)調(diào)度器260適于根據(jù)分布式的調(diào)用方法(如gearman)將相應(yīng)的任務(wù)投遞給網(wǎng)頁抓取器210。任務(wù)調(diào)取器260和網(wǎng)頁抓取器210可以采用全量爬取方式或增量爬取方式進(jìn)行網(wǎng)頁的抓取,具體過程可參見方法實(shí)施例的描述。該網(wǎng)頁信息獲取裝置200還可以包括緩存數(shù)據(jù)庫,例如redis,適于以有序集合的方式存放以時(shí)間為調(diào)度單位的網(wǎng)頁,通過調(diào)用redis接口實(shí)現(xiàn)精確調(diào)度網(wǎng)頁監(jiān)控任務(wù)。圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁信息的獲取系統(tǒng)的結(jié)構(gòu)框圖。如圖3所示,該網(wǎng)頁信息的獲取系統(tǒng)包括網(wǎng)頁信息獲取裝置200和站點(diǎn)服務(wù)器100,網(wǎng)頁信息獲取裝置200的具體結(jié)構(gòu)可參見上述實(shí)施例的相關(guān)描述。網(wǎng)頁信息獲取裝置200從站點(diǎn)服務(wù)器100處犾取網(wǎng)頁和網(wǎng)頁的相關(guān)資源。根據(jù)本發(fā)明提供的網(wǎng)頁信息的獲取系統(tǒng),網(wǎng)頁信息的獲取系統(tǒng)在從站點(diǎn)服務(wù)器處抓取到網(wǎng)頁之后,并不是直接存儲(chǔ)整個(gè)網(wǎng)頁的信息,而是根據(jù)頁面抽取規(guī)則從網(wǎng)頁的指定位置抽取指定頁面信息,將該指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。其中頁面抽取規(guī)則可根據(jù)用戶的需求而定制,通過對(duì)網(wǎng)頁的信息做解析,滿足了定制化抽取網(wǎng)頁信息的需求。以爬取某游戲站點(diǎn)的網(wǎng)頁信息為例,通過該裝置可以直接得到該游戲站點(diǎn)中所有游戲的下載鏈接,并且將這些下載鏈接進(jìn)行結(jié)構(gòu)化存儲(chǔ),使用者可以精確地獲知爬蟲系統(tǒng)所爬取到的信息。在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式
的權(quán)利要求書由此明確地并入該具體實(shí)施方式
,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁信息的獲取系統(tǒng)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
權(quán)利要求
1.一種網(wǎng)頁信息的獲取系統(tǒng),包括網(wǎng)頁信息的獲取裝置及站點(diǎn)服務(wù)器,其中,所述網(wǎng)頁信息的獲取裝置包括網(wǎng)頁抓取器,適于從站點(diǎn)服務(wù)器處抓取網(wǎng)頁;頁面信息解析器,適于根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則,從所述網(wǎng)頁的指定位置抽取指定頁面信息;動(dòng)作處理器,適于將所述指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。
2.根據(jù)權(quán)利要求I所述的系統(tǒng),所述頁面抽取規(guī)則設(shè)定了所述指定位置的前后的HTML 標(biāo)簽;所述頁面信息解析器進(jìn)一步適于從所述網(wǎng)頁中抽取所述指定位置的前后的HTML標(biāo)簽之間的指定頁面信息。
3.根據(jù)權(quán)利要求I或2所述的系統(tǒng),其中,所述網(wǎng)頁信息的獲取裝置還包括網(wǎng)頁鏈接解析器;所述網(wǎng)頁抓取器包括初級(jí)網(wǎng)頁抓取器和網(wǎng)頁遞歸抓取器;所述初級(jí)網(wǎng)頁抓取器適于從站點(diǎn)服務(wù)器處抓取初始網(wǎng)頁,所述網(wǎng)頁鏈接解析器適于解析所述初始網(wǎng)頁,獲取所述初始網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址;所述網(wǎng)頁遞歸抓取器適于從站點(diǎn)服務(wù)器處抓取所述新的網(wǎng)頁;所述網(wǎng)頁鏈接解析器還適于解析所述新的網(wǎng)頁,再獲取所述新的網(wǎng)頁鏈接的新的網(wǎng)頁的網(wǎng)址;所述網(wǎng)頁遞歸抓取器還適于從站點(diǎn)服務(wù)器處抓取再獲取的新的網(wǎng)頁;所述網(wǎng)頁鏈接解析器和所述網(wǎng)頁遞歸抓取器重復(fù)工作,直至滿足停止抓取條件。
4.根據(jù)權(quán)利要求3所述的系統(tǒng),所述頁面信息解析器具體適于根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則,從所述初始網(wǎng)頁和所述新的網(wǎng)頁的指定位置抽取指定頁面信息。
5.根據(jù)權(quán)利要求I至4任一項(xiàng)所述的系統(tǒng),所述網(wǎng)頁抓取器進(jìn)一步適于從站點(diǎn)服務(wù)器處直接下載網(wǎng)頁;或者,通過瀏覽器渲染方法從站點(diǎn)服務(wù)器處下載網(wǎng)頁;或者,通過代理服務(wù)器從站點(diǎn)服務(wù)器處下載網(wǎng)頁。
6.根據(jù)權(quán)利要求I至4任一項(xiàng)所述的系統(tǒng),其中,所述網(wǎng)頁信息的獲取裝置還包括下載器,適于根據(jù)所述指定頁面信息,從所述站點(diǎn)服務(wù)器處下載所述網(wǎng)頁的相關(guān)資源;所述動(dòng)作處理器進(jìn)一步適于存儲(chǔ)所述網(wǎng)頁的相關(guān)資源以及所述網(wǎng)頁的相關(guān)資源與所述指定頁面信息的對(duì)應(yīng)關(guān)系。
7.根據(jù)權(quán)利要求I至4任一項(xiàng)所述的系統(tǒng),其中,所述網(wǎng)頁信息的獲取裝置還包括任務(wù)調(diào)度器;所述任務(wù)調(diào)度器適于根據(jù)分布式的調(diào)用方法將相應(yīng)的任務(wù)投遞給所述網(wǎng)頁抓取器。全文摘要
本發(fā)明公開了一種網(wǎng)頁信息的獲取系統(tǒng),其包括網(wǎng)頁信息的獲取裝置及站點(diǎn)服務(wù)器,其中,所述網(wǎng)頁信息的獲取裝置包括網(wǎng)頁抓取器,適于從站點(diǎn)服務(wù)器處抓取網(wǎng)頁;頁面信息解析器,適于根據(jù)預(yù)先設(shè)定的頁面抽取規(guī)則,從所述網(wǎng)頁的指定位置抽取指定頁面信息;動(dòng)作處理器,適于將所述指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。根據(jù)本發(fā)明提供的網(wǎng)頁信息的獲取系統(tǒng),在從站點(diǎn)服務(wù)器處抓取到網(wǎng)頁之后,并不是直接存儲(chǔ)整個(gè)網(wǎng)頁的信息,而是根據(jù)頁面抽取規(guī)則從網(wǎng)頁的指定位置抽取指定頁面信息,將該指定頁面信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。其中頁面抽取規(guī)則可根據(jù)用戶的需求而定制,通過對(duì)網(wǎng)頁的信息做解析,滿足了定制化抽取網(wǎng)頁信息的需求。
文檔編號(hào)G06F17/30GK102982162SQ20121051824
公開日2013年3月20日 申請(qǐng)日期2012年12月5日 優(yōu)先權(quán)日2012年12月5日
發(fā)明者徐銳波, 路軼 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1