本申請(qǐng)涉及計(jì)算機(jī)應(yīng)用領(lǐng)域,特別是涉及實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的方法和裝置。
背景技術(shù):
網(wǎng)絡(luò)爬蟲,又被稱為網(wǎng)頁(yè)蜘蛛或網(wǎng)絡(luò)機(jī)器人,是一種按照既定規(guī)則自動(dòng)抓取萬(wàn)維網(wǎng)網(wǎng)頁(yè)的信息的程序或腳本。對(duì)于網(wǎng)絡(luò)爬蟲來說,其核心目標(biāo)就是快速、準(zhǔn)確地抓取源網(wǎng)頁(yè)中的各類信息。在實(shí)際運(yùn)行過程中,由于網(wǎng)絡(luò)爬蟲每一次抓取行為都是模擬用戶的真實(shí)訪問請(qǐng)求,因而網(wǎng)絡(luò)爬蟲的抓取行為會(huì)對(duì)源網(wǎng)頁(yè)所在的服務(wù)器產(chǎn)生訪問壓力。如果抓取頻率過高,就有可能導(dǎo)致相應(yīng)的服務(wù)器的響應(yīng)時(shí)間過長(zhǎng),甚至于內(nèi)部出現(xiàn)錯(cuò)誤,最終使抓取成功率降低。
因此,在現(xiàn)有技術(shù)中,當(dāng)批量抓取網(wǎng)頁(yè)時(shí),為了避免對(duì)服務(wù)器造成過大的訪問壓力,在每一次抓取完畢后,會(huì)為網(wǎng)絡(luò)爬蟲設(shè)置一個(gè)休眠時(shí)間,而在該段休眠時(shí)間內(nèi),網(wǎng)絡(luò)爬蟲不抓取網(wǎng)頁(yè)。這樣,通過休眠時(shí)間,可以控制網(wǎng)絡(luò)爬蟲的抓取頻率。
在實(shí)現(xiàn)本申請(qǐng)的過程中,本申請(qǐng)的發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:無論抓取哪個(gè)網(wǎng)站的網(wǎng)頁(yè),為網(wǎng)絡(luò)爬蟲設(shè)置的休眠時(shí)間都是一個(gè)通用、固定的數(shù)值,但是,不同的網(wǎng)站,甚至相同網(wǎng)站中的不同產(chǎn)品,其對(duì)外提供的訪問能力都是不同的。如果采用一個(gè)通用、固定的休眠時(shí)間,對(duì)于不同的網(wǎng)站,或者相同網(wǎng)站的不同產(chǎn)品來說,就會(huì)產(chǎn)生抓取頻率過高或過低的問題。如果抓取頻率過高,會(huì)使影響網(wǎng)絡(luò)爬蟲的抓取成功率;而如果抓取頻率過低,也會(huì)影響網(wǎng)絡(luò)爬蟲的抓取效率。
技術(shù)實(shí)現(xiàn)要素:
為了解決上述技術(shù)問題,本申請(qǐng)實(shí)施例提供了實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的方法和裝置,以解決現(xiàn)有技術(shù)中由于休眠時(shí)間被設(shè)置為一個(gè)通用、固定的數(shù) 值而導(dǎo)致網(wǎng)絡(luò)爬蟲在抓取不同網(wǎng)站中的網(wǎng)頁(yè)或者抓取相同網(wǎng)站中的不同產(chǎn)品的網(wǎng)頁(yè)時(shí)抓取成功率和抓取效率無法同時(shí)得到有效保障的問題。
本申請(qǐng)實(shí)施例公開了如下技術(shù)方案:
一種實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的方法,預(yù)先將屬于不同網(wǎng)站的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇中,和/或?qū)儆谙嗤W(wǎng)站中的不同產(chǎn)品的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇中;所述方法包括:
對(duì)于任意一個(gè)網(wǎng)頁(yè)簇,統(tǒng)計(jì)當(dāng)所述網(wǎng)頁(yè)簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;
在所述最小置信區(qū)間的范圍內(nèi)配置所述網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間;
將配置的休眠時(shí)間通知給網(wǎng)絡(luò)爬蟲,以便網(wǎng)絡(luò)爬蟲按照配置的休眠時(shí)間抓取所述網(wǎng)頁(yè)簇中的網(wǎng)頁(yè)。
優(yōu)選的,所述方法還包括:
將各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的最小置信區(qū)間保存在數(shù)據(jù)庫(kù)中。
優(yōu)選的,所述對(duì)于任意一個(gè)網(wǎng)頁(yè)簇,統(tǒng)計(jì)當(dāng)所述網(wǎng)頁(yè)簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,包括:
對(duì)于任意一個(gè)網(wǎng)頁(yè)簇,從所述網(wǎng)頁(yè)簇中選取預(yù)設(shè)數(shù)量的樣本網(wǎng)頁(yè);
統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;
根據(jù)所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,采用矩估計(jì)法估計(jì)所述網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
優(yōu)選的,所述統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,包括:
從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到當(dāng)網(wǎng)頁(yè)的抓取成功率第一次從達(dá)不到預(yù)設(shè)的置信水平轉(zhuǎn)變?yōu)檫_(dá)到預(yù)設(shè)的置信水平時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值;
根據(jù)所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所 述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
優(yōu)選的,所述統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,包括:
從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到滿足預(yù)設(shè)的停止條件時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值;
根據(jù)所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
優(yōu)選的,所述預(yù)設(shè)的停止條件包括當(dāng)前的休眠時(shí)間的有效位數(shù)達(dá)到預(yù)設(shè)位數(shù)、測(cè)試時(shí)間達(dá)到預(yù)設(shè)時(shí)間和測(cè)試次數(shù)達(dá)到預(yù)設(shè)次數(shù)中的至少一個(gè);并且,當(dāng)包括至少兩個(gè)條件時(shí),所述至少兩個(gè)條件中的任意一個(gè)條件先滿足即停止測(cè)試。
一種實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的裝置,預(yù)先將屬于不同網(wǎng)站的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇中,和/或?qū)儆谙嗤W(wǎng)站中的不同產(chǎn)品的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇中;所述裝置包括:
統(tǒng)計(jì)單元,用于對(duì)于任意一個(gè)網(wǎng)頁(yè)簇,統(tǒng)計(jì)當(dāng)所述網(wǎng)頁(yè)簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;
配置單元,用于在所述最小置信區(qū)間的范圍內(nèi)配置所述網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間;
通知單元,用于將配置的休眠時(shí)間通知給網(wǎng)絡(luò)爬蟲,以便網(wǎng)絡(luò)爬蟲按照配置的休眠時(shí)間抓取所述網(wǎng)頁(yè)簇中的網(wǎng)頁(yè)。
優(yōu)選的,所述裝置還包括:
保存單元,用于將各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間保存在數(shù)據(jù)庫(kù)中。
優(yōu)選的,所述統(tǒng)計(jì)單元包括:
樣本選取子單元,用于針對(duì)各個(gè)網(wǎng)頁(yè)簇,從所述網(wǎng)頁(yè)簇中選取預(yù)設(shè)數(shù)量的樣本網(wǎng)頁(yè);
樣本統(tǒng)計(jì)子單元,用于統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置 信水平時(shí),所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;
估計(jì)子單元,用于根據(jù)所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,采用矩估計(jì)法估計(jì)所述網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
優(yōu)選的,所述樣本統(tǒng)計(jì)子單元包括:
第一測(cè)試子單元,用于從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到當(dāng)網(wǎng)頁(yè)的抓取成功率第一次從達(dá)不到預(yù)設(shè)的置信水平轉(zhuǎn)變?yōu)檫_(dá)到預(yù)設(shè)的置信水平時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值;
計(jì)算子單元,用于根據(jù)所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
優(yōu)選的,所述樣本統(tǒng)計(jì)子單元包括:
第二測(cè)試子單元,用于從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到滿足預(yù)設(shè)的停止條件時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值;
計(jì)算子單元,用于根據(jù)所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
優(yōu)選的,所述預(yù)設(shè)的停止條件包括當(dāng)前的休眠時(shí)間的有效位數(shù)達(dá)到預(yù)設(shè)位數(shù)、測(cè)試時(shí)間達(dá)到預(yù)設(shè)時(shí)間和測(cè)試次數(shù)達(dá)到預(yù)設(shè)次數(shù)中的至少一個(gè);并且,當(dāng)包括至少兩個(gè)條件時(shí),所述至少兩個(gè)條件中的任意一個(gè)條件先滿足即停止測(cè)試。
由上述實(shí)施例可以看出,與現(xiàn)有技術(shù)相比,本申請(qǐng)的優(yōu)點(diǎn)在于:
先將屬于不同網(wǎng)站的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇中,和/或?qū)儆谙嗤W(wǎng)站中的不同產(chǎn)品的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇,然后以網(wǎng)頁(yè)簇為單位,依次統(tǒng)計(jì)當(dāng)各個(gè)網(wǎng)頁(yè)簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,并在最小置信區(qū)間的范圍內(nèi)配置各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間。不僅為不同網(wǎng)站的網(wǎng)頁(yè)或者相同網(wǎng)站中的不同產(chǎn)品的網(wǎng)頁(yè)配置不同的休眠時(shí)間,同時(shí),只要在各自的最小置信區(qū)間的范圍內(nèi)配置各個(gè) 網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間,當(dāng)網(wǎng)絡(luò)爬蟲以該配置的休眠時(shí)間批量抓取該網(wǎng)頁(yè)簇時(shí),就可以既保證抓取成功率滿足用戶要求的置信水平,又保證抓取效率最高。
附圖說明
為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1示意性地示出了本申請(qǐng)的實(shí)施方式可以在其中實(shí)施的示例性應(yīng)用場(chǎng)景;
圖2示意性地示出了根據(jù)本申請(qǐng)實(shí)施例的一種實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的方法的流程圖;
圖3示意性地示出了根據(jù)本申請(qǐng)實(shí)施例的一種估計(jì)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間的方法的流程圖;
圖4示意性地示出了根據(jù)本申請(qǐng)實(shí)施例的一種采用二分法實(shí)現(xiàn)抓取測(cè)試的方法流程圖;
圖5示意性地示出了根據(jù)本申請(qǐng)實(shí)施例的另一種采用二分法實(shí)現(xiàn)抓取測(cè)試的方法流程圖;
圖6示意性地示出了根據(jù)本申請(qǐng)實(shí)施例的一種實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的裝置的結(jié)構(gòu)框圖;
圖7示意性地示出了根據(jù)本申請(qǐng)實(shí)施例的另一種實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的裝置的結(jié)構(gòu)框圖;
圖8示意性地示出了根據(jù)本申請(qǐng)實(shí)施例的一種統(tǒng)計(jì)單元的結(jié)構(gòu)框圖;
圖9示意性地示出了根據(jù)本申請(qǐng)實(shí)施例的一種樣本統(tǒng)計(jì)子單元的結(jié)構(gòu)框圖;
圖10示意性地示出了根據(jù)本申請(qǐng)實(shí)施例的另一種樣本統(tǒng)計(jì)子單元的結(jié)構(gòu)框圖。
具體實(shí)施方式
首先參考圖1,圖1示意性地示出了本申請(qǐng)的實(shí)施方式可以在其中實(shí)施的示例性應(yīng)用場(chǎng)景。其中,用戶10向配置文件生成服務(wù)器20發(fā)送需要批量抓取的網(wǎng)頁(yè)的URL簇11和各種預(yù)設(shè)的參數(shù)12(如,置信水平),配置文件生成服務(wù)器20根據(jù)URL簇11和各種預(yù)設(shè)的參數(shù)12生成配置文件13,并將配置文件13發(fā)送給抓取控制服務(wù)器30,抓取控制服務(wù)器30從配置文件13中解析出URL簇11和各種預(yù)設(shè)的參數(shù)12,并根據(jù)各種預(yù)設(shè)的參數(shù)12確定URL簇11在抓取時(shí)的休眠時(shí)間的最小估置信間31,并將URL簇11在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間31保存在存儲(chǔ)服務(wù)器40中。當(dāng)產(chǎn)生對(duì)URL簇11的抓取任務(wù)時(shí),抓取控制服務(wù)器30從存儲(chǔ)服務(wù)器40中讀取URL簇11在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間31,在最小置信區(qū)間31的范圍內(nèi)隨機(jī)選取一個(gè)數(shù)值用來配置URL簇11在抓取時(shí)的休眠時(shí)間32,將配置的休眠時(shí)間通知給網(wǎng)頁(yè)抓取服務(wù)器集群50(即,網(wǎng)絡(luò)爬蟲),并由網(wǎng)頁(yè)抓取服務(wù)器集群50按照配置的休眠時(shí)間32批量抓取URL簇11,并在抓取過程中生成爬蟲日志。監(jiān)控服務(wù)器60對(duì)爬蟲日志進(jìn)行監(jiān)控,包括對(duì)批量抓取過程中各類異常進(jìn)行統(tǒng)計(jì),以校驗(yàn)在存儲(chǔ)服務(wù)器40中保存的URL簇11在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間31的準(zhǔn)確性。另外,還會(huì)監(jiān)測(cè)URL簇11所屬網(wǎng)站的服務(wù)器的可用性和響應(yīng)時(shí)間,以確認(rèn)該網(wǎng)站服務(wù)器是否正常。本領(lǐng)域技術(shù)人員可以理解,圖1所示的示意圖僅是本申請(qǐng)的實(shí)施方式可以在其中得以實(shí)現(xiàn)的一個(gè)示例。本申請(qǐng)實(shí)施方式的應(yīng)用范圍不受到該框架任何方面的限制。例如,配置文件生成服務(wù)器20和抓取控制服務(wù)器30可以合并為同一個(gè)服務(wù)器。
為使本申請(qǐng)的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖對(duì)本申請(qǐng)實(shí)施例進(jìn)行詳細(xì)描述。
方法實(shí)施例
請(qǐng)參閱圖2,圖2示意性地示出了根據(jù)本申請(qǐng)實(shí)施例的一種實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的方法的流程圖,例如,該方法可以由抓取控制服務(wù)30執(zhí)行,該方法可以包括以下步驟:
步驟201:對(duì)于任意一個(gè)網(wǎng)頁(yè)簇,統(tǒng)計(jì)當(dāng)所述網(wǎng)頁(yè)簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;其中,預(yù)先將屬于不同網(wǎng)站的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇中,和/或?qū)儆谙嗤W(wǎng)站中的不同產(chǎn)品的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇中。
步驟202:在所述最小置信區(qū)間的范圍內(nèi)配置所述網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間。
步驟203:將配置的休眠時(shí)間通知給網(wǎng)絡(luò)爬蟲,以便網(wǎng)絡(luò)爬蟲按照配置的休眠時(shí)間抓取所述網(wǎng)頁(yè)簇中的網(wǎng)頁(yè)。
由于不同的網(wǎng)站,甚至相同網(wǎng)站中的不同產(chǎn)品,其對(duì)外提供的訪問能力都是不同的,因此,在本申請(qǐng)中,根據(jù)網(wǎng)頁(yè)所屬網(wǎng)站的不同,將屬于不同網(wǎng)站的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇中,以使得不同網(wǎng)頁(yè)簇中的網(wǎng)頁(yè)屬于不同網(wǎng)站,同一個(gè)網(wǎng)頁(yè)簇中的網(wǎng)頁(yè)屬于相同網(wǎng)站?;蛘?,對(duì)于屬于相同網(wǎng)站的網(wǎng)頁(yè),根據(jù)網(wǎng)頁(yè)所屬產(chǎn)品的不同,將屬于相同網(wǎng)站中的不同產(chǎn)品的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇中,以使得不同網(wǎng)頁(yè)簇中的網(wǎng)頁(yè)屬于相同網(wǎng)站中的不同產(chǎn)品,同一個(gè)網(wǎng)頁(yè)簇中的網(wǎng)頁(yè)屬于相同網(wǎng)站中的相同產(chǎn)品。
這樣,在劃分出各個(gè)網(wǎng)頁(yè)簇后,就可以基于各個(gè)網(wǎng)頁(yè)簇,依次統(tǒng)計(jì)當(dāng)各個(gè)網(wǎng)頁(yè)簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。對(duì)于任意一個(gè)網(wǎng)頁(yè)簇,只要在其最小置信區(qū)間的范圍內(nèi)配置該網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間,當(dāng)網(wǎng)絡(luò)爬蟲以該配置的休眠時(shí)間批量抓取該網(wǎng)頁(yè)簇時(shí),就可以在保證抓取成功率滿足用戶要求的置信水平的同時(shí),還可以保證抓取效率最高。
其中,在統(tǒng)計(jì)學(xué)中,“置信區(qū)間”展示的是某一個(gè)總體參數(shù)值以一定概率落在樣本統(tǒng)計(jì)值的周圍的程度,“一定概率”即為置信水平。
例如,假設(shè)在某一個(gè)網(wǎng)頁(yè)簇中包含有300個(gè)網(wǎng)頁(yè)(當(dāng)然,實(shí)際情況的網(wǎng)頁(yè)數(shù)量級(jí)會(huì)更大),預(yù)設(shè)的置信水平為0.9,當(dāng)休眠時(shí)間在其最小置信區(qū)間的范圍內(nèi)隨機(jī)選取時(shí),300個(gè)網(wǎng)頁(yè)中有300×0.9=270個(gè)以上的網(wǎng)頁(yè)可以被成功抓取。
需要說明的是,在本申請(qǐng)的技術(shù)方案中,置信水平的具體數(shù)值可以由用戶根據(jù)各自對(duì)抓取成功率的需求進(jìn)行自由設(shè)定。例如,用戶先根據(jù)自己的需 求設(shè)置好置信水平,然后再發(fā)送給配置文件生成服務(wù)器20,用于生成配置文件。
在本申請(qǐng)的一個(gè)優(yōu)選實(shí)施方式中,先采用樣本統(tǒng)計(jì)的方法統(tǒng)計(jì)出網(wǎng)頁(yè)簇中的樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,并且,為了減小樣本統(tǒng)計(jì)值與總體參數(shù)值之間的誤差,再利用矩估計(jì)法估計(jì)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。如圖3所示,上述步驟201具體可以包括:
步驟2011:對(duì)于任意一個(gè)網(wǎng)頁(yè)簇,從所述網(wǎng)頁(yè)簇中選取預(yù)設(shè)數(shù)量的樣本網(wǎng)頁(yè)。
步驟2012:統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
步驟2013:根據(jù)所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,采用矩估計(jì)法估計(jì)所述網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
其中,樣本網(wǎng)頁(yè)的數(shù)量可以由用戶預(yù)先設(shè)定,例如,用戶先設(shè)置好樣本網(wǎng)頁(yè)的數(shù)量,然后再發(fā)送給配置文件生成服務(wù)器20,用于生成配置文件。如果用戶沒有設(shè)定,也可以采用系統(tǒng)默認(rèn)值。
“矩估計(jì)法”就是利用樣本矩來估計(jì)總體中的相應(yīng)參數(shù)的方法。例如,最簡(jiǎn)單的矩估計(jì)法就是用樣本的一階原點(diǎn)矩估計(jì)總體的期望值,用樣本的二階中心矩估計(jì)總體的方差。
需要說明的是,在本申請(qǐng)中,除了圖3所示的實(shí)現(xiàn)方式,還可以先統(tǒng)計(jì)出當(dāng)樣本網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小均值,再根據(jù)樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小均值,采用矩估計(jì)法估計(jì)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小均值,最后根據(jù)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小均值和預(yù)設(shè)的樣本誤差計(jì)算網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
例如,網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小均值是E,預(yù)設(shè)的樣本誤差為X﹪,網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間即為[E×(1-X﹪),E×(1+X﹪)]。
其中,需要說明的是,樣本誤差是由用戶預(yù)先設(shè)定的,例如,用戶先設(shè)置好樣本誤差,然后再發(fā)送給配置文件生成服務(wù)器20,用于生成配置文件。 如果用戶沒有預(yù)先設(shè)定,也可以采用系統(tǒng)默認(rèn)值。
一般情況下,100個(gè)樣本的樣本誤差為±10﹪,500個(gè)樣本的樣本誤差為±5﹪,1000個(gè)樣本的樣本誤差為±2﹪。
在本申請(qǐng)的另一個(gè)優(yōu)選實(shí)施方式中,提供了一種統(tǒng)計(jì)樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間的方法。其中包括:先從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到當(dāng)網(wǎng)頁(yè)的抓取成功率第一次從達(dá)不到預(yù)設(shè)的置信水平轉(zhuǎn)變?yōu)檫_(dá)到預(yù)設(shè)的置信水平時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值;再根據(jù)所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
例如,如圖4所示,具體的實(shí)現(xiàn)測(cè)試流程如下:
步驟401:將用戶預(yù)設(shè)的休眠時(shí)間作為當(dāng)前的休眠時(shí)間;
步驟402:按照當(dāng)前的休眠時(shí)間對(duì)樣本網(wǎng)頁(yè)進(jìn)行批量抓取測(cè)試;
步驟403:判斷樣本網(wǎng)頁(yè)的抓取成功率是否滿足預(yù)設(shè)的置信水平,如果是,進(jìn)入步驟404,否則,進(jìn)入步驟405;
步驟404:計(jì)算上一次抓取時(shí)的休眠時(shí)間的二分之一,并作為當(dāng)前的休眠時(shí)間,返回步驟402;
步驟405:計(jì)算上一次抓取時(shí)的休眠時(shí)間的二分之三,并作為當(dāng)前的休眠時(shí)間;
步驟406:按照當(dāng)前的休眠時(shí)間對(duì)樣本網(wǎng)頁(yè)進(jìn)行批量抓取測(cè)試;
步驟407:判斷樣本網(wǎng)頁(yè)的抓取成功率是否滿足預(yù)設(shè)的置信水平,如果否,返回步驟405,如果是,進(jìn)入步驟408;
步驟408:停止抓取測(cè)試,將最后一次抓取測(cè)試時(shí)的休眠時(shí)間作為網(wǎng)頁(yè)樣本在抓取時(shí)的休眠時(shí)間的均值;
步驟409:根據(jù)樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
另外,在本申請(qǐng)的另一個(gè)優(yōu)選實(shí)施方式中,還提供了另一種提供了一種統(tǒng)計(jì)樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間的方法。其中包括:從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到滿足預(yù)設(shè)的停止條件時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值;根據(jù)所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
所述預(yù)設(shè)的停止條件包括:當(dāng)前的休眠時(shí)間的有效位數(shù)達(dá)到預(yù)設(shè)位數(shù)、測(cè)試時(shí)間達(dá)到預(yù)設(shè)時(shí)間和測(cè)試次數(shù)達(dá)到預(yù)設(shè)次數(shù)中的至少一個(gè);并且,當(dāng)包括至少兩個(gè)條件時(shí),所述至少兩個(gè)條件中的任意一個(gè)條件先滿足即停止測(cè)試。
例如,以預(yù)設(shè)的停止條件為當(dāng)前的休眠時(shí)間的有效位數(shù)達(dá)到預(yù)設(shè)位數(shù)為例,如圖5所示,具體的實(shí)現(xiàn)測(cè)試流程如下:
步驟501:將用戶預(yù)設(shè)的休眠時(shí)間作為當(dāng)前的休眠時(shí)間;
步驟502:按照當(dāng)前的休眠時(shí)間對(duì)樣本網(wǎng)頁(yè)進(jìn)行批量抓取測(cè)試;
步驟503:判斷樣本網(wǎng)頁(yè)的抓取成功率是否滿足預(yù)設(shè)的置信水平,如果是,進(jìn)入步驟504,否則,進(jìn)入步驟506;
步驟504:判斷當(dāng)前的休眠時(shí)間的有效位數(shù)是否達(dá)到預(yù)設(shè)位數(shù),如果是,進(jìn)入步驟507,否則,進(jìn)入步驟505:
步驟505:計(jì)算上一次抓取時(shí)的休眠時(shí)間的二分之一,并作為當(dāng)前的休眠時(shí)間,返回步驟502;
步驟506:計(jì)算上一次抓取時(shí)的休眠時(shí)間的二分之三,并作為當(dāng)前的休眠時(shí)間,返回步驟502;
步驟507:停止抓取測(cè)試,將最后一次抓取測(cè)試時(shí)的休眠時(shí)間作為網(wǎng)頁(yè)樣本在抓取時(shí)的休眠時(shí)間的均值;
步驟508:根據(jù)樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
需要說明的是,當(dāng)預(yù)設(shè)的停止條件為測(cè)試時(shí)間達(dá)到預(yù)設(shè)時(shí)間或測(cè)試次數(shù)達(dá)到預(yù)設(shè)次數(shù)時(shí),在上述步驟504中可以判斷測(cè)試時(shí)間是否達(dá)到預(yù)設(shè)時(shí)間, 或者,判斷測(cè)試次數(shù)是否達(dá)到預(yù)設(shè)次數(shù)。當(dāng)然,當(dāng)預(yù)設(shè)的停止條件包括三個(gè)條件中的至少兩個(gè)條件時(shí),在上述步驟504中也可以同時(shí)對(duì)所有的停止條件進(jìn)行判斷,其中,只要任意一個(gè)條件滿足即可進(jìn)入步驟507,如果都不滿足,進(jìn)入步驟505。
在本申請(qǐng)的另一個(gè)優(yōu)選實(shí)施方式中,還可以將各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的最小置信區(qū)間保存在數(shù)據(jù)庫(kù)中,如,存儲(chǔ)服務(wù)器40中。以便于以后當(dāng)產(chǎn)生對(duì)某一個(gè)網(wǎng)頁(yè)簇的抓取任務(wù)時(shí),抓取控制服務(wù)器30可以從數(shù)據(jù)庫(kù)中讀取相應(yīng)的網(wǎng)頁(yè)簇在抓取時(shí)的最小置信區(qū)間,并從中隨機(jī)選取網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間。另外,也便于監(jiān)測(cè)服務(wù)器60對(duì)存儲(chǔ)服務(wù)器40中保存的各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間的準(zhǔn)確性進(jìn)行檢驗(yàn)。
由上述實(shí)施例可以看出,與現(xiàn)有技術(shù)相比,本申請(qǐng)的優(yōu)點(diǎn)在于:
先將屬于不同網(wǎng)站的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇中,和/或?qū)儆谙嗤W(wǎng)站中的不同產(chǎn)品的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇,然后以網(wǎng)頁(yè)簇為單位,依次統(tǒng)計(jì)當(dāng)各個(gè)網(wǎng)頁(yè)簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,并在最小置信區(qū)間的范圍內(nèi)配置各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間。不僅為不同網(wǎng)站的網(wǎng)頁(yè)或者相同網(wǎng)站中的不同產(chǎn)品的網(wǎng)頁(yè)配置不同的休眠時(shí)間,同時(shí),只要在各自的最小置信區(qū)間的范圍內(nèi)配置各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間,當(dāng)網(wǎng)絡(luò)爬蟲以該配置的休眠時(shí)間批量抓取該網(wǎng)頁(yè)簇時(shí),就可以既保證抓取成功率滿足用戶要求的置信水平,又保證抓取效率最高。
裝置實(shí)施例
與上述一種實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的方法相對(duì)應(yīng),本申請(qǐng)實(shí)施例還提供了一種實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的裝置。請(qǐng)參閱圖6,圖6示意性地示出了根據(jù)本申請(qǐng)實(shí)施例的一種實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的裝置的結(jié)構(gòu)框圖,該裝置包括:統(tǒng)計(jì)單元601、配置單元602和通知單元603。下面結(jié)合該裝置的工作原理進(jìn)一步介紹其內(nèi)部結(jié)構(gòu)以及連接關(guān)系。
統(tǒng)計(jì)單元601,用于對(duì)于任意一個(gè)網(wǎng)頁(yè)簇,統(tǒng)計(jì)當(dāng)所述網(wǎng)頁(yè)簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間; 其中,預(yù)先將屬于不同網(wǎng)站的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇中,和/或?qū)儆谙嗤W(wǎng)站中的不同產(chǎn)品的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇中。
配置單元602,用于在所述最小置信區(qū)間的范圍內(nèi)配置所述網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間。
通知單元603,用于將配置的休眠時(shí)間通知給網(wǎng)絡(luò)爬蟲,以便網(wǎng)絡(luò)爬蟲按照配置的休眠時(shí)間抓取所述網(wǎng)頁(yè)簇中的網(wǎng)頁(yè)。
在本申請(qǐng)的一個(gè)優(yōu)選實(shí)施方式中,如圖7所示,該裝置還包括:
保存單元604,用于將各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間保存在數(shù)據(jù)庫(kù)中。
在本申請(qǐng)的另一個(gè)優(yōu)選實(shí)施方式中,如圖8所示,統(tǒng)計(jì)單元601包括:
樣本選取子單元6011,用于針對(duì)各個(gè)網(wǎng)頁(yè)簇,從所述網(wǎng)頁(yè)簇中選取預(yù)設(shè)數(shù)量的樣本網(wǎng)頁(yè);
樣本統(tǒng)計(jì)子單元6012,用于統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;
估計(jì)子單元6013,用于根據(jù)所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,采用矩估計(jì)法估計(jì)所述網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
在本申請(qǐng)的另一個(gè)優(yōu)選實(shí)施方式中,如圖9所示,樣本統(tǒng)計(jì)子單元6011包括:
第一測(cè)試子單元6011-A1,用于從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到當(dāng)網(wǎng)頁(yè)的抓取成功率第一次從達(dá)不到預(yù)設(shè)的置信水平轉(zhuǎn)變?yōu)檫_(dá)到預(yù)設(shè)的置信水平時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值;
計(jì)算子單元6011-B,用于根據(jù)所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
或者,作為替換方案,如圖10所示,樣本統(tǒng)計(jì)子單元6011包括:
第二測(cè)試子單元6011-A2,用于從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到滿足預(yù)設(shè)的停止條件時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁(yè)的抓取成功率滿足預(yù)設(shè)的 置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值;
計(jì)算子單元6011-B,用于根據(jù)所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁(yè)在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
在本申請(qǐng)的另一個(gè)優(yōu)選實(shí)施方式中,所述預(yù)設(shè)的停止條件包括當(dāng)前的休眠時(shí)間的有效位數(shù)達(dá)到預(yù)設(shè)位數(shù)、測(cè)試時(shí)間達(dá)到預(yù)設(shè)時(shí)間和測(cè)試次數(shù)達(dá)到預(yù)設(shè)次數(shù)中的至少一個(gè);并且,當(dāng)包括至少兩個(gè)條件時(shí),所述至少兩個(gè)條件中的任意一個(gè)條件先滿足即停止測(cè)試。
由上述實(shí)施例可以看出,與現(xiàn)有技術(shù)相比,本申請(qǐng)的優(yōu)點(diǎn)在于:
先將屬于不同網(wǎng)站的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇中,和/或?qū)儆谙嗤W(wǎng)站中的不同產(chǎn)品的網(wǎng)頁(yè)劃分到不同的網(wǎng)頁(yè)簇,然后以網(wǎng)頁(yè)簇為單位,依次統(tǒng)計(jì)當(dāng)各個(gè)網(wǎng)頁(yè)簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,并在最小置信區(qū)間的范圍內(nèi)配置各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間。不僅為不同網(wǎng)站的網(wǎng)頁(yè)或者相同網(wǎng)站中的不同產(chǎn)品的網(wǎng)頁(yè)配置不同的休眠時(shí)間,同時(shí),只要在各自的最小置信區(qū)間的范圍內(nèi)配置各個(gè)網(wǎng)頁(yè)簇在抓取時(shí)的休眠時(shí)間,當(dāng)網(wǎng)絡(luò)爬蟲以該配置的休眠時(shí)間批量抓取該網(wǎng)頁(yè)簇時(shí),就可以既保證抓取成功率滿足用戶要求的置信水平,又保證抓取效率最高。
所述領(lǐng)域的技術(shù)人員可以清楚地了解到,為了描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng)、裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述到的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性、機(jī)械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以是物理上分開的,作為 單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),可以采用軟件功能單元的形式實(shí)現(xiàn)。
需要說明的是,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory,ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory,RAM)等。
以上對(duì)本申請(qǐng)所提供的實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的方法和裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體實(shí)施例對(duì)本申請(qǐng)的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本申請(qǐng)的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請(qǐng)的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本申請(qǐng)的限制。