1.一種實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的方法,其特征在于,預(yù)先將屬于不同網(wǎng)站的網(wǎng)頁劃分到不同的網(wǎng)頁簇中,和/或?qū)儆谙嗤W(wǎng)站中的不同產(chǎn)品的網(wǎng)頁劃分到不同的網(wǎng)頁簇中;所述方法包括:
對(duì)于任意一個(gè)網(wǎng)頁簇,統(tǒng)計(jì)當(dāng)所述網(wǎng)頁簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;
在所述最小置信區(qū)間的范圍內(nèi)配置所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間;
將配置的休眠時(shí)間通知給網(wǎng)絡(luò)爬蟲,以便網(wǎng)絡(luò)爬蟲按照配置的休眠時(shí)間抓取所述網(wǎng)頁簇中的網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
將各個(gè)網(wǎng)頁簇在抓取時(shí)的最小置信區(qū)間保存在數(shù)據(jù)庫中。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述對(duì)于任意一個(gè)網(wǎng)頁簇,統(tǒng)計(jì)當(dāng)所述網(wǎng)頁簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,包括:
對(duì)于任意一個(gè)網(wǎng)頁簇,從所述網(wǎng)頁簇中選取預(yù)設(shè)數(shù)量的樣本網(wǎng)頁;
統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;
根據(jù)所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,采用矩估計(jì)法估計(jì)所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,包括:
從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到當(dāng)網(wǎng)頁的抓取成功率第一次從達(dá)不到預(yù)設(shè)的置信水平轉(zhuǎn)變?yōu)檫_(dá)到預(yù)設(shè)的置信水平時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值;
根據(jù)所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁 的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,包括:
從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到滿足預(yù)設(shè)的停止條件時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值;
根據(jù)所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述預(yù)設(shè)的停止條件包括當(dāng)前的休眠時(shí)間的有效位數(shù)達(dá)到預(yù)設(shè)位數(shù)、測(cè)試時(shí)間達(dá)到預(yù)設(shè)時(shí)間和測(cè)試次數(shù)達(dá)到預(yù)設(shè)次數(shù)中的至少一個(gè);并且,當(dāng)包括至少兩個(gè)條件時(shí),所述至少兩個(gè)條件中的任意一個(gè)條件先滿足即停止測(cè)試。
7.一種實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的裝置,其特征在于,預(yù)先將屬于不同網(wǎng)站的網(wǎng)頁劃分到不同的網(wǎng)頁簇中,和/或?qū)儆谙嗤W(wǎng)站中的不同產(chǎn)品的網(wǎng)頁劃分到不同的網(wǎng)頁簇中;所述裝置包括:
統(tǒng)計(jì)單元,用于對(duì)于任意一個(gè)網(wǎng)頁簇,統(tǒng)計(jì)當(dāng)所述網(wǎng)頁簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;
配置單元,用于在所述最小置信區(qū)間的范圍內(nèi)配置所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間;
通知單元,用于將配置的休眠時(shí)間通知給網(wǎng)絡(luò)爬蟲,以便網(wǎng)絡(luò)爬蟲按照配置的休眠時(shí)間抓取所述網(wǎng)頁簇中的網(wǎng)頁。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括:
保存單元,用于將各個(gè)網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間保存在數(shù)據(jù)庫中。
9.根據(jù)權(quán)利要求7或8所述的裝置,其特征在于,所述統(tǒng)計(jì)單元包括:
樣本選取子單元,用于針對(duì)各個(gè)網(wǎng)頁簇,從所述網(wǎng)頁簇中選取預(yù)設(shè)數(shù)量的樣本網(wǎng)頁;
樣本統(tǒng)計(jì)子單元,用于統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;
估計(jì)子單元,用于根據(jù)所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,采用矩估計(jì)法估計(jì)所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述樣本統(tǒng)計(jì)子單元包括:
第一測(cè)試子單元,用于從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到當(dāng)網(wǎng)頁的抓取成功率第一次從達(dá)不到預(yù)設(shè)的置信水平轉(zhuǎn)變?yōu)檫_(dá)到預(yù)設(shè)的置信水平時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值;
計(jì)算子單元,用于根據(jù)所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述樣本統(tǒng)計(jì)子單元包括:
第二測(cè)試子單元,用于從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到滿足預(yù)設(shè)的停止條件時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值;
計(jì)算子單元,用于根據(jù)所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述預(yù)設(shè)的停止條件包括當(dāng)前的休眠時(shí)間的有效位數(shù)達(dá)到預(yù)設(shè)位數(shù)、測(cè)試時(shí)間達(dá)到預(yù)設(shè)時(shí)間和測(cè)試次數(shù)達(dá)到預(yù)設(shè)次數(shù)中的至少一個(gè);并且,當(dāng)包括至少兩個(gè)條件時(shí),所述至少兩個(gè)條件中的任意一個(gè)條件先滿足即停止測(cè)試。