亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的方法和裝置與流程

文檔序號(hào):12363793閱讀:來源:國知局

技術(shù)特征:

1.一種實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的方法,其特征在于,預(yù)先將屬于不同網(wǎng)站的網(wǎng)頁劃分到不同的網(wǎng)頁簇中,和/或?qū)儆谙嗤W(wǎng)站中的不同產(chǎn)品的網(wǎng)頁劃分到不同的網(wǎng)頁簇中;所述方法包括:

對(duì)于任意一個(gè)網(wǎng)頁簇,統(tǒng)計(jì)當(dāng)所述網(wǎng)頁簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;

在所述最小置信區(qū)間的范圍內(nèi)配置所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間;

將配置的休眠時(shí)間通知給網(wǎng)絡(luò)爬蟲,以便網(wǎng)絡(luò)爬蟲按照配置的休眠時(shí)間抓取所述網(wǎng)頁簇中的網(wǎng)頁。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:

將各個(gè)網(wǎng)頁簇在抓取時(shí)的最小置信區(qū)間保存在數(shù)據(jù)庫中。

3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述對(duì)于任意一個(gè)網(wǎng)頁簇,統(tǒng)計(jì)當(dāng)所述網(wǎng)頁簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,包括:

對(duì)于任意一個(gè)網(wǎng)頁簇,從所述網(wǎng)頁簇中選取預(yù)設(shè)數(shù)量的樣本網(wǎng)頁;

統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;

根據(jù)所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,采用矩估計(jì)法估計(jì)所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,包括:

從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到當(dāng)網(wǎng)頁的抓取成功率第一次從達(dá)不到預(yù)設(shè)的置信水平轉(zhuǎn)變?yōu)檫_(dá)到預(yù)設(shè)的置信水平時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值;

根據(jù)所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。

5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁 的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,包括:

從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到滿足預(yù)設(shè)的停止條件時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值;

根據(jù)所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述預(yù)設(shè)的停止條件包括當(dāng)前的休眠時(shí)間的有效位數(shù)達(dá)到預(yù)設(shè)位數(shù)、測(cè)試時(shí)間達(dá)到預(yù)設(shè)時(shí)間和測(cè)試次數(shù)達(dá)到預(yù)設(shè)次數(shù)中的至少一個(gè);并且,當(dāng)包括至少兩個(gè)條件時(shí),所述至少兩個(gè)條件中的任意一個(gè)條件先滿足即停止測(cè)試。

7.一種實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的裝置,其特征在于,預(yù)先將屬于不同網(wǎng)站的網(wǎng)頁劃分到不同的網(wǎng)頁簇中,和/或?qū)儆谙嗤W(wǎng)站中的不同產(chǎn)品的網(wǎng)頁劃分到不同的網(wǎng)頁簇中;所述裝置包括:

統(tǒng)計(jì)單元,用于對(duì)于任意一個(gè)網(wǎng)頁簇,統(tǒng)計(jì)當(dāng)所述網(wǎng)頁簇的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;

配置單元,用于在所述最小置信區(qū)間的范圍內(nèi)配置所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間;

通知單元,用于將配置的休眠時(shí)間通知給網(wǎng)絡(luò)爬蟲,以便網(wǎng)絡(luò)爬蟲按照配置的休眠時(shí)間抓取所述網(wǎng)頁簇中的網(wǎng)頁。

8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括:

保存單元,用于將各個(gè)網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間保存在數(shù)據(jù)庫中。

9.根據(jù)權(quán)利要求7或8所述的裝置,其特征在于,所述統(tǒng)計(jì)單元包括:

樣本選取子單元,用于針對(duì)各個(gè)網(wǎng)頁簇,從所述網(wǎng)頁簇中選取預(yù)設(shè)數(shù)量的樣本網(wǎng)頁;

樣本統(tǒng)計(jì)子單元,用于統(tǒng)計(jì)當(dāng)所述樣本網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平時(shí),所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間;

估計(jì)子單元,用于根據(jù)所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間,采用矩估計(jì)法估計(jì)所述網(wǎng)頁簇在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。

10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述樣本統(tǒng)計(jì)子單元包括:

第一測(cè)試子單元,用于從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到當(dāng)網(wǎng)頁的抓取成功率第一次從達(dá)不到預(yù)設(shè)的置信水平轉(zhuǎn)變?yōu)檫_(dá)到預(yù)設(shè)的置信水平時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值;

計(jì)算子單元,用于根據(jù)所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。

11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述樣本統(tǒng)計(jì)子單元包括:

第二測(cè)試子單元,用于從預(yù)設(shè)的休眠時(shí)間開始,采用二分法測(cè)試可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間,直到滿足預(yù)設(shè)的停止條件時(shí)停止測(cè)試,并將停止測(cè)試時(shí)可使網(wǎng)頁的抓取成功率滿足預(yù)設(shè)的置信水平的最小休眠時(shí)間作為所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值;

計(jì)算子單元,用于根據(jù)所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的均值和預(yù)設(shè)的樣本誤差計(jì)算所述樣本網(wǎng)頁在抓取時(shí)的休眠時(shí)間的最小置信區(qū)間。

12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述預(yù)設(shè)的停止條件包括當(dāng)前的休眠時(shí)間的有效位數(shù)達(dá)到預(yù)設(shè)位數(shù)、測(cè)試時(shí)間達(dá)到預(yù)設(shè)時(shí)間和測(cè)試次數(shù)達(dá)到預(yù)設(shè)次數(shù)中的至少一個(gè);并且,當(dāng)包括至少兩個(gè)條件時(shí),所述至少兩個(gè)條件中的任意一個(gè)條件先滿足即停止測(cè)試。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1