亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法

文檔序號:10512305閱讀:375來源:國知局
一種基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法
【專利摘要】本發(fā)明公開了一種基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法,屬于獲取計(jì)算機(jī)網(wǎng)頁更新信息技術(shù)領(lǐng)域。所述基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法包括以下步驟:S1:網(wǎng)頁更新策略:(1)通過網(wǎng)頁不同屬性,進(jìn)行聚類分析,將相同的屬性的網(wǎng)頁分為一組;(2)對同一聚類組的網(wǎng)頁進(jìn)行抽樣提取,通過歷史參考策略確定網(wǎng)頁的更新頻率;(3)通過得到的網(wǎng)頁更新頻率,對網(wǎng)頁進(jìn)行定時(shí)抓?。籗2:分布式集群搭建。本發(fā)明所述基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法,避免了實(shí)時(shí)監(jiān)測網(wǎng)頁是否更新,可以通過得到的網(wǎng)頁更新頻率來定時(shí)的進(jìn)行網(wǎng)頁更新,減低了系統(tǒng)存儲的負(fù)擔(dān),具有很好的推廣應(yīng)用價(jià)值。
【專利說明】
一種基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及獲取計(jì)算機(jī)網(wǎng)頁更新信息技術(shù)領(lǐng)域,具體提供一種基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法。
【背景技術(shù)】
[0002]隨著web信息的日益發(fā)展,web方面的技術(shù)也越來越多,網(wǎng)絡(luò)爬蟲就是其中一項(xiàng)重要的技術(shù)。網(wǎng)絡(luò)爬蟲是一種自動提取網(wǎng)頁信息的技術(shù),對網(wǎng)頁信息進(jìn)行解析與提取。從體系結(jié)構(gòu)、爬行策略和典型應(yīng)用等方面,爬蟲種類分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲四種常見網(wǎng)絡(luò)爬蟲。國內(nèi)外很多大公司的搜索引擎利用網(wǎng)絡(luò)爬蟲為大眾用戶提供搜索服務(wù),中型規(guī)模的網(wǎng)絡(luò)爬蟲以其靈活的可定制性為特定客戶設(shè)計(jì)服務(wù)。
[0003]而互聯(lián)網(wǎng)是實(shí)時(shí)變化的,具有很強(qiáng)的動態(tài)性,網(wǎng)頁爬蟲爬取到本地網(wǎng)頁庫不會告知網(wǎng)頁更新了,再重新爬去。由于“無限”的網(wǎng)頁數(shù)量,爬蟲在網(wǎng)絡(luò)中頁難以及時(shí)發(fā)現(xiàn)是否應(yīng)該再重新爬去。對于以上的問題,網(wǎng)絡(luò)爬蟲需要估算每個(gè)已經(jīng)爬去到的網(wǎng)頁更新的頻率來確定何時(shí)再重新進(jìn)行爬去,增加了計(jì)算機(jī)系統(tǒng)的負(fù)擔(dān)。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的技術(shù)任務(wù)是針對上述存在的問題,提供一種避免了實(shí)時(shí)監(jiān)測網(wǎng)頁是否更新,可以通過得到的網(wǎng)頁更新頻率來定時(shí)的進(jìn)行網(wǎng)頁更新,減低了系統(tǒng)存儲的負(fù)擔(dān)的基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:
一種基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法,包括以下步驟:
S1:網(wǎng)頁更新策略:
(1)通過網(wǎng)頁不同屬性,進(jìn)行聚類分析,將相同的屬性的網(wǎng)頁分為一組;
(2)對同一聚類組的網(wǎng)頁進(jìn)行抽樣提取,通過歷史參考策略確定網(wǎng)頁的更新頻率;
(3 )通過得到的網(wǎng)頁更新頻率,對網(wǎng)頁進(jìn)行定時(shí)抓?。?br> S2:分布式集群搭建:采用一致性哈稀分片算法進(jìn)行redis集群的搭建,將不同的key分布到不同的redis server上。
[0006]該方法對網(wǎng)頁的屬性進(jìn)行分類,如股票、電商等類型,進(jìn)行網(wǎng)頁聚類分析。在同一聚類組中進(jìn)行抽樣,對這些樣本通過歷史參考策略來確定更新頻率。更加網(wǎng)頁的更新頻率來采集網(wǎng)頁,為了避免網(wǎng)頁更新頻率改變了,而還按照過去的網(wǎng)頁頻率來更新頻率來采集網(wǎng)頁,設(shè)定一個(gè)時(shí)間閥值,過了設(shè)定的時(shí)間閥值,則進(jìn)入上一步,更新網(wǎng)頁的更新頻率。
[0007]作為優(yōu)選,所述方法將歷史參考策略與聚類抽樣策略結(jié)合在一起。
[0008]作為優(yōu)選,所述歷史參考策略的具體步驟為:
(a)選取較短的時(shí)間間隔來定時(shí)采集網(wǎng)站的信息,將這些信息作為歷史記錄來存儲;
(b)根據(jù)歷史記錄來確定網(wǎng)頁的更新頻率。
[0009]本發(fā)明具有以下突出的有益效果: 本方法基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取,結(jié)合了歷史參考策略和聚類抽樣的優(yōu)點(diǎn),避免一直記錄網(wǎng)頁的歷史信息,減低了系統(tǒng)存儲的負(fù)擔(dān),也更簡便的、準(zhǔn)確的對相同屬相的網(wǎng)頁進(jìn)行分類。
【附圖說明】
[0010]圖1為本發(fā)明所述基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法的工作流程框圖;
圖2為本發(fā)明所述基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法的結(jié)構(gòu)布局圖。
【具體實(shí)施方式】
[0011]下面結(jié)合附圖和實(shí)施例對本發(fā)明所述基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法作進(jìn)一步詳細(xì)說明。
實(shí)施例
[0012]如圖1和圖2所示,本發(fā)明所述基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法,包括以下步驟:
S1:網(wǎng)頁更新策略:
(I)通過網(wǎng)頁不同屬性,進(jìn)行聚類分析,將相同的屬性的網(wǎng)頁分為一組。
[0013](2)對同一聚類組的網(wǎng)頁進(jìn)行抽樣提取,通過歷史參考策略確定網(wǎng)頁的更新頻率。歷史參考策略的具體步驟為:(a)選取較短的時(shí)間間隔來定時(shí)采集網(wǎng)站的信息,將這些信息作為歷史記錄來存儲;(b)根據(jù)歷史記錄來確定網(wǎng)頁的更新頻率。
[0014](3)通過得到的網(wǎng)頁更新頻率,對網(wǎng)頁進(jìn)行定時(shí)抓?。?br> S2:分布式集群搭建:采用一致性哈稀分片算法進(jìn)行redis集群的搭建,將不同的key分布到不同的redis server上,建立Linkbase數(shù)據(jù)庫,存儲有關(guān)鏈接方面的信息。
[0015]該方法對網(wǎng)頁的屬性進(jìn)行分類,如股票、電商等類型,進(jìn)行網(wǎng)頁聚類分析。在同一聚類組中進(jìn)行抽樣,對這些樣本通過歷史參考策略來確定更新頻率。更加網(wǎng)頁的更新頻率來采集網(wǎng)頁,為了避免網(wǎng)頁更新頻率改變了,而還按照過去的網(wǎng)頁頻率來更新頻率來采集網(wǎng)頁,設(shè)定一個(gè)時(shí)間閥值,過了設(shè)定的時(shí)間閥值,則進(jìn)入上一步,更新網(wǎng)頁的更新頻率。
[0016]以上所述的實(shí)施例,只是本發(fā)明較優(yōu)選的【具體實(shí)施方式】,本領(lǐng)域的技術(shù)人員在本發(fā)明技術(shù)方案范圍內(nèi)進(jìn)行的通常變化和替換都應(yīng)包含在本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法,其特征在于:包括以下步驟: S1:網(wǎng)頁更新策略: (1)通過網(wǎng)頁不同屬性,進(jìn)行聚類分析,將相同的屬性的網(wǎng)頁分為一組;(2)對同一聚類組的網(wǎng)頁進(jìn)行抽樣提取,通過歷史參考策略確定網(wǎng)頁的更新頻率; (3 )通過得到的網(wǎng)頁更新頻率,對網(wǎng)頁進(jìn)行定時(shí)抓??; S2:分布式集群搭建:采用一致性哈稀分片算法進(jìn)行redis集群的搭建,將不同的key分布到不同的redis server上。2.根據(jù)權(quán)利要求1所述的基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法,其特征在于:所述方法將歷史參考策略與聚類抽樣策略結(jié)合在一起。3.根據(jù)權(quán)利要求1或2所述的基于不同更新策略的分布式網(wǎng)絡(luò)爬蟲抓取方法,其特征在于:所述歷史參考策略的具體步驟為: (a)選取較短的時(shí)間間隔來定時(shí)采集網(wǎng)站的信息,將這些信息作為歷史記錄來存儲; (b)根據(jù)歷史記錄來確定網(wǎng)頁的更新頻率。
【文檔編號】G06F17/30GK105868327SQ201610181698
【公開日】2016年8月17日
【申請日】2016年3月28日
【發(fā)明人】封金煜, 楊勝華, 崔樂樂
【申請人】浪潮軟件集團(tuán)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1