一種分布式爬蟲(chóng)引擎的URL抓取方法及系統(tǒng)與流程

文檔序號(hào)：12465028閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種分布式爬蟲(chóng)引擎的URL抓取方法及系統(tǒng)與流程

技術(shù)總結(jié)
本發(fā)明所述的一種分布式爬蟲(chóng)引擎的URL抓取方法，包括如下步驟：S100：采集URL任務(wù)并存儲(chǔ)；S200：基于網(wǎng)站哈希值的任務(wù)劃分策略，將具有相同域名的URL集合分配給同一爬取節(jié)點(diǎn)進(jìn)行爬取，并匯總爬取結(jié)果；S300：將所爬取的URL任務(wù)所對(duì)應(yīng)的原始網(wǎng)頁(yè)進(jìn)行分布式并行聚類，去除噪聲URL任務(wù)；S400：消除去除噪聲后的URL任務(wù)內(nèi)重復(fù)的URL任務(wù)；S500：判斷已經(jīng)過(guò)消除重復(fù)的URL任務(wù)已抓取層數(shù)是否小于預(yù)設(shè)值，若是則返回步驟S300；若否則執(zhí)行步驟S600；S600：將每一層抓取的URL任務(wù)對(duì)應(yīng)的原始網(wǎng)頁(yè)進(jìn)行合并。將URL任務(wù)依據(jù)域名劃分給不同的爬取節(jié)點(diǎn)，不同的爬取節(jié)點(diǎn)處理不同域名的URL任務(wù)，減輕每一爬取節(jié)點(diǎn)的任務(wù)負(fù)載量。

技術(shù)研發(fā)人員：王琦;林子忠;歐偉;茅曉萍
受保護(hù)的技術(shù)使用者：福建六壬網(wǎng)安股份有限公司
文檔號(hào)碼：201611037722
技術(shù)研發(fā)日：2016.11.23
技術(shù)公布日：2017.05.31

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種分布式爬蟲(chóng)引擎的URL抓取方法及系統(tǒng)與流程