一種分布式爬蟲引擎的URL抓取方法及系統(tǒng)與流程

文檔序號：12465028閱讀：來源：國知局

技術特征：

1.一種分布式爬蟲引擎的URL抓取方法，其特征在于，包括如下步驟：

S100：采集URL任務并存儲；

S200：基于網(wǎng)站哈希值的任務劃分策略，將具有相同域名的URL集合分配給同一爬取節(jié)點進行爬取，并匯總爬取結果；

S300：將所爬取的URL任務所對應的原始網(wǎng)頁進行分布式并行聚類，去除噪聲URL任務；

S400：消除去除噪聲后的URL任務內(nèi)重復的URL任務；

S500：判斷已經(jīng)過消除重復的URL任務已抓取層數(shù)是否小于預設值，若是則返回步驟S300；若否則執(zhí)行步驟S600；

S600：將每一層抓取的URL任務對應的原始網(wǎng)頁進行合并。

2.根據(jù)權利要求1所述的一種分布式爬蟲引擎的URL抓取方法，其特征在于：在步驟S300中，在進行分布式并行聚類之前還包括，應用網(wǎng)頁的DOM樹結構初步去除噪聲URL任務，包括：

S301：利用<td>、<p>、<div>等html標簽對頁面進行分割，去掉一些與渲染相關但是同URL任務無關的標簽；

S302：利用鏈接文字比率來對噪聲鏈接進行定位，若節(jié)點的文字比率高于1/4則將該節(jié)點所在的鏈接判定為初始噪聲鏈接并去除。

3.根據(jù)權利要求1或2所述的一種分布式爬蟲引擎的URL抓取方法，其特征在于：在步驟S300中，所述分布式并行聚類，去除噪聲URL任務包括如下步驟：

S311：采用映射歸約方式對原始網(wǎng)頁進行域名解析，進行初步分塊；

S312：將各個塊進行singlepass聚類，并采用映射歸約的方式將聚類結果分成多個族；

S313：依據(jù)已有噪聲樣本，應用映射歸約方式將聚類結果的多個族進行相似度計算，依據(jù)相似度值去除噪聲URL任務；

S314：應用映射歸約方式存儲去噪后的URL任務。

4.根據(jù)權利要求1或2所述的分布式爬蟲引擎的URL抓取方法，其特征在于：步驟S400中，所述消除爬取結果內(nèi)重復的URL任務包括：

S401：將所采集的URL任務加入到訪問列表中，記錄URL任務的訪問時間，并設置重復次數(shù)為1；

S402：將去除噪聲后的URL任務依次與訪問列表和緩存列表進行比對，若在訪問列表或緩存列表中查詢到URL任務，則放棄該URL任務并更新URL任務訪問時間及重復次數(shù)；若未在訪問列表或緩存列表中查詢到URL任務，則訪問所存儲的URL任務；

S403：判斷所存儲的URL任務中是否存在所述URL任務，若是則放棄該URL任務，若否則更新訪問列表和URL任務集。

5.根據(jù)權利要求1或3或4所述的分布式爬蟲引擎的URL抓取方法，其特征在于：在進行分布式并行聚類過程中，所述相似度使用最大公共字串長度占兩個URL任務長度比例的均值度量。

6.一種分布式爬蟲引擎的URL抓取系統(tǒng)，其特征在于包括：

采集模塊，用于采集URL任務并存儲；

分類模塊，用于基于網(wǎng)站哈希值的任務劃分策略，將具有相同域名的URL集合分配給同一爬取節(jié)點進行爬取，并匯總爬取結果；

去噪模塊，用于將所爬取的URL任務所對應的原始網(wǎng)頁進行分布式并行聚類，去除噪聲URL任務；

去重模塊，用于消除去除噪聲后的URL任務內(nèi)重復的URL任務；

判斷模塊，用于判斷已經(jīng)過消除重復部分的URL任務已抓取層數(shù)是否小于預設值，若是則轉去噪模塊執(zhí)行，若否則轉合并模塊；

合并模塊，用于將每一層抓取的URL任務對應的原始網(wǎng)頁進行合并。

7.根據(jù)權利要求6所述的一種分布式爬蟲引擎的URL抓取系統(tǒng)，其特征在于：所述去噪模塊，在進行分布式并行聚類之前還包括，應用網(wǎng)頁的DOM樹結構初步去除噪聲URL任務，包括：

分割單元，用于利用<td>、<p>、<div>等html標簽對頁面進行分割，去掉一些與渲染相關但是同URL任務無關的標簽；

比較單元，用于利用鏈接文字比率來對噪聲鏈接進行定位，若節(jié)點的文字比率高于1/4則將該節(jié)點所在的鏈接判定為初始噪聲鏈接并去除。

8.根據(jù)權利要求6或7所述的一種分布式爬蟲引擎的URL抓取系統(tǒng)，其特征在于：所述去噪模塊進行分布式并行聚類，去除噪聲URL任務包括：

分塊單元，用于采用映射歸約方式對原始網(wǎng)頁進行域名解析，進行初步分塊；

聚類單元，用于將各個塊進行singlepass聚類，并采用映射歸約的方式將聚類結構分成多個族；

計算單元，用于依據(jù)已有噪聲樣本，應用映射歸約方式將聚類結果的多個族進行相似度計算，依據(jù)相似度值去除噪聲URL任務；

存儲單元，應用映射歸約方式存儲去噪后的URL任務。

9.根據(jù)權利要求6或7所述的一種分布式爬蟲引擎的URL抓取系統(tǒng)，其特征在于：所述去重模塊，消除爬取結果內(nèi)重復的URL任務包括：

建立單元，用于將所采集的URL任務加入到訪問列表中，記錄URL任務的訪問時間，并設置重復次數(shù)為1；

匹配單元，用于將去除噪聲后的URL任務依次與訪問列表和緩存列表進行比對，若在訪問列表或緩存列表中查詢到URL任務，則放棄該URL任務并更新URL任務訪問時間及重復次數(shù)；若未在訪問列表或緩存列表中查詢到URL任務，則訪問所存儲的URL任務；

查重單元，用于判斷所存儲的URL任務中是否存在所述URL任務，若是則放棄該URL任務，若否則更新訪問列表和URL任務集。

10.根據(jù)權利要求1或8或9所述的一種分布式爬蟲引擎的URL抓取方法，其特征在于：

所述去噪模塊在進行分布式并行聚類過程中，所述相似度使用最大公共字串長度占兩個URL任務長度比例的均值度量。

完整全部詳細技術資料下載

當前第2頁1 2 3

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

爬蟲抓取相關技術

java實現(xiàn)爬蟲抓取數(shù)據(jù)相關技術

java爬蟲抓取網(wǎng)頁數(shù)據(jù)相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種分布式爬蟲引擎的URL抓取方法及系統(tǒng)與流程