一種基于鏈接分析的聚焦爬蟲方法

文檔序號：6547749閱讀：325來源：國知局

一種基于鏈接分析的聚焦爬蟲方法
【專利摘要】一種基于鏈接分析的聚焦爬蟲方法，屬于互聯(lián)網(wǎng)信息檢索、搜索引擎等領域，解決現(xiàn)有爬蟲抓取準確率不高的問題，包括如下步驟：抓取網(wǎng)頁，將網(wǎng)頁和目標樣本網(wǎng)頁的結(jié)構(gòu)進行比較，確定目標網(wǎng)頁，從網(wǎng)站入口鏈接開始，記錄爬蟲到目標網(wǎng)頁的每一條鏈接路徑，建立目標網(wǎng)頁鏈接樹；分析目標網(wǎng)頁鏈接樹，歸納鏈接樹中目標網(wǎng)頁路徑上的鏈接，替換鏈接樹中的鏈接，形成鏈接模版樹；爬蟲使用鏈接模版樹作為導航，抓取與鏈接模版樹相匹配中的網(wǎng)頁鏈接，直到整個抓取循環(huán)過程結(jié)束，最終抓取完所有目標網(wǎng)頁。本發(fā)明的爬蟲能夠根據(jù)鏈接模版樹的導航，在抓取網(wǎng)頁的過程中，只抓取有效的鏈接，從而保證爬蟲抓取網(wǎng)頁的效率和準確率。
【專利說明】一種基于鏈接分析的聚焦爬蟲方法
【技術(shù)領域】
[0001]一種基于鏈接分析的聚焦爬蟲方法，用于導航爬蟲準確地抓取網(wǎng)頁，涉及互聯(lián)網(wǎng)信息檢索、搜索引擎等領域，具體涉及基于網(wǎng)頁鏈接分析一建立鏈接模版樹。
【背景技術(shù)】
[0002]海量的Web數(shù)據(jù)給信息檢索(InformationRetrieval)帶來了前所未有的挑戰(zhàn),通用搜索引擎技術(shù)是Web信息檢索的主要解決方案。如Google、百度、Bing等通用搜索引擎，網(wǎng)民已經(jīng)很方便地通過這些搜索引擎，輸入關鍵字，獲取所需要的Web信息。
[0003]爬蟲技術(shù)是搜索引擎中不可分割的部分，互聯(lián)網(wǎng)向人們提供了海量的知識和信息，爬蟲技術(shù)就是用來從海量Web資源中自動下載Web內(nèi)容，其基本原理是:實現(xiàn)提供一些入口 URL，也被稱為種子鏈接，然后以這些種子鏈接為起點，按照廣度優(yōu)先或者深度優(yōu)先的策略不斷地爬取和下載頁面。爬蟲技術(shù)解決了互聯(lián)網(wǎng)中海量信息如何獲取的問題。
[0004]聚焦爬蟲技術(shù)與傳統(tǒng)爬蟲技術(shù)的區(qū)別就是聚焦爬蟲只爬取預先設定的特定領域或者主題的網(wǎng)頁。目前聚焦爬蟲技術(shù)多基于網(wǎng)頁內(nèi)容分析，通過下載網(wǎng)頁后，分析網(wǎng)頁內(nèi)容，去除不符合要求的網(wǎng)頁，該過程造成了網(wǎng)絡帶寬和系統(tǒng)處理資源的浪費，分析網(wǎng)頁內(nèi)容時，也浪費大量時間。而目前基于鏈接的聚焦爬蟲，主要判斷鏈接周圍文本和主題的相關程度，但是其中包含的信息量較少，因此基于該方法的聚焦爬蟲的準確率不高。

【發(fā)明內(nèi)容】

[0005]本發(fā)明針對現(xiàn)有技術(shù)的不足之處提供了一種基于鏈接分析的聚焦爬蟲方法，用以解決現(xiàn)有聚焦爬蟲抓取網(wǎng)頁準確率和效率較低的問題。
[0006]為實現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案為:
[0007]一種基于鏈接分析的聚焦爬蟲方法，其特征在于，包括如下步驟:
[0008](I)抓取網(wǎng)頁，將網(wǎng)頁和目標樣本網(wǎng)頁的結(jié)構(gòu)進行比較，確定目標網(wǎng)頁，從網(wǎng)站入口鏈接開始，記錄爬蟲到目標網(wǎng)頁的每一條鏈接路徑，建立目標網(wǎng)頁鏈接樹；
[0009](2)分析目標網(wǎng)頁鏈接樹，歸納鏈接樹中目標網(wǎng)頁路徑上的鏈接，替換鏈接樹中的鏈接，形成鏈接模版樹；
[0010](3)爬蟲使用鏈接模版樹作為導航，抓取與鏈接模版樹相匹配的網(wǎng)頁鏈接，直到整個抓取循環(huán)過程結(jié)束，最終抓取完所有目標網(wǎng)頁。
[0011]作為優(yōu)選，步驟(I)中，所述建立目標網(wǎng)頁鏈接樹的具體步驟如下:
[0012](11)選擇一個目標網(wǎng)頁作為目標樣本網(wǎng)頁，用于比較將下載的網(wǎng)頁結(jié)構(gòu)；
[0013](12)初始化鏈接樹，即將鏈接樹設置為一棵空樹；
[0014](13)初始化鏈接隊列，將網(wǎng)站的入口鏈接加入到鏈接隊列尾部；
[0015](14)從鏈接隊列頭部取出鏈接，廣度優(yōu)先地抓取網(wǎng)頁；
[0016](15)將抓取的網(wǎng)頁和目標樣本網(wǎng)頁進行比較，如果結(jié)構(gòu)相同，則將該目標網(wǎng)頁的路徑添加到鏈接樹中，將目標網(wǎng)頁的鏈接作為葉子節(jié)點，否則記錄路徑；[0017](16)分析抓取的目標網(wǎng)頁，提取目標網(wǎng)頁中的鏈接，添加到鏈接隊列尾部；
[0018](17)抓取的網(wǎng)頁依層數(shù)遞增，如果沒有達到閾值，繼續(xù)循環(huán)地按層次廣度優(yōu)先抓取網(wǎng)頁，否則目標網(wǎng)頁鏈接樹建立過程結(jié)束。
[0019]作為優(yōu)選，步驟(15)中，所述抓取的網(wǎng)頁和目標樣本網(wǎng)頁進行比較的步驟如下:
[0020](151)將目標樣本網(wǎng)頁和抓取的網(wǎng)頁轉(zhuǎn)換成DOM樹(DocumentObjectModel,文檔對象化模型)，就是將網(wǎng)頁解析成HTML標簽樹——DOM樹的結(jié)構(gòu)；
[0021](152)使用層次遍歷的方法比較兩個DOM樹的結(jié)構(gòu)是否相同；
[0022](153)使用數(shù)據(jù)結(jié)構(gòu)中的隊列作為輔助結(jié)構(gòu)，比較DOM樹中每一層的HTML標簽，如果標簽相同，繼續(xù)比較，直到遍歷結(jié)束，返回true，反之，如果對應的標簽不一樣，則返回false。
[0023]作為優(yōu)選，步驟(2)中，所述鏈接模版樹的形成包括以下步驟:
[0024](21)將鏈接樹中每一層相似的鏈接聚合，從相似鏈接集合中抽取出正則表達式，比較鏈接之間的相似程度，其中比較鏈接i和鏈接j之間的相似程度公式如下:
【權(quán)利要求】
1.一種基于鏈接分析的聚焦爬蟲方法，其特征在于，包括如下步驟: (1)抓取網(wǎng)頁，將網(wǎng)頁和目標樣本網(wǎng)頁的結(jié)構(gòu)進行比較，確定目標網(wǎng)頁，從網(wǎng)站入口鏈接開始，記錄爬蟲到目標網(wǎng)頁的每一條鏈接路徑，建立目標網(wǎng)頁鏈接樹； (2)分析目標網(wǎng)頁鏈接樹，歸納鏈接樹中目標網(wǎng)頁路徑上的鏈接，替換鏈接樹中的鏈接，形成鏈接模版樹； (3)爬蟲使用鏈接模版樹作為導航，抓取與鏈接模版樹相匹配的網(wǎng)頁鏈接，直到整個抓取循環(huán)過程結(jié)束，最終抓取完所有目標網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述的一種基于鏈接分析的聚焦爬蟲方法，其特征在于，步驟(1)中，所述建立目標網(wǎng)頁鏈接樹的具體步驟如下: (11)選擇一個目標網(wǎng)頁作為目標樣本網(wǎng)頁，用于比較將下載的網(wǎng)頁結(jié)構(gòu)； (12)初始化鏈接樹，即將鏈接樹設置為一棵空樹； (13)初始化鏈接隊列，將網(wǎng)站的入口鏈接加入到鏈接隊列尾部； (14)從鏈接隊列頭部取出鏈接，廣度優(yōu)先地抓取網(wǎng)頁； (15)將抓取的網(wǎng)頁和目標樣本網(wǎng)頁進行比較，如果結(jié)構(gòu)相同，則將該目標網(wǎng)頁的路徑添加到鏈接樹中，將目標網(wǎng)頁的鏈接作為葉子節(jié)點，否則記錄路徑； (16)分析抓取的目標網(wǎng)頁，提取目標網(wǎng)頁中的鏈接，添加到鏈接隊列尾部； (17)抓取的網(wǎng)頁依層數(shù)遞增，如果沒有達到閾值，繼續(xù)循環(huán)地按層次廣度優(yōu)先抓取網(wǎng)頁，否則目標網(wǎng)頁鏈接樹建立過程結(jié)束。
3.根據(jù)權(quán)利要求2所述的一種基于鏈接分析的聚焦爬蟲方法，其特征在于，步驟(15)中，所述抓取的網(wǎng)頁和目標樣本網(wǎng)頁進行比較的步驟如下: (151)將目標樣本網(wǎng)頁和抓取的網(wǎng)頁轉(zhuǎn)換成DOM樹(DocumentObjectModel,文檔對象化模型)，就是將網(wǎng)頁解析成HTML標簽樹——DOM樹的結(jié)構(gòu)； (152)使用層次遍歷的方法比較兩個DOM樹的結(jié)構(gòu)是否相同； (153)使用數(shù)據(jù)結(jié)構(gòu)中的隊列作為輔助結(jié)構(gòu)，比較DOM樹中每一層的HTML標簽，如果標簽相同，繼續(xù)比較，直到遍歷結(jié)束，返回true，反之，如果對應的標簽不一樣，則返回false。
4.根據(jù)權(quán)利要求1所述的一種基于鏈接分析的聚焦爬蟲方法，其特征在于，步驟(2)中，所述鏈接模版樹的形成包括以下步驟: (21)將鏈接樹中每一層相似的鏈接聚合，從相似鏈接集合中抽取出正則表達式，比較鏈接之間的相似程度，其中比較鏈接i和鏈接j之間的相似程度公式如下:
,a/..、 pre(i, j) 0 pre(i, j) tail(i, j) ,, taiHi, j) NUSi I, j) = αχ-~x-^-+ βχ-~^^-+vx————
/t"7(/)Ien(J)Ien(J)Ien(J) pre(i, j)表示URLJP URLj相同的前綴字符個數(shù)，Ien (i)表示URLi的字符個數(shù)，Ien (j)表示URLj的字符個數(shù)，tail (i, j)表示URLi和URLj相同的后綴字符個數(shù)，α、β、Y和δ是歸一化因子，O ( a ^ 1,0 ^ β ^ 1,0 ^ Y ^ 1,0 ^ δ ≤ I且 α+β + Υ + δ =1，使得NUS (i，j)在O到I之間，值越大表示鏈接相似度越高。 (22)判斷鏈接樹中每一層節(jié)點的相似度，將每一層相似的鏈接聚合成一類，對于每一類中的鏈接使用正則表達式來歸納，并用正則表達式表示的鏈接替代鏈接樹中的鏈接。
5.根據(jù)權(quán)利要求4所述的一種基于鏈接分析的聚焦爬蟲方法，其特征在于，步驟(22)中，所述聚合的每一類鏈接，使用正則表達式歸納的步驟如下: (221)將鏈接分為host和path兩個部分,并將host和path分別處理； (222)將host中相同部分保留原樣，寫入正則表達式，不同部分用*代替寫入正則表達式； (223)將path部分按照路徑長度再次劃分為路徑段，依次比較路徑，只要有不相同的部分，則結(jié)束比較，未比較的路徑段使用*代替，相同的部分原樣寫入正則表達式，直到比較結(jié)束； (224)最后將host和path的正則表達式合并，形成一個以正則表達式表示的鏈接。
6.根據(jù)權(quán)利要求1所述的一種基于鏈接分析的聚焦爬蟲方法，其特征在于，步驟(3)中，所述爬蟲使用鏈接模版樹作為導航的具體步驟為: (31)初始化鏈接隊列，將網(wǎng)頁入口地址加入到鏈接隊列尾端； (32)從鏈接隊列頭部取出鏈接，下載鏈接對應的網(wǎng)頁，分析網(wǎng)頁內(nèi)容并提取出網(wǎng)頁中的鏈接； (33)將網(wǎng)頁中提取出的鏈接和鏈接模版樹中對應層的鏈接模版進行比較，如果匹配，則加入到鏈接隊列尾端，否則舍棄； (34)判斷爬蟲抓取是否達到閾值，是則停止爬蟲，否則重復(32)和(33)，直到爬蟲達到設定的抓取層數(shù)。
【文檔編號】G06F17/30GK103984749SQ201410227771
【公開日】2014年8月13日申請日期:2014年5月27日優(yōu)先權(quán)日:2014年5月27日
【發(fā)明者】屈鴻, 周安林, 張馬路, 孫明, 邵領申請人:電子科技大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：屈鴻;周安林;張馬路;孫明;邵領
技術(shù)所有人：電子科技大學
我是此專利的發(fā)明人

該領域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于鏈接分析的聚焦爬蟲方法