亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于鏈接分析的聚焦爬蟲方法

文檔序號:6547749閱讀:325來源:國知局
一種基于鏈接分析的聚焦爬蟲方法
【專利摘要】一種基于鏈接分析的聚焦爬蟲方法,屬于互聯(lián)網(wǎng)信息檢索、搜索引擎等領域,解決現(xiàn)有爬蟲抓取準確率不高的問題,包括如下步驟:抓取網(wǎng)頁,將網(wǎng)頁和目標樣本網(wǎng)頁的結(jié)構(gòu)進行比較,確定目標網(wǎng)頁,從網(wǎng)站入口鏈接開始,記錄爬蟲到目標網(wǎng)頁的每一條鏈接路徑,建立目標網(wǎng)頁鏈接樹;分析目標網(wǎng)頁鏈接樹,歸納鏈接樹中目標網(wǎng)頁路徑上的鏈接,替換鏈接樹中的鏈接,形成鏈接模版樹;爬蟲使用鏈接模版樹作為導航,抓取與鏈接模版樹相匹配中的網(wǎng)頁鏈接,直到整個抓取循環(huán)過程結(jié)束,最終抓取完所有目標網(wǎng)頁。本發(fā)明的爬蟲能夠根據(jù)鏈接模版樹的導航,在抓取網(wǎng)頁的過程中,只抓取有效的鏈接,從而保證爬蟲抓取網(wǎng)頁的效率和準確率。
【專利說明】一種基于鏈接分析的聚焦爬蟲方法
【技術(shù)領域】
[0001]一種基于鏈接分析的聚焦爬蟲方法,用于導航爬蟲準確地抓取網(wǎng)頁,涉及互聯(lián)網(wǎng)信息檢索、搜索引擎等領域,具體涉及基于網(wǎng)頁鏈接分析一建立鏈接模版樹。
【背景技術(shù)】
[0002]海量的Web數(shù)據(jù)給信息檢索(InformationRetrieval)帶來了前所未有的挑戰(zhàn),通用搜索引擎技術(shù)是Web信息檢索的主要解決方案。如Google、百度、Bing等通用搜索引擎,網(wǎng)民已經(jīng)很方便地通過這些搜索引擎,輸入關鍵字,獲取所需要的Web信息。
[0003]爬蟲技術(shù)是搜索引擎中不可分割的部分,互聯(lián)網(wǎng)向人們提供了海量的知識和信息,爬蟲技術(shù)就是用來從海量Web資源中自動下載Web內(nèi)容,其基本原理是:實現(xiàn)提供一些入口 URL,也被稱為種子鏈接,然后以這些種子鏈接為起點,按照廣度優(yōu)先或者深度優(yōu)先的策略不斷地爬取和下載頁面。爬蟲技術(shù)解決了互聯(lián)網(wǎng)中海量信息如何獲取的問題。
[0004]聚焦爬蟲技術(shù)與傳統(tǒng)爬蟲技術(shù)的區(qū)別就是聚焦爬蟲只爬取預先設定的特定領域或者主題的網(wǎng)頁。目前聚焦爬蟲技術(shù)多基于網(wǎng)頁內(nèi)容分析,通過下載網(wǎng)頁后,分析網(wǎng)頁內(nèi)容,去除不符合要求的網(wǎng)頁,該過程造成了網(wǎng)絡帶寬和系統(tǒng)處理資源的浪費,分析網(wǎng)頁內(nèi)容時,也浪費大量時間。而目前基于鏈接的聚焦爬蟲,主要判斷鏈接周圍文本和主題的相關程度,但是其中包含的信息量較少,因此基于該方法的聚焦爬蟲的準確率不高。

【發(fā)明內(nèi)容】

[0005]本發(fā)明針對現(xiàn)有技術(shù)的不足之處提供了一種基于鏈接分析的聚焦爬蟲方法,用以解決現(xiàn)有聚焦爬蟲抓取網(wǎng)頁準確率和效率較低的問題。
[0006]為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
[0007]一種基于鏈接分析的聚焦爬蟲方法,其特征在于,包括如下步驟:
[0008](I)抓取網(wǎng)頁,將網(wǎng)頁和目標樣本網(wǎng)頁的結(jié)構(gòu)進行比較,確定目標網(wǎng)頁,從網(wǎng)站入口鏈接開始,記錄爬蟲到目標網(wǎng)頁的每一條鏈接路徑,建立目標網(wǎng)頁鏈接樹;
[0009](2)分析目標網(wǎng)頁鏈接樹,歸納鏈接樹中目標網(wǎng)頁路徑上的鏈接,替換鏈接樹中的鏈接,形成鏈接模版樹;
[0010](3)爬蟲使用鏈接模版樹作為導航,抓取與鏈接模版樹相匹配的網(wǎng)頁鏈接,直到整個抓取循環(huán)過程結(jié)束,最終抓取完所有目標網(wǎng)頁。
[0011]作為優(yōu)選,步驟(I)中,所述建立目標網(wǎng)頁鏈接樹的具體步驟如下:
[0012](11)選擇一個目標網(wǎng)頁作為目標樣本網(wǎng)頁,用于比較將下載的網(wǎng)頁結(jié)構(gòu);
[0013](12)初始化鏈接樹,即將鏈接樹設置為一棵空樹;
[0014](13)初始化鏈接隊列,將網(wǎng)站的入口鏈接加入到鏈接隊列尾部;
[0015](14)從鏈接隊列頭部取出鏈接,廣度優(yōu)先地抓取網(wǎng)頁;
[0016](15)將抓取的網(wǎng)頁和目標樣本網(wǎng)頁進行比較,如果結(jié)構(gòu)相同,則將該目標網(wǎng)頁的路徑添加到鏈接樹中,將目標網(wǎng)頁的鏈接作為葉子節(jié)點,否則記錄路徑;[0017](16)分析抓取的目標網(wǎng)頁,提取目標網(wǎng)頁中的鏈接,添加到鏈接隊列尾部;
[0018](17)抓取的網(wǎng)頁依層數(shù)遞增,如果沒有達到閾值,繼續(xù)循環(huán)地按層次廣度優(yōu)先抓取網(wǎng)頁,否則目標網(wǎng)頁鏈接樹建立過程結(jié)束。
[0019]作為優(yōu)選,步驟(15)中,所述抓取的網(wǎng)頁和目標樣本網(wǎng)頁進行比較的步驟如下:
[0020](151)將目標樣本網(wǎng)頁和抓取的網(wǎng)頁轉(zhuǎn)換成DOM樹(DocumentObjectModel,文檔對象化模型),就是將網(wǎng)頁解析成HTML標簽樹——DOM樹的結(jié)構(gòu);
[0021](152)使用層次遍歷的方法比較兩個DOM樹的結(jié)構(gòu)是否相同;
[0022](153)使用數(shù)據(jù)結(jié)構(gòu)中的隊列作為輔助結(jié)構(gòu),比較DOM樹中每一層的HTML標簽,如果標簽相同,繼續(xù)比較,直到遍歷結(jié)束,返回true,反之,如果對應的標簽不一樣,則返回false。
[0023]作為優(yōu)選,步驟(2)中,所述鏈接模版樹的形成包括以下步驟:
[0024](21)將鏈接樹中每一層相似的鏈接聚合,從相似鏈接集合中抽取出正則表達式,比較鏈接之間的相似程度,其中比較鏈接i和鏈接j之間的相似程度公式如下:
【權(quán)利要求】
1.一種基于鏈接分析的聚焦爬蟲方法,其特征在于,包括如下步驟: (1)抓取網(wǎng)頁,將網(wǎng)頁和目標樣本網(wǎng)頁的結(jié)構(gòu)進行比較,確定目標網(wǎng)頁,從網(wǎng)站入口鏈接開始,記錄爬蟲到目標網(wǎng)頁的每一條鏈接路徑,建立目標網(wǎng)頁鏈接樹; (2)分析目標網(wǎng)頁鏈接樹,歸納鏈接樹中目標網(wǎng)頁路徑上的鏈接,替換鏈接樹中的鏈接,形成鏈接模版樹; (3)爬蟲使用鏈接模版樹作為導航,抓取與鏈接模版樹相匹配的網(wǎng)頁鏈接,直到整個抓取循環(huán)過程結(jié)束,最終抓取完所有目標網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述的一種基于鏈接分析的聚焦爬蟲方法,其特征在于,步驟(1)中,所述建立目標網(wǎng)頁鏈接樹的具體步驟如下: (11)選擇一個目標網(wǎng)頁作為目標樣本網(wǎng)頁,用于比較將下載的網(wǎng)頁結(jié)構(gòu); (12)初始化鏈接樹,即將鏈接樹設置為一棵空樹; (13)初始化鏈接隊列,將網(wǎng)站的入口鏈接加入到鏈接隊列尾部; (14)從鏈接隊列頭部取出鏈接,廣度優(yōu)先地抓取網(wǎng)頁; (15)將抓取的網(wǎng)頁和目標樣本網(wǎng)頁進行比較,如果結(jié)構(gòu)相同,則將該目標網(wǎng)頁的路徑添加到鏈接樹中,將目標網(wǎng)頁的鏈接作為葉子節(jié)點,否則記錄路徑; (16)分析抓取的目標網(wǎng)頁,提取目標網(wǎng)頁中的鏈接,添加到鏈接隊列尾部; (17)抓取的網(wǎng)頁依層數(shù)遞增,如果沒有達到閾值,繼續(xù)循環(huán)地按層次廣度優(yōu)先抓取網(wǎng)頁,否則目標網(wǎng)頁鏈接樹建立過程結(jié)束。
3.根據(jù)權(quán)利要求2所述的一種基于鏈接分析的聚焦爬蟲方法,其特征在于,步驟(15)中,所述抓取的網(wǎng)頁和目標樣本網(wǎng)頁進行比較的步驟如下: (151)將目標樣本網(wǎng)頁和抓取的網(wǎng)頁轉(zhuǎn)換成DOM樹(DocumentObjectModel,文檔對象化模型),就是將網(wǎng)頁解析成HTML標簽樹——DOM樹的結(jié)構(gòu); (152)使用層次遍歷的方法比較兩個DOM樹的結(jié)構(gòu)是否相同; (153)使用數(shù)據(jù)結(jié)構(gòu)中的隊列作為輔助結(jié)構(gòu),比較DOM樹中每一層的HTML標簽,如果標簽相同,繼續(xù)比較,直到遍歷結(jié)束,返回true,反之,如果對應的標簽不一樣,則返回false。
4.根據(jù)權(quán)利要求1所述的一種基于鏈接分析的聚焦爬蟲方法,其特征在于,步驟(2)中,所述鏈接模版樹的形成包括以下步驟: (21)將鏈接樹中每一層相似的鏈接聚合,從相似鏈接集合中抽取出正則表達式,比較鏈接之間的相似程度,其中比較鏈接i和鏈接j之間的相似程度公式如下:
,a/..、 pre(i, j) 0 pre(i, j) tail(i, j) ,, taiHi, j) NUSi I, j) = αχ-~x-^-+ βχ-~^^-+vx————
/t"7(/)Ien(J)Ien(J)Ien(J) pre(i, j)表示URLJP URLj相同的前綴字符個數(shù),Ien (i)表示URLi的字符個數(shù),Ien (j)表示URLj的字符個數(shù),tail (i, j)表示URLi和URLj相同的后綴字符個數(shù),α、β、Y和δ是歸一化因子,O ( a ^ 1,0 ^ β ^ 1,0 ^ Y ^ 1,0 ^ δ ≤ I且 α+β + Υ + δ =1,使得NUS (i,j)在O到I之間,值越大表示鏈接相似度越高。 (22)判斷鏈接樹中每一層節(jié)點的相似度,將每一層相似的鏈接聚合成一類,對于每一類中的鏈接使用正則表達式來歸納,并用正則表達式表示的鏈接替代鏈接樹中的鏈接。
5.根據(jù)權(quán)利要求4所述的一種基于鏈接分析的聚焦爬蟲方法,其特征在于,步驟(22)中,所述聚合的每一類鏈接,使用正則表達式歸納的步驟如下: (221)將鏈接分為host和path兩個部分,并將host和path分別處理; (222)將host中相同部分保留原樣,寫入正則表達式,不同部分用*代替寫入正則表達式; (223)將path部分按照路徑長度再次劃分為路徑段,依次比較路徑,只要有不相同的部分,則結(jié)束比較,未比較的路徑段使用*代替,相同的部分原樣寫入正則表達式,直到比較結(jié)束; (224)最后將host和path的正則表達式合并,形成一個以正則表達式表示的鏈接。
6.根據(jù)權(quán)利要求1所述的一種基于鏈接分析的聚焦爬蟲方法,其特征在于,步驟(3)中,所述爬蟲使用鏈接模版樹作為導航的具體步驟為: (31)初始化鏈接隊列,將網(wǎng)頁入口地址加入到鏈接隊列尾端; (32)從鏈接隊列頭 部取出鏈接,下載鏈接對應的網(wǎng)頁,分析網(wǎng)頁內(nèi)容并提取出網(wǎng)頁中的鏈接; (33)將網(wǎng)頁中提取出的鏈接和鏈接模版樹中對應層的鏈接模版進行比較,如果匹配,則加入到鏈接隊列尾端,否則舍棄; (34)判斷爬蟲抓取是否達到閾值,是則停止爬蟲,否則重復(32)和(33),直到爬蟲達到設定的抓取層數(shù)。
【文檔編號】G06F17/30GK103984749SQ201410227771
【公開日】2014年8月13日 申請日期:2014年5月27日 優(yōu)先權(quán)日:2014年5月27日
【發(fā)明者】屈鴻, 周安林, 張馬路, 孫明, 邵領 申請人:電子科技大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1