專利名稱:一種聚焦爬蟲(chóng)的設(shè)計(jì)方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域,具體來(lái)講,涉及一種聚焦爬蟲(chóng)的設(shè)計(jì)方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)已成為大量信息的載體,其中的信息呈現(xiàn)爆炸式的增長(zhǎng),這些海量互聯(lián)網(wǎng)的信息資源包含著巨大的潛在價(jià)值,如何有效,快捷地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn),因而各種網(wǎng)絡(luò)爬蟲(chóng)技術(shù)應(yīng)運(yùn)而生,例如傳統(tǒng)的通用網(wǎng)絡(luò)爬蟲(chóng),主題網(wǎng)絡(luò)爬蟲(chóng),增量式網(wǎng)絡(luò)爬蟲(chóng)與深層網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)。網(wǎng)絡(luò)爬蟲(chóng)是一種自動(dòng)WEB網(wǎng)頁(yè)抓取程序,可以從互聯(lián)網(wǎng)中爬取(抓取)相關(guān)有用的網(wǎng)頁(yè)資源。
傳統(tǒng)網(wǎng)絡(luò)爬蟲(chóng)從一個(gè)或者若干個(gè)初始的URL開(kāi)始,爬取網(wǎng)頁(yè)源碼信息并從當(dāng)前網(wǎng)頁(yè)信息中提取新的URL放入隊(duì)列,如此循環(huán)處理URL隊(duì)列中URL對(duì)應(yīng)的頁(yè)面,直至滿足系統(tǒng)設(shè)定的停止條件。通常聚焦爬蟲(chóng)在具體處理URL時(shí),需要一定的網(wǎng)頁(yè)分析算法,過(guò)濾與主題無(wú)關(guān)的URL鏈接,保留有用的URL鏈接并將其放入U(xiǎn)RL等待隊(duì)列中,此外,還要根據(jù)一定的URL搜索策略從隊(duì)列中選擇下一個(gè)要抓取的URL,重復(fù)以上過(guò)程,直到達(dá)到系統(tǒng)的終止條件。聚焦爬蟲(chóng)獲取的網(wǎng)頁(yè)會(huì)被系統(tǒng)存儲(chǔ),進(jìn)行一定的分析,過(guò)濾處理,獲得與主題或領(lǐng)域相關(guān)性強(qiáng)的信息,它的關(guān)鍵技術(shù)包括(I)本體信息描述或定義;(2)網(wǎng)頁(yè)URL搜索策略;
(3)網(wǎng)頁(yè)分析與過(guò)濾算法等。首先聚焦爬蟲(chóng)對(duì)本體信息的描述可分為基于目標(biāo)網(wǎng)頁(yè)特征、基于目標(biāo)數(shù)據(jù)模式和基于領(lǐng)域概念三種,基于目標(biāo)網(wǎng)頁(yè)特征的爬蟲(chóng)是針對(duì)預(yù)定的網(wǎng)頁(yè)或網(wǎng)站進(jìn)行抓取,基于目標(biāo)數(shù)據(jù)模式的爬蟲(chóng)是針對(duì)符合一定模式的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行抓取,而基于領(lǐng)域概念的爬蟲(chóng)則是建立領(lǐng)域本體或字,并從語(yǔ)義角度去度量不同特征的重要程度。然后聚焦爬蟲(chóng)通常按照一定的搜索策略訪問(wèn)網(wǎng)頁(yè)中的鏈接,按照網(wǎng)絡(luò)的構(gòu)造模式,搜索策略有廣度優(yōu)先、深度優(yōu)先、最佳優(yōu)先三種形式。深度優(yōu)先搜索對(duì)網(wǎng)頁(yè)的超鏈接遍歷直到不能深入為止,廣度優(yōu)先搜索按層抓取網(wǎng)頁(yè)中的超鏈接,最佳優(yōu)先搜索通過(guò)一定的頁(yè)面分析算法來(lái)獲取目標(biāo)網(wǎng)頁(yè)的超鏈接。最后聚焦爬蟲(chóng)需要對(duì)抓取的頁(yè)面進(jìn)行分析過(guò)濾,去掉相關(guān)度低或者網(wǎng)頁(yè)粒度小的頁(yè)面,此頁(yè)面分析算法歸納為三種基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、基于頁(yè)面內(nèi)容、基于用戶訪問(wèn)行為?;诰W(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的思想,主要對(duì)已知的網(wǎng)頁(yè),對(duì)與其有直接或間接鏈接關(guān)系的對(duì)象做出評(píng)價(jià);基于網(wǎng)頁(yè)內(nèi)容的分析算法利用網(wǎng)頁(yè)內(nèi)容特征對(duì)其進(jìn)行網(wǎng)頁(yè)評(píng)價(jià),如對(duì)網(wǎng)頁(yè)中文本和數(shù)據(jù)分析,計(jì)算出和主題的相關(guān)度;基于用戶的訪問(wèn)模式可以反映資源的重要性和與主題相關(guān)性,能隨時(shí)反映網(wǎng)絡(luò)鏈接的變化。目前針對(duì)聚焦爬蟲(chóng)提出了一些不同的技術(shù)方案,比較著名的有Heritrix與Nutch等。前者由互聯(lián)網(wǎng)檔案館和北歐國(guó)家圖書(shū)館聯(lián)合開(kāi)發(fā)的,采用了模塊化的設(shè)計(jì),它由一些核心類與可插件模塊構(gòu)成,核心類可以配置,滿足實(shí)際配置需求,插件模塊可任由第三方模塊取代,可以不斷的被其感興趣的第三方改進(jìn),已成為一個(gè)比較成熟的開(kāi)源爬蟲(chóng),并被廣泛使用。后者是一個(gè)開(kāi)放源代碼的WEB搜索引擎,提供了 Web聚焦爬蟲(chóng)模塊(crawler),它首先根據(jù)WebDB生成一個(gè)待爬取網(wǎng)頁(yè)的URL集合(list),接著下載線程根據(jù)I i st中的URL爬取網(wǎng)頁(yè),然后再根據(jù)爬取回來(lái)的網(wǎng)頁(yè)WebDB進(jìn)行更新,生成新的URL集合,里面包含未爬取或新發(fā)現(xiàn)的URL,如此操作,合并各階段list中URL的索引,生成最終待爬取網(wǎng)頁(yè)的索引。它的實(shí)現(xiàn)是通過(guò)一系列子操作的實(shí)現(xiàn)來(lái)完成的,針對(duì)這些子操作都提供了相應(yīng)的子命令行,單獨(dú)進(jìn)行調(diào)試。通過(guò)以上相關(guān)聚焦爬蟲(chóng)的分析發(fā)現(xiàn),目前已經(jīng)存在的網(wǎng)絡(luò)爬蟲(chóng)仍有許多值得研究的領(lǐng)域,例如傳統(tǒng)的聚焦爬蟲(chóng)往往針對(duì)預(yù)先指定的網(wǎng)站或網(wǎng)頁(yè)進(jìn)行爬取,而如何合理的利用海量的互聯(lián)網(wǎng)信息、根據(jù)領(lǐng)域信息快速丟棄與領(lǐng)域相關(guān)性弱的網(wǎng)頁(yè)、有效定位所采集的信息資源等問(wèn)題等方面研究較少。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種更為快速、有效的爬取網(wǎng)絡(luò)資源的聚焦爬蟲(chóng)的設(shè)計(jì)方法。為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明聚焦爬蟲(chóng)的設(shè)計(jì)方法,其特征在于,包括以下步驟(I)、配置領(lǐng)域本體的描述信息并作為聚焦爬蟲(chóng)的模板,這些描述信息包括搜索關(guān)鍵詞、篩選關(guān)鍵詞、爬取關(guān)鍵詞;其中,搜索關(guān)鍵詞是指提交給搜索引擎進(jìn)行資源檢索的關(guān)鍵詞,篩選關(guān)鍵詞是指根據(jù)搜索引擎的反饋結(jié)果進(jìn)行爬取的資源中包含的需要進(jìn)行進(jìn)一步篩選的超鏈接(URL)所對(duì)應(yīng)的關(guān)鍵詞,爬取關(guān)鍵詞是指最終要爬取的有效信息所對(duì)應(yīng)的關(guān)鍵詞;(2)、選擇爬蟲(chóng)模板的搜索關(guān)鍵詞提交給搜索引擎進(jìn)行資源檢索,獲取本領(lǐng)域網(wǎng)頁(yè)URL信息,形成初始種子URL序列N ;(3)、從初始種子URL序列N中依次取出種子URL交給的爬蟲(chóng)處理線程3. I )、在爬蟲(chóng)處理線程進(jìn)行分析處理種子URL時(shí),根據(jù)取出的種子URL在初始種子URL序列N之前種子URL的有效性即是否提取到有用信息,以一定的爬取概率P選取種子URL進(jìn)行資源爬取,實(shí)現(xiàn)對(duì)種子URL的有效過(guò)濾,提高URL的處理效率;3. 2)、依據(jù)爬蟲(chóng)模板的篩選關(guān)鍵詞,對(duì)步驟3. I)選取的種子URL進(jìn)行深度遍歷搜索,并獲取包含篩選關(guān)鍵詞的URL超鏈接隊(duì)列;3. 3)、依據(jù)爬蟲(chóng)模板的爬取關(guān)鍵詞對(duì)步驟3. 2)獲取的URL超鏈接隊(duì)列中的URL依次進(jìn)行頁(yè)面源碼分析,對(duì)頁(yè)面中的標(biāo)簽進(jìn)行權(quán)重分析,定位出有用信息在頁(yè)面源碼中的位置,提取出有用的信息,并存入數(shù)據(jù)庫(kù)中。本發(fā)明的發(fā)明目的是這樣實(shí)現(xiàn)的本發(fā)明聚焦爬蟲(chóng)的設(shè)計(jì)方法,通過(guò)搜索引擎檢索到與領(lǐng)域相關(guān)的本領(lǐng)域網(wǎng)頁(yè)URL資源,而非針對(duì)少數(shù)特定的網(wǎng)站,豐富了 URL資源的數(shù)量;針對(duì)URL資源與領(lǐng)域的相關(guān)性強(qiáng)弱,采用一定的概率選取種子URL進(jìn)行資源爬取,即以一定的概率不處理與領(lǐng)域相關(guān)性弱的URL資源,提高了 URL資源的處理效率,使爬取資源更為快速;最后利用網(wǎng)頁(yè)標(biāo)簽的權(quán)重分析有針對(duì)性的獲取待爬取的信息,提高信息的有效性。
圖I是本發(fā)明聚焦爬蟲(chóng)的設(shè)計(jì)方法一種實(shí)施方式流程圖。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式
進(jìn)行描述,以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當(dāng)已知功能和設(shè)計(jì)的詳細(xì)描述也許會(huì)淡化本發(fā)明的主要內(nèi)容時(shí),這些描述在這里將被忽略。圖I是本發(fā)明聚焦爬蟲(chóng)的設(shè)計(jì)方法一種實(shí)施方式流程圖。在本實(shí)施例中,如圖I所示,本發(fā)明聚焦爬蟲(chóng)設(shè)計(jì)方法包括以下步驟ST1、配置領(lǐng)域本體的描述信息并作為聚焦爬蟲(chóng)的模板,這些描述信息包括搜索關(guān)鍵詞、篩選關(guān)鍵詞、爬取關(guān)鍵詞,分別作為爬蟲(chóng)模板的三級(jí)信息。在本實(shí)施中,采用百度作為搜索引擎,設(shè)置爬蟲(chóng)模板中的搜索關(guān)鍵詞由本體名“軟件公司”和擴(kuò)展域“四川”兩部分組成,篩選關(guān)鍵詞包含一層即“聯(lián)系我們(聯(lián)系)”,爬取關(guān)鍵詞包括“名稱”、“地址(address ) ”、“聯(lián)系方式(電話、手機(jī)、總機(jī)、熱線)”、“郵箱(E-mai I) ”、“網(wǎng)址(公司主頁(yè))”、“傳真(fax、FAX)”、“郵編(郵政編碼)”、“QQ”,其中上面括號(hào)中的內(nèi)容是關(guān)鍵詞的同義詞。配置好爬蟲(chóng)模板后,將會(huì)為這些關(guān)鍵詞訓(xùn)練成正則表達(dá)式,為后面信息處理做準(zhǔn)備,如“郵箱”對(duì)應(yīng)的正則表達(dá)式是〃郵.10,50}箱〃。ST2、選擇爬蟲(chóng)模板的搜索關(guān)鍵詞提交給搜索引擎進(jìn)行資源檢索,獲取本領(lǐng)域網(wǎng)頁(yè)URL信息,形成初始種子URL序列N。頁(yè)面下載是建立在HTTP請(qǐng)求和回應(yīng)的基礎(chǔ)上的,Java作為時(shí)下流行的開(kāi)發(fā)語(yǔ)言,可以引用HttpParser、HttpClient等提供的強(qiáng)大而靈活易用的開(kāi)源類庫(kù)。為使抓取的網(wǎng)頁(yè)、網(wǎng)絡(luò)訪問(wèn)效率符合要求,爬蟲(chóng)還需要進(jìn)一步做如下處理。首先,在HTTP請(qǐng)求中添加頭信息,將爬蟲(chóng)偽裝成瀏覽器向服務(wù)器發(fā)出請(qǐng)求,通常服務(wù)器根據(jù)客戶端瀏覽器的USer_Agent來(lái)判斷用戶使用的是什么瀏覽器并返回請(qǐng)求??梢栽谂老x(chóng)的RequestProperty設(shè)置如下HttpURLConnection. setRequestProperty ("User-Agent", "Mozilla/5. O (Windows;U;ffindows NT 6. I; zh_CN; rv: I. 9. 2. 16)Gecko/20110319 Firefox/3. 6. 16"),這樣爬蟲(chóng)就偽裝成Windows下的Firefox瀏覽器。其次,網(wǎng)頁(yè)編碼一般可分為UTF-8和GBK兩種格式,系統(tǒng)采用GBK為默認(rèn)編碼格式,為避免出現(xiàn)亂碼和方便后續(xù)的信息處理工作,在信息爬取階段對(duì)不同的頁(yè)面進(jìn)行統(tǒng)一編碼,將UTF-8編碼格式的頁(yè)面轉(zhuǎn)為GBK編碼。對(duì)頁(yè)面編碼格式的判斷時(shí),通過(guò)包括兩種方式第一種是根據(jù)HTTP返回的頭信息即通過(guò)HttpURLConnection. getHeaderFields O讀取編碼信息,若此時(shí)服務(wù)器返回的頭信息中不包含編碼信息,則采用第二種方式,即讀取頁(yè)面源碼的前 100 行,在 head 區(qū)域內(nèi)如〈meta http-equiv=content_type content=〃text/html; charset=GBK〃>中得到編碼格式。在本實(shí)施中,分析搜索引擎的搜索URL形式,一般形式為搜索引擎域名+搜索關(guān)鍵詞+搜索結(jié)果起始條數(shù),如百度搜索“四川軟件公司”的URL形式為 http://www.baidu. com/s wd=%E5%9B%9B%E5%B7%9D%20%E8%BD%AF%E4%BB%B6%E5%85%AC%E5%8F%B8&pn=0,其中wd=后面為搜索關(guān)鍵詞的GB2312編碼,&pn=表示當(dāng)前結(jié)果URL為百度搜索結(jié)果的第O條開(kāi)始。可以通過(guò)提交搜索關(guān)鍵詞、設(shè)置搜索結(jié)果起始條數(shù)得到搜索結(jié)果頁(yè)面URL,下載頁(yè)面源碼并通過(guò)正則表達(dá)式得到頁(yè)面提供的搜索結(jié)果URL,百度一般可以訪問(wèn)76頁(yè)的搜索頁(yè)面,每個(gè)頁(yè)面包含10個(gè)URL。搜索引擎采用搜索關(guān)鍵詞“四川軟件公司”進(jìn)行資源檢索,將搜索結(jié)果放入U(xiǎn)RL序列N,經(jīng)過(guò)去重,在數(shù)據(jù)庫(kù)中保存,得到初始種子URL序列N,初始種子URL序列N和該領(lǐng)域有一定的有序相關(guān)性。初始種子URL序列N中部分搜索結(jié)果如表I所示。
序列號(hào)URL
1http://www.hysware.com/
2http://www. klsoft. net/
3http://www.qssoft.cn/
4http://www.yinhai.com/
5http://www.cduftc.cn/
6http://www.hreesoft.com/
7http://www.westarsoft.com/
8www. docin. com/p-393329390. html
9http://www.teamsfy.com/
10http://www. it611. com/表IST3、從初始種子URL序列N中依次取出種子URL交給的爬蟲(chóng)處理線程。在本實(shí)施例中,依次取出是首先判斷初始種子URL序列N是否為空,不為空則將排在初始種子URL序列N第一的種子URL取出,如果初始種子URL序列N為空則結(jié)束爬取。3. I)、在爬蟲(chóng)處理線程進(jìn)行分析處理種子URL時(shí),根據(jù)取出的種子URL在初始種子URL序列N之前種子URL的有效性即是否提取到有用信息,以一定的概率P選取種子URL進(jìn)行資源爬取,實(shí)現(xiàn)對(duì)URL的有效過(guò)濾,提高URL的處理效率。在本實(shí)施例中,根據(jù)搜索引擎檢索出的初始種子URL序列N的特性序列N前面的URL頁(yè)面內(nèi)容的領(lǐng)域相關(guān)性強(qiáng),后面的URL頁(yè)面內(nèi)容的領(lǐng)域相關(guān)性弱,形成了一種有效的URL過(guò)濾策略,則爬取概率P的計(jì)算公式如下P=I-(s+f)/(2n)其中,η是初始種子URL序列N包含初始種子URL的數(shù)目,s為取出的種子URL在初始種子URL序列N中的位置序列號(hào),f為取出的種子URL在初始種子URL序列N之前的種子URL中未提取到有用信息的種子URL的數(shù)目。 在本實(shí)施中,采用以一定概率I-P丟棄種子URL的策略對(duì)URL進(jìn)行過(guò)濾,在本實(shí)施例中,當(dāng)初始種子URL序列N中數(shù)量為種子URL的數(shù)目為表I中的數(shù)量時(shí),對(duì)表I中的種子URL進(jìn)行分析,得到相應(yīng)的爬取概率P,如表2所示。
位置序列號(hào)I種子URLI爬取概率
1http://www.hysware.com/95%
2http://www.klsoft.net/90%
3http://www.qssoft.cn/85%
4http://www.yinhai.com/80%
5http://www.cduftc.cn/75%
6http://www.hreesoft.com/70%
7http://www.westarsoft.com/65%
8http://www. docin. com/p-393329390. html60%
9http://www.teamsfy.com/50%
10http://www. it611. com/45%表2其中,位置序列I到7種子URL對(duì)應(yīng)的頁(yè)面均能爬取到有用信息,此時(shí)當(dāng)前未提取到有用信息的URL的數(shù)目f為0,序列8對(duì)應(yīng)的URL未提取到有用信息,導(dǎo)致f加1,依據(jù)爬取概率公式可以得到表2中的爬取概率P。當(dāng)具體處理某個(gè)種子URL時(shí),以一定爬取概率P對(duì)此種子URL進(jìn)行爬取,若爬取,則對(duì)其進(jìn)行爬取分析。在本實(shí)施中,選用“四川軟件公司”作為搜索關(guān)鍵詞,通過(guò)對(duì)搜索引擎獲取的初始種子URL序列N進(jìn)行分析,可得相應(yīng)URL過(guò)濾策略的準(zhǔn)確性如下表3所示。
總數(shù)B提取出有效 信息的數(shù)0 爬取_種子URL9218 6
丟棄的種子URL464248表3由表3可以發(fā)現(xiàn),丟棄的種子URL中包含的有效信息的數(shù)量較少,對(duì)于丟棄的種子URL在下次爬取周期中予以補(bǔ)充更新。
3. 2)、依據(jù)爬蟲(chóng)模板的篩選關(guān)鍵詞,對(duì)步驟3. I)選取的種子URL進(jìn)行深度遍歷搜索,并獲取包含篩選關(guān)鍵詞的URL超鏈接隊(duì)列;在由當(dāng)前URL獲取頁(yè)面子URL時(shí),存在URL補(bǔ)齊的現(xiàn)象。通過(guò)下載頁(yè)面源碼獲取包含篩選關(guān)鍵詞的超鏈接,大多是相對(duì)路徑,因而需要對(duì)其擴(kuò)展為絕對(duì)路徑。如表I中序列號(hào)I對(duì)應(yīng)的URL http://www. hysware. com/,它的種子URL頁(yè)面源碼中“聯(lián)系我們”對(duì)應(yīng)的超鏈接是相對(duì)路徑“l(fā)x. asp”,可以采用URL. getHost ()方法得到主機(jī)名為“www. hysware. com”,經(jīng)過(guò)擴(kuò)展可以得到子URL是http://www. hysware. com/lx. asp,再對(duì)此子 URL 進(jìn)行下一步處理。由于描述信息中的篩選關(guān)鍵詞采用多層配置方式,首先分析種子URL源碼中是否包含第一層篩選關(guān)鍵詞,若包含,獲取相應(yīng)的URL,形成篩選隊(duì)列;若有下一層篩選關(guān)鍵詞,則對(duì)篩選隊(duì)列中的各URL頁(yè)面獲取此層篩選關(guān)鍵詞對(duì)應(yīng)的URL超鏈接,這些新的URL超鏈接覆蓋舊的URL,構(gòu)成新的URL篩選隊(duì)列;重復(fù)上過(guò)程,直到不再有下一層篩選關(guān)鍵詞,從而得到最終進(jìn)行信息提取的URL超鏈接隊(duì)列。同時(shí),在每一層篩選關(guān)鍵詞對(duì)URL頁(yè)面進(jìn)行分析時(shí),若頁(yè)面包含“下一頁(yè)”,則判斷當(dāng)前頁(yè)面是否包含此層篩選關(guān)鍵詞,若包含,則將當(dāng)前URL加入篩選隊(duì)列,并繼續(xù)獲取“下一頁(yè)”對(duì)應(yīng)的URL超鏈接進(jìn)行分析;若不包含,則不將此URL加入篩選隊(duì)列,也不再獲取“下一頁(yè)”對(duì)應(yīng)的URL超鏈接。另外,在每次獲取篩選隊(duì)列時(shí),采用去重存儲(chǔ),避免URL重新指回舊鏈接,造成無(wú)限死循環(huán)。在本實(shí)施中,讀取第一層篩選關(guān)鍵詞是“聯(lián)系我們(聯(lián)系)”,表I中序列號(hào)7中的URL頁(yè)面包含“聯(lián)系方式”和“下一頁(yè)”,其中“聯(lián)系方式”對(duì)應(yīng)的超鏈接可以通過(guò)篩選關(guān)鍵詞“聯(lián)系”匹配到。首先得到當(dāng)前頁(yè)“聯(lián)系方式”對(duì)應(yīng)的超鏈接放入篩選隊(duì)列中,再獲取“下一頁(yè)” URL的超鏈接,并對(duì)其頁(yè)面獲取“聯(lián)系方式”對(duì)應(yīng)的超鏈接放入篩選隊(duì)列,循環(huán)執(zhí)行此過(guò)程,直到不再有“下一頁(yè)”的頁(yè)面存在為止。判斷是否有下一層篩選關(guān)鍵詞,若有,則對(duì)上一 層得到的篩選隊(duì)列執(zhí)行上述的篩選過(guò)程,若無(wú),則終止篩選。重復(fù)上述過(guò)程,直到不存在下一層篩選關(guān)鍵詞,最后一層篩選關(guān)鍵詞得到的篩選隊(duì)列即為最終進(jìn)行信息提取的URL超鏈接隊(duì)列。在本實(shí)施中,依據(jù)此方法可以得到篩選后的子URL如下表,其中,種子URL7號(hào)的子URL鏈接僅展示3%的數(shù)據(jù),如表4所示。
權(quán)利要求
1.一種聚焦爬蟲(chóng)的設(shè)計(jì)方法,其特征在于,包括以下步驟 (1)、配置領(lǐng)域本體的描述信息并作為聚焦爬蟲(chóng)的模板,這些描述信息包括搜索關(guān)鍵詞、篩選關(guān)鍵詞、爬取關(guān)鍵詞;其中,搜索關(guān)鍵詞是指提交給搜索引擎進(jìn)行資源檢索的關(guān)鍵詞,篩選關(guān)鍵詞是指根據(jù)搜索引擎的反饋結(jié)果進(jìn)行爬取的資源中包含的需要進(jìn)行進(jìn)一步篩選的超鏈接(URL)所對(duì)應(yīng)的關(guān)鍵詞,爬取關(guān)鍵詞是指最終要爬取的有效信息所對(duì)應(yīng)的關(guān)鍵詞; (2)、選擇爬蟲(chóng)模板的搜索關(guān)鍵詞提交給搜索引擎進(jìn)行資源檢索,獲取本領(lǐng)域網(wǎng)頁(yè)URL信息,形成初始種子URL序列N ; (3)、從初始種子URL序列N中依次取出種子URL交給的爬蟲(chóng)處理線程 3. I)、在爬蟲(chóng)處理線程進(jìn)行分析處理種子URL時(shí),根據(jù)取出的種子URL在初始種子URL序列N之前種子URL的有效性即是否提取到有用信息,以一定的爬取概率P選取種子URL進(jìn)行資源爬取,實(shí)現(xiàn)對(duì)種子URL的有效過(guò)濾,提高URL的處理效率; 3. 2)、依據(jù)爬蟲(chóng)模板的篩選關(guān)鍵詞,對(duì)步驟3. I)選取的種子URL進(jìn)行深度遍歷搜索,并獲取包含篩選關(guān)鍵詞的URL超鏈接隊(duì)列; 3. 3)、依據(jù)爬蟲(chóng)模板的爬取關(guān)鍵詞對(duì)步驟3. 2)獲取的URL超鏈接隊(duì)列中的URL依次進(jìn)行頁(yè)面源碼分析,對(duì)頁(yè)面中的標(biāo)簽進(jìn)行權(quán)重分析,定位出有用信息在頁(yè)面源碼中的位置,提取出有用的信息,并存入數(shù)據(jù)庫(kù)中。
2.根據(jù)權(quán)利要求I所述的聚焦爬蟲(chóng)的設(shè)計(jì)方法,其特征在于,所述爬取概率P為P=I-(s+f)/(2n) 其中,η是初始種子URL序列N包含初始種子URL的數(shù)目,s為取出的種子URL在初始種子URL序列N中的位置序列號(hào),f為取出的種子URL在初始種子URL序列N之前的種子URL中未提取到有用信息的種子URL的數(shù)目。
3.根據(jù)權(quán)利要求I所述的聚焦爬蟲(chóng)的設(shè)計(jì)方法,其特征在于,還包括以下步驟 在間隔一段時(shí)間后,重新選擇爬蟲(chóng)模板的搜索關(guān)鍵詞提交給搜索引擎進(jìn)行資源檢索,獲得新的初始種子URL序列N,然后,重新進(jìn)行步驟3. I )、步驟3. 2),得到新的URL超鏈接隊(duì)列,然后與上一時(shí)間窗口獲得的URL超鏈接隊(duì)列進(jìn)行比較,對(duì)于新的URL,則按照步驟3. 3)提取出有用的信息,并存入數(shù)據(jù)庫(kù)中;對(duì)于已有的URL,則獲取對(duì)應(yīng)頁(yè)面的信息并求其MD5值,并與上次時(shí)間窗口爬取的頁(yè)面信息生成的MD5值進(jìn)行比較,若不同,則進(jìn)行步驟3. 3)重新爬取,并將新爬取到的信息存入數(shù)據(jù)庫(kù)中;對(duì)于沒(méi)有的URL,則將數(shù)據(jù)庫(kù)中對(duì)應(yīng)的信息刪除。
全文摘要
本發(fā)明公開(kāi)了一種聚焦爬蟲(chóng)的設(shè)計(jì)方法,通過(guò)搜索引擎檢索到與領(lǐng)域相關(guān)的本領(lǐng)域網(wǎng)頁(yè)URL資源,而非針對(duì)少數(shù)特定的網(wǎng)站,豐富了URL資源的數(shù)量;針對(duì)URL資源與領(lǐng)域的相關(guān)性強(qiáng)弱,采用一定的概率選取種子URL進(jìn)行資源爬取,即以一定的概率不處理與領(lǐng)域相關(guān)性弱的URL資源,提高了URL資源的處理效率,使爬取資源更為快速;最后利用網(wǎng)頁(yè)標(biāo)簽的權(quán)重分析有針對(duì)性的獲取待爬取的信息,提高信息的有效性。
文檔編號(hào)G06F17/30GK102930059SQ20121048474
公開(kāi)日2013年2月13日 申請(qǐng)日期2012年11月26日 優(yōu)先權(quán)日2012年11月26日
發(fā)明者陳端兵, 高輝, 傅彥, 張博 申請(qǐng)人:電子科技大學(xué)