專利名稱:基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)頁搜索引擎技術(shù)領(lǐng)域,具體涉及一種基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng)及方法。
背景技術(shù):
隨著信息的不斷膨脹,人們越來越離不開搜索引擎。百度、谷歌等通用搜索引擎雖然給人們提供了很多便利,但是隨著人們需求的多樣化和對搜索結(jié)果質(zhì)量的要求越來越高,通用搜索引擎在一些專門化的領(lǐng)域已經(jīng)不能滿足人們的要求,于是垂直搜索就應(yīng)運而生,它是服務(wù)于局部專業(yè)領(lǐng)域的精確搜索技術(shù),更加專業(yè),返回的結(jié)果更具有針對性,通過特定行業(yè)主題的領(lǐng)域知識,可以提供根據(jù)語義信息的查詢,從而能滿足用戶的特殊搜索需求。隨著垂直搜索引擎的日益流行,作為垂直搜索引擎的關(guān)鍵技術(shù)一聚焦爬蟲也顯得越來越重要。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇地訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。針對垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別具備一定的難度,有如下原因 第一、聚焦爬蟲很難判斷如何從待爬行URL隊列中挑出最可能包含主題相關(guān)信息的網(wǎng)頁進行爬行。第二、現(xiàn)在許多開源爬蟲系統(tǒng)不具備從抓取的網(wǎng)頁中定向提取網(wǎng)頁結(jié)構(gòu)化信息的功能。第三、同一網(wǎng)頁的內(nèi)容和結(jié)構(gòu)常有變化,聚焦爬蟲的重訪策略很難適應(yīng)這一變化。由上可見,采用傳統(tǒng)開源的聚焦爬蟲技術(shù)很難準(zhǔn)確的識別不同類別的網(wǎng)頁。因此,必須另辟蹊徑。本發(fā)明因此而來。
發(fā)明內(nèi)容
本發(fā)明目的在于提供一種基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng),針對導(dǎo)航類網(wǎng)站建立一種基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別方法,并設(shè)計其識別模型和算法,通過對導(dǎo)航類網(wǎng)站的識別,獲取導(dǎo)航類網(wǎng)站中不同分類的URL,便于用戶對網(wǎng)站的精確搜索,同時能給出未知URL所屬的網(wǎng)頁分類。為了解決現(xiàn)有技術(shù)中的這些問題,本發(fā)明提供的技術(shù)方案是—種基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng),其特征在于所述系統(tǒng)包括應(yīng)用表示模塊、數(shù)據(jù)采集模塊和內(nèi)容解析模塊,所述數(shù)據(jù)采集模塊通過Web協(xié)議完成對網(wǎng)頁數(shù)據(jù)的采集,然后將采集到的頁面數(shù)據(jù)交給內(nèi)容解析模塊;所述內(nèi)容解析模塊根據(jù)數(shù)據(jù)采集模塊采集的頁面數(shù)據(jù)進行HTML解析,提取頁面中的超鏈接,將超鏈接加入到URL隊列中,得到網(wǎng)址類別和URL的對應(yīng)關(guān)系表;所述應(yīng)用表示模塊接受用戶輸入關(guān)鍵字進行搜索,將搜索到的特定領(lǐng)域的網(wǎng)址和/或所屬的網(wǎng)址類別結(jié)果反饋給用戶。優(yōu)選的,所述系統(tǒng)設(shè)置在聚焦爬蟲進程和Internet網(wǎng)絡(luò)之間,所述聚焦爬蟲進程按照規(guī)則自動的抓取Internet網(wǎng)絡(luò)的導(dǎo)航站點信息。本發(fā)明的另一目的在于提供一種采用所述系統(tǒng)進行網(wǎng)頁分類識別方法,其特征在于所述方法包括以下步驟(I)創(chuàng)建聚焦爬蟲進程,聚焦爬蟲進程讀取預(yù)設(shè)網(wǎng)址導(dǎo)航站點的URL列表;(2)數(shù)據(jù)采集模塊從URL列表上取出需要進行數(shù)據(jù)采集的站點URL,對取得的URL 進行網(wǎng)頁源碼獲??;內(nèi)容解析模塊利用垂直搜索技術(shù)和聚焦爬蟲技術(shù)對網(wǎng)頁內(nèi)容解析,獲取此站點下的網(wǎng)頁類別信息及各個網(wǎng)頁類別中對應(yīng)的網(wǎng)址信息,并將網(wǎng)頁類別信息及各個網(wǎng)頁類別中對應(yīng)的網(wǎng)址信息加入到Category列表中;依次循環(huán)直至URL列表全部遍歷;所述Category列表存儲已經(jīng)識別的URL和其隸屬的網(wǎng)址類別。優(yōu)選的,于所述方法步驟⑵當(dāng)URL列表為空,則遍歷直接結(jié)束。優(yōu)選的,所述方法步驟(2)當(dāng)數(shù)據(jù)采集模塊從URL列表上取出需要進行數(shù)據(jù)采集的站點URL后,數(shù)據(jù)采集模塊先將需要進行數(shù)據(jù)采集的站點URL放入未訪問URL列表中,當(dāng)未訪問URL列表非空時,從未訪問URL列表取出一 URL,并對取得的URL進行網(wǎng)頁源碼獲取, 并通過內(nèi)容解析模塊對網(wǎng)頁源碼進行解析,并將該URL加入到已訪問URL列表中,并從未訪問URL列表中刪除該URL。優(yōu)選的,所述方法步驟(2)中當(dāng)未訪問URL列表為空時,通知聚焦爬蟲進程讀取預(yù)設(shè)網(wǎng)址導(dǎo)航站點的URL列表。優(yōu)選的,所述方法中當(dāng)從未訪問URL列表取出的URL已經(jīng)訪問過,則繼續(xù)訪問未訪問URL列表的下一 URL。優(yōu)選的,所述方法步驟(2)內(nèi)容解析模塊進行內(nèi)容解析的步驟包括Al)聚焦爬蟲進程抓取取得的URL的網(wǎng)頁源文件,然后根據(jù)正則表達式定時學(xué)習(xí)器模式學(xué)習(xí)得到的網(wǎng)頁結(jié)構(gòu)特征利用正則表達式抽取網(wǎng)頁的結(jié)構(gòu)化信息;A2)使用正則表達式從網(wǎng)頁的結(jié)構(gòu)化信息中提取符合網(wǎng)址分類信息的新鏈接;并將新鏈接加入URL隊列中;A3)從URL隊列中取出URL,循環(huán)判斷此URL是否滿足應(yīng)用表示模塊的搜索策略, 若滿足搜索策略,則將此URL和對應(yīng)的網(wǎng)址類別加入到網(wǎng)址類別表Category中。優(yōu)選的,所述方法步驟A2)所述正則表達式按照廣度優(yōu)先的策略從源文件中抓取新鏈接。優(yōu)選的,所述方法步驟Al)當(dāng)正則表達式定時學(xué)習(xí)器不能識別網(wǎng)頁結(jié)構(gòu)特征時, 直接進行URL隊列中是否滿足應(yīng)用表示模塊的搜索策略的判斷。優(yōu)選的,所述方法步驟A3)中若不滿足搜索策略時,則繼續(xù)判斷URL隊列中下一 URL是否滿足搜索策略的步驟。本發(fā)明通過對垂直搜索和聚焦爬蟲技術(shù)的研究,能夠解決以下問題1)利用垂直搜索和聚焦爬蟲從導(dǎo)航網(wǎng)站上獲取不同分類對應(yīng)的網(wǎng)址。2)能夠根據(jù)用戶對特定行業(yè)主題的特殊搜索返回有針對性的精確搜索結(jié)果。3)通過垂直搜索和聚焦爬蟲獲得分類網(wǎng)站上一個未知URL所屬的網(wǎng)頁分類。本發(fā)明基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別方法,提供了一種有效識別導(dǎo)航類網(wǎng)站中各分類URL的技術(shù)框架,并且詳細(xì)設(shè)計了識別算法。系統(tǒng)分為三個模塊,從下往上依次是數(shù)據(jù)采集模塊、內(nèi)容解析層和應(yīng)用表示層。本發(fā)明基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別方法,關(guān)鍵步驟在于兩個部分網(wǎng)頁源碼獲取和網(wǎng)頁內(nèi)容解析法。其中網(wǎng)頁內(nèi)容解析法是核心,它包括兩個主要的部分抽取網(wǎng)頁的結(jié)構(gòu)化信息和聚焦爬蟲的爬行策略。通過對導(dǎo)航網(wǎng)站網(wǎng)頁源碼的研究發(fā)現(xiàn) 導(dǎo)航類網(wǎng)站基本上有兩種頁面組成一主目錄頁面和各個分類的子目錄頁面,主目錄頁面包含大量的指向各個分類子頁面的鏈接,而各個分類的子目錄頁面則包含屬于該分類的網(wǎng)站的鏈接。同一個導(dǎo)航網(wǎng)站上各個分類的子目錄頁面也有著很強的相似性,也就是說這些頁面中都有相似的結(jié)構(gòu),可以通過模式學(xué)習(xí)用一個(或若干個)正則表達式來概括頁面的結(jié)構(gòu)化信息,所以只要找到代表這些頁面結(jié)構(gòu)化信息的正則表達式就可以很好的指導(dǎo)聚焦爬蟲盡量抓取與分類相關(guān)的網(wǎng)頁。以www. haol23. com為例,如要查找“休閑娛樂”類別的所有 URL,可以編寫正則表達式 href\\s * = \\s * ( :\" ( 〈1>[~\" ] *)\" ( <1>\\S+)),用來匹配字符串中的形如href ="..."的鏈接,就可以得到“休閑娛樂”類別的所有URL。為了適應(yīng)導(dǎo)航網(wǎng)站不定期的更新,更好的抽取目錄頁面的網(wǎng)頁結(jié)構(gòu)化信息,本發(fā)明提供了 URL正則表達式的定時學(xué)習(xí)器,可以適應(yīng)導(dǎo)航站點的不斷變化。同時本發(fā)明參考了對URL的三種搜索策略,提出了基于網(wǎng)頁內(nèi)容特征的定向廣度優(yōu)先搜索策略。該搜索策略的基本思想是在網(wǎng)頁抓取的過程中,先根據(jù)網(wǎng)頁的內(nèi)容特征定向抽取網(wǎng)頁的結(jié)構(gòu)化信息,然后用廣度優(yōu)先策略從結(jié)構(gòu)化信息中抓取網(wǎng)頁。這種方法可以有效地減少采集頁面的數(shù)量,同時也節(jié)約了網(wǎng)絡(luò)帶寬,提高信息搜索的效率。相對于現(xiàn)有技術(shù)中的方案,本發(fā)明的優(yōu)點是利用該系統(tǒng)抓取的URL在中文站點ALEXA T0P100中覆蓋率達到98%,全球站點 ALEXA TOP 500中的覆蓋率達到87%,地方特色網(wǎng)站的URL覆蓋率達到56%。通過開發(fā)建設(shè)過程中實際運行和測試,很好的體現(xiàn)了基于垂直搜索和聚焦爬蟲的網(wǎng)頁分類的識別方法的實施效果,驗證了此方法的準(zhǔn)確性。本發(fā)明對于網(wǎng)頁分類的識別具有很廣泛的意義和應(yīng)用價值。主要可以應(yīng)用在專業(yè)領(lǐng)域的特定人群對特定信息的垂直搜索、De印Web的搜索與挖掘、網(wǎng)絡(luò)站點結(jié)構(gòu)解析、Internet用戶興趣熱點分析、提高主題搜索引擎的搜索效率、數(shù)字圖書館建設(shè)等方面。
下面結(jié)合附圖及實施例對本發(fā)明作進一步描述圖I是基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別方法整體流程圖;其中給出了識別網(wǎng)頁分類的各個處理過程。圖2是網(wǎng)頁內(nèi)容解析方法的流程圖;其中給出了網(wǎng)頁內(nèi)容解析方法的各個處理過程。
具體實施例方式以下結(jié)合具體實施例對上述方案做進一步說明。應(yīng)理解,這些實施例是用于說明本發(fā)明而不限于限制本發(fā)明的范圍。實施例中采用的實施條件可以根據(jù)具體廠家的條件做進一步調(diào)整,未注明的實施條件通常為常規(guī)實驗中的條件。實施例本實施例開發(fā)出的導(dǎo)航網(wǎng)站入庫引擎和寬帶網(wǎng)用戶行為分析系統(tǒng)采用的是B/S 架構(gòu),開發(fā)平臺為VS2005+oracle 9i,用戶可根據(jù)需要,方便地接入到現(xiàn)有的需要網(wǎng)址類別的系統(tǒng)中。部署時只需修改配置文件,可以在一臺PC上運行,也可以在多臺PC上同時運行。以下詳細(xì)介紹該設(shè)計的各個模塊及其基于垂直搜索和聚焦爬蟲的網(wǎng)頁分類識別方法。網(wǎng)頁分類識別的方法具體處理過程如附圖1,按照如下步驟進行(I)讀取預(yù)設(shè)網(wǎng)址導(dǎo)航站點的URL列表,判斷URL列表是否為空,若為空,則轉(zhuǎn)步驟(8);(2)取出一個站點URL,將其放入未訪問的URL列表(UV_URL列表)中。(3)如果UV_URL列表為空,則轉(zhuǎn)步驟(I);(4)從UV_URL列表中取出一個URL,根據(jù)表V_URL判斷此URL是否被訪問過,若是, 則轉(zhuǎn)步驟⑶;(5)對取得的URL進行網(wǎng)頁源碼獲取,利用垂直搜索技術(shù)和聚焦爬蟲技術(shù)對網(wǎng)頁內(nèi)容解析,獲取此站點下的網(wǎng)頁類別信息及各個類別中對應(yīng)的網(wǎng)址信息;(6)將網(wǎng)頁類別信息及各個類別中對應(yīng)的網(wǎng)址信息加入到Category列表中;(7)從表UV_URL中刪除URL,并將其添加到V_URL中,轉(zhuǎn)向(I);(8)結(jié)束?;诖怪彼阉骱途劢古老x的網(wǎng)頁分類識別方法需要以下幾個模塊數(shù)據(jù)采集模塊、內(nèi)容解析模塊和應(yīng)用表示模塊。數(shù)據(jù)采集模塊的功能該模塊的主要作用是通過各種Web協(xié)議來完成對網(wǎng)頁數(shù)據(jù)的采集,然后將采集到的頁面交給上一模塊做進一步處理。數(shù)據(jù)采集模塊的接口 該模塊是聚焦爬蟲和因特網(wǎng)的接口,與上一模塊的接口為網(wǎng)頁源碼字符串?dāng)?shù)據(jù),向上層提供輸入數(shù)據(jù)。內(nèi)容解析模塊的功能該模塊是整個架構(gòu)的核心模塊,主要根據(jù)下一模塊即數(shù)據(jù)采集模塊采集下來的頁面進行HTML解析,提取其中的超鏈接,加入到URL隊列中。頁面鏈接中那個給出的URL—般是多種格式的,可能是完整的,包括協(xié)議、站點和路徑的,也可能是省略了部分內(nèi)容的,或者是一個相對路徑,因此需要用網(wǎng)頁內(nèi)容解析法抽取網(wǎng)頁的結(jié)構(gòu)化信息,用廣度優(yōu)先策略從結(jié)構(gòu)化信息中抓取網(wǎng)頁URL,得到網(wǎng)址類別和URL的對應(yīng)關(guān)系表 Category,以滿足上一模塊應(yīng)用表示模塊對網(wǎng)頁分類的搜索。內(nèi)容解析模塊的接口 該模塊的網(wǎng)頁分類識別與應(yīng)用模塊的接口應(yīng)當(dāng)是一張對應(yīng)關(guān)系表,即網(wǎng)址類別和URL對應(yīng)表。內(nèi)容解析模塊主要的方法是網(wǎng)頁內(nèi)容解析法,它包括兩個主要的部分抽取網(wǎng)頁的結(jié)構(gòu)化信息和聚焦爬蟲的爬行策略。首先抽取網(wǎng)頁結(jié)構(gòu)化信息,然后運用基于網(wǎng)頁內(nèi)容特征的定向廣度優(yōu)先搜索策略進行URL的抓取。具體的網(wǎng)頁內(nèi)容解析方法處理過程如附圖2,按照如下步驟進行(I)利用聚焦爬蟲抓取網(wǎng)頁的源文件;(2)判斷此網(wǎng)頁是否滿足正則表達式定時學(xué)習(xí)器模式學(xué)習(xí)得到的網(wǎng)頁結(jié)構(gòu)特征, 若不滿足,轉(zhuǎn)步驟(6);(3)利用正則表達式抽取網(wǎng)頁的結(jié)構(gòu)化信息,此結(jié)構(gòu)化信息即為網(wǎng)址分類信息的內(nèi)容塊;(4)根據(jù)正則表達式從結(jié)構(gòu)化信息塊中提取符合要求的新鏈接;(5)將新鏈接加入URL隊列中;
(6)判斷URL隊列是否為空,若為空,則轉(zhuǎn)步驟⑶;(7)取出一個URL,判斷此URL是否滿足搜索策略,若滿足,則將此URL加入到網(wǎng)址類別表Category中,并同時轉(zhuǎn)向步驟⑴;否則,轉(zhuǎn)向步驟(6);(8)結(jié)束。其中UV_URL用于存放未訪問的URL ;V_URL用于存放已訪問的URL ;Category用于存放已經(jīng)識別的URL和隸屬的網(wǎng)址類別。應(yīng)用表示模塊的功能提供用戶的輸入和搜索結(jié)果的反饋。用戶可以通過輸入關(guān)鍵字精確搜索到特定領(lǐng)域的網(wǎng)址;對于一個未知的URL,用戶也可以查詢到它所屬的網(wǎng)址類別。上述實例只為說明本發(fā)明的技術(shù)構(gòu)思及特點,其目的在于讓熟悉此項技術(shù)的人是能夠了解本發(fā)明的內(nèi)容并據(jù)以實施,并不能以此限制本發(fā)明的保護范圍。凡根據(jù)本發(fā)明精神實質(zhì)所做的等效變換或修飾,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng),其特征在于所述系統(tǒng)包括應(yīng)用表示模塊、數(shù)據(jù)采集模塊和內(nèi)容解析模塊,所述數(shù)據(jù)采集模塊通過Web協(xié)議完成對網(wǎng)頁數(shù)據(jù)的采集,然后將采集到的頁面數(shù)據(jù)交給內(nèi)容解析模塊;所述內(nèi)容解析模塊根據(jù)數(shù)據(jù)采集模塊采集的頁面數(shù)據(jù)進行HTML解析,提取頁面中的超鏈接,將超鏈接加入到URL隊列中,得到網(wǎng)址類別和URL的對應(yīng)關(guān)系表;所述應(yīng)用表示模塊接受用戶輸入關(guān)鍵字進行搜索,將搜索到的特定領(lǐng)域的網(wǎng)址和/或所屬的網(wǎng)址類別結(jié)果反饋給用戶。
2.一種采用權(quán)利要求I的系統(tǒng)進行網(wǎng)頁分類識別方法,其特征在于所述方法包括以下步驟(1)創(chuàng)建聚焦爬蟲進程,聚焦爬蟲進程讀取預(yù)設(shè)網(wǎng)址導(dǎo)航站點的URL列表;(2)數(shù)據(jù)采集模塊從URL列表上取出需要進行數(shù)據(jù)采集的站點URL,對取得的URL進行網(wǎng)頁源碼獲?。粌?nèi)容解析模塊利用垂直搜索技術(shù)和聚焦爬蟲技術(shù)對網(wǎng)頁內(nèi)容解析,獲取此站點下的網(wǎng)頁類別信息及各個網(wǎng)頁類別中對應(yīng)的網(wǎng)址信息,并將網(wǎng)頁類別信息及各個網(wǎng)頁類別中對應(yīng)的網(wǎng)址信息加入到Category列表中;依次循環(huán)直至URL列表全部遍歷;所述 Category列表存儲已經(jīng)識別的URL和其隸屬的網(wǎng)址類別。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于所述方法步驟(2)當(dāng)URL列表為空,則遍歷直接結(jié)束。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于所述方法步驟(2)當(dāng)數(shù)據(jù)采集模塊從URL 列表上取出需要進行數(shù)據(jù)采集的站點URL后,數(shù)據(jù)采集模塊先將需要進行數(shù)據(jù)采集的站點 URL放入未訪問URL列表中,當(dāng)未訪問URL列表非空時,從未訪問URL列表取出一 URL,并對取得的URL進行網(wǎng)頁源碼獲取,并通過內(nèi)容解析模塊對網(wǎng)頁源碼進行解析,并將該URL加入到已訪問URL列表中,并從未訪問URL列表中刪除該URL。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于所述方法步驟(2)中當(dāng)未訪問URL列表為空時,通知聚焦爬蟲進程讀取預(yù)設(shè)網(wǎng)址導(dǎo)航站點的URL列表。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于所述方法中當(dāng)從未訪問URL列表取出的 URL已經(jīng)訪問過,則繼續(xù)訪問未訪問URL列表的下一 URL。
7.根據(jù)權(quán)利要求2所述的方法,其特征在于所述方法步驟(2)內(nèi)容解析模塊進行內(nèi)容解析的步驟包括Al)聚焦爬蟲進程抓取取得的URL的網(wǎng)頁源文件,然后根據(jù)正則表達式定時學(xué)習(xí)器模式學(xué)習(xí)得到的網(wǎng)頁結(jié)構(gòu)特征利用正則表達式抽取網(wǎng)頁的結(jié)構(gòu)化信息;A2)使用正則表達式從網(wǎng)頁的結(jié)構(gòu)化信息中提取符合網(wǎng)址分類信息的新鏈接;并將新鏈接加入URL隊列中;A3)從URL隊列中取出URL,循環(huán)判斷此URL是否滿足應(yīng)用表示模塊的搜索策略,若滿足搜索策略,則將此URL和對應(yīng)的網(wǎng)址類別加入到網(wǎng)址類別表Category中。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于所述方法步驟A2)所述正則表達式按照廣度優(yōu)先的策略從源文件中抓取新鏈接。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于所述方法步驟Al)當(dāng)正則表達式定時學(xué)習(xí)器不能識別網(wǎng)頁結(jié)構(gòu)特征時,直接進行URL隊列中是否滿足應(yīng)用表示模塊的搜索策略的判斷。
10.根據(jù)權(quán)利要求7所述的方法,其特征在于所述方法步驟A3)中若不滿足搜索策略時,則繼續(xù)判斷URL隊列中下一 URL是否滿足搜索策略的步驟。
全文摘要
本發(fā)明公開了一種基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng),其特征在于所述系統(tǒng)包括應(yīng)用表示模塊、數(shù)據(jù)采集模塊和內(nèi)容解析模塊,所述數(shù)據(jù)采集模塊通過Web協(xié)議完成對網(wǎng)頁數(shù)據(jù)的采集,然后將采集到的頁面數(shù)據(jù)交給內(nèi)容解析模塊;所述內(nèi)容解析模塊根據(jù)數(shù)據(jù)采集模塊采集的頁面數(shù)據(jù)進行HTML解析,提取頁面中的超鏈接,將超鏈接加入到URL隊列中,得到網(wǎng)址類別和URL的對應(yīng)關(guān)系表;所述應(yīng)用表示模塊接受用戶輸入關(guān)鍵字進行搜索,將搜索到的特定領(lǐng)域的網(wǎng)址和/或所屬的網(wǎng)址類別結(jié)果反饋給用戶。通過開發(fā)建設(shè)過程中實際運行和測試,很好的體現(xiàn)了基于垂直搜索和聚焦爬蟲的網(wǎng)頁分類的識別方法的實施效果,驗證了此方法的準(zhǔn)確性。
文檔編號G06F17/30GK102591992SQ20121003419
公開日2012年7月18日 申請日期2012年2月15日 優(yōu)先權(quán)日2012年2月15日
發(fā)明者曹武龍, 王國圃 申請人:蘇州亞新豐信息技術(shù)有限公司