基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng)及方法

文檔序號：6364828閱讀：155來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng)及方法
技術(shù)領(lǐng)域：
本發(fā)明屬于網(wǎng)頁搜索引擎技術(shù)領(lǐng)域，具體涉及一種基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng)及方法。
背景技術(shù)：
隨著信息的不斷膨脹，人們越來越離不開搜索引擎。百度、谷歌等通用搜索引擎雖然給人們提供了很多便利，但是隨著人們需求的多樣化和對搜索結(jié)果質(zhì)量的要求越來越高，通用搜索引擎在一些專門化的領(lǐng)域已經(jīng)不能滿足人們的要求，于是垂直搜索就應(yīng)運而生，它是服務(wù)于局部專業(yè)領(lǐng)域的精確搜索技術(shù)，更加專業(yè)，返回的結(jié)果更具有針對性，通過特定行業(yè)主題的領(lǐng)域知識，可以提供根據(jù)語義信息的查詢，從而能滿足用戶的特殊搜索需求。隨著垂直搜索引擎的日益流行，作為垂直搜索引擎的關(guān)鍵技術(shù)一聚焦爬蟲也顯得越來越重要。聚焦爬蟲是一個自動下載網(wǎng)頁的程序，它根據(jù)既定的抓取目標(biāo)，有選擇地訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接，獲取所需要的信息。針對垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別具備一定的難度，有如下原因第一、聚焦爬蟲很難判斷如何從待爬行URL隊列中挑出最可能包含主題相關(guān)信息的網(wǎng)頁進行爬行。第二、現(xiàn)在許多開源爬蟲系統(tǒng)不具備從抓取的網(wǎng)頁中定向提取網(wǎng)頁結(jié)構(gòu)化信息的功能。第三、同一網(wǎng)頁的內(nèi)容和結(jié)構(gòu)常有變化，聚焦爬蟲的重訪策略很難適應(yīng)這一變化。由上可見，采用傳統(tǒng)開源的聚焦爬蟲技術(shù)很難準(zhǔn)確的識別不同類別的網(wǎng)頁。因此，必須另辟蹊徑。本發(fā)明因此而來。

發(fā)明內(nèi)容
本發(fā)明目的在于提供一種基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng)，針對導(dǎo)航類網(wǎng)站建立一種基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別方法，并設(shè)計其識別模型和算法，通過對導(dǎo)航類網(wǎng)站的識別，獲取導(dǎo)航類網(wǎng)站中不同分類的URL，便于用戶對網(wǎng)站的精確搜索，同時能給出未知URL所屬的網(wǎng)頁分類。為了解決現(xiàn)有技術(shù)中的這些問題，本發(fā)明提供的技術(shù)方案是—種基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng)，其特征在于所述系統(tǒng)包括應(yīng)用表示模塊、數(shù)據(jù)采集模塊和內(nèi)容解析模塊，所述數(shù)據(jù)采集模塊通過Web協(xié)議完成對網(wǎng)頁數(shù)據(jù)的采集，然后將采集到的頁面數(shù)據(jù)交給內(nèi)容解析模塊；所述內(nèi)容解析模塊根據(jù)數(shù)據(jù)采集模塊采集的頁面數(shù)據(jù)進行HTML解析，提取頁面中的超鏈接，將超鏈接加入到URL隊列中，得到網(wǎng)址類別和URL的對應(yīng)關(guān)系表；所述應(yīng)用表示模塊接受用戶輸入關(guān)鍵字進行搜索，將搜索到的特定領(lǐng)域的網(wǎng)址和/或所屬的網(wǎng)址類別結(jié)果反饋給用戶。優(yōu)選的，所述系統(tǒng)設(shè)置在聚焦爬蟲進程和Internet網(wǎng)絡(luò)之間，所述聚焦爬蟲進程按照規(guī)則自動的抓取Internet網(wǎng)絡(luò)的導(dǎo)航站點信息。本發(fā)明的另一目的在于提供一種采用所述系統(tǒng)進行網(wǎng)頁分類識別方法，其特征在于所述方法包括以下步驟(I)創(chuàng)建聚焦爬蟲進程，聚焦爬蟲進程讀取預(yù)設(shè)網(wǎng)址導(dǎo)航站點的URL列表；(2)數(shù)據(jù)采集模塊從URL列表上取出需要進行數(shù)據(jù)采集的站點URL，對取得的URL 進行網(wǎng)頁源碼獲??；內(nèi)容解析模塊利用垂直搜索技術(shù)和聚焦爬蟲技術(shù)對網(wǎng)頁內(nèi)容解析，獲取此站點下的網(wǎng)頁類別信息及各個網(wǎng)頁類別中對應(yīng)的網(wǎng)址信息，并將網(wǎng)頁類別信息及各個網(wǎng)頁類別中對應(yīng)的網(wǎng)址信息加入到Category列表中；依次循環(huán)直至URL列表全部遍歷；所述Category列表存儲已經(jīng)識別的URL和其隸屬的網(wǎng)址類別。優(yōu)選的，于所述方法步驟⑵當(dāng)URL列表為空，則遍歷直接結(jié)束。優(yōu)選的，所述方法步驟(2)當(dāng)數(shù)據(jù)采集模塊從URL列表上取出需要進行數(shù)據(jù)采集的站點URL后，數(shù)據(jù)采集模塊先將需要進行數(shù)據(jù)采集的站點URL放入未訪問URL列表中，當(dāng)未訪問URL列表非空時，從未訪問URL列表取出一 URL，并對取得的URL進行網(wǎng)頁源碼獲取，并通過內(nèi)容解析模塊對網(wǎng)頁源碼進行解析,并將該URL加入到已訪問URL列表中，并從未訪問URL列表中刪除該URL。優(yōu)選的，所述方法步驟(2)中當(dāng)未訪問URL列表為空時，通知聚焦爬蟲進程讀取預(yù)設(shè)網(wǎng)址導(dǎo)航站點的URL列表。優(yōu)選的，所述方法中當(dāng)從未訪問URL列表取出的URL已經(jīng)訪問過，則繼續(xù)訪問未訪問URL列表的下一 URL。優(yōu)選的，所述方法步驟(2)內(nèi)容解析模塊進行內(nèi)容解析的步驟包括Al)聚焦爬蟲進程抓取取得的URL的網(wǎng)頁源文件，然后根據(jù)正則表達式定時學(xué)習(xí)器模式學(xué)習(xí)得到的網(wǎng)頁結(jié)構(gòu)特征利用正則表達式抽取網(wǎng)頁的結(jié)構(gòu)化信息；A2)使用正則表達式從網(wǎng)頁的結(jié)構(gòu)化信息中提取符合網(wǎng)址分類信息的新鏈接；并將新鏈接加入URL隊列中；A3)從URL隊列中取出URL，循環(huán)判斷此URL是否滿足應(yīng)用表示模塊的搜索策略，若滿足搜索策略，則將此URL和對應(yīng)的網(wǎng)址類別加入到網(wǎng)址類別表Category中。優(yōu)選的，所述方法步驟A2)所述正則表達式按照廣度優(yōu)先的策略從源文件中抓取新鏈接。優(yōu)選的，所述方法步驟Al)當(dāng)正則表達式定時學(xué)習(xí)器不能識別網(wǎng)頁結(jié)構(gòu)特征時，直接進行URL隊列中是否滿足應(yīng)用表示模塊的搜索策略的判斷。優(yōu)選的，所述方法步驟A3)中若不滿足搜索策略時，則繼續(xù)判斷URL隊列中下一 URL是否滿足搜索策略的步驟。本發(fā)明通過對垂直搜索和聚焦爬蟲技術(shù)的研究，能夠解決以下問題1)利用垂直搜索和聚焦爬蟲從導(dǎo)航網(wǎng)站上獲取不同分類對應(yīng)的網(wǎng)址。2)能夠根據(jù)用戶對特定行業(yè)主題的特殊搜索返回有針對性的精確搜索結(jié)果。3)通過垂直搜索和聚焦爬蟲獲得分類網(wǎng)站上一個未知URL所屬的網(wǎng)頁分類。本發(fā)明基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別方法，提供了一種有效識別導(dǎo)航類網(wǎng)站中各分類URL的技術(shù)框架，并且詳細(xì)設(shè)計了識別算法。系統(tǒng)分為三個模塊，從下往上依次是數(shù)據(jù)采集模塊、內(nèi)容解析層和應(yīng)用表示層。本發(fā)明基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別方法，關(guān)鍵步驟在于兩個部分網(wǎng)頁源碼獲取和網(wǎng)頁內(nèi)容解析法。其中網(wǎng)頁內(nèi)容解析法是核心，它包括兩個主要的部分抽取網(wǎng)頁的結(jié)構(gòu)化信息和聚焦爬蟲的爬行策略。通過對導(dǎo)航網(wǎng)站網(wǎng)頁源碼的研究發(fā)現(xiàn) 導(dǎo)航類網(wǎng)站基本上有兩種頁面組成一主目錄頁面和各個分類的子目錄頁面，主目錄頁面包含大量的指向各個分類子頁面的鏈接，而各個分類的子目錄頁面則包含屬于該分類的網(wǎng)站的鏈接。同一個導(dǎo)航網(wǎng)站上各個分類的子目錄頁面也有著很強的相似性，也就是說這些頁面中都有相似的結(jié)構(gòu)，可以通過模式學(xué)習(xí)用一個(或若干個)正則表達式來概括頁面的結(jié)構(gòu)化信息，所以只要找到代表這些頁面結(jié)構(gòu)化信息的正則表達式就可以很好的指導(dǎo)聚焦爬蟲盡量抓取與分類相關(guān)的網(wǎng)頁。以www. haol23. com為例，如要查找“休閑娛樂”類別的所有 URL,可以編寫正則表達式 href\\s * = \\s * ( :\" ( 〈1>[~\" ] *)\" ( <1>\\S+))，用來匹配字符串中的形如href ="..."的鏈接，就可以得到“休閑娛樂”類別的所有URL。為了適應(yīng)導(dǎo)航網(wǎng)站不定期的更新，更好的抽取目錄頁面的網(wǎng)頁結(jié)構(gòu)化信息，本發(fā)明提供了 URL正則表達式的定時學(xué)習(xí)器，可以適應(yīng)導(dǎo)航站點的不斷變化。同時本發(fā)明參考了對URL的三種搜索策略，提出了基于網(wǎng)頁內(nèi)容特征的定向廣度優(yōu)先搜索策略。該搜索策略的基本思想是在網(wǎng)頁抓取的過程中，先根據(jù)網(wǎng)頁的內(nèi)容特征定向抽取網(wǎng)頁的結(jié)構(gòu)化信息，然后用廣度優(yōu)先策略從結(jié)構(gòu)化信息中抓取網(wǎng)頁。這種方法可以有效地減少采集頁面的數(shù)量，同時也節(jié)約了網(wǎng)絡(luò)帶寬，提高信息搜索的效率。相對于現(xiàn)有技術(shù)中的方案，本發(fā)明的優(yōu)點是利用該系統(tǒng)抓取的URL在中文站點ALEXA T0P100中覆蓋率達到98%，全球站點 ALEXA TOP 500中的覆蓋率達到87%，地方特色網(wǎng)站的URL覆蓋率達到56%。通過開發(fā)建設(shè)過程中實際運行和測試，很好的體現(xiàn)了基于垂直搜索和聚焦爬蟲的網(wǎng)頁分類的識別方法的實施效果，驗證了此方法的準(zhǔn)確性。本發(fā)明對于網(wǎng)頁分類的識別具有很廣泛的意義和應(yīng)用價值。主要可以應(yīng)用在專業(yè)領(lǐng)域的特定人群對特定信息的垂直搜索、De印Web的搜索與挖掘、網(wǎng)絡(luò)站點結(jié)構(gòu)解析、Internet用戶興趣熱點分析、提高主題搜索引擎的搜索效率、數(shù)字圖書館建設(shè)等方面。

下面結(jié)合附圖及實施例對本發(fā)明作進一步描述圖I是基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別方法整體流程圖；其中給出了識別網(wǎng)頁分類的各個處理過程。圖2是網(wǎng)頁內(nèi)容解析方法的流程圖；其中給出了網(wǎng)頁內(nèi)容解析方法的各個處理過程。
具體實施例方式以下結(jié)合具體實施例對上述方案做進一步說明。應(yīng)理解，這些實施例是用于說明本發(fā)明而不限于限制本發(fā)明的范圍。實施例中采用的實施條件可以根據(jù)具體廠家的條件做進一步調(diào)整，未注明的實施條件通常為常規(guī)實驗中的條件。實施例本實施例開發(fā)出的導(dǎo)航網(wǎng)站入庫引擎和寬帶網(wǎng)用戶行為分析系統(tǒng)采用的是B/S 架構(gòu)，開發(fā)平臺為VS2005+oracle 9i，用戶可根據(jù)需要，方便地接入到現(xiàn)有的需要網(wǎng)址類別的系統(tǒng)中。部署時只需修改配置文件，可以在一臺PC上運行，也可以在多臺PC上同時運行。以下詳細(xì)介紹該設(shè)計的各個模塊及其基于垂直搜索和聚焦爬蟲的網(wǎng)頁分類識別方法。網(wǎng)頁分類識別的方法具體處理過程如附圖1，按照如下步驟進行(I)讀取預(yù)設(shè)網(wǎng)址導(dǎo)航站點的URL列表，判斷URL列表是否為空，若為空，則轉(zhuǎn)步驟(8);(2)取出一個站點URL，將其放入未訪問的URL列表(UV_URL列表)中。(3)如果UV_URL列表為空，則轉(zhuǎn)步驟(I)；(4)從UV_URL列表中取出一個URL，根據(jù)表V_URL判斷此URL是否被訪問過，若是，則轉(zhuǎn)步驟⑶；(5)對取得的URL進行網(wǎng)頁源碼獲取，利用垂直搜索技術(shù)和聚焦爬蟲技術(shù)對網(wǎng)頁內(nèi)容解析，獲取此站點下的網(wǎng)頁類別信息及各個類別中對應(yīng)的網(wǎng)址信息；(6)將網(wǎng)頁類別信息及各個類別中對應(yīng)的網(wǎng)址信息加入到Category列表中；(7)從表UV_URL中刪除URL，并將其添加到V_URL中，轉(zhuǎn)向(I);(8)結(jié)束?；诖怪彼阉骱途劢古老x的網(wǎng)頁分類識別方法需要以下幾個模塊數(shù)據(jù)采集模塊、內(nèi)容解析模塊和應(yīng)用表示模塊。數(shù)據(jù)采集模塊的功能該模塊的主要作用是通過各種Web協(xié)議來完成對網(wǎng)頁數(shù)據(jù)的采集，然后將采集到的頁面交給上一模塊做進一步處理。數(shù)據(jù)采集模塊的接口該模塊是聚焦爬蟲和因特網(wǎng)的接口，與上一模塊的接口為網(wǎng)頁源碼字符串?dāng)?shù)據(jù)，向上層提供輸入數(shù)據(jù)。內(nèi)容解析模塊的功能該模塊是整個架構(gòu)的核心模塊,主要根據(jù)下一模塊即數(shù)據(jù)采集模塊采集下來的頁面進行HTML解析，提取其中的超鏈接，加入到URL隊列中。頁面鏈接中那個給出的URL—般是多種格式的，可能是完整的，包括協(xié)議、站點和路徑的，也可能是省略了部分內(nèi)容的，或者是一個相對路徑，因此需要用網(wǎng)頁內(nèi)容解析法抽取網(wǎng)頁的結(jié)構(gòu)化信息，用廣度優(yōu)先策略從結(jié)構(gòu)化信息中抓取網(wǎng)頁URL，得到網(wǎng)址類別和URL的對應(yīng)關(guān)系表 Category，以滿足上一模塊應(yīng)用表示模塊對網(wǎng)頁分類的搜索。內(nèi)容解析模塊的接口該模塊的網(wǎng)頁分類識別與應(yīng)用模塊的接口應(yīng)當(dāng)是一張對應(yīng)關(guān)系表，即網(wǎng)址類別和URL對應(yīng)表。內(nèi)容解析模塊主要的方法是網(wǎng)頁內(nèi)容解析法，它包括兩個主要的部分抽取網(wǎng)頁的結(jié)構(gòu)化信息和聚焦爬蟲的爬行策略。首先抽取網(wǎng)頁結(jié)構(gòu)化信息，然后運用基于網(wǎng)頁內(nèi)容特征的定向廣度優(yōu)先搜索策略進行URL的抓取。具體的網(wǎng)頁內(nèi)容解析方法處理過程如附圖2，按照如下步驟進行(I)利用聚焦爬蟲抓取網(wǎng)頁的源文件；(2)判斷此網(wǎng)頁是否滿足正則表達式定時學(xué)習(xí)器模式學(xué)習(xí)得到的網(wǎng)頁結(jié)構(gòu)特征，若不滿足，轉(zhuǎn)步驟(6)；(3)利用正則表達式抽取網(wǎng)頁的結(jié)構(gòu)化信息，此結(jié)構(gòu)化信息即為網(wǎng)址分類信息的內(nèi)容塊；(4)根據(jù)正則表達式從結(jié)構(gòu)化信息塊中提取符合要求的新鏈接；(5)將新鏈接加入URL隊列中；
(6)判斷URL隊列是否為空，若為空，則轉(zhuǎn)步驟⑶；(7)取出一個URL，判斷此URL是否滿足搜索策略，若滿足，則將此URL加入到網(wǎng)址類別表Category中，并同時轉(zhuǎn)向步驟⑴；否則,轉(zhuǎn)向步驟(6)；(8)結(jié)束。其中UV_URL用于存放未訪問的URL ；V_URL用于存放已訪問的URL ；Category用于存放已經(jīng)識別的URL和隸屬的網(wǎng)址類別。應(yīng)用表示模塊的功能提供用戶的輸入和搜索結(jié)果的反饋。用戶可以通過輸入關(guān)鍵字精確搜索到特定領(lǐng)域的網(wǎng)址；對于一個未知的URL，用戶也可以查詢到它所屬的網(wǎng)址類別。上述實例只為說明本發(fā)明的技術(shù)構(gòu)思及特點，其目的在于讓熟悉此項技術(shù)的人是能夠了解本發(fā)明的內(nèi)容并據(jù)以實施，并不能以此限制本發(fā)明的保護范圍。凡根據(jù)本發(fā)明精神實質(zhì)所做的等效變換或修飾，都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng)，其特征在于所述系統(tǒng)包括應(yīng)用表示模塊、數(shù)據(jù)采集模塊和內(nèi)容解析模塊，所述數(shù)據(jù)采集模塊通過Web協(xié)議完成對網(wǎng)頁數(shù)據(jù)的采集，然后將采集到的頁面數(shù)據(jù)交給內(nèi)容解析模塊；所述內(nèi)容解析模塊根據(jù)數(shù)據(jù)采集模塊采集的頁面數(shù)據(jù)進行HTML解析，提取頁面中的超鏈接，將超鏈接加入到URL隊列中，得到網(wǎng)址類別和URL的對應(yīng)關(guān)系表；所述應(yīng)用表示模塊接受用戶輸入關(guān)鍵字進行搜索，將搜索到的特定領(lǐng)域的網(wǎng)址和/或所屬的網(wǎng)址類別結(jié)果反饋給用戶。
2.一種采用權(quán)利要求I的系統(tǒng)進行網(wǎng)頁分類識別方法，其特征在于所述方法包括以下步驟(1)創(chuàng)建聚焦爬蟲進程，聚焦爬蟲進程讀取預(yù)設(shè)網(wǎng)址導(dǎo)航站點的URL列表；(2)數(shù)據(jù)采集模塊從URL列表上取出需要進行數(shù)據(jù)采集的站點URL，對取得的URL進行網(wǎng)頁源碼獲?。粌?nèi)容解析模塊利用垂直搜索技術(shù)和聚焦爬蟲技術(shù)對網(wǎng)頁內(nèi)容解析，獲取此站點下的網(wǎng)頁類別信息及各個網(wǎng)頁類別中對應(yīng)的網(wǎng)址信息，并將網(wǎng)頁類別信息及各個網(wǎng)頁類別中對應(yīng)的網(wǎng)址信息加入到Category列表中；依次循環(huán)直至URL列表全部遍歷；所述 Category列表存儲已經(jīng)識別的URL和其隸屬的網(wǎng)址類別。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于所述方法步驟(2)當(dāng)URL列表為空，則遍歷直接結(jié)束。
4.根據(jù)權(quán)利要求2所述的方法，其特征在于所述方法步驟(2)當(dāng)數(shù)據(jù)采集模塊從URL 列表上取出需要進行數(shù)據(jù)采集的站點URL后，數(shù)據(jù)采集模塊先將需要進行數(shù)據(jù)采集的站點 URL放入未訪問URL列表中，當(dāng)未訪問URL列表非空時，從未訪問URL列表取出一 URL，并對取得的URL進行網(wǎng)頁源碼獲取，并通過內(nèi)容解析模塊對網(wǎng)頁源碼進行解析，并將該URL加入到已訪問URL列表中，并從未訪問URL列表中刪除該URL。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于所述方法步驟(2)中當(dāng)未訪問URL列表為空時，通知聚焦爬蟲進程讀取預(yù)設(shè)網(wǎng)址導(dǎo)航站點的URL列表。
6.根據(jù)權(quán)利要求4所述的方法，其特征在于所述方法中當(dāng)從未訪問URL列表取出的 URL已經(jīng)訪問過，則繼續(xù)訪問未訪問URL列表的下一 URL。
7.根據(jù)權(quán)利要求2所述的方法，其特征在于所述方法步驟(2)內(nèi)容解析模塊進行內(nèi)容解析的步驟包括Al)聚焦爬蟲進程抓取取得的URL的網(wǎng)頁源文件，然后根據(jù)正則表達式定時學(xué)習(xí)器模式學(xué)習(xí)得到的網(wǎng)頁結(jié)構(gòu)特征利用正則表達式抽取網(wǎng)頁的結(jié)構(gòu)化信息；A2)使用正則表達式從網(wǎng)頁的結(jié)構(gòu)化信息中提取符合網(wǎng)址分類信息的新鏈接；并將新鏈接加入URL隊列中；A3)從URL隊列中取出URL，循環(huán)判斷此URL是否滿足應(yīng)用表示模塊的搜索策略，若滿足搜索策略，則將此URL和對應(yīng)的網(wǎng)址類別加入到網(wǎng)址類別表Category中。
8.根據(jù)權(quán)利要求7所述的方法，其特征在于所述方法步驟A2)所述正則表達式按照廣度優(yōu)先的策略從源文件中抓取新鏈接。
9.根據(jù)權(quán)利要求7所述的方法，其特征在于所述方法步驟Al)當(dāng)正則表達式定時學(xué)習(xí)器不能識別網(wǎng)頁結(jié)構(gòu)特征時，直接進行URL隊列中是否滿足應(yīng)用表示模塊的搜索策略的判斷。
10.根據(jù)權(quán)利要求7所述的方法，其特征在于所述方法步驟A3)中若不滿足搜索策略時，則繼續(xù)判斷URL隊列中下一 URL是否滿足搜索策略的步驟。
全文摘要
本發(fā)明公開了一種基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng)，其特征在于所述系統(tǒng)包括應(yīng)用表示模塊、數(shù)據(jù)采集模塊和內(nèi)容解析模塊，所述數(shù)據(jù)采集模塊通過Web協(xié)議完成對網(wǎng)頁數(shù)據(jù)的采集，然后將采集到的頁面數(shù)據(jù)交給內(nèi)容解析模塊；所述內(nèi)容解析模塊根據(jù)數(shù)據(jù)采集模塊采集的頁面數(shù)據(jù)進行HTML解析，提取頁面中的超鏈接，將超鏈接加入到URL隊列中，得到網(wǎng)址類別和URL的對應(yīng)關(guān)系表；所述應(yīng)用表示模塊接受用戶輸入關(guān)鍵字進行搜索，將搜索到的特定領(lǐng)域的網(wǎng)址和/或所屬的網(wǎng)址類別結(jié)果反饋給用戶。通過開發(fā)建設(shè)過程中實際運行和測試，很好的體現(xiàn)了基于垂直搜索和聚焦爬蟲的網(wǎng)頁分類的識別方法的實施效果，驗證了此方法的準(zhǔn)確性。
文檔編號G06F17/30GK102591992SQ20121003419
公開日2012年7月18日申請日期2012年2月15日優(yōu)先權(quán)日2012年2月15日
發(fā)明者曹武龍, 王國圃申請人:蘇州亞新豐信息技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曹武龍;王國圃
技術(shù)所有人：蘇州亞新豐信息技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：立體圖像生成裝置和立體圖像生成方法
上一篇：基于序號的3g移動通信運維流程流轉(zhuǎn)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

java爬蟲抓取網(wǎng)頁數(shù)據(jù)相關(guān)技術(shù)

網(wǎng)頁爬蟲相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于垂直搜索和聚焦爬蟲技術(shù)的網(wǎng)頁分類識別系統(tǒng)及方法