網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法

文檔序號：6527297閱讀：1002來源：國知局

網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法
【專利摘要】本發(fā)明公開了一種網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法，流程如下：輸入需要收索信息的關鍵詞，服務器收索URL的地址，從所收索URL地址中抓取目標網(wǎng)頁的信息，再次輸入二級收索關鍵詞，再次抓取網(wǎng)頁的信息，輸出目標信息。本發(fā)明在網(wǎng)絡爬蟲自動收索網(wǎng)頁的基礎上對網(wǎng)頁再次過濾，現(xiàn)在互聯(lián)網(wǎng)上的信息量很大，對我們而言如果想要需找目標信息，需要耗費很大的人力，而且不知道該信息是否是最佳的一個，該方法細化了收索信息，為我們獲取目標信息提供了方便有效的方法。
【專利說明】網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法
發(fā)明領域
[0001]本發(fā)明涉及一種收索過程中抓取網(wǎng)頁的方法，屬于網(wǎng)絡【技術領域】。
【背景技術】
[0002]網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序，它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統(tǒng)的一定停止條件。網(wǎng)絡爬蟲是一種按照一定的規(guī)則，自動的抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻，自動索引，模擬程序或者蠕蟲。它收索的目標網(wǎng)頁的的準確性還不是很高，為我們獲取需要的信息帶來了一定的困難性。為此，我們提出一種網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)是在過濾的方法。

【發(fā)明內(nèi)容】

[0003]本發(fā)明為解決目前網(wǎng)絡爬蟲在收索過程中抓取目標網(wǎng)頁不準確的問題，提供一種網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法。本發(fā)明包括以下步驟:
[0004]步驟一:輸入需要收索信息的關鍵詞；
[0005]步驟二:服務器收索URL的地址；
[0006]步驟三:從所收索URL地址中抓取目標網(wǎng)頁的信息；
[0007]步驟四:再次輸入二級收索關鍵詞；
[0008]步驟五:再次抓取網(wǎng)頁的信息；
[0009]步驟六:輸出目標信息。
[0010]發(fā)明效果:本發(fā)明在網(wǎng)絡爬蟲自動收索網(wǎng)頁的基礎上對網(wǎng)頁再次過濾，現(xiàn)在互聯(lián)網(wǎng)上的信息量很大，對我們而言如果想要需找目標信息，需要耗費很大的人力，而且不知道該信息是否是最佳的一個，該方法細化了收索信息，為我們獲取目標信息提供了方便有效的方法。
【專利附圖】

【附圖說明】
[0011]圖1為網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾方法的流程圖。
【具體實施方式】
[0012]【具體實施方式】:參見網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾方法的流程圖1，本實施方式由以下步驟組成:
[0013]步驟一:輸入需要收索信息的關鍵詞；
[0014]步驟二:服務器收索URL的地址；
[0015]步驟三:從所收索URL地址中抓取目標網(wǎng)頁的信息；
[0016]步驟四:再次輸入二級收索關鍵詞；[0017]步驟五:再次抓取網(wǎng)頁的信息；
[0018]步驟六:輸出目標信息。
[0019]輸入需要收索信息的關鍵詞的長短不限，服務器收索URL的地址之前對關鍵詞進行了分析，然后選擇的收索URL的地址，從所收索URL地址中抓取目標網(wǎng)頁的信息以列表的形式顯示，再次輸入二級收索關鍵詞為目標信息中更具體的描述性詞語。
[0020]對于本領域技術人員而言，顯然本發(fā)明不限于上述示范性實施例的細節(jié)，而且在不背離本發(fā)明的精神或基本特征的情況下，能夠以其他的具體形式實現(xiàn)本發(fā)明。因此，無論從哪一點來看，均應將發(fā)明例看作是示范性的，而且是非限制性的，本發(fā)明的范圍由所附權利要求而不是上述說明限定，因此旨在將落在權利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。
【權利要求】
1.一種網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法，其特征在于它由以下步驟實現(xiàn): 步驟一:輸入需要收索信息的關鍵詞；步驟二:服務器收索URL的地址；步驟三:從所收索URL地址中抓取目標網(wǎng)頁的信息；步驟四:再次輸入二級收索關鍵詞；步驟五:再次抓取網(wǎng)頁的信息；步驟六:輸出目標信息。
2.根據(jù)權利要求書I所述網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法，其特征在于:步驟二中所述服務器收索URL的地址之前對關鍵詞進行了分析，然后選擇的收索URL的地址。
3.根據(jù)權利要求書I所述網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法，其特征在于:步驟三中所述從所收索URL地址中抓取目標網(wǎng)頁的信息以列表的形式顯示。
4.根據(jù)權利要求書I所述網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法，其特征在于:步驟四中所述再次輸入二級收索關鍵詞為目標信息中更具體的描述性詞語。
【文檔編號】G06F17/30GK103744944SQ201310754635
【公開日】2014年4月23日申請日期:2013年12月31日優(yōu)先權日:2013年12月31日
【發(fā)明者】朱龍騰申請人:上海伯釋信息科技有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：朱龍騰
技術所有人：上海伯釋信息科技有限公司
我是此專利的發(fā)明人

上一篇：利用網(wǎng)絡爬蟲技術快速準確尋找目的圖書的方法
上一篇：數(shù)碼動畫中圖片局部放大的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

網(wǎng)絡爬蟲抓取數(shù)據(jù)相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法