網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法
【專利摘要】本發(fā)明公開了一種網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法,流程如下:輸入需要收索信息的關鍵詞,服務器收索URL的地址,從所收索URL地址中抓取目標網(wǎng)頁的信息,再次輸入二級收索關鍵詞,再次抓取網(wǎng)頁的信息,輸出目標信息。本發(fā)明在網(wǎng)絡爬蟲自動收索網(wǎng)頁的基礎上對網(wǎng)頁再次過濾,現(xiàn)在互聯(lián)網(wǎng)上的信息量很大,對我們而言如果想要需找目標信息,需要耗費很大的人力,而且不知道該信息是否是最佳的一個,該方法細化了收索信息,為我們獲取目標信息提供了方便有效的方法。
【專利說明】網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法
發(fā)明領域
[0001]本發(fā)明涉及一種收索過程中抓取網(wǎng)頁的方法,屬于網(wǎng)絡【技術領域】。
【背景技術】
[0002]網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。網(wǎng)絡爬蟲是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲。它收索的目標網(wǎng)頁的的準確性還不是很高,為我們獲取需要的信息帶來了一定的困難性。為此,我們提出一種網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)是在過濾的方法。
【發(fā)明內(nèi)容】
[0003]本發(fā)明為解決目前網(wǎng)絡爬蟲在收索過程中抓取目標網(wǎng)頁不準確的問題,提供一種網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法。本發(fā)明包括以下步驟:
[0004]步驟一:輸入需要收索信息的關鍵詞;
[0005]步驟二:服務器收索URL的地址;
[0006]步驟三:從所收索URL地址中抓取目標網(wǎng)頁的信息;
[0007]步驟四:再次輸入二級收索關鍵詞;
[0008]步驟五:再次抓取網(wǎng)頁的信息;
[0009]步驟六:輸出目標信息。
[0010]發(fā)明效果:本發(fā)明在網(wǎng)絡爬蟲自動收索網(wǎng)頁的基礎上對網(wǎng)頁再次過濾,現(xiàn)在互聯(lián)網(wǎng)上的信息量很大,對我們而言如果想要需找目標信息,需要耗費很大的人力,而且不知道該信息是否是最佳的一個,該方法細化了收索信息,為我們獲取目標信息提供了方便有效的方法。
【專利附圖】
【附圖說明】
[0011]圖1為網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾方法的流程圖。
【具體實施方式】
[0012]【具體實施方式】:參見網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾方法的流程圖1,本實施方式由以下步驟組成:
[0013]步驟一:輸入需要收索信息的關鍵詞;
[0014]步驟二:服務器收索URL的地址;
[0015]步驟三:從所收索URL地址中抓取目標網(wǎng)頁的信息;
[0016]步驟四:再次輸入二級收索關鍵詞;[0017]步驟五:再次抓取網(wǎng)頁的信息;
[0018]步驟六:輸出目標信息。
[0019]輸入需要收索信息的關鍵詞的長短不限,服務器收索URL的地址之前對關鍵詞進行了分析,然后選擇的收索URL的地址,從所收索URL地址中抓取目標網(wǎng)頁的信息以列表的形式顯示,再次輸入二級收索關鍵詞為目標信息中更具體的描述性詞語。
[0020]對于本領域技術人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應將發(fā)明例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。
【權利要求】
1.一種網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法,其特征在于它由以下步驟實現(xiàn): 步驟一:輸入需要收索信息的關鍵詞; 步驟二:服務器收索URL的地址; 步驟三:從所收索URL地址中抓取目標網(wǎng)頁的信息; 步驟四:再次輸入二級收索關鍵詞; 步驟五:再次抓取網(wǎng)頁的信息; 步驟六:輸出目標信息。
2.根據(jù)權利要求書I所述網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法,其特征在于:步驟二中所述服務器收索URL的地址之前對關鍵詞進行了分析,然后選擇的收索URL的地址。
3.根據(jù)權利要求書I所述網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法,其特征在于:步驟三中所述從所收索URL地址中抓取目標網(wǎng)頁的信息以列表的形式顯示。
4.根據(jù)權利要求書I所述網(wǎng)絡爬蟲在抓取網(wǎng)頁或數(shù)據(jù)時再過濾的方法,其特征在于:步驟四中所述再次輸入二級收索關鍵詞為目標信息中更具體的描述性詞語。
【文檔編號】G06F17/30GK103744944SQ201310754635
【公開日】2014年4月23日 申請日期:2013年12月31日 優(yōu)先權日:2013年12月31日
【發(fā)明者】朱龍騰 申請人:上海伯釋信息科技有限公司