一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法
【專利摘要】本發(fā)明提供一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法,集成多個搜索引擎,對搜索關(guān)鍵詞并行進行搜索采集,然后對采集信息進行有效的組織,及時發(fā)現(xiàn)最新信息,提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源,該方法適用的體系結(jié)構(gòu)包括:生成采集起始URL模塊,模擬瀏覽器行為模塊,搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊,網(wǎng)頁去重,網(wǎng)頁正文抽模塊。能及時發(fā)現(xiàn)最新信息,提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源。
【專利說明】一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法
[0001]【技術(shù)領(lǐng)域】
本發(fā)明是一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法,通常適于用企業(yè)或者政府單位在網(wǎng)絡(luò)上搜索相關(guān)的新聞信息,通過對數(shù)據(jù)的分析得到?jīng)Q策性的結(jié)果。
【背景技術(shù)】
[0002]現(xiàn)在的網(wǎng)絡(luò)信息采集系統(tǒng)大多采用直接對網(wǎng)站進行采集的方式,實現(xiàn)不僅復(fù)雜,而且由于網(wǎng)站模塊的不同,ulr的頻繁變化,需要不斷的對采集的采集網(wǎng)站的url進行監(jiān)控維護;而且采集的范圍也有限,對采集系統(tǒng)的負(fù)載要求也較高,降低了采集效率。
[0003]元搜索引擎就是對多個搜索引擎的整合、調(diào)用、控制和優(yōu)化利用,簡單的說,就是通過一站式的搜索,將輸入的關(guān)鍵詞在多個搜索引擎的查詢結(jié)果統(tǒng)一返回,用戶只需要通過一次搜索就可以看到多個搜索引擎的搜索結(jié)果,較好的解決了單個搜索引擎覆蓋范圍窄的問題。
[0004]目前,基于元搜索的采集實現(xiàn)都非常的復(fù)雜,實際使用時實現(xiàn)非常的復(fù)雜,沒有一個簡單的統(tǒng)一的方法。
【發(fā)明內(nèi)容】
[0005]本發(fā)明就是實現(xiàn)一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法,能夠根據(jù)此方法快速高效的實現(xiàn)一個元搜索采集器。
[0006]集成多個搜索引擎,對搜索關(guān)鍵詞并行進行搜索采集,然后對采集信息進行有效的組織,及時發(fā)現(xiàn)最新信息,提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源,該方法適用的體系結(jié)構(gòu)包括:生成采集起始URL模塊,模擬瀏覽器行為模塊,搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊,網(wǎng)頁去重,網(wǎng)頁正文抽模塊。
[0007]生成采集起始URL模塊對每個搜索引擎的搜索采集任務(wù)都設(shè)置為是一個爬蟲任務(wù),每個爬蟲任務(wù)對應(yīng)一個配置文件,配置文件中配置:搜索URL的中文字符編碼格式,搜索頁的其實頁碼,每頁返回的搜索結(jié)果的數(shù)據(jù),翻頁時頁碼的增長的步長,該搜索引擎返回結(jié)果的總數(shù),結(jié)果列表頁的編碼格式,URL語法格式,抽取結(jié)果列表頁抽取規(guī)則。根據(jù)每個搜索引擎的不同的URL語法格式,將中文關(guān)鍵詞進行對應(yīng)的編碼,在填充入其中的參數(shù)值,就構(gòu)造出了每個搜索引擎對應(yīng)的采集起始URL。
[0008]模擬瀏覽器行為模塊實現(xiàn)網(wǎng)頁采集反屏蔽,通過如下方法:對采集任務(wù)間隔進行控制,固定間隔加上隨機間隔;構(gòu)造代理頭池和IP池,每次爬取網(wǎng)頁時,隨機切換一個userAgent 和 IP0
[0009]網(wǎng)頁去重采用REDIS內(nèi)存數(shù)據(jù)庫來存儲已下載的URL,通過REDIS的set數(shù)據(jù)結(jié)構(gòu)構(gòu)造一個URL非重復(fù)隊列,排除URL重復(fù),如URL重復(fù)則不對網(wǎng)頁再次進行下載。
[0010]網(wǎng)頁正文抽模塊,可設(shè)置不同的規(guī)則對不同的網(wǎng)站的網(wǎng)頁進行正文抽取,并且過濾掉垃圾信息。該模塊還可以將抽取到的網(wǎng)頁中的鏈接繼續(xù)進行采集,實現(xiàn)多層的采集。
[0011]本發(fā)明可實現(xiàn)一種簡單的基于元搜索的通用采集器,集成多個搜索引擎,對搜索關(guān)鍵詞并行進行搜索采集,然后對采集信息進行有效的組織,及時發(fā)現(xiàn)最新信息,提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)。
【專利附圖】
【附圖說明】
[0012]附圖1為本發(fā)明中的實現(xiàn)流程示意圖。
【具體實施方式】
[0013]參照附圖1,一種基于元搜索的網(wǎng)絡(luò)信息采集器實現(xiàn)方法流程如下:
(I)首先,通過生成采集起始URL模塊(I)讀取配置文件中的關(guān)鍵詞、搜索屬性,生成
URL。
[0014]關(guān)鍵詞配置文件可采用txt、excel、xml格式,舉例如下:
【權(quán)利要求】
1.一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法,其特征在于集成多個搜索引擎,對搜索關(guān)鍵詞并行進行搜索采集,然后對采集信息進行有效的組織,及時發(fā)現(xiàn)最新信息,提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源,該方法適用的體系結(jié)構(gòu)包括:生成采集起始URL模塊,模擬瀏覽器行為模塊,搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊,網(wǎng)頁去重,網(wǎng)頁正文抽模塊; 生成采集起始URL模塊生成搜索引擎搜索URL ; 模擬瀏覽器行為模塊將訪問網(wǎng)站行為偽裝成瀏覽器的行為,實現(xiàn)采集的反屏蔽; 搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊將搜索并下載到的結(jié)果進行結(jié)構(gòu)信息(標(biāo)題、來源、發(fā)布時間、摘要、URL)提取; 網(wǎng)頁去重將提取到的搜索結(jié)果的URL進行去重,避免相同網(wǎng)站進行重復(fù)下載; 網(wǎng)頁正文抽模塊下載并提取搜索結(jié)果的正文,將正文以及模塊結(jié)構(gòu)化的信息存儲到數(shù)據(jù)庫中。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述生成采集起始URL模塊,可支持若干的主流搜索引擎,對同樣的關(guān)鍵詞進行并行搜索。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于所述的模擬瀏覽器行為模塊,可通過不同的手段實現(xiàn)模擬瀏覽器行為,包括:對采集任務(wù)間隔進行控制,固定間隔加上隨機間隔;夠著代池和IP池,隨機切換USerAgent和IP。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于所述的網(wǎng)頁去重,可通過內(nèi)存數(shù)據(jù)庫實現(xiàn)url的去重,并可計算某個網(wǎng)頁的重復(fù)次數(shù),為計算網(wǎng)頁重要程度提供數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于所述的網(wǎng)頁正文抽模塊,可設(shè)置不同的規(guī)則對不同的網(wǎng)站的網(wǎng)頁進行正文抽取,并且過濾掉垃圾信息;該模塊還可以將抽取到的網(wǎng)頁中的鏈接繼續(xù)進行采集,實現(xiàn)多層的采集。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于所述的網(wǎng)頁正文抽模塊,可設(shè)置不同的規(guī)則對不同的網(wǎng)站的網(wǎng)頁進行正文抽取,并且過濾掉垃圾信息;該模塊還可以將抽取到的網(wǎng)頁中的鏈接繼續(xù)進行采集,實現(xiàn) 多層的采集。
【文檔編號】G06F17/30GK103902667SQ201410092387
【公開日】2014年7月2日 申請日期:2014年3月14日 優(yōu)先權(quán)日:2014年3月14日
【發(fā)明者】劉粉粉 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司