一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法

文檔序號：6540322閱讀：251來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法
【專利摘要】本發(fā)明提供一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法，集成多個搜索引擎，對搜索關(guān)鍵詞并行進行搜索采集，然后對采集信息進行有效的組織，及時發(fā)現(xiàn)最新信息，提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源，該方法適用的體系結(jié)構(gòu)包括：生成采集起始URL模塊，模擬瀏覽器行為模塊，搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊，網(wǎng)頁去重，網(wǎng)頁正文抽模塊。能及時發(fā)現(xiàn)最新信息，提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源。
【專利說明】一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法
[0001]【技術(shù)領(lǐng)域】
本發(fā)明是一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法，通常適于用企業(yè)或者政府單位在網(wǎng)絡(luò)上搜索相關(guān)的新聞信息，通過對數(shù)據(jù)的分析得到?jīng)Q策性的結(jié)果。
【背景技術(shù)】
[0002]現(xiàn)在的網(wǎng)絡(luò)信息采集系統(tǒng)大多采用直接對網(wǎng)站進行采集的方式，實現(xiàn)不僅復(fù)雜，而且由于網(wǎng)站模塊的不同，ulr的頻繁變化，需要不斷的對采集的采集網(wǎng)站的url進行監(jiān)控維護；而且采集的范圍也有限，對采集系統(tǒng)的負(fù)載要求也較高，降低了采集效率。
[0003]元搜索引擎就是對多個搜索引擎的整合、調(diào)用、控制和優(yōu)化利用，簡單的說，就是通過一站式的搜索，將輸入的關(guān)鍵詞在多個搜索引擎的查詢結(jié)果統(tǒng)一返回，用戶只需要通過一次搜索就可以看到多個搜索引擎的搜索結(jié)果，較好的解決了單個搜索引擎覆蓋范圍窄的問題。
[0004]目前，基于元搜索的采集實現(xiàn)都非常的復(fù)雜，實際使用時實現(xiàn)非常的復(fù)雜，沒有一個簡單的統(tǒng)一的方法。

【發(fā)明內(nèi)容】

[0005]本發(fā)明就是實現(xiàn)一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法，能夠根據(jù)此方法快速高效的實現(xiàn)一個元搜索采集器。
[0006]集成多個搜索引擎，對搜索關(guān)鍵詞并行進行搜索采集，然后對采集信息進行有效的組織，及時發(fā)現(xiàn)最新信息，提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源，該方法適用的體系結(jié)構(gòu)包括:生成采集起始URL模塊，模擬瀏覽器行為模塊，搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊，網(wǎng)頁去重，網(wǎng)頁正文抽模塊。
[0007]生成采集起始URL模塊對每個搜索引擎的搜索采集任務(wù)都設(shè)置為是一個爬蟲任務(wù)，每個爬蟲任務(wù)對應(yīng)一個配置文件，配置文件中配置:搜索URL的中文字符編碼格式，搜索頁的其實頁碼，每頁返回的搜索結(jié)果的數(shù)據(jù)，翻頁時頁碼的增長的步長，該搜索引擎返回結(jié)果的總數(shù)，結(jié)果列表頁的編碼格式，URL語法格式，抽取結(jié)果列表頁抽取規(guī)則。根據(jù)每個搜索引擎的不同的URL語法格式，將中文關(guān)鍵詞進行對應(yīng)的編碼，在填充入其中的參數(shù)值，就構(gòu)造出了每個搜索引擎對應(yīng)的采集起始URL。
[0008]模擬瀏覽器行為模塊實現(xiàn)網(wǎng)頁采集反屏蔽，通過如下方法:對采集任務(wù)間隔進行控制，固定間隔加上隨機間隔；構(gòu)造代理頭池和IP池，每次爬取網(wǎng)頁時，隨機切換一個userAgent 和 IP0
[0009]網(wǎng)頁去重采用REDIS內(nèi)存數(shù)據(jù)庫來存儲已下載的URL，通過REDIS的set數(shù)據(jù)結(jié)構(gòu)構(gòu)造一個URL非重復(fù)隊列，排除URL重復(fù)，如URL重復(fù)則不對網(wǎng)頁再次進行下載。
[0010]網(wǎng)頁正文抽模塊，可設(shè)置不同的規(guī)則對不同的網(wǎng)站的網(wǎng)頁進行正文抽取，并且過濾掉垃圾信息。該模塊還可以將抽取到的網(wǎng)頁中的鏈接繼續(xù)進行采集，實現(xiàn)多層的采集。
[0011]本發(fā)明可實現(xiàn)一種簡單的基于元搜索的通用采集器，集成多個搜索引擎，對搜索關(guān)鍵詞并行進行搜索采集，然后對采集信息進行有效的組織，及時發(fā)現(xiàn)最新信息，提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)。
【專利附圖】

【附圖說明】
[0012]附圖1為本發(fā)明中的實現(xiàn)流程示意圖。
【具體實施方式】
[0013]參照附圖1，一種基于元搜索的網(wǎng)絡(luò)信息采集器實現(xiàn)方法流程如下:
(I)首先，通過生成采集起始URL模塊(I)讀取配置文件中的關(guān)鍵詞、搜索屬性，生成
URL。
[0014]關(guān)鍵詞配置文件可采用txt、excel、xml格式,舉例如下:
【權(quán)利要求】
1.一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法，其特征在于集成多個搜索引擎，對搜索關(guān)鍵詞并行進行搜索采集，然后對采集信息進行有效的組織，及時發(fā)現(xiàn)最新信息，提供給用戶用作分析的基礎(chǔ)數(shù)據(jù)源，該方法適用的體系結(jié)構(gòu)包括:生成采集起始URL模塊，模擬瀏覽器行為模塊，搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊，網(wǎng)頁去重，網(wǎng)頁正文抽模塊；生成采集起始URL模塊生成搜索引擎搜索URL ；模擬瀏覽器行為模塊將訪問網(wǎng)站行為偽裝成瀏覽器的行為，實現(xiàn)采集的反屏蔽；搜索結(jié)果列表頁下載并結(jié)構(gòu)化信息提取模塊將搜索并下載到的結(jié)果進行結(jié)構(gòu)信息(標(biāo)題、來源、發(fā)布時間、摘要、URL)提取；網(wǎng)頁去重將提取到的搜索結(jié)果的URL進行去重，避免相同網(wǎng)站進行重復(fù)下載；網(wǎng)頁正文抽模塊下載并提取搜索結(jié)果的正文，將正文以及模塊結(jié)構(gòu)化的信息存儲到數(shù)據(jù)庫中。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于所述生成采集起始URL模塊，可支持若干的主流搜索引擎，對同樣的關(guān)鍵詞進行并行搜索。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于所述的模擬瀏覽器行為模塊，可通過不同的手段實現(xiàn)模擬瀏覽器行為，包括:對采集任務(wù)間隔進行控制，固定間隔加上隨機間隔；夠著代池和IP池，隨機切換USerAgent和IP。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于所述的網(wǎng)頁去重，可通過內(nèi)存數(shù)據(jù)庫實現(xiàn)url的去重，并可計算某個網(wǎng)頁的重復(fù)次數(shù)，為計算網(wǎng)頁重要程度提供數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于所述的網(wǎng)頁正文抽模塊，可設(shè)置不同的規(guī)則對不同的網(wǎng)站的網(wǎng)頁進行正文抽取，并且過濾掉垃圾信息；該模塊還可以將抽取到的網(wǎng)頁中的鏈接繼續(xù)進行采集，實現(xiàn)多層的采集。
6.根據(jù)權(quán)利要求1所述的方法，其特征在于所述的網(wǎng)頁正文抽模塊，可設(shè)置不同的規(guī)則對不同的網(wǎng)站的網(wǎng)頁進行正文抽取，并且過濾掉垃圾信息；該模塊還可以將抽取到的網(wǎng)頁中的鏈接繼續(xù)進行采集，實現(xiàn) 多層的采集。
【文檔編號】G06F17/30GK103902667SQ201410092387
【公開日】2014年7月2日申請日期:2014年3月14日優(yōu)先權(quán)日:2014年3月14日
【發(fā)明者】劉粉粉申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉粉粉
技術(shù)所有人：浪潮電子信息產(chǎn)業(yè)股份有限公司
我是此專利的發(fā)明人

上一篇：一種消息隊列的設(shè)計與實現(xiàn)方法
上一篇：用于虛擬硬件存儲器保護的系統(tǒng)和方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

身份證信息采集器相關(guān)技術(shù)

58信息采集器相關(guān)技術(shù)

58同城信息采集器相關(guān)技術(shù)

分類信息采集器相關(guān)技術(shù)

信息采集器相關(guān)技術(shù)

淘寶賣家信息采集器相關(guān)技術(shù)

企業(yè)信息采集器相關(guān)技術(shù)

銀行卡信息采集器相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于元搜索的網(wǎng)絡(luò)信息采集器簡單實現(xiàn)方法