亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于idc有害信息監(jiān)測(cè)平臺(tái)的爬蟲系統(tǒng)的制作方法

文檔序號(hào):8922690閱讀:275來源:國知局
一種用于idc有害信息監(jiān)測(cè)平臺(tái)的爬蟲系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種用于IDC有害信息監(jiān)測(cè)平臺(tái)的爬蟲系統(tǒng)。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。搜索引擎作為一個(gè)輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。
[0003]面對(duì)日益活躍的網(wǎng)絡(luò)社區(qū)環(huán)境,每個(gè)網(wǎng)民都可能成為有害信息的發(fā)布者和散布者,網(wǎng)絡(luò)有害傳播途徑越來越廣包括博客、新聞、論壇、微博、以及其他途徑。網(wǎng)絡(luò)爬蟲是各種搜索引擎能夠?qū)崿F(xiàn)的先驅(qū)技術(shù),大數(shù)據(jù)時(shí)代的來臨以及互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,使得網(wǎng)絡(luò)爬蟲具有更重大的研宄意義。應(yīng)對(duì)網(wǎng)頁數(shù)據(jù)量增幅大、網(wǎng)絡(luò)文本更新周期短以及網(wǎng)頁結(jié)構(gòu)動(dòng)態(tài)變化等一系列挑戰(zhàn),高效率且不間斷工作的網(wǎng)絡(luò)爬蟲成為有害信息挖掘的研宄熱點(diǎn)。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種用于IDC有害信息監(jiān)測(cè)平臺(tái)的爬蟲系統(tǒng),本系統(tǒng)提供了強(qiáng)大的數(shù)據(jù)收集功能,通過多個(gè)爬蟲集群對(duì)動(dòng)態(tài)網(wǎng)頁和靜態(tài)網(wǎng)頁進(jìn)行全面的實(shí)時(shí)監(jiān)控。
[0005]本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:一種用于IDC有害信息監(jiān)測(cè)平臺(tái)的爬蟲系統(tǒng),它包括一個(gè)或多個(gè)爬蟲集群,且每個(gè)爬蟲集群均包括多個(gè)爬蟲結(jié)點(diǎn)和一個(gè)爬蟲根節(jié)點(diǎn),形成一個(gè)分布式的數(shù)據(jù)采集網(wǎng)絡(luò),其中,爬蟲根節(jié)點(diǎn)用于對(duì)該爬蟲集群中的爬蟲結(jié)點(diǎn)進(jìn)行控制和管理,爬蟲結(jié)點(diǎn)用于采集網(wǎng)絡(luò)中的有害信息。
[0006]本發(fā)明中,所述每個(gè)爬蟲結(jié)點(diǎn)均由以下多種模塊組成:
1、多線程網(wǎng)頁采集模塊,包括多種網(wǎng)頁采集通道及網(wǎng)頁解析模塊,針對(duì)不同類型的網(wǎng)頁,通過與其相匹配的網(wǎng)頁采集通道和網(wǎng)頁解析模塊對(duì)其進(jìn)行采集;
2、網(wǎng)頁庫,存儲(chǔ)多線程網(wǎng)頁采集模塊所采集的網(wǎng)頁;
3、編碼識(shí)別處理模塊,自動(dòng)識(shí)別網(wǎng)頁的編碼類型,并對(duì)其進(jìn)行編碼轉(zhuǎn)換處理;
4、網(wǎng)頁內(nèi)容自動(dòng)提取模塊,包括動(dòng)態(tài)網(wǎng)頁內(nèi)容提取模塊和靜態(tài)網(wǎng)頁內(nèi)容提取模塊,根據(jù)敏感詞庫抓取編碼轉(zhuǎn)換處理后存在有害信息網(wǎng)頁的URL ;
5、URL過濾器,過濾不需要下載的URL;
6、URL去重模塊,用于判斷過濾后的URL是否與URL存儲(chǔ)器中所存儲(chǔ)的URL—致,若一致則不再對(duì)該URL進(jìn)行后續(xù)的處理;
7、URL調(diào)度模塊,根據(jù)去重后的URL隊(duì)列,控制多線程網(wǎng)頁采集模塊下載相應(yīng)的網(wǎng)頁。
[0007]所述爬蟲結(jié)點(diǎn)還包括網(wǎng)頁去重模塊,用于判斷網(wǎng)頁內(nèi)容是否與已下載過的網(wǎng)頁內(nèi)容一致,若一致則不再對(duì)該網(wǎng)頁進(jìn)行后續(xù)的處理,并從網(wǎng)頁庫中將其刪除。
[0008]所述網(wǎng)頁去重模塊包括指紋計(jì)算模塊、指紋庫和指紋去重模塊,指紋計(jì)算模塊根據(jù)網(wǎng)頁指紋算法,將網(wǎng)頁的內(nèi)容經(jīng)過計(jì)算生成指紋,指紋去重模塊將該生成指紋與指紋庫中的指紋進(jìn)行對(duì)比,若存在相同或相近似的指紋,則判斷該網(wǎng)頁內(nèi)容已下載過,指紋庫用于存儲(chǔ)指紋數(shù)據(jù),且每個(gè)爬蟲結(jié)點(diǎn)的指紋庫進(jìn)行同步更新。
[0009]所述爬蟲結(jié)點(diǎn)還包括標(biāo)簽計(jì)數(shù)器和標(biāo)簽計(jì)數(shù)日志文件,標(biāo)簽計(jì)數(shù)器用于記錄網(wǎng)頁庫中的下載數(shù),并將該數(shù)據(jù)記錄在標(biāo)簽計(jì)數(shù)日志文件中。
[0010]所述爬蟲結(jié)點(diǎn)還包括間隔抓取模塊,間隔抓取模塊通過網(wǎng)頁評(píng)分和網(wǎng)站權(quán)重自動(dòng)生成間隔規(guī)則,并控制網(wǎng)頁內(nèi)容自動(dòng)提取模塊對(duì)網(wǎng)頁進(jìn)行相應(yīng)的間隔抓取。
[0011]所述爬蟲結(jié)點(diǎn)還包括抓取規(guī)則設(shè)置模塊,抓取規(guī)則設(shè)置模塊根據(jù)所設(shè)置的抓取規(guī)則,控制網(wǎng)頁內(nèi)容自動(dòng)提取模塊對(duì)網(wǎng)頁進(jìn)行相應(yīng)的抓取動(dòng)作。
[0012]所述編碼識(shí)別處理模塊自動(dòng)將網(wǎng)頁的編碼類型轉(zhuǎn)換為統(tǒng)一碼變換格式UTF。
[0013]所述爬蟲結(jié)點(diǎn)還包括反爬蟲抓取模塊,當(dāng)網(wǎng)頁設(shè)置有反爬蟲程序時(shí),啟動(dòng)反爬蟲抓取模塊,對(duì)目標(biāo)網(wǎng)頁進(jìn)行強(qiáng)制采集。
[0014]所述爬蟲結(jié)點(diǎn)還包括采集監(jiān)控模塊,采集監(jiān)控模塊將爬蟲結(jié)點(diǎn)的工作狀態(tài)、采集任務(wù)、采集深度和日志信息轉(zhuǎn)發(fā)給爬蟲根節(jié)點(diǎn)進(jìn)行匯聚處理,并接收爬蟲根節(jié)點(diǎn)的控制。
[0015]所述爬蟲結(jié)點(diǎn)還包括防火墻,多線程網(wǎng)頁采集模塊通過防火墻對(duì)網(wǎng)絡(luò)上的有害信息進(jìn)行檢索爬取。
[0016]所述爬蟲系統(tǒng)還包括全文數(shù)據(jù)庫、索引數(shù)據(jù)庫和列序數(shù)據(jù)庫,全文數(shù)據(jù)庫、索引數(shù)據(jù)庫和列序數(shù)據(jù)庫均與爬蟲結(jié)點(diǎn)和爬蟲根節(jié)點(diǎn)連接。
[0017]本發(fā)明的有益效果是:本發(fā)明所提出的一種用于IDC有害信息監(jiān)測(cè)平臺(tái)的爬蟲系統(tǒng),具有以下多個(gè)功能特點(diǎn):
1)多線程采集:針對(duì)不同類型的網(wǎng)站定制不同的策略,采集支持多線程,實(shí)現(xiàn)快速信息米集;
2)分布式采集:通過多個(gè)爬蟲集群、若干的爬蟲結(jié)點(diǎn)進(jìn)行大規(guī)模數(shù)據(jù)采集;
3)采集監(jiān)控:對(duì)爬蟲結(jié)點(diǎn)工作狀態(tài)、采集任務(wù)、采集深度、日志、系統(tǒng)運(yùn)行報(bào)告等進(jìn)行監(jiān)控和管理;
4)網(wǎng)頁內(nèi)容自動(dòng)提取:能采集多種動(dòng)態(tài)和靜態(tài)網(wǎng)頁,例如HTM、HTML、SHTML、XML、PHP、ASP、JSP、JavaScript 等網(wǎng)頁;
5)編碼自動(dòng)識(shí)別轉(zhuǎn)換:支持GBK、GB2312、BIG5、UTF-8、UTF-16、BIGENDIAN、IS08859-1等多種編碼自動(dòng)識(shí)別,系統(tǒng)自動(dòng)進(jìn)行編碼轉(zhuǎn)換為UTF ;
6)增量更新:保證爬蟲結(jié)點(diǎn)只采集上次更新后新生成或更改的網(wǎng)頁,不用重新采集已下載的網(wǎng)頁來保證信息更新的效率,用戶也可以根據(jù)需要也可設(shè)定全部采集;
7)反爬蟲抓取:針對(duì)部分設(shè)置反爬蟲程序網(wǎng)站應(yīng)設(shè)置相關(guān)策略,避免無法抓取頁面;
8)爬蟲間隔抓取:采用網(wǎng)頁評(píng)分和網(wǎng)站權(quán)重等自動(dòng)生成間隔規(guī)則,對(duì)網(wǎng)頁進(jìn)行相應(yīng)的間隔抓?。?br> 9)自定義抓取規(guī)則:用戶也可以自己設(shè)置抓取規(guī)則。
【附圖說明】
[0018]圖1為本發(fā)明的爬蟲系統(tǒng)結(jié)構(gòu)框圖;
圖2為本發(fā)明中爬蟲結(jié)點(diǎn)的結(jié)構(gòu)原理框圖。
【具體實(shí)施方式】
[0019]下面結(jié)合附圖進(jìn)一步詳細(xì)描述本發(fā)明的技術(shù)方案,但本發(fā)明的保護(hù)范圍不局限于以下所述。
[0020]如圖1所示,一種用于IDC有害信息監(jiān)測(cè)平臺(tái)的爬蟲系統(tǒng),它負(fù)責(zé)從互聯(lián)網(wǎng)上進(jìn)行原始數(shù)據(jù)的發(fā)現(xiàn)、爬取和數(shù)據(jù)規(guī)格化。根據(jù)互聯(lián)網(wǎng)上應(yīng)用的不同,包括一個(gè)或多個(gè)爬蟲集群,且每個(gè)爬蟲集群均包括多個(gè)爬蟲結(jié)點(diǎn)和一個(gè)爬蟲根節(jié)點(diǎn),形成一個(gè)分布式的數(shù)據(jù)采集網(wǎng)絡(luò),其中,爬蟲根節(jié)點(diǎn)用于對(duì)該爬蟲集群中的爬蟲結(jié)點(diǎn)進(jìn)行控制和管理,并與上位機(jī)進(jìn)行相互通信,爬蟲結(jié)點(diǎn)用于采集網(wǎng)絡(luò)中的有害信息。
[0021]如圖2所示,本發(fā)明中,所述每個(gè)爬蟲結(jié)點(diǎn)均由以下多種模塊組成:
1、多線程網(wǎng)頁采集模塊,包括多種網(wǎng)頁采集通道及網(wǎng)頁解析模塊,針對(duì)不同類型的網(wǎng)頁,通過與其相匹配的網(wǎng)頁采集通道和網(wǎng)頁解析模塊對(duì)其進(jìn)行采集;所述網(wǎng)頁解析模塊包括DNS解析模塊、HTTP解析模塊、FTP解析模塊、GOPHER解析模塊等;
實(shí)現(xiàn)多線程采集功能:能夠針對(duì)不同類型的網(wǎng)站定制不同的策略,采集支持多線程,實(shí)現(xiàn)快速?目息米集;
2、網(wǎng)頁庫,存儲(chǔ)多線程網(wǎng)頁采集模塊所采集的網(wǎng)頁;
3、編碼識(shí)別處理模塊,自動(dòng)識(shí)別網(wǎng)頁的編碼類型,并對(duì)其進(jìn)行編碼轉(zhuǎn)換處理;支持GBK、GB2312、
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1