BIG5、UTF-8、UTF-16、BIGENDIAN、IS08859-1 等多種編碼自動識別,系統(tǒng)自動進(jìn)行編碼轉(zhuǎn)換為UTF ;
4、網(wǎng)頁內(nèi)容自動提取模塊,包括動態(tài)網(wǎng)頁內(nèi)容提取模塊和靜態(tài)網(wǎng)頁內(nèi)容提取模塊,根據(jù)敏感詞庫抓取編碼轉(zhuǎn)換處理后存在有害信息網(wǎng)頁的URL ;能采集多種動態(tài)和靜態(tài)網(wǎng)頁,例如 HTM、HTML、SHTML, XML、PHP、ASP、JSP、JavaScript 等網(wǎng)頁;
5、URL過濾器,過濾不需要下載的URL;
6、URL去重模塊,用于判斷過濾后的URL是否與URL存儲器中所存儲的URL—致,若一致則不再對該URL進(jìn)行后續(xù)的處理;實現(xiàn)增量更新功能,保證爬蟲結(jié)點只采集上次更新后新生成或更改的網(wǎng)頁,不用重新采集已下載的網(wǎng)頁來保證信息更新的效率,用戶也可以根據(jù)需要也可設(shè)定全部采集;
7、URL調(diào)度模塊,根據(jù)去重后的URL隊列,控制多線程網(wǎng)頁采集模塊下載相應(yīng)的網(wǎng)頁。
[0022]所述爬蟲結(jié)點還包括網(wǎng)頁去重模塊,用于判斷網(wǎng)頁內(nèi)容是否與已下載過的網(wǎng)頁內(nèi)容一致,若一致則不再對該網(wǎng)頁進(jìn)行后續(xù)的處理,并從網(wǎng)頁庫中將其刪除。
[0023]所述網(wǎng)頁去重模塊包括指紋計算模塊、指紋庫和指紋去重模塊,指紋計算模塊根據(jù)網(wǎng)頁指紋算法,將網(wǎng)頁的內(nèi)容經(jīng)過計算生成指紋,指紋去重模塊將該生成指紋與指紋庫中的指紋進(jìn)行對比,若存在相同或相近似的指紋,則判斷該網(wǎng)頁內(nèi)容已下載過,指紋庫用于存儲指紋數(shù)據(jù),且每個爬蟲結(jié)點的指紋庫進(jìn)行同步更新。
[0024]所述爬蟲結(jié)點還包括標(biāo)簽計數(shù)器和標(biāo)簽計數(shù)日志文件,標(biāo)簽計數(shù)器用于記錄網(wǎng)頁庫中的下載數(shù),并將該數(shù)據(jù)記錄在標(biāo)簽計數(shù)日志文件中。
[0025]所述爬蟲結(jié)點還包括間隔抓取模塊,間隔抓取模塊通過網(wǎng)頁評分和網(wǎng)站權(quán)重自動生成間隔規(guī)則,并控制網(wǎng)頁內(nèi)容自動提取模塊對網(wǎng)頁進(jìn)行相應(yīng)的間隔抓取。
[0026]所述爬蟲結(jié)點還包括抓取規(guī)則設(shè)置模塊,抓取規(guī)則設(shè)置模塊根據(jù)所設(shè)置的抓取規(guī)則,控制網(wǎng)頁內(nèi)容自動提取模塊對網(wǎng)頁進(jìn)行相應(yīng)的抓取動作。
[0027]所述爬蟲結(jié)點還包括反爬蟲抓取模塊,當(dāng)網(wǎng)頁設(shè)置有反爬蟲程序時,啟動反爬蟲抓取模塊,對目標(biāo)網(wǎng)頁進(jìn)行強制采集。
[0028]所述爬蟲結(jié)點還包括采集監(jiān)控模塊,采集監(jiān)控模塊將爬蟲結(jié)點的工作狀態(tài)、采集任務(wù)、采集深度和日志信息轉(zhuǎn)發(fā)給爬蟲根節(jié)點進(jìn)行匯聚處理,并接收爬蟲根節(jié)點的控制。
[0029]所述爬蟲結(jié)點還包括防火墻,多線程網(wǎng)頁采集模塊通過防火墻對網(wǎng)絡(luò)上的有害信息進(jìn)行檢索爬取。
[0030]所述爬蟲系統(tǒng)還包括全文數(shù)據(jù)庫、索引數(shù)據(jù)庫和列序數(shù)據(jù)庫,全文數(shù)據(jù)庫、索引數(shù)據(jù)庫和列序數(shù)據(jù)庫均與爬蟲結(jié)點和爬蟲根節(jié)點連接。
【主權(quán)項】
1.一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:它包括一個或多個爬蟲集群,且每個爬蟲集群均包括多個爬蟲結(jié)點和一個爬蟲根節(jié)點,形成一個分布式的數(shù)據(jù)采集網(wǎng)絡(luò),其中,爬蟲根節(jié)點用于對該爬蟲集群中的爬蟲結(jié)點進(jìn)行控制和管理,爬蟲結(jié)點用于采集網(wǎng)絡(luò)中的有害信息,所述每個爬蟲結(jié)點均由以下多種模塊組成: 多線程網(wǎng)頁采集模塊,包括多種網(wǎng)頁采集通道及網(wǎng)頁解析模塊,針對不同類型的網(wǎng)頁,通過與其相匹配的網(wǎng)頁采集通道和網(wǎng)頁解析模塊對其進(jìn)行采集; 網(wǎng)頁庫,存儲多線程網(wǎng)頁采集模塊所采集的網(wǎng)頁; 編碼識別處理模塊,自動識別網(wǎng)頁的編碼類型,并對其進(jìn)行編碼轉(zhuǎn)換處理; 網(wǎng)頁內(nèi)容自動提取模塊,包括動態(tài)網(wǎng)頁內(nèi)容提取模塊和靜態(tài)網(wǎng)頁內(nèi)容提取模塊,根據(jù)敏感詞庫根據(jù)敏感詞庫抓取編碼轉(zhuǎn)換處理后存在有害信息網(wǎng)頁的URL ; URL過濾器,過濾不需要下載的URL ; URL去重模塊,用于判斷過濾后的URL是否與URL存儲器中所存儲的URL —致,若一致則不再對該URL進(jìn)行后續(xù)的處理; URL調(diào)度模塊,根據(jù)去重后的URL隊列,控制多線程網(wǎng)頁采集模塊下載相應(yīng)的網(wǎng)頁。2.根據(jù)權(quán)利要求1所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述爬蟲結(jié)點還包括網(wǎng)頁去重模塊,用于判斷網(wǎng)頁內(nèi)容是否與已下載過的網(wǎng)頁內(nèi)容一致,若一致則不再對該網(wǎng)頁進(jìn)行后續(xù)的處理,并從網(wǎng)頁庫中將其刪除。3.根據(jù)權(quán)利要求2所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述網(wǎng)頁去重模塊包括指紋計算模塊、指紋庫和指紋去重模塊,指紋計算模塊根據(jù)網(wǎng)頁指紋算法,將網(wǎng)頁的內(nèi)容經(jīng)過計算生成指紋,指紋去重模塊將該生成指紋與指紋庫中的指紋進(jìn)行對比,若存在相同或相近似的指紋,則判斷該網(wǎng)頁內(nèi)容已下載過,指紋庫用于存儲指紋數(shù)據(jù),且每個爬蟲結(jié)點的指紋庫進(jìn)行同步更新。4.根據(jù)權(quán)利要求1所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述爬蟲結(jié)點還包括標(biāo)簽計數(shù)器和標(biāo)簽計數(shù)日志文件,標(biāo)簽計數(shù)器用于記錄網(wǎng)頁庫中的下載數(shù),并將該數(shù)據(jù)記錄在標(biāo)簽計數(shù)日志文件中。5.根據(jù)權(quán)利要求1所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述爬蟲結(jié)點還包括間隔抓取模塊,間隔抓取模塊通過網(wǎng)頁評分和網(wǎng)站權(quán)重自動生成間隔規(guī)則,并控制網(wǎng)頁內(nèi)容自動提取模塊對網(wǎng)頁進(jìn)行相應(yīng)的間隔抓取。6.根據(jù)權(quán)利要求1所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述爬蟲結(jié)點還包括抓取規(guī)則設(shè)置模塊,抓取規(guī)則設(shè)置模塊根據(jù)所設(shè)置的抓取規(guī)則,控制網(wǎng)頁內(nèi)容自動提取模塊對網(wǎng)頁進(jìn)行相應(yīng)的抓取動作。7.根據(jù)權(quán)利要求1所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述編碼識別處理模塊自動將網(wǎng)頁的編碼類型轉(zhuǎn)換為統(tǒng)一碼變換格式UTF。8.根據(jù)權(quán)利要求1所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述爬蟲結(jié)點還包括反爬蟲抓取模塊,當(dāng)網(wǎng)頁設(shè)置有反爬蟲程序時,啟動反爬蟲抓取模塊,對目標(biāo)網(wǎng)頁進(jìn)行強制采集。9.根據(jù)權(quán)利要求1所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述爬蟲結(jié)點還包括采集監(jiān)控模塊,采集監(jiān)控模塊將爬蟲結(jié)點的工作狀態(tài)、采集任務(wù)、采集深度和日志信息轉(zhuǎn)發(fā)給爬蟲根節(jié)點進(jìn)行匯聚處理,并接收爬蟲根節(jié)點的控制。10.根據(jù)權(quán)利要求1所述的一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),其特征在于:所述爬蟲結(jié)點還包括防火墻,多線程網(wǎng)頁采集模塊通過防火墻對網(wǎng)絡(luò)上的有害信息進(jìn)行檢索爬??; 所述爬蟲系統(tǒng)還包括全文數(shù)據(jù)庫、索引數(shù)據(jù)庫和列序數(shù)據(jù)庫,全文數(shù)據(jù)庫、索引數(shù)據(jù)庫和列序數(shù)據(jù)庫均與爬蟲結(jié)點和爬蟲根節(jié)點連接。
【專利摘要】本發(fā)明公開了一種用于IDC有害信息監(jiān)測平臺的爬蟲系統(tǒng),它包括一個或多個爬蟲集群,且每個爬蟲集群均包括多個爬蟲結(jié)點和一個爬蟲根節(jié)點,形成一個分布式的數(shù)據(jù)采集網(wǎng)絡(luò),爬蟲根節(jié)點用于對該爬蟲集群中的爬蟲結(jié)點進(jìn)行控制和管理,爬蟲結(jié)點用于采集網(wǎng)絡(luò)中的有害信息,每個爬蟲結(jié)點均包括多線程網(wǎng)頁采集模塊、網(wǎng)頁庫、編碼識別處理模塊、網(wǎng)頁內(nèi)容自動提取模塊、URL過濾器、URL去重模塊和URL調(diào)度模塊。本發(fā)明提供了強大的數(shù)據(jù)收集功能,通過多個爬蟲集群對動態(tài)網(wǎng)頁和靜態(tài)網(wǎng)頁進(jìn)行全面的實時監(jiān)控。
【IPC分類】G06F17/30
【公開號】CN104899323
【申請?zhí)枴緾N201510343175
【發(fā)明人】彭光輝, 屈立笳, 陶磊, 蘇禮剛, 林偉
【申請人】成都國騰實業(yè)集團有限公司
【公開日】2015年9月9日
【申請日】2015年6月19日