專利名稱:一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)采集的系統(tǒng)與方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)頁(yè)動(dòng)態(tài)解析技術(shù)領(lǐng)域,具體屬于一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)系統(tǒng)與方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,出現(xiàn)了越來(lái)越多的互聯(lián)網(wǎng)網(wǎng)站,形式層出不窮,出現(xiàn)了新聞,博客,論壇,SNS,微博等。據(jù)CNNIC今年的最新統(tǒng)計(jì),中國(guó)現(xiàn)已有網(wǎng)民4.85億,各類站點(diǎn)域名130余萬(wàn)個(gè)。在互聯(lián)網(wǎng)信息爆炸的今天,搜索引擎已成為人們查找互聯(lián)網(wǎng)信息的最重要工具。搜索引擎主要通過(guò)自動(dòng)爬取網(wǎng)站信息,并對(duì)其進(jìn)行預(yù)處理,分詞后,建立索引。輸入檢索詞后,搜索引擎能夠自動(dòng)的為用戶查找出最相關(guān)的結(jié)果。搜索引擎經(jīng)過(guò)十多年的發(fā)展,技術(shù)已相對(duì)成熟,且因?yàn)橛谐晒Φ纳虡I(yè)模式可以運(yùn)用,因而吸引了眾多互聯(lián)網(wǎng)廠商進(jìn)入,比較著名的有百度,谷歌,搜搜,搜狗,有道,奇虎360等。另外還有一些垂直領(lǐng)域的搜索引擎(如旅游,機(jī)票,比價(jià)等),進(jìn)入的廠商不下千家。搜索引擎的第一步也是最重要的一步是信息抓取,該步驟是搜索引擎的數(shù)據(jù)準(zhǔn)備過(guò)程。具體過(guò)程如圖1所示。URL DB存放所有待爬取的URL,URL調(diào)度模塊從URL DB中選取出最重要的URL并將其放入U(xiǎn)RL下載隊(duì)列,頁(yè)面下載模塊對(duì)該隊(duì)列中的URL進(jìn)行下載,下載完畢后,抽取模塊對(duì)下載的頁(yè)面代碼進(jìn)行正文和URL抽取,抽取的正文發(fā)送給索引模塊進(jìn)行分詞和建索引,URL放入U(xiǎn)RL DB。信息采集過(guò)程,是將別人網(wǎng)站的信息放到抓取到自己的信息庫(kù)的過(guò)程,會(huì)面臨著一些問(wèn)題。 1、互聯(lián)網(wǎng)信息每刻都不停的增加,因而信息抓取是7*24小時(shí)不間斷過(guò)程。頻繁的抓取會(huì)對(duì)目標(biāo)網(wǎng)站帶來(lái)巨大的訪問(wèn)壓力,形成DDOS拒絕服務(wù)攻擊,導(dǎo)致無(wú)法為正常用戶提供訪問(wèn),這一點(diǎn)在中小型網(wǎng)站體現(xiàn)的尤為明顯,這些網(wǎng)站的硬件資源比較差,技術(shù)力量不強(qiáng),而互聯(lián)網(wǎng)中90%以上是該類型的網(wǎng)站。例如:某著名搜索引擎由于頻繁抓取某網(wǎng)站而召到用戶投訴。2、有些網(wǎng)站的信息具備隱私或版權(quán),很多網(wǎng)頁(yè)中包含后臺(tái)數(shù)據(jù)庫(kù)、用戶穩(wěn)私、密碼等信息。網(wǎng)站主辦者不希望這些信息被公之于眾或無(wú)償使用。大眾點(diǎn)評(píng)網(wǎng)曾就愛(ài)幫網(wǎng)抓取其網(wǎng)站上的點(diǎn)評(píng)信息,然后發(fā)布在自己網(wǎng)站上的行為進(jìn)行起訴。目前針對(duì)搜索引擎的網(wǎng)頁(yè)反采集采取的主流方法有robots協(xié)議約定,網(wǎng)站通過(guò)一個(gè)robots, txt協(xié)議來(lái)自主控制是否愿意自身內(nèi)容被搜索引擎收錄,以及允許哪些搜索引擎收錄,并且指定自身可供收錄和禁止收錄的內(nèi)容。同時(shí),搜索引擎會(huì)自覺(jué)按照每個(gè)網(wǎng)站Robots協(xié)議給予自己的權(quán)限來(lái)進(jìn)行抓取。該方法假定的搜索引擎爬取流程如下:下載網(wǎng)站robots文件-按robots協(xié)議解析該文件一獲取待下載的URL-判斷該URL所在的訪問(wèn)權(quán)限-根據(jù)判斷結(jié)果決定是否爬取。Robots協(xié)議是君子協(xié)議,無(wú)任何約束性,爬取的主動(dòng)性仍然完全控制在搜索引擎一方,完全可以不遵循該協(xié)議進(jìn)行強(qiáng)行爬取。例如國(guó)內(nèi)某著名搜索引擎在2012年8月份不遵循該協(xié)議爬取百度網(wǎng)站內(nèi)容而遭到百度指責(zé)。另外一種反采集方法主要通過(guò)使用動(dòng)態(tài)技術(shù)構(gòu)建欲禁止抓取的網(wǎng)頁(yè),該方法通過(guò)使用客戶端腳本語(yǔ)言(如JS,VBScript,AJAX)動(dòng)態(tài)生成網(wǎng)頁(yè)顯示信息,從而實(shí)現(xiàn)信息隱藏,使常規(guī)的搜索引擎難以獲取URL和正文內(nèi)容。動(dòng)態(tài)網(wǎng)頁(yè)構(gòu)建技術(shù)只是增加了網(wǎng)頁(yè)解析和抽取的難度,并不能從根本上禁止網(wǎng)頁(yè)信息的采集和解析,目前,一些先進(jìn)的搜索引擎已經(jīng)可以做到模擬瀏覽器實(shí)現(xiàn)所有腳本代碼的解析,獲取 所有信息的網(wǎng)絡(luò)URL,從而獲取存放于服務(wù)器的動(dòng)態(tài)信息。目前已經(jīng)存在成熟的網(wǎng)頁(yè)動(dòng)態(tài)解析技術(shù),主要是通過(guò)解析網(wǎng)頁(yè)中所有的腳本代碼段,然后獲取網(wǎng)頁(yè)所有的動(dòng)態(tài)信息(包括有用信息和垃圾信息)。實(shí)際實(shí)施過(guò)程是以開(kāi)源的腳本代碼解析引擎(如Rhino,V8等)為內(nèi)核,構(gòu)建網(wǎng)頁(yè)腳本解析環(huán)境,然后抽取網(wǎng)頁(yè)中的腳本代碼段,將抽取的代碼段放入網(wǎng)頁(yè)腳本解析環(huán)境中執(zhí)行解析,從而返回動(dòng)態(tài)信息。解析過(guò)程如圖2所示,所以動(dòng)態(tài)技術(shù)構(gòu)建動(dòng)態(tài)網(wǎng)頁(yè)的方法只是增加了網(wǎng)頁(yè)采集和解析的難度,并沒(méi)有從根本上杜絕搜索引擎的采集。
發(fā)明內(nèi)容
本發(fā)明的目的是提供了一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)采集的系統(tǒng)與方法,克服了現(xiàn)有技術(shù)的不足,該系統(tǒng)通過(guò)分析網(wǎng)站的歷史網(wǎng)頁(yè)訪問(wèn)行為,建立自動(dòng)采集分類器,識(shí)別出機(jī)器人的自動(dòng)采集,通過(guò)自動(dòng)機(jī)器人采集識(shí)別,實(shí)現(xiàn)網(wǎng)頁(yè)反抓取。本發(fā)明采用的技術(shù)方案如下:一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)采集的系統(tǒng)與方法,包括反采集分類器構(gòu)建模塊、自動(dòng)采集識(shí)別模塊和反采集在線處理模塊,反采集分類器構(gòu)建模塊,該模塊主要用于使用計(jì)算機(jī)程序?qū)v史的web信息自動(dòng)采集和正常的網(wǎng)頁(yè)訪問(wèn)行為進(jìn)行學(xué)習(xí)并區(qū)分,該模塊為自動(dòng)采集識(shí)別提供訓(xùn)練模型,所述的自動(dòng)采集識(shí)別模塊,該模塊主要通過(guò)加載自動(dòng)分類器,自動(dòng)識(shí)別出搜索引擎程序的自動(dòng)采集行為,并將識(shí)別出的采集程序所處的IP段加入黑名單,該黑名單用于后續(xù)對(duì)自動(dòng)采集行為進(jìn)行在線攔截,所述的反采集在線處理模塊,該模塊主要用于對(duì)訪問(wèn)的用戶進(jìn)行自動(dòng)在線判定和處理,如果該訪問(wèn)者的IP已在IP段黑名單中,則拒絕該IP進(jìn)行訪問(wèn);否則,將該訪問(wèn)請(qǐng)求轉(zhuǎn)交給web服務(wù)器進(jìn)行繼續(xù)處理。所述的反采集分類器構(gòu)建模塊實(shí)現(xiàn)方法具體包含如下步驟:(5)日志解析子模塊通過(guò)對(duì)站點(diǎn)訪問(wèn)日志的自動(dòng)解析,獲取用戶的訪問(wèn)行為信息,包括用戶訪問(wèn)網(wǎng)站所用的IP,訪問(wèn)發(fā)生時(shí)間,訪問(wèn)的URL,來(lái)源URL ;樣本選取子模塊對(duì)步驟I中的解析數(shù)據(jù)記錄進(jìn)行選取,依據(jù)是同一 IP段在連續(xù)一段時(shí)間內(nèi)訪問(wèn)頻度最高的數(shù)據(jù)記錄作為候選數(shù)據(jù)加入到樣本集中;訪問(wèn)統(tǒng)計(jì)子模塊對(duì)已選取的樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)出同一 IP段的平均頁(yè)面停留時(shí)間、訪問(wèn)站點(diǎn)的總頁(yè)面數(shù)、是否采集網(wǎng)頁(yè)附件信息、網(wǎng)頁(yè)采集頻率;(6)以IP段作為主關(guān)鍵字,將上述信息存入樣本庫(kù),并將其標(biāo)記為未標(biāo)注;(7)對(duì)步驟(I)中的未標(biāo)注樣本進(jìn)行標(biāo)注,如果確定樣本為機(jī)器自動(dòng)采集,則標(biāo)注為I ;如果為用戶瀏覽器正常訪問(wèn),則標(biāo)注為0,將所有標(biāo)注完的樣本更新入數(shù)據(jù)庫(kù);(8)計(jì)算機(jī)程序自動(dòng)對(duì)樣本庫(kù)進(jìn)行學(xué)習(xí),生成分類模型,用于后期的自動(dòng)采集識(shí)別。所述的自動(dòng)采集識(shí)別模塊實(shí)現(xiàn)方法包含如下步驟:(5)識(shí)別程序初始化階段,完成分類器模型的加載,該模型可以判斷自動(dòng)采集行為;(6)日志解析程序?qū)ψ钚碌木W(wǎng)站訪問(wèn)日志進(jìn)行解析,并將解析后的數(shù)據(jù)發(fā)送到訪問(wèn)統(tǒng)計(jì)模塊;(7)訪問(wèn)統(tǒng)計(jì)模塊計(jì)算出同一 IP段的平均頁(yè)面停留時(shí)間、是否采集網(wǎng)頁(yè)附件信息、網(wǎng)頁(yè)采集頻率;(8)分類器基于分類模型對(duì)該IP段的訪問(wèn)行為進(jìn)行判定,將判定為程序自動(dòng)采集行為的IP段加入黑名單;所述的反采集在線處理模塊實(shí)現(xiàn)方法,包括以下幾個(gè)步驟:(I)對(duì)于web服務(wù)器轉(zhuǎn)交過(guò)的訪問(wèn)請(qǐng)求,提取訪問(wèn)者的IP信息;(2)在黑名單庫(kù)中比對(duì)該IP信息,如果IP已處于黑名單中,則通知web服務(wù)器拒絕該IP的訪問(wèn);否則,通知web服務(wù)器對(duì)該訪問(wèn)請(qǐng)求進(jìn)行正常處理。與已有技術(shù)相比,本發(fā)明的有益效果如下:本發(fā)明該系統(tǒng)通過(guò)分析網(wǎng)站的歷史網(wǎng)頁(yè)訪問(wèn)行為,建立自動(dòng)采集分類器,識(shí)別出機(jī)器人的自動(dòng)采集,通過(guò)自動(dòng)機(jī)器人采集識(shí)別,實(shí)現(xiàn)網(wǎng)頁(yè)反抓取,自動(dòng)發(fā)現(xiàn)搜索引擎的網(wǎng)頁(yè)采集行為,并對(duì)其采集行為進(jìn)行屏蔽,從根本上杜絕搜索引擎的采集。
圖1為現(xiàn)有技術(shù)搜索引擎信息抓取過(guò)程簡(jiǎn)圖;圖2為現(xiàn)有技術(shù)二解析過(guò)程簡(jiǎn)圖;圖3為本發(fā)明反采集分類器構(gòu)建模塊圖;圖4為本發(fā)明自動(dòng)采集識(shí)別模塊圖;圖5為本發(fā)明反采集在線處理模塊。
具體實(shí)施例方式參見(jiàn)附圖,一種能識(shí)別網(wǎng)頁(yè)信息反抓取系統(tǒng)與方法,包括反采集分類器構(gòu)建模塊、自動(dòng)采集識(shí)別模塊和反采集在線處理模塊,反采集分類器構(gòu)建模塊,該模塊主要用于使用計(jì)算機(jī)程序?qū)v史的web信息自動(dòng)采集和正常的網(wǎng)頁(yè)訪問(wèn)行為進(jìn)行學(xué)習(xí)并區(qū)分,該模塊為自動(dòng)采集識(shí)別提供訓(xùn)練模型,所述的自動(dòng)采集識(shí)別模塊,該模塊主要通過(guò)加載自動(dòng)分類器,自動(dòng)識(shí)別出搜索引擎程序的自動(dòng)采集行為,并將識(shí)別出的采集程序所處的IP段加入黑名單,該黑名單用于后續(xù)對(duì)自動(dòng)采集行為進(jìn)行在線攔截,所述的反采集在線處理模塊,該模塊主要用于對(duì)訪問(wèn)的用戶進(jìn)行自動(dòng)在線判定和處理,如果該訪問(wèn)者的IP已在IP段黑名單中,則拒絕該IP進(jìn)行訪問(wèn);否則,將該訪問(wèn)請(qǐng)求轉(zhuǎn)交給web服務(wù)器進(jìn)行繼續(xù)處理。所述的反采集分類器構(gòu)建模塊實(shí)現(xiàn)方法具體包含如下步驟:(9)日志解析子模塊通過(guò)對(duì)站點(diǎn)訪問(wèn)日志的自動(dòng)解析,獲取用戶的訪問(wèn)行為信息,包括用戶訪問(wèn)網(wǎng)站所用的IP,訪問(wèn)發(fā)生時(shí)間,訪問(wèn)的URL,來(lái)源URL ;樣本選取子模塊對(duì)步驟I中的解析數(shù)據(jù)記錄進(jìn)行選取,依據(jù)是同一 IP段在連續(xù)一段時(shí)間內(nèi)訪問(wèn)頻度最高的數(shù)據(jù)記錄作為候選數(shù)據(jù)加入到樣本集中;訪問(wèn)統(tǒng)計(jì)子模塊對(duì)已選取的樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)出同一 IP段的平均頁(yè)面停留時(shí)間、訪問(wèn)站點(diǎn)的總頁(yè)面數(shù)、是否采集網(wǎng)頁(yè)附件信息、網(wǎng)頁(yè)采集
頻率;(10)以IP段作為主關(guān)鍵字,將上述信息存入樣本庫(kù),并將其標(biāo)記為未標(biāo)注;(11)對(duì)步驟(I)中的未標(biāo)注樣本進(jìn)行標(biāo)注,如果確定樣本為機(jī)器自動(dòng)采集,則標(biāo)注為I ;如果為用戶瀏覽器正常訪問(wèn),則標(biāo)注為0,將所有標(biāo)注完的樣本更新入數(shù)據(jù)庫(kù);(12)計(jì)算機(jī)程序自動(dòng)對(duì)樣本庫(kù)進(jìn)行學(xué)習(xí),生成分類模型,用于后期的自動(dòng)采集識(shí)別。所述的自動(dòng)采集識(shí)別模塊實(shí)現(xiàn)方法包含如下步驟:(9)識(shí)別程序初始化階段,完成分類器模型的加載,該模型可以判斷自動(dòng)采集行為;(10)日志解析程序?qū)ψ钚碌木W(wǎng)站訪問(wèn)日志進(jìn)行解析,并將解析后的數(shù)據(jù)發(fā)送到訪問(wèn)統(tǒng)計(jì)模塊;(11)訪問(wèn)統(tǒng)計(jì)模塊計(jì)算出同一 IP段的平均頁(yè)面停留時(shí)間、是否采集網(wǎng)頁(yè)附件信息、網(wǎng)頁(yè)采集頻率;(12)分類器基于分類模型對(duì)該IP段的訪問(wèn)行為進(jìn)行判定,將判定為程序自動(dòng)采集行為的IP段加入黑名單;所述的反采集在線處理模塊實(shí)現(xiàn)方法,包括以下幾個(gè)步驟:(I)對(duì)于web服務(wù)器轉(zhuǎn)交過(guò)的訪問(wèn)請(qǐng)求,提取訪問(wèn)者的IP信息;(2)在黑名單庫(kù)中比對(duì)該IP信息,如果IP已處于黑名單中,則通知web服務(wù)器拒絕該IP的訪問(wèn);否則,通知web服務(wù)器對(duì)該訪問(wèn)請(qǐng)求進(jìn)行正常處理。反采集分類器構(gòu)建該模塊主要用于訓(xùn)練計(jì)算機(jī)程序,使其能對(duì)歷史的web信息自動(dòng)采集和正常的網(wǎng)頁(yè)訪問(wèn)行為進(jìn)行學(xué)習(xí)并區(qū)分,該模塊可以為后續(xù)的自動(dòng)采集識(shí)別提供訓(xùn)練模型。具體包括如下幾個(gè)步驟。2.2.1.1 日志解析該模塊需要對(duì)服務(wù)器歷史訪問(wèn)日志(可以選取某一天的日志)進(jìn)行解析,抽取出獲取用戶的訪問(wèn)行為信息,包括用戶訪問(wèn)網(wǎng)站所用的IP,訪問(wèn)發(fā)生時(shí)間,訪問(wèn)的URL,來(lái)源URL。具體包括如下兩個(gè)步驟:(I)每一個(gè)要提取的用戶訪問(wèn)信息項(xiàng)編寫(xiě)正則表達(dá)式。IP表達(dá)式抽取正則式定義為:
權(quán)利要求
1.一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)采集的系統(tǒng)與方法,其特征在于:包括反采集分類器構(gòu)建模塊、自動(dòng)采集識(shí)別模塊和反采集在線處理模塊,反采集分類器構(gòu)建模塊,該模塊主要用于使用計(jì)算機(jī)程序?qū)v史的web信息自動(dòng)采集和正常的網(wǎng)頁(yè)訪問(wèn)行為進(jìn)行學(xué)習(xí)并區(qū)分,該模塊為自動(dòng)采集識(shí)別提供訓(xùn)練模型,所述的自動(dòng)采集識(shí)別模塊,該模塊主要通過(guò)加載自動(dòng)分類器,自動(dòng)識(shí)別出搜索引擎程序的自動(dòng)采集行為,并將識(shí)別出的采集程序所處的IP段加入黑名單,該黑名單用于后續(xù)對(duì)自動(dòng)采集行為進(jìn)行在線攔截,所述的反采集在線處理模塊,該模塊主要用于對(duì)訪問(wèn)的用戶進(jìn)行自動(dòng)在線判定和處理,如果該訪問(wèn)者的IP已在IP段黑名單中,則拒絕該IP進(jìn)行訪問(wèn);否則,將該訪問(wèn)請(qǐng)求轉(zhuǎn)交給web服務(wù)器進(jìn)行繼續(xù)處理。
2.根據(jù)權(quán)利要求1所述的一種能識(shí)別網(wǎng)頁(yè)信息反抓取系統(tǒng)與方法,其特征在于:所述的反采集分類器構(gòu)建模塊實(shí)現(xiàn)方法具體包含如下步驟: (1)日志解析子模塊通過(guò)對(duì)站點(diǎn)訪問(wèn)日志的自動(dòng)解析,獲取用戶的訪問(wèn)行為信息,包括用戶訪問(wèn)網(wǎng)站所用的IP,訪問(wèn)發(fā)生時(shí)間,訪問(wèn)的URL,來(lái)源URL ;樣本選取子模塊對(duì)步驟I中的解析數(shù)據(jù)記錄進(jìn)行選取,依據(jù)是同一 IP段在連續(xù)一段時(shí)間內(nèi)訪問(wèn)頻度最高的數(shù)據(jù)記錄作為候選數(shù)據(jù)加入到樣本集中;訪問(wèn)統(tǒng)計(jì)子模塊對(duì)已選取的樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)出同一 IP段的平均頁(yè)面停留時(shí)間、訪問(wèn)站點(diǎn)的總頁(yè)面數(shù)、是否采集網(wǎng)頁(yè)附件信息、網(wǎng)頁(yè)采集頻率; (2)以IP段作為主關(guān)鍵字,將上述信息存入樣本庫(kù),并將其標(biāo)記為未標(biāo)注; (3)對(duì)步驟(I)中的未標(biāo)注樣本進(jìn)行標(biāo)注,如果確定樣本為機(jī)器自動(dòng)采集,則標(biāo)注為I;如果為用戶瀏覽器正常訪問(wèn),則標(biāo)注為O,將所有標(biāo)注完的樣本更新入數(shù)據(jù)庫(kù); (4)計(jì)算機(jī)程序自動(dòng)對(duì)樣本庫(kù)進(jìn)行學(xué)習(xí),生成分類模型,用于后期的自動(dòng)采集識(shí)別。
3.根據(jù)權(quán)利要求1所述的一種能識(shí)別網(wǎng)頁(yè)信息反抓取系統(tǒng)與方法,其特征在于:所述的自動(dòng)采集識(shí)別模塊實(shí)現(xiàn)方法包含如下步驟: (1)識(shí)別程序初始化 階段,完成分類器模型的加載,該模型可以判斷自動(dòng)采集行為; (2)日志解析程序?qū)ψ钚碌木W(wǎng)站訪問(wèn)日志進(jìn)行解析,并將解析后的數(shù)據(jù)發(fā)送到訪問(wèn)統(tǒng)計(jì)豐吳塊; (3)訪問(wèn)統(tǒng)計(jì)模塊計(jì)算出同一IP段的平均頁(yè)面停留時(shí)間、是否采集網(wǎng)頁(yè)附件信息、網(wǎng)頁(yè)采集頻率; (4)分類器基于分類模型對(duì)該IP段的訪問(wèn)行為進(jìn)行判定,將判定為程序自動(dòng)采集行為的IP段加入黑名單;
4.根據(jù)權(quán)利要求1所述的一種能識(shí)別網(wǎng)頁(yè)信息反抓取系統(tǒng)與方法,其特征在于:所述的反采集在線處理模塊實(shí)現(xiàn)方法,包括以下幾個(gè)步驟: (1)對(duì)于web服務(wù)器轉(zhuǎn)交過(guò)的訪問(wèn)請(qǐng)求,提取訪問(wèn)者的IP信息; (2)在黑名單庫(kù)中比對(duì)該IP信息,如果IP已處于黑名單中,則通知web服務(wù)器拒絕該IP的訪問(wèn);否則,通知web服務(wù)器對(duì)該訪問(wèn)請(qǐng)求進(jìn)行正常處理。
全文摘要
本發(fā)明公開(kāi)了一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)采集的系統(tǒng)與方法,包括反采集分類器構(gòu)建模塊、自動(dòng)采集識(shí)別模塊和反采集在線處理模塊,反采集分類器構(gòu)建模塊主要用于使用計(jì)算機(jī)程序?qū)v史的web信息自動(dòng)采集和正常的網(wǎng)頁(yè)訪問(wèn)行為進(jìn)行學(xué)習(xí)并區(qū)分,自動(dòng)采集識(shí)別模塊,通過(guò)運(yùn)用上述步驟中的反采集分類器,自動(dòng)識(shí)別出搜索引擎程序的自動(dòng)采集行為,并將識(shí)別出的采集程序所處的IP段加入黑名單。反采集在線處理模塊主要用于對(duì)訪問(wèn)的用戶進(jìn)行自動(dòng)在線判定和處理。本發(fā)明克服了現(xiàn)有技術(shù)的不足,該系統(tǒng)通過(guò)分析網(wǎng)站的歷史網(wǎng)頁(yè)訪問(wèn)行為,建立自動(dòng)采集分類器,識(shí)別出機(jī)器人的自動(dòng)采集,通過(guò)自動(dòng)機(jī)器人采集識(shí)別,實(shí)現(xiàn)網(wǎng)頁(yè)反抓取。
文檔編號(hào)G06F17/30GK103218431SQ20131012830
公開(kāi)日2013年7月24日 申請(qǐng)日期2013年4月10日 優(yōu)先權(quán)日2013年4月10日
發(fā)明者張煒, 金軍, 吳楊梓, 江巖 申請(qǐng)人:金軍, 江巖