一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)采集的系統(tǒng)與方法

文檔序號(hào)：6402002閱讀：777來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)采集的系統(tǒng)與方法
技術(shù)領(lǐng)域：
本發(fā)明涉及網(wǎng)頁(yè)動(dòng)態(tài)解析技術(shù)領(lǐng)域，具體屬于一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)系統(tǒng)與方法。
背景技術(shù)：
隨著互聯(lián)網(wǎng)的發(fā)展，出現(xiàn)了越來(lái)越多的互聯(lián)網(wǎng)網(wǎng)站，形式層出不窮，出現(xiàn)了新聞，博客，論壇，SNS，微博等。據(jù)CNNIC今年的最新統(tǒng)計(jì)，中國(guó)現(xiàn)已有網(wǎng)民4.85億，各類站點(diǎn)域名130余萬(wàn)個(gè)。在互聯(lián)網(wǎng)信息爆炸的今天，搜索引擎已成為人們查找互聯(lián)網(wǎng)信息的最重要工具。搜索引擎主要通過(guò)自動(dòng)爬取網(wǎng)站信息，并對(duì)其進(jìn)行預(yù)處理，分詞后，建立索引。輸入檢索詞后，搜索引擎能夠自動(dòng)的為用戶查找出最相關(guān)的結(jié)果。搜索引擎經(jīng)過(guò)十多年的發(fā)展，技術(shù)已相對(duì)成熟，且因?yàn)橛谐晒Φ纳虡I(yè)模式可以運(yùn)用，因而吸引了眾多互聯(lián)網(wǎng)廠商進(jìn)入，比較著名的有百度，谷歌，搜搜，搜狗，有道，奇虎360等。另外還有一些垂直領(lǐng)域的搜索引擎(如旅游，機(jī)票，比價(jià)等)，進(jìn)入的廠商不下千家。搜索引擎的第一步也是最重要的一步是信息抓取，該步驟是搜索引擎的數(shù)據(jù)準(zhǔn)備過(guò)程。具體過(guò)程如圖1所示。URL DB存放所有待爬取的URL，URL調(diào)度模塊從URL DB中選取出最重要的URL并將其放入U(xiǎn)RL下載隊(duì)列，頁(yè)面下載模塊對(duì)該隊(duì)列中的URL進(jìn)行下載，下載完畢后，抽取模塊對(duì)下載的頁(yè)面代碼進(jìn)行正文和URL抽取，抽取的正文發(fā)送給索引模塊進(jìn)行分詞和建索引，URL放入U(xiǎn)RL DB。信息采集過(guò)程，是將別人網(wǎng)站的信息放到抓取到自己的信息庫(kù)的過(guò)程，會(huì)面臨著一些問(wèn)題。 1、互聯(lián)網(wǎng)信息每刻都不停的增加，因而信息抓取是7*24小時(shí)不間斷過(guò)程。頻繁的抓取會(huì)對(duì)目標(biāo)網(wǎng)站帶來(lái)巨大的訪問(wèn)壓力，形成DDOS拒絕服務(wù)攻擊，導(dǎo)致無(wú)法為正常用戶提供訪問(wèn)，這一點(diǎn)在中小型網(wǎng)站體現(xiàn)的尤為明顯，這些網(wǎng)站的硬件資源比較差，技術(shù)力量不強(qiáng)，而互聯(lián)網(wǎng)中90%以上是該類型的網(wǎng)站。例如:某著名搜索引擎由于頻繁抓取某網(wǎng)站而召到用戶投訴。2、有些網(wǎng)站的信息具備隱私或版權(quán)，很多網(wǎng)頁(yè)中包含后臺(tái)數(shù)據(jù)庫(kù)、用戶穩(wěn)私、密碼等信息。網(wǎng)站主辦者不希望這些信息被公之于眾或無(wú)償使用。大眾點(diǎn)評(píng)網(wǎng)曾就愛(ài)幫網(wǎng)抓取其網(wǎng)站上的點(diǎn)評(píng)信息，然后發(fā)布在自己網(wǎng)站上的行為進(jìn)行起訴。目前針對(duì)搜索引擎的網(wǎng)頁(yè)反采集采取的主流方法有robots協(xié)議約定，網(wǎng)站通過(guò)一個(gè)robots, txt協(xié)議來(lái)自主控制是否愿意自身內(nèi)容被搜索引擎收錄，以及允許哪些搜索引擎收錄，并且指定自身可供收錄和禁止收錄的內(nèi)容。同時(shí)，搜索引擎會(huì)自覺(jué)按照每個(gè)網(wǎng)站Robots協(xié)議給予自己的權(quán)限來(lái)進(jìn)行抓取。該方法假定的搜索引擎爬取流程如下:下載網(wǎng)站robots文件-按robots協(xié)議解析該文件一獲取待下載的URL-判斷該URL所在的訪問(wèn)權(quán)限-根據(jù)判斷結(jié)果決定是否爬取。Robots協(xié)議是君子協(xié)議，無(wú)任何約束性，爬取的主動(dòng)性仍然完全控制在搜索引擎一方，完全可以不遵循該協(xié)議進(jìn)行強(qiáng)行爬取。例如國(guó)內(nèi)某著名搜索引擎在2012年8月份不遵循該協(xié)議爬取百度網(wǎng)站內(nèi)容而遭到百度指責(zé)。另外一種反采集方法主要通過(guò)使用動(dòng)態(tài)技術(shù)構(gòu)建欲禁止抓取的網(wǎng)頁(yè)，該方法通過(guò)使用客戶端腳本語(yǔ)言(如JS，VBScript，AJAX)動(dòng)態(tài)生成網(wǎng)頁(yè)顯示信息，從而實(shí)現(xiàn)信息隱藏，使常規(guī)的搜索引擎難以獲取URL和正文內(nèi)容。動(dòng)態(tài)網(wǎng)頁(yè)構(gòu)建技術(shù)只是增加了網(wǎng)頁(yè)解析和抽取的難度，并不能從根本上禁止網(wǎng)頁(yè)信息的采集和解析，目前，一些先進(jìn)的搜索引擎已經(jīng)可以做到模擬瀏覽器實(shí)現(xiàn)所有腳本代碼的解析，獲取所有信息的網(wǎng)絡(luò)URL，從而獲取存放于服務(wù)器的動(dòng)態(tài)信息。目前已經(jīng)存在成熟的網(wǎng)頁(yè)動(dòng)態(tài)解析技術(shù)，主要是通過(guò)解析網(wǎng)頁(yè)中所有的腳本代碼段，然后獲取網(wǎng)頁(yè)所有的動(dòng)態(tài)信息(包括有用信息和垃圾信息)。實(shí)際實(shí)施過(guò)程是以開(kāi)源的腳本代碼解析引擎(如Rhino，V8等)為內(nèi)核，構(gòu)建網(wǎng)頁(yè)腳本解析環(huán)境，然后抽取網(wǎng)頁(yè)中的腳本代碼段，將抽取的代碼段放入網(wǎng)頁(yè)腳本解析環(huán)境中執(zhí)行解析，從而返回動(dòng)態(tài)信息。解析過(guò)程如圖2所示，所以動(dòng)態(tài)技術(shù)構(gòu)建動(dòng)態(tài)網(wǎng)頁(yè)的方法只是增加了網(wǎng)頁(yè)采集和解析的難度，并沒(méi)有從根本上杜絕搜索引擎的采集。

發(fā)明內(nèi)容
本發(fā)明的目的是提供了一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)采集的系統(tǒng)與方法，克服了現(xiàn)有技術(shù)的不足，該系統(tǒng)通過(guò)分析網(wǎng)站的歷史網(wǎng)頁(yè)訪問(wèn)行為，建立自動(dòng)采集分類器，識(shí)別出機(jī)器人的自動(dòng)采集，通過(guò)自動(dòng)機(jī)器人采集識(shí)別，實(shí)現(xiàn)網(wǎng)頁(yè)反抓取。本發(fā)明采用的技術(shù)方案如下:一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)采集的系統(tǒng)與方法，包括反采集分類器構(gòu)建模塊、自動(dòng)采集識(shí)別模塊和反采集在線處理模塊，反采集分類器構(gòu)建模塊，該模塊主要用于使用計(jì)算機(jī)程序?qū)v史的web信息自動(dòng)采集和正常的網(wǎng)頁(yè)訪問(wèn)行為進(jìn)行學(xué)習(xí)并區(qū)分，該模塊為自動(dòng)采集識(shí)別提供訓(xùn)練模型，所述的自動(dòng)采集識(shí)別模塊，該模塊主要通過(guò)加載自動(dòng)分類器，自動(dòng)識(shí)別出搜索引擎程序的自動(dòng)采集行為，并將識(shí)別出的采集程序所處的IP段加入黑名單，該黑名單用于后續(xù)對(duì)自動(dòng)采集行為進(jìn)行在線攔截，所述的反采集在線處理模塊，該模塊主要用于對(duì)訪問(wèn)的用戶進(jìn)行自動(dòng)在線判定和處理，如果該訪問(wèn)者的IP已在IP段黑名單中，則拒絕該IP進(jìn)行訪問(wèn)；否則，將該訪問(wèn)請(qǐng)求轉(zhuǎn)交給web服務(wù)器進(jìn)行繼續(xù)處理。所述的反采集分類器構(gòu)建模塊實(shí)現(xiàn)方法具體包含如下步驟:(5)日志解析子模塊通過(guò)對(duì)站點(diǎn)訪問(wèn)日志的自動(dòng)解析，獲取用戶的訪問(wèn)行為信息，包括用戶訪問(wèn)網(wǎng)站所用的IP，訪問(wèn)發(fā)生時(shí)間，訪問(wèn)的URL，來(lái)源URL ;樣本選取子模塊對(duì)步驟I中的解析數(shù)據(jù)記錄進(jìn)行選取，依據(jù)是同一 IP段在連續(xù)一段時(shí)間內(nèi)訪問(wèn)頻度最高的數(shù)據(jù)記錄作為候選數(shù)據(jù)加入到樣本集中；訪問(wèn)統(tǒng)計(jì)子模塊對(duì)已選取的樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，統(tǒng)計(jì)出同一 IP段的平均頁(yè)面停留時(shí)間、訪問(wèn)站點(diǎn)的總頁(yè)面數(shù)、是否采集網(wǎng)頁(yè)附件信息、網(wǎng)頁(yè)采集頻率；(6)以IP段作為主關(guān)鍵字，將上述信息存入樣本庫(kù)，并將其標(biāo)記為未標(biāo)注；(7)對(duì)步驟(I)中的未標(biāo)注樣本進(jìn)行標(biāo)注,如果確定樣本為機(jī)器自動(dòng)采集,則標(biāo)注為I ;如果為用戶瀏覽器正常訪問(wèn)，則標(biāo)注為0，將所有標(biāo)注完的樣本更新入數(shù)據(jù)庫(kù)；(8)計(jì)算機(jī)程序自動(dòng)對(duì)樣本庫(kù)進(jìn)行學(xué)習(xí)，生成分類模型，用于后期的自動(dòng)采集識(shí)別。所述的自動(dòng)采集識(shí)別模塊實(shí)現(xiàn)方法包含如下步驟:(5)識(shí)別程序初始化階段，完成分類器模型的加載，該模型可以判斷自動(dòng)采集行為；(6)日志解析程序?qū)ψ钚碌木W(wǎng)站訪問(wèn)日志進(jìn)行解析，并將解析后的數(shù)據(jù)發(fā)送到訪問(wèn)統(tǒng)計(jì)模塊；(7)訪問(wèn)統(tǒng)計(jì)模塊計(jì)算出同一 IP段的平均頁(yè)面停留時(shí)間、是否采集網(wǎng)頁(yè)附件信息、網(wǎng)頁(yè)采集頻率；(8)分類器基于分類模型對(duì)該IP段的訪問(wèn)行為進(jìn)行判定，將判定為程序自動(dòng)采集行為的IP段加入黑名單；所述的反采集在線處理模塊實(shí)現(xiàn)方法，包括以下幾個(gè)步驟:(I)對(duì)于web服務(wù)器轉(zhuǎn)交過(guò)的訪問(wèn)請(qǐng)求，提取訪問(wèn)者的IP信息；(2)在黑名單庫(kù)中比對(duì)該IP信息，如果IP已處于黑名單中，則通知web服務(wù)器拒絕該IP的訪問(wèn)；否則，通知web服務(wù)器對(duì)該訪問(wèn)請(qǐng)求進(jìn)行正常處理。與已有技術(shù)相比，本發(fā)明的有益效果如下:本發(fā)明該系統(tǒng)通過(guò)分析網(wǎng)站的歷史網(wǎng)頁(yè)訪問(wèn)行為，建立自動(dòng)采集分類器，識(shí)別出機(jī)器人的自動(dòng)采集，通過(guò)自動(dòng)機(jī)器人采集識(shí)別，實(shí)現(xiàn)網(wǎng)頁(yè)反抓取，自動(dòng)發(fā)現(xiàn)搜索引擎的網(wǎng)頁(yè)采集行為，并對(duì)其采集行為進(jìn)行屏蔽，從根本上杜絕搜索引擎的采集。

圖1為現(xiàn)有技術(shù)搜索引擎信息抓取過(guò)程簡(jiǎn)圖；圖2為現(xiàn)有技術(shù)二解析過(guò)程簡(jiǎn)圖；圖3為本發(fā)明反采集分類器構(gòu)建模塊圖；圖4為本發(fā)明自動(dòng)采集識(shí)別模塊圖；圖5為本發(fā)明反采集在線處理模塊。
具體實(shí)施例方式參見(jiàn)附圖，一種能識(shí)別網(wǎng)頁(yè)信息反抓取系統(tǒng)與方法，包括反采集分類器構(gòu)建模塊、自動(dòng)采集識(shí)別模塊和反采集在線處理模塊，反采集分類器構(gòu)建模塊，該模塊主要用于使用計(jì)算機(jī)程序?qū)v史的web信息自動(dòng)采集和正常的網(wǎng)頁(yè)訪問(wèn)行為進(jìn)行學(xué)習(xí)并區(qū)分，該模塊為自動(dòng)采集識(shí)別提供訓(xùn)練模型，所述的自動(dòng)采集識(shí)別模塊，該模塊主要通過(guò)加載自動(dòng)分類器，自動(dòng)識(shí)別出搜索引擎程序的自動(dòng)采集行為，并將識(shí)別出的采集程序所處的IP段加入黑名單，該黑名單用于后續(xù)對(duì)自動(dòng)采集行為進(jìn)行在線攔截，所述的反采集在線處理模塊，該模塊主要用于對(duì)訪問(wèn)的用戶進(jìn)行自動(dòng)在線判定和處理，如果該訪問(wèn)者的IP已在IP段黑名單中，則拒絕該IP進(jìn)行訪問(wèn)；否則，將該訪問(wèn)請(qǐng)求轉(zhuǎn)交給web服務(wù)器進(jìn)行繼續(xù)處理。所述的反采集分類器構(gòu)建模塊實(shí)現(xiàn)方法具體包含如下步驟:(9)日志解析子模塊通過(guò)對(duì)站點(diǎn)訪問(wèn)日志的自動(dòng)解析，獲取用戶的訪問(wèn)行為信息，包括用戶訪問(wèn)網(wǎng)站所用的IP，訪問(wèn)發(fā)生時(shí)間，訪問(wèn)的URL，來(lái)源URL ;樣本選取子模塊對(duì)步驟I中的解析數(shù)據(jù)記錄進(jìn)行選取，依據(jù)是同一 IP段在連續(xù)一段時(shí)間內(nèi)訪問(wèn)頻度最高的數(shù)據(jù)記錄作為候選數(shù)據(jù)加入到樣本集中；訪問(wèn)統(tǒng)計(jì)子模塊對(duì)已選取的樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，統(tǒng)計(jì)出同一 IP段的平均頁(yè)面停留時(shí)間、訪問(wèn)站點(diǎn)的總頁(yè)面數(shù)、是否采集網(wǎng)頁(yè)附件信息、網(wǎng)頁(yè)采集
頻率；(10)以IP段作為主關(guān)鍵字，將上述信息存入樣本庫(kù)，并將其標(biāo)記為未標(biāo)注；(11)對(duì)步驟(I)中的未標(biāo)注樣本進(jìn)行標(biāo)注，如果確定樣本為機(jī)器自動(dòng)采集，則標(biāo)注為I ;如果為用戶瀏覽器正常訪問(wèn)，則標(biāo)注為0，將所有標(biāo)注完的樣本更新入數(shù)據(jù)庫(kù)；(12)計(jì)算機(jī)程序自動(dòng)對(duì)樣本庫(kù)進(jìn)行學(xué)習(xí)，生成分類模型，用于后期的自動(dòng)采集識(shí)別。所述的自動(dòng)采集識(shí)別模塊實(shí)現(xiàn)方法包含如下步驟:(9)識(shí)別程序初始化階段，完成分類器模型的加載，該模型可以判斷自動(dòng)采集行為；(10)日志解析程序?qū)ψ钚碌木W(wǎng)站訪問(wèn)日志進(jìn)行解析，并將解析后的數(shù)據(jù)發(fā)送到訪問(wèn)統(tǒng)計(jì)模塊；(11)訪問(wèn)統(tǒng)計(jì)模塊計(jì)算出同一 IP段的平均頁(yè)面停留時(shí)間、是否采集網(wǎng)頁(yè)附件信息、網(wǎng)頁(yè)采集頻率；(12)分類器基于分類模型對(duì)該IP段的訪問(wèn)行為進(jìn)行判定，將判定為程序自動(dòng)采集行為的IP段加入黑名單；所述的反采集在線處理模塊實(shí)現(xiàn)方法，包括以下幾個(gè)步驟:(I)對(duì)于web服務(wù)器轉(zhuǎn)交過(guò)的訪問(wèn)請(qǐng)求，提取訪問(wèn)者的IP信息；(2)在黑名單庫(kù)中比對(duì)該IP信息，如果IP已處于黑名單中，則通知web服務(wù)器拒絕該IP的訪問(wèn)；否則，通知web服務(wù)器對(duì)該訪問(wèn)請(qǐng)求進(jìn)行正常處理。反采集分類器構(gòu)建該模塊主要用于訓(xùn)練計(jì)算機(jī)程序，使其能對(duì)歷史的web信息自動(dòng)采集和正常的網(wǎng)頁(yè)訪問(wèn)行為進(jìn)行學(xué)習(xí)并區(qū)分，該模塊可以為后續(xù)的自動(dòng)采集識(shí)別提供訓(xùn)練模型。具體包括如下幾個(gè)步驟。2.2.1.1 日志解析該模塊需要對(duì)服務(wù)器歷史訪問(wèn)日志(可以選取某一天的日志)進(jìn)行解析，抽取出獲取用戶的訪問(wèn)行為信息，包括用戶訪問(wèn)網(wǎng)站所用的IP，訪問(wèn)發(fā)生時(shí)間，訪問(wèn)的URL，來(lái)源URL。具體包括如下兩個(gè)步驟:(I)每一個(gè)要提取的用戶訪問(wèn)信息項(xiàng)編寫(xiě)正則表達(dá)式。IP表達(dá)式抽取正則式定義為:
權(quán)利要求
1.一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)采集的系統(tǒng)與方法，其特征在于:包括反采集分類器構(gòu)建模塊、自動(dòng)采集識(shí)別模塊和反采集在線處理模塊，反采集分類器構(gòu)建模塊，該模塊主要用于使用計(jì)算機(jī)程序?qū)v史的web信息自動(dòng)采集和正常的網(wǎng)頁(yè)訪問(wèn)行為進(jìn)行學(xué)習(xí)并區(qū)分，該模塊為自動(dòng)采集識(shí)別提供訓(xùn)練模型，所述的自動(dòng)采集識(shí)別模塊，該模塊主要通過(guò)加載自動(dòng)分類器，自動(dòng)識(shí)別出搜索引擎程序的自動(dòng)采集行為，并將識(shí)別出的采集程序所處的IP段加入黑名單，該黑名單用于后續(xù)對(duì)自動(dòng)采集行為進(jìn)行在線攔截，所述的反采集在線處理模塊，該模塊主要用于對(duì)訪問(wèn)的用戶進(jìn)行自動(dòng)在線判定和處理，如果該訪問(wèn)者的IP已在IP段黑名單中，則拒絕該IP進(jìn)行訪問(wèn)；否則，將該訪問(wèn)請(qǐng)求轉(zhuǎn)交給web服務(wù)器進(jìn)行繼續(xù)處理。
2.根據(jù)權(quán)利要求1所述的一種能識(shí)別網(wǎng)頁(yè)信息反抓取系統(tǒng)與方法，其特征在于:所述的反采集分類器構(gòu)建模塊實(shí)現(xiàn)方法具體包含如下步驟: (1)日志解析子模塊通過(guò)對(duì)站點(diǎn)訪問(wèn)日志的自動(dòng)解析，獲取用戶的訪問(wèn)行為信息，包括用戶訪問(wèn)網(wǎng)站所用的IP，訪問(wèn)發(fā)生時(shí)間，訪問(wèn)的URL，來(lái)源URL ;樣本選取子模塊對(duì)步驟I中的解析數(shù)據(jù)記錄進(jìn)行選取，依據(jù)是同一 IP段在連續(xù)一段時(shí)間內(nèi)訪問(wèn)頻度最高的數(shù)據(jù)記錄作為候選數(shù)據(jù)加入到樣本集中；訪問(wèn)統(tǒng)計(jì)子模塊對(duì)已選取的樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，統(tǒng)計(jì)出同一 IP段的平均頁(yè)面停留時(shí)間、訪問(wèn)站點(diǎn)的總頁(yè)面數(shù)、是否采集網(wǎng)頁(yè)附件信息、網(wǎng)頁(yè)采集頻率； (2)以IP段作為主關(guān)鍵字，將上述信息存入樣本庫(kù)，并將其標(biāo)記為未標(biāo)注； (3)對(duì)步驟(I)中的未標(biāo)注樣本進(jìn)行標(biāo)注,如果確定樣本為機(jī)器自動(dòng)采集,則標(biāo)注為I;如果為用戶瀏覽器正常訪問(wèn)，則標(biāo)注為O，將所有標(biāo)注完的樣本更新入數(shù)據(jù)庫(kù)； (4)計(jì)算機(jī)程序自動(dòng)對(duì)樣本庫(kù)進(jìn)行學(xué)習(xí)，生成分類模型，用于后期的自動(dòng)采集識(shí)別。
3.根據(jù)權(quán)利要求1所述的一種能識(shí)別網(wǎng)頁(yè)信息反抓取系統(tǒng)與方法，其特征在于:所述的自動(dòng)采集識(shí)別模塊實(shí)現(xiàn)方法包含如下步驟: (1)識(shí)別程序初始化階段，完成分類器模型的加載，該模型可以判斷自動(dòng)采集行為； (2)日志解析程序?qū)ψ钚碌木W(wǎng)站訪問(wèn)日志進(jìn)行解析，并將解析后的數(shù)據(jù)發(fā)送到訪問(wèn)統(tǒng)計(jì)豐吳塊； (3)訪問(wèn)統(tǒng)計(jì)模塊計(jì)算出同一IP段的平均頁(yè)面停留時(shí)間、是否采集網(wǎng)頁(yè)附件信息、網(wǎng)頁(yè)采集頻率； (4)分類器基于分類模型對(duì)該IP段的訪問(wèn)行為進(jìn)行判定，將判定為程序自動(dòng)采集行為的IP段加入黑名單；
4.根據(jù)權(quán)利要求1所述的一種能識(shí)別網(wǎng)頁(yè)信息反抓取系統(tǒng)與方法，其特征在于:所述的反采集在線處理模塊實(shí)現(xiàn)方法，包括以下幾個(gè)步驟: (1)對(duì)于web服務(wù)器轉(zhuǎn)交過(guò)的訪問(wèn)請(qǐng)求，提取訪問(wèn)者的IP信息； (2)在黑名單庫(kù)中比對(duì)該IP信息，如果IP已處于黑名單中，則通知web服務(wù)器拒絕該IP的訪問(wèn)；否則，通知web服務(wù)器對(duì)該訪問(wèn)請(qǐng)求進(jìn)行正常處理。
全文摘要
本發(fā)明公開(kāi)了一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)采集的系統(tǒng)與方法，包括反采集分類器構(gòu)建模塊、自動(dòng)采集識(shí)別模塊和反采集在線處理模塊，反采集分類器構(gòu)建模塊主要用于使用計(jì)算機(jī)程序?qū)v史的web信息自動(dòng)采集和正常的網(wǎng)頁(yè)訪問(wèn)行為進(jìn)行學(xué)習(xí)并區(qū)分，自動(dòng)采集識(shí)別模塊，通過(guò)運(yùn)用上述步驟中的反采集分類器，自動(dòng)識(shí)別出搜索引擎程序的自動(dòng)采集行為，并將識(shí)別出的采集程序所處的IP段加入黑名單。反采集在線處理模塊主要用于對(duì)訪問(wèn)的用戶進(jìn)行自動(dòng)在線判定和處理。本發(fā)明克服了現(xiàn)有技術(shù)的不足，該系統(tǒng)通過(guò)分析網(wǎng)站的歷史網(wǎng)頁(yè)訪問(wèn)行為，建立自動(dòng)采集分類器，識(shí)別出機(jī)器人的自動(dòng)采集，通過(guò)自動(dòng)機(jī)器人采集識(shí)別，實(shí)現(xiàn)網(wǎng)頁(yè)反抓取。
文檔編號(hào)G06F17/30GK103218431SQ20131012830
公開(kāi)日2013年7月24日申請(qǐng)日期2013年4月10日優(yōu)先權(quán)日2013年4月10日
發(fā)明者張煒, 金軍, 吳楊梓, 江巖申請(qǐng)人:金軍, 江巖

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張煒;金軍;吳楊梓;江巖
技術(shù)所有人：金軍;江巖
我是此專利的發(fā)明人

上一篇：一種電容觸控屏及其生產(chǎn)工藝的制作方法
上一篇：一種基于同義詞的個(gè)人文件搜索方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)頁(yè)數(shù)據(jù)采集系統(tǒng)相關(guān)技術(shù)

系統(tǒng)日志采集方法相關(guān)技術(shù)

網(wǎng)頁(yè)檢測(cè)方法及系統(tǒng)相關(guān)技術(shù)

調(diào)劑意向采集系統(tǒng)相關(guān)技術(shù)

數(shù)據(jù)采集系統(tǒng)相關(guān)技術(shù)

廣西機(jī)保數(shù)據(jù)采集系統(tǒng)相關(guān)技術(shù)

社會(huì)采集平臺(tái)旅館系統(tǒng)相關(guān)技術(shù)

小升初信息采集系統(tǒng)相關(guān)技術(shù)

樂(lè)思網(wǎng)絡(luò)信息采集系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種能識(shí)別網(wǎng)頁(yè)信息自動(dòng)采集的系統(tǒng)與方法