集效率。
【附圖說明】
[0034]圖1為本發(fā)明的較佳實(shí)施例提供的智能化的網(wǎng)絡(luò)信息采集系統(tǒng)的結(jié)構(gòu)框圖;
[0035]圖2為圖1所示的智能化的網(wǎng)絡(luò)信息采集系統(tǒng)的任務(wù)分配及調(diào)度中心的結(jié)構(gòu)框圖;
[0036]圖3為本發(fā)明的較佳實(shí)施例提供的智能化的網(wǎng)絡(luò)信息采集方法的流程圖。
【具體實(shí)施方式】
[0037]為了解決現(xiàn)有技術(shù)中因信息采集系統(tǒng)的任務(wù)分配機(jī)制缺乏靈活性,而各大網(wǎng)站針對同一終端的單日訪問量進(jìn)行限制并對訪問次數(shù)超限的終端設(shè)備的實(shí)施IP封鎖的反制措施的缺陷,本發(fā)明的創(chuàng)新點(diǎn)在于:
[0038]1、實(shí)施靈活的任務(wù)分配機(jī)制,即參考各臺(tái)信息采集服務(wù)器200當(dāng)前的任務(wù)分配及完成情況,各臺(tái)信息采集服務(wù)器200的當(dāng)前網(wǎng)絡(luò)狀況,以及各臺(tái)信息采集服務(wù)器200在設(shè)定時(shí)間Tl內(nèi)針對各大常用網(wǎng)站的訪問量進(jìn)行科學(xué)合理的任務(wù)分配工作,在執(zhí)行任務(wù)分配過程中,任務(wù)分配及調(diào)度中心100對同一服務(wù)器節(jié)點(diǎn)針對同一個(gè)網(wǎng)站服務(wù)器300的訪問次數(shù)進(jìn)行累計(jì),避免該服務(wù)器節(jié)點(diǎn)在設(shè)定時(shí)段針對同一網(wǎng)站服務(wù)器300的總訪問次數(shù)超限。
[0039]2、對超時(shí)的信息采集任務(wù)或分配到出現(xiàn)宕機(jī)事故的信息采集服務(wù)器200的信息采集任務(wù)進(jìn)行重新調(diào)度,以提高各臺(tái)信息采集服務(wù)器200的資源利用率及本發(fā)明智能化的網(wǎng)絡(luò)信息采集系統(tǒng)的信息采集效率。
[0040]由于本發(fā)明采用了靈活的任務(wù)分配機(jī)制的設(shè)計(jì),所以解決了現(xiàn)有技術(shù)中因信息采集系統(tǒng)的任務(wù)分配機(jī)制缺乏靈活性,而各大網(wǎng)站針對同一終端的單日訪問量進(jìn)行限制并對訪問次數(shù)超限的服務(wù)器節(jié)點(diǎn)實(shí)施封鎖IP的反制措施的技術(shù)問題,實(shí)現(xiàn)了規(guī)避各大網(wǎng)站對于各臺(tái)信息采集服務(wù)器200 “過分”的信息采集行為所實(shí)施的封鎖IP反制措施,提高信息采集服務(wù)器200的系統(tǒng)資源利用率,以及提高信息采集系統(tǒng)的信息采集效率的目的。
[0041]下面將結(jié)合附圖及實(shí)施例,對本發(fā)明作進(jìn)一步說明:
[0042]如圖1所示,本發(fā)明智能化的網(wǎng)絡(luò)信息采集系統(tǒng)包括任務(wù)分配及調(diào)度中心100、以及受控于該任務(wù)分配及調(diào)度中心100的多臺(tái)信息采集服務(wù)器200。
[0043]該任務(wù)分配及調(diào)度中心100用于基于各臺(tái)信息采集服務(wù)器200的任務(wù)分配及完成情況、各臺(tái)信息采集服務(wù)器200的當(dāng)前網(wǎng)絡(luò)狀況、以及各臺(tái)信息采集服務(wù)器200在設(shè)定的第一時(shí)間閾值Tl內(nèi)針對多個(gè)常用網(wǎng)站進(jìn)行的訪問次數(shù)判斷該多臺(tái)信息采集服務(wù)器200中當(dāng)前最適于執(zhí)行信息采集工作的信息采集服務(wù)器200及該多個(gè)常用網(wǎng)站中當(dāng)前最適于訪問的目標(biāo)網(wǎng)站,將信息采集任務(wù)分配到所選中的信息采集服務(wù)器200。
[0044]該選中的信息采集服務(wù)器200用于根據(jù)分配到其的信息采集任務(wù)對該目標(biāo)網(wǎng)站服務(wù)器300進(jìn)行訪問,從目標(biāo)網(wǎng)站服務(wù)器300下載所需的網(wǎng)絡(luò)信息。
[0045]該任務(wù)分配及調(diào)度中心100還用于判斷是否接收到由該選中的信息采集服務(wù)器200下載及返回的網(wǎng)絡(luò)信息,并在接收到該網(wǎng)絡(luò)信息時(shí),對該網(wǎng)絡(luò)信息進(jìn)行整理并將整理的網(wǎng)絡(luò)信息存入數(shù)據(jù)庫105。
[0046]在本發(fā)明中,該任務(wù)分配及調(diào)度中心100可以是現(xiàn)有的服務(wù)器管理系統(tǒng)。
[0047]如圖2所示,本發(fā)明任務(wù)分配及調(diào)度中心100包括任務(wù)分配及管理模塊102、電性連接于該任務(wù)分配及管理模塊102的存儲(chǔ)器、通信模塊103、計(jì)時(shí)模塊101、報(bào)警模塊106、任務(wù)整理模塊104以及電性連接于該任務(wù)整理模塊104的數(shù)據(jù)庫105。
[0048]其中,該存儲(chǔ)器預(yù)存有多個(gè)常用網(wǎng)站的URL(Uniform Resource Locator)(即網(wǎng)址信息)。
[0049]該任務(wù)分配及管理模塊102用于判斷該多臺(tái)信息采集服務(wù)器200中當(dāng)前最適于執(zhí)行信息采集工作的信息采集服務(wù)器200及多個(gè)常用網(wǎng)站中當(dāng)前最適于訪問的目標(biāo)網(wǎng)站,并包含該目標(biāo)網(wǎng)站的URL及第一關(guān)鍵詞的信息采集任務(wù)分配到該臺(tái)信息采集服務(wù)器200,并指令該選中的信息采集服務(wù)器200根據(jù)該信息采集任務(wù)對該目標(biāo)網(wǎng)站服務(wù)器300進(jìn)行訪問,從目標(biāo)網(wǎng)站服務(wù)器300下載所需的網(wǎng)絡(luò)信息(該URL所鏈接到的網(wǎng)頁頁面中的各種信息,例如圖像,文本信息,供下載的各種應(yīng)用程序等)。
[0050]該通信模塊103用于接收由該選中的信息采集服務(wù)器200下載及返回的網(wǎng)絡(luò)信息,將該網(wǎng)絡(luò)信息輸入到任務(wù)分配及管理模塊102。
[0051]該任務(wù)分配及管理模塊102還用于將其接收到的網(wǎng)絡(luò)信息輸入到任務(wù)整理模塊104。
[0052]該任務(wù)整理模塊104用于對該網(wǎng)絡(luò)信息進(jìn)行整理,并將整理的網(wǎng)絡(luò)信息存入數(shù)據(jù)庫 105。
[0053]該計(jì)時(shí)模塊101用于對該選中的信息采集服務(wù)器200針對該目標(biāo)網(wǎng)站服務(wù)器300進(jìn)行的信息采集時(shí)長進(jìn)行計(jì)時(shí)。
[0054]該報(bào)警模塊106用于在任務(wù)分配及調(diào)度中心100與該選中的信息采集服務(wù)器200連接異?;蛑袛嗤ㄐ胚B接時(shí)發(fā)出報(bào)警語音,以對本發(fā)明智能化的網(wǎng)絡(luò)信息采集系統(tǒng)維護(hù)人員進(jìn)行提示。
[0055]下面將以本發(fā)明的較佳實(shí)施方式為例,對本發(fā)明智能化的網(wǎng)絡(luò)信息采集方法進(jìn)行說明:
[0056]如圖3所示,在步驟SlOl中,本發(fā)明系統(tǒng)管理人員預(yù)先將多個(gè)常用網(wǎng)站(例如京東、淘寶等電商網(wǎng)站、各大門戶網(wǎng)站、蘋果應(yīng)用商店、安卓應(yīng)用商店)的URL信息存儲(chǔ)到任務(wù)分配及調(diào)度中心100的存儲(chǔ)器中。
[0057]在步驟S102中,任務(wù)分配及調(diào)度中心100基于每臺(tái)信息采集服務(wù)器200的任務(wù)分配及完成情況、每臺(tái)信息采集服務(wù)器200的當(dāng)前網(wǎng)絡(luò)狀況、以及每臺(tái)信息采集服務(wù)器200在設(shè)定的第一時(shí)間閾值Tl (例如I小時(shí))內(nèi)針對各大網(wǎng)站的訪問次數(shù)判斷受控的多臺(tái)信息采集服務(wù)器200中當(dāng)前最適于執(zhí)行信息采集任務(wù)的信息采集服務(wù)器200以及該多個(gè)常用網(wǎng)站中最適于訪問的目標(biāo)網(wǎng)站,并指令該臺(tái)信息采集服務(wù)器200針對該目標(biāo)網(wǎng)站進(jìn)行信息采集工作,以提高該多臺(tái)信息采集服務(wù)器200的網(wǎng)絡(luò)信息采集效率,并防止某個(gè)信息采集服務(wù)器200在該第一時(shí)間閾值Tl內(nèi)針對某一常用網(wǎng)站的訪問頻次過高所招致的“IP被封”的情況。
[0058]在步驟S103中,任務(wù)分配及調(diào)度中心100查找存儲(chǔ)器中該目標(biāo)網(wǎng)站的URL信息,將包含該URL信息及第一關(guān)鍵詞的信息采集任務(wù)分配到該臺(tái)信息采集服務(wù)器200。
[0059]在步驟S104中,該臺(tái)信息采集服務(wù)器200根據(jù)該信息采集任務(wù)中的URL鏈接到該目標(biāo)網(wǎng)站的網(wǎng)站服務(wù)器300,對該網(wǎng)站服務(wù)器300進(jìn)行訪問,查找該網(wǎng)站服務(wù)器300中包含有該第一關(guān)鍵詞(例如游戲或音樂)或該第一關(guān)鍵詞的近義詞的所有URL,以及對其查找的每一個(gè)URL所鏈接到的網(wǎng)站服務(wù)器300 —一進(jìn)行訪問,下載網(wǎng)頁頁面中包含的各種網(wǎng)絡(luò)信肩、O
[0060]在步驟S105中,該臺(tái)信息采集服務(wù)器200根據(jù)任務(wù)分配及調(diào)度中心100給定的第二關(guān)鍵詞(憤怒的小鳥)對其下載的網(wǎng)絡(luò)信息進(jìn)行過濾,去除無關(guān)的網(wǎng)絡(luò)信息。
[0061]在步驟S106中,該臺(tái)信息采集服務(wù)器200將經(jīng)過濾的網(wǎng)絡(luò)信息傳回任務(wù)分配及調(diào)度中心100。如該任務(wù)分配及調(diào)度中在設(shè)定的第二時(shí)間閾值T2(例如,5小時(shí))內(nèi)成功地接收到該臺(tái)信息采集服務(wù)器200傳回的網(wǎng)絡(luò)信息,則執(zhí)行步驟S107。如該任務(wù)分配及調(diào)度中心100未在設(shè)定的第二時(shí)間閾值Τ2 (例如,5小時(shí))內(nèi)接收到該臺(tái)信息采集服務(wù)器200傳回的網(wǎng)絡(luò)信息,則初步判定該臺(tái)信息采集服務(wù)器200執(zhí)行任務(wù)超時(shí),執(zhí)行下一步驟S108。
[0062]在步驟S107中,任務(wù)分配及調(diào)度中心100對傳回的網(wǎng)絡(luò)信息進(jìn)行整理,并將整理的網(wǎng)絡(luò)信息存入數(shù)據(jù)庫105。步驟S107執(zhí)行完畢時(shí),跳回步驟S102。