本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種網(wǎng)上信息抓取方法及系統(tǒng)。
背景技術(shù):
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
網(wǎng)絡(luò)爬蟲實際是一種網(wǎng)絡(luò)信息抓取的應(yīng)用程序,現(xiàn)有的網(wǎng)絡(luò)爬蟲無法依據(jù)抓取的信息判斷其處理策略,導(dǎo)致現(xiàn)有的網(wǎng)絡(luò)爬蟲可能使得用戶侵犯別人的權(quán)利,安全性低。
技術(shù)實現(xiàn)要素:
本申請?zhí)峁┮环N網(wǎng)上信息抓取方法。其解決現(xiàn)有技術(shù)的技術(shù)方案侵犯別人的權(quán)利,安全性低的缺點。
一方面,提供一種網(wǎng)上信息抓取方法,所述方法包括如下步驟:網(wǎng)上信息抓取方法,所述方法包括如下步驟:
服務(wù)器接收用戶通過HTTP發(fā)送的信息抓取請求;
服務(wù)器從網(wǎng)絡(luò)中抓取與該抓取請求對應(yīng)的信息;
服務(wù)器依據(jù)該抓取請求對應(yīng)的信息內(nèi)包含的圖片信息確定該信息的處理策略。
可選的,所述方法還包括:
服務(wù)器如所述信息包含圖片信息,則將該信息存儲,如所述信息不包含圖片信息,則將該信息分享。
可選的,所述方法還包括:
服務(wù)器通過社交軟件或即時通信軟件對所述信息分享。
第二方面,提供一種網(wǎng)上信息抓取系統(tǒng),所述系統(tǒng)包括:
獲取單元,用于接收用戶通過HTTP發(fā)送的信息抓取請求;
處理單元,用于從網(wǎng)絡(luò)中抓取與該抓取請求對應(yīng)的信息;依據(jù)該抓取請求對應(yīng)的信息內(nèi)包含的圖片信息確定該信息的處理策略。
可選的,所述系統(tǒng)還包括:
處理單元,用于服務(wù)器如所述信息包含圖片信息,則將該信息存儲,如所述信息不包含圖片信息,則將該信息分享。
可選的,所述系統(tǒng)還包括:
處理單元,用于通過社交軟件或即時通信軟件對所述信息分享。
第三方面,提供一種服務(wù)器,包括:處理器、無線收發(fā)器、存儲器和總線,所述處理器、無線收發(fā)器、存儲器通過總線連接,所述無線收發(fā)器,用于接收用戶通過HTTP發(fā)送的信息抓取請求;
所述處理器,用于從網(wǎng)絡(luò)中抓取與該抓取請求對應(yīng)的信息;依據(jù)該抓取請求對應(yīng)的信息內(nèi)包含的圖片信息確定該信息的處理策略。
可選的,所述處理器,用于服務(wù)器如所述信息包含圖片信息,則將該信息存儲,如所述信息不包含圖片信息,則將該信息分享。
可選的,所述處理器,用于通過社交軟件或即時通信軟件對所述信息分享。
本發(fā)明提供的技術(shù)方案通過抓取的信息是否包含圖片信息來制訂對應(yīng)的處理策略,從而避免侵犯別人的權(quán)利,所以其具有安全性高的優(yōu)點。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明第一較佳實施方式提供的一種網(wǎng)上信息抓取方法的流程圖;
圖2為本發(fā)明第二較佳實施方式提供的一種網(wǎng)上信息抓取系統(tǒng)的結(jié)構(gòu)圖。
圖3為本發(fā)明第二較佳實施方式提供的一種服務(wù)器的硬件結(jié)構(gòu)圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
請參考圖1,圖1是本發(fā)明第一較佳實施方式提出的一種網(wǎng)上信息抓取方法,該方法如圖1所示,包括如下步驟:
步驟S101、服務(wù)器接收用戶通過HTTP發(fā)送的信息抓取請求。
步驟S102、服務(wù)器從網(wǎng)絡(luò)中抓取與該抓取請求對應(yīng)的信息。
步驟S103、服務(wù)器依據(jù)該抓取請求對應(yīng)的信息內(nèi)包含的圖片信息確定該信息的處理策略。
本發(fā)明提供的技術(shù)方案通過抓取的信息是否包含圖片信息來制訂對應(yīng)的處理策略,從而避免侵犯別人的權(quán)利,所以其具有安全性高的優(yōu)點。
可選的,服務(wù)器如所述信息包含圖片信息,則將該信息存儲,如所述信息不包含圖片信息,則將該信息分享。
可選的,服務(wù)器通過社交軟件或即時通信軟件對所述信息分享。
請參考圖2,圖2是本發(fā)明第二較佳實施方式提出的一種網(wǎng)上信息抓取系統(tǒng),該系統(tǒng)如圖2所示,包括:
獲取單元201,用于接收用戶通過HTTP發(fā)送的信息抓取請求;
處理單元202,用于從網(wǎng)絡(luò)中抓取與該抓取請求對應(yīng)的信息;依據(jù)該抓取請求對應(yīng)的信息內(nèi)包含的圖片信息確定該信息的處理策略。
本發(fā)明提供的技術(shù)方案通過抓取的信息是否包含圖片信息來制訂對應(yīng)的處理策略,從而避免侵犯別人的權(quán)利,所以其具有安全性高的優(yōu)點。
可選的,處理單元202,用于服務(wù)器如所述信息包含圖片信息,則將該信息存儲,如所述信息不包含圖片信息,則將該信息分享。
可選的,處理單元202,用于通過社交軟件或即時通信軟件對所述信息分享。
參閱圖3,圖3為一種服務(wù)器30,包括:處理器301、無線收發(fā)器302、存儲器303和總線304,無線收發(fā)器302用于與外部設(shè)備之間收發(fā)數(shù)據(jù)。處理器301的數(shù)量可以是一個或多個。本申請的一些實施例中,處理器301、存儲器302和收發(fā)器303可通過總線304或其他方式連接。服務(wù)器30可以用于執(zhí)行圖1的步驟。關(guān)于本實施例涉及的術(shù)語的含義以及舉例,可以參考圖1對應(yīng)的實施例。此處不再贅述。
無線收發(fā)器302,用于接收用戶通過HTTP發(fā)送的信息抓取請求。
其中,存儲器303中存儲程序代碼。處理器901用于調(diào)用存儲器903中存儲的程序代碼,用于執(zhí)行以下操作:
處理器301,用于從網(wǎng)絡(luò)中抓取與該抓取請求對應(yīng)的信息;依據(jù)該抓取請求對應(yīng)的信息內(nèi)包含的圖片信息確定該信息的處理策略。
需要說明的是,這里的處理器301可以是一個處理元件,也可以是多個處理元件的統(tǒng)稱。例如,該處理元件可以是中央處理器(Central Processing Unit,CPU),也可以是特定集成電路(Application Specific Integrated Circuit,ASIC),或者是被配置成實施本申請實施例的一個或多個集成電路,例如:一個或多個微處理器(digital singnal processor,DSP),或,一個或者多個現(xiàn)場可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)。
存儲器303可以是一個存儲裝置,也可以是多個存儲元件的統(tǒng)稱,且用于存儲可執(zhí)行程序代碼或應(yīng)用程序運行裝置運行所需要參數(shù)、數(shù)據(jù)等。且存儲器303可以包括隨機存儲器(RAM),也可以包括非易失性存儲器(non-volatile memory),例如磁盤存儲器,閃存(Flash)等。
總線304可以是工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(Industry Standard Architecture,ISA)總線、外部設(shè)備互連(Peripheral Component,PCI)總線或擴展工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(Extended Industry Standard Architecture,EISA)總線等。該總線可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖3中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。
該終端還可以包括輸入輸出裝置,連接于總線304,以通過總線與處理器301等其它部分連接。該輸入輸出裝置可以為操作人員提供一輸入界面,以便操作人員通過該輸入界面選擇布控項,還可以是其它接口,可通過該接口外接其它設(shè)備。
需要說明的是,對于前述的各個方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某一些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。
在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳細(xì)描述的部分,可以參見其他實施例的相關(guān)描述。
本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:閃存盤、只讀存儲器(英文:Read-Only Memory,簡稱:ROM)、隨機存取器(英文:Random Access Memory,簡稱:RAM)、磁盤或光盤等。
以上對本發(fā)明實施例所提供的內(nèi)容下載方法及相關(guān)設(shè)備、系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。