0173]根據(jù)預先設置的提取條件,從下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù)。
[0174]在本公開的一個實施例中,根據(jù)預先設置的提取條件,從下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù),包括:
[0175]根據(jù)預設關(guān)鍵字,從下載得到的網(wǎng)頁數(shù)據(jù)中,提取包含預設關(guān)鍵字的指定數(shù)據(jù);或.
[0176]根據(jù)預設提取段落,從下載得到的網(wǎng)頁數(shù)據(jù)中,提取位于預設提取段落上的指定數(shù)據(jù)。
[0177]在本公開的一個實施例中,根據(jù)指定數(shù)據(jù)的數(shù)據(jù)類型,對指定數(shù)據(jù)進行處理,包括:
[0178]當指定數(shù)據(jù)的數(shù)據(jù)類型為解析數(shù)據(jù),存儲指定數(shù)據(jù);
[0179]當指定數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)址數(shù)據(jù),將指定數(shù)據(jù)加入到第一消息隊列。
[0180]裝置600還可以包括一個電源組件626被配置為執(zhí)行裝置600的電源管理,一個有線或無線網(wǎng)絡接口 650被配置為將裝置600連接到網(wǎng)絡,和一個輸入輸出(I/O)接口658。裝置600可以操作基于存儲在存儲器632的操作系統(tǒng),例如Windows ServerTM, MacOS XTM,UnixTM, LinuxTM,F(xiàn)reeBSDTM 或類似。
[0181]本公開實施例提供的裝置,在獲取到待抓取網(wǎng)頁數(shù)據(jù)的一級網(wǎng)址后,從一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中,提取多個二級網(wǎng)址,并將多個二級網(wǎng)址加入第一消息隊列,進而基于第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。由于借助消息隊列下載網(wǎng)頁數(shù)據(jù),無需獲知地址端口等配置信息,基于消息隊列中存儲的二級網(wǎng)址下載,因此,下載網(wǎng)頁數(shù)據(jù)時更為便捷、資源消耗更小。
[0182]本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實施方案。本申請旨在涵蓋本發(fā)明的任何變型、用途或者適應性變化,這些變型、用途或者適應性變化遵循本發(fā)明的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本發(fā)明的真正范圍和精神由下面的權(quán)利要求指出。
[0183]應當理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。
【主權(quán)項】
1.一種網(wǎng)頁數(shù)據(jù)的下載方法,其特征在于,所述方法包括: 獲取待抓取網(wǎng)頁數(shù)據(jù)的一級網(wǎng)址; 從所述一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中,提取多個二級網(wǎng)址,所述一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中包含多個二級網(wǎng)址及干擾數(shù)據(jù); 將所述多個二級網(wǎng)址加入第一消息隊列; 基于所述第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù),包括: 根據(jù)所述第一消息隊列中的二級網(wǎng)址數(shù)量及各個下載實例的屬性信息,為各個下載實例分配二級網(wǎng)址,所述屬性信息包括下載實例的數(shù)量及下載實例的下載狀態(tài); 基于分配的二級網(wǎng)址,通過各個下載實例下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述第一消息隊列中的二級網(wǎng)址數(shù)量及各個下載實例的屬性信息,為各個下載實例分配二級網(wǎng)址,包括: 根據(jù)所述第一消息隊列中的二級網(wǎng)址數(shù)量及下載實例的數(shù)量,將所述第一消息隊列中的二級網(wǎng)址平均分配給各個下載實例;或, 根據(jù)各個下載實例的下載狀態(tài),確定各個下載實例的下載優(yōu)先級,按照各個下載實例的下載優(yōu)先級,將所述第一消息隊列中的二級網(wǎng)址,分配給各個下載實例。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)之后,還包括: 將下載得到的網(wǎng)頁數(shù)據(jù)加入第二消息隊列; 從所述第二消息隊列中,獲取下載得到的網(wǎng)頁數(shù)據(jù); 從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù); 根據(jù)所述指定數(shù)據(jù)的數(shù)據(jù)類型,對所述指定數(shù)據(jù)進行處理。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù),包括: 根據(jù)預先設置的提取條件,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)預先設置的提取條件,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù),包括: 根據(jù)預設關(guān)鍵字,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取包含所述預設關(guān)鍵字的指定數(shù)據(jù);或; 根據(jù)預設提取段落,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取位于所述預設提取段落上的指定數(shù)據(jù)。
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述指定數(shù)據(jù)的數(shù)據(jù)類型,對所述指定數(shù)據(jù)進行處理,包括: 當所述指定數(shù)據(jù)的數(shù)據(jù)類型為解析數(shù)據(jù),存儲所述指定數(shù)據(jù); 當所述指定數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)址數(shù)據(jù),將所述指定數(shù)據(jù)加入到所述第一消息隊列。
8.—種網(wǎng)頁數(shù)據(jù)的下載裝置,其特征在于,所述裝置包括: 第一獲取模塊,用于獲取待抓取網(wǎng)頁數(shù)據(jù)的一級網(wǎng)址; 第一提取模塊,用于從所述一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中,提取多個二級網(wǎng)址,所述一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中包含多個二級網(wǎng)址及干擾數(shù)據(jù); 第一加入模塊,用于將所述多個二級網(wǎng)址加入第一消息隊列; 下載模塊,用于基于所述第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述下載模塊,用于根據(jù)所述第一消息隊列中的二級網(wǎng)址數(shù)量及各個下載實例的屬性信息,為各個下載實例分配二級網(wǎng)址,所述屬性信息包括下載實例的數(shù)量及下載實例的下載狀態(tài);基于分配的二級網(wǎng)址,通過各個下載實例下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述下載模塊,具體用于根據(jù)所述第一消息隊列中的二級網(wǎng)址數(shù)量及下載實例的數(shù)量,將所述第一消息隊列中的二級網(wǎng)址平均分配給各個下載實例;或,所述下載模塊,具體用于根據(jù)各個下載實例的下載狀態(tài),確定各個下載實例的下載優(yōu)先級,按照各個下載實例的下載優(yōu)先級,將所述第一消息隊列中的二級網(wǎng)址,分配給各個下載實例。
11.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置,還包括: 第二加入模塊,用于將下載得到的網(wǎng)頁數(shù)據(jù)加入第二消息隊列; 第二獲取模塊,用于從所述第二消息隊列中,獲取下載得到的網(wǎng)頁數(shù)據(jù); 第二提取模塊,用于從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù); 處理模塊,用于根據(jù)所述指定數(shù)據(jù)的數(shù)據(jù)類型,對所述指定數(shù)據(jù)進行處理。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第二提取模塊,用于根據(jù)預先設置的提取條件,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù)。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述第二提取模塊,具體用于根據(jù)預設關(guān)鍵字,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取包含所述預設關(guān)鍵字的指定數(shù)據(jù);或;所述第二提取模塊,具體用于根據(jù)預設提取段落,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取位于所述預設提取段落上的指定數(shù)據(jù)。
14.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述處理模塊,用于當所述指定數(shù)據(jù)的數(shù)據(jù)類型為解析數(shù)據(jù),存儲所述指定數(shù)據(jù);當所述指定數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)址數(shù)據(jù),將所述指定數(shù)據(jù)加入到所述第一消息隊列。
15.一種網(wǎng)頁數(shù)據(jù)的下載裝置,其特征在于,包括: 處理器; 用于存儲處理器可執(zhí)行的指令; 其中,所述處理器被配置為: 獲取待抓取網(wǎng)頁數(shù)據(jù)的一級網(wǎng)址; 從所述一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中,提取多個二級網(wǎng)址,所述一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中包含多個二級網(wǎng)址及干擾數(shù)據(jù); 將所述多個二級網(wǎng)址加入第一消息隊列; 基于所述第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。
【專利摘要】本公開是關(guān)于一種網(wǎng)頁數(shù)據(jù)的下載方法及裝置,屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域。所述方法包括:獲取待抓取網(wǎng)頁數(shù)據(jù)的一級網(wǎng)址;從一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中,提取多個二級網(wǎng)址,一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中包含多個二級網(wǎng)址及干擾數(shù)據(jù);將多個二級網(wǎng)址加入第一消息隊列;基于第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。本公開在獲取到待抓取網(wǎng)頁數(shù)據(jù)的一級網(wǎng)址后,從一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中,提取多個二級網(wǎng)址,并將多個二級網(wǎng)址加入第一消息隊列,進而基于第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。由于借助消息隊列下載網(wǎng)頁數(shù)據(jù),無需獲知地址端口等配置信息,基于消息隊列中存儲的二級網(wǎng)址下載,因此,降低了資源消耗,簡化了下載的復雜度。
【IPC分類】G06F17-30
【公開號】CN104572901
【申請?zhí)枴緾N201410827793
【發(fā)明人】于勝軍, 馬哲, 譚國斌
【申請人】小米科技有限責任公司
【公開日】2015年4月29日
【申請日】2014年12月25日