亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁數(shù)據(jù)的下載方法及裝置的制造方法

文檔序號:8258773閱讀:378來源:國知局
網(wǎng)頁數(shù)據(jù)的下載方法及裝置的制造方法
【技術(shù)領域】
[0001]本公開涉及互聯(lián)網(wǎng)技術(shù)領域,尤其涉及一種網(wǎng)頁數(shù)據(jù)的下載方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)爆炸性增長。傳統(tǒng)的單機網(wǎng)絡爬蟲系統(tǒng)因獲取網(wǎng)頁數(shù)據(jù)的速度較慢、準確性較低,很難適應大規(guī)模的網(wǎng)頁數(shù)據(jù)獲取需求。為了提高獲取速度以及準確性,分布式網(wǎng)絡爬蟲系統(tǒng)應運而生。分布式網(wǎng)絡爬蟲系統(tǒng)作為一種新的數(shù)據(jù)獲取系統(tǒng),具有單機網(wǎng)絡爬蟲系統(tǒng)無法比擬的數(shù)據(jù)采集速度和規(guī)模,可快速地為抓取到更多的網(wǎng)頁數(shù)據(jù)。
[0003]分布式網(wǎng)絡爬蟲系統(tǒng)由調(diào)度器和多個下載器組成,其中,調(diào)度器負責為各個下載器分配待下載網(wǎng)址,下載器用于根據(jù)待下載網(wǎng)址從互聯(lián)網(wǎng)上下載網(wǎng)頁數(shù)據(jù)。在分布式網(wǎng)絡爬蟲系統(tǒng)中,調(diào)度器和下載器間采用RPC(Rem0te Procedure Call,遠程過程調(diào)度)協(xié)議進行通信?;诜植际骄W(wǎng)絡爬蟲系統(tǒng),相關(guān)技術(shù)在下載網(wǎng)頁數(shù)據(jù)時,調(diào)度器和下載器需要先獲知彼此的地址端口等配置信息,然后調(diào)度器根據(jù)待下載網(wǎng)址的數(shù)量,確定為各個下載器分配的待下載網(wǎng)址,進而通過各個下載器的地址端口將待下載地址發(fā)送至各個下載器,基于接收到的下載網(wǎng)址,下載器就可從互聯(lián)網(wǎng)上下載網(wǎng)頁數(shù)據(jù)。

【發(fā)明內(nèi)容】

[0004]為克服相關(guān)技術(shù)中存在的問題,本公開提供一種網(wǎng)頁數(shù)據(jù)的下載方法及裝置。
[0005]根據(jù)本公開實施例的第一方面,提供一種網(wǎng)頁數(shù)據(jù)的下載方法,該方法包括:
[0006]獲取待抓取網(wǎng)頁數(shù)據(jù)的一級網(wǎng)址;
[0007]從所述一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中,提取多個二級網(wǎng)址,所述一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中包含多個二級網(wǎng)址及干擾數(shù)據(jù);
[0008]將所述多個二級網(wǎng)址加入第一消息隊列;
[0009]基于所述第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。
[0010]結(jié)合第一方面,在第一方面的第一種可能的實現(xiàn)方式中,所述基于所述第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù),包括:
[0011]根據(jù)所述第一消息隊列中的二級網(wǎng)址數(shù)量及各個下載實例的屬性信息,為各個下載實例分配二級網(wǎng)址,所述屬性信息包括下載實例的數(shù)量及下載實例的下載狀態(tài);
[0012]基于分配的二級網(wǎng)址,通過各個下載實例下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。
[0013]結(jié)合第一方面的第一種可能的實現(xiàn)方式,在第一方面的第二種可能的實現(xiàn)方式中,所述根據(jù)所述第一消息隊列中的二級網(wǎng)址數(shù)量及各個下載實例的屬性信息,為各個下載實例分配二級網(wǎng)址,包括:
[0014]根據(jù)所述第一消息隊列中的二級網(wǎng)址數(shù)量及下載實例的數(shù)量,將所述第一消息隊列中的二級網(wǎng)址平均分配給各個下載實例;或,
[0015]根據(jù)各個下載實例的下載狀態(tài),確定各個下載實例的下載優(yōu)先級,按照各個下載實例的下載優(yōu)先級,將所述第一消息隊列中的二級網(wǎng)址,分配給各個下載實例。
[0016]結(jié)合第一方面,在第一方面的第三種可能的實現(xiàn)方式中,所述基于所述第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)之后,還包括:
[0017]將下載得到的網(wǎng)頁數(shù)據(jù)加入第二消息隊列;
[0018]從所述第二消息隊列中,獲取下載得到的網(wǎng)頁數(shù)據(jù);
[0019]從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù);
[0020]根據(jù)所述指定數(shù)據(jù)的數(shù)據(jù)類型,對所述指定數(shù)據(jù)進行處理。
[0021]結(jié)合第一方面的第三種可能的實現(xiàn)方式,在第一方面的第四種可能的實現(xiàn)方式中,所述從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù),包括:
[0022]根據(jù)預先設置的提取條件,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù)。
[0023]結(jié)合第一方面的第四種可能的實現(xiàn)方式,在第一方面的第五種可能的實現(xiàn)方式中,所述根據(jù)預先設置的提取條件,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù),包括:
[0024]根據(jù)預設關(guān)鍵字,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取包含所述預設關(guān)鍵字的指定數(shù)據(jù);或;
[0025]根據(jù)預設提取段落,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取位于所述預設提取段落上的指定數(shù)據(jù)。
[0026]結(jié)合第一方面的第三種可能的實現(xiàn)方式,在第一方面的第六種可能的實現(xiàn)方式中,所述根據(jù)所述指定數(shù)據(jù)的數(shù)據(jù)類型,對所述指定數(shù)據(jù)進行處理,包括:
[0027]當所述指定數(shù)據(jù)的數(shù)據(jù)類型為解析數(shù)據(jù),存儲所述指定數(shù)據(jù);
[0028]當所述指定數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)址數(shù)據(jù),將所述指定數(shù)據(jù)加入到所述第一消息隊列。
[0029]根據(jù)本公開實施例的第二方面,提供一種網(wǎng)頁數(shù)據(jù)的下載裝置,該裝置包括:
[0030]第一獲取模塊,用于獲取待抓取網(wǎng)頁數(shù)據(jù)的一級網(wǎng)址;
[0031]第一提取模塊,用于從所述一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中,提取多個二級網(wǎng)址,所述一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中包含多個二級網(wǎng)址及干擾數(shù)據(jù);
[0032]第一加入模塊,用于將所述多個二級網(wǎng)址加入第一消息隊列;
[0033]下載模塊,用于基于所述第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。
[0034]結(jié)合第二方面,在第二方面的第一種可能的實現(xiàn)方式中,所述下載模塊,用于根據(jù)所述第一消息隊列中的二級網(wǎng)址數(shù)量及各個下載實例的屬性信息,為各個下載實例分配二級網(wǎng)址,所述屬性信息包括下載實例的數(shù)量及下載實例的下載狀態(tài);基于分配的二級網(wǎng)址,通過各個下載實例下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。
[0035]結(jié)合第二方面的第一種可能的實現(xiàn)方式,在第二方面的第二種可能的實現(xiàn)方式中,所述下載模塊,具體用于根據(jù)所述第一消息隊列中的二級網(wǎng)址數(shù)量及下載實例的數(shù)量,將所述第一消息隊列中的二級網(wǎng)址平均分配給各個下載實例;或,所述下載模塊,具體用于根據(jù)各個下載實例的下載狀態(tài),確定各個下載實例的下載優(yōu)先級,按照各個下載實例的下載優(yōu)先級,將所述第一消息隊列中的二級網(wǎng)址,分配給各個下載實例。
[0036]結(jié)合第二方面,在第二方面的第三種可能的實現(xiàn)方式中,所述裝置,還包括:
[0037]第二加入模塊,用于將下載得到的網(wǎng)頁數(shù)據(jù)加入第二消息隊列;
[0038]第二獲取模塊,用于從所述第二消息隊列中,獲取下載得到的網(wǎng)頁數(shù)據(jù);
[0039]第二提取模塊,用于從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù);
[0040]處理模塊,用于根據(jù)所述指定數(shù)據(jù)的數(shù)據(jù)類型,對所述指定數(shù)據(jù)進行處理。
[0041]結(jié)合第二方面的第三種可能的實現(xiàn)方式,在第二方面的第四種可能的實現(xiàn)方式中,所述第二提取模塊,用于根據(jù)預先設置的提取條件,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取指定數(shù)據(jù)。
[0042]結(jié)合第二方面的第四種可能的實現(xiàn)方式,在第二方面的第五種可能的實現(xiàn)方式中,所述第二提取模塊,具體用于根據(jù)預設關(guān)鍵字,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取包含所述預設關(guān)鍵字的指定數(shù)據(jù);或;所述第二提取模塊,具體用于根據(jù)預設提取段落,從所述下載得到的網(wǎng)頁數(shù)據(jù)中,提取位于所述預設提取段落上的指定數(shù)據(jù)。
[0043]結(jié)合第二方面的第三種可能的實現(xiàn)方式,在第二方面的第六種可能的實現(xiàn)方式中,所述處理模塊,用于當所述指定數(shù)據(jù)的數(shù)據(jù)類型為解析數(shù)據(jù),存儲所述指定數(shù)據(jù);當所述指定數(shù)據(jù)的數(shù)據(jù)類型為網(wǎng)址數(shù)據(jù),將所述指定數(shù)據(jù)加入到所述第一消息隊列。
[0044]根據(jù)本公開實施例的第三方面,提供一種網(wǎng)頁數(shù)據(jù)的下載裝置,包括:
[0045]處理器;
[0046]用于存儲處理器可執(zhí)行的指令;
[0047]其中,所述處理器被配置為:
[0048]獲取待抓取網(wǎng)頁數(shù)據(jù)的一級網(wǎng)址;
[0049]從所述一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中,提取多個二級網(wǎng)址,所述一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中包含多個二級網(wǎng)址及干擾數(shù)據(jù);
[0050]將所述多個二級網(wǎng)址加入第一消息隊列;
[0051]基于所述第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。
[0052]本公開的實施例提供的技術(shù)方案可以包括以下有益效果:
[0053]在獲取到待抓取網(wǎng)頁數(shù)據(jù)的一級網(wǎng)址后,從一級網(wǎng)址的網(wǎng)頁數(shù)據(jù)中,提取多個二級網(wǎng)址,并將多個二級網(wǎng)址加入第一消息隊列,進而基于第一消息隊列,下載二級網(wǎng)址對應的網(wǎng)頁數(shù)據(jù)。由于借助消息隊列下載網(wǎng)頁數(shù)據(jù),無需獲知地址端口等配置信息,基于消息隊列中存儲的二級網(wǎng)址下載即可,因此,降低了資源消耗,簡化了下載的復雜度。
[0054]應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開
當前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1