用于網(wǎng)絡資源處理的調(diào)度方法、設備、系統(tǒng)及子調(diào)度器的制造方法
【專利摘要】本發(fā)明提供一種用于網(wǎng)絡資源處理的調(diào)度方法、設備、系統(tǒng)及子調(diào)度器,方法包括:第一子調(diào)度器從至少一個網(wǎng)絡爬蟲設備獲取網(wǎng)絡資源的地址信息;當?shù)谝蛔诱{(diào)度器的網(wǎng)絡資源的地址信息的數(shù)量超過設定的調(diào)度閾值時,將超過調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息發(fā)送給總調(diào)度器,以使總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務;與第一子調(diào)度器不同的第二子調(diào)度器接收總調(diào)度器分發(fā)的總調(diào)度任務;第二子調(diào)度器根據(jù)總調(diào)度任務和未超過調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務;第二子調(diào)度器發(fā)送子調(diào)度任務給對應的網(wǎng)絡爬蟲設備。本發(fā)明實現(xiàn)了僅在網(wǎng)絡資源處理量超負荷時,請求總調(diào)度器重新調(diào)度,降低了總調(diào)度器的負載。
【專利說明】
用于網(wǎng)絡資源處理的調(diào)度方法、設備、系統(tǒng)及子調(diào)度器
技術領域
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術領域,尤其涉及一種用于網(wǎng)絡資源處理的調(diào)度方法、設備、系統(tǒng)及子調(diào)度器。
【背景技術】
[0002]搜索引擎作為網(wǎng)絡信息搜尋的工具,它以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務。1994年,爬蟲程序被應用到索引程序中,Yah00、G00gle等相繼出現(xiàn)。網(wǎng)絡爬蟲是搜索引擎系統(tǒng)中十分重要的組成部分,它負責從互聯(lián)網(wǎng)中搜集網(wǎng)頁,這些頁面用于建立索引從而為搜索引擎提供支持。
[0003]但至今,功能再強大的搜索引擎都仍然存在信息丟失、更新率低、精準率低等問題。用戶需要更快、更準、更方便、更有效的查詢服務成為搜索引擎技術發(fā)展研究追求的目標。而面對越來越龐大的網(wǎng)絡資源,提高爬蟲程序的速度已成為當前搜索領域的一個焦點問題,但現(xiàn)有的爬蟲程序顯然不能滿足高速爬取的需求。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于,提供一種用于網(wǎng)絡資源處理的調(diào)度方法、設備、系統(tǒng)及子調(diào)度器,以實現(xiàn)僅在網(wǎng)絡資源處理量超負荷時,請求總調(diào)度器重新分配調(diào)度任務,降低總調(diào)度器的負載,使得網(wǎng)絡資源更快速進入搜索引擎。
[0005]根據(jù)本發(fā)明的一方面,提供一種用于網(wǎng)絡資源處理的調(diào)度方法,包括:第一子調(diào)度器從至少一個網(wǎng)絡爬蟲設備獲取網(wǎng)絡資源的地址信息;當所述第一子調(diào)度器的網(wǎng)絡資源的地址信息的數(shù)量超過設定的調(diào)度閾值時,所述第一子調(diào)度器將超過所述調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息發(fā)送給總調(diào)度器,以使所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務;與第一子調(diào)度器不同的第二子調(diào)度器接收所述總調(diào)度器分發(fā)的所述總調(diào)度任務;所述第二子調(diào)度器根據(jù)總調(diào)度任務和未超過所述調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務;所述第二子調(diào)度器發(fā)送所述子調(diào)度任務給對應的網(wǎng)絡爬蟲設備。
[0006]優(yōu)選地,所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務的處理包括:
[0007]所述總調(diào)度器獲取其他子調(diào)度器當前處理網(wǎng)絡資源的地址信息的數(shù)量和對應的調(diào)度閾值;
[0008]根據(jù)其他子調(diào)度器的每一個的調(diào)度閾值和當前處理網(wǎng)絡資源的地址信息的數(shù)量的差值,所述總調(diào)度器生成至少一個總調(diào)度任務,所述至少一個總調(diào)度任務用于指定對應的第二子調(diào)度器處理所述超出部分的網(wǎng)絡資源的地址信息。
[0009]優(yōu)選地,所述方法還包括:所述第一子調(diào)度器發(fā)送所述網(wǎng)絡資源的地址信息給子去重器,以使所述子去重器判斷所述網(wǎng)絡資源的地址信息與所述子去重器本地存儲的網(wǎng)絡資源的地址信息是否一致,如果一致,則不再對判斷一致的網(wǎng)絡資源的地址信息進行后續(xù)的處理。
[0010]優(yōu)選地,所述方法還包括:如果不一致,則所述子去重器將判斷不一致的網(wǎng)絡資源的地址信息發(fā)送給總去重器,以使所述總去重器判斷所述網(wǎng)絡資源的地址信息與所述總去重器本地存儲的網(wǎng)絡資源的地址信息是否一致;如果不一致,則所述第一子調(diào)度器接收所述總去重器發(fā)送的判斷不一致的網(wǎng)絡資源的地址信息。
[0011]根據(jù)本發(fā)明的另一方面,提供一種用于網(wǎng)絡資源處理的調(diào)度設備,包括:地址信息獲取模塊,用于第一子調(diào)度器從至少一個網(wǎng)絡爬蟲設備獲取網(wǎng)絡資源的地址信息;地址信息發(fā)送模塊,用于當所述第一子調(diào)度器的網(wǎng)絡資源的地址信息的數(shù)量超過設定的調(diào)度閾值時,所述第一子調(diào)度器將超過所述調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息發(fā)送給總調(diào)度器,以使所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務;調(diào)度任務接收模塊,用于與第一子調(diào)度器不同的第二子調(diào)度器接收所述總調(diào)度器分發(fā)的所述總調(diào)度任務;調(diào)度任務生成模塊,用于所述第二子調(diào)度器根據(jù)總調(diào)度任務和未超過所述調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務;調(diào)度任務發(fā)送模塊,用于所述第二子調(diào)度器發(fā)送所述子調(diào)度任務給對應的網(wǎng)絡爬蟲設備。
[0012]優(yōu)選地,所述地址信息發(fā)送模塊具體用于所述總調(diào)度器獲取其他子調(diào)度器當前處理網(wǎng)絡資源的地址信息的數(shù)量和對應的調(diào)度閾值;根據(jù)其他子調(diào)度器的每一個的調(diào)度閾值和當前處理網(wǎng)絡資源的地址信息的數(shù)量的差值,生成至少一個總調(diào)度任務,所述至少一個總調(diào)度任務用于指定對應的第二子調(diào)度器處理所述超出部分的網(wǎng)絡資源的地址信息。
[0013]優(yōu)選地,所述地址信息發(fā)送模塊還用于所述第一子調(diào)度器發(fā)送所述網(wǎng)絡資源的地址信息給子去重器,以使所述子去重器判斷所述網(wǎng)絡資源的地址信息與所述子去重器本地存儲的網(wǎng)絡資源的地址信息是否一致,如果一致,則不再對判斷一致的網(wǎng)絡資源的地址信息進行后續(xù)的處理。
[0014]優(yōu)選地,所述地址信息發(fā)送模塊還用于如果不一致,則所述子去重器將判斷不一致的網(wǎng)絡資源的地址信息發(fā)送給總去重器,以使所述總去重器判斷所述網(wǎng)絡資源的地址信息與所述總去重器本地存儲的網(wǎng)絡資源的地址信息是否一致;
[0015]所述調(diào)度設備還包括:地址信息接收模塊,用于如果不一致,則所述第一子調(diào)度器接收所述總去重器發(fā)送的判斷不一致的網(wǎng)絡資源的地址信息。
[0016]根據(jù)本發(fā)明的另一方面,提供一種子調(diào)度器,包括:信息獲取模塊,用于從至少一個網(wǎng)絡爬蟲設備獲取網(wǎng)絡資源的地址信息;信息發(fā)送模塊,用于當本地的網(wǎng)絡資源的地址信息的數(shù)量超過設定的調(diào)度閾值時,將超過所述調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息發(fā)送給總調(diào)度器,以使所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務;任務接收模塊,用于當本地的網(wǎng)絡資源的地址信息的數(shù)量未超過設定的調(diào)度閾值時,接收所述總調(diào)度器分發(fā)的所述總調(diào)度任務;任務生成模塊,用于根據(jù)所述總調(diào)度任務對應的網(wǎng)絡資源的地址信息和未超過設定的調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務;任務發(fā)送模塊,用于發(fā)送所述子調(diào)度任務給對應的網(wǎng)絡爬蟲設備。
[0017]根據(jù)本發(fā)明的另一方面,提供一種用于網(wǎng)絡資源處理的調(diào)度系統(tǒng),包括:總調(diào)度器和分別與所述總調(diào)度器通信連接的至少一個如前述實施例所述的子調(diào)度器,所述總調(diào)度器接收超過設定調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息,并根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務,分別發(fā)送給對應的子調(diào)度器。
[0018]根據(jù)本發(fā)明實施例提供的用于網(wǎng)絡資源處理的調(diào)度方法、設備、系統(tǒng)及子調(diào)度器,通過子調(diào)度器在網(wǎng)絡資源的地址信息的數(shù)量超過設定調(diào)度閾值時,發(fā)送超過調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息給總調(diào)度器,使其重新分配調(diào)度任務,進一步其他未超過調(diào)度閾值的子調(diào)度器根據(jù)總調(diào)度器分發(fā)的總調(diào)度任務和未超過調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務,并發(fā)送給對應的網(wǎng)絡爬蟲設備。實現(xiàn)了僅在網(wǎng)絡資源處理量超負荷時,請求總調(diào)度器重新分配調(diào)度任務,從而降低了總調(diào)度器的負載,使得網(wǎng)絡資源更加快速地進入搜索引擎。
【附圖說明】
[0019]圖1是示出根據(jù)本發(fā)明實施例一的用于網(wǎng)絡資源處理的調(diào)度方法的流程圖;
[0020]圖2是示出根據(jù)本發(fā)明實施例二的用于網(wǎng)絡資源處理的調(diào)度設備的邏輯框圖;
[0021 ]圖3是示出根據(jù)本發(fā)明實施例三的子調(diào)度器的邏輯框圖;
[0022]圖4是示出根據(jù)本發(fā)明實施例四的用于網(wǎng)絡資源處理的調(diào)度系統(tǒng)的結構示意圖。
【具體實施方式】
[0023]本發(fā)明的基本構思是,提供一種基于網(wǎng)絡資源處理的兩重調(diào)度的技術方案。具體來說,在網(wǎng)絡資源的地址信息的數(shù)量超過設定調(diào)度閾值時,發(fā)送超過調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息給總調(diào)度器,使其重新分配調(diào)度任務,進一步其他未超過調(diào)度閾值的子調(diào)度器根據(jù)總調(diào)度器分發(fā)的總調(diào)度任務和未超過調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息生成子調(diào)度任務,并發(fā)送給對應的網(wǎng)絡爬蟲設備。實現(xiàn)了僅在網(wǎng)絡資源處理量超負荷時,請求總調(diào)度器重新分配調(diào)度任務,從而降低了總調(diào)度器的負載,使得網(wǎng)絡資源更加快速地進入搜索引擎。
[0024]此外,還可增加兩重去重處理,即總去重器和子去重器實現(xiàn),同理可知,子去重器使得總去重器的負載降低,極大地提升網(wǎng)絡資源處理的效率和速度。
[0025]下面結合附圖詳細描述本發(fā)明的示例性實施例用于網(wǎng)絡資源處理的調(diào)度方法、設備、系統(tǒng)及子調(diào)度器。
[0026]實施例一
[0027]圖1是示出根據(jù)本發(fā)明實施例一的用于網(wǎng)絡資源處理的調(diào)度方法的流程圖。以下以子調(diào)度器為本發(fā)明實施例的執(zhí)行主體進行詳細說明。
[0028]參照圖1,在步驟S110,第一子調(diào)度器從至少一個網(wǎng)絡爬蟲設備獲取網(wǎng)絡資源的地址信息。
[0029]需要說明的是,網(wǎng)絡資源的地址信息可為網(wǎng)頁的統(tǒng)一資源定位符URL。也就是說,網(wǎng)絡爬蟲設備在發(fā)現(xiàn)URL之后,并不是直接就根據(jù)URL進行網(wǎng)絡資源的下載,而是將URL告知子調(diào)度器,由此,子調(diào)度器就可獲取到網(wǎng)絡爬蟲設備發(fā)送的網(wǎng)絡資源的地址信息。
[0030]在步驟S120,當?shù)谝蛔诱{(diào)度器的網(wǎng)絡資源的地址信息的數(shù)量超過設定調(diào)度閾值時,第一子調(diào)度器將超過調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息發(fā)送給總調(diào)度器,以使總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務。
[0031]具體來說,第一子調(diào)度器在獲取到網(wǎng)絡爬蟲設備發(fā)送的網(wǎng)絡資源的地址信息之后,會判斷自身的網(wǎng)絡資源處理量是否超負荷,如果超負荷,就將超出部分(即超過調(diào)度閾值的網(wǎng)絡資源的地址信息)發(fā)送給總調(diào)度器。
[0032]根據(jù)本發(fā)明的優(yōu)選實施例,前述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務的處理可以包括:總調(diào)度器獲取其他子調(diào)度器當前處理網(wǎng)絡資源的地址信息的數(shù)量和對應的調(diào)度閾值;根據(jù)其他子調(diào)度器的每一個的調(diào)度閾值和當前處理網(wǎng)絡資源的地址信息的數(shù)量的差值,總調(diào)度器生成至少一個總調(diào)度任務,至少一個總調(diào)度任務用于指定對應的第二子調(diào)度器處理超出部分的網(wǎng)絡資源的地址信息。
[0033]也就是說,總調(diào)度器需要先獲取其他子調(diào)度器的網(wǎng)絡資源處理情況,即前處理網(wǎng)絡資源的地址信息的數(shù)量和對應的調(diào)度閾值,例如,某子調(diào)度器當前處理的網(wǎng)絡資源的地址信息的數(shù)量為900,調(diào)度閾值為1000,可見該子調(diào)度器為未超負荷的子調(diào)度器,假設前述超出部分網(wǎng)絡資源的地址信息數(shù)量為200,那么可將其中的100個生成一個總調(diào)度任務發(fā)送給該未超負荷的子調(diào)度器。同理,另外100個生成一個總調(diào)度任務發(fā)送給另一未超負荷的子調(diào)度器。
[0034]在步驟S130,與第一子調(diào)度器不同的第二子調(diào)度器接收總調(diào)度器分發(fā)的總調(diào)度任務。
[0035]這里需要強調(diào)的是,“第一”、“第二”只是一種用于區(qū)別不同子調(diào)度器的指代,并不用以限定具體的子調(diào)度器。具體地,第二子調(diào)度器就是如前所述的網(wǎng)絡資源處理量未超負荷的子調(diào)度器,從而接收總調(diào)度器發(fā)送的總調(diào)度任務,繼續(xù)做相應的處理。
[0036]在步驟S140,第二子調(diào)度器根據(jù)總調(diào)度任務的網(wǎng)絡資源的地址信息和未超過調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務。
[0037]在步驟SI 50,第二子調(diào)度器發(fā)送子調(diào)度任務給對應的網(wǎng)絡爬蟲設備。
[0038]在具體的實現(xiàn)方式中,通常,由子調(diào)度器對16個網(wǎng)絡爬蟲設備進行調(diào)度和管理。這其中包括了 URL打散、URL比例再分配、設置URL的優(yōu)先級等等。因此,需要子調(diào)度器根據(jù)總調(diào)度任務和未超過調(diào)度閾值的URL生成子調(diào)度任務,然后將子調(diào)度任務分發(fā)給這16個網(wǎng)絡爬蟲設備。
[0039]本發(fā)明實施例的用于網(wǎng)絡資源處理的調(diào)度方法,通過子調(diào)度器在網(wǎng)絡資源的地址信息的數(shù)量超過設定調(diào)度閾值時,發(fā)送超過調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息給總調(diào)度器,使其重新分配調(diào)度任務,進一步其他未超過調(diào)度閾值的子調(diào)度器根據(jù)總調(diào)度器分發(fā)的總調(diào)度任務和未超過調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務,并發(fā)送給對應的網(wǎng)絡爬蟲設備。實現(xiàn)了僅在網(wǎng)絡資源處理量超負荷時,請求總調(diào)度器重新分配調(diào)度任務,從而降低了總調(diào)度器的負載,使得網(wǎng)絡資源更加快速地進入搜索引擎。
[0040]在上述實施例的基礎之上,為了避免由于重復爬取降低了網(wǎng)絡爬蟲設備的網(wǎng)絡資源處理效率,進一步地,用于網(wǎng)絡資源處理的調(diào)度方法還可包括:第一子調(diào)度器發(fā)送網(wǎng)絡資源的地址信息給子去重器,以使子去重器判斷網(wǎng)絡資源的地址信息與子去重器本地存儲的網(wǎng)絡資源的地址信息是否一致,如果一致,則不再對判斷一致的網(wǎng)絡資源的地址信息進行后續(xù)的處理。
[0041 ] 更進一步地,用于網(wǎng)絡資源處理的調(diào)度方法還可包括:如果不一致,則子去重器將判斷不一致的網(wǎng)絡資源的地址信息發(fā)送給總去重器,以使總去重器判斷網(wǎng)絡資源的地址信息與總去重器本地存儲的網(wǎng)絡資源的地址信息是否一致;如果不一致,則第一子調(diào)度器接收總去重器發(fā)送的判斷不一致的網(wǎng)絡資源的地址信息。
[0042]在實際應用中,URL去重是網(wǎng)絡資源處理中一項關鍵步驟,由于運行中的網(wǎng)絡爬蟲主要阻塞在網(wǎng)絡交互中,因此避免重復的網(wǎng)絡交互至關重要。網(wǎng)絡爬蟲一般會將待抓取的URL放在一個隊列中,從抓取后的網(wǎng)頁中提取到新的URL,在新的URL被放入隊列之前,首先要確定這些新的URL是否被抓取過,如果之前已經(jīng)抓取過了,就不再放入隊列了。因此,基于同樣的技術構思,設置兩重去重,同樣地,子去重器使得總去重器的負載降低,極大地提升網(wǎng)絡資源處理的效率和速度。
[0043]實施例二
[0044]基于相同的技術構思,圖2是示出根據(jù)本發(fā)明實施例二的用于網(wǎng)絡資源處理的調(diào)度設備的邏輯框圖。可用于執(zhí)行如圖1所示的實施例的方法步驟。
[0045]參照圖2,用于網(wǎng)絡資源處理的調(diào)度設備包括地址信息獲取模塊210、地址信息發(fā)送模塊220、調(diào)度任務接收模塊230、調(diào)度任務生成模塊240和調(diào)度任務發(fā)送模塊250。
[0046]地址信息獲取模塊210用于第一子調(diào)度器從至少一個網(wǎng)絡爬蟲設備獲取網(wǎng)絡資源的地址信息;
[0047]地址信息發(fā)送模塊220用于當?shù)谝蛔诱{(diào)度器的網(wǎng)絡資源的地址信息的數(shù)量超過設定的調(diào)度閾值時,第一子調(diào)度器將超過調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息發(fā)送給總調(diào)度器,以使總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務;
[0048]調(diào)度任務接收模塊230用于與第一子調(diào)度器不同的第二子調(diào)度器接收總調(diào)度器分發(fā)的總調(diào)度任務;
[0049]調(diào)度任務生成模塊240用于第二子調(diào)度器根據(jù)總調(diào)度任務和未超過調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務;
[0050]調(diào)度任務發(fā)送模塊250用于第二子調(diào)度器發(fā)送子調(diào)度任務給對應的網(wǎng)絡爬蟲設備。
[0051]具體地,地址信息發(fā)送模塊220可用于總調(diào)度器獲取其他子調(diào)度器當前處理網(wǎng)絡資源的地址信息的數(shù)量和對應的調(diào)度閾值;根據(jù)其他子調(diào)度器的每一個的調(diào)度閾值和當前處理網(wǎng)絡資源的地址信息的數(shù)量的差值,生成至少一個總調(diào)度任務,至少一個總調(diào)度任務用于指定對應的第二子調(diào)度器處理超出部分的網(wǎng)絡資源的地址信息。
[0052]進一步地,地址信息發(fā)送模塊220還可用于第一子調(diào)度器發(fā)送網(wǎng)絡資源的地址信息給子去重器,以使子去重器判斷網(wǎng)絡資源的地址信息與子去重器本地存儲的網(wǎng)絡資源的地址信息是否一致,如果一致,則不再對判斷一致的網(wǎng)絡資源的地址信息進行后續(xù)的處理。
[0053]更進一步地,地址信息發(fā)送模塊220還可用于如果不一致,則子去重器將判斷不一致的網(wǎng)絡資源的地址信息發(fā)送給總去重器,以使總去重器判斷網(wǎng)絡資源的地址信息與總去重器本地存儲的網(wǎng)絡資源的地址信息是否一致;
[0054]調(diào)度設備還可包括:地址信息接收模塊(圖中未示出)用于如果不一致,則第一子調(diào)度器接收總去重器發(fā)送的判斷不一致的網(wǎng)絡資源的地址信息。
[0055]本發(fā)明實施例的用于網(wǎng)絡資源處理的調(diào)度設備,通過子調(diào)度器在網(wǎng)絡資源的地址信息的數(shù)量超過設定調(diào)度閾值時,發(fā)送超過調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息給總調(diào)度器,使其重新分配調(diào)度任務,進一步其他未超過調(diào)度閾值的子調(diào)度器根據(jù)總調(diào)度器分發(fā)的總調(diào)度任務和未超過調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務,并發(fā)送給對應的網(wǎng)絡爬蟲設備。實現(xiàn)了僅在網(wǎng)絡資源處理量超負荷時,請求總調(diào)度器重新分配調(diào)度任務,從而降低了總調(diào)度器的負載,使得網(wǎng)絡資源更加快速地進入搜索引擎。
[0056]實施例三
[0057]基于相同的技術構思,圖3是示出根據(jù)本發(fā)明實施例三的子調(diào)度器的邏輯框圖。
[0058]參照圖3,子調(diào)度器包括信息獲取模塊310、信息發(fā)送模塊320、任務接收模塊330、任務生成模塊340和任務發(fā)送模塊350。
[0059]信息獲取模塊310用于從至少一個網(wǎng)絡爬蟲設備獲取網(wǎng)絡資源的地址信息。
[0060]這里,網(wǎng)絡資源的地址信息可為網(wǎng)頁的統(tǒng)一資源定位符URL。
[0061]信息發(fā)送模塊320用于當本地的網(wǎng)絡資源的地址信息的數(shù)量超過設定的調(diào)度閾值時,將超過調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息發(fā)送給總調(diào)度器,以使總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務。
[0062]任務接收模塊330用于當本地的網(wǎng)絡資源的地址信息的數(shù)量未超過設定的調(diào)度閾值時,接收總調(diào)度器分發(fā)的總調(diào)度任務。
[0063]任務生成模塊340用于根據(jù)總調(diào)度任務對應的網(wǎng)絡資源的地址信息和未超過設定的調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務。
[0064]任務發(fā)送模塊350用于發(fā)送子調(diào)度任務給對應的網(wǎng)絡爬蟲設備。
[0065]本發(fā)明實施例的子調(diào)度器,一方面,通過在網(wǎng)絡資源的地址信息的數(shù)量超過設定調(diào)度閾值時,發(fā)送超過調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息給總調(diào)度器,使其重新分配調(diào)度任務;另一方面,當本地的網(wǎng)絡資源的地址信息的數(shù)量未超過設定的調(diào)度閾值時接收總調(diào)度器分發(fā)的總調(diào)度任務,進一步根據(jù)總調(diào)度任務對應的網(wǎng)絡資源的地址信息和未超過設定的調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務,并發(fā)送給對應的網(wǎng)絡爬蟲設備。實現(xiàn)了僅在網(wǎng)絡資源處理量超負荷時,請求總調(diào)度器重新分配調(diào)度任務,從而降低了總調(diào)度器的負載。并且在網(wǎng)絡資源處理量未超負荷時,接收總調(diào)度器分發(fā)的總調(diào)度任務進行相應處理,使得網(wǎng)絡資源更加快速地進入搜索引擎。
[0066]實施例四
[0067]本發(fā)明實施例還提供一種用于網(wǎng)絡資源處理的調(diào)度系統(tǒng),圖4是示出根據(jù)本發(fā)明實施例四的用于網(wǎng)絡資源處理的調(diào)度系統(tǒng)的結構示意圖。
[0068]參照圖4,用于網(wǎng)絡資源處理的調(diào)度系統(tǒng)包括:總調(diào)度器410和分別與總調(diào)度器通信連接的至少一個如前述實施例的子調(diào)度器420,總調(diào)度器410接收超過設定調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息,并根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務,分別發(fā)送給對應的子調(diào)度器420。在實際應用中,與總調(diào)度器通信的是16個子調(diào)度器,由總調(diào)度器對這16個子調(diào)度器進行控制和管理。
[0069]本發(fā)明實施例的用于網(wǎng)絡資源處理的調(diào)度系統(tǒng),在網(wǎng)絡資源的地址信息的數(shù)量超過設定調(diào)度閾值時,子調(diào)度器發(fā)送超過調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息給總調(diào)度器,使其重新分配調(diào)度任務,總調(diào)度器根據(jù)接收的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務,分別發(fā)送給對應的子調(diào)度器。實現(xiàn)了僅在網(wǎng)絡資源處理量超負荷時,請求總調(diào)度器重新分配調(diào)度任務,從而降低了總調(diào)度器的負載,使得網(wǎng)絡資源更加快速地進入搜索引擎。
[0070]需要指出,根據(jù)實施的需要,可將本申請中描述的各個部件/步驟拆分為更多部件/步驟,也可將兩個或多個部件/步驟或者部件/步驟的部分操作組合成新的部件/步驟,以實現(xiàn)本發(fā)明的目的。
[0071]上述根據(jù)本發(fā)明的方法可在硬件、固件中實現(xiàn),或者被實現(xiàn)為可存儲在記錄介質(zhì)(諸如CD R0M、RAM、軟盤、硬盤或磁光盤)中的軟件或計算機代碼,或者被實現(xiàn)通過網(wǎng)絡下載的原始存儲在遠程記錄介質(zhì)或非暫時機器可讀介質(zhì)中并將被存儲在本地記錄介質(zhì)中的計算機代碼,從而在此描述的方法可被存儲在使用通用計算機、專用處理器或者可編程或專用硬件(諸如ASIC或FPGA)的記錄介質(zhì)上的這樣的軟件處理??梢岳斫猓嬎銠C、處理器、微處理器控制器或可編程硬件包括可存儲或接收軟件或計算機代碼的存儲組件(例如,RAM、ROM、閃存等),當所述軟件或計算機代碼被計算機、處理器或硬件訪問且執(zhí)行時,實現(xiàn)在此描述的處理方法。此外,當通用計算機訪問用于實現(xiàn)在此示出的處理的代碼時,代碼的執(zhí)行將通用計算機轉換為用于執(zhí)行在此示出的處理的專用計算機。
[0072]以上所述,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi),可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應以所述權利要求的保護范圍為準。
【主權項】
1.一種用于網(wǎng)絡資源處理的調(diào)度方法,其特征在于,所述方法包括: 第一子調(diào)度器從至少一個網(wǎng)絡爬蟲設備獲取網(wǎng)絡資源的地址信息; 當所述第一子調(diào)度器的網(wǎng)絡資源的地址信息的數(shù)量超過設定的調(diào)度閾值時,所述第一子調(diào)度器將超過所述調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息發(fā)送給總調(diào)度器,以使所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務; 與第一子調(diào)度器不同的第二子調(diào)度器接收所述總調(diào)度器分發(fā)的所述總調(diào)度任務; 所述第二子調(diào)度器根據(jù)總調(diào)度任務和未超過所述調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務; 所述第二子調(diào)度器發(fā)送所述子調(diào)度任務給對應的網(wǎng)絡爬蟲設備。2.根據(jù)權利要求1所述的方法,其特征在于,所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務的處理包括: 所述總調(diào)度器獲取其他子調(diào)度器當前處理網(wǎng)絡資源的地址信息的數(shù)量和對應的調(diào)度閾值; 根據(jù)其他子調(diào)度器的每一個的調(diào)度閾值和當前處理網(wǎng)絡資源的地址信息的數(shù)量的差值,生成至少一個總調(diào)度任務,所述至少一個總調(diào)度任務用于指定對應的第二子調(diào)度器處理所述超出部分的網(wǎng)絡資源的地址信息。3.根據(jù)權利要求1所述的方法,其特征在于,所述方法還包括: 所述第一子調(diào)度器發(fā)送所述網(wǎng)絡資源的地址信息給子去重器,以使所述子去重器判斷所述網(wǎng)絡資源的地址信息與所述子去重器本地存儲的網(wǎng)絡資源的地址信息是否一致,如果一致,則不再對判斷一致的網(wǎng)絡資源的地址信息進行后續(xù)的處理。4.根據(jù)權利要求3所述的方法,其特征在于,所述方法還包括: 如果不一致,則所述子去重器將判斷不一致的網(wǎng)絡資源的地址信息發(fā)送給總去重器,以使所述總去重器判斷所述網(wǎng)絡資源的地址信息與所述總去重器本地存儲的網(wǎng)絡資源的地址信息是否一致; 如果不一致,則所述第一子調(diào)度器接收所述總去重器發(fā)送的判斷不一致的網(wǎng)絡資源的地址信息。5.—種用于網(wǎng)絡資源處理的調(diào)度設備,其特征在于,所述調(diào)度設備包括: 地址信息獲取模塊,用于第一子調(diào)度器從至少一個網(wǎng)絡爬蟲設備獲取網(wǎng)絡資源的地址信息; 地址信息發(fā)送模塊,用于當所述第一子調(diào)度器的網(wǎng)絡資源的地址信息的數(shù)量超過設定的調(diào)度閾值時,所述第一子調(diào)度器將超過所述調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息發(fā)送給總調(diào)度器,以使所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務; 調(diào)度任務接收模塊,用于與第一子調(diào)度器不同的第二子調(diào)度器接收所述總調(diào)度器分發(fā)的所述總調(diào)度任務; 調(diào)度任務生成模塊,用于所述第二子調(diào)度器根據(jù)總調(diào)度任務和未超過所述調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務; 調(diào)度任務發(fā)送模塊,用于所述第二子調(diào)度器發(fā)送所述子調(diào)度任務給對應的網(wǎng)絡爬蟲設備。6.根據(jù)權利要求5所述的調(diào)度設備,其特征在于,所述地址信息發(fā)送模塊具體用于所述總調(diào)度器獲取其他子調(diào)度器當前處理網(wǎng)絡資源的地址信息的數(shù)量和對應的調(diào)度閾值;根據(jù)其他子調(diào)度器的每一個的調(diào)度閾值和當前處理網(wǎng)絡資源的地址信息的數(shù)量的差值,生成至少一個總調(diào)度任務,所述至少一個總調(diào)度任務用于指定對應的第二子調(diào)度器處理所述超出部分的網(wǎng)絡資源的地址信息。7.根據(jù)權利要求5所述的調(diào)度設備,其特征在于,所述地址信息發(fā)送模塊還用于所述第一子調(diào)度器發(fā)送所述網(wǎng)絡資源的地址信息給子去重器,以使所述子去重器判斷所述網(wǎng)絡資源的地址信息與所述子去重器本地存儲的網(wǎng)絡資源的地址信息是否一致,如果一致,則不再對判斷一致的網(wǎng)絡資源的地址信息進行后續(xù)的處理。8.根據(jù)權利要求7所述的調(diào)度設備,其特征在于,所述地址信息發(fā)送模塊還用于如果不一致,則所述子去重器將判斷不一致的網(wǎng)絡資源的地址信息發(fā)送給總去重器,以使所述總去重器判斷所述網(wǎng)絡資源的地址信息與所述總去重器本地存儲的網(wǎng)絡資源的地址信息是否一致; 所述調(diào)度設備還包括:地址信息接收模塊,用于如果不一致,則所述第一子調(diào)度器接收所述總去重器發(fā)送的判斷不一致的網(wǎng)絡資源的地址信息。9.一種子調(diào)度器,其特征在于,所述子調(diào)度器包括: 信息獲取模塊,用于從至少一個網(wǎng)絡爬蟲設備獲取網(wǎng)絡資源的地址信息; 信息發(fā)送模塊,用于當本地的網(wǎng)絡資源的地址信息的數(shù)量超過設定的調(diào)度閾值時,將超過所述調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息發(fā)送給總調(diào)度器,以使所述總調(diào)度器根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務; 任務接收模塊,用于當本地的網(wǎng)絡資源的地址信息的數(shù)量未超過設定的調(diào)度閾值時,接收所述總調(diào)度器分發(fā)的所述總調(diào)度任務; 任務生成模塊,用于根據(jù)所述總調(diào)度任務對應的網(wǎng)絡資源的地址信息和未超過設定的調(diào)度閾值的網(wǎng)絡資源的地址信息生成子調(diào)度任務; 任務發(fā)送模塊,用于發(fā)送所述子調(diào)度任務給對應的網(wǎng)絡爬蟲設備。10.—種用于網(wǎng)絡資源處理的調(diào)度系統(tǒng),其特征在于,所述調(diào)度系統(tǒng)包括總調(diào)度器和分別與所述總調(diào)度器通信連接的至少一個如權利要求9所述的子調(diào)度器,所述總調(diào)度器接收超過設定調(diào)度閾值的超出部分的網(wǎng)絡資源的地址信息,并根據(jù)接收的超出部分的網(wǎng)絡資源的地址信息生成至少一個總調(diào)度任務,分別發(fā)送給對應的子調(diào)度器。
【文檔編號】H04L29/08GK105897841SQ201510921205
【公開日】2016年8月24日
【申請日】2015年12月11日
【發(fā)明人】高強
【申請人】樂視網(wǎng)信息技術(北京)股份有限公司