亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種實現(xiàn)并行計算的方法及系統(tǒng)的制作方法

文檔序號:6331264閱讀:109來源:國知局
專利名稱:一種實現(xiàn)并行計算的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及云計算領(lǐng)域,特別是指一種實現(xiàn)并行計算的系統(tǒng)及方法。
背景技術(shù)
MapReduce由Google的工程師最先提出,是一種能夠并行處理海量數(shù)據(jù)的系統(tǒng)架構(gòu),MapReduce系統(tǒng)的工作原理為自動將一個任務(wù)分解成多個子任務(wù),然后并行執(zhí)行這些子任務(wù),當(dāng)所有子任務(wù)執(zhí)行完畢后,將處理結(jié)果匯總。圖1為現(xiàn)有的MapReduce系統(tǒng)的架構(gòu)示意圖,從圖1中可以看出,MapReduce將數(shù)據(jù)處理分為兩個階段映射(Map)階段和化簡(Reduce)階段。MapReduce系統(tǒng)主要包括客戶端(Client)、宿主(Master)節(jié)點及工人(Worker)節(jié)點;其中,客戶端用于提交 MapReduce任務(wù),Master節(jié)點用于自動將MapReduce任務(wù)分解為Map任務(wù)和Reduce任務(wù), 之后將這些任務(wù)調(diào)度到Worker節(jié)點上執(zhí)行,Worker節(jié)點用于在收到Master發(fā)來的Map或 Reduce任務(wù)請求后,執(zhí)行請求中的任務(wù)。MapReduce系統(tǒng)能自動實現(xiàn)并行處理、分布數(shù)據(jù)、 容錯、及均衡負(fù)載等功能?,F(xiàn)有的MapReduce系統(tǒng)中,當(dāng)某個Worker節(jié)點在執(zhí)行任務(wù)的過程中發(fā)生故障時, Master節(jié)點將該故障Worker節(jié)點負(fù)責(zé)的任務(wù),重新分配給其他Worker節(jié)點,其他Worker 節(jié)點收到任務(wù)后,將該任務(wù)從頭開始重新執(zhí)行一遍。當(dāng)Master節(jié)點在整個任務(wù)的執(zhí)行過程中發(fā)生故障時,則需要將整個任務(wù)從頭開始全部重新執(zhí)行一遍,如此,降低數(shù)據(jù)處理效率, 進而影響用戶體驗。

發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種實現(xiàn)并行計算的方法及系統(tǒng),能在節(jié)點發(fā)生故障時,從故障發(fā)生時刻的斷點處繼續(xù)執(zhí)行任務(wù)。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的本發(fā)明提供了一種實現(xiàn)并行計算的方法,該方法包括整體任務(wù)啟動后,記錄執(zhí)行任務(wù)的Worker節(jié)點和Master節(jié)點的日志信息;當(dāng)執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障時,新的Worker節(jié)點獲取記錄的故障Worker 節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Worker節(jié)點的業(yè)務(wù)流程;和/或,當(dāng)執(zhí)行任務(wù)的Master節(jié)點出現(xiàn)故障時,新的Master節(jié)點啟動后,獲取記錄的故障Master節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障 Master節(jié)點的業(yè)務(wù)流程。上述方案中,所述新的Worker節(jié)點獲取故障Worker節(jié)點的日志信息,為Master節(jié)點向所述新的Worker節(jié)點發(fā)送執(zhí)行任務(wù)的信息;所述新的Worker節(jié)點收到信息后,向全局信息監(jiān)控功能實體發(fā)送查詢請求信息;全局信息監(jiān)控功能實體收到查詢請求信息后,根據(jù)查詢請求信息查找自身保存的故障Worker節(jié)點的日志信息,并向所述新的Worker節(jié)點返回故障Worker節(jié)點的日志信肩、ο上述方案中,所述新的Master節(jié)點獲取故障Master節(jié)點的日志信息,為所述新的Master節(jié)點向全局信息監(jiān)控功能實體發(fā)送查詢請求信息;全局信息監(jiān)控功能實體收到查詢請求信息后,根據(jù)查詢請求信息查找自身保存的故障Master節(jié)點的日志信息,并向所述新的Master節(jié)點返回故障Master節(jié)點的日志信肩、ο上述方案中,在記錄Master節(jié)點和Worker節(jié)點的日志信息之前,該方法進一步包括User Program通過調(diào)用客戶端程序庫啟動整體任務(wù)后,選擇一個節(jié)點作為Master 節(jié)點,之后向Master節(jié)點發(fā)送需要處理的輸入數(shù)據(jù)源;Master節(jié)點收到需要處理的輸入數(shù)據(jù)源后,將輸入數(shù)據(jù)源進行分割處理;Master選擇執(zhí)行任務(wù)的Worker節(jié)點,并向每個執(zhí)行任務(wù)的Worker節(jié)點分配需要執(zhí)行的任務(wù);執(zhí)行任務(wù)的Worker節(jié)點讀取分割后的數(shù)據(jù)塊,執(zhí)行分配的任務(wù)。上述方案中,所述記錄執(zhí)行任務(wù)的Worker節(jié)點和Master節(jié)點的日志信息,為整體任務(wù)啟動后,執(zhí)行任務(wù)的Worker節(jié)點和Master節(jié)點將自身的日志信息實時上傳給全局信息監(jiān)控功能實體;全局信息監(jiān)控功能實體保存執(zhí)行任務(wù)的Worker節(jié)點和Master節(jié)點的日志信息。上述方案中,在全局信息監(jiān)控功能實體保存執(zhí)行任務(wù)的Worker節(jié)點和Master節(jié)點的日志信息之前,該方法進一步包括全局信息監(jiān)控功能實體收到Worker節(jié)點上傳的日志信息后,判斷Worker節(jié)點的日志信息中攜帶的節(jié)點的身份標(biāo)識信息與保存的Worker節(jié)點的身份標(biāo)識信息是否一致, 確定一致,則保存Worker節(jié)點的日志信息,確定不一致,則丟棄Worker節(jié)點的日志信息。本發(fā)明還提供了一種獲取日志信息的方法,該方法包括整體任務(wù)啟動后,實時保存執(zhí)行任務(wù)的Master節(jié)點和Worker節(jié)點的日志信息;當(dāng)執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障,且在收到新的Worker節(jié)點發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找保存的故障Worker節(jié)點的日志信息,并向所述新的Worker 節(jié)點返回故障Worker節(jié)點的日志信息;和/或,當(dāng)執(zhí)行任務(wù)的Master節(jié)點出現(xiàn)故障且在收到新的Master節(jié)點發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找保存的故障Master節(jié)點的日志信息,并向所述新的Master節(jié)點返回故障Master節(jié)點的日志信息。上述方案中,在實時保存執(zhí)行任務(wù)的Master節(jié)點和Worker節(jié)點的日志信息之前, 該方法進一步包括 判斷Worker節(jié)點的日志信息中攜帶的節(jié)點的身份標(biāo)識信息與保存的Worker節(jié)點的身份標(biāo)識信息是否一致,確定一致,則保存Worker節(jié)點的日志信息,確定不一致,則丟棄 Worker節(jié)點的日志信息。本發(fā)明還提供了一種獲取日志信息的全局信息監(jiān)控實體,該全局信息監(jiān)控實體包括存儲模塊及查詢模塊;其中,存儲模塊,用于整體任務(wù)啟動后,實時保存執(zhí)行任務(wù)的Master節(jié)點和Worker節(jié)點上傳的日志信息;
查詢模塊,用于當(dāng)執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障且在收到新的Worker節(jié)點發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找存儲模塊保存的故障Worker節(jié)點的日志信息,并向所述新的Worker節(jié)點返回故障Worker節(jié)點的日志信息;和/或,當(dāng)執(zhí)行任務(wù)的 Master節(jié)點出現(xiàn)故障且在收到新的Master節(jié)點發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找存儲模塊保存的故障Master節(jié)點的日志信息,并向所述新的Master節(jié)點返回故障 Master節(jié)點的日志信息。上述方案中,該全局信息監(jiān)控實體進一步包括判斷模塊,用于Worker節(jié)點上傳日志信息時,判斷Worker節(jié)點的日志信息中攜帶的該節(jié)點的身份標(biāo)識信息與保存的 Worker節(jié)點的身份標(biāo)識信息是否一致,確定一致時,保存該Worker節(jié)點的日志信息,否則, 丟棄該Worker節(jié)點的日志信息。上述方案中,所述存儲模塊,還用于保存Worker節(jié)點的身份標(biāo)識信息。本發(fā)明還提供了一種實現(xiàn)并行計算的系統(tǒng),該系統(tǒng)包括全局信息監(jiān)控功能實體、 第一 Worker節(jié)點、及第一 Master節(jié)點;其中,全局信息監(jiān)控功能實體,用于整體任務(wù)啟動后,記錄執(zhí)行任務(wù)的Worker節(jié)點和 Master節(jié)點的日志信息;第一 Worker節(jié)點,用于當(dāng)執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障時,從全局信息監(jiān)控功能實體獲取故障Worker節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Worker節(jié)點的業(yè)務(wù)流程;和/或,第一 Master節(jié)點,用于當(dāng)執(zhí)行任務(wù)的Master節(jié)點出現(xiàn)故障時,在自身啟動后,從全局信息監(jiān)控功能實體獲取故障Master節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Master節(jié)點的業(yè)務(wù)流程。上述方案中,該系統(tǒng)進一步包括User Program單元、第二 Master節(jié)點及第二 Worker節(jié)點;其中,User Program單元,用于通過調(diào)用客戶端程序庫啟動整體任務(wù)后,選擇一個節(jié)點作為Master節(jié)點,之后向第二 Master節(jié)點發(fā)送需要處理的輸入數(shù)據(jù)源;第二 Master節(jié)點,用于在收到her Program單元發(fā)送的需要處理的輸入數(shù)據(jù)源后,將輸入數(shù)據(jù)源進行分割處理,之后選擇執(zhí)行任務(wù)的Worker節(jié)點,并向每個執(zhí)行任務(wù)的 Worker節(jié)點分配需要執(zhí)行的任務(wù);第二 Worker節(jié)點,用于在收到第二 Master節(jié)點分配的任務(wù)后,執(zhí)行分配的任務(wù)。上述方案中,所述第二 Master節(jié)點,還用于當(dāng)?shù)诙?Worker節(jié)點出現(xiàn)故障時,向第一 Worker節(jié)點發(fā)送執(zhí)行任務(wù)的信息;所述第一 Worker節(jié)點,具體用于在收到第二 Master節(jié)點發(fā)送的信息后,向全局信息監(jiān)控功能實體發(fā)送查詢請求信息,并接收全局信息監(jiān)控功能實體返回的第二 Worker 節(jié)點的日志信息;所述全局信息監(jiān)控功能實體,還用于在收到第一 Worker節(jié)點發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找自身保存的第二 Worker節(jié)點的日志信息,并向第一 Worker節(jié)點返回第二 Worker節(jié)點的日志信息。上述方案中,所述第一 Master節(jié)點,具體用于當(dāng)?shù)诙?Master節(jié)點出現(xiàn)故障時, 向全局信息監(jiān)控功能實體發(fā)送查詢請求信息,并接收全局信息監(jiān)控功能實體返回的第二Master節(jié)點的日志信息;所述全局信息監(jiān)控功能實體,還用于在收到第一 Master節(jié)點發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找自身保存的第二 Master節(jié)點的日志信息,并向第一 Master節(jié)點返回第二 Master節(jié)點的日志信息。上述方案中,所述第二 Worker節(jié)點,還用于在整體任務(wù)啟動后,將自身的日志信息實時上傳給全局信息監(jiān)控功能實體;所述第二 Master節(jié)點,還用于在整體任務(wù)啟動后,將自身的日志信息實時上傳給全局信息監(jiān)控功能實體;全局信息監(jiān)控功能實體,還用于保存第二 Worker節(jié)點和第二 Master節(jié)點的日志 fn息ο上述方案中,所述全局信息監(jiān)控功能實體,還用于在保存第二 Worker節(jié)點和第二 Master節(jié)點的日志信息之前,判斷第二 Worker節(jié)點的日志信息中攜帶的節(jié)點的身份標(biāo)識信息與保存的Worker節(jié)點的身份標(biāo)識信息是否一致,確定一致,則保存第二 Worker節(jié)點的日志信息,確定不一致,則丟棄第二 Worker節(jié)點的日志信息。本發(fā)明提供的實現(xiàn)并行計算的方法及系統(tǒng),新的Worker節(jié)點獲取記錄的故障 Worker節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Worker節(jié)點的業(yè)務(wù)流程;和/或,新的Master獲取記錄的故障Master節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Master節(jié)點的業(yè)務(wù)流程,如此,能在節(jié)點發(fā)生故障時,從故障發(fā)生時刻的斷點處繼續(xù)執(zhí)行任務(wù),進而提高數(shù)據(jù)的處理效率,節(jié)省系統(tǒng)資源, 提升用戶體驗。


圖1為現(xiàn)有的MapReduce系統(tǒng)的架構(gòu)示意圖;圖2為本發(fā)明實現(xiàn)并行計算的方法流程示意圖;圖3為記錄Master節(jié)點和Worker節(jié)點的日志信息之前的方法流程示意圖;圖4為本發(fā)明實現(xiàn)并行計算的系統(tǒng)結(jié)構(gòu)示意圖。
具體實施例方式下面結(jié)合附圖及具體實施例對本發(fā)明再作進一步詳細(xì)的說明。本發(fā)明實現(xiàn)并行計算的方法,如圖2所示,包括以下步驟步驟201 整體任務(wù)啟動后,記錄執(zhí)行任務(wù)的Worker節(jié)點和Master節(jié)點的日志信息;這里,在記錄Master節(jié)點和Worker節(jié)點的日志信息之前,如圖3所示,該方法還可以進一步包括以下步驟步驟301 =User Program通過調(diào)用客戶端程序庫啟動整體任務(wù)后,選擇一個節(jié)點作為Master節(jié)點,之后向Master節(jié)點發(fā)送需要處理的輸入數(shù)據(jù)源。步驟302 =Master節(jié)點收到需要處理的輸入數(shù)據(jù)源后,將輸入數(shù)據(jù)源進行分割處理,之后執(zhí)行步驟303 ;這里,Master節(jié)點可以調(diào)用her Program中的分割函數(shù),將輸入數(shù)據(jù)源進行分割處理;User Program可以事先將調(diào)用程序參數(shù)告訴Master節(jié)點,或者,可以事先將調(diào)用函數(shù)通過消息的方式發(fā)送給Master節(jié)點。步驟303 =Master節(jié)點選擇執(zhí)行任務(wù)的Worker節(jié)點,并向每個執(zhí)行任務(wù)的Worker 節(jié)點分配需要執(zhí)行的任務(wù)。步驟304 執(zhí)行任務(wù)的Worker節(jié)點讀取分割后的數(shù)據(jù)塊,執(zhí)行分配的任務(wù);其中,步驟301 304與現(xiàn)有的處理過程完全相同,這里不再贅述;所述日志信息包括節(jié)點運行的狀態(tài)信息及業(yè)務(wù)處理流程的狀態(tài)和關(guān)鍵數(shù)據(jù);其中,所述節(jié)點運行的狀態(tài)信息,可以是網(wǎng)絡(luò)狀況、CPU、內(nèi)存、磁盤空間、Map任務(wù)或Reduce 任務(wù)的執(zhí)行狀態(tài)等;所述業(yè)務(wù)處理流程的狀態(tài)和關(guān)鍵數(shù)據(jù)與處理的具體的業(yè)務(wù)流程相關(guān), 舉個例子來說,對于一個使用MapReduce并行向10萬個手機用戶發(fā)送天氣預(yù)報的短信息的業(yè)務(wù)流程,則所述業(yè)務(wù)處理流程的狀態(tài)和關(guān)鍵數(shù)據(jù)包含手機用戶的電話號碼信息;在實際應(yīng)用時,可以在MapReduce系統(tǒng)中增設(shè)一個全局信息監(jiān)控功能實體,由全局信息監(jiān)控功能實體記錄Master節(jié)點和Worker節(jié)點的日志信息,并且預(yù)先在MapReduce 系統(tǒng)中的所有節(jié)點上配置全局信息監(jiān)控功能實體的身份標(biāo)識信息,所述全局信息監(jiān)控功能實體的身份標(biāo)識信息可以是網(wǎng)絡(luò)之間互聯(lián)的協(xié)議(IP)地址、身份標(biāo)識號碼(ID)等一切能表明全局信息監(jiān)控功能實體身份的信息;MapReduce系統(tǒng)中的所有節(jié)點可以根據(jù)所述全局信息監(jiān)控功能實體的身份標(biāo)識信息,上傳自身的日志信息到全局信息監(jiān)控功能實體;整體任務(wù)啟動后,Master節(jié)點和Worker節(jié)點將自身的日志信息實時上傳給全局信息監(jiān)控功能實體;為了保證整個日志記錄過程可靠,當(dāng)整體任務(wù)啟動后,Master節(jié)點將整體任務(wù)分配給哪些Worker節(jié)點執(zhí)行,并將這些Worker節(jié)點的身份標(biāo)識信息發(fā)送給全局信息監(jiān)控功能實體,全局信息監(jiān)控功能實體接收并保存Worker節(jié)點的身份標(biāo)識信息,如果有Worker節(jié)點上傳日志信息時,全局信息監(jiān)控功能實體根據(jù)保存的Worker節(jié)點的身份標(biāo)識信息判斷是否保存該Worker節(jié)點的日志信息,具體地,當(dāng)Worker節(jié)點的日志信息中攜帶的該節(jié)點的身份標(biāo)識信息與保存的Worker節(jié)點的身份標(biāo)識信息一致時,則保存該Worker節(jié)點的日志信息,否則,丟棄該Worker節(jié)點的日志信息;所述Worker節(jié)點的身份標(biāo)識信息是指能標(biāo)識 Worker節(jié)點身份的信息,比如IP地址、機器名稱、或ID等;所述全局信息監(jiān)控功能實體的具體形式可以是日志數(shù)據(jù)庫,還可以是由一個或多個節(jié)點組成的集合體;所述Worker節(jié)點是指執(zhí)行該任務(wù)的所有Worker節(jié)點的集合。步驟202 當(dāng)執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障時,新的Worker節(jié)點獲取記錄的故障Worker節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Worker 節(jié)點的業(yè)務(wù)流程;和/或,當(dāng)執(zhí)行任務(wù)的Master節(jié)點出現(xiàn)故障時,新的Master節(jié)點啟動后, 獲取記錄的故障Master節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Master節(jié)點的業(yè)務(wù)流程;這里,Master節(jié)點通過自身與Worker節(jié)點之間的心跳檢測,可以知道執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障;在執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障后,Master節(jié)點可以依據(jù) MapReduce系統(tǒng)中其它節(jié)點的負(fù)載情況,即現(xiàn)有MapReduce系統(tǒng)中的自動負(fù)載均衡的處理,選出一個節(jié)點作為新的Worker節(jié)點;所述新的Worker節(jié)點可以是正在執(zhí)行該任務(wù)的健康的Worker節(jié)點,還可以是沒有執(zhí)行該任務(wù)的健康的Worker節(jié)點;在任務(wù)啟動后,MapReduce系統(tǒng)的her Program會啟動一個定時器,在定時器超時后,還沒有收到Master節(jié)點返回的任務(wù)執(zhí)行結(jié)果,就認(rèn)為該Master節(jié)點出現(xiàn)故障,需要選擇一個新的節(jié)點作為Master節(jié)點,在選擇時,可以依據(jù)Maplteduce系統(tǒng)中其它節(jié)點的負(fù)載情況,即現(xiàn)有MapReduce系統(tǒng)中的自動負(fù)載均衡的處理,選出一個節(jié)點作為新的Master 節(jié)點;所述新的Master節(jié)點可以是執(zhí)行該任務(wù)的Master節(jié)點,還可以是沒有執(zhí)行該任務(wù)的其它Master節(jié)點;所述新的Worker節(jié)點獲取故障Worker節(jié)點的日志信息,具體為Master節(jié)點向所述新的Worker節(jié)點發(fā)送執(zhí)行任務(wù)的信息;所述新的Worker節(jié)點收到信息后,向全局信息監(jiān)控功能實體發(fā)送查詢請求信息;全局信息監(jiān)控功能實體收到查詢請求信息后,根據(jù)查詢請求信息查找自身保存的故障Worker節(jié)點的日志信息,并向所述新的Worker節(jié)點返回故障Worker節(jié)點的日志信息;其中,所述執(zhí)行任務(wù)的信息包含任務(wù)數(shù)據(jù)源、任務(wù)ID、故障Worker節(jié)點的身份標(biāo)識信息等;所述查詢請求信息包含任務(wù)ID、故障Worker的節(jié)點身份標(biāo)識信息等,所述故障 Worker的節(jié)點身份標(biāo)識信息可以是IP地址、機器名稱、ID等一切能標(biāo)識故障Worker節(jié)點身份的信息;所述新的Master節(jié)點獲取故障Master節(jié)點的日志信息,具體為所述新的Master節(jié)點向全局信息監(jiān)控功能實體發(fā)送查詢請求信息;全局信息監(jiān)控功能實體收到查詢請求信息后,根據(jù)查詢請求信息查找自身保存的故障Master節(jié)點的日志信息,并向所述新的Master節(jié)點返回故障Master節(jié)點的日志信息;其中,所述查詢請求信息包含故障Master節(jié)點的身份標(biāo)識信息或任務(wù)ID信息等能識別出故障Master節(jié)點日志記錄的信息;所述故障Master節(jié)點的身份標(biāo)識信息可以是 IP地址、機器名稱、ID等一切能標(biāo)識故障Master節(jié)點身份的信息。每個Worker節(jié)點的任務(wù)執(zhí)行完畢時,會調(diào)用外部接口將自身的日志信息上傳到全局信息監(jiān)控功能實體,同時通知Master節(jié)點,自身負(fù)責(zé)的任務(wù)已經(jīng)處理完畢;Master節(jié)點收到通知后,將自身的Worker節(jié)點的任務(wù)標(biāo)記成已完成。當(dāng)收到所有Worker節(jié)點發(fā)送的已經(jīng)處理完成的通知后,Master節(jié)點結(jié)束整體任務(wù)。為實現(xiàn)上述方法,本發(fā)明還提供了一種獲取日志信息的全局信息監(jiān)控實體,該全局信息監(jiān)控實體包括存儲模塊及查詢模塊;其中,存儲模塊,用于整體任務(wù)啟動后,實時保存執(zhí)行任務(wù)的Master節(jié)點和Worker節(jié)點上傳的日志信息;查詢模塊,用于當(dāng)執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障且在收到新的Worker節(jié)點發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找存儲模塊保存的故障Worker節(jié)點的日志信息,并向所述新的Worker節(jié)點返回故障Worker節(jié)點的日志信息;和/或,當(dāng)執(zhí)行任務(wù)的 Master節(jié)點出現(xiàn)故障且在收到新的Master節(jié)點發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找存儲模塊保存的故障Master節(jié)點的日志信息,并向所述新的Master節(jié)點返回故障Master節(jié)點的日志信息。其中,該全局信息監(jiān)控實體還可以進一步包括判斷模塊,用于Worker節(jié)點上傳日志信息時,判斷Worker節(jié)點的日志信息中攜帶的該節(jié)點的身份標(biāo)識信息與保存的Worker 節(jié)點的身份標(biāo)識信息是否一致,確定一致時,保存該Worker節(jié)點的日志信息,否則,丟棄該 Worker節(jié)點的日志信息。所述存儲模塊,還用于保存Worker節(jié)點的身份標(biāo)識信息。同時,本發(fā)明又提供了一種實現(xiàn)并行計算的系統(tǒng),如圖4所示,該系統(tǒng)包括全局信息監(jiān)控功能實體41、第一 Worker節(jié)點42、及第一 Master節(jié)點43 ;其中,全局信息監(jiān)控功能實體41,用于整體任務(wù)啟動后,記錄執(zhí)行任務(wù)的Worker節(jié)點和 Master節(jié)點的日志信息;第一Worker節(jié)點42,用于當(dāng)執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障時,從全局信息監(jiān)控功能實體41獲取故障Worker節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Worker節(jié)點的業(yè)務(wù)流程;和/或,第一 Master節(jié)點43,用于當(dāng)執(zhí)行任務(wù)的Master節(jié)點出現(xiàn)故障時,在自身啟動后, 從全局信息監(jiān)控功能實體41獲取故障Master節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Master節(jié)點的業(yè)務(wù)流程。這里,需要說明的是第一 Worker節(jié)點42可以是正在執(zhí)行該任務(wù)的健康的 Worker節(jié)點,還可以是沒有執(zhí)行該任務(wù)的健康的Worker節(jié)點;第一 Master節(jié)點43可以是執(zhí)行該任務(wù)的Master節(jié)點,還可以是沒有執(zhí)行該任務(wù)的其它Master節(jié)點。其中,該系統(tǒng)還可以進一步包括her Program單元、第二 Master節(jié)點及第二 Worker節(jié)點;其中,User Program單元,用于通過調(diào)用客戶端程序庫啟動整體任務(wù)后,選擇一個節(jié)點作為Master節(jié)點,之后向第二 Master節(jié)點發(fā)送需要處理的輸入數(shù)據(jù)源;第二 Master節(jié)點,用于在收到her Program單元發(fā)送的需要處理的輸入數(shù)據(jù)源后,將輸入數(shù)據(jù)源進行分割處理,之后選擇執(zhí)行任務(wù)的Worker節(jié)點,并向每個執(zhí)行任務(wù)的 Worker節(jié)點分配需要執(zhí)行的任務(wù);第二 Worker節(jié)點,用于在收到第二 Master節(jié)點分配的任務(wù)后,執(zhí)行分配的任務(wù)。這里,需要說明的是第二Worker節(jié)點可以是一個以上執(zhí)行任務(wù)的Worker節(jié)點的
皇A
朱口 ο其中,所述第二 Master節(jié)點,還用于當(dāng)?shù)诙?Worker節(jié)點出現(xiàn)故障時,向第一 Worker節(jié)點42發(fā)送執(zhí)行任務(wù)的信息;所述第一 Worker節(jié)點,具體用于在收到第二 Master節(jié)點發(fā)送的信息后,向全局信息監(jiān)控功能實體41發(fā)送查詢請求信息,并接收全局信息監(jiān)控功能實體41返回的第二 Worker節(jié)點的日志信息;所述全局信息監(jiān)控功能實體41,還用于在收到第一 Worker節(jié)點42發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找自身保存的第二 Worker節(jié)點的日志信息,并向第一 Worker節(jié)點41返回第二 Worker節(jié)點的日志信息。其中,所述第一 Master節(jié)點42,具體用于當(dāng)?shù)诙?Master節(jié)點出現(xiàn)故障時,向全局信息監(jiān)控功能實體41發(fā)送查詢請求信息,并接收全局信息監(jiān)控功能實體41返回的第二Master節(jié)點的日志信息;所述全局信息監(jiān)控功能實體41,還用于在收到第一 Master節(jié)點43發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找自身保存的第二 Master節(jié)點的日志信息,并向第一 Master節(jié)點43返回第二 Master節(jié)點的日志信息。所述第二 Worker節(jié)點,還用于在整體任務(wù)啟動后,將自身的日志信息實時上傳給全局信息監(jiān)控功能實體41 ;所述第二 Master節(jié)點,還用于在整體任務(wù)啟動后,將自身的日志信息實時上傳給全局信息監(jiān)控功能實體41 ;全局信息監(jiān)控功能實體41,還用于保存第二 Worker節(jié)點和第二 Master節(jié)點的日志fn息ο其中,所述全局信息監(jiān)控功能實體41,還用于在保存第二 Worker節(jié)點和第二 Master節(jié)點的日志信息之前,判斷第二 Worker節(jié)點的日志信息中攜帶的節(jié)點的身份標(biāo)識信息與保存的Worker節(jié)點的身份標(biāo)識信息是否一致,確定一致,則保存第二 Worker節(jié)點的日志信息,確定不一致,則丟棄第二 Worker節(jié)點的日志信息。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種實現(xiàn)并行計算的方法,其特征在于,該方法包括整體任務(wù)啟動后,記錄執(zhí)行任務(wù)的工人(Worker)節(jié)點和宿主(Master)節(jié)點的日志信息;當(dāng)執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障時,新的Worker節(jié)點獲取記錄的故障Worker節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Worker節(jié)點的業(yè)務(wù)流程;和/或,當(dāng)執(zhí)行任務(wù)的Master節(jié)點出現(xiàn)故障時,新的Master節(jié)點啟動后,獲取記錄的故障Master節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Master 節(jié)點的業(yè)務(wù)流程。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述新的Worker節(jié)點獲取故障Worker節(jié)點的日志信息,為Master節(jié)點向所述新的Worker節(jié)點發(fā)送執(zhí)行任務(wù)的信息;所述新的Worker節(jié)點收到信息后,向全局信息監(jiān)控功能實體發(fā)送查詢請求信息;全局信息監(jiān)控功能實體收到查詢請求信息后,根據(jù)查詢請求信息查找自身保存的故障 Worker節(jié)點的日志信息,并向所述新的Worker節(jié)點返回故障Worker節(jié)點的日志信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述新的Master節(jié)點獲取故障Master節(jié)點的日志信息,為所述新的Master節(jié)點向全局信息監(jiān)控功能實體發(fā)送查詢請求信息;全局信息監(jiān)控功能實體收到查詢請求信息后,根據(jù)查詢請求信息查找自身保存的故障 Master節(jié)點的日志信息,并向所述新的Master節(jié)點返回故障Master節(jié)點的日志信息。
4.根據(jù)權(quán)利要求1、2或3所述的方法,其特征在于,在記錄Master節(jié)點和Worker節(jié)點的日志信息之前,該方法進一步包括User Program通過調(diào)用客戶端程序庫啟動整體任務(wù)后,選擇一個節(jié)點作為Master節(jié)點,之后向Master節(jié)點發(fā)送需要處理的輸入數(shù)據(jù)源;Master節(jié)點收到需要處理的輸入數(shù)據(jù)源后,將輸入數(shù)據(jù)源進行分割處理;Master選擇執(zhí)行任務(wù)的Worker節(jié)點,并向每個執(zhí)行任務(wù)的Worker節(jié)點分配需要執(zhí)行的任務(wù);執(zhí)行任務(wù)的Worker節(jié)點讀取分割后的數(shù)據(jù)塊,執(zhí)行分配的任務(wù)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述記錄執(zhí)行任務(wù)的Worker節(jié)點和 Master節(jié)點的日志信息,為 整體任務(wù)啟動后,執(zhí)行任務(wù)的Worker節(jié)點和Master節(jié)點將自身的日志信息實時上傳給全局信息監(jiān)控功能實體;全局信息監(jiān)控功能實體保存執(zhí)行任務(wù)的Worker節(jié)點和Master節(jié)點的日志信息。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在全局信息監(jiān)控功能實體保存執(zhí)行任務(wù)的Worker節(jié)點和Master節(jié)點的日志信息之前,該方法進一步包括全局信息監(jiān)控功能實體收到Worker節(jié)點上傳的日志信息后,判斷Worker節(jié)點的日志信息中攜帶的節(jié)點的身份標(biāo)識信息與保存的Worker節(jié)點的身份標(biāo)識信息是否一致,確定一致,則保存Worker節(jié)點的日志信息,確定不一致,則丟棄Worker節(jié)點的日志信息。
7.一種獲取日志信息的方法,其特征在于,該方法包括整體任務(wù)啟動后,實時保存執(zhí)行任務(wù)的Master節(jié)點和Worker節(jié)點的日志信息;當(dāng)執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障,且在收到新的Worker節(jié)點發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找保存的故障Worker節(jié)點的日志信息,并向所述新的Worker節(jié)點返回故障Worker節(jié)點的日志信息;和/或,當(dāng)執(zhí)行任務(wù)的Master節(jié)點出現(xiàn)故障且在收到新的Master節(jié)點發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找保存的故障Master節(jié)點的日志信息,并向所述新的Master節(jié)點返回故障Master節(jié)點的日志信息。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,在實時保存執(zhí)行任務(wù)的Master節(jié)點和 Worker節(jié)點的日志信息之前,該方法進一步包括判斷Worker節(jié)點的日志信息中攜帶的節(jié)點的身份標(biāo)識信息與保存的Worker節(jié)點的身份標(biāo)識信息是否一致,確定一致,則保存Worker節(jié)點的日志信息,確定不一致,則丟棄 Worker節(jié)點的日志信息。
9.一種獲取日志信息的全局信息監(jiān)控實體,其特征在于,該全局信息監(jiān)控實體包括 存儲模塊及查詢模塊;其中,存儲模塊,用于整體任務(wù)啟動后,實時保存執(zhí)行任務(wù)的Master節(jié)點和Worker節(jié)點上傳的日志信息;查詢模塊,用于當(dāng)執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障且在收到新的Worker節(jié)點發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找存儲模塊保存的故障Worker節(jié)點的日志信息,并向所述新的Worker節(jié)點返回故障Worker節(jié)點的日志信息;和/或,當(dāng)執(zhí)行任務(wù)的Master 節(jié)點出現(xiàn)故障且在收到新的Master節(jié)點發(fā)送的查詢請求信息后,根據(jù)查詢請求信息查找存儲模塊保存的故障Master節(jié)點的日志信息,并向所述新的Master節(jié)點返回故障Master 節(jié)點的日志信息。
10.根據(jù)權(quán)利要求9所述的全局信息監(jiān)控實體,其特征在于,該全局信息監(jiān)控實體進一步包括判斷模塊,用于Worker節(jié)點上傳日志信息時,判斷Worker節(jié)點的日志信息中攜帶的該節(jié)點的身份標(biāo)識信息與保存的Worker節(jié)點的身份標(biāo)識信息是否一致,確定一致時,保存該Worker節(jié)點的日志信息,否則,丟棄該Worker節(jié)點的日志信息。
11.根據(jù)權(quán)利要求9或10所述的全局信息監(jiān)控實體,其特征在于,所述存儲模塊,還用于保存Worker節(jié)點的身份標(biāo)識信息。
12.一種實現(xiàn)并行計算的系統(tǒng),其特征在于,該系統(tǒng)包括全局信息監(jiān)控功能實體、第一 Worker節(jié)點、及第一 Master節(jié)點;其中,全局信息監(jiān)控功能實體,用于整體任務(wù)啟動后,記錄執(zhí)行任務(wù)的Worker節(jié)點和Master 節(jié)點的日志信息;第一 Worker節(jié)點,用于當(dāng)執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障時,從全局信息監(jiān)控功能實體獲取故障Worker節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Worker節(jié)點的業(yè)務(wù)流程;和/或,第一 Master節(jié)點,用于當(dāng)執(zhí)行任務(wù)的Master節(jié)點出現(xiàn)故障時,在自身啟動后,從全局信息監(jiān)控功能實體獲取故障Master節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Master節(jié)點的業(yè)務(wù)流程。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,該系統(tǒng)進一步包括mserProgram單元、 第二 Master節(jié)點及第二 Worker節(jié)點;其中,User Program單元,用于通過調(diào)用客戶端程序庫啟動整體任務(wù)后,選擇一個節(jié)點作為Master節(jié)點,之后向第二 Master節(jié)點發(fā)送需要處理的輸入數(shù)據(jù)源;第二 Master節(jié)點,用于在收到her Program單元發(fā)送的需要處理的輸入數(shù)據(jù)源后,將輸入數(shù)據(jù)源進行分割處理,之后選擇執(zhí)行任務(wù)的Worker節(jié)點,并向每個執(zhí)行任務(wù)的Worker 節(jié)點分配需要執(zhí)行的任務(wù);第二 Worker節(jié)點,用于在收到第二 Master節(jié)點分配的任務(wù)后,執(zhí)行分配的任務(wù)。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述第二 Master節(jié)點,還用于當(dāng)?shù)诙?Worker節(jié)點出現(xiàn)故障時,向第一 Worker節(jié)點發(fā)送執(zhí)行任務(wù)的信息;所述第一 Worker節(jié)點,具體用于在收到第二 Master節(jié)點發(fā)送的信息后,向全局信息監(jiān)控功能實體發(fā)送查詢請求信息,并接收全局信息監(jiān)控功能實體返回的第二 Worker節(jié)點的日志信息;所述全局信息監(jiān)控功能實體,還用于在收到第一 Worker節(jié)點發(fā)送的查詢請求信息后, 根據(jù)查詢請求信息查找自身保存的第二 Worker節(jié)點的日志信息,并向第一 Worker節(jié)點返回第二 Worker節(jié)點的日志信息。
15.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述第一 Master節(jié)點,具體用于當(dāng)?shù)诙?Master節(jié)點出現(xiàn)故障時,向全局信息監(jiān)控功能實體發(fā)送查詢請求信息,并接收全局信息監(jiān)控功能實體返回的第二 Master節(jié)點的日志 fn息;所述全局信息監(jiān)控功能實體,還用于在收到第一 Master節(jié)點發(fā)送的查詢請求信息后, 根據(jù)查詢請求信息查找自身保存的第二 Master節(jié)點的日志信息,并向第一 Master節(jié)點返回第二 Master節(jié)點的日志信息。
16.根據(jù)權(quán)利要求13、14或15所述的系統(tǒng),其特征在于,所述第二 Worker節(jié)點,還用于在整體任務(wù)啟動后,將自身的日志信息實時上傳給全局信息監(jiān)控功能實體;所述第二 Master節(jié)點,還用于在整體任務(wù)啟動后,將自身的日志信息實時上傳給全局信息監(jiān)控功能實體;全局信息監(jiān)控功能實體,還用于保存第二 Worker節(jié)點和第二 Master節(jié)點的日志信息。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述全局信息監(jiān)控功能實體,還用于在保存第二 Worker節(jié)點和第二 Master節(jié)點的日志信息之前,判斷第二 Worker節(jié)點的日志信息中攜帶的節(jié)點的身份標(biāo)識信息與保存的 Worker節(jié)點的身份標(biāo)識信息是否一致,確定一致,則保存第二 Worker節(jié)點的日志信息,確定不一致,則丟棄第二 Worker節(jié)點的日志信息。
全文摘要
本發(fā)明公開了一種實現(xiàn)并行計算的方法,該方法包括整體任務(wù)啟動后,記錄執(zhí)行任務(wù)的工人(Worker)節(jié)點和宿主(Master)節(jié)點的日志信息;當(dāng)執(zhí)行任務(wù)的Worker節(jié)點出現(xiàn)故障時,新的Worker節(jié)點獲取記錄的故障Worker節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Worker節(jié)點的業(yè)務(wù)流程;和/或,當(dāng)執(zhí)行任務(wù)的Master節(jié)點出現(xiàn)故障時,新的Master節(jié)點啟動后,獲取記錄的故障Master節(jié)點的日志信息,并根據(jù)日志信息從故障發(fā)生時的斷點處繼續(xù)處理故障Master節(jié)點的業(yè)務(wù)流程。本發(fā)明同時公開了一種實現(xiàn)并行計算的系統(tǒng),采用本發(fā)明的方法及系統(tǒng),能在節(jié)點發(fā)生故障時,從故障發(fā)生時刻的斷點處繼續(xù)執(zhí)行任務(wù)。
文檔編號G06F11/30GK102385536SQ20101026933
公開日2012年3月21日 申請日期2010年8月27日 優(yōu)先權(quán)日2010年8月27日
發(fā)明者周揚, 張藝夕, 李桂萍, 胡媛, 黃翔 申請人:中興通訊股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1