專利名稱:計(jì)算節(jié)點(diǎn)的定位方法、系統(tǒng)及管理節(jié)點(diǎn)的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種計(jì)算節(jié)點(diǎn)的定位方法、系統(tǒng)及管理節(jié)
點(diǎn)O
背景技術(shù):
并行計(jì)算指通過多個(gè)具有計(jì)算能力的設(shè)備共同完成一項(xiàng)計(jì)算任務(wù),以提高任務(wù)的處理效率。在并行計(jì)算系統(tǒng)中,每個(gè)設(shè)備也稱為一個(gè)計(jì)算節(jié)點(diǎn),當(dāng)系統(tǒng)中的計(jì)算節(jié)點(diǎn)數(shù)量達(dá)到萬(wàn)數(shù)量級(jí)時(shí),該系統(tǒng)稱為超大規(guī)模并行計(jì)算系統(tǒng),相應(yīng)的,運(yùn)行在若干設(shè)備上的程序稱為超大規(guī)模并行程序。在超大規(guī)模并行計(jì)算系統(tǒng)中,程序通常被劃分為多個(gè)進(jìn)程,這些進(jìn)程運(yùn)行在不同的計(jì)算節(jié)點(diǎn)上,協(xié)同完成一項(xiàng)計(jì)算任務(wù)。在超大規(guī)模并行計(jì)算系統(tǒng)中,由于各個(gè)計(jì)算節(jié)點(diǎn)之間是協(xié)同運(yùn)行的,因此任何一個(gè)計(jì)算節(jié)點(diǎn)上發(fā)生異常,都將導(dǎo)致程序的運(yùn)行異常, 甚至使得計(jì)算節(jié)點(diǎn)發(fā)生宕機(jī)?,F(xiàn)有技術(shù)中,一旦某個(gè)計(jì)算節(jié)點(diǎn)發(fā)生錯(cuò)誤,該計(jì)算節(jié)點(diǎn)的操作系統(tǒng)(例如,Linux)會(huì)記錄錯(cuò)誤日志,并將錯(cuò)誤信息輸出打印,由系統(tǒng)管理者逐一檢查所有計(jì)算節(jié)點(diǎn)的錯(cuò)誤信息,以便對(duì)出錯(cuò)的計(jì)算節(jié)點(diǎn)進(jìn)行定位。發(fā)明人在對(duì)現(xiàn)有技術(shù)的研究過程中發(fā)現(xiàn),由于每個(gè)計(jì)算節(jié)點(diǎn)操作系統(tǒng)所記錄的錯(cuò)誤信息種類較多,并且某個(gè)計(jì)算節(jié)點(diǎn)上的一個(gè)錯(cuò)誤可能引起該計(jì)算節(jié)點(diǎn),甚至其它計(jì)算節(jié)點(diǎn)上產(chǎn)生多條錯(cuò)誤信息,而采用人為分析錯(cuò)誤信息,并定位錯(cuò)誤計(jì)算節(jié)點(diǎn)的方式的定位效率低下,且耗費(fèi)大量人力;并且,由于錯(cuò)誤信息保存在操作系統(tǒng)的臨時(shí)存儲(chǔ)區(qū),新的其他系統(tǒng)信息將覆蓋所記錄的錯(cuò)誤信息,特別當(dāng)操作系統(tǒng)故障時(shí),管理員將無(wú)法獲取到錯(cuò)誤信息, 從而導(dǎo)致無(wú)法對(duì)故障的計(jì)算節(jié)點(diǎn)進(jìn)行定位。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例的目的在于提供一種計(jì)算節(jié)點(diǎn)的定位方法及系統(tǒng),以解決現(xiàn)有技術(shù)中定位錯(cuò)誤節(jié)點(diǎn)效率不高,且耗費(fèi)人力的問題。為解決上述技術(shù)問題,本申請(qǐng)實(shí)施例提供如下技術(shù)方案一種計(jì)算節(jié)點(diǎn)的定位方法,應(yīng)用在包含管理節(jié)點(diǎn)和若干計(jì)算節(jié)點(diǎn)的并行計(jì)算系統(tǒng)中,所述方法包括所述管理節(jié)點(diǎn)監(jiān)測(cè)在所述系統(tǒng)中執(zhí)行的并行作業(yè);當(dāng)監(jiān)測(cè)到異常并行作業(yè)時(shí),確定執(zhí)行所述異常并行作業(yè)的并行計(jì)算節(jié)點(diǎn);獲取所述并行計(jì)算節(jié)點(diǎn)的錯(cuò)誤信息;根據(jù)預(yù)先設(shè)置的錯(cuò)誤優(yōu)先級(jí)的排序信息對(duì)所述錯(cuò)誤信息進(jìn)行過濾,并根據(jù)過濾的結(jié)果定位到相應(yīng)的計(jì)算節(jié)點(diǎn)。還包括保存預(yù)先設(shè)置的計(jì)算節(jié)點(diǎn)中所發(fā)生錯(cuò)誤的錯(cuò)誤優(yōu)先級(jí)的排序信息,所述錯(cuò)誤優(yōu)先級(jí)的排序信息包括錯(cuò)誤類型信息和對(duì)應(yīng)的優(yōu)先級(jí)設(shè)置信息。所述獲取并行計(jì)算節(jié)點(diǎn)的錯(cuò)誤信息包括掃描執(zhí)行所述并行作業(yè)的并行計(jì)算節(jié)點(diǎn);
按照預(yù)先定義的錯(cuò)誤信息記錄結(jié)構(gòu)從所掃描的并行計(jì)算節(jié)點(diǎn)上讀取錯(cuò)誤信息并保存。所述根據(jù)預(yù)先設(shè)置的錯(cuò)誤優(yōu)先級(jí)的排序信息對(duì)所述錯(cuò)誤信息進(jìn)行過濾包括通過查找所述錯(cuò)誤優(yōu)先級(jí)的排序信息,將每個(gè)并行計(jì)算節(jié)點(diǎn)中優(yōu)先級(jí)最高的錯(cuò)誤信息作為所述并行計(jì)算節(jié)點(diǎn)的過濾錯(cuò)誤信息;比較每個(gè)并行計(jì)算節(jié)點(diǎn)的過濾錯(cuò)誤信息的優(yōu)先級(jí)排序;根據(jù)比較的結(jié)果篩選出優(yōu)先級(jí)排序最高的過濾錯(cuò)誤信息所在的計(jì)算節(jié)點(diǎn)。還包括所述若干計(jì)算節(jié)點(diǎn)實(shí)時(shí)捕獲本地發(fā)生的錯(cuò)誤;將所捕獲的每一個(gè)錯(cuò)誤的錯(cuò)誤信息記錄到預(yù)先設(shè)置的內(nèi)存區(qū)域中。一種計(jì)算節(jié)點(diǎn)的定位系統(tǒng),所述系統(tǒng)為并行計(jì)算系統(tǒng),包括管理節(jié)點(diǎn)和若干計(jì)算節(jié)點(diǎn),所述若干計(jì)算節(jié)點(diǎn),用于執(zhí)行并行作業(yè);所述管理節(jié)點(diǎn),用于當(dāng)監(jiān)測(cè)到異常并行作業(yè)時(shí),確定執(zhí)行所述異常并行作業(yè)的并行計(jì)算節(jié)點(diǎn),獲取所述并行計(jì)算節(jié)點(diǎn)的錯(cuò)誤信息,根據(jù)預(yù)先設(shè)置的錯(cuò)誤優(yōu)先級(jí)的排序信息對(duì)所述錯(cuò)誤信息進(jìn)行過濾,并根據(jù)過濾的結(jié)果定位到相應(yīng)的計(jì)算節(jié)點(diǎn)。所述管理節(jié)點(diǎn),還用于保存預(yù)先設(shè)置的計(jì)算節(jié)點(diǎn)中所發(fā)生錯(cuò)誤的錯(cuò)誤優(yōu)先級(jí)的排序信息,所述錯(cuò)誤優(yōu)先級(jí)的排序信息包括錯(cuò)誤類型信息和對(duì)應(yīng)的優(yōu)先級(jí)設(shè)置信息。所述計(jì)算節(jié)點(diǎn),還用于實(shí)時(shí)捕獲本地發(fā)生的錯(cuò)誤,并將所捕獲的每一個(gè)錯(cuò)誤的錯(cuò)誤信息記錄到預(yù)先設(shè)置的內(nèi)存區(qū)域中?!N管理節(jié)點(diǎn),應(yīng)用在包含若干計(jì)算節(jié)點(diǎn)的并行計(jì)算系統(tǒng)中,包括監(jiān)測(cè)單元,用于監(jiān)測(cè)在所述系統(tǒng)中執(zhí)行的并行作業(yè);確定單元,用于當(dāng)監(jiān)測(cè)到異常并行作業(yè)時(shí),確定執(zhí)行所述異常并行作業(yè)的并行計(jì)算節(jié)點(diǎn);獲取單元,用于獲取所述并行計(jì)算節(jié)點(diǎn)的錯(cuò)誤信息;過濾單元,用于根據(jù)預(yù)先設(shè)置的錯(cuò)誤優(yōu)先級(jí)的排序信息對(duì)所述錯(cuò)誤信息進(jìn)行過濾;定位單元,用于根據(jù)過濾的結(jié)果定位到相應(yīng)的計(jì)算節(jié)點(diǎn)。還包括保存單元,用于保存預(yù)先設(shè)置的計(jì)算節(jié)點(diǎn)中所發(fā)生錯(cuò)誤的錯(cuò)誤優(yōu)先級(jí)的排序信息,所述錯(cuò)誤優(yōu)先級(jí)的排序信息包括錯(cuò)誤類型信息和對(duì)應(yīng)的優(yōu)先級(jí)設(shè)置信息。所述獲取單元包括掃描單元,用于掃描執(zhí)行所述并行作業(yè)的并行計(jì)算節(jié)點(diǎn);讀取單元,用于按照預(yù)先定義的錯(cuò)誤信息記錄結(jié)構(gòu)從所掃描的并行計(jì)算節(jié)點(diǎn)上讀取錯(cuò)誤信息并保存。所述過濾單元包括查找單元,用于通過查找所述錯(cuò)誤優(yōu)先級(jí)的排序信息,將每個(gè)并行計(jì)算節(jié)點(diǎn)中優(yōu)先級(jí)最高的錯(cuò)誤信息作為所述并行計(jì)算節(jié)點(diǎn)的過濾錯(cuò)誤信息;比較單元,用于比較每個(gè)并行計(jì)算節(jié)點(diǎn)的過濾錯(cuò)誤信息的優(yōu)先級(jí)排序;
5
篩選單元,用于根據(jù)比較的結(jié)果篩選出優(yōu)先級(jí)排序最高的過濾錯(cuò)誤信息所在的計(jì)算節(jié)點(diǎn)。由以上本申請(qǐng)實(shí)施例提供的技術(shù)方案可見,本申請(qǐng)實(shí)施例應(yīng)用在包含管理節(jié)點(diǎn)和若干計(jì)算節(jié)點(diǎn)的并行計(jì)算系統(tǒng)中,當(dāng)管理節(jié)點(diǎn)監(jiān)測(cè)到異常并行作業(yè)時(shí),確定執(zhí)行該異常并行作業(yè)的并行計(jì)算節(jié)點(diǎn),獲取并行計(jì)算節(jié)點(diǎn)的錯(cuò)誤信息,根據(jù)預(yù)先設(shè)置的錯(cuò)誤優(yōu)先級(jí)的排序信息對(duì)錯(cuò)誤信息進(jìn)行過濾,并根據(jù)過濾的結(jié)果定位到相應(yīng)的計(jì)算節(jié)點(diǎn)。本申請(qǐng)實(shí)施例中通過對(duì)海量的錯(cuò)誤信息按照優(yōu)先級(jí)排序進(jìn)行過濾,無(wú)需人為分析錯(cuò)誤信息,因此可以快速定位到發(fā)生錯(cuò)誤的根源計(jì)算節(jié)點(diǎn),提高了計(jì)算節(jié)點(diǎn)的定位效率;并且,由于各個(gè)計(jì)算節(jié)點(diǎn)可以將錯(cuò)誤信息保存到內(nèi)存的特定區(qū)域,因此所記錄的精確錯(cuò)誤信息不會(huì)因?yàn)椴僮飨到y(tǒng)故障而消失,保證了計(jì)算節(jié)點(diǎn)定位的準(zhǔn)確性。
為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本申請(qǐng)計(jì)算節(jié)點(diǎn)的定位方法的第一實(shí)施例流程圖;圖2為本申請(qǐng)計(jì)算節(jié)點(diǎn)的定位方法的第二實(shí)施例流程圖;圖3為應(yīng)用本申請(qǐng)實(shí)施例進(jìn)行計(jì)算節(jié)點(diǎn)定位的系統(tǒng)架構(gòu)示意圖;圖4為本申請(qǐng)計(jì)算節(jié)點(diǎn)的定位系統(tǒng)的實(shí)施例框圖;圖5為本申請(qǐng)管理節(jié)點(diǎn)的第一實(shí)施例框圖;圖6為本申請(qǐng)管理節(jié)點(diǎn)的第二實(shí)施例框圖。
具體實(shí)施例方式在如下本申請(qǐng)的多個(gè)實(shí)施例中,有些實(shí)施例提供了一種計(jì)算節(jié)點(diǎn)的定位方法,有些實(shí)施例提供了一種計(jì)算節(jié)點(diǎn)的定位系統(tǒng)和管理節(jié)點(diǎn)。本申請(qǐng)實(shí)施例中的并行計(jì)算系統(tǒng)中包含管理節(jié)點(diǎn)和若干計(jì)算節(jié)點(diǎn)。為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)實(shí)施例中的技術(shù)方案,并使本申請(qǐng)實(shí)施例的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖對(duì)本申請(qǐng)實(shí)施例中技術(shù)方案作進(jìn)一步詳細(xì)的說明。參見圖1,為本申請(qǐng)計(jì)算節(jié)點(diǎn)的定位方法的第一實(shí)施例流程圖步驟101 管理節(jié)點(diǎn)監(jiān)測(cè)系統(tǒng)中執(zhí)行的并行作業(yè)。步驟102 當(dāng)監(jiān)測(cè)到異常并行作業(yè)時(shí),確定執(zhí)行該異常并行作業(yè)的并行計(jì)算節(jié)點(diǎn)。系統(tǒng)中的若干計(jì)算節(jié)點(diǎn)實(shí)時(shí)捕獲本地發(fā)生的錯(cuò)誤,將所捕獲的每一個(gè)錯(cuò)誤的錯(cuò)誤信息記錄到預(yù)先設(shè)置的內(nèi)存區(qū)域中。步驟103 獲取并行計(jì)算節(jié)點(diǎn)的錯(cuò)誤信息。具體的,掃描執(zhí)行所述并行作業(yè)的并行計(jì)算節(jié)點(diǎn),按照預(yù)先定義的錯(cuò)誤信息記錄結(jié)構(gòu)從所掃描的并行計(jì)算節(jié)點(diǎn)上讀取錯(cuò)誤信息并保存。步驟104 根據(jù)預(yù)先設(shè)置的錯(cuò)誤優(yōu)先級(jí)的排序信息對(duì)錯(cuò)誤信息進(jìn)行過濾,并根據(jù)
6過濾的結(jié)果定位到相應(yīng)的計(jì)算節(jié)點(diǎn)。具體的,通過查找所述錯(cuò)誤優(yōu)先級(jí)的排序信息,將每個(gè)并行計(jì)算節(jié)點(diǎn)中優(yōu)先級(jí)最高的錯(cuò)誤信息作為所述并行計(jì)算節(jié)點(diǎn)的過濾錯(cuò)誤信息,比較每個(gè)并行計(jì)算節(jié)點(diǎn)的過濾錯(cuò)誤信息的優(yōu)先級(jí)排序,根據(jù)比較的結(jié)果篩選出優(yōu)先級(jí)排序最高的過濾錯(cuò)誤信息所在的計(jì)算節(jié)
點(diǎn)ο本申請(qǐng)實(shí)施例可以應(yīng)用在包含上萬(wàn)個(gè)計(jì)算節(jié)點(diǎn)的超大規(guī)模并行計(jì)算系統(tǒng)中,通過對(duì)并行作業(yè)的錯(cuò)誤信息進(jìn)行精確記錄和自動(dòng)收集,并根據(jù)錯(cuò)誤的優(yōu)先級(jí)(嚴(yán)重程度)對(duì)錯(cuò)誤進(jìn)行過濾,從而快速定位到相應(yīng)的計(jì)算節(jié)點(diǎn)。參見圖2,為本申請(qǐng)計(jì)算節(jié)點(diǎn)的定位方法的第二實(shí)施例流程圖,該實(shí)施例詳細(xì)示出了對(duì)發(fā)生錯(cuò)誤的計(jì)算節(jié)點(diǎn)進(jìn)行精確定位的過程步驟201 保存預(yù)先設(shè)置的計(jì)算節(jié)點(diǎn)中所發(fā)生錯(cuò)誤的錯(cuò)誤優(yōu)先級(jí)的排序信息。本申請(qǐng)實(shí)施例中,預(yù)先對(duì)超大規(guī)模并行計(jì)算系統(tǒng)中的計(jì)算節(jié)點(diǎn)上可能出現(xiàn)的各種錯(cuò)誤進(jìn)行歸類,并按照錯(cuò)誤的嚴(yán)重程度對(duì)錯(cuò)誤類型進(jìn)行優(yōu)先級(jí)排序。其中,錯(cuò)誤優(yōu)先級(jí)的排序信息可以包括錯(cuò)誤類型的信息和對(duì)應(yīng)的優(yōu)先級(jí)的設(shè)置信息。具體的,可以按照錯(cuò)誤出現(xiàn)的位置對(duì)錯(cuò)誤進(jìn)行歸類,例如,應(yīng)用程序越界訪問和應(yīng)用程序非法指令等可以歸類為應(yīng)用程序錯(cuò)誤,操作系統(tǒng)數(shù)據(jù)流地址不對(duì)界可以歸類為操作系統(tǒng)錯(cuò)誤。對(duì)于歸類后的錯(cuò)誤類型,可以按照其對(duì)系統(tǒng)影響的嚴(yán)重程度進(jìn)行優(yōu)先級(jí)排序,例如,如果錯(cuò)誤A會(huì)導(dǎo)致錯(cuò)誤B,則當(dāng)錯(cuò)誤A和錯(cuò)誤B同時(shí)出現(xiàn)時(shí),只需要考慮錯(cuò)誤A,即錯(cuò)誤A 的優(yōu)先級(jí)大于錯(cuò)誤B的優(yōu)先級(jí)。按照上述排序規(guī)則,可以將超大規(guī)模并行計(jì)算系統(tǒng)中的計(jì)算節(jié)點(diǎn)上的錯(cuò)誤按照優(yōu)先級(jí)劃分為如下表1所示的錯(cuò)誤類型表 權(quán)利要求
1.一種計(jì)算節(jié)點(diǎn)的定位方法,其特征在于,應(yīng)用在包含管理節(jié)點(diǎn)和若干計(jì)算節(jié)點(diǎn)的并行計(jì)算系統(tǒng)中,所述方法包括所述管理節(jié)點(diǎn)監(jiān)測(cè)在所述系統(tǒng)中執(zhí)行的并行作業(yè); 當(dāng)監(jiān)測(cè)到異常并行作業(yè)時(shí),確定執(zhí)行所述異常并行作業(yè)的并行計(jì)算節(jié)點(diǎn); 獲取所述并行計(jì)算節(jié)點(diǎn)的錯(cuò)誤信息;根據(jù)預(yù)先設(shè)置的錯(cuò)誤優(yōu)先級(jí)的排序信息對(duì)所述錯(cuò)誤信息進(jìn)行過濾,并根據(jù)過濾的結(jié)果定位到相應(yīng)的計(jì)算節(jié)點(diǎn)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括保存預(yù)先設(shè)置的計(jì)算節(jié)點(diǎn)中所發(fā)生錯(cuò)誤的錯(cuò)誤優(yōu)先級(jí)的排序信息,所述錯(cuò)誤優(yōu)先級(jí)的排序信息包括錯(cuò)誤類型信息和對(duì)應(yīng)的優(yōu)先級(jí)設(shè)置信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取并行計(jì)算節(jié)點(diǎn)的錯(cuò)誤信息包括 掃描執(zhí)行所述并行作業(yè)的并行計(jì)算節(jié)點(diǎn);按照預(yù)先定義的錯(cuò)誤信息記錄結(jié)構(gòu)從所掃描的并行計(jì)算節(jié)點(diǎn)上讀取錯(cuò)誤信息并保存。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)先設(shè)置的錯(cuò)誤優(yōu)先級(jí)的排序信息對(duì)所述錯(cuò)誤信息進(jìn)行過濾包括通過查找所述錯(cuò)誤優(yōu)先級(jí)的排序信息,將每個(gè)并行計(jì)算節(jié)點(diǎn)中優(yōu)先級(jí)最高的錯(cuò)誤信息作為所述并行計(jì)算節(jié)點(diǎn)的過濾錯(cuò)誤信息;比較每個(gè)并行計(jì)算節(jié)點(diǎn)的過濾錯(cuò)誤信息的優(yōu)先級(jí)排序;根據(jù)比較的結(jié)果篩選出優(yōu)先級(jí)排序最高的過濾錯(cuò)誤信息所在的計(jì)算節(jié)點(diǎn)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括 所述若干計(jì)算節(jié)點(diǎn)實(shí)時(shí)捕獲本地發(fā)生的錯(cuò)誤;將所捕獲的每一個(gè)錯(cuò)誤的錯(cuò)誤信息記錄到預(yù)先設(shè)置的內(nèi)存區(qū)域中。
6.一種計(jì)算節(jié)點(diǎn)的定位系統(tǒng),其特征在于,所述系統(tǒng)為并行計(jì)算系統(tǒng),包括管理節(jié)點(diǎn)和若干計(jì)算節(jié)點(diǎn),所述若干計(jì)算節(jié)點(diǎn),用于執(zhí)行并行作業(yè);所述管理節(jié)點(diǎn),用于當(dāng)監(jiān)測(cè)到異常并行作業(yè)時(shí),確定執(zhí)行所述異常并行作業(yè)的并行計(jì)算節(jié)點(diǎn),獲取所述并行計(jì)算節(jié)點(diǎn)的錯(cuò)誤信息,根據(jù)預(yù)先設(shè)置的錯(cuò)誤優(yōu)先級(jí)的排序信息對(duì)所述錯(cuò)誤信息進(jìn)行過濾,并根據(jù)過濾的結(jié)果定位到相應(yīng)的計(jì)算節(jié)點(diǎn)。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述管理節(jié)點(diǎn),還用于保存預(yù)先設(shè)置的計(jì)算節(jié)點(diǎn)中所發(fā)生錯(cuò)誤的錯(cuò)誤優(yōu)先級(jí)的排序信息,所述錯(cuò)誤優(yōu)先級(jí)的排序信息包括錯(cuò)誤類型信息和對(duì)應(yīng)的優(yōu)先級(jí)設(shè)置信息。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述計(jì)算節(jié)點(diǎn),還用于實(shí)時(shí)捕獲本地發(fā)生的錯(cuò)誤,并將所捕獲的每一個(gè)錯(cuò)誤的錯(cuò)誤信息記錄到預(yù)先設(shè)置的內(nèi)存區(qū)域中。
9.一種管理節(jié)點(diǎn),其特征在于,應(yīng)用在包含若干計(jì)算節(jié)點(diǎn)的并行計(jì)算系統(tǒng)中,包括 監(jiān)測(cè)單元,用于監(jiān)測(cè)在所述系統(tǒng)中執(zhí)行的并行作業(yè);確定單元,用于當(dāng)監(jiān)測(cè)到異常并行作業(yè)時(shí),確定執(zhí)行所述異常并行作業(yè)的并行計(jì)算節(jié) 獲取單元,用于獲取所述并行計(jì)算節(jié)點(diǎn)的錯(cuò)誤信息;過濾單元,用于根據(jù)預(yù)先設(shè)置的錯(cuò)誤優(yōu)先級(jí)的排序信息對(duì)所述錯(cuò)誤信息進(jìn)行過濾;定位單元,用于根據(jù)過濾的結(jié)果定位到相應(yīng)的計(jì)算節(jié)點(diǎn)。
10.根據(jù)權(quán)利要求9所述的管理節(jié)點(diǎn),其特征在于,還包括保存單元,用于保存預(yù)先設(shè)置的計(jì)算節(jié)點(diǎn)中所發(fā)生錯(cuò)誤的錯(cuò)誤優(yōu)先級(jí)的排序信息,所述錯(cuò)誤優(yōu)先級(jí)的排序信息包括錯(cuò)誤類型信息和對(duì)應(yīng)的優(yōu)先級(jí)設(shè)置信息。
11.根據(jù)權(quán)利要求9所述的管理節(jié)點(diǎn),其特征在于,所述獲取單元包括 掃描單元,用于掃描執(zhí)行所述并行作業(yè)的并行計(jì)算節(jié)點(diǎn);讀取單元,用于按照預(yù)先定義的錯(cuò)誤信息記錄結(jié)構(gòu)從所掃描的并行計(jì)算節(jié)點(diǎn)上讀取錯(cuò)誤信息并保存。
12.根據(jù)權(quán)利要求9所述的管理節(jié)點(diǎn),其特征在于,所述過濾單元包括查找單元,用于通過查找所述錯(cuò)誤優(yōu)先級(jí)的排序信息,將每個(gè)并行計(jì)算節(jié)點(diǎn)中優(yōu)先級(jí)最高的錯(cuò)誤信息作為所述并行計(jì)算節(jié)點(diǎn)的過濾錯(cuò)誤信息;比較單元,用于比較每個(gè)并行計(jì)算節(jié)點(diǎn)的過濾錯(cuò)誤信息的優(yōu)先級(jí)排序; 篩選單元,用于根據(jù)比較的結(jié)果篩選出優(yōu)先級(jí)排序最高的過濾錯(cuò)誤信息所在的計(jì)算節(jié)
全文摘要
本申請(qǐng)實(shí)施例公開了一種計(jì)算節(jié)點(diǎn)的定位方法、系統(tǒng)及管理節(jié)點(diǎn),所述方法包括所述管理節(jié)點(diǎn)監(jiān)測(cè)在所述系統(tǒng)中執(zhí)行的并行作業(yè);當(dāng)監(jiān)測(cè)到異常并行作業(yè)時(shí),確定執(zhí)行所述異常并行作業(yè)的并行計(jì)算節(jié)點(diǎn);獲取所述并行計(jì)算節(jié)點(diǎn)的錯(cuò)誤信息;根據(jù)預(yù)先設(shè)置的錯(cuò)誤優(yōu)先級(jí)的排序信息對(duì)所述錯(cuò)誤信息進(jìn)行過濾,并根據(jù)過濾的結(jié)果定位到相應(yīng)的計(jì)算節(jié)點(diǎn)。本申請(qǐng)實(shí)施例中通過對(duì)海量的錯(cuò)誤信息按照優(yōu)先級(jí)排序進(jìn)行過濾,無(wú)需人為分析錯(cuò)誤信息,因此可以快速定位到發(fā)生錯(cuò)誤的根源計(jì)算節(jié)點(diǎn),提高了計(jì)算節(jié)點(diǎn)的定位效率;并且,由于各個(gè)計(jì)算節(jié)點(diǎn)可以將錯(cuò)誤信息保存到內(nèi)存的特定區(qū)域,因此所記錄的精確錯(cuò)誤信息不會(huì)因?yàn)椴僮飨到y(tǒng)故障而消失,保證了計(jì)算節(jié)點(diǎn)定位的準(zhǔn)確性。
文檔編號(hào)G06F11/34GK102446131SQ20101050913
公開日2012年5月9日 申請(qǐng)日期2010年10月14日 優(yōu)先權(quán)日2010年10月14日
發(fā)明者崔巍, 朱建濤, 沈金祥, 陳婓 申請(qǐng)人:無(wú)錫江南計(jì)算技術(shù)研究所