一種分布式計(jì)算機(jī)系統(tǒng)故障處理流程的制作方法
【專(zhuān)利摘要】本發(fā)明提供一種分布式計(jì)算機(jī)系統(tǒng)故障處理流程,主要用于對(duì)分布計(jì)算機(jī)系統(tǒng)的故障分級(jí)別進(jìn)行處理,不同級(jí)別不同故障類(lèi)型采取相應(yīng)處理措施,保證系統(tǒng)故障全面有效地處理,提高系統(tǒng)運(yùn)行可靠性。該分布式計(jì)算機(jī)系統(tǒng)故障處理流程包括:1]對(duì)分布式計(jì)算機(jī)系統(tǒng)的故障進(jìn)行分類(lèi);2]系統(tǒng)發(fā)生故障后由系統(tǒng)故障檢測(cè)機(jī)制進(jìn)行檢測(cè),過(guò)濾較小故障,處理其他故障,無(wú)法處理的故障則發(fā)送上級(jí)處理,嚴(yán)重故障人工處理。本發(fā)明分級(jí)別進(jìn)行故障處理,可以降低故障處理復(fù)雜度,保證各種故障能夠得到有效地處理,保證高優(yōu)先級(jí)的任務(wù)能夠可靠運(yùn)行。
【專(zhuān)利說(shuō)明】一種分布式計(jì)算機(jī)系統(tǒng)故障處理流程
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種分布式計(jì)算機(jī)系統(tǒng)故障處理流程,屬于嵌入式計(jì)算機(jī)系統(tǒng)設(shè)計(jì)【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]分布式計(jì)算機(jī)系統(tǒng)是采用統(tǒng)一標(biāo)準(zhǔn)模塊、統(tǒng)一數(shù)據(jù)通訊網(wǎng)絡(luò)、多層次的軟硬件結(jié)構(gòu),是一種十分復(fù)雜而可靠性要求很高的計(jì)算機(jī)系統(tǒng)。這種復(fù)雜計(jì)算機(jī)系統(tǒng)故障出現(xiàn)情況也是十分復(fù)雜,因此需要設(shè)計(jì)一種故障處理流程全面有效地處理各種各樣的故障,即使系統(tǒng)出現(xiàn)了故障也能保證系統(tǒng)任務(wù)可靠運(yùn)行或保證系統(tǒng)高優(yōu)先級(jí)任務(wù)運(yùn)行。
【發(fā)明內(nèi)容】
[0003]本發(fā)明提供一種分布式計(jì)算機(jī)系統(tǒng)故障處理流程,主要用于對(duì)分布計(jì)算機(jī)系統(tǒng)的故障分級(jí)別進(jìn)行處理,不同級(jí)別不同故障類(lèi)型采取相應(yīng)處理措施,保證系統(tǒng)故障全面有效地處理,提高系統(tǒng)運(yùn)行可靠性。
[0004]本發(fā)明的具體技術(shù)解決方案如下:
[0005]該分布式計(jì)算機(jī)系統(tǒng)故障處理流程包括以下步驟:
[0006]I]對(duì)分布式計(jì)算機(jī)系統(tǒng)的故障按照進(jìn)程級(jí)、分區(qū)級(jí)、模塊級(jí)、系統(tǒng)級(jí)四個(gè)層次級(jí)別進(jìn)行分類(lèi);
[0007]2]系統(tǒng)發(fā)生故障后由系統(tǒng)故障檢測(cè)機(jī)制進(jìn)行檢測(cè),將檢測(cè)到的故障報(bào)給操作系統(tǒng)的健康監(jiān)控HM服務(wù),健康監(jiān)控HM服務(wù)對(duì)故障進(jìn)行過(guò)濾,若是瞬時(shí)故障或影響很小的故障則忽略掉,否則把確認(rèn)了的故障交給故障管理FM進(jìn)行分類(lèi)別處理;本級(jí)別處理不了的故障上報(bào)上一級(jí)健康監(jiān)控HM服務(wù)處理,頂層故障交給系統(tǒng)配置管理CM進(jìn)行處理。
[0008]上述分類(lèi)別處理具體是:
[0009]2.1]進(jìn)程級(jí)故障處理:對(duì)分區(qū)內(nèi)的任務(wù)故障由分區(qū)內(nèi)的故障處理程序直接處理,以進(jìn)程為單位實(shí)現(xiàn)進(jìn)程的恢復(fù)、隔離或重構(gòu);
[0010]2.2]分區(qū)級(jí)故障處理:由健康管理監(jiān)控服務(wù)進(jìn)行處理,或報(bào)告給模塊級(jí)處理;
[0011]2.3]模塊級(jí)故障處理:由系統(tǒng)容錯(cuò)重構(gòu)機(jī)制處理,實(shí)現(xiàn)故障模塊的隔離;
[0012]2.4]系統(tǒng)級(jí)故障處理:由系統(tǒng)定義的容錯(cuò)重構(gòu)機(jī)制處理,重構(gòu)策略在藍(lán)圖中事先已定義好,根據(jù)影響范圍大小,非常嚴(yán)重故障由人工干預(yù);
[0013]上述步驟I中進(jìn)程級(jí)故障包括:軟截至期失敗、硬截止期失效、應(yīng)用錯(cuò)誤、數(shù)值錯(cuò)誤、非法請(qǐng)求、棧溢出、存儲(chǔ)器違規(guī)、APEX內(nèi)部錯(cuò)和PORT內(nèi)部錯(cuò)。
[0014]上述步驟I中分區(qū)級(jí)故障包括:分區(qū)溢出、分區(qū)模式設(shè)置錯(cuò)和系統(tǒng)時(shí)鐘丟失。
[0015]上述步驟I中模塊級(jí)故障包括:硬件故障、電源失敗和內(nèi)核錯(cuò)誤。
[0016]上述步驟I中系統(tǒng)級(jí)故障包括:配置錯(cuò)誤、初始化錯(cuò)、生命消息錯(cuò)誤、SMBP錯(cuò)、SMOS錯(cuò)和CM報(bào)告的遠(yuǎn)程模塊錯(cuò)誤。
[0017]本發(fā)明的優(yōu)點(diǎn)是:[0018]I)整個(gè)系統(tǒng)故障按照進(jìn)程級(jí)、分區(qū)級(jí)、模塊級(jí)、系統(tǒng)級(jí)四個(gè)層次級(jí)別進(jìn)行故障處理,可以降低故障處理復(fù)雜度;
[0019]2)本級(jí)健康監(jiān)控服務(wù)不能處理的故障則報(bào)上一級(jí)的健康監(jiān)控服務(wù)進(jìn)行處理,保證各種故障能夠得到有效地處理;
[0020]3)頂層不能處理故障,則依據(jù)系統(tǒng)配置進(jìn)行系統(tǒng)重構(gòu),保證高優(yōu)先級(jí)的任務(wù)能夠可靠運(yùn)行。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0021]圖1為本發(fā)明分布式計(jì)算機(jī)系統(tǒng)故障處理流程圖。
【具體實(shí)施方式】
[0022]本發(fā)明提供一種故障處理流程,按照進(jìn)程級(jí)、分區(qū)級(jí)、模塊級(jí)、系統(tǒng)級(jí)四個(gè)層次級(jí)別的故障分別進(jìn)行處理。各級(jí)故障被診斷確認(rèn)后由操作系統(tǒng)的健康監(jiān)控服務(wù)根據(jù)錯(cuò)誤代碼調(diào)相應(yīng)的錯(cuò)誤處理程序進(jìn)行處理。如果本級(jí)健康監(jiān)控服務(wù)不能處理的故障則報(bào)上一級(jí)的健康監(jiān)控服務(wù)進(jìn)行處理,到了系統(tǒng)層仍然不能處理的故障則根據(jù)系統(tǒng)配置進(jìn)行系統(tǒng)重構(gòu),對(duì)不能處理的故障進(jìn)行隔離,保證高優(yōu)先級(jí)的任務(wù)能夠可靠運(yùn)行。
[0023]如圖1所示,分布式計(jì)算機(jī)系統(tǒng)故障處理流程【具體實(shí)施方式】如下:
[0024]a.對(duì)分布式計(jì)算機(jī)系統(tǒng)各種各樣的故障進(jìn)行分類(lèi),按照進(jìn)程級(jí)、分區(qū)級(jí)、模塊級(jí)、系統(tǒng)級(jí)四個(gè)層次級(jí)別的設(shè)計(jì)故障處理程序,不同級(jí)別不同類(lèi)別故障處理措施表I ;
[0025]b.進(jìn)程級(jí)故障處理,對(duì)分區(qū)內(nèi)的任務(wù)故障,由分區(qū)內(nèi)的故障處理程序直接處理,以進(jìn)程為單位實(shí)現(xiàn)進(jìn)程的恢復(fù)、隔離或重構(gòu);
[0026]c.分區(qū)級(jí)故障處理,由健康管理監(jiān)控服務(wù)進(jìn)行處理,也可報(bào)告給模塊級(jí)處理;
[0027]d.模塊級(jí)故障處理,由系統(tǒng)容錯(cuò)重構(gòu)機(jī)制處理,可實(shí)現(xiàn)故障模塊的隔離;
[0028]e.系統(tǒng)級(jí)故障處理,是最頂級(jí)的故障處理,由系統(tǒng)定義的容錯(cuò)重構(gòu)機(jī)制處理,重構(gòu)策略在藍(lán)圖中事先已定義好,根據(jù)影響范圍大小,非常嚴(yán)重故障可以由飛行員干預(yù);
[0029]f.各級(jí)故障出現(xiàn)后,由系統(tǒng)故障檢測(cè)機(jī)制進(jìn)行檢測(cè),將檢測(cè)到的故障報(bào)給操作系統(tǒng)的健康監(jiān)控HM服務(wù),健康監(jiān)控HM服務(wù)對(duì)故障進(jìn)行過(guò)濾,如果是瞬時(shí)故障或影響很小的故障則忽略掉,否則把確認(rèn)了的故障交給故障管理FM進(jìn)行分類(lèi)別處理。本級(jí)別處理不了的故障上報(bào)上一級(jí)健康監(jiān)控HM服務(wù)處理,頂層故障交給系統(tǒng)配置管理CM進(jìn)行處理。
[0030]表I故障分級(jí)別分類(lèi)別處理措施
[0031]
【權(quán)利要求】
1.一種分布式計(jì)算機(jī)系統(tǒng)故障處理流程,其特征在于,包括以下步驟:1]對(duì)分布式計(jì)算機(jī)系統(tǒng)的故障按照進(jìn)程級(jí)、分區(qū)級(jí)、模塊級(jí)、系統(tǒng)級(jí)四個(gè)層次級(jí)別進(jìn)行分類(lèi);2]系統(tǒng)發(fā)生故障后由系統(tǒng)故障檢測(cè)機(jī)制進(jìn)行檢測(cè),將檢測(cè)到的故障報(bào)給操作系統(tǒng)的健康監(jiān)控HM服務(wù),健康監(jiān)控HM服務(wù)對(duì)故障進(jìn)行過(guò)濾,若是瞬時(shí)故障或影響較小的故障則直接忽略,否則把確認(rèn)后的故障交給故障管理FM進(jìn)行分類(lèi)別處理;本級(jí)別處理不了的故障上報(bào)上一級(jí)健康監(jiān)控HM服務(wù)處理,頂層故障交給系統(tǒng)配置管理CM進(jìn)行處理。
2.根據(jù)權(quán)利要求1所述的分布式計(jì)算機(jī)系統(tǒng)故障處理流程,其特征在于:所述步驟2中故障管理FM進(jìn)行分類(lèi)別處理具體是:2.1]進(jìn)程級(jí)故障處理:對(duì)分區(qū)內(nèi)的任務(wù)故障由分區(qū)內(nèi)的故障處理程序直接處理,以進(jìn)程為單位實(shí)現(xiàn)進(jìn)程的恢復(fù)、隔離或重構(gòu);2.2]分區(qū)級(jí)故障處理:由健康管理監(jiān)控服務(wù)進(jìn)行處理,或報(bào)告給模塊級(jí)處理;2.3]模塊級(jí)故障處理:由系統(tǒng)容錯(cuò)重構(gòu)機(jī)制處理,實(shí)現(xiàn)故障模塊的隔離;2.4]系統(tǒng)級(jí)故障處理:由系統(tǒng)定義的容錯(cuò)重構(gòu)機(jī)制處理,重構(gòu)策略在藍(lán)圖中事先已定義好,根據(jù)影響范圍大小,非常嚴(yán)重故障由人工干預(yù)。
3.根據(jù)權(quán)利要求1或2所述的分布式計(jì)算機(jī)系統(tǒng)故障處理流程,其特征在于:所述步驟I中進(jìn)程級(jí)故障包括:軟截至期失敗、硬截止期失效、應(yīng)用錯(cuò)誤、數(shù)值錯(cuò)誤、非法請(qǐng)求、棧溢出、存儲(chǔ)器違規(guī)、APEX內(nèi)部錯(cuò)和PORT內(nèi)部錯(cuò)。
4.根據(jù)權(quán)利要求1或2所述的分布式計(jì)算機(jī)系統(tǒng)故障處理流程,其特征在于:所述步驟I中分區(qū)級(jí)故障包括:分區(qū)溢出、分區(qū)模式設(shè)置錯(cuò)和系統(tǒng)時(shí)鐘丟失。
5.根據(jù)權(quán)利要求1或2所述的分布式計(jì)算機(jī)系統(tǒng)故障處理流程,其特征在于:所述步驟I中模塊級(jí)故障包括:硬件故障、電源失敗和內(nèi)核錯(cuò)誤。
6.根據(jù)權(quán)利要求1或2所述的分布式計(jì)算機(jī)系統(tǒng)故障處理流程,其特征在于:所述步驟I中系統(tǒng)級(jí)故障包括:配置錯(cuò)誤、初始化錯(cuò)、生命消息錯(cuò)誤、SMBP錯(cuò)、SMOS錯(cuò)和CM報(bào)告的遠(yuǎn)程模塊錯(cuò)誤。
【文檔編號(hào)】G06F11/07GK103605581SQ201310638727
【公開(kāi)日】2014年2月26日 申請(qǐng)日期:2013年11月29日 優(yōu)先權(quán)日:2013年11月29日
【發(fā)明者】李成文, 牛文生, 孫靖國(guó), 李鵬, 王明, 何小亞, 劉宇, 余松濤, 陳國(guó) , 湛文韜, 高楊, 楊濤 申請(qǐng)人:中國(guó)航空工業(yè)集團(tuán)公司第六三一研究所