本發(fā)明涉及地面核心信息控制設(shè)備的主控單元技術(shù)領(lǐng)域,具體涉及一種基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置。
背景技術(shù):
信息控制設(shè)備主控單元日常應(yīng)用中,完成了大量的數(shù)據(jù)監(jiān)管與信息應(yīng)用工作,直接關(guān)系著整個(gè)信息系統(tǒng)的工作性能。受信息安全等因素困擾,國(guó)產(chǎn)化處理器已經(jīng)成為了信息系統(tǒng)的優(yōu)先選擇,然而由于測(cè)試不足、技術(shù)薄弱等原因,基于國(guó)產(chǎn)處理器的計(jì)算機(jī)系統(tǒng)往往可靠性較低,缺乏備保措施,難以滿足實(shí)際使用需求。
現(xiàn)有國(guó)產(chǎn)化計(jì)算機(jī)系統(tǒng)往往具有以下幾項(xiàng)不足:
系統(tǒng)內(nèi)各臺(tái)主機(jī)間功能相互獨(dú)立,未形成系統(tǒng),即使通過(guò)傳統(tǒng)總線交互數(shù)據(jù),數(shù)量不足,價(jià)值有限,難以進(jìn)行更深層次的分析應(yīng)用,無(wú)法充分發(fā)揮計(jì)算機(jī)系統(tǒng)的性能特點(diǎn);
系統(tǒng)內(nèi)各臺(tái)主機(jī)的各個(gè)功能模塊間相互重疊,無(wú)法獨(dú)立完成所需功能,系統(tǒng)構(gòu)成靈活度不足,系統(tǒng)內(nèi)存在故障單點(diǎn)模式,嚴(yán)重影響系統(tǒng)工作可靠性;
系統(tǒng)內(nèi)各臺(tái)主機(jī)間缺乏必要的檢測(cè)和診斷機(jī)制,故障或者錯(cuò)誤,特別是程序跑飛現(xiàn)象難以有效隔離,無(wú)法保障整個(gè)系統(tǒng)對(duì)于故障的適應(yīng)性。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)上述現(xiàn)有技術(shù),本發(fā)明的目的在于提供一種基于國(guó)產(chǎn)龍芯處理器間互 連的計(jì)算機(jī)故障容錯(cuò)裝置,提高國(guó)產(chǎn)計(jì)算機(jī)系統(tǒng)的工作可靠性,充分發(fā)揮國(guó)產(chǎn)計(jì)算機(jī)系統(tǒng)的工作性能,有效隔離單機(jī)故障模式對(duì)系統(tǒng)影響,滿足信息系統(tǒng)工作需要。
為了達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案。
一種基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置,該裝置包括主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊;
主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊都包括:CPU單元、北/南橋單元、存儲(chǔ)單元、接口單元、供電單元;CPU單元包括龍芯3A多核處理器,主計(jì)算機(jī)系統(tǒng)模塊的CPU單元和從計(jì)算機(jī)系統(tǒng)模塊的CPU單元通過(guò)HT總線接口實(shí)現(xiàn)互連;存儲(chǔ)單元包括內(nèi)存、啟動(dòng)ROM和硬盤;
龍芯3A多核處理器集成2組獨(dú)立的HT總線接口,HT0總線接口和HT1總線接口,主計(jì)算機(jī)系統(tǒng)模塊CPU單元的龍芯3A多核處理器HT0總線接口與從計(jì)算機(jī)系統(tǒng)模塊CPU單元的龍芯3A多核處理器HT0總線接口連接,實(shí)現(xiàn)主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊的互連;HT1總線接口與北/南橋單元的HT總線接口相連接,龍芯3A多核處理器未使用管腳要通過(guò)電阻下拉。
所述基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置,龍芯3A多核處理器為龍芯3A四核處理器;北/南橋單元包括RS780E北橋芯片和SB710南橋芯片;存儲(chǔ)單元包括DDR內(nèi)存、啟動(dòng)配置ROM和硬盤,HT總線為16位或8位HT總線。
所述基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置,該裝置正常工作時(shí),由主計(jì)算機(jī)系統(tǒng)模塊完成該裝置的控制與數(shù)據(jù)管理工作,從計(jì)算機(jī)系統(tǒng)模塊通過(guò)HT總線跟蹤主計(jì)算機(jī)系統(tǒng)模塊CPU單元的進(jìn)程操作及工作狀態(tài),并在從計(jì)算機(jī)系統(tǒng)模塊存儲(chǔ)單元的硬盤中同步備份主計(jì)算機(jī)系統(tǒng)模塊存儲(chǔ)單元硬盤中 的數(shù)據(jù),利用高速緩存一致性協(xié)議,保證主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊的數(shù)據(jù)與緩存狀態(tài)均保持一致。
所述基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置,主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊間的CPU單元龍芯3A處理器通過(guò)HT0總線實(shí)現(xiàn)龍芯3A處理器的GPIO和INT相互連接;實(shí)現(xiàn)主計(jì)算機(jī)系統(tǒng)模塊CPU單元和從計(jì)算機(jī)系統(tǒng)模塊CPU單元之間中斷握手操作,實(shí)現(xiàn)主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊的相互監(jiān)測(cè)與備份,避免故障串?dāng)_和時(shí)鐘差異的存在;
從計(jì)算機(jī)系統(tǒng)模塊或主計(jì)算機(jī)系統(tǒng)模塊通過(guò)利用供電單元的稱供電信號(hào)構(gòu)成邏輯判斷,并將判斷結(jié)果傳送給主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊;
從計(jì)算機(jī)系統(tǒng)模塊或主計(jì)算機(jī)系統(tǒng)模塊,通過(guò)接口單元采集主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊的實(shí)時(shí)信息,實(shí)時(shí)信息包括電流信號(hào)、電壓信號(hào)和溫度信號(hào);
當(dāng)從計(jì)算機(jī)系統(tǒng)模塊或主計(jì)算機(jī)系統(tǒng)模塊采集到對(duì)方的供電信息和實(shí)時(shí)信息中,與被采集的主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊的接口單元相關(guān)的供電信息和實(shí)時(shí)信息中任一信息超出了設(shè)定的故障限時(shí),認(rèn)為被采集的主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊的接口單元發(fā)生故障;
當(dāng)從計(jì)算機(jī)系統(tǒng)模塊或主計(jì)算機(jī)系統(tǒng)模塊采集到對(duì)方的供電信息、實(shí)時(shí)信息和握手信息中,與被采集的主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊的CPU單元相關(guān)的供電信息和實(shí)時(shí)信息、以及被采集的主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊的CPU單元的握手信息中,任一信息超出了設(shè)定的故障限,認(rèn)為被采集的主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊的CPU單元故障。
所述基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置,當(dāng)從計(jì)算機(jī)系統(tǒng) 模塊診斷出主計(jì)算機(jī)系統(tǒng)模塊的接口單元故障時(shí),認(rèn)為主計(jì)算機(jī)系統(tǒng)模塊接口單元失效,從計(jì)算機(jī)系統(tǒng)模塊的CPU單元仍保持通過(guò)HT總線接口獲取主計(jì)算機(jī)系統(tǒng)模塊的CPU單元進(jìn)程操作數(shù)據(jù),從計(jì)算機(jī)系統(tǒng)模塊的接口單元將取代主計(jì)算機(jī)系統(tǒng)模塊的接口單元完成對(duì)外信息交互工作。
所述基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置,當(dāng)從計(jì)算機(jī)系統(tǒng)模塊診斷出主計(jì)算機(jī)系統(tǒng)模塊的CPU單元故障時(shí),認(rèn)為主計(jì)算機(jī)系統(tǒng)模塊的CPU單元失效,從計(jì)算機(jī)系統(tǒng)模塊利用存儲(chǔ)單元的硬盤之中同步備份的主計(jì)算機(jī)系統(tǒng)模塊存儲(chǔ)單元的硬盤中的操作數(shù)據(jù),從計(jì)算機(jī)系統(tǒng)模塊的CPU單元取代主計(jì)算機(jī)系統(tǒng)模塊的CPU單元完成對(duì)外信息交互工作,獨(dú)立保證信息系統(tǒng)工作的正常。
所述基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置,當(dāng)主計(jì)算機(jī)系統(tǒng)模塊診斷出從計(jì)算機(jī)系統(tǒng)模塊接口單元或CPU單元故障時(shí),認(rèn)為從計(jì)算機(jī)系統(tǒng)模塊接口單元或CPU單元失效,主計(jì)算機(jī)系統(tǒng)模塊將斷開與從計(jì)算機(jī)系統(tǒng)模塊之間的HT總線互連,停止采集從計(jì)算機(jī)系統(tǒng)模塊的握手信息、供電信息和實(shí)時(shí)信息,主計(jì)算機(jī)系統(tǒng)模塊將獨(dú)立保證信息系統(tǒng)工作的正常。
一種基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置進(jìn)行計(jì)算機(jī)故障容錯(cuò)的方法,該方法包括以下步驟:
步驟一、故障診斷;
主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊間的CPU單元龍芯3A處理器通過(guò)HT0總線實(shí)現(xiàn)龍芯3A處理器的GPIO和INT相互連接;實(shí)現(xiàn)主計(jì)算機(jī)系統(tǒng)模塊CPU單元和從計(jì)算機(jī)系統(tǒng)模塊CPU單元之間中斷握手操作,實(shí)現(xiàn)主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊的相互監(jiān)測(cè)與備份,避免故障串?dāng)_和時(shí)鐘差異的存在;
從計(jì)算機(jī)系統(tǒng)模塊或主計(jì)算機(jī)系統(tǒng)模塊通過(guò)利用供電單元的稱供電信號(hào)構(gòu)成邏輯判斷,并將判斷結(jié)果傳送給主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊;
從計(jì)算機(jī)系統(tǒng)模塊或主計(jì)算機(jī)系統(tǒng)模塊,通過(guò)接口單元采集主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊的實(shí)時(shí)信息,實(shí)時(shí)信息包括電流信號(hào)、電壓信號(hào)和溫度信號(hào);
當(dāng)從計(jì)算機(jī)系統(tǒng)模塊或主計(jì)算機(jī)系統(tǒng)模塊采集到對(duì)方的供電信息、實(shí)時(shí)信息和握手信息中;
1)與被采集的主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊的接口單元相關(guān)的供電信息和實(shí)時(shí)信息中任一信息超出了設(shè)定的故障限時(shí),認(rèn)為被采集的主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊的接口單元發(fā)生故障;
2)與被采集的主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊的CPU單元相關(guān)的供電信息和實(shí)時(shí)信息、以及被采集的主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊的CPU單元的握手信息中,任一信息超出了設(shè)定的故障限,認(rèn)為被采集的主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊的CPU單元故障;
3)否則,認(rèn)為被采集的主計(jì)算機(jī)系統(tǒng)模塊或從計(jì)算機(jī)系統(tǒng)模塊工作正常;
步驟二、故障容錯(cuò);
1)當(dāng)從計(jì)算機(jī)系統(tǒng)模塊診斷出主計(jì)算機(jī)系統(tǒng)模塊的接口單元故障時(shí),認(rèn)為主計(jì)算機(jī)系統(tǒng)模塊接口單元失效,從計(jì)算機(jī)系統(tǒng)模塊的CPU單元仍保持通過(guò)HT總線接口獲取主計(jì)算機(jī)系統(tǒng)模塊的CPU單元進(jìn)程操作數(shù)據(jù),從計(jì)算機(jī)系統(tǒng)模塊的接口單元將取代主計(jì)算機(jī)系統(tǒng)模塊的接口單元完成對(duì)外信息交互工作;
2)當(dāng)從計(jì)算機(jī)系統(tǒng)模塊診斷出主計(jì)算機(jī)系統(tǒng)模塊的CPU單元故障時(shí),認(rèn)為主計(jì)算機(jī)系統(tǒng)模塊的CPU單元失效,從計(jì)算機(jī)系統(tǒng)模塊利用存儲(chǔ)單元的硬盤之 中同步備份的主計(jì)算機(jī)系統(tǒng)模塊存儲(chǔ)單元的硬盤中的操作數(shù)據(jù),從計(jì)算機(jī)系統(tǒng)模塊的CPU單元取代主計(jì)算機(jī)系統(tǒng)模塊的CPU單元完成對(duì)外信息交互工作,獨(dú)立保證信息系統(tǒng)工作的正常;
3)當(dāng)主計(jì)算機(jī)系統(tǒng)模塊診斷出從計(jì)算機(jī)系統(tǒng)模塊接口單元或CPU單元故障時(shí),認(rèn)為從計(jì)算機(jī)系統(tǒng)模塊接口單元或CPU單元失效,主計(jì)算機(jī)系統(tǒng)模塊將斷開與從計(jì)算機(jī)系統(tǒng)模塊之間的HT總線互連,停止采集從計(jì)算機(jī)系統(tǒng)模塊的握手信息、供電信息和實(shí)時(shí)信息,主計(jì)算機(jī)系統(tǒng)模塊將獨(dú)立保證信息系統(tǒng)工作的正常;
4)否則,由主計(jì)算機(jī)系統(tǒng)模塊完成該裝置的控制與數(shù)據(jù)管理工作,從計(jì)算機(jī)系統(tǒng)模塊通過(guò)HT總線跟蹤主計(jì)算機(jī)系統(tǒng)模塊CPU單元的進(jìn)程操作及工作狀態(tài),并在從計(jì)算機(jī)系統(tǒng)模塊存儲(chǔ)單元的硬盤中同步備份主計(jì)算機(jī)系統(tǒng)模塊存儲(chǔ)單元硬盤中的數(shù)據(jù),利用高速緩存一致性協(xié)議,保證主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊的數(shù)據(jù)與緩存狀態(tài)均保持一致。
本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果是:
本發(fā)明技術(shù)方案利用國(guó)產(chǎn)龍芯3A多核處理器特有的級(jí)間互連接口,以及HT(Hyper Transport)總線的高速雙向、串行點(diǎn)對(duì)點(diǎn)、包交換、虛通道、亂序執(zhí)行等特有技術(shù),實(shí)現(xiàn)了雙機(jī)數(shù)據(jù)狀態(tài)共享的同步一致和握手互檢的故障檢測(cè)。
本發(fā)明的使用,將有效彌補(bǔ)國(guó)產(chǎn)通用處理器可靠性和資源發(fā)揮的不足,通過(guò)對(duì)系統(tǒng)功能的冗余備份及故障容錯(cuò)設(shè)計(jì),全面提升信息系統(tǒng)中核心主控單元的安全性、可靠性及測(cè)試性,有力確保信息系統(tǒng)國(guó)產(chǎn)化建設(shè)后的工作性能與適用性。
附圖說(shuō)明
圖1是本發(fā)明基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置示意圖;
圖2是本發(fā)明基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置正常工作時(shí)信號(hào)通路示意圖;
圖3是本發(fā)明基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置主計(jì)算機(jī)系統(tǒng)模塊接口單元故障時(shí)信號(hào)通路示意圖;
圖4是本發(fā)明基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置主計(jì)算機(jī)系統(tǒng)模塊CPU單元故障時(shí)信號(hào)通路示意圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明一種基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置作詳細(xì)說(shuō)明。
如圖1所示,本發(fā)明一種基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置包括主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊;
主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊都包括:CPU單元、北/南橋單元、存儲(chǔ)單元、接口單元、供電單元;CPU單元包括龍芯3A多核處理器,主計(jì)算機(jī)系統(tǒng)模塊的CPU單元和從計(jì)算機(jī)系統(tǒng)模塊的CPU單元通過(guò)HT(Hyper Transport)總線接口實(shí)現(xiàn)互連,HT總線為16位或8位HT總線;存儲(chǔ)單元包括內(nèi)存、啟動(dòng)ROM和硬盤;
龍芯3A多核處理器包括龍芯3A四核處理器;北/南橋單元包括RS780E北橋芯片和SB710南橋芯片;存儲(chǔ)單元包括DDR內(nèi)存、啟動(dòng)配置ROM和硬盤;接 口單元?jiǎng)t依據(jù)系統(tǒng)需求具體設(shè)計(jì),可以包含網(wǎng)絡(luò)信號(hào)、串并行接口總線、視頻信號(hào)、音頻信號(hào)等;
龍芯3A多核處理器集成2組獨(dú)立的HT(Hyper Transport)總線接口HT0和HT1,主計(jì)算機(jī)系統(tǒng)模塊CPU單元的龍芯3A多核處理器HT0總線接口與從計(jì)算機(jī)系統(tǒng)模塊CPU單元的龍芯3A多核處理器HT0總線接口連接,實(shí)現(xiàn)主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊的互連;HT1總線接口與北/南橋單元的HT總線接口相連接,龍芯3A多核處理器未使用管腳要通過(guò)電阻下拉。
(1)正常工作:
如圖2所示,當(dāng)本發(fā)明基于國(guó)產(chǎn)龍芯處理器間互連的計(jì)算機(jī)故障容錯(cuò)裝置正常工作時(shí),由主計(jì)算機(jī)系統(tǒng)模塊完成信息系統(tǒng)的控制與數(shù)據(jù)管理工作,從計(jì)算機(jī)系統(tǒng)模塊通過(guò)HT(HyperTransport)總線跟蹤主計(jì)算機(jī)系統(tǒng)模塊CPU單元的進(jìn)程操作及工作狀態(tài),包括CPU進(jìn)程信息、硬盤存儲(chǔ)信息等,并在從計(jì)算機(jī)系統(tǒng)模塊存儲(chǔ)單元的硬盤之中同步備份主計(jì)算機(jī)系統(tǒng)模塊存儲(chǔ)單元硬盤中的數(shù)據(jù),利用高速緩存一致性協(xié)議,保證主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊的數(shù)據(jù)與緩存狀態(tài)均保持一致。
(2)故障診斷:
主計(jì)算機(jī)系統(tǒng)模塊和從計(jì)算機(jī)系統(tǒng)模塊間的CPU單元龍芯3A處理器通過(guò)HT0總線實(shí)現(xiàn)龍芯3A處理器的GPIO(通用輸入輸出接口)和INT(中斷接口)相互連接;實(shí)現(xiàn)主計(jì)算機(jī)系統(tǒng)模塊CPU單元和從計(jì)算機(jī)系統(tǒng)模塊CPU單元之間中斷握手操作,實(shí)現(xiàn)相互監(jiān)測(cè)與備份,避免故障串?dāng)_和時(shí)鐘差異的存在。
從(或主)計(jì)算機(jī)系統(tǒng)模塊通過(guò)利用供電單元的POWERGOOD(上電好)信號(hào)(或稱供電信號(hào))構(gòu)成硬件邏輯判斷,并將判斷結(jié)果傳送給主(或從)計(jì)算機(jī) 系統(tǒng)模塊。
從(或主)計(jì)算機(jī)系統(tǒng)模塊,通過(guò)接口單元采集主(或從)計(jì)算機(jī)系統(tǒng)模塊的實(shí)時(shí)信息,實(shí)時(shí)信息包括電流信號(hào)、電壓信號(hào)和溫度信號(hào)。
計(jì)算機(jī)系統(tǒng)存在故障包括接口單元故障和CPU單元故障;
如果從(或主)計(jì)算機(jī)系統(tǒng)模塊采集到主(或從)計(jì)算機(jī)系統(tǒng)模塊的供電信息和實(shí)時(shí)信息中,與主(或從)計(jì)算機(jī)系統(tǒng)模塊的接口單元相關(guān)的供電信息和實(shí)時(shí)信息中任一信息超出了接口單元相關(guān)的供電信息和實(shí)時(shí)信息設(shè)定的故障限,認(rèn)為主(或從)計(jì)算機(jī)系統(tǒng)模塊的接口單元故障。
如果從(或主)計(jì)算機(jī)系統(tǒng)模塊采集到主(或從)計(jì)算機(jī)系統(tǒng)模塊的供電信息、實(shí)時(shí)信息和握手信息中,與主(或從)計(jì)算機(jī)系統(tǒng)模塊的CPU單元相關(guān)的供電信息和實(shí)時(shí)信息、以及主(或從)計(jì)算機(jī)系統(tǒng)模塊的CPU單元的握手信息中,任一信息超出了主(或從)計(jì)算機(jī)系統(tǒng)模塊設(shè)定的故障限,認(rèn)為主(或從)計(jì)算機(jī)系統(tǒng)模塊的CPU單元故障。
(3)故障處置:
如圖3所示,當(dāng)從計(jì)算機(jī)系統(tǒng)模塊診斷出主計(jì)算機(jī)系統(tǒng)模塊的接口單元故障時(shí),說(shuō)明主計(jì)算機(jī)系統(tǒng)模塊接口單元已經(jīng)失效,從計(jì)算機(jī)系統(tǒng)模塊的CPU單元仍保持通過(guò)HT總線接口獲取主計(jì)算機(jī)系統(tǒng)模塊的CPU單元進(jìn)程操作數(shù)據(jù),從計(jì)算機(jī)系統(tǒng)模塊的接口單元將取代主計(jì)算機(jī)系統(tǒng)模塊的接口單元完成對(duì)外信息交互工作。
如圖4所示,當(dāng)從計(jì)算機(jī)系統(tǒng)模塊診斷出主計(jì)算機(jī)系統(tǒng)模塊的CPU單元故障時(shí),說(shuō)明主計(jì)算機(jī)系統(tǒng)模塊的CPU單元已經(jīng)失效,從計(jì)算機(jī)系統(tǒng)模塊利用存儲(chǔ)單元的硬盤之中同步備份的主計(jì)算機(jī)系統(tǒng)模塊存儲(chǔ)單元的硬盤中的操作數(shù) 據(jù),從計(jì)算機(jī)系統(tǒng)模塊的CPU單元取代主計(jì)算機(jī)系統(tǒng)模塊的CPU單元完成對(duì)外信息交互工作,獨(dú)立保證信息系統(tǒng)工作的正常。
當(dāng)主計(jì)算機(jī)系統(tǒng)模塊診斷出從計(jì)算機(jī)系統(tǒng)模塊接口單元或CPU單元故障時(shí),說(shuō)明從計(jì)算機(jī)系統(tǒng)模塊接口單元或CPU單元已經(jīng)失效,主計(jì)算機(jī)系統(tǒng)模塊將斷開與從計(jì)算機(jī)系統(tǒng)模塊之間的HT總線互連,停止采集從計(jì)算機(jī)系統(tǒng)模塊的握手信息、供電信息和實(shí)時(shí)信息,主計(jì)算機(jī)系統(tǒng)模塊將獨(dú)立保證信息系統(tǒng)工作的正常。