本申請(qǐng)涉及服務(wù)器,尤其涉及一種服務(wù)器的內(nèi)存ce故障的處理方法及服務(wù)器。
背景技術(shù):
1、現(xiàn)如今,內(nèi)存故障已經(jīng)成為服務(wù)器技術(shù)領(lǐng)域最普遍的故障源之一。其中,服務(wù)器在運(yùn)行過(guò)程中發(fā)生的內(nèi)存故障主要為ce故障。
2、相關(guān)的ce故障的處理方案中,只要服務(wù)器發(fā)生了ce故障,就會(huì)觸發(fā)smi(systemmanagement?interrupt,系統(tǒng)管理中斷)中止客戶的業(yè)務(wù),待服務(wù)器完成ce故障的信息搜集后再繼續(xù)客戶的業(yè)務(wù)。
3、當(dāng)某一時(shí)間段內(nèi),若服務(wù)器頻發(fā)ce故障,為了維護(hù)客戶的業(yè)務(wù)運(yùn)行,則會(huì)屏蔽smi。如此,在smi的屏蔽期間內(nèi),若發(fā)生了更加嚴(yán)重的內(nèi)存故障,例如,導(dǎo)致服務(wù)器宕機(jī)的內(nèi)存故障。由于,服務(wù)器沒有進(jìn)行相關(guān)內(nèi)存故障的信息搜集,從而無(wú)法定位到引起服務(wù)器宕機(jī)的故障問(wèn)題。
4、綜上所述,如何在不影響用戶業(yè)務(wù)的情況下,更加全面的搜集服務(wù)器運(yùn)行過(guò)程中產(chǎn)生的ce故障的故障信息,成為了亟待解決的技術(shù)問(wèn)題。
5、公開于該背景技術(shù)部分的信息僅僅旨在增加對(duì)本申請(qǐng)的總體背景的理解,而不應(yīng)當(dāng)被視為承認(rèn)或以任何形式暗示該信息構(gòu)成已為本領(lǐng)域一般技術(shù)人員所公知的現(xiàn)有技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供了一種服務(wù)器的內(nèi)存ce故障的處理方法及服務(wù)器。在不影響客戶業(yè)務(wù)的情況下,兼顧了內(nèi)存ce故障的處理的精確性和完備性。
2、第一方面,本申請(qǐng)實(shí)施例提供了一種服務(wù)器的內(nèi)存ce故障的處理方法,應(yīng)用于基板管理控制器,所述方法包括:獲取第一處理器的故障檢測(cè)端的檢測(cè)信號(hào),其中,所述檢測(cè)信號(hào)用于指示檢測(cè)到有第一內(nèi)存出現(xiàn)ce故障的情況;在所述檢測(cè)信號(hào)有效的情況下,從所述第一處理器獲取ce故障的故障信息;根據(jù)所述ce故障信息,處理ce故障。
3、在本方案中,通過(guò)將第一處理器的故障檢測(cè)端接入到基板管理控制器,當(dāng)?shù)谝惶幚砥鳈z測(cè)到ce故障時(shí),可以將故障檢測(cè)端上的故障信號(hào)置為有效,以便基板管理控制器通過(guò)peci總線進(jìn)行帶外ce故障的處理,相較于利用系統(tǒng)管理中斷進(jìn)行故障處理的方案,該方法可以在不影響客戶業(yè)務(wù)的情況下處理ce故障,同時(shí)也兼顧了故障信息處理的精確性和完備性。
4、在一些實(shí)施例中,所述ce故障觸發(fā)系統(tǒng)管理終端的功能被bios屏蔽。
5、在本方案中,通過(guò)屏蔽所述第一處理器的系統(tǒng)管理中斷,當(dāng)內(nèi)存出現(xiàn)ce故障時(shí)可以不再掛起服務(wù)器的操作系統(tǒng),轉(zhuǎn)而由基板管理控制器以帶外的方式進(jìn)行ce故障的處理,可以降低內(nèi)存的ce故障給用戶正常的業(yè)務(wù)帶來(lái)的影響。
6、在一些實(shí)施例中,所述檢測(cè)信號(hào)的有效狀態(tài)由所述第一處理器檢測(cè)到ce故障時(shí)觸發(fā)。
7、在一些實(shí)施例中,所述ce故障的故障信息由所述處理器獲取,并存儲(chǔ)于所述第一處理器的故障寄存器之中。
8、在本方案中,通過(guò)第一處理器檢測(cè)內(nèi)存每一次輸入和/或輸出數(shù)據(jù)中的ce故障,并將所述故障信息存儲(chǔ)于故障寄存器,可以保證內(nèi)存ce故障的信息搜集的完備性。
9、在一些實(shí)施例中,根據(jù)所述ce故障信息,處理ce故障,之后還包括:根據(jù)所述故障信息生成所述服務(wù)器的故障報(bào)告,并清除所述故障信號(hào)的有效狀態(tài)。
10、在本申請(qǐng)中,基板管理控制器可以基于一定的規(guī)則或者利用ai模型對(duì)上述故障報(bào)告進(jìn)行分析,根據(jù)上述故障報(bào)告的分析結(jié)果判斷出內(nèi)存的故障等級(jí),基于故障等級(jí)或者結(jié)合業(yè)務(wù)的實(shí)際情況,對(duì)用戶進(jìn)行告警或者對(duì)內(nèi)存進(jìn)行ecc糾正。
11、在一些實(shí)施例中,當(dāng)所述服務(wù)器包括第二處理器和第二內(nèi)存時(shí),所述方法還包括:獲取第二處理器的故障檢測(cè)端的檢測(cè)信號(hào),其中,所述檢測(cè)信號(hào)用于指示檢測(cè)到有第二內(nèi)存出現(xiàn)ce故障的情況;在所述檢測(cè)信號(hào)有效的情況下,從所述第二處理器獲取ce故障的故障信息;根據(jù)所述ce故障信息,處理ce故障。
12、在本申請(qǐng)中,通過(guò)將多個(gè)處理器的故障信號(hào)線接入基板管理控制器,以實(shí)現(xiàn)多處理器情況下的內(nèi)存的ce故障信息處理。
13、第二方面,本申請(qǐng)?zhí)峁┝艘环N服務(wù)器,所述服務(wù)器包括第一處理器、第一內(nèi)存以及基板管理控制器,所述第一處理器包括故障檢測(cè)端,所述故障檢測(cè)端用于產(chǎn)生檢測(cè)信號(hào),所述檢測(cè)信號(hào)用于指示檢測(cè)到有第一內(nèi)存出現(xiàn)ce故障的情況,所述第一處理器通過(guò)peci總線與所述基板管理控制器連接,所述第一處理器與所述第一內(nèi)存相互連接;所述第一處理器用于檢測(cè)所述第一內(nèi)存的ce故障;當(dāng)?shù)谝粌?nèi)存出現(xiàn)ce故障時(shí),從第一內(nèi)存中獲取所述ce故障的故障信息,并將所述故障檢測(cè)端的檢測(cè)信號(hào)設(shè)置為有效;所述基板管理控制器用于獲取所述第一處理器的故障檢測(cè)端的檢測(cè)信號(hào);在所述檢測(cè)信號(hào)有效的情況下,從所述第一處理器獲取ce故障的故障信息;根據(jù)所述ce故障信息,處理ce故障。
14、在一些實(shí)施例中,所述第一處理器還包括故障寄存器,所述故障寄存器用于存儲(chǔ)從第一內(nèi)存獲得的所述ce故障的故障信息。
15、在一些實(shí)施例中,所述服務(wù)器還包括第二處理器和第二內(nèi)存,所述第一處理器包括故障檢測(cè)端;所述第二處理器通過(guò)peci總線與所述基板管理控制器連接,所述第二處理器與所述第二內(nèi)存相互連接;所述第二處理器用于檢測(cè)所述第二內(nèi)存的ce故障;當(dāng)?shù)诙?nèi)存出現(xiàn)ce故障時(shí),從第二內(nèi)存中獲取所述ce故障的故障信息,并將所述故障檢測(cè)端的檢測(cè)信號(hào)設(shè)置為有效;所述基板管理控制器用于獲取所述第二處理器的故障檢測(cè)端的檢測(cè)信號(hào);在所述檢測(cè)信號(hào)有效的情況下,從所述第二處理器獲取ce故障的故障信息;根據(jù)所述ce故障信息,處理ce故障。
16、第三方面,本申請(qǐng)實(shí)施例提供了一種服務(wù)器,所述服務(wù)器包括基板管理控制器和存儲(chǔ)器;其中,所述存儲(chǔ)器用于存儲(chǔ)程序指令;所述基板管理控制器用于執(zhí)行所述程序指令,以使得所述服務(wù)器執(zhí)行上述的服務(wù)器的內(nèi)存ce故障的處理方法。
17、應(yīng)當(dāng)理解的是,本申請(qǐng)實(shí)施例的第二方面、第三方面的技術(shù)方案及對(duì)應(yīng)的可能的實(shí)施方式所取得的有益效果可以參見上述對(duì)第一方面的技術(shù)效果,此處不再贅述。
1.一種服務(wù)器的內(nèi)存ce故障的處理方法,其特征在于,應(yīng)用于基板管理控制器,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述ce故障觸發(fā)系統(tǒng)管理終端的功能被bios屏蔽。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述檢測(cè)信號(hào)的有效狀態(tài)由所述第一處理器檢測(cè)到ce故障時(shí)觸發(fā)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述ce故障的故障信息由所述處理器獲取,并存儲(chǔ)于所述第一處理器的故障寄存器之中。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述ce故障信息,處理ce故障,之后還包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)所述服務(wù)器包括第二處理器和第二內(nèi)存時(shí),所述方法還包括:
7.一種服務(wù)器,其特征在于,所述服務(wù)器包括第一處理器、第一內(nèi)存以及基板管理控制器,所述第一處理器包括故障檢測(cè)端,所述故障檢測(cè)端用于產(chǎn)生檢測(cè)信號(hào),所述檢測(cè)信號(hào)用于指示檢測(cè)到有第一內(nèi)存出現(xiàn)ce故障的情況,所述第一處理器通過(guò)peci總線與所述基板管理控制器連接,所述第一處理器與所述第一內(nèi)存相互連接;
8.根據(jù)權(quán)利要求7所述的服務(wù)器,所述第一處理器還包括故障寄存器,所述故障寄存器用于存儲(chǔ)從第一內(nèi)存獲得的所述ce故障的故障信息。
9.根據(jù)權(quán)利要求7所述的服務(wù)器,其特征在于,所述服務(wù)器還包括第二處理器和第二內(nèi)存,所述第一處理器包括故障檢測(cè)端;所述第二處理器通過(guò)peci總線與所述基板管理控制器連接,所述第二處理器與所述第二內(nèi)存相互連接;
10.一種服務(wù)器,其特征在于,所述服務(wù)器包括基板管理控制器和存儲(chǔ)器;