本發(fā)明涉及服務(wù)器故障的技術(shù)領(lǐng)域,特別是涉及一種熱替換NC節(jié)點的方法及裝置。
背景技術(shù):
隨著日常生活中的業(yè)務(wù)越來越多,越來越復(fù)雜,對服務(wù)器的性能要求也越來越高,為提高服務(wù)器的性能,單靠提高單個CPU節(jié)點的性能已經(jīng)無法滿足人們對服務(wù)器性能的要求,因此需要提高服務(wù)器中CPU的路數(shù)來提高性能;同時也對服務(wù)器的可靠性要求也越來越高,在服務(wù)器日常運轉(zhuǎn)中,一旦服務(wù)器停機會對業(yè)務(wù)帶來極大不便,服務(wù)器NC節(jié)點出現(xiàn)故障時,盡可能在不停機的情況下,將出現(xiàn)故障的那個NC節(jié)點進行熱替換。
在服務(wù)器領(lǐng)域,系統(tǒng)運行的穩(wěn)定性和可靠性是非常重要的。人們希望服務(wù)器不間斷運行,以便保證商業(yè)網(wǎng)站、電信系統(tǒng)和銀行系統(tǒng)等的持續(xù)運轉(zhuǎn)。由于服務(wù)器需要保持不間斷的待機能力,所以熱插拔就成為鑒別服務(wù)器可用性的關(guān)鍵因素。
技術(shù)實現(xiàn)要素:
本發(fā)明目的是提供一種熱替換NC節(jié)點的方法及裝置,能夠快速方便的,在不停機的情況下,將出現(xiàn)故障的NC節(jié)點進行熱替換。
為了實現(xiàn)上述目的,本發(fā)明采用以下的技術(shù)方案:
本發(fā)明提供一種熱替換NC節(jié)點的方法,包括以下步驟:
在不停機的情況下,將所有NC節(jié)點的內(nèi)存以及節(jié)點下CPU管理的內(nèi)存進行緩存一致性寫回操作;
基本輸入輸出系統(tǒng)設(shè)置同一節(jié)點的CPU和其他NC節(jié)點,停止向故障NC節(jié)點發(fā)送數(shù)據(jù);
移除并更換故障NC節(jié)點。
優(yōu)選地,在不停機的情況下,將所有NC節(jié)點的內(nèi)存以及節(jié)點下CPU管理的內(nèi)存進行緩存一致性寫回操作之前,還包括:將出現(xiàn)故障的NC節(jié)點告知服務(wù)器系統(tǒng)。
優(yōu)選地,通過外部配置的方式,將出現(xiàn)故障的NC節(jié)點告知服務(wù)器系統(tǒng)。
優(yōu)選地,在基本輸入輸出系統(tǒng)設(shè)置同一節(jié)點的CPU和其他NC節(jié)點,停止向故障NC節(jié)點發(fā)送數(shù)據(jù)之后,還包括:基本輸入輸出系統(tǒng)告知服務(wù)器系統(tǒng),故障NC節(jié)點停止運行。
優(yōu)選地,在移除并更換故障NC節(jié)點之后,還包括:將更換后的NC節(jié)點進行上電,初始化更換后的NC節(jié)點與其他NC節(jié)點間的鏈路參數(shù)以及更換后的NC節(jié)點與同一節(jié)點的CPU間的鏈路參數(shù)。
優(yōu)選地,在將更換后的NC節(jié)點進行上電,初始化更換后的NC節(jié)點與其他NC節(jié)點間的鏈路參數(shù)以及更換后的NC節(jié)點與同一節(jié)點的CPU間的鏈路參數(shù)之后,還包括:初始化更換后的NC節(jié)點,將更換后的NC節(jié)點添加到服務(wù)器系統(tǒng)中。
本發(fā)明還提供一種熱替換NC節(jié)點的裝置,包括:
緩存一致性寫回操作模塊,用于在不停機的情況下,將所有NC節(jié)點的內(nèi)存以及節(jié)點下CPU管理的內(nèi)存進行緩存一致性寫回操作;
CPU設(shè)置模塊,用于基本輸入輸出系統(tǒng)設(shè)置同一節(jié)點的CPU和其他NC節(jié)點,停止向故障NC節(jié)點發(fā)送數(shù)據(jù);
故障NC節(jié)點移除更換模塊,用于移除并更換故障NC節(jié)點。
優(yōu)選地,還包括:第一告知模塊,用于將出現(xiàn)故障的NC節(jié)點告知服務(wù)器系統(tǒng);
第二告知模塊,用于基本輸入輸出系統(tǒng)告知服務(wù)器系統(tǒng),故障NC節(jié)點停止運行。
優(yōu)選地,還包括:初始化模塊,用于將更換后的NC節(jié)點進行上電,初始化更換后的NC節(jié)點與其他NC節(jié)點間的鏈路參數(shù)以及更換后的NC節(jié)點與同一節(jié)點的CPU間的鏈路參數(shù)。
優(yōu)選地,還包括:更換后的NC節(jié)點添加模塊,用于初始化更換后的NC節(jié)點,將更換后的NC節(jié)點添加到服務(wù)器系統(tǒng)中。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:
本發(fā)明在不停機的情況下,將所有NC節(jié)點的內(nèi)存以及節(jié)點下CPU管理的內(nèi)存進行緩存一致性寫回操作,然后基本輸入輸出系統(tǒng)設(shè)置同一節(jié)點的CPU和其他NC節(jié)點,停止向故障NC節(jié)點發(fā)送數(shù)據(jù),移除并更換故障NC節(jié)點,最后初始化更換后的NC節(jié)點與其他NC節(jié)點間的鏈路參數(shù)以及更換后的NC節(jié)點與同一節(jié)點的CPU間的鏈路參數(shù),將更換后的NC節(jié)點添加到服務(wù)器系統(tǒng)中。在服務(wù)器NC節(jié)點出現(xiàn)故障時,在不停機的情況下,將出現(xiàn)故障的NC節(jié)點進行熱替換,提高了服務(wù)器系統(tǒng)運行的穩(wěn)定性和可靠性。
上述熱替換NC節(jié)點的方法的有益效果與熱替換NC節(jié)點的裝置的有益效果類似,此處不再贅述。
附圖說明
圖1是本發(fā)明實施例一種熱替換NC節(jié)點的方法的流程示意圖;
圖2是本發(fā)明實施例服務(wù)器的結(jié)構(gòu)框圖;
圖3是本發(fā)明實施例一種熱替換NC節(jié)點的裝置的結(jié)構(gòu)示意圖。
具體實施方式
為了便于理解,對本發(fā)明中出現(xiàn)的部分名詞作以下解釋說明:
BIOS:基本輸入輸出系統(tǒng)(Basic Input Output System),它是一組固化到計算機內(nèi)主板上一個ROM芯片上的程序,它保存著計算機最重要的基本輸入輸出的程序、開機后自檢程序和系統(tǒng)自啟動程序,它可從CMOS中讀寫系統(tǒng)設(shè)置的具體信息。其主要功能是為計算機提供最底層的、最直接的硬件設(shè)置和控制。
下面結(jié)合附圖和實施例,對本發(fā)明的具體實施方式作進一步詳細描述:
本實施例提供一種熱替換NC節(jié)點的方法,包括以下步驟:
在不停機的情況下,將所有NC節(jié)點的內(nèi)存以及節(jié)點下CPU管理的內(nèi)存進行緩存一致性寫回操作;
基本輸入輸出系統(tǒng)設(shè)置同一節(jié)點的CPU和其他NC節(jié)點,停止向故障NC節(jié)點發(fā)送數(shù)據(jù);
移除并更換故障NC節(jié)點。
請參考圖1和圖2,圖1是本發(fā)明實施例一種熱替換NC節(jié)點的方法的流程示意圖,圖2是本發(fā)明實施例服務(wù)器的結(jié)構(gòu)框圖,其中Clump指的是節(jié)點,圖2以服務(wù)器16路為例進行說明,但本發(fā)明不僅僅限于16路的使用。
本實施例提供一種熱替換NC節(jié)點的方法,包括以下步驟:
步驟S101,通過外部配置的方式,將出現(xiàn)故障的NC節(jié)點告知服務(wù)器系統(tǒng);
在本實施例中,每個NC節(jié)點對應(yīng)一個撥碼開關(guān),NC節(jié)點出現(xiàn)故障時,可以通過撥碼開關(guān)的方式告知服務(wù)器系統(tǒng)出現(xiàn)故障的NC節(jié)點。
步驟S102,在不停機的情況下,將所有NC節(jié)點的內(nèi)存以及節(jié)點下CPU管理的內(nèi)存進行緩存一致性寫回操作;
由于NC節(jié)點出現(xiàn)故障時,需要進行移除操作,因此將所有NC節(jié)點的內(nèi)存以及節(jié)點下CPU管理的內(nèi)存進行緩存一致性寫回操作,這樣保證內(nèi)存中的數(shù)據(jù)都是最新的,后面進行移除故障NC節(jié)點時,保證了緩存的一致性。
步驟S103,基本輸入輸出系統(tǒng)設(shè)置同一節(jié)點的CPU和其他NC節(jié)點,停止向故障NC節(jié)點發(fā)送數(shù)據(jù);
BIOS設(shè)置同一節(jié)點的CPU和其他NC節(jié)點,不再向故障NC節(jié)點發(fā)送數(shù)據(jù),這樣,與故障NC節(jié)點處于同一節(jié)點的CPU和故障NC節(jié)點的數(shù)據(jù)鏈路斷開。
步驟S104,基本輸入輸出系統(tǒng)告知服務(wù)器系統(tǒng),故障NC節(jié)點停止運行;
步驟S105,移除并更換故障NC節(jié)點;
步驟S106,將更換后的NC節(jié)點進行上電,初始化更換后的NC節(jié)點與其他NC節(jié)點間的鏈路參數(shù)以及更換后的NC節(jié)點與同一節(jié)點的CPU間的鏈路參數(shù);
步驟S107,初始化更換后的NC節(jié)點,將更換后的NC節(jié)點添加到服務(wù)器系統(tǒng)中。
在本實施例中,更換后的NC節(jié)點完成與其他NC節(jié)點間的鏈路以及更換后的NC節(jié)點與同一節(jié)點的CPU間的鏈路初始化后,向主CPU節(jié)點發(fā)送中斷,主CPU 節(jié)點收到后,初始化更換后的NC節(jié)點,然后將更換后的NC節(jié)點添加到服務(wù)器系統(tǒng)中。
本發(fā)明在不停機的情況下,將所有NC節(jié)點的內(nèi)存以及節(jié)點下CPU管理的內(nèi)存進行緩存一致性寫回操作,然后基本輸入輸出系統(tǒng)設(shè)置同一節(jié)點的CPU和其他NC節(jié)點,停止向故障NC節(jié)點發(fā)送數(shù)據(jù),移除并更換故障NC節(jié)點,最后初始化更換后的NC節(jié)點與其他NC節(jié)點間的鏈路參數(shù)以及更換后的NC節(jié)點與同一節(jié)點的CPU間的鏈路參數(shù),將更換后的NC節(jié)點添加到服務(wù)器系統(tǒng)中。在服務(wù)器NC節(jié)點出現(xiàn)故障時,在不停機的情況下,將出現(xiàn)故障的NC節(jié)點進行熱替換,提高了服務(wù)器系統(tǒng)運行的穩(wěn)定性和可靠性。
本發(fā)明實施例還提供一種熱替換NC節(jié)點的裝置,包括:
緩存一致性寫回操作模塊,用于在不停機的情況下,將所有NC節(jié)點的內(nèi)存以及節(jié)點下CPU管理的內(nèi)存進行緩存一致性寫回操作;
CPU設(shè)置模塊,用于基本輸入輸出系統(tǒng)設(shè)置同一節(jié)點的CPU和其他NC節(jié)點,停止向故障NC節(jié)點發(fā)送數(shù)據(jù);
故障NC節(jié)點移除更換模塊,用于移除并更換故障NC節(jié)點。
請參考圖3,圖3是本發(fā)明一種熱替換NC節(jié)點的裝置的結(jié)構(gòu)示意圖;本實施例提供一種熱替換NC節(jié)點的裝置,包括:第一告知模塊301、緩存一致性寫回操作模塊302、CPU設(shè)置模塊303、第二告知模塊304、故障NC節(jié)點移除更換模塊305、初始化模塊306和更換后的NC節(jié)點添加模塊307,第一告知模塊301依次順序與緩存一致性寫回操作模塊302、CPU設(shè)置模塊303、第二告知模塊304、故障NC節(jié)點移除更換模塊305、初始化模塊306和更換后的NC節(jié)點添加模塊307連接。
第一告知模塊301,用于將出現(xiàn)故障的NC節(jié)點告知服務(wù)器系統(tǒng);
緩存一致性寫回操作模塊302,用于在不停機的情況下,將所有NC節(jié)點的內(nèi)存以及節(jié)點下CPU管理的內(nèi)存進行緩存一致性寫回操作;
CPU設(shè)置模塊303,用于基本輸入輸出系統(tǒng)設(shè)置同一節(jié)點的CPU和其他NC節(jié)點,停止向故障NC節(jié)點發(fā)送數(shù)據(jù);
第二告知模塊304,用于基本輸入輸出系統(tǒng)告知服務(wù)器系統(tǒng),故障NC節(jié)點停止運行;
故障NC節(jié)點移除更換模塊305,用于移除并更換故障NC節(jié)點;
初始化模塊306,用于將更換后的NC節(jié)點進行上電,初始化更換后的NC節(jié)點與其他NC節(jié)點間的鏈路參數(shù)以及更換后的NC節(jié)點與同一節(jié)點的CPU間的鏈路參數(shù);
更換后的NC節(jié)點添加模塊307,用于初始化更換后的NC節(jié)點,將更換后的NC節(jié)點添加到服務(wù)器系統(tǒng)中。
以上所示僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。