專利名稱:集群系統(tǒng)的恢復(fù)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信系統(tǒng),更具體地來說,涉及集群系統(tǒng)的恢復(fù)方法。
背景技術(shù):
集群系統(tǒng)是利用標(biāo)準(zhǔn)的網(wǎng)絡(luò)將各種普通的服務(wù)器或者PC機(jī)連接起來,通過特定的方法,向用戶提供更高的系統(tǒng)計(jì)算性能、存儲性能、以及管理性能。集群系統(tǒng)具有高性價(jià)比、可擴(kuò)展性、可管理性、系統(tǒng)魯棒性、很多國產(chǎn)廠商支持集群系統(tǒng)等,因此,集群系統(tǒng)得到了廣泛應(yīng)用,同時(shí)集群系統(tǒng)中節(jié)點(diǎn)(即,計(jì)算機(jī))眾多,系統(tǒng)崩潰的概率也隨之大大增加。系統(tǒng)崩潰會(huì)給集群系統(tǒng)帶來嚴(yán)重后果,輕則服務(wù)進(jìn)程切換,重則作業(yè)停止。系統(tǒng)崩潰之后的修復(fù)尤為重要,在最短的時(shí)間內(nèi)進(jìn)行系統(tǒng)恢復(fù)成為亟待解決的首要問題。通常在計(jì)算機(jī)系統(tǒng)崩潰之后作業(yè)停止,需要此節(jié)點(diǎn)隔離,待該節(jié)點(diǎn)恢復(fù)后繼續(xù)作業(yè)。該節(jié)點(diǎn)隔離修復(fù)期間,降低了節(jié)點(diǎn)利用率,并且該節(jié)點(diǎn)作業(yè)停止時(shí)間太長,影響作業(yè)效率。在現(xiàn)有技術(shù)中,提供了一種提高集群可靠性的方法,該集群包括兩個(gè)或多個(gè)節(jié)點(diǎn), 其中所述兩個(gè)或多個(gè)節(jié)點(diǎn)通過選擇產(chǎn)生主節(jié)點(diǎn),其中所述兩個(gè)或多個(gè)節(jié)點(diǎn)中至少還包括一個(gè)第一替補(bǔ)從節(jié)點(diǎn),其特征在于,所述方法包括第一替補(bǔ)從節(jié)點(diǎn)檢測當(dāng)前主節(jié)點(diǎn)是否發(fā)生故障,若故障,所述第一替補(bǔ)從節(jié)點(diǎn)主動(dòng)將其自身設(shè)置為當(dāng)前主節(jié)點(diǎn),以避免重新選舉當(dāng)前主節(jié)點(diǎn)。在該集群系統(tǒng)中,節(jié)點(diǎn)系統(tǒng)崩潰時(shí),備份機(jī)可以迅速接替該節(jié)點(diǎn)對外提供服務(wù)。從而在一定程度上保證了集群系統(tǒng)的可靠性。然而,這些系統(tǒng)崩潰計(jì)算機(jī)都需要管理人員手動(dòng)重新安裝系統(tǒng)。集群系統(tǒng)提供各種服務(wù),這些服務(wù)需要修改很多的配置文件,重新安裝系統(tǒng)需要配置的文件太多,修改任務(wù)繁瑣并且容易出現(xiàn)問題,同時(shí)集群節(jié)點(diǎn)眾多,用戶應(yīng)用導(dǎo)致系統(tǒng)崩潰的風(fēng)險(xiǎn)較大,所以為了維護(hù)集群系統(tǒng)的穩(wěn)定,需要對系統(tǒng)崩潰的計(jì)算機(jī)逐一進(jìn)行安裝系統(tǒng)維護(hù),工作任務(wù)繁重,工作效率低,容易出錯(cuò)。
發(fā)明內(nèi)容
針對集群節(jié)點(diǎn)眾多,需要對崩潰節(jié)點(diǎn)逐一重新安裝系統(tǒng)的缺陷,本發(fā)明提出了一種集群系統(tǒng)一鍵恢復(fù)的技術(shù)方案,從而解決了能夠簡單、迅速、自動(dòng)恢復(fù)集群系統(tǒng)中的節(jié)點(diǎn),確保集群安全穩(wěn)定運(yùn)行的技術(shù)問題。本發(fā)明提供了一種集群系統(tǒng)的恢復(fù)方法,包括步驟Sl 服務(wù)器從客戶機(jī)接收客戶機(jī)的文件;以及步驟S2 服務(wù)器通過將文件發(fā)送到其他客戶機(jī)來恢復(fù)其他客戶機(jī)的運(yùn)行。優(yōu)選地,集群系統(tǒng)的恢復(fù)方法進(jìn)一步包括在步驟Sl之前服務(wù)器向客戶機(jī)發(fā)送備份請求;以及客戶機(jī)接收備份請求并向服務(wù)器發(fā)送備份確認(rèn)響應(yīng)。優(yōu)選地,步驟Sl包括如果服務(wù)器檢測到其存儲空間足夠存儲文件,則從客戶機(jī)接收客戶機(jī)的文件。
優(yōu)選地,在步驟Sl之后,服務(wù)器標(biāo)識文件信息。優(yōu)選地,服務(wù)器標(biāo)識文件信息的步驟包括服務(wù)器通過重命名標(biāo)識文件信息。優(yōu)選地,文件信息包括文件的創(chuàng)建時(shí)間、文件所來自的客戶機(jī)的編號。優(yōu)選地,步驟S2包括當(dāng)其他客戶機(jī)包括多個(gè)客戶機(jī)時(shí),服務(wù)器利用P2P協(xié)議同時(shí)將文件發(fā)送到多個(gè)客戶機(jī)的相應(yīng)位置。優(yōu)選地,步驟S2包括服務(wù)器將文件存儲在其他客戶機(jī)的硬盤上,以覆蓋其他客戶機(jī)中的相應(yīng)文件。優(yōu)選地,客戶機(jī)和其他客戶機(jī)的配置相同。優(yōu)選地,集群系統(tǒng)的恢復(fù)方法適用于Unix系統(tǒng)以及Linux系統(tǒng)。利用本發(fā)明的集群系統(tǒng)的恢復(fù)方法,在系統(tǒng)發(fā)生崩潰時(shí),或者是由于應(yīng)用原因?qū)е孪到y(tǒng)更換時(shí),不需要用戶進(jìn)行手工干預(yù),被恢復(fù)系統(tǒng)和備份系統(tǒng)一致,不需要進(jìn)行環(huán)境變量的配置,從而在保證了集群安全穩(wěn)定運(yùn)行同時(shí),提高了工作效率,節(jié)省了大量人力物力資源。
附圖用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實(shí)施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中圖1為根據(jù)本發(fā)明的實(shí)施例的集群系統(tǒng)的恢復(fù)方法的流程圖;圖2為根據(jù)本發(fā)明的實(shí)施例的集群系統(tǒng)的恢復(fù)方法的原理示意圖;以及圖3為根據(jù)本發(fā)明的另一實(shí)施例的集群系統(tǒng)的恢復(fù)方法的流程圖。
具體實(shí)施例方式以下結(jié)合附圖對本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。圖1為根據(jù)本發(fā)明的實(shí)施例的集群系統(tǒng)的恢復(fù)方法的流程圖。在圖1中步驟SlOO 服務(wù)器從客戶機(jī)接收客戶機(jī)的文件。其中,服務(wù)器所接收的文件為流數(shù)據(jù),流數(shù)據(jù)是一組順序、大量、快速、連續(xù)到達(dá)的數(shù)據(jù)序列,數(shù)據(jù)流可被視為一個(gè)隨時(shí)間延續(xù)而無限增長的動(dòng)態(tài)數(shù)據(jù)集合。此外,流數(shù)據(jù)數(shù)據(jù)具有實(shí)時(shí)到達(dá)、數(shù)據(jù)規(guī)模宏大等特點(diǎn)。步驟S102 服務(wù)器通過將文件發(fā)送到其他客戶機(jī)來恢復(fù)其他客戶機(jī)的運(yùn)行。通過本發(fā)明的實(shí)施例的集群系統(tǒng)的恢復(fù)方法,使得用戶能夠不必重新裝機(jī),通過簡單操作就可以恢復(fù)崩潰節(jié)點(diǎn)的系統(tǒng)或者更換節(jié)點(diǎn)的系統(tǒng)。此外,該在服務(wù)器和客戶機(jī)之間傳送的是流數(shù)據(jù),使該傳送過程在十分鐘左右完成,從而能夠保證集群的穩(wěn)定性。下文中,結(jié)合圖2和圖3進(jìn)一步詳細(xì)描述了集群系統(tǒng)的恢復(fù)方法的一個(gè)具體實(shí)施例。圖2為根據(jù)本發(fā)明的實(shí)施例的集群系統(tǒng)的恢復(fù)方法的原理示意圖。集群200包括 服務(wù)器202和客戶機(jī)206、208、210、以及212,其中,各個(gè)客戶機(jī)均相同。服務(wù)器202具有存儲器204。另外,在其他實(shí)施例,集群不僅限于四臺客戶機(jī),可以為任意多臺客戶機(jī)。此外, 在其他實(shí)施例中,集群不僅限于一臺服務(wù)器,可以為任意多臺服務(wù)器。下文中,描述了用于圖2所示集群的集群系統(tǒng)的恢復(fù)方法。
圖3為根據(jù)本發(fā)明的另一實(shí)施例的集群系統(tǒng)的恢復(fù)方法的流程圖。如圖2和圖3 所示,當(dāng)集群200中具有系統(tǒng)崩潰的客戶機(jī)或者需要更換系統(tǒng)的客戶機(jī)時(shí),服務(wù)器202向客戶機(jī)發(fā)送備份請求(步驟S300)。其中,將系統(tǒng)崩潰的客戶機(jī)或者需要更換系統(tǒng)的客戶機(jī)作為目標(biāo)客戶機(jī),目標(biāo)客戶機(jī)可以為一臺或者多臺,將正常工作客戶機(jī)中的一個(gè)作為模板客戶機(jī)。在本實(shí)施例中,將客戶機(jī)206作為模板客戶機(jī),并且將客戶機(jī)208、210、以及212作為目標(biāo)客戶機(jī)。當(dāng)客戶機(jī)206接收到由服務(wù)器202所發(fā)送的備份請求時(shí),該客戶機(jī)向服務(wù)器發(fā)送備份確認(rèn)響應(yīng)(步驟S302),同時(shí)啟動(dòng)代理服務(wù),準(zhǔn)備向服務(wù)器發(fā)送系統(tǒng)文件(即,系統(tǒng)模板鏡像)。服務(wù)器202在接收到來自客戶機(jī)206的備份確認(rèn)響應(yīng)時(shí),檢測到其存儲空間足夠存儲客戶機(jī)206的系統(tǒng)文件,則從客戶機(jī)206接收該客戶機(jī)的系統(tǒng)文件(步驟S304)。服務(wù)器202在接收到該系統(tǒng)文件以后,標(biāo)識文件信息(步驟S306)。其中,服務(wù)器標(biāo)識文件信息的步驟包括服務(wù)器通過重命名來標(biāo)識文件信息。該文件信息包括文件的創(chuàng)建時(shí)間、文件來自的客戶機(jī)的編號。然后,服務(wù)器202將所述文件發(fā)送到客戶機(jī)的相應(yīng)位置(步驟S308)。其中,當(dāng)客戶機(jī)包括多個(gè)客戶機(jī)時(shí),服務(wù)器利用P2P(點(diǎn)對點(diǎn))協(xié)議同時(shí)將標(biāo)識的系統(tǒng)文件發(fā)送到多個(gè)客戶機(jī)的相應(yīng)位置,該實(shí)施例中,發(fā)送到客戶機(jī)208、210、以及212。當(dāng)客戶機(jī)包括一個(gè)客戶機(jī)時(shí),服務(wù)器直接將所標(biāo)識的系統(tǒng)文件發(fā)送到該客戶機(jī)上。服務(wù)器將文件儲存在接收所標(biāo)識的系統(tǒng)文件的客戶機(jī)(一個(gè)或多個(gè)客戶機(jī))的硬盤上,以覆蓋客戶機(jī)上的系統(tǒng)文件,來完成系統(tǒng)恢復(fù)。該集群系統(tǒng)的恢復(fù)方法適用于Unix系統(tǒng)以及Linux系統(tǒng)。根據(jù)本發(fā)明的實(shí)施例, 該集群系統(tǒng)的恢復(fù)方法具備可以將集群中的任意一個(gè)客戶機(jī)(節(jié)點(diǎn))轉(zhuǎn)化為模板客戶機(jī), 將該節(jié)點(diǎn)系統(tǒng)轉(zhuǎn)化為模板進(jìn)行保存,即用來構(gòu)建集群系統(tǒng)中要求恢復(fù)系統(tǒng)的節(jié)點(diǎn)的模板; 可以指定恢復(fù)在特定時(shí)間進(jìn)行備份的系統(tǒng);恢復(fù)過程可以多節(jié)點(diǎn)并行,運(yùn)用P2P協(xié)議進(jìn)行多個(gè)節(jié)點(diǎn)同時(shí)恢復(fù);恢復(fù)過程對于用戶透明,不需要用戶進(jìn)行手工干預(yù),被恢復(fù)系統(tǒng)和備份系統(tǒng)一致,不需要進(jìn)行環(huán)境變量的配置的優(yōu)點(diǎn)。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種集群系統(tǒng)的恢復(fù)方法,包括步驟Sl 服務(wù)器從客戶機(jī)接收所述客戶機(jī)的文件;以及步驟S2 所述服務(wù)器通過將所述文件發(fā)送到其他客戶機(jī)來恢復(fù)所述其他客戶機(jī)的運(yùn)行。
2.根據(jù)權(quán)利要求1所述的集群系統(tǒng)的恢復(fù)方法,進(jìn)一步包括在所述步驟Sl之前 服務(wù)器向客戶機(jī)發(fā)送備份請求;以及所述客戶機(jī)接收所述備份請求并向所述服務(wù)器發(fā)送備份確認(rèn)響應(yīng)。
3.根據(jù)權(quán)利要求2所述的集群系統(tǒng)的恢復(fù)方法,其特征在于,所述步驟Sl包括如果服務(wù)器檢測到其存儲空間足夠存儲所述文件,則從客戶機(jī)接收所述客戶機(jī)的文件。
4.根據(jù)權(quán)利要求3所述的集群系統(tǒng)的恢復(fù)方法,其特征在于,在所述步驟Sl之后,所述服務(wù)器標(biāo)識文件信息。
5.根據(jù)權(quán)利要求4所述的集群系統(tǒng)的恢復(fù)方法,其特征在于,所述服務(wù)器標(biāo)識文件信息的步驟包括所述服務(wù)器通過重命名標(biāo)識文件信息。
6.根據(jù)權(quán)利要求5所述的集群系統(tǒng)的恢復(fù)方法,其特征在于,所述文件信息包括所述文件的創(chuàng)建時(shí)間、所述文件所來自的客戶機(jī)的編號。
7.根據(jù)權(quán)利要求1所述的集群系統(tǒng)的恢復(fù)方法,其特征在于,所述步驟S2包括 當(dāng)所述其他客戶機(jī)包括多個(gè)客戶機(jī)時(shí),所述服務(wù)器利用P2P協(xié)議同時(shí)將所述文件發(fā)送到所述多個(gè)客戶機(jī)的相應(yīng)位置。
8.根據(jù)權(quán)利要求1或7所述的集群系統(tǒng)的恢復(fù)方法,其特征在于,所述步驟S2包括 所述服務(wù)器將所述文件存儲在其他客戶機(jī)的硬盤上,以覆蓋所述其他客戶機(jī)中的相應(yīng)文件。
9.根據(jù)權(quán)利要求1所述的集群系統(tǒng)的恢復(fù)方法,其特征在于,所述客戶機(jī)和其他客戶機(jī)的配置相同。
10.根據(jù)權(quán)利要求1所述的集群系統(tǒng)的恢復(fù)方法,其特征在于,所集群系統(tǒng)的恢復(fù)方法適用于Unix系統(tǒng)以及Linux系統(tǒng)。
全文摘要
本發(fā)明提供了一種集群系統(tǒng)的恢復(fù)方法,包括步驟S1服務(wù)器從客戶機(jī)接收客戶機(jī)的文件;以及步驟S2服務(wù)器通過將文件發(fā)送到其他客戶機(jī)來恢復(fù)其他客戶機(jī)的運(yùn)行。利用該集群系統(tǒng)的恢復(fù)方法,可以是該集群系統(tǒng)具備可以將集群中的任意一個(gè)客戶機(jī)(節(jié)點(diǎn))轉(zhuǎn)化為模板客戶機(jī),將該節(jié)點(diǎn)系統(tǒng)轉(zhuǎn)化為模板進(jìn)行保存,即用來構(gòu)建集群系統(tǒng)中要求恢復(fù)系統(tǒng)的節(jié)點(diǎn)的模板;可以指定恢復(fù)在特定時(shí)間進(jìn)行備份的系統(tǒng);恢復(fù)過程可以多節(jié)點(diǎn)并行,運(yùn)用P2P協(xié)議進(jìn)行多個(gè)節(jié)點(diǎn)同時(shí)恢復(fù);恢復(fù)過程對于用戶透明,不需要用戶進(jìn)行手工干預(yù),被恢復(fù)系統(tǒng)和備份系統(tǒng)一致,不需要進(jìn)行環(huán)境變量的配置的優(yōu)點(diǎn)。
文檔編號H04L12/24GK102281159SQ20111026256
公開日2011年12月14日 申請日期2011年9月6日 優(yōu)先權(quán)日2011年9月6日
發(fā)明者戴榮, 李程, 溫鑫, 王璟, 許濤, 駱起昕 申請人:曙光信息產(chǎn)業(yè)(北京)有限公司