專利名稱:無(wú)人值守系統(tǒng)自動(dòng)監(jiān)護(hù)方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及遠(yuǎn)程監(jiān)控、集群、系統(tǒng)還原技術(shù),特別涉及一種無(wú)人值守系統(tǒng)自動(dòng)監(jiān)護(hù) 的方法。
背景技術(shù):
自動(dòng)監(jiān)護(hù)系統(tǒng)用途廣泛,也是目前研究的熱點(diǎn)。特別是在高速運(yùn)轉(zhuǎn),需要同時(shí)處理 大批量數(shù)據(jù)的服務(wù)器端,系統(tǒng)的自動(dòng)監(jiān)護(hù)技術(shù)顯得尤為重要?,F(xiàn)有的遠(yuǎn)程監(jiān)控技術(shù)可以實(shí) 現(xiàn)無(wú)人值守,但系統(tǒng)不能自動(dòng)處理故障。集群技術(shù)只解決系統(tǒng)出現(xiàn)故障時(shí)維護(hù)系統(tǒng)的正常 運(yùn)行,但也不能自動(dòng)處理故障。如何實(shí)現(xiàn)無(wú)人值守系統(tǒng)的自動(dòng)監(jiān)護(hù),以最快的速度和最高的 效率及時(shí)處理系統(tǒng)故障,實(shí)現(xiàn)真正的無(wú)人值守,減少系統(tǒng)故障造成的損失,是無(wú)人值守系統(tǒng) 自動(dòng)監(jiān)護(hù)技術(shù)需要解決的問題。目前常見的系統(tǒng)自動(dòng)監(jiān)護(hù)技術(shù)包括1、遠(yuǎn)程監(jiān)控技術(shù);2、集群技術(shù);3、人工系統(tǒng) 還原技術(shù)。簡(jiǎn)單介紹如下現(xiàn)有技術(shù)一遠(yuǎn)程監(jiān)控技術(shù)原理遠(yuǎn)程監(jiān)控技術(shù)主要由現(xiàn)場(chǎng)監(jiān)控模塊、通信系統(tǒng)和監(jiān)控中心組成;現(xiàn)場(chǎng)監(jiān)控 模塊負(fù)責(zé)完成信息的采集和響應(yīng)監(jiān)控中心發(fā)出的控制命令;通信系統(tǒng)負(fù)責(zé)傳輸監(jiān)測(cè)數(shù)據(jù)和 命令;監(jiān)控中心負(fù)責(zé)收集各監(jiān)控模塊上傳的監(jiān)控信息,并給監(jiān)控模塊發(fā)送各種操作命令。缺點(diǎn)只解決了遠(yuǎn)程系統(tǒng)無(wú)人值守問題,出現(xiàn)故障時(shí)不能自動(dòng)修復(fù),需要人工搶 修?,F(xiàn)有技術(shù)二 集群技術(shù)原理集群是一種并行處理系統(tǒng),由很多連接在一起的獨(dú)立的計(jì)算機(jī)組成,像一個(gè) 整體的計(jì)算資源一樣協(xié)同工作;集群系統(tǒng)一般是指物理上分散的兩個(gè)或多個(gè)計(jì)算機(jī)節(jié)點(diǎn) 通過局域網(wǎng)絡(luò)連接在一起,對(duì)于用戶和應(yīng)用程序來(lái)說(shuō)像一個(gè)單一的系統(tǒng)。缺點(diǎn)只解決了出現(xiàn)故障時(shí)維持系統(tǒng)運(yùn)行的問題,而故障修復(fù)仍然需要人工處理?,F(xiàn)有技術(shù)三系統(tǒng)還原技術(shù)原理系統(tǒng)還原技術(shù),就是在硬盤中備份一份系統(tǒng)的原始配置,當(dāng)系統(tǒng)出現(xiàn)故障 時(shí),恢復(fù)系統(tǒng)的原始配置。缺點(diǎn)系統(tǒng)出現(xiàn)故障時(shí),是在人的操作下進(jìn)行還原,而不是真正的自動(dòng)還原。綜上所述,現(xiàn)有技術(shù)不能解決無(wú)人值守的系統(tǒng)故障修復(fù),系統(tǒng)出現(xiàn)故障時(shí)不能及 時(shí)處理,并且故障處理的成本高。
發(fā)明內(nèi)容
本發(fā)明實(shí)例提供了一種無(wú)人值守系統(tǒng)自動(dòng)監(jiān)護(hù)的方法和裝置,用以解決現(xiàn)有技術(shù) 不能自動(dòng)監(jiān)護(hù)、自動(dòng)修復(fù)的缺陷,以及系統(tǒng)故障修復(fù)成本高的問題。一種無(wú)人值守系統(tǒng)自動(dòng)監(jiān)護(hù)的方法包括建立虛擬機(jī)集群,通過結(jié)點(diǎn)之間的互相監(jiān)護(hù),實(shí)時(shí)發(fā)現(xiàn)不能正常訪問的故障點(diǎn);
嘗試以虛擬機(jī)的備份、系統(tǒng)還原的方式進(jìn)行軟件故障修復(fù);通過定時(shí)訪問其它虛擬機(jī)的服務(wù),確定該虛擬機(jī)是否運(yùn)行正常,一旦無(wú)法訪問,就 做出相應(yīng)的自動(dòng)處理。一種無(wú)人值守系統(tǒng)自動(dòng)監(jiān)護(hù)的裝置包括系統(tǒng)分成了兩層,分別是虛擬機(jī)集群組成的業(yè)務(wù)層和虛擬機(jī)載體(真實(shí)設(shè)備)集 群組成的支撐層;虛擬機(jī)群集組成的業(yè)務(wù)成,用于結(jié)點(diǎn)之間互相監(jiān)護(hù),當(dāng)某個(gè)結(jié)點(diǎn)出現(xiàn)不可修復(fù)故 障時(shí),這種監(jiān)護(hù)關(guān)系需要自動(dòng)重新組織;虛擬機(jī)載體(真實(shí)設(shè)備)集群組成的支撐層,接收虛擬機(jī)系統(tǒng)的還原請(qǐng)求。本發(fā)明實(shí)例把系統(tǒng)分為虛擬機(jī)集群組成的業(yè)務(wù)層和虛擬機(jī)載體(真實(shí)設(shè)備)集群 組成的支撐層;虛擬機(jī)業(yè)務(wù)層節(jié)點(diǎn)之間通過一定的邏輯關(guān)系相互監(jiān)控,當(dāng)某個(gè)結(jié)點(diǎn)出現(xiàn)不 可修復(fù)故障時(shí),監(jiān)護(hù)關(guān)系自動(dòng)重新組織,維護(hù)系統(tǒng)正常運(yùn)行,并實(shí)時(shí)處理故障點(diǎn);除硬件故 障外,軟件故障均可由系統(tǒng)自動(dòng)監(jiān)護(hù)、自動(dòng)修復(fù)還原,實(shí)現(xiàn)了真正的無(wú)人值守,提高了故障 處理效率,降低了故障處理成本。
圖1為本發(fā)明實(shí)施例提供的無(wú)人值守系統(tǒng)制動(dòng)監(jiān)護(hù)、自動(dòng)處理的方法示意圖;圖2為本發(fā)明實(shí)施例提供的無(wú)人值守系統(tǒng)自動(dòng)監(jiān)護(hù)的的裝置結(jié)構(gòu)示意圖;圖3為本發(fā)明實(shí)施例提供的無(wú)人值守系統(tǒng)自動(dòng)監(jiān)護(hù)的的環(huán)境示意圖;圖4為本發(fā)明實(shí)施例提供的無(wú)人值守系統(tǒng)虛擬機(jī)循環(huán)隊(duì)列或中心服務(wù)器的監(jiān)護(hù) 方法示意圖。圖5為本發(fā)明實(shí)施例提供的無(wú)人值守系統(tǒng)虛擬機(jī)自動(dòng)處理的方法流程圖.
具體實(shí)施例方式針對(duì)現(xiàn)有技術(shù)的不能實(shí)現(xiàn)完全的無(wú)人值守自動(dòng)監(jiān)護(hù)和自動(dòng)修復(fù),系統(tǒng)修復(fù)效率 低,修護(hù)成本高的問題,本發(fā)明實(shí)施例把系統(tǒng)分成了兩層,分別是虛擬機(jī)集群組成的業(yè)務(wù)層 和虛擬機(jī)載體(真實(shí)設(shè)備)集群組成的支撐層;通過建立虛擬機(jī)集群,實(shí)現(xiàn)結(jié)點(diǎn)之間的互相 監(jiān)護(hù),實(shí)時(shí)發(fā)現(xiàn)不能正常訪問的故障點(diǎn),嘗試以虛擬機(jī)的備份、系統(tǒng)還原的方式進(jìn)行軟件故 障修復(fù);系統(tǒng)節(jié)點(diǎn)之間的監(jiān)護(hù)過程和軟件故障修復(fù)過程,不需要人工參與,所以系統(tǒng)修復(fù)的 效率高、成本低。如圖1所示,本發(fā)明實(shí)施例提供的無(wú)人值守系統(tǒng)自動(dòng)監(jiān)護(hù)的方法包括在自動(dòng)監(jiān)護(hù)階段,102監(jiān)護(hù)者向被監(jiān)護(hù)者發(fā)送訪問請(qǐng)求,訪問請(qǐng)求正常,則104休 眠一段時(shí)間再訪問,訪問超時(shí)或訪問結(jié)果不正確,105繼續(xù)發(fā)送訪問請(qǐng)求,若連續(xù)3次不正 常,說(shuō)明被監(jiān)護(hù)節(jié)點(diǎn)出現(xiàn)故障;被監(jiān)護(hù)節(jié)點(diǎn)出現(xiàn)故障,則進(jìn)入自動(dòng)處理階段,107向虛擬機(jī)載體發(fā)送系統(tǒng)還原請(qǐng) 求,108休眠一段時(shí)間,109向被監(jiān)護(hù)者發(fā)送訪問請(qǐng)求,訪問結(jié)果正常,說(shuō)明修護(hù)完成,該被 監(jiān)護(hù)者進(jìn)入被監(jiān)護(hù)狀態(tài)。如圖2所示,本發(fā)明實(shí)施例提供的無(wú)人值守系統(tǒng)自動(dòng)監(jiān)護(hù)、自動(dòng)修復(fù)的裝置,其特 征在于,該裝置包括
把系統(tǒng)分成兩層,分別是虛擬機(jī)集群組成的業(yè)務(wù)層和虛擬機(jī)載體(真實(shí)設(shè)備)集 群組成的支撐層,支撐層負(fù)責(zé)運(yùn)行業(yè)務(wù)層的虛擬機(jī),由業(yè)務(wù)層對(duì)外提供服務(wù);虛擬機(jī)之間互相監(jiān)護(hù),通過定時(shí)訪問其它虛擬機(jī)的服務(wù),確定該虛擬機(jī)是否運(yùn)行 正常;虛擬機(jī)載體是真實(shí)網(wǎng)絡(luò),是系統(tǒng)的支撐層,當(dāng)被監(jiān)護(hù)節(jié)點(diǎn)出現(xiàn)故障時(shí),接受虛擬機(jī) 網(wǎng)絡(luò)的還原請(qǐng)求。如圖3所示,本發(fā)明實(shí)施例提供的無(wú)人值守系統(tǒng)自動(dòng)監(jiān)護(hù)、自動(dòng)修復(fù)方法中業(yè)務(wù) 層和支撐層的部署。如圖4所示,本發(fā)明實(shí)施例提供的無(wú)人值守系統(tǒng)虛擬機(jī)循環(huán)隊(duì)列或中心服務(wù)器的 監(jiān)護(hù)方法示意圖。如圖5所示,本發(fā)明實(shí)施例提供的虛擬機(jī)自動(dòng)處理的方法包括下列步驟步驟501 監(jiān)聽系統(tǒng)還原請(qǐng)求(無(wú)限期等待)。步驟502 根據(jù)請(qǐng)求,定位要還原的虛擬機(jī)。步驟503 強(qiáng)制關(guān)閉需要還原的虛擬機(jī)。步驟504 用備份系統(tǒng)恢復(fù)故障虛擬機(jī)。步驟505 重新啟動(dòng)虛擬機(jī)。步驟506 判斷虛擬機(jī)啟動(dòng)成功與否,是則轉(zhuǎn)入501監(jiān)聽系統(tǒng)還原請(qǐng)求狀態(tài),否則 發(fā)出不可修復(fù)故障報(bào)警。通過以上的實(shí)施方式的描述,本發(fā)明實(shí)施例建立虛擬機(jī)集群,通過結(jié)點(diǎn)之間的互 相監(jiān)護(hù),實(shí)時(shí)發(fā)現(xiàn)不能正常訪問的故障點(diǎn);嘗試以虛擬機(jī)的備份、系統(tǒng)還原的方式進(jìn)行軟 件故障修復(fù),不成功的則為不可修復(fù)故障(通常是硬件故障),自動(dòng)發(fā)出告警(包含故障點(diǎn) 相關(guān)信息),等待人工更換設(shè)備,整個(gè)過程中,無(wú)人值守系統(tǒng)一直保持正常運(yùn)作。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍 之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種無(wú)人值守系統(tǒng)自動(dòng)監(jiān)護(hù)方法,其特征在于,該方法包括系統(tǒng)被分成了兩層,分別是虛擬機(jī)集群組成的業(yè)務(wù)層和虛擬機(jī)載體集群組成的支撐層;支撐層負(fù)責(zé)運(yùn)行和維護(hù)業(yè)務(wù)層的虛擬機(jī),由業(yè)務(wù)層對(duì)外提供服務(wù); 業(yè)務(wù)層中,虛擬機(jī)結(jié)點(diǎn)之間通過一定的邏輯關(guān)系相連,實(shí)時(shí)監(jiān)護(hù)節(jié)點(diǎn)是否能被正常訪 問,若不能正常訪問,則向支撐層故障虛擬機(jī)所在的那個(gè)載體發(fā)送系統(tǒng)還原請(qǐng)求,讓該虛擬 機(jī)恢復(fù)并重啟。
2.如權(quán)利要求1所述的方法,其特征在于,所述節(jié)點(diǎn)之間相互監(jiān)控的方法具體包括 給監(jiān)護(hù)者與被監(jiān)護(hù)者確定一個(gè)邏輯關(guān)系,把虛擬機(jī)結(jié)點(diǎn)在邏輯上組織成一個(gè)循環(huán)隊(duì)列,后一個(gè)節(jié)點(diǎn)監(jiān)護(hù)前一個(gè)節(jié)點(diǎn);每個(gè)虛擬機(jī)節(jié)點(diǎn)上都有虛擬機(jī)之間的邏輯關(guān)系圖,就像路由器上的路右表; 當(dāng)某個(gè)結(jié)點(diǎn)出現(xiàn)不可修復(fù)故障時(shí),故障點(diǎn)的前一個(gè)節(jié)點(diǎn)將監(jiān)控故障點(diǎn)的下一個(gè)節(jié)點(diǎn), 自動(dòng)重新組織監(jiān)護(hù)關(guān)系。
3.如權(quán)利要求1所述的方法,其特征在于,所述節(jié)點(diǎn)之間相互監(jiān)控的方法具體包括 所有的虛擬機(jī)節(jié)點(diǎn)由中心服務(wù)器監(jiān)護(hù),當(dāng)某個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),中心服務(wù)器向故障節(jié)點(diǎn)的虛擬機(jī)載體發(fā)送修復(fù)請(qǐng)求;中心服務(wù)器是由2個(gè)以上的服務(wù)器組成,當(dāng)一個(gè)服務(wù)器出現(xiàn)故障時(shí),啟用其他服務(wù)器 來(lái)監(jiān)護(hù)節(jié)點(diǎn)。
4.如權(quán)利要求2或3所述的方法,其特征在于,自動(dòng)監(jiān)護(hù)故障階段和自動(dòng)處理故障階段監(jiān)護(hù)者定期向被監(jiān)護(hù)者作出正常業(yè)務(wù)訪問,在沒有故障的情況下,能夠得到預(yù)期的訪 問結(jié)果;一旦發(fā)現(xiàn)無(wú)法訪問,監(jiān)護(hù)者立即向支撐層發(fā)出請(qǐng)求,要求支撐層對(duì)被監(jiān)護(hù)者進(jìn)行系統(tǒng) 還原;故障屬于軟件故障,虛擬機(jī)載體完全可以把虛擬機(jī)系統(tǒng)還原。
5.如權(quán)利要求4所述的方法,其特征在于,自動(dòng)監(jiān)護(hù)階段發(fā)現(xiàn)訪問超時(shí)或者結(jié)果不正常,需要重試η次,η次都失敗才進(jìn)入自動(dòng)故障處理階段, 避免誤操作性質(zhì)的系統(tǒng)還原、重啟,其中η是大于等于2、小于等于5的自然數(shù)。
6.如權(quán)利要求4所述的方法,其特征在于,自動(dòng)處理階段監(jiān)護(hù)者發(fā)出系統(tǒng)還原請(qǐng)求之后,虛擬機(jī)載體需要一定的時(shí)間去恢復(fù)虛擬機(jī)系統(tǒng)、重啟 虛擬機(jī);在虛擬機(jī)載體恢復(fù)虛擬機(jī)系統(tǒng)、重啟虛擬機(jī)期間,不能再發(fā)送對(duì)同一個(gè)被監(jiān)護(hù)者的系 統(tǒng)還原請(qǐng)求,以避免不斷地重啟;監(jiān)護(hù)者發(fā)出請(qǐng)求之后,就進(jìn)入一個(gè)檢測(cè)被監(jiān)護(hù)者是否恢復(fù)正常的循環(huán)當(dāng)中,直至檢測(cè) 到被監(jiān)護(hù)者已修復(fù),才返回到自動(dòng)監(jiān)護(hù)階段。
7.無(wú)人值守的自動(dòng)監(jiān)護(hù)系統(tǒng)裝置,其特征在于,該裝置包括虛擬機(jī)群集,處于系統(tǒng)的業(yè)務(wù)層,虛擬機(jī)節(jié)點(diǎn)之間通過循環(huán)隊(duì)列方式或中央服務(wù)器形 式相連,實(shí)現(xiàn)故障的自動(dòng)監(jiān)護(hù);虛擬機(jī)載體群集,處于系統(tǒng)的支撐層,接收來(lái)自業(yè)務(wù)層的系統(tǒng)修復(fù)請(qǐng)求。
全文摘要
本發(fā)明公開了一種無(wú)人值守系統(tǒng)自動(dòng)監(jiān)護(hù)方法,該方法包括使用虛擬機(jī)構(gòu)造無(wú)人值守系統(tǒng),以及由虛擬機(jī)結(jié)點(diǎn)相互監(jiān)控,及時(shí)發(fā)現(xiàn)故障、修復(fù)故障;實(shí)時(shí)的故障處理,以冗余節(jié)點(diǎn)維護(hù)系統(tǒng)的正常運(yùn)行;故障點(diǎn)的自動(dòng)修復(fù),針對(duì)軟件故障的系統(tǒng)還原;故障點(diǎn)的自動(dòng)處理,針對(duì)硬件故障的隔離和自動(dòng)告警;故障點(diǎn)修復(fù)(包括軟件還原和硬件更換)之后的自動(dòng)回歸,以及新增結(jié)點(diǎn)的加入,均由系統(tǒng)的自動(dòng)監(jiān)護(hù)、自動(dòng)處理。本發(fā)明解決了現(xiàn)有技術(shù)不能自動(dòng)搶修、自動(dòng)處理以及不能真正的自動(dòng)還原的問題。本發(fā)明同時(shí)公開了一種無(wú)人值守系統(tǒng)自動(dòng)監(jiān)護(hù)的方法及裝置。
文檔編號(hào)H04L12/26GK102111303SQ20091024423
公開日2011年6月29日 申請(qǐng)日期2009年12月28日 優(yōu)先權(quán)日2009年12月28日
發(fā)明者包一兵, 徐天嶺, 羅守山, 辛陽(yáng) 申請(qǐng)人:北京安碼科技有限公司