專利名稱:一種監(jiān)控系統(tǒng)及其保障業(yè)務連續(xù)性的方法
技術領域:
本發(fā)明涉及計算機業(yè)務系統(tǒng)領域,具體涉及一種監(jiān)控系統(tǒng)及其保障業(yè)務連續(xù)性的 方法。
背景技術:
企業(yè)飛速發(fā)展,其經(jīng)營管理等各項業(yè)務對IT系統(tǒng)的依賴性也隨之增加,故對業(yè)務 運行系統(tǒng)的高可靠性和高可用性的要求也越來越高。IT系統(tǒng)即使發(fā)生短暫故障,也將直接 導致業(yè)務停滯,給企業(yè)帶來經(jīng)濟損失。尤其,有些業(yè)務對連續(xù)運行有較高的要求,一旦業(yè)務 不能連續(xù)運行,不但會給企業(yè)的運作帶來極大的困難,企業(yè)的商業(yè)信譽也必將受到致命的 打擊,在競爭中處于劣勢,造成不可估量的后果。當前的業(yè)務部署方案,大都直接依賴于物理機,如圖1所示,即業(yè)務直接部署在物 理機之上,這種方式下用戶可以方便地操作物理機以使用業(yè)務。但此方案也有不足當物 理機由于本身或外界的原因?qū)е仑撦d過大,會影響業(yè)務的正常運行,從而使業(yè)務的穩(wěn)定運 行得不到保障;當物理機宕機,業(yè)務也隨之停止運行,這樣業(yè)務的運行也不能得到連續(xù)性保障。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術問題是,提供一種監(jiān)控系統(tǒng)及其保障業(yè)務連續(xù)性的方法, 以保障業(yè)務的連接性。為了解決上述問題,本發(fā)明公開了一種保障業(yè)務連續(xù)性的方法,包括實時監(jiān)控部署有一個或多個業(yè)務的物理機的運行狀態(tài),當監(jiān)控發(fā)現(xiàn)所述物理機發(fā) 生設定故障時,則將所述物理機上部署的所有業(yè)務遷移到其他物理機上。較佳地,上述方法中,監(jiān)控發(fā)現(xiàn)所述物理機發(fā)生設定故障指監(jiān)控發(fā)現(xiàn)所述物理機的一種或幾種設定信息偏離設定的閾值范圍。較佳地,上述方法還包括,監(jiān)控發(fā)現(xiàn)所述物理機發(fā)生設定故障時,所述物理機進入 預警模式,并通知用戶將進行業(yè)務遷移。較佳地,上述方法中,所述物理機上所有業(yè)務均遷移到其他物理機上以后,該方法 還包括在所述物理機恢復正常后,可將已遷移的業(yè)務遷移回經(jīng)過恢復正常的物理機上。本發(fā)明還公開了一種監(jiān)控系統(tǒng),包括監(jiān)控單元,實時監(jiān)控部署有一個或多個業(yè)務的物理機的運行狀態(tài);遷移單元,在所述監(jiān)控單元發(fā)現(xiàn)所述物理機發(fā)生設定故障時,將所述物理機上部 署的所有業(yè)務遷移到其他物理機上。較佳地,上述系統(tǒng)中,所述監(jiān)控單元,發(fā)現(xiàn)所述物理機發(fā)生設定故障指監(jiān)控發(fā)現(xiàn)所述物理機的一種或幾種設定信息偏離設定的閾值范圍。較佳地,上述系統(tǒng)還包括,預警單元,在所述監(jiān)控單元發(fā)現(xiàn)所述物理機發(fā)生設定故障時,控制所述物理機進入預警模式,并通知用戶將進行業(yè)務遷移。較佳地,上述系統(tǒng)還包括,恢復單元,在所述遷移單元將所述物理機上所有業(yè)務均 遷移到其他物理機上以后,在所述物理機恢復正常后,可將已遷移的業(yè)務遷移回經(jīng)過恢復 正常的物理機上。本發(fā)明實施例使業(yè)務可以不間斷地運行,降低了系統(tǒng)可能宕機對業(yè)務的潛在影 響,進而降低了計算機業(yè)務系統(tǒng)的開發(fā)成本,具有非常廣闊的應用前景。
圖1為傳統(tǒng)的與物理機緊耦合的業(yè)務部署示意圖;圖2為本實施例1中監(jiān)控系統(tǒng)保障業(yè)務連續(xù)性的流程示意圖;圖3為本實施例2中監(jiān)控系統(tǒng)的結構示意圖。
具體實施例方式下面結合附圖及具體實施例對本發(fā)明技術方案做進一步詳細說明。需要說明的 是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。由于現(xiàn)有物理機與業(yè)務間緊耦合,即物理機上部署的業(yè)務的運行將受到物理機的 影響。例如,物理機發(fā)生異常時,可能會導致業(yè)務的中斷。而本發(fā)明申請人發(fā)現(xiàn)物理機中可 能會發(fā)生某些故障,這些故障可能不會直接造成物理機宕機,但這些故障可能會間接或潛 在地影響物理機的運行,以至于影響業(yè)務的運行?;诖?,本發(fā)明申請人將這些可能影響物 理機運行的故障作為設定故障,并提出實時監(jiān)控部署有一個或多個業(yè)務的物理機的運行狀 態(tài),當監(jiān)控發(fā)現(xiàn)該物理機發(fā)生設定故障,則將該物理機上部署的所有業(yè)務遷移到其他物理 機上。即在物理機宕機之前,就將業(yè)務遷移到其他物理機上,從而保障了業(yè)務的連接性。實施例1本實施例基于上述思想,提供一種保障業(yè)務連續(xù)性的方法,該方法包括如下步驟, 如圖2所示步驟100,實時監(jiān)控部署有一個或多個業(yè)務的物理機的運行狀態(tài);步驟200,監(jiān)控發(fā)現(xiàn)物理機上發(fā)生設定故障時,將物理機上部署的所有業(yè)務遷移到 其他物理機上,其中,可以將業(yè)務遷移到其他一臺物理機上,也可以遷移到其他幾臺物理機 上,只要將業(yè)務遷移到安全的環(huán)境,保證業(yè)務不中斷即可。該步驟中,監(jiān)控發(fā)現(xiàn)物理機發(fā)生設定故障指監(jiān)控發(fā)現(xiàn)物理機的一種或幾種設定 信息的值偏離設定的閾值范圍。如CPU溫度持續(xù)超過設定的CPU溫度的閾值范圍,主板風 扇轉(zhuǎn)速低于設定的轉(zhuǎn)速的閾值范圍等。這樣判斷的其中一個目的是判斷物理機是否處于亞 健康狀態(tài),即可能導致宕機,例如,物理機的一些設定信息偏離設定的閾值范圍時,雖然沒 有立即影響物理機的運行,但卻可能存在導致宕機的風險,因此,監(jiān)控發(fā)現(xiàn)物理機的一種或 幾種設定信息偏離設定的閾值范圍時,即要進行業(yè)務遷移的操作。還有一些優(yōu)選方案中,監(jiān)控發(fā)現(xiàn)物理機發(fā)生設定故障時,物理機可以進入預警模 式,并通知用戶將進行業(yè)務遷移。這樣,也可以由用戶來選擇相應的操作。例如,將哪些業(yè) 務遷移到哪些物理機上。還有方案中,物理機上所有業(yè)務均遷移到其他物理機上以后,還可以修復該物理機之后再將已遷移的業(yè)務遷移回經(jīng)過恢復操作的物理機上。實施例2本實施例提供一種系統(tǒng),該系統(tǒng)如圖3所示,包括物理機(1),業(yè)務子系統(tǒng)O),業(yè) 務體(3)以及監(jiān)控系統(tǒng)0)。其中,物理機中嵌入業(yè)務子系統(tǒng),并分配給業(yè)務子系統(tǒng)相應的 資源供其使用,物理機可以嵌入多個業(yè)務子系統(tǒng)。業(yè)務子系統(tǒng)上部署業(yè)務體,業(yè)務子系統(tǒng)提 供業(yè)務體運行所需要的全部環(huán)境,業(yè)務的管理與操作只在業(yè)務子系統(tǒng)上進行,每個業(yè)務子 系統(tǒng)根據(jù)情況部署一個或多個業(yè)務體。監(jiān)控系統(tǒng)部署在物理機上,對物理機的運行狀態(tài)實 時監(jiān)控,監(jiān)控系統(tǒng)可以配置,當物理機的設定信息(如負載、風扇轉(zhuǎn)速、溫度)超過既定的閥 值范圍時,會產(chǎn)生告警,并提示用戶,這樣用戶可以將業(yè)務子系統(tǒng)遷移到其它健康狀況較好 的物理機。其中,物理機(1)是整個體系架構的載體,采用定制化的主操作系統(tǒng);業(yè)務子系統(tǒng)(2)是業(yè)務的載體,子業(yè)務系統(tǒng)可以安裝多種主流操作系統(tǒng),如主流 Windows 或 Linux 等;業(yè)務體(3)用戶使用的業(yè)務程序;監(jiān)控系統(tǒng)(4)負責實時監(jiān)控物理機的運行狀態(tài),采集物理機的負載信息,并以一 定的形式展示給用戶,并在監(jiān)控發(fā)現(xiàn)物理機發(fā)生設定故障時,則將所述物理機上部署的所 有業(yè)務(即為業(yè)務子系統(tǒng)及業(yè)務體)遷移到其他物理機上。具體地,監(jiān)控系統(tǒng)可以包括監(jiān)控單元和遷移單元。監(jiān)控單元,實時監(jiān)控部署有一個或多個業(yè)務的物理機的運行狀態(tài);遷移單元,在監(jiān)控單元發(fā)現(xiàn)物理機發(fā)生設定故障時,將物理機上部署的所有業(yè)務 遷移到其他物理機上。監(jiān)控單元發(fā)現(xiàn)物理機發(fā)生設定故障指監(jiān)控發(fā)現(xiàn)物理機的一種或幾種設定信息偏離設定的閾值范圍。優(yōu)選方案中,監(jiān)控系統(tǒng)還可以包括預警單元,在監(jiān)控單元發(fā)現(xiàn)物理機發(fā)生設定故 障時,預警單元控制物理機進入預警模式,并通知用戶將進行業(yè)務遷移。還有一些優(yōu)選方案中,監(jiān)控系統(tǒng)還可以包括恢復單元,在遷移單元將物理機上所 有業(yè)務均遷移到其他物理機上以后,在物理機的恢復正常后,將已遷移出去的業(yè)務遷移回 經(jīng)過恢復操作的物理機上。從上述實施例可以看出,本發(fā)明的實施例打破了現(xiàn)有物理機與業(yè)務間的緊耦合, 通過加入虛擬層,從而使業(yè)務的運行盡可能不受物理機的影響,達到通過監(jiān)控物理機的運 行狀態(tài)來保證業(yè)務的正常運行,實現(xiàn)了業(yè)務的連續(xù)性。并且,在業(yè)務遷移完畢以后,還能減 輕原物理機的負載。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技 術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修 改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
權利要求
1.一種保障業(yè)務連續(xù)性的方法,其特征在于,該方法包括實時監(jiān)控部署有一個或多個業(yè)務的物理機的運行狀態(tài),當監(jiān)控發(fā)現(xiàn)所述物理機發(fā)生設 定故障時,則將所述物理機上部署的所有業(yè)務遷移到其他物理機上。
2.如權利要求1所述的方法,其特征在于,監(jiān)控發(fā)現(xiàn)所述物理機發(fā)生設定故障指監(jiān)控發(fā)現(xiàn)所述物理機的一種或幾種設定信息偏離設定的閾值范圍。
3.如權利要求1或2所述的方法,其特征在于,該方法還包括監(jiān)控發(fā)現(xiàn)所述物理機發(fā)生設定故障時,所述物理機進入預警模式,并通知用戶將進行 業(yè)務遷移。
4.如權利要求3所述的方法,其特征在于,所述物理機上所有業(yè)務均遷移到其他物理 機上以后,該方法還包括在所述物理機恢復正常后,可將已遷移的業(yè)務遷移回經(jīng)過恢復正常的物理機上。
5.一種監(jiān)控系統(tǒng),其特征在于,該系統(tǒng)包括監(jiān)控單元,實時監(jiān)控部署有一個或多個業(yè)務的物理機的運行狀態(tài);遷移單元,在所述監(jiān)控單元發(fā)現(xiàn)所述物理機發(fā)生設定故障時,將所述物理機上部署的 所有業(yè)務遷移到其他物理機上。
6.如權利要求5所述的系統(tǒng),其特征在于,所述監(jiān)控單元,發(fā)現(xiàn)所述物理機發(fā)生設定故障指監(jiān)控發(fā)現(xiàn)所述物理機的一種或幾種設定信息偏離設定的閾值范圍。
7.如權利要求5或6所述的系統(tǒng),其特征在于,該系統(tǒng)還包括預警單元,在所述監(jiān)控單元發(fā)現(xiàn)所述物理機發(fā)生設定故障時,控制所述物理機進入預 警模式,并通知用戶將進行業(yè)務遷移。
8.如權利要求7所述的系統(tǒng),其特征在于,該系統(tǒng)還包括恢復單元,在所述遷移單元將所述物理機上所有業(yè)務均遷移到其他物理機上以后,在 所述物理機恢復正常后,可將已遷移的業(yè)務遷移回經(jīng)過恢復正常的物理機上。
全文摘要
本發(fā)明公開了一種監(jiān)控系統(tǒng)及其保障業(yè)務連續(xù)性的方法,涉及計算機業(yè)務系統(tǒng)領域。本發(fā)明公開的方法包括實時監(jiān)控部署有一個或多個業(yè)務的物理機的運行狀態(tài),當監(jiān)控發(fā)現(xiàn)所述物理機發(fā)生設定故障時,則將所述物理機上部署的所有業(yè)務遷移到其他物理機上。本發(fā)明實施例使業(yè)務可以不間斷地運行,降低了系統(tǒng)可能宕機對業(yè)務的潛在影響,進而降低了計算機業(yè)務系統(tǒng)的開發(fā)成本,具有非常廣闊的應用前景。
文檔編號H04L12/24GK102111300SQ20111006048
公開日2011年6月29日 申請日期2011年3月14日 優(yōu)先權日2011年3月14日
發(fā)明者王洪亮, 陳志強 申請人:浪潮(北京)電子信息產(chǎn)業(yè)有限公司