專利名稱:基于雙向信息流的分布式監(jiān)控方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息技術(shù)領(lǐng)域,特別涉及一種基于雙向信息流的分布式監(jiān)控方法。
背景技術(shù):
隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,基于網(wǎng)絡(luò)互聯(lián)的各種分布式應(yīng)用系統(tǒng)也逐漸增多。如提供WWW服務(wù)的Web服務(wù)器機群、提供數(shù)據(jù)庫服務(wù)的數(shù)據(jù)庫服務(wù)器機群、提供計算服務(wù)的計算服務(wù)器機群等。在很多應(yīng)用場合,如數(shù)據(jù)中心、電子商務(wù)、科學(xué)計算等,機群中包含大量的服務(wù)器節(jié)點和網(wǎng)絡(luò)設(shè)備,往往是少則幾十個,多則成百上千個,而且這些服務(wù)器節(jié)點和設(shè)備的物理位置的分布范圍也可能是很廣的。如何對上述這樣的分布式系統(tǒng)進(jìn)行有效地監(jiān)測和控制,以能夠及時地發(fā)現(xiàn)并排除系統(tǒng)中已存在的和潛在的故障,保證系統(tǒng)高效可靠的運行,便成為分布式監(jiān)控系統(tǒng)需要解決的問題。
傳統(tǒng)的分布式監(jiān)控系統(tǒng)大多集中在信息獲取方面,也就是監(jiān)測方面,而在對系統(tǒng)的控制能力上相對是比較弱的,特別是在自動控制能力上就更加薄弱了。比較有代表性的就是基于簡單網(wǎng)絡(luò)管理協(xié)議(SNMP)的監(jiān)控系統(tǒng),其大多數(shù)系統(tǒng)都是利用SNMP來獲取所需的信息,加以顯示和分析,當(dāng)發(fā)現(xiàn)一些可能的問題時便通知管理員,通過人工干預(yù)進(jìn)行故障發(fā)現(xiàn)和排除。這種人工控制方式往往會導(dǎo)致系統(tǒng)的故障不能及時得到處理,影響整個系統(tǒng)的工作。在有大量節(jié)點,而且節(jié)點物理位置分布廣泛的機群應(yīng)用中,這個問題會更加突出,同時導(dǎo)致人力、物力和財力的花費。
對傳統(tǒng)的分布式監(jiān)控系統(tǒng)結(jié)構(gòu)進(jìn)行分析,我們發(fā)現(xiàn),導(dǎo)致上述問題的一個重要原因就是其信息流大多是單向的,即信息大多是從被監(jiān)控方流向監(jiān)控方,而缺乏一個有效的從監(jiān)控方到被監(jiān)控方的控制信息流。盡管像SNMP協(xié)議也提供了從監(jiān)控方到被監(jiān)控方的信息流功能,但其功能很弱,一般只能通過其進(jìn)行字符型或整型數(shù)據(jù)的傳送,很難滿足一些復(fù)雜控制的需求。例如監(jiān)控方遠(yuǎn)程下載某個故障處理程序到被監(jiān)控方并運行,排除故障。
圖1為傳統(tǒng)的分布式監(jiān)控系統(tǒng)結(jié)構(gòu)示意圖。被監(jiān)控方1通過其上的監(jiān)控代理2傳送監(jiān)測信息3到監(jiān)控方4,監(jiān)控方4上的監(jiān)測、顯示和報警5接受其所需的監(jiān)測信息3,進(jìn)行顯示或報警等;監(jiān)控方4上的監(jiān)測、顯示和報警5也可以通過被監(jiān)控方1上的監(jiān)控代理2向其傳送字符型或整型數(shù)據(jù)信息6,進(jìn)行一些閾值的設(shè)定等。
發(fā)明內(nèi)容
本發(fā)明的目的是提出一種基于雙向信息流的分布式監(jiān)控系統(tǒng)結(jié)構(gòu)和方法。
為實現(xiàn)上述目的,一種基于雙向信息流的分布式監(jiān)控方法,包括位于監(jiān)控方上的監(jiān)測5從被監(jiān)控方接收監(jiān)測信息;位于監(jiān)控方上的中心控制與分析7從監(jiān)測5接收監(jiān)測信息并對接收的監(jiān)測信息進(jìn)行分析決策;位于被監(jiān)控方上的控制信息通道接口9,接收來自中心控制與分析7的文件數(shù)據(jù)和控制命令數(shù)據(jù)并執(zhí)行來自中心控制與分析7的控制命令,然后,返回結(jié)果給中心控制與分析7。
采用這種結(jié)構(gòu),當(dāng)監(jiān)控方發(fā)現(xiàn)被監(jiān)控方出現(xiàn)故障或存在潛在的故障時,便根據(jù)不同的故障確定相應(yīng)的處理方案,然后通過控制信息通道下載相應(yīng)的處理程序到被監(jiān)控方并執(zhí)行,排除故障。這樣,就大大提高了監(jiān)控方對被監(jiān)控方的控制能力,實現(xiàn)了自動的故障分析和排除。從而不僅使故障得到及時處理,提高了整個機群系統(tǒng)的性能和可用性,而且為系統(tǒng)的升級和維護(hù)帶來了很大的方便,極大地節(jié)省了人力、物力和財力。
具體實施例方式
圖2為基于雙向信息流的分布式監(jiān)控系統(tǒng)結(jié)構(gòu)示意圖。與圖1所示的傳統(tǒng)分布式監(jiān)控系統(tǒng)結(jié)構(gòu)相比,其不同在于,監(jiān)控方4上的監(jiān)測、顯示和報警5接受到監(jiān)測信息3之后,將其傳送到中心分析和控制7,中心控制與分析7對接受的監(jiān)測信息3進(jìn)行分析決策,通過其上的控制信息通道接口8和被監(jiān)控方上1的控制信息通道接口9傳送文件數(shù)據(jù)或控制命令數(shù)據(jù)10到被監(jiān)控方1,并控制被監(jiān)控方1執(zhí)行所需的處理程序或控制命令。
采用基于雙向信息流的分布式監(jiān)控系統(tǒng),當(dāng)監(jiān)控方的分析控制軟件發(fā)現(xiàn)被監(jiān)控方出現(xiàn)故障或存在潛在的故障時,便可以根據(jù)需要,主動地、有針對性地、動態(tài)地下載一些故障檢測程序到被監(jiān)控方,改變被監(jiān)控方的監(jiān)測信息(如增加或減少監(jiān)視信息的節(jié)點種類和上報頻率、提高監(jiān)視信息密度等),為其提供分析控制所需的監(jiān)測信息;在獲取充分的監(jiān)測信息之后,通過故障原因分析,最終定位故障原因;針對其故障,確定相應(yīng)的處理方案,并通過控制信息通道下載相應(yīng)的處理程序到被監(jiān)控方并執(zhí)行,排除故障。這樣,就大大提高了監(jiān)控方對被監(jiān)控方的控制能力,實現(xiàn)了自動的故障分析和排除。從而不僅使故障得到及時處理,提高了整個機群系統(tǒng)的性能和可用性,而且為系統(tǒng)的升級和維護(hù)帶來了很大的方便,極大地節(jié)省了人力、物力和財力。
圖3給出了基于雙向信息流分布式監(jiān)控系統(tǒng)結(jié)構(gòu)的一種實施方式。其工作流程描述如下(1)監(jiān)控方4上的中心控制與分析7通過其上SNMP程序5定購其所需的監(jiān)測信息,SNMP程序5將定購信息轉(zhuǎn)化為SNMP SET信息6傳送到被監(jiān)控方1上的SNMP程序2;(2)被監(jiān)控方1上的SNMP程序2根據(jù)收到的定購信息進(jìn)行處理,將監(jiān)控方4所需的監(jiān)測信息轉(zhuǎn)化為SNMP GET信息3傳送到監(jiān)控方4上的SNMP程序5,監(jiān)控方4上的SNMP程序5對收到的監(jiān)測信息進(jìn)行整理和預(yù)處理之后,將其傳給監(jiān)控方4上的中心分析和控制7;(3)中心控制與分析7對接受到的監(jiān)測信息進(jìn)行分析、處理和決策,如有必要,決定動態(tài)增加監(jiān)視信息節(jié)點,進(jìn)一步收集系統(tǒng)信息;(這一步驟有可能被多次重復(fù))
(4)中心控制與分析7對接受到的監(jiān)測信息進(jìn)行分析、處理和決策,從文件和控制命令庫13中獲取所需的文件和控制命令屬性信息14,轉(zhuǎn)化為相應(yīng)的控制命令,通過其上的控制命令發(fā)送接口8傳送控制命令數(shù)據(jù)10到被監(jiān)控方上1的控制命令接受和執(zhí)行程序9;(5)被監(jiān)控方上1的控制命令接受和執(zhí)行程序9根據(jù)所接受的控制命令,采取相應(yīng)的處理。如果是運行已經(jīng)下載的程序或系統(tǒng)命令,則直接控制執(zhí)行;如果是需要下載文件,則調(diào)用被監(jiān)控方1上的FTP客戶端程序11下載文件;(6)被監(jiān)控方1上的FTP客戶端程序11接受來自控制命令接受和執(zhí)行程序9的下載命令17后,發(fā)送文件訪問請求15到監(jiān)控方4上的FTP服務(wù)器程序12,F(xiàn)TP服務(wù)器程序12從文件和控制命令庫13中取得文件數(shù)據(jù)16,將其傳遞給FTP客戶端程序11,F(xiàn)TP客戶端程序11在完成文件傳輸后,返回結(jié)果給控制命令接受和執(zhí)行程序9;(7)控制命令接受和執(zhí)行程序9接受FTP客戶端程序11的返回結(jié)果以及其直接控制運行程序的返回結(jié)果,通過監(jiān)控方4上的控制命令發(fā)送接口8返回結(jié)果給中心分析和控制7。
這樣,就實現(xiàn)了從信息的定購、采集、分析處理、故障發(fā)現(xiàn)到故障排除的自動化。當(dāng)然,這只是一種實施方式,根據(jù)具體的應(yīng)用環(huán)境還會有其它的實施方式。如不采用FTP協(xié)議傳遞文件等。
權(quán)利要求
1.一種基于雙向信息流的分布式監(jiān)控方法,包括位于監(jiān)控方上的監(jiān)測(5)從被監(jiān)控方接收監(jiān)測信息;位于監(jiān)控方上的中心控制與分析(7)從監(jiān)測(5)接收監(jiān)測信息并對接收的監(jiān)測信息進(jìn)行分析決策;位于被監(jiān)控方上的控制信息通道接口(9),接收來自中心控制與分析(7)的文件數(shù)據(jù)和控制命令數(shù)據(jù)并執(zhí)行來自中心控制與分析(7)的控制命令,然后,返回結(jié)果給中心控制與分析(7)。
2.按權(quán)利要求1所述的方法,其特征在于所述監(jiān)測(5)包括顯示和報警。
3.按權(quán)利要求1所述的方法,其特征在于所述文件數(shù)據(jù)包括諸如故障監(jiān)測程序和故障處理程序的各種可執(zhí)行程序和配置文件。
4.按權(quán)利要求1所述的方法,其特征在于所述控制命令數(shù)據(jù)包括下載文件命令、運行程序命令和系統(tǒng)命令。
5.按權(quán)利要求1所述的方法,其特征在于還包括位于監(jiān)控方的存儲文件和控制命令的數(shù)據(jù)庫。
全文摘要
一種基于雙向信息流的分布式監(jiān)控方法,包括位于監(jiān)控方上的監(jiān)測(5)從被監(jiān)控方接收監(jiān)測信息;位于監(jiān)控方上的中心控制與分析(7)從監(jiān)測(5)接收監(jiān)測信息并對接收的監(jiān)測信息進(jìn)行分析決策;位于被監(jiān)控方上的控制信息通道接口(9),接收來自中心控制與分析(7)的文件數(shù)據(jù)和控制命令數(shù)據(jù)。當(dāng)監(jiān)控方發(fā)現(xiàn)被監(jiān)控方出現(xiàn)故障或存在潛在的故障時,便根據(jù)不同的故障確定相應(yīng)的處理方案,然后通過控制信息通道下載相應(yīng)的處理程序到被監(jiān)控方并執(zhí)行,排除故障。這樣,就大大提高了監(jiān)控方對被監(jiān)控方的控制能力,實現(xiàn)了自動的故障分析和排除。從而不僅使故障得到及時處理,提高了整個機群系統(tǒng)的性能和可用性,而且為系統(tǒng)的升級和維護(hù)帶來了很大的方便,極大地節(jié)省了人力、物力和財力。
文檔編號G06F11/30GK1485737SQ0314725
公開日2004年3月31日 申請日期2003年7月10日 優(yōu)先權(quán)日2003年7月10日
發(fā)明者范中磊, 許魯, 韓月, 王敏 申請人:中國科學(xué)院計算技術(shù)研究所