本發(fā)明屬于計(jì)算機(jī)領(lǐng)域,特別涉及一種用于監(jiān)控目標(biāo)系統(tǒng)的自動(dòng)化運(yùn)行維護(hù)監(jiān)測系統(tǒng)。
背景技術(shù):
目前絕大多數(shù)目標(biāo)系統(tǒng)主要依賴于手動(dòng)操作且無法實(shí)現(xiàn)自動(dòng)化的實(shí)時(shí)監(jiān)控系統(tǒng),因此,全自動(dòng)化的監(jiān)控平臺(tái)和實(shí)用的數(shù)據(jù)展示及分析界面具有很重要的意義。多數(shù)據(jù)源多平臺(tái)分布式數(shù)據(jù)采集技術(shù)面臨很多技術(shù)問題,首先,從目標(biāo)系統(tǒng)各節(jié)點(diǎn)所有設(shè)備中采集系統(tǒng)運(yùn)行數(shù)據(jù),這些數(shù)據(jù)涉及到諸如CPU,內(nèi)存、磁盤狀態(tài)主機(jī)基本信息,也涉及到nfds、tomcat等應(yīng)用狀態(tài)、還涉及到各服務(wù)器、各防火墻之間的連通性,如何開發(fā)有效的數(shù)據(jù)采集技術(shù),將分布式環(huán)境下各種信息采集并統(tǒng)一匯集到中心節(jié)點(diǎn)提供進(jìn)一步分析和呈現(xiàn)是個(gè)難點(diǎn)。其次,多節(jié)點(diǎn)數(shù)據(jù)傳輸可靠性、實(shí)時(shí)性(低延遲)、安全性,比較將多個(gè)節(jié)點(diǎn)上采集到的數(shù)據(jù)實(shí)時(shí)匯入到中心節(jié)點(diǎn),考慮在不同的網(wǎng)絡(luò)環(huán)境下(可直連至中心節(jié)點(diǎn),需要經(jīng)過中間機(jī)跳轉(zhuǎn)),不同的數(shù)據(jù)格式(日志型、浮點(diǎn)型等)、不同的匯聚頻率(秒級(jí),分鐘級(jí)、小時(shí)級(jí)等),不同的傳輸模式(上行數(shù)據(jù)、下行數(shù)據(jù))的背景下。第三,多業(yè)務(wù)數(shù)據(jù)分析,目標(biāo)系統(tǒng)運(yùn)行情況監(jiān)測需要涉及系統(tǒng)運(yùn)行數(shù)據(jù)、目標(biāo)系統(tǒng)數(shù)據(jù)、系統(tǒng)資源使用情況數(shù)據(jù),這些數(shù)據(jù)最終都會(huì)匯聚到中心節(jié)點(diǎn),如何針對(duì)已經(jīng)收到的數(shù)據(jù)進(jìn)行有效的統(tǒng)計(jì)分析,包括按小時(shí)、天、周、月的統(tǒng)計(jì)報(bào)表,待監(jiān)測系統(tǒng)的整體健康情況指標(biāo),系統(tǒng)各項(xiàng)監(jiān)控指標(biāo)的關(guān)聯(lián)性分析等,考慮到目標(biāo)系統(tǒng)監(jiān)控系統(tǒng)所要分析的數(shù)據(jù)較多,如何對(duì)日益增長的數(shù)據(jù)進(jìn)行有效分析給出系統(tǒng)的綜合狀態(tài)判斷,并能進(jìn)一步夠挖掘數(shù)據(jù)的內(nèi)部規(guī)律,甚至預(yù)先判斷出系統(tǒng)可能出問題的時(shí)間點(diǎn)和問題方向,從被動(dòng)運(yùn)維轉(zhuǎn)變成主動(dòng)運(yùn)維。
技術(shù)實(shí)現(xiàn)要素:
為了解決上述技術(shù)問題,本發(fā)明提供一種自動(dòng)化運(yùn)行維護(hù)監(jiān)測系統(tǒng),包括數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)發(fā)布系統(tǒng)、UI子系統(tǒng),
所述數(shù)據(jù)采集系統(tǒng)包括系統(tǒng)運(yùn)行情況監(jiān)測模塊組、業(yè)務(wù)數(shù)據(jù)監(jiān)測模塊組、配置管理模塊組、系統(tǒng)輔助模塊組、數(shù)據(jù)服務(wù)模塊組,
所述系統(tǒng)運(yùn)行情況監(jiān)測模塊組包括服務(wù)器資源監(jiān)測模塊、應(yīng)用服務(wù)監(jiān)測模塊、設(shè)備連通性監(jiān)測模塊、網(wǎng)速流量監(jiān)測模塊、系統(tǒng)資源監(jiān)測模塊、網(wǎng)絡(luò)鏈路監(jiān)測模塊,所述業(yè)務(wù)數(shù)據(jù)監(jiān)測模塊組包括數(shù)據(jù)入庫模塊、數(shù)據(jù)查詢模塊、穩(wěn)定度計(jì)算模塊、穩(wěn)定度告警模塊、穩(wěn)定度排名模塊,所述配置管理模塊組包括指標(biāo)管理模塊、主機(jī)管理模塊、模板管理模塊、行為管理模塊、事件管理模塊、告警配置模塊,所述系統(tǒng)輔助模塊組包括電話記錄模塊、發(fā)布通知模塊,所述數(shù)據(jù)服務(wù)模塊組包括數(shù)據(jù)管理模塊、對(duì)外接口模塊、統(tǒng)計(jì)分析模塊。
本發(fā)明的自動(dòng)化運(yùn)行維護(hù)監(jiān)測系統(tǒng),其中數(shù)據(jù)發(fā)布系統(tǒng)為分布式消息隊(duì)列系統(tǒng),所述分布式消息隊(duì)列系統(tǒng)可將多條消息加到一個(gè)消息集合中發(fā)布,不創(chuàng)建單獨(dú)的緩存,使用所述目標(biāo)系統(tǒng)的頁面緩存;發(fā)布者順序發(fā)布,訂閱者通常比發(fā)布者滯后時(shí)間,減少了緩存管理及垃圾收集的開銷。
優(yōu)選的本發(fā)明服務(wù)器資源監(jiān)測模塊包括文件系統(tǒng)使用率監(jiān)測單元、CPU使用率監(jiān)測單元、主機(jī)存活時(shí)間監(jiān)測單元、內(nèi)存使用率監(jiān)測單元、內(nèi)存總量監(jiān)測單元、交換分區(qū)使用率監(jiān)測單元、安全日志分析監(jiān)測單元、日志分析監(jiān)測單元、網(wǎng)卡狀態(tài)檢查監(jiān)測單元、異常登錄系統(tǒng)事件監(jiān)測單元、磁盤讀寫監(jiān)測單元;
優(yōu)選的本發(fā)明應(yīng)用服務(wù)監(jiān)測模塊包括監(jiān)測目標(biāo)系統(tǒng)的所有應(yīng)用程序和服務(wù),包括:nfs服務(wù)單元、tomcat服務(wù)單元、ssh服務(wù)單元、oracle服務(wù)單元、MstoreNode服務(wù)單元、IndexerServer服務(wù)單元、QuorumPeerMain服務(wù)單元;
優(yōu)選的本發(fā)明設(shè)備連通性監(jiān)測模塊能夠?qū)δ繕?biāo)系統(tǒng)硬件設(shè)備(包括服務(wù)器、交換機(jī))實(shí)時(shí)監(jiān)控連通性,支持故障告警;對(duì)于頻繁出現(xiàn)故障的設(shè)備,提出預(yù)警,便于預(yù)測和評(píng)估硬件及軟件情況;監(jiān)測目標(biāo)系統(tǒng)防火墻上各端口狀態(tài),包括:去往各節(jié)點(diǎn)的端口、連接目標(biāo)系統(tǒng)核心交換機(jī)的端口,并能支持故障告警;能夠監(jiān)控目標(biāo)系統(tǒng)核心交換機(jī)上的各端口狀態(tài)、數(shù)據(jù)庫對(duì)象狀態(tài)、異常IP連接、ASM狀態(tài)、數(shù)據(jù)庫備份情況等監(jiān)測;
本發(fā)明網(wǎng)絡(luò)流量監(jiān)測模塊可以監(jiān)控各網(wǎng)關(guān)服務(wù)器到加載機(jī)傳輸速率,將每日傳輸速率入庫,便于日后分析統(tǒng)計(jì),支持告警;
本發(fā)明網(wǎng)絡(luò)鏈路監(jiān)測模塊包括監(jiān)測各節(jié)點(diǎn)目標(biāo)系統(tǒng)到各網(wǎng)關(guān)服務(wù)器鏈路連通性。
本發(fā)明的數(shù)據(jù)入庫模塊每日將前一日各節(jié)點(diǎn)上報(bào)的基礎(chǔ)數(shù)據(jù)入庫,以便按不同條件查詢或使用;
本發(fā)明的數(shù)據(jù)查詢模塊能提供按不同條件查詢,并將查詢結(jié)果以曲線和表格顯示,且支持excel導(dǎo)出;查詢條件包括能按節(jié)點(diǎn)數(shù)據(jù);能按日、周、月、年分別查詢各節(jié)點(diǎn)的基礎(chǔ)數(shù)據(jù);能查詢每日數(shù)據(jù)總量;能按日、周、月、年分別查詢各節(jié)點(diǎn)的數(shù)據(jù)總量;
本發(fā)明的穩(wěn)定度計(jì)算模塊能夠?qū)崿F(xiàn)每日定時(shí)對(duì)各數(shù)據(jù)穩(wěn)定度和穩(wěn)定區(qū)間的計(jì)算和更新,以便判斷每日上報(bào)數(shù)據(jù)是否正常;
本發(fā)明的穩(wěn)定度告警模塊每日數(shù)據(jù)以曲線和表格形式展開、支持Excel導(dǎo)出,并根據(jù)穩(wěn)定區(qū)間監(jiān)控每日數(shù)據(jù)波動(dòng),低于穩(wěn)定區(qū)間下限20%以上的數(shù)據(jù)則告警;
本發(fā)明的穩(wěn)定度排名模塊實(shí)現(xiàn)對(duì)不同節(jié)點(diǎn)數(shù)據(jù)穩(wěn)定性排名。
本發(fā)明的系統(tǒng)資源監(jiān)測模塊,支持查看所有主機(jī)的磁盤每周各天的使用量和使用率;支持統(tǒng)計(jì)查看每周所有節(jié)點(diǎn)主機(jī)磁盤變化量最高的前幾臺(tái)服務(wù)器磁盤變化信息。
本發(fā)明的告警配置模塊支持針對(duì)任務(wù)定制告警目標(biāo)用戶、告警條件和告警方式,在滿足告警條件時(shí)向選定的所有告警目標(biāo)用戶通過選定的告警方式及時(shí)發(fā)出告警;所述告警包括暫停告警、恢復(fù)報(bào)警、對(duì)每日上報(bào)數(shù)據(jù)超出閥值進(jìn)行告警;所述告警的延遲不小于5分鐘;
告警方式至少支持電話通知、短信通知和Email通知三種方式;三種方式的緊急程度依次降低;電話通知是指向選定用戶撥打電話,僅用于需緊急趕赴現(xiàn)場處理的情況;短信通知的緊急程度次之,短信內(nèi)容包括必要的信息概述;Email通知緊急程度最低,郵件內(nèi)容應(yīng)盡量詳實(shí);
告警目標(biāo)用戶默認(rèn)是當(dāng)前用戶,至少應(yīng)有一位告警目標(biāo)用戶,可根據(jù)需要額外添加;
暫停告警可以防止系統(tǒng)批量變更或機(jī)房變遷等長時(shí)間服務(wù)無法恢復(fù)的時(shí)候頻繁告警現(xiàn)象,暫停告警后,暫停的告警項(xiàng)不會(huì)顯示在巡檢告警欄里;
恢復(fù)告警將暫停告警項(xiàng)恢復(fù),進(jìn)行正常告警;
業(yè)務(wù)數(shù)據(jù)告警對(duì)每日上報(bào)數(shù)據(jù)超出閥值進(jìn)行告警,閥值通過三個(gè)月內(nèi)歷史值去畸求得平均值后得出。
本發(fā)明的電話記錄模塊針對(duì)各用戶的來電咨詢記錄,方便為日后出現(xiàn)相似問題提供參考,包括來電時(shí)間、問題反饋、單位名稱、問題點(diǎn)處理流程、問題反饋說明等記錄,可增、刪、改、查各相關(guān)記錄;
發(fā)布通知模塊可方便值班人員之間值班事宜的溝通和了解,通知在公告欄中顯示,可以增加、刪除、編輯通知。
本發(fā)明的自動(dòng)化運(yùn)行維護(hù)監(jiān)測系統(tǒng),其中UI子系統(tǒng),提供實(shí)用、友好的用戶界面,可以通過可視化接口進(jìn)行數(shù)據(jù)查詢和維護(hù),并能按需求以周報(bào)、月報(bào)、年報(bào)的形式導(dǎo)出表格;包括:
實(shí)時(shí)數(shù)據(jù)展示單元:要求可以動(dòng)態(tài)的數(shù)據(jù)的變化曲線圖,優(yōu)選的是上報(bào)數(shù)據(jù)量,不同的數(shù)據(jù)類型通過不同的曲線的顏色加以區(qū)分展示在圖表上,可以選擇展示某一種數(shù)據(jù)類型曲線;
歷史數(shù)據(jù)展示單元:要求可以查看所有歷史數(shù)據(jù)和選擇指定日期的歷史數(shù)據(jù),默認(rèn)為前一天的歷史數(shù)據(jù),展示的圖表要求可以縮放歷史查看范圍;
比較數(shù)據(jù)展示單元:要求將各節(jié)點(diǎn)之間相同類型的數(shù)據(jù)進(jìn)行比較展示,以柱狀圖的形式展示出來,從而可以直觀的看出各節(jié)點(diǎn)之間的業(yè)務(wù)數(shù)據(jù)繁忙情況;
查詢數(shù)據(jù)展示單元:要求針對(duì)部分節(jié)點(diǎn)上報(bào)數(shù)據(jù)以表格形式展示出來,可以帶搜索功能,分頁顯示;
告警數(shù)據(jù)展示單元:要求告警信息分類別在界面左下角匯總展示,有告警的時(shí)候加以顏色提醒,當(dāng)點(diǎn)擊具體告警項(xiàng)時(shí),通過彈窗的方式將告警信息分組展示出來;支持確認(rèn)、暫停、恢復(fù)指定的告警項(xiàng)。
本發(fā)明還提供了一種自動(dòng)化運(yùn)行維護(hù)監(jiān)測方法,所述數(shù)據(jù)采集系統(tǒng)采集目標(biāo)系統(tǒng)的通用指標(biāo)項(xiàng)數(shù)據(jù)和相關(guān)業(yè)務(wù)指標(biāo)項(xiàng)數(shù)據(jù),并將數(shù)據(jù)主動(dòng)推送給各區(qū)域中心節(jié)點(diǎn)的分布式系統(tǒng)代理服務(wù)器,所述分布式系統(tǒng)代理服務(wù)器統(tǒng)一將數(shù)據(jù)匯聚到中心分布式系統(tǒng)服務(wù)器,所述中心分布式系統(tǒng)服務(wù)器將數(shù)據(jù)統(tǒng)一入庫,簡單統(tǒng)計(jì)分析系統(tǒng)將結(jié)果統(tǒng)計(jì)入庫到統(tǒng)計(jì)分析庫中。
具體的闡述本發(fā)明的方法,包括系統(tǒng)運(yùn)行情況監(jiān)測步驟、業(yè)務(wù)數(shù)據(jù)監(jiān)測步驟、系統(tǒng)資源監(jiān)測步驟,
所述系統(tǒng)運(yùn)行情況監(jiān)測方法包括如下步驟:
1)在插件管理中啟動(dòng),服務(wù)器資源插件,各種應(yīng)用插件,網(wǎng)絡(luò)、設(shè)備連通性插件;
2)啟動(dòng)命令下發(fā)至各服務(wù)器插件管理進(jìn)程;
3)插件管理進(jìn)程為插件分配資源,啟動(dòng)插件;
4)插件開始周期性采集信息;
5)插件將采集到的信息發(fā)送給插件管理進(jìn)程;
6)插件管理進(jìn)程周期性的將收集到的插件采集信息發(fā)送到區(qū)域中心匯集節(jié)點(diǎn);
7)中心匯聚節(jié)點(diǎn)周期性的從各區(qū)域中心節(jié)點(diǎn)拉取采集信息并入庫;
8)系統(tǒng)管理程序根據(jù)收到的信息周期性啟動(dòng)統(tǒng)計(jì)分析程序,定期統(tǒng)計(jì);
9)用戶查看監(jiān)控信息。
所述業(yè)務(wù)數(shù)據(jù)監(jiān)測方法如下:
1)在插件管理中啟動(dòng)業(yè)務(wù)數(shù)據(jù)采集插件;如果已經(jīng)啟動(dòng),轉(zhuǎn)2)
2)業(yè)務(wù)采集插件周期性向XX系統(tǒng)讀取業(yè)務(wù)數(shù)據(jù);業(yè)務(wù)數(shù)據(jù)采集不需要將插件下發(fā)至各節(jié)點(diǎn)服務(wù)器,只要在中心及誒單通過XX系統(tǒng)接口讀取所需數(shù)據(jù)即可;
3)業(yè)務(wù)數(shù)據(jù)入庫;按照本系統(tǒng)的存儲(chǔ)格式將讀到的數(shù)據(jù)量信息入庫;
4)系統(tǒng)針對(duì)各節(jié)點(diǎn)數(shù)據(jù),執(zhí)行穩(wěn)定度評(píng)估算法;一般情況下只要選擇一種評(píng)估算法即可,必要情況下,可以更改算法,更改法不影響整體流程;
5)計(jì)算結(jié)果入庫;
6)用戶查看穩(wěn)定度排名。
所述系統(tǒng)資源監(jiān)測步驟還包括:
1)在插件管理中啟動(dòng),磁盤信息采集插件;
2)啟動(dòng)命令下發(fā)至各服務(wù)器插件管理進(jìn)程;
3)插件管理進(jìn)程為插件分配資源,啟動(dòng)插件;
4)插件開始周期性采集信息;
5)插件將采集到的信息發(fā)送給插件管理進(jìn)程;
6)插件管理進(jìn)程周期性的將收集到的插件采集信息發(fā)送到匯集節(jié)點(diǎn);
7)中心匯聚節(jié)點(diǎn)周期性的從各分區(qū)域中心節(jié)點(diǎn)拉取采集信息并入庫;
8)系統(tǒng)管理程序啟動(dòng)統(tǒng)計(jì)分析程序,統(tǒng)計(jì)出磁盤使率變化曲線;
9)用戶查看磁盤使用率和TOPN變化量。
本發(fā)明的有益效果在于,自動(dòng)化運(yùn)行維護(hù)監(jiān)測系統(tǒng)是對(duì)整個(gè)目標(biāo)系統(tǒng)的運(yùn)行情況進(jìn)行全方位的監(jiān)測保障系統(tǒng),是為有效做好目標(biāo)系統(tǒng)維護(hù)工作、掌握系統(tǒng)運(yùn)行情況、提供系統(tǒng)異常的告警信息而建設(shè)的平臺(tái)。系統(tǒng)要能夠?qū)崿F(xiàn)全自動(dòng)化的實(shí)時(shí)監(jiān)控、能夠?qū)崿F(xiàn)數(shù)據(jù)的實(shí)時(shí)統(tǒng)計(jì)與分析,且能夠清晰醒目的展示數(shù)據(jù)的變化,便于數(shù)據(jù)分析和問題改進(jìn)。
附圖說明
圖1.實(shí)施例1的自動(dòng)化運(yùn)行維護(hù)監(jiān)測系統(tǒng)整體示意圖;
圖2.實(shí)施例1的數(shù)據(jù)采集系統(tǒng)示意圖;
圖3.實(shí)施例3的服務(wù)器資源監(jiān)測模塊示意圖;
圖4.實(shí)施例4的應(yīng)用服務(wù)監(jiān)測模塊示意圖;
圖5.實(shí)施例5的UI子系統(tǒng)示意圖;
圖6.實(shí)施例6的自動(dòng)化運(yùn)行維護(hù)監(jiān)測方法示意圖。
具體實(shí)施方式
實(shí)施例1
如圖1所示,實(shí)施例1的自動(dòng)化運(yùn)行維護(hù)監(jiān)測系統(tǒng)1整體上包括數(shù)據(jù)采集系統(tǒng)2、數(shù)據(jù)發(fā)布系統(tǒng)3、UI子系統(tǒng)4。結(jié)合圖2所示,數(shù)據(jù)采集系統(tǒng)包括系統(tǒng)運(yùn)行情況監(jiān)測模塊組5、業(yè)務(wù)數(shù)據(jù)監(jiān)測模塊組6、配置管理模塊組7、系統(tǒng)輔助模塊組8、數(shù)據(jù)服務(wù)模塊組9。系統(tǒng)運(yùn)行情況監(jiān)測模塊組5包括服務(wù)器資源監(jiān)測模塊10、應(yīng)用服務(wù)監(jiān)測模塊11、設(shè)備連通性監(jiān)測模塊12、網(wǎng)速流量監(jiān)測模塊13、系統(tǒng)資源監(jiān)測模塊14、網(wǎng)絡(luò)鏈路監(jiān)測模塊49。業(yè)務(wù)數(shù)據(jù)監(jiān)測模塊組6包括數(shù)據(jù)入庫模塊15、數(shù)據(jù)查詢模塊16、穩(wěn)定度計(jì)算模塊17、穩(wěn)定度告警模塊18、穩(wěn)定度排名模塊19。配置管理模塊組7包括指標(biāo)管理模塊20、主機(jī)管理模塊21、模板管理模塊22、行為管理模塊23、事件管理模塊24、告警配置模塊25。系統(tǒng)輔助模塊組8包括電話記錄模塊26、發(fā)布通知模塊27。數(shù)據(jù)服務(wù)模塊組9包括數(shù)據(jù)管理模塊28、對(duì)外接口模塊29、統(tǒng)計(jì)分析模塊30。
其中設(shè)備連通性監(jiān)測模塊12能夠?qū)δ繕?biāo)系統(tǒng)硬件設(shè)備(包括服務(wù)器、交換機(jī))實(shí)時(shí)監(jiān)控連通性,支持故障告警;對(duì)于頻繁出現(xiàn)故障的設(shè)備,提出預(yù)警,便于預(yù)測和評(píng)估硬件及軟件情況;監(jiān)測目標(biāo)系統(tǒng)防火墻上各端口狀態(tài),包括:去往各節(jié)點(diǎn)的端口、連接目標(biāo)系統(tǒng)核心交換機(jī)的端口,并能支持故障告警;能夠監(jiān)控目標(biāo)系統(tǒng)核心交換機(jī)上的各端口狀態(tài)、數(shù)據(jù)庫對(duì)象狀態(tài)、異常IP連接、ASM狀態(tài)、數(shù)據(jù)庫備份情況等監(jiān)測;
網(wǎng)絡(luò)流量監(jiān)測模塊13可以監(jiān)控各網(wǎng)關(guān)服務(wù)器到加載機(jī)傳輸速率,將每日傳輸速率入庫,便于日后分析統(tǒng)計(jì),支持告警;
網(wǎng)絡(luò)鏈路監(jiān)測模塊49包括監(jiān)測各節(jié)點(diǎn)目標(biāo)系統(tǒng)到各網(wǎng)關(guān)服務(wù)器鏈路連通性。
數(shù)據(jù)入庫模塊15每日將前一日各節(jié)點(diǎn)上報(bào)的基礎(chǔ)數(shù)據(jù)入庫,以便按不同條件查詢或使用;
數(shù)據(jù)查詢模塊16能提供按不同條件查詢,并將查詢結(jié)果以曲線和表格顯示,且支持excel導(dǎo)出;查詢條件包括能按節(jié)點(diǎn)數(shù)據(jù);能按日、周、月、年分別查詢各節(jié)點(diǎn)的基礎(chǔ)數(shù)據(jù);能查詢每日數(shù)據(jù)總量;能按日、周、月、年分別查詢各節(jié)點(diǎn)的數(shù)據(jù)總量;
穩(wěn)定度計(jì)算模塊17能夠?qū)崿F(xiàn)每日定時(shí)對(duì)各數(shù)據(jù)穩(wěn)定度和穩(wěn)定區(qū)間的計(jì)算和更新,以便判斷每日上報(bào)數(shù)據(jù)是否正常;
穩(wěn)定度告警模塊18每日數(shù)據(jù)以曲線和表格形式展開、支持Excel導(dǎo)出,并根據(jù)穩(wěn)定區(qū)間監(jiān)控每日數(shù)據(jù)波動(dòng),低于穩(wěn)定區(qū)間下限20%以上的數(shù)據(jù)則告警;
穩(wěn)定度排名模塊19實(shí)現(xiàn)對(duì)不同節(jié)點(diǎn)數(shù)據(jù)穩(wěn)定性排名。
系統(tǒng)資源監(jiān)測模塊14,支持查看所有主機(jī)的磁盤每周各天的使用量和使用率;支持統(tǒng)計(jì)查看每周所有節(jié)點(diǎn)主機(jī)磁盤變化量最高的前幾臺(tái)服務(wù)器磁盤變化信息。
告警配置模塊25支持針對(duì)任務(wù)定制告警目標(biāo)用戶、告警條件和告警方式,在滿足告警條件時(shí)向選定的所有告警目標(biāo)用戶通過選定的告警方式及時(shí)發(fā)出告警;所述告警包括暫停告警、恢復(fù)報(bào)警、對(duì)每日上報(bào)數(shù)據(jù)超出閥值進(jìn)行告警;所述告警的延遲不小于5分鐘;
告警方式至少支持電話通知、短信通知和Email通知三種方式;三種方式的緊急程度依次降低;電話通知是指向選定用戶撥打電話,僅用于需緊急趕赴現(xiàn)場處理的情況;短信通知的緊急程度次之,短信內(nèi)容包括必要的信息概述;Email通知緊急程度最低,郵件內(nèi)容應(yīng)盡量詳實(shí);
告警目標(biāo)用戶默認(rèn)是當(dāng)前用戶,至少應(yīng)有一位告警目標(biāo)用戶,可根據(jù)需要額外添加;
暫停告警可以防止系統(tǒng)批量變更或機(jī)房變遷等長時(shí)間服務(wù)無法恢復(fù)的時(shí)候頻繁告警現(xiàn)象,暫停告警后,暫停的告警項(xiàng)不會(huì)顯示在巡檢告警欄里;
恢復(fù)告警將暫停告警項(xiàng)恢復(fù),進(jìn)行正常告警;
業(yè)務(wù)數(shù)據(jù)告警對(duì)每日上報(bào)數(shù)據(jù)超出閥值進(jìn)行告警,閥值通過三個(gè)月內(nèi)歷史值去畸求得平均值后得出。
電話記錄模塊26針對(duì)各用戶的來電咨詢記錄,方便為日后出現(xiàn)相似問題提供參考,包括來電時(shí)間、問題反饋、單位名稱、問題點(diǎn)處理流程、問題反饋說明等記錄,可增、刪、改、查各相關(guān)記錄;
發(fā)布通知模塊27可方便值班人員之間值班事宜的溝通和了解,通知在公告欄中顯示,可以增加、刪除、編輯通知。
實(shí)施例2本實(shí)施例的改進(jìn)在于自動(dòng)化運(yùn)行維護(hù)監(jiān)測系統(tǒng)的數(shù)據(jù)發(fā)布系統(tǒng)3,即為分布式消息隊(duì)列系統(tǒng),分布式消息隊(duì)列系統(tǒng)可將多條消息加到一個(gè)消息集合中發(fā)布,不創(chuàng)建單獨(dú)的緩存,使用所述目標(biāo)系統(tǒng)的頁面緩存;發(fā)布者順序發(fā)布,訂閱者通常比發(fā)布者滯后時(shí)間,減少了緩存管理及垃圾收集的開銷。
實(shí)施例3本實(shí)施例與實(shí)施例1基本相同,如圖3所示,所不同的是服務(wù)器資源監(jiān)測模塊10包括文件系統(tǒng)使用率監(jiān)測單元31、CPU使用率監(jiān)測單元32、主機(jī)存活時(shí)間監(jiān)測單元33、內(nèi)存使用率監(jiān)測單元34、內(nèi)存總量監(jiān)測單元35、交換分區(qū)使用率監(jiān)測單元36、安全日志分析監(jiān)測單元37、日志分析監(jiān)測單元38、網(wǎng)卡狀態(tài)檢查監(jiān)測單元39、異常登錄系統(tǒng)事件監(jiān)測單元40、磁盤讀寫監(jiān)測單元41;
實(shí)施例4本實(shí)施例與實(shí)施例1基本相同,如圖4所示,所不同的是應(yīng)用服務(wù)監(jiān)測模塊11包括監(jiān)測目標(biāo)系統(tǒng)的所有應(yīng)用程序和服務(wù),包括:nfs服務(wù)單元42、tomcat服務(wù)單元43、ssh服務(wù)單元44、oracle服務(wù)單元45、MstoreNode服務(wù)單元46、IndexerServer服務(wù)單元47、QuorumPeerMain服務(wù)單元48。
實(shí)施例5本實(shí)施例與實(shí)施例1基本相同,如圖5所示,所不同的是,所述UI子系統(tǒng)4,提供實(shí)用、友好的用戶界面,可以通過可視化接口進(jìn)行數(shù)據(jù)查詢和維護(hù),并能按需求以周報(bào)、月報(bào)、年報(bào)的形式導(dǎo)出表格;包括:
實(shí)時(shí)數(shù)據(jù)展示單元50:要求可以動(dòng)態(tài)的數(shù)據(jù)的變化曲線圖,優(yōu)選的是上報(bào)數(shù)據(jù)量,不同的數(shù)據(jù)類型通過不同的曲線的顏色加以區(qū)分展示在圖表上,可以選擇展示某一種數(shù)據(jù)類型曲線;
歷史數(shù)據(jù)展示單元51:要求可以查看所有歷史數(shù)據(jù)和選擇指定日期的歷史數(shù)據(jù),默認(rèn)為前一天的歷史數(shù)據(jù),展示的圖表要求可以縮放歷史查看范圍;
比較數(shù)據(jù)展示單元52:要求將各節(jié)點(diǎn)之間相同類型的數(shù)據(jù)進(jìn)行比較展示,以柱狀圖的形式展示出來,從而可以直觀的看出各節(jié)點(diǎn)之間的業(yè)務(wù)數(shù)據(jù)繁忙情況;
查詢數(shù)據(jù)展示單元53:要求針對(duì)部分節(jié)點(diǎn)上報(bào)數(shù)據(jù)以表格形式展示出來,可以帶搜索功能,分頁顯示;
告警數(shù)據(jù)展示單元54:要求告警信息分類別在界面左下角匯總展示,有告警的時(shí)候加以顏色提醒,當(dāng)點(diǎn)擊具體告警項(xiàng)時(shí),通過彈窗的方式將告警信息分組展示出來;支持確認(rèn)、暫停、恢復(fù)指定的告警項(xiàng)。
實(shí)施例6
結(jié)合圖6所示,本實(shí)施例提供了一種自動(dòng)化運(yùn)行維護(hù)監(jiān)測方法,為滿足對(duì)XX系統(tǒng)全自動(dòng)化運(yùn)營維護(hù)的需求,采用微服務(wù)架構(gòu)設(shè)計(jì)原理、系統(tǒng)被設(shè)計(jì)成由整合zabbix開源監(jiān)控系統(tǒng)、mysql存儲(chǔ)系統(tǒng)、keepalive高可用系統(tǒng)、HBase大數(shù)據(jù)存儲(chǔ)系統(tǒng)、Spark分析系統(tǒng)及PHP/JSP頁面展示系統(tǒng)及簡單數(shù)據(jù)分析服務(wù)、大數(shù)據(jù)ETL服務(wù)、大數(shù)據(jù)統(tǒng)計(jì)分析服務(wù)等基礎(chǔ)服務(wù)有機(jī)組合的系統(tǒng)。每個(gè)子系統(tǒng)或服務(wù)對(duì)其它子系統(tǒng)或服務(wù)提供服務(wù),運(yùn)行監(jiān)測UI子系統(tǒng)提供統(tǒng)一用戶界面。系統(tǒng)整體流程如下:部署到各區(qū)域中心節(jié)點(diǎn)的數(shù)據(jù)采集程序Agent采集到cpu、men、I/O、網(wǎng)絡(luò)等通用指標(biāo)項(xiàng)和相關(guān)業(yè)務(wù)指標(biāo)項(xiàng),并將數(shù)據(jù)主動(dòng)推送給各區(qū)域中心節(jié)點(diǎn)的ZabbixProxy,各區(qū)域中心節(jié)點(diǎn)ZabbixProxy統(tǒng)一將數(shù)據(jù)匯聚到XX中心ZabbixServer,ZabbixServer將數(shù)據(jù)統(tǒng)一入庫,簡單統(tǒng)計(jì)分析程序?qū)⒔Y(jié)果統(tǒng)計(jì)入庫到統(tǒng)計(jì)分析庫中,UI子系統(tǒng)通過報(bào)表或eCharts框架展現(xiàn)數(shù)據(jù)。
下面按照系統(tǒng)的整體層次依次講述:
1)數(shù)據(jù)采集層:
數(shù)據(jù)采集終端采集到的所有數(shù)據(jù)用“指標(biāo)”來定義,指標(biāo)分為通用指標(biāo)(如CPU指標(biāo)、內(nèi)存指標(biāo)、I/O指標(biāo)等)和專用指標(biāo)(各種應(yīng)用相關(guān)的指標(biāo)),一般情況下指標(biāo)由指標(biāo)名、指標(biāo)Key、指標(biāo)類型、數(shù)據(jù)類型、指標(biāo)值、采集周期等來定義。
各區(qū)域中心每臺(tái)計(jì)算機(jī)運(yùn)行一個(gè)收集和發(fā)送監(jiān)控?cái)?shù)據(jù)的Zabbix Agent守護(hù)進(jìn)程,Agent被設(shè)計(jì)成高度可擴(kuò)展性的插件式結(jié)構(gòu),支持通用指標(biāo)和專用指標(biāo)采集。通用指標(biāo)被Agent所默認(rèn)實(shí)現(xiàn),abbix內(nèi)置了cpu、men、I/O、網(wǎng)絡(luò)等通用指標(biāo)采集。專用指標(biāo)通過shell或python腳本通過stdout來返回指定的指標(biāo)值。在zabbix中專用指標(biāo)為一組定義的UserParameter。系統(tǒng)在設(shè)計(jì)實(shí)現(xiàn)時(shí)需要考慮專用指標(biāo)的設(shè)計(jì)、腳本實(shí)現(xiàn)、及部署。
在Agent端需要配置連接到Proxy地址或者ZabbixServer以定期將指標(biāo)采集結(jié)果上報(bào)。需要配置指標(biāo)集更新間斷時(shí)間,以決定多長時(shí)間從ZabbixServer更新新的指標(biāo)集。
Zabbix框架支持以下指標(biāo)類型:Agent、Java Manager Extension、SNMP、IMPI等。
考慮到自定義插件的升級(jí)部署、Agent客戶端的參數(shù)配置等。需要安裝自動(dòng)化配置管理工具SaltStack,需要在主控節(jié)點(diǎn)上安裝salt-master和每一個(gè)受控節(jié)點(diǎn)上安裝salt-minion。
2)數(shù)據(jù)匯聚層:
各區(qū)域中心節(jié)點(diǎn)服務(wù)器采集到的數(shù)據(jù)可以先匯集到本分中心的zabbix proxy,再由區(qū)域中心節(jié)點(diǎn)的proxy再次匯集到中心節(jié)點(diǎn)zabbixserver,由XX中心zabbix入庫,也可以由各區(qū)域中心服務(wù)器直接匯集到中心節(jié)點(diǎn)zabbixserver。采集數(shù)據(jù)被設(shè)計(jì)成兩階段(區(qū)域中心節(jié)點(diǎn)和中心及節(jié)點(diǎn))匯入機(jī)制,以支持?jǐn)?shù)以千計(jì)的節(jié)點(diǎn)。
3)統(tǒng)計(jì)分析層
根據(jù)應(yīng)用場景、分析深度的不同,可將統(tǒng)計(jì)分析分為簡單分析和大數(shù)據(jù)分析。
簡單分析
簡單分析主要應(yīng)用于數(shù)據(jù)量小、批次小的統(tǒng)計(jì)、例如每小時(shí)的平均指標(biāo)、最大指標(biāo)等。簡單分析一般是增量分析、需要對(duì)實(shí)時(shí)采集到的監(jiān)控?cái)?shù)據(jù)進(jìn)行匯總統(tǒng)計(jì)、可用存儲(chǔ)過程或JDBC在關(guān)系型數(shù)據(jù)庫中實(shí)現(xiàn)統(tǒng)計(jì)分析。l
大數(shù)據(jù)分析
在某些情況需要對(duì)數(shù)據(jù)進(jìn)行全量分析、數(shù)據(jù)量多達(dá)10億級(jí)別,或者需要通過數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)進(jìn)行特征值建模,并進(jìn)行相應(yīng)的關(guān)聯(lián)分析,例如研究CPU使用率、I/O負(fù)載情況和系統(tǒng)DOWN機(jī)或者某些日志錯(cuò)誤之間的關(guān)聯(lián)性分析,此時(shí)就需要引入大數(shù)據(jù)分析技術(shù)。
現(xiàn)有的大數(shù)據(jù)分析技術(shù)通過兩個(gè)步驟完成:HBase數(shù)據(jù)存儲(chǔ);Spark分析。某些基于大數(shù)據(jù)的分組查詢可以使用基于HBase的Impala來進(jìn)行處理,需要建立獨(dú)立的ETL程序,來將監(jiān)測數(shù)據(jù)加載、轉(zhuǎn)換、清洗至HBase,也需要建立分析程序,來調(diào)用Spark分析過程,并將分析結(jié)果寫入統(tǒng)計(jì)分析庫,以供UI層展示。
4)管理展示層
管理層負(fù)責(zé)將已經(jīng)和庫的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),加工、處理后以WEB形式呈現(xiàn)給前端,管理層會(huì)定義數(shù)據(jù)質(zhì)量評(píng)估算法,定義數(shù)據(jù)基線,以及基于這些方法評(píng)價(jià)當(dāng)前的數(shù)據(jù)質(zhì)量。管理層對(duì)于需要告警的數(shù)據(jù)設(shè)置閥值,也對(duì)實(shí)時(shí)收到的數(shù)據(jù)進(jìn)行告警處理。管理層會(huì)運(yùn)行其它一此輔助功能:例如電話記錄、性能通知等。
基于匯聚層匯聚而來的監(jiān)控?cái)?shù)據(jù),管理層在運(yùn)行apache tomcat server上部署WEB服務(wù)。
實(shí)施例7
本實(shí)施例提供了一種自動(dòng)化運(yùn)行維護(hù)監(jiān)測方法,所述包括系統(tǒng)運(yùn)行情況監(jiān)測步驟、業(yè)務(wù)數(shù)據(jù)監(jiān)測步驟、系統(tǒng)資源監(jiān)測步驟,所述系統(tǒng)運(yùn)行情況監(jiān)測方法包括如下步驟:
1)在插件管理中啟動(dòng),服務(wù)器資源插件,各種應(yīng)用插件,網(wǎng)絡(luò)、設(shè)備連通性插件;
2)啟動(dòng)命令下發(fā)至各服務(wù)器插件管理進(jìn)程;
3)插件管理進(jìn)程為插件分配資源,啟動(dòng)插件;
4)插件開始周期性采集信息;
5)插件將采集到的信息發(fā)送給插件管理進(jìn)程;
6)插件管理進(jìn)程周期性的將收集到的插件采集信息發(fā)送到區(qū)域中心匯集節(jié)點(diǎn);
7)中心匯聚節(jié)點(diǎn)周期性的從各區(qū)域中心節(jié)點(diǎn)拉取采集信息并入庫;
8)系統(tǒng)管理程序根據(jù)收到的信息周期性啟動(dòng)統(tǒng)計(jì)分析程序,定期統(tǒng)計(jì);
9)用戶查看監(jiān)控信息。
所述業(yè)務(wù)數(shù)據(jù)監(jiān)測方法如下:
1)在插件管理中啟動(dòng)業(yè)務(wù)數(shù)據(jù)采集插件;如果已經(jīng)啟動(dòng),轉(zhuǎn)2)
2)業(yè)務(wù)采集插件周期性向XX系統(tǒng)讀取業(yè)務(wù)數(shù)據(jù);業(yè)務(wù)數(shù)據(jù)采集不需要將插件下發(fā)至各節(jié)點(diǎn)服務(wù)器,只要在中心及誒單通過XX系統(tǒng)接口讀取所需數(shù)據(jù)即可;
3)業(yè)務(wù)數(shù)據(jù)入庫;按照本系統(tǒng)的存儲(chǔ)格式將讀到的數(shù)據(jù)量信息入庫;
4)系統(tǒng)針對(duì)各節(jié)點(diǎn)數(shù)據(jù),執(zhí)行穩(wěn)定度評(píng)估算法;一般情況下只要選擇一種評(píng)估算法即可,必要情況下,可以更改算法,更改法不影響整體流程;
5)計(jì)算結(jié)果入庫;
6)用戶查看穩(wěn)定度排名。
所述系統(tǒng)資源監(jiān)測步驟還包括:
1)在插件管理中啟動(dòng),磁盤信息采集插件;
2)啟動(dòng)命令下發(fā)至各服務(wù)器插件管理進(jìn)程;
3)插件管理進(jìn)程為插件分配資源,啟動(dòng)插件;
4)插件開始周期性采集信息;
5)插件將采集到的信息發(fā)送給插件管理進(jìn)程;
6)插件管理進(jìn)程周期性的將收集到的插件采集信息發(fā)送到匯集節(jié)點(diǎn);
7)中心匯聚節(jié)點(diǎn)周期性的從各分區(qū)域中心節(jié)點(diǎn)拉取采集信息并入庫;
8)系統(tǒng)管理程序啟動(dòng)統(tǒng)計(jì)分析程序,統(tǒng)計(jì)出磁盤使率變化曲線;
9)用戶查看磁盤使用率和TOPN變化量。
實(shí)施例8系統(tǒng)運(yùn)行情況監(jiān)測本實(shí)施例對(duì)XX系統(tǒng)所有服務(wù)器資源、應(yīng)用服務(wù)、設(shè)備連通性、數(shù)據(jù)庫服務(wù)、網(wǎng)絡(luò)傳輸速度進(jìn)行監(jiān)測。
1)服務(wù)器資源監(jiān)測:
監(jiān)測主機(jī)的基本信息,包括:文件系統(tǒng)使用率、CPU使用率、主機(jī)存活時(shí)間、內(nèi)存使用率、內(nèi)存總量、交換分區(qū)使用率、secure日志分析、message日志分析、網(wǎng)卡狀態(tài)檢查、異常登錄系統(tǒng)事件、磁盤讀寫監(jiān)測。
2)應(yīng)用服務(wù)監(jiān)測:
監(jiān)測XX系統(tǒng)的所有應(yīng)用程序和服務(wù),包括:nfs服務(wù)、tomcat服務(wù)、ssh服務(wù)、oracle服務(wù)、MstoreNode服務(wù)、IndexerServer服務(wù)、QuorumPeerMain服務(wù)監(jiān)測。
3)設(shè)備連通性監(jiān)測:
能夠?qū)X系統(tǒng)硬件設(shè)備(包括服務(wù)器、交換機(jī))實(shí)時(shí)監(jiān)控連通性,支持故障告警;對(duì)于頻繁出現(xiàn)故障的設(shè)備,提出預(yù)警,便于預(yù)測和評(píng)估硬件及軟件情況;能夠監(jiān)測XX防火墻上各端口狀態(tài),包括:去往各節(jié)點(diǎn)的端口、連接XX核心交換機(jī)的端口等,并能支持故障告警;能夠監(jiān)控XX核心交換機(jī)上的各端口狀態(tài)、數(shù)據(jù)庫對(duì)象狀態(tài)、異常IP連接、ASM狀態(tài)、數(shù)據(jù)庫備份情況等監(jiān)測。
4)網(wǎng)絡(luò)傳輸速率監(jiān)測:
監(jiān)控各網(wǎng)關(guān)服務(wù)器到加載機(jī)傳輸速率,將每日傳輸速率入庫,便于日后分析統(tǒng)計(jì),支持告警。
5)網(wǎng)絡(luò)鏈路監(jiān)測:
監(jiān)測各節(jié)點(diǎn)XX系統(tǒng)到各網(wǎng)關(guān)服務(wù)器(SMGG)鏈路連通性。以上所述實(shí)施例僅僅是本發(fā)明的優(yōu)選實(shí)施方式進(jìn)行描述,并非對(duì)本發(fā)明的范圍進(jìn)行限定,在不脫離本發(fā)明設(shè)計(jì)精神的前提下,本領(lǐng)域普通技術(shù)人員對(duì)本發(fā)明的技術(shù)方案作出的各種變形和改進(jìn),均應(yīng)落入本發(fā)明的權(quán)利要求書確定的保護(hù)范圍內(nèi)。