1.一種自動化運行維護(hù)監(jiān)測系統(tǒng)(1),其特征在于,包括數(shù)據(jù)采集系統(tǒng)(2)、數(shù)據(jù)發(fā)布系統(tǒng)(3)、UI子系統(tǒng)(4),
所述數(shù)據(jù)采集系統(tǒng)包括系統(tǒng)運行情況監(jiān)測模塊組(5)、業(yè)務(wù)數(shù)據(jù)監(jiān)測模塊組(6)、配置管理模塊組(7)、系統(tǒng)輔助模塊組(8)、數(shù)據(jù)服務(wù)模塊組(9),
所述系統(tǒng)運行情況監(jiān)測模塊組(5)包括服務(wù)器資源監(jiān)測模塊(10)、應(yīng)用服務(wù)監(jiān)測模塊(11)、設(shè)備連通性監(jiān)測模塊(12)、網(wǎng)速流量監(jiān)測模塊(13)、系統(tǒng)資源監(jiān)測模塊(14)、網(wǎng)絡(luò)鏈路監(jiān)測模塊(49),所述業(yè)務(wù)數(shù)據(jù)監(jiān)測模塊組(6)包括數(shù)據(jù)入庫模塊(15)、數(shù)據(jù)查詢模塊(16)、穩(wěn)定度計算模塊(17)、穩(wěn)定度告警模塊(18)、穩(wěn)定度排名模塊(19),所述配置管理模塊組(7)包括指標(biāo)管理模塊(20)、主機(jī)管理模塊(21)、模板管理模塊(22)、行為管理模塊(23)、事件管理模塊(24)、告警配置模塊(25),所述系統(tǒng)輔助模塊組(8)包括電話記錄模塊(26)、發(fā)布通知模塊(27),所述數(shù)據(jù)服務(wù)模塊組(9)包括數(shù)據(jù)管理模塊(28)、對外接口模塊(29)、統(tǒng)計分析模塊(30)。
2.如權(quán)利要求1所述的自動化運行維護(hù)監(jiān)測系統(tǒng),其特征在于,所述數(shù)據(jù)發(fā)布系統(tǒng)(3)為分布式消息隊列系統(tǒng),所述分布式消息隊列系統(tǒng)可將多條消息加到一個消息集合中發(fā)布,不創(chuàng)建單獨的緩存,使用所述目標(biāo)系統(tǒng)的頁面緩存;發(fā)布者順序發(fā)布,訂閱者通常比發(fā)布者滯后時間,減少了緩存管理及垃圾收集的開銷。
3.如權(quán)利要求2所述的自動化運行維護(hù)監(jiān)測系統(tǒng),其特征在于,所述服務(wù)器資源監(jiān)測模塊(10)包括文件系統(tǒng)使用率監(jiān)測單元(31)、CPU使用率監(jiān)測單元(32)、主機(jī)存活時間監(jiān)測單元(33)、內(nèi)存使用率監(jiān)測單元(34)、內(nèi)存總量監(jiān)測單元(35)、交換分區(qū)使用率監(jiān)測單元(36)、安全日志分析監(jiān)測單元(37)、日志分析監(jiān)測單元(38)、網(wǎng)卡狀態(tài)檢查監(jiān)測單元(39)、異常登錄系統(tǒng)事件監(jiān)測單元(40)、磁盤讀寫監(jiān)測單元(41);
所述應(yīng)用服務(wù)監(jiān)測模塊(11)包括監(jiān)測目標(biāo)系統(tǒng)的所有應(yīng)用程序和服務(wù),包括:nfs服務(wù)單元(42)、tomcat服務(wù)單元(43)、ssh服務(wù)單元(44)、oracle服務(wù)單元(45)、MstoreNode服務(wù)單元(46)、IndexerServer服務(wù)單元(47)、QuorumPeerMain服務(wù)單元(48);
所述設(shè)備連通性監(jiān)測模塊(12)能夠?qū)δ繕?biāo)系統(tǒng)硬件設(shè)備(包括服務(wù)器、交換機(jī))實時監(jiān)控連通性,支持故障告警;對于頻繁出現(xiàn)故障的設(shè)備,提出預(yù)警,便于預(yù)測和評估硬件及軟件情況;監(jiān)測目標(biāo)系統(tǒng)防火墻上各端口狀態(tài),包括:去往各節(jié)點的端口、連接目標(biāo)系統(tǒng)核心交換機(jī)的端口,并能支持故障告警;能夠監(jiān)控目標(biāo)系統(tǒng)核心交換機(jī)上的各端口狀態(tài)、數(shù)據(jù)庫對象狀態(tài)、異常IP連接、ASM狀態(tài)、數(shù)據(jù)庫備份情況等監(jiān)測;
所述網(wǎng)絡(luò)流量監(jiān)測模塊(13)可以監(jiān)控各網(wǎng)關(guān)服務(wù)器到加載機(jī)傳輸速率,將每日傳輸速率入庫,便于日后分析統(tǒng)計,支持告警;
所述網(wǎng)絡(luò)鏈路監(jiān)測模塊(49)包括監(jiān)測各節(jié)點目標(biāo)系統(tǒng)到各網(wǎng)關(guān)服務(wù)器鏈路連通性。
4.如權(quán)利要求1所述的自動化運行維護(hù)監(jiān)測系統(tǒng),其特征在于,
所述數(shù)據(jù)入庫模塊(15)每日將前一日各節(jié)點上報的基礎(chǔ)數(shù)據(jù)入庫,以便按不同條件查詢或使用;
所述數(shù)據(jù)查詢模塊(16)能提供按不同條件查詢,并將查詢結(jié)果以曲線和表格顯示,且支持excel導(dǎo)出;查詢條件包括能按節(jié)點數(shù)據(jù);能按日、周、月、年分別查詢各節(jié)點的基礎(chǔ)數(shù)據(jù);能查詢每日數(shù)據(jù)總量;能按日、周、月、年分別查詢各節(jié)點的數(shù)據(jù)總量;
所述穩(wěn)定度計算模塊(17)能夠?qū)崿F(xiàn)每日定時對各數(shù)據(jù)穩(wěn)定度和穩(wěn)定區(qū)間的計算和更新,以便判斷每日上報數(shù)據(jù)是否正常;
所述穩(wěn)定度告警模塊(18)每日數(shù)據(jù)以曲線和表格形式展開、支持Excel導(dǎo)出,并根據(jù)穩(wěn)定區(qū)間監(jiān)控每日數(shù)據(jù)波動,低于穩(wěn)定區(qū)間下限20%以上的數(shù)據(jù)則告警;
所述穩(wěn)定度排名模塊(19)實現(xiàn)對不同節(jié)點數(shù)據(jù)穩(wěn)定性排名。
5.如權(quán)利要求1所述的自動化運行維護(hù)監(jiān)測系統(tǒng),其特征在于,所述系統(tǒng)資源監(jiān)測模塊(14),支持查看所有主機(jī)的磁盤每周各天的使用量和使用率;支持統(tǒng)計查看每周所有節(jié)點主機(jī)磁盤變化量最高的前幾臺服務(wù)器磁盤變化信息。
6.如權(quán)利要求1所述的自動化運行維護(hù)監(jiān)測系統(tǒng),其特征在于,所述告警配置模塊(25)支持針對任務(wù)定制告警目標(biāo)用戶、告警條件和告警方式,在滿足告警條件時向選定的所有告警目標(biāo)用戶通過選定的告警方式及時發(fā)出告警;所述告警包括暫停告警、恢復(fù)報警、對每日上報數(shù)據(jù)超出閥值進(jìn)行告警;所述告警的延遲不小于5分鐘;
所述告警方式至少支持電話通知、短信通知和Email通知三種方式;三種方式的緊急程度依次降低;電話通知是指向選定用戶撥打電話,僅用于需緊急趕赴現(xiàn)場處理的情況;短信通知的緊急程度次之,短信內(nèi)容包括必要的信息概述;Email通知緊急程度最低,郵件內(nèi)容應(yīng)盡量詳實;
所述告警目標(biāo)用戶默認(rèn)是當(dāng)前用戶,至少應(yīng)有一位告警目標(biāo)用戶,可根據(jù)需要額外添加;
所述暫停告警可以防止系統(tǒng)批量變更或機(jī)房變遷等長時間服務(wù)無法恢復(fù)的時候頻繁告警現(xiàn)象,暫停告警后,暫停的告警項不會顯示在巡檢告警欄里;
所述恢復(fù)告警將暫停告警項恢復(fù),進(jìn)行正常告警;
所述業(yè)務(wù)數(shù)據(jù)告警對每日上報數(shù)據(jù)超出閥值進(jìn)行告警,閥值通過三個月內(nèi)歷史值去畸求得平均值后得出。
7.如權(quán)利要求1所述的自動化運行維護(hù)監(jiān)測系統(tǒng),其特征在于,
所述電話記錄模塊(26)針對各用戶的來電咨詢記錄,方便為日后出現(xiàn)相似問題提供參考,包括來電時間、問題反饋、單位名稱、問題點處理流程、問題反饋說明等記錄,可增、刪、改、查各相關(guān)記錄;
所述發(fā)布通知模塊(27)可方便值班人員之間值班事宜的溝通和了解,通知在公告欄中顯示,可以增加、刪除、編輯通知。
8.如權(quán)利要求1所述的自動化運行維護(hù)監(jiān)測系統(tǒng),其特征在于,所述UI子系統(tǒng)(4),提供實用、友好的用戶界面,可以通過可視化接口進(jìn)行數(shù)據(jù)查詢和維護(hù),并能按需求以周報、月報、年報的形式導(dǎo)出表格;包括:
實時數(shù)據(jù)展示單元(50):要求可以動態(tài)的數(shù)據(jù)的變化曲線圖,優(yōu)選的是上報數(shù)據(jù)量,不同的數(shù)據(jù)類型通過不同的曲線的顏色加以區(qū)分展示在圖表上,可以選擇展示某一種數(shù)據(jù)類型曲線;
歷史數(shù)據(jù)展示單元(51):要求可以查看所有歷史數(shù)據(jù)和選擇指定日期的歷史數(shù)據(jù),默認(rèn)為前一天的歷史數(shù)據(jù),展示的圖表要求可以縮放歷史查看范圍;
比較數(shù)據(jù)展示單元(52):要求將各節(jié)點之間相同類型的數(shù)據(jù)進(jìn)行比較展示,以柱狀圖的形式展示出來,從而可以直觀的看出各節(jié)點之間的業(yè)務(wù)數(shù)據(jù)繁忙情況;
查詢數(shù)據(jù)展示單元(53):要求針對部分節(jié)點上報數(shù)據(jù)以表格形式展示出來,可以帶搜索功能,分頁顯示;
告警數(shù)據(jù)展示單元(54):要求告警信息分類別在界面左下角匯總展示,有告警的時候加以顏色提醒,當(dāng)點擊具體告警項時,通過彈窗的方式將告警信息分組展示出來;支持確認(rèn)、暫停、恢復(fù)指定的告警項。
9.一種自動化運行維護(hù)監(jiān)測方法,其特征在于,所述數(shù)據(jù)采集系統(tǒng)采集目標(biāo)系統(tǒng)的通用指標(biāo)項數(shù)據(jù)和相關(guān)業(yè)務(wù)指標(biāo)項數(shù)據(jù),并將數(shù)據(jù)主動推送給各區(qū)域中心節(jié)點的分布式系統(tǒng)代理服務(wù)器,所述分布式系統(tǒng)代理服務(wù)器統(tǒng)一將數(shù)據(jù)匯聚到中心分布式系統(tǒng)服務(wù)器,所述中心分布式系統(tǒng)服務(wù)器將數(shù)據(jù)統(tǒng)一入庫,簡單統(tǒng)計分析系統(tǒng)將結(jié)果統(tǒng)計入庫到統(tǒng)計分析庫中。
10.如權(quán)利要求9所述的維護(hù)監(jiān)測方法,其特征在于,所述包括系統(tǒng)運行情況監(jiān)測步驟、業(yè)務(wù)數(shù)據(jù)監(jiān)測步驟、系統(tǒng)資源監(jiān)測步驟,
所述系統(tǒng)運行情況監(jiān)測方法包括如下步驟:
1)在插件管理中啟動,服務(wù)器資源插件,各種應(yīng)用插件,網(wǎng)絡(luò)、設(shè)備連通性插件;
2)啟動命令下發(fā)至各服務(wù)器插件管理進(jìn)程;
3)插件管理進(jìn)程為插件分配資源,啟動插件;
4)插件開始周期性采集信息;
5)插件將采集到的信息發(fā)送給插件管理進(jìn)程;
6)插件管理進(jìn)程周期性的將收集到的插件采集信息發(fā)送到區(qū)域中心匯集節(jié)點;
7)中心匯聚節(jié)點周期性的從各區(qū)域中心節(jié)點拉取采集信息并入庫;
8)系統(tǒng)管理程序根據(jù)收到的信息周期性啟動統(tǒng)計分析程序,定期統(tǒng)計;
9)用戶查看監(jiān)控信息。
所述業(yè)務(wù)數(shù)據(jù)監(jiān)測方法如下:
1)在插件管理中啟動業(yè)務(wù)數(shù)據(jù)采集插件;如果已經(jīng)啟動,轉(zhuǎn)2)
2)業(yè)務(wù)采集插件周期性向XX系統(tǒng)讀取業(yè)務(wù)數(shù)據(jù);業(yè)務(wù)數(shù)據(jù)采集不需要將插件下發(fā)至各節(jié)點服務(wù)器,只要在中心及誒單通過XX系統(tǒng)接口讀取所需數(shù)據(jù)即可;
3)業(yè)務(wù)數(shù)據(jù)入庫;按照本系統(tǒng)的存儲格式將讀到的數(shù)據(jù)量信息入庫;
4)系統(tǒng)針對各節(jié)點數(shù)據(jù),執(zhí)行穩(wěn)定度評估算法;一般情況下只要選擇一種評估算法即可,必要情況下,可以更改算法,更改法不影響整體流程;
5)計算結(jié)果入庫;
6)用戶查看穩(wěn)定度排名。
所述系統(tǒng)資源監(jiān)測步驟還包括:
1)在插件管理中啟動,磁盤信息采集插件;
2)啟動命令下發(fā)至各服務(wù)器插件管理進(jìn)程;
3)插件管理進(jìn)程為插件分配資源,啟動插件;
4)插件開始周期性采集信息;
5)插件將采集到的信息發(fā)送給插件管理進(jìn)程;
6)插件管理進(jìn)程周期性的將收集到的插件采集信息發(fā)送到匯集節(jié)點;
7)中心匯聚節(jié)點周期性的從各分區(qū)域中心節(jié)點拉取采集信息并入庫;
8)系統(tǒng)管理程序啟動統(tǒng)計分析程序,統(tǒng)計出磁盤使率變化曲線;
9)用戶查看磁盤使用率和TOPN變化量。