本發(fā)明涉及計算機技術(shù),具體涉及智能監(jiān)管方法和智能監(jiān)管系統(tǒng)。
背景技術(shù):
在大部分企業(yè)機關(guān)網(wǎng)絡中,存在著網(wǎng)元數(shù)量規(guī)模大,重點終端設備(攝像頭、rfid傳感器、室外機柜)數(shù)量過多,并且隨著網(wǎng)絡安全問題的頻頻出現(xiàn),一旦某一節(jié)點出現(xiàn)問題,這會導致整個網(wǎng)絡響應時間延遲,對于整個網(wǎng)絡健康運行產(chǎn)生嚴重威脅。網(wǎng)絡基礎建設的“健康性”和“安全性”越來越讓人擔憂,網(wǎng)絡龐大后勢必會給網(wǎng)絡安全問題帶來威脅。
it(信息化)綜合監(jiān)控管理從最早的自帶工具發(fā)展至現(xiàn)在的全面管理系統(tǒng),其方式和應用的手段都發(fā)生了一系列的變化:nsm(網(wǎng)絡和系統(tǒng)監(jiān)控)、bsm(業(yè)務服務管理系統(tǒng))、c2m(cloudcomputingmanagement云管理系統(tǒng))。
nsm階段,it綜合監(jiān)控管理主要集中在對物理網(wǎng)元設備的監(jiān)控、是以保證網(wǎng)絡連通性和系統(tǒng)可用性為主要目標,該階段是it監(jiān)控的基礎。
bsm階段,各企業(yè)單位開始關(guān)心it設備服務對業(yè)務帶來的影響,強調(diào)從業(yè)務目標角度出發(fā)來優(yōu)化it設備服務,力求做到it設備健康與業(yè)務的融合。
c2m階段,是云計算市場興起后,美信科技提出的it運維管理新概念與此同時,美信科技推出了全球首款基于云計算的it業(yè)務管理軟件——mx-bmp。
nsm階段的it綜合監(jiān)控管理只是作為保障業(yè)務順利進行的輔助手段,只產(chǎn)生了間接業(yè)務價值;bsm階段的it監(jiān)控管理規(guī)則和企業(yè)業(yè)務融為一體,相互配合為客戶提供價值;c2m階段繼承了bsm階段的理念,但在功能上更大、更全、更快,監(jiān)測范圍的無限拓展性、agent代理和非代理全面監(jiān)控手段。
從上述各階段的發(fā)展情況來看,現(xiàn)有各行業(yè)已經(jīng)采用的管理工具也大都是從傳統(tǒng)的網(wǎng)元,即點監(jiān)測出發(fā),基于各自獨立的管理模式,各管各的事:不同的設備管理系統(tǒng)和不同的應用管理系統(tǒng),只能各自維護自己的產(chǎn)品;而行業(yè)標準不明確、產(chǎn)品趨同、價格競爭激烈、高端技術(shù)人才的匱乏、客戶對國內(nèi)it綜合監(jiān)控管理廠商的認同度有待提高等,又加劇了管理工具各行其是的情況。
而各個網(wǎng)元點在物理位置上過于分散,網(wǎng)絡管理人員人數(shù)過少,管理經(jīng)驗貧乏,管理操作復雜等;使得it運維人員不得不面臨許多挑戰(zhàn):學習各領(lǐng)域知識、學習各種管理系統(tǒng)、熟悉各種操作系統(tǒng)、處理故障時在各種工具間切換等。
技術(shù)實現(xiàn)要素:
鑒于上述問題,本發(fā)明提出了克服上述問題或者至少部分地解決上述問題的智能監(jiān)管方法和智能監(jiān)管系統(tǒng)。
為此目的,第一方面,本發(fā)明提出智能監(jiān)管方法包括:
采集服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,以及采集網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài);
根據(jù)服務器的設備性能數(shù)據(jù)、服務器中的進程運行情況,以及根據(jù)網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài),產(chǎn)生第一警告信息和第一預測信息。
可選的,所述服務器設備的性能數(shù)據(jù)包括至少下列的一種:cpu性能相關(guān)管理參數(shù)、內(nèi)存性能相關(guān)管理參數(shù)、接口信息、網(wǎng)絡線路運行狀況、磁盤空間的占用;
所述第一警告信息包括異常警告、設備故障警告、鏈路阻斷警告、設備性能警告、鏈路性能警告。
可選的,包括:采集數(shù)據(jù)庫的動態(tài)性能表和數(shù)據(jù)庫的日志,根據(jù)數(shù)據(jù)庫的動態(tài)性能表和數(shù)據(jù)庫的日志產(chǎn)生第二警告信息和第二預測信息;
以及定期執(zhí)行維護數(shù)據(jù)庫的第一指令。
可選的,包括:采集適配器和代理程序?qū)χ虚g件的告警數(shù)據(jù)、性能數(shù)據(jù)、配置數(shù)據(jù),根據(jù)告警數(shù)據(jù)、性能數(shù)據(jù)、配置數(shù)據(jù)產(chǎn)生第三警告信息和第三預測信息。
可選的,包括:采集應用程序的進程名、進程id、進程啟動時間、運行時長、占用cpu時長、內(nèi)存、線程數(shù)、關(guān)聯(lián)的資源、占用的存儲空間、日志、應用配置信息;
根據(jù)應用程序的進程名、進程id、進程啟動時間、運行時長、占用cpu時長、內(nèi)存、線程數(shù)、關(guān)聯(lián)的資源、占用的存儲空間、日志和應用配置信息,產(chǎn)生第四警告信息和第四預測信息。
可選的,在采集服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,以及采集網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài)之后包括:
可視化顯示采集服務器的設備性能數(shù)據(jù)、服務器中的進程運行情況,可視化顯示網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài),以及可視化顯示第一警告信息和第一預測信息;
可視化顯示網(wǎng)絡設備、服務器、存儲設備和終端設備的網(wǎng)絡拓撲結(jié)構(gòu)圖。
可選的,包括通過視圖引擎調(diào)用flash應用程序接口,以圖形化的方式輸出服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,采集網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài),第一警告信息和第一預測信息,以及顯示網(wǎng)絡設備、服務器、存儲設備和終端設備的網(wǎng)絡拓撲結(jié)構(gòu)圖。
可選的,在采集服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,以及采集網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài)之后包括:
采用可定制的報表顯示設備數(shù)據(jù),設置報表的訪問權(quán)限。
可選的,包括所述采集服務器的設備性能數(shù)據(jù)包括采用輪詢的方式采集服務器的設備性能數(shù)據(jù);
在產(chǎn)生第一警告信息之后,還包括對采集到的設備性能數(shù)據(jù)和產(chǎn)生的第一警告信息進行標準化處理;
在產(chǎn)生第一警告信息之前,還包括配置產(chǎn)生第一警告信息的參數(shù)或規(guī)則,以及配置和產(chǎn)生第一預測信息的參數(shù)或規(guī)則;編輯鏈路接口參數(shù)。
另一方面本發(fā)明提供一種智能監(jiān)管系統(tǒng),包括:
采集模塊,用于采集服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,以及采集網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài);
監(jiān)控模塊,用于根據(jù)服務器的設備性能數(shù)據(jù)、服務器中的進程運行情況,以及根據(jù)網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài),產(chǎn)生第一警告信息和第一預測信息。
由上述技術(shù)方案可知,本發(fā)明通過采集服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,以及采集網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài);能夠及時發(fā)現(xiàn)管轄范圍內(nèi)這些網(wǎng)元對象的網(wǎng)絡安全問題和業(yè)務運行問題,保障網(wǎng)絡管理范圍內(nèi)業(yè)務系統(tǒng)的正常運行;從而解決因為網(wǎng)絡在物理位置過于分散,監(jiān)控終端點數(shù)量過大、網(wǎng)元對象操作復雜帶來的管理問題。
另一方面,應用上述方法能及時發(fā)現(xiàn)網(wǎng)元對象(如攝像頭)被偷盜、換取、篡改等違規(guī)操作。從而能夠為用戶的業(yè)務組織、管理人員精簡、管理節(jié)點混亂提供有力的技術(shù)支撐;從而能夠總結(jié)和挖掘出服務管理過程中的問題,明確管理重點,使業(yè)務系統(tǒng)、管理系統(tǒng)、各管理崗位與人員,通過流程有機的聯(lián)系起來,最終提高業(yè)務系統(tǒng)的運行效率,降低維護成本,提高服務質(zhì)量。
前面是提供對本發(fā)明一些方面的理解的簡要發(fā)明內(nèi)容。這個部分既不是本發(fā)明及其各種實施例的詳盡表述也不是窮舉的表述。它既不用于識別本發(fā)明的重要或關(guān)鍵特征也不限定本發(fā)明的范圍,而是以一種簡化形式給出本發(fā)明的所選原理,作為對下面給出的更具體的描述的簡介。應當理解,單獨地或者組合地利用上面闡述或下面具體描述的一個或多個特征,本發(fā)明的其它實施例也是可能的。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明的一個實施例中的方法示意圖;
圖2為本發(fā)明的一個實施例中系統(tǒng)結(jié)構(gòu)示意圖;
圖3為本發(fā)明的一個實施例中的主動采集的模塊結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合示例性的通信系統(tǒng)描述本發(fā)明。
本公開實施例提供智能監(jiān)管方法,對管轄范圍內(nèi)的整個網(wǎng)絡進行監(jiān)控和管理,所述的監(jiān)控和管理主要針對于網(wǎng)元對象,網(wǎng)元對象包括實體網(wǎng)元對象,也包括虛擬網(wǎng)元對象,實體網(wǎng)元對象例如實現(xiàn)網(wǎng)絡設備(交換機、路由器、安全設備)、服務器、存儲設備和終端設備,虛擬網(wǎng)元對象包括中間件、應用程序、數(shù)據(jù)庫等。
如圖1所示,智能監(jiān)管方法,方法包括:
s101采集服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,以及采集網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài);
s102根據(jù)服務器的設備性能數(shù)據(jù)、服務器中的進程運行情況,以及根據(jù)網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài),產(chǎn)生第一警告信息和第一預測信息。
設備性能數(shù)據(jù)為設備運行時的相關(guān)參數(shù)。進程運行情況包括進程名稱和進程標示符、進程的cpu狀態(tài)、進程內(nèi)存使用情況、進程總數(shù)的監(jiān)控、白名單的監(jiān)控、黑名單的監(jiān)控等。
網(wǎng)絡設備包括交換機、路由器、安全設備等;
終端設備包括攝像頭、rfid傳感器、室外機柜等;
在線狀態(tài)可以通過ping相關(guān)網(wǎng)元對象的方式獲得,例如通過ping服務器獲知其在線狀態(tài)。
服務器的系統(tǒng)可以是windows或linux或其他。
采集服務器的設備性能數(shù)據(jù)和服務器中的進程運行情況,可以是通過不同的協(xié)議采集的。例如在本發(fā)明的一個公開實施例中的采集方式為,通過snmp(simplenetworkmanagementprotocol)將網(wǎng)元對象上的信息發(fā)送到智能監(jiān)管平臺(本文中,根據(jù)上下文,智能監(jiān)管平臺可以指軟件,也指運行有該軟件的設備)。
通過snmp協(xié)議采集信息流程如下:駐留在被管網(wǎng)元對象上的snmp代理服務器綁定udp(userdatagramprotocol,用戶數(shù)據(jù)報協(xié)議)端口161接受來自智能監(jiān)管平臺發(fā)送的采集請求報文,經(jīng)解碼、團體名驗證、分析得到管理變量在mib(managementinformationbase,管理信息樹)樹中對應的節(jié)點,從相應的模塊中得到管理變量的值,再形成響應報文,編碼發(fā)送回管理站,管理站得到響應報文后,再經(jīng)同樣的處理,最終顯示結(jié)果。
首先,解碼生成內(nèi)部數(shù)據(jù)結(jié)構(gòu)表示的報文,解碼依據(jù)asn.1的基本編碼規(guī)則,如果在此過程中出現(xiàn)錯誤導致解碼失敗則丟棄該報文,不做進一步處理。第二步:將報文中的版本號取出,如果與本agent支持的snmp版本不一致,則丟棄該報文,不做進一步處理。第三步:將報文中的團體名取出,此團體名由發(fā)出請求的管理站填寫,如與本設備標記的團體名不符,則丟棄該報文,不做進一步處理,同時產(chǎn)生一個陷阱報文snmpv1版本只提供了較弱的安全措施,在版本2和3中這一功能將大大加強。第四步:從通過驗證的asn.1對象中提出協(xié)議數(shù)據(jù)單pdu,如果失敗,丟棄報文,不做進一不處理;否則處理pdu,結(jié)果將產(chǎn)生一個報文,該報文的發(fā)送目的地址應和收到報文的源地址一致。通過采集服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,以及采集網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài);能夠及時發(fā)現(xiàn)管轄范圍內(nèi)這些網(wǎng)元對象的網(wǎng)絡安全問題和業(yè)務運行問題,保障網(wǎng)絡管理范圍內(nèi)業(yè)務系統(tǒng)的正常運行;從而解決因為網(wǎng)絡在物理位置過于分散,監(jiān)控終端點數(shù)量過大、網(wǎng)元對象操作復雜帶來的管理問題,
另一方面,應用上述方法能及時發(fā)現(xiàn)網(wǎng)元對象(如攝像頭)被偷盜、換取、篡改等違規(guī)操作。從而能夠為用戶的業(yè)務組織、管理人員精簡、管理節(jié)點混亂提供有力的技術(shù)支撐;從而能夠總結(jié)和挖掘出服務管理過程中的問題,明確管理重點,使業(yè)務系統(tǒng)、管理系統(tǒng)、各管理崗位與人員,通過流程有機的聯(lián)系起來,最終提高業(yè)務系統(tǒng)的運行效率,降低維護成本,提高服務質(zhì)量。
設備性能數(shù)據(jù)包括至少下列的一種:cpu性能相關(guān)管理參數(shù)、內(nèi)存性能相關(guān)管理參數(shù)、接口信息、網(wǎng)絡線路運行狀況、磁盤空間的占用;cpu性能相關(guān)管理參數(shù)包括cpu使用率、運行在用戶態(tài)的百分比、于空閑狀態(tài)的百分比等;磁盤性能相關(guān)管理參數(shù)包括文件系統(tǒng)容量及文件系統(tǒng)空間利用率、磁盤使用率與用戶、虛擬內(nèi)存、文件系統(tǒng)交換空間、使用率等;內(nèi)存性能相關(guān)管理參數(shù)包括物理內(nèi)存大小、可用內(nèi)存大小、交換內(nèi)存大小、虛擬內(nèi)存大小等。
網(wǎng)絡線路運行狀態(tài)包括連通性、響應時間、流量、帶寬利用率、錯包數(shù)、丟包數(shù)等信息、vpn運行狀態(tài)等;網(wǎng)絡設備接口狀態(tài)包括接口面板、接口狀態(tài)、接口流量性能等信息;
所述第一警告信息包括至少一種:異常警告、設備故障警告、鏈路阻斷警告、設備性能警告、鏈路性能警告。
通過細化上述參數(shù),從而對網(wǎng)絡管轄范圍內(nèi)的網(wǎng)元對象進行更細化的監(jiān)控,以及對方便根據(jù)警告類型快速定位問題。
在本發(fā)明的一個實施例中,還包括對數(shù)據(jù)庫網(wǎng)元對象的監(jiān)控,對數(shù)據(jù)庫網(wǎng)元對象的監(jiān)控包括:采集數(shù)據(jù)庫的動態(tài)性能表和數(shù)據(jù)庫的日志,根據(jù)數(shù)據(jù)庫的動態(tài)性能表和數(shù)據(jù)庫的日志產(chǎn)生第二警告信息和第二預測信息;以及定期執(zhí)行維護數(shù)據(jù)庫的第一指令。
本文公開的對數(shù)據(jù)庫網(wǎng)元對象的監(jiān)控不限于對oracle、sqlserver、mysql等數(shù)據(jù)庫進行監(jiān)。本文公開的對數(shù)據(jù)庫網(wǎng)元對象的監(jiān)控實質(zhì)是對數(shù)據(jù)庫的性能和故障進行監(jiān)控管理,通過智能監(jiān)管平臺實現(xiàn)數(shù)據(jù)庫的集中監(jiān)控。對數(shù)據(jù)庫網(wǎng)元對象的監(jiān)控包括,根據(jù)數(shù)據(jù)庫的動態(tài)性能表和日志中采集數(shù)據(jù);對異常和超過閥值指標進行告警,這里的閾值為預設的或者根據(jù)算法產(chǎn)生的。并可以通過動作窗口定義對事件的響應進行維護,維護工作包括維護數(shù)據(jù)庫的規(guī)整,消除數(shù)據(jù)垃圾,表空間碎片整理等。維護工作用于提高數(shù)據(jù)庫性能。這些工作可以通過數(shù)據(jù)庫管理模塊的命令接口和數(shù)據(jù)庫管理工具來完成,即所述的定期執(zhí)行維護數(shù)據(jù)庫的第一指令。
通過數(shù)據(jù)庫的動態(tài)性能表和數(shù)據(jù)庫的日志可以獲得以下數(shù)據(jù)庫監(jiān)控的主要內(nèi)容:
數(shù)據(jù)庫內(nèi)存使用信息,包括共享內(nèi)存使用率,讀、寫命中率;
數(shù)據(jù)庫特定表的空間性能信息,包括特定表擴展次數(shù);
數(shù)據(jù)庫內(nèi)表空間的讀寫次數(shù);
數(shù)據(jù)庫表空間的利用情況;
數(shù)據(jù)文件或數(shù)據(jù)設備的讀寫次數(shù);
數(shù)據(jù)庫碎片的情況;
數(shù)據(jù)庫鎖使用情況,包括鎖數(shù)量、死鎖率;
數(shù)據(jù)庫用戶占用資源情況,包括cpu占用率、內(nèi)存占用率、會話數(shù)量、連接用戶數(shù);
上述技術(shù)方案解決了因為網(wǎng)絡在物理位置過于分散,數(shù)據(jù)庫的管理過于分散而導致未及時發(fā)現(xiàn)數(shù)據(jù)庫宕機、離線等的問題。
在本發(fā)明的一個實施例中,還包括對中間件網(wǎng)元對象的監(jiān)控,對中間件網(wǎng)元對象的監(jiān)控包括:
采集適配器和代理程序?qū)χ虚g件的告警數(shù)據(jù)、性能數(shù)據(jù)、配置數(shù)據(jù),根據(jù)告警數(shù)據(jù)、性能數(shù)據(jù)、配置數(shù)據(jù)產(chǎn)生第三警告信息和第三預測信息。
中間件的監(jiān)控管理,其主要是運用在各類業(yè)務系統(tǒng)中的各類服務;目前應用業(yè)務系統(tǒng)使用的中間件產(chǎn)品大致分為兩類:面向傳統(tǒng)應用環(huán)境的傳輸中間件、交易中間件和面向j2ee應用環(huán)境的應用中間件。中間件管理主要利用snmp協(xié)議的采集適配器和agent(代理)程序?qū)Ω鞣N不同中間件的告警數(shù)據(jù)、性能數(shù)據(jù)和配置數(shù)據(jù)進行采集和告警處理信息的收集。通過對中間件的監(jiān)控管理,從而實現(xiàn)對http、iis、apache、tomcat等應用服務器的監(jiān)控和管理。
對中間件監(jiān)控的各類指標包括:包括活動域信息、jdbc(javadatabaseconnectivity,java數(shù)據(jù)庫連接)信息、webapp(指基于web的系統(tǒng)和應用)信息、堆信息、server信息、線程信息等。
上述技術(shù)方案解決了因為網(wǎng)絡在物理位置過于分散,中間件的管理過于分散而導致未及時發(fā)現(xiàn)數(shù)據(jù)庫宕機、離線等的問題。
在本發(fā)明的一個實施例中,還包括對應用業(yè)務的監(jiān)控,對應用業(yè)務的監(jiān)控包括:采集應用程序的進程名、進程id、進程啟動時間、運行時長、占用cpu時長、內(nèi)存、線程數(shù)、關(guān)聯(lián)的資源、占用的存儲空間、日志、應用配置信息;
根據(jù)應用程序的進程名、進程id、進程啟動時間、運行時長、占用cpu時長、內(nèi)存、線程數(shù)、關(guān)聯(lián)的資源、占用的存儲空間信息、日志和應用配置信息,產(chǎn)生第四警告信息和第四預測信息。
關(guān)聯(lián)的資源包括與該應用程序關(guān)聯(lián)的主機/存儲/網(wǎng)絡/中間件/數(shù)據(jù)庫、與其它應用或系統(tǒng)的接口。占用的存儲空間信息包括關(guān)聯(lián)文件個數(shù)、文件大小、文件生成時間。應用程序的日志包括:業(yè)務審計、業(yè)務故障、業(yè)務告警等功能;應用配置信息:配置參數(shù)、應用依賴的進程或服務、業(yè)務功能。
在本發(fā)明的一個實施例中,當采集到的上述某一指標出現(xiàn)問題時,系統(tǒng)會以第一時間在業(yè)務視圖上進行告警,使管理員能夠及時處理所發(fā)生的問題,防止問題進一步嚴重。同時,對應用資源消耗、應用自身性能等方面都可以做預測,在問題到來之前,通過對數(shù)據(jù)的分析和預測,讓管理員能夠盡早的做好預防工作。
對于應用業(yè)務監(jiān)控復雜的系統(tǒng),一旦應用出現(xiàn)問題,對于管理員來說,排查故障發(fā)生的原因是一項繁雜而又重復的勞動,系統(tǒng)對應用程序的每一個問題都會及時記錄,產(chǎn)生相應的事件和告警,因此,通過上述對應用業(yè)務的監(jiān)控,能夠幫助管理員迅速排查故障產(chǎn)生的原因,大大減少管理員的勞動強度,讓管理員能夠以最快的時間反饋故障結(jié)果,提高客戶服務的滿意度。本方法通過快速恢復應用出現(xiàn)的故障,或輔助管理員定位問題的所在,讓管理員迅速解決問題,快速恢復系統(tǒng)。
通過本發(fā)明方法中,對應用業(yè)務管理的方案,實現(xiàn)預防問題、快速定位業(yè)務故障原因、并且能夠快速恢復應用業(yè)務系統(tǒng)的正常使用功能。
在本發(fā)明的一個實施例中,在采集服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,以及采集網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài)之后包括:
可視化顯示采集服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,可視化顯示網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài),以及可視化顯示第一警告信息和第一預測信息;
可以理解的是,在本發(fā)明的一些實施例中,還包括可視化顯示采集應用程序的進程名、進程id、進程啟動時間、運行時長、占用cpu時長、內(nèi)存、線程數(shù)、關(guān)聯(lián)的資源、占用的存儲空間、日志、應用配置信息;包括可視化顯示采集適配器和代理程序?qū)χ虚g件的告警數(shù)據(jù)、性能數(shù)據(jù)、配置數(shù)據(jù)等。
在本發(fā)明的一些實施例中,還包括可視化的顯示端口運行狀態(tài),顯示任意指定網(wǎng)絡節(jié)點下連接的設備信息,以便網(wǎng)絡管理人員直觀明了地監(jiān)控網(wǎng)絡細節(jié)顯示。顯示的內(nèi)容包括設備地址、聯(lián)系人及其系統(tǒng)信息,以及顯示當前設備的工作狀態(tài)還顯示各種設備的物理面板信息,將端口的狀態(tài)直接反映到物理面板上,管理方便。
在本發(fā)明的一些實施例中通過可視化界面顯示網(wǎng)絡響應時間、網(wǎng)絡帶寬使用等,從用戶的角度監(jiān)控網(wǎng)絡的性能,并且通過告警、圖形化分析、自動報告、性能報表等手段提供端到端的性能管理它可以幫助用戶進行性能分析和容量規(guī)劃,使得整個網(wǎng)絡在最低的成本下能夠正常運行。網(wǎng)絡性能管理的過程一般包括:實時網(wǎng)絡性能數(shù)據(jù)深度采集、實時網(wǎng)絡性能圖表展示、網(wǎng)絡性能數(shù)據(jù)匯總和處理、歷史性能狀況分析和報告;并且支持通過snmpv1、snmpv2c協(xié)議對網(wǎng)絡設備性能(如處理器、內(nèi)存、端口流量等)數(shù)據(jù)采集;同時,實現(xiàn)方便的調(diào)用監(jiān)測提供對網(wǎng)絡性能進行實時監(jiān)測的工具,供管理員對網(wǎng)絡性能進行觀察和分析。
在本發(fā)明的實施例中,不限于通過文字的方式顯示監(jiān)控數(shù)據(jù),還可以可視化顯示網(wǎng)絡設備、服務器、存儲設備和終端設備的網(wǎng)絡拓撲結(jié)構(gòu)圖。
網(wǎng)絡拓撲結(jié)構(gòu)圖,主要通過網(wǎng)絡拓撲管理模塊實線,網(wǎng)絡拓撲管理模塊提供基于地理位置的物理拓撲視圖和各內(nèi)部子網(wǎng)拓撲視圖,以及各類應用業(yè)務的業(yè)務視圖,并可根據(jù)需要將網(wǎng)絡的物理分布與地圖位置結(jié)合,地圖網(wǎng)絡節(jié)點和各內(nèi)部網(wǎng)絡結(jié)合,更加直觀的反映整體網(wǎng)絡結(jié)構(gòu)。
為了更好的構(gòu)建網(wǎng)絡拓撲結(jié)構(gòu)圖,在一些具體實施例中,支持網(wǎng)絡拓撲節(jié)點自動發(fā)現(xiàn),例如通過snmp協(xié)議發(fā)現(xiàn)網(wǎng)絡層設備,通過arp協(xié)議、fdb表發(fā)現(xiàn)鏈路層設備,可以發(fā)現(xiàn)各設備端口類型、板卡、插件、連接關(guān)系和判斷設備當前狀態(tài)。并且能夠從不同角度、不同層次提供多種形式的網(wǎng)絡拓撲顯示:包括網(wǎng)絡設備拓撲、業(yè)務拓撲和自定義拓撲視圖;拓撲中實時顯示網(wǎng)絡元素和鏈路的狀態(tài),用不同顏色標識不同狀態(tài);在一些具體實施例中,鼠標點擊拓撲中的網(wǎng)元圖標可以顯示相關(guān)的實時性能數(shù)據(jù)和告警信息;從而方便快速進行定位故障,找到故障影響的設備和業(yè)務范圍;在一些具體實施例中,鼠標點擊拓撲中鏈接可以顯示相關(guān)的實時數(shù)據(jù);具備拓撲的自動發(fā)現(xiàn)、拓撲的人工維護功能,對于新增設備方便添加;上述拓撲圖的描述并不用于限制拓撲圖的構(gòu)造,在不同的實施例中,可以為不同的應用場景定制個性化拓撲圖,或為不同用戶可以定制不同的拓撲圖。
上述技術(shù)方案解決因為網(wǎng)絡在物理位置過于分散,監(jiān)控終端點過大帶來的管理問題。而集中顯示在監(jiān)控拓撲圖,一旦發(fā)現(xiàn)問題,可以快速定位網(wǎng)元對象。
在本法的一個實施例中可視化顯示,包括通過視圖引擎調(diào)用flash應用程序接口,以圖形化的方式輸出服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,采集網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài),第一警告信息和第一預測信息,以及顯示網(wǎng)絡設備、服務器、存儲設備和終端設備的網(wǎng)絡拓撲結(jié)構(gòu)圖。
在采集服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,以及采集網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài)之后還包括:
采用可定制的報表顯示設備數(shù)據(jù),設置報表的訪問權(quán)限。
可定制指的是報表的表頭可定制。系統(tǒng)對于報表項的定制不僅僅定位在數(shù)據(jù)表的一般項上,還能夠?qū)Χ鄠€數(shù)據(jù)表的多個項進行sql語句運算構(gòu)造新的項,同時提供了靈活的分層統(tǒng)計、排序、查詢條件定制等業(yè)務邏輯功能;對于報表的頁面也可以靈活地設置字體顏色等屬性,使得報表獲得更好的展示形式只需準備源數(shù)據(jù),后續(xù)數(shù)據(jù)展現(xiàn)工作由報表引擎來完成。
為了能有效地對報表進行管理,我們對報表建立不同的分類。分類是將報表根據(jù)業(yè)務功能分成不同的模塊,這個分類標準可以根據(jù)報表所涉及的業(yè)務功能,也可以根據(jù)報表填報日期,以及其他應用場景分類。例如支持用戶自定義報表分類,可自行建立統(tǒng)計表類別,支持對不同類別設置不同的操作權(quán)限建立了分類標準后,設置各個分類標準的具體化屬性控制權(quán)限,以便讓不同的人有不同的訪問權(quán)限,保證數(shù)據(jù)訪問的秘密和安全。提供從web入口發(fā)布生成報表時通過報表引擎來自動完成的,報表引擎主要是引用工作流引擎的流程運轉(zhuǎn)原理,在原始數(shù)據(jù)的基礎上,定義報表的格式、報表的算法,根據(jù)定義的算法自動執(zhí)行計算,并輸出計算后的結(jié)果,再根據(jù)定義的報表格式顯示報表的內(nèi)容。
在一些實施例中,支持全網(wǎng)所有設備的性能指標報表,整個監(jiān)控網(wǎng)內(nèi)所有設備有關(guān)性能的報表,按照時間維度進行標量,年、月、周、日維度進行導出,并且所有性能指標按照制定規(guī)則進行歸檔,按照日為單元歸檔。全網(wǎng)所有告警處理的報表,所有在網(wǎng)被監(jiān)控的網(wǎng)元都有的告警按照級別、是否處理、設備類別、處理時間、處理人員等角度進行統(tǒng)計。所有業(yè)務系統(tǒng)的具體故障報表,關(guān)于被檢測所有業(yè)務總體告警瀏覽、對應每個業(yè)務所構(gòu)成的物理設備、中間件、數(shù)據(jù)庫設備告警、時間、告警界別、告警次數(shù)、告警后果引起的事件等維度。具體業(yè)務系統(tǒng)的具體告警報表,對應每個業(yè)務所構(gòu)成的物理設備、中間件、數(shù)據(jù)庫設備告警、時間、告警級別、告警次數(shù)、告警后果引起的事件等維度。網(wǎng)絡設備,前端設備,后端(處理)設備,(瀏覽設備)系統(tǒng)的報表。按類別新增設備的報表,按照時間范圍導出那段時間、月、周、日、年新增的所有設備、設備的種類、設備的型號、設備的錄入人、設備的廠商等。
在一些實施例中,支持多種文件格式的導出,包括:microsoftword(.doc),microsoftexcel(xls),可移植文檔格式(.pdf)支持,將報表自動導出為以上任何一種支持的文件格式。用戶以任何支持的導出格式導出整個報表,同時提供全面的頁面打印控制。提供事件監(jiān)控視圖,例如主要為事件的分類視圖,可以按照網(wǎng)絡設備、安全設備、操作系統(tǒng)、數(shù)據(jù)庫、中間件、終端設備(攝像頭、傳感器、室外機柜、工業(yè)交換機)等類別歸類事件;可以使管理人員查看詳細的發(fā)生的故障,如包含:最新告警、最近24小時告警、最近一周告警、最近一月的告警等可以自定義時間段展現(xiàn)。
采集服務器的設備性能數(shù)據(jù)包括采用輪詢的方式采集服務器的設備性能數(shù)據(jù);對采集到的設備性能數(shù)據(jù)和產(chǎn)生的第一警告信息進行標準化處理。所述標準化處理即基于閾值對比的告警指標模型,將后臺采集到的原始性能數(shù)據(jù)進行標準化、歸一化處理,標準化應是具備告警內(nèi)容翻譯能力,能夠?qū)⒉煌瑏碓吹母婢畔凑战y(tǒng)一的字段設置和格式要求進行處理,形成易于理解的告警信息根據(jù)規(guī)則將告警進行標準化處理,標準化后的告警信息進行歸類、保存能夠創(chuàng)建、修改、刪除事件標準化規(guī)則。
另外,告警管理需要具備告警查詢,告警統(tǒng)計,批量告警刪除,告警對照統(tǒng)計,告警topn查詢功能。
上述各種方案均能組合實施,從而能夠更好的總結(jié)和挖掘出服務管理過程中的問題,明確管理重點,使業(yè)務系統(tǒng)、管理系統(tǒng)、各管理崗位與人員,通過流程有機的聯(lián)系起來,最終提高業(yè)務系統(tǒng)的運行效率,降低維護成本,提高服務質(zhì)量。本文中使用的“監(jiān)視”包括用儀器來觀察、記錄或檢測有關(guān)的任何類型的功能,這些儀器對被監(jiān)視的元件或元件組的操作或狀態(tài)沒有任何影響。
在一個公開實施例中,智能監(jiān)管平臺架構(gòu)上劃分為三層,例如圖2示,分別是“原始數(shù)據(jù)采集層103”、“數(shù)據(jù)處理層102”、“應用信息展示層101”,被監(jiān)控對象104的監(jiān)控數(shù)據(jù)(如性能數(shù)據(jù)、告警數(shù)據(jù)、配置數(shù)據(jù)等)通過以上三層的集中處理,最終統(tǒng)一展現(xiàn)給監(jiān)控和運維人員,從而達到對整個網(wǎng)絡“健康性”和“安全性”的整體感知,提高整網(wǎng)的安全等級。
原始數(shù)據(jù)采集層通過被管網(wǎng)元對象接口采集監(jiān)控數(shù)據(jù),按照一定數(shù)據(jù)準則傳輸至數(shù)據(jù)處理層對數(shù)據(jù)進行處理。原始數(shù)據(jù)采集層主要基于國際通用標準snmp協(xié)議進行開發(fā);另外也可以涉及通過jvm協(xié)議對中間件信息進行采集;針對類似數(shù)據(jù)庫等網(wǎng)元對象,該層主要通過仿真登錄的方式對數(shù)據(jù)庫基本信息和性能信息進行采集;通過以上三種方式實現(xiàn)原始數(shù)據(jù)采集層功能。
在一些實施例中,采集服務器的設備性能數(shù)據(jù)可以是通過主動采集實現(xiàn)的。主動采集分為三個模塊:調(diào)度模塊,協(xié)議模塊和服務模塊如圖3,是主動采集各個模塊的結(jié)構(gòu)圖。調(diào)度模塊是采集模塊的控制者,它向協(xié)議模塊發(fā)出執(zhí)行指令,負責任務的組織、調(diào)度和分配;協(xié)議模塊是采集命令的執(zhí)行者,服務采集數(shù)據(jù)和解析和數(shù)據(jù),它根據(jù)接收任務的類型,將不同的任務按照采集方式進行分配,協(xié)議處理程序根據(jù)任務信息與設備進行通信,采集回任務包含的所有部件數(shù)據(jù),并將數(shù)據(jù)進行解析轉(zhuǎn)換成設備模型對象;服務模塊,則根據(jù)設備的特性,具體對設備模型進行加工處理,返回設備展示所需要的數(shù)據(jù)結(jié)構(gòu)
在一些實施例中,采集服務器的設備性能數(shù)據(jù)可以通過被動采集實現(xiàn),例如通過syslog(系統(tǒng)日志應用)服務讀取中央日志服務器的syslog日志文件、隔離區(qū)通過ftp傳輸來的日志文件、并通過socket接收指定端口的日志信息。
syslog服務把讀取到的大量日志信息轉(zhuǎn)存以供備份使用;同時過濾不必要的日志,將有效的日志按日志格式分解后屏蔽,并根據(jù)tag歸類到不同的邏輯文件,對邏輯文件運用規(guī)則組分析日志并保存分析后的日志和事件以供檢索,同時將日志信息轉(zhuǎn)義為告警事件,并告警事件發(fā)送給告警簡單分析服務。
syslog服務共分為日志讀取模塊、日志轉(zhuǎn)存模塊、日志解析模塊、日志保存模塊、日志備份模塊、日志檢索模塊和事件發(fā)送模塊等7大模塊。
本文還公開一種智能監(jiān)管設備,包括:
采集模塊,用于采集服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,以及采集網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài);
監(jiān)控模塊,用于根據(jù)服務器的設備性能數(shù)據(jù)、服務器中的進程運行情況,以及根據(jù)網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài),產(chǎn)生第一警告信息和第一預測信息。
所述服務器設備的性能數(shù)據(jù)包括至少下列的一種:cpu性能相關(guān)管理參數(shù)、內(nèi)存性能相關(guān)管理參數(shù)、接口信息、網(wǎng)絡線路運行狀況、磁盤空間的占用;
所述第一警告信息包括異常警告、設備故障警告、鏈路阻斷警告、設備性能警告、鏈路性能警告。
所述采集模塊還包括數(shù)據(jù)庫采集子模塊,用于采集數(shù)據(jù)庫的動態(tài)性能表和數(shù)據(jù)庫的日志。
所述監(jiān)控模塊還包括數(shù)據(jù)庫監(jiān)控子模塊,用于根據(jù)數(shù)據(jù)庫的動態(tài)性能表和數(shù)據(jù)庫的日志產(chǎn)生第二警告信息和第二預測信息;
包括數(shù)據(jù)庫執(zhí)行模塊,用于以及定期執(zhí)行維護數(shù)據(jù)庫的第一指令。
所述采集模塊還包括中間件采集子模塊,用于采集適配器和代理程序?qū)χ虚g件的告警數(shù)據(jù)、性能數(shù)據(jù)、配置數(shù)據(jù);
所監(jiān)控模塊還包括中間件監(jiān)控子模塊,用于根據(jù)告警數(shù)據(jù)、性能數(shù)據(jù)、配置數(shù)據(jù)產(chǎn)生第三警告信息和第三預測信息。
所述采集模塊還包括應用程序采集子模塊,用于采集應用程序的進程名、進程id、進程啟動時間、運行時長、占用cpu時長、內(nèi)存、線程數(shù)、關(guān)聯(lián)的資源、占用的存儲空間、日志、應用配置信息;
所述監(jiān)控模塊還包括應用程序監(jiān)控子模塊,用于根據(jù)應用程序的進程名、進程id、進程啟動時間、運行時長、占用cpu時長、內(nèi)存、線程數(shù)、關(guān)聯(lián)的資源、占用的存儲空間、日志和應用配置信息,產(chǎn)生第四警告信息和第四預測信息。
包括顯示模塊,用于可視化顯示采集服務器的設備性能數(shù)據(jù),服務器中的進程運行情況,采集網(wǎng)絡設備、服務器、存儲設備和終端設備各自的在線狀態(tài),以及第一警告信息和第一預測信息;用于可視化顯示網(wǎng)絡設備、服務器、存儲設備和終端設備的網(wǎng)絡拓撲結(jié)構(gòu)圖。
包括報表模塊,用于采用可定制的報表顯示設備數(shù)據(jù),設置報表的訪問權(quán)限。
包括標準化模塊,用于在產(chǎn)生第一警告信息之后,還包括對采集到的設備性能數(shù)據(jù)和產(chǎn)生的第一警告信息進行標準化處理;
包括配置模塊,用于配置產(chǎn)生第一警告信息和產(chǎn)生第一預測信息的規(guī)則;編輯鏈路接口。
所述采集模塊用于采用輪詢的方式采集服務器的設備性能數(shù)據(jù)。
本文中使用的“至少一個”、“一個或多個”以及“和/或”是開放式的表述,在使用時可以是聯(lián)合的和分離的。例如,“a、b和c中的至少一個”,“a、b或c中的至少一個”,“a、b和c中的一個或多個”以及“a、b或c中的一個或多個”指僅有a、僅有b、僅有c、a和b一起、a和c一起、b和c一起或a、b和c一起。
術(shù)語“一個”實體是指一個或多個所述實體。由此術(shù)語“一個”、“一個或多個”和“至少一個”在本文中是可以互換使用的。還應注意到術(shù)語“包括”、“包含”和“具有”也是可以互換使用的。
本文中使用的術(shù)語“自動的”及其變型是指在執(zhí)行處理或操作時沒有實質(zhì)的人為輸入的情況下完成的任何處理或操作。然而,即使在執(zhí)行處理或操作時使用了執(zhí)行所述處理或操作前接收到的實質(zhì)的或非實質(zhì)的人為輸入,所述處理或操作也可以是自動的。如果輸入影響所述處理或操作將怎樣進行,則視該人為輸入是實質(zhì)的。不影響所述處理或操作進行的人為輸入不視為是實質(zhì)的。
本文中使用的術(shù)語“計算機可讀介質(zhì)”是指參與將指令提供給處理器執(zhí)行的任何有形存儲設備和/或傳輸介質(zhì)。計算機可讀介質(zhì)可以是在ip網(wǎng)絡上的網(wǎng)絡傳輸(如soap)中編碼的串行指令集。這樣的介質(zhì)可以采取很多形式,包括但不限于非易失性介質(zhì)、易失性介質(zhì)和傳輸介質(zhì)。非易失性介質(zhì)包括例如nvram或者磁或光盤。易失性介質(zhì)包括諸如主存儲器的動態(tài)存儲器(如ram)。計算機可讀介質(zhì)的常見形式包括例如軟盤、柔性盤、硬盤、磁帶或任何其它磁介質(zhì)、磁光介質(zhì)、cd-rom、任何其它光介質(zhì)、穿孔卡、紙帶、任何其它具有孔形圖案的物理介質(zhì)、ram、prom、eprom、flash-eprom、諸如存儲卡的固態(tài)介質(zhì)、任何其它存儲芯片或磁帶盒、后面描述的載波、或計算機可以讀取的任何其它介質(zhì)。電子郵件的數(shù)字文件附件或其它自含信息檔案或檔案集被認為是相當于有形存儲介質(zhì)的分發(fā)介質(zhì)。當計算機可讀介質(zhì)被配置為數(shù)據(jù)庫時,應該理解該數(shù)據(jù)庫可以是任何類型的數(shù)據(jù)庫,例如關(guān)系數(shù)據(jù)庫、層級數(shù)據(jù)庫、面向?qū)ο蟮臄?shù)據(jù)庫等等。相應地,認為本發(fā)明包括有形存儲介質(zhì)或分發(fā)介質(zhì)和現(xiàn)有技術(shù)公知的等同物以及未來開發(fā)的介質(zhì),在這些介質(zhì)中存儲本發(fā)明的軟件實施。
本文中使用的術(shù)語“確定”、“運算”和“計算”及其變型可以互換使用,并且包括任何類型的方法、處理、數(shù)學運算或技術(shù)。更具體地,這樣的術(shù)語可以包括諸如bpel的解釋規(guī)則或規(guī)則語言,其中邏輯不是硬編碼的而是在可以被讀、解釋、編譯和執(zhí)行的規(guī)則文件中表示。
本文中使用的術(shù)語“模塊”或“工具”是指任何已知的或以后發(fā)展的硬件、軟件、固件、人工智能、模糊邏輯或能夠執(zhí)行與該元件相關(guān)的功能的硬件和軟件的組合。另外,雖然用示例性實施方式來描述本發(fā)明,但應當理解本發(fā)明的各方面可以單獨要求保護。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的要素。此外,在本文中,“大于”、“小于”、“超過”等理解為不包括本數(shù);“以上”、“以下”、“以內(nèi)”等理解為包括本數(shù)。
盡管已經(jīng)對上述各實施例進行了描述,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改,所以以上所述僅為本發(fā)明的實施例,并非因此限制本發(fā)明的專利保護范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護范圍之內(nèi)。