本技術(shù)涉及工程機(jī)械,具體涉及一種運(yùn)維監(jiān)控系統(tǒng)。
背景技術(shù):
1、teamcenter系統(tǒng)作為產(chǎn)品全生命周期管理平臺(tái),提供集成的環(huán)境,用于設(shè)計(jì)、模擬和制造各種產(chǎn)品,在工程機(jī)械行業(yè)中的應(yīng)用越來越廣泛,為企業(yè)有效提升研發(fā)效率,縮減研發(fā)周期。隨著用戶數(shù)量增加以及使用的深入,對(duì)平臺(tái)的可靠性、穩(wěn)定性也提出了更高的要求。
2、然而,由于teamcenter系統(tǒng)本身是封裝的,代碼加密,運(yùn)行過程復(fù)雜,日志解讀困難,現(xiàn)有監(jiān)控平臺(tái)僅能監(jiān)控操作系統(tǒng)資源使用情況,無法采集teamcenter系統(tǒng)的系統(tǒng)存活、端口連通性、日志異常、服務(wù)阻塞以及流程連續(xù)性等的運(yùn)行指標(biāo),導(dǎo)致不能實(shí)時(shí)判斷整個(gè)系統(tǒng)的使用狀態(tài)以監(jiān)測(cè)teamcenter系統(tǒng)的狀態(tài)。同時(shí),在teamcenter系統(tǒng)問題出現(xiàn)后也不能進(jìn)行自動(dòng)診斷和恢復(fù),往往是在用戶大批量出現(xiàn)無法使用系統(tǒng)的情況后反饋給管理員之后,管理員手動(dòng)進(jìn)行逐步排查,十分考驗(yàn)管理員的運(yùn)維能力。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的目的是提供一種運(yùn)維監(jiān)控系統(tǒng),用以解決現(xiàn)有技術(shù)中無法對(duì)產(chǎn)品全生命周期管理平臺(tái)的運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)測(cè)導(dǎo)致平臺(tái)在出現(xiàn)異常時(shí)無法及時(shí)運(yùn)維的技術(shù)缺陷。
2、為了實(shí)現(xiàn)上述目的,本技術(shù)第一方面提供一種運(yùn)維監(jiān)控系統(tǒng),應(yīng)用于產(chǎn)品全生命周期管理平臺(tái),產(chǎn)品全生命周期管理平臺(tái)包括多個(gè)服務(wù)節(jié)點(diǎn),系統(tǒng)包括:
3、監(jiān)控告警模塊,包括服務(wù)器監(jiān)控模塊以及平臺(tái)監(jiān)控模塊,服務(wù)器監(jiān)控模塊部署于每個(gè)服務(wù)節(jié)點(diǎn)上,用于實(shí)時(shí)獲取每個(gè)服務(wù)節(jié)點(diǎn)的性能參數(shù)以對(duì)產(chǎn)品全生命周期管理平臺(tái)的性能進(jìn)行監(jiān)控,并針對(duì)每個(gè)節(jié)點(diǎn)服務(wù)配置有對(duì)應(yīng)的監(jiān)控項(xiàng),以在每個(gè)服務(wù)節(jié)點(diǎn)的性能參數(shù)滿足告警條件的情況下,執(zhí)行對(duì)應(yīng)的告警策略;平臺(tái)監(jiān)控模塊用于針對(duì)平臺(tái)的每個(gè)服務(wù)節(jié)點(diǎn),配置有多個(gè)狀態(tài)監(jiān)測(cè)功能服務(wù),以實(shí)時(shí)監(jiān)測(cè)每個(gè)服務(wù)節(jié)點(diǎn)的運(yùn)行狀態(tài);
4、自動(dòng)運(yùn)維模塊,包括平臺(tái)故障自運(yùn)維模塊以及故障數(shù)據(jù)處理模塊,平臺(tái)故障自運(yùn)維模塊用于在任意一個(gè)服務(wù)節(jié)點(diǎn)運(yùn)行異常的情況下,對(duì)服務(wù)節(jié)點(diǎn)的進(jìn)程進(jìn)行分析,以清理滿足預(yù)設(shè)條件的進(jìn)程;故障數(shù)據(jù)處理模塊用于獲取服務(wù)器監(jiān)控模塊中的異常數(shù)據(jù),并提供對(duì)應(yīng)的運(yùn)維腳本對(duì)異常數(shù)據(jù)進(jìn)行處理。
5、在本技術(shù)的實(shí)施例中,系統(tǒng)還包括:手動(dòng)運(yùn)維模塊,包括管理員模塊、業(yè)務(wù)數(shù)據(jù)查詢模塊以及用戶模塊;管理員模塊用于提供服務(wù)重啟功能、服務(wù)部署功能以及進(jìn)程清理功能,以使管理員基于服務(wù)重啟功能、服務(wù)部署功能以及進(jìn)程清理功能對(duì)產(chǎn)品全生命周期管理平臺(tái)進(jìn)行運(yùn)維;業(yè)務(wù)數(shù)據(jù)查詢模塊用于在確定用戶的用戶權(quán)限滿足預(yù)設(shè)權(quán)限等級(jí)的情況下,基于用戶觸發(fā)的數(shù)據(jù)查詢需求返回對(duì)應(yīng)表的業(yè)務(wù)數(shù)據(jù);用戶模塊包括工單系統(tǒng)以及知識(shí)庫,工單系統(tǒng)用于接收每個(gè)用戶提報(bào)的問題信息,并通過知識(shí)庫提取問題信息的關(guān)鍵詞并進(jìn)行匹配,以返回對(duì)應(yīng)的解決方案。
6、在本技術(shù)的實(shí)施例中,自動(dòng)運(yùn)維模塊還包括:業(yè)務(wù)數(shù)據(jù)處理模塊,用于獲取產(chǎn)品全生命周期管理平臺(tái)的自制件、外購件、原材料以及輔料數(shù)據(jù)的數(shù)據(jù)屬性進(jìn)行規(guī)范性檢查,并將檢查得到的異常數(shù)據(jù)進(jìn)行匯總,其中,數(shù)據(jù)屬性包括屬性值長(zhǎng)度、填寫規(guī)范、字符類型、單位規(guī)范、數(shù)值精確度以及是否包含中文中的至少一者;故障信息處理模塊,用于對(duì)平臺(tái)監(jiān)控模塊獲取的性能參數(shù)進(jìn)行服務(wù)端口連通性、服務(wù)日志、接口輸入以及返回值核查,以確定每個(gè)服務(wù)節(jié)點(diǎn)是否處于正常狀態(tài);在確定任一服務(wù)節(jié)點(diǎn)處于異常的情況下,確定該服務(wù)節(jié)點(diǎn)是否為核心服務(wù)節(jié)點(diǎn);在該服務(wù)節(jié)點(diǎn)不是核心服務(wù)節(jié)點(diǎn)的情況下,通過運(yùn)維腳本對(duì)該服務(wù)節(jié)點(diǎn)進(jìn)行重啟或重建;在該服務(wù)節(jié)點(diǎn)是核心服務(wù)節(jié)點(diǎn)的情況下,生成對(duì)應(yīng)的運(yùn)維信息至管理員;季度業(yè)務(wù)數(shù)據(jù)報(bào)表匯總模塊,用于獲取平臺(tái)在每個(gè)季度的業(yè)務(wù)數(shù)據(jù),并對(duì)每個(gè)季度的業(yè)務(wù)數(shù)據(jù)的新增數(shù)量和發(fā)布數(shù)量進(jìn)行統(tǒng)計(jì),以及對(duì)每個(gè)季度的業(yè)務(wù)數(shù)據(jù)進(jìn)行業(yè)務(wù)規(guī)范檢查,并將檢查結(jié)果以及統(tǒng)計(jì)結(jié)果進(jìn)行匯總。
7、在本技術(shù)的實(shí)施例中,監(jiān)控告警模塊還包括:數(shù)據(jù)庫監(jiān)控模塊,用于針對(duì)產(chǎn)品全生命周期管理平臺(tái),配置了多種結(jié)構(gòu)化查詢語言查詢功能,以確定影響產(chǎn)品全生命周期管理平臺(tái)運(yùn)行的執(zhí)行結(jié)構(gòu)化查詢語言;大屏展示模塊,用于提供定制化監(jiān)控大屏,以對(duì)產(chǎn)品全生命周期管理平臺(tái)的性能、資源使用情況以及每個(gè)服務(wù)節(jié)點(diǎn)的運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)展示;性能報(bào)表匯總模塊,用于提供定制化報(bào)表模板,以對(duì)性能指標(biāo)、問題列表以及業(yè)務(wù)數(shù)據(jù)進(jìn)行周期性統(tǒng)計(jì)。
8、在本技術(shù)的實(shí)施例中,多個(gè)狀態(tài)監(jiān)測(cè)功能服務(wù)至少包括用戶連接數(shù)及狀態(tài)檢查服務(wù)、應(yīng)用日志檢查服務(wù)、應(yīng)用服務(wù)狀態(tài)檢查服務(wù)、端口開放檢查服務(wù)以及許可服務(wù)檢查服務(wù)以及其他功能檢查服務(wù)。
9、在本技術(shù)的實(shí)施例中,多個(gè)服務(wù)節(jié)點(diǎn)包括線程池管理服務(wù)節(jié)點(diǎn),平臺(tái)監(jiān)控模塊還用于:基于多個(gè)狀態(tài)監(jiān)測(cè)功能服務(wù),獲取線程池管理服務(wù)節(jié)點(diǎn)的用戶連接數(shù)量,在確定用戶連接數(shù)量處于預(yù)設(shè)數(shù)量區(qū)間的情況下,確定用戶連接數(shù)量正常,并針對(duì)每個(gè)用戶連接,在確定用戶連接與數(shù)據(jù)庫記錄中的預(yù)存用戶連接匹配的情況下,確定用戶連接為合法連接;在滿足確定線程池管理服務(wù)節(jié)點(diǎn)的進(jìn)程與數(shù)據(jù)庫連接的數(shù)量大于第一數(shù)值、連接時(shí)長(zhǎng)滿足預(yù)設(shè)時(shí)長(zhǎng)的數(shù)據(jù)庫連接的數(shù)量大于第二數(shù)值、進(jìn)程內(nèi)存大于第三數(shù)值以及用戶進(jìn)程日志的大小大于第四數(shù)值中的任意一者的情況下,確定線程池管理服務(wù)節(jié)點(diǎn)的進(jìn)程運(yùn)行異常;在確定線程池管理服務(wù)節(jié)點(diǎn)的用戶進(jìn)程日志中存在任一第一預(yù)設(shè)關(guān)鍵字的情況下,確定線程池管理服務(wù)節(jié)點(diǎn)的用戶進(jìn)程日志處于異常;在確定任一進(jìn)程的日志最新修改時(shí)間與當(dāng)前時(shí)間之間的時(shí)間差值大于預(yù)設(shè)時(shí)間差值的情況下,確定線程池管理服務(wù)節(jié)點(diǎn)的進(jìn)程需進(jìn)行清理。
10、在本技術(shù)的實(shí)施例中,多個(gè)服務(wù)節(jié)點(diǎn)包括線程池管理服務(wù)節(jié)點(diǎn),平臺(tái)監(jiān)控模塊還用于:基于多個(gè)狀態(tài)監(jiān)測(cè)功能服務(wù),在確定線程池管理服務(wù)節(jié)點(diǎn)的進(jìn)程狀態(tài)、端口狀態(tài)、應(yīng)用日志存在以及用戶負(fù)載中的任意一者處于異常的情況下,確定線程池管理服務(wù)節(jié)點(diǎn)在運(yùn)行前為異常服務(wù)節(jié)點(diǎn),其中,進(jìn)程狀態(tài)處于異常是指進(jìn)程處于終止運(yùn)行且進(jìn)程的占用內(nèi)存處于預(yù)設(shè)正常范圍之外,端口狀態(tài)處于異常是指對(duì)應(yīng)端口關(guān)閉或接口請(qǐng)求的返回值錯(cuò)誤,應(yīng)用日志存在關(guān)鍵詞報(bào)錯(cuò)是指應(yīng)用日志中存在任一第二預(yù)設(shè)關(guān)鍵詞,用戶負(fù)載處于異常是指服務(wù)節(jié)點(diǎn)與任一其他服務(wù)節(jié)點(diǎn)之間的用戶連接數(shù)量差值處于預(yù)設(shè)差值范圍之外。
11、在本技術(shù)的實(shí)施例中,多個(gè)服務(wù)節(jié)點(diǎn)包括卷服務(wù)節(jié)點(diǎn),平臺(tái)監(jiān)控模塊還用于:基于多個(gè)狀態(tài)監(jiān)測(cè)功能服務(wù),在確定卷服務(wù)節(jié)點(diǎn)的進(jìn)程處于終止運(yùn)行且進(jìn)程的占用內(nèi)存處于預(yù)設(shè)正常范圍之外以及地址為異地的服務(wù)卷無法聯(lián)通的情況下,確定卷服務(wù)節(jié)點(diǎn)運(yùn)行異常;在確定卷服務(wù)節(jié)點(diǎn)的應(yīng)用日志中存在第一預(yù)設(shè)關(guān)鍵詞報(bào)錯(cuò)的情況下,確定卷服務(wù)節(jié)點(diǎn)的應(yīng)用日志處于異常;在確定卷服務(wù)節(jié)點(diǎn)的對(duì)應(yīng)端口處于未開放狀態(tài)且接口請(qǐng)求的返回值錯(cuò)誤的情況下,確定服務(wù)節(jié)點(diǎn)的對(duì)應(yīng)端口處于異常;在確定卷服務(wù)節(jié)點(diǎn)的服務(wù)器連接數(shù)量在預(yù)設(shè)時(shí)間段內(nèi)的波動(dòng)數(shù)量超過預(yù)設(shè)波動(dòng)數(shù)量的情況下,確定卷服務(wù)節(jié)點(diǎn)的服務(wù)器連接數(shù)量處于異常。
12、在本技術(shù)的實(shí)施例中,多個(gè)服務(wù)節(jié)點(diǎn)包括網(wǎng)頁服務(wù)節(jié)點(diǎn),平臺(tái)監(jiān)控模塊還用于:基于多個(gè)狀態(tài)監(jiān)測(cè)功能服務(wù),在確定網(wǎng)頁服務(wù)節(jié)點(diǎn)的進(jìn)程處于終止運(yùn)行且進(jìn)程的占用內(nèi)存大于預(yù)設(shè)內(nèi)存的情況下,確定網(wǎng)頁服務(wù)節(jié)點(diǎn)運(yùn)行異常;在確定網(wǎng)頁服務(wù)節(jié)點(diǎn)的應(yīng)用日志中存在第二預(yù)設(shè)關(guān)鍵詞報(bào)錯(cuò)的情況下,確定網(wǎng)頁服務(wù)節(jié)點(diǎn)的應(yīng)用日志處于異常;在確定網(wǎng)頁服務(wù)節(jié)點(diǎn)的對(duì)應(yīng)端口處于未開放狀態(tài)的情況下,確定網(wǎng)頁服務(wù)節(jié)點(diǎn)的對(duì)應(yīng)端口處于異常;在確定網(wǎng)頁服務(wù)節(jié)點(diǎn)與線程池管理服務(wù)節(jié)點(diǎn)之間存在端口無法聯(lián)通的情況下,確定網(wǎng)頁服務(wù)節(jié)點(diǎn)的節(jié)點(diǎn)連接異常。
13、在本技術(shù)的實(shí)施例中,多個(gè)服務(wù)節(jié)點(diǎn)包括簽字服務(wù)節(jié)點(diǎn),平臺(tái)監(jiān)控模塊還用于:基于多個(gè)狀態(tài)監(jiān)測(cè)功能服務(wù),在確定簽字服務(wù)節(jié)點(diǎn)發(fā)送的請(qǐng)求在第一預(yù)設(shè)時(shí)間間隔內(nèi)未處理的情況下,確定簽字服務(wù)節(jié)點(diǎn)運(yùn)行異常;在確定簽字服務(wù)節(jié)點(diǎn)的應(yīng)用日志中存在任一第三預(yù)設(shè)關(guān)鍵字的情況下,確定簽字服務(wù)節(jié)點(diǎn)的應(yīng)用日志處于異常;在確定簽字服務(wù)節(jié)點(diǎn)的占用內(nèi)存大于預(yù)設(shè)內(nèi)存閾值且應(yīng)用日志未更新的情況下,確定簽字服務(wù)節(jié)點(diǎn)需進(jìn)行重啟。
14、在本技術(shù)的實(shí)施例中,多個(gè)服務(wù)節(jié)點(diǎn)包括許可服務(wù)節(jié)點(diǎn),平臺(tái)監(jiān)控模塊還用于:基于多個(gè)狀態(tài)監(jiān)測(cè)功能服務(wù),獲取許可服務(wù)節(jié)點(diǎn)在第二預(yù)設(shè)時(shí)間間隔內(nèi)的許可綁定數(shù)量,在確定許可綁定數(shù)量低于預(yù)設(shè)許可閾值的情況下,確定許可服務(wù)節(jié)點(diǎn)運(yùn)行異常;在確定許可服務(wù)節(jié)點(diǎn)的應(yīng)用日志中存在任一第四預(yù)設(shè)關(guān)鍵字的情況下,確定許可服務(wù)節(jié)點(diǎn)的應(yīng)用日志處于異常;在確定許可服務(wù)節(jié)點(diǎn)的主進(jìn)程與子進(jìn)程之間的端口處于未啟用的情況下,確定許可服務(wù)節(jié)點(diǎn)的對(duì)應(yīng)端口處于異常。
15、在本技術(shù)的實(shí)施例中,告警策略至少包括閾值告警、條件告警以及異常告警;監(jiān)控告警模塊還用于針對(duì)任一服務(wù)節(jié)點(diǎn),在確定服務(wù)節(jié)點(diǎn)的性能參數(shù)滿足告警條件的情況下,基于服務(wù)節(jié)點(diǎn)的性能參數(shù)確定性能參數(shù)對(duì)應(yīng)的告警等級(jí),基于告警等級(jí)執(zhí)行對(duì)應(yīng)的告警策略。
16、上述技術(shù)方案,提供一種運(yùn)維監(jiān)控系統(tǒng),應(yīng)用于產(chǎn)品全生命周期管理平臺(tái),通過監(jiān)控告警模塊,包括服務(wù)器監(jiān)控模塊以及平臺(tái)監(jiān)控模塊,服務(wù)器監(jiān)控模塊部署于每個(gè)服務(wù)節(jié)點(diǎn)上,用于實(shí)時(shí)獲取每個(gè)服務(wù)節(jié)點(diǎn)的性能參數(shù)以對(duì)產(chǎn)品全生命周期管理平臺(tái)的性能進(jìn)行監(jiān)控,并針對(duì)每個(gè)節(jié)點(diǎn)服務(wù)配置有對(duì)應(yīng)的監(jiān)控項(xiàng),以在每個(gè)服務(wù)節(jié)點(diǎn)的性能參數(shù)滿足告警條件的情況下,執(zhí)行對(duì)應(yīng)的告警策略;平臺(tái)監(jiān)控模塊用于針對(duì)平臺(tái)的每個(gè)服務(wù)節(jié)點(diǎn),配置有多個(gè)狀態(tài)監(jiān)測(cè)功能服務(wù),以實(shí)時(shí)監(jiān)測(cè)每個(gè)服務(wù)節(jié)點(diǎn)的運(yùn)行狀態(tài);自動(dòng)運(yùn)維模塊,包括平臺(tái)故障自運(yùn)維模塊,平臺(tái)故障自運(yùn)維模塊用于在任意一個(gè)服務(wù)節(jié)點(diǎn)運(yùn)行異常的情況下,對(duì)服務(wù)節(jié)點(diǎn)的進(jìn)程進(jìn)行分析,以清理滿足預(yù)設(shè)條件的進(jìn)程。實(shí)現(xiàn)了對(duì)產(chǎn)品全生命周期管理平臺(tái)的性能以及運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)測(cè),并提供對(duì)應(yīng)的運(yùn)維手段。
17、本技術(shù)實(shí)施例的其他特征和優(yōu)點(diǎn)將在隨后的具體實(shí)施方式部分予以詳細(xì)說明。