一種基于狀態(tài)的服務監(jiān)控與恢復方法及裝置制造方法
【專利摘要】一種基于狀態(tài)的服務監(jiān)控與恢復方法及裝置,裝置包括:策略配置單元,執(zhí)行服監(jiān)控與恢復的參數(shù)配置;通信分析單元,分析服務狀態(tài);運行分析單元,分析運行狀態(tài);輸出分析單元,分析服務的輸入,資源分析單元;分析服務使用的資源;清理單元,實現(xiàn)無損停止服務;恢復單元,執(zhí)行服務恢復;調(diào)度控制單元,實現(xiàn)方法的環(huán)節(jié)與流程控制;協(xié)議交互單元,取得服務監(jiān)控配置、策略,并返回監(jiān)控結(jié)果。本發(fā)明可對計算機以服務、程序、應用等形式提供的運行服務的準確監(jiān)控與自動恢復,有效提高了其運行的連續(xù)性,維護的及時性、有效性,并提供安全性監(jiān)控。
【專利說明】-種基于狀態(tài)的服務監(jiān)控與恢復方法及裝置
【技術領域】
[0001] 本發(fā)明涉及信息服務監(jiān)控與恢復技術,尤其涉及信息服務系統(tǒng)的運行監(jiān)控、運維 以及持續(xù)運行保證方法和技術。
【背景技術】
[0002] 隨著信息化建設的不斷深入,信息服務系統(tǒng)已經(jīng)遍及各個行業(yè)。他們不間斷地運 行,由于系統(tǒng)受損、不能及時維護以及維護不當導致的系統(tǒng)停機造成的影響十分嚴重。因此 信息系統(tǒng)的監(jiān)控運維技術不斷發(fā)展。信息系統(tǒng)持續(xù)服務的一個關鍵點是應用的持續(xù)運行保 證,其主要工作原理是:對服務進行監(jiān)測,發(fā)現(xiàn)其無法提供正常服務后,對其進行恢復。工作 一般需要達到的效果是:實現(xiàn)雙機或本機自動執(zhí)行、無需人工干預。
[0003] 監(jiān)測是被環(huán)節(jié)通常要求結(jié)果越精確越好,恢復則是要確保不造成二次傷害,保證 恢復有效性,恢復時間越短越好,同時還需要考慮適應不同應用的能力,同時還要考慮不對 系統(tǒng)上業(yè)務造成嚴重影響。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明提供一種基于狀態(tài)的服務監(jiān)控與恢復裝置,監(jiān)控與恢復所有環(huán) 節(jié)只需要一次部署,實現(xiàn)便捷維護,智能自動運行。主機程序端作為該裝置的核心組件。該 裝置包括: 通信分析單元,對計算機以服務、程序、應用等形式,以TCP/IP通信端口方式提供的服 務,對其通信單元的服務狀態(tài)、服務響應能力、服務的正確性進行分析,結(jié)果供其它單元作 為依據(jù); 運行分析單元,對計算機以服務、程序、應用等形式提供的服務,對其運行狀態(tài)、運行參 數(shù)進行對比分析,結(jié)果供其它單元作為依據(jù); 輸出分析單元,對計算機以服務、程序、應用等形式提供的服務,對其規(guī)律性、偶然性的 輸出進行分析,結(jié)果供其它單元作為依據(jù); 資源分析單元;對計算機以服務、程序、應用等形式提供的服務,對其運行所需的軟件、 硬件資源的運行狀態(tài)進行分析,結(jié)果供其它單元作為依據(jù); 清理單元,依據(jù)有關各單元的運行結(jié)果,在服務出現(xiàn)故障時,執(zhí)行該單元,實現(xiàn)無損害 地停止服務;釋放資源; 恢復單元,在服務出現(xiàn)故障時,依據(jù)有關各單元的運行結(jié)果,執(zhí)行該單元,實現(xiàn)恢復服 務; 調(diào)度控制單元,按照策略,分析是否需要服務監(jiān)控,并將啟動或停止有關單元的工作; 協(xié)議交互單元,取得對服務進行監(jiān)控的預先配置的配置、策略,輸送給有關單元,并返 回監(jiān)控結(jié)果給使用組件。
[0005] 管理中心,包含非核心的策略配置單元和通告單元,為裝置的輸入和輸出單元; 優(yōu)選地,策略配置單元的工作參數(shù)包括服務所在設備、服務的成員組成與工作順序、月艮 務的操作系統(tǒng)類別、服務依賴的軟件、硬件資源、監(jiān)控與恢復的時間調(diào)度、通信端口、通告對 象、定制開發(fā)接口、執(zhí)行程序等數(shù)據(jù);所述參數(shù)是主要由該單元按照指令采集到的,不需要 用戶人工輸入,只有系統(tǒng)中不存在的參數(shù)由用戶指定。
[0006] 優(yōu)選地,清理單元與執(zhí)行單元的間隔對系統(tǒng)影響十分重要,該參數(shù)可調(diào),對一般不 低于30秒,其不宜高于5分鐘。
[0007] 優(yōu)選地,硬件資源一般包括服務使用的磁盤陣列,以文件系統(tǒng)或裸設備等形式的 資源,硬件資源一般包括NFS、WebService等形式的資源。
[0008] 優(yōu)選地,清理與恢復單元的執(zhí)行程序需要與應用一致的運行環(huán)境與身份,并且納 入簽名保護,未經(jīng)授權的修改會觸發(fā)警報以及自動恢復,保證維護時的安全性。
[0009] 本發(fā)明還一種基于狀態(tài)的應用監(jiān)控與恢復方法,運維的應用監(jiān)控與恢復工作所有 環(huán)節(jié)只需要一次部署,實現(xiàn)便捷維護,智能自動監(jiān)管。該方法包括: 對計算機以服務、程序、應用等形式,以TCP/IP通信端口方式提供的服務,對其通信單 元的服務狀態(tài)、服務響應能力、服務的正確性進行分析,結(jié)果供其它單元作為依據(jù); 對計算機以服務、程序、應用等形式提供的服務,對其運行狀態(tài)、運行參數(shù)進行對比分 析,結(jié)果供其它單元作為依據(jù); 對計算機以服務、程序、應用等形式提供的服務,對其規(guī)律性、偶然性的輸出進行分析, 結(jié)果供其它單元作為依據(jù); 對計算機以服務、程序、應用等形式提供的服務,對其運行所需的軟件、硬件資源的運 行狀態(tài)進行分析,結(jié)果供其它單元作為依據(jù); 依據(jù)有關各單元的運行結(jié)果,在服務出現(xiàn)故障時,執(zhí)行該單元,實現(xiàn)無損害地停止服 務;釋放資源; 在服務出現(xiàn)故障時,依據(jù)有關各單元的運行結(jié)果,執(zhí)行該單元,實現(xiàn)恢復服務; 按照策略,分析是否需要服務監(jiān)控,并將啟動或停止有關單元的工作; 取得對服務進行監(jiān)控的預先配置的配置、策略,輸送給有關單元,并返回監(jiān)控結(jié)果給使 用組件。
[0010] 優(yōu)選地,策略配置的工作參數(shù)包括服務所在設備、服務的成員組成與工作順序、月艮 務的操作系統(tǒng)類別、服務依賴的軟件、硬件資源、監(jiān)控與恢復的時間調(diào)度、通信端口、通告對 象、定制開發(fā)接口、執(zhí)行程序等數(shù)據(jù);所述參數(shù)是主要是自動采集到的,不需要用戶人工輸 入,只有系統(tǒng)中不存在的參數(shù)由用戶指定。
[0011] 優(yōu)選地,清理與恢復的執(zhí)行間隔對系統(tǒng)影響十分重要,該參數(shù)可調(diào),對一般不低于 30秒,其不宜高于5分鐘。
[0012] 優(yōu)選地,硬件資源一般包括服務使用的磁盤陣列,以文件系統(tǒng)或裸設備等形式的 資源,硬件資源一般包括NFS、WebService等形式的資源。
[0013] 優(yōu)選地,清理與恢復的執(zhí)行需要與應用一致的運行環(huán)境與身份,并且納入簽名保 護,未經(jīng)授權的修改會觸發(fā)警報以及自動恢復,保證維護時的安全性。
[0014] 本發(fā)明基于策略的配置技術,是監(jiān)測工作實現(xiàn)了面向?qū)ο蟛呗曰?,部署、維護工作 大大簡化,策略對象建立后,二次部署時間減少90%以上。同時部署、維護的靈活性大大增 強,可以根據(jù)業(yè)務本身特點設計監(jiān)測策略。本發(fā)明各個單元間集成度高,工作準確、可靠。實 際測試中不僅取得了極為理想的使用效果,信號機制還保證了與IBM、HP、Oracle(SUN)等 公司雙機恢復產(chǎn)品、以及離線備份軟件的兼容性。
[0015]
【專利附圖】
【附圖說明】: 圖1是本發(fā)明一種實施方式的應用環(huán)境。
[0016] 圖2是本發(fā)明基于狀態(tài)的應用監(jiān)控與恢復裝置的邏輯結(jié)構(gòu)圖。
[0017] 圖3是本發(fā)明策略配置和管理的用戶界面示意圖。
[0018]
【具體實施方式】: 請參考圖1,在信息系統(tǒng)運行監(jiān)測場景中,通常會采用在主機上安裝主機程序端來實施 監(jiān)控,提供監(jiān)控與恢復服務。本發(fā)明基于狀態(tài)的應用監(jiān)控與恢復技術的監(jiān)測裝置即應用在 主機程序端中,該裝置可以通過軟件實現(xiàn)。該裝置主要包括通信分析單元11,運行分析單 元12,輸出分析單元13,資源分析單元14,清理單元15,恢復單元16,調(diào)度控制單元17,協(xié) 議交互單元18,監(jiān)視與保護單元19。以下以軟件實現(xiàn)為例來描述該裝置運行時所執(zhí)行的處 理流程。
[0019] 步驟1,接收并載入配置引擎發(fā)送的策略信息,所述策略信息包括監(jiān)控與恢復策略 的詳細技術參數(shù);本步驟由協(xié)議交互單元18執(zhí)行。
[0020] 首先需要在策略配置端輸入監(jiān)測策略的所有參數(shù)。通過加密協(xié)議通道向協(xié)議交互 單元輸入監(jiān)測策略參數(shù),協(xié)議交互單元根據(jù)處理邏輯對策略進行檢查,然后將參數(shù)注入到 狀態(tài)檢索單元。
[0021] 策略參數(shù)帶有監(jiān)測引擎工作所需的所有參數(shù)。
[0022] 基于策略的工作引擎可以實現(xiàn)監(jiān)測、恢復工作脫離運維人員的干預和管理,自動 實時靈活的工作,包括監(jiān)測規(guī)則是否自動進入睡眠期。請參考圖3。
[0023] 步驟2,根據(jù)注入的監(jiān)測參數(shù),對監(jiān)控與恢復工作進行調(diào)度控制,控制各工作單元 的工作。
[0024] 在工作時刻,根據(jù)接收的工作參數(shù),通信分析單元11發(fā)起監(jiān)測會話(可選);運行分 析單元12 (可選),資源分析單元14 (可選),輸出分析單元13 (可選)按照順序連續(xù)工作, 他們的選擇性結(jié)合確保了綜合分析的準確、可靠,同時適應了用戶環(huán)境的復雜性。
[0025] 由于監(jiān)測工作的多協(xié)議性,通信分析單元需要處置異種協(xié)議,來實現(xiàn)分析功能的 強大和完整。
[0026] 步驟3,上述步驟將分析結(jié)果分別進行收集處理,再按照策略要求進行綜合分析判 斷,先啟動簽名的核驗工作,再選擇性啟動清理單元的工作,或者直接啟動協(xié)議交互單元, 對結(jié)果進行故障和現(xiàn)狀通報。
[0027] 步驟4,重復步驟2,將分析結(jié)果分別進行收集處理,再按照策略要求進行綜合分 析判斷,先啟動簽名的核驗工作,再選擇性地啟動恢復單元的工作,或者直接啟動協(xié)議交互 單元,對結(jié)果進行故障和現(xiàn)狀通報。
[0028] 進一步來說,由于服務的多樣性和復雜性,導致保證監(jiān)控的準確度實現(xiàn)困難。需要 包括對系統(tǒng)進程狀態(tài)、通信協(xié)議綜合服務狀態(tài),依賴的軟硬件資源、配置文件、工作文件、所 有運行進程、服務及其參數(shù)等進行綜合分析,這些分析結(jié)果作為清理、恢復單元的每一步的 工作依據(jù),確保效果。
[0029] 當前實現(xiàn)服務局監(jiān)控與自動回復的軟件很少,且多為實現(xiàn)雙機備份的國外產(chǎn)品。 其具體工作機理較少披露。其主要缺點是,成本高昂;均為單一產(chǎn)品,沒有統(tǒng)一的技術、運維 體系,專業(yè)技能要求高,維護難度高。而采用本發(fā)明的基于策略、基于狀態(tài)的,與配置引擎和 通報引擎聯(lián)動的統(tǒng)一體系工作機制實現(xiàn)的裝置具有很小的維護、管理工作量,實現(xiàn)了監(jiān)控 工作服務,達到理想的效果。不僅實現(xiàn)了對監(jiān)控、恢復工作,而且將使用策略這些變化加工, 以清晰、詳細的通告分級送達關注者。
[0030] 以統(tǒng)一運維體系實現(xiàn)信息系統(tǒng)運維中監(jiān)控、恢復的做法在極為少見。
[0031] 本發(fā)明可以實現(xiàn)將服務監(jiān)控與恢復工作與運行監(jiān)控、網(wǎng)絡管理、安全警報、ITIL運 維等統(tǒng)一到單一運維系統(tǒng)中,實現(xiàn)全系統(tǒng)的有機管理,極大地提高了信息系統(tǒng)的運維水平, 降低了運維工作量。
[0032] 本發(fā)明通過采用策略部署的對象化,在實現(xiàn)高適應能力,功能安全、可靠的基礎 上,還提供兼容UNIX、Linux、Windows體系操作系統(tǒng)的良好統(tǒng)一圖形界面,為用戶的運維管 理提供良好的體驗,實現(xiàn)二次部署和維護時間減少90%以上。而在現(xiàn)有技術中,普遍存在手 工+人工的參數(shù)調(diào)整,部署繁雜,無通告機制,適應能力差的缺點。本發(fā)明消除了監(jiān)測系統(tǒng) 的以上缺點,配合應用本專利產(chǎn)品的其他特點,使用戶的運維工作基本匹配了需求,已經(jīng)實 現(xiàn)的采用本發(fā)明的裝置可以部署到所有主流商業(yè)操作系統(tǒng)上。在有多個案例中,實現(xiàn)監(jiān)控、 恢復工作無人干預,效果理想,報出順暢,連續(xù)運行時間達到2年以上。
[0033] 以上所描述的僅僅是本發(fā)明較佳的實現(xiàn)方式,并不用以限定本發(fā)明的保護范圍, 任何等同的變化和修改皆應涵蓋在本發(fā)明的保護范圍之內(nèi)。
【權利要求】
1. 一種基于狀態(tài)的服務監(jiān)控與恢復技術及裝置,運維的應用監(jiān)控與恢復工作所有環(huán)節(jié) 只需要一次部署,實現(xiàn)便捷維護,智能自動監(jiān)管,該裝置包括: 通信分析單元,對計算機以服務、程序、應用等形式,以TCP/IP通信端口方式提供的服 務,對其通信單元的服務狀態(tài)、服務響應能力、服務的正確性進行分析,結(jié)果供其它單元作 為依據(jù); 運行分析單元,對計算機以服務、程序、應用等形式提供的服務,對其運行狀態(tài)、運行參 數(shù)進行對比分析,結(jié)果供其它單元作為依據(jù); 輸出分析單元,對計算機以服務、程序、應用等形式提供的服務,對其規(guī)律性、偶然性的 輸出進行分析,結(jié)果供其它單元作為依據(jù); 資源分析單元;對計算機以服務、程序、應用等形式提供的服務,對其運行所需的軟件、 硬件資源的運行狀態(tài)進行分析,結(jié)果供其它單元作為依據(jù); 清理單元,依據(jù)有關各單元的運行結(jié)果,在服務出現(xiàn)故障時,執(zhí)行該單元,實現(xiàn)無損害 地停止服務;釋放資源; 恢復單元,在服務出現(xiàn)故障時,依據(jù)有關各單元的運行結(jié)果,執(zhí)行該單元,實現(xiàn)恢復服 務; 調(diào)度控制單元,按照策略,分析是否需要服務監(jiān)控,并將啟動或停止有關單元的工作; 協(xié)議交互單元,取得對服務進行監(jiān)控的預先配置的配置、策略,輸送給有關單元,并返 回監(jiān)控結(jié)果給使用組件。
2. 根據(jù)權利要求1所述的裝置,策略配置單元的工作參數(shù)包括服務所在設備、服務的 成員組成與工作順序、服務的操作系統(tǒng)類別、服務依賴的軟件、硬件資源、監(jiān)控與恢復的時 間調(diào)度、通信端口、通告對象、定制開發(fā)接口、執(zhí)行程序等數(shù)據(jù);所述參數(shù)是主要由該單元按 照指令采集到的,不需要用戶人工輸入,只有系統(tǒng)中不存在的參數(shù)由用戶指定。
3. 根據(jù)權利要求1所述的裝置,清理單元與執(zhí)行單元的間隔對系統(tǒng)影響十分重要,該 參數(shù)可調(diào),對一般不低于30秒,其不宜高于5分鐘。
4. 根據(jù)權利要求1所述的裝置,硬件資源一般包括服務使用的磁盤陣列,以文件系統(tǒng) 或裸設備等形式的資源,硬件資源一般包括NFS、WebS erviCe等形式的資源。
5. 根據(jù)權利要求1所述的裝置,清理與恢復單元的執(zhí)行程序需要與應用一致的運行 環(huán)境與身份,并且納入簽名保護,未經(jīng)授權的修改會觸發(fā)警報以及自動恢復,保證維護時的 安全性。
6. -種基于狀態(tài)的服務監(jiān)控與恢復方法,運維的應用監(jiān)控與恢復工作所有環(huán)節(jié)只需要 一次部署,實現(xiàn)便捷維護,智能自動監(jiān)管,該方法包括: 對計算機以服務、程序、應用等形式,以TCP/IP通信端口方式提供的服務,對其通信單 元的服務狀態(tài)、服務響應能力、服務的正確性進行分析,結(jié)果供其它單元作為依據(jù); 對計算機以服務、程序、應用等形式提供的服務,對其運行狀態(tài)、運行參數(shù)進行對比分 析,結(jié)果供其它單元作為依據(jù); 對計算機以服務、程序、應用等形式提供的服務,對其規(guī)律性、偶然性的輸出進行分析, 結(jié)果供其它單元作為依據(jù); 對計算機以服務、程序、應用等形式提供的服務,對其運行所需的軟件、硬件資源的運 行狀態(tài)進行分析,結(jié)果供其它單元作為依據(jù); 依據(jù)有關各單元的運行結(jié)果,在服務出現(xiàn)故障時,執(zhí)行該單元,實現(xiàn)無損害地停止服 務;釋放資源; 在服務出現(xiàn)故障時,依據(jù)有關各單元的運行結(jié)果,執(zhí)行該單元,實現(xiàn)恢復服務; 按照策略,分析是否需要服務監(jiān)控,并將啟動或停止有關單元的工作; 取得對服務進行監(jiān)控的預先配置的配置、策略,輸送給有關單元,并返回監(jiān)控結(jié)果給使 用組件。
7. 根據(jù)權利要求6所述的方法,策略配置的工作參數(shù)包括服務所在設備、服務的成員 組成與工作順序、服務的操作系統(tǒng)類別、服務依賴的軟件、硬件資源、監(jiān)控與恢復的時間調(diào) 度、通信端口、通告對象、定制開發(fā)接口、執(zhí)行程序等數(shù)據(jù);所述參數(shù)是主要是自動采集到 的,不需要用戶人工輸入,只有系統(tǒng)中不存在的參數(shù)由用戶指定。
8. 根據(jù)權利要求6所述的方法,清理與恢復的執(zhí)行間隔對系統(tǒng)影響十分重要,該參數(shù) 可調(diào),對一般不低于30秒,其不宜高于5分鐘。
9. 根據(jù)權利要求6所述的方法,硬件資源一般包括服務使用的磁盤陣列,以文件系統(tǒng) 或裸設備等形式的資源,硬件資源一般包括NFS、WebS erviCe等形式的資源。
10. 根據(jù)權利要求6所述的方法,清理與恢復的執(zhí)行需要與應用一致的運行環(huán)境與身 份,并且納入簽名保護,未經(jīng)授權的修改會觸發(fā)警報以及自動恢復,保證維護時的安全性。
【文檔編號】H04L12/24GK104104537SQ201310129532
【公開日】2014年10月15日 申請日期:2013年4月15日 優(yōu)先權日:2013年4月15日
【發(fā)明者】沙永剛 申請人:北京中嘉時代科技有限公司