一種智能變電站系統(tǒng)自診斷與自恢復(fù)方法
【專利摘要】本發(fā)明公開了一種智能變電站系統(tǒng)自診斷與自恢復(fù)方法,包括如下步驟:(1)監(jiān)控服務(wù)器主機(jī)定期獲取系統(tǒng)核心進(jìn)程站用內(nèi)存大小,當(dāng)其數(shù)值超過預(yù)定的閾值啟動自恢復(fù);(2)通過監(jiān)控服務(wù)器主機(jī)與監(jiān)控客戶端之間的閉環(huán)自檢進(jìn)行異常檢測,當(dāng)監(jiān)測異常次數(shù)累積超過預(yù)定閾值啟動自恢復(fù);(3)自恢復(fù)啟動后,進(jìn)行雙服務(wù)器的主備切換操作,且主機(jī)重啟產(chǎn)生異常的服務(wù)進(jìn)程。本發(fā)明的智能變電站系統(tǒng)自診斷與自恢復(fù)方法利用系統(tǒng)運(yùn)行期基本的畫面刷新、數(shù)據(jù)刷新、告警上送等特性,在監(jiān)控服務(wù)器主機(jī)和監(jiān)控客戶端之間形成閉環(huán)的定時自檢功能,當(dāng)自檢結(jié)果符合異常條件時,利用系統(tǒng)的熱備特性,啟動系統(tǒng)的自恢復(fù)策略,以保證系統(tǒng)的長期運(yùn)行可靠。
【專利說明】一種智能變電站系統(tǒng)自診斷與自恢復(fù)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于電力系統(tǒng)智能變電站綜合自動化領(lǐng)域,具體涉及一種智能變電站系統(tǒng) 自診斷與自恢復(fù)方法。
【背景技術(shù)】
[0002] 監(jiān)控服務(wù)器在變電站長時間的運(yùn)行過程中,可能會由于多種原因(比如一些隱藏 漏洞)而出現(xiàn)異常,嚴(yán)重的異常會給用戶帶來惡劣影響。系統(tǒng)常見的異常如下:內(nèi)存泄露 不斷累積導(dǎo)致的應(yīng)用程序奔潰;系統(tǒng)資源泄露如socket、文件句柄不斷累積導(dǎo)致的系統(tǒng)異 常;進(jìn)程或現(xiàn)場死鎖導(dǎo)致的應(yīng)用異常;對非法數(shù)據(jù)處理的保護(hù)性不夠?qū)е碌某绦虍惓#ㄖ?針異常、堆棧被破壞)等。上述原因發(fā)生在監(jiān)控系統(tǒng)的核心服務(wù)進(jìn)程時,會導(dǎo)致監(jiān)控系統(tǒng)表 現(xiàn)出以下的特征:在線監(jiān)控畫面實(shí)時數(shù)據(jù)不刷新;產(chǎn)生的實(shí)時告警信息無法上傳到操作員 站;無法下發(fā)遙控命令;報(bào)表中沒有歷史數(shù)據(jù);無法查詢出歷史告警信息。
[0003] 因此,系統(tǒng)軟件在發(fā)布前的測試很難保證沒有任何問題,智能化的自診斷與自恢 復(fù)功能是非常有必要的。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供一種智能變電站系統(tǒng)自診斷與自恢復(fù)方法,保證系統(tǒng)的穩(wěn)定 可靠運(yùn)行,并為查找出系統(tǒng)異常原因提供可靠依據(jù)。
[0005] 為了實(shí)現(xiàn)以上目的,本發(fā)明所采用的技術(shù)方案是:一種智能變電站系統(tǒng)自診斷與 自恢復(fù)方法,包括如下步驟:
[0006] (1)監(jiān)控系統(tǒng)是按照主機(jī)、備機(jī)雙服務(wù)器熱備用的方式運(yùn)行的,監(jiān)控服務(wù)器主機(jī)首 先進(jìn)行本機(jī)核心進(jìn)程的內(nèi)存狀況定時監(jiān)測,定期獲取系統(tǒng)核心進(jìn)程站用內(nèi)存大小,當(dāng)其數(shù) 值超過預(yù)定的閾值且無下降趨勢時啟動自恢復(fù);
[0007] (2)通過監(jiān)控服務(wù)器主機(jī)與監(jiān)控客戶端之間的閉環(huán)自檢檢查實(shí)時數(shù)據(jù)處理流程和 消息數(shù)據(jù)處理流程是否正常,當(dāng)監(jiān)測異常次數(shù)累積超過預(yù)定閾值啟動自恢復(fù);
[0008] (3)自恢復(fù)啟動后,進(jìn)行雙服務(wù)器的主備切換操作,且主機(jī)重啟產(chǎn)生異常的服務(wù)進(jìn) 程。
[0009] 在自恢復(fù)啟動的同時系統(tǒng)啟動異常斷面信息錄波功能,收集監(jiān)控服務(wù)器主機(jī)、備 機(jī)和操作員站在異常時刻一段時間內(nèi)的斷面環(huán)境數(shù)據(jù)進(jìn)行存儲。
[0010] 通過監(jiān)控服務(wù)器與監(jiān)控客戶端之間的閉環(huán)自檢檢測核心進(jìn)程異常的過程如下:
[0011] (1)由監(jiān)控服務(wù)器的主機(jī)產(chǎn)生不同類型的自檢模擬數(shù)據(jù),且各種類型的數(shù)據(jù)分別 按照預(yù)定規(guī)則變化,按照一定規(guī)約產(chǎn)生變化數(shù)據(jù);
[0012] (2)監(jiān)控客戶端周期讀取數(shù)據(jù),并比較其是否按照預(yù)定規(guī)則產(chǎn)生變化,以此來驗(yàn)證 整個實(shí)時數(shù)據(jù)處理流程是否存在異常;
[0013] (3)監(jiān)控客戶端定時將自檢結(jié)果報(bào)告給監(jiān)控服務(wù)器主機(jī)。
[0014] 自恢復(fù)由監(jiān)控服務(wù)器上的角色控制進(jìn)程執(zhí)行,在自恢復(fù)啟動時,首先在主服務(wù)器 上觸發(fā),在接收到自恢復(fù)通知后,角色控制進(jìn)程主動產(chǎn)生主備切換操作,將主機(jī)的本機(jī)角色 切換為備,并重啟產(chǎn)生異常的核心進(jìn)程。
[0015] 本發(fā)明的智能變電站系統(tǒng)自診斷與自恢復(fù)方法利用系統(tǒng)運(yùn)行期基本的畫面刷新、 數(shù)據(jù)刷新、告警上送等特性,在監(jiān)控服務(wù)器主機(jī)和監(jiān)控客戶端之間形成閉環(huán)的定時自檢功 能,當(dāng)自檢結(jié)果符合異常條件時,利用系統(tǒng)的熱備特性,啟動系統(tǒng)的自恢復(fù)策略,以保證系 統(tǒng)的長期運(yùn)行可靠。
[0016] 在啟動自恢復(fù)的同時開啟系統(tǒng)錄波功能,收集系統(tǒng)斷面環(huán)境數(shù)據(jù),保證系統(tǒng)的穩(wěn) 定可靠運(yùn)行,并為查找出系統(tǒng)異常原因、對系統(tǒng)異常狀況的歸納分析提供了實(shí)時、準(zhǔn)確的數(shù) 據(jù)依據(jù)。
【專利附圖】
【附圖說明】
[0017] 圖1為本發(fā)明自診斷與自恢復(fù)方法架構(gòu)圖;
[0018] 圖2為客戶與服務(wù)自檢邏輯流程圖;
[0019] 圖3為以系統(tǒng)網(wǎng)絡(luò)節(jié)點(diǎn)為單位的錄波數(shù)據(jù)結(jié)構(gòu)。
【具體實(shí)施方式】
[0020] 下面結(jié)合附圖及具體的實(shí)施例對本發(fā)明進(jìn)行進(jìn)一步介紹。
[0021] 針對監(jiān)控服務(wù)器核心進(jìn)程異常場景分析,歸納為內(nèi)存泄露、異常退出(coredump)、 線程死鎖、線程死循環(huán)和其他等五種類型。異常時導(dǎo)致的結(jié)果分別是:在線監(jiān)控畫面實(shí)時數(shù) 據(jù)不刷新、產(chǎn)生的告警無法上送至操作員站、無法下發(fā)控制命令、報(bào)表中查不到歷史數(shù)據(jù)、 無法查詢到歷史告警信息等。對于應(yīng)用進(jìn)程的產(chǎn)生的死循環(huán)、進(jìn)程死鎖或線程死鎖會導(dǎo)致 系統(tǒng)出現(xiàn)數(shù)據(jù)不刷新、命令無法下發(fā)現(xiàn)象。通過抓取線程的執(zhí)行堆棧,并結(jié)合該線程的CPU 率,集合堆棧對應(yīng)的設(shè)計(jì)源代碼,可以通過人工分析的方式得出當(dāng)前運(yùn)行狀況,但若是先自 動檢測,則需對已有應(yīng)用架構(gòu)作出較大調(diào)整。針對核心進(jìn)程運(yùn)行中的各類異常以及業(yè)務(wù)應(yīng) 用結(jié)果是否正常,本發(fā)明的設(shè)計(jì)的自檢與恢復(fù)機(jī)制,監(jiān)控系統(tǒng)是按照主機(jī)、備機(jī)雙服務(wù)器熱 備用的方式運(yùn)行的,在監(jiān)控服務(wù)器上部署自檢應(yīng)用服務(wù)模塊,主機(jī)上的服務(wù)模塊處于活動 狀態(tài),備機(jī)上的服務(wù)模塊處于熱備用狀態(tài);在監(jiān)控客戶端部署業(yè)務(wù)應(yīng)用自檢程序,如圖1所 /Jn 〇
[0022] 本發(fā)明智能變電站系統(tǒng)自診斷與自恢復(fù)方法包括如下步驟:
[0023] (1)當(dāng)應(yīng)用進(jìn)程產(chǎn)生的內(nèi)存泄露較大時,會導(dǎo)致操作系統(tǒng)運(yùn)行性能下降,因此監(jiān)控 服務(wù)器主機(jī)的自檢應(yīng)用服務(wù)模塊首先進(jìn)行本機(jī)核心進(jìn)程的內(nèi)存狀況定時監(jiān)測,定期獲取系 統(tǒng)核心進(jìn)程站用內(nèi)存大小,當(dāng)其數(shù)值超過預(yù)定的閾值且無下降趨勢時啟動自恢復(fù)。
[0024] (2)通過監(jiān)控服務(wù)器主機(jī)與監(jiān)控客戶端之間形成閉環(huán)的自檢策略,用于檢查實(shí)時 數(shù)據(jù)處理流程和消息數(shù)據(jù)處理流程是否正常,當(dāng)監(jiān)測異常次數(shù)累積超過預(yù)定閾值啟動自恢 復(fù),具體檢測過程如下:
[0025] i、由監(jiān)控服務(wù)器主機(jī)上的自檢應(yīng)用服務(wù)模塊產(chǎn)生自檢模擬數(shù)據(jù),分別有模擬量 (yc)、狀態(tài)量(yx)和控制量(yk)三種,如表1所示,在自檢數(shù)據(jù)模擬模塊中,上述模擬量、 狀態(tài)量和控制量分別按照3秒、2秒和5秒的方式變化,按照一定規(guī)約產(chǎn)生變化數(shù)據(jù),分別經(jīng) 由業(yè)務(wù)服務(wù)的處理流程和消息傳遞流程進(jìn)行流轉(zhuǎn)。
[0026] 表1.自檢數(shù)據(jù)一覽表
【權(quán)利要求】
1. 一種智能變電站系統(tǒng)自診斷與自恢復(fù)方法,其特征在于,包括如下步驟: (1) 監(jiān)控系統(tǒng)是按照主機(jī)、備機(jī)雙服務(wù)器熱備用的方式運(yùn)行的,監(jiān)控服務(wù)器主機(jī)首先進(jìn) 行本機(jī)核心進(jìn)程的內(nèi)存狀況定時監(jiān)測,定期獲取系統(tǒng)核心進(jìn)程站用內(nèi)存大小,當(dāng)其數(shù)值超 過預(yù)定的閾值且無下降趨勢時啟動自恢復(fù); (2) 通過監(jiān)控服務(wù)器主機(jī)與監(jiān)控客戶端之間的閉環(huán)自檢檢查實(shí)時數(shù)據(jù)處理流程和消息 數(shù)據(jù)處理流程是否正常,當(dāng)監(jiān)測異常次數(shù)累積超過預(yù)定閾值啟動自恢復(fù); (3) 自恢復(fù)啟動后,進(jìn)行雙服務(wù)器的主備切換操作,且主機(jī)重啟產(chǎn)生異常的服務(wù)進(jìn)程。
2. 根據(jù)權(quán)利要求1所述的智能變電站系統(tǒng)自診斷與自恢復(fù)方法,其特征在于:在自恢 復(fù)啟動的同時系統(tǒng)啟動異常斷面信息錄波功能,收集監(jiān)控服務(wù)器主機(jī)、備機(jī)和操作員站在 異常時刻一段時間內(nèi)的斷面環(huán)境數(shù)據(jù)進(jìn)行存儲。
3. 根據(jù)權(quán)利要求1所述的智能變電站系統(tǒng)自診斷與自恢復(fù)方法,其特征在于,通過監(jiān) 控服務(wù)器與監(jiān)控客戶端之間的閉環(huán)自檢檢測核心進(jìn)程異常的過程如下: (1) 由監(jiān)控服務(wù)器的主機(jī)產(chǎn)生不同類型的自檢模擬數(shù)據(jù),且各種類型的數(shù)據(jù)分別按照 預(yù)定規(guī)則變化,按照一定規(guī)約產(chǎn)生變化數(shù)據(jù); (2) 監(jiān)控客戶端周期讀取數(shù)據(jù),并比較其是否按照預(yù)定規(guī)則產(chǎn)生變化,以此來驗(yàn)證整個 實(shí)時數(shù)據(jù)處理流程是否存在異常; (3) 監(jiān)控客戶端定時將自檢結(jié)果報(bào)告給監(jiān)控服務(wù)器主機(jī)。
4. 根據(jù)權(quán)利要求1所述的智能變電站系統(tǒng)自診斷與自恢復(fù)方法,其特征在于:自恢復(fù) 由監(jiān)控服務(wù)器上的角色控制進(jìn)程執(zhí)行,在自恢復(fù)啟動時,首先在主服務(wù)器上觸發(fā),在接收到 自恢復(fù)通知后,角色控制進(jìn)程主動產(chǎn)生主備切換操作,將主機(jī)的本機(jī)角色切換為備,并重啟 產(chǎn)生異常的核心進(jìn)程。
【文檔編號】G06F11/16GK104360918SQ201410544515
【公開日】2015年2月18日 申請日期:2014年10月15日 優(yōu)先權(quán)日:2014年10月15日
【發(fā)明者】邱俊宏, 張海庭, 衛(wèi)星, 吳正青, 李紅, 李永照, 王廣民, 陳可柯, 胡斌 申請人:許繼電氣股份有限公司, 許昌許繼軟件技術(shù)有限公司