本發(fā)明屬于故障處理領(lǐng)域,尤其涉及一種故障信息處理方法及裝置。
背景技術(shù):
隨著當(dāng)前云數(shù)據(jù)中心及虛擬化技術(shù)的飛速發(fā)展,集群文件系統(tǒng)在虛擬化操作系統(tǒng)中的作用越來越突出,基于集群文件系統(tǒng)創(chuàng)建共享存儲逐漸成為虛擬化操作系統(tǒng)中使用的主流方式。集群文件系統(tǒng)在向集群中各個(gè)主機(jī)成員提供存儲的統(tǒng)一視圖的基礎(chǔ)上,還要保證共享存儲在各個(gè)節(jié)點(diǎn)的數(shù)據(jù)一致性。
當(dāng)某個(gè)節(jié)點(diǎn)出現(xiàn)磁盤或者網(wǎng)絡(luò)故障時(shí),為了保證數(shù)據(jù)存儲的數(shù)據(jù)完整性,將有故障的節(jié)點(diǎn)進(jìn)行重啟操作。
但是,上述故障處理方式存在的缺點(diǎn)如下:
1、故障發(fā)生時(shí),直接進(jìn)行重啟操作,使得重要業(yè)務(wù)處理大大延遲,嚴(yán)重影響重要業(yè)務(wù)的處理效率;
2、故障發(fā)生后,用戶只能在重啟完成后的成員主機(jī)中查詢相關(guān)日志信息進(jìn)行故障排查,進(jìn)而確定故障發(fā)生原因,這導(dǎo)致用戶不能實(shí)時(shí)獲取故障發(fā)生的原因,當(dāng)然也無法實(shí)現(xiàn)對故障信息及時(shí)處理,嚴(yán)重影響重要業(yè)務(wù)的處理效率。
因此,迫切需要提供一種故障信息處理方案來解決上述技術(shù)問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種故障信息處理方法及裝置,以解決上述問題。
本發(fā)明提供一種故障信息處理方法,包括以下步驟:獲取各個(gè)監(jiān)測目標(biāo)的運(yùn)行特征信息及對應(yīng)的特征預(yù)警值并將所述運(yùn)行特征信息、所述特征預(yù)警值進(jìn)行比較;
若所述運(yùn)行特征信息大于或等于所述特征預(yù)警值,則發(fā)送故障報(bào)警信息;其中,所述故障報(bào)警信息中包括以下至少之一:故障原因、故障處理策略。
本發(fā)明提供一種故障信息處理裝置,包括處理器,適于實(shí)現(xiàn)各指令;存儲設(shè)備,適于存儲多條指令,所述指令適于由所述處理器加載并執(zhí)行;
獲取各個(gè)監(jiān)測目標(biāo)的運(yùn)行特征信息及對應(yīng)的特征預(yù)警值并將所述運(yùn)行特征信息、所述特征預(yù)警值進(jìn)行比較;
若所述運(yùn)行特征信息大于或等于所述特征預(yù)警值,則發(fā)送故障報(bào)警信息;其中,所述故障報(bào)警信息中包括以下至少之一:故障原因、故障處理策略。
本發(fā)明實(shí)施例提供的技術(shù)方案:獲取各個(gè)監(jiān)測目標(biāo)的運(yùn)行特征信息及對應(yīng)的特征預(yù)警值并將所述運(yùn)行特征信息、所述特征預(yù)警值進(jìn)行比較;
若所述運(yùn)行特征信息大于或等于所述特征預(yù)警值,則發(fā)送故障報(bào)警信息;其中,所述故障報(bào)警信息中包括以下至少之一:故障原因、故障處理策略。
上述技術(shù)方案中,通過對各個(gè)監(jiān)測目標(biāo)的運(yùn)行特征信息、所述特征預(yù)警值的比較,根據(jù)比較結(jié)果確定是否發(fā)送故障信息,實(shí)現(xiàn)了在有效范圍內(nèi)避免集群中服務(wù)器的重啟狀況,減少不必要的重啟,保證重要業(yè)務(wù)的處理效率;另外,可以在故障發(fā)生時(shí)的故障報(bào)警信息中攜帶故障原因,從而使得故障能夠得到及時(shí)處理,增強(qiáng)系統(tǒng)穩(wěn)定性。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1所示為本發(fā)明實(shí)施例1的故障信息處理方法流程圖;
圖2所示為本發(fā)明實(shí)施例2的故障信息處理方法流程圖;
圖3所示為本發(fā)明實(shí)施例3的故障信息處理裝置結(jié)構(gòu)圖。
具體實(shí)施方式
下文中將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。
圖1所示為本發(fā)明實(shí)施例1的故障信息處理方法流程圖,包括以下步驟:
步驟101:獲取各個(gè)監(jiān)測目標(biāo)的運(yùn)行特征信息及對應(yīng)的特征預(yù)警值并將所述運(yùn)行特征信息、所述特征預(yù)警值進(jìn)行比較;
進(jìn)一步地,所述運(yùn)行特征信息包括以下至少之一:網(wǎng)絡(luò)連接斷開狀態(tài)持續(xù)時(shí)間、網(wǎng)絡(luò)時(shí)延、丟包率。
進(jìn)一步地,所述特征預(yù)警值包括以下至少之一:網(wǎng)絡(luò)連接斷開狀態(tài)持續(xù)時(shí)間預(yù)警值、網(wǎng)絡(luò)時(shí)延預(yù)警值、丟包率預(yù)警值。
進(jìn)一步地,所述監(jiān)測目標(biāo)包括:磁盤、服務(wù)器;其中,所述磁盤包括心跳盤、數(shù)據(jù)盤。
步驟102:若所述運(yùn)行特征信息大于或等于所述特征預(yù)警值,則發(fā)送故障報(bào)警信息;其中,所述故障報(bào)警信息中包括以下至少之一:故障原因、故障處理策略。
進(jìn)一步地,若所述心跳盤或所述數(shù)據(jù)盤的網(wǎng)絡(luò)連接斷開狀態(tài)持續(xù)時(shí)間大于或等于所述網(wǎng)絡(luò)連接斷開狀態(tài)持續(xù)時(shí)間預(yù)警值,則發(fā)送故障報(bào)警信息。
進(jìn)一步地,若所述服務(wù)器的網(wǎng)絡(luò)時(shí)延大于或等于所述網(wǎng)絡(luò)時(shí)延預(yù)警值,則發(fā)送故障報(bào)警信息。
進(jìn)一步地,若所述服務(wù)器的丟包率大于或等于所述丟包率預(yù)警值,則發(fā)送故障報(bào)警信息。
具體而言:
集群文件系統(tǒng)重啟的大部分原因基本分為以下兩種類型:1.磁盤問題,集群文件系統(tǒng)使用的心跳盤及數(shù)據(jù)盤的網(wǎng)絡(luò)連接狀態(tài),若心跳盤網(wǎng)絡(luò)連接斷開,在達(dá)到集群文件系統(tǒng)運(yùn)行配置參數(shù)的閾值(網(wǎng)絡(luò)連接斷開狀態(tài)持續(xù)時(shí)間預(yù)警值)時(shí),集群文件系統(tǒng)中全部成員主機(jī)(服務(wù)器)將發(fā)生重啟現(xiàn)象;若數(shù)據(jù)盤在某一個(gè)成員主機(jī)上網(wǎng)絡(luò)連接斷開,則該成員主機(jī)發(fā)生重啟現(xiàn)象;2.網(wǎng)絡(luò)問題,集群文件系統(tǒng)中各成員主機(jī)使用的網(wǎng)絡(luò)時(shí)延較大或者丟包率過大,超過集群文件系統(tǒng)運(yùn)行配置參數(shù)運(yùn)行的閾值(網(wǎng)絡(luò)時(shí)延預(yù)警值、丟包率預(yù)警值)時(shí),相應(yīng)成員主機(jī)易發(fā)生重啟現(xiàn)象。
集群文件系統(tǒng)運(yùn)行配置參數(shù)的閾值設(shè)定是指集群文件系統(tǒng)創(chuàng)建時(shí),為避免系統(tǒng)出現(xiàn)微小波動或者瞬時(shí)通斷導(dǎo)致集群文件系統(tǒng)不可用而設(shè)定的允許出現(xiàn)微小波動或瞬時(shí)通斷的時(shí)間,例如網(wǎng)絡(luò)重連時(shí)間、心跳磁盤超時(shí)時(shí)間等等。
上述本發(fā)明實(shí)施例實(shí)現(xiàn)了自動監(jiān)測磁盤的網(wǎng)絡(luò)連接狀態(tài)、服務(wù)器的網(wǎng)絡(luò)時(shí)延、丟包率,當(dāng)集群文件系統(tǒng)使用的磁盤網(wǎng)絡(luò)連接斷開狀態(tài)持續(xù)時(shí)間、服務(wù)器網(wǎng)絡(luò)時(shí)延、丟包率達(dá)到對應(yīng)的特征預(yù)警值(網(wǎng)絡(luò)連接斷開狀態(tài)持續(xù)時(shí)間預(yù)警值、網(wǎng)絡(luò)時(shí)延預(yù)警值、丟包率預(yù)警值),則誘發(fā)服務(wù)器發(fā)生重啟,虛擬化操作系統(tǒng)的界面顯示服務(wù)器重啟的故障告警信息并提示產(chǎn)生重啟的故障原因。
優(yōu)選地,當(dāng)磁盤的網(wǎng)絡(luò)連接狀態(tài)、服務(wù)器的網(wǎng)絡(luò)問題(網(wǎng)絡(luò)時(shí)延及網(wǎng)絡(luò)丟包率)發(fā)生瞬時(shí)故障,達(dá)不到服務(wù)器重啟的時(shí)候,也上報(bào)相應(yīng)的故障告警信息,提示用戶改善磁盤及網(wǎng)絡(luò)連接狀態(tài),減少服務(wù)器在后續(xù)運(yùn)行周期內(nèi)不必要的重啟。
本發(fā)明實(shí)施例使用自動監(jiān)測磁盤、服務(wù)器的運(yùn)行特征信息,及時(shí)反饋告警信息的方式,能夠有效改善虛擬化操作系統(tǒng)中集群文件系統(tǒng)的重啟問題,人性化的提示可以讓用戶更有效的管理集群文件系統(tǒng),提高了虛擬化操作系統(tǒng)的穩(wěn)定性和容錯(cuò)能力,故障告警及時(shí)上報(bào)的機(jī)制可以有效降低重啟的發(fā)生頻率。
圖2所示為本發(fā)明實(shí)施例2的故障信息處理方法流程圖,包括以下步驟:
步驟201:磁盤監(jiān)測腳本、網(wǎng)絡(luò)監(jiān)測腳本實(shí)時(shí)監(jiān)測磁盤網(wǎng)絡(luò)連接狀態(tài)、服務(wù)器網(wǎng)絡(luò)時(shí)延及丟包率;
步驟202:若產(chǎn)生磁盤或者網(wǎng)絡(luò)故障,則反饋到各自的監(jiān)測模塊(網(wǎng)絡(luò)監(jiān)測模塊、磁盤檢測模塊)進(jìn)行處理,若無故障,則繼續(xù)進(jìn)行腳本監(jiān)測;
步驟203:網(wǎng)絡(luò)監(jiān)測模塊和磁盤檢測模塊處理相關(guān)的故障情況,并反饋具體的故障原因;
步驟204:告警模塊處理具體故障原因并產(chǎn)生相應(yīng)的故障告警信息;
步驟205:在虛擬化操作系統(tǒng)的界面顯示故障告警信息,提示用戶產(chǎn)生故障原因或提示故障處理策略。
圖3所示為本發(fā)明實(shí)施例3的故障信息處理裝置結(jié)構(gòu)圖,包括處理器,適于實(shí)現(xiàn)各指令;存儲設(shè)備,適于存儲多條指令,所述指令適于由所述處理器加載并執(zhí)行;
獲取各個(gè)監(jiān)測目標(biāo)的運(yùn)行特征信息及對應(yīng)的特征預(yù)警值并將所述運(yùn)行特征信息、所述特征預(yù)警值進(jìn)行比較;
若所述運(yùn)行特征信息大于或等于所述特征預(yù)警值,則發(fā)送故障報(bào)警信息;其中,所述故障報(bào)警信息中包括以下至少之一:故障原因、故障處理策略。
進(jìn)一步地,所述運(yùn)行特征信息包括以下至少之一:網(wǎng)絡(luò)連接斷開狀態(tài)持續(xù)時(shí)間、網(wǎng)絡(luò)時(shí)延、丟包率;
所述特征預(yù)警值包括以下至少之一:網(wǎng)絡(luò)連接斷開狀態(tài)持續(xù)時(shí)間預(yù)警值、網(wǎng)絡(luò)時(shí)延預(yù)警值、丟包率預(yù)警值。
進(jìn)一步地,所述監(jiān)測目標(biāo)包括:磁盤、服務(wù)器;其中,所述磁盤包括心跳盤、數(shù)據(jù)盤。
進(jìn)一步地,若所述心跳盤或所述數(shù)據(jù)盤的網(wǎng)絡(luò)連接斷開狀態(tài)持續(xù)時(shí)間大于或等于所述網(wǎng)絡(luò)連接斷開狀態(tài)持續(xù)時(shí)間預(yù)警值,則發(fā)送故障報(bào)警信息。
本發(fā)明實(shí)施例提供的技術(shù)方案:獲取各個(gè)監(jiān)測目標(biāo)的運(yùn)行特征信息及對應(yīng)的特征預(yù)警值并將所述運(yùn)行特征信息、所述特征預(yù)警值進(jìn)行比較;
若所述運(yùn)行特征信息大于或等于所述特征預(yù)警值,則發(fā)送故障報(bào)警信息;其中,所述故障報(bào)警信息中包括以下至少之一:故障原因、故障處理策略。
上述技術(shù)方案中,通過對各個(gè)監(jiān)測目標(biāo)的運(yùn)行特征信息、所述特征預(yù)警值的比較,根據(jù)比較結(jié)果確定是否發(fā)送故障信息,實(shí)現(xiàn)了在有效范圍內(nèi)避免集群中服務(wù)器的重啟狀況,減少不必要的重啟,保證重要業(yè)務(wù)的處理效率;另外,可以在故障發(fā)生時(shí)的故障報(bào)警信息中攜帶故障原因,從而使得故障能夠得到及時(shí)處理,增強(qiáng)系統(tǒng)穩(wěn)定性。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。