本發(fā)明涉及狀態(tài)監(jiān)測,特別是涉及一種系統(tǒng)盤的故障告警方法、裝置、電子設備及存儲介質(zhì)。
背景技術(shù):
1、隨著計算機領域的不斷發(fā)展,用戶對于計算機工作過程的可靠性和性能的要求越來越高,因此目前計算機通常會以集群的方式組成一個計算機服務系統(tǒng)來為用戶提供服務,集群中包括若干個獨立服務器,能夠為用戶提供更靈活可靠的計算機服務。其中,服務器的運轉(zhuǎn)需要依賴系統(tǒng)盤的正常工作,一旦系統(tǒng)盤存在故障,可能會造成服務器癱瘓以及數(shù)據(jù)丟失等情況,所以實時監(jiān)測和顯示系統(tǒng)盤的健康狀態(tài)非常重要。
2、可見,如何判斷服務器中的系統(tǒng)盤是否發(fā)生故障,是本領域技術(shù)人員需要解決的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例的目的是提供一種系統(tǒng)盤的故障告警方法、裝置、電子設備及存儲介質(zhì),可以解決對服務器中的系統(tǒng)盤進行故障檢測的問題。
2、為解決上述技術(shù)問題,本發(fā)明實施例提供了一種系統(tǒng)盤的故障告警方法,對于服務器集群中的任一節(jié)點,所述系統(tǒng)盤的故障告警方法包括:
3、獲取自身對應的系統(tǒng)盤的標識以及所述系統(tǒng)盤的工作狀態(tài);所述系統(tǒng)盤的工作狀態(tài)包括故障狀態(tài)和正常狀態(tài);
4、判斷自身是否為所述服務器集群當前的配置節(jié)點;
5、若自身為所述服務器集群當前的配置節(jié)點,則接收除自身之外的其他各個節(jié)點的系統(tǒng)盤的工作狀態(tài);
6、判斷自身的系統(tǒng)盤的工作狀態(tài)以及接收到的其他各個節(jié)點的系統(tǒng)盤的工作狀態(tài)中是否存在故障狀態(tài);
7、若存在故障狀態(tài),則確定故障狀態(tài)的系統(tǒng)盤對應的標識,并基于標識定位故障狀態(tài)的系統(tǒng)盤在所述服務器集群中的位置;
8、基于故障狀態(tài)的系統(tǒng)盤在所述服務器集群中的位置執(zhí)行相應的告警操作。
9、在一些實施例中,獲取所述系統(tǒng)盤的工作狀態(tài),包括:
10、對于自身的任一系統(tǒng)盤,獲取所述系統(tǒng)盤中安裝的操作系統(tǒng)的內(nèi)核生成的節(jié)點文件;
11、掃描所述節(jié)點文件的所有文件路徑,以讀取所述節(jié)點文件中的狀態(tài)值;
12、若所述狀態(tài)值為第一狀態(tài)值,則判定所述系統(tǒng)盤的工作狀態(tài)為故障狀態(tài);
13、若所述狀態(tài)值為第二狀態(tài)值,則判定所述系統(tǒng)盤的工作狀態(tài)為正常狀態(tài)。
14、在一些實施例中,服務器集群中的任一節(jié)點均設有預設存儲位置,所述系統(tǒng)盤的故障告警方法還包括:
15、若自身不是所述服務器集群當前的配置節(jié)點,則將自身的系統(tǒng)盤的工作狀態(tài)以及所述系統(tǒng)盤對應的標識存儲到自身的預設存儲位置;
16、所述接收除自身之外的其他各個節(jié)點的系統(tǒng)盤的工作狀態(tài),包括:
17、從除自身節(jié)點之外的其他各個節(jié)點的所述預設存儲位置將除自身之外的其他各個節(jié)點的系統(tǒng)盤的工作狀態(tài)以及對應的標識拷貝到自身的預設存儲位置;
18、所述判斷自身的系統(tǒng)盤的工作狀態(tài)以及接收到的其他各個節(jié)點的系統(tǒng)盤的工作狀態(tài)中是否存在故障狀態(tài),包括:
19、掃描自身的預設存儲位置中存儲的所有系統(tǒng)盤的工作狀態(tài),并判斷其中是否存在故障狀態(tài);
20、若其中不存在故障狀態(tài),則重新跳轉(zhuǎn)至所述獲取自身對應的系統(tǒng)盤的標識以及所述系統(tǒng)盤的工作狀態(tài)的步驟。
21、在一些實施例中,若所述服務器集群中各個節(jié)點均為雙系統(tǒng)盤模式,所述系統(tǒng)盤的標識包括所述系統(tǒng)盤的歸屬節(jié)點和所述系統(tǒng)盤的插盤接口號;
22、所述基于標識定位故障狀態(tài)的系統(tǒng)盤在所述服務器集群中的位置,包括:
23、若所述服務器集群中存在工作狀態(tài)為故障狀態(tài)的系統(tǒng)盤,則基于故障狀態(tài)的系統(tǒng)盤對應的標識中的歸屬節(jié)點確定故障狀態(tài)的系統(tǒng)盤所歸屬的節(jié)點位置;
24、基于故障狀態(tài)的系統(tǒng)盤對應的標識中的插盤接口號確定故障狀態(tài)的系統(tǒng)盤在所歸屬的節(jié)點中的接口位置;
25、所述基于故障狀態(tài)的系統(tǒng)盤在所述服務器集群中的位置執(zhí)行相應的告警操作,包括:
26、輸出告警信息,所述告警信息包括故障狀態(tài)的系統(tǒng)盤所歸屬的節(jié)點位置以及故障狀態(tài)的系統(tǒng)盤在所歸屬的節(jié)點中的接口位置。
27、在一些實施例中,還包括:
28、判斷自身是否接收到模擬故障指令;
29、若接收到所述模擬故障指令,則基于所述模擬故障指令控制自身對應的系統(tǒng)盤進入故障狀態(tài);
30、獲取所述服務器集群當前的配置節(jié)點執(zhí)行的告警操作;
31、判斷所述配置節(jié)點執(zhí)行的告警操作是否與自身接收到的模擬故障指令對應的模擬故障位置一致;
32、若一致,則判定所述服務器集群中系統(tǒng)盤的故障告警功能有效。
33、在一些實施例中,所述模擬故障指令包括需要構(gòu)造的故障系統(tǒng)盤的位置信息和狀態(tài)修改指令;
34、所述基于所述模擬故障指令控制自身對應的系統(tǒng)盤進入故障狀態(tài),包括:
35、基于所述模擬故障指令中需要構(gòu)造的故障系統(tǒng)盤的位置信息確定所述模擬故障指令指示的需要模擬故障的系統(tǒng)盤的目標位置;
36、控制自身處于所述目標位置的系統(tǒng)盤所述模擬故障指令中的執(zhí)行狀態(tài)修改指令;
37、利用所述狀態(tài)修改指令將需要模擬故障的系統(tǒng)盤對應的工作狀態(tài)修改為故障狀態(tài),以控制處于所述目標位置的系統(tǒng)盤進入故障狀態(tài)。
38、在一些實施例中,還包括:
39、獲取每次所述配置節(jié)點對于判斷自身的系統(tǒng)盤的工作狀態(tài)以及接收到的其他各個節(jié)點的系統(tǒng)盤的工作狀態(tài)中是否存在故障狀態(tài)的判斷結(jié)果;
40、判斷所述判斷自身的系統(tǒng)盤的工作狀態(tài)以及接收到的其他各個節(jié)點的系統(tǒng)盤的工作狀態(tài)中是否存在故障狀態(tài)的當前判斷結(jié)果是否為其中不存在故障狀態(tài);
41、若當前判斷結(jié)果為其中不存在故障狀態(tài),則判斷上一次所述判斷自身的系統(tǒng)盤的工作狀態(tài)以及接收到的其他各個節(jié)點的系統(tǒng)盤的工作狀態(tài)中是否存在故障狀態(tài)的判斷結(jié)果是否為其中存在故障狀態(tài);
42、若上一次的判斷結(jié)果為其中存在故障狀態(tài),則執(zhí)行告警消除命令。
43、為解決上述技術(shù)問題,本發(fā)明實施例還提供了一種系統(tǒng)盤的故障告警裝置,對于服務器集群中的任一節(jié)點,所述系統(tǒng)盤的故障告警裝置包括:
44、狀態(tài)獲取單元,用于獲取自身對應的系統(tǒng)盤的標識以及所述系統(tǒng)盤的工作狀態(tài);所述系統(tǒng)盤的工作狀態(tài)包括故障狀態(tài)和正常狀態(tài);
45、權(quán)限判斷單元,用于判斷自身是否為所述服務器集群當前的配置節(jié)點;若是,則觸發(fā)接收單元;
46、所述接收單元,用于接收除自身之外的其他各個節(jié)點的系統(tǒng)盤的工作狀態(tài);
47、故障判斷單元,用于判斷自身的系統(tǒng)盤的工作狀態(tài)以及接收到的其他各個節(jié)點的系統(tǒng)盤的工作狀態(tài)中是否存在故障狀態(tài);若是,則觸發(fā)定位單元;
48、所述定位單元,用于確定故障狀態(tài)的系統(tǒng)盤對應的標識,并基于標識定位故障狀態(tài)的系統(tǒng)盤在所述服務器集群中的位置;
49、告警單元,用于基于故障狀態(tài)的系統(tǒng)盤在所述服務器集群中的位置執(zhí)行相應的告警操作。
50、為解決上述技術(shù)問題,本發(fā)明實施例還提供了一種電子設備,包括:
51、存儲器,用于存儲計算機程序;
52、處理器,用于執(zhí)行所述計算機程序以實現(xiàn)如前述所述的系統(tǒng)盤的故障告警方法步驟。
53、為解決上述技術(shù)問題,本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如前述所述的系統(tǒng)盤的故障告警方法的步驟。
54、由上述技術(shù)方案可以看出,服務器集群中的每一個節(jié)點都會獲取自身設置的系統(tǒng)盤的標識以及工作狀態(tài),服務器集群中配置節(jié)點根據(jù)各個節(jié)點中系統(tǒng)盤的工作狀態(tài)來判斷是否存在故障情況,并且在服務器集群中存在故障狀態(tài)的系統(tǒng)盤的情況下,對故障狀態(tài)的系統(tǒng)進行定位并根據(jù)定位執(zhí)行相應的告警操作,從而將服務器集群中是否存在故障情況以及故障對應的具體的系統(tǒng)盤的位置告知用戶,從而實現(xiàn)了確定系統(tǒng)盤的狀態(tài)并針對異常狀態(tài)進行告警的過程;本發(fā)明的有益效果在于整個過程由服務器自動完成,無需用戶參與,最終執(zhí)行的告警操作能夠給出故障的具體位置,為定位和解決硬盤故障問題提供方便。