本申請涉及故障檢測技術(shù)領(lǐng)域,尤其涉及一種故障的檢測方法及裝置。
背景技術(shù):
在對集群進行故障檢測的現(xiàn)有方案中,故障檢測指標一般由軟件自定義。具體的,對集群進行故障檢測的告警系統(tǒng)在出廠時,就已經(jīng)設(shè)置好一套固定的檢測方案。該告警系統(tǒng)根據(jù)設(shè)置好的檢測方案中的故障檢測指標收集數(shù)據(jù),并將收集的數(shù)據(jù)進行處理后得到告警信息,并將告警信息推送給用戶,使用戶能夠及時地了解集群狀態(tài),并進行相關(guān)故障恢復(fù)動作。
雖然,進行這種固定的檢測方案的告警系統(tǒng)雖然可以提供較為全面的告警信息。但是,正是由于告警系統(tǒng)的檢測方案固定、單一,致使該故障系統(tǒng)并不能適應(yīng)所有類型的集群,尤其是工作場景較為特殊的集群,難以滿足這種集群的故障檢測需求。
技術(shù)實現(xiàn)要素:
基于上述現(xiàn)有技術(shù)的不足,本申請?zhí)岢鲆环N故障的檢測方法及裝置,以解決現(xiàn)有告警系統(tǒng)中的檢測方案固定、單一而導致的不能適應(yīng)于所有類型的集群的需求的問題。
為解決上述問題,現(xiàn)提出的方案如下:
一種故障的檢測方法,應(yīng)用于故障的檢測裝置,其中,所述故障檢測裝置中預(yù)設(shè)存儲有多種故障檢測方案,所述故障的檢測方法包括:
確定用戶針對待檢測集群而選中的故障檢測方案,其中,所述故障檢測方案包括告警方式、檢測項和每一個所述檢測項對應(yīng)的告警閾值;
根據(jù)所述故障檢測方案中的檢測項,獲取集群的狀態(tài)數(shù)據(jù);
分別比對所述故障檢測方案中的每一個檢測項的狀態(tài)數(shù)據(jù)和對應(yīng)的告警閾值;
將狀態(tài)數(shù)據(jù)滿足所述檢測項對應(yīng)的告警閾值的要求的檢測項,作為待告警檢測項,并生成所述待告警檢測項的告警信息;
將所述生成的告警信息以所述告警方式輸出。
可選地,所述確定用戶選中的故障檢測方案,包括:
解析用戶的輸入操作;
獲取所述用戶的輸入操作對應(yīng)的故障檢測方案。
可選地,所述確定用戶選中的故障檢測方案,包括:
接收用戶輸入的告警信息,其中,所述告警信息包括告警方式、檢測項以及每一個所述檢測項對應(yīng)的告警閾值。
可選地,所述故障的檢測方法還包括:
將用戶輸入的所述告警信息作為一種故障檢測方案進行存儲。
可選地,若所述故障檢測方案還包括告警優(yōu)先級順序,其中,所述將所述生成的告警信息以所述告警方式輸出,包括:
將所述生成的告警信息以所述告警方式、且按照所述告警優(yōu)先級順序的要求輸出。
一種故障的檢測裝置,包括:
存儲單元,用于保存多種故障檢測方案;
確定單元,用于確定用戶針對待檢測集群而選中的故障檢測方案,其中,所述故障檢測方案包括告警方式、檢測項和每一個所述檢測項對應(yīng)的告警閾值;
第一獲取單元,用于根據(jù)所述故障檢測方案中的檢測項,獲取集群的狀態(tài)數(shù)據(jù);
比對單元,用于分別比對所述故障檢測方案中的每一個檢測項的狀態(tài)數(shù)據(jù)和對應(yīng)的告警閾值;
生成單元,用于將狀態(tài)數(shù)據(jù)滿足所述檢測項對應(yīng)的告警閾值的要求的檢測項,作為待告警檢測項,并生成所述待告警檢測項的告警信息;
輸出單元,用于將所述生成的告警信息以所述告警方式輸出。
可選地,所述確定單元包括:
解析單元,用于解析用戶的輸入操作;
第二獲取單元,用于獲取所述用戶的輸入操作對應(yīng)的故障檢測方案。
可選地,所述確定單元包括:
接收單元,用于接收用戶輸入的告警信息,其中,所述告警信息包括告警方式、檢測項以及每一個所述檢測項對應(yīng)的告警閾值。
可選地,所述存儲單元還用于將用戶輸入的所述告警信息作為一種故障檢測方案進行存儲。
可選地,其特征在于,所述輸出單元包括:
輸出子單元,用于在所述故障檢測方案中還包括告警優(yōu)先級順序的情況下,將所述生成的告警信息以所述告警方式、且按照所述告警優(yōu)先級順序的要求輸出。
一種故障的檢測裝置,包括數(shù)據(jù)庫、存儲器和處理器;其中,
所述數(shù)據(jù)庫用于存儲多種故障檢測方案;
所述存儲器用于存儲計算機可讀程序;
所述處理器通過運行所述存儲器中的程序,以用于完成上述任意一項所述的方法。
本申請?zhí)峁┑墓收系臋z測方法中,確定用戶針對待檢測集群而選中的故障檢測方案,對集群進行故障檢測,可以保障選中的故障檢測方案更適合待檢測集群的故障檢測需求,可解決現(xiàn)有的故障檢測過程中存在的檢測方案固定、單一,致使不能滿足多類型的集群的需求的問題。
附圖說明
為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1是本申請實施例公開的一種故障的檢測方法的流程圖;
圖2為本申請另一實施例公開的故障的檢測裝置的結(jié)構(gòu)示意圖;
圖3(a)和圖3(b)均為本申請實施例公開的確定單元的具體結(jié)構(gòu)示意圖;
圖4為本申請另一實施例公開的故障的檢測裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
本申請?zhí)岢鲆环N故障的檢測方法及裝置,以解決現(xiàn)有告警系統(tǒng)中的檢測方案固定、單一而導致的不能適應(yīng)于所有類型的集群的問題。
本申請實施例公開的故障的檢測方法,應(yīng)用于故障的檢測裝置,其中,所述故障檢測裝置中預(yù)設(shè)保存有多種故障檢測方案,可分別適應(yīng)于不同類型的集群。參見圖1,所述故障的檢測方法包括步驟:
s101、確定用戶選中的故障檢測方案。
需要說明的是,若用戶需要對集群進行故障檢測,則故障的檢測裝置預(yù)先存儲的多種故障檢測方案可以直接呈現(xiàn)給用戶,以提供用戶針對待檢測的集群選擇相應(yīng)的故障檢測方案。并且,若預(yù)先存儲的多種故障檢測方案均不適應(yīng)待檢測集群,或者,用戶采用不同于預(yù)存儲的故障檢測方案的其他檢測方案對待檢測集群進行故障檢測,用戶可以通過輸入信息的方式選中要使用的故障檢測方案。
還需要說明的是,每一種故障檢測方案均是從對集群的基本性能進行檢測而設(shè)定其包含的檢測項,一般可以包括:cpu利用率、內(nèi)存利用率、磁盤利用率、系統(tǒng)負載、系統(tǒng)i/o等處理性能的方面;cpu溫度、主板溫度、風扇轉(zhuǎn)速等硬件產(chǎn)品的方面;系統(tǒng)運行狀態(tài)、nas服務(wù)狀態(tài)、ftp服務(wù)狀態(tài)、文件系統(tǒng)狀態(tài)等系統(tǒng)整體運行狀態(tài)的方面。當然,還可以根據(jù)集群種類的不同,對故障檢測方案包含的檢測項進行調(diào)整,例如:以存儲集群為例,以數(shù)據(jù)存儲位置,對磁盤要求較高,比較注重反映磁盤方面的一些監(jiān)控指標的檢測項;而對于服務(wù)器其群,則更注重于包含cpu、內(nèi)存等方面的相關(guān)指標的檢測項。
用戶選中的故障檢測方案包括告警方式、檢測項和每一個所述檢測項對應(yīng)的告警閾值。告警方式是對待檢測集群的進行故障檢測后生成的故障信息的輸出方式,一般情況下,可以分為郵件告警、短信告警以及snmp告警等。檢測項可以理解為是對待檢測集群進行故障檢測的項目,每一個檢測項均包括對待檢測集群進行故障檢測的一個檢測內(nèi)容,并且,因故障檢測方案的不同,其包含的檢測項也可能有所區(qū)別,例如:針對硬件指標的故障檢測方案中,檢測項可包括cpu利用率、硬盤利用率,cpu溫度、主板溫度等。檢測項的告警閾值可以理解一個數(shù)值,其是用于評判對待檢測集群進行某一個檢測項的故障檢測的結(jié)果是否反映出待檢測集群出現(xiàn)故障的臨界值,當然,還可以是一個數(shù)值范圍或者一個條件,均不受具體限定。并且,針對不同類型的故障檢測方案,可以根據(jù)實際需求,設(shè)定該故障檢測方案中包含的各個檢測項的告警閾值。
針對不同實現(xiàn)方法,步驟s101可以分別不同的執(zhí)行方式,以下分別說明。在一種執(zhí)行方式中,步驟s101具體包括:
解析用戶的輸入操作;
獲取所述用戶的輸入操作對應(yīng)的故障檢測方案。
在此種執(zhí)行方式中,用戶輸入選擇某一種預(yù)先存儲的故障檢測方案的操作,在用戶的輸入操作結(jié)束后,解析用戶的輸入操作,識別出用戶選中的故障檢測方案,獲取該故障檢測方案。
另外,用戶的輸入操作還可以是輸入某一種預(yù)先存儲的故障檢測方案的標識,解析用戶的輸入操作,得到該標識,獲取該標識對應(yīng)的故障檢測方案。
在另一個執(zhí)行方式中,步驟s101具體包括:
接收用戶輸入的告警信息,其中,所述告警信息包括告警方式、檢測項以及每一個所述檢測項對應(yīng)的告警閾值。
在預(yù)存儲的故障檢測方案不能滿足待檢測集群的要求,或者用戶需要采用不同于預(yù)存儲的故障檢測方案的方案進行檢測的情況下,用戶可以直接輸入告警信息,具體將告警方式、要進行檢測的各個檢測項以及每個檢測項的告警閾值分別進行輸入。待用戶輸入完畢,接收用戶輸入的告警信息,采用所述告警信息進行故障檢測。
可選地,在本申請的另一實施例中,在用戶輸入告警信息后,為了便于后續(xù)采用該告警信息對集群進行故障檢測,還可以將用戶輸入的所述告警信息作為一種故障檢測方案進行存儲。
并且,具體存儲所述用戶輸入的告警信息可以在接收用戶輸入的告警信息之后立即執(zhí)行,也可以是后續(xù)步驟s102~s105任意一個步驟之前或之后執(zhí)行。
s102、根據(jù)所述故障檢測方案中的檢測項,獲取集群的狀態(tài)數(shù)據(jù)。
具體的,采用每一個檢測項對待檢測集群進行檢測所需的數(shù)據(jù),均可以理解為是集群的狀態(tài)數(shù)據(jù)。因此,針對所述用戶選中的故障檢測方案中的每一個檢測項,均獲取采用該檢測項進行檢測所需的狀態(tài)數(shù)據(jù),例如:檢測項為cpu溫度,則獲取的集群的狀態(tài)數(shù)據(jù)為傳感器檢測的cpu溫度的數(shù)據(jù)。
s103、分別比對所述故障檢測方案中的每一個檢測項的狀態(tài)數(shù)據(jù)和對應(yīng)的告警閾值。
其中,在采用所述故障檢測方案中的每一個檢測項進行檢測所需的數(shù)據(jù)均被獲取后,將每一個檢測項對應(yīng)的集群的狀態(tài)數(shù)據(jù),和該檢測項對應(yīng)的告警閾值進行比較,進而判斷待檢測集群在該檢測項反映出的功能要求是否能夠滿足,是否在該檢測項上出現(xiàn)了故障。
當然,本步驟在具體執(zhí)行時還可以是,獲取對應(yīng)一個檢測項的集群的狀態(tài)數(shù)據(jù),則將其與告警閾值進行比對,也可以是待所述故障檢測方法中的所有檢測項對應(yīng)的狀態(tài)數(shù)據(jù)均獲取后,再進行與對應(yīng)的告警閾值的比對,此處并不做具體限定。
s104、將狀態(tài)數(shù)據(jù)滿足所述檢測項對應(yīng)的告警閾值的要求的檢測項,作為待告警檢測項,并生成所述待告警檢測項的告警信息。
其中,某一個的檢測項的狀態(tài)數(shù)據(jù)滿足該檢測項對應(yīng)的告警閾值的要求,說明待檢測集群的在該檢測項上存有故障,需要對此故障進行告警。
具體的,生成所述待告警檢測項的告警信息,可以是將所述待告警檢測項的狀態(tài)數(shù)據(jù)作為告警信息,也可以是根據(jù)該狀態(tài)信息生成描述故障內(nèi)容的信息,此處也不做具體限定。
s105、將所述生成的告警信息以所述告警方式輸出。
其中,所述生成的告警信息以所述告警方式輸出后,用戶則可根據(jù)搜書告警信息獲知待檢測集群所出現(xiàn)的故障,進而去進行維修。
本申請實施例公開的故障的檢測方法中,確定用戶針對待檢測集群而選中的故障檢測方案,對集群進行故障檢測,可以保障選中的故障檢測方案更適合待檢測集群的故障檢測需求,可解決現(xiàn)有的故障檢測過程中存在的檢測方案固定、單一,致使不能滿足多類型的集群的需求的問題。具體的,對用戶選中的故障檢測方案對待檢測集群進行故障檢測時,先依據(jù)所述故障檢測方案中的檢測項,獲取集群的狀態(tài)數(shù)據(jù);并分別比對所述故障檢測方案中的每一個檢測項的狀態(tài)數(shù)據(jù)和對應(yīng)的告警閾值;將狀態(tài)數(shù)據(jù)滿足所述檢測項對應(yīng)的告警閾值的要求的檢測項,作為待告警檢測項,并生成所述待告警檢測項的告警信息;將所述生成的告警信息以所述告警方式輸出,還可以保證針對用戶選中的故障檢測方案的每一個檢測項,分別對待檢測集群進行檢測,保證了集群故障檢測過程的條理性和完整性。
可選地,本申請的另一實施例中,在故障檢測方案中除包括:告警方式、檢測項和每一個所述檢測項對應(yīng)的告警閾值以外,還包括:告警優(yōu)先級順序;其中,所述告警優(yōu)先級順序可以理解為是:所述故障檢測方案中包含的檢測項對應(yīng)的告警信息的輸出順序。
具體的,預(yù)先存儲的多種故障檢測方案中的每一種故障檢測方案均包含告警優(yōu)先級順序。并且,若用戶未選擇預(yù)先存儲的故障檢測方案,則用戶輸入的告警信息包括告警優(yōu)先級順序。
還需要說明的是,在采用用戶選中的故障檢測方案對待測試集群進行故障測試,得到待告警檢測項的告警信息后,將待告警檢測項的告警信息以告警方式進行輸出具體為:
將待告警檢測項的告警信息以告警方式、且按照所述告警優(yōu)先級順序進行輸出。
本實施例中,在故障檢測方案中包含告警優(yōu)先級順序,且由所述告警優(yōu)先級順序規(guī)定故障檢測方案包含的檢測項對應(yīng)的告警信息的輸出順序。具體的,在采用故障檢測方案對待測試集群進行故障檢測,獲得故障信息后,采用所述告警優(yōu)先級順序進行輸出,可以保證用戶能夠根據(jù)檢測需求設(shè)定告警優(yōu)先級順序的情況下,能夠盡快的了解優(yōu)先級較高的告警信息進行解決,尤其在告警信息較多時,能夠更快的了解優(yōu)先級較高的告警信息,避免故障恢復(fù)處理滯后的問題。
本申請另一實施例還公開了一種故障的檢測裝置,參見圖2,包括:
存儲單元201,用于保存多種故障檢測方案;
確定單元202,用于確定用戶針對待檢測集群而選中的故障檢測方案,其中,所述故障檢測方案包括告警方式、檢測項和每一個所述檢測項對應(yīng)的告警閾值;
第一獲取單元203,用于根據(jù)所述故障檢測方案中的檢測項,獲取集群的狀態(tài)數(shù)據(jù);
比對單元204,用于分別比對所述故障檢測方案中的每一個檢測項的狀態(tài)數(shù)據(jù)和對應(yīng)的告警閾值;
生成單元205,用于將狀態(tài)數(shù)據(jù)滿足所述檢測項對應(yīng)的告警閾值的要求的檢測項,作為待告警檢測項,并生成所述待告警檢測項的告警信息;
輸出單元206,用于將所述生成的告警信息以所述告警方式輸出。
本實施例公開的故障的檢測裝置中,確定單元202確定用戶針對待檢測集群而選中的故障檢測方案,對集群進行故障檢測,可以保障選中的故障檢測方案更適合待檢測集群的故障檢測需求,可解決現(xiàn)有的故障檢測過程中存在的檢測方案固定、單一,致使不能滿足多類型的集群的需求的問題。
還需要說明的是,本實施例公開的故障的檢測裝置中,各個單元的具體工作過程可參見對應(yīng)圖1的方法實施例,此處不再贅述。
可選地,本申請的另一實施例中,參見圖3(a),確定單元202包括:
解析單元3011,用于解析用戶的輸入操作;
第二獲取單元3012,用于獲取所述用戶的輸入操作對應(yīng)的故障檢測方案。
可選地,本申請的另一實施例中,參見圖3(b),確定單元202包括:
接收單元3021,用于接收用戶輸入的告警信息,其中,所述告警信息包括告警方式、檢測項以及每一個所述檢測項對應(yīng)的告警閾值。
需要說明的是,上述兩個實施例公開的確定單元具體包含的單元的工作過程可參見對應(yīng)圖1的方法實施例中,步驟s101的可選方案的內(nèi)容,此處不再贅述。
可選地,本申請的另一實施例中,存儲單元201還用于將用戶輸入的所述告警信息作為一種故障檢測方案進行存儲。
其中,本實施例公開的存儲單元201的具體工作過程可參見對應(yīng)圖1的方法實施例中對應(yīng)內(nèi)容,此處也不再贅述。
可選地,本申請的另一實施例中,輸出單元206包括:
輸出子單元,用于在所述故障檢測方案中還包括告警優(yōu)先級順序的情況下,將所述生成的告警信息以所述告警方式、且按照所述告警優(yōu)先級順序的要求輸出。
其中,本實施例公開的輸出單元206的具體工作過程可參見對應(yīng)圖1的方法實施例中對應(yīng)內(nèi)容,此處也不再贅述。
本申請另一實施例還公開了一種故障的檢測裝置,參見圖4,包括:數(shù)據(jù)庫401、存儲器402和處理器403;其中,
數(shù)據(jù)庫401用于存儲多種故障檢測方案;
存儲器402用于存儲計算機可讀程序;
處理器403通過運行存儲器402中的程序,以用于完成任意一個方法實施例公開的方法。
本實施例中,處理器403的執(zhí)行的方法的具體內(nèi)容可參見各個方法實施例的內(nèi)容,此處不再贅述。
專業(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本申請。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本申請的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本申請將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。