本申請涉及故障排除領(lǐng)域,特別涉及一種故障信息的排除方法及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)的發(fā)展,存儲系統(tǒng)作為一個必不可少的數(shù)據(jù)存儲機(jī)制是研究的重點。
存儲是一個復(fù)雜的系統(tǒng),現(xiàn)有的存儲系統(tǒng)基本都帶有故障檢測機(jī)制,通常是檢測到發(fā)生故障后進(jìn)行報錯并記錄日志。數(shù)據(jù)和業(yè)務(wù)的重要性使得存儲系統(tǒng)對維護(hù)人員的要求較高,系統(tǒng)發(fā)生故障后通常需要具備一定專業(yè)知識的人員去排除故障。而在實際系統(tǒng)發(fā)生的故障當(dāng)中,很大比例是可以通過插拔或者更換fru(fieldreplaceunit,現(xiàn)場可更換單元)可恢復(fù)的故障,如果每次都求助于專門的技術(shù)人員進(jìn)行故障排除,即不利于簡單故障的快速排除,同時高昂的現(xiàn)場服務(wù)費用也不利于公司成本控制。
所以,如何提供一種時效性更強(qiáng)、運維成本更低、故障排除方法更加靈活的故障信息排除機(jī)制是本領(lǐng)域技術(shù)人員亟待解決的問題。
技術(shù)實現(xiàn)要素:
本申請的目的是提供一種故障信息的排除方法及系統(tǒng),其為故障信息列舉出所有具體的故障排除方案,很大程度上無需求助專門的技術(shù)人員,使得故障排除方法更加靈活,時效性更強(qiáng)、運維成本更低,能夠顯著減少因存儲系統(tǒng)異常所造成的損失。
為解決上述技術(shù)問題,本申請?zhí)峁┮环N故障信息的排除方法,該排除方法包括:
獲取各底層模塊運行過程中產(chǎn)生的故障信息,并利用所述故障信息和預(yù)設(shè)對應(yīng)關(guān)系查得對應(yīng)的故障處理信息;
從所述故障處理信息中提取具體處理數(shù)據(jù),得到故障處理方案;
依次按照所述故障處理方案對產(chǎn)生所述故障信息的底層模塊進(jìn)行故障排除,直至排除所述故障信息。
可選的,獲取各底層模塊運行過程中產(chǎn)生的故障信息,包括:
利用安裝于各所述底層模塊的驅(qū)動管理器進(jìn)行參數(shù)采集,得到各所述底層模塊運行過程中產(chǎn)生的實時參數(shù);
判斷所述實時參數(shù)是否處于預(yù)設(shè)范圍內(nèi);
若否,則生成與所述實時參數(shù)相對應(yīng)的故障信息。
可選的,利用所述故障信息和預(yù)設(shè)對應(yīng)關(guān)系查得對應(yīng)的故障處理信息,包括:
將所述故障信息按所述預(yù)設(shè)規(guī)則映射為故障事件;
利用所述故障事件和故障與對應(yīng)的處理方法的對應(yīng)關(guān)系,查得與所述故障事件對應(yīng)的故障處理信息。
可選的,在從所述故障處理信息中提取具體處理數(shù)據(jù),得到故障處理方案之后,還包括:
按照成本優(yōu)先級的順序?qū)λ龉收咸幚矸桨高M(jìn)行排序,得到故障排除優(yōu)先順序表。
可選的,在依次按照所述故障處理方案對產(chǎn)生所述故障信息的底層模塊進(jìn)行故障排除,直至排除所述故障信息之后,還包括:
記錄所述故障信息被排除時使用的故障處理方案,得到故障處理日志;
在預(yù)設(shè)周期內(nèi)利用所述故障處理日志統(tǒng)計所述故障信息被解決時各所述處理方案分別占的比例。
可選的,該排除方法還包括:
當(dāng)所述故障被排除時,通過預(yù)設(shè)路徑發(fā)送故障已排除的通知信息。
本申請還提供了一種故障信息的排除系統(tǒng),該排除系統(tǒng)包括:
信息獲取單元,用于獲取各底層模塊運行過程中產(chǎn)生的故障信息,并利用所述故障信息和預(yù)設(shè)對應(yīng)關(guān)系查得對應(yīng)的故障處理信息;
數(shù)據(jù)提取單元,用于從所述故障處理信息中提取具體處理數(shù)據(jù),得到故障處理方案;
故障排除單元,用于依次按照所述故障處理方案對產(chǎn)生所述故障信息的底層模塊進(jìn)行故障排除,直至排除所述故障信息。
可選的,所述信息獲取單元包括
實時參數(shù)獲取子單元,用于利用安裝于各所述底層模塊的驅(qū)動管理器進(jìn)行參數(shù)采集,得到各所述底層模塊運行過程中的實時參數(shù);
范圍判斷子單元,用于判斷所述實時參數(shù)是否處于預(yù)設(shè)范圍內(nèi);
故障信息生成子單元,用于生成與所述實時參數(shù)相對應(yīng)的故障信息;
映射子單元,用于將所述故障信息按所述預(yù)設(shè)規(guī)則映射為故障事件;
故障處理信息查詢子單元,用于利用所述故障事件和故障與對應(yīng)的處理方法的對應(yīng)關(guān)系,查得與所述故障事件對應(yīng)的故障處理信息。
可選的,該排除系統(tǒng)還包括:
優(yōu)先級排序單元,用于按照成本優(yōu)先級的順序?qū)λ龉收咸幚矸桨高M(jìn)行排序,得到故障排除優(yōu)先順序表。
可選的,該排除系統(tǒng)還包括:
日志記錄單元,用于記錄所述故障信息被排除時使用的故障處理方案,得到故障處理日志;
比例分析單元,用于在預(yù)設(shè)周期內(nèi)利用所述故障處理日志統(tǒng)計所述故障信息被解決時各所述處理方案分別占的比例。
本申請所提供的一種故障信息的排除方法,通過獲取各底層模塊運行過程中產(chǎn)生的故障信息,并利用所述故障信息和預(yù)設(shè)對應(yīng)關(guān)系查得對應(yīng)的故障處理信息;從所述故障處理信息中提取具體處理數(shù)據(jù),得到故障處理方案;依次按照所述故障處理方案對產(chǎn)生所述故障信息的底層模塊進(jìn)行故障排除,直至排除所述故障信息。
顯然,本申請所提供的技術(shù)方案,首先根據(jù)故障信息查得對應(yīng)的故障處理信息,接著從故障處理信息中得到包含的故障處理方案,依次按照故障處理方案進(jìn)行故障排除操作,直至故障被排除。該排除方法為故障信息列舉出所有具體的故障排除方案,很大程度上無需求助專門的技術(shù)人員,使得故障排除方法更加靈活,時效性更強(qiáng)、運維成本更低,能夠顯著減少存儲系統(tǒng)異常停機(jī)時間過長所造成的損失。本申請同時還提供了一種故障信息的排除系統(tǒng),具有上述有益效果,在此不再贅述。
附圖說明
為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本申請實施例所提供的一種故障信息的排除方法的流程圖;
圖2為本申請實施例所提供的另一種故障信息的排除方法的流程圖;
圖3為本申請實施例所提供的又一種故障信息的排除方法的流程圖;
圖4為本申請實施例所提供的一種故障信息的排除系統(tǒng)的結(jié)構(gòu)框圖;
圖5為本申請實施例所提供的一種故障信息的排除方法的實際流程示意圖;
圖6為本申請實施例所提供的一種故障信息的排除系統(tǒng)中故障排除單元的實際流程示意圖。
具體實施方式
本申請的核心是提供一種故障信息的排除方法及系統(tǒng),其通過為故障信息列舉出所有具體的故障排除方案,以此來指導(dǎo)工作人員進(jìn)行故障排除,很大程度上無需求助專門的技術(shù)人員,使得故障排除方法更加靈活,時效性更強(qiáng)、運維成本更低,能夠顯著減少因存儲系統(tǒng)異常所造成的損失。
為使本申請實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本申請保護(hù)的范圍。
以下結(jié)合圖1,圖1為本申請實施例所提供的一種故障信息的排除方法的流程圖。
其具體包括以下步驟:
s101:獲取各底層模塊運行過程中產(chǎn)生的故障信息,并利用故障信息和預(yù)設(shè)對應(yīng)關(guān)系查得對應(yīng)的故障處理信息;
本步驟旨在從組成存儲系統(tǒng)的各底層模塊上獲取到運行過程中產(chǎn)生的故障信息,并根據(jù)該故障信息和預(yù)設(shè)的對應(yīng)關(guān)系查得對應(yīng)的故障處理信息。
通常情況下存儲系統(tǒng)會由數(shù)量眾多的底層模塊共同組成,這些底層模塊根據(jù)需要可以靈活設(shè)置,并通過一種模塊專門完成一種工作。其中,該故障信息的獲取方式多種多樣,例如,可以通過內(nèi)置于各底層模塊的驅(qū)動管理器實現(xiàn)該模塊參數(shù)的采集,并據(jù)此進(jìn)行判斷;也可以利用設(shè)置在各模塊上的各式傳感器實現(xiàn)所需參數(shù)的采集;還可以利用該模塊本身輸出的參數(shù)結(jié)合一些專門的算法計算得到目的參數(shù)等等,此處并不作具體限定,應(yīng)視實際情況結(jié)合模塊型號、生產(chǎn)廠家以及設(shè)置習(xí)慣等各影響因素綜合考慮。
在得到各底層模塊根據(jù)采集到的參數(shù),并判斷出該參數(shù)是在該模塊處于異常狀態(tài)所產(chǎn)生的情況下,可以利用預(yù)設(shè)的對應(yīng)關(guān)系根據(jù)獲取到的故障信息查得對應(yīng)的故障處理信息。
其中,該對應(yīng)關(guān)系是提前預(yù)設(shè)好的,是根據(jù)形成存儲系統(tǒng)的各底層模塊及可能會存在的各種故障信息,為每個故障信息設(shè)定其專屬的故障處理信息。該對應(yīng)關(guān)系的表現(xiàn)方式也有很多,例如,將該一對一的對應(yīng)關(guān)系置于對應(yīng)表當(dāng)中,便于利用一項查得另一項;還可以通過映射關(guān)系直接得到對應(yīng)的一項等等,有時不同的故障信息可能對應(yīng)同一故障處理信息,此處并不作具體限定,應(yīng)視實際情況做出具體分析和選擇。
該故障處理信息可以由很多信息組成,例如,故障處理方式簡稱、具體的故障處理方案、需要更換實體硬件的位置和型號等等,此處的故障處理信息可以盡可能的詳細(xì),以便于使用人員能夠根據(jù)該故障處理信息自行排除一些簡單的故障。
s102:從故障處理信息中提取具體處理數(shù)據(jù),得到故障處理方案;
在s101的基礎(chǔ)上,本步驟旨在從對應(yīng)得到的故障處理信息中提取得到具體處理數(shù)據(jù),得到故障處理方案。其中,根據(jù)s101中提及的故障處理信息所包含的各式內(nèi)容,從中提取得到所需的具體的故障處理方案,同一故障的故障處理方案可能有多個,例如,就某個器件因高溫而報故障,其對應(yīng)的故障處理方案就可以為:(1)降溫處理;(2)器件更換;(3)模組更換;(4)請專業(yè)的技術(shù)人員上門維修等多個方案,即多種方式均能解決同一問題。
同時,在具體的故障處理方案中可以包含具體的更換模組的型號、位置以及其它能夠幫助維修人員進(jìn)行故障排除的信息。進(jìn)一步的,如同上面例子的各方案,不同方案的代價也不盡相同,維修難度也不一致,可以結(jié)合維修難度和維修成本進(jìn)行綜合考慮,設(shè)置得到方案優(yōu)先級,例如,按照盡可能降低維修成本的原則,將多個故障處理方案按維修成本從低到高進(jìn)行優(yōu)先級排序;也可以按照其它排序方式,諸如故障排除速度、污染程度、損失程度等等,此處并不作具體限定。還可以將該方案優(yōu)先級體現(xiàn)在順序表或其它類似的信息中,以便于按照優(yōu)先級讀取得到第一故障處理方案。
更進(jìn)一步的,即使按照預(yù)設(shè)的優(yōu)先級設(shè)定了方案優(yōu)先級順序表,但實際情況往往可能較為特殊,例如,按第一優(yōu)先級設(shè)定的方案需要較多人員進(jìn)行大面積施工,但此時無法提供足夠的維修人員,就還可以根據(jù)此時的維修人員結(jié)合特殊的實際情況,對優(yōu)先級進(jìn)行靈活調(diào)整。
當(dāng)然,還存在其它方式可以實現(xiàn)優(yōu)先級的設(shè)定和調(diào)整,此處并不作具體限定,應(yīng)視實際情況下的設(shè)定方式、特殊要求等各影響因素綜合考慮和制定。
s103:依次按照故障處理方案對產(chǎn)生故障信息的底層模塊進(jìn)行故障排除,直至排除故障信息。
在s102的基礎(chǔ)上,本步驟旨在依次利用故障處理方案對產(chǎn)生該故障信息的底層模塊嘗試進(jìn)行故障排除,直至成功將該故障信息排除。由于電子設(shè)備的集成化,各器件、模塊間相互關(guān)聯(lián),有時反應(yīng)出的故障信息雖對應(yīng)著多種具體的故障處理方案,但表象一致的情況下其產(chǎn)生的原因可能不一致,故不確定哪種故障處理方案一定能夠排除故障,所以本步驟通過每次嘗試一種故障解決方案試圖排除故障,直至該故障信息消失代表故障已經(jīng)被排除。
可以通過一個較為形象的例子來說明,假設(shè)一個產(chǎn)生的故障信息對應(yīng)著的具體的故障處理方案有三個,那么第一次嘗試使用第一故障處理方案對故障進(jìn)行排除,若該故障信息消失,則代表該故障已被第一故障處理方案排除;若該故障信息并未存在,說明該第一故障處理方案并未成功排除故障,此時使用第二故障處理方案對該故障進(jìn)行排除,若該故障信息消失,則代表該故障已被第二故障處理方案排除;若該故障信息依然存在,說明該第二故障處理方案并未成功排除故障,此時使用第三故障處理方案對該故障進(jìn)行排除,依次類推,直至該故障被排除。
若三個故障處理方案均未成功排除該故障,則可以請專業(yè)的技術(shù)人員進(jìn)行故障排除,也可以直接將請專業(yè)技術(shù)人員進(jìn)行故障排除設(shè)為一個故障處理方案,并在利用優(yōu)先級進(jìn)行故障處理方案的優(yōu)先級排序時,可以將請專業(yè)技術(shù)人員進(jìn)行故障排除這個故障處理方案放在最后的優(yōu)先級順序上,此處并不作具體限定,應(yīng)視實際情況做出適應(yīng)性修改。
進(jìn)一步的,在該故障成功被排除后,還可以將具體使用的哪個故障處理方案排除了該故障記錄下來,生成日志文件,以便于后續(xù)其它流程使用。更進(jìn)一步的,還可以在預(yù)設(shè)周期內(nèi)利用該日志文件記錄的信息對同一故障被排除時所使用的方案各自出現(xiàn)的比例進(jìn)行統(tǒng)計,以便于根據(jù)統(tǒng)計得到的數(shù)據(jù)對優(yōu)先級進(jìn)行調(diào)整,減少嘗試的次數(shù),優(yōu)化故障排除機(jī)制。
更進(jìn)一步的,由于故障排除時實際情況不可完全預(yù)料,還可以在該故障被成功排除時,按預(yù)設(shè)路徑發(fā)送故障已排除的通知信息,以使維修人員快速確定故障排除狀態(tài),準(zhǔn)備后續(xù)操作步驟。其中,該預(yù)設(shè)路徑可以包括:郵件、即時通訊軟件或其它社交溝通途徑以及彈窗提示音等等,此處并不做具體限定,可以根據(jù)工作環(huán)境以及其它影響因素綜合考慮和選擇。
基于上述技術(shù)方案,本申請實施例提供的一種故障信息的排除方法,首先根據(jù)故障信息查得對應(yīng)的故障處理信息,接著從故障處理信息中得到包含的故障處理方案,依次按照故障處理方案進(jìn)行故障排除操作,直至故障被排除。該排除方法為故障信息列舉出所有具體的故障排除方案,很大程度上無需求助專門的技術(shù)人員,使得故障排除方法更加靈活,時效性更強(qiáng)、運維成本更低,能夠顯著減少存儲系統(tǒng)異常停機(jī)時間過長所造成的損失。
以下結(jié)合圖2,圖2為本申請實施例所提供的另一種故障信息的排除方法的流程圖。
本實施例是針對上一實施例中s101中如何獲取故障信息以及如何得到對應(yīng)的故障處理信息所做出的一個具體限定,其它步驟與上一實施例大體相同,相同部分可參見上一實施例相關(guān)部分,在此不再贅述。
其具體包括以下步驟:
s201:利用安裝于各底層模塊的驅(qū)動管理器進(jìn)行參數(shù)采集,得到各底層模塊運行過程中產(chǎn)生的實時參數(shù);
s202:判斷實時參數(shù)是否處于預(yù)設(shè)范圍內(nèi);
s203:生成與實時參數(shù)相對應(yīng)的故障信息;
s201、s202以及s203旨在利用安裝于各底層模塊的驅(qū)動管理器實現(xiàn)所需參數(shù)的采集,并將采集得到的實時參數(shù)與預(yù)設(shè)范圍進(jìn)行比較,該預(yù)設(shè)范圍包括該模塊處于正常工作狀態(tài)時可能會出現(xiàn)的所有參數(shù),即所有未處于該預(yù)設(shè)范圍的實時參數(shù)均可以被認(rèn)定為是在該模塊異常工作時生成的。在由該實時參數(shù)判斷得到該模塊工作異常后,則生成與該實時參數(shù)對應(yīng)的故障信息。
故障信息中包含內(nèi)容的相關(guān)描述可以參見實施例一中s101的描述,s101中的描述與本實施例大體相同,在此不再贅述。
s204:將故障信息按預(yù)設(shè)規(guī)則映射為故障事件;
s205:利用故障事件和故障與對應(yīng)的處理方法的對應(yīng)關(guān)系,查得與故障事件對應(yīng)的故障處理信息。
s204和s205旨在利用預(yù)設(shè)規(guī)則首先將該故障信息映射為固定格式的故障事件,之所以存在這一步驟,是因為故障信息包括所有底層模塊上可能存在的故障描述,表述長短不一、方法五花八門,不適合直接用于尋找對應(yīng)的故障處理信息,故此處利用該預(yù)設(shè)規(guī)則將該故障信息映射為固定格式的故障時間,便于利用對應(yīng)關(guān)系查得對應(yīng)的故障處理信息。
能夠?qū)崿F(xiàn)此目的的方法有很多,例如可以利用哈希算法得到唯一對應(yīng)的編碼,或者利用常見的md5算法得到特征值,并將該特征值作為該故障事件的表現(xiàn)等等,此處并不作具體限定,應(yīng)視實際情況做出合適的選擇。
以下結(jié)合圖3,圖3為本申請實施例所提供的又一種故障信息的排除方法的流程圖。
本實施例是針對上一實施例中對故障處理方法又進(jìn)行了何種處理以及其它增加內(nèi)容所做出的描述,其它步驟與上一實施例大體相同,相同部分可參見上一實施例相關(guān)部分,在此不再贅述。
其具體包括以下步驟:
s301:從故障處理信息中提取具體處理數(shù)據(jù),得到故障處理方案;
s302:按照成本優(yōu)先級的順序?qū)收咸幚矸桨高M(jìn)行排序,得到故障排除優(yōu)先順序表;
在s301的基礎(chǔ)上,本步驟旨在按照本優(yōu)先級的順序?qū)Υ嬖诘乃泄收咸幚矸桨高M(jìn)行成本優(yōu)先級排序,得到故障排除優(yōu)先順序表。
s303:按照故障排除優(yōu)先順序表中對故障處理方案進(jìn)行排序以此進(jìn)行故障排除,直至故障信息被排除;
在s302的基礎(chǔ)上,本步驟旨在利用生成的故障排除優(yōu)先順序表依次對故障進(jìn)行排除,直至該故障信息消失、被排除。
s304:記錄故障信息被排除時使用的故障處理方案,得到故障處理日志;
s305:在預(yù)設(shè)周期內(nèi)利用故障處理日志統(tǒng)計故障信息被解決時各處理方案分別占的比例。
s304和s305與s104中部分內(nèi)容相同,可以參見s104中相關(guān)內(nèi)容,在此不再贅述。
基于上述技術(shù)方案,本申請實施例提供的一種故障信息的排除方法,首先根據(jù)故障信息查得對應(yīng)的故障處理信息,接著從故障處理信息中得到包含的故障處理方案,并按照成本優(yōu)先順序?qū)λ泄收咸幚矸桨高M(jìn)行排除,以按照排序結(jié)果依次進(jìn)行故障排除操作,直至故障被排除。該排除方法為故障信息列舉出所有具體的故障排除方案,很大程度上無需求助專門的技術(shù)人員,使得故障排除方法更加靈活,時效性更強(qiáng)、運維成本更低,能夠顯著減少存儲系統(tǒng)異常停機(jī)時間過長所造成的損失。
因為情況復(fù)雜,無法一一列舉進(jìn)行闡述,本領(lǐng)域技術(shù)人員應(yīng)能意識到更具本申請?zhí)峁┑幕痉椒ㄔ斫Y(jié)合實際情況可以存在很多的例子,在不付出足夠的創(chuàng)造性勞動下,應(yīng)均在本申請的保護(hù)范圍內(nèi)。
下面請參見圖4,圖4為本申請實施例所提供的一種故障信息的排除系統(tǒng)的結(jié)構(gòu)框圖。
該排除系統(tǒng)可以包括:
信息獲取單元100,用于獲取各底層模塊運行過程中產(chǎn)生的故障信息,并利用故障信息和預(yù)設(shè)對應(yīng)關(guān)系查得對應(yīng)的故障處理信息;
數(shù)據(jù)提取單元200,用于從故障處理信息中提取具體處理數(shù)據(jù),得到故障處理方案;
故障排除單元300,用于依次按照故障處理方案對產(chǎn)生故障信息的底層模塊進(jìn)行故障排除,直至排除故障信息。
其中,信息獲取單元100可以包括:
實時參數(shù)獲取子單元,用于利用安裝于各底層模塊的驅(qū)動管理器進(jìn)行參數(shù)采集,得到各底層模塊運行過程中的實時參數(shù);
范圍判斷子單元,用于判斷實時參數(shù)是否處于預(yù)設(shè)范圍內(nèi);
故障信息生成子單元,用于生成與實時參數(shù)相對應(yīng)的故障信息;
映射子單元,用于將故障信息按預(yù)設(shè)規(guī)則映射為故障事件;
故障處理信息查詢子單元,用于利用故障事件和故障與對應(yīng)的處理方法的對應(yīng)關(guān)系,查得與故障事件對應(yīng)的故障處理信息。
進(jìn)一步的,該排除系統(tǒng)還可以包括:
優(yōu)先級排序單元,用于按照成本優(yōu)先級的順序?qū)收咸幚矸桨高M(jìn)行排序,得到故障排除優(yōu)先順序表;
日志記錄單元,用于記錄故障信息被排除時使用的故障處理方案,得到故障處理日志;
比例分析單元,用于在預(yù)設(shè)周期內(nèi)利用故障處理日志統(tǒng)計故障信息被解決時各處理方案分別占的比例;
通知信息發(fā)送單元,用于當(dāng)故障被排除時,通過預(yù)設(shè)路徑發(fā)送故障已排除的通知信息。
以上各單元可以應(yīng)用于以下的一個具體的實際例子中,可以參見圖5和圖6,圖5為本申請實施例所提供的一種故障信息的排除方法的實際流程示意圖;圖6為本申請實施例所提供的一種故障信息的排除系統(tǒng)中故障排除單元的實際流程示意圖。
主要分為三個環(huán)節(jié):
(1)故障檢測環(huán)節(jié):該環(huán)節(jié)主要有各個底層模塊實現(xiàn),如網(wǎng)卡驅(qū)動負(fù)責(zé)檢測網(wǎng)絡(luò)端口的鏈路狀態(tài),當(dāng)有網(wǎng)口斷開時上報網(wǎng)口斷開故障;光纖卡驅(qū)動檢測光纖端口的鏈路狀態(tài),當(dāng)有光纖口斷開時上報光纖端口斷開故障。
(2)產(chǎn)生事件環(huán)節(jié):錯誤檢測環(huán)節(jié)檢測到故障發(fā)生后,會將故障碼(表明哪種故障,比如網(wǎng)口斷開故障還是光纖口斷開故障)和故障數(shù)據(jù)(故障補(bǔ)充信息,比如故障端口號)上報給相應(yīng)的軟件模塊;該模塊會將故障信息(包含故障碼和故障數(shù)據(jù))映射為事件,并按照該事件既定的錯誤數(shù)據(jù)格式解析錯誤數(shù)據(jù),此外,每個事件關(guān)聯(lián)相應(yīng)的錯誤處理信息,每個錯誤處理信息包含下列信息,如圖5所示:
(2.1)errorcode(故障代碼):這里的errorcode與上文所述的故障碼的區(qū)別在于,故障碼表明一種故障,而這里的errorcode對應(yīng)一套故障處理方法。以io卡舉例,故障碼可能為eth_card_fault(網(wǎng)卡故障)或者fc_card_fault(fc卡故障),由于每種卡的故障后處理方式相同,因此這兩個故障碼對應(yīng)的errorcode可能同為card_replace(卡更換);
(2.2)serviceaction(服務(wù)動作):描述每個errorcode對應(yīng)的具體操作。例如對于端口斷開故障,其serviceaction為(a)更換線纜;(b)更換io卡;(c)聯(lián)系技術(shù)支持人員;
(2.3)realfrulist(確認(rèn)fru清單):列出可能導(dǎo)致該故障的fru;
(2.4)errorcodetext:errorcode描述文本。
(3)理事件環(huán)節(jié):該環(huán)節(jié)由管理軟件的gui模塊實現(xiàn),主要是將(2.2)中的serviceaction呈現(xiàn)在界面上,用于指導(dǎo)客戶恢復(fù)故障。其流程如圖6所示:gui會將當(dāng)前需要的操作展示在界面上,客戶完成操作后點擊界面的“已完成”按鈕,設(shè)備會自動檢查故障是否恢復(fù),并根據(jù)故障是否恢復(fù)決定輸出下一步操作指導(dǎo)或者結(jié)束流程。
以端口鏈路斷開故障為例,由于鏈路斷開可能是線纜有問題,也有可能是卡上的端口有問題,因此上述修復(fù)流程中serviceaction1可能為“更換線纜”,客戶完成線纜更換后點擊界面上的“已完成”按鈕,系統(tǒng)自動檢查故障是否排除;若故障仍然存在,則輸出serviceaction2“更換接口卡”;客戶完成操作后系統(tǒng)再次判斷,若故障仍然存在,則輸出serviceaction3“聯(lián)系技術(shù)支持人員處理”。
說明書中各個實施例采用遞進(jìn)的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對于實施例公開的裝置而言,由于其與實施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
專業(yè)人員還可以進(jìn)一步意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機(jī)軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認(rèn)為超出本申請的范圍。
本文中應(yīng)用了具體個例對本申請的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核心思想。應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本申請原理的前提下,還可以對本申請進(jìn)行若干改進(jìn)和修飾,這些改進(jìn)和修飾也落入本申請權(quán)利要求的保護(hù)范圍內(nèi)。
還需要說明的是,在本說明書中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其它變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其它要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。