本發(fā)明涉及計算機技術(shù)領(lǐng)域,具體涉及一種服務(wù)器硬件故障預(yù)警方法和裝置。
背景技術(shù):
隨著服務(wù)器集群上業(yè)務(wù)需求的遞增,服務(wù)器硬件的數(shù)量也會不斷的增多。在眾多的服務(wù)器中,一旦出現(xiàn)服務(wù)器硬件出現(xiàn)故障的情況,例如超過保修期(簡稱過保),會造成服務(wù)器硬件的性能下降,甚至出現(xiàn)突然宕機的情況,會給整個服務(wù)器硬件系統(tǒng)的運行造成影響。在眾多的服務(wù)器硬件的維護工作中,現(xiàn)有技術(shù)中通常是在服務(wù)器硬件出現(xiàn)故障后才可以被發(fā)現(xiàn),然后才進行解決,服務(wù)器硬件故障不能被及時發(fā)現(xiàn),而且也不能及時發(fā)現(xiàn)問題所在,解決問題的周期較長,進而影響整個服務(wù)器硬件系統(tǒng)的穩(wěn)定性。
技術(shù)實現(xiàn)要素:
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的服務(wù)器硬件故障預(yù)警方法和裝置。
依據(jù)本發(fā)明的一個方面,提供了一種服務(wù)器硬件故障預(yù)警方法,包括:
預(yù)先創(chuàng)建硬件故障預(yù)警列表,該列表中對應(yīng)保存了不同的硬件故障預(yù)警信息和相應(yīng)的服務(wù)器日志內(nèi)容;
獲取服務(wù)器系統(tǒng)運行日志,將所獲取的服務(wù)器系統(tǒng)運行日志與所述建硬件故障預(yù)警列表進行匹配;
如果存在匹配項,則確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障。
可選地,所述獲取服務(wù)器系統(tǒng)運行日志,將所獲取的服務(wù)器系統(tǒng)運行日志與所述硬件故障預(yù)警列表進行匹配包括:
獲取服務(wù)器運行日志中的與硬件相關(guān)的日志;
將所獲取的與硬件相關(guān)的日志與所述硬件故障預(yù)警列表進行匹配。
可選地,所述獲取服務(wù)器運行日志中的與硬件相關(guān)的日志包括:
根據(jù)服務(wù)器的系統(tǒng)配置,確定保存與硬件相關(guān)的日志的日志文件名稱;
根據(jù)所確定的日志文件名稱,從相應(yīng)的日志文件獲取與硬件相關(guān)的日志。
可選地,在所述確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障之后,該方法進一步包括:
如果存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器,則將該服務(wù)器上的服務(wù)遷移到所述其他服務(wù)器上。
可選地,在所述確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障之后,該方法進一步包括:
如果不存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器,則將該服務(wù)器上的數(shù)據(jù)和服務(wù)都遷移到指定的備用服務(wù)器上。
可選地,在所述確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障之后,該方法進一步包括:
通過指定渠道向指定位置發(fā)送包含該服務(wù)器標(biāo)識和所述應(yīng)用故障預(yù)警信息的報警消息。
可選地,該方法進一步包括:
接收關(guān)于該服務(wù)器的預(yù)警誤報通知;
將該服務(wù)器重新投入使用。
可選地,該方法進一步包括:
當(dāng)有服務(wù)器實際發(fā)生硬件故障時,獲取該服務(wù)器發(fā)生硬件故障對應(yīng)的時間范圍內(nèi)的服務(wù)器系統(tǒng)運行日志中與硬件相關(guān)的日志;
根據(jù)所獲取的與硬件相關(guān)的日志中查出至少一條與該服務(wù)器實際發(fā)生的硬件故障相關(guān)的日志;
將查找出的日志內(nèi)容和該服務(wù)器實際發(fā)生的硬件故障的預(yù)警信息對應(yīng)保存到所述硬件故障預(yù)警列表中。
根據(jù)本發(fā)明的另一方面,提供了一種服務(wù)器硬件故障預(yù)警裝置,包括:
列表維護單元,適于預(yù)先創(chuàng)建硬件故障預(yù)警列表,該列表中對應(yīng)保存了不同的硬件故障預(yù)警信息和相應(yīng)的服務(wù)器日志內(nèi)容;
日志匹配單元,適于獲取服務(wù)器系統(tǒng)運行日志,將所獲取的服務(wù)器系統(tǒng)運行日志與所述建硬件故障預(yù)警列表進行匹配,如果存在匹配項,通知故障預(yù)警單元;
故障預(yù)警單元,適于在收到日志匹配單元的通知后,確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障。
可選地,所述日志匹配單元,適于獲取服務(wù)器運行日志中的與硬件相關(guān)的日志;將所獲取的與硬件相關(guān)的日志與所述硬件故障預(yù)警列表進行匹配。
可選地,所述日志匹配單元,適于根據(jù)服務(wù)器的系統(tǒng)配置,確定保存與硬件相關(guān)的日志的日志文件名稱;根據(jù)所確定的日志文件名稱,從相應(yīng)的日志文件獲取與硬件相關(guān)的日志。
可選地,該裝置進一步包括:
預(yù)警處理單元,適于當(dāng)所述故障預(yù)警單元確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障時,判斷是否存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器,如果存在則將該服務(wù)器上的服務(wù)遷移到所述其他服務(wù)器上。
可選地,所述預(yù)警處理單元,進一步適于當(dāng)判斷出不存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器時,將該服務(wù)器上的數(shù)據(jù)和服務(wù)都遷移到指定的備用服務(wù)器上。
可選地,所述故障預(yù)警單元,進一步適于通過指定渠道向指定位置發(fā)送包含該服務(wù)器標(biāo)識和所述應(yīng)用故障預(yù)警信息的報警消息。
可選地,所述故障預(yù)警單元,進一步適于接收關(guān)于該服務(wù)器的預(yù)警誤報通知;將該服務(wù)器重新投入使用。
可選地,其中,
所述列表維護單元,進一步適于當(dāng)有服務(wù)器實際發(fā)生硬件故障時,獲取該服務(wù)器發(fā)生硬件故障對應(yīng)的時間范圍內(nèi)的服務(wù)器系統(tǒng)運行日志中與硬件相關(guān)的日志;根據(jù)所獲取的與硬件相關(guān)的日志中查出至少一條與該服務(wù)器實際發(fā)生的硬件故障相關(guān)的日志;將查找出的日志內(nèi)容和該服務(wù)器實際發(fā)生的硬件故障的預(yù)警信息對應(yīng)保存到所述硬件故障預(yù)警列表中。
綜上所述,根據(jù)本發(fā)明的技術(shù)方案,預(yù)先創(chuàng)建一個保存有對應(yīng)不同的硬件故障預(yù)警信息和相應(yīng)的服務(wù)器日志內(nèi)容的硬件故障預(yù)警列表;實時獲取服務(wù)器系統(tǒng)運行日志,并與預(yù)先創(chuàng)建的建硬件故障預(yù)警列表進行匹配;如果沒有匹配項,說明該服務(wù)器不會出現(xiàn)硬件故障;如果有匹配項,那么就確定該服務(wù)器硬件將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障,是服務(wù)器硬件維護人員及時得到預(yù)警信息,根據(jù)預(yù)警信息就可以及時的發(fā)現(xiàn)即將出現(xiàn)故障的服務(wù)器硬件和問題所在,并可以進行及時處理??梢?,本發(fā)明在服務(wù)器硬件出現(xiàn)故障之前可以及時的預(yù)警,以便根據(jù)預(yù)警信息獲知問題所在并及時處理,消耗的時間短,保證整個服務(wù)器硬件系統(tǒng)的穩(wěn)定性。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。
附圖說明
通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了根據(jù)本發(fā)明一個實施例的一種服務(wù)器硬件故障預(yù)警方法的流程示意圖;
圖2示出了根據(jù)本發(fā)明一個實施例的一種服務(wù)器硬件故障預(yù)警裝置的結(jié)構(gòu)示意圖;
圖3示出了根據(jù)本發(fā)明另一個實施例的一種服務(wù)器硬件故障預(yù)警裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
圖1示出了根據(jù)本發(fā)明一個實施例的一種服務(wù)器硬件故障預(yù)警方法的流程示意圖。如圖1所示,該方法,包括:
步驟S110,預(yù)先創(chuàng)建硬件故障預(yù)警列表,該列表中對應(yīng)保存了不同的硬件故障預(yù)警信息和相應(yīng)的服務(wù)器日志內(nèi)容。
服務(wù)器中的系統(tǒng)運行日志會保存有服務(wù)器運行狀態(tài),包括服務(wù)器運行過程中的異常信息等。那么,根據(jù)已知的故障的預(yù)警信息以及其所對應(yīng)的日志信息,創(chuàng)建一個硬件故障預(yù)警列表。該故障預(yù)警列表里會包含有不同的硬件故障預(yù)警信息和對應(yīng)的服務(wù)器日志內(nèi)容。例如,故障預(yù)警列表里包含有服務(wù)器宕機的預(yù)警信息和其所對應(yīng)的服務(wù)器日志內(nèi)容。
步驟S120,獲取服務(wù)器系統(tǒng)運行日志,將所獲取的服務(wù)器系統(tǒng)運行日志與硬件故障預(yù)警列表進行匹配。
故障預(yù)警列表里已經(jīng)包含有不同的硬件故障預(yù)警信息和相應(yīng)的服務(wù)器日志內(nèi)容,只要服務(wù)器系統(tǒng)運行日志中有故障預(yù)警列表里的服務(wù)器日志內(nèi)容,該服務(wù)器就可能會發(fā)生相應(yīng)的硬件故障。所以,為了檢測服務(wù)器是否會出現(xiàn)硬件故障,需要獲取服務(wù)器系統(tǒng)運行日志,然后將所獲取的服務(wù)器系統(tǒng)運行日志與硬件故障預(yù)警列表進行匹配,若沒有匹配項,則說明該服務(wù)器沒有發(fā)生硬件故障的風(fēng)險。
步驟S130,如果存在匹配項,則確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障。
只要監(jiān)控各個服務(wù)器中的系統(tǒng)運行日志內(nèi)容中是否有符合該故障預(yù)警列表中的服務(wù)器日志內(nèi)容的,那么就認(rèn)為該服務(wù)器硬件將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障。例如,故障預(yù)警列表里包含有服務(wù)器宕機的預(yù)警信息和其所對應(yīng)的服務(wù)器日志內(nèi)容。當(dāng)獲取到服務(wù)器A中的系統(tǒng)日志內(nèi)容中存在和故障預(yù)警列表里服務(wù)器宕機所對應(yīng)的服務(wù)器日志內(nèi)容匹配的日志內(nèi)容,那么就認(rèn)為該服務(wù)器A可能會發(fā)生過保預(yù)警信息中所描述的宕機的硬件故障。
當(dāng)存在匹配項后,將對應(yīng)的預(yù)警信息進行輸出,以供維護人員進行問題的確定,并及時進行處理。因為這些預(yù)警信息是相應(yīng)的服務(wù)器可能會出現(xiàn)的硬件故障,維護人員可以根據(jù)該預(yù)警信息及時查找問題,判斷該服務(wù)器是否可以繼續(xù)使用,并進行相應(yīng)的處理,防止服務(wù)器出現(xiàn)問題后,影響系統(tǒng)的穩(wěn)定性。例如,出現(xiàn)了服務(wù)器B的磁盤故障的預(yù)警信息,那么就可以先將服務(wù)器B的磁盤中的業(yè)務(wù)挪走,然后維護人員進行查看,確定問題點,及時進行解決,如果服務(wù)器B可以繼續(xù)使用,那么就可將業(yè)務(wù)挪回,如果服務(wù)器B不在可用,那么就在加入新的服務(wù)器進行更換。
可見,本發(fā)明在服務(wù)器硬件出現(xiàn)故障之前可以及時的預(yù)警,以便根據(jù)預(yù)警信息獲知問題所在并及時處理,消耗的時間短,保證整個服務(wù)器硬件系統(tǒng)的穩(wěn)定性。
雖然服務(wù)器中的系統(tǒng)運行日志會保存有服務(wù)器運行狀態(tài),包括服務(wù)器運行過程中的異常信息等。但是服務(wù)器中的系統(tǒng)運行日志數(shù)量巨大,為了保證效率,不可能遍歷服務(wù)器中的所有的系統(tǒng)運行日志。在本發(fā)明的一個實施例中,步驟S120中的獲取服務(wù)器系統(tǒng)運行日志,將所獲取的服務(wù)器系統(tǒng)運行日志與硬件故障預(yù)警列表進行匹配包括:獲取服務(wù)器運行日志中的與硬件相關(guān)的日志;將所獲取的與硬件相關(guān)的日志與硬件故障預(yù)警列表進行匹配。因為需要進行硬件故障的預(yù)警,所以只需要獲取服務(wù)器運行日志中的與硬件相關(guān)的日志即可。例如,和服務(wù)器內(nèi)存有關(guān)的日志;以及和服務(wù)器的磁盤、CPU、主板、電源等硬件的日志。
因為硬件相關(guān)的日志是不斷更新的,那么實時獲取硬件相關(guān)的日志,以便實現(xiàn)對服務(wù)器的實時監(jiān)控?;蛘哳A(yù)設(shè)時間長度,例如1分鐘,每經(jīng)過1分鐘,就獲取一次硬件相關(guān)的日志。
具體地,上述的獲取服務(wù)器運行日志中的與硬件相關(guān)的日志包括:根據(jù)服務(wù)器的系統(tǒng)配置,確定保存與硬件相關(guān)的日志的日志文件名稱;根據(jù)所確定的日志文件名稱,從相應(yīng)的日志文件獲取與硬件相關(guān)的日志。
例如,通過服務(wù)器的系統(tǒng)配置中的內(nèi)存的相關(guān)信息,確定服務(wù)器中內(nèi)存相關(guān)的日志文件名稱,然后根據(jù)所確定的內(nèi)存相關(guān)的日志文件名稱,從相應(yīng)的日志文件獲取與內(nèi)存相關(guān)的日志。
在本發(fā)明的一個實施例中,步驟S130中的在確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障之后,圖1所示的方法進一步包括:如果存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器,則將該服務(wù)器上的服務(wù)遷移到其他服務(wù)器上。
已經(jīng)確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障,為了防止該服務(wù)器真正發(fā)生相應(yīng)的硬件故障,保證該服務(wù)器承擔(dān)的服務(wù)的穩(wěn)定性,在確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障之后,先將該服務(wù)器上的服務(wù)遷移到其他服務(wù)器上。且,這里說的其它服務(wù)器是與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器,保證業(yè)務(wù)的正常運行。
將該服務(wù)器上的服務(wù)遷移到其他服務(wù)器上線查找是否存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器。如果不存在的話,進一步地,步驟S130中的在確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障之后,圖1所示的方法進一步包括:如果不存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器,則將該服務(wù)器上的數(shù)據(jù)和服務(wù)都遷移到指定的備用服務(wù)器上。
在本發(fā)明的一個實施例中,步驟S130中的在確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障之后,圖1所示的方法進一步包括:通過指定渠道向指定位置發(fā)送包含該服務(wù)器標(biāo)識和應(yīng)用故障預(yù)警信息的報警消息。
當(dāng)確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障之后,為了保證相關(guān)人員即使獲取到該預(yù)警信息,那么需要將相關(guān)的報警信息以及對應(yīng)的服務(wù)器的信息到指定的位置進行輸出,例如,通過郵件的方式發(fā)送給維護人員的郵箱中。
但是,不排除報警信息存在錯誤的可能,即誤報的情況,如果存在誤報的情況,但是相應(yīng)的服務(wù)器中的數(shù)據(jù)和服務(wù)已經(jīng)被挪走或者該服務(wù)器已經(jīng)停止使用,為了保證該服務(wù)器重新投入使用,具體地,上述方法進一步包括:接收關(guān)于該服務(wù)器的預(yù)警誤報通知;將該服務(wù)器重新投入使用,或者將挪走的數(shù)據(jù)和服務(wù)重新挪回。例如,電源電壓不穩(wěn)發(fā)出的服務(wù)器可能斷電的報警信息后,該服務(wù)器可能會被停止使用,但是,排查后發(fā)現(xiàn)該報警信息屬于正常的電壓波動,那么就需要將該服務(wù)器重新投入使用,這時,相關(guān)人員就會發(fā)送一個該服務(wù)器的預(yù)警誤報通知。所以,當(dāng)接收到該服務(wù)器的預(yù)警誤報通知后,將該服務(wù)器重新投入使用。
因為創(chuàng)建的硬件故障預(yù)警列表中的包含的故障預(yù)警信息和相應(yīng)的服務(wù)器日志內(nèi)容不能涵蓋所有的情況,也需要不斷的更新硬件故障預(yù)警列表。在本發(fā)明的一個實施例中,圖1所示的方法進一步包括:
當(dāng)有服務(wù)器實際發(fā)生硬件故障時,既然服務(wù)器已經(jīng)發(fā)生硬件故障,那么就說明硬件故障預(yù)警列表沒有保存關(guān)于該硬件故障的預(yù)警信息和相應(yīng)的日志內(nèi)容。那么就需要獲取該服務(wù)器發(fā)生硬件故障對應(yīng)的時間范圍內(nèi)的服務(wù)器系統(tǒng)運行日志中與硬件相關(guān)的日志;根據(jù)所獲取的與硬件相關(guān)的日志中查出至少一條與該服務(wù)器實際發(fā)生的硬件故障相關(guān)的日志;將查找出的日志內(nèi)容和該服務(wù)器實際發(fā)生的硬件故障的預(yù)警信息對應(yīng)保存到硬件故障預(yù)警列表中,以實現(xiàn)對硬件故障預(yù)警列表的更新。
圖2示出了根據(jù)本發(fā)明一個實施例的一種服務(wù)器硬件故障預(yù)警裝置的結(jié)構(gòu)示意圖。如圖2所示,該服務(wù)器硬件故障預(yù)警裝置200包括:
列表維護單元210,適于預(yù)先創(chuàng)建硬件故障預(yù)警列表,該列表中對應(yīng)保存了不同的硬件故障預(yù)警信息和相應(yīng)的服務(wù)器日志內(nèi)容。
服務(wù)器中的系統(tǒng)運行日志會保存有服務(wù)器運行狀態(tài),包括服務(wù)器運行過程中的異常信息等。那么,根據(jù)已知的故障的預(yù)警信息以及其所對應(yīng)的日志信息,創(chuàng)建一個硬件故障預(yù)警列表。該故障預(yù)警列表里會包含有不同的硬件故障預(yù)警信息和對應(yīng)的服務(wù)器日志內(nèi)容。例如,故障預(yù)警列表里包含有服務(wù)器宕機的預(yù)警信息和其所對應(yīng)的服務(wù)器日志內(nèi)容。
日志匹配單元220,適于獲取服務(wù)器系統(tǒng)運行日志,將所獲取的服務(wù)器系統(tǒng)運行日志與建硬件故障預(yù)警列表進行匹配,如果存在匹配項,通知故障預(yù)警單元。
故障預(yù)警列表里已經(jīng)包含有不同的硬件故障預(yù)警信息和相應(yīng)的服務(wù)器日志內(nèi)容,只要服務(wù)器系統(tǒng)運行日志中有故障預(yù)警列表里的服務(wù)器日志內(nèi)容,該服務(wù)器就可能會發(fā)生相應(yīng)的硬件故障。所以,為了檢測服務(wù)器是否會出現(xiàn)硬件故障,需要獲取服務(wù)器系統(tǒng)運行日志,然后將所獲取的服務(wù)器系統(tǒng)運行日志與硬件故障預(yù)警列表進行匹配,若沒有匹配項,則說明該服務(wù)器沒有發(fā)生硬件故障的風(fēng)險。
故障預(yù)警單元230,適于在收到日志匹配單元的通知后,確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障。
只要監(jiān)控各個服務(wù)器中的系統(tǒng)運行日志內(nèi)容中是否有符合該故障預(yù)警列表中的服務(wù)器日志內(nèi)容的,那么就認(rèn)為該服務(wù)器硬件將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障。例如,故障預(yù)警列表里包含有服務(wù)器宕機的預(yù)警信息和其所對應(yīng)的服務(wù)器日志內(nèi)容。當(dāng)獲取到服務(wù)器A中的系統(tǒng)日志內(nèi)容中存在和故障預(yù)警列表里服務(wù)器宕機所對應(yīng)的服務(wù)器日志內(nèi)容匹配的日志內(nèi)容,那么就認(rèn)為該服務(wù)器A可能會發(fā)生過保預(yù)警信息中所描述的宕機的硬件故障。
當(dāng)存在匹配項后,將對應(yīng)的預(yù)警信息進行輸出,以供維護人員進行問題的確定,并及時進行處理。因為這些預(yù)警信息是相應(yīng)的服務(wù)器可能會出現(xiàn)的硬件故障,維護人員可以根據(jù)該預(yù)警信息及時查找問題,判斷該服務(wù)器是否可以繼續(xù)使用,并進行相應(yīng)的處理,防止服務(wù)器出現(xiàn)問題后,影響系統(tǒng)的穩(wěn)定性。例如,出現(xiàn)了服務(wù)器B的磁盤故障的預(yù)警信息,那么就可以先將服務(wù)器B的磁盤中的業(yè)務(wù)挪走,然后維護人員進行查看,確定問題點,及時進行解決,如果服務(wù)器B可以繼續(xù)使用,那么就可將業(yè)務(wù)挪回,如果服務(wù)器B不在可用,那么就在加入新的服務(wù)器進行更換。
可見,本發(fā)明在服務(wù)器硬件出現(xiàn)故障之前可以及時的預(yù)警,以便根據(jù)預(yù)警信息獲知問題所在并及時處理,消耗的時間短,保證整個服務(wù)器硬件系統(tǒng)的穩(wěn)定性。
雖然服務(wù)器中的系統(tǒng)運行日志會保存有服務(wù)器運行狀態(tài),包括服務(wù)器運行過程中的異常信息等。但是服務(wù)器中的系統(tǒng)運行日志數(shù)量巨大,為了保證效率,不可能遍歷服務(wù)器中的所有的系統(tǒng)運行日志。在本發(fā)明的一個實施例中,日志匹配單元220,適于獲取服務(wù)器運行日志中的與硬件相關(guān)的日志;將所獲取的與硬件相關(guān)的日志與硬件故障預(yù)警列表進行匹配。因為需要進行硬件故障的預(yù)警,所以只需要獲取服務(wù)器運行日志中的與硬件相關(guān)的日志即可。例如,和服務(wù)器內(nèi)存有關(guān)的日志;以及和服務(wù)器的磁盤、CPU、主板、電源等硬件的日志。
因為硬件相關(guān)的日志是不斷更新的,那么實時獲取硬件相關(guān)的日志,以便實現(xiàn)對服務(wù)器的實時監(jiān)控。或者預(yù)設(shè)時間長度,例如1分鐘,每經(jīng)過1分鐘,就獲取一次硬件相關(guān)的日志。
具體地,日志匹配單元220,適于根據(jù)服務(wù)器的系統(tǒng)配置,確定保存與硬件相關(guān)的日志的日志文件名稱;根據(jù)所確定的日志文件名稱,從相應(yīng)的日志文件獲取與硬件相關(guān)的日志。
例如,通過服務(wù)器的系統(tǒng)配置中的內(nèi)存的相關(guān)信息,確定服務(wù)器中內(nèi)存相關(guān)的日志文件名稱,然后根據(jù)所確定的內(nèi)存相關(guān)的日志文件名稱,從相應(yīng)的日志文件獲取與內(nèi)存相關(guān)的日志。
圖3示出了根據(jù)本發(fā)明另一個實施例的一種服務(wù)器硬件故障預(yù)警裝置的結(jié)構(gòu)示意圖。如圖3所示,該服務(wù)器硬件故障預(yù)警裝置300包括:列表維護單元310、日志匹配單元320、故障預(yù)警單元330和預(yù)警處理單元340。其中,列表維護單元310、日志匹配單元320、故障預(yù)警單元330和圖2所示的列表維護單元210、日志匹配單元220、故障預(yù)警單元230具有對應(yīng)相同的功能,相同的部分在此不再贅述。
預(yù)警處理單元340,適于當(dāng)故障預(yù)警單元確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障時,判斷是否存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器,如果存在則將該服務(wù)器上的服務(wù)遷移到其他服務(wù)器上。
已經(jīng)確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障,為了防止該服務(wù)器真正發(fā)生相應(yīng)的硬件故障,保證該服務(wù)器承擔(dān)的服務(wù)的穩(wěn)定性,在確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障之后,先將該服務(wù)器上的服務(wù)遷移到其他服務(wù)器上。且,這里說的其它服務(wù)器是與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器,保證業(yè)務(wù)的正常運行。
將該服務(wù)器上的服務(wù)遷移到其他服務(wù)器上線查找是否存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器。如果不存在的話,在本發(fā)明的一個實施例中,預(yù)警處理單元340,進一步適于當(dāng)判斷出不存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器時,將該服務(wù)器上的數(shù)據(jù)和服務(wù)都遷移到指定的備用服務(wù)器上。
在本發(fā)明的一個實施例中,故障預(yù)警單元330,進一步適于通過指定渠道向指定位置發(fā)送包含該服務(wù)器標(biāo)識和應(yīng)用故障預(yù)警信息的報警消息。
當(dāng)確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障之后,為了保證相關(guān)人員即使獲取到該預(yù)警信息,那么需要將相關(guān)的報警信息以及對應(yīng)的服務(wù)器的信息到指定的位置進行輸出,例如,通過郵件的方式發(fā)送給維護人員的郵箱中。
但是,不排除報警信息存在錯誤的可能,即誤報的情況,如果存在誤報的情況,但是相應(yīng)的服務(wù)器中的數(shù)據(jù)和服務(wù)已經(jīng)被挪走或者該服務(wù)器已經(jīng)停止使用,為了保證該服務(wù)器重新投入使用,具體地,故障預(yù)警單元330,進一步適于接收關(guān)于該服務(wù)器的預(yù)警誤報通知;將該服務(wù)器重新投入使用,或者將挪走的數(shù)據(jù)和服務(wù)重新挪回。例如,電源電壓不穩(wěn)發(fā)出的服務(wù)器可能斷電的報警信息后,該服務(wù)器可能會被停止使用,但是,排查后發(fā)現(xiàn)該報警信息屬于正常的電壓波動,那么就需要將該服務(wù)器重新投入使用,這時,相關(guān)人員就會發(fā)送一個該服務(wù)器的預(yù)警誤報通知。所以,當(dāng)接收到該服務(wù)器的預(yù)警誤報通知后,將該服務(wù)器重新投入使用。
因為創(chuàng)建的硬件故障預(yù)警列表中的包含的故障預(yù)警信息和相應(yīng)的服務(wù)器日志內(nèi)容不能涵蓋所有的情況,也需要不斷的更新硬件故障預(yù)警列表。在本發(fā)明的一個實施例中,列表維護單元310,進一步適于當(dāng)有服務(wù)器實際發(fā)生硬件故障時,既然服務(wù)器已經(jīng)發(fā)生硬件故障,那么就說明硬件故障預(yù)警列表沒有保存關(guān)于該硬件故障的預(yù)警信息和相應(yīng)的日志內(nèi)容。那么就需要獲取該服務(wù)器發(fā)生硬件故障對應(yīng)的時間范圍內(nèi)的服務(wù)器系統(tǒng)運行日志中與硬件相關(guān)的日志;根據(jù)所獲取的與硬件相關(guān)的日志中查出至少一條與該服務(wù)器實際發(fā)生的硬件故障相關(guān)的日志;將查找出的日志內(nèi)容和該服務(wù)器實際發(fā)生的硬件故障的預(yù)警信息對應(yīng)保存到硬件故障預(yù)警列表中,以實現(xiàn)對硬件故障預(yù)警列表的更新。
綜上所述,根據(jù)本發(fā)明的技術(shù)方案,預(yù)先創(chuàng)建一個保存有對應(yīng)不同的硬件故障預(yù)警信息和相應(yīng)的服務(wù)器日志內(nèi)容的硬件故障預(yù)警列表;實時獲取服務(wù)器系統(tǒng)運行日志,并與預(yù)先創(chuàng)建的建硬件故障預(yù)警列表進行匹配;如果沒有匹配項,說明該服務(wù)器不會出現(xiàn)硬件故障;如果有匹配項,那么就確定該服務(wù)器硬件將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障,是服務(wù)器硬件維護人員及時得到預(yù)警信息,根據(jù)預(yù)警信息就可以及時的發(fā)現(xiàn)即將出現(xiàn)故障的服務(wù)器硬件和問題所在,并可以進行及時處理??梢姡景l(fā)明在服務(wù)器硬件出現(xiàn)故障之前可以及時的預(yù)警,以便根據(jù)預(yù)警信息獲知問題所在并及時處理,消耗的時間短,保證整個服務(wù)器硬件系統(tǒng)的穩(wěn)定性。
需要說明的是:
在此提供的算法和顯示不與任何特定計算機、虛擬裝置或者其它設(shè)備固有相關(guān)。各種通用裝置也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類裝置所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細(xì)節(jié)的情況下實踐。在一些實例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進行自適應(yīng)性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的服務(wù)器硬件故障預(yù)警裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
本發(fā)明公開了A1、一種服務(wù)器硬件故障預(yù)警方法,包括:
預(yù)先創(chuàng)建硬件故障預(yù)警列表,該列表中對應(yīng)保存了不同的硬件故障預(yù)警信息和相應(yīng)的服務(wù)器日志內(nèi)容;
獲取服務(wù)器系統(tǒng)運行日志,將所獲取的服務(wù)器系統(tǒng)運行日志與所述硬件故障預(yù)警列表進行匹配;
如果存在匹配項,則確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障。
A2、如A1所述的方法,其中,所述獲取服務(wù)器系統(tǒng)運行日志,將所獲取的服務(wù)器系統(tǒng)運行日志與所述硬件故障預(yù)警列表進行匹配包括:
獲取服務(wù)器運行日志中的與硬件相關(guān)的日志;
將所獲取的與硬件相關(guān)的日志與所述硬件故障預(yù)警列表進行匹配。
A3、如A2所述的方法,其中,所述獲取服務(wù)器運行日志中的與硬件相關(guān)的日志包括:
根據(jù)服務(wù)器的系統(tǒng)配置,確定保存與硬件相關(guān)的日志的日志文件名稱;
根據(jù)所確定的日志文件名稱,從相應(yīng)的日志文件獲取與硬件相關(guān)的日志。
A4、如A1所述的方法,其中,在所述確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障之后,該方法進一步包括:
如果存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器,則將該服務(wù)器上的服務(wù)遷移到所述其他服務(wù)器上。
A5、如A4所述的方法,其中,在所述確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障之后,該方法進一步包括:
如果不存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器,則將該服務(wù)器上的數(shù)據(jù)和服務(wù)都遷移到指定的備用服務(wù)器上。
A6、如A1所述的方法,其中,在所述確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障之后,該方法進一步包括:
通過指定渠道向指定位置發(fā)送包含該服務(wù)器標(biāo)識和所述應(yīng)用故障預(yù)警信息的報警消息。
A7、如A6所述的方法,其中,該方法進一步包括:
接收關(guān)于該服務(wù)器的預(yù)警誤報通知;
將該服務(wù)器重新投入使用。
A8、如A1-A7中任一項所述的方法,其中,該方法進一步包括:
當(dāng)有服務(wù)器實際發(fā)生硬件故障時,獲取該服務(wù)器發(fā)生硬件故障對應(yīng)的時間范圍內(nèi)的服務(wù)器系統(tǒng)運行日志中與硬件相關(guān)的日志;
根據(jù)所獲取的與硬件相關(guān)的日志中查出至少一條與該服務(wù)器實際發(fā)生的硬件故障相關(guān)的日志;
將查找出的日志內(nèi)容和該服務(wù)器實際發(fā)生的硬件故障的預(yù)警信息對應(yīng)保存到所述硬件故障預(yù)警列表中。
本發(fā)明還公開了B9、一種服務(wù)器硬件故障預(yù)警裝置,包括:
列表維護單元,適于預(yù)先創(chuàng)建硬件故障預(yù)警列表,該列表中對應(yīng)保存了不同的硬件故障預(yù)警信息和相應(yīng)的服務(wù)器日志內(nèi)容;
日志匹配單元,適于獲取服務(wù)器系統(tǒng)運行日志,將所獲取的服務(wù)器系統(tǒng)運行日志與所述建硬件故障預(yù)警列表進行匹配,如果存在匹配項,通知故障預(yù)警單元;
故障預(yù)警單元,適于在收到日志匹配單元的通知后,確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障。
B10、如B9所述的裝置,其中,
所述日志匹配單元,適于獲取服務(wù)器運行日志中的與硬件相關(guān)的日志;將所獲取的與硬件相關(guān)的日志與所述硬件故障預(yù)警列表進行匹配。
B11、如B10所述的裝置,其中,
所述日志匹配單元,適于根據(jù)服務(wù)器的系統(tǒng)配置,確定保存與硬件相關(guān)的日志的日志文件名稱;根據(jù)所確定的日志文件名稱,從相應(yīng)的日志文件獲取與硬件相關(guān)的日志。
B12、如B9所述的裝置,其中,該裝置進一步包括:
預(yù)警處理單元,適于當(dāng)所述故障預(yù)警單元確定該服務(wù)器將要發(fā)生匹配項對應(yīng)的硬件故障預(yù)警信息所描述的硬件故障時,判斷是否存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器,如果存在則將該服務(wù)器上的服務(wù)遷移到所述其他服務(wù)器上。
B13、如B12所述的裝置,其中,
所述預(yù)警處理單元,進一步適于當(dāng)判斷出不存在與該服務(wù)器存儲相同數(shù)據(jù)且提供相同服務(wù)的其他服務(wù)器時,將該服務(wù)器上的數(shù)據(jù)和服務(wù)都遷移到指定的備用服務(wù)器上。
B14、如B9所述的裝置,其中,
所述故障預(yù)警單元,進一步適于通過指定渠道向指定位置發(fā)送包含該服務(wù)器標(biāo)識和所述應(yīng)用故障預(yù)警信息的報警消息。
B15、如B14所述的裝置,其中,
所述故障預(yù)警單元,進一步適于接收關(guān)于該服務(wù)器的預(yù)警誤報通知;將該服務(wù)器重新投入使用。
B16、如B9-B15中任一項所述的裝置,其中,
所述列表維護單元,進一步適于當(dāng)有服務(wù)器實際發(fā)生硬件故障時,獲取該服務(wù)器發(fā)生硬件故障對應(yīng)的時間范圍內(nèi)的服務(wù)器系統(tǒng)運行日志中與硬件相關(guān)的日志;根據(jù)所獲取的與硬件相關(guān)的日志中查出至少一條與該服務(wù)器實際發(fā)生的硬件故障相關(guān)的日志;將查找出的日志內(nèi)容和該服務(wù)器實際發(fā)生的硬件故障的預(yù)警信息對應(yīng)保存到所述硬件故障預(yù)警列表中。