一種分布式集群設備故障預警方法
【技術領域】
[0001]本發(fā)明屬于分布式數據處理領域,尤其涉及一種分布式集群設備故障預警方法。
【背景技術】
[0002]近幾年來,隨著廉價集群集成理論完善,實施技術的實踐經驗逐步提高。但由于其理論基礎就是采用廉價、通用服務器進行水平擴充,廉價的通用單個服務器的故障出現頻率較商用服務器高。為了應對數據及服務的穩(wěn)定的需求,需要進行節(jié)點冗余。因為此類集群構建容易、成本相對較低,因此云平臺的使用范圍不斷擴大,集群內服務器數量動輒幾十、幾百個。大型局點甚至達到千臺以上規(guī)模。
[0003]根據概率學的研宄成果,即使是小概率事件,在相應數量級上事件發(fā)生的次數就會顯著增加,為此基本可以得出結論:一定時間的范圍內大規(guī)模集群必定會出現單點服務器故障。隨著故障機的數量不停增長,會造成剩余機器的負載不斷加大,又促使剩余機器的故障出現頻率增加。
[0004]為應對以上問題,可以設定專門的運維人員進行定期巡檢處理、或者在此基礎上添加自動監(jiān)控腳本做實時通知,但這種方案都屬于事后補救,不能預先判斷哪些機器可能會需要重點運維。
[0005]其次,一般運維過程都是處理故障、發(fā)布處理故障。沒有將集群狀態(tài)與節(jié)點狀態(tài)之間建立時間、空間上的聯(lián)系。
[0006]另外,集群規(guī)劃時,其硬件配置、節(jié)點數量、流量拓撲、運算負載均衡、存儲負載均衡都和其集群承載的業(yè)務性質、規(guī)模有直接關系。但一般集群規(guī)劃時基本上依賴于方案提出人的經驗。不能做定性分析、定量結論。
【發(fā)明內容】
[0007]本發(fā)明所要解決的技術問題是提供一種分布式集群設備故障預警方法,進行現網故障預警,為設備的運行維護提供依據,從而可以查找出需要重點維護的設備,防止設備出現故障。
[0008]為了解決上述技術問題,本發(fā)明提供了一種分布式集群設備故障預警方法,包括:
[0009]獲得集群和節(jié)點的即時信息數據,將所述即時信息數據存儲到系統(tǒng)數據庫,補充為歷史數據;
[0010]根據評估模型的需要,到系統(tǒng)數據庫中獲得需要的數據,形成知識庫,將所述知識庫定期輸入到實施評估系統(tǒng);
[0011]實施評估系統(tǒng)根據所述即時信息數據、評估模型,知識庫,輸出故障預警信息。
[0012]優(yōu)選的,所述獲得集群和節(jié)點的即時信息數據,包括:
[0013]在網絡節(jié)點部署網絡探針,采集即時的網絡相關數據;在各個節(jié)點系統(tǒng)上部署系統(tǒng)探針,采集系統(tǒng)信息數據;在各業(yè)務節(jié)點上部署業(yè)務探針,通過業(yè)務層軟件接口采集業(yè)務數據。
[0014]優(yōu)選的,所述系統(tǒng)信息數據包括以下中的一種或者一種以上的組合:cpu、內存、溫度、磁盤數據。
[0015]優(yōu)選的,所述方法還包括:
[0016]將所述故障預警信息反饋到系統(tǒng)數據庫,補充為故障樣本數據。
[0017]本發(fā)明通過集群和節(jié)點的即時信息,結合歷史數據、運維結論等多維度數據,進行現網故障預警,為設備的運行維護提供依據,從而可以查找出需要重點維護的設備,防止設備出現故障。本發(fā)明并通過歷史數據建立集群與硬件配置、節(jié)點數量、流量拓撲、運算負載均衡、存儲負載均衡等相關業(yè)務拓展的關聯(lián),為集群的規(guī)劃提供方案設計依據。在集群規(guī)劃時,可以查找歷史數據,看看每個節(jié)點的故障情況,或者負載能力等,根據歷史數據進行規(guī)劃。
【附圖說明】
[0018]圖1為本發(fā)明實施例中一種分布式集群設備故障預警系統(tǒng)構建方法流程圖。
【具體實施方式】
[0019]下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅是本發(fā)明一部分實施例,而不是全部?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0020]本發(fā)明的主要思想是:首先部署相關的數據探針程序采集相關的數據,其中I)在相關的網絡節(jié)點部署網絡探針,采集即時的網絡相關數據,2)在各個節(jié)點系統(tǒng)上部署系統(tǒng)探針,采集cpu、內存、溫度、磁盤等信息數據,3)各業(yè)務節(jié)點上部署業(yè)務探針,通過業(yè)務層軟件接口采集業(yè)務數據。通過實時收集模塊將上述數據存儲到系統(tǒng)數據庫中。
[0021]參照圖1所示,為本發(fā)明實施例中一種分布式集群設備故障預警方法流程圖。所示方法包括:
[0022]101,獲得集群和節(jié)點的即時信息數據,將所述即時信息數據存儲到系統(tǒng)數據庫,補充為歷史數據;
[0023]102,根據評估模型的需要,到系統(tǒng)數據庫中獲得需要的數據,形成知識庫,將所述知識庫定期輸入到實施評估系統(tǒng);
[0024]103,實施評估系統(tǒng)根據所述即時信息數據、評估模型,知識庫,輸出故障預警信息。
[0025]在本發(fā)明的一個優(yōu)選實施例中,所述獲得集群和節(jié)點的即時信息數據,包括:
[0026]在網絡節(jié)點部署網絡探針,采集即時的網絡相關數據;在各個節(jié)點系統(tǒng)上部署系統(tǒng)探針,采集系統(tǒng)信息數據;在各業(yè)務節(jié)點上部署業(yè)務探針,通過業(yè)務層軟件接口采集業(yè)務數據。
[0027]在本發(fā)明的一個優(yōu)選實施例中,所述系統(tǒng)信息數據包括以下中的一種或者一種以上的組合:cpu、內存、溫度、磁盤數據。
[0028]在本發(fā)明的一個優(yōu)選實施例中,所述方法還包括:
[0029]將所述故障預警信息反饋到系統(tǒng)數據庫,補充為故障樣本數據。
[0030]本發(fā)明由數據挖掘模塊根據評估模型、根據歷史數據挖掘相關的知識庫,定期輸入到實施評估系統(tǒng)。同時實施評估系統(tǒng)根據采集的實時信息、評估模型,結合挖掘出的知識庫,輸出相關的故障預警。最后預警系統(tǒng)處理的結果進行反饋,補充為故障樣本數據。整個系統(tǒng)由此自我迭代,逐步形成穩(wěn)定的評估網絡。
[0031]以上所述的【具體實施方式】,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的【具體實施方式】而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【主權項】
1.一種分布式集群設備故障預警方法,其特征在于,包括: 獲得集群和節(jié)點的即時信息數據,將所述即時信息數據存儲到系統(tǒng)數據庫,補充為歷史數據; 根據評估模型的需要,到系統(tǒng)數據庫中獲得需要的數據,形成知識庫,將所述知識庫定期輸入到實施評估系統(tǒng); 實施評估系統(tǒng)根據所述即時信息數據、評估模型,知識庫,輸出故障預警信息。2.如權利要求1所述的方法,其特征在于,所述獲得集群和節(jié)點的即時信息數據,包括: 在網絡節(jié)點部署網絡探針,采集即時的網絡相關數據;在各個節(jié)點系統(tǒng)上部署系統(tǒng)探針,采集系統(tǒng)信息數據;在各業(yè)務節(jié)點上部署業(yè)務探針,通過業(yè)務層軟件接口采集業(yè)務數據。3.如權利要求1所述的方法,其特征在于,所述系統(tǒng)信息數據包括以下中的一種或者一種以上的組合:cpu、內存、溫度、磁盤數據。4.如權利要求1所述的方法,其特征在于,所述方法還包括: 將所述故障預警信息反饋到系統(tǒng)數據庫,補充為故障樣本數據。
【專利摘要】本發(fā)明提供了一種分布式集群設備故障預警方法,包括:獲得集群和節(jié)點的即時信息數據,將所述即時信息數據存儲到系統(tǒng)數據庫,補充為歷史數據;根據評估模型的需要,到系統(tǒng)數據庫中獲得需要的數據,形成知識庫,將所述知識庫定期輸入到實施評估系統(tǒng);實施評估系統(tǒng)根據所述即時信息數據、評估模型,知識庫,輸出故障預警信息。本發(fā)明通過集群和節(jié)點的即時信息,結合歷史數據、運維結論等多維度數據,進行現網故障預警,為設備的運行維護提供依據,從而可以查找出需要重點維護的設備,防止設備出現故障。
【IPC分類】H04L12/24, H04L29/08
【公開號】CN104954181
【申請?zhí)枴緾N201510307233
【發(fā)明人】葛祺, 于勇新
【申請人】北京集奧聚合網絡技術有限公司
【公開日】2015年9月30日
【申請日】2015年6月8日