互組合。
[0050]下面結(jié)合附圖和具體實施例對本發(fā)明作進一步說明,但不作為本發(fā)明的限定。
[0051]本發(fā)明提供一種自動收集計算機集群節(jié)點信息并分析的方法,參照圖1,包括以下步驟:
[0052]步驟Si,獲取計算機集群中的所有節(jié)點信息;
[0053]步驟s2,存儲節(jié)點信息;
[0054]步驟s3,從存儲的節(jié)點信息中獲取未檢測的節(jié)點,依據(jù)相應(yīng)的檢測策略對節(jié)點進行冗余分析并生成一分析結(jié)果;
[0055]步驟s4,循環(huán)步驟S3直至所有節(jié)點完成冗余分析;
[0056]步驟s5,依據(jù)分析結(jié)果判斷是否有節(jié)點存在單點風(fēng)險,并生成一檢測結(jié)果。當(dāng)檢測結(jié)果表明節(jié)點存在單點風(fēng)險時,系統(tǒng)管理員修復(fù)節(jié)點的單點風(fēng)險;當(dāng)計算機集群中的所有節(jié)點不存在單點風(fēng)險時,計算機集群冗余檢查結(jié)束。
[0057]本發(fā)明的計算機集群冗余檢查通過自動收集IT基礎(chǔ)設(shè)施計算機集群中各種不同平臺的節(jié)點信息并自動進行冗余分析,可以有效的降低系統(tǒng)管理員的工作量,避免手工輸入的錯誤和遺漏,為集群平臺的監(jiān)控分析提供數(shù)據(jù)基礎(chǔ),降低計算機集群系統(tǒng)出現(xiàn)單點故障的風(fēng)險,提高系統(tǒng)的可靠性。
[0058]本發(fā)明的計算機集群冗余檢查可以在添加硬件、軟件或者是修改當(dāng)前的程序或流程后做冗余性檢查,也可以每隔設(shè)定時間間隔從步驟Si重新開始執(zhí)行,如每周一次;可以有效地規(guī)避IT基礎(chǔ)設(shè)施中的單點風(fēng)險,減少單點故障。
[0059]作為本發(fā)明的一種優(yōu)選的實施例,參照圖2,步驟s3具體如下:
[0060]步驟s31,獲取待檢測節(jié)點的平臺類型;
[0061]步驟s32,獲取與平臺類型對應(yīng)的檢測策略;
[0062]步驟s33,利用檢測策略對待檢測節(jié)點進行冗余信息檢測,并生成分析結(jié)果。
[0063]作為本發(fā)明的一種優(yōu)選的實施例,每一種節(jié)點平臺類型對應(yīng)一種檢測策略,每一種平臺類型對應(yīng)一種檢測策略,每一種檢測策略包括至少一個檢測規(guī)則;步驟s5中,當(dāng)被檢測節(jié)點不滿足相應(yīng)的檢測策略的任意一個檢測規(guī)則時,則判斷被檢測節(jié)點存在單點風(fēng)險。
[0064]本發(fā)明根據(jù)計算機集群中各種節(jié)點平臺類型的不同,依據(jù)特定的檢測策略通過檢查所有節(jié)點的信息,列出檢查失敗的節(jié)點名稱和檢查項目,便于系統(tǒng)管理員做出改進,降低計算機集群系統(tǒng)中出現(xiàn)單點故障的風(fēng)險。其中所有節(jié)點的信息可以存儲在一數(shù)據(jù)池中。
[0065]作為本發(fā)明的一種優(yōu)選的實施例,在步驟s2之后步驟s5之前,還包括步驟s6,依據(jù)一預(yù)設(shè)的拓?fù)潢P(guān)系將計算機集群中的節(jié)點生成一節(jié)點信息數(shù)據(jù)鏈,節(jié)點信息數(shù)據(jù)鏈包含的節(jié)點信息通過一圖形生成單元生成系統(tǒng)硬件架構(gòu)圖。
[0066]作為本發(fā)明的一種優(yōu)選的實施例,參照圖3,步驟s6具體如下:
[0067]步驟s61,獲取節(jié)點的平臺類型;
[0068]步驟s62,獲取與平臺類型對應(yīng)的拓?fù)潢P(guān)系;
[0069]步驟s63,依據(jù)拓?fù)潢P(guān)系形成一樹形結(jié)構(gòu)的節(jié)點信息數(shù)據(jù)鏈,保存在一設(shè)定格式的文件中;
[0070]步驟s64,圖形生成單元獲取設(shè)定格式的文件,并依據(jù)設(shè)定格式的文件中包含的節(jié)點信息動態(tài)生成系統(tǒng)硬件架構(gòu)圖。
[0071]作為本發(fā)明的一種優(yōu)選的實施例,設(shè)定格式的文件可以采用可擴展標(biāo)記語言格式(XML, Extensible Markup Language)文件,節(jié)點信息數(shù)據(jù)鏈保存在可擴展標(biāo)記語言格式文件中。
[0072]作為本發(fā)明的一種優(yōu)選的實施例,上述分析結(jié)果通過一報表生成單元生成冗余信息分析報表,冗余信息分析報表至少包含檢測失敗的節(jié)點名稱和檢測項目。
[0073]本發(fā)明根據(jù)預(yù)設(shè)的集群節(jié)點拓?fù)潢P(guān)系,形成樹形節(jié)點信息數(shù)據(jù)鏈,并動態(tài)生成系統(tǒng)硬件架構(gòu)圖,系統(tǒng)管理員可以通過使用冗余信息分析報表和自動生成的系統(tǒng)硬件架構(gòu)圖,修正系統(tǒng)中出現(xiàn)的單點風(fēng)險,為系統(tǒng)管理員對整體系統(tǒng)可靠性分析和決策提供有效依據(jù)。
[0074]作為本發(fā)明的一種優(yōu)選的實施例,檢測策略包括系統(tǒng)硬件冗余檢測策略,系統(tǒng)硬件冗余檢測策略的檢測規(guī)則包括硬件是否為雙硬盤及硬盤是否做了鏡像,和/或是否是雙電源,和/或雙電源是否連接到不同的不間斷電源。系統(tǒng)硬件冗余檢測策略對應(yīng)的平臺類型可以是服務(wù)器(Server)。
[0075]作為本發(fā)明的一種優(yōu)選的實施例,檢測策略包括網(wǎng)絡(luò)鏈路冗余檢測策略,網(wǎng)絡(luò)鏈路冗余檢測策略的檢測規(guī)則包括是否是雙網(wǎng)卡,和/或雙網(wǎng)卡是否連接到了不同網(wǎng)絡(luò)管理設(shè)備上,和/或所連接的網(wǎng)絡(luò)管理設(shè)備是否冗余。網(wǎng)絡(luò)鏈路冗余檢測策略對應(yīng)的平臺類型可以是以太網(wǎng)交換機(Network Switch)。
[0076]作為本發(fā)明的一種優(yōu)選的實施例,檢測策略包括光纖鏈路冗余檢測策略,光纖鏈路冗余檢測策略的檢測規(guī)則包括是否是雙主機總線適配器卡(HBA卡);和/或雙主機總線適配器卡是否連接到了不同的光纖管理設(shè)備上;和/或所連接的光纖管理設(shè)備是否冗余。雙主機總線適配器(HBA, Host Bus Adapter)卡是一個使計算機在服務(wù)器和存儲裝置間提供輸入/輸出(I/O)處理和物理連接的電路板和/或集成電路適配器。光纖鏈路冗余檢測策略對應(yīng)的平臺類型可以是SAN(Storage Area Network,存儲區(qū)域網(wǎng)絡(luò))交換機。SAN交換機主要是將磁盤陣列、磁帶等存儲設(shè)備與相關(guān)服務(wù)器連接起來,完成存儲設(shè)備與服務(wù)器之間的通信。
[0077]作為本發(fā)明的一種優(yōu)選的實施例,檢測策略包括業(yè)務(wù)應(yīng)用系統(tǒng)冗余檢測策略,業(yè)務(wù)應(yīng)用系統(tǒng)冗余檢測策略包括核心業(yè)務(wù)應(yīng)用系統(tǒng)是否存在于兩個到多個主機上。業(yè)務(wù)應(yīng)用系統(tǒng)冗余檢測策略對應(yīng)的平臺類型可以是解決方案(Solut1n)。
[0078]作為本發(fā)明的一種優(yōu)選的實施例,檢測策略包括存儲設(shè)備冗余檢測策略,存儲設(shè)備冗余檢測策略的檢測規(guī)則包括存儲設(shè)備是否是鏡像的。
[0079]作為本發(fā)明的一種優(yōu)選的實施例,檢測策略包括存儲磁盤檢測策略,存儲磁盤是存儲設(shè)備劃分給主機的一個磁盤,存儲磁盤檢測策略的檢測規(guī)則包括存儲磁盤是否存在鏡像。
[0080]作為本發(fā)明的一種優(yōu)選的實施例,檢測策略包括數(shù)據(jù)庫冗余檢測策略,數(shù)據(jù)庫冗余檢測策略的檢測規(guī)則包括數(shù)據(jù)庫是否可以運行在兩個或多個主機上。
[0081]以上列出了實施過程中部分冗余性檢測的檢測策略,作為本發(fā)明的一種優(yōu)選的實施例,還包括添加檢測策略的步驟。隨著集群節(jié)點中硬件類型的不斷加入,可以在持續(xù)添加針對新類型節(jié)點的檢測策略。
[0082]本發(fā)明還提供一種自動收集計算機集群節(jié)點信息并分析的系統(tǒng),其中,包括,
[0083]節(jié)點信息收集模塊,用于獲取計算機集群中的節(jié)點信息;
[0084]節(jié)點信息存儲模塊,與節(jié)點信息收集模塊連接,用于存儲節(jié)點信息收集模塊收集的節(jié)點信息;
[0085]冗余信息分析模塊,與節(jié)點信息存儲模塊連接,依據(jù)設(shè)定的檢測策略對節(jié)點進行冗余分析,并生成一分析結(jié)果。
[0086]作為本發(fā)明的一種優(yōu)選的實施例,冗余信息分析模塊包含一報表生成單兀,用于依據(jù)分析結(jié)果生成一冗余信息分析報表,冗余信息分析報表至少包含所有檢查失敗的節(jié)點名稱和檢查項目。
[0087]作為本發(fā)明的一種優(yōu)選的實施例,還包括,系統(tǒng)硬件架構(gòu)信息生成模塊,與節(jié)點信息存儲模塊連接,用于依據(jù)計算機集群節(jié)點之間預(yù)設(shè)的拓?fù)潢P(guān)系形成一樹形結(jié)構(gòu)的節(jié)點信息數(shù)據(jù)鏈。
[0088]作為本發(fā)明的一種優(yōu)選的實施例,還包含一圖形生成單元,圖形生成單元與系統(tǒng)硬件架構(gòu)信息生成模塊連接,通過獲取節(jié)點信息數(shù)據(jù)鏈包含的節(jié)點信息生成系統(tǒng)硬件架構(gòu)圖。
[0089]作為本發(fā)明的一種優(yōu)選的實施例,節(jié)點信息存儲模塊還包含檢測策略及拓?fù)潢P(guān)系。
[0090]本發(fā)明針對不同的集群節(jié)點硬件類型,預(yù)設(shè)了不同的硬件依賴拓?fù)潢P(guān)系。拓?fù)潢P(guān)系優(yōu)選采用XML(Extensible Markup Language,可擴展標(biāo)記語言格式)文件實現(xiàn),一種采用XML文件實現(xiàn)拓?fù)潢P(guān)系的TK例如下:
[0091]< ? xml vers1n = 〃1.0^encoding = "UTF_8〃 ? >
[0092]-〈CIType name = "business-process,
[0093]-〈DependsOn〉
[0094]<CI>Solut1n->Server->Network Switch&l