一種自動(dòng)收集計(jì)算機(jī)集群節(jié)點(diǎn)信息并分析的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及集成電路芯片制造技術(shù)領(lǐng)域,具體涉及一種計(jì)算機(jī)集群系統(tǒng)。
【背景技術(shù)】
[0002]集成電路芯片制造是一個(gè)十分復(fù)雜的過程,完成一種芯片的制造可能需要花費(fèi)幾周時(shí)間和經(jīng)歷數(shù)百道工序。由于半導(dǎo)體相關(guān)科技發(fā)展已經(jīng)趨于物理現(xiàn)象極限,客戶的要求亦日趨多樣化,使得半導(dǎo)體工藝的彈性和復(fù)雜程度變得越來越高,稍有差錯(cuò)就會(huì)使公司發(fā)生很大損失,因此信息自動(dòng)化技術(shù)被大量的引入到半導(dǎo)體制造工廠中。
[0003]信息自動(dòng)化可以大大提高設(shè)備的管理水平、進(jìn)行工藝數(shù)據(jù)的收集和統(tǒng)計(jì)工藝控制、保證物流控制更加順利,同時(shí)還可以提高工藝方案(recipe)的管理水平,減少誤操作和返工的現(xiàn)象,這些都大大推動(dòng)產(chǎn)品良率的提升。同時(shí)信息自動(dòng)化還可以實(shí)現(xiàn)先進(jìn)的實(shí)時(shí)派工,提高生產(chǎn)速度和效率,信息自動(dòng)化對(duì)于提升半導(dǎo)體制造工廠的價(jià)值起到了至關(guān)重要的作用。
[0004]由于半導(dǎo)體制造工廠中越來越多的自動(dòng)化控制業(yè)務(wù)得到了 IT(Informat1nTechnology,信息技術(shù))的支持并借助于IT實(shí)現(xiàn)了自動(dòng)化,所以高度可用的企業(yè)IT基礎(chǔ)設(shè)施變得異常重要。為了確保業(yè)務(wù)服務(wù)是高度可用的,IT基礎(chǔ)設(shè)施的高可靠性是保證。通常,高度可用的IT基礎(chǔ)設(shè)施通過基于冗余的高可用性(High Availability簡稱HA)方案來實(shí)現(xiàn),其中基于冗余的HA方案從IT管理角度來說是主要的可用性量度。基于冗余的HA方案通過將關(guān)鍵數(shù)據(jù)和應(yīng)用從崩潰的IT系統(tǒng)故障轉(zhuǎn)移到另一個(gè)對(duì)等的系統(tǒng)中來為客戶提供連續(xù)的不間斷的服務(wù),從而降低了服務(wù)的停機(jī)時(shí)間和相應(yīng)的損失。
[0005]然而,隨著計(jì)算機(jī)技術(shù)的發(fā)展,IT的基礎(chǔ)設(shè)施架構(gòu)變得越來越復(fù)雜而難以管理。添加新機(jī)器、改變網(wǎng)絡(luò)配置或存儲(chǔ)設(shè)備通常是復(fù)雜且容易出錯(cuò)的手動(dòng)任務(wù)。而且隨著IT基礎(chǔ)設(shè)施架構(gòu)內(nèi)計(jì)算機(jī)集群的規(guī)模變得越來越龐大,集群系統(tǒng)的管理監(jiān)控也變得越來越復(fù)雜,集群的監(jiān)控管理越來越成為一項(xiàng)具有挑戰(zhàn)性的工作。目前狀況下,集群系統(tǒng)內(nèi)的硬件節(jié)點(diǎn)在做過變更后,需要系統(tǒng)管理員手工檢查狀況,由于手工操作對(duì)系統(tǒng)管理員帶來了更高的要求,且容易出錯(cuò);如何有效地監(jiān)控集群系統(tǒng),保證集群系統(tǒng)的冗余,成為系統(tǒng)管理員費(fèi)時(shí)費(fèi)力的工作。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于,提供一種自動(dòng)收集計(jì)算機(jī)集群節(jié)點(diǎn)信息并分析的方法,解決以上技術(shù)問題;
[0007]本發(fā)明的目的在于,提供一種自動(dòng)收集計(jì)算機(jī)集群節(jié)點(diǎn)信息并分析的系統(tǒng),解決以上技術(shù)問題;
[0008]本發(fā)明所解決的技術(shù)問題可以采用以下技術(shù)方案來實(shí)現(xiàn):
[0009]一種自動(dòng)收集計(jì)算機(jī)集群節(jié)點(diǎn)信息并分析的方法,其中,包括以下步驟:
[0010]步驟Si,獲取計(jì)算機(jī)集群中的所有節(jié)點(diǎn)信息;
[0011]步驟s2,存儲(chǔ)所述節(jié)點(diǎn)信息;
[0012]步驟s3,從存儲(chǔ)的所述節(jié)點(diǎn)信息中獲取未檢測的節(jié)點(diǎn),依據(jù)相應(yīng)的檢測策略對(duì)所述節(jié)點(diǎn)進(jìn)行冗余分析并生成分析結(jié)果;
[0013]步驟s4,循環(huán)所述步驟S3直至所有節(jié)點(diǎn)完成冗余分析;
[0014]步驟s5,依據(jù)所述分析結(jié)果判斷是否有節(jié)點(diǎn)存在單點(diǎn)風(fēng)險(xiǎn),并生成一檢測結(jié)果。
[0015]優(yōu)選地,步驟s3具體如下:
[0016]步驟s31,獲取待檢測節(jié)點(diǎn)的平臺(tái)類型;
[0017]步驟s32,獲取與所述平臺(tái)類型對(duì)應(yīng)的檢測策略;
[0018]步驟s33,利用檢測策略對(duì)待檢測節(jié)點(diǎn)進(jìn)行冗余信息檢測,并生成分析結(jié)果。
[0019]優(yōu)選地,每一種平臺(tái)類型對(duì)應(yīng)一種檢測策略,每一種檢測策略包括至少一個(gè)檢測規(guī)則;步驟s5中,當(dāng)被檢測節(jié)點(diǎn)不滿足相應(yīng)的檢測策略的任意一個(gè)檢測規(guī)則時(shí),則判斷被檢測節(jié)點(diǎn)存在單點(diǎn)風(fēng)險(xiǎn)。
[0020]優(yōu)選地,在所述步驟s2之后所述步驟s5之前,還包括步驟s6,依據(jù)一預(yù)設(shè)的拓?fù)潢P(guān)系將所述計(jì)算機(jī)集群中的節(jié)點(diǎn)生成一節(jié)點(diǎn)信息數(shù)據(jù)鏈,所述節(jié)點(diǎn)信息數(shù)據(jù)鏈包含的節(jié)點(diǎn)信息通過一圖形生成單元生成系統(tǒng)硬件架構(gòu)圖。
[0021]優(yōu)選地,步驟s6具體如下:
[0022]步驟s61,獲取所述節(jié)點(diǎn)的平臺(tái)類型;
[0023]步驟s62,獲取與所述平臺(tái)類型對(duì)應(yīng)的拓?fù)潢P(guān)系;
[0024]步驟s63,依據(jù)所述拓?fù)潢P(guān)系形成一樹形結(jié)構(gòu)的節(jié)點(diǎn)信息數(shù)據(jù)鏈,保存在一設(shè)定格式的文件中;
[0025]步驟s64,所述圖形生成單元獲取所述設(shè)定格式的文件,并依據(jù)所述設(shè)定格式的文件中包含的節(jié)點(diǎn)信息動(dòng)態(tài)生成所述系統(tǒng)硬件架構(gòu)圖。
[0026]優(yōu)選地,所述檢測策略包括系統(tǒng)硬件冗余檢測策略,所述系統(tǒng)硬件冗余檢測策略的檢測規(guī)則包括硬件是否為雙硬盤及硬盤是否做了鏡像,和/或是否是雙電源,和/或雙電源是否連接到不同的不間斷電源。
[0027]優(yōu)選地,所述檢測策略包括網(wǎng)絡(luò)鏈路冗余檢測策略,所述網(wǎng)絡(luò)鏈路冗余檢測策略的檢測規(guī)則包括是否是雙網(wǎng)卡,和/或雙網(wǎng)卡是否連接到了不同網(wǎng)絡(luò)管理設(shè)備上,和/或所連接的網(wǎng)絡(luò)管理設(shè)備是否冗余。
[0028]優(yōu)選地,所述檢測策略包括光纖鏈路冗余檢測策略,所述光纖鏈路冗余檢測策略的檢測規(guī)則包括是否是雙主機(jī)總線適配器卡;和/或雙主機(jī)總線適配器卡是否連接到了不同的光纖管理設(shè)備上;和/或所連接的光纖管理設(shè)備是否冗余。
[0029]優(yōu)選地,所述檢測策略包括業(yè)務(wù)應(yīng)用系統(tǒng)冗余檢測策略,所述業(yè)務(wù)應(yīng)用系統(tǒng)冗余檢測策略的檢測規(guī)則包括核心業(yè)務(wù)應(yīng)用系統(tǒng)是否存在于至少兩個(gè)主機(jī)上。
[0030]優(yōu)選地,所述設(shè)定格式的文件采用可擴(kuò)展標(biāo)記語言格式文件,所述節(jié)點(diǎn)信息數(shù)據(jù)鏈保存在可擴(kuò)展標(biāo)記語言格式文件中。
[0031]本發(fā)明還提供一種自動(dòng)收集計(jì)算機(jī)集群節(jié)點(diǎn)信息并分析的系統(tǒng),其中,
[0032]包括,
[0033]節(jié)點(diǎn)信息收集模塊,用于獲取計(jì)算機(jī)集群中的節(jié)點(diǎn)信息;
[0034]節(jié)點(diǎn)信息存儲(chǔ)模塊,與所述節(jié)點(diǎn)信息收集模塊連接,用于存儲(chǔ)所述節(jié)點(diǎn)信息收集模塊收集的節(jié)點(diǎn)信息;
[0035]冗余信息分析模塊,與所述節(jié)點(diǎn)信息存儲(chǔ)模塊連接,依據(jù)設(shè)定的檢測策略對(duì)節(jié)點(diǎn)進(jìn)行冗余分析,并生成一分析結(jié)果。
[0036]優(yōu)選地,所述冗余信息分析模塊包含一報(bào)表生成單元,用于依據(jù)所述分析結(jié)果生成一冗余信息分析報(bào)表,所述冗余信息分析報(bào)表至少包含所有檢查失敗的節(jié)點(diǎn)名稱和檢查項(xiàng)目。
[0037]優(yōu)選地,還包括,系統(tǒng)硬件架構(gòu)信息生成模塊,與所述節(jié)點(diǎn)信息存儲(chǔ)模塊連接,用于依據(jù)計(jì)算機(jī)集群節(jié)點(diǎn)之間預(yù)設(shè)的拓?fù)潢P(guān)系形成一樹形結(jié)構(gòu)的節(jié)點(diǎn)信息數(shù)據(jù)鏈。
[0038]優(yōu)選地,還包含一圖形生成單元,所述圖形生成單元與所述系統(tǒng)硬件架構(gòu)信息生成模塊連接,通過獲取所述節(jié)點(diǎn)信息數(shù)據(jù)鏈包含的節(jié)點(diǎn)信息生成系統(tǒng)硬件架構(gòu)圖。
[0039]有益效果:由于采用以上技術(shù)方案,
[0040]I)本發(fā)明可以有效的降低系統(tǒng)管理員的工作量,避免手工輸入的錯(cuò)誤和遺漏,為集群平臺(tái)的監(jiān)控分析提供數(shù)據(jù)基礎(chǔ),降低集群系統(tǒng)出現(xiàn)單點(diǎn)故障的風(fēng)險(xiǎn),提高系統(tǒng)的可靠性;
[0041]2)本發(fā)明可以有效地規(guī)避IT基礎(chǔ)設(shè)施中的單點(diǎn)風(fēng)險(xiǎn),為系統(tǒng)管理員在添加硬件、軟件或者是修改當(dāng)前的程序或流程后做冗余性檢查,減少單點(diǎn)故障;
[0042]3)本發(fā)明還提出了一種根據(jù)預(yù)設(shè)的集群節(jié)點(diǎn)拓?fù)潢P(guān)系,形成樹形節(jié)點(diǎn)信息數(shù)據(jù)鏈,動(dòng)態(tài)生成系統(tǒng)硬件架構(gòu)圖的技術(shù)手段,為系統(tǒng)管理員對(duì)整體系統(tǒng)可靠性分析和決策提供有效依據(jù)。
【附圖說明】
[0043]圖1為本發(fā)明的系統(tǒng)流程示意圖;
[0044]圖2為本發(fā)明對(duì)節(jié)點(diǎn)信息進(jìn)行冗余分析的流程示意圖;
[0045]圖3為本發(fā)明生成系統(tǒng)硬件架構(gòu)圖的流程示意圖;
[0046]圖4為本發(fā)明信息數(shù)據(jù)鏈的一種具體實(shí)施例的XML文件示例;
[0047]圖5為圖4中的XML文件中列出的節(jié)點(diǎn)信息生成的系統(tǒng)硬件架構(gòu)圖示例。
【具體實(shí)施方式】
[0048]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0049]需要說明的是,在不沖突的情況下,本發(fā)明中的實(shí)施例及實(shí)施例中的特征可以相