專利名稱:一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng)及其實(shí)現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)網(wǎng)絡(luò)管理技術(shù),具體是指一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)
控系統(tǒng)及其實(shí)現(xiàn)方法。
背景技術(shù):
隨著以計(jì)算機(jī)和網(wǎng)絡(luò)為基礎(chǔ)的信息產(chǎn)業(yè)的空前發(fā)展,各種基于網(wǎng)絡(luò)的大型應(yīng)用系統(tǒng)不斷投入使用,在關(guān)系到國家政治、經(jīng)濟(jì)、文化和人們生活的各個(gè)方面發(fā)揮著越來越重要的作用。大型信息系統(tǒng)往往使用到海量數(shù)據(jù)存儲(chǔ)系統(tǒng),這其中最為廣泛使用的是磁盤陣列系統(tǒng)(RAID, Redundant Array of Ind印endentDisks) 。 RAID最初是由加利福尼亞大學(xué)伯克利分校的D. A. Patterson教授在其論文中提出來的,作為一種數(shù)據(jù)保存手段,它的作用是提供專用服務(wù)器中接入多個(gè)磁盤(專指硬盤)時(shí),以磁盤陣列方式組成一個(gè)超大容量、響應(yīng)速度快、可靠性高的存儲(chǔ)子系統(tǒng)。 由于在磁盤陣列中往往存儲(chǔ)著非常重要的數(shù)據(jù),一旦出現(xiàn)不可恢復(fù)的災(zāi)難性故障,將會(huì)造成難以估量的損失。目前的磁盤陣列系統(tǒng),主要是通過自身的數(shù)據(jù)分塊技術(shù)和冗余機(jī)制來提供一定的可靠性保證,或者通過遠(yuǎn)程在線檢測(cè)的方式監(jiān)控磁盤陣列系統(tǒng)是否在正常工作,但采用這些方式時(shí)存在以下問題(l)對(duì)于一套磁盤陣列系統(tǒng),一般使用的都是相同型號(hào)和批次的磁盤,其產(chǎn)品的質(zhì)量一致性相近,如果有一塊磁盤出現(xiàn)故障,其它磁盤出現(xiàn)故障的可能性也就很大了,一旦在短時(shí)間內(nèi)多塊磁盤連續(xù)發(fā)生故障,則依靠磁盤陣列系統(tǒng)自身的可靠性機(jī)制將無法恢復(fù)數(shù)據(jù)。(2)對(duì)于磁盤陣列的遠(yuǎn)程監(jiān)控,目前一般都采用心跳檢測(cè)的方法來實(shí)現(xiàn),所謂的心跳檢測(cè)方法是指由磁盤陣列控制器定期向服務(wù)器進(jìn)程發(fā)送心跳信息,以表明磁盤陣列系統(tǒng)仍在正常工作。但這種方式只是一種事中或者事后的檢測(cè)方法,并不能對(duì)磁盤陣列可能發(fā)生的故障做出任何的預(yù)測(cè)。(3)目前的磁盤陣列監(jiān)控系統(tǒng),只是針對(duì)單獨(dú)的磁盤陣列系統(tǒng)進(jìn)行本地監(jiān)控,還沒有針對(duì)來自不同應(yīng)用系統(tǒng)的多個(gè)磁盤陣列系統(tǒng)進(jìn)行遠(yuǎn)程集中監(jiān)控的系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服目前磁盤陣列監(jiān)控系統(tǒng)不能在連續(xù)幾塊磁盤發(fā)生故障時(shí)
整個(gè)系統(tǒng)的可靠性機(jī)制將無法恢復(fù)、磁盤陣列監(jiān)控系統(tǒng)不能在發(fā)生故障作出預(yù)測(cè)以及不能
針對(duì)不同應(yīng)用系統(tǒng)的監(jiān)控的缺陷,提供一種結(jié)構(gòu)簡單,具有可靠性機(jī)制恢復(fù)功能、具有故障
前分析預(yù)測(cè)功能及適應(yīng)于不同磁盤陣列的遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng)。 本發(fā)明的另一 目的是提供一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法。 本發(fā)明的目的通過下述技術(shù)方案實(shí)現(xiàn)一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng),
主要由通過計(jì)算機(jī)網(wǎng)絡(luò)相連接的磁盤陣列系統(tǒng)和監(jiān)控代理系統(tǒng)所構(gòu)成的邊緣層、通過計(jì)算
機(jī)網(wǎng)絡(luò)相連接的監(jiān)控服務(wù)系統(tǒng)和報(bào)警系統(tǒng)所構(gòu)成的中心層組成,且所述的監(jiān)控代理系統(tǒng)還
通過計(jì)算機(jī)網(wǎng)絡(luò)將采集到的磁盤陣列系統(tǒng)的運(yùn)行狀態(tài)信息傳遞給監(jiān)控服務(wù)系統(tǒng)。 為了更好的實(shí)現(xiàn)本發(fā)明,所述監(jiān)控代理系統(tǒng)和磁盤陣列系統(tǒng)的數(shù)量均為一個(gè)以
4上,且監(jiān)控代理系統(tǒng)和磁盤陣列系統(tǒng)的數(shù)量一一對(duì)應(yīng)。 所述監(jiān)控服務(wù)系統(tǒng)主要由依次連接的用戶展示單元、故障告警單元、儲(chǔ)存?zhèn)浞輪卧?、用戶管理單元、知識(shí)庫單元、數(shù)據(jù)分析單元、數(shù)據(jù)采集單元及對(duì)象管理單元組成,且該數(shù)據(jù)采集單元和對(duì)象管理單元均與監(jiān)控代理系統(tǒng)相連接,而故障告警單元?jiǎng)t與報(bào)警系統(tǒng)相連接。 為了較好的實(shí)現(xiàn)本發(fā)明,該磁盤陣列系統(tǒng)的工作模式至少包括RAIDO、 RAID1、RAID2、 RAID3、 RAID4、 RAID5、 RAID6、 RAID0+1、 RAID1+0中的一種。 所述磁盤陣列系統(tǒng)由控制器以及與該控制器相連接的磁盤組成,且該控制器與磁盤之間的接口至少由ATA總線接口 、 SCSI總線接口和FC總線接口中的一種組成。
—種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法,主要包括以下步驟
(Sl)監(jiān)控服務(wù)系統(tǒng)從監(jiān)控代理系統(tǒng)處接收其從磁盤陣列系統(tǒng)中所采集的被監(jiān)控對(duì)象信息,并將該監(jiān)控對(duì)象信息納入系統(tǒng)監(jiān)控對(duì)象的磁盤陣列系統(tǒng),同時(shí)配置對(duì)于磁盤陣列系統(tǒng)的SMART(Self-Monitoring, Analysis and R印ortingTechnology,自我監(jiān)測(cè)、分析及報(bào)告技術(shù))信息的采集周期,且在每個(gè)采集周期到來時(shí),由監(jiān)控代理系統(tǒng)向監(jiān)控服務(wù)系統(tǒng)上報(bào)一次采集數(shù)據(jù)。 (S2)監(jiān)控服務(wù)系統(tǒng)通過監(jiān)控代理系統(tǒng)采集磁盤陣列系統(tǒng)的SMART表信息。 (S3)監(jiān)控服務(wù)系統(tǒng)根據(jù)所采集到的SMART表信息,查詢知識(shí)庫單元,得到對(duì)應(yīng)的
磁盤陣列的屬性值、閾值、以及表征磁盤陣列系統(tǒng)健康狀態(tài)等級(jí)的門限值等參數(shù)。 (S4)監(jiān)控服務(wù)系統(tǒng)根據(jù)磁盤陣列健康狀態(tài)計(jì)算模型及方法,計(jì)算出磁盤陣列系統(tǒng)
的健康狀態(tài)參考值。 (S5)監(jiān)控服務(wù)系統(tǒng)判斷被監(jiān)控磁盤陣列系統(tǒng)所處的健康狀態(tài)等級(jí),如果健康狀態(tài)為健康,則返回步驟(S2);否則,則執(zhí)行步驟(S6)。 (S6)當(dāng)磁盤陣列系統(tǒng)處于非健康狀態(tài)時(shí),監(jiān)控服務(wù)系統(tǒng)通過監(jiān)控代理系統(tǒng)對(duì)磁盤陣列系統(tǒng)上面所存儲(chǔ)的數(shù)據(jù)做存儲(chǔ)備份。 (S7)監(jiān)控服務(wù)系統(tǒng)進(jìn)一步判斷被監(jiān)控磁盤陣列系統(tǒng)所處的健康狀態(tài)等級(jí)是否為很差,否,則返回步驟(S2),是,則執(zhí)行步驟(S8)。 (S8)監(jiān)控服務(wù)系統(tǒng)通知報(bào)警系統(tǒng)通知系統(tǒng)管理人員,轉(zhuǎn)人工服務(wù)。 (S9)在磁盤陣列系統(tǒng)發(fā)生故障時(shí),監(jiān)控服務(wù)系統(tǒng)對(duì)磁盤的屬性信息等參數(shù)值在知
識(shí)庫單元中進(jìn)行記錄,作為案例為系統(tǒng)動(dòng)態(tài)參數(shù)的調(diào)整提供服務(wù),數(shù)據(jù)采集處理過程完畢。 進(jìn)一步地,步驟(S4)中所述的由監(jiān)控服務(wù)系統(tǒng)根據(jù)磁盤陣列健康狀態(tài)計(jì)算模型
及方法,計(jì)算出磁盤陣列系統(tǒng)的健康狀態(tài)參考值,其具體步驟如下 (S41)預(yù)先設(shè)定監(jiān)控服務(wù)系統(tǒng)12所采集到的磁盤陣列系統(tǒng)14的SMART屬性為Ai(i = l,…,n),所對(duì)應(yīng)的閾值分別為Ti(i = 1,…,n),其標(biāo)稱屬性值為Si(i = 1,…,n),實(shí)際測(cè)量屬性值為Ri(i = 1,…,n),最大錯(cuò)誤值為Ei(i = 1,…,n) , SMART屬性的標(biāo)稱距離值為Di = Si-Ti,其測(cè)量產(chǎn)生的實(shí)際距離值Di'二 Ri-Ti,如果實(shí)際測(cè)量屬性值大于閾值,則Di'為正值,如果實(shí)際測(cè)量屬性值小于閾值,則Di'為負(fù)值。因?yàn)镾i 〉Ti,所以有Di > O,即標(biāo)稱距離值為正。 (S42)當(dāng)i = 1,…,n,如果任一Di'《0,則表示磁盤健康狀態(tài)很差,應(yīng)通知系統(tǒng)管理人員進(jìn)行處理,否則,則執(zhí)行步驟(S43)。
(S43)設(shè)當(dāng)i = 1,…,n時(shí),都有Di, > O,則對(duì)SMART屬性的實(shí)際距離值根據(jù)Mi =Di' /Di進(jìn)行歸一化計(jì)算,其中,O < Mi《1。 (S45)計(jì)算磁盤健康狀態(tài)等級(jí)state,當(dāng)計(jì)算結(jié)果為state > x時(shí),則表示磁盤處 于健康狀態(tài);當(dāng)計(jì)算結(jié)果為0 < state《x時(shí),則表示磁盤健康狀態(tài)較差,其中x為一門限 值,其取值為0.1。 同時(shí),步驟(S45)中所述的計(jì)算磁盤健康狀態(tài)等級(jí)state的公式為state = (Wl氺Ml+…+Wn氺Mn)/(n氺(Wl+…+Wn)),其中Wi(i = 1,…,n)為屬性Ai(i = 1,…,n)對(duì) 應(yīng)的動(dòng)態(tài)權(quán)值,所述的動(dòng)態(tài)權(quán)值Wi(i = 1,…,n)的計(jì)算方法為,對(duì)于普通的SMART屬性, Wi = 10*(l-Mi),對(duì)于重要的SMART屬性,Wi = 20*(l_Mi)。 為了方便通知系統(tǒng)管理人員,步驟(S8)中由監(jiān)控服務(wù)系統(tǒng)通知報(bào)警系統(tǒng)通知系 統(tǒng)管理人員時(shí),至少由聲光報(bào)警、短信通知、電話外呼通知以及電子郵件通知中的一種方式 來實(shí)現(xiàn)。且步驟(S6)中所述的非健康狀態(tài)是指磁盤陣列系統(tǒng)處于較差或很差狀態(tài)。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下的優(yōu)點(diǎn)和有益效果 (1)本發(fā)明通過建立集中的針對(duì)磁盤陣列系統(tǒng)的遠(yuǎn)程監(jiān)控系統(tǒng),能夠?qū)崟r(shí)在線的
對(duì)來自不同應(yīng)用系統(tǒng)的磁盤陣列系統(tǒng)進(jìn)行統(tǒng)一的監(jiān)控和配置,從而有效的克服傳統(tǒng)監(jiān)控系
統(tǒng)不能對(duì)來自不同應(yīng)用系統(tǒng)的多個(gè)磁盤陣列系統(tǒng)進(jìn)行遠(yuǎn)程集中監(jiān)控的系統(tǒng)的缺陷。 (2)本發(fā)明通過遠(yuǎn)程采集磁盤陣列的SMART表信息并分析判斷,可以在磁盤故障
尚未發(fā)生之前進(jìn)行具有一定準(zhǔn)確度的故障預(yù)測(cè),當(dāng)預(yù)測(cè)到某一磁盤陣列系統(tǒng)處于非健康狀
態(tài)時(shí),可以根據(jù)相應(yīng)的健康等級(jí)進(jìn)行數(shù)據(jù)備份、告警通知等處理措施,從而對(duì)磁盤陣列上所
存儲(chǔ)的系統(tǒng)重要數(shù)據(jù)進(jìn)行有力的保護(hù)。
圖1為本發(fā)明的應(yīng)用架構(gòu)圖。 圖2是圖1中監(jiān)控服務(wù)系統(tǒng)的結(jié)構(gòu)示意圖。 圖3是應(yīng)用本發(fā)明時(shí)的流程圖。
具體實(shí)施例方式
下面結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明,但本發(fā)明的實(shí)施方式不限于此。
實(shí)施例 如圖1、2所示,本發(fā)明的應(yīng)用架構(gòu)中包含磁盤陣列系統(tǒng)14、監(jiān)控代理系統(tǒng)13、監(jiān)控 服務(wù)系統(tǒng)12以及報(bào)警系統(tǒng)ll,其中磁盤陣列系統(tǒng)14和監(jiān)控代理系統(tǒng)13的數(shù)量為一個(gè)及其 一個(gè)以上,且每一個(gè)磁盤陣列系統(tǒng)14只對(duì)應(yīng)一個(gè)監(jiān)控代理系統(tǒng)13。為了便于描述,將該磁 盤陣列系統(tǒng)14的數(shù)量定義為n,且n > 0。 為了更好的實(shí)現(xiàn)本發(fā)明,該磁盤陣列系統(tǒng)14和監(jiān)控代理系統(tǒng)13之間通過計(jì)算機(jī) 網(wǎng)絡(luò)相連接,且磁盤陣列系統(tǒng)14和監(jiān)控代理系統(tǒng)13形成代理者_(dá)監(jiān)控者信息模型中的邊 緣層。而監(jiān)控服務(wù)系統(tǒng)12和報(bào)警系統(tǒng)11之間也通過計(jì)算機(jī)網(wǎng)絡(luò)相連接在一起,并形成代 理者-監(jiān)控者信息模型中的中心層,同時(shí),每個(gè)監(jiān)控代理系統(tǒng)13還通過計(jì)算機(jī)網(wǎng)絡(luò)與監(jiān)控 服務(wù)器系統(tǒng)12相連接,從而將采集到的磁盤陣列系統(tǒng)14的運(yùn)行狀態(tài)信息傳遞給監(jiān)控服務(wù) 系統(tǒng)12。為了確保效果,該監(jiān)控代理系統(tǒng)13與其監(jiān)控的磁盤陣列系統(tǒng)14之間優(yōu)先采用局域網(wǎng)進(jìn)行連接,監(jiān)控服務(wù)系統(tǒng)12則優(yōu)先通過互聯(lián)網(wǎng)與監(jiān)控代理系統(tǒng)13和報(bào)警系統(tǒng)11相連 接。 磁盤陣列系統(tǒng)14的工作模式包括RAID0、 RAID1、 RAID2、 RAID3、 RAID4、 RAID5、 RAID6、 RAID0+1及RAID1+0中的一種,或者是其任意幾種的組合。而磁盤陣列的磁盤與磁 盤陣列控制器之間的接口 ,則為ATA總線接口 、 SCSI總線接口和FC總線接口中的一種,或 者是其任意的組合。 所述監(jiān)控代理系統(tǒng)13與所監(jiān)控的磁盤陣列系統(tǒng)14部署在同一局域網(wǎng)內(nèi),按照預(yù) 先設(shè)定的采集周期,通過磁盤陣列控制器采集磁盤陣列的SMART信息,并通過互聯(lián)網(wǎng)絡(luò)提 供給遠(yuǎn)程的監(jiān)控服務(wù)系統(tǒng)進(jìn)行分析和處理。 如圖2所示,監(jiān)控服務(wù)系統(tǒng)12用于實(shí)現(xiàn)磁盤陣列數(shù)據(jù)采集和磁盤健康狀態(tài)的分 析判斷和處理過程,其包括有用戶展示單元121、故障告警單元122、存儲(chǔ)備份單元123、用 戶管理單元124、知識(shí)庫單元125、數(shù)據(jù)分析單元126、數(shù)據(jù)采集單元127以及對(duì)象管理單元 128。 用戶展示單元121提供磁盤陣列健康狀態(tài)的集中展示界面。用戶展示單元121接 收來自對(duì)象管理單元128的磁盤陣列對(duì)象信息,數(shù)據(jù)分析單元126的磁盤陣列健康狀態(tài)信 息,知識(shí)庫單元125的知識(shí)信息,用戶管理單元124的用戶信息及用戶權(quán)限信息,根據(jù)用戶 的查詢請(qǐng)求,生成相應(yīng)的統(tǒng)計(jì)報(bào)表和圖形展示給用戶。 故障告警單元122提供聲光、電子郵件、短信、電話外呼等多種方式的告警通知。 故障告警單元122接收來自數(shù)據(jù)分析單元126的磁盤陣列監(jiān)控狀況分析結(jié)果,并按照預(yù)設(shè) 的報(bào)警策略與報(bào)警方式,通知報(bào)警系統(tǒng)11啟動(dòng)相應(yīng)形式的報(bào)警通知。 存儲(chǔ)備份單元123提供對(duì)于非健康磁盤陣列的數(shù)據(jù)備份和數(shù)據(jù)恢復(fù)功能。存儲(chǔ)備 份單元123接收來自數(shù)據(jù)分析單元126的磁盤陣列監(jiān)控狀況分析結(jié)果,并按照預(yù)設(shè)的存儲(chǔ) 備份策略,啟動(dòng)數(shù)據(jù)的存儲(chǔ)備份和恢復(fù)。 用戶管理單元124提供對(duì)于用戶的增加、刪除、認(rèn)證、授權(quán)等功能。用戶管理單元
124接收用戶的操作指令,并通過用戶展示單元121展示相應(yīng)的操作結(jié)果。 知識(shí)庫單元125提供磁盤陣列運(yùn)行監(jiān)控系統(tǒng)中所需的知識(shí)信息,包括被監(jiān)控對(duì)象
信息,安全策略信息,故障參數(shù)指標(biāo)信息等。知識(shí)庫單元125接收來自對(duì)象管理單元128的
監(jiān)控對(duì)象信息,接收來自數(shù)據(jù)采集單元127的磁盤屬性信息,接收來自數(shù)據(jù)分析單元126的
磁盤陣列健康狀態(tài)信息,形成系統(tǒng)知識(shí),并完成知識(shí)的添加、編輯和刪除。 數(shù)據(jù)分析單元126提供對(duì)于磁盤陣列運(yùn)行狀態(tài)信息的計(jì)算和分析,給出所監(jiān)控磁
盤陣列所處的健康狀況等級(jí)。數(shù)據(jù)分析單元126接收來自數(shù)據(jù)采集單元127的磁盤SMART
屬性信息,根據(jù)磁盤健康狀態(tài)計(jì)算模型計(jì)算磁盤陣列所處的健康狀態(tài),并進(jìn)一步通知存儲(chǔ)
備份單元123或者故障告警單元122。 數(shù)據(jù)采集單元127提供對(duì)于磁盤陣列系統(tǒng)運(yùn)行狀態(tài)信息的采集功能。數(shù)據(jù)采集單 元127接收來自監(jiān)控代理系統(tǒng)13提供的磁盤運(yùn)行屬性信息,并提供給數(shù)據(jù)分析單元126進(jìn) 行處理。 對(duì)象管理單元128提供對(duì)于磁盤陣列系統(tǒng)的對(duì)象管理功能。對(duì)象管理單元128接 收來自監(jiān)控代理系統(tǒng)13提供的磁盤陣列系統(tǒng)的型號(hào)、特征、IP地址、所屬應(yīng)用系統(tǒng)等信息, 形成對(duì)象的拓?fù)潢P(guān)系并提供給知識(shí)庫單元125進(jìn)行知識(shí)存儲(chǔ)和用戶展示單元121進(jìn)行展
如圖3所示,實(shí)現(xiàn)本發(fā)明是的步驟如下 步驟SI :監(jiān)控服務(wù)系統(tǒng)12從監(jiān)控代理系統(tǒng)13接收其從磁盤陣列系統(tǒng)14采集的被 監(jiān)控對(duì)象信息,通過配置確定納入系統(tǒng)監(jiān)控對(duì)象的磁盤陣列系統(tǒng),并配置對(duì)于磁盤陣列系 統(tǒng)SMART信息的采集周期。在每個(gè)周期到來時(shí),監(jiān)控代理系統(tǒng)13將向監(jiān)控服務(wù)系統(tǒng)12上 報(bào)一次采集數(shù)據(jù)。 步驟S2 :監(jiān)控服務(wù)系統(tǒng)12通過監(jiān)控代理系統(tǒng)13采集磁盤陣列系統(tǒng)14的SMART表 信息。 步驟S3 :監(jiān)控服務(wù)系統(tǒng)12根據(jù)所采集到的SMART表信息,查詢知識(shí)庫系統(tǒng),得到
對(duì)應(yīng)磁盤陣列的屬性閾值等指標(biāo)以及表征磁盤陣列系統(tǒng)健康狀態(tài)等級(jí)的門限值等參數(shù)。所
述SMART是硬盤制造行業(yè)的行業(yè)標(biāo)準(zhǔn),監(jiān)控代理系統(tǒng)采集的SMART信息至少包括ID檢測(cè)代
碼、屬性描述、閾值、屬性值、最大錯(cuò)誤值、實(shí)際值和屬性狀態(tài)等檢測(cè)參數(shù)。 步驟S4 :監(jiān)控服務(wù)系統(tǒng)12根據(jù)磁盤陣列健康狀態(tài)計(jì)算模型及方法,計(jì)算出磁盤陣
列的健康狀態(tài)參考值。 其中,該步驟主要包括預(yù)先設(shè)定監(jiān)控服務(wù)系統(tǒng)12所采集到的磁盤陣列系統(tǒng)14的 SMART屬性為Ai (i = 1,…,n),所對(duì)應(yīng)的閾值分別為Ti (i = 1,…,n),其標(biāo)稱屬性值為 Si(i = l,…,n),實(shí)際測(cè)量屬性值為Ri(i = 1,…,n),最大錯(cuò)誤值為Ei(i = 1,…,n), SMART屬性的標(biāo)稱距離值為Di = Si-Ti,其測(cè)量產(chǎn)生的實(shí)際距離值Di' = Ri-Ti,如果實(shí)際 測(cè)量屬性值大于閾值,則Di'為正值,如果實(shí)際測(cè)量屬性值小于閾值,則Di'為負(fù)值;當(dāng)i = 1,…,n,如果任一Di'《O,則表示磁盤健康狀態(tài)很差,應(yīng)通知系統(tǒng)管理人員進(jìn)行處理,否 則,則執(zhí)行步驟下一步;設(shè)當(dāng)i = 1,…,n時(shí),都有Di' >0,則對(duì)SMART屬性的實(shí)際距離值 根據(jù)Mi = Di'/Di進(jìn)行歸一化計(jì)算,其中,O < Mi《1。計(jì)算磁盤健康狀態(tài)等級(jí)state的公 式為:state = (Wl氺Ml+…+Wn氺Mn)/(n氺(Wl+…+Wn)),其中Wi(i = 1,…,n)為屬性Ai(i =1,…,n)對(duì)應(yīng)的動(dòng)態(tài)權(quán)值,所述的動(dòng)態(tài)權(quán)值Wi(i = 1,…,n)的計(jì)算方法為,對(duì)于普通 的SMART屬性,Wi = 10*(l-Mi),對(duì)于重要的SMART屬性,Wi = 20*(l_Mi)。
當(dāng)計(jì)算結(jié)果為state 〉x時(shí),則表示磁盤處于健康狀態(tài);當(dāng)計(jì)算結(jié)果為0 < state《x時(shí),則表示磁盤健康狀態(tài)較差,其中x為一門限值,其取值為0. 1。
步驟S5 :監(jiān)控服務(wù)系統(tǒng)12判斷被監(jiān)控磁盤陣列系統(tǒng)14所處的健康狀態(tài)等級(jí),如 果健康狀態(tài)為健康,則轉(zhuǎn)步驟S2 ;否則執(zhí)行步驟S6。 步驟S6 :磁盤陣列系統(tǒng)14處于非健康狀態(tài)時(shí),監(jiān)控服務(wù)系統(tǒng)12通過監(jiān)控代理系 統(tǒng)13對(duì)磁盤陣列系統(tǒng)14上面所存儲(chǔ)的數(shù)據(jù)做存儲(chǔ)備份。 步驟S7 :監(jiān)控服務(wù)系統(tǒng)12進(jìn)一步判斷被監(jiān)控磁盤陣列系統(tǒng)14所處的健康狀態(tài)等 級(jí)是否為很差,如果不是則轉(zhuǎn)步驟S2 ;否則轉(zhuǎn)下一步。 步驟S8 :監(jiān)控服務(wù)系統(tǒng)12通知報(bào)警系統(tǒng)ll,通過包括但不限于聲光報(bào)警,短信通
知、電話外呼通知以及電子郵件通知等方式通知系統(tǒng)管理人員,轉(zhuǎn)人工服務(wù)。 步驟S9 :在磁盤陣列系統(tǒng)14發(fā)生故障的情況下,監(jiān)控服務(wù)系統(tǒng)12對(duì)磁盤的屬性
信息等參數(shù)值在知識(shí)庫中進(jìn)行記錄,作為案例為系統(tǒng)動(dòng)態(tài)參數(shù)的調(diào)整提供服務(wù)。數(shù)據(jù)采集
處理過程完畢。 如上所述,便可以很好的實(shí)現(xiàn)本發(fā)明。
權(quán)利要求
一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng),其特征在于主要由通過計(jì)算機(jī)網(wǎng)絡(luò)相連接的磁盤陣列系統(tǒng)(14)和監(jiān)控代理系統(tǒng)(13)所構(gòu)成的邊緣層、通過計(jì)算機(jī)網(wǎng)絡(luò)相連接的監(jiān)控服務(wù)系統(tǒng)(12)和報(bào)警系統(tǒng)(11)所構(gòu)成的中心層組成,且所述的監(jiān)控代理系統(tǒng)(13)還通過計(jì)算機(jī)網(wǎng)絡(luò)將采集到的磁盤陣列系統(tǒng)(14)的運(yùn)行狀態(tài)信息傳遞給監(jiān)控服務(wù)系統(tǒng)(12)。
2. 根據(jù)權(quán)利要求1所述的一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng),其特征在于所述 監(jiān)控代理系統(tǒng)(13)和磁盤陣列系統(tǒng)(14)的數(shù)量均為一個(gè)以上,且監(jiān)控代理系統(tǒng)(13)和磁 盤陣列系統(tǒng)(14)的數(shù)量一一對(duì)應(yīng)。
3. 根據(jù)權(quán)利要求1或2所述的一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng),其特征在于 所述監(jiān)控服務(wù)系統(tǒng)(12)主要由依次連接的用戶展示單元(121)、故障告警單元(122)、儲(chǔ)存 備份單元(123)、用戶管理單元(124)、知識(shí)庫單元(125)、數(shù)據(jù)分析單元(126)、數(shù)據(jù)采集單 元(127)及對(duì)象管理單元(128)組成,且該數(shù)據(jù)采集單元(127)和對(duì)象管理單元(128)均 與監(jiān)控代理系統(tǒng)(13)相連接,而故障告警單元(122)則與報(bào)警系統(tǒng)(11)相連接。
4. 根據(jù)權(quán)利要求3所述的一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng),其特征在于該磁 盤陣列系統(tǒng)(14)的工作模式至少包括RAID0、 RAID1、 RAID2、 RAID3、 RAID4、 RAID5、 RAID6、 RAID0+l、RAIDl+0中的一種。
5. 根據(jù)權(quán)利要求4所述的一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng),其特征在于所述 磁盤陣列系統(tǒng)(14)由控制器以及與該控制器相連接的磁盤組成,且該控制器與磁盤之間 的接口至少由ATA總線接口 、 SCSI總線接口和FC總線接口中的一種組成。
6. —種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法,其特征在于,主要包括以下步驟(51) 監(jiān)控服務(wù)系統(tǒng)(12)從監(jiān)控代理系統(tǒng)(13)處接收其從磁盤陣列系統(tǒng)(14)中所采 集的被監(jiān)控對(duì)象信息,并將該監(jiān)控對(duì)象信息納入系統(tǒng)監(jiān)控對(duì)象的磁盤陣列系統(tǒng)(14),同時(shí) 配置對(duì)于磁盤陣列系統(tǒng)(14)的SMART信息的采集周期,且在每個(gè)采集周期到來時(shí),由監(jiān)控 代理系統(tǒng)(13)向監(jiān)控服務(wù)系統(tǒng)(12)上報(bào)一次采集數(shù)據(jù);(52) 監(jiān)控服務(wù)系統(tǒng)(12)通過監(jiān)控代理系統(tǒng)(13)采集磁盤陣列系統(tǒng)(14)的SMART表 信息;(53) 監(jiān)控服務(wù)系統(tǒng)(12)根據(jù)所采集到的SMART表信息,查詢知識(shí)庫單元(125),得到 對(duì)應(yīng)的磁盤陣列的屬性值、閾值、以及表征磁盤陣列系統(tǒng)(14)健康狀態(tài)等級(jí)的門限值等參 數(shù);(54) 監(jiān)控服務(wù)系統(tǒng)(12)根據(jù)磁盤陣列健康狀態(tài)計(jì)算模型及方法,計(jì)算出磁盤陣列系 統(tǒng)(14)的健康狀態(tài)參考值;(55) 監(jiān)控服務(wù)系統(tǒng)(12)判斷被監(jiān)控磁盤陣列系統(tǒng)(14)所處的健康狀態(tài)等級(jí),如果健 康狀態(tài)為健康,則返回步驟(S2);否則,則執(zhí)行步驟(S6);(56) 當(dāng)磁盤陣列系統(tǒng)(14)處于非健康狀態(tài)時(shí),監(jiān)控服務(wù)系統(tǒng)(12)通過監(jiān)控代理系統(tǒng)(13) 對(duì)磁盤陣列系統(tǒng)(14)上面所存儲(chǔ)的數(shù)據(jù)做存儲(chǔ)備份;(57) 監(jiān)控服務(wù)系統(tǒng)(12)進(jìn)一步判斷被監(jiān)控磁盤陣列系統(tǒng)(14)所處的健康狀態(tài)等級(jí)是 否為很差,否,則返回步驟(S2),是,則執(zhí)行步驟(S8);(58) 監(jiān)控服務(wù)系統(tǒng)(12)通知報(bào)警系統(tǒng)(11)通知系統(tǒng)管理人員,轉(zhuǎn)人工服務(wù);(S9)在磁盤陣列系統(tǒng)(14)發(fā)生故障時(shí),監(jiān)控服務(wù)系統(tǒng)(12)對(duì)磁盤的屬性信息等參數(shù)值在知識(shí)庫單元(125)中進(jìn)行記錄,作為案例為系統(tǒng)動(dòng)態(tài)參數(shù)的調(diào)整提供服務(wù),數(shù)據(jù)采集處理過程完畢。
7. 根據(jù)權(quán)利要求6所述的一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法,其特征在于,步驟(S4)中所述的由監(jiān)控服務(wù)系統(tǒng)(12)根據(jù)磁盤陣列健康狀態(tài)計(jì)算模型及方法,計(jì)算出磁盤陣列系統(tǒng)(14)的健康狀態(tài)參考值,其具體步驟如下(541) 預(yù)先設(shè)定監(jiān)控服務(wù)系統(tǒng)(12)所采集到的磁盤陣列系統(tǒng)(14)的SMART屬性為Ai(i = l,…,n),所對(duì)應(yīng)的閾值分別為Ti(i = 1,…,n),其標(biāo)稱屬性值為Si(i = 1,…,n),實(shí)際測(cè)量屬性值為Ri(i = 1,, n),最大錯(cuò)誤值為Ei(i = 1,…,n) , SMART屬性的標(biāo)稱距離值為Di = Si-Ti,其測(cè)量產(chǎn)生的實(shí)際距離值Di'二 Ri-Ti,如果實(shí)際測(cè)量屬性值大于閾值,則Di'為正值,如果實(shí)際測(cè)量屬性值小于閾值,則Di'為負(fù)值,其中,Si〉Ti,Di〉0 ;(542) 當(dāng)i = 1,…,n,如果任一Di'《O,則表示磁盤健康狀態(tài)很差,應(yīng)通知系統(tǒng)管理人員進(jìn)行處理,否則,則執(zhí)行步驟(S43);(543) 設(shè)當(dāng)i = 1,…,n時(shí),都有Di' > O,則對(duì)SMART屬性的實(shí)際距離值根據(jù)Mi =Di' /Di進(jìn)行歸一化計(jì)算,其中,O < Mi《1 ;(S45)計(jì)算磁盤健康狀態(tài)等級(jí)state,當(dāng)計(jì)算結(jié)果為state > x時(shí),則表示磁盤處于健康狀態(tài);當(dāng)計(jì)算結(jié)果為0 < state《x時(shí),則表示磁盤健康狀態(tài)較差,其中x為一門限值,其取值為0. 1。
8. 根據(jù)權(quán)利要求7所述的一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法,其特征在于,步驟(S45)中所述的計(jì)算磁盤健康狀態(tài)等級(jí)state的方法為,state = (Wl*Ml+ +界11*] 11)/(11*(¥1+ +¥11)),其中¥1(1 = 1,…,n)為屬性Ai(i = 1,…,n)對(duì)應(yīng)的動(dòng)態(tài)權(quán)值,所述的動(dòng)態(tài)權(quán)值Wi(i = 1,…,n)的計(jì)算方法為,對(duì)于普通的SMART屬性,Wi = 10*(l_Mi),對(duì)于重要的SMART屬性,Wi = 20*(1-Mi)。
9. 根據(jù)權(quán)利要求6所述的一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法,其特征在于,步驟(S8)中由監(jiān)控服務(wù)系統(tǒng)(12)通知報(bào)警系統(tǒng)(11)通知系統(tǒng)管理人員時(shí),至少由聲光報(bào)警、短信通知、電話外呼通知以及電子郵件通知中的一種方式來實(shí)現(xiàn)。
10. 根據(jù)權(quán)利要求6所述的一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng)的實(shí)現(xiàn)方法,其特征在于步驟(S6)中所述的非健康狀態(tài)是指磁盤陣列系統(tǒng)(14)處于較差或很差狀態(tài)。
全文摘要
本發(fā)明公開了一種遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng),其特征在于主要由通過計(jì)算機(jī)網(wǎng)絡(luò)相連接的磁盤陣列系統(tǒng)和監(jiān)控代理系統(tǒng)所構(gòu)成的邊緣層、通過計(jì)算機(jī)網(wǎng)絡(luò)相連接的監(jiān)控服務(wù)系統(tǒng)和報(bào)警系統(tǒng)所構(gòu)成的中心層組成,且所述的監(jiān)控代理系統(tǒng)還通過計(jì)算機(jī)網(wǎng)絡(luò)將采集到的磁盤陣列系統(tǒng)的運(yùn)行狀態(tài)信息傳遞給監(jiān)控服務(wù)系統(tǒng)。本發(fā)明還公開了一種實(shí)現(xiàn)該遠(yuǎn)程集中式磁盤陣列運(yùn)行監(jiān)控系統(tǒng)的方法。本發(fā)明通過建立集中的針對(duì)磁盤陣列系統(tǒng)的遠(yuǎn)程監(jiān)控系統(tǒng),能夠?qū)崟r(shí)在線的對(duì)來自不同應(yīng)用系統(tǒng)的磁盤陣列系統(tǒng)進(jìn)行統(tǒng)一的監(jiān)控和配置,從而有效的克服傳統(tǒng)監(jiān)控系統(tǒng)不能對(duì)來自不同應(yīng)用系統(tǒng)的多個(gè)磁盤陣列系統(tǒng)進(jìn)行遠(yuǎn)程集中監(jiān)控的系統(tǒng)的缺陷。
文檔編號(hào)H04L29/08GK101764846SQ20091026348
公開日2010年6月30日 申請(qǐng)日期2009年12月18日 優(yōu)先權(quán)日2009年12月18日
發(fā)明者戚建淮, 王明文, 王紅軍, 鄭偉范 申請(qǐng)人:西南交通大學(xué)