專利名稱:管理事故池以進(jìn)行事件和警報(bào)分析的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理,更具體地說(shuō),涉及在分布式處理系統(tǒng)中與事件和警報(bào)抑制有關(guān)的相關(guān)警報(bào)傳送以及管理事故池以進(jìn)行事件和警報(bào)分析的方法、系統(tǒng)和產(chǎn)品。
背景技術(shù):
1948年EDVAC計(jì)算機(jī)系統(tǒng)的開發(fā)通常被認(rèn)為是計(jì)算機(jī)時(shí)代的開始。從此之后,計(jì)算機(jī)系統(tǒng)逐漸演變?yōu)榉浅?fù)雜的設(shè)備。今天的計(jì)算機(jī)比諸如EDVAC之類的早期系統(tǒng)要復(fù)雜的多。計(jì)算機(jī)系統(tǒng)一般由硬件組件及軟件組件、應(yīng)用程序、操作系統(tǒng)、處理器、總線、存儲(chǔ)器、 輸入/輸出設(shè)備等組合而成。由于半導(dǎo)體工藝和計(jì)算機(jī)體系結(jié)構(gòu)的發(fā)展促使計(jì)算機(jī)的性能不斷提高,因此開發(fā)了更復(fù)雜的計(jì)算機(jī)軟件以充分利用更高的硬件系統(tǒng)性能,從而使得今天的計(jì)算機(jī)系統(tǒng)比僅僅幾年前的系統(tǒng)功能強(qiáng)大得多。執(zhí)行密集計(jì)算的現(xiàn)代分布式處理系統(tǒng)可具有數(shù)百萬(wàn)的設(shè)備,每個(gè)設(shè)備上有許多進(jìn)程在運(yùn)行,所有這些進(jìn)程都能報(bào)告錯(cuò)誤和狀態(tài)以自動(dòng)恢復(fù)錯(cuò)誤、向系統(tǒng)管理員報(bào)告以及執(zhí)行其他任務(wù)。在許多情況下,例如當(dāng)出現(xiàn)錯(cuò)誤時(shí),此類錯(cuò)誤報(bào)告和狀態(tài)報(bào)告的絕對(duì)數(shù)量如此之大,以致于無(wú)法通過(guò)有意義的方式來(lái)處理。例如,收到幾十萬(wàn)個(gè)錯(cuò)誤報(bào)告的系統(tǒng)管理員會(huì)被這么多的報(bào)告弄得不知所措,因此總地來(lái)說(shuō),這些報(bào)告變得越來(lái)越無(wú)用和無(wú)關(guān)。
發(fā)明內(nèi)容
提供了在分布式處理系統(tǒng)中管理事故池以進(jìn)行事件和警報(bào)分析的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品,包括由事故分析器從事故隊(duì)列接收來(lái)自所述分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事故;由所述事故分析器創(chuàng)建事故池,所述池具有預(yù)定初始時(shí)段;由所述事故分析器將每個(gè)接收的事故分配到所述池;由所述事故分析器向每個(gè)事故分配包含在池中的預(yù)定最短時(shí)間;對(duì)于所述事故中的一個(gè)或多個(gè)事故,由所述事故分析器將所述池的所述預(yù)定初始時(shí)段延長(zhǎng)被分配給所述事故的特定時(shí)段;由所述事故分析器判定是否滿足關(guān)閉所述池的條件;以及如果滿足關(guān)閉所述池的條件,則針對(duì)所述池中的每個(gè)事故判定該事故是否已在所述池中達(dá)到該事故的包含在池中的預(yù)定最短時(shí)間;以及如果該事故已在所述池中達(dá)到該事故的預(yù)定最短時(shí)間,則將該事故包括在關(guān)閉后的池中;以及如果該事故未在所述池中達(dá)到該事故的預(yù)定最短時(shí)間,則從關(guān)閉后的池驅(qū)逐該事故并將該事故包括在下一池中。通過(guò)下面對(duì)附圖中所示的本發(fā)明的示例性實(shí)施例的更具體的描述,本發(fā)明的上述和其他目標(biāo)、特征和優(yōu)點(diǎn)將是顯而易見的,在附圖中,相同的標(biāo)號(hào)通常表示本發(fā)明的示例性實(shí)施例的相同部分。
圖I示出根據(jù)本發(fā)明的實(shí)施例的在分布式處理系統(tǒng)中通過(guò)事件和警報(bào)抑制實(shí)現(xiàn)相關(guān)警報(bào)傳送的示例性系統(tǒng);
圖2示出包括在根據(jù)本發(fā)明的實(shí)施例通過(guò)事件和警報(bào)抑制實(shí)現(xiàn)相關(guān)警報(bào)傳送中使用的示例性計(jì)算機(jī)的自動(dòng)計(jì)算機(jī)器的方塊圖;圖3示出根據(jù)本發(fā)明的實(shí)施例的在分布式處理系統(tǒng)中通過(guò)事件和警報(bào)抑制實(shí)現(xiàn)相關(guān)警報(bào)傳送的示例性系統(tǒng)的方塊圖;圖4是示出根據(jù)本發(fā)明的實(shí)施例的將事件分配到事件池的示意圖;圖5是示出根據(jù)本發(fā)明的實(shí)施例的將警報(bào)分配到警報(bào)池的示意圖;圖6是示出根據(jù)本發(fā)明的實(shí)施例的通過(guò)事件和警報(bào)抑制實(shí)現(xiàn)相關(guān)警報(bào)傳送的實(shí)例方法的流程圖;圖7是示出根據(jù)本發(fā)明的實(shí)施例的在分布式處理系統(tǒng)中管理事故池以進(jìn)行事件和警報(bào)分析的示例性方法的流程圖;圖8是示出根據(jù)本發(fā)明的實(shí)施例的在分布式處理系統(tǒng)中管理事故池以進(jìn)行事件和警報(bào)分析的附加方法的流程圖;以及圖9是示出根據(jù)本發(fā)明的實(shí)施例的在分布式處理系統(tǒng)中管理事故池以進(jìn)行事件和警報(bào)分析的附加方法的流程圖。
具體實(shí)施例方式參考從圖I開始的附圖描述了根據(jù)本發(fā)明的實(shí)施例在分布式處理系統(tǒng)中管理事故池以進(jìn)行事件和警報(bào)分析以及相關(guān)警報(bào)傳送的示例性方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。圖 I示出根據(jù)本發(fā)明的實(shí)施例的在分布式處理系統(tǒng)中管理事故池以進(jìn)行事件和警報(bào)分析以及相關(guān)警報(bào)傳送的示例性系統(tǒng)。分布式處理系統(tǒng)通常實(shí)現(xiàn)為多個(gè)通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)通信的自主或半自主計(jì)算機(jī)。在此類實(shí)例分布式處理系統(tǒng)中,計(jì)算機(jī)經(jīng)常彼此交互以便實(shí)現(xiàn)共同的目標(biāo)。此類實(shí)例分布式系統(tǒng)中運(yùn)行的計(jì)算機(jī)程序一般被稱為分布式程序,經(jīng)常使用分布式編程來(lái)描述編寫此類程序的過(guò)程。在圖I的實(shí)例中,分布式處理系統(tǒng)(101)實(shí)現(xiàn)為并行計(jì)算機(jī)(100),所述計(jì)算機(jī)的非易失性存儲(chǔ)器采取數(shù)據(jù)存儲(chǔ)設(shè)備(118)的形式,所述計(jì)算機(jī)的輸出設(shè)備采取打印機(jī)
(120)的形式,以及所述計(jì)算機(jī)的輸入/輸出設(shè)備采取計(jì)算機(jī)終端(122)的形式。圖I的實(shí)例中的并行計(jì)算機(jī)(100)還包括多個(gè)計(jì)算節(jié)點(diǎn)(102)。每個(gè)計(jì)算節(jié)點(diǎn)是包括一個(gè)或多個(gè)計(jì)算機(jī)處理器、其自己的計(jì)算機(jī)存儲(chǔ)器以及其自己的輸入/輸出功能的自動(dòng)計(jì)算設(shè)備。各計(jì)算節(jié)點(diǎn)(102)被耦合以通過(guò)包括高速以太網(wǎng)絡(luò)(174)、聯(lián)合測(cè)試行動(dòng)小組(‘JTAG’ )網(wǎng)絡(luò)(104)、針對(duì)集合操作優(yōu)化的樹狀網(wǎng)絡(luò)(106)以及針對(duì)點(diǎn)對(duì)點(diǎn)操作優(yōu)化的環(huán)狀網(wǎng)絡(luò)(108) 的若干獨(dú)立數(shù)據(jù)通信網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)通信。樹狀網(wǎng)絡(luò)(106)是包括與計(jì)算節(jié)點(diǎn)相連以將所述計(jì)算節(jié)點(diǎn)組織為樹的數(shù)據(jù)通信鏈路的數(shù)據(jù)通信網(wǎng)絡(luò)。每個(gè)數(shù)據(jù)通信網(wǎng)絡(luò)都通過(guò)計(jì)算節(jié)點(diǎn)
(102)之間的數(shù)據(jù)通信鏈路來(lái)實(shí)現(xiàn)。數(shù)據(jù)通信鏈路為并行計(jì)算機(jī)的計(jì)算節(jié)點(diǎn)之間的并行操作提供數(shù)據(jù)通信。除了計(jì)算節(jié)點(diǎn)以外,計(jì)算機(jī)(100)還包括通過(guò)數(shù)據(jù)通信網(wǎng)絡(luò)(174)之一與計(jì)算節(jié)點(diǎn)(102)相連的輸入/輸出(‘I/O’)節(jié)點(diǎn)(110、114)。I/O節(jié)點(diǎn)(110、114)在計(jì)算節(jié)點(diǎn)(102)與I/O設(shè)備(118、120、122)之間提供I/O服務(wù)。I/O節(jié)點(diǎn)(110、114)被連接以通過(guò)局域網(wǎng)(‘LAN’)(130)進(jìn)行數(shù)據(jù)通信。計(jì)算機(jī)(100)還包括通過(guò)網(wǎng)絡(luò)(104)之一與計(jì)算節(jié)點(diǎn)耦合的服務(wù)節(jié)點(diǎn)(116)。服務(wù)節(jié)點(diǎn)(116)提供對(duì)多個(gè)計(jì)算節(jié)點(diǎn)通用的服務(wù)、將程序載入計(jì)算節(jié)點(diǎn)、在計(jì)算節(jié)點(diǎn)上啟動(dòng)程序執(zhí)行、在計(jì)算節(jié)點(diǎn)上檢索程序操作的結(jié)果等。服務(wù)節(jié)點(diǎn)(116)運(yùn)行服務(wù)應(yīng)用(124)并通過(guò)在計(jì)算機(jī)終端(122)上運(yùn)行的服務(wù)應(yīng)用接口(126)與用戶(128)通信。圖I的分布式處理系統(tǒng)的許多組件(即,圖I的分布式處理系統(tǒng)的設(shè)備或在分布式處理系統(tǒng)的設(shè)備上運(yùn)行的進(jìn)程)能夠通過(guò)事件執(zhí)行某種形式的錯(cuò)誤或狀態(tài)報(bào)告并且許多此類組件還能夠響應(yīng)于一個(gè)或多個(gè)此類事件而接收警報(bào)。通常在根據(jù)本發(fā)明的實(shí)施例使用的分布式處理系統(tǒng)中,數(shù)十萬(wàn)或數(shù)百萬(wàn)的組件通??梢砸允录男问教峁┦鹿驶蚪邮站瘓?bào)。本說(shuō)明書中使用的通用術(shù)語(yǔ)“事故”指分布式處理系統(tǒng)的某個(gè)組件的諸如下面描述的事件之類的特定事件的識(shí)別或通知,事件的精細(xì)識(shí)別經(jīng)?;谥T如下面描述的警報(bào)之類的事件,或者本領(lǐng)域的技術(shù)人員將想到的其他通知。根據(jù)本發(fā)明的各實(shí)施例,在池中管理事故以便進(jìn)行事件和警報(bào)分析。事故池是按事故發(fā)生的時(shí)間、事故被記錄在事故隊(duì)列中的時(shí)間、包括在池中的時(shí)間,或本領(lǐng)域的技術(shù)人員將想到的其他時(shí)間來(lái)組織的事故集合。圖I的服務(wù)節(jié)點(diǎn)(116)上安裝有事件和警報(bào)分析模塊(124),模塊(124)包括至少兩個(gè)事故分析器,所述事故分析器實(shí)現(xiàn)為能夠根據(jù)本發(fā)明的實(shí)施例在分布式處理系統(tǒng)中管理事故池以進(jìn)行事件和警報(bào)分析的事件分析器和警報(bào)分析器。事件和警報(bào)分析模塊(124) 實(shí)現(xiàn)為能夠執(zhí)行以下操作的自動(dòng)計(jì)算機(jī)器接收來(lái)自分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事故;創(chuàng)建事故池,所述池具有預(yù)定初始時(shí)段;將每個(gè)接收的事故分配到池;向每個(gè)事故分配包含在池中的預(yù)定最短時(shí)間;對(duì)于所述事故中的一個(gè)或多個(gè)事故,將所述池的所述預(yù)定初始時(shí)段延長(zhǎng)被分配給所述事故的特定時(shí)段;判定是否滿足關(guān)閉所述池的條件;以及如果滿足關(guān)閉所述池的條件,則針對(duì)所述池中的每個(gè)事故判定該事故是否已在所述池中達(dá)到該事故的包含在池中的預(yù)定最短時(shí)間;以及如果該事故已在所述池中達(dá)到該事故的預(yù)定最短時(shí)間,則將該事故包括在關(guān)閉后的池中;以及如果該事故未在所述池中達(dá)到該事故的預(yù)定最短時(shí)間,則從關(guān)閉后的池驅(qū)逐該事故并將該事故包括在下一池中。事件和警報(bào)分析模塊(124)還能夠根據(jù)本發(fā)明的實(shí)施例在分布式處理系統(tǒng)中通過(guò)事件和警報(bào)抑制實(shí)現(xiàn)相關(guān)警報(bào)傳送。圖I的事件和警報(bào)分析模塊(124)實(shí)現(xiàn)為能夠執(zhí)行以下操作的自動(dòng)計(jì)算機(jī)器在事件隊(duì)列中接收來(lái)自分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事件;由事件分析器將每個(gè)接收的事件分配到事件池;其中所述事件分析器包括事件分析規(guī)則,所述事件分析規(guī)則包括事件到達(dá)規(guī)則、事件池操作規(guī)則、事件抑制規(guī)則以及事件池關(guān)閉規(guī)則;由所述事件分析器根據(jù)所述事件到達(dá)規(guī)則和分配到所述事件池的事件識(shí)別一個(gè)或多個(gè)警報(bào);由所述事件分析器根據(jù)所述事件池操作規(guī)則關(guān)閉所述事件池;由所述事件分析器根據(jù)所述事件抑制規(guī)則判定是否抑制關(guān)閉后的事件池中的一個(gè)或多個(gè)事件;以及由所述事件分析器根據(jù)所述事件池關(guān)閉規(guī)則和分配到所述事件池的任何未抑制事件識(shí)別一個(gè)或多個(gè)其他警報(bào);由所述事件分析器將所述事件分析器所識(shí)別的所有警報(bào)發(fā)送給警報(bào)分析器;由所述警報(bào)分析器將所識(shí)別的警報(bào)分配到警報(bào)池;由所述警報(bào)分析器根據(jù)警報(bào)分析規(guī)則和所述警報(bào)池中的警報(bào)判定是否抑制任何警報(bào);以及將未抑制的警報(bào)傳輸?shù)剿龇植际教幚硐到y(tǒng)的一個(gè)或多個(gè)組件。在某些實(shí)施例中,將未抑制的警報(bào)傳輸?shù)椒植际教幚硐到y(tǒng)的一個(gè)或多個(gè)組件。一個(gè)此類組件可以是向系統(tǒng)管理員進(jìn)行顯示的終端(122)。其他組件可以包括生成事件的組件、用于錯(cuò)誤報(bào)告的組件、用于自動(dòng)錯(cuò)誤恢復(fù)的組件或本領(lǐng)域的技術(shù)人員將想到的任何其他組件。圖I的事件和警報(bào)模塊(124)使得諸如在任何時(shí)刻接收的事件和產(chǎn)生的警報(bào)之類的事故數(shù)不會(huì)給嘗試識(shí)別分布式處理系統(tǒng)中的問(wèn)題或事件的系統(tǒng)管理員(128)帶來(lái)太大困擾。根據(jù)本發(fā)明的實(shí)施例管理事故池以進(jìn)行事件和警報(bào)分析以及通過(guò)事件和警報(bào)抑制實(shí)現(xiàn)相關(guān)警報(bào)傳送提供了用戶在確定如何管理與分布式處理系統(tǒng)關(guān)聯(lián)的功能和錯(cuò)誤中更有意義的警報(bào)。圖I中所示的構(gòu)成示例性分布式處理系統(tǒng)的節(jié)點(diǎn)、網(wǎng)絡(luò)和I/O設(shè)備的布置僅用于說(shuō)明,并非對(duì)本發(fā)明進(jìn)行限制。能夠根據(jù)本發(fā)明的實(shí)施例管理事故池以進(jìn)行事件和警報(bào)分析以及實(shí)現(xiàn)相關(guān)警報(bào)傳送的分布式數(shù)據(jù)處理系統(tǒng)可以包括圖I中未示出的本領(lǐng)域技術(shù)人員將想到的其他節(jié)點(diǎn)、網(wǎng)絡(luò)、設(shè)備和體系結(jié)構(gòu)。圖I的實(shí)例中的并行計(jì)算機(jī)(100)包括十六個(gè)計(jì)算節(jié)點(diǎn)(102);能夠根據(jù)本發(fā)明的實(shí)施例實(shí)現(xiàn)相關(guān)警報(bào)傳送的并行計(jì)算機(jī)有時(shí)包括數(shù)以千計(jì)的計(jì)算節(jié)點(diǎn)。除了以太網(wǎng)和JTAG之外,此類數(shù)據(jù)處理系統(tǒng)中的網(wǎng)絡(luò)還可支持許多數(shù)據(jù)通信協(xié)議,包括例如TCP(傳輸控制協(xié)議)、IP(網(wǎng)際協(xié)議)以及本領(lǐng)域的技術(shù)人員將想到的其他協(xié)議。除圖I中示出的那些平臺(tái)以外,本發(fā)明的各種實(shí)施例還可以在多種硬件平臺(tái)上實(shí)現(xiàn)。根據(jù)本發(fā)明管理事故池以進(jìn)行事件和警報(bào)分析以及通過(guò)事件和警報(bào)抑制實(shí)現(xiàn)相關(guān)警報(bào)傳送一般使用計(jì)算機(jī)實(shí)現(xiàn),也就是說(shuō),使用自動(dòng)計(jì)算機(jī)器實(shí)現(xiàn)。在圖I的系統(tǒng)中,例如,并行計(jì)算機(jī)的所有服務(wù)節(jié)點(diǎn)、I/o節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)在某種程度上至少實(shí)現(xiàn)為計(jì)算機(jī)。因此,為了進(jìn)一步說(shuō)明,圖2示出包括在根據(jù)本發(fā)明的實(shí)施例實(shí)現(xiàn)相關(guān)警報(bào)傳送中使用的示例性計(jì)算機(jī)(152)的自動(dòng)計(jì)算機(jī)器的方塊圖。圖2的計(jì)算機(jī)(152)包括至少一個(gè)計(jì)算機(jī)處理器(156)或‘CPU’以及隨機(jī)存取存儲(chǔ)器(168) ( ‘RAM’),隨機(jī)存取存儲(chǔ)器(168)通過(guò)高速存儲(chǔ)總線(166)和總線適配器(158)與處理器(156)和計(jì)算機(jī)(152)的其他組件相連, 以及通過(guò)擴(kuò)展總線與適配器相連以便與分布式處理系統(tǒng)(101)的其他組件通信。RAM(168)中存儲(chǔ)有事件和警報(bào)分析模塊(124),模塊(124)是根據(jù)本發(fā)明的實(shí)施例實(shí)現(xiàn)相關(guān)警報(bào)傳送的自動(dòng)計(jì)算機(jī)器的模塊。事件和警報(bào)分析模塊(124)包括兩個(gè)根據(jù)本發(fā)明的實(shí)施例的事故分析器。所述事故分析器包括事件分析器(208)和警報(bào)分析器(218)。 事件分析器(208)和警報(bào)分析器均能夠根據(jù)本發(fā)明的實(shí)施例在分布式處理系統(tǒng)中管理事故池以進(jìn)行事件和警報(bào)分析。所述事件分析器根據(jù)本發(fā)明的實(shí)施例管理事件池,其方式為由所述事件分析器從事件隊(duì)列接收來(lái)自所述分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事件;由所述事件分析器創(chuàng)建事件池,所述池具有預(yù)定初始時(shí)段;由所述事件分析器將每個(gè)接收的事件分配到所述池;由所述事件分析器向每個(gè)事件分配包含在池中的預(yù)定最短時(shí)間;對(duì)于所述事件中的一個(gè)或多個(gè)事件,由所述事件分析器將所述池的所述預(yù)定初始時(shí)段延長(zhǎng)被分配給所述事件的特定時(shí)段;由所述事件分析器判定是否滿足關(guān)閉所述池的條件; 以及如果滿足關(guān)閉所述池的條件,則針對(duì)所述池中的每個(gè)事件判定該事件是否已在所述池中達(dá)到該事件的包含在池中的預(yù)定最短時(shí)間;以及如果該事件已在所述池中達(dá)到該事件的預(yù)定最短時(shí)間,則將該事件包括在關(guān)閉后的池中;以及如果該事件未在所述池中達(dá)到該事件的預(yù)定最短時(shí)間,則從所述關(guān)閉后的池驅(qū)逐該事件并將該事件包括在下一池中。所述警報(bào)分析器根據(jù)本發(fā)明的實(shí)施例管理警報(bào)池,其方式為由警報(bào)分析器從警報(bào)隊(duì)列接收來(lái)自分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)警報(bào);由所述警報(bào)分析器創(chuàng)建警報(bào)池,所述池具有預(yù)定初始時(shí)段;由所述警報(bào)分析器將每個(gè)接收的警報(bào)分配到所述池;由所述警報(bào)分析器向每個(gè)警報(bào)分配包含在池中的預(yù)定最短時(shí)間;對(duì)于所述警報(bào)中的一個(gè)或多個(gè)警報(bào),由所述警報(bào)分析器將所述池的所述預(yù)定初始時(shí)段延長(zhǎng)被分配給所述警報(bào)的特定時(shí)段;由所述警報(bào)分析器判定是否滿足關(guān)閉所述池的條件;以及如果滿足關(guān)閉所述池的條件,則針對(duì)所述池中的每個(gè)警報(bào)判定該警報(bào)是否已在所述池中達(dá)到該警報(bào)的包含在池中的預(yù)定最短時(shí)間;以及如果該警報(bào)已在所述池中達(dá)到該警報(bào)的預(yù)定最短時(shí)間,則將該警報(bào)包括在關(guān)閉后的池中;以及如果該警報(bào)未在所述池中達(dá)到該警報(bào)的預(yù)定最短時(shí)間,則從關(guān)閉后的池驅(qū)逐該警報(bào)并將該警報(bào)包括在下一池中。圖2的事件分析器是能夠根據(jù)接收的事件識(shí)別警報(bào)的自動(dòng)計(jì)算機(jī)器的模塊。也就是說(shuō),事件分析器通常接收事件并產(chǎn)生警報(bào)。在許多實(shí)施例中,并行實(shí)現(xiàn)多個(gè)事件分析器。 通常將此類事件分析器分配給特定的事件池并且此類事件分析器可關(guān)注來(lái)自特定組件或由特定事件導(dǎo)致的事件以產(chǎn)生更簡(jiǎn)潔的警報(bào)集。圖2的警報(bào)分析器是能夠識(shí)別從事件和其他警報(bào)傳輸?shù)木瘓?bào)、能夠識(shí)別要傳輸?shù)钠渌瘓?bào),以及能夠抑制事件分析器所識(shí)別的不必要的、無(wú)關(guān)的或不需要的警報(bào)的自動(dòng)計(jì)算機(jī)器的模塊。也就是說(shuō),警報(bào)分析器一般接收警報(bào)和事件并根據(jù)這些警報(bào)和事件產(chǎn)生或轉(zhuǎn)發(fā)警報(bào)。在許多實(shí)施例中,并行實(shí)現(xiàn)多個(gè)警報(bào)分析器。通常將此類警報(bào)分析器分配給特定的警報(bào)池并且此類警報(bào)分析器可關(guān)注具有特定屬性的警報(bào)以產(chǎn)生更簡(jiǎn)潔的警報(bào)集。圖2的事件和警報(bào)分析模塊(124)包括執(zhí)行以下操作的計(jì)算機(jī)程序指令在事件隊(duì)列中接收來(lái)自分布式處理系統(tǒng)(101)的一個(gè)或多個(gè)組件(例如,100、182、181、180和 170)的多個(gè)事件;由事件分析器(208)將每個(gè)接收的事件分配到事件池;由事件分析器 (208)根據(jù)事件到達(dá)規(guī)則和分配到所述事件池的事件識(shí)別一個(gè)或多個(gè)警報(bào);由事件分析器 (208)根據(jù)事件池操作規(guī)則關(guān)閉所述事件池;由事件分析器(208)根據(jù)事件抑制規(guī)則判定是否抑制關(guān)閉后的事件池中的一個(gè)或多個(gè)事件;由事件分析器(208)根據(jù)事件池關(guān)閉規(guī)則和分配到所述事件池的任何未抑制事件識(shí)別一個(gè)或多個(gè)其他警報(bào);由事件分析器(208)將事件分析器所識(shí)別的所有警報(bào)發(fā)送給警報(bào)分析器(218);由警報(bào)分析器(218)將所識(shí)別的警報(bào)分配到警報(bào)池;由警報(bào)分析器(218)根據(jù)警報(bào)分析規(guī)則和警報(bào)池中的警報(bào)判定是否抑制任何警報(bào);以及將未抑制的警報(bào)傳輸(420)到分布式處理系統(tǒng)的一個(gè)或多個(gè)組件。RAM(168)中還存儲(chǔ)有操作系統(tǒng)(154)。用于根據(jù)本發(fā)明的實(shí)施例實(shí)現(xiàn)相關(guān)警報(bào)傳送的操作系統(tǒng)包括UNIX 、LinuxTM、Microsoft XP 、AIX 、IBM的i5/0S 以及本領(lǐng)域的技術(shù)人員將想到的其他操作系統(tǒng)。圖2的實(shí)例中的操作系統(tǒng)(154)、事件和警報(bào)分析模塊(124)、 事件分析器(208)、警報(bào)分析器(218)被示為位于RAM(168)中,但是此類軟件的許多組件一般也存儲(chǔ)在非易失性存儲(chǔ)器中,例如,存儲(chǔ)在盤驅(qū)動(dòng)器(170)上。圖2的計(jì)算機(jī)(152)包括通過(guò)擴(kuò)展總線(160)和總線適配器(158)與處理器(156) 以及計(jì)算機(jī)(152)的其他組件相連的盤驅(qū)動(dòng)器適配器(172)。盤驅(qū)動(dòng)器適配器(172)以盤驅(qū)動(dòng)器(170)的形式將非易失性數(shù)據(jù)存儲(chǔ)裝置連接到計(jì)算機(jī)(152)。在計(jì)算機(jī)中用于根據(jù)本發(fā)明的實(shí)施例實(shí)現(xiàn)相關(guān)警報(bào)傳送的盤驅(qū)動(dòng)器適配器包括集成驅(qū)動(dòng)電子設(shè)備(‘IDE’ )適配器、小型計(jì)算機(jī)系統(tǒng)接口( ‘SCSI’)適配器以及本領(lǐng)域的技術(shù)人員將想到的其他適配器。 非易失性計(jì)算機(jī)存儲(chǔ)器還可以實(shí)現(xiàn)為本領(lǐng)域的技術(shù)人員將想到的光盤驅(qū)動(dòng)器、電可擦寫可編程只讀存儲(chǔ)器(所謂的“EEPR0M”或閃存)、RAM驅(qū)動(dòng)器等。圖2的實(shí)例計(jì)算機(jī)(152)包括一個(gè)或多個(gè)輸入/輸出(‘I/O’)適配器(178)。I/ O適配器通過(guò)例如控制到諸如計(jì)算機(jī)顯示屏之類的顯示設(shè)備的輸出以及控制來(lái)自諸如鍵盤和鼠標(biāo)之類的輸入設(shè)備(181)的用戶輸入的軟件驅(qū)動(dòng)器和計(jì)算機(jī)硬件來(lái)實(shí)現(xiàn)面向用戶的輸入/輸出。圖2的實(shí)例計(jì)算機(jī)(152)包括視頻適配器(209),適配器(209)是專門設(shè)計(jì)為將圖形輸出到諸如顯示屏或計(jì)算機(jī)監(jiān)視器之類的顯示設(shè)備(180)的I/O適配器的實(shí)例。視頻適配器(209)通過(guò)高速視頻總線(164)、總線適配器(158)以及前端總線(162)(也稱為高速總線)與處理器(156)相連。圖2的示例性計(jì)算機(jī)(152)包括用于與其他計(jì)算機(jī)(182)進(jìn)行數(shù)據(jù)通信以及用于與數(shù)據(jù)通信網(wǎng)絡(luò)(100)進(jìn)行數(shù)據(jù)通信的通信適配器(167)。此類數(shù)據(jù)通信可以通過(guò)RS-232 連接、通過(guò)諸如通用串行總線(‘USB’ )之類的外部總線串行地執(zhí)行、通過(guò)諸如IP數(shù)據(jù)通信網(wǎng)絡(luò)之類的數(shù)據(jù)通信網(wǎng)絡(luò)以及本領(lǐng)域的技術(shù)人員將想到的其他方式執(zhí)行。通信適配器實(shí)現(xiàn)硬件級(jí)數(shù)據(jù)通信,通過(guò)此硬件級(jí)數(shù)據(jù)通信,一臺(tái)計(jì)算機(jī)可以直接地或通過(guò)數(shù)據(jù)通信網(wǎng)絡(luò)將數(shù)據(jù)通信發(fā)送給另一計(jì)算機(jī)。用于根據(jù)本發(fā)明的實(shí)施例實(shí)現(xiàn)相關(guān)警報(bào)傳送的通信適配器實(shí)例包括用于有線撥號(hào)通信的調(diào)制解調(diào)器、用于有線數(shù)據(jù)通信網(wǎng)絡(luò)通信的以太網(wǎng)(IEEE 802. 3)適配器,以及用于無(wú)線數(shù)據(jù)通信網(wǎng)絡(luò)通信的802. 11適配器。為了進(jìn)一步說(shuō)明,圖3示出根據(jù)本發(fā)明的實(shí)施例在分布式處理系統(tǒng)(102)中管理事故池以進(jìn)行事件和警報(bào)分析以及實(shí)現(xiàn)相關(guān)警報(bào)傳送的示例性系統(tǒng)的方塊圖。圖4的方法包括在事件隊(duì)列(206)中接收來(lái)自分布式處理系統(tǒng)(102)的一個(gè)或多個(gè)組件的多個(gè)事件 (202)。根據(jù)本發(fā)明的實(shí)施例的分布式處理系統(tǒng)的組件可以是分布式處理系統(tǒng)的設(shè)備或在分布式處理系統(tǒng)的設(shè)備上運(yùn)行的進(jìn)程。此類組件通常能夠進(jìn)行某種形式的事件傳輸,以便執(zhí)行錯(cuò)誤或狀態(tài)報(bào)告。根據(jù)本發(fā)明的實(shí)施例的事件是分布式處理系統(tǒng)的組件上或組件中的特定事件的通知。根據(jù)本發(fā)明,將此類事件從發(fā)生該事件的組件或另一報(bào)告組件發(fā)送到事件和警報(bào)分析模塊。事件通常是數(shù)據(jù)處理系統(tǒng)的組件中發(fā)生的錯(cuò)誤的通知。事件經(jīng)常實(shí)現(xiàn)為通過(guò)數(shù)據(jù)通信網(wǎng)絡(luò)或共享存儲(chǔ)器發(fā)送的消息。根據(jù)本發(fā)明的實(shí)施例的用于事件和警報(bào)分析的典型事件具有發(fā)生時(shí)間、記錄時(shí)間、事件類型、事件ID、報(bào)告組件、源組件以及其他屬性。發(fā)生時(shí)間是組件上發(fā)生事件的時(shí)間。記錄時(shí)間是將事件包括在事件隊(duì)列(206)中的時(shí)間,通常由圖3的實(shí)例中的監(jiān)視器(204)插入事件內(nèi)。事件類型是事件的通用類型,例如電源錯(cuò)誤、鏈路故障錯(cuò)誤、與未收到消息或丟棄分組相關(guān)的錯(cuò)誤以及本領(lǐng)域的技術(shù)人員將想到的其他錯(cuò)誤。事件ID是事件的唯一標(biāo)識(shí)。報(bào)告組件是報(bào)告該事件的組件的標(biāo)識(shí)。源組件是發(fā)生事件的組件的標(biāo)識(shí)。在許多情況下(但不是全部),報(bào)告組件和源組件是分布式處理系統(tǒng)的同一組件。在圖3的實(shí)例中,事件和警報(bào)分析模塊(124)包括接收來(lái)自分布式處理系統(tǒng)的組件的事件以及將接收的事件(202)放入事件隊(duì)列(206)的監(jiān)視器(204)。圖3的監(jiān)視器 (204)可以在事件運(yùn)動(dòng)中接收來(lái)自分布式處理系統(tǒng)的組件的事件、可以定期輪詢分布式處理系統(tǒng)的一個(gè)或多個(gè)組件,或者以本領(lǐng)域的技術(shù)人員將想到的其他方式接收來(lái)自組件的事件。圖3的系統(tǒng)包括事件分析器(208)。圖3的事件分析器(208)是能夠根據(jù)接收的
10事件識(shí)別警報(bào)的自動(dòng)計(jì)算機(jī)器的模塊。也就是說(shuō),事件分析器通常接收事件并產(chǎn)生警報(bào)。在許多實(shí)施例中,并行實(shí)現(xiàn)多個(gè)事件分析器。通常將事件分析器分配給特定的事件池并且此類事件分析器可關(guān)注來(lái)自特定組件或由特定事件導(dǎo)致的事件以產(chǎn)生更簡(jiǎn)潔的警報(bào)集。圖3的事件分析器(208)將每個(gè)接收的事件(202)分配到事件池(212)。事件池 (212)是按事件發(fā)生的時(shí)間、事件被記錄在事件隊(duì)列中的時(shí)間、包括在事件池中的時(shí)間或本領(lǐng)域的技術(shù)人員將想到的其他時(shí)間來(lái)組織的事件集合。也就是說(shuō),事件池是按時(shí)間組織的事件集合。此類事件池經(jīng)常提供分析一組與時(shí)間相關(guān)的事件以及根據(jù)所述事件識(shí)別警報(bào)的能力。此類事件池經(jīng)常用于根據(jù)多個(gè)相關(guān)的事件識(shí)別更少和更多的相關(guān)警報(bào)。根據(jù)本發(fā)明的各實(shí)施例,事件池(212)由事件分析器(208)來(lái)管理。事件分析器根據(jù)本發(fā)明的實(shí)施例管理事件池,其方式為由事件分析器從事件隊(duì)列接收來(lái)自分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事件;由事件分析器創(chuàng)建事件池,所述池具有預(yù)定初始時(shí)段; 由事件分析器將每個(gè)接收的事件分配到所述池;由事件分析器向每個(gè)事件分配包含在池中的預(yù)定最短時(shí)間;對(duì)于所述事件中的一個(gè)或多個(gè)事件,由事件分析器將所述池的所述預(yù)定初始時(shí)段延長(zhǎng)被分配給所述事件的特定時(shí)段;由事件分析器判定是否滿足關(guān)閉所述池的條件;以及如果滿足關(guān)閉所述池的條件,則針對(duì)所述池中的每個(gè)事件判定該事件是否已在所述池中達(dá)到該事件的包含在池中的預(yù)定最短時(shí)間;以及如果該事件已在所述池中達(dá)到該事件的預(yù)定最短時(shí)間,則將該事件包括在關(guān)閉后的池中;以及如果該事件未在所述池中達(dá)到該事件的預(yù)定最短時(shí)間,則從關(guān)閉后的池驅(qū)逐該事件并將該事件包括在下一池中。如上所述,根據(jù)圖3的方法的事件池具有預(yù)定初始時(shí)段,并且在圖3的實(shí)例中,由事件分析器將每個(gè)接收的事件分配到事件池包括對(duì)于分配到事件池的每個(gè)事件,將所述預(yù)定初始時(shí)段延長(zhǎng)分配給該事件的特定時(shí)段。通過(guò)這種方式,使用每個(gè)接收的事件延長(zhǎng)池, 直到將可用于識(shí)別警報(bào)的事件集合分配到事件池。如上所述,在本發(fā)明的某些實(shí)施例中,多個(gè)事件分析器可以并行工作。這樣,每個(gè)事件分析器可以維護(hù)一個(gè)或多個(gè)事件池以根據(jù)本發(fā)明的實(shí)施例實(shí)現(xiàn)相關(guān)警報(bào)傳送。因此, 由事件分析器將事件分配到事件池可包括僅選擇來(lái)自一個(gè)或多個(gè)特定組件的事件。在此類實(shí)施例中,可針對(duì)特定事件池選擇特定組件以提供來(lái)自一個(gè)或多個(gè)組件的特定集合的與特定時(shí)段關(guān)聯(lián)的事件。由事件分析器將事件分配到事件池還可以通過(guò)僅選擇具有特定事件類型的事件來(lái)實(shí)現(xiàn)。在此類實(shí)施例中,可以針對(duì)特定事件池選擇特定事件以提供來(lái)自特定事件類型集合的與特定時(shí)段關(guān)聯(lián)的事件。圖3的實(shí)例中的事件分析器(208)根據(jù)事件分析規(guī)則(210)和分配到事件池的事件識(shí)別一個(gè)或多個(gè)警報(bào)(214)。事件分析規(guī)則(210)是用于有目的地分析接收的事件以根據(jù)所述事件識(shí)別相關(guān)警報(bào)的預(yù)定規(guī)則集合。圖3的事件分析規(guī)則(210)包括事件到達(dá)規(guī)則(230)、事件池操作規(guī)則(232)、事件抑制規(guī)則(234)以及事件池關(guān)閉規(guī)則(236)。事件到達(dá)規(guī)則(230)是用于在事件被分配到事件池時(shí)根據(jù)所述事件實(shí)時(shí)識(shí)別警報(bào)的可配置預(yù)定規(guī)則。也就是說(shuō),事件到達(dá)規(guī)則(230) 在關(guān)閉事件池之前根據(jù)事件識(shí)別警報(bào)。此類規(guī)則通常被預(yù)先確定以根據(jù)這些事件的屬性識(shí)別特定警報(bào)。事件到達(dá)規(guī)則可以例如規(guī)定根據(jù)事件的特定事件類型或組件類型或該事件的其他屬性識(shí)別要傳輸給系統(tǒng)管理員的特定預(yù)定警報(bào)。此類規(guī)則是靈活的并可以適合特定分布式計(jì)算系統(tǒng)及其功能的需要。根據(jù)本發(fā)明的各實(shí)施例的警報(bào)是根據(jù)一個(gè)以上的事件對(duì)事件發(fā)生(例如錯(cuò)誤)的精細(xì)識(shí)別并因此在分布式處理系統(tǒng)內(nèi)在事件工作的上下文中提供了事件發(fā)生的識(shí)別。通常,警報(bào)是根據(jù)從數(shù)據(jù)處理系統(tǒng)的一個(gè)或多個(gè)組件接收的多個(gè)事件識(shí)別的特定錯(cuò)誤類型事件的通知,所述事件例如是多個(gè)設(shè)備之間的鏈路故障(每個(gè)設(shè)備都基于單個(gè)鏈路故障而產(chǎn)生許多事件)或引起數(shù)以千計(jì)的事件的電源故障等。警報(bào)經(jīng)常實(shí)現(xiàn)為要通過(guò)數(shù)據(jù)通信網(wǎng)絡(luò)或共享存儲(chǔ)器發(fā)送的消息。根據(jù)本發(fā)明的各實(shí)施例的典型警報(bào)具有附加到所述警報(bào)的屬性,基于從標(biāo)識(shí)警報(bào)的事件所接收的事件屬性將屬性附加到警報(bào)。事件池操作規(guī)則(232)是用于控制事件池的操作的可配置預(yù)定規(guī)則。此類規(guī)則包括識(shí)別每個(gè)事件池的初始預(yù)定時(shí)段的規(guī)則、規(guī)定在將每個(gè)新事件分配到池時(shí)為池延長(zhǎng)的時(shí)長(zhǎng)的規(guī)則、規(guī)定在關(guān)閉池時(shí)將事件包括在事件集合中之前事件必須在池中的最短時(shí)間的規(guī)則、管理事件池的關(guān)閉的規(guī)則,以及本領(lǐng)域的技術(shù)人員將想到的其他規(guī)則。此類規(guī)則是靈活的并可以適合特定分布式計(jì)算系統(tǒng)及其功能的需要。事件抑制規(guī)則(234)是用于抑制在識(shí)別警報(bào)時(shí)使用的關(guān)閉后的事件池中的一個(gè)或多個(gè)事件的可配置預(yù)定規(guī)則。也就是說(shuō),關(guān)閉后的事件池中的事件經(jīng)常是識(shí)別警報(bào)時(shí)的重復(fù)事件、冗余事件或不必要的或無(wú)用的事件。此類抑制規(guī)則通常被預(yù)先確定以刪除、丟棄或以其他方式忽略那些被抑制的事件。事件抑制規(guī)則可以例如規(guī)定要抑制多于閾值數(shù)量的特定事件類型或組件類型的事件。此類規(guī)則也是靈活的并可以適合特定分布式計(jì)算系統(tǒng)及其功能的需要。事件池關(guān)閉規(guī)則(236)是用于根據(jù)關(guān)閉后的事件池中的未抑制事件和由事件到達(dá)規(guī)則識(shí)別的警報(bào)來(lái)識(shí)別警報(bào)的可配置預(yù)定規(guī)則。也就是說(shuō),事件池關(guān)閉規(guī)則根據(jù)關(guān)閉后的事件池中的一個(gè)或多個(gè)或甚至所有未抑制事件來(lái)識(shí)別新的警報(bào)。事件池關(guān)閉規(guī)則還根據(jù)事件到達(dá)規(guī)則(230)所識(shí)別的警報(bào)或事件到達(dá)規(guī)則(230)所識(shí)別的警報(bào)和關(guān)閉后的事件池中的一個(gè)或多個(gè)未抑制事件的組合來(lái)識(shí)別警報(bào)。圖3的實(shí)例中的事件分析器(208)將事件分析器(208)所識(shí)別的所有警報(bào)(214) 發(fā)送給警報(bào)分析器(218)。圖3的警報(bào)分析器是能夠從事件和其他警報(bào)識(shí)別要傳輸?shù)木瘓?bào)、 能夠識(shí)別要傳輸?shù)母郊泳瘓?bào),以及能夠抑制事件分析器所識(shí)別的不必要的、無(wú)關(guān)的或不需要或無(wú)用的警報(bào)的自動(dòng)計(jì)算機(jī)器的模塊。也就是說(shuō),警報(bào)分析器通常接收警報(bào)和事件并根據(jù)這些警報(bào)和事件產(chǎn)生或轉(zhuǎn)發(fā)警報(bào)。在許多實(shí)施例中,并行實(shí)現(xiàn)多個(gè)警報(bào)分析器。將圖3的實(shí)例中的警報(bào)(216)通過(guò)警報(bào)隊(duì)列(216)從事件分析器(208)發(fā)送到警報(bào)分析器(218)。圖3的警報(bào)分析器(218)將每個(gè)所識(shí)別的警報(bào)(214)分配到警報(bào)池(224)。警報(bào)池(224)是按導(dǎo)致識(shí)別警報(bào)的一個(gè)或多個(gè)事件的時(shí)間、識(shí)別警報(bào)的時(shí)間或本領(lǐng)域的技術(shù)人員將想到的其他時(shí)間組織的警報(bào)集合。也就是說(shuō),警報(bào)池是按時(shí)間組織的警報(bào)的集合。此類警報(bào)池經(jīng)常提供根據(jù)某個(gè)時(shí)間分析被識(shí)別和包括在警報(bào)池中的一組警報(bào)的能力。此類事件池經(jīng)常用于根據(jù)多個(gè)相關(guān)的事件和多個(gè)相關(guān)的警報(bào)識(shí)別更少和更多的相關(guān)警報(bào)。警報(bào)分析器根據(jù)本發(fā)明的實(shí)施例管理警報(bào)池,其方式為由警報(bào)分析器從警報(bào)隊(duì)列接收來(lái)自分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)警報(bào);由所述警報(bào)分析器創(chuàng)建警報(bào)池,所述池具有預(yù)定初始時(shí)段;由所述警報(bào)分析器將每個(gè)接收的警報(bào)分配到所述池;由所述警報(bào)分析器向每個(gè)警報(bào)分配包含在池中的預(yù)定最短時(shí)間;對(duì)于所述警報(bào)中的一個(gè)或多個(gè)警報(bào),由所述警報(bào)分析器將所述池的所述預(yù)定初始時(shí)段延長(zhǎng)被分配給所述警報(bào)的特定時(shí)段;由所述警報(bào)分析器判定是否滿足關(guān)閉所述池的條件;以及如果滿足關(guān)閉所述池的條件,則針對(duì)所述池中的每個(gè)警報(bào)判定該警報(bào)是否已在所述池中達(dá)到該警報(bào)的包含在池中的預(yù)定最短時(shí)間;以及如果該警報(bào)已在所述池中達(dá)到該警報(bào)的預(yù)定最短時(shí)間,則將該警報(bào)包括在關(guān)閉后的池中;以及如果該警報(bào)未在所述池中達(dá)到該警報(bào)的預(yù)定最短時(shí)間,則從關(guān)閉后的池驅(qū)逐該警報(bào)并將該警報(bào)包括在下一池中。警報(bào)分析器可以根據(jù)警報(bào)的屬性或從中識(shí)別這些警報(bào)的事件的屬性將識(shí)別的警報(bào)分配到警報(bào)池(224)。例如,圖3的警報(bào)分析器可以通過(guò)選擇從來(lái)自一個(gè)或多個(gè)特定組件的事件生成的警報(bào)、與特定警報(bào)類型關(guān)聯(lián)的警報(bào)以及本領(lǐng)域的技術(shù)人員將想到的其他警報(bào)來(lái)將警報(bào)分配到警報(bào)池(224)。圖3的警報(bào)分析器(218)根據(jù)警報(bào)分析規(guī)則(222)和警報(bào)池中的警報(bào)判定是否抑制任何警報(bào)。通常通過(guò)丟棄警報(bào)、刪除警報(bào)或以其他方式忽略警報(bào)或不將抑制的警報(bào)傳輸?shù)椒植际教幚硐到y(tǒng)的組件來(lái)實(shí)現(xiàn)抑制警報(bào)。警報(bào)分析規(guī)則(222)是用于抑制一個(gè)或多個(gè)警報(bào)以提供更相關(guān)的警報(bào)集以便傳輸?shù)椒植际教幚硐到y(tǒng)的組件(例如,以便顯示給系統(tǒng)管理員)以及識(shí)別附加警報(bào)以便傳輸?shù)椒植际教幚硐到y(tǒng)的一個(gè)或多個(gè)組件的規(guī)則的集合。例如,警報(bào)分析規(guī)則可以規(guī)定抑制重復(fù)警報(bào)、抑制傳輸?shù)教囟ńM件的特定類型的警報(bào)以及抑制本領(lǐng)域的技術(shù)人員將想到的其他警報(bào)。此類警報(bào)對(duì)于進(jìn)行自動(dòng)錯(cuò)誤恢復(fù)的分布式處理系統(tǒng)的組件或?qū)τ诓荒芡ㄟ^(guò)大量原始的未分析警報(bào)以其他方式了解更多信息的系統(tǒng)管理員而言更有用。圖3的警報(bào)分析器(218)還可訪問(wèn)事件隊(duì)列(206)。在某些實(shí)施例中,圖3的依賴于警報(bào)分析規(guī)則的警報(bào)分析器(218)可以選擇事件隊(duì)列中的事件并根據(jù)所選事件判定是否抑制任何警報(bào)。也就是說(shuō),警報(bào)分析規(guī)則還考慮了事件及其屬性以便抑制警報(bào)和識(shí)別要傳輸?shù)揭粋€(gè)或多個(gè)組件的附加警報(bào)。此類事件可能與警報(bào)池中的警報(bào)相關(guān),也可能與此類警報(bào)無(wú)關(guān)。圖3的警報(bào)分析器(218)將未抑制的警報(bào)傳輸?shù)椒植际教幚硐到y(tǒng)的一個(gè)或多個(gè)組件。警報(bào)分析器可以通過(guò)數(shù)據(jù)通信網(wǎng)絡(luò)、通過(guò)共享存儲(chǔ)器或以本領(lǐng)域的技術(shù)人員將想到的其他方式作為消息發(fā)送警報(bào)來(lái)將未抑制的警報(bào)傳輸?shù)椒植际教幚硐到y(tǒng)的一個(gè)或多個(gè)組件。 在圖3的實(shí)例中,未抑制的警報(bào)(220)被傳輸?shù)浇K端(122)以顯示給系統(tǒng)管理員(128)。圖3的警報(bào)分析器(218)還能夠根據(jù)警報(bào)分析規(guī)則(222)、警報(bào)池(224)中的警報(bào)以及選定事件(206)識(shí)別一個(gè)或多個(gè)附加警報(bào)并將所述警報(bào)傳輸?shù)椒植际教幚硐到y(tǒng)的一個(gè)或多個(gè)組件。附加警報(bào)可包括未由事件分析器識(shí)別的一個(gè)或多個(gè)警報(bào)。此類附加警報(bào)可為系統(tǒng)管理員將附加信息提供給分布式處理系統(tǒng)的組件。如上所述,根據(jù)本發(fā)明的相關(guān)警報(bào)傳送包括將事件分配到事件池以及根據(jù)本發(fā)明的實(shí)施例管理這些池。為了進(jìn)一步說(shuō)明,圖4是示出根據(jù)本發(fā)明的實(shí)施例將事件分配到事件池的示意圖。事件池(212)是按事件發(fā)生的時(shí)間、事件被記錄在事件隊(duì)列中的時(shí)間、包括在事件池中的時(shí)間,或本領(lǐng)域的技術(shù)人員將想到的其他時(shí)間組織的事件集合。也就是說(shuō),事件池是按時(shí)間組織的事件的集合。此類事件池經(jīng)常提供分析一組時(shí)間相關(guān)的事件以及根據(jù)這些事件識(shí)別警報(bào)的能力。此類事件池經(jīng)常用于根據(jù)多個(gè)相關(guān)的事件識(shí)別更少和更多的相關(guān)警報(bào)。根據(jù)本發(fā)明的實(shí)施例的事件池通常根據(jù)本身經(jīng)常包括在事件分析規(guī)則中的事件池操作規(guī)則來(lái)執(zhí)行操作。此類事件池操作規(guī)則是用于控制事件池操作的可配置預(yù)定規(guī)則。 此類規(guī)則包括識(shí)別每個(gè)事件池的初始預(yù)定時(shí)段的規(guī)則、規(guī)定在將每個(gè)新事件分配到池時(shí)為池延長(zhǎng)的時(shí)長(zhǎng)的規(guī)則、規(guī)定在關(guān)閉池時(shí)將事件包括在事件集合中之前事件必須在池中的最短時(shí)間的規(guī)則、管理事件池的關(guān)閉的規(guī)則,以及本領(lǐng)域的技術(shù)人員將想到的其他規(guī)則。此類規(guī)則是靈活的并可以適合特定分布式計(jì)算系統(tǒng)及其功能的需要。經(jīng)常根據(jù)事件被記錄的時(shí)間將事件分配到事件池。也就是說(shuō),通常按照在事件隊(duì)列中接收事件的順序?qū)⑹录迦胧录?。在圖4的實(shí)例中,在時(shí)間h將首個(gè)事件‘事件 O’ (400)分配到事件池(212)時(shí),開始事件池(212)的計(jì)時(shí)。圖4的事件池在從h到tf的預(yù)定初始時(shí)段內(nèi)工作。也就是說(shuō),當(dāng)接收首個(gè)事件‘事件O’ (400)時(shí),圖4的事件池具有在 h開始并在tf結(jié)束的預(yù)定初始時(shí)段。所述預(yù)定初始時(shí)段可以根據(jù)本領(lǐng)域的技術(shù)人員將想到的許多因素進(jìn)行配置,例如,分布式處理系統(tǒng)中的組件數(shù)、接收事件的頻率、通常接收的事件的類型以及本領(lǐng)域的技術(shù)人員將想到的其他因素。在圖4的實(shí)例中,在從h到tf的預(yù)定初始時(shí)段期間,針對(duì)每個(gè)分配到事件池的新事件將所述預(yù)定初始時(shí)段延長(zhǎng)分配給該事件的特定時(shí)段。在圖4的實(shí)例中,在將‘事件I’ (404)分配到事件池(212)時(shí),將預(yù)定初始時(shí)段UtTtf)延長(zhǎng)具有時(shí)間el的‘延長(zhǎng) I’ (406),由此在tf+el之前沒(méi)有任何其他事件被分配到池的情況下,將在tf+el產(chǎn)生關(guān)閉事件池(212)的新時(shí)間。類似地,在圖4的實(shí)例中,在將‘事件2’ (404)分配到具有時(shí)間e2的事件池時(shí),再次通過(guò)‘延長(zhǎng)2’(406)延長(zhǎng)目前已延長(zhǎng)的時(shí)段(h-tf+J,由此在tf+el+e2之前或在事件池的某個(gè)最長(zhǎng)時(shí)間過(guò)期之前沒(méi)有任何其他事件被分配到池的情況下,在時(shí)間tf+el+e2 產(chǎn)生關(guān)閉池的新時(shí)間。通過(guò)這種方式,在收到每個(gè)事件時(shí)延長(zhǎng)事件池,直到將可用于識(shí)別警報(bào)的事件集合分配到事件池。在本發(fā)明的典型實(shí)施例中,事件池可具有無(wú)法再延長(zhǎng)的最大時(shí)長(zhǎng)。在這種情況下, 可要求將未在事件池中駐留達(dá)閾值時(shí)段的事件移至下一事件池。在某些實(shí)施例中,移至下一事件池的此類事件的屬性用于與初始事件池一起實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施例的相關(guān)警報(bào)傳送,而在其他實(shí)施例中,此類事件的屬性用于與事件所移至的下一事件池一起實(shí)現(xiàn)相關(guān)警報(bào)傳送。在圖4的實(shí)例中,當(dāng)滿足關(guān)閉池的條件時(shí),事件分析器針對(duì)池(212)中的每個(gè)事件 (400,402,404)判定該事件是否已在池中達(dá)到該事件的包括在池中的預(yù)定最短時(shí)間。如果該事件已在池中達(dá)到其預(yù)定最短時(shí)間,則將該事件包括在關(guān)閉后的池中以進(jìn)行事件分析以便根據(jù)本發(fā)明的實(shí)施例實(shí)現(xiàn)相關(guān)警報(bào)傳送。如果該事件未在池中達(dá)到其預(yù)定最短時(shí)間,則從關(guān)閉后的池驅(qū)逐該事件并將該事件包括在下一池中以進(jìn)行事件分析以便根據(jù)本發(fā)明的實(shí)施例實(shí)現(xiàn)相關(guān)警報(bào)傳送。在許多實(shí)施例中,可并行使用多個(gè)事件池并將一個(gè)或多個(gè)此類事件池分配給特定事件分析器。在此類實(shí)施例中,事件分析器可針對(duì)事件池中具有特定屬性的事件。如上所述,根據(jù)本發(fā)明的相關(guān)警報(bào)傳送還包括將警報(bào)分配到警報(bào)池。為了進(jìn)一步說(shuō)明,圖5是示出根據(jù)本發(fā)明的實(shí)施例的將警報(bào)分配到警報(bào)池的示意圖。圖5的警報(bào)池 (224)的工作方式與圖4的事件池的工作方式類似。也就是說(shuō),根據(jù)圖5的實(shí)例的警報(bào)池包括警報(bào)并且警報(bào)池的計(jì)時(shí)從時(shí)間h處的首個(gè)警報(bào)‘警報(bào)O’ (500)開始,并且警報(bào)池被配置為具有預(yù)定初始時(shí)段tftf。在圖5的實(shí)例中,在從h到tf的預(yù)定初始時(shí)段期間,針對(duì)每個(gè)分配到警報(bào)池的新警報(bào)將所述預(yù)定初始時(shí)段延長(zhǎng)分配給該警報(bào)的特定時(shí)段。在圖5的實(shí)例中,在將‘警報(bào)I’ (502)分配到警報(bào)池(224)時(shí),將預(yù)定初始時(shí)段(Vtf)延長(zhǎng)具有時(shí)間el 的‘延長(zhǎng)I’ (506),由此在tf+el之前沒(méi)有任何其他警報(bào)被分配到池的情況下,將在tf+el產(chǎn)生關(guān)閉警報(bào)池(224)的新時(shí)間。類似地,在圖5的實(shí)例中,在將‘警報(bào)2’ (504)分配到具有時(shí)間e2的警報(bào)池時(shí),再次通過(guò)‘延長(zhǎng)2’(508)延長(zhǎng)目前已延長(zhǎng)的時(shí)段,由此在tf+el+e2 之前沒(méi)有任何其他警報(bào)被分配到池的情況下或在警報(bào)池的某個(gè)最長(zhǎng)時(shí)間過(guò)期之前,在時(shí)間 tf+el+e2建立關(guān)閉池的新時(shí)間。在本發(fā)明的典型實(shí)施例中,警報(bào)池可具有無(wú)法再延長(zhǎng)的最大時(shí)長(zhǎng)。在這種情況下, 可要求將未在警報(bào)池中駐留達(dá)閾值時(shí)段的警報(bào)移至下一警報(bào)池。在某些實(shí)施例中,移至下一警報(bào)池的此類警報(bào)的屬性用于與初始警報(bào)池一起實(shí)現(xiàn)根據(jù)本發(fā)明的實(shí)施例的相關(guān)警報(bào)傳送,而在其他實(shí)施例中,此類警報(bào)的屬性用于與警報(bào)所移至的下一警報(bào)池一起實(shí)現(xiàn)相關(guān)警報(bào)傳送。在圖5的實(shí)例中,當(dāng)滿足關(guān)閉池的條件時(shí),警報(bào)分析器針對(duì)池(224)中的每個(gè)警報(bào) (500,502,504)判定該警報(bào)是否已在池中達(dá)到該警報(bào)的包括在池中的預(yù)定最短時(shí)間。如果該警報(bào)已在池中達(dá)到其預(yù)定最短時(shí)間,則將該警報(bào)包括在關(guān)閉后的池中以進(jìn)行警報(bào)分析以便根據(jù)本發(fā)明的實(shí)施例實(shí)現(xiàn)相關(guān)警報(bào)傳送。如果該警報(bào)未在池中達(dá)到其預(yù)定最短時(shí)間,則從關(guān)閉后的池驅(qū)逐該警報(bào)并將該警報(bào)包括在下一池中以進(jìn)行警報(bào)分析以便根據(jù)本發(fā)明的實(shí)施例實(shí)現(xiàn)相關(guān)警報(bào)傳送。在許多實(shí)施例中,可并行使用多個(gè)警報(bào)池并將一個(gè)或多個(gè)此類警報(bào)池分配給特定警報(bào)分析器。在此類實(shí)施例中,警報(bào)分析器可針對(duì)警報(bào)池中具有特定屬性的警報(bào)。為了進(jìn)一步說(shuō)明,圖6是示出根據(jù)本發(fā)明的實(shí)施例的在分布式處理系統(tǒng)中通過(guò)事件和警報(bào)抑制實(shí)現(xiàn)相關(guān)警報(bào)傳送的實(shí)例方法的流程圖。圖6的方法包括在事件隊(duì)列中接收 (402)來(lái)自分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事件(202)。在根據(jù)本發(fā)明的實(shí)施例通過(guò)事件和警報(bào)抑制實(shí)現(xiàn)相關(guān)警報(bào)傳送時(shí)使用的事件可以包括發(fā)生時(shí)間、記錄時(shí)間、事件類型、事件iD、報(bào)告組件以及源組件。在事件隊(duì)列中接收(402)來(lái)自分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事件 (202)可以通過(guò)以下方式實(shí)現(xiàn)接收數(shù)據(jù)處理系統(tǒng)的一個(gè)或多個(gè)組件發(fā)起的事件并根據(jù)事件發(fā)生的時(shí)間或根據(jù)接收事件的時(shí)間將事件存儲(chǔ)在事件隊(duì)列中。在事件隊(duì)列中接收(402) 來(lái)自分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事件(202)還可以通過(guò)以下方式實(shí)現(xiàn)輪詢組件的狀態(tài)并作為響應(yīng)而接收事件并根據(jù)事件發(fā)生的時(shí)間或根據(jù)接收事件的時(shí)間將事件存儲(chǔ)在事件隊(duì)列中。圖6的方法還包括由事件分析器將每個(gè)接收的事件分配(404)到事件池(212)。 在本發(fā)明的某些實(shí)施例中,由事件分析器將每個(gè)接收的事件(202)分配(404)到事件池 (212)可以通過(guò)根據(jù)記錄時(shí)間將事件分配到事件池來(lái)實(shí)現(xiàn)。由事件分析器將每個(gè)接收的事件(202)分配(404)到事件池(212)還可以根據(jù)事件的屬性來(lái)實(shí)現(xiàn)。此類屬性可以包括產(chǎn)生事件的組件的標(biāo)識(shí)或類型、事件的報(bào)告組件、事件ID、事件類型以及本領(lǐng)域的技術(shù)人員將想到的其他屬性。
根據(jù)圖6的方法的事件池包括在預(yù)定初始時(shí)段內(nèi)發(fā)生的事件,并且在圖6的實(shí)例中,由事件分析器將每個(gè)接收的事件分配(404)到事件池包括針對(duì)每個(gè)分配到事件池的事件將所述預(yù)定初始時(shí)段延長(zhǎng)(432)分配給該事件的特定時(shí)段。事件分析器包括事件分析規(guī)則(210),事件分析規(guī)則(210)包括事件到達(dá)規(guī)則、事件池操作規(guī)則、事件抑制規(guī)則以及事件池關(guān)閉規(guī)則。事件到達(dá)規(guī)則是用于根據(jù)事件被分配到事件池時(shí)的實(shí)時(shí)事件識(shí)別警報(bào)的可配置預(yù)定規(guī)則。也就是說(shuō),事件到達(dá)規(guī)則在關(guān)閉事件池之前根據(jù)事件識(shí)別警報(bào)。此類規(guī)則是靈活的并可以適合特定分布式計(jì)算系統(tǒng)及其功能的需要。根據(jù)本發(fā)明的各實(shí)施例的警報(bào)是根據(jù)一個(gè)以上的事件對(duì)事件發(fā)生(例如錯(cuò)誤)的精細(xì)識(shí)別并因此在分布式處理系統(tǒng)內(nèi)在事件工作的上下文中提供了事件發(fā)生的識(shí)別。通常,警報(bào)可以是根據(jù)從數(shù)據(jù)處理系統(tǒng)的一個(gè)或多個(gè)組件接收的多個(gè)事件識(shí)別的特定錯(cuò)誤類型事件的通知,所述事件例如是多個(gè)設(shè)備之間的鏈路故障(每個(gè)設(shè)備都基于單個(gè)鏈路故障而產(chǎn)生許多事件)或引起數(shù)以千計(jì)的事件的電源故障等。警報(bào)經(jīng)常實(shí)現(xiàn)為要通過(guò)數(shù)據(jù)通信網(wǎng)絡(luò)或共享存儲(chǔ)器發(fā)送的消息。根據(jù)本發(fā)明的各實(shí)施例的典型警報(bào)具有所附加的屬性,基于從標(biāo)識(shí)警報(bào)的事件所接收的事件屬性將屬性附加到警報(bào)。事件池操作規(guī)則是用于控制事件池的操作的可配置預(yù)定規(guī)則。此類規(guī)則包括識(shí)別每個(gè)事件池的初始預(yù)定時(shí)段的規(guī)則、規(guī)定在將每個(gè)新事件分配到池時(shí)為池延長(zhǎng)的時(shí)長(zhǎng)的規(guī)則、規(guī)定在關(guān)閉池時(shí)將事件包括在事件集合中之前事件必須在池中的最短時(shí)間的規(guī)則、管理事件池的關(guān)閉的規(guī)則,以及本領(lǐng)域的技術(shù)人員將想到的其他規(guī)則。此類規(guī)則是靈活的并可以適合特定分布式計(jì)算系統(tǒng)及其功能的需要。事件抑制規(guī)則是用于抑制在識(shí)別警報(bào)時(shí)使用的關(guān)閉后的事件池中的一個(gè)或多個(gè)事件的可配置預(yù)定規(guī)則。也就是說(shuō),關(guān)閉后的事件池中的事件經(jīng)常可能是識(shí)別警報(bào)時(shí)的重復(fù)事件、冗余事件或不必要的或無(wú)用的事件。此類抑制規(guī)則通常被預(yù)先確定以刪除、丟棄或以其他方式忽略那些被抑制的事件。事件抑制規(guī)則可以例如規(guī)定要抑制多于閾值數(shù)量的特定事件類型或組件類型的事件。此類規(guī)則也是靈活的并可以適合特定分布式計(jì)算系統(tǒng)及其功能的需要。事件池關(guān)閉規(guī)則是用于根據(jù)關(guān)閉后的事件池中的未抑制事件和由事件到達(dá)規(guī)則識(shí)別的警報(bào)來(lái)識(shí)別警報(bào)的可配置預(yù)定規(guī)則。也就是說(shuō),事件池關(guān)閉規(guī)則根據(jù)關(guān)閉后的事件池中的一個(gè)或多個(gè)或甚至所有未抑制事件來(lái)識(shí)別新的警報(bào)。事件池關(guān)閉規(guī)則還根據(jù)事件到達(dá)規(guī)則所識(shí)別的警報(bào)或事件到達(dá)規(guī)則所識(shí)別的警報(bào)和關(guān)閉后的事件池中的一個(gè)或多個(gè)未抑制事件的組合來(lái)識(shí)別警報(bào)。圖6的方法還包括由事件分析器根據(jù)事件到達(dá)規(guī)則和分配到事件池的事件識(shí)別 (410) 一個(gè)或多個(gè)警報(bào)(214)。由事件分析器根據(jù)事件到達(dá)規(guī)則和分配到事件池的事件識(shí)別(410) —個(gè)或多個(gè)警報(bào)(214)可通過(guò)以下方式實(shí)現(xiàn)在將事件分配到事件池時(shí)根據(jù)該事件的一個(gè)或多個(gè)屬性識(shí)別警報(bào)。由事件分析器根據(jù)事件到達(dá)規(guī)則和分配到事件池的事件識(shí)別(410) —個(gè)或多個(gè)警報(bào)(214)可通過(guò)以下方式實(shí)現(xiàn)將事件的屬性與事件到達(dá)規(guī)則相比較以及作為比較的結(jié)果識(shí)別一個(gè)或多個(gè)警報(bào)。此類屬性可包括從中接收事件的組件的類型、產(chǎn)生事件的組件的類型、產(chǎn)生事件的組件的標(biāo)識(shí)、產(chǎn)生或接收事件的時(shí)間、事件中報(bào)告的錯(cuò)誤以及本領(lǐng)域的技術(shù)人員將想到的許多其他內(nèi)容。圖6的方法還包括由事件分析器根據(jù)事件池操作規(guī)則關(guān)閉(412)事件池(212)。 由事件分析器根據(jù)事件池操作規(guī)則關(guān)閉(412)事件池(212)可通過(guò)以下方式實(shí)現(xiàn)判定滿足事件池操作規(guī)則規(guī)定的停止將新事件分配到事件池的條件并根據(jù)這些事件池操作規(guī)則識(shí)別包括在關(guān)閉后的事件池中的特定事件。關(guān)閉事件池可以通過(guò)判定事件池的初始時(shí)段以及在初始時(shí)段的基礎(chǔ)上延長(zhǎng)的用于事件池中接收的事件的任何特定時(shí)段已過(guò)期來(lái)實(shí)現(xiàn)。在這種情況下,如果在事件池的初始時(shí)段以及在初始時(shí)段的基礎(chǔ)上延長(zhǎng)的用于事件池中接收的事件的任何特定時(shí)段過(guò)期之前未接收到任何新事件,則關(guān)閉池。關(guān)閉事件池還可通過(guò)判定事件池的最長(zhǎng)時(shí)間已過(guò)期來(lái)實(shí)現(xiàn)。在這種情況下,無(wú)論在事件池的最長(zhǎng)時(shí)間過(guò)期之后接收多少新事件,池都將被關(guān)閉。在此類實(shí)施例中,事件池的最長(zhǎng)時(shí)間防止事件池包括的事件數(shù)多于根據(jù)本發(fā)明的實(shí)施例實(shí)現(xiàn)相關(guān)警報(bào)傳送所需的事件數(shù)。圖6的方法還包括由事件分析器根據(jù)事件抑制規(guī)則判定(414)是否抑制關(guān)閉后的事件池(212)中的一個(gè)或多個(gè)事件。由事件分析器根據(jù)事件抑制規(guī)則判定(414)是否抑制關(guān)閉后的事件池(212)中的一個(gè)或多個(gè)事件可通過(guò)根據(jù)關(guān)閉后的池中的一個(gè)或多個(gè)事件的屬性判定是否刪除、丟棄或以其他方式忽略關(guān)閉后的池中的一個(gè)或多個(gè)事件來(lái)實(shí)現(xiàn)。圖6的方法包括由事件分析器根據(jù)事件池關(guān)閉規(guī)則和分配到事件池的任何未抑制事件識(shí)別(416) —個(gè)或多個(gè)附加警報(bào)(417)。由事件分析器根據(jù)事件池關(guān)閉規(guī)則和分配到事件池的任何未抑制事件識(shí)別(416) —個(gè)或多個(gè)附加警報(bào)(417)可通過(guò)在將事件分配到事件池時(shí)根據(jù)事件的一個(gè)或多個(gè)屬性識(shí)別警報(bào)來(lái)實(shí)現(xiàn)。由事件分析器根據(jù)事件池關(guān)閉規(guī)則和分配到事件池的任何未抑制事件識(shí)別(416) —個(gè)或多個(gè)附加警報(bào)(417)可通過(guò)選擇事件池的未抑制事件、將事件池的未抑制事件的屬性與池關(guān)閉規(guī)則相比較,以及作為比較結(jié)果識(shí)別一個(gè)或多個(gè)附加警報(bào)來(lái)實(shí)現(xiàn)。此類屬性可包括從中接收一個(gè)或多個(gè)未抑制事件的組件的類型、產(chǎn)生未抑制事件的組件的類型、產(chǎn)生未抑制事件的組件的標(biāo)識(shí)、產(chǎn)生或接收事件的時(shí)間、事件報(bào)告的一個(gè)或多個(gè)錯(cuò)誤、池中的事件數(shù)以及本領(lǐng)域的技術(shù)人員將想到的許多其他內(nèi)容。圖6的方法包括由事件分析器將事件分析器所識(shí)別的所有警報(bào)發(fā)送(418)給警報(bào)分析器。由事件分析器將事件分析器所識(shí)別的所有警報(bào)(214)發(fā)送(418)給警報(bào)分析器可通過(guò)將包含警報(bào)的消息從事件分析器發(fā)送給警報(bào)分析器來(lái)實(shí)現(xiàn)。此類消息可以跨網(wǎng)絡(luò),通過(guò)共享存儲(chǔ)器或以本領(lǐng)域的技術(shù)人員將想到的其他方式從事件分析器發(fā)送給警報(bào)分析器。圖6的方法包括由警報(bào)分析器將所識(shí)別的警報(bào)分配(420)到警報(bào)池(224)。根據(jù)圖6的方法的警報(bào)池具有預(yù)定初始時(shí)段,并且在圖6的實(shí)例中,由警報(bào)分析器將所識(shí)別的警報(bào)分配(420)到警報(bào)池(224)包括針對(duì)分配到警報(bào)池的每個(gè)警報(bào),將預(yù)定初始時(shí)段延長(zhǎng)分配給該警報(bào)的特定時(shí)段。由警報(bào)分析器將所識(shí)別的警報(bào)分配(420)到警報(bào)池(224)還可根據(jù)警報(bào)的屬性來(lái)實(shí)現(xiàn)。此類屬性可包括其中發(fā)生事件以產(chǎn)生用于識(shí)別警報(bào)的事件的組件的標(biāo)識(shí)或類型、警報(bào)ID、警報(bào)類型以及本領(lǐng)域的技術(shù)人員將想到的其他屬性。圖6的方法包括由警報(bào)分析器根據(jù)警報(bào)分析規(guī)則(222)和警報(bào)池中的警報(bào)判定 (422)是否抑制任何警報(bào)。由警報(bào)分析器根據(jù)警報(bào)分析規(guī)則(222)和警報(bào)池中的警報(bào)判定
17(422)是否抑制任何警報(bào)可根據(jù)警報(bào)的一個(gè)或多個(gè)屬性來(lái)實(shí)現(xiàn)。此類屬性可包括其中發(fā)生事件以產(chǎn)生用于識(shí)別警報(bào)的事件的組件的標(biāo)識(shí)或類型、警報(bào)ID、警報(bào)類型以及本領(lǐng)域的技術(shù)人員將想到的其他屬性。在此類實(shí)施例中,由警報(bào)分析器根據(jù)警報(bào)分析規(guī)則(222)和警報(bào)池中的警報(bào)判定(422)是否抑制任何警報(bào)可通過(guò)將警報(bào)池中警報(bào)的屬性與警報(bào)分析規(guī)則相比較以及作為比較結(jié)果而根據(jù)事件分析規(guī)則識(shí)別一個(gè)或多個(gè)要抑制的警報(bào)來(lái)實(shí)現(xiàn)。圖6的方法包括將未抑制的警報(bào)傳輸(420)到分布式處理系統(tǒng)的一個(gè)或多個(gè)組件。將未抑制的警報(bào)傳輸(420)到分布式處理系統(tǒng)的一個(gè)或多個(gè)組件可通過(guò)將包含警報(bào)的消息發(fā)送到分布式處理系統(tǒng)的一個(gè)或多個(gè)組件來(lái)實(shí)現(xiàn)。在許多情況下,警報(bào)可以作為消息發(fā)送給系統(tǒng)管理員,提醒系統(tǒng)管理員分布式處理系統(tǒng)中發(fā)生一個(gè)或多個(gè)事件。如上所述,警報(bào)分析規(guī)則可以根據(jù)事件選擇附加警報(bào)或抑制警報(bào)。在此類實(shí)施例中,判定是否抑制任何警報(bào)包括選擇事件以及根據(jù)所選事件判定是否抑制任何警報(bào)。因此, 圖6的方法還包括由警報(bào)分析器根據(jù)警報(bào)分析規(guī)則(222)、警報(bào)池(224)中的警報(bào)以及任何所選事件識(shí)別(426) —個(gè)或多個(gè)附加警報(bào),并且在圖6的方法中,傳輸(428)未抑制的警報(bào)還包括將任何附加警報(bào)傳輸(430)到分布式處理系統(tǒng)的一個(gè)或多個(gè)組件。如上所述,根據(jù)本發(fā)明的實(shí)施例的相關(guān)警報(bào)傳送包括管理一個(gè)或多個(gè)事故池,所述事故包括事件、警報(bào)或本領(lǐng)域的技術(shù)人員將想到的其他事故。為了進(jìn)一步說(shuō)明,圖7是示出根據(jù)本發(fā)明的實(shí)施例在分布式處理系統(tǒng)中管理事故池以進(jìn)行事件和警報(bào)分析的示例性方法的流程圖。圖7的方法包括由事故分析器從事故隊(duì)列接收(702)來(lái)自分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事故(704)。圖7的事故可以實(shí)現(xiàn)為事件并且事故池可以實(shí)現(xiàn)為事件池。圖7的事故還可以實(shí)現(xiàn)為警報(bào)并且事故池可以實(shí)現(xiàn)為警報(bào)池。由事故分析器從事故隊(duì)列接收(702)來(lái)自分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事故(704)可通過(guò)如上所述由事件分析器從事件隊(duì)列接收事件來(lái)實(shí)現(xiàn)??梢詮姆植际教幚硐到y(tǒng)的一個(gè)或多個(gè)組件發(fā)送此類事件。由事故分析器從事故隊(duì)列接收(702)來(lái)自分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事故(704)還可通過(guò)如上所述由警報(bào)分析器從警報(bào)隊(duì)列接收警報(bào)來(lái)實(shí)現(xiàn)。可以如上所述由事件分析器產(chǎn)生此類警報(bào)。圖7的方法包括由事故分析器創(chuàng)建(706)事故池(708),所述池具有預(yù)定初始時(shí)段。圖7的方法中的由事故分析器創(chuàng)建(706)事故池(708)可通過(guò)創(chuàng)建包含事件或警報(bào)的數(shù)據(jù)結(jié)構(gòu)并針對(duì)該數(shù)據(jù)結(jié)構(gòu)建立將事件、警報(bào)或本領(lǐng)域的技術(shù)人員將想到的其他事故包括在該數(shù)據(jù)結(jié)構(gòu)內(nèi)的初始時(shí)段來(lái)實(shí)現(xiàn)。圖7的方法還包括由事故分析器將每個(gè)接收的事故分配(710)到池。由事故分析器將每個(gè)接收的事故分配(710)到池可根據(jù)事故的屬性來(lái)實(shí)現(xiàn)。將每個(gè)接收的事故分配 (710)到池例如可以通過(guò)根據(jù)諸如產(chǎn)生事件的組件、事件類型、警報(bào)類型、報(bào)告事件的組件、 報(bào)告或產(chǎn)生在產(chǎn)生警報(bào)時(shí)所依據(jù)的事件的組件以及本領(lǐng)域的技術(shù)人員將想到的其他屬性之類的屬性選擇事件、警報(bào)或其他事故來(lái)實(shí)現(xiàn)。圖7的方法還包括由事故分析器為每個(gè)事故分配(712)包含在池(708)中的預(yù)定最短時(shí)間(714)。包含在池中的預(yù)定最短時(shí)間(714)通常短于該池的初始時(shí)段,以便在關(guān)閉池時(shí),將首個(gè)到達(dá)的事故包括在事故池中。預(yù)定最短時(shí)間可根據(jù)本領(lǐng)域的技術(shù)人員將想到的事故的屬性而變化。允許最短時(shí)間隨事故的屬性而變化為根據(jù)本發(fā)明的實(shí)施例在各種形式的分布式處理系統(tǒng)中管理池提供了靈活性。
圖7的方法包括由事故分析器針對(duì)一個(gè)或多個(gè)事故將池(708)的預(yù)定初始時(shí)段延長(zhǎng)(716)分配給該事故的特定時(shí)段。在預(yù)定初始時(shí)段的基礎(chǔ)上延長(zhǎng)的特定時(shí)段依賴于諸如事故類型、事故標(biāo)識(shí)、產(chǎn)生或傳輸事故的上下文以及本領(lǐng)域的技術(shù)人員將想到的其他內(nèi)容之類的事故屬性。圖7的方法還包括由事故分析器判定(718)是否滿足關(guān)閉池(708)的條件。由事故分析器判定(718)是否滿足關(guān)閉池(708)的條件可通過(guò)判定是否已經(jīng)過(guò)池的最長(zhǎng)時(shí)間來(lái)實(shí)現(xiàn)。針對(duì)池建立的最長(zhǎng)時(shí)間通常依賴于分布式處理系統(tǒng)的諸如分布式處理系統(tǒng)的大小、 分布式處理系統(tǒng)的組件、分布式處理系統(tǒng)的計(jì)算要求以及本領(lǐng)域的技術(shù)人員將想到的其他內(nèi)容之類的因素。通常,所建立的最長(zhǎng)時(shí)間足夠長(zhǎng)以允許將足夠的事故累積到池中以便進(jìn)行有意義的事件或警報(bào)分析,但是最長(zhǎng)時(shí)間也足夠短,使得不會(huì)因事故的絕對(duì)數(shù)量導(dǎo)致分析無(wú)法進(jìn)行并允許及時(shí)地報(bào)告警報(bào)。由事故分析器判定(718)是否滿足關(guān)閉池(708)的條件可通過(guò)判定在將另一事故分配到池之前是否已經(jīng)過(guò)預(yù)定初始時(shí)段以及與任何分配到池的事故關(guān)聯(lián)的任何時(shí)間延長(zhǎng)來(lái)實(shí)現(xiàn)。在此類實(shí)施例中,通常在池的最長(zhǎng)時(shí)間之前已經(jīng)過(guò)池的預(yù)定初始時(shí)段以及所有時(shí)間延長(zhǎng),從而在池的最長(zhǎng)時(shí)間之前關(guān)閉池。如果滿足關(guān)閉池的條件,則圖7的方法還包括針對(duì)池中的每個(gè)事故判定(720)事故是否已在池(708)中達(dá)到其包含在池中的預(yù)定最短時(shí)間(714)。針對(duì)池中的每個(gè)事故判定(720)事故是否已在池(708)中達(dá)到其包含在池中的預(yù)定最短時(shí)間(714)可通過(guò)將每個(gè)事故駐留在池中的時(shí)長(zhǎng)與包含在池中的最短時(shí)間相比較來(lái)實(shí)現(xiàn)。如果事故已在池中達(dá)到其預(yù)定最短時(shí)間,則圖7的方法包括將該事故包括(722) 在關(guān)閉后的池中。將事故包括(722)在關(guān)閉后的池中可通過(guò)將事故保留在關(guān)閉后的池中以進(jìn)行事件分析、警報(bào)分析或本領(lǐng)域的技術(shù)人員將想到的其他事故分析來(lái)實(shí)現(xiàn)。如果事故未在池中達(dá)到其預(yù)定最短時(shí)間,則圖7的方法包括從關(guān)閉后的池驅(qū)逐 (724)該事故并將該事故包括在下一池中。從關(guān)閉后的池驅(qū)逐(724)事故并將事故包括在下一池中可通過(guò)創(chuàng)建下一池并將事故移至下一池來(lái)實(shí)現(xiàn)。創(chuàng)建下一池并將事故移至下一池可包括為下一池建立至少與要移至該下一池的事件的最短時(shí)間一樣長(zhǎng)的預(yù)定時(shí)長(zhǎng)。為了進(jìn)一步說(shuō)明,圖8是示出根據(jù)本發(fā)明的實(shí)施例在分布式處理系統(tǒng)中管理事故池以進(jìn)行事件和警報(bào)分析的附加方法的流程圖。圖8的方法與圖7的方法的類似之處在于,圖8的方法包括由事故分析器從事故隊(duì)列接收(702)來(lái)自分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事故(704);由事故分析器創(chuàng)建(706)事故池(708),所述池具有預(yù)定初始時(shí)段;由事故分析器將每個(gè)接收的事故分配(710)到池;由事故分析器為每個(gè)事故分配(712) 包含在池中的預(yù)定最短時(shí)間;由事故分析器針對(duì)一個(gè)或多個(gè)事故將池(708)的預(yù)定初始時(shí)段延長(zhǎng)(716)分配給該事故的特定時(shí)段;由事故分析器判定(718)是否滿足關(guān)閉池的條件; 以及如果滿足關(guān)閉池的條件,則針對(duì)池中的每個(gè)事故判定(720)事故是否已在池中達(dá)到其包含在池中的預(yù)定最短時(shí)間;以及如果事故已在池中達(dá)到其預(yù)定最短時(shí)間,則將事故包括 (722)在關(guān)閉后的池中;以及如果事故未在池中達(dá)到其預(yù)定最短時(shí)間,則從關(guān)閉后的池驅(qū)逐(724)該事故并將該事故包括在下一池中。圖8的方法與圖7的方法的不同之處在于,在圖8的方法中,一個(gè)或多個(gè)事故 (704)為事件,并且圖8的方法還包括根據(jù)分配到池(708)的一個(gè)或多個(gè)事件識(shí)別(716) —個(gè)或多個(gè)警報(bào)。根據(jù)分配到池(708)的一個(gè)或多個(gè)事件識(shí)別(716) —個(gè)或多個(gè)警報(bào)可通過(guò)如上所述的根據(jù)事件到達(dá)規(guī)則識(shí)別警報(bào)、如上所述的根據(jù)池關(guān)閉規(guī)則識(shí)別附加警報(bào),以及本領(lǐng)域的技術(shù)人員將想到的其他方式來(lái)實(shí)現(xiàn)。在圖8的方法中,驅(qū)逐(724)事故并將事故包括在下一池中還包括驅(qū)逐(802)至少一個(gè)事件、將驅(qū)逐的事件包括(804)在下一池中,以及將根據(jù)驅(qū)逐的事件識(shí)別的任何警報(bào)與關(guān)閉后的池相關(guān)聯(lián)(806)。驅(qū)逐(724)事故并將事故包括在下一池中還包括驅(qū)逐(802) 至少一個(gè)事件,將驅(qū)逐的事件包括(804)在下一池中可通過(guò)創(chuàng)建下一池并將事故移至下一池來(lái)實(shí)現(xiàn)。將根據(jù)驅(qū)逐的事件識(shí)別的任何警報(bào)與關(guān)閉后的池相關(guān)聯(lián)(806)可通過(guò)使用關(guān)閉后的池保留根據(jù)事件到達(dá)規(guī)則識(shí)別的任何警報(bào)以由警報(bào)分析器進(jìn)行警報(bào)分析來(lái)實(shí)現(xiàn)。在此類實(shí)施例中,雖然驅(qū)逐了事件并將事件包括在下一池中,但是根據(jù)該事件識(shí)別的任何警報(bào)都使用關(guān)閉后的池進(jìn)行保留以進(jìn)行警報(bào)分析。為了進(jìn)一步說(shuō)明,圖9是示出根據(jù)本發(fā)明的實(shí)施例在分布式處理系統(tǒng)中管理事故池以進(jìn)行事件和警報(bào)分析的附加方法的流程圖。圖9的方法與圖7和圖8的方法的類似之處在于,圖9的方法包括由事故分析器從事故隊(duì)列接收(702)來(lái)自分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事故(704);由事故分析器創(chuàng)建(706)事故池(708),所述池具有預(yù)定初始時(shí)段;由事故分析器將每個(gè)接收的事故分配(710)到池;由事故分析器為每個(gè)事故分配 (712)包含在池中的預(yù)定最短時(shí)間;由事故分析器針對(duì)一個(gè)或多個(gè)事故將池(708)的預(yù)定初始時(shí)段延長(zhǎng)(716)分配給該事故的特定時(shí)段;由事故分析器判定(718)是否滿足關(guān)閉池的條件;以及如果滿足關(guān)閉池的條件,則針對(duì)池中的每個(gè)事故判定(720)事故是否已在池中達(dá)到其包含在池中的預(yù)定最短時(shí)間;以及如果事故已在池中達(dá)到其預(yù)定最短時(shí)間,則將事故包括(722)在關(guān)閉后的池中;以及如果事故未在池中達(dá)到其預(yù)定最短時(shí)間,則從關(guān)閉后的池驅(qū)逐(724)該事故并將該事故包括在下一池中。圖9的方法與圖7的方法的不同之處在于在圖9的方法中,一個(gè)或多個(gè)事故 (704)為事件(202),并且圖9的方法還包括根據(jù)分配到池(708)的一個(gè)或多個(gè)事件識(shí)別 (716) —個(gè)或多個(gè)警報(bào)。根據(jù)分配到池(708)的一個(gè)或多個(gè)事件識(shí)別(716) —個(gè)或多個(gè)警報(bào)可通過(guò)如上所述的根據(jù)事件到達(dá)規(guī)則識(shí)別警報(bào)、如上所述的根據(jù)池關(guān)閉規(guī)則識(shí)別附加警報(bào),以及本領(lǐng)域的技術(shù)人員將想到的其他方式來(lái)實(shí)現(xiàn)。在圖9的方法中,驅(qū)逐(724)事故并將事故包括在下一池中還包括驅(qū)逐(902)至少一個(gè)事件、將驅(qū)逐的事件包括(904)在下一池中,以及將根據(jù)驅(qū)逐的事件識(shí)別的任何警報(bào)與關(guān)閉后的池相關(guān)聯(lián)(906)。驅(qū)逐(724)事故并將事故包括在下一池中還包括驅(qū)逐(902) 至少一個(gè)事件,將驅(qū)逐的事件包括(904)在下一池中可通過(guò)創(chuàng)建下一池并將事故移至下一池來(lái)實(shí)現(xiàn)。將根據(jù)驅(qū)逐的事件識(shí)別的任何警報(bào)與下一池相關(guān)聯(lián)(906)可通過(guò)將根據(jù)事件到達(dá)規(guī)則識(shí)別的任何警報(bào)與由警報(bào)分析器進(jìn)行警報(bào)分析的關(guān)閉后的池取消關(guān)聯(lián)并將這些警報(bào)與下一池關(guān)聯(lián)來(lái)實(shí)現(xiàn)。在此類實(shí)施例中,驅(qū)逐事件并將事件包括在下一池中,并且還將根據(jù)該事件識(shí)別的任何警報(bào)與下一池進(jìn)行關(guān)聯(lián)以使用下一池進(jìn)行警報(bào)分析。在某些實(shí)施例中,可以根據(jù)其他警報(bào)來(lái)識(shí)別警報(bào)。因此,在此類實(shí)施例中,根據(jù)圖 9的方法的將根據(jù)驅(qū)逐的事件識(shí)別的任何警報(bào)與下一池相關(guān)聯(lián)還可通過(guò)使關(guān)閉后的池中依賴于現(xiàn)在與下一池關(guān)聯(lián)的所識(shí)別警報(bào)的所有警報(bào)或事件無(wú)效來(lái)實(shí)現(xiàn)。也就是說(shuō),在關(guān)閉后的池中使根據(jù)現(xiàn)在與下一池關(guān)聯(lián)的警報(bào)識(shí)別的警報(bào)無(wú)效。使此類警報(bào)無(wú)效消除了關(guān)閉后的池中此類警報(bào)對(duì)現(xiàn)在與下一池關(guān)聯(lián)的警報(bào)的依賴性。本領(lǐng)域的技術(shù)人員將理解,本發(fā)明的各方面可以實(shí)現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明的各方面可以采取完全硬件實(shí)施例、完全軟件實(shí)施例(包括固件、駐留軟件、微代碼等)或組合了在此通常被稱為“電路”、“模塊”或“系統(tǒng)”的軟件和硬件方面的實(shí)施例的形式。此外,本發(fā)明的各方面可以采取體現(xiàn)在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)(在介質(zhì)中具有計(jì)算機(jī)可讀程序代碼)中的計(jì)算機(jī)程序產(chǎn)品的形式??梢允褂靡粋€(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)的任意組合。所述計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是(但不限于) 電、磁、光、電磁、紅外線或半導(dǎo)體系統(tǒng)、裝置或設(shè)備或它們的任何適當(dāng)組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的實(shí)例(非窮舉列表)可以包括以下項(xiàng)具有一條或多條線的電連接、便攜式計(jì)算機(jī)軟盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦寫可編程只讀存儲(chǔ)器 (EPR0M或閃存)、光纖、便攜式光盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)設(shè)備、磁存儲(chǔ)設(shè)備或它們的任何適當(dāng)組合。在本文檔的上下文中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何能夠包含或存儲(chǔ)由指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用或與所述指令執(zhí)行系統(tǒng)、裝置或設(shè)備結(jié)合的程序的有形介質(zhì)。計(jì)算機(jī)可讀信號(hào)介質(zhì)可以包括其中包含計(jì)算機(jī)可讀程序代碼(例如,在基帶中或作為載波的一部分)的傳播數(shù)據(jù)信號(hào)。此類傳播信號(hào)可以采取多種形式中的任何形式,包括但不限于電磁、光或它們的任何適當(dāng)組合。計(jì)算機(jī)可讀信號(hào)介質(zhì)可以是任何并非計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及可以傳送、傳播或傳輸由指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用或與所述指令執(zhí)行系統(tǒng)、裝置或設(shè)備結(jié)合的程序的計(jì)算機(jī)可讀介質(zhì)。可以使用任何適當(dāng)?shù)慕橘|(zhì)(包括但不限于無(wú)線、有線、光纜、RF等或它們的任何適當(dāng)組合)來(lái)傳輸計(jì)算機(jī)可讀介質(zhì)中包含的程序代碼。用于執(zhí)行本發(fā)明的各方面的操作的計(jì)算機(jī)程序代碼可以使用一種或多種編程語(yǔ)言的任意組合來(lái)編寫,所述編程語(yǔ)言包括諸如Java、Smalltalk、C++或類似語(yǔ)言之類的面向?qū)ο蟮木幊陶Z(yǔ)言或者諸如“C”編程語(yǔ)言或類似的編程語(yǔ)言之類的常規(guī)過(guò)程編程語(yǔ)言。所述程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為獨(dú)立的軟件包、部分地在用戶計(jì)算機(jī)上并部分地在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行,或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在后者的情況中,所述遠(yuǎn)程計(jì)算機(jī)可以通過(guò)包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN) 的任何類型網(wǎng)絡(luò)與用戶的計(jì)算機(jī)相連,也可以與外部計(jì)算機(jī)進(jìn)行連接(例如,使用因特網(wǎng)服務(wù)提供商通過(guò)因特網(wǎng)連接)。下面參考根據(jù)本發(fā)明的各實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方塊圖對(duì)本發(fā)明的各方面進(jìn)行描述。將理解,所述流程圖和/或方塊圖的每個(gè)方塊以及所述流程圖和/或方塊圖中的方塊的組合可以由計(jì)算機(jī)程序指令來(lái)實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以被提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置的處理器以產(chǎn)生機(jī)器,以便通過(guò)所述計(jì)算機(jī)或其他可編程數(shù)據(jù)處理裝置的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在一個(gè)或多個(gè)流程圖和/或方塊圖方塊中指定的功能/操作的裝置。這些計(jì)算機(jī)程序指令也可以被存儲(chǔ)在可引導(dǎo)計(jì)算機(jī)、其他可編程數(shù)據(jù)處理裝置或其他設(shè)備以特定方式執(zhí)行功能的計(jì)算機(jī)可讀介質(zhì)中,以便存儲(chǔ)在所述計(jì)算機(jī)可讀介質(zhì)中的指令產(chǎn)生一件包括實(shí)現(xiàn)在所述一個(gè)或多個(gè)流程圖和/或方塊圖方塊中指定的功能/操作的指令的制品。所述計(jì)算機(jī)程序指令還可被加載到計(jì)算機(jī)、其他可編程數(shù)據(jù)處理裝置或其他設(shè)備,以導(dǎo)致在所述計(jì)算機(jī)、其他可編程裝置或其他設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,從而在所述計(jì)算機(jī)或其他可編程裝置上執(zhí)行的指令提供用于實(shí)現(xiàn)在一個(gè)或多個(gè)流程圖和/或方塊圖方塊中指定的功能/操作的過(guò)程。附圖中的流程圖和方塊圖示出了根據(jù)本發(fā)明的各實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)施方式的架構(gòu)、功能和操作。在此方面,所述流程圖或方塊圖中的每個(gè)方塊都可以表示代碼的模塊、段或部分,所述代碼包括用于實(shí)現(xiàn)指定的邏輯功能的一個(gè)或多個(gè)可執(zhí)彳丁指令。還應(yīng)指出,在某些備選實(shí)施方式中,在方塊中說(shuō)明的功能可以不按圖中說(shuō)明的順序發(fā)生。例如,示為連續(xù)的兩個(gè)方塊可以實(shí)際上被基本同時(shí)地執(zhí)行,或者某些時(shí)候,取決于所涉及的功能,可以以相反的順序執(zhí)行所述方塊。還應(yīng)指出,所述方塊圖和/或流程圖的每個(gè)方塊以及所述方塊圖和/或流程圖中的方塊的組合可以由執(zhí)行指定功能或操作的基于專用硬件的系統(tǒng)或?qū)S糜布陀?jì)算機(jī)指令的組合來(lái)實(shí)現(xiàn)。從上述描述將理解,可以在不偏離本發(fā)明的真實(shí)精神的情況下,對(duì)本發(fā)明的各種實(shí)施例做出修改和更改。本說(shuō)明書中的描述僅用于例示并且不應(yīng)被理解為進(jìn)行限制。本發(fā)明的范圍僅由以下權(quán)利要求的語(yǔ)言來(lái)限定。
權(quán)利要求
1.一種在分布式處理系統(tǒng)中管理事故池以進(jìn)行事件和警報(bào)分析的方法,所述方法包括由事故分析器從事故隊(duì)列接收來(lái)自所述分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事故;由所述事故分析器創(chuàng)建事故池;由所述事故分析器將每個(gè)接收的事故分配到所述池;由所述事故分析器向每個(gè)事故分配包含在池中的預(yù)定最短時(shí)間;由所述事故分析器判定是否滿足關(guān)閉所述池的條件;以及如果滿足關(guān)閉所述池的條件,則針對(duì)所述池中的每個(gè)事故判定該事故是否已在所述池中達(dá)到該事故的包含在池中的預(yù)定最短時(shí)間;以及如果該事故已在所述池中達(dá)到該事故的預(yù)定最短時(shí)間,則將該事故包括在關(guān)閉后的池中;以及如果該事故未在所述池中達(dá)到該事故的預(yù)定最短時(shí)間,則從關(guān)閉后的池驅(qū)逐該事故并將該事故包括在下一池中。
2.如權(quán)利要求I中所述的方法,其中所述事故中的一個(gè)或多個(gè)事故包括事件,并且其中所述方法還包括根據(jù)分配到所述池的一個(gè)或多個(gè)事件識(shí)別一個(gè)或多個(gè)警報(bào);以及其中驅(qū)逐該事故并將該事故包括在下一池中進(jìn)一步包括驅(qū)逐至少一個(gè)事件,將所驅(qū)逐的事件包括在所述下一池中,以及將任何根據(jù)所驅(qū)逐的事件識(shí)別的警報(bào)與所述關(guān)閉后的池相關(guān)聯(lián)。
3.如權(quán)利要求I中所述的方法,其中所述事故中的一個(gè)或多個(gè)事故包括事件,并且其中所述方法還包括根據(jù)分配到所述池的一個(gè)或多個(gè)事件識(shí)別一個(gè)或多個(gè)警報(bào);以及其中驅(qū)逐該事故并將該事故包括在下一池中進(jìn)一步包括驅(qū)逐至少一個(gè)事件,將所驅(qū)逐的事件包括在所述下一池中,以及將任何根據(jù)所驅(qū)逐的事件識(shí)別的警報(bào)與所述下一池相關(guān)聯(lián)。
4.如權(quán)利要求3中所述的方法,其中將任何根據(jù)所驅(qū)逐的事件識(shí)別的警報(bào)與所述下一池相關(guān)聯(lián)進(jìn)一步包括使所述關(guān)閉后的池中依賴于現(xiàn)在與所述下一池關(guān)聯(lián)的所識(shí)別的警報(bào)的所有警報(bào)或事件無(wú)效。
5.如權(quán)利要求I中所述的方法,其中由所述事故分析器判定是否滿足關(guān)閉所述池的條件進(jìn)一步包括判定是否已經(jīng)經(jīng)過(guò)所述池的最大時(shí)間。
6.如權(quán)利要求I中所述的方法,其中所述事故池具有預(yù)定初始時(shí)段并且所述方法還包括對(duì)于所述事故中的一個(gè)或多個(gè)事故,由所述事故分析器將所述池的所述預(yù)定初始時(shí)段延長(zhǎng)被分配給所述事故的特定時(shí)段;以及其中由所述事故分析器判定是否滿足關(guān)閉所述池的條件進(jìn)一步包括確定在將另一事故分配到所述池之前,已經(jīng)經(jīng)過(guò)所述預(yù)定初始時(shí)段以及與分配到所述池的任何事故關(guān)聯(lián)的任何時(shí)間延長(zhǎng)。
7.如權(quán)利要求I中所述的方法,其中所述事故包括事件,并且所述事故池包括事件池。
8.如權(quán)利要求I中所述的方法,其中所述事故包括警報(bào),并且所述事故池包括警報(bào)池。
9.一種在分布式處理系統(tǒng)中管理事故池以進(jìn)行事件和警報(bào)分析的系統(tǒng),所述系統(tǒng)包括計(jì)算機(jī)處理器、在操作上與所述計(jì)算機(jī)處理器耦合的計(jì)算機(jī)存儲(chǔ)器,所述計(jì)算機(jī)存儲(chǔ)器內(nèi)具有計(jì)算機(jī)程序指令,當(dāng)由所述計(jì)算機(jī)處理器執(zhí)行時(shí),所述計(jì)算機(jī)程序指令能夠使所述系統(tǒng)執(zhí)行以下步驟由事故分析器從事故隊(duì)列接收來(lái)自所述分布式處理系統(tǒng)的一個(gè)或多個(gè)組件的多個(gè)事故;由所述事故分析器創(chuàng)建事故池;由所述事故分析器將每個(gè)接收的事故分配到所述池;由所述事故分析器向每個(gè)事故分配包含在池中的預(yù)定最短時(shí)間;由所述事故分析器判定是否滿足關(guān)閉所述池的條件;以及如果滿足關(guān)閉所述池的條件,則針對(duì)所述池中的每個(gè)事故判定該事故是否已在所述池中達(dá)到該事故的包含在池中的預(yù)定最短時(shí)間;以及如果該事故已在所述池中達(dá)到該事故的預(yù)定最短時(shí)間,則將該事故包括在關(guān)閉后的池中;以及如果該事故未在所述池中達(dá)到該事故的預(yù)定最短時(shí)間,則從關(guān)閉后的池驅(qū)逐該事故并將該事故包括在下一池中。
10.如權(quán)利要求9中所述的系統(tǒng),其中所述事故中的一個(gè)或多個(gè)事故包括事件,并且其中所述系統(tǒng)還包括能夠根據(jù)分配到所述池的一個(gè)或多個(gè)事件識(shí)別一個(gè)或多個(gè)警報(bào)的計(jì)算機(jī)程序指令;以及其中驅(qū)逐該事故并將該事故包括在下一池中進(jìn)一步包括驅(qū)逐至少一個(gè)事件,將所驅(qū)逐的事件包括在所述下一池中,以及將任何根據(jù)所驅(qū)逐的事件識(shí)別的警報(bào)與所述關(guān)閉后的池相關(guān)聯(lián)。
11.如權(quán)利要求9中所述的系統(tǒng),其中所述事故中的一個(gè)或多個(gè)事故包括事件,并且其中所述系統(tǒng)還包括能夠根據(jù)分配到所述池的一個(gè)或多個(gè)事件識(shí)別一個(gè)或多個(gè)警報(bào)的計(jì)算機(jī)程序指令;以及其中驅(qū)逐該事故并將該事故包括在下一池中進(jìn)一步包括驅(qū)逐至少一個(gè)事件,將所驅(qū)逐的事件包括在所述下一池中,以及將任何根據(jù)所驅(qū)逐的事件識(shí)別的警報(bào)與所述下一池相關(guān)聯(lián)。
12.如權(quán)利要求11中所述的系統(tǒng),其中將任何根據(jù)所驅(qū)逐的事件識(shí)別的警報(bào)與所述下一池相關(guān)聯(lián)進(jìn)一步包括使所述關(guān)閉后的池中依賴于現(xiàn)在與所述下一池關(guān)聯(lián)的所識(shí)別的警報(bào)的所有警報(bào)或事件無(wú)效。
13.如權(quán)利要求9中所述的系統(tǒng),其中由所述事故分析器判定是否滿足關(guān)閉所述池的條件進(jìn)一步包括判定是否已經(jīng)經(jīng)過(guò)所述池的最大時(shí)間。
14.如權(quán)利要求9中所述的系統(tǒng),其中所述池具有預(yù)定初始時(shí)段并且其中所述系統(tǒng)包括用于對(duì)于所述事故中的一個(gè)或多個(gè)事故,由所述事故分析器將所述池的所述預(yù)定初始時(shí)段延長(zhǎng)被分配給所述事故的特定時(shí)段的計(jì)算機(jī)程序指令;以及其中由所述事故分析器判定是否滿足關(guān)閉所述池的條件進(jìn)一步包括確定在將另一事故分配到所述池之前,已經(jīng)經(jīng)過(guò)所述預(yù)定初始時(shí)段以及與分配到所述池的任何事故關(guān)聯(lián)的任何時(shí)間延長(zhǎng)。
15.如權(quán)利要求9中所述的系統(tǒng),其中所述事故包括事件,并且所述事故池包括事件池。
16.如權(quán)利要求9中所述的系統(tǒng),其中所述事故包括警報(bào),并且所述事故池包括警報(bào)池。
全文摘要
本發(fā)明涉及一種管理事故池以進(jìn)行事件和警報(bào)分析的方法和系統(tǒng)。管理事故池包括創(chuàng)建事故池,所述池具有預(yù)定初始時(shí)段;將每個(gè)接收的事故分配到所述池;由事故分析器向每個(gè)事故分配包含在池中的預(yù)定最短時(shí)間;對(duì)于所述事故中的一個(gè)或多個(gè)事故,將所述池的所述預(yù)定初始時(shí)段延長(zhǎng)被分配給所述事故的特定時(shí)段;判定是否滿足關(guān)閉所述池的條件;以及如果滿足關(guān)閉所述池的條件,則針對(duì)所述池中的每個(gè)事故判定該事故是否已在所述池中達(dá)到該事故的包含在池中的預(yù)定最短時(shí)間;以及如果該事故未在所述池中達(dá)到該事故的預(yù)定最短時(shí)間,則從關(guān)閉后的池驅(qū)逐該事故并將該事故包括在下一池中。
文檔編號(hào)G06F11/00GK102591731SQ201110339740
公開日2012年7月18日 申請(qǐng)日期2011年11月1日 優(yōu)先權(quán)日2010年11月2日
發(fā)明者J·E·卡雷, M·G·阿特金斯, M·W·馬克蘭, P·J·桑德斯 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司