專利名稱:一種分布式業(yè)務(wù)系統(tǒng)故障告警的方法、系統(tǒng)和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種分布式業(yè)務(wù)系統(tǒng)故障告警的 方法、系統(tǒng)和裝置。
背景技術(shù):
對于大型的關(guān)鍵的業(yè)務(wù)系統(tǒng),如金融系統(tǒng)、電子商務(wù)系統(tǒng)、電子支付系 統(tǒng)等,當(dāng)系統(tǒng)的某些地方出現(xiàn)故障,如業(yè)務(wù)規(guī)則不匹配、網(wǎng)絡(luò)不通、數(shù)據(jù)庫 異常等,此時如果不及時進行處理,很可能會產(chǎn)生非常嚴重的后果。例如, 對于一個大型銀行軟件業(yè)務(wù)系統(tǒng),通常都會有緩存來提高系統(tǒng)性能。當(dāng)緩存 中的數(shù)據(jù)與數(shù)據(jù)庫中的數(shù)據(jù)不一致時,如果不能及時發(fā)現(xiàn)并處理,很可能會 產(chǎn)生資金損失。
目前解決這類問題的主要辦法就是記錄日志,通過日志分析來發(fā)現(xiàn)問題。
這種方式存在很多弊端
1、 時效性差
通過日志分析的方式時效性非常差,往往在問題產(chǎn)生很久以后,甚至在 出現(xiàn)重大損失時才能夠發(fā)現(xiàn)問題。由此,發(fā)現(xiàn)問題的成本往往非常高,通常 都是在產(chǎn)生嚴重后果并有人4艮告時才被發(fā)現(xiàn)。
2、 不夠靈活
無法靈活配置由誰來處理問題,通過什么方式來通知處理人等。只能安 排某個固定的人定期對日志進行分析。
發(fā)明內(nèi)容
本發(fā)明實施例提供的一種分布式業(yè)務(wù)系統(tǒng)故障告警的方法、系統(tǒng)和裝置, 以使業(yè)務(wù)系統(tǒng)在出現(xiàn)系統(tǒng)故障時,能夠及時地將告警信息通知給相關(guān)人員。 本發(fā)明實施例提供的一種業(yè)務(wù)系統(tǒng)故障告警的方法,包括 接收來自分布式業(yè)務(wù)系統(tǒng)的告警信號; 從所述告警信號中獲取告警內(nèi)容和告警業(yè)務(wù)類型;根據(jù)所述告警業(yè)務(wù)類型獲取接收告警內(nèi)容的至少一個接收端和發(fā)送方式信息;將包含所述告警內(nèi)容的告警信息通過所述發(fā)送方式發(fā)送給所述接收端。其中,所述接收到的告警信號直接來自發(fā)生故障的分布式業(yè)務(wù)系統(tǒng);或者,由設(shè)置在分布式業(yè)務(wù)系統(tǒng)內(nèi)的客戶端采集業(yè)務(wù)系統(tǒng)的故障信息,所述接收到的告警信號來自所述客戶端。其中,進一步包括對所發(fā)送的告警信息進行流量控制。其中,所述發(fā)送方式包括以下所述發(fā)送方式之一或任意組合郵件、短消息、語音。本發(fā)明實施例提供的一種分布式業(yè)務(wù)系統(tǒng)故障告警的系統(tǒng),包括 至少一個獨立于告警系統(tǒng)的業(yè)務(wù)系統(tǒng),用于發(fā)出告警信號; 告警系統(tǒng),用于接收來自所述業(yè)務(wù)系統(tǒng)的告警信號,從所述告警信號中 獲取告警內(nèi)容和告警業(yè)務(wù)類型;根據(jù)所述告警業(yè)務(wù)類型獲取接收告警內(nèi)容的 至少一個接收端和發(fā)送方式信息;將包含所述告警內(nèi)容的告警信息通過所述 發(fā)送方式發(fā)送給所述接收端。其中,所述告警系統(tǒng)還用于對所發(fā)送的告警信息進行流量控制。 本發(fā)明實施例提供的一種告警系統(tǒng),包括配置管理單元,用于保存告警業(yè)務(wù)類型,與告警業(yè)務(wù)類型對應(yīng)的接收告 警內(nèi)容的接收端,以及與告警業(yè)務(wù)類型對應(yīng)的發(fā)送方式信息;告警服務(wù)單元,用于接收來自分布式業(yè)務(wù)系統(tǒng)的告警信號,將所述告警 信號傳送給告警控制器單元;所述告警控制器單元,用于從所述告警信號中獲取告警內(nèi)容和告警業(yè)務(wù) 類型,根據(jù)所述告警業(yè)務(wù)類型從配置管理單元獲取接收告警內(nèi)容的至少一個 接收端和發(fā)送方式信息;指示消息發(fā)送器單元進行^喿作;消息發(fā)送器單元,用于根據(jù)接收到的指示將包含所述告警內(nèi)容的告警信 息通過所述發(fā)送方式發(fā)送給所述接收端。其中,所述配置管理單元,還用于保存發(fā)送方式所對應(yīng)的發(fā)送頻率;所述告警系統(tǒng)還包括流量控制單元,用于根據(jù)所述發(fā)送頻率,對所發(fā)送的告警信息進行流量 控制。
其中,所述告警系統(tǒng)還包括至少一個客戶端,每個客戶端用于接收其 所在業(yè)務(wù)系統(tǒng)的故障信息,將采集到的故障信息轉(zhuǎn)換為告警信號后發(fā)送至告 警服務(wù)單元。
其中,所述配置管理單元和流量控制單元位于同一物理模塊,或分別位 于不同的物理^t塊。
應(yīng)用本發(fā)明,使得在業(yè)務(wù)系統(tǒng)出現(xiàn)系統(tǒng)故障時,能夠及時地將告警信息 通知給相關(guān)人員,提高了告警的時效性,避免了在系統(tǒng)故障產(chǎn)生很久以后, 甚至在出現(xiàn)重大損失時才發(fā)現(xiàn)問題所造成的損失。由于本發(fā)明可以靈活配置 由什么人接收告警信息,接收的方式是什么,因而可使實現(xiàn)方式更靈活。本 發(fā)明不但具有很好的時效性和靈活性,而且實現(xiàn)方式簡單。
再有,由于本發(fā)明中的告警系統(tǒng)和業(yè)務(wù)系統(tǒng)是獨立部署的,不在同一個 設(shè)備上,因而一套告警設(shè)備可以為多個業(yè)務(wù)系統(tǒng)提供服務(wù),節(jié)約了整個系統(tǒng) 的成本,同時,由于不需每個業(yè)務(wù)系統(tǒng)都具備一套相似告警系統(tǒng),也簡化了 業(yè)務(wù)系統(tǒng),大大節(jié)約了各業(yè)務(wù)系統(tǒng)本身的成本。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實 施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面 描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講, 在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是是根據(jù)本發(fā)明實施例的業(yè)務(wù)系統(tǒng)故障告警系統(tǒng)的結(jié)構(gòu)示意圖2是根據(jù)本發(fā)明實施例的告警系統(tǒng)的結(jié)構(gòu)示意圖3是才艮據(jù)本發(fā)明實施例的業(yè)務(wù)系統(tǒng)故障告警方法的流程圖。
具體實施例方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行 清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作 出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。為更清楚地說明本發(fā)明,下面首先介紹幾個概念系統(tǒng)故障指軟件系統(tǒng)在某些特定的情況下出現(xiàn)了問題,如業(yè)務(wù)規(guī)則不 匹配、網(wǎng)絡(luò)不通、數(shù)據(jù)異常等。當(dāng)出現(xiàn)這類問題的時候,系統(tǒng)很可能已經(jīng)無 法正常工作。如果不能及時地發(fā)現(xiàn)這些問題,很可能會造成嚴重的后果。告警指通過短信、郵件、即時通訊軟件、語音等方式向指定的人發(fā)出 信息。該信息內(nèi)容包含系統(tǒng)發(fā)生的故障的詳細信息。分布式指告警系統(tǒng)和業(yè)務(wù)系統(tǒng)是獨立部署的,不在同一個機器上。本發(fā)明實施例提供的一種業(yè)務(wù)系統(tǒng)故障告警的方法,可以應(yīng)用于金融系 統(tǒng)、電子商務(wù)系統(tǒng)或其他系統(tǒng),包括接收來自分布式業(yè)務(wù)系統(tǒng)的告警信號, 從所述告警信號中獲取告警內(nèi)容和告警業(yè)務(wù)類型;才艮據(jù)所述告警業(yè)務(wù)類型獲 取接收告警內(nèi)容的至少一個接收端和發(fā)送方式信息;將包含所述告警內(nèi)容的 告警信息通過所述發(fā)送方式發(fā)送給所述接收端。應(yīng)用本發(fā)明,使得在業(yè)務(wù)系 統(tǒng)出現(xiàn)系統(tǒng)故障時,能夠及時地將告警信息通知給相關(guān)人員,提高了告警的 時效性,避免了在系統(tǒng)故障產(chǎn)生很久以后,甚至在出現(xiàn)重大損失時才發(fā)現(xiàn)問 題所造成的損失。由于本發(fā)明可以靈活配置由什么人接收告警信息,接收的 方式是什么,因而可使實現(xiàn)方式更靈活。本發(fā)明不但具有很好的時效性和靈 活性,而且實現(xiàn)方式簡單。由于本發(fā)明中的告警系統(tǒng)和業(yè)務(wù)系統(tǒng)是獨立部署 的,不在同一個設(shè)備上,因而一套告警設(shè)備可以為多個業(yè)務(wù)系統(tǒng)提供服務(wù), 節(jié)約了整個系統(tǒng)的成本,同時,由于不需每個業(yè)務(wù)系統(tǒng)都具備一套相似告警 系統(tǒng),也簡化了業(yè)務(wù)系統(tǒng),大大節(jié)約了各業(yè)務(wù)系統(tǒng)本身的成本。參見圖1,其是才艮據(jù)本發(fā)明實施例的一種業(yè)務(wù)系統(tǒng)故障告警的系統(tǒng),可 以應(yīng)用于金融系統(tǒng)、電子商務(wù)系統(tǒng)或其他領(lǐng)域的業(yè)務(wù)系統(tǒng),包括至少一個獨立于告警系統(tǒng)的業(yè)務(wù)系統(tǒng)101,用于發(fā)出告警信號;該告警 信號可以通過調(diào)用告警系統(tǒng)內(nèi)的告警服務(wù)的方式直接發(fā)送給告警系統(tǒng),或者, 在每個分布式的獨立于告警系統(tǒng)的業(yè)務(wù)系統(tǒng)內(nèi)設(shè)置用于告警的客戶端,該客戶端采集業(yè)務(wù)系統(tǒng)的故障信息,然后由該客戶端調(diào)用告警系統(tǒng)內(nèi)的告警服務(wù), 從而將告警信號發(fā)送給告警系統(tǒng),即通過用于告警的客戶端發(fā)送告警信號。告警系統(tǒng)102,用于接收來自所述業(yè)務(wù)系統(tǒng)的告警信號,從所述告警信
號中獲取告警內(nèi)容和告警業(yè)務(wù)類型;根據(jù)所述告警業(yè)務(wù)類型獲取告警內(nèi)容的 至少一個接收端和發(fā)送方式信息;將包含所述告警內(nèi)容的告警信息通過所述 發(fā)送方式發(fā)送給所述接收端。
上述告警系統(tǒng)102還用于對所發(fā)送的告警信息進行流量控制。
應(yīng)用本發(fā)明所述業(yè)務(wù)系統(tǒng)故障告警的系統(tǒng),當(dāng)業(yè)務(wù)系統(tǒng)中的故障檢測單 元檢測出業(yè)務(wù)系統(tǒng)出現(xiàn)故障時(業(yè)務(wù)規(guī)則不匹配、網(wǎng)絡(luò)不通等),可以用告警 系統(tǒng)的客戶端向告警系統(tǒng)發(fā)送一個消息,請求相關(guān)的人員進行處理。使得在 業(yè)務(wù)系統(tǒng)出現(xiàn)系統(tǒng)故障時,能夠及時地將告警信息通知給相關(guān)人員,提高了 告警的時效性,避免了在系統(tǒng)故障產(chǎn)生很久以后,甚至在出現(xiàn)重大損失時才 發(fā)現(xiàn)問題所造成的損失。再有,由于本發(fā)明可以靈活配置由什么人接收告警 信息,接收的方式是什么,因而可使實現(xiàn)方式更靈活。本發(fā)明不但具有4艮好 的時效性和靈活性,而且實現(xiàn)方式簡單。
參見圖2,其是根據(jù)本發(fā)明實施例的告警系統(tǒng)的結(jié)構(gòu)示意圖。所述告警系 統(tǒng)可以應(yīng)用于金融系統(tǒng)、電子商務(wù)系統(tǒng)或其他領(lǐng)域的業(yè)務(wù)系統(tǒng),其包括
配置管理單元204,用于保存告警業(yè)務(wù)類型,與告警業(yè)務(wù)類型對應(yīng)的接 收告警內(nèi)容的接收端,以及與告警業(yè)務(wù)類型對應(yīng)的發(fā)送方式信息;比如,配
置管理單元可以保存某個或某些告警業(yè)務(wù)類型,以及與某個或某些告警業(yè)務(wù) 類型對應(yīng)的發(fā)送告警內(nèi)容的發(fā)送方式、接收端等配置信息;該配置管理單元 還可以保存某個或某種發(fā)送方式的發(fā)送頻率等配置信息。此外,配置管理單 元還提供了一個管理界面,通過該管理界面可以實時地修改及新增所需要的 配置信息,而且修改后的配置會立即生效。
告警服務(wù)單元202,用于接收來自分布式業(yè)務(wù)系統(tǒng)的告警信號,將所述 告警信號傳送給告警控制器單元;告警服務(wù)單元是告警系統(tǒng)對外提供的服務(wù), 業(yè)務(wù)系統(tǒng)可以直接調(diào)用這個告警服務(wù)單元進行告警,但更好的^L法是通it^ 戶端來調(diào)用這個告警服務(wù)單元進行告警,因為客戶端封裝了告警系統(tǒng)的消息 傳輸細節(jié),不需要業(yè)務(wù)系統(tǒng)本身再對告警信號按照告警系統(tǒng)的要求進行封裝 處理。
告警控制器單元201,用于從所述告警信號中獲取告警內(nèi)容和告警業(yè)務(wù)類型,根據(jù)所述告警業(yè)務(wù)類型從配置管理單元獲取接收告警內(nèi)容的至少一個接收端和發(fā)送方式信息;指示消息發(fā)送器單元進行操作;告警控制器單元是 告警系統(tǒng)的中樞神經(jīng),負責(zé)協(xié)調(diào)消息發(fā)送器單元、流量控制單元等來合理的 發(fā)送告警信息。告警控制器單元會從告警信號中獲取告警內(nèi)容及告警業(yè)務(wù)類 型,然后根據(jù)告警業(yè)務(wù)類型從配置管理單元中查找相應(yīng)的消息接收端及消息 發(fā)送方式,最后調(diào)用消息發(fā)送器單元將告警消息發(fā)送給指定的接收端。消息發(fā)送器單元203,用于根據(jù)接收到的指示將包含所述告警內(nèi)容的告 警信息通過所述發(fā)送方式發(fā)送給所述接收端。上述消息發(fā)送器單元可以包括但不限于以下之一或任意組合郵件發(fā)送 器單元,短信發(fā)送器單元、語音發(fā)送器單元。由于配置管理單元204還用于保存發(fā)送方式所對應(yīng)的發(fā)送頻率;因此, 所述告警系統(tǒng)還可以包括流量控制單元205,用于根據(jù)所述發(fā)送頻率,對 所發(fā)送的告警信息進行流量控制。流量控制單元負責(zé)對消息發(fā)送的頻率進行 控制,避免短時間發(fā)送大量的消息,導(dǎo)致信息風(fēng)暴。具體的,可以對每個告 警業(yè)務(wù)類型所對應(yīng)的每種發(fā)送方式進行流量控制,如對于業(yè)務(wù)系統(tǒng)1的告警 信息,每10分鐘最多只能發(fā)送2個短信,10分鐘內(nèi)如果超過2個則不發(fā)送; 每5個小時內(nèi)可以發(fā)送10封郵件,5個小時內(nèi)如果超過10封則不發(fā)送。上述告警系統(tǒng)還可以包括至少一個客戶端206,每個客戶端用于接收 其所在業(yè)務(wù)系統(tǒng)的故障信息,將采集到的故障信息轉(zhuǎn)換為告警信號后發(fā)送至 告警服務(wù)單元。告警客戶端是為業(yè)務(wù)系統(tǒng)提供的一個便利工具,使業(yè)務(wù)系統(tǒng) 在需要告警時能夠非常方便的調(diào)用。客戶端負責(zé)將業(yè)務(wù)系統(tǒng)發(fā)出的告警消息 通過指定的協(xié)議或方式傳送給告警系統(tǒng),客戶端封裝了告警系統(tǒng)的消息傳輸 細節(jié)。在實際應(yīng)用中,上述配置管理單元和流量控制單元位于同一物理才莫塊, 也可以分別位于不同的物理模塊。應(yīng)用本發(fā)明所述的告警系統(tǒng),當(dāng)業(yè)務(wù)系統(tǒng)出現(xiàn)故障時(業(yè)務(wù)規(guī)則不匹配、 網(wǎng)絡(luò)不通等),可以用告警系統(tǒng)的客戶端向告警系統(tǒng)發(fā)送一個消息,請求相關(guān) 的人員進行處理。告警系統(tǒng)和業(yè)務(wù)系統(tǒng)分布式獨立部署,可以同時為多個業(yè) 務(wù)系統(tǒng)提供告警服務(wù)。告警系統(tǒng)中的配置管理單元,可以對告警系統(tǒng)進行配置,如針對某種類 型的業(yè)務(wù),將告警信息發(fā)送給哪些人、通過什么方式發(fā)送、發(fā)送告警信息的 頻率是多少等,這些配置都可以在系統(tǒng)運行時動態(tài)更新,如此可以做到對業(yè) 務(wù)系統(tǒng)沒有任何侵入,業(yè)務(wù)系統(tǒng)只管在發(fā)生故障問題時發(fā)出一個消息,至于
最終發(fā)送給誰以及通過什么方式發(fā)送都由告警系統(tǒng)的配置管理單元來配置;
告警系統(tǒng)中的流量控制單元,可以控制告警信息的發(fā)送頻率,避免在短時間
內(nèi)頻繁發(fā)送告警信息,產(chǎn)生信息風(fēng)暴,而告警頻率由配置管理單元設(shè)定;告 警系統(tǒng)中的消息發(fā)送器單元,負責(zé)將告警信息通過指定的方式發(fā)送給指定的 人。消息接受人及信息發(fā)送方式都由配置管理單元來配置,對于一個告警信 息,可以通過多種方式進行發(fā)送,針對每種發(fā)送方式都可以同時發(fā)送給多個 人。
應(yīng)用本發(fā)明所述的告警系統(tǒng),使得在業(yè)務(wù)系統(tǒng)出現(xiàn)系統(tǒng)故障時,能夠及 時地將告警信息通知給相關(guān)人員,提高了告警的時效性,避免了在系統(tǒng)故障 產(chǎn)生很久以后,甚至在出現(xiàn)重大損失時才發(fā)現(xiàn)問題所造成的損失。再有,由 于本發(fā)明可以靈活配置由什么人接收告警信息,接收的方式是什么,因而可 使實現(xiàn)方式更靈活。本發(fā)明不4旦具有很好的時效性和靈活性,而且實現(xiàn)方式 簡單。再有,由于本發(fā)明中的告警系統(tǒng)和業(yè)務(wù)系統(tǒng)是獨立部署的,不在同一 個設(shè)備上,因而一套告警設(shè)備可以為多個業(yè)務(wù)系統(tǒng)提供服務(wù),節(jié)約了整個系 統(tǒng)的成本,同時,由于不需每個業(yè)務(wù)系統(tǒng)都具備一套相似告警系統(tǒng),也簡化 了業(yè)務(wù)系統(tǒng),大大節(jié)約了各業(yè)務(wù)系統(tǒng)本身的成本。
需要說明的是,告警控制器單元201會維護一個消息隊列,當(dāng)有多個業(yè)務(wù) 系統(tǒng)或業(yè)務(wù)系統(tǒng)中的客戶端調(diào)用告警系統(tǒng)中的告警服務(wù)時,告警控制器會將 接收到的告警信號作為消息保存到所維護的消息隊列中,之后告警控制單元
息。如果消息隊列已滿或達到接收閾值,則告警控制器單元將所述消息隊列 中未處理的告警信號取出存入數(shù)據(jù)庫中,待系統(tǒng)空閑或有能力處理時,再從 所述數(shù)據(jù)庫中取出未處理的告警信號進行處理。上述數(shù)據(jù)庫可以位于內(nèi)存中, 也可以為于硬盤中。因而,應(yīng)用本發(fā)明不存在多個業(yè)務(wù)系統(tǒng)之間的告警沖突 問題。參見圖3,其是才艮據(jù)本發(fā)明實施例的業(yè)務(wù)系統(tǒng)故障告警方法的流程圖。其可以應(yīng)用于金融系統(tǒng)、電子商務(wù)系統(tǒng)或其他領(lǐng)域的業(yè)務(wù)系統(tǒng),具體包括步驟l,通過配置管理單元用于保存告警業(yè)務(wù)類型,與告警業(yè)務(wù)類型對應(yīng)的接收告警內(nèi)容的接收端,以及與告警業(yè)務(wù)類型對應(yīng)的發(fā)送方式信息;比如, 可以令配置管理單元保存某個或某些告警業(yè)務(wù)類型,以及與某個或某些告警 業(yè)務(wù)類型對應(yīng)的發(fā)送告警內(nèi)容的發(fā)送方式、接收端等配置信息;該配置管理 單元還可以保存某個或某種發(fā)送方式的發(fā)送頻率等配置信息。此外,配置管 理單元還提供了 一個管理界面,通過該管理界面可以實時地修改及新增所需 要的配置信息,而且修改后的配置會立即生效。步驟2 3,業(yè)務(wù)系統(tǒng)發(fā)出告警信號;該告警信號和通過調(diào)用告警系統(tǒng)內(nèi) 的告警服務(wù)直接發(fā)送給告警系統(tǒng),或者,在每個分布式的獨立于告警系統(tǒng)的 業(yè)務(wù)系統(tǒng)內(nèi)設(shè)置用于告警的客戶端,該客戶端采集業(yè)務(wù)系統(tǒng)的故障信息,然 后調(diào)用告警系統(tǒng)內(nèi)的告警服務(wù),從而將告警信號發(fā)送給告警系統(tǒng),即通過用 于告警的客戶端發(fā)送告警信號。本實施例中采用通過客戶端發(fā)送告警信號的方式,即業(yè)務(wù)系統(tǒng)通過客戶 端將告警信號發(fā)送給告警系統(tǒng)的告警控制器單元。步驟4,告警控制器單元接收到來自業(yè)務(wù)系統(tǒng)的告警信號后,從所述告警 信號中獲取告警內(nèi)容和告警業(yè)務(wù)類型,根據(jù)所述告警業(yè)務(wù)類型從配置管理單 元獲取接收告警內(nèi)容的至少一個接收端和發(fā)送方式信息;并且,告警控制器 單元還可以進一步從配置管理單元中獲取該告警業(yè)務(wù)類型所對應(yīng)的發(fā)送頻率 即流量。步驟5,告警控制器單元指示流量控制單元根據(jù)所述發(fā)送頻率,對所發(fā)送 的告警信息進行流量控制。這樣做的好處是,可以避免短時間發(fā)送大量的消 息,導(dǎo)致信息風(fēng)暴。具體的,可以對每個告警業(yè)務(wù)類型所對應(yīng)的每種發(fā)送方 式進行流量控制,如對于業(yè)務(wù)系統(tǒng)l的告警信息,每10分鐘最多只能發(fā)送2個 短信,10分鐘內(nèi)如果超過2個則不發(fā)送;每5個小時內(nèi)可以發(fā)送10封郵件,5 個小時內(nèi)如果超過10封則不發(fā)送。步驟6 7,告警控制器單元指示消息發(fā)送器單元進行操作;消息發(fā)送器 單元2根據(jù)接收到的指示將包含所述告警內(nèi)容的告警信息通過所述發(fā)送方式發(fā)送給所述接收端。對于一個告警信息,可以通過多種方式進行發(fā)送,針對 每種發(fā)送方式都可以同時發(fā)送給多個接收端,也就是說,每種發(fā)送方式都可 以同時發(fā)送給多個人。所述發(fā)送方式包括但不限于以下所述發(fā)送方式之一或任意組合通過郵 件方式發(fā)送、通過短消息方式發(fā)送、通過語音方式發(fā)送。應(yīng)用本發(fā)明所述的告警方法,使得在業(yè)務(wù)系統(tǒng)出現(xiàn)系統(tǒng)故障時,能夠及 時地將告警信息通知給相關(guān)人員,提高了告警的時效性,避免了在系統(tǒng)故障 產(chǎn)生很久以后,甚至在出現(xiàn)重大損失時才發(fā)現(xiàn)問題所造成的損失。再有,由 于本發(fā)明可以靈活配置將告警信息發(fā)送給哪些人、通過什么方式發(fā)送、發(fā)送 告警信息的頻率是多少,對于一個告警信息,可以通過多種方式進行發(fā)送, 針對每種發(fā)送方式都可以同時發(fā)送給多個人,因而可使實現(xiàn)方式更靈活。本 發(fā)明不但具有很好的時效性和靈活性,而且實現(xiàn)方式簡單。再有,由于本發(fā) 明中的告警系統(tǒng)和業(yè)務(wù)系統(tǒng)是獨立部署的,不在同一個設(shè)備上,因而一套告 警設(shè)備可以為多個業(yè)務(wù)系統(tǒng)提供服務(wù),節(jié)約了整個系統(tǒng)的成本,同時,由于 不需每個業(yè)務(wù)系統(tǒng)都具備一套相似告警系統(tǒng),也簡化了業(yè)務(wù)系統(tǒng),大大節(jié)約 了各業(yè)務(wù)系統(tǒng)本身的成本。需要說明的是,告警控制器單元會維護一個消息隊列,當(dāng)有多個業(yè)務(wù)系 統(tǒng)或業(yè)務(wù)系統(tǒng)中的客戶端調(diào)用告警系統(tǒng)中的告警服務(wù)時,告警控制器會將接 收到的告警信號作為消息保存到所維護的消息隊列中,之后告警控制單元會息。如果消息隊列已滿或達到接收閾值,則告警控制器單元將所述消息隊列 中未處理的告警信號取出存入數(shù)據(jù)庫中,待系統(tǒng)空閑或有能力處理時,再從 所述數(shù)據(jù)庫中取出未處理的告警信號進行處理。上述數(shù)據(jù)庫可以位于內(nèi)存中, 也可以為于硬盤中。因而,應(yīng)用本發(fā)明不存在多個業(yè)務(wù)系統(tǒng)之間的告警沖突 問題。本發(fā)明實施例中所述的業(yè)務(wù)系統(tǒng)可以是金融系統(tǒng)中、電子商務(wù)系統(tǒng)中的 某個業(yè)務(wù)系統(tǒng)或其他領(lǐng)域的某個業(yè)務(wù)系統(tǒng),如支付寶業(yè)務(wù)系統(tǒng)等。驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于計算機可讀取存儲介質(zhì)中,這里所稱得的存儲介質(zhì),如ROM/RAM、磁碟、光盤等。
以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范 圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等,均 包含在本發(fā)明的保護范圍內(nèi)。
權(quán)利要求
1、一種分布式業(yè)務(wù)系統(tǒng)故障告警的方法,其特征在于,包括接收來自分布式業(yè)務(wù)系統(tǒng)的告警信號;從所述告警信號中獲取告警內(nèi)容和告警業(yè)務(wù)類型;根據(jù)所述告警業(yè)務(wù)類型獲取接收告警內(nèi)容的至少一個接收端和發(fā)送方式信息;將包含所述告警內(nèi)容的告警信息通過所述發(fā)送方式發(fā)送給所述接收端。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述接收到的告警信號直接來自發(fā)生故障的分布式業(yè)務(wù)系統(tǒng);或者, 由設(shè)置在分布式業(yè)務(wù)系統(tǒng)內(nèi)的客戶端釆集業(yè)務(wù)系統(tǒng)的故障信息,所述接收到的告警信號來自所述客戶端。
3、 根據(jù)權(quán)利要求1所述的方法,其特征在于,進一步包括對所發(fā)送的 告警信息進行流量控制。
4、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述發(fā)送方式包括以下所 述發(fā)送方式之一或任意組合郵件、短消息、語音。
5、 一種分布式業(yè)務(wù)系統(tǒng)故障告警的系統(tǒng),其特征在于,包括 至少 一個獨立于告警系統(tǒng)的業(yè)務(wù)系統(tǒng),用于發(fā)出告警信號; 告警系統(tǒng),用于接收來自所述業(yè)務(wù)系統(tǒng)的告警信號,從所述告警信號中獲取告警內(nèi)容和告警業(yè)務(wù)類型;根據(jù)所述告警業(yè)務(wù)類型獲取告警內(nèi)容的至少 一個接收端和發(fā)送方式信息;將包含所述告警內(nèi)容的告警信息通過所述發(fā)送 方式發(fā)送給所述接收端。
6、 根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述告警系統(tǒng)還用于對所 發(fā)送的告警信息進行流量控制。
7、 一種告警系統(tǒng),其特征在于,包括配置管理單元,用于保存告警業(yè)務(wù)類型,與告警業(yè)務(wù)類型對應(yīng)的接收告 警內(nèi)容的接收端,以及與告警業(yè)務(wù)類型對應(yīng)的發(fā)送方式信息;告警服務(wù)單元,用于接收來自分布式業(yè)務(wù)系統(tǒng)的告警信號,將所述告警 信號傳送給告警控制器單元;所述告警控制器單元,用于從所述告警信號中獲取告警內(nèi)容和告警業(yè)務(wù) 類型,根據(jù)所述告警業(yè)務(wù)類型從配置管理單元獲取接收告警內(nèi)容的至少一個 接收端和發(fā)送方式信息;指示消息發(fā)送器單元進行l(wèi)喿作;消息發(fā)送器單元,用于根據(jù)接收到的指示將包含所述告警內(nèi)容的告警信 息通過所述發(fā)送方式發(fā)送給所述接收端。
8、 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述配置管理單元,還用于保存發(fā)送方式所對應(yīng)的發(fā)送頻率; 所述告警系統(tǒng)還包括流量控制單元,用于才艮據(jù)所述發(fā)送頻率,對所發(fā)送的告警信息進行流量 控制。
9、 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述告警系統(tǒng)還包括 至少一個客戶端,每個客戶端用于接收其所在業(yè)務(wù)系統(tǒng)的故障信息,將釆集到的故障信息轉(zhuǎn)換為告警信號后發(fā)送至告警服務(wù)單元。
10、 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述配置管理單元和流 量控制單元位于同一物理模塊,或分別位于不同的物理模塊。
全文摘要
本發(fā)明公開了一種分布式業(yè)務(wù)系統(tǒng)故障告警的方法、系統(tǒng)和裝置,所述方法包括接收來自分布式業(yè)務(wù)系統(tǒng)的告警信號,從所述告警信號中獲取告警內(nèi)容和告警業(yè)務(wù)類型;根據(jù)所述告警業(yè)務(wù)類型獲取告警內(nèi)容的至少一個接收端和發(fā)送方式信息;將包含所述告警內(nèi)容的告警信息通過所述發(fā)送方式發(fā)送給所述接收端。應(yīng)用本發(fā)明,使得在業(yè)務(wù)系統(tǒng)出現(xiàn)系統(tǒng)故障時,能夠及時地將告警信息通知給相關(guān)人員,提高了告警的時效性,避免了在系統(tǒng)故障產(chǎn)生很久以后,甚至在出現(xiàn)重大損失時才發(fā)現(xiàn)問題所造成的損失。再有,由于本發(fā)明可以靈活配置由什么人接收告警信息,接收的方式是什么,因而可使實現(xiàn)方式更靈活。本發(fā)明不但具有很好的時效性和靈活性,而且實現(xiàn)方式簡單。
文檔編號H04W24/00GK101409638SQ20081017704
公開日2009年4月15日 申請日期2008年11月19日 優(yōu)先權(quán)日2008年11月19日
發(fā)明者尤占濤 申請人:阿里巴巴集團控股有限公司