專(zhuān)利名稱(chēng):故障的監(jiān)視的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電信系統(tǒng)故障的監(jiān)視。電信網(wǎng)具有分布在寬廣范圍上的大量部件,因而當(dāng)這些部件出現(xiàn)故障時(shí)能夠予以識(shí)別,并在這些故障對(duì)網(wǎng)絡(luò)的用戶(hù)顯露出要形成服務(wù)中斷前迅速地予以處理,將是十分重要的。而網(wǎng)絡(luò)的用戶(hù)可能具有與網(wǎng)絡(luò)的運(yùn)營(yíng)者簽定的服務(wù)水平的合同,該合同規(guī)定了如果中斷超過(guò)預(yù)定限制時(shí)的合同處罰條款。對(duì)于識(shí)別故障和告警網(wǎng)絡(luò)運(yùn)營(yíng)者以便可以采取補(bǔ)救措施來(lái)說(shuō),許多方法是公知的。對(duì)于這個(gè)規(guī)范的目的而言,包含在術(shù)語(yǔ)“故障”中的意義不僅僅是設(shè)備的故障或服務(wù)的中斷,而且還在于諸如過(guò)載之類(lèi)的事件,這種過(guò)載可能是由于外部引起的,但是需要補(bǔ)救措施。
系統(tǒng)的不同用戶(hù)需要在不同環(huán)境下的通知。電信網(wǎng)絡(luò)的運(yùn)營(yíng)者對(duì)于監(jiān)視設(shè)備負(fù)責(zé),需要知道各個(gè)設(shè)備的故障。但是,有可能在電信網(wǎng)絡(luò)中設(shè)備的一個(gè)單元出現(xiàn)故障卻并沒(méi)有立即影響到提供給用戶(hù)的服務(wù)水平,例如可以利用各替代路由,或者該用戶(hù)沒(méi)有利用該系統(tǒng)的全部容量。相反,當(dāng)在設(shè)備的各個(gè)單元沒(méi)有出故障時(shí)用戶(hù)也可能經(jīng)受服務(wù)中斷,例如如果該系統(tǒng)的所有用戶(hù)的總使用需求超過(guò)了該系統(tǒng)的容量。為了監(jiān)視提供給其各個(gè)用戶(hù)的服務(wù),網(wǎng)絡(luò)運(yùn)營(yíng)者也需要得到這種服務(wù)中斷的通知。
例如,在電信網(wǎng)絡(luò)中,如果一個(gè)信道正在滿(mǎn)載容量運(yùn)行,在這個(gè)信道中任何另外的呼叫償試都將被視為故障。如果這種呼叫故障的出現(xiàn)率增加,則表示該網(wǎng)絡(luò)處于滿(mǎn)載容量狀態(tài)的時(shí)間比率正在增加。補(bǔ)救措施是可能的,例如從另外一處重新分配容量(例如,在時(shí)分多址系統(tǒng)中的第二信道)。在對(duì)一個(gè)用戶(hù)服務(wù)中斷的情況下,這些中斷可以被記錄。服務(wù)水平合同的性質(zhì)將確定哪些信息是所需要的,但是在大多數(shù)情況下同意一個(gè)保證的最低水平。該最低水平可以是,可用服務(wù)的時(shí)間的商定的比例。在其它的一些情況中,例如當(dāng)再起動(dòng)程序是很復(fù)雜的情況下,分開(kāi)的中斷次數(shù)可以用作附加的或另外的準(zhǔn)則。
在故障監(jiān)視中存在一個(gè)困難,即,一些瞬態(tài)特性的現(xiàn)象可以指示實(shí)際的或即將出現(xiàn)的潛在難題的存在,但是可以代之以并非不重要的統(tǒng)計(jì)起伏。一個(gè)看來(lái)其自生自滅的瞬態(tài)故障可以表示該故障起因已經(jīng)停止,或者它可以表示存在一個(gè)潛在的問(wèn)題,并在某些條件下該故障將會(huì)再次發(fā)生。當(dāng)一個(gè)告警由于系統(tǒng)特性超過(guò)預(yù)定閾值而被觸發(fā)時(shí),這個(gè)問(wèn)題的特定具體情況便出現(xiàn)。如果該閾值設(shè)置的太高,告警指示器將不能被觸發(fā),直至飽和已經(jīng)臨界,未留有采取補(bǔ)救措施的安全邊界。但是,如果閾值設(shè)置得太低,將會(huì)有過(guò)量的假告警指示。根據(jù)各個(gè)用戶(hù)的要求,瞬態(tài)故障的重要性可能是不同的。對(duì)于其終端設(shè)備包括糾錯(cuò)設(shè)施的用戶(hù)來(lái)說(shuō),瞬態(tài)故障可能是不重要的。但是,作為用戶(hù)而言,對(duì)于任何中斷,即使是短的,也需要有包含復(fù)雜的安全程序的重新啟動(dòng)操作或者需要作現(xiàn)場(chǎng)訪(fǎng)問(wèn)以便重新設(shè)置設(shè)備,因而大量的瞬態(tài)中斷比單個(gè)的較長(zhǎng)時(shí)間中斷更壞。
瞬態(tài)故障必須以與非瞬態(tài)故障不同的方式進(jìn)行處理。各瞬態(tài)故障如能自行清除,這樣就不需要采取任何補(bǔ)救措施來(lái)人工清除它們。但是,正因?yàn)樗鼈兦宄鼈儽旧?,所以檢測(cè)瞬態(tài)故障的原因或識(shí)別可以指示潛在問(wèn)題的方式是很困難的。
從文獻(xiàn)IBM Technical Disclosure Bulletin No.7(Dec.1992)中已知一種先有技術(shù)的故障監(jiān)視系統(tǒng)。這個(gè)系統(tǒng)通過(guò)每秒檢測(cè)傳輸差錯(cuò)記錄是否存在故障。如果在15分鐘周期內(nèi)檢測(cè)故障的各個(gè)秒的數(shù)目X超過(guò)第一閾值L,或者,如果在24小時(shí)周期內(nèi)檢測(cè)故障的各個(gè)秒的數(shù)目Z超過(guò)第二閾值(該第二閾值正比于測(cè)量周期的大小且大大低于L),則發(fā)出告警。這個(gè)安排允許對(duì)于長(zhǎng)期的和短期的要被檢測(cè)的故障率在統(tǒng)計(jì)上明顯的變化,允許迅速地檢測(cè)到突然大的變化,還檢測(cè)到較小的長(zhǎng)期的變化,這是因?yàn)檩^大的樣值數(shù)在統(tǒng)計(jì)上是重要的,而不存在由正常短期間的統(tǒng)計(jì)上的起伏引起的假告警。
這種先有技術(shù)的系統(tǒng)僅監(jiān)視出現(xiàn)故障的秒的數(shù)目。然而,并未將各個(gè)故障的持續(xù)期考慮進(jìn)去。例如,每個(gè)小于一秒的9個(gè)個(gè)別的故障,或一個(gè)單個(gè)9秒的故障都可能引起在15分鐘周期中的9個(gè)“差錯(cuò)秒”的報(bào)告。還可以對(duì)于同時(shí)發(fā)生的單獨(dú)的各個(gè)故障或重疊持續(xù)期的故障不作規(guī)定;僅每秒鐘最大的一個(gè)故障可以被記錄。
按照本發(fā)明的第一個(gè)方面,提供一種監(jiān)視電信系統(tǒng)故障和響應(yīng)該故障產(chǎn)生告警的方法,所述方法包括監(jiān)視發(fā)生故障的系統(tǒng)、測(cè)量每個(gè)故障的持續(xù)期、如果該故障的持續(xù)期超過(guò)預(yù)定值則啟動(dòng)告警指示器、以及如果故障的持續(xù)期未超過(guò)該預(yù)定值則遞增所存儲(chǔ)的值的各個(gè)步驟。
按照第二個(gè)方面,提供一種用于監(jiān)視出現(xiàn)故障的電信系統(tǒng)的設(shè)備,包括告警指示器、用于檢測(cè)故障的出現(xiàn)的檢測(cè)裝置、用于測(cè)量每個(gè)故障的持續(xù)期的定時(shí)裝置,用于當(dāng)由定時(shí)裝置測(cè)量的持續(xù)期超過(guò)預(yù)定值時(shí)啟動(dòng)告警的啟動(dòng)裝置、用于存儲(chǔ)一個(gè)計(jì)數(shù)數(shù)字的計(jì)數(shù)裝置、以及用于當(dāng)由定時(shí)裝置測(cè)量的持續(xù)期未超過(guò)該預(yù)定值時(shí)遞增存儲(chǔ)在計(jì)數(shù)裝置中的計(jì)數(shù)數(shù)字的遞增裝置。
以這樣一種方式,在一個(gè)預(yù)定周期中未自己消除的和必須起作用的故障可以被從各瞬態(tài)故障報(bào)告中區(qū)別出來(lái),該故障可以被存儲(chǔ)用于進(jìn)一步分析,不需要對(duì)每個(gè)個(gè)別故障都必須告警系統(tǒng)操作者。
最好是,對(duì)各個(gè)故障的發(fā)生和清除時(shí)間進(jìn)行記錄,和一個(gè)故障的發(fā)生時(shí)間被記錄后,啟動(dòng)一個(gè)延遲周期,和如果在延遲周期期滿(mǎn)前故障的清除被記錄,則該存儲(chǔ)的值被遞增,和如果該故障被消除前延遲周期期滿(mǎn),則啟動(dòng)告警指示器。
最好是還監(jiān)視系統(tǒng)或系統(tǒng)的一個(gè)功能對(duì)用戶(hù)的不可用性的出現(xiàn)。
一個(gè)優(yōu)選的安排中,如果在預(yù)定時(shí)間間隔內(nèi)存儲(chǔ)值等于或者大于一個(gè)閾值時(shí),啟動(dòng)告警指示器。這個(gè)附加特征是在申請(qǐng)人與本案相同日期提交的和要求相同的優(yōu)先權(quán)、代理人參考號(hào)為A25113的共同未決PCT申請(qǐng)的主題。
這種安排測(cè)量實(shí)際各故障的出現(xiàn)頻度,這與上面討論的先有技術(shù)的安排的測(cè)量一個(gè)故障或各個(gè)故障存在的時(shí)間比例不同。通過(guò)響應(yīng)各個(gè)故障出現(xiàn)的頻度產(chǎn)生告警指示,從而,是否該故障要求予以注意,這對(duì)于系統(tǒng)的操作員來(lái)說(shuō),比起凡是出現(xiàn)瞬態(tài)故障都直接向操作者告警,是可以利用的一個(gè)較好的指示。對(duì)于用戶(hù)來(lái)說(shuō),該系統(tǒng)可以被用于識(shí)別服務(wù)不可以使用的次數(shù)。
最好是,該方法包括以下步驟建立一個(gè)分析周期;連續(xù)地監(jiān)視系統(tǒng)各個(gè)故障的出現(xiàn);在短于分析周期的一個(gè)掃描期間的終點(diǎn),對(duì)在掃描期間的終點(diǎn)結(jié)束的分析周期期間中的故障出現(xiàn)的數(shù)目進(jìn)行計(jì)數(shù);和如果在分析周期中出現(xiàn)故障的數(shù)目等于或大于一個(gè)閾值,則啟動(dòng)一個(gè)告警指示器。
最好是,對(duì)各個(gè)故障的發(fā)生和清除的時(shí)間進(jìn)行記錄,在每個(gè)掃描期間的終點(diǎn),從記錄的消除時(shí)間算起,時(shí)間大于已經(jīng)消逝過(guò)的分析周期的各故障不被計(jì)數(shù)。
最好還是,如果故障的出現(xiàn)次數(shù)在第一和第二閾值之間,該告警指示器被保持在它的現(xiàn)行狀態(tài)。
在一個(gè)優(yōu)選安排中,如果在分析期間故障的出現(xiàn)次數(shù)等于或低于第二閾值(該第二閾值小于第一閾值),則該告警指示器不被啟動(dòng)。
這一告警指示器是可以與如果故障周期超過(guò)預(yù)定值而被啟動(dòng)的指示器一樣的。它可以被安排為,只要存儲(chǔ)值超過(guò)第二閾值或者一個(gè)持續(xù)期大于預(yù)定值的故障仍未被清除時(shí)都保持被啟動(dòng)。告警可以具有不同的啟動(dòng)方式,這取決于是否所存儲(chǔ)的值仍然高于它的閾值、或一個(gè)長(zhǎng)持續(xù)期的故障仍然未被清除、或者兩者兼有之。
在另外的安排中,如果在分析周期中故障發(fā)生的次數(shù)等于或大于一個(gè)閾值,另一個(gè)告警指示器也可以被啟動(dòng)。另一個(gè)告警指示器在被操作者確認(rèn)之前一直保持啟動(dòng)。
計(jì)數(shù)裝置可以包括一個(gè)存儲(chǔ)器,它被安排為用于存儲(chǔ)在多個(gè)掃描期間的每個(gè)周期中故障條件出現(xiàn)的次數(shù),所述多個(gè)掃描期間的總的周期是分析周期。預(yù)定的周期和掃描期間的持續(xù)期是可選擇的。
最好是,該設(shè)備包括一個(gè)更新處理器,它被安排為用于在每個(gè)掃描期間的終點(diǎn)檢索在存儲(chǔ)器中所存儲(chǔ)的數(shù)據(jù)和饋送數(shù)據(jù)給計(jì)數(shù)裝置,并指令該存儲(chǔ)器刪除有關(guān)存儲(chǔ)數(shù)據(jù)的最早掃描期間的數(shù)據(jù)。
最好是,提供用于從具有第二預(yù)定特征的那些故障中區(qū)別具有第一預(yù)定特征的故障條件的出現(xiàn)的鑒別裝置,上述計(jì)數(shù)裝置被安排為分別計(jì)數(shù)具有每種特征出現(xiàn)的那些故障,或僅計(jì)數(shù)一種類(lèi)型故障。該計(jì)數(shù)裝置還可以被安排為占優(yōu)方式的(to be overridden),從而可以懸置其操作。這允許在服務(wù)中的例行測(cè)試和預(yù)安排的中斷在分析中不予計(jì)數(shù),以避免虛假告警的產(chǎn)生。
現(xiàn)將參照各附圖僅以例子的方式對(duì)本發(fā)明的實(shí)施例進(jìn)行描述。
圖1是出現(xiàn)在電信系統(tǒng)中的一系列故障的表示圖;圖2是表示按照本發(fā)明的用于監(jiān)視電信網(wǎng)絡(luò)的中斷故障條件的設(shè)備的各種部件連同要被監(jiān)視的網(wǎng)絡(luò)的部件的功能方框圖;圖3表示適合于本發(fā)明工作的計(jì)算機(jī)的一般構(gòu)成。
圖1表示出現(xiàn)在電信系統(tǒng)中將利用實(shí)施本發(fā)明的設(shè)備進(jìn)行監(jiān)視的特定類(lèi)型瞬態(tài)故障的時(shí)間序列。例如,該系統(tǒng)可以是一個(gè)電信系統(tǒng)和故障可以是在通信信道中的過(guò)載,和對(duì)一個(gè)具體用戶(hù)中斷服務(wù)。
在下面將要參照?qǐng)D2進(jìn)行描述的監(jiān)視設(shè)備中,時(shí)間被分為若干每個(gè)長(zhǎng)度為t的掃描期間t1、t2等。在這個(gè)實(shí)施例中,掃描期間顯著大于故障的持續(xù)期長(zhǎng),和有可能在相同掃描期間中出現(xiàn)多于一個(gè)故障。對(duì)分析周期進(jìn)行定義。在這個(gè)說(shuō)明的例子中,分析周期T三倍于掃描期間t。但是,實(shí)際上分析周期可能大大長(zhǎng)于這種情況。
本發(fā)明在各瞬態(tài)故障和這些較長(zhǎng)的持續(xù)期的故障之間作出區(qū)別。當(dāng)一個(gè)故障被識(shí)別時(shí)啟動(dòng)一個(gè)延遲周期。該延遲周期的長(zhǎng)度對(duì)于不同的用戶(hù)和對(duì)于不同的服務(wù)可以加以配置。如果在延遲周期期間故障沒(méi)有消除,則觸發(fā)一個(gè)告警指示器。這個(gè)告警指示器可以與如果超過(guò)閾值數(shù)則被觸發(fā)的告警指示器是相同的,但是最好是,告警是彼此不同的,或者告警具有不同的啟動(dòng)狀態(tài),以便單個(gè)的長(zhǎng)的中斷和一系列短的中斷可以被區(qū)分開(kāi),使得操作員響應(yīng)各個(gè)告警,按照優(yōu)先次序安排其操作。但是,如果故障在延遲周期已經(jīng)清除,則該故障被分類(lèi)為瞬態(tài)告警和對(duì)于當(dāng)前掃描期間來(lái)說(shuō)一種服務(wù)水平的瞬態(tài)故障的點(diǎn)數(shù)被加1。如果在相同掃描期間中多于一次的預(yù)定故障出現(xiàn)和清除,則對(duì)于該掃描期間的最后瞬態(tài)故障點(diǎn)數(shù)將是發(fā)生在該周期中出現(xiàn)故障的數(shù)倍。在一個(gè)瞬態(tài)故障被報(bào)告后,可以提供一個(gè)仍然進(jìn)行啟動(dòng)的單獨(dú)的告警,直至該告警通過(guò)操作員的確認(rèn)而被清除。
在這個(gè)例子中,瞬態(tài)故障A、B、C、D、E分別出現(xiàn)在掃描期間t2、t4(兩個(gè))t6和t7中。
在每個(gè)掃描期間的終點(diǎn),該設(shè)備對(duì)在分析周期T期間已經(jīng)發(fā)生的故障數(shù)進(jìn)行計(jì)數(shù),在這個(gè)例子中包括至少三個(gè)掃描期間,如果數(shù)目達(dá)到或超過(guò)一個(gè)閾值,在這個(gè)例子中設(shè)置為值3,則告警指示器被觸發(fā)。僅當(dāng)在分析周期中的數(shù)目等于或低于第二閾值,在這個(gè)例子是1以下時(shí),告警指示器被清除。選擇不同的閾值,以避免間歇告警的發(fā)生,否則當(dāng)瞬態(tài)故障的出現(xiàn)率接近一個(gè)單一的閾值時(shí),這種間歇告警可能出現(xiàn)。例如,在掃描期間的終點(diǎn)只有一個(gè)故障A在分析周期t1+t2+t3中被計(jì)數(shù)。在下一個(gè)掃描期間t4的終點(diǎn)有3個(gè)故障A、B、C在分析周期t2+t3+t4中被計(jì)數(shù),因而告警指示器被觸發(fā)。在下一個(gè)掃描期間t5的終點(diǎn),僅兩個(gè)故障被計(jì)數(shù),因?yàn)楣收螦現(xiàn)在在分析周期t3+t4+t5以外。雖然兩個(gè)故障低于告警閾值3,但該告警未被清除,因?yàn)樵诜治鲋芷谥械墓收蠑?shù)目尚未低于第二閾值。
在掃描期間t6結(jié)束時(shí),再次有三個(gè)故障B、C、D處在分析周期中。在掃描期間t7結(jié)束時(shí)僅有兩個(gè)故障D和E,因?yàn)殡m然增加了故障E(在掃描期間t7),但故障B和C現(xiàn)已在分析周期t5+t6+t7以外。然而告警指示器仍然保持通,這是因?yàn)椤宄撝滴幢怀^(guò)。在周期t9的終點(diǎn),僅故障E處在分析周期t7+t8+t9內(nèi),這樣,故障數(shù)目已經(jīng)低于閾值,因而告警指示器被清除。但是,如果故障‘E’的后續(xù)周期t8或t9中有一個(gè)或多個(gè)故障的故障組的話(huà),第二閾值原本不會(huì)達(dá)到,因而告警指示器也不能被清除。
應(yīng)當(dāng)指出,雖然在周期t6開(kāi)始的故障E是在周期t7被計(jì)數(shù),但是在周期t7該故障被清除。這樣避免了故障E的雙重計(jì)數(shù)。該清除時(shí)間被利用,因?yàn)樵趻呙杵陂gt6的終點(diǎn)該故障的持續(xù)期是不確定的,它可以是一個(gè)長(zhǎng)持續(xù)期的故障(見(jiàn)在掃描期間t9、t10中的故障F)。
現(xiàn)在參照?qǐng)D2,其中表示出用于監(jiān)視在包括電信部件2到5的電信網(wǎng)絡(luò)21中的故障的設(shè)備20的各功能組成部分的功能方框圖。這些部件可以是該網(wǎng)絡(luò)的功能部件,或者可以是由網(wǎng)絡(luò)提供給用戶(hù)的服務(wù)部件。
設(shè)備20實(shí)現(xiàn)在如圖3所示的常規(guī)結(jié)構(gòu)的一個(gè)計(jì)算機(jī)上,該設(shè)備包括存儲(chǔ)器220、顯示器222和鍵盤(pán)224、中央處理單元226和接口228。存儲(chǔ)器220可以由硬盤(pán)、隨機(jī)存取存儲(chǔ)器(RAM)和只讀存儲(chǔ)器(ROM)的組合實(shí)現(xiàn)。計(jì)算機(jī)具有存儲(chǔ)在其存儲(chǔ)器220中的程序和該程序包括對(duì)應(yīng)于如圖2所示的功能組成部分1、6、7、8、9、10、11、12、13、14、15和16的一組程序模塊。
設(shè)備20包括用于監(jiān)視網(wǎng)絡(luò)21在其各種網(wǎng)絡(luò)部件2、3、4、5的故障的故障監(jiān)視器1。監(jiān)視器1提供一個(gè)輸出首先到故障持續(xù)期鑒別器6,該鑒別器識(shí)別該故障是長(zhǎng)持續(xù)期的還是短持續(xù)期的。如果該故障在預(yù)定時(shí)間內(nèi)已被清除,鑒別器6產(chǎn)生將被發(fā)送到存儲(chǔ)器8的關(guān)于該故障的信息。存儲(chǔ)的關(guān)于每個(gè)故障的信息包括關(guān)于網(wǎng)絡(luò)部件2、3、4和5的信息,這些信息涉及故障的發(fā)生時(shí)間和故障的清除時(shí)間。發(fā)生時(shí)間和清除時(shí)間可以由相關(guān)網(wǎng)絡(luò)部件2、3、4或5進(jìn)行報(bào)告,或者由監(jiān)視器1進(jìn)行報(bào)告。如果該故障在預(yù)定時(shí)間內(nèi)沒(méi)有被清除,則鑒別器使告警指示器7啟動(dòng),在顯示器222上向用戶(hù)指示一個(gè)非瞬態(tài)故障。對(duì)于某些用途,還需要向用戶(hù)告警所發(fā)生的瞬態(tài)故障,例如,在一次中斷后,如果設(shè)備需要重新設(shè)置的情況下。如果要求這樣的安排,每當(dāng)監(jiān)視器1檢測(cè)到一個(gè)故障時(shí),告警指示器7都被啟動(dòng)。
更新處理器9在定時(shí)器10所控制的掃描期間t中周期性地從存儲(chǔ)器8中檢索數(shù)據(jù)。更新處理器9指令存儲(chǔ)器8刪除有關(guān)周期T(分析周期)已經(jīng)過(guò)去的任何故障的信息,因?yàn)檫@些故障已經(jīng)被清除。分析周期T和掃描期間t是可以選擇的,但服從于掃描期間不得超過(guò)分析周期。一般,分析周期T若干倍于掃描期間t,使得在每個(gè)掃描期間的結(jié)束時(shí),在以前T/t的掃描期間中的故障被檢索到。然后,處理器9傳送數(shù)據(jù)到計(jì)數(shù)器11,該計(jì)數(shù)器計(jì)數(shù)涉及每個(gè)部件2、3、4、5的故障數(shù)目,該各故障在以前的分析周期被清除。得到的各個(gè)值被傳送到比較器12,該比較器比較該各個(gè)值與存儲(chǔ)在閾值存儲(chǔ)器13中的啟動(dòng)和去啟動(dòng)的閾值,其結(jié)果被傳送到告警控制器14。告警控制器14還接收來(lái)自告警狀態(tài)監(jiān)視器15的輸入信號(hào),并根據(jù)其預(yù)存在的狀態(tài)和來(lái)自比較器12的結(jié)果,按照如下真值表使告警指示器7進(jìn)行操作(啟動(dòng)或者清除)。<
>因此,當(dāng)計(jì)數(shù)值等于或小于去啟動(dòng)閾值時(shí),告警指示器被關(guān)斷。如果計(jì)數(shù)值上升到去啟動(dòng)閾值,告警指示器7仍然‘關(guān)斷’,直至如果計(jì)數(shù)值達(dá)到或高于啟動(dòng)閾值,告警指示器才被接通。如果處于各閾值之間,告警指示器仍然保持在‘通’狀態(tài)。如果計(jì)數(shù)值進(jìn)一步降至等于或低于去啟動(dòng)閾值,告警被關(guān)斷。
告警指示器可以被保持在它的啟動(dòng)狀態(tài),直至從它的啟動(dòng)開(kāi)始的預(yù)定的掃描期間數(shù)目已經(jīng)過(guò)去(即使去啟動(dòng)閾值被通過(guò))以便允許有足夠的時(shí)間終于引起操作員的注意。告警還可以由人工清除??梢蕴峁┮环N單獨(dú)的告警,這種告警在一個(gè)瞬態(tài)故障被報(bào)告后仍然保持啟動(dòng),直至由操作員進(jìn)行確認(rèn),該告警才被清除。
與鍵盤(pán)224或另外的輸入裝置(例如,“鼠標(biāo)”)相連的用戶(hù)輸入端16允許對(duì)由故障持續(xù)期鑒別器6使用的故障持續(xù)期、由定時(shí)器10使用的掃描期間、由更新處理器9使用的分析周期和存儲(chǔ)在閾值存儲(chǔ)器13中的各閾值進(jìn)行選擇,和允許對(duì)這些將由監(jiān)視器1進(jìn)行監(jiān)視的各個(gè)部件2、3、4、5進(jìn)行選擇。
告警指示器7向用戶(hù)提供有關(guān)部件2、3、4、5中的哪個(gè)部件已經(jīng)使告警指示器7啟動(dòng)和該啟動(dòng)是由長(zhǎng)持續(xù)期故障引起還是由較短持續(xù)期故障引起方面的信息。
現(xiàn)在將參照表示在圖1的故障序列對(duì)該設(shè)備的工作進(jìn)行描述。為了說(shuō)明起見(jiàn),僅對(duì)一個(gè)部件2進(jìn)行監(jiān)視,長(zhǎng)/短故障的閾值被設(shè)置為5分鐘,掃描期間設(shè)置為20分鐘,分析周期設(shè)置為1小時(shí),告警指示器啟動(dòng)閾值設(shè)置為3和告警指示器去啟動(dòng)閾值設(shè)置為1。僅出于說(shuō)明的目的這些值被進(jìn)行了選擇,因而這些值無(wú)需代表一個(gè)實(shí)際系統(tǒng)的適當(dāng)值。假設(shè),在使說(shuō)明的時(shí)間周期的開(kāi)始,在存儲(chǔ)器8中沒(méi)有故障被記錄,并假設(shè)告警指示器7尚未被啟動(dòng)。
定時(shí)器10觸發(fā)更新處理器9使其每20分鐘工作一次。在第一次這樣的操作中,在掃描期間的終點(diǎn)t1,存儲(chǔ)器8沒(méi)有存儲(chǔ)有數(shù)據(jù),這樣更新處理器9從存儲(chǔ)器8中未檢索到數(shù)據(jù)。計(jì)數(shù)器11傳送一個(gè)0結(jié)果到比較器12,比較器12比較這個(gè)結(jié)果與啟動(dòng)和去啟動(dòng)閾值。因?yàn)?計(jì)數(shù)小于該兩個(gè)閾值,所以告警指示器7不被啟動(dòng)。在第二個(gè)掃描期間t2期間,故障A被計(jì)數(shù)器1檢測(cè)到。這個(gè)故障在由鑒別器6所設(shè)置的5分鐘閾值之前清除,所以,與故障A相關(guān)的數(shù)據(jù)被傳送到存儲(chǔ)器8。在掃描期間的終點(diǎn)更新處理器9檢索關(guān)于故障A的數(shù)據(jù),但不從存儲(chǔ)器8中刪除故障A,因?yàn)闀r(shí)間小于從該故障出現(xiàn)時(shí)已經(jīng)過(guò)去的分析周期T。該數(shù)據(jù)被傳送到計(jì)數(shù)器11,并且該值1在比較器12中與存儲(chǔ)在閾值存儲(chǔ)器13中的值進(jìn)行比較?,F(xiàn)在計(jì)數(shù)器處于去啟動(dòng)閾值,但是告警指示器7仍未被啟動(dòng),并且計(jì)數(shù)仍然低于啟動(dòng)閾值,這樣,告警指示器7未被啟動(dòng)。
類(lèi)似地,在掃描期間t3的終點(diǎn),沒(méi)有故障被增加到存儲(chǔ)器8中,并且對(duì)于長(zhǎng)于分析周期T的時(shí)間來(lái)說(shuō),沒(méi)有新的故障被存入存儲(chǔ)器,這樣,更新、計(jì)數(shù)和比較處理都是針對(duì)以前的掃描期間t2進(jìn)行的。
在掃描期間t4期間出現(xiàn)兩個(gè)短的故障B和C。這些故障以與故障A在掃描期間t2被記錄的相同的方式被增加到存儲(chǔ)器8中。在掃描期間t4結(jié)束時(shí),現(xiàn)在計(jì)數(shù)器11計(jì)數(shù)三個(gè)故障。這個(gè)值3與存儲(chǔ)在閾值存儲(chǔ)器13中的值進(jìn)行比較,并發(fā)現(xiàn)將達(dá)到啟動(dòng)閾值。來(lái)自比較器12的輸出連同來(lái)自指示告警指示器當(dāng)前未被啟動(dòng)的告警指示器狀態(tài)監(jiān)視器15的輸入一起被輸入到告警指示器控制器14。這使告警控制器14啟動(dòng)告警指示器7。
在掃描期間t5期間沒(méi)有另外的故障出現(xiàn)。在掃描期間t5結(jié)束時(shí)更新處理器識(shí)別故障A為在當(dāng)前之前大于時(shí)間T的時(shí)間范圍在掃描期間t2已經(jīng)出現(xiàn)過(guò)的故障。因此故障A被從存儲(chǔ)器8中刪除。從而,計(jì)數(shù)器11僅計(jì)數(shù)兩個(gè)故障(故障B和C)并且值2與存儲(chǔ)在存儲(chǔ)器13中的閾值進(jìn)行比較。雖然現(xiàn)在該值已經(jīng)低于啟動(dòng)閾值,但它仍然高于去啟動(dòng)閾值,所以告警指示器7仍然處于當(dāng)前的(啟動(dòng)的)狀態(tài)。
故障D在掃描期間t6期間出現(xiàn),而另外的故障E也發(fā)生在該掃描期間的終點(diǎn)。由于故障E尚未消除,它不能被確定將是否超出長(zhǎng)/短鑒別閾值。
在掃描期間t6結(jié)束時(shí),更新處理器因此找到3個(gè)存儲(chǔ)在存儲(chǔ)器8中的故障B、C和D,它們?cè)诖鎯?chǔ)器中存儲(chǔ)的時(shí)間都不比全部分析周期T長(zhǎng)。因此它們不被從存儲(chǔ)器8中刪除,并全都由計(jì)數(shù)器11進(jìn)行計(jì)數(shù)。由計(jì)數(shù)器11確定的值3被與存儲(chǔ)在閾值存儲(chǔ)器13中的閾值進(jìn)行比較并被發(fā)現(xiàn)為處于啟動(dòng)閾值。因?yàn)楦婢甘酒鳡顟B(tài)監(jiān)視器15識(shí)別該告警指示器7已經(jīng)被啟動(dòng),所以不再產(chǎn)生新的告警指示。
在掃描期間t7故障E在長(zhǎng)/短鑒別閾值內(nèi)消除,所以被存儲(chǔ)再存儲(chǔ)器8中。在掃描期間t7結(jié)束時(shí),更新處理器通過(guò)刪除故障B和C更新存儲(chǔ)器8,因?yàn)閺倪@些故障出現(xiàn)算起,現(xiàn)在分析周期T已經(jīng)逝過(guò)。因此計(jì)數(shù)器11僅計(jì)數(shù)兩個(gè)故障D和E,這個(gè)2的值由比較器12與各閾值進(jìn)行比較。雖然該值已經(jīng)再次降到啟動(dòng)閾值以下,但它仍然高于去啟動(dòng)閾值,這樣,告警指示器7仍然保持在其當(dāng)前(啟動(dòng)的)的狀態(tài)。類(lèi)似地,現(xiàn)在在掃描期間t8中沒(méi)有新的故障出現(xiàn)和沒(méi)有故障被更新處理器9進(jìn)行刪除,這樣,由計(jì)數(shù)器11計(jì)數(shù)的故障數(shù)目仍然為2和告警指示器7仍然被啟動(dòng)。
接近掃描期間t9的終點(diǎn)時(shí)出現(xiàn)另外的故障F,但是在該掃描期間結(jié)束前,未到達(dá)長(zhǎng)/短鑒別閾值或在掃描期間結(jié)束前被消除。在周期t9的終點(diǎn)故障D由更新處理器9從存儲(chǔ)器8中刪除,因?yàn)閷?duì)于這個(gè)故障該分析周期T已經(jīng)期滿(mǎn)。這樣在存儲(chǔ)器8中留下的僅是故障E將由計(jì)數(shù)器11進(jìn)行計(jì)數(shù)。從計(jì)數(shù)器11的輸出到比較器12的值因此是1,這是去啟動(dòng)閾值。因此告警控制器14去啟動(dòng)告警指示器7。
在掃描期間t10期間,在故障F消除前,長(zhǎng)/短鑒別閾值期滿(mǎn)。在鑒別周期期滿(mǎn)時(shí),鑒別器6識(shí)別該故障為長(zhǎng)故障,并立即啟動(dòng)告警指示器7。
在一定情況下,當(dāng)沒(méi)有‘故障’指示被接收時(shí),該系統(tǒng)可以接收一個(gè)‘清除’指示。例如當(dāng)該系統(tǒng)首次建立時(shí)這種情況可能出現(xiàn),或者如果‘故障’信號(hào)未被接收,這是因?yàn)榱硗獾母话愕墓收险蓴_著系統(tǒng)的緣故。系統(tǒng)被安排為可忽略不計(jì)任何這樣的‘不配對(duì)’的清除指示。
告警指示器7可以給予關(guān)于故障的各種信息,諸如部件2、3、4或5中的哪一個(gè)正在產(chǎn)生的故障,它們總的持續(xù)期和出現(xiàn)的時(shí)間。
上述設(shè)備20可以用于在任何級(jí)別上監(jiān)視網(wǎng)絡(luò)的性能。例如,對(duì)于電信裝備負(fù)責(zé)維護(hù)的網(wǎng)絡(luò)運(yùn)營(yíng)者可能希望監(jiān)視設(shè)備的各具體單元的各個(gè)故障。各個(gè)瞬態(tài)中斷可能是不重要的-這或許是由一種外部原因引起的。例如,如果在系統(tǒng)中的一點(diǎn)上的一個(gè)設(shè)備出現(xiàn)故障,則它將引起許多與它通信的其它設(shè)備各單元的工作中斷。如果該網(wǎng)絡(luò)具有所謂“自修復(fù)”的能力,呼叫可以被重新選擇路由,避免該出故障的裝備被使用,僅其它各單元的一個(gè)單一的瞬態(tài)中斷被檢測(cè)到。但是,如在裝備的一個(gè)單元上檢測(cè)到大量的瞬態(tài)故障,這可以表示該單元正處在性能下降的演變狀態(tài)。這個(gè)信息可以被用來(lái)在該部件完全出故障前采取補(bǔ)救措施即,或者通過(guò)重新安排呼叫話(huà)務(wù)路由,避免或減少它的使用;或者通過(guò)維修該部件來(lái)解決。
由網(wǎng)絡(luò)提供服務(wù)的用戶(hù)在一般服務(wù)本身未被中斷的情況下是不涉及個(gè)別裝備的故障的。這些用戶(hù)經(jīng)常與網(wǎng)絡(luò)運(yùn)營(yíng)者簽有服務(wù)水平的合同,該合同規(guī)定了服務(wù)中斷的最大限度(或者作為各個(gè)中斷數(shù)目,或者作為在總時(shí)間中占的比例)。告警指示器7可以包括用于記錄這些中斷的細(xì)節(jié)的裝置,服務(wù)將被監(jiān)視和記錄,使得網(wǎng)絡(luò)運(yùn)營(yíng)者和/或用戶(hù)對(duì)于系統(tǒng)性能具有清晰的了解。告警指示器7可以監(jiān)視所存儲(chǔ)的詳細(xì)情況,以識(shí)別服務(wù)已經(jīng)被中斷時(shí)所占的時(shí)間比例,或何時(shí)總的故障經(jīng)歷時(shí)間已經(jīng)超過(guò)了預(yù)定值,并當(dāng)這個(gè)值被超過(guò)時(shí)觸發(fā)告警。
權(quán)利要求
1.一種監(jiān)視電信系統(tǒng)的故障和響應(yīng)于故障而產(chǎn)生告警的方法,所述方法包括以下步驟監(jiān)視系統(tǒng)的故障出現(xiàn),測(cè)量每個(gè)故障的持續(xù)期,并且如果一個(gè)故障的持續(xù)期超過(guò)預(yù)定值,則啟動(dòng)告警指示器,和如果一個(gè)故障的持續(xù)期未超過(guò)該預(yù)定值,則遞增所存儲(chǔ)的值。
2.按照權(quán)利要求1的方法,其中故障的發(fā)生和消除的時(shí)間被記錄,在一個(gè)故障的發(fā)生時(shí)間被記錄后,啟動(dòng)一個(gè)延遲周期,如果在該延遲周期期滿(mǎn)前該故障的清除被記錄,則所存儲(chǔ)的值被遞增,和如果在該故障的消除被記錄前該延遲周期期滿(mǎn),則啟動(dòng)告警指示器。
3.按照權(quán)利要求1或2的方法,其中對(duì)于出現(xiàn)系統(tǒng)或者系統(tǒng)功能對(duì)于用戶(hù)不可利用的情況進(jìn)行監(jiān)視。
4.按照權(quán)利要求1到3任何一個(gè)所要求的方法,其中如果在預(yù)定時(shí)間間隔內(nèi),存儲(chǔ)值達(dá)到等于或大于一個(gè)閾值的值,則啟動(dòng)告警指示器。
5.按照權(quán)利要求4的方法,包括以下步驟建立分析周期;連續(xù)監(jiān)視該系統(tǒng)的故障的出現(xiàn);在短于分析周期的掃描期間的終點(diǎn),對(duì)于在掃描期間的終點(diǎn)結(jié)束的分析周期期間的故障出現(xiàn)數(shù)目進(jìn)行計(jì)數(shù);和如果在分析周期中故障出現(xiàn)數(shù)目等于或大于一個(gè)閾值,則啟動(dòng)告警指示器。
6.按照權(quán)利要求5所要求的方法,其中對(duì)故障的發(fā)生和消除時(shí)間進(jìn)行記錄,在每個(gè)掃描期間的終點(diǎn),從所記錄的清除時(shí)間算起,時(shí)間大于分析周期已經(jīng)逝過(guò)的故障不進(jìn)行計(jì)數(shù)。
7.按照權(quán)利要求5或6所要求的方法,還包括,如果在分析周期中故障出現(xiàn)的數(shù)目等于或小于一個(gè)第二閾值,該第二閾值小于第一閾值,則不啟動(dòng)器告警指示器。
8.按照權(quán)利要求5、6或7的方法,其中如果在分析周期中故障出現(xiàn)的數(shù)目等于或大于一個(gè)閾值,則另一個(gè)告警指示器也被啟動(dòng),并且該另一個(gè)告警指示器仍然保持啟動(dòng)直至由操作員予以確認(rèn)為止。
9.按照權(quán)利要求5、6、7或8所要求的方法,其中如果在分析周期中的故障數(shù)目超過(guò)這樣的閾值,該閾值是與如果一個(gè)故障的持續(xù)期超過(guò)預(yù)定值而被啟動(dòng)的閾值相同,則告警指示器被啟動(dòng)。
10.按照權(quán)利要求9所要求的方法,其中只要是存儲(chǔ)的值超過(guò)第二閾值或者故障的持續(xù)期大于預(yù)定值仍然未被清除,則告警仍然被啟動(dòng)。
11.按照權(quán)利要求9或10所要求的方法,其中根據(jù)所存儲(chǔ)的值仍然高于它的閾值,或是長(zhǎng)持續(xù)期的故障仍然未清除,或者兩者兼有之,則告警具有不同的啟動(dòng)狀態(tài)。
12.一種監(jiān)視電信系統(tǒng)故障的設(shè)備,包括告警指示器,用于檢測(cè)故障出現(xiàn)的檢測(cè)裝置,用于測(cè)量每個(gè)故障的持續(xù)期的定時(shí)裝置,用于當(dāng)由定時(shí)裝置測(cè)量的持續(xù)期超過(guò)預(yù)定閾值時(shí)啟動(dòng)告警的啟動(dòng)裝置,用于存儲(chǔ)計(jì)數(shù)數(shù)值的計(jì)數(shù)裝置,和用于當(dāng)由定時(shí)裝置測(cè)量的持續(xù)期未超過(guò)預(yù)定值時(shí)則對(duì)存儲(chǔ)的計(jì)數(shù)值遞增的遞增裝置。
13.按照權(quán)利要求12的設(shè)備,檢測(cè)裝置包括用于檢測(cè)各個(gè)故障的發(fā)生和消除的檢測(cè)裝置,定時(shí)裝置包括用于記錄每個(gè)故障的發(fā)生和消除時(shí)間的時(shí)間記錄裝置,由一個(gè)故障的發(fā)生檢測(cè)啟動(dòng),和由該故障的消除檢測(cè)復(fù)位的延遲定時(shí)裝置,用于測(cè)量從該故障的發(fā)生所消逝過(guò)的時(shí)間,如果由延遲定時(shí)裝置測(cè)量的消逝過(guò)的時(shí)間達(dá)到預(yù)定值,則啟動(dòng)裝置被安排進(jìn)行操作;如果檢測(cè)裝置檢測(cè)到在由延遲定時(shí)裝置測(cè)量的消逝過(guò)的時(shí)間達(dá)到所述預(yù)定值前該故障的清除,則遞增裝置被安排進(jìn)行操作。
14.按照權(quán)利要求12或13的設(shè)備,還包括,如果在預(yù)定分析周期內(nèi)在計(jì)數(shù)裝置中存儲(chǔ)的計(jì)數(shù)數(shù)值達(dá)到或者超過(guò)預(yù)定啟動(dòng)閾值,則告警啟動(dòng)裝置可進(jìn)行操作。
15.按照權(quán)利要求14的設(shè)備,還包括被安排為用于存儲(chǔ)在多個(gè)掃描期間中的每個(gè)的故障條件出現(xiàn)數(shù)目的存儲(chǔ)器,該多個(gè)掃描期間的總的持續(xù)期是該分析周期的持續(xù)期。
16.按照權(quán)利要求15的設(shè)備,包括用于記錄每個(gè)故障的發(fā)生和消除的時(shí)間的記錄裝置,和用于按照其發(fā)生和/或消除的時(shí)間將故障出現(xiàn)分配到預(yù)定分析周期中的分配裝置。
17.按照權(quán)利要求15或16的設(shè)備,包括一個(gè)更新處理器,該更新處理器被安排為,在每個(gè)掃描期間結(jié)束時(shí)檢索存儲(chǔ)在存儲(chǔ)器中的數(shù)據(jù)和饋送該數(shù)據(jù)到計(jì)數(shù)裝置,并指令存儲(chǔ)器刪除有關(guān)存儲(chǔ)數(shù)據(jù)的最早掃描期間的數(shù)據(jù)。
18.按照權(quán)利要求14到17任何一個(gè)的設(shè)備,還包括去啟動(dòng)裝置,如果存儲(chǔ)在計(jì)數(shù)裝置中的數(shù)值等于或小于一個(gè)低于啟動(dòng)閾值的去啟動(dòng)閾值,則該去啟動(dòng)裝置用于使該告警裝置被去啟動(dòng)。
19.按照權(quán)利要求14到18任何一個(gè)的設(shè)備,還包括另一個(gè)告警指示器,如果在分析周期中的故障出現(xiàn)數(shù)目等于或大于一個(gè)閾值,該另一個(gè)告警指示器也被啟動(dòng);以及可由操作員控制的裝置,用于去啟動(dòng)另一個(gè)的告警指示器。
20.按照權(quán)利要求14到19任何一個(gè)的設(shè)備,其中由告警啟動(dòng)裝置啟動(dòng)的告警指示器是與如果一個(gè)故障的持續(xù)期超過(guò)預(yù)定值而被啟動(dòng)的告警指示器相同的。
21.按照權(quán)利要求20的設(shè)備,其中告警指示器被安排為只要是所存儲(chǔ)的值超過(guò)第二閾值或者一個(gè)故障的持續(xù)期大于預(yù)定值而仍未消除,則保持啟動(dòng)。
22.按照權(quán)利要求20或21的設(shè)備,其中根據(jù)所存儲(chǔ)的值仍然高于其閾值、或一個(gè)長(zhǎng)持續(xù)期的故障仍然未被消除、或者兩者兼有之,則告警具有不同的啟動(dòng)狀態(tài)。
23.按照權(quán)利要求12到22任何一個(gè)的設(shè)備,其中檢測(cè)裝置包括用于從具有第二預(yù)定特征的故障條件中區(qū)分具有第一預(yù)定特征故障條件的出現(xiàn)的鑒別裝置,該計(jì)數(shù)裝置被安排為僅計(jì)數(shù)具有第一特征的那些故障的出現(xiàn)。
24.一種包括按照權(quán)利要求12到23的任何一個(gè)的監(jiān)視設(shè)備的電信系統(tǒng)。
25.一種基本上如參照各個(gè)附圖所描述的監(jiān)視電信系統(tǒng)的故障的方法。
26.一種基本上如參照各個(gè)附圖所描述的監(jiān)視電信系統(tǒng)的故障的設(shè)備。
全文摘要
監(jiān)視出現(xiàn)在電信系統(tǒng)(21)的故障,如果它們?cè)陬A(yù)定時(shí)間間隔中未被消除,則通過(guò)識(shí)別它們的發(fā)生時(shí)間,并通過(guò)接口(6)將它們向操作員進(jìn)行報(bào)告。在該時(shí)間間隔中確實(shí)消除的瞬態(tài)故障不直接進(jìn)行報(bào)告,而僅當(dāng)這種故障出現(xiàn)的頻度高于一個(gè)預(yù)定速率時(shí)才進(jìn)行報(bào)告。這種情況要通過(guò)建立掃描期間和等于多個(gè)掃描期間的分析周期,連續(xù)監(jiān)視系統(tǒng)(21)出現(xiàn)的故障和在存儲(chǔ)器(8)中存儲(chǔ)各故障出現(xiàn)的時(shí)間,從而予以確定。在每個(gè)掃描期間結(jié)束時(shí),由計(jì)數(shù)器(11)對(duì)在分析周期期間出現(xiàn)的故障的數(shù)目(該分析周期的終點(diǎn)在掃描期間的終點(diǎn)上)進(jìn)行計(jì)數(shù)。如果在分析周期中出現(xiàn)故障的數(shù)目等于或大于由用戶(hù)輸入裝置(16)選擇的一個(gè)閾值,則告警指示器(17)被啟動(dòng)。本發(fā)明允許忽略各分離的瞬態(tài)故障,使用戶(hù)集中關(guān)注經(jīng)常發(fā)生的間歇故障上。
文檔編號(hào)G06F11/30GK1171181SQ95197000
公開(kāi)日1998年1月21日 申請(qǐng)日期1995年12月22日 優(yōu)先權(quán)日1994年12月23日
發(fā)明者A·道登, M·J·愛(ài)瓦德斯, S·J·沙普曼, M·奧馬利 申請(qǐng)人:英國(guó)電訊公司