專利名稱:使用動態(tài)規(guī)則集擴展離散幀技術(shù)行為的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及處理錯誤數(shù)據(jù),更具體地說,涉及利用動態(tài)可修改的DFT規(guī)則集,提供對大量來源的錯誤數(shù)據(jù)的統(tǒng)計處理的控制的方法、設(shè)備和程序存儲裝置。
背景技術(shù):
隨著消費者變得更依賴于計算機系統(tǒng)來執(zhí)行可靠的任務(wù),對計算機系統(tǒng)錯誤的容錯度降低。當(dāng)發(fā)生軟故障時,計算機系統(tǒng)通常經(jīng)歷停機。隨著硬件老化,計算機錯誤的發(fā)生次數(shù)越來越大,軟故障的可能性增大。如果沒有安全機構(gòu),那么計算機系統(tǒng)必然產(chǎn)生導(dǎo)致用戶不滿的故障。
為了避免計算機系統(tǒng)故障,提出了預(yù)測或診斷即將發(fā)生的系統(tǒng)故障的方法。例如,基于規(guī)范的系統(tǒng)故障診斷是一種在規(guī)定的操作條件下,根據(jù)系統(tǒng)設(shè)計規(guī)范,確定系統(tǒng)的預(yù)期行為是什么的方法。提出了基于預(yù)期的系統(tǒng)行為的測試,該測試被用于診斷系統(tǒng)故障。但是,基于規(guī)范的診斷方法在查找意料之外的故障方面,以及在制定用于診斷意料之外故障的測試方面的能力有限。
診斷系統(tǒng)故障的機制的另一例子是基于征兆(symptom)的診斷。通過利用事件或錯誤日志識別發(fā)生錯誤的環(huán)境來重建系統(tǒng)故障,和評估環(huán)繞導(dǎo)致系統(tǒng)故障的錯誤的環(huán)境,依據(jù)征兆地識別系統(tǒng)故障情況。和基于規(guī)范的診斷方法一樣,基于征兆的診斷方法導(dǎo)致系統(tǒng)故障指示符,而不是測試。
基于征兆的診斷技術(shù)的一個特定例子是根據(jù)在災(zāi)難性故障之前,計算機系統(tǒng)和其它電子設(shè)備的出錯率逐漸增大的觀察,提出的離散幀技術(shù)(dispersion frame techniqueDFT)。DFT技術(shù)通過檢查錯誤發(fā)生在時間和空間上的緊密度,使用規(guī)則來確定錯誤發(fā)生之間的關(guān)系。擴展DFT規(guī)則增大了DTF引擎的功能,允許對大量計算機設(shè)備的錯誤數(shù)據(jù)的統(tǒng)計處理進行更嚴(yán)格控制。該規(guī)則還允許把在規(guī)定時間幀內(nèi)發(fā)生的差錯率的顯著增加看作單一錯誤事件。只有當(dāng)所述增加超過規(guī)則定義的指定水印時,所述單一錯誤事件才被識別。但是,使用DFT的方法利用靜態(tài)的規(guī)則,只提供統(tǒng)計分析的單一維度。
于是需要一種提供并實現(xiàn)動態(tài)可修改的DFT規(guī)則集的方法、設(shè)備和程序存儲裝置。
發(fā)明內(nèi)容
為了克服上述局限性,以及克服當(dāng)閱讀和理解本說明書時將變得顯而易見的其它局限性,本發(fā)明公開一種利用動態(tài)可修改的DFT規(guī)則集,提供對大量來源的錯誤數(shù)據(jù)的統(tǒng)計處理的控制的方法、設(shè)備和程序存儲裝置。
本發(fā)明通過擴展離散幀技術(shù),向離散幀規(guī)則提供用戶定義的參數(shù),從而產(chǎn)生動態(tài)可修改的規(guī)則集來允許DFT引擎在變化的數(shù)據(jù)范圍內(nèi)工作,解決了上述問題。
提供具有用戶定義參數(shù)的錯誤數(shù)據(jù)處理的方法包括把用戶定義的錯誤閾值應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則,處理錯誤事件,保存與處理的錯誤事件相關(guān)的信息,并根據(jù)保存的信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
在本發(fā)明的另一實施例中,提供一種供錯誤數(shù)據(jù)處理系統(tǒng)之用的計算設(shè)備。該計算設(shè)備包括保存錯誤信息的存儲器,和與存儲器耦接,用于把用戶定義的錯誤閾值數(shù)據(jù)應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則,并根據(jù)保存的錯誤信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足的處理器。
在本發(fā)明的另一實施例中,提供一種提供具有用戶定義的參數(shù)的錯誤數(shù)據(jù)處理的方法。該方法包括把用戶定義的錯誤閾值應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則,從某一來源檢測多個錯誤,計算所述多個錯誤之間的時間段,保存與所述多個錯誤及所述多個錯誤之間的時間相關(guān)的信息,并根據(jù)保存的信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
在本發(fā)明的另一實施例中,提供一種供錯誤數(shù)據(jù)處理系統(tǒng)之用的計算設(shè)備。所述計算設(shè)備包括保存錯誤信息的存儲器,所述錯誤信息與錯誤來源和錯誤到達(dá)間隔時間相關(guān),和與存儲器耦接的處理器,所述處理器用于把用戶定義的錯誤閾值數(shù)據(jù)應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則,并根據(jù)保存的錯誤來源和錯誤到達(dá)間隔時間,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
在本發(fā)明的另一實施例中,提供一種程序存儲裝置。所述程序存儲裝置包括可由處理裝置執(zhí)行,從而執(zhí)行提供具有用戶定義的參數(shù)的錯誤數(shù)據(jù)處理的操作的程序指令,所述操作包括把用戶定義的錯誤閾值應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則,處理錯誤事件,保存與處理的錯誤事件相關(guān)的信息,并根據(jù)保存的信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
在本發(fā)明的另一實施例中,提供一種程序存儲裝置。所述程序存儲裝置包括可由處理裝置執(zhí)行,從而執(zhí)行提供具有用戶定義的參數(shù)的錯誤數(shù)據(jù)處理的操作的程序指令,所述操作包括把用戶定義的錯誤閾值應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則,從某一來源檢測多個錯誤,計算所述多個錯誤之間的時間,保存與所述多個錯誤及所述多個錯誤之間的時間相關(guān)的信息,并根據(jù)保存的信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
在本發(fā)明的另一實施例中,提供一種供錯誤數(shù)據(jù)處理系統(tǒng)之用的計算設(shè)備。所述計算設(shè)備包括保存錯誤信息的裝置,和與所述保存裝置耦接,用于把用戶定義的錯誤閾值數(shù)據(jù)應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則,并根據(jù)保存的錯誤信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足的裝置。
在構(gòu)成本發(fā)明一部分的附加權(quán)利要求中詳細(xì)指出了表征本發(fā)明的新事物的這些及各種其它優(yōu)點和特征。但是,為了更好地理解本發(fā)明,其優(yōu)點以及由其應(yīng)用獲得的目的,應(yīng)參考構(gòu)成本發(fā)明另一部分的附圖,以及附隨的描述內(nèi)容,其中舉例說明了根據(jù)本發(fā)明的設(shè)備的具體例子。
現(xiàn)在參見附圖,其中相同的附圖標(biāo)記表示對應(yīng)的部件圖1表示其中可實現(xiàn)本發(fā)明的數(shù)據(jù)處理系統(tǒng)的網(wǎng)絡(luò);圖2是可被實現(xiàn)成如圖1中所示的服務(wù)器或計算機系統(tǒng)的計算機處理系統(tǒng)的方框圖;圖3示意圖解說明時間線上的錯誤事件,用于圖解說明本發(fā)明的一個實施例的實現(xiàn);圖4是根據(jù)本發(fā)明的一個實施例的錯誤數(shù)據(jù)處理方法的流程圖;圖5是根據(jù)本發(fā)明的一個實施例,向擴展離散幀技術(shù)(DFT)規(guī)則集提供用戶定義的參數(shù)的方法的流程圖;圖6圖解說明根據(jù)本發(fā)明的實施例,按照擴展DFT規(guī)則集處理錯誤的方法的流程圖。
具體實施例方式
在實施例的下述說明中,參考了附圖,附圖構(gòu)成說明書的一部分,其中舉例圖解說明了可實踐本發(fā)明的具體實施例。應(yīng)當(dāng)理解,在不脫離本發(fā)明的范圍的情況下,可以使用其它實施例,因為可以進行一些結(jié)構(gòu)變化。
本發(fā)明的一個實施例提供利用動態(tài)可修改的DFT規(guī)則集,提供對大量來源的錯誤數(shù)據(jù)的統(tǒng)計處理的控制的方法、設(shè)備和程序存儲裝置。本發(fā)明中擴展了離散幀技術(shù),以便向離散幀規(guī)則提供用戶定義的參數(shù),產(chǎn)生動態(tài)可修改的規(guī)則集。
圖1表示其中可實現(xiàn)本發(fā)明的數(shù)據(jù)處理系統(tǒng)100的網(wǎng)絡(luò)。網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)100包括網(wǎng)絡(luò)102,網(wǎng)絡(luò)102是用于提供在網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)100內(nèi)連接在一起的各種設(shè)備和計算機之間的通信鏈路的媒介。網(wǎng)絡(luò)102可包括連接,例如有線、無線通信鏈路,或者光纜。
在所示例子中,服務(wù)器104連同存儲單元106一起與網(wǎng)絡(luò)102連接。另外,客戶機108、110和112與網(wǎng)絡(luò)102連接。這些客戶機108、110和112可以是例如個人計算機、網(wǎng)絡(luò)計算機或工作站。在圖1中,服務(wù)器104向客戶機108-112提供數(shù)據(jù),例如引導(dǎo)文件,操作系統(tǒng)映像和應(yīng)用程序??蛻魴C108、110和112是服務(wù)器104的客戶機。網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)100可包括未示出的另外的服務(wù)器、客戶機和其它設(shè)備。
圖2是可被實現(xiàn)成如圖1中所示的服務(wù)器或計算機系統(tǒng)的計算機處理系統(tǒng)200的方框圖。計算機處理系統(tǒng)200可以是對稱的多處理器(SMP)系統(tǒng),包括與系統(tǒng)總線206連接的多個處理器202和204。另一方面,可以采用單處理器系統(tǒng)。存儲器控制器/高速緩存208也與系統(tǒng)總線206連接,存儲器控制器/高速緩存208提供到本地存儲器209的接口。I/O總線橋210與系統(tǒng)總線206連接,提供到I/O總線212的接口。存儲器控制器/高速緩存208和I/O總線橋210可如圖所示被集成。
與I/O總線212連接的外設(shè)部件互連(PCI)總線橋214提供到PCI局部總線216的接口。許多調(diào)制解調(diào)器218可與PCI局部總線216連接。典型的PCI總線實現(xiàn)將支持四個PCI擴展插槽或者內(nèi)插連接器。通過經(jīng)內(nèi)插板與PCI局部總線216連接的通信裝置218和網(wǎng)絡(luò)適配器220,可提供到圖1中的客戶機108-112的通信鏈路。
附加的PCI總線橋222和224向附加的PCI局部總線226和228提供接口,從所述附加的PCI局部總線226和228可支持附加的調(diào)制解調(diào)器或網(wǎng)絡(luò)適配器。按照這種方式,計算機處理系統(tǒng)200允許連接到多個網(wǎng)絡(luò)計算機。存儲變換圖形適配器230和硬盤232也可如圖所示,直接或間接地與I/O總線212連接。
本領(lǐng)域的普通技術(shù)人員會認(rèn)識到圖2中描述的硬件可發(fā)生變化。例如,除了所示硬件之外或者代替所示硬件,也可使用其它外設(shè)部件,例如光盤驅(qū)動器等。另外,總線的類型可以不同。所描述的例子并不意味著對本發(fā)明實施例的結(jié)構(gòu)限制。
如前所述,通過利用事件或錯誤日志識別發(fā)生錯誤的環(huán)境來重建系統(tǒng)故障,和評估環(huán)繞導(dǎo)致系統(tǒng)故障的錯誤的環(huán)境,依據(jù)征兆地識別系統(tǒng)故障情況。和基于規(guī)范的診斷方法一樣,基于征兆的診斷方法導(dǎo)致系統(tǒng)故障指示符,而不是測試?;谡髡椎脑\斷技術(shù)的一個特定例子是根據(jù)在災(zāi)難性故障之前,計算機系統(tǒng)和其它電子設(shè)備的出錯率逐漸增大的觀察,提出的離散幀技術(shù)(DFT)。DFT技術(shù)通過檢查錯誤發(fā)生在時間和空間上的緊密度,使用規(guī)則來確定錯誤發(fā)生之間的關(guān)系。下表1中舉例說明了DFT規(guī)則集。
表1利用DFT的方法使用如表1中所示的靜態(tài)規(guī)則。但是,靜態(tài)規(guī)則只提供統(tǒng)計分析的單一維度。例如,如表1中所示,典型的離散幀技術(shù)(DFT)提供五種統(tǒng)計規(guī)則。錯誤離散指數(shù)(error dispersion indexEDI)是在一半的離散幀中的出錯次數(shù)。離散幀由到達(dá)間隔(interarrival)時間或者相同類型的連續(xù)錯誤事件之間的時間定義。第一規(guī)則覆蓋當(dāng)源于相同離散幀的相繼應(yīng)用的兩個連續(xù)錯誤離散指數(shù)(EDI)表現(xiàn)出至少為3的EDI時(3.3規(guī)則)。第二規(guī)則覆蓋當(dāng)源于兩個連續(xù)離散幀的兩個連續(xù)EDI表現(xiàn)出至少為2的EDI時(2.2規(guī)則)。第三規(guī)則覆蓋當(dāng)離散幀小于1小時時(2合1規(guī)則)。第四規(guī)則覆蓋當(dāng)在24小時時間幀內(nèi)發(fā)生四個錯誤事件時(4合1規(guī)則)。第五規(guī)則覆蓋當(dāng)存在四個單調(diào)遞減離散幀,并且至少一幀的大小為其先前幀的一半時(4遞減規(guī)則)。因此,通過檢查錯誤發(fā)生的類型和它們在時間及空間上的緊密度,這些規(guī)則可被用于確定錯誤發(fā)生之間的關(guān)系。
DFT利用以在某一離散幀內(nèi)的觀察結(jié)果的到達(dá)間隔時間為基礎(chǔ)的模型。根據(jù)在把錯誤日志分解(factor)到單個的錯誤源時獲得的經(jīng)驗,預(yù)測故障分析(PFA)引擎從持久存儲介質(zhì)抽取、組織和檢查錯誤日志條目。規(guī)則的組織根據(jù)錯誤的到達(dá)間隔模式,應(yīng)用其五種故障預(yù)測規(guī)則之一。這五種規(guī)則捕捉離散幀內(nèi),與傳統(tǒng)的統(tǒng)計分析方法檢測的行為對應(yīng)的行為。PFA引擎通過檢查錯誤發(fā)生在時間(持續(xù)時間)和空間(影響區(qū))方面的緊密度,確定錯誤發(fā)生之間的關(guān)系。
更具體地說,3.3規(guī)則集中于檢查源于相同離散幀的連續(xù)EDI。當(dāng)離散幀的連續(xù)應(yīng)用產(chǎn)生至少為3的EDI時,發(fā)送與3.3規(guī)則對應(yīng)的報警。3.3規(guī)則要求兩個連續(xù)EDI,以及至少為3的EDI。在DFT規(guī)則集中,這些要求保持不變。
2.2規(guī)則集中于檢查連續(xù)的離散幀和離散幀內(nèi)的EDI。當(dāng)兩個離散幀具有至少為2的EDI時,發(fā)送與2.2規(guī)則有關(guān)的報警。類似于3.3規(guī)則,2.2規(guī)則具有靜態(tài)要求。這里所述要求是連續(xù)離散幀中的兩個連續(xù)EDI,并且至少為2的EDI。
在2合1(2in1)規(guī)則和4合1規(guī)則中,焦點集中在錯誤事件之間的時間跨度上。當(dāng)一個離散幀或者錯誤之間的到達(dá)間隔時間的跨度小于1小時時,2合1規(guī)則被滿足。當(dāng)在一天內(nèi)發(fā)生四個錯誤事件時,4合1規(guī)則被滿足。2合1規(guī)則和4合1規(guī)則均包括不變的時間要求和檢測的錯誤要求。
4遞減規(guī)則集中于離散幀之間的時間跨度和錯誤的發(fā)生率。在4遞減規(guī)則中,在四個離散幀大小同或者小于在先離散幀,并且其中一幀的大小為在先離散幀的一半之后發(fā)送報警。4遞減規(guī)則包括四個離散幀大小同或者小于在先離散幀,并且一個離散幀的大小為在先離散幀的一半的靜態(tài)要求。
圖3是示意圖解說明時間線上的導(dǎo)致3.3規(guī)則報警,2.2規(guī)則報警和4遞減規(guī)則報警的事件的圖形300。圖中表示了錯誤事件i-4、i-3、i-2、i-1和i。離散幀被定義為相同類型的連續(xù)錯誤事件之間的到達(dá)間隔時間。從而,到達(dá)間隔時間是兩個錯誤事件之間的時間段。離散幀(i-3)310是事件i-4和i-3之間的到達(dá)間隔時間。幀(i-2)320是事件i-3和i-2之間的離散幀。
從每幀的中心到其右端的錯誤數(shù)目被測量并被指定為錯誤離散指數(shù)(EDI)。幀(i-3)310的EDI為3,幀(i-2)320的EDI為2。一個例子就是幀(i-3)310的是錯誤i-3和i-2之間的時間。
就3.3規(guī)則來說,在幀(i-3)310中,在相同幀的應(yīng)用內(nèi),兩個連續(xù)指數(shù)305和315的EDI為3。錯誤事件之間的時間和空間要求滿足了3.3規(guī)則,發(fā)送3.3規(guī)則報警。
就2.2規(guī)則來說,在幀(i-3)310和(i-2)320之間,連續(xù)指數(shù)具有至少為2的EDI。幀(i-3)的緊鄰幀(i-2)的時間跨度315具有為3的指數(shù),幀(i-2)的緊鄰幀(i-3)的時間跨度325具有為2的指數(shù)。2.2規(guī)則的時間和空間要求被滿足,發(fā)出對應(yīng)于2.2規(guī)則的報警322。
觀察幀(i-3)~(i),可看出隨著時間的過去,四個幀(i-3)310、(i-2)320、(i-1)330和(i)340的大小減小或者保持不變,并且在這四個幀之中,至少一幀(i)340的大小為在先幀(i-1)330的一半。從而,4遞減規(guī)則344被滿足。但是,上面提及的DFT規(guī)則是靜態(tài)的,只提供統(tǒng)計分析的單一維度。
圖4是根據(jù)本發(fā)明的實施例,提供用于錯誤數(shù)據(jù)處理的具有用戶定義參數(shù)的規(guī)則集的流程圖400。用戶定義的錯誤閾值被接收(410),并根據(jù)用戶定義的錯誤閾值設(shè)置錯誤閾值規(guī)則(420)。檢測錯誤,并保存與錯誤相關(guān)的信息(430)。比較保存的信息和閾值規(guī)則(440),確定錯誤閾值是否被滿足(450)。當(dāng)錯誤閾值未被滿足時,驅(qū)動規(guī)則集的引擎繼續(xù)處理和保存檢測到的錯誤(430),并比較保存的信息(440),直到錯誤閾值被滿足為止。一旦達(dá)到了錯誤閾值,那么就發(fā)送報警(460)。
上述DFT規(guī)則在本發(fā)明的實施例中被修改,并被分配給具有獨特模式的設(shè)備。用戶定義的規(guī)則被接收,作為給下面說明的擴展DFT處理引擎的輸入。根據(jù)本發(fā)明的實施例,表2中舉例說明了擴展DFT規(guī)則集。
表2類似于表1,錯誤離散指數(shù)(EDI)是在一半的離散幀中的出錯次數(shù)。離散幀由相同類型的連續(xù)錯誤事件之間的到達(dá)間隔時間定義。
圖5是圖解說明根據(jù)本發(fā)明的實施例,向擴展離散幀規(guī)則集提供用戶定義的參數(shù)的流程圖500。擴展離散幀規(guī)則由用戶定義并被接收(505)。在規(guī)則集內(nèi)設(shè)置每個變量(510)。變量包括2合1規(guī)則和4合1規(guī)則的時間幀,4合1規(guī)則的所需出錯次數(shù),3.3和2.2規(guī)則的所需EDI數(shù)目,3.3和2.2規(guī)則的所需連續(xù)指數(shù)的數(shù)目,4遞減規(guī)則的幀數(shù),4遞減規(guī)則的要求大小為在先幀一半的幀的數(shù)目。識別離散幀(515),并與具有用戶定義的參數(shù)的擴展離散幀規(guī)則集比較。
就3.3規(guī)則來說,在3.3規(guī)則要求之間進行比較(520)。當(dāng)源于相同離散幀的連續(xù)應(yīng)用的用戶定義數(shù)目的EDI至少具有用戶定義的EDI數(shù)目時,3.3規(guī)則的閾值被滿足(530),發(fā)送與滿足3.3規(guī)則相關(guān)的報警(535)。
對于2.2規(guī)則來說,比較多個錯誤和具有用戶定義參數(shù)的2.2規(guī)則要求(520)。當(dāng)源于兩個連續(xù)幀的用戶定義數(shù)目的連續(xù)EDI表現(xiàn)出至少一個用戶定義的EDI數(shù)目時,2.2規(guī)則要求被滿足(540),發(fā)送相關(guān)的2.2規(guī)則報警(545)。
對于2合1規(guī)則來說,比較多個錯誤之間的時間幀和用戶定義的2合1規(guī)則時間幀(520)。當(dāng)在定義的時間幀內(nèi)收到錯誤時,2合1規(guī)則被滿足(550),發(fā)送2合1錯誤消息(555)。
對于4合1規(guī)則來說,用戶定義數(shù)目的錯誤之間的時間必須落入用戶定義的時間幀內(nèi)。當(dāng)比較保存的錯誤信息與4合1規(guī)則用戶定義要求(520),并且要求被滿足(560)時,發(fā)送4合1錯誤消息(565)。
就4遞減規(guī)則來說,用戶定義數(shù)目的離散幀單調(diào)減小,并且用戶定義數(shù)目的離散幀的大小是在先離散幀的一半。比較錯誤數(shù)據(jù)和用戶定義的4遞減規(guī)則(520),當(dāng)4遞減規(guī)則要求被滿足時(570),發(fā)送與4遞減規(guī)則相關(guān)的錯誤消息(575)。
在上述規(guī)則不被滿足的情況下,該進程返回,從存儲器識別離散幀(505),直到規(guī)則要求被滿足為止。
圖6圖解說明根據(jù)本發(fā)明的一個實施例,按照擴展DFT規(guī)則集處理錯誤的方法的流程圖600。從某一來源檢測多個錯誤(605)。確定錯誤之間的時間段(610),并保存與錯誤相關(guān)的信息(615)。比較每個擴展DFT規(guī)則與保存的錯誤數(shù)據(jù)(620、630、640、650和660)。確定擴展DFT規(guī)則是否被滿足(625、635、645、655和665)。對于被滿足的每個擴展DFT規(guī)則,發(fā)送與被滿足的特定規(guī)則相關(guān)的報警(628、638、648、658和668)。在規(guī)則集要求不被滿足的情況下,進程返回檢測多個錯誤的步驟(605)。
重新參見圖2,根據(jù)本發(fā)明一個實施例的恰當(dāng)計算系統(tǒng)環(huán)境200。例如,環(huán)境200可以是已描述的客戶機、數(shù)據(jù)服務(wù)器和/或主服務(wù)器。計算系統(tǒng)環(huán)境200只是恰當(dāng)?shù)挠嬎悱h(huán)境的一個例子,并不意圖建議對本發(fā)明的使用或功能范圍的任何限制。計算環(huán)境200也不應(yīng)被理解成具有關(guān)于在例證的操作環(huán)境200中圖解說明的任意一個組件或組件的組合的依賴性或要求。特別地,環(huán)境200是能夠?qū)崿F(xiàn)服務(wù)器、客戶機或已說明的其它節(jié)點的計算機化設(shè)備的例子。
計算機存儲介質(zhì)包括按照任意方法或技術(shù)實現(xiàn)的,用于存儲信息,比如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)的易失性、非易失性、可拆卸的和不可拆卸的介質(zhì)。存儲器209、208,例如與PCI總線226、228連接的存儲器和/或硬盤驅(qū)動器232都是計算機存儲介質(zhì)的例子。計算機存儲介質(zhì)包括(但不限于)RAM,ROM,EEPROM,快速存儲器或其它存儲器技術(shù),CDROM,數(shù)字通用視盤(DVD)或者其它光學(xué)存儲器,盒式磁帶,磁帶,磁盤存儲器或者其它磁性存儲裝置,或者可用于保存所需信息,并且能夠被設(shè)備200訪問的任意其它介質(zhì)。任意這樣的計算機存儲介質(zhì)可以是設(shè)備200的一部分。
設(shè)備200還可包含允許設(shè)備與其它設(shè)備通信的通信連接218。通信連接218是通信媒介的一個例子。通信媒介一般用已調(diào)數(shù)據(jù)信號,例如載波或其它傳送機構(gòu)具體體現(xiàn)計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并且包括任意信息傳送媒介。術(shù)語“已調(diào)數(shù)據(jù)信號”意味以這樣的方式設(shè)置或改變其至少一個特性,以便在信號中對信息編碼的信號。例如,通信媒介包括(但不限于)有線媒介,比如有線網(wǎng)絡(luò)或直接有線連接,和無線媒介,比如聲音、RF、紅外和其它無線媒介。這里使用的術(shù)語“計算機可讀介質(zhì)”既包括存儲介質(zhì),又包括通信媒介。
上述方法可用計算機在設(shè)備200上實現(xiàn)。計算機實現(xiàn)的方法最好至少部分被實現(xiàn)成在計算機上運行的至少一個程序。所述程序可由計算機的處理器從諸如存儲器之類的計算機可讀介質(zhì)執(zhí)行。程序最好可保存在機器可讀介質(zhì),例如軟盤或CD-ROM上,以便分發(fā)給另一計算機,并在所述另一計算機上安裝和執(zhí)行。所述一個或多個程序可以是計算機系統(tǒng)、計算機或計算機化的設(shè)備的一部分。
在本發(fā)明的其它實施例中,擴展DFT規(guī)則允許把在規(guī)定時間幀內(nèi)發(fā)生的差錯率的顯著增加看作單一錯誤事件。但是,只有當(dāng)所述增加超過規(guī)則定義的指定水印時,所述單一錯誤事件才被識別。
本發(fā)明的實施例提供動態(tài)修改擴展DFT規(guī)則的約定。這迫使DFT在用戶規(guī)定的不斷變化的數(shù)據(jù)范圍內(nèi)工作。這些變化范圍也可被應(yīng)用于正被監(jiān)視,并且有能力報告錯誤的特定硬件部件。擴展DFT的用戶將具有設(shè)置更嚴(yán)格的統(tǒng)計約束條件,調(diào)整DFT引擎以便在不斷變化的處理環(huán)境內(nèi)工作的靈活性。
出于舉例說明的目的,給出了本發(fā)明的例證實施例的上述說明。上述說明并不是要窮盡本發(fā)明,或者把本發(fā)明局限于公開的具體形式。鑒于上述教導(dǎo),許多修改和變化是可能的。本發(fā)明的范圍不由該詳細(xì)說明限定,而是由附加的權(quán)利要求限定。
權(quán)利要求
1.一種提供具有用戶定義的參數(shù)的錯誤數(shù)據(jù)處理的方法,包括把用戶定義的錯誤閾值應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則;處理錯誤事件;保存與處理的錯誤事件相關(guān)的信息;和根據(jù)保存的信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
2.按照權(quán)利要求1所述的方法,其中處理錯誤事件包括從某一來源檢測多個錯誤;和計算所述多個錯誤之間的時間段。
3.按照權(quán)利要求2所述的方法,其中保存與處理的錯誤事件相關(guān)的信息還包括保存與所述多個錯誤以及所述多個錯誤之間的時間段相關(guān)的信息。
4.按照權(quán)利要求2所述的方法,其中確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足還包括把檢測到的錯誤的數(shù)目以及所述多個錯誤之間的時間段與用戶可定義的錯誤閾值規(guī)則進行比較。
5.按照權(quán)利要求2所述的方法,其中根據(jù)保存的信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足包括確定檢測到的多個錯誤滿足用戶定義的錯誤離散指數(shù),其中錯誤離散指數(shù)是在相同類型的錯誤之間的時間段的一半中的錯誤的數(shù)目。
6.按照權(quán)利要求5所述的方法,還包括在相同類型的錯誤之間的相同時間段中,連續(xù)用戶定義的次數(shù)達(dá)到用戶定義的錯誤離散指數(shù)。
7.按照權(quán)利要求6所述的方法,還包括在兩個連續(xù)離散幀中,連續(xù)用戶定義的次數(shù)達(dá)到用戶定義的錯誤離散指數(shù)。
8.按照權(quán)利要求1所述的方法,其中檢測所述多個錯誤包含處理在用戶定義的時間幀內(nèi)發(fā)生的錯誤,并且當(dāng)以計算的所述多個錯誤之間的時間段為基礎(chǔ)的出錯率滿足用戶可定義的錯誤閾值規(guī)則時,把所述多個錯誤識別成一個錯誤。
9.按照權(quán)利要求1所述的方法,還包括當(dāng)所述多個用戶可定義的錯誤閾值規(guī)則之一被滿足時,發(fā)送報警。
10.按照權(quán)利要求9所述的方法,其中報警是以所述多個用戶可定義的錯誤閾值規(guī)則之一為基礎(chǔ)的特定類型的報警。
11.按照權(quán)利要求1所述的方法,還包括提供用戶定義的錯誤閾值,用于修改用戶可定義的錯誤閾值規(guī)則。
12.按照權(quán)利要求1所述的方法,其中根據(jù)保存的信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足包括確定檢測的錯誤之間的時間段小于用戶定義的時間幀。
13.按照權(quán)利要求1所述的方法,其中根據(jù)保存的信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足包括確定用戶定義數(shù)目的檢出錯誤在用戶定義的時間幀內(nèi)發(fā)生。
14.按照權(quán)利要求1所述的方法,其中根據(jù)保存的信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足包括確定以非遞增比率發(fā)生錯誤之間的用戶定義數(shù)目的各時間段。
15.按照權(quán)利要求14所述的方法,其中以非遞增比率發(fā)生的錯誤還包括在錯誤之間的在先時間段的一半內(nèi)發(fā)生的用戶定義數(shù)目的錯誤。
16.一種供錯誤數(shù)據(jù)處理系統(tǒng)之用的計算設(shè)備,包括保存錯誤信息的存儲器;和與存儲器耦接的處理器,用于把用戶定義的錯誤閾值數(shù)據(jù)應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則,并根據(jù)保存的錯誤信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
17.按照權(quán)利要求16所述的計算設(shè)備,其中錯誤信息包括與錯誤到達(dá)間隔時間相關(guān)的信息。
18.按照權(quán)利要求16所述的計算設(shè)備,其中當(dāng)所述多個用戶可定義的錯誤閾值規(guī)則之一被滿足時,處理器發(fā)送報警。
19.按照權(quán)利要求18所述的計算設(shè)備,其中報警包括以被滿足的所述多個錯誤閾值之一為基礎(chǔ)的特定類型的報警。
20.按照權(quán)利要求16所述的計算設(shè)備,其中保存的錯誤信息包括代表檢出錯誤的錯誤事件,和與檢出錯誤相關(guān)的到達(dá)間隔時間。
21.按照權(quán)利要求20所述的計算設(shè)備,其中處理器通過把檢出錯誤的數(shù)目和所述多個錯誤之間的時間段與用戶可定義的錯誤閾值規(guī)則進行比較,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
22.按照權(quán)利要求16所述的計算設(shè)備,其中處理器根據(jù)接收的用戶定義的錯誤閾值,修改用戶可定義的錯誤閾值規(guī)則。
23.按照權(quán)利要求16所述的計算設(shè)備,其中處理器通過檢測在用戶定義的時間幀內(nèi)發(fā)生的錯誤,并且當(dāng)以計算的所述多個錯誤之間的時間段為基礎(chǔ)的出錯率滿足用戶可定義的錯誤閾值規(guī)則時把所述多個錯誤識別成一個錯誤,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
24.按照權(quán)利要求23所述的計算設(shè)備,其中處理器確定檢測的多個錯誤滿足用戶定義的錯誤離散指數(shù),其中錯誤離散指數(shù)是在相同類型的錯誤之間的時間段的一半中的錯誤的數(shù)目。
25.按照權(quán)利要求16所述的計算設(shè)備,其中處理器通過確定檢測的錯誤之間的時間段小于用戶定義的時間幀,根據(jù)保存的信息確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
26.按照權(quán)利要求16所述的計算設(shè)備,其中處理器通過確定在用戶定義的時間幀內(nèi)發(fā)生了用戶定義數(shù)目的檢出錯誤,根據(jù)保存的信息確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
27.按照權(quán)利要求16所述的計算設(shè)備,其中處理器通過確定以非遞增比率發(fā)生錯誤之間的用戶定義數(shù)目的各時間段,根據(jù)保存的信息確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
28.一種提供具有用戶定義的參數(shù)的錯誤數(shù)據(jù)處理的方法,包括把用戶定義的錯誤閾值應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則;從某一來源檢測多個錯誤;計算所述多個錯誤之間的時間段;保存與所述多個錯誤及所述多個錯誤之間的時間段相關(guān)的信息;和根據(jù)保存的信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
29.一種供錯誤數(shù)據(jù)處理系統(tǒng)之用的計算設(shè)備,包括保存錯誤信息的存儲器,所述錯誤信息與錯誤來源和錯誤到達(dá)間隔時間相關(guān);和與存儲器耦接的處理器,所述處理器用于把用戶定義的錯誤閾值數(shù)據(jù)應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則,并根據(jù)保存的錯誤來源和錯誤到達(dá)間隔時間,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
30.一種程序存儲裝置,包括可由處理裝置執(zhí)行,從而執(zhí)行提供具有用戶定義的參數(shù)的錯誤數(shù)據(jù)處理的操作的程序指令,所述操作包括把用戶定義的錯誤閾值應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則;處理錯誤事件;保存與處理的錯誤事件相關(guān)的信息;和根據(jù)保存的信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
31.一種程序存儲裝置,包括可由處理裝置執(zhí)行,從而執(zhí)行提供具有用戶定義的參數(shù)的錯誤數(shù)據(jù)處理的操作的程序指令,所述操作包括把用戶定義的錯誤閾值應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則;從某一來源檢測多個錯誤;計算所述多個錯誤之間的時間段;保存與所述多個錯誤及所述多個錯誤之間的時間段相關(guān)的信息;和根據(jù)保存的信息,確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
32.一種供錯誤數(shù)據(jù)處理系統(tǒng)之用的計算設(shè)備,包括保存錯誤信息的裝置;和與所述保存裝置耦接的裝置,用于把用戶定義的錯誤閾值數(shù)據(jù)應(yīng)用于多個用戶可定義的錯誤閾值規(guī)則,并根據(jù)保存的錯誤信息確定何時所述多個用戶可定義的錯誤閾值規(guī)則之一已被滿足。
全文摘要
公開一種利用動態(tài)可修改的DFT規(guī)則集,提供對大量來源的錯誤數(shù)據(jù)的統(tǒng)計處理的控制的方法、設(shè)備和程序存儲裝置。本發(fā)明中擴展了離散幀技術(shù),以便向離散幀規(guī)則提供用戶定義的參數(shù),從而產(chǎn)生動態(tài)可修改的規(guī)則集。
文檔編號G06F11/00GK1707438SQ20051005917
公開日2005年12月14日 申請日期2005年3月24日 優(yōu)先權(quán)日2004年6月10日
發(fā)明者邁克爾·加斯塔德, 托馬斯·費蘭, 布倫特·亞德利 申請人:國際商業(yè)機器公司