專利名稱:磁盤裝置的故障預(yù)測方法及使用該方法的磁盤裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及診斷磁盤裝置的方法,更具體地,涉及具有故障預(yù)測功能的磁盤裝置。
背景技術(shù):
在采取24小時運行的高度可靠的磁盤裝置中,通常保證基于一天24小時的3到5年的無故障運行。在實際的運行中,系統(tǒng)通常一年關(guān)閉一次或兩次,并在關(guān)閉期間進行包含相應(yīng)的磁盤裝置的周期性維護和檢查。
這些磁盤裝置都具有統(tǒng)一的性能,即使從安裝一個或多個新的磁盤裝置或從維護或置換現(xiàn)有的磁盤裝置過去幾千小時之后,它們的位錯誤率和其他錯誤事件的發(fā)生頻率仍然保持很低。例如這些位錯誤率低至每10千兆字節(jié)的數(shù)據(jù)訪問量只有幾位。
因此在傳統(tǒng)的技術(shù)下,位錯誤率和其他錯誤指標被累積固定的一段時間,并且如果在固定的時期之內(nèi),任何這樣的錯誤指標的計數(shù)超過了必要的閾值的話,那么就將這種狀態(tài)報告給主機設(shè)備。另外,主機設(shè)備不是估計故障的發(fā)生,而是將事先設(shè)置的值,例如故障之間的平均時間(MTBF),和特定的固定時期進行比較,并且向操作者給出指示磁盤裝置的置換時間的信息。
然而磁盤裝置的安裝環(huán)境是不同的,而且,物理上,環(huán)境溫度的變化或由于干擾造成的振動,可能致使磁盤裝置的內(nèi)部主軸電機或致動器異常,或者裝置內(nèi)部或外部的電磁噪聲可能導致磁頭本身或傳送電路變得異常。如果這些異常事件實際上發(fā)生,則位錯誤在一定時間集中地或共同地發(fā)生。
盡管前述異常作為磁盤裝置中的故障的征兆不能被忽視,但是用傳統(tǒng)的技術(shù)是不能檢測到上述異常情況的。
簡而言之,在傳統(tǒng)的診斷方法下,累積直到經(jīng)過必要的時間才發(fā)生的錯誤指標的計數(shù),然后判斷錯誤指標的累積的相應(yīng)計數(shù)是否超過必要的閾值,并且只有計數(shù)超過了閾值,才將特定的事件診斷為異常。故障之間的平均時間(MTBF)被采用作為必要的時間。
因為這些原因,即使在必要的時間段期間,主軸電機或致動器臨時變得異常,并且在所有的錯誤指標計數(shù)之中僅僅在一個特定的計數(shù)中有所增加,事件不會被診斷為異常,因為相對于一直累積到必要的時間段的所有錯誤指標數(shù)據(jù)而言,那個計數(shù)的比率是微不足道的。亦即,磁盤裝置被放置到這樣的情形之下其不會被置換,除非其性能惡化到十分嚴重的地步。
根據(jù)日本公開專利No.Hei 6-214835,針對每個外圍設(shè)備和每個錯誤原因,在存儲器中累積地記錄錯誤的發(fā)生率,然后向中央處理單元傳送錯誤信息,并基于傳送的錯誤信息和惡化特征、運行時間以及事先保留的每個外圍設(shè)備的其他因素,中央處理單元預(yù)測持久故障的發(fā)生時間。預(yù)測方法的細節(jié)是未知的。
根據(jù)日本公開專利No.Hei 7-248937,測量裝置從它們的置換或從它們先前的診斷開始的運行時間,并且如果用于每個裝置的預(yù)定的故障之間的平均時間或其他必要的時間到達了,則執(zhí)行自診斷程序以抑制不必要的自診斷。
根據(jù)日本公開專利No.2001-307435,對于每個固定數(shù)量的數(shù)據(jù)傳送,重復用于通過使S/N比率惡化來監(jiān)視錯誤率的錯誤測試,并由此預(yù)測故障的發(fā)生。
專利文獻1日本專利申請公開No.Hei 6-21483專利文獻2日本專利申請公開No.Hei 7-24893專利文獻3日本專利申請公開No.2001-307435發(fā)明內(nèi)容對于傳統(tǒng)磁盤裝置,難以向主機設(shè)備準確發(fā)送警告,以向操作者通知故障。
在簡單的診斷方法中,其中,設(shè)置用于被監(jiān)視的錯誤指標的閾值,然后如果超過了閾值,則發(fā)出警告(報告),在這樣的診斷方法中,錯誤的報告頻繁發(fā)生,或者,相反地,錯過了故障。
由于掌握的信息的數(shù)量的增加,太頻繁的監(jiān)視會導致磁盤裝置過載。如果響應(yīng)每次訪問操作的磁盤裝置數(shù)據(jù)傳送的數(shù)量累積得超過了延長的期限并進行自診斷,則會發(fā)生故障預(yù)測失敗。
用總計磁盤裝置數(shù)據(jù)傳送的數(shù)量然后對于每個固定數(shù)量的數(shù)據(jù)傳送進行自診斷的傳統(tǒng)技術(shù),由于數(shù)據(jù)傳送通信量在時間上是分散的,所以不能準確地估計可能要發(fā)生的故障的時間。
本發(fā)明的目的是消除和錯誤指標的累積相結(jié)合的弊端(亦即,忽視臨時的異?;?qū)е鹿收系恼髡?。在本發(fā)明中,在多磁頭中的每一個上間斷地/連續(xù)地存儲每單位時間的獨立錯誤指標,提供作為被監(jiān)視的項目的用上述存儲的多個錯誤指標來更新的新的第二錯誤指標(在下文中,這種第二錯誤指標被稱作部分積分錯誤率),并且當?shù)诙e誤指標滿足必要的條件時,特定的事件被診斷為異?;騻萎惓?,隨后結(jié)果被報告給主機設(shè)備。
在優(yōu)選實施例中,在一個小時的單位時間期間,在關(guān)于單位時間的相關(guān)條件中存儲每固定的訪問數(shù)據(jù)計數(shù)或每固定的測量時間(差不多幾十秒)的錯誤指標?;趩挝粫r間進行重復操作,由此間斷地/連續(xù)地存儲基于單位時間的錯誤指標的數(shù)量的變化。
存在于磁盤裝置之內(nèi)的位錯誤計數(shù)、讀取錯誤計數(shù)、寫入錯誤計數(shù)、搜索錯誤計數(shù)、重新分配計數(shù)、啟動計數(shù)、啟動超時事件計數(shù)以及這些錯誤/事件中的每一個的發(fā)生率都被采用作為錯誤指標。
部分積分錯誤率被用來表達使用固定數(shù)目(多個)組的上面提到的錯誤指標的內(nèi)容獲得的值,例如,用訪問數(shù)據(jù)計數(shù)之和去除位錯誤計數(shù)之和。
隨著多組錯誤指標的數(shù)目的增加,更新部分積分錯誤率。每次存儲每單位時間的新的一組錯誤指標時,丟棄被監(jiān)視的最老的現(xiàn)有錯誤指標,并添加一個新的錯誤指標。用這種方法,根據(jù)被監(jiān)視的固定數(shù)目的新的多組錯誤指標,計算新的部分積分錯誤率。
用于存儲錯誤指標的存儲元件是例如高速緩沖存儲器,其能夠存儲例如一組相當于128單位時間長度的錯誤指標,并且根據(jù)時間間斷地/連續(xù)地循環(huán)存儲每組錯誤指標。將向前的第129單位時間長度的錯誤指標數(shù)據(jù)重寫到對應(yīng)于首先存儲第一單位時間長度的錯誤指標數(shù)據(jù)的存儲元件的位置中。
單位時間期間實際上訪問的數(shù)據(jù)的必要的計數(shù)以字節(jié)的形式被存儲為訪問數(shù)據(jù)計數(shù),其為錯誤指標之一。在優(yōu)選實施例中,采用10千兆字節(jié)的數(shù)據(jù)作為必要的訪問數(shù)據(jù)計數(shù)。如果在單位時間期間未達到必要的訪問數(shù)據(jù)計數(shù),則短于任何現(xiàn)有單位時間設(shè)置的必要的測量時間期間實際上訪問的數(shù)據(jù)的計數(shù),變成被用作錯誤指標的訪問數(shù)據(jù)計數(shù),并同樣使用在該測量時間期間發(fā)生的錯誤位的計數(shù)。
通過用訪問數(shù)據(jù)計數(shù)去除錯誤位的數(shù)目,來計算指示在訪問的數(shù)據(jù)中檢測到多少錯誤位的錯誤位率,并存儲該結(jié)果。例如,在一個小時的單位時間期間訪問了10千兆字節(jié)的數(shù)據(jù),并檢測到5個錯誤位,則在這種情況下位錯誤率為5位÷(10×109×8位)=6.25×10-11。
在緊接著確認并確定每單位時間的位錯誤率之后,該位錯誤率被存儲到相關(guān)的表格中,然后判斷錯誤指標是否超過了第一必要的閾值。如果超過了閾值,則向主機設(shè)備報告該狀態(tài)。
如果部分積分錯誤率趨向增加,亦即,如果部分積分錯誤率增加超過了第二必要的閾值,則由于在磁盤裝置中很可能發(fā)生故障,所以該狀態(tài)被報告為異常。
即使部分積分錯誤率有增加超過其先前值(亦即,更新之前的部分積分錯誤率)的趨勢,假如未超過第二必要的閾值,這種狀態(tài)被判斷為部分積分錯誤率中的臨時增加。因此,該特定的狀態(tài)向主機設(shè)備報告為偽異常。
如果部分積分錯誤率減少到其先前值(亦即,更新之前的部分積分錯誤率)之下,則從先前的比率開始累積,并且每次進行更新操作時,判斷部分積分錯誤率的累積值是否超過第二閾值。如果超過了該閾值,則認為磁盤裝置中發(fā)生了循環(huán)故障,并向主機設(shè)備報告循環(huán)異常。如果未超過該第二閾值,則繼續(xù)累積,并且當完成數(shù)據(jù)的128單位時間設(shè)置的累積時,終止累積功能,并且將累積值重新設(shè)置為其初始值。不是第二閾值,而是第三閾值可以被設(shè)置用來比較累積值。
主機設(shè)備能夠運行這樣的算法對于偽異常的診斷結(jié)果,判斷該特定的狀態(tài)不是異常的。這使響應(yīng)錯誤的報告成為不必要。另外,對于循環(huán)異常的診斷結(jié)果,主機設(shè)備向操作者發(fā)送警告信息,其指示盡管特定的事件不會在磁盤裝置中導致故障,其置換還是必要的。
使用部分積分錯誤率減輕了位錯誤率中的臨時增加,這樣一來使防止錯誤的報告變得容易。
因為僅使用單位時間的一部分來存儲錯誤指標,所以由于錯誤指標的計算,可以防止磁盤裝置的最初的功能減少的發(fā)生,并與此同時以隨時間變化的格式存儲準確的錯誤指標。
當檢測到或計算出超過第一必要的閾值的錯誤指標時,可以將此向主機設(shè)備報告,并在主機設(shè)備中提供用于判斷診斷結(jié)果的材料。只有當超過了第一必要的閾值時才向主機設(shè)備進行報告,從而能夠仔細地選擇主機設(shè)備將要接收的信息。
當檢測到超過第二或第三必要的閾值的部分積分錯誤率時,向主機設(shè)備報告(警告)這種狀態(tài)。計算部分積分錯誤率的增加比率,并且如果超過了必要的閾值,則向主機設(shè)備報告(警告)這種狀態(tài)。因此,能夠檢測可能在幾小時之內(nèi)出故障的磁盤裝置而不會使該磁盤裝置性能惡化,并能夠預(yù)測嚴重的故障。上述檢測用傳統(tǒng)技術(shù)是困難的。
根據(jù)異常的特定程度能夠給出主機設(shè)備應(yīng)付異常事件的適當觸發(fā)。例如,當預(yù)測發(fā)生嚴重的故障時,一個磁盤裝置之內(nèi)存儲的數(shù)據(jù)可以被恢復到另一個磁盤裝置中,由此使提示主機設(shè)備應(yīng)付異常成為可能。
必要的閾值的適當設(shè)置使以下成為可能向主機設(shè)備報告錯誤指標,累積錯誤指標,并使用錯誤指標預(yù)測臨時的或循環(huán)的故障(或理解特定的事件)。當單位時間是一個小時的時候,由于一天中的環(huán)境變化,這種功能便利地工作,以診斷磁盤裝置的異常。
圖1是本發(fā)明中應(yīng)用的錯誤指標的解釋性的示圖;圖2是顯示從存儲的錯誤指標的細節(jié)來計算部分積分錯誤率的示圖;圖3是顯示位錯誤率和部分積分錯誤率隨時間變化的曲線圖,這兩種比率都存在于圖2中顯示的錯誤指標之中;圖4是顯示本發(fā)明應(yīng)用的磁盤裝置的構(gòu)造例子的示圖。
具體實施例方式
在圖4中顯示了應(yīng)用本發(fā)明的磁盤裝置。
圖4是蓋子去除了的磁盤裝置的平面圖。在基底3上支撐使用玻璃或鋁作為其基礎(chǔ)材料的磁盤介質(zhì)1,以便借助于主軸電機2樞軸轉(zhuǎn)動。在一端具有磁頭4的托架在另一端具有線圈6,并被支撐在基底3上,以便能夠通過音圈電機(VCM)8的磁場和通過給線圈6通電生成的磁場,圍繞樞軸7擺動托架5。
經(jīng)由未顯示的磁頭放大器,從柔性印刷布線電路板FPC 12到基底3外部的印刷布線板,傳送向磁頭4或來自磁頭4的信號。
印刷布線板具有硬盤控制器(HDC);接口電路,用于控制向/從磁盤裝置外部輸入/輸出的信息;其他控制電路;以及微處理器。同樣在印刷布線板上安裝SRAM、高速緩沖存儲器和其他存儲元件。
下面,在圖1中顯示本發(fā)明中應(yīng)用的錯誤指標。
對于磁盤裝置中安裝的每個磁頭,在SRAM 1中保存讀取錯誤率2、寫入錯誤率3、搜索錯誤率4、重新分配計數(shù)5、啟動計數(shù)6、啟動超時事件計數(shù)7以及其他錯誤指標的累積值8。
從訪問數(shù)據(jù)計數(shù)9和錯誤計數(shù)10計算讀取、寫入和搜索錯誤率11,并且如果這些錯誤率超過了閾值12(第一必要的閾值),則向主機設(shè)備報告這種狀態(tài)。
如果一個小時被設(shè)置為單位時間,則對于每個最近的單位時間設(shè)置(一個小時)13,在磁盤裝置的SRAM 1中臨時保存讀取、寫入和搜索錯誤率以及訪問數(shù)據(jù)計數(shù),同時讀取、寫入和搜索錯誤率以及訪問數(shù)據(jù)計數(shù)被用作錯誤指標。在這種情況下,在一個小時的單位時間期間,存儲每固定的訪問數(shù)據(jù)計數(shù)(10千兆字節(jié)數(shù)據(jù))或每固定的測量時間(差不多幾十秒)的錯誤指標?;趩挝粫r間存儲一組錯誤指標。用這種方法,間斷地/連續(xù)地存儲多組錯誤指標。在圖1的SRAM的左邊顯示了包括訪問數(shù)據(jù)計數(shù)9、錯誤計數(shù)10、錯誤率11和其他錯誤指標的每單位時間的一組錯誤指標。
一個小時的最近單位時間期間生成的錯誤指標的細節(jié)被存儲到高速緩沖存儲器14的第128表格20中。這里的錯誤指標細節(jié)是指讀取錯誤計數(shù)、寫入錯誤計數(shù)、搜索錯誤計數(shù)和訪問數(shù)據(jù)計數(shù)。從最近的以前兩小時到以前一小時時期期間生成的錯誤指標的細節(jié)被存儲到第127表格(未顯示)中。
類似地,從最近的以前126小時到以前127小時時期期間生成的錯誤指標的細節(jié)被存儲到第二表格19中。從最近的以前127小時到以前128小時時期期間生成的錯誤指標的細節(jié)被存儲到第一表格18中。
用這種方法,隨著時間的流逝,新的必要的多組錯誤指標,18到20,被間斷地/連續(xù)地存儲到高速緩沖存儲器14中。當確定了每單位時間的錯誤指標時,這些錯誤指標就被存儲到相關(guān)的表格中,并且磁盤裝置判斷錯誤指標是否超過了第一閾值。如果超過了該閾值,則向主機設(shè)備報告這種狀態(tài)。
如果部分積分錯誤率有增加的趨勢,亦即,如果部分積分錯誤率增加超過了第二必要的閾值,則由于故障很可能在磁盤裝置中發(fā)生,所以這種狀態(tài)向主機設(shè)備報告為異常。
即使部分積分錯誤率增加超過了其先前的值(亦即,更新之前的部分積分錯誤率),假如未超過第二必要的閾值,則判斷這種狀態(tài)為部分積分錯誤率的臨時增加。因此,該特定的狀態(tài)向主機設(shè)備報告為偽異常。
部分積分錯誤率被用來表示使用固定數(shù)目(多個)個組的上面提到的錯誤指標的內(nèi)容獲得的值,例如,用訪問數(shù)據(jù)計數(shù)之和去除位錯誤計數(shù)之和。
隨著多組錯誤指標的數(shù)目的增加,更新部分積分錯誤率。每次存儲每單位時間的新的一組錯誤指標時,丟棄被監(jiān)視的最老的現(xiàn)有錯誤指標,并添加一個新的錯誤指標。用這種方法,從被監(jiān)視的固定數(shù)目的新的多組錯誤指標,計算新的部分積分錯誤率。
在錯誤指標之中,在單位時間期間計算每個讀取錯誤率15、寫入錯誤率16和搜索錯誤率17并存儲。
更具體地,通過用訪問的數(shù)據(jù)中的位數(shù)目去除錯誤位的數(shù)目,來計算讀取錯誤率。分別通過用寫入操作或搜索操作的數(shù)目去除錯誤的數(shù)目,來計算寫入錯誤率和搜索錯誤率。
在適當時能夠改變單位時間,并且其能夠是例如30分鐘或兩小時。同樣,根據(jù)使用的存儲器容量,能夠增加/減少表格的總數(shù)目。
在適當時可以在磁盤介質(zhì)上記錄存儲到高速緩沖存儲器14中的錯誤指標。優(yōu)選地,可以根據(jù)向主機設(shè)備報告的錯誤指標來預(yù)先確定其中實際訪問的數(shù)據(jù)的計數(shù)不大的時區(qū),并在這個時區(qū)中,可以從高速緩沖存儲器14向磁盤介質(zhì)記錄錯誤指標。
可選擇地,第一或第二閾值可以不必存儲到表格中。
圖2是解釋在讀取操作或?qū)懭氩僮髦袕拇鎯Φ腻e誤指標的細節(jié)如何計算部分積分錯誤率的示圖。圖1中顯示的錯誤的數(shù)目和錯誤率在圖2中分別被當作位錯誤計數(shù)和位錯誤率。給出了在基于單位時間確認并確定直到最近以前的小時的錯誤計數(shù)和訪問數(shù)據(jù)計數(shù)的情況下的說明。
當單位時間期間實際訪問的數(shù)據(jù)的計數(shù)為10GB且在此期間位錯誤計數(shù)為2000時使用的閾值,被當作第一必要的閾值,并設(shè)置在這種情況下使用的位錯誤率。換言之,第一閾值為2,000位÷(10×109×8位)=2,500×10-11。
緊接著在確認并確定圖2中的表格1到128的內(nèi)容之后,這些表格中的位錯誤率每個都和2,500×10-11的第一閾值進行比較。如果任一位錯誤率超過了該第一閾值,則向主機設(shè)備報告這種狀態(tài)。同樣報告相關(guān)表格的內(nèi)容以及所有或部分其他錯誤指標數(shù)據(jù)。第一閾值可以大于或小于上述值,并且根據(jù)需要可以設(shè)置適當?shù)闹怠?br>
圖3是顯示位錯誤率和部分積分錯誤率隨時間變化的曲線圖,這兩種比率都在圖2中顯示的錯誤指標之中。用點以圖示形式顯示圖2的表格1到128中的每個位錯誤率值(在曲線圖中,省略了一些表格,而且垂直軸上的左邊的曲線代表位錯誤率的變化)。由于位錯誤計數(shù)在表格128中增加到60,所以顯示了位錯誤率中突然的增加。在傳統(tǒng)技術(shù)下,使用一個閾值,并且難以設(shè)置適當?shù)拈撝怠?br>
通過選擇例如5個上述點標記的圖示,作為被監(jiān)視的位錯誤計數(shù),然后用訪問數(shù)據(jù)計數(shù)之和去除這些選擇的位錯誤計數(shù)之和,來獲得部分積分錯誤率(在曲線圖中,垂直軸上的右邊的曲線代表部分積分錯誤率中的變化)。這樣獲得的值每個以圖示的形式顯示為“×”。包括表格128的部分積分錯誤率增加到17.6×10-11。
隨著多組錯誤指標的數(shù)目的增加,更新部分積分錯誤率。每次存儲每單位時間的新的一組錯誤指標時,丟棄被監(jiān)視的最老的現(xiàn)有錯誤指標,并添加一個新的錯誤指標。這樣一來,在本實施例中,根據(jù)被監(jiān)視的5個新的位錯誤計數(shù),計算新的部分積分錯誤率。
因此,如果表格128中的位錯誤計數(shù)60指示臨時增加,則由于在表格1的值上重寫的表格129的位錯誤計數(shù)返回到幾位,所以部分積分錯誤率的值接近17.6×10-11。
相反地,如果位錯誤計數(shù)指示嚴重的增加,則表格129中的位錯誤計數(shù)值變得略小于或超過表格128中的位錯誤計數(shù)值。結(jié)果,部分積分錯誤率較大地增加,這樣一來就超過了第二閾值(例如30×10-11)。
下面用一個簡化的例子說明部分積分錯誤率??紤]與圖2構(gòu)成類似的一張表格。同樣,假設(shè)在表格1到127中,所有的位錯誤計數(shù)為5,所有的訪問數(shù)據(jù)計數(shù)為10GB,并且所有的位錯誤率為6.25×10-11。
另外,假設(shè)表格128中的位錯誤計數(shù)、訪問數(shù)據(jù)計數(shù)和位錯誤率分別為60、10GB和7.50×10-10。
選擇一組10個錯誤指標作為被監(jiān)視的指標,然后用訪問數(shù)據(jù)計數(shù)之和去除這些位錯誤計數(shù)之和,并把該結(jié)果當作部分積分錯誤率。
表格118到127中的10個連續(xù)組的訪問數(shù)據(jù)計數(shù)之和為100GB。10組位錯誤計數(shù)之和為50,其未超過相當于例如第二閾值的100的位錯誤計數(shù)。
在這種情況下,在一個小時的最近的單位時間期間,由周圍環(huán)境的變化、主軸電機的臨時顫動、磁頭讀出能力的臨時減少以及其他不尋常的事件造成的60個位錯誤被存儲在表格128之內(nèi)。當選擇表格119到128中的10組錯誤指標作為被監(jiān)視的指標時,對于100GB的總訪問數(shù)據(jù)計數(shù),位錯誤計數(shù)之和變成了105,其超過了第二閾值。因此向主機設(shè)備報告這種狀態(tài)。
在采用長時期累積值作為被監(jiān)視的指標的傳統(tǒng)技術(shù)下,由于使用128個單位時區(qū)的數(shù)據(jù)之和去除位錯誤之和,所以作為結(jié)果的值未達到對于100GB的訪問相當于100個位錯誤的第二閾值,并且不向主機設(shè)備進行報告。
在使用磁盤裝置的電子設(shè)備中,由于從磁盤裝置發(fā)出故障方面的高度準確的預(yù)測報告,所以該預(yù)測報告對于改善電子設(shè)備的可靠性是有用的。
權(quán)利要求
1.一種磁盤裝置的故障預(yù)測方法,包括第一步,在從單位時間開始到其結(jié)束的時期期間,以固定訪問量的增加或以固定的測量時間間隔存儲關(guān)于一個磁頭的第一錯誤指標;第二步,基于通過重復所述第一步多次存儲的固定數(shù)目個組的第一錯誤指標,計算第二錯誤指標;第三步,在從單位時間開始到其結(jié)束的時期期間,以固定訪問量的增加或以固定的測量時間間隔,存儲關(guān)于該磁頭的第三錯誤指標;以及第四步,通過丟棄用作所述第二步中計算基礎(chǔ)的所述固定數(shù)目個組的第一錯誤指標之中按時間順序最老的那組錯誤指標,基于包括在所述第三步中獲得的該組第一錯誤指標的固定數(shù)目個組的錯誤指標,更新第二錯誤指標。
2.如權(quán)利要求1所述的磁盤裝置的故障預(yù)測方法,其中,如果所述第一步中存儲的第一錯誤指標中的任何一個,或者,所述第三步中存儲的第三錯誤指標中的任何一個,超過了第一閾值的話,那么向外面發(fā)送表示特定的錯誤指標超過了第一閾值的信號。
3.如權(quán)利要求1所述的磁盤裝置的故障預(yù)測方法,其中,如果所述第二步中計算的第二錯誤指標,或者,所述第四步中更新的第二錯誤指標,超過了第二閾值的話,那么向外面發(fā)送表示特定的錯誤指標超過了第二閾值的信號。
4.如權(quán)利要求1所述的磁盤裝置的故障預(yù)測方法,其中,位錯誤率、讀取錯誤率、寫入錯誤率、搜索錯誤率、重新分配計數(shù)、啟動計數(shù)和啟動超時事件計數(shù)數(shù)據(jù)中的部分或全部用作錯誤指標。
5.一種磁盤裝置,包含第一功能元件,用于在從單位時間開始到其結(jié)束的時期期間,以固定訪問量的增加或以固定的測量時間間隔存儲關(guān)于一個磁頭的第一錯誤指標;第二功能元件,用于基于通過運行所述第一功能元件多次存儲的固定數(shù)目個組的第一錯誤指標,計算第二錯誤指標;第三功能元件,用于在從單位時間開始到其結(jié)束的時期期間,以固定訪問量的增加或以固定的測量時間間隔,存儲關(guān)于該磁頭的第三錯誤指標;以及第四功能元件,用于通過丟棄用作所述第二功能元件進行計算基礎(chǔ)的固定數(shù)目個組的第一錯誤指標之中按時間順序最老的那組錯誤指標,基于包括所述第三功能元件獲得的該組第一錯誤指標的固定數(shù)目個組的錯誤指標,更新第二錯誤指標。
6.如權(quán)利要求5所述的磁盤裝置,其中,如果所述第一功能元件存儲的第一錯誤指標中的任何一個,或者,所述第三功能元件存儲的第三錯誤指標中的任何一個,超過了第一閾值的話,那么所述磁盤裝置向外面發(fā)送表示特定的錯誤指標超過了第一閾值的信號。
7.如權(quán)利要求5所述的磁盤裝置,其中,如果所述第二功能元件計算的第二錯誤指標,或者,所述第四功能元件更新的第二錯誤指標,超過了第二閾值的話,那么所述磁盤裝置向外面發(fā)送表示特定的錯誤指標超過了第二閾值的信號。
8.如權(quán)利要求5所述的磁盤裝置,其中,位錯誤率、讀取錯誤率、寫入錯誤率、搜索錯誤率、重新分配計數(shù)、啟動計數(shù)和啟動超時事件計數(shù)數(shù)據(jù)中的部分或全部用作錯誤指標。
全文摘要
一種磁盤裝置的故障預(yù)測方法,包括第一步,在從單位時間開始到其結(jié)束的時期期間,以固定訪問量的增加或以固定的測量時間間隔存儲關(guān)于一個磁頭的第一錯誤指標;第二步,基于通過重復所述第一步多次存儲的固定數(shù)目個組的第一錯誤指標,計算第二錯誤指標;第三步,在從單位時間開始到其結(jié)束的時期期間,以固定訪問量的增加或以固定的測量時間間隔,存儲關(guān)于該磁頭的第三錯誤指標;以及第四步,通過丟棄用作所述第二步中計算基礎(chǔ)的所述固定數(shù)目個組的第一錯誤指標之中按時間順序最老的那組錯誤指標,基于包括在所述第三步中獲得的該組第一錯誤指標的固定數(shù)目個組的錯誤指標,更新第二錯誤指標。
文檔編號G06F11/22GK1770304SQ20051008850
公開日2006年5月10日 申請日期2005年8月2日 優(yōu)先權(quán)日2004年8月2日
發(fā)明者宮崎徹, 小島昭, 布村邦弘, 志鐮健 申請人:日立環(huán)球儲存科技荷蘭有限公司