本發(fā)明涉及磁盤領(lǐng)域,具體而言,涉及一種磁盤的故障預(yù)測方法和裝置。
背景技術(shù):
目前,硬盤是存儲數(shù)據(jù)的主要介質(zhì),硬盤一旦出故障,便會造成巨大的數(shù)據(jù)損失。因此如何保證硬盤的穩(wěn)定性能非常重要。在通常狀態(tài)下,硬盤在24小時中出錯的概率在是萬分之一左右,當(dāng)一臺服務(wù)器具有十塊硬盤時,服務(wù)器硬盤出錯的概率就會上升到千分之一,而隨著當(dāng)前網(wǎng)站等業(yè)務(wù)的發(fā)展,服務(wù)器需要使用的硬盤會越來越多,多塊硬盤同時出錯的概率也會提升。
通常情況下,數(shù)據(jù)存儲通常會有多個備份,如mysql主備庫,gfs文件默認3個備份。在大量數(shù)據(jù)存儲平臺上,如果多個硬盤同時出故障,那么這些硬盤上存儲著同一個文件的備份的概率就會很高,即如果多塊硬盤同時出現(xiàn)故障,就會導(dǎo)致一些文件的丟失,對于一些線上的服務(wù),大都依賴于服務(wù)器中存儲的海量數(shù)據(jù),如果硬盤出故障,就會導(dǎo)致上述在線服務(wù)異常,甚至?xí)和J褂谩?/p>
由于上述原因,需要具有預(yù)測硬盤是否會出錯的系統(tǒng)需要有一套系統(tǒng)能提前告訴我們哪些硬盤會出錯,數(shù)據(jù)可能丟失導(dǎo)致硬盤故障的原因有很多,最常見的有以下幾種:外部振動、溫度和濕度、電器元件損壞、聲音和灰塵,在上述因素中,有些因素能夠被采集到,比如溫度和濕度、一些元器件數(shù)據(jù),但是更多的數(shù)據(jù)無法被采集和量化,因此便會導(dǎo)致預(yù)測結(jié)果不準確。
針對現(xiàn)有技術(shù)的硬盤故障預(yù)測系統(tǒng)中一些容易致使硬盤故障的因素不能被采集胡或量化導(dǎo)致的預(yù)測結(jié)果不準確的問題,目前尚未提出有效的解決方案。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供了一種磁盤的故障預(yù)測方法和裝置,以至少解決現(xiàn)有技術(shù)的硬盤故障預(yù)測系統(tǒng)中一些容易致使硬盤故障的因素不能被采集胡或量化導(dǎo)致的預(yù)測結(jié)果不準確的技術(shù)問題。
根據(jù)本發(fā)明實施例的一個方面,提供了一種磁盤的故障預(yù)測方法,包括:通過磁 盤監(jiān)控技術(shù)獲取磁盤的樣本磁盤數(shù)據(jù),其中,樣本磁盤數(shù)據(jù)包括多個維度上的樣本數(shù)據(jù);采用gbdt算法對樣本磁盤數(shù)據(jù)進行樣本訓(xùn)練,得到由多個決策樹組成的磁盤預(yù)測模型;在接收到待測磁盤的磁盤數(shù)據(jù)之后,使用由多個決策樹組成的磁盤預(yù)測模型對待測磁盤的磁盤數(shù)據(jù)進行處理,確定待測磁盤是否為故障磁盤。
根據(jù)本發(fā)明實施例的另一方面,還提供了一種磁盤的故障預(yù)測裝置,包括:通過磁盤監(jiān)控技術(shù)獲取磁盤的樣本磁盤數(shù)據(jù),其中,樣本磁盤數(shù)據(jù)包括多個維度上的樣本數(shù)據(jù);采用gbdt算法對樣本磁盤數(shù)據(jù)進行樣本訓(xùn)練,得到由多個決策樹組成的磁盤預(yù)測模型;在接收到待測磁盤的磁盤數(shù)據(jù)之后,使用由多個決策樹組成的磁盤預(yù)測模型對待測磁盤的磁盤數(shù)據(jù)進行處理,確定待測磁盤是否為故障磁盤。
在本發(fā)明實施例中,采用通過磁盤監(jiān)控技術(shù)獲取磁盤的樣本磁盤數(shù)據(jù),其中,樣本磁盤數(shù)據(jù)包括多個維度上的樣本數(shù)據(jù);采用gbdt算法對樣本磁盤數(shù)據(jù)進行樣本訓(xùn)練,得到由多個決策樹組成的磁盤預(yù)測模型方式,通過在接收到待測磁盤的磁盤數(shù)據(jù)之后,使用由多個決策樹組成的磁盤預(yù)測模型對待測磁盤的磁盤數(shù)據(jù)進行處理,達到了確定待測磁盤是否為故障磁盤的目的,從而實現(xiàn)了預(yù)測磁盤故障狀態(tài)的技術(shù)效果,進而解決了現(xiàn)有技術(shù)的硬盤故障預(yù)測系統(tǒng)中一些容易致使硬盤故障的因素不能被采集胡或量化導(dǎo)致的預(yù)測結(jié)果不準確的技術(shù)問題。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1是根據(jù)本發(fā)明實施例的一種磁盤的故障預(yù)測方法的計算機終端的硬件結(jié)構(gòu)框圖;
圖2是根據(jù)本發(fā)明實施例的一種磁盤的故障預(yù)測方法的流程圖;
圖3是根據(jù)本發(fā)明實施例的一種使用gbdt算法對樣本磁盤數(shù)據(jù)進行訓(xùn)練的示意圖;
圖4為根據(jù)本發(fā)明實施例的一種使用gbdt算法計算磁盤預(yù)測值的示意圖;
圖5是根據(jù)本發(fā)明實施例的一種可選的磁盤的故障預(yù)測方法的流程圖;
圖6是根據(jù)本發(fā)明實施例的一種磁盤的故障預(yù)測裝置的結(jié)構(gòu)示意圖;
圖7是根據(jù)本發(fā)明實施例的一種可選的磁盤的故障預(yù)測裝置的結(jié)構(gòu)示意圖;
圖8是根據(jù)本發(fā)明實施例的一種可選的磁盤的故障預(yù)測裝置的結(jié)構(gòu)示意圖;
圖9是根據(jù)本發(fā)明實施例的一種可選的磁盤的故障預(yù)測裝置的結(jié)構(gòu)示意圖;
圖10是根據(jù)本發(fā)明實施例的一種可選的磁盤的故障預(yù)測裝置的結(jié)構(gòu)示意圖;以及
圖11是根據(jù)本發(fā)明實施例的一種計算機終端的結(jié)構(gòu)框圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護的范圍。
需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
實施例1
根據(jù)本發(fā)明實施例,還提供了一種磁盤的故障預(yù)測方法實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
本申請實施例一所提供的方法實施例可以在移動終端、計算機終端或者類似的運算裝置中執(zhí)行。以運行在計算機終端上為例,圖1是根據(jù)本發(fā)明實施例的一種磁盤的故障預(yù)測方法的計算機終端的硬件結(jié)構(gòu)框圖。如圖1所示,計算機終端10可以包括一個或多個(圖中僅示出一個)處理器102(處理器102可以包括但不限于微處理器mcu或可編程邏輯器件fpga等的處理裝置)、用于存儲數(shù)據(jù)的存儲器104、以及用于通信功能的傳輸模塊106。本領(lǐng)域普通技術(shù)人員可以理解,圖1所示的結(jié)構(gòu)僅為示意,其并不對上述電子裝置的結(jié)構(gòu)造成限定。例如,計算機終端10還可包括比圖1中所示更多或者更少的組件,或者具有與圖1所示不同的配置。
存儲器104可用于存儲應(yīng)用軟件的軟件程序以及模塊,如本發(fā)明實施例中的磁盤 的故障預(yù)測方法對應(yīng)的程序指令/模塊,處理器102通過運行存儲在存儲器104內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實現(xiàn)上述的應(yīng)用程序的漏洞檢測方法。存儲器104可包括高速隨機存儲器,還可包括非易失性存儲器,如一個或者多個磁性存儲裝置、閃存、或者其他非易失性固態(tài)存儲器。在一些實例中,存儲器104可進一步包括相對于處理器102遠程設(shè)置的存儲器,這些遠程存儲器可以通過網(wǎng)絡(luò)連接至計算機終端10。上述網(wǎng)絡(luò)的實例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動通信網(wǎng)及其組合。
傳輸裝置106用于經(jīng)由一個網(wǎng)絡(luò)接收或者發(fā)送數(shù)據(jù)。上述的網(wǎng)絡(luò)具體實例可包括計算機終端10的通信供應(yīng)商提供的無線網(wǎng)絡(luò)。在一個實例中,傳輸裝置106包括一個網(wǎng)絡(luò)適配器(networkinterfacecontroller,nic),其可通過基站與其他網(wǎng)絡(luò)設(shè)備相連從而可與互聯(lián)網(wǎng)進行通訊。在一個實例中,傳輸裝置106可以為射頻(radiofrequency,rf)模塊,其用于通過無線方式與互聯(lián)網(wǎng)進行通訊。
在上述運行環(huán)境下,本申請?zhí)峁┝巳鐖D2所示的一種磁盤的故障預(yù)測方法。圖2是根據(jù)本發(fā)明實施例的一種磁盤的故障預(yù)測方法的流程圖。
需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。
通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到根據(jù)上述實施例的方法可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實施方式。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)(如rom/ram、磁碟、光盤)中,包括若干指令用以使得一臺終端設(shè)備(可以是手機,計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述的方法。
在上述運行環(huán)境下,本申請?zhí)峁┝巳鐖D2所示的反編譯數(shù)據(jù)的處理方法。圖2是根據(jù)本發(fā)明實施例一的反編譯數(shù)據(jù)的處理方法的流程圖,如圖2所示,該方法包括:
步驟21,通過磁盤監(jiān)控技術(shù)獲取磁盤的樣本磁盤數(shù)據(jù),其中,所述樣本磁盤數(shù)據(jù)包括多個維度上的樣本數(shù)據(jù)。
在上述步驟中,磁盤監(jiān)控技術(shù)用于監(jiān)測磁盤出廠后的使用過程中產(chǎn)生的各項磁盤 數(shù)據(jù),以預(yù)測磁盤的故障狀態(tài),使得磁盤使用者能夠在磁盤發(fā)生故障之前便能知曉磁盤即將發(fā)生故障,從而對磁盤中的數(shù)據(jù)進行拷貝存儲,避免數(shù)據(jù)的丟失。
在一種可選的實施例中,上述樣本磁盤數(shù)據(jù)可以包括:底層數(shù)據(jù)讀取錯誤率、啟動/停止計數(shù)、重映射扇區(qū)數(shù)、通電時間累計、主軸起旋重試次數(shù)、磁盤校準重試次數(shù)、磁盤通電次數(shù)、溫度以及寫錯誤率,可以根據(jù)磁盤歷史故障情況獲取樣本磁盤數(shù)據(jù)。例如,可以按照正負樣本比例為1:5的比例進行樣本獲取,其中,正樣本為存在故障的磁盤,負樣本為不存在故障的磁盤。
此處需要說明的是,在通過磁盤監(jiān)控技術(shù)獲取磁盤的樣本磁盤數(shù)據(jù)時,由于預(yù)測磁盤故障的各個機構(gòu)使用的磁盤并不一定相同,且由于各個機構(gòu)不同溫濕度等環(huán)境因素對磁盤的影響,使得不同機構(gòu)的磁盤的好壞比例并不相同,為了使樣本磁盤數(shù)據(jù)的訓(xùn)練提供更可靠的樣本磁盤數(shù)據(jù),還可以根據(jù)機構(gòu)的實際上磁盤損壞情況進行獲取樣本磁盤數(shù)據(jù)。
步驟s23,采用gbdt算法對所述樣本磁盤數(shù)據(jù)進行樣本訓(xùn)練,得到由多個決策樹組成的磁盤預(yù)測模型。
在上述步驟中,gbdt(gradientboostingdecisiontree)為一種迭代的決策樹算法,該算法由多棵決策樹組成,并通過對所有決策樹的結(jié)論進行累加,得到最終結(jié)果。上述決策樹作為一種預(yù)測模型,是在上一層決策得到的結(jié)果的基礎(chǔ)上,進行下一層決策,包括決策點、狀態(tài)結(jié)點、結(jié)果結(jié)點等參數(shù),樹中的每個節(jié)點表示被預(yù)測的對象,二每個分叉路徑則代表該對象可能的屬性。
在一種可選的實施例中,在上述樣本磁盤為磁盤的s.m.a.r.t的原始值的情況下,對樣本磁盤進行樣本訓(xùn)練,例如,原始值大于等于預(yù)設(shè)原始值,可以認為該樣本磁盤發(fā)生故障的概率較大,原始值小于預(yù)設(shè)值原始時,可以認為該樣本磁盤發(fā)生故障的概率較小,因此在確定磁盤預(yù)測模型時,在樣本磁盤的原始值大于等于預(yù)設(shè)原始值的情況下,確認該樣本磁盤的屬性為故障,在樣本磁盤的原始值小于預(yù)設(shè)原始值的情況下,確認該樣本磁盤的屬性為非故障。建立具備上述決策能力的磁盤預(yù)測模型,即向決策樹輸入待檢測磁盤時,若待檢測磁盤的原始值大于等于預(yù)設(shè)原始值,決策樹自動確認該待檢測磁盤為故障的情況下,確認該樣本磁盤的屬性為故障,當(dāng)樣本磁盤的原始值小于預(yù)設(shè)原始值的情況下,確認該樣本磁盤的屬性為非故障。
步驟s25,在接收到待測磁盤的磁盤數(shù)據(jù)之后,使用所述由多個決策樹組成的磁盤預(yù)測模型對所述待測磁盤的磁盤數(shù)據(jù)進行處理,確定所述待測磁盤是否為故障磁盤。
在一種可選的實施例中,將樣本磁盤的多個維度的值作為決策樹的評價指標,得 到多個決策樹,再由多個決策樹構(gòu)成一個磁盤預(yù)測模型,對待檢測磁盤進行檢測。
此處值得注意的是,根據(jù)磁盤每一個維度得到的決策樹可能相同,可能不相同,因此在使用多個決策樹構(gòu)成磁盤預(yù)測模型時,需要根據(jù)每個決策樹在評價體系中的重要性,來確認每個決策樹的權(quán)重值,從而得到磁盤預(yù)測模型。
此處需要說明的是,在通過磁盤監(jiān)控技術(shù)獲取磁盤的樣本磁盤數(shù)據(jù)時,采用了磁盤檢測技術(shù),使得獲取樣本磁盤數(shù)據(jù)的過程更為簡單,且獲取的數(shù)據(jù)更為全面,為樣本磁盤數(shù)據(jù)的訓(xùn)練提供了豐富的磁盤樣本數(shù)據(jù)。在上述步驟中,采用gbdt算法對所述樣本磁盤數(shù)據(jù)進行樣本訓(xùn)練可以是分兩次或多次進行訓(xùn)練,以提高與訓(xùn)練結(jié)果對應(yīng)的決策樹構(gòu)成的磁盤預(yù)測模型的準確率和召回率。
由此,本申請?zhí)峁┑纳鲜鰧嵤├坏姆桨附鉀Q了現(xiàn)有技術(shù)的硬盤故障預(yù)測系統(tǒng)中一些容易致使硬盤故障的因素不能被采集或量化導(dǎo)致的預(yù)測結(jié)果不準確的技術(shù)問題。
根據(jù)本申請上述實施例,在一種優(yōu)選的方案中,所述樣本磁盤數(shù)據(jù)至少包括如下四個維度上的樣本數(shù)據(jù):原始值、標準值、最差值和累積值。
上述原始值為磁盤運行時的當(dāng)前參數(shù);上述標準值為正常磁盤運行時各項參數(shù)的數(shù)值;上述最差值為磁盤運行時,磁盤的各項檢測參數(shù)曾出現(xiàn)過與正常值偏差最大的非正常值;上述累計值為磁盤的各項檢測參數(shù)從磁盤使用至當(dāng)前時刻的累計結(jié)果。
在一種可選的實施例中,磁盤的各項參數(shù)可以是對磁盤的各項屬性進行描述的信息,可以包括錯誤讀取率、加電次數(shù)、重新分配扇區(qū)數(shù)、旋轉(zhuǎn)重試次數(shù)、磁盤校準重試次數(shù)以及奇偶校驗錯誤率中的一項或多項,也可以包括磁盤的其他屬性信息。
本申請上述步驟可以分別以上述四個維度上的樣本數(shù)據(jù)得到多個不同的決策樹。
在一種可選的實施例中,可以采用hdtune、crystaldiskinfo等軟件獲取樣本磁盤數(shù)據(jù)。
根據(jù)本申請上述實施例,在一種優(yōu)選的方案中,在通過磁盤監(jiān)控技術(shù)獲取磁盤的樣本磁盤數(shù)據(jù)之后,所述方法還包括:
步驟s211,對所述每個維度上的樣本數(shù)據(jù)進行如下任意一種或多種運算:差分運算、平方運算和分布求和運算,使得任意一個維度上的樣本數(shù)據(jù)被擴展出新的維度上的樣本數(shù)據(jù)。
在上述步驟中,對決策結(jié)果進行進一步運算,可將決策樹根據(jù)運算結(jié)果拓展出新的維度,得到這一維度上的樣本數(shù)據(jù)。
此處值得注意的時,每個維度的樣本數(shù)據(jù)都可以進行多種運算以在這一維度的基礎(chǔ)上得到更多維度的樣本數(shù)據(jù),在有四個維度的基礎(chǔ)上,每個維度再分別進行差分運算、平方運算和分布求和運算,便能夠得到十六個維度的樣本數(shù)據(jù),且通過每個維度的樣本數(shù)據(jù)進行決策的側(cè)重點均不同。
在一種可選的實施例中,仍以原始值這一維度的樣本數(shù)據(jù)為例,對原始值的樣本數(shù)據(jù)進行差分運算、平方運算和分布求和運算,由此得到新的四個維度的樣本數(shù)據(jù),采用新的四個維度的樣本數(shù)據(jù)最為決策指標進行訓(xùn)練,并得到新的四個決策樹。
根據(jù)本申請上述實施例,在一種優(yōu)選的方案中,采用gbdt算法對所述樣本磁盤數(shù)據(jù)進行樣本訓(xùn)練,得到由多個決策樹組成的磁盤預(yù)測模型,包括:
步驟s231,以所有磁盤的樣本磁盤數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),并采用默認值初始化所述訓(xùn)練數(shù)據(jù)的分類模型參數(shù)。
在上述步驟中,初始化訓(xùn)練數(shù)據(jù)的分類模型參數(shù)可以是預(yù)先設(shè)置上述決策樹的個數(shù)、每個決策樹的層數(shù),即對決策樹的屬性進行初步設(shè)置。
步驟s233,提取所述訓(xùn)練數(shù)據(jù)中的多個特征數(shù)據(jù),將每個特征數(shù)據(jù)作為根節(jié)點在創(chuàng)建所述多個決策樹,并將每個特征數(shù)據(jù)對應(yīng)的特征值作為對應(yīng)的決策樹的葉子節(jié)點。
步驟s235,計算當(dāng)前所有葉子節(jié)點的最優(yōu)劃分以及其增益,并以增益最大的葉子節(jié)點以及對應(yīng)的劃分點進行分裂,使得將所述樣本磁盤數(shù)據(jù)劃分到子節(jié)點中。
在上述步驟中,增益可以是標簽值的最小化均方差,即每個樣本的標簽值與預(yù)測標簽值做差后,求的差的平方,并計算所有差的平方的和,可以認為被預(yù)測出錯的樣本越多,均方差就越大,因此通過最小化均方差能夠找到最優(yōu)的分枝依據(jù)
上述決策樹可以是以每個特征數(shù)據(jù)作為根節(jié)點的二叉樹,且每個特數(shù)據(jù)對應(yīng)于一個特征值,該特征值為以該特征數(shù)據(jù)為根節(jié)點的決策樹的葉子節(jié)點。在確定決策樹的葉子節(jié)點后,對葉子節(jié)點在進行下一步劃分,此處值得注意的是,當(dāng)對葉子節(jié)點進行進一步劃分時,在多個葉子節(jié)點的增益不相同的情況下,劃分增益最大的葉子節(jié)點,使所有樣本數(shù)據(jù)都能劃分至相應(yīng)的葉子節(jié)點中。
在一種可選的實施例中,以樣本磁盤為a、b、c和d四塊磁盤為例,其中,a磁盤和b磁盤為正常磁盤,c磁盤和d磁盤為損壞的磁盤,在這一示例中,將正常磁盤對應(yīng)于0,故障磁盤對應(yīng)于1,因此,a、b、c和d四塊磁盤分別對應(yīng)為0、0、1、1。獲取上述磁盤在第一維度上的特征值為a,使用gbdt算法對樣本磁盤數(shù)據(jù)進行訓(xùn)練,圖3是根據(jù)本發(fā)明實施例的一種使用gbdt算法對樣本磁盤數(shù)據(jù)進行訓(xùn)練的示意圖,結(jié) 合圖3所示,設(shè)置默認初始值為0.5,即每個磁盤為故障磁盤的概率為0.5,第一維度的閥值為a0,將特征值大于a0的磁盤劃分為一個子節(jié)點,將第一維度上的特征值小于等于a0的磁盤劃分為另一個子節(jié)點,并設(shè)置兩個子節(jié)點的磁盤為故障磁盤的概率為0.5。
此處需要說明的當(dāng)是,上述實施例為方便說明,僅選用了四個樣本數(shù)據(jù)進行說明,因此只劃分得到兩個葉子節(jié)點,在實際應(yīng)用中,根節(jié)點劃分為兩個葉子節(jié)點之后,仍可以繼續(xù)劃分,樣本數(shù)據(jù)量越大,劃分的層次就越多。
根據(jù)本申請上述實施例,在一種優(yōu)選的方案中,提取所述訓(xùn)練數(shù)據(jù)中的多個特征數(shù)據(jù),將每個特征數(shù)據(jù)作為根節(jié)點在創(chuàng)建所述多個決策樹,并將每個特征數(shù)據(jù)對應(yīng)的特征值作為對應(yīng)的決策樹的葉子節(jié)點,包括:
步驟s2331,讀取任意一個特征數(shù)據(jù)對應(yīng)的閾值。
步驟s2333,將所述任意一個特征數(shù)據(jù)的特征值與所述閾值進行比較,并根據(jù)比較結(jié)果得到兩個分支的熵。
步驟s2335,根據(jù)所述兩個分支的熵確定兩個新節(jié)點作為所述任意一個特征數(shù)據(jù)的兩個葉子節(jié)點。
步驟s2337,采用上述步驟對每一個特征數(shù)據(jù)進行處理,直到每個特征數(shù)據(jù)得到預(yù)定的兩個唯一的葉子節(jié)點。
在上述步驟中,窮舉每一個特征的每一個閾值,找到使得按照特征小于等于閾值,和特征大于閾值分成的兩個分枝的熵最小的特征和閾值,按照該標準分枝得到兩個新節(jié)點,使用同樣方法繼續(xù)分枝直到所有樣本都被分入只有正常磁盤或只有故障磁盤的葉子節(jié)點,或達到預(yù)設(shè)的終止條件,若最終葉子節(jié)點中不是只有正常磁盤或故障磁盤,則以該節(jié)點上所有樣本的平均標簽值作為該葉子節(jié)點的預(yù)測標簽值。
此處需要說明的是,標簽值即為該磁盤為故障磁盤的概率。
此處仍需要說明的是,熵最小是指盡可能的使每個分枝中,正樣本和負樣本的比例遠離1:1,熵最小的情況為該分枝上只有正樣本或負樣本,即該分支上只有正常的磁盤,或故障磁盤。
在一種可選的實施例中,在決策樹為回歸樹的示例中,每個節(jié)點都會得一個預(yù)測值,該預(yù)測值等于屬于該節(jié)點的所有標簽值的平均值,對該節(jié)點進行劃分時,窮舉每一個特征的每個閾值,找最好的分割點進行劃分,直到每個葉子節(jié)點上每個樣本的標簽值都唯一或者達到預(yù)設(shè)的終止條件,若最終葉子節(jié)點上樣本的標簽值不唯一,則以 該節(jié)點上所有樣本的平均標簽值作為該葉子節(jié)點的預(yù)測標簽值。
此處需要說明的是,在上述實施例中,最優(yōu)的劃分標準不再是最小化熵,而是最小化均方差,即每個樣本的標簽值與預(yù)測標簽值做差后,求的差的平方,并計算所有差的平方的和,可以認為被預(yù)測出錯的樣本越多,均方差就越大,因此通過最小化均方差能夠找到最優(yōu)的分枝依據(jù)。
此處還需要說明的是,在進行劃分時,使每個葉子節(jié)點上每個樣本的標簽值都唯一是很難達到的,因此為了得到最接近真實情況的預(yù)測結(jié)果可以預(yù)設(shè)一個終止條件,該終止條件可以是葉子的上限。
根據(jù)本申請上述實施例,在一種優(yōu)選的方案中,在得到由多個決策樹組成的磁盤預(yù)測模型之后,所述方法還包括:對所述分類模型參數(shù)進行調(diào)整,其中,在所述分類模型參數(shù)包括故障磁盤樣本和非故障磁盤樣本的情況下,如果要確定所述待測磁盤是否為故障磁盤,則將所述分類模型參數(shù)中的故障磁盤樣本的比例調(diào)高。
根據(jù)本申請上述實施例,在一種優(yōu)選的方案中,使用所述由多個決策樹組成的磁盤預(yù)測模型對所述待測磁盤的磁盤數(shù)據(jù)進行處理,確定所述待測磁盤是否為故障磁盤,包括:
步驟s251,接收到所述待測磁盤的磁盤數(shù)據(jù)之后,對所述待測磁盤的磁盤數(shù)據(jù)賦予一個初始值。
步驟s253,根據(jù)所述待測磁盤的初始值遍歷每一個決策樹,計算得到第一個決策樹所確定的預(yù)測結(jié)果和第一殘差,并將所述第一殘差賦值給所述初始值,得到更新后的初始值。
步驟s255,以所述更新后的初始值計算得到第二個決策樹所確定的預(yù)測結(jié)果和第二殘差,并所述第二殘差賦值所述更新后的初始值,以此遍歷所有的決策樹,得到預(yù)測所述待測磁盤是否為故障磁盤的結(jié)果。
步驟s257,每一棵樹學(xué)的是之前所有樹結(jié)論和的殘差,這個殘差就是一個加預(yù)測值后能得真實值的累加量。
在一種可選的實施例中,仍以上述a,b,c,d四個磁盤為例,采用特征a可將a,b,c,d四個磁盤分為兩個部分,分別為a,b和c,d,每個部分用平均標簽值作為預(yù)測值。此時計算殘差,其中殘差至為磁盤的預(yù)測值與磁盤的實際值的差,所以a的殘差就是1-0.5=0.5進而得到a,b,c,d的殘差分別為0.5,-0.5,0.5,-0.5。然后結(jié)合圖4所示,圖4為根據(jù)本發(fā)明實施例的一種使用gbdt算法計算磁盤預(yù)測值的示意圖,使用 殘差替代a,b,c,d的原值,輸入至第二棵決策樹進行訓(xùn)練,并根據(jù)與特征b的比對結(jié)果分為兩個葉子節(jié)點,如果預(yù)測值和它們的殘差相等,則只需把第二棵樹的結(jié)論累加到第一棵樹上就能得到磁盤的實際值。第二棵樹僅有兩個值0.5和-0.5,因此直接分成兩個節(jié)點。此時所有人的殘差都是0,即每個人都得到了真實的預(yù)測值。
此處需要說明的是,上述實施例以說明為目的,因此只有兩顆決策樹,在實際應(yīng)用中,根據(jù)樣本數(shù)據(jù)量可以獲得到個決策樹,且預(yù)測值是指之前所有樹累加的和,由于此實施例中,這棵決策樹之前僅有一顆決策樹,因此直接是0.5,如果還有奇特決策樹,則需要都累加起來作為a的預(yù)測值。
圖5是根據(jù)本發(fā)明實施例的一種可選的磁盤的故障預(yù)測方法的流程圖,下面結(jié)合圖5詳細介紹本申請的一種優(yōu)選的實施例。
如圖5所示,提供了一種磁盤的故障預(yù)測方法,該方法可以包括如下步驟s51至步驟s57:
s51,獲取樣本磁盤的樣本數(shù)據(jù)。
具體的,在上述步驟中,可以通過hdtune、crystaldiskinfo等軟件獲取樣本磁盤數(shù)據(jù)。
s52,對樣本數(shù)據(jù)進行差分運算。
具體的,在上述步驟中,差分運算指磁盤在某一時刻的特征數(shù)據(jù)與過該磁盤在24小時之前的特征數(shù)據(jù)做差運算得到的值。
s53,對差分運算得到的結(jié)果進行分布求和和/或平方運算。
s54,得到訓(xùn)練和預(yù)測數(shù)據(jù)。
s55,第一步訓(xùn)練和預(yù)測,使召回率較大。
s56,第二步訓(xùn)練和預(yù)測,平衡召回率和準確率。
具體的,在上述步驟中,由于訓(xùn)練數(shù)據(jù)中負樣本占比很大,正樣本占比小,例如,當(dāng)二者比例為1000:1時,如果用全部的訓(xùn)練數(shù)據(jù)做訓(xùn)練,能準確預(yù)測的正樣本是很少的,由于訓(xùn)練數(shù)據(jù)中正樣本較少,很多真實值為負樣本的數(shù)據(jù)可能被誤判為正樣本,因此第一步在訓(xùn)練時使正樣本的召回率較大,第二步在訓(xùn)練時,把第一步預(yù)測為正樣本的訓(xùn)練數(shù)據(jù)作為第二步的訓(xùn)練數(shù)據(jù),即選擇為與正樣本接近的那些樣本作為訓(xùn)練樣本,如此在做訓(xùn)練時,訓(xùn)練出的模型會更有利于預(yù)測出正樣本,這樣第二步預(yù)測得到的結(jié)果,正樣本的準確率會比第一步有大幅度提高,從而使準確率和召回率達到一定 的平衡程度。
實施例2
根據(jù)本發(fā)明實施例,還提供了一種用于實施上述反編譯數(shù)據(jù)的處理方法的反編譯數(shù)據(jù)的處理裝置,圖6是根據(jù)本發(fā)明實施例的一種磁盤的故障預(yù)測裝置的結(jié)構(gòu)示意圖,如圖6所示,該裝置包括:獲取模塊60,訓(xùn)練模塊62和處理模塊64。
獲取模塊60,用于通過磁盤監(jiān)控技術(shù)獲取磁盤的樣本磁盤數(shù)據(jù),其中,所述樣本磁盤數(shù)據(jù)包括多個維度上的樣本數(shù)據(jù);
訓(xùn)練模塊62,用于采用gbdt算法對所述樣本磁盤數(shù)據(jù)進行樣本訓(xùn)練,得到由多個決策樹組成的磁盤預(yù)測模型;
處理模塊64,在接收到待測磁盤的磁盤數(shù)據(jù)之后,使用所述由多個決策樹組成的磁盤預(yù)測模型對所述待測磁盤的磁盤數(shù)據(jù)進行處理,確定所述待測磁盤是否為故障磁盤。
此處需要說明的是,上述獲取模塊60,訓(xùn)練模塊62和處理模塊64對應(yīng)于實施例一種的步驟s21至步驟s25所實現(xiàn)的實例和應(yīng)用場景相同,但不限于上述實施例一所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運行在實施例一提供的計算機終端10中。
根據(jù)本申請上述實施例,在一種優(yōu)選的方案中,所述樣本磁盤數(shù)據(jù)為smart磁盤數(shù)據(jù),其中,所述樣本磁盤數(shù)據(jù)至少包括如下四個維度上的樣本數(shù)據(jù):原始值、標準值、最差值和累積值。
根據(jù)本申請上述實施例,在一種優(yōu)選的方案中,結(jié)合圖7所示,上述裝置還包括:
運算模塊70,用于對所述每個維度上的樣本數(shù)據(jù)進行如下任意一種或多種運算:差分運算、平方運算和分布求和運算,使得任意一個維度上的樣本數(shù)據(jù)被擴展出新的維度上的樣本數(shù)據(jù)。
此處需要說明的是,上述運算模塊770對應(yīng)與實施例一中的步驟s21至步驟s25所實現(xiàn)的實例和應(yīng)用場景相同,但不限于上述實施例一所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運行在實施例一提供的計算機終端10中。
根據(jù)本申請上述實施例,在一種優(yōu)選的方案中,結(jié)合圖8所示,上述訓(xùn)練模塊62還包括:
初始模塊80,用于以所有磁盤的樣本磁盤數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),并采用默認值初始 化所述訓(xùn)練數(shù)據(jù)的分類模型參數(shù);
提取模塊82,用于提取所述訓(xùn)練數(shù)據(jù)中的多個特征數(shù)據(jù),將每個特征數(shù)據(jù)作為根節(jié)點在創(chuàng)建所述多個決策樹,并將每個特征數(shù)據(jù)對應(yīng)的特征值作為對應(yīng)的決策樹的葉子節(jié)點;
第一計算模塊84,用于計算當(dāng)前所有葉子節(jié)點的最優(yōu)劃分以及其增益,并以增益最大的葉子節(jié)點以及對應(yīng)的劃分點進行分裂,使得將所述樣本磁盤數(shù)據(jù)劃分到子節(jié)點中。
此處需要說明的是,上述初始模塊80,提取模塊82和第一計算模塊84對應(yīng)于實施例一種的步驟s231至步驟s235所實現(xiàn)的實例和應(yīng)用場景相同,但不限于上述實施例一所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運行在實施例一提供的計算機終端10中。
根據(jù)本申請上述實施例,在一種優(yōu)選的方案中,結(jié)合圖9所示,所述提取模塊82包括:
讀取模塊90,用于讀取任意一個特征數(shù)據(jù)對應(yīng)的閾值;
比較模塊92,用于將所述任意一個特征數(shù)據(jù)的特征值與所述閾值進行比較,并根據(jù)比較結(jié)果得到兩個分支的熵;
確定模塊94,用于根據(jù)所述兩個分支的熵確定兩個新節(jié)點作為所述任意一個特征數(shù)據(jù)的兩個葉子節(jié)點;
處理子模塊96,用于采用上述步驟對每一個特征數(shù)據(jù)進行處理,直到每個特征數(shù)據(jù)得到預(yù)定的兩個唯一的葉子節(jié)點。
此處需要說明的是,上述讀取模塊90,比較模塊92、確定模塊94和處理子模塊96對應(yīng)于實施例一種的步驟s2331至步驟s2337所實現(xiàn)的實例和應(yīng)用場景相同,但不限于上述實施例一所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運行在實施例一提供的計算機終端10中。
根據(jù)本申請上述實施例,在一種優(yōu)選的方案中,在得到由多個決策樹組成的磁盤預(yù)測模型之后,所述方法還包括:對所述分類模型參數(shù)進行調(diào)整,其中,在所述分類模型參數(shù)包括故障磁盤樣本和非故障磁盤樣本的情況下,如果要確定所述待測磁盤是否為故障磁盤,則將所述分類模型參數(shù)中的故障磁盤樣本的比例調(diào)高。
根據(jù)本申請上述實施例,在一種優(yōu)選的方案中,結(jié)合圖10所示,上述處理模塊 64包括:
接收模塊100,用于接收到所述待測磁盤的磁盤數(shù)據(jù)之后,對所述待測磁盤的磁盤數(shù)據(jù)賦予一個初始值;
第二計算模塊102,用于根據(jù)所述待測磁盤的初始值遍歷每一個決策樹,計算得到第一個決策樹所確定的預(yù)測結(jié)果和第一殘差,并將所述第一殘差賦值給所述初始值,得到更新后的初始值;
遍歷模塊104,用于以所述更新后的初始值計算得到第二個決策樹所確定的預(yù)測結(jié)果和第二殘差,并所述第二殘差賦值所述更新后的初始值,以此遍歷所有的決策樹,得到預(yù)測所述待測磁盤是否為故障磁盤的結(jié)果。
此處需要說明的是,上述接收模塊100,第二計算模塊102和遍歷模塊104對應(yīng)于實施例一種的步驟s251至步驟s255所實現(xiàn)的實例和應(yīng)用場景相同,但不限于上述實施例一所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運行在實施例一提供的計算機終端10中。
實施例3
本發(fā)明的實施例可以提供一種計算機終端,該計算機終端可以是計算機終端群中的任意一個計算機終端設(shè)備。可選地,在本實施例中,上述計算機終端也可以替換為移動終端等終端設(shè)備。
可選地,在本實施例中,上述計算機終端可以位于計算機網(wǎng)絡(luò)的多個網(wǎng)絡(luò)設(shè)備中的至少一個網(wǎng)絡(luò)設(shè)備。
在本實施例中,上述計算機終端可以執(zhí)行磁盤的故障預(yù)測方法中以下步驟的程序代碼:通過磁盤監(jiān)控技術(shù)獲取磁盤的樣本磁盤數(shù)據(jù),其中,樣本磁盤數(shù)據(jù)包括多個維度上的樣本數(shù)據(jù);采用gbdt算法對樣本磁盤數(shù)據(jù)進行樣本訓(xùn)練,得到由多個決策樹組成的磁盤預(yù)測模型;在接收到待測磁盤的磁盤數(shù)據(jù)之后,使用由多個決策樹組成的磁盤預(yù)測模型對待測磁盤的磁盤數(shù)據(jù)進行處理,確定待測磁盤是否為故障磁盤。
可選地,圖11是根據(jù)本發(fā)明實施例的一種計算機終端的結(jié)構(gòu)框圖。如圖11所示,該計算機終端a可以包括:一個或多個(圖中僅示出一個)處理器111、存儲器113、以及傳輸裝置115。
其中,存儲器可用于存儲軟件程序以及模塊,如本發(fā)明實施例中的磁盤的故障預(yù)測方法和裝置對應(yīng)的程序指令/模塊,處理器通過運行存儲在存儲器內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實現(xiàn)上述的磁盤的故障預(yù)測方法。存 儲器可包括高速隨機存儲器,還可以包括非易失性存儲器,如一個或者多個磁性存儲裝置、閃存、或者其他非易失性固態(tài)存儲器。在一些實例中,存儲器可進一步包括相對于處理器遠程設(shè)置的存儲器,這些遠程存儲器可以通過網(wǎng)絡(luò)連接至終端a。上述網(wǎng)絡(luò)的實例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動通信網(wǎng)及其組合。
處理器可以通過傳輸裝置調(diào)用存儲器存儲的信息及應(yīng)用程序,以執(zhí)行下述步驟:樣本磁盤數(shù)據(jù)為smart磁盤數(shù)據(jù),其中,樣本磁盤數(shù)據(jù)至少包括如下四個維度上的樣本數(shù)據(jù):原始值、標準值、最差值和累積值。
可選的,上述處理器還可以執(zhí)行如下步驟的程序代碼:對每個維度上的樣本數(shù)據(jù)進行如下任意一種或多種運算:差分運算、平方運算和分布求和運算,使得任意一個維度上的樣本數(shù)據(jù)被擴展出新的維度上的樣本數(shù)據(jù)。
可選的,上述處理器還可以執(zhí)行如下步驟的程序代碼:以所有磁盤的樣本磁盤數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),并采用默認值初始化訓(xùn)練數(shù)據(jù)的分類模型參數(shù);提取訓(xùn)練數(shù)據(jù)中的多個特征數(shù)據(jù),將每個特征數(shù)據(jù)作為根節(jié)點在創(chuàng)建多個決策樹,并將每個特征數(shù)據(jù)對應(yīng)的特征值作為對應(yīng)的決策樹的葉子節(jié)點;計算當(dāng)前所有葉子節(jié)點的最優(yōu)劃分以及其增益,并以增益最大的葉子節(jié)點以及對應(yīng)的劃分點進行分裂,使得將樣本磁盤數(shù)據(jù)劃分到子節(jié)點中。
可選的,上述處理器還可以執(zhí)行如下步驟的程序代碼:讀取任意一個特征數(shù)據(jù)對應(yīng)的閾值;將任意一個特征數(shù)據(jù)的特征值與閾值進行比較,并根據(jù)比較結(jié)果得到兩個分支的熵;根據(jù)兩個分支的熵確定兩個新節(jié)點作為任意一個特征數(shù)據(jù)的兩個葉子節(jié)點;采用上述步驟對每一個特征數(shù)據(jù)進行處理,直到每個特征數(shù)據(jù)得到預(yù)定的兩個唯一的葉子節(jié)點。
可選的,上述處理器還可以執(zhí)行如下步驟的程序代碼:在得到由多個決策樹組成的磁盤預(yù)測模型之后,方法還包括:對分類模型參數(shù)進行調(diào)整,其中,在分類模型參數(shù)包括故障磁盤樣本和非故障磁盤樣本的情況下,如果要確定待測磁盤是否為故障磁盤,則將分類模型參數(shù)中的故障磁盤樣本的比例調(diào)高。
可選的,上述處理器還可以執(zhí)行如下步驟的程序代碼:接收到待測磁盤的磁盤數(shù)據(jù)之后,對待測磁盤的磁盤數(shù)據(jù)賦予一個初始值;根據(jù)待測磁盤的初始值遍歷每一個決策樹,計算得到第一個決策樹所確定的預(yù)測結(jié)果和第一殘差,并將第一殘差賦值給初始值,得到更新后的初始值;以更新后的初始值計算得到第二個決策樹所確定的預(yù)測結(jié)果和第二殘差,并第二殘差賦值更新后的初始值,以此遍歷所有的決策樹,得到預(yù)測待測磁盤是否為故障磁盤的結(jié)果。
在本發(fā)明實施例中,采用通過磁盤監(jiān)控技術(shù)獲取磁盤的樣本磁盤數(shù)據(jù),其中,樣本磁盤數(shù)據(jù)包括多個維度上的樣本數(shù)據(jù);采用gbdt算法對樣本磁盤數(shù)據(jù)進行樣本訓(xùn)練,得到由多個決策樹組成的磁盤預(yù)測模型方式,通過在接收到待測磁盤的磁盤數(shù)據(jù)之后,使用由多個決策樹組成的磁盤預(yù)測模型對待測磁盤的磁盤數(shù)據(jù)進行處理,達到了確定待測磁盤是否為故障磁盤的目的,從而實現(xiàn)了預(yù)測磁盤故障狀態(tài)的技術(shù)效果,進而解決了現(xiàn)有技術(shù)的硬盤故障預(yù)測系統(tǒng)中一些容易致使硬盤故障的因素不能被采集胡或量化導(dǎo)致的預(yù)測結(jié)果不準確的技術(shù)問題。
本領(lǐng)域普通技術(shù)人員可以理解,圖11所示的結(jié)構(gòu)僅為示意,計算機終端也可以是智能手機(如android手機、ios手機等)、平板電腦、掌聲電腦以及移動互聯(lián)網(wǎng)設(shè)備(mobileinternetdevices,mid)、pad等終端設(shè)備。圖11其并不對上述電子裝置的結(jié)構(gòu)造成限定。例如,計算機終端a還可包括比圖11中所示更多或者更少的組件(如網(wǎng)絡(luò)接口、顯示裝置等),或者具有與圖11所示不同的配置。
本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令終端設(shè)備相關(guān)的硬件來完成,該程序可以存儲于一計算機可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:閃存盤、只讀存儲器(read-onlymemory,rom)、隨機存取器(randomaccessmemory,ram)、磁盤或光盤等。
實施例4
本發(fā)明的實施例還提供了一種存儲介質(zhì)??蛇x地,在本實施例中,上述存儲介質(zhì)可以用于保存上述實施例一所提供的磁盤的故障預(yù)測方法所執(zhí)行的程序代碼。
可選地,在本實施例中,上述存儲介質(zhì)可以位于計算機網(wǎng)絡(luò)中計算機終端群中的任意一個計算機終端中,或者位于移動終端群中的任意一個移動終端中。
可選地,在本實施例中,存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:通過磁盤監(jiān)控技術(shù)獲取磁盤的樣本磁盤數(shù)據(jù),其中,樣本磁盤數(shù)據(jù)包括多個維度上的樣本數(shù)據(jù);采用gbdt算法對樣本磁盤數(shù)據(jù)進行樣本訓(xùn)練,得到由多個決策樹組成的磁盤預(yù)測模型;在接收到待測磁盤的磁盤數(shù)據(jù)之后,使用由多個決策樹組成的磁盤預(yù)測模型對待測磁盤的磁盤數(shù)據(jù)進行處理,確定待測磁盤是否為故障磁盤。
可選地,上述存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:對每個維度上的樣本數(shù)據(jù)進行如下任意一種或多種運算:差分運算、平方運算和分布求和運算,使得任意一個維度上的樣本數(shù)據(jù)被擴展出新的維度上的樣本數(shù)據(jù)。
可選地,上述存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:以所有磁盤的樣本磁盤數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),并采用默認值初始化訓(xùn)練數(shù)據(jù)的分類模型參數(shù);提 取訓(xùn)練數(shù)據(jù)中的多個特征數(shù)據(jù),將每個特征數(shù)據(jù)作為根節(jié)點在創(chuàng)建多個決策樹,并將每個特征數(shù)據(jù)對應(yīng)的特征值作為對應(yīng)的決策樹的葉子節(jié)點;計算當(dāng)前所有葉子節(jié)點的最優(yōu)劃分以及其增益,并以增益最大的葉子節(jié)點以及對應(yīng)的劃分點進行分裂,使得將樣本磁盤數(shù)據(jù)劃分到子節(jié)點中。
可選地,上述存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:讀取任意一個特征數(shù)據(jù)對應(yīng)的閾值;將任意一個特征數(shù)據(jù)的特征值與閾值進行比較,并根據(jù)比較結(jié)果得到兩個分支的熵;根據(jù)兩個分支的熵確定兩個新節(jié)點作為任意一個特征數(shù)據(jù)的兩個葉子節(jié)點;采用上述步驟對每一個特征數(shù)據(jù)進行處理,直到每個特征數(shù)據(jù)得到預(yù)定的兩個唯一的葉子節(jié)點。
可選地,上述存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:在得到由多個決策樹組成的磁盤預(yù)測模型之后,方法還包括:對分類模型參數(shù)進行調(diào)整,其中,在分類模型參數(shù)包括故障磁盤樣本和非故障磁盤樣本的情況下,如果要確定待測磁盤是否為故障磁盤,則將分類模型參數(shù)中的故障磁盤樣本的比例調(diào)高。
可選地,上述存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:接收到待測磁盤的磁盤數(shù)據(jù)之后,對待測磁盤的磁盤數(shù)據(jù)賦予一個初始值;根據(jù)待測磁盤的初始值遍歷每一個決策樹,計算得到第一個決策樹所確定的預(yù)測結(jié)果和第一殘差,并將第一殘差賦值給初始值,得到更新后的初始值;以更新后的初始值計算得到第二個決策樹所確定的預(yù)測結(jié)果和第二殘差,并第二殘差賦值更新后的初始值,以此遍歷所有的決策樹,得到預(yù)測待測磁盤是否為故障磁盤的結(jié)果。
上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
在本發(fā)明的上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。
在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過其它的方式實現(xiàn)。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例 方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可為個人計算機、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。