集群系統(tǒng)的失效預測方法及裝置制造方法
【專利摘要】本發(fā)明實施例提供一種集群系統(tǒng)的失效預測方法及裝置。方法包括:根據集群系統(tǒng)的失效事件集合對事件序列模式集合進行聚類分析,獲得事件序列簇;對事件序列簇進行因果關聯(lián)分析,獲取因果關聯(lián)路徑簇;對因果關聯(lián)路徑簇進行失效分析,獲取集群系統(tǒng)的失效模式;根據失效模式,對集群系統(tǒng)進行失效預測。本發(fā)明實施例提供的集群系統(tǒng)的失效預測方法及裝置對事件序列模式集合進行聚類獲得因果關聯(lián)路徑簇,從而獲得集群系統(tǒng)的失效模式,根據獲取的失效模式對集群系統(tǒng)進行失效預測。可以通過對集群系統(tǒng)日志進行深度的分析和挖掘,獲得用于失效預測的可靠的失效規(guī)則,進而提高失效預測的召回率。
【專利說明】集群系統(tǒng)的失效預測方法及裝置
【技術領域】
[0001]本發(fā)明實施例涉及計算機技術,尤其涉及一種集群系統(tǒng)的失效預測方法及裝置。【背景技術】
[0002]隨著集群系統(tǒng)在大規(guī)模生產性計算平臺中的廣泛應用,集群系統(tǒng)的失效和錯誤也頻繁出現,集群系統(tǒng)的失效或錯誤造成的業(yè)務中斷、數據泄漏甚至數據丟失往往會帶給用戶沉重的打擊。因此,集群系統(tǒng)的安全性、可靠性以及可用性的重要性也日漸突出。
[0003]現有技術中,通常會通過對集群系統(tǒng)日志中的失效事件進行簡單的統(tǒng)計以得到失效事件序列關聯(lián)規(guī)則(簡稱失效規(guī)則),再根據失效規(guī)則對集群系統(tǒng)進行失效預測,從而提升集群系統(tǒng)的安全性、可靠性以及可用性。通??梢允褂妙A測召回率這一指標來評價失效預測結果的有效性,預測召回率用于表示預測正確的失效事件數在需要被預測的所有失效事件中所占的比例。
[0004]但由于集群系統(tǒng)日志中記錄了許多冗余事件,例如無征兆情況下發(fā)生的失效事件或者出現次數較少的失效事件,導致?lián)私y(tǒng)計獲得的失效規(guī)則可靠性較低。所以現有技術中失效預測方法的預測召回率尚待提高。
【發(fā)明內容】
[0005]本發(fā)明實施例提供一種集群系統(tǒng)的失效預測方法及裝置。
[0006]第一方面,本發(fā)明實施例提供的集群系統(tǒng)的失效預測方法包括:
[0007]根據集群系統(tǒng)的失效事件集合對事件序列模式集合進行聚類分析,獲得事件序列簇;對所述事件序列簇進行因果關聯(lián)分析,獲取因果關聯(lián)路徑簇;對所述因果關聯(lián)路徑簇進行失效分析,獲取所述集群系統(tǒng)的失效模式;根據所述失效模式,對所述集群系統(tǒng)進行失效預測。
[0008]在第一方面的第一種可能的實現方式中,所述根據集群系統(tǒng)的失效事件集合對事件序列模式集合進行聚類分析之前,還包括:從所述集群系統(tǒng)的日志事件庫中獲取所述失效事件集合和所述事件序列模式集合。
[0009]根據第一方面或第一方面的第一種可能的實現方式,在第二種可能的實現方式中,所述根據集群系統(tǒng)的失效事件集合對事件序列模式集合進行聚類分析,獲得事件序列簇,包括:在所述事件序列模式集合中查找包含第一失效事件的第一事件序列模式,所述第一失效事件屬于所述失效事件集合;將所述第一事件序列模式和所述第一事件序列模式的第一支持度計數添加至所述事件序列簇。
[0010]根據第一方面或第一方面的前兩種可能的實現方式,在第三種可能的實現方式中,所述根據所述事件序列簇,獲取因果關聯(lián)路徑簇,包括:根據所述事件序列簇構建因果關系網;根據所述因果關系網獲取所述因果關聯(lián)路徑簇。
[0011]根據第一方面或第一方面的前三種可能的實現方式,在第四種可能的實現方式中,所述對所述因果關聯(lián)路徑簇進行失效分析,獲取所述集群系統(tǒng)的失效模式,包括:以所述因果關聯(lián)路徑簇中包含的第二失效事件為后件,以所述因果關聯(lián)路徑簇中包含的處于所述第二失效事件前一位置的事件為前件,將所述前件與所述后件構造為二元失效因果路徑簇;根據事件類型表,查找所述前件與所述后件分別對應的前件事件類型標識與后件事件類型標識,將所述二元失效因果路徑簇中包含的所述前件與所述后件分別替換為所述前件事件類型標識與所述后件事件類型標識,得到由所述前件事件類型標識與所述后件事件類型標識構成的所述失效模式。
[0012]根據第一方面或第一方面的前四種可能的實現方式,在第五種可能的實現方式中,所述根據所述失效模式,對所述集群系統(tǒng)進行失效預測,包括:根據所述失效模式,對失效事件序列關聯(lián)規(guī)則庫進行更新;采用更新后的失效事件序列關聯(lián)規(guī)則庫,對所述集群系統(tǒng)進行失效預測。
[0013]根據第五種可能的實現方式,在第六種可能的實現方式中,根據所述失效模式,對失效事件序列關聯(lián)規(guī)則庫進行更新,包括:根據所述失效模式,獲取第二事件序列模式;將所述第二事件序列模式對應的失效事件序列關聯(lián)規(guī)則添加至所述失效事件序列關聯(lián)規(guī)則庫。
[0014]根據第五種或者第六種可能的實現方式,在第七種可能的實現方式中,所述采用更新后的失效事件序列關聯(lián)規(guī)則庫,對所述集群系統(tǒng)進行失效預測,包括:在預測有效窗口內,采用更新后的失效事件序列關聯(lián)規(guī)則庫,對所述集群系統(tǒng)進行失效預測。
[0015]第二方面,本發(fā)明實施例提供的集群系統(tǒng)的失效預測裝置包括
[0016]事件序列簇獲取模塊,用于根據集群系統(tǒng)的失效事件集合對事件序列模式集合進行聚類分析,獲得事件序列簇;因果關聯(lián)路徑簇獲取模塊,用于對所述事件序列簇進行因果關聯(lián)分析,獲取因果關聯(lián)路徑簇;失效模式獲取模塊,用于對所述因果關聯(lián)路徑簇進行失效分析,獲取所述集群系統(tǒng)的失效模式;失效預測模塊,用于根據所述失效模式,對所述集群系統(tǒng)進行失效預測。
[0017]在第二方面的第一種可能的實現方式中,還包括:事件獲取模塊,用于從所述集群系統(tǒng)的日志事件庫中獲取所述失效事件集合和所述事件序列模式集合。
[0018]根據第二方面或第二方面的第一種可能的實現方式,在第二種可能的實現方式中,所述事件序列簇獲取模塊具體用于:在所述事件序列模式集合中查找包含第一失效事件的第一事件序列模式,所述第一失效事件屬于所述失效事件集合;將所述第一事件序列模式和所述第一事件序列模式的第一支持度計數添加至所述事件序列簇。
[0019]根據第二方面或第二方面的前兩種可能的實現方式,在第三種可能的實現方式中,所述因果關聯(lián)路徑簇獲取模塊具體用于:根據所述事件序列簇構建因果關系網;根據所述因果關系網獲取所述因果關聯(lián)路徑簇。
[0020]根據第二方面或第二方面的前三種可能的實現方式,在第四種可能的實現方式中,所述失效模式獲取模塊具體用于:以所述因果關聯(lián)路徑簇中包含的第二失效事件為后件,以所述因果關聯(lián)路徑簇中包含的處于所述第二失效事件前一位置的事件為前件,將所述前件與所述后件構造為二元失效因果路徑簇;根據事件類型表,查找所述前件與所述后件分別對應的前件事件類型標識與后件事件類型標識,將所述二元失效因果路徑簇中包含的所述前件與所述后件分別替換為所述前件事件類型標識與所述后件事件類型標識,得到由所述前件事件類型標識與所述后件事件類型標識構成的所述失效模式。[0021]根據第二方面或第二方面的前四種可能的實現方式,在第五種可能的實現方式中,所述失效預測模塊具體用于:根據所述失效模式,對失效事件序列關聯(lián)規(guī)則庫進行更新;采用更新后的失效事件序列關聯(lián)規(guī)則庫,對所述集群系統(tǒng)進行失效預測。
[0022]根據第五種可能的實現方式,在第六種可能的實現方式中,所述失效預測模塊具體還用于:根據所述失效模式,獲取第二事件序列模式;將所述第二事件序列模式對應的失效事件序列關聯(lián)規(guī)則添加至所述失效事件序列關聯(lián)規(guī)則庫。
[0023]根據第五種或者第六種可能的實現方式,在第七種可能的實現方式中,所述失效預測模塊還用于:在預測有效窗口內,采用更新后的失效事件序列關聯(lián)規(guī)則庫,對所述集群系統(tǒng)進行失效預測。
[0024]本發(fā)明實施例提供的集群系統(tǒng)的失效預測方法及裝置,對事件序列模式集合進行聚類獲得因果關聯(lián)路徑簇,從而獲得集群系統(tǒng)的失效模式,根據獲取的失效模式對集群系統(tǒng)進行失效預測??梢酝ㄟ^對集群系統(tǒng)日志進行深度的分析和挖掘,獲得用于失效預測的可靠的失效規(guī)則,進而提高失效預測的召回率。
【專利附圖】
【附圖說明】
[0025]為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
[0026]圖1為本發(fā)明提供的集群系統(tǒng)的失效預測方法一實施例的流程圖;
[0027]圖2為本發(fā)明提供的集群系統(tǒng)的失效預測方法中獲得事件序列簇的方法實施例流程圖;
[0028]圖3A為本發(fā)明提供的集群系統(tǒng)的失效預測方法中獲取因果關聯(lián)路徑簇的方法實施例流程圖;
[0029]圖3B為根據表I中的事件序列簇SC1構建因果關系網的實施例示意圖;
[0030]圖3C為根據事件序列簇SC3獲取因果關聯(lián)路徑簇的實施例示意圖;
[0031]圖4為本發(fā)明提供的集群系統(tǒng)的失效預測方法中獲取集群系統(tǒng)的失效模式的方法實施例流程圖;
[0032]圖5為本發(fā)明提供的集群系統(tǒng)的失效預測方法中根據失效模式對集群系統(tǒng)進行失效預測的方法實施例流程圖;
[0033]圖6為本發(fā)明提供的集群系統(tǒng)的失效預測方法中采用更新后的失效事件序列關聯(lián)規(guī)則庫對集群系統(tǒng)進行失效預測的方法實施例簡圖;
[0034]圖7為本發(fā)明提供的集群系統(tǒng)的失效預測裝置一實施例的結構示意圖;
[0035]圖8為本發(fā)明提供的集群系統(tǒng)的失效預測裝置另一實施例的結構示意圖。
【具體實施方式】
[0036]為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0037]圖1為本發(fā)明提供的集群系統(tǒng)的失效預測方法一實施例的流程圖,如圖1所示,本實施例提供的集群系統(tǒng)的失效預測方法包括:
[0038]S110、根據集群系統(tǒng)的失效事件集合對事件序列模式集合進行聚類分析,獲得事件序列簇。集群系統(tǒng)的事件序列是要將系統(tǒng)日志中的一系列事件看作按照事件發(fā)生的時間戳先后順序所組成的序列,通過定義大規(guī)模系統(tǒng)日志的事件序列模式來描述系統(tǒng)事件之間的頻繁關聯(lián),事件序列模式集合包含了所有的事件序列模式。
[0039]S120、對事件序列簇進行因果關聯(lián)分析,獲取因果關聯(lián)路徑簇。
[0040]S130、對因果關聯(lián)路徑簇進行失效分析,獲取集群系統(tǒng)的失效模式。
[0041]S140、根據失效模式,對集群系統(tǒng)進行失效預測。
[0042]本實施例提供的集群系統(tǒng)的失效預測方法,對事件序列模式集合進行聚類獲得因果關聯(lián)路徑簇,從而獲得集群系統(tǒng)的失效模式,根據獲取的失效模式對集群系統(tǒng)進行失效預測。通過對集群系統(tǒng)日志進行深度的分析和挖掘,獲得用于失效預測的可靠的失效規(guī)則,進而提高了失效預測的召回率。
[0043]可選地,圖1所示實施例中,根據集群系統(tǒng)的失效事件集合對事件序列模式集合進行聚類分析之前,還包括:從集群系統(tǒng)的日志事件庫中獲取失效事件集合和事件序列模式集合。即用于獲取事件序列簇的失效事件集合和事件序列模式集合可以從集群系統(tǒng)的日志事件庫中獲得。
[0044]圖2為本發(fā)明提供的集群系統(tǒng)的失效預測方法中獲得事件序列簇的方法實施例流程圖,如圖2所示,本實施例提供的集群系統(tǒng)的失效預測方法中,根據集群系統(tǒng)的失效事件集合對事件序列模式集合進行聚類分析,獲得事件序列簇,包括:在事件序列模式集合中查找包含第一失效事件的第一事件序列模式,第一失效事件屬于失效事件集合;確定所述事件序列簇包括第一事件序列模式和第一事件序列模式的第一支持度計數。
[0045]具體地,本發(fā)明實施例中,獲得事件序列簇的方法可以包括:
[0046]S202、對事件序列模式集合Sm和失效事件集合FE進行初始化;將已經經過S208-S218處理過的失效事件集合定義為Ef,可以將Ef稱為已處理失效事件集合,初始化已處理失效事件集合Ef,令Ef = Φ。
[0047]S204、初始化事件序列簇SCi和事件聚類集ECi,令SCi= Φ且ECi= Φ。
[0048]S206、判斷失效事件集合FE中的第一失效事件fe」(I ( j〈t)是否屬于已處理失效事件集合Ef:若第一失效事件fe」屬于已處理失效事件集合Ef,則繼續(xù)通過S206對下一失效事件fej+1進行判斷;若第一失效事件fe」不屬于已處理失效事件集合Ef,則執(zhí)行S208。
[0049]S208、在事件序列模式集合Sm中搜索包含第一失效事件fe」的第一事件序列模式,令SC= {SM中包含且支持度計數大于閾值的第一事件序列模式的集合}。
[0050]對于事件序列模式集合Sm中事件序列模式的支持度計數,需要說明的是,如果A是事件序列模式集合Sm中的一個事件序列模式,A的支持度計數是指A在經過序列模式挖掘得到的原始序列數據庫中出現的次數,在序列模式集合Sm中用一個正整數表示,可以記為Supsm(A).[0051]S210、判斷sc是否為空,若sc不為空,則執(zhí)行S212 ;若sc為空,則判斷是否屬于FE(S216),如果fe」屬于FE,則令fej=fej+1后返回S206,如果fe」不屬于FE,則令fe」=feJ+1后執(zhí)打S218。
[0052]S212、若sc不為空,令ec= {sc包含的第一事件序列模式里所包含的所有事件的事件標識(log id)的集合}, SCi=SC^sc,ECi=EC^ec ;令ef=ef+{ec中包含的事件標識中的失效事件的事件標識的集合},Ef = Ef+{fe」}, Sm = Sm-SC0
[0053]S214、判斷事件序列模式集合Sm以及ef是否為空,若事件序列模式集合Sm與ef都不為空再次從S204開始執(zhí)行上述過程,直至事件序列模式集合Sm或ef為空。
[0054]S218、通過S216判斷獲知fe」不屬于FE后,判斷在S212或S216中得到的ef中的fe」是否屬于Ef,如果ef中的fe」屬于Ef,則繼續(xù)通過S218對下一 fej+1進行判斷;如果ef中的fe」不屬于Ef,則返回S208,直至ef為空。
[0055]上述實施例提供的獲得事件序列簇的方法例如具體可以包括:
[0056]如果失效事件集合FE= {1055,1800,1883,1884,2173,1992};
[0057]如果事件序列模式集合Sm如表1所示:
[0058]表1:
【權利要求】
1.一種集群系統(tǒng)的失效預測方法,其特征在于,包括: 根據集群系統(tǒng)的失效事件集合對事件序列模式集合進行聚類分析,獲得事件序列簇; 對所述事件序列簇進行因果關聯(lián)分析,獲取因果關聯(lián)路徑簇; 對所述因果關聯(lián)路徑簇進行失效分析,獲取所述集群系統(tǒng)的失效模式; 根據所述失效模式,對所述集群系統(tǒng)進行失效預測。
2.根據權利要求1所述的方法,其特征在于,所述根據集群系統(tǒng)的失效事件集合對事件序列模式集合進行聚類分析之前,還包括: 從所述集群系統(tǒng)的日志事件庫中獲取所述失效事件集合和所述事件序列模式集合。
3.根據權利要求1或2所述的方法,其特征在于,所述根據集群系統(tǒng)的失效事件集合對事件序列模式集合進行聚類分析,獲得事件序列簇,包括: 在所述事件序列模式集合中查找包含第一失效事件的第一事件序列模式,所述第一失效事件屬于所述失效事件集合; 確定所述事件序列簇包括所述第一事件序列模式和所述第一事件序列模式的第一支持度計數。
4.根據權利要求1~3中任一項所述的方法,其特征在于,所述對所述事件序列簇進行因果分析,獲取因果關聯(lián)路徑簇,包括: 根據所述事件序列簇構建因果關系網; 根據所述因果關系網獲取所述因果關聯(lián)路徑簇。
5.根據權利要求1~4中任一項所述的方法,其特征在于,所述對所述因果關聯(lián)路徑簇進行失效分析,獲取所述集群系統(tǒng)的失效模式,包括: 以所述因果關聯(lián)路徑簇中包含的第二失效事件為后件,以所述因果關聯(lián)路徑簇中包含的處于所述第二失效事件前一位置的事件為前件,將所述前件與所述后件構造為二元失效因果路徑簇; 根據事件類型表,查找所述前件與所述后件分別對應的前件事件類型標識與后件事件類型標識,將所述二元失效因果路徑簇中包含的所述前件與所述后件分別替換為所述前件事件類型標識與所述后件事件類型標識,得到由所述前件事件類型標識與所述后件事件類型標識構成的所述失效模式。
6.根據權利要求1~5中任一項所述的方法,其特征在于,所述根據所述失效模式,對所述集群系統(tǒng)進行失效預測,包括: 根據所述失效模式,對失效事件序列關聯(lián)規(guī)則庫進行更新; 采用更新后的失效事件序列關聯(lián)規(guī)則庫,對所述集群系統(tǒng)進行失效預測。
7.根據權利要求6所述的方法,其特征在于,根據所述失效模式,對失效事件序列關聯(lián)規(guī)則庫進行更新,包括: 根據所述失效模式,獲取第二事件序列模式; 將所述第二事件序列模式對應的失效事件序列關聯(lián)規(guī)則添加至所述失效事件序列關聯(lián)規(guī)則庫。
8.根據權利要求6或7所述的方法,其特征在于,所述采用更新后的失效事件序列關聯(lián)規(guī)則庫,對所述集群系統(tǒng)進行失效預測,包括: 在預測有效窗口內,采用更新后的失效事件序列關聯(lián)規(guī)則庫,對所述集群系統(tǒng)進行失效預測。
9.一種集群系統(tǒng)的失效預測裝置,其特征在于,包括 事件序列簇獲取模塊,用于根據集群系統(tǒng)的失效事件集合對事件序列模式集合進行聚類分析,獲得事件序列簇; 因果關聯(lián)路徑簇獲取模塊,用于對所述事件序列簇進行因果關聯(lián)分析,獲取因果關聯(lián)路徑族; 失效模式獲取模塊,用于對所述因果關聯(lián)路徑簇進行失效分析,獲取所述集群系統(tǒng)的失效模式; 失效預測模塊,用于根據所述失效模式,對所述集群系統(tǒng)進行失效預測。
10.根據權利要求9所述的裝置,其特征在于,還包括: 事件獲取模塊,用于從所述集群系統(tǒng)的日志事件庫中獲取所述失效事件集合和所述事件序列模式集合。
11.根據權利要求9或10所述的裝置,其特征在于,所述事件序列簇獲取模塊具體用于: 在所述事件序列模式集合中查找包含第一失效事件的第一事件序列模式,所述第一失效事件屬于所述失效事件集合; 確定所述事件序列簇包括所述第一事件序列模式和所述第一事件序列模式的第一支持度計數。
12.根據權利要求911中任一項所述的裝置,其特征在于,所述因果關聯(lián)路徑簇獲取模塊具體用于: 根據所述事件序列簇構建因果關系網; 根據所述因果關系網獲取所述因果關聯(lián)路徑簇。
13.根據權利要求擴12中任一項所述的裝置,其特征在于,所述失效模式獲取模塊具體用于: 以所述因果關聯(lián)路徑簇中包含的第二失效事件為后件,以所述因果關聯(lián)路徑簇中包含的處于所述第二失效事件前一位置的事件為前件,將所述前件與所述后件構造為二元失效因果路徑簇; 根據事件類型表,查找所述前件與所述后件分別對應的前件事件類型標識與后件事件類型標識,將所述二元失效因果路徑簇中包含的所述前件與所述后件分別替換為所述前件事件類型標識與所述后件事件類型標識,得到由所述前件事件類型標識與所述后件事件類型標識構成的所述失效模式。
14.根據權利要求擴13中任一項所述的裝置,其特征在于,所述失效預測模塊具體用于: 根據所述失效模式,對失效事件序列關聯(lián)規(guī)則庫進行更新; 采用更新后的失效事件序列關聯(lián)規(guī)則庫,對所述集群系統(tǒng)進行失效預測。
15.根據權利要求14所述的裝置,其特征在于,所述失效預測模塊具體還用于: 根據所述失效模式,獲取第二事件序列模式; 將所述第二事件序列模式對應的失效事件序列關聯(lián)規(guī)則添加至所述失效事件序列關聯(lián)規(guī)則庫。
16.根據權利要求14或15所述的裝置,其特征在于,所述失效預測模塊還用于:在預測有效窗口內,采用更新后的失效事件序列關聯(lián)規(guī)則庫,對所述集群系統(tǒng)進行失效預 測。
【文檔編號】H04L12/26GK103812719SQ201210450162
【公開日】2014年5月21日 申請日期:2012年11月12日 優(yōu)先權日:2012年11月12日
【發(fā)明者】付曉毓, 任睿, 詹劍鋒 申請人:華為技術有限公司, 中國科學院計算技術研究所