本發(fā)明涉及裝備故障預(yù)測(cè)和健康管理(PHM)領(lǐng)域,具體涉及一種基于大數(shù)據(jù)融合聚類分析的關(guān)聯(lián)參數(shù)故障分類方法。
背景技術(shù):
故障預(yù)測(cè)和健康管理已經(jīng)發(fā)展成為航空航天領(lǐng)域系統(tǒng)后勤保障、維護(hù)和自主健康管理的重要支撐技術(shù)和基礎(chǔ),在“國(guó)家中長(zhǎng)期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要2006-2020”中,“重大產(chǎn)品和重大設(shè)施壽命預(yù)測(cè)技術(shù)”作為前沿技術(shù)提出在近年的航天、航空科學(xué)技術(shù)學(xué)科發(fā)展報(bào)告中,均將PHM技術(shù)列為關(guān)鍵和支撐技術(shù)。
PHM技術(shù)已經(jīng)成為一個(gè)涵蓋基礎(chǔ)材料、機(jī)械結(jié)構(gòu)、能源、電子、自動(dòng)測(cè)試、可靠性、信息等多領(lǐng)域的交叉學(xué)科和研究熱門方向,具有重要的應(yīng)用價(jià)值和現(xiàn)實(shí)意義。在大多數(shù)的工業(yè)系統(tǒng)PHM應(yīng)用中,建立復(fù)雜部件或系統(tǒng)的數(shù)學(xué)或物理模型十分困難甚至無(wú)法實(shí)現(xiàn),或識(shí)別模型的參數(shù)較為復(fù)雜,因此,部件或系統(tǒng)設(shè)計(jì)、仿真、運(yùn)行和維護(hù)等各個(gè)階段的測(cè)試數(shù)據(jù)、傳感器歷史數(shù)據(jù)就成為掌握系統(tǒng)性能下降的主要手段。
由此,基于測(cè)試或傳感器歷史數(shù)據(jù)挖掘的PHM方法逐漸獲得重視并取得快速發(fā)展,成為PHM領(lǐng)域的重要研究熱點(diǎn)。特別是針對(duì)航空航天等復(fù)雜系統(tǒng),很難直接獲取或構(gòu)建表征部件、系統(tǒng)退化和剩余壽命的物理模型,同時(shí),這些對(duì)象系統(tǒng)和部件具備大量可用的狀態(tài)監(jiān)測(cè)和測(cè)試數(shù)據(jù),因此,以數(shù)據(jù)驅(qū)動(dòng)為主的PHM方法體系,獲得美軍、美國(guó)航空航天局及眾多研究機(jī)構(gòu)、工業(yè)企業(yè)的廣泛重視。
數(shù)據(jù)驅(qū)動(dòng)PHM方法是基于先進(jìn)的傳感器技術(shù)采集和獲取與系統(tǒng)屬性有關(guān)的特征參數(shù),并將這些特征參數(shù)和有用信息關(guān)聯(lián),借助智能算法和模型進(jìn)行檢測(cè)、分析和預(yù)測(cè),給出目標(biāo)系統(tǒng)的剩余壽命分布、性能退化程度或任務(wù)失效的概率,從而為維護(hù)系統(tǒng)和系統(tǒng)保障提供決策信息。
在數(shù)據(jù)驅(qū)動(dòng)PHM方法體系當(dāng)中,方法流程、不同方法融合、模型選擇、模型適應(yīng)性等問(wèn)題已成為了現(xiàn)今該領(lǐng)域內(nèi)的研究重點(diǎn),數(shù)據(jù)驅(qū)動(dòng)PHM方法以其靈活的適應(yīng)性和易用性獲得了廣泛的應(yīng)用和推廣。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于,為解決現(xiàn)有的數(shù)據(jù)驅(qū)動(dòng)PHM方法存在著故障數(shù)據(jù)獲取困難的技術(shù)問(wèn)題,本發(fā)明提供一種基于大數(shù)據(jù)融合聚類分析的關(guān)聯(lián)參數(shù)故障分類方法,用于改善現(xiàn)有復(fù)雜裝備蘊(yùn)含海量信息的運(yùn)行數(shù)據(jù)未被有效挖掘、有效利用的現(xiàn)狀。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了一套完整的算法流程,進(jìn)行運(yùn)算和解析,得出最終的故障分類和參數(shù)關(guān)聯(lián)概率模型。所述的關(guān)聯(lián)參數(shù)故障分類方法包括:
步驟1)獲取對(duì)象裝備的各種運(yùn)行數(shù)據(jù)。
步驟2)根據(jù)對(duì)象裝備的設(shè)計(jì)資料,建立涵蓋對(duì)象裝備全部參數(shù)的參數(shù)判讀規(guī)則庫(kù)。參數(shù)判讀規(guī)則庫(kù)不僅包含參數(shù)的門限判斷規(guī)則,同時(shí)也包含參數(shù)的趨勢(shì)判斷規(guī)則及跳變判斷規(guī)則。
步驟3)以參數(shù)判讀規(guī)則庫(kù)的規(guī)則為準(zhǔn),對(duì)步驟1)中所有的運(yùn)行數(shù)據(jù)篩選獲得故障數(shù)據(jù),將所有故障數(shù)據(jù)集合形成無(wú)分類故障數(shù)據(jù)集。
步驟4)以無(wú)分類故障數(shù)據(jù)集通過(guò)聚類算法進(jìn)行有監(jiān)督的數(shù)據(jù)自主聚類,獲得滿足要求的聚類數(shù)目和各項(xiàng)聚類中心。聚類的數(shù)目從2開始逐漸增大至適當(dāng)?shù)臄?shù)目,最終選取使各聚類核平均加權(quán)距離不再減小的最小值為聚類的總數(shù)。同時(shí),通過(guò)確定的各項(xiàng)聚類中心對(duì)無(wú)分類故障數(shù)據(jù)集進(jìn)行分類獲得分類故障數(shù)據(jù)集。
步驟5)將步驟3)中的無(wú)分類故障數(shù)據(jù)集采用映射-規(guī)約算法,生成參數(shù)關(guān)聯(lián)概率模型,所述的參數(shù)關(guān)聯(lián)概率模型包含對(duì)象裝備中每條參數(shù)發(fā)生故障的同時(shí),其他參數(shù)也發(fā)生故障的概率分布數(shù)據(jù),數(shù)據(jù)從高到低排列成概率表格。
步驟6)以步驟4)中的分類故障數(shù)據(jù)集作為故障判別標(biāo)準(zhǔn),采用最近鄰算法,對(duì)步驟1)中獲取的運(yùn)行數(shù)據(jù)進(jìn)行故障類別識(shí)別,獲得故障分類結(jié)果。
步驟7)根據(jù)故障分類結(jié)果與步驟5)中的參數(shù)關(guān)聯(lián)概率模型相結(jié)合,得出綜合的故障診斷分類結(jié)果。綜合診斷分類結(jié)果包含的內(nèi)容為:故障分類結(jié)果、該故障分類結(jié)果的所有參數(shù)的概率分布數(shù)據(jù)。
作為上述技術(shù)方案的進(jìn)一步改進(jìn),所述步驟1)中獲取的運(yùn)行數(shù)據(jù)的格式滿足:每個(gè)完整的數(shù)據(jù)條目包含該數(shù)據(jù)條目發(fā)生的時(shí)刻以及在該時(shí)刻對(duì)象裝備的所有參數(shù)值;每個(gè)數(shù)據(jù)條目中的單個(gè)數(shù)據(jù)值表征某一時(shí)刻的對(duì)象設(shè)備中一個(gè)參數(shù)的實(shí)測(cè)值;各數(shù)據(jù)條目之間按照發(fā)生時(shí)刻的先后順序逐一排列。
作為上述技術(shù)方案的進(jìn)一步改進(jìn),所述步驟3)中篩選的故障數(shù)據(jù)的格式滿足:每個(gè)數(shù)據(jù)條目包含該數(shù)據(jù)條目發(fā)生的時(shí)刻以及在該時(shí)刻發(fā)生故障的全部故障參數(shù);對(duì)于數(shù)據(jù)條目中發(fā)生故障的參數(shù),根據(jù)參數(shù)判讀規(guī)則庫(kù)標(biāo)注故障發(fā)生所觸發(fā)的規(guī)則。
作為上述技術(shù)方案的進(jìn)一步改進(jìn),所述的參數(shù)判讀規(guī)則庫(kù)包含參數(shù)的上下限、參數(shù)跳變異常判定規(guī)則、參數(shù)趨勢(shì)漸變異常判定規(guī)則。
作為上述技術(shù)方案的進(jìn)一步改進(jìn),所述的步驟4)具體包括:
步驟101)設(shè)定聚類數(shù)目K的初始個(gè)數(shù)為2個(gè),依照當(dāng)前的K值對(duì)無(wú)分類故障數(shù)據(jù)集進(jìn)行聚類運(yùn)算,獲取K個(gè)聚類中心及其對(duì)應(yīng)的K個(gè)聚類;
步驟102)計(jì)算K個(gè)聚類的平均輪廓系數(shù),將K個(gè)聚類的平均輪廓系數(shù)與K-1個(gè)聚類的平均輪廓系數(shù)相比較,如果兩個(gè)平均輪廓系數(shù)不變,則選取當(dāng)前K值作為聚類總數(shù),否則設(shè)定K=K+1后重新執(zhí)行步驟101);所述的輪廓系數(shù)表示各聚類中包含的所有數(shù)據(jù)條目對(duì)應(yīng)的向量點(diǎn)到聚類中心的幾何距離的平均值;
步驟103)以步驟102)中確定的聚類總數(shù)對(duì)無(wú)分類故障數(shù)據(jù)集進(jìn)行聚類運(yùn)算,并通過(guò)獲取的各項(xiàng)聚類中心對(duì)無(wú)分類故障數(shù)據(jù)集中的所有故障數(shù)據(jù)進(jìn)行分類,獲得分類故障數(shù)據(jù)集。
作為上述技術(shù)方案的進(jìn)一步改進(jìn),所述的步驟101)中獲取聚類中心的操作步驟包括:
步驟101-1)從對(duì)象裝備的所有運(yùn)行數(shù)據(jù)中隨機(jī)挑選一個(gè)數(shù)據(jù)條目對(duì)應(yīng)的向量點(diǎn)作為第一個(gè)聚類中心,并尋找與第一個(gè)聚類中心的幾何距離最近的向量點(diǎn)作為第二聚類中心;
步驟101-2)計(jì)算每個(gè)聚類中心與其最近的聚類中心的幾何距離Distance(x),將所有幾何距離Distance(x)相加獲得總距離Sum(Distance(x));
步驟101-3)隨機(jī)選取一個(gè)能落在總距離Sum(Distance(x))中的數(shù)據(jù)條目對(duì)應(yīng)的向量點(diǎn)Random,作為新增加的一個(gè)聚類中心,重新執(zhí)行步驟101-2),直至挑選出K個(gè)聚類中心。
作為上述技術(shù)方案的進(jìn)一步改進(jìn),所述的步驟5)具體包括:
步驟201)依次將包含各條參數(shù)的全部故障數(shù)據(jù)條目分別映射到一起,形成各條參數(shù)對(duì)應(yīng)的映射類,所述的映射類包含一個(gè)參數(shù)的全部故障數(shù)據(jù)條目及其出現(xiàn)的頻度;
步驟202)計(jì)算每一映射類中故障數(shù)據(jù)條目的總數(shù),作為概率計(jì)算的分母;
步驟203)累計(jì)每一映射類中包含除該映射類對(duì)應(yīng)參數(shù)之外的其他參數(shù)出現(xiàn)的次數(shù),作為概率計(jì)算的分子;
步驟204)將步驟203)中的分子與步驟202)中的分母之比,得到每一參數(shù)發(fā)生故障的同時(shí),其他參數(shù)也發(fā)生故障的概率分布數(shù)據(jù)。
作為上述技術(shù)方案的進(jìn)一步改進(jìn),所述的步驟6)具體包括:計(jì)算步驟1)中的所有運(yùn)行數(shù)據(jù)與確定的各項(xiàng)聚類中心的幾何距離,取最小的距離值與對(duì)應(yīng)的聚類的平均輪廓系數(shù)進(jìn)行比較,如果該距離值小于對(duì)應(yīng)的聚類的平均輪廓系數(shù),則判定運(yùn)行數(shù)據(jù)為該聚類所對(duì)應(yīng)的故障類型。
本發(fā)明的一種基于大數(shù)據(jù)融合聚類分析的關(guān)聯(lián)參數(shù)故障分類方法優(yōu)點(diǎn)在于:
本發(fā)明提供了一種定義清晰的、實(shí)際可操作的、具有良好效果的基于海量數(shù)據(jù)的融合聚類分析的關(guān)聯(lián)參數(shù)故障分類方法,改善了現(xiàn)有故障診斷方法存在的以下幾點(diǎn)技術(shù)問(wèn)題:
1.目前裝備故障診斷過(guò)度依賴專家知識(shí)庫(kù),而專家知識(shí)庫(kù)在面對(duì)復(fù)雜系統(tǒng)時(shí),面臨組合爆炸問(wèn)題,難以覆蓋全部故障情況及其關(guān)聯(lián)參數(shù),忽略了各子系統(tǒng)間深度耦合的參數(shù)之間的非線性關(guān)聯(lián)關(guān)系的問(wèn)題。對(duì)此,本發(fā)明的故障分類方法通過(guò)數(shù)據(jù)挖掘手段,挖掘不同子系統(tǒng)間參數(shù)關(guān)聯(lián)關(guān)系及其故障模式,從而能夠有效改善上述問(wèn)題。
2.現(xiàn)有數(shù)據(jù)驅(qū)動(dòng)PHM方法局僅限于部件級(jí)故障診斷,而在復(fù)雜系統(tǒng)級(jí)的故障診斷過(guò)程中,由于存在對(duì)復(fù)雜系統(tǒng)整體精確建模的困難,對(duì)于混雜在正常數(shù)據(jù)中的不同種類故障數(shù)據(jù)主要依賴非監(jiān)督式的機(jī)器學(xué)習(xí)聚類方法,聚類的結(jié)果既包含正常數(shù)據(jù),也包含故障數(shù)據(jù),并且故障數(shù)據(jù)分類性不佳。因而目前基于數(shù)據(jù)驅(qū)動(dòng)的故障診斷方法,雖然在部件級(jí)診斷中取得了較好的效果,但在復(fù)雜系統(tǒng)級(jí)診斷中,難以獲得優(yōu)于基于模型驅(qū)動(dòng)的故障診斷方法。對(duì)此,本發(fā)明的故障分類方法融合了數(shù)據(jù)驅(qū)動(dòng)方法和模型驅(qū)動(dòng)方法的優(yōu)點(diǎn),利用已有的基于模型的專家知識(shí)庫(kù),對(duì)裝備運(yùn)行數(shù)據(jù)進(jìn)行有監(jiān)督(判讀結(jié)果監(jiān)督)的分類,大大提高了數(shù)據(jù)的分類性和收斂性,能夠改善目前數(shù)據(jù)驅(qū)動(dòng)PHM方法的分類效果不佳的問(wèn)題。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例中的一種基于大數(shù)據(jù)融合聚類分析的關(guān)聯(lián)參數(shù)故障分類方法總體流程圖。
圖2a-圖2d是本發(fā)明實(shí)施例中選取聚類總數(shù)執(zhí)行的四次重復(fù)試驗(yàn)圖。
圖3是本發(fā)明實(shí)施例中聚類算法的操作流程圖。
圖4是本發(fā)明實(shí)施例中基于映射-規(guī)約算法的參數(shù)關(guān)聯(lián)概率算法圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明所述的一種基于大數(shù)據(jù)融合聚類分析的關(guān)聯(lián)參數(shù)故障分類方法進(jìn)行詳細(xì)說(shuō)明。
為了解決目前裝備故障診斷過(guò)度依賴專家知識(shí)庫(kù),而專家知識(shí)庫(kù)難以覆蓋各子系統(tǒng)間深度耦合的參數(shù)之間的非線性關(guān)聯(lián)關(guān)系的問(wèn)題,以及利用現(xiàn)有數(shù)據(jù)驅(qū)動(dòng)方法在復(fù)雜系統(tǒng)故障診斷中效果不佳,海量數(shù)據(jù)未被有效挖掘的現(xiàn)狀,本發(fā)明提供了一種定義清晰的、實(shí)際可操作的、具有良好效果的、基于海量數(shù)據(jù)融合聚類分析的關(guān)聯(lián)參數(shù)故障分類方法。
在本實(shí)施例中,本發(fā)明提供的基于大數(shù)據(jù)融合聚類分析的關(guān)聯(lián)參數(shù)故障分類方法,采用某裝備電源系統(tǒng)為實(shí)例進(jìn)行驗(yàn)證。經(jīng)過(guò)數(shù)據(jù)預(yù)處理、規(guī)則建立、故障數(shù)據(jù)篩選、聚類、映射、規(guī)約等過(guò)程,形成綜合的故障分類結(jié)果。
首先根據(jù)裝備的實(shí)時(shí)運(yùn)行數(shù)據(jù)及故障注入數(shù)據(jù)等數(shù)據(jù)來(lái)源,建立裝備運(yùn)行數(shù)據(jù)集,用于基于數(shù)據(jù)驅(qū)動(dòng)的模型訓(xùn)練及驗(yàn)證。其次根據(jù)對(duì)象裝備,建立裝備參數(shù)判讀規(guī)則庫(kù),用于對(duì)裝備運(yùn)行中參數(shù)的實(shí)時(shí)故障進(jìn)行判讀和檢測(cè)。隨后依據(jù)判讀規(guī)則庫(kù),對(duì)裝備運(yùn)行過(guò)程的海量數(shù)據(jù)進(jìn)行判讀,從中分離出含有故障參數(shù)的數(shù)據(jù)條目。在分離出故障數(shù)據(jù)后,采用有監(jiān)督的機(jī)器學(xué)習(xí)自主聚類方法進(jìn)行故障種類聚類。利用生成的聚類進(jìn)行故障判定,同時(shí)生成錯(cuò)誤參數(shù)矩陣,并利用映射-規(guī)約(Map-Reduce)方法進(jìn)行關(guān)聯(lián)參數(shù)分析,形成分析結(jié)果。由此可知:本發(fā)明的故障分類方法從裝備運(yùn)行的海量數(shù)據(jù)中,根據(jù)判讀規(guī)則挑選故障數(shù)據(jù),并進(jìn)行有監(jiān)督的機(jī)器自主聚類,形成關(guān)聯(lián)參數(shù)故障自動(dòng)分類結(jié)果,能夠解決目前裝備故障診斷過(guò)度依賴專家知識(shí)庫(kù),而忽略了各子系統(tǒng)間深度非線性耦合的參數(shù)之間的關(guān)聯(lián)關(guān)系的問(wèn)題,以及實(shí)際裝備型號(hào)運(yùn)行中海量有效數(shù)據(jù)沒(méi)有獲得很好的挖掘利用的問(wèn)題;同時(shí),由于本發(fā)明的故障分類方法的實(shí)施無(wú)需依賴于對(duì)對(duì)象裝備的精確物理建模,因此避免了傳統(tǒng)復(fù)雜系統(tǒng)難以建模的難處。
參考圖1所示,所述的關(guān)聯(lián)參數(shù)故障分類方法具體包括:
步驟1)獲取對(duì)象裝備的各種運(yùn)行數(shù)據(jù);所述的運(yùn)行數(shù)據(jù)包括故障注入仿真數(shù)據(jù)、模擬仿真數(shù)據(jù)、總線監(jiān)測(cè)數(shù)據(jù)、BIT、IETM數(shù)據(jù)、維護(hù)和檢測(cè)記錄和已有傳感數(shù)據(jù)等。
步驟2)根據(jù)對(duì)象裝備的相關(guān)資料,進(jìn)行對(duì)象分析,建立對(duì)象裝備的參數(shù)判讀規(guī)則庫(kù)。規(guī)則庫(kù)應(yīng)包含對(duì)象裝備全部參數(shù)的判讀規(guī)則,例如包括但不限于參數(shù)的上下限(規(guī)定參數(shù)的上下限極值,超過(guò)則為故障的判定標(biāo)準(zhǔn))、參數(shù)跳變異常判定規(guī)則(規(guī)定參數(shù)在短時(shí)間內(nèi)值發(fā)生大幅度跳變的情形,并確定跳變程度及故障判定標(biāo)準(zhǔn))、參數(shù)趨勢(shì)漸變異常判定規(guī)則(由逐漸上升突變?yōu)橹饾u下降等非正常趨勢(shì)的故障判定標(biāo)準(zhǔn))。
需要說(shuō)明的是,為確保最終參數(shù)關(guān)聯(lián)概率模型的完備性,本參數(shù)判讀規(guī)則庫(kù)的最低要求是包含每個(gè)參數(shù)的單個(gè)判定規(guī)則。因此無(wú)需要求對(duì)對(duì)象裝備建立精確的物理模型以求得參數(shù)的關(guān)聯(lián)表達(dá)式。
步驟3)在參數(shù)判讀規(guī)則庫(kù)完備的前提下,以參數(shù)判讀規(guī)則庫(kù)為基準(zhǔn),篩選步驟1)中獲取的海量運(yùn)行數(shù)據(jù)中的異常數(shù)據(jù)條目,此時(shí)可將參數(shù)判讀規(guī)則庫(kù)中的判讀規(guī)則輸入計(jì)算機(jī),由計(jì)算機(jī)自動(dòng)執(zhí)行篩選。所述運(yùn)行數(shù)據(jù)的格式應(yīng)滿足以下幾條:
1、每個(gè)完整的數(shù)據(jù)條目應(yīng)包含該數(shù)據(jù)條目發(fā)生的準(zhǔn)確時(shí)刻以及在該時(shí)刻對(duì)象裝備的所有參數(shù)值;
2、每個(gè)數(shù)據(jù)條目中的單個(gè)數(shù)據(jù)值應(yīng)表征某一時(shí)刻的對(duì)象裝備中一個(gè)參數(shù)的實(shí)測(cè)值;
3、各數(shù)據(jù)條目之間按照發(fā)生時(shí)刻的先后順序逐一排列。
篩選出的故障數(shù)據(jù)應(yīng)具備以下格式:
1、每個(gè)條目包含該數(shù)據(jù)條目發(fā)生的準(zhǔn)確時(shí)刻;
2、每個(gè)條目包含該時(shí)刻發(fā)生了故障的全部故障參數(shù),以便于后續(xù)進(jìn)行映射和規(guī)約;
3、對(duì)于數(shù)據(jù)條目中發(fā)生故障的參數(shù),根據(jù)參數(shù)判讀規(guī)則庫(kù),標(biāo)注故障發(fā)生所觸發(fā)的規(guī)則(門限規(guī)則、跳變規(guī)則等)。
此時(shí)獲取的數(shù)據(jù)是全部故障數(shù)據(jù),并未進(jìn)行分類。在獲取故障數(shù)據(jù)后,進(jìn)行數(shù)據(jù)的聚類運(yùn)算。
步驟4)將無(wú)分類故障數(shù)據(jù)集通過(guò)聚類算法進(jìn)行有監(jiān)督的數(shù)據(jù)自主聚類,獲得滿足要求的聚類數(shù)目和各項(xiàng)聚類中心后,通過(guò)確定的各項(xiàng)聚類中心對(duì)無(wú)分類故障數(shù)據(jù)集中的所有故障數(shù)據(jù)進(jìn)行分類,獲得分類故障數(shù)據(jù)集。
聚類運(yùn)算采用K-Means的方法,依據(jù)上一步中分離出的故障數(shù)據(jù),進(jìn)行機(jī)器自主聚類運(yùn)算。其中第一步,也是最重要的一步,就是K值(聚類核的數(shù)目)的確定。K個(gè)聚類核,實(shí)際表征的就是K種故障情況。
本發(fā)明采用輪廓系數(shù)最優(yōu)化的方法,用于選取K值。某個(gè)聚類的輪廓系數(shù),指的是該聚類中包含的所有數(shù)據(jù)條目對(duì)應(yīng)的向量點(diǎn)到該聚類中心的幾何距離的平均值。在聚類完成后,輪廓系數(shù)越低,證明該聚類的分類效果越優(yōu)秀。
參考圖3所示,所述的步驟4)具體包括:
步驟101)從K=2開始,設(shè)定聚類數(shù)目K的初始個(gè)數(shù)為2個(gè),依照當(dāng)前的K值對(duì)無(wú)分類故障數(shù)據(jù)集進(jìn)行聚類運(yùn)算,獲取K個(gè)聚類中心及其對(duì)應(yīng)的K個(gè)聚類。
步驟102)在聚類運(yùn)算完成后,計(jì)算當(dāng)前K值下,K個(gè)聚類的平均輪廓系數(shù)。將K個(gè)聚類的平均輪廓系數(shù)與K-1個(gè)聚類的平均輪廓系數(shù)相比較,當(dāng)隨著K的增加,輪廓系數(shù)逐漸收斂,不再減小時(shí),即選取當(dāng)前K值作為聚類總數(shù),否則設(shè)定K=K+1后重新執(zhí)行步驟101)。如圖2a、2b、2c、2d所示,為K值選取,分別進(jìn)行了四次試驗(yàn)。在圖中所示的四次試驗(yàn)中,隨著K的增加,輪廓系數(shù)的變化會(huì)逐漸減小。當(dāng)K達(dá)到11的時(shí)候,逐漸收斂。
步驟103)以步驟102)中確定的聚類總數(shù)對(duì)無(wú)分類故障數(shù)據(jù)集進(jìn)行聚類運(yùn)算,并通過(guò)獲取的各項(xiàng)聚類中心對(duì)無(wú)分類故障數(shù)據(jù)集中的所有故障數(shù)據(jù)進(jìn)行分類,獲得分類故障數(shù)據(jù)集。
基于上述步驟101),在確定K值的過(guò)程中,針對(duì)每一個(gè)當(dāng)前的K值,均需進(jìn)行聚類中心的選取。首先是初始聚類中心(種子點(diǎn))的選取。對(duì)于當(dāng)前的K值,需要選取K個(gè)種子點(diǎn)。選取聚類中心的具體步驟如下:
步驟101-1)先從對(duì)象裝備的所有運(yùn)行數(shù)據(jù)庫(kù)中隨機(jī)挑一個(gè)數(shù)據(jù)條目對(duì)應(yīng)的向量點(diǎn)作為第一個(gè)聚類中心,并尋找與第一個(gè)聚類中心的幾何距離最近的向量點(diǎn)作為第二聚類中心。
步驟101-2)對(duì)于每個(gè)向量點(diǎn),我們都計(jì)算其和最近的一個(gè)聚類中心的幾何距離Distance(x),并保存在一個(gè)數(shù)組里,然后把這些幾何距離Distance(x)相加得到總距離Sum(Distance(x))。
步驟101-3)再取一個(gè)隨機(jī)值,用權(quán)重的方式來(lái)計(jì)算獲得下一個(gè)聚類中心。這個(gè)算法的實(shí)現(xiàn)是,隨即選取一個(gè)能落在總距離Sum(Distance(x))中的數(shù)據(jù)條目對(duì)應(yīng)的向量點(diǎn)Random,Random=Random-Distance(x),直到Random<=0時(shí),此時(shí)的點(diǎn)就是下一個(gè)選取的聚類中心。重復(fù)執(zhí)行步驟101-2)和步驟101-3),直到k個(gè)聚類中心被選出。
在選取聚類中心后,下一步是聚類的訓(xùn)練。對(duì)于每一個(gè)故障樣本數(shù)據(jù),計(jì)算其對(duì)應(yīng)的向量點(diǎn)到各個(gè)聚類中心的幾何距離,將其歸類到距離最近的聚類中心,然后計(jì)算更新后的聚類的幾何中心,并用新的幾何中心替代該聚類的原中心。檢查聚類中心是否發(fā)生變化,如果發(fā)生了變化(未收斂),則不斷重復(fù)上述過(guò)程。當(dāng)聚類中心收斂(不再發(fā)生變化)時(shí),聚類運(yùn)算完成。
經(jīng)過(guò)上述運(yùn)算,在選取了最優(yōu)化的K值,并進(jìn)行了聚類運(yùn)算之后,我們手中掌握的有效數(shù)據(jù)包括:無(wú)分類故障數(shù)據(jù)、聚類的數(shù)目K、各聚類核的向量參數(shù)以及屬于各個(gè)聚類之下包含的(從屬于該聚類的)故障數(shù)據(jù)詳細(xì)條目。
接下來(lái)進(jìn)行的是映射-規(guī)約的運(yùn)算,該運(yùn)算的目的是為了從海量的故障數(shù)據(jù)當(dāng)中,發(fā)現(xiàn)參數(shù)之間的非線性耦合故障關(guān)聯(lián)關(guān)系。
步驟5)將步驟3)中的無(wú)分類故障數(shù)據(jù)集采用映射-規(guī)約算法,生成參數(shù)關(guān)聯(lián)概率模型,所述的參數(shù)關(guān)聯(lián)概率模型包含對(duì)象裝備中每一參數(shù)發(fā)生故障的同時(shí),其他參數(shù)也發(fā)生故障的概率分布數(shù)據(jù)。
參考圖4所示,所述的步驟5)具體包括:
步驟201)首先進(jìn)行映射運(yùn)算,即以無(wú)分類故障數(shù)據(jù)集為基礎(chǔ),進(jìn)行從離散的故障數(shù)據(jù)到每個(gè)參數(shù)的映射。按照參數(shù)的次序,依次將包含各條參數(shù)的全部故障數(shù)據(jù)條目分別映射到一起,形成各條參數(shù)對(duì)應(yīng)的映射類。映射運(yùn)算的結(jié)果是包含每個(gè)參數(shù)的全部故障數(shù)據(jù)條目及其出現(xiàn)的頻度。
經(jīng)過(guò)映射運(yùn)算,我們已經(jīng)掌握了分別包含每一個(gè)參數(shù)的故障條目及其頻度。例如,所有的包含參數(shù)1發(fā)生故障的故障條目,我們映射到了第一個(gè)映射集中(圖4中第二層左側(cè)第一個(gè)映射集)。所有的包含參數(shù)2發(fā)生故障的故障條目,我們映射到了第二個(gè)映射集中(圖4中第二層左側(cè)第二個(gè)映射集),以此類推,獲得所有參數(shù)的映射集。
以上述步驟獲得的映射類為基礎(chǔ),進(jìn)行規(guī)約運(yùn)算。規(guī)約運(yùn)算的目的,是計(jì)算出當(dāng)某一參數(shù)發(fā)生故障的同一時(shí)刻,另外某個(gè)參數(shù)同時(shí)也發(fā)生故障的概率。以此來(lái)表征參數(shù)之間的故障關(guān)聯(lián)關(guān)系。
步驟202)對(duì)于上述映射形成的每一個(gè)類,計(jì)算每一映射類中故障數(shù)據(jù)條目的總數(shù)(頻度相加),作為概率計(jì)算的分母。
步驟203)累計(jì)每一映射類中包含除該映射類對(duì)應(yīng)參數(shù)之外的其他參數(shù)出現(xiàn)的次數(shù),將其頻度相加,作為概率計(jì)算的分子。
步驟204)將步驟203)中的分子與步驟202)中的分母之比,得到每一參數(shù)發(fā)生故障的同時(shí),其他參數(shù)也發(fā)生故障的概率分布數(shù)據(jù)。以第一個(gè)映射類(所有包含參數(shù)1發(fā)生故障的數(shù)據(jù)組合)為例,在該映射類中,檢索包含參數(shù)2的組合,將其頻度相加,作為分子,除以該類故障條目的總數(shù),以此計(jì)算參數(shù)1發(fā)生故障的同時(shí),參數(shù)2也發(fā)生故障的概率。計(jì)算完參數(shù)2后,計(jì)算參數(shù)3至參數(shù)s(遍歷完所有參數(shù))。由此形成參數(shù)1的故障關(guān)聯(lián)參數(shù)表。
以此類推,從第2個(gè)至第s個(gè)映射類,進(jìn)行相同的規(guī)約運(yùn)算。形成s個(gè)參數(shù)的故障關(guān)聯(lián)參數(shù)表。
由此,數(shù)據(jù)的訓(xùn)練部分已經(jīng)完成,我們掌握了K-Means生成的K種故障的聚類,以及映射-規(guī)約生成的參數(shù)關(guān)聯(lián)概率模型。接下來(lái)可以利用裝備運(yùn)行數(shù)據(jù)集,進(jìn)行實(shí)際的故障診斷和驗(yàn)證。
步驟6)以步驟4)中的分類故障數(shù)據(jù)集作為故障判別標(biāo)準(zhǔn),對(duì)步驟1)中的所有運(yùn)行數(shù)據(jù)采用最近鄰算法進(jìn)行故障類別識(shí)別,獲得故障分類結(jié)果。在實(shí)際運(yùn)行的過(guò)程中,對(duì)于一條新的運(yùn)行數(shù)據(jù)條目,可以采用最近鄰算法,分別計(jì)算其與K個(gè)故障聚類的聚類中心的幾何距離,取最小的距離值(最近鄰)。如果這個(gè)最小值小于該聚類的輪廓系數(shù),即可判定運(yùn)行數(shù)據(jù)為該聚類所對(duì)應(yīng)的故障類型,以此進(jìn)行故障診斷。
步驟7)將故障分類結(jié)果與步驟5)中的參數(shù)關(guān)聯(lián)概率模型相結(jié)合,得出綜合的診斷結(jié)果。綜合的診斷結(jié)果包括:故障分類結(jié)果、主要的故障參數(shù)以及同主要故障參數(shù)關(guān)聯(lián)概率較大(概率閾值可根據(jù)實(shí)際情況調(diào)整)的參數(shù)。
綜上所述,依照本發(fā)明提供的基于大數(shù)據(jù)融合聚類分析的關(guān)聯(lián)參數(shù)故障分類方法,實(shí)現(xiàn)了基于海量數(shù)據(jù)挖掘的故障智能分類及關(guān)聯(lián)參數(shù)分析。具有準(zhǔn)確率可控的故障分類能力。并且對(duì)于分類出的故障,根據(jù)參數(shù)關(guān)聯(lián)概率模型,能夠給出相關(guān)故障參數(shù)的關(guān)聯(lián)概率,從而改進(jìn)故障的智能診斷和維修決策的制定。
最后所應(yīng)說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制。盡管參照實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。