本發(fā)明屬于工業(yè)過程控制領域,尤其涉及一種基于自適應集成半監(jiān)督費舍爾判別的故障分類方法。
背景技術:
:過程監(jiān)測技術作為過程系統(tǒng)工程的重要組成部分,對于保障過程安全及提高產(chǎn)品質量等現(xiàn)代流程工業(yè)的核心目標而言,具有重大的研究意義和應用價值。隨著過程工業(yè)控制技術的不斷發(fā)展和集散控制系統(tǒng)(DCS)在流程工業(yè)中得到了廣泛應用,流程工業(yè)開始產(chǎn)生了海量的過程數(shù)據(jù)。因此,基于多變量統(tǒng)計和模式識別的過程監(jiān)測技術受到了學術界和工業(yè)界的普遍關注,成為過程監(jiān)測領域的研究熱點。近二十年來,大量的研究成果和應用隨之產(chǎn)生。工業(yè)過程的實際數(shù)據(jù)往往是比理想的假設前提要復雜得多,例如現(xiàn)代工業(yè)過程廣泛存在如故障數(shù)據(jù)數(shù)目與正常數(shù)據(jù)數(shù)目極其不均衡、訓練樣本的標簽丟失或者變量丟失等問題?;诰垲惢蚍诸惖姆椒ㄔ谶^程監(jiān)測領域雖然已經(jīng)取得了不錯的進展,但是這些傳統(tǒng)的模式識別的故障分類方法對于上述情況的表現(xiàn)并不盡人意?;诒O(jiān)督學習的故障分類方法在面對訓練樣本較少的情況,會出現(xiàn)學習得到的特征空間對少量樣本過擬合的問題。然而,實際工業(yè)過程會有大量無標簽數(shù)據(jù)伴隨產(chǎn)生,這些數(shù)據(jù)含有大量對于分析過程信息的有用信息,如果能夠有效利用這些信息,那么數(shù)據(jù)驅動的故障分類方法會得到更優(yōu)的結果,因此半監(jiān)督算法的引入是解決這一問題的重要途徑。但實際問題是,半監(jiān)督學習的表現(xiàn)并不穩(wěn)定,在特定的數(shù)據(jù)下表現(xiàn)可能還不如有監(jiān)督學習的效果。集成學習是使用一系列學習器進行學習,并使用某種規(guī)則把各個學習結果進行整合從而獲得比單個學習器更好的學習效果的一種機器學習方法。分類器融合中的度量層融合屬于集成學習的一個分支。本發(fā)明采用將半監(jiān)督學習和一種自適應的集成學習相結合的方法,通過半監(jiān)督算法利用無標簽數(shù)據(jù)中所包含的大量信息,用集成算法的泛化能力提高半監(jiān)督算法表現(xiàn)不穩(wěn)定的缺陷,兩種算法的結合可以互為補充泛化出更穩(wěn)定更準確的學習模型,提高工業(yè)過程故障分類的準確率。技術實現(xiàn)要素:本發(fā)明的目的在于針對現(xiàn)有方法的不足,提供一種基于自適應集成半監(jiān)督費舍爾判別的故障分類方法。本發(fā)明的目的是通過以下技術方案來實現(xiàn)的:一種基于自適應集成半監(jiān)督費舍爾判別的故障分類方法,包括以下步驟:(1)利用系統(tǒng)收集過程正常工況的數(shù)據(jù)以及各種故障數(shù)據(jù)組成建模用的有標簽訓練樣本集:假設故障類別為C,在加上一個正常類,建模數(shù)據(jù)的總類別為C+1,即Xi=[x1;x2;…;xn]i=1,2,…,C+1。其中Xi∈Rni×m,ni為第i類樣本的訓練樣本數(shù),m為過程變量數(shù),R為實數(shù)集,Rni×m表示X滿足ni×m的二維分布。所以完整的有標簽訓練樣本集為Xl=[X1;X2;…;XC+1],X∈R(∑ni)*m,記錄所有數(shù)據(jù)的標簽信息,正常工況下標記標簽為1,故障1標簽為2,以此類推,即Yi=[i;i;…;i]i=1,2,…,C+1,完整的標簽集為Yl=[Y1,Y2,…,YC+1],Yl∈R1×(∑ni)。將這些數(shù)據(jù)存入歷史數(shù)據(jù)庫作為有標簽數(shù)據(jù)集。(2)利用系統(tǒng)收集若干工況及故障情況未知的數(shù)據(jù)組成建模用的無標簽訓練樣本集:Xu=[xu1;xu2;…;xuq],Xu∈Rq×m,其中q為訓練樣本數(shù),m為過程變量數(shù),R為實數(shù)集,Rq×m表示X滿足q×m的二維分布。將這些數(shù)據(jù)存入歷史數(shù)據(jù)庫作為無標簽數(shù)據(jù)集。(3)從數(shù)據(jù)庫中調用訓練用的有標簽數(shù)據(jù)和無標簽數(shù)據(jù)數(shù)據(jù)Xl,Xu,對其進行預處理和歸一化,使得各個過程變量的均值為零,方差為1,得到新的數(shù)據(jù)矩陣集為(4)設定迭代次數(shù)即弱分類器個數(shù)為G,每次在無標簽數(shù)據(jù)矩陣集中隨機抽取α%的數(shù)據(jù)和有標簽數(shù)據(jù)矩陣集組成訓練子集在本次迭代的訓練子集和該次迭代的有標簽數(shù)據(jù)權重系數(shù)向量αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)下建立不同的半監(jiān)督費舍爾判別分類器模型,初始權重均為1。(5)在有標簽數(shù)據(jù)矩陣集下,利用不同的分類器模型和參數(shù),計算每個樣本xi的度量矩陣Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1),R為實數(shù)集,Rg×(C+1)表示X滿足g×(C+1)的二維分布并計算下一次迭代時樣本的權重系數(shù)αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)和該次迭代所得子分類器的權重ωg,重復(4)、(5)兩步驟,直至完成G次迭代。(6)將建模數(shù)據(jù)和各個模型參數(shù)以及各個有標簽數(shù)據(jù)的度量層矩陣存入歷史數(shù)據(jù)庫中備用。(7)在線收集新的過程數(shù)據(jù)Xnew,并對其進行預處理和歸一化使得各個過程變量的均值為零,方差為1,得到分別采用不同的半監(jiān)督費舍爾判別模型對其進行監(jiān)測得到度量層矩陣。(8)將在線過程數(shù)據(jù)的度量層矩陣和之前得到的有標簽數(shù)據(jù)度量層矩陣及其標簽進行K近鄰融合,得到待分類過程數(shù)據(jù)的最終分類結果。本發(fā)明的有益效果是:本發(fā)明通過對不同的訓練子集進行半監(jiān)督費舍爾判別分類建模,并在每一次迭代時自適應的調整有標簽數(shù)據(jù)的樣本權重,最后對得到的度量層矩陣進行子分類器權重調整和K近鄰融合得到分類結果。相比目前的其他故障分類方法,本發(fā)明不僅提高了工業(yè)過程的監(jiān)測效果,增加了分類的準確性,使工業(yè)生產(chǎn)更加安全可靠,而且在很大程度上改善了單一故障分類方法的局限性,以及分類方法對過程知識的依賴性,增強了過程操作員對過程狀態(tài)的掌握,更加有利于工業(yè)過程的自動化實施。附圖說明圖1為迭代次數(shù)G為7時的半監(jiān)督費舍爾判別度量層融合算法(ESFDA)的分類結果圖;圖2為迭代次數(shù)G為7時的自適應的半監(jiān)督費舍爾判別度量層融合算法(Ada-ESFDA)的分類結果圖。具體實施方式本發(fā)明針對工業(yè)過程的故障分類問題,該方法,首先在進行離線建模時對大量的無標簽數(shù)據(jù)進行隨機采樣,與有標簽數(shù)據(jù)組成若干個半監(jiān)督隨機訓練子集。在每次迭代訓練子分類器時進行自適應的有標簽樣本權重調整,然后進行半監(jiān)督費舍爾降維,獲得多個費舍爾判別矩陣(由r個費舍爾判別向量組成,r為降維后的維度),并將降維后的有標簽樣本數(shù)據(jù)根據(jù)貝葉斯統(tǒng)計方法得到后驗概率矩陣、該子分類器的融合權重以及下次迭代時有標簽數(shù)據(jù)的樣本權重。將有標簽數(shù)據(jù)的后驗概率矩陣和對應的標簽作為度量層融合算法K近鄰的訓練樣本。在線分類時,調用上述各個半監(jiān)督費舍爾判別分類器得到每個在線待測樣本的后驗概率矩陣,輸入到帶有不同子分類器權重的度量層融合K近鄰分類器中得到最終的故障分類結果。本發(fā)明采用的技術方案的主要步驟分別如下:第一步利用系統(tǒng)收集過程正常工況的數(shù)據(jù)以及各種故障數(shù)據(jù)組成建模用的有標簽訓練樣本集:假設故障類別為C,在加上一個正常類,建模數(shù)據(jù)的總類別為C+1,即Xi=[x1;x2;…;xn]i=1,2,…,C+1。其中Xi∈Rn×m,ni為第i類樣本的訓練樣本數(shù),m為過程變量數(shù),R為實數(shù)集,Rn×m表示X滿足n×m的二維分布。所以完整的有標簽訓練樣本集為Xl=[X1;X2;…;XC+1],X∈R(∑ni)*m,記錄所有數(shù)據(jù)的標簽信息,正常工況下標記標簽為1,故障1標簽為2,以此類推,即Yi=[i;i;…;i]i=1,2,…,C+1,完整的標簽集為Yl=[Y1,Y2,…,YC+1],Yl∈R1×(∑ni)。將這些數(shù)據(jù)存入歷史數(shù)據(jù)庫作為有標簽數(shù)據(jù)集。第二步利用系統(tǒng)收集若干工況及故障情況未知的數(shù)據(jù)組成建模用的無標簽訓練樣本集:Xu=[xu1;xu2;…;xuq],Xu∈Rq×m,其中q為訓練樣本數(shù),m為過程變量數(shù),R為實數(shù)集,Rq×m表示X滿足q×m的二維分布。將這些數(shù)據(jù)存入歷史數(shù)據(jù)庫作為無標簽數(shù)據(jù)集。第三步從數(shù)據(jù)庫中調用訓練用的有標簽數(shù)據(jù)和無標簽數(shù)據(jù)數(shù)據(jù)Xl,Xu,對其進行預處理和歸一化,使得各個過程變量的均值為零,方差為1,得到新的數(shù)據(jù)矩陣集為第四步選取合適的子分類器個數(shù)G,G的選取視具體工況數(shù)據(jù)表現(xiàn)而定,每次在無標簽數(shù)據(jù)矩陣集中隨機抽取α%的數(shù)據(jù)和有標簽數(shù)據(jù)矩陣集組成訓練子集在本次迭代的訓練子集和該次迭代的有標簽數(shù)據(jù)權重系數(shù)向量αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)下建立不同的半監(jiān)督費舍爾判別分類器模型。具體步驟如下:(4.1)根據(jù)FDA算法計算有監(jiān)督FDA的類間散度矩陣Sb和類內散度矩陣Sw,計算方法如下所示:其中權值矩陣與定義為:其中,權值矩陣αi與αj分別代表第i個樣本和第j個樣本的樣本權重,樣本的初始權重均為1,nl為有標簽樣本個數(shù)nu為無標簽樣本個數(shù)。(4.2)根據(jù)無監(jiān)督降維方法PCA進行全局散度矩陣的計算,整理成與FDA的對應形式,計算方法如下所示:其中為n×n維矩陣,n為樣本總數(shù),且:(4.3)計算半監(jiān)督費舍爾判別(SFDA)的正則化類間散度矩陣Srb與正則化類內散度矩陣Srw,計算方法如下所示:Srb=(1-β)Sb+βStSrw=(1-β)Sw+βIm其中,Im是m維的單位對角矩陣,β∈[0,1]是調整參數(shù),負責設置SFDA的平滑性。當β的值比較大時,SFDA更傾向于無監(jiān)督學習的PCA。反之,則SFDA更接近FDA。當β的值為兩種極端時,會比較特殊:當β=0,SFDA退化為FDA;當β=1,SFDA退化為PCA。(4.4)進行半監(jiān)督費舍爾判別向量求解,計算方法如下所示:半監(jiān)督費舍爾判別向量同樣可以通過求解下面的優(yōu)化問題得到:上述的優(yōu)化問題同樣可等價于廣義特征值問題:其中,是廣義特征值,而向量w是對應的廣義特征向量。將所求得的廣義特征值降序排列為相應廣義特征向量為w1,w2,…,wm即為半監(jiān)督費舍爾判別向量q1,q2,…,qm,而這些向量的分類性能依次減弱。(4.5)選取前r個特征向量,得到費舍爾判別子空間Qr=[q1,q2,…,qr]。第五步在有標簽數(shù)據(jù)矩陣集下,利用此次迭代的得到的費舍爾判別子空間,計算每個樣本xi的度量矩陣Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1)。然后計算并更新下一次迭代時樣本的權重系數(shù)αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni),計算該次迭代所得子分類器的權重ωg,隨后重復第四步和第五步,直至完成G次迭代,具體步驟如下:(5.1)通常情況下,正常工況下的數(shù)據(jù)可假設是滿足多變量高斯分布,故障如某些變量階躍變化或者變量值隨機增加的所引發(fā)的故障數(shù)據(jù)也可以認為是滿足高斯分布的。假設樣本屬于每一類的先驗概率相等為計算的條件概率密度函數(shù),方法如下:其中是Ck類樣本的均值向量。(5.2)根據(jù)貝葉斯準則,計算屬于第i類型的后驗概率,方法如下:(5.3)將每個樣本用不同子分類器的半監(jiān)督費舍爾判別矩陣Qr進行上述運算,計算每個樣本xi的度量矩陣Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1)。其中pgj表示待分類樣本被第g個子分類器判斷成第j類的概率。當G次迭代完成時,得到完整的度量矩陣:最終得到所有樣本的度量層矩陣集合Pl=[P1,P2,…,PC+1],Pl∈Rg×(C+1)×(∑ni)。(5.4)利用每個有標簽樣本的度量矩陣計算樣本的權重,令代表本次迭代得到的第i個樣本被g個子分類器分為第j類的概率平均值,計算每一個樣本權重,公式如下:其中,αi為第i個有標簽樣本的權重系數(shù),代表第i個樣本被分為其標簽類別的概率平均值。(5.5)計算當前迭代所得子分類器的權重系數(shù)ωg,我們定義C(xi)g為子分類器的決策層輸出,代表第g個子分類器對第i個樣本的分類類別結果,該輸出不用于融合算法,只用于調節(jié)子分類器的融合權重。ωg=準確率=故障樣本被正確劃分的樣本總數(shù)/樣本點總數(shù)。第六步將建模數(shù)據(jù)和各個模型參數(shù)以及各個有標簽數(shù)據(jù)的度量層矩陣存入歷史數(shù)據(jù)庫中備用。第七步收集新的過程數(shù)據(jù)Xnew,并對其進行預處理和歸一化得到將新得到的每一個過程數(shù)據(jù)采用不同的半監(jiān)督費舍爾判別模型對其進行監(jiān)測得到度量層矩陣,具體方法和第五步中(5.1)至(5.3)相同。第八步將之前得到的有標簽數(shù)據(jù)度量層矩陣及其標簽作為K近鄰的訓練樣本集,將待測過程數(shù)據(jù)的度量層矩陣進行K近鄰融合,得到待分類過程數(shù)據(jù)的最終分類結果。具體步驟如下:(8.1)初始化k值,如果對于二分類問題k取奇數(shù)。將有標簽數(shù)據(jù)的度量矩陣集Pl=[P1,P2,…,PC+1],Pl∈Rg×(C+1)×(∑ni)和數(shù)據(jù)相應標簽Yl=[Y1,Y2,…,YC+1],Yl∈R1×(∑ni)作為度量層K近鄰融合算法的訓練集。(8.2)將所有的度量矩陣用子分類器權重進行權重調整:(8.3)對于待分類的過程樣本xnewi的調整后的度量層輸出計算其與訓練集所有樣本的權重調整后的歐氏距離Dij,在其中找出最近的k個樣本點。其中Dij為第i個待分類樣本與第j個訓練樣本間的歐氏距離。(8.4)計算這k個樣本中屬于C=(c1,c2,…,cC+1)類的樣本個數(shù)ki,顯然則該待分類樣本屬于最大值ki的那一類ci:以下結合一個具體的工業(yè)過程的例子來說明本發(fā)明的有效性。該過程的數(shù)據(jù)來自美國TE(TennesseeEastman——田納西-伊斯曼)化工過程實驗,原型是Eastman化學公司的一個實際工藝流程。目前,TE過程己經(jīng)作為典型的化工過程故障檢測與診斷對象被廣泛研究。整個TE過程包括41個測量變量和12個操作變量(控制變量),其中41個測量變量包括22個連續(xù)測量變量和19個成分測量值,它們每3分鐘被采樣一次。其中包括21批故障數(shù)據(jù)。這些故障中,16個是己知的,5個是未知的。故障1~7與過程變量的階躍變化有關,如冷卻水的入口溫度或者進料成分的變化。故障8~12與一些過程變量的可變性增大有關系。故障13是反應動力學中的緩慢漂移,故障14、15和21是與粘滯閥有關的。故障16~20是未知的。為了對該過程進行監(jiān)測,一共選取了44個過程變量,如表1所示。接下來結合該具體過程對本發(fā)明的實施步驟進行詳細地闡述:1、采集正常數(shù)據(jù)以及4種故障數(shù)據(jù)作為訓練樣本數(shù)據(jù),進行數(shù)據(jù)預處理和歸一化。本實驗中分別選擇了正常工況以及故障1、2、8、10、14作為訓練樣本,故障1和故障2都是流4中的成分變化。故障8是由物料流4中的A、B和C的成分有隨機變量變化所引起的故障,故障10是由物流2中料C的溫度隨機變化所帶來的故障,故障14是反應器冷卻水閥門沾滯引發(fā)的故障,是典型的非線性故障??梢钥闯鲞@三種類型的故障的引發(fā)原因各不相同,其中故障14是常見的非線性故障類型。采樣時間為3min,其中正常工況含有標簽樣本120個樣本,其余故障分類分別選擇有標簽樣本20個。2、采集無標簽數(shù)據(jù),使樣本的標簽率σ=20%,設置迭代次數(shù)G,將無標簽數(shù)據(jù)隨機采樣G次,每次取70%的無標簽數(shù)據(jù),和有標簽數(shù)據(jù)一起組成子分類器訓練集。3、在每次迭代時對每個子訓練集進行模型訓練,求得半監(jiān)督費舍爾判別向量矩陣,實驗中選取r=5。4、對訓練樣本集中的有標簽數(shù)據(jù)進行半監(jiān)督費舍爾判別分類,得到所有有標簽數(shù)據(jù)的度量層矩陣,下一次迭代時的樣本權重和子分類器權重。將有標簽度量層矩陣和其標簽集作為度量層融合算法K近鄰的訓練集。5、在線分類測試收集與訓練數(shù)據(jù)不同的樣本數(shù)據(jù)作為在線分類的測試數(shù)據(jù),包括正常工況數(shù)據(jù)共C+1類,每一類數(shù)據(jù)為Xtj=[xt1;xt2;…;xtN],j=1,2,…,C+1,實驗中C為5。其中正常測試樣本取100個,其余各工況各選50個。先對在線測試數(shù)據(jù)進行歸一化處理,將處理后的樣本輸入到每個子分類器中,得到測試樣本的度量層矩陣。將測試樣本的度量層矩陣放入帶權重的K近鄰方法中進行度量層融合得到最終的分類結果。從圖1和圖2的對比中可以看出,自適應的集成半監(jiān)督分類算法要優(yōu)于集成半監(jiān)督分類算法,本算法對分類效果的提升比較明顯。表1:監(jiān)控變量說明變量編號測量變量變量編號測量變量1A進料流量22分離器冷卻水出口溫度2D進料流量23物流6中A摩爾含量3E進料流量24物流6中B摩爾含量4A+C進料流量25物流6中C摩爾含量5再循環(huán)流量26物流6中D摩爾含量6反應器進料流速27物流6中E摩爾含量7反應器壓力28物流6中F摩爾含量8反應器等級29物流9中A摩爾含量9反應器溫度30物流9中B摩爾含量10排放速度31物流9中C摩爾含量11產(chǎn)品分離器溫度32物流9中D摩爾含量12產(chǎn)品分離器等級33物流9中E摩爾含量13產(chǎn)品分離器溫度34物流9中F摩爾含量14產(chǎn)品分離器塔底流量35物流9中G摩爾含量15汽提塔等級36物流9中H摩爾含量16汽提塔壓力37物流11中D摩爾含量17汽提塔塔底流量38物流11中E摩爾含量18汽提塔溫度39物流11中F摩爾含量19汽提塔流量40物流11中G摩爾含量20壓縮機功率41物流11中H摩爾含量21反應器冷卻水出口溫度上述實施例用來解釋說明本發(fā)明,而不是對本發(fā)明進行限制,在本發(fā)明的精神和權利要求的保護范圍內,對本發(fā)明做出的任何修改和改變,都落入本發(fā)明的保護范圍。當前第1頁1 2 3