Bagging極限學習機集成建模方法
【技術(shù)領域】
[0001]本發(fā)明屬于化學計量技術(shù)領域,具體涉及Bagging極限學習機集成建模方法。
【背景技術(shù)】
[0002]人工神經(jīng)網(wǎng)絡因其強大的自適應、自組織、自學習和非線性映射能力,已廣泛應用于生物、化學、醫(yī)學、經(jīng)濟等各種領域。但是傳統(tǒng)的神經(jīng)網(wǎng)絡學習算法(如BP算法)需要人為設置大量的網(wǎng)絡訓練參數(shù),訓練速度慢、很容易產(chǎn)生局部最優(yōu)解。2004年,新加坡南洋理工大學黃廣斌教授提出一種單隱層前饋神經(jīng)網(wǎng)絡的新算法,命名為極限學習機(ExtremeLearning Machine,ELM)。ELM算法的核心是將神經(jīng)網(wǎng)絡的訓練問題變化成求解最小二乘的問題,避免了人工神經(jīng)網(wǎng)絡需要人為的調(diào)整參數(shù)和易于陷入局部最優(yōu)解的缺陷。ELM算法因其簡單易實現(xiàn)、學習速度快、泛化能力強等特點,近年來受到越來越多的關注,在分析化學、控制工程、圖像識別等多個領域得到應用。但由于ELM的輸入權(quán)重和隱層神經(jīng)元的偏置是隨機設置的,使得模型的運行結(jié)果具有不穩(wěn)定性。
[0003]集成建模技術(shù)通過將多個模型的結(jié)果進行融合得到最終預測結(jié)果,能提高模型預測的精度與穩(wěn)定性。Bagging作為一種常用的集成建模方法,用“bootstrap”方法從訓練集中隨機選擇部分樣本建立多個子模型,再將多個子模型預測結(jié)果取平均得到最終預測結(jié)果。該方法一方面通過重新選取訓練集增加集成建模的差異度,另一方面通過融合多個預測結(jié)果提升了基礎模型的預測精度。
[0004]本發(fā)明結(jié)合ELM及Bagging的優(yōu)勢,提出了基于Bagging的ELM集成建模方法,并用于復雜樣品定量分析,既保留了 ELM計算速度快、預測能力強的優(yōu)勢,又克服了 ELM穩(wěn)定性差的缺點。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于提出一種穩(wěn)定性好、預測精度高的Bagging極限學習機集成建模方法。
[0006]本發(fā)明將Bagging算法與極限學習機模型(ELM)相結(jié)合,建立了基于Bagging的極限學習機集成方法(記為Bagging ELM),其流程如圖1所示,具體步驟為:
(1)采集被測物樣本的光譜數(shù)據(jù),用常規(guī)方法測定樣本被測成分的含量;將樣本集劃分為訓練集和預測集;
(2)對訓練集樣本進行boostrap重采樣,隨機選取一定數(shù)目樣本作為一個訓練子集;
(3)確定極限學習機最佳激勵函數(shù)和隱藏層節(jié)點數(shù),用訓練子集的樣本建立極限學習機子模型;
重復步驟(2 )、步驟(3 )多次,建立N個子模型;
(4)對于未知樣品,通過對多個子模型的預測結(jié)果作算術(shù)平均,得到最終預測結(jié)果。
[0007]本發(fā)明中,所述N個子模型的個數(shù)的確定方法如下:給定一個足夠大的子模型數(shù)目值,固定每個數(shù)據(jù)集的訓練子集樣本數(shù)為總樣本數(shù)的50%,計算預測均方根誤差(Rootmean square error of predict1n, RMSEP),并觀察RMSEP隨著子模型個數(shù)的變化;當RMSEP值不變或者幾乎不變(趨于穩(wěn)定)時,其所對應的子模型個數(shù)即為所需的個數(shù)N。
[0008]本發(fā)明中,訓練子集的樣本數(shù)目的確定方法如下:固定子模型個數(shù),按樣本數(shù)的5%~100%,每間隔5%,改變被選取的樣本的數(shù)目(非整數(shù)時去尾法取整),計算RMSEP值,RMSEP最小或趨于平穩(wěn)時對應的樣本數(shù)目,即為每次循環(huán)選取的樣本數(shù)目。
[0009]本發(fā)明中,確定極限學習機最佳激勵函數(shù)和隱藏層節(jié)點數(shù)的具體方法如下:根據(jù)訓練集光譜的RMSEP值隨選取激勵函數(shù)和隱藏層節(jié)點數(shù)的變化,當RMSEP達到最小時,RMSEP所對應的激勵函數(shù)和隱藏層節(jié)點數(shù)即為最佳參數(shù)。
[0010]本發(fā)明的優(yōu)點是:該建模方法結(jié)合了集成建模技術(shù)Bagging和極限學習機的優(yōu)勢,提高了極限學習機算法的預測精度與穩(wěn)定性,為復雜物質(zhì)多元校正分析提供了一種新的建模方法。本發(fā)明方法可廣泛適用于石油、煙草、食品、中藥等領域的復雜物質(zhì)定量分析。
【附圖說明】
[0011]圖1是Bagging極限學習機的流程圖。
[0012]圖2是燃油紫外數(shù)據(jù)的預測均方根誤差值隨著子模型個數(shù)的變化。
[0013]圖3是燃油紫外數(shù)據(jù)的預測均方根誤差值隨著訓練子集樣本百分數(shù)的變化。
[0014]圖4是燃油紫外數(shù)據(jù)極限學習機及Bagging極限學習機的預測均方根誤差值隨著預測次數(shù)的變化。
[0015]圖5是燃油紫外數(shù)據(jù)Bagging極限學習機及極限學習機對預測集預測的平均預測值與真實值的關系,其中(a)和(b)分別為Bagging極限學習機及極限學習機。
[0016]圖6是乙醇溶液近紅外數(shù)據(jù)的預測均方根誤差值隨著子模型個數(shù)的變化。
[0017]圖7是乙醇溶液近紅外數(shù)據(jù)的預測均方根誤差值隨著訓練子集樣本百分數(shù)的變化。
[0018]圖8是乙醇溶液近紅外數(shù)據(jù)極限學習機及Bagging極限學習機的預測均方根誤差值隨著預測次數(shù)的變化。
[0019]圖9是乙醇溶液近紅外數(shù)據(jù)Bagging極限學習機及極限學習機對預測集預測的平均預測值與真實值的關系,其中(a)和(b)分別為Bagging極限學習機及極限學習機。
[0020]圖10是柴油近紅外數(shù)據(jù)的預測均方根誤差值隨著子模型個數(shù)的變化。
[0021]圖11是柴油近紅外數(shù)據(jù)的預測均方根誤差值隨著訓練子集樣本百分數(shù)的變化。
[0022]圖12是柴油近紅外數(shù)據(jù)極限學習機及Bagging極限學習機的預測均方根誤差值隨著預測次數(shù)的變化。
[0023]圖13是柴油近紅外數(shù)據(jù)Bagging極限學習機及極限學習機對預測集預測的平均預測值與真實值的關系,其中(a)和(b)分別為Bagging極限學習機及極限學習機。
[0024]圖14是血液近紅外數(shù)據(jù)的預測均方根誤差值隨著子模型個數(shù)的變化。
[0025]圖15是血液近紅外數(shù)據(jù)的預測均方根誤差值隨著訓練子集樣本百分數(shù)的變化。
[0026]圖16是血液近紅外數(shù)據(jù)極限學習機及Bagging極限學習機的預測均方根誤差值隨著預測次數(shù)的變化。
[0027]圖17是血液近紅外數(shù)據(jù)Bagging極限學習機及極限學習機對預測集預測的平均預測值與真實值的關系,其中(a)和(b)分別為Bagging極限學習機及極限學習機。
[0028]圖18是卷煙近紅外數(shù)據(jù)的預測均方根誤差值隨著子模型個數(shù)的變化。
[0029]圖19是卷煙近紅外數(shù)據(jù)的預測均方根誤差值隨著訓練子集樣本百分數(shù)的變化。
[0030]圖20是卷煙近紅外數(shù)據(jù)極限學習機及Bagging極限學習機的預測均方根誤差值隨著預測次數(shù)的變化。
[0031]圖21是卷煙近紅外數(shù)據(jù)Bagging極限學習機及極限學習機對預測集預測的平均預測值與真實值的關系,其中(a)和(b)分別為Bagging極限學習機及極限學習機。
【具體實施方式】
[0032]為更好地理解本發(fā)明,下面結(jié)合實施例對本發(fā)明做進一步地詳細說明,但是本發(fā)明要求保護的范圍并不局限于實施例表示的范圍。
[0033]實施例1:
本實施例是應用于紫外光譜分析,對燃油樣品中單芳香族化合物含量值進行測定。具體的步驟如下:
(I)采集115個燃油樣品的紫外光譜數(shù)據(jù),波長范圍為200-400nm,采樣間隔為0.35nm,包含572個波長點,光譜采用Varian Cary 3 UV-visible spectrophometer光譜儀測定。單芳香族化合物含量采用HPG1205A超臨界流體色譜進行測定,二氧化碳作為載氣,流速為2mLmin \爐溫為35° C,出口壓力為150bar,檢測器為火焰離子檢測器。根據(jù)網(wǎng)站上對數(shù)據(jù)集的劃分,70個樣本用作訓練集,45個樣本用作預測集。
[0034](2)對訓練集樣本進行boostrap重采樣,隨機選取一定數(shù)目樣本作為一個訓練子集。
[0035](3)確定極限學習機最佳激勵函數(shù)和隱藏層節(jié)點數(shù),用訓練子集的樣本建立極限學習機子模型。
[0036]重復(2)- (3)步驟多次,建立多個子模型。
[0037](4)對于未知樣品,通過多個子模型的預測結(jié)果作算術(shù)平均,得到最終預測結(jié)果。
[0038]子模型個數(shù)的確定方法:給定500個子模型數(shù)目值,固定每個數(shù)據(jù)集的訓練子集樣本數(shù)為總樣本數(shù)的50%,計算預測均方根誤差(Root mean square error of predict1n,RMSEP)隨著子模型個數(shù)的變化,RMSEP值不變或者幾乎不變(趨于穩(wěn)定)時為應建立的模型個數(shù)。該實施例中RMSEP隨著子模型個數(shù)的變化如圖2所示,當子模型數(shù)為500以后,RMSEP值幾乎不變,所以建立的模型個數(shù)為500。
[0039]—定數(shù)目樣本的選取方法是:固定子模型個數(shù)為500,按樣本數(shù)的5[100%,每間隔5%,改變被選取的樣本的數(shù)目(非整數(shù)時去尾法取整),計算RMSEP值,RMSEP最小或趨于平穩(wěn)時對應的樣本數(shù)為每次循環(huán)選取的樣本數(shù)。該實施例中RMSEP值隨著訓練子集樣本百分數(shù)的變化如圖3所示,當訓練子集樣本數(shù)達到訓練樣本總數(shù)的20~100%時,RMSEP值達到最小且?guī)缀醪蛔?,因此,訓練子集樣本?shù)為樣本總數(shù)的20~100%都可以,本例選取訓練子集樣本數(shù)