本發(fā)明涉及一種光譜分析技術(shù),尤其涉及的是一種近紅外光譜定量分析技術(shù)。
背景技術(shù):
光譜分析技術(shù)特別是近紅外光譜技術(shù),具有快速、簡單、非破壞性的特點,在復(fù)合體系諸如環(huán)境、化工、藥品和食品中可以作為定量分析的手段。由于樣品背景、噪聲和譜帶重疊的影響,通常需要借助化學(xué)計量學(xué)方法來建立光譜和測試對象的關(guān)聯(lián)模型,因此基于化學(xué)計量學(xué)方法的多元校正技術(shù)在光譜分析中占據(jù)重要地位。
傳統(tǒng)的經(jīng)典校正方法如偏最小二乘,將測量得到的光譜數(shù)據(jù)和實驗對象的成分含量進行關(guān)聯(lián),經(jīng)常會出現(xiàn)預(yù)測精度低和模型魯棒性差的問題,究其原因,主要是因為基于經(jīng)典校正方法的偏最小二乘建模對校正樣中噪聲和異常值敏感,且校正樣本的數(shù)量和不均勻性等因素會使偏最小二乘建模方法對不同的校正樣和預(yù)測樣的分析效果相差很大,降低了模型的適用性。
集成學(xué)習(xí)作為一種機器學(xué)習(xí)方法,它試圖通過調(diào)用一些簡單的學(xué)習(xí)算法,以獲得多個不同的基學(xué)習(xí)機(通常是預(yù)測性能比較弱的學(xué)習(xí)機),然后采用某種策略將這些基學(xué)習(xí)機組合成一個集成學(xué)習(xí)機,由于它能顯著提高一個學(xué)習(xí)系統(tǒng)的泛化能力,因此集成學(xué)習(xí)的理論和算法研究已經(jīng)成了機器學(xué)習(xí)領(lǐng)域中的熱點問題。目前集成學(xué)習(xí)方法結(jié)合多元校正產(chǎn)生了兩類建模方法:bagging和boosting,兩者主要的不同在于構(gòu)建子模型的樣品抽取方法和子模型的集成方法。其中bagging采用有放回抽取的原則構(gòu)造子模型校正樣本集,其中會有部分樣品重復(fù)出現(xiàn),最后采用求平均的策略集合多個子模型;boosting方法采用按概率抽取部分校正集樣品構(gòu)成子模型校正集的原則,隨著迭代的進行更新各個樣本被抽取的概率,按照訓(xùn)練集誤差越大抽取概率越大的策略,實現(xiàn)了對誤差較大樣本的多次重復(fù)抽取,在子模型集成策略上,boosting方法構(gòu)造一個可信度指標,按照可信度指標越大權(quán)重越大的策略對迭代中產(chǎn)生的所有子模型預(yù)測結(jié)果進行加權(quán)求和。
綜上,現(xiàn)有的經(jīng)典校正方法對校正樣中的噪聲信息和異常值敏感,樣品數(shù)量的變化和不均勻性會導(dǎo)致所建立模型的預(yù)測精度下降和魯棒性變差。傳統(tǒng)bagging方法按照有放回抽取的原則構(gòu)造子模型的校正集樣本,會導(dǎo)致子模型的校正集樣本的均勻性不足,無法完全覆蓋驗證集,往往容易出現(xiàn)過擬合的情形。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題在于提供了一種使整個模型的輸出結(jié)果更加接近真實值的基于集成學(xué)習(xí)的近紅外光譜定量建模方法。
本發(fā)明是通過以下技術(shù)方案解決上述技術(shù)問題的:一種基于集成學(xué)習(xí)的近紅外光譜定量建模方法,包括以下步驟:
步驟s101,確定初始數(shù)據(jù)集,包含用于建模的校正集(xc,yc)和驗證的預(yù)測集(xp,yp),并對數(shù)據(jù)進行預(yù)處理;
步驟s102,將初始數(shù)據(jù)集中的校正集樣本按照聚類的策略分成p類,從每類中隨機抽取一個樣本構(gòu)成子模型的驗證集,余下的部分構(gòu)成該子模型的校正集;
步驟s103,采用選取的定量建模方法對子模型的校正集進行訓(xùn)練,通過模型輸出對初始數(shù)據(jù)集中預(yù)測集的預(yù)測誤差信息進行統(tǒng)計,并獲得以預(yù)測誤差的方差為參數(shù)的權(quán)函數(shù);
步驟s104,重復(fù)步驟102和步驟103一定次數(shù),構(gòu)建出多個子模型,并對各個子模型按照預(yù)測誤差的方差加權(quán)得到穩(wěn)健性強的定量校正模型;
步驟s105,利用穩(wěn)健性強的整體定量校正模型結(jié)合預(yù)測集樣本完成定量建模。
作為優(yōu)化的技術(shù)方案,在步驟s101中,對光譜數(shù)據(jù)進行預(yù)處理,包括:求導(dǎo),歸一化,平滑,背景扣除。
作為優(yōu)化的技術(shù)方案,在步驟s102中,對光譜數(shù)據(jù)進行聚類分析,將樣本分成p類,同時對參與建模樣本的化學(xué)含量數(shù)據(jù)進行聚類。
作為優(yōu)化的技術(shù)方案,在步驟s103中,建模方法選取以下任一種:偏最小二乘、主成分回歸,獨立分量分析。
作為優(yōu)化的技術(shù)方案,所述步驟s104的具體步驟為:
步驟s201:從整體模型中的校正集(xc,yc)選取子模型的校正集樣本(xi,yi)和驗證集樣品(xt,yt);
步驟s202:選取定量校正方法構(gòu)成弱學(xué)習(xí)機對子模型進行訓(xùn)練;
步驟s203:利用選取的子模型校正集數(shù)據(jù)(xi,yi)和定量建模方法建立該子模型yi=xi*betai+ei,并得到該子模型的輸出參數(shù)betai,根據(jù)betai對子模型驗證集樣品(xt,yt)進行預(yù)測ypred=xt*betai+ep,得到預(yù)測誤差ep=|yt-ypred|;
步驟s204:重復(fù)步驟s201,s202和s203x次得到x個子模型對各自驗證集樣品(xt,yt)的預(yù)測誤差的方差;
步驟s205:利用各個子模型的方差構(gòu)造權(quán)重函數(shù);
步驟s206:利用權(quán)重函數(shù)修正各子模型的輸出參數(shù)betai(i=1...x);
步驟s207:利用修正后的輸出參數(shù)構(gòu)成整體模型。
作為優(yōu)化的技術(shù)方案,在步驟s203中,預(yù)測誤差e的獲取方式為:統(tǒng)計第i個子模型中的預(yù)測誤差
作為優(yōu)化的技術(shù)方案,在步驟s204中,統(tǒng)計出各個子模型的預(yù)測誤差的方差記為
vi=var(ei1,ei2,…,eik)。
作為優(yōu)化的技術(shù)方案,在步驟s204中,也可以按照下式統(tǒng)計出各個子模型相對預(yù)測誤差的方差:
vi=var(ei1/yi1,ei2/yi2,…,eik/yik)。
作為優(yōu)化的技術(shù)方案,步驟s205中,按照方差越大則該子模型權(quán)重越小的原則構(gòu)造出高斯型權(quán)函數(shù)
采用集成學(xué)習(xí)的思想,構(gòu)造整體模型的預(yù)測系數(shù)newbeta,其計算方式如下:
newbeta=diag(w)*betax
其中diag(w)由各個子模型權(quán)函數(shù)wi構(gòu)成的對角矩陣。
作為優(yōu)化的技術(shù)方案,在步驟s206中,利用權(quán)重函數(shù)修正各子模型的輸出參數(shù)beta為newbeta;
在步驟s207中,通過對x個子模型的加權(quán)得到經(jīng)過集成學(xué)習(xí)后的模型為:
y=x*newbeta+e
在上述模型中輸入s101中的驗證集樣品的光譜數(shù)據(jù)即獲得該整體模型的預(yù)測性能。
本發(fā)明相比現(xiàn)有技術(shù)具有以下優(yōu)點:本發(fā)明將傳統(tǒng)經(jīng)典的多元校正方法構(gòu)成集成學(xué)習(xí)中的弱學(xué)習(xí)機,按照樣品聚類的原則構(gòu)建多個校正模型的樣本空間,有效提高子模型的校正集樣本的多樣性和代表性,通過高斯加權(quán)加權(quán)方法將這些弱學(xué)習(xí)機組合成一個集成學(xué)習(xí)機,降低預(yù)測誤差較大的子模型對整體結(jié)果的影響,可以有效提高定量校正模型的泛化能力,使其對驗證集樣品的預(yù)測結(jié)果更加準確。本發(fā)明所述的定量校正方法不僅適用于近紅外光譜,同樣適用于紫外吸收光譜、熒光光譜、質(zhì)譜、色譜等多變量校正的光譜分析體系。
附圖說明
圖1是本發(fā)明實施例的基于集成學(xué)習(xí)的近紅外光譜定量建模方法的流程圖;
圖2是本發(fā)明實施例中的對各個子模型按照預(yù)測誤差的方差加權(quán)得到穩(wěn)健性強的定量校正模型的流程圖。
具體實施方式
下面對本發(fā)明的實施例作詳細說明,本實施例在以本發(fā)明技術(shù)方案為前提下進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施例。
如圖1所示,本發(fā)明實施的基于集成學(xué)習(xí)的近紅外光譜定量建模方法包括以下步驟:
步驟s101,確定初始數(shù)據(jù)集,包含用于建模的校正集和驗證的預(yù)測集,并對數(shù)據(jù)進行預(yù)處理;
步驟s102,將初始數(shù)據(jù)集中的校正集樣本按照聚類的策略分成p類,從每類中隨機抽取一個樣本構(gòu)成子模型的驗證集,余下的部分構(gòu)成該子模型的校正集,最大程度上保證了子模型校正集樣品的均勻性,避免因樣品代表性不足引起的預(yù)測誤差偏大的情形出現(xiàn);
步驟s103,采用選取的定量建模方法對子模型的校正集進行訓(xùn)練,通過模型輸出對初始數(shù)據(jù)集中預(yù)測集的預(yù)測誤差信息進行統(tǒng)計,并獲得以預(yù)測誤差的方差為參數(shù)的權(quán)函數(shù);
步驟s104,重復(fù)步驟102和步驟103一定次數(shù),構(gòu)建出多個子模型,并對各個子模型按照預(yù)測誤差的方差加權(quán)得到穩(wěn)健性強的定量校正模型;
步驟s105,利用穩(wěn)健性強的整體定量校正模型結(jié)合預(yù)測集樣本完成定量建模。
進一步具體的:
在步驟s101中,對光譜數(shù)據(jù)進行預(yù)處理,包括:求導(dǎo),歸一化,平滑,背景扣除。
在步驟s102中,對光譜數(shù)據(jù)進行聚類分析,將樣本分成p類,同時也可以對參與建模樣本的化學(xué)含量數(shù)據(jù)進行聚類。
在步驟s103中,建模方法可以選取偏最小二乘、主成分回歸,獨立分量分析等。
如圖2所示,本發(fā)明的步驟s104的具體步驟為:
步驟s201:選取子模型的校正集和驗證集樣本;
步驟s202:選取定量校正方法構(gòu)成弱學(xué)習(xí)機對子模型進行訓(xùn)練;
步驟s203:利用選取的子模型校正集數(shù)據(jù)(xi,yi)和定量建模方法建立該子模型yi=xi*betai+ei,并得到該子模型的輸出參數(shù)betai,根據(jù)betai對子模型驗證集樣品(xt,yt)進行預(yù)測ypred=xt*betai+ep,得到預(yù)測誤差ep=|yt-ypred|;
步驟s204:統(tǒng)計各個子模型的預(yù)測誤差的方差;
步驟s205:利用各個子模型的方差構(gòu)造權(quán)重函數(shù);
步驟s206:利用權(quán)重函數(shù)修正各子模型的輸出參數(shù)beta;
步驟s207:利用修正后的輸出參數(shù)構(gòu)成整體模型。
在步驟s203中,預(yù)測誤差e的獲取方式為:統(tǒng)計第i個子模型中的預(yù)測誤差
在步驟s204中,統(tǒng)計出各個子模型的預(yù)測誤差的方差記為
vi=var(ei1,ei2,…,eik)
在步驟s204中,按照下式統(tǒng)計出各個子模型的預(yù)測誤差的方差:
vi=var(ei1/yi1,ei2/yi2,…,eik/yik)
步驟s205中,按照方差越大則該子模型權(quán)重越小的原則構(gòu)造出高斯型權(quán)函數(shù)
在步驟s205中,重復(fù)步驟s201/s202/s203和s204計x次,可以得到x個子模型對應(yīng)的高斯型權(quán)函數(shù)
采用集成學(xué)習(xí)的思想,構(gòu)造整體模型的預(yù)測系數(shù)newbeta,其計算方式如下:
newbeta=diag(w)*betax
其中diag(w)由各個子模型權(quán)函數(shù)wi構(gòu)成的對角矩陣。
在步驟s206中,利用權(quán)重函數(shù)修正各子模型的輸出參數(shù)beta為newbeta。
在步驟s207中,通過對x個子模型的加權(quán)得到經(jīng)過集成學(xué)習(xí)后的模型為:
y=x*newbeta+e
在上述模型中輸入s101中的驗證集樣品的光譜數(shù)據(jù)即可獲得該整體模型的預(yù)測性能。
調(diào)整聚類數(shù)目p和子模型數(shù)量k的大小,可以獲得不同的預(yù)測模型,利用各個預(yù)測模型的輸出結(jié)果可以對整體模型的預(yù)測性能進行優(yōu)化。改變p的大小,獲得一系列整體模型對驗證集樣本(xp,yp)的預(yù)測誤差信息,統(tǒng)計得到使誤差最小的p值即為最優(yōu)。不斷增加k值,以整體模型對驗證集樣本(xp,yp)的預(yù)測誤差穩(wěn)定為子模型數(shù)量的選取原則。
本發(fā)明首先將校正集樣品進行分類,從每一類中選取一個樣品作為子模型的驗證集,剩余的樣品作為該子模型的校正集,最大程度上保證了子模型校正集樣品的均勻性,避免因樣品代表性不足引起的預(yù)測誤差偏大的情形出現(xiàn)。在子模型集成策略上,傳統(tǒng)bagging方法采用求平均的策略來實現(xiàn)各子模型預(yù)測結(jié)果集成,對預(yù)測結(jié)果和真實值之間的偏移量沒有任何改變,本方法采用基于各子模型預(yù)測結(jié)果的方差,構(gòu)造高斯型加權(quán)函數(shù)對各子模型的輸出結(jié)果進行集成,降低預(yù)測誤差較大的子模型對最終輸出結(jié)果權(quán)重的同時,提高了預(yù)測誤差較小的子模型的權(quán)重,使整個模型的輸出結(jié)果更加接近真實值。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。