一種基于集成學(xué)習(xí)的近紅外光譜定量建模方法與流程

文檔序號：12033191閱讀：550來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>測量裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種光譜分析技術(shù)，尤其涉及的是一種近紅外光譜定量分析技術(shù)。

背景技術(shù)：

光譜分析技術(shù)特別是近紅外光譜技術(shù)，具有快速、簡單、非破壞性的特點，在復(fù)合體系諸如環(huán)境、化工、藥品和食品中可以作為定量分析的手段。由于樣品背景、噪聲和譜帶重疊的影響，通常需要借助化學(xué)計量學(xué)方法來建立光譜和測試對象的關(guān)聯(lián)模型，因此基于化學(xué)計量學(xué)方法的多元校正技術(shù)在光譜分析中占據(jù)重要地位。

傳統(tǒng)的經(jīng)典校正方法如偏最小二乘，將測量得到的光譜數(shù)據(jù)和實驗對象的成分含量進行關(guān)聯(lián)，經(jīng)常會出現(xiàn)預(yù)測精度低和模型魯棒性差的問題，究其原因，主要是因為基于經(jīng)典校正方法的偏最小二乘建模對校正樣中噪聲和異常值敏感，且校正樣本的數(shù)量和不均勻性等因素會使偏最小二乘建模方法對不同的校正樣和預(yù)測樣的分析效果相差很大，降低了模型的適用性。

集成學(xué)習(xí)作為一種機器學(xué)習(xí)方法，它試圖通過調(diào)用一些簡單的學(xué)習(xí)算法，以獲得多個不同的基學(xué)習(xí)機(通常是預(yù)測性能比較弱的學(xué)習(xí)機)，然后采用某種策略將這些基學(xué)習(xí)機組合成一個集成學(xué)習(xí)機，由于它能顯著提高一個學(xué)習(xí)系統(tǒng)的泛化能力，因此集成學(xué)習(xí)的理論和算法研究已經(jīng)成了機器學(xué)習(xí)領(lǐng)域中的熱點問題。目前集成學(xué)習(xí)方法結(jié)合多元校正產(chǎn)生了兩類建模方法：bagging和boosting，兩者主要的不同在于構(gòu)建子模型的樣品抽取方法和子模型的集成方法。其中bagging采用有放回抽取的原則構(gòu)造子模型校正樣本集，其中會有部分樣品重復(fù)出現(xiàn)，最后采用求平均的策略集合多個子模型；boosting方法采用按概率抽取部分校正集樣品構(gòu)成子模型校正集的原則，隨著迭代的進行更新各個樣本被抽取的概率，按照訓(xùn)練集誤差越大抽取概率越大的策略，實現(xiàn)了對誤差較大樣本的多次重復(fù)抽取，在子模型集成策略上，boosting方法構(gòu)造一個可信度指標，按照可信度指標越大權(quán)重越大的策略對迭代中產(chǎn)生的所有子模型預(yù)測結(jié)果進行加權(quán)求和。

綜上，現(xiàn)有的經(jīng)典校正方法對校正樣中的噪聲信息和異常值敏感，樣品數(shù)量的變化和不均勻性會導(dǎo)致所建立模型的預(yù)測精度下降和魯棒性變差。傳統(tǒng)bagging方法按照有放回抽取的原則構(gòu)造子模型的校正集樣本，會導(dǎo)致子模型的校正集樣本的均勻性不足，無法完全覆蓋驗證集，往往容易出現(xiàn)過擬合的情形。

技術(shù)實現(xiàn)要素：

本發(fā)明所要解決的技術(shù)問題在于提供了一種使整個模型的輸出結(jié)果更加接近真實值的基于集成學(xué)習(xí)的近紅外光譜定量建模方法。

本發(fā)明是通過以下技術(shù)方案解決上述技術(shù)問題的：一種基于集成學(xué)習(xí)的近紅外光譜定量建模方法，包括以下步驟：

步驟s101，確定初始數(shù)據(jù)集，包含用于建模的校正集(xc,yc)和驗證的預(yù)測集(xp,yp)，并對數(shù)據(jù)進行預(yù)處理；

步驟s102，將初始數(shù)據(jù)集中的校正集樣本按照聚類的策略分成p類，從每類中隨機抽取一個樣本構(gòu)成子模型的驗證集，余下的部分構(gòu)成該子模型的校正集；

步驟s103，采用選取的定量建模方法對子模型的校正集進行訓(xùn)練，通過模型輸出對初始數(shù)據(jù)集中預(yù)測集的預(yù)測誤差信息進行統(tǒng)計，并獲得以預(yù)測誤差的方差為參數(shù)的權(quán)函數(shù)；

步驟s104，重復(fù)步驟102和步驟103一定次數(shù)，構(gòu)建出多個子模型，并對各個子模型按照預(yù)測誤差的方差加權(quán)得到穩(wěn)健性強的定量校正模型；

步驟s105，利用穩(wěn)健性強的整體定量校正模型結(jié)合預(yù)測集樣本完成定量建模。

作為優(yōu)化的技術(shù)方案，在步驟s101中，對光譜數(shù)據(jù)進行預(yù)處理，包括：求導(dǎo)，歸一化，平滑，背景扣除。

作為優(yōu)化的技術(shù)方案，在步驟s102中，對光譜數(shù)據(jù)進行聚類分析，將樣本分成p類，同時對參與建模樣本的化學(xué)含量數(shù)據(jù)進行聚類。

作為優(yōu)化的技術(shù)方案，在步驟s103中，建模方法選取以下任一種：偏最小二乘、主成分回歸，獨立分量分析。

作為優(yōu)化的技術(shù)方案，所述步驟s104的具體步驟為：

步驟s201：從整體模型中的校正集(xc,yc)選取子模型的校正集樣本(xi,yi)和驗證集樣品(xt,yt)；

步驟s202：選取定量校正方法構(gòu)成弱學(xué)習(xí)機對子模型進行訓(xùn)練；

步驟s203：利用選取的子模型校正集數(shù)據(jù)(xi,yi)和定量建模方法建立該子模型yi＝xi*betai+ei，并得到該子模型的輸出參數(shù)betai，根據(jù)betai對子模型驗證集樣品(xt,yt)進行預(yù)測ypred＝xt*betai+ep，得到預(yù)測誤差ep＝|yt-ypred|；

步驟s204：重復(fù)步驟s201,s202和s203x次得到x個子模型對各自驗證集樣品(xt,yt)的預(yù)測誤差的方差；

步驟s205：利用各個子模型的方差構(gòu)造權(quán)重函數(shù)；

步驟s206：利用權(quán)重函數(shù)修正各子模型的輸出參數(shù)betai(i＝1...x)；

步驟s207:利用修正后的輸出參數(shù)構(gòu)成整體模型。

作為優(yōu)化的技術(shù)方案，在步驟s203中，預(yù)測誤差e的獲取方式為：統(tǒng)計第i個子模型中的預(yù)測誤差其中yic為驗證集樣品中第c個組分的含量數(shù)據(jù)，i取值1-x，c取值1-k，為第i個子模型對驗證集樣品中第c個組分的預(yù)測結(jié)果，記eic為(ei1,ei2,…,eik)。

作為優(yōu)化的技術(shù)方案，在步驟s204中，統(tǒng)計出各個子模型的預(yù)測誤差的方差記為

vi＝var(ei1,ei2,…,eik)。

作為優(yōu)化的技術(shù)方案，在步驟s204中，也可以按照下式統(tǒng)計出各個子模型相對預(yù)測誤差的方差：

vi＝var(ei1/yi1,ei2/yi2,…,eik/yik)。

作為優(yōu)化的技術(shù)方案，步驟s205中，按照方差越大則該子模型權(quán)重越小的原則構(gòu)造出高斯型權(quán)函數(shù)重復(fù)步驟s201/s202/s203和s204計x次，得到x個子模型對應(yīng)的高斯型權(quán)函數(shù)和預(yù)測系數(shù)betax，分別對x個模型求取預(yù)測系數(shù)的加權(quán)函數(shù)，第i個子模型的權(quán)函數(shù)為

采用集成學(xué)習(xí)的思想，構(gòu)造整體模型的預(yù)測系數(shù)newbeta，其計算方式如下：

newbeta＝diag(w)*betax

其中diag(w)由各個子模型權(quán)函數(shù)wi構(gòu)成的對角矩陣。

作為優(yōu)化的技術(shù)方案，在步驟s206中，利用權(quán)重函數(shù)修正各子模型的輸出參數(shù)beta為newbeta；

在步驟s207中，通過對x個子模型的加權(quán)得到經(jīng)過集成學(xué)習(xí)后的模型為：

y＝x*newbeta+e

在上述模型中輸入s101中的驗證集樣品的光譜數(shù)據(jù)即獲得該整體模型的預(yù)測性能。

本發(fā)明相比現(xiàn)有技術(shù)具有以下優(yōu)點：本發(fā)明將傳統(tǒng)經(jīng)典的多元校正方法構(gòu)成集成學(xué)習(xí)中的弱學(xué)習(xí)機，按照樣品聚類的原則構(gòu)建多個校正模型的樣本空間，有效提高子模型的校正集樣本的多樣性和代表性，通過高斯加權(quán)加權(quán)方法將這些弱學(xué)習(xí)機組合成一個集成學(xué)習(xí)機，降低預(yù)測誤差較大的子模型對整體結(jié)果的影響，可以有效提高定量校正模型的泛化能力，使其對驗證集樣品的預(yù)測結(jié)果更加準確。本發(fā)明所述的定量校正方法不僅適用于近紅外光譜，同樣適用于紫外吸收光譜、熒光光譜、質(zhì)譜、色譜等多變量校正的光譜分析體系。

附圖說明

圖1是本發(fā)明實施例的基于集成學(xué)習(xí)的近紅外光譜定量建模方法的流程圖；

圖2是本發(fā)明實施例中的對各個子模型按照預(yù)測誤差的方差加權(quán)得到穩(wěn)健性強的定量校正模型的流程圖。

具體實施方式

下面對本發(fā)明的實施例作詳細說明，本實施例在以本發(fā)明技術(shù)方案為前提下進行實施，給出了詳細的實施方式和具體的操作過程，但本發(fā)明的保護范圍不限于下述的實施例。

如圖1所示，本發(fā)明實施的基于集成學(xué)習(xí)的近紅外光譜定量建模方法包括以下步驟：

步驟s101，確定初始數(shù)據(jù)集，包含用于建模的校正集和驗證的預(yù)測集，并對數(shù)據(jù)進行預(yù)處理；

步驟s102，將初始數(shù)據(jù)集中的校正集樣本按照聚類的策略分成p類，從每類中隨機抽取一個樣本構(gòu)成子模型的驗證集，余下的部分構(gòu)成該子模型的校正集，最大程度上保證了子模型校正集樣品的均勻性，避免因樣品代表性不足引起的預(yù)測誤差偏大的情形出現(xiàn)；

步驟s105，利用穩(wěn)健性強的整體定量校正模型結(jié)合預(yù)測集樣本完成定量建模。

進一步具體的：

在步驟s101中，對光譜數(shù)據(jù)進行預(yù)處理，包括：求導(dǎo)，歸一化，平滑，背景扣除。

在步驟s102中，對光譜數(shù)據(jù)進行聚類分析，將樣本分成p類，同時也可以對參與建模樣本的化學(xué)含量數(shù)據(jù)進行聚類。

在步驟s103中，建模方法可以選取偏最小二乘、主成分回歸，獨立分量分析等。

如圖2所示，本發(fā)明的步驟s104的具體步驟為：

步驟s201：選取子模型的校正集和驗證集樣本；

步驟s202：選取定量校正方法構(gòu)成弱學(xué)習(xí)機對子模型進行訓(xùn)練；

步驟s204：統(tǒng)計各個子模型的預(yù)測誤差的方差；

步驟s205：利用各個子模型的方差構(gòu)造權(quán)重函數(shù)；

步驟s206：利用權(quán)重函數(shù)修正各子模型的輸出參數(shù)beta；

步驟s207:利用修正后的輸出參數(shù)構(gòu)成整體模型。

在步驟s203中，預(yù)測誤差e的獲取方式為：統(tǒng)計第i個子模型中的預(yù)測誤差其中yic為驗證集樣品中第c個組分的含量數(shù)據(jù)，i取值1-x，c取值1-k，為第i個子模型對驗證集樣品中第c個組分的預(yù)測結(jié)果，記eic為(ei1,ei2,…,eik)。

在步驟s204中，統(tǒng)計出各個子模型的預(yù)測誤差的方差記為

vi＝var(ei1,ei2,…,eik)

在步驟s204中，按照下式統(tǒng)計出各個子模型的預(yù)測誤差的方差：

vi＝var(ei1/yi1,ei2/yi2,…,eik/yik)

步驟s205中，按照方差越大則該子模型權(quán)重越小的原則構(gòu)造出高斯型權(quán)函數(shù)

在步驟s205中，重復(fù)步驟s201/s202/s203和s204計x次，可以得到x個子模型對應(yīng)的高斯型權(quán)函數(shù)和預(yù)測系數(shù)betax，分別對x個模型求取預(yù)測系數(shù)的加權(quán)函數(shù)，第i個子模型的權(quán)函數(shù)為

采用集成學(xué)習(xí)的思想，構(gòu)造整體模型的預(yù)測系數(shù)newbeta，其計算方式如下：

newbeta＝diag(w)*betax

其中diag(w)由各個子模型權(quán)函數(shù)wi構(gòu)成的對角矩陣。

在步驟s206中，利用權(quán)重函數(shù)修正各子模型的輸出參數(shù)beta為newbeta。

在步驟s207中，通過對x個子模型的加權(quán)得到經(jīng)過集成學(xué)習(xí)后的模型為：

y＝x*newbeta+e

在上述模型中輸入s101中的驗證集樣品的光譜數(shù)據(jù)即可獲得該整體模型的預(yù)測性能。

調(diào)整聚類數(shù)目p和子模型數(shù)量k的大小，可以獲得不同的預(yù)測模型，利用各個預(yù)測模型的輸出結(jié)果可以對整體模型的預(yù)測性能進行優(yōu)化。改變p的大小，獲得一系列整體模型對驗證集樣本(xp,yp)的預(yù)測誤差信息，統(tǒng)計得到使誤差最小的p值即為最優(yōu)。不斷增加k值，以整體模型對驗證集樣本(xp,yp)的預(yù)測誤差穩(wěn)定為子模型數(shù)量的選取原則。

本發(fā)明首先將校正集樣品進行分類，從每一類中選取一個樣品作為子模型的驗證集，剩余的樣品作為該子模型的校正集，最大程度上保證了子模型校正集樣品的均勻性，避免因樣品代表性不足引起的預(yù)測誤差偏大的情形出現(xiàn)。在子模型集成策略上，傳統(tǒng)bagging方法采用求平均的策略來實現(xiàn)各子模型預(yù)測結(jié)果集成，對預(yù)測結(jié)果和真實值之間的偏移量沒有任何改變，本方法采用基于各子模型預(yù)測結(jié)果的方差，構(gòu)造高斯型加權(quán)函數(shù)對各子模型的輸出結(jié)果進行集成，降低預(yù)測誤差較大的子模型對最終輸出結(jié)果權(quán)重的同時，提高了預(yù)測誤差較小的子模型的權(quán)重，使整個模型的輸出結(jié)果更加接近真實值。

以上所述僅為本發(fā)明的較佳實施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等，均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉晶;吳躍進;王琦;余立祥;劉斌美;倪曉宇;楊陽;周子軍;楊葉;詹玥
技術(shù)所有人：中國科學(xué)院合肥物質(zhì)科學(xué)研究院
我是此專利的發(fā)明人

上一篇：一種激光晶體粒子摻雜濃度均勻性測量方法及裝置與流程
上一篇：一種對三七及其偽品的快速鑒別方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、邢老師：1.機械設(shè)計及理論 2.生物醫(yī)學(xué)材料及器械 3.聲發(fā)射檢測技術(shù)。
2、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
4、張老師：1.機械設(shè)計的應(yīng)力分析、強度校核的計算機仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
5、趙老師：檢測與控制技術(shù)、機器人技術(shù)、機電一體化技術(shù)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于集成學(xué)習(xí)的近紅外光譜定量建模方法與流程