本發(fā)明涉及一種基于隨機森林遷移學習的紅外光譜模型傳遞方法,適用于不同廠家、不同型號紅外光譜儀的跨平臺模型通用方法。
背景技術:
紅外光譜分析是一種新興的分析技術,由于它具有快速、無損和無污染等優(yōu)點,在農(nóng)業(yè)、化工和環(huán)境監(jiān)測等領域有著廣泛的應用。紅外光譜分析技術要求紅外光譜儀和定性/定量分析模型必須協(xié)調(diào)工作,否則均會對分析結果由影響。然而,在實際的應用過程中,通常會存在紅外光譜儀生產(chǎn)廠家不同、型號不同等情況,致使所建立的分析模型無法適用于所有紅外光譜儀,而為每臺設備單獨建立一個分析模型,則會花費大量的人力物力和時間。
傳統(tǒng)的模型傳遞方法包括斜率截距法、直接校正法、分段直接校正法、Shenk’s法等。但是上述幾種方法均為有標樣方法,即事先準備好多個標準樣本,分別在主儀器和目標儀器上對這些樣本進行光譜掃描,接著利用數(shù)學方法確定兩者間的映射關系。對于新的待測樣本,在目標儀器上掃描光譜后,利用映射函數(shù)對其進行轉(zhuǎn)換,再使用主儀器上建立的原模型進行預測。但是在實際應用中,一方面,用戶通常很難將標準樣本長期保存,環(huán)境的變化往往會造成樣本性質(zhì)變化;另一方面,由于受物理空間影響,將標準樣本進行長途運輸亦顯得不具操作性。
中國海洋大學賀英于2012年在其博士論文中提出了一種新的模型傳遞方法——基于集成遷移學習的近紅外光譜模型傳遞方法,通過將遷移學習、樣本相似匹配和集成學習等方法相互結合,構建了具有一定穩(wěn)健性的遷移模型。但是,該方法存在以下兩點不足:(1)該方法中分別利用支持向量機(Support Vector Machine,SVM)、K近鄰(K-Near Neighbor,KNN)和偏最小二乘(Partial Least Square,PLS)三種方法建立回歸模型,然后再進行加權集成,但是三種方法所建立的模型均是在同一樣本分布的前提下完成的,因此當待測樣本的分布與建模時所用的樣本分布不同時,則可能會出現(xiàn)“負遷移”現(xiàn)象;換句話說,當原模型的泛化性能(魯棒性)較差時,原模型的誤差也會傳遞到目標儀器上;(2)當目標儀器上的待測樣本分布發(fā)生變化時,如何根據(jù)待測樣本的局部結構,自適應地調(diào)整各個弱目標分析模型的權重。
因此,研究跨設備的模型傳遞方法,使得在某臺紅外光譜儀上已經(jīng)建立好的分析模型能夠快速轉(zhuǎn)換到新的儀器上,具有重要的研究意義和應用價值。
技術實現(xiàn)要素:
針對背景技術中存在的問題,本發(fā)明的目的是提供一種基于隨機森林遷移學習的紅外光譜模型傳遞方法,可以自適應地調(diào)整隨機森林中各個映射模型的權重因子,有效提升模型傳遞的準確度和穩(wěn)定性。
本發(fā)明的技術方案是這樣實現(xiàn)的:一種基于隨機森林遷移學習的紅外光譜模型傳遞方法,包括以下步驟:S1、將主儀器掃描采集得到的樣本光譜數(shù)據(jù)集Dm利用Bootstrap隨機抽樣方法生成K個子數(shù)據(jù)集:S2、針對每個子數(shù)據(jù)集結合目標儀器上掃描得到的數(shù)據(jù)集Ds,利用遷移學習算法建立目標儀器上的紅外光譜與化學組分間的映射模型:同時形成新的數(shù)據(jù)集S3、針對待測樣本,利用目標儀器掃描其紅外光譜xi,并將其送入到每個映射模型從而得到每個映射模型給出的化學組分預測值:S4、計算待測樣本xi與數(shù)據(jù)集中每個樣本的相似度,并進行累加求和,記為:Si(1≤i≤k);S5、針對待測樣本xi,計算各個映射模型對應的權重因子:S6、利用加權平均方法計算待測樣本的化學組分含量:
在上述技術方案中,所述步驟S2中的遷移學習算法包括基于實例的遷移算法和基于特征的遷移算法。
在上述技術方案中,所述步驟S2中映射模型包括線性模型和非線性模型。
在上述技術方案中,所述線性模型為多元回歸和偏最小二乘;非線性模型為人工神經(jīng)網(wǎng)絡、支持向量機和極限學習機。
在上述技術方案中,所述步驟S2中映射模型的建立包括紅外光譜預處理和特征選擇。
在上述技術方案中,所述紅外光譜預處理包括去噪和基線校正;特征選擇包括無信息變量消除法、區(qū)間偏最小二乘法、遺傳算法、蝙蝠算法和稀疏優(yōu)化等。
在上述技術方案中,所述步驟S4中相似度度量方法包括歐式距離法、L范數(shù)法、相關系數(shù)法,以及將樣本映射到其它高維或者低維空間后再計算得到的相似性度量方法。
在上述技術方案中,其特征在于:所述步驟S4中相似度度量結果包括樣本間越接近,相似度越高,Si的值越大。
在上述技術方案中,所述步驟S5中各個映射模型對應的權重因子滿足關系:
本發(fā)明基于隨機森林遷移學習的紅外光譜模型傳遞方法,首先利用隨機森林思想,將主儀器掃描得到的樣本數(shù)據(jù)集利用Bootstrap方法生成多個分布結構不同的子數(shù)據(jù)集;其次,針對每個子數(shù)據(jù)集,結合目標儀器掃描得到的樣本數(shù)據(jù)集,利用基于實例的遷移學習算法建立目標儀器上的分析模型;接著,針對目標儀器上采集的待測樣本紅外光譜,根據(jù)建立的每個分析模型預測其待測組分含量;然后,基于局部結構映射思想,計算每個待測樣本與建立的各個分析模型中樣本之間的結構分布相似度,以確定與每個待測樣本對應的各個目標分析模型權重因子;最后,利用加權平均方法對預測結果進行匯總,以得到最終的待測組分含量。與現(xiàn)有方法相比,該方法具備魯棒性強、自適應的優(yōu)點,不僅可以有效提升模型傳遞的準確度和穩(wěn)定性,還可以自適應樣本分布結構發(fā)生變化的情形,因此可以廣泛應用于固相、液相和氣相的紅外光譜模型傳遞領域中。
附圖說明
圖1為本發(fā)明基于隨機森林遷移學習的紅外光譜模型傳遞方法流程圖;
圖2為同一樣本在三臺不同儀器下掃描的紅外光譜圖;
圖3為目標儀器mp5測試集預測結果對比示意圖;
圖4為目標儀器mp6測試集預測結果對比示意圖;
圖5為兩個不同樣本對應的隨機森林映射模型權重因子大小情況示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
如圖1所示,本發(fā)明所述的一種基于隨機森林遷移學習的紅外光譜模型傳遞方法流程如圖1所示,不失一般性,假設各有一臺主儀器和目標儀器,已知利用主儀器掃描多個樣本的光譜及其化學組分含量的數(shù)據(jù)集Dm,記為其中,為包含P個波長點的樣本掃描紅外光譜;為各個樣本的化學組分含量;N為樣本的個數(shù)。
已知利用目標儀器掃描多個樣本的光譜及其化學組分含量數(shù)據(jù)集Ds,記為其中,為包含P個波長點的樣本掃描紅外光譜;為各個樣本的化學組分含量;M為樣本的個數(shù)。一般情況下,M<N。以及利用目標儀器掃描得到的待分析樣本紅外光譜對應的化學組分含量yi為未知量,需要我們通過計算得出。
首先,將主儀器掃描采集得到的光譜樣本數(shù)據(jù)集Dm利用Bootstrap隨機抽樣方法生成K個子數(shù)據(jù)集:即采用有放回抽樣方式,以第i(1≤i≤k)輪為例,每次從Dm中抽取一個樣本,共抽取N次,形成新的集合由于是有放回抽樣,集合雖然同樣包含了N個樣本,但可能包含了若干重復樣本,將重復樣本剔除后,即形成第i(1≤i≤k)個子數(shù)據(jù)集根據(jù)概率論相關知識可以計算出,子數(shù)據(jù)集中包含了原數(shù)據(jù)集Dm中約62%的樣本。盡管子數(shù)據(jù)集中樣本數(shù)量有所減少,但每個子數(shù)據(jù)集中的樣本分布規(guī)律均不相同,這是隨機森林算法的本質(zhì),從而可以提升模型的魯棒性。
其次,針對每個子數(shù)據(jù)集結合目標儀器上掃描得到的數(shù)據(jù)集Ds,利用遷移學習算法建立目標儀器上的紅外光譜與化學組分間的映射模型:由于針對每個子數(shù)據(jù)集,遷移學習過程中會將其與Ds合并,從而形成新的數(shù)據(jù)集,記為:
需要說明的是:(1)模型建立的方法可以是線性如多元回歸、偏最小二乘等,也可以是非線性如人工神經(jīng)網(wǎng)絡、支持向量機、極限學習機等;(2)在建模之前,若有需要的話,可以對紅外光譜進行預處理和特征選擇,而紅外光譜進行預處理包括去噪、基線校正等;特征選擇包括無信息變量消除法、區(qū)間偏最小二乘法、遺傳算法、蝙蝠算法、稀疏優(yōu)化等。
接著,針對待測樣本,利用目標儀器掃描其紅外光譜xi,并將其送入到每個映射模型從而得到每個映射模型給出的化學組分預測值:
然后,計算待測樣本xi與數(shù)據(jù)集中每個樣本的相似度,并進行累加求和,記為:Si(1≤i≤k)。需要指出的是:(1)這里關于相似度的度量,可以是歐式距離、L范數(shù)等,也可以是先將樣本映射到其它高維或者低維空間后再計算得到的度量結果;(2)為了便于后面的表述,不失一般性,這里假設樣本間越接近,相似度越高,即Si的值越大。在此基礎上,根據(jù)下式計算針對待測樣本xi,各個映射模型對應的權重因子:
從上式可以看出,
最后,利用加權平均方法計算待測樣本的化學組分含量:
結合附圖2、圖3和圖4對本發(fā)明進行具體實施方式進行分析:本實施例中所選用的數(shù)據(jù)來源是80個玉米樣本的近紅外光譜數(shù)據(jù)集,其光譜掃描范圍為1100-2498nm,掃描間隔為2nm,每個樣本包含700個波長點。分別用3臺近紅外光譜儀對所有玉米樣本進行掃描,為了表述方便,3臺儀器的名稱分別命名為:m5、mp5和mp6。
在本實施例中,將儀器m5作為主儀器,mp5和mp6作為目標儀器。在80個樣本中,隨機選擇50個樣本構成主儀器m5下掃描得到的數(shù)據(jù)集剩下的30個樣本中,分別隨機選擇5個樣本構成目標儀器mp5和mp6下掃描得到的數(shù)據(jù)集最終剩下的20個樣本分別作為目標儀器mp5和mp6的待測樣本(各10個)xi(i=1,2,...,10)。這里,我們選擇玉米的蛋白質(zhì)含量作為待測組分。
在本實施例中,映射模型的建立采用極限學習機(Extreme Learning Machine,ELM)算法,與傳統(tǒng)的神經(jīng)網(wǎng)絡相比,ELM的輸入層與隱含層之間的連接權值可以隨機設定,且隱含層與輸出層之間的連接權值可以直接通過線性方程組求解得到,而不需要迭代學習,因此建模時間可以大大減少。與支持向量機等方法相比,ELM具有可調(diào)參數(shù)少的優(yōu)點,可以有效地保證模型的穩(wěn)定性和泛化性能。遷移學習算法采用的是戴文淵等人于2008年提出的TrAdaBoost算法。隨機森林的規(guī)模設為20,即K=20。
為了客觀地評價本發(fā)明所提出的基于隨機森林遷移學習的紅外光譜模型傳遞方法(以下簡記為RF-TrAdaBoost)的效果,這里我們將該方法與未遷移模型法以及賀英提出的SM-TrBoostEns方法進行對比,其中未遷移模型指的是利用ELM算法基于主儀器m5數(shù)據(jù)集Dm建立的模型。目標儀器mp5和mp6測試集的預測結果分別如圖3和圖4所示,對應的模型泛化性能指標(均方根誤差RMSE和決定系數(shù)R2)如下表1所列。
表1幾種模型傳遞方法對測試集預測結果的對比
從中可以看出,若未對模型進行遷移,將主儀器m5建立的映射模型直接應用到目標儀器mp5和mp6上,效果較差,決定系數(shù)最??;使用本發(fā)明所提出的模型傳遞方法,效果最佳,要明顯優(yōu)于SM-TrBoostEns方法。究其原因,主要有以下兩個:
(1)盡管SM-TrBoostEns方法中也引入了集成學習的思想,但是其是在相同的樣本分布結構下分別使用SVM、KNN和PLS方法建立映射模型。眾所周知,當樣本分布結構確定時,無論使用哪種建模方法,差別均很小,因此該方法起到了重復計算的效果。而與之相反,本發(fā)明所提出的隨機森林集成是建立在不同的樣本分布結構的基礎上的,因此每個映射模型學習的側(cè)重點均有所不同,因而可以使得模型的泛化性能和魯棒性更優(yōu)。
(2)本發(fā)明所提出的方法中還引入了局部結構映射的思想,即可以根據(jù)待測樣本的分布結構特點,自適應地調(diào)整隨機森林中每個映射模型的權重因子。圖5給出了兩個不同的待測樣本進行組分預測時,隨機森林中每個映射模型的權重因子大小。如圖5中所示,對于#1待測樣本而言,第2個映射模型的權重因子最大;而對于#2待測樣本而言,第18個映射模型的權重因子最大。權重因子越大,表明對應的映射模型“正遷移”效果越佳,通過加權平均,可以大大提升整個模型的預測精度。
本發(fā)明基于隨機森林遷移學習的紅外光譜模型傳遞方法通過將隨機森林思想和遷移學習方法相結合,提出了一種新型的紅外光譜模型傳遞方法。同時,當待測樣本的分布結構發(fā)生變化時,本發(fā)明所提出的方法能夠自適應地調(diào)整隨機森林中各個映射模型的權重因子。與現(xiàn)有方法相比,該方法具備魯棒性強、自適應等優(yōu)點,不僅可以有效提升模型傳遞的準確度和穩(wěn)定性,還可以自適應樣本分布結構發(fā)生變化的情形,因此可以廣泛應用于固相、液相和氣相的紅外光譜模型傳遞領域中。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。