一種基于lasso的近紅外光譜變量選擇方法
【技術(shù)領(lǐng)域】
[0001] 本方法發(fā)明屬于分析化學(xué)領(lǐng)域的無損分析技術(shù)領(lǐng)域,具體涉及一種基于LASSO的 近紅外光譜變量選擇方法。
【背景技術(shù)】
[0002] 近紅外光譜分析技術(shù)是分析化學(xué)領(lǐng)域里高速發(fā)展的技術(shù),它具有分析效率高、檢 測速度快、無需樣品預(yù)處理等優(yōu)點(diǎn),已廣泛的應(yīng)用于食品、石油等行業(yè)。在近紅外光譜和被 測物質(zhì)的含量或類別之間建立模型,可以實(shí)現(xiàn)復(fù)雜物質(zhì)的直接定性定量分析。近紅外光譜 建模中非常重要的一個(gè)問題就是光譜中存在冗余波長。一般的近紅外光譜(NIR)包含成百 上千的波長變量點(diǎn),而其中一些波長與研究的性質(zhì)是不相關(guān)的,這些不相關(guān)波長點(diǎn),會影響 模型質(zhì)量,導(dǎo)致其預(yù)測能力下降。因此變量選擇一直是光譜建模分析的重要內(nèi)容。
[0003] 光譜數(shù)據(jù)分析中常用的變量選擇方法主要包括基于智能優(yōu)化算法的方法以及基 于統(tǒng)計(jì)學(xué)的方法。前者主要有模擬退火(simulated annealing,SA,參見Swierenga H, de Groot P J? de ffeijer A P? Derksen MWJ? Buydens LMC? Improvement of PLS model transferability by robust wavelength selection, Chemom Intell Lab Syst,1998, 41,237-248)、遺傳算法(genetic algorithm,GA,參見 Leardi R,Gonzalez AL,Genetic algorithms applied to feature selection in PLS regression :how and when to use them,Chemom Intell Lab 378七,1998,41,195_207)、禁忌搜索(丁&131186&1'。11,丁3, 參見 Hageman JA,Streppel M? ffehrens R? Wavelength selection with Tabu Search, J Chemometrics,2003,17,427-437)、蟻群算法(ant colony optimization,AC0,參見 Shamsipur M,Zare-Shahabadi V,Hemmateenejad B,Akhond M,Ant colony optimization : a powerful tool for wavelength selection,J Chemometrics,2006, 20,146-157)、粒子 群算法(particle swarm optimization,PS0,參見Xu L,Jiang JH,Wu HL,Shen GL,Yu RQ, Variable-weighted PLS,Chemom Intell Lab Syst,2007,85,140-143)等,這些最優(yōu)化的 方法存在需要大量的參數(shù)、搜索時(shí)間較長以及容易陷入局部最優(yōu)等缺陷。后者主要有無信 息變量消除方法(Uninformative Variable Elimination,UVE,參見 Centner V,Massart D L,de Noord 0 E,Jong S,Vandeginste BM,Sterna C,Elimination of uninformative variables for multivariate calibration. Anal Chem,1996,68, 3851-3858)、蒙特卡洛 結(jié)合無信息變量消除方法(Monte Carlo Uninformative Variable Elimination,MCUVE, 參見 Cai WS? Li YK,Shao XG,A variable selection method based on uninformative variable elimination for multivariate calibration of near-infrared spectra, Chemom Intell Lab Syst,2008,90,188_194)、基于隨機(jī)檢驗(yàn)的變量篩選方法 (Randomization Test,RT,參見 Xu H,Liu ZC,Cai WS,Shao X G,A wavelength selection method based on randomization test for near-infrared spectral analysis. Chemom Intell Lab Syst,2009,97,189-193)等。UVE方法采用了留一法交叉驗(yàn)證來獲取變量穩(wěn)定 性值,該過程需要多次反復(fù)的運(yùn)算,而且還需要引入與原始光譜所包含變量數(shù)目相等的隨 機(jī)噪聲變量,所以當(dāng)數(shù)據(jù)集數(shù)目較大時(shí),該方法計(jì)算效率低,耗時(shí)較長。MCUVE算法和RT方 法都引入多次建模技術(shù),產(chǎn)生的多個(gè)模型往往比單一模型更能有效地從數(shù)據(jù)的不同方面和 不同層面抽取并表達(dá)自變量和因變量之間的復(fù)雜關(guān)系,有利于更合理、可靠地選擇變量。但 由于每次建模樣本的隨機(jī)選擇,使得這兩種方法的運(yùn)算結(jié)果存在一定的不穩(wěn)定性,而且在 數(shù)據(jù)量較大時(shí)也比較費(fèi)時(shí)。因此,有必要進(jìn)一步發(fā)展新型快速的變量選擇方法,提高模型的 穩(wěn)定性與預(yù)測精度。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是針對上述存在問題,提供一種快速、穩(wěn)定的變量選擇方法。該方法 在一個(gè)回歸系數(shù)的絕對值之和小于一個(gè)常數(shù)的條件下,使殘差平方和最小化,從而較嚴(yán)格 地使某些回歸系數(shù)變?yōu)榱悖鄳?yīng)的變量被刪除,實(shí)現(xiàn)變量選擇。
[0005] 具體步驟如下:
[0006] (1)收集m個(gè)待測樣本。設(shè)定光譜參數(shù),采集樣本的近紅外光譜,得到樣本的光譜 矩陣X。用常規(guī)方法測定樣本的被測組分含量,得到濃度向量y。采用一定分組方式將數(shù)據(jù) 分為訓(xùn)練集和預(yù)測集,其中訓(xùn)練集樣本用來建立模型并優(yōu)化參數(shù),預(yù)測集樣本用來檢驗(yàn)?zāi)?型的預(yù)測能力。
[0007] (2)采用交叉驗(yàn)證確定LASSO的約束值t。t控制著壓縮的程度,t越小,壓縮的程 度越強(qiáng),由于這個(gè)限制條件,最后結(jié)果會使得回歸系數(shù)0的某些分量變成0,達(dá)到了變量選 擇的目的。
[0008](3)利用最小角回歸算法求解LASSO的回歸系數(shù)0,保存回歸系數(shù)不為0的波長 點(diǎn)位置-
[0009]
[0010] 最小角回歸算法過程如下:
[0011]①更新模型入選變量集(active set),計(jì)算相關(guān)系數(shù)絕對值
[0012]
[0013] 更新 active setA (k),
[0014]
[0015] ②確定最小角方向(uk)
[0016] 令 Xk= (...sa…)』EA(k)
[0017] 其中,
[0018] lk是所有分量為1的向量,其長度等于|A|。計(jì)算最小角方向:uk= xk?k③計(jì)算 步長
[0019]當(dāng)j*A(k),令
[0020] 若|A| = d,則乂 =:&/為,算法終止。
[0021]
[0022]
[0023]
[0024]
[0025]
[0026]
[0027]
[0028]
[0029] 當(dāng)j G A時(shí),&e,否則〇返回執(zhí)行步驟①。
[0030] (4)根據(jù)保留的波長點(diǎn)位置,僅保留訓(xùn)練集光譜矩陣相應(yīng)的波長列,得到新的光譜 矩陣,并且與訓(xùn)練集樣本被測成分濃度向量建立偏最小二乘回歸(PLS)模型。其中PLS模 型的因子數(shù)通過蒙特卡羅交叉驗(yàn)證結(jié)合F檢驗(yàn)確定。利用這個(gè)模型,測定預(yù)測集樣本被測 成分的濃度含量。
[0031] 與現(xiàn)有變量選擇方法相比,本發(fā)明具有運(yùn)行速度快、選擇變量具有可重復(fù)性的優(yōu) 點(diǎn),而且能用更少的變量數(shù)達(dá)到更好的預(yù)測結(jié)果。
【附圖說明】
[0032] 圖1 :煙草樣本的近紅外光譜圖
[0033] 圖2 :煙草近紅外光譜數(shù)據(jù)訓(xùn)練集進(jìn)行1000次交叉驗(yàn)證的殘差平方和(SSR)平均 值以及方差隨著歸一化的約束值t的變化圖,其中豎線代表最優(yōu)模型對應(yīng)的t值
[0034] 圖3 :煙草近紅外光譜數(shù)據(jù)訓(xùn)練集進(jìn)行LASSO變量選擇后所有變量對應(yīng)的回歸系 數(shù)0
[0035] 圖4 :UVE、MCUVE、RT、LASSO四種變量選擇方法保留變量的分布圖
[0036] 圖5 :香油與大豆油、稻米油三元摻混樣本的近紅外光譜圖
[0037] 圖6 :香油與大豆油、稻米油三元摻混樣本的光譜數(shù)據(jù)訓(xùn)練集進(jìn)行1000次交叉驗(yàn) 證的殘差平方和(SSR)平均值以及方差隨著歸一化的約束值t的變化圖,其中豎線代表最 優(yōu)模型對應(yīng)的t值
[0038] 圖7 :香油與大豆油、稻米油三元摻混樣本光譜數(shù)據(jù)訓(xùn)練集進(jìn)行LASSO變量選擇后 所有變量對應(yīng)的回歸系數(shù)0
[0039] 圖8 :UVE、MCUVE、RT、LASSO四種變量選擇方法保留變量的分布圖
【具體實(shí)施方式】
[0040] 為更好理解本發(fā)明,下面結(jié)合實(shí)施例對本發(fā)