本發(fā)明屬于光譜分析中的模型優(yōu)化
技術(shù)領(lǐng)域:
,具體涉及一種基于指標(biāo)極值的光譜特征變量快速匹配方法。
背景技術(shù):
:光譜分析是根據(jù)物質(zhì)的光譜通過(guò)定性或定量來(lái)確定物質(zhì)的化學(xué)成分及其含量的一種技術(shù)。它具有簡(jiǎn)便快速、非破壞性、實(shí)時(shí)在線、多成分同時(shí)檢測(cè)等優(yōu)點(diǎn),在環(huán)境、食品、農(nóng)業(yè)、生物醫(yī)學(xué)等眾多領(lǐng)域得到廣泛的應(yīng)用。紅外光譜、紫外光譜、拉曼光譜等光譜分析技術(shù)的應(yīng)用首先需要采用相應(yīng)的光譜儀測(cè)量光譜數(shù)據(jù)。全譜段通用型光譜儀器體型龐大,不便于攜帶;對(duì)于不同對(duì)象都不作區(qū)分地進(jìn)行全譜掃描,并不能實(shí)現(xiàn)實(shí)時(shí)在線的快速測(cè)定。因此,有必要研發(fā)便攜式的小型專用光譜儀,這其中涉及的關(guān)鍵技術(shù)是如何快速有效地選取高信噪比的光譜波長(zhǎng)(特征變量)組合進(jìn)行建模優(yōu)化。由于光譜檢測(cè)對(duì)象通常是包含有多種組分的復(fù)雜體系,每一種組分所對(duì)應(yīng)的光譜吸收帶各不相同;而光譜測(cè)量數(shù)據(jù)中不同組分的信息往往重疊在一起,特征吸收峰不突出、信息不明顯(特別是近紅外光譜),所以必須通過(guò)模型指標(biāo)分析,根據(jù)建模效果選擇不同的波長(zhǎng)組成離散波長(zhǎng)點(diǎn)組合,通過(guò)進(jìn)一步的優(yōu)化構(gòu)建特征波長(zhǎng)數(shù)據(jù)庫(kù),為小型便攜式光譜分析儀器的設(shè)計(jì)提供理論基礎(chǔ)和技術(shù)支持。光譜測(cè)量的波長(zhǎng)點(diǎn)很多,以近紅外為例,整個(gè)近紅外波段為780-2526nm(或記為12821-3958cm-1)(astm標(biāo)準(zhǔn)),如果波長(zhǎng)間隔是0.5nm,那么一共有3493個(gè)波長(zhǎng)。實(shí)驗(yàn)證明,如果通過(guò)全譜波長(zhǎng)隨機(jī)任意組合進(jìn)行全局篩選,其計(jì)算復(fù)雜度太大,達(dá)不到快速檢測(cè)的效果,而且光譜的共線性問(wèn)題影響模型預(yù)測(cè)精度的提高。因此,在全譜段波長(zhǎng)變量中有效地選取特征變量組合是實(shí)現(xiàn)數(shù)據(jù)降維的必要途徑,特征變量的選取必須趨于離散化波長(zhǎng)變量組合,它對(duì)于建立高精度分析模型、降低模型復(fù)雜性和分光系統(tǒng)的設(shè)計(jì)等方面具有重要意義。如果能夠找到待測(cè)組分對(duì)應(yīng)的若干離散特征波長(zhǎng)點(diǎn),線性回歸模型也可以得到良好的預(yù)測(cè)效果。于是,本發(fā)明提出了一種基于指標(biāo)極值的光譜特征變量快速匹配(speedmatchingofcharacteristicvariablesbasedonextremums,smcve)的方法。技術(shù)實(shí)現(xiàn)要素:本發(fā)明所要解決的技術(shù)問(wèn)題是為光譜分析提供一種基于指標(biāo)極值的光譜特征變量快速匹配方法(smcve)。該方法能夠針對(duì)不同的分析對(duì)象選擇其對(duì)應(yīng)的光譜特征波長(zhǎng)組合。具體步驟為:步驟一,根據(jù)朗伯比爾定律,待測(cè)組分的濃度值與其純光譜的吸光度數(shù)據(jù)成正比,對(duì)光譜的全部變量集合即全譜波長(zhǎng)集合中的每一個(gè)變量即波長(zhǎng)點(diǎn)建立一元線性回歸模型。步驟二,根據(jù)模型預(yù)測(cè)效果繪制模型評(píng)價(jià)指標(biāo)曲線,從全譜波長(zhǎng)集合中挑選出指標(biāo)極值對(duì)應(yīng)的若干波長(zhǎng)點(diǎn),從而篩選出了若干個(gè)離散特征變量即特征波長(zhǎng),稱為一元特征變量。步驟三,在一元模型的基礎(chǔ)上,尋找與一元特征變量能夠達(dá)到最佳匹配效果的第二變量即第二波長(zhǎng),于是,以每一個(gè)一元特征變量作為基本變量,在全譜波長(zhǎng)集合中的每一個(gè)波長(zhǎng)與之組合,建立二元模型,根據(jù)模型預(yù)測(cè)指標(biāo)極大值或極小值挑選出最優(yōu)的二元模型所對(duì)應(yīng)的第二波長(zhǎng),稱之為最佳匹配變量。步驟四,經(jīng)過(guò)反復(fù)實(shí)驗(yàn),選中所有的一元特征變量和最佳匹配變量,去除重復(fù)變量以后組成離散特征變量集合。所述指標(biāo)的選擇選用預(yù)測(cè)相關(guān)系數(shù)譜線r或者預(yù)測(cè)誤差曲線e,尋找預(yù)測(cè)相關(guān)系數(shù)譜線r或者預(yù)測(cè)誤差曲線e的極值,即波峰或波谷,以此確定一元特征變量;通過(guò)合理選擇指標(biāo)極值,所選的一元特征變量和它們所對(duì)應(yīng)的最佳匹配變量組成的離散特征變量集合將會(huì)直接指向該待測(cè)組分的特征信息。本發(fā)明方法的優(yōu)勢(shì)在于,由于本方法選擇的離散特征變量集合在一定程度上反映了待測(cè)組分的特征信息,采用離散特征變量集合進(jìn)行線性、非線性建模有望克服光譜數(shù)據(jù)中的共線性,進(jìn)而獲得模型預(yù)測(cè)效果的提高;以線性回歸模型為基礎(chǔ),能夠大大減低光譜建模的復(fù)雜度,計(jì)算自由度大幅度提升。且本發(fā)明方法計(jì)算量少、模型簡(jiǎn)便、遴選自由度大、定標(biāo)效果好,可為小型專用分析儀器中分光系統(tǒng)的設(shè)計(jì)提出有效的解決方案,適用于拉曼(raman)、近紅外(nir)、中紅外(mir)、紫外(uv)等光譜分析領(lǐng)域,已經(jīng)在土壤總氮的ft-nir分析、柚子皮果膠的ft-ir分析、魚粉蛋白的nir分析中得到驗(yàn)證。本發(fā)明方法能夠?yàn)楣庾V分析模型的變量篩選優(yōu)化過(guò)程提高效率。結(jié)合待測(cè)目標(biāo)成分的參考濃度值進(jìn)行建模預(yù)測(cè),通過(guò)比較校正集樣本和預(yù)測(cè)集樣本的內(nèi)部相關(guān)系數(shù),保證快速匹配優(yōu)選的離散特征變量集合對(duì)光譜分析模型具有足夠大的貢獻(xiàn)率。應(yīng)用此方法可以為指定待測(cè)對(duì)象快速優(yōu)選出合適的離散特征波長(zhǎng)組合。在這個(gè)意義下,本發(fā)明提出的smcve方法為光譜分析建模優(yōu)化提供了快速實(shí)現(xiàn)的可能性,并且技術(shù)方法簡(jiǎn)單,容易操作;該方法適用于紅外、紫外、拉曼等光譜分析的數(shù)據(jù)建模優(yōu)化及模型驗(yàn)證系統(tǒng),為優(yōu)選連續(xù)波段、離散波長(zhǎng)組合,以及原光譜、導(dǎo)數(shù)光譜的峰值優(yōu)選等模型優(yōu)化的快速實(shí)現(xiàn)提供了理論上和技術(shù)上的支撐。附圖說(shuō)明圖1為本發(fā)明實(shí)施例中基于指標(biāo)極值的光譜特征變量快速匹配方法的工作流程圖,該圖以兩個(gè)一元特征變量為例,表示了smcve方法選最佳匹配變量的過(guò)程。圖2為本發(fā)明實(shí)施例中根據(jù)指標(biāo)極值(預(yù)測(cè)均方根誤差曲線的波峰和波谷)挑選一元特征變量的圖示。圖3為本發(fā)明實(shí)施例中一元特征變量對(duì)應(yīng)尋找最佳匹配變量的圖示。圖中:全譜段范圍是10000-4000cm-1,包含了可見(jiàn)光和近紅外譜段,以每一個(gè)變量(波長(zhǎng)點(diǎn))的光譜數(shù)據(jù)結(jié)合樣本的參考濃度值建立一元回歸模型,根據(jù)預(yù)測(cè)結(jié)果繪制均方根誤差曲線,并找到曲線的峰值和谷值,進(jìn)一步利用二元校正模型尋找每一個(gè)一元特征變量的最佳匹配變量,依此,校正模型始終以尋找特征變量為目標(biāo),在一定程度上保證所挑選的特征變量較高的模型貢獻(xiàn)度。具體實(shí)施方式以下實(shí)施例將對(duì)本發(fā)明予以進(jìn)一步的說(shuō)明,但并不因此而限制本發(fā)明。實(shí)施例:以土壤總氮的近紅外分析為例,共有135個(gè)土壤樣品,每個(gè)樣品通過(guò)光譜實(shí)驗(yàn)測(cè)量得到1512個(gè)波長(zhǎng)變量的光譜值,將樣品劃分為校正集和預(yù)測(cè)集,采用本發(fā)明的smcve方法定量檢測(cè)土壤樣品中的總氮含量,本案例選擇使用預(yù)測(cè)均方根偏差(rmsep)曲線的極值作為尋找特征變量的目標(biāo),具體步驟為:步驟一,對(duì)光譜的全部變量集合(全譜波長(zhǎng)集合)中的每一個(gè)變量(波長(zhǎng)點(diǎn))建立一元線性回歸模型,所得每個(gè)波長(zhǎng)的一元回歸模型的rmsep曲線如圖2所示;步驟二,從圖2中挑選rmsep曲線的波峰和波谷,針對(duì)土壤總氮含量定量檢測(cè),確定18個(gè)一元特征變量;步驟三,以18個(gè)一元特征變量作為基本變量,在全譜波長(zhǎng)集合中逐個(gè)尋找其對(duì)應(yīng)的最佳匹配變量(如圖3所示);步驟四,將18個(gè)一元特征變量和18個(gè)最佳匹配變量組合,去除重復(fù)變量,形成離散特征變量集合,共包含32個(gè)特征變量。利用32個(gè)離散特征變量的光譜數(shù)據(jù)作為建模自變量,結(jié)合常規(guī)化學(xué)檢測(cè)的土壤總氮濃度值,建立光譜校正模型,校正方法采用經(jīng)典的偏最小二乘法(pls),所得預(yù)測(cè)結(jié)果和基于全譜段光譜數(shù)據(jù)的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,結(jié)果見(jiàn)表1。結(jié)果表明,采用本發(fā)明的基于指標(biāo)極值的光譜特征變量快速匹配(smcve)方法進(jìn)行校正模型變量篩選,可以找到光譜的特征信息,有效地實(shí)現(xiàn)模型降維,降低計(jì)算復(fù)雜度,同時(shí)能夠提高模型的預(yù)測(cè)結(jié)果,總體改善近紅外的檢測(cè)能力。表1基于smcve方法篩選變量建模和基于全譜數(shù)據(jù)建模的預(yù)測(cè)結(jié)果對(duì)比變量個(gè)數(shù)預(yù)測(cè)均方根誤差(rmsep)預(yù)測(cè)相關(guān)系數(shù)(rp)基于離散特征變量集合的pls模型320.01400.923基于全譜段光譜數(shù)據(jù)的pls模型15120.01940.862當(dāng)前第1頁(yè)12