專利名稱:基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種近紅外光譜的特征波長(zhǎng)篩選方法,特指用于食品和農(nóng)產(chǎn)品品質(zhì)檢測(cè)的基于遺傳核偏最小二乘法的特征波長(zhǎng)篩選方法。
背景技術(shù):
近紅外光譜(OTR,Near Infrared Spectroscopy)分析技術(shù)作為一種快速、無(wú)損、 準(zhǔn)確、多組分同時(shí)檢測(cè)的綠色分析技術(shù),已廣泛應(yīng)用于食品和農(nóng)產(chǎn)品品質(zhì)檢測(cè)中。借助先進(jìn)的近紅外光譜儀器,可以方便地在短時(shí)間內(nèi)獲得大量的光譜數(shù)據(jù)。但由于光譜儀器所采集到的數(shù)據(jù)除樣品自身的信息外,還包含了大量無(wú)關(guān)和噪音信息,這些信息很難在光譜預(yù)處理中全部消除。如果這些數(shù)據(jù)都參與模型的建立,不但計(jì)算量大、模型復(fù)雜,且會(huì)影響模型的預(yù)測(cè)精度。另外,由于大多待測(cè)樣本的待測(cè)組分是非常復(fù)雜的天然成分,再加上近紅外光譜區(qū)域的譜帶復(fù)雜、重疊多,會(huì)導(dǎo)致所采集的光譜數(shù)據(jù)與待測(cè)組分濃度實(shí)測(cè)值之間呈現(xiàn)較為復(fù)雜的非線性映射關(guān)系。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足,提供一種計(jì)算量小、模型簡(jiǎn)單且預(yù)測(cè)精度高的基于遺傳核偏最小二乘(GA-KPLS, Genetic Algorithm-Kernel Partial Least Squares)法的近紅外光譜特征波長(zhǎng)篩選方法。所述的基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法的技術(shù)方案包括以下步驟
1)利用傅里葉變換近紅外光譜儀采集待測(cè)樣本的光譜,得到待測(cè)樣本的原始近紅外光譜數(shù)據(jù),并運(yùn)用光譜預(yù)處理算法對(duì)原始近紅外光譜數(shù)據(jù)進(jìn)行預(yù)處理;利用理化分析方法測(cè)定所有待測(cè)樣本的待測(cè)組分濃度值,并根據(jù)待測(cè)組分濃度值劃分樣本的校正集和預(yù)測(cè)集,
2)利用遺傳算法(GA,GeneticAlgorithm)對(duì)預(yù)處理后的校正集光譜數(shù)據(jù)點(diǎn)進(jìn)行全局搜索,依據(jù)核偏最小二乘(KPLS,Kernel Partial Least Squares)法交互驗(yàn)證過(guò)程中最小的交互驗(yàn)證均方根誤差(RMSECV, Root Mean Square Error of Cross-Validation)值確定出最終參與建模的特征變量數(shù),并將篩選出來(lái)的特征變量重新組成新的數(shù)據(jù)矩陣,作為KPLS模型的輸入;
3)將測(cè)得的校正集樣本待測(cè)組分濃度矩陣作為KPLS模型的標(biāo)準(zhǔn)輸出,建立最佳 GA-KPLS校正分析模型;并利用該模型對(duì)預(yù)測(cè)集樣本待測(cè)組分濃度值進(jìn)行預(yù)測(cè)。由于本發(fā)明采用以上技術(shù)方案,得到的有益效果是本發(fā)明在建模之前通過(guò)引入遺傳算法,利用GA具有全局快速搜索的特點(diǎn),并將GA和KPLS方法進(jìn)行結(jié)合,發(fā)揮各自的優(yōu)勢(shì),以建立預(yù)測(cè)性能高、泛化能力強(qiáng)的更加穩(wěn)定、簡(jiǎn)便的校正分析模型。該方法通過(guò)篩選特征波長(zhǎng)減少建模運(yùn)算時(shí)間,剔除大量噪聲和冗余變量,使最終建立的農(nóng)產(chǎn)品和食品品質(zhì)檢測(cè)近紅外光譜模型的預(yù)測(cè)性能和精度更高。
圖1為本發(fā)明方法的流程示意圖; 圖2為梨樣本的原始光譜圖3為RMSECV值隨建模所用變量數(shù)增加而變化的趨勢(shì)圖4為梨的可溶性固形物含量SSC的GA-KPLS模型校正集和預(yù)測(cè)集樣本的實(shí)測(cè)值與近紅外光譜NIR預(yù)測(cè)值之間的散點(diǎn)圖。
具體實(shí)施例方式參見(jiàn)圖1,本發(fā)明按如下步驟實(shí)現(xiàn)
1)利用傅里葉變換近紅外光譜儀采集所有待測(cè)樣本的近紅外光譜數(shù)據(jù),得到待測(cè)樣本的原始近紅外光譜數(shù)據(jù),并對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,以消除光譜偏移或基線變化等因素對(duì)所建模型性能的影響,保證光譜數(shù)據(jù)和待測(cè)樣品品質(zhì)指標(biāo)之間有較好的相關(guān)性。目前常用的光譜預(yù)處理方法有標(biāo)準(zhǔn)正態(tài)變量變換、均值中心化、一階導(dǎo)數(shù)和二階導(dǎo)數(shù)等。然后,利用理化分析方法測(cè)定所有待測(cè)樣本的待測(cè)組分濃度值,并根據(jù)待測(cè)組分濃度值,對(duì)經(jīng)過(guò)預(yù)處理后的原始近紅外光譜數(shù)據(jù)合理地劃分樣本的校正集和預(yù)測(cè)集,確保預(yù)測(cè)集樣本的待測(cè)組分濃度值盡量落在校正集樣本的范圍內(nèi),且校正集和預(yù)測(cè)集樣本的統(tǒng)計(jì)分布盡可能的一致,即兩個(gè)樣本集的均值和方差基本相同,以提高校正模型對(duì)預(yù)測(cè)集樣本預(yù)測(cè)結(jié)果的可信程度。2)利用遺傳算法(GA)對(duì)預(yù)處理后的校正集光譜數(shù)據(jù)點(diǎn)進(jìn)行全局搜索時(shí),首先將核偏最小二乘(KPLS)方法交互驗(yàn)證過(guò)程中的最小的交互驗(yàn)證均方根誤差(RMSECV)作為遺傳算法的適應(yīng)度函數(shù);然后運(yùn)用遺傳算法進(jìn)行KPLS模型建立過(guò)程中的特征波長(zhǎng)的篩選。本發(fā)明是以遺傳迭代次數(shù)達(dá)到初始設(shè)定值為收斂終止條件,迭代終止后,所有特征變量按選用頻數(shù)的高低重新排列,再逐一加入到KPLS模型中,以建模所選用的特征變量數(shù)與RMSECV 值作圖,依據(jù)最小的RMSECV值確定出最終參與建模的特征變量數(shù),并將篩選出來(lái)的參與最終模型建立的特征變量重新組成新的數(shù)據(jù)矩陣,作為KPLS模型的輸入,用KPLS算法來(lái)建立最終的非線性校正分析模型。上述利用GA來(lái)篩選KPLS非線性模型建立所需的最佳特征波長(zhǎng),在利用GA來(lái)選擇最佳特征波長(zhǎng)前先需確定如下參數(shù)
ι遺傳編碼對(duì)采集的近紅外光譜數(shù)據(jù)的所有波長(zhǎng)進(jìn)行編碼,即把每一個(gè)波長(zhǎng)作為一個(gè)基因,然后對(duì)每一個(gè)基因(波長(zhǎng))進(jìn)行0/1 二進(jìn)制編碼。②群體初始化群體的大小即個(gè)體(染色體)的數(shù)目是根據(jù)波長(zhǎng)(基因)的多少來(lái)選定,一般為30 100,限定條件為個(gè)體選定的最大變量數(shù)目。③適應(yīng)度函數(shù)在特征變量篩選過(guò)程中,對(duì)模型的預(yù)測(cè)能力常采用交互驗(yàn)證法來(lái)評(píng)價(jià)。因此,本發(fā)明采用交互驗(yàn)證過(guò)程中的RMSECV作為適應(yīng)度函數(shù),定義為1/(1+題5£^7)。Φ遺傳操作選擇的目的是把優(yōu)勝的個(gè)體直接遺傳到下一代或通過(guò)交叉或變異產(chǎn)生新的個(gè)體在遺傳到下一代,本發(fā)明選用適應(yīng)度比例方法,即每個(gè)個(gè)體的選擇概率與其適應(yīng)度成比例;交叉是GA中最主要的算子,尋優(yōu)的搜索過(guò)程主要是通過(guò)它來(lái)實(shí)現(xiàn),取值范圍通常為0. 5 0. 99 ;變異算子的目的是為了保持群體的多樣性,防止出現(xiàn)未成熟收斂現(xiàn)象,取值范圍一般為0.01 0. 1。⑤收斂判據(jù)以遺傳迭代次數(shù)為收斂終止的條件,取值范圍一般為100 1000。上述利用KPLS算法來(lái)建立最終的非線性校正分析模型,在KPLS模型建立前先需確定的參數(shù)如下
①核函數(shù)一般選用徑向基核函數(shù)(RBF,Radial Basis Function)。②核參數(shù)核參數(shù)c通常根據(jù)公式c二rm σ 2進(jìn)行選擇,其中r是由所預(yù)測(cè)的變量
過(guò)程決定的常數(shù),m是輸入變量的數(shù)據(jù)維數(shù),σ 2為數(shù)據(jù)的方差,核參數(shù)c 一般取值范圍為 0. 01 6。3)將測(cè)得的校正集樣本待測(cè)組分濃度矩陣作為KPLS模型的標(biāo)準(zhǔn)輸出,并利用 KPLS算法來(lái)對(duì)重組后的特征變量進(jìn)行校正分析模型的建立,KPLS的應(yīng)用能夠解決待測(cè)樣本的某些待測(cè)組分和近紅外光譜數(shù)據(jù)之間的非線性關(guān)系,且此時(shí)所獲得的校正分析模型即為全局最佳模型。通過(guò)運(yùn)用本發(fā)明的方法來(lái)建立模型,可以較好地解決模型輸入與輸出之間存在的非線性映射關(guān)系,并通過(guò)剔除大量不相關(guān)和冗余變量,以得到預(yù)測(cè)能力強(qiáng)、穩(wěn)健性好的非線性校正分析模型。最后利用建立的最優(yōu)GA-KPLS模型來(lái)對(duì)預(yù)測(cè)集樣本待測(cè)組分濃度值進(jìn)行預(yù)測(cè),該模型的輸出即為預(yù)測(cè)集樣本OTR光譜所對(duì)應(yīng)的待測(cè)組分濃度的預(yù)測(cè)值。 對(duì)于最終建立的校正分析模型,以預(yù)測(cè)集的實(shí)測(cè)組分濃度值和近紅外光譜預(yù)測(cè)值的相關(guān)系數(shù)a, Correlation Coefficient)和預(yù)測(cè)均方根誤差(RMSEP, Root Mean Square Error of Prediction)作為最終模型評(píng)價(jià)的有效指標(biāo)。以下以梨為例,提供本發(fā)明的一個(gè)實(shí)施例
圖ι所示為本發(fā)明處理過(guò)程的示意圖,圖2所示為所采集的90個(gè)梨樣本原始近紅外光譜圖,光譜波數(shù)范圍為9999. 10^3999. 64cm 1,掃描次數(shù)為16次,分辨率為ScnT1,每條光譜包括1557個(gè)數(shù)據(jù)點(diǎn)。在校正集和預(yù)測(cè)集樣本的劃分過(guò)程中,首先將所有樣本按照待測(cè)組分濃度值的大小從大到小排列,每3個(gè)樣本中選取2個(gè)進(jìn)入校正集,1個(gè)進(jìn)入預(yù)測(cè)集。這樣做的目的是為了確保預(yù)測(cè)集樣本的待測(cè)組分濃度值盡量落在校正集樣本的范圍內(nèi),且校正集和預(yù)測(cè)集樣本的統(tǒng)計(jì)分布盡可能的一致(即兩個(gè)樣本集的均值和方差基本相同),以提高校正模型對(duì)預(yù)測(cè)集樣本預(yù)測(cè)結(jié)果的可信程度。最終,校正集包含60個(gè)梨的近紅外光譜數(shù)據(jù),預(yù)測(cè)集包含30個(gè)梨的近紅外光譜數(shù)據(jù)。利用GA對(duì)校正集中光譜數(shù)據(jù)點(diǎn)進(jìn)行全局搜索。初始群體大小設(shè)置為30,交叉概率&=0.5,變異概率&=0. 01,遺傳迭代次數(shù)設(shè)置為100。迭代終止后,將按選用頻數(shù)重新排列的變量依據(jù)頻數(shù)的高低順序逐一加入KPLS校正模型中,其中,KPLS模型的核函數(shù)選用徑向基核函數(shù),其中核參數(shù)c在模型建立過(guò)程中通過(guò)優(yōu)化最終取0.6;再由選用的變量數(shù)與 RMSECV值作圖確定出模型最佳變量數(shù),以得到最終參與建模的變量。圖3所示為梨的可溶性固形物含量(Soluble Solid Content, SSC)的GA-KPLS模型建立過(guò)程中RMSECV值隨建模所用變量數(shù)的增加而變化的趨勢(shì)圖。由圖3可以看出,在GA優(yōu)化參與KPLS建模變量個(gè)數(shù)過(guò)程中,當(dāng)入選的變量個(gè)數(shù)為 39時(shí),可獲得最低的RMSECV值,為0. 2265,將所選用的變量重新組成新的數(shù)據(jù)矩陣,再次運(yùn)用KPLS建立梨的SSC的校正分析模型,此時(shí)所獲得的校正分析模型即為全局最佳模型。最終建立梨的SSC的GA-KPLS校正模型主成份因子數(shù)為12個(gè),參與建模的變量數(shù)為39個(gè),其校正集(Re)和預(yù)測(cè)集(Rp)相關(guān)系數(shù)分別為0. 9632和0. 9549,RMSECV和REMSP分別為 0. 2570和0. 3044,此模型校正集和預(yù)測(cè)集各樣本實(shí)測(cè)值和NIR預(yù)測(cè)值之間的散點(diǎn)圖如圖4 所示,從圖中可以看出,無(wú)論在校正集還是預(yù)測(cè)集,OTR預(yù)測(cè)值和實(shí)測(cè)參考值之間都有很好的相關(guān)性。
權(quán)利要求
1.一種基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法,其特征在于,包括以下步驟1)采集所有待測(cè)樣本的近紅外光譜數(shù)據(jù),并對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理;然后利用理化分析方法測(cè)定所有待測(cè)樣本的待測(cè)組分濃度值,并根據(jù)待測(cè)組分濃度值劃分樣本的校正集和預(yù)測(cè)集;2)利用遺傳算法GA對(duì)預(yù)處理后的校正集光譜數(shù)據(jù)點(diǎn)進(jìn)行全局搜索,依據(jù)核偏最小二乘法KPLS交互驗(yàn)證過(guò)程中最小的交互驗(yàn)證均方根誤差RMSECV值確定出最終參與建模的特征變量數(shù),并將遺傳算法GA篩選出來(lái)的特征變量重新組成新的數(shù)據(jù)矩陣,作為KPLS模型的輸入;3)將測(cè)得的校正集樣本待測(cè)組分濃度矩陣作為KPLS模型的標(biāo)準(zhǔn)輸出,建立最佳 GA-KPLS校正分析模型,并利用該模型對(duì)預(yù)測(cè)集樣本待測(cè)組分濃度值進(jìn)行預(yù)測(cè)。
2.根據(jù)權(quán)利要求1所述的基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法, 其特征是,步驟幻中,采用遺傳算法GA來(lái)篩選建模所需的特征變量前需確定如下參數(shù)遺傳編碼將每一個(gè)波長(zhǎng)作為一個(gè)基因,對(duì)每一個(gè)基因進(jìn)行0/1 二進(jìn)制編碼;群體初始化群體的大小是30 100 ;適應(yīng)度函數(shù)交互驗(yàn)證過(guò)程中的RMSECV作為適應(yīng)度函數(shù)為1/ (1+RMSECV);遺傳操作每個(gè)個(gè)體的選擇概率與其適應(yīng)度成比例,交叉算子取值為0. 5 0. 99,變異算子取值為0.01 0. 1 ;收斂判據(jù)遺傳迭代次數(shù)取值范圍為100 1000。
3.根據(jù)權(quán)利要求1所述的基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法, 其特征是,步驟幻中核偏最小二乘算法KPLS執(zhí)行前需確定的參數(shù)如下核函數(shù)選用徑向基核函數(shù);核參數(shù)根據(jù)公式c二rm σ 2選擇核參數(shù)c,其中r是由所預(yù)測(cè)的變量過(guò)程決定的常數(shù), 是輸入變量的數(shù)據(jù)維數(shù),σ 2為數(shù)據(jù)的方差,核參數(shù)c取值范圍為0. 01 6。
全文摘要
本發(fā)明公開(kāi)一種用于食品和農(nóng)產(chǎn)品品質(zhì)檢測(cè)的基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法,利用理化分析方法測(cè)定所有待測(cè)樣本的待測(cè)組分濃度值后劃分樣本的校正集和預(yù)測(cè)集;利用遺傳算法對(duì)預(yù)處理后的校正集光譜數(shù)據(jù)點(diǎn)進(jìn)行全局搜索,依據(jù)核偏最小二乘法交互驗(yàn)證過(guò)程中最小的交互驗(yàn)證均方根誤差值確定出最終參與建模的特征變量數(shù),并將遺傳算法篩選出來(lái)的特征變量重新組成新的數(shù)據(jù)矩陣作為模型的輸入;將測(cè)得的校正集樣本待測(cè)組分濃度矩陣作為模型的標(biāo)準(zhǔn)輸出,建立最佳校正分析模型,利用該模型對(duì)預(yù)測(cè)集樣本待測(cè)組分濃度值進(jìn)行預(yù)測(cè);通過(guò)篩選特征波長(zhǎng)減少建模運(yùn)算時(shí)間,剔除大量噪聲和冗余變量,使最終建立的模型預(yù)測(cè)性能和精度更高。
文檔編號(hào)G01N21/35GK102305772SQ201110215259
公開(kāi)日2012年1月4日 申請(qǐng)日期2011年7月29日 優(yōu)先權(quán)日2011年7月29日
發(fā)明者朱偉興, 李新城, 江輝 申請(qǐng)人:江蘇大學(xué)