基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法

文檔序號(hào)：6014954閱讀：300來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>測(cè)量裝置的制造及其應(yīng)用技術(shù)

專利名稱：基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種近紅外光譜的特征波長(zhǎng)篩選方法，特指用于食品和農(nóng)產(chǎn)品品質(zhì)檢測(cè)的基于遺傳核偏最小二乘法的特征波長(zhǎng)篩選方法。
背景技術(shù)：
近紅外光譜(OTR，Near Infrared Spectroscopy)分析技術(shù)作為一種快速、無(wú)損、準(zhǔn)確、多組分同時(shí)檢測(cè)的綠色分析技術(shù)，已廣泛應(yīng)用于食品和農(nóng)產(chǎn)品品質(zhì)檢測(cè)中。借助先進(jìn)的近紅外光譜儀器，可以方便地在短時(shí)間內(nèi)獲得大量的光譜數(shù)據(jù)。但由于光譜儀器所采集到的數(shù)據(jù)除樣品自身的信息外，還包含了大量無(wú)關(guān)和噪音信息，這些信息很難在光譜預(yù)處理中全部消除。如果這些數(shù)據(jù)都參與模型的建立，不但計(jì)算量大、模型復(fù)雜，且會(huì)影響模型的預(yù)測(cè)精度。另外，由于大多待測(cè)樣本的待測(cè)組分是非常復(fù)雜的天然成分，再加上近紅外光譜區(qū)域的譜帶復(fù)雜、重疊多，會(huì)導(dǎo)致所采集的光譜數(shù)據(jù)與待測(cè)組分濃度實(shí)測(cè)值之間呈現(xiàn)較為復(fù)雜的非線性映射關(guān)系。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足，提供一種計(jì)算量小、模型簡(jiǎn)單且預(yù)測(cè)精度高的基于遺傳核偏最小二乘(GA-KPLS, Genetic Algorithm-Kernel Partial Least Squares)法的近紅外光譜特征波長(zhǎng)篩選方法。所述的基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法的技術(shù)方案包括以下步驟
1)利用傅里葉變換近紅外光譜儀采集待測(cè)樣本的光譜，得到待測(cè)樣本的原始近紅外光譜數(shù)據(jù)，并運(yùn)用光譜預(yù)處理算法對(duì)原始近紅外光譜數(shù)據(jù)進(jìn)行預(yù)處理；利用理化分析方法測(cè)定所有待測(cè)樣本的待測(cè)組分濃度值，并根據(jù)待測(cè)組分濃度值劃分樣本的校正集和預(yù)測(cè)集，
2)利用遺傳算法(GA，GeneticAlgorithm)對(duì)預(yù)處理后的校正集光譜數(shù)據(jù)點(diǎn)進(jìn)行全局搜索，依據(jù)核偏最小二乘(KPLS，Kernel Partial Least Squares)法交互驗(yàn)證過(guò)程中最小的交互驗(yàn)證均方根誤差(RMSECV, Root Mean Square Error of Cross-Validation)值確定出最終參與建模的特征變量數(shù)，并將篩選出來(lái)的特征變量重新組成新的數(shù)據(jù)矩陣，作為KPLS模型的輸入；
3)將測(cè)得的校正集樣本待測(cè)組分濃度矩陣作為KPLS模型的標(biāo)準(zhǔn)輸出，建立最佳 GA-KPLS校正分析模型；并利用該模型對(duì)預(yù)測(cè)集樣本待測(cè)組分濃度值進(jìn)行預(yù)測(cè)。由于本發(fā)明采用以上技術(shù)方案，得到的有益效果是本發(fā)明在建模之前通過(guò)引入遺傳算法，利用GA具有全局快速搜索的特點(diǎn)，并將GA和KPLS方法進(jìn)行結(jié)合，發(fā)揮各自的優(yōu)勢(shì)，以建立預(yù)測(cè)性能高、泛化能力強(qiáng)的更加穩(wěn)定、簡(jiǎn)便的校正分析模型。該方法通過(guò)篩選特征波長(zhǎng)減少建模運(yùn)算時(shí)間，剔除大量噪聲和冗余變量，使最終建立的農(nóng)產(chǎn)品和食品品質(zhì)檢測(cè)近紅外光譜模型的預(yù)測(cè)性能和精度更高。

圖1為本發(fā)明方法的流程示意圖；圖2為梨樣本的原始光譜圖3為RMSECV值隨建模所用變量數(shù)增加而變化的趨勢(shì)圖4為梨的可溶性固形物含量SSC的GA-KPLS模型校正集和預(yù)測(cè)集樣本的實(shí)測(cè)值與近紅外光譜NIR預(yù)測(cè)值之間的散點(diǎn)圖。
具體實(shí)施例方式參見(jiàn)圖1，本發(fā)明按如下步驟實(shí)現(xiàn)
1)利用傅里葉變換近紅外光譜儀采集所有待測(cè)樣本的近紅外光譜數(shù)據(jù)，得到待測(cè)樣本的原始近紅外光譜數(shù)據(jù)，并對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理，以消除光譜偏移或基線變化等因素對(duì)所建模型性能的影響，保證光譜數(shù)據(jù)和待測(cè)樣品品質(zhì)指標(biāo)之間有較好的相關(guān)性。目前常用的光譜預(yù)處理方法有標(biāo)準(zhǔn)正態(tài)變量變換、均值中心化、一階導(dǎo)數(shù)和二階導(dǎo)數(shù)等。然后，利用理化分析方法測(cè)定所有待測(cè)樣本的待測(cè)組分濃度值，并根據(jù)待測(cè)組分濃度值，對(duì)經(jīng)過(guò)預(yù)處理后的原始近紅外光譜數(shù)據(jù)合理地劃分樣本的校正集和預(yù)測(cè)集，確保預(yù)測(cè)集樣本的待測(cè)組分濃度值盡量落在校正集樣本的范圍內(nèi)，且校正集和預(yù)測(cè)集樣本的統(tǒng)計(jì)分布盡可能的一致，即兩個(gè)樣本集的均值和方差基本相同，以提高校正模型對(duì)預(yù)測(cè)集樣本預(yù)測(cè)結(jié)果的可信程度。2)利用遺傳算法(GA)對(duì)預(yù)處理后的校正集光譜數(shù)據(jù)點(diǎn)進(jìn)行全局搜索時(shí)，首先將核偏最小二乘(KPLS)方法交互驗(yàn)證過(guò)程中的最小的交互驗(yàn)證均方根誤差(RMSECV)作為遺傳算法的適應(yīng)度函數(shù)；然后運(yùn)用遺傳算法進(jìn)行KPLS模型建立過(guò)程中的特征波長(zhǎng)的篩選。本發(fā)明是以遺傳迭代次數(shù)達(dá)到初始設(shè)定值為收斂終止條件，迭代終止后，所有特征變量按選用頻數(shù)的高低重新排列，再逐一加入到KPLS模型中，以建模所選用的特征變量數(shù)與RMSECV 值作圖，依據(jù)最小的RMSECV值確定出最終參與建模的特征變量數(shù)，并將篩選出來(lái)的參與最終模型建立的特征變量重新組成新的數(shù)據(jù)矩陣，作為KPLS模型的輸入，用KPLS算法來(lái)建立最終的非線性校正分析模型。上述利用GA來(lái)篩選KPLS非線性模型建立所需的最佳特征波長(zhǎng)，在利用GA來(lái)選擇最佳特征波長(zhǎng)前先需確定如下參數(shù)
ι遺傳編碼對(duì)采集的近紅外光譜數(shù)據(jù)的所有波長(zhǎng)進(jìn)行編碼，即把每一個(gè)波長(zhǎng)作為一個(gè)基因，然后對(duì)每一個(gè)基因(波長(zhǎng))進(jìn)行0/1 二進(jìn)制編碼。②群體初始化群體的大小即個(gè)體(染色體)的數(shù)目是根據(jù)波長(zhǎng)(基因)的多少來(lái)選定，一般為30 100，限定條件為個(gè)體選定的最大變量數(shù)目。③適應(yīng)度函數(shù)在特征變量篩選過(guò)程中，對(duì)模型的預(yù)測(cè)能力常采用交互驗(yàn)證法來(lái)評(píng)價(jià)。因此，本發(fā)明采用交互驗(yàn)證過(guò)程中的RMSECV作為適應(yīng)度函數(shù)，定義為1/(1+題5￡^7)。Φ遺傳操作選擇的目的是把優(yōu)勝的個(gè)體直接遺傳到下一代或通過(guò)交叉或變異產(chǎn)生新的個(gè)體在遺傳到下一代，本發(fā)明選用適應(yīng)度比例方法，即每個(gè)個(gè)體的選擇概率與其適應(yīng)度成比例；交叉是GA中最主要的算子，尋優(yōu)的搜索過(guò)程主要是通過(guò)它來(lái)實(shí)現(xiàn)，取值范圍通常為0. 5 0. 99 ；變異算子的目的是為了保持群體的多樣性，防止出現(xiàn)未成熟收斂現(xiàn)象，取值范圍一般為0.01 0. 1。⑤收斂判據(jù)以遺傳迭代次數(shù)為收斂終止的條件，取值范圍一般為100 1000。上述利用KPLS算法來(lái)建立最終的非線性校正分析模型，在KPLS模型建立前先需確定的參數(shù)如下
①核函數(shù)一般選用徑向基核函數(shù)(RBF，Radial Basis Function)。②核參數(shù)核參數(shù)c通常根據(jù)公式c二rm σ 2進(jìn)行選擇，其中r是由所預(yù)測(cè)的變量
過(guò)程決定的常數(shù)，m是輸入變量的數(shù)據(jù)維數(shù)，σ 2為數(shù)據(jù)的方差，核參數(shù)c 一般取值范圍為 0. 01 6。3)將測(cè)得的校正集樣本待測(cè)組分濃度矩陣作為KPLS模型的標(biāo)準(zhǔn)輸出，并利用 KPLS算法來(lái)對(duì)重組后的特征變量進(jìn)行校正分析模型的建立，KPLS的應(yīng)用能夠解決待測(cè)樣本的某些待測(cè)組分和近紅外光譜數(shù)據(jù)之間的非線性關(guān)系，且此時(shí)所獲得的校正分析模型即為全局最佳模型。通過(guò)運(yùn)用本發(fā)明的方法來(lái)建立模型，可以較好地解決模型輸入與輸出之間存在的非線性映射關(guān)系，并通過(guò)剔除大量不相關(guān)和冗余變量，以得到預(yù)測(cè)能力強(qiáng)、穩(wěn)健性好的非線性校正分析模型。最后利用建立的最優(yōu)GA-KPLS模型來(lái)對(duì)預(yù)測(cè)集樣本待測(cè)組分濃度值進(jìn)行預(yù)測(cè)，該模型的輸出即為預(yù)測(cè)集樣本OTR光譜所對(duì)應(yīng)的待測(cè)組分濃度的預(yù)測(cè)值。對(duì)于最終建立的校正分析模型，以預(yù)測(cè)集的實(shí)測(cè)組分濃度值和近紅外光譜預(yù)測(cè)值的相關(guān)系數(shù)a, Correlation Coefficient)和預(yù)測(cè)均方根誤差(RMSEP, Root Mean Square Error of Prediction)作為最終模型評(píng)價(jià)的有效指標(biāo)。以下以梨為例，提供本發(fā)明的一個(gè)實(shí)施例
圖ι所示為本發(fā)明處理過(guò)程的示意圖，圖2所示為所采集的90個(gè)梨樣本原始近紅外光譜圖，光譜波數(shù)范圍為9999. 10^3999. 64cm 1，掃描次數(shù)為16次，分辨率為ScnT1，每條光譜包括1557個(gè)數(shù)據(jù)點(diǎn)。在校正集和預(yù)測(cè)集樣本的劃分過(guò)程中，首先將所有樣本按照待測(cè)組分濃度值的大小從大到小排列，每3個(gè)樣本中選取2個(gè)進(jìn)入校正集，1個(gè)進(jìn)入預(yù)測(cè)集。這樣做的目的是為了確保預(yù)測(cè)集樣本的待測(cè)組分濃度值盡量落在校正集樣本的范圍內(nèi)，且校正集和預(yù)測(cè)集樣本的統(tǒng)計(jì)分布盡可能的一致(即兩個(gè)樣本集的均值和方差基本相同)，以提高校正模型對(duì)預(yù)測(cè)集樣本預(yù)測(cè)結(jié)果的可信程度。最終，校正集包含60個(gè)梨的近紅外光譜數(shù)據(jù)，預(yù)測(cè)集包含30個(gè)梨的近紅外光譜數(shù)據(jù)。利用GA對(duì)校正集中光譜數(shù)據(jù)點(diǎn)進(jìn)行全局搜索。初始群體大小設(shè)置為30，交叉概率&=0.5，變異概率&=0. 01，遺傳迭代次數(shù)設(shè)置為100。迭代終止后，將按選用頻數(shù)重新排列的變量依據(jù)頻數(shù)的高低順序逐一加入KPLS校正模型中，其中，KPLS模型的核函數(shù)選用徑向基核函數(shù)，其中核參數(shù)c在模型建立過(guò)程中通過(guò)優(yōu)化最終取0.6;再由選用的變量數(shù)與 RMSECV值作圖確定出模型最佳變量數(shù)，以得到最終參與建模的變量。圖3所示為梨的可溶性固形物含量(Soluble Solid Content, SSC)的GA-KPLS模型建立過(guò)程中RMSECV值隨建模所用變量數(shù)的增加而變化的趨勢(shì)圖。由圖3可以看出，在GA優(yōu)化參與KPLS建模變量個(gè)數(shù)過(guò)程中，當(dāng)入選的變量個(gè)數(shù)為 39時(shí)，可獲得最低的RMSECV值，為0. 2265，將所選用的變量重新組成新的數(shù)據(jù)矩陣，再次運(yùn)用KPLS建立梨的SSC的校正分析模型，此時(shí)所獲得的校正分析模型即為全局最佳模型。最終建立梨的SSC的GA-KPLS校正模型主成份因子數(shù)為12個(gè)，參與建模的變量數(shù)為39個(gè)，其校正集(Re)和預(yù)測(cè)集(Rp)相關(guān)系數(shù)分別為0. 9632和0. 9549，RMSECV和REMSP分別為 0. 2570和0. 3044，此模型校正集和預(yù)測(cè)集各樣本實(shí)測(cè)值和NIR預(yù)測(cè)值之間的散點(diǎn)圖如圖4 所示，從圖中可以看出，無(wú)論在校正集還是預(yù)測(cè)集，OTR預(yù)測(cè)值和實(shí)測(cè)參考值之間都有很好的相關(guān)性。
權(quán)利要求
1.一種基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法，其特征在于，包括以下步驟1)采集所有待測(cè)樣本的近紅外光譜數(shù)據(jù)，并對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理；然后利用理化分析方法測(cè)定所有待測(cè)樣本的待測(cè)組分濃度值，并根據(jù)待測(cè)組分濃度值劃分樣本的校正集和預(yù)測(cè)集；2)利用遺傳算法GA對(duì)預(yù)處理后的校正集光譜數(shù)據(jù)點(diǎn)進(jìn)行全局搜索，依據(jù)核偏最小二乘法KPLS交互驗(yàn)證過(guò)程中最小的交互驗(yàn)證均方根誤差RMSECV值確定出最終參與建模的特征變量數(shù)，并將遺傳算法GA篩選出來(lái)的特征變量重新組成新的數(shù)據(jù)矩陣，作為KPLS模型的輸入；3)將測(cè)得的校正集樣本待測(cè)組分濃度矩陣作為KPLS模型的標(biāo)準(zhǔn)輸出，建立最佳 GA-KPLS校正分析模型，并利用該模型對(duì)預(yù)測(cè)集樣本待測(cè)組分濃度值進(jìn)行預(yù)測(cè)。
2.根據(jù)權(quán)利要求1所述的基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法，其特征是，步驟幻中，采用遺傳算法GA來(lái)篩選建模所需的特征變量前需確定如下參數(shù)遺傳編碼將每一個(gè)波長(zhǎng)作為一個(gè)基因，對(duì)每一個(gè)基因進(jìn)行0/1 二進(jìn)制編碼；群體初始化群體的大小是30 100 ；適應(yīng)度函數(shù)交互驗(yàn)證過(guò)程中的RMSECV作為適應(yīng)度函數(shù)為1/ (1+RMSECV)；遺傳操作每個(gè)個(gè)體的選擇概率與其適應(yīng)度成比例，交叉算子取值為0. 5 0. 99，變異算子取值為0.01 0. 1 ；收斂判據(jù)遺傳迭代次數(shù)取值范圍為100 1000。
3.根據(jù)權(quán)利要求1所述的基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法，其特征是，步驟幻中核偏最小二乘算法KPLS執(zhí)行前需確定的參數(shù)如下核函數(shù)選用徑向基核函數(shù)；核參數(shù)根據(jù)公式c二rm σ 2選擇核參數(shù)c，其中r是由所預(yù)測(cè)的變量過(guò)程決定的常數(shù)，是輸入變量的數(shù)據(jù)維數(shù)，σ 2為數(shù)據(jù)的方差，核參數(shù)c取值范圍為0. 01 6。
全文摘要
本發(fā)明公開(kāi)一種用于食品和農(nóng)產(chǎn)品品質(zhì)檢測(cè)的基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法，利用理化分析方法測(cè)定所有待測(cè)樣本的待測(cè)組分濃度值后劃分樣本的校正集和預(yù)測(cè)集；利用遺傳算法對(duì)預(yù)處理后的校正集光譜數(shù)據(jù)點(diǎn)進(jìn)行全局搜索，依據(jù)核偏最小二乘法交互驗(yàn)證過(guò)程中最小的交互驗(yàn)證均方根誤差值確定出最終參與建模的特征變量數(shù)，并將遺傳算法篩選出來(lái)的特征變量重新組成新的數(shù)據(jù)矩陣作為模型的輸入；將測(cè)得的校正集樣本待測(cè)組分濃度矩陣作為模型的標(biāo)準(zhǔn)輸出，建立最佳校正分析模型，利用該模型對(duì)預(yù)測(cè)集樣本待測(cè)組分濃度值進(jìn)行預(yù)測(cè)；通過(guò)篩選特征波長(zhǎng)減少建模運(yùn)算時(shí)間，剔除大量噪聲和冗余變量，使最終建立的模型預(yù)測(cè)性能和精度更高。
文檔編號(hào)G01N21/35GK102305772SQ201110215259
公開(kāi)日2012年1月4日申請(qǐng)日期2011年7月29日優(yōu)先權(quán)日2011年7月29日
發(fā)明者朱偉興, 李新城, 江輝申請(qǐng)人:江蘇大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱偉興;江輝;李新城
技術(shù)所有人：江蘇大學(xué)
我是此專利的發(fā)明人

上一篇：鹽分濃度測(cè)定裝置以及鹽分濃度測(cè)定方法
上一篇：磁性應(yīng)力無(wú)損檢測(cè)系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、邢老師：1.機(jī)械設(shè)計(jì)及理論 2.生物醫(yī)學(xué)材料及器械 3.聲發(fā)射檢測(cè)技術(shù)。
2、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
4、張老師：1.機(jī)械設(shè)計(jì)的應(yīng)力分析、強(qiáng)度校核的計(jì)算機(jī)仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

近紅外光譜波長(zhǎng)范圍相關(guān)技術(shù)

近紅外波長(zhǎng)相關(guān)技術(shù)

近紅外波長(zhǎng)范圍相關(guān)技術(shù)

近紅外光波長(zhǎng)相關(guān)技術(shù)

近紅外光波長(zhǎng)范圍相關(guān)技術(shù)

近紅外波段的波長(zhǎng)范圍相關(guān)技術(shù)

近紅外的波長(zhǎng)范圍相關(guān)技術(shù)

光譜波長(zhǎng)分布圖相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于遺傳核偏最小二乘法的近紅外光譜特征波長(zhǎng)篩選方法