一種基于遺傳算法結(jié)合支持向量機的烏龍茶產(chǎn)地判別方法
【專利摘要】本發(fā)明涉及一種基于遺傳算法結(jié)合支持向量機的烏龍茶產(chǎn)地判別方法,包括以下步驟:茶粉樣品的準備;光譜信息的采集;光譜信息的預處理;基于遺傳算法的波長篩選;模型的建立;產(chǎn)地的判別。本發(fā)明為烏龍茶產(chǎn)地判別提供了一種快速、準確的途徑,有利于茶葉市場實現(xiàn)對茶葉品質(zhì)管理的規(guī)范化。
【專利說明】
一種基于遺傳算法結(jié)合支持向量機的烏龍茶產(chǎn)地判別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種基于遺傳算法結(jié)合支持向量機的烏龍茶產(chǎn)地判別方法。
【背景技術(shù)】
[0002] 安溪鐵觀音作為閩南烏龍茶的代表,被列為地理標志保護產(chǎn)品。其產(chǎn)地福建安溪 縣是全國最大的烏龍茶主產(chǎn)區(qū),也是全國茶葉生產(chǎn)標準化示范縣,安溪鐵觀音地域特征明 顯,獨特悠雅的觀音韻倍受青睞。然而,在茶葉原產(chǎn)地產(chǎn)品保護制度建立的過程中,仍存在 假冒產(chǎn)品標識、以次充好的現(xiàn)象,損害消費者利益。為保護地理標志產(chǎn)品的地域特色和品質(zhì) 特征,促進市場公平交易,產(chǎn)地判別與溯源技術(shù)對保護地理標志產(chǎn)品的品質(zhì)真實性及維護 中國茶葉品牌聲譽具有重要意義。
【發(fā)明內(nèi)容】
[0003] 有鑒于此,本發(fā)明的目的在于提供一種基于遺傳算法結(jié)合支持向量機的烏龍茶產(chǎn) 地判別方法,為烏龍茶產(chǎn)地判別提供了一種快速、準確的途徑,有利于茶葉市場實現(xiàn)對茶葉 品質(zhì)管理的規(guī)范化。
[0004] 為實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:一種基于遺傳算法結(jié)合支持向量機 的烏龍茶產(chǎn)地判別方法,其特征在于,包括以下步驟: 步驟Sl:茶粉樣品的準備:收集各個烏龍茶產(chǎn)地的茶葉樣品,將所述茶葉樣品經(jīng)粉碎機 研磨成茶粉,所述茶粉經(jīng)過篩及封裝冷藏后作為茶粉樣品; 步驟S2:光譜信息的采集:基于Workf low設(shè)置茶粉樣品的近紅外光譜信息采集工作流, 利用近紅外光譜儀采集所述茶粉樣品于近紅外范圍內(nèi)的漫反射光譜信息; 步驟S3:光譜信息的預處理:使用紅外處理軟件OPUS對所述步驟S2采集到的漫反射光 譜信息采用一階導數(shù)及歸一化進行預處理,同時處理后的數(shù)據(jù)從spc光譜格式轉(zhuǎn)換為xls文 件格式; 步驟S4:基于遺傳算法的波長篩選:將步驟S3中得到的xls文件格式的全波段光譜數(shù)據(jù) 平均分為多個子區(qū)間進行隨機編碼,采用選擇、交叉和變異三種算法,以函數(shù)F=R/RMSEC的 最大值作為優(yōu)化指標,選擇最佳子區(qū)間組合作為參與建模的光譜譜區(qū),其中R為相關(guān)系數(shù), RMSEC為交叉驗證的均方根誤差; 步驟S5:模型的建立:根據(jù)茶葉樣品的產(chǎn)地信息不同,設(shè)定對應的產(chǎn)地標簽值,建立所 述光譜譜區(qū)與產(chǎn)地標簽值間一一對應的數(shù)學模型,所述數(shù)學模型以所述光譜譜區(qū)作為輸入 量,運用支持向量機對所述光譜譜區(qū)進行分析并分類,計算出相應的產(chǎn)地標簽值; 步驟S6:產(chǎn)地的判別:將一份茶葉樣品經(jīng)步驟Sl至步驟S4處理得到的光譜譜區(qū)代入步 驟S5得到的數(shù)學模型進行相應的結(jié)果預測,從而確定所述茶葉樣品的產(chǎn)地。
[0005] 進一步的,所述步驟Sl中茶粉過篩所用的為80目樣品篩。
[0006] 進一步的,所述步驟Sl中每一份茶粉樣品的質(zhì)量為10_15g。
[0007] 進一步的,所述步驟S2中的近紅外光譜儀為Antaris II傅立葉近紅外光譜儀。
[0008]進一步的,所述Antaris II傅立葉近紅外光譜儀的采集參數(shù)如下:掃描次數(shù)為64 次,分辨率為8CHT1,光譜范圍為10000-4000cnf1。
[0009] 進一步的,所述步驟S4中隨機編碼時,0表示刪去譜區(qū),1表示選用譜區(qū)。
[0010] 進一步的,遺傳算法的參數(shù)如下:染色體條數(shù)為70條,基因數(shù)為40個,變異概率為 〇. 1,交叉概率為〇. 6-0.9,迭代次數(shù)為20-25代。
[0011] 本發(fā)明與現(xiàn)有技術(shù)相比具有以下有益效果:本發(fā)明采用遺傳算法和光譜技術(shù)的結(jié) 合,可有效地從茶葉近紅外光譜數(shù)據(jù)中優(yōu)選特征信息,簡化判別模型,縮短運行時間,很大 程度上提高茶葉產(chǎn)地判別的效率和結(jié)果的準確性。本發(fā)明能準確、快速、科學地鑒別產(chǎn)地不 同、品質(zhì)相近且容易模仿的地理標志產(chǎn)品,這對保證地理標志產(chǎn)品真實性,維護貿(mào)易公平和 保障消費者權(quán)益具有重要意義和應用價值。
【附圖說明】
[0012] 圖1是本發(fā)明方法流程圖。
[0013] 圖2是本發(fā)明一實施例的近紅外光譜預處理圖。
[0014] 圖3是本發(fā)明一實施例的產(chǎn)地判別結(jié)果圖。
[0015] 圖4是支持向量機的線性可分情況下的最優(yōu)分類面。
【具體實施方式】
[0016] 下面結(jié)合附圖及實施例對本發(fā)明做進一步說明。
[0017] 請參照圖1,本發(fā)明提供一種基于遺傳算法結(jié)合支持向量機的烏龍茶產(chǎn)地判別方 法,其特征在于,包括以下步驟: 步驟Sl:茶粉樣品的準備:收集各個烏龍茶產(chǎn)地的茶葉樣品,將所述茶葉樣品經(jīng)粉碎機 研磨成茶粉,通過80目樣品篩對所述茶粉進行過篩,并取篩下10-15g的茶粉編號后經(jīng)封裝 冷藏后作為茶粉樣品; 步驟S2:光譜信息的采集:基于Workf low設(shè)置茶粉樣品的近紅外光譜信息采集工作流, 利用Antaris II傅立葉近紅外光譜儀采集所述茶粉樣品于近紅外范圍內(nèi)的漫反射光譜信 息,請參照圖2;具體做法是將茶粉樣品裝置于近紅外光譜儀的采樣瓶中,樣品和背景的采 集完全自動化,無需取離樣品,從而建立在高可靠性和穩(wěn)固性基礎(chǔ)上的高性能光譜。采集參 數(shù)為:掃描次數(shù)64次,分辨率8CHT 1,光譜范圍lOOOOcnfl^OOcnf1; 步驟S3:光譜信息的預處理:使用紅外處理軟件OPUS對所述步驟S2采集到的漫反射光 譜信息采用一階導數(shù)及歸一化進行預處理,同時處理后的數(shù)據(jù)從spc光譜格式轉(zhuǎn)換為xls文 件格式;光譜預處理可提高信噪比降低噪聲,消除基線和其他因素的干擾; 步驟S4:基于遺傳算法的波長篩選:結(jié)合近紅外光譜的特征波長信息,將步驟S3中得到 的xls文件格式中光譜范圍為lOOOO1000 cnf1區(qū)域的近紅外光譜信息平均分為40個子區(qū)間, 進行隨機編碼,其中〇表示刪去譜區(qū),1表示選用譜區(qū)。采用選擇、交叉和變異三種算法,以函 數(shù)F=R/RMSEC的最大值作為優(yōu)化指標,選擇最佳子區(qū)間組合作為參與建模的光譜譜區(qū),其中 R為相關(guān)系數(shù),RMSEC為交叉驗證的均方根誤差;遺傳算法的參數(shù)設(shè)置如下:染色體條數(shù)為70 條,基因數(shù)為40個,變異概率為0.1,交叉概率為0.6-0.9,迭代次數(shù)為20-25代,遺傳算法具 體包括以下步驟: 1、編碼:全譜段光譜區(qū)間分為幾個子區(qū)間,進行0-1二進制編碼,編為I,建模時包括此 波段;若為0,不包括此波段。
[0018] 2、設(shè)置初始群體:即進行染色體條數(shù),基因數(shù),迭代次數(shù)等相關(guān)參數(shù)設(shè)置。
[0019] 3、選擇適應值函數(shù):用于評價模型的預測能力,評價指標轉(zhuǎn)換得到適應值函數(shù)為: maxf(X)=R/RMSEP〇
[0020] 4、重復選擇-交叉-變異三個算子,進行遺傳篩選,直至最大繁殖代數(shù)時停止。
[0021 ]步驟S5:模型的建立:根據(jù)茶葉樣品的產(chǎn)地信息不同,設(shè)定對應的產(chǎn)地標簽值,例 如:安溪縣茶樣產(chǎn)地標簽值設(shè)為1,大田縣茶樣產(chǎn)地標簽值設(shè)為2,華安縣茶樣產(chǎn)地標簽值設(shè) 為3;利用Matlab數(shù)學軟件編譯產(chǎn)地判別模型的相關(guān)語言,建立所述光譜譜區(qū)與產(chǎn)地標簽值 間一一對應的數(shù)學模型,所述數(shù)學模型基于的化學計量學方法為遺傳算法結(jié)合支持向量機 (SVM),請參照圖3,該數(shù)學模型的判別參考指標為:準確判別率;相關(guān)系數(shù)R(Correlation Coefficient);交叉驗證均方根誤差RMSEC(Root Mean Square Error of Calibration); 支持向量機的原理如下: 支持向量機的原理起源于兩類線性可分問題的數(shù)據(jù)分析和處理。
[0022] 對線性可分問題,設(shè)X為輸入空間,Y為輸出域,通常模式集合馨:=賴!《爲由兩 類點組成,即Y={-1,1}。對于η個樣本組成的訓練集:
(4-1) 構(gòu)造一個目標函數(shù),尋找一個分割超平面,每個點距離超平面的遠近可以表示為分類 預測的確信或準確程度,SVM就是要最大化這個間隔值。如二維空間中如圖4所示,圓圈和 方形分別代表兩類樣品,設(shè)H為最優(yōu)分類超平面,Hl,Η2分別表示各類樣本中離分類超平面 最近且平行于分類超平面的支持向量,常稱為supprot Verctot。將分類超平面記為4-2式, 則歸一化后,對樣本集(Xi,Yi)的分類超平面則滿足4-3式。
[0023] 隊父_本_:=:0 (4-2) _IT :? il! i (4-3 ) 式中:W是垂直于分類超平面的法向量;margin=2/||W||為:區(qū)域間隔距離。
[0024] 遇線性不可分情況時,將其轉(zhuǎn)換為高維空間中的線性可分問題,在該高維空問中 尋找最優(yōu)分類面。 本試驗以預處理后和經(jīng)過遺傳算法篩選后的光譜數(shù)據(jù)作為支持向量機的輸入因子,訓 練樣本以建立判別模型。
[0025] 步驟S6:產(chǎn)地的判別:將一份茶葉樣品經(jīng)步驟Sl至步驟S4處理得到的光譜譜區(qū)代 入步驟S5得到的數(shù)學模型進行相應的結(jié)果預測,即通過GA-SVM模型預測出茶樣的產(chǎn)地分類 值,再與茶樣的產(chǎn)地標簽值進行匹配,從而確定所述茶葉樣品的產(chǎn)地。
[0026]以上所述僅為本發(fā)明的較佳實施例,凡依本發(fā)明申請專利范圍所做的均等變化與 修飾,皆應屬本發(fā)明的涵蓋范圍。
【主權(quán)項】
1. 一種基于遺傳算法結(jié)合支持向量機的烏龍茶產(chǎn)地判別方法,其特征在于,包括以下 步驟: 步驟S1:茶粉樣品的準備:收集各個烏龍茶產(chǎn)地的茶葉樣品,將所述茶葉樣品經(jīng)粉碎機 研磨成茶粉,所述茶粉經(jīng)過篩及封裝冷藏后作為茶粉樣品; 步驟S2:光譜信息的采集:基于Workflow設(shè)置茶粉樣品的近紅外光譜信息采集工作流, 利用近紅外光譜儀采集所述茶粉樣品于近紅外范圍內(nèi)的漫反射光譜信息; 步驟S3:光譜信息的預處理:使用紅外處理軟件OPUS對所述步驟S2采集到的漫反射光 譜信息采用一階導數(shù)及歸一化進行預處理,同時處理后的數(shù)據(jù)從spc光譜格式轉(zhuǎn)換為xls文 件格式; 步驟S4:基于遺傳算法的波長篩選:將步驟S3中得到的xls文件格式的全波段光譜數(shù)據(jù) 平均分為多個子區(qū)間進行隨機編碼,采用選擇、交叉和變異三種算法,以函數(shù)F=R/RMSEC的 最大值作為優(yōu)化指標,選擇最佳子區(qū)間組合作為參與建模的光譜譜區(qū),其中R為相關(guān)系數(shù), RMSEC為交叉驗證的均方根誤差; 步驟S5:模型的建立:根據(jù)茶葉樣品的產(chǎn)地信息不同,設(shè)定對應的產(chǎn)地標簽值,建立所 述光譜譜區(qū)與產(chǎn)地標簽值間一一對應的數(shù)學模型,所述數(shù)學模型以所述光譜譜區(qū)作為輸入 量,運用支持向量機對所述光譜譜區(qū)進行分析并分類,計算出相應的產(chǎn)地標簽值; 步驟S6:產(chǎn)地的判別:將一份茶葉樣品經(jīng)步驟S1至步驟S4處理得到的光譜譜區(qū)代入步 驟S5得到的數(shù)學模型進行相應的結(jié)果預測,從而確定所述茶葉樣品的產(chǎn)地。2. 根據(jù)權(quán)利要求1所述的基于遺傳算法結(jié)合支持向量機的烏龍茶產(chǎn)地判別方法,其特 征在于:所述步驟S1中茶粉過篩所用的為80目樣品篩。3. 根據(jù)權(quán)利要求1所述的基于遺傳算法結(jié)合支持向量機的烏龍茶產(chǎn)地判別方法,其特 征在于:所述步驟S1中每一份茶粉樣品的質(zhì)量為10-15g。4. 根據(jù)權(quán)利要求1所述的基于遺傳算法結(jié)合支持向量機的烏龍茶產(chǎn)地判別方法,其特 征在于:所述步驟S2中的近紅外光譜儀為Antaris II傅立葉近紅外光譜儀。5. 根據(jù)權(quán)利要求5所述的基于遺傳算法結(jié)合支持向量機的烏龍茶產(chǎn)地判別方法,其特 征在于:所述Antaris II傅立葉近紅外光譜儀的采集參數(shù)如下:掃描次數(shù)為64次,分辨率為 8cm-1,光譜范圍為 10000-4000cm-1。6. 根據(jù)權(quán)利要求1所述的基于遺傳算法結(jié)合支持向量機的烏龍茶產(chǎn)地判別方法,其特 征在于:所述步驟S4中隨機編碼時,0表示刪去譜區(qū),1表示選用譜區(qū)。7. 根據(jù)權(quán)利要求1所述的基于遺傳算法結(jié)合支持向量機的烏龍茶產(chǎn)地判別方法,其特 征在于:遺傳算法的參數(shù)如下:染色體條數(shù)為70條,基因數(shù)為40個,變異概率為0.1,交叉概 率為0.6-0.9,迭代次數(shù)為20-25代。
【文檔編號】G01N1/28GK105938093SQ201610400739
【公開日】2016年9月14日
【申請日】2016年6月8日
【發(fā)明人】孫威江, 王冰玉, 林馥茗, 黃艷
【申請人】福建農(nóng)林大學