本發(fā)明涉及一種品種快速鑒別方法,具體地說,涉及一種基于高光譜成像的蘋果品種快速鑒別方法。
背景技術(shù):
蘋果在世界果品市場上占據(jù)著重要地位,是備受消費(fèi)者青睞的“全方位健康水果”。我國蘋果的栽培面積和產(chǎn)量均居世界首位,且非常重視良種選育和引進(jìn)工作,使市場上新品種層出不窮。有些品種成熟期、外形、色澤、風(fēng)味差異較大,感觀易于辯別;有些則成熟期、大小、著色、口感均比較接近,非專業(yè)人員品評辯識準(zhǔn)確率不高,更難以在采后處理流水線上快速鑒別。由于不同品種的田間栽培條件、采后貯藏特性、價(jià)格均差別較大,生產(chǎn)中急需一種簡便、無損的蘋果品種快速鑒別方法,以期為蘋果產(chǎn)中合理管理,售中貨真價(jià)實(shí),保護(hù)生產(chǎn)者和消費(fèi)者雙方的利益提供理論與技術(shù)依據(jù)。
目前,國內(nèi)外學(xué)者在鑒別物質(zhì)品種的研究方面主要采用了近紅外光譜技術(shù)(NIRS),根據(jù)全譜段或多波長下的光譜數(shù)據(jù)對待測物進(jìn)行定性或定量分析,從而反映待測物的類型或有機(jī)物的含量。有人利用近紅外光譜技術(shù)對葡萄、梨、蘋果、草莓、鮮棗和楊梅等水果品種進(jìn)行鑒別。此外,還有對水稻、玉米和小麥等經(jīng)濟(jì)作物品種鑒別的研究報(bào)道。然而,近紅外光譜技術(shù)只提供對檢驗(yàn)客體某一較小區(qū)域的光譜信息,無法得到樣本的空間信息,因而存在檢測范圍小和信息獲取量少的弊端。
高光譜成像技術(shù)結(jié)合了傳統(tǒng)成像技術(shù)和現(xiàn)代光譜技術(shù),能夠在更大范圍內(nèi)同時(shí)獲取樣本的光譜信息和空間信息,對于生物材料的光譜學(xué)特征差別識別的敏感度高,因此能全面的反映被測物的種類及品質(zhì)。張初等采用高光譜成像技術(shù)對西瓜種子品種進(jìn)行鑒別,發(fā)現(xiàn)經(jīng)過SG平滑算法對光譜進(jìn)行預(yù)處理后,基于特征波長選擇所建立的極限學(xué)習(xí)機(jī)(ELM)模型取得了最佳效果,對建模集和預(yù)測集的識別準(zhǔn)確率均達(dá)到100%;Wang等利用高光譜成像對稻米品種進(jìn)行鑒別,發(fā)現(xiàn)基于數(shù)據(jù)融合的逆反饋人工神經(jīng)網(wǎng)絡(luò)(BPNN)對稻米品種的識別率達(dá)到最高,為94.45%,優(yōu)于單獨(dú)基于光譜數(shù)據(jù)(89.91%)或圖像數(shù)據(jù)(88.09%)的結(jié)果。Liu等利用高光譜成像對3個(gè)荔枝品種進(jìn)行分類,得出支持向量機(jī)(SVM)分類模型對校正集和預(yù)測集的識別率分別為100%和87.81%。目前,還沒有高光譜成像技術(shù)應(yīng)用于蘋果品種的鑒別中,蘋果品種快速識別技術(shù)尚無報(bào)道。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于彌補(bǔ)現(xiàn)有技術(shù)中蘋果品種快速識別技術(shù)的空白,提供一種基于高光譜成像的蘋果品種快速鑒別方法,該方法是快速鑒別蘋果品種的更準(zhǔn)確、更簡便的新方法,并且采集各品種不同的近紅外高光譜譜圖也可以用來豐富蘋果品種個(gè)性資料,作為指紋鑒定、變異鑒別的依據(jù)。
其具體技術(shù)方案為:
一種基于高光譜成像的蘋果品種快速鑒別方法,包括以下步驟:
步驟1、高光譜圖像的采集
在高光譜圖像數(shù)據(jù)采集前需要對鏡頭焦距進(jìn)行調(diào)整而且要保證平臺移動的速度、相機(jī)的曝光時(shí)間和光源的相互匹配以保證采集的圖像能夠清晰不失真,經(jīng)過多次調(diào)整及參數(shù)優(yōu)化,最終確定高光譜攝像機(jī)的各參數(shù)如下:平臺移動速度為20mm/s,相機(jī)的曝光時(shí)間為10ms,物距為200mm,采集到的高光譜圖像大小為320×256×255(像素×波段數(shù),即每個(gè)樣品采集255個(gè)波長下的像素為320×256的二維圖像),采集光譜時(shí),每次將1個(gè)蘋果樣本放于載物臺上,保持果柄-花萼軸為垂直方向,使載物臺中心對準(zhǔn)相機(jī),當(dāng)平臺移動時(shí),近紅外高光譜儀從上往下掃描樣本,每次掃描得到1行圖像的光譜信息,平臺帶動樣本運(yùn)動的過程中,獲取其他位置直至整個(gè)樣本的光譜信息,為了消除蘋果表面形狀以及色澤差異對光譜采集的影響,對每個(gè)蘋果樣品均進(jìn)行2次光譜采集,第1次采集果柄面,第2次采集果頂面,將2次光譜反射平均值作為該樣品的光譜數(shù)據(jù),以同樣的方法依次采集各品種共90個(gè)以上蘋果(每品種各30個(gè)以上)的高光譜圖像;
步驟2、光譜校正
為了消除因蘋果形狀差異、光源強(qiáng)度在各波段下分布不均以及攝像頭中暗電流存在而產(chǎn)生的噪聲影響,需對獲得的高光譜圖像進(jìn)行黑白標(biāo)定,首先對反射率為99%標(biāo)準(zhǔn)白色校正板進(jìn)行圖像采集,得到全白的標(biāo)定圖像W,然后關(guān)閉光源擰上鏡頭蓋,采集全黑標(biāo)定圖像D。圖像校正公式為:
式中:R0為原始的高光譜圖像,R為校正后的圖像;
步驟3、ROI區(qū)域的選取
利用ENVI 4.7軟件,對圖像經(jīng)過濾波和形態(tài)學(xué)算法處理后,選取蘋果的果柄面和果頂面分別作為感興趣區(qū)域,求其反射光譜曲線,將兩面的反射光譜的曲線進(jìn)行數(shù)據(jù)收集并取反射光譜平均值作為數(shù)據(jù)集合;
步驟4、K近鄰算法計(jì)算
K近鄰的基本思想很直觀,在已知類別的訓(xùn)練樣本中為未知類別的待測樣本找到最相似的K個(gè)訓(xùn)練樣本即K個(gè)近鄰,根據(jù)這K個(gè)近鄰的類別來判斷待測樣本的類別;
其中K值需要事先指定,一般需要在實(shí)驗(yàn)中采用交叉驗(yàn)證來確定合適的取值,根據(jù)某固定距離選取該距離內(nèi)的所有訓(xùn)練樣本作為近鄰來判斷待測樣本的類別;
對于n維空間中的兩個(gè)樣本X(X1,X2,···,Xn)和Y(Y1,Y2,···,Yn),采用的距離度量方法及其計(jì)算方法如下公式(2)-(11)所示:
dchebvchev(X,Y)=max|Xi-Yi|(i=1~n) (3)
在已知待測樣本的K個(gè)近鄰的類別時(shí),待測樣本的類別有不同的判斷方法;
dcityblock,dchebychev,dcorrelation,dcosine,deuclidean,dhamming,djaccard,dminkowski,dseuclidean,dspearman分別是10種距離的名稱,Xi,Yi分別為兩個(gè)樣本在n維空間各個(gè)特征向量。
進(jìn)一步,步驟4中所述判斷方法包括:最直觀的方法是找出這K個(gè)近鄰中出現(xiàn)次數(shù)最多的類別來作為待測樣本的類別,更完善的方法是將近鄰與待測樣本間的距離作為權(quán)重來計(jì)算這K個(gè)近鄰所屬類別的重要程度,加權(quán)統(tǒng)計(jì)得到最重要的類別來作為待測樣本的類別。
進(jìn)一步,步驟4中K=1時(shí),利用seuclidean和chebychev距離算法,以及K=3,5時(shí),利用chebychev,euclidean和minkowski距離算法在五折交叉驗(yàn)證中的分辨準(zhǔn)確率都高達(dá)100%。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
本發(fā)明采用近紅外高光譜技術(shù),通過一系列的圖像處理,得到三類樣品在近紅外全波段的平均反射光譜值,然后通過Matalab的函數(shù)及運(yùn)算命令建立了K鄰近算法的數(shù)學(xué)模型,利用該模型進(jìn)行計(jì)算可以正確識別蘋果品種,最高識別正確率能達(dá)到100%。
本發(fā)明并沒有使用單純的化學(xué)計(jì)量算法進(jìn)行分類,而是使用了機(jī)器學(xué)習(xí)的方法,可以利用更少的數(shù)據(jù)量得到更加準(zhǔn)確的結(jié)果,使過程更加簡便,結(jié)果更加準(zhǔn)確。
以上結(jié)果表明生產(chǎn)上可以利用近紅外高光譜成像技術(shù)在900-1200nm波段下的吸收值結(jié)合KNN機(jī)器學(xué)習(xí)的方法來設(shè)計(jì)檢測機(jī)器來快速正確的鑒別蘋果的品種,以期用于建立一個(gè)用于蘋果種類鑒別的高光譜指紋圖譜。
附圖說明
圖1是高光譜圖像采集系統(tǒng)示意圖;
圖2是蘋果果實(shí)的ROI區(qū)域的選取示意圖,其中圖2a為果柄面,圖2b為果頂面;
圖3是不同波長下三種品種蘋果的平均反射強(qiáng)度。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施方案對本發(fā)明的技術(shù)方案作進(jìn)一步詳細(xì)地說明。
本發(fā)明采用上市期有交叉,并均著紅色的‘喬納金’、‘紅富士’和‘秦冠’3個(gè)品種的蘋果為試材,逐一采用近紅外高光譜成像獲得各蘋果的光譜數(shù)據(jù),提取并分析各個(gè)蘋果感興趣區(qū)域(ROI)的光譜反射平均值,結(jié)合K臨近算法和支持向量機(jī)的建模方法,實(shí)現(xiàn)對蘋果品種的分類鑒別,該方法是快速鑒別蘋果品種的更準(zhǔn)確、更簡便的新方法,并且采集各品種不同的近紅外高光譜譜圖也可以用來豐富蘋果品種個(gè)性資料,作為指紋鑒定、變異鑒別的依據(jù)。
1材料與方法
1.1試驗(yàn)材料、設(shè)備及軟件
試驗(yàn)用蘋果‘喬納金、‘富士’和‘秦冠’分別于2015年9月20日、10月14日、10月20日采于陜西白水縣西北農(nóng)林科技大學(xué)蘋果試驗(yàn)示范站果園。采后當(dāng)天運(yùn)回西北農(nóng)林科技大學(xué)實(shí)驗(yàn)室,置于室溫下裸果溫度平衡24h。對各批采收的蘋果均選取大小相近、著色均勻、無機(jī)械損傷的果實(shí)30個(gè),逐一編號,1~30號代表喬納金,種類代號為1;31~60代表紅富士,種類代號為2。61~90號代表秦冠,種類代號為3。
該研究中高光譜圖像采集系統(tǒng)結(jié)構(gòu)如圖1所示。該系統(tǒng)由1臺近紅外光譜儀(ImSpectorN17E型,Spectral Imaging Ltd.,芬蘭),1臺像素為320×256的面陣CCD相機(jī)(XEVA2616型,XenICs Ltd.,比利時(shí)),1套高穩(wěn)定性的鹵鎢燈白光光源,1臺高精度的電控平移臺裝置和計(jì)算機(jī)等組成。近紅外高光譜成像系統(tǒng)采集光譜范圍為900~1700nm,光譜分辨率2.8nm,入射光狹縫寬度為30μm。
高光譜圖像采集由Spectral SENS-V17E軟件(Gilden Photonics Ltd.,英國)完成,后續(xù)的圖像數(shù)據(jù)處理采用ENVI 4.7軟件(Research System Inc.,美國),光譜數(shù)據(jù)分析軟件為Matlab7.4(MathWorks,美國)。
1.2試驗(yàn)方法
1.2.1高光譜圖像的采集
在高光譜圖像數(shù)據(jù)采集和圖像采集前需要對鏡頭焦距進(jìn)行調(diào)整而且要保證平臺移動的速度、相機(jī)的曝光時(shí)間和光源的相互匹配以保證采集的圖像能夠清晰不失真。經(jīng)過多次調(diào)整及參數(shù)優(yōu)化,最終確定高光譜攝像機(jī)的各參數(shù)如下:平臺移動速度為20mm/s,相機(jī)的曝光時(shí)間為10ms,物距為200mm,采集到的高光譜圖像大小為320×256×255。采集光譜時(shí),每次將1個(gè)蘋果樣本放于載物臺上,保持果柄-花萼軸為垂直方向,使載物臺中心對準(zhǔn)相機(jī)。當(dāng)平臺移動時(shí),近紅外高光譜儀從上往下掃描樣本,每次掃描得到1行圖像的光譜信息,平臺帶動樣本運(yùn)動的過程中,獲取其他位置直至整個(gè)樣本的光譜信息。為了消除蘋果表面形狀以及色澤差異對光譜采集的影響對每個(gè)蘋果樣品均進(jìn)行2次光譜采集,第1次采集果柄面,第2次采集果頂面,將2次光譜反射平均值作為該樣品的光譜數(shù)據(jù)。以同樣的方法依次采集90個(gè)蘋果的高光譜圖像。
1.2.2光譜校正
為了消除因蘋果形狀差異、光源強(qiáng)度在各波段下分布不均以及攝像頭中暗電流存在而產(chǎn)生的噪聲影響,需對獲得的高光譜圖像進(jìn)行黑白標(biāo)定。首先對反射率為99%標(biāo)準(zhǔn)白色校正板進(jìn)行圖像采集,得到全白的標(biāo)定圖像W,然后關(guān)閉光源擰上鏡頭蓋,采集全黑標(biāo)定圖像D。圖像校正公式為:
式中:R0為原始的高光譜圖像,R為校正后的圖像
1.2.3ROI區(qū)域的選取
利用ENVI 4.7軟件,對圖像經(jīng)過濾波和形態(tài)學(xué)算法處理后,選取蘋果的果柄面和果頂面分別作為感興趣區(qū)域(range of interest,簡稱ROI),如圖2求其反射光譜曲線。將兩面的反射光譜的曲線進(jìn)行數(shù)據(jù)收集并取反射光譜平均值作為數(shù)據(jù)集合。
1.2.4K近鄰算法計(jì)算
K近鄰(K-Nearest Neighbor,KNN)的基本思想很直觀,在已知類別的訓(xùn)練樣本中為未知類別的待測樣本找到最相似的K個(gè)訓(xùn)練樣本即K個(gè)近鄰,根據(jù)這K個(gè)近鄰的類別來判斷待測樣本的類別。
其中K值需要事先指定,一般需要在實(shí)驗(yàn)中采用交叉驗(yàn)證來確定合適的取值,還可以根據(jù)某固定距離選取該距離內(nèi)的所有訓(xùn)練樣本作為近鄰來判斷待測樣本的類別。
這里的相似性可以采用多種距離度量方法來衡量。對于n維空間中的兩個(gè)樣本X(X1,X2,···,Xn)和Y(Y1,Y2,···,Yn),本文采用的距離度量方法及其計(jì)算方法如下公式(2)-(11)所示:
dchebvchev(X,Y)=max|Xi-Yi|(i=1~n) (3)
在已知待測樣本的K個(gè)近鄰的類別時(shí),待測樣本的類別有不同的判斷方法。最直觀的方法是找出這K個(gè)近鄰中出現(xiàn)次數(shù)最多的類別來作為待測樣本的類別。更完善的方法是將近鄰與待測樣本間的距離作為權(quán)重來計(jì)算這K個(gè)近鄰所屬類別的重要程度,加權(quán)統(tǒng)計(jì)得到最重要的類別來作為待測樣本的類別。
因?yàn)镵NN算法采用了待測樣本與其近鄰間的距離來衡量待測樣本與其近鄰間的相似度,所以該算法對數(shù)據(jù)的數(shù)值范圍比較敏感,數(shù)值范圍較大的特征會對相似度起較大影響,這是不合理的。因此我們需要先對樣本數(shù)據(jù)進(jìn)行歸一化后再進(jìn)行距離的計(jì)算和判斷。在實(shí)際應(yīng)用中,如果某種特征的確比其他特征對分類起到更重要作用的話可以根據(jù)實(shí)際情況增大其數(shù)值范圍。
KNN算法具有很強(qiáng)的適應(yīng)性,具體表現(xiàn)在分類結(jié)果取決于多個(gè)近鄰而不是少量噪聲,這大大提高了算法對噪聲的魯棒性/抗變換性;KNN算法還可以用在類域相互交叉區(qū)分不明顯的情形中。
2結(jié)果與分析
三種蘋果的高光譜近紅外吸收值在波長為900~1600nm之間的數(shù)據(jù)如圖3所示
喬納金蘋果的平均反射強(qiáng)度曲線和另外兩種蘋果有明顯的分離,而富士和秦冠蘋果的平均反射強(qiáng)度有交叉部分。
通過建立KNN模型計(jì)算品種的識別正確率:在KNN算法中利用不同的距離方法在不同的k取值的條件下,將各個(gè)品種的吸光值分為訓(xùn)練樣本和校正樣本并進(jìn)行計(jì)算,蘋果品種識別正確率如表1所示(K取值分別為1,3,5,7,9)。可以看出除hamming和jaccard距離算法外,其余距離算法的在交叉驗(yàn)證中的分辨結(jié)果的平均準(zhǔn)確率都在90%以上。其中用K=1時(shí),利用seuclidean和chebychev距離算法以及K=3,5時(shí),利用chebychev,euclidean和minkowski距離算法在五折交叉驗(yàn)證中的分辨準(zhǔn)確率都可以取得高達(dá)100%。而hamming和jaccard距離算法在交叉驗(yàn)證中分辨準(zhǔn)確率都比較低,不適用于這幾種蘋果品種的識別,相對而言利用Chebychev,Euclidean,Minkowski,Seuclidean四種距離算法分辨結(jié)果準(zhǔn)確率比較高,可以用于蘋果品種的識別。
表1不同K取值下各種距離算法的正確識別率
Table1The resolution of applevarieties indifferent K values and range algorithm
(%)
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,本發(fā)明的保護(hù)范圍不限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),可顯而易見地得到的技術(shù)方案的簡單變化或等效替換均落入本發(fā)明的保護(hù)范圍內(nèi)。