本發(fā)明涉及數(shù)據(jù)分析處理技術領域,具體來說是一種基于深度學習技術的土壤近紅外光譜分析預測方法。
背景技術:
我國大部分農(nóng)田面臨成分不足、土壤退化嚴重的問題,需要改造的中低產(chǎn)田面積大、分布廣,了解并掌握農(nóng)田土壤成分信息有著十分現(xiàn)實和迫切的需求,但想要完全掌握農(nóng)田成分信息又十分困難,其存在多方面的原因。由于農(nóng)田成分含量是變化的,從長期看,土壤成分分布是一個動態(tài)過程,導致土壤成分的豐缺和分布不均勻。如何利用現(xiàn)代科技手段及時準確獲取土壤成分含量信息,制定合理的施肥策略,保證農(nóng)業(yè)正常生產(chǎn)以及保護環(huán)境和提高作物產(chǎn)量具有特別重要的現(xiàn)實意義??梢娊t外光譜(350-2500nm)檢測技術具有檢測速度快、多指標同時測定、無污染、成本低和操作簡單等優(yōu)點。可見近紅外光譜分析技術能在幾分鐘內(nèi)就能獲取待測樣品中多種成分含量信息,這一點是傳統(tǒng)化學方法檢測所達不到的,多種組分同時測量,檢測過程中也不需要添加任何試劑,不會對環(huán)境造成二次污染,是一種檢測速度快、無損、無污染和實時的檢測分析技術,將近紅外光譜分析技術應用于土壤成分檢測領域具有十分重要的現(xiàn)實意義。因此利用近紅外光譜分析技術實現(xiàn)對土壤成分的綜合數(shù)據(jù)分析已經(jīng)成為急需解決的技術問題。
技術實現(xiàn)要素:
本發(fā)明的目的是為了解決現(xiàn)有技術中無法對土壤成分進行大批量綜合分析的缺陷,提供一種基于深度學習技術的土壤近紅外光譜分析預測方法來解決上述問題。
為了實現(xiàn)上述目的,本發(fā)明的技術方案如下:
一種基于深度學習技術的土壤近紅外光譜分析預測方法,包括以下步驟:
訓練樣本的獲取和預處理,使用光譜儀獲取訓練樣本土壤集的光譜數(shù)據(jù),對獲取的光譜數(shù)據(jù)進行預處理,得到若干個訓練樣本;
構造基于深度學習的預測模型;
測試樣本的獲取和預處理;使用光譜儀獲取測試土壤樣本的光譜數(shù)據(jù),對測試樣本土壤掃描40次取平均值;對測試樣本土壤采用與訓練樣本相同的光譜數(shù)據(jù)預處理方法,得到測試土壤樣本;
將預處理過的測試樣本的光譜數(shù)據(jù)輸入構造的預測模型,完成對測試樣本土壤成分含量的分析預測;將測試土壤樣本采用梅爾域的濾波帶系數(shù)作為參數(shù),變成二維特征輸入訓練好的卷積神經(jīng)網(wǎng)絡進行土壤成分含量的分析預測。
所述的訓練樣本的獲取和預處理包括以下步驟:
在密封的暗室環(huán)境中使用光譜儀獲取不同訓練土壤樣本集的光譜數(shù)據(jù),對各訓練樣本土壤分別掃描40次取平均值;
對光譜數(shù)據(jù)進行平滑處理;
對光譜數(shù)據(jù)進行多元散射校正處理;
對光譜數(shù)據(jù)進行歸一化處理;
構成訓練土壤樣本集。
所述的構造基于深度學習的預測模型包括以下步驟:
將訓練土壤樣本的光譜信號看作二維特征輸入,將波數(shù)構成的特征作為第一維特征,將頻域構成的特征作為第二維特征;在頻域維度上采用梅爾域的濾波帶系數(shù)作為參數(shù),選擇N個濾波頻帶,按照土壤成分含量設定標簽,把預處理好的訓練樣本土壤集隨機排序后輸入卷積神經(jīng)網(wǎng)絡;
采用反向傳播方法對整個網(wǎng)絡進行全局訓練,優(yōu)化網(wǎng)絡參數(shù);誤差反向傳播算法進行反向傳播,反向更新權值和卷積核,從而得到訓練好的卷積神經(jīng)網(wǎng)絡。
所述的對光譜數(shù)據(jù)進行平滑處理為Savitzky-Golay卷積平滑法,其包括以下步驟:
通過采用最小二乘擬合系數(shù)建立濾波函數(shù),對移動窗口內(nèi)的波長點數(shù)據(jù)進行多項式最小二乘擬合,二項式擬合的表達式如下:
式中為Savitzky-Golay卷積平滑算法建立二次擬合曲線后中心點位置得到的擬合值,a0,a1,a2是二項方程式系數(shù);
待定二項方程式系數(shù)求解過程采用最小二乘法,如下所示:
令并聯(lián)立求解方程組可得到二項式系數(shù)。
所述的對光譜數(shù)據(jù)進行多元散射校正處理包括以下步驟:
把整個未知試樣的光譜A(λ)變換成假想的基準粒度的光譜A0(λ),根據(jù)最小二乘法指定α和β的值,設定兩個因子的推定值分別為α'和β',由公式A(λ)=a0A0(λ)+β+e(λ)可得到以下變換式:
A0(λ)=[A(λ)-β']/α';
獲取α'和β'的光譜數(shù)據(jù),使用所有土壤樣本的平均光譜,如下所示:
線性回歸方程為:
Ai表示第i個樣本的光譜,A為建模集光譜數(shù)據(jù),通過最小二乘回歸求得α和β。
所述的對光譜數(shù)據(jù)進行歸一化處理為矢量歸一化方法,其方法如下:
取一條光譜,其數(shù)據(jù)表達為x(1*m),其矢量歸一化算法公式為:
其中m為波長數(shù),i=1,2,...,n,矢量歸一化算法常被用于校正由微小光程差異而引起的光譜變化。
所述的卷積神經(jīng)網(wǎng)絡為采用基于LeNet-5模型改進的卷積神經(jīng)網(wǎng)絡,其向前傳播階段包括以下步驟:
第一個特征提取階段,輸入層-c1層-s2層;輸入訓練土壤樣本的光譜數(shù)據(jù)的二維波譜表示,經(jīng)過5*5大小的卷積核運算,再經(jīng)過子采樣處理,縮放為原來的1/2;
第二個特征提取階段,s2層-s4層;
輸入s2層的二維光譜特征數(shù)據(jù)經(jīng)過5*5的卷積核運算,再經(jīng)過子采樣處理,縮放為原來的1/2;
第三個特征提取階段,s4層-c5層;
網(wǎng)絡層c5為由120個特征圖組成的卷積層,每個神經(jīng)元與s4網(wǎng)絡層的所有特征圖的5*5大小的鄰域相連接;
分析預測,c5層-輸出層;
c5層到輸出層采用全連接的方式,使用c5層的120維向量進行預測分類。
有益效果
本發(fā)明的一種基于深度學習技術的土壤近紅外光譜分析預測方法,與現(xiàn)有技術相比基于卷積神經(jīng)網(wǎng)絡的結構模型來進行土壤近紅外光譜分析預測,提高了近紅外光譜土壤主要成分預測的精度和模型的魯棒性。本發(fā)明中卷積神經(jīng)網(wǎng)絡擁有更加優(yōu)異的特征表達能力,其特征提取和模式分類同時進行,并且一個計算層由多個特征圖組成,可以學習不同的特征組合,并可通過増加和減少特征圖的數(shù)量對網(wǎng)絡進行優(yōu)化。
附圖說明
圖1為本發(fā)明的方法流程圖;
圖2為本發(fā)明中LeNet-5模型改進的卷積神經(jīng)網(wǎng)絡的網(wǎng)絡結構圖。
具體實施方式
為使對本發(fā)明的結構特征及所達成的功效有更進一步的了解與認識,用以較佳的實施例及附圖配合詳細的說明,說明如下:
如圖1所示,本發(fā)明所述的一種基于深度學習技術的土壤近紅外光譜分析預測方法,包括以下步驟:
第一步,訓練樣本的獲取和預處理。使用光譜儀獲取訓練樣本土壤集的光譜數(shù)據(jù),對獲取的光譜數(shù)據(jù)進行預處理,得到若干個訓練樣本。其具體包括以下步驟:
(1)在密封的暗室環(huán)境中使用光譜儀獲取不同訓練土壤樣本集的光譜數(shù)據(jù),對各訓練樣本土壤分別掃描40次取平均值。采用ASD公司的FieldSpec Pro FR光譜儀獲取不同訓練土壤樣本集的光譜數(shù)據(jù),為了避免在測量過程中由于自然光造成的影響,整個光譜檢測是在密封的暗室內(nèi)進行的,對各訓練樣本土壤分別掃描40次取平均值。
(2)對光譜數(shù)據(jù)進行平滑處理,光譜平滑預處理的目標是去除隨機高頻誤差在光譜分析中常用的平滑方法有Savitzky-Golay卷積平滑,Savitzky-Golay卷積平滑算法在對原始光譜進行處理時,不再使用簡單的平均,通過采用最小二乘擬合系數(shù)建立濾波函數(shù),對移動窗口內(nèi)的波長點數(shù)據(jù)進行多項式最小二乘擬合。其包括以下步驟:
A、通過采用最小二乘擬合系數(shù)建立濾波函數(shù),對移動窗口內(nèi)的波長點數(shù)據(jù)進行多項式最小二乘擬合,二項式擬合的表達式如下:
式中為Savitzky-Golay卷積平滑算法建立二次擬合曲線后中心點位置得到的擬合值,a0,a1,a2是二項方程式系數(shù)。
B、待定二項方程式系數(shù)求解過程采用最小二乘法,如下所示:
令并聯(lián)立求解方程組可得到二項式系數(shù)。
(3)對光譜數(shù)據(jù)進行多元散射校正處理,用于校正光譜的分散效果,校正和減弱光在不均勻性樣本表面散射引起的光譜變化差異,減少光譜基線漂移情況的發(fā)生。其包括以下步驟:
A、把整個未知試樣的光譜A(λ)變換成假想的基準粒度的光譜A0(λ),根據(jù)最小二乘法指定α和β的值,設定兩個因子的推定值分別為α'和β',由公式A(λ)=a0A0(λ)+β+e(λ)可得到以下變換式:
A0(λ)=[A(λ)-β']/α'。
B、獲取α'和β'的光譜數(shù)據(jù),使用所有土壤樣本的平均光譜,如下所示:
線性回歸方程為:
Ai表示第i個樣本的光譜,A為建模集光譜數(shù)據(jù),通過最小二乘回歸可求得α和β。
(4)對光譜數(shù)據(jù)進行歸一化處理,歸一化算法有最大歸一化、平均歸一化、面積歸一化和矢量歸一化法等。在近紅外光譜分析中,比較常用的歸一化是矢量歸一化算法。其方法如下:
取一條光譜,其數(shù)據(jù)表達為x(1*m),其矢量歸一化算法公式為:
其中m為波長數(shù),i=1,2,...,n。矢量歸一化算法常被用于校正由微小光程差異而引起的光譜變化。
(5)構成訓練土壤樣本集。
第二步,構造基于深度學習的預測模型。其包括以下步驟:
(1)將訓練土壤樣本的光譜信號看作二維特征輸入,將波數(shù)構成的特征作為第一維特征,將頻域構成的特征作為第二維特征;在頻域維度上采用梅爾域的濾波帶系數(shù)作為參數(shù),選擇N個濾波頻帶,按照土壤成分含量設定標簽,把預處理好的訓練樣本土壤集隨機排序后輸入卷積神經(jīng)網(wǎng)絡。在此卷積神經(jīng)網(wǎng)絡為采用基于LeNet-5模型改進的卷積神經(jīng)網(wǎng)絡,此網(wǎng)絡結構相比于LeNet-5去掉了一個全連接神經(jīng)網(wǎng)絡,只使用了一個全連接網(wǎng)絡。包括一個輸入層、五個隱含層和一個輸出層。其中輸出層的節(jié)點數(shù)與待預測土壤成分含量的類別數(shù)一致。其向前傳播階段如圖2所示,包括以下步驟:
A、第一個特征提取階段,即輸入層-c1層-s2層。輸入訓練土壤樣本的光譜數(shù)據(jù)的二維波譜表示,經(jīng)過5*5大小的卷積核運算,再經(jīng)過子采樣處理,縮放為原來的1/2。
B、第二個特征提取階段,即s2層-s4層。輸入s2層的二維光譜特征數(shù)據(jù)經(jīng)過5*5的卷積核運算,再經(jīng)過子采樣處理,縮放為原來的1/2。c3層有16個特征圖是因為c3層特征圖的每個神經(jīng)元與s2網(wǎng)絡層的若干個特征圖的5*5的鄰域連接,這樣組合提取不同的特征,從而提取更為復雜的信息,在訓練階段,可通過改變這種特征圖的連接方式來優(yōu)化網(wǎng)絡性能。
C、第三個特征提取階段,即s4層-c5層。網(wǎng)絡層c5為由120個特征圖組成的卷積層,每個神經(jīng)元與s4網(wǎng)絡層的所有特征圖的5*5大小的鄰域相連接。在訓練階段,可通過改變這種特征圖的連接方式來優(yōu)化網(wǎng)絡性能。
D、分析預測,即c5層-輸出層。c5層到輸出層采用全連接的方式,使用c5層的120維向量進行預測分類。由于是全連接,所以此分析預測器參數(shù)很多,具有很強的描述能力,神經(jīng)網(wǎng)絡輸出判斷值既作為反向傳播的調(diào)整基數(shù),也可用來在測試過程中對土壤成分作預測分類。
(2)采用反向傳播方法對整個網(wǎng)絡進行全局訓練,優(yōu)化網(wǎng)絡參數(shù);誤差反向傳播算法進行反向傳播,反向更新權值和卷積核,從而得到訓練好的卷積神經(jīng)網(wǎng)絡。同時可以通過調(diào)整卷積核的個數(shù),大小以及特征圖的個數(shù)和組合方式來優(yōu)化網(wǎng)絡性能。至此可以把需要分析預測的測試土壤樣本經(jīng)過和訓練土壤樣本相同的預處理后,通過二維波譜表示后輸入訓練好的網(wǎng)絡,只進行網(wǎng)絡前向傳播過程,根據(jù)網(wǎng)絡輸出層的值對測試土壤樣本的成分進行分析預測。
第三步,測試樣本的獲取和預處理。使用光譜儀獲取測試土壤樣本的光譜數(shù)據(jù),對測試樣本土壤掃描40次取平均值;對測試樣本土壤采用與訓練樣本相同的光譜數(shù)據(jù)預處理方法,得到測試土壤樣本。在此測試樣本的獲取和預處理的步驟與訓練樣本的獲取和預處理步驟完全相同,也同樣經(jīng)過在密封的暗室環(huán)境中使用光譜儀獲取不同訓練土壤樣本集的光譜數(shù)據(jù),對各測試樣本土壤分別掃描40次取平均值;對光譜數(shù)據(jù)進行平滑處理;對光譜數(shù)據(jù)進行多元散射校正處理;對光譜數(shù)據(jù)進行歸一化處理;最終構成測試土壤樣本集。
第四步,將預處理過的測試樣本的光譜數(shù)據(jù)輸入構造的預測模型,完成對測試樣本土壤成分含量的分析預測。將測試土壤樣本采用梅爾域的濾波帶系數(shù)作為參數(shù),變成二維特征輸入訓練好的卷積神經(jīng)網(wǎng)絡進行土壤成分含量的分析預測。
以上顯示和描述了本發(fā)明的基本原理、主要特征和本發(fā)明的優(yōu)點。本行業(yè)的技術人員應該了解,本發(fā)明不受上述實施例的限制,上述實施例和說明書中描述的只是本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下本發(fā)明還會有各種變化和改進,這些變化和改進都落入要求保護的本發(fā)明的范圍內(nèi)。本發(fā)明要求的保護范圍由所附的權利要求書及其等同物界定。