一種基于近紅外定性分析的種子品種真實性鑒別方法
【專利摘要】本發(fā)明公開了一種基于近紅外定性分析的種子品種真實性鑒別方法,該方法包括:采集種子樣本的近紅外光譜數(shù)據(jù),并確定建模集和測試集;對建模集和測試集依次進行預(yù)處理、偏最小二乘特征提取和線性鑒別分析特征提??;從建模集和測試集中選取光譜校正集,并計算建模集與測試集之間的變換矩陣;將該變換矩陣應(yīng)用于剩余測試集;采用支持向量機方法建立定性分析模型;利用該定性分析模型對剩余測試集進行品種真實性鑒別。本發(fā)明建立在近紅外光譜基礎(chǔ)上,通過光譜預(yù)處理、特征提取、校正測試集、建模、鑒別等一系列操作,建立更為穩(wěn)定的近紅外光譜分析模型,解決因同一臺儀器長時間的光譜偏移帶來的模型適用性問題,使鑒別結(jié)果更為準確。
【專利說明】一種基于近紅外定性分析的種子品種真實性鑒別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及種子的品種鑒別領(lǐng)域,特別是一種基于近紅外定性分析的種子品種真 實性鑒別方法。
【背景技術(shù)】
[0002] 中國是農(nóng)業(yè)大國,農(nóng)業(yè)是安天下、穩(wěn)民心的戰(zhàn)略產(chǎn)業(yè)。"國以農(nóng)為本,農(nóng)以種為先", 種業(yè)安全是我國糧食安全的前提,是農(nóng)業(yè)安全的先決條件之一。然而,我國的種業(yè)市場不容 樂觀,品種侵權(quán)行為嚴重,假劣種子坑農(nóng)害農(nóng)事件時有發(fā)生。企業(yè)維權(quán)難,訴訟難,追賠難, 致使許多優(yōu)良品種遭受侵權(quán),以至于形成育種的不如賣種的、搞科研的不如搞經(jīng)營的怪象。
[0003] 目前所采用的品種鑒別方法大體可分為以下三類:一)基于形態(tài)特性的鑒別方 法,主要包括種子形態(tài)鑒別、幼苗形態(tài)鑒別、田間種植鑒別和計算機模擬形態(tài)分析等方法; 二)基于分子生物學技術(shù)的鑒別方法,主要包括蛋白質(zhì)指紋圖譜和DNA指紋圖譜兩類鑒別 方法;三)基于化學、物理特性的鑒別方法,主要有苯酚染色法、氫氧化鈉染色法、氫氧化鉀 染色法、熒光掃描圖譜法等。
[0004] 以上方法均存在多種技術(shù)障礙:(1)鑒別時間長;(2)鑒別成本高;(3)過程煩瑣;
[4] 鑒別者需要專門技術(shù)知識;(5)鑒別需要特定的測試條件、化學試劑、器材等。因此,種 業(yè)市場缺乏有效的快速現(xiàn)場鑒別技術(shù)手段和設(shè)備,給農(nóng)業(yè)生產(chǎn)、管理執(zhí)法等帶來諸多困難, 難以有效保障種子安全與糧食安全。
[0005] 近紅外光譜是基于物質(zhì)對近紅外譜區(qū)電磁波吸收的一種光譜技術(shù),由于近紅外光 譜分析技術(shù)具有簡便、快捷、低成本、無污染以及不破壞樣品等優(yōu)點,因此被廣泛應(yīng)用于多 個行業(yè)。近紅外定性分析主要用于物質(zhì)的定性判別分析,即通過比較未知樣品和建模樣品 或標準樣品的光譜來確定未知樣品的歸屬。
[0006] 在實際應(yīng)用中發(fā)現(xiàn),同一臺儀器長時間的光譜偏移面臨著模型適用性的問題,由 于相同物質(zhì)不同品種間成分相差較小,光譜相互交疊,因此這種差異對定性分析的影響甚 至比定量分析更為嚴重,嚴重時甚至完全不能正確識別。
[0007] 針對種子品種真實性鑒別方法的現(xiàn)狀與諸多不足,與同一臺儀器長期的光譜偏移 問題,本發(fā)明提出一種基于近紅外定性分析的種子品種真實性鑒別方法。
【發(fā)明內(nèi)容】
[0008] (一)要解決的技術(shù)問題
[0009] 有鑒于此,本發(fā)明的主要目的是為了提供一種簡單可行、快速高效,并且能提高模 型適用性的一種基于近紅外定性分析的種子品種真實性鑒別方法。
[0010] (二)技術(shù)方案
[0011] 為達到上述目的,本發(fā)明提供了一種基于近紅外定性分析的種子品種真實性鑒別 方法,該方法包括:步驟1:采集種子樣本的近紅外光譜數(shù)據(jù),并確定建模集和測試集;步驟 2 :對建模集和測試集依次進行預(yù)處理、偏最小二乘(PLS)特征提取和線性鑒別分析(LDA) 特征提取;步驟3 :從建模集和測試集中選取光譜校正集,并計算建模集與測試集之間的變 換矩陣;步驟4 :將該變換矩陣應(yīng)用于剩余測試集;步驟5 :采用支持向量機(SVM)方法建立 定性分析模型;步驟6 :利用該定性分析模型對剩余測試集進行品種真實性鑒別。
[0012] 上述方案中,步驟1中所述采集種子樣本的近紅外光譜數(shù)據(jù),是采用近紅外光譜 儀在不同時間采集種子樣本的近紅外光譜數(shù)據(jù)。所述確定建模集和測試集,是將在同一天 采集的光譜數(shù)據(jù)作為建模集,建模集是用來建立定性分析模型的原始建模數(shù)據(jù);將不同采 集日期采集的近紅外光譜數(shù)據(jù)作為不同的測試集,測試集是用來鑒別種子品種真實性的原 始測試數(shù)據(jù)。
[0013] 上述方案中,步驟2中所述對建模集和測試集依次進行預(yù)處理、偏最小二乘特征 提取和線性鑒別分析特征提取,具體包括:
[0014] 步驟21 :對建模集和測試集的原始數(shù)據(jù)用相同的預(yù)處理方法及相同的參數(shù)進行 預(yù)處理;
[0015] 步驟22 :對經(jīng)過預(yù)處理之后的建模集數(shù)據(jù)進行偏最小二乘特征提取,得到PLS特 征矩陣,以利用該矩陣將數(shù)據(jù)變換到PLS空間;
[0016] 步驟23 :利用該PLS特征矩陣,將經(jīng)過預(yù)處理之后的建模集和測試集數(shù)據(jù)變換到 PLS空間中;
[0017] 步驟24 :對經(jīng)過PLS特征提取之后的建模集數(shù)據(jù)進行線性鑒別分析特征提取,得 到LDA特征矩陣,以利用該投影矩陣將數(shù)據(jù)變換到LDA空間;
[0018] 步驟25 :利用該LDA特征矩陣,將經(jīng)過PLS特征提取之后的建模集和測試集數(shù)據(jù) 變換到LDA空間中;
[0019] 步驟26 :利用變換到LDA空間中的建模集數(shù)據(jù)進行建模,用變換到LDA空間中的 測試集數(shù)據(jù)進行鑒別。
[0020] 上述方案中,步驟2中所述的預(yù)處理、偏最小二乘特征提取、線性鑒別分析特征提 取,在對建模集和測試集處理時采用相同的參數(shù)。所述的預(yù)處理,是為了去除或降低不確定 的背景信息對光譜數(shù)據(jù)的噪聲干擾,采用的預(yù)處理方法包括數(shù)據(jù)歸一化處理、導數(shù)法處理、 平滑處理或中心化及標準化處理。
[0021] 上述方案中,步驟22中所述PLS特征矩陣提取,具體算法如下:
[0022] 步驟221 :對樣本數(shù)據(jù)進行標準化處理,即令樣本的各個變量的均值為0,方差為 1 ;令樣本矩陣為Xtl,類別信息矩陣為Ytl ;其中,Xtl定義為n條光譜p個數(shù)據(jù)點的原始光譜矩 陣,Ytl為對應(yīng)的類別屬性矩陣:
[0023]
【權(quán)利要求】
1. 一種基于近紅外定性分析的種子品種真實性鑒別方法,其特征在于,該方法包括: 步驟1 :采集種子樣本的近紅外光譜數(shù)據(jù),并確定建模集和測試集; 步驟2 :對建模集和測試集依次進行預(yù)處理、偏最小二乘特征提取和線性鑒別分析特 征提取; 步驟3 :從建模集和測試集中選取光譜校正集,并計算建模集與測試集之間的變換矩 陣; 步驟4 :將該變換矩陣應(yīng)用于剩余測試集; 步驟5 :采用支持向量機方法建立定性分析模型; 步驟6 :利用該定性分析模型對剩余測試集進行品種真實性鑒別。
2. 根據(jù)權(quán)利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟1中所述采集種子樣本的近紅外光譜數(shù)據(jù),是采用近紅外光譜儀在不同時間采集 種子樣本的近紅外光譜數(shù)據(jù)。
3. 根據(jù)權(quán)利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟1中所述確定建模集和測試集,是將在同一天采集的光譜數(shù)據(jù)作為建模集,建模集 是用來建立定性分析模型的原始建模數(shù)據(jù);將不同采集日期采集的近紅外光譜數(shù)據(jù)作為不 同的測試集,測試集是用來鑒別種子品種真實性的原始測試數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟2中所述對建模集和測試集依次進行預(yù)處理、偏最小二乘特征提取和線性鑒別分 析特征提取,具體包括: 步驟21 :對建模集和測試集的原始數(shù)據(jù)用相同的預(yù)處理方法及相同的參數(shù)進行預(yù)處 理; 步驟22 :對經(jīng)過預(yù)處理之后的建模集數(shù)據(jù)進行偏最小二乘特征提取,得到偏最小二乘 特征矩陣,以利用該矩陣將數(shù)據(jù)變換到偏最小二乘空間; 步驟23 :利用該偏最小二乘特征矩陣,將經(jīng)過預(yù)處理之后的建模集和測試集數(shù)據(jù)變換 到偏最小二乘空間中; 步驟24 :對經(jīng)過偏最小二乘特征提取之后的建模集數(shù)據(jù)進行線性鑒別分析特征提取, 得到線性鑒別分析特征矩陣,以利用該投影矩陣將數(shù)據(jù)變換到線性鑒別分析空間; 步驟25 :利用該線性鑒別分析特征矩陣,將經(jīng)過偏最小二乘特征提取之后的建模集和 測試集數(shù)據(jù)變換到線性鑒別分析空間中; 步驟26 :利用變換到線性鑒別分析空間中的建模集數(shù)據(jù)進行建模,用變換到線性鑒別 分析空間中的測試集數(shù)據(jù)進行鑒別。
5. 根據(jù)權(quán)利要求4所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟2中所述的預(yù)處理、偏最小二乘特征提取和線性鑒別分析特征提取,在對建模集和 測試集處理時采用相同的參數(shù)。
6. 根據(jù)權(quán)利要求4所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟2中所述的預(yù)處理,是為了去除或降低不確定的背景信息對光譜數(shù)據(jù)的噪聲干擾, 采用的預(yù)處理方法包括數(shù)據(jù)歸一化處理、導數(shù)法處理、平滑處理或中心化及標準化處理。
7. 根據(jù)權(quán)利要求4所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟22中所述偏最小二乘特征矩陣提取,具體算法如下: 步驟221 :對樣本數(shù)據(jù)進行標準化處理,即令樣本的各個變量的均值為0,方差為I ;令 樣本矩陣為Xtl,類別信息矩陣為Ytl ;其中,Xtl定義為η條光譜p個數(shù)據(jù)點的原始光譜矩陣, Ytl為對應(yīng)的類別屬性矩陣:
Yci中,yu = 1表示第i條光譜屬于第j類,yu = 〇表示第i條光譜不屬于第j類; 步驟222:求矩陣Γ Jtl的協(xié)方差矩陣C = X' A),其中協(xié)方差矩陣常數(shù)舍棄; 步驟223 :求得協(xié)方差矩陣C的特征值以及對應(yīng)的特征向量,并將特征向量按照特征值 的大小排列,取最大的η維特征值對應(yīng)的特征向量組成投影矩陣W1^ ; 步驟224 :得到新的特征向量為:x' i = XiW' PIjS。
8. 根據(jù)權(quán)利要求4所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟25中所述將經(jīng)過偏最小二乘特征提取之后的建模集和測試集數(shù)據(jù)變換到線性鑒 別分析空間中,具體如下: 步驟251 :假設(shè)有C類樣本,總樣本數(shù)為INi為第i類樣本數(shù),則定義類內(nèi)散布矩陣Sw、 類間散布矩陣Sb如下:
其中,
^,為第i類模式的均{I
為總樣本均值; 步驟252 :線性鑒別分析分析的目標,是尋找一個變換矩陣W,使得Fisher準則取得最 大值的方向為Sb與Sw比值最大的方向,其中Sw非奇異時:
其中,WiQ = 1,2,...,)對應(yīng)為下式特征值降序排列前η個值對應(yīng)的特征向量:SBw = ASww;如果Sw非奇異,則上式可直接轉(zhuǎn)換為AP1SsW = Iw來求解,即求解對應(yīng)的 特征值和特征矩陣,取最大的η維特征值對應(yīng)的特征向量組成投影矩陣Wuia ; 步驟253:得到Wuia即可進行數(shù)據(jù)轉(zhuǎn)換Y' =YW' ωΑ。
9. 根據(jù)權(quán)利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征在 于,步驟3中所述的建模集和測試集,是指經(jīng)過預(yù)處理、偏最小二乘和線性鑒別分析特征提 取之后的光譜數(shù)據(jù)集。
10. 根據(jù)權(quán)利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟3中所述的選取光譜校正集,是指從建模集和測試集中各自挑選出用于光譜校 正的光譜數(shù)據(jù)。
11. 根據(jù)權(quán)利要求10所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特 征在于,所述從建模集和測試集中各自挑選出用于光譜校正的光譜數(shù)據(jù)是采用Kennard/ Stone算法,具體包括以下過程: 步驟31 :設(shè)置需要選取的校正樣品個數(shù)k ; 步驟32 :計算所有建模集樣本兩兩之間的距離,將距離最遠的兩個樣本選為校正集的 第一、二個樣本; 步驟33 :對于剩余樣本,計算其與已選樣本之間的距離并取其最小值,然后選擇這些 距離中最大值對應(yīng)的樣本為本次選擇樣本; 步驟34 :重復(fù)步驟33,直至選夠k個樣本組成建模集的校正集; 步驟35 :在測試集中選擇建模集中所選出的對應(yīng)編號的樣本作為測試集的校正集。
12. 根據(jù)權(quán)利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟3中所述計算建模集與測試集之間的變換矩陣,具體包括: 步驟a :設(shè)建模集光譜校正集矩陣為S1,測試集光譜校正集矩陣為S3,矩陣的行列分別 表示樣品數(shù)和數(shù)據(jù)點數(shù);由S1和S3根據(jù)公式/7 求得變換矩陣,其中,&和f為 中心化后的光譜矩陣,是&的廣義逆; 步驟b :利用步驟a中得到的F計算背景校正矩陣匕=,其中Sln和s2n分 別為S1和S3每列元素平均值組成的行向量; 通過以上兩步,得到了變換矩陣F和背景校正矩陣bs。
13. 根據(jù)權(quán)利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,由于同一臺光譜儀隨著時間推移,會產(chǎn)生光譜偏移,步驟3中所述的變換矩陣,是為 了在建模集和測試集之間建立校正模型,使測試集可以利用該校正模型進行光譜校正,解 決光譜偏移所帶來的模型不適用的問題,不同的測試集對應(yīng)不同的變換矩陣。
14. 根據(jù)權(quán)利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟4中所述將變換矩陣應(yīng)用于剩余測試集,具體包括: 步驟41 :對測試集光譜中的測試集數(shù)據(jù)X2,計算其變換后的矩陣= I2F + ,其 中,F(xiàn)和bs為求得的變換矩陣和背景校正矩陣,1為全1的列向量,長度為樣本數(shù); 步驟42 :變換后的數(shù)據(jù)矩陣Γ 2即可用已建模型進行鑒別。
15. 根據(jù)權(quán)利要求14所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟4中所述剩余測試集,是指從測試集中挑選出光譜校正集之后剩余的測試數(shù)據(jù) 集。
16. 根據(jù)權(quán)利要求1所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟5中所述采用支持向量機方法建立定性分析模型,具體包括: 步驟51 :將經(jīng)過預(yù)處理及特征提取之后的建模樣本數(shù)據(jù)X1, x2, ...,Xn,作為支持向量 機建模數(shù)據(jù); 步驟52 :確定建模樣本數(shù)據(jù)中的類別標簽數(shù)據(jù)yi,y2, . . .,yn,yi e {+1,-1}; 步驟53 :設(shè)置支持向量機建模過程中的各個參數(shù),包括分類器、核函數(shù)類型等,以此來 確定最佳分類界面; 步驟54 :利用該最佳分類界面,對未知樣本數(shù)據(jù)進行分類。
17. 根據(jù)權(quán)利要求16所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟53中所述設(shè)置支持向量機建模過程中的各個參數(shù),包括分類器、核函數(shù)類型,以 此來確定最佳分類界面,具體包括: 假設(shè)這個最佳的分類界面為:w' x+b = O 則判另函數(shù)為:f(x)=w^ x+b, 因此:
假定兩類樣本到分類界面最小的距離均為d,即存在樣本Xl e Wl,X2 e W2,使得: f (X1) = W1 x^b = d f (x2) = w' x2+b = -d 右邊歸一化得: w' d Xi+bd = 1 w, d x2+bd = 其中:
因此,可得:
? 1 要使分類間隔d = Pl最大,等效于t||wf最小問題轉(zhuǎn)化為一個典型的優(yōu)化問題: s. t YiCwi
Xj+b) -1^0 其中,約束條件表示所有樣本被正確分類,使用拉格朗日算法可以求解此優(yōu)化問題,從 而得到最佳的分類界面。
18. 根據(jù)權(quán)利要求16所述的基于近紅外定性分析的種子品種真實性鑒別方法,其特征 在于,步驟6中所述利用定性分析模型對剩余測試集進行品種真實性鑒別,是利用支持向 量機方法對剩余測試集進行分類鑒別,并給出鑒別結(jié)果,具體包括: 利用所建立的支持向量機分類器的最佳分類界面,對未知分類的測試樣本數(shù)據(jù)進行分 類,根據(jù)其分類結(jié)果確定其所屬類別。
【文檔編號】G01N21/359GK104374739SQ201410599260
【公開日】2015年2月25日 申請日期:2014年10月30日 優(yōu)先權(quán)日:2014年10月30日
【發(fā)明者】張麗萍, 李衛(wèi)軍, 董肖莉, 覃鴻 申請人:中國科學院半導體研究所