本發(fā)明涉及轉(zhuǎn)基因稻谷智能分類器領(lǐng)域,具體為一種基于光譜的轉(zhuǎn)基因稻谷智能分類器。
背景技術(shù):
農(nóng)作物轉(zhuǎn)基因檢測方法主要有2類:第1類方法在市場監(jiān)管檢測中最為常用,是以外源基因的特定dna序列為對象的檢測技術(shù);第2類是蛋白質(zhì)檢測技術(shù)。
1.基于dna序列的檢測方法
(1)pcr檢測方法。依據(jù)其檢測對象不同分為4類:元件特異性pcr、基因特異性pcr、構(gòu)建特異性pcr、轉(zhuǎn)化體特異性pcr。通過pcr技術(shù)檢測轉(zhuǎn)基因轉(zhuǎn)化載體攜帶的啟動子、標(biāo)記基因、終止子等特定序列,判斷其是否為轉(zhuǎn)基因作物。該方法特異性較好、效率較高、費(fèi)用低,是目前我國農(nóng)業(yè)轉(zhuǎn)基因監(jiān)管部門進(jìn)行轉(zhuǎn)基因監(jiān)管檢測的主要方法,目前已發(fā)布此類檢測標(biāo)準(zhǔn)逾50項(xiàng)。該方法通過普通pcr或?qū)崟r(shí)熒光定量pcr對轉(zhuǎn)基因作物通用元件進(jìn)行檢測,是一種較快速、高效的方法,但缺陷是目前通量較小、周期較長,容易出現(xiàn)假陽性。
(2)基因芯片法?;蛐酒ㄓ址Q為dna微探針陣列法,其實(shí)質(zhì)就是高度集成化的反向斑點(diǎn)雜交技術(shù),通過將外源基因的特異性片斷制成檢測芯片,與待測樣本的dna進(jìn)行雜交,反應(yīng)結(jié)果掃描后,通過計(jì)算機(jī)軟件分析,來判斷出待測樣品是否為轉(zhuǎn)基因產(chǎn)品。該方法通量高,但是檢測過程繁瑣,尤其是費(fèi)用很高,對實(shí)驗(yàn)設(shè)備要求高,可普及性較低。
2.基于表達(dá)產(chǎn)物蛋白質(zhì)的檢測方法。以抗體、抗原為基礎(chǔ)的免疫學(xué)蛋白質(zhì)檢測方法,通過定性、定量外源基因表達(dá)產(chǎn)生的蛋白質(zhì)來判斷作物是否為轉(zhuǎn)基因產(chǎn)品。外源表達(dá)蛋白的檢測方法有3種:生化反應(yīng)檢測法;免疫學(xué)檢測法,主要有western雜交、elisa法及免疫沉淀法;外源表達(dá)蛋白生物學(xué)活性的檢測。外源表達(dá)蛋白的檢測是轉(zhuǎn)基因作物檢測及安全性評價(jià)最有效的方法之一,但此種方法只針對某一個(gè)轉(zhuǎn)化事件,需要采取逐個(gè)排除的方法來達(dá)到檢測目的,繁瑣、成本高,不適于大批量盲樣檢測。此外還要考慮轉(zhuǎn)基因后基因表達(dá)沉默的問題,易出現(xiàn)漏檢。
稻谷轉(zhuǎn)基因成分的檢測,現(xiàn)有技術(shù)主要是生化檢測方法,存在著樣品前處理復(fù)雜、檢測過程繁瑣、動用試劑多、檢測費(fèi)用昂貴、檢測時(shí)間長、易出現(xiàn)假陽性,以及檢測人員專業(yè)水平要求高等技術(shù)問題。
技術(shù)實(shí)現(xiàn)要素:
為了克服上述現(xiàn)有技術(shù)中的不足,本發(fā)明提供了一種對稻谷轉(zhuǎn)基因成分陽性和陰性進(jìn)行分類的方法,具有樣本制備簡單、數(shù)據(jù)獲取速度快、分類精度高、定性鑒別準(zhǔn)確、智能化程度高、對檢測人員要求水平低等優(yōu)點(diǎn),可有效解決傳統(tǒng)生化檢測方法對轉(zhuǎn)基因農(nóng)作物存在的檢測速度慢、檢測過程復(fù)雜的問題。
本發(fā)明的目的是這樣實(shí)現(xiàn)的:
一種基于光譜的轉(zhuǎn)基因稻谷智能分類器,包括以下步驟:
1)、標(biāo)樣和樣品制備方案:
2)、標(biāo)樣和樣品的太赫茲時(shí)域光譜數(shù)據(jù)的獲?。?/p>
3)、分類器的設(shè)計(jì);
3.1)、利用主成分分析法壓縮原始數(shù)據(jù)空間維度:
3.2)、支持向量機(jī)分類模型的設(shè)計(jì):
3.3)、支持向量機(jī)分類模型的參數(shù)優(yōu)化。
所述的步驟1)、標(biāo)樣和樣品制備方案,標(biāo)樣用于建立各品系稻谷(包括轉(zhuǎn)基因和非轉(zhuǎn)基因的)的太赫茲標(biāo)準(zhǔn)光譜數(shù)據(jù)集,用于作為分類器的訓(xùn)練集;樣品用于對轉(zhuǎn)基因稻谷分類器的測試,用于作為測試集;制作標(biāo)樣的原材料來源于各稻谷品系的標(biāo)準(zhǔn)物質(zhì),標(biāo)準(zhǔn)物質(zhì)從國家糧食局科學(xué)研究院購買,并具有標(biāo)準(zhǔn)物質(zhì)證書;標(biāo)準(zhǔn)物質(zhì)原材料在充分粉碎、研磨后,取120mg,加入40mg聚乙烯粉末,經(jīng)均質(zhì)器充分混合后,放置壓片機(jī)進(jìn)行壓片。壓片時(shí)保持壓力10mpa三分鐘,取出壓片,用電子螺旋測微器測量厚度(精確到0.01mm)后,放置密封袋封好,密封袋貼標(biāo)簽注明品系名稱和厚度,至此,標(biāo)樣制作完畢;樣品制作過程同標(biāo)樣制作過程;標(biāo)樣或樣品需在半小時(shí)內(nèi)測試完畢,以避免標(biāo)樣放置在空氣中發(fā)生的理化變化;標(biāo)樣或樣品原材料在使用前保持水分含量在12%-15%左右,若水分過高,會影響樣品對太赫茲輻射的吸收,因此需要使用烘干機(jī)進(jìn)行烘干后再進(jìn)行制樣。12%-15%的水分參數(shù)確定來源于糧食安全儲藏相關(guān)國家標(biāo)準(zhǔn)。
所述的步驟2)、標(biāo)樣和樣品的太赫茲時(shí)域光譜數(shù)據(jù)的獲取,具體為:將標(biāo)樣放置于太赫茲時(shí)域光譜儀中,采用透射方式獲取標(biāo)樣的太赫茲時(shí)域光譜數(shù)據(jù);檢測的環(huán)境條件設(shè)置為:環(huán)境溫度:20℃,環(huán)境濕度:≤10%。每種稻谷品系制作30個(gè)標(biāo)樣,每個(gè)標(biāo)樣測量3次,取0.2t-1.2t波段作為有效數(shù)據(jù)進(jìn)行平均,得到每個(gè)標(biāo)樣3次平均的時(shí)域光譜數(shù)據(jù),再利用光譜儀本身的隨機(jī)軟件,獲取該標(biāo)樣的太赫茲吸收譜數(shù)據(jù),總共獲取每種稻谷品系的30組原始吸收譜數(shù)據(jù),作為主成分分析法的輸入數(shù)據(jù),經(jīng)主成分分析法壓縮數(shù)據(jù)空間后,由主成分分析法得到的該組數(shù)據(jù)的輸出數(shù)據(jù),作為支持向量機(jī)分類器的訓(xùn)練集;取30個(gè)稻谷樣品,采用上述太赫茲測試方案,獲取30組原始吸收譜數(shù)據(jù),在經(jīng)過主成分分析法的處理,獲取主成分分析的輸出數(shù)據(jù)集,作為支持向量機(jī)分類器的測試集。
所述的步驟3.1)、利用主成分分析法壓縮原始數(shù)據(jù)空間維度,具體為:取每個(gè)樣本的0.2t-1.2t之間的256個(gè)光譜數(shù)據(jù)作為原始數(shù)據(jù)進(jìn)行壓縮;采用pca算法抽取了原始太赫茲光譜數(shù)據(jù)的最有代表性的前四個(gè)特征向量,這四個(gè)特征向量的累計(jì)信息貢獻(xiàn)率應(yīng)達(dá)到不低于90%,覆蓋原始數(shù)據(jù)絕大部分的信息。如果抽取的四個(gè)主成分的累計(jì)信息貢獻(xiàn)率低于90%,則應(yīng)采用更多的主成分,使所有主成分的累計(jì)貢獻(xiàn)率達(dá)到不低于90%;實(shí)驗(yàn)證明,提取出的前四個(gè)主成分,累計(jì)信息貢獻(xiàn)率已經(jīng)達(dá)到95.2%,因此本專利發(fā)明建議采用pca抽取的前4個(gè)主成分代替原始數(shù)據(jù),這可使得原始數(shù)據(jù)從最初的256維降低至4維,大大簡化了支持向量機(jī)模型的設(shè)計(jì)和模型的運(yùn)算效率;利用pca提取主成分的算法可通過matlab實(shí)現(xiàn)。
所述的步驟3.2)、支持向量機(jī)分類模型的設(shè)計(jì),具體為:用pca對每個(gè)標(biāo)樣的數(shù)據(jù)進(jìn)行前四個(gè)主成分的提取構(gòu)成訓(xùn)練集,對每個(gè)實(shí)際樣品的數(shù)據(jù)進(jìn)行前四個(gè)主成分的提取構(gòu)成測試集。利用訓(xùn)練集構(gòu)造svm分類器,核函數(shù)選擇徑向基函數(shù),利用測試集對svm分類器的分類性能進(jìn)行測試;利用徑向基核函數(shù)構(gòu)造svm分類器的算法可通過matlab實(shí)現(xiàn)。
所述的步驟3.3)、支持向量機(jī)分類模型的參數(shù)優(yōu)化,具體為:在支持向量機(jī)模型中,有兩個(gè)重要的參數(shù)影響支持向量機(jī)的分類性能。一個(gè)是c參數(shù),稱為懲罰系數(shù),表示對誤差的寬容度,c值越高,表示越不能容忍出現(xiàn)誤差,另一個(gè)是與徑向基函數(shù)有關(guān)的γ參數(shù),它隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布。支持向量機(jī)分類模型的建立過程實(shí)際上就是對這兩個(gè)參數(shù)的尋優(yōu)過程。首先對γ參數(shù)進(jìn)行尋優(yōu),設(shè)置不同的γ參數(shù)值(本技術(shù)發(fā)明建議γ從0到5設(shè)置,間隔為0.5),再通過網(wǎng)格搜索法,確定對應(yīng)的c值,構(gòu)建不同的svm分類模型,svm分類模型的性能評估采用下面的指標(biāo)(稱為均方根誤差):
式中n″代表測試集中的樣本數(shù),yi是測試集中第i個(gè)樣本的實(shí)際值,
積極有益效果:本發(fā)明采用太赫茲時(shí)域光譜技術(shù)獲取原始數(shù)據(jù),采用主成分分析結(jié)合支持向量機(jī)的方法設(shè)計(jì)分類器,對稻谷轉(zhuǎn)基因成分的陽性和陰性進(jìn)行分類,具有樣本制備簡單、數(shù)據(jù)獲取速度快、分類精度高、定性鑒別準(zhǔn)確、智能化程度高、對檢測人員要求水平低等優(yōu)點(diǎn),可有效解決傳統(tǒng)生化檢測方法對轉(zhuǎn)基因農(nóng)作物存在的檢測速度慢、檢測過程復(fù)雜的問題。
附圖說明
圖1為四種水稻太赫茲光譜數(shù)據(jù)主成分分析前兩個(gè)主成分(pc1,pc2)得分圖;
圖2為不同參數(shù)r對應(yīng)的支持向量機(jī)模型均方根誤差(rmse)與r對應(yīng)關(guān)系圖。
具體實(shí)施方式
下面結(jié)合具體實(shí)施方式,對本發(fā)明做進(jìn)一步的說明:
本發(fā)明的目的是這樣實(shí)現(xiàn)的:
一種基于光譜的轉(zhuǎn)基因稻谷智能分類器,包括以下步驟:
1)、標(biāo)樣和樣品制備方案:
2)、標(biāo)樣和樣品的太赫茲時(shí)域光譜數(shù)據(jù)的獲?。?/p>
3)、分類器的設(shè)計(jì);
3.1)、利用主成分分析法壓縮原始數(shù)據(jù)空間維度:
3.2)、支持向量機(jī)分類模型的設(shè)計(jì):
3.3)、支持向量機(jī)分類模型的參數(shù)優(yōu)化。
所述的步驟1)、標(biāo)樣和樣品制備方案,標(biāo)樣用于建立各品系稻谷(包括轉(zhuǎn)基因和非轉(zhuǎn)基因的)的太赫茲標(biāo)準(zhǔn)光譜數(shù)據(jù)集,用于作為分類器的訓(xùn)練集;樣品用于對轉(zhuǎn)基因稻谷分類器的測試,用于作為測試集;制作標(biāo)樣的原材料來源于各稻谷品系的標(biāo)準(zhǔn)物質(zhì),標(biāo)準(zhǔn)物質(zhì)從國家糧食局科學(xué)研究院購買,并具有標(biāo)準(zhǔn)物質(zhì)證書;標(biāo)準(zhǔn)物質(zhì)原材料在充分粉碎、研磨后,取120mg,加入40mg聚乙烯粉末,經(jīng)均質(zhì)器充分混合后,放置壓片機(jī)進(jìn)行壓片。壓片時(shí)保持壓力10mpa三分鐘,取出壓片,用電子螺旋測微器測量厚度(精確到0.01mm)后,放置密封袋封好,密封袋貼標(biāo)簽注明品系名稱和厚度,至此,標(biāo)樣制作完畢;樣品制作過程同標(biāo)樣制作過程;標(biāo)樣或樣品需在半小時(shí)內(nèi)測試完畢,以避免標(biāo)樣放置在空氣中發(fā)生的理化變化;標(biāo)樣或樣品原材料在使用前保持水分含量在12%-15%左右,若水分過高,會影響樣品對太赫茲輻射的吸收,因此需要使用烘干機(jī)進(jìn)行烘干后再進(jìn)行制樣。12%-15%的水分參數(shù)確定來源于糧食安全儲藏相關(guān)國家標(biāo)準(zhǔn)。
所述的步驟2)、標(biāo)樣和樣品的太赫茲時(shí)域光譜數(shù)據(jù)的獲取,具體為:
將標(biāo)樣放置于太赫茲時(shí)域光譜儀中,采用透射方式獲取標(biāo)樣的太赫茲時(shí)域光譜數(shù)據(jù);檢測的環(huán)境條件設(shè)置為:環(huán)境溫度:20℃,環(huán)境濕度:≤10%。每種稻谷品系制作30個(gè)標(biāo)樣,每個(gè)標(biāo)樣測量3次,取0.2t-1.2t波段作為有效數(shù)據(jù)進(jìn)行平均,得到每個(gè)標(biāo)樣3次平均的時(shí)域光譜數(shù)據(jù),在利用光譜儀本身的隨機(jī)軟件,獲取該標(biāo)樣的太赫茲吸收譜數(shù)據(jù),總共獲取每種稻谷品系的30組原始吸收譜數(shù)據(jù),作為主成分分析法的輸入數(shù)據(jù),經(jīng)主成分分析法壓縮數(shù)據(jù)空間后,由主成分分析法得到的該組數(shù)據(jù)的輸出數(shù)據(jù),作為支持向量機(jī)分類器的訓(xùn)練集;取30個(gè)稻谷樣品,采用上述太赫茲測試方案,獲取30組原始吸收譜數(shù)據(jù),在經(jīng)過主成分分析法的處理,獲取主成分分析的輸出數(shù)據(jù)集,作為支持向量機(jī)分類器的測試集。
所述的步驟3.1)、利用主成分分析法壓縮原始數(shù)據(jù)空間維度,具體為:取每個(gè)樣本的0.2t-1.2t之間的256個(gè)光譜數(shù)據(jù)作為原始數(shù)據(jù)進(jìn)行壓縮;采用pca算法抽取了原始太赫茲光譜數(shù)據(jù)的最有代表性的前四個(gè)特征向量,這四個(gè)特征向量的累計(jì)信息貢獻(xiàn)率應(yīng)達(dá)到90%以上,覆蓋原始數(shù)據(jù)絕大部分的信息。如果抽取的四個(gè)主成分的累計(jì)信息貢獻(xiàn)率低于90%,則應(yīng)采用更多的主成分,使所有主成分的累計(jì)貢獻(xiàn)率達(dá)到90%以上;實(shí)驗(yàn)證明,提取出的前四個(gè)主成分,累計(jì)信息貢獻(xiàn)率已經(jīng)達(dá)到95.2%,因此本專利發(fā)明建議采用pca抽取的前4個(gè)主成分代替原始數(shù)據(jù),這可使得原始數(shù)據(jù)從最初的256維降低至4維,大大簡化了支持向量機(jī)模型的設(shè)計(jì)和模型的運(yùn)算效率;利用pca提取主成分的算法可通過matlab實(shí)現(xiàn)。
所述的步驟3.2)、支持向量機(jī)分類模型的設(shè)計(jì),具體為:用pca對每個(gè)標(biāo)樣的數(shù)據(jù)進(jìn)行前四個(gè)主成分的提取構(gòu)成訓(xùn)練集,對每個(gè)實(shí)際樣品的數(shù)據(jù)進(jìn)行前四個(gè)主成分的提取構(gòu)成測試集。利用訓(xùn)練集構(gòu)造svm分類器,核函數(shù)選擇徑向基函數(shù),利用測試集對svm分類器的分類性能進(jìn)行測試;利用徑向基核函數(shù)構(gòu)造svm分類器的算法可通過matlab實(shí)現(xiàn)。
所述的步驟3.3)、支持向量機(jī)分類模型的參數(shù)優(yōu)化,具體為:在支持向量機(jī)模型中,有兩個(gè)重要的參數(shù)影響支持向量機(jī)的分類性能。一個(gè)是c參數(shù),稱為懲罰系數(shù),表示對誤差的寬容度,c值越高,表示越不能容忍出現(xiàn)誤差,另一個(gè)是與徑向基函數(shù)有關(guān)的γ參數(shù),它隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布。支持向量機(jī)分類模型的建立過程實(shí)際上就是對這兩個(gè)參數(shù)的尋優(yōu)過程。首先對γ參數(shù)進(jìn)行尋優(yōu),設(shè)置不同的y參數(shù)值(本技術(shù)發(fā)明建議y從0到5設(shè)置,間隔為0.5),再通過網(wǎng)格搜索法,確定對應(yīng)的c值,構(gòu)建不同的svm分類模型,svm分類模型的性能評估采用下面的指標(biāo)(稱為均方根誤差):
式中n″代表測試集中的樣本數(shù),yi是測試集中第i個(gè)樣本的實(shí)際值,
實(shí)施例
如圖1所示四種水稻太赫茲光譜數(shù)據(jù)主成分分析前兩個(gè)主成分(pc1,pc2)得分圖,其中華恢1號,bt汕優(yōu)63為轉(zhuǎn)基因水稻,天優(yōu)998、吉粳88為非轉(zhuǎn)基因水稻;
如圖2所示不同參數(shù)r對應(yīng)的支持向量機(jī)模型均方根誤差(rmse)與r對應(yīng)關(guān)系圖;主:最佳r值為2.6,對應(yīng)的最佳c值為3.1
術(shù)語解釋:1.太赫茲波:太赫茲波是指頻率在0.1thz到10thz(1t=1012hz)范圍的電磁波,波長大概在0.03到3mm范圍,介于微波與紅外之間。
2.太赫茲時(shí)域光譜(thz-tds):是一種新型的、非常有效的相干光譜探測技術(shù)。特征有:(1)對黑體輻射不敏感,信噪比遠(yuǎn)高于傅里葉變換紅外光譜技術(shù)。(2)可探測材料在太赫茲波段的物理和化學(xué)信息。(3)可測得電介質(zhì)材料、半導(dǎo)體材料、生物大分子的振幅和相位信息。(4)可進(jìn)行時(shí)間分辨的測量。
3、主成分分析法(pca):是一個(gè)統(tǒng)計(jì)方法,它可以將高維的原始數(shù)據(jù)集近似成一個(gè)更小維度的正交空間。它是一個(gè)基于特征向量的多變量分析方法,用于在原始數(shù)據(jù)集中提取有限數(shù)目的變量(稱為主成分)構(gòu)成一個(gè)正交的低維數(shù)據(jù)集。主成分(pcs)的數(shù)目不大于原始變量的數(shù)目。主成分pc1有最大的信息量,并且正交于主成分pc2,pc2的信息量多于pc3,以此類推。所有pcs互相正交。
4.支持向量機(jī)(svm):在機(jī)器學(xué)習(xí)中,支持向量機(jī)是與相關(guān)的學(xué)習(xí)算法有關(guān)的監(jiān)督學(xué)習(xí)模型,可以分析數(shù)據(jù),識別模式,用于分類和回歸分析。給定一組訓(xùn)練樣本,每個(gè)樣本標(biāo)記為屬于兩類,一個(gè)svm訓(xùn)練算法建立了一個(gè)模型,通過該模型可分配新的實(shí)例為屬于一類或其他類,使其成為非概率二元線性分類。
太赫茲波透射性強(qiáng),其透射能力遠(yuǎn)強(qiáng)于紅外,因此可以采用透射方式獲得關(guān)于樣品的太赫茲光譜,太赫茲透射光譜必然攜帶了更多的關(guān)于樣品內(nèi)部的物理化學(xué)性能,因而太赫茲光譜比紅外光譜更能反映樣品內(nèi)部理化信息,利用太赫茲光譜對樣品進(jìn)行定性分類也就具有了更高的精確性。
本發(fā)明著力解決稻谷轉(zhuǎn)基因成分快速定性的問題:主要解決兩個(gè)問題:一是檢測速度的問題,本技術(shù)發(fā)明采用太赫茲時(shí)域光譜技術(shù)快速獲取被檢稻谷的光譜數(shù)據(jù),力求大幅度減少稻谷轉(zhuǎn)基因成分的檢測時(shí)間;二是分類器的設(shè)計(jì)問題,本技術(shù)發(fā)明針對光譜檢測數(shù)據(jù)量大的問題,采用主成分分析(pca)降低特征空間維度,結(jié)合支持向量機(jī)(svm)算法,實(shí)現(xiàn)對稻谷轉(zhuǎn)基因成分陽性和陰性的分類。
本發(fā)明采用太赫茲時(shí)域光譜技術(shù)獲取原始數(shù)據(jù),采用主成分分析結(jié)合支持向量機(jī)的方法設(shè)計(jì)分類器,對稻谷轉(zhuǎn)基因成分的陽性和陰性進(jìn)行分類,具有樣本制備簡單、數(shù)據(jù)獲取速度快、分類精度高、定性鑒別準(zhǔn)確、智能化程度高、對檢測人員要求水平低等優(yōu)點(diǎn),可有效解決傳統(tǒng)生化檢測方法對轉(zhuǎn)基因農(nóng)作物存在的檢測速度慢、檢測過程復(fù)雜的問題。
以上實(shí)施案例僅用于說明本發(fā)明的優(yōu)選實(shí)施方式,但本發(fā)明并不限于上述實(shí)施方式,在所述領(lǐng)域普通技術(shù)人員所具備的知識范圍內(nèi),本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替代及改進(jìn)等,均應(yīng)視為本申請的保護(hù)范圍。