本發(fā)明涉及信息識(shí)別及處理領(lǐng)域,尤其涉及一種中草藥種類及不同產(chǎn)地的識(shí)別分類方法。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)、信息處理等的快速發(fā)展,中草藥種類及不同產(chǎn)地的識(shí)別為中草藥的品質(zhì)鑒定等問題尤為重要。相關(guān)中草藥的不同產(chǎn)地研究方式從多個(gè)方面進(jìn)行開展,有效成分與生態(tài)因子間的相關(guān)性研究,有效成分間的差異性研究,中藥材成分的指紋圖譜研究,中草藥成分分析鑒別方法研究,成分元素的波浪式分布研究,中草藥不同部位的有效成分含量研究,運(yùn)用高效液相色譜分析方法研究。為中草藥品質(zhì)鑒定提供一定的理論基礎(chǔ)和實(shí)踐工作指導(dǎo)經(jīng)驗(yàn)。
由于中草藥實(shí)際的數(shù)據(jù)特點(diǎn),支持向量機(jī)SVM中核函數(shù)及參數(shù)的人工選擇具有一定的局限性和盲目性,運(yùn)用仿生搜索算法解決參數(shù)優(yōu)化的問題,提升分類準(zhǔn)確率和速率。因此,提出一種中草藥種類及不同產(chǎn)地的識(shí)別分類方法。
技術(shù)實(shí)現(xiàn)要素:
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種中草藥種類及不同產(chǎn)地的識(shí)別分類方法,具有參數(shù)設(shè)置簡單、快速檢測、全局搜索能力強(qiáng)等優(yōu)點(diǎn),為識(shí)別不同產(chǎn)地的中草藥提供基礎(chǔ)。
本發(fā)明所采用的技術(shù)方案:一種中草藥種類及不同產(chǎn)地的識(shí)別分類方法,所述方法的實(shí)現(xiàn)過程包括以下步驟:
步驟一:對中草藥樣本數(shù)據(jù)集進(jìn)行特征提取的預(yù)處理,特征提取后的中草藥樣本數(shù)據(jù)集分成兩組,75%數(shù)據(jù)集作為訓(xùn)練集數(shù)據(jù),25%數(shù)據(jù)集作為測試集數(shù)據(jù);
步驟二:構(gòu)建支持向量機(jī)SVM訓(xùn)練模型,確定其涉及到的參數(shù)組合,所述參數(shù)組合包括核函數(shù)參數(shù)和懲罰因子,將所述訓(xùn)練集數(shù)據(jù)作為所述訓(xùn)練模型的輸入;
步驟三:運(yùn)用仿生搜索算法對支持向量機(jī)SVM的參數(shù)組合進(jìn)行尋優(yōu),在全局范圍內(nèi)獲得最優(yōu)解;
步驟四:根據(jù)獲取的最優(yōu)參數(shù),對模型進(jìn)行優(yōu)化,將所述測試集數(shù)據(jù)作為優(yōu)化模型的輸入,進(jìn)行數(shù)據(jù)測試,得到中草藥種類及不同產(chǎn)地的識(shí)別分類。
所述方法的實(shí)現(xiàn)過程步驟為:
步驟一中將采集并測量得到的一個(gè)中草藥樣本數(shù)據(jù)信息矩陣Fs向量化,選取其中達(dá)到穩(wěn)態(tài)響應(yīng)值的測量值,組成訓(xùn)練樣本矩其中r代表訓(xùn)練樣本矩陣的行數(shù),由選取的樣本類,樣本個(gè)數(shù)及穩(wěn)態(tài)時(shí)間值個(gè)數(shù)決定,j代表訓(xùn)練樣本類別個(gè)數(shù)j∈[1,3],i代表第j類訓(xùn)練樣本個(gè)數(shù)i∈[1,ni]。
所述方法的實(shí)現(xiàn)過程步驟為:
步驟二中采用徑向基函數(shù)作為支持向量機(jī)的核函數(shù),其形式為:
其中xi、xj表示提取的中草藥樣本數(shù)據(jù)信息的兩個(gè)不同特征向量;σ是徑向基函數(shù)的寬度參數(shù)。
所述方法的實(shí)現(xiàn)過程步驟為:
步驟三中運(yùn)用仿生搜索算法對支持向量機(jī)SVM的核函數(shù)參數(shù)、懲罰因子進(jìn)行尋優(yōu),其具體過程步驟為:
1)獲取中草藥樣本數(shù)據(jù)集;
2)確定仿生搜索初始種群個(gè)體數(shù)量number=20,最大迭代次數(shù)Maxreplace=100,在[-1,1]范圍內(nèi)生成生物個(gè)體的初始位置;
3)賦予生物個(gè)體隨機(jī)飛行方向與距離,計(jì)算生物個(gè)體所在位置與原點(diǎn)之間的距離Disti,獲取味道濃度判定值Ci,其中i表示第i個(gè)生物個(gè)體;
4)將分類準(zhǔn)確率作為適應(yīng)度函數(shù)Fitness function:最佳味道濃度值Smelli=Fitness function(Ci);
5)找到適應(yīng)度函數(shù)中最大值對應(yīng)的分類準(zhǔn)確率最高的生物個(gè)體,并保留最佳味道濃度值及其當(dāng)前所在的位置;
6)進(jìn)入迭代尋優(yōu)過程,判別最高分類準(zhǔn)確率是否優(yōu)于前一代最高分類正確率,若是則將當(dāng)前最高分類準(zhǔn)確率的位置坐標(biāo)賦給初始坐標(biāo),否則返回至步驟3);判別是否達(dá)到最大迭代次數(shù),若是則結(jié)束進(jìn)程,否則返回至步驟3);
7)記錄最優(yōu)參數(shù),優(yōu)化模型構(gòu)建完畢。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明運(yùn)用仿生搜索算法的參數(shù)設(shè)置簡單、快速檢測、全局搜索能力強(qiáng)等特性,構(gòu)建支持向量機(jī)SVM預(yù)測模型,通過參數(shù)尋優(yōu)后再進(jìn)行模型優(yōu)化,提高了分類準(zhǔn)確率和精度,可有效的應(yīng)用到中草藥種類及不同產(chǎn)地的識(shí)別分類。
附圖說明
圖1為中草藥種類及不同產(chǎn)地的識(shí)別分類總體流程圖。
圖2為仿生搜索算法對支持向量機(jī)SVM的參數(shù)尋優(yōu)流程圖。
圖3為優(yōu)化模型的測試集數(shù)據(jù)樣本判別圖。
圖4為圖3優(yōu)化模型的測試集數(shù)據(jù)樣本判別的所有待測樣本相關(guān)性判別結(jié)果圖。
具體實(shí)施方式
下面結(jié)合具體實(shí)施例進(jìn)一步說明本發(fā)明的技術(shù)方案。
1.參照附圖1,按以下步驟進(jìn)行:
步驟1:選取安徽何首烏、廣東何首烏、河南何首烏樣品各100克,各備份為20份,每份為5克(g),切割成面積約1平方厘米的片狀,放置在采集樣品燒杯(200毫升)置于恒溫(60℃)恒濕(75%)的實(shí)驗(yàn)箱中靜置100分鐘。
步驟2:選取20份中的15份樣品(另5份作為未知樣品待檢測)應(yīng)用仿生嗅覺系統(tǒng)對已知安徽何首烏、廣東何首烏、河南何首烏氣味樣品進(jìn)行采集檢測,測量時(shí)間t為100秒(S),采集速率為7.747毫升/分鐘(ml/min),并將所測數(shù)據(jù)Fs(S1,S2,……SN)保存至計(jì)算機(jī)。
步驟3:對步驟2中采集所得到的測量數(shù)據(jù)采用支持向量機(jī)SVM進(jìn)行識(shí)別判斷訓(xùn)練,其中徑向基和函數(shù)為:
其中xi、xj表示提取的中草藥樣本數(shù)據(jù)信息的兩個(gè)不同特征向量;σ是徑向基函數(shù)的寬度參數(shù)。
運(yùn)用仿生搜索算法對訓(xùn)練模型中的參數(shù)進(jìn)行尋優(yōu),優(yōu)化模型后再進(jìn)行數(shù)據(jù)測試,得到中草藥種類及不同產(chǎn)地的識(shí)別分類。
2.所述步驟2及步驟3中使用的數(shù)據(jù)集及方法,具體步驟如下:
步驟1):將采集并測量得到的15份安徽何首烏、廣東何首烏、河南何首烏樣本數(shù)據(jù)信息矩陣Fs向量化,選取其中達(dá)到穩(wěn)態(tài)響應(yīng)值的測量值,組成訓(xùn)練樣本矩陣其數(shù)據(jù)如下表1所示:
表1訓(xùn)練樣本矩陣PT數(shù)據(jù)
其中r=45代表訓(xùn)練樣本矩陣的行數(shù)(其中r=45=3×15×1,選取的樣本類別個(gè)數(shù)j=3,每個(gè)類中樣本個(gè)數(shù)i=10,每個(gè)樣本穩(wěn)態(tài)時(shí)間值個(gè)數(shù)為1),則訓(xùn)練樣本的均值為
步驟2):由步驟1)可得到訓(xùn)練樣本去均值后形成的樣本矩陣T=PT-μ,T∈R45×10,則T的協(xié)方差矩陣為
Q=T×TT(Q∈R45×45) (2)
其中TT是T的轉(zhuǎn)置矩陣。
3.參照附圖2,根據(jù)仿生搜索算法的特點(diǎn),具體步驟如下所示:
步驟1:算法初始化,設(shè)定仿生搜索初始種群個(gè)體數(shù)量number=20,最大迭代次數(shù)Maxreplace=100,在[-1,1]范圍內(nèi)生成生物個(gè)體的初始位置坐標(biāo)(X-axis,Y-axis);
步驟2:賦予生物個(gè)體隨機(jī)飛行方向與距離,計(jì)算生物個(gè)體所在位置與原點(diǎn)之間的距離Disti,獲取味道濃度判定值Ci,其中i表示第i個(gè)生物個(gè)體;
Xi=X-axis+Random Value;Yi=X-axis+Random Value
步驟3:將分類準(zhǔn)確率作為適應(yīng)度函數(shù)Fitness function,味道濃度判定值Ci代入其中:
最佳味道濃度值Smelli=Fitness function(Ci)
步驟3:將分類準(zhǔn)確率作為適應(yīng)度函數(shù)Fitness function,味道濃度判定值Ci代入其中:
最佳味道濃度值Smelli=Fitness function(Ci);
步驟4:找到適應(yīng)度函數(shù)中最大值對應(yīng)的分類正確率最高的生物個(gè)體,并保留最佳味道濃度值及其當(dāng)前所在的位置,此時(shí)生物群體向該位置移動(dòng),每隔固定距離d記錄途徑位置上的氣味濃度值:
Smellbest=bestSmell
X-axis=X(bestIndex);Y-axis=Y(jié)(bestIndex)
步驟5:進(jìn)入迭代尋優(yōu)過程,判別最高分類準(zhǔn)確率是否優(yōu)于前一代最高分類正確率,若是則將當(dāng)前最高分類準(zhǔn)確率的位置坐標(biāo)賦給初始坐標(biāo),否則返回至步驟2;判別是否達(dá)到最大迭代次數(shù),若是則結(jié)束進(jìn)程,否則返回至步驟2;
步驟6:記錄最優(yōu)參數(shù),優(yōu)化模型構(gòu)建完畢。
未知樣品測試集數(shù)據(jù)分類判別:
從3個(gè)產(chǎn)地何首烏樣品的剩余待測樣品中任意選取5組作為未知樣品,重復(fù)步驟2的操作,并利用SVM算法結(jié)合相關(guān)距離公式:
相關(guān)系數(shù)定義
相關(guān)系數(shù)是衡量隨機(jī)變量X與Y相關(guān)程度的一種方法,取值范圍是[-1,1]。
相關(guān)距離定義
Dxy=1-ρXY
來對5組樣品進(jìn)行判別檢測,判別檢測結(jié)果如圖3所示,能準(zhǔn)確識(shí)別并輸出未知樣品的分類及不同產(chǎn)地的名稱。
綜上所述的本發(fā)明的實(shí)施方式,并不構(gòu)成對本發(fā)明保護(hù)范圍的限定。任何在本發(fā)明的精神原則之內(nèi)所作出的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。