一種基于逆向訓(xùn)練的植物圖像集分類方法
【專利摘要】本發(fā)明提供一種基于逆向訓(xùn)練的植物圖像集分類方法,該方法包括四個(gè)步驟:(1)植物數(shù)字圖像預(yù)處理;(2)訓(xùn)練集的聚類和劃分,采用K均值聚類法;(3)分類器訓(xùn)練,測(cè)試集和混合訓(xùn)練集合的分類;(4)集成分類,輸出測(cè)試集的類別標(biāo)簽。該方法采用的是逆向訓(xùn)練的方法,具有良好的分類效果和良好的可理解性。
【專利說明】
一種基于逆向訓(xùn)練的植物圖像集分類方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及圖像集分類領(lǐng)域,特別是一種基于逆向訓(xùn)練的植物圖像集分類方法。
【背景技術(shù)】
[0002] 基于圖像集的植物圖像分類方法研究的對(duì)象是:如何利用分類模型正確識(shí)別待分 類的圖像集類別?;趫D像集的分類系統(tǒng)應(yīng)用領(lǐng)域主要是:人臉的識(shí)別、視頻圖像的分類、 園林植物識(shí)別、醫(yī)藥植物的識(shí)別等等。這幾年來國(guó)內(nèi)外學(xué)者在基于圖像集的分類問題上也 提出了很多的算法。因此,基于圖像集的植物圖像分類系統(tǒng)的研究有著重大的現(xiàn)實(shí)意義,一 旦研究成功并投入應(yīng)用,將產(chǎn)生巨大的社會(huì)和經(jīng)濟(jì)效益。
[0003] 目前,全世界已經(jīng)迎來大數(shù)據(jù)時(shí)代,根據(jù)最新的調(diào)查顯示,2015年將會(huì)有超過200 億個(gè)終端設(shè)備連接到互聯(lián)網(wǎng)上,通過這些智能終端設(shè)備,產(chǎn)生的數(shù)據(jù)總量將會(huì)達(dá)到40zb,全 球服務(wù)器的數(shù)量也將迅猛增加。世界正朝著數(shù)字化時(shí)代快速進(jìn)發(fā),到了 2020年,儲(chǔ)存的數(shù)據(jù) 總量將比2010年大50倍。很多的專家學(xué)者認(rèn)為這一數(shù)據(jù)大爆炸猶如一種新型的石油,如果 能很好的利用,將可以作為一種新型的資產(chǎn)類型。傳統(tǒng)的數(shù)據(jù)往往均是通過數(shù)字來表達(dá)的, 而在大數(shù)據(jù)時(shí)代背景下,諸如圖像、文本、聲音、視頻等數(shù)據(jù)都從微觀上反應(yīng)了人們?nèi)粘I?活的方方面面,從而反應(yīng)出整個(gè)社會(huì)的經(jīng)濟(jì)形態(tài)。如果能夠把這些數(shù)據(jù)收集起來進(jìn)行深入 研究和挖掘,就會(huì)發(fā)現(xiàn)這些數(shù)據(jù)中深藏的規(guī)律和現(xiàn)象。
[0004] 傳統(tǒng)的植物圖像識(shí)別問題中,分類器的訓(xùn)練和測(cè)試都是基于單個(gè)或者少量圖像樣 本的進(jìn)行的。但是隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)的采集、存儲(chǔ)、共享等技術(shù)的普及發(fā)展,在很 多應(yīng)用場(chǎng)景中均能獲得大量的植物圖像數(shù)據(jù),這些植物圖像可以為分類問題提供大量的訓(xùn) 練和測(cè)試樣本。并且由于同類植物在不同環(huán)境、時(shí)間、溫度等狀態(tài)下的特征表現(xiàn)也不相同, 即使同株植物其葉、花等特征也會(huì)有較大差異,因此基于單張圖像的分類技術(shù)將有很大的 局限性?;谥参飯D像集的分類將很好的解決以上問題。以具體的植物葉片識(shí)別為例,從一 張或者多張植物圖像中可以分割出多幅不同情況下的植物葉片圖像,這些圖像自然的構(gòu)成 了對(duì)應(yīng)于多個(gè)植物個(gè)體的多個(gè)圖像集合。在識(shí)別階段,同樣可以收集待識(shí)別植物個(gè)體的多 幅葉片圖像集合,從而取代傳統(tǒng)方法中的單張葉片圖像。使用不同植物的這些圖像集合,就 可以設(shè)計(jì)基于圖像集合的植物葉片識(shí)別系統(tǒng)。
[0005] 目前,基于圖像集的分類問題,更多的是應(yīng)用在基于視頻的人臉識(shí)別問題上,此類 問題的主要研究方向是如何處理視頻中的光照、姿態(tài)、視角、遮擋等問題,并充分利用較多 的圖像及其內(nèi)含的豐富變化模式信息,來建立基于圖像集合的人臉識(shí)別系統(tǒng)。從目前的圖 像集識(shí)別理論發(fā)展來看,基于圖像集合的識(shí)別算法區(qū)別主要集中在如何對(duì)每個(gè)數(shù)據(jù)集合進(jìn) 行數(shù)學(xué)建模以及如何對(duì)建模好的模型進(jìn)行相似性度量上。
[0006]在目前的圖像集合分類理論中,子空間建模的方法是研究最多、使用最廣的一種 建模思想。隨著子空間學(xué)習(xí)方法的深入研究,人們嘗試以子空間描述圖像集合,可以將數(shù)據(jù) 的學(xué)習(xí)問題轉(zhuǎn)為子空間上的學(xué)習(xí)問題,使解決方法更加簡(jiǎn)單有效。具有開創(chuàng)性的工作是 O.Yamaguchi等提出的互子空間方法(Mutual Subspace Method,MSM)。這種方法直接把每 個(gè)圖像集合建模為線性子空間,然后通過主夾角度量各個(gè)子空間間的相似度,最后通過最 近鄰判斷分類結(jié)果。由于圖像涵蓋了物體廣泛的表觀變化模式,數(shù)據(jù)樣本本身并不一定分 布在一個(gè)線性空間上,因此根據(jù)MSM的改進(jìn)有很多。最早的改進(jìn)算法是Fukui等提出的約束 互子空間算法(Constrained Mutual Subspace MethocUCMSM),這種算法把圖像集的所有 樣本點(diǎn)投影到一個(gè)更具判別性的線性子空間上,以解決樣本點(diǎn)不在一個(gè)線性子空間的問 題。T? K.Kim等提出一種相關(guān)關(guān)系判別分析方法(Discriminant-analysis of Canonical Correlations,DCC),這種方法利用類似于線性判別分析(Linear Discriminant Analysis,LDA)的思想,根據(jù)最小化類內(nèi)相關(guān)性并最大化類間相關(guān)性,以求得子空間的投影 變換矩陣。這類算法的最大局限是僅僅把數(shù)據(jù)樣本建模成一個(gè)線性的空間上,然后通過相 對(duì)較弱的判別信息(線性空間的夾角)度量相似度。
[0007] 隨著流形學(xué)習(xí)方法的發(fā)展,人們意識(shí)到復(fù)雜數(shù)據(jù)往往分布在一個(gè)非線性的流形 上,通過流形學(xué)習(xí)的思想對(duì)圖像集建模的方法應(yīng)運(yùn)而生。Fan和Yeung等把樣本數(shù)據(jù)建模在 一個(gè)非線性的流形上,然后使用層次聚類去挖掘流形的局部線性結(jié)構(gòu),把每一個(gè)流形建模 成多個(gè)近似線性子空間的集合,使用相關(guān)角度去度量線性子空間的相似度,最后的相似性 結(jié)果通過綜合投票的方法確定。Hadid和Pietikainen同樣使用局部的線性模型去模擬非線 性流形。他們首先使用流形學(xué)習(xí)算法局部線性嵌入(Locally Linear Embedding,LLE)對(duì)數(shù) 據(jù)進(jìn)行降維,然后利用k均值聚類算法劃分出不同的聚類模型,使用聚類中心表示每一類的 聚類樣本,然后通過度量以及綜合這些樣例點(diǎn)對(duì)的距離獲得圖像集對(duì)間的距離。Wang等提 出計(jì)算流形間距離的框架(Manifold-Manifold Distance,MMD),其基本思想是:首先把圖 像集合建模為一個(gè)非線性的流形,然后通過最大線性嵌入聚類算法將流形表示為一組局部 線性模型,因此計(jì)算流形距離的問題轉(zhuǎn)化為計(jì)算局部模型對(duì)間距離的問題。Chen等使用聯(lián) 合稀疏表示對(duì)流形中的子空間進(jìn)行建模,然后通過計(jì)算稀疏表示的重建誤差,來計(jì)算子空 間對(duì)間的距離。邵每文等提出基于流形間距離的植物物種機(jī)器識(shí)別方法,首先提取了植物 圖像的圖像特征,然后將每一類的多個(gè)樣本刻畫成一個(gè)非線性的流形,識(shí)別問題因此轉(zhuǎn)化 為度量不同流形之間的距離。
[0008] 除了線性/非線性流形的建模方法,人們嘗試用更多的方法對(duì)圖像集合進(jìn)行建模。 H.Cevikalp提出使用仿射包和凸包(Affine/Convex Hull)建模,算法使用仿射包、凸包集 合集合理論把圖像集表示出來,然后運(yùn)用凸優(yōu)化的方法求得兩個(gè)包的最近虛擬點(diǎn)間的距 離,以此表示兩個(gè)集合的距離。Yiqun Hu將稀疏表示加入凸包建模中,提出稀疏化近似最近 鄰點(diǎn)的方法(Sparse approximated nearest points JANPhMeng在此之上又對(duì)凸包加入 了正則化的約束,以減少SANP的復(fù)雜度,提高分類效果。
[0009] Wang等通過統(tǒng)計(jì)的方法對(duì)圖像集進(jìn)行建模,使用圖像集樣本點(diǎn)的二階統(tǒng)計(jì)量即協(xié) 方差矩陣描述圖像集,然后通過核函數(shù)使分布在黎曼流形上的二階統(tǒng)計(jì)量數(shù)據(jù)映射到歐式 空間上,最后使用經(jīng)典的LDA或者偏最小二乘算法進(jìn)行分類。Lu之后又提出使用多階統(tǒng)計(jì)量 描述圖像集,綜合了一階均值、二階協(xié)方差矩陣以及前三階統(tǒng)計(jì)量的信息,然后用多核學(xué)習(xí) 的方法計(jì)算圖像集之間的距離。
[0010] Arif Mahmood等使用半監(jiān)督譜聚類對(duì)圖像集進(jìn)行分類,首先把每一類建模到PCA 空間中,然后使用半監(jiān)督的層次聚類對(duì)所有的樣本點(diǎn)進(jìn)行聚類,標(biāo)簽僅僅在終止聚類時(shí)起 作用,然后根據(jù)每類中樣本的概率分布定義圖像集間的距離。
[0011] 以上算法大部分應(yīng)用在基于視頻的人臉識(shí)別上,在植物圖像集分類上還是比較缺 乏的。
【發(fā)明內(nèi)容】
[0012] 本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)中的上述缺陷,提出一種基于逆向訓(xùn)練的植 物圖像集分類方法。該方法能夠提供一種針對(duì)植物圖像分類中大測(cè)試樣本集和大訓(xùn)練樣本 集的高效分類器,實(shí)現(xiàn)快速學(xué)習(xí)和高精度識(shí)別。
[0013] 本發(fā)明采用如下技術(shù)方案:
[0014] -種基于逆向訓(xùn)練的植物圖像集分類方法,用于將待識(shí)別的測(cè)試集進(jìn)行分類,其 特征在于,預(yù)先獲取已知類別標(biāo)簽的植物數(shù)字圖像作為訓(xùn)練集,其余步驟如下:
[0015] 1)將訓(xùn)練集圖像和待識(shí)別的測(cè)試集圖像進(jìn)行預(yù)處理以提取特征;
[0016] 2)將訓(xùn)練集的樣本集合分別進(jìn)行聚類,而后拆分成混合訓(xùn)練集和其余訓(xùn)練集;
[0017] 3)將混合訓(xùn)練集與待識(shí)別的測(cè)試集訓(xùn)練一個(gè)二分類器;
[0018] 4)將步驟2)的其余訓(xùn)練集輸入步驟3)的二分類器,即可得到剩余訓(xùn)練集中每個(gè)樣 本集合的類別標(biāo)簽,得到剩余訓(xùn)練集樣本集合中樣本的輸出標(biāo)簽和測(cè)試集標(biāo)簽相同的樣本 數(shù)目,其中比重最多的訓(xùn)練集的已知類別標(biāo)簽為所求的測(cè)試集類別標(biāo)簽。
[0019] 優(yōu)選的,在步驟1)中所述的預(yù)處理包括對(duì)樣本進(jìn)行二值化、平滑、分割和規(guī)范化, 并提取G i s t特征和PH0G特征。
[0020] 優(yōu)選的,在步驟2)中,所述聚類采用K均值算法。
[0021]優(yōu)選的,在步驟2)中,所述的拆分為目的性拆分或目的性選擇。
[0022] 優(yōu)選的,在步驟2)中,所述的混合訓(xùn)練集的圖像數(shù)目要接近或等于步驟1)中所述 待識(shí)別的測(cè)試集的圖像數(shù)目。
[0023] 優(yōu)選的,所述二分類器采用支持向量機(jī)。
[0024] 由上述對(duì)本發(fā)明的描述可知,與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:
[0025] 本發(fā)明的逆向訓(xùn)練將一個(gè)簡(jiǎn)單的分類算法擴(kuò)展到解決多分類問題。相較于將一對(duì) 一、一對(duì)多的二分類擴(kuò)展到多分類問題,逆向訓(xùn)練更加有效,只需要訓(xùn)練一次二分類器。實(shí) 驗(yàn)結(jié)果也表明,相較于現(xiàn)有的圖像集分類方法,該方法能夠提供一種針對(duì)植物圖像分類中 大測(cè)試樣本集和大訓(xùn)練樣本集的高效分類器,實(shí)現(xiàn)快速學(xué)習(xí)和高精度識(shí)別。
【附圖說明】
[0026]圖1是本發(fā)明方法的模型,圖中輸入的訓(xùn)練集和測(cè)試集圖像是已經(jīng)進(jìn)過預(yù)處理;圖 中,Training set表示為訓(xùn)練集圖像集集合;Query Image set表示為單個(gè)測(cè)試圖像集; Divided為訓(xùn)練集目的拆分得到混合訓(xùn)練集;Train binary classifier表示為混合訓(xùn)練集 和測(cè)試集訓(xùn)練分類器;Test x2 on trained Classifier表示在訓(xùn)練好的分類器中測(cè)試拆 分剩余的訓(xùn)練集X2,得到和測(cè)試集相同類別的訓(xùn)練集集合;
[0027]圖2是本發(fā)明方法的流程圖;
[0028] 圖3為在提取訓(xùn)練集圖像樣本不同特征情況下,本發(fā)明方法的分類準(zhǔn)確率;
[0029] 圖4為現(xiàn)有的圖像集分類算法在選定的植物圖像庫(kù)中分類準(zhǔn)確率。
【具體實(shí)施方式】
[0030] 以下通過【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步的描述。
[0031] 參照?qǐng)D1、圖2,一種基于逆向訓(xùn)練的植物圖像集分類方法,用于將待識(shí)別的測(cè)試集 進(jìn)行分類,假設(shè)該帶識(shí)別的測(cè)試集為r = ,輸出類別標(biāo)簽y。該方法能夠提供一種針對(duì) 植物圖像分類中大測(cè)試樣本集和大訓(xùn)練樣本集的高效分類器,實(shí)現(xiàn)快速學(xué)習(xí)和高精度識(shí) 另IJ。預(yù)先獲取已知類別標(biāo)簽的植物數(shù)字圖像作為訓(xùn)練集,該訓(xùn)練集包括有M個(gè)圖像集:Xi, X2,. . .,Xm,第C個(gè)圖像集Xc;={xt|yt = c:t = l,2, . . .,N。},包含N。張同類圖片,該圖像集標(biāo)簽 為ycG[l,2,. . .,M]。其余步驟如下:
[0032] 1)將訓(xùn)練集圖像和待識(shí)別的測(cè)試集圖像進(jìn)行預(yù)處理,包括二值化、平滑、分割、規(guī) 范化,得到預(yù)處理得到的圖像,并提取合適的圖像特征,例如Gist特征和PH0G特征。本發(fā)明 采用兩個(gè)特征線性組合的方法來進(jìn)行植物圖像逆向訓(xùn)練,特征信息線性組合函數(shù)為:F = a F1+0F2,其中0〈 = a〈 = l,〇〈 = 0〈 = 1且a+0=l,F(xiàn)1:為特征集向量1,F(xiàn)2為特征集向量2。
[0033]其中,描述圖像形狀信息的一種有效方法是梯度方向直方圖(Histogram of Orientated Gradients,H0G),H0G特征通過提取局部區(qū)域的邊緣或梯度的分布,可以很好 地表征局部區(qū)域內(nèi)目標(biāo)的邊緣或梯度結(jié)構(gòu),進(jìn)而表征目標(biāo)的形狀。Bosch提出塔式梯度方向 直方圖(Pyramid Histogram of Orientated Gradients,PH0G),PH0G相對(duì)于傳統(tǒng)H0G的優(yōu) 點(diǎn),是可以檢測(cè)到不同尺度的特征,表達(dá)能力更強(qiáng)。PH0G特征首先將邊緣圖像進(jìn)行金字塔分 層,然后在每層上提取H0G特征,最后將各層的特征向量連接起來表示PH0G的特征向量。此 外,GIST特征簡(jiǎn)明扼要的提取圖像的上下文信息,模擬量人的視覺提取過程。按照Oliva和 Torralba提出的方法,將用4個(gè)尺度8個(gè)方向的Gabor濾波器組處理得到的圖像分成4 X 4的 網(wǎng)格,也就是說最后得到圖像的Gist特征維數(shù)為4 X 4 X 32 = 512。
[0034] 2)采用K均值算法將訓(xùn)練集的每個(gè)類的訓(xùn)練集分別聚成K個(gè)簇,作為訓(xùn)練集Xc = {X^Xs,. . .,XK},從聚類之后生成的簇中選取一定數(shù)目的圖片組合成混合訓(xùn)練訓(xùn)練集X:= { X1,X2,…,^hX1中圖像的數(shù)目j要和待識(shí)別的測(cè)試集的圖像數(shù)目相同或接近,這一步稱之 為目的性選擇或者目的性拆分。訓(xùn)練集剩下的部分為其余訓(xùn)練集…,私丨。尤1 是有^張圖像的X。圖像集的拆分的圖像樣本或者說是選取的圖像樣本,其中(整 C.-.1 數(shù)),X1為U =1,2,…,M。其余訓(xùn)練集X 2為X2 = XXX1,~=e [],2,…,M],t = 1,2,。
[0035] 3)將混合訓(xùn)練集X1與待識(shí)別的測(cè)試集Y訓(xùn)練一個(gè)二分類器。即訓(xùn)練一個(gè)二分類器 &。訓(xùn)練是在X\Y上做的。待識(shí)別的測(cè)試集Y中所有圖像標(biāo)記為+1,混合訓(xùn)練集X1中所有的圖 像標(biāo)記為-1。將X 1中包含的和Y同類別圖像作為外點(diǎn)。此外,考慮測(cè)試階段X2中的圖像輸入到 二分類器&中,分類器需要有對(duì)不可預(yù)測(cè)的數(shù)據(jù)的處理能力,而支持向量機(jī)(SVM)在解決線 性可分的問題上有著凸優(yōu)化最為理論背景,有著固定套路的尋優(yōu)算法,在線性可分的問題 上有著較大的抗擾動(dòng)性,可以解決過擬合問題。所以本發(fā)明選擇線性支持向量機(jī)(Support Vector Machine with a 1 inear Kernel)。給定一個(gè)訓(xùn)練集的樣本-標(biāo)簽對(duì)(x(t),y(t)),y ^£{ + 1,-1},分類器(:1的優(yōu)化問題為
,式中w為系 數(shù)向量;c>0為懲罰參數(shù)。
[0036] 4)分別將其余訓(xùn)練集X2中每個(gè)類別的圖像輸入到上一步訓(xùn)練好的分類器Q中識(shí) 另IJ,即可得到每個(gè)剩余訓(xùn)練集樣本集合的類別標(biāo)簽,得到剩余訓(xùn)練集樣本集合中樣本的輸 出標(biāo)簽和測(cè)試集標(biāo)簽相同的樣本數(shù)目,其中比重最多的訓(xùn)練集的已知類別標(biāo)簽為所求的測(cè) 試集類別標(biāo)簽。因?yàn)閄2中每個(gè)類的標(biāo)簽是已知的,所以和待識(shí)別的測(cè)試集Y類別相同的X 2中 的某個(gè)數(shù)量最多的類別就是y。具體的,輸入的圖片和Y同類別的圖片將被標(biāo)記為+1,記為 3^, $〔心;計(jì)算'類別標(biāo)簽歸一化的頻率直方圖h,設(shè)h。為在X 2中c類被識(shí)別為+1圖 片的百分比,則
[0039] 輸出待識(shí)別測(cè)試集Y的類別標(biāo)簽y<3X2中被識(shí)別為+1的圖片數(shù)目最大的類為預(yù)計(jì)的 Y的類別標(biāo)簽少=argmax/7?。 C
[0040] 本發(fā)明的逆向訓(xùn)練將一個(gè)簡(jiǎn)單的分類算法擴(kuò)展到解決多分類問題。相較于將一對(duì) 一、一對(duì)多的二分類擴(kuò)展到多分類問題,逆向訓(xùn)練更加有效,只需要訓(xùn)練一次二分類器。實(shí) 驗(yàn)結(jié)果也表明,相較于現(xiàn)有的圖像集分類方法,本發(fā)明提出的方法更加有效。
[0041 ] 舉例說明
[0042]從中科院合肥機(jī)械智能計(jì)算實(shí)驗(yàn)室建立的植物葉片數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)含有221種 植物共一萬七千多幅植物葉片圖像,并且采集自不同時(shí)間、不同植株上,因此不同的葉片圖 像受到光照、視角、變形等因素的影響。研究中選擇83種植物,圖片總數(shù)超過3萬張,隨機(jī)分 成測(cè)試集和訓(xùn)練集。每張葉片圖像均為獨(dú)立葉片,進(jìn)行過預(yù)處理,圖像分辨率為30 X 30,考 慮到實(shí)驗(yàn)需要大量樣本集,所以實(shí)驗(yàn)中每個(gè)圖像樣本集含有超多200張圖片。隨機(jī)抽取圖像 樣本一部分組成訓(xùn)練樣本集,另一部分組成測(cè)試樣本集。
[0043] A.植物葉片不同特征提取的結(jié)果
[0044] 設(shè)定級(jí)數(shù)為L(zhǎng) = 3,梯度方向劃分為20個(gè)區(qū)間,PH0G描述符就由3個(gè)梯度方向直方圖 特征向量順序聯(lián)接成為420維,4個(gè)尺度8個(gè)方向的512維GIST特征。
[0045] B.圖像特征的線性組合
[0046] 葉片分類常用到的特征有顏色特征、紋理特征、形狀特征、局部特征??梢妴我坏?特征并不能很好的表征葉片信息,所以本文使用兩個(gè)特征線性組合的方法來進(jìn)行植物圖像 反向訓(xùn)練,特征信息線性組合函數(shù)為:
[0047] F = aF1+0F2,其中 〇〈 = a〈 = l,〇〈 = 0〈 = l 且 a+0=l [0048] C.集成分類
[0049]采用本發(fā)明中的集成分類算法對(duì)植物圖像集進(jìn)行分類。將PH0G特征GIST特征融合 作為植物葉片特征進(jìn)行實(shí)驗(yàn)。對(duì)比的方法有互子空間方法(Mutual Subspace Method, MSM)、基于流形-流形距離框架方法(Manifold-Manifold Distance,MMD)、基于流行判別分 析方法(Manifold Discriminant Analysis,MD A)、協(xié)方差判別法(Covariance Discriminative Learning,CDL)、基于凸包和仿射包距離的方法(Aff ine/Convex Hul 1 based Image set Distance,AHISD/CHISD)、稀疏化近似最近的點(diǎn)方法(Sparse approximated nearest points,SANP)、基于正則化的最近點(diǎn)算法(Regularized Nearest Points,RNP)。試驗(yàn)中,以上方法的參數(shù)都是參照相關(guān)論文、實(shí)驗(yàn)設(shè)置的最優(yōu)值.圖3為在提 取訓(xùn)練集圖像樣本不同特征情況下,本發(fā)明方法的分類準(zhǔn)確率,圖4為現(xiàn)有的圖像集分類算 法在選定的植物圖像庫(kù)中分類準(zhǔn)確率。
[0050]上述僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的設(shè)計(jì)構(gòu)思并不局限于此,凡利用此 構(gòu)思對(duì)本發(fā)明進(jìn)行非實(shí)質(zhì)性的改動(dòng),均應(yīng)屬于侵犯本發(fā)明保護(hù)范圍的行為。
【主權(quán)項(xiàng)】
1. 一種基于逆向訓(xùn)練的植物圖像集分類方法,用于將待識(shí)別的測(cè)試集進(jìn)行分類,其特 征在于,預(yù)先獲取已知類別標(biāo)簽的植物數(shù)字圖像作為訓(xùn)練集,其余步驟如下: 1) 將訓(xùn)練集圖像和待識(shí)別的測(cè)試集圖像進(jìn)行預(yù)處理以提取特征; 2) 將訓(xùn)練集的樣本集合分別進(jìn)行聚類,而后拆分成混合訓(xùn)練集和其余訓(xùn)練集; 3) 將混合訓(xùn)練集與待識(shí)別的測(cè)試集訓(xùn)練一個(gè)二分類器; 4) 將步驟2)的其余訓(xùn)練集輸入步驟3)的二分類器,即可得到剩余訓(xùn)練集中的每個(gè)樣本 集合的類別標(biāo)簽,得到剩余訓(xùn)練集的樣本集合中樣本的輸出標(biāo)簽和測(cè)試集標(biāo)簽相同的樣本 數(shù)目,其中比重最多的訓(xùn)練集的已知類別標(biāo)簽為所求的測(cè)試集類別標(biāo)簽。2. 如權(quán)利要求1所述的一種基于逆向訓(xùn)練的植物圖像集分類方法,其特征在于:在步驟 1) 中所述的預(yù)處理包括對(duì)樣本進(jìn)行二值化、平滑、分割和規(guī)范化,并提取Gist特征和PHOG特 征。3. 如權(quán)利要求1所述的一種基于逆向訓(xùn)練的植物圖像集分類方法,其特征在于:在步驟 2) 中,所述聚類采用K均值算法。4. 如權(quán)利要求1所述的一種基于逆向訓(xùn)練的植物圖像集分類方法,其特征在于:在步驟 2)中,所述的拆分為目的性拆分或目的性選擇。5. 如權(quán)利要求1所述的一種基于逆向訓(xùn)練的植物圖像集分類方法,其特征在于:在步驟 2)中,所述的混合訓(xùn)練集的圖像數(shù)目要接近或等于步驟1)中所述待識(shí)別的測(cè)試集的圖像數(shù) 目。6. 如權(quán)利要求1所述的一種基于逆向訓(xùn)練的植物圖像集分類方法,其特征在于:所述二 分類器采用支持向量機(jī)。
【文檔編號(hào)】G06K9/66GK105930876SQ201610317701
【公開日】2016年9月7日
【申請(qǐng)日】2016年5月13日
【發(fā)明人】杜吉祥, 張宇卉, 翟傳敏, 范文濤, 王靖, 劉海建
【申請(qǐng)人】華僑大學(xué)