本發(fā)明涉及高光譜圖像分類,具體涉及一種基于局部流形嵌入的高光譜圖像分類方法,屬于高光譜圖像分類技術(shù)領(lǐng)域。
背景技術(shù):
科學(xué)研究者們于20世紀(jì)80年代初在多光譜遙感的基礎(chǔ)上提出了高光譜遙感。高光譜遙感影像的光譜分辨率高達(dá)10-2λ數(shù)量級(屬于納米級),波段范圍從可見光到短波紅外,光譜波段數(shù)多達(dá)數(shù)十個(gè)甚至數(shù)百個(gè)以上,高光譜分辨率高的特點(diǎn)使高光譜圖像數(shù)據(jù)相鄰波段間的間隔較窄,存在波段重疊區(qū)域,光譜通道不再離散而呈現(xiàn)出連續(xù),因此高光譜遙感通常又被稱為成像光譜遙感。高光譜遙感不僅可以解決地物大類的識別問題,而且可以進(jìn)行類內(nèi)細(xì)分或精細(xì)光譜特征提取。高光譜遙感影像分類首先需要對待測數(shù)據(jù)進(jìn)行特征提取,實(shí)現(xiàn)維數(shù)約簡,然后再對提取出來的特征進(jìn)行分類。
高光譜遙感影像是由成像光譜儀獲取的,含有豐富的信息,給地物研究帶來了新的機(jī)遇。但由于高光譜遙感影像數(shù)據(jù)量大、數(shù)據(jù)間相關(guān)性強(qiáng)、冗余度大、維數(shù)高、信息隱含,傳統(tǒng)分類方法很易導(dǎo)致Hughes現(xiàn)象,即“維數(shù)災(zāi)難”。因此,如何從高維數(shù)據(jù)中有效地提取出隱含特征,降低數(shù)據(jù)維數(shù)成為高光譜遙感影像在數(shù)據(jù)處理方面研究的重點(diǎn)。
1、流形學(xué)習(xí)方法
以統(tǒng)計(jì)學(xué)原理為基礎(chǔ)提出的特征提取方法主要是利用數(shù)據(jù)的統(tǒng)計(jì)特征,忽略了數(shù)據(jù)的幾何分布。為揭示數(shù)據(jù)的內(nèi)在結(jié)構(gòu),研究者提出了“流形(Manifold)”的概念,它屬于歐氏空間的一個(gè)推廣概念,流形上的每個(gè)點(diǎn)在歐氏空間中都具有與其同胚的點(diǎn),也就是流形可以通過大量的歐氏空間塊粘結(jié)在一起。流形包含了拓?fù)鋵W(xué)、數(shù)學(xué)分析、微分幾何、代數(shù)學(xué)等學(xué)科,已是現(xiàn)代科學(xué)研究的基礎(chǔ)工具。
流形在數(shù)學(xué)上可定義為:Hausdorff空間中的任意點(diǎn)x于x的開鄰域U在歐氏空間中的一個(gè)開子集屬于同胚,被稱為d維拓?fù)淞餍?,即d維流形。Hausdorff空間是指任意集合中的兩個(gè)數(shù)據(jù)點(diǎn),都有各自的開鄰域,兩個(gè)開鄰域之間不存在交集。Whitney表明任何流形在維度足夠大的歐氏空間都能被嵌入。
流形學(xué)習(xí)(Manifold Learning)是在流形的基礎(chǔ)上提出的數(shù)據(jù)處理方法,目的是從高維數(shù)據(jù)中尋找可嵌入的低維流形。流形學(xué)習(xí)的概念最初是由Bregler和Omohundro于1994年在語音識別和圖像插值的研究中提出;2000年,在Science發(fā)表的兩篇關(guān)于流形學(xué)習(xí)算法的論文,使流形學(xué)習(xí)的研究與應(yīng)用進(jìn)入巔峰。流形學(xué)習(xí)的前提是高維數(shù)據(jù)中存在一個(gè)潛在的流形,通過某種方式對高維數(shù)據(jù)進(jìn)行學(xué)習(xí),得到一個(gè)映射關(guān)系,實(shí)現(xiàn)數(shù)據(jù)從高維空間到低維空間的投影,在低維空間中不改變數(shù)據(jù)原高維空間的固有特征或幾何結(jié)構(gòu),從而發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在屬性。
流形學(xué)習(xí)的數(shù)學(xué)描述為:一組維度為D的高維數(shù)據(jù)X=[x1,x2,…,xN],假設(shè)數(shù)據(jù)位于本征維度為d(一般d<<D)的低維流形上,流形學(xué)習(xí)的目的是找到每個(gè)高維數(shù)據(jù)點(diǎn)的低維嵌入即求解一個(gè)高維空間到低維空間的映射關(guān)系g,使yi=g(xi),同時(shí)得到重構(gòu)映射g-1,使xi=g-1(yi),映射g應(yīng)在約束條件下不改變原高維數(shù)據(jù)的固有特性或幾何結(jié)構(gòu)關(guān)系。
隨著流形學(xué)習(xí)的廣泛應(yīng)用,學(xué)者們提出大量的流形學(xué)習(xí)方法,經(jīng)典算法主要有ISOMAP、LLE、LE。
ISOMAP算法是在2000年由Tenenbaum等提出,基本理論是利用測地距離來度量高維數(shù)據(jù)的幾何結(jié)構(gòu)關(guān)系,在低維嵌入空間中保持近鄰數(shù)據(jù)在高維空間的幾何結(jié)構(gòu)不變,即:在映射時(shí),不改變近鄰數(shù)據(jù)在高維空間中的測地距離,從而揭示出高維數(shù)據(jù)中的低維流形。
LLE是在2000年Roweis和Saul提出,基本原則是非線性數(shù)據(jù)的局部呈現(xiàn)線性分布,在低維嵌入空間中不改變數(shù)據(jù)在高維空間中由鄰域線性組合表示的局部線性結(jié)構(gòu),進(jìn)而揭示出高維數(shù)據(jù)的內(nèi)在流形。
LE算法是由Belkin和Niyogi在2003年提出,在高維空間中由數(shù)據(jù)的局部相似性,構(gòu)建一個(gè)相似圖,通過拉普拉斯算子對圖進(jìn)行處理,在低維嵌入空間中,保留數(shù)據(jù)的局部信息不變,得到低維嵌入特征。LE算法的原則是使高維空間中距離相隔越遠(yuǎn)(或近)的數(shù)據(jù),在低維空間中也離的越遠(yuǎn)(或近)。
2、圖嵌入方法
圖嵌入是一個(gè)描述特征提取算法的統(tǒng)一框架,不僅能統(tǒng)一大部分經(jīng)典的特征提取算法,而且能發(fā)展新的特征提取算法,這些算法的主要區(qū)別在于相似矩陣和約束矩陣的構(gòu)建方式不同。
2.1圖嵌入
圖嵌入(Graph Embedding,GE)是利用圖譜理論來表達(dá)數(shù)據(jù)的某種統(tǒng)計(jì)或者幾何特性,通過拉普拉斯算子對構(gòu)建的圖進(jìn)行操作,在低維嵌入時(shí),保留圖中有利信息,抑制圖中無用信息,實(shí)現(xiàn)特征提取。在實(shí)際應(yīng)用中通過構(gòu)建一個(gè)本征圖來表示同類數(shù)據(jù)的統(tǒng)計(jì)或幾何特征和一個(gè)懲罰圖用于描述非同類數(shù)據(jù)間的統(tǒng)計(jì)或幾何特性,本征圖G={X,W}和懲罰圖GP={X,WP}都屬于無向圖,其中X表示圖的頂點(diǎn),和分別為圖G和GP的權(quán)值矩陣。W的第i行j列為wij表示圖G中頂點(diǎn)xi和xj之間的邊權(quán)值,反映了同類數(shù)據(jù)xi和xj之間相似性,在低維嵌入時(shí)需保留圖G中的相似關(guān)系。WP的第i行j列為表示圖GP中頂點(diǎn)xi和xj之間的邊權(quán)值,表明了非同類數(shù)據(jù)xi和xj之間的近似性,在低維嵌入時(shí)需抑制圖GP中的近似關(guān)系。
根據(jù)圖嵌入原理,目標(biāo)函數(shù)可定義為:
式中,h為常數(shù),H為約束矩陣,為消除退化解,通常把H設(shè)置為單位矩陣,對數(shù)據(jù)進(jìn)行歸一化處理,H也可以設(shè)置為懲罰圖的拉普拉斯矩陣,LP=DP-WP,為對角矩陣,且L=D-W為本征圖的拉普拉斯矩陣,D=diag([d11,d22,…,dNN])為對角矩陣,且
目函數(shù)可變換為:
在線性情況下,Y=VTX,則圖嵌入的目標(biāo)函數(shù)可以表示為:
2.2邊界Fisher分析
在圖嵌入框架下,Yan等提出了MFA算法,通過構(gòu)建類內(nèi)圖和類間圖,使同類數(shù)據(jù)盡可能的聚集,非同類數(shù)據(jù)盡可能的遠(yuǎn)離。類內(nèi)圖用于揭示同類數(shù)據(jù)間的相似關(guān)系,可促進(jìn)類內(nèi)數(shù)據(jù)的聚集性;類間圖屬于懲罰圖,用于抑制非同類數(shù)據(jù)間的相似性,可增強(qiáng)類間數(shù)據(jù)的分離性。
圖1為MFA算法的原理,表示了類內(nèi)圖和類間圖的結(jié)構(gòu)關(guān)系。類內(nèi)圖中,連接每個(gè)數(shù)據(jù)點(diǎn)(比如:點(diǎn)x1和x2)與其來自同類的近鄰點(diǎn),目的是在低維嵌入時(shí)增加同類數(shù)據(jù)的聚集性。類間圖中,在每個(gè)數(shù)據(jù)點(diǎn)(比如:點(diǎn)x3)與其來自不同類別的近鄰點(diǎn)之間構(gòu)建邊,可在低維嵌入時(shí)增強(qiáng)非同類數(shù)據(jù)間的可分性。
在類內(nèi)圖中,只在同類近鄰數(shù)據(jù)間有邊,并通過設(shè)置各邊的權(quán)值來表示數(shù)據(jù)間的相似性,xi與xj的邊權(quán)值w′ij可定義為:
式中,li與lj分別為xi與xj的類別標(biāo)簽。
在類間圖中,只在非同類近鄰數(shù)據(jù)間才有連接邊,可反映非同類數(shù)據(jù)間的近似程度,數(shù)據(jù)點(diǎn)xi與xj間的權(quán)值為:
在低維嵌入空間中,保持同類近鄰數(shù)據(jù)間的相似性不變,并盡可能地聚集同類數(shù)據(jù),可得到目標(biāo)函數(shù)。
式中,L'=D'-W',D=diag([d′11,d'22,…,d'NN])且
另外,在低維嵌入空間中應(yīng)抑制非同類近鄰數(shù)據(jù)間的相似關(guān)系,并使非同類數(shù)據(jù)間盡可能的遠(yuǎn)離,則有:
式中,LP'=DP'-WP',且
根據(jù)式(6)和(7),優(yōu)化目標(biāo)可以轉(zhuǎn)換為:
由拉格朗日乘子法,式(8)的優(yōu)化解可表示為:
XL'XTV=λXLP'XTV (9)
升序排列式(9)的廣義特征值,取前d個(gè)特征值對應(yīng)的特征向量組成映射矩陣V=[v1,v2,…,vd]。
雖然MFA通過構(gòu)建類內(nèi)圖和類間圖來增強(qiáng)同類數(shù)據(jù)的聚集和非同類數(shù)據(jù)的分離,但在構(gòu)建兩個(gè)圖時(shí),僅考慮了數(shù)據(jù)的鄰域結(jié)構(gòu),對存在大量同質(zhì)區(qū)域的高光譜圖像來說,不能有效地表征數(shù)據(jù)的內(nèi)在流形,進(jìn)而達(dá)不到理想的分類結(jié)果。
技術(shù)實(shí)現(xiàn)要素:
針對MFA不能有效地表征數(shù)據(jù)的內(nèi)在流形的不足,本發(fā)明的目的是提供一種能更好地表征高光譜圖像的內(nèi)蘊(yùn)屬性,能夠更有效地提取出鑒別特征,改善數(shù)據(jù)可分性的基于局部流形嵌入的高光譜圖像分類方法。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
基于局部流形嵌入的高光譜圖像分類方法,其特征在于,包括如下步驟:
1)選擇類別標(biāo)簽已確定的訓(xùn)練樣本X=[x1,x2,…,xN],li為xi的類別標(biāo)簽,對訓(xùn)練樣本各數(shù)據(jù)點(diǎn)利用同類近鄰點(diǎn)進(jìn)行重構(gòu);
2)利用各數(shù)據(jù)點(diǎn)的鄰域以及各鄰域點(diǎn)對應(yīng)的重構(gòu)點(diǎn)來構(gòu)建類內(nèi)圖、類內(nèi)重構(gòu)圖、類間圖和類間重構(gòu)圖;
3)在低維嵌入空間中,保持類內(nèi)圖和類內(nèi)重構(gòu)圖的結(jié)構(gòu)不變,抑制類間圖和類間重構(gòu)圖的結(jié)構(gòu)關(guān)系,得到從高維空間到低維空間的投射矩陣;
4)通過步驟3)得到的投影矩陣,將訓(xùn)練樣本的高維數(shù)據(jù)降維,得到訓(xùn)練樣本的低維嵌入特征;
5)通過步驟3)得到的投影矩陣,將待分類的高光譜圖像作為測試樣本并將測試樣本的高維數(shù)據(jù)降維,得到測試樣本低維嵌入;
6)根據(jù)步驟4)得到的訓(xùn)練樣本的低維嵌入特征并結(jié)合選取的分類器,即可對測試樣本的低維嵌入進(jìn)行分類,得到高光譜圖像分類結(jié)果。
步驟1)對訓(xùn)練樣本各數(shù)據(jù)點(diǎn)利用同類近鄰點(diǎn)進(jìn)行重構(gòu)的方法為,
對訓(xùn)練樣本每個(gè)數(shù)據(jù)點(diǎn)xi,從來自同類的數(shù)據(jù)中選取k1個(gè)近鄰點(diǎn)來重構(gòu)xi,重構(gòu)點(diǎn)為
式中,sij為數(shù)據(jù)點(diǎn)xi與xj之間的重構(gòu)權(quán)值,且si=[si1,si2,…,siN]T;若xi與xj為同類近鄰,sij≠0,否則sij=0,其定義為:
式中,歸一化值
步驟2)中類內(nèi)圖、類內(nèi)重構(gòu)圖、類間圖和類間重構(gòu)圖的構(gòu)建如下,
構(gòu)建類內(nèi)圖Gw={X,Ww},X為圖的頂點(diǎn),若圖中兩頂點(diǎn)xi和xj屬于來自同類數(shù)據(jù)的k1近鄰,則在xi和xj之間構(gòu)建一條連接邊,否則,xi和xj之間無邊,邊的權(quán)值為表示xi和xj間的相似關(guān)系,定義為:
式中,參數(shù)
構(gòu)建類內(nèi)重構(gòu)圖為圖的頂點(diǎn),若xi和xj屬于來自同類數(shù)據(jù)的k1近鄰,則在對應(yīng)的和之間構(gòu)建一條連接邊,否則,和之間無邊,邊的權(quán)值為表示和間的相似關(guān)系,定義為:
式中,參數(shù)
構(gòu)建類間圖Gb={X,Wb},X為圖的頂點(diǎn),若圖中兩頂點(diǎn)xi和xj屬于非同類數(shù)據(jù)的k2近鄰,則在xi和xj之間構(gòu)建一條連接邊,否則,xi和xj不連接,邊的權(quán)值為表示xi和xj間的近似程度,定義為:
式中,參數(shù)
構(gòu)建類間重構(gòu)圖為圖的頂點(diǎn),若xi和xj屬于非同類數(shù)據(jù)的k2近鄰,則在對應(yīng)的和之間構(gòu)建一條連接邊,否則,和不連接,邊的權(quán)值為表示和間的近似程度,定義為:
式中,參數(shù)
步驟3)中投影矩陣按如下方法確定,
對于類內(nèi)數(shù)據(jù),在低維空間中不改變類內(nèi)圖和類內(nèi)重構(gòu)圖的相似關(guān)系,使同類數(shù)據(jù)及其重構(gòu)數(shù)據(jù)盡可能聚集在一起,進(jìn)而減小同類數(shù)據(jù)間的差異,目標(biāo)函數(shù)表示為:
式中,和為對角矩陣,且S=[s1,s2,…,sN],si=[si1,si2,…,siN]T;
對于類間數(shù)據(jù),在低維空間中抑制類間圖和類間重構(gòu)圖中數(shù)據(jù)間的相似性,分離開非同類數(shù)據(jù),進(jìn)而增大非同類數(shù)據(jù)間的差異,目標(biāo)函數(shù)表示為:
式中,和為對角矩陣,且
將式(16)和(17)的優(yōu)化問題轉(zhuǎn)化為:
由拉格朗日乘子法,得到:
XMbXTV=λXMwXTV (19)
通過求取式(19)的特征值,并由大到小排列,取前d個(gè)特征值對應(yīng)的特征向量組成投影矩陣V=[v1,v2,…,vd]。
本發(fā)明利用數(shù)據(jù)的鄰域和各鄰域的類內(nèi)重構(gòu)點(diǎn)來表征高光譜數(shù)據(jù)的內(nèi)在結(jié)構(gòu),即在構(gòu)建類內(nèi)圖和類間圖時(shí),不僅考慮了數(shù)據(jù)的鄰域關(guān)系,而且考慮了數(shù)據(jù)近鄰點(diǎn)的鄰域結(jié)構(gòu),能從高光譜數(shù)據(jù)中得到更多的隱含信息,由此增強(qiáng)了類內(nèi)數(shù)據(jù)的聚集性和類間數(shù)據(jù)的分離性,進(jìn)而突出了非同類數(shù)據(jù)間的差異性,能更好地表征高光譜數(shù)據(jù)的內(nèi)在流形結(jié)構(gòu),從而提取出鑒別特征,改善分類精度。
因此,本發(fā)明提出的高光譜圖像分類方法,能夠更有效地提取出鑒別特征,且分類結(jié)果更準(zhǔn)確,對高光譜圖像的地物分類效果更好。對比實(shí)驗(yàn)結(jié)果也表明,本方法較其它現(xiàn)有各種方法都有明顯優(yōu)勢。
附圖說明
圖1-MFA算法原理圖。
圖2-本發(fā)明分類流程示意圖。
圖3-本發(fā)明構(gòu)圖過程示意圖。
圖4-不同參數(shù)k和β在Salinas數(shù)據(jù)集上的總體分類精度示意圖。
圖5-各算法對SVMCK在Salinas數(shù)據(jù)集上的分類圖。其中,(a)GT,(b)Baseline(95.8%),(c)PCA(94.8%),(d)NPE(96.4%),(e)LPP(96.0%),(f)LDA(94.6%),(g)LFDA(96.3%),(h)MMC(94.7%),(i)MFA(95.5%),(j)LME(99.2%)。
圖6-不同參數(shù)k和β在Indian Pines數(shù)據(jù)集上的分類精度示意圖。
圖7-各算法對SVMCK在Indian Pines數(shù)據(jù)集上的分類圖。其中,(a)GT,(b)Baseline(93.9%),(c)PCA(91.8%),(d)NPE(92.0%),(e)LPP(91.0%),(f)LDA(95.0%),(g)LFDA(90.9%),(h)MMC(89.9%),(i)MFA(93.5%),(j)LME(98.1%)。
圖8-IndianPines數(shù)據(jù)集中五類地物的二維嵌入結(jié)果圖。其中,(a)Spectral curve,(b)PCA,(c)NPE,(d)LPP,(e)LDA,(f)LFDA,(g)MMC,(h)MFA,(i)LME。
具體實(shí)施方式
根據(jù)MFA算法的過程可知,其在構(gòu)圖時(shí)只考慮了數(shù)據(jù)的鄰域結(jié)構(gòu),對于存在大量同質(zhì)區(qū)域的高光譜圖像來說,MFA不能有效地表征數(shù)據(jù)的內(nèi)在流形。為改善MFA算法在高光譜圖像特征提取中的效果,本發(fā)明提出了一種新的流形學(xué)習(xí)方法,稱為局部流形嵌入(LME)。
本發(fā)明利用數(shù)據(jù)的鄰域和各鄰域點(diǎn)的鄰域來表征高光譜圖像的內(nèi)在結(jié)構(gòu)。首先,對各數(shù)據(jù)點(diǎn)利用同類近鄰點(diǎn)進(jìn)行重構(gòu),然后,利用各數(shù)據(jù)點(diǎn)的鄰域以及各鄰域點(diǎn)對應(yīng)的重構(gòu)點(diǎn)來構(gòu)建類內(nèi)圖、類內(nèi)重構(gòu)圖、類間圖和類間重構(gòu)圖,最后,在低維嵌入空間中,保持類內(nèi)圖的結(jié)構(gòu)不變,抑制類間圖的結(jié)構(gòu)關(guān)系,得到從高維空間到低維空間的投影矩陣,從而提取出鑒別特征。圖2為本發(fā)明的分類流程示意圖。
對訓(xùn)練樣本每個(gè)數(shù)據(jù)點(diǎn)xi,從來自同類的數(shù)據(jù)中選取k1個(gè)近鄰點(diǎn)來重構(gòu)xi,重構(gòu)點(diǎn)為
式中,sij為數(shù)據(jù)點(diǎn)xi與xj之間的重構(gòu)權(quán)值,且si=[si1,si2,…,siN]T;若xi與xj為同類近鄰,sij≠0,否則sij=0,其定義為:
式中,歸一化值
構(gòu)建類內(nèi)圖Gw={X,Ww},X為圖的頂點(diǎn),若圖中兩頂點(diǎn)xi和xj屬于來自同類數(shù)據(jù)的k1近鄰,則在xi和xj之間構(gòu)建一條連接邊,否則,xi和xj之間無邊,邊的權(quán)值為表示xi和xj間的相似關(guān)系,定義為:
式中,參數(shù)
構(gòu)建類內(nèi)重構(gòu)圖為圖的頂點(diǎn),若xi和xj屬于來自同類數(shù)據(jù)的k1近鄰,則在對應(yīng)的和之間構(gòu)建一條連接邊,否則,和之間無邊,邊的權(quán)值為表示和間的相似關(guān)系,定義為:
式中,參數(shù)
構(gòu)建類間圖Gb={X,Wb},X為圖的頂點(diǎn),若圖中兩頂點(diǎn)xi和xj屬于非同類數(shù)據(jù)的k2近鄰,則在xi和xj之間構(gòu)建一條連接邊,否則,xi和xj不連接,邊的權(quán)值為表示xi和xj間的近似程度,定義為:
式中,參數(shù)
構(gòu)建類間重構(gòu)圖為圖的頂點(diǎn),若xi和xj屬于非同類數(shù)據(jù)的k2近鄰,則在對應(yīng)的和之間構(gòu)建一條連接邊,否則,和不連接,邊的權(quán)值為表示和間的近似程度,定義為:
式中,參數(shù)
圖3為LME算法的圖構(gòu)建示意圖。在構(gòu)建類內(nèi)圖時(shí),對于數(shù)據(jù)點(diǎn)x1,不僅考慮了它的鄰域點(diǎn)(如x2),而且考慮了各鄰域點(diǎn)的類內(nèi)重構(gòu)點(diǎn)(如x1的類內(nèi)鄰域重構(gòu)點(diǎn)x7,x2的類內(nèi)鄰域重構(gòu)點(diǎn)x3),即在x1與x2之間構(gòu)建一邊,也在x3和x7之間連一條邊,邊權(quán)值都根據(jù)式(12)和(13)進(jìn)行設(shè)置。在構(gòu)建類間圖時(shí),考慮了各數(shù)據(jù)點(diǎn)(如x4)與其非同類鄰域(如x5)和各鄰域點(diǎn)的類內(nèi)重構(gòu)點(diǎn)(如x4的類內(nèi)鄰域重構(gòu)點(diǎn)x8,x5的類內(nèi)鄰域重構(gòu)點(diǎn)x6)之間的關(guān)系,即連接x4與x5,同時(shí)也連接x6與x8,邊權(quán)值都由式(14)和(15)進(jìn)行設(shè)置。
對于類內(nèi)數(shù)據(jù),在低維空間中不改變類內(nèi)圖和類內(nèi)重構(gòu)圖的相似關(guān)系,使同類數(shù)據(jù)及其重構(gòu)數(shù)據(jù)盡可能聚集在一起,進(jìn)而減小同類數(shù)據(jù)間的差異,目標(biāo)函數(shù)表示為:
式中,和為對角矩陣,且S=[s1,s2,…,sN],si=[si1,si2,…,siN]T;
對于類間數(shù)據(jù),在低維空間中抑制類間圖和類間重構(gòu)圖中數(shù)據(jù)間的相似性,分離開非同類數(shù)據(jù),進(jìn)而增大非同類數(shù)據(jù)間的差異,目標(biāo)函數(shù)表示為:
式中,和為對角矩陣,且
將式(16)和(17)的優(yōu)化問題轉(zhuǎn)化為:
由拉格朗日乘子法,得到:
XMbXTV=λXMwXTV (19)
通過求取式(19)的特征值,并由大到小排列,取前d個(gè)特征值對應(yīng)的特征向量組成投影矩陣V=[v1,v2,…,vd]。
通過得到的投影矩陣,即可將訓(xùn)練樣本的高維數(shù)據(jù)降維,得到訓(xùn)練樣本的低維嵌入特征;同時(shí)將需要分類的高光譜圖像作為測試樣本,將測試樣本的高維數(shù)據(jù)降維,得到測試樣本低維嵌入;再結(jié)合選取的分類器,即可對測試樣本的低維嵌入進(jìn)行分類,得到高光譜圖像的分類結(jié)果。
本發(fā)明通過數(shù)據(jù)的鄰域點(diǎn)和各鄰域的同類近鄰重構(gòu)點(diǎn)來構(gòu)建類內(nèi)圖和類間圖,能更好地表征高光譜圖像的內(nèi)蘊(yùn)屬性,改善數(shù)據(jù)的可分性,進(jìn)而提升分類精度。為減少同類近鄰k1和非同類近鄰k2設(shè)置的困難,把非同類近鄰設(shè)置為同類近鄰的整數(shù)倍,因?yàn)榉峭悢?shù)據(jù)通常比同類數(shù)據(jù)多,且非同近鄰的小范圍變化對分類結(jié)果的影響較小。
為分析本發(fā)明的可行性,選取了Salinas和Indian Pines高光譜數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并與現(xiàn)有的相關(guān)算法進(jìn)行了對比。
實(shí)驗(yàn)中,數(shù)據(jù)集被隨機(jī)分為訓(xùn)練集和測試集,通過特征提取算法對訓(xùn)練集進(jìn)行學(xué)習(xí),得到一個(gè)低維嵌入空間;然后,把所有的測試樣本映射到這個(gè)低維空間中,得到各樣本的低維特征;最后,利用最近鄰(NN)分類器、光譜角制圖(SAM)和復(fù)合核支持向量機(jī)(SVM based on Composite Kernels,SVMCK)對測試樣本進(jìn)行分類。為評價(jià)各方法的分類結(jié)果,采用了平均分類精度(AA)、總體分類精度(OA)和Kappa系數(shù)(KC)作為評價(jià)指標(biāo)。為增強(qiáng)實(shí)驗(yàn)結(jié)果的魯棒性,每種情況下進(jìn)行了10次重復(fù)實(shí)驗(yàn),并計(jì)算了各精度的平均值和標(biāo)準(zhǔn)差。
實(shí)驗(yàn)中,選擇了Baseline(BL)、PCA、LDA、LFDA、MMC和MFA算法與本發(fā)明算法進(jìn)行對比,其中Baseline表示直接利用分類器對測試樣本進(jìn)行分類。為使各算法得到最優(yōu)分類結(jié)果,利用交叉驗(yàn)證法來得到各算法的參數(shù),對于LPP、NPE和LFDA的近鄰數(shù)設(shè)置為9。由于類間近鄰數(shù)大范圍的變化對MFA和LME的分類結(jié)果影響較小,因而,可設(shè)置類內(nèi)近鄰k1=k,類間近鄰k2=βk,其中β為正整數(shù);實(shí)驗(yàn)中,MFA和LME的k和β值分別設(shè)置為9和20。對于SVMCK分類器,采用基于RBF核函數(shù)組成的加權(quán)核,由于該核比其他核具有更好的分類結(jié)果,空間信息是由空間鄰域內(nèi)的平均像素值來表示;實(shí)驗(yàn)中,懲罰參數(shù)C和RBF的核參數(shù)δ通過在{10-10,10-9,…,1010}范圍內(nèi)的網(wǎng)格尋優(yōu)得到,空間鄰域窗口大小設(shè)置為9×9。LDA算法的低維嵌入維度設(shè)置為c-1,其中c為類別數(shù),其他算法的低維嵌入維度設(shè)置為30。
在Salinas數(shù)據(jù)集上的實(shí)驗(yàn)
為分析不同類內(nèi)近鄰數(shù)和類間近鄰數(shù)對分類精度的影響,實(shí)驗(yàn)中,從Salinas數(shù)據(jù)集的每類地物中隨機(jī)選取60個(gè)數(shù)據(jù)作為訓(xùn)練樣本,余下數(shù)據(jù)作為測試樣本,經(jīng)過特征提取后,利用NN對測試樣本進(jìn)行分類。實(shí)驗(yàn)中,參數(shù)k和β的范圍分別設(shè)置為{3,5,7,…,25}和{5,15,20,…,60},每種條件下進(jìn)行了10次重復(fù)實(shí)驗(yàn),圖4為本發(fā)明算法對參數(shù)k和β的平均總體分類精度。
由圖4可知,隨著k值的增加,分類精度先增加后減小,這是因?yàn)檫^小或過大的k值都不能有效地表達(dá)高光譜圖像的內(nèi)在結(jié)構(gòu)。在k值小于15時(shí),隨著β的增加,分類精度不斷增加,最終達(dá)到一穩(wěn)定值;當(dāng)k值超過15時(shí),若β值大于20,分類精度將迅速下降,由于過大的k和β值將使類間邊界出現(xiàn)過學(xué)習(xí)現(xiàn)象??傮w上看,k和β值的變化對Salinas數(shù)據(jù)集分類精度的影響不大;實(shí)驗(yàn)中,k和β的最佳值設(shè)置為9和20。
表1不同算法對不同分類器在Salinas數(shù)據(jù)集上的分類精度(OA±std(%)(KC))
為分析各算法對于不同分類器在不同數(shù)量訓(xùn)練樣本下的分類性能,從每類地物中隨機(jī)選取ni個(gè)數(shù)據(jù)作為訓(xùn)練樣本,剩余數(shù)據(jù)作為測試樣本。通過特征提取算法對訓(xùn)練樣本進(jìn)行學(xué)習(xí),得到各樣本的低維特征后,利用NN、SAM和SVMCK對測試樣本進(jìn)行分類,并且每種情況下都進(jìn)行了10次重復(fù)實(shí)驗(yàn)。表1為10次實(shí)驗(yàn)的平均總體分類精度、標(biāo)準(zhǔn)差和平均Kappa系數(shù)。
根據(jù)表1可知,各算法的總體分類精度和Kappa系數(shù)都隨著訓(xùn)練樣本數(shù)據(jù)的增加而不斷增加,因?yàn)橛?xùn)練樣本數(shù)越多,可利用的先驗(yàn)信息也越多,對高光譜圖像的內(nèi)在特性表達(dá)更準(zhǔn)確。在不同分類器下,各算法對于SVMCK的分類結(jié)果都比對其他分類器的好,因?yàn)镾VMCK同時(shí)利用了數(shù)據(jù)的光譜信息和空間信息來增強(qiáng)高光譜圖像的分類性能。在各條件下,本發(fā)明算法比MFA算法的分類結(jié)果都更好,因?yàn)楸舅惴ɡ昧藬?shù)據(jù)的鄰域和各鄰域點(diǎn)的類內(nèi)重構(gòu)點(diǎn)來表征高光譜數(shù)據(jù)的內(nèi)在流形結(jié)構(gòu),增強(qiáng)了類內(nèi)數(shù)據(jù)的聚集性和類間數(shù)據(jù)的分離性,得到更好的鑒別特征,進(jìn)而改善地物分類精度。
為分析本算法在平衡訓(xùn)練樣本數(shù)下的分類精度,從每類中選取2%的數(shù)據(jù)作為訓(xùn)練樣本,余下數(shù)據(jù)作為測試樣本來評價(jià)各算法的生產(chǎn)者精度。得到各樣本的嵌入特征后,利用SVMCK對測試樣本進(jìn)行分類,表2給出了各算法的分類精度,圖5為相應(yīng)的分類結(jié)果圖。
由表2可知,LME算法在大部分地物中都具有最好的分類結(jié)果,而且擁有最高的總體分類精度、平均分類精度和Kappa系數(shù),表明LME算法能更有效地揭示高光譜圖像的內(nèi)在流形結(jié)構(gòu),提取出更好的鑒別特征,進(jìn)而提升分類精度。
表2各算法對SVMCK在Salinas數(shù)據(jù)集上的分類結(jié)果
在圖5中,LME算法比其他算法產(chǎn)生了更多的同質(zhì)區(qū)域,與真實(shí)地物更吻合,尤其是在“Grapes”、“Corn,Lettuce 4wk”、“Lettuce 7wk”、“Vinyard untrained”地物區(qū)域內(nèi)。
為比較各算法的分類性能,表3展示了各算法之間的McNemar檢驗(yàn)值。從表中可以看出,LME算法比其他算法具有更顯著的統(tǒng)計(jì)差異性,說明該算法能更好地提取出地物的鑒別特征,改善分類精度。
表3各算法在Salinas數(shù)據(jù)集上的McNemar檢驗(yàn)
在Indian Pines數(shù)據(jù)集上的實(shí)驗(yàn)
為分析LME算法對不同地物場景的分類性能,另外選用了Indian Pines數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)中,從每類地物中隨機(jī)選擇ni個(gè)數(shù)據(jù)作為訓(xùn)練樣本,其余數(shù)據(jù)作為測試樣本,對于樣本數(shù)較少的地物,如果ni≥Ni/2,則ni=Ni/2,其中Ni為第i類地物的樣本數(shù),比如:“Alfalfa”、“Grass/Pasture-mowed”、“Oats”。
為探索參數(shù)k和β對分類結(jié)果的影響,從每類地物中隨機(jī)選取60個(gè)數(shù)據(jù)作為訓(xùn)練樣本,其余數(shù)據(jù)作為測試樣本。各算法對訓(xùn)練樣本進(jìn)行學(xué)習(xí)后,得到各樣本的低維特征,并利用NN對測試樣本的低維特征進(jìn)行分類。圖6給出了不同參數(shù)k和β下的分類精度。
由圖6可知,隨著k值的增加,分類精度先上升后下降,導(dǎo)致這種現(xiàn)象的原因是:較小的k值不能獲取足夠的信息去表征高光譜圖像的內(nèi)在結(jié)構(gòu),而過大的k值在表征高光譜數(shù)據(jù)的內(nèi)在特性時(shí)會出現(xiàn)過擬合現(xiàn)象。隨著β值的不斷增加,分類精度也隨之不斷增加,并達(dá)到一穩(wěn)定的峰值。實(shí)驗(yàn)中,為得到最佳分類結(jié)果,k和β分別設(shè)置為9和20。
為分析各算法對不同分類器的分類結(jié)果,從每類地物中隨機(jī)選取了20、40、60和80個(gè)數(shù)據(jù)作為訓(xùn)練樣本,其余數(shù)據(jù)作為測試樣本。每種情況下進(jìn)行了10次重復(fù)實(shí)驗(yàn),表4給出了各方法的平均總體分類精度、標(biāo)準(zhǔn)差和平均Kappa系數(shù)。
由表4可以看出,各算法的分類精度隨著訓(xùn)練樣本數(shù)的增加不斷提升。各算法對于NN和SAM的分類結(jié)果都不理想,因?yàn)镹N和SAM對Indian Pines中各地物的鑒別能力較差,使分類精度受到限制。但是,LME對NN和SAM的分類結(jié)果仍然比其他方法好,由于LME算法能有效地揭示出高光譜數(shù)據(jù)的內(nèi)在流形結(jié)構(gòu),得到更好的鑒別特征,提升分類精度。另外,各算法對SVMCK的分類精度都比對NN和SAM的好,而且LME對SVMCK在所有條件下都具有最好的分類精度,因?yàn)镾VMCK同時(shí)利用了高光譜圖像的光譜信息和空間信息來分類。
表4各算法對不同分類器在Indian Pines數(shù)據(jù)集上的分類精度(OA±std(%)(KC))
為分析各類地物的分類精度,每類地物中隨機(jī)選取10%的數(shù)據(jù)作為訓(xùn)練樣本,對于樣本數(shù)較少的地物,每類隨機(jī)選取10個(gè)數(shù)據(jù)作為訓(xùn)練樣本,剩余數(shù)據(jù)作為測試樣本。在得到低維特征后,利用SVMCK分類器對測試樣本進(jìn)行分類,表5給出了各算法的分類結(jié)果。
表5各算法對SVMCK在Indian Pines數(shù)據(jù)集上的分類結(jié)果
根據(jù)表5的分類結(jié)果可知,LME算法在大多數(shù)地物中比其他算法得到了更好的分類精度,并且具有最好的平均分類精度、總體分類精度和Kappa系數(shù),由于LME算法能有效地揭示出高光譜數(shù)據(jù)中的隱藏信息。圖7為各算法對應(yīng)的分類圖,LME算法比其他算法產(chǎn)生了更光滑的分類結(jié)果,整體效果與真實(shí)地物場景更接近。
為比較各算法之間的分類性能,對各算法分類結(jié)果間進(jìn)行統(tǒng)計(jì)差異性檢驗(yàn),表6給出了各算法之間的McNemar檢驗(yàn)結(jié)果。從表中可以看出,各算法對LME算法的McNemar檢驗(yàn)值都為負(fù),說明LME算法具有更顯著的統(tǒng)計(jì)差異性,能更好地提取出高光譜數(shù)據(jù)的內(nèi)在特征,提升地物分類精度。
表6各算法在Indian Pines數(shù)據(jù)集上的McNemar檢驗(yàn)
二維嵌入分析
為分析各算法的低維嵌入特征,從Indian Pines數(shù)據(jù)集中選取“Corn-mintill”、“Grass-trees”、“Hay-windrowed”、“Wheat”和“Woods”五類地物進(jìn)行二維嵌入,并從這幾類地物中每類隨機(jī)選取100個(gè)數(shù)據(jù)作為訓(xùn)練樣本,其余樣本作為測試樣。通過各算法對訓(xùn)練樣本進(jìn)行學(xué)習(xí),進(jìn)而可以得到測試樣本的二維嵌入,并在二維空間中繪制出各數(shù)據(jù)點(diǎn)的分布情況。圖8給出了各算法二維嵌入的分布結(jié)果,圖中分別用1、2、3、4、5表示五類地物。
由圖8可知,PCA、NPE和LPP的二維嵌入結(jié)果可看出,同類地物分布十分散亂,且非同類地物間產(chǎn)生了重疊現(xiàn)象,由于它們都屬于非監(jiān)督算法,不能有效地表征數(shù)據(jù)的內(nèi)在特性。監(jiān)督的LDA和MMC改善了同類數(shù)據(jù)的聚集性,但非同類數(shù)據(jù)間仍存在重疊情況,因?yàn)樗鼈兌计鹪从诮y(tǒng)計(jì)理論,忽略了數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。MFA可揭示出數(shù)據(jù)的內(nèi)在流形,但不能有效地表達(dá)高光譜數(shù)據(jù)的流形結(jié)構(gòu),導(dǎo)致圖8(h)中非同類數(shù)據(jù)產(chǎn)生重疊分布的現(xiàn)象。LME算法的二維嵌入比其他算法都好,因?yàn)長ME利用了數(shù)據(jù)的鄰域結(jié)構(gòu)和各鄰域的類內(nèi)重構(gòu)點(diǎn)來表征高光譜數(shù)據(jù)的內(nèi)在結(jié)構(gòu),增強(qiáng)了類內(nèi)數(shù)據(jù)的聚集性和類間數(shù)據(jù)的分離性。
通過LME算法在Salinas和Indian Pines兩個(gè)高光譜數(shù)據(jù)集上的分類實(shí)驗(yàn),可得到以下結(jié)論:
①LME在各種情況下都比Baseline、PCA、NPE、LPP、LDA、LFDA、MMC和MFA的分類效果好,因?yàn)長ME利用數(shù)據(jù)的鄰域和各鄰域的類內(nèi)重構(gòu)點(diǎn)來表征高光譜數(shù)據(jù)的內(nèi)在結(jié)構(gòu),增強(qiáng)了類內(nèi)數(shù)據(jù)的聚集性和類間數(shù)據(jù)的分離性。表明LME能從高光譜數(shù)據(jù)中得到更多的隱含信息。
②在不同分類器下,LME比其他算法具有更好的分類精度,由于LME能得到更有效的鑒別特征,且適應(yīng)性更強(qiáng),進(jìn)而能同時(shí)改善NN、SAM和SVMCK的分類精度。
③在Salinas和Indian Pines數(shù)據(jù)集上的分類結(jié)果可知,SVMCK在各種情況下的分類精度都比NN和SAM更好,因?yàn)镾VMCK同時(shí)利用了高光譜圖像的光譜信息和空間信息來分類,而NN和SAM只利用了光譜信息進(jìn)行分類。
④由LME算法的時(shí)間復(fù)雜度分析可知,運(yùn)行時(shí)間主要取決于數(shù)據(jù)的維度、近鄰數(shù)和訓(xùn)練樣本數(shù)。根據(jù)運(yùn)行時(shí)間可知,相同條件下LME在特征提取過程中比其他算法更耗時(shí),這是由于LME在構(gòu)建類內(nèi)圖和類間圖時(shí)需要耗費(fèi)更多時(shí)間。但LME能減少直接用分類器分類的時(shí)間,且能提升分類精度。
⑤在數(shù)據(jù)的二維嵌入實(shí)驗(yàn)中,LME比其他算法得到了更好的分布,表明LME算法改善了類內(nèi)數(shù)據(jù)的聚集性和類間數(shù)據(jù)的分離性,進(jìn)而突出了非同類數(shù)據(jù)間的差異性。
針對MFA算法不能有效地表征高光譜圖像內(nèi)在結(jié)構(gòu)的問題,本發(fā)明提出了LME算法,本算法利用數(shù)據(jù)的鄰域點(diǎn)和各鄰域的類內(nèi)重構(gòu)點(diǎn)來揭示高光譜數(shù)據(jù)的流形結(jié)構(gòu),并構(gòu)建了類內(nèi)圖和類間圖,在低維嵌入空間中保持圖的結(jié)構(gòu)不變,增強(qiáng)類內(nèi)數(shù)據(jù)的聚集性和類間數(shù)據(jù)的分離性,得到鑒別特征,實(shí)現(xiàn)高光譜圖像的分類。在Salinas和Indian Pines數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本算法比其他特征提取算法能得到更好的鑒別特征,進(jìn)而改善高光譜圖像的地物分類精度。
最后需要說明的是,本發(fā)明的上述實(shí)例僅僅是為說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實(shí)施方式的限定。盡管申請人參照較佳實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)說明,對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其他不同形式的變化和變動(dòng)。這里無法對所有的實(shí)施方式予以窮舉。凡是屬于本發(fā)明的技術(shù)方案所引申出的顯而易見的變化或變動(dòng)仍處于本發(fā)明的保護(hù)范圍之列。