本發(fā)明涉及的是一種遙感圖像處理領域的技術,具體是一種基于特征池化與除歸一化的遙感圖像分類方法。
背景技術:
高分辨率的遙感圖像分類中的一個關鍵步驟為提取合適的圖像特征,廣泛采用的特征有紋理特征和局部特征。常見的紋理特征有Gabor紋理和LBP紋理,局部特征有HOG特征、SIFT特征以及Dense SIFT特征等。但圖像分類中存在目標尺度、光照不一致,目標遮擋,低階與高階相關性等問題。
現(xiàn)有的基于視覺詞匯的遙感圖像地物分類方法,大多基于高斯模糊與抽樣生成多層高斯空間金字塔;再通過SIFT特征提取與LBP特征提取,并使用支持向量機RBF-SVM進行訓練,從而對測試集中遙感圖像進行地物分類。但基于視覺詞匯的圖像分類方法在本質上都受限于詞包模型的缺點。第一,采用頻率直方圖特征的方式并不是最優(yōu)的圖像表示。第二,詞包模型對低層次描述子(如SIFT特征)的量化是一個有損過程。另外,徑向基核的RBF-SVM在訓練時需要進行參數(shù)尋優(yōu),這樣會使得訓練耗時較高,并且,訓練好的RBF-SVM分類器對測試圖像進行分類時也同樣是耗時的。
現(xiàn)有技術中也有通過預訓練的開源深度學習框架ConvNet并結合SVM分類器,評價了深度特征的泛化能力,在遙感圖像分類中同樣獲得了較高的分類精度。但這類技術中的卷積神經(jīng)網(wǎng)絡中包含許多卷積層的特征提取,并且每一層都涉及到大量濾波器核的卷積操作,當進一步考慮將多個卷積神經(jīng)網(wǎng)絡組合在一起時,隨著組合數(shù)量的增加,其計算復雜度會成倍地增加。
技術實現(xiàn)要素:
本發(fā)明針對現(xiàn)有技術存在的上述不足,提出一種基于特征池化與除歸一化的遙感圖像分類方法,能夠獲得較高的圖像分類精度,消除了圖像中的低階高階統(tǒng)計相關性的冗余增強目標位置不變性,特征壓縮緊湊,降低了特征維度,提高了計算效率。獲得了更好的分類性能,簡單易實現(xiàn),精度高。
本發(fā)明首先對遙感圖像進行線性濾波,采用特征池化對線性濾波結果的特征進行合并,而后通過除歸一化降低遙感圖像中的高階相關性,以稠密網(wǎng)格方式提取局部描述子,最后經(jīng)Hellinger核映射與特征降維后進行特征編碼形成遙感圖像的全局表達,再經(jīng)訓練與預測后完成對遙感圖像的分類。
本發(fā)明包括以下步驟:
1)分別采用Log-Gabor濾波和高斯導數(shù)濾波結合方向化幅值的方式得到相應的濾波響應;
2)采用特征池化對得到的濾波響應進行空間上相鄰位置合并;
3)對每一空間位置,將其與周圍相鄰位置進行除歸一化,并以稠密網(wǎng)格方式提取局部描述子;
4)對局部描述子進行Hellinger核映射與特征降維后再進行特征融合,之后通過特征編碼將融合后的局部特征描述子聚合成圖像形成全局表達;
5)結合線性分類器對聚合的圖像進行學習與預測,實現(xiàn)分類。
所述的Log-Gabor濾波采用三個尺度與四個方向,共組成12個濾波器,對輸入圖像進行線性濾波后,最后形成12幅Log-Gabor幅值圖。
所述的高斯導數(shù)濾波采用水平、垂直兩個方向對遙感圖像進行濾波,并計算兩個方向上的梯度響應和梯度方向。
所述的方向化幅值指根據(jù)梯度方向將每個空間位置的梯度響應離散化,得到若干具有方向性的梯度幅值圖。
所述的步驟2)具體包括以下步驟:
2.1)對Log-Gabor幅值圖和梯度幅值圖進行不重疊的局部塊劃分;
2.2)每一局部塊采用特征池化對特征進行合并。
所述的特征池化,即大腦皮層一種簡單的神經(jīng)計算操作,具體是指:在特征提取中,用于對局部鄰域輸入進行圖像變換,取得某種不變的、更加緊湊的與穩(wěn)健的特征表達,最常用的特征池化有平均池化和最大池化。對pSz×pSz像素大小(對應pSz×pSz維特征)的局部圖像塊區(qū)域,用一維特征來表示該圖像塊,即將pSz×pSz維特征降維至一維。平均池化與最大池化分別是將pSz×pSz個特征值的平均值與最大值作為最終的一維特征。
所述的局部特征描述子為分歧歸一化因子(Divisive Normalization Features,DNF),通過線性濾波、特征池化、除歸一化、稠密提取與融合四個階段實現(xiàn)DNF的提取,其中:線性濾波消除了圖像中的低階相關;特征池化完成對濾波特征的緊湊表達與一定程度上的平移不變性;除歸一化進一步降低特征之間的高階相關性;稠密提取與融合分別進行局部描述子DNF的提取與增強表達。
所述的線性分類器優(yōu)選采用線性SVM。
附圖說明
圖1為本發(fā)明流程示意圖;
圖2為特征提取過程示意圖;
圖3為特征編碼過程示意圖;
圖4為Land Use數(shù)據(jù)集;
圖5為Land Use混淆矩陣。
具體實施方式
如圖1所示,首先對遙感圖像進行線性濾波,采用特征池化對線性濾波結果的特征進行合并,而后通過除歸一化降低遙感圖像中的高階相關性,以稠密網(wǎng)格方式提取局部描述子,最后經(jīng)Hellinger核映射與特征降維后進行特征編碼形成遙感圖像的全局表達,再經(jīng)訓練與預測后完成對遙感圖像的分類。具體包括以下步驟:
1)分別采用Log-Gabor濾波和高斯導數(shù)濾波結合方向化幅值的方式得到相應的濾波響應。
所述的Log-Gabor濾波包括兩個部分的乘積,構成Log-Gabor濾波器。這兩個部分分別為徑向濾波器G(ρ)和方向濾波器G(θ),則其中:濾波器中心頻率ρ0=1/λ,Log-Gabor尺度的波長λ=λ0ms-1,λ0為最小Log-Gabor尺度的波長,m為相鄰尺度間的比例因子,s=1,2,…,ns,ns表示尺度的數(shù)量,σρ決定尺度帶寬。θ0=π(n-1)/no表示濾波器的方向角度,n=1,2,…,no,no表示方向的數(shù)量,σθ決定角度帶寬。設定λ0=3,m=2,σρ=0.65,σθ=π/12。
所述的Log-Gabor濾波器通過ns和no來構造,為三個尺度四個方向的濾波器,即ns=3、no=4。
如圖2所示,對輸入的灰度圖像I進行Log-Gabor濾波獲得濾波響應幅值圖L:Li=abs(ifft2(Fi.*fft2(I))),i=1,2,…,3×4,其中:.*表示點乘,F(xiàn)i表示傅里葉空間中特定方向與尺度的濾波器,fft2表示二維快速傅里葉變換,ifft2表示fft2的逆變換,abs表示絕對值操作,Li表示濾波輸出。
所述的高斯導數(shù)濾波采用水平與垂直兩個方向的高斯導數(shù)濾波器,并計算兩個方向上的梯度響應和梯度方向。所述的方向化幅值指根據(jù)梯度方向將每個空間位置的梯度響應離散化,得到若干具有方向性的梯度幅值圖。將輸入的灰度圖像I進行兩個方向上的梯度特征提取。設H(x,y)與V(x,y)分別表示圖像I在(x,y)位置上的水平與垂直方向的梯度值,可以獲得歸一化的幅值M與方向A,其中:
所述的方向A(x,y)值離散化到nBin個方向中,具體離散化的方向則由決定。最后,M可映射出nBin幅方向化的梯度幅值圖G:Gi,i=1,2,…,nBin。為了獲得與Log-Gabor幅值圖數(shù)量相同的濾波圖,nBin設為12。
2)采用特征池化對得到的濾波響應進行空間上相鄰位置合并。
2.1)對Log-Gabor幅值圖和梯度幅值圖進行不重疊的局部塊劃分。將Log-Gabor幅值圖和梯度幅值圖劃分為不重疊的局部塊即圖像塊。假定圖像塊Pj,包含pSz×pSz個像素,表示任意一幅圖中的第j塊,通過特征池化之后,Pj將由一個特征值來表示。
2.2)每一個pSz×pSz像素的局部圖像塊采用特征池化操作對線性濾波響應幅值進行空間上相鄰位置的合并。所述的特征池化表達式為:
所述的特征池化為:對pSz×pSz像素大小(對應pSz×pSz維特征)的局部圖像塊區(qū)域,用一維特征來表示該圖像塊,即將pSz×pSz維特征降維至一維。特征池化可分為平均池化和最大池化。平均池化是將pSz×pSz個特征值的平均值作為最終的一維特征。最大池化則是采用pSz×pSz個特征值的最大值作為最終的一維特征。
3)對每一空間位置,將其與周圍相鄰位置進行除歸一化,并以稠密網(wǎng)格方式提取局部描述子。
所述的除歸一化是指:對經(jīng)過池化后所得的池化特征圖(圖2),設定一個wSz×wSz大小的除歸一化窗口(圖2中虛線窗口),將窗口中心位置的池化特征值與此窗口內周圍其它位置的池化特征值的累積和進行除操作,設定除歸一化窗口的滑動步長為1,完成對池化特征圖中所有空間位置的除歸一化操作。
所述的局部描述子為Divisive Normalization Features(DNF),DNF的提取經(jīng)過了線性濾波、特征池化、除歸一化、稠密提取與融合四個階段。
所述的除歸一化具體公式為其中:γ表示總體響應,β決定基本響應,σ防止分母除零,m、p、q表示單個輸入的放大指數(shù)。與表示第j塊和第k塊的特征池化。window表示除歸一化的窗口區(qū)域大小,窗口包含鄰近的wSz×wSz塊,Rj表示除歸一化結果。γ=1,β=0,σ=0.001,m=1,p=2,q=0.5。因此,對每一幅值圖,通過滑動除歸一化窗口的方式,可獲得所有位置的除歸一化值。
如圖2所示,采用稠密網(wǎng)格為4×4,滑動步長為1,稠密地提取DNF描述子,每一個DNF描述子為16維的特征向量。對兩種線性濾波,分別組合在相同空間位置提取的16維特征向量,比如Log-Gabor有12幅濾波圖,則提取一系列12×16=192維的局部描述子。高斯導數(shù)濾波的局部描述子提取方式也與Log-Gabor類似,同樣為192維。
4)對局部描述子進行Hellinger核映射與特征降維后再進行特征融合,之后通過特征編碼將融合后的局部特征描述子聚合成圖像形成全局表達。
如圖3所示,所述的Hellinger核映射采用L1歸一化局部描述子向量。對局部描述子向量的每個特征值開平方根。而后,對主成分降維即特征降維,降維的子空間學習過程則是從訓練樣本中隨機選取一定數(shù)量的描述子,如500000,學習得到。最后,將兩種線性濾波情況下相同空間位置的局部描述子進行特征融合。
所述的Hellinger核映射是一種非線性特征映射方法(圖3),包含了兩個步驟:第一,對描述子(特征向量)進行L1歸一化;第二,對L1歸一化后的特征向量中的每一個特征值進行開平方根操作。
5)結合線性分類器對聚合的圖像進行學習與預測,實現(xiàn)分類。
如圖3所示,采用高斯混合模型(GMM)學習到步驟4)中所提取的局部描述子的分布,即聚類中心。利用Fisher vector特征將局部描述子聚合成圖像全局表達的特征向量。采用線性SVM完成對Fisher vector特征向量的學習與預測,實現(xiàn)分類。
如圖4所示,采用被廣泛使用的公開數(shù)據(jù)集土地利用(Land Use),其為美國許多不同的區(qū)域的遙感圖像,共包含2100幅21類256×256像素的RGB彩色圖像,每一類均包含100幅。圖4中,編號從1至21分別表示為:農(nóng)用地(agricultural)、機場(airplane)、棒球場(baseball diamond)、沙灘(beach)、建筑(buildings)、灌木叢(chaparral)、密集住宅區(qū)(dense residential)、森林(forest)、高速公路(freeway)、高爾夫球場(golf course)、港口(harbor)、交叉口(intersection)、中等密集住宅區(qū)(medium density residential)、活動房區(qū)(mobile home park)、立交橋(overpass)、停車場(parking lot)、河流(river)、跑道(runway)、稀疏住宅區(qū)(sparse residential)、儲油罐(storage tanks)、網(wǎng)球場(tennis courts)。
試驗時,首先進行彩色圖像灰度化處理。為了提取充足數(shù)量的局部描述子,對原始圖像進行圖像金字塔構造,采用比例值為1.5的下采樣方式,將原始圖像構建成包含4幅不同尺度的圖像金字塔,對金字塔中的每一層圖像都分別按照本方法的步驟單獨進行的特征提取。
所述的pSz=8與wSz=20,對局部描述子向量降維至64維,特征編碼中的GMM聚類數(shù)采用96,實驗結果如表1??梢钥闯?,本實施例的方法在每類訓練樣本為80的時候,可獲得93.78%的分類精度。本方法的特征提取過程具有簡單易實現(xiàn)的優(yōu)點,并且分類精度高具有可比性,更具實用價值。
表1Land Use數(shù)據(jù)集分類精度對比
如圖5所示,本方法在一些類別上可以獲得非常高的分類精度,如農(nóng)用地為99.00%,機場為98.00%,沙灘為100%,灌木叢為98.00%,森林為98.50%,港口為100%,立交橋為99.50%,跑道為98.5%。上述這些類別都具有較為明顯的紋理特征與空間結構,其中某些類別內也包含了一些特定目標或場景。
與現(xiàn)有技術相比,本方法能夠獲得較高的圖像分類精度,消除了圖像中的低階高階統(tǒng)計相關性的冗余增強目標位置不變性,特征壓縮緊湊,降低了特征維度,提高了計算效率。獲得了更好的分類性能,簡單易實現(xiàn),精度高。
上述具體實施可由本領域技術人員在不背離本發(fā)明原理和宗旨的前提下以不同的方式對其進行局部調整,本發(fā)明的保護范圍以權利要求書為準且不由上述具體實施所限,在其范圍內的各個實現(xiàn)方案均受本發(fā)明之約束。