本發(fā)明屬于空間統(tǒng)計分析服務(wù)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種基于遙感影像的特征函數(shù)空間濾值回歸模型并行化方法。
背景技術(shù):空間統(tǒng)計學(xué)是研究地理空間事物和現(xiàn)象分布、相互關(guān)系和變化規(guī)律的重要科學(xué),作為空間分析的重要分支,空間統(tǒng)計分析研究的發(fā)展為空間數(shù)據(jù)分析提供了強(qiáng)大的數(shù)學(xué)基礎(chǔ)和理論支撐。遙感衛(wèi)星不僅能夠快速便捷獲取到最新數(shù)據(jù),縮短了地表數(shù)據(jù)的獲取時間,降低了數(shù)據(jù)獲取的成本,同時數(shù)據(jù)精確性也更高,已經(jīng)成為空間統(tǒng)計的重要數(shù)據(jù)來源。傳統(tǒng)的空間統(tǒng)計方法通常以區(qū)域統(tǒng)計數(shù)據(jù)或遙感影像采樣數(shù)據(jù)做回歸分析,由于采樣點分布在一定程度上會破壞自然要素的連續(xù)性和完整性,從而對分析結(jié)果造成影響。而遙感影像數(shù)據(jù)量巨大,而現(xiàn)有遙感影像分析和數(shù)據(jù)處理能力還難以滿足應(yīng)用需求(文獻(xiàn)1),成為制約遙感影像應(yīng)用到空間統(tǒng)計領(lǐng)域重要瓶頸?,F(xiàn)實中,統(tǒng)計分析的變量都具有空間依賴和關(guān)聯(lián)的性質(zhì),在空間分析過程中表現(xiàn)為空間自相關(guān)性(文獻(xiàn)2)。變量空間自相關(guān)性的存在會影響回歸模型的準(zhǔn)確度,在構(gòu)建回歸模型過程中,需要消去空間自相關(guān)的影響才能構(gòu)建更準(zhǔn)確的回歸模型??臻g自相關(guān)性程度通常用Moran指數(shù)來衡量(文獻(xiàn)3)。Getis(文獻(xiàn)4)和Griffith(文獻(xiàn)5)分別提出了空間濾值方法用來解決回歸分析中的空間自相關(guān)問題。該方法的核心思想是將變量分解成空間影響和非空間影響兩部分,濾去空間影響部分就可以用傳統(tǒng)的回歸方法來分析(文獻(xiàn)6)。Griffith的特征函數(shù)空間濾值方法與Getis的相比結(jié)果相當(dāng),可移植性較好(文獻(xiàn)6)。但由于特征函數(shù)空間濾值方法計算量較大,通常應(yīng)用到數(shù)據(jù)量較小的采樣點或統(tǒng)計區(qū)域,在整幅的遙感影像數(shù)據(jù)中尚未有大規(guī)模應(yīng)用。隨著計算機(jī)并行計算技術(shù)的發(fā)展,可以采用分布式計算的方法來解決單節(jié)點計算能力不足的問題(文獻(xiàn)7)。目前并行計算的門檻隨著計算機(jī)軟硬件技術(shù)的發(fā)展而不斷降低,多核處理器已經(jīng)成為PC機(jī)的基本配置。將多臺多核計算機(jī)通過局域網(wǎng)連接可以構(gòu)成并行計算集群,并行計算集群可以提供分布式計算服務(wù),解決計算、數(shù)據(jù)密集型問題,大大縮減了用戶用于解決網(wǎng)絡(luò)通信等問題所耗費(fèi)的時間和精力(文獻(xiàn)8)。基于多核集群的并行化方法已經(jīng)應(yīng)用到人臉識別算法(文獻(xiàn)9)、高光譜影像協(xié)方差矩陣計算(文獻(xiàn)10)等圖像處理等領(lǐng)域,實驗結(jié)果表明計算效率均有顯著提高。背景文獻(xiàn):[1]李德仁,張良培,夏桂松.遙感大數(shù)據(jù)自動分析與數(shù)據(jù)挖掘[J].測繪學(xué)報,2014.43(12):1211-1216.[2]沈體雁,馮等田,孫鐵山,2010.空間計量經(jīng)濟(jì)學(xué)[M].北京:北京大學(xué)出版社,32-33.[3]P.A.P.Moran,1950.NotesonContinuousStochasticPhenomena[J].Biometrika,37(1/2):17-23.[4]J.K.Ord,ArthurGetis,1995.LocalSpatialAutocorrelationStatistics:DistributionalIssuesandanApplication[J].GeographicalAnalysis,27(4):286-306.[5]GriffithD,2000.Alinearregressionsolutiontothespatialautocorrelationproblem[J].GeogrSyst,2(2):141-156.[6]ArthurGetis,DanielA.Griffith,2002.ComparativeSpatialFilteringinRegressionAnalysis[J].GeographicalAnalysis,34(2):130-140.[7]ChenGL,SunGZ,ZhangYQ,etal.Studyonparallelcomputing[J].JComputSciTech,2006.21(5):665—673.[8]劉維.實戰(zhàn)Matlab之并行程序設(shè)計[M].北京:北京航空航天大學(xué)出版社2012.3:154-156.[9]鄭曉薇,于夢玲.基于MATLAB多核集群的人臉識別算法的并行化設(shè)計[J].計算機(jī)應(yīng)用,2011.31(10):2597-2599.[10]王茂芝,郭科,徐文皙.基于集群和GPU的高光譜遙感影像并行處理[J].紅外與激光工程,2013.42(11):3070-3075.
技術(shù)實現(xiàn)要素:為了解決基于遙感影像的空間統(tǒng)計學(xué)回歸分析中變量空間自相關(guān)性影響回歸模型準(zhǔn)確性、且數(shù)據(jù)量大導(dǎo)致計算能力不足等問題,本發(fā)明提供了一種基于遙感影像數(shù)據(jù)的特征函數(shù)空間濾值回歸模型的并行化方法。本發(fā)明所采用的技術(shù)方案是:步驟1:遙感影像分塊,確定最小分割單元N×N并計算空間鄰接矩陣W;步驟2:空間鄰接矩陣W中心化得到矩陣C,計算矩陣C的特征值和特征向量Eigenvectors;步驟3:創(chuàng)建并行任務(wù),將分塊的影像和特征向量Eigenvectors加入任務(wù)隊列,并分發(fā)至各個計算節(jié)點;步驟4:各計算節(jié)點中,將分塊的遙感影像進(jìn)行中心化處理得到中心化后的自變量Xcent和因變量Ycent,計算自變量模型中每加入Eigenvectors中的一個特征向量后殘差e的莫侖指數(shù)Moran’sI,得到莫侖指數(shù)數(shù)組Im,利用前向選擇法選取其中最小值所對應(yīng)的特征向量Ei;步驟5:各計算節(jié)點中,對步驟4得到的Im中最小的Moran’sI進(jìn)行顯著性檢驗;若結(jié)果顯著,則將最小I值所對應(yīng)的特征向量Ei從Eigenvectors中提取出來,加入到自變量Xcent中,再利用后向消除法將最小I值所對應(yīng)的特征向量Ei從Eigenvectors中剔除;并回轉(zhuǎn)執(zhí)行上述步驟4;結(jié)果不顯著,則執(zhí)行下述步驟6;步驟6:則匯總各分塊提取出的所有特征向量;步驟7:返回各分塊影像特征向量提取結(jié)果到主節(jié)點,構(gòu)建基于遙感影像數(shù)據(jù)的特征函數(shù)空間濾值回歸模型。本發(fā)明針對遙感影像數(shù)據(jù)回歸建模過程中變量空間自相關(guān)性對模型的影響,提出采用特征函數(shù)空間濾值方法,通過將影像進(jìn)行分塊,利用搭建的并行計算集群進(jìn)行分布式計算,最后將分塊計算的結(jié)果返回給主節(jié)點匯總,通過對比串行和并行分別得到的回歸模型擬合評價參數(shù)MSE、RMSE、R2、Adj.R2以及并行加速比S,驗證基于遙感影像的特征函數(shù)空間濾值并行方法在空間統(tǒng)計回歸建模中能夠消除空間自相關(guān)影響,并有效提高計算效率。附圖說明圖1為本發(fā)明實施例的流程圖。圖2為本發(fā)明實施例步驟1的原理示意圖。圖3為本發(fā)明實施例步驟3的原理示意圖。圖4為本發(fā)明實施例步驟4的子流程圖。圖5為本發(fā)明實施例的模型評價方法流程圖。具體實施方法為了便于本領(lǐng)域普通技術(shù)人員理解和實施本發(fā)明,下面結(jié)合附圖及實施例對本發(fā)明作進(jìn)一步的詳細(xì)描述,應(yīng)當(dāng)理解,此處所描述的實施示例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明要解決的核心問題是:利用特征函數(shù)空間濾值方法消除遙感影像回歸分析中的空間自相關(guān)對回歸模型擬合優(yōu)度的影響,同時采用并行計算的方法解決遙感影像數(shù)據(jù)量大而導(dǎo)致單節(jié)點計算能力不足的問題,以并行化方法建立基于遙感影像的特征函數(shù)空間濾值回歸模型。請見圖1,本發(fā)明提供的一種基于遙感影像的特征函數(shù)空間濾值回歸模型并行化方法,包括以下步驟:步驟1:影像分塊,計算空間鄰接矩陣。影像分塊的具體實現(xiàn)方法參見圖2。步驟1.1:根據(jù)實驗需要確定合適的最小分割單元N×N,N的大小由整幅影像大小和單幅影像計算時間共同確定,采用影像分塊方法將整幅遙感影像依次切分成相同大小的分塊,用對應(yīng)的行列號(i,j)區(qū)分各分塊影像。步驟1.2:由分割單元大小N×N創(chuàng)建空間鄰接矩陣W,空間相鄰關(guān)系以“象”相鄰方式定義,即像元相鄰的上下左右和對角線方向的八個像元之間的關(guān)系為鄰接,其余為不鄰接。在基于遙感影像的回歸分析中,單個像元所代表的地理單元具有一定規(guī)模,這種以象相鄰方式定義的空間鄰接矩陣歸一化后得到的空間權(quán)重矩陣,相比其他相鄰方式計算簡單,同時顧及像元之間邊和頂點的方式也更符合現(xiàn)實。步驟2:計算中心化鄰接矩陣的特征值和特征向量。將步驟1.2創(chuàng)建的空間鄰接矩陣W進(jìn)行中心化處理得到中心化后的空間鄰接矩陣C,利用QR分解法計算中心化空間鄰接矩陣C的特征值和特征向量Eigenvectors。步驟3:創(chuàng)建并行任務(wù),分發(fā)數(shù)據(jù)。在搭建好并行計算環(huán)境中,將分塊后的數(shù)據(jù)加入到任務(wù)隊列,由主節(jié)點控制的調(diào)度器將數(shù)據(jù)自動分配到各個計算節(jié)點node中。分塊后的影像組分別由調(diào)度器(scheduler)分配給并行集群中的計算節(jié)點(node)進(jìn)行特征函數(shù)空間濾值計算。并行計算分發(fā)分塊影像數(shù)據(jù)過程參見圖3。步驟4:各計算節(jié)點中,計算自變量模型中每加入Eigenvectors中的一個特征向量后殘差e的莫侖指數(shù)Moran’sI,得到莫侖指數(shù)數(shù)組Im,利用前向選擇法選取其中最小值所對應(yīng)的特征向量Ei;具體計算過程參見圖4。步驟4.1:將分塊的遙感影像數(shù)據(jù)進(jìn)行中心化處理得到中心化后的自變量Xcent和因變量Ycent。依次選擇一個特征向量Ei(來自于Eigenvectors,要求特征值大于0)加入到自變量Xcent中得到新的Xcent(此后無需再中心化),計算殘差e,利用新得到的Xcent和Ycent計算殘差e,計算殘差e的公式如下:其中,Xcent為加入特征向量后的自變量模型,Ycent為中心化后的因變量模型。步驟4.2:計算步驟4.1得到的殘差e的莫侖指數(shù)Moran’sI,計算莫侖指數(shù)I的公式如下:其中,e為步驟4.1計算得到的殘差,W為空間鄰接矩陣,n為樣本個數(shù)。步驟4.3:依次將Eigenvectors中的特征向量Ei,重復(fù)上述步驟4.1-4.2,循環(huán)迭代,得到莫侖指數(shù)數(shù)組Im,利用前向選擇法選取其中最小值所對應(yīng)的特征向量Ei;步驟5:各計算節(jié)點中,對步驟4得到的Im中最小的Moran’sI進(jìn)行顯著性檢驗;若結(jié)果顯著,則將最小I值所對應(yīng)的特征向量Ei從Eigenvectors中提取出來,加入到自變量Xcent中,再利用后向消除法將最小I值所對應(yīng)的特征向量Ei從Eigenvectors中剔除;結(jié)果不顯著,則執(zhí)行下述步驟6;步驟6:結(jié)束提取,保存并匯總在各分塊影像中提取出的特征向量Ei;步驟7:返回各分塊影像特征向量提取結(jié)果到主節(jié)點,構(gòu)建基于遙感影像數(shù)據(jù)的特征函數(shù)空間濾值回歸模型。將各分塊影像通過并行計算提取得到的特征向量返回到主節(jié)點,選擇適合具體應(yīng)用環(huán)境的回歸模型(如多元線性回歸、泊松回歸等),將步驟4.3所有提取出來的特征向量Ei加入到自變量模型中,再按照多元線性回歸方式,以分段函數(shù)的形式,利用最小二乘法求取系數(shù)α、β和殘差e,匯總得到基于遙感影像的特征函數(shù)空間濾值回歸模型,公式如下:Y=Xβ+Eα+e;其中,X為原始的自變量模型,Y為原始的因變量模型,E為各分塊影像提取出的特征向量,β和α分別為特征函數(shù)空間濾值回歸模型利用最小二乘法求取的自變量模型系數(shù),e為特征函數(shù)空間濾值回歸模型的殘差。步驟8:模型評價。選擇均方誤差MSE、均方根誤差RMSE、擬合優(yōu)度R2、調(diào)整后的擬合優(yōu)度Adj.R2作為評價對比參數(shù)以驗證基于遙感影像數(shù)據(jù)的特征函數(shù)空間濾值回歸模型并行化方法的高擬合度。利用整幅影像做空間濾值回歸,得到計算時間以驗證基于遙感影像數(shù)據(jù)的特征函數(shù)空間濾值回歸模型并行化方法的高計算效率。步驟8.1:分別計算基于遙感影像數(shù)據(jù)的傳統(tǒng)多元線性回歸模型和基于遙感影像數(shù)據(jù)的特征函數(shù)空間濾值回歸模型的均方誤差MSE、均方根誤差RMSE、擬合優(yōu)度R2、調(diào)整后的擬合優(yōu)度Adj.R2,公式分別如下:其中,為特征函數(shù)空間濾值回歸模型中因變量的擬合值,yi為自變量模型的原始值,為自變量模型原始值的平均值,n為的樣本數(shù)量,k為特征函數(shù)空間濾值回歸模型自變量的個數(shù)。上述對比擬合參數(shù)中,一種回歸模型中MSE、RMSE的值越小,R2和Adj.R2越大,則說明回歸模型精度越高。步驟8.2:分別獲得整幅影像做特征函數(shù)空間濾值和影像分塊空間濾值的計算時間Ts和Tp,計算并行對串行的計算時間加速比S,公式如下:若并行計算精度達(dá)到要求且S大于1,則表明基于圖像分割的遙感影像空間濾值并行處理方法在保證模型精度的前提下能夠有效提高計算效率。本發(fā)明可應(yīng)用于大規(guī)模分布式環(huán)境下基于遙感影像數(shù)據(jù)的空間回歸建模領(lǐng)域。應(yīng)當(dāng)理解的是,本說明書未詳細(xì)闡述的部分均屬于現(xiàn)有技術(shù)。應(yīng)當(dāng)理解的是,上述針對較佳實施例的描述較為詳細(xì),并不能因此而認(rèn)為是對本發(fā)明專利保護(hù)范圍的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下,在不脫離本發(fā)明權(quán)利要求所保護(hù)的范圍情況下,還可以做出替換或變形,均落入本發(fā)明的保護(hù)范圍之內(nèi),本發(fā)明的請求保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。