本發(fā)明涉及顧及POI數(shù)據(jù)空間異質(zhì)性的地表覆蓋驗(yàn)證方法及系統(tǒng)。
背景技術(shù):
:地表覆蓋及變化是環(huán)境變化研究、地理國(guó)情監(jiān)測(cè)和可持續(xù)發(fā)展規(guī)劃等不可或缺的重要因素,其精度驗(yàn)證是地表覆蓋制圖的重要組成部分。目前,國(guó)內(nèi)外地表覆蓋分類精度驗(yàn)證工作主要是通過(guò)遙感影像目視解譯和野外實(shí)地調(diào)查等方式進(jìn)行,該方法耗時(shí)耗力,驗(yàn)證周期長(zhǎng),難以滿足地表覆蓋產(chǎn)品快速驗(yàn)證的需求。為減少地表覆蓋驗(yàn)證成本,更好地滿足廣大用戶日快速驗(yàn)證的應(yīng)用需求,需要發(fā)展一種新的地表覆蓋驗(yàn)證方法。近年來(lái),隨著地理時(shí)空大數(shù)據(jù)的發(fā)展和應(yīng)用,出現(xiàn)了諸如Geo-wiki、GlobeLand30、DegreesofConfluenceProject等地表覆蓋產(chǎn)品分享和驗(yàn)證平臺(tái),同時(shí),帶有地理標(biāo)記的文本、圖片等眾源地理數(shù)據(jù),也被廣泛應(yīng)用于人造地表、森林和農(nóng)作物等地表覆蓋數(shù)據(jù)的精度驗(yàn)證?!癓eungD,NewsamS.Landcoverclassificationusinggeo-referencedphotos[J].MultimediaTools&Applications,2015:1-21.”中指出,通過(guò)獲取Flickr中帶有地理位置信息的圖片數(shù)據(jù),利用數(shù)據(jù)中的圖像、文本以及地理位置等信息來(lái)識(shí)別不同類型的地表覆蓋產(chǎn)品。“HouD,ChenJ,WuH,etal.Activecollectionoflandcoversampledatafromgeo-taggedwebtexts[J].RemoteSensing,2015,7(5):5805-5827.”中提出了一種基于深度搜索的地表覆蓋驗(yàn)證信息獲取方法,自動(dòng)爬取搜房網(wǎng)的文本信息,進(jìn)行地表覆蓋中人造地表的分類精度驗(yàn)證?!癋oodyGM,BoydDS.Usingvolunteereddatainlandcovermapvalidation:MappingWestAfricanforests[J].IEEEJournalofSelectedTopicsinAppliedEarthObservationsandRemoteSensing,2013,6(3):1305-1312.”中提出利用DegreesofConfluenceProject地表覆蓋共享平臺(tái),通過(guò)志愿者解譯圖片信息,驗(yàn)證非洲西部地表覆蓋中森林的分類精度。綜上所述,將眾源地理大數(shù)據(jù)應(yīng)用到地表覆蓋驗(yàn)證已成為當(dāng)前研究的熱點(diǎn)。然而,上述地表覆蓋驗(yàn)證結(jié)果很大程度上依賴于志愿者的先驗(yàn)知識(shí),難以準(zhǔn)確地對(duì)結(jié)果做出客觀的評(píng)判。同時(shí),這類眾源地理數(shù)據(jù)定位精度相對(duì)較低,在一定程度上影響了地表覆蓋的驗(yàn)證結(jié)果。而興趣點(diǎn)(PointofInterest,POI)作為一種開(kāi)放的空間數(shù)據(jù)源,由于其大多搭載于地圖導(dǎo)航平臺(tái),具有地理位置相對(duì)準(zhǔn)確、更新速度快、分布范圍廣等特點(diǎn),能夠彌補(bǔ)眾源地理數(shù)據(jù)定位精度低的不足。此外,POI文本中諸如“餐館”、“牧場(chǎng)”、“漁場(chǎng)”等分類,分別對(duì)應(yīng)于地表覆蓋類型中的人造地表、草地和水體,易于地表覆蓋類型的識(shí)別。然而,將POI數(shù)據(jù)應(yīng)用于地表覆蓋驗(yàn)證仍面臨諸多挑戰(zhàn):一方面,某些POI類型諸如“未知分類”、“旅游景點(diǎn)”和“娛樂(lè)場(chǎng)所”等無(wú)法直接判斷地表覆蓋類型,需要對(duì)POI進(jìn)行數(shù)據(jù)清理與分類;另一方面,POI在城市區(qū)域分布密集,而在非城市區(qū)域分布稀疏,具有顯著的空間異質(zhì)性分布特征,在非城市區(qū)域由于過(guò)少的POI難以表示大面積的地表覆蓋,無(wú)法進(jìn)行地表覆蓋驗(yàn)證。因此,構(gòu)建一套顧及POI數(shù)據(jù)空間異質(zhì)性的地表覆蓋驗(yàn)證方法,具有重要的理論和現(xiàn)實(shí)意義。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供了顧及POI數(shù)據(jù)空間異質(zhì)性的地表覆蓋驗(yàn)證方法及系統(tǒng),由于POI具有地理位置相對(duì)準(zhǔn)確、其文本信息易于地表覆蓋類型識(shí)別的特點(diǎn),故可作為地表覆蓋的驗(yàn)證數(shù)據(jù)。但POI在分布較為密集,而在非城市區(qū)域的空間分布不均勻,部分區(qū)域POI分布數(shù)量較少,存在空間異質(zhì)性的特點(diǎn),使得難以準(zhǔn)確識(shí)別地表覆蓋類型。為解決上述問(wèn)題,本發(fā)明提出了:顧及POI數(shù)據(jù)空間異質(zhì)性的地表覆蓋驗(yàn)證方法,包括如下步驟:步驟A:從新浪微博開(kāi)放平臺(tái)獲取POI數(shù)據(jù)集,將OSM(OpenStreetMap)提供的城區(qū)建筑物數(shù)據(jù)與POI數(shù)據(jù)集進(jìn)行疊加,劃分出城市區(qū)域與非城市區(qū)域的POI,對(duì)劃分結(jié)果進(jìn)行修正;步驟B:根據(jù)地表覆蓋分類標(biāo)準(zhǔn),對(duì)步驟A中確定的城市區(qū)域POI進(jìn)行分類,得到城市區(qū)域的POI分類結(jié)果;步驟C:針對(duì)步驟A中確定的非城市區(qū)域POI,依據(jù)步驟B中城市區(qū)域POI的分類方法,對(duì)非城市區(qū)域不同類型的POI進(jìn)行分類,得到非城市區(qū)域的POI分類結(jié)果;在POI分類的基礎(chǔ)上,引入兩個(gè)分類結(jié)果修正變量:POI與最近村莊的距離、POI與最近道路的距離,利用C5.0決策樹(shù)算法構(gòu)建顧及POI空間異質(zhì)性的POI分類修正模型,得到非城市區(qū)域的POI分類結(jié)果;步驟D:根據(jù)步驟B確定的城市區(qū)域POI分類結(jié)果和步驟C確定的非城市區(qū)域POI分類結(jié)果,生成以30m*30m像元為單位的柵格數(shù)據(jù),依據(jù)落入柵格中各類型POI的數(shù)量,采用多數(shù)投票算法,確定每個(gè)柵格的地表覆蓋類型,生成基于POI的地表覆蓋分類結(jié)果;步驟E:根據(jù)步驟D基于POI的地表覆蓋分類結(jié)果,以GlobeLand30地表覆蓋數(shù)據(jù)產(chǎn)品為驗(yàn)證數(shù)據(jù),利用混淆矩陣,得到基于POI的GlobeLand30地表覆蓋數(shù)據(jù)產(chǎn)品的驗(yàn)證精度,實(shí)現(xiàn)顧及POI空間異質(zhì)性的地表覆蓋精度驗(yàn)證。所述步驟A包括:步驟A1:從新浪微博開(kāi)放平臺(tái)獲取POI數(shù)據(jù)集:利用其開(kāi)放平臺(tái)提供的API接口,以網(wǎng)絡(luò)爬蟲(chóng)的方式,獲取所需POI數(shù)據(jù)集,所述POI數(shù)據(jù)集包括描述POI類型的文本信息與表示空間位置的坐標(biāo)信息;步驟A2:利用ArcGIS軟件將OSM城區(qū)建筑物數(shù)據(jù)與POI點(diǎn)數(shù)據(jù)進(jìn)行空間疊加,使得同一地理坐標(biāo)下的POI與城區(qū)建筑物位于同一空間位置;步驟A3:通過(guò)判斷POI點(diǎn)數(shù)據(jù)是否落入城區(qū)建筑物數(shù)據(jù),來(lái)劃分城市區(qū)域POI與非城市區(qū)域POI;若落入則為城市區(qū)域POI,若沒(méi)有落入,則為非城市區(qū)域POI;步驟A4:對(duì)劃分結(jié)果進(jìn)行人工修正:通過(guò)參考GoogleEarth中高分辨率遙感影像里的真實(shí)地物,對(duì)步驟A3中劃分錯(cuò)誤的POI進(jìn)行修改。所述根據(jù)地表覆蓋分類標(biāo)準(zhǔn):參照GlobeLand30中的地表覆蓋類型的分類方式,將地表覆蓋分為耕地、林地、草地、灌木叢、沼澤、水體、苔原、人造地表、裸地、冰川10種地表覆蓋類型。諸如POI文本中“餐館”對(duì)應(yīng)地表覆蓋中的人造地表;“高爾夫球場(chǎng)”對(duì)應(yīng)地表覆蓋中的草地;“海濱浴場(chǎng)”對(duì)應(yīng)地表覆蓋中的水體。所述利用C5.0決策樹(shù)算法構(gòu)建顧及POI空間異質(zhì)性的POI分類修正模型,得到非城市區(qū)域的POI分類結(jié)果的步驟為:(C1)引入兩個(gè)分類結(jié)果修正變量:POI與最近村莊的距離、POI與最近道路的距離,利用OSM中待測(cè)區(qū)域的村莊數(shù)據(jù)與道路數(shù)據(jù),計(jì)算各非城市區(qū)域POI到距離最近的村莊和道路的最短距離;(C2)利用C5.0決策樹(shù)算法,引入步驟(C1)所述分類結(jié)果修正變量,構(gòu)建顧及空間異質(zhì)性的POI分類修正模型;(C3)通過(guò)引入adaptiveboosting算法和懲罰矩陣costmatrix進(jìn)行分類修正模型的優(yōu)化;(C4)利用顧及空間異質(zhì)性的POI分類修正模型,將經(jīng)過(guò)步驟C得到的非城市區(qū)域的POI分類結(jié)果進(jìn)一步分類。由于C5.0決策樹(shù)算法為監(jiān)督分類算法,故將遙感影像分類結(jié)果作為POI正確分類,并將POI劃分為訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù),構(gòu)建顧及空間異質(zhì)性的POI分類修正模型。步驟E中,利用混淆矩陣的驗(yàn)證方法定義如下:其中,AC(accuracy)表示人造地表識(shí)別結(jié)果的精度,TP(truepositive)表示被模型預(yù)測(cè)為人造地表的正確樣本,TN(truenegative)表示被模型預(yù)測(cè)為非人造地表的錯(cuò)誤樣本,F(xiàn)P(falsepositive)表示被模型預(yù)測(cè)為人造地表的錯(cuò)誤樣本,F(xiàn)N(falsenegative)表示被模型預(yù)測(cè)為非人造地表的正確樣本。POI到最近的村莊的最短距離Dv計(jì)算公式如下:其中,Px為POI的坐標(biāo)經(jīng)度,Py為POI的坐標(biāo)緯度,Vx為村莊所在位置的坐標(biāo)經(jīng)度,Vy為村莊所在位置的坐標(biāo)緯度;POI距離最近的道路的最短距離Dr計(jì)算如下:其中,A、B、C為計(jì)算道路的可調(diào)參數(shù)。步驟(C2):C5.0決策樹(shù)算法基于信息熵計(jì)算POI數(shù)據(jù)集S中各分類結(jié)果中POI類型分布狀況;信息熵的值越大,表示數(shù)據(jù)集包含POI類型越多,反之越少;信息熵的計(jì)算公式如下:其中,c為基于POI數(shù)據(jù)集S劃分的不同類別,pi為落入每一類POI的概率;i為POI數(shù)據(jù)集的類別;pi的計(jì)算公式如下:其中,ni為落入每一類POI的數(shù)量;為準(zhǔn)確將POI進(jìn)行分類,C5.0決策樹(shù)算法引入信息增益Gain修正為分類結(jié)果,具體計(jì)算公式如下:Gain(A)=Entropy(S1)-Entropy(S2)(5);其中,A為POI數(shù)據(jù)集S的用于分類的屬性,即為各非城市區(qū)域POI到距離最近的村莊和道路的最短距離;S1、S2分別為經(jīng)過(guò)分類前與分類后的數(shù)據(jù)集S;分類后數(shù)據(jù)集S2的信息熵計(jì)算公式如下:步驟(C3)的步驟為:adaptiveboosting算法通過(guò)構(gòu)建多個(gè)決策樹(shù)分類模型及計(jì)算每個(gè)決策樹(shù)分類模型的權(quán)重,構(gòu)建最優(yōu)地表覆蓋分類器;假設(shè)POI數(shù)據(jù)集S中有n個(gè)數(shù)據(jù)樣本,adaptiveboosting算法旨在構(gòu)建T個(gè)決策樹(shù),每一輪決策樹(shù)訓(xùn)練t中得到的決策樹(shù)為Ct,為第t輪決策樹(shù)訓(xùn)練中POI樣本i的權(quán)重。同時(shí),用于adaptiveboosting算法的指示函數(shù)indicatorfunction定義如下:adaptiveboosting算法參數(shù)初始化使得t=1,C5.0決策樹(shù)算法在每一次訓(xùn)練中都會(huì)減少其訓(xùn)練誤差,其中,訓(xùn)練誤差函數(shù)如下:基于訓(xùn)練誤差函數(shù)εt的每個(gè)決策樹(shù)權(quán)重αt定義如下:更新第t輪決策樹(shù)訓(xùn)練中POI樣本i的權(quán)重如下:得到每輪決策樹(shù)訓(xùn)練中POI樣本i的權(quán)重后,最終的adaptiveboosting算法的最優(yōu)分類器構(gòu)建如下:其中,CT即為基于adaptiveboosting算法的地表覆蓋最優(yōu)分類器。為提高屬于人造地表的POI分類的準(zhǔn)確率,引入懲罰矩陣(costmatrix),提高POI被錯(cuò)誤分類為人造地表的代價(jià),降低POI被錯(cuò)誤分類為非人造地表的代價(jià)。懲罰矩陣構(gòu)建如下。分類為非人造地表分類為人造地表非人造地表0m人造地表n0由懲罰矩陣可知,POI被正確分類時(shí)的代價(jià)均為0,屬于人造地表的POI被錯(cuò)誤分類到非人造地表時(shí),代價(jià)為n,屬于非人造地表的POI被錯(cuò)誤分類到人造地表時(shí),代價(jià)為m。顧及POI數(shù)據(jù)空間異質(zhì)性的地表覆蓋驗(yàn)證系統(tǒng),包括:劃分模塊:從新浪微博開(kāi)放平臺(tái)獲取POI數(shù)據(jù)集,將OSM(OpenStreetMap)提供的城區(qū)建筑物數(shù)據(jù)與POI數(shù)據(jù)集進(jìn)行疊加,劃分出城市區(qū)域與非城市區(qū)域的POI,對(duì)劃分結(jié)果進(jìn)行修正;第一分類模塊:根據(jù)地表覆蓋分類標(biāo)準(zhǔn),對(duì)劃分模塊中確定的城市區(qū)域POI進(jìn)行分類,得到城市區(qū)域的POI分類結(jié)果;第二分類模塊:針對(duì)劃分模塊中確定的非城市區(qū)域POI,依據(jù)第一分類模塊中城市區(qū)域POI的分類方法,對(duì)非城市區(qū)域不同類型的POI進(jìn)行分類,得到非城市區(qū)域的POI分類結(jié)果;在POI分類的基礎(chǔ)上,引入兩個(gè)分類結(jié)果修正變量:POI與最近村莊的距離、POI與最近道路的距離,利用C5.0決策樹(shù)算法構(gòu)建顧及POI空間異質(zhì)性的POI分類修正模型,得到非城市區(qū)域的POI分類結(jié)果;分類結(jié)果生成模塊:根據(jù)第一分類模塊確定的城市區(qū)域POI分類結(jié)果和第二分類模塊確定的非城市區(qū)域POI分類結(jié)果,生成以30m*30m像元為單位的柵格數(shù)據(jù),依據(jù)落入柵格中各類型POI的數(shù)量,采用多數(shù)投票算法,確定每個(gè)柵格的地表覆蓋類型,生成基于POI的地表覆蓋分類結(jié)果;驗(yàn)證精度獲取模塊:根據(jù)分類結(jié)果生成模塊基于POI的地表覆蓋分類結(jié)果,以GlobeLand30地表覆蓋數(shù)據(jù)產(chǎn)品為驗(yàn)證數(shù)據(jù),利用混淆矩陣,得到基于POI的GlobeLand30地表覆蓋數(shù)據(jù)產(chǎn)品的驗(yàn)證精度,實(shí)現(xiàn)顧及POI空間異質(zhì)性的地表覆蓋精度驗(yàn)證。本發(fā)明的有益效果:本發(fā)明提出了一種顧及POI數(shù)據(jù)空間異質(zhì)性的地表覆蓋驗(yàn)證方法,利用所述基于POI文本信息的POI分類方法,根據(jù)地表覆蓋的分類標(biāo)準(zhǔn),對(duì)不同類型的POI進(jìn)行分類;針對(duì)POI在非城市區(qū)域的空間異質(zhì)性的問(wèn)題,構(gòu)建所述顧及POI空間異質(zhì)性的POI分類修正模型,得到顧及空間異質(zhì)性的POI分類結(jié)果;繼而基于POI分類結(jié)果,利用多數(shù)投票法,生成地表覆蓋格網(wǎng)數(shù)據(jù),從而用于顧及POI空間異質(zhì)性的地表覆蓋分類精度驗(yàn)證。附圖說(shuō)明圖1為北京地區(qū)新浪微博POI分布示意圖;圖2為城市區(qū)域與非城市區(qū)域POI劃分結(jié)果示意圖;圖3(a)為所有POI與村莊的最短距離示意圖;圖3(b)為所有POI與道路的最短距離示意圖;圖4為基于多數(shù)投票法的地表覆蓋類型分布示意圖。具體實(shí)施方式下面結(jié)合附圖與實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。為了對(duì)本發(fā)明的技術(shù)特征、目的和效果有更加清楚的理解,現(xiàn)以北京地區(qū)的新浪微博POI數(shù)據(jù)和GlobeLand30地表覆蓋數(shù)據(jù)為例,對(duì)照附圖說(shuō)明本發(fā)明的具體實(shí)施方式。下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。本發(fā)明所提出的一種顧及POI數(shù)據(jù)空間異質(zhì)性的地表覆蓋驗(yàn)證方法,所述方法用于基于POI的地表覆蓋驗(yàn)證;所述地表覆蓋驗(yàn)證方法包括基于文本信息的POI分類和顧及空間異質(zhì)性的POI分類修正模型;所述方法包括如下步驟:A、所述地表覆蓋分類方法從新浪微博開(kāi)放平臺(tái)獲取北京市POI數(shù)據(jù)集,使用OpenStreetMap(OSM)提供的城區(qū)建筑物數(shù)據(jù)與POI進(jìn)行疊加,劃分出城市區(qū)域與非城市區(qū)域的POI,并利用人工檢核的方式修正劃分結(jié)果;通過(guò)編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng),利用新浪微博開(kāi)放平臺(tái)(網(wǎng)址)中獲取POI(網(wǎng)址)的API接口,獲得包括地理坐標(biāo)、類型等屬性的POI數(shù)據(jù)141745條,作為地表覆蓋驗(yàn)證的數(shù)據(jù)源。其中,POI數(shù)據(jù)部分屬性如表1所示。表1新浪微博POI數(shù)據(jù)部分屬性針對(duì)POI數(shù)據(jù)分布不均的問(wèn)題,本專利利用北京地區(qū)OMS建筑物數(shù)據(jù),將POI劃分為城市區(qū)域和非城市區(qū)域。具體實(shí)施步驟如下:a.依據(jù)POI數(shù)據(jù)中經(jīng)度與緯度兩個(gè)屬性,將POI進(jìn)行空間可視化,從而進(jìn)一步分析北京地區(qū)POI的空間分布特征。POI空間分布如圖1所示;b.將北京地區(qū)OSM城區(qū)建筑物數(shù)據(jù)與POI數(shù)據(jù)進(jìn)行疊加分析,以此作為劃分城市區(qū)域POI與非城市區(qū)域POI的依據(jù),與城區(qū)建筑物疊加的POI數(shù)據(jù)劃分為城市區(qū)域的POI,未與城區(qū)建筑物疊加的POI數(shù)據(jù)劃分為非城市區(qū)域的POI;c.由于OSM城區(qū)建筑物數(shù)據(jù)為眾源地理數(shù)據(jù),難以保證數(shù)據(jù)覆蓋北京地區(qū)的所有城市區(qū)域,故采用人工檢核的方式,依據(jù)北京市遙感影像數(shù)據(jù)修正城市區(qū)域與非城市區(qū)域POI的劃分結(jié)果。城市區(qū)域與非城市區(qū)域POI劃分結(jié)果如圖2所示。B、針對(duì)步驟A中確定的城市區(qū)域與非城市區(qū)域的POI,依據(jù)所述基于文本信息的POI分類方法,根據(jù)地表覆蓋的分類標(biāo)準(zhǔn),對(duì)不同類型的POI進(jìn)行分類,得到城市區(qū)域的POI分類結(jié)果。所述基于文本信息的POI分類方法實(shí)施步驟如下:如表2所示,提取POI的類型屬性這種文本信息作為分類依據(jù),以GlobeLand30中的地表覆蓋分類作為POI的分類標(biāo)準(zhǔn)。依照基于文本信息的POI分類結(jié)果,統(tǒng)計(jì)各類型POI數(shù)據(jù)占比。未識(shí)別分類由于無(wú)法應(yīng)用于地表覆蓋驗(yàn)證,故被剔除;草地和水體所對(duì)應(yīng)的POI數(shù)量過(guò)少,僅占POI總數(shù)的0.91%和0.03%,故不作為驗(yàn)證數(shù)據(jù)。因此,本專利基于文本信息的POI分類結(jié)果,利用GlobeLand30為人造地表的POI數(shù)據(jù),將其重分類為人造地表與非人造地表。其中,城市區(qū)域POI將被直接用于地表覆蓋中人造地表的分類精度驗(yàn)證。表2基于文本信息的POI分類結(jié)果C、針對(duì)步驟A中確定的非城市區(qū)域POI,由于POI分布范圍廣、數(shù)據(jù)稀疏、具有空間異質(zhì)性的特點(diǎn),在步驟B所述POI分類的基礎(chǔ)上,引入兩個(gè)分類結(jié)果修正變量:POI與村莊的最近距離、POI與道路的最近距離,利用C5.0決策樹(shù)算法構(gòu)建所述顧及POI空間異質(zhì)性的POI分類修正模型,得到非城市區(qū)域的POI分類結(jié)果;顧及空間異質(zhì)性的POI分類修正模型構(gòu)建方法實(shí)施步驟如下:a.引入兩個(gè)分類結(jié)果修正變量:POI與村莊的最近距離、POI與道路的最近距離,利用OSM中北京地區(qū)的村莊數(shù)據(jù)與道路數(shù)據(jù),計(jì)算各非城市區(qū)域POI到距離最近的村莊和道路的最短距離。POI到村莊的最短距離Dv計(jì)算公式如下。其中,Px,Py分別為POI的坐標(biāo)經(jīng)度和坐標(biāo)緯度,Vx,Vy則為村莊所在位置的經(jīng)緯度。POI距離道路的最短距離Dr計(jì)算如下.其中,A、B、C為計(jì)算道路的可調(diào)參數(shù)。兩分類結(jié)果修正變量的統(tǒng)計(jì)結(jié)果如圖3(a)、圖3(b)所示。POI與村莊的最短距離多集中于2000m內(nèi),與道路的最短距離多集中于100m內(nèi),而零散分布于遠(yuǎn)離村莊與道路的POI,由于空間異質(zhì)性的影響,不應(yīng)作為人造地表的驗(yàn)證數(shù)據(jù)源,應(yīng)被分為非人造地表的POI。故本專利將引入C5.0決策樹(shù)算法,構(gòu)建顧及空間異質(zhì)性的POI分類修正模型。b.利用C5.0決策樹(shù)算法,引入步驟a.所述分類結(jié)果修正變量,構(gòu)建顧及空間異質(zhì)性的POI分類修正模型。C5.0決策樹(shù)算法基于信息熵計(jì)算POI數(shù)據(jù)集S中各分類結(jié)果中POI類型分布狀況。信息熵的值越大,表示數(shù)據(jù)集包含POI類型越多,反之越少。信息熵的計(jì)算公式如下。其中,c為基于POI數(shù)據(jù)集S劃分的不同類別,pi為落入每一類POI的概率。pi的計(jì)算公式如下。其中,ni為落入每一類POI的數(shù)量。為準(zhǔn)確將POI進(jìn)行分類,C5.0決策樹(shù)算法引入信息增益(Gain)修正為分類結(jié)果,具體計(jì)算公式如下。Gain(A)=Entropy(S1)-Entropy(S2)(5)其中,A為POI數(shù)據(jù)集S的用于分類的屬性,即為各非城市區(qū)域POI到距離最近的村莊和道路的最短距離。S1、S2分別為經(jīng)過(guò)分類前與分類后的數(shù)據(jù)集S。分類后數(shù)據(jù)集S2的信息熵計(jì)算公式如下。盡管C5.0決策樹(shù)算法能夠基于信息熵的計(jì)算實(shí)現(xiàn)POI的自動(dòng)分類,但為實(shí)現(xiàn)地表覆蓋分類模型的優(yōu)化以及提高屬于人造地表的POI分類的準(zhǔn)確率,本專利引入adaptiveboosting算法和懲罰矩陣(costmatrix)進(jìn)行分類修正模型的優(yōu)化。c.通過(guò)引入adaptiveboosting算法和懲罰矩陣(costmatrix)進(jìn)行分類修正模型的優(yōu)化。adaptiveboosting算法通過(guò)構(gòu)建多個(gè)決策樹(shù)分類模型及計(jì)算每個(gè)決策樹(shù)分類模型的權(quán)重,構(gòu)建最優(yōu)地表覆蓋分類器。假設(shè)POI數(shù)據(jù)集S中有n個(gè)數(shù)據(jù)樣本,adaptiveboosting算法旨在構(gòu)建T個(gè)決策樹(shù),每一輪決策樹(shù)訓(xùn)練t中得到的決策樹(shù)為Ct,為第t輪決策樹(shù)訓(xùn)練中POI樣本i的權(quán)重。同時(shí),用于adaptiveboosting算法的指示函數(shù)(indicatorfunction)定義如下。adaptiveboosting算法參數(shù)初始化使得t=1,C5.0決策樹(shù)算法在每一次訓(xùn)練中都會(huì)減少其訓(xùn)練誤差,其中,訓(xùn)練誤差函數(shù)如下?;谟?xùn)練誤差函數(shù)εt的每個(gè)決策樹(shù)權(quán)重αt定義如下。更新第t輪決策樹(shù)訓(xùn)練中POI樣本i的權(quán)重如下。得到每輪決策樹(shù)訓(xùn)練中POI樣本i的權(quán)重后,最終的adaptiveboosting算法的最優(yōu)分類器構(gòu)建如下。其中,CT即為基于adaptiveboosting算法的地表覆蓋最優(yōu)分類器。為提高屬于人造地表的POI分類的準(zhǔn)確率,本專利引入懲罰矩陣(costmatrix),提高POI被錯(cuò)誤分類為人造地表的代價(jià),降低POI被錯(cuò)誤分類為非人造地表的代價(jià)。懲罰矩陣構(gòu)建如下。分類為非人造地表分類為人造地表非人造地表0m人造地表n0由懲罰矩陣可知,POI被正確分類時(shí)的代價(jià)均為0,屬于人造地表的POI被錯(cuò)誤分類到非人造地表時(shí),代價(jià)為n,屬于非人造地表的POI被錯(cuò)誤分類到人造地表時(shí),代價(jià)為m。d.利用顧及空間異質(zhì)性的POI分類修正模型,將經(jīng)過(guò)步驟B文本分類的北京地區(qū)18925個(gè)非城市區(qū)域的POI進(jìn)一步分類。由于C5.0決策樹(shù)算法為監(jiān)督分類算法,故本專利將遙感影像分類結(jié)果作為POI正確分類,并將POI劃分為訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù),構(gòu)建顧及空間異質(zhì)性的POI分類修正模型。表3為經(jīng)過(guò)文本分類后的POI訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)及其分類正確率。表3POI訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)及其正確率Adaptiveboosting算法迭代錯(cuò)誤率如表4.表4Adaptiveboosting算法迭代錯(cuò)誤率迭代數(shù)決策樹(shù)數(shù)量錯(cuò)誤率0525.20%1224.70%2423.50%3424.50%4536.90%5424.60%6636.80%7223.40%8224.90%9322.20%1020.40%依據(jù)表4各迭代數(shù)的錯(cuò)誤率,本專利采用10次迭代數(shù)來(lái)優(yōu)化C5.0決策樹(shù)模型。此外,懲罰矩陣定義如下。分類為非人造地表分類為人造地表非人造地表04人造地表10錯(cuò)誤分類為人造地表的代價(jià)為錯(cuò)誤分類為非人造地表的代價(jià)的4倍,以此提高人造地表的分類精度?;赑OI分類修正模型的訓(xùn)練數(shù)據(jù)分類結(jié)果與測(cè)試數(shù)據(jù)數(shù)據(jù)分類結(jié)果如表5、表6所示。表5基于POI分類修正模型的訓(xùn)練數(shù)據(jù)分類結(jié)果表6基于POI分類修正模型的測(cè)試數(shù)據(jù)分類結(jié)果D、根據(jù)步驟B、C確定的城市區(qū)域與非城市區(qū)域POI分類結(jié)果,生成以30m*30m像元為單位的柵格,依據(jù)落入柵格中各類型POI的數(shù)量,利用多數(shù)投票算法,確定每個(gè)柵格的地表覆蓋類型,生成基于POI的地表覆蓋分類結(jié)果;為了進(jìn)行GlobeLand30地表覆蓋分類精度的驗(yàn)證,需要將POI數(shù)據(jù)轉(zhuǎn)換為與GlobeLand30分辨率相同的以30m*30m的像元為單元的柵格數(shù)據(jù)。由于柵格數(shù)據(jù)精度限制,落入同一柵格的POI所屬地表覆蓋類型可能不會(huì)完全相同,故本專利多數(shù)投票算法,確定每個(gè)柵格的地表覆蓋類型,生成基于POI的地表覆蓋分類結(jié)果。計(jì)算每個(gè)柵格單元中中各類型POI的數(shù)量,存儲(chǔ)單元v用來(lái)存儲(chǔ)當(dāng)前正在計(jì)算的POI類型,并定義計(jì)數(shù)器k,當(dāng)前計(jì)算的POI類型與上一個(gè)POI類型相同時(shí),計(jì)數(shù)器數(shù)目加1,否則,計(jì)數(shù)器k數(shù)目減1,直到k的值歸零。當(dāng)k的值為0時(shí),當(dāng)前正在計(jì)算的POI類型為存儲(chǔ)單元v中的POI類型?;诙鄶?shù)投票法生成66058個(gè)代表不同地表覆蓋類型的柵格單元,其地表覆蓋空間分布分布如圖4所示。E、根據(jù)步驟D基于POI的地表覆蓋分類結(jié)果,以GlobeLand30地表覆蓋分類產(chǎn)品為驗(yàn)證數(shù)據(jù),利用混淆矩陣,得到基于POI的GlobeLand30地表覆蓋分類產(chǎn)品的驗(yàn)證精度,實(shí)現(xiàn)所述顧及POI空間異質(zhì)性的地表覆蓋精度驗(yàn)證?;诨煜仃嚨尿?yàn)證方法定義如下。其中AC(accuracy)表示人造地表識(shí)別結(jié)果的精度,TP(truepositive)表示被模型預(yù)測(cè)為人造地表的正確樣本,TN(truenegative)表示被模型預(yù)測(cè)為非人造地表的錯(cuò)誤樣本,F(xiàn)P(falsepositive)表示被模型預(yù)測(cè)為人造地表的錯(cuò)誤樣本,F(xiàn)N(falsenegative)表示被模型預(yù)測(cè)為非人造地表的正確樣本。對(duì)GlobeLand30人造地表的分類精度驗(yàn)證結(jié)果見(jiàn)表7。表7人造地表分類精度驗(yàn)證本發(fā)明提出了一種顧及POI數(shù)據(jù)空間異質(zhì)性的地表覆蓋驗(yàn)證方法,利用所述基于POI文本信息的POI分類方法,根據(jù)地表覆蓋的分類標(biāo)準(zhǔn),對(duì)不同類型的POI進(jìn)行分類;針對(duì)POI在非城市區(qū)域的空間異質(zhì)性的問(wèn)題,構(gòu)建所述顧及POI空間異質(zhì)性的POI分類修正模型,得到顧及空間異質(zhì)性的POI分類結(jié)果;繼而基于POI分類結(jié)果,利用多數(shù)投票法,生成地表覆蓋柵格數(shù)據(jù),從而用于顧及POI空間異質(zhì)性的地表覆蓋分類精度驗(yàn)證。上述雖然結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行了描述,但并非對(duì)本發(fā)明保護(hù)范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動(dòng)即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。當(dāng)前第1頁(yè)1 2 3