本發(fā)明屬于地表覆蓋分類技術(shù)領(lǐng)域,尤其涉及一種利用poi數(shù)據(jù)進行地表覆蓋分類的方法及系統(tǒng)。
背景技術(shù):
地表覆蓋及變化數(shù)據(jù)是環(huán)境變化研究、地理國情監(jiān)測和可持續(xù)發(fā)展規(guī)劃等的重要科學數(shù)據(jù),其分類與制圖一直是國內(nèi)外研究的熱點。目前主要采用遙感影像分類制圖方式,其是由專業(yè)人員通過分析遙感影像中的光譜和紋理信息,結(jié)合專家先驗知識和各種參考資料,提取地表覆蓋類型和分布信息。該方法受遙感影像獲取和分類技術(shù)的影響,具有生產(chǎn)周期長,成本高,自動化程度低等不足,導(dǎo)致其難以滿足地表覆蓋產(chǎn)品快速制圖的需求。為減少制圖成本,滿足用戶對地表覆蓋產(chǎn)品日益變化的應(yīng)用需求,需要發(fā)展一種新的地表覆蓋分類方法。
近年來,隨著地理時空大數(shù)據(jù)的應(yīng)用與發(fā)展,很多學者已經(jīng)在嘗試將帶地理標簽的圖片、軌跡、興趣點(pointofinterest,poi)等眾源數(shù)據(jù)應(yīng)用于地表覆蓋和土地利用的分類。“antoniou,vyron,etal."investigatingthefeasibilityofgeo-taggedphotographsassourcesoflandcoverinputdata."isprsinternationaljournalofgeo-information5.5(2016):64.”分析論述了panoramio、flickr、geograph三種圖片數(shù)據(jù)源應(yīng)用于地表覆蓋分類中的可行性;“see,linda,etal."buildingahybridlandcovermapwithcrowdsourcingandgeographicallyweightedregression."isprsjournalofphotogrammetryandremotesensing103(2015):48-56.”應(yīng)用geo-wiki中的地理標記信息,通過志愿者對其所在地區(qū)的地表覆蓋類型進行人工判斷,實現(xiàn)中等分辨率地表覆蓋的分類與制圖;“魯國珍,常曉猛,李清泉,等.基于人類時空活動的城市土地利用分類研究[j].地球信息科學學報,2015,17(12):1497-1505.”通過分析qq用戶的時空軌跡,構(gòu)建人類時空活動指數(shù),建立人類活動與土地利用分類的關(guān)系;“hu,tengyun,etal."mappingurbanlandusebyusinglandsatimagesandopensocialdata."remotesensing8.2(2016):151.”依據(jù)poi數(shù)據(jù)的空間分布,采用核密度估計算法,進行商業(yè)、住宅等城市區(qū)域的劃分。
上述研究所應(yīng)用到的圖片數(shù)據(jù)需要人工解譯,耗時耗力,而poi和軌跡數(shù)據(jù)的空間分布也無法直接反映地表覆蓋類型。而且,他們都忽略了這些數(shù)據(jù)中的文本信息與地表覆蓋分類語義的關(guān)聯(lián),諸如poi文本中“餐館”、“高爾夫球場”、“海濱浴場”,分別對應(yīng)了地表覆蓋中的人造地表、草地和水體。因此,本發(fā)明提出了一種純粹利用poi文本語義的地表覆蓋分類方法。
技術(shù)實現(xiàn)要素:
本發(fā)明提供了一種利用poi數(shù)據(jù)進行地表覆蓋分類的方法及系統(tǒng),由于poi數(shù)據(jù)中的文本信息與地表覆蓋分類語義具有一定的關(guān)聯(lián),諸如poi文本中“餐館”、“高爾夫球場”、“海濱浴場”,分別對應(yīng)了地表覆蓋中的人造地表、草地和水體,故可作為地表覆蓋的分類數(shù)據(jù)。然而,不同poi數(shù)據(jù)間沒有統(tǒng)一的分類標準,且某些poi類型諸如“未知分類”、“旅游景點”和“娛樂場所”等無法直接用于地表覆蓋類型的判斷。
為解決上述問題,本發(fā)明提出了:
一種利用poi數(shù)據(jù)進行地表覆蓋分類的方法,包括如下步驟:
步驟a:獲取poi數(shù)據(jù)集,將poi數(shù)據(jù)集作為地表覆蓋分類數(shù)據(jù);poi數(shù)據(jù)集包括:poi類型與表示空間位置的坐標信息;
步驟b:利用步驟a所獲取的poi數(shù)據(jù)集構(gòu)建文檔,將文檔輸入到潛在狄利克雷lda(latentdirichletallocation)主題模型,進行poi文本主題計算;輸出文檔中主題z的分布概率θ和每個主題中poi文本詞語w的分布概率φ;
步驟c:基于poi文本主題的地表覆蓋分類,應(yīng)用支持向量機svm(supportvectormachine)算法,構(gòu)建地表覆蓋分類模型;將文檔中主題z的分布概率θ輸入到構(gòu)建的地表覆蓋分類模型中,得到地表覆蓋分類結(jié)果;
步驟d:基于步驟c所得地表覆蓋分類結(jié)果,以隨機抽樣的方式從基于遙感影像的地表覆蓋分類數(shù)據(jù)抽取采樣點作為參考數(shù)據(jù),利用混淆矩陣,對基于poi的地表覆蓋分類結(jié)果進行精度驗證。
所述poi數(shù)據(jù)集包括:新浪微博poi數(shù)據(jù)集、百度地圖poi數(shù)據(jù)集和高德地圖poi數(shù)據(jù)集。
所述步驟b包括:
步驟b1:構(gòu)建用于lda主題模型輸入的文檔:將研究區(qū)劃分為1000m*1000m分辨率的柵格單元,將步驟a所獲取的poi數(shù)據(jù)集空間疊加到柵格單元中,將所有落入同一個柵格單元的poi文本詞語w作為一個文檔d;
步驟b2:將文檔d輸入到lda主題模型,利用lda主題模型對poi的文本主題及分布進行計算,輸出文檔中主題z的分布概率θ和每個主題中poi文本詞語w的分布概率φ。
所述lda主題模型以文檔作為輸入變量,并假定文檔是由設(shè)定分布概率下主題z與詞語w決定的,主題z由詞語w構(gòu)成;θ是文檔中主題z的分布概率,φ是主題中詞語w的分布概率;超參數(shù)α和β為lda主題模型的輸入?yún)?shù),影響主題分布概率θ和詞語分布概率φ;m為文檔的數(shù)量,n為每篇文檔中詞語w的個數(shù),k為計算輸出主題的數(shù)量,k為lda主題模型的輸入?yún)?shù)。
文檔中主題z的分布概率θ和每個主題中poi文本詞語w的分布概率φ,計算公式如下:
式中,ni表示第k個主題z下第i個poi文本詞語w的個數(shù),nk表示第k個主題k中poi文本詞語w的個數(shù),v為poi數(shù)據(jù)集中所有poi文本詞語w的數(shù)量。
lda主題模型中超參數(shù)α、β與主題數(shù)k決定了分布概率θ和φ。
α、β的取值人為設(shè)定,主題數(shù)k依據(jù)poi類型設(shè)定。
為確定符合地表覆蓋分類的主題數(shù)k,引入用于衡量文本混合度的指標perplexity,計算不同主題數(shù)k下主題z的歸類情況,perplexity計算公式如下:
式中,dtest為測試數(shù)據(jù)集,wd為文檔中的詞語,nd則為文檔的大小。perplexity值代表文檔屬于某個主題的可信度,perplexity的值越小,表示計算結(jié)果中主題的可信度越高。
確定模型參數(shù)α、β、k后,得到文檔中主題z的分布概率θ和每個主題中poi文本詞語w的分布概率φ,其矩陣構(gòu)建如下:
其中,poi文本詞語w的分布概率φ反映了主題歸類的可信度,文檔中主題z的分布概率θ反映了地表覆蓋類型的分布,文檔中主題z的分布概率θ用于地表覆蓋自動分類。
所述地表覆蓋分類模型構(gòu)建過程如下:
通過構(gòu)建空間超平面公式(4)實現(xiàn)樣本點的正確分類:
a·θ+b=0(4);
其中,a和b分別為構(gòu)成超平面的參數(shù),θ為由lda模型計算所得文檔中主題z的分布概率θ。隨后,定義文檔中主題z的分布概率θ距離超平面公式(4)的間隔r:
其中,at為參數(shù)a的轉(zhuǎn)置;
約束條件:
yi[a·θ+b]-1≥0,i=1,2,....m(6);
其中,yi為分類的類型,yi∈{-1,+1},-1和+1代表兩種不同的分類類型,i表示第i個文檔d,m為文檔總數(shù)。
利用間隔r與約束條件,求得超平面參數(shù)a和b的值,并構(gòu)建地表覆蓋分類模型f(θ):
f(θ)=sgn(aθ+b)(7);
其中,sgn為符號函數(shù),當a·θ+b=0時,f(θ)=0,當a·θ+b>0時,f(θ)>0,當a·θ+b<0,f(θ)<0。
svm算法中最重要的因素為gamma、cost的取值與核函數(shù)的選擇。
選用sigmoid作為核函數(shù),應(yīng)用網(wǎng)格搜索算法遍歷選取gamma和cost的最優(yōu)值。網(wǎng)格搜索算法遍歷所有文檔并計算不同參數(shù)下的分類模型精度,得到地表覆蓋分類精度最高時的參數(shù)取值。
通過每個主題中poi文本詞語w的分布概率φ得到poi類型的歸類結(jié)果;通過歸類結(jié)果反映lda主題模型對poi類型分類的合理性。
基于遙感影像的地表覆蓋分類以目視解譯為基礎(chǔ),分類精度較高,故可作為參考數(shù)據(jù)。
一種利用poi數(shù)據(jù)進行地表覆蓋分類的系統(tǒng),包括:
poi數(shù)據(jù)集獲取單元,將poi數(shù)據(jù)集為地表覆蓋分類數(shù)據(jù);poi數(shù)據(jù)集包括:poi類型與表示空間位置的坐標信息;
文檔主題分布概率的計算單元,利用所獲取的poi數(shù)據(jù)集構(gòu)建文檔,將文檔輸入潛在狄利克雷lda(latentdirichletallocation)主題模型,進行poi文本主題計算;輸出文檔中主題z的分布概率θ和每個主題中poi文本詞語w的分布概率φ;
地表覆蓋分類單元,基于poi文本主題的地表覆蓋分類,應(yīng)用支持向量機svm(supportvectormachine)算法,構(gòu)建地表覆蓋分類模型;將文檔中主題z的分布概率θ輸入到構(gòu)建的地表覆蓋分類模型中,得到地表覆蓋分類結(jié)果;
精度驗證單元:基于地表覆蓋分類單元所得地表覆蓋分類結(jié)果,以隨機抽樣的方式從基于遙感影像的地表覆蓋分類數(shù)據(jù)抽取采樣點作為參考數(shù)據(jù),利用混淆矩陣,對基于poi的地表覆蓋分類結(jié)果進行精度驗證。
本發(fā)明提出了一種基于poi數(shù)據(jù)的地表覆蓋分類方法,采用潛在狄利克雷模型(latentdirichletallocation,lda),計算文檔中主題z的分布概率θ和每個主題中poi文本詞語w的分布概率φ;繼而,以分布概率φ為分類指標,通過支持向量機(supportvectormachine,svm)算法,構(gòu)建基于poi的地表覆蓋分類模型;最后,以基于遙感影像的地表覆蓋分類為標準,進行分類精度驗證。
附圖說明
圖1為lda主題模型為示意圖;
圖2(a)-圖2(d)為部分區(qū)域poi數(shù)據(jù)集分布示意圖;
圖3為不同主題數(shù)k下的perplexity值示意圖;
圖4(a)-圖4(f)為部分區(qū)域地表覆蓋分類與遙感影像對比結(jié)果示意圖;
圖5為本發(fā)明的流程圖。
具體實施方式
下面結(jié)合附圖與實施例對本發(fā)明作進一步說明。
為了對本發(fā)明的技術(shù)特征、目的和效果有更加清楚的理解,現(xiàn)以北京地區(qū)的poi數(shù)據(jù)集為例,對照附圖說明本發(fā)明的具體實施方式。
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。
本發(fā)明所提出的一種基于poi數(shù)據(jù)的地表覆蓋分類方法,如圖5所示,所述方法用于基于poi的地表覆蓋分類;所述地表覆蓋分類方法包括基于lda的poi文本主題計算方法和基于poi文本主題的地表覆蓋分類方法;所述方法包括如下步驟:
a、基于poi數(shù)據(jù)的地表覆蓋分類方法以新浪微博poi數(shù)據(jù)集、百度地圖poi數(shù)據(jù)集、高德地圖poi數(shù)據(jù)集為地表覆蓋分類數(shù)據(jù),作為地表覆蓋的分類依據(jù);poi數(shù)據(jù)集中包含了描述poi類型的文本信息與表示空間位置的坐標信息。
本專利以北京市為研究區(qū)域,實驗數(shù)據(jù)集采用928類1903658個poi,如表1所示:poi數(shù)據(jù)源為新浪微博、百度、高德,poi數(shù)量以高德居多,除位置信息外,三種poi共有的文本屬性有類型與地址。考慮到poi地址中的文本信息多為道路名稱,無法反映地表覆蓋信息,本文將poi類型作為用于主題分析的文本數(shù)據(jù)。
表1poi數(shù)據(jù)源及其屬性
將poi數(shù)據(jù)與遙感影像疊加后發(fā)現(xiàn),大部分poi落于人造地表中,而少量的數(shù)據(jù)落入森林、耕地、水體等非人造地表,圖2(a)區(qū)域為城市,poi分布密集,文本語義中大多為商業(yè)、住宅等反映人造地表類型的主題。圖2(b)區(qū)域為森林,poi分布稀疏,文本語義多與風景區(qū)、休閑娛樂相關(guān);圖2(c)區(qū)域為散落分布的耕地與村莊,poi分布相對較少,poi類型主要反映了鄉(xiāng)鎮(zhèn)、村莊等主題;圖2(d)區(qū)域靠近水體,poi多沿著水體集中分布,文本與水域和休閑度假相關(guān)。由于反映人造地表的poi相對較多,而反映森林、耕地與水體的poi數(shù)據(jù)較少,且poi文本語義在人造地表與非人造地表之間有明顯區(qū)分,故將地表覆蓋類型分為人造地表與非人造地表。
b、基于lda的poi文本主題計算,利用步驟a所獲取的poi數(shù)據(jù)集,引入潛在狄利克雷(latentdirichletallocation,lda)主題模型(如圖1所示),進行poi文本主題計算;
a.構(gòu)建用于模型輸入的文檔??紤]到距離相近的poi可能包含相同或相似的文本,將研究區(qū)劃分為1000m*1000m分辨率的柵格單元,將所有落入同一個柵格單元的poi文本詞語w作為一個文檔d;
利用poi的位置信息和文本信息,將1903658個poi構(gòu)建成11916個用于主題模型輸入的文檔。
b.為了將poi文本按照相似主題進行歸類,并計算出歸類后的poi文本的主題分布,本文選用lda模型對poi的文本主題及分布進行計算。lda模型以文檔作為輸入變量,并假定文檔是由一定分布概率下主題z與詞語w決定的,詞語w由主題z構(gòu)成;θ和φ決定了文檔中主題z的分布概率和主題中詞語w的分布概率;超參數(shù)α和β為模型輸入?yún)?shù),影響了主題分布概率θ和詞語分布概率φ;m為文檔的數(shù)量,n為每篇文檔中詞語w的個數(shù),k為計算輸出主題的數(shù)量,為模型輸入?yún)?shù)。計算文檔中主題z的分布概率θ和每個主題中poi文本詞語w的分布概率φ,其計算公式如下:
式中,ni表示第k個主題z下第i個poi文本詞語w的個數(shù),nk表示第k個主題k中poi文本詞語w的個數(shù),v為poi數(shù)據(jù)集中所有poi文本詞語w的數(shù)量。
lda主題模型中超參數(shù)α、β與主題數(shù)k決定了分布概率θ和φ。α、β的取值可根據(jù)現(xiàn)有模型的優(yōu)化參數(shù)確定,主題數(shù)k需依據(jù)poi文本數(shù)據(jù)而定。為確定符合地表覆蓋分類的合適的主題數(shù),引入用于衡量文本混合度的指標perplexity,計算不同主題數(shù)k下主題z的歸類情況,perplexity計算公式如下:
式中,dtest為測試數(shù)據(jù)集,wd為文檔中的詞語,nd則為文檔的大小。perplexity值代表了文檔屬于某個主題的不確定性,perplexity的值越小,表示計算結(jié)果中主題的可信度越高。
確定模型參數(shù)α、β、k后,得到文檔中主題z的分布概率θ和每個主題中poi文本詞語w的分布概率φ,其矩陣構(gòu)建如下:
其中,poi文本詞語w的分布概率φ反映了主題歸類的可信度,文檔中主題z的分布概率θ反映了地表覆蓋類型的分布,用于地表覆蓋自動分類。
實驗采用perplexity指標對poi文本主題分布進行計算,旨在確定poi文本的主題數(shù)k:首先,將m個文檔劃分為80%的實驗數(shù)據(jù)和20%的測試數(shù)據(jù),利用80%的實驗數(shù)據(jù),分別計算k∈{2,20,40,60,80,100}時文本的主題分布;繼而,在現(xiàn)有主題分布的基礎(chǔ)上,計算20%的測試數(shù)據(jù)下的perplexity值。
實驗結(jié)果如圖3所示:perplexity值呈一條逐漸平穩(wěn)的下滑曲線,隨著主題數(shù)k的增加,perplexity值不斷減小,且減小速度不斷下降。當k=20時,perplexity值約為20000,并在k增加至40時驟降為約15000,當k≥60時,perplexity值的下降速度明顯變緩,說明隨著主題數(shù)的不斷增加,poi文本主題的可信度逐漸升高??紤]到k的取值過大使得poi文檔的主題數(shù)過多,導(dǎo)致地表覆蓋分類特征冗余,故選取主題數(shù)k的值為60。
為驗證k=60時poi主題歸類的可信度,實驗選取了60個主題中部分主題的poi類型分布。如表2所示:同一個主題中分布概率較高的poi往往具有相同或相似的類型。例如,主題3內(nèi)分布概率較高的poi類型為“住宅區(qū)”、“房地產(chǎn)”、“住宅小區(qū)”等,都反映了居民住宅相關(guān)主題;主題14中“休閑場所”、“農(nóng)家院”、“度假村”等poi類型,反映了戶外休閑娛樂相關(guān)主題;主題46中“采摘園”、“垂釣園”、“其他農(nóng)林牧副漁基地”等poi類型反映了農(nóng)林牧漁相關(guān)主題。
表2poi類型部分主題分布
c、包含poi文本詞語w的主題z側(cè)面反映了地表覆蓋的類型,文檔中主題z的分布反映了地表覆蓋類型的分布。基于poi文本主題的地表覆蓋分類,依據(jù)文檔中poi文本語義相似的主題的分布,應(yīng)用支持向量機(supportvectormachine,svm)算法,構(gòu)建地表覆蓋分類模型。
svm算法構(gòu)建如下:
通過構(gòu)建空間超平面實現(xiàn)樣本點的正確分類:
g(w)=a(w)+b(4)
其中,a和b分別為構(gòu)成超平面的參數(shù)。隨后,定義輸入的詞語分布w距離這一超平面的間隔:
θ=y(tǒng)i(a·wi+b)(5)
并在此基礎(chǔ)上添加約束條件:
yi[(a·wi)+b]-1≥0,i=1,2,....n(6)
由此求得超平面參數(shù)a和b的值,構(gòu)建地表覆蓋分類器:
f(w)=sgn{(a*·w)+b*}(7)
svm算法中最重要的因素為gamma,cost的取值與核函數(shù)的選擇。本文選用sigmoid作為核函數(shù),應(yīng)用網(wǎng)格搜索算法遍歷選取gamma和cost的最優(yōu)值。網(wǎng)格搜索算法遍歷所有文檔并計算不同參數(shù)下的分類模型精度,得到地表覆蓋分類精度最高時的參數(shù)取值。
在構(gòu)建地表覆蓋分類模型時,考慮到地表覆蓋中混合地類的存在,分類樣本的選擇盡量避免包含多種地表覆蓋類型的poi文檔。選取1064個文檔,其中700個為訓(xùn)練樣本,364個為測試樣本,并人工標注每個文檔的地表覆蓋類型。
依據(jù)poi文本主題在文檔中分布概率的不同,利用svm算法,構(gòu)建地表覆蓋分類模型,得到的分類精度如表3所示:在700個訓(xùn)練樣本中,353個非人造地表與283個人造地表被正確分類,62個人造地表被分為非人造地表,2個非人造地表被分為人造地表,分類精度為90.86%。在364個測試樣本中,分別有204個非人造地表和120個人造地表被正確分類,38個人造地表被分為非人造地表,2個非人造地表被分為人造地表,分類精度為89.01%。
表3地表覆蓋分類模型分類精度
依據(jù)本專利提出的地表覆蓋分類模型,對11916個poi文檔進行分類,得到的部分地區(qū)分類結(jié)果。其中,圖4(a)中散落在非人造地表中的人造地表圖斑,對應(yīng)了圖4(d)遙感影像中被耕地包圍的城鎮(zhèn)地區(qū),分類結(jié)果表明該模型能夠識別非人造地表中的耕地與散落的人造地表圖斑;圖4(b)為稀疏的非人造地表和一個被分類為人造地表的柵格單元,對應(yīng)了圖4(e)遙感影像中山地地區(qū)的森林與小面積人造地表,表明該模型較好地將森林地區(qū)劃分為非人造地表,同時對其中小面積人造地表也做出了識別;圖4(c)為大面積人造地表與少數(shù)散落的非人造地表圖斑,對應(yīng)了圖4(f)遙感影像中北京市的城市中心區(qū),分類模型識別出該區(qū)域中的水體和植被,其余城市建成區(qū)則全部分類為人造地表。
d、基于步驟c所得地表覆蓋分類,利用混淆矩陣,對分類結(jié)果進行精度驗證。本專利將基于遙感影像的地表覆蓋分類作為參考數(shù)據(jù),以隨機抽樣的方式,對基于poi的地表覆蓋分類結(jié)果進行精度驗證?;谶b感影像的地表覆蓋分類以目視解譯為基礎(chǔ),分類精度較高,故可作為參考數(shù)據(jù)。
為檢驗地表覆蓋分類結(jié)果,本專利以北京2015年遙感影像為依據(jù),采用隨機抽樣的方式對地表覆蓋分類結(jié)果進行精度驗證。為減小隨機抽樣造成的精度驗證不準確的問題,分別隨機抽取1000、2000、3000、4000個樣本進行目視解譯工作。驗證精度結(jié)果如表4所示(其中,0和1分別代表非人造地表與人造地表)在四次抽樣中,非人造地表的用戶精度高于人造地表,但驗證精度差別不大,均為80%左右;而非人造地表的生產(chǎn)者精度明顯高于人造地表,分別為94%左右與50%左右,說明本專利構(gòu)建的地表覆蓋分類模型更傾向于將包含混合地類的樣本分為非人造地表,造成生產(chǎn)者精度中非人造地表的分類精度過高,人造地表的分類精度過低;就整體精度而言,四次抽樣的精度分別為84.20%、81.95%、82.27%與82.55%。與其他地表覆蓋產(chǎn)品的制圖精度相比,如globeland30的整體驗證精度達到80%以上,而本文方法所得分類精度與其差別不大。
表4地表覆蓋分類精度驗證結(jié)果
本發(fā)明提出了一種基于poi數(shù)據(jù)的地表覆蓋分類方法,采用潛在狄利克雷模型(latentdirichletallocation,lda),計算文檔中主題z的分布概率θ和每個主題中poi文本詞語w的分布概率φ;繼而。以分布概率φ為分類指標,通過支持向量機(supportvectormachine,svm)算法,構(gòu)建基于poi的地表覆蓋分類模型;最后,以基于遙感影像的地表覆蓋分類為標準,進行分類精度驗證。
上述雖然結(jié)合附圖對本發(fā)明的具體實施方式進行了描述,但并非對本發(fā)明保護范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護范圍以內(nèi)。