本發(fā)明涉及一種基于衛(wèi)星影像和網(wǎng)絡(luò)的城市區(qū)域功能屬性的識別方法,屬于多模態(tài)傳感器數(shù)據(jù)處理技術(shù)領(lǐng)域。
背景技術(shù):
具備不同功能屬性的城市區(qū)域是隨著城市的自然演化自然形成的,并為滿足居民日常生活所需提供不同的功能服務(wù)。對城市區(qū)域功能的獲取可以方便很多有價值的服務(wù),例如城市規(guī)劃、商業(yè)選址、出行建議等。目前一類自動進行城市區(qū)域功能判別的方法大多依賴于對用戶在區(qū)域間移動的數(shù)據(jù)分析。雖然用戶在區(qū)域間轉(zhuǎn)移的行為模式在一定程度上反映了區(qū)域的功能特征,但是用戶在區(qū)域內(nèi)部的行為模式在當(dāng)前的研究中并沒有充分利用,以更好地理解用戶的行為如駐留時長特征是如何受到區(qū)域功能影響的。
通過在城市范圍內(nèi)部署的大量wi-fi無線接入點,可以獲得大量用戶的wi-fi連接記錄。相比于gps軌跡具有在建筑內(nèi)部信號缺失的問題,以及手機基站定位精度不高的問題,這種數(shù)據(jù)形式具有體量大、精度高、富含用戶行為特征的優(yōu)勢。除了wi-fi訪問提供的用戶行為特征,城市基礎(chǔ)設(shè)施的地理位置分布,如公園、建筑、公路等,可以提供城市功能的靜態(tài)視覺特征反映。采用高清的衛(wèi)星影像,可以基于公共基礎(chǔ)設(shè)施的俯視圖特征對城市區(qū)域進行分析。通過對wi-fi用戶行為和衛(wèi)星影像這兩種城市傳感器數(shù)據(jù)進行融合,可以提供更好的功能屬性識別方法。
綜上所述,融合衛(wèi)星影像和wi-fi連接進行城市區(qū)域功能屬性的識別方法是利用多種傳感器數(shù)據(jù)的識別能力對城市區(qū)域功能屬性進行有效識別的關(guān)鍵技術(shù)。這種城市區(qū)域功能屬性的識別方法的作用是給出城市范圍內(nèi)的大量用戶wi-fi的連接記錄以及城市衛(wèi)星影像數(shù)據(jù),通過對行為特征和視覺特征進行提取,并設(shè)計有效分類器進行實現(xiàn)。隨著城市化進程的快速發(fā)展,以及城市日常運營過程中產(chǎn)生的大量數(shù)據(jù),這種城市區(qū)域功能屬性的識別方法不可避免地需要滿足如下要求:1)對多種數(shù)據(jù)類型應(yīng)用的靈活性;2)對不同數(shù)量和質(zhì)量的城市數(shù)據(jù)的適應(yīng)性;3)對多種區(qū)域功能類型識別的擴展性。在城市區(qū)域功能屬性識別的過程中,應(yīng)該盡量保證上述三點,這樣才能保證區(qū)域功能屬性的識別在視城市大數(shù)據(jù)上的靈活應(yīng)用,否則在區(qū)域功能屬性的識別的過程中,很難利用好多種數(shù)據(jù)來源的識別能力,從而影響最終功能識別的效果。因此,城市區(qū)域功能屬性的識別算法需要盡可能的保證以上三點要求。
技術(shù)實現(xiàn)要素:
本發(fā)明提出了一種基于衛(wèi)星影像和網(wǎng)絡(luò)的城市區(qū)域功能屬性的識別方法,其核心在于通過分析易收集的大規(guī)模的城市wi-fi上用戶連接信息以及城市區(qū)域的地理衛(wèi)星影像,來自動地感知城市中不同區(qū)域的功能特征,從而讓城市居民以及城市的管理者更好地理解城市區(qū)域分布的現(xiàn)狀以及發(fā)展的進程,為包括旅游路線選擇、商業(yè)選址以及城市建設(shè)規(guī)劃等方面的實際應(yīng)用做出建議和貢獻。
本發(fā)明提出的基于衛(wèi)星影像和網(wǎng)絡(luò)的城市區(qū)域功能屬性的識別方法,包括以下步驟:
(1)在城市區(qū)域內(nèi)布置供網(wǎng)絡(luò)用戶免費使用的路由器,利用路由器收集用戶訪問網(wǎng)絡(luò)的時間ta和離開網(wǎng)絡(luò)的時間tl,或者城市區(qū)域內(nèi)網(wǎng)絡(luò)用戶利用手機自動數(shù)據(jù)收集程序發(fā)送訪問網(wǎng)絡(luò)的時間ta和離開網(wǎng)絡(luò)的時間tl,每次用戶訪問的持續(xù)時間記為d,則:
d=tl-ta
記用戶第i次訪問網(wǎng)絡(luò)的行為bi,bi用一個四元組(ta,i,tl,i,di,uidi)表示,其中uidi代表該用戶的代碼id,每個用戶對應(yīng)一個單獨的代碼id,記所有用戶訪問的總次數(shù)為q,記所有用戶訪問行為構(gòu)成的集合為gall;
(2)利用電子地圖軟件下載城市區(qū)域的相應(yīng)衛(wèi)星影像,衛(wèi)星影像的大小為256*256像素,每個像素用rgb顏色值表示;
(3)根據(jù)上述步驟(1)的用戶訪問網(wǎng)絡(luò)時間ta,離開網(wǎng)絡(luò)時間tl以及持續(xù)時間d,計算城市區(qū)域的網(wǎng)絡(luò)特征向量vn,該特征向量vn包括36維,計算過程如下:
(3-1)根據(jù)用戶訪問網(wǎng)絡(luò)時間ta處于一天24小時中的某一小時,將所有用戶的訪問行為分為24組,記為g[1,2,…,24],其中g(shù)[a]組中的用戶訪問網(wǎng)絡(luò)時間ta滿足a-1≤ta<a,各組的用戶訪問行為的數(shù)量作為所述的特征向量vn的1-24維vn[1,2,…,24];
(3-2)根據(jù)用戶訪問網(wǎng)絡(luò)時間ta處于周中或周末,將所有用戶的訪問行為分為2組,記為g[25,26],其中g(shù)[25]組中的用戶訪問發(fā)生在周中,g[26]組中的用戶訪問發(fā)生在周末,各組的用戶訪問行為數(shù)量作為特征向量vn的25-26維vn[25,26];
(3-3)分別計算上述步驟(3-2)中g(shù)[25]組和g[26]組中用戶訪問網(wǎng)絡(luò)的平均持續(xù)時間avgd[25,26]作為特征向量vn的27-28維vn[27,28]:
(3-4)設(shè)置一個用戶訪問網(wǎng)絡(luò)的持續(xù)時間閾值dth,計算用戶訪問網(wǎng)絡(luò)持續(xù)時間大于該閾值的用戶訪問行為的數(shù)量占所有用戶訪問行為總數(shù)量的比率rlong作為特征向量vn的29維vn[29]:
其中,i(·)為指示函數(shù),當(dāng)條件·為真時,i(·)取值為1,當(dāng)條件·為假時,i(·)取值為0;
(3-5)將g[25]組,g[26]組以及gall中的用戶數(shù)量nu作為特征向量vn的30-32維vn[30,31,32];
(3-6)分別計算g[25]組用戶訪問行為、g[26]組用戶訪問行為和gall用戶訪問行為的平均重連時間tre作為特征向量vn的33-35維vn[33,34,35],平均重連時間tre的計算步驟如下(以g[25]為例):
(3-6-1)根據(jù)用戶的代碼iduid,將g[25]組的用戶訪問行為分成nu個部分,nu為與該組用戶訪問行為相對應(yīng)的用戶數(shù)量,即每個部分中的所有用戶訪問行為對應(yīng)同一個uid,對于nu個部分中的第c部分用戶訪問行為,將上述步驟(1)的訪問網(wǎng)絡(luò)時間ta從小到大排序,得到序列b[1,2,…,p],其中p為第c部分用戶訪問行為的數(shù)量,則第c部分用戶訪問行為的平均重連時間tre,c為:
其中maximum為設(shè)定的平均重連時間tre極大值,取值為168小時;
(3-6-2)利用下式計算g[25]組用戶訪問行為的平均重連時間tre為:
(3-6-3)重復(fù)步驟(3-6-1)和步驟(3-6-2),分別計算g[26]組用戶訪問行為和gall用戶訪問行為的平均重連時間;
(3-7)根據(jù)上述步驟(1)的訪問網(wǎng)絡(luò)時間ta,將所有用戶訪問行為按照日期順序記為g′[1,2,…,nd],其中每組用戶訪問行為發(fā)生在同一天,計算g′[1,2,…,nd]中第e天的用戶群變化率crce:
其中n′u,e為與g′[e]組訪問行為相對應(yīng)的用戶數(shù)量,g′[e]為第e天的的用戶訪問行為,com(e-1,e)為與g′[e-1]組訪問行為和g′[e]組訪問行為相對應(yīng)的用戶中共同重復(fù)的用戶數(shù)量;
利用下式計算平均用戶群變化率crc作為特征向量vn的36維vn[36]:
(4)將上述步驟(2)的衛(wèi)星影像中輸入到卷積神經(jīng)網(wǎng)絡(luò)中,將卷積神經(jīng)網(wǎng)絡(luò)的第二個全連接層的輸出作為影像特征向量vi[1,2,…,4096];
(5)將上述步驟(3)得到的城市區(qū)域的網(wǎng)絡(luò)特征向量vn[1,2,…,36]和上述步驟(4)得到的城市區(qū)域的衛(wèi)星影像特征向量vi[1,2,…,4096]連接,合并成向量v[1,2,…,4132],作為城市區(qū)域的特征向量;
(6)建立功能屬性分類模型,過程如下:
(6-1)將具有已知功能屬性的n個城市區(qū)域作為訓(xùn)練樣本,記n個城市區(qū)域中任意一個城市區(qū)域為rf,1≤f≤n,具有已知的功能屬性tf,利用上述步驟(5)得到特征向量vf,遍歷n個城市區(qū)域中的所有城市區(qū)域,得到具有已知功能屬性的n個城市區(qū)域的特征向量;
(6-2)利用adaboost算法,訓(xùn)練基于決策樹的功能屬性分類模型步驟如下:
(6-2-1)定義一個n維樣本權(quán)重向量wn,權(quán)重向量wn中的每個元素對應(yīng)一個具有已知功能屬性的城市區(qū)域訓(xùn)練樣本,將每個元素初始化為
(6-2-2)將誤差函數(shù)εm最小化,得到?jīng)Q策樹函數(shù)ym(v):
其中,i(·)為指示函數(shù),當(dāng)條件·為真時,i(·)取值為1,當(dāng)條件·為假時,i(·)取值為0,m為迭代次數(shù),v為上述步驟(5)中的城市區(qū)域的特征向量,vf為上述步驟(6-1)中的n個城市區(qū)域中任意一個城市區(qū)域rf的特征向量;
利用下式,計算決策樹函數(shù)ym(v)的權(quán)重αm:
利用下式調(diào)整權(quán)重向量wn:
其中,zm是歸一化因子,保證權(quán)重向量wn的和為1;
(6-2-3)重復(fù)上述步驟(6-2-2)m次,得到m個決策樹模型;
(6-2-4)將步驟(6-2-3)得到的m個決策樹模型加權(quán),得到如下功能屬性分類模型:
(7)對未知功能屬性的城市區(qū)域r,重復(fù)步驟(1)-(5),得到特征向量v,將v輸入步驟(6-2-4)的功能屬性分類模型ym(v),輸出即為城市區(qū)域r的功能屬性。
本發(fā)明提出的基于衛(wèi)星影像和網(wǎng)絡(luò)的城市區(qū)域功能屬性的識別方法,其優(yōu)點是:
1、本發(fā)明基于衛(wèi)星影像和網(wǎng)絡(luò)的城市區(qū)域功能屬性的識別方法中,充分使用城市區(qū)域的衛(wèi)星影像和群體wi-fi連接數(shù)據(jù),對兩種傳感器的隱含特征進行有機融合,從而增強了城市區(qū)域功能屬性識別的準(zhǔn)確率。由于本方法所需要的傳感器數(shù)據(jù)易于獲取,方法直接應(yīng)用于對城市功能屬性的識別,具有很強的靈活性和適應(yīng)性。
2、本發(fā)明的用于城市區(qū)域功能屬性的識別方法中,從衛(wèi)星影像和wi-fi連接記錄中所提取的特征能夠更好反映城市區(qū)域的功能屬性特征。從wi-fi連接記錄中提取的群體行為特征受區(qū)域本身提供的功能所影響,群體用戶在區(qū)域間轉(zhuǎn)移及在單個區(qū)域的駐留時空特征等能更好地反映城市的功能屬性。對區(qū)域地理衛(wèi)星影像特征的提取采用最新的卷積神經(jīng)網(wǎng)絡(luò)的方法,所采用的視覺特征對不同的城市區(qū)域具有很強的區(qū)分度。本發(fā)明算法將兩者結(jié)合起來,從而極大提高了對城市區(qū)域功能屬性的識別效果。
3、本發(fā)明的用于城市區(qū)域功能屬性的識別方法中,提出了采用adaboost算法來整合一系列的決策樹模型組成一個優(yōu)化的決策樹森林,從而增加在訓(xùn)練的迭代過程中發(fā)現(xiàn)關(guān)鍵特征的穩(wěn)定性。該方法將多個弱分類器有機結(jié)合,從而提高了最終城市區(qū)域功能屬性的識別方法的效果。
附圖說明
圖1是本發(fā)明方法的流程框圖。
圖2是本發(fā)明方法中使用的卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖。
圖3是本發(fā)明方法中模型訓(xùn)練算法流程圖。
具體實施方式
本發(fā)明提出的基于衛(wèi)星影像和網(wǎng)絡(luò)的城市區(qū)域功能屬性的識別方法,其流程框圖如圖1所示,該方法包括以下步驟:
(1)在城市區(qū)域內(nèi)布置供網(wǎng)絡(luò)用戶免費使用的路由器,利用路由器收集用戶訪問網(wǎng)絡(luò)的時間ta和離開網(wǎng)絡(luò)的時間tl,或者城市區(qū)域內(nèi)網(wǎng)絡(luò)用戶利用手機自動數(shù)據(jù)收集程序發(fā)送訪問網(wǎng)絡(luò)的時間ta和離開網(wǎng)絡(luò)的時間tl,每次用戶訪問的持續(xù)時間記為d,則:
d=tl-ta
記用戶第i次訪問網(wǎng)絡(luò)的行為bi,bi用一個四元組(ta,i,tl,i,di,uidi)表示,其中uidi代表該用戶的代碼id,每個用戶對應(yīng)一個單獨的代碼id,記所有用戶訪問的總次數(shù)為q,記所有用戶訪問行為構(gòu)成的集合為gall;
(2)利用電子地圖軟件(例如騰訊地圖和谷歌地圖)下載城市區(qū)域的相應(yīng)衛(wèi)星影像,衛(wèi)星影像的大小為256*256像素,每個像素用rgb顏色值表示;
(3)根據(jù)上述步驟(1)的用戶訪問網(wǎng)絡(luò)時間ta,離開網(wǎng)絡(luò)時間tl以及持續(xù)時間d,計算城市區(qū)域的網(wǎng)絡(luò)特征向量vn,該特征向量vn包括36維,計算過程如下:
(3-1)根據(jù)用戶訪問網(wǎng)絡(luò)時間ta處于一天24小時中的某一小時,將所有用戶的訪問行為分為24組,記為g[1,2,…,24],其中g(shù)[a]組中的用戶訪問網(wǎng)絡(luò)時間ta滿足a-1≤ta<a,各組的用戶訪問行為的數(shù)量作為所述的特征向量vn的1-24維vn[1,2,…,24];
(3-2)根據(jù)用戶訪問網(wǎng)絡(luò)時間ta處于周中或周末,將所有用戶的訪問行為分為2組,記為g[25,26],其中g(shù)[25]組中的用戶訪問發(fā)生在周中,g[26]組中的用戶訪問發(fā)生在周末,各組的用戶訪問行為數(shù)量作為特征向量vn的25-26維vn[25,26];
(3-3)分別計算上述步驟(3-2)中g(shù)[25]組和g[26]組中用戶訪問網(wǎng)絡(luò)的平均持續(xù)時間avgd[25,26]作為特征向量vn的27-28維vn[27,28]:
(3-4)設(shè)置一個用戶訪問網(wǎng)絡(luò)的持續(xù)時間閾值dth,持續(xù)時間閾值dth的取值可以為30分鐘,計算用戶訪問網(wǎng)絡(luò)持續(xù)時間大于該閾值的用戶訪問行為的數(shù)量占所有用戶訪問行為總數(shù)量的比率rlong作為特征向量vn的29維vn[29]:
其中,i(·)為指示函數(shù),當(dāng)條件·為真時,i(·)取值為1,當(dāng)條件·為假時,i(·)取值為0;
(3-5)將g[25]組,g[26]組以及gall中的用戶數(shù)量nu作為特征向量vn的30-32維vn[30,31,32];
(3-6)分別計算g[25]組用戶訪問行為、g[26]組用戶訪問行為和gall用戶訪問行為的平均重連時間tre作為特征向量vn的33-35維vn[33,34,35],平均重連時間tre的計算步驟如下(以g[25]為例):
(3-6-1)根據(jù)用戶的代碼iduid,將g[25]組的用戶訪問行為分成nu個部分,nu為與該組用戶訪問行為相對應(yīng)的用戶數(shù)量,即每個部分中的所有用戶訪問行為對應(yīng)同一個uid,對于nu個部分中的第c部分用戶訪問行為,將上述步驟(1)的訪問網(wǎng)絡(luò)時間ta從小到大排序,得到序列b[1,2,…,p],其中p為第c部分用戶訪問行為的數(shù)量,則第c部分用戶訪問行為的平均重連時間tre,c為:
其中maximum為設(shè)定的平均重連時間tre極大值,取值為168小時;
(3-6-2)利用下式計算g[25]組用戶訪問行為的平均重連時間tre為:
(3-6-3)重復(fù)步驟(3-6-1)和步驟(3-6-2),分別計算g[26]組用戶訪問行為和gall用戶訪問行為的平均重連時間;
(3-7)根據(jù)上述步驟(1)的訪問網(wǎng)絡(luò)時間ta,將所有用戶訪問行為按照日期順序記為g′[1,2,…,nd],其中每組用戶訪問行為發(fā)生在同一天,計算g′[1,2,…,nd]中第e天的用戶群變化率crce:
其中n′u,e為與g′[e]組訪問行為相對應(yīng)的用戶數(shù)量,g′[e]為第e天的的用戶訪問行為,com(e-1,e)為與g′[e-1]組訪問行為和g′[e]組訪問行為相對應(yīng)的用戶中共同重復(fù)的用戶數(shù)量;
利用下式計算平均用戶群變化率crc作為特征向量vn的36維vn[36]:
(4)將上述步驟(2)的衛(wèi)星影像中輸入到卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,將卷積神經(jīng)網(wǎng)絡(luò)的第二個全連接層(fc7)的輸出(4096維)作為影像特征向量vi[1,2,…,4096];
選擇這一層的原因是該層距離最后輸出層較近,隱含特征已經(jīng)在之前的網(wǎng)絡(luò)層被充分挖掘融合,同時特征維數(shù)相比最后一個全連接層(fc8)的1000層要高,可以保留更多特征;
(5)將上述步驟(3)得到的城市區(qū)域的網(wǎng)絡(luò)特征向量vn[1,2,…,36]和上述步驟(4)得到的城市區(qū)域的衛(wèi)星影像特征向量vi[1,2,…,4096]連接,合并成向量v[1,2,…,4132],作為城市區(qū)域的特征向量;
(6)建立功能屬性分類模型,過程如下:
(6-1)將具有已知功能屬性的n個城市區(qū)域作為訓(xùn)練樣本,記n個城市區(qū)域中任意一個城市區(qū)域為rf,1≤f≤n,具有已知的功能屬性tf,利用上述步驟(5)得到特征向量vf,遍歷n個城市區(qū)域中的所有城市區(qū)域,得到具有已知功能屬性的n個城市區(qū)域的特征向量;
(6-2)利用adaboost算法,訓(xùn)練基于決策樹的功能屬性分類模型,具體流程如圖3所示,步驟如下:
(6-2-1)定義一個n維樣本權(quán)重向量wn,權(quán)重向量wn中的每個元素對應(yīng)一個具有已知功能屬性的城市區(qū)域訓(xùn)練樣本,將每個元素初始化為
(6-2-2)將誤差函數(shù)εm最小化,得到?jīng)Q策樹函數(shù)ym(v):
其中,i(·)為指示函數(shù),當(dāng)條件·為真時,i(·)取值為1,當(dāng)條件·為假時,i(·)取值為0,m為迭代次數(shù),v為上述步驟(5)中的城市區(qū)域的特征向量,vf為上述步驟(6-1)中的n個城市區(qū)域中任意一個城市區(qū)域rf的特征向量;
利用下式,計算決策樹函數(shù)ym(v)的權(quán)重αm:
利用下式調(diào)整權(quán)重向量wn:
其中,zm是歸一化因子,保證權(quán)重向量wn的和為1;
在此步驟中,4132維特征向量v中對城市區(qū)域的功能屬性分類貢獻較大的維度將被自動賦予更高的權(quán)重,從而實現(xiàn)網(wǎng)絡(luò)特征部分和影像特征部分的有效結(jié)合;
(6-2-3)重復(fù)上述步驟(6-2-2)m次,得到m個決策樹模型;
(6-2-4)將步驟(6-2-3)得到的m個決策樹模型加權(quán),得到如下功能屬性分類模型:
(7)對未知功能屬性的城市區(qū)域r,重復(fù)步驟(1)-(5),得到特征向量v,將v輸入步驟(6-2-4)的功能屬性分類模型ym(v),輸出即為城市區(qū)域r的功能屬性。