本發(fā)明屬于交通大數(shù)據(jù)領(lǐng)域,涉及一種基于卡口數(shù)據(jù)與手機(jī)流量話單數(shù)據(jù)的城市內(nèi)部路網(wǎng)的路段交通量的獲取方法。
背景技術(shù):
道路交通狀態(tài)的獲取是檢驗(yàn)現(xiàn)有交通運(yùn)行的重要基礎(chǔ),為解決城市交通擁堵問題提供數(shù)據(jù)基礎(chǔ)。城市路段交通量作為表征道路交通狀態(tài)的基本參數(shù)之一,是進(jìn)行交通評價(jià)的一項(xiàng)重要指標(biāo)。
大數(shù)據(jù)時(shí)代的到來,為交通量的獲取提供了新的途徑。手機(jī)流量話單數(shù)據(jù)是手機(jī)用戶通過手機(jī)連接互聯(lián)網(wǎng)時(shí)產(chǎn)生的記錄,包含用戶標(biāo)簽、記錄時(shí)間、記錄經(jīng)度、記錄緯度等參數(shù)。通過手機(jī)流量話單數(shù)據(jù)挖掘城市交通狀態(tài)的基本特征,是大數(shù)據(jù)研究交通的一種新的思路。然而,由于手機(jī)流量話單數(shù)據(jù)的產(chǎn)生在時(shí)間上具有不連續(xù)性,以及用戶定位經(jīng)緯度精度的問題,無法像gps數(shù)據(jù)一樣直接應(yīng)用于交通分析中。目前,在手機(jī)流量話單數(shù)據(jù)的應(yīng)用上,通常是在宏觀層面進(jìn)行用戶職住地分析,或是定性地進(jìn)行出行熱點(diǎn)分布分析,這不利于定量地確定具體路段的交通狀態(tài)。現(xiàn)有的手機(jī)流量話單數(shù)據(jù)處理方法無法準(zhǔn)確得到城市路段交通量,難以實(shí)現(xiàn)城市交通分析評價(jià)的需要。
卡口數(shù)據(jù)是交管部門通過在路段上設(shè)置卡口點(diǎn)位對通過的車輛進(jìn)行記錄,其數(shù)據(jù)包含車輛標(biāo)簽、記錄時(shí)間、記錄車道,同時(shí)由于卡口點(diǎn)位固定的原因,可以獲取記錄經(jīng)度、記錄緯度等參數(shù)??跀?shù)據(jù)具有高準(zhǔn)確性的特點(diǎn)。然而,由于卡口點(diǎn)位布設(shè)費(fèi)用昂貴,存在點(diǎn)位較少,只適合分析特定路段的交通狀態(tài)。綜上,在城市路段交通量的獲取上,需要綜合手機(jī)流量話單數(shù)據(jù)和卡口數(shù)據(jù)進(jìn)行分析。
技術(shù)實(shí)現(xiàn)要素:
技術(shù)問題:本發(fā)明提供了一種通過部分路段的準(zhǔn)確的卡口數(shù)據(jù)監(jiān)督和訓(xùn)練手機(jī)流量話單數(shù)據(jù),提高了手機(jī)流量話單數(shù)據(jù)的精度,使得城市路段交通量的獲取更加準(zhǔn)確、可靠的基于卡口與手機(jī)流量話單數(shù)據(jù)的城市交通量獲取方法。
技術(shù)方案:本發(fā)明的基于卡口與手機(jī)流量話單數(shù)據(jù)的城市交通量獲取方法,包括以下步驟:
1)獲取研究路網(wǎng)關(guān)鍵位置經(jīng)緯度坐標(biāo),采用線性插值方法對路網(wǎng)坐標(biāo)進(jìn)行填充;
2)提取研究路網(wǎng)范圍內(nèi)存在卡口的路段,選定經(jīng)緯度落在上述路段指定精度范圍內(nèi)的手機(jī)流量話單數(shù)據(jù);
3)對所選取手機(jī)流量話單數(shù)據(jù)以用戶標(biāo)簽進(jìn)行分類,計(jì)算各用戶相鄰時(shí)刻內(nèi)的平均行程速度,并以該速度作為特征進(jìn)行分類,得到聚合后的存在卡口的路段的手機(jī)流量話單數(shù)據(jù)特征;
4)對研究路網(wǎng)范圍內(nèi)的卡口數(shù)據(jù)按指定時(shí)間間隔進(jìn)行交通量的聚合;
5)通過卡口交通量統(tǒng)計(jì)數(shù)據(jù)和手機(jī)流量話單數(shù)據(jù)速度特征,基于隨機(jī)森林訓(xùn)練具有卡口數(shù)據(jù)的路段的交通量預(yù)測模型組;
6)通過選取預(yù)測模型,獲取研究路網(wǎng)內(nèi)未設(shè)置卡口路段的交通量。
進(jìn)一步的,本發(fā)明方法中,步驟1)中采用線性插值方法對路網(wǎng)坐標(biāo)進(jìn)行填充的具體方式為:
若兩個(gè)關(guān)鍵位置的經(jīng)緯度坐標(biāo)為(x1,y1),(x2,y2),則通過下式計(jì)算關(guān)鍵位置之間的第i個(gè)插值點(diǎn)的經(jīng)緯度坐標(biāo)(xi,yi):
xi,=αix1+(1-αi)x2
yi,=αiy1+(1-αi)y2
其中:xi為關(guān)鍵位置i的經(jīng)度;yi為關(guān)鍵位置i的緯度;αi為插值參數(shù),0≤αi≤1;k為插值精度,單位:米;r為地球半徑,單位:米。
進(jìn)一步的,本發(fā)明方法中,步驟2)中,選定經(jīng)緯度落在路段指定精度范圍內(nèi)的手機(jī)流量話單數(shù)據(jù)的具體流程為:
21)剔除多個(gè)路段交叉中心點(diǎn)起沿研究路段方向的兩個(gè)插值點(diǎn);
22)選取與余下插值點(diǎn)指定距離內(nèi)的手機(jī)流量話單數(shù)據(jù);
23)剔除手機(jī)流量話單數(shù)據(jù)中的重復(fù)數(shù)據(jù)。
進(jìn)一步的,本發(fā)明方法中,步驟3)采用如下方法對以各用戶相鄰時(shí)刻內(nèi)的平均行程速度作為特征進(jìn)行分類的具體流程為:
31)計(jì)算數(shù)據(jù)集內(nèi)所有用戶的全天平均速度;
32)將速度量化為n個(gè)等級;
33)以1分鐘作為時(shí)間間隔對各速度等級用戶數(shù)量進(jìn)行聚合;
34)繪制特征表;
35)填充缺失數(shù)據(jù);
36)以指定時(shí)間為間隔,利用滑動時(shí)間窗口重新對步驟34)中繪制的特征表的數(shù)據(jù)進(jìn)行聚合;
37)以指定時(shí)間為間隔,將一天劃分為若干時(shí)間片段,并為時(shí)間片段添加附加信息,所述附加信息包括時(shí)間片序列號,是否工作日或節(jié)假日,天氣情況。
進(jìn)一步的,本發(fā)明方法中,步驟4)具體流程如下:
41)選取指定卡口歷史交通量數(shù)據(jù),以1分鐘作為時(shí)間間隔對交通量進(jìn)行聚合;
42)填充缺失數(shù)據(jù);
43)以指定時(shí)間為間隔,利用滑動時(shí)間窗口重新對所述步驟41)中選取的指定卡口歷史交通量數(shù)據(jù)進(jìn)行聚合。
進(jìn)一步的,本發(fā)明方法中,步驟5)中基于隨機(jī)森林訓(xùn)練具有卡口數(shù)據(jù)的路段的交通量預(yù)測模型組的具體流程如下:
51)劃分訓(xùn)練集與測試集;
52)基于隨機(jī)森林對手機(jī)流量話單數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)。
進(jìn)一步的,本發(fā)明方法中,步驟6)的具體流程如下:
61)選取未設(shè)置卡口的待預(yù)測路段的手機(jī)流量話單數(shù)據(jù),按照與步驟3)同樣的方式進(jìn)行處理,獲取聚合后的未設(shè)置卡口的待預(yù)測路段的手機(jī)流量話單數(shù)據(jù)特征;
62)依據(jù)未設(shè)置卡口的待預(yù)測路段手機(jī)流量話單數(shù)據(jù)特征總偏差平方和與所述步驟5)訓(xùn)練的交通量預(yù)測模型組中各模型對應(yīng)的設(shè)置卡口的路段手機(jī)流量話單數(shù)據(jù)特征總偏差平方和差值最小原則進(jìn)行排序,得到與未設(shè)置卡口的待預(yù)測路段最接近的k個(gè)路段;
63)選取所述步驟62)得到的k個(gè)路段對應(yīng)的路段交通量預(yù)測模型,對未設(shè)置卡口的待預(yù)測路段進(jìn)行預(yù)測并進(jìn)行加權(quán),得到未設(shè)置卡口路段的交通量。
本發(fā)明基于多源數(shù)據(jù)融合思想,結(jié)合手機(jī)流量話單數(shù)據(jù)與卡口數(shù)據(jù),通過互補(bǔ)消除了手機(jī)流量話單數(shù)據(jù)精度較差、卡口點(diǎn)位布設(shè)少造成數(shù)據(jù)量不足的缺陷,并填補(bǔ)了手機(jī)流量話單數(shù)據(jù)在城市路網(wǎng)應(yīng)用上的空白。
有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn):
本發(fā)明的基于卡口與手機(jī)流量話單數(shù)據(jù)的城市交通量獲取方法,融入多源數(shù)據(jù)融合思想對各類數(shù)據(jù)源進(jìn)行優(yōu)勢互補(bǔ):易獲取、數(shù)據(jù)量多的手機(jī)流量話單數(shù)據(jù)與高精度的卡口數(shù)據(jù)的融合,解決了手機(jī)流量話單數(shù)據(jù)定位精度差與卡口數(shù)據(jù)布設(shè)點(diǎn)位少的缺陷;通過準(zhǔn)確的卡口數(shù)據(jù)監(jiān)督訓(xùn)練手機(jī)流量話單數(shù)據(jù)得到的模型組,多樣性好、穩(wěn)定性高;在交通量預(yù)測上可視為在未設(shè)置卡口點(diǎn)位路段上設(shè)置了“虛擬卡口”,預(yù)測結(jié)果準(zhǔn)確、可靠。
目前手機(jī)流量話單數(shù)據(jù)在交通領(lǐng)域的應(yīng)用還停留在高速公路或快速路交通參數(shù)計(jì)算、城市居民職住地分析以及出行熱點(diǎn)定性分析上,在路網(wǎng)較為密集的城市路段交通參數(shù)計(jì)算上尚未有較多研究。本發(fā)明的基于卡口與手機(jī)流量話單數(shù)據(jù)的城市交通量獲取方法,是手機(jī)流量話單數(shù)據(jù)用于定量計(jì)算城市路段交通參數(shù)的創(chuàng)新性應(yīng)用。
附圖說明
圖1是本發(fā)明線性插值說明圖;
圖2是本發(fā)明手機(jī)流量話單數(shù)據(jù)篩選示意圖;
圖3是滑動時(shí)間窗口示意圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例和說明書附圖對本發(fā)明作進(jìn)一步的說明。
本發(fā)明方法包括以下步驟和內(nèi)容:
1.獲取研究路網(wǎng)關(guān)鍵位置經(jīng)緯度坐標(biāo),采用線性插值方法以所需精度對路網(wǎng)坐標(biāo)進(jìn)行填充;
若對路網(wǎng)采用人工打點(diǎn)方式,一旦打點(diǎn)精度發(fā)生改變,或加入新路段,工作量將呈指數(shù)增長。本發(fā)明以圖1為例,關(guān)鍵位置指路網(wǎng)中轉(zhuǎn)折處或路段交叉處,對任意兩個(gè)關(guān)鍵位置所確定的路段,采用線性插值方法以所需精度對路段坐標(biāo)進(jìn)行填充,得到插值點(diǎn)經(jīng)緯度坐標(biāo)。
若兩個(gè)關(guān)鍵位置的經(jīng)緯度坐標(biāo)為(x1,y1),(x2,y2),則關(guān)鍵位置之間的第i個(gè)插值點(diǎn)的經(jīng)緯度坐標(biāo)(xi,yi)可以通過下式進(jìn)行計(jì)算:
xi=αix1+(1-αi)x2
yi=αiy1+(1-αi)y2
其中:xi為關(guān)鍵位置i的經(jīng)度;
yi為關(guān)鍵位置i的緯度;
αi為插值參數(shù),0≤αi≤1;
k為插值精度,單位:米;
r為地球半徑,單位:米。
2.提取研究路網(wǎng)范圍內(nèi)存在卡口的路段,選定經(jīng)緯度落在上述路段指定精度范圍內(nèi)的手機(jī)流量話單數(shù)據(jù),以圖2為例,具體步驟如下:
21)剔除多個(gè)路段交叉中心點(diǎn)起沿研究路段方向的兩個(gè)插值點(diǎn);
22)選取與余下插值點(diǎn)指定距離內(nèi)的手機(jī)流量話單數(shù)據(jù);
若一條手機(jī)流量話單數(shù)據(jù)記錄的經(jīng)緯度坐標(biāo)為(xsig,ysig),插值點(diǎn)(或關(guān)鍵位置)的經(jīng)緯度坐標(biāo)為(xi,yi),須滿足:
其中:xsig為手機(jī)流量話單數(shù)據(jù)的經(jīng)度;
ysig為手機(jī)流量話單數(shù)據(jù)的緯度;
xi為關(guān)鍵位置i的經(jīng)度;
yi為關(guān)鍵位置i的緯度;
r為地球半徑,單位:米;
l為指定距離,單位:米。
23)剔除手機(jī)流量話單數(shù)據(jù)中的重復(fù)數(shù)據(jù)。
3.對所選取手機(jī)流量話單數(shù)據(jù)以用戶標(biāo)簽進(jìn)行分類,計(jì)算各用戶相鄰時(shí)刻內(nèi)的速度,并以速度作為特征進(jìn)行分類,具體步驟如下:
31)計(jì)算數(shù)據(jù)集內(nèi)所有用戶的全天平均速度;
32)將速度量化為n個(gè)等級;
33)以1分鐘作為時(shí)間間隔對各速度等級用戶數(shù)量進(jìn)行聚合;
34)繪制速度特征表,本實(shí)施例所選手機(jī)話單流量數(shù)據(jù)速度特征格式如下:
35)填充缺失數(shù)據(jù):
a)單點(diǎn)數(shù)據(jù)缺失,采用插值方式填充;
b)多點(diǎn)數(shù)據(jù)缺失,按以下優(yōu)先級進(jìn)行填充:
i)用前一天相同時(shí)間段的數(shù)據(jù)進(jìn)行填充;
ii)用前一小時(shí)的同比數(shù)據(jù)進(jìn)行填充;
36)以指定時(shí)間(如5分鐘,15分鐘,1小時(shí)等)為間隔,利用滑動時(shí)間窗口重新對步驟34)中表格的數(shù)據(jù)進(jìn)行聚合;
37)以指定時(shí)間(如5分鐘,15分鐘,1小時(shí)等)為間隔,將一天劃分為若干時(shí)間片段,并為時(shí)間片段添加附加信息(如時(shí)間片序列號,是否工作日或節(jié)假日,天氣情況等)。
4.對研究路網(wǎng)范圍內(nèi)的卡口數(shù)據(jù)按指定時(shí)間間隔進(jìn)行交通量的聚合,具體步驟如下:
41)選取指定卡口歷史交通量數(shù)據(jù),以1分鐘作為時(shí)間間隔對交通量進(jìn)行聚合;
42)填充缺失數(shù)據(jù):
a)單點(diǎn)數(shù)據(jù)缺失,采用插值方式填充;
b)多點(diǎn)數(shù)據(jù)缺失,按以下優(yōu)先級進(jìn)行填充:
i)用前一天相同時(shí)間段的數(shù)據(jù)進(jìn)行填充;
ii)用前一小時(shí)的同比數(shù)據(jù)進(jìn)行填充;
43)以指定時(shí)間(如5分鐘,15分鐘,1小時(shí)等)為間隔,利用滑動時(shí)間窗口重新對步驟41)中的數(shù)據(jù)進(jìn)行聚合。
5.通過卡口交通量統(tǒng)計(jì)數(shù)據(jù)和手機(jī)流量話單數(shù)據(jù)速度特征,基于隨機(jī)森林訓(xùn)練一個(gè)路段交通量預(yù)測模型組,具體步驟如下:
51)劃分訓(xùn)練集與測試集:
a)合并指定卡口所在路段上的手機(jī)流量話單聚合數(shù)據(jù)(f維)與卡口聚合數(shù)據(jù)(1維)。其中,前f列稱為特征,最后一列稱為標(biāo)記;
b)以4∶1比例隨機(jī)抽取步驟61)所得數(shù)據(jù),分別劃分為訓(xùn)練集d與測試集t;
52)基于隨機(jī)森林對手機(jī)流量話單數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí):
a)采用bootstrap采樣方法選出m個(gè)樣本(允許重復(fù)抽樣);
b)隨機(jī)選取p個(gè)特征,從中選取分割效果最好的特征作為節(jié)點(diǎn),針對步驟511)采樣結(jié)果建立分類回歸樹(cart樹);
c)重復(fù)步驟a)、步驟b)t次,建立具有t個(gè)分類回歸樹的隨機(jī)森林;
d)輸出所有分類回歸樹的路段交通量預(yù)測模型。
6.通過選取預(yù)測模型,獲取研究路網(wǎng)內(nèi)未設(shè)置卡口路段的交通量,具體步驟如下:
61)選取待預(yù)測路段的手機(jī)流量話單數(shù)據(jù),按照步驟31)~步驟37)獲取聚合后的待預(yù)測路段的手機(jī)流量話單數(shù)據(jù)特征;
62)比對待預(yù)測路段的手機(jī)流量話單數(shù)據(jù)特征與設(shè)置卡口路段的手機(jī)流量話單數(shù)據(jù)特征,依據(jù)未設(shè)置卡口的待預(yù)測路段手機(jī)流量話單數(shù)據(jù)總偏差平方和與步驟5)所得到的各模型對應(yīng)的設(shè)置卡口的路段手機(jī)流量話單數(shù)據(jù)總偏差平方和差值最小原則進(jìn)行排序,得到與待預(yù)測路段最接近的k個(gè)路段。排序目標(biāo)函數(shù)由下式給出:
其中:
63)選取步驟62)得到k個(gè)路段對應(yīng)的路段交通量預(yù)測模型對待預(yù)測路段進(jìn)行預(yù)測并進(jìn)行加權(quán),得到未設(shè)置卡口路段的交通量。
上述實(shí)施例僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出:對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和等同替換,這些對本發(fā)明權(quán)利要求進(jìn)行改進(jìn)和等同替換后的技術(shù)方案,均落入本發(fā)明的保護(hù)范圍。