亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于堆模型融合的公共自行車流量變化量預測方法與流程

文檔序號:11545692閱讀:254來源:國知局
基于堆模型融合的公共自行車流量變化量預測方法與流程

本發(fā)明屬于智能交通系統(tǒng)和數(shù)據(jù)挖局領域,涉及一種基于堆模型融合的公共自行車流量變化量預測方法。



背景技術:

面對不斷惡化的氣候和環(huán)境,公共自行車作為一種零污染、零排放的低碳環(huán)保交通方式,有必要大力推廣。在國內(nèi),杭州、上海、北京、武漢、南京等幾十個城市均已運行公共自行車系統(tǒng)。2008年5日,杭州市開始運行公共自行車系統(tǒng),其目的是為了破解“最后1公里”難題,對“公交坐不到,打車嫌貴,步行又太遠”的最后1公里,通過“自行車-公交車-自行車”的方式便捷到達目的地,從而提高公交出行率。但經(jīng)過近幾年的實踐,杭州公共自行車系統(tǒng)出現(xiàn)了一些急需解決的問題。根據(jù)杭州公共自行車運行狀況滿意度調(diào)查顯示,有近30%的市民與外地游客對公共自行車的服務表示一般或不滿意,其中65%的使用者表示最常遇到的問題就是“網(wǎng)點無車可借”和“網(wǎng)點還不進車”,即所謂的“租/還車難”問題。具體表現(xiàn)在:

(1)某些租賃點在某些時刻沒有自行車,使得用戶無法及時借到自行車;

(2)某些租賃點在某些時刻沒有還車位,使得用戶不能及時歸還自行車。由于公共自行車的流動性和用戶使用的單向性(用戶在a點借車b點還車后往往不會反向操作),使得公共自行車系統(tǒng)天然具有時間和空間分布上的不均衡性。各條線路的密集程度不同,使得很多的服務網(wǎng)點車滿為患而另一些則借不到。

除杭州外,國內(nèi)其他城市的公共自行車系統(tǒng)都存在“租/還車難”的共性問題,其主要原因除租賃點布局不合理外,還存在租賃點間的調(diào)度不及時。根據(jù)項目組在全國調(diào)研的結(jié)果顯示,國內(nèi)大部分實施公共自行車的城市采用的調(diào)度方法落后,無法進行實時調(diào)度,而且當前的調(diào)度策略成本較高,需要大量的人力成本及調(diào)度車輛成本,同時缺乏一定的預判性,缺乏對歷史數(shù)據(jù)的流量分析和對未來流量的預測,沒有考慮天氣及交通狀況等因素。調(diào)度的前提是對公共自行車各個站點的流量進行一定的預測,從而做到提前預判,因此對公共自行車租借流量的預測就成為了亟待解決的問題。



技術實現(xiàn)要素:

本發(fā)明提出了一種基于堆模型融合的公共自行車流量變化量預測方法,可以比較準確的預測出公共自行車站點的流量變化量,流量變化量結(jié)合了租還兩種行為,可以較好的為調(diào)度提供預判。

本發(fā)明解決其技術問題所采用的技術方案包括以下步驟:

步驟1、根據(jù)出公共自行車歷史數(shù)據(jù)集,構造流量的變化量作為目標值,提取出跟公共自行車數(shù)據(jù)以及氣象相關的特征;

具體的:提取出各個站點的每天每隔15分鐘的流量變化量(租車為負數(shù),還車為正數(shù),不變?yōu)?)作為目標值,提取出跟公共自行車的站點id、地理經(jīng)緯度坐標、歷史前n天同時段對應的流量變化量值,以及每個目標時間段對應的年、月、日、時、分信息構造為一個特征向量i。

步驟2、收集歷史數(shù)據(jù)每天對應的氣象數(shù)據(jù),對氣象數(shù)據(jù)中的離散值進行編碼,然后將編碼后的氣象數(shù)據(jù)與其原本的連續(xù)值一起構造為氣象特征,并將構造后的氣象特征加入到步驟1構造的特征向量i中,形成新的特征向量ii;

步驟3、將站點的地理位置經(jīng)緯度坐標和歷史租還數(shù)據(jù)中站點與站點之間的租借記錄關系兩個因素結(jié)合為距離公式,通過聚類算法進行站點之間的聚類,將聚類的結(jié)果加入到步驟2構造的新的特征向量ii中。

針對地理位置和租還關系進行聚類,在k-medoids算法計算每個類的中心點m和非中心點o的距離的時候,直接讀取提前計算好的相似度距離矩陣,相似度距離矩陣是一個n×n的方陣,其中si,j表示站點i與站點j之間的相似度距離,數(shù)值越大表示越不相似,距離就越遠,對角線是當i=j,表示同一個站點,站點i與站點j之間的相似度距離為0。

所述的相似度距離矩陣計算如下:

所述的si,j是由地理位置和租還關系兩部分構成。站點之間的地理位置關系并沒有使用歐氏距離,因為歐氏距離只能計算平面坐標系中兩點之間的距離,而實際地理位置坐標是利用的經(jīng)緯度信息,地球表面非平面,因此地球上兩點之間距離將采用下面公式來計算:

其中(lngi,lati)和(lngj,latj)分別是兩個站點的經(jīng)緯度,lng是經(jīng)度,lat是緯度,r為地球半徑,約6378137m。而站點之間的租還關系,則是通過統(tǒng)計所有租還數(shù)據(jù)集上單個站點i到其他站點j的租還次數(shù)ci,j,然后根據(jù)如下公式計算出站點之間的租還關系,值越大,代表關系越近,所述的租還關系表達如下:

則最終相似度距離矩陣中的每個元素si,j是由公式(4)計算得出;

si,j=di,j(1-αpi,j)(4)

其中,α是一個參數(shù),是用來控制pi,j的權重。由于地理位置接近并且租還關系較近的站點屬于同一片區(qū)域,可能存在相同規(guī)律,將聚類結(jié)果進行標簽化編碼,構造特征x25為聚類特征。加入步驟2構造的新的特征向量ii中,形成特征向量iii;對于站點i,構造好的特征向量為xi={x1,x2,…x25},后續(xù)方便對模型進行訓練。

其中,時間特征:x1為月、x2為日、x3為星期、x4為時、x5為分、x6為是否節(jié)假日、x7為是否工作日;歷史特征:x8為前1天、x9為前2天、x10為前3天、x11為前4天、x12為前5天、x13為前6天、x14為前7天(前1周)、x15為前14天(前2周)、x16為前21天(前3周)作為特征;氣象特征:x17為白天溫度特征、x18為夜間溫度特征、x19為風力特征,這三種氣象特征均為連續(xù)型,x20為天氣特征、x21為風向特征,這兩種氣象特征均是離散型變量;空間特征:站點id特征x22為站點特征、將x23和x24為經(jīng)緯度特征;聚類特征:x25為聚類特征;

步驟4、對經(jīng)過步驟(1)、(2)、(3)構造后的特征向量iii進行分組,分為時間特征、空間特征、歷史特征、氣象特征和聚類特征,然后分別放入樹模型中進行訓練,訓練出五個基礎模型。

步驟5、使用訓練數(shù)據(jù)集在五個基礎模型中進行交叉驗證,五個模型預測出的結(jié)果作為新的特征,與步驟3的特征向量iii進行拼接,構造為新的特征向量ix,放入樹模型中進行訓練,最后得到的新模型即是最終的預測模型——堆模型。

所述的交叉驗證方法采用k折交叉驗證方法。

所述的五個模型預測出的特征與特征向量iii進行拼接的具體過程如下:得到了每個站點的特征向量iii之后,將其分為幾個子集合,分別為:時間特征子集ti={x1,x2,…x7},氣象特征子集mi={x8,x9,…x16},歷史特征子集hi={x17,x18,…x21},空間特征子集si={x22,x23,x24,},聚類特征集ci={x25}。之后,對以上的特征集合進行組合,因為時空特征是每個站點的獨立標志,是非常重要的劃分每個站點的依據(jù),因此這兩個特征子集在訓練模型的時候必不可少。將訓練集上的特征組合之后分別放入xgboost算法中訓練,然后將訓練好的基礎模型對測試集預測結(jié)果,如下:

其中,分別是這5個xgboost基礎模型預測的結(jié)果,將其作為特征,與之前的特征向量iii一起訓練出新的組合模型fstacking來預測出最終結(jié)果如下所示:

這種特征組合的堆融合方法,不但可以避免訓練弱模型,加大不同模型的差異,提升集成學習的效果,還能從不同的特征組合中挖掘出組合規(guī)律,提高模型的泛化能力,進一步提升模型的準確性。

本發(fā)明的優(yōu)選方案中,歷史數(shù)據(jù)前n天取值中,日粒度為:1-7天、周粒度為:1-3周。

本發(fā)明的優(yōu)選方案中,站點和站點之間的距離公式采用距離相似度矩陣的方式,聚類算法使用k-medoids,會有較優(yōu)的聚類效果。

本發(fā)明的優(yōu)選方案中,收集歷史數(shù)據(jù)對應的氣象數(shù)據(jù),主要考慮天氣、溫度、風力、風向等數(shù)據(jù),溫度的取值使用攝氏度,離散數(shù)據(jù)的編碼方式可以使用標簽編碼,如晴編碼為1,多云編碼為2,陰編碼為3,以此類推。

本發(fā)明的優(yōu)選方案中,訓練基礎模型和堆模型所用到的樹模型為梯度提升樹系統(tǒng)xgboost,采用平方損失函數(shù)作為目標函數(shù)。

本發(fā)明有益效果如下:

本發(fā)明利用多源數(shù)據(jù)融合,分類構造多種特征類型,訓練了多個基礎模型,從不同角度構建了多個模型,而且也保證了基礎模型之間存在一定的差異性,最后采用交叉驗證的方式構造堆模型,可以避免過擬合,并且也可以提升模型的準確度,具有較好的預測精度,誤差較低。

附圖說明

圖1為本發(fā)明的整體方法流程圖

圖2為本發(fā)明的結(jié)合地理位置與租借關系的聚類流程圖

圖3位本發(fā)明的基礎模型和堆模型訓練過程圖

具體實施方式

下面結(jié)合附圖對本發(fā)明進一步說明。

本發(fā)明的整體操作流程如圖1所示,首先收集公共自行車歷史用戶租借數(shù)據(jù)等數(shù)據(jù)、站點地理位置數(shù)據(jù)、氣象數(shù)據(jù),進行數(shù)據(jù)預處理,去除異常數(shù)據(jù)和缺失數(shù)據(jù),然后按照每15分鐘的時間段進行流量統(tǒng)計,跟劇租還情況計算流量的變化量,作為預測的目標值。將地理位置等空間信息、日期等時間信息、歷史流量變化量值、氣象信息等離散數(shù)據(jù)進行編碼,構造為特征向量。之后根據(jù)站點的地理位置和租還關系進行聚類操作,將聚類結(jié)果作為特征。然后,根據(jù)特征的分類進行分組訓練,將訓練的基模型的結(jié)果和原始特征結(jié)合起來,訓練一個融合的堆模型。具體的步驟在后面進行詳細說明。

步驟1、數(shù)據(jù)預處理,從公共自行車公司提供用戶租還記錄進行處理,其中用戶歷史租借數(shù)據(jù)集包含租借id、自行車id、用戶卡號、租借時間、租借站點、租借車位、歸還時間、歸還站點、歸還車為等信息。另外從氣象局網(wǎng)站收集對應的氣象數(shù)據(jù),包含:天氣狀況、最高溫度、最低溫度、風向、風速等數(shù)據(jù)。分析了數(shù)據(jù)中出現(xiàn)的異常情況,如部分數(shù)據(jù)還車時間早于租車時間,出現(xiàn)異常;在某站點借出后又在同一站點還車;人工值守站點存在調(diào)度行為,有批量借車還車數(shù)據(jù);部分時間的數(shù)據(jù)缺失,如由于系統(tǒng)的異常問題,丟失大量租借數(shù)據(jù);部分站點數(shù)據(jù)缺失,如沒有經(jīng)度或維度等。針對以上出現(xiàn)的問題,進行了數(shù)據(jù)的清理,清除了還車時間早于租車時間的數(shù)據(jù)、清除了在某站點借出后3分鐘內(nèi)還車的數(shù)據(jù)、刪除了人工值守站點、缺失值補充為0或者null。除此之外,還清除掉了大批量借還車的情況,主要是同一cardid卡的大批量租還車數(shù)據(jù),因為這些數(shù)據(jù)是由于人工調(diào)度產(chǎn)生,本文只分析真實用戶的正常行為。

步驟2、特征構造從時間方面來看,每天不同時間段的公共自行車流量均存在一定的差異,但又存在一定的規(guī)律,因此首先構造特征x1為月、x2為日、x3為星期、x4為時、x5為分(本文并沒有將準確的時間作為特征,而是每隔15分鐘作為一個時間段),這些特征均為連續(xù)型特征。另外,根據(jù)對工作日和節(jié)假日規(guī)律的分析,構造x6為是否節(jié)假日、x7為是否工作日兩個特征,這兩個特征使用離散性變量,比如若是節(jié)假日,則x6=1,反之則x6=0。歷史特征:從歷史規(guī)律來看,過去天數(shù)的同一時間段的存在類似的規(guī)律,因此本文考慮構造過去的同時間段特征,本文構造了x8為前1天、x9為前2天、x10為前3天、x11為前4天、x12為前5天、x13為前6天、x14為前7天(前1周)、x15為前14天(前2周)、x16為前21天(前3周)作為特征,但是數(shù)據(jù)中可能存在缺失值,而xgboost模型對缺失值是可以處理的,但由于數(shù)據(jù)集時間并不是太長,因此歷史特征中暫未考慮向前滑動更長的時間段,以免特征中出現(xiàn)大量的缺失數(shù)據(jù),影響模型的準確度。氣象特征:通過之前的分析,氣象因素影響公共自行車出行較大,不同天氣、溫度、風向、風力對出行的影響均大不相同,因此構造特征x17為白天溫度特征、x18為夜間溫度特征,單位均是攝氏度(℃),構造x19為風力特征,這些特征均為連續(xù)型。構造特征x20為天氣特征、x21為風向特征,這兩種特征均是離散型變量,如晴、雨、東南風等,因此需要通過標簽化編碼(labelencode)或的方式進行連續(xù)化,比如,晴天編碼為0,雨天編碼為1等,方便后續(xù)的模型訓練??臻g特征:不同站點之間的關系不同,因此可以構造站點id特征x22為站點特征,然后將x23和x24為經(jīng)緯度,構造出空間特征。

步驟3、針對地理位置和租還關系進行聚類,具體過程如圖2,所示,在k-medoids算法計算中心點m和o的距離的時候,可以直接讀取提前計算好的相似度距離矩陣,相似度距離矩陣是一個n×n的方陣,其中si,j表示站點i與站點j之間的相似度,數(shù)值越大表示越不相似,距離就越遠,對角線是當i=j,表示同一個站點,他們之間的相似度距離為0。

而si,j是由地理位置和租還關系兩部分構成。站點之間的地理位置關系,并沒有使用歐氏距離,因為歐氏距離只能計算平面坐標系中兩點之間的距離,而實際地理位置坐標是利用的經(jīng)緯度信息,地球表面非平面,因此地球上兩點之間距離將采用下面公式來計算:

其中(lngi,lati)和(lngj,latj)分別是兩個站點的經(jīng)緯度,lng是經(jīng)度,lat是緯度,r為地球半徑,約6378137m。而站點之間的租還關系,則是通過計算在所有數(shù)據(jù)集上單個站點i到其他站點j的租還次數(shù)ci,j,然后根據(jù)如下公式計算出站點之間的租還關系,值越大,代表關系越近:

則最終矩陣中的每個元素si,j是有公式si,j=di,j(1-αpi,j)計算的,其中,α是一個參數(shù),是用來控制pi,j的權重。由于地理位置接近并且租還關系較近的站點屬于同一片區(qū)域,可能存在相同規(guī)律,將聚類結(jié)果進行標簽化編碼,構造特征x25為聚類特征。加入到特征向量中,對于站點i,構造好的特征向量為xi={x1,x2,…x25},后續(xù)方便對模型進行訓練。

步驟4、在特征構造之后,得到了每個站點的特征向量之后,將它們分為幾個子集合,分別為:時間特征子集ti={x1,x2,…x7},氣象特征子集mi={x8,x9,…x16},歷史特征子集hi={x17,x18,…x21},空間特征子集si={x22,x23,x24,},聚類特征集ci={x25}。之后,對以上的特征集合進行組合,因為時空特征是每個站點的獨立標志,是非常重要的劃分每個站點的依據(jù),因此這兩個特征子集在訓練模型的時候必不可少。將訓練集上的特征組合之后分別放入xgboost算法中訓練,然后將訓練好的基礎模型對測試集預測結(jié)果,如下:

其中,分別是這5個xgboost基礎模型預測的結(jié)果,將其作為特征,與之前的原始特征一起訓練出新的組合模型fstacking來預測出最終結(jié)果如下所示:

這種特征組合的堆融合方法,不但可以避免訓練弱模型,加大不同模型的差異,提升集成學習的效果,還能從不同的特征組合中挖掘出組合規(guī)律,提高模型的泛化能力,進一步提升模型的準確性,該過程整體的結(jié)構圖如圖3。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1