本發(fā)明涉及軌道交通客流預(yù)測領(lǐng)域,特別涉及到一種軌道交通實時客流預(yù)測方法。
背景技術(shù):
:隨著城市化進程的快速發(fā)展,城市人口的出行需求與城市交通運載量之間的沖突愈發(fā)突出。城市軌道交通以其特有的高速、高容量以及環(huán)保等優(yōu)勢,從多種交通方式中脫穎而出,成為解決交通擁堵的主要交通工具。各城市紛紛投入建設(shè),令城市軌道交通從單線運營向線網(wǎng)運營轉(zhuǎn)型,其規(guī)模和復(fù)雜性提升的同時,也對軌道交通的網(wǎng)絡(luò)化管理和發(fā)展提出挑戰(zhàn)。而快速準確的客流預(yù)測既是科學(xué)制定行車計劃的基礎(chǔ),也是實時調(diào)整運營計劃的重要依據(jù),它有助于交通運營管理更全面優(yōu)質(zhì)的發(fā)揮其作用。支持向量機,即svm,作為一個凸二次規(guī)劃問題,可保證得到的極值解就是全局最優(yōu)解。這些特性使svm足夠成為優(yōu)秀的基于數(shù)據(jù)的機器學(xué)習(xí)方法。svm在解決對于小樣本與高維模式識別等問題中具有突出表現(xiàn),且能將應(yīng)用推廣至函數(shù)擬合等相關(guān)機器學(xué)習(xí)研究中。與傳統(tǒng)的機器學(xué)習(xí)算法不同,svm將原始樣本空間映射到高維特征空間,并在新空間內(nèi)求得最優(yōu)線性分類面。這種映射轉(zhuǎn)換即非線性轉(zhuǎn)換是采用適當內(nèi)積函數(shù)實現(xiàn)。svm成功解決了局部極小值問題與高維問題。通過定義不同的內(nèi)積函數(shù)即可實現(xiàn)貝葉斯分類器、徑向基函數(shù)法、多層感知器網(wǎng)絡(luò)等多種學(xué)習(xí)算法。svm采用大間隔因子來控制機器學(xué)習(xí)的訓(xùn)練過程,令它僅選擇分類間隔最大的分類超平面。svm算法具備較為完整的理論基礎(chǔ),在某些領(lǐng)域的應(yīng)用中展現(xiàn)了非常好的泛化性能,鑒于此,它在解決分類、回歸以及密度函數(shù)估測中均獲得不俗效果,且成功的應(yīng)用到了回歸估計、模式識別等方面。如文本分類、語音識別等。svm最早是為分類問題而設(shè)計并得到廣泛應(yīng)用。近年來,它在回歸問題方面也表現(xiàn)出非常好的性能。現(xiàn)有的軌道交通實時客流預(yù)測方法包括roosj提出一個動態(tài)貝葉斯網(wǎng)絡(luò)方法用于預(yù)測巴黎鐵路網(wǎng)絡(luò)中的短期客流,該方法對系統(tǒng)故障造成的數(shù)據(jù)不全情況有較好的處理效果?,F(xiàn)有的軌道交通實時客流預(yù)測方法存在預(yù)測準確率低,計算量大的技術(shù)問題。因此,提供一種預(yù)測準確率高、計算量小的軌道交通實時客流預(yù)測方法就很有必要。技術(shù)實現(xiàn)要素:本發(fā)明所要解決的技術(shù)問題是現(xiàn)有技術(shù)中存在的預(yù)測準確率低,計算量大問題。提供一種新的軌道交通實時客流預(yù)測方法,該軌道交通實時客流預(yù)測方法具有預(yù)測準確率高、計算量小的特點。為解決上述技術(shù)問題,采用的技術(shù)方案如下:一種軌道交通實時客流預(yù)測方法,所述方法包括:(1)從自動售檢票系統(tǒng)采集n個歷史數(shù)據(jù)作為原始樣本,對原始樣本進行預(yù)處理得到預(yù)處理樣本,所述預(yù)處理樣本包括時間序列向量x及與時間序列向量x對應(yīng)的客流向量y;(2)依據(jù)步驟(1)中預(yù)處理樣本,根據(jù)核函數(shù)及擬合回歸函數(shù)建立基于支持向量回歸機的短時客流預(yù)測模型,所述核函數(shù)為徑向基函數(shù);(3)將時間序列向量x及與時間序列向x量對應(yīng)的客流向量y作為輸入擬合預(yù)測函數(shù),將所述輸入擬合預(yù)測函數(shù)輸入步驟(2)中基于支持向量回歸機的短時客流預(yù)測模型,預(yù)測客流向量yn+1;其中,x={t1,t2,...,tn},y={y1,y2,...,yn}。本發(fā)明的工作原理:時間序列為按照時間排序的數(shù)字序列。對時間序列的分析過程是將統(tǒng)計觀測到的時間序列數(shù)據(jù)作為樣本,建立模型用以預(yù)測未來事件的發(fā)生。包括兩點:一,承認事件發(fā)展的延續(xù)性;二,考慮事件發(fā)生的隨機性。對于時間序列的預(yù)測主要可以反映以周期性變化、趨勢變化、隨機性變化為主的三種變化規(guī)律。短時客流數(shù)據(jù)則具備這種變化規(guī)律,對于短時客流的預(yù)測,最終目的是幫助軌道交通運營安全運營,提高服務(wù)效率以及服務(wù)質(zhì)量。準確的預(yù)測客流趨勢,必須通過建立高精度的預(yù)測模型實現(xiàn)。客流數(shù)據(jù)具有復(fù)雜性和突變性,因此排除線性預(yù)測方法,選擇采用非線性預(yù)測方法。由于原始樣本是從現(xiàn)實世界采集到的大量數(shù)據(jù),而現(xiàn)實生產(chǎn)與實際生活以及科學(xué)研究之間存在多樣性、不確定性和復(fù)雜性,導(dǎo)致采集到的原始數(shù)據(jù)較為散亂,符合預(yù)測算法進行知識獲取研究的標準程度低。因此,在進行預(yù)測前,首先得對原始數(shù)據(jù)進行處理、轉(zhuǎn)換。本發(fā)明采用從自動售檢票系統(tǒng)采集n個歷史數(shù)據(jù)作為原始樣本,對原始樣本進行預(yù)處理得到預(yù)處理樣本,根據(jù)核函數(shù)及擬合回歸函數(shù)建立基于支持向量回歸機的短時客流預(yù)測模型,所述核函數(shù)為徑向基函數(shù);根據(jù)基于支持向量回歸機的短時客流預(yù)測模型預(yù)測未來客流。支持向量回歸機模型只有一類樣本點,所尋求的最優(yōu)超平面是令所有的樣本點距離超平面總偏差值最小。此刻,當樣本點都被包含于兩條邊界間,求最優(yōu)回歸超平面便與求最大間隔是等價的。非線性支持向量回歸的主要是使用事先確定的非線性映射將輸入向量映射至某個高維特征空間,在高維空間內(nèi)進行線性回歸,以此獲取與原空間非線性回歸相同的效果。在幾種核函數(shù)中,線性核函數(shù)不能對輸入值進行處理,徑向基核函數(shù)中高維核的參數(shù)數(shù)量少于多項式核函數(shù),但在支持向量回歸機訓(xùn)練過程中,多項式核函數(shù)進行實驗所需的訓(xùn)練時間遠大于徑向基核函數(shù),而采用sigmoid核函數(shù)時,某些參數(shù)中的值是錯誤的。因此,本發(fā)明采用徑向基核函數(shù)。上述技術(shù)方案中,為優(yōu)化,進一步地,所述建立基于支持向量回歸機的短時客流預(yù)測模型包括:(a)將預(yù)處理樣本作為給定訓(xùn)練集t={(x1,y1),…,(xn,yn)}∈(r×y)n;(b)根據(jù)核函數(shù)k(x,x'),計算精度ε>0和懲罰函數(shù)c>0,構(gòu)造并求解凸二次規(guī)劃目標函數(shù);k(xi,xj)=φ(xi)·φ(xj);(c)根據(jù)二次規(guī)劃目標函數(shù)及非線性擬合函數(shù)計算出決策函數(shù):所述非線性擬合函數(shù)為:計算出的決策函數(shù)為:(d)根據(jù)決策函數(shù),將n個歷史數(shù)據(jù)作為訓(xùn)練集,在n+1維的超平面上進行回歸預(yù)測,計算得出所述短時客流預(yù)測模型為:f(x+1)=β1f(x)+β2f(x-1)+...+βnf(x-n+1);其中,k(x,x')為核函數(shù),xi∈rn,yi∈y=r,i=1,…,n,f(x+1)表示在x+1時刻的客流量,βi表示權(quán)重系數(shù),i=1,2,...,n。進一步地,所述徑向基函數(shù)為高斯核函數(shù):進一步地,所述客流向量yn+1包括短時客流預(yù)測及高峰預(yù)測。進一步地,所述高峰預(yù)測包括早高峰預(yù)測及晚高峰預(yù)測。進一步地,所述預(yù)處理包括關(guān)鍵信息提取、數(shù)據(jù)整理及分鐘級出入客流量統(tǒng)計。進一步地,所述關(guān)鍵信息提取包括提取刷卡時間、站臺與交通卡類型3中參數(shù)作為關(guān)鍵信息。進一步地,分鐘級出入客流量統(tǒng)計的統(tǒng)計頻率不低于每5分鐘統(tǒng)計一次。支持向量回歸,即支持向量回歸機,通常分為線性回歸和非線性回歸。對于線性回歸,采用線性回歸函數(shù)估算樣本數(shù)據(jù)。對于非線性回歸,通過一個非線性映射將數(shù)據(jù)映射到高維特征空間并在此空間內(nèi)進行線性回歸,非線性回歸多了升維的步驟,在高維空間內(nèi)進行線性回歸代替低維空間的非線性回歸,以省去高維空間中復(fù)雜的點積運算。支持向量回歸算法轉(zhuǎn)為對凸二次規(guī)劃問題的求解,其規(guī)模是同樣樣本量下svm分類問題的兩倍。支持向量回歸機主要包括線性和非線性兩種情況。在線性支持向量回歸機中,設(shè)定訓(xùn)練集利用ε-不敏感損失函數(shù)計算尋找回歸函數(shù)f(x,α)=ω·x+b中的參數(shù)和即:(ω·xi+b)-yi≤ε+ξi,i=1,…,l其中,ξi和是松弛變量,引入lagrange函數(shù)其中,lagrange乘子滿足設(shè)l對b、w、ξ(*)的偏導(dǎo)數(shù)為0,關(guān)于α(*)的極大值:非線性回歸機中,先用非線性映射把相應(yīng)數(shù)據(jù)映射至某個高維特征空間,并在高維空間中做線性回歸。優(yōu)化過程中由于僅考慮了特征空間內(nèi)積運算,因而用核函數(shù)k(x,y)來代替能實現(xiàn)非線性回歸。非線性回歸為:其中,求出α(*)的值,大部分的值為0,不為0的α(*)對應(yīng)樣本即為支持向量。f(x)的表達式為:其中,b為:任意支持向量都能夠計算出b值。本發(fā)明在驗證支持向量回歸機預(yù)測模型的有效性的同時,對比了高斯核函數(shù)與rbf核函數(shù)的擬合效果。實現(xiàn)效果表明基于支持向量回歸機的客流預(yù)測模型具備一定預(yù)測能力,其預(yù)測結(jié)論是有效的。在兩種核函數(shù)中,高斯核函數(shù)預(yù)測效果明顯優(yōu)于rbf核函數(shù),優(yōu)選地,將選擇高斯核函數(shù)進行為最優(yōu)選擇。原始樣本從實際應(yīng)用自動售檢票系統(tǒng)(afc)中獲取,由于實驗數(shù)據(jù)量略大,獲取的任意時刻乘客進出信息,信息較為雜亂。因此需要對龐大的數(shù)據(jù)集進行一個整合與關(guān)鍵信息提取。在關(guān)鍵信息的選擇上,本發(fā)明在7種標簽中選取了三種作為關(guān)鍵信息,他們包括刷卡時間、站臺與交通卡類型。本發(fā)明遍歷了所有實驗數(shù)據(jù),整理了關(guān)鍵信息的所有內(nèi)容。由于原始數(shù)據(jù)形式雜亂,不利于進行實驗預(yù)測。因此,將數(shù)據(jù)按一定規(guī)律整理有利于后續(xù)實驗的進行。本發(fā)明對不同站點的出行客流量進行預(yù)測,將前一步驟整理的站點列表中的站點號作為分類標簽,對軌道交通線網(wǎng)在一定時間內(nèi)的出入記錄進行分類。本發(fā)明原始數(shù)據(jù)眾多信息,而每條信息僅記錄了某乘客某時刻的出入行狀態(tài)。若要建立預(yù)測模型進行客流量預(yù)測,則必須對原始數(shù)據(jù)進行統(tǒng)計。因此,遍歷每個整理后的站臺數(shù)據(jù)文件,每5分鐘統(tǒng)計一次該站點的入站人數(shù)和出站人數(shù)。本發(fā)明的有益效果:效果一,提高了預(yù)測準確度;效果二,提高了預(yù)測效率;效果三,對數(shù)據(jù)進行預(yù)處理,減小了預(yù)測的多樣性、不確定性和復(fù)雜性。附圖說明下面結(jié)合附圖和實施例對本發(fā)明進一步說明。圖1,數(shù)據(jù)預(yù)處理流程示意圖。圖2,0321號站臺進站預(yù)測支持向量回歸機模型。圖3,0321號站臺出站預(yù)測支持向量回歸機模型。圖4,0212號站臺進站預(yù)測支持向量回歸機模型。圖5,0212號站臺出站預(yù)測支持向量回歸機模型。圖6,0315號站臺進站預(yù)測支持向量回歸機模型。圖7,0315號站臺出站預(yù)測支持向量回歸機模型。圖8,0613號站臺早高峰預(yù)測支持向量回歸機模型。圖9,0210號站臺早高峰預(yù)測支持向量回歸機模型。圖10,0613號站臺晚高峰預(yù)測支持向量回歸機模型。圖11,0210號站臺晚高峰預(yù)測支持向量回歸機模型。具體實施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。實施例1本實施例提供一種軌道交通實時客流預(yù)測方法,所述方法包括:(1)從自動售檢票系統(tǒng)采集n個歷史數(shù)據(jù)作為原始樣本,對原始樣本進行預(yù)處理得到預(yù)處理樣本,所述預(yù)處理樣本包括時間序列向量x及與時間序列向量x對應(yīng)的客流向量y;(2)依據(jù)步驟(1)中預(yù)處理樣本,根據(jù)核函數(shù)及擬合回歸函數(shù)建立基于支持向量回歸機的短時客流預(yù)測模型,所述核函數(shù)為徑向基函數(shù);(3)將時間序列向量x及與時間序列向x量對應(yīng)的客流向量y作為輸入擬合預(yù)測函數(shù),將所述輸入擬合預(yù)測函數(shù)輸入步驟(2)中基于支持向量回歸機的短時客流預(yù)測模型,預(yù)測客流向量yn+1;其中,x={t1,t2,...,tn},y={y1,y2,...,yn}。具體地,所述建立基于支持向量回歸機的短時客流預(yù)測模型包括:(a)將預(yù)處理樣本作為給定訓(xùn)練集t={(x1,y1),…,(xn,yn)}∈(r×y)n;(b)根據(jù)核函數(shù)k(x,x'),計算精度ε>0和懲罰函數(shù)c>0,構(gòu)造并求解凸二次規(guī)劃目標函數(shù);k(xi,xj)=φ(xi)·φ(xj);(c)根據(jù)二次規(guī)劃目標函數(shù)及非線性擬合函數(shù)計算出決策函數(shù):所述非線性擬合函數(shù)為:計算出的決策函數(shù)為:(d)根據(jù)決策函數(shù),將n個歷史數(shù)據(jù)作為訓(xùn)練集,在n+1維的超平面上進行回歸預(yù)測,計算得出所述短時客流預(yù)測模型為:f(x+1)=β1f(x)+β2f(x-1)+...+βnf(x-n+1);其中,k(x,x')為核函數(shù),xi∈rn,yi∈y=r,i=1,…,n,f(x+1)表示在x+1時刻的客流量,βi表示權(quán)重系數(shù),i=1,2,...,n。優(yōu)選地,進一步地,所述徑向基函數(shù)為高斯核函數(shù):具體地,所述客流向量yn+1包括短時客流預(yù)測及高峰預(yù)測。更具體地,所述高峰預(yù)測包括早高峰預(yù)測及晚高峰預(yù)測。由于原始樣本是從現(xiàn)實世界采集到的大量數(shù)據(jù),而現(xiàn)實生產(chǎn)與實際生活以及科學(xué)研究之間存在多樣性、不確定性和復(fù)雜性,導(dǎo)致采集到的原始數(shù)據(jù)較為散亂,符合預(yù)測算法進行知識獲取研究的程度低。優(yōu)選地,如圖1,所述預(yù)處理包括關(guān)鍵信息提取、數(shù)據(jù)整理及分鐘級出入客流量統(tǒng)計。具體地,本實施例中所述關(guān)鍵信息提取包括提取刷卡時間、站臺與交通卡類型3中參數(shù)作為關(guān)鍵信息。原始樣本從實際應(yīng)用自動售檢票系統(tǒng)中獲取,由于數(shù)據(jù)量大,獲取的任意時刻乘客進出信息雜亂。因此,需要對龐大的數(shù)據(jù)集進行一個整合與關(guān)鍵信息提取。在關(guān)鍵信息的選擇上,本實施例在7種標簽中選取了更具研究價值的三種作為關(guān)鍵信息,他們包括刷卡時間、站臺與交通卡類型。本實施例在實驗過程中遍歷了所有實驗數(shù)據(jù),整理了關(guān)鍵信息的所有內(nèi)容。整理結(jié)果:表1為數(shù)據(jù)樣本關(guān)鍵詞時間列表,表2為數(shù)據(jù)樣本關(guān)鍵詞站臺列表,表3為數(shù)據(jù)樣本關(guān)鍵詞卡類號列表。時間時間20140101201401172014010220140118201401032014011920140104201401202014010520140121201401062014012220140107201401232014010820140124201401092014012520140110201401262014011120140127201401122014012820140113201401292014011420140130201401152014013120140116表1站臺號站臺號站臺號站臺號01020201030106090103020203020610010402030303061101050204030406130106020503050614…………0120021503360623012102160337062501220217033806260123021803390628表2卡類號卡類型卡類號卡類型00宜居普通卡05宜居月票14宜居免費卡77宜居免費計數(shù)卡15宜居員工卡82公務(wù)票20愛心優(yōu)惠卡88員工票03宜居學(xué)生卡89單程紀念票44軌警執(zhí)勤卡94軌道定次票48軌道服務(wù)卡98單程票表3表1所示證實數(shù)據(jù)采集時間范圍為2014年1月1日到2014年1月31日。從表2可以看出,統(tǒng)計數(shù)據(jù)的站臺,前兩位表示軌道交通線路名,后兩位表示站臺號且從頭至尾一次遞增。其中,缺失站臺號表示該線路上該站臺還未開通。交通卡類型統(tǒng)計在表3中,號碼對應(yīng)的卡類型名也相應(yīng)展示出來。由于原始數(shù)據(jù)形式雜亂,不利于進行實驗預(yù)測。因此,將數(shù)據(jù)按一定規(guī)律整理有利于后續(xù)實驗的進行。計劃對不同站點的出行客流量進行預(yù)測,鑒于此,將前一步驟整理的站點列表中的站點號作為分類標簽,對軌道交通線網(wǎng)在一個月內(nèi)的出入記錄進行分類。每一個站點文件包含了該站點在2014年1月份的客流出入記錄。原始數(shù)據(jù)多,而每條信息僅記錄了某乘客某時刻的出入行狀態(tài)。若要建立預(yù)測模型進行客流量預(yù)測,先對原始數(shù)據(jù)進行統(tǒng)計能夠減少計算量。因此,遍歷每個整理后的站臺數(shù)據(jù)文件。優(yōu)選地,每5分鐘統(tǒng)計一次該站點的入站人數(shù)和出站人數(shù),統(tǒng)計結(jié)果如表4。統(tǒng)計開始時間統(tǒng)計截止時間入站人數(shù)出站人數(shù)20140112-07000020140112-070500296320140112-07050020140112-071000186720140112-07100020140112-071500232520140112-07150020140112-072000188620140112-07200020140112-0725002114320140112-07250020140112-0730002411220140112-07300020140112-073500253620140112-07350020140112-0740004314220140112-07400020140112-07450030135表4本實施例預(yù)測結(jié)果:短時客流預(yù)測:本次選擇0321號站臺、0212號站臺、0315號站臺作為預(yù)測對象,對該站點2014年1月6日到1月21日中每天15時至21時的進站/出站數(shù)據(jù)進行訓(xùn)練,并對2014年22日相同時段進站/出站客流量進行預(yù)測,訓(xùn)練數(shù)據(jù)每15分鐘統(tǒng)計一次。其實驗結(jié)果如圖2-圖7。其中,圖2及圖3分別為0321號站臺進/出站預(yù)測支持向量回歸機模型;圖4及圖5分別為0212號站臺進/出站預(yù)測支持向量回歸機模型;圖6及圖7分別為0315號站臺進/出站預(yù)測支持向量回歸機模型。其中,橫坐標是該時間段內(nèi)每5分鐘一個刻度,每一個凸出代表一天內(nèi)營業(yè)時間的客流量形勢,最后一個凸出是被預(yù)測的數(shù)據(jù)。高峰預(yù)測:早高峰預(yù)測:本次選擇0613號站臺和0210號站臺作為預(yù)測對象,對該站點2014年1月6日到1月21日中每天6時30分至9時30分的進站數(shù)據(jù)進行訓(xùn)練,并對2014年22日相同時段進站客流量進行預(yù)測,訓(xùn)練數(shù)據(jù)每15分鐘統(tǒng)計一次。其實驗結(jié)果如圖8及圖9,圖8是0613號站臺的早高峰預(yù)測支持向量回歸機模型,圖9是0210號站臺早高峰預(yù)測支持向量回歸機模型。其中,橫坐標是該時間段內(nèi)每20分鐘一個刻度。晚高峰預(yù)測:本次選擇0613號站臺和0210號站臺作為預(yù)測對象,對該站點2014年1月6日到1月21日中每天17時至20時的進站數(shù)據(jù)進行訓(xùn)練,并對2014年22日相同時段進站客流量進行預(yù)測,訓(xùn)練數(shù)據(jù)每15分鐘統(tǒng)計一次。實驗結(jié)果如圖10及圖11,圖10為0613號站臺晚高峰預(yù)測支持向量回歸機模型,圖11為0210號站臺晚高峰預(yù)測支持向量回歸機模型。其中,橫坐標是該時間段內(nèi)每20分鐘一個刻度。盡管上面對本發(fā)明說明性的具體實施方式進行了描述,以便于本
技術(shù)領(lǐng)域:
的技術(shù)人員能夠理解本發(fā)明,但是本發(fā)明不僅限于具體實施方式的范圍,對本
技術(shù)領(lǐng)域:
的普通技術(shù)人員而言,只要各種變化只要在所附的權(quán)利要求限定和確定的本發(fā)明精神和范圍內(nèi),一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護之列。當前第1頁12