本發(fā)明涉及一種基于軌道交通數(shù)據(jù)分析的異常出行群體識(shí)別方法,尤其涉及一種基于公共交通一卡通地鐵刷卡數(shù)據(jù)的異常出行群體自動(dòng)識(shí)別方法。
背景技術(shù):
2014年底,北京地鐵公司發(fā)布了2014年整整一年的客流數(shù)據(jù)。數(shù)據(jù)顯示,2014年全年北京地鐵公司所轄15條線路共運(yùn)送乘客29.07億人次,同比增長6.14%。4月30日為全年客運(yùn)量最高日,達(dá)到988.95萬人次。由此可以看出,地鐵已經(jīng)成為人們出行的重要工具。隨著地鐵客流量的增加,其自身帶來的社會(huì)治安和安全隱患等問題都不可忽視。一些角色絕非“乘客”的出行者自然地融入到了地鐵客流當(dāng)中,這為地鐵軌道交通帶來了極大的負(fù)面影響。我們稱這些沒有明確的出行目的地,但會(huì)長時(shí)間停留在公共交通系統(tǒng)中從事某種活動(dòng)的角色絕非“乘客”的出行者為異常出行乘客。一些異常出行乘客以團(tuán)體形式存在我們稱之為異常出行群體,異常出行群體對社會(huì)治安的影響更為嚴(yán)重。由于異常出行乘客具有分布分散、流動(dòng)性大等特點(diǎn),所以難以進(jìn)行治理。
在公共交通中,智能卡自動(dòng)售檢票系統(tǒng)越來越普遍,該系統(tǒng)提供了大量的持續(xù)的高質(zhì)量的乘客上下車站點(diǎn)的信息,這為研究公共交通出行乘客的出行模式提供了可能。隨著信息技術(shù)和數(shù)據(jù)處理能力的快速發(fā)展,自動(dòng)收費(fèi)系統(tǒng)(afc)收集的交易記錄對于了解乘客的交通模式和城市的動(dòng)態(tài)非常有價(jià)值。近年來研究者通過將乘客的上下車站點(diǎn)連接起來形成乘客的出行鏈并根據(jù)一卡通數(shù)據(jù)分析了乘客的出行時(shí)間及乘客的換乘模式。大部分個(gè)體具有相對固定的移動(dòng)模式因此可以對其出行模式進(jìn)行研究和預(yù)測。因此,使用一卡通數(shù)據(jù)可以研究地鐵當(dāng)中的異常出行群體。
技術(shù)實(shí)現(xiàn)要素:
地鐵現(xiàn)已經(jīng)成為人們出行的重要工具。隨著地鐵客流量的增加,一些角色絕非“乘客”的出行者自然地融入到了地鐵客流當(dāng)中,這為地鐵軌道交通帶來了極大的負(fù)面影響。本發(fā)明稱這些角色絕非“乘客”的出行者為異常出行乘客,稱以團(tuán)體形式存在的異常出行乘客為異常出行群體。公共交通一卡通不僅能夠方便的繳納公共交通出行過程的費(fèi)用,同時(shí)也記錄了乘客的上下車時(shí)間及站點(diǎn)等出行信息,這為公共交通中乘客的出行研究提供了方便。本發(fā)明提出了基于公共交通一卡通地鐵刷卡數(shù)據(jù)的異常出行群體自動(dòng)識(shí)別方法,關(guān)鍵問題包括乘客的特征表示及乘客間距離的度量方法。
為實(shí)現(xiàn)上述目的,本發(fā)明采用如下的技術(shù)方案:
一種基于軌道交通數(shù)據(jù)分析的異常出行群體識(shí)別方法包括以下步驟:
步驟s1、個(gè)體狀態(tài)描述
對乘客在時(shí)間段t內(nèi)的狀態(tài)逐小時(shí)進(jìn)行標(biāo)記,得到每位乘客的以小時(shí)為單位的狀態(tài)序列;
步驟s2、基于個(gè)體狀態(tài)序列聚類發(fā)現(xiàn)異常出行個(gè)體
使用k-means聚類方法得到異常出行可疑乘客及正常出行乘客;
步驟s3、異常出行群體發(fā)現(xiàn)
使用dbscan聚類算法對異常出行可疑乘客的出行模式進(jìn)行聚類,dbscan的聚類基礎(chǔ)是對象之間的距離,定義乘客出行模式之間的距離d(up,uq)為
d(up,uq)=1-sc(up,uq)(3)
sc(up,uq)為乘客出行模式up,uq之間的相似系數(shù),
為了得到乘客出行模式之間的相似系數(shù),同時(shí)考慮乘客出行模式的空間相似性和時(shí)間相似性,將乘客訪問的站點(diǎn)集合表示為s={s1,s2,…,sn},其中si=(ni,wi),1<i<n,ni為站點(diǎn)名稱,wi為對該站點(diǎn)的訪問次數(shù),
定義乘客出行模式up,uq的空間相似性度量函數(shù)
0<ts<1,如果兩位乘客訪問的站點(diǎn)集合相同,則ts=1,
對于某一確定的站點(diǎn),不同乘客對其訪問的時(shí)間不同,將某一乘客訪問特定站點(diǎn)的時(shí)間表示為h={h1,h2,…,hn},其中hi=(ti,vi),1<i<n,ti為乘客對該站點(diǎn)的訪問時(shí)間,vi為在該時(shí)間訪問特定站點(diǎn)的概率;兩個(gè)乘客的出行模式關(guān)于某一固定站點(diǎn)的時(shí)間相似性類似于兩個(gè)直方圖的相似性;earthmover’sdistance(emd)是直方圖相似性評(píng)估的距離計(jì)算函數(shù),設(shè)兩個(gè)直方圖
滿足以下約束條件:
f={fi,j}表示需要運(yùn)輸?shù)奈镔|(zhì)的數(shù)量集,ti和tj兩地之間的距離
0<tt<1,如果兩位乘客對于某一特定站點(diǎn)的訪問時(shí)間完全相同,則ts=1,
基于此乘客出行模式之間的距離,對異常出行可疑乘客進(jìn)行聚類,得到異常出行乘客團(tuán)伙。
作為優(yōu)選,步驟s1具體為:對于一位乘客的任意一條刷卡記錄i,可以根據(jù)其上一條刷卡記錄i-1的下車站點(diǎn)和下一條刷卡記錄i+1的上車站點(diǎn)對乘客的狀態(tài)進(jìn)行標(biāo)記,標(biāo)記規(guī)則如下:
1)對于該乘客刷卡記錄i的日期與刷卡記錄i-1的日期相同或者相差一天的情況:如果刷卡記錄i-1的下車站點(diǎn)和刷卡記錄i的上車站點(diǎn)相同,則將該乘客從刷卡記錄i-1的下車時(shí)間到刷卡記錄i的上車時(shí)間之間的狀態(tài)標(biāo)記為此站點(diǎn);如果刷卡記錄i-1的下車站點(diǎn)和刷卡記錄i的上車站點(diǎn)不相同,將該乘客從刷卡記錄i-1的下車時(shí)間到刷卡記錄i的上車時(shí)間之間的狀態(tài)標(biāo)記為非公共交通出行;
2)對于該乘客刷卡記錄i的日期與刷卡記錄i-1的日期相差兩天以上或者刷卡記錄i為該乘客的第一條刷卡記錄的情況:將刷卡記錄i當(dāng)天在刷卡記錄i上車時(shí)間之前的時(shí)間段的狀態(tài)標(biāo)記為刷卡記錄i的上車站點(diǎn);
3)對于該乘客刷卡記錄i+1的日期與刷卡記錄i的日期相同或者相差一天的情況:類似規(guī)則1,如果刷卡記錄i的下車站點(diǎn)和刷卡記錄i+1的上車站點(diǎn)相同,則將該乘客從刷卡記錄i的下車時(shí)間到刷卡記錄i+1的上車時(shí)間之間的狀態(tài)標(biāo)記為此站點(diǎn);如果刷卡記錄i的下車站點(diǎn)和刷卡記錄i+1的上車站點(diǎn)不相同,將該乘客從刷卡記錄i的下車時(shí)間到刷卡記錄i+1的上車時(shí)間之間的狀態(tài)標(biāo)記為非公共交通出行;
4)對于該乘客刷卡記錄i+1的日期與刷卡記錄i的日期相差兩天以上或者刷卡記錄i為該乘客的最后一條刷卡記錄的情況:將刷卡記錄i當(dāng)天在刷卡記錄i下車時(shí)間之后的時(shí)間段的狀態(tài)標(biāo)記為刷卡記錄i的下車站點(diǎn)。
附圖說明
圖1為本發(fā)明基于軌道交通數(shù)據(jù)分析的異常出行群體識(shí)別方法的流程圖;
圖2為異常出行可疑乘客出現(xiàn)頻繁的站點(diǎn)的熱力圖;
圖3為北京市公安局發(fā)布的北京市軌道交通扒竊高發(fā)線路圖。
具體實(shí)施方式
如圖1所示,本發(fā)明實(shí)施例提供一種基于軌道交通數(shù)據(jù)分析的異常出行群體識(shí)別方法,包括以下步驟:
步驟s1、個(gè)體狀態(tài)描述
首先對乘客在時(shí)間段t內(nèi)的狀態(tài)逐小時(shí)進(jìn)行標(biāo)記。對于一位乘客的任意一條刷卡記錄i,可以根據(jù)其上一條刷卡記錄i-1的下車站點(diǎn)和下一條刷卡記錄i+1的上車站點(diǎn)對乘客的狀態(tài)進(jìn)行標(biāo)記。標(biāo)記規(guī)則如下:
5)對于該乘客刷卡記錄i的日期與刷卡記錄i-1的日期相同或者相差一天的情況:如果刷卡記錄i-1的下車站點(diǎn)和刷卡記錄i的上車站點(diǎn)相同,則將該乘客從刷卡記錄i-1的下車時(shí)間到刷卡記錄i的上車時(shí)間之間的狀態(tài)標(biāo)記為此站點(diǎn);如果刷卡記錄i-1的下車站點(diǎn)和刷卡記錄i的上車站點(diǎn)不相同,將該乘客從刷卡記錄i-1的下車時(shí)間到刷卡記錄i的上車時(shí)間之間的狀態(tài)標(biāo)記為非公共交通出行。
6)對于該乘客刷卡記錄i的日期與刷卡記錄i-1的日期相差兩天以上或者刷卡記錄i為該乘客的第一條刷卡記錄的情況:將刷卡記錄i當(dāng)天在刷卡記錄i上車時(shí)間之前的時(shí)間段的狀態(tài)標(biāo)記為刷卡記錄i的上車站點(diǎn)。
7)對于該乘客刷卡記錄i+1的日期與刷卡記錄i的日期相同或者相差一天的情況:類似規(guī)則1,如果刷卡記錄i的下車站點(diǎn)和刷卡記錄i+1的上車站點(diǎn)相同,則將該乘客從刷卡記錄i的下車時(shí)間到刷卡記錄i+1的上車時(shí)間之間的狀態(tài)標(biāo)記為此站點(diǎn);如果刷卡記錄i的下車站點(diǎn)和刷卡記錄i+1的上車站點(diǎn)不相同,將該乘客從刷卡記錄i的下車時(shí)間到刷卡記錄i+1的上車時(shí)間之間的狀態(tài)標(biāo)記為非公共交通出行。
8)對于該乘客刷卡記錄i+1的日期與刷卡記錄i的日期相差兩天以上或者刷卡記錄i為該乘客的最后一條刷卡記錄的情況:將刷卡記錄i當(dāng)天在刷卡記錄i下車時(shí)間之后的時(shí)間段的狀態(tài)標(biāo)記為刷卡記錄i的下車站點(diǎn)。
根據(jù)乘客的刷卡記錄,按照以上規(guī)則可以標(biāo)記出乘客部分時(shí)間的狀態(tài)。另外,對于乘客乘坐公共交通的過程,將其相應(yīng)時(shí)間的狀態(tài)標(biāo)記為公共交通出行。除此之外,由于信息不足(例如,當(dāng)天未乘坐公共交通)仍有一些時(shí)間的狀態(tài)無法判斷,我們將這些時(shí)間的狀態(tài)標(biāo)記為不可判斷。
完成了乘客在時(shí)間段t內(nèi)的所有時(shí)間的狀態(tài)標(biāo)記,我們對乘客在時(shí)間段t內(nèi)的所有時(shí)間的狀態(tài)進(jìn)行賦值。對于狀態(tài)被標(biāo)記為站點(diǎn)的情況,根據(jù)乘客在t時(shí)間段內(nèi)的刷卡記錄,我們分別統(tǒng)計(jì)每位乘客出現(xiàn)次數(shù)最多的站點(diǎn)(包括上車和下車)稱為區(qū)域1并將其賦值為1,次之稱為區(qū)域2并將其賦值為2,以此類推至區(qū)域5,乘客出現(xiàn)次數(shù)較區(qū)域5更少的站點(diǎn)仍賦值為5。將非公共交通出行的狀態(tài)賦值為-1,將不可判斷的狀態(tài)賦值為0。
對于狀態(tài)被標(biāo)記為公共交通出行的情況,根據(jù)乘客公共交通出行過程的速度進(jìn)行賦值。具有異常出行行為的乘客,其進(jìn)出站的時(shí)間間隔比其他乘客的進(jìn)出站的時(shí)間間隔要長,但其進(jìn)出站站點(diǎn)之間的距離并沒有相應(yīng)變遠(yuǎn),甚至一些具有異常出行行為的乘客的上車站點(diǎn)和下車站點(diǎn)相同。因此,具有異常出行行為的乘客在公共交通出行過程中的出行速度(稱為異常出行速度)小于其他乘客的出行速度(稱為正常出行速度)。為了得到異常出行速度和正常出行速度之間的劃分標(biāo)準(zhǔn),我們對刷卡記錄中所有的出行速度進(jìn)行聚類。本文使用的是k-means聚類方法,期望的簇的個(gè)數(shù)為3。本文中出行速度v=disab/tab,disab表示站點(diǎn)ab之間的地表距離,tab表示乘客從a站點(diǎn)到b站點(diǎn)所用的時(shí)間。部分站點(diǎn)在地鐵線路中的真實(shí)距離與站點(diǎn)之間的地表距離差別不大,但受到地形等因素的影響有一些地鐵站點(diǎn)之間在地鐵線路中的距離會(huì)和站點(diǎn)之間的地表距離有較大差別。這會(huì)導(dǎo)致正常出行速度之間也會(huì)有一定差異。因此,我們所期望的簇的個(gè)數(shù)為3。對乘客的出行速度聚類之后,我們認(rèn)為平均速度最小的一類即為異常出行的出行速度,找到該類出行速度的最大值v’,出行速度小于v’認(rèn)為是異常出行速度,反之認(rèn)為是正常出行速度。將以正常出行速度進(jìn)行公共交通出行的狀態(tài)賦值為-2,以異常出行速度進(jìn)行公共交通出行的狀態(tài)賦值為-7。乘客所有可能的狀態(tài)如表1所示。
表1乘客活動(dòng)狀態(tài)總結(jié)
步驟s2、基于個(gè)體狀態(tài)序列聚類發(fā)現(xiàn)異常出行個(gè)體
按照上一部分的規(guī)則,能夠得到每位乘客的以小時(shí)為單位的狀態(tài)序列。因此,我們得到一個(gè)u*y*24維的矩陣,其中u代表乘客個(gè)數(shù),y代表天數(shù)。通過在所有用戶的序列像素值的變化中提取統(tǒng)計(jì)趨勢,序列結(jié)構(gòu)的復(fù)發(fā)性元件可確定并用于通過一個(gè)小的維數(shù)來概括每個(gè)序列。pca(principalcomponentanalysis)是一種常用的數(shù)據(jù)分析方法,可用于提取數(shù)據(jù)的主要特征分量,常用于高維數(shù)據(jù)的降維。pca將一組數(shù)據(jù)變換為一組不相關(guān)的主成分。不相關(guān)pc通過最大化方差,然后按其影響力排名計(jì)算得到。
用原始矩陣減去其各列的平均值得到標(biāo)準(zhǔn)化矩陣b。為了得到矩陣b的主成分,需要根據(jù)等式(1)和(2)計(jì)算矩陣b的協(xié)方差矩陣c的特征向量v和特征值λ。
c=btb(1)
(c-λi)v=0(2)
特征值是各主成分的方差,它的大小反映了主成分的影響力。按照特征值大小排列,根據(jù)其前m個(gè)主成分的累計(jì)貢獻(xiàn)率選取主成分的個(gè)數(shù)。
使用k-means聚類方法對得到的m維數(shù)據(jù)進(jìn)行聚類,得到異常出行可疑乘客及正常出行乘客。
步驟s3、異常出行群體發(fā)現(xiàn)
部分異常出行乘客為完成其出行目的以團(tuán)伙的形式存在。準(zhǔn)確的獲取這些團(tuán)伙的相關(guān)信息有助于公安人員對公共交通場所進(jìn)行治安維護(hù)及案件偵破。為了找到異常出行乘客團(tuán)伙,本文對上一部分的異常出行可疑乘客進(jìn)行聚類,被聚集到同一類簇中的乘客被認(rèn)為具有團(tuán)伙關(guān)系。本文使用dbscan聚類算法對異常出行可疑乘客的出行模式進(jìn)行聚類。dbscan是基于密度的聚類算法,不需要預(yù)知要?jiǎng)澐值木垲悅€(gè)數(shù),能夠把具有足夠高密度的區(qū)域劃分為簇,并可發(fā)現(xiàn)任意形狀的聚類。
dbscan的聚類基礎(chǔ)是對象之間的距離,本文定義乘客出行模式之間的距離
d(up,uq)=1-sc(up,uq)(3)
sc(up,uq)為乘客出行模式up,uq之間的相似系數(shù)。
為了得到乘客出行模式之間的相似系數(shù),我們同時(shí)考慮乘客出行模式的空間相似性和時(shí)間相似性。我們將乘客訪問的站點(diǎn)集合表示為s={s1,s2,…,sn},其中si=(ni,wi),1<i<n,ni為站點(diǎn)名稱,wi為對該站點(diǎn)的訪問次數(shù)。例如某一乘客up的站點(diǎn)集合為sp={(大望路,20),(北工大西門,25),(金臺(tái)路,10),(北京南站,5)}。
定義乘客出行模式up,uq的空間相似性度量函數(shù)
0<ts<1,如果兩位乘客訪問的站點(diǎn)集合相同,則ts=1。
對于某一確定的站點(diǎn),不同乘客對其訪問的時(shí)間不同。我們將某一乘客訪問特定站點(diǎn)的時(shí)間表示為h={h1,h2,…,hn},其中hi=(ti,vi),1<i<n,ti為乘客對該站點(diǎn)的訪問時(shí)間,vi為在該時(shí)間訪問特定站點(diǎn)的概率。例如乘客up對大望路的訪問時(shí)間為h={(08:00-09:00,0.4),(09:00-10:00,0.2),(17:00-18:00,0.4)}。兩個(gè)乘客的出行模式關(guān)于某一固定站點(diǎn)的時(shí)間相似性類似于兩個(gè)直方圖的相似性。earthmover’sdistance(emd)[1]是直方圖相似性評(píng)估的距離計(jì)算函數(shù)。設(shè)兩個(gè)直方圖
滿足以下約束條件:
f={fi,j}表示我們需要運(yùn)輸?shù)奈镔|(zhì)的數(shù)量集。ti和tj兩地之間的距離
0<tt<1,如果兩位乘客對于某一特定站點(diǎn)的訪問時(shí)間完全相同,則ts=1。
基于此乘客出行模式之間的距離,對異常出行可疑乘客進(jìn)行聚類,得到異常出行乘客團(tuán)伙。
本發(fā)明使用17,941位乘客三周的地鐵刷卡數(shù)據(jù)最終得到1244位異常出行乘客。本發(fā)明統(tǒng)計(jì)了1244位異常出行可疑乘客的進(jìn)出站地鐵站點(diǎn)。圖2為異常出行可疑乘客出現(xiàn)頻繁的站點(diǎn)的熱力圖。圖3為北京市公安局發(fā)布的北京市軌道交通扒竊高發(fā)線路圖。圖2可知,異常出行可疑乘客的活動(dòng)站點(diǎn)集中在1,2,4,5,10號(hào)線,與相關(guān)報(bào)道的發(fā)布的軌道扒竊案件高發(fā)區(qū)域與乞討集中線路基本吻合。