本發(fā)明涉及計算機識別技術(shù),尤其涉及一種基于gps軌跡數(shù)據(jù)的出行段識別方法。
背景技術(shù):
傳統(tǒng)居民出行調(diào)查一般采用面對面訪談、紙質(zhì)問卷、郵件和電話等形式,這些方法需要受訪者填寫詳細的出行特征,并且是在一天或者更長時間段內(nèi)出行結(jié)束后進行回憶填寫,受訪者的負擔(dān)較大,填寫的數(shù)據(jù)存在較大誤差。比如,1)出行者通常將出行時間近似為相近的5分鐘、10分鐘甚至15分鐘等,也不提供實際的出行路徑等信息;2)出行調(diào)查的漏報、誤報比例較高,通常處于20%-30%之間,這些都限制了出行數(shù)據(jù)的精度。
近些年,隨著智能手機的快速普及,gps定位技術(shù)的發(fā)展完善,使得基于手機gps軌跡數(shù)據(jù)的出行調(diào)查成為可能。
現(xiàn)有的基于gps軌跡數(shù)據(jù)的出行段識別方法主要存在以下不足:
1)由于gps信號可能存在誤差,現(xiàn)有方法直接使用gps記錄數(shù)據(jù)中的速度值進行相關(guān)計算就會出現(xiàn)較大偏差;
2)缺乏完善的原始數(shù)據(jù)清洗與預(yù)處理方法,如信號漂移點的識別與去除;
3)在識別得到出行端點后,缺乏進一步的判定與去除偽端點的方法;
4)沒有按照傳統(tǒng)的出行定義去合并出行段。
因此,識別得到的出行段與真實的出行之間存在較大偏差,方法實用性不強。
技術(shù)實現(xiàn)要素:
為解決上述技術(shù)問題,本發(fā)明的目的在于提供一種基于gps軌跡數(shù)據(jù)的出行段識別方法。
本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:主要包括數(shù)據(jù)清洗與預(yù)處理、識別出行端點并去除偽出行端點、合并出行段。該方法在綜合基于規(guī)則法和聚類法優(yōu)點的基礎(chǔ)上,提出了數(shù)據(jù)清洗與預(yù)處理流程,有效剔除了出行端點識別與出行段合并中的噪聲。用軌跡點相鄰區(qū)間的距離與時間差計算該點瞬時速度,運用速度對時間的積分來計算出行距離。適用于基于gps軌跡數(shù)據(jù)的出行段識別,豐富gps軌跡數(shù)據(jù)挖掘算法體系,為大規(guī)模基于智能手機的出行調(diào)查推廣提供理論支撐。
一種基于gps軌跡數(shù)據(jù)的出行段識別方法,其特征在于:包括以下步驟:
第一步、數(shù)據(jù)清洗與預(yù)處理;
1)去除定位衛(wèi)星數(shù)少于4顆的軌跡點;
2)去除海拔高度大于當(dāng)?shù)刈罡吆0蔚能壽E點;
3)信號漂移點識別與剔除:該點與之前5個點的中心距離超過200米,同時與之后5個點的中心距離超過200米;
4)去除瞬時速度超過地面交通工具最大速度的軌跡點;
第二步、識別出行端點并去除偽端點;
根據(jù)gps信號記錄情況分兩種情形識別出行端點,
1)gps信號正常記錄:出行端點處的軌跡點有點聚集的特征,用k均值聚類法識別此類端點;還有一種端點發(fā)生在短暫的接送人情形下,通過計算軌跡點的方向變化以及路段重復(fù)長度識別,方向發(fā)生180度的改變,且重復(fù)路段長度超過50米,即識別為接送人的出行端點;
2)gps信號缺失:缺失段時間差超過2分鐘,且缺失段平均速度(缺失段長度與時間差的比值)小于步行速度最小值0.5m/s,即識別為出行端點;
第三步、合并出行段;
第二步得到的出行端點即活動發(fā)生點,去除活動范圍小于50米的出行端點,得到所有的出行端點,合并各出行端點之間的出行段。
進一步的,第二步所述的k均值聚類法識別可能的出行端點,定義一個簇并給定簇內(nèi)最少的點數(shù)m=5個和聚類半徑d=10米,判斷該簇中位點和簇外下一點之間的距離,如果小于d/2,則將該點加入簇中,否則結(jié)束該簇,直到所有的點都被遍歷到,最終建立的各簇即為可能的出行端點,每一個簇的時間差至少為2分鐘,否則作為偽端點并去除。
進一步的,第三步所述的出行段,各出行段需滿足:出行段長度大于400米,出行時間超過5分鐘,否則該出行段并入上一出行段。
相比現(xiàn)有技術(shù),本發(fā)明具有如下有益效果:
本發(fā)明有效剔除了出行端點識別與出行段合并中的噪聲,算法簡易、高效、識別結(jié)果精準(zhǔn)、可靠。本發(fā)明可以豐富gps軌跡數(shù)據(jù)挖掘算法體系,為大規(guī)?;谥悄苁謾C的出行調(diào)查推廣提供理論支撐。
附圖說明
圖1一種基于gps軌跡數(shù)據(jù)的出行段識別流程圖
圖2信號漂移點識別與刪除
圖3軌跡點速度計算示意圖
圖4出行段距離計算
具體實施方式
下面對本發(fā)明的實施例作詳細說明,本實施例以本發(fā)明的技術(shù)方案為依據(jù)開展,給出了詳細的實施方式和具體的操作過程。
一、數(shù)據(jù)清洗與預(yù)處理
采集的gps軌跡數(shù)據(jù)一般包括:用戶編號、定位時間、經(jīng)度、緯度、海拔、速度、方向和定位衛(wèi)星數(shù)。
根據(jù)用戶編號,gps數(shù)據(jù)按照時間順序分配到每個人每天的出行。
根據(jù)以下規(guī)則進行數(shù)據(jù)清洗與預(yù)處理:
1、去除定位衛(wèi)星數(shù)少于4顆的軌跡點;
2、去除海拔高度大于200米(上海地區(qū))的軌跡點;
3、信號漂移點識別與剔除:該點與之前5個點的中心距離超過200米,同時與之后5個點的中心距離超過200米;詳細圖例見圖2。
4、去除瞬時速度超過150km/h的軌跡點。
注:
1)軌跡點瞬時速度的計算:vi=(disi-1,i+disi,i+1)/(timei+1-timei-1)其中,disi-1,i表示第i-1個軌跡點與第i個軌跡點之間的距離,timei-1表示第i-1個軌跡點的時刻。詳細圖例見圖3。
2)出行段距離計算:計算出行段距離時,與以往直接累加所有軌跡點間直線距離不同,本方法提出通過軌跡點速度對時間的積分得到出行距離:
如圖4所示,速度折線與橫軸圍成的面積即是該段出行距離。
二、識別出行端點并去除偽端點
根據(jù)gps信號記錄情況分兩種情形識別出行端點。在gps信號記錄正常時,出行端點處的軌跡點會有點聚集的特征,使用k均值聚類法識別此類端點;還有一種端點發(fā)生在短暫的接送人情形下,可以通過計算軌跡點的方向變化以及路段重復(fù)長度識別。
gps信號正常記錄:
1)運用k均值聚類法識別可能的出行端點。定義一個簇并給定簇內(nèi)最少的點數(shù)m=5個和聚類半徑d=10米,判斷該簇中位點和簇外下一點之間的距離,如果小于d/2,則將該點加入簇中,否則結(jié)束該簇,直到所有的點都被遍歷到,最終建立的各簇即為可能的出行端點。每一個簇的時間差至少為2分鐘,否則作為偽端點并去除;
2)方向發(fā)生180度的改變,且重復(fù)路段長度超過50米,即識別為接送人的出行端點。
gps信號缺失:缺失段時間差超過2分鐘,且缺失段平均速度(缺失段長度與時間差的比值)小于步行速度最小值0.5m/s,即識別為出行端點。三、合并出行段
第二步得到的出行端點即活動發(fā)生點,去除活動范圍小于50米的出行端點,得到所有的出行端點,合并各出行端點之間的出行段;
根據(jù)傳統(tǒng)交通意義上出行的定義,各出行段須滿足:出行段長度大于400米,出行時間超過5分鐘,否則該出行段并入上一出行段。
實例驗證:
實驗共搜集到125名上海地區(qū)用戶上傳的有效gps軌跡數(shù)據(jù),包括841人·天的2793492個gps軌跡點。其中,共有7.4%的無效gps軌跡點在數(shù)據(jù)清洗和預(yù)處理中被剔除,識別的整體正確率達到98.08%,錯誤率僅為3.22%;共有89個出行段被合并。出行段屬性方面,識別的平均出行時長比真實值少88秒(4.3%);對應(yīng)地,平均出行距離比真實出行距離少336米(3.0%)。由此可見,利用本發(fā)明所述方法基于gps軌跡數(shù)據(jù)可以實現(xiàn)出行段的精準(zhǔn)識別。
表1
表2
以上實施例為本申請的優(yōu)選實施例,本領(lǐng)域的普通技術(shù)人員還可以在此基礎(chǔ)上進行各種變換或改進,在不脫離本申請總的構(gòu)思的前提下,這些變換或改進都應(yīng)當(dāng)屬于本申請要求保護的范圍之內(nèi)。