亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于GPS軌跡數(shù)據(jù)的出行方式識(shí)別方法與流程

文檔序號(hào):12887672閱讀:1029來源:國知局
一種基于GPS軌跡數(shù)據(jù)的出行方式識(shí)別方法與流程

本發(fā)明涉及計(jì)算機(jī)識(shí)別技術(shù),尤其涉及一種基于gps軌跡數(shù)據(jù)的出行方式識(shí)別方法。



背景技術(shù):

隨著智能手機(jī)的普及和gps定位技術(shù)的發(fā)展,基于智能手機(jī)的gps出行調(diào)查得到了越來越多的關(guān)注,該方法可以彌補(bǔ)許多傳統(tǒng)居民出行調(diào)查中的不足,采集的數(shù)據(jù)精確、操作簡單、調(diào)查者負(fù)擔(dān)小等等。

采集到的gps軌跡數(shù)據(jù)需要經(jīng)過特定的算法處理才能得到出行研究所需的信息。出行方式的識(shí)別就是其中最為關(guān)鍵的一步。目前,許多研究者應(yīng)用gps、gis、gis+gps以及加速度計(jì)等數(shù)據(jù)來識(shí)別出行方式,使用的識(shí)別方法主要是基于規(guī)則和計(jì)算概率的方法。但由于gis數(shù)據(jù)在國內(nèi)比較難以獲取,并且在使用gis數(shù)據(jù)與gps軌跡匹配來識(shí)別出行方式如公交方式識(shí)別時(shí),計(jì)算復(fù)雜,效率低,識(shí)別效果不佳。基于規(guī)則的方法對數(shù)據(jù)的依賴性比較大,一旦數(shù)據(jù)來源發(fā)生變化,已取得的規(guī)則就不再適用,方法通用性較差;同時(shí)在進(jìn)行出行方式識(shí)別時(shí)缺少必要的特征參數(shù)選擇過程,可能存在相關(guān)的特征參數(shù)應(yīng)用于同一識(shí)別模型中發(fā)生過擬合進(jìn)而導(dǎo)致識(shí)別精度下降。



技術(shù)實(shí)現(xiàn)要素:

為解決上述技術(shù)問題,本發(fā)明的目的在于提供一種基于gps軌跡數(shù)據(jù)的出行方式識(shí)別方法。

本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:

根據(jù)gps信號(hào)分三種情況,gps信號(hào)缺失,gps信號(hào)不完整,gps信號(hào)

正常;

a.gps信號(hào)缺失,基于規(guī)則的地鐵單方式段出行的識(shí)別方法:

1)地鐵單方式段持續(xù)時(shí)間大于5分鐘;

2)gps軌跡點(diǎn)的最大速度小于地鐵最高速度;

3)地鐵單方式段的起點(diǎn)與最近的地鐵出入口之間的距離小于100米;

4)地鐵單方式段的終點(diǎn)與最近的地鐵出入口之間的距離小于200米;

b.gps信號(hào)不完整,基于規(guī)則的地鐵單方式段的識(shí)別方法:

1)滿足所述的gps信號(hào)缺失,基于規(guī)則的地鐵單方式段出行的識(shí)別方法的所有要求

2)除起點(diǎn)和終點(diǎn)外的所有g(shù)ps軌跡點(diǎn)與最近的地鐵線路之間的距離小于30米;

c.gps信號(hào)正常的其他出行方式采用隨機(jī)森林分類器,包括以下步驟:第一步、gps軌跡數(shù)據(jù)準(zhǔn)備:

采集的gps軌跡數(shù)據(jù)包括:用戶編號(hào)、定位日期、時(shí)間、經(jīng)度、緯度、速度、海拔、方向和定位衛(wèi)星數(shù),根據(jù)用戶編號(hào),gps軌跡數(shù)據(jù)按照時(shí)間順序分配到每個(gè)人每天的出行,即摘取每人每天的出行軌跡點(diǎn)并進(jìn)行相關(guān)參數(shù)的計(jì)算,

1)計(jì)算每個(gè)點(diǎn)瞬時(shí)速度;

2)計(jì)算每個(gè)點(diǎn)瞬時(shí)加速度;

3)計(jì)算每個(gè)點(diǎn)方向變化值;

4)計(jì)算特征參數(shù):計(jì)算每個(gè)單方式出行段的速度、加速度、方向變化和距離/出行時(shí)長4個(gè)方面的特征作為方式識(shí)別的輸入?yún)?shù);

第二步、特征參數(shù)篩選:

將第一步數(shù)據(jù)準(zhǔn)備步驟中得到的所有單方式出行段的22個(gè)特征參數(shù)作為全樣本輸入weka進(jìn)行參數(shù)篩選,使用不同的搜索方法和相應(yīng)的評價(jià)策略來停止搜索,直至找出使得全樣本出行方式分類最佳的組合,經(jīng)過特征參數(shù)選擇得到7個(gè)顯著特征參數(shù):出行距離,平均速度,50分位速度(s50),75分位速度(s75),95分位速度(s95),平均方向變化量和速度偏度。

第三步、隨機(jī)森林分類器出行方式識(shí)別:

按照第2步篩選的特征參數(shù)整理每個(gè)單方式出行段,這樣得到每個(gè)單方式出行段的特征參數(shù)集,使用wekaexplorer的分類功能,weka是一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。

系統(tǒng)隨機(jī)把所有樣本分為60%和40%兩部分,60%的樣本用于建模訓(xùn)練,40%的樣本用于驗(yàn)證測試。

建模訓(xùn)練:系統(tǒng)隨機(jī)選取的60%樣本的特征參數(shù)作為輸入,使用隨機(jī)森林分類器進(jìn)行模型創(chuàng)建,當(dāng)所有樣本訓(xùn)練達(dá)到要求后程序自動(dòng)停止,系統(tǒng)會(huì)自動(dòng)保存模型訓(xùn)練結(jié)果文件,建模訓(xùn)練工作完畢;

驗(yàn)證測試:系統(tǒng)隨機(jī)選取的另外40%的樣本進(jìn)行驗(yàn)證測試,調(diào)用保存的建模訓(xùn)練結(jié)果文件,輸入該40%的樣本,由隨機(jī)森林分類器進(jìn)行出行方式的識(shí)別并保存結(jié)果;

驗(yàn)證測試的識(shí)別結(jié)果會(huì)顯示在wekaexplorer結(jié)果輸出界面,包括模型的訓(xùn)練與測試用時(shí)、整體識(shí)別正確率、各方式識(shí)別混淆矩陣表。

進(jìn)一步的,第二步所述的搜索方法分別使用可回溯的貪婪搜索擴(kuò)張bestfirst、向前或向后的單步搜索greedystepwise以及屬性判據(jù)值排序法ranker;

進(jìn)一步的,第二步所述的所述的評估策略分別使用cfssubseteval根據(jù)屬性子集中每一個(gè)特征的預(yù)測能力以及它們之間的關(guān)聯(lián)性進(jìn)行評估、wrappersubseteval使用一種學(xué)習(xí)模式對屬性集進(jìn)行評估、wrappersubseteva通過反復(fù)測試一個(gè)實(shí)例和其同類或不同類中最近的實(shí)例上的屬性值進(jìn)行評估、gainratioattributeeval根據(jù)與分類有關(guān)的每一個(gè)屬性的增益比進(jìn)行評估、infogainattributeeval根據(jù)與分類有關(guān)的每一個(gè)屬性的信息增益進(jìn)行評估;

使用以上3種搜索方法和對應(yīng)的5種評估策略對全樣本進(jìn)行特征參數(shù)篩選,若評價(jià)函數(shù)最優(yōu),則停止篩選,否則繼續(xù),直到找出最優(yōu)的參數(shù)組合使得評價(jià)函數(shù)最優(yōu),按照整體分類識(shí)別率最高的一組,該組所選參數(shù)即為第3步方式識(shí)別的輸入?yún)?shù)。

進(jìn)一步的,gps軌跡點(diǎn)記錄間隔為1個(gè)/秒。

進(jìn)一步的,通過速度可以將步行出行段識(shí)別出來,95分位速度(s95)可以將出行方式分成3個(gè)類別:步行、自行車與電動(dòng)車、小汽車和公交車;出行距離(dist)可以將出行方式分成3個(gè)類別:步行與自行車、電動(dòng)車和公交車、小汽車,所以小汽車出行方式可以通過出行距離識(shí)別出來;平均方向變化量可以將步行與自行車與其他3類方式區(qū)分開;速度偏度可以將自行車方式段識(shí)別出來;剩下的電動(dòng)車與公交車可以通過95分位速度區(qū)分開(公交車的95分位速度高于電動(dòng)車),識(shí)別各出行方式時(shí)如果使用單一參數(shù)存在混淆或模糊時(shí)可以結(jié)合其他特征參數(shù)運(yùn)用之前學(xué)習(xí)過程建立的模型進(jìn)行綜合判斷。

相比現(xiàn)有技術(shù),本發(fā)明具有如下有益效果:

本發(fā)明提出的基于gps軌跡數(shù)據(jù)的出行方式識(shí)別方法有效地將各種方式精準(zhǔn)分類,識(shí)別精度高,方式分類細(xì),可以很好地與gps軌跡數(shù)據(jù)結(jié)合,算法實(shí)現(xiàn)簡單。

數(shù)據(jù)方面,不依賴其他數(shù)據(jù)源(如gis數(shù)據(jù)、加速度計(jì)數(shù)據(jù)等);特征參數(shù)方面,提出4類與方式識(shí)別相關(guān)的特征共22個(gè)參數(shù);數(shù)據(jù)準(zhǔn)備方面,提出了特征參數(shù)篩選,防止相關(guān)參數(shù)過擬合或參數(shù)不顯著導(dǎo)致識(shí)別精度下降;算法方面,應(yīng)用隨機(jī)森林分類器進(jìn)行出行方式識(shí)別,隨機(jī)森林分類器可以處理高維離散(或連續(xù)的)數(shù)據(jù),適合本發(fā)明出行數(shù)據(jù)類型,計(jì)算速度快,易于實(shí)現(xiàn);識(shí)別結(jié)果方面,方式分類細(xì)致,識(shí)別精度高。

該方法不受gps數(shù)據(jù)限制,通用性高,識(shí)別結(jié)果準(zhǔn)確可靠,適用于基于gps軌跡數(shù)據(jù)的出行方式識(shí)別,有利于推動(dòng)基于智能手機(jī)的出行調(diào)查的大規(guī)模推廣。

附圖說明

圖1出行方式識(shí)別流程圖

圖2出行方式平均速度圖

圖3出行方式50分位速度圖

圖4出行方式75分位速度圖

圖5出行方式95分位速度圖

圖6出行方式出行距離圖

圖7出行方式平均方向變化量圖

圖8出行方式速度偏度圖

圖9出行方式分類結(jié)果散點(diǎn)圖

具體實(shí)施方式

下面對本發(fā)明的實(shí)施例作詳細(xì)說明,本實(shí)施例以本發(fā)明的技術(shù)方案為依據(jù)開展,給出了詳細(xì)的實(shí)施方式和具體的操作過程。

本發(fā)明采用1)基于規(guī)則的地鐵出行識(shí)別;2)基于隨機(jī)森林分類器的其他方式識(shí)別。需要說明的是本發(fā)明所識(shí)別的出行方式的基本單位都是以單方式出行段,因?yàn)橐淮瓮暾饬x的出行可能使用包括不止一種出行方式。

基于規(guī)則的地鐵方式識(shí)別:

與公交網(wǎng)絡(luò)相比,地鐵網(wǎng)絡(luò)包括更少的線路和站點(diǎn)。而且,大部分的地鐵網(wǎng)絡(luò)與小汽車行駛的機(jī)動(dòng)車道并不重合。與其他出行方式相比,地鐵出行的gps信號(hào)質(zhì)量較差。在大部分情況下,由于位于地下或者金屬車身阻擋的緣故,整個(gè)地鐵出行都沒有或僅有少量的gps軌跡點(diǎn)。這些具有較強(qiáng)區(qū)分性的特征能減少地鐵出行與其他方式相混淆的可能性,因此,基于規(guī)則的方法是識(shí)別地鐵出行的合理方法。基于此,幾個(gè)比較有區(qū)分性的特征(如與最近地鐵線路/出入口的距離、信號(hào)質(zhì)量)被用來作為地鐵識(shí)別的顯著特征。在識(shí)別地鐵出行方式時(shí),考慮兩種場景,即gps信號(hào)缺失和不完整的gps信號(hào)。表1列出了兩種gps信號(hào)記錄情況下的地鐵單方式段識(shí)別規(guī)則:

表1

gps信號(hào)完全缺失一般發(fā)生在地鐵在地面以下運(yùn)行的情形中,這時(shí)需要匹配出行段起終點(diǎn)與最近的地鐵出入口的距離。用戶在進(jìn)入地鐵站點(diǎn)時(shí),gps信號(hào)是突然消失的,但是從站點(diǎn)出來時(shí),由于gps定位軟件的熱/冷啟動(dòng)原因,gps信號(hào)不會(huì)立即恢復(fù)。因此,規(guī)則4的距離應(yīng)該比規(guī)則3中的距離大。

當(dāng)用戶乘坐的地鐵在地面以上部分運(yùn)營時(shí),設(shè)備能斷斷續(xù)續(xù)記錄不完整的gps信號(hào),這時(shí)除了要滿足gps信號(hào)缺失情形下的4條規(guī)則以外,除起點(diǎn)和終點(diǎn)外的所有g(shù)ps軌跡點(diǎn)與最近的地鐵線路之間的距離小于30米。

基于隨機(jī)森林分類器的其他方式識(shí)別:

一、gps軌跡數(shù)據(jù)準(zhǔn)備

本發(fā)明采用基于智能手機(jī)的gps軌跡采集方法,通常采集的gps軌跡數(shù)據(jù)包括:用戶編號(hào)、定位日期、時(shí)間、經(jīng)度、緯度、速度、海拔、方向和定位衛(wèi)星數(shù)。

根據(jù)用戶編號(hào),gps軌跡數(shù)據(jù)按照時(shí)間順序分配到每個(gè)人每天的出行,即摘取每人每天的出行軌跡點(diǎn)并進(jìn)行相關(guān)參數(shù)的計(jì)算:

1、計(jì)算每個(gè)點(diǎn)瞬時(shí)速度:gps軌跡點(diǎn)記錄間隔為1個(gè)/秒,故第i個(gè)點(diǎn)的瞬時(shí)速度可用其相鄰出行段的距離與時(shí)間差值計(jì)算得出:vi=(disi-1,i+disi,i+1)/(timei+1-timei-1)。

其中,disi-1,i表示第i-1個(gè)軌跡點(diǎn)與第i個(gè)軌跡點(diǎn)之間的距離,timei-1表示第i-1個(gè)軌跡點(diǎn)的時(shí)刻;

2、計(jì)算每個(gè)點(diǎn)瞬時(shí)加速度:gps軌跡點(diǎn)記錄間隔為1個(gè)/秒,故第i個(gè)點(diǎn)的瞬時(shí)加速度可用其相鄰點(diǎn)的速度差與時(shí)間差近似計(jì)算得出:ai=(vi+1-vi-1)/(timei+1-timei-1);

3、計(jì)算每個(gè)點(diǎn)方向變化值:每個(gè)軌跡點(diǎn)的方向值與前一點(diǎn)方向值的差值即為該點(diǎn)的方向變化值,即:δoi=(oi-oi-1),其中,δoi為第i個(gè)點(diǎn)的方向變化值,oi為第i點(diǎn)的方向值;

4、計(jì)算特征參數(shù)。

依據(jù)之前的出行日志記錄,摘取出每人每天的單方式出行段。按照出行日志記錄的單方式出行段的時(shí)間截取對應(yīng)的gps軌跡點(diǎn)。這樣就得到每個(gè)單方式出行段的gps軌跡點(diǎn),根據(jù)相關(guān)研究和文獻(xiàn)閱讀,計(jì)算每個(gè)單方式出行段的速度、加速度、方向變化和距離/出行時(shí)長等4個(gè)方面的特征作為方式識(shí)別的輸入?yún)?shù):

速度:計(jì)算每個(gè)單方式出行段中所有g(shù)ps軌跡點(diǎn)的瞬時(shí)速度,接著分別計(jì)算得到如下速度相關(guān)的參數(shù):

平均速度,速度方差,25分位速度(s25),50分位速度(s50),75分位速度(s75),95分位速度(s95),速度四分位距,速度偏度,速度峰度,以及瞬時(shí)速度值在以下區(qū)間的gps軌跡點(diǎn)占該單方式出行段中所有軌跡點(diǎn)的比例:低于0.5m/s,低于1m/s,低于1.5m/s,低于2m/s;

加速度:計(jì)算每個(gè)單方式出行段中所有g(shù)ps軌跡點(diǎn)的瞬時(shí)加速度,接著分別計(jì)算得到如下與加速度相關(guān)的參數(shù):平均加速度,95分位加速度(a95),加速度方差,加速度偏度,加速度峰度;

方向變化:根據(jù)每個(gè)點(diǎn)的方向變化值,計(jì)算得到最大方向變化值和平均方向變化值;

距離/時(shí)長:統(tǒng)計(jì)每個(gè)單方式出行段距離和出行段時(shí)長。

二、特征參數(shù)篩選

將第一步數(shù)據(jù)準(zhǔn)備步驟中得到的所有單方式出行段的22個(gè)特征參數(shù)作為全樣本輸入weka進(jìn)行參數(shù)篩選。使用不同的搜索方法和相應(yīng)的評價(jià)

策略對全樣本進(jìn)行特征參數(shù)篩選。若評價(jià)函數(shù)最優(yōu),則停止篩選,否則繼續(xù),直到找出最優(yōu)的參數(shù)組合使得評價(jià)函數(shù)最優(yōu)。經(jīng)過特征參數(shù)選擇得到7個(gè)顯著特征參數(shù):出行距離,平均速度,50分位速度(s50),75分位速度(s75),95分位速度(s95),平均方向變化量和速度偏度。

按照整體分類識(shí)別率最高的一組,該組所選參數(shù)即為第3步方式識(shí)別的輸入?yún)?shù)。

三、出行方式識(shí)別

按照第2步篩選的特征參數(shù)整理每個(gè)單方式出行段,這樣得到每個(gè)單方式出行段的特征參數(shù)集。接下來使用wekaexplorer的分類功能,系統(tǒng)隨機(jī)把所有樣本分為60%和40%兩部分,60%的樣本用于建模訓(xùn)練,40%的樣本用于驗(yàn)證測試。

建模訓(xùn)練:系統(tǒng)隨機(jī)選取的60%樣本的特征參數(shù)作為輸入,使用隨機(jī)森林分類器進(jìn)行模型創(chuàng)建,當(dāng)所有樣本訓(xùn)練達(dá)到要求后程序自動(dòng)停止,系統(tǒng)會(huì)自動(dòng)保存模型訓(xùn)練結(jié)果文件,建模訓(xùn)練工作完畢;

驗(yàn)證測試:系統(tǒng)隨機(jī)選取的另外40%的樣本進(jìn)行驗(yàn)證測試,調(diào)用保存的建模訓(xùn)練結(jié)果文件,輸入該40%的樣本,由隨機(jī)森林分類器進(jìn)行出行方式的識(shí)別并保存結(jié)果;

驗(yàn)證測試的識(shí)別結(jié)果會(huì)顯示在wekaexplorer結(jié)果輸出界面,包括模型的訓(xùn)練與測試用時(shí)、整體識(shí)別正確率、各方式識(shí)別混淆矩陣表。

實(shí)例驗(yàn)證:

實(shí)驗(yàn)共采集到2285條上海地區(qū)的出行段gps軌跡數(shù)據(jù),其中有1162段步行,188段自行車,61段電動(dòng)車,323段公交車和551段小汽車出行段。經(jīng)過特征參數(shù)選擇得到7個(gè)顯著特征參數(shù):出行距離,平均速度,50分位速度(s50),75分位速度(s75),95分位速度(s95),平均方向變化量和速度偏度。

圖2~8為5種出行方式的顯著特征參數(shù)分布箱圖,圖2~5四個(gè)速度相關(guān)的參數(shù)分布模式相似,步行、自行車、電動(dòng)車、公交車與小汽車的相關(guān)速度值逐漸升高,其中步行的相關(guān)速度明顯低于其他方式,所以通過速度可以將步行出行段識(shí)別出來;圖5中95分位速度(s95)可以將出行方式分成3個(gè)類別:步行、自行車與電動(dòng)車、小汽車和公交車;圖6出行距離(dist)可以將出行方式分成3個(gè)類別:步行與自行車、電動(dòng)車和公交車、小汽車,所以小汽車出行方式可以通過出行距離識(shí)別出來;圖7平均方向變化量可以將步行與自行車與其他3類方式區(qū)分開;圖8速度偏度可以將自行車方式段識(shí)別出來;剩下的電動(dòng)車與公交車可以通過95分位速度區(qū)分開(公交車的95分位速度高于電動(dòng)車),識(shí)別各出行方式時(shí)如果使用單一參數(shù)存在混淆或模糊時(shí)可以結(jié)合其他特征參數(shù)運(yùn)用之前學(xué)習(xí)過程建立的模型進(jìn)行綜合判斷。

按照60%和40%的比例分別進(jìn)行建模與驗(yàn)證測試。表2為驗(yàn)證識(shí)別的914個(gè)出行方式識(shí)別結(jié)果混淆矩陣。從識(shí)別結(jié)果來看,464例步行中,其中有463個(gè)正確識(shí)別,僅有1個(gè)識(shí)別為自行車。

表2

圖9為出行段識(shí)別散點(diǎn)圖,縱坐標(biāo)是真實(shí)的出行方式,橫坐標(biāo)是識(shí)別的出行方式,對角線方向?yàn)檎_識(shí)別的方式。

以上實(shí)施例為本申請的優(yōu)選實(shí)施例,本領(lǐng)域的普通技術(shù)人員還可以在此基礎(chǔ)上進(jìn)行各種變換或改進(jìn),在不脫離本申請總的構(gòu)思的前提下,這些變換或改進(jìn)都應(yīng)當(dāng)屬于本申請要求保護(hù)的范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1