1.一種基于移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)的人員出行鏈識(shí)別方法,其特征在于所述識(shí)別方法包括以下步驟:
(步驟1)選取待識(shí)別手機(jī)用戶的移動(dòng)網(wǎng)絡(luò)數(shù)據(jù),包括用戶ID、時(shí)間戳、基站ID、基站經(jīng)緯度;
(步驟2)基于DBSCAN空間聚類方法,對(duì)所述手機(jī)用戶的移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行空間聚類分簇,得到空間聚類分簇后的用戶位置數(shù)據(jù),包括用戶ID、時(shí)間戳、基站經(jīng)緯度、聚類簇編號(hào);
(步驟3)將用戶位置數(shù)據(jù)中的位置點(diǎn)按照時(shí)間戳進(jìn)行升序排序,按順序計(jì)算時(shí)間相鄰的不同位置點(diǎn)間的距離和速度,判定速度是否處于速度閾值[a,b]范圍內(nèi),若是則表明位置點(diǎn)數(shù)據(jù)合理,若否則舍棄該位置點(diǎn),其中,a、b分別表示速度閾值下限和速度閾值上限;繼續(xù)下一相鄰位置點(diǎn)的判定,直至完成所有位置點(diǎn)的判定;隨后對(duì)于聚類簇編號(hào)來回切換的位置點(diǎn)進(jìn)行篩選,篩選之后的用戶位置數(shù)據(jù)沿用原聚類簇編號(hào),包括用戶ID、時(shí)間戳、基站經(jīng)緯度、聚類簇編號(hào);
(步驟4)對(duì)于每一聚類簇位置點(diǎn)集合,以相同位置的出現(xiàn)次數(shù)為權(quán)重選取重心位置作為該聚類簇的位置代表點(diǎn),并選取該聚類簇的時(shí)間上第一條記錄的時(shí)刻作為起始時(shí)刻、最后一條記錄的時(shí)刻作為終止時(shí)刻,生成所述手機(jī)用戶的位置序列數(shù)據(jù),包括用戶ID、起始時(shí)刻、終止時(shí)刻、位置代表點(diǎn)的經(jīng)緯度;
(步驟5)將所述手機(jī)用戶的位置序列數(shù)據(jù)中位置代表點(diǎn)的經(jīng)緯度與土體利用數(shù)據(jù)進(jìn)行空間關(guān)聯(lián),生成所述手機(jī)用戶含有土地利用性質(zhì)的位置序列數(shù)據(jù),包括用戶ID、起始時(shí)刻、終止時(shí)刻、位置代表點(diǎn)的經(jīng)緯度、土地利用類型;
(步驟6)根據(jù)位置序列數(shù)據(jù)中的終止時(shí)刻與起始時(shí)刻之差計(jì)算獲得位置停留時(shí)間,根據(jù)停留時(shí)間和土地利用類型,判斷該位置點(diǎn)的位置狀態(tài),所述位置狀態(tài)是指停留或移動(dòng),生成所述手機(jī)用戶的出行軌跡數(shù)據(jù),包括用戶ID、起始時(shí)刻、終止時(shí)刻、代表點(diǎn)的經(jīng)緯度、土地利用類型、位置狀態(tài)。
2.根據(jù)權(quán)利要求1所述的一種基于移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)的人員出行鏈識(shí)別方法,其特征在于所述步驟(2)包括以下步驟:
(2.1)DBSCAN空間聚類算法中MinPts的確定,其中,MinPts是指以所述移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)中某一數(shù)據(jù)點(diǎn)為中心的鄰域內(nèi)最少點(diǎn)的數(shù)量;
(2.2)DBSCAN空間聚類算法中半徑Eps的確定,其中,半徑Eps是指以給定數(shù)據(jù)點(diǎn)為中心的圓形鄰域范圍;計(jì)算所述手機(jī)用戶每個(gè)數(shù)據(jù)點(diǎn)位置與其它所有數(shù)據(jù)點(diǎn)位置之間的歐幾里德距離,計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的k-距離值,并對(duì)所有數(shù)據(jù)點(diǎn)的k-距離值集合進(jìn)行升序排列,輸出排序后的k-距離值;
其中,k值對(duì)應(yīng)于MinPts,指:給定數(shù)據(jù)集P={p(i);i=0,1…n},對(duì)于任一點(diǎn)p(i),計(jì)算點(diǎn)p(i)到集合D的子集S={p(1),p(2),…,p(i-1),p(i+1),…,p(n)}中所有點(diǎn)之間的距離,距離按照從小到大的順序排列,假設(shè)排序后的距離集合為D={d(1),d(2),…,d(k-1),d(k),d(k+1),…,d(n)},d(k)就被成為k-距離;
將所有數(shù)據(jù)點(diǎn)的k-距離值使用散點(diǎn)圖進(jìn)行顯示,計(jì)算散點(diǎn)圖中所有相鄰數(shù)據(jù)點(diǎn)間連線所成的斜率的平均值,挑選所有大于4倍斜率平均值的斜率所對(duì)應(yīng)的k-距離,這些k-距離的平均值即為半徑Eps的值;
(2.3)DBSCAN空間聚類算法中核心點(diǎn)的計(jì)算:以點(diǎn)P為中心、半徑為Eps的鄰域內(nèi)的點(diǎn)的個(gè)數(shù)不少于MinPts,則稱點(diǎn)P為核心點(diǎn);根據(jù)Eps和MinPts,計(jì)算所有核心點(diǎn),并建立核心點(diǎn)與到核心點(diǎn)距離小于半徑Eps的點(diǎn)的映射,即為核心點(diǎn)集合;
(2.4)根據(jù)核心點(diǎn)集合以及半徑Eps的值,計(jì)算能夠連通的核心點(diǎn),將能夠連通的每一組核心點(diǎn)以及到核心點(diǎn)距離小于半徑Eps的點(diǎn),都放到一起形成一個(gè)聚類簇,并進(jìn)行聚類簇編號(hào)ClusterID(1,2,3…n)。
3.根據(jù)權(quán)利要求1所述的一種基于移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)的人員出行鏈識(shí)別方法,其特征在于DBSCAN空間聚類算法中MinPts取4。
4.根據(jù)權(quán)利要求1所述的一種基于移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)的人員出行鏈識(shí)別方法,其特征在于所述步驟(3)為:
(3.1)將聚類分簇后的用戶位置數(shù)據(jù)中的位置點(diǎn)記錄按照時(shí)間戳進(jìn)行升序排序,選取一條記錄,若此記錄為第一條記錄則進(jìn)入步驟3.2,若否則進(jìn)入步驟3.3;
(3.2)選取下一條記錄,進(jìn)入步驟3.3;
(3.3)判斷本記錄與上一條記錄的聚類簇編號(hào)是否相同,若相同則保留上一條記錄,并返回步驟3.2;若否則計(jì)算兩條記錄的距離和速度,若速度處于速度閾值[a,b]范圍之內(nèi),則保存本記錄,若否則舍棄本條記錄,進(jìn)入步驟3.4;
(3.4)判斷記錄是否遍歷完,若遍歷完則結(jié)束,若否則返回步驟3.2;直至遍歷完所有記錄,得到經(jīng)速度篩選后的用戶位置數(shù)據(jù);
(3.5)篩選聚類簇編號(hào)來回切換的位置點(diǎn),對(duì)于步驟(3.4)中得到的每一條記錄,判斷其之后10分鐘時(shí)間段內(nèi)是否有位置點(diǎn)的聚類簇編號(hào)來回切換大于或等于4次的,若有,則保留出現(xiàn)次數(shù)多的位置點(diǎn)數(shù)據(jù),刪除出現(xiàn)次數(shù)少的位置點(diǎn)數(shù)據(jù);若無,則判斷下一條記錄;直至遍歷完成所有記錄。
5.根據(jù)權(quán)利要求1所述的一種基于移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)的人員出行鏈識(shí)別方法,其特征在于所述步驟(4)包括以下步驟:
(4.1)以相同位置的出現(xiàn)次數(shù)為權(quán)重選取重心位置為位置代表點(diǎn),包括步驟:對(duì)于每一聚類簇位置集合,即當(dāng)聚類簇編號(hào)ClusterID=i時(shí),該聚類簇的位置點(diǎn)用(LONij,LATij)表示,其中,j=1,2,3,…,m,則該聚類簇位置集合的位置代表點(diǎn)的經(jīng)緯度為(CoreLongitudei, CoreLatitudei),其中,,,將該聚類簇上所有位置點(diǎn)的坐標(biāo)都變更為位置代表點(diǎn)的經(jīng)緯度(CoreLongitudei, CoreLatitudei);
(4.2)生成用戶位置序列數(shù)據(jù),包括以下步驟:
(4.2.1)將聚類簇上的位置點(diǎn)記錄按照時(shí)間戳生序排列,選取任一條記錄;
(4.2.2)判斷當(dāng)前記錄是否為第一條記錄,若為第一條記錄,則起始時(shí)刻為當(dāng)前記錄的時(shí)間,終止時(shí)刻為當(dāng)前記錄時(shí)刻,繼續(xù)選取下一條記錄;若非第一條記錄,則進(jìn)入步驟(4.2.3);
(4.2.3)判斷當(dāng)前記錄是否與前一條記錄的聚類簇編號(hào)相同,若相同,則更新終止時(shí)刻為當(dāng)前記錄的時(shí)間;若不相同,則當(dāng)前記錄為另一聚類簇位置數(shù)據(jù),則起始時(shí)刻為當(dāng)前記錄的時(shí)間,終止時(shí)刻為當(dāng)前記錄時(shí)刻;
(4.2.4)判斷數(shù)據(jù)是否遍歷完全,若遍歷未完全,則返回步驟(4.2.2);若遍歷完全則結(jié)束,生成用戶位置序列數(shù)據(jù),包括用戶ID、起始時(shí)刻、終止時(shí)刻、位置代表點(diǎn)的經(jīng)緯度。
6.根據(jù)權(quán)利要求1所述的一種基于移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)的人員出行鏈識(shí)別方法,其特征在于所述步驟(5)中所述土地利用類型分為9類,包括住宅用地、商業(yè)金融業(yè)用地、交通用地、公共建筑用地、工業(yè)或倉(cāng)儲(chǔ)用地、湖泊用地、市政用地、特殊用地、其它用地。
7.根據(jù)權(quán)利要求1所述的一種基于移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)的人員出行鏈識(shí)別方法,其特征在于所述步驟(6)包括以下步驟:根據(jù)位置序列數(shù)據(jù)中的終止時(shí)刻與起始時(shí)刻之差計(jì)算獲得位置停留時(shí)間,若停留時(shí)間小于1h,則位置狀態(tài)為移動(dòng);若停留時(shí)間大于1h且土地利用類型為交通用地或市政用地,則狀態(tài)為停留;若停留時(shí)間大于3h且土體利用類型為住宅用地或商業(yè)金融業(yè)用地或公共建筑用地,則狀態(tài)為停留;其它情況皆為移動(dòng);生成所述手機(jī)用戶的出行軌跡數(shù)據(jù),包括用戶ID、起始時(shí)刻、終止時(shí)刻、代表點(diǎn)的經(jīng)緯度、土地利用類型、位置狀態(tài)。