uce計算作業(yè),輸入海量車 牌識別數據集,輸出結果是軌跡鏈表集合1,并傳遞給第二級流水線使用。
[0071] 所述的點伴隨計算步驟,用于獲得中間點伴隨結果集;該步驟利用所述的軌跡鏈 表集合1的第一級的計算結果,通過三級流水線的第二級完成,是另一個MapReduce作業(yè)的 實現(xiàn),輸入所述的軌跡鏈表結構1,輸出結果是軌跡鏈表集合2,并傳遞給第三級流水線使 用。
[0072] 所述的軌跡相似性判定步驟,用于計算車輛軌跡相似度,獲得具有相似軌跡的伴 隨車輛對;該步驟利用所述的軌跡鏈表集合2的第二級的計算結果,通過三級流水線的第 三級完成,是又一個MapReduce作業(yè)的實現(xiàn),輸入所述的軌跡鏈表結構2,輸出結果是軌跡 鏈表集合3,并最終寫入文件系統(tǒng)或數據庫。
[0073] 所述的海量車牌識別數據集用L表示,是指受測路網上各監(jiān)測點捕獲的所有車輛 信息數據;每條車牌識別數據I e L可表示為/?丨\其中Vi表示車牌號碼(可唯一標識 一個車輛),< 表示車輛Vi經過監(jiān)測點nk;進一步,4 其中表示車輛經過 的監(jiān)測點nk的地理位置,表示車輛經過監(jiān)測點nk的時間。
[0074] 所述的車輛軌跡用&表示,是車輛V在一個時間范圍內按時間順序經過的一組監(jiān) 測點序列;進一步,1^可以表不為:(:彳其中,對任意p〈q,有; 1^中包含的監(jiān)測點數目稱為軌跡的長度,記為I it)
[0075] 所述的點伴隨用simn(Vi, Vj)表示,是指兩個車輛vJP Vj在一定時間閾值δ t內先 后經過某監(jiān)測點\且其滿足以下條件的一種關系:|<乂 - ^式.在一定時間范圍內 ? 經過同一監(jiān)測點的兩個車輛在該監(jiān)測點僅可能存在一次點伴隨關系。
[0076] 方法通過軌跡相似度判定相似軌跡;軌跡相似度是指兩條車輛軌跡的相似程度, 用 SimDUi, tj)表示;
[0077] 進一步,iP = 其中1i和L分別為車輛i和車輛」軌跡長度,m 為所述兩輛車途經具有點伴隨關系的監(jiān)測點數目。
[0078] 所述的車輛軌跡&和車輛軌跡tj為相似軌跡,是指給定軌跡相似度閾值δ d、軌跡 長度閾值S i和在時間范圍dur內,t廊t肩同時滿足以下兩個條件的軌跡對:
[0079] (1)軌跡心和t」的相似度simD (t i,tj)彡δ d;
[0080] ⑵軌跡&和t」的軌跡長度I > δ p Ij彡δ p
[0081] 所述方法中獲取相似軌跡的計算,可以設定不同參數的閾值用于限定計算條件, 避免較短車輛軌跡作為相似軌跡的誤判,并對無效數據進行過濾;具體如下:
[0082] 假設給定點伴隨時間閾值St、軌跡相似度閾值Sd和軌跡長度閾值δ i,利用已有 車牌識別數據集L,找出在給定的時間范圍dur內所有符合所述定義的車輛相似軌跡集合 ST ;
[0083] 具體的,6丁 = 叫(.,/,.)仝4,/, \ O
[0084] 所述的第一級流水線MapReduce作業(yè)過程,對車輛軌跡長度小于給定軌跡長度閾 值的進行刪除,并進一步建立所有車輛的軌跡鏈表;具體的,可以進一步分解為以下兩步:
[0085] (I)Map任務從文件系統(tǒng)中分片讀取車牌識別數據,獲得給定時間范圍dur的車 牌識別數據;所述車牌識別數據按監(jiān)測時間劃分數據分片;所述Map任務將車牌識別數據 記錄轉換為以車牌號為鍵、以時間和監(jiān)測點為值的數據項;相同鍵的數據項將發(fā)送至同一 Reduce 任務;
[0086] (2)Reduce任務將車牌識別數據按車牌號組織為車輛軌跡鏈表,形成所述時間范 圍dur內的軌跡;所述Reduce任務對每個車輛軌跡鏈表判斷長度,刪除小于軌跡長度閾值 S i的鏈表,將其余符合條件的軌跡作為所述的軌跡鏈表集合1輸出。
[0087] 所述的第二級流水線MapReduce作業(yè)過程可以分為如下兩步:
[0088] (I)Map任務讀取第一級作業(yè)的結果,轉換為監(jiān)測點為鍵、監(jiān)測時間和車牌號為值 的數據項,傳遞給Reduce任務;相同鍵的數據項將發(fā)送至同一 Reduce任務;
[0089] (2)Reduce任務將同一監(jiān)測點的數據項組織為一個過車鏈表,形成數個所述的過 車鏈表;所述Reduce任務按照監(jiān)測時間先后排序和計算點伴隨,輸出滿足點伴隨關系的結 果數據項;所述結果數據項包含兩車的車牌號、伴隨時間范圍和各自軌跡長度。
[0090] 所述的點伴隨計算,是按如下方式進行的:
[0091] (1)獲取未處理的過車鏈表,從表頭開始獲取數據項1 ;
[0092] (2)若數據項1存在未掃描的后續(xù)數據項2,標記數據項2為已掃描,判斷兩個數 據項1和數據項2所含時間屬性之差是否小于時間閾值:如果滿足閾值,輸出數據項1包含 的車牌號1和數據項2包含的車牌號2組合為鍵,伴隨時間范圍為值,轉(2);如果不滿足 閾值,轉⑵;
[0093] (3)若數據項1不存在未掃描的后續(xù),如果數據項1不是所述鏈表最后一項,則將 數據項1的直接后續(xù)數據項標記為數據項1,轉(2);如果數據項1是所述鏈表最后一項,則 標記該鏈表已處理,轉(1)。
[0094] 所述的的第三級流水線MapReduce作業(yè)過程可以分為如下兩步:
[0095] (I)Map任務讀取第二級流水線MapReduce作業(yè)輸出的結果,車牌號組合相同數據 將發(fā)送至同一 Reduce任務處理;
[0096] (2)RedUCe任務對車牌號組合進行計數,也即形成兩輛的點伴隨關系計數;計算 所述兩輛車的軌跡相似度,輸出滿足相似度閾值的結果數據項;所述結果數據項,以所述兩 輛車的車牌號鍵,以伴隨時間范圍、點伴隨次數和軌跡相似度為值。
[0097] 實施例2
[0098] 結合圖2基本流程對相似軌跡挖掘流程進行說明。首先,讀取歷史車牌識別數據, 剔除無效冗余數據實現(xiàn)數據篩選;然后對篩選后的數據進行點伴隨關系計算,將點伴隨結 果寫入相似軌跡候選集;最后根據設定的閾值計算軌跡相似度,返回滿足條件的相似軌跡 及相關伴隨車輛。在圖2中,
[0099] Sl是歷史車牌識別數據,作為原始數據用于接下來的計算。經過第一級作業(yè)軌跡 組織與篩選的過程后,結果形成軌跡鏈表集合S2寫入裝置的數據存儲模塊。
[0100] S2是經歷了第一級作業(yè)的軌跡組織與篩選后的軌跡鏈表集合,是剔除無效冗余數 據后的車輛軌跡數據集。針對S2,裝置將經過第二級作業(yè)的計算,按監(jiān)測點劃分數據,并按 經過監(jiān)測點的時間先后排序,將監(jiān)測點相同的所有數據項組織到一個過車鏈表;從鏈表頭 結點開始,依次對比之后在時間范圍閾值內的所有數據項,并判斷是否具有點伴隨關系。計 算完成后形成S3,寫入裝置的數據存儲模塊。
[0101] S3是經歷了第二級作業(yè)的點伴隨關系計算后的結果,是相似軌跡候選集。針對S3 裝置將經過第三級作業(yè)計算軌跡相似度從而判斷軌跡相似性。這個過程中,對于S3提取車 牌對、時間范圍、點伴隨數目和軌跡長度等信息;通過車牌對,將兩個車牌號及車輛伴隨時 間存入鏈表。這個鏈表的每個數據項,記錄了兩輛車在指定時間范圍內在某個監(jiān)測點的一 次伴隨關系。之后,對每一記錄判斷相似度是否滿足之前設置的閾值,如果滿足閾值該記錄 將寫入裝置的數據存儲模塊。例如,下述輸出記錄,體現(xiàn)了兩輛車(京888888與京999999) 在2012年11月13日早上8點到10點的兩個小時內,在監(jiān)測點JNC88888存在一次伴隨關 系,各自的軌跡長度為12和15。
[0102] 〈京 888888,京 999999,〈2012-11-1308:00:00,2012-11-1310:00:00>,JNC88888, 12, 15>
[0103] S4是經歷了第三級作業(yè)的軌跡相似性判定后的結果,記錄了具有相似軌跡的兩輛 車。裝置將計算各個監(jiān)測點的不同車輛對的相似度,將滿足判斷閾值的結果寫入數據存儲 模塊。例如,下述輸出記錄,體現(xiàn)了兩輛車(京888888與京999999)在2012年11月13日 早上8點到10點的兩個小時內,點伴隨的次數為15個,軌跡相似程度為88%。
[0104] 〈京 888888,京 999999,〈2012-11-1308:00:00,2012-11-1310:00:00>,0· 88, 15>。
[0105] 實施例3
[0106] 第二級作業(yè)按如下方式組織車輛過車鏈表。假定某個監(jiān)測點獲取的車牌識別數 據,時間跨度從2012年11月13日0點至24點。該數據讀入第一級作業(yè)計算篩選去除冗余 后的軌跡鏈表集合,本發(fā)明所述方法提取每條數據中監(jiān)測點,車牌號,記錄時間等屬性項, 按經過監(jiān)測點的時間先后排序,針對每個監(jiān)測點形成在所述時間范圍內的過車鏈表。所述 某個監(jiān)測點鏈表結構如下述輸出記錄所示。
[0107] 〈監(jiān)測點ID〈車牌1,時間1,軌跡長度1 ;車牌2,時間2,軌跡長度2 車牌n, 時間n,軌跡長度n>>
[0108] 實施例4
[0109] 第二級作按圖3所示的流程計算點伴。其中,在指定時間范圍內的一對車輛i和j 若具有點伴隨關系,此時將伴隨車輛對的車牌號、各自軌跡長度、伴隨時間范圍作為中間結 果集寫入所述S3。
[0110] 實施例5
[0111] 具體的,第三級作業(yè)將第二級作業(yè)的結果按監(jiān)測點進行統(tǒng)計,計算所有車輛對的 所有點伴隨次數和兩車軌跡相似的時間范圍;隨后可計算所述兩車