基于離群點(diǎn)分析算法的套牌車快速甄別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于套牌車快速辨析技術(shù)領(lǐng)域,具體涉及一種基于離群點(diǎn)分析算法的套牌 車快速甄別方法。
【背景技術(shù)】
[0002] 套牌車是指未在交管部門辦理牌照領(lǐng)取手續(xù),偽造、冒用他人的合法車牌和行駛 執(zhí)照,以逃避違章、肇事和交納相關(guān)費(fèi)用責(zé)任的車輛。套牌車的存在不僅嚴(yán)重侵害合法車主 利益、破壞交通安全管理秩序,而且造成國家稅費(fèi)大量流失,更可能被不法分子用來從事飆 車、搶劫和販毒等違法犯罪活動。由于套牌車具有很強(qiáng)的隱蔽性,給警方偵破案件增加了難 度,給人們的日常生活帶來諸多不安全因素,嚴(yán)重擾亂了社會治安。目前對套牌車應(yīng)對方法 大多停留在人工排查、他人舉報等階段,耗時耗力卻收效甚微,致使套牌車屢禁不止、愈演 愈烈,故研究一種高效率、自動化、易推廣的套牌車檢測方法已迫在眉睫。
[0003] 隨著計(jì)算機(jī)和通信技術(shù)的發(fā)展,研發(fā)人員已經(jīng)設(shè)計(jì)出了一些套牌車識別方案;其 中基于RFID技術(shù)的套牌車檢測方法可在一定程度上解決套牌車問題。該方法需在車輛上安 裝不可拆卸且具備唯一身份的電子標(biāo)簽讀寫器,利用在值勤崗哨或者公安卡口上對應(yīng)的讀 取設(shè)備進(jìn)行信息讀取,從而進(jìn)行相應(yīng)車牌的辨識效果。上述方式顯然對于投入成本的要求 過高,難以快速推廣。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的為克服上述現(xiàn)有技術(shù)的不足,提供一種更為高效快捷的基于離群點(diǎn) 分析算法的套牌車快速甄別方法;其利用"同一輛車在一定的時間范圍內(nèi),不可能在兩個不 同地點(diǎn)都出行過"的原理,通過求得套牌車的參考速度值,并以此來快速辨識套牌車,不受 車輛外觀影響,具有很強(qiáng)的實(shí)用性。
[0005] 為實(shí)現(xiàn)上述目的,本發(fā)明采用了以下技術(shù)方案:
[0006] -種基于離群點(diǎn)分析算法的套牌車快速甄別方法,其特征在于包括以下步驟:
[0007] 1 )、選取套牌車樣本,建立套牌車樣本的車牌號集合;
[0008] 2)、根據(jù)套牌車樣本車牌號,在大數(shù)據(jù)平臺上檢索出各樣本車輛的過車數(shù)據(jù);
[0009] 3)、對檢索出來的過車數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清洗、特征轉(zhuǎn)換、歸一化處 理,之后進(jìn)入下一步驟;
[0010] 4)、采用離群點(diǎn)分析算法對上述數(shù)據(jù)預(yù)處理后的過車數(shù)據(jù)進(jìn)行分析,具體包括:
[0011] 4a、對于經(jīng)過3)步驟預(yù)處理之后的數(shù)據(jù),計(jì)算每輛套牌車樣本的每條過車數(shù)據(jù)與 該輛車其他所有過車數(shù)據(jù)的歐幾里得距離;
[0012] 4b、對上述的歐幾里得距離按從小到大的順序進(jìn)行排序,計(jì)算該條過車數(shù)據(jù)的第k 距離和第k領(lǐng)域,進(jìn)而得到該過車數(shù)據(jù)所對應(yīng)的可達(dá)距離;
[0013] 4c、計(jì)算每條過車數(shù)據(jù)第k領(lǐng)域內(nèi)所有過車數(shù)據(jù)可達(dá)距離的平均值,得到該輛車各 過車數(shù)據(jù)的可達(dá)密度;
[0014] 4d、由過車數(shù)據(jù)的可達(dá)密度,獲得所有過車數(shù)據(jù)的局部離群點(diǎn)因子。
[0015] 4e、將所有過車數(shù)據(jù)的局部離群點(diǎn)因子按從大到小的順序進(jìn)行排序,根據(jù)各局部 離群點(diǎn)因子所對應(yīng)的該車輛經(jīng)煒度坐標(biāo)和時間值,通過速度計(jì)算公式,獲得作為套牌車的 所有車輛的各速度值;以上述各速度值中的最小值為套牌車的參考速度值;
[0016] 5)、將上述參考速度值作為基準(zhǔn)值輸入套牌車辨識系統(tǒng);當(dāng)需辨識車輛在不同經(jīng) 煒度坐標(biāo)的任意兩點(diǎn)出現(xiàn),根據(jù)該兩點(diǎn)出現(xiàn)的時間值差異而計(jì)算出該需辨識車輛的平均行 駛速度,此時套牌車辨識系統(tǒng)進(jìn)行以下判斷并獲得判定結(jié)果:
[0017]當(dāng)該需辨識車輛的平均行駛速度大于或等于上述參考速度值時,該車輛車牌號為 套牌,可通知相應(yīng)部門處理;
[0018] 當(dāng)該需辨識車輛的平均行駛速度小于上述參考速度值時,該車輛為普通車輛。
[0019] 2、所述步驟1)中,套牌車樣本包括黃牌車和藍(lán)牌車;從卡口系統(tǒng)中查詢出黃牌與 藍(lán)牌號碼相同的車牌號碼集合作為套牌車樣本車輛集合。
[0020] 3、所訴步驟2)中,將套牌車樣本車牌號集合輸入HBase數(shù)據(jù)庫中進(jìn)行過車數(shù)據(jù)檢 索,并通過MapReduce獲取存儲在HBase數(shù)據(jù)庫中的數(shù)據(jù)。
[0021] 4、所述步驟3)中,
[0022] 所述數(shù)據(jù)清洗步驟為:將非結(jié)構(gòu)化的數(shù)據(jù)的格式進(jìn)行標(biāo)準(zhǔn)化處理,并將有缺失或 者錯誤的數(shù)據(jù)刪除;
[0023] 所述特征轉(zhuǎn)換步驟為:將非數(shù)字型特征屬性值轉(zhuǎn)換為數(shù)字型特征屬性值,該非數(shù) 字型特征屬性值至少包括某車輛經(jīng)過某卡口所對應(yīng)的時間和該卡口編號。
[0024]所述步驟4b中,將車輛某條過車數(shù)據(jù)與其他過車數(shù)據(jù)的歐幾里得距離按從小到大 的順序進(jìn)行排序后,取第k個值作為該過車數(shù)據(jù)的第k距離,以此過車數(shù)據(jù)為中心,以第k距 離值為半徑的空間區(qū)域?yàn)樵撨^車數(shù)據(jù)的第k領(lǐng)域。
[0025]所述步驟4c中,將某條過車數(shù)據(jù)與第k領(lǐng)域中其他過車數(shù)據(jù)的歐幾里得距離,同他 們各自的第k距離比較,取比較后的最大值作為第k領(lǐng)域內(nèi)該條過車數(shù)據(jù)所對應(yīng)的可達(dá)距 離;通過求得每條過車數(shù)據(jù)第k領(lǐng)域內(nèi)所有過車數(shù)據(jù)可達(dá)距離的平均值,對此平均值求倒 數(shù),即得到各過車數(shù)據(jù)的可達(dá)密度。
[0026]所述步驟4d中,通過計(jì)算得到某條過車數(shù)據(jù)第k領(lǐng)域內(nèi)所有過車數(shù)據(jù)可達(dá)密度與 該條過車數(shù)據(jù)的可達(dá)密度之比,獲得所有比值的平均值;對該平均值求倒數(shù),即得到各過車 數(shù)據(jù)的局部離群因子;具體計(jì)算公式為:
[0027]
[0028]其中:LOF(p)為p點(diǎn)的局部離群因子,s為屬于p點(diǎn)第k領(lǐng)域的點(diǎn),P(s)為s點(diǎn)的可達(dá) 密度值,P (P)為P點(diǎn)的可達(dá)密度值,N( p)為p點(diǎn)的第k領(lǐng)域。
[0029] 將所有過車數(shù)據(jù)的局部離群因子大于所設(shè)定的基準(zhǔn)閾值的過車數(shù)據(jù)按離群因子 從大到小的順序排列,這些點(diǎn)即為所要求得的局部離群點(diǎn)因子,所述基準(zhǔn)閾值的取值范圍 0 · 8至0 · 9〇
[0030] 本發(fā)明的有益效果在于:
[0031] 1)、有別于傳統(tǒng)的必須主動安裝相應(yīng)不可拆卸且價格高昂的電子標(biāo)簽讀寫器所帶 來的諸多缺陷,本發(fā)明首先確定套牌車樣本車牌號集合,根據(jù)套牌車樣本車牌號,在大數(shù)據(jù) 平臺上檢索出樣本車輛的過車數(shù)據(jù),然后對檢索出來的過車數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;然后將 數(shù)據(jù)預(yù)處理后的過車數(shù)據(jù)采用離群點(diǎn)分析算法進(jìn)行挖掘分析,并對結(jié)果進(jìn)行統(tǒng)計(jì)分析,確 定套牌車識別系統(tǒng)的參考速度值,最終將該值傳送給套牌車識別系統(tǒng)進(jìn)行相應(yīng)辨識。上述 整個分析過程自發(fā)進(jìn)行,最大限度的減少了人為因素對最終參考速度值確定的影響。同時, 由于本發(fā)明將非套牌車與套牌車速度分界值作為套牌車的參考速度值,大大的提升了套牌 車識別系統(tǒng)的識別精度和識別速度,其實(shí)用性極高。
【附圖說明】
[0032]圖1為套牌車參考速度值的獲取流程圖;
[0033]圖2為本發(fā)明的數(shù)據(jù)預(yù)處理流程圖;
[0034]圖3為本發(fā)明的離群點(diǎn)分析方法流程圖。
【具體實(shí)施方式】
[0035]為便于理解,此處結(jié)合附圖1-3對本發(fā)明的具體工作流程作以下描述:
[0036] 實(shí)際上,本發(fā)明的核心部分,是基于"同一輛車在一定的時間范圍內(nèi),不可能在兩 個不同地點(diǎn)都出行過"的原理來保證的。通過卡口系統(tǒng),極端情況下,如果同一時間在不同 經(jīng)煒度坐標(biāo),某兩輛車同時被卡口系統(tǒng)所捕捉到,且該兩輛車均為同一車牌號,那么理論上 該車輛的行駛速度趨近無窮大,而這在實(shí)際生活中是不可能出現(xiàn)的。正是基于上述論點(diǎn),本 發(fā)明通過采用離群點(diǎn)分析算法,以計(jì)算鎖定來獲得局部離群點(diǎn),也即異常點(diǎn),該異常點(diǎn)也即 以上述不可能的行駛速度行駛的套牌車數(shù)據(jù)。通過該異常點(diǎn)的數(shù)據(jù)計(jì)算,進(jìn)而獲得上述參 考速度值。而參考速度值最小的也都必然是不可能出現(xiàn)的行駛速度,因此再以最小值作為 后續(xù)的套牌車辨識系統(tǒng)的判斷基準(zhǔn),進(jìn)而實(shí)現(xiàn)上述套牌車快速辨識目的。
[0037] 本發(fā)明具體操作時,包括:首先,確定套牌車樣本車牌號集合。其次,根據(jù)套牌車樣 本車牌號,在大數(shù)據(jù)平臺上檢索出樣本車輛的過車數(shù)據(jù),然后對檢索出來的過車數(shù)據(jù)進(jìn)行 數(shù)據(jù)清洗、特征轉(zhuǎn)換、歸一化的數(shù)據(jù)預(yù)處理。最后,將數(shù)據(jù)預(yù)處理后的過車數(shù)據(jù)采用離群點(diǎn) 分析算法進(jìn)行挖掘分析,并對結(jié)果進(jìn)行統(tǒng)計(jì)分析,確定套牌車識別系統(tǒng)的參考速度值,并將 該值傳送給套牌車識別系統(tǒng)。
[0038] 實(shí)際操作中,如圖1所示,上述參考速度值的計(jì)算過程包括:根據(jù)黃牌與藍(lán)牌車牌 號碼可以相同的特征,從卡口系統(tǒng)中查詢出黃牌與藍(lán)牌號碼相同的車牌號碼集合作為套牌 車樣本車輛集合。在大數(shù)據(jù)平臺上檢索得到樣本車輛一段時間內(nèi)在卡口系統(tǒng)中采集到的過 車數(shù)據(jù),由于過車數(shù)據(jù)中存在一些缺失、錯誤的數(shù)據(jù),所以需對檢索出