互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái)的制作方法
【專(zhuān)利摘要】一種互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái),對(duì)車(chē)輛駕駛行為、汽車(chē)行駛風(fēng)險(xiǎn)概率進(jìn)行分析,其中包括步驟一、通過(guò)大數(shù)據(jù)平臺(tái)存儲(chǔ)汽車(chē)一段時(shí)間內(nèi)的行駛數(shù)據(jù)并采用MapReduce框架對(duì)這些數(shù)據(jù)進(jìn)行處理和分析,步驟二、基于大數(shù)據(jù)平臺(tái)下對(duì)數(shù)據(jù)進(jìn)行處理過(guò)后統(tǒng)計(jì)出某個(gè)區(qū)域和時(shí)間段內(nèi)汽車(chē)非正常駕駛次數(shù),包括超速、超載、急加速急減速、疲勞駕駛、夜間行駛,步驟三、對(duì)非正常駕駛行為統(tǒng)計(jì)后,利用自組織映射神經(jīng)網(wǎng)絡(luò)算法計(jì)算車(chē)輛風(fēng)險(xiǎn)概率,并對(duì)后續(xù)車(chē)輛行駛風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。本發(fā)明通過(guò)采集車(chē)輛的北斗/GPS導(dǎo)航數(shù)據(jù),利用大數(shù)據(jù)平臺(tái)對(duì)采集的數(shù)據(jù)進(jìn)行預(yù)處理,在對(duì)數(shù)據(jù)進(jìn)一步數(shù)據(jù)挖掘,可以分析和判斷駕駛者的駕駛行為。
【專(zhuān)利說(shuō)明】
互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái)
技術(shù)領(lǐng)域:
[0001] 本發(fā)明涉及物理領(lǐng)域,尤其涉及數(shù)據(jù)的存儲(chǔ)與處理技術(shù),特別是一種互聯(lián)網(wǎng)+時(shí)代 下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái)。
【背景技術(shù)】:
[0002] 隨著信息化程度提高,生活中充滿著海量信息,在這些信息中有些與我們的生活 息息相關(guān),分析與挖掘它們可以為我們改善生活,服務(wù)公眾,提高社會(huì)信息化程度,為智慧 城市及信息化的動(dòng)態(tài)管理方案提供了新的契機(jī)。
[0003] 隨著道路行駛的車(chē)輛不斷增加,因人的違規(guī)駕駛導(dǎo)致人員財(cái)產(chǎn)損失的風(fēng)險(xiǎn)也在不 斷增加。不同地段區(qū)域內(nèi)車(chē)輛出現(xiàn)違規(guī)駕駛行為的風(fēng)險(xiǎn)也不同,所以不能將簡(jiǎn)單的將風(fēng)險(xiǎn) 平均,要因地而異。這就是需要考慮到汽車(chē)行駛的環(huán)境因素,所以首先要對(duì)汽車(chē)行駛區(qū)域進(jìn) 行劃分然后分析出每個(gè)區(qū)域內(nèi)的風(fēng)險(xiǎn)概率?,F(xiàn)有技術(shù)中,不能從生活中的海量信息分析車(chē) 輛駕駛行為。
【發(fā)明內(nèi)容】
:
[0004] 本發(fā)明的目的在于提供一種互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù) 平臺(tái),所述的這種互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái)要解決現(xiàn)有技 術(shù)中不能從生活中的海量信息分析車(chē)輛駕駛行為的技術(shù)問(wèn)題。
[0005] 本發(fā)明的這種互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái),包括對(duì) 車(chē)輛駕駛行為、汽車(chē)行駛風(fēng)險(xiǎn)概率進(jìn)行分析,其中包括以下步驟:
[0006] 步驟一、通過(guò)大數(shù)據(jù)平臺(tái)存儲(chǔ)汽車(chē)一段時(shí)間內(nèi)的行駛數(shù)據(jù)并采用MapReduce框架 對(duì)這些數(shù)據(jù)進(jìn)行處理和分析,
[0007] 步驟二、基于大數(shù)據(jù)平臺(tái)下對(duì)數(shù)據(jù)進(jìn)行處理過(guò)后統(tǒng)計(jì)出某個(gè)區(qū)域和時(shí)間段內(nèi)汽車(chē) 非正常駕駛次數(shù),包括超速、超載、急加速急減速、疲勞駕駛、夜間行駛,
[0008] 步驟三、對(duì)非正常駕駛行為統(tǒng)計(jì)后,利用自組織映射神經(jīng)網(wǎng)絡(luò)算法計(jì)算車(chē)輛風(fēng)險(xiǎn) 概率,并對(duì)后續(xù)車(chē)輛行駛風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。
[0009] 進(jìn)一步的,對(duì)汽車(chē)駕駛數(shù)據(jù)進(jìn)行處理分析,其中包括,第一步建立數(shù)據(jù)存儲(chǔ)層,主 要方案為基于Hadoop分布式文件系統(tǒng)(簡(jiǎn)稱(chēng)HDFS)存儲(chǔ)方案和基于HDFS+分布式面向列開(kāi)源 數(shù)據(jù)庫(kù)(簡(jiǎn)稱(chēng)HBase)技術(shù)存儲(chǔ)方案;第二步建立數(shù)據(jù)處理層,在數(shù)據(jù)處理層中采用大規(guī)模并 行計(jì)算框架MapReduce (簡(jiǎn)稱(chēng)MR)框架來(lái)處理原始數(shù)據(jù),第三步建立數(shù)據(jù)分析層,對(duì)數(shù)據(jù)進(jìn)一 步分析、建模和挖掘,第四步建立數(shù)據(jù)可視化,第五步建立安全層,為大數(shù)據(jù)平臺(tái)提供安全 保護(hù)系統(tǒng),對(duì)外提供統(tǒng)一的服務(wù)接口,用戶通過(guò)統(tǒng)一數(shù)據(jù)訪問(wèn)接口或統(tǒng)一門(mén)戶頁(yè)面來(lái)訪問(wèn) 大數(shù)據(jù)服務(wù)平臺(tái)。
[0010] 進(jìn)一步的,利用隱馬爾科夫算法找到車(chē)輛行駛的路網(wǎng)路段,并通過(guò)地圖數(shù)據(jù)找到 汽車(chē)行駛的路段信息,最后將定位數(shù)據(jù)中行駛速度輸入時(shí)空限速模型中,最終得出車(chē)輛是 否超速的判斷。
[0011] 進(jìn)一步的,利用大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)支持向量機(jī)的算法,其中包括,第一步、將原始數(shù) 據(jù)進(jìn)行標(biāo)準(zhǔn)化消除量綱的影響;第二步、通過(guò)原始數(shù)據(jù)中時(shí)間、速度和里程計(jì)算平均速度、 平均加速度和啟動(dòng)加速度,并作為訓(xùn)練樣本;第三步、將大量的訓(xùn)練樣本上傳到HDFS中并做 分塊,每個(gè)節(jié)點(diǎn)會(huì)啟動(dòng)HDFS的Map任務(wù)對(duì)塊中數(shù)據(jù)進(jìn)行序列最小優(yōu)化(簡(jiǎn)稱(chēng)SM0)訓(xùn)練算出每 個(gè)塊數(shù)據(jù)的支持向量,最后將各個(gè)節(jié)點(diǎn)訓(xùn)練處的支持向量輸入到HDFS的Reduce任務(wù)中交于 SM0算法訓(xùn)練得到最終的支持向量;第四步、利用第三步中的支持向量得到分類(lèi)器,并利用 分類(lèi)器對(duì)車(chē)輛是否超載進(jìn)行判別。
[0012] 進(jìn)一步的,建立大數(shù)據(jù)平臺(tái)下線性回歸模型,其中包括,第一步、利用大數(shù)據(jù)平臺(tái) 找到該路段內(nèi)所有汽車(chē)行駛的數(shù)據(jù),并計(jì)算出相鄰兩個(gè)數(shù)據(jù)之間速度差值;第二步、利用統(tǒng) 計(jì)線性回歸算法得到某段道路上汽車(chē)以某個(gè)起始車(chē)速V。和行駛至下一時(shí)刻車(chē)速變化量A v 為輸入,以汽車(chē)在該段時(shí)間內(nèi)行駛距離S為輸出,并統(tǒng)計(jì)該路段內(nèi)所有行駛汽車(chē)的數(shù)據(jù),第 三步、計(jì)算回歸方程,得到該路段內(nèi)汽車(chē)速度變化量和行駛距離的模型S = f(Av,v。),最 后利用該方程判別該汽車(chē)發(fā)生急加速和急減速的概率,判斷規(guī)則為第i量汽車(chē)的距離與模 型距離誤差e=| IS-S1! |越大則說(shuō)明汽車(chē)發(fā)生急加速和急減速概率越大,越小則說(shuō)明概率 越低。
[0013] 具體的,首先通過(guò)大數(shù)據(jù)平臺(tái)從原始數(shù)據(jù)中找出某個(gè)路段所有時(shí)間所有車(chē)輛的行 駛數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行處理得出相鄰兩點(diǎn)速度的差值,接著利用回歸分析方法得出回歸 模型。通過(guò)回歸模型得出汽車(chē)在該路段發(fā)生急加速和急減速的概率。設(shè)同一個(gè)路段上兩個(gè) 時(shí)間點(diǎn)的速度差為A v,汽車(chē)的每個(gè)時(shí)間點(diǎn)的初始速度為V。。因?yàn)槠?chē)在一段時(shí)間內(nèi)行駛距 離與速度差和初始速度成線性關(guān)系,所以可以該回歸模型為
[0014] S: = h0 + ^Αν +1)^0 ( 1)
[0015] 其中為變量Δν和VQ的偏回歸系數(shù)。
[0016] 通過(guò)訓(xùn)練數(shù)據(jù)和最小二乘原理得出偏回歸系數(shù)的值,并利用方差分析對(duì)得出的模 型進(jìn)行檢驗(yàn),最后根據(jù)e = |s-S|的大小得出汽車(chē)發(fā)生急加速和急減速的概率。其中S為汽車(chē) 實(shí)際的行駛距離,f為滿足回歸模型下的行駛距離。
[0017] 進(jìn)一步的,所述的計(jì)算車(chē)輛風(fēng)險(xiǎn)概率的步驟中包括,第一步度量風(fēng)險(xiǎn)概率,第二步 建立風(fēng)險(xiǎn)概率模型,首先對(duì)歷史數(shù)據(jù)進(jìn)行預(yù)處理,包括對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)得到1個(gè)簇即C n = {I1J2……Ιι}其中^是其中的一個(gè)簇,然后針對(duì)聚類(lèi)結(jié)果構(gòu)造預(yù)測(cè)模型包括求簇的平均 風(fēng)險(xiǎn)概率和特征向量與平均向量的相似系數(shù),接著對(duì)風(fēng)險(xiǎn)概率進(jìn)行預(yù)測(cè)。
[0018] 具體的,風(fēng)險(xiǎn)概率是風(fēng)險(xiǎn)發(fā)生可能性的百分比,是對(duì)事物狀態(tài)發(fā)生可能性的衡量。 汽車(chē)在同一區(qū)域內(nèi)行駛數(shù)據(jù)具有較高的相似性,不同區(qū)域內(nèi)行駛數(shù)據(jù)差別性比較大。以一 個(gè)區(qū)域?yàn)橐粋€(gè)簇,將汽車(chē)行駛數(shù)據(jù)按特征點(diǎn)進(jìn)行聚類(lèi),可以得到不同區(qū)域內(nèi)的行駛數(shù)據(jù)。每 一個(gè)特征點(diǎn)(特征向量)都與簇中的點(diǎn)有關(guān),并假設(shè)簇中第i個(gè)特征向量為XUieN),那么風(fēng) 險(xiǎn)概率可以表示為
[0020]其中| |Ν:(χ4 I I表示區(qū)域r中所有點(diǎn)的個(gè)數(shù),Nr#)為點(diǎn)xWr為半徑的領(lǐng)域。U(Nr (X1))為該簇中安全風(fēng)險(xiǎn)發(fā)生的次數(shù)。有(2)可以看出,風(fēng)險(xiǎn)概率就是該簇中所有點(diǎn)的平均 概率。也可以表示為
[0021] P(X')^s{X\X)xP,(X ) ( 3 )
[0022] 其中λ'(Α'叉)表示特征點(diǎn)X1與所有點(diǎn)的平均向量的相似度。
[0023]其中,風(fēng)險(xiǎn)概率預(yù)測(cè)模型確定包括三部分:
[0024]對(duì)歷史數(shù)據(jù)的預(yù)處理
[0025] (1)從歷史數(shù)據(jù)中抽象出數(shù)據(jù)屬性,在汽車(chē)駕駛行為數(shù)據(jù)包括車(chē)牌號(hào)、經(jīng)煒度、行 駛速度、行駛方向、行駛時(shí)間。
[0026] (2)對(duì)歷史數(shù)據(jù)進(jìn)行聚類(lèi)得到1個(gè)簇即(^={1^12……Ιι},其中是其中的一個(gè) 簇,假設(shè)簇中有k個(gè)特征向量即(={4,4....4卜其中^是簇中第」個(gè)特征向量。
[0027] 構(gòu)造預(yù)測(cè)模型
[0028]聚類(lèi)得到結(jié)果后對(duì)每個(gè)簇中的特征向量計(jì)算風(fēng)險(xiǎn)概率,步驟如下:
[0029] (1)計(jì)算簇Ii中平均風(fēng)險(xiǎn)概率。
[0031] 其中,|h|是簇I沖元素的個(gè)數(shù),如果表示的點(diǎn)為風(fēng)險(xiǎn)發(fā)生,那么£({') = 1否則 為〇〇
[0032] (2)計(jì)算簇中所有點(diǎn)的平均特征向量果
[0033] (3)計(jì)算簇中每個(gè)特征向量Z/與乂的相似系數(shù)sCZ/,兄)
[0034] (4)計(jì)算每個(gè)特征向量的風(fēng)險(xiǎn)概率P (λ'/)
[0035] 5.3風(fēng)險(xiǎn)概率預(yù)測(cè)
[0036] 計(jì)算得到風(fēng)險(xiǎn)概率模型之后就可以對(duì)新的汽車(chē)數(shù)據(jù)進(jìn)行預(yù)測(cè),步驟如下:
[0037] (1)對(duì)于新的汽車(chē)行駛數(shù)據(jù)乂1)進(jìn)行聚類(lèi)分析;
[0038] (2)-般聚類(lèi)后會(huì)將新的數(shù)據(jù)聚類(lèi)到某一簇中,然后計(jì)算該數(shù)據(jù)與平均向量筆的 相似系數(shù);
[0039] (3)那么新的數(shù)據(jù)點(diǎn)的概率計(jì)算公式為:
[0040] = ^ Α^χΡ?.?.) ( 5)
[0041] 進(jìn)一步的,在對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)的步驟中,采用基于hadoop的自組織映射的神經(jīng)網(wǎng) 絡(luò)聚類(lèi)算法,使用Mapreduce并行計(jì)算框架對(duì)數(shù)據(jù)進(jìn)行計(jì)算。
[0042] 進(jìn)一步的,在使用Mapreduce并行計(jì)算框架對(duì)數(shù)據(jù)進(jìn)行計(jì)算的步驟中,在Map階段 計(jì)算獲勝神經(jīng)元并計(jì)算權(quán)值修改量,Reducer階段對(duì)相同的獲勝神經(jīng)元,統(tǒng)計(jì)與其連接的每 個(gè)權(quán)值的總體更新量,然后對(duì)權(quán)值進(jìn)行更新。
[0043]進(jìn)一步的,在實(shí)現(xiàn)支持向量機(jī)的算法中,利用歐式距離態(tài)度量?jī)蓚€(gè)向量之間的相 似度。
[0044]具體的,在上述基于hadoop的自組織映射(S0M)的神經(jīng)網(wǎng)絡(luò)聚類(lèi)算法中,采用競(jìng)爭(zhēng) 學(xué)習(xí)實(shí)現(xiàn)內(nèi)部自適應(yīng)和自組織的改變內(nèi)部結(jié)構(gòu),即在接受外界輸入后會(huì)自動(dòng)地分為不同區(qū) 域,每個(gè)區(qū)域?qū)τ谳斎攵加胁煌捻憫?yīng)特征,而且這個(gè)過(guò)程是自動(dòng)完成的。該算法的步驟如 下:
[0045] (1)初始化和歸一化。首先對(duì)當(dāng)前輸入向量和競(jìng)爭(zhēng)層中神經(jīng)元權(quán)值向量Wi進(jìn)行歸 一化處理,并建立初始優(yōu)勝域Λ^(〇),并對(duì)增益μ(〇)進(jìn)行賦值。
[0046] (2)尋找獲勝神經(jīng)元。將輸入向量與競(jìng)爭(zhēng)層中所有響應(yīng)的權(quán)值向量進(jìn)行相似性比 較,將最相思的權(quán)值向量最為獲勝神經(jīng)元。在數(shù)學(xué)中兩個(gè)向量最相似則他們的點(diǎn)積越大可 以表示為下面公式:
[0048] (3)對(duì)優(yōu)勝領(lǐng)域內(nèi)節(jié)點(diǎn)權(quán)值調(diào)整
[00511其中,y(t)為增益并隨著時(shí)間下降到0。
[0052] (4)如果增益下降到設(shè)定的閾值μΜη那么結(jié)束流程,否則繼續(xù)輸入數(shù)據(jù)從第一步開(kāi) 始新的流程計(jì)算。
[0053] 將上述算法運(yùn)行在Hadoop平臺(tái)運(yùn)行,其實(shí)施步驟如下:
[0054] Map 階段
[0055] 輸入鍵值對(duì)〈key,value〉,其中key表示樣本序號(hào)value表示樣本特征集合。
[0056]根據(jù)競(jìng)爭(zhēng)學(xué)習(xí)原則計(jì)算出競(jìng)爭(zhēng)層的輸出值。
[0057]判定獲勝神經(jīng)元,將其狀態(tài)判定為1,其他狀態(tài)判定為0。設(shè)置flag為獲勝神經(jīng)元在 競(jìng)爭(zhēng)層的位置。
[0058]計(jì)算與獲勝神經(jīng)元相連接的各權(quán)值更新量,其他權(quán)值保持不變。
[0059]輸出鍵值對(duì)其中key表示flag,value表示與獲勝神經(jīng)元相連接的權(quán)值更新量。
[0060] Reducer 階段
[0061 ]接受map函數(shù)的輸出作為re du c e函數(shù)的輸入,輸入key表示獲勝神經(jīng)元的位置, values表示與獲勝神經(jīng)元相連接的權(quán)值更新量的結(jié)合。
[0062]累計(jì)獲得每個(gè)權(quán)值的總體更新量,并計(jì)算平均更新量。
[0063]調(diào)整相應(yīng)的網(wǎng)絡(luò)權(quán)值。
[0064] 輸出鍵值對(duì),key表示權(quán)值更新?tīng)顟B(tài),value表示更新后的網(wǎng)絡(luò)權(quán)值。
[0065]更新全局向量,并重復(fù)MapReduce過(guò)程,直到權(quán)值向量和獲勝樣本誤差小于設(shè)定的 閾值則結(jié)束。
[0066]從上述計(jì)算步驟中可以看出S0M網(wǎng)絡(luò)的學(xué)習(xí)可以自適應(yīng)的根據(jù)樣本內(nèi)在的聯(lián)系進(jìn) 行聚類(lèi),輸出神經(jīng)元權(quán)值向量Wi逐漸的向獲勝樣本靠近,權(quán)值向量集{Wi| i = l,2. . .1}看成 所有樣本的聚類(lèi)中心。相似性度量方法描述如下:
[0067]特征向量X= {xi,X2. . . .xn}屬于特征空間某個(gè)簇Ii,該特征向量與平均向量爲(wèi) (聚類(lèi)中心)相似系數(shù)可表示為,
[0069] 從式(9)中可以看出度量向量之間相似度使用歐式距離來(lái)測(cè)量的,兩個(gè)向量越相 似則兄)值越大最大值為1。
[0070] 本發(fā)明和已有技術(shù)相比較,其效果是積極和明顯的。本發(fā)明通過(guò)采集車(chē)輛的北斗/ GPS導(dǎo)航數(shù)據(jù),利用大數(shù)據(jù)平臺(tái)對(duì)采集的數(shù)據(jù)進(jìn)行預(yù)處理,在對(duì)數(shù)據(jù)進(jìn)一步數(shù)據(jù)挖掘,可以 分析和判斷駕駛者的駕駛行為。
【附圖說(shuō)明】:
[0071] 圖1是本發(fā)明的互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái)的框架 圖。
[0072] 圖2是本發(fā)明中的基于自組織映射神經(jīng)網(wǎng)絡(luò)算法流程圖。
【具體實(shí)施方式】:
[0073] 實(shí)施例1:
[0074] 如圖1和圖2所示,本發(fā)明的互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù) 平臺(tái),包括四個(gè)部分:數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)處理層、數(shù)據(jù)分析層和數(shù)據(jù)可視化層。
[0075] 判斷汽車(chē)超速,第一步、利用隱馬爾科夫算法找到車(chē)輛行駛的最佳路段;第二步、 利用地圖數(shù)據(jù)找到汽車(chē)行駛的道路類(lèi)型對(duì)應(yīng)的限速大??;第三步、將獲得數(shù)據(jù)中行駛速度 大小和路段限速大小進(jìn)行對(duì)比判別車(chē)輛是否超速。
[0076] 判斷汽車(chē)超載,第一步、將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化消除量綱的影響;第二步、通過(guò)原 始數(shù)據(jù)中時(shí)間、速度和里程計(jì)算平均速度、平均加速度和啟動(dòng)加速度,并作為訓(xùn)練樣本;第 三步、利用第二步中的訓(xùn)練樣本訓(xùn)練出分類(lèi)器;第四步、利用分類(lèi)器對(duì)車(chē)輛是否超載進(jìn)行判 別。
[0077] 急加速與急減速判斷,首先通過(guò)大數(shù)據(jù)平臺(tái)從原始數(shù)據(jù)中找出某個(gè)路段所有時(shí)間 所有車(chē)輛的行駛數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行處理得出相鄰兩點(diǎn)速度的差值,接著利用回歸分析 方法得出回歸模型。通過(guò)回歸模型得出汽車(chē)在該路段發(fā)生急加速和急減速的概率。設(shè)同一 個(gè)路段上兩個(gè)時(shí)間點(diǎn)的速度差為Α V,汽車(chē)的每個(gè)時(shí)間點(diǎn)的初始速度為ν。。因?yàn)槠?chē)在一段 時(shí)間內(nèi)行駛距離與速度差和初始速度成線性關(guān)系,該回歸模型為:
[0078] S = h, + b,Av +(1)
[0079] 其中b。,!^,^為變量Δν和VQ的偏回歸系數(shù)。
[0080] 通過(guò)訓(xùn)練數(shù)據(jù)和最小二乘原理得出偏回歸系數(shù)的值,并利用方差分析對(duì)得出的模 型進(jìn)行檢驗(yàn),最后根據(jù)β = ||5* -1||的大小得出汽車(chē)發(fā)生急加速和急減速的概率。其中S為汽車(chē) 實(shí)際的行駛距離,左為滿足回歸模型下的行駛距離。
[0081] 風(fēng)險(xiǎn)概率是風(fēng)險(xiǎn)發(fā)生可能性的百分比,是對(duì)事物狀態(tài)發(fā)生可能性的衡量。汽車(chē)在 同一區(qū)域內(nèi)行駛數(shù)據(jù)具有較高的相似性,不同區(qū)域內(nèi)行駛數(shù)據(jù)差別性比較大。以一個(gè)區(qū)域 為一個(gè)簇,將汽車(chē)行駛數(shù)據(jù)按特征點(diǎn)進(jìn)行聚類(lèi),可以得到不同區(qū)域內(nèi)的行駛數(shù)據(jù)。每一個(gè)特 征點(diǎn)(特征向量)都與簇中的點(diǎn)有關(guān),并假設(shè)簇中第i個(gè)特征向量為xUieN),那么風(fēng)險(xiǎn)概率 可以表示為
[0083] 其中| |Ν:(χ4 I I表示區(qū)域r中所有點(diǎn)的個(gè)數(shù),Nr#)為點(diǎn)xWr為半徑的領(lǐng)域。U(Nr (X1))為該簇中安全風(fēng)險(xiǎn)發(fā)生的次數(shù)。有(1)可以看出,風(fēng)險(xiǎn)概率就是該簇中所有點(diǎn)的平均 概率。也可以表示為
[0084] Pr(X')^s(X\X)xP(X ) 13)
[0085] 其中 <妒夕)表示特征點(diǎn)X1與所有點(diǎn)的平均向量的相似度。
[0086]其中,風(fēng)險(xiǎn)概率預(yù)測(cè)模型需要分三個(gè)部分:
[0087]對(duì)歷史數(shù)據(jù)的預(yù)處理
[0088] 從歷史數(shù)據(jù)中抽象出數(shù)據(jù)屬性,在汽車(chē)駕駛行為數(shù)據(jù)包括車(chē)牌號(hào)、經(jīng)煒度、行駛速 度、行駛方向、行駛時(shí)間。
[0089] 對(duì)歷史數(shù)據(jù)進(jìn)行聚類(lèi)得到1個(gè)簇即(^={1^12.....IU,其中^是其中的一個(gè)簇,假 設(shè)簇中有k個(gè)特征向量即.....Zf卜其中X/是簇中第j個(gè)特征向量。
[0090] 構(gòu)造預(yù)測(cè)模型
[0091] 聚類(lèi)得到結(jié)果后對(duì)每個(gè)簇中的特征向量計(jì)算風(fēng)險(xiǎn)概率,步驟如下:
[0092] (1)計(jì)算簇Ii中平均風(fēng)險(xiǎn)概率。
[0094] 其中,| |是簇I沖元素的個(gè)數(shù),如果X/表示的點(diǎn)為風(fēng)險(xiǎn)發(fā)生,那么£(Λ7 )=丨否則 為0〇
[0095] (2)計(jì)算簇I i中所有點(diǎn)的平均特征向量尾
[0096] (3)計(jì)算簇中每個(gè)特征向量與萬(wàn)的相似系數(shù)<巧,屬)
[0097] (4)計(jì)算每個(gè)特征向量的風(fēng)險(xiǎn)概率/3 (Λ7)
[0098] 風(fēng)險(xiǎn)概率預(yù)測(cè)
[0099] 計(jì)算得到風(fēng)險(xiǎn)概率模型之后就可以對(duì)新的汽車(chē)數(shù)據(jù)進(jìn)行預(yù)測(cè),步驟如下:
[0100] 對(duì)于新的汽車(chē)行駛數(shù)據(jù)乂1)進(jìn)行聚類(lèi)分析;
[0101] 一般聚類(lèi)后會(huì)將新的數(shù)據(jù)聚類(lèi)到某一簇中,然后計(jì)算該數(shù)據(jù)與平均向量粟的相似 系數(shù);
[0102] 新的數(shù)據(jù)點(diǎn)的概率計(jì)算公式為:
[0103] P(X-'·) = ,v(X,X:)x P(X.) ( 5 )
[0104] 求數(shù)據(jù)點(diǎn)的風(fēng)險(xiǎn)概率模型的關(guān)鍵技術(shù)是如何利用聚類(lèi)算法對(duì)歷史數(shù)據(jù)進(jìn)行聚 類(lèi)。此處采用基于自組織映射(S0M)的神經(jīng)網(wǎng)絡(luò)聚類(lèi)算法。該算法采用競(jìng)爭(zhēng)學(xué)習(xí)實(shí)現(xiàn)內(nèi)部自 適應(yīng)和自組織的改變內(nèi)部結(jié)構(gòu),即在接受外界輸入后會(huì)自動(dòng)地分為不同區(qū)域,每個(gè)區(qū)域?qū)?于輸入都有不同的響應(yīng)特征,而且這個(gè)過(guò)程是自動(dòng)完成的。該算法的步驟如下:
[0105] 初始化和歸一化。首先對(duì)當(dāng)前輸入向量和競(jìng)爭(zhēng)層中神經(jīng)元權(quán)值向量Wi進(jìn)行歸一化 處理,并建立初始優(yōu)勝域&*(0),并對(duì)增益μ(0)進(jìn)行賦值。
[0106] 尋找獲勝神經(jīng)元。將輸入向量與競(jìng)爭(zhēng)層中所有響應(yīng)的權(quán)值向量進(jìn)行相似性比較, 將最相思的權(quán)值向量最為獲勝神經(jīng)元。在數(shù)學(xué)中兩個(gè)向量最相似則他們的點(diǎn)積越大可以表 示為下面公式:
[0108]對(duì)優(yōu)勝領(lǐng)域內(nèi)節(jié)點(diǎn)權(quán)值調(diào)整
[0111] 其中,y(t)為增益并隨著時(shí)間下降到0。
[0112] 如果增益下降到設(shè)定的閾值μηιη那么結(jié)束流程,否則繼續(xù)輸入數(shù)據(jù)從第一步開(kāi)始 新的流程計(jì)算。
[0113] 將上述算法運(yùn)行在Hadoop平臺(tái)運(yùn)行,其實(shí)施步驟如下:
[0114] Map 階段
[0115] 輸入鍵值對(duì)〈key,value〉,其中key表示樣本序號(hào)value表示樣本特征集合
[0116]根據(jù)競(jìng)爭(zhēng)學(xué)習(xí)原則計(jì)算出競(jìng)爭(zhēng)層的輸出值。
[0117] 判定獲勝神經(jīng)元,將其狀態(tài)判定為1,其他狀態(tài)判定為0。設(shè)置flag為獲勝神經(jīng)元在 競(jìng)爭(zhēng)層的位置。
[0118] 計(jì)算與獲勝神經(jīng)元相連接的各權(quán)值更新量,其他權(quán)值保持不變。
[0119] 輸出鍵值對(duì)其中key表示flag,value表示與獲勝神經(jīng)元相連接的權(quán)值更新量。
[0120] Reducer 階段
[0121 ]接受map函數(shù)的輸出作為re du c e函數(shù)的輸入,輸入key表示獲勝神經(jīng)元的位置, values表示與獲勝神經(jīng)元相連接的權(quán)值更新量的結(jié)合。
[0122] 累計(jì)獲得每個(gè)權(quán)值的總體更新量,并計(jì)算平均更新量。
[0123] 調(diào)整相應(yīng)的網(wǎng)絡(luò)權(quán)值。
[0124] 輸出鍵值對(duì),key表示權(quán)值更新?tīng)顟B(tài),value表示更新后的網(wǎng)絡(luò)權(quán)值。
[0125] 更新全局向量,并重復(fù)MapReduce過(guò)程,直到權(quán)值向量和獲勝樣本誤差小于設(shè)定的 閾值則結(jié)束。
[0126] 從上述計(jì)算步驟中可以看出S0M網(wǎng)絡(luò)的學(xué)習(xí)可以自適應(yīng)的根據(jù)樣本內(nèi)在的聯(lián)系進(jìn) 行聚類(lèi),輸出神經(jīng)元權(quán)值向量Wi逐漸的向獲勝樣本靠近,那么權(quán)值向量集{Wi I i = l ,2. .. 1} 就可以看成所有樣本的聚類(lèi)中心。相似性度量方法:
[0127] 特征向量X= {xi,X2. . . .xn}屬于特征空間某個(gè)簇Ii,該特征向量與平均向量足 (聚類(lèi)中心)相似系數(shù)可表示為
[0129]從式(9)中可以看出度量向量之間相似度使用歐式距離來(lái)測(cè)量的,兩個(gè)向量越相 似則、( Α-?,.)值越大最大值為1。
【主權(quán)項(xiàng)】
1. 一種互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái),其特征在于,其特征 在于:對(duì)車(chē)輛駕駛行為、汽車(chē)行駛風(fēng)險(xiǎn)概率進(jìn)行分析,其中包括以下步驟: 步驟一、通過(guò)大數(shù)據(jù)平臺(tái)存儲(chǔ)汽車(chē)一段時(shí)間內(nèi)的行駛數(shù)據(jù)并采用MapReduce框架對(duì)這 些數(shù)據(jù)進(jìn)行處理和分析, 步驟二、基于大數(shù)據(jù)平臺(tái)下對(duì)數(shù)據(jù)進(jìn)行處理過(guò)后統(tǒng)計(jì)出某個(gè)區(qū)域和時(shí)間段內(nèi)汽車(chē)非正 常駕駛次數(shù),包括超速、超載、急加速急減速、疲勞駕駛、夜間行駛, 步驟三、對(duì)非正常駕駛行為統(tǒng)計(jì)后,利用自組織映射神經(jīng)網(wǎng)絡(luò)算法計(jì)算車(chē)輛風(fēng)險(xiǎn)概率, 并對(duì)后續(xù)車(chē)輛行駛風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。2. 如權(quán)利要求1所述的互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái),其特 征在于:對(duì)汽車(chē)駕駛數(shù)據(jù)進(jìn)行處理分析,其中包括,第一步建立數(shù)據(jù)存儲(chǔ)層,基于Hadoop分 布式文件系統(tǒng)存儲(chǔ)方案和基于Hadoop分布式文件系統(tǒng)+分布式面向列開(kāi)源數(shù)據(jù)庫(kù)技術(shù)存儲(chǔ) 方案;第二步建立數(shù)據(jù)處理層,在數(shù)據(jù)處理層中采用大規(guī)模并行計(jì)算框架來(lái)處理原始數(shù)據(jù), 第三步建立數(shù)據(jù)分析層,對(duì)數(shù)據(jù)進(jìn)一步分析、建模和挖掘,第四步建立數(shù)據(jù)可視化,第五步 建立安全層,為大數(shù)據(jù)平臺(tái)提供安全保護(hù)系統(tǒng),對(duì)外提供統(tǒng)一的服務(wù)接口,用戶通過(guò)統(tǒng)一數(shù) 據(jù)訪問(wèn)接口或統(tǒng)一門(mén)戶頁(yè)面來(lái)訪問(wèn)大數(shù)據(jù)服務(wù)平臺(tái)。3. 如權(quán)利要求1所述的互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái),其特 征在于:利用隱馬爾科夫算法找到車(chē)輛行駛的路網(wǎng)路段,并通過(guò)地圖數(shù)據(jù)找到汽車(chē)行駛的 路段信息,最后將定位數(shù)據(jù)中行駛速度輸入時(shí)空限速模型中,最終得出車(chē)輛是否超速的判 斷。4. 如權(quán)利要求1所述的互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái),其特 征在于:利用大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)支持向量機(jī)的算法,其中包括,第一步、將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn) 化消除量綱的影響;第二步、通過(guò)原始數(shù)據(jù)中時(shí)間、速度和里程計(jì)算平均速度、平均加速度 和啟動(dòng)加速度,并作為訓(xùn)練樣本;第三步、將大量的訓(xùn)練樣本上傳到Hadoop分布式文件系統(tǒng) 中并做分塊,每個(gè)節(jié)點(diǎn)啟動(dòng)Hadoop分布式處理平臺(tái)的Map任務(wù)對(duì)塊中數(shù)據(jù)進(jìn)行序列最小優(yōu) 化訓(xùn)練算出每個(gè)塊數(shù)據(jù)的支持向量,最后將各個(gè)節(jié)點(diǎn)訓(xùn)練處的支持向量輸入到Hadoop分布 式處理平臺(tái)的Reduce任務(wù)中交于SM0算法訓(xùn)練得到最終的支持向量;第四步、利用第三步中 的支持向量得到分類(lèi)器,并利用分類(lèi)器對(duì)車(chē)輛是否超載進(jìn)行判別。5. 如權(quán)利要求1所述的互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái),其特 征在于:建立大數(shù)據(jù)平臺(tái)下線性回歸模型,其中包括,第一步、利用大數(shù)據(jù)平臺(tái)找到該路段 內(nèi)所有汽車(chē)行駛的數(shù)據(jù),并計(jì)算出相鄰兩個(gè)數(shù)據(jù)之間速度差值;第二步、利用統(tǒng)計(jì)線性回歸 算法得到某段道路上汽車(chē)以某個(gè)起始車(chē)速V。和行駛至下一時(shí)刻車(chē)速變化量△ v為輸入,以 汽車(chē)在該段時(shí)間內(nèi)行駛距離S為輸出,并統(tǒng)計(jì)該路段內(nèi)所有行駛汽車(chē)的數(shù)據(jù),第三步、計(jì)算 回歸方程,得到該路段內(nèi)汽車(chē)速度變化量和行駛距離的模型S = f(Av,v。),最后利用該方 程判別該汽車(chē)發(fā)生急加速和急減速的概率,判斷規(guī)則為第i量汽車(chē)的距離與模型距離誤差e =| Is-s1! |越大則說(shuō)明汽車(chē)發(fā)生急加速和急減速概率越大,越小則說(shuō)明概率越低。6. 如權(quán)利要求1所述的互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái),其特 征在于:所述的計(jì)算車(chē)輛風(fēng)險(xiǎn)概率的步驟中包括,第一步度量風(fēng)險(xiǎn)概率,第二步建立風(fēng)險(xiǎn)概 率模型,首先對(duì)歷史數(shù)據(jù)進(jìn)行預(yù)處理,包括對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)得到1個(gè)簇即(^={1:, 12……Ιι}其中^是其中的一個(gè)簇,然后針對(duì)聚類(lèi)結(jié)果構(gòu)造預(yù)測(cè)模型包括求簇的平均風(fēng)險(xiǎn) 概率和特征向量與平均向量的相似系數(shù),接著對(duì)風(fēng)險(xiǎn)概率進(jìn)行預(yù)測(cè)。7. 如權(quán)利要求6所述的互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái),其特 征在于:在對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)的步驟中,采用自組織映射的神經(jīng)網(wǎng)絡(luò)聚類(lèi)算法,使用大規(guī)模并 行計(jì)算框架Mapreduce并行計(jì)算框架對(duì)數(shù)據(jù)進(jìn)行計(jì)算。8. 如權(quán)利要求7所述的互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái),其特 征在于:在使用大規(guī)模并行計(jì)算框架Mapreduce并行計(jì)算框架對(duì)數(shù)據(jù)進(jìn)行計(jì)算的步驟中,在 Map階段計(jì)算獲勝神經(jīng)元并計(jì)算權(quán)值修改量,Reduce階段對(duì)相同的獲勝神經(jīng)元,統(tǒng)計(jì)與其連 接的每個(gè)權(quán)值的總體更新量,然后對(duì)權(quán)值進(jìn)行更新。9. 如權(quán)利要求4所述的互聯(lián)網(wǎng)+時(shí)代下的車(chē)輛駕駛行為分析大數(shù)據(jù)公共服務(wù)平臺(tái),其特 征在于:在實(shí)現(xiàn)支持向量機(jī)的算法中,利用歐式距離態(tài)度量?jī)蓚€(gè)向量之間的相似度。
【文檔編號(hào)】G06K9/62GK106095963SQ201610430864
【公開(kāi)日】2016年11月9日
【申請(qǐng)日】2016年6月17日
【發(fā)明人】文巨峰, 羅贊文, 穆祥強(qiáng), 許偉
【申請(qǐng)人】上海經(jīng)達(dá)信息科技股份有限公司