亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種快速精準(zhǔn)的交通大數(shù)據(jù)清洗方法與流程

文檔序號(hào):12122026閱讀:來源:國(guó)知局

技術(shù)特征:

1.一種快速精準(zhǔn)的交通大數(shù)據(jù)清洗方法,其特征在于,包括實(shí)時(shí)數(shù)據(jù)的處理方法和歷史數(shù)據(jù)的處理方法;

所述實(shí)時(shí)數(shù)據(jù)的處理方法是針對(duì)實(shí)時(shí)的RFID和抓拍數(shù)據(jù),采取Spark Streaming流處理技術(shù),從Kafka中按照時(shí)間窗口不斷提取數(shù)據(jù),按照數(shù)據(jù)清洗規(guī)則,完成數(shù)據(jù)的比對(duì)、統(tǒng)計(jì)和異常處理;

所述歷史數(shù)據(jù)的處理方法,采用Spark內(nèi)存處理技術(shù),從HDFS中讀取數(shù)據(jù),按照數(shù)據(jù)清洗規(guī)則,對(duì)數(shù)據(jù)進(jìn)行比對(duì)、統(tǒng)計(jì)和異常處理。

2.根據(jù)權(quán)利要求1所述的快速精準(zhǔn)的交通大數(shù)據(jù)清洗方法,其特征在于,所述從Kafka中按照時(shí)間窗口不斷提取數(shù)據(jù),具體為,按照設(shè)定的時(shí)間間隔從持續(xù)的Kafka分布式消息隊(duì)列中獲取RFID過車數(shù)據(jù)和抓拍數(shù)據(jù),每次累計(jì)獲取設(shè)定時(shí)間段以內(nèi)的數(shù)據(jù)。

3.根據(jù)權(quán)利要求2所述的快速精準(zhǔn)的交通大數(shù)據(jù)清洗方法,其特征在于,所述實(shí)時(shí)數(shù)據(jù)的處理方法中,所述按照數(shù)據(jù)清洗規(guī)則,完成數(shù)據(jù)的比對(duì)、統(tǒng)計(jì)和異常處理,具體包括車輛軌跡的清洗、過車流量的統(tǒng)計(jì)和異常數(shù)據(jù)的提??;

所述車輛軌跡的清洗,按照如下步驟進(jìn)行實(shí)施:

A1,根據(jù)RFID過車數(shù)據(jù)和抓拍數(shù)據(jù)的公共字段,包括車牌號(hào)、時(shí)間、采集點(diǎn)名稱和采集方向四個(gè)字段,將兩種數(shù)據(jù)記錄進(jìn)行連接;

A2,根據(jù)Spark Streaming提供的比對(duì)函數(shù),對(duì)車牌號(hào)和時(shí)間字符串進(jìn)行逆序處理,并根據(jù)比對(duì)規(guī)則對(duì)連接的RFID過車數(shù)據(jù)和抓拍數(shù)據(jù)進(jìn)行過濾,得到車輛經(jīng)過采集點(diǎn)時(shí)的軌跡記錄,即車輛軌跡清洗結(jié)果;

A3,將所述車輛軌跡清洗結(jié)果存儲(chǔ)在HBase中,將HBase劃分為多個(gè)不同的域,以車牌號(hào)和時(shí)間字符串的逆序字符串為鍵進(jìn)行存儲(chǔ)。

4.根據(jù)權(quán)利要求3所述的快速精準(zhǔn)的交通大數(shù)據(jù)清洗方法,其特征在于,所述過車流量的統(tǒng)計(jì),按照如下步驟進(jìn)行實(shí)施:

B1,將每個(gè)時(shí)間段內(nèi)接收到的RFID過車數(shù)據(jù)轉(zhuǎn)換為以采集點(diǎn)字段為鍵的鍵值對(duì)形式;

B2,根據(jù)Spark Streaming分布式大數(shù)據(jù)處理的原理,對(duì)具有相同鍵的數(shù)據(jù)記錄進(jìn)行計(jì)數(shù),然后對(duì)每個(gè)采集點(diǎn)的統(tǒng)計(jì)結(jié)果以設(shè)定的時(shí)間間隔進(jìn)行求和,得到各個(gè)采集點(diǎn)在相應(yīng)時(shí)間段內(nèi)的過車流量記錄;

B3,使用內(nèi)存數(shù)據(jù)庫(kù)對(duì)各個(gè)采集點(diǎn)的過車流量進(jìn)行存儲(chǔ)。

5.根據(jù)權(quán)利要求3所述的快速精準(zhǔn)的交通大數(shù)據(jù)清洗方法,其特征在于,所述異常數(shù)據(jù)的提取,按照如下步驟進(jìn)行實(shí)施:

C1,根據(jù)RFID過車數(shù)據(jù)和抓拍數(shù)據(jù)的公共字段,包括車牌號(hào)、時(shí)間、采集點(diǎn)名稱和采集方向四個(gè)字段,將兩種數(shù)據(jù)記錄進(jìn)行連接;

C2,根據(jù)異常數(shù)據(jù)的判定規(guī)則分別對(duì)RFID過車數(shù)據(jù)和抓拍數(shù)據(jù)進(jìn)行過濾,提取出異常數(shù)據(jù);

C3,采用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。

6.根據(jù)權(quán)利要求1所述的快速精準(zhǔn)的交通大數(shù)據(jù)清洗方法,其特征在于,所述歷史數(shù)據(jù)的處理方法中,所述按照數(shù)據(jù)清洗規(guī)則,對(duì)數(shù)據(jù)進(jìn)行比對(duì)、統(tǒng)計(jì)和異常處理,具體為車輛軌跡的清洗、過車流量的統(tǒng)計(jì)和異常數(shù)據(jù)的提取;

所述車輛軌跡的清洗,按照如下步驟進(jìn)行實(shí)施:

D1,通過車牌號(hào)、時(shí)間、采集點(diǎn)名稱、方向四個(gè)字段的信息將RFID過車數(shù)據(jù)和視頻抓拍數(shù)據(jù)進(jìn)行連接;

D2,對(duì)車牌號(hào)和時(shí)間字符串進(jìn)行逆序處理,使用車牌顏色和通行時(shí)間字段對(duì)數(shù)據(jù)進(jìn)行過濾,得到車輛軌跡數(shù)據(jù);

D3,以車牌號(hào)和時(shí)間字符串的逆序字符串為鍵,將所述車輛軌跡數(shù)據(jù)存儲(chǔ)在HBase中。

7.根據(jù)權(quán)利要求6所述的快速精準(zhǔn)的交通大數(shù)據(jù)清洗方法,其特征在于,所述車輛軌跡的清洗過程中,首先將RFID數(shù)據(jù)、抓拍數(shù)據(jù)和設(shè)備信息表分別封裝為相應(yīng)的RDD,根據(jù)設(shè)備的IP地址,進(jìn)行數(shù)據(jù)連接,得到帶有方向字段的RFID數(shù)據(jù)RDD和帶有方向的抓拍數(shù)據(jù)RDD;然后對(duì)兩類數(shù)據(jù)RDD分別進(jìn)行轉(zhuǎn)換,得到鍵值對(duì)形式的RDD,以方便比對(duì)連接操作的進(jìn)行,其中鍵為需要進(jìn)行比對(duì)的字段組成的字符串;最后,將兩種數(shù)據(jù)的RDD根據(jù)鍵值進(jìn)行比對(duì)并連接,采用時(shí)間完整性、號(hào)牌顏色一致性、字段的完整性等規(guī)則要求對(duì)數(shù)據(jù)進(jìn)行過濾,得到正確的數(shù)據(jù)軌跡。

8.根據(jù)權(quán)利要求6所述的快速精準(zhǔn)的交通大數(shù)據(jù)清洗方法,其特征在于,所述過車流量的統(tǒng)計(jì),按照如下步驟進(jìn)行實(shí)施:

E1,將RFID過車數(shù)據(jù)轉(zhuǎn)換為以采集點(diǎn)字段和精確至小時(shí)的時(shí)間字符串為鍵的鍵值對(duì)形式;

E2,根據(jù)Spark分布式大數(shù)據(jù)處理的原理,對(duì)具有相同鍵的數(shù)據(jù)記錄進(jìn)行計(jì)數(shù),得到各個(gè)采集點(diǎn)在相應(yīng)時(shí)間段的過車流量記錄;

E3,使用關(guān)系型數(shù)據(jù)庫(kù)對(duì)各個(gè)采集點(diǎn)的過車流量統(tǒng)計(jì)結(jié)果進(jìn)行存儲(chǔ)。

9.根據(jù)權(quán)利要求6所述的快速精準(zhǔn)的交通大數(shù)據(jù)清洗方法,其特征在于,所述異常數(shù)據(jù)的類型包括:數(shù)據(jù)字段不完整、數(shù)據(jù)缺失和數(shù)據(jù)信息不一致。

10.根據(jù)權(quán)利要求9所述的快速精準(zhǔn)的交通大數(shù)據(jù)清洗方法,其特征在于,所述異常數(shù)據(jù)的提取,按照如下步驟進(jìn)行實(shí)施:

F1,通過車牌號(hào)碼、采集點(diǎn)名稱、采集方向和通過時(shí)間四個(gè)字段的信息將RFID過車數(shù)據(jù)和抓拍數(shù)據(jù)進(jìn)行連接;

F2,根據(jù)數(shù)據(jù)異常類型,首先判斷RFID數(shù)據(jù)是否缺失,如果存在RFID數(shù)據(jù),則判斷RFID數(shù)據(jù)中顏色字段是否存在、抓拍數(shù)據(jù)中抓拍圖片鏈接是否存在,如果字段完整,則判斷RFID數(shù)據(jù)和抓拍數(shù)據(jù)中號(hào)牌顏色是否一致,最后,將提取出的異常數(shù)據(jù)存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)中,并標(biāo)識(shí)異常類型。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1