本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,更具體的說,是涉及一種基于數(shù)據(jù)碰撞的特征線索查詢方法和系統(tǒng)。
背景技術(shù):
:隨著如火如荼的物聯(lián)網(wǎng)建設(shè),車輛行駛軌跡信息、手機(jī)軌跡信息都可以被記錄下來,這些數(shù)據(jù)累計(jì)起來形成大量的數(shù)據(jù),使排查嫌疑目標(biāo)和尋找線索的工作量變得異常龐大復(fù)雜。然而這些數(shù)據(jù)大量都是無(wú)效的,如何在這些數(shù)據(jù)中找出對(duì)于破案有用的線索、快速定位到嫌疑目標(biāo),提高排查的工作效率,成為亟待解決的問題。在現(xiàn)有的技術(shù)中,是根據(jù)預(yù)設(shè)條件對(duì)采集的數(shù)據(jù)進(jìn)行頻次分析和數(shù)值比對(duì),從而找出數(shù)據(jù)中的關(guān)聯(lián),并結(jié)合案情,幫助民警尋找線索或追蹤嫌疑人。但是在采集的數(shù)據(jù)種類雜多,格式不統(tǒng)一的情況下,對(duì)于數(shù)據(jù)進(jìn)行頻次分析或者是數(shù)值比對(duì)的效率和準(zhǔn)確性會(huì)大受影響,這無(wú)疑成為一個(gè)根據(jù)數(shù)據(jù)碰撞來尋找線索的瓶頸。技術(shù)實(shí)現(xiàn)要素:有鑒于此,有必要針對(duì)上述問題,提供一種基于數(shù)據(jù)碰撞的特征線索查詢方法和系統(tǒng),用以在大量的數(shù)據(jù)中,通過數(shù)據(jù)頻次分析和數(shù)據(jù)比對(duì),發(fā)現(xiàn)數(shù)據(jù)關(guān)聯(lián),快速尋找線索,提高排查工作效率。為了實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下:一種基于數(shù)據(jù)碰撞的特征線索查詢方法,包括以下步驟:S1、采集數(shù)據(jù);采集數(shù)據(jù)集{1,2,3…m},每個(gè)數(shù)據(jù)集有列數(shù){cm1、cm2、cm3…cmn};S2、導(dǎo)入文件,構(gòu)建結(jié)構(gòu)化數(shù)據(jù);S3、設(shè)定碰撞條件,并檢查碰撞規(guī)則是否符合碰撞規(guī)則;S4、數(shù)據(jù)碰撞比對(duì),對(duì)選取的數(shù)據(jù)集,根據(jù)碰撞規(guī)則結(jié)合數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)進(jìn)行對(duì)比,統(tǒng)計(jì)各數(shù)據(jù)出現(xiàn)的頻次,得到滿足碰撞規(guī)則的數(shù)據(jù)或高頻次出現(xiàn)的數(shù)據(jù);S5、將數(shù)據(jù)碰撞結(jié)果集進(jìn)行展示。作為優(yōu)選的,所述步驟S1中,通過外部系統(tǒng)進(jìn)行數(shù)據(jù)采集,包括通過練接外部數(shù)據(jù)庫(kù)采集數(shù)據(jù)、調(diào)用遠(yuǎn)程Web服務(wù)采集數(shù)據(jù)、Excel文件導(dǎo)入采集數(shù)據(jù)。作為優(yōu)選的,所述步驟S2具體包括:導(dǎo)入數(shù)據(jù)集,將文件中的列名和數(shù)據(jù)單獨(dú)保存,并用數(shù)字序號(hào)關(guān)聯(lián);;結(jié)構(gòu)化數(shù)據(jù)包括三個(gè)部分:數(shù)據(jù)集記錄、數(shù)據(jù)集描述、數(shù)據(jù)集數(shù)據(jù),具體為:數(shù)據(jù)記錄:記錄數(shù)據(jù)的基本信息,其結(jié)構(gòu)為<id:name;time;ource;dataType;caseId>,分別是id、名稱、時(shí)間、來源、數(shù)據(jù)種類、關(guān)聯(lián)案件;數(shù)據(jù)集描述:一組數(shù)據(jù)n條,用于描述數(shù)據(jù)集的列,第n條結(jié)構(gòu)為:<id;recordId;colName;colType;validation>,每一項(xiàng)的含義分別是id、數(shù)據(jù)集id、列名、序號(hào)、數(shù)據(jù)類型、數(shù)據(jù)驗(yàn)證;數(shù)據(jù)集數(shù)據(jù):有若干條n列,每一列是<id;recordId;d1;d2;d3;…;dn;…>,d1到dn分別對(duì)應(yīng)數(shù)據(jù)集描述的每一條數(shù)據(jù)。作為優(yōu)選的,所述步驟S3具體包括,選取p個(gè)導(dǎo)入的數(shù)據(jù)集,每個(gè)數(shù)據(jù)集選取q列,對(duì)每一列指定相應(yīng)的碰撞規(guī)則,所述碰撞規(guī)則包括相似、相等、不等。作為優(yōu)選的,所述步驟S5還包括,若結(jié)果集過大或?yàn)榭占?,則重復(fù)步驟S3、S4。一種根據(jù)上述方法進(jìn)行特征線索查詢的系統(tǒng),包括數(shù)據(jù)采集服務(wù)器、數(shù)據(jù)碰撞分析服務(wù)器及數(shù)據(jù)庫(kù);所述數(shù)據(jù)采集服務(wù)器用于采集外部系統(tǒng)的數(shù)據(jù),并對(duì)其進(jìn)行規(guī)范化處理,構(gòu)建數(shù)據(jù)集存入數(shù)據(jù)庫(kù);所述數(shù)據(jù)庫(kù)用于存儲(chǔ)采集到的數(shù)據(jù);所述數(shù)據(jù)碰撞分析服務(wù)器用于驗(yàn)證用戶指定的數(shù)據(jù)分析規(guī)則和對(duì)數(shù)據(jù)進(jìn)行碰撞分析并構(gòu)建結(jié)果集。作為優(yōu)選的,還包括一客戶端,用于展現(xiàn)數(shù)據(jù)集、接收用戶輸入的數(shù)據(jù)分析碰撞規(guī)則和向用戶展現(xiàn)結(jié)果集。作為優(yōu)選的,所述數(shù)據(jù)采集服務(wù)器包括導(dǎo)入數(shù)據(jù)模塊、數(shù)據(jù)格式驗(yàn)證模塊和構(gòu)建數(shù)據(jù)集模塊;所述導(dǎo)入數(shù)據(jù)模塊用于采集外部系統(tǒng)數(shù)據(jù),包括Excel文檔數(shù)據(jù)采集、連接數(shù)據(jù)庫(kù)采集數(shù)據(jù)和通過調(diào)用遠(yuǎn)程的Web服務(wù)采集數(shù)據(jù);所述格式驗(yàn)證模塊用于對(duì)采集到的數(shù)據(jù)格式進(jìn)行統(tǒng)一規(guī)范化處理;所述構(gòu)建數(shù)據(jù)庫(kù)模塊用于對(duì)處理后的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。作為優(yōu)選的,所述數(shù)據(jù)碰撞分析服務(wù)器包括預(yù)設(shè)條件模塊、驗(yàn)證條件模塊、數(shù)據(jù)分析對(duì)比模塊和構(gòu)建結(jié)果集模塊;所述預(yù)設(shè)條件模塊用于根據(jù)需要提取的特征進(jìn)行數(shù)據(jù)碰撞規(guī)則的設(shè)定;所述驗(yàn)證條件模塊用于檢查設(shè)定的碰撞規(guī)則是否符合要求;所述數(shù)據(jù)分析比對(duì)模塊用于對(duì)不同數(shù)據(jù)集進(jìn)行碰撞比對(duì);所述構(gòu)建結(jié)果集模塊用于對(duì)碰撞比對(duì)后的結(jié)果構(gòu)建結(jié)果集。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:本發(fā)明通過預(yù)設(shè)條件,對(duì)數(shù)據(jù)按指定的規(guī)則進(jìn)行頻次分析或者是數(shù)據(jù)比對(duì),得出包含數(shù)據(jù)關(guān)聯(lián)的結(jié)果集,從而發(fā)現(xiàn)指定特征或線索,排查嫌疑目標(biāo),能夠有效提高數(shù)據(jù)分析的工作效率。附圖說明圖1為本發(fā)明實(shí)施例的方法流程圖;圖2為圖1的具體流程圖;圖3為本發(fā)明實(shí)施例的系統(tǒng)結(jié)構(gòu)框圖。具體實(shí)施方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明所述的一種基于數(shù)據(jù)碰撞的特征線索查詢方法和系統(tǒng)作進(jìn)一步說明。以下是本發(fā)明所述的一種基于數(shù)據(jù)碰撞的特征線索查詢方法和系統(tǒng)的最佳實(shí)例,并不因此限定本發(fā)明的保護(hù)范圍。圖1示出了一種基于數(shù)據(jù)碰撞的特征線索查詢方法,可以用于尋找線索,包括以下步驟:S1、采集數(shù)據(jù),從外部系統(tǒng)采集數(shù)據(jù)(如車輛管理系統(tǒng)中,采集車輛運(yùn)行路線數(shù)據(jù)、或者從基站管理系統(tǒng)中采集手機(jī)基站的通信信息),采集數(shù)據(jù)集個(gè)數(shù)為m個(gè),每數(shù)據(jù)集有n列,去除有單元格拆分的文件和第一行不是列名的數(shù)據(jù)集。數(shù)據(jù)采集的方式,支持excel文件、數(shù)據(jù)庫(kù)連接、遠(yuǎn)程Web服務(wù)調(diào)用。S2、文件導(dǎo)入,構(gòu)建結(jié)構(gòu)化數(shù)據(jù),將文件中的列名和數(shù)據(jù)單獨(dú)保存,它們之間用數(shù)字序號(hào)關(guān)聯(lián),如將一個(gè)文件的表名存為col_1、col_2、col_3……col_n,那么它的k行數(shù)據(jù)就分別存在1到n列中;;結(jié)構(gòu)化數(shù)據(jù)包括三個(gè)部分:數(shù)據(jù)集記錄、數(shù)據(jù)集描述、數(shù)據(jù)集數(shù)據(jù),具體為:數(shù)據(jù)記錄:記錄數(shù)據(jù)的基本信息,其結(jié)構(gòu)為<id:name;time;ource;dataType;caseId>,分別是id、名稱、時(shí)間、來源、數(shù)據(jù)種類、關(guān)聯(lián)案件;數(shù)據(jù)集描述:一組數(shù)據(jù)n條,用于描述數(shù)據(jù)集的列,第n條結(jié)構(gòu)為:<id;recordId;colName;colType;validation>,每一項(xiàng)的含義分別是id、數(shù)據(jù)集id、列名、序號(hào)、數(shù)據(jù)類型、數(shù)據(jù)驗(yàn)證;數(shù)據(jù)集數(shù)據(jù):有若干條n列,每一列是<id;recordId;d1;d2;d3;…;dn;…>,d1到dn分別對(duì)應(yīng)數(shù)據(jù)集描述的每一條數(shù)據(jù)。S3、指定數(shù)據(jù)碰撞規(guī)則,選取p個(gè)導(dǎo)入的數(shù)據(jù)集,每個(gè)數(shù)據(jù)集選去q項(xiàng)(列),每一項(xiàng)指定相應(yīng)規(guī)則,規(guī)則包括:相似、相等和不等。S4、數(shù)據(jù)碰撞比對(duì),根據(jù)選取的數(shù)據(jù)模型和數(shù)據(jù)項(xiàng),依據(jù)選定的規(guī)則,結(jié)合數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)進(jìn)行比對(duì),統(tǒng)計(jì)數(shù)據(jù)的出現(xiàn)的頻次,得到選定的數(shù)據(jù)集中出現(xiàn)的指定規(guī)則的數(shù)據(jù)(相似、相等或不等)或高頻次數(shù)據(jù)。S5、將數(shù)據(jù)碰撞的結(jié)果集為用戶進(jìn)行展現(xiàn),如果結(jié)果集過大或者是無(wú),那么此次比對(duì)結(jié)果對(duì)于尋找線索就無(wú)意義,可以重復(fù)步驟3到步驟5。本發(fā)明的方法可以應(yīng)用到車輛過車數(shù)據(jù)分析中,如現(xiàn)采集了兩個(gè)數(shù)據(jù)文件,分別為“劉店過車數(shù)據(jù)”和“唐家墩過車數(shù)據(jù)”,通過查看視頻發(fā)現(xiàn)有一輛嫌疑車這兩個(gè)位置均出現(xiàn)過,時(shí)間范圍是下午4點(diǎn)到晚上10點(diǎn),現(xiàn)在要通過過車數(shù)據(jù)找出嫌疑車的車牌號(hào)?,F(xiàn)參照?qǐng)D2中本發(fā)明方法的步驟操作:步驟一:采集數(shù)據(jù),兩個(gè)數(shù)據(jù)文件分別是:劉店過車數(shù)據(jù):表1唐家墩過車數(shù)據(jù):表2上述數(shù)據(jù)為Excel數(shù)據(jù),它們第一行為列名,且無(wú)單元格合并和拆分,符合數(shù)據(jù)規(guī)則。步驟二,使用系統(tǒng)提供的Excel導(dǎo)入接口,將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù),分別在數(shù)據(jù)集記錄表里插入兩條數(shù)據(jù),記錄數(shù)據(jù)集id、導(dǎo)入的文件名、導(dǎo)入時(shí)間等信息;在數(shù)據(jù)集結(jié)構(gòu)表里插入兩條數(shù)據(jù),記錄數(shù)據(jù)集id、列名等;在數(shù)據(jù)集數(shù)據(jù)表里插入所有數(shù)據(jù)條目。步驟三,預(yù)設(shè)數(shù)據(jù)碰撞規(guī)則,這里選取兩個(gè)數(shù)據(jù)集“劉店過車數(shù)據(jù)”和“唐家墩過車數(shù)據(jù)”,選取數(shù)據(jù)比對(duì)的項(xiàng)“號(hào)牌號(hào)碼”、“號(hào)牌號(hào)碼”、“號(hào)牌號(hào)碼”。指定三項(xiàng)的比對(duì)規(guī)則均是“相等”。步驟四:提交預(yù)設(shè)條件,系統(tǒng)進(jìn)行數(shù)據(jù)碰撞分析。步驟五:向用戶展現(xiàn)結(jié)果集:號(hào)牌號(hào)碼號(hào)牌號(hào)碼車身顏色鄂AP9S79小型汽車號(hào)牌白色鄂A1U129小型汽車號(hào)牌其它顏色云A6MW90小型汽車號(hào)牌白色鄂AJB900大型汽車號(hào)牌其他顏色鄂A08LD5小型汽車號(hào)牌黑色鄂AV1K45小型汽車號(hào)牌黑色無(wú)牌其它號(hào)牌其它顏色表3經(jīng)過處理,獲得結(jié)果集共7條數(shù)據(jù),其中“無(wú)牌”為無(wú)效數(shù)據(jù)。根據(jù)視頻監(jiān)控已經(jīng)得到的嫌疑車的特征是:小型車、白色。因此目標(biāo)范圍被鎖定在“鄂AP9S79”和“云A6MW90”兩個(gè)車牌號(hào)上。通過上述處理大大的縮小了嫌疑的目標(biāo)范圍,減少了車輛排查的工作量。本實(shí)施例中,還提供了一種根據(jù)上述方法進(jìn)行特征線索查詢的系統(tǒng),如圖3所示,包括數(shù)據(jù)采集服務(wù)器、數(shù)據(jù)碰撞分析服務(wù)器及數(shù)據(jù)庫(kù);所述數(shù)據(jù)采集服務(wù)器用于采集外部系統(tǒng)的數(shù)據(jù),并對(duì)其進(jìn)行規(guī)范化處理,構(gòu)建數(shù)據(jù)集存入數(shù)據(jù)庫(kù);所述數(shù)據(jù)庫(kù)用于存儲(chǔ)采集到的數(shù)據(jù);所述數(shù)據(jù)碰撞分析服務(wù)器用于驗(yàn)證用戶指定的數(shù)據(jù)分析規(guī)則和對(duì)數(shù)據(jù)進(jìn)行碰撞分析并構(gòu)建結(jié)果集。作為優(yōu)選的,還包括一客戶端,用于展現(xiàn)數(shù)據(jù)集、接收用戶輸入的數(shù)據(jù)分析碰撞規(guī)則和向用戶展現(xiàn)結(jié)果集。作為優(yōu)選的,所述數(shù)據(jù)采集服務(wù)器包括導(dǎo)入數(shù)據(jù)模塊、數(shù)據(jù)格式驗(yàn)證模塊和構(gòu)建數(shù)據(jù)集模塊;所述導(dǎo)入數(shù)據(jù)模塊用于采集外部系統(tǒng)數(shù)據(jù),包括Excel文檔數(shù)據(jù)采集、連接數(shù)據(jù)庫(kù)采集數(shù)據(jù)和通過調(diào)用遠(yuǎn)程的Web服務(wù)采集數(shù)據(jù);本實(shí)施例中的導(dǎo)入數(shù)據(jù)模塊兼容多種接口,可以收集各個(gè)不同地段、不同設(shè)備采集到的數(shù)據(jù)。所述格式驗(yàn)證模塊用于對(duì)采集到的數(shù)據(jù)格式進(jìn)行統(tǒng)一規(guī)范化處理,將采集到的數(shù)據(jù)進(jìn)行格式統(tǒng)一,方便對(duì)數(shù)據(jù)進(jìn)行同于規(guī)范的處理;所述構(gòu)建數(shù)據(jù)庫(kù)模塊用于對(duì)處理后的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。作為優(yōu)選的,所述數(shù)據(jù)碰撞分析服務(wù)器包括預(yù)設(shè)條件模塊、驗(yàn)證條件模塊、數(shù)據(jù)分析對(duì)比模塊和構(gòu)建結(jié)果集模塊;所述預(yù)設(shè)條件模塊用于根據(jù)需要提取的特征進(jìn)行數(shù)據(jù)碰撞規(guī)則的設(shè)定;所述驗(yàn)證條件模塊用于檢查設(shè)定的碰撞規(guī)則是否符合要求;所述數(shù)據(jù)分析比對(duì)模塊用于對(duì)不同數(shù)據(jù)集進(jìn)行碰撞比對(duì);所述構(gòu)建結(jié)果集模塊用于對(duì)碰撞比對(duì)后的結(jié)果構(gòu)建結(jié)果集。以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。當(dāng)前第1頁(yè)1 2 3