本發(fā)明涉及公安案件分析技術(shù)領(lǐng)域,具體而言,涉及一種智能串并案分析方法及系統(tǒng)。
背景技術(shù):
當(dāng)前,刑事犯罪斗爭(zhēng)的形勢(shì)十分嚴(yán)峻,刑事案件發(fā)案不斷上升,犯罪活動(dòng)的顯著特點(diǎn)是流竄性和系列性案件比較突出。犯罪分子采用跨區(qū)域、跳躍式、大范圍流竄的方法進(jìn)行作案,犯罪手段日趨狡猾,暴力性更明顯,時(shí)空跨度更大,且智能化、技術(shù)型團(tuán)伙作案有向深層方向發(fā)展趨勢(shì)。針對(duì)犯罪流竄性、系列性的特點(diǎn),應(yīng)強(qiáng)化串并案件工作,進(jìn)行串并案件的偵查。
串并案分析是刑偵工作的一個(gè)重要的偵查手段,所謂的串并案分析是指通過(guò)對(duì)案件的作案手段、痕跡、物證等進(jìn)行綜合分析,將存在一定聯(lián)系的案件結(jié)合到一起進(jìn)行合并偵破的偵查方法。通過(guò)串并案可以獲取更多的案件信息,對(duì)系列性、連續(xù)性、多發(fā)性以及職業(yè)性犯罪案件的偵破具有極大的作用。串并案件有利于加強(qiáng)跨地區(qū)刑偵合作,共享犯罪信息資源,有利于獲取各種犯罪證據(jù)、深挖余罪、預(yù)防犯罪。串并案件的主要方法有:以案串案,以人串案,以物串案,以案件性質(zhì)串案。
傳統(tǒng)方法中通常需要偵查人員從以往的案件數(shù)據(jù)庫(kù)中進(jìn)行人工串并案分析,然而,由于犯罪案件的不斷增加,公安信息系統(tǒng)里存儲(chǔ)的案件數(shù)據(jù)量極其龐大,此外,一些無(wú)效的冗余信息也會(huì)出現(xiàn),偵查人員想要從公安信息系統(tǒng)中通過(guò)人工的方式找到跟案件相關(guān)的案件,困難程度是可想而知的,這就導(dǎo)致了人力的增加,效率的下降?;谠泄残畔⑾到y(tǒng)的串并案方法,往往會(huì)導(dǎo)致最終的串并案分析不夠全面,且不夠及時(shí)準(zhǔn)確,例如應(yīng)該進(jìn)行串并的案件沒(méi)有串并或及時(shí)串并,從而貽誤了破案時(shí)機(jī),嚴(yán)重的還會(huì)造成犯案人員連續(xù)作案,成為慣犯,給公民造成恐慌害怕,而嚴(yán)重影響社會(huì)的和諧穩(wěn)定。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種智能串并案分析方法及系統(tǒng),以解決現(xiàn)有技術(shù)中串并案分析時(shí)需要偵查人員從公安信息系統(tǒng)中人工分析查找導(dǎo)致的費(fèi)時(shí)費(fèi)力、效率低下的問(wèn)題,能夠提高串并案分析效率和準(zhǔn)確率。
第一方面,本發(fā)明實(shí)施例提供了一種智能串并案分析方法,所述方法包括以下步驟:
基于公安刑偵數(shù)據(jù)庫(kù)建立案件特征數(shù)據(jù)倉(cāng)庫(kù);
基于所述案件特征數(shù)據(jù)倉(cāng)庫(kù)通過(guò)機(jī)器學(xué)習(xí)生成串并案分析模型;
利用所述串并案分析模型對(duì)未破案件進(jìn)行分析,生成類案列表。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第一種可能的實(shí)施方式,其中,上述方法還包括以下步驟:
基于公安前科人員數(shù)據(jù)庫(kù)建立高危人群數(shù)據(jù)庫(kù)。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第二種可能的實(shí)施方式,其中,上述方法還包括以下步驟:
基于軌跡信息建立人員活動(dòng)軌跡數(shù)據(jù)庫(kù)。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第三種可能的實(shí)施方式,其中,上述方法還包括以下步驟:
從所述高危人群數(shù)據(jù)庫(kù)中調(diào)取高危人群數(shù)據(jù);
從所述人員活動(dòng)軌跡數(shù)據(jù)庫(kù)中調(diào)取軌跡數(shù)據(jù);
利用所述高危人群數(shù)據(jù)和所述軌跡數(shù)據(jù)對(duì)類案列表進(jìn)行數(shù)據(jù)分析,生成串并案列表。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第四種可能的實(shí)施方式,其中,
所述軌跡信息包括電子圍欄軌跡、上網(wǎng)軌跡、住宿軌跡、消費(fèi)軌跡、公共交通出行軌跡。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第五種可能的實(shí)施方式,其中,所述機(jī)器學(xué)習(xí)具體包括以下步驟:
選擇訓(xùn)練經(jīng)驗(yàn);
選擇目標(biāo)函數(shù);
選擇目標(biāo)函數(shù)的表示形式;
選擇函數(shù)逼近算法。
本發(fā)明實(shí)施例提供了一種智能串并案分析方法,通過(guò)建立基于公安刑偵數(shù)據(jù)庫(kù)的案件特征數(shù)據(jù)倉(cāng)庫(kù),作為數(shù)據(jù)支持。基于案件特征數(shù)據(jù)倉(cāng)庫(kù)通過(guò)機(jī)器學(xué)習(xí),分析已破串并案件的特征,生成串并案分析模型,并可以在用戶的實(shí)際使用中不斷更新、完善,最后利用串并案分析模型對(duì)未破案件進(jìn)行分析,生成類案列表。在作案特征具有相同點(diǎn)、相似點(diǎn)的未破案件,就會(huì)作為類案出現(xiàn)在該類案列表中。從而解決了現(xiàn)有技術(shù)中串并案分析時(shí)需要偵查人員從公安信息系統(tǒng)中人工分析查找導(dǎo)致的費(fèi)時(shí)費(fèi)力、效率低下的問(wèn)題,提高了串并案分析效率和準(zhǔn)確率、降低遺漏率。
第二方面,本發(fā)明實(shí)施例提供了一種智能串并案分析系統(tǒng),包括:
數(shù)據(jù)集成模塊,用于基于公安刑偵數(shù)據(jù)庫(kù)建立案件特征數(shù)據(jù)倉(cāng)庫(kù);
機(jī)器學(xué)習(xí)模塊,用于基于所述案件特征數(shù)據(jù)倉(cāng)庫(kù)通過(guò)機(jī)器學(xué)習(xí)生成串并案分析模型;
類案生成模塊,用于利用所述串并案分析模型對(duì)未破案件進(jìn)行分析,生成類案列表。
結(jié)合第二方面,發(fā)明實(shí)施例提供了第二方面的第一種可能的實(shí)施方式,其中,該智能串并案分析系統(tǒng)還包括:
軌跡分析模塊,用于基于軌跡信息建立人員活動(dòng)軌跡數(shù)據(jù)庫(kù);
高危人群生成模塊,用于基于公安前科人員數(shù)據(jù)庫(kù)建立高危人群數(shù)據(jù)庫(kù)。
結(jié)合第二方面,發(fā)明實(shí)施例提供了第二方面的第二種可能的實(shí)施方式,其中,該智能串并案分析系統(tǒng)還包括:
數(shù)據(jù)接入模塊,用于從所述人員活動(dòng)軌跡數(shù)據(jù)庫(kù)、所述高危人群數(shù)據(jù)庫(kù)中分別調(diào)取人員軌跡數(shù)據(jù)、高危人群數(shù)據(jù);
分析模塊,用于利用所述高危人群數(shù)據(jù)和所述軌跡數(shù)據(jù)對(duì)類案列表進(jìn)行數(shù)據(jù)分析,生成串并案列表。
結(jié)合第二方面,發(fā)明實(shí)施例提供了第二方面的第三種可能的實(shí)施方式,其中,
所述軌跡信息包括電子圍欄軌跡、上網(wǎng)軌跡、住宿軌跡、消費(fèi)軌跡、公共交通出行軌跡。
本發(fā)明實(shí)施例提供了一種智能串并案分析系統(tǒng),包括數(shù)據(jù)集成模塊、機(jī)器學(xué)習(xí)模塊和類案生成模塊,其中,數(shù)據(jù)集成模塊用于基于公安刑偵數(shù)據(jù)庫(kù)建立案件特征數(shù)據(jù)倉(cāng)庫(kù),機(jī)器學(xué)習(xí)模塊用于基于案件特征數(shù)據(jù)倉(cāng)庫(kù)通過(guò)機(jī)器學(xué)習(xí)生成串并案分析模型,類案生成模塊用于利用串并案分
析模型對(duì)未破案件進(jìn)行分析,生成類案列表。通過(guò)建立案件特征數(shù)據(jù)倉(cāng)庫(kù),作為數(shù)據(jù)支持,然后基于案件特征數(shù)據(jù)倉(cāng)庫(kù)通過(guò)機(jī)器學(xué)習(xí),分析已破串并案件的特征,生成串并案分析模型,并可以在用戶的實(shí)際使用中不斷更新、完善,最后利用串并案分析模型對(duì)未破案件進(jìn)行分析,生成類案列表。在作案特征具有相同點(diǎn)、相似點(diǎn)的未破案件,就會(huì)作為類案出現(xiàn)在該類案列表中。從而解決了現(xiàn)有技術(shù)中串并案分析時(shí)需要偵查人員從公安信息系統(tǒng)中人工分析查找導(dǎo)致的費(fèi)時(shí)費(fèi)力、效率低下的問(wèn)題,提高了串并案分析效率和準(zhǔn)確率。
本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書中闡述,并且,部分地從說(shuō)明書中變得顯而易見,或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)在說(shuō)明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說(shuō)明如下。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對(duì)范圍的限定,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1示出了本發(fā)明實(shí)施例所提供的一種智能串并案分析方法的流程圖;
圖2示出了本發(fā)明實(shí)施例所提供的一種智能串并案分析方法中機(jī)器學(xué)習(xí)的流程圖;
圖3示出了本發(fā)明實(shí)施例所提供的一種智能串并案分析系統(tǒng)的結(jié)構(gòu)框架圖。
圖示說(shuō)明:
301-數(shù)據(jù)集成模塊,302-機(jī)器學(xué)習(xí)模塊,303-類案生成模塊
304-軌跡分析模塊,305-高危人群生成模塊
306-數(shù)據(jù)接入模塊,307-分析模塊
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。因此,以下對(duì)在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例?;诒景l(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
串并案分析是案件偵破過(guò)程中的一個(gè)重要環(huán)節(jié),對(duì)系列性案件、多發(fā)性案件、職業(yè)性犯罪進(jìn)行串聯(lián)合并,能夠減少重復(fù)偵查,節(jié)約偵查的人力、物力、財(cái)力資源。把個(gè)案中的線索、證據(jù)疊加在一起,串聯(lián)出一條完整的線索鏈,合并組織偵查,可以實(shí)現(xiàn)偵破一起案件而破獲全部被串并的的所有案件。串并案?jìng)刹楣ぷ髂J接砂l(fā)現(xiàn)串并案案源、確認(rèn)并案、開展偵查三階段組成。對(duì)于同一個(gè)犯罪主體來(lái)說(shuō),在其連續(xù)作案的過(guò)程中,其作案方法、手段會(huì)表現(xiàn)出相對(duì)穩(wěn)定性。作案方法、手段的相對(duì)穩(wěn)定性,能夠反映出其所在各個(gè)案件的內(nèi)在聯(lián)系,代表著其的犯罪活動(dòng)規(guī)律與特點(diǎn)。發(fā)現(xiàn)、認(rèn)識(shí)這一規(guī)律的過(guò)程就是偵查部門串聯(lián)并案的過(guò)程,即對(duì)一系列案件做同一性認(rèn)定的過(guò)程,是發(fā)現(xiàn)串并案源與確定并案案件的基礎(chǔ)。
目前,現(xiàn)有串并案分析技術(shù),是通過(guò)人為指定案件特點(diǎn),在多個(gè)數(shù)據(jù)庫(kù)中逐步搜集類似案件信息,人工對(duì)類似案件信息進(jìn)行整合,然后對(duì)大量的類似案件,依次進(jìn)行案件信息分析和軌跡分析來(lái)判斷。也就是說(shuō),現(xiàn)有的公安串并案工作主要依賴重復(fù)性人工分析,效率低下。這種串并案分析模式工作量大,人工分析成本高、耗時(shí)久、效率低,難于應(yīng)對(duì)信息化時(shí)代的發(fā)展要求。此外,這種傳統(tǒng)串并案分析模式影響到破案的速度和效率的同時(shí),隨著分析人員的工作量加大,分析人員的疲勞程度增加,分析的準(zhǔn)確性也會(huì)受到影響,往往會(huì)導(dǎo)致分析不夠全面、串并案不及時(shí),應(yīng)串并案件未能串并或串并不及時(shí)串并,從而貽誤破案時(shí)機(jī),致使系列案件、刑事案件連續(xù)發(fā)生,導(dǎo)致嚴(yán)重后果。
基于此,本發(fā)明實(shí)施例提供的一種智能串并案分析方法及系統(tǒng),可以解決現(xiàn)有串并案分析模式中人工分析導(dǎo)致的費(fèi)時(shí)費(fèi)力、效率低下的問(wèn)題,能夠提高串并案分析效率和準(zhǔn)確率。
為便于對(duì)本實(shí)施例進(jìn)行理解,首先對(duì)本發(fā)明實(shí)施例所公開的一種串并案分析方法進(jìn)行詳細(xì)介紹,
圖1為本發(fā)明實(shí)施例提供的一種智能串并案分析方法的流程圖。
參照?qǐng)D1,該方法包括如下步驟:
步驟S102,基于公安刑偵數(shù)據(jù)庫(kù)建立案件特征數(shù)據(jù)倉(cāng)庫(kù)。
具體地,建立基于大數(shù)據(jù)的案件特征數(shù)據(jù)倉(cāng)庫(kù),將公安刑偵數(shù)據(jù)庫(kù)的數(shù)據(jù)通過(guò)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(Extract-Transform-Load,簡(jiǎn)稱ETL)抽取到案件特征數(shù)據(jù)倉(cāng)庫(kù)中,作為數(shù)據(jù)支持。數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
ETL用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程。ETL作為構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要的一個(gè)環(huán)節(jié),從數(shù)據(jù)源抽取出所需的數(shù)據(jù)。具體的,將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。ETL原來(lái)主要用于構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能項(xiàng)目,現(xiàn)在也越來(lái)越多地應(yīng)用于一般信息系統(tǒng)數(shù)據(jù)的遷移、交換和同步。
其中,數(shù)據(jù)抽取是從源數(shù)據(jù)源系統(tǒng)抽取目標(biāo)數(shù)據(jù)源系統(tǒng)需要的數(shù)據(jù)。通過(guò)接口提取源數(shù)據(jù),例如JDBC(Java Data Base Connectivity,Java數(shù)據(jù)庫(kù)連接)、專用數(shù)據(jù)庫(kù)接口和平面文件提取器,并參照源數(shù)據(jù)來(lái)決定數(shù)據(jù)的提取及其提取方式;
數(shù)據(jù)轉(zhuǎn)換將從源數(shù)據(jù)源獲取的數(shù)據(jù)按照業(yè)務(wù)需求,轉(zhuǎn)換成目標(biāo)數(shù)據(jù)源要求的形式,并對(duì)錯(cuò)誤、不一致的數(shù)據(jù)進(jìn)行清洗和加工;也就是說(shuō),開發(fā)者將提取的數(shù)據(jù),按照業(yè)務(wù)需要轉(zhuǎn)換為目標(biāo)數(shù)據(jù)結(jié)構(gòu),并實(shí)現(xiàn)匯總;
數(shù)據(jù)加載將轉(zhuǎn)換后的數(shù)據(jù)裝載到目的數(shù)據(jù)源。加載經(jīng)轉(zhuǎn)換和匯總的數(shù)據(jù)到目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)中,可實(shí)現(xiàn)SQL(Structured Query Language,結(jié)構(gòu)化查詢語(yǔ)言)或批量加載。ETL常用在數(shù)據(jù)倉(cāng)庫(kù),但其對(duì)象并不限于數(shù)據(jù)倉(cāng)庫(kù)。
在ETL的以上3個(gè)環(huán)節(jié)中,數(shù)據(jù)抽取直接面對(duì)各種分散、異構(gòu)的數(shù)據(jù)源,如何保證穩(wěn)定高效的從這些數(shù)據(jù)源中提取正確的數(shù)據(jù),是ETL設(shè)計(jì)和實(shí)施過(guò)程中需要考慮的關(guān)鍵問(wèn)題之一。數(shù)據(jù)抽取是根據(jù)實(shí)際場(chǎng)景來(lái)的,一般情況下,首次是全量抽取,后續(xù)會(huì)根據(jù)實(shí)際需求來(lái)做增量抽取。在集成端進(jìn)行數(shù)據(jù)的初始化時(shí),一般需要將數(shù)據(jù)源端的全部數(shù)據(jù)裝載進(jìn)來(lái),這時(shí)需要進(jìn)行全量抽取。全量抽取類似于數(shù)據(jù)遷移或數(shù)據(jù)復(fù)制,它將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)全部從數(shù)據(jù)庫(kù)中抽取出來(lái),轉(zhuǎn)換成自己的ETL工具(如Oracle的Oracle Warehouse Builder,SQL Server的Integration Services)可以識(shí)別的格式,再進(jìn)行后續(xù)的加載操作。全量抽取可以使用數(shù)據(jù)復(fù)制、導(dǎo)入或者備份的方式完成,實(shí)現(xiàn)機(jī)制比較簡(jiǎn)單。全量抽取完成后,后續(xù)的抽取操作只需抽取自上次抽取以來(lái)表中新增或修改的數(shù)據(jù),這就是增量抽取。目前增量數(shù)據(jù)抽取中常用的捕獲變化數(shù)據(jù)的方法有:觸發(fā)器、時(shí)間戳、全表對(duì)比、日志對(duì)比等。ETL實(shí)施過(guò)程中究竟選擇哪種增量抽取機(jī)制,要根據(jù)實(shí)際的數(shù)據(jù)源系統(tǒng)環(huán)境進(jìn)行決策,需要綜合考慮源系統(tǒng)數(shù)據(jù)庫(kù)的類型、抽取的數(shù)據(jù)量(決定對(duì)性能要求的苛刻程度)、對(duì)源業(yè)務(wù)系統(tǒng)和數(shù)據(jù)庫(kù)的控制能力以及實(shí)現(xiàn)難度等各種因素,甚至結(jié)合各種不同的增量機(jī)制以針對(duì)環(huán)境不同的數(shù)據(jù)源系統(tǒng)進(jìn)行ETL實(shí)施。
進(jìn)一步的是,本實(shí)施例中ETL從公安刑偵數(shù)據(jù)庫(kù)中抽取的數(shù)據(jù)包括案件類別(殺人、搶劫、盜竊等)、案件狀態(tài)(立案、已破案件、未破案件等)、案件特征(現(xiàn)場(chǎng)痕跡、物品等)、人員特征(體貌特征等),形成案件特征數(shù)據(jù)倉(cāng)庫(kù)。首次使用采用全量抽取方式,當(dāng)有新的案件產(chǎn)生,需要進(jìn)行增量抽取,增量抽取方式是以時(shí)間或以某個(gè)特征來(lái)索引來(lái)判斷所需增量的數(shù)據(jù),也就是以時(shí)間戳為主,配合其他方式進(jìn)行增量抽取。
步驟S104,基于案件特征數(shù)據(jù)倉(cāng)庫(kù)通過(guò)機(jī)器學(xué)習(xí)生成串并案分析模型。
具體地,基于案件特征數(shù)據(jù)倉(cāng)庫(kù),通過(guò)機(jī)器學(xué)習(xí),分析已破串并案件的特征,該特征包括:作案手段、作案特點(diǎn)、作案時(shí)間、選擇地點(diǎn)等特征,生成基于不同作案特征的串并案分析模型,并可以在用戶的實(shí)際使用中不斷更新、完善。也就是說(shuō),通過(guò)對(duì)案件特征數(shù)據(jù)倉(cāng)庫(kù)中的已破案件信息進(jìn)行機(jī)器學(xué)習(xí),形成精準(zhǔn)、高效、可自動(dòng)學(xué)習(xí)完善的串并案分析模型。
機(jī)器學(xué)習(xí)(Machine Learning,ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。機(jī)器學(xué)習(xí)的目的就是讓機(jī)器具有類似于人類的學(xué)習(xí)、認(rèn)識(shí)、理解事物的能力。
進(jìn)一步地是,機(jī)器學(xué)習(xí)包括如圖2所示的步驟:
S202:選擇訓(xùn)練經(jīng)驗(yàn)。
具體地,給學(xué)習(xí)機(jī)器提供的訓(xùn)練經(jīng)驗(yàn)的選擇對(duì)于系統(tǒng)的成敗有著重要的影響。一般來(lái)講,訓(xùn)練經(jīng)驗(yàn)應(yīng)該能夠直接或者間接的對(duì)系統(tǒng)的決策做出一定的反饋,訓(xùn)練經(jīng)驗(yàn)應(yīng)該能夠在很大程度上控制訓(xùn)練樣例的序列;此外,訓(xùn)練經(jīng)驗(yàn)還應(yīng)該可以盡可能的對(duì)訓(xùn)練樣本和測(cè)試樣本的空間概率分布做出很好的估計(jì)。
S204:選擇目標(biāo)函數(shù)。
具體地,在給定訓(xùn)練樣本和訓(xùn)練經(jīng)驗(yàn)之后,機(jī)器學(xué)習(xí)問(wèn)題就簡(jiǎn)化為一個(gè)尋找理想目標(biāo)函數(shù)F(x)的問(wèn)題。
S206:選擇目標(biāo)函數(shù)的表示形式。
具體地,事實(shí)上,通過(guò)對(duì)樣本的學(xué)習(xí)和訓(xùn)練來(lái)得到理想的目標(biāo)函數(shù)F(x)是非常困難的,通常我們都希望能夠得到一個(gè)近似的目標(biāo)函數(shù)來(lái)盡量近似逼近理想的目標(biāo)函數(shù)。這里的近似逼近,可以采用二次多項(xiàng)式函數(shù)、神經(jīng)網(wǎng)絡(luò)等方法來(lái)實(shí)現(xiàn)。
S208:選擇函數(shù)逼近算法。
具體地,為了得到近似目標(biāo)函數(shù),我們根據(jù)選擇的初始近似目標(biāo)函數(shù)對(duì)訓(xùn)練樣本的輸入進(jìn)行估計(jì),從而得到訓(xùn)練樣本的估計(jì)輸出,之后,利用估計(jì)輸出與實(shí)際輸出之間的誤差來(lái)進(jìn)行反饋,通常是進(jìn)行權(quán)值調(diào)整。接著,對(duì)系統(tǒng)的輸入進(jìn)行重新估計(jì),得到新的輸出估計(jì)值,重新計(jì)算估計(jì)值與實(shí)際值之間的誤差,再次對(duì)系統(tǒng)進(jìn)行反饋,調(diào)整權(quán)重,依次重復(fù)執(zhí)行直到所有訓(xùn)練樣本的總誤差小于設(shè)定的閾值或者訓(xùn)練次數(shù)大于設(shè)定的次數(shù)。
步驟S106,利用串并案分析模型對(duì)未破案件進(jìn)行分析,生成類案列表。
具體地,利用串并案分析模型對(duì)案件特征數(shù)據(jù)倉(cāng)庫(kù)中的未破案件進(jìn)行分析,生成類案列表。在作案特征具有相同點(diǎn)、相似點(diǎn)的未破案件,就會(huì)作為類案出現(xiàn)在該類案列表中。需要說(shuō)明的是,串并案分析模型可以自動(dòng)分析未破案件特征,進(jìn)行歸類分析,生成類案列表,也可以通過(guò)外部(偵查人員、情報(bào)分析人員、案件組長(zhǎng)等一線偵破人員)的檢索(如案件特征)操作,生成類案列表。
進(jìn)一步的是,在使用串并案分析模型分析未破案件,并給出類案列表時(shí),根據(jù)外部(偵查人員、情報(bào)分析人員、案件組長(zhǎng)等一線偵破人員)的實(shí)際操作情況,對(duì)類案列表的串并分析,分析正確的,由機(jī)器學(xué)習(xí)記錄串并案分析模型;分析出現(xiàn)偏差的,由機(jī)器學(xué)習(xí),不斷改進(jìn),完善,不斷優(yōu)化串并案分析模型中各個(gè)維度的權(quán)重比,使該串并案模型進(jìn)一步接近實(shí)際應(yīng)用。
本發(fā)明實(shí)施例的智能串并案分析方法,通過(guò)建立基于大數(shù)據(jù)的案件特征數(shù)據(jù)倉(cāng)庫(kù),將公安刑偵數(shù)據(jù)庫(kù)的數(shù)據(jù)通過(guò)ETL的數(shù)據(jù)抽取,形成案件特征數(shù)據(jù)倉(cāng)庫(kù)中,作為數(shù)據(jù)支持?;诎讣卣鲾?shù)據(jù)倉(cāng)庫(kù)通過(guò)機(jī)器學(xué)習(xí),分析已破串并案件的特征,生成基于不同作案特征的串并案分析模型,最后利用串并案分析模型對(duì)未破案件進(jìn)行分析,生成類案列表。在作案特征具有相同點(diǎn)、相似點(diǎn)的未破案件,就會(huì)作為類案出現(xiàn)在該類案列表中。該串并案分析模型可以在實(shí)際使用過(guò)程中通過(guò)自動(dòng)學(xué)習(xí)不斷更新、完善,進(jìn)一步接近現(xiàn)實(shí)應(yīng)用,幫助公安刑偵人員快速、有效的推薦出可能的串并案,解決了現(xiàn)有技術(shù)中串并案分析時(shí)需要偵查人員從公安信息系統(tǒng)中人工分析查找導(dǎo)致的費(fèi)時(shí)費(fèi)力、效率低下的問(wèn)題,能夠提高串并案分析效率和準(zhǔn)確率。
上述方法,為了進(jìn)一步的提高串并案的準(zhǔn)確率,還包括以下步驟:
步驟S108,基于公安前科人員數(shù)據(jù)庫(kù)建立高危人群數(shù)據(jù)庫(kù)。
具體地,通過(guò)對(duì)公安前科人員信息進(jìn)行聚類分析,形成高危人群數(shù)據(jù)庫(kù),可以對(duì)串并案件推薦出可能作案的高危人群。進(jìn)一步的是,公安前科人員數(shù)據(jù)庫(kù)包括搶劫人員數(shù)據(jù)庫(kù)、吸毒人員數(shù)據(jù)庫(kù)、盜竊人員數(shù)據(jù)庫(kù)等。
聚類分析是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣品,要求能合理地按各自的特性來(lái)進(jìn)行合理的分類,沒(méi)有任何模式可供參考或依循,即是在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行的。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。聚類分析常用的計(jì)算方法主要包括如下幾種:分裂法(partitioning methods),層次法(hierarchical methods),基于密度的方法(density-based methods),基于網(wǎng)格的方法(grid-based methods),基于模型的方法(model-based methods)。
本實(shí)施例中聚類分析采用基于算法模型,根據(jù)實(shí)際場(chǎng)景選用其中的一類。
需要說(shuō)明的是,公安前科人員數(shù)據(jù)庫(kù)包含于案件特征數(shù)據(jù)倉(cāng)庫(kù)中。
步驟S110,基于軌跡信息建立人員活動(dòng)軌跡數(shù)據(jù)庫(kù)。
具體地,構(gòu)建基于大數(shù)據(jù)的人員活動(dòng)軌跡數(shù)據(jù)庫(kù),將公安可以掌握的人員的軌跡信息通過(guò)ETL數(shù)據(jù)抽取到人員活動(dòng)軌跡數(shù)據(jù)庫(kù)。其中,公安可以掌握的人員包括前科人員、涉案人員、嫌疑人員。
進(jìn)一步的是,軌跡信息包括電子圍欄軌跡、上網(wǎng)軌跡、住宿軌跡、消費(fèi)軌跡、公共交通出行軌跡。需要說(shuō)明的是,軌跡信息不限于上述幾種軌跡,還包括話單軌跡、車輛軌跡、鐵路軌跡、公交軌跡、地鐵軌跡、民航軌跡、銀行軌跡等。其中,電子圍欄指的是手機(jī)電子圍欄,又稱為無(wú)線數(shù)據(jù)采集終端,屬于公共安全卡口型設(shè)備,公安系統(tǒng)專用產(chǎn)品。針對(duì)公安及安全保衛(wèi)部門的迫切需要而開發(fā)生產(chǎn)的新一代電子追蹤控制裝備,利用先進(jìn)的無(wú)線移動(dòng)網(wǎng)絡(luò)和電子信息技術(shù)能夠?qū)μ囟ǖ膮^(qū)域或指定的人員進(jìn)行精確管控。電子圍欄由基站和后臺(tái)軟件兩大部分組成?;驹O(shè)備有兩種,一種是固定式基站,用于長(zhǎng)期固定安裝在某些室外環(huán)境場(chǎng)所(公共場(chǎng)所、旅游景點(diǎn)、重要設(shè)施、交通路口)對(duì)特定區(qū)域出入的手機(jī)進(jìn)行監(jiān)測(cè),另外一個(gè)是移動(dòng)式基站設(shè)備,可以部署在旅館、網(wǎng)吧、KTV、洗浴中心等室內(nèi)場(chǎng)點(diǎn),以及公交車、大巴車廂等移動(dòng)空間,方便靈活。后臺(tái)軟件安裝在總控中心,根據(jù)基站采集的信息,通過(guò)數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù),可以結(jié)合身份證、車牌號(hào)等有關(guān)資料,為工作人員提供監(jiān)測(cè)數(shù)據(jù)。
電子圍欄可以通過(guò)無(wú)線信號(hào)查找手機(jī)的數(shù)量,通過(guò)基站能識(shí)別出每個(gè)手機(jī)距離及軌跡。上網(wǎng)軌跡、住宿軌跡基于身份證登記獲得,消費(fèi)軌跡基于銀行卡信息獲得,公共交通出行軌跡包括基于視頻監(jiān)控,通過(guò)車輛視頻檢測(cè)算法獲取目標(biāo)初始信息,采用均值漂移算法結(jié)合卡爾曼濾波算法實(shí)現(xiàn)目標(biāo)的視頻跟蹤,再對(duì)其軌跡進(jìn)行統(tǒng)計(jì)分析,獲取目標(biāo)實(shí)際行駛方向的軌跡特征。
需要說(shuō)明的是,S108,S110僅為描述方便,并不代表先后順序。
步驟S112,從高危人群數(shù)據(jù)庫(kù)中調(diào)取高危人群數(shù)據(jù),從人員活動(dòng)軌跡數(shù)據(jù)庫(kù)中調(diào)取軌跡數(shù)據(jù),利用高危人群數(shù)據(jù)和軌跡數(shù)據(jù)對(duì)類案列表進(jìn)行數(shù)據(jù)分析,生成串并案列表。
具體地,串并案分析模型接入高危人群數(shù)據(jù)庫(kù),從高危人群數(shù)據(jù)庫(kù)中調(diào)取高危人群數(shù)據(jù);串并案分析模型接入人員活動(dòng)軌跡數(shù)據(jù)庫(kù),從人員活動(dòng)軌跡數(shù)據(jù)庫(kù)中調(diào)取軌跡數(shù)據(jù)。
需要說(shuō)明的是,以上調(diào)取高危人群數(shù)據(jù)與調(diào)取軌跡數(shù)據(jù)之間并沒(méi)有特定的先后順序,二者可以以任意順序進(jìn)行,也可以同時(shí)進(jìn)行。
利用高危人群數(shù)據(jù)和軌跡數(shù)據(jù)對(duì)類案列表進(jìn)行數(shù)據(jù)分析,生成串并案列表,進(jìn)一步提高串并案的準(zhǔn)確率。
本發(fā)明實(shí)施例還提供了一種智能串并案分析系統(tǒng),圖3為本發(fā)明實(shí)施例所提供的一種智能串并案分析系統(tǒng)的結(jié)構(gòu)框架圖。
如圖3所示,該智能串并案分析系統(tǒng)包括數(shù)據(jù)集成模塊301、機(jī)器學(xué)習(xí)模塊302和類案生成模塊303,數(shù)據(jù)集成模塊301與機(jī)器學(xué)習(xí)模塊302相連,機(jī)器學(xué)習(xí)模塊302與類案生成模塊303相連。
其中,數(shù)據(jù)集成模塊301用于基于公安刑偵數(shù)據(jù)庫(kù)建立案件特征數(shù)據(jù)倉(cāng)庫(kù),機(jī)器學(xué)習(xí)模塊302用于基于案件特征數(shù)據(jù)倉(cāng)庫(kù)通過(guò)機(jī)器學(xué)習(xí)生成串并案分析模型,類案生成模塊303用于利用串并案分析模型對(duì)未破案件進(jìn)行分析,生成類案列表。
該智能串并案分析系統(tǒng)的具體工作過(guò)程如下:
數(shù)據(jù)集成模塊301建立基于大數(shù)據(jù)的案件特征數(shù)據(jù)倉(cāng)庫(kù),將公安刑偵數(shù)據(jù)庫(kù)的數(shù)據(jù)通過(guò)ETL抽取到案件特征數(shù)據(jù)倉(cāng)庫(kù)中,作為數(shù)據(jù)支持。
機(jī)器學(xué)習(xí)模塊302,通過(guò)對(duì)案件特征數(shù)據(jù)倉(cāng)庫(kù)中的已破案件信息進(jìn)行機(jī)器學(xué)習(xí),形成精準(zhǔn)、高效、可自動(dòng)學(xué)習(xí)完善的串并案分析模型。也就是說(shuō),機(jī)器學(xué)習(xí)模塊302基于案件特征數(shù)據(jù)倉(cāng)庫(kù)通過(guò)機(jī)器學(xué)習(xí),分析已破串并案件的特征,該特征包括:作案手段、作案特點(diǎn)、作案時(shí)間、選擇地點(diǎn)等特征,生成基于不同作案特征的串并案分析模型,并可以在用戶的實(shí)際使用中不斷更新、完善。機(jī)器學(xué)習(xí)模塊302進(jìn)行機(jī)器學(xué)習(xí)的步驟如圖2所示,在此不再贅述。
類案生成模塊303利用機(jī)器學(xué)習(xí)模塊302生成的串并案分析模型對(duì)未破案件進(jìn)行分析,生成類案列表。在作案特征具有相同點(diǎn)、相似點(diǎn)的未破案件,就會(huì)作為類案出現(xiàn)在該類案列表中。需要說(shuō)明的是,類案生成模塊303可以利用串并案模型自動(dòng)分析未破案件特征,進(jìn)行歸類,生成類案列表,也可以接收外部(偵查人員、情報(bào)分析人員、案件組長(zhǎng)等一線偵破人員)的檢索(如案件特征)信號(hào),生成類案列表。進(jìn)一步的是,類案生成模塊303在使用串并案分析模型分析未破案件并給出類案列表時(shí),根據(jù)外部(偵查人員、情報(bào)分析人員、案件組長(zhǎng)等一線偵破人員)的實(shí)際操作信號(hào),將分析結(jié)果反饋給機(jī)器學(xué)習(xí)模塊302,例如接收外部操作信號(hào)對(duì)類案列表的串并分析正確的,將此結(jié)果正反饋至機(jī)器學(xué)習(xí)模塊302由其記錄并更新串并案分析模型;分析出現(xiàn)偏差的,將此偏差結(jié)果負(fù)反饋至機(jī)器學(xué)習(xí)模塊302,繼續(xù)機(jī)器學(xué)習(xí)優(yōu)化串并案分析模型中各個(gè)維度的權(quán)重比,使該串并案模型進(jìn)一步接近實(shí)際應(yīng)用。
本發(fā)明實(shí)施例提供了一種智能串并案分析系統(tǒng),包括數(shù)據(jù)集成模塊、機(jī)器學(xué)習(xí)模塊和類案生成模塊;通過(guò)數(shù)據(jù)集成模塊建立基于公安刑偵數(shù)據(jù)庫(kù)的案件特征數(shù)據(jù)倉(cāng)庫(kù),機(jī)器學(xué)習(xí)模塊基于案件特征數(shù)據(jù)倉(cāng)庫(kù)通過(guò)機(jī)器學(xué)習(xí)已破案件的特征生成串并案分析模型,類案生成模塊利用串并案分析模型對(duì)未破案件進(jìn)行分析歸類,生成類案列表。在作案特征具有相同點(diǎn)、相似點(diǎn)的未破案件,就會(huì)作為類案出現(xiàn)在該類案列表中。該系統(tǒng)憑借大數(shù)據(jù)分析技術(shù)對(duì)公安行業(yè)進(jìn)行分析,深度挖掘公安業(yè)務(wù)邏輯,將公安刑偵數(shù)據(jù)庫(kù)通過(guò)ETL導(dǎo)入,形成完整的案件特征數(shù)據(jù)倉(cāng)庫(kù),建立一套基于公安行業(yè)的串并案分析模型,從而解決信息孤島,深度挖掘數(shù)據(jù)間的深層聯(lián)系,為用戶提供有用的決策信息。解決了現(xiàn)有技術(shù)中串并案分析時(shí)需要偵查人員從公安信息系統(tǒng)中人工分析查找導(dǎo)致的費(fèi)時(shí)費(fèi)力、效率低下的問(wèn)題,能夠提高串并案分析效率和準(zhǔn)確率。
進(jìn)一步的是,該智能串并案分析系統(tǒng)還包括軌跡分析模塊304和高危人群生成模塊305。
軌跡分析模塊304用于基于軌跡信息建立人員活動(dòng)軌跡數(shù)據(jù)庫(kù),高危人群生成模塊305用于基于公安前科人員數(shù)據(jù)庫(kù)建立高危人群數(shù)據(jù)庫(kù)。
具體的是,軌跡分析模塊304通過(guò)ETL抽取軌跡信息建立人員活動(dòng)軌跡數(shù)據(jù)庫(kù),軌跡信息包括電子圍欄軌跡、上網(wǎng)軌跡、住宿軌跡、消費(fèi)軌跡、公共交通出行軌跡。高危人群生成模塊305基于公安前科人員數(shù)據(jù)庫(kù),對(duì)已破案件以及相關(guān)的違法犯罪人員進(jìn)行聚類分析,深度挖掘案件特征與犯罪人員特征的關(guān)系,構(gòu)建出高危人群數(shù)據(jù)庫(kù)。
需要說(shuō)明的是,軌跡分析模塊304和高危人群生成模塊305均與數(shù)據(jù)集成模塊301相連,數(shù)據(jù)集成模塊301還用于將分散的軌跡信息以及前科人員數(shù)據(jù)庫(kù)中的人員信息進(jìn)行抽取、集成在一起,軌跡分析模塊304基于集成后的軌跡信息建立人員活動(dòng)軌跡數(shù)據(jù)庫(kù),高危人群生成模塊305用于基于公安前科人員數(shù)據(jù)庫(kù)中的集成的相關(guān)人員信息建立高危人群數(shù)據(jù)庫(kù)。
進(jìn)一步的是,該智能串并案分析系統(tǒng)還包括數(shù)據(jù)接入模塊306。軌跡模塊304、高危人群生成模塊305均與數(shù)據(jù)接入模塊306相連。數(shù)據(jù)接入的方式包括兩種,一種是對(duì)接數(shù)據(jù)庫(kù)的方式,另一種通過(guò)導(dǎo)入的方式,例如excel表格。
優(yōu)選的是,數(shù)據(jù)接入模塊306包括數(shù)據(jù)接入端口,通過(guò)數(shù)據(jù)對(duì)接的方式接入高危人群數(shù)據(jù)庫(kù)或人員活動(dòng)軌跡數(shù)據(jù)庫(kù)。數(shù)據(jù)接入模塊306用于從人員活動(dòng)軌跡數(shù)據(jù)庫(kù)、高危人群數(shù)據(jù)庫(kù)中分別調(diào)取人員軌跡數(shù)據(jù)、高危人群數(shù)據(jù)。
具體的是,數(shù)據(jù)接入模塊306從由高危人群生成模塊305建立的高危人群數(shù)據(jù)庫(kù)中調(diào)取高危人群數(shù)據(jù),從由軌跡分析模塊304建立的人員活動(dòng)軌跡數(shù)據(jù)庫(kù)中調(diào)取軌跡數(shù)據(jù)。
進(jìn)一步的是,該智能串并案分析系統(tǒng)還包括分析模塊307。數(shù)據(jù)接入模塊306與分析模塊307相連,分析模塊307與類案生成模塊303相連。
分析模塊307用于利用高危人群數(shù)據(jù)和軌跡數(shù)據(jù)對(duì)類案列表進(jìn)行數(shù)據(jù)分析,生成串并案列表。
具體地是,分析模塊307利用數(shù)據(jù)接入模塊306從高危人群數(shù)據(jù)庫(kù)中調(diào)取的高危人群數(shù)據(jù)以及從人員活動(dòng)軌跡數(shù)據(jù)庫(kù)中調(diào)取的軌跡數(shù)據(jù),對(duì)類案生成模塊303生成的類案列表進(jìn)行數(shù)據(jù)分析(對(duì)類案列表生成可能作案的高危人群,并結(jié)合軌跡數(shù)據(jù)進(jìn)行人員、案發(fā)地點(diǎn)軌跡分析),為公安分析人員提供高質(zhì)量的串并案推薦信息,生成串并案列表,進(jìn)一步減少公安情報(bào)分析人員的工作量。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。