一種嫌疑對象預(yù)測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘技術(shù),特別是一種根據(jù)案件特征預(yù)測案件的嫌疑對象的預(yù)測方法。
【背景技術(shù)】
[0002]隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展以及公安數(shù)據(jù)信息化的進(jìn)程越發(fā)深入,從歷史數(shù)據(jù)中挖掘新的公安業(yè)務(wù)知識為公安業(yè)務(wù)決策提供支持已經(jīng)變得可能且現(xiàn)實。使用數(shù)據(jù)挖掘技術(shù)為公安偵破案件提供決策支持可以提升案件偵破可能。因此,利用數(shù)據(jù)挖掘技術(shù)為案件偵破提供決策依據(jù)符合時代發(fā)展與公安需求。
[0003]在傳統(tǒng)信息化時代,公安信息系統(tǒng)可以為案件偵破工作提供基礎(chǔ)的查詢統(tǒng)計服務(wù)。從數(shù)據(jù)庫中查詢歷史案件信息,人工分析案件結(jié)果,并對新案件進(jìn)行錄入統(tǒng)計等操作。系統(tǒng)根據(jù)公安業(yè)務(wù)經(jīng)驗進(jìn)行查詢條件的開發(fā),減少人工分析的時間。
【發(fā)明內(nèi)容】
[0004]為解決上述技術(shù)問題,本發(fā)明提供了一種嫌疑對象預(yù)測方法,其包括以下步驟:
[0005]獲取足夠數(shù)量的歷史案件數(shù)據(jù)的案件特征與嫌疑對象特征,將所述案件特征作為特征項,將嫌疑對象特征作為標(biāo)簽項進(jìn)行訓(xùn)練得到嫌疑對象特征預(yù)測模型;
[0006]獲取某一特定案件的案件特征,并將所述案件特征輸入到所述嫌疑對象特征預(yù)測模型中請求特征預(yù)測,得到嫌疑對象預(yù)測特征;
[0007]獲取所述特定案件的發(fā)生地一定范圍內(nèi)的人員登記信息,將所述人員登記信息與所述嫌疑對象預(yù)測特征進(jìn)行比對,在所述人員登記信息中篩選得到預(yù)測的嫌疑對象。
[0008]較佳地,所述歷史案件數(shù)據(jù)可實時更新,所述嫌疑對象特征預(yù)測模型具有訓(xùn)練數(shù)據(jù)的路徑接口,所述更新后的歷史案件數(shù)據(jù)通過所述路徑接口輸入至所述嫌疑對象特征預(yù)測模型進(jìn)行訓(xùn)練。
[0009]較佳地,所述獲取足夠數(shù)量的歷史案件數(shù)據(jù)的案件特征與嫌疑對象特征過程包括:
[0010]首先對所述歷史案件數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換,得到指定路徑讀取指定格式的樣本數(shù)據(jù);
[0011]然后對清洗之后的樣本數(shù)據(jù)進(jìn)行預(yù)處理操作,去除包含重復(fù)、空白的記錄數(shù)據(jù)以及不符合規(guī)定格式的數(shù)據(jù)。
[0012]較佳地,所述案件特征的特征字段包括預(yù)備手段、作案天氣、組織形式、試探方式、選擇機(jī)會、暴力脅迫、用計算機(jī)、作案范圍、偽裝滅跡、選擇天氣、竊取手段、選擇潮汐、選擇日期、侵入手段、妨害手段、欺詐手段、勾結(jié)形式、行為特點(diǎn)、選擇時間、選擇星期,所述嫌疑對象特征包括性別、民族、身份、政治面貌、文化程度、是否吸毒、是否慣犯、是否精神病人、是否未成年;
[0013]所述歷史案件數(shù)據(jù)結(jié)合了 weka開源數(shù)據(jù)挖掘包,先經(jīng)過轉(zhuǎn)換得到.taff格式,修改格式后的數(shù)據(jù)文件格式分為聲明部分和數(shù)據(jù)部分,所述聲明部分說明所有的訓(xùn)練集數(shù)據(jù)的特征空間,所述數(shù)據(jù)部分包含訓(xùn)練數(shù)據(jù)的所有內(nèi)容,其具體格式為:
[0014]Relat1n字段,用于描述數(shù)據(jù)關(guān)系的內(nèi)容;
[0015]attribute xx {a, b, c,…}字段,用于數(shù)據(jù)屬性集合描述;
[0016]Data字段,數(shù)據(jù)主體部分。
[0017]較佳地,當(dāng)獲取的所述特定案件的案件特征不完整時,根據(jù)已輸入案件特征與歷史案件數(shù)據(jù)自動填充未填寫的案件特征。
[0018]較佳地,所述獲取所述特定案件的發(fā)生地一定范圍內(nèi)的人員登記信息具體過程包括:
[0019]獲取所述特定案件的發(fā)生地所在經(jīng)瑋度,獲取以所述經(jīng)瑋度點(diǎn)為圓心的指定半徑內(nèi)區(qū)域的人員登記信息。
[0020]較佳地,將所述人員登記信息與所述嫌疑對象預(yù)測特征進(jìn)行比對,在所述人員登記信息中篩選得到預(yù)測的嫌疑對象過程包括:
[0021]將嫌疑對象預(yù)測特征與所述人員登記信息中各個人員的特征字段進(jìn)行比對,相同特征字段數(shù)量超過設(shè)定值的人員即為預(yù)測的嫌疑對象。
[0022]本發(fā)明具有以下有益效果:
[0023]本發(fā)明通過歷史案件數(shù)據(jù)訓(xùn)練得到嫌疑對象特征預(yù)測模型,只需向嫌疑對象特征預(yù)測模型輸入特定案件的案件特征,即可得到嫌疑對象的預(yù)測特征;本發(fā)明根據(jù)輸入的時間地點(diǎn)范圍篩選排查可能的嫌疑對象,過濾不符合預(yù)測特征的人員。
[0024]當(dāng)然,實施本發(fā)明的任一產(chǎn)品并不一定需要同時達(dá)到以上所述的所有優(yōu)點(diǎn)。
【附圖說明】
[0025]為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0026]圖1為本發(fā)明實施例提供的嫌疑對象預(yù)測特征的獲取流程圖;
[0027]圖2為本發(fā)明實施例提供的嫌疑對象預(yù)測方法流程示意圖。
【具體實施方式】
[0028]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護(hù)的范圍。
[0029]本發(fā)明主要為了解決公安案件嫌疑人的特征預(yù)測及嫌疑人列表推薦的問題。主要采用數(shù)據(jù)挖掘的算法,使用歷史數(shù)據(jù)構(gòu)建嫌疑人特征預(yù)測模型,然后根據(jù)新的案件特點(diǎn)預(yù)測嫌疑人特征。同時,為了有效的推薦可能的嫌疑人,從案件發(fā)生的時間地點(diǎn)附近的流動人員中篩選過濾出可能的嫌疑人列表,并排序呈現(xiàn)。其主要的解決方案闡明如下,首先從歷史案件數(shù)據(jù)中產(chǎn)生訓(xùn)練集數(shù)據(jù),使用產(chǎn)生的訓(xùn)練數(shù)據(jù)訓(xùn)練分類算法模型,通過前臺傳入的案件發(fā)生特征預(yù)測嫌疑人特征,同時根據(jù)案件發(fā)生的時間地點(diǎn)篩選出指定時間地點(diǎn)范圍內(nèi)的流動人員信息,根據(jù)之前的預(yù)測結(jié)果過濾流動人員中不符合預(yù)測結(jié)果的人員。
[0030]如圖1所示與圖2所示,本實施例提供的嫌疑對象預(yù)測方法,其具體包括以下步驟:
[0031]獲取足夠數(shù)量的歷史案件數(shù)據(jù)的案件特征與嫌疑對象特征,將所述案件特征作為特征項,將嫌疑對象特征作為標(biāo)簽項進(jìn)行訓(xùn)練得到嫌疑對象特征預(yù)測模型;
[0032]獲取某一特定案件的案件特征,并將所述案件特征輸入到所述嫌疑對象特征預(yù)測模型中請求特征預(yù)測,得到嫌疑對象預(yù)測特征;
[0033]獲取所述特定案件的發(fā)生地一定范圍內(nèi)的人員登記信息,將所述人員登記信息與所述嫌疑對象預(yù)測特征進(jìn)行比對,在所述人員登記信息中篩選得到預(yù)測的嫌疑對象。
[0034]本實施例中,首先需要對所述歷史案件數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換,得到指定路徑讀取指定格式的樣本數(shù)據(jù);
[0035]然后對清洗之后的樣本數(shù)據(jù)進(jìn)行預(yù)處理操作,去除包含重復(fù)、空白的記錄數(shù)據(jù)以及不符合規(guī)定格式的數(shù)據(jù)。如長度不符合要求的數(shù)據(jù),如身份證號不等于18位;包含字符的數(shù)字字段,如身份證號包含非結(jié)尾的X字母;錯誤格式數(shù)據(jù),如不符合xx@yy.zz的郵箱格式;該數(shù)據(jù)包括案件發(fā)生條件字段和嫌疑人特征字段,其案件特征字段包括多項特征字段,包括作案預(yù)備手段、作案天氣選擇、組織形式、試探方式、選擇機(jī)會、暴力脅迫、用計算機(jī)、作案范圍、偽裝滅跡、選擇天氣、竊取手段、選擇潮汐、選擇日期、侵入手段、妨害手段、欺詐手段、勾結(jié)形式、行為特點(diǎn)、選擇時間、選擇星期等,預(yù)測特征共有8項,包括性別、民族、身份、政治面貌、文化程度、是否吸毒、是否慣犯、是否精神病人、是否未成年。當(dāng)然這里案件特征字段與嫌疑人特征也可以增加或者減少,本發(fā)明不做限定。
[0036]這里所述歷史案件數(shù)據(jù)可實時更新,所述嫌疑對象