一種基于遺傳算法與最近鄰算法的案件檢索方法與流程

文檔序號：11519649閱讀：297來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及信息檢索技術(shù)領(lǐng)域，尤其涉及一種基于遺傳算法與最近鄰算法的案件檢索方法。

背景技術(shù)：

法院作為案件審理的主體，在多年的工作中已經(jīng)積累了大量豐富的成功經(jīng)驗(yàn)，并以數(shù)字化的形式保存了大量案件情報信息。同時，隨著計算機(jī)技術(shù)應(yīng)用的逐步深入，對這些信息的管理和應(yīng)用策略也日漸成熟，特別是在各種管理信息系統(tǒng)投入應(yīng)用后，對案件情報信息的應(yīng)用力度和管理能力已經(jīng)大大提高。

在歷史案件信息的綜合挖掘利用方面，部分發(fā)達(dá)國家早在上世紀(jì)80年代后期就開始了研究。他們依靠其先進(jìn)的計算機(jī)技術(shù)的發(fā)展，利用計算機(jī)系統(tǒng)強(qiáng)大的數(shù)據(jù)處理與數(shù)據(jù)分析能力，把案件處理工作中獲取的各類信息進(jìn)行統(tǒng)一而規(guī)范的管理，以人工智能(如機(jī)器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)、決策樹、案例推理等)的方法進(jìn)行數(shù)據(jù)的綜合挖掘與綜合利用，從而得出相對可靠的、具有預(yù)警功能的情報信息或方案建議，以利于決策并指導(dǎo)行動。具有代表性的有英國情報核心分析系統(tǒng)(icas)、美國比較數(shù)據(jù)系統(tǒng)(compstat)、加拿大自動化犯罪情報信息系統(tǒng)(aciis)、澳大利亞執(zhí)法情報網(wǎng)絡(luò)(alein)以及我國香港的警隊(duì)刑事情報信息系統(tǒng)(fcis)等。

我國司法部門從上個世紀(jì)90年代后期開始跟蹤有關(guān)技術(shù)的發(fā)展，經(jīng)過幾年的積累，目前已經(jīng)對本課題的基本研究方向有了一定的認(rèn)識。當(dāng)前，全國公安系統(tǒng)正在深入開展的“金盾工程”和公安信息化建設(shè)的逐步深入，給我們提供了十分難得的發(fā)展機(jī)遇。人們已經(jīng)逐漸認(rèn)識到了數(shù)據(jù)的重要價值，并努力建設(shè)相應(yīng)的應(yīng)用系統(tǒng)來發(fā)揮數(shù)據(jù)的巨大效力。有關(guān)部門在此基礎(chǔ)上提出了打造“案偵信息化”的發(fā)展思路。通過引入信息化的思想，把常規(guī)的案件偵察流程信息化，融入信息化，應(yīng)用信息化來輔助辦案。刑偵部門在這方面的探索與發(fā)展已處于國內(nèi)公安領(lǐng)域的前列，陸續(xù)建設(shè)了“刑事案件串并案系統(tǒng)”、“xx數(shù)據(jù)專家分析系統(tǒng)”、“公安指揮決策支持系統(tǒng)”等綜合分析挖掘系統(tǒng)。但是，在綜合利用數(shù)據(jù)挖掘和案例推理技術(shù)來輔助案件偵察的研究方面還十分欠缺，目前還沒有開發(fā)出成功的系統(tǒng)，很多冠以“xx挖掘”的系統(tǒng)，僅僅是傳統(tǒng)的查詢、統(tǒng)計方法的綜合運(yùn)用罷了。并且，公安各警種相互間由于競爭而存在嚴(yán)重的技術(shù)壁壘，高新技術(shù)的產(chǎn)品及應(yīng)用系統(tǒng)往往對其他警種實(shí)施技術(shù)封鎖，使得各警種在新技術(shù)應(yīng)用水平上參差不齊，在一定程度上也阻礙了先進(jìn)技術(shù)在公安案偵領(lǐng)域的應(yīng)用。

另一方面，人們雖然逐漸習(xí)慣了案件情報數(shù)字化的使用方式，而且也產(chǎn)生了明顯的實(shí)際效果。但是，法院對這些數(shù)據(jù)的應(yīng)用還僅僅停留在簡單的查詢、統(tǒng)計、數(shù)據(jù)交換上，無法提供深層次的輔助決策支持服務(wù)。各部門在建設(shè)信息化應(yīng)用系統(tǒng)時，一開始對于系統(tǒng)的長期目標(biāo)規(guī)劃一般就是滿足信息的常規(guī)應(yīng)用，信息采集入庫往往是重點(diǎn)，缺乏深層次的綜合分析利用的規(guī)劃。而隨著時代發(fā)展，各類民事和刑事案件也是復(fù)雜紛繁，案件審理活動由人力密集型方式向信息密集型方式演進(jìn)，信息對案件審理的導(dǎo)向作用越來越明顯。這些歷史數(shù)據(jù)是大量的細(xì)節(jié)數(shù)據(jù)，提供了大量的事實(shí)和過程描述，缺乏深入的綜合分析與挖掘利用實(shí)在可惜。因此為了發(fā)揮這些海量數(shù)據(jù)的價值，必須借助案例推理系統(tǒng)及大數(shù)據(jù)分析等相關(guān)技術(shù)。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明要解決的技術(shù)問題是，提供一種基于遺傳算法與最近鄰算法的案件檢索方法。

為實(shí)現(xiàn)上述目的，本發(fā)明采用如下的技術(shù)方案：

一種基于遺傳算法與最近鄰算法的案件檢索方法包括以下步驟：

步驟s1、將刑事案例數(shù)據(jù)科學(xué)有效地以向量形式表述并存儲；

步驟s2、使用基于ga-knn方法算法建立的模型進(jìn)行推理；

步驟s3、通過海量刑事案例數(shù)據(jù)的增刪改查模塊，為用戶存取數(shù)據(jù)提供操作接口；

步驟s4、利用神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,預(yù)測出法官判決的結(jié)果。

作為優(yōu)選，步驟s1具體包括：

在經(jīng)過預(yù)處理后產(chǎn)生可供機(jī)器學(xué)習(xí)使用的向量化的數(shù)據(jù)；

在每次計算參數(shù)以及檢索相似案例時被多次讀取向量形式的數(shù)據(jù)。

作為優(yōu)選，步驟s2具體包括：

初始化權(quán)重種群，及產(chǎn)生大量的與刑事案例屬性對應(yīng)的權(quán)重；

使用改進(jìn)的相似算法從案例庫中搜索出相似案例，即在測試數(shù)據(jù)庫中尋找相似案例,進(jìn)行推理時檢索算法采用最常用的k-nn鄰近算法；

為每個染色體計算適應(yīng)性函數(shù)，并進(jìn)行遺傳算法的進(jìn)化操作；

根據(jù)適應(yīng)性函數(shù)的具體函數(shù)值評估結(jié)果。

作為優(yōu)選，步驟s3具體包括：

對法律文書等資料的批量增加、對法律文書等資料的批量刪除、對錄入有誤數(shù)據(jù)的修改以及對特定相關(guān)案例的查詢；

海量數(shù)據(jù)的增刪改查技術(shù)必須確保對用戶操作及函數(shù)調(diào)用的及時響應(yīng)；

確保數(shù)據(jù)在儲存、讀取及修改時的可靠性。

作為優(yōu)選，步驟s4具體包括：

根據(jù)以往的案例訓(xùn)練神經(jīng)網(wǎng)絡(luò),對案例判決過程建立起模型；

將待檢檢索案例輸入到神經(jīng)網(wǎng)絡(luò)后能夠輸出對判決的預(yù)測結(jié)果。

本發(fā)明具有以下特點(diǎn)：

(1)目前有諸多關(guān)于案件推理相關(guān)研究，但是以大數(shù)據(jù)管理和分析為基礎(chǔ)的案件推理系統(tǒng)還鮮有研究和討論，本發(fā)明研究基于遺傳算法與最近鄰算法的案件的智能分析及推理，研究內(nèi)容具有新穎性。

(2)本發(fā)明從案件的向量及過往因循案例出發(fā)，實(shí)現(xiàn)案件智能分析及證據(jù)關(guān)聯(lián)，有助于減輕法官的工作量，研究具有工程前瞻性。

(3)考慮到案件審理的具有一定的主觀性，同時當(dāng)前對案件的處理依然不能擺脫人工密集型的特點(diǎn)，本發(fā)明將基于遺傳算法與最近鄰算法的推理系統(tǒng)應(yīng)用到案件審理過程中，可以有效保障案件審理的客觀性；同時輔助決策系統(tǒng)可以有效保障案件審理的公平，提高審案效率，具有理論創(chuàng)新和應(yīng)用創(chuàng)新的價值。

附圖說明

圖1為本發(fā)明的基于遺傳算法與最近鄰算法的案件檢索方法的流程示意圖。

具體實(shí)施方式

將案例的特征與法律領(lǐng)域本體案例庫中的本體信息進(jìn)行比較、匹配，通過本體解析，在法律條例本體案例庫中找到與案例的特征相似的相關(guān)法條，并提取法條及相關(guān)審判推薦，整體架構(gòu)如圖1所示。

以法院案件審理過程中重要的證據(jù)及因循案例海量數(shù)據(jù)為基礎(chǔ)的刑事案件和民事案件判決書文檔集。

把這些文檔存儲于本地或網(wǎng)絡(luò)的數(shù)據(jù)庫或根目錄下的子文件夾下。

對刑事案例進(jìn)行建模,歸納案例特征：

共計39類案例特征，涵蓋了犯罪行為的起因、經(jīng)過、事后行為3方面語義。

根據(jù)刑事屬性的專家解析，我們擬將案例屬性確定為這39個指標(biāo)。

將每個具體案例中的關(guān)鍵詞抽取出來，并用標(biāo)量來描述每個屬性。

將所判刑罰類型歸納為如下7類：

e1：三年以下有期徒刑e5：十年以上有期徒刑

e2：三年以下拘役e6：無期徒刑

e3：三年以下管制e7：死刑

e4：三年以上十年以下有期徒刑

將事件起因可能的特征值總結(jié)如表1所示，表中第一行為一級特征；

第二行為對一級特征的特征值的進(jìn)一步分類，使在表述某一案例時，各二級特征有且只有一個特征值；

第三行為各類中可能的特征值；

規(guī)范特征值的目的是為了便于使用決策樹、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘算法，為各非二值特征屬性的特征值賦予符號標(biāo)識(如表中的a1至a9)，二值特征屬性的特征值規(guī)范為0或1。

表一

將先施暴方可能的特征值總結(jié)如表2所示；

表二

將施暴方式可能的特征值總結(jié)如表3所示；

表三

在總結(jié)作案工具的特征值時，對多個可能的特征值進(jìn)行歸納總結(jié)，總結(jié)為如表4所示的若干二級特征值，及其規(guī)范化后的特征值。

特別地，在實(shí)際案例中，有混合使用多種作案工具的情況。

表四

將襲擊部位可能的特征值總結(jié)如表5所示；

表五

最后，將這些標(biāo)量組成描述該法律案例的一個語義向量：

手工進(jìn)行提取案例特征并進(jìn)行以案例特征單值化為目的的預(yù)處理，即根據(jù)專家經(jīng)驗(yàn)判斷案件是否滿足表1到表5描述的特征。

如果滿足某個特征則將在向量中對應(yīng)該特征的元素置為1，否則置為0。

根據(jù)專家經(jīng)驗(yàn)將這些案件分類，并為每個向量增加一個元素，用于存儲類別編號。

將這些向量化的數(shù)據(jù)存儲于本地或網(wǎng)絡(luò)的數(shù)據(jù)庫或根目錄下的子文件夾下，以方便多次使用。

以故意傷害罪的法條為例，將判決結(jié)果(即預(yù)測結(jié)果)分為刑、期、緩等3部分，刑即為刑法類型，期即為具體刑期，緩即為緩刑期。

首先，分析了以案例庫為基礎(chǔ)的數(shù)據(jù)挖掘技術(shù)，根據(jù)刑事案件信息離散性和決策過程的非線性特點(diǎn)，提出并論證了決策樹模型和神經(jīng)網(wǎng)絡(luò)模型的綜合應(yīng)用模式，使法規(guī)與案例在決策推理中進(jìn)行結(jié)合；

其次，利用ga-knn方法，形成各類型案件特征對應(yīng)的權(quán)重；

第一步，初始化：

把每個案件特征的權(quán)重組成的向量視為遺傳算法中的個體，由這些個體組成一個種群；

選定二進(jìn)制編碼，隨機(jī)產(chǎn)生初始種群；

每組權(quán)重表示成二進(jìn)制碼串(對個體采用0-1串行編碼方式),具體形式為

xi＝(x1,x2,..,xl),{0,1}；

其中l(wèi)為個體的長度,為基因位。通常情況下,隨機(jī)選擇0或1來確定；

第二步，把現(xiàn)有數(shù)據(jù)分成兩個集合：訓(xùn)練集和測試集：

隨機(jī)抽取10％的數(shù)據(jù)作為測試集，其余作為訓(xùn)練集。

第三步，執(zhí)行最近鄰(knn)算法：

把全體數(shù)據(jù)的每個屬性分別乘以它們的權(quán)重；

利用加權(quán)后的屬性計算測試集中的每個樣本與訓(xùn)練集中的樣本的距離：

對于案例庫p＝{x1,x2......xn}中的任意的兩個案例,xi＝(xi1,xi2,..,xil)和xj＝(xj1，xj2…,xjt)，有

對于案例庫中的任意兩個個體xi,xj,定義

sij＝(l-dij)/l

其中l(wèi)為個體的長度,稱sij為第i個體與第j個體之間的相似度。

對于測試集中的每個案例，都能確定與之最近的k個案例，把這k個案例成為它的“鄰居”；

對于測試集中的一個案例，將包含它的“鄰居”最多的類別確定為它的類別；

第四步，確定適應(yīng)度函數(shù)：

根據(jù)目標(biāo)要求確定適應(yīng)度函數(shù)為

其中i是種群中的個體的索引，也可以理解為不同的加權(quán)方案的編號，testi(wrong)表示采用第i種加權(quán)方式時，利用上一步描述的knn方法來分類時，被分類錯誤的測試數(shù)據(jù)的集合，||表示集合的勢。

第五步，用遺傳算子對個體進(jìn)行操作，按適應(yīng)值的大小，從種群中選出適應(yīng)值較大的一些個體進(jìn)行選擇、交叉、變異操作，形成新一代的種群：

通常情況下,隨機(jī)選擇0或1來確定交叉的位置,從而得到x1,x2,..,xl構(gòu)成個體x上隨機(jī)選擇某位,然后以此點(diǎn)為界將其分為左右部分,根據(jù)設(shè)定的交叉概率大小決定是否將兩組權(quán)重的左右部分互相交換,交叉后會形成兩組新的權(quán)重。

變異即為了提高遺傳算法的全局搜索能力,還需要執(zhí)行變異操作；

從交叉后的每組權(quán)重中,隨機(jī)選取某位,根據(jù)設(shè)定的變異概率大小決定是否將該位取反,若滿足取反條件,則產(chǎn)生新的權(quán)重分布。

第六步，反復(fù)執(zhí)行步驟二到五，直至滿足收斂判斷為止。

利用ga-knn算法確定案例權(quán)重之后進(jìn)入決策階段。

使用神經(jīng)網(wǎng)絡(luò)，建立案件關(guān)鍵特征與刑事判決類型之間的推理規(guī)則—神經(jīng)網(wǎng)絡(luò)模型，主要用于分類預(yù)測，就是通過向可靠的歷史數(shù)據(jù)學(xué)習(xí)，使模型具備對未來新數(shù)據(jù)或新案例進(jìn)行分類預(yù)測的能力。

這里有學(xué)習(xí)的指導(dǎo)是指數(shù)據(jù)除包含作為輸入角色的變量外，一定還包含作為輸出角色的輸出變量，且輸出變量的取值在現(xiàn)有數(shù)據(jù)上是已知的。

這里的輸入數(shù)據(jù)是指上一步ga-knn算法計算得到的量刑決策問題使用的按刑罰類型分類的相似案例庫，其中的案例即包括量刑決策的輸入條件，比如案情，同時也包括案例的判決結(jié)果。

以這些數(shù)據(jù)指導(dǎo)著模型的學(xué)習(xí)，使模型能夠理解怎樣的輸入變量取值或組合，能得到怎樣的分類結(jié)果。

通過把輸入數(shù)據(jù)不斷輸入到神經(jīng)網(wǎng)絡(luò)，并且比較網(wǎng)絡(luò)的輸出與期望的輸出(案件的正確分類)，我們利用隨機(jī)梯度下降法將這個差異反饋給網(wǎng)絡(luò)并調(diào)整網(wǎng)絡(luò)參數(shù)。

參數(shù)的調(diào)整幅度為wij(t+1)＝wij(t)+α(di-yi)xj(t)

其中wij表示神經(jīng)元j到神經(jīng)元i的連接權(quán)，di是神經(jīng)元i的期望輸出，yi是神經(jīng)元i的實(shí)際輸出，xj表示神經(jīng)元j狀態(tài)，若神經(jīng)元j處于激活態(tài)則xj為1，若處于抑制狀態(tài)則xj為0或－1(根據(jù)激活函數(shù)而定)；a是表示學(xué)習(xí)速度的常數(shù)。

基于遺傳算法與最近鄰算法的案件推理系統(tǒng)是一個自學(xué)習(xí)、自適應(yīng)的系統(tǒng)，它將在問題求解過程中獲得的知識以新案例的形式加入到案例庫中，完成自學(xué)習(xí)功能。

當(dāng)新輸入的問題通過基于遺傳算法與最近鄰算法的案件推理系統(tǒng)解決以后，則形成了一個完整的新案例，由于它可能用于將來情形與之相似的問題，所以有必要把它加入到案例庫中。

隨著新案例的不斷加入，基于遺傳算法與最近鄰算法的案件推理系統(tǒng)將變得更加有用。這是學(xué)習(xí)也是知識獲取。

本發(fā)明的基于遺傳算法與最近鄰算法的案件檢索方法，借鑒國內(nèi)外相關(guān)研究成果，以智能決策理論、信息抽取理論、大數(shù)據(jù)思想為依托，總結(jié)出大數(shù)據(jù)背景下的智能決策研究的總體思路和關(guān)鍵技術(shù)，建立基于規(guī)則和案例推理集成的刑事案件智能決策輔助系統(tǒng)的研究框架。依據(jù)研究框架，重點(diǎn)研究了刑事案件本體設(shè)計與建立，基于本體的刑事案例信息抽取，規(guī)則和案例推理集成決策模型和刑事案件量刑決策系統(tǒng)原型設(shè)計。

將案例的特征與法律領(lǐng)域本體案例庫中的本體信息進(jìn)行比較、匹配，通過本體解析，在法律條例本體案例庫中找到與案例的特征相似的相關(guān)法條，并提取法條及相關(guān)審判推薦。通過與法律案例本體案例庫中的特征匹配，找到與案例相關(guān)的歷史案例，并提取審判結(jié)果。針對刑事案例多屬性、多要素特點(diǎn)，通過比較提出和論證了對于多屬性、多案例、多要素背景下，基于遺傳算法的刑事案例屬性優(yōu)化方法，運(yùn)用ga-knn方法的結(jié)合，實(shí)現(xiàn)了多案例、多屬性、多要素司法案例推理中的案例檢索的可靠性與高精度，解決了支持刑事案件量刑決策可靠案例的關(guān)鍵技術(shù)問題。提高了司法案例檢索的精度和可靠性，拓展了多類型、多屬性案例的檢索與屬性優(yōu)化方法。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：佘貴清;王萌;公備;宋永利;李東海;肖創(chuàng)柏
技術(shù)所有人：北京市高級人民法院;北京工業(yè)大學(xué);北京華宇信息技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

遺傳算法相關(guān)技術(shù)

遺傳算法matlab程序相關(guān)技術(shù)

遺傳算法流程圖相關(guān)技術(shù)

matlab遺傳算法實(shí)例相關(guān)技術(shù)

matlab遺傳算法工具箱相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于遺傳算法與最近鄰算法的案件檢索方法與流程