本發(fā)明涉及數(shù)據(jù)檢索技術(shù)領(lǐng)域,具體來說,涉及一種司法案件檢索方法及系統(tǒng)。
背景技術(shù):
目前,隨著國家的法律越來越健全和完善,人們的法律意識越來越提高,司法類案件的數(shù)量也越來越多。并且人們在處理一件案件時,也習慣性的去查找相關(guān)的案件進行參考,以便對本身案件所涉及的案點和相關(guān)法律更知曉和了解。然而,對于現(xiàn)有的案件查詢或檢索來說,人們普遍是通過通用搜索引擎進行廣泛的查詢,而這種查詢方式的查詢準確率比較低,往往需要人們進行大量篩選后才能查詢到有用的參考案件。此外,人們還可以通過司法部門的專用系統(tǒng)進行查詢或檢索,而這種的專用查詢方式相比較通用搜索引擎來說,其準確率有所提高,但是其無論是在手續(xù)上,還是在操作方式上,都比較繁瑣,并不能靈活的適用于民間進行檢索,并且,常規(guī)的司法類案件檢索,也普遍是基于關(guān)鍵字的全文檢索系統(tǒng)來實現(xiàn)的,而這種的檢索只能直接檢索是否出現(xiàn)相關(guān)關(guān)鍵字,在準確率上也比較低,同時專業(yè)性較差。
技術(shù)實現(xiàn)要素:
針對相關(guān)技術(shù)中的問題,本發(fā)明提出一種司法案件檢索方法及系統(tǒng),以克服現(xiàn)有相關(guān)技術(shù)所存在的上述技術(shù)問題。
本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
根據(jù)本發(fā)明的一方面,提供了一種司法案件檢索方法。
該司法案件檢索方法包括以下步驟:
接收用戶輸入的查詢信息;
對所述查詢信息進行數(shù)據(jù)處理,確定所述查詢信息所對應(yīng)的查詢特征信息;
根據(jù)所述查詢特征信息,在預(yù)先配置的司法文書數(shù)據(jù)庫中,查找與所述查詢特征信息相匹配的司法文書;
根據(jù)預(yù)先設(shè)置的排序規(guī)則,對查找出的所述司法文書進行排序,并將排序后的司法文書進行呈現(xiàn)。
其中,所述查詢信息為文字信息。
其中,在對所述查詢信息進行數(shù)據(jù)處理,確定所述查詢信息所對應(yīng)的查詢特征信息時,可對所述查詢信息的內(nèi)容進行分析,確定所述查詢信息中包含的法律法規(guī)、法律事實、法律爭議要點,并將確定出的所述法律法規(guī)、所述法律事實和/或所述法律爭議要點作為所述查詢特征信息。
其中,在根據(jù)所述查詢特征信息,在預(yù)先配置的司法文書數(shù)據(jù)庫中,查找與所述查詢特征信息相匹配的司法文書時,可預(yù)先配置司法文書數(shù)據(jù)庫,并對所述司法文書數(shù)據(jù)庫中的司法文書進行數(shù)據(jù)處理,確定每個司法文書所述對應(yīng)的特征信息,其中,所述特征信息包括法律法規(guī)、法律事實和/或法律爭議要點;并將所述查詢特征信息與所述特征信息進行對比,并在對比結(jié)果為查詢特征信息與所述特征信息相符的情況下,確定所述特征信息所對應(yīng)的司法文書為所述查詢特征信息所對應(yīng)的欲查詢司法文書。
其中,在根據(jù)預(yù)先設(shè)置的排序規(guī)則,對查找出的所述司法文書進行排序,并將排序后的司法文書進行呈現(xiàn)時,可計算所述查詢特征信息的特征向量以及所述查詢特征信息所對應(yīng)的司法文書的特征向量,并根據(jù)上述特征向量,確定所述查詢信息的特征向量與所述司法文書的特征向量的交集,然后根據(jù)預(yù)先配置的權(quán)重,確定所述交集所對應(yīng)的權(quán)重總和,并根據(jù)權(quán)重總和的大小進行司法文書排序并呈現(xiàn)。
根據(jù)本發(fā)明的另一方面,提供了一種司法案件檢索系統(tǒng)。
該司法案件檢索系統(tǒng)包括:
接收模塊,用于接收用戶輸入的查詢信息;
特征確定模塊,用于對所述查詢信息進行數(shù)據(jù)處理,確定所述查詢信息所對應(yīng)的查詢特征信息;
查找模塊,用于根據(jù)所述查詢特征信息,在預(yù)先配置的司法文書數(shù)據(jù)庫中,查找與所述查詢特征信息相匹配的司法文書;
呈現(xiàn)模塊,用于根據(jù)預(yù)先設(shè)置的排序規(guī)則,對查找出的所述司法文書進行排序,并將排序后的司法文書進行呈現(xiàn)。
其中,所述查詢信息為文字信息。
其中,所述特征確定模塊包括特征分析子模塊和特征確定子模塊,其中,所述特征分析子模塊,用于對所述查詢信息的內(nèi)容進行分析,確定所述查詢信息中包含的法律法規(guī)、法律事實、法律爭議要點;所述特征確定子模塊,用于將確定出的所述法律法規(guī)、所述法律事實和/或所述法律爭議要點作為所述查詢特征信息。
其中,所述查找模塊包括配置子模塊和對比子模塊,其中,所述配置子模塊,用于預(yù)先配置司法文書數(shù)據(jù)庫,并對所述司法文書數(shù)據(jù)庫中的司法文書進行數(shù)據(jù)處理,確定每個司法文書所述對應(yīng)的特征信息,其中,所述特征信息包括法律法規(guī)、法律事實和/或法律爭議要點;所述對比子模塊,用于將所述查詢特征信息與所述特征信息進行對比,并在對比結(jié)果為查詢特征信息與所述特征信息相符的情況下,確定所述特征信息所對應(yīng)的司法文書為所述查詢特征信息所對應(yīng)的欲查詢司法文書。
其中,所述呈現(xiàn)模塊包括計算子模塊、確定子模塊、排序子模塊,其中,所述計算子模塊,用于計算所述查詢特征信息的特征向量以及所述查詢特征信息所對應(yīng)的司法文書的特征向量;所述確定子模塊,用于根據(jù)上述特征向量,確定所述查詢信息的特征向量與所述司法文書的特征向量的交集;所述排序子模塊,用于根據(jù)預(yù)先配置的權(quán)重,確定所述交集所對應(yīng)的權(quán)重總和,并根據(jù)權(quán)重總和的大小進行司法文書排序并呈現(xiàn)。
本發(fā)明通過將用戶輸入的查詢語言轉(zhuǎn)化為計算機推理語言,從而能夠?qū)崿F(xiàn)通過計算機來實現(xiàn)查詢推理,找出與用戶查詢相同和/或相關(guān)的司法文書,從而有效的降低了用戶查詢的工作量,并提高了查詢的精確度,為用戶查詢或檢索司法案件提供了幫助。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是根據(jù)本發(fā)明實施例的司法案件檢索方法的流程示意圖;
圖2是根據(jù)本發(fā)明實施例的司法案件檢索系統(tǒng)的框圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
根據(jù)本發(fā)明的實施例,提供了一種司法案件檢索方法。
如圖1所示,根據(jù)本發(fā)明實施例的司法案件檢索方法包括:
步驟s101,接收用戶輸入的查詢信息;
步驟s103,對所述查詢信息進行數(shù)據(jù)處理,確定所述查詢信息所對應(yīng)的查詢特征信息;
步驟s105,根據(jù)所述查詢特征信息,在預(yù)先配置的司法文書數(shù)據(jù)庫中,查找與所述查詢特征信息相匹配的司法文書;
步驟s107,根據(jù)預(yù)先設(shè)置的排序規(guī)則,對查找出的所述司法文書進行排序,并將排序后的司法文書進行呈現(xiàn)。
另外,在上述方案中,所述查詢信息為文字信息。在實際應(yīng)用時,由于用戶采用的客戶端是多樣選擇的(例如,通過網(wǎng)頁客戶端進行查詢、通過移動終端(手機)進行查詢等等),因此,會存在不同形式的查詢信息表達方式,例如,網(wǎng)頁客戶端采用的是文字表達,移動終端采用的是文字表達方式或語音表達方式。而不管用于采用何種客戶端進行查詢的,其進入到服務(wù)器的查詢信息均需要轉(zhuǎn)化為文字信息,即通過文字表達方式進行表達。
此外,在上述方案中,在對所述查詢信息行數(shù)據(jù)處理,確定所述查詢信息所對應(yīng)的查詢特征信息時,可通過對所述查詢信息的內(nèi)容進行分析,確定所述查詢信息中包含的法律法規(guī)、法律事實、法律爭議要點,并將確定出的所述法律法規(guī)、所述法律事實和/或所述法律爭議要點作為所述查詢特征信息。
具體應(yīng)用時,對于查詢特征信息的具體參數(shù)值可通過以下形式進行表達:布爾型(true,false),數(shù)值型(如年齡、金額、有期徒刑年數(shù)),離散可枚舉(如地區(qū)名稱、離婚原因),而不管采用何種形式進行表達,其定義邊界標準必須清晰明確,不能出現(xiàn)模糊信息點。
另外,在確定查詢特征信息時,首先提取相關(guān)法律領(lǐng)域的法律法規(guī)、法律關(guān)鍵事實、法律關(guān)鍵爭議,如果爭議要點對應(yīng)的信息較泛化,不容易提取,則將爭議要點分解成多個法律關(guān)鍵事實的組合,先提取法律關(guān)鍵事實,根據(jù)是否出現(xiàn)法律關(guān)鍵事實的組合,確定對應(yīng)爭議要點的值。如關(guān)鍵爭議要點是“民間借貸中借款是用于維護不正當關(guān)系”,可以分解成“借款人和債務(wù)人關(guān)系是不正當關(guān)系”,“借款用途是維系不正當關(guān)系”“案由:民間借貸糾紛”,當這三個特征信息都為true的時候,則關(guān)鍵爭議要點正確。這個推理關(guān)系可以采用知識圖譜owl模型描述。
此外,在具體應(yīng)用時,在用戶輸入的查詢信息內(nèi)容較短時,也可直接采用關(guān)鍵詞搜索或分類器的方法,對應(yīng)到法律關(guān)鍵爭議特征上去,再通過推理的方法,對應(yīng)到需要匹配的法律關(guān)鍵事實特征。
另外,在上述方案中,在根據(jù)所述查詢特征信息,在預(yù)先配置的司法文書數(shù)據(jù)庫中,查找與所述查詢特征信息相匹配的司法文書時,可預(yù)先配置司法文書數(shù)據(jù)庫,并對所述司法文書數(shù)據(jù)庫中的司法文書進行數(shù)據(jù)處理,確定每個司法文書所述對應(yīng)的特征信息,其中,所述特征信息包括法律法規(guī)、法律事實和/或法律爭議要點;并將所述查詢特征信息與所述特征信息進行對比,并在對比結(jié)果為查詢特征信息與所述特征信息相符的情況下,確定所述特征信息所對應(yīng)的司法文書為所述查詢特征信息所對應(yīng)的欲查詢司法文書。
同樣的,對于司法文書的特征信息來說,其具體參數(shù)值表達,也可如上述查詢特征信息表達方式一樣,同時可采用相同方法進行分解。而在具體應(yīng)用時,由于司法文書較多,因此也可以直接采用正則表達式匹配的方式,對應(yīng)到法律關(guān)鍵事實特征,再通過推理的方式,對應(yīng)到法律關(guān)鍵建議特征。
此外,在上述方案中,在根據(jù)預(yù)先設(shè)置的排序規(guī)則,對查找出的所述司法文書進行排序,并將排序后的司法文書進行呈現(xiàn)時,可計算所述查詢特征信息的特征向量以及所述查詢特征信息所對應(yīng)的司法文書的特征向量,并根據(jù)上述特征向量,確定所述查詢信息的特征向量與所述司法文書的特征向量的交集,然后根據(jù)預(yù)先配置的權(quán)重,確定所述交集所對應(yīng)的權(quán)重總和,并根據(jù)權(quán)重總和的大小進行司法文書排序并呈現(xiàn)。
為了方便理解本發(fā)明的上述技術(shù)方案,以下從底層實現(xiàn)技術(shù)方面對本發(fā)明的上述技術(shù)方案進行詳細說明。
在確定查詢特征信息所對應(yīng)的欲查詢司法文書時,可利用判別算法對查詢特征信息和司法文書的特征信息進行辨別,判斷司法文書是否是查詢特征信息所對應(yīng)的欲查詢司法文書。
具體算法:建立一個文書判別二分分類器。
分類器的輸入有2組,一組為對查詢的特征信息,一組為文書提取的特征信息。輸入分類器中。分類器給出0或1輸出。0表示輸入的文書不是查詢對應(yīng)的類案。1表示輸入的文書是查詢對應(yīng)的類案。
分類器的訓練方法:
利用正例文本和反例文本,自動迭代訓練。
步驟一:準備一定數(shù)量的文書文本,部分文書文本為查詢對應(yīng)的類案,隨機等分成5份。
步驟二:標注第1份文本,如果文書文本是對應(yīng)的類案,標注為1,否則標注為0。這樣就獲得1份已經(jīng)標注的文書文本,4份未標注的文書文本。
步驟三:利用二值分類器(如svm等模型)進行訓練,對已經(jīng)步驟二標注文本進行建模,訓練出模型。
步驟四:利用模型,對第2份未標注文本進行預(yù)測,預(yù)測含有特征信息的標注為1,預(yù)測不含有特征信息的標注為0。
步驟五:對標注好的預(yù)測的文本進行標注,如果標注和預(yù)測的結(jié)果一致率足夠高(比如超過90%),則結(jié)束分類器訓練。否則將第2份文本與第1份文本以前放入分類器進行訓練。
步驟六,對第3份、第4份、第5份文本重復(fù)使用步驟四、步驟五,直到所有文本都已經(jīng)標注訓練或者預(yù)測的和標注的一致率達到要求(比如超過90%)。
而在對查詢特征信息所對應(yīng)的司法文書進行排序呈現(xiàn)時,則可利用排序算法,對進行查詢到的類似文書進行排序,將最相關(guān)的排序到最上面。
具體的,排序算法:用于對檢索得到的司法文書進行綜合排序推薦。
具體算法可以采用證據(jù)檢驗排序模型。首先對輸入的查詢語句中的信息點建立特征向量f=(f1,f2,…….,fn),其中,n為自然整數(shù);
對每個查找到的文書(類案)進行關(guān)鍵事實證據(jù)提取,建立特征向量p=(p1,p2,…….,pk),其中,k為自然整數(shù);
對特征向量f和特征向量p取交集,假設(shè)為(g1,g2,…,gm),m為自然整數(shù),則證據(jù)得分(權(quán)重總分)score=g1*權(quán)重(g1)+g2*權(quán)重(g2)+…+gm*權(quán)重(gm);
然后根據(jù)證據(jù)得分的大小進行排序呈現(xiàn)。
根據(jù)本發(fā)明實施例的另一方面,提供了一種司法案件檢索系統(tǒng)。
如圖2所示,根據(jù)本發(fā)明實施例的司法案件檢索系統(tǒng)包括:
接收模塊201,用于接收用戶輸入的查詢信息;
特征確定模塊203,用于對所述查詢信息進行數(shù)據(jù)處理,確定所述查詢信息所對應(yīng)的查詢特征信息;
查找模塊205,用于根據(jù)所述查詢特征信息,在預(yù)先配置的司法文書數(shù)據(jù)庫中,查找與所述查詢特征信息相匹配的司法文書;
呈現(xiàn)模塊207,用于根據(jù)預(yù)先設(shè)置的排序規(guī)則,對查找出的所述司法文書進行排序,并將排序后的司法文書進行呈現(xiàn)。
對應(yīng)的,在上述方案中,所述查詢信息為文字信息。在實際應(yīng)用時,由于用戶采用的客戶端是多樣選擇的(例如,通過網(wǎng)頁客戶端進行查詢、通過移動終端(手機)進行查詢等等),因此,會存在不同形式的查詢信息表達方式,例如,網(wǎng)頁客戶端采用的是文字表達,移動終端采用的是文字表達方式或語音表達方式。而不管用于采用何種客戶端進行查詢的,其進入到服務(wù)器的查詢信息均需要轉(zhuǎn)化為文字信息,即通過文字表達方式進行表達。
此外,在上述方案中,所述特征確定模塊203包括特征分析子模塊(未示出)和特征確定子模塊(未示出),其中,所述特征分析子模塊,用于對所述查詢信息的內(nèi)容進行分析,確定所述查詢信息中包含的法律法規(guī)、法律事實、法律爭議要點;所述特征確定子模塊,用于將確定出的所述法律法規(guī)、所述法律事實和/或所述法律爭議要點作為所述查詢特征信息。
另外,在上述方案中,所述查找模塊205包括配置子模塊(未示出)和對比子模塊(未示出),其中,所述配置子模塊,用于預(yù)先配置司法文書數(shù)據(jù)庫,并對所述司法文書數(shù)據(jù)庫中的司法文書進行數(shù)據(jù)處理,確定每個司法文書所述對應(yīng)的特征信息,其中,所述特征信息包括法律法規(guī)、法律事實和/或法律爭議要點;所述對比子模塊,用于將所述查詢特征信息與所述特征信息進行對比,并在對比結(jié)果為查詢特征信息與所述特征信息相符的情況下,確定所述特征信息所對應(yīng)的司法文書為所述查詢特征信息所對應(yīng)的欲查詢司法文書。
此外,在上述方案中,所述呈現(xiàn)模塊207包括計算子模塊(未示出)、確定子模塊(未示出)、排序子模塊(未示出),其中,所述計算子模塊,用于計算所述查詢特征信息的特征向量以及所述查詢特征信息所對應(yīng)的司法文書的特征向量;所述確定子模塊,用于根據(jù)上述特征向量,確定所述查詢信息的特征向量與所述司法文書的特征向量的交集;所述排序子模塊,用于根據(jù)預(yù)先配置的權(quán)重,確定所述交集所對應(yīng)的權(quán)重總和,并根據(jù)權(quán)重總和的大小進行司法文書排序并呈現(xiàn)。
綜上所述,借助于本發(fā)明的上述技術(shù)方案,通過將用戶輸入的查詢語言轉(zhuǎn)化為計算機推理語言,從而能夠?qū)崿F(xiàn)通過計算機來實現(xiàn)查詢推理,找出與用戶查詢相同和/或相關(guān)的司法文書,從而有效的降低了用戶查詢的工作量,并提高了查詢的精確度,為用戶查詢或檢索司法案件提供了幫助。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。