本申請涉及數(shù)據(jù)處理領域,具體而言,涉及一種裁判文書檢索方法和裝置。
背景技術:
自2014年以來,在最高人民法院的要求下,各級人民法院在互聯(lián)網(wǎng)上開始逐步大規(guī)模地公開生效判決文書。大量已生效裁判文書對法官、律師、法學研究人員等法律工作者的法律實踐而言,具有很高的借鑒意義和研究價值。因裁判文書為長文本數(shù)據(jù),因此信息檢索技術在這一方面得到廣泛應用。
然而,傳統(tǒng)的裁判文書檢索僅僅止步于命中,即返回與用戶檢索條件相匹配的全部文書。倘若符合條件的文書數(shù)量有很多篇,無法在搜索結果頁面的前幾頁展示完全,目前的技術只能根據(jù)相關性對這些文書進行展示優(yōu)先級的排序。這種檢索方式僅僅以關鍵詞所衡量的相關性作為排序的基準,忽略了裁判文書包含的其他特性,也忽略了用戶的真正需求。我國并非判例法系國家,法官在裁判過程中需要嚴格依據(jù)法律規(guī)定進行說理推斷,因而用戶希望看到的是那些說理充分、有重要影響的案件。
針對相關技術中對裁判文書的檢索結果進行排序時準確性較低的問題,目前尚未提出有效的解決方案。
技術實現(xiàn)要素:
本申請的主要目的在于提供一種裁判文書檢索方法和裝置,以解決相關技術中對裁判文書的檢索結果進行排序時準確性較低的問題。
為了實現(xiàn)上述目的,根據(jù)本申請的一個方面,提供了一種裁判文書檢索方法。該方法包括:獲取與檢索詞匹配的裁判文書集合;計算裁判文書集合中每篇裁判文書的相關性分值和復雜度,其中,相關性分值用于表示裁判文書與檢索詞的匹配度,復雜度用于表示裁判文書的復雜程度;分別根據(jù)相關性分值和復雜度計算裁判文書集合中每篇裁判文書的修正相關性分值,得到分別與裁判文書集合中多篇裁判文書對應的多個修正相關性分值;根據(jù)多個修正相關性分值對裁判文書集合中的裁判文書進行排序,得到排序結果;以及根據(jù)排序結果顯示裁判文書集合中的裁判文書。
進一步地,裁判文書集合中包括第一裁判文書,計算裁判文書集合中每篇裁判文書的復雜度包括:獲取第一裁判文書的指標參數(shù),其中,指標參數(shù)包括如下參數(shù)的至 少之一:第一裁判文書的長度、第一裁判文書的適用法條數(shù)和第一裁判文書的訴訟金額;以及根據(jù)指標參數(shù)計算第一裁判文書的復雜度。
進一步地,根據(jù)指標參數(shù)計算第一裁判文書的復雜度包括:獲取指標參數(shù)中各個參數(shù)的權重;以及根據(jù)指標參數(shù)中各個參數(shù)的值及各個參數(shù)的權重計算第一裁判文書的復雜度。
進一步地,該方法還包括:按照以下預設規(guī)則設置權重:計算多個預設裁判文書集合中每篇裁判文書的相關性分值,其中,多個預設裁判文書集合為分別與多個預設訓練詞匹配的多個裁判文書集合;計算多個預設裁判文書集合中每篇裁判文書的復雜度,其中,根據(jù)指標參數(shù)中各個參數(shù)的值及各個參數(shù)的初始權重計算復雜度,每篇參與計算的裁判文書使用的指標參數(shù)對應一致,并且指標參數(shù)中相同參數(shù)的初始權重相等;根據(jù)多個預設裁判文書集合中每篇裁判文書的相關性分值和對應的復雜度計算多個預設裁判文書集合中每篇裁判文書的修正相關性分值,并確定各個預設裁判文書集合中修正相關性分值排序靠前的第一預設數(shù)量的裁判文書;根據(jù)各個預設裁判文書集合對應的第一預設數(shù)量的裁判文書按照修正相關性分值的排序和基準排序,修正各個參數(shù)的初始權重;以及分別將修正后的各個參數(shù)的初始權重作為各個參數(shù)的權重,相同參數(shù)修正后的權重相等。
進一步地,根據(jù)各個預設裁判文書集合對應的第一預設數(shù)量的裁判文書按照修正相關性分值的排序和基準排序,修正各個參數(shù)的初始權重包括:計算各個預設裁判文書集合對應的第一預設數(shù)量的裁判文書按照修正相關性分值的排序與基準排序不同的比率值,得到多個比率值;判斷多個比率值是否均小于預設閾值;在判斷出多個比率值中存在大于預設閾值的比率值時,修正各個參數(shù)的初始權重;以及在判斷出多個比率值均小于預設閾值時,結束對各個參數(shù)的初始權重的修正。
為了實現(xiàn)上述目的,根據(jù)本申請的另一方面,提供了一種裁判文書檢索裝置。該裝置包括:獲取單元,用于獲取與檢索詞匹配的裁判文書集合;第一計算單元,用于計算裁判文書集合中每篇裁判文書的相關性分值和復雜度,其中,相關性分值用于表示裁判文書與檢索詞的匹配度,復雜度用于表示裁判文書的復雜程度;第二計算單元,用于分別根據(jù)相關性分值和復雜度計算裁判文書集合中每篇裁判文書的修正相關性分值,得到分別與裁判文書集合中多篇裁判文書對應的多個修正相關性分值;排序單元,用于根據(jù)多個修正相關性分值對裁判文書集合中的裁判文書進行排序,得到排序結果;以及顯示單元,用于根據(jù)排序結果顯示裁判文書集合中的裁判文書。
進一步地,裁判文書集合中包括第一裁判文書,第一計算單元包括:獲取模塊,用于獲取第一裁判文書的指標參數(shù),其中,指標參數(shù)包括如下參數(shù)的至少之一:第一裁判文書的長度、第一裁判文書的適用法條數(shù)和第一裁判文書的訴訟金額;以及第一 計算模塊,用于根據(jù)指標參數(shù)計算第一裁判文書的復雜度。
進一步地,第一計算模塊包括:獲取子模塊,獲取指標參數(shù)中各個參數(shù)的權重;以及計算子模塊,用于根據(jù)指標參數(shù)中各個參數(shù)的值及各個參數(shù)的權重計算第一裁判文書的復雜度。
進一步地,該裝置還包括:第三計算單元,用于計算多個預設裁判文書集合中每篇裁判文書的相關性分值,其中,多個預設裁判文書集合為分別與多個預設訓練詞匹配的多個裁判文書集合;第四計算單元,用于計算多個預設裁判文書集合中每篇裁判文書的復雜度,其中,根據(jù)指標參數(shù)中各個參數(shù)的值及各個參數(shù)的初始權重計算復雜度,每篇參與計算的裁判文書使用的指標參數(shù)對應一致,并且指標參數(shù)中相同參數(shù)的初始權重相等;第五計算單元,用于根據(jù)多個預設裁判文書集合中每篇裁判文書的相關性分值和對應的復雜度計算多個預設裁判文書集合中每篇裁判文書的修正相關性分值,并確定各個預設裁判文書集合中修正相關性分值排序靠前的第一預設數(shù)量的裁判文書;修正單元,用于根據(jù)各個預設裁判文書集合對應的第一預設數(shù)量的裁判文書按照修正相關性分值的排序和基準排序,修正各個參數(shù)的初始權重;以及確定單元,用于分別將修正后的各個參數(shù)的初始權重作為各個參數(shù)的權重,相同參數(shù)修正后的權重相等。
進一步地,修正單元包括:第二計算模塊,用于計算各個預設裁判文書集合對應的第一預設數(shù)量的裁判文書按照修正相關性分值的排序與基準排序不同的比率值,得到多個比率值;判斷模塊,用于判斷多個比率值是否均小于預設閾值;以及修正模塊,用于在判斷出多個比率值中存在大于預設閾值的比率值時,修正各個參數(shù)的初始權重,在判斷出多個比率值均小于預設閾值時,結束對各個參數(shù)的初始權重的修正。
本申請通過獲取與檢索詞匹配的裁判文書集合;計算裁判文書集合中每篇裁判文書的相關性分值和復雜度,其中,相關性分值用于表示裁判文書與檢索詞的匹配度,復雜度用于表示裁判文書的復雜程度;分別根據(jù)相關性分值和復雜度計算裁判文書集合中每篇裁判文書的修正相關性分值,得到分別與裁判文書集合中多篇裁判文書對應的多個修正相關性分值;根據(jù)多個修正相關性分值對裁判文書集合中的裁判文書進行排序,得到排序結果;以及根據(jù)排序結果顯示裁判文書集合中的裁判文書,解決了相關技術中對裁判文書的檢索結果進行排序時準確性較低的問題,進而達到了提高對裁判文書的檢索結果排序的準確性的效果。
附圖說明
構成本申請的一部分的附圖用來提供對本申請的進一步理解,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:
圖1是根據(jù)本申請實施例的裁判文書檢索方法的流程圖;
圖2是根據(jù)本申請實施例的按照預設規(guī)則設置權重的流程圖;以及
圖3是根據(jù)本申請實施例的裁判文書檢索裝置的示意圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本申請。
為了使本技術領域的人員更好地理解本申請方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分的實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應當屬于本申請保護的范圍。
需要說明的是,本申請的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數(shù)據(jù)在適當情況下可以互換,以便這里描述的本申請的實施例。此外,術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設備固有的其它步驟或單元。
根據(jù)本申請實施例,提供了一種裁判文書檢索方法,圖1是根據(jù)本申請實施例的裁判文書檢索方法的流程圖。如圖1所示,該方法包括如下的步驟S102至步驟S110:
步驟S102:獲取與檢索詞匹配的裁判文書集合。
本申請實施例的檢索詞為用于裁判文書的檢索的關鍵詞,檢索詞可以是一個,也可以是多個。在進行文書檢索時,通常先接收用戶輸入的檢索詞,并根據(jù)該檢索詞從裁判文書數(shù)據(jù)庫中獲取與該檢索詞匹配的裁判文書??蛇x地,可以獲取包含該檢索詞的裁判文書,也可以是獲取包含該檢索詞的部分內(nèi)容的裁判文書,例如,檢索詞為合同無效,則可以獲取包含合同無效的裁判文書組成裁判文書集合,也可以是獲取包含合同無效的裁判文書和同時包含合同和無效的裁判文書共同組成裁判文書集合。
步驟S104:計算裁判文書集合中每篇裁判文書的相關性分值和復雜度,其中,相關性分值用于表示裁判文書與檢索詞的匹配度,復雜度用于表示裁判文書的復雜程度。
本申請實施例的相關性分值用于衡量裁判文書與檢索詞的匹配度,相關性分值越 大,則說明裁判文書與檢索詞的匹配度越高,相關性分值越小,則說明裁判文書與檢索詞的匹配度越低。可選地,可以通過統(tǒng)計裁判文書中檢索詞出現(xiàn)的次數(shù)和完整度來計算相關性分值,其中,裁判文書中檢索詞出現(xiàn)的次數(shù)越多和完整度越高,則該裁判文書的相關性分值越高。
通常,那些說理充分、有重要影響的案件對于用戶來說具有較高的借鑒意義和研究價值,因此,本申請實施例在進行裁判文書檢索時,綜合考慮了每篇裁判文書的相關性分值和復雜度來返回檢索結果,以提高返回的裁判文書的針對性。本申請實施例的復雜度用于衡量裁判文書的復雜程度,例如,裁判文書案情的復制程度和重要程度,具體地,可以通過一些指標參數(shù)來衡量裁判文書的復雜度,例如,涉案金額、適用法條數(shù)、裁判文書長度等。實際情況中,可以根據(jù)需求選擇適用的指標參數(shù),例如,可以選擇某一個指標參數(shù)來計算裁判文書的復雜度,也可以選擇多個指標參數(shù)共同來計算裁判文書的復雜度。
步驟S106:分別根據(jù)相關性分值和復雜度計算裁判文書集合中每篇裁判文書的修正相關性分值,得到分別與裁判文書集合中多篇裁判文書對應的多個修正相關性分值。
例如,可以將裁判文書的相關性分值和復雜度相乘得到該裁判文書的修正相關性分值。在本申請實施例中,裁判文書集合中每篇裁判文書都對應于一個修正相關性分值,其中,裁判文書對應的修正相關性分值為根據(jù)其相關性分值和復雜度計算得到修正相關性分值。
步驟S108:根據(jù)多個修正相關性分值對裁判文書集合中的裁判文書進行排序,得到排序結果。
步驟S110:根據(jù)排序結果顯示裁判文書集合中的裁判文書。
具體地,可以是將修正相關性分值大的裁判文書顯示在搜索結果的前面位置,從而便于用戶直觀地查看那些案情較為復雜、借鑒意義較大的裁判文書。
本申請實施例通過獲取與檢索詞匹配的裁判文書集合;計算裁判文書集合中每篇裁判文書的相關性分值和復雜度,其中,相關性分值用于表示裁判文書與檢索詞的匹配度,復雜度用于表示裁判文書的復雜程度;分別根據(jù)相關性分值和復雜度計算裁判文書集合中每篇裁判文書的修正相關性分值,得到分別與裁判文書集合中多篇裁判文書對應的多個修正相關性分值;根據(jù)多個修正相關性分值對裁判文書集合中的裁判文書進行排序,得到排序結果;以及根據(jù)排序結果顯示裁判文書集合中的裁判文書。本申請實施例通過裁判文書的復雜度對裁判文書的相關性分值進行修正,并根據(jù)修正相關性分值對檢索結果進行排序顯示,相比于現(xiàn)有技術中僅根據(jù)相關性對檢索結果進行排序,更契合用戶的檢索需求,解決了相關技術中對裁判文書的檢索結果進行排序時 準確性較低的問題,進而達到了提高對裁判文書的檢索結果排序的準確性的效果。
優(yōu)選地,裁判文書集合中包括第一裁判文書,計算裁判文書集合中每篇裁判文書的復雜度包括:獲取第一裁判文書的指標參數(shù),其中,指標參數(shù)包括如下參數(shù)的至少之一:第一裁判文書的長度、第一裁判文書的適用法條數(shù)和第一裁判文書的訴訟金額;以及根據(jù)指標參數(shù)計算第一裁判文書的復雜度。
第一裁判文書可以是裁判文書集合中任意一篇裁判文書。第一裁判文書的長度可以是第一裁判文書的全文長度,也可以是第一裁判文書法理論述部分的長度,具體地,可以通過統(tǒng)計字數(shù)作為其長度。第一裁判文書的適用法條數(shù)可以通過預設信息提取規(guī)則提取裁判文書中的法條序號進行統(tǒng)計,可選地,可以將不同法律的相同法條序號和相同法律的不同法條序號均進行統(tǒng)計。第一裁判文書的訴訟金額是指第一裁判文書中涉及的費用,例如,案件受理費、賠償費、罰款等??蛇x地,如果涉及到訴訟費用減半的情形,所提取金額應還原至減半前。例如,一篇裁判文書的部分內(nèi)容如下:
“本院認為,原告杜某與被告劉某登記結婚近七年,婚后建立了一定的夫妻感情。原告雖主張被告離家出走但未舉證證明,不予認可。原告請求離婚不具備法定條件,不予支持。依照《中華人民共和國婚姻法》第三十二條,《中華人民共和國民事訴訟法》第一百四十四條之規(guī)定,判決如下:
不準原告杜某與被告劉某離婚。
案件受理費300元,由原告承擔。
如不服本判決,可在判決書送達之日起十五日內(nèi)向本院遞交上訴狀,并按對方當事人的人數(shù)提出副本,上訴于山東省濰坊市中級人民法院?!?/p>
對于該篇裁判文書來說,其長度為216,適用法條數(shù)為2(即《中華人民共和國婚姻法》第三十二條和《中華人民共和國民事訴訟法》第一百四十四條),訴訟金額為300。
優(yōu)選地,根據(jù)指標參數(shù)計算第一裁判文書的復雜度包括:獲取指標參數(shù)中各個參數(shù)的權重;以及根據(jù)指標參數(shù)中各個參數(shù)的值及各個參數(shù)的權重計算第一裁判文書的復雜度。
具體地,本申請實施例的指標參數(shù)中各個參數(shù)可以是任意兩個不同的指標參數(shù),例如,適用法條數(shù)和訴訟金額,也可以是任意兩個以上的不同的指標參數(shù),例如,適用法條數(shù)、訴訟金額和文書長度。各個參數(shù)的值是指對于具體的裁判文書來說,每個參數(shù)的取值,例如,對于裁判文書1,其適用法條數(shù)的值為A1,其訴訟金額的值為B1,對于裁判文書2,其適用法條數(shù)的值為A2,其訴訟金額的值為B2。各個參數(shù)的 權重可以是根據(jù)經(jīng)驗預設的值,也可以是根據(jù)預設規(guī)則訓練得到的值。
例如,可以采用如下公式計算第一裁判文書的復雜度:
C=ln(pL·L+1)·ln(pM·M+1)·ln(pN·N+1),其中,C表示第一裁判文書的復雜度,L、M、N分別表示第一裁判文書的長度、第一裁判文書的適用法條數(shù)和第一裁判文書的訴訟金額,pL、pM、pN分別表示第一裁判文書的長度、第一裁判文書的適用法條數(shù)和第一裁判文書的訴訟金額的權重。
優(yōu)選地,為了進一步提高檢索結果排序的準確性,本申請在接收檢索詞進行裁判文書檢索前,還可以按照以下預設規(guī)則設置權重:計算多個預設裁判文書集合中每篇裁判文書的相關性分值,其中,多個預設裁判文書集合為分別與多個預設訓練詞匹配的多個裁判文書集合;計算多個預設裁判文書集合中每篇裁判文書的復雜度,其中,根據(jù)指標參數(shù)中各個參數(shù)的值及各個參數(shù)的初始權重計算復雜度,每篇參與計算的裁判文書使用的指標參數(shù)對應一致,并且指標參數(shù)中相同參數(shù)的初始權重相等;根據(jù)多個預設裁判文書集合中每篇裁判文書的相關性分值和對應的復雜度計算多個預設裁判文書集合中每篇裁判文書的修正相關性分值,并確定各個預設裁判文書集合中修正相關性分值排序靠前的第一預設數(shù)量的裁判文書;根據(jù)各個預設裁判文書集合對應的第一預設數(shù)量的裁判文書按照修正相關性分值的排序和基準排序,修正各個參數(shù)的初始權重;以及分別將修正后的各個參數(shù)的初始權重作為各個參數(shù)的權重,相同參數(shù)修正后的權重相等。
預設訓練詞是用于上述權重訓練的關鍵詞,本申請實施例預先設置一組用于權重訓練的關鍵詞,并分別獲取各個預設訓練詞對應的預設裁判文書集合,其中,預設裁判文書集合中每一篇裁判文書均為與其對應的預設訓練詞匹配的裁判文書,例如,一組預設訓練詞中包括預設訓練詞a和預設訓練詞b,獲取與預設訓練詞a匹配的裁判文書組成預設裁判文書集合a,獲取與預設訓練詞b匹配的裁判文書組成預設裁判文書集合b。
在得到多個預設裁判文書集合之后,計算多個預設裁判文書集合中每篇裁判文書的相關性分值和復雜度。具體地,裁判文書的相關性分值和復雜度的計算方法同上,在此不再贅述,需要說明的是,對于不同的裁判文書,選取的指標參數(shù)相同,相同指標參數(shù)的初始權重也相同,例如,對于裁判文書1,其選取的指標參數(shù)為適用法條數(shù)和訴訟金額,其中,適用法條數(shù)的初始權重為x,訴訟金額的初始權重為y,則對于裁判文書2,其選取的指標參數(shù)也為適用法條數(shù)和訴訟金額,并且適用法條數(shù)的初始權重為x,訴訟金額的初始權重為y,各個參數(shù)的初始權重可以是(0,1)區(qū)間內(nèi)任意一個數(shù)值。
在得到各個預設裁判文書集合中每篇裁判文書的相關性分值和復雜度之后,計算每篇裁判文書的修正相關性分值,例如,可以將裁判文書的相關性分值和復雜度相乘得到其修正相關性分值。在得到多個預設裁判文書集合中每篇裁判文書的修正相關性分值之后,確定各個預設裁判文書集合中修正相關性分值排序靠前的第一預設數(shù)量的裁判文書。
例如,預設裁判文書集合a中存在100篇裁判文書,預設裁判文書集合b中存在130篇裁判文書,分別按照預設裁判文書集合a中100篇裁判文書的修正相關性分值進行排序和按照預設裁判文書集合b中130篇裁判文書的修正相關性分值進行排序,并分別確定預設裁判文書集合a和預設裁判文書集合b中排序靠前的10篇裁判文書。
本申請實施例的基準排序為用戶預設的排序,用于衡量上述按照修正相關性分值排序的排序結果的準確性,具體地,可以通過統(tǒng)計按照修正相關性分值排序和基準排序相同的比率或是不同的比率來確定按照修正相關性分值排序的排序結果的準確性。
例如,預設訓練詞“合同無效”所返回的修正相關性分值排序靠前的10篇裁判文書A1至A10,A1至A10按照修正相關性分值排序為:A1>A2>A3>A4>A5>A6>A7>A8>A9>A10,A1至A10的基準排序為A2>A3>A1>A5>A6>A4>A7>A8>A10>A9。根據(jù)排列原理,10篇裁判文書A1至A10存在45種排序方式,例如,A2>A3,A8>A10等,由上可以看出,A1至A10按照修正相關性分值排序和基準排序中存在41個相同的排序,存在4個不同的排序,即A2和A1、A3和A1、A5和A4、A6和A4的排序不同,因此,按照修正相關性分值排序和基準排序相同的比率為91%,不同的比率為9%。
優(yōu)選地,根據(jù)各個預設裁判文書集合對應的第一預設數(shù)量的裁判文書按照修正相關性分值的排序和基準排序,修正各個參數(shù)的初始權重包括:計算各個預設裁判文書集合對應的第一預設數(shù)量的裁判文書按照修正相關性分值的排序與基準排序不同的比率值,得到多個比率值;判斷多個比率值是否均小于預設閾值;在判斷出多個比率值中存在大于預設閾值的比率值時,修正各個參數(shù)的初始權重;以及在判斷出多個比率值均小于預設閾值時,結束對各個參數(shù)的初始權重的修正。
按照上述方式分別統(tǒng)計各個預設裁判文書集合對應的第一預設數(shù)量的裁判文書按照修正相關性分值的排序和基準排序不同的比率值,并與預設閾值進行比較,其中,預設閾值可以根據(jù)實際情況進行設置,例如,5%,8%等。
例如,預設閾值為5%,預設裁判文書集合a中按照修正相關性排序靠前的10篇裁判文書A1至A10,A1至A10按照修正相關性排序的排序結果和其基準排序不同的比率為12%,即比率值a為12%;預設裁判文書集合b中按照修正相關性排序靠前的 10篇裁判文書B1至B10,B1至B10按照修正相關性排序的排序結果和其基準排序不同的比率為20%,即比率值b為20%,由此可以看出,比率值a和比率值b均大于預設閾值,此時需要對上述各個參數(shù)的初始權重進行修正,例如,修正上述公式中pL、pM、pN三個初始權重。
具體地,本申請實施例在對上述各個參數(shù)的初始權重進行修正之后,通過修正后的各個參數(shù)的初始權重重新計算多個預設裁判文書集合中每篇裁判文書的復雜度,重復執(zhí)行上述步驟,直至各個預設裁判文書集合對應的第一預設數(shù)量的裁判文書按照修正相關性分值的排序與基準排序不同的比率值均小于預設閾值,此時,將最后修正得到的各個參數(shù)的初始權重作為各個參數(shù)的權重。
需要說明的是,對上述各個參數(shù)的初始權重的修正可以是按照預設步長調(diào)整各個參數(shù)的初始權重的值,也可以是人工調(diào)整各個參數(shù)的初始權重的值。
圖2是根據(jù)本申請實施例的按照預設規(guī)則設置權重的流程圖。如圖2所示,按照預設規(guī)則設置權重包括如下步驟:
步驟S202:獲取一組裁判文書。
可選地,可以將上述裁判文書按其唯一標識對應存儲至內(nèi)存或硬盤數(shù)據(jù)庫或數(shù)據(jù)結構中。
步驟S204:遍歷該組裁判文書,提取每篇裁判文書的全文長度L、適用法條數(shù)N和訴訟金額M。
具體地,遍歷該組裁判文書,對每篇裁判文書執(zhí)行如下操作:一,提取該篇文書的全文長度,記為L;二,提取該篇文書的裁判適用法條,記錄適用法條的總數(shù)N,其中,同一部法律的多個法條視為多條;三,提取該篇文書的訴訟金額M,其中,涉及到訴訟費用減半情形時,所提取的金額應還原至減半前的水平。需要說明的是,可以將上述提取的三項指標參數(shù),均對應存儲至其對應的裁判文書記錄所屬字段中。
步驟S206:獲取預設的三個初始參數(shù)pL、pN、pM,計算當前裁判文書的復雜度指標C。
具體地,復雜度指標C即復雜度,在步驟S204的遍歷過程中,按預先給定的三個初始參數(shù)(即初始權重)pL、pN、pM,計算當前裁判文書的復雜度指標C,計算公式如下:
C=ln(pL·L+1)·ln(pM·M+1)·ln(pN·N+1),其中,L、M、N分別表示當前裁判文書的長度、當前裁判文書的適用法條數(shù)和當前裁判文書的訴訟金額,pL、pM、pN分別表示當前裁判文書的長度、當前裁判文書的適用法條數(shù)和當前裁判文書的訴訟金額 的初始權重。在得到當前裁判文書的復雜度指標C之后,也對應存儲至當前裁判文書記錄所屬的字段中,其中,當前裁判文書即當前被處理的裁判文書。
步驟S208:給定一組預設訓練詞,獲取其匹配文書的相關性分值,將其相關性分值和其復雜度指標C相乘,得到修飾相關性分值,在獲得所有匹配文書的修飾相關性分值之后,按照修飾相關性分值從高到低,推送前10篇匹配文書。
具體地,以下以一個預設訓練詞為例進行說明,例如,對于預設訓練詞“合同無效”,可以對存儲的裁判文書進行全文檢索,獲取其匹配文書(即與預設訓練詞匹配的裁判文書)的相關性分值,其中,在匹配文書中預設訓練詞出現(xiàn)的次數(shù)越多、越完整,其相關性分值越高。對預設訓練詞對應的每篇匹配文書,將其相關性分值與該匹配文書的復雜度指標C相乘,得到修飾后的相關性分值,記為修飾相關性分值(即修正相關性分值)。
在對與預設訓練詞匹配的全部裁判文書執(zhí)行上述處理,得到所有匹配文書的修飾相關性分值之后,將所有匹配文書按照修飾相關性分值從高到低排序,推送其中前10篇匹配文書。對該組預設訓練詞中的每個預設訓練詞均執(zhí)行上述處理,從而可以得到每個預設訓練詞對應的前10篇匹配文書。
步驟S210:對每個預設訓練詞對應的前10篇匹配文書,通過人工方式進行排序,并計算人工方式排序與按照修飾相關性分值排序不同的比例accu%。
具體地,對于步驟S208中每個預設訓練詞對應的前10篇匹配文書,通過人工方式進行排序(即基準排序),例如,預設訓練詞“合同無效”所返回的修正相關性分值排序靠前的10篇裁判文書A1至A10,A1至A10按照修正相關性分值排序為:A1>A2>A3>A4>A5>A6>A7>A8>A9>A10,A1至A10按照人工方式進行排序為A2>A3>A1>A5>A6>A4>A7>A8>A10>A9。
具體地,對全部的預設訓練詞對應的前10篇匹配文書,分別計算人工方式排序與按照修飾相關性分值排序不同的比例accu%。
步驟S212:以accu%的最小化為目標函數(shù),梯度調(diào)整三個參數(shù)pL、pN、pM的初始值,獲得三個參數(shù)的最優(yōu)解pL’、pN’、pM’。
其中,上述三個參數(shù)的最優(yōu)解pL’、pN’、pM’即上述指標參數(shù)對應的權重。
具體地,可以將各個預設訓練詞對應的accu%分別與預設閾值比較,如果各個預設訓練詞對應的accu%均小于預設閾值,則無需對pL、pN、pM進行修正,當前的pL、pN、pM即為最優(yōu)解,如果各個預設訓練詞對應的accu%中存在大于預設閾值的accu%,則修正三個參數(shù)pL、pN、pM,并通過修正后的pL、pN、pM重新計算每篇匹配文書 的復雜度,即重復執(zhí)行上述步驟S206至步驟S212直至各個預設訓練詞對應的accu%均小于預設閾值,此時對應的pL、pN、pM即為最優(yōu)解。
步驟S214:按照pL’、pN’、pM’,重新遍歷全部裁判文書并計算其復雜度指標。
需要說明的是,在用戶檢索過程中,將相關性分值與新的復雜度指標相乘,得到新的修正相關性分值,并按照該分值對匹配結果進行排序和展現(xiàn)。
本申請實施例是一種融合裁判文書重要性(即復雜度)的排序方式,該方式在傳統(tǒng)全文檢索相關性排序的基礎上,加入衡量裁判文書重要性的指標(例如,長度、涉案金額、適用法條數(shù)量等),并結合人工判定和求目標函數(shù)最優(yōu)解的方式調(diào)整相關參數(shù)取值,以求得最佳效果,使得裁判文書的排序結果更契合用戶的檢索需求。
需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
根據(jù)本申請實施例的另一方面,提供了一種裁判文書檢索裝置,該裁判文書裝置可以用于執(zhí)行本申請實施例的裁判文書檢索方法,本申請實施例的裁判文書檢索方法也可以通過本申請實施例的裁判文書檢索裝置來執(zhí)行。
圖3是根據(jù)本申請實施例的裁判文書檢索裝置的示意圖,如圖3所示,該裝置包括:獲取單元10、第一計算單元20、第二計算單元30、排序單元40和顯示單元50。
獲取單元10,用于獲取與檢索詞匹配的裁判文書集合。
本申請實施例的檢索詞為用于裁判文書的檢索的關鍵詞,檢索詞可以是一個,也可以是多個。在進行文書檢索時,通常先接收用戶輸入的檢索詞,并根據(jù)該檢索詞從裁判文書數(shù)據(jù)庫中獲取與該檢索詞匹配的裁判文書。可選地,可以獲取包含該檢索詞的裁判文書,也可以是獲取包含該檢索詞的部分內(nèi)容的裁判文書,例如,檢索詞為合同無效,則可以獲取包含合同無效的裁判文書組成裁判文書集合,也可以是獲取包含合同無效的裁判文書和同時包含合同和無效的裁判文書共同組成裁判文書集合。
第一計算單元20,用于計算裁判文書集合中每篇裁判文書的相關性分值和復雜度,其中,相關性分值用于表示裁判文書與檢索詞的匹配度,復雜度用于表示裁判文書的復雜程度。
本申請實施例的相關性分值用于衡量裁判文書與檢索詞的匹配度,相關性分值越大,則說明裁判文書與檢索詞的匹配度越高,相關性分值越小,則說明裁判文書與檢索詞的匹配度越低。本申請實施例的復雜度用于衡量裁判文書的復雜程度,例如,裁判文書案情的復制程度和重要程度,具體地,可以通過一些指標參數(shù)來衡量裁判文書 的復雜度,例如,涉案金額、適用法條數(shù)、裁判文書長度等。
第二計算單元30,用于分別根據(jù)相關性分值和復雜度計算裁判文書集合中每篇裁判文書的修正相關性分值,得到分別與裁判文書集合中多篇裁判文書對應的多個修正相關性分值。
排序單元40,用于根據(jù)多個修正相關性分值對裁判文書集合中的裁判文書進行排序,得到排序結果。
顯示單元50,用于根據(jù)排序結果顯示裁判文書集合中的裁判文書。
本申請實施例通過獲取單元10獲取與檢索詞匹配的裁判文書集合;第一計算單元20計算裁判文書集合中每篇裁判文書的相關性分值和復雜度,其中,相關性分值用于表示裁判文書與檢索詞的匹配度,復雜度用于表示裁判文書的復雜程度;第二計算單元30分別根據(jù)相關性分值和復雜度計算裁判文書集合中每篇裁判文書的修正相關性分值,得到分別與裁判文書集合中多篇裁判文書對應的多個修正相關性分值;排序單元40根據(jù)多個修正相關性分值對裁判文書集合中的裁判文書進行排序,得到排序結果;以及顯示單元50根據(jù)排序結果顯示裁判文書集合中的裁判文書。本申請實施例通過裁判文書的復雜度對裁判文書的相關性分值進行修正,并根據(jù)修正相關性分值對檢索結果進行排序顯示,相比于現(xiàn)有技術中僅根據(jù)相關性對檢索結果進行排序,更契合用戶的檢索需求,解決了相關技術中對裁判文書的檢索結果進行排序時準確性較低的問題,進而達到了提高對裁判文書的檢索結果排序的準確性的效果。
優(yōu)選地,裁判文書集合中包括第一裁判文書,第一計算單元20包括:獲取模塊,用于獲取第一裁判文書的指標參數(shù),其中,指標參數(shù)包括如下參數(shù)的至少之一:第一裁判文書的長度、第一裁判文書的適用法條數(shù)和第一裁判文書的訴訟金額;以及第一計算模塊,用于根據(jù)指標參數(shù)計算第一裁判文書的復雜度。
優(yōu)選地,第一計算模塊包括:獲取子模塊,獲取指標參數(shù)中各個參數(shù)的權重;以及計算子模塊,用于根據(jù)指標參數(shù)中各個參數(shù)的值及各個參數(shù)的權重計算第一裁判文書的復雜度。
進一步地,該裝置還包括:第三計算單元,用于計算多個預設裁判文書集合中每篇裁判文書的相關性分值,其中,多個預設裁判文書集合為分別與多個預設訓練詞匹配的多個裁判文書集合;第四計算單元,用于計算多個預設裁判文書集合中每篇裁判文書的復雜度,其中,根據(jù)指標參數(shù)中各個參數(shù)的值及各個參數(shù)的初始權重計算復雜度,每篇參與計算的裁判文書使用的指標參數(shù)對應一致,并且指標參數(shù)中相同參數(shù)的初始權重相等;第五計算單元,用于根據(jù)多個預設裁判文書集合中每篇裁判文書的相關性分值和對應的復雜度計算多個預設裁判文書集合中每篇裁判文書的修正相關性分 值,并確定各個預設裁判文書集合中修正相關性分值排序靠前的第一預設數(shù)量的裁判文書;修正單元,用于根據(jù)各個預設裁判文書集合對應的第一預設數(shù)量的裁判文書按照修正相關性分值的排序和基準排序,修正各個參數(shù)的初始權重;以及確定單元,用于分別將修正后的各個參數(shù)的初始權重作為各個參數(shù)的權重,相同參數(shù)修正后的權重相等。
進一步地,修正單元包括:第二計算模塊,用于計算各個預設裁判文書集合對應的第一預設數(shù)量的裁判文書按照修正相關性分值的排序與基準排序不同的比率值,得到多個比率值;判斷模塊,用于判斷多個比率值是否均小于預設閾值;以及修正模塊,用于在判斷出多個比率值中存在大于預設閾值的比率值時,修正各個參數(shù)的初始權重,在判斷出多個比率值均小于預設閾值時,結束對各個參數(shù)的初始權重的修正。
所述裁判文書檢索裝置包括處理器和存儲器,上述獲取單元、第一計算單元、第二計算單元、排序單元和顯示單元等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元來實現(xiàn)相應的功能。
處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應的程序單元。內(nèi)核可以設置一個或以上,通過調(diào)整內(nèi)核參數(shù)來完成對裁判文書的準確檢索。
存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM),存儲器包括至少一個存儲芯片。
本申請還提供了一種計算機程序產(chǎn)品,當在數(shù)據(jù)處理設備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取與檢索詞匹配的裁判文書集合;計算所述裁判文書集合中每篇裁判文書的相關性分值和復雜度,其中,所述相關性分值用于表示所述裁判文書與所述檢索詞的匹配度,所述復雜度用于表示所述裁判文書的復雜程度;分別根據(jù)所述相關性分值和所述復雜度計算所述裁判文書集合中每篇裁判文書的修正相關性分值,得到分別與所述裁判文書集合中多篇裁判文書對應的多個修正相關性分值;根據(jù)所述多個修正相關性分值對所述裁判文書集合中的裁判文書進行排序,得到排序結果;以及根據(jù)所述排序結果顯示所述裁判文書集合中的裁判文書。
上述本申請實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
在本申請的上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
在本申請所提供的幾個實施例中,應該理解到,所揭露的技術內(nèi)容,可通過其它的方式實現(xiàn)。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件 可以結合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本申請各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中。基于這樣的理解,本申請的技術方案本質(zhì)上或者說對現(xiàn)有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設備(可為個人計算機、服務器或者網(wǎng)絡設備等)執(zhí)行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述僅是本申請的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本申請原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本申請的保護范圍。