本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及判決文書相似度的計算方法、查找裝置及計算機(jī)設(shè)備。
背景技術(shù):
在現(xiàn)有技術(shù)中,一種文本相似度的計算方式是:先分別對兩個長文本基于詞典進(jìn)行切詞,并計算每個文本中切詞得到的各個分詞的詞頻,然后根據(jù)詞典確定兩文本中各分詞間的相似度,進(jìn)而根據(jù)所得到的相似度以及詞頻計算兩文本的整體相似度;另一種文本相似度的計算方式是:預(yù)先通過機(jī)器學(xué)習(xí)方式,訓(xùn)練得到一文本相似度計算模型,然后根據(jù)該模型確定文本間的相似度。
對于不同領(lǐng)域的文書而言,由于本身具有該領(lǐng)域特有的語言特點(diǎn),因此,無論是采用詞典和詞頻計算文本相似度的方式或者通過預(yù)先訓(xùn)練的相似度計算模型確定文本相似度的方式,均會導(dǎo)致文本相似度的計算僅在詞的層面進(jìn)行計算,準(zhǔn)確性差。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明解決的技術(shù)問題是如何提高判決文書相似度計算的準(zhǔn)確性。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供一種判決文書相似度的計算方法,包括:獲取至少兩篇判決文書;提取每篇判決文書中一個或多個被告的判決關(guān)鍵詞;根據(jù)不同判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度確定對應(yīng)的判決文書之間的相似度。
可選的,在獲取至少兩篇判決文書之后,在提取每篇判決文書中一個或多個被告的判決關(guān)鍵詞之前,還包括:對每篇所述判決文書進(jìn)行分句處理,得到多個語句。
可選的,所述提取每篇判決文書中一個或多個被告的判決關(guān)鍵詞包括:根據(jù)分詞詞典對每篇所述判決文書中的語句進(jìn)行分詞,得到分詞結(jié)果;對所述分詞結(jié)果進(jìn)行實(shí)體識別,得到所述分詞結(jié)果中的實(shí)體名稱,所述實(shí)體名稱包括被告;根據(jù)所述實(shí)體名稱,對同一語句和/或相鄰語句中的所述分詞結(jié)果進(jìn)行實(shí)體關(guān)系抽取,得到所述實(shí)體名稱之間的實(shí)體關(guān)系;根據(jù)所述被告對所述分詞結(jié)果進(jìn)行特征抽取,得到所述被告的特征值;組合同一被告對應(yīng)的實(shí)體關(guān)系和特征值,得到每個所述被告的判決關(guān)鍵詞。
可選的,所述根據(jù)所述被告對所述分詞結(jié)果進(jìn)行特征抽取,得到所述被告的特征值包括:建立基本觸發(fā)詞表,所述基本觸發(fā)詞表包括一個或多個觸發(fā)詞,所述觸發(fā)詞用于表示所述判決文書中的事件信息;根據(jù)同義詞林得到基本觸發(fā)詞表中的至少一個觸發(fā)詞的近義詞;將所述近義詞加入基本觸發(fā)詞表,得到擴(kuò)展觸發(fā)詞表;根據(jù)所述擴(kuò)展觸發(fā)詞表抽取所述分詞結(jié)果,得到所述被告的特征值。
可選的,所述根據(jù)不同判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度確定對應(yīng)的判決文書之間的相似度包括:計算不同判決文書中兩兩被告對應(yīng)的判決關(guān)鍵詞之間的相似度,所述兩兩被告對應(yīng)的判決關(guān)鍵詞之間的相似度的最大值為對應(yīng)的判決文書之間的相似度。
可選的,所述計算不同判決文書中兩兩被告對應(yīng)的判決關(guān)鍵詞之間的相似度包括:根據(jù)每個被告對應(yīng)的判決關(guān)鍵詞構(gòu)建向量;計算兩兩被告對應(yīng)的向量之間的相似度。
可選的,所述判決關(guān)鍵詞包括以下一種或任意多種:判決事實(shí)的關(guān)鍵詞、判決理由的關(guān)鍵詞和判決結(jié)果的關(guān)鍵詞。
可選的,在根據(jù)分詞詞典對所述判決文書中的語句進(jìn)行分詞之前,還包括:提取所述判決文書中的新詞候選詞;根據(jù)語法和/或語序?qū)λ鲂略~候選詞進(jìn)行過濾,將符合所述語法和/或語序的過濾結(jié)果加入所述分詞詞典。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例還公開了一種相似判決文書的查找方法,包括:獲取待處理判決文書;根據(jù)所述待處理判決文書查找判決文書數(shù)據(jù)庫,所述判決文書數(shù)據(jù)庫包括多篇第一判決文書;采用所述的判決文書相似度的計算方法,確定所述待處理判決文書與每篇所述第一判決文書之間的相似度;將相似度最高的預(yù)設(shè)數(shù)目的第一判決文書或者相似度大于預(yù)設(shè)閾值的第一判決文書作為查找結(jié)果。
可選的,所述判決文書數(shù)據(jù)庫中存儲每篇所述第一判決文書中每個被告對應(yīng)的向量。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例還公開了一種判決文書相似度的計算裝置,包括:獲取模塊,用于獲取至少兩篇判決文書;關(guān)鍵詞提取模塊,用于提取每篇判決文書中一個或多個被告的判決關(guān)鍵詞;關(guān)鍵詞相似度計算模塊,用于獲取不同判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度;文本相似度計算模塊,用于根據(jù)不同判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度確定對應(yīng)的判決文書之間的相似度。
可選的,進(jìn)一步包括:分句模塊,用于對每篇所述判決文書進(jìn)行分句處理,得到多個語句。
可選的,所述關(guān)鍵詞提取模塊包括:分詞單元,用于根據(jù)分詞詞典對每篇所述判決文書中的語句進(jìn)行分詞,得到分詞結(jié)果;實(shí)體識別單元,用于對所述分詞結(jié)果進(jìn)行實(shí)體識別,得到所述分詞結(jié)果中的實(shí)體名稱,所述實(shí)體名稱包括被告;實(shí)體關(guān)系抽取單元,用于根據(jù)所述實(shí)體名稱,對同一語句和/或相鄰語句中的所述分詞結(jié)果進(jìn)行實(shí)體關(guān)系抽取,得到所述實(shí)體名稱之間的實(shí)體關(guān)系;特征抽取單元,用于根據(jù)所述被告對所述分詞結(jié)果進(jìn)行特征抽取,得到所述被告的特征值;組合單元,用于組合同一被告對應(yīng)的實(shí)體關(guān)系和特征值,得到每個所述被告的判決關(guān)鍵詞。
可選的,所述特征抽取單元包括:基本觸發(fā)詞表建立子單元,用于建立基本觸發(fā)詞表,所述基本觸發(fā)詞表包括一個或多個觸發(fā)詞,所述觸發(fā)詞用于表示所述判決文書中的事件信息;近義詞獲取子單元,用于根據(jù)同義詞林得到基本觸發(fā)詞表中的至少一個觸發(fā)詞的近義詞;擴(kuò)展觸發(fā)詞表建立子單元,用于將所述近義詞加入基本觸發(fā)詞表,得到擴(kuò)展觸發(fā)詞表;被告特征值抽取子單元,用于根據(jù)所述擴(kuò)展觸發(fā)詞表抽取所述分詞結(jié)果,得到所述被告的特征值。
可選的,所述關(guān)鍵詞相似度計算模塊具體用于:計算不同判決文書中兩兩被告對應(yīng)的判決關(guān)鍵詞之間的相似度;所述文本相似度計算模塊具體用于,將所述兩兩被告對應(yīng)的判決關(guān)鍵詞之間的相似度的最大值作為對應(yīng)的判決文書之間的相似度。
可選的,所述關(guān)鍵詞相似度計算模塊包括:向量構(gòu)建單元,用于根據(jù)每個被告對應(yīng)的判決關(guān)鍵詞構(gòu)建向量;向量相似度計算單元,用于計算兩兩被告對應(yīng)的向量之間的相似度。
可選的,所述判決關(guān)鍵詞包括以下一種或任意多種:判決事實(shí)的關(guān)鍵詞、判決理由的關(guān)鍵詞和判決結(jié)果的關(guān)鍵詞。
可選的,進(jìn)一步包括:候選詞提取模塊,用于提取所述判決文書中的新詞候選詞;過濾模塊,用于根據(jù)語法和/或語序?qū)λ鲂略~候選詞進(jìn)行過濾,將符合所述語法和/或語序的過濾結(jié)果加入所述分詞詞典。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例還公開了一種相似判決文書的查找裝置,包括:輸入模塊,用于獲取待處理判決文書;查找模塊,用于根據(jù)所述待處理判決文書查找判決文書數(shù)據(jù)庫,所述判決文書數(shù)據(jù)庫包括多篇第一判決文書;所述判決文書相似度的計算裝置,用于確定所述待處理判決文書與每篇所述第一判決文書之間的相似度;輸出模塊,用于將相似度最高的預(yù)設(shè)數(shù)目的第一判決文書或者相似度大于預(yù)設(shè)閾值的第一判決文書作為查找結(jié)果。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例還公開了一種相似判決文書的查找系統(tǒng),包括所述查找裝置和判決文書數(shù)據(jù)庫,所述判決文書數(shù)據(jù)庫中存儲多篇第一判決文書以及每篇所述第一判決文書中每個被告對應(yīng)的向量。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例還公開了一種計算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實(shí)現(xiàn)如前所述的判決文書相似度的計算方法。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例還公開了一種計算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實(shí)現(xiàn)如前所述的相似判決文書的查找方法。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例還公開了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如前所述的判決文書相似度的計算方法。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例還公開了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如前所述的相似判決文書的查找方法。
與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例的技術(shù)方案具有以下有益效果:
本發(fā)明技術(shù)方案獲取至少兩篇判決文書;提取每篇判決文書中一個或多個被告的判決關(guān)鍵詞;根據(jù)不同判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度確定對應(yīng)的判決文書之間的相似度。本發(fā)明技術(shù)方案針對判決文書的特點(diǎn),提取每篇判決文書中一個或多個被告的判決關(guān)鍵詞,在確定判決文書之間的相似度時基于不同判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度,避免僅根據(jù)預(yù)先設(shè)定的詞典或者預(yù)先訓(xùn)練的文本相似度計算模型在詞的層面進(jìn)行計算,而將與被告在詞義上可能關(guān)聯(lián)性不大,但是對于被告在判決層面上具有關(guān)鍵意義的判決關(guān)鍵詞作為判決文書之間相似度計算的核心,進(jìn)而提高判決文書相似度計算的準(zhǔn)確性。
本發(fā)明技術(shù)方案獲取待處理判決文書;根據(jù)所述待處理判決文書查找判決文書數(shù)據(jù)庫,所述判決文書數(shù)據(jù)庫包括多篇第一判決文書;采用所述的判決文書相似度的計算方法,確定所述待處理判決文書與每篇所述第一判決文書之間的相似度;將相似度最高的預(yù)設(shè)數(shù)目的第一判決文書或者相似度大于預(yù)設(shè)閾值的第一判決文書作為查找結(jié)果。本發(fā)明技術(shù)方案針對判決文書的特點(diǎn),根據(jù)待處理判決文書和第一判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度確定待處理判決文書與每篇所述第一判決文書之間的相似度,將相似度最高的預(yù)設(shè)數(shù)目的第一判決文書或者相似度大于預(yù)設(shè)閾值的第一判決文書作為查找結(jié)果。避免僅根據(jù)預(yù)先設(shè)定的詞典或者預(yù)先訓(xùn)練的文本相似度計算模型在詞的層面進(jìn)行相似度計算,而將與被告在詞義上可能關(guān)聯(lián)性不大,但是對于被告在判決層面上具有關(guān)鍵意義的判決關(guān)鍵詞作為待處理判決文書與每篇所述第一判決文書之間相似度計算的核心,進(jìn)而提高判決文書相似度查找的準(zhǔn)確性。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯:
圖1是本發(fā)明實(shí)施例一種判決文書相似度的計算方法的流程圖;
圖2是本發(fā)明實(shí)施例另一種判決文書相似度的計算方法的流程圖;
圖3是本發(fā)明實(shí)施例一種相似判決文書的查找方法的流程圖;
圖4是本發(fā)明實(shí)施例一種判決文書相似度的計算裝置的結(jié)構(gòu)示意圖;
圖5是本發(fā)明實(shí)施例一種相似判決文書的查找裝置的結(jié)構(gòu)示意圖;
圖6是本發(fā)明實(shí)施例提供的一種計算機(jī)設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
如背景技術(shù)中所述,現(xiàn)有技術(shù)中無論是采用詞典和詞頻計算文本相似度的方式或者通過預(yù)先訓(xùn)練的相似度計算模型確定文本相似度的方式,對于不同領(lǐng)域的文書而言,均會導(dǎo)致文本相似度的計算僅在詞的層面進(jìn)行計算,準(zhǔn)確性差。
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更為明顯易懂,下面結(jié)合附圖對本發(fā)明的具體實(shí)施例做詳細(xì)的說明。
圖1是本發(fā)明實(shí)施例一種判決文書相似度的計算方法的流程圖。
圖1所示的判決文書相似度的計算方法可以包括以下步驟:
步驟s101:獲取至少兩篇判決文書。
步驟s102:提取每篇判決文書中一個或多個被告的判決關(guān)鍵詞。
步驟s103:根據(jù)不同判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度確定對應(yīng)的判決文書之間的相似度。
具體實(shí)施中,判決文書為至少兩篇,當(dāng)判決文書為兩篇時,可以計算兩篇判決文書之間的相似度;當(dāng)判決文書為兩篇以上時,也可以計算兩篇以上判決文書之間的相似度。判決文書是指法院根據(jù)判決寫成的文書,包括但不限于民事判決書、刑事判決書、行政判決書和刑事附帶民事判決書等。在判決文書中一般對一個或多個被告進(jìn)行判決,例如,《曾穩(wěn)泰,李運(yùn)明走私、販賣、運(yùn)輸、制造毒品罪二審刑事判決書》)中被告曾穩(wěn)泰走私50.35g低于標(biāo)準(zhǔn)純度的海洛因,系初犯,裁定為主犯,認(rèn)罪態(tài)度良好,有重大立功表現(xiàn);被告李運(yùn)明販賣40.12g低于標(biāo)準(zhǔn)純度的冰毒,系初犯,裁定為主犯,認(rèn)罪態(tài)度良好,有立功表現(xiàn)等等。
具體地,判決關(guān)鍵詞包括以下一種或任意多種:判決事實(shí)的關(guān)鍵詞、判決理由的關(guān)鍵詞和判決結(jié)果的關(guān)鍵詞,其中,判決事實(shí)的關(guān)鍵詞,例如,“50.35g低于標(biāo)準(zhǔn)純度的海洛因”;判決理由的關(guān)鍵詞,例如,“原告騰讓房屋的請求得到證據(jù)支持”;判決結(jié)果的關(guān)鍵詞,例如,“初犯”、“主犯”等等。首先在步驟s101中,獲取至少兩篇判決文書。然后在步驟s102中,提取每篇判決文書中一個或多個被告的判決關(guān)鍵詞。最后在步驟s103中,根據(jù)不同判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度確定對應(yīng)的判決文書之間的相似度。
本發(fā)明實(shí)施例針對判決文書的特點(diǎn),提取每篇判決文書中一個或多個被告的判決關(guān)鍵詞,在確定判決文書之間的相似度時基于不同判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度,使得與被告在詞義上可能關(guān)聯(lián)性不大,但是對于被告在判決層面上具有關(guān)鍵意義的判決關(guān)鍵詞作為判決文書之間相似度計算的核心,避免僅根據(jù)預(yù)先設(shè)定的詞典或者預(yù)先訓(xùn)練的文本相似度計算模型在詞的層面進(jìn)行計算,進(jìn)而提高判決文書相似度計算的準(zhǔn)確性。
具體實(shí)施中,在步驟s101之后,在步驟s102之前,可以包括以下步驟:對每篇所述判決文書進(jìn)行分句處理,得到多個語句。具體而言,對每篇判決文書進(jìn)行分句處理可以按照指示句子結(jié)尾的標(biāo)點(diǎn),例如問號、嘆號和句號等分割成行并保存。更具體地,可以在進(jìn)行分句處理之前,將每篇判決文書轉(zhuǎn)換為文本格式,過濾轉(zhuǎn)換過程中得到的無效格式,例如,圖片、亂碼等。再對過濾后的判決文書進(jìn)行分句處理。本實(shí)施例對判決文書進(jìn)行分句處理可以為后續(xù)步驟的操作提供便利。
具體實(shí)施中,步驟s102可以包括以下步驟:根據(jù)分詞詞典對每篇所述判決文書中的語句進(jìn)行分詞,得到分詞結(jié)果;對所述分詞結(jié)果進(jìn)行實(shí)體識別,得到所述分詞結(jié)果中的實(shí)體名稱,所述實(shí)體名稱包括被告;根據(jù)所述實(shí)體名稱,對同一語句和/或相鄰語句中的所述分詞結(jié)果進(jìn)行實(shí)體關(guān)系抽取,得到所述實(shí)體名稱之間的實(shí)體關(guān)系;根據(jù)所述被告對所述分詞結(jié)果進(jìn)行特征抽取,得到所述被告的特征值;組合同一被告對應(yīng)的實(shí)體關(guān)系和特征值,得到每個所述被告的判決關(guān)鍵詞。
具體地,實(shí)體名稱是指人名、機(jī)構(gòu)名、地名以及其他所有以名稱為標(biāo)識的實(shí)體,也包括數(shù)字、日期、貨幣、地址等等,其可以采用crf等實(shí)體識別方法獲取。例如,“張三”、“李四”等等。
實(shí)體關(guān)系是兩個實(shí)體名稱之間的關(guān)系,例如,人名+毒品名+販賣、人名+日期+出生等等,實(shí)體關(guān)系可以采用現(xiàn)有的實(shí)體關(guān)系抽取方法獲取。例如,“張三+毒品名+販賣”、“李四+日期+出生”等等。
特征值用于表示被告的判決基準(zhǔn),其可以通過觸發(fā)詞表抽取等特征提取方法獲取,例如,“張三+主犯”、“李四+重大立功”等等。
具體地,可以通過如下方式訓(xùn)練分詞詞典:提取所述判決文書中的新詞候選詞;根據(jù)語法和/或語序?qū)λ鲂略~候選詞進(jìn)行過濾,將符合所述語法和/或語序的過濾結(jié)果加入所述分詞詞典。根據(jù)判決文書中的新詞候選詞對分詞詞典進(jìn)行訓(xùn)練,可以提高分詞詞典的完整性,根據(jù)語法和/或語序?qū)λ鲂略~候選詞進(jìn)行過濾,可以提高分詞詞典的準(zhǔn)確度。
具體地,可以通過如下方式得到所述被告的特征值:建立基本觸發(fā)詞表,所述基本觸發(fā)詞表包括一個或多個觸發(fā)詞,所述觸發(fā)詞用于表示所述判決文書中的事件信息;根據(jù)同義詞林得到基本觸發(fā)詞表中的至少一個觸發(fā)詞的近義詞;將所述近義詞加入基本觸發(fā)詞表,得到擴(kuò)展觸發(fā)詞表;根據(jù)所述擴(kuò)展觸發(fā)詞表抽取所述分詞結(jié)果,得到所述被告的特征值。擴(kuò)展觸發(fā)詞表中包含觸發(fā)詞的近義詞,根據(jù)擴(kuò)展觸發(fā)詞表提取得到的被告的特征值準(zhǔn)確率高。
具體實(shí)施中,進(jìn)行如下示例性的說明,本示例性的說明僅用于理解本發(fā)明的技術(shù)方案,而不是對本發(fā)明技術(shù)方案的限定。例如,預(yù)處理后的判決文書包括以下內(nèi)容:
“上訴人(原審被告人)丁亞,曾用名丁希斌,男,1981年11月13日出生,漢族,無業(yè),戶籍地貴州省大方縣,暫住福建省廈門市同安區(qū)。
本院認(rèn)為,上訴人丁亞明知是毒品仍幫助他人販賣甲基苯丙胺61克,其行為已構(gòu)成販賣毒品罪,應(yīng)依法懲處。
本案系共同犯罪,上訴人丁亞在犯罪中起次要輔助作用,系從犯,依法應(yīng)當(dāng)從輕或減輕處罰。
丁亞到案后能如實(shí)供述自己罪行,依法可以從輕處罰。
丁亞系累犯,依法應(yīng)當(dāng)從重處罰?!?/p>
具體實(shí)施中,針對以上判決文書的其中一種分詞結(jié)果見表1,表1中的每一格表示一個分詞。
表1分詞結(jié)果示例
具體實(shí)施中,通過實(shí)體識別算法,得到的一種實(shí)體識別結(jié)果見表2,表2中的每一格表示一個實(shí)體名稱。
表2實(shí)體識別結(jié)果示例
具體實(shí)施中,根據(jù)實(shí)體關(guān)系抽取方法抽取“上訴人(原審被告人)丁亞,曾用名丁希斌,男,1981年11月13日出生,漢族,無業(yè),戶籍地貴州省大方縣,暫住福建省廈門市同安區(qū)。”得到如下一種實(shí)體關(guān)系“丁亞----出生----1981年11月13日”,和/或,另一種實(shí)體關(guān)系“丁亞----戶籍地----貴州省大方縣”;根據(jù)實(shí)體關(guān)系抽取方法抽取“本院認(rèn)為,上訴人丁亞明知是毒品仍幫助他人販賣甲基苯丙胺61克,其行為已構(gòu)成販賣毒品罪,應(yīng)依法懲處”得到如下一種實(shí)體關(guān)系“丁亞----販賣----甲基苯丙胺----61克”。
具體實(shí)施中,例如,觸發(fā)詞表包括:主犯、從犯、立功等,經(jīng)同義詞林?jǐn)U展后的擴(kuò)展觸發(fā)詞表包括:主犯、主要作用、從犯、次要作用、輔助作用、立功、重大立功等。根據(jù)擴(kuò)展觸發(fā)詞表抽取“本案系共同犯罪,上訴人丁亞在犯罪中起次要輔助作用,系從犯,依法應(yīng)當(dāng)從輕或減輕處罰”,得到如下特征值“丁亞----從犯”;根據(jù)擴(kuò)展觸發(fā)詞表抽取“丁亞到案后能如實(shí)供述自己罪行,依法可以從輕處罰”,得到如下特征值“丁亞----如實(shí)供述”;根據(jù)擴(kuò)展觸發(fā)詞表抽取“丁亞系累犯,依法應(yīng)當(dāng)從重處罰”得到如下特征值“丁亞----累犯”。
本發(fā)明實(shí)施例通過步驟s102,從判決文書的分詞結(jié)果中提取實(shí)體名稱,從而得到判決文書中的被告信息;從同一語句和/或相鄰語句提取實(shí)體名稱之間的實(shí)體關(guān)系,以及根據(jù)被告對分詞結(jié)果進(jìn)行特征抽取得到所述被告的特征值,計算方便快捷,提高被告的判決關(guān)鍵詞的速度。
具體實(shí)施中,步驟s103可以包括如下步驟:計算不同判決文書中兩兩被告對應(yīng)的判決關(guān)鍵詞之間的相似度,所述兩兩被告對應(yīng)的判決關(guān)鍵詞之間的相似度的最大值為對應(yīng)的判決文書之間的相似度。
具體地,可以通過如下方式計算不同判決文書中兩兩被告對應(yīng)的判決關(guān)鍵詞之間的相似度:根據(jù)每個被告對應(yīng)的判決關(guān)鍵詞構(gòu)建向量;計算兩兩被告對應(yīng)的向量之間的相似度。計算向量之間的相似度可以通過計算向量之間的歐式距離或者通過余弦算法等方式。本發(fā)明實(shí)施例通過兩兩被告對應(yīng)的判決關(guān)鍵詞之間的相似度的最大值為對應(yīng)的判決文書之間的相似度提高判決文書相似度計算的準(zhǔn)確性。
具體實(shí)施中,以上述示例性判決文書為例,被告丁亞的特征值如下(可以根據(jù)語法或者語序等方式對特征值進(jìn)行排序):販賣甲基苯丙胺61克從犯累犯......構(gòu)建判決關(guān)鍵詞向量,例如采用詞袋模型,預(yù)先設(shè)置標(biāo)準(zhǔn)向量如下[販賣,運(yùn)輸,甲基苯丙胺,大麻,1-10g,1,1-50g,50-100g,從犯,主犯,累犯,初犯,......],其中的特征值數(shù)字化,默認(rèn)所有的特征的權(quán)重相同,即各個特征的重要程度相同,存在的特征值對應(yīng)的數(shù)字為1,不存在的特征值對應(yīng)的數(shù)字為0。則被告丁亞對應(yīng)的向量為:(10100011010......)。
在本發(fā)明一優(yōu)選實(shí)施例中,判決文書相似度的計算方法可參考圖2,圖2是本發(fā)明實(shí)施例另一種判決文書相似度的計算方法的流程圖。
圖2所示的判決文書相似度的計算方法可以包括以下步驟:
步驟s201:獲取至少兩篇判決文書。
步驟s202:對每篇所述判決文書進(jìn)行分句處理,得到多個語句。
步驟s203:提取所述判決文書中的新詞候選詞。
步驟s204:根據(jù)語法和/或語序?qū)λ鲂略~候選詞進(jìn)行過濾,將符合所述語法和/或語序的過濾結(jié)果加入所述分詞詞典。
步驟s205:根據(jù)分詞詞典對每篇所述判決文書中的語句進(jìn)行分詞,得到分詞結(jié)果。
步驟s206:對所述分詞結(jié)果進(jìn)行實(shí)體識別,得到所述分詞結(jié)果中的實(shí)體名稱,所述實(shí)體名稱包括被告。
步驟s207:根據(jù)所述實(shí)體名稱,對同一語句和/或相鄰語句中的所述分詞結(jié)果進(jìn)行實(shí)體關(guān)系抽取,得到所述實(shí)體名稱之間的實(shí)體關(guān)系。
步驟s208:建立基本觸發(fā)詞表,所述基本觸發(fā)詞表包括一個或多個觸發(fā)詞,所述觸發(fā)詞用于表示所述判決文書中的事件信息。
步驟s209:根據(jù)同義詞林得到基本觸發(fā)詞表中的至少一個觸發(fā)詞的近義詞。
步驟s210:將所述近義詞加入基本觸發(fā)詞表,得到擴(kuò)展觸發(fā)詞表。
步驟s211:根據(jù)所述擴(kuò)展觸發(fā)詞表抽取所述分詞結(jié)果,得到所述被告的特征值。
步驟s212:組合同一被告對應(yīng)的實(shí)體關(guān)系和特征值,得到每個所述被告的判決關(guān)鍵詞。
步驟s213:根據(jù)每個被告對應(yīng)的判決關(guān)鍵詞構(gòu)建向量。
步驟s214:計算兩兩被告對應(yīng)的向量之間的相似度,所述兩兩被告對應(yīng)的判決關(guān)鍵詞之間的相似度的最大值為對應(yīng)的判決文書之間的相似度。
具體實(shí)施中,在步驟s202中,將每篇判決文書轉(zhuǎn)換為文本格式,過濾轉(zhuǎn)換過程中得到的無效格式,例如,圖片、亂碼等。再對過濾后的判決文書根據(jù)指示句子結(jié)尾的標(biāo)點(diǎn),例如問號、嘆號和句號等分割成行并保存。
本發(fā)明另一具體實(shí)施例中,步驟s203和步驟s204也可以在步驟s201之后、步驟s202之前執(zhí)行,即對判決文書進(jìn)行分句處理之前,預(yù)先構(gòu)建分詞詞典,以減少后續(xù)步驟的工作量。
具體實(shí)施中,在步驟s206中,可以利用實(shí)體識別算法對分詞結(jié)果進(jìn)行實(shí)體識別。具體而言,實(shí)體識別算法可以采用條件隨機(jī)場算法(conditionalrandomfield,crf)等。
具體實(shí)施中,在步驟s207中,可以利用實(shí)體關(guān)系抽取算法對分詞結(jié)果進(jìn)行實(shí)體關(guān)系抽取。具體而言,實(shí)體關(guān)系抽取算法也可以采用crf算法等。
本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,實(shí)體識別算法和實(shí)體關(guān)系抽取算法可以是任意可實(shí)施的算法,本發(fā)明實(shí)施例對此不做限制。
具體實(shí)施中,在步驟s208中,觸發(fā)詞,例如,“主犯”等。
本發(fā)明另一具體實(shí)施例中,步驟s208、步驟s209和步驟s210也可以在步驟s201之后、步驟s202之前執(zhí)行,即對判決文書進(jìn)行分句處理之前,預(yù)先構(gòu)建擴(kuò)展觸發(fā)詞表,以減少后續(xù)步驟的工作量。
具體實(shí)施中,在步驟s214中,可以通過計算向量之間的歐式距離或者通過余弦算法等方式計算向量之間的相似度。
本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是計算向量之間的相似度可以是任意可實(shí)施的算法,本發(fā)明實(shí)施例對此不做限制。
本發(fā)明實(shí)施例針對判決文書的特點(diǎn),提取每篇判決文書中一個或多個被告的判決關(guān)鍵詞,在確定判決文書之間的相似度時基于不同判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度,使得與被告在詞義上可能關(guān)聯(lián)性不大,但是對于被告在判決層面上具有關(guān)鍵意義的判決關(guān)鍵詞作為判決文書之間相似度計算的核心,避免僅根據(jù)預(yù)先設(shè)定的詞典或者預(yù)先訓(xùn)練的文本相似度計算模型在詞的層面進(jìn)行計算,進(jìn)而提高判決文書相似度計算的準(zhǔn)確性。
圖3是本發(fā)明實(shí)施例一種相似判決文書的查找方法的流程圖。
圖3所示的相似判決文書的查找方法可以包括以下步驟:
步驟s301:獲取待處理判決文書。
步驟s302:根據(jù)所述待處理判決文書查找判決文書數(shù)據(jù)庫,所述判決文書數(shù)據(jù)庫包括多篇第一判決文書。
步驟s303:采用上述實(shí)施例所述的判決文書相似度的計算方法,確定所述待處理判決文書與每篇所述第一判決文書之間的相似度。
步驟s304:將相似度最高的預(yù)設(shè)數(shù)目的第一判決文書或者相似度大于預(yù)設(shè)閾值的第一判決文書作為查找結(jié)果。
具體實(shí)施中,在步驟s302中的判決文書數(shù)據(jù)庫中可以預(yù)先存儲每篇所述第一判決文書中每個被告對應(yīng)的向量,以減少后續(xù)步驟的工作量。
具體實(shí)施中,在步驟s303中判決文書相似度的計算方法的具體實(shí)施方式可參照圖1或者圖2所示的判決文書相似度的計算方法,此處不再贅述。
具體實(shí)施中,在步驟s304中,得到待處理判決文書與每篇所述第一判決文書之間的相似度之后,可以按照相似度從高到低進(jìn)行排列,從而將前n個判決文書作為查找結(jié)果并輸出,n為預(yù)設(shè)數(shù)目,也可以將相似度大于預(yù)設(shè)閾值的第一判決文書作為查找結(jié)果并輸出。其中輸出相似度最高的第一判決文書的預(yù)設(shè)數(shù)目或者相似度的預(yù)設(shè)閾值可以根據(jù)實(shí)際的應(yīng)用環(huán)境進(jìn)行自定義配置和適應(yīng)性的修改,本發(fā)明實(shí)施例對此不做限制。
在采用圖1所示的判決文書相似度的計算方法得到被告對應(yīng)的向量之后,在實(shí)際應(yīng)用中,可以根據(jù)查詢目的對向量中的各個特征值進(jìn)行加權(quán),例如,在本次查詢中,毒品甲基苯丙胺比較重要,可以將其他特征值的權(quán)重設(shè)置為1.0,將甲基苯丙胺的權(quán)重設(shè)置為2.0,從而得到的被告向量如下:丁亞(1.0*11.0*02.0*11.0*01.0*01.0*01.0*11.0*11.0*01.0*11.0*0......)。
在具體實(shí)施中,可以根據(jù)文本相似度的計算結(jié)果從大到小對查詢結(jié)果進(jìn)行排序,并將前n個判決文書作為查找結(jié)果并輸出,其中的n可以按照一般地瀏覽習(xí)慣,設(shè)置為5-20,也可以設(shè)置為其他數(shù)值;也可以根據(jù)閾值篩選檢索結(jié)果,例如,可以設(shè)置預(yù)設(shè)閾值為0.8-0.99。一般而言,相似度>0.8,則認(rèn)為兩篇判決文書的相似度較高,可以作為查詢結(jié)果輸出。
本發(fā)明技術(shù)方案針對判決文書的特點(diǎn),根據(jù)待處理判決文書和第一判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度確定待處理判決文書與每篇所述第一判決文書之間的相似度,將相似度最高的預(yù)設(shè)數(shù)目的第一判決文書或者相似度大于預(yù)設(shè)閾值的第一判決文書作為查找結(jié)果。避免僅根據(jù)預(yù)先設(shè)定的詞典或者預(yù)先訓(xùn)練的文本相似度計算模型在詞的層面進(jìn)行相似度計算,而將與被告在詞義上可能關(guān)聯(lián)性不大,但是對于被告在判決層面上具有關(guān)鍵意義的判決關(guān)鍵詞作為待處理判決文書與每篇所述第一判決文書之間相似度計算的核心,進(jìn)而提高判決文書相似度查找的準(zhǔn)確性。
圖4是本發(fā)明實(shí)施例一種判決文書相似度的計算裝置的結(jié)構(gòu)示意圖。
圖4所示的判決文書相似度的計算裝置40可以包括獲取模塊401、關(guān)鍵詞提取模塊402、關(guān)鍵詞相似度計算模塊403和文本相似度計算模塊404。
其中,獲取模塊401用于獲取至少兩篇判決文書。
關(guān)鍵詞提取模塊402用于提取每篇判決文書中一個或多個被告的判決關(guān)鍵詞。
關(guān)鍵詞相似度計算模塊403用于獲取不同判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度。
文本相似度計算模塊404用于根據(jù)不同判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度確定對應(yīng)的判決文書之間的相似度。
本發(fā)明實(shí)施例針對判決文書的特點(diǎn),提取每篇判決文書中一個或多個被告的判決關(guān)鍵詞,在確定判決文書之間的相似度時基于不同判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度,使得與被告在詞義上可能關(guān)聯(lián)性不大,但是對于被告在判決層面上具有關(guān)鍵意義的判決關(guān)鍵詞作為判決文書之間相似度計算的核心,避免僅根據(jù)預(yù)先設(shè)定的詞典或者預(yù)先訓(xùn)練的文本相似度計算模型在詞的層面進(jìn)行計算,進(jìn)而提高判決文書相似度計算的準(zhǔn)確性。
具體實(shí)施中,判決關(guān)鍵詞包括以下一種或任意多種:判決事實(shí)的關(guān)鍵詞、判決理由的關(guān)鍵詞和判決結(jié)果的關(guān)鍵詞。
具體實(shí)施中,判決文書相似度的計算裝置40還可以包括分句模塊(圖未示),分句模塊用于對每篇所述判決文書進(jìn)行分句處理,得到多個語句。具體而言,分句模塊可以將每篇判決文書轉(zhuǎn)換為文本格式,過濾轉(zhuǎn)換過程中得到的無效格式,例如,圖片、亂碼等。再對過濾后的判決文書根據(jù)指示句子結(jié)尾的標(biāo)點(diǎn),例如問號、嘆號和句號等分割成行并保存。對判決文書進(jìn)行分句處理可以為后續(xù)步驟的操作提供便利。
具體實(shí)施中,關(guān)鍵詞提取模塊402可以包括分詞單元(圖未示)、實(shí)體識別單元(圖未示)、實(shí)體關(guān)系抽取單元(圖未示)、特征抽取單元(圖未示)和組合單元(圖未示)。其中,分詞單元用于根據(jù)分詞詞典對每篇所述判決文書中的語句進(jìn)行分詞,得到分詞結(jié)果;實(shí)體識別單元用于對所述分詞結(jié)果進(jìn)行實(shí)體識別,得到所述分詞結(jié)果中的實(shí)體名稱,所述實(shí)體名稱包括被告;實(shí)體關(guān)系抽取單元用于根據(jù)所述實(shí)體名稱,對同一語句和/或相鄰語句中的所述分詞結(jié)果進(jìn)行實(shí)體關(guān)系抽取,得到所述實(shí)體名稱之間的實(shí)體關(guān)系;特征抽取單元用于根據(jù)所述被告對所述分詞結(jié)果進(jìn)行特征抽取,得到所述被告的特征值;組合單元用于組合同一被告對應(yīng)的實(shí)體關(guān)系和特征值,得到每個所述被告的判決關(guān)鍵詞。從判決文書的分詞結(jié)果中提取實(shí)體名稱,從而得到判決文書中的被告信息;從同一語句和/或相鄰語句提取實(shí)體名稱之間的實(shí)體關(guān)系,以及根據(jù)被告對分詞結(jié)果進(jìn)行特征抽取得到所述被告的特征值,計算方便快捷,提高被告的判決關(guān)鍵詞的速度。
具體地,特征抽取單元可以包括基本觸發(fā)詞表建立子單元(圖未示)、近義詞獲取子單元(圖未示)、擴(kuò)展觸發(fā)詞表建立子單元(圖未示)和被告特征值抽取子單元(圖未示)。其中,基本觸發(fā)詞表建立子單元用于建立基本觸發(fā)詞表,所述基本觸發(fā)詞表包括一個或多個觸發(fā)詞,所述觸發(fā)詞用于表示所述判決文書中的事件信息;近義詞獲取子單元用于根據(jù)同義詞林得到基本觸發(fā)詞表中的至少一個觸發(fā)詞的近義詞;擴(kuò)展觸發(fā)詞表建立子單元用于將所述近義詞加入基本觸發(fā)詞表,得到擴(kuò)展觸發(fā)詞表;被告特征值抽取子單元用于根據(jù)所述擴(kuò)展觸發(fā)詞表抽取所述分詞結(jié)果,得到所述被告的特征值。擴(kuò)展觸發(fā)詞表中包含觸發(fā)詞的近義詞,根據(jù)擴(kuò)展觸發(fā)詞表提取得到的被告的特征值準(zhǔn)確率高。
具體地,關(guān)鍵詞相似度計算模塊403可以用于計算不同判決文書中兩兩被告對應(yīng)的判決關(guān)鍵詞之間的相似度;文本相似度計算模塊404可以用于將所述兩兩被告對應(yīng)的判決關(guān)鍵詞之間的相似度的最大值作為對應(yīng)的判決文書之間的相似度。通過兩兩被告對應(yīng)的判決關(guān)鍵詞之間的相似度的最大值為對應(yīng)的判決文書之間的相似度提高判決文書相似度計算的準(zhǔn)確性。
具體實(shí)施中,關(guān)鍵詞相似度計算模塊403可以包括向量構(gòu)建單元(圖未示)和向量相似度計算單元(圖未示)。其中,向量構(gòu)建單元用于根據(jù)每個被告對應(yīng)的判決關(guān)鍵詞構(gòu)建向量;向量相似度計算單元用于計算兩兩被告對應(yīng)的向量之間的相似度。
具體實(shí)施中,判決文書相似度的計算裝置40還可以包括候選詞提取模塊(圖未示)和過濾模塊(圖未示)。其中,候選詞提取模塊用于提取所述判決文書中的新詞候選詞;過濾模塊用于根據(jù)語法和/或語序?qū)λ鲂略~候選詞進(jìn)行過濾,將符合所述語法和/或語序的過濾結(jié)果加入所述分詞詞典。
本發(fā)明實(shí)施例的具體實(shí)施方式可參考圖1或者圖2所示的判決文書相似度的計算方法,此處不再贅述。
圖5是本發(fā)明實(shí)施例一種相似判決文書的查找裝置的結(jié)構(gòu)示意圖。
圖5所示的相似判決文書的查找裝置50可以包括輸入模塊501、查找模塊502、判決文書相似度的計算裝置503和輸出模塊504。其中,輸入模塊501用于獲取待處理判決文書;查找模塊502用于根據(jù)所述待處理判決文書查找判決文書數(shù)據(jù)庫,所述判決文書數(shù)據(jù)庫包括多篇第一判決文書;判決文書相似度的計算裝置503用于確定所述待處理判決文書與每篇所述第一判決文書之間的相似度;輸出模塊504用于將相似度最高的預(yù)設(shè)數(shù)目的第一判決文書或者相似度大于預(yù)設(shè)閾值的第一判決文書作為查找結(jié)果。
需要說明的是,輸出相似度最高的第一判決文書的預(yù)設(shè)數(shù)目或者相似度的預(yù)設(shè)閾值可以根據(jù)實(shí)際的應(yīng)用環(huán)境進(jìn)行自定義配置和適應(yīng)性的修改,本發(fā)明實(shí)施例對此不做限制。
判決文書相似度的計算裝置503的具體實(shí)施方式可參考圖1或者圖2所示的判決文書相似度的計算方法,此處不再贅述。
本發(fā)明實(shí)施例的具體實(shí)施方式可參考圖3所示的相似判決文書的查找方法,此處不再贅述。
本發(fā)明技術(shù)方案獲取待處理判決文書;根據(jù)所述待處理判決文書查找判決文書數(shù)據(jù)庫,所述判決文書數(shù)據(jù)庫包括多篇第一判決文書;確定所述待處理判決文書與每篇所述第一判決文書之間的相似度;將相似度最高的預(yù)設(shè)數(shù)目的第一判決文書或者相似度大于預(yù)設(shè)閾值的第一判決文書作為查找結(jié)果。本發(fā)明技術(shù)方案針對判決文書的特點(diǎn),根據(jù)待處理判決文書和第一判決文書中被告對應(yīng)的判決關(guān)鍵詞之間的相似度確定待處理判決文書與每篇所述第一判決文書之間的相似度,將相似度最高的預(yù)設(shè)數(shù)目的第一判決文書或者相似度大于預(yù)設(shè)閾值的第一判決文書作為查找結(jié)果。避免僅根據(jù)預(yù)先設(shè)定的詞典或者預(yù)先訓(xùn)練的文本相似度計算模型在詞的層面進(jìn)行相似度計算,而將與被告在詞義上可能關(guān)聯(lián)性不大,但是對于被告在判決層面上具有關(guān)鍵意義的判決關(guān)鍵詞作為待處理判決文書與每篇所述第一判決文書之間相似度計算的核心,進(jìn)而提高判決文書相似度查找的準(zhǔn)確性。
本發(fā)明實(shí)施例還公開了一種相似判決文書的查找系統(tǒng),所述查找系統(tǒng)可以包括如圖5所示的查找裝置50和判決文書數(shù)據(jù)庫,所述判決文書數(shù)據(jù)庫中存儲多篇第一判決文書以及每篇所述第一判決文書中每個被告對應(yīng)的向量。查找裝置50可以內(nèi)部集成于查找系統(tǒng)中,也可以外部耦接于查找系統(tǒng)。
圖6是本發(fā)明實(shí)施例提供的一種計算機(jī)設(shè)備的結(jié)構(gòu)示意圖。圖6示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的計算機(jī)設(shè)備12的框圖。圖6顯示的計算機(jī)設(shè)備12僅僅是一個示例,不應(yīng)對本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。
圖6所示的計算機(jī)設(shè)備12以通用計算設(shè)備的形式表現(xiàn)。計算機(jī)設(shè)備12的組件可以包括但不限于:一個或者多個處理器16、存儲器28以及連接不同系統(tǒng)組件(包括存儲器28和處理器16)的總線18。
總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線、處理器總線或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線、微通道體系結(jié)構(gòu)(mac)總線、增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(vesa)局域總線以及外圍組件互連(pci)總線。
計算機(jī)設(shè)備12典型地包括多種計算機(jī)可讀存儲介質(zhì)。這些介質(zhì)可以是任何能夠被計算機(jī)設(shè)備12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。
存儲器28可以包括易失性存儲器形式的計算機(jī)可讀存儲介質(zhì),例如隨機(jī)存取存儲器(ram)30和/或高速緩存存儲器32。計算機(jī)設(shè)備12可以進(jìn)一步包括其它可移動/不可移動的、易失性/非易失性計算機(jī)可讀存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖6未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖6中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個程序產(chǎn)品(即計算機(jī)程序),該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。
具有一組(至少一個)程序模塊42的程序/實(shí)用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括但不限于操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。
計算機(jī)設(shè)備12也可以與一個或多個外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個或者多個使得用戶能與該計算機(jī)設(shè)備12交互的設(shè)備通信,和/或與使得該計算機(jī)設(shè)備12能與一個或多個其它計算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進(jìn)行。并且,計算機(jī)設(shè)備12還可以通過網(wǎng)絡(luò)適配器20與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計算機(jī)設(shè)備12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計算機(jī)設(shè)備12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、raid系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
處理器16通過運(yùn)行存儲在存儲器28中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)如圖1或圖2所示的判決文書相似度的計算方法或者實(shí)現(xiàn)如圖3所示的相似判決文書的查找方法。
本發(fā)明實(shí)施例還提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如圖1或圖2所示的判決文書相似度的計算方法。或者該程序被處理器執(zhí)行時實(shí)現(xiàn)如圖3所示的相似判決文書的查找方法。
本發(fā)明實(shí)施例的計算機(jī)可讀存儲介質(zhì),例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
可以以一種或多種程序設(shè)計語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計算機(jī)程序代碼,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計語言—諸如”c”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算機(jī)上執(zhí)行、部分地在用戶計算機(jī)上執(zhí)行、作為一個獨(dú)立的軟件包執(zhí)行、部分在用戶計算機(jī)上部分在遠(yuǎn)程計算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計算機(jī)的情形中,遠(yuǎn)程計算機(jī)可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計算機(jī),或者,可以連接到外部計算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實(shí)施例,對本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。