本發(fā)明屬于數(shù)據(jù)檢索領(lǐng)域,更具體的,涉及一種基于語義匹配的裁判文書檢索方法和服務(wù)器。
背景技術(shù):
現(xiàn)有的各種裁判文書檢索服務(wù)器中都是使用關(guān)鍵詞檢索技術(shù),系統(tǒng)通過在裁判文書中查找用戶所輸入的詞或者詞的組合來判斷推送哪些文書。由于語言表述的模糊性與多樣性,在裁判文書中可能會出現(xiàn)同一個詞在不同的上下文中的意思不一樣的情形,也可能出現(xiàn)不同的詞表達的是同一個意思的情形。在關(guān)鍵詞檢索服務(wù)器中,由于詞語是嚴格的按照字面來匹配的,由于上述的語言表述的多樣性,用戶需要十分熟練的掌握法律知識,熟悉裁判文書的常見表達后,才能通過關(guān)鍵詞搭配組合的方式檢索到類似的案例,這以特性導(dǎo)致現(xiàn)有的裁判文書檢索服務(wù)器的使用門檻很高,并且需要花費較長的時間才能找到與需求相匹配的裁判文書。造成這個問題的深層次原因是現(xiàn)在的檢索服務(wù)器是基于語言文字的計算機存儲內(nèi)容來做的,文字存儲的是編碼(通用的是UTF-8)后的二進制內(nèi)容,一個文字一般是1~4個字節(jié),檢索服務(wù)器在庫里精確查找出現(xiàn)這些字節(jié)內(nèi)容的文本。目前的現(xiàn)有技術(shù)存在下列問題:在這些系統(tǒng)中用戶需要輸入文書中包含的精確的關(guān)鍵詞才能找到類似的案例,需要用戶具有較高的法律專業(yè)知識才可以使用。當(dāng)需要查找的信息比較明確時,輸入的關(guān)鍵詞較多時,由于需要全都匹配到,往往會查找不到。當(dāng)需要查找的信息比較模糊時,輸入的關(guān)鍵詞會較少,會出來大量的無關(guān)內(nèi)容,難以定位出用戶真正需要的內(nèi)容。當(dāng)用戶輸入不夠精準,例如出現(xiàn)錯別字,或者使用同義詞,或者使用非法律專業(yè)術(shù)語,將查找不到期望的內(nèi)容。對于搜索結(jié)果的排序通常是基于輸入的關(guān)鍵詞的概率來進行的,而沒有關(guān)注用戶輸入內(nèi)容的意義及重點。
技術(shù)實現(xiàn)要素:
本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題之一。
為此,本發(fā)明的目的在于,提供一種基于語義匹配的裁判文書檢索方法和服務(wù)器,通過設(shè)計一種基于語義匹配的裁判文書檢索方法和服務(wù)器,讓案例檢索不需要直接輸入與裁判文書中的關(guān)鍵詞精確匹配的詞語,而是直接用自然語言描述遇到的法律問題或者案情即可找到匹配的裁判文書,解決了上述問題,大大的降低了文書檢索服務(wù)器的使用門檻,提高了檢索效率。
為實現(xiàn)上述目的,本發(fā)明提供一種基于語義匹配的裁判文書檢索方法,包括:
步驟1,客戶端接收用戶輸入的檢索信息,將所述檢索信息發(fā)送至服務(wù)器端,所述檢索信息為待搜索的字段和/或篩選條件;
步驟2,服務(wù)器端接收所述檢索信息,將檢索信息進行向量化,生成檢索信息向量;
步驟3,將得到的所述檢索信息向量于預(yù)存儲的裁判文書向量進行對比,獲取最匹配的裁判文書向量,將所述最匹配的裁判文書向量對應(yīng)的裁判文書結(jié)果發(fā)送至客戶端。
優(yōu)選的,在所述步驟1之前還包括:
服務(wù)器端采集裁判文書;
將采集的裁判文書進行數(shù)據(jù)清洗,解析成多個關(guān)鍵字段,每個關(guān)鍵字段設(shè)置不同的標簽;
將所述多個關(guān)鍵字段進行向量化處理,生成關(guān)鍵字段向量;
將生成的關(guān)鍵字段向量與裁判文書建立映射關(guān)系;
將所述關(guān)鍵字段向量、映射關(guān)系、裁判文書存儲在數(shù)據(jù)庫中。
優(yōu)選的,所述篩選條件包括:律師信息、事務(wù)所信息、地域信息、年份信息、案件類型信息中的一種或幾種。
更優(yōu)的,所述地域信息包括案件發(fā)生地、案件管轄地和/或其他案件涉及到的地理位置。
優(yōu)選的,所述將得到的所述檢索信息向量于預(yù)存儲的裁判文書向量進行對比為采用距離測度法或相似性函數(shù)法進行向量對比。
本發(fā)明另一方面還提供一種基于語義匹配的裁判文書檢索服務(wù)器,包括:
接收模塊,服務(wù)器端接收所述檢索信息,所述檢索信息為客戶端接收的用戶輸入的檢索信息;
向量生成模塊,用于將檢索信息進行向量化,生成檢索信息向量;
對比分析模塊,將得到的所述檢索信息向量于預(yù)存儲的裁判文書向量進行對比,獲取最匹配的裁判文書向量;
發(fā)送模塊,用于將所述最匹配的裁判文書向量對應(yīng)的裁判文書結(jié)果發(fā)送至客戶端;
所述檢索信息為待搜索的字段和/或篩選條件。
優(yōu)選的,還包括:數(shù)據(jù)清洗模塊,用于將采集的裁判文書進行數(shù)據(jù)清洗,解析成多個關(guān)鍵字段,每個關(guān)鍵字段設(shè)置不同的標簽;
映射模塊,將所述多個關(guān)鍵字段進行向量化處理,生成關(guān)鍵字段向量,將生成的關(guān)鍵字段向量與裁判文書建立映射關(guān)系;
數(shù)據(jù)庫,用于存儲所述關(guān)鍵字段向量、映射關(guān)系、裁判文書。
優(yōu)選的,所述篩選條件包括:律師信息、事務(wù)所信息、地域信息、年份信息、案件類型信息中的一種或幾種。
優(yōu)選的,所述地域信息包括案件發(fā)生地、案件管轄地和/或其他案件涉及到的地理位置。
優(yōu)選的,所述將得到的所述檢索信息向量于預(yù)存儲的裁判文書向量進行對比為采用距離測度法或相似性函數(shù)法進行向量對比。
通過本發(fā)明設(shè)計的一種基于語義匹配的裁判文書檢索方法和服務(wù)器,讓案例檢索不需要直接輸入與裁判文書中的關(guān)鍵詞精確匹配的詞語,而是直接用自然語言描述遇到的法律問題或者案情即可找到匹配的裁判文書,解決了上述問題,大大的降低了文書檢索服務(wù)器的使用門檻,提高了檢索效率。
附圖說明
圖1示出了本發(fā)明一種基于語義匹配的裁判文書檢索方法的流程圖;
圖2示出了本發(fā)明一種基于語義匹配的裁判文書檢索服務(wù)器的結(jié)構(gòu)框圖。
具體實施方式
為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結(jié)合附圖和具體實施方式對本發(fā)明進行進一步的詳細描述。需要說明的是,在不沖突的情況下,本申請的實施例及實施例中的特征可以相互組合。
在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的方式來實施,因此,本發(fā)明的保護范圍并不受下面公開的具體實施例的限制。
圖1示出了本發(fā)明一種基于語義匹配的裁判文書檢索方法的流程圖。
如圖1所示,根據(jù)本發(fā)明一種基于語義匹配的裁判文書檢索方法,包括:
步驟1,客戶端接收用戶輸入的檢索信息,將所述檢索信息發(fā)送至服務(wù)器端,所述檢索信息為待搜索的字段和/或篩選條件。
所述篩選條件包括:律師信息、事務(wù)所信息、地域信息、年份信息、案件類型信息中的一種或幾種。
所述地域信息包括案件發(fā)生地、案件管轄地和/或其他案件涉及到的地理位置。
所述案件類型包括:普通民事糾紛、房地產(chǎn)類、合同糾紛、涉外類、公司糾紛、海事海商、知識產(chǎn)權(quán)、投融資業(yè)務(wù)、賠償案件、行政糾紛和刑事;
普通民事糾紛包括:債權(quán)債務(wù)糾紛、婚姻家庭、交通事故、醫(yī)療糾紛、勞動爭議、侵權(quán)損害賠償糾紛、其他普通民事糾紛;
房地產(chǎn)類包括:建設(shè)工程合同糾紛和房地產(chǎn)開發(fā)經(jīng)營糾紛;
合同糾紛包括:常見合同糾紛、土地礦產(chǎn)類合同糾紛和其他類合同糾紛;所述常見合同糾紛包括:買賣合同糾紛、租賃合同糾紛、房屋租賃合同糾紛、車輛租賃合同糾紛、承攬合同糾紛、勞務(wù)合同糾紛、不當(dāng)?shù)美m紛、合伙合同糾紛、電信服務(wù)合同糾紛、委托合同糾紛、服務(wù)合同糾紛、居間合同糾紛、供用熱力合同糾紛、公交運輸合同糾紛、供用水合同糾紛、供用電力合同糾紛、法律服務(wù)合同糾紛、供用氣合同糾紛、保管合同糾紛、倉儲合同糾紛、行紀合同糾紛;
涉外類包括:國際貿(mào)易金融合同糾紛、涉外仲裁和信用證糾紛;
公司糾紛包括:股東權(quán)益、公司并購收購、公司破產(chǎn)清算、其他公司糾紛;
知識產(chǎn)權(quán)包括:壟斷不正當(dāng)競爭、專利、商標、著作權(quán)糾紛、技術(shù)合同和其他知識產(chǎn)權(quán)糾紛;
投融資業(yè)務(wù)包括:證券糾紛、期貨交易糾紛、信托糾紛和票據(jù)糾紛。
步驟2,服務(wù)器端接收所述檢索信息,將檢索信息進行向量化,生成檢索信息向量。
接收到檢索信息后,將檢索信息進行向量化處理,生成檢索信息向量,此向量化的處理方法可采用如下方式進行處理,但不僅限于此方式:
例如,對一系統(tǒng)中的每一篇文章,我們首先計算每個單詞的出現(xiàn)頻率(TF:TermFrequency),即該單詞出現(xiàn)的次數(shù)除以文章總單詞數(shù),然后統(tǒng)計這個單詞的反比文檔頻率(IDF:Inverse Document Frequency),在所有文章中出現(xiàn)的次數(shù),并用該數(shù)除文章總數(shù),即總文章數(shù)除以出現(xiàn)該單詞文章的數(shù)目。由上面的定義可以看出,單詞越重要,他的單詞出現(xiàn)頻率TF就越高,單詞越是只在這篇文章中出現(xiàn),很少在其它文章中出現(xiàn),那該單詞越對本篇文章具有重要意義。通過一定的公式,可以計算出每個單詞的對每篇文章的權(quán)重,這樣所有單詞加上其對應(yīng)的權(quán)重,就形成了一個多維術(shù)語向量。
步驟3,將得到的所述檢索信息向量于預(yù)存儲的裁判文書向量進行對比,獲取最匹配的裁判文書向量,將所述最匹配的裁判文書向量對應(yīng)的裁判文書結(jié)果發(fā)送至客戶端。
優(yōu)選的,所述將得到的所述檢索信息向量于預(yù)存儲的裁判文書向量進行對比為采用距離測度法或相似性函數(shù)法進行向量對比。這兩種向量對比方法為本領(lǐng)域的常用方法,本發(fā)明不再一一贅述。
優(yōu)選的,在所述步驟1之前還包括:
服務(wù)器端采集裁判文書;
將采集的裁判文書進行數(shù)據(jù)清洗,解析成多個關(guān)鍵字段,每個關(guān)鍵字段設(shè)置不同的標簽;
將所述多個關(guān)鍵字段進行向量化處理,生成關(guān)鍵字段向量,其中關(guān)鍵字段是預(yù)設(shè)的,和上述檢索信息向量中的字段需要對應(yīng);
將生成的關(guān)鍵字段向量與裁判文書建立映射關(guān)系;
將所述關(guān)鍵字段向量、映射關(guān)系、裁判文書存儲在數(shù)據(jù)庫中。
當(dāng)服務(wù)器接收到檢索信息后,生成檢索向量,再通過與預(yù)存儲的裁判文書向量進行對比,獲取最匹配的裁判文書向量,最后通過映射關(guān)系找出對應(yīng)的裁判文書,把此裁判文書發(fā)送至客戶端,完成整個的檢索過程。
圖2示出了本發(fā)明一種基于語義匹配的裁判文書檢索服務(wù)器的結(jié)構(gòu)框圖。
如圖2所示,本發(fā)明提供一種基于語義匹配的裁判文書檢索服務(wù)器,包括:
接收模塊,服務(wù)器端接收所述檢索信息,所述檢索信息為客戶端接收的用戶輸入的檢索信息;
向量生成模塊,用于將檢索信息進行向量化,生成檢索信息向量;
對比分析模塊,將得到的所述檢索信息向量于預(yù)存儲的裁判文書向量進行對比,獲取最匹配的裁判文書向量;
發(fā)送模塊,用于將所述最匹配的裁判文書向量對應(yīng)的裁判文書結(jié)果發(fā)送至客戶端;
所述檢索信息為待搜索的字段和/或篩選條件。
所述篩選條件包括:律師信息、事務(wù)所信息、地域信息、年份信息、案件類型信息中的一種或幾種。
所述地域信息包括案件發(fā)生地、案件管轄地和/或其他案件涉及到的地理位置。
所述案件類型包括:普通民事糾紛、房地產(chǎn)類、合同糾紛、涉外類、公司糾紛、海事海商、知識產(chǎn)權(quán)、投融資業(yè)務(wù)、賠償案件、行政糾紛和刑事;
普通民事糾紛包括:債權(quán)債務(wù)糾紛、婚姻家庭、交通事故、醫(yī)療糾紛、勞動爭議、侵權(quán)損害賠償糾紛、其他普通民事糾紛;
房地產(chǎn)類包括:建設(shè)工程合同糾紛和房地產(chǎn)開發(fā)經(jīng)營糾紛;
合同糾紛包括:常見合同糾紛、土地礦產(chǎn)類合同糾紛和其他類合同糾紛;所述常見合同糾紛包括:買賣合同糾紛、租賃合同糾紛、房屋租賃合同糾紛、車輛租賃合同糾紛、承攬合同糾紛、勞務(wù)合同糾紛、不當(dāng)?shù)美m紛、合伙合同糾紛、電信服務(wù)合同糾紛、委托合同糾紛、服務(wù)合同糾紛、居間合同糾紛、供用熱力合同糾紛、公交運輸合同糾紛、供用水合同糾紛、供用電力合同糾紛、法律服務(wù)合同糾紛、供用氣合同糾紛、保管合同糾紛、倉儲合同糾紛、行紀合同糾紛;
涉外類包括:國際貿(mào)易金融合同糾紛、涉外仲裁和信用證糾紛;
公司糾紛包括:股東權(quán)益、公司并購收購、公司破產(chǎn)清算、其他公司糾紛;
知識產(chǎn)權(quán)包括:壟斷不正當(dāng)競爭、專利、商標、著作權(quán)糾紛、技術(shù)合同和其他知識產(chǎn)權(quán)糾紛;
投融資業(yè)務(wù)包括:證券糾紛、期貨交易糾紛、信托糾紛和票據(jù)糾紛。
接收到檢索信息后,將檢索信息進行向量化處理,生成檢索信息向量,此向量化的處理方法可采用如下方式進行處理,但不僅限于此方式:
例如,對一系統(tǒng)中的每一篇文章,我們首先計算每個單詞的出現(xiàn)頻率(TF:TermFrequency),即該單詞出現(xiàn)的次數(shù)除以文章總單詞數(shù),然后統(tǒng)計這個單詞的反比文檔頻率(IDF:Inverse Document Frequency),在所有文章中出現(xiàn)的次數(shù),并用該數(shù)除文章總數(shù),即總文章數(shù)除以出現(xiàn)該單詞文章的數(shù)目。由上面的定義可以看出,單詞越重要,他的單詞出現(xiàn)頻率TF就越高,單詞越是只在這篇文章中出現(xiàn),很少在其它文章中出現(xiàn),那該單詞越對本篇文章具有重要意義。通過一定的公式,可以計算出每個單詞的對每篇文章的權(quán)重,這樣所有單詞加上其對應(yīng)的權(quán)重,就形成了一個多維術(shù)語向量。
優(yōu)選的,還包括:數(shù)據(jù)清洗模塊,用于將采集的裁判文書進行數(shù)據(jù)清洗,解析成多個關(guān)鍵字段,每個關(guān)鍵字段設(shè)置不同的標簽;
映射模塊,將所述多個關(guān)鍵字段進行向量化處理,生成關(guān)鍵字段向量,將生成的關(guān)鍵字段向量與裁判文書建立映射關(guān)系,其中關(guān)鍵字段是預(yù)設(shè)的,和上述檢索信息向量中的字段需要對應(yīng);
數(shù)據(jù)庫,用于存儲所述關(guān)鍵字段向量、映射關(guān)系、裁判文書。
優(yōu)選的,所述將得到的所述檢索信息向量于預(yù)存儲的裁判文書向量進行對比為采用距離測度法或相似性函數(shù)法進行向量對比。這兩種向量對比方法為本領(lǐng)域的常用方法,本發(fā)明不再一一贅述。
在本說明書的描述中,術(shù)語“安裝”、“相連”、“連接”等術(shù)語均應(yīng)做廣義理解,例如,“連接”可以是固定連接,也可以是可拆卸連接,或一體地連接;“相連”可以是直接相連,也可以通過中間媒介間接相連。對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
在本說明書的描述中,術(shù)語“一個實施例”、“一些實施例”、“具體實施例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或?qū)嵗?。而且,描述的具體特征、結(jié)構(gòu)、材料或特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。