本發(fā)明屬于信息化服務(wù)技術(shù)領(lǐng)域,尤其是涉及一種合同分類自動識別方法及系統(tǒng)。
背景技術(shù):
在市場經(jīng)濟(jì)中,公司日常經(jīng)營中合同扮演了越來越重要的角色,如何在日常經(jīng)營中防范合同風(fēng)險顯得尤為重要。合同風(fēng)險包括了合同的管理風(fēng)險和合同的法律風(fēng)險,合同的管理風(fēng)險是從合同的管理職能出發(fā),而法律風(fēng)險則是從合同文本的完備性和有效性出發(fā),深入研究各種條款的設(shè)計技巧。隨著人工智能技術(shù)的飛速發(fā)展,在國外,采用計算機(jī)技術(shù)的人工智能合同法律風(fēng)險自動識別的研究已經(jīng)取得了初步成果;在國內(nèi),由于漢語的語義自動識別與英文有著巨大的差異,采用人工智能技術(shù)的合同法律風(fēng)險識別研究還處于起步階段。
由于合同種類繁多,不同種類合同的法律風(fēng)險也不同。因此,高識別率的合同分類自動識別技術(shù)成為采用計算機(jī)技術(shù)實現(xiàn)合同法律風(fēng)險自動提示的關(guān)鍵難題。
現(xiàn)有技術(shù)的缺點:
1、目前國內(nèi)對于合同法律風(fēng)險自動識別的研究中,采用了由用戶自己選擇合同分類,然后再由計算機(jī)給出針對性的風(fēng)險提示。由于合同種類繁多,合同各類別之間的界限模糊,一般非法律專業(yè)人員很難準(zhǔn)確界定自己的合同的確切分類。因此,因用戶選擇類別錯誤,造成合同法律風(fēng)險提示非常不準(zhǔn)確,難以達(dá)到實際應(yīng)用的要求。
2、由于漢語的語言結(jié)構(gòu)與英文不同,目前也無法直接借鑒國外的成功經(jīng)驗。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明旨在提出一種合同分類自動識別方法,解決了現(xiàn)有技術(shù)中存在的采用計算機(jī)自動識別合同分類時,識別率不高的問題。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
一種合同分類自動識別方法,包括如下步驟:
(1)采用有人工干預(yù)的深度學(xué)習(xí)算法,排除樣本中不能反映合同本質(zhì)特性關(guān)鍵詞;
(2)通過大量樣本學(xué)習(xí),對關(guān)鍵詞的權(quán)重進(jìn)行設(shè)置;
(3)找出不同合同分類的差異,判斷合同類別。
進(jìn)一步的,所述步驟(1)具體包括如下步驟:
(1)通過互聯(lián)網(wǎng)搜索到各類合同樣本,目前樣本數(shù)量為1000份;
(2)采用基于字典的最大逆向分詞算法,找出每類合同出現(xiàn)頻次最高的關(guān)鍵詞,按照中文的語言規(guī)則,篩選3-6個漢字的詞語,去除形容詞性的關(guān)鍵詞,每類留存30個以內(nèi)的關(guān)鍵詞。
進(jìn)一步的,所述步驟(2)具體包括如下步驟:
(1)對不同關(guān)鍵詞設(shè)置不同的權(quán)重,對于能夠明顯確定合同類別的關(guān)鍵詞給予較高權(quán)重;對于不能明顯確定合同分類的關(guān)鍵詞給予較低權(quán)重;
(2)按照上述方式給予關(guān)鍵詞設(shè)定權(quán)重從1-50,每次增量10,依次判別1000份樣本合同的分類是否正確,計算出相應(yīng)的識別率,取其中識別率最高的作為最優(yōu)權(quán)重。
進(jìn)一步的,所述步驟(3)具體包括對具有特征的關(guān)鍵詞賦予的權(quán)重比較高,用來區(qū)分比較接近的合同種類。
采用對不同種類合同的特征關(guān)鍵詞賦予不同權(quán)重,并結(jié)合與或非邏輯運算,達(dá)到高識別率。具體實現(xiàn)方式是編制自動識別程序,對權(quán)重值進(jìn)行智能優(yōu)化,找出最優(yōu)權(quán)重,而對關(guān)鍵詞權(quán)重的范圍是依據(jù)專業(yè)人員的專業(yè)知識擬定。
相對于現(xiàn)有技術(shù),本發(fā)明所述的一種合同分類自動識別方法具有以下優(yōu)勢:本方法采用計算機(jī)人工智能技術(shù)實現(xiàn)了對漢語合同的自動識別和分類,識別率非常高,達(dá)到了實際應(yīng)用的要求,解決了目前靠用戶自行選擇合同分類引起法律風(fēng)險提示不準(zhǔn)確的問題。
本發(fā)明的另一目的在于提出一種合同分類自動識別系統(tǒng),解決了現(xiàn)有技術(shù)中存在的采用計算機(jī)自動識別合同分類時,識別率不高的問題。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
一種合同分類自動識別系統(tǒng),包括
用于采用有人工干預(yù)的深度學(xué)習(xí)算法,排除樣本中不能反映合同本質(zhì)特性關(guān)鍵詞的提取模塊;
用于通過大量樣本學(xué)習(xí),對關(guān)鍵詞的權(quán)重進(jìn)行設(shè)置的設(shè)置模塊;
用于找出不同合同分類的差異,判斷合同類別的判別模塊。
進(jìn)一步的,所述提取模塊包括
用于通過互聯(lián)網(wǎng)搜索到各類合同樣本,目前樣本數(shù)量為1000份的搜索模塊;
用于采用基于字典的最大逆向分詞算法,找出每類合同出現(xiàn)頻次最高的關(guān)鍵詞,按照中文的語言規(guī)則,篩選3-6個漢字的詞語,去除形容詞性的關(guān)鍵詞,每類留存30個以內(nèi)的關(guān)鍵詞的篩選模塊。
進(jìn)一步的,所述設(shè)置模塊包括
用于對不同關(guān)鍵詞設(shè)置不同的權(quán)重,對于能夠明顯確定合同類別的關(guān)鍵詞給予較高權(quán)重;對于不能明顯確定合同分類的關(guān)鍵詞給予較低權(quán)重的不同權(quán)重設(shè)置模塊;
用于按照上述方式給予關(guān)鍵詞設(shè)定權(quán)重從1-50,每次增量10,依次判別1000份樣本合同的分類是否正確,計算出相應(yīng)的識別率,取其中識別率最高的作為最優(yōu)權(quán)重的最優(yōu)權(quán)重設(shè)置模塊。
本發(fā)明所述的一種合同分類自動識別系統(tǒng)與上述一種合同分類自動識別方法具有相同的有益效果,在此不再贅述。
附圖說明
構(gòu)成本發(fā)明的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1為本發(fā)明實施例所述的一種合同分類自動識別方法的流程圖。
具體實施方式
需要說明的是,在不沖突的情況下,本發(fā)明中的實施例及實施例中的特征可以相互組合。
下面將參考附圖并結(jié)合實施例來詳細(xì)說明本發(fā)明。
如圖1所示,一種合同分類自動識別方法具體包括如下步驟:
(1)通過互聯(lián)網(wǎng)搜索到各類合同樣本,目前樣本數(shù)量為1000份;
(2)采用基于字典的最大逆向分詞算法,找出每類合同出現(xiàn)頻次最高的關(guān)鍵詞,按照中文的語言規(guī)則,篩選3-6個漢字的詞語,去除形容詞性的關(guān)鍵詞,每類留存30個以內(nèi)的關(guān)鍵詞。
(3)對不同關(guān)鍵詞設(shè)置不同的權(quán)重。對于能夠明顯確定合同類別的關(guān)鍵詞給予較高的權(quán)重,例如“涉外貨物買賣合同”或者“出口買賣合同”;對于不能明顯確定合同分類的關(guān)鍵詞給予較低的權(quán)重,例如“進(jìn)口國”、“出口國”、“FOB”等。
(4)按照上述方式給予關(guān)鍵詞設(shè)定權(quán)重從1-50,每次增量10,依次判別1000份樣本合同的分類是否正確,計算出相應(yīng)的識別率,取其中識別率最高的作為最優(yōu)權(quán)重。
(5)由于同一個關(guān)鍵詞在不同合同分類中可能都會出現(xiàn)。例如:關(guān)鍵詞“借款合同”和“擔(dān)保合同”,在借款類合同中和擔(dān)保類合同中都會出現(xiàn),這兩個關(guān)鍵詞在這兩類合同中出現(xiàn)的頻次都非常高,因此無法通過這兩個詞的權(quán)重對合同分類進(jìn)行區(qū)分,但“借款利率”、“借款期限”等關(guān)鍵詞在借款合同中出現(xiàn)頻次較高,因此這些具有特征的關(guān)鍵詞賦予的權(quán)重比較高。這樣可以將不同種類合同的特征關(guān)鍵詞的權(quán)重調(diào)高,可以有效區(qū)分兩個比較接近的合同種類。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。