本發(fā)明涉及知識工程技術(shù)領(lǐng)域,特別是指一種法律知識圖譜自動構(gòu)建方法。
背景技術(shù):
知識圖譜(knowledgegraph,kg)旨在描述客觀世界的概念、實(shí)體、事件及其之間的關(guān)系。知識圖譜將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。知識圖譜給互聯(lián)網(wǎng)語義搜索帶來了活力,同時也在智能問答、大數(shù)據(jù)分析與決策中顯示出強(qiáng)大威力,已經(jīng)成為互聯(lián)網(wǎng)基于知識的智能服務(wù)的基礎(chǔ)設(shè)施。知識圖譜與大數(shù)據(jù)和深度學(xué)習(xí)一起,成為推動人工智能發(fā)展的核心驅(qū)動力之一。
知識圖譜研究,一方面探索從互聯(lián)網(wǎng)語言資源中獲取知識的理論和方法;另一方面促進(jìn)知識驅(qū)動的語言理解研究。隨著大數(shù)據(jù)時代的到來,研究從大數(shù)據(jù)中挖掘隱含的知識理論與方法,將大數(shù)據(jù)轉(zhuǎn)化為知識,增強(qiáng)對互聯(lián)網(wǎng)資源的內(nèi)容理解,將促進(jìn)當(dāng)代信息處理技術(shù)從信息服務(wù)向知識服務(wù)轉(zhuǎn)變。
構(gòu)建法律知識圖譜對整合法律知識,挖掘法律熱點(diǎn),對法律事件預(yù)測,構(gòu)建法律領(lǐng)域?qū)<蚁到y(tǒng)等將起到重要作用。但是,在現(xiàn)有的技術(shù)中,還沒有構(gòu)建好的法律知識圖譜。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是提供一種法律知識圖譜自動構(gòu)建方法,以解決現(xiàn)有技術(shù)所存在的缺少法律知識圖譜的問題。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供一種法律知識圖譜自動構(gòu)建方法,包括:
獲取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,對所述語料去停用詞和進(jìn)行分詞;
根據(jù)分詞后的語料,分別抽取三類審判文書的主題詞,對抽取的主題詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實(shí)體概念;
獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念;
同屬于主題詞的實(shí)體概念之間形成主題關(guān)系,每一主題詞實(shí)體概念與其相近詞實(shí)體概念構(gòu)成相近關(guān)系,根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),構(gòu)建法律知識圖譜。
進(jìn)一步地,所述獲取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,對所述語料去停用詞和進(jìn)行分詞包括:
從網(wǎng)絡(luò)上爬取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料;
使用現(xiàn)代漢語法律語域詞表結(jié)合預(yù)先設(shè)定的輸入法法律詞典構(gòu)造法律領(lǐng)域詞典;
根據(jù)構(gòu)造的法律領(lǐng)域詞典對所述語料去停用詞和進(jìn)行分詞。
進(jìn)一步地,所述預(yù)先設(shè)定的輸入法法律詞典包括:搜狗輸入法法律詞典。
進(jìn)一步地,所述根據(jù)構(gòu)造的法律領(lǐng)域詞典對所述語料去停用詞和進(jìn)行分詞包括:
根據(jù)構(gòu)造的法律領(lǐng)域詞典,利用結(jié)巴分詞工具對所述語料去停用詞和進(jìn)行分詞。
進(jìn)一步地,所述分詞后的語料,分別抽取三類審判文書的主題詞包括:
對分詞后的民事、刑事、行政三類審判文書,應(yīng)用lda主題模型,分別抽取三類審判文書的主題詞。
進(jìn)一步地,所述對抽取的主題詞進(jìn)行詞性標(biāo)注和過濾包括:
利用java開源工具ansj去掉抽取的所述主題詞中無意義的詞語,所述無意義的詞語包括:人名、地名;
去掉所述主題詞中無意義的詞語后,使用結(jié)巴分詞工具進(jìn)行詞性標(biāo)注和過濾,保留名詞或名詞短語主題詞。
進(jìn)一步地,所述獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞包括:
將分詞后的民事、刑事、行政三類審判文書,分別作為訓(xùn)練集使用word2vec模型進(jìn)行訓(xùn)練,得到法律領(lǐng)域民事、刑事、行政詞匯的訓(xùn)練模型;
應(yīng)用所述訓(xùn)練模型,獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞。
進(jìn)一步地,所述對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾包括:
利用java開源工具ansj去掉獲取的所述相近詞中無意義的詞語,所述無意義的詞語包括:人名、地名;
去掉所述相近詞中無意義的詞語后,使用結(jié)巴分詞工具進(jìn)行詞性標(biāo)注和過濾,保留名詞或名詞短語相近詞。
進(jìn)一步地,在根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),構(gòu)建法律知識圖譜之后,所述方法還包括:
利用可視化工具將構(gòu)建的所述法律知識圖譜可視化顯示。
進(jìn)一步地,所述可視化工具包括:neo4j圖形數(shù)據(jù)庫。
本發(fā)明的上述技術(shù)方案的有益效果如下:
上述方案中,獲取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,對所述語料去停用詞和進(jìn)行分詞;根據(jù)分詞后的語料,分別抽取三類審判文書的主題詞,對抽取的主題詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實(shí)體概念;獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念;根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),完成法律知識圖譜的構(gòu)建。
附圖說明
圖1為本發(fā)明實(shí)施例提供的法律知識圖譜自動構(gòu)建方法的流程示意圖;
圖2為本發(fā)明實(shí)施例提供的針對民事類審判文書所列舉的實(shí)體概念及其關(guān)系的知識圖譜可視化示意圖;
圖3為本發(fā)明實(shí)施例提供的針對刑事類審判文書所列舉的實(shí)體概念及其關(guān)系的知識圖譜可視化示意圖;
圖4為本發(fā)明實(shí)施例提供的針對行政類審判文書所列舉的實(shí)體概念及其關(guān)系的知識圖譜可視化示意圖。
具體實(shí)施方式
為使本發(fā)明要解決的技術(shù)問題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例進(jìn)行詳細(xì)描述。
本發(fā)明針對現(xiàn)有的缺少法律知識圖譜的問題,提供一種法律知識圖譜自動構(gòu)建方法。
如圖1所示,本發(fā)明實(shí)施例提供的法律知識圖譜自動構(gòu)建方法,包括:
s101,獲取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,對所述語料去停用詞和進(jìn)行分詞;
s102,根據(jù)分詞后的語料,分別抽取三類審判文書的主題詞,對抽取的主題詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實(shí)體概念;
s103,獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念;
s104,同屬于主題詞的實(shí)體概念之間形成主題關(guān)系,每一主題詞實(shí)體概念與其相近詞實(shí)體概念構(gòu)成相近關(guān)系,根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),構(gòu)建法律知識圖譜。
本發(fā)明實(shí)施例所述的法律知識圖譜自動構(gòu)建方法,獲取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,對所述語料去停用詞和進(jìn)行分詞;根據(jù)分詞后的語料,分別抽取三類審判文書的主題詞,對抽取的主題詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實(shí)體概念;獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念;根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),完成法律知識圖譜的構(gòu)建。
本實(shí)施例中,所述民事、刑事、行政三類審判文書具有鮮明的法律語言特點(diǎn),審判文書中的主題詞是值得信賴的,能夠反映審判文書內(nèi)容主題,因此,從審判文書中獲取的主題詞可以作為法律知識圖譜的實(shí)體概念。
本實(shí)施例中,作為一可選實(shí)施例,所述獲取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,對所述語料去停用詞和進(jìn)行分詞包括:
從網(wǎng)絡(luò)上爬取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料;
使用現(xiàn)代漢語法律語域詞表結(jié)合預(yù)先設(shè)定的輸入法法律詞典構(gòu)造法律領(lǐng)域詞典;
根據(jù)構(gòu)造的法律領(lǐng)域詞典對所述語料去停用詞和進(jìn)行分詞。
本實(shí)施例中,作為又一可選實(shí)施例,所述預(yù)先設(shè)定的輸入法法律詞典包括:搜狗輸入法法律詞典。
本實(shí)施例中,作為再一可選實(shí)施例,所述根據(jù)構(gòu)造的法律領(lǐng)域詞典對所述語料去停用詞和進(jìn)行分詞包括:
根據(jù)構(gòu)造的法律領(lǐng)域詞典,利用結(jié)巴分詞工具對所述語料去停用詞和進(jìn)行分詞。
在前述法律知識圖譜自動構(gòu)建方法的具體實(shí)施方式中,進(jìn)一步地,所述分詞后的語料,分別抽取三類審判文書的主題詞包括:
對分詞后的民事、刑事、行政三類審判文書,應(yīng)用隱含狄利克雷分布(latentdirichletallocation,lda)主題模型,分別抽取三類審判文書的主題詞。
本實(shí)施例中,對分詞后的民事、刑事、行政三類審判文書,基于lda主題模型,選取主題數(shù)和主題詞數(shù),分別抽取三類審判文書的主題詞。lda是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu)。每篇文章的每個詞都是通過"以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語"這樣一個過程得到。文檔到主題服從多項(xiàng)式分布,主題到詞服從多項(xiàng)式分布。這樣就可以通過主題得到文章的主題詞。
本實(shí)施例中,所述lda主題模型抽取的主題詞包括名詞、名詞短語、動詞以及動詞短語等,但知識圖譜中的實(shí)體概念應(yīng)該為名詞或名詞短語,所以還需對應(yīng)用lda主題模型抽取的主題詞進(jìn)行詞性標(biāo)注和過濾。
在前述法律知識圖譜自動構(gòu)建方法的具體實(shí)施方式中,進(jìn)一步地,所述對抽取的主題詞進(jìn)行詞性標(biāo)注和過濾包括:
利用java開源工具ansj去掉抽取的所述主題詞中無意義的詞語,所述無意義的詞語包括:人名、地名;
去掉所述主題詞中無意義的詞語后,使用結(jié)巴分詞工具進(jìn)行詞性標(biāo)注和過濾,保留名詞或名詞短語主題詞。
在前述法律知識圖譜自動構(gòu)建方法的具體實(shí)施方式中,進(jìn)一步地,所述獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞包括:
將分詞后的民事、刑事、行政三類審判文書,分別作為訓(xùn)練集使用詞向量(word2vec)模型進(jìn)行訓(xùn)練,得到法律領(lǐng)域民事、刑事、行政詞匯的訓(xùn)練模型;
應(yīng)用所述訓(xùn)練模型,獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,根據(jù)過濾結(jié)果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念。
本實(shí)施例中,將分詞后的民事、刑事、行政三類審判文書,分別作為訓(xùn)練集使用word2vec模型進(jìn)行訓(xùn)練,得到法律領(lǐng)域民事、刑事、行政詞匯的訓(xùn)練模型;應(yīng)用所述訓(xùn)練模型,獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,并對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾。
本實(shí)施例中,以抽取的第一名詞或第一名詞短語主題詞為例,獲取與抽取的第一名詞或第一名詞短語主題詞關(guān)系相近的詞具體步驟可以包括:
使用word2vec將分詞后得到的詞語和抽取的第一名詞或第一名詞短語主題詞進(jìn)行量化,計算分詞后得到的詞語與抽取的第一名詞或第一名詞短語主題詞之間的距離,若二者之間的距離小于預(yù)先設(shè)定的距離閾值,則當(dāng)前的詞語是與抽取的第一名詞或第一名詞短語主題詞關(guān)系相近的詞;接著,按照此方法,繼續(xù)確認(rèn)其他詞語是否是與抽取的第一名詞或第一名詞短語主題詞關(guān)系相近的詞。
本實(shí)施例中,所述word2vec模型利用深度學(xué)習(xí)的思想,可以通過訓(xùn)練,把對審判文書內(nèi)容的處理簡化為k維向量空間中的向量運(yùn)算,其基本思想是通過訓(xùn)練將每個詞映射成k維實(shí)數(shù)向量(k一般為模型中的超參數(shù)),通過詞之間的距離來判斷詞之間的語義相似度。與lda主題模型相比,word2vec模型利用了詞的上下文,語義信息更加豐富。
本實(shí)施例中,將lda主題模型和word2vec模型結(jié)合,能夠?qū)⒒谠~頻和基于詞語上下文語義相結(jié)合抽取實(shí)體概念,既考慮了審判文書中的詞語頻率特征,又應(yīng)用了上下文語義,所抽取的實(shí)體概念更具有代表意義,更合理的表達(dá)知識。
在前述法律知識圖譜自動構(gòu)建方法的具體實(shí)施方式中,進(jìn)一步地,所述對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾包括:
利用java開源工具ansj去掉獲取的所述相近詞中無意義的詞語,所述無意義的詞語包括:人名、地名;
去掉所述相近詞中無意義的詞語后,使用結(jié)巴分詞工具進(jìn)行詞性標(biāo)注和過濾,保留名詞或名詞短語相近詞。
本實(shí)施例中,在根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),構(gòu)建法律知識圖譜之后,作為一可選實(shí)施例,可以利用可視化工具將構(gòu)建的所述法律知識圖譜可視化顯示;優(yōu)選地,所述可視化工具包括:neo4j圖形數(shù)據(jù)庫。
本實(shí)施例中,利用neo4j圖形數(shù)據(jù)庫將構(gòu)建的所述法律知識圖譜可視化顯示包括:將構(gòu)建的法律知識圖譜中的主題詞實(shí)體概念、相近詞實(shí)體概念以及其之間的關(guān)系(主題詞-主題關(guān)系-主題詞之間的關(guān)系,主題詞-相近關(guān)系-相近詞之間的關(guān)系)存儲在neo4j圖形數(shù)據(jù)庫中,通過所述neo4j圖形數(shù)據(jù)庫將構(gòu)建的所述法律知識圖譜可視化顯示。
本實(shí)施例中,所述neo4j是一個高性能的nosql圖形數(shù)據(jù)庫,neo4j將結(jié)構(gòu)化數(shù)據(jù)存儲在網(wǎng)絡(luò)中,因此可以將法律知識圖譜可視化,從而直觀、形象地反映法律知識和概念,實(shí)現(xiàn)知識和信息的可視化。
綜上,從網(wǎng)絡(luò)上爬取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,使用現(xiàn)代漢語法律語域詞表結(jié)合搜狗輸入法法律詞典法律詞典構(gòu)造法律領(lǐng)域詞典,對所述語料去停用詞和進(jìn)行分詞;對分詞后的民事、刑事、行政三類審判文書,應(yīng)用lda主題模型,分別抽取三類審判文書的主題詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實(shí)體概念;將分詞后的民事、刑事、行政三類審判文書作為訓(xùn)練集,應(yīng)用word2vec模型,獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念;lda主題模型和word2vec模型結(jié)合,將詞頻和詞語上下文語義相結(jié)合,所抽取的實(shí)體概念更具有代表意義,更合理的表達(dá)知識;根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),構(gòu)建法律知識圖譜,并可以使用可視化工具實(shí)現(xiàn)法律知識圖譜的可視化顯示。
本實(shí)施例中,結(jié)合具體的例子,對所述法律知識圖譜自動構(gòu)建方法進(jìn)行詳細(xì)說明:
a11,從網(wǎng)絡(luò)上爬取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料。
a12,使用現(xiàn)代漢語法律語域詞表結(jié)合搜狗輸入法法律詞典構(gòu)造法律領(lǐng)域詞典,使用結(jié)巴分詞分詞工具對語料去停用詞和進(jìn)行分詞,為應(yīng)用lda主題模型做準(zhǔn)備。
a13,對分詞后的刑事、民事、行政三類審判文書應(yīng)用lda主題模型提取主題詞。
本實(shí)施例中,假設(shè),可以對每類審判文書抽取40個主題詞,例如,對民事審判文書抽取的主題詞及其概率權(quán)值如下:
被告0.04538822855714997
原告0.043316588428150726
公司0.018895531919818322
合同0.013633310234119633
訴訟0.01251309001621634
判決0.01108851772997859
規(guī)定0.010230449503707916
責(zé)任0.010005382427964789
上訴0.009858321554609905
借款0.009341690312563182
民事0.009330181200735407
有限公司0.009316114508501462
支付0.00906419283849353
證據(jù)0.008995138167526888
中華人民共和國0.007661359985708241
人民法院0.007553941608649022
承擔(dān)0.007507905161337927
法律0.007410717105903395
本案0.007202274302800385
約定0.007144728743661517
審理0.007130662051427572
賠償0.007069280121679446
代理0.0070513770588362425
證明0.006947795052386281
履行0.006740631039486356
利息0.006273872615359985
請求0.005982308449056388
委托人0.0059388295821514656
事故0.0058812840230125975
保險0.005873611281794082
執(zhí)行0.005854429428747793
雙方0.005738059520266971
予以0.005359537620153529
期間0.005312222382639349
應(yīng)當(dāng)0.005181785781924582
受理0.004997639992680205
申請0.0049426520139475094
提供0.004911961049073446
依法0.004741881952063015
認(rèn)為0.004729094050032155
對刑事審判文書抽取的主題詞及其概率權(quán)值如下:
被告人0.04468756653212941
判決0.013898544185240131
機(jī)關(guān)0.013463702893840556
審理0.012932857680963156
公訴0.011521035306289217
執(zhí)行0.011357263910827038
刑事0.010803829539954854
犯罪0.010385930117051368
人民法院0.009521894823750918
罪犯0.009194352032826564
有期徒刑0.00916046829583439
被害人0.008725627004434815
處罰0.008584444766967422
指控0.008262549265541763
證據(jù)0.008143956186069152
證實(shí)0.007918064606121322
判處0.007810766105646103
依法0.007692173026173492
人民0.007421103130236095
規(guī)定0.0072629790242726144
罰金0.0072347425767791355
上訴0.006918494364852173
某甲0.006737781100893909
人民幣0.006653071758413473
中華人民共和國0.006641777179416081
予以0.006348118125483902
刑期0.006014928045060852
證明0.005517966569175626
認(rèn)為0.005489730121682147
羈押0.005484082832183451
提出0.00547278825318606
減刑0.005354195173713449
法律0.005354195173713449
檢察院0.005275133120731708
鑒定0.005201718357248663
刑法0.005184776488752576
判決書0.005004063224794311
應(yīng)當(dāng)0.004902412013817788
上述0.004902412013817788
公安局0.00469910959186474
對行政審判文書抽取的主題詞及其概率權(quán)值如下:
執(zhí)行0.07607003223815077
申請0.0299420399204335
行政0.01917312572878798
原告0.016755264421428082
規(guī)定0.015949310652308115
法律0.013702928870292888
人民法院0.013068454626517595
被告0.012142465189656355
裁定0.011542286850949997
作出0.0108049248919679
中華人民共和國0.009913231360175596
上訴0.008781466492900748
證據(jù)0.008627134920090542
訴訟0.00792406886617738
有限公司0.007906920913642911
履行0.007872625008573976
決定0.00785547705603951
代理0.007838329103505041
依法0.007563961862953564
本案0.007529665957884629
送達(dá)0.00739248233760889
政府0.007375334385074423
法定0.007306742574936553
人民0.0071009671445229445
強(qiáng)制0.006878043761574869
民事0.006860895809040401
裁定書0.006723712188764662
處罰0.006620824473557858
公司0.0062264215652651075
財產(chǎn)0.0062264215652651075
申請人0.006140681802592771
審判員0.005986350229782564
發(fā)生0.0058491666095068255
程序0.005832018656972358
行為0.005814870704437891
委托0.005591947321489815
商標(biāo)0.00542046779614514
認(rèn)為0.005403319843610674
認(rèn)定0.005248988270800467
證明0.005077508745455793
a14,利用java開源工具ansj去掉抽取的所述主題詞中無意義的詞語,所述無意義的詞語包括:人名、地名;
a15,去掉所述主題詞中無意義的詞語后,使用結(jié)巴分詞工具進(jìn)行詞性標(biāo)注過濾,保留名詞或名詞短語主題詞,從保留的名詞或名詞短語主題詞中,抽取名詞或名詞短語主題詞作為法律知識圖譜的實(shí)體概念。
本實(shí)施例中,針對上文民事審判文書抽取的主題詞,過濾后保留的名詞或名詞短語主題詞實(shí)體概念包括:民事、原告、被告、公司、合同、規(guī)定、責(zé)任、借款、證據(jù)、中華人民共和國、人民法院、賠償、利息、委托人、事故、保險;
針對上文刑事審判文書抽取的主題詞,過濾后保留的名詞或名詞短語主題詞實(shí)體概念包括:刑事、被告人、判決、機(jī)關(guān)、罪犯、有期徒刑、人民法院、有期徒刑、被害人、證據(jù)、處罰、公安局、罰金、檢察院、證據(jù)、刑期;
針對上文行政審判文書抽取的主題詞,過濾后保留的名詞或名詞短語主題詞實(shí)體概念包括:行政、原告、被告、規(guī)定、證據(jù)、訴訟、政府、程序、商標(biāo)、財產(chǎn)、申請人、行為、中華人民共和國、有限公司。
a16,將分詞后的民事、刑事、行政三類審判文書,分別作為訓(xùn)練集使用word2vec模型進(jìn)行訓(xùn)練,得到法律領(lǐng)域民事、刑事、行政詞匯的訓(xùn)練模型;應(yīng)用所述訓(xùn)練模型,獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞。
應(yīng)用所述訓(xùn)練模型,民事類主題詞實(shí)體概念“合同”得到關(guān)系相近詞及其概率權(quán)值包括:
簽訂0.5763912
約定0.48097914
協(xié)議0.37736425
訂立0.3705411
公司0.3696574
租賃0.36512932
雙方0.35705388
劉德金0.34434897
氣泡0.328522
明確0.32501125
涉案0.32185695
協(xié)議書0.31391016
買賣0.3088458
樂業(yè)0.30489194
之間0.30382612
證明0.2990941
終止0.29683605
二手0.29514572
種田0.29396233
追索0.28939554
續(xù)訂0.28641993
解除0.28595838
有限公司0.28574145
書面0.28361073
分期付款0.28282937
提供0.2827272
進(jìn)駐0.2825332
閣樓0.2816434
鋼材0.2810969
乙方0.2808927
個人0.27966338
通知0.27827317
補(bǔ)充0.27381954
商品房0.2735057
在先0.27306673
形式0.2725207
支付0.27117527
養(yǎng)殖戶0.26940143
必須0.2674929
民事類主題詞實(shí)體概念“保險”得到關(guān)系相近詞及其概率權(quán)值包括:
投保0.56694895
人壽0.5114369
湛江0.48388714
黃泛區(qū)0.4794967
平安0.46968624
葫蘆島0.46316242
股份公司0.4605423
承保0.4594842
第三者0.45929018
太平洋0.45355806
陽光0.45028463
責(zé)任險0.42831764
云夢0.41445065
萊西0.41428867
鄲城0.4068216
泰安0.40472373
大地0.39746445
永安0.3968292
扶綏0.3896513
理賠0.38841742
高密0.38796845
機(jī)動車0.38347688
限額0.3812008
支公司0.38062343
財險0.37823787
股份0.37744236
秦鳳英0.37533227
王東亮0.37525466
三者0.37188548
王澤娥0.36597794
寧波0.36417973
超載0.36360556
承德市0.3632158
洛陽0.35979813
姚北0.35928556
卡面0.3588715
新鄉(xiāng)0.3568592
賠付0.35668504
民事類主題詞實(shí)體概念“事故”得到關(guān)系相近詞及其概率權(quán)值包括:
機(jī)動車0.64636284
道路0.59133244
受傷0.58880615
相撞0.5638595
交警0.55251616
受損0.5505517
安全0.54463726
警察0.5340148
喪生0.53361696
交通0.5322209
孟召霞0.52191746
損壞0.5216344
認(rèn)定書0.5169376
保險期0.51690906
孫文云0.5163057
李艷華0.5088402
李育愛0.5043047
秦鳳英0.5039391
碰撞0.4961797
逃逸0.49591517
王東亮0.4918255
王澤娥0.48844925
張水蘭0.48542893
湯淑媛0.48374018
連環(huán)0.4697476
劉新國0.46883675
遷安市0.467965
梁棟鋒0.46751007
歐定明0.46699777
公安0.46476513
趙繼慶0.45994714
責(zé)任事故0.45580548
肇事0.45535287
駕車0.45335504
黑狗0.4530668
巡邏0.4528954
大隊(duì)0.45050552
民事類主題詞實(shí)體概念“借款”得到關(guān)系相近詞及其概率權(quán)值包括:
楊文德0.53020227
約定0.5103647
貸款0.5056032
到期0.4983407
借據(jù)0.49800384
歸還0.48050326
陳樂平0.4619061
本金0.45753172
借款人0.45016727
還款0.4425541
用途0.43778557
償還0.43593448
提前0.41843352
擔(dān)保人0.4159059
流動資金0.41377255
本息0.41336417
款項(xiàng)0.40746012
月利率0.40664664
計息0.40537024
方天益0.4042288
利息0.40377522
喬景偉0.4011478
楊秀華0.4001807
石彪0.39721152
陳喜山0.39458355
轉(zhuǎn)賬0.39407754
個人0.3935814
鄭華富0.38994315
金融0.38959554
截止0.38876835
譚永峰0.38827744
陳麗艷0.38779706
李金停0.38715848
王旭純0.38537905
借條0.38101554
簽訂0.3808062
鄧仙蘭0.38042617
載明0.3793149
劉愛麗0.3779271
a17,利用java開源工具ansj去掉獲取的所述相近詞中無意義的詞語,所述無意義的詞語包括:人名、地名;去掉所述相近詞中無意義的詞語后,使用結(jié)巴分詞工具進(jìn)行詞性標(biāo)注和過濾,保留名詞或名詞短語相近詞,從保留的名詞或名詞短語相近詞中,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念。
本實(shí)施例中,列舉與民事類主題詞“合同”實(shí)體概念關(guān)系相近的實(shí)體概念:約定、協(xié)議、公司、書面、租賃、有限公司、買賣、分期付款、乙方、個人、商品房、形式、通知;
列舉與民事類主題詞“保險”實(shí)體概念關(guān)系相近的實(shí)體概念:人壽、平安、太平洋、陽光、責(zé)任險、股份公司、第三者、理賠、機(jī)動車、財險、賠付、股份;
列舉與民事類主題詞“事故”實(shí)體概念關(guān)系相近的實(shí)體概念:事故:機(jī)動車、道路、交警、喪生、警察、認(rèn)定書、保險期、責(zé)任、安全、逃逸、肇事;
列舉與民事類主題詞“借款”實(shí)體概念關(guān)系相近的實(shí)體概念:貸款、借據(jù)、到期、本金、借款人、還款、本息、款項(xiàng)、個人、借條、擔(dān)保人、利率、利息;
進(jìn)一步,道理同上,本案例列舉與刑事類主題詞“判決”實(shí)體概念關(guān)系相近的實(shí)體概念:中華人民共和國、繳納、刑期、責(zé)任人員、刑法、原判、并處、敲詐、規(guī)定、裁定、通告、最高人民法院、解釋;
列舉與刑事類主題詞“罪犯”實(shí)體概念關(guān)系相近的實(shí)體概念:監(jiān)獄、服刑、減刑、悔改、改造、考核、受刑、法官、刑罰、刑事制裁;
列舉與刑事類主題詞“證據(jù)”實(shí)體概念關(guān)系相近的實(shí)體概念:事實(shí)、異議、材料、體系、法庭、矛盾、庭審、定案、意圖、權(quán)屬;
列舉與刑事類主題詞“處罰”實(shí)體概念關(guān)系相近的實(shí)體概念:自首、情節(jié)、罪行、嫌疑人、情形、同案犯、犯罪分子、過失、犯罪、性質(zhì)、初犯;
進(jìn)一步,道理同上,本案例列舉與行政類主題詞“政府”實(shí)體概念關(guān)系相近的實(shí)體概念:山區(qū)、開支、補(bǔ)償費(fèi)、財政所、地租、搬遷、報銷、境內(nèi)、城市規(guī)劃、土地;
列舉與行政類主題詞“商標(biāo)”實(shí)體概念關(guān)系相近的實(shí)體概念:報銷、注冊證、聲譽(yù)、信貸員、代理商、科技、范圍、費(fèi)用、補(bǔ)償;
列舉與行政類主題詞“程序”實(shí)體概念關(guān)系相近的實(shí)體概念:審判、政治權(quán)利、條件、合法、公開、簡易、幅度、標(biāo)準(zhǔn)、最高人民法院;
列舉與行政類主題詞“有限公司”實(shí)體概念關(guān)系相近的實(shí)體概念:合同、股份、訴訟費(fèi)、支票、保險金、管理費(fèi)、費(fèi)用、經(jīng)理、支公司。
a18,根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),自動構(gòu)建法律知識圖譜;
a19,使用neo4j圖形數(shù)據(jù)庫,對得到的法律知識圖譜可視化,為了方便清晰,本實(shí)施例僅對列舉的主題詞和相近詞及其之間的關(guān)系進(jìn)行可視化展示,如圖2-圖4所示,本實(shí)施例中,還可以使用neo4j圖形數(shù)據(jù)庫,對全部列舉的實(shí)體概念及其關(guān)系進(jìn)行知識圖譜的可視化顯示。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。
以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明所述原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。