亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種法律知識圖譜自動構(gòu)建方法與流程

文檔序號:11407340閱讀:1645來源:國知局
一種法律知識圖譜自動構(gòu)建方法與流程

本發(fā)明涉及知識工程技術(shù)領(lǐng)域,特別是指一種法律知識圖譜自動構(gòu)建方法。



背景技術(shù):

知識圖譜(knowledgegraph,kg)旨在描述客觀世界的概念、實(shí)體、事件及其之間的關(guān)系。知識圖譜將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。知識圖譜給互聯(lián)網(wǎng)語義搜索帶來了活力,同時也在智能問答、大數(shù)據(jù)分析與決策中顯示出強(qiáng)大威力,已經(jīng)成為互聯(lián)網(wǎng)基于知識的智能服務(wù)的基礎(chǔ)設(shè)施。知識圖譜與大數(shù)據(jù)和深度學(xué)習(xí)一起,成為推動人工智能發(fā)展的核心驅(qū)動力之一。

知識圖譜研究,一方面探索從互聯(lián)網(wǎng)語言資源中獲取知識的理論和方法;另一方面促進(jìn)知識驅(qū)動的語言理解研究。隨著大數(shù)據(jù)時代的到來,研究從大數(shù)據(jù)中挖掘隱含的知識理論與方法,將大數(shù)據(jù)轉(zhuǎn)化為知識,增強(qiáng)對互聯(lián)網(wǎng)資源的內(nèi)容理解,將促進(jìn)當(dāng)代信息處理技術(shù)從信息服務(wù)向知識服務(wù)轉(zhuǎn)變。

構(gòu)建法律知識圖譜對整合法律知識,挖掘法律熱點(diǎn),對法律事件預(yù)測,構(gòu)建法律領(lǐng)域?qū)<蚁到y(tǒng)等將起到重要作用。但是,在現(xiàn)有的技術(shù)中,還沒有構(gòu)建好的法律知識圖譜。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明要解決的技術(shù)問題是提供一種法律知識圖譜自動構(gòu)建方法,以解決現(xiàn)有技術(shù)所存在的缺少法律知識圖譜的問題。

為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供一種法律知識圖譜自動構(gòu)建方法,包括:

獲取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,對所述語料去停用詞和進(jìn)行分詞;

根據(jù)分詞后的語料,分別抽取三類審判文書的主題詞,對抽取的主題詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實(shí)體概念;

獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念;

同屬于主題詞的實(shí)體概念之間形成主題關(guān)系,每一主題詞實(shí)體概念與其相近詞實(shí)體概念構(gòu)成相近關(guān)系,根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),構(gòu)建法律知識圖譜。

進(jìn)一步地,所述獲取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,對所述語料去停用詞和進(jìn)行分詞包括:

從網(wǎng)絡(luò)上爬取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料;

使用現(xiàn)代漢語法律語域詞表結(jié)合預(yù)先設(shè)定的輸入法法律詞典構(gòu)造法律領(lǐng)域詞典;

根據(jù)構(gòu)造的法律領(lǐng)域詞典對所述語料去停用詞和進(jìn)行分詞。

進(jìn)一步地,所述預(yù)先設(shè)定的輸入法法律詞典包括:搜狗輸入法法律詞典。

進(jìn)一步地,所述根據(jù)構(gòu)造的法律領(lǐng)域詞典對所述語料去停用詞和進(jìn)行分詞包括:

根據(jù)構(gòu)造的法律領(lǐng)域詞典,利用結(jié)巴分詞工具對所述語料去停用詞和進(jìn)行分詞。

進(jìn)一步地,所述分詞后的語料,分別抽取三類審判文書的主題詞包括:

對分詞后的民事、刑事、行政三類審判文書,應(yīng)用lda主題模型,分別抽取三類審判文書的主題詞。

進(jìn)一步地,所述對抽取的主題詞進(jìn)行詞性標(biāo)注和過濾包括:

利用java開源工具ansj去掉抽取的所述主題詞中無意義的詞語,所述無意義的詞語包括:人名、地名;

去掉所述主題詞中無意義的詞語后,使用結(jié)巴分詞工具進(jìn)行詞性標(biāo)注和過濾,保留名詞或名詞短語主題詞。

進(jìn)一步地,所述獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞包括:

將分詞后的民事、刑事、行政三類審判文書,分別作為訓(xùn)練集使用word2vec模型進(jìn)行訓(xùn)練,得到法律領(lǐng)域民事、刑事、行政詞匯的訓(xùn)練模型;

應(yīng)用所述訓(xùn)練模型,獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞。

進(jìn)一步地,所述對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾包括:

利用java開源工具ansj去掉獲取的所述相近詞中無意義的詞語,所述無意義的詞語包括:人名、地名;

去掉所述相近詞中無意義的詞語后,使用結(jié)巴分詞工具進(jìn)行詞性標(biāo)注和過濾,保留名詞或名詞短語相近詞。

進(jìn)一步地,在根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),構(gòu)建法律知識圖譜之后,所述方法還包括:

利用可視化工具將構(gòu)建的所述法律知識圖譜可視化顯示。

進(jìn)一步地,所述可視化工具包括:neo4j圖形數(shù)據(jù)庫。

本發(fā)明的上述技術(shù)方案的有益效果如下:

上述方案中,獲取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,對所述語料去停用詞和進(jìn)行分詞;根據(jù)分詞后的語料,分別抽取三類審判文書的主題詞,對抽取的主題詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實(shí)體概念;獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念;根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),完成法律知識圖譜的構(gòu)建。

附圖說明

圖1為本發(fā)明實(shí)施例提供的法律知識圖譜自動構(gòu)建方法的流程示意圖;

圖2為本發(fā)明實(shí)施例提供的針對民事類審判文書所列舉的實(shí)體概念及其關(guān)系的知識圖譜可視化示意圖;

圖3為本發(fā)明實(shí)施例提供的針對刑事類審判文書所列舉的實(shí)體概念及其關(guān)系的知識圖譜可視化示意圖;

圖4為本發(fā)明實(shí)施例提供的針對行政類審判文書所列舉的實(shí)體概念及其關(guān)系的知識圖譜可視化示意圖。

具體實(shí)施方式

為使本發(fā)明要解決的技術(shù)問題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例進(jìn)行詳細(xì)描述。

本發(fā)明針對現(xiàn)有的缺少法律知識圖譜的問題,提供一種法律知識圖譜自動構(gòu)建方法。

如圖1所示,本發(fā)明實(shí)施例提供的法律知識圖譜自動構(gòu)建方法,包括:

s101,獲取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,對所述語料去停用詞和進(jìn)行分詞;

s102,根據(jù)分詞后的語料,分別抽取三類審判文書的主題詞,對抽取的主題詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實(shí)體概念;

s103,獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念;

s104,同屬于主題詞的實(shí)體概念之間形成主題關(guān)系,每一主題詞實(shí)體概念與其相近詞實(shí)體概念構(gòu)成相近關(guān)系,根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),構(gòu)建法律知識圖譜。

本發(fā)明實(shí)施例所述的法律知識圖譜自動構(gòu)建方法,獲取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,對所述語料去停用詞和進(jìn)行分詞;根據(jù)分詞后的語料,分別抽取三類審判文書的主題詞,對抽取的主題詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實(shí)體概念;獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念;根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),完成法律知識圖譜的構(gòu)建。

本實(shí)施例中,所述民事、刑事、行政三類審判文書具有鮮明的法律語言特點(diǎn),審判文書中的主題詞是值得信賴的,能夠反映審判文書內(nèi)容主題,因此,從審判文書中獲取的主題詞可以作為法律知識圖譜的實(shí)體概念。

本實(shí)施例中,作為一可選實(shí)施例,所述獲取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,對所述語料去停用詞和進(jìn)行分詞包括:

從網(wǎng)絡(luò)上爬取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料;

使用現(xiàn)代漢語法律語域詞表結(jié)合預(yù)先設(shè)定的輸入法法律詞典構(gòu)造法律領(lǐng)域詞典;

根據(jù)構(gòu)造的法律領(lǐng)域詞典對所述語料去停用詞和進(jìn)行分詞。

本實(shí)施例中,作為又一可選實(shí)施例,所述預(yù)先設(shè)定的輸入法法律詞典包括:搜狗輸入法法律詞典。

本實(shí)施例中,作為再一可選實(shí)施例,所述根據(jù)構(gòu)造的法律領(lǐng)域詞典對所述語料去停用詞和進(jìn)行分詞包括:

根據(jù)構(gòu)造的法律領(lǐng)域詞典,利用結(jié)巴分詞工具對所述語料去停用詞和進(jìn)行分詞。

在前述法律知識圖譜自動構(gòu)建方法的具體實(shí)施方式中,進(jìn)一步地,所述分詞后的語料,分別抽取三類審判文書的主題詞包括:

對分詞后的民事、刑事、行政三類審判文書,應(yīng)用隱含狄利克雷分布(latentdirichletallocation,lda)主題模型,分別抽取三類審判文書的主題詞。

本實(shí)施例中,對分詞后的民事、刑事、行政三類審判文書,基于lda主題模型,選取主題數(shù)和主題詞數(shù),分別抽取三類審判文書的主題詞。lda是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu)。每篇文章的每個詞都是通過"以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語"這樣一個過程得到。文檔到主題服從多項(xiàng)式分布,主題到詞服從多項(xiàng)式分布。這樣就可以通過主題得到文章的主題詞。

本實(shí)施例中,所述lda主題模型抽取的主題詞包括名詞、名詞短語、動詞以及動詞短語等,但知識圖譜中的實(shí)體概念應(yīng)該為名詞或名詞短語,所以還需對應(yīng)用lda主題模型抽取的主題詞進(jìn)行詞性標(biāo)注和過濾。

在前述法律知識圖譜自動構(gòu)建方法的具體實(shí)施方式中,進(jìn)一步地,所述對抽取的主題詞進(jìn)行詞性標(biāo)注和過濾包括:

利用java開源工具ansj去掉抽取的所述主題詞中無意義的詞語,所述無意義的詞語包括:人名、地名;

去掉所述主題詞中無意義的詞語后,使用結(jié)巴分詞工具進(jìn)行詞性標(biāo)注和過濾,保留名詞或名詞短語主題詞。

在前述法律知識圖譜自動構(gòu)建方法的具體實(shí)施方式中,進(jìn)一步地,所述獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞包括:

將分詞后的民事、刑事、行政三類審判文書,分別作為訓(xùn)練集使用詞向量(word2vec)模型進(jìn)行訓(xùn)練,得到法律領(lǐng)域民事、刑事、行政詞匯的訓(xùn)練模型;

應(yīng)用所述訓(xùn)練模型,獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,根據(jù)過濾結(jié)果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念。

本實(shí)施例中,將分詞后的民事、刑事、行政三類審判文書,分別作為訓(xùn)練集使用word2vec模型進(jìn)行訓(xùn)練,得到法律領(lǐng)域民事、刑事、行政詞匯的訓(xùn)練模型;應(yīng)用所述訓(xùn)練模型,獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,并對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾。

本實(shí)施例中,以抽取的第一名詞或第一名詞短語主題詞為例,獲取與抽取的第一名詞或第一名詞短語主題詞關(guān)系相近的詞具體步驟可以包括:

使用word2vec將分詞后得到的詞語和抽取的第一名詞或第一名詞短語主題詞進(jìn)行量化,計算分詞后得到的詞語與抽取的第一名詞或第一名詞短語主題詞之間的距離,若二者之間的距離小于預(yù)先設(shè)定的距離閾值,則當(dāng)前的詞語是與抽取的第一名詞或第一名詞短語主題詞關(guān)系相近的詞;接著,按照此方法,繼續(xù)確認(rèn)其他詞語是否是與抽取的第一名詞或第一名詞短語主題詞關(guān)系相近的詞。

本實(shí)施例中,所述word2vec模型利用深度學(xué)習(xí)的思想,可以通過訓(xùn)練,把對審判文書內(nèi)容的處理簡化為k維向量空間中的向量運(yùn)算,其基本思想是通過訓(xùn)練將每個詞映射成k維實(shí)數(shù)向量(k一般為模型中的超參數(shù)),通過詞之間的距離來判斷詞之間的語義相似度。與lda主題模型相比,word2vec模型利用了詞的上下文,語義信息更加豐富。

本實(shí)施例中,將lda主題模型和word2vec模型結(jié)合,能夠?qū)⒒谠~頻和基于詞語上下文語義相結(jié)合抽取實(shí)體概念,既考慮了審判文書中的詞語頻率特征,又應(yīng)用了上下文語義,所抽取的實(shí)體概念更具有代表意義,更合理的表達(dá)知識。

在前述法律知識圖譜自動構(gòu)建方法的具體實(shí)施方式中,進(jìn)一步地,所述對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾包括:

利用java開源工具ansj去掉獲取的所述相近詞中無意義的詞語,所述無意義的詞語包括:人名、地名;

去掉所述相近詞中無意義的詞語后,使用結(jié)巴分詞工具進(jìn)行詞性標(biāo)注和過濾,保留名詞或名詞短語相近詞。

本實(shí)施例中,在根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),構(gòu)建法律知識圖譜之后,作為一可選實(shí)施例,可以利用可視化工具將構(gòu)建的所述法律知識圖譜可視化顯示;優(yōu)選地,所述可視化工具包括:neo4j圖形數(shù)據(jù)庫。

本實(shí)施例中,利用neo4j圖形數(shù)據(jù)庫將構(gòu)建的所述法律知識圖譜可視化顯示包括:將構(gòu)建的法律知識圖譜中的主題詞實(shí)體概念、相近詞實(shí)體概念以及其之間的關(guān)系(主題詞-主題關(guān)系-主題詞之間的關(guān)系,主題詞-相近關(guān)系-相近詞之間的關(guān)系)存儲在neo4j圖形數(shù)據(jù)庫中,通過所述neo4j圖形數(shù)據(jù)庫將構(gòu)建的所述法律知識圖譜可視化顯示。

本實(shí)施例中,所述neo4j是一個高性能的nosql圖形數(shù)據(jù)庫,neo4j將結(jié)構(gòu)化數(shù)據(jù)存儲在網(wǎng)絡(luò)中,因此可以將法律知識圖譜可視化,從而直觀、形象地反映法律知識和概念,實(shí)現(xiàn)知識和信息的可視化。

綜上,從網(wǎng)絡(luò)上爬取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料,使用現(xiàn)代漢語法律語域詞表結(jié)合搜狗輸入法法律詞典法律詞典構(gòu)造法律領(lǐng)域詞典,對所述語料去停用詞和進(jìn)行分詞;對分詞后的民事、刑事、行政三類審判文書,應(yīng)用lda主題模型,分別抽取三類審判文書的主題詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語主題詞作為法律知識圖譜的實(shí)體概念;將分詞后的民事、刑事、行政三類審判文書作為訓(xùn)練集,應(yīng)用word2vec模型,獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞,對獲取的相近詞進(jìn)行詞性標(biāo)注和過濾,根據(jù)過濾結(jié)果,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念;lda主題模型和word2vec模型結(jié)合,將詞頻和詞語上下文語義相結(jié)合,所抽取的實(shí)體概念更具有代表意義,更合理的表達(dá)知識;根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),構(gòu)建法律知識圖譜,并可以使用可視化工具實(shí)現(xiàn)法律知識圖譜的可視化顯示。

本實(shí)施例中,結(jié)合具體的例子,對所述法律知識圖譜自動構(gòu)建方法進(jìn)行詳細(xì)說明:

a11,從網(wǎng)絡(luò)上爬取民事、刑事、行政三類審判文書作為法律知識圖譜構(gòu)建的語料。

a12,使用現(xiàn)代漢語法律語域詞表結(jié)合搜狗輸入法法律詞典構(gòu)造法律領(lǐng)域詞典,使用結(jié)巴分詞分詞工具對語料去停用詞和進(jìn)行分詞,為應(yīng)用lda主題模型做準(zhǔn)備。

a13,對分詞后的刑事、民事、行政三類審判文書應(yīng)用lda主題模型提取主題詞。

本實(shí)施例中,假設(shè),可以對每類審判文書抽取40個主題詞,例如,對民事審判文書抽取的主題詞及其概率權(quán)值如下:

被告0.04538822855714997

原告0.043316588428150726

公司0.018895531919818322

合同0.013633310234119633

訴訟0.01251309001621634

判決0.01108851772997859

規(guī)定0.010230449503707916

責(zé)任0.010005382427964789

上訴0.009858321554609905

借款0.009341690312563182

民事0.009330181200735407

有限公司0.009316114508501462

支付0.00906419283849353

證據(jù)0.008995138167526888

中華人民共和國0.007661359985708241

人民法院0.007553941608649022

承擔(dān)0.007507905161337927

法律0.007410717105903395

本案0.007202274302800385

約定0.007144728743661517

審理0.007130662051427572

賠償0.007069280121679446

代理0.0070513770588362425

證明0.006947795052386281

履行0.006740631039486356

利息0.006273872615359985

請求0.005982308449056388

委托人0.0059388295821514656

事故0.0058812840230125975

保險0.005873611281794082

執(zhí)行0.005854429428747793

雙方0.005738059520266971

予以0.005359537620153529

期間0.005312222382639349

應(yīng)當(dāng)0.005181785781924582

受理0.004997639992680205

申請0.0049426520139475094

提供0.004911961049073446

依法0.004741881952063015

認(rèn)為0.004729094050032155

對刑事審判文書抽取的主題詞及其概率權(quán)值如下:

被告人0.04468756653212941

判決0.013898544185240131

機(jī)關(guān)0.013463702893840556

審理0.012932857680963156

公訴0.011521035306289217

執(zhí)行0.011357263910827038

刑事0.010803829539954854

犯罪0.010385930117051368

人民法院0.009521894823750918

罪犯0.009194352032826564

有期徒刑0.00916046829583439

被害人0.008725627004434815

處罰0.008584444766967422

指控0.008262549265541763

證據(jù)0.008143956186069152

證實(shí)0.007918064606121322

判處0.007810766105646103

依法0.007692173026173492

人民0.007421103130236095

規(guī)定0.0072629790242726144

罰金0.0072347425767791355

上訴0.006918494364852173

某甲0.006737781100893909

人民幣0.006653071758413473

中華人民共和國0.006641777179416081

予以0.006348118125483902

刑期0.006014928045060852

證明0.005517966569175626

認(rèn)為0.005489730121682147

羈押0.005484082832183451

提出0.00547278825318606

減刑0.005354195173713449

法律0.005354195173713449

檢察院0.005275133120731708

鑒定0.005201718357248663

刑法0.005184776488752576

判決書0.005004063224794311

應(yīng)當(dāng)0.004902412013817788

上述0.004902412013817788

公安局0.00469910959186474

對行政審判文書抽取的主題詞及其概率權(quán)值如下:

執(zhí)行0.07607003223815077

申請0.0299420399204335

行政0.01917312572878798

原告0.016755264421428082

規(guī)定0.015949310652308115

法律0.013702928870292888

人民法院0.013068454626517595

被告0.012142465189656355

裁定0.011542286850949997

作出0.0108049248919679

中華人民共和國0.009913231360175596

上訴0.008781466492900748

證據(jù)0.008627134920090542

訴訟0.00792406886617738

有限公司0.007906920913642911

履行0.007872625008573976

決定0.00785547705603951

代理0.007838329103505041

依法0.007563961862953564

本案0.007529665957884629

送達(dá)0.00739248233760889

政府0.007375334385074423

法定0.007306742574936553

人民0.0071009671445229445

強(qiáng)制0.006878043761574869

民事0.006860895809040401

裁定書0.006723712188764662

處罰0.006620824473557858

公司0.0062264215652651075

財產(chǎn)0.0062264215652651075

申請人0.006140681802592771

審判員0.005986350229782564

發(fā)生0.0058491666095068255

程序0.005832018656972358

行為0.005814870704437891

委托0.005591947321489815

商標(biāo)0.00542046779614514

認(rèn)為0.005403319843610674

認(rèn)定0.005248988270800467

證明0.005077508745455793

a14,利用java開源工具ansj去掉抽取的所述主題詞中無意義的詞語,所述無意義的詞語包括:人名、地名;

a15,去掉所述主題詞中無意義的詞語后,使用結(jié)巴分詞工具進(jìn)行詞性標(biāo)注過濾,保留名詞或名詞短語主題詞,從保留的名詞或名詞短語主題詞中,抽取名詞或名詞短語主題詞作為法律知識圖譜的實(shí)體概念。

本實(shí)施例中,針對上文民事審判文書抽取的主題詞,過濾后保留的名詞或名詞短語主題詞實(shí)體概念包括:民事、原告、被告、公司、合同、規(guī)定、責(zé)任、借款、證據(jù)、中華人民共和國、人民法院、賠償、利息、委托人、事故、保險;

針對上文刑事審判文書抽取的主題詞,過濾后保留的名詞或名詞短語主題詞實(shí)體概念包括:刑事、被告人、判決、機(jī)關(guān)、罪犯、有期徒刑、人民法院、有期徒刑、被害人、證據(jù)、處罰、公安局、罰金、檢察院、證據(jù)、刑期;

針對上文行政審判文書抽取的主題詞,過濾后保留的名詞或名詞短語主題詞實(shí)體概念包括:行政、原告、被告、規(guī)定、證據(jù)、訴訟、政府、程序、商標(biāo)、財產(chǎn)、申請人、行為、中華人民共和國、有限公司。

a16,將分詞后的民事、刑事、行政三類審判文書,分別作為訓(xùn)練集使用word2vec模型進(jìn)行訓(xùn)練,得到法律領(lǐng)域民事、刑事、行政詞匯的訓(xùn)練模型;應(yīng)用所述訓(xùn)練模型,獲取與抽取的每一名詞或名詞短語主題詞關(guān)系相近的詞。

應(yīng)用所述訓(xùn)練模型,民事類主題詞實(shí)體概念“合同”得到關(guān)系相近詞及其概率權(quán)值包括:

簽訂0.5763912

約定0.48097914

協(xié)議0.37736425

訂立0.3705411

公司0.3696574

租賃0.36512932

雙方0.35705388

劉德金0.34434897

氣泡0.328522

明確0.32501125

涉案0.32185695

協(xié)議書0.31391016

買賣0.3088458

樂業(yè)0.30489194

之間0.30382612

證明0.2990941

終止0.29683605

二手0.29514572

種田0.29396233

追索0.28939554

續(xù)訂0.28641993

解除0.28595838

有限公司0.28574145

書面0.28361073

分期付款0.28282937

提供0.2827272

進(jìn)駐0.2825332

閣樓0.2816434

鋼材0.2810969

乙方0.2808927

個人0.27966338

通知0.27827317

補(bǔ)充0.27381954

商品房0.2735057

在先0.27306673

形式0.2725207

支付0.27117527

養(yǎng)殖戶0.26940143

必須0.2674929

民事類主題詞實(shí)體概念“保險”得到關(guān)系相近詞及其概率權(quán)值包括:

投保0.56694895

人壽0.5114369

湛江0.48388714

黃泛區(qū)0.4794967

平安0.46968624

葫蘆島0.46316242

股份公司0.4605423

承保0.4594842

第三者0.45929018

太平洋0.45355806

陽光0.45028463

責(zé)任險0.42831764

云夢0.41445065

萊西0.41428867

鄲城0.4068216

泰安0.40472373

大地0.39746445

永安0.3968292

扶綏0.3896513

理賠0.38841742

高密0.38796845

機(jī)動車0.38347688

限額0.3812008

支公司0.38062343

財險0.37823787

股份0.37744236

秦鳳英0.37533227

王東亮0.37525466

三者0.37188548

王澤娥0.36597794

寧波0.36417973

超載0.36360556

承德市0.3632158

洛陽0.35979813

姚北0.35928556

卡面0.3588715

新鄉(xiāng)0.3568592

賠付0.35668504

民事類主題詞實(shí)體概念“事故”得到關(guān)系相近詞及其概率權(quán)值包括:

機(jī)動車0.64636284

道路0.59133244

受傷0.58880615

相撞0.5638595

交警0.55251616

受損0.5505517

安全0.54463726

警察0.5340148

喪生0.53361696

交通0.5322209

孟召霞0.52191746

損壞0.5216344

認(rèn)定書0.5169376

保險期0.51690906

孫文云0.5163057

李艷華0.5088402

李育愛0.5043047

秦鳳英0.5039391

碰撞0.4961797

逃逸0.49591517

王東亮0.4918255

王澤娥0.48844925

張水蘭0.48542893

湯淑媛0.48374018

連環(huán)0.4697476

劉新國0.46883675

遷安市0.467965

梁棟鋒0.46751007

歐定明0.46699777

公安0.46476513

趙繼慶0.45994714

責(zé)任事故0.45580548

肇事0.45535287

駕車0.45335504

黑狗0.4530668

巡邏0.4528954

大隊(duì)0.45050552

民事類主題詞實(shí)體概念“借款”得到關(guān)系相近詞及其概率權(quán)值包括:

楊文德0.53020227

約定0.5103647

貸款0.5056032

到期0.4983407

借據(jù)0.49800384

歸還0.48050326

陳樂平0.4619061

本金0.45753172

借款人0.45016727

還款0.4425541

用途0.43778557

償還0.43593448

提前0.41843352

擔(dān)保人0.4159059

流動資金0.41377255

本息0.41336417

款項(xiàng)0.40746012

月利率0.40664664

計息0.40537024

方天益0.4042288

利息0.40377522

喬景偉0.4011478

楊秀華0.4001807

石彪0.39721152

陳喜山0.39458355

轉(zhuǎn)賬0.39407754

個人0.3935814

鄭華富0.38994315

金融0.38959554

截止0.38876835

譚永峰0.38827744

陳麗艷0.38779706

李金停0.38715848

王旭純0.38537905

借條0.38101554

簽訂0.3808062

鄧仙蘭0.38042617

載明0.3793149

劉愛麗0.3779271

a17,利用java開源工具ansj去掉獲取的所述相近詞中無意義的詞語,所述無意義的詞語包括:人名、地名;去掉所述相近詞中無意義的詞語后,使用結(jié)巴分詞工具進(jìn)行詞性標(biāo)注和過濾,保留名詞或名詞短語相近詞,從保留的名詞或名詞短語相近詞中,抽取名詞或名詞短語相近詞作為法律知識圖譜的實(shí)體概念。

本實(shí)施例中,列舉與民事類主題詞“合同”實(shí)體概念關(guān)系相近的實(shí)體概念:約定、協(xié)議、公司、書面、租賃、有限公司、買賣、分期付款、乙方、個人、商品房、形式、通知;

列舉與民事類主題詞“保險”實(shí)體概念關(guān)系相近的實(shí)體概念:人壽、平安、太平洋、陽光、責(zé)任險、股份公司、第三者、理賠、機(jī)動車、財險、賠付、股份;

列舉與民事類主題詞“事故”實(shí)體概念關(guān)系相近的實(shí)體概念:事故:機(jī)動車、道路、交警、喪生、警察、認(rèn)定書、保險期、責(zé)任、安全、逃逸、肇事;

列舉與民事類主題詞“借款”實(shí)體概念關(guān)系相近的實(shí)體概念:貸款、借據(jù)、到期、本金、借款人、還款、本息、款項(xiàng)、個人、借條、擔(dān)保人、利率、利息;

進(jìn)一步,道理同上,本案例列舉與刑事類主題詞“判決”實(shí)體概念關(guān)系相近的實(shí)體概念:中華人民共和國、繳納、刑期、責(zé)任人員、刑法、原判、并處、敲詐、規(guī)定、裁定、通告、最高人民法院、解釋;

列舉與刑事類主題詞“罪犯”實(shí)體概念關(guān)系相近的實(shí)體概念:監(jiān)獄、服刑、減刑、悔改、改造、考核、受刑、法官、刑罰、刑事制裁;

列舉與刑事類主題詞“證據(jù)”實(shí)體概念關(guān)系相近的實(shí)體概念:事實(shí)、異議、材料、體系、法庭、矛盾、庭審、定案、意圖、權(quán)屬;

列舉與刑事類主題詞“處罰”實(shí)體概念關(guān)系相近的實(shí)體概念:自首、情節(jié)、罪行、嫌疑人、情形、同案犯、犯罪分子、過失、犯罪、性質(zhì)、初犯;

進(jìn)一步,道理同上,本案例列舉與行政類主題詞“政府”實(shí)體概念關(guān)系相近的實(shí)體概念:山區(qū)、開支、補(bǔ)償費(fèi)、財政所、地租、搬遷、報銷、境內(nèi)、城市規(guī)劃、土地;

列舉與行政類主題詞“商標(biāo)”實(shí)體概念關(guān)系相近的實(shí)體概念:報銷、注冊證、聲譽(yù)、信貸員、代理商、科技、范圍、費(fèi)用、補(bǔ)償;

列舉與行政類主題詞“程序”實(shí)體概念關(guān)系相近的實(shí)體概念:審判、政治權(quán)利、條件、合法、公開、簡易、幅度、標(biāo)準(zhǔn)、最高人民法院;

列舉與行政類主題詞“有限公司”實(shí)體概念關(guān)系相近的實(shí)體概念:合同、股份、訴訟費(fèi)、支票、保險金、管理費(fèi)、費(fèi)用、經(jīng)理、支公司。

a18,根據(jù)抽取的主題詞實(shí)體概念和相近詞實(shí)體概念以及其之間的關(guān)系形成的主題詞-主題關(guān)系-主題詞,主題詞-相近關(guān)系-相近詞三元組結(jié)構(gòu),自動構(gòu)建法律知識圖譜;

a19,使用neo4j圖形數(shù)據(jù)庫,對得到的法律知識圖譜可視化,為了方便清晰,本實(shí)施例僅對列舉的主題詞和相近詞及其之間的關(guān)系進(jìn)行可視化展示,如圖2-圖4所示,本實(shí)施例中,還可以使用neo4j圖形數(shù)據(jù)庫,對全部列舉的實(shí)體概念及其關(guān)系進(jìn)行知識圖譜的可視化顯示。

需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。

以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明所述原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1