亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于規(guī)則模型的實體抽取與關(guān)系挖掘構(gòu)建知識圖譜的方法與流程

文檔序號:12719918閱讀:來源:國知局

技術(shù)特征:

1.一種基于規(guī)則模型的實體抽取與關(guān)系挖掘構(gòu)建知識圖譜的方法,特征在于:該方法包括下列步驟:

步驟一:爬取目標領(lǐng)域的百科知識庫數(shù)據(jù),并定義食品類、農(nóng)藥類、營養(yǎng)類、病蟲害類字典,便于規(guī)則挖掘;

步驟二:對百科類數(shù)據(jù)進行去HTML標簽化,獲取中文文本并獲取URL鏈接,便于后續(xù)處理;

步驟三:通過加入人工標注的關(guān)系屬性信息,來獲取更全的實體屬性信息;

步驟四:對事件的獲取以及圖譜關(guān)系建立。

2.根據(jù)權(quán)利要求1所述的基于規(guī)則模型的實體抽取與關(guān)系挖掘構(gòu)建知識圖譜的方法,特征在于:其中所述步驟二具體如下:

2.1.將文檔轉(zhuǎn)化成UTF-8編碼;

2.2.去除文檔中的標點符號并正則解析,記錄URL數(shù);

2.3.對文檔進行分詞處理;

2.4.獲得文檔詞的詞向量;

2.5.對獲取的詞向量進行相似計算,并綁定對應(yīng)文檔的URL集合、后續(xù)關(guān)系融合以及關(guān)系獲取提供權(quán)值,取TOP3在通過word2vec的向量運算后,得到向量E1(w1,w2,w3,w4,…,wn),E2(w1,w2,w3,w4,…,wn),…,En(w1,w2,w3,w4,…,wn),其中Ei表示文檔實體,wi表示向量所在維數(shù)的值,進而計算目標詞與目標詞文檔中的其他詞的相似度,該相似度用來表示目標詞與目標詞文檔中的其他詞具有相關(guān)性,并作為圖譜中的連接關(guān)系,取TOP3,其中相似度的計算采用常用的N維向量相似度計算:

<mrow> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>tan</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&times;</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>&times;</mo> <msqrt> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> </mrow>

公式說明:

Distance(A,B):表示函數(shù)處理A,B兩者之間的余弦夾角,返回夾角值,便于排序;

A:表示當前文檔的實體名,如處理西瓜文檔時,當前A就表示西瓜的詞向量;

B:表示當前文檔的其他詞向量;

Ai,Bi:表示對應(yīng)詞的詞向量。

3.根據(jù)權(quán)利要求1所述的基于規(guī)則模型的實體抽取與關(guān)系挖掘構(gòu)建知識圖譜的方法,特征在于:其中所述步驟三具體如下:

3.1.定義可能的關(guān)系信息,可能的關(guān)系信息越多則獲取的屬性信息有可能更多;

3.2.關(guān)聯(lián)過后進行部分人工較對。

4.根據(jù)權(quán)利要求1所述的基于規(guī)則模型的實體抽取與關(guān)系挖掘構(gòu)建知識圖譜的方法,特征在于:其中所述步驟四具體如下:

4.1.假設(shè)實體詞有{E1,E2,...,En},接下來進行相關(guān)事件的爬取工作,采用關(guān)鍵詞爬取相關(guān)事件HTML,進行解析,獲取事件;

4.2對于實體屬性圖譜獲取,以及事件獲取,需要實體間的消岐以及融合,說明如下:

4.2.1目前所做的是簡稱以及全稱的實體融合,即實體名稱的簡稱與全稱建立映射關(guān)系;在圖譜中只存在一種實體名稱,即簡稱或全稱;根據(jù)映射關(guān)系對圖譜數(shù)據(jù)融合時,進行實體的消岐,即圖譜中實體名稱的統(tǒng)一;外部訪問時,通過關(guān)系映射,獲取實體的圖譜信息。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1