1.一種基于規(guī)則模型的實體抽取與關(guān)系挖掘構(gòu)建知識圖譜的方法,特征在于:該方法包括下列步驟:
步驟一:爬取目標領(lǐng)域的百科知識庫數(shù)據(jù),并定義食品類、農(nóng)藥類、營養(yǎng)類、病蟲害類字典,便于規(guī)則挖掘;
步驟二:對百科類數(shù)據(jù)進行去HTML標簽化,獲取中文文本并獲取URL鏈接,便于后續(xù)處理;
步驟三:通過加入人工標注的關(guān)系屬性信息,來獲取更全的實體屬性信息;
步驟四:對事件的獲取以及圖譜關(guān)系建立。
2.根據(jù)權(quán)利要求1所述的基于規(guī)則模型的實體抽取與關(guān)系挖掘構(gòu)建知識圖譜的方法,特征在于:其中所述步驟二具體如下:
2.1.將文檔轉(zhuǎn)化成UTF-8編碼;
2.2.去除文檔中的標點符號并正則解析,記錄URL數(shù);
2.3.對文檔進行分詞處理;
2.4.獲得文檔詞的詞向量;
2.5.對獲取的詞向量進行相似計算,并綁定對應(yīng)文檔的URL集合、后續(xù)關(guān)系融合以及關(guān)系獲取提供權(quán)值,取TOP3在通過word2vec的向量運算后,得到向量E1(w1,w2,w3,w4,…,wn),E2(w1,w2,w3,w4,…,wn),…,En(w1,w2,w3,w4,…,wn),其中Ei表示文檔實體,wi表示向量所在維數(shù)的值,進而計算目標詞與目標詞文檔中的其他詞的相似度,該相似度用來表示目標詞與目標詞文檔中的其他詞具有相關(guān)性,并作為圖譜中的連接關(guān)系,取TOP3,其中相似度的計算采用常用的N維向量相似度計算:
公式說明:
Distance(A,B):表示函數(shù)處理A,B兩者之間的余弦夾角,返回夾角值,便于排序;
A:表示當前文檔的實體名,如處理西瓜文檔時,當前A就表示西瓜的詞向量;
B:表示當前文檔的其他詞向量;
Ai,Bi:表示對應(yīng)詞的詞向量。
3.根據(jù)權(quán)利要求1所述的基于規(guī)則模型的實體抽取與關(guān)系挖掘構(gòu)建知識圖譜的方法,特征在于:其中所述步驟三具體如下:
3.1.定義可能的關(guān)系信息,可能的關(guān)系信息越多則獲取的屬性信息有可能更多;
3.2.關(guān)聯(lián)過后進行部分人工較對。
4.根據(jù)權(quán)利要求1所述的基于規(guī)則模型的實體抽取與關(guān)系挖掘構(gòu)建知識圖譜的方法,特征在于:其中所述步驟四具體如下:
4.1.假設(shè)實體詞有{E1,E2,...,En},接下來進行相關(guān)事件的爬取工作,采用關(guān)鍵詞爬取相關(guān)事件HTML,進行解析,獲取事件;
4.2對于實體屬性圖譜獲取,以及事件獲取,需要實體間的消岐以及融合,說明如下:
4.2.1目前所做的是簡稱以及全稱的實體融合,即實體名稱的簡稱與全稱建立映射關(guān)系;在圖譜中只存在一種實體名稱,即簡稱或全稱;根據(jù)映射關(guān)系對圖譜數(shù)據(jù)融合時,進行實體的消岐,即圖譜中實體名稱的統(tǒng)一;外部訪問時,通過關(guān)系映射,獲取實體的圖譜信息。