一種地理學(xué)科領(lǐng)域命名實(shí)體識別方法與流程

文檔序號：11386519閱讀：742來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于信息抽取技術(shù)領(lǐng)域，特別涉及一種地理學(xué)科領(lǐng)域命名實(shí)體識別方法。

背景技術(shù)：

命名實(shí)體識別(namedentityrecognition,ner)是信息抽取的基礎(chǔ)環(huán)節(jié)，應(yīng)用于后續(xù)任務(wù)，比如關(guān)系抽取、實(shí)體鏈接，廣泛應(yīng)用于自動問答、機(jī)器翻譯等自然語言處理領(lǐng)域。

對于地理學(xué)科高考問答系統(tǒng)，構(gòu)建面向基礎(chǔ)教育的地理學(xué)科知識圖譜，顯得尤為重要。為了從地理學(xué)科資源中獲取知識，構(gòu)建地理學(xué)科知識圖譜，命名實(shí)體識別通常是首要任務(wù)。本專利首次嘗試面向地理學(xué)科領(lǐng)域進(jìn)行命名實(shí)體識別，抽取的命名實(shí)體類別包括地理學(xué)科核心術(shù)語和地理區(qū)域位置。地理學(xué)科領(lǐng)域命名實(shí)體識別不僅具有漢語命名實(shí)體識別固有的難點(diǎn)，而且還面臨領(lǐng)域分詞困難以及缺乏大規(guī)模人工標(biāo)注訓(xùn)練語料等諸多問題。

技術(shù)實(shí)現(xiàn)要素：

發(fā)明目的：針對現(xiàn)有技術(shù)中存在的問題，本發(fā)明提供一種能夠有效融合序列標(biāo)注模型和神經(jīng)網(wǎng)絡(luò)模型優(yōu)點(diǎn)的框架，來實(shí)現(xiàn)命名實(shí)體識別，以及便于一系列后續(xù)應(yīng)用開展的地理學(xué)科領(lǐng)域命名實(shí)體識別方法。

技術(shù)方案：為解決上述技術(shù)問題，本發(fā)明提供一種地理學(xué)科領(lǐng)域命名實(shí)體識別方法，包括如下步驟：

1)先標(biāo)注語料，然后采用新詞發(fā)現(xiàn)算法構(gòu)建地理學(xué)科領(lǐng)域詞典；

2)通過無標(biāo)注的文本和步驟1中構(gòu)建的地理學(xué)科領(lǐng)域詞典，進(jìn)行學(xué)習(xí)單詞的特征表示；

3)通過多通道卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練和預(yù)測，多通道中其中一個通道的輸入是句子中每個單詞wi的上下文特征φ(wi)，傾向于捕捉詞的句法和語義信息；另一個通道的輸入是單詞wi的基礎(chǔ)特征，選取詞性、詞長和詞頻，關(guān)于詞的基本特征，傾向于捕捉詞的表層特征；

4)首先對無標(biāo)注的文本和地理學(xué)科領(lǐng)域詞典構(gòu)成的數(shù)據(jù)集進(jìn)行預(yù)處理，然后進(jìn)行分詞、詞性標(biāo)注，并采用bio標(biāo)注方式對數(shù)據(jù)集進(jìn)行標(biāo)注；針對地理學(xué)科領(lǐng)域特點(diǎn)，進(jìn)行特征選取，選取出常用特征和地理學(xué)科領(lǐng)域特征，最后根據(jù)條件隨機(jī)場模型進(jìn)行訓(xùn)練和預(yù)測；

5)采用基于規(guī)則的方法對步驟3和步驟4預(yù)測結(jié)果進(jìn)行糾錯和融合，得到最后的預(yù)測結(jié)果。

進(jìn)一步的，所述步驟1中采用新詞發(fā)現(xiàn)算法構(gòu)建地理學(xué)科領(lǐng)域詞典的具體步驟如下，通過計(jì)算單詞w的左側(cè)和右側(cè)的上下文熵,單詞w在語料x中出現(xiàn)的次數(shù)是n,出現(xiàn)在左側(cè)的詞語的集合為α＝{a1,a2,…,as},出現(xiàn)在它右側(cè)的詞語的集合為β＝{b1,b2,…,bt}，單詞w的左側(cè)上下文熵和右側(cè)上下文熵定義如下所示:

其中，count(ai,w)是ai和w共同出現(xiàn)的次數(shù)，count(bj,w)是bj和w共同出現(xiàn)的次數(shù)；當(dāng)一個詞項(xiàng)的左右側(cè)上下文熵都較大,則說明與該詞項(xiàng)左右相鄰的不同詞項(xiàng)個數(shù)較多，那么這個詞項(xiàng)與左右側(cè)相鄰的詞項(xiàng)構(gòu)成新詞的概率就較低。

進(jìn)一步的，所述步驟2中學(xué)習(xí)單詞特征表示的具體步驟如下：在無標(biāo)注語料庫q中獲取一個窗口大小為d的單詞序列p＝(w1,w2,…,wd)；該模型的目標(biāo)就是能夠區(qū)別正確的單詞序列p以及一個隨機(jī)單詞序列p^r，其中p^r表示把單詞序列p的中間單詞替換為后的單詞序列，r表示中間單詞替換詞，該模型的目標(biāo)函數(shù)就是最小化與參數(shù)θ相關(guān)的排序損失：

其中，p是無標(biāo)記語料庫訓(xùn)練樣本q中所有的長度為d的單詞序列，是單詞詞典，fθ(p)是p的得分，無標(biāo)記語料庫訓(xùn)練樣本q中所有的單詞序列用于學(xué)習(xí)該語言模型；正例是語料庫u中的單詞序列，負(fù)例是把這些單詞序列的中心詞替換為隨機(jī)詞的結(jié)果。

進(jìn)一步的，所述步驟3中通過多通道卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練和預(yù)測的整個模型訓(xùn)練過程如下：

使用每個單詞wi及其對應(yīng)的標(biāo)記t(wi)，mccnn模型對每個單詞wi輸出向量o(wi)。這時定義交叉熵作為訓(xùn)練集上的損失函數(shù)：

其中θ為參數(shù)權(quán)重，λ為正則化參數(shù)，權(quán)重參數(shù)θ通過后向傳播算法計(jì)算，模型采用adagrad算法計(jì)算最小化損失函數(shù)。

進(jìn)一步的，所述步驟4中常用特征包括單詞特征，詞性特征，形態(tài)特征，上下文特征和詞頻信息。

進(jìn)一步的，所述步驟4中地理學(xué)科領(lǐng)域特征包括前后綴特征和指示詞特征。

進(jìn)一步的，所述步驟4中根據(jù)條件隨機(jī)場模型進(jìn)行訓(xùn)練和預(yù)測的具體步驟如下：在觀測序列x取值為x的條件下，標(biāo)記序列y取值為y的條件概率具有如下形式：

其中，z(x)＝∑yexp(∑i,kλktk(yi-1,yi,x,i)+∑i,lμlsl(yi,x,i))，tk和sl是特征函數(shù)，λk和μl是對應(yīng)的權(quán)值。z(x)是規(guī)范化因子，在所有可能的輸出序列上進(jìn)行求和。

進(jìn)一步的，步驟5中采用基于規(guī)則的方法對預(yù)測結(jié)果進(jìn)行糾錯和融合得到最后的預(yù)測結(jié)果的評判規(guī)則如下：

a、如果crf模型預(yù)測的實(shí)體的開始單詞不是實(shí)體首部標(biāo)注b，而是實(shí)體內(nèi)部標(biāo)注i，那么通過mccnn模型的預(yù)測結(jié)果查看該單詞的預(yù)測分值，若滿足閾值∈則將該單詞改為實(shí)體首部標(biāo)注b；

b、如果mccnn模型預(yù)測的實(shí)體內(nèi)部的多個單詞出現(xiàn)多種實(shí)體類別，即該實(shí)體的類別不確定，此時選擇crf模型預(yù)測的實(shí)體類別作為該實(shí)體的類別。

與現(xiàn)有技術(shù)相比，本發(fā)明的優(yōu)點(diǎn)在于：

本發(fā)明針對地理學(xué)科領(lǐng)域?qū)嶓w識別問題，采用mccnn和crf模型對地理學(xué)科核心術(shù)語和地理區(qū)域位置兩類實(shí)體進(jìn)行識別。基于規(guī)則融合兩種模型的預(yù)測結(jié)果，糾正了識別過程中的錯誤標(biāo)記問題；從大規(guī)模未標(biāo)注數(shù)據(jù)中無監(jiān)督地學(xué)習(xí)詞的語義向量，并綜合詞的基礎(chǔ)特征，作為mccnn模型的輸入特征，避免了手動選取和構(gòu)建特征。因此本發(fā)明能夠融合模型優(yōu)點(diǎn)，彌補(bǔ)模型的不足，來實(shí)現(xiàn)地理學(xué)科領(lǐng)域?qū)嶓w識別，以及便于一系列后續(xù)應(yīng)用(如實(shí)體鏈接、關(guān)系抽取)的開展。

當(dāng)將命名實(shí)體識別作為一個序列標(biāo)注任務(wù)，可以采用條件隨機(jī)場模型。其中，條件隨機(jī)場模型綜合隱馬爾可夫模型和最大熵馬爾可夫模型的優(yōu)點(diǎn)，克服了隱馬爾可夫模型嚴(yán)格的獨(dú)立性假設(shè)，并通過全局歸一化解決了最大熵馬爾可夫模型所固有的標(biāo)記偏置問題。同時，條件隨機(jī)場模型可以重疊使用非獨(dú)立的特征，易于融合地理學(xué)科領(lǐng)域的新特征。因此，針對地理學(xué)科領(lǐng)域進(jìn)行特征選取并利用條件隨機(jī)場模型進(jìn)行命名實(shí)體識別。

詞向量是將最小語義單元映射為一組低維、連續(xù)的實(shí)值向量，向量中每一維表示某種隱含的句法和語義信息。因此采用多通道卷積神經(jīng)網(wǎng)絡(luò)模型，組合詞向量特征和基礎(chǔ)特征，作為模型的輸入特征，進(jìn)行地理學(xué)科領(lǐng)域命名實(shí)體識別。

附圖說明

圖1為本發(fā)明的總體流程圖。

具體實(shí)施方式

下面結(jié)合附圖和具體實(shí)施方式，進(jìn)一步闡明本發(fā)明。

一種基于規(guī)則融合crf和mccnn模型的地理學(xué)科領(lǐng)域命名實(shí)體識別方法，如圖1所示，該方法包含基于新詞發(fā)現(xiàn)算法構(gòu)建領(lǐng)域詞典、基于crf和mccnn模型進(jìn)行訓(xùn)練與預(yù)測以及基于規(guī)則融合crf和mccnn模型預(yù)測結(jié)果三個步驟。

問題可以描述如下：用u表示中文維基百科語料，用g無標(biāo)注地理學(xué)科領(lǐng)域語料g，地理學(xué)科領(lǐng)域命名實(shí)體識別的任務(wù)就是基于crf模型和mccnn模型對地理學(xué)科核心術(shù)語和地理區(qū)域位置兩類實(shí)體進(jìn)行識別，最后基于規(guī)則融合兩種模型的預(yù)測結(jié)果，糾正識別過程中的錯誤標(biāo)記。在下面的敘述中標(biāo)記和實(shí)體會交替使用，具有相同的含義。

一、基于新詞發(fā)現(xiàn)算法構(gòu)建領(lǐng)域詞典

步驟1，采用新詞發(fā)現(xiàn)算法，無監(jiān)督地從無標(biāo)注語料中，抽取領(lǐng)域新詞，構(gòu)建詞典。對于一個詞w,通過計(jì)算w的互信息用來定義詞w的內(nèi)部凝固程度；計(jì)算w的左側(cè)上下文熵和右側(cè)上下文熵用來定義詞w的自由程度。綜合w的內(nèi)部凝固程度和自由程度，可以挖掘無標(biāo)注語料中的領(lǐng)域新詞。

二、基于crf和mccnn模型進(jìn)行訓(xùn)練與預(yù)測

步驟2，基于神經(jīng)語言模型學(xué)習(xí)單詞的特征表示，將無標(biāo)記的語料庫u中的每個單詞wi通過基于神經(jīng)語言模型轉(zhuǎn)化為一個低維、連續(xù)的實(shí)值向量，其中，i＝1…n，n為語料庫u單詞的個數(shù)。

步驟3，基于多通道卷積神經(jīng)網(wǎng)絡(luò)(mccnn)模型訓(xùn)練和測試。模型輸入采用多通道，其中一個通道的輸入是句子中每個單詞wi的上下文特征φ(wi)，傾向于捕捉詞的句法、語義信息；另一個通道的輸入是單詞wi的基礎(chǔ)特征，選取詞性、詞長和詞頻，關(guān)于詞的基本特征，傾向于捕捉詞的表層特征。

對于句子中每個詞的標(biāo)簽分類，綜合使用基礎(chǔ)特征和詞向量特征，進(jìn)行地理學(xué)科領(lǐng)域命名實(shí)體識別。具體地，對于一個句子{w1,w2,…,ws}，選取句子中的當(dāng)前詞wi，上文兩個詞wi-1,wi-2和下文兩個詞wi+1,wi+2，并將每個詞轉(zhuǎn)換成對應(yīng)詞向量v，其中m表示單詞的個數(shù)，模型中取值為5，k表示詞向量的維度。然后采用卷積操作，得到特征ci＝f(w⁰·v+b⁰)，其中i＝1,2,…,n,n為卷積核的個數(shù)，權(quán)值矩陣偏置向量f(·)是非線性函數(shù)。在池化層，采用得到特征圖譜向量r⁰。對于詞的基礎(chǔ)特征，采樣同樣方式得到特征圖譜r¹,當(dāng)前詞的特征向量表示為其中表示連接符號。模型的輸出層對當(dāng)前詞wi的特征向量r，采用softmax回歸，得到預(yù)測標(biāo)記為：t(wi)＝softmax(r)。模型訓(xùn)練過程，模型采用adagrad算法(一種動態(tài)調(diào)整學(xué)習(xí)率的隨機(jī)梯度下降算法)最小化損失函數(shù)。

步驟4，基于條件隨機(jī)場(crf)模型訓(xùn)練和測試。首先對數(shù)據(jù)集進(jìn)行預(yù)處理，包括過濾清洗、特殊符號處理等操作，然后進(jìn)行分詞、詞性標(biāo)注，并采用bio標(biāo)注方式對數(shù)據(jù)集進(jìn)行標(biāo)注；針對地理學(xué)科領(lǐng)域特點(diǎn)，進(jìn)行特征選?。撼Ｓ锰卣骱偷乩韺W(xué)科領(lǐng)域特征。常用特征包括單詞特征、詞性特征、形態(tài)特征、上下文特征和詞頻信息；地理學(xué)科領(lǐng)域特征包括前后綴特征和指示詞特征。在觀測序列x取值為x的條件下，標(biāo)記序列y取值為y的條件概率具有如下形式：

三、基于規(guī)則融合crf和mccnn模型預(yù)測結(jié)果

步驟5，基于規(guī)則糾錯融合mccnn模型和crf模型的預(yù)測結(jié)果。采用mccnn模型是對單詞進(jìn)行標(biāo)簽分類，而通常命名實(shí)體會包含多個單詞，因此分類預(yù)測后的結(jié)果可能會出現(xiàn)矛盾。采用基于規(guī)則的方法對預(yù)測結(jié)果進(jìn)行糾錯和融合。

基于規(guī)則融合crf和mccnn模型的地理學(xué)科領(lǐng)域命名實(shí)體識別算法流程如下：

本發(fā)明在實(shí)驗(yàn)過程中，使用word2vec開源工具訓(xùn)練詞向量，參數(shù)設(shè)置如下：上下文窗口選取為5，詞向量的維度選取為100；使用開源工具crf++0.58訓(xùn)練crf模型。本發(fā)明提出的基于規(guī)則融合crf和mccnn模型的地理學(xué)科領(lǐng)域命名實(shí)體識別方法，在自建的地理學(xué)科數(shù)據(jù)集上，精確率達(dá)到92.59％，f1值到達(dá)92.77％，性能達(dá)到項(xiàng)目應(yīng)用效果。

本發(fā)明提出的基于規(guī)則融合crf和mccnn模型的地理學(xué)科領(lǐng)域命名實(shí)體識別方法，可以實(shí)現(xiàn)對地理學(xué)科核心術(shù)語和地理區(qū)域位置兩類實(shí)體進(jìn)行識別，有利于一系列自然語言處理相關(guān)應(yīng)用(如實(shí)體鏈接、關(guān)系抽取)的展開。從大規(guī)模未標(biāo)注數(shù)據(jù)中無監(jiān)督地學(xué)習(xí)詞的語義向量，并綜合詞的基礎(chǔ)特征，作為mccnn模型的輸入特征，避免了手動選取和構(gòu)建特征。此外，本發(fā)明提出的基于規(guī)則融合兩種模型的預(yù)測結(jié)果，糾正了識別過程中的錯誤標(biāo)記問題。

以上所述僅為本發(fā)明的實(shí)施例子而已，并不用于限制本發(fā)明。凡在本發(fā)明的原則之內(nèi)，所作的等同替換，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。本發(fā)明未作詳細(xì)闡述的內(nèi)容屬于本專業(yè)領(lǐng)域技術(shù)人員公知的已有技術(shù)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李慧穎;徐飛飛
技術(shù)所有人：東南大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

命名實(shí)體識別工具相關(guān)技術(shù)

命名實(shí)體識別相關(guān)技術(shù)

中文命名實(shí)體識別相關(guān)技術(shù)

中文命名實(shí)體識別工具相關(guān)技術(shù)

命名實(shí)體識別方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種地理學(xué)科領(lǐng)域命名實(shí)體識別方法與流程