本發(fā)明屬于信息抽取技術(shù)領(lǐng)域,特別涉及一種地理學(xué)科領(lǐng)域命名實(shí)體識別方法。
背景技術(shù):
命名實(shí)體識別(namedentityrecognition,ner)是信息抽取的基礎(chǔ)環(huán)節(jié),應(yīng)用于后續(xù)任務(wù),比如關(guān)系抽取、實(shí)體鏈接,廣泛應(yīng)用于自動問答、機(jī)器翻譯等自然語言處理領(lǐng)域。
對于地理學(xué)科高考問答系統(tǒng),構(gòu)建面向基礎(chǔ)教育的地理學(xué)科知識圖譜,顯得尤為重要。為了從地理學(xué)科資源中獲取知識,構(gòu)建地理學(xué)科知識圖譜,命名實(shí)體識別通常是首要任務(wù)。本專利首次嘗試面向地理學(xué)科領(lǐng)域進(jìn)行命名實(shí)體識別,抽取的命名實(shí)體類別包括地理學(xué)科核心術(shù)語和地理區(qū)域位置。地理學(xué)科領(lǐng)域命名實(shí)體識別不僅具有漢語命名實(shí)體識別固有的難點(diǎn),而且還面臨領(lǐng)域分詞困難以及缺乏大規(guī)模人工標(biāo)注訓(xùn)練語料等諸多問題。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種能夠有效融合序列標(biāo)注模型和神經(jīng)網(wǎng)絡(luò)模型優(yōu)點(diǎn)的框架,來實(shí)現(xiàn)命名實(shí)體識別,以及便于一系列后續(xù)應(yīng)用開展的地理學(xué)科領(lǐng)域命名實(shí)體識別方法。
技術(shù)方案:為解決上述技術(shù)問題,本發(fā)明提供一種地理學(xué)科領(lǐng)域命名實(shí)體識別方法,包括如下步驟:
1)先標(biāo)注語料,然后采用新詞發(fā)現(xiàn)算法構(gòu)建地理學(xué)科領(lǐng)域詞典;
2)通過無標(biāo)注的文本和步驟1中構(gòu)建的地理學(xué)科領(lǐng)域詞典,進(jìn)行學(xué)習(xí)單詞的特征表示;
3)通過多通道卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練和預(yù)測,多通道中其中一個通道的輸入是句子中每個單詞wi的上下文特征φ(wi),傾向于捕捉詞的句法和語義信息;另一個通道的輸入是單詞wi的基礎(chǔ)特征,選取詞性、詞長和詞頻,關(guān)于詞的基本特征,傾向于捕捉詞的表層特征;
4)首先對無標(biāo)注的文本和地理學(xué)科領(lǐng)域詞典構(gòu)成的數(shù)據(jù)集進(jìn)行預(yù)處理,然后進(jìn)行分詞、詞性標(biāo)注,并采用bio標(biāo)注方式對數(shù)據(jù)集進(jìn)行標(biāo)注;針對地理學(xué)科領(lǐng)域特點(diǎn),進(jìn)行特征選取,選取出常用特征和地理學(xué)科領(lǐng)域特征,最后根據(jù)條件隨機(jī)場模型進(jìn)行訓(xùn)練和預(yù)測;
5)采用基于規(guī)則的方法對步驟3和步驟4預(yù)測結(jié)果進(jìn)行糾錯和融合,得到最后的預(yù)測結(jié)果。
進(jìn)一步的,所述步驟1中采用新詞發(fā)現(xiàn)算法構(gòu)建地理學(xué)科領(lǐng)域詞典的具體步驟如下,通過計(jì)算單詞w的左側(cè)和右側(cè)的上下文熵,單詞w在語料x中出現(xiàn)的次數(shù)是n,出現(xiàn)在左側(cè)的詞語的集合為α={a1,a2,…,as},出現(xiàn)在它右側(cè)的詞語的集合為β={b1,b2,…,bt},單詞w的左側(cè)上下文熵和右側(cè)上下文熵定義如下所示:
其中,count(ai,w)是ai和w共同出現(xiàn)的次數(shù),count(bj,w)是bj和w共同出現(xiàn)的次數(shù);當(dāng)一個詞項(xiàng)的左右側(cè)上下文熵都較大,則說明與該詞項(xiàng)左右相鄰的不同詞項(xiàng)個數(shù)較多,那么這個詞項(xiàng)與左右側(cè)相鄰的詞項(xiàng)構(gòu)成新詞的概率就較低。
進(jìn)一步的,所述步驟2中學(xué)習(xí)單詞特征表示的具體步驟如下:在無標(biāo)注語料庫q中獲取一個窗口大小為d的單詞序列p=(w1,w2,…,wd);該模型的目標(biāo)就是能夠區(qū)別正確的單詞序列p以及一個隨機(jī)單詞序列pr,其中pr表示把單詞序列p的中間單詞替換為后的單詞序列,r表示中間單詞替換詞,該模型的目標(biāo)函數(shù)就是最小化與參數(shù)θ相關(guān)的排序損失:
其中,p是無標(biāo)記語料庫訓(xùn)練樣本q中所有的長度為d的單詞序列,
進(jìn)一步的,所述步驟3中通過多通道卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練和預(yù)測的整個模型訓(xùn)練過程如下:
使用每個單詞wi及其對應(yīng)的標(biāo)記t(wi),mccnn模型對每個單詞wi輸出向量o(wi)。這時定義交叉熵作為訓(xùn)練集上的損失函數(shù):
其中θ為參數(shù)權(quán)重,λ為正則化參數(shù),權(quán)重參數(shù)θ通過后向傳播算法計(jì)算,模型采用adagrad算法計(jì)算最小化損失函數(shù)。
進(jìn)一步的,所述步驟4中常用特征包括單詞特征,詞性特征,形態(tài)特征,上下文特征和詞頻信息。
進(jìn)一步的,所述步驟4中地理學(xué)科領(lǐng)域特征包括前后綴特征和指示詞特征。
進(jìn)一步的,所述步驟4中根據(jù)條件隨機(jī)場模型進(jìn)行訓(xùn)練和預(yù)測的具體步驟如下:在觀測序列x取值為x的條件下,標(biāo)記序列y取值為y的條件概率具有如下形式:
其中,z(x)=∑yexp(∑i,kλktk(yi-1,yi,x,i)+∑i,lμlsl(yi,x,i)),tk和sl是特征函數(shù),λk和μl是對應(yīng)的權(quán)值。z(x)是規(guī)范化因子,在所有可能的輸出序列上進(jìn)行求和。
進(jìn)一步的,步驟5中采用基于規(guī)則的方法對預(yù)測結(jié)果進(jìn)行糾錯和融合得到最后的預(yù)測結(jié)果的評判規(guī)則如下:
a、如果crf模型預(yù)測的實(shí)體的開始單詞不是實(shí)體首部標(biāo)注b,而是實(shí)體內(nèi)部標(biāo)注i,那么通過mccnn模型的預(yù)測結(jié)果查看該單詞的預(yù)測分值,若滿足閾值∈則將該單詞改為實(shí)體首部標(biāo)注b;
b、如果mccnn模型預(yù)測的實(shí)體內(nèi)部的多個單詞出現(xiàn)多種實(shí)體類別,即該實(shí)體的類別不確定,此時選擇crf模型預(yù)測的實(shí)體類別作為該實(shí)體的類別。
與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:
本發(fā)明針對地理學(xué)科領(lǐng)域?qū)嶓w識別問題,采用mccnn和crf模型對地理學(xué)科核心術(shù)語和地理區(qū)域位置兩類實(shí)體進(jìn)行識別。基于規(guī)則融合兩種模型的預(yù)測結(jié)果,糾正了識別過程中的錯誤標(biāo)記問題;從大規(guī)模未標(biāo)注數(shù)據(jù)中無監(jiān)督地學(xué)習(xí)詞的語義向量,并綜合詞的基礎(chǔ)特征,作為mccnn模型的輸入特征,避免了手動選取和構(gòu)建特征。因此本發(fā)明能夠融合模型優(yōu)點(diǎn),彌補(bǔ)模型的不足,來實(shí)現(xiàn)地理學(xué)科領(lǐng)域?qū)嶓w識別,以及便于一系列后續(xù)應(yīng)用(如實(shí)體鏈接、關(guān)系抽取)的開展。
當(dāng)將命名實(shí)體識別作為一個序列標(biāo)注任務(wù),可以采用條件隨機(jī)場模型。其中,條件隨機(jī)場模型綜合隱馬爾可夫模型和最大熵馬爾可夫模型的優(yōu)點(diǎn),克服了隱馬爾可夫模型嚴(yán)格的獨(dú)立性假設(shè),并通過全局歸一化解決了最大熵馬爾可夫模型所固有的標(biāo)記偏置問題。同時,條件隨機(jī)場模型可以重疊使用非獨(dú)立的特征,易于融合地理學(xué)科領(lǐng)域的新特征。因此,針對地理學(xué)科領(lǐng)域進(jìn)行特征選取并利用條件隨機(jī)場模型進(jìn)行命名實(shí)體識別。
詞向量是將最小語義單元映射為一組低維、連續(xù)的實(shí)值向量,向量中每一維表示某種隱含的句法和語義信息。因此采用多通道卷積神經(jīng)網(wǎng)絡(luò)模型,組合詞向量特征和基礎(chǔ)特征,作為模型的輸入特征,進(jìn)行地理學(xué)科領(lǐng)域命名實(shí)體識別。
附圖說明
圖1為本發(fā)明的總體流程圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施方式,進(jìn)一步闡明本發(fā)明。
一種基于規(guī)則融合crf和mccnn模型的地理學(xué)科領(lǐng)域命名實(shí)體識別方法,如圖1所示,該方法包含基于新詞發(fā)現(xiàn)算法構(gòu)建領(lǐng)域詞典、基于crf和mccnn模型進(jìn)行訓(xùn)練與預(yù)測以及基于規(guī)則融合crf和mccnn模型預(yù)測結(jié)果三個步驟。
問題可以描述如下:用u表示中文維基百科語料,用g無標(biāo)注地理學(xué)科領(lǐng)域語料g,地理學(xué)科領(lǐng)域命名實(shí)體識別的任務(wù)就是基于crf模型和mccnn模型對地理學(xué)科核心術(shù)語和地理區(qū)域位置兩類實(shí)體進(jìn)行識別,最后基于規(guī)則融合兩種模型的預(yù)測結(jié)果,糾正識別過程中的錯誤標(biāo)記。在下面的敘述中標(biāo)記和實(shí)體會交替使用,具有相同的含義。
一、基于新詞發(fā)現(xiàn)算法構(gòu)建領(lǐng)域詞典
步驟1,采用新詞發(fā)現(xiàn)算法,無監(jiān)督地從無標(biāo)注語料中,抽取領(lǐng)域新詞,構(gòu)建詞典。對于一個詞w,通過計(jì)算w的互信息用來定義詞w的內(nèi)部凝固程度;計(jì)算w的左側(cè)上下文熵和右側(cè)上下文熵用來定義詞w的自由程度。綜合w的內(nèi)部凝固程度和自由程度,可以挖掘無標(biāo)注語料中的領(lǐng)域新詞。
二、基于crf和mccnn模型進(jìn)行訓(xùn)練與預(yù)測
步驟2,基于神經(jīng)語言模型學(xué)習(xí)單詞的特征表示,將無標(biāo)記的語料庫u中的每個單詞wi通過基于神經(jīng)語言模型轉(zhuǎn)化為一個低維、連續(xù)的實(shí)值向量,其中,i=1…n,n為語料庫u單詞的個數(shù)。
步驟3,基于多通道卷積神經(jīng)網(wǎng)絡(luò)(mccnn)模型訓(xùn)練和測試。模型輸入采用多通道,其中一個通道的輸入是句子中每個單詞wi的上下文特征φ(wi),傾向于捕捉詞的句法、語義信息;另一個通道的輸入是單詞wi的基礎(chǔ)特征,選取詞性、詞長和詞頻,關(guān)于詞的基本特征,傾向于捕捉詞的表層特征。
對于句子中每個詞的標(biāo)簽分類,綜合使用基礎(chǔ)特征和詞向量特征,進(jìn)行地理學(xué)科領(lǐng)域命名實(shí)體識別。具體地,對于一個句子{w1,w2,…,ws},選取句子中的當(dāng)前詞wi,上文兩個詞wi-1,wi-2和下文兩個詞wi+1,wi+2,并將每個詞轉(zhuǎn)換成對應(yīng)詞向量v,其中
步驟4,基于條件隨機(jī)場(crf)模型訓(xùn)練和測試。首先對數(shù)據(jù)集進(jìn)行預(yù)處理,包括過濾清洗、特殊符號處理等操作,然后進(jìn)行分詞、詞性標(biāo)注,并采用bio標(biāo)注方式對數(shù)據(jù)集進(jìn)行標(biāo)注;針對地理學(xué)科領(lǐng)域特點(diǎn),進(jìn)行特征選?。撼S锰卣骱偷乩韺W(xué)科領(lǐng)域特征。常用特征包括單詞特征、詞性特征、形態(tài)特征、上下文特征和詞頻信息;地理學(xué)科領(lǐng)域特征包括前后綴特征和指示詞特征。在觀測序列x取值為x的條件下,標(biāo)記序列y取值為y的條件概率具有如下形式:
其中,z(x)=∑yexp(∑i,kλktk(yi-1,yi,x,i)+∑i,lμlsl(yi,x,i)),tk和sl是特征函數(shù),λk和μl是對應(yīng)的權(quán)值。z(x)是規(guī)范化因子,在所有可能的輸出序列上進(jìn)行求和。
三、基于規(guī)則融合crf和mccnn模型預(yù)測結(jié)果
步驟5,基于規(guī)則糾錯融合mccnn模型和crf模型的預(yù)測結(jié)果。采用mccnn模型是對單詞進(jìn)行標(biāo)簽分類,而通常命名實(shí)體會包含多個單詞,因此分類預(yù)測后的結(jié)果可能會出現(xiàn)矛盾。采用基于規(guī)則的方法對預(yù)測結(jié)果進(jìn)行糾錯和融合。
基于規(guī)則融合crf和mccnn模型的地理學(xué)科領(lǐng)域命名實(shí)體識別算法流程如下:
本發(fā)明在實(shí)驗(yàn)過程中,使用word2vec開源工具訓(xùn)練詞向量,參數(shù)設(shè)置如下:上下文窗口選取為5,詞向量的維度選取為100;使用開源工具crf++0.58訓(xùn)練crf模型。本發(fā)明提出的基于規(guī)則融合crf和mccnn模型的地理學(xué)科領(lǐng)域命名實(shí)體識別方法,在自建的地理學(xué)科數(shù)據(jù)集上,精確率達(dá)到92.59%,f1值到達(dá)92.77%,性能達(dá)到項(xiàng)目應(yīng)用效果。
本發(fā)明提出的基于規(guī)則融合crf和mccnn模型的地理學(xué)科領(lǐng)域命名實(shí)體識別方法,可以實(shí)現(xiàn)對地理學(xué)科核心術(shù)語和地理區(qū)域位置兩類實(shí)體進(jìn)行識別,有利于一系列自然語言處理相關(guān)應(yīng)用(如實(shí)體鏈接、關(guān)系抽取)的展開。從大規(guī)模未標(biāo)注數(shù)據(jù)中無監(jiān)督地學(xué)習(xí)詞的語義向量,并綜合詞的基礎(chǔ)特征,作為mccnn模型的輸入特征,避免了手動選取和構(gòu)建特征。此外,本發(fā)明提出的基于規(guī)則融合兩種模型的預(yù)測結(jié)果,糾正了識別過程中的錯誤標(biāo)記問題。
以上所述僅為本發(fā)明的實(shí)施例子而已,并不用于限制本發(fā)明。凡在本發(fā)明的原則之內(nèi),所作的等同替換,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。本發(fā)明未作詳細(xì)闡述的內(nèi)容屬于本專業(yè)領(lǐng)域技術(shù)人員公知的已有技術(shù)。