技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明公開了一種地理學(xué)科領(lǐng)域命名實(shí)體識別方法,識別出地理學(xué)科核心術(shù)語類和地理區(qū)域位置類實(shí)體,主要包括三個步驟:(1)地理學(xué)科領(lǐng)域詞典構(gòu)建,采用新詞發(fā)現(xiàn)算法無監(jiān)督地識別出地理學(xué)科領(lǐng)域新詞。(2)基于條件隨機(jī)場(CRF)模型和多通道卷積神經(jīng)網(wǎng)絡(luò)(MCCNN)模型進(jìn)行訓(xùn)練與測試。(3)基于規(guī)則的方法,糾錯和融合模型識別出的實(shí)體。本發(fā)明采用新詞發(fā)現(xiàn)算法無監(jiān)督識別領(lǐng)域新詞作為詞典,以提高分詞效果。從大規(guī)模未標(biāo)注數(shù)據(jù)中無監(jiān)督地學(xué)習(xí)詞的語義向量,并綜合詞的基礎(chǔ)特征,作為MCCNN模型的輸入特征,避免了手動選取和構(gòu)建特征。自定義規(guī)則融合兩種模型的預(yù)測結(jié)果,糾正識別過程中的錯誤標(biāo)記問題。
技術(shù)研發(fā)人員:李慧穎;徐飛飛
受保護(hù)的技術(shù)使用者:東南大學(xué)
技術(shù)研發(fā)日:2017.06.07
技術(shù)公布日:2017.09.05