技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明公開了一種基于神經(jīng)網(wǎng)絡(luò)概率消歧的網(wǎng)絡(luò)文本命名實(shí)體識別方法,將無標(biāo)簽語料分詞,利用Word2Vec提取詞向量,將樣本語料轉(zhuǎn)換成詞特征矩陣并窗口化,構(gòu)建深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在神經(jīng)網(wǎng)絡(luò)的輸出層加入softmax函數(shù)做歸一化處理,得到每個詞對應(yīng)命名實(shí)體類別的概率矩陣;將概率矩陣重新窗口化,利用條件隨機(jī)場模型進(jìn)行消歧,得到最后的命名實(shí)體標(biāo)注。本發(fā)明根據(jù)其存在網(wǎng)絡(luò)詞匯、新生詞匯的特性,提供了一種不改變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的詞向量增量學(xué)習(xí)方法,為應(yīng)對網(wǎng)絡(luò)文本中語法結(jié)構(gòu)不規(guī)范、錯別字多的問題,采用了概率消歧的方法。因此本發(fā)明的方法在網(wǎng)絡(luò)文本命名實(shí)體識別任務(wù)中可產(chǎn)生較高的準(zhǔn)確率。
技術(shù)研發(fā)人員:周勇;劉兵;韓兆宇;王重秋
受保護(hù)的技術(shù)使用者:中國礦業(yè)大學(xué)
技術(shù)研發(fā)日:2017.05.27
技術(shù)公布日:2017.09.26