技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置,該裝置包括簡(jiǎn)稱詞典構(gòu)建模塊、詞語(yǔ)聚類模塊、CRF訓(xùn)練模塊和CRF識(shí)別模塊4個(gè)模塊;該發(fā)明一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置與現(xiàn)有技術(shù)相比,提出了基于語(yǔ)義信息的機(jī)構(gòu)名抽取裝置,并且提出了使用維基百科自動(dòng)構(gòu)建機(jī)構(gòu)名詞典的方法;使用了基于圖的聚類算法進(jìn)行詞語(yǔ)聚類,并且使用詞語(yǔ)的類別特征作為語(yǔ)義特征;改進(jìn)了圖聚類算法CW,解決了其存在的震蕩問(wèn)題;構(gòu)建了包含大量未登錄機(jī)構(gòu)名的測(cè)試語(yǔ)料,該語(yǔ)料更具有說(shuō)服力;而且本發(fā)明提出的裝置與目前最好的開(kāi)源工具相比,F(xiàn)1值提高了8%左右。
技術(shù)研發(fā)人員:毛立花;唐旋;崔樂(lè)樂(lè)
受保護(hù)的技術(shù)使用者:浪潮軟件集團(tuán)有限公司
文檔號(hào)碼:201610634682
技術(shù)研發(fā)日:2016.08.04
技術(shù)公布日:2016.12.21