技術(shù)總結(jié)
本發(fā)明公開一種基于有向有權(quán)圖發(fā)現(xiàn)新詞的方法,本發(fā)明通過(guò)分詞開源工具對(duì)語(yǔ)料進(jìn)行分詞,對(duì)分詞的結(jié)果進(jìn)行停用詞過(guò)濾;根據(jù)分詞結(jié)果建立詞之間的關(guān)聯(lián)關(guān)系以及權(quán)重,生成有向有權(quán)圖;采用邊權(quán)重門限閥值對(duì)有向有權(quán)圖的邊進(jìn)行篩選,保留語(yǔ)料中同現(xiàn)頻率比較高的詞項(xiàng)搭配;篩選有向權(quán)重圖中的孤立點(diǎn)以及自環(huán),生成子圖;根據(jù)子圖中相鄰節(jié)點(diǎn)間的邊權(quán)重以及節(jié)點(diǎn)強(qiáng)度建立假設(shè)檢驗(yàn)?zāi)P停瑥淖訄D中篩選出可能的新詞;根據(jù)詞性標(biāo)注規(guī)則對(duì)可能的新詞進(jìn)行篩選,生成最終的新詞。本發(fā)明能夠從語(yǔ)料庫(kù)中準(zhǔn)確地發(fā)現(xiàn)新詞,減少了人工維護(hù)新詞庫(kù)的工作量,具有很好的可用性。
技術(shù)研發(fā)人員:郭澤豪;王振宇;李風(fēng)環(huán);戴瑾如
受保護(hù)的技術(shù)使用者:華南理工大學(xué)
文檔號(hào)碼:201610575404
技術(shù)研發(fā)日:2016.07.19
技術(shù)公布日:2016.12.07