技術(shù)總結(jié)
本發(fā)明涉及一種基于點(diǎn)評(píng)數(shù)據(jù)的語義詞典構(gòu)建方法,其步驟包括:1)通過少量點(diǎn)評(píng)數(shù)據(jù)構(gòu)建種子語義詞典;2)對(duì)點(diǎn)評(píng)數(shù)據(jù)進(jìn)行分詞;3)逐詞判定點(diǎn)評(píng)數(shù)據(jù)的語義類并用語義類標(biāo)簽進(jìn)行替換;4)根據(jù)各語義類的名稱及各語義類包含的具體詞語生成模版;5)將模版應(yīng)用到語義類標(biāo)簽替換后的點(diǎn)評(píng)數(shù)據(jù)中,以抽取各語義類的語義詞;6)根據(jù)模版的重要性、推廣性和準(zhǔn)確性對(duì)各模版進(jìn)行打分;7)選取得分最高的部分模版,計(jì)算各模版抽取的語義詞的得分,進(jìn)而選取得分最高的部分語義詞對(duì)語義詞典進(jìn)行擴(kuò)充;8)步驟3)~7)迭代進(jìn)行,終止后得到最終的語義詞典及模版庫。本發(fā)明可以在較短時(shí)間內(nèi)得到較大規(guī)模的語義詞典,并可以同時(shí)抽取多個(gè)語義類。
技術(shù)研發(fā)人員:林小俊;張猛;暴筱
受保護(hù)的技術(shù)使用者:北京眾薈信息技術(shù)有限公司
文檔號(hào)碼:201510469211
技術(shù)研發(fā)日:2015.08.03
技術(shù)公布日:2017.02.15