技術(shù)總結(jié)
本發(fā)明涉及一種基于圖的關(guān)鍵詞抽取方法,該方法包括以下步驟:對文本信息進(jìn)行預(yù)處理,預(yù)處理包括分詞處理、詞性標(biāo)注處理和命名實(shí)體識別處理;計(jì)算節(jié)點(diǎn)特征,以及計(jì)算詞匯的統(tǒng)計(jì)關(guān)系和詞匯的語義關(guān)系;根據(jù)節(jié)點(diǎn)特征計(jì)算節(jié)點(diǎn)權(quán)重,以及根據(jù)詞匯的統(tǒng)計(jì)關(guān)系和詞匯的語義關(guān)系計(jì)算邊權(quán)重;根據(jù)節(jié)點(diǎn)權(quán)重和邊權(quán)重計(jì)算候選詞的分值;根據(jù)候選詞的分值排序結(jié)果以及文本大小信息確定該文本的關(guān)鍵詞。本發(fā)明提出的一種基于圖的關(guān)鍵詞抽取方法不需要標(biāo)注語料,而且可以通過對TextRank算法基于候選詞特征增加節(jié)點(diǎn)權(quán)重、基于詞匯語義關(guān)系改進(jìn)邊權(quán)重可以以較低成本提高關(guān)鍵詞抽取的準(zhǔn)確率。
技術(shù)研發(fā)人員:王志娟;馮迎輝
受保護(hù)的技術(shù)使用者:中央民族大學(xué)
文檔號碼:201610530337
技術(shù)研發(fā)日:2016.07.06
技術(shù)公布日:2016.12.07