技術(shù)總結(jié)
本發(fā)明提供一種短文本語義相似度的計(jì)算方法,所述計(jì)算方法包括:對待計(jì)算短文本進(jìn)行分詞;通過連續(xù)詞袋模型對經(jīng)過所述分詞后的詞語進(jìn)行擴(kuò)展;通過機(jī)器翻譯對經(jīng)過所述擴(kuò)展后的詞語進(jìn)行歧義消除;對經(jīng)過所述歧義消除的詞語的重要性進(jìn)行計(jì)算,并對所述詞語的詞序進(jìn)行加權(quán);計(jì)算經(jīng)過所述詞序加權(quán)的詞語的語義距離,并根據(jù)所述語義距離計(jì)算文本相似度。實(shí)施本發(fā)明實(shí)施例,可以快速、準(zhǔn)確的計(jì)算短文本的相似度。
技術(shù)研發(fā)人員:石忠民;徐葉強(qiáng);林嘉亮;唐海濤
受保護(hù)的技術(shù)使用者:廣州索答信息科技有限公司
文檔號碼:201710080958
技術(shù)研發(fā)日:2017.02.15
技術(shù)公布日:2017.06.13