技術(shù)總結(jié)
本申請(qǐng)公開了一種中文文本相似度的確定方法和裝置。其中,該方法包括:將第一中文文本中的漢字轉(zhuǎn)化為拼音,得到第一拼音文本,將第二中文文本中的漢字轉(zhuǎn)化為拼音,得到第二拼音文本,按照漢語拼音的規(guī)則統(tǒng)計(jì)第一拼音文本中每種拼音單元的個(gè)數(shù)和第二拼音文本中每種拼音單元的個(gè)數(shù),由第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量,由第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量,計(jì)算第一特征向量與第二特征向量的距離,根據(jù)距離確定第一中文文本與第二中文文本的相似度,其中,距離越小,第一中文文本與第二中文文本的相似度越高。本申請(qǐng)解決了現(xiàn)有技術(shù)難以有效識(shí)別因拼寫錯(cuò)誤造成的相似文本的技術(shù)問題。
技術(shù)研發(fā)人員:劉粉香
受保護(hù)的技術(shù)使用者:北京國雙科技有限公司
文檔號(hào)碼:201510850305
技術(shù)研發(fā)日:2015.11.27
技術(shù)公布日:2017.06.09