技術(shù)編號(hào):12597368
提示:您尚未登錄,請(qǐng)點(diǎn) 登 陸 后下載,如果您還沒有賬戶請(qǐng)點(diǎn) 注 冊(cè) ,登陸完成后,請(qǐng)刷新本頁查看技術(shù)詳細(xì)信息。本申請(qǐng)涉及文本處理領(lǐng)域,具體而言,涉及一種中文文本相似度的確定方法和裝置。背景技術(shù)在對(duì)文本進(jìn)行分析的過程中,經(jīng)常需要對(duì)文本進(jìn)行糾錯(cuò),即,將文本中所出現(xiàn)的錯(cuò)誤用詞進(jìn)行糾正,比如,根據(jù)用戶輸入的“危險(xiǎn)拉面”,區(qū)分出用戶可能的目標(biāo)詞為相似文本“味千拉面”。而對(duì)于相似文本的確定方法,目前主要是計(jì)算字符串之間相似詞語的個(gè)數(shù),相似個(gè)數(shù)越多,表示文本的相似度越高。然而,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)的方案對(duì)于因拼寫錯(cuò)誤造成的相似文本很難有效識(shí)別,如,其識(shí)別結(jié)果中“千葉拉面”與“味千拉面”的相似度比“危險(xiǎn)拉面”與“味千拉面...
注意:該技術(shù)已申請(qǐng)專利,請(qǐng)尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權(quán)人授權(quán)前,僅供技術(shù)研究參考不得用于商業(yè)用途。
該專利適合技術(shù)人員進(jìn)行技術(shù)研發(fā)參考以及查看自身技術(shù)是否侵權(quán),增加技術(shù)思路,做技術(shù)知識(shí)儲(chǔ)備,不適合論文引用。
請(qǐng)注意,此類技術(shù)沒有源代碼,用于學(xué)習(xí)研究技術(shù)思路。