技術編號:12719582
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術詳細信息。本發(fā)明涉及中文文本挖掘技術領域,尤其涉及一種基于漢字屬性向量表示的文本相似性計算方法及系統(tǒng)。背景技術互聯(lián)網(wǎng)尤其是移動互聯(lián)網(wǎng)的快速發(fā)展使得社交媒體成為了人們傳遞信息的主要平臺。每天在社交媒體上都產(chǎn)生著難以計數(shù)的信息交互,其中文本是這種信息交互的主要載體,此外互聯(lián)網(wǎng)上產(chǎn)生的信息大多以短文本形式存在。文本相似度計算是中文文本挖掘領域中的關鍵問題,其應用場景非常廣泛;如在推薦系統(tǒng)中,基于內(nèi)容相似性的推薦;論文文獻查重以及文本聚類、分類等;在做文本相似度計算之前需要對文本進行向量化表示,傳統(tǒng)的處理過程中常...
注意:該技術已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權人授權前,僅供技術研究參考不得用于商業(yè)用途。
該專利適合技術人員進行技術研發(fā)參考以及查看自身技術是否侵權,增加技術思路,做技術知識儲備,不適合論文引用。
請注意,此類技術沒有源代碼,用于學習研究技術思路。