技術(shù)總結(jié)
本發(fā)明公開(kāi)一種中文文本相似度的檢測(cè)方法及檢測(cè)裝置,所述檢測(cè)方法包括:步驟一:對(duì)中文本中的各個(gè)高頻字進(jìn)行拆分,獲得多個(gè)部件及各部件之間的關(guān)聯(lián)頻次;步驟二:根據(jù)所述多個(gè)部件及各部件之間的關(guān)聯(lián)頻次,繪制對(duì)應(yīng)中文文本的部件關(guān)聯(lián)圖;步驟三:基于所述中文文本的部件關(guān)聯(lián)圖,計(jì)算待檢測(cè)文本與參照文本的相似度。本發(fā)明中文文本相似度的檢測(cè)方法通過(guò)中文本中的各個(gè)高頻字進(jìn)行拆分,構(gòu)建部件關(guān)聯(lián)圖,進(jìn)而根據(jù)部件關(guān)聯(lián)圖,確定待檢測(cè)文本與參照文本的相似度;部件之間相互關(guān)聯(lián)組成漢字,以部件關(guān)聯(lián)圖作為相似度檢測(cè)依據(jù)可以有效提高文件相似度檢測(cè)的檢測(cè)精度。
技術(shù)研發(fā)人員:黃華軍
受保護(hù)的技術(shù)使用者:中南林業(yè)科技大學(xué)
文檔號(hào)碼:201610939958
技術(shù)研發(fā)日:2016.10.25
技術(shù)公布日:2017.03.22