一種中文文本相似度的檢測方法及檢測裝置與流程

文檔序號：12120894閱讀：352來源：國知局

本發(fā)明涉及相似度檢測領域，特別是涉及一種中文文本相似度的檢測方法及檢測裝置。

背景技術(shù)：

文本文檔是信息存儲、傳播和交流的主要形式之一，是人們在日常生活和工作中，使用最為頻繁和廣泛的信息載體?；ヂ?lián)網(wǎng)給人們提供了豐富的論文資源，文本編輯軟件給人們提供了靈活的編輯處理工具。這些資源和工具在為我們提供便利的同時，也使抄襲、剽竊、造假、侵權(quán)事件頻頻發(fā)生，嚴重威脅著創(chuàng)新型國家的建設。

文本相似度檢測（copy detection）是打擊抄襲、剽竊等侵權(quán)行為的有效手段之一，是近年才發(fā)展起來的一個新興的研究領域。已有研究成果可以分為基于物理結(jié)構(gòu)的檢測和基于內(nèi)容的檢測方法兩大類?；谖锢斫Y(jié)構(gòu)的文本相似度檢測紛紛通過分析文檔內(nèi)部組件的相互關(guān)系、冗余空間信息獲取對文本復制和篡改的有關(guān)證據(jù)?；趦?nèi)容的文本相似度檢測方法對文本的內(nèi)容是否完整、內(nèi)容是否被篡改或部分內(nèi)容被篡改等進行檢測。

這類方法的缺點是，當存儲文本的文件類型改變時，文件的物理結(jié)構(gòu)信息將會不同程度受到損失，這類方法將隨之失效?；趦?nèi)容的文本相似度檢測已有成果可以分為兩類：基于語義的比較和基于字詞的統(tǒng)計分析?；谡Z義比較方法的基本思想是從文本中選取句子或詞語作為分析內(nèi)容，利用自然語言處理領域的相關(guān)方法對文本中的句子或詞語進行語義分析其相似度，最后得到文本的相似度；基于字詞統(tǒng)計的方法首先需要對文本進行分片，抽取合適的詞語來表示文本，并統(tǒng)計每個詞語出現(xiàn)的頻次，根據(jù)這些詞語的頻次構(gòu)成文本特征向量，再采用點積、余弦或者類似方式度量兩篇文本特征向量的相似度，并以此作為文本相似度。

但是由于中文文本中存在的關(guān)于同義詞替換、移位替換、語句變換以及文本表示中存在的高維、稀疏等問題，中文文本相似度檢測一直未能取得很好的結(jié)果。

技術(shù)實現(xiàn)要素：

本發(fā)明的目的是提供一種中文文本相似度的檢測方法，可提高中文文本相似度檢測的檢測準確度。

為實現(xiàn)上述目的，本發(fā)明提供了如下方案：

一種中文文本相似度的檢測方法，所述檢測方法包括：

步驟一：對中文本中的各個高頻字進行拆分，獲得多個部件及各部件之間的關(guān)聯(lián)頻次；

步驟二：根據(jù)所述多個部件及各部件之間的關(guān)聯(lián)頻次，繪制對應中文文本的部件關(guān)聯(lián)圖；

步驟三：基于所述中文文本的部件關(guān)聯(lián)圖，計算待檢測文本與參照文本的相似度。

可選的，在步驟一之前，所述檢測方法包括：

對中文文本進行預處理，獲取高頻字。

可選的，所述獲取高頻字的方法包括：

刪除所述中文文本中的停用字、無用字；

從刪除后的文本中抽取中文文字；

統(tǒng)計各所述中文文字的出現(xiàn)頻率；

按照設定的頻率比例，從所述中文文字中篩選高頻字。

可選的，所述獲得多個部件及各部件之間的關(guān)聯(lián)頻次的方法包括：

根據(jù)漢子數(shù)學表達式將中文本中的各個高頻字拆分，分別獲得關(guān)于部件的集合；

根據(jù)各部件的集合中確定不同部件出現(xiàn)的頻次，并對各不同的部件依次進行編號；

根據(jù)部件的集合確定各部件之間的關(guān)聯(lián)頻次。

可選的，所述部件關(guān)聯(lián)圖的包括單個部件的部件關(guān)聯(lián)簇圖和整個文本的部件關(guān)聯(lián)全圖；

其中，所述基于所述中文文本的部件關(guān)聯(lián)圖，計算待檢測文本與參照文本的相似度的方法包括：

步驟31：根據(jù)以下公式確定待檢測文本B與參照文本A中相同部件i的部件關(guān)聯(lián)簇圖的相似度sim(C_i,C_i′)：

其中，i、k分別表示中文文本中部件號，i＝1,...,n、k＝1,...,n、i≠k，C_i表示參照文本A中第i號部件，C_i′表示待檢測文本B中第i號部件，W_ik表示參照文本A中第i號部件與第k號的關(guān)聯(lián)頻次，W_ik′表示待檢測文本B中第i號部件與第k號的關(guān)聯(lián)頻次，min(W_ik,W_ik′)表示待檢測文本B與參照文本A中分別第i號部件與第k號部件關(guān)聯(lián)頻次的最小值，∑W_i表示參照文本A中所有第i號部件關(guān)聯(lián)頻次的總和，×1{C_k＝C_k′}表示若待檢測文本B與參照文本A中第i號部件都同時與第k號部件關(guān)聯(lián)，則將關(guān)聯(lián)度加入第i號部件的關(guān)聯(lián)簇結(jié)果中，否則忽略；

步驟32：根據(jù)以下公式確定待檢測文本B中全部部件的部件關(guān)聯(lián)簇圖相似度的比例和sim(C,C')：

其中，表示在待檢測文本B與參照文本A中第i號部件的部件關(guān)聯(lián)簇圖的相似度占待檢測文本B中部件關(guān)聯(lián)簇圖相似度的比例；

步驟33：根據(jù)以下公式確定待檢測文本B與參照文本A中的部件關(guān)聯(lián)全圖的相似度sim(CRM(A),CRM(B))：

其中，CRM(A)∩CRM(B)表示待檢測文本B與參照文本A中部件關(guān)聯(lián)的相同部分，CRM(A)∪CRM(B)表示待檢測文本B與參照文本A中部件關(guān)聯(lián)的總和，表示待檢測文本B與參照文本A分別第i號部件關(guān)聯(lián)與其他部件的關(guān)聯(lián)頻次之和的最小值，表示待檢測文本B與參照文本A中分別第i號部件關(guān)聯(lián)與其他部件的關(guān)聯(lián)頻次之和的最大值，×1{C_i＝C_i'}表示若待檢測文本B與參照文本A中都有第i號部件才對其進行計算，否則忽略，表示所有在參照文本A中出現(xiàn)但在待檢測文本B中不出現(xiàn)的部件j與其他部件的關(guān)聯(lián)頻次之和，乘以部件號，再求和，表示所有在待檢測文本B中出現(xiàn)但在參照文本A中不出現(xiàn)的部件j與其他部件的關(guān)聯(lián)頻次之和，乘以部件號，再求和；

步驟34：根據(jù)以下公式確定計算待檢測文本B與參照文本A的相似度sim(A,B)：

sim(A,B)＝α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------（6）；

其中，α為系統(tǒng)參考系數(shù)。

可選的，α的初始值為0.5，之后按照設定比例增減以計算相似度sim(A,B)，根據(jù)相似度sim(A,B)調(diào)整α的數(shù)值。

可選的，所述檢測方法還包括：

根據(jù)各部件出現(xiàn)頻次繪制部件直方圖。

根據(jù)本發(fā)明提供的具體實施例，本發(fā)明公開了以下技術(shù)效果：

本發(fā)明中文文本相似度的檢測方法通過中文本中的各個高頻字進行拆分，構(gòu)建部件關(guān)聯(lián)圖，進而根據(jù)部件關(guān)聯(lián)圖，確定待檢測文本與參照文本的相似度；部件之間相互關(guān)聯(lián)組成漢字，以部件關(guān)聯(lián)圖作為相似度檢測依據(jù)可以有效提高文件相似度檢測的檢測精度。

本發(fā)明的目的是提供一種中文文本相似度的檢測裝置，可提高中文文本相似度檢測的檢測準確度。

為實現(xiàn)上述目的，本發(fā)明提供了如下方案：

一種中文文本相似度的檢測裝置，所述檢測裝置包括：

拆分單元，用于對中文本中的各個高頻字進行拆分，獲得多個部件及各部件之間的關(guān)聯(lián)頻次；

繪圖單元，用于根據(jù)所述多個部件及各部件之間的關(guān)聯(lián)頻次，繪制對應中文文本的部件關(guān)聯(lián)圖；

計算單元，用于基于所述中文文本的部件關(guān)聯(lián)圖，計算待檢測文本與參照文本的相似度。

可選的，所述檢測裝置還包括：

預處理單元，與所述拆分單元連接，用于對中文文本進行預處理，獲取高頻字。

可選的，所述部件關(guān)聯(lián)圖的包括單個部件的部件關(guān)聯(lián)簇圖和整個文本的部件關(guān)聯(lián)全圖；

其中，計算單元包括：

關(guān)聯(lián)簇圖計算模塊，用于根據(jù)以下公式確定待檢測文本B與參照文本A中相同部件i的部件關(guān)聯(lián)簇圖的相似度sim(C_i,C_i′)：

比例計算模塊，用于根據(jù)以下公式確定待檢測文本B中全部部件的部件關(guān)聯(lián)簇圖相似度的比例和sim(C,C')：

其中，表示在待檢測文本B與參照文本A中第i號部件的部件關(guān)聯(lián)簇圖的相似度占待檢測文本B中部件關(guān)聯(lián)簇圖相似度的比例；

關(guān)聯(lián)全圖計算模塊，用于根據(jù)以下公式確定待檢測文本B與參照文本A中的部件關(guān)聯(lián)全圖的相似度sim(CRM(A),CRM(B))：

相似度計算模塊，分別與比例計算模塊和關(guān)聯(lián)全圖計算模塊連接，用于根據(jù)以下公式確定計算待檢測文本B與參照文本A的相似度sim(A,B)：

sim(A,B)＝α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------（6）；

其中，α為系統(tǒng)參考系數(shù)。

相對于現(xiàn)有技術(shù)，本發(fā)明中文文本相似度的檢測裝置與上述中文文本相似度的檢測方法的有益效果相同，在此不再贅述。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明中文文本相似度的檢測方法的流程圖；

圖2為本發(fā)明中整個文本的部件關(guān)聯(lián)全圖；

圖3為本發(fā)明中單個部件的部件關(guān)聯(lián)簇圖；

圖4為本發(fā)明中部件直方圖；

圖5為本發(fā)明中文文本相似度的檢測裝置的模塊結(jié)構(gòu)示意圖。

符號說明：

拆分單元 1 繪圖單元 2

計算單元 3 關(guān)聯(lián)簇圖計算模塊 31

比例計算模塊 32 關(guān)聯(lián)全圖計算模塊 33

相似度計算模塊 34。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。

本發(fā)明的目的是提供一種中文文本相似度的檢測方法，通過中文本中的各個高頻字進行拆分，構(gòu)建部件關(guān)聯(lián)圖，進而根據(jù)部件關(guān)聯(lián)圖，確定待檢測文本與參照文本的相似度；部件之間相互關(guān)聯(lián)組成漢字，以部件關(guān)聯(lián)圖作為相似度檢測依據(jù)可以有效提高文件相似度檢測的檢測精度。

部件是介于筆畫與漢字之間的一個概念，它是由筆畫組成的一個結(jié)構(gòu)塊，由不同數(shù)量、不同功能的結(jié)構(gòu)塊按不同的方式組合成漢字，由部件作為操作數(shù)、部件間的結(jié)構(gòu)關(guān)系作為運算符組成漢字數(shù)學表達式，根據(jù)漢字數(shù)學表達式將中文文本拆分成部件的集合。每一個相同部件都有一個唯一的部件號標志。部件直方圖即是中文文本中部件出現(xiàn)的頻次圖，作為文本指紋。

為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。

如圖1所示，本發(fā)明中文文本相似度的檢測方法包括：

步驟110：對中文本中的各個高頻字進行拆分，獲得多個部件及各部件之間的關(guān)聯(lián)頻次；

步驟120：根據(jù)所述多個部件及各部件之間的關(guān)聯(lián)頻次，繪制對應中文文本的部件關(guān)聯(lián)圖；

步驟130：基于所述中文文本的部件關(guān)聯(lián)圖，計算待檢測文本與參照文本的相似度。

進一步地，本發(fā)明中文文本相似度的檢測方法還包括：

步驟100，設置于步驟110之前，對中文文本進行預處理，獲取高頻字。

其中，所述獲取高頻字的方法包括：

步驟101：刪除所述中文文本中的停用字、無用字；

步驟102：從刪除后的文本中抽取中文文字；

步驟103：統(tǒng)計各所述中文文字的出現(xiàn)頻率；

步驟104：按照設定的頻率比例，從所述中文文字中篩選高頻字。

所述設定的頻率比例為在中文文本中高頻字按照頻次由高到低排列后取的比例，可為前20%、40%、60%、80%、100%等。

其中，在步驟110，所述獲得多個部件及各部件之間的關(guān)聯(lián)頻次的方法包括：

步驟111：根據(jù)漢子數(shù)學表達式將中文本中的各個高頻字拆分，分別獲得關(guān)于部件的集合；

步驟112：根據(jù)各部件的集合中確定不同部件出現(xiàn)的頻次，并對各不同的部件依次進行編號；

步驟113：根據(jù)部件的集合確定各部件之間的關(guān)聯(lián)頻次。

進一步地，部件關(guān)聯(lián)圖是由部件表示節(jié)點，部件之間關(guān)聯(lián)則繪制邊，關(guān)聯(lián)頻次作為邊的權(quán)重表示的圖。漢字由部件按一定方式組成，因此部件之間必然存在關(guān)聯(lián)，部件之間的關(guān)聯(lián)情況能夠反映中文文本中漢字的情況。其中，所述部件關(guān)聯(lián)圖的包括單個部件的部件關(guān)聯(lián)簇圖（如圖3所示）和整個文本的部件關(guān)聯(lián)全圖（如圖2所示）。

其中，所述基于所述中文文本的部件關(guān)聯(lián)圖，計算待檢測文本與參照文本的相似度的方法包括（結(jié)合表1）：

步驟131：根據(jù)以下公式確定待檢測文本B與參照文本A中相同部件i的部件關(guān)聯(lián)簇圖的相似度sim(C_i,C_i′)：

步驟132：根據(jù)以下公式確定待檢測文本B中全部部件的部件關(guān)聯(lián)簇圖相似度的比例和sim(C,C')：

其中，表示在待檢測文本B與參照文本A中第i號部件的部件關(guān)聯(lián)簇圖的相似度占待檢測文本B中部件關(guān)聯(lián)簇圖相似度的比例。

步驟133：根據(jù)以下公式確定待檢測文本B與參照文本A中的部件關(guān)聯(lián)全圖的相似度sim(CRM(A),CRM(B))：

步驟134：根據(jù)以下公式確定計算待檢測文本B與參照文本A的相似度sim(A,B)：

sim(A,B)＝α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------（6）；其中，α為系統(tǒng)參考系數(shù)。

表1公式符號及其含義

其中，α的初始值為0.5，之后按照設定比例增減以計算相似度sim(A,B)，根據(jù)相似度sim(A,B)調(diào)整α的數(shù)值。在本實施例中，所述設定比例為0.1。

通過本發(fā)明中文文本相似度的檢測與基于余弦特征向量的相似度檢測方法進行聚類對比分析，比較其結(jié)果，確定出最佳的系統(tǒng)參考系數(shù)。

此外，本發(fā)明中文文本相似度的檢測方法還包括：根據(jù)各部件出現(xiàn)頻次繪制部件直方圖（如圖4所示），根據(jù)所述部件直方圖可直觀的確定各部件出現(xiàn)頻次，便于統(tǒng)計分析。

本發(fā)明中文文本相似度的檢測方法根據(jù)部件之間的關(guān)聯(lián)關(guān)系，構(gòu)建部件關(guān)聯(lián)圖，并分別從單個部件的部件關(guān)聯(lián)簇圖與整個文本的部件關(guān)聯(lián)全圖計算相似度，并綜合所有結(jié)果得到最后文本相似度值。部件之間相互關(guān)聯(lián)組成漢字，因此中文文本可以表示成部件關(guān)聯(lián)的情況，以部件關(guān)聯(lián)圖作為相似度檢測依據(jù)可以有效解決文本表示中存在的稀疏等缺陷，從而提高檢測的準確度。

此外，本發(fā)明還提供一種中文文本相似度的檢測裝置，可提高中文文本相似度檢測的檢測準確度。

具體的，如圖5所示，本發(fā)明中文文本相似度的檢測裝置包括拆分單元1、繪圖單元2及計算單元3。其中，拆分單元1對中文本中的各個高頻字進行拆分，獲得多個部件及各部件之間的關(guān)聯(lián)頻次；所述繪圖單元2根據(jù)所述多個部件及各部件之間的關(guān)聯(lián)頻次，繪制對應中文文本的部件關(guān)聯(lián)圖；所述計算單元3基于所述中文文本的部件關(guān)聯(lián)圖，計算待檢測文本與參照文本的相似度。

進一步地，本發(fā)明中文文本相似度的檢測裝置還包括預處理單元4，所述預處理單元4與所述拆分單元1連接，用于對中文文本進行預處理，獲取高頻字。

其中，所述預處理單元4對中文文本進行預處理，獲取高頻字包括：刪除所述中文文本中的停用字、無用字；從刪除后的文本中抽取中文文字；統(tǒng)計各所述中文文字的出現(xiàn)頻率；按照設定的頻率比例，從所述中文文字中篩選高頻字。

所述拆分單元1對中文本中的各個高頻字進行拆分，獲得多個部件及各部件之間的關(guān)聯(lián)頻次包括：根據(jù)漢子數(shù)學表達式將中文本中的各個高頻字拆分，分別獲得關(guān)于部件的集合；根據(jù)各部件的集合中確定不同部件出現(xiàn)的頻次，并對各不同的部件依次進行編號；根據(jù)部件的集合確定各部件之間的關(guān)聯(lián)頻次。

所述繪圖單元2繪制的對應中文文本的部件關(guān)聯(lián)圖包括單個部件的部件關(guān)聯(lián)簇圖和整個文本的部件關(guān)聯(lián)全圖。此外，所述繪圖單元2還用于根據(jù)各部件出現(xiàn)頻次繪制部件直方圖。

所述計算單元3進一步包括關(guān)聯(lián)簇圖計算模塊31、比例計算模塊32、關(guān)聯(lián)全圖計算模塊33及相似度計算模塊34。其中，所述關(guān)聯(lián)簇圖計算模塊31用于根據(jù)以下公式確定待檢測文本B與參照文本A中相同部件i的部件關(guān)聯(lián)簇圖的相似度sim(C_i,C_i')：

其中，i、k分別表示中文文本中部件號，i＝1,...,n、k＝1,...,n、i≠k，C_i表示參照文本A中第i號部件，C_i'表示待檢測文本B中第i號部件，W_ik表示參照文本A中第i號部件與第k號的關(guān)聯(lián)頻次，W_ik′表示待檢測文本B中第i號部件與第k號的關(guān)聯(lián)頻次，min(W_ik,W_ik′)表示待檢測文本B與參照文本A中分別第i號部件與第k號部件關(guān)聯(lián)頻次的最小值，∑W_i表示參照文本A中所有第i號部件關(guān)聯(lián)頻次的總和，×1{C_k＝C_k′}表示若待檢測文本B與參照文本A中第i號部件都同時與第k號部件關(guān)聯(lián)，則將關(guān)聯(lián)度加入第i號部件的關(guān)聯(lián)簇結(jié)果中，否則忽略。

所述比例計算模塊32根據(jù)以下公式確定待檢測文本B中全部部件的部件關(guān)聯(lián)簇圖相似度的比例和sim(C,C')：

其中，表示在待檢測文本B與參照文本A中第i號部件的部件關(guān)聯(lián)簇圖的相似度占待檢測文本B中部件關(guān)聯(lián)簇圖相似度的比例；

所述關(guān)聯(lián)全圖計算模塊33根據(jù)以下公式確定待檢測文本B與參照文本A中的部件關(guān)聯(lián)全圖的相似度sim(CRM(A),CRM(B))：

所述相似度計算模塊34分別與比例計算模塊和關(guān)聯(lián)全圖計算模塊連接，用于根據(jù)以下公式確定計算待檢測文本B與參照文本A的相似度sim(A,B)：

sim(A,B)＝α×sim(C,C′)+(1-α)×sim(CRM(A),CRM(B))---------（6）；

其中，α為系統(tǒng)參考系數(shù)，α的初始值為0.5，之后按照設定比例增減以計算相似度sim(A,B)，根據(jù)相似度sim(A,B)調(diào)整α的數(shù)值。在本實施例中，所述設定比例為0.1。

相對于現(xiàn)有技術(shù)，本發(fā)明中文文本相似度的檢測裝置與上述中文文本相似度的檢測方法的有益效果相同，在此不再贅述。

本說明書中各個實施例采用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似部分互相參見即可。

本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實施方式及應用范圍上均會有改變之處。綜上所述，本說明書內(nèi)容不應理解為對本發(fā)明的限制。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃華軍;
技術(shù)所有人：中南林業(yè)科技大學;
我是此專利的發(fā)明人

上一篇：一種高紅外反射全固態(tài)電致變色玻璃及其制備方法與流程
上一篇：一種變壓器磁芯自動包膠裝置的制作方法

該領域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

中文文本相似度計算相關(guān)技術(shù)

中文文本相似度相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種中文文本相似度的檢測方法及檢測裝置與流程