本發(fā)明涉及信息處理領(lǐng)域,更具體的說,涉及一種文章的查重方法及裝置。
背景技術(shù):
在發(fā)表文章之前,都需要判斷即將發(fā)表的文章是抄襲還是原創(chuàng),即需要對即將發(fā)表的文章進(jìn)行查重。但是現(xiàn)有技術(shù)中,還沒有對文章進(jìn)行查重的方法。
因此,亟需一種能夠?qū)ξ恼逻M(jìn)行查重的方法。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明提供一種文章的查重方法及裝置,以解決現(xiàn)有技術(shù)中沒有對文章進(jìn)行查重的方法的問題。
為解決上述技術(shù)問題,本發(fā)明采用了如下技術(shù)方案:
一種文章的查重方法,包括:
計算待查重文章與每個待對比文章的文章相似距離,其中,每個所述待對比文章預(yù)先存儲在數(shù)據(jù)庫中;
根據(jù)計算得到的所述待查重文章與每個所述待對比文章的文章相似距離以及所述數(shù)據(jù)庫中存儲的所述待對比文章的數(shù)量,篩選出預(yù)設(shè)數(shù)量的多個待比對文章;
從多個所述待比對文章中,采用文本向量距離算法篩選得到相似文章。
優(yōu)選地,所述計算待查重文章與每個待對比文章的文章相似距離,包括:
計算所述待查重文章的每個自然段落與每個所述待對比文章的每個目標(biāo)自然段落的段落相似距離,
從計算得到的所述待查重文章的每個自然段落與每個所述待對比文章的每個目標(biāo)自然段落的段落相似距離中,選取數(shù)值最小的段落相似距離作為所述待查重文章與每個所述待對比文章的文章相似距離。
優(yōu)選地,所述根據(jù)計算得到的所述待查重文章與每個所述待對比文章的文章相似距離以及所述數(shù)據(jù)庫中存儲的所述待對比文章的數(shù)量,篩選出預(yù)設(shè)數(shù)量的多個待比對文章,包括:
判斷所述數(shù)據(jù)庫中存儲的所述待對比文章的數(shù)量是否大于所述預(yù)設(shè)數(shù)量;
當(dāng)判斷出所述數(shù)據(jù)庫中存儲的所述待對比文章的數(shù)量不大于所述預(yù)設(shè)數(shù)量,將所述數(shù)據(jù)庫中存儲的所述待對比文章作為所述待比對文章;
當(dāng)判斷出所述數(shù)據(jù)庫中存儲的所述待對比文章的數(shù)量大于所述預(yù)設(shè)數(shù)量,根據(jù)計算得到的所述待查重文章與每個所述待對比文章的文章相似距離的數(shù)值大小,將多個所述待對比文章進(jìn)行排序;
篩選出排名前預(yù)設(shè)數(shù)值的多個所述待對比文章,作為多個所述待比對文章。
優(yōu)選地,計算所述待查重文章的每個自然段落與每個所述待對比文章的每個目標(biāo)自然段落的段落相似距離,包括:
計算所述待查重文章的每個所述自然段落的相似性哈希值Simhash值以及計算每個所述待對比文章的每個所述目標(biāo)自然段落的Simhash值;
將所述待查重文章的第i個所述自然段落的Simhash值與每個所述待對比文章的每個所述目標(biāo)自然段落的Simhash值做差,得到所述待查重文章的第i個所述自然段落與每個所述待對比文章的每個所述目標(biāo)自然段落的段落相似距離,其中,i=1;
判斷是否計算得到所述待查重文章的每個所述自然段落與每個所述待對比文章的每個所述目標(biāo)自然段落的段落相似距離;
當(dāng)判斷出未計算得到所述待查重文章的每個所述自然段落與每個所述待對比文章的每個所述目標(biāo)自然段落的段落相似距離,使i=i+1,并返回將所述待查重文章的第i個所述自然段落的Simhash值與每個所述待對比文章的每個所述目標(biāo)自然段落的Simhash值做差,得到所述待查重文章的第i個所述自然段落與每個所述待對比文章的每個所述目標(biāo)自然段落的段落相似距離。
優(yōu)選地,從多個所述待比對文章中,采用文本向量距離算法篩選得到相似文章,包括:
計算所述待查重文章的每個自然段落與每個所述待比對文章的每個目標(biāo)自然段落的段落相似距離;
選取段落相似距離小于預(yù)設(shè)值的所述待查重文章中的所述自然段落和每個所述待比對文章中的所述目標(biāo)自然段落作為所述待查重文章與每個所述待比對文章的相似段落;
計算所述待查重文章與每個所述待比對文章的每個所述相似段落之間的段落相似值;
從計算得到的所述待查重文章與每個所述待比對文章的每個所述相似段落之間的段落相似值中選取最小的段落相似值,作為所述待查重文章與每個所述待比對文章的文章相似值;
將與所述待查重文章的文章相似值大于指定數(shù)值的所述待比對文章作為相似文章。
一種文章的查重裝置,包括:
第一計算單元,用于計算待查重文章與每個待對比文章的文章相似距離,其中,每個所述待對比文章預(yù)先存儲在數(shù)據(jù)庫中;
第一篩選單元,用于根據(jù)計算得到的所述待查重文章與每個所述待對比文章的文章相似距離以及所述數(shù)據(jù)庫中存儲的所述待對比文章的數(shù)量,篩選出預(yù)設(shè)數(shù)量的多個待比對文章;
第二篩選單元,用于從多個所述待比對文章中,采用文本向量距離算法篩選得到相似文章。
優(yōu)選地,所述第一計算單元包括:
第二計算單元,用于計算所述待查重文章的每個自然段落與每個所述待對比文章的每個目標(biāo)自然段落的段落相似距離,
第一選取單元,用于從計算得到的所述待查重文章的每個自然段落與每個所述待對比文章的每個目標(biāo)自然段落的段落相似距離中,選取數(shù)值最小的段落相似距離作為所述待查重文章與每個所述待對比文章的文章相似距離。
優(yōu)選地,所述第一篩選單元包括:
第一判斷單元,用于判斷所述數(shù)據(jù)庫中存儲的所述待對比文章的數(shù)量是否大于所述預(yù)設(shè)數(shù)量;
第二選取單元,用于當(dāng)所述第一判斷單元判斷出所述數(shù)據(jù)庫中存儲的所述待對比文章的數(shù)量不大于所述預(yù)設(shè)數(shù)量,將所述數(shù)據(jù)庫中存儲的所述待對比文章作為所述待比對文章;
排序單元,用于當(dāng)所述第一判斷單元判斷出所述數(shù)據(jù)庫中存儲的所述待對比文章的數(shù)量大于所述預(yù)設(shè)數(shù)量,根據(jù)計算得到的所述待查重文章與每個所述待對比文章的文章相似距離的數(shù)值大小,將多個所述待對比文章進(jìn)行排序;
第三篩選單元,用于篩選出排名前預(yù)設(shè)數(shù)值的多個所述待對比文章,作為多個所述待比對文章。
優(yōu)選地,所述第二計算單元包括:
第三計算單元,用于計算所述待查重文章的每個所述自然段落的相似性哈希值Simhash值以及計算每個所述待對比文章的每個所述目標(biāo)自然段落的Simhash值;
做差單元,用于將所述待查重文章的第i個所述自然段落的Simhash值與每個所述待對比文章的每個所述目標(biāo)自然段落的Simhash值做差,得到所述待查重文章的第i個所述自然段落與每個所述待對比文章的每個所述目標(biāo)自然段落的段落相似距離,其中,i=1;
第二判斷單元,用于判斷是否計算得到所述待查重文章的每個所述自然段落與每個所述待對比文章的每個所述目標(biāo)自然段落的段落相似距離;
控制單元,用于當(dāng)所述第二判斷單元判斷出未計算得到所述待查重文章的每個所述自然段落與每個所述待對比文章的每個所述目標(biāo)自然段落的段落相似距離,使i=i+1;
所述做差單元,還用于所述控制單元使i=i+1后,將所述待查重文章的第i個所述自然段落的Simhash值與每個所述待對比文章的每個所述目標(biāo)自然段落的Simhash值做差,得到所述待查重文章的第i個所述自然段落與每個所述待對比文章的每個所述目標(biāo)自然段落的段落相似距離。
優(yōu)選地,所述第二篩選單元包括:
第四計算單元,用于計算所述待查重文章的每個自然段落與每個所述待比對文章的每個目標(biāo)自然段落的段落相似距離;
第三選取單元,用于選取段落相似距離小于預(yù)設(shè)值的所述待查重文章中的所述自然段落和每個所述待比對文章中的所述目標(biāo)自然段落作為所述待查重文章與每個所述待比對文章的相似段落;
第五計算單元,用于計算所述待查重文章與每個所述待比對文章的每個所述相似段落之間的段落相似值;
第四選取單元,用于從計算得到的所述待查重文章與每個所述待比對文章的每個所述相似段落之間的段落相似值中選取最小的段落相似值,作為所述待查重文章與每個所述待比對文章的文章相似值;
第五選取單元,用于將與所述待查重文章的文章相似值大于指定數(shù)值的所述待比對文章作為相似文章。
相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
本發(fā)明提供了一種文章的查重方法及裝置,計算待查重文章與每個待對比文章的文章相似距離;根據(jù)計算得到的所述待查重文章與每個所述待對比文章的文章相似距離以及所述數(shù)據(jù)庫中存儲的所述待對比文章的數(shù)量,篩選出預(yù)設(shè)數(shù)量的多個待比對文章;從多個所述待比對文章中,采用文本向量距離算法篩選得到相似文章。解決了現(xiàn)有技術(shù)中沒有對文章進(jìn)行查重的方法的問題。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明提供的一種文章的查重方法的方法流程圖;
圖2為本發(fā)明提供的另一種文章的查重方法的方法流程圖;
圖3為本發(fā)明提供的第三種文章的查重方法的方法流程圖;
圖4為本發(fā)明提供的第四種文章的查重方法的方法流程圖;
圖5為本發(fā)明提供的一種文章的查重裝置的結(jié)構(gòu)示意圖;
圖6為本發(fā)明提供的另一種文章的查重裝置的結(jié)構(gòu)示意圖;
圖7為本發(fā)明提供的第三種文章的查重裝置的結(jié)構(gòu)示意圖;
圖8為本發(fā)明提供的第四種文章的查重裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實施例提供了一種文章的查重方法,參照圖1,包括:
S101、計算待查重文章與每個待對比文章的文章相似距離;
其中,每個待對比文章預(yù)先存儲在數(shù)據(jù)庫中。其中,文章相似距離是指待查重文章與待對比文章的最小的段落相似距離。段落相似距離是指兩個段落間的相似性哈希值Simhash距離。
S102、根據(jù)計算得到的待查重文章與每個待對比文章的文章相似距離以及數(shù)據(jù)庫中存儲的待對比文章的數(shù)量,篩選出預(yù)設(shè)數(shù)量的多個待比對文章;
其中,數(shù)據(jù)庫中存儲的待對比文章的數(shù)量為多個,篩選出預(yù)設(shè)數(shù)量的多個待比對文章是進(jìn)行粗篩選的過程,執(zhí)行粗篩選能夠縮短篩選得到相似文章的時間。
S103、從多個待比對文章中,采用文本向量距離算法篩選得到相似文章。
其中,從多個待比對文章中,采用文本向量距離算法篩選得到相似文章,是進(jìn)行細(xì)篩選的過程。
本實施例提供了一種文章的查重方法,計算待查重文章與每個待對比文章的文章相似距離;根據(jù)計算得到的待查重文章與每個待對比文章的文章相似距離以及數(shù)據(jù)庫中存儲的待對比文章的數(shù)量,篩選出預(yù)設(shè)數(shù)量的多個待比對文章;從多個待比對文章中,采用文本向量距離算法篩選得到相似文章。解決了現(xiàn)有技術(shù)中沒有對文章進(jìn)行查重的方法的問題。
可選的,本發(fā)明的另一實施例中,參照圖2,步驟S101包括:
S201、計算待查重文章的每個自然段落的Simhash值以及計算每個待對比文章的每個目標(biāo)自然段落的Simhash值;
其中,Simhash值是通過Simhash算法計算得到,Simhash算法是將一段文本轉(zhuǎn)化成一個數(shù)字序列。其中,文本指的是本發(fā)明中的自然段落或者是目標(biāo)自然段落,數(shù)字序列指本發(fā)明中的Simhash值。
S202、將待查重文章的第i個自然段落的Simhash值與每個待對比文章的每個目標(biāo)自然段落的Simhash值做差,得到待查重文章的第i個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離;
其中,i=1,具體的,當(dāng)i=1時,將待查重文章的第一個自然段落的Simhash值與每個待對比文章的每個目標(biāo)自然段落的Simhash值做差,得到待查重文章的第一個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離。
具體的,取數(shù)據(jù)庫中的一個待對比文章,將待查重文章的第一個自然段落的Simhash值與被選取的待對比文章的第一個目標(biāo)自然段落的Simhash值做差,得到待查重文章的第一個自然段落與被選取的待對比文章的第一個目標(biāo)自然段落的段落相似距離。
按照這種方法,計算得到待查重文章的第一個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離。
S203、判斷是否計算得到待查重文章的每個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離;
具體的,待查重文章的自然段落的數(shù)量不定,但是一般情況下,待查重文章的自然段落均大于一,當(dāng)執(zhí)行一次步驟S202后,執(zhí)行步驟S203時,不會計算得到待查重文章的每個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離。
S204、使i=i+1;
具體的,當(dāng)判斷出未計算得到待查重文章的每個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離,使i=i+1,并返回步驟S202,直到計算得到待查重文章的每個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離時為止。
具體的,當(dāng)i=1時,使i=i+1,即i=2,此時,將待查重文章的第二個自然段落的Simhash值與每個待對比文章的每個目標(biāo)自然段落的Simhash值做差,得到待查重文章的第二個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離。
S205、從計算得到的待查重文章的每個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離中,選取數(shù)值最小的段落相似距離作為待查重文章與每個待對比文章的文章相似距離。
具體的,待查重文章的每個自然段落與待對比文章的每個目標(biāo)自然段落均有一個段落相似距離,從得到的待查重文章與待對比文章的多個段落相似距離中,選取一個數(shù)值最小的段落相似距離作為待查重文章與待對比文章的文章相似距離。
本實施例中,通過計算得到待查重文章的每個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離,進(jìn)而將待查重文章與待對比文章的數(shù)值最小的段落相似距離作為待查重文章與待對比文章的文章相似距離。
可選的,本發(fā)明的另一實施例中,參照圖3,步驟S102包括:
S301、判斷數(shù)據(jù)庫中存儲的待對比文章的數(shù)量是否大于預(yù)設(shè)數(shù)量;
其中,預(yù)設(shè)數(shù)值是技術(shù)人員根據(jù)文章查重的時間以及效率進(jìn)行設(shè)定的。
S302、將數(shù)據(jù)庫中存儲的待對比文章作為待比對文章;
具體的,當(dāng)判斷出數(shù)據(jù)庫中存儲的待對比文章的數(shù)量不大于預(yù)設(shè)數(shù)量,將數(shù)據(jù)庫中存儲的待對比文章作為待比對文章。
其中,當(dāng)數(shù)據(jù)庫中存儲的待對比文章的數(shù)量不大于預(yù)設(shè)數(shù)量時,說明數(shù)據(jù)庫中存儲的待對比文章的數(shù)量較小,后期可以對每個待對比文章采用文本向量距離算法進(jìn)行分析。
S303、根據(jù)計算得到的待查重文章與每個待對比文章的文章相似距離的數(shù)值大小,將多個待對比文章進(jìn)行排序;
其中,當(dāng)判斷出數(shù)據(jù)庫中存儲的待對比文章的數(shù)量大于預(yù)設(shè)數(shù)量,根據(jù)計算得到的待查重文章與每個待對比文章的文章相似距離的數(shù)值大小,將多個待對比文章進(jìn)行排序。
具體的,當(dāng)數(shù)據(jù)庫中存儲的待對比文章的數(shù)量大于預(yù)設(shè)數(shù)量時,說明數(shù)據(jù)庫中存儲的待對比文章的數(shù)量較大,當(dāng)待對比文章的數(shù)量較大時,后期采用文本向量距離算法分析時,需要耗費(fèi)較長的時間,此時需要從待對比文章中篩選出預(yù)設(shè)數(shù)值的待對比文章作為待比對文章,后期對待比對文章采用文本向量距離算法分析。其中,預(yù)設(shè)數(shù)值技術(shù)人員根據(jù)文章查重的時間以及效率進(jìn)行設(shè)定的。
具體的,在從待對比文章中篩選出預(yù)設(shè)數(shù)值的待對比文章作為待比對文章之前,需要對待對比文章進(jìn)行排序。
其中,排序的方法是,根據(jù)計算得到的待查重文章與每個待對比文章的文章相似距離的數(shù)值大小,將多個待對比文章進(jìn)行排序。
在排序時,按照文章相似距離的數(shù)值由大到小的順序,將待對比文章進(jìn)行排序,其中,將待對比文章進(jìn)行排序,是將待對比文章的文章賬號ID排序。
其中,在排序過程中可能會出現(xiàn)至少兩個文章相似距離的數(shù)值相同的情況,例如兩個文章相似距離的數(shù)值均為48,為了能夠判斷哪個待對比文章排在前邊,哪個待對比文章排在后邊?,F(xiàn)將數(shù)值相同的文章相似距離對應(yīng)的待對比文章按照待對比文章與待查重文章的相似段落數(shù)量進(jìn)行排序。
其中,相似段落數(shù)量是指相似段落的數(shù)量,其中,段落相似距離小于預(yù)設(shè)值的待查重文章中的自然段落和每個待比對文章中的目標(biāo)自然段落作為待查重文章與每個待比對文章的相似段落。
當(dāng)兩個或多個待對比文章與待查重文章的文章相似距離相同時,將這兩個或多個待對比文章按照待對比文章與待查重文章的相似段落數(shù)量進(jìn)行排序,其中,相似段落數(shù)量較大的待對比文章排在前邊,相似段落數(shù)量較小的待對比文章排在后邊。
其中,將待對比文章按照待對比文章與待查重文章的相似段落數(shù)量進(jìn)行排序時,可能也會出現(xiàn)相似段落數(shù)量相同的情況,此時,還是無法判斷與待查重文章的文章相似距離、相似段落數(shù)量均相同的待對比文章的排序順序。
此時,將與待查重文章的文章相似距離、相似段落數(shù)量均相同的待對比文章的所有目標(biāo)自然段落組成一個目標(biāo)自然段落,以及將待查重文章的所有自然段落組成一個自然段落,計算所有目標(biāo)自然段落組成一個目標(biāo)自然段落的待對比文章與所有自然段落組成一個自然段落的待查重文章的段落相似值。
其中,段落相似值是指段落A與段落B中出現(xiàn)的相同的關(guān)鍵詞的數(shù)量與段落A、段落B中所有關(guān)鍵詞的數(shù)量的比值。
在確定段落A與段落B中出現(xiàn)的相同的關(guān)鍵詞的數(shù)量以及段落A、段落B中所有關(guān)鍵詞的數(shù)量之前,需要將段落A與段落B中的停用詞去除,其中,停用詞包括的、了、啊等無意義的詞。
段落A與段落B中出現(xiàn)的相同的關(guān)鍵詞是指一個關(guān)鍵詞在段落A與段落B中均出現(xiàn),例如,只有蘋果這個關(guān)鍵詞在段落A與段落B中均出現(xiàn)時,則段落A與段落B中出現(xiàn)的相同的關(guān)鍵詞的數(shù)量為1,當(dāng)除了蘋果這個關(guān)鍵詞還有桃子這個關(guān)鍵詞出現(xiàn)時,段落A與段落B中出現(xiàn)的相同的關(guān)鍵詞的數(shù)量為2。
段落A、段落B中所有關(guān)鍵詞的數(shù)量是指,段落A中所有關(guān)鍵詞的數(shù)量與段落B中除去與段落A相同的關(guān)鍵詞的數(shù)量之和。
計算得到待計算段落相似值的待對比文章與待查重文章的段落相似值后,將待對比文章按照其與待查重文章的段落相似值的數(shù)值的大小進(jìn)行排序。其中,與待查重文章的段落相似值較大的待對比文章排在前邊,與待查重文章的段落相似值較小的待對比文章排在后邊。
S304、篩選出排名前預(yù)設(shè)數(shù)值的多個待對比文章,作為多個待比對文章。
其中,預(yù)設(shè)數(shù)值是技術(shù)人員根據(jù)文章查重的時間以及效率進(jìn)行設(shè)定的。
本實施例中,當(dāng)判斷出數(shù)據(jù)庫中存儲的待對比文章的數(shù)量不大于預(yù)設(shè)數(shù)量,將數(shù)據(jù)庫中存儲的待對比文章作為待比對文章,當(dāng)判斷出數(shù)據(jù)庫中存儲的待對比文章的數(shù)量大于預(yù)設(shè)數(shù)量,篩選出排名前預(yù)設(shè)數(shù)值的多個待對比文章,作為多個待比對文章。進(jìn)而能夠保證采用文本向量距離算法分析時,待比對文章的數(shù)量不會過多。
可選的,本發(fā)明的另一實施例中,參照圖4,步驟S103包括:
S401、計算待查重文章的每個自然段落與每個待比對文章的每個目標(biāo)自然段落的段落相似距離;
其中,計算段落相似距離的方法見上述實施例中的內(nèi)容,在此不再贅述。
S402、選取段落相似距離小于預(yù)設(shè)值的待查重文章中的自然段落和每個待比對文章中的目標(biāo)自然段落作為待查重文章與每個待比對文章的相似段落;
其中,待查重文章與每個待比對文章的相似段落的數(shù)量可以為一個,也可以為多個。
S403、計算待查重文章與每個待比對文章的每個相似段落之間的段落相似值;
其中,段落相似值的計算方法見上述實施例中的內(nèi)容,在此不再贅述。
S404、從計算得到的待查重文章與每個待比對文章的每個相似段落之間的段落相似值中選取最小的段落相似值,作為待查重文章與每個待比對文章的文章相似值;
其中,當(dāng)待查重文章與待比對文章的相似段落為一個時,相似段落之間的段落相似值即為待查重文章與待比對文章的文章相似值;
當(dāng)待查重文章與待比對文章的相似段落為多個時,相似段落之間的段落相似值中,最小的段落相似值即為待查重文章與待比對文章的文章相似值。
S405、將與待查重文章的文章相似值大于指定數(shù)值的待比對文章作為相似文章。
其中,指定數(shù)值是技術(shù)人員根據(jù)查重所需時間以及查重效率進(jìn)行設(shè)定的。與待查重文章的文章相似值大于指定數(shù)值,說明與待查重文章的文章相似值大于指定數(shù)值的待比對文章與待查重文章的相似度較高,即為相似文章。
本實施例中,通過計算待查重文章與每個待比對文章的文章相似值,進(jìn)而將與待查重文章的文章相似值大于指定數(shù)值的待比對文章作為相似文章。
可選的,本發(fā)明的另一實施例中提供了一種文章的查重裝置,參照圖5,包括:
第一計算單元101,用于計算待查重文章與每個待對比文章的文章相似距離,其中,每個待對比文章預(yù)先存儲在數(shù)據(jù)庫中;
第一篩選單元102,用于根據(jù)計算得到的待查重文章與每個待對比文章的文章相似距離以及數(shù)據(jù)庫中存儲的待對比文章的數(shù)量,篩選出預(yù)設(shè)數(shù)量的多個待比對文章;
第二篩選單元103,用于從多個待比對文章中,采用文本向量距離算法篩選得到相似文章。
本實施例提供了一種文章的查重裝置,計算待查重文章與每個待對比文章的文章相似距離;根據(jù)計算得到的待查重文章與每個待對比文章的文章相似距離以及數(shù)據(jù)庫中存儲的待對比文章的數(shù)量,篩選出預(yù)設(shè)數(shù)量的多個待比對文章;從多個待比對文章中,采用文本向量距離算法篩選得到相似文章。解決了現(xiàn)有技術(shù)中沒有對文章進(jìn)行查重的方法的問題。
需要說明的是,本實施例中各個單元的工作過程,請參照圖1對應(yīng)的實施例中的內(nèi)容,在此不再贅述。
可選的,本發(fā)明的另一實施例中,參照圖6,第一計算單元101包括:
第二計算單元1011,用于計算待查重文章的每個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離,
第一選取單元1012,用于從計算得到的待查重文章的每個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離中,選取數(shù)值最小的段落相似距離作為待查重文章與每個待對比文章的文章相似距離。
其中,第二計算單元1011包括:
第三計算單元10111,用于計算待查重文章的每個自然段落的相似性哈希值Simhash值以及計算每個待對比文章的每個目標(biāo)自然段落的Simhash值;
做差單元10112,用于將待查重文章的第i個自然段落的Simhash值與每個待對比文章的每個目標(biāo)自然段落的Simhash值做差,得到待查重文章的第i個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離,其中,i=1;
第二判斷單元10113,用于判斷是否計算得到待查重文章的每個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離;
控制單元10114,用于當(dāng)?shù)诙袛鄦卧?0113判斷出未計算得到待查重文章的每個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離,使i=i+1;
做差單元10112,還用于控制單元10114使i=i+1后,將待查重文章的第i個自然段落的Simhash值與每個待對比文章的每個目標(biāo)自然段落的Simhash值做差,得到待查重文章的第i個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離。
本實施例中,通過計算得到待查重文章的每個自然段落與每個待對比文章的每個目標(biāo)自然段落的段落相似距離,進(jìn)而將待查重文章與待對比文章的數(shù)值最小的段落相似距離作為待查重文章與待對比文章的文章相似距離。
需要說明的是,本實施例中各個單元的工作過程,請參照圖2對應(yīng)的實施例中的內(nèi)容,在此不再贅述。
可選的,本發(fā)明的另一實施例中,參照圖7,第一篩選單元102包括:
第一判斷單元1021,用于判斷數(shù)據(jù)庫中存儲的待對比文章的數(shù)量是否大于預(yù)設(shè)數(shù)量;
第二選取單元1022,用于當(dāng)?shù)谝慌袛鄦卧?021判斷出數(shù)據(jù)庫中存儲的待對比文章的數(shù)量不大于預(yù)設(shè)數(shù)量,將數(shù)據(jù)庫中存儲的待對比文章作為待比對文章;
排序單元1023,用于當(dāng)?shù)谝慌袛鄦卧?021判斷出數(shù)據(jù)庫中存儲的待對比文章的數(shù)量大于預(yù)設(shè)數(shù)量,根據(jù)計算得到的待查重文章與每個待對比文章的文章相似距離的數(shù)值大小,將多個待對比文章進(jìn)行排序;
第三篩選單元1024,用于篩選出排名前預(yù)設(shè)數(shù)值的多個待對比文章,作為多個待比對文章。
本實施例中,當(dāng)判斷出數(shù)據(jù)庫中存儲的待對比文章的數(shù)量不大于預(yù)設(shè)數(shù)量,將數(shù)據(jù)庫中存儲的待對比文章作為待比對文章,當(dāng)判斷出數(shù)據(jù)庫中存儲的待對比文章的數(shù)量大于預(yù)設(shè)數(shù)量,篩選出排名前預(yù)設(shè)數(shù)值的多個待對比文章,作為多個待比對文章。進(jìn)而能夠保證采用文本向量距離算法分析時,待比對文章的數(shù)量不會過多。
需要說明的是,本實施例中各個單元的工作過程,請參照圖3對應(yīng)的實施例中的內(nèi)容,在此不再贅述。
可選的,本發(fā)明的另一實施例中,參照圖8,第二篩選單元103包括:
第四計算單元1031,用于計算待查重文章的每個自然段落與每個待比對文章的每個目標(biāo)自然段落的段落相似距離;
第三選取單元1032,用于選取段落相似距離小于預(yù)設(shè)值的待查重文章中的自然段落和每個待比對文章中的目標(biāo)自然段落作為待查重文章與每個待比對文章的相似段落;
第五計算單元1033,用于計算待查重文章與每個待比對文章的每個相似段落之間的段落相似值;
第四選取單元1034,用于從計算得到的待查重文章與每個待比對文章的每個相似段落之間的段落相似值中選取最小的段落相似值,作為待查重文章與每個待比對文章的文章相似值;
第五選取單元1035,用于將與待查重文章的文章相似值大于指定數(shù)值的待比對文章作為相似文章。
本實施例中,通過計算待查重文章與每個待比對文章的文章相似值,進(jìn)而將與待查重文章的文章相似值大于指定數(shù)值的待比對文章作為相似文章。
需要說明的是,本實施例中各個單元的工作過程,請參照圖4對應(yīng)的實施例中的內(nèi)容,在此不再贅述。
對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。