亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本相似度的統(tǒng)計(jì)方法及系統(tǒng)的制作方法

文檔序號(hào):6400134閱讀:138來(lái)源:國(guó)知局
專利名稱:文本相似度的統(tǒng)計(jì)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及文本處理,特別是涉及一種文本相似度的統(tǒng)計(jì)方法,還涉及一種文本相似度的統(tǒng)計(jì)系統(tǒng)。
背景技術(shù)
現(xiàn)有技術(shù)中判斷兩個(gè)文本的相似度,一般是通過將兩個(gè)文本進(jìn)行分詞,然后按照順序判斷兩個(gè)文本中重復(fù)的字詞句串。但如果文本中字詞句的順序被故意打亂了,那么即使實(shí)質(zhì)上是相似的(例如抄襲的)文本之間,按照現(xiàn)有的相似度統(tǒng)計(jì)方式得到的相似度較低,無(wú)法反映其本身的相似程度。

發(fā)明內(nèi)容
基于此,為了解決傳統(tǒng)的文本相似度統(tǒng)計(jì)方法難以準(zhǔn)確反映被人為打亂了字詞句順序的文本之間的相似程度的問題,有必要提供一種能夠較為準(zhǔn)確反映被人為打亂了字詞句順序的文本之間的相似程度的文本相似度的統(tǒng)計(jì)方法。一種文本相似度的統(tǒng)計(jì)方法,包括:獲取需要判別相似度的第一文本和第二文本;以第一劃分尺度將所述第一文本和第二文本分別分割成若干文本片段,將第一劃分尺度下第一文本中全部的文本片段與第二文本中全部的文本片段進(jìn)行比較,計(jì)算第一劃分尺度下第一文本與第二文本中相同的文本片段數(shù)量占第一文本的文本片段總數(shù)的比例xl ;自第一文本和第二文本中刪除相同的文本片段,分別得到第一剩余文本和第二剩余文本;以第二劃分尺度將第一剩余文本和第二剩余文本分別分割成若干文本片段,將第二劃分尺度下第一剩余文本中全部的文本片段與第二文本中全部的文本片段進(jìn)行比較,計(jì)算第二劃分尺度下第一剩余文本與第二剩余文本中相同的文本片段數(shù)量占第一剩余文本的文本片段總數(shù)的比例yl ;所述第二劃分尺度比第一劃分尺度??;將xl乘以第一劃分尺度在綜合相似度中的權(quán)重,得到第一劃分尺度的相似度,一減去第一劃分尺度的相似度后再乘以yl、接著加上第一劃分尺度的相似度,以計(jì)算第一文本與第二文本的綜合相似度。在其中一個(gè)實(shí)施例中,所述以第一劃分尺度將所述第一文本和第二文本分別分割成若干文本片段的步驟,是將所述第一文本和第二文本分別分割成若干自然段;所述以第二劃分尺度將第一剩余文本和第二剩余文本分別分割成若干文本片段的步驟,是將所述第一剩余文本和第二剩余文本分別分割成若干詞語(yǔ)。在其中一個(gè)實(shí)施例中,所述以第一劃分尺度將所述第一文本和第二文本分別分割成若干文本片段的步驟,是將所述第一文本和第二文本分別分割成若干句子;所述以第二劃分尺度將第一剩余文本和第二剩余文本分別分割成若干文本片段的步驟,是將所述第一剩余文本和第二剩余文本分別分割成若干詞語(yǔ)。在其中一個(gè)實(shí)施例中,所述以第一劃分尺度將所述第一文本和第二文本分別分割成若干文本片段的步驟,是將所述第一文本和第二文本分別分割成若干自然段;所述以第二劃分尺度將第一剩余文本和第二剩余文本分別分割成若干文本片段的步驟,是將所述第一剩余文本和第二剩余文本分別分割成若干句子;所述文本相似度的統(tǒng)計(jì)方法還包括自第一剩余文本和第二剩余文本中刪除相同的句子,分別得到文本T5和文本T6,將文本T5和文本T6分別分割成若干詞語(yǔ),將文本T5中全部的詞語(yǔ)和文本T6中全部的詞語(yǔ)進(jìn)行比較,計(jì)算文本T5和文本T6中相同的詞語(yǔ)占文本T5中詞語(yǔ)總數(shù)的比例zl的步驟;所述計(jì)算第一文本與第二文本的綜合相似度的步驟,是通過如下公式進(jìn)行計(jì)算:綜合相似度Ml=xl*cl+(l-xl*cl) [yl*c2+(l-yl*c2)zl];其中cl為自然段尺度在綜合相似度中的權(quán)重,c2為句子尺度在綜合相似度中的權(quán)重。在其中一個(gè)實(shí)施例中,還包括判斷所述第一文本與第二文本的綜合相似度是否大于相似度閾值,若是,則判定所述第一文本與第二文本相似的步驟。在其中一個(gè)實(shí)施例中,還包括下列步驟:計(jì)算第一劃分尺度下第一文本與第二文本中相同的文本片段數(shù)量占第二文本的文本片段總數(shù)的比例X2 ;計(jì)算第二劃分尺度下第一剩余文本與第二剩余文本中相同的文本片段數(shù)量占第二剩余文本的文本片段總數(shù)的比例y2 ;將x2乘以第一劃分尺度在綜合相似度中的權(quán)重,得到第一劃分尺度的相似度,一減去第一劃分尺度的相似度后再乘以y2、接著加上第一劃分尺度的相似度,計(jì)算第二文本與第一文本的綜合相似度;判斷所述第一文本與第二文本的綜合相似度是否大于相似度閾值,所述第二文本與第一文本的綜合相似度是否大于所述相似度閾值,若二者有任意一個(gè)大于所述相似度閾值,則判定所述第一文本與第二文本相似。本發(fā)明還相應(yīng)提供一種文本相似度的統(tǒng)計(jì)系統(tǒng)。7、一種文本相似度的統(tǒng)計(jì)系統(tǒng),包括:讀取模塊,用于獲取需要判別相似度的第一文本和第二文本;第一分割比較模塊,用于以第一劃分尺度將所述第一文本和第二文本分別分割成若干文本片段,將第一劃分尺度下第一文本中全部的文本片段與第二文本中全部的文本片段進(jìn)行比較,計(jì)算第一劃分尺度下第一文本與第二文本中相同的文本片段數(shù)量占第一文本的文本片段總數(shù)的比例xl ;第一刪除模塊,用于自第一文本和第二文本中刪除相同的文本片段,分別得到第一剩余文本和第二剩余文本;分割比較模塊,用于以第二劃分尺度將第一剩余文本和第二剩余文本分別分割成若干文本片段,將第二劃分尺度下第一剩余文本中全部的文本片段與第二文本中全部的文本片段進(jìn)行比較,計(jì)算第二劃分尺度下第一剩余文本與第二剩余文本中相同的文本片段數(shù)量占第一剩余文本的文本片段總數(shù)的比例yl ;所述第二劃分尺度比第一劃分尺度??;綜合相似度計(jì)算模塊,用于將xl乘以第一劃分尺度在綜合相似度中的權(quán)重,得到第一劃分尺度的相似度,一減去第一劃分尺度的相似度后再乘以yl、接著加上第一劃分尺度的相似度,計(jì)算第一文本與第二文本的綜合相似度。在其中一個(gè)實(shí)施例中,還包括判斷模塊,用于判斷所述第一文本與第二文本的綜合相似度是否大于相似度閾值,若是,則判定所述第一文本與第二文本相似。上述文本相似度的統(tǒng)計(jì)方法和系統(tǒng),先后以文本的段、句、詞為尺度,對(duì)文本進(jìn)行分割-比較-刪除后來(lái)計(jì)算文本之間的綜合相似度,能夠較為準(zhǔn)確反映被人為打亂了字詞句順序的文本之間的相似程度,使得被故意打亂了詞序、句序、段序的相似文本也可以被檢測(cè)出來(lái)。


圖1是實(shí)施例一中文本相似度的統(tǒng)計(jì)方法的流程圖;圖2是實(shí)施例二中文本相似度的統(tǒng)計(jì)方法的流程圖;圖3是實(shí)施例三中文本相似度的統(tǒng)計(jì)方法的流程圖。
具體實(shí)施例方式為使本發(fā)明的目的、特征和優(yōu)點(diǎn)能夠更為明顯易懂,下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式
做詳細(xì)的說(shuō)明。實(shí)施例一:圖1是一實(shí)施例中文本相似度的統(tǒng)計(jì)方法的流程圖,包括下列步驟:S110,獲取需要判別相似度的文本Tl和文本T2。S120,將文本Tl和文本T2分別分割成若干自然段,將文本Tl中全部的自然段與文本T2中全部的自然段進(jìn)行比較,將相同自然段的數(shù)量記為k3。在本實(shí)施例中,將文本Tl的自然段數(shù)量記為kl,文本T2的自然段數(shù)量記為k2。i從I到kl,j從I到k2,比較文本Tl的第i段與文本T2的第j段是否相同,并將相同的自然段的數(shù)量記為k3。S130,自文本Tl和文本T2中刪除相同的自然段,文本Tl在刪除后得到文本T3,文本T2在刪除后得到文本T4。將步驟S120比較后得出的相同的各自然段從文本Tl和文本T2中刪除,分別得到文本T3和文本T4。刪除后得到的文本T3與文本T4之間不存在相同的自然段。S140,將文本T3和文本T4分別分割成若干句子,將文本T3中全部的句子與文本T4中全部的句子進(jìn)行比較,將相同句子的數(shù)量記為k6。在本實(shí)施例中,將文本T3的句子數(shù)量記為k4,文本T4的句子數(shù)量記為k5。i從I到k4,j從I到k5,比較文本T3的第i句與文本T4的第j句是否相同,并將相同的句子的數(shù)量記為k6。S150,自文本T3和文本T4中刪除相同的句子,文本T3在刪除后得到文本T5,文本T4在刪除后得到文本T6。將步驟S140比較后得出的相同的各句子從文本T3和文本T4中刪除,分別得到文本T5和文本T6。刪除后得到的文本T5和文本T6之間不存在相同的句子。S160,將文本T5和文本T6分別分割成若干詞語(yǔ),將文本T5中全部的詞語(yǔ)與文本T6中全部的詞語(yǔ)進(jìn)行比較,將相同詞語(yǔ)的數(shù)量記為k9。分割成詞語(yǔ)可以采用現(xiàn)有技術(shù)的算法。在本實(shí)施例中,將文本T5的句子數(shù)量記為k7,文本T6的句子數(shù)量記為k8。i從I到k7,j從I到k8,比較文本T5的第i個(gè)詞語(yǔ)與文本T6的第j個(gè)詞語(yǔ)是否相同,并將相同的詞語(yǔ)的數(shù)量記為k9。S170,計(jì)算文本Tl與文本T2的綜合相似度,計(jì)算文本T2與文本Tl的綜合相似度。文本Tl與文本T2的綜合相似度Ml通過如下公式進(jìn)行計(jì)算:Ml=k3/kl*cl+(l-k3/kl*cl)*[k6/k4*c2+(I_k6/k4*c2)*k9/k7]文本T2與文本Tl的綜合相似度M2通過如下公式進(jìn)行計(jì)算:M2=k3/k2*cl+(I_k3/k2*cl)*[k6/k5*c2+(I_k6/k5*c2)*k9/k8]其中cl為自然段尺度在綜合相似度中的權(quán)重,c2為句子尺度在綜合相似度中的權(quán)重??梢匀『线m的經(jīng)驗(yàn)值(但需保證cl>0, l-k3/kl*cl>0,I_k3/k2*cl>0,c2>0, l_k6/k4*c2>0,l-k6/k5*c2>0),來(lái)調(diào)整不同劃分尺度在綜合相似度中所占的比重。在其中一個(gè)實(shí)施例中,cl=c2=l,則文本Tl與文本T2的綜合相似度為:Ml=k3/kl+(l-k3/kl)*[k6/k4+(l-k6/k4)*k9/k7]文本T2與文本Tl的綜合相似度為: M2=k3/k2+(l-k3/k2)*[k6/k5+(I_k6/k5)*k9/k8]文本Tl與文本T2的綜合相似度不一定等于文本Τ2與文本Tl的綜合相似度。例如,文本Tl是文本Τ2的一半,則文本Tl可以完全從文本Τ2中找到,而文本Τ2只有一半能從文本Tl的找到,這種情況下,顯然文本Tl與文本Τ2的綜合相似度大于文本Τ2與文本Tl的綜合相似度。在另一個(gè)實(shí)施例中,計(jì)算Ml、M2可以采用不同的權(quán)重,SP:Ml=k3/kl*cl+(l_k3/kl*cl)*[k6/k4*c2+(I_k6/k4*c2)*k9/k7]M2=k3/k2*c3+(I_k3/k2*c3)*[k6/k5*c4+(I_k6/k5*c4)*k9/k8]其中cl、c2、c3、c4是權(quán)重,可以取合適的經(jīng)驗(yàn)值,且cl>0,c2>0,l_k3/kl*cl>0,I_k6/k4*c2>0,c3>0,c4>0,1_k3/k2*c3>0,I_k6/k5*c4>0。上述文本相似度的統(tǒng)計(jì)方法,先后以文本的段、句、詞為尺度,對(duì)文本進(jìn)行分割-比較-刪除后來(lái)計(jì)算文本之間的綜合相似度,能夠較為準(zhǔn)確反映被人為打亂了字詞句順序的文本之間的相似程度,使得被故意打亂了詞序、句序、段序的相似文本也可以被檢測(cè)出來(lái)。在本實(shí)施例中,步驟S170后還包括步驟:判斷文本Tl與文本T2的綜合相似度是否大于相似度閾值Θ,及文本T2與文本Tl的綜合相似度是否大于相似度閾值Θ,若二者有任意一個(gè)大于相似度閾值Θ,則判定文本Tl與文本T2相似。相似度閾值Θ可以是一個(gè)經(jīng)驗(yàn)值,其取值與Cl、C2有關(guān)。在其它實(shí)施例中,也可以只計(jì)算一個(gè)綜合相似度(例如文本Tl與文本T2的綜合相似度),并只判斷該綜合相似度是否大于相似度閾值Θ。比如在兩個(gè)文本中認(rèn)定文本Tl是有抄襲嫌疑的情況。在其它實(shí)施例中,將需要判別相似度的兩個(gè)文本分割成若干文本片段時(shí)采用的劃分尺度,也可以不同于實(shí)施例一,例如是直接從自然段到詞語(yǔ),或者是直接從句子到詞語(yǔ),又或者采用除了自然段、句子、詞語(yǔ)外其它的劃分尺度。以下再分別給出兩個(gè)對(duì)應(yīng)的實(shí)施例:實(shí)施例二:S210,獲取需要判別相似度的文本Tl和文本T2。S220,將文本Tl和文本T2分別分割成若干自然段,將文本Tl中全部的自然段與文本T2中全部的自然段進(jìn)行比較,將相同自然段的數(shù)量記為k3。在本實(shí)施例中,將文本Tl的自然段數(shù)量記為kl,文本T2的自然段數(shù)量記為k2。i從I到kl,j從I到k2,比較文本Tl的第i段與文本T2的第j段是否相同,并將相同的自然段數(shù)量記為k3。S230,自文本Tl和文本T2中刪除相同的自然段,文本Tl在刪除后得到文本T3,文本T2在刪除后得到文本T4。
S240,將文本T3和文本Τ4分別分割成若干詞語(yǔ),將文本Τ3中全部的詞語(yǔ)與文本Τ4中全部的詞語(yǔ)進(jìn)行比較,將相同詞語(yǔ)的數(shù)量記為k6。在本實(shí)施例中,將文本T3的詞語(yǔ)數(shù)量記為k4,文本T4的詞語(yǔ)數(shù)量記為k5。i從I到k4,j從I到k5,比較文本T3的第i個(gè)詞語(yǔ)與文本T4的第j個(gè)詞語(yǔ)是否相同,并將相同的詞語(yǔ)數(shù)量記為k6。S250,計(jì)算文本Tl與文本T2的綜合相似度,計(jì)算文本T2與文本Tl的綜合相似度。在本實(shí)施例中,文本Tl與文本T2的綜合相似度Ml通過如下公式進(jìn)行計(jì)算: Ml=k3/kl*cl+(l_k3/kl*cl)*k6/k4文本T2與文本Tl的綜合相似度M2通過如下公式進(jìn)行計(jì)算:M2=k3/k2*cl+(I_k3/k2*cl) *k6/k5其中Cl為自然段尺度在綜合相似度中的權(quán)重,可以取合適的經(jīng)驗(yàn)值,但需保證cl>0, l-k3/kl*cl>0,I_k3/k2*cl>0。在本實(shí)施例中,步驟S250后還包括步驟:判斷文本Tl與文本T2的綜合相似度是否大于相似度閾值Θ,及文本T2與文本Tl的綜合相似度是否大于相似度閾值Θ,若二者有任意一個(gè)大于相似度閾值Θ,則判定文本Tl與文本T2相似。相似度閾值Θ可以是一個(gè)經(jīng)驗(yàn)值,其取值與Cl有關(guān)。在其它實(shí)施例中,也可以只計(jì)算一個(gè)綜合相似度(例如文本Tl與文本T2的綜合相似度),并只判斷該綜合相似度是否大于相似度閾值Θ。實(shí)施例三:S310,獲取需要判別相似度的文本Tl和文本T2。S320,將文本Tl和文本T2分別分割成若干句子,將文本Tl中全部的句子與文本T2中全部的句子進(jìn)行比較,將相同句子的數(shù)量記為k3。在本實(shí)施例中,將文本Tl的句子數(shù)量記為kl,文本T2的句子數(shù)量記為k2。i從I到kl,j從I到k2,比較文本Tl的第i句與文本T2的第j句是否相同,并將相同的句子數(shù)量記為k3。S330,自文本Tl和文本T2中刪除相同的句子,文本Tl在刪除后得到文本T3,文本T2在刪除后得到文本T4。S340,將文本T3和文本T4分別分割成若干詞語(yǔ),將文本T3中全部的詞語(yǔ)與文本T4中全部的詞語(yǔ)進(jìn)行比較,將相同詞語(yǔ)的數(shù)量記為k6。在本實(shí)施例中,將文本T3的詞語(yǔ)數(shù)量記為k4,文本T4的詞語(yǔ)數(shù)量記為k5。i從I到k4,j從I到k5,比較文本T3的第i個(gè)詞語(yǔ)與文本T4的第j個(gè)詞語(yǔ)是否相同,并將相同的詞語(yǔ)數(shù)量記為k6。S350,計(jì)算文本Tl與文本T2的綜合相似度,計(jì)算文本T2與文本Tl的綜合相似度。在本實(shí)施例中,文本Tl與文本T2的綜合相似度Ml通過如下公式進(jìn)行計(jì)算:Ml=k3/kl*cl+(l-k3/kl*cl) *k6/k4文本T2與文本Tl的綜合相似度M2通過如下公式進(jìn)行計(jì)算:M2=k3/k2*cl+(I_k3/k2*cl) *k6/k5其中cl為句子尺度在綜合相似度中的權(quán)重,可以取合適的經(jīng)驗(yàn)值,但需保證cl>0, l-k3/kl*cl>0,I_k3/k2*cl>0。
在本實(shí)施例中,步驟S350后還包括步驟:判斷文本Tl與文本T2的綜合相似度是否大于相似度閾值Θ,及文本T2與文本Tl的綜合相似度是否大于相似度閾值Θ,若二者有任意一個(gè)大于相似度閾值θ,則判定文本Tl與文本T2相似。相似度閾值Θ可以是一個(gè)經(jīng)驗(yàn)值,其取值與Cl有關(guān)。在其它實(shí)施例中,也可以只計(jì)算一個(gè)綜合相似度(例如文本Tl與文本T2的綜合相似度),并只判斷該綜合相似度是否大于相似度閾值Θ。以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種文本相似度的統(tǒng)計(jì)方法,包括: 獲取需要判別相似度的第一文本和第二文本; 以第一劃分尺度將所述第一文本和第二文本分別分割成若干文本片段,將第一劃分尺度下第一文本中全部的文本片段與第二文本中全部的文本片段進(jìn)行比較,計(jì)算第一劃分尺度下第一文本與第二文本中相同的文本片段數(shù)量占第一文本的文本片段總數(shù)的比例Xl ; 自第一文本和第二文本中刪除相同的文本片段,分別得到第一剩余文本和第二剩余文本; 以第二劃分尺度將第一剩余文本和第二剩余文本分別分割成若干文本片段,將第二劃分尺度下第一剩余文本中全部的文本片段與第二文本中全部的文本片段進(jìn)行比較,計(jì)算第二劃分尺度下第一剩余文本與第二剩余文本中相同的文本片段數(shù)量占第一剩余文本的文本片段總數(shù)的比例yl ;所述第二劃分尺度比第一劃分尺度??; 將xl乘以第一劃分尺度在綜合相似度中的權(quán)重,得到第一劃分尺度的相似度,一減去第一劃分尺度的相似度后再乘以yl、接著加上第一劃分尺度的相似度,以計(jì)算第一文本與第二文本的綜合相似度。
2.根據(jù)權(quán)利要求1所述的文本相似度的統(tǒng)計(jì)方法,其特征在于,所述以第一劃分尺度將所述第一文本和第二文本分別分割成若干文本片段的步驟,是將所述第一文本和第二文本分別分割成若干自然段;所述以第二劃分尺度將第一剩余文本和第二剩余文本分別分割成若干文本片段的步驟,是將所述第一剩余文本和第二剩余文本分別分割成若干詞語(yǔ)。
3.根據(jù)權(quán)利要求1所述的文本 相似度的統(tǒng)計(jì)方法,其特征在于,所述以第一劃分尺度將所述第一文本和第二文本分別分割成若干文本片段的步驟,是將所述第一文本和第二文本分別分割成若干句子;所述以第二劃分尺度將第一剩余文本和第二剩余文本分別分割成若干文本片段的步驟,是將所述第一剩余文本和第二剩余文本分別分割成若干詞語(yǔ)。
4.根據(jù)權(quán)利要求1所述的文本相似度的統(tǒng)計(jì)方法,其特征在于,所述以第一劃分尺度將所述第一文本和第二文本分別分割成若干文本片段的步驟,是將所述第一文本和第二文本分別分割成若干自然段;所述以第二劃分尺度將第一剩余文本和第二剩余文本分別分割成若干文本片段的步驟,是將所述第一剩余文本和第二剩余文本分別分割成若干句子; 所述文本相似度的統(tǒng)計(jì)方法還包括自第一剩余文本和第二剩余文本中刪除相同的句子,分別得到文本T5和文本T6,將文本T5和文本T6分別分割成若干詞語(yǔ),將文本T5中全部的詞語(yǔ)和文本T6中全部的詞語(yǔ)進(jìn)行比較,計(jì)算文本T5和文本T6中相同的詞語(yǔ)占文本T5中詞語(yǔ)總數(shù)的比例zl的步驟; 所述計(jì)算第一文本與第二文本的綜合相似度的步驟,是通過如下公式進(jìn)行計(jì)算:綜合相似度Ml=xl*cl+ (l-xl*cl) [yl*c2+(l-yl*c2)zl];其中cl為自然段尺度在綜合相似度中的權(quán)重,c2為句子尺度在綜合相似度中的權(quán)重。
5.根據(jù)權(quán)利要求1-4中任意一項(xiàng)所述的文本相似度的統(tǒng)計(jì)方法,其特征在于,還包括判斷所述第一文本與第二文本的綜合相似度是否大于相似度閾值,若是,則判定所述第一文本與第二文本相似的步驟。
6.根據(jù)權(quán)利要求1-3中任意一項(xiàng)所述的文本相似度的統(tǒng)計(jì)方法,其特征在于,還包括下列步驟: 計(jì)算第一劃分尺度下第一文本與第二文本中相同的文本片段數(shù)量占第二文本的文本片段總數(shù)的比例x2; 計(jì)算第二劃分尺度下第一剩余文本與第二剩余文本中相同的文本片段數(shù)量占第二剩余文本的文本片段總數(shù)的比例12 ; 將x2乘以第一劃分尺度在綜合相似度中的權(quán)重,得到第一劃分尺度的相似度,一減去第一劃分尺度的相似度后再乘以y2、接著加上第一劃分尺度的相似度,計(jì)算第二文本與第一文本的綜合相似度; 判斷所述第一文本與第二文本的綜合相似度是否大于相似度閾值,所述第二文本與第一文本的綜合相似度是否 大于所述相似度閾值,若二者有任意一個(gè)大于所述相似度閾值,則判定所述第一文本與第二文本相似。
7.一種文本相似度的統(tǒng)計(jì)系統(tǒng),其特征在于,包括: 讀取模塊,用于獲取需要判別相似度的第一文本和第二文本; 第一分割比較模塊,用于以第一劃分尺度將所述第一文本和第二文本分別分割成若干文本片段,將第一劃分尺度下第一文本中全部的文本片段與第二文本中全部的文本片段進(jìn)行比較,計(jì)算第一劃分尺度下第一文本與第二文本中相同的文本片段數(shù)量占第一文本的文本片段總數(shù)的比例xl ; 第一刪除模塊,用于自第一文本和第二文本中刪除相同的文本片段,分別得到第一剩余文本和第二剩余文本; 分割比較模塊,用于以第二劃分尺度將第一剩余文本和第二剩余文本分別分割成若干文本片段,將第二劃分尺度下第一剩余文本中全部的文本片段與第二文本中全部的文本片段進(jìn)行比較,計(jì)算第二劃分尺度下第一剩余文本與第二剩余文本中相同的文本片段數(shù)量占第一剩余文本的文本片段總數(shù)的比例yl ;所述第二劃分尺度比第一劃分尺度??; 綜合相似度計(jì)算模塊,用于將xl乘以第一劃分尺度在綜合相似度中的權(quán)重,得到第一劃分尺度的相似度,一減去第一劃分尺度的相似度后再乘以yl、接著加上第一劃分尺度的相似度,計(jì)算第一文本與第二文本的綜合相似度。
8.根據(jù)權(quán)利要求7中所述的文本相似度的統(tǒng)計(jì)系統(tǒng),其特征在于,還包括判斷模塊,用于判斷所述第一文本與第二文本的綜合相似度是否大于相似度閾值,若是,則判定所述第一文本與第二文本相似。
全文摘要
本發(fā)明公開了一種文本相似度的統(tǒng)計(jì)方法,包括獲取需要判別相似度的第一和第二文本;以第一劃分尺度將第一和第二文本分別分割成若干文本片段,計(jì)算第一劃分尺度下第一與第二文本中相同的文本片段數(shù)量占第一文本的文本片段總數(shù)的比例;自第一和第二文本中刪除相同的文本片段,分別得到第一剩余文本和第二剩余文本;以第二劃分尺度將第一和第二剩余文本分別分割成若干文本片段,計(jì)算第二劃分尺度下第一與第二剩余文本中相同的文本片段數(shù)量占第一剩余文本的文本片段總數(shù)的比例;計(jì)算第一文本與第二文本的綜合相似度。本發(fā)明能夠較為準(zhǔn)確反映被人為打亂了字詞句順序的文本之間的相似程度,將被故意打亂了詞序、句序、段序的相似文本檢測(cè)出來(lái)。
文檔編號(hào)G06F17/27GK103176962SQ201310074669
公開日2013年6月26日 申請(qǐng)日期2013年3月8日 優(yōu)先權(quán)日2013年3月8日
發(fā)明者朱定局 申請(qǐng)人:深圳先進(jìn)技術(shù)研究院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1