專利名稱:文檔相似性評(píng)價(jià)系統(tǒng)、文檔相似性評(píng)價(jià)方法以及計(jì)算機(jī)程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及評(píng)價(jià)文檔之間相似性的信息處理技術(shù)領(lǐng)域。
背景技術(shù):
評(píng)價(jià)不同文檔之間相似性的方法廣泛用于評(píng)價(jià)科學(xué)論文之間的相似性或者檢測(cè)公司文檔之間的相似性。專利文檔I至3公開了文檔相似性確定系統(tǒng)。在專利文檔I至2中公開的文檔相似性確定系統(tǒng)中,首先針對(duì)每一頁分離整個(gè)文檔,或者在出現(xiàn)特定字符串的每個(gè)位置處分割整個(gè)文檔(在下文中,一個(gè)分離出(或分割出)的單元被稱作“片段”),并且針對(duì)每個(gè)片段計(jì)算特性值。按照文檔中從第一個(gè)片段到最后一個(gè)片段的順序,通過比較片段的特性值,基于特性值彼此相同的片段的個(gè)數(shù)來確定不同文檔之間的相似性。作為確定的結(jié)果,當(dāng)特性值彼此相同的片段的個(gè)數(shù)較多時(shí),文檔之間的相似性較高,相反,當(dāng)特性值彼此相同的片段的個(gè)數(shù)較少時(shí),文檔之間的相似性較低。在專利文檔3中公開的文檔相似性確定系統(tǒng)中,從句子中分離文檔中存在的圖和等式,針對(duì)分離出的圖和等式的布置來定義密集程度,并且將密集程度用作確定相似性的指數(shù)。[專利文檔]
[專利文檔I]日本專利申請(qǐng)?zhí)亻_N0.2008-257444[專利文檔2]日本專利申請(qǐng)?zhí)亻_N0.2010-256951[專利文檔3]國(guó)際公開 N0.WO 2009/048149[本發(fā)明的簡(jiǎn)要概述][本發(fā)明要解決的問題]上述專利文檔中描述的文檔相似性確定系統(tǒng)可以評(píng)價(jià)整個(gè)文檔之間的相似性。然而,這些文檔相似性確定系統(tǒng)不能評(píng)價(jià)具有高相似性的部分是集中在特定段落中還是分散在整個(gè)文檔中。
發(fā)明內(nèi)容
考慮到上述問題提出本發(fā)明。本發(fā)明的主要目的是提供一種針對(duì)至少兩類文檔之間的相似性確定具有高相似性的部分的文檔相似性評(píng)價(jià)系統(tǒng)或類似系統(tǒng)。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的文檔相似性評(píng)價(jià)系統(tǒng)的特征在于具有以下配置。S卩,根據(jù)本發(fā)明的文檔相似性評(píng)價(jià)系統(tǒng)的特征在于包括:片段搜索單元,所述片段搜索單元在第一片段串和第二片段串二者中尋找公共片段,對(duì)找到的所述公共片段的個(gè)數(shù)進(jìn)行計(jì)數(shù),并且識(shí)別出現(xiàn)所述公共片段的出現(xiàn)范圍;以及相似性指數(shù)計(jì)算單元,所述相似性指數(shù)計(jì)算單元:計(jì)算第一和,所述第一和是所述片段搜索單元識(shí)別出的所述出現(xiàn)范圍中包括的每個(gè)片段的字符個(gè)數(shù)和;計(jì)算第二和,所述第二和是被識(shí)別為所述公共片段的每個(gè)片段的字符個(gè)數(shù)和;以及使用以下等式計(jì)算對(duì)所述第一片段串與所述第二片段串之間的相似性加以指示的相似性指數(shù):相似性指數(shù)=F(NTC) /G (NCC) XNS,(其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的個(gè)數(shù),并且函數(shù)F和函數(shù)G是將特定整數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù)。)作為本發(fā)明的另一方面,根據(jù)本發(fā)明的文檔相似性評(píng)價(jià)方法的特征在于包括:在第一片段串和第二片段串二者中尋找公共片段;對(duì)找到的所述公共片段的個(gè)數(shù)進(jìn)行計(jì)數(shù);識(shí)別出現(xiàn)所述公共片段的出現(xiàn)范圍;計(jì)算第一和,所述第一和是所述出現(xiàn)范圍中包括的每個(gè)片段的字符個(gè)數(shù)和;計(jì)算第二和,所述第二和是被識(shí)別為所述公共片段的每個(gè)片段的字符個(gè)數(shù)和;并且使用以下等式計(jì)算對(duì)所述第一片段串與所述第二片段串之間的相似性加以指示的相似性指數(shù):相似性指數(shù)=F(NTC) /G (NCC) XNS,(其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的個(gè)數(shù),并且函數(shù)F和函數(shù)G是將特定整數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù)。)此外,該目的還可以通過使用計(jì)算機(jī)程序以及存儲(chǔ)了所述計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)來實(shí)現(xiàn),所述計(jì)算機(jī)程序使計(jì)算機(jī)實(shí)現(xiàn)具有上述配置的文檔相似性評(píng)價(jià)系統(tǒng)和對(duì)應(yīng)方法。通過使用本發(fā)明,可以針對(duì)至少兩類文檔之間的相似性來確定具有高相似性的部分。
結(jié)合附圖,通過以下詳細(xì)描述,本發(fā)明的示例性特征和優(yōu)點(diǎn)將變得顯而易見,在附圖中:圖1是示出了根據(jù)本發(fā)明第一示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)的配置的框圖,圖2是示出了根據(jù)本發(fā)明第一示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)中執(zhí)行的處理步驟的流程圖,圖3是示意性示出了可以實(shí)現(xiàn)根據(jù)示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)的計(jì)算機(jī)處理裝置的硬件配置的圖,圖4是示出了用于說明根據(jù)本發(fā)明第一示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)中執(zhí)行的處理步驟的示例的圖,以及圖5是示出了字符個(gè)數(shù)表的示例的圖,在字符個(gè)數(shù)表中,片段與片段中包括的字符個(gè)數(shù)相關(guān)聯(lián)。
具體實(shí)施例方式接著,參照附圖詳細(xì)描述本發(fā)明的示例性實(shí)施例。在以下說明中,片段是例如通過針對(duì)每一頁分離整個(gè)文檔或者在出現(xiàn)特定字符串的每個(gè)位置處分割整個(gè)文檔或者通過以特定長(zhǎng)度分割整個(gè)文檔而獲得的一個(gè)分離出或分割出的單元。特性值是通過將諸如散列值、CRC(循環(huán)冗余校驗(yàn))值、和校驗(yàn)值等特定字符串轉(zhuǎn)換成數(shù)字值而獲得的值。已知并廣泛使用用于將文檔分離成片段的方法以及用于計(jì)算特性值的各種方法。因此,在本示例性實(shí)施例中省略了對(duì)這些方法的說明。將文檔分離成片段的方法和用于計(jì)算特性值的方法不限于本示例性實(shí)施例中作為示例描述的方法。<第一示例性實(shí)施例>圖1是示出了根據(jù)本發(fā)明第一示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)的配置的框圖。參照?qǐng)D1,根據(jù)示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)101包括片段搜索單元102和相似性指數(shù)計(jì)算單元103。以下描述計(jì)算文檔A與文檔B之間的相似性的情況。片段搜索單元102接收串
1(在下文中,被稱作“片段串I”)和串2(在下文中,被稱作“片段串2”)作為輸入,串I表示與文檔A有關(guān)的片段的特性值序列,串2表示與文檔B有關(guān)的片段的特性值序列。片段搜索單元102按照作為評(píng)價(jià)目標(biāo)的文檔中從第一個(gè)片段到最后一個(gè)片段或者從最后一個(gè)片段到第一片段的順序,通過執(zhí)行片段串I與片段串2之間的比較來在片段串I和片段串
2二者中尋找公共片段。接著,片段搜索單元102對(duì)找到的公共片段的個(gè)數(shù)進(jìn)行計(jì)數(shù)(下文中,描述為NS),并且識(shí)別片段串2中公共片段的第一個(gè)位置和公共片段的最后一個(gè)位置(下文中,包括了在第一個(gè)位置與最后一個(gè)位置之間存在的所有片段在內(nèi)的范圍被稱作“出現(xiàn)范圍”)。接著,相似性指數(shù)計(jì)算單元103接收作為輸入接收到的片段串2、上述出現(xiàn)范圍以及輸入的字符個(gè)數(shù)表(字符個(gè)數(shù)信息)。在作為字符個(gè)數(shù)信息的字符個(gè)數(shù)表中,將存在于片段串I或片段串2中的片段與在相應(yīng)片段中存在的字符的個(gè)數(shù)相關(guān)聯(lián),并且至少存儲(chǔ)這些信息(圖5)。例如,在圖5中示出的字符個(gè)數(shù)表中,由于句子Al包括12個(gè)字符,因此“Al”與“12”相關(guān)聯(lián),并且存儲(chǔ)該信息。相似性指數(shù)計(jì)算單元103針對(duì)片段搜索單元102識(shí)別出的出現(xiàn)范圍中包括的每個(gè)片段,從輸入的字符個(gè)數(shù)表中讀取與片段相關(guān)聯(lián)的字符個(gè)數(shù),并且計(jì)算字符個(gè)數(shù)和(下文中,描述為“NCC”)。此外,相似性指數(shù)計(jì)算單元103針對(duì)作為識(shí)別為公共片段的每個(gè)片段,從輸入的字符個(gè)數(shù)表中讀取與片段相關(guān)聯(lián)的字符個(gè)數(shù),并且計(jì)算字符個(gè)數(shù)和(下文中,描述為“NTC”)。接著,相似性指數(shù)計(jì)算單元103使用以下等式計(jì)算相似性指數(shù)。相似性指數(shù)=F(NTC) /G (NCC) X NS (等式 I)這里,函數(shù)F和函數(shù)G是將特定整數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù)。在說明上述文檔相似性評(píng)價(jià)系統(tǒng)的配置時(shí),根據(jù)示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)針對(duì)片段串2識(shí)別出現(xiàn)范圍。但是,根據(jù)該示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)可以針對(duì)片段串I識(shí)別出現(xiàn)范圍。圖2是示出了根據(jù)本發(fā)明第一示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)中執(zhí)行的處理步驟的流程圖。接著,參照?qǐng)D1和圖2描述根據(jù)示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)的操作。片段搜索單元102接收表示文檔A的片段串I和表示文檔B的片段串2作為輸入。片段搜索單元102按照片段串中從第一個(gè)片段到最后一個(gè)片段的順序,在片段串I和片段串2 二者中尋找公共片段(步驟S201)。接著,片段搜索單元102對(duì)在步驟S201中找到的公共片段的個(gè)數(shù)進(jìn)行計(jì)數(shù)(步驟S202),并且識(shí)別片段串2中的出現(xiàn)范圍(步驟S203)。接著,相似性指數(shù)計(jì)算單元103接收輸入的片段串2、上述出現(xiàn)范圍、和輸入的字符個(gè)數(shù)表。相似性指數(shù)計(jì)算單元103針對(duì)片段搜索單元102識(shí)別出的出現(xiàn)范圍中包括的每個(gè)片段,從輸入的字符個(gè)數(shù)表中讀取與片段相關(guān)聯(lián)的字符個(gè)數(shù),并且計(jì)算作為字符個(gè)數(shù)和的NCC。接著,相似性指數(shù)計(jì)算單元103針對(duì)識(shí)別為公共片段的每個(gè)片段,從輸入的字符個(gè)數(shù)表中讀取與片段相關(guān)聯(lián)的字符個(gè)數(shù),并且計(jì)算作為字符個(gè)數(shù)和的NTC (步驟S204)。接著,相似性指數(shù)計(jì)算單元103使用等式I計(jì)算相似性指數(shù)(步驟S205)。在上述對(duì)處理步驟的說明中,根據(jù)示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)針對(duì)片段串2識(shí)別出現(xiàn)范圍。然而,根據(jù)該示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)可以針對(duì)片段串I識(shí)別出現(xiàn)范圍。專利文檔I中公開的文檔相似性確定系統(tǒng)采用NS作為相似性指數(shù)。另一方面,根據(jù)示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)采用通過用NS乘以函數(shù)F(NTC)與函數(shù)G(NCC)的比值而獲得的值。這里,函數(shù)F和函數(shù)G都是將特定整數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù)。因此,當(dāng)公共片段密集出現(xiàn)時(shí),F(xiàn)(NTC)/G(NCC)的值較大,相反,當(dāng)公共片段分散時(shí),F(xiàn)(NTC)/G(NCC)的值較小。甚至在通過專利文檔I中公開的文檔相似性確定系統(tǒng)計(jì)算出相同值的相似性指數(shù)的情況下,如果使用根據(jù)示例性實(shí)施例的文檔相似性確定系統(tǒng),也會(huì)存在根據(jù)公共片段的集中程度和分散程度而計(jì)算出不同值的相似性指數(shù)的高概率。圖4是示出了用于說明根據(jù)本發(fā)明第一示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)中執(zhí)行的處理步驟的示例的圖。接著,參照?qǐng)D1、圖2和圖4描述根據(jù)示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)的操作。如圖4所示,文檔A、文檔BI和文檔B2由表示片段的句子組成,例如,句子Al、句子A2、句子A3、句子B21、和句子B22。在下文中,通過省略詞語“句子”將句子Al、句子A2等描述為“A1”、“A2”等。即,文檔A由包括Α1、Α2和A3的片段串組成。文檔BI由包括Al和Α2的片段串組成,文檔Β2由包括Α1、Β21、Α2、Β22和A3的片段串組成。這里,為了便于說明,假定所有片段Al、Α2、A3、Β21和Β22包括相同個(gè)數(shù)字符,并且字符個(gè)數(shù)為N。相似性指數(shù)計(jì)算單元103的函數(shù)F和函數(shù)G輸出輸入值而不改變?cè)撦斎胫?。下面描述在輸入表示文檔A和文檔BI的片段串的情況下的操作。片段搜索單元102在表示文檔A的片段串和表示文檔BI的片段串二者中尋找公共片段(步驟S201),并且發(fā)現(xiàn)片段Al和Α2是這兩個(gè)文檔中的公共片段。接著,片段搜索單元102對(duì)公共片段的個(gè)數(shù)進(jìn)行計(jì)數(shù)(步驟S202),并且發(fā)現(xiàn)公共片段的個(gè)數(shù)為2。接著,片段搜索單元102識(shí)別表示文檔BI的片段串中的出現(xiàn)范圍(步驟S203),并且識(shí)別出所述出現(xiàn)范圍包括片段Al和Α2。相似性指數(shù)計(jì)算單元103針對(duì)片段搜索單元102所識(shí)別的出現(xiàn)范圍中包括的每個(gè)片段,從輸入的字符個(gè)數(shù)表中讀取與片段相關(guān)聯(lián)的字符個(gè)數(shù), 并且計(jì)算出現(xiàn)范圍中包括的每個(gè)片段的字符個(gè)數(shù)和。在這種情況下,NCC是2XN。接著,相似性指數(shù)計(jì)算單元103針對(duì)識(shí)別為公共片段的每個(gè)片段從輸入的字符個(gè)數(shù)表中讀取與片段相關(guān)聯(lián)的字符個(gè)數(shù),并且計(jì)算作為字符個(gè)數(shù)和的NTC(步驟S204)。在這種情況下,NTC是2XN。相似性指數(shù)計(jì)算單元103使用上述等式I計(jì)算指數(shù),并且獲得2( = 2N/2NX2)作為指數(shù)。接著,對(duì)輸入表示文檔A的片段串和表示文檔B2的片段串的情況下的操作進(jìn)行描述。片段搜索單元102在表示文檔A的片段串和表示文檔B2的片段串二者中尋找公共片段(步驟S201),并且發(fā)現(xiàn)片段Al、A2和A3是這兩個(gè)文檔中的公共片段。接著,片段搜索單元102對(duì)公共片段的個(gè)數(shù)進(jìn)行計(jì)數(shù)(步驟S202),并發(fā)現(xiàn)公共片段個(gè)數(shù)是3。接著,片段搜索單元102識(shí)別表示文檔B2的片段串中的出現(xiàn)范圍(步驟S203),并且識(shí)別出所述出現(xiàn)范圍包括片段A1、B21、A2、B22和A3。相似性指數(shù)計(jì)算單元103針對(duì)片段搜索單元102所識(shí)別的出現(xiàn)范圍中包括的每個(gè)片段,從輸入的字符個(gè)數(shù)表中讀取與片段相關(guān)聯(lián)的字符個(gè)數(shù),并且計(jì)算出現(xiàn)范圍中包括的每個(gè)片段的字符個(gè)數(shù)和。在這種情況下,NCC是5XN。接著,相似性指數(shù)計(jì)算單元103針對(duì)作為公共片段識(shí)別的每個(gè)片段,從輸入的字符個(gè)數(shù)表中讀取與片段相關(guān)聯(lián)的字符個(gè)數(shù),并且計(jì)算作為字符個(gè)數(shù)和的NTC(步驟S204)。在這種情況下,NTC是3XN。相似性指數(shù)計(jì)算單元103使用上述等式I計(jì)算指數(shù),并且獲得1.8( = 3N/5NX3)作為指數(shù)。根據(jù)示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)針對(duì)文檔A和文檔BI所計(jì)算的相似性指數(shù)是2,針對(duì)文檔A和文檔B2所計(jì)算的相似性指數(shù)是108。相應(yīng)地,根據(jù)示例性實(shí)施例的系統(tǒng)通過比較兩個(gè)計(jì)算的相似性指數(shù)確定文檔BI與文檔A相似。然而,當(dāng)使用專利文檔I中公開的文檔相似性確定系統(tǒng)時(shí),針對(duì)文檔A和文檔BI獲得相似性指數(shù)2,針對(duì)文檔A和文檔B2獲得相似性指數(shù)3。相應(yīng)地,專利文檔I中公開的文檔相似性確定系統(tǒng)基于計(jì)算的相似性指數(shù)來確定文檔B2與文檔A相似。在圖4中,清楚的是,與文檔BI相比,公共片段分散在文檔B2中。因此,根據(jù)本發(fā)明的系統(tǒng)所計(jì)算的值小于專利文檔I公開 的文檔相似性確定系統(tǒng)所計(jì)算的值。因此。根據(jù)本示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)可以提供這樣的指數(shù):通過該指數(shù),可以在評(píng)價(jià)中涉及文檔中具有高相似性的部分的集中和分散程度。在上述說明中,為了簡(jiǎn)化說明,假定所有片段Al、A2、A3、B21和B22包括相同個(gè)數(shù)的字符。然而,即使當(dāng)使用每個(gè)片段中包括的字符個(gè)數(shù)彼此不同的系統(tǒng)配置(處理配置)時(shí),也可以保持本示例性所獲得的效果。類似地,在上述說明中,假定相似性指數(shù)計(jì)算單元103的函數(shù)F和函數(shù)G輸出輸入值而不改變所述輸入值。然而,只要函數(shù)F和函數(shù)G是將特定整數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù),順序關(guān)系就不可逆。因此保持了本示例性實(shí)施例所獲得的效果。S卩,通過本示例性實(shí)施例,可以提供可以評(píng)價(jià)至少兩類文檔中具有高相似性的部分的集中和分散程度的文檔相似性評(píng)價(jià)系統(tǒng)。<第二示例性實(shí)施例>接著,描述基于上述第一示例性實(shí)施例的第二示例性實(shí)施例。在以下描述中,說明集中于本示例性實(shí)施例的特性部分,并且省略了對(duì)與上述第一示例性實(shí)施例的配置相同的配置的說明。參照?qǐng)D1描述根據(jù)第二示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)。在片段搜索單元102計(jì)算NCC和NTC之后,相似性指數(shù)計(jì)算單元103使用以下等式2針對(duì)輸入的片段串I和2計(jì)算相似性指數(shù)。相似性指數(shù)=H(NTC/NCC)XNS (等式 2)這里,函數(shù)H是將特定實(shí)數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù)。根據(jù)示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)采用通過將NS乘以H(NTC/NCC)而獲得的相似性指數(shù)。函數(shù)H是將特定實(shí)數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù)。因此,當(dāng)公共片段集中時(shí),H(NTC/NCC)的值較大,相反,當(dāng)公共片段分散時(shí),H(NTC/NCC)的值較小。因此,甚至在通過專利文檔I中公開的文檔相似性確定系統(tǒng)計(jì)算出相同值的相似性指數(shù)的情況下,如果使用根據(jù)示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng),也會(huì)存在根據(jù)公共片段的集中和分散程度計(jì)算出不同值的相似性指數(shù)的高概率。即,通過該示例性實(shí)施例,提供了可以評(píng)價(jià)至少兩類文檔中具有高相似性的部分的集中和分散程度的文檔相似性評(píng)價(jià)系統(tǒng)。<第三示例性實(shí)施例>接著,描述基于上述第一示例性實(shí)施例的第三示例性實(shí)施例。在以下描述中,說明集中于本示例性實(shí)施例的特性部分,并且省略了對(duì)與上述第一示例性實(shí)施例的配置相同的配置的說明。參照?qǐng)D1描述根據(jù)第三示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)。在片段搜索單元102計(jì)算NCC和NTC之后,相似性指數(shù)計(jì)算單元103使用以下等式3針對(duì)輸入的片段串I和2計(jì)算相似性指數(shù)。相似性指 數(shù)=NTC/NCCXNS(等式3)根據(jù)示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)采用通過將NS乘以NTC與NCC的比值而獲得的相似性指數(shù)。當(dāng)公共片段集中時(shí),NTC/NCC的值較大,相反,當(dāng)公共片段分散時(shí),NTC/NCC的值較小。因此,甚至在通過專利文檔I中公開的文檔相似性確定系統(tǒng)計(jì)算出相同值的相似性指數(shù)的情況下,如果使用根據(jù)示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng),則存在根據(jù)公共片段的集中和分散程度計(jì)算出不同值的相似性指數(shù)的高概率。S卩,通過該示例性實(shí)施例,提供了可以評(píng)價(jià)至少兩類文檔中具有高相似性的部分的集中和分散程度的文檔相似性評(píng)價(jià)系統(tǒng)。(硬件配置的示例)接著,描述硬件資源配置的示例,其中,使用一個(gè)計(jì)算機(jī)處理裝置(信息處理設(shè)備或計(jì)算機(jī))來實(shí)現(xiàn)在上述每個(gè)示例性實(shí)施例中描述的文檔相似性評(píng)價(jià)系統(tǒng)。然而,可以在物理上或功能上使用至少兩個(gè)計(jì)算機(jī)處理裝置來實(shí)現(xiàn)文檔相似性評(píng)價(jià)系統(tǒng)。此外,可以將文檔相似性評(píng)價(jià)系統(tǒng)實(shí)現(xiàn)為專用設(shè)備。圖3是示意性示出了計(jì)算機(jī)處理設(shè)備的配置的圖,通過該計(jì)算機(jī)處理設(shè)備可以實(shí)現(xiàn)根據(jù)本發(fā)明第一至第三示例性實(shí)施例的文檔相似性評(píng)價(jià)系統(tǒng)。計(jì)算機(jī)處理裝置306包括CPU(中央處理單元)301、存儲(chǔ)器302、磁盤303、輸出設(shè)備304和輸入設(shè)備305。即,CPU 301在執(zhí)行程序時(shí)將磁盤303中存儲(chǔ)的軟件程序(計(jì)算機(jī)程序:下文中,簡(jiǎn)單稱作程序)拷貝到存儲(chǔ)器302中,并且執(zhí)行算術(shù)處理。CPU 301從存儲(chǔ)器302中讀取執(zhí)行程序所需的數(shù)據(jù)。當(dāng)需要顯示時(shí),CPU 301顯示輸出設(shè)備304中的輸出結(jié)果。當(dāng)從外部輸入程序時(shí),CPU301從輸入設(shè)備305中讀取程序。CPU 301對(duì)存儲(chǔ)器302中的文檔相似性評(píng)價(jià)系統(tǒng)進(jìn)行解譯,并且執(zhí)行程序。CPU 301根據(jù)流程圖(圖2)以及在上述每個(gè)示例性實(shí)施例中引述的等式順序地執(zhí)行處理。在這樣的情況下,考慮到本發(fā)明包括計(jì)算機(jī)程序編譯的代碼或存儲(chǔ)該代碼的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。提供在前的實(shí)施例描述來使得本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)和使用本發(fā)明。此外,對(duì)這些示例性實(shí)施例的各種修改對(duì)于本領(lǐng)域技術(shù)人員是顯而易見的,并且可以將本文定義的一般原理和特定示例應(yīng)用于其他實(shí)施例,而無需使用創(chuàng)造性能力。因此,本發(fā)明不應(yīng)限制于本文描述的示例性實(shí)施例,而是應(yīng)當(dāng)符合權(quán)利要求和等同物的限制所限定的最寬范圍。此外,應(yīng)當(dāng)注意本發(fā)明人的意圖在于即使在審查期間修改權(quán)利要求的情況下也能夠保持要求保護(hù)的本發(fā)明的所有等同物。
權(quán)利要求
1.一種文檔相似性評(píng)價(jià)系統(tǒng),包括: 片段搜索單元,所述片段搜索單元在第一片段串和第二片段串二者中尋找公共片段,對(duì)找到的所述公共片段的個(gè)數(shù)進(jìn)行計(jì)數(shù),并且識(shí)別出現(xiàn)所述公共片段的出現(xiàn)范圍;以及相似性指數(shù)計(jì)算單元,所述相似性指數(shù)計(jì)算單元:計(jì)算第一和,所述第一和是所述片段搜索單元識(shí)別出的所述出現(xiàn)范圍中包括的每個(gè)片段的字符個(gè)數(shù)和;計(jì)算第二和,所述第二和是被識(shí)別為所述公共片段的每個(gè)片段的字符個(gè)數(shù)和;以及使用以下等式計(jì)算對(duì)所述第一片段串與所述第二片段串之間的相似性加以指示的相似性指數(shù): 相似性指數(shù)=F(NTC) /G(NCC) XNS, 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的個(gè)數(shù),并且函數(shù)F和函數(shù)G是將特定整數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù)。
2.根據(jù)權(quán)利要求1所述的文檔相似性評(píng)價(jià)系統(tǒng),其中,所述相似性指數(shù)計(jì)算單元基于字符個(gè)數(shù)信息來計(jì)算所述第一和以及所述第二和,在所述字符個(gè)數(shù)信息中,所述出現(xiàn)范圍中包括的每個(gè)片段與所述每個(gè)片段中包括的字符個(gè)數(shù)相關(guān)聯(lián)。
3.根據(jù)權(quán)利要求1所述的文檔相似性評(píng)價(jià)系統(tǒng),其中,所述相似性指數(shù)計(jì)算單元使用以下等式計(jì)算對(duì)所述第一片段串與所述第二片段串之間的相似性加以指示的所述相似性指數(shù): 相似性指數(shù)=H(NTC/NCC) XNS, 其中,在上述等式中,NTC是所述 第一和,NCC是所述第二和,NS是所述公共片段的個(gè)數(shù),并且函數(shù)H是將特定整數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù)。
4.根據(jù)權(quán)利要求1所述的文檔相似性評(píng)價(jià)系統(tǒng),其中,所述相似性指數(shù)計(jì)算單元使用以下等式計(jì)算對(duì)所述第一片段串與所述第二片段串之間的相似性加以指示的所述相似性指數(shù): 相似性指數(shù)=NTC/NCCXNS, 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,并且NS是所述公共片段的個(gè)數(shù)。
5.一種文檔相似性評(píng)價(jià)方法,所述文檔相似性評(píng)價(jià)方法計(jì)算對(duì)第一片段串與第二片段串之間的相似性加以指示的相似性指數(shù),該方法包括: 在所述第一片段串和所述第二片段串二者中尋找公共片段; 對(duì)找到的所述公共片段的個(gè)數(shù)進(jìn)行計(jì)數(shù); 識(shí)別出現(xiàn)所述公共片段的出現(xiàn)范圍; 計(jì)算第一和,所述第一和是所述出現(xiàn)范圍中包括的每個(gè)片段的字符個(gè)數(shù)和; 計(jì)算第二和,所述第二和是被識(shí)別為所述公共片段的每個(gè)片段的字符個(gè)數(shù)和;并且 使用以下等式計(jì)算所述相似性指數(shù): 相似性指數(shù)=F(NTC) /G(NCC) XNS, 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的個(gè)數(shù),并且函數(shù)F和函數(shù)G是將特定整數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù)。
6.根據(jù)權(quán)利要求5所述的文檔相似性評(píng)價(jià)方法,其中,使用以下等式執(zhí)行對(duì)所述相似性加以指示的所述相似性指數(shù)的計(jì)算: 相似性指數(shù)=H(NTC/NCC) XNS,其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的個(gè)數(shù),并且函數(shù)H是將特定整數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù)。
7.根據(jù)權(quán)利要求5所述的文檔相似性評(píng)價(jià)方法,其中,使用以下等式執(zhí)行對(duì)所述相似性加以指示的所述相似性指數(shù)的計(jì)算: 相似性指數(shù)=NTC/NCCXNS, 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,并且NS是所述公共片段的個(gè)數(shù)。
8.一種非暫時(shí)性計(jì)算機(jī) 可讀存儲(chǔ)介質(zhì),所述非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)使計(jì)算機(jī)實(shí)現(xiàn)以下功能的計(jì)算機(jī)程序: 片段搜索功能,所述片段搜索功能在第一片段串和第二片段串二者中尋找公共片段,對(duì)找到的所述公共片段的個(gè)數(shù)進(jìn)行計(jì)數(shù),并且識(shí)別出現(xiàn)所述公共片段的出現(xiàn)范圍;以及 相似性指數(shù)計(jì)算功能,所述相似性指數(shù)計(jì)算功能:計(jì)算第一和,所述第一和是在所述片段搜索功能中識(shí)別出的所述出現(xiàn)范圍中包括的每個(gè)片段的字符個(gè)數(shù)和;計(jì)算第二和,所述第二和是被識(shí)別為所述公共片段的每個(gè)片段的字符個(gè)數(shù)和;以及使用以下等式計(jì)算對(duì)所述第一片段串與所述第二片段串之間的相似性加以指示的相似性指數(shù): 相似性指數(shù)=F(NTC) /G(NCC) XNS, 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的個(gè)數(shù),并且函數(shù)F和函數(shù)G是將特定整數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù)。
9.根據(jù)權(quán)利要求8所述的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述相似性指數(shù)計(jì)算功能使用以下等式計(jì)算所述相似性指數(shù): 相似性指數(shù)=H(NTC/NCC) XNS, 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,NS是所述公共片段的個(gè)數(shù),并且函數(shù)H是將特定整數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù)。
10.根據(jù)權(quán)利要求8所述的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述相似性指數(shù)計(jì)算功能使用以下等式計(jì)算所述相似性指數(shù): 相似性指數(shù)=NTC/NCCXNS 其中,在上述等式中,NTC是所述第一和,NCC是所述第二和,并且NS是所述公共片段的個(gè)數(shù)。
全文摘要
一種能夠評(píng)價(jià)至少兩類文檔中具有高相似性的部分的集中和分散程度的文檔相似性評(píng)價(jià)系統(tǒng)或類似系統(tǒng),包括片段搜索單元,在第一片段串和第二片段串二者中尋找公共片段,對(duì)找到的公共片段的個(gè)數(shù)進(jìn)行計(jì)數(shù),并識(shí)別出現(xiàn)所述公共片段的出現(xiàn)范圍;以及相似性指數(shù)計(jì)算單元,執(zhí)行計(jì)算第一和,即片段搜索單元識(shí)別出的出現(xiàn)范圍中包括的每個(gè)片段的字符個(gè)數(shù)和;計(jì)算第二和,即是被識(shí)別為公共片段的每個(gè)片段的字符個(gè)數(shù)和;并且使用以下等式計(jì)算對(duì)第一片段串與第二片段串之間的相似性加以指示的相似性指數(shù)相似性指數(shù)=F(NTC)/G(NCC)×NS(其中,NTC是第一和,NCC是第二和,NS是公共片段的個(gè)數(shù),函數(shù)F和函數(shù)G是將特定整數(shù)值與正實(shí)數(shù)值相關(guān)聯(lián)的單調(diào)增函數(shù))。
文檔編號(hào)G06F17/30GK103218388SQ201210528898
公開日2013年7月24日 申請(qǐng)日期2012年12月10日 優(yōu)先權(quán)日2012年1月19日
發(fā)明者周文琦 申請(qǐng)人:日本電氣株式會(huì)社