1.一種重復(fù)文本的判定方法,其特征在于,包括:
判斷第一文本和第二文本分別對(duì)應(yīng)的概要信息是否重復(fù);
若所述概要信息不重復(fù),則分別提取所述第一文本和所述第二文本的特征內(nèi)容;
識(shí)別所述第一文本和所述第二文本分別對(duì)應(yīng)的特征內(nèi)容是否重復(fù);
若所述特征內(nèi)容重復(fù),則判定所述第一文本和所述第二文本重復(fù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判斷第一文本和第二文本分別對(duì)應(yīng)的概要信息是否重復(fù)包括:
判斷所述第一文本的第一概要信息與所述第二文本的第二概要信息的相似度是否大于或等于預(yù)設(shè)的相似度閾值。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述判斷所述第一文本的第一概要信息與所述第二文本的第二概要信息的相似度是否大于或等于預(yù)設(shè)的相似度閾值包括:
對(duì)所述第一文本的第一概要信息和所述第二文本的第二概要信息分別進(jìn)行分詞和去除停用詞處理,對(duì)應(yīng)得到第一詞語(yǔ)集合和第二詞語(yǔ)集合;
確定所述第一詞語(yǔ)集合轉(zhuǎn)化成所述第二詞語(yǔ)集合所需的最少編輯次數(shù);
依據(jù)所述最少編輯次數(shù)計(jì)算所述第一概要信息與所述第二概要信息的相似度;
判斷計(jì)算的相似度是否大于或等于預(yù)設(shè)的相似度閾值。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
若計(jì)算的相似度大于或等于預(yù)設(shè)的相似度閾值,則判定所述第一概要信息與所述第二概要信息重復(fù),當(dāng)所述第一概要信息和所述第二概要信息重復(fù)時(shí)確定所述第一文本和所述第二文本重復(fù)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分別提取所述第一文本和所述第二文本的特征內(nèi)容包括:
對(duì)所述第一文本的第一文本內(nèi)容和所述第二文本的第二文本內(nèi)容分別進(jìn)行分詞和去除停用詞處理,對(duì)應(yīng)得到第三詞語(yǔ)集合和第四詞語(yǔ)集合;
從所述第三詞語(yǔ)集合和所述第四詞語(yǔ)集合中分別提取第一特征詞語(yǔ)集合和第二特征詞語(yǔ)集合,所述第一特征詞語(yǔ)集合用于區(qū)分所述第一文本與其他文本,所述第二特征詞語(yǔ)集合用于區(qū)分所述第二文本與其他文本;
所述識(shí)別所述第一文本和所述第二文本分別對(duì)應(yīng)的特征內(nèi)容是否重復(fù)包括:
識(shí)別所述第一特征詞語(yǔ)集合和所述第二特征詞語(yǔ)集合是否重復(fù)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述從所述第三詞語(yǔ)集合和所述第四詞語(yǔ)集合中分別提取第一特征詞語(yǔ)集合和第二特征詞語(yǔ)集合包括:
計(jì)算所述第三詞語(yǔ)集合中各個(gè)詞語(yǔ)與其他文本的文本內(nèi)容的區(qū)分度,從所有詞語(yǔ)中提取預(yù)設(shè)數(shù)目的區(qū)分度排名靠前的詞語(yǔ)或提取所述區(qū)分度大于區(qū)分度閾值的詞語(yǔ),將提取的詞語(yǔ)組成所述第一特征詞語(yǔ)集合;
計(jì)算所述第四詞語(yǔ)集合中各個(gè)詞語(yǔ)與其他文本的文本內(nèi)容的區(qū)分度,從所有詞語(yǔ)中提取預(yù)設(shè)數(shù)目的區(qū)分度排名靠前的詞語(yǔ)或提取所述區(qū)分度大于區(qū)分度閾值的詞語(yǔ),將提取的詞語(yǔ)組成所述第二特征詞語(yǔ)集合。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述識(shí)別所述第一特征詞語(yǔ)集合和所述第二特征詞語(yǔ)集合是否重復(fù)包括:
對(duì)所述第一特征詞語(yǔ)集合和所述第二特征詞語(yǔ)集合分別進(jìn)行字符轉(zhuǎn)碼和計(jì)算處理,對(duì)應(yīng)得到具有相同字符數(shù)的第一特征編碼信息和第二特征編碼信息;
計(jì)算所述第一特征編碼信息和所述第二特征編碼信息之間的差異度;
判斷計(jì)算得到的差異度是否小于針對(duì)重復(fù)特征編碼信息預(yù)設(shè)的差異度閾值,若小于,則判定所述第一特征詞語(yǔ)集合與所述第二特征詞語(yǔ)集合重復(fù)。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述對(duì)所述第一特征詞語(yǔ)集合和所述第二特征詞語(yǔ)集合分別進(jìn)行字符轉(zhuǎn)碼和計(jì)算處理,對(duì)應(yīng)得到具有相同字符數(shù)的第一特征編碼信息和第二特征編碼信息包括:
對(duì)所述第一特征詞語(yǔ)集合和所述第二特征詞語(yǔ)集合中的各個(gè)詞語(yǔ)分別進(jìn)行字符轉(zhuǎn)碼處理,每個(gè)詞語(yǔ)對(duì)應(yīng)得到一個(gè)二進(jìn)制編碼信息;
計(jì)算各個(gè)特征詞語(yǔ)集合中每個(gè)詞語(yǔ)在其所在的特征詞語(yǔ)集合中的權(quán)重值,
依據(jù)所述各個(gè)特征詞語(yǔ)集合中每個(gè)詞語(yǔ)的權(quán)重值以及每個(gè)詞語(yǔ)對(duì)應(yīng)的二進(jìn)制編碼信息,按照預(yù)設(shè)算法計(jì)算所述第一特征詞語(yǔ)集合所對(duì)應(yīng)的第一特征編碼信息以及所述第二特征詞語(yǔ)集合所對(duì)應(yīng)的第二特征編碼信息。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,每個(gè)詞語(yǔ)的二進(jìn)制編碼信息具有相同的字符數(shù),所述按照預(yù)設(shè)算法包括:
針對(duì)各個(gè)二進(jìn)制編碼信息,如果出現(xiàn)編碼信息1,則將所述編碼信息1替換為對(duì)應(yīng)詞語(yǔ)的權(quán)重值,如果出現(xiàn)編碼信息0,則將所述編碼信息0替換為對(duì)應(yīng)詞語(yǔ)的權(quán)重值的負(fù)數(shù),得到權(quán)重值編碼信息;
累計(jì)所述第一特征詞語(yǔ)集合中所有詞語(yǔ)的權(quán)重值編碼信息中處于同一字符位置的數(shù)值的總和,得到第一權(quán)重值累計(jì)編碼信息;
累計(jì)所述第二特征詞語(yǔ)集合中所有詞語(yǔ)的權(quán)重值編碼信息中處于同一字符位置的數(shù)值的總和,得到第二權(quán)重值累計(jì)編碼信息;
按照將正數(shù)轉(zhuǎn)化為1、將負(fù)數(shù)轉(zhuǎn)化為0以及保持零不變的規(guī)則,處理所述第一權(quán)重值累計(jì)編碼信息得到所述第一特征編碼信息,處理所述第二權(quán)重值累計(jì)編碼信息得到所述第二特征編碼信息。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述計(jì)算所述第一特征編碼信息和所述第二特征編碼信息之間的差異度包括:
計(jì)算所述第一特征編碼信息和所述第二特征編碼信息中處于同一字符位置的數(shù)值的差值絕對(duì)值,統(tǒng)計(jì)計(jì)算后的處于不同字符位置的多個(gè)數(shù)值中數(shù)值1存在的數(shù)目;
所述判斷計(jì)算得到的差異度是否小于針對(duì)重復(fù)特征編碼信息預(yù)設(shè)的差異度閾值包括:
判斷計(jì)算后的處于不同字符位置的多個(gè)數(shù)值中數(shù)值1存在的數(shù)目是否小于針對(duì)重復(fù)特征編碼信息預(yù)設(shè)的數(shù)目閾值。
11.一種重復(fù)文本的判定裝置,其特征在于,包括:
概要信息判斷模塊,用于判斷第一文本和第二文本分別對(duì)應(yīng)的概要信息是否重復(fù);
特征內(nèi)容提取模塊,用于若所述概要信息不重復(fù),則分別提取所述第一文本和所述第二文本的特征內(nèi)容;
特征內(nèi)容識(shí)別模塊,用于識(shí)別所述第一文本和所述第二文本分別對(duì)應(yīng)的特征內(nèi)容是否重復(fù);
重復(fù)文本判定模塊,用于若所述特征內(nèi)容重復(fù),則判定所述第一文本和所述第二文本重復(fù)。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于:
所述概要信息判斷模塊,具體用于判斷所述第一文本的第一概要信息與所述第二文本的第二概要信息的相似度是否大于或等于預(yù)設(shè)的相似度閾值。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述概要信息判斷模塊包括:
第一詞語(yǔ)集合得到子模塊,用于對(duì)所述第一文本的第一概要信息和所述第二文本的第二概要信息分別進(jìn)行分詞和去除停用詞處理,對(duì)應(yīng)得到第一詞語(yǔ)集合和第二詞語(yǔ)集合;
最少編輯次數(shù)確定子模塊,用于確定所述第一詞語(yǔ)集合轉(zhuǎn)化成所述第二詞語(yǔ)集合所需的最少編輯次數(shù);
相似度計(jì)算子模塊,用于依據(jù)所述最少編輯次數(shù)計(jì)算所述第一概要信息與所述第二概要信息的相似度;
相似度判斷子模塊,用于判斷計(jì)算的相似度是否大于或等于預(yù)設(shè)的相似度閾值。
14.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括:
重復(fù)概要信息判定模塊,用于若計(jì)算的相似度大于或等于預(yù)設(shè)的相似度閾值,則判定所述第一概要信息與所述第二概要信息重復(fù),當(dāng)所述第一概要信息和所述第二概要信息重復(fù)時(shí)確定所述第一文本和所述第二文本重復(fù)。
15.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述特征內(nèi)容提取模塊包括:
第二詞語(yǔ)集合得到子模塊,用于對(duì)所述第一文本的第一文本內(nèi)容和所述第二文本的第二文本內(nèi)容分別進(jìn)行分詞和去除停用詞處理,對(duì)應(yīng)得到第三詞語(yǔ)集合和第四詞語(yǔ)集合;
特征詞語(yǔ)集合提取子模塊,用于從所述第三詞語(yǔ)集合和所述第四詞語(yǔ)集合中分別提取第一特征詞語(yǔ)集合和第二特征詞語(yǔ)集合,所述第一特征詞語(yǔ)集合用于區(qū)分所述第一文本與其他文本,所述第二特征詞語(yǔ)集合用于區(qū)分所述第二文本與其他文本;
所述特征內(nèi)容識(shí)別模塊,具體用于識(shí)別所述第一特征詞語(yǔ)集合和所述第二特征詞語(yǔ)集合是否重復(fù)。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述特征詞語(yǔ)集合提取子模塊包括:
區(qū)分度計(jì)算單元,用于計(jì)算所述第三詞語(yǔ)集合中各個(gè)詞語(yǔ)與其他文本的文本內(nèi)容的區(qū)分度,計(jì)算所述第四詞語(yǔ)集合中各個(gè)詞語(yǔ)與其他文本的文本內(nèi)容的區(qū)分度;
特征詞語(yǔ)集合組成單元,用于從所有詞語(yǔ)中提取預(yù)設(shè)數(shù)目的區(qū)分度排名靠前的詞語(yǔ)或提取所述區(qū)分度大于區(qū)分度閾值的詞語(yǔ),將提取的詞語(yǔ)組成所述第一特征詞語(yǔ)集合,從所有詞語(yǔ)中提取預(yù)設(shè)數(shù)目的區(qū)分度排名靠前的詞語(yǔ)或提取所述區(qū)分度大于區(qū)分度閾值的詞語(yǔ),將提取的詞語(yǔ)組成所述第二特征詞語(yǔ)集合。
17.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述特征內(nèi)容識(shí)別模塊包括:
特征編碼信息得到子模塊,用于對(duì)所述第一特征詞語(yǔ)集合和所述第二特征詞語(yǔ)集合分別進(jìn)行字符轉(zhuǎn)碼和計(jì)算處理,對(duì)應(yīng)得到具有相同字符數(shù)的第一特征編碼信息和第二特征編碼信息;
差異度計(jì)算子模塊,用于計(jì)算所述第一特征編碼信息和所述第二特征編碼信息之間的差異度;
差異度判斷子模塊,用于判斷計(jì)算得到的差異度是否小于針對(duì)重復(fù)特征編碼信息預(yù)設(shè)的差異度閾值;
重復(fù)特征詞語(yǔ)集合判定子模塊,用于若計(jì)算得到的差異度小于針對(duì)重復(fù)特征編碼信息預(yù)設(shè)的差異度閾值,則判定所述第一特征詞語(yǔ)集合與所述第二特征詞語(yǔ)集合重復(fù)。
18.根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述特征編碼信息得到子模塊包括:
轉(zhuǎn)碼處理單元,用于對(duì)所述第一特征詞語(yǔ)集合和所述第二特征詞語(yǔ)集合中的各個(gè)詞語(yǔ)分別進(jìn)行字符轉(zhuǎn)碼處理,每個(gè)詞語(yǔ)對(duì)應(yīng)得到一個(gè)二進(jìn)制編碼信息;
權(quán)重值計(jì)算單元,用于計(jì)算各個(gè)特征詞語(yǔ)集合中每個(gè)詞語(yǔ)在其所在的特征詞語(yǔ)集合中的權(quán)重值,
特征編碼信息計(jì)算單元,用于依據(jù)所述各個(gè)特征詞語(yǔ)集合中每個(gè)詞語(yǔ)的權(quán)重值以及每個(gè)詞語(yǔ)對(duì)應(yīng)的二進(jìn)制編碼信息,按照預(yù)設(shè)算法計(jì)算所述第一特征詞語(yǔ)集合所對(duì)應(yīng)的第一特征編碼信息以及所述第二特征詞語(yǔ)集合所對(duì)應(yīng)的第二特征編碼信息。
19.根據(jù)權(quán)利要求18所述的裝置,其特征在于,每個(gè)詞語(yǔ)的二進(jìn)制編碼信息具有相同的字符數(shù),所述特征編碼信息計(jì)算單元包括:
權(quán)重值替換子單元,用于針對(duì)各個(gè)二進(jìn)制編碼信息,如果出現(xiàn)編碼信息1,則將所述編碼信息1替換為對(duì)應(yīng)詞語(yǔ)的權(quán)重值,如果出現(xiàn)編碼信息0,則將所述編碼信息0替換為對(duì)應(yīng)詞語(yǔ)的權(quán)重值的負(fù)數(shù),得到權(quán)重值編碼信息;
權(quán)重值累計(jì)編碼信息得到子單元,用于累計(jì)所述第一特征詞語(yǔ)集合中所有詞語(yǔ)的權(quán)重值編碼信息中處于同一字符位置的數(shù)值的總和,得到第一權(quán)重值累計(jì)編碼信息,累計(jì)所述第二特征詞語(yǔ)集合中所有詞語(yǔ)的權(quán)重值編碼信息中處于同一字符位置的數(shù)值的總和,得到第二權(quán)重值累計(jì)編碼信息;
權(quán)重值累計(jì)編碼信息處理子單元,用于按照將正數(shù)轉(zhuǎn)化為1、將負(fù)數(shù)轉(zhuǎn)化為0以及保持零不變的規(guī)則,處理所述第一權(quán)重值累計(jì)編碼信息得到所述第一特征編碼信息,處理所述第二權(quán)重值累計(jì)編碼信息得到所述第二特征編碼信息。
20.根據(jù)權(quán)利要求19所述的裝置,其特征在于:
所述差異度計(jì)算子模塊,具體用于計(jì)算所述第一特征編碼信息和所述第二特征編碼信息中處于同一字符位置的數(shù)值的差值絕對(duì)值,統(tǒng)計(jì)計(jì)算后的處于不同字符位置的多個(gè)數(shù)值中數(shù)值1存在的數(shù)目;
所述差異度判斷子模塊,具體用于判斷計(jì)算后的處于不同字符位置的多個(gè)數(shù)值中數(shù)值1存在的數(shù)目是否小于針對(duì)重復(fù)特征編碼信息預(yù)設(shè)的數(shù)目閾值。