1.一種針對(duì)長文本的相似性判定方法,其特征在于,包括以下步驟,
步驟S101:文本語句片段分割,根據(jù)采集到的待分析文本內(nèi)容進(jìn)行語句片段分割;
步驟S102:長句組合,將文本分割后的長句片段進(jìn)行隨意組合;
步驟S103:文本相似性判斷,判斷待分析文本的長句組合是否出現(xiàn)相同的集合;如果是,則待分析文本內(nèi)容相似;如果否,則待分析文本內(nèi)容不相似。
2.按照權(quán)利要求1所述的一種針對(duì)長文本的相似性判定方法,其特征在于:所述步驟S102長句組合,具體包括以下步驟,
步驟S1021:排序篩選,對(duì)文本內(nèi)容分割后的語句片段進(jìn)行長句排序篩選,選擇特定數(shù)量的長句片段形成集合;
步驟S1022:唯一特征值計(jì)算,針對(duì)排序篩選形成的集合進(jìn)行唯一特征值計(jì)算,形成唯一特征值集合;
步驟S1023:唯一特征值隨意組合,在形成的唯一特征值集合中隨意選取特定數(shù)量唯一特征值,形成唯一特征值隨意選取集合。
3.按照權(quán)利要求2所述的一種針對(duì)長文本的相似性判定方法,其特征在于:所述步驟S103文本相似性判斷為將唯一特征值隨意選取集合中的唯一特征值進(jìn)行對(duì)比,如果唯一特征值相同,則待分析文本內(nèi)容相似;如果唯一特征值不同,則待分析文本內(nèi)容不相似。
4.按照權(quán)利要求2所述的一種針對(duì)長文本的相似性判定方法,其特征在于:步驟S1021中選擇長句片段的特定數(shù)量為n,步驟S1023中隨意選取唯一特征值的特定數(shù)量為m,形成的唯一特征值隨意選取集合總數(shù)量為C(n,m)=n!/((n-m)!*m!)。