一種針對(duì)長文本的相似性判定方法與流程

文檔序號(hào)：11950238閱讀：來源：國知局

技術(shù)特征：

1.一種針對(duì)長文本的相似性判定方法，其特征在于，包括以下步驟，

步驟S101：文本語句片段分割，根據(jù)采集到的待分析文本內(nèi)容進(jìn)行語句片段分割；

步驟S102：長句組合，將文本分割后的長句片段進(jìn)行隨意組合；

步驟S103：文本相似性判斷，判斷待分析文本的長句組合是否出現(xiàn)相同的集合；如果是，則待分析文本內(nèi)容相似；如果否，則待分析文本內(nèi)容不相似。

2.按照權(quán)利要求1所述的一種針對(duì)長文本的相似性判定方法，其特征在于：所述步驟S102長句組合，具體包括以下步驟，

步驟S1021：排序篩選，對(duì)文本內(nèi)容分割后的語句片段進(jìn)行長句排序篩選，選擇特定數(shù)量的長句片段形成集合；

步驟S1022：唯一特征值計(jì)算，針對(duì)排序篩選形成的集合進(jìn)行唯一特征值計(jì)算，形成唯一特征值集合；

步驟S1023：唯一特征值隨意組合，在形成的唯一特征值集合中隨意選取特定數(shù)量唯一特征值，形成唯一特征值隨意選取集合。

3.按照權(quán)利要求2所述的一種針對(duì)長文本的相似性判定方法，其特征在于：所述步驟S103文本相似性判斷為將唯一特征值隨意選取集合中的唯一特征值進(jìn)行對(duì)比，如果唯一特征值相同，則待分析文本內(nèi)容相似；如果唯一特征值不同，則待分析文本內(nèi)容不相似。

4.按照權(quán)利要求2所述的一種針對(duì)長文本的相似性判定方法，其特征在于：步驟S1021中選擇長句片段的特定數(shù)量為n，步驟S1023中隨意選取唯一特征值的特定數(shù)量為m，形成的唯一特征值隨意選取集合總數(shù)量為C(n,m)=n!/((n-m)!*m!)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看