亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種針對(duì)長文本的相似性判定方法與流程

文檔序號(hào):11950238閱讀:來源:國知局

技術(shù)特征:

1.一種針對(duì)長文本的相似性判定方法,其特征在于,包括以下步驟,

步驟S101:文本語句片段分割,根據(jù)采集到的待分析文本內(nèi)容進(jìn)行語句片段分割;

步驟S102:長句組合,將文本分割后的長句片段進(jìn)行隨意組合;

步驟S103:文本相似性判斷,判斷待分析文本的長句組合是否出現(xiàn)相同的集合;如果是,則待分析文本內(nèi)容相似;如果否,則待分析文本內(nèi)容不相似。

2.按照權(quán)利要求1所述的一種針對(duì)長文本的相似性判定方法,其特征在于:所述步驟S102長句組合,具體包括以下步驟,

步驟S1021:排序篩選,對(duì)文本內(nèi)容分割后的語句片段進(jìn)行長句排序篩選,選擇特定數(shù)量的長句片段形成集合;

步驟S1022:唯一特征值計(jì)算,針對(duì)排序篩選形成的集合進(jìn)行唯一特征值計(jì)算,形成唯一特征值集合;

步驟S1023:唯一特征值隨意組合,在形成的唯一特征值集合中隨意選取特定數(shù)量唯一特征值,形成唯一特征值隨意選取集合。

3.按照權(quán)利要求2所述的一種針對(duì)長文本的相似性判定方法,其特征在于:所述步驟S103文本相似性判斷為將唯一特征值隨意選取集合中的唯一特征值進(jìn)行對(duì)比,如果唯一特征值相同,則待分析文本內(nèi)容相似;如果唯一特征值不同,則待分析文本內(nèi)容不相似。

4.按照權(quán)利要求2所述的一種針對(duì)長文本的相似性判定方法,其特征在于:步驟S1021中選擇長句片段的特定數(shù)量為n,步驟S1023中隨意選取唯一特征值的特定數(shù)量為m,形成的唯一特征值隨意選取集合總數(shù)量為C(n,m)=n!/((n-m)!*m!)。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1