一種針對長文本的相似性判定方法與流程

文檔序號：11950238閱讀：1666來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及信息技術(shù)領(lǐng)域，特別是一種針對長文本的相似性判定方法。

背景技術(shù)：

隨著互聯(lián)網(wǎng)的發(fā)展和信息時代的到來，人們從互聯(lián)網(wǎng)獲取信息資源已經(jīng)成為一種非常重要的途徑。互聯(lián)網(wǎng)成為人們溝通、交流的重要平臺，每天互聯(lián)網(wǎng)會產(chǎn)生大量的信息資源，而這些資源信息的內(nèi)容在很大程度上都是重復(fù)和相似的。據(jù)相關(guān)統(tǒng)計數(shù)據(jù)表明，互聯(lián)網(wǎng)上近似重復(fù)的網(wǎng)頁的數(shù)量占網(wǎng)頁總數(shù)量的比例高達29%，在一個大型的信息采集系統(tǒng)中，采集到的網(wǎng)頁信息內(nèi)容有大多數(shù)完全重復(fù)或近似重復(fù)的。所以，在一個信息采集系統(tǒng)中，判斷文本內(nèi)容相似成為一個很重要的環(huán)節(jié)，該發(fā)明就是提供了一個簡單而有效文本相似判定方法用于信息采集系統(tǒng)中對文本內(nèi)容進行相似判定，便于系統(tǒng)信息進行分組歸類整合。

中國發(fā)明專利CN 103389987 A文本相似性比較方法，首先提取各待分析文件的各特征向量及各特征向量的值；然后將各待分析文件的特征向量進行削峰處理，即將各待分析文件的排序最高的一個或多個特征向量移除；再根據(jù)經(jīng)削峰處理后的各待分析文件的各特征向量的值，得到各待分析文件間的相似度。此發(fā)明不是針對長文本的相似性進行判定的。

技術(shù)實現(xiàn)要素：

本發(fā)明需要解決的技術(shù)問題是提供一種針對長文本的實時高效的文檔相似性判定方法。

為解決上述的技術(shù)問題，本發(fā)明的一種針對長文本的相似性判定方法，包括以下步驟，

步驟S101：文本語句片段分割，根據(jù)采集到的待分析文本內(nèi)容進行語句片段分割；

步驟S102：長句組合，將文本分割后的長句片段進行隨意組合；

步驟S103：文本相似性判斷，判斷待分析文本的長句組合是否出現(xiàn)相同的集合；如果是，則待分析文本內(nèi)容相似；如果否，則待分析文本內(nèi)容不相似。

進一步的，所述步驟S102長句組合，具體包括以下步驟，

步驟S1021：排序篩選，對文本內(nèi)容分割后的語句片段進行長句排序篩選，選擇特定數(shù)量的長句片段形成集合；

步驟S1022：唯一特征值計算，針對排序篩選形成的集合進行唯一特征值計算，形成唯一特征值集合；

步驟S1023：唯一特征值隨意組合，在形成的唯一特征值集合中隨意選取特定數(shù)量唯一特征值，形成唯一特征值隨意選取集合。

更進一步的，所述步驟S103文本相似性判斷為將唯一特征值隨意選取集合中的唯一特征值進行對比，如果唯一特征值相同，則待分析文本內(nèi)容相似；如果唯一特征值不同，則待分析文本內(nèi)容不相似。

更進一步的，步驟S1021中選擇長句片段的特定數(shù)量為n，步驟S1023中隨意選取唯一特征值的特定數(shù)量為m，形成的唯一特征值隨意選取集合總數(shù)量為C(n,m)=n!/((n-m)!*m!)。

采用上述方法后，本發(fā)明計算簡單，容易實現(xiàn)，大大減少時間、空間計算復(fù)雜度；相對于其他相似判定方法，對于數(shù)據(jù)量大的采集系統(tǒng)是一種簡潔而非常有效的文本相似判定方法。

附圖說明

下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。

圖1為本發(fā)明一種針對長文本的相似性判定方法的流程圖。

具體實施方式

如圖1所示，本發(fā)明的一種針對長文本的相似性判定方法，包括以下步驟，

步驟S101：文本語句片段分割，根據(jù)采集到的待分析文本內(nèi)容進行語句片段分割。本實施方式中，以待分析的文本A、B為例，由于文本內(nèi)容長度不一，句子、段落很多，提取語句片段非常關(guān)鍵，不同的規(guī)則分成的語句片段也不同，因此統(tǒng)一采用指定的規(guī)則進行內(nèi)容分割成語句片段。待分析文本A、B分割后的語句片段集合分別為C、D。

步驟S102：長句組合，將文本分割后的長句片段進行隨意組合；具體包括以下步驟，

步驟S1021：排序篩選，對文本內(nèi)容分割后的語句片段集合分別為C、D進行長句排序篩選，選擇特定數(shù)量的長句片段形成集合E、F，本實施方式中長句片段的特定數(shù)量為n。長句片段選擇的數(shù)量是隨意選擇的，選擇的數(shù)量越大組合越多，這個是根據(jù)需要可以調(diào)控選擇的，本實施方式中選擇的數(shù)量n取4。

步驟S1022：唯一特征值計算，針對排序篩選形成的長句片段集合E、F進行唯一特征值計算，形成唯一特征值集合G、H。唯一特征值計算，是為了保持數(shù)據(jù)的唯一性。

步驟S1023：唯一特征值隨意組合，在形成的唯一特征值集合中隨意選取特定數(shù)量唯一特征值，形成唯一特征值隨意選取集合I、J。這個特定的數(shù)量也是可以隨意選擇的，數(shù)量越大說明相似度的閾值越高，數(shù)量越小相似度的閾值越低，即兩文本中的相似度達到該閾值才判定兩篇文本相似。該取值與長句片段的數(shù)量n有關(guān)系，本實施方式中特定數(shù)量m為3。進行組合得到的唯一特征值集合總數(shù)量計算公式C(n,m)=n!/((n-m)!*m!)。

步驟S103：文本相似性判斷，判斷待分析文本的長句組合是否出現(xiàn)相同的集合；如果是，則待分析文本內(nèi)容相似；如果否，則待分析文本內(nèi)容不相似。本實施方式中，判斷的是集合中唯一特征值是否相同。所述步驟S103文本相似性判斷為將唯一特征值隨意選取集合I、J中的唯一特征值進行對比，如果唯一特征值相同，則待分析文本內(nèi)容相似；如果唯一特征值不同，則待分析文本內(nèi)容不相似。

雖然以上描述了本發(fā)明的具體實施方式，但是本領(lǐng)域熟練技術(shù)人員應(yīng)當理解，這些僅是舉例說明，可以對本實施方式做出多種變更或修改，而不背離發(fā)明的原理和實質(zhì)，本發(fā)明的保護范圍僅由所附權(quán)利要求書限定。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：唐義晴;黃三偉;
技術(shù)所有人：湖南蟻坊軟件有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本相似性相關(guān)技術(shù)

文本相似性計算相關(guān)技術(shù)

短文本相似性相關(guān)技術(shù)

文本相似性算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種針對長文本的相似性判定方法與流程