一種基于停用詞的相似文檔查詢方法

文檔序號：6381417閱讀：291來源：國知局

專利名稱：一種基于停用詞的相似文檔查詢方法
技術領域：
本發(fā)明涉及對電子化文檔與文檔之間相似度的查詢方法，具體涉及一種利用中文停頓詞比較文檔相似度的方法，屬于計算機語言處理及信息檢索技術領域。
背景技術：
隨著互聯(lián)網技術的普及和應用，電子化文檔的使用量越來越大。電子化文檔在方便人們提高工作效率、節(jié)約紙張等自然資源的利用的同時，也帶來一些額外的問題和麻煩。如電子化文檔比較容易復制，也比較容易傳播。這些文檔電子化的新特征使得文檔的抄襲在技術上更加容易。加之電子化數據量的日益增大，這類抄襲的人工判斷越來越困難。因此，非常有必要利用現(xiàn)代化信息技術來改進人們對文檔相似度判斷的方法，從而提高人們處理日益增長的海量電子化文檔的能力。
在過去幾十年內，人們對于自然語言處理的理論和技術都有了比較大的提高，電子文檔是文本電子化的產物，而文本正是人類自然語言描述的產物。利用自然語言的處理方法來改變過去對文檔逐字、逐詞進行比較的方法將有效提高文檔比對的效率和效果。
文檔相似性是文本信息處理領域的核心問題，很多的文本應用包括文檔聚類、文檔檢索、文檔過濾等，都密切依賴于文檔形似性的精確度量。在自然語言處理領域，人們總結了一些通用的方法和規(guī)則，如=N-Gram分詞方法(具體可參考A. Andoni and P. Indyk, “Near-optimal hashing algorithms for approximate nearest neighbor in highdimensions,，，Comm. ACM 51:1, pp. 117 - 122, 2008.),基于 Shingle 的信息指紋對比(具體可參考 2. A. Z. Broder, “On the resemblance and containment of documents,，，Proc. Compression and Complexity of Sequences, pp. 21 - 29, Positano Italy, 1997.)等。然而這些方法大多數據源于西方的西文文字處理，對于中文等東亞語種的特殊性沒有專門的應對。中文及東亞文字有典型的斷詞問題，這些問題在西方語種中是以單詞，即單字的形式出現(xiàn)，在表達上以空格分開。因此，西方文字天然不用分詞，而中文語言的處理恰恰相反，在進行結構化處理的時候，需要“分詞”的問題，也要考慮由此帶來的 “分詞歧義”問題。所以，在文檔相似度比對方面，有必要充分考慮中文處理的特殊性。發(fā)明內容
針對現(xiàn)有文獻相似度比較方法，本發(fā)明提出利用非精確、集合運算比對的算法來提高比對工作效率，利用中文“停用詞”(Stop Word)來實現(xiàn)提高中文文檔對比效果的比對方法。
本發(fā)明的技術方案提出了一種基于停用詞的相似文檔查詢方法，其步驟包括
I)將待查詢的兩文檔進行歸一化處理，去除文檔中所有非中文字字符信息；所述兩文檔，其一為待查文檔，另一取自一個或多個數據源；或兩文檔為從一個或多個數據源中提取的兩文檔，
2)根據分詞詞典對所述兩個文檔進行分詞操作，將該些文檔轉化成詞匯流；
3)在所述詞匯流中按照書寫習慣提取得到停用詞；
4)將所述停用詞后面的正常語義詞和該停用詞組合成分段信息指紋；
5)把所述分段信息指紋分別匯總形成所述兩個文檔的中指紋標識，并放入信息指紋庫中進行比對；
6)對所述信息指紋庫中指紋標識相似度進行計算，得到所述兩個文檔的相似度值；
7)將相似度值大于設定閾值的兩文檔作為相似文檔，按照設定方式輸出所有或部分相似文檔。
所述分段信息指紋通過唯一記數器記錄。
所述停用詞中按照書寫習慣由左到右進行提取同時去掉連續(xù)的重復詞。
所述正常語義詞選用至少一個以上。
所述正常語義詞選用2個。
所述信息指紋庫通過用戶計算機保存至本地或上傳到遠端服務器。
所述停用詞通過連續(xù)提取得到。
所述字符信息包括中文標點、符號亂碼。
所述指紋庫中指紋標識相似度通過jaccard相似性算法計算。
所述指紋庫中指紋標識相似度通過Euclidean Distances或Cosine Distance方法計算。
本發(fā)明的有益效果
本發(fā)明的優(yōu)點在于，使用了“中文停用詞”+多個“后續(xù)詞”的方法，符合中文語境，尤其對于一些有一定寫作習慣的文章而言，具備更好的比較效果。該方法用于提高中文文檔相似度比對的效果和比對的效率，提高人們利用計算機處理相似文檔的能力，使人們可以更高效率的在海量文檔中找出抄襲或引用原文的文檔。

圖I是本發(fā)明基于停用詞的相似文檔查詢方法的流程圖2是本發(fā)明基于停用詞的相似文檔查詢方法Jaccard相似算法示意圖3是本發(fā)明基于停用詞的相似文檔查詢方法一實施例中Jaccard相似算法具體示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖，對本分買那個實施例中的技術方案進行清除、完整地描述，可以理解的是，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領域技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。
如圖I所示，本方法分成以下幾個工作步驟
I.將中文電子文檔格式歸一化。歸一化是指將一個文檔中所有字符(字符 (Character)是各種文字和符號的總稱)去除所有非文字字符和標點之外格式的純字符信
舉例
歸一化前中國啊，_ ￥%......&*我的祖國!
歸一化后中國啊我的祖國
2.根據分詞詞典，對中文電子文檔進行分詞操作，將中文電子文檔轉化成相關的詞匯流。
舉例
分詞前中國啊我的祖國
分詞后中國+啊+我+的+祖國
3.從左到右根據停用詞詞典，找出詞匯流中的“停用詞”。(此處強調必須由左到右，以通過書寫習慣提取信息指紋，并且去掉連續(xù)的重復詞)
過濾前中國+啊+我+的+祖國
過濾后中國+啊+我+的+祖國(其中“啊”和“的”是停用詞)
4.每找到一個停用詞，將停用詞后面的2個正常語義詞(可配置成其它參數)，和這個停用詞一起組合形成一個分段“信息指紋”。
在上例中，文本經過抽取后，形成的兩個信息指紋包括
“啊+我+的”和“的+祖國”
5.將該文檔的所有分段“電子信息指紋”信息匯總，形成該文檔的“電子信息指紋” 標識，并放入信息指紋庫中進行比對。
除此之外，考慮到被比對文檔的長度問題，本方法只使用唯一記數器記錄分段信息指紋，在少量犧牲精度的情況下，可以減少計算機內存的使用，大大提高比對速度。
如圖2所示是本發(fā)明比較文檔相似度的方法Jaccard相似算法示意圖Jaccard指數& = c/ (a+b-c)，a、b為兩個文本的指紋數，c為兩文本共有的指紋數。
除了 Jaccard相似度判斷方法之外，還可以采用Euclidean Distances、Cosine Distance等方法。(具體可參見Μ· S. Charikar,“Similarity estimation techniques from roundingalgorithms,，’ACM Symposium on Theory of Computing, pp. 380 - 388, 2002. X
如圖3所示是本發(fā)明比較文檔相似度的方法一實施例中Jaccard相似算法具體示意圖。
以下步驟應用本方法，對兩個具體的兩個實例進行相似度對比
被比較文本如下
原文本I (不包含引號)“中國啊，我的母親！母親啊，你多么偉大！ ”
原文本2 (不包含引號)“母親啊，我的母親啊，你多么善良！ ”
I.如何設置信息指紋段(停用詞為“啊”、“的”、“多么”)
原文本I:中國+啊+我+的+母親+啊+你+多么+偉大
原文本2 :母未+啊+我+的+母未+啊+你+多么+善良
2.提取信息指紋
原文本I 啊+我+的”、“的+母親+啊”、“啊+你+多么”、“多么+偉大”
(共4個指紋)
原文本2 啊+我+的”、“的+母親+啊”、“+啊+你+多么”、“多么+善良”
(共4個指紋)5
3.通過以上的信息指紋比對，發(fā)現(xiàn)共有三個指紋相同(“啊+我+的”、“的+母親+ 啊”、“+啊+你+多么”)，全集指紋數量為4+4-3=5，因此相似度為
3/(4+4-3)=3/5=60%
即文本I和文本2的相似度為60%
本申請基于停用詞的相似文檔查詢方法能夠運用于文檔的檢索、文檔聚類、文檔過濾等多個領域。
以文檔檢索為例，用戶可首先在研究生論文庫或者其他發(fā)表的論文庫中找出多個待查詢的文檔，逐個與用戶需要查詢比對的論文進行對比方法如下1)將待查詢的兩文檔進行歸一化處理，去除文檔中所有非中文字字符信息，比如中文標點、符號亂碼；2)根據分詞詞典對所述兩個文檔進行分詞操作，將該些文檔轉化成詞匯流；3)在所述詞匯流中按照書寫習慣由左到右進行提取同時去掉連續(xù)的重復詞，提取得到停用詞；4)將所述停用詞后面的2個正常語義詞和該停用詞組合成分段信息指紋并用唯一記數器記錄；5)把所述分段信息指紋分別匯總形成所述兩個文檔的中指紋標識，并放入本地或者遠端的信息指紋庫中進行比對；6)對所述信息指紋庫中指紋標識相似度進行計算，在進行相似度計算時是可以通過jaccarcUEuclidean Distances或Cosine Distance方法計算得到所述兩個文檔的相似度值；7)將相似度值大于設定為60%的兩文檔作為相似文檔，輸出用戶檢索的所有或部分相似文檔。用戶對文檔進行評價時，如論文的相似度大于60% (用戶可自行設定)可被認為是抄襲，若不大于60%則認為是沒有抄襲。
權利要求
1.一種基于停用詞的相似文檔查詢方法，其步驟包括1)將待查詢的兩文檔進行歸一化處理，去除文檔中所有非中文字字符信息；所述兩文檔，其一為待查文檔，另一取自一個或多個數據源；或兩文檔為從一個或多個數據源中提取的兩文檔，2)根據分詞詞典對所述兩個文檔進行分詞操作，將該些文檔轉化成詞匯流；3)在所述詞匯流中按照書寫習慣提取得到停用詞；4)將所述停用詞后面的正常語義詞和該停用詞組合成分段信息指紋；5)把所述分段信息指紋分別匯總形成所述兩個文檔的中指紋標識，并放入信息指紋庫中進行比對；6)對所述信息指紋庫中指紋標識相似度進行計算，得到所述兩個文檔的相似度值；7)將相似度值大于設定閾值的兩文檔作為相似文檔，按照設定方式輸出所有或部分相似文檔。
2.如權利要求I所述的基于停用詞的相似文檔查詢方法，其特征在于，所述分段信息指紋通過唯一記數器記錄。
3.如權利要求I所述的基于停用詞的相似文檔查詢方法，其特征在于，所述停用詞中按照書寫習慣由左到右進行提取同時去掉連續(xù)的重復詞。
4.如權利要求I所述的基于停用詞的相似文檔查詢方法，其特征在于，所述正常語義詞選用至少一個以上。
5.如權利要求I或4所述的基于停用詞的相似文檔查詢方法，其特征在于，所述正常語義詞選用2個。
6.如權利要求I所述的基于停用詞的相似文檔查詢方法，其特征在于，所述信息指紋庫通過用戶計算機保存至本地或上傳到遠端服務器。
7.如權利要求I所述的基于停用詞的相似文檔查詢方法，其特征在于，所述停用詞通過連續(xù)提取得到。
8.如權利要求I所述的基于停用詞的相似文檔查詢方法，其特征在于，所述字符信息包括中文標點、符號亂碼。
9.如權利要求I所述的基于停用詞的相似文檔查詢方法，其特征在于，所述指紋庫中指紋標識相似度通過jaccard相似性算法計算。
10.如權利要求I所述的基于停用詞的相似文檔查詢方法，其特征在于，所述指紋庫中指紋標識相似度通過Euclidean Distances或Cosine Distance方法計算。
全文摘要
本發(fā)明涉及基于停用詞的相似文檔查詢方法，步驟為1)將待查詢的兩文檔進行歸一化處理，去除文檔中所有非中文字字符信息；2)根據分詞詞典對兩個文檔進行分詞操作，將該些文檔轉化成詞匯流；3)在詞匯流中按照書寫習慣提取得到停用詞；4)將停用詞后面的正常語義詞和該停用詞組合成分段信息指紋；5)把分段信息指紋分別匯總形成兩個文檔的中指紋標識，并放入信息指紋庫中進行比對；6)對信息指紋庫中指紋標識相似度進行計算，得到兩個文檔的相似度值；7)將相似度值大于設定閾值的兩文檔作為相似文檔，按照設定方式輸出所有或部分相似文檔。本發(fā)明使用“中文停用詞”+多個“后續(xù)詞”的方法，符合中文語境，具備更好比較效果。
文檔編號G06F17/30GK102937994SQ201210461090
公開日2013年2月20日申請日期2012年11月15日優(yōu)先權日2012年11月15日
發(fā)明者林述民申請人:北京銳安科技有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：林述民
技術所有人：北京銳安科技有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文檔相似度相關技術

文檔相似度計算相關技術

文檔相似性檢測工具相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于停用詞的相似文檔查詢方法