專利名稱:一種基于停用詞的相似文檔查詢方法
技術領域:
本發(fā)明涉及對電子化文檔與文檔之間相似度的查詢方法,具體涉及一種利用中文停頓詞比較文檔相似度的方法,屬于計算機語言處理及信息檢索技術領域。
背景技術:
隨著互聯(lián)網技術的普及和應用,電子化文檔的使用量越來越大。電子化文檔在方便人們提高工作效率、節(jié)約紙張等自然資源的利用的同時,也帶來一些額外的問題和麻煩。 如電子化文檔比較容易復制,也比較容易傳播。這些文檔電子化的新特征使得文檔的抄襲在技術上更加容易。加之電子化數據量的日益增大,這類抄襲的人工判斷越來越困難。因此,非常有必要利用現(xiàn)代化信息技術來改進人們對文檔相似度判斷的方法,從而提高人們處理日益增長的海量電子化文檔的能力。
在過去幾十年內,人們對于自然語言處理的理論和技術都有了比較大的提高,電子文檔是文本電子化的產物,而文本正是人類自然語言描述的產物。利用自然語言的處理方法來改變過去對文檔逐字、逐詞進行比較的方法將有效提高文檔比對的效率和效果。
文檔相似性是文本信息處理領域的核心問題,很多的文本應用包括文檔聚類、 文檔檢索、文檔過濾等,都密切依賴于文檔形似性的精確度量。在自然語言處理領域, 人們總結了一些通用的方法和規(guī)則,如=N-Gram分詞方法(具體可參考A. Andoni and P. Indyk, “Near-optimal hashing algorithms for approximate nearest neighbor in highdimensions,,,Comm. ACM 51:1, pp. 117 - 122, 2008.),基于 Shingle 的信息指紋對比(具體可參考 2. A. Z. Broder, “On the resemblance and containment of documents,,,Proc. Compression and Complexity of Sequences, pp. 21 - 29, Positano Italy, 1997.)等。然而這些方法大多數據源于西方的西文文字處理,對于中文等東亞語種的特殊性沒有專門的應對。中文及東亞文字有典型的斷詞問題,這些問題在西方語種中是以單詞,即單字的形式出現(xiàn),在表達上以空格分開。因此,西方文字天然不用分詞,而中文語言的處理恰恰相反,在進行結構化處理的時候,需要“分詞”的問題,也要考慮由此帶來的 “分詞歧義”問題。所以,在文檔相似度比對方面,有必要充分考慮中文處理的特殊性。發(fā)明內容
針對現(xiàn)有文獻相似度比較方法,本發(fā)明提出利用非精確、集合運算比對的算法來提高比對工作效率,利用中文“停用詞”(Stop Word)來實現(xiàn)提高中文文檔對比效果的比對方法。
本發(fā)明的技術方案提出了一種基于停用詞的相似文檔查詢方法,其步驟包括
I)將待查詢的兩文檔進行歸一化處理,去除文檔中所有非中文字字符信息;所述兩文檔,其一為待查文檔,另一取自一個或多個數據源;或兩文檔為從一個或多個數據源中提取的兩文檔,
2)根據分詞詞典對所述兩個文檔進行分詞操作,將該些文檔轉化成詞匯流;
3)在所述詞匯流中按照書寫習慣提取得到停用詞;
4)將所述停用詞后面的正常語義詞和該停用詞組合成分段信息指紋;
5)把所述分段信息指紋分別匯總形成所述兩個文檔的中指紋標識,并放入信息指紋庫中進行比對;
6)對所述信息指紋庫中指紋標識相似度進行計算,得到所述兩個文檔的相似度值;
7)將相似度值大于設定閾值的兩文檔作為相似文檔,按照設定方式輸出所有或部分相似文檔。
所述分段信息指紋通過唯一記數器記錄。
所述停用詞中按照書寫習慣由左到右進行提取同時去掉連續(xù)的重復詞。
所述正常語義詞選用至少一個以上。
所述正常語義詞選用2個。
所述信息指紋庫通過用戶計算機保存至本地或上傳到遠端服務器。
所述停用詞通過連續(xù)提取得到。
所述字符信息包括中文標點、符號亂碼。
所述指紋庫中指紋標識相似度通過jaccard相似性算法計算。
所述指紋庫中指紋標識相似度通過Euclidean Distances或Cosine Distance方法計算。
本發(fā)明的有益效果
本發(fā)明的優(yōu)點在于,使用了“中文停用詞”+多個“后續(xù)詞”的方法,符合中文語境, 尤其對于一些有一定寫作習慣的文章而言,具備更好的比較效果。該方法用于提高中文文檔相似度比對的效果和比對的效率,提高人們利用計算機處理相似文檔的能力,使人們可以更高效率的在海量文檔中找出抄襲或引用原文的文檔。
圖I是本發(fā)明基于停用詞的相似文檔查詢方法的流程圖2是本發(fā)明基于停用詞的相似文檔查詢方法Jaccard相似算法示意圖3是本發(fā)明基于停用詞的相似文檔查詢方法一實施例中Jaccard相似算法具體示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本分買那個實施例中的技術方案進行清除、完整地描述,可以理解的是,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
如圖I所示,本方法分成以下幾個工作步驟
I.將中文電子文檔格式歸一化。歸一化是指將一個文檔中所有字符(字符 (Character)是各種文字和符號的總稱)去除所有非文字字符和標點之外格式的純字符信
舉例
歸一化前中國啊,_ ¥%......&*我的祖國!
歸一化后中國啊我的祖國
2.根據分詞詞典,對中文電子文檔進行分詞操作,將中文電子文檔轉化成相關的詞匯流。
舉例
分詞前中國啊我的祖國
分詞后中國+啊+我+的+祖國
3.從左到右根據停用詞詞典,找出詞匯流中的“停用詞”。(此處強調必須由左到右,以通過書寫習慣提取信息指紋,并且去掉連續(xù)的重復詞)
過濾前中國+啊+我+的+祖國
過濾后中國+啊+我+的+祖國(其中“啊”和“的”是停用詞)
4.每找到一個停用詞,將停用詞后面的2個正常語義詞(可配置成其它參數),和這個停用詞一起組合形成一個分段“信息指紋”。
在上例中,文本經過抽取后,形成的兩個信息指紋包括
“啊+我+的”和“的+祖國”
5.將該文檔的所有分段“電子信息指紋”信息匯總,形成該文檔的“電子信息指紋” 標識,并放入信息指紋庫中進行比對。
除此之外,考慮到被比對文檔的長度問題,本方法只使用唯一記數器記錄分段信息指紋,在少量犧牲精度的情況下,可以減少計算機內存的使用,大大提高比對速度。
如圖2所示是本發(fā)明比較文檔相似度的方法Jaccard相似算法示意圖Jaccard指數& = c/ (a+b-c),a、b為兩個文本的指紋數,c為兩文本共有的指紋數。
除了 Jaccard相似度判斷方法之外,還可以采用Euclidean Distances、Cosine Distance等方法。(具體可參見Μ· S. Charikar,“Similarity estimation techniques from roundingalgorithms,,’ACM Symposium on Theory of Computing, pp. 380 - 388, 2002. X
如圖3所示是本發(fā)明比較文檔相似度的方法一實施例中Jaccard相似算法具體示意圖。
以下步驟應用本方法,對兩個具體的兩個實例進行相似度對比
被比較文本如下
原文本I (不包含引號)“中國啊,我的母親!母親啊,你多么偉大! ”
原文本2 (不包含引號)“母親啊,我的母親啊,你多么善良! ”
I.如何設置信息指紋段(停用詞為“啊”、“的”、“多么”)
原文本I:中國+啊+我+的+母親+啊+你+多么+偉大
原文本2 :母未+啊+我+的+母未+啊+你+多么+善良
2.提取信息指紋
原文本I 啊+我+的”、“的+母親+啊”、“啊+你+多么”、“多么+偉大”
(共4個指紋)
原文本2 啊+我+的”、“的+母親+啊”、“+啊+你+多么”、“多么+善良”
(共4個指紋)5
3.通過以上的信息指紋比對,發(fā)現(xiàn)共有三個指紋相同(“啊+我+的”、“的+母親+ 啊”、“+啊+你+多么”),全集指紋數量為4+4-3=5,因此相似度為
3/(4+4-3)=3/5=60%
即文本I和文本2的相似度為60%
本申請基于停用詞的相似文檔查詢方法能夠運用于文檔的檢索、文檔聚類、文檔過濾等多個領域。
以文檔檢索為例,用戶可首先在研究生論文庫或者其他發(fā)表的論文庫中找出多個待查詢的文檔,逐個與用戶需要查詢比對的論文進行對比方法如下1)將待查詢的兩文檔進行歸一化處理,去除文檔中所有非中文字字符信息,比如中文標點、符號亂碼;2)根據分詞詞典對所述兩個文檔進行分詞操作,將該些文檔轉化成詞匯流;3)在所述詞匯流中按照書寫習慣由左到右進行提取同時去掉連續(xù)的重復詞,提取得到停用詞;4)將所述停用詞后面的2個正常語義詞和該停用詞組合成分段信息指紋并用唯一記數器記錄;5)把所述分段信息指紋分別匯總形成所述兩個文檔的中指紋標識,并放入本地或者遠端的信息指紋庫中進行比對;6)對所述信息指紋庫中指紋標識相似度進行計算,在進行相似度計算時是可以通過jaccarcUEuclidean Distances或Cosine Distance方法計算得到所述兩個文檔的相似度值;7)將相似度值大于設定為60%的兩文檔作為相似文檔,輸出用戶檢索的所有或部分相似文檔。用戶對文檔進行評價時,如論文的相似度大于60% (用戶可自行設定)可被認為是抄襲,若不大于60%則認為是沒有抄襲。
權利要求
1.一種基于停用詞的相似文檔查詢方法,其步驟包括1)將待查詢的兩文檔進行歸一化處理,去除文檔中所有非中文字字符信息;所述兩文檔,其一為待查文檔,另一取自一個或多個數據源;或兩文檔為從一個或多個數據源中提取的兩文檔,2)根據分詞詞典對所述兩個文檔進行分詞操作,將該些文檔轉化成詞匯流;3)在所述詞匯流中按照書寫習慣提取得到停用詞;4)將所述停用詞后面的正常語義詞和該停用詞組合成分段信息指紋;5)把所述分段信息指紋分別匯總形成所述兩個文檔的中指紋標識,并放入信息指紋庫中進行比對;6)對所述信息指紋庫中指紋標識相似度進行計算,得到所述兩個文檔的相似度值;7)將相似度值大于設定閾值的兩文檔作為相似文檔,按照設定方式輸出所有或部分相似文檔。
2.如權利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述分段信息指紋通過唯一記數器記錄。
3.如權利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述停用詞中按照書寫習慣由左到右進行提取同時去掉連續(xù)的重復詞。
4.如權利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述正常語義詞選用至少一個以上。
5.如權利要求I或4所述的基于停用詞的相似文檔查詢方法,其特征在于,所述正常語義詞選用2個。
6.如權利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述信息指紋庫通過用戶計算機保存至本地或上傳到遠端服務器。
7.如權利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述停用詞通過連續(xù)提取得到。
8.如權利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述字符信息包括中文標點、符號亂碼。
9.如權利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述指紋庫中指紋標識相似度通過jaccard相似性算法計算。
10.如權利要求I所述的基于停用詞的相似文檔查詢方法,其特征在于,所述指紋庫中指紋標識相似度通過Euclidean Distances或Cosine Distance方法計算。
全文摘要
本發(fā)明涉及基于停用詞的相似文檔查詢方法,步驟為1)將待查詢的兩文檔進行歸一化處理,去除文檔中所有非中文字字符信息;2)根據分詞詞典對兩個文檔進行分詞操作,將該些文檔轉化成詞匯流;3)在詞匯流中按照書寫習慣提取得到停用詞;4)將停用詞后面的正常語義詞和該停用詞組合成分段信息指紋;5)把分段信息指紋分別匯總形成兩個文檔的中指紋標識,并放入信息指紋庫中進行比對;6)對信息指紋庫中指紋標識相似度進行計算,得到兩個文檔的相似度值;7)將相似度值大于設定閾值的兩文檔作為相似文檔,按照設定方式輸出所有或部分相似文檔。本發(fā)明使用“中文停用詞”+多個“后續(xù)詞”的方法,符合中文語境,具備更好比較效果。
文檔編號G06F17/30GK102937994SQ201210461090
公開日2013年2月20日 申請日期2012年11月15日 優(yōu)先權日2012年11月15日
發(fā)明者林述民 申請人:北京銳安科技有限公司