相似數(shù)據(jù)排重方法

文檔序號：6353513閱讀：525來源：國知局

專利名稱：相似數(shù)據(jù)排重方法
技術領域：
本發(fā)明涉及數(shù)據(jù)信息處理技術領域，特別涉及的是一種能夠對大規(guī)模相似數(shù)據(jù)信息進行排重處理的方法。
背景技術：
隨著信息技術的不斷發(fā)展，各類信息大量涌現(xiàn)，實際應用中，對大量數(shù)據(jù)進行排重的要求越來越多。例如在搜索引擎系統(tǒng)中，需要判斷哪些數(shù)據(jù)信息已經(jīng)收集在系統(tǒng)中。由于互聯(lián)網(wǎng)的數(shù)據(jù)信息眾多，須要有專門的方法對新發(fā)現(xiàn)的數(shù)據(jù)信息進行判斷，檢查其是否已經(jīng)收錄于信息庫中，如果該數(shù)據(jù)信息已經(jīng)存在，只需要進行更新信息來源屬性；如果該數(shù)據(jù)信息不存在，則需要進行數(shù)據(jù)信息的收集以及標識信息來源屬性的新建操作。又如在電信業(yè)務方面，運營商在向用戶提供數(shù)據(jù)類業(yè)務服務的過程中需要對該用戶所使用業(yè)務的信息進行準確記錄，以作為計費依據(jù)，如果不對該用戶所使用的大量的各種電信業(yè)務的記錄數(shù)據(jù)進行排重工作，很容易造成重復收費的情況；再如文獻數(shù)據(jù)庫的管理及維護工作中，也需要判斷哪些相同或相似的文獻已經(jīng)收集在文獻數(shù)據(jù)庫中，如果該文獻數(shù)據(jù)已經(jīng)存在，只需要進行更新該文獻的來源屬性；如果該文獻數(shù)據(jù)不存在，則需要進行文獻數(shù)據(jù)的收集以及標識信息來源屬性的新建操作。然而，目前大多數(shù)排重方法可以實現(xiàn)完全相同數(shù)據(jù)的快速排重處理，對于如何解決數(shù)據(jù)不相同、反映信息相同的排重即相似數(shù)據(jù)排重仍沒有有效的實施方法，所以，對相似數(shù)據(jù)的排重成為了一個新的方向。為克服上述缺陷，本發(fā)明的創(chuàng)作者經(jīng)過長時間的研究和實踐獲得了本創(chuàng)作。

發(fā)明內容
本發(fā)明的主要目的在于克服現(xiàn)有技術的不足，提供了一種相似數(shù)據(jù)排重方法，實現(xiàn)了對相似數(shù)據(jù)的快速、準確的排重處理。為達到上述目的，本發(fā)明采用的技術方案在于，提供一種相似數(shù)據(jù)排重方法，其包括以下步驟將所獲取的相似數(shù)據(jù)輸入至服務器；提取所述的相似數(shù)據(jù)的特征向量，對所述的特征向量的每個信息進行預處理，得到每個所述的信息的字符型索引數(shù)據(jù)；對每個所述的索引數(shù)據(jù)進行編碼轉換，生成每個所述的信息的數(shù)值型哈希數(shù)據(jù)；以及根據(jù)所述的信息的權重，逐一判斷所述的特征向量的哈希數(shù)據(jù)與數(shù)據(jù)庫服務器中存儲的標準數(shù)據(jù)信息是否為相同的數(shù)據(jù)，并將結果返回給用戶。實施時，若所獲取的相似數(shù)據(jù)是多個相似數(shù)據(jù)，則還包括步驟將多個所述的特征向量的哈希數(shù)據(jù)按值聚類，每個類包含多個所述的特征向量的同一值的信息。
3
實施時，對所述的信息的預處理包括以下步驟獲取服務器中與所述的相似數(shù)據(jù)結構一致的信息字典；過濾所述的信息中干擾排重結果的噪聲詞；將完成噪聲詞過濾的每一所述的信息進行拆分，得到多個拆分數(shù)據(jù)；對照所述的信息字典分別對所述的拆分數(shù)據(jù)進行檢驗及修正處理；以及將上述處理后的拆分數(shù)據(jù)按照預定的字符結構重新格式化，得到與數(shù)據(jù)庫服務器中的標準數(shù)據(jù)信息的結構一致的待檢驗數(shù)據(jù)。其中，對所述的相似數(shù)據(jù)的拆分方式包括按字符進行拆分、按間隔符及字符個數(shù)進行拆分或者以所述的信息字典的字符為標準進行拆分。實施時，對所述的索引數(shù)據(jù)進行編碼轉換采用MD5哈希函數(shù)或SHA-I哈希函數(shù)實現(xiàn)。其中，所述的相似數(shù)據(jù)是指需要參與排重處理，由若干屬性組成，能反映完整信息的數(shù)據(jù)實例。特征向量是指相似數(shù)據(jù)的固有屬性。假設數(shù)據(jù)源為數(shù)據(jù)庫中的表，則屬性對應表中字段。本發(fā)明的有益效果通過本發(fā)明的方法可以快速的對相似數(shù)據(jù)進行排重處理，經(jīng)過相似數(shù)據(jù)的預處理，使得相似數(shù)據(jù)的存儲形式得到統(tǒng)一規(guī)范，提高了排重的正確性；同時通過對相似數(shù)據(jù)的編碼變換，將相似數(shù)據(jù)轉換為數(shù)值型哈希數(shù)據(jù)，壓縮了數(shù)據(jù)空間，提高了系統(tǒng)響應的速度。

圖I為本發(fā)明的相似數(shù)據(jù)排重方法的第一實施例；圖2為本發(fā)明的相似數(shù)據(jù)排重方法的第二實施例；圖3為本發(fā)明的相似數(shù)據(jù)排重方法的數(shù)據(jù)預處理過程的流程圖。
具體實施例方式下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例。本發(fā)明的相似數(shù)據(jù)的排重是指對那些數(shù)據(jù)不同，但反應的信息相同的數(shù)據(jù)進行排重；本發(fā)明的相似數(shù)據(jù)可以是單個相似數(shù)據(jù)，也可以是多個相似數(shù)據(jù)。請參閱圖1，為本發(fā)明的第一實施例，即所獲取的相似數(shù)據(jù)為單個相似數(shù)據(jù)的情況，本發(fā)明提供的一種相似數(shù)據(jù)排重方法，包括以下步驟步驟I :將所獲取的相似數(shù)據(jù)輸入至服務器；步驟2 :提取所述的相似數(shù)據(jù)的特征向量，對所述的特征向量的每個信息進行預處理，得到每個所述的信息的字符型索引數(shù)據(jù)；步驟3 :對每個所述的索引數(shù)據(jù)進行編碼轉換，使用預定字符替代所述的索引數(shù)據(jù)中的相似字符，并將編碼轉換后的索引數(shù)據(jù)生成每個所述的信息的數(shù)值型哈希數(shù)據(jù)；以及步驟4:根據(jù)所述的信息的權重，逐一判斷所述的特征向量的哈希數(shù)據(jù)與數(shù)據(jù)庫服務器中存儲的標準數(shù)據(jù)信息是否為相同的數(shù)據(jù)，并將結果返回給用戶。其中，所述的相似數(shù)據(jù)是指需要參與排重處理，由若干屬性信息組成，并能反映完整信息的數(shù)據(jù)實例。其中，所述的特征向量是指相似數(shù)據(jù)的固有屬性，即可以用于進行相似數(shù)據(jù)排重處理的字段；例如，若數(shù)據(jù)源為數(shù)據(jù)庫中的表，則固有屬性對應表中字段；對于相似數(shù)據(jù)是圖書或文獻來說，其固有屬性包括名稱、責任者、出版發(fā)行機構、出版發(fā)行年份等以上字段的任意組合，但不以此為限，用來唯一標識該相似數(shù)據(jù)。所述的特征向量根據(jù)數(shù)據(jù)源的不同，其屬性的種類和數(shù)量會有所不同。請參閱圖2，為本發(fā)明的第二實施例，即所獲取的相似數(shù)據(jù)為多個相似數(shù)據(jù)的情況，本發(fā)明提供的一種相似數(shù)據(jù)排重方法，包括以下步驟步驟a :將所獲取的相似數(shù)據(jù)輸入至服務器；步驟b :提取所述的相似數(shù)據(jù)的特征向量，對所述的特征向量的每個信息進行預處理，得到每個所述的信息的字符型索引數(shù)據(jù)；步驟c :對每個所述的索引數(shù)據(jù)進行編碼轉換，使用預定字符替代所述的索引數(shù)據(jù)中的相似字符，并將編碼轉換后的索引數(shù)據(jù)生成每個所述的信息的數(shù)值型哈希數(shù)據(jù)；以及步驟d:將多個所述的特征向量的哈希數(shù)據(jù)按屬性值聚類，每個類包含多個所述的特征向量的同一屬性值的信息以提高排重的速度；以及步驟e :根據(jù)每個所述的類的權重判斷多個所述的特征向量的信息與數(shù)據(jù)庫服務器中存儲的標準數(shù)據(jù)信息是否為相同的數(shù)據(jù)，并將結果分別存儲于所述的服務器的相同集合和非相同集合兩個存儲區(qū)域，并將所述的相同集合和非相同集合的存儲結果返回給用戶。其中，所述的相似數(shù)據(jù)是指需要參與排重處理，由若干屬性信息組成，并能反映完整信息的數(shù)據(jù)實例。其中，所述的特征向量是指相似數(shù)據(jù)的固有屬性，即可以用于進行相似數(shù)據(jù)排重處理的字段；例如，若數(shù)據(jù)源為數(shù)據(jù)庫中的表，則固有屬性對應表中字段；對于相似數(shù)據(jù)是圖書或文獻來說，其固有屬性包括名稱、責任者、出版發(fā)行機構、出版發(fā)行年份等以上字段的任意組合，但不以此為限，用來唯一標識該相似數(shù)據(jù)。所述的特征向量根據(jù)數(shù)據(jù)源的不同，其屬性的種類和數(shù)量會有所不同。本發(fā)明的第一實施例或第二實施例在實施時，步驟4及步驟e中的判斷過程是根據(jù)所述的相似數(shù)據(jù)的特征向量的每個信息的權重進行判斷，首先對權重最大的信息的哈希數(shù)據(jù)進行判斷，若數(shù)據(jù)庫服務器中不存在該哈希數(shù)據(jù)，則該哈希數(shù)據(jù)所對應的相似數(shù)據(jù)為不同的數(shù)據(jù)，并將該相似數(shù)據(jù)置于非相同集合；若數(shù)據(jù)庫服務器中存在該哈希數(shù)據(jù)，則繼續(xù)判斷權重次之的信息的哈希數(shù)據(jù)，直至該相似數(shù)據(jù)的所有的信息的哈希數(shù)據(jù)與所述的數(shù)據(jù)庫服務器中已存在的數(shù)據(jù)的所有的對應的信息相同，則該相似數(shù)據(jù)為已存在的數(shù)據(jù)，并將該相似數(shù)據(jù)置于相同集合。例如，若相似數(shù)據(jù)來源于數(shù)據(jù)庫中的某一個表，根據(jù)該相似數(shù)據(jù)的特征向量，生成檢驗執(zhí)行標準在判斷時，首先對該相似數(shù)據(jù)的一個屬性字段進行判斷，如果不同，則判斷為非相同，并將該相似數(shù)據(jù)置于非相同集合；如果相同，則繼續(xù)擴展其他屬性進行判斷，直至該相似數(shù)據(jù)的每個屬性字段都相同，則判斷為相同，并將該相似數(shù)據(jù)置于相同集合。本發(fā)明的第一實施例或第二實施例在實施時，對所述的索引數(shù)據(jù)進行編碼轉換可采用MD5哈希函數(shù)或SHA-I哈希函數(shù)等方法實現(xiàn)；并且可以是二進制、八進制等多種形式存儲。本發(fā)明的第一實施例或第二實施例在實施時，可將所述的相同集合和非相同集合為所述的服務器中的兩個存儲區(qū)域。本發(fā)明的第一實施例或第二實施例在實施時，可以將數(shù)據(jù)排重的結果(即相同的相似數(shù)據(jù)及非相同的相似數(shù)據(jù))分別以兩個集合的模式返回給用戶，以供用戶后期處理。請參閱圖3，本發(fā)明的第一實施例或第二實施例在實施時，對相似數(shù)據(jù)的預處理包括以下步驟SlOl :獲取服務器中與所述的相似數(shù)據(jù)結構一致的信息字典，以提高預處理的速度及準確度；S102:利用信息字典結構一致性的特點，過濾所述的信息中干擾排重結果的噪聲詞；S103 :將完成噪聲詞過濾的每一所述的信息進行拆分，得到多個拆分數(shù)據(jù)；S104 :對照所述的信息字典分別對所述的拆分數(shù)據(jù)進行檢驗及修正處理；以及S105:將上述處理后的拆分數(shù)據(jù)按照預定的字符結構重新格式化，得到與數(shù)據(jù)庫服務器中的標準數(shù)據(jù)信息的結構一致的待檢驗數(shù)據(jù)。其中，對所述的相似數(shù)據(jù)的拆分方式包括對字符進行拆分、按間隔符及字符個數(shù)進行拆分或者以所述的信息字典的字符為標準進行拆分，但拆分方式不限于此。其中，所述的信息字典是指字符的集合。其中，所述的噪聲詞是指與數(shù)據(jù)整體結構不一致、干擾排重結果的字符。其中，錯誤詞是指明顯不符合規(guī)范的字符。較佳地，為了提高排重的速度，可根據(jù)信息的特征，生成對應的檢驗執(zhí)行標準；在排重過程中，可以將每種信息對應的檢驗執(zhí)行標準配置保存到服務器中，從而提高了其通用性。經(jīng)過數(shù)據(jù)預處理，使得相似數(shù)據(jù)的存儲形式得到統(tǒng)一規(guī)范，提高了排重的正確性；同時通過數(shù)據(jù)編碼模塊，將相似數(shù)據(jù)轉換為數(shù)值型，壓縮了數(shù)據(jù)空間，提高了系統(tǒng)響應的速度。最后應說明的是以上實施例僅用以說明本發(fā)明的技術方案，而非對其進行限制；本領域的普通技術人員可以對發(fā)明的技術方案進行修改，或者對其中部分技術特征進行等同替換；而這些修改或者替換，并不使相應技術方案的本質脫離本發(fā)明實施例技術方案的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍之內，則本發(fā)明也包含這些改動和變型在內。
權利要求
1.一種相似數(shù)據(jù)排重方法，其特征在于，其包括以下步驟將所獲取的相似數(shù)據(jù)輸入至服務器；提取所述的相似數(shù)據(jù)的特征向量，對所述的特征向量的每個信息進行預處理，得到每個所述的信息的字符型索引數(shù)據(jù)；對每個所述的索引數(shù)據(jù)進行編碼轉換，生成每個所述的信息的數(shù)值型哈希數(shù)據(jù)；以及根據(jù)所述的信息的權重，逐一判斷所述的特征向量的哈希數(shù)據(jù)與數(shù)據(jù)庫服務器中存儲的標準數(shù)據(jù)信息是否為相同的數(shù)據(jù)，并將結果返回給用戶。
2.根據(jù)權利要求I所述的相似數(shù)據(jù)排重方法，其特征在于，若所獲取的相似數(shù)據(jù)是多個相似數(shù)據(jù)，則還包括步驟將多個所述的特征向量的哈希數(shù)據(jù)按值聚類，每個類包含多個所述的特征向量的同一值的信息。
3.根據(jù)權利要求I或2所述的相似數(shù)據(jù)排重方法，其特征在于，步驟2中對所述的信息的預處理包括以下步驟獲取服務器中與所述的相似數(shù)據(jù)結構一致的信息字典；過濾所述的信息中干擾排重結果的噪聲詞；將完成噪聲詞過濾的每一所述的信息進行拆分，得到多個拆分數(shù)據(jù)；對照所述的信息字典分別對所述的拆分數(shù)據(jù)進行檢驗及修正處理；以及將上述處理后的拆分數(shù)據(jù)按照預定的字符結構重新格式化，得到與數(shù)據(jù)庫服務器中的標準數(shù)據(jù)信息的結構一致的待檢驗數(shù)據(jù)。
4.根據(jù)權利要求3所述的相似數(shù)據(jù)排重方法，其特征在于，對所述的相似數(shù)據(jù)的拆分方式至少包括按字符進行拆分、按間隔符及字符個數(shù)進行拆分或者以所述的信息字典的字符為標準進行拆分。
5.根據(jù)權利要求I或2所述的相似數(shù)據(jù)排重方法，其特征在于，對所述的索引數(shù)據(jù)進行編碼轉換采用MD5哈希函數(shù)或SHA-I哈希函數(shù)實現(xiàn)。
全文摘要
本發(fā)明提供了一種相似數(shù)據(jù)排重方法，包括以下步驟將所獲取的相似數(shù)據(jù)輸入至服務器；提取相似數(shù)據(jù)的特征向量，對特征向量的每個信息進行預處理，得到每個信息的字符型索引數(shù)據(jù)；對每個索引數(shù)據(jù)進行編碼轉換，生成每個信息的數(shù)值型哈希數(shù)據(jù)；以及根據(jù)信息的權重，逐一判斷特征向量的哈希數(shù)據(jù)與數(shù)據(jù)庫服務器中存儲的標準數(shù)據(jù)信息是否為相同的數(shù)據(jù)，并將結果返回給用戶。通過本發(fā)明的方法可以快速的對數(shù)據(jù)不同但反應信息相同的相似數(shù)據(jù)進行排重處理，且其正確率高，穩(wěn)定性好。
文檔編號G06F17/30GK102609419SQ201110023939
公開日2012年7月25日申請日期2011年1月21日優(yōu)先權日2011年1月21日
發(fā)明者楊健申請人:北京世紀讀秀技術有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：楊健
技術所有人：北京世紀讀秀技術有限公司
我是此專利的發(fā)明人

上一篇：基于網(wǎng)格的計算化學過程可視化系統(tǒng)及控制方法
上一篇：數(shù)據(jù)質量級別判斷方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

兩組數(shù)據(jù)相似性分析相關技術

判斷兩組數(shù)據(jù)的相似性相關技術

數(shù)據(jù)相似度相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

相似數(shù)據(jù)排重方法