本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種海量數(shù)據(jù)的清洗方法和系統(tǒng)。
背景技術(shù):
隨著計算機技術(shù)的飛速發(fā)展及企業(yè)業(yè)務(wù)量的增長,企業(yè)的用戶數(shù)據(jù)越來越多,不可避免的,數(shù)據(jù)的錯誤率也相應(yīng)增多,在對數(shù)據(jù)做統(tǒng)計分析之前,需要將這些錯誤數(shù)據(jù)清洗掉,以確保統(tǒng)計的準確性?,F(xiàn)有數(shù)據(jù)清洗任務(wù)指的是過濾或修改不符合要求的數(shù)據(jù),這些不符合要求的數(shù)據(jù)主要包括:不完整數(shù)據(jù)、錯誤數(shù)據(jù)和重復(fù)數(shù)據(jù)共三大類。其中,識別重復(fù)數(shù)據(jù)是數(shù)據(jù)清洗的核心,重復(fù)數(shù)據(jù)是指,同一實體在數(shù)據(jù)集合中用多條不完全相同的記錄來表示,由于它們在格式、拼寫上的差異,導(dǎo)致數(shù)據(jù)庫管理系統(tǒng)不能正確識別。
但是,現(xiàn)有的數(shù)據(jù)清洗方法在面對海量數(shù)據(jù)時表現(xiàn)出來的清洗性能較低、清洗速度較慢,直接使用現(xiàn)有的數(shù)據(jù)清洗方法,會制約海量數(shù)據(jù)清洗的速度和效率。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種海量數(shù)據(jù)的清洗方法和系統(tǒng),用于提高數(shù)據(jù)清洗的速度和效率。
為了實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種海量數(shù)據(jù)的清洗方法,包括:
步驟S1:根據(jù)預(yù)設(shè)數(shù)據(jù)塊個數(shù)N,將映射歸約并行計算框架內(nèi)映射函數(shù)的個數(shù)設(shè)置為N,將歸約函數(shù)的個數(shù)設(shè)為1;
步驟S2:利用映射歸約并行計算框架內(nèi)N個映射函數(shù)將海量數(shù)據(jù)分成N個數(shù)據(jù)塊,對每個數(shù)據(jù)塊中的數(shù)據(jù)進行清洗,得到多個清洗的數(shù)據(jù)塊;
步驟S3:利用歸約函數(shù)整合多個清洗的數(shù)據(jù)塊,得到整合數(shù)據(jù);對整合數(shù)據(jù)進行清洗,完成海量數(shù)據(jù)的清洗。
與現(xiàn)有技術(shù)相比,本發(fā)明提供的海量數(shù)據(jù)的清洗方法具有如下有益效果:
本發(fā)明提供的海量數(shù)據(jù)的清洗方法,根據(jù)預(yù)設(shè)數(shù)據(jù)塊個數(shù)N,將映射歸約并行計算框架內(nèi)映射函數(shù)的個數(shù)設(shè)置為N,將歸約函數(shù)的個數(shù)設(shè)為1,然后利用映射歸約并行計算框架內(nèi)N個映射函數(shù)將海量數(shù)據(jù)分成N個數(shù)據(jù)塊,這樣即可對每個數(shù)據(jù)塊中的數(shù)據(jù)同時進行清洗,實現(xiàn)整個清洗過程的并行化,從而提高海量數(shù)據(jù)清洗的速度和效率,然后,利用歸約函數(shù)將多個清洗后的數(shù)據(jù)塊進行整合,得到整合數(shù)據(jù),通過最終對整合數(shù)據(jù)的清洗,即可完成海量數(shù)據(jù)的清洗;因此,本發(fā)明提供的海量數(shù)據(jù)的清洗方法能夠避免直接在清洗范圍較大的海量信息數(shù)據(jù)庫中對數(shù)據(jù)執(zhí)行清洗操作,極大的提升了海量數(shù)據(jù)的清洗速度和效率;并且,因為本發(fā)明實施例利用映射歸約并行計算框架內(nèi)N個映射函數(shù)將海量數(shù)據(jù)分成N個數(shù)據(jù)塊,所以在向海量數(shù)據(jù)中增加新的數(shù)據(jù)時,對原來已經(jīng)清洗過的數(shù)據(jù)就不用再次進行清洗,僅需令新增加的數(shù)據(jù)組成一個新的數(shù)據(jù)塊對其進行清洗即可,也就是說,本發(fā)明實施例能夠?qū)崿F(xiàn)清洗過程的增量化,保證清洗過程在實際應(yīng)用過程中的連續(xù)性,進一步提升了海量數(shù)據(jù)的清洗速度和效率。
本發(fā)明提供一種海量數(shù)據(jù)的清洗系統(tǒng),包括:
映射歸約并行計算單元和清洗單元;所述映射歸約并行計算單元包括分塊單元和整合單元;所述清洗單元包括第一清洗單元和第二清洗單元;所述分塊單元的輸出端與第一清洗單元的輸入端相連,所述第一清洗單元的輸出端與整合單元的輸入端相連,所述整合單元的輸出端與第二清洗單元的輸入端相連;
所述分塊單元用于根據(jù)預(yù)設(shè)數(shù)據(jù)塊個數(shù)N,將映射歸約并行計算框架內(nèi)映射函數(shù)的個數(shù)設(shè)置為N,將歸約函數(shù)的個數(shù)設(shè)為1,以及利用映射歸約并行計算框架內(nèi)N個映射函數(shù)將海量數(shù)據(jù)分成N個數(shù)據(jù)塊;
所述第一清洗單元用于對每個數(shù)據(jù)塊中的數(shù)據(jù)進行清洗,得到多個清洗的數(shù)據(jù)塊;
所述整合單元用于利用歸約函數(shù)整合多個清洗的數(shù)據(jù)塊,得到整合數(shù)據(jù);
所述第二清洗單元用于對整合數(shù)據(jù)進行清洗,完成海量數(shù)據(jù)的清洗。
與現(xiàn)有技術(shù)相比,本發(fā)明提供的海量數(shù)據(jù)的清洗系統(tǒng)的有益效果與上述技術(shù)方案提供的海量數(shù)據(jù)的清洗方法的有益效果相同,在此不做贅述。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。在附圖中:
圖1為本發(fā)明實施例一提供的海量數(shù)據(jù)的清洗方法的流程圖一;
圖2為本發(fā)明實施例一提供的海量數(shù)據(jù)的清洗方法的流程圖二;
圖3為本發(fā)明實施例一提供的海量數(shù)據(jù)的清洗方法的流程圖三;
圖4為本發(fā)明實施例一提供的海量數(shù)據(jù)的清洗方法的流程圖四;
圖5為本發(fā)明實施例二提供的海量數(shù)據(jù)的清洗系統(tǒng)的結(jié)構(gòu)示意圖一;
圖6為本發(fā)明實施例二提供的海量數(shù)據(jù)的清洗系統(tǒng)的結(jié)構(gòu)示意圖二;
圖7為本發(fā)明實施例二提供的海量數(shù)據(jù)的清洗系統(tǒng)的結(jié)構(gòu)示意圖三;
圖8為本發(fā)明實施例二提供的海量數(shù)據(jù)的清洗系統(tǒng)的結(jié)構(gòu)示意圖四。
附圖標記:
1-映射歸約并行計算單元, 2-清洗單元;
11-分塊單元, 12-整合單元;
21-第一清洗單元, 22-第二清洗單元;
211-實體名稱識別單元, 212-清洗執(zhí)行單元;
2121-預(yù)處理單元, 2122-相似度計算單元;
2123-判斷單元, 2124-第一標記單元;
221-合并單元, 222-第二標記單元。
具體實施方式
為了進一步說明本發(fā)明實施例提供的海量數(shù)據(jù)的清洗方法和系統(tǒng),下面結(jié)合說明書附圖進行詳細描述。
實施例一
請參閱圖1,本實施例提供一種海量數(shù)據(jù)的清洗方法,包括:
步驟S1:根據(jù)預(yù)設(shè)數(shù)據(jù)塊個數(shù)N,將映射歸約并行計算框架內(nèi)映射函數(shù)的個數(shù)設(shè)置為N,將歸約函數(shù)的個數(shù)設(shè)為1;
步驟S2:利用映射歸約并行計算框架內(nèi)N個映射函數(shù)將海量數(shù)據(jù)分成N個數(shù)據(jù)塊,對每個數(shù)據(jù)塊中的數(shù)據(jù)進行清洗,得到多個清洗的數(shù)據(jù)塊;
步驟S3:利用歸約函數(shù)整合多個清洗的數(shù)據(jù)塊,得到整合數(shù)據(jù);對整合數(shù)據(jù)進行清洗,完成海量數(shù)據(jù)的清洗。
通過上述海量數(shù)據(jù)的清洗方法可知,本實施例提供的海量數(shù)據(jù)的清洗方法,根據(jù)預(yù)設(shè)數(shù)據(jù)塊個數(shù)N,將映射歸約并行計算框架內(nèi)映射函數(shù)的個數(shù)設(shè)置為N,將歸約函數(shù)的個數(shù)設(shè)為1,然后利用映射歸約并行計算框架內(nèi)N個映射函數(shù)將海量數(shù)據(jù)分成N個數(shù)據(jù)塊,這樣即可對每個數(shù)據(jù)塊中的數(shù)據(jù)同時進行清洗,實現(xiàn)整個清洗過程的并行化,從而提高海量數(shù)據(jù)清洗的速度和效率,然后,利用歸約函數(shù)將多個清洗后的數(shù)據(jù)塊進行整合,得到整合數(shù)據(jù),通過最終對整合數(shù)據(jù)的清洗,即可完成海量數(shù)據(jù)的清洗;因此,本實施例提供的海量數(shù)據(jù)的清洗方法能夠避免直接在清洗范圍較大的海量信息數(shù)據(jù)庫中對數(shù)據(jù)執(zhí)行清洗操作,極大的提升了海量數(shù)據(jù)的清洗速度和效率;并且,因為本實施例利用映射歸約并行計算框架內(nèi)N個映射函數(shù)將海量數(shù)據(jù)分成N個數(shù)據(jù)塊,所以在向海量數(shù)據(jù)中增加新的數(shù)據(jù)時,對原來已經(jīng)清洗過的數(shù)據(jù)就不用再次進行清洗,僅需令新增加的數(shù)據(jù)組成一個新的數(shù)據(jù)塊對其進行清洗即可,也就是說,本發(fā)明實施例能夠?qū)崿F(xiàn)清洗過程的增量化,保證清洗過程在實際應(yīng)用過程中的連續(xù)性,進一步提升了海量數(shù)據(jù)的清洗速度和效率。
具體的,如圖2所示,上述實施例的步驟S2中對每個數(shù)據(jù)塊中的數(shù)據(jù)進行清洗,得到多個清洗的數(shù)據(jù)塊的方法包括:
步驟S21:識別數(shù)據(jù)塊中數(shù)據(jù)的實體名稱,獲取數(shù)據(jù)塊中數(shù)據(jù)的對象類型;
步驟S22:根據(jù)數(shù)據(jù)塊中數(shù)據(jù)的對象類型,對數(shù)據(jù)塊中的數(shù)據(jù)進行清洗,得到清洗的數(shù)據(jù)塊。
需要說明的是,上述步驟S21中識別數(shù)據(jù)塊中數(shù)據(jù)的實體名稱是通過對數(shù)據(jù)塊中數(shù)據(jù)字段的解析來實現(xiàn)的,進一步地,本實施例通過對數(shù)據(jù)塊中數(shù)據(jù)字段的解析,獲取數(shù)據(jù)塊中數(shù)據(jù)的對象類型,然后根據(jù)數(shù)據(jù)的對象類型,自動觸發(fā)與數(shù)據(jù)塊中數(shù)據(jù)的對象類型相對應(yīng)的數(shù)據(jù)清洗模型對數(shù)據(jù)塊中的數(shù)據(jù)進行清洗,得到清洗的數(shù)據(jù)塊,即本發(fā)明實施例通過建立一個包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的統(tǒng)一海量數(shù)據(jù)清洗模型,這樣在獲取數(shù)據(jù)塊中數(shù)據(jù)的不同對象類型后,即可根據(jù)數(shù)據(jù)的對象類型,自動觸發(fā)包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的統(tǒng)一海量數(shù)據(jù)清洗模型中,與數(shù)據(jù)塊中數(shù)據(jù)的對象類型相對應(yīng)的數(shù)據(jù)清洗模型進行清洗,以實現(xiàn)統(tǒng)一清洗結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù)的效果。
可以理解的是,上述實體名稱包括:時間、姓名、組織機構(gòu)名、地名中的一種或多種,相應(yīng)的,數(shù)據(jù)清洗模型包括:時間類、字符串類數(shù)據(jù)清洗模型、姓名清洗模型、組織機構(gòu)名清洗模型、地名清洗模型中的一種或多種。
需要說明的是,對于姓名清洗模型、地名清洗模型和組織機構(gòu)名清洗模型,上述實施例可以利用條件隨機場算法(Conditional Random Fields,以下簡稱CRFS)對數(shù)據(jù)塊中數(shù)據(jù)的對象類型(姓名、地名和組織機構(gòu)名)進行識別,并觸發(fā)相應(yīng)的清洗模型(姓名清洗模型、地名清洗模型和組織機構(gòu)名清洗模型)完成數(shù)據(jù)清洗。
需要注意的是,基于CRFS的命名實體識別可用的特征很多,特征選取的優(yōu)劣直接影響系統(tǒng)的性能。在本實施例中,姓名清洗模型、地名清洗模型和組織機構(gòu)名清洗模型分別使用以下特征:相同字段名、時間信息、來源是否為同一文件。
另外,對于時間類、字符串類數(shù)據(jù)清洗模型,本實施例建立包括阿拉伯數(shù)字半角、全角符號、數(shù)字大寫符號、英文字母大小寫的全角以及半角符號、特殊量度單位符號(如@、噸、克)等的專家知識庫集合,通過配置有限狀態(tài)自動機實現(xiàn)對不同來源的數(shù)字和字符串記錄進行規(guī)范化表達。
具體清洗時,如圖3所示,步驟S22中對數(shù)據(jù)塊中的數(shù)據(jù)進行清洗,得到清洗的數(shù)據(jù)塊的方法包括:步驟S221:將數(shù)據(jù)塊中的數(shù)據(jù)進行預(yù)處理,使數(shù)據(jù)塊中的數(shù)據(jù)格式統(tǒng)一;步驟S222:計算實體名稱相同的數(shù)據(jù)的內(nèi)容相似度。
示例性的,計算實體名稱相同的數(shù)據(jù)的內(nèi)容前,還包括:按照預(yù)設(shè)實體關(guān)鍵字對數(shù)據(jù)塊中的數(shù)據(jù)進行排序,這樣即可在進行相似度計算之前盡可能的將潛在的可能的重復(fù)數(shù)據(jù)調(diào)整到相鄰的位置區(qū)域內(nèi),從而提高后續(xù)的相似度計算速度,節(jié)省了在數(shù)據(jù)量較大的數(shù)據(jù)塊中去查找相同實體名稱數(shù)據(jù)的時間。
其中,預(yù)設(shè)實體關(guān)鍵字可以根據(jù)實際情況進行選取,具體可以通過對數(shù)據(jù)包含的實體名稱賦予不同的權(quán)重來表示,將權(quán)重大的作為當前排序的預(yù)設(shè)實體關(guān)鍵字,這是考慮到數(shù)據(jù)中不同實體名稱對反映數(shù)據(jù)特征的貢獻是不同的,因此在衡量兩條數(shù)據(jù)的相似度時,不同的實體名稱應(yīng)賦予不同的權(quán)重,通過所賦予的權(quán)重表明一個實體在決定兩條數(shù)據(jù)相似性中的重要程度,重要程度大的,分配的權(quán)重就大。例如:在進行客戶資料的數(shù)據(jù)清洗中,通過識別數(shù)據(jù)塊中數(shù)據(jù)的實體名稱,可以得到如姓名、地址、郵箱等對象類型,而因為此時姓名要比地址和郵箱更能反映該條數(shù)據(jù)的特征,因此,就可以考慮給姓名賦予的權(quán)重為0.5,地址賦予的權(quán)重為0.3,郵箱賦予的權(quán)重為0.2,在這里對于不同實體名稱的權(quán)重,可以根據(jù)實際情況由用戶提供,在重復(fù)數(shù)據(jù)的清洗過程中,可以對權(quán)重進行調(diào)整,以便找出更多的重復(fù)數(shù)據(jù)。
在計算出相似度后,進入步驟S223:判斷相似度值是否大于預(yù)設(shè)閾值,當相似度值大于預(yù)設(shè)閾值時,標記實體名稱相同的數(shù)據(jù)為重復(fù)數(shù)據(jù),并給相應(yīng)數(shù)據(jù)打上重復(fù)數(shù)據(jù)標簽,得到清洗的數(shù)據(jù)塊。
映射階段的清洗完畢后,如圖1所示,進入步驟S3:利用歸約函數(shù)整合多個清洗的數(shù)據(jù)塊,得到整合數(shù)據(jù),然后對整合數(shù)據(jù)進行清洗,完成海量數(shù)據(jù)的清洗,具體的,如圖4所示,步驟S3中對整合數(shù)據(jù)進行清洗,完成海量數(shù)據(jù)的清洗的方法包括:
步驟S31:合并多個清洗的數(shù)據(jù)塊中具有重復(fù)數(shù)據(jù)標簽的數(shù)據(jù),得到合并數(shù)據(jù);這樣就能夠保留重復(fù)數(shù)據(jù)中最完整的那條數(shù)據(jù)而刪除其他的數(shù)據(jù),使得數(shù)據(jù)庫中每條數(shù)據(jù)都表示不同的實體名稱,進而得到準確的數(shù)據(jù)。
步驟S32:將合并數(shù)據(jù)打上清洗標記,這樣可以使得用戶在后續(xù)對數(shù)據(jù)進行檢索分析時,能夠清楚的區(qū)分合并數(shù)據(jù)與原始數(shù)據(jù),并對合并次數(shù)較多的數(shù)據(jù),也就是容易出現(xiàn)重復(fù)的數(shù)據(jù)提高注意,從而在后續(xù)的數(shù)據(jù)收集和錄入時盡量避免重復(fù)數(shù)據(jù)的出現(xiàn);將合并數(shù)據(jù)打上清洗標記后,將清洗后的數(shù)據(jù)放入目標數(shù)據(jù)庫,結(jié)束清洗。
需要說明的是,本實施例步驟S223中的在判斷出相似度值大于預(yù)設(shè)閾值時,標記實體名稱相同的數(shù)據(jù)為重復(fù)數(shù)據(jù),與步驟S32中將合并數(shù)據(jù)打上清洗標記的作用不同,因為步驟S223中將實體名稱相同的數(shù)據(jù)標記為重復(fù)數(shù)據(jù),所以在進入步驟S31時,可以直接將具有重復(fù)數(shù)據(jù)標簽的數(shù)據(jù)進行合并以完成清洗,而步驟S32中的將合并數(shù)據(jù)打上清洗標記是在清洗完成之后進行的。
實施例二
請參閱圖1和圖5,本實施例提供的海量數(shù)據(jù)的清洗系統(tǒng),包括:映射歸約并行計算單元1和清洗單元2;映射歸約并行計算單元1包括分塊單元11和整合單元12;清洗單元2包括第一清洗單元21和第二清洗單元22;分塊單元11的輸出端與第一清洗單元21的輸入端相連,第一清洗單元21的輸出端與整合單元12的輸入端相連,整合單元12的輸出端與第二清洗單元22的輸入端相連;
分塊單元11用于根據(jù)預(yù)設(shè)數(shù)據(jù)塊個數(shù)N,將映射歸約并行計算框架內(nèi)映射函數(shù)的個數(shù)設(shè)置為N,將歸約函數(shù)的個數(shù)設(shè)為1,以及利用映射歸約并行計算框架內(nèi)N個映射函數(shù)將海量數(shù)據(jù)分成N個數(shù)據(jù)塊;
第一清洗單元21用于對每個數(shù)據(jù)塊中的數(shù)據(jù)進行清洗,得到多個清洗的數(shù)據(jù)塊;
整合單元12用于利用歸約函數(shù)整合多個清洗的數(shù)據(jù)塊,得到整合數(shù)據(jù);
第二清洗單元22用于對整合數(shù)據(jù)進行清洗,完成海量數(shù)據(jù)的清洗。
具體實施時,下面結(jié)合圖1對本發(fā)明實施例提供的海量數(shù)據(jù)的清洗系統(tǒng)完成海量數(shù)據(jù)清洗的過程進行詳細說明。
步驟S1:分塊單元11根據(jù)預(yù)設(shè)數(shù)據(jù)塊個數(shù)N,將映射歸約并行計算框架內(nèi)映射函數(shù)的個數(shù)設(shè)置為N,將歸約函數(shù)的個數(shù)設(shè)為1;
步驟S2:利用映射歸約并行計算框架內(nèi)N個映射函數(shù)將海量數(shù)據(jù)分成N個數(shù)據(jù)塊;然后利用第一清洗單元21對每個數(shù)據(jù)塊中的數(shù)據(jù)進行清洗,得到多個清洗的數(shù)據(jù)塊;
步驟S3:通過整合單元12利用歸約函數(shù)整合多個清洗的數(shù)據(jù)塊,得到整合數(shù)據(jù),然后利用第二清洗單元22對整合數(shù)據(jù)晶型清洗,完成海量數(shù)據(jù)的清洗。
與現(xiàn)有技術(shù)相比,本實施例提供的海量數(shù)據(jù)的清洗系統(tǒng)與上述實施例一提供的海量數(shù)據(jù)的清洗方法的有益效果相同,在此不做贅述。
需要說明的是,分塊單元11和整合單元12屬于映射歸約并行計算單元1的一部分。
具體的,如圖6所示,本實施例中第一清洗單元21具體包括:實體名稱識別單元211和清洗執(zhí)行單元212;分塊單元11的輸出端與實體名稱識別單元211的輸入端相連,實體名稱識別單元211的輸出端與清洗執(zhí)行單元212的輸入端相連,清洗執(zhí)行單元212的輸出端與整合單元12的輸入端相連;
實體名稱識別單元211用于識別數(shù)據(jù)塊中數(shù)據(jù)的實體名稱,獲取數(shù)據(jù)塊中數(shù)據(jù)的對象類型;例如:利用實體名稱識別單元211對數(shù)據(jù)塊中數(shù)據(jù)字段進行解析,以識別數(shù)據(jù)塊中數(shù)據(jù)的實體名稱。
清洗執(zhí)行單元212用于根據(jù)數(shù)據(jù)塊中數(shù)據(jù)的對象類型,對數(shù)據(jù)塊中的數(shù)據(jù)進行清洗,得到清洗的數(shù)據(jù)塊。
可選的,本發(fā)明實施例提供的海量數(shù)據(jù)的清洗系統(tǒng),能夠根據(jù)數(shù)據(jù)的對象類型,自動觸發(fā)與數(shù)據(jù)塊中數(shù)據(jù)的對象類型相對應(yīng)的數(shù)據(jù)清洗模型,然后利用清洗執(zhí)行單元212對數(shù)據(jù)塊中的數(shù)據(jù)進行清洗,得到清洗的數(shù)據(jù)塊;具體如何觸發(fā)與數(shù)據(jù)塊中數(shù)據(jù)的對象類型相對應(yīng)的數(shù)據(jù)清洗模型,可以參閱上述實施例一中相關(guān)部分的描述。
具體的,請參閱圖7,本實施例中的清洗執(zhí)行單元212包括:預(yù)處理單元2121、相似度計算單元2122、判斷單元2123和第一標記單元2124;實體名稱識別單元211的輸出端與預(yù)處理單元2121的輸入端相連,預(yù)處理單元2121的輸出端與相似度計算單元2122的輸入端相連,相似度計算單元2122的輸出端與判斷單元2123的輸入端相連,判斷單元2123的輸出端與第一標記單元2124的輸入端相連,第一標記單元2124的輸出端與整合單元12的輸入端相連。
在具體實施時,利用預(yù)處理單元2121對數(shù)據(jù)塊中的數(shù)據(jù)進行預(yù)處理,使數(shù)據(jù)塊中的數(shù)據(jù)格式統(tǒng)一;利用相似度計算單元2122計算實體名稱相同的數(shù)據(jù)的內(nèi)容相似度;利用判斷單元2123判斷相似度值是否大于預(yù)設(shè)閾值;在判斷出相似度值大于預(yù)設(shè)閾值時,利用第一標記單元2124標記相同實體數(shù)據(jù)為重復(fù)數(shù)據(jù),并給相應(yīng)數(shù)據(jù)打上重復(fù)數(shù)據(jù)標簽,得到清洗的數(shù)據(jù)塊。
并且,如圖8所示,本實施例提供的第二清洗單元22包括合并單元221和第二標記單元222;整合單元12的輸出端與合并單元221的輸入端相連,合并單元221的輸出端與第二標記單元222的輸入端相連;
具體實施時,利用合并單元221合并多個清洗的數(shù)據(jù)塊中具有重復(fù)數(shù)據(jù)標簽的數(shù)據(jù),得到合并數(shù)據(jù);這樣就能夠保留重復(fù)數(shù)據(jù)中最完整的那條數(shù)據(jù)而刪除其他的數(shù)據(jù),使得數(shù)據(jù)庫中每條數(shù)據(jù)都表示不同的實體,進而得到準確的數(shù)據(jù),然后利用第二標記單元222將合并數(shù)據(jù)打上清洗標記,結(jié)束清洗。
需要說明的是,本實施例中的第一標記單元2124在判斷出相似度值大于預(yù)設(shè)閾值時,標記實體名稱相同的數(shù)據(jù)為重復(fù)數(shù)據(jù),與第二標記單元222將合并數(shù)據(jù)打上清洗標記的作用是不同的,因為第一標記單元2124將實體名稱相同的數(shù)據(jù)標記為重復(fù)數(shù)據(jù),所以在進入步驟S31時,可以直接利用合并單元221將具有重復(fù)數(shù)據(jù)標簽的數(shù)據(jù)進行合并以完成清洗,而第二標記單元222是用于在步驟S32中將合并數(shù)據(jù)打上清洗標記,是在清洗完成之后進行的。
在上述實施方式的描述中,具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準。