數據加工方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及計算機信息處理【技術領域】,提供一種數據加工方法及系統(tǒng),以解決數據加工過程中數據整合利用困難的問題。該數據加工方法主要包括從數據源采集數據、對數據進行加工整理、對加工整理后的數據進行校驗、將校驗后的數據根據應用需求輸出,本發(fā)明提出的技術方案將數據進行了清理,規(guī)范了數據格式,通過二次加工提高了數據的適用范圍。
【專利說明】 數據加工方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及計算機信息處理【技術領域】,特別涉及一種數據加工方法及系統(tǒng)。
【背景技術】
[0002]隨著大數據相關領域快速發(fā)展,將不同系統(tǒng)、不同數據庫的數據進行整合,并應用到新的數據應用軟件中或者進行數據的深度挖掘已成為大數據領域的發(fā)展方向。目前,在數據加工方面最大的難點在于由于數據來源不同、數據的時間節(jié)點不同、數據的應用需求不同,導致數據的統(tǒng)一性、完整性殘缺,影響數據的整合和利用。
【發(fā)明內容】
[0003]【要解決的技術問題】
[0004]本發(fā)明的目的是提供一種數據加工方法及系統(tǒng),以解決數據加工過程中數據整合利用困難的問題。
[0005]【技術方案】
[0006]本發(fā)明是通過以下技術方案實現的。
[0007]本發(fā)明涉及一種數據加工方法,該方法包括以下步驟:
[0008]步驟A:從數據源采集數據,將采集的數據轉化為統(tǒng)一的格式存入第一數據庫;
[0009]步驟B:對第一數據庫中的數據進行加工整理,所述加工整理具體包括原始數據清理、數據格式化處理、數據對比、數據關聯(lián)處理、數據二次加工;
[0010]步驟C:對加工整理后的數據進行校驗;
[0011]步驟D:將校驗后的數據根據應用需求輸出至第二數據庫,所述第二數據庫為業(yè)務系統(tǒng)的數據庫。
[0012]作為一種優(yōu)選的實施方式,所述數據源為數據庫系統(tǒng)和/或互聯(lián)網。
[0013]作為另一種優(yōu)選的實施方式,從數據庫系統(tǒng)采集數據的方法為:利用數據轉化工具將數據庫系統(tǒng)中的數據批量導入到第一數據庫中。
[0014]作為另一種優(yōu)選的實施方式,從互聯(lián)網采集數據的方法包括:目標網站定位;網頁源碼分析;網站數據建模;數據抓取。
[0015]作為另一種優(yōu)選的實施方式,所述步驟C中的校驗為數據唯一性校驗、數據格式校驗或數據合理性校驗。
[0016]作為另一種優(yōu)選的實施方式,所述數據唯一性校驗具體包括對數據表一個字段進行單一性檢索或對多個字段的組合進行單一性檢索;
[0017]所述數據格式校驗包括對數據的類型進行檢索;
[0018]所述數據的合理性校驗包括對日期、字符長度、類型進行判斷。
[0019]作為另一種優(yōu)選的實施方式,所述原始數據清理具體包括明顯錯誤數據處理、重復數據處理和數據合并處理;
[0020]所述數據格式化處理包括特殊字符的刪除與替換;[0021 ] 所述數據對比包括將不同數據源的數據根據數據字段進行對比,然后將同類數據整合至數據表中并根據時間節(jié)點形成數據歷史表;
[0022]所述數據關聯(lián)處理包括將不同數據表中相關聯(lián)的數據進行標引,并建立索引關系;
[0023]所述數據二次加工包括針對原始數據的數據挖掘建立數據索引。
[0024]本發(fā)明還涉及一種數據加工系統(tǒng),該系統(tǒng)包括數據采集模塊、數據加工模塊、數據校驗模塊和數據導出模塊,
[0025]所述數據采集模塊用于從數據源采集數據,并將采集的數據轉化為統(tǒng)一的格式存入第一數據庫;
[0026]所述數據加工模塊用于對第一數據庫中的數據進行加工整理,所述加工模塊具體包括原始數據清理模塊、數據格式化處理模塊、數據對比模塊、數據關聯(lián)處理模塊、數據二次加工模塊;
[0027]所述數據校驗模塊用于對加工整理后的數據進行校驗;
[0028]所述數據導出模塊用于將校驗后的數據根據應用需求輸出至第二數據庫,所述第二數據庫為業(yè)務系統(tǒng)的數據庫。
[0029]作為一種優(yōu)選的實施方式,所述數據校驗模塊具體包括數據唯一性校驗模塊、數據格式校驗模塊或數據合理性校驗模塊,
[0030]所述數據唯一性校驗模塊用于對數據表一個字段進行單一性檢索或對多個字段的組合進行單一性檢索;
[0031 ] 所述數據格式校驗模塊用于對數據的類型進行檢索;
[0032]所述數據合理性校驗模塊用于對日期、字符長度、類型進行判斷。
[0033]作為另一種優(yōu)選的實施方式,所述原始數據清理模塊用于明顯錯誤數據處理、重復數據處理和數據合并處理;
[0034]所述數據格式化處理模塊用于特殊字符的刪除與替換;
[0035]所述數據對比模塊用于將不同數據源的數據根據數據字段進行對比,然后將同類數據整合至數據表中并根據時間節(jié)點形成數據歷史表;
[0036]所述數據關聯(lián)處理模塊用于將不同數據表中相關聯(lián)的數據進行標引,并建立索引關系;
[0037]所述數據二次加工模塊用于針對原始數據的數據挖掘建立數據索引。
[0038]【有益效果】
[0039]本發(fā)明提出的技術方案可以將不同數據源的數據統(tǒng)一加工處理以滿足數據整合利用的需要。
【專利附圖】
【附圖說明】
[0040]圖1為本發(fā)明的實施例一提供的數據加工系統(tǒng)的結構框圖;
[0041]圖2為本發(fā)明的實施例二提供的數據加工方法的流程圖;
[0042]圖3為本發(fā)明的實施例三提供的數據加工方法的流程圖。
【具體實施方式】
[0043]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖,對本發(fā)明的【具體實施方式】進行清楚、完整的描述,顯然,所描述的實施例是本發(fā)明的一部分實施例,而不是全部實施例,也不是對本發(fā)明的限制。基于本發(fā)明的實施例,本領域普通技術人員在不付出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明的保護范圍。
[0044]圖1為本發(fā)明實施例一提供的數據加工系統(tǒng)的結構圖,如圖1所示,該系統(tǒng)包括數據采集模塊101、數據加工模塊102、數據校驗模塊103和數據導出模塊104,
[0045]數據采集模塊101用于從數據源采集數據,并將采集的數據轉化為統(tǒng)一的格式存入第一數據庫。
[0046]數據加工模塊102用于對第一數據庫中的數據進行加工整理,所述加工模塊具體包括原始數據清理模塊、數據格式化處理模塊、數據對比模塊、數據關聯(lián)處理模塊、數據二次加工模塊。其中原始數據清理模塊用于明顯錯誤數據處理、重復數據處理和數據合并處理;數據格式化處理模塊用于特殊字符的刪除與替換;數據對比模塊用于將不同數據源的數據根據數據字段進行對比,然后將同類數據整合至數據表中并根據時間節(jié)點形成數據歷史表;數據關聯(lián)處理模塊用于將不同數據表中相關聯(lián)的數據進行標引,并建立索引關系;數據二次加工模塊用于針對原始數據的數據挖掘建立數據索引。
[0047]數據校驗模塊103用于對加工整理后的數據進行校驗。本實施例中,數據校驗模塊具體包括數據唯一性校驗模塊、數據格式校驗模塊或數據合理性校驗模塊,數據唯一性校驗模塊用于對數據表一個字段進行單一性檢索或對多個字段的組合進行單一性檢索;數據格式校驗用于對數據的類型進行檢索;數據的合理性校驗用于對日期、字符長度、類型進行判斷。
[0048]數據導出模塊104用于將校驗后的數據根據應用需求輸出至第二數據庫,其中第二數據庫為業(yè)務系統(tǒng)的數據庫。
[0049]采用實施例一所提供的數據加工系統(tǒng)進行數據采集的方法可以參考下述具體方法實施例。
[0050]圖2為本發(fā)明實施例二提供的企業(yè)數據加工方法的流程圖。如圖2所示,該方法包括步驟201至步驟211,下面分別對步驟201至步驟211進行說明。
[0051]步驟201:從企業(yè)數據庫系統(tǒng)采集原始數據并保存至數據采集數據庫。
[0052]具體地,通過利用SQL Server的數據導出工具,將保存于SQL Server數據庫中的企業(yè)數據導出,再將原始數據導入到用于數據加工的數據采集數據庫中。
[0053]步驟202:原始數據清理。
[0054]步驟202對數據采集數據庫中的數據進行清理,具體包括:
[0055]重復數據處理:對企業(yè)名稱、地址或者營業(yè)執(zhí)照號等相同的企業(yè)數據進行梳理,逐個比對后進行合并或刪除;
[0056]刪除特殊數據:主要針對原始數據中的錯誤數據,重復數據進行刪除、合并操作。如刪除企業(yè)名稱為“XXX測試數據”。
[0057]針對某些不規(guī)則字段進行處理:例如把NULL和空的數據統(tǒng)一成NULL ;針對日期字段中明顯錯誤的數據進行校正,例如將成立日期為“2031-5-8”的日期處理成“2013-5-8”,將成立日期小于1949年大于2014年的數據清理。
[0058]步驟203:格式化數據。
[0059]步驟203用于特殊字符的刪除與替換,具體包括:
[0060]格式化法人、企業(yè)名稱里特殊字符:例如將帶*的字符替換為空;
[0061]格式化企業(yè)注冊資金:根據幣種及當前匯率計算注冊資金(例如一些企業(yè)注冊資金的幣種是美元、日元等),并統(tǒng)一成人民幣。
[0062]步驟204:數據對比。
[0063]具體地,對數據加工系統(tǒng)中已經存在的企業(yè)數據與采集的原始數據進行對比,存在相同企業(yè)則更新數據加工系統(tǒng)中的企業(yè)數據的部分字段,如更新企業(yè)地址、網站字段等。
[0064]步驟205:原始數據關聯(lián)處理。
[0065]步驟205對數據采集數據庫中的原始數據進行關聯(lián)處理,具體包括將原始數據企業(yè)表字段與數據加工系統(tǒng)中存儲的企業(yè)表的數據字段一一對應,再將原始企業(yè)表數據導入到數據加工系統(tǒng)對應的企業(yè)表中。
[0066]步驟206:數據二次加工。
[0067]步驟206主要包括:停業(yè)企業(yè)的數據處理、更新企業(yè)的唯一標識、更新企業(yè)變更信息、更新企業(yè)區(qū)域字段、更新企業(yè)的行業(yè)、更新企業(yè)的產業(yè)等。
[0068]步驟206中停業(yè)企業(yè)的數據處理具體分三種情況:
[0069]對于有商標的企業(yè),則提取商標 申請人:與原始企業(yè)數據匹配,將匹配成功并且企業(yè)不是開業(yè)企業(yè)的數據添加到企業(yè)庫中;
[0070]對于有專利的企業(yè),則提取專利 申請人:與原始企業(yè)數據匹配,將匹配成功并且企業(yè)不是開業(yè)企業(yè)的數據添加到企業(yè)庫中;
[0071 ] 對于有商標或者有專利且不在當次提供的企業(yè)數據中的企業(yè),但在以前提供的企業(yè)數據中有的企業(yè),將該企業(yè)的數據添加到企業(yè)庫中。
[0072]步驟206中更新企業(yè)的唯一標識主要是對數據加工系統(tǒng)中的企業(yè)數據編寫唯一標識符。
[0073]步驟206中更新企業(yè)變更信息具體包括:
[0074]通過增量數據與原始數據比對,針對營業(yè)執(zhí)照或組織機構代碼相同,但企業(yè)名稱不同的企業(yè)進行標引,添加原企業(yè)名稱到企業(yè)歷史信息表中,并更新企業(yè)主表的企業(yè)名稱為變更后名稱;
[0075]通過對企業(yè)名稱、法人代表、地址進行模糊匹配,然后對近似企業(yè)進行人工處理,確定最新公司名稱,并將變更前名稱寫入企業(yè)歷史信息表。
[0076]步驟206中更新企業(yè)區(qū)域字段具體包括:
[0077]通過登記機關代碼更新城市字段和區(qū)縣字段;
[0078]通過企業(yè)地址更新企業(yè)區(qū)域,例如“綿陽市XXX公司”,區(qū)域更新成綿陽市;
[0079]根據企業(yè)名稱對區(qū)域進行校驗,例如“成都市XXX公司”,如果區(qū)域劃分不在成都,則進行手工校驗。
[0080]步驟206中更新企業(yè)的行業(yè)具體包括:
[0081]通過企業(yè)登記的行業(yè)代碼(98類行業(yè)代碼)進行行業(yè)劃分;
[0082]步驟206中更新商標與企業(yè)的關聯(lián)主要通過企業(yè)名稱與商標 申請人:名稱進行匹配,建立企業(yè)數據與商標數據的關聯(lián)。
[0083]步驟207:對加工整理后的數據進行校驗。
[0084]具體地,步驟207中的校驗包括數據唯一性校驗、數據格式校驗或和數據合理性校驗。
[0085]步驟208:將校驗后的數據根據應用需求輸出。
[0086]具體地,步驟208將校驗后的數據根據應用需求輸出至業(yè)務系統(tǒng)的數據庫。
[0087]圖3為本發(fā)明實施例二提供的商標數據加工方法的流程圖,如圖2所示,該方法包括步驟301至步驟311,下面分別對步驟301至步驟311進行說明。
[0088]步驟301:采集商標數據并保存至數據采集數據庫。
[0089]本實施例具體采集四川省的商標數據,具體地,通過對商標數據網站進行源碼分析,獲取商標數據結構代碼,根據商標數據結構建立數據抓取規(guī)則,抓取商標數據并存入數據采集數據庫中。為了避免抓取不需要的數據,在數據抓取前需要先制定采集數據的規(guī)則,例如只采集屬于四川省的地址的商標數據,具體包括:商標地址包含“成都市”、“四川省”
坐寸ο
[0090]步驟302:原始數據清理。
[0091]步驟302具體包括:
[0092]清洗采集的數據,刪除采集范圍外的數據,例如只采集四川省的商標數據,根據區(qū)域地址表對采集的數據進行逐一對比,刪除區(qū)域外數據。
[0093]步驟303:格式化數據。
[0094]步驟303具體包括:
[0095]糾正特殊的 申請人:名稱。例如 申請人:中包含應更新為“川”;
[0096]糾正專用權起止日。例如將“1900-01-01”的專用權起始日設置為空字符。
[0097]步驟304:數據對比。
[0098]具體地,對數據加工系統(tǒng)中已經存在的商標數據與采集的原始數據進行對比,如果存在相同企業(yè)則更新數據加工系統(tǒng)中的商標數據的部分字段,如更新商標地址、商品服務項目等。
[0099]步驟305:原始數據關聯(lián)處理。
[0100]步驟305對數據采集數據庫中的原始數據進行關聯(lián)處理,具體包括將采集的原始數據商標表字段與數據加工系統(tǒng)中存儲的商標表的數據字段一一對應,再將采集的原始商標表數據導入到數據加工系統(tǒng)對應的商標表中。
[0101]步驟306:數據二次加工,包括更新城市字段和城市的區(qū)縣、更新商標行業(yè)、更新商標法律狀態(tài)等。
[0102]步驟306的更新城市字段和城市的區(qū)縣具體包括:
[0103]收集四川省各個城市的地址作為規(guī)則,更新城市字段;收集四川省城市的各個區(qū)縣地址作為規(guī)則,更新城市的區(qū)縣。
[0104]步驟306中更新商標行業(yè)具體包括:
[0105]建立商標與國民經濟分類對照關系規(guī)則表,具體地,將商標的第一商品服務項目與國民經濟分類中描述的商品服務項目進行對應,然后根據該規(guī)則為商標數據添加行業(yè)標識。
[0106]步驟306中更新商標法律狀態(tài)具體包括:對采集的原始數據的商標法律狀態(tài)進行整理和劃分,建立法律狀態(tài)規(guī)則表,將商標的法律狀態(tài)更新為有效、在審、無效三種狀態(tài)。例如法律狀態(tài)為“異議裁定%異議不成立”,更新為“無效一異議”。
[0107]步驟307:對加工整理后的數據進行校驗。
[0108]具體地,步驟307中的校驗包括數據唯一性校驗、數據格式校驗和數據合理性校驗。
[0109]步驟308:將校驗后的數據根據應用需求輸出。
[0110]具體地,步驟308將校驗后的數據根據應用需求輸出至業(yè)務系統(tǒng)的數據庫。
[0111]從以上實施例可以看出,本發(fā)明實施例解決了數據加工過程中數據整合利用困難的問題,具體地,通過實施例提供的企業(yè)數據加工方法,將數據進行了清理,規(guī)范了數據格式,通過二次加工提高了數據的適用范圍。
【權利要求】
1.一種數據加工方法,其特征在于包括如下步驟: 步驟A:從數據源采集數據,將采集的數據轉化為統(tǒng)一的格式存入第一數據庫; 步驟B:對第一數據庫中的數據進行加工整理,所述加工整理具體包括原始數據清理、數據格式化處理、數據對比、數據關聯(lián)處理、數據二次加工; 步驟C:對加工整理后的數據進行校驗; 步驟D:將校驗后的數據根據應用需求輸出至第二數據庫,所述第二數據庫為業(yè)務系統(tǒng)的數據庫。
2.根據權利要求1所述的數據加工方法,其特征在于所述數據源為數據庫系統(tǒng)和/或互聯(lián)網。
3.根據權利要求2所述的數據加工方法,其特征在于從數據庫系統(tǒng)采集數據的方法為:利用數據轉化工具將數據庫系統(tǒng)中的數據批量導入到第一數據庫中。
4.根據權利要求2或3所述的數據加工的方法,其特征在于從互聯(lián)網采集數據的方法包括:目標網站定位;網頁源碼分析;網站數據建模;數據抓取。
5.根據權利要求1所述的數據加工方法,其特征在于所述步驟C中的校驗為數據唯一性校驗、數據格式校驗或數據合理性校驗。
6.根據權利要求5所述的數據加工方法,其特征在于: 所述數據唯一性校驗具體包括對數據表一個字段進行單一性檢索或對多個字段的組合進行單一性檢索; 所述數據格式校驗包括對數據的類型進行檢索; 所述數據的合理性校驗包括對日期、字符長度、類型進行判斷。
7.根據權利要求1所述的數據加工方法,其特征在于: 所述原始數據清理具體包括明顯錯誤數據處理、重復數據處理和數據合并處理; 所述數據格式化處理包括特殊字符的刪除與替換; 所述數據對比包括將不同數據源的數據根據數據字段進行對比,然后將同類數據整合至數據表中并根據時間節(jié)點形成數據歷史表; 所述數據關聯(lián)處理包括將不同數據表中相關聯(lián)的數據進行標引,并建立索引關系; 所述數據二次加工包括針對原始數據的數據挖掘建立數據索引。
8.一種數據加工系統(tǒng),其特征在于包括數據采集模塊、數據加工模塊、數據校驗模塊和數據導出模塊, 所述數據采集模塊用于從數據源采集數據,并將采集的數據轉化為統(tǒng)一的格式存入第一數據庫; 所述數據加工模塊用于對第一數據庫中的數據進行加工整理,所述加工模塊具體包括原始數據清理模塊、數據格式化處理模塊、數據對比模塊、數據關聯(lián)處理模塊、數據二次加工模塊; 所述數據校驗模塊用于對加工整理后的數據進行校驗; 所述數據導出模塊用于將校驗后的數據根據應用需求輸出至第二數據庫,所述第二數據庫為業(yè)務系統(tǒng)的數據庫。
9.根據權利要求8所述的數據加工系統(tǒng),其特征在于所述數據校驗模塊具體包括數據唯一性校驗模塊、數據格式校驗模塊或數據合理性校驗模塊, 所述數據唯一性校驗模塊用于對數據表一個字段進行單一性檢索或對多個字段的組合進行單一性檢索; 所述數據格式校驗模塊用于對數據的類型進行檢索; 所述數據合理性校驗模塊用于對日期、字符長度、類型進行判斷。
10.根據權利要求8所述的數據加工系統(tǒng),其特征在于: 所述原始數據清理模塊用于明顯錯誤數據處理、重復數據處理和數據合并處理; 所述數據格式化處理模塊用于特殊字符的刪除與替換; 所述數據對比模塊用于將不同數據源的數據根據數據字段進行對比,然后將同類數據整合至數據表中并根據時間節(jié)點形成數據歷史表; 所述數據關聯(lián)處理模塊用于將不同數據表中相關聯(lián)的數據進行標引,并建立索引關系; 所述數據二次加工模塊用于針對原始數據的數據挖掘建立數據索引。
【文檔編號】G06F11/07GK104462604SQ201410855040
【公開日】2015年3月25日 申請日期:2014年12月31日 優(yōu)先權日:2014年12月31日
【發(fā)明者】吳錦德 申請人:成都市卓??萍加邢薰?br>