本發(fā)明涉及計算機信息處理領(lǐng)域,尤其涉及一種數(shù)據(jù)處理方法、裝置和系統(tǒng)。
背景技術(shù):
數(shù)據(jù)已經(jīng)滲透到當今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素,大數(shù)據(jù)時代已經(jīng)降臨。大數(shù)據(jù)的爆炸式增長在大容量、多樣性和高增速方面,考驗著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,同時,也為企業(yè)帶來了獲取更豐富、更深入和更準確地洞察市場行為的大量機會。當前,最重要的現(xiàn)實是對大數(shù)據(jù)進行處理分析,只有通過處理分析才能獲取很多智能的、深入的、有價值的信息。
相比于傳統(tǒng)的數(shù)據(jù),大數(shù)據(jù)呈現(xiàn)了4V+1O特征,表現(xiàn)為數(shù)據(jù)量大(Volume)、種類繁多(Variety)、時效性高(Velocity)、價值密度低(Value)和數(shù)據(jù)在線(Online)。目前常規(guī)的大數(shù)據(jù)處理工具有兩類:傳統(tǒng)的ETL(Extract-Transform-Load,抽取、轉(zhuǎn)換、加載)工具和基于Hadoop(Hadoop Distributed File System,分布式文件系統(tǒng))的大數(shù)據(jù)采集工具。
目前,用戶對于大數(shù)據(jù)處理的高效性和融合的集成度要求越來越高。然而目前常規(guī)的大數(shù)據(jù)處理工具對于大數(shù)據(jù)這種多源、異構(gòu)、海量的數(shù)據(jù),在處理方面存在欠缺,數(shù)據(jù)處理過程人工參與度高,數(shù)據(jù)處理不精細、效率低,而且對不同的數(shù)據(jù)也沒有進行統(tǒng)一的融合,集成度不高,導(dǎo)致獲取的最終數(shù)據(jù)可利用價值和實用性不高。
技術(shù)實現(xiàn)要素:
本發(fā)明的主要目的在于解決大數(shù)據(jù)處理效率低、融合度低的技術(shù)問題。
為實現(xiàn)上述目的,本發(fā)明提供一種數(shù)據(jù)處理方法,所述數(shù)據(jù)處理方法包括以下步驟:
獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理,得到數(shù)據(jù)采 集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù);
根據(jù)所述數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù),控制集群中各節(jié)點進行數(shù)據(jù)采集和數(shù)據(jù)處理,獲取處理后的數(shù)據(jù);
將所述處理后的數(shù)據(jù)進行統(tǒng)一融合,獲取統(tǒng)一融合后的數(shù)據(jù)。
優(yōu)選的,所述獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理,得到數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù),包括:
控制所述集群中各節(jié)點讀取待采集數(shù)據(jù),獲取待采集數(shù)據(jù)樣本和集群中各節(jié)點負載情況;
評估所述待采集數(shù)據(jù)樣本,獲取質(zhì)量評估報告,所述質(zhì)量評估報告包括:數(shù)據(jù)類型、數(shù)據(jù)編碼、數(shù)據(jù)冗余率、數(shù)據(jù)稀疏性和數(shù)據(jù)傳輸速度;
根據(jù)所述質(zhì)量評估報告和所述集群中各節(jié)點負載情況,適配數(shù)據(jù)采集模式和數(shù)據(jù)處理模型,分配所述集群中各節(jié)點的采集任務(wù)。
優(yōu)選的,所述根據(jù)所述數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù),控制集群中各節(jié)點進行數(shù)據(jù)采集和數(shù)據(jù)處理,獲取處理后的數(shù)據(jù),包括:
控制所述集群中各節(jié)點根據(jù)對應(yīng)的集群中各節(jié)點采集任務(wù),以所述采集模式進行數(shù)據(jù)采集;
控制所述集群中各節(jié)點根據(jù)所述數(shù)據(jù)處理模型處理采集到的數(shù)據(jù),獲取處理后的數(shù)據(jù)。
優(yōu)選的,所述將所述處理后的數(shù)據(jù)進行統(tǒng)一融合,獲取統(tǒng)一融合后的數(shù)據(jù),包括:
根據(jù)預(yù)設(shè)的數(shù)據(jù)規(guī)整模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)規(guī)整;和/或,根據(jù)預(yù)設(shè)的數(shù)據(jù)集成模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)集成;和/或,根據(jù)預(yù)設(shè)的數(shù)據(jù)建模模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)建模;得到統(tǒng)一融合后的數(shù)據(jù)。
優(yōu)選的,所述將所述處理后的數(shù)據(jù)進行統(tǒng)一融合,獲取統(tǒng)一融合后的數(shù)據(jù)之后,還包括:
分類存儲所述統(tǒng)一融合后的數(shù)據(jù)。
優(yōu)選的,所述獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理,得到數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù)之前,還包括:
配置數(shù)據(jù)采集接口;
所述獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理的步驟包括:
通過所述數(shù)據(jù)采集接口獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理;
所述控制集群中各節(jié)點進行數(shù)據(jù)采集和數(shù)據(jù)處理的步驟包括:
控制集群中各節(jié)點通過所述數(shù)據(jù)采集接口進行數(shù)據(jù)采集,控制集群中各節(jié)點對采集到的數(shù)據(jù)進行數(shù)據(jù)處理。
優(yōu)選的,所述配置數(shù)據(jù)采集接口,包括:
獲取數(shù)據(jù)采集接口配置參數(shù);
根據(jù)所述配置參數(shù)進行所述數(shù)據(jù)采集接口的連接測試;
若所述連接測試成功,則將包含有所述配置參數(shù)的數(shù)據(jù)采集接口配置文件向集群中的其他節(jié)點進行分發(fā),配置所述集群中的各節(jié)點,并控制所述集群中的各節(jié)點連接所述數(shù)據(jù)采集接口;
若所述連接測試不成功,則轉(zhuǎn)入步驟:獲取數(shù)據(jù)采集接口配置參數(shù)。
此外,為實現(xiàn)上述目的,本發(fā)明還提供一種數(shù)據(jù)處理裝置,所述數(shù)據(jù)處理裝置包括:
適配模塊,用于獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理,得到數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù);
數(shù)據(jù)處理模塊,用于根據(jù)所述數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù),控制集群中各節(jié)點進行數(shù)據(jù)采集和數(shù)據(jù)處理,獲取處理后的數(shù)據(jù);
統(tǒng)一融合模塊,用于將所述處理后的數(shù)據(jù)進行統(tǒng)一融合,獲取統(tǒng)一融合后的數(shù)據(jù)。
優(yōu)選的,所述適配模塊包括:
樣本采集單元,用于控制所述集群中各節(jié)點讀取待采集數(shù)據(jù),獲取待采集數(shù)據(jù)樣本和集群中各節(jié)點負載情況;
數(shù)據(jù)評估單元,用于評估待采集數(shù)據(jù)樣本,獲取質(zhì)量評估報告,所述質(zhì)量評估報告包括:數(shù)據(jù)類型、數(shù)據(jù)編碼、數(shù)據(jù)冗余率、數(shù)據(jù)稀疏性和數(shù)據(jù)傳輸速度;
適配單元,用于根據(jù)所述質(zhì)量評估報告和所述集群中各節(jié)點負載情況,適配數(shù)據(jù)采集模式和數(shù)據(jù)處理模型,分配所述集群中各節(jié)點的采集任務(wù)。
優(yōu)選的,所述數(shù)據(jù)處理模塊包括:
數(shù)據(jù)采集單元,用于控制所述集群中各節(jié)點根據(jù)對應(yīng)的集群中各節(jié)點采集任務(wù),以所述采集模式進行數(shù)據(jù)采集;
數(shù)據(jù)處理單元,用于控制所述集群中各節(jié)點根據(jù)所述數(shù)據(jù)處理模型處理所述采集到的數(shù)據(jù),獲取處理后的數(shù)據(jù)。
優(yōu)選的,所述統(tǒng)一融合模塊包括:
數(shù)據(jù)規(guī)整單元,用于根據(jù)預(yù)設(shè)的數(shù)據(jù)規(guī)整模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)規(guī)整;
數(shù)據(jù)集成單元,用于根據(jù)預(yù)設(shè)的數(shù)據(jù)集成模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)集成;
數(shù)據(jù)建模單元,用于根據(jù)預(yù)設(shè)的數(shù)據(jù)建模模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)建模;
數(shù)據(jù)獲取單元,用于獲取統(tǒng)一融合后的數(shù)據(jù)。
優(yōu)選的,所述數(shù)據(jù)處理裝置還包括分類存儲模塊,用于,
分類存儲所述統(tǒng)一融合后的數(shù)據(jù)。
優(yōu)選的,所述數(shù)據(jù)處理裝置還包括接口配置模塊,用于,
配置數(shù)據(jù)采集接口;
所述適配模塊還用于,通過所述數(shù)據(jù)采集接口獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理;
所述數(shù)據(jù)處理模塊還用于,控制集群中各節(jié)點通過所述數(shù)據(jù)采集接口進行數(shù)據(jù)采集,控制集群中各節(jié)點對采集到的數(shù)據(jù)進行數(shù)據(jù)處理。
優(yōu)選的,所述接口配置模塊包括:
參數(shù)獲取單元,用于獲取數(shù)據(jù)采集接口配置參數(shù);
連接測試單元,用于根據(jù)所述配置參數(shù)進行所述數(shù)據(jù)采集接口的連接測試;
文件分發(fā)單元,用于若所述連接測試成功,則將包含有所述配置參數(shù)的數(shù)據(jù)采集接口配置文件向集群中的其他節(jié)點進行分發(fā),配置所述集群中的各節(jié)點,并控制所述集群中的各節(jié)點連接所述數(shù)據(jù)采集接口;
所述參數(shù)獲取單元還用于,若所述連接測試不成功,則獲取所述數(shù)據(jù)采集接口配置參數(shù)。
此外,為實現(xiàn)上述目的,本發(fā)明還提供一種數(shù)據(jù)處理系統(tǒng),包括數(shù)據(jù)采集接口適配器、數(shù)據(jù)預(yù)讀處理器、數(shù)據(jù)處理器、數(shù)據(jù)統(tǒng)一融合處理器和數(shù)據(jù)分類存儲器,其中:
適配處理器,用于獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理,得到數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù);
數(shù)據(jù)處理器,用于根據(jù)所述數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù),控制集群中各節(jié)點進行數(shù)據(jù)采集和數(shù)據(jù)處理,獲取處理后的數(shù)據(jù);
數(shù)據(jù)統(tǒng)一融合處理器,用于將所述處理后的數(shù)據(jù)進行統(tǒng)一融合,獲取統(tǒng)一融合后的數(shù)據(jù)。
優(yōu)選的,所述數(shù)據(jù)處理系統(tǒng)還包括:
數(shù)據(jù)采集接口適配器,用于配置數(shù)據(jù)采集接口;
數(shù)據(jù)分類存儲器,用于分類存儲所述統(tǒng)一融合后的數(shù)據(jù);
系統(tǒng)管理器,所述系統(tǒng)管理器包括:
數(shù)據(jù)管理模塊,用于管理所述數(shù)據(jù)采集接口配置文件、數(shù)據(jù)采集接口的連接測試結(jié)果、待采集數(shù)據(jù)樣本、質(zhì)量評估報告和集群中各節(jié)點負載情況;
資源管理模塊,用于管理所述待采集數(shù)據(jù)樣本、數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)統(tǒng)一融合和數(shù)據(jù)存儲,及集群資源消耗情況,控制所述集群中各節(jié)點負載均衡;
模型管理模塊,用于管理數(shù)據(jù)采集接口配置模板、數(shù)據(jù)評估模板、數(shù)據(jù)采集模板、數(shù)據(jù)處理模型、數(shù)據(jù)規(guī)整模型、數(shù)據(jù)集成模型和數(shù)據(jù)建模模型;
過程監(jiān)控模塊,用于監(jiān)控數(shù)據(jù)采集接口配置、讀取待采集數(shù)據(jù)樣本、數(shù)據(jù)評估、數(shù)據(jù)處理、數(shù)據(jù)統(tǒng)一融合和數(shù)據(jù)存儲過程,并記錄、處理數(shù)據(jù)采集接口配置、讀取待采集數(shù)據(jù)樣本、數(shù)據(jù)評估、數(shù)據(jù)處理、數(shù)據(jù)統(tǒng)一融合和數(shù)據(jù)存儲過程中的完成狀態(tài)、中間錯誤和異常。
本發(fā)明通過對異構(gòu)數(shù)據(jù)根據(jù)樣本進行分析,自動適配數(shù)據(jù)采集模式和數(shù)據(jù)處理模型,采集數(shù)據(jù)并進行處理數(shù)據(jù),調(diào)整集群中各節(jié)點負載均衡,并對有內(nèi)在關(guān)聯(lián)性的各種異構(gòu)數(shù)據(jù)進行統(tǒng)一融合,有效解決了現(xiàn)有技術(shù)中大數(shù)據(jù)處理效率低、融合度低的問題,提高了數(shù)據(jù)處理效率和數(shù)據(jù)融合度,提升了最終數(shù)據(jù)的可利用價值和實用性,為大數(shù)據(jù)分析和價值挖掘提供了數(shù)據(jù)質(zhì)量保障。
附圖說明
圖1為本發(fā)明數(shù)據(jù)處理方法第一實施例的流程示意圖;
圖2為本發(fā)明數(shù)據(jù)處理方法第二實施例的流程示意圖;
圖3為本發(fā)明數(shù)據(jù)處理方法第三實施例的流程示意圖;
圖4為本發(fā)明數(shù)據(jù)處理方法第四實施例的流程示意圖;
圖5為本發(fā)明數(shù)據(jù)處理方法第五實施例的流程示意圖;
圖6為本發(fā)明數(shù)據(jù)處理方法第六實施例的流程示意圖;
圖7為本發(fā)明數(shù)據(jù)處理方法第七實施例的流程示意圖;
圖8為本發(fā)明數(shù)據(jù)處理裝置第一實施例的功能模塊示意圖;
圖9為本發(fā)明數(shù)據(jù)處理裝置第二實施例的功能模塊示意圖;
圖10為本發(fā)明數(shù)據(jù)處理裝置第三實施例的功能模塊示意圖;
圖11為本發(fā)明數(shù)據(jù)處理裝置第四實施例的功能模塊示意圖;
圖12為本發(fā)明數(shù)據(jù)處理裝置第五實施例的功能模塊示意圖;
圖13為本發(fā)明數(shù)據(jù)處理裝置第六實施例的功能模塊示意圖;
圖14為本發(fā)明數(shù)據(jù)處理裝置第七實施例的功能模塊示意圖;
圖15為本發(fā)明數(shù)據(jù)處理系統(tǒng)第一實施例的結(jié)構(gòu)示意圖;
圖16為本發(fā)明數(shù)據(jù)處理系統(tǒng)第二實施例的結(jié)構(gòu)示意圖。
本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。
具體實施方式
應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明實施例的主要解決方案是:通過數(shù)據(jù)采集接口獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理,得到數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù);根據(jù)所述數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù),控制集群中各節(jié)點進行數(shù)據(jù)采集和數(shù)據(jù)處理,獲取處理后的數(shù)據(jù);將所述處理后的數(shù)據(jù)進行統(tǒng)一融合,獲取統(tǒng)一融合后的數(shù)據(jù)。
由于現(xiàn)有技術(shù)數(shù)據(jù)處理過程人工參與度高,數(shù)據(jù)處理不精細、效率低,而且對分散的、有內(nèi)在關(guān)聯(lián)的數(shù)據(jù)也沒有進行統(tǒng)一的融合,融合度不高,導(dǎo)致獲取的最終數(shù)據(jù)可利用價值和實用性不高。
本發(fā)明提供一種解決方案,能夠自動適配數(shù)據(jù)采集模式和處理類型,對多源異構(gòu)海量數(shù)據(jù)進行統(tǒng)一融合,從而提高數(shù)據(jù)處理效率和數(shù)據(jù)融合度,提升了最終數(shù)據(jù)的可利用價值和實用性,為大數(shù)據(jù)分析和價值挖掘提供了數(shù)據(jù)質(zhì)量保障。
參照圖1,本發(fā)明數(shù)據(jù)處理方法第一實施例提供一種數(shù)據(jù)處理方法,所述數(shù)據(jù)處理方法包括以下步驟:
步驟S10,獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理,得到數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù)。
控制集群中各節(jié)點采集待采集數(shù)據(jù),獲取待采集數(shù)據(jù)樣本和集群中各節(jié)點負載情況,待采集數(shù)據(jù)樣本包括預(yù)設(shè)數(shù)量的待采集數(shù)據(jù),集群中各節(jié)點負 載情況包括數(shù)據(jù)采集過程中各節(jié)點的數(shù)據(jù)采集速率、性能、響應(yīng)情況、負載能力,用于了解待采集數(shù)據(jù)樣本采集過程中各節(jié)點的資源負載情況。
對待采集數(shù)據(jù)樣本進行預(yù)處理,檢測與判定待采集數(shù)據(jù)基本質(zhì)量屬性,獲取質(zhì)量評估報告。
根據(jù)質(zhì)量評估報告和集群中各節(jié)點負載情況,決定數(shù)據(jù)采集模式、適配數(shù)據(jù)處理模型、分配集群中各節(jié)點的采集任務(wù)。
根據(jù)不同的數(shù)據(jù)類型適配不同的數(shù)據(jù)采集模式,不同的數(shù)據(jù)采集模式包括全量、增量、非實時、實時,例如:動態(tài)流式數(shù)據(jù)適配增量實時采集模式,結(jié)構(gòu)化數(shù)據(jù)適配全量非實時采集模式,半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)適配全量非實時采集模式,數(shù)據(jù)采集模式也可以是其他采集模式,可根據(jù)實際需要靈活設(shè)置。
根據(jù)不同的數(shù)據(jù)類型適配數(shù)據(jù)處理模型,不同的數(shù)據(jù)類型如流式數(shù)據(jù)、批量數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進行不同的數(shù)據(jù)處理,預(yù)置數(shù)據(jù)處理模型用于流式數(shù)據(jù)、非結(jié)構(gòu)化圖片數(shù)據(jù)、非結(jié)構(gòu)化音視頻數(shù)據(jù)、非結(jié)構(gòu)化文本數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)的處理,可直接適配調(diào)用,支持模型復(fù)用和修訂。
數(shù)據(jù)處理模型包括:動態(tài)流式數(shù)據(jù)為數(shù)據(jù)抽取、數(shù)據(jù)過濾、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分類的順次處理步驟;結(jié)構(gòu)化數(shù)據(jù)為數(shù)據(jù)抽取、異常清洗的順次處理步驟;半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)為數(shù)據(jù)抽取、數(shù)據(jù)解析、異常清洗、數(shù)據(jù)分割、特征提取的順次處理步驟。需要說明的是,可以直接適配數(shù)據(jù)處理模型,也可以對數(shù)據(jù)處理模型進行微調(diào)使用,也可以根據(jù)具體處理需求對數(shù)據(jù)處理步驟和模型進行靈活設(shè)置。
集群中各節(jié)點的采集任務(wù)的分配,實現(xiàn)了對集群中各節(jié)點負載情況的動態(tài)調(diào)整,消除或減少系統(tǒng)中各節(jié)點負載不均衡的現(xiàn)象,提高數(shù)據(jù)采集和數(shù)據(jù)處理效率。
步驟S20,根據(jù)所述數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù),控制集群中各節(jié)點進行數(shù)據(jù)采集和數(shù)據(jù)處理,獲取處理后的數(shù)據(jù)。
控制集群中各節(jié)點根據(jù)已分配的對應(yīng)的集群中各節(jié)點采集任務(wù),以適配的采集模式進行數(shù)據(jù)采集,例如:動態(tài)流式數(shù)據(jù)以增量實時采集模式進行數(shù) 據(jù)采集,結(jié)構(gòu)化數(shù)據(jù)以全量非實時采集模式進行數(shù)據(jù)采集,半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)以全量非實時采集模式進行數(shù)據(jù)采集,獲取采集到的數(shù)據(jù)。
控制集群中各節(jié)點以適配的數(shù)據(jù)處理模型對各節(jié)點采集到的數(shù)據(jù)分別進行數(shù)據(jù)處理,例如:根據(jù)數(shù)據(jù)處理模型對動態(tài)流式數(shù)據(jù)順次進行數(shù)據(jù)抽取、數(shù)據(jù)過濾、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分類的處理步驟;根據(jù)數(shù)據(jù)處理模型對結(jié)構(gòu)化數(shù)據(jù)順次進行數(shù)據(jù)抽取、異常清洗的處理步驟;根據(jù)數(shù)據(jù)處理模型對半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)順次進行數(shù)據(jù)抽取、數(shù)據(jù)解析、異常清洗、數(shù)據(jù)分割、特征提取的處理步驟,實現(xiàn)對各種不同的異構(gòu)數(shù)據(jù)按照自身數(shù)據(jù)特性進行對應(yīng)的采集和處理,獲取處理后的數(shù)據(jù)。
步驟S30,將所述處理后的數(shù)據(jù)進行統(tǒng)一融合,獲取統(tǒng)一融合后的數(shù)據(jù)。
對采集及處理后的數(shù)據(jù)進行數(shù)據(jù)規(guī)整、數(shù)據(jù)集成、數(shù)據(jù)建模,數(shù)據(jù)規(guī)整和數(shù)據(jù)集成針對有內(nèi)在關(guān)聯(lián)性的數(shù)據(jù)進行,數(shù)據(jù)建模提供數(shù)據(jù)模型設(shè)計、數(shù)據(jù)索引構(gòu)建功能,將分散的、有內(nèi)在聯(lián)系的各種數(shù)據(jù)進行關(guān)聯(lián),獲取統(tǒng)一融合后的數(shù)據(jù)。
在本實施例中,通過對異構(gòu)數(shù)據(jù)根據(jù)樣本進行分析,自動適配數(shù)據(jù)采集模式和數(shù)據(jù)處理模型,采集數(shù)據(jù)并處理數(shù)據(jù),調(diào)整集群中各節(jié)點負載均衡,并對有內(nèi)在關(guān)聯(lián)性的各種異構(gòu)數(shù)據(jù)進行統(tǒng)一融合,有效解決了現(xiàn)有技術(shù)中大數(shù)據(jù)處理效率低、融合度低的問題,提高了數(shù)據(jù)處理效率和數(shù)據(jù)融合度,提升了最終數(shù)據(jù)的可利用價值和實用性,為大數(shù)據(jù)分析和價值挖掘提供了數(shù)據(jù)質(zhì)量保障。
進一步的,參照圖2,本發(fā)明數(shù)據(jù)處理方法第二實施例提供一種數(shù)據(jù)處理方法,基于上述圖1所示的實施例,步驟S10包括:
步驟S11、控制所述集群中各節(jié)點讀取待采集數(shù)據(jù),獲取待采集數(shù)據(jù)樣本和集群中各節(jié)點負載情況。
控制集群中各節(jié)點采集預(yù)設(shè)數(shù)量的待采集數(shù)據(jù),獲取待采集數(shù)據(jù)樣本,和數(shù)據(jù)采集過程中集群中各節(jié)點負載情況,待采集數(shù)據(jù)樣本包括預(yù)設(shè)數(shù)量的待采集數(shù)據(jù),集群中各節(jié)點負載情況包括數(shù)據(jù)采集過程中各節(jié)點的數(shù)據(jù)采集 速率、性能、響應(yīng)情況、負載能力。
步驟S12、評估所述待采集數(shù)據(jù)樣本,獲取質(zhì)量評估報告,所述質(zhì)量評估報告包括:數(shù)據(jù)類型、數(shù)據(jù)編碼、數(shù)據(jù)冗余率、數(shù)據(jù)稀疏性和數(shù)據(jù)傳輸速度。
控制集群中各節(jié)點對各自采集到的待采集數(shù)據(jù)樣本進行數(shù)據(jù)質(zhì)量評估,包括集群中各節(jié)點采集到的待采集數(shù)據(jù)樣本的數(shù)據(jù)類型、數(shù)據(jù)編碼、數(shù)據(jù)冗余率、數(shù)據(jù)稀疏性和數(shù)據(jù)傳輸速度;然后將集群中各節(jié)點數(shù)據(jù)質(zhì)量評估的數(shù)據(jù)匯總、整理成為最終的質(zhì)量評估報告,最終的質(zhì)量評估報告是最終的待采集數(shù)據(jù)樣本的數(shù)據(jù)基本質(zhì)量屬性的檢測與判定,包括最終的待采集數(shù)據(jù)樣本的數(shù)據(jù)類型、數(shù)據(jù)編碼、數(shù)據(jù)冗余率、數(shù)據(jù)稀疏性和數(shù)據(jù)傳輸速度?;?,
獲取集群中各節(jié)點采集到的待采集數(shù)據(jù)樣本,匯總采集到的待采集數(shù)據(jù)樣本,對匯總后的待采集數(shù)據(jù)樣本進行數(shù)據(jù)基本質(zhì)量屬性的檢測與判定,包括數(shù)據(jù)類型、數(shù)據(jù)編碼、數(shù)據(jù)冗余率、數(shù)據(jù)稀疏性和數(shù)據(jù)傳輸速度,獲取質(zhì)量評估報告。
步驟S13、根據(jù)所述質(zhì)量評估報告和所述集群中各節(jié)點負載情況,適配數(shù)據(jù)采集模式和數(shù)據(jù)處理模型,分配所述集群中各節(jié)點的采集任務(wù)。
根據(jù)質(zhì)量評估報告中的數(shù)據(jù)類型和數(shù)據(jù)傳輸速率適配數(shù)據(jù)采集模式,根據(jù)質(zhì)量評估報告中的數(shù)據(jù)編碼、數(shù)據(jù)冗余率、數(shù)據(jù)稀疏性適配數(shù)據(jù)處理模型,根據(jù)質(zhì)量評估報告中的數(shù)據(jù)傳輸速度和集群中各節(jié)點負載情況分配集群中各節(jié)點采集任務(wù)。
在本實施例中,獲取待采集數(shù)據(jù)樣本,通過對待采集數(shù)據(jù)樣本的預(yù)處理,得到質(zhì)量評估報告和集群中各節(jié)點負載情況,并根據(jù)質(zhì)量評估報告和集群中各節(jié)點負載情況,自動適配數(shù)據(jù)采集模式和數(shù)據(jù)處理模型,實現(xiàn)了各種異構(gòu)數(shù)據(jù)包括各種動態(tài)的流式數(shù)據(jù)、靜態(tài)的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)按照其自身的數(shù)據(jù)特性進行更加合理有效的數(shù)據(jù)采集及數(shù)據(jù)處理;合理分配采集任務(wù),使集群中各節(jié)點按照相應(yīng)的采集任務(wù)進行數(shù)據(jù)采集,實現(xiàn)了集群中各節(jié)點負載平衡,提升了集群處理能力。
進一步的,參照圖3,本發(fā)明數(shù)據(jù)處理方法第三實施例提供一種數(shù)據(jù)處理方法,基于上述圖1所示的實施例,步驟S20包括:
步驟S21、控制所述集群中各節(jié)點根據(jù)對應(yīng)的集群中各節(jié)點采集任務(wù),以所述采集模式進行數(shù)據(jù)采集。
控制集群中各節(jié)點根據(jù)已分配的對應(yīng)的集群中各節(jié)點采集任務(wù),以適配的采集模式進行數(shù)據(jù)采集,例如:動態(tài)流式數(shù)據(jù)以增量實時采集模式進行數(shù)據(jù)采集并緩存,結(jié)構(gòu)化數(shù)據(jù)以全量非實時采集模式進行數(shù)據(jù)采集,半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)以全量非實時采集模式進行數(shù)據(jù)采集,非結(jié)構(gòu)化數(shù)據(jù)會進一步細分為文本數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)、圖片數(shù)據(jù),不同類型的非結(jié)構(gòu)化數(shù)據(jù)的采集方法不同,例如文本數(shù)據(jù)會進行文本數(shù)據(jù)采集、音頻數(shù)據(jù)會進行音頻數(shù)據(jù)采集、視頻數(shù)據(jù)會進行視頻數(shù)據(jù)采集、圖片數(shù)據(jù)會進行圖片數(shù)據(jù)采集,獲取采集到的數(shù)據(jù)。
步驟S22、控制所述集群中各節(jié)點根據(jù)所述數(shù)據(jù)處理模型處理采集到的數(shù)據(jù),獲取處理后的數(shù)據(jù)。
控制集群中各節(jié)點根據(jù)適配的數(shù)據(jù)處理模型對各節(jié)點采集到的數(shù)據(jù)分別進行數(shù)據(jù)處理,例如:根據(jù)數(shù)據(jù)處理模型對動態(tài)流式數(shù)據(jù)順次進行數(shù)據(jù)抽取、數(shù)據(jù)過濾、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分類的處理步驟;根據(jù)數(shù)據(jù)處理模型對結(jié)構(gòu)化數(shù)據(jù)根據(jù)數(shù)據(jù)處理模型順次進行數(shù)據(jù)抽取、異常清洗的處理步驟;根據(jù)數(shù)據(jù)處理模型對半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)根據(jù)數(shù)據(jù)處理模型順次進行數(shù)據(jù)抽取、數(shù)據(jù)解析、異常清洗、數(shù)據(jù)分割、特征提取的處理步驟,完成數(shù)據(jù)處理,獲取處理后的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)進一步細分為文本數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)、圖片數(shù)據(jù),不同類型非結(jié)構(gòu)化數(shù)據(jù)處理方法不同,如根據(jù)數(shù)據(jù)處理模型對文本數(shù)據(jù)會進行文本數(shù)據(jù)采集、文本結(jié)構(gòu)及編碼解析、重復(fù)及邏輯異常清洗、中文分詞、特征提取的處理步驟。
數(shù)據(jù)處理過程中的產(chǎn)生的中間數(shù)據(jù)、元數(shù)據(jù)和進行數(shù)據(jù)處理后的結(jié)果數(shù)據(jù),根據(jù)采集模式的不同選擇合適的存儲介質(zhì)進行數(shù)據(jù)存儲或緩存,即待采集數(shù)據(jù)的原始數(shù)據(jù)經(jīng)過數(shù)據(jù)抽取、數(shù)據(jù)解析及異常清洗之后的結(jié)果數(shù)據(jù)、經(jīng)過數(shù)據(jù)分割后的結(jié)果數(shù)據(jù)、經(jīng)過特征提取后的結(jié)果數(shù)據(jù)都會存入分布式文件系統(tǒng)或分布式數(shù)據(jù)庫;增量流式數(shù)據(jù)的中間數(shù)據(jù)采用內(nèi)存數(shù)據(jù)庫進行緩存, 結(jié)果數(shù)據(jù)采用先進行文件緩存再存入分布式數(shù)據(jù)庫。獲取處理后的數(shù)據(jù)。
在本實施例中,自動根據(jù)不同的數(shù)據(jù)類型,使用合適的數(shù)據(jù)采集模式進行數(shù)據(jù)采集,根據(jù)適配的數(shù)據(jù)處理模型對不同類型的數(shù)據(jù)進行特定的數(shù)據(jù)處理,實現(xiàn)了根據(jù)各種異構(gòu)數(shù)據(jù)自身數(shù)據(jù)特性自動進行合適、有針對性的數(shù)據(jù)采集和處理,提升了數(shù)據(jù)處理效率和處理后的數(shù)據(jù)質(zhì)量,使處理前的數(shù)據(jù)經(jīng)過處理成為可操作的統(tǒng)一的數(shù)據(jù),便于數(shù)據(jù)融合。
進一步的,參照圖4,本發(fā)明數(shù)據(jù)處理方法第四實施例提供一種數(shù)據(jù)處理方法,基于上述圖1所示的實施例,步驟S30包括:
步驟S31、根據(jù)預(yù)設(shè)的數(shù)據(jù)規(guī)整模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)規(guī)整。
根據(jù)預(yù)設(shè)的數(shù)據(jù)規(guī)整模型,對處理后的不同數(shù)據(jù)進行統(tǒng)一的數(shù)據(jù)規(guī)整,包括:統(tǒng)一的格式轉(zhuǎn)換、統(tǒng)一編碼、數(shù)據(jù)修正和缺失填充,獲取統(tǒng)一規(guī)整的數(shù)據(jù)。
步驟S32、和/或,根據(jù)預(yù)設(shè)的數(shù)據(jù)集成模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)集成。
根據(jù)預(yù)設(shè)的數(shù)據(jù)集成模型,對處理后的不同數(shù)據(jù)或數(shù)據(jù)規(guī)整后的數(shù)據(jù)進行數(shù)據(jù)集成,包括:數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)合并、數(shù)據(jù)分組、數(shù)據(jù)匯總,形成統(tǒng)一的常用的基礎(chǔ)的數(shù)據(jù)集合。
步驟S33、和/或,根據(jù)預(yù)設(shè)的數(shù)據(jù)建模模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)建模。
根據(jù)預(yù)設(shè)的數(shù)據(jù)建模模型,對處理后的不同數(shù)據(jù)、或數(shù)據(jù)規(guī)整后的數(shù)據(jù)、或數(shù)據(jù)集成后的數(shù)據(jù)進行模型設(shè)計、索引構(gòu)建,以形成后續(xù)更高級別數(shù)據(jù)分析、數(shù)據(jù)挖掘的基礎(chǔ)數(shù)據(jù)支撐。
步驟S34、得到統(tǒng)一融合后的數(shù)據(jù)。
對處理后的數(shù)據(jù),根據(jù)數(shù)據(jù)處理后的情況,進行數(shù)據(jù)規(guī)整的統(tǒng)一融合操作,和/或數(shù)據(jù)集成的統(tǒng)一融合操作,和/或數(shù)據(jù)建模的統(tǒng)一融合操作,可按順 次進行數(shù)據(jù)規(guī)整、數(shù)據(jù)集成和數(shù)據(jù)建模完成統(tǒng)一融合,也可按順次進行數(shù)據(jù)規(guī)整、數(shù)據(jù)集成完成統(tǒng)一融合,或其他統(tǒng)一融合操作完成統(tǒng)一融合,可根據(jù)實際統(tǒng)一融合的需要進行數(shù)據(jù)規(guī)整、數(shù)據(jù)集成或數(shù)據(jù)建模的統(tǒng)一融合操作。獲取統(tǒng)一融合后的數(shù)據(jù)。
在本實施例中,對處理后的數(shù)據(jù)進行數(shù)據(jù)規(guī)整、數(shù)據(jù)集成、數(shù)據(jù)建模的統(tǒng)一融合操作,實現(xiàn)了自動對分散的、有內(nèi)在關(guān)聯(lián)性的各異構(gòu)數(shù)據(jù)的關(guān)聯(lián),提高了數(shù)據(jù)融合度,提升了最終數(shù)據(jù)的可利用價值和實用性,為后續(xù)的大數(shù)據(jù)分析、數(shù)據(jù)價值挖掘提供基礎(chǔ)數(shù)據(jù)支撐和數(shù)據(jù)質(zhì)量保證。
進一步的,參照圖5,本發(fā)明數(shù)據(jù)處理方法第五實施例提供一種數(shù)據(jù)處理方法,基于上述圖1至圖4中所示任一實施例(本實施例以圖1為例),步驟S30之后還包括:
步驟S40、分類存儲所述統(tǒng)一融合后的數(shù)據(jù)。
對不同類型的數(shù)據(jù)分類存儲,將統(tǒng)一融合后的數(shù)據(jù)存儲于分布式數(shù)據(jù)倉庫,將特定數(shù)據(jù)存儲于專用數(shù)據(jù)庫,例如:將交通、氣象等時空數(shù)據(jù)存儲于時空數(shù)據(jù)庫,將社交網(wǎng)絡(luò)等圖數(shù)據(jù)存儲于圖數(shù)據(jù)庫。而將采集到的半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的原始數(shù)據(jù)存儲于分布式文件系統(tǒng);將采集到的結(jié)構(gòu)化數(shù)據(jù)的原始數(shù)據(jù)存儲于分布式數(shù)據(jù)庫;將半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)處理后的數(shù)據(jù)存儲于分布式數(shù)據(jù)庫;將流式數(shù)據(jù)處理在實時數(shù)據(jù)庫進行。
在本實施例中,自動適配數(shù)據(jù)采集模式和數(shù)據(jù)處理模型,根據(jù)數(shù)據(jù)處理模型處理采集到的數(shù)據(jù),對處理后的數(shù)據(jù)進行統(tǒng)一融合,分類存儲統(tǒng)一融合后的數(shù)據(jù),便于后續(xù)數(shù)據(jù)的大數(shù)據(jù)的分類查詢和進一步分析處理,提升了最終數(shù)據(jù)的實用性和調(diào)取便捷性。
進一步的,參照圖6,本發(fā)明數(shù)據(jù)處理方法第六實施例提供一種數(shù)據(jù)處理方法,基于上述圖1所示實施例,步驟S10之前還包括:
步驟S50、配置數(shù)據(jù)采集接口。
對不同數(shù)據(jù)源的數(shù)據(jù)采集接口進行統(tǒng)一配置,并對配置進行連接測試, 連接成功后再進行配置文件的統(tǒng)一分發(fā),控制集群中各節(jié)點連接不同數(shù)據(jù)源的數(shù)據(jù)采集接口,通過配置成功的數(shù)據(jù)采集接口進行數(shù)據(jù)采集;若連接測試失敗,重新進行數(shù)據(jù)采集接口配置。
步驟S10中獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理包括,通過所述數(shù)據(jù)采集接口獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理。
控制集群中各節(jié)點通過數(shù)據(jù)采集接口采集待采集數(shù)據(jù),獲取待采集數(shù)據(jù)樣本和集群中各節(jié)點負載情況,待采集數(shù)據(jù)樣本包括預(yù)設(shè)數(shù)量的待采集數(shù)據(jù),集群中各節(jié)點負載情況包括數(shù)據(jù)采集過程中各節(jié)點的數(shù)據(jù)采集速率、性能、響應(yīng)情況、負載能力,用于了解待采集數(shù)據(jù)樣本采集過程中各節(jié)點的資源負載情況。
對待采集數(shù)據(jù)樣本進行預(yù)處理,檢測與判定待采集數(shù)據(jù)基本質(zhì)量屬性,獲取質(zhì)量評估報告。
步驟S20中控制集群中各節(jié)點進行數(shù)據(jù)采集和數(shù)據(jù)處理包括,控制集群中各節(jié)點通過所述數(shù)據(jù)采集接口進行數(shù)據(jù)采集,控制集群中各節(jié)點對采集到的數(shù)據(jù)進行數(shù)據(jù)處理。
控制集群中各節(jié)點根據(jù)已分配的對應(yīng)的集群中各節(jié)點采集任務(wù),以適配的采集模式通過數(shù)據(jù)采集接口進行數(shù)據(jù)采集,例如:動態(tài)流式數(shù)據(jù)通過數(shù)據(jù)采集接口以增量實時采集模式進行數(shù)據(jù)采集,結(jié)構(gòu)化數(shù)據(jù)通過數(shù)據(jù)采集接口以全量非實時采集模式進行數(shù)據(jù)采集,半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)通過數(shù)據(jù)采集接口以全量非實時采集模式進行數(shù)據(jù)采集,獲取采集到的數(shù)據(jù)。
控制集群中各節(jié)點以適配的數(shù)據(jù)處理模型對各節(jié)點采集到的數(shù)據(jù)分別進行數(shù)據(jù)處理,例如:根據(jù)數(shù)據(jù)處理模型對動態(tài)流式數(shù)據(jù)順次進行數(shù)據(jù)抽取、數(shù)據(jù)過濾、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分類的處理步驟;根據(jù)數(shù)據(jù)處理模型對結(jié)構(gòu)化數(shù)據(jù)順次進行數(shù)據(jù)抽取、異常清洗的處理步驟;根據(jù)數(shù)據(jù)處理模型對半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)順次進行數(shù)據(jù)抽取、數(shù)據(jù)解析、異常清洗、數(shù)據(jù)分割、特征提取的處理步驟,實現(xiàn)對各種不同的異構(gòu)數(shù)據(jù)按照自身數(shù)據(jù)特性進行對應(yīng)的采集和處理。
在本實施例中,統(tǒng)一配置數(shù)據(jù)采集接口,兼顧靜態(tài)的、動態(tài)的,結(jié)構(gòu)化的、半結(jié)構(gòu)化的、非結(jié)構(gòu)化的異構(gòu)數(shù)據(jù)采集接口配置,實現(xiàn)了多源數(shù)據(jù)采集時,數(shù)據(jù)采集接口的統(tǒng)一配置,為多源異構(gòu)數(shù)據(jù)采集做好了準備,從而可以控制集群中各節(jié)點通過數(shù)據(jù)采集接口采集多源異構(gòu)數(shù)據(jù),提升了數(shù)據(jù)采集速率。
進一步的,參照圖7,本發(fā)明數(shù)據(jù)處理方法第七實施例提供一種數(shù)據(jù)處理方法,基于上述圖6所示實施例,步驟S50包括:
步驟S51、獲取數(shù)據(jù)采集接口配置參數(shù)。
向用戶給出預(yù)置的接口配置模板,包括:文件系統(tǒng)接口配置模板、數(shù)據(jù)庫接口配置模板和網(wǎng)絡(luò)接口配置模板,供用戶選擇,根據(jù)用戶選定的接口配置模板獲取模板中的配置參數(shù);或,
向用戶給出預(yù)置的接口配置模板,包括:文件系統(tǒng)接口配置模板、數(shù)據(jù)庫接口配置模板和網(wǎng)絡(luò)接口配置模板,用戶選擇接口配置模板后,可根據(jù)實際情況對模板中的配置參數(shù)進行修改;或,
用戶自定義設(shè)置數(shù)據(jù)采集接口配置參數(shù),可根據(jù)實際需要靈活設(shè)置。
數(shù)據(jù)采集接口配置參數(shù)包括數(shù)據(jù)采集接口的關(guān)鍵接口參數(shù),例如:網(wǎng)絡(luò)地址、端口號和路徑。
步驟S52、根據(jù)所述配置參數(shù)進行所述數(shù)據(jù)采集接口的連接測試。
根據(jù)獲取的數(shù)據(jù)采集接口配置參數(shù)控制集群中主節(jié)點對數(shù)據(jù)采集接口進行連接,測試根據(jù)獲取的配置參數(shù),是否能成功連接數(shù)據(jù)采集接口。若根據(jù)獲取的配置參數(shù),成功連接數(shù)據(jù)采集接口,則連接測試成功;若根據(jù)獲取的配置參數(shù),未成功連接數(shù)據(jù)采集接口,則連接測試不成功。
步驟S53、若所述連接測試成功,則將包含有所述配置參數(shù)的數(shù)據(jù)采集接口配置文件向集群中的其他節(jié)點進行分發(fā),配置所述集群中的各節(jié)點,并控制所述集群中的各節(jié)點連接所述數(shù)據(jù)采集接口;若所述連接測試不成功,則轉(zhuǎn)入步驟S51。
若連接測試成功,則將獲取的數(shù)據(jù)采集接口配置參數(shù)固化為數(shù)據(jù)采集接口的配置文件,將配置文件向集群中的其他節(jié)點進行分發(fā),并控制集群中各節(jié)點根據(jù)獲取的數(shù)據(jù)采集接口配置參數(shù)連接數(shù)據(jù)采集接口。
若連接測試不成功,則通知用戶未成功連接數(shù)據(jù)采集接口,由用戶更換接口配置模板,或修改對模板中的數(shù)據(jù)采集接口配置參數(shù),或自定義設(shè)置數(shù)據(jù)采集接口配置參數(shù),重新獲取數(shù)據(jù)采集接口配置參數(shù)。
在本實施例中,通過獲取數(shù)據(jù)采集接口配置參數(shù),連接測試獲取正確可用的數(shù)據(jù)采集接口配置參數(shù),用以連接數(shù)據(jù)采集接口,完成了數(shù)據(jù)采集接口的配置,實現(xiàn)了對多源數(shù)據(jù)采集接口的統(tǒng)一自動化配置及連接,為數(shù)據(jù)采集做好了準備和支持,提升了數(shù)據(jù)采集和處理效率。
參照圖8,本發(fā)明數(shù)據(jù)處理裝置第一實施例提供一種數(shù)據(jù)處理裝置,所述數(shù)據(jù)處理裝置包括:
適配模塊100,用于獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理,得到數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù)。
適配模塊100控制集群中各節(jié)點采集待采集數(shù)據(jù),獲取待采集數(shù)據(jù)樣本和集群中各節(jié)點負載情況,待采集數(shù)據(jù)樣本包括預(yù)設(shè)數(shù)量的待采集數(shù)據(jù),集群中各節(jié)點負載情況包括數(shù)據(jù)采集過程中各節(jié)點的數(shù)據(jù)采集速率、性能、響應(yīng)情況、負載能力,用于了解待采集數(shù)據(jù)樣本采集過程中各節(jié)點的資源負載情況。
適配模塊100對待采集數(shù)據(jù)樣本進行預(yù)處理,檢測與判定待采集數(shù)據(jù)基本質(zhì)量屬性,獲取質(zhì)量評估報告。
根據(jù)質(zhì)量評估報告和集群中各節(jié)點負載情況,適配模塊100決定數(shù)據(jù)采集模式、適配數(shù)據(jù)處理模型、分配集群中各節(jié)點的采集任務(wù)。
根據(jù)不同的數(shù)據(jù)類型適配不同的數(shù)據(jù)采集模式,不同的數(shù)據(jù)采集模式包括全量、增量、非實時、實時,例如:動態(tài)流式數(shù)據(jù)適配增量實時采集模式,結(jié)構(gòu)化數(shù)據(jù)適配全量非實時采集模式,半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)適配全量非實時采集模式,數(shù)據(jù)采集模式也可以是其他采集模式,可根據(jù)實際需要靈活設(shè)置。
根據(jù)不同的數(shù)據(jù)類型適配數(shù)據(jù)處理模型,不同的數(shù)據(jù)類型如流式數(shù)據(jù)、批量數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進行不同的數(shù)據(jù)處理,預(yù)置數(shù)據(jù)處理模型用于流式數(shù)據(jù)、非結(jié)構(gòu)化圖片數(shù)據(jù)、非結(jié)構(gòu)化音視頻數(shù)據(jù)、非結(jié)構(gòu)化文本數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)的處理,可直接適配調(diào)用,支持模型復(fù)用和修訂。
數(shù)據(jù)處理模型包括:動態(tài)流式數(shù)據(jù)為數(shù)據(jù)抽取、數(shù)據(jù)過濾、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分類的順次處理步驟;結(jié)構(gòu)化數(shù)據(jù)為數(shù)據(jù)抽取、異常清洗的順次處理步驟;半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)為數(shù)據(jù)抽取、數(shù)據(jù)解析、異常清洗、數(shù)據(jù)分割、特征提取的順次處理步驟。需要說明的是,可以直接適配數(shù)據(jù)處理模型,也可以對數(shù)據(jù)處理模型進行微調(diào)使用,也可以根據(jù)具體處理需求對數(shù)據(jù)處理步驟和模型進行靈活設(shè)置。
集群中各節(jié)點的采集任務(wù)的分配,實現(xiàn)了對集群中各節(jié)點負載情況的動態(tài)調(diào)整,消除或減少系統(tǒng)中各節(jié)點負載不均衡的現(xiàn)象,提高數(shù)據(jù)采集和數(shù)據(jù)處理效率。
數(shù)據(jù)處理模塊200,用于根據(jù)所述數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù),控制集群中各節(jié)點進行數(shù)據(jù)采集和數(shù)據(jù)處理,獲取處理后的數(shù)據(jù)。
數(shù)據(jù)處理模塊200控制集群中各節(jié)點根據(jù)已分配的對應(yīng)的集群中各節(jié)點采集任務(wù),以適配的采集模式進行數(shù)據(jù)采集,例如:動態(tài)流式數(shù)據(jù)以增量實時采集模式進行數(shù)據(jù)采集,結(jié)構(gòu)化數(shù)據(jù)以全量非實時采集模式進行數(shù)據(jù)采集,半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)以全量非實時采集模式進行數(shù)據(jù)采集,獲取采集到的數(shù)據(jù)。
數(shù)據(jù)處理模塊200控制集群中各節(jié)點以適配的數(shù)據(jù)處理模型對各節(jié)點采集到的數(shù)據(jù)分別進行數(shù)據(jù)處理,例如:根據(jù)數(shù)據(jù)處理模型對動態(tài)流式數(shù)據(jù)順次進行數(shù)據(jù)抽取、數(shù)據(jù)過濾、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分類的處理步驟;根據(jù)數(shù)據(jù)處理模型對結(jié)構(gòu)化數(shù)據(jù)順次進行數(shù)據(jù)抽取、異常清洗的處理步驟;根據(jù)數(shù)據(jù)處理模型對半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)順次進行數(shù)據(jù)抽取、數(shù)據(jù)解析、異常清洗、數(shù)據(jù)分割、特征提取的處理步驟,實現(xiàn)對各種不同的異構(gòu)數(shù)據(jù)按照自身數(shù)據(jù)特性進行對應(yīng)的采集和處理,獲取處理后的數(shù)據(jù)。
統(tǒng)一融合模塊300,用于將所述處理后的數(shù)據(jù)進行統(tǒng)一融合,獲取統(tǒng)一融合后的數(shù)據(jù)。
統(tǒng)一融合模塊300對采集及處理后的數(shù)據(jù)進行數(shù)據(jù)規(guī)整、數(shù)據(jù)集成、數(shù)據(jù)建模,數(shù)據(jù)規(guī)整和數(shù)據(jù)集成針對有內(nèi)在關(guān)聯(lián)性的數(shù)據(jù)進行,數(shù)據(jù)建模提供數(shù)據(jù)模型設(shè)計、數(shù)據(jù)索引構(gòu)建功能,將分散的、有內(nèi)在聯(lián)系的各種數(shù)據(jù)進行關(guān)聯(lián),獲取統(tǒng)一融合后的數(shù)據(jù)。
在本實施例中,適配模塊100通過對異構(gòu)數(shù)據(jù)根據(jù)樣本進行分析,自動適配數(shù)據(jù)采集模式和數(shù)據(jù)處理模型,數(shù)據(jù)處理模塊200采集數(shù)據(jù)并處理數(shù)據(jù),調(diào)整集群中各節(jié)點負載均衡,統(tǒng)一融合模塊300對有內(nèi)在關(guān)聯(lián)性的各種異構(gòu)數(shù)據(jù)進行統(tǒng)一融合,有效解決了現(xiàn)有技術(shù)中大數(shù)據(jù)處理效率低、融合度低的問題,提高了數(shù)據(jù)處理效率和數(shù)據(jù)融合度,提升了最終數(shù)據(jù)的可利用價值和實用性,為大數(shù)據(jù)分析和價值挖掘提供了數(shù)據(jù)質(zhì)量保障。
進一步的,參照圖9,本發(fā)明數(shù)據(jù)處理裝置第二實施例提供一種數(shù)據(jù)處理裝置,基于上述圖8所示的實施例,適配模塊100包括:
樣本采集單元110,用于控制所述集群中各節(jié)點讀取待采集數(shù)據(jù),獲取待采集數(shù)據(jù)樣本和集群中各節(jié)點負載情況。
樣本采集單元110控制集群中各節(jié)點采集預(yù)設(shè)數(shù)量的待采集數(shù)據(jù),獲取待采集數(shù)據(jù)樣本,和數(shù)據(jù)采集過程中集群中各節(jié)點負載情況,待采集數(shù)據(jù)樣本包括預(yù)設(shè)數(shù)量的待采集數(shù)據(jù),集群中各節(jié)點負載情況包括數(shù)據(jù)采集過程中各節(jié)點的數(shù)據(jù)采集速率、性能、響應(yīng)情況、負載能力。
數(shù)據(jù)評估單元120,用于評估待采集數(shù)據(jù)樣本,獲取質(zhì)量評估報告,所述質(zhì)量評估報告包括:數(shù)據(jù)類型、數(shù)據(jù)編碼、數(shù)據(jù)冗余率、數(shù)據(jù)稀疏性和數(shù)據(jù)傳輸速度。
數(shù)據(jù)評估單元120控制集群中各節(jié)點對各自采集到的待采集數(shù)據(jù)樣本進行數(shù)據(jù)質(zhì)量評估,包括集群中各節(jié)點采集到的待采集數(shù)據(jù)樣本的數(shù)據(jù)類型、數(shù)據(jù)編碼、數(shù)據(jù)冗余率、數(shù)據(jù)稀疏性和數(shù)據(jù)傳輸速度;然后數(shù)據(jù)評估單元120 將集群中各節(jié)點的數(shù)據(jù)質(zhì)量評估的數(shù)據(jù)匯總、整理成為最終的質(zhì)量評估報告,最終的質(zhì)量評估報告是最終的待采集數(shù)據(jù)樣本的數(shù)據(jù)基本質(zhì)量屬性的檢測與判定,包括最終的待采集數(shù)據(jù)樣本的數(shù)據(jù)類型、數(shù)據(jù)編碼、數(shù)據(jù)冗余率、數(shù)據(jù)稀疏性和數(shù)據(jù)傳輸速度?;?,
數(shù)據(jù)評估單元120獲取集群中各節(jié)點采集到的待采集數(shù)據(jù)樣本,匯總采集到的待采集數(shù)據(jù)樣本,對匯總后的待采集數(shù)據(jù)樣本進行數(shù)據(jù)基本質(zhì)量屬性的檢測與判定,包括數(shù)據(jù)類型、數(shù)據(jù)編碼、數(shù)據(jù)冗余率、數(shù)據(jù)稀疏性和數(shù)據(jù)傳輸速度,獲取質(zhì)量評估報告。
適配單元130,用于根據(jù)所述質(zhì)量評估報告和所述集群中各節(jié)點負載情況,適配數(shù)據(jù)采集模式和數(shù)據(jù)處理模型,分配所述集群中各節(jié)點的采集任務(wù)。
適配單元130根據(jù)質(zhì)量評估報告中的數(shù)據(jù)類型和數(shù)據(jù)傳輸速率適配數(shù)據(jù)采集模式,根據(jù)質(zhì)量評估報告中的數(shù)據(jù)編碼、數(shù)據(jù)冗余率、數(shù)據(jù)稀疏性適配數(shù)據(jù)處理模型,根據(jù)質(zhì)量評估報告中的數(shù)據(jù)傳輸速度和集群中各節(jié)點負載情況分配集群中各節(jié)點采集任務(wù)。
在本實施例中,樣本采集單元110獲取待采集數(shù)據(jù)樣本,數(shù)據(jù)評估單元120通過對待采集數(shù)據(jù)樣本的預(yù)處理,得到質(zhì)量評估報告和集群中各節(jié)點負載情況,適配單元130根據(jù)質(zhì)量評估報告和集群中各節(jié)點負載情況,自動適配數(shù)據(jù)采集模式和數(shù)據(jù)處理模型,實現(xiàn)了各種異構(gòu)數(shù)據(jù)包括各種動態(tài)的流式數(shù)據(jù)、靜態(tài)的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)按照其自身的數(shù)據(jù)特性進行更加合理有效的數(shù)據(jù)采集及數(shù)據(jù)處理;合理分配采集任務(wù),使集群中各節(jié)點按照相應(yīng)的采集任務(wù)進行數(shù)據(jù)采集,實現(xiàn)了集群中各節(jié)點負載平衡,提升了集群處理能力。
進一步的,參照圖10,本發(fā)明數(shù)據(jù)處理裝置第三實施例提供一種數(shù)據(jù)處理裝置,基于上述圖8所示的實施例,數(shù)據(jù)處理模塊200包括:
數(shù)據(jù)采集單元210,用于控制所述集群中各節(jié)點根據(jù)對應(yīng)的集群中各節(jié)點采集任務(wù),以所述采集模式進行數(shù)據(jù)采集。
數(shù)據(jù)采集單元210控制集群中各節(jié)點根據(jù)已分配的對應(yīng)的集群中各節(jié)點 采集任務(wù),以適配的采集模式進行數(shù)據(jù)采集,例如:動態(tài)流式數(shù)據(jù)以增量實時采集模式進行數(shù)據(jù)采集并緩存,結(jié)構(gòu)化數(shù)據(jù)以全量非實時采集模式進行數(shù)據(jù)采集,半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)以全量非實時采集模式進行數(shù)據(jù)采集,非結(jié)構(gòu)化數(shù)據(jù)會進一步細分為文本數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)、圖片數(shù)據(jù),不同類型的非結(jié)構(gòu)化數(shù)據(jù)的采集方法不同,例如文本數(shù)據(jù)會進行文本數(shù)據(jù)采集、音頻數(shù)據(jù)會進行音頻數(shù)據(jù)采集、視頻數(shù)據(jù)會進行視頻數(shù)據(jù)采集、圖片數(shù)據(jù)會進行圖片數(shù)據(jù)采集,獲取采集到的數(shù)據(jù)。
數(shù)據(jù)處理單元220,用于控制所述集群中各節(jié)點根據(jù)所述數(shù)據(jù)處理模型處理所述采集到的數(shù)據(jù),獲取處理后的數(shù)據(jù)。
數(shù)據(jù)處理單元220控制集群中各節(jié)點根據(jù)適配的數(shù)據(jù)處理模型對各節(jié)點采集到的數(shù)據(jù)分別進行數(shù)據(jù)處理,例如:根據(jù)數(shù)據(jù)處理模型對動態(tài)流式數(shù)據(jù)順次進行數(shù)據(jù)抽取、數(shù)據(jù)過濾、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分類的處理步驟;根據(jù)數(shù)據(jù)處理模型對結(jié)構(gòu)化數(shù)據(jù)根據(jù)數(shù)據(jù)處理模型順次進行數(shù)據(jù)抽取、異常清洗的處理步驟;根據(jù)數(shù)據(jù)處理模型對半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)根據(jù)數(shù)據(jù)處理模型順次進行數(shù)據(jù)抽取、數(shù)據(jù)解析、異常清洗、數(shù)據(jù)分割、特征提取的處理步驟,完成數(shù)據(jù)處理,獲取處理后的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)進一步細分為文本數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)、圖片數(shù)據(jù),不同類型非結(jié)構(gòu)化數(shù)據(jù)處理方法不同,如根據(jù)數(shù)據(jù)處理模型對文本數(shù)據(jù)會進行文本數(shù)據(jù)采集、文本結(jié)構(gòu)及編碼解析、重復(fù)及邏輯異常清洗、中文分詞、特征提取的處理步驟。
數(shù)據(jù)處理過程中的產(chǎn)生的中間數(shù)據(jù)、元數(shù)據(jù)和進行數(shù)據(jù)處理后的結(jié)果數(shù)據(jù),數(shù)據(jù)處理單元220根據(jù)采集模式的不同選擇合適的存儲介質(zhì)進行數(shù)據(jù)存儲或緩存,即待采集數(shù)據(jù)的原始數(shù)據(jù)經(jīng)過數(shù)據(jù)抽取、數(shù)據(jù)解析及異常清洗之后的結(jié)果數(shù)據(jù)、經(jīng)過數(shù)據(jù)分割后的結(jié)果數(shù)據(jù)、經(jīng)過特征提取后的結(jié)果數(shù)據(jù)存入分布式文件系統(tǒng)或分布式數(shù)據(jù)庫;增量流式數(shù)據(jù)的中間數(shù)據(jù)采用內(nèi)存數(shù)據(jù)庫進行緩存,結(jié)果數(shù)據(jù)采用先進行文件緩存再存入分布式數(shù)據(jù)庫。獲取處理后的數(shù)據(jù)。
在本實施例中,數(shù)據(jù)采集單元210自動根據(jù)不同的數(shù)據(jù)類型,使用合適的數(shù)據(jù)采集模式進行數(shù)據(jù)采集,數(shù)據(jù)處理單元220根據(jù)適配的數(shù)據(jù)處理模型 對不同類型的數(shù)據(jù)進行特定的數(shù)據(jù)處理,實現(xiàn)了根據(jù)各種異構(gòu)數(shù)據(jù)自身數(shù)據(jù)特性自動進行合適、有針對性的數(shù)據(jù)采集和處理,提升了數(shù)據(jù)處理效率和處理后的數(shù)據(jù)質(zhì)量,使處理前的數(shù)據(jù)經(jīng)過處理成為可操作的統(tǒng)一的數(shù)據(jù),便于數(shù)據(jù)融合。
進一步的,參照圖11,本發(fā)明數(shù)據(jù)處理裝置第四實施例提供一種數(shù)據(jù)處理裝置,基于上述圖8所示的實施例,統(tǒng)一融合模塊300包括:
數(shù)據(jù)規(guī)整單元310,用于根據(jù)預(yù)設(shè)的數(shù)據(jù)規(guī)整模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)規(guī)整。
根據(jù)預(yù)設(shè)的數(shù)據(jù)規(guī)整模型,數(shù)據(jù)規(guī)整單元310對處理后的不同數(shù)據(jù)進行統(tǒng)一的數(shù)據(jù)規(guī)整,包括:統(tǒng)一的格式轉(zhuǎn)換、統(tǒng)一編碼、數(shù)據(jù)修正和缺失填充,獲取統(tǒng)一規(guī)整的數(shù)據(jù)。
數(shù)據(jù)集成單元320,用于根據(jù)預(yù)設(shè)的數(shù)據(jù)集成模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)集成。
根據(jù)預(yù)設(shè)的數(shù)據(jù)集成模型,數(shù)據(jù)集成單元320對處理后的不同數(shù)據(jù)或數(shù)據(jù)規(guī)整后的數(shù)據(jù)進行數(shù)據(jù)集成,包括:數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)合并、數(shù)據(jù)分組、數(shù)據(jù)匯總,形成統(tǒng)一的常用的基礎(chǔ)的數(shù)據(jù)集合。
數(shù)據(jù)建模單元330,用于根據(jù)預(yù)設(shè)的數(shù)據(jù)建模模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)建模。
根據(jù)預(yù)設(shè)的數(shù)據(jù)建模模型,數(shù)據(jù)建模單元330對處理后的不同數(shù)據(jù)、或數(shù)據(jù)規(guī)整后的數(shù)據(jù)、或數(shù)據(jù)集成后的數(shù)據(jù)進行模型設(shè)計、索引構(gòu)建,以形成后續(xù)更高級別數(shù)據(jù)分析、數(shù)據(jù)挖掘的基礎(chǔ)數(shù)據(jù)支撐。
數(shù)據(jù)獲取單元340,用于獲取統(tǒng)一融合后的數(shù)據(jù)。
對處理后的數(shù)據(jù),根據(jù)數(shù)據(jù)處理后的情況,數(shù)據(jù)獲取單元340控制數(shù)據(jù)規(guī)整單元310進行數(shù)據(jù)規(guī)整的統(tǒng)一融合操作,數(shù)據(jù)集成單元320進行數(shù)據(jù)集成的統(tǒng)一融合操作,數(shù)據(jù)建模單元330進行數(shù)據(jù)建模的統(tǒng)一融合操作,可按順次進行數(shù)據(jù)規(guī)整、數(shù)據(jù)集成和數(shù)據(jù)建模完成統(tǒng)一融合,也可按順次進行數(shù) 據(jù)規(guī)整、數(shù)據(jù)集成完成統(tǒng)一融合,或其他統(tǒng)一融合操作完成統(tǒng)一融合,可根據(jù)實際統(tǒng)一融合的需要進行數(shù)據(jù)規(guī)整、數(shù)據(jù)集成或數(shù)據(jù)建模的統(tǒng)一融合操作。數(shù)據(jù)獲取單元340獲取統(tǒng)一融合后的數(shù)據(jù)。
在本實施例中,數(shù)據(jù)獲取單元340控制數(shù)據(jù)規(guī)整單元310、數(shù)據(jù)集成單元320和數(shù)據(jù)建模單元330,對處理后的數(shù)據(jù)進行統(tǒng)一融合,實現(xiàn)了自動對分散的、有內(nèi)在關(guān)聯(lián)性的各異構(gòu)數(shù)據(jù)的關(guān)聯(lián),提高了數(shù)據(jù)融合度,提升了最終數(shù)據(jù)的可利用價值和實用性,為后續(xù)的大數(shù)據(jù)分析、數(shù)據(jù)價值挖掘提供基礎(chǔ)數(shù)據(jù)支撐和數(shù)據(jù)質(zhì)量保證。
進一步的,參照圖12,本發(fā)明數(shù)據(jù)處理裝置第五實施例提供一種數(shù)據(jù)處理裝置,基于上述圖8至圖11中所示任一實施例(本實施例以圖8為例),所述數(shù)據(jù)處理裝置還包括分類存儲模塊400:
分類存儲模塊400,用于分類存儲所述統(tǒng)一融合后的數(shù)據(jù)。
分類存儲模塊400對不同類型的數(shù)據(jù)分類存儲,將統(tǒng)一融合后的數(shù)據(jù)存儲于分布式數(shù)據(jù)倉庫,將特定數(shù)據(jù)存儲于專用數(shù)據(jù)庫,例如:分類存儲模塊400將交通、氣象等時空數(shù)據(jù)存儲于時空數(shù)據(jù)庫;分類存儲模塊400將社交網(wǎng)絡(luò)等圖數(shù)據(jù)存儲于圖數(shù)據(jù)庫。分類存儲模塊400將采集到的半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的原始數(shù)據(jù)存儲于分布式文件系統(tǒng);分類存儲模塊400將采集到的結(jié)構(gòu)化數(shù)據(jù)的原始數(shù)據(jù)存儲于分布式數(shù)據(jù)庫;分類存儲模塊400將半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)進行處理后的數(shù)據(jù)存儲于分布式數(shù)據(jù)庫;分類存儲模塊400將流式數(shù)據(jù)處理在實時數(shù)據(jù)庫進行。
在本實施例中,適配模塊100自動適配數(shù)據(jù)采集模式和數(shù)據(jù)處理模型,數(shù)據(jù)處理模塊200根據(jù)數(shù)據(jù)處理模型處理采集到的數(shù)據(jù),統(tǒng)一融合模塊300對處理后的數(shù)據(jù)進行統(tǒng)一融合,分類存儲模塊400分類存儲統(tǒng)一融合后的數(shù)據(jù),便于后續(xù)數(shù)據(jù)的大數(shù)據(jù)的分類查詢和進一步分析處理,提升了最終數(shù)據(jù)的實用性和調(diào)取便捷性。
進一步的,參照圖13,本發(fā)明數(shù)據(jù)處理裝置第六實施例提供一種數(shù)據(jù)處 理裝置,基于上述圖8所示實施例,所述數(shù)據(jù)處理裝置還包括接口配置模塊500:
接口配置模塊500,用于配置數(shù)據(jù)采集接口。
接口配置模塊500對不同數(shù)據(jù)源的數(shù)據(jù)采集接口進行統(tǒng)一配置,并對配置進行連接測試,連接成功后接口配置模塊500再進行配置文件的統(tǒng)一分發(fā),控制集群中各節(jié)點連接不同數(shù)據(jù)源的數(shù)據(jù)采集接口;若連接測試失敗,接口配置模塊500重新進行數(shù)據(jù)采集接口配置。
所述適配模塊100還用于,通過所述數(shù)據(jù)采集接口獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理。
適配模塊100控制集群中各節(jié)點通過數(shù)據(jù)采集接口采集待采集數(shù)據(jù),獲取待采集數(shù)據(jù)樣本和集群中各節(jié)點負載情況,待采集數(shù)據(jù)樣本包括預(yù)設(shè)數(shù)量的待采集數(shù)據(jù),集群中各節(jié)點負載情況包括數(shù)據(jù)采集過程中各節(jié)點的數(shù)據(jù)采集速率、性能、響應(yīng)情況、負載能力,用于了解待采集數(shù)據(jù)樣本采集過程中各節(jié)點的資源負載情況。
適配模塊100對待采集數(shù)據(jù)樣本進行預(yù)處理,檢測與判定待采集數(shù)據(jù)基本質(zhì)量屬性,獲取質(zhì)量評估報告。
所述數(shù)據(jù)處理模塊200還用于,控制集群中各節(jié)點通過所述數(shù)據(jù)采集接口進行數(shù)據(jù)采集,控制集群中各節(jié)點對采集到的數(shù)據(jù)進行數(shù)據(jù)處理。
數(shù)據(jù)處理模塊200控制集群中各節(jié)點根據(jù)已分配的對應(yīng)的集群中各節(jié)點采集任務(wù),以適配的采集模式通過數(shù)據(jù)采集接口進行數(shù)據(jù)采集,例如:動態(tài)流式數(shù)據(jù)通過數(shù)據(jù)采集接口以增量實時采集模式進行數(shù)據(jù)采集,結(jié)構(gòu)化數(shù)據(jù)通過數(shù)據(jù)采集接口以全量非實時采集模式進行數(shù)據(jù)采集,半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)通過數(shù)據(jù)采集接口以全量非實時采集模式進行數(shù)據(jù)采集,獲取采集到的數(shù)據(jù)。
數(shù)據(jù)處理模塊200控制集群中各節(jié)點以適配的數(shù)據(jù)處理模型對各節(jié)點采集到的數(shù)據(jù)分別進行數(shù)據(jù)處理,例如:根據(jù)數(shù)據(jù)處理模型對動態(tài)流式數(shù)據(jù)順次進行數(shù)據(jù)抽取、數(shù)據(jù)過濾、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分類的處理步驟;根據(jù)數(shù)據(jù)處理模型對結(jié)構(gòu)化數(shù)據(jù)順次進行數(shù)據(jù)抽取、異常清洗的處理步驟; 根據(jù)數(shù)據(jù)處理模型對半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)順次進行數(shù)據(jù)抽取、數(shù)據(jù)解析、異常清洗、數(shù)據(jù)分割、特征提取的處理步驟,實現(xiàn)對各種不同的異構(gòu)數(shù)據(jù)按照自身數(shù)據(jù)特性進行對應(yīng)的采集和處理。
在本實施例中,接口配置模塊500統(tǒng)一配置數(shù)據(jù)采集接口,兼顧靜態(tài)的、動態(tài)的,結(jié)構(gòu)化的、半結(jié)構(gòu)化的、非結(jié)構(gòu)化的異構(gòu)數(shù)據(jù)采集接口配置,實現(xiàn)了多源數(shù)據(jù)采集時,數(shù)據(jù)采集接口的統(tǒng)一配置,為多源異構(gòu)數(shù)據(jù)采集做好了準備,從而適配模塊100和數(shù)據(jù)處理模塊200可以控制集群中各節(jié)點通過數(shù)據(jù)采集接口采集多源異構(gòu)數(shù)據(jù),提升了數(shù)據(jù)采集速率。
進一步的,參照圖14,本發(fā)明數(shù)據(jù)處理裝置第七實施例提供一種數(shù)據(jù)處理裝置,基于上述圖13所示實施例,接口配置模塊500包括:
參數(shù)獲取單元510,用于獲取數(shù)據(jù)采集接口配置參數(shù)。
參數(shù)獲取單元510向用戶給出預(yù)置的接口配置模板,包括:文件系統(tǒng)接口配置模板、數(shù)據(jù)庫接口配置模板和網(wǎng)絡(luò)接口配置模板,供用戶選擇,根據(jù)用戶選定的接口配置模板獲取模板中的配置參數(shù);或,
參數(shù)獲取單元510向用戶給出預(yù)置的接口配置模板,包括:文件系統(tǒng)接口配置模板、數(shù)據(jù)庫接口配置模板和網(wǎng)絡(luò)接口配置模板,用戶選擇接口配置模板后,可根據(jù)實際情況對模板中的配置參數(shù)進行修改;或,
用戶自定義設(shè)置數(shù)據(jù)采集接口配置參數(shù),參數(shù)獲取單元510獲取用戶自定義設(shè)置的數(shù)據(jù)采集接口配置參數(shù)。
數(shù)據(jù)采集接口配置參數(shù)包括數(shù)據(jù)采集接口的關(guān)鍵接口參數(shù),例如:網(wǎng)絡(luò)地址、端口號和路徑。
連接測試單元520,用于根據(jù)所述配置參數(shù)進行所述數(shù)據(jù)采集接口的連接測試。
連接測試單元520根據(jù)獲取的數(shù)據(jù)采集接口配置參數(shù)控制集群中主節(jié)點對數(shù)據(jù)采集接口進行連接,測試根據(jù)獲取的配置參數(shù),是否能成功連接數(shù)據(jù)采集接口。若根據(jù)獲取的配置參數(shù),成功連接數(shù)據(jù)采集接口,則連接測試單元520確認連接測試成功;若根據(jù)獲取的配置參數(shù),未成功連接數(shù)據(jù)采集接 口,則連接測試單元520確認連接測試不成功。
文件分發(fā)單元530,用于若所述連接測試成功,則將包含有所述配置參數(shù)的數(shù)據(jù)采集接口配置文件向集群中的其他節(jié)點進行分發(fā),配置所述集群中的各節(jié)點,并控制所述集群中的各節(jié)點連接所述數(shù)據(jù)采集接口。
若連接測試成功,則文件分發(fā)單元530將獲取的數(shù)據(jù)采集接口配置參數(shù)固化為數(shù)據(jù)采集接口的配置文件,將配置文件向集群中的其他節(jié)點進行分發(fā),并控制集群中各節(jié)點根據(jù)獲取的數(shù)據(jù)采集接口配置參數(shù)連接數(shù)據(jù)采集接口。
所述參數(shù)獲取單元510還用于,若所述連接測試不成功,則獲取所述數(shù)據(jù)采集接口配置參數(shù)。
若連接測試不成功,則參數(shù)獲取單元510通知用戶未成功連接數(shù)據(jù)采集接口,由用戶更換接口配置模板,或由用戶修改對模板中的數(shù)據(jù)采集接口配置參數(shù),或由用戶自定義設(shè)置數(shù)據(jù)采集接口配置參數(shù),參數(shù)獲取單元510重新獲取數(shù)據(jù)采集接口配置參數(shù)。
在本實施例中,通過參數(shù)獲取單元510獲取數(shù)據(jù)采集接口配置參數(shù),連接測試單元520連接測試獲取正確可用的數(shù)據(jù)采集接口配置參數(shù),文件分發(fā)單元530連接數(shù)據(jù)采集接口,完成了數(shù)據(jù)采集接口的配置,實現(xiàn)了對多源數(shù)據(jù)采集接口的統(tǒng)一自動化配置及連接,為數(shù)據(jù)采集做好了準備和支持,提升了數(shù)據(jù)采集和處理效率。
參照圖15,本發(fā)明數(shù)據(jù)處理系統(tǒng)第一實施例提供一種數(shù)據(jù)處理系統(tǒng),包括:
適配處理器A,用于獲取待采集數(shù)據(jù)樣本,對所述待采集數(shù)據(jù)樣本進行預(yù)處理,得到數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù)。
適配處理器A包括樣本采集模塊A1,數(shù)據(jù)評估模塊A2和適配模塊A3。
樣本采集模塊A1用于獲取待采集數(shù)據(jù)樣本,數(shù)據(jù)評估模塊A2用于對所述待采集數(shù)據(jù)樣本進行預(yù)處理,適配模塊A3用于適配數(shù)據(jù)采集模式和數(shù)據(jù)處理模型,分配集群中各節(jié)點采集任務(wù)。
數(shù)據(jù)處理器B,用于根據(jù)所述數(shù)據(jù)采集模式、數(shù)據(jù)處理模型和集群中各節(jié)點采集任務(wù),控制集群中各節(jié)點進行數(shù)據(jù)采集和數(shù)據(jù)處理,獲取處理后的數(shù)據(jù)。
數(shù)據(jù)處理器B包括數(shù)據(jù)采集模塊B1和數(shù)據(jù)處理模塊B2。
數(shù)據(jù)采集模塊B1用于根據(jù)適配的數(shù)據(jù)采集模式和集群中各節(jié)點采集任務(wù)采集數(shù)據(jù),數(shù)據(jù)處理模塊B2用于根據(jù)適配的數(shù)據(jù)處理模型對采集到的數(shù)據(jù)進行數(shù)據(jù)處理,獲取處理后的數(shù)據(jù)。
數(shù)據(jù)統(tǒng)一融合處理器C,用于將所述處理后的數(shù)據(jù)進行統(tǒng)一融合,獲取統(tǒng)一融合后的數(shù)據(jù)。
數(shù)據(jù)統(tǒng)一融合處理器C包括數(shù)據(jù)規(guī)整模塊C1、數(shù)據(jù)集成模塊C2、數(shù)據(jù)建模模塊C3和數(shù)據(jù)獲取模塊C4。
數(shù)據(jù)規(guī)整模塊C1用于根據(jù)預(yù)設(shè)的數(shù)據(jù)規(guī)整模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)規(guī)整;數(shù)據(jù)集成模塊C2用于根據(jù)預(yù)設(shè)的數(shù)據(jù)集成模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)集成;數(shù)據(jù)建模模塊C3用于根據(jù)預(yù)設(shè)的數(shù)據(jù)建模模型,對處理后的數(shù)據(jù)進行數(shù)據(jù)建模;數(shù)據(jù)獲取模塊C4用于控制據(jù)規(guī)整模塊C1、數(shù)據(jù)集成模塊C2和數(shù)據(jù)建模模塊C3進行數(shù)據(jù)統(tǒng)一融合,獲取統(tǒng)一融合后的數(shù)據(jù)。
在本實施例中,適配處理器A通過對異構(gòu)數(shù)據(jù)根據(jù)樣本進行分析,自動適配數(shù)據(jù)采集模式和數(shù)據(jù)處理模型,數(shù)據(jù)處理器B采集數(shù)據(jù)并處理數(shù)據(jù),調(diào)整集群中各節(jié)點負載均衡,數(shù)據(jù)統(tǒng)一融合處理器C對有內(nèi)在關(guān)聯(lián)性的各種異構(gòu)數(shù)據(jù)進行統(tǒng)一融合,有效解決了現(xiàn)有技術(shù)中大數(shù)據(jù)處理效率低、融合度低的問題,提高了數(shù)據(jù)處理效率和數(shù)據(jù)融合度,提升了最終數(shù)據(jù)的可利用價值和實用性,為大數(shù)據(jù)分析和價值挖掘提供了數(shù)據(jù)質(zhì)量保障。
進一步的,參照圖16,本發(fā)明數(shù)據(jù)處理系統(tǒng)第二實施例提供一種數(shù)據(jù)處理系統(tǒng),基于上述圖15所示的實施例,還包括數(shù)據(jù)采集接口適配器D、數(shù)據(jù)分類存儲器E和系統(tǒng)管理器F:
數(shù)據(jù)采集接口適配器D,用于配置數(shù)據(jù)采集接口。
數(shù)據(jù)采集接口適配器D包括參數(shù)獲取模塊D1、連接測試模塊D2和文件分發(fā)模塊D3。
參數(shù)獲取模塊D1用于獲取數(shù)據(jù)采集接口配置參數(shù);連接測試模塊D2用于測試獲取的數(shù)據(jù)采集接口配置參數(shù)是否能夠?qū)?shù)據(jù)采集接口進行連接;文件分發(fā)模塊D3用于若連接測試成功,將包含有所述配置參數(shù)的數(shù)據(jù)采集接口配置文件向集群中的其他節(jié)點進行分發(fā),配置所述集群中的各節(jié)點,并控制所述集群中的各節(jié)點連接數(shù)據(jù)采集接口。
數(shù)據(jù)分類存儲器E,用于分類存儲所述統(tǒng)一融合后的數(shù)據(jù)。
數(shù)據(jù)分類存儲器E包括分布式文件系統(tǒng)E1、分布式數(shù)據(jù)庫E2、分布式數(shù)據(jù)倉庫E3和專用數(shù)據(jù)庫E4。
數(shù)據(jù)分類存儲器E將統(tǒng)一融合后的數(shù)據(jù)存儲于分布式數(shù)據(jù)倉庫E3,將特定數(shù)據(jù)存儲于專用數(shù)據(jù)庫E4,例如:將交通、氣象等時空數(shù)據(jù)存儲于專用數(shù)據(jù)庫E4,將社交網(wǎng)絡(luò)等圖數(shù)據(jù)存儲于專用數(shù)據(jù)庫E4。
數(shù)據(jù)分類存儲器E將采集到的半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的原始數(shù)據(jù)存儲于分布式文件系統(tǒng)E1;將采集到的結(jié)構(gòu)化數(shù)據(jù)的原始數(shù)據(jù)存儲于分布式數(shù)據(jù)庫E2;將半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)進行處理后的數(shù)據(jù)存儲于分布式數(shù)據(jù)庫E2;將流式數(shù)據(jù)處理在專用數(shù)據(jù)庫E4進行。
系統(tǒng)管理器F,所述系統(tǒng)管理器F包括:
數(shù)據(jù)管理模塊F1,用于管理所述數(shù)據(jù)采集接口配置文件、數(shù)據(jù)采集接口的連接測試結(jié)果、待采集數(shù)據(jù)樣本、質(zhì)量評估報告和集群中各節(jié)點負載情況。
數(shù)據(jù)管理模塊F1存儲并分發(fā)數(shù)據(jù)采集接口配置文件;存儲并向用戶反饋數(shù)據(jù)采集接口的連接測試結(jié)果;存儲或緩存待采集數(shù)據(jù)樣本;評估待采集數(shù)據(jù)樣本,獲取并存儲質(zhì)量評估報告;獲取并存儲集群中各節(jié)點負載情況,便于其他模塊查詢或調(diào)取。
資源管理模塊F2,用于管理所述待采集數(shù)據(jù)樣本、數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)統(tǒng)一融合和數(shù)據(jù)存儲,及集群資源消耗情況,控制所述集群中各節(jié)點負載均衡。
資源管理模塊F2用于根據(jù)待采集數(shù)據(jù)樣本的采集過程、數(shù)據(jù)質(zhì)量的評估過程、數(shù)據(jù)采集過程、數(shù)據(jù)處理過程、數(shù)據(jù)統(tǒng)一融合過程和數(shù)據(jù)存儲過程中集群資源消耗情況,控制集群中各節(jié)點負載均衡。
模型管理模塊F3,用于管理數(shù)據(jù)采集接口配置模板、數(shù)據(jù)評估模板、數(shù)據(jù)采集模板、數(shù)據(jù)處理模型、數(shù)據(jù)規(guī)整模型、數(shù)據(jù)集成模型和數(shù)據(jù)建模模型。
模型管理模塊F3用于數(shù)據(jù)采集接口配置模板的存儲和修改;數(shù)據(jù)評估模板的管理;數(shù)據(jù)采集模板的存儲、適配、調(diào)用和修改;數(shù)據(jù)處理模型的存儲、適配、調(diào)用和修改;數(shù)據(jù)規(guī)整模型的存儲和調(diào)用;數(shù)據(jù)集成模型的存儲和調(diào)用;數(shù)據(jù)建模模型的構(gòu)建、存儲和調(diào)用。
過程監(jiān)控模塊F4,用于監(jiān)控數(shù)據(jù)采集接口配置、讀取待采集數(shù)據(jù)樣本、數(shù)據(jù)評估、數(shù)據(jù)處理、數(shù)據(jù)統(tǒng)一融合和數(shù)據(jù)存儲過程,并記錄、處理數(shù)據(jù)采集接口配置、讀取待采集數(shù)據(jù)樣本、數(shù)據(jù)評估、數(shù)據(jù)處理、數(shù)據(jù)統(tǒng)一融合和數(shù)據(jù)存儲過程中的完成狀態(tài)、中間錯誤和異常。
過程監(jiān)控模塊F4用于監(jiān)控數(shù)據(jù)處理系統(tǒng)各模塊的運行狀態(tài)、資源使用情況,記錄并處理數(shù)據(jù)處理系統(tǒng)各模塊運行時錯誤、異常。
在本實施例中,系統(tǒng)管理器F監(jiān)控適配處理器A、數(shù)據(jù)處理器B、數(shù)據(jù)統(tǒng)一融合處理器C、數(shù)據(jù)采集接口適配器D和數(shù)據(jù)分類存儲器E的運行狀態(tài)、數(shù)據(jù)處理情況和負載情況,對各模塊運行進行過程控制,集中管理數(shù)據(jù)處理系統(tǒng)中各類數(shù)據(jù),實現(xiàn)了多源數(shù)據(jù)接口的統(tǒng)一配置,異構(gòu)數(shù)據(jù)采集方式和處理模型的自動適配,對異構(gòu)數(shù)據(jù)的統(tǒng)一融合和分類存儲,提高了數(shù)據(jù)處理效率和融合度,提升了最終數(shù)據(jù)的可利用價值和實用性,為大數(shù)據(jù)分析和價值挖掘提供了數(shù)據(jù)質(zhì)量保障。
以上僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。