一種面向行業(yè)大數(shù)據(jù)多樣性應(yīng)用的混合型處理系統(tǒng)及處理方法【專利摘要】本發(fā)明公開了一種面向行業(yè)大數(shù)據(jù)多樣性應(yīng)用的混合型處理系統(tǒng)及方法,該系統(tǒng)包括:分布式數(shù)據(jù)采集子系統(tǒng),用于從外部系統(tǒng)采集數(shù)據(jù);存儲(chǔ)和并行計(jì)算子系統(tǒng),用于對(duì)所采集的數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算;一體化資源和系統(tǒng)管理平臺(tái),用于對(duì)所存儲(chǔ)和計(jì)算的數(shù)據(jù)進(jìn)行管理;其中,存儲(chǔ)和并行計(jì)算子系統(tǒng),包括大數(shù)據(jù)存儲(chǔ)子系統(tǒng)和大數(shù)據(jù)處理子系統(tǒng);其中,大數(shù)據(jù)處理子系統(tǒng),包括內(nèi)存計(jì)算引擎,其中,內(nèi)存計(jì)算引擎,用于在無共享集群中提供分布式內(nèi)存抽象,并對(duì)采集的數(shù)據(jù)進(jìn)行并行流水化和線程輕量級(jí)處理。本發(fā)明能夠滿足行業(yè)大數(shù)據(jù)多樣性業(yè)務(wù)應(yīng)用需求,通過內(nèi)存計(jì)算引擎加速能夠?qū)⒋髷?shù)據(jù)處理性能提高10倍以上,通過一體化管理平臺(tái)能夠保障系統(tǒng)的易用性、可靠性及可擴(kuò)展性?!緦@f明】一種面向行業(yè)大數(shù)據(jù)多樣性應(yīng)用的混合型處理系統(tǒng)及處理方法【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,具體而言,尤其涉及一種面向行業(yè)大數(shù)據(jù)多樣性應(yīng)用的混合型處理系統(tǒng)及處理方法?!?br>背景技術(shù):
】[0002]在信息化建設(shè)的大力推動(dòng)下,政府、金融、能源等行業(yè)已初步實(shí)現(xiàn)了企業(yè)級(jí)數(shù)據(jù)源的整合、共享與利用。然而,隨著傳感技術(shù)、網(wǎng)絡(luò)技術(shù)以及整個(gè)社會(huì)數(shù)字化、網(wǎng)絡(luò)化的迅猛發(fā)展,人類社會(huì)已進(jìn)入大數(shù)據(jù)時(shí)代,終端數(shù)量的急劇增長(zhǎng),采集頻度的大幅增強(qiáng),數(shù)據(jù)量由TB級(jí)向PB級(jí)發(fā)展,數(shù)據(jù)的多樣性與豐富性、時(shí)變性與激增性日益凸顯,使得傳統(tǒng)行業(yè)數(shù)據(jù)的管理及利用面臨著多源異構(gòu)海量數(shù)據(jù)的有效集成、高性能存儲(chǔ)和高可擴(kuò)展性挑戰(zhàn)。同時(shí),各行業(yè)的應(yīng)用業(yè)務(wù)逐步向全面化、智能化、精益化方向發(fā)展,需要進(jìn)一步提升跨業(yè)務(wù)、跨平臺(tái)的數(shù)據(jù)分析和處理能力,對(duì)數(shù)據(jù)存儲(chǔ)和處理的高效性、價(jià)值挖掘的準(zhǔn)確性和實(shí)時(shí)性以及人機(jī)交互效果提出了更高要求。為了更好地服務(wù)于行業(yè)用戶以及國(guó)民經(jīng)濟(jì)的可持續(xù)發(fā)展,如何應(yīng)對(duì)行業(yè)大數(shù)據(jù)的存儲(chǔ)、處理、挖掘以及高效的服務(wù)響應(yīng),成為亟待解決的關(guān)鍵問題。[0003]針對(duì)行業(yè)大數(shù)據(jù)業(yè)務(wù)應(yīng)用需求,面向數(shù)據(jù)密集型應(yīng)用的計(jì)算框架和系統(tǒng)不斷出現(xiàn),如離線批處理系統(tǒng)MapReduce,海量數(shù)據(jù)高并發(fā)處理系統(tǒng)HBase,內(nèi)存處理和迭代式計(jì)算框架Spark和流式處理框架Storm,以及傳統(tǒng)的高性能計(jì)算框架MPI等,這些系統(tǒng)僅針對(duì)各自的問題域提供解決方案。為了應(yīng)對(duì)行業(yè)日益復(fù)雜的業(yè)務(wù)需求,需要在大規(guī)模集群或數(shù)據(jù)中心中綜合運(yùn)用多種處理架構(gòu)來存儲(chǔ)和處理海量數(shù)據(jù)。然而,當(dāng)前的各種大數(shù)據(jù)系統(tǒng)是邏輯獨(dú)立的,缺乏統(tǒng)一的集中管理,若各自采用單獨(dú)集群部署,則存在不可忽略的數(shù)據(jù)冗余和資源利用率低下問題;若考慮到資源利用率,運(yùn)維成本和數(shù)據(jù)共享等因素,將所有框架和系統(tǒng)集中部署到單一集群中,則又面臨著相互之間資源共享、競(jìng)爭(zhēng)和性能干擾等問題。【
發(fā)明內(nèi)容】[0004]本發(fā)明所要解決的技術(shù)問題在于,本發(fā)明提出一種面向行業(yè)大數(shù)據(jù)多樣性應(yīng)用的混合型處理系統(tǒng)和處理方法,采用分布式大數(shù)據(jù)采集方式,實(shí)現(xiàn)對(duì)多源異構(gòu)行業(yè)數(shù)據(jù)的高速導(dǎo)入,通過融合各種分布式處理技術(shù)架構(gòu)的特點(diǎn),并采用基于分布式內(nèi)存計(jì)算的大數(shù)據(jù)處理性能優(yōu)化技術(shù),滿足對(duì)各行業(yè)大數(shù)據(jù)應(yīng)用的多樣性業(yè)務(wù)需求和高速響應(yīng)性能指標(biāo),并通過一體化的管理平臺(tái)保障系統(tǒng)的可擴(kuò)展性和可靠性。[0005]為了解決上述問題,本發(fā)明提供一種面向行業(yè)大數(shù)據(jù)多樣性應(yīng)用的混合型處理系統(tǒng),該系統(tǒng)包括:[0006]分布式數(shù)據(jù)采集子系統(tǒng)、基于內(nèi)存計(jì)算架構(gòu)的混合型分布式存儲(chǔ)和并行計(jì)算子系統(tǒng)、一體化資源和系統(tǒng)管理平臺(tái);其中,[0007]所述分布式數(shù)據(jù)采集子系統(tǒng),用于從外部系統(tǒng)采集數(shù)據(jù);[0008]所述基于內(nèi)存計(jì)算架構(gòu)的混合型分布式存儲(chǔ)和并行計(jì)算子系統(tǒng),用于對(duì)所采集的數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算;[0009]所述一體化資源和系統(tǒng)管理平臺(tái),用于對(duì)所存儲(chǔ)和計(jì)算的數(shù)據(jù)進(jìn)行管理;[0010]所述基于內(nèi)存計(jì)算架構(gòu)的混合型分布式存儲(chǔ)和并行計(jì)算子系統(tǒng),包括大數(shù)據(jù)存儲(chǔ)子系統(tǒng)和大數(shù)據(jù)處理子系統(tǒng);其中,[0011]所述大數(shù)據(jù)處理子系統(tǒng),包括內(nèi)存計(jì)算引擎,其中,[0012]所述內(nèi)存計(jì)算引擎,用于在無共享集群中提供分布式內(nèi)存抽象,并對(duì)采集的所述數(shù)據(jù)進(jìn)行并行流水化和線程輕量級(jí)處理。[0013]優(yōu)選地,所述系統(tǒng)還具有以下特點(diǎn):[0014]所述大數(shù)據(jù)存儲(chǔ)子系統(tǒng)包括分布式文件子系統(tǒng)、數(shù)據(jù)庫;[0015]所述分布式文件子系統(tǒng),用于直接存儲(chǔ)數(shù)據(jù),并存儲(chǔ)所述數(shù)據(jù)庫;[0016]所述數(shù)據(jù)庫包括結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和內(nèi)存數(shù)據(jù)庫;[0017]所述結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫,用于存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù);[0018]所述NoSQL數(shù)據(jù)庫,用于存儲(chǔ)半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù);[0019]所述內(nèi)存數(shù)據(jù)庫,用于存儲(chǔ)經(jīng)常使用或需要加速處理的數(shù)據(jù)。[0020]優(yōu)選地,所述系統(tǒng)還具有以下特點(diǎn):[0021]所述分布式數(shù)據(jù)采集子系統(tǒng),還用于對(duì)所采集的數(shù)據(jù)進(jìn)行第一預(yù)處理;[0022]所述第一預(yù)處理是指,將所采集的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),并將所述結(jié)構(gòu)化數(shù)據(jù)發(fā)送給所述結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫,將所述半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)發(fā)送給所述NoSQL數(shù)據(jù)庫;[0023]還用于進(jìn)行第二預(yù)處理;[0024]所述第二次預(yù)處理是指,將所采集的數(shù)據(jù)中經(jīng)常使用或需要加速處理的數(shù)據(jù)發(fā)送給所述內(nèi)存數(shù)據(jù)庫。[0025]優(yōu)選地,所述系統(tǒng)還具有以下特點(diǎn):[0026]所述大數(shù)據(jù)存儲(chǔ)子系統(tǒng)還包括:[0027]同步子系統(tǒng),用于將所述內(nèi)存數(shù)據(jù)庫中經(jīng)常使用或需要加速處理的數(shù)據(jù)中變化的數(shù)據(jù)同步到結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫;[0028]所述同步方式為:實(shí)時(shí)同步、日志同步、定期同步。[0029]所述同步子系統(tǒng)還用于根據(jù)所述變化的數(shù)據(jù)的可靠性級(jí)別選擇不同的同步方式。[0030]優(yōu)選地,所述系統(tǒng)還具有以下特點(diǎn):[0031]所述大數(shù)據(jù)處理子系統(tǒng),還包括基于所述內(nèi)存計(jì)算引擎的批處理引擎、交互處理引擎和流處理引擎;[0032]所述批處理引擎,用于對(duì)密集型數(shù)據(jù)以離線方式進(jìn)行并行計(jì)算處理;[0033]所述交互處理引擎,用于對(duì)需要快速響應(yīng)的應(yīng)用層標(biāo)準(zhǔn)SQL請(qǐng)求進(jìn)行處理;[0034]所述流處理引擎,用于對(duì)連續(xù)、實(shí)時(shí)達(dá)到的流數(shù)據(jù)進(jìn)行處理;[0035]其中,[0036]所述批處理引擎,還包括圖計(jì)算引擎,所述圖計(jì)算引擎,用于對(duì)所述數(shù)據(jù)為圖的數(shù)據(jù)進(jìn)行批處理。[0037]優(yōu)選地,所述系統(tǒng)還具有以下特點(diǎn):[0038]所述一體化資源和系統(tǒng)管理平臺(tái),包括:集中式Web控制臺(tái)和分布式集群資源管理子系統(tǒng);[0039]所述集中式Web控制臺(tái),用于提供對(duì)采集、存儲(chǔ)和處理子系統(tǒng)的安裝、部署和配置的功能,提供對(duì)系統(tǒng)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源及各子系統(tǒng)的運(yùn)行情況的監(jiān)控功能,以及提供對(duì)系統(tǒng)和數(shù)據(jù)的認(rèn)證、授權(quán)、加密的安全管理功能;[0040]所述分布式集群資源管理子系統(tǒng),用于采用統(tǒng)一的調(diào)度方式在各子系統(tǒng)間進(jìn)行資源分配;[0041]還用于提供分布式服務(wù)監(jiān)控系統(tǒng)集群節(jié)點(diǎn)的變化,記錄系統(tǒng)關(guān)鍵信息。[0042]為了解決上述問題,本發(fā)明還提供一種面向行業(yè)大數(shù)據(jù)多樣性應(yīng)用的混合型處理方法,該方法包括:[0043]從外部系統(tǒng)采集數(shù)據(jù);[0044]對(duì)所采集的數(shù)據(jù)進(jìn)行預(yù)處理,并對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算;[0045]對(duì)所存儲(chǔ)和計(jì)算的數(shù)據(jù)進(jìn)行管理;[0046]在對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算中,在無共享集群中提供分布式內(nèi)存抽象,并對(duì)所述預(yù)處理后的數(shù)據(jù)并行流水化和線程輕量級(jí)處理。[0047]優(yōu)選地,所述方法還包括:[0048]對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行存儲(chǔ)的步驟包括:[0049]所述大數(shù)據(jù)存儲(chǔ)子系統(tǒng)包括分布式文件子系統(tǒng)、數(shù)據(jù)庫;[0050]所述數(shù)據(jù)庫包括結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和內(nèi)存數(shù)據(jù)庫;[0051]采用分布式文件子系統(tǒng)直接存儲(chǔ)數(shù)據(jù),并存儲(chǔ)所述數(shù)據(jù)庫;[0052]采用結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù);[0053]采用NoSQL數(shù)據(jù)庫存儲(chǔ)半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù);[0054]采用內(nèi)存數(shù)據(jù)庫存儲(chǔ)經(jīng)常使用或需要加速處理的數(shù)據(jù)。[0055]優(yōu)選地,所述方法還包括:[0056]對(duì)所采集的數(shù)據(jù)進(jìn)行第一預(yù)處理;[0057]所述第一預(yù)處理具體為,將所采集的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),并將所述結(jié)構(gòu)化數(shù)據(jù)發(fā)送給所述結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫,將所述半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)發(fā)送給所述NoSQL數(shù)據(jù)庫;[0058]還進(jìn)行第二預(yù)處理;[0059]所述第二次預(yù)處理具體為,將所采集的數(shù)據(jù)中經(jīng)常使用或需要加速處理的數(shù)據(jù)發(fā)送給所述內(nèi)存數(shù)據(jù)庫。[0060]優(yōu)選地,所述方法還包括:[0061]將所述經(jīng)常使用或需要加速處理的數(shù)據(jù)中變化的數(shù)據(jù)同步到結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫;[0062]所述同步方式為:實(shí)時(shí)同步、日志同步、定期同步。[0063]還根據(jù)所述變化的數(shù)據(jù)的可靠性級(jí)別選擇不同的同步方式。[0064]優(yōu)選地,所述方法還包括:[0065]采用批處理引擎對(duì)密集型數(shù)據(jù)以離線方式進(jìn)行并行計(jì)算處理;[0066]采用交互處理引擎對(duì)需要快速響應(yīng)的應(yīng)用層標(biāo)準(zhǔn)SQL請(qǐng)求進(jìn)行處理;[0067]采用流處理引擎對(duì)連續(xù)、實(shí)時(shí)達(dá)到的流數(shù)據(jù)進(jìn)行處理;[0068]其中,[0069]所述批處理引擎,還包括圖計(jì)算引擎,采用圖計(jì)算引擎對(duì)所述數(shù)據(jù)為圖的數(shù)據(jù)進(jìn)行批處理。[0070]優(yōu)選地,所述方法還包括:[0071]提供對(duì)采集、存儲(chǔ)和處理子系統(tǒng)的安裝、部署和配置的功能,提供對(duì)系統(tǒng)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源及各子系統(tǒng)的運(yùn)行情況的監(jiān)控功能,以及提供對(duì)系統(tǒng)和數(shù)據(jù)的認(rèn)證、授權(quán)、力口密的安全管理功能;[0072]采用統(tǒng)一的調(diào)度方式在各子系統(tǒng)間進(jìn)行資源分配;[0073]采用分布式服務(wù)監(jiān)控系統(tǒng)集群節(jié)點(diǎn)的變化,記錄系統(tǒng)關(guān)鍵信息。[0074]綜上,采用本發(fā)明提出的一種面向行業(yè)大數(shù)據(jù)多樣性應(yīng)用的混合型處理系統(tǒng)及處理方法,能夠滿足行業(yè)大數(shù)據(jù)的在線實(shí)時(shí)處理、交互分析、離線批處理以及流處理等多樣性業(yè)務(wù)應(yīng)用需求,并且通過內(nèi)算計(jì)算引擎加速,能夠?qū)⒋髷?shù)據(jù)處理性能提高10倍以上,通過一體化管理平臺(tái),能夠保障系統(tǒng)的易用性、可靠性及可擴(kuò)展性?!緦@綀D】【附圖說明】[0075]圖1所示為本發(fā)明實(shí)施例混合型大數(shù)據(jù)處理系統(tǒng)架構(gòu);[0076]圖2所示為本發(fā)明實(shí)施例在線實(shí)時(shí)處理運(yùn)行機(jī)制和處理過程;[0077]圖3所示為本發(fā)明實(shí)施例交互式分析運(yùn)行機(jī)制和處理過程;[0078]圖4所示為本發(fā)明實(shí)施例離線批處理運(yùn)行機(jī)制和處理過程;[0079]圖5所示為本發(fā)明實(shí)施例流式處理運(yùn)行機(jī)制和處理過程。【具體實(shí)施方式】[0080]以下將結(jié)合附圖及實(shí)施例來詳細(xì)說明本發(fā)明的實(shí)施方式,借此對(duì)本發(fā)明如何應(yīng)用技術(shù)手段來解決技術(shù)問題,并達(dá)成技術(shù)效果的實(shí)現(xiàn)過程能充分理解并據(jù)以實(shí)施。需要說明的是,如果不沖突,本發(fā)明實(shí)施例以及實(shí)施例中的各個(gè)特征的相互均在本發(fā)明的保護(hù)范圍之內(nèi)。[0081]為了支持行業(yè)的多源異構(gòu)數(shù)據(jù)存儲(chǔ)和多樣性處理需求,本發(fā)明的實(shí)施例提供了一種面向大數(shù)據(jù)處理的數(shù)據(jù)處理系統(tǒng),如圖1所示,該系統(tǒng)包括:[0082]分布式數(shù)據(jù)采集子系統(tǒng)、基于內(nèi)存計(jì)算架構(gòu)的混合型分布式存儲(chǔ)和并行計(jì)算子系統(tǒng)、一體化資源和系統(tǒng)管理平臺(tái);其中,[0083]所述分布式數(shù)據(jù)采集子系統(tǒng),用于從外部系統(tǒng)采集數(shù)據(jù);[0084]分布式數(shù)據(jù)采集子系統(tǒng)可以但不限于,以流水化、并行方式抽取、轉(zhuǎn)換和載入數(shù)據(jù),可以但不限于,支持文本、XML、傳輸協(xié)議、數(shù)據(jù)庫、文件系統(tǒng)等多種數(shù)據(jù)源,支持異步Push和輪詢Polling等靈活的工作模式,可按需定義清洗、編碼、分發(fā)和轉(zhuǎn)換等預(yù)處理操作,同時(shí)可動(dòng)態(tài)擴(kuò)展以提高吞吐量,并且可根據(jù)性能需求配置可靠性級(jí)別。[0085]所述基于內(nèi)存計(jì)算架構(gòu)的混合型分布式存儲(chǔ)和并行計(jì)算子系統(tǒng),用于對(duì)所采集的數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算;其中,[0086]存儲(chǔ)子系統(tǒng)采用分布式外部存儲(chǔ)、結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)庫、分布式內(nèi)存三級(jí)層次存儲(chǔ)架構(gòu),包括分布式文件子系統(tǒng)以及基于分布式文件子系統(tǒng)的結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和內(nèi)存數(shù)據(jù)庫。所述分布式文件子系統(tǒng)可以直接存儲(chǔ)客戶服務(wù)系統(tǒng)或社會(huì)經(jīng)濟(jì)數(shù)據(jù)中的文本、視頻和音頻文件,并能夠?yàn)樯蠈訑?shù)據(jù)庫提供高可靠、可擴(kuò)展的文件存儲(chǔ);所述關(guān)系數(shù)據(jù)庫用來存儲(chǔ)生產(chǎn)管理、客戶關(guān)系、營(yíng)銷這類結(jié)構(gòu)化特征強(qiáng)、模型驅(qū)動(dòng)的、需要強(qiáng)一致性事務(wù)保證的數(shù)據(jù);所述NoSQL數(shù)據(jù)庫用來存儲(chǔ)歷史日志數(shù)據(jù)、氣象信息、社會(huì)經(jīng)濟(jì)數(shù)據(jù)這類半結(jié)構(gòu)化或者結(jié)構(gòu)化特征較弱、主要考慮存取性能和可擴(kuò)展性的數(shù)據(jù);所述內(nèi)存數(shù)據(jù)庫則存儲(chǔ)各種經(jīng)常使用或需要加速處理的數(shù)據(jù),如索引、中間結(jié)果、維表數(shù)據(jù)等。[0087]處理子系統(tǒng)采用基于分布式內(nèi)存計(jì)算的混合型處理架構(gòu),包括內(nèi)存計(jì)算引擎以及基于內(nèi)存計(jì)算引擎的批處理引擎、圖計(jì)算引擎、交互處理引擎和流處理引擎。內(nèi)存計(jì)算引擎通過在無共享集群中提供分布式內(nèi)存抽象,實(shí)現(xiàn)緩存數(shù)據(jù)、提高I/o性能的效果,并采用并行流水化和線程級(jí)輕量處理框架加速數(shù)據(jù)處理性能;批處理引擎面向以離線方式進(jìn)行的數(shù)據(jù)密集型并行計(jì)算,如聚類、關(guān)聯(lián)分析、集合過濾等機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法;圖計(jì)算面向一類以圖模型(頂點(diǎn)、邊、權(quán)值等)作為數(shù)據(jù)表示的特殊離線處理,如網(wǎng)頁排序、用戶行為分析、社會(huì)關(guān)系網(wǎng)絡(luò)等;交互處理引擎用來快速響應(yīng)應(yīng)用層標(biāo)準(zhǔn)SQL請(qǐng)求,如查詢、聚合和關(guān)聯(lián)等;流處理引擎面向連續(xù)、實(shí)時(shí)達(dá)到數(shù)據(jù)的流數(shù)據(jù)處理。[0088]所述一體化資源和系統(tǒng)管理平臺(tái),用于對(duì)所存儲(chǔ)和計(jì)算的數(shù)據(jù)進(jìn)行管理;[0089]一體化管理平臺(tái)可以但不限于包括一個(gè)集中式Web控制臺(tái)和分布式集群資源管理子系統(tǒng)。控制臺(tái)提供對(duì)采集、存儲(chǔ)和處理等子系統(tǒng)的安裝、部署和配置功能,對(duì)系統(tǒng)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源及各子系統(tǒng)的運(yùn)行情況的監(jiān)控功能,以及對(duì)系統(tǒng)和數(shù)據(jù)的認(rèn)證、授權(quán)、加密等安全管理功能,增強(qiáng)系統(tǒng)的可管理性和易用性。集群資源管理系統(tǒng)一方面基于資源調(diào)度和任務(wù)控制分離方式,采用統(tǒng)一的資源調(diào)度框架在各子系統(tǒng)間進(jìn)行資源分配和調(diào)度,使子系統(tǒng)只需關(guān)注內(nèi)部任務(wù)的控制和調(diào)度,減輕了子系統(tǒng)壓力,從而提高了整個(gè)系統(tǒng)的可擴(kuò)展性;另一方面通過提供監(jiān)聽、分布式鎖、一致性存儲(chǔ)等分布式服務(wù)監(jiān)控系統(tǒng)集群節(jié)點(diǎn)增加、失效、退出等動(dòng)態(tài)變化,記錄系統(tǒng)關(guān)鍵信息,在任意節(jié)點(diǎn)失效后能夠快速恢復(fù)系統(tǒng)狀態(tài),保證整個(gè)系統(tǒng)的可靠性。[0090]可選地,所述基于內(nèi)存計(jì)算架構(gòu)的混合型分布式存儲(chǔ)和并行計(jì)算子系統(tǒng),包括大數(shù)據(jù)存儲(chǔ)子系統(tǒng)和大數(shù)據(jù)處理子系統(tǒng);其中,[0091]所述大數(shù)據(jù)處理子系統(tǒng),包括內(nèi)存計(jì)算引擎,其中,[0092]所述內(nèi)存計(jì)算引擎,用于在無共享集群中提供分布式內(nèi)存抽象,并對(duì)采集的所述數(shù)據(jù)進(jìn)行并行流水化和線程輕量級(jí)處理。[0093]可選地,所述大數(shù)據(jù)存儲(chǔ)子系統(tǒng),包括但不限于:分布式文件子系統(tǒng)、數(shù)據(jù)庫;[0094]所述分布式文件子系統(tǒng),用于直接存儲(chǔ)數(shù)據(jù),并存儲(chǔ)所述數(shù)據(jù)庫,還能夠?yàn)樗鰯?shù)據(jù)庫提供高可靠、可擴(kuò)展的數(shù)據(jù)存儲(chǔ);[0095]所述數(shù)據(jù)庫,可以但不限于包括結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和內(nèi)存數(shù)據(jù)庫;[0096]可選地,所述結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫,用于存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù);[0097]所述NoSQL數(shù)據(jù)庫,用于存儲(chǔ)半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù);[0098]所述內(nèi)存數(shù)據(jù)庫,用于存儲(chǔ)經(jīng)常使用或需要加速處理的數(shù)據(jù)。[0099]可選地,所述分布式數(shù)據(jù)采集子系統(tǒng),還用于對(duì)所采集的數(shù)據(jù)進(jìn)行第一預(yù)處理;[0100]所述第一預(yù)處理是指,將所采集的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),并將所述結(jié)構(gòu)化數(shù)據(jù)發(fā)送給所述結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫,將所述半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)發(fā)送給所述NoSQL數(shù)據(jù)庫;[0101]可選地,還用于進(jìn)行第二預(yù)處理;[0102]所述第二次預(yù)處理是指,將所采集的數(shù)據(jù)中經(jīng)常使用或需要加速處理的數(shù)據(jù)發(fā)送給所述內(nèi)存數(shù)據(jù)庫。[0103]可選地,所述大數(shù)據(jù)存儲(chǔ)子系統(tǒng)還包括:同步子系統(tǒng),用于將所述內(nèi)存數(shù)據(jù)庫中經(jīng)常使用或需要加速處理的數(shù)據(jù)中變化的數(shù)據(jù)同步到結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫;[0104]所述同步方式包括但不限于為:實(shí)時(shí)同步、日志同步、定期同步。[0105]所述同步子系統(tǒng),還用于根據(jù)所述變化的數(shù)據(jù)的可靠性級(jí)別選擇不同的同步方式。[0106]可選地,所述大數(shù)據(jù)處理子系統(tǒng),還包括但不限于:基于所述內(nèi)存計(jì)算引擎的批處理引擎、交互處理引擎和流處理引擎;[0107]所述批處理引擎,用于對(duì)密集型數(shù)據(jù)以離線方式進(jìn)行并行計(jì)算處理;[0108]所述交互處理引擎,用于對(duì)需要快速響應(yīng)的應(yīng)用層標(biāo)準(zhǔn)SQL請(qǐng)求進(jìn)行處理;[0109]所述流處理引擎,用于對(duì)連續(xù)、實(shí)時(shí)達(dá)到的流數(shù)據(jù)進(jìn)行處理;[0110]其中,[0111]所述批處理引擎,還包括圖計(jì)算引擎,所述圖計(jì)算引擎,用于對(duì)所述數(shù)據(jù)為圖的數(shù)據(jù)進(jìn)行批處理。[0112]可選地,所述一體化資源和系統(tǒng)管理平臺(tái),包括:集中式Web控制臺(tái)和分布式集群資源管理子系統(tǒng);[0113]可選地,所述集中式Web控制臺(tái),用于提供對(duì)采集、存儲(chǔ)和處理子系統(tǒng)的安裝、部署和配置的功能,提供對(duì)系統(tǒng)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源及各子系統(tǒng)的運(yùn)行情況的監(jiān)控功能,以及提供對(duì)系統(tǒng)和數(shù)據(jù)的認(rèn)證、授權(quán)、加密的安全管理功能;[0114]可選地,所述分布式集群資源管理子系統(tǒng),用于采用統(tǒng)一的調(diào)度方式在各子系統(tǒng)間進(jìn)行資源分配;[0115]可選地,還用于提供分布式服務(wù)監(jiān)控系統(tǒng)集群節(jié)點(diǎn)的變化,記錄系統(tǒng)關(guān)鍵信息。[0116]為了實(shí)現(xiàn)上述系統(tǒng),本發(fā)明還提供了一種面向行業(yè)大數(shù)據(jù)多樣性應(yīng)用的混合型處理方法,該方法包括:[0117]從外部系統(tǒng)采集數(shù)據(jù);[0118]對(duì)所采集的數(shù)據(jù)進(jìn)行預(yù)處理,并對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算;[0119]對(duì)所存儲(chǔ)和計(jì)算的數(shù)據(jù)進(jìn)行管理;[0120]其中,在對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算中,在無共享集群中提供分布式內(nèi)存抽象,并對(duì)所述預(yù)處理后的數(shù)據(jù)并行流水化和線程輕量級(jí)處理。[0121]可選地,對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行存儲(chǔ)的步驟包括:[0122]所述大數(shù)據(jù)存儲(chǔ)子系統(tǒng)包括但不限于:分布式文件子系統(tǒng)、數(shù)據(jù)庫;[0123]所述數(shù)據(jù)庫可以但不限于包括結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和內(nèi)存數(shù)據(jù)庫;[0124]采用分布式文件子系統(tǒng)直接存儲(chǔ)數(shù)據(jù),并存儲(chǔ)所述數(shù)據(jù)庫,還能夠?yàn)樗鰯?shù)據(jù)庫提供高可靠、可擴(kuò)展的數(shù)據(jù)存儲(chǔ);[0125]可選地,采用結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù);[0126]采用NoSQL數(shù)據(jù)庫存儲(chǔ)半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù);[0127]采用內(nèi)存數(shù)據(jù)庫存儲(chǔ)經(jīng)常使用或需要加速處理的數(shù)據(jù)。[0128]可選地,該方法還包括:[0129]對(duì)所采集的數(shù)據(jù)進(jìn)行第一預(yù)處理;[0130]所述第一預(yù)處理具體但不限于為,將所采集的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),并將所述結(jié)構(gòu)化數(shù)據(jù)發(fā)送給所述結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫,將所述半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)發(fā)送給所述NoSQL數(shù)據(jù)庫;[0131]可選地,還進(jìn)行第二預(yù)處理;[0132]所述第二次預(yù)處理具體但不限于為,將所采集的數(shù)據(jù)中經(jīng)常使用或需要加速處理的數(shù)據(jù)發(fā)送給所述內(nèi)存數(shù)據(jù)庫。[0133]可選地,該方法還包括:[0134]將所述經(jīng)常使用或需要加速處理的數(shù)據(jù)中變化的數(shù)據(jù)同步到結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫;[0135]所述同步方式包括但不限于為:實(shí)時(shí)同步、日志同步、定期同步。[0136]可選地,還根據(jù)所述變化的數(shù)據(jù)的可靠性級(jí)別選擇不同的同步方式。[0137]可選地,該方法還包括:[0138]采用批處理引擎對(duì)密集型數(shù)據(jù)以離線方式進(jìn)行并行計(jì)算處理;[0139]采用交互處理引擎對(duì)需要快速響應(yīng)的應(yīng)用層標(biāo)準(zhǔn)SQL請(qǐng)求進(jìn)行處理;[0140]采用流處理引擎對(duì)連續(xù)、實(shí)時(shí)達(dá)到的流數(shù)據(jù)進(jìn)行處理;[0141]其中,[0142]所述批處理引擎,還包括圖計(jì)算引擎,采用圖計(jì)算引擎對(duì)所述數(shù)據(jù)為圖的數(shù)據(jù)進(jìn)行批處理。[0143]可選地,該方法還包括:[0144]可選地,提供對(duì)采集、存儲(chǔ)和處理子系統(tǒng)的安裝、部署和配置的功能,提供對(duì)系統(tǒng)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源及各子系統(tǒng)的運(yùn)行情況的監(jiān)控功能,以及提供對(duì)系統(tǒng)和數(shù)據(jù)的認(rèn)證、授權(quán)、加密的安全管理功能;[0145]可選地,采用統(tǒng)一的調(diào)度方式在各子系統(tǒng)間進(jìn)行資源分配;[0146]可選地,采用分布式服務(wù)監(jiān)控系統(tǒng)集群節(jié)點(diǎn)的變化,記錄系統(tǒng)關(guān)鍵信息。[0147]為了更好的說明本發(fā)明上述系統(tǒng)和方法,下面本發(fā)明以在行業(yè)大數(shù)據(jù)應(yīng)用中各種處理類型為例,說明上述系統(tǒng)及方法的運(yùn)行機(jī)制和處理過程。[0148]1、在線實(shí)時(shí)處理[0149]在線實(shí)時(shí)處理的運(yùn)行機(jī)制和處理過程,如圖2所示:[0150]步驟S201:分布式數(shù)據(jù)采集系統(tǒng)從政府、證券、銀行等行業(yè)的系統(tǒng)中抽取各種客體行為數(shù)據(jù)、交易記錄、實(shí)時(shí)事件等結(jié)構(gòu)化數(shù)據(jù),這類數(shù)據(jù)來源多、生成速度快,數(shù)據(jù)量通常在TB級(jí)。[0151]步驟S202:數(shù)據(jù)在經(jīng)過上一步驟的預(yù)處理后,若屬于生產(chǎn)管理、客戶關(guān)系、交易、營(yíng)銷這類結(jié)構(gòu)化特征強(qiáng)、模型驅(qū)動(dòng)的、需要強(qiáng)一致性事務(wù)保證的數(shù)據(jù),則批量加載進(jìn)入關(guān)系數(shù)據(jù)庫;若屬于存儲(chǔ)歷史日志數(shù)據(jù)、事件記錄、社會(huì)經(jīng)濟(jì)數(shù)據(jù)這類結(jié)構(gòu)化特征較弱、主要考慮存取性能和可擴(kuò)展性的數(shù)據(jù),則批量加載進(jìn)入NoSQL數(shù)據(jù)庫。[0152]步驟S203:在后臺(tái)進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)備,形成數(shù)據(jù)索引、過濾器、維表、中間結(jié)果等經(jīng)常使用或可以加速處理的數(shù)據(jù)導(dǎo)入內(nèi)存數(shù)據(jù)庫。[0153]步驟S204:在線實(shí)時(shí)處理類應(yīng)用主要是關(guān)鍵字查詢、多維查詢、模糊查詢以及少量數(shù)據(jù)更新、插入、刪除等高并發(fā)增刪改查請(qǐng)求,要求毫秒級(jí)至秒級(jí)響應(yīng)時(shí)間,根據(jù)對(duì)事務(wù)特性的需求可分為在線交易處理和在線并發(fā)處理,在線交易對(duì)ACID事務(wù)特性有嚴(yán)格限制,需要達(dá)到committedread、repeatableread甚至串行化隔離級(jí)別,在線并發(fā)處理只需要簡(jiǎn)單的行級(jí)鎖或checkandset語義保障讀寫一致性。[0154]步驟S205:應(yīng)用層在發(fā)起數(shù)據(jù)請(qǐng)求時(shí)先查看內(nèi)存數(shù)據(jù)庫中是否有索引、過濾器或緩存數(shù)據(jù),若在內(nèi)存數(shù)據(jù)庫得到所有數(shù)據(jù)則返回;若內(nèi)存中未獲得有用數(shù)據(jù)或只獲得部分?jǐn)?shù)據(jù),則在線事務(wù)處理應(yīng)用繼續(xù)針對(duì)關(guān)系數(shù)據(jù)庫采用標(biāo)準(zhǔn)的SQL語句發(fā)起各種數(shù)據(jù)請(qǐng)求,在線處理應(yīng)用繼續(xù)針對(duì)NoSQL數(shù)據(jù)采用基于key/value的API發(fā)起并發(fā)數(shù)據(jù)請(qǐng)求。[0155]步驟S206:為保障數(shù)據(jù)的可靠性,內(nèi)存數(shù)據(jù)庫將變化的數(shù)據(jù)同步到關(guān)系數(shù)據(jù)庫或NoSQL持久化存儲(chǔ),同步可根據(jù)可靠性級(jí)別選擇采用實(shí)時(shí)同步、日志同步和定期同步機(jī)制。[0156]2、交互式分析[0157]在線交互式分析的運(yùn)行機(jī)制和處理過程,如圖3所示:[0158]步驟S301:分布式數(shù)據(jù)采集系統(tǒng)從交通、公安、醫(yī)療等政府部門或互聯(lián)網(wǎng)、銀行、零售、制造等企業(yè)的信息系統(tǒng)中不間斷的抽取各種交易、ERP、CRM等結(jié)構(gòu)化數(shù)據(jù),客體行為、系統(tǒng)日志等半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量通常在TB級(jí)。[0159]步驟S302:數(shù)據(jù)經(jīng)過預(yù)處理后以行存文件格式批量加載進(jìn)分布式文件系統(tǒng),或以列式表形式批量加載進(jìn)基于分布式文件系統(tǒng)的NoSQL數(shù)據(jù)庫,必要時(shí)可對(duì)數(shù)據(jù)進(jìn)行壓縮以減少存儲(chǔ)空間。[0160]步驟S303:進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行后臺(tái)準(zhǔn)備,在交互處理引擎中建立邏輯關(guān)系模型到物理層文件或列式存儲(chǔ)的映射,指定行列分隔符、存儲(chǔ)格式和序列化方法,并對(duì)數(shù)據(jù)進(jìn)行分區(qū)、分桶、排序等預(yù)處理,將索引、過濾器、維表、中間結(jié)果等經(jīng)常使用或可以加速處理的數(shù)據(jù)導(dǎo)入內(nèi)存數(shù)據(jù)庫。[0161]步驟S304:交互式類應(yīng)用主要包括數(shù)據(jù)掃描、統(tǒng)計(jì)、聚合、多表關(guān)聯(lián)等并發(fā)請(qǐng)求,要求秒級(jí)至分鐘級(jí)響應(yīng)時(shí)間,應(yīng)用層采用標(biāo)準(zhǔn)的SQL語句發(fā)起各種數(shù)據(jù)請(qǐng)求,交互處理引擎解析SQL語句,形成優(yōu)化的查詢路徑樹并調(diào)度執(zhí)行。[0162]步驟S305:交互處理引擎在發(fā)起數(shù)據(jù)請(qǐng)求時(shí)先查看內(nèi)存數(shù)據(jù)庫中是否有索引、過濾器、維表、中間結(jié)果或其他緩存數(shù)據(jù),若在內(nèi)存數(shù)據(jù)庫得到所有數(shù)據(jù)完成處理則返回;若內(nèi)存中未獲得有用數(shù)據(jù)或只獲得部分?jǐn)?shù)據(jù),處理引擎繼續(xù)針對(duì)分布式文件系統(tǒng)或NoSQL數(shù)據(jù)庫發(fā)起各種數(shù)據(jù)請(qǐng)求。[0163]步驟S306:為保障數(shù)據(jù)的可靠性,內(nèi)存數(shù)據(jù)庫將變化的數(shù)據(jù)同步到關(guān)系數(shù)據(jù)庫或NoSQL持久化存儲(chǔ),同步可根據(jù)可靠性級(jí)別選擇采用實(shí)時(shí)同步、日志同步和定期同步機(jī)制。[0164]3、離線批處理[0165]離線批處理的運(yùn)行機(jī)制和處理過程,如圖4所示:[0166]步驟S401:分布式數(shù)據(jù)采集系統(tǒng)從各種數(shù)據(jù)源中抽取Web日志XDN日志、系統(tǒng)日志、設(shè)備、手機(jī)使用記錄,郵件、短信、微博等半/非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量達(dá)到TB級(jí)至PB級(jí)。[0167]步驟S402:數(shù)據(jù)經(jīng)過預(yù)處理后以文件形式加載進(jìn)分布式文件系統(tǒng),必要時(shí)可對(duì)數(shù)據(jù)進(jìn)行壓縮以減少存儲(chǔ)空間。[0168]步驟S403:離線批處理應(yīng)用主要包括信息聚類、分類,時(shí)間序列回歸、預(yù)測(cè),數(shù)據(jù)關(guān)聯(lián)分析等數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí),以及社會(huì)關(guān)系網(wǎng)絡(luò)、Web頁面關(guān)系分析等圖計(jì)算,由于數(shù)據(jù)量巨大,計(jì)算邏輯復(fù)雜、迭代次數(shù)多,一般采用后臺(tái)離線方式,對(duì)響應(yīng)時(shí)間沒有具體要求。這類應(yīng)用采用map、filter、combine、partition、reduce、join等算子進(jìn)行函數(shù)式編程,以批處理方式提交作業(yè),批處理引擎通過數(shù)據(jù)切分、任務(wù)調(diào)度和內(nèi)部通信完成處理;圖計(jì)算是一類特殊的批處理,其編程模型采用采用基于圖(如頂點(diǎn)、邊、權(quán)值等)的數(shù)據(jù)模型及相應(yīng)的函數(shù)(權(quán)值變換、頂點(diǎn)通信、圖結(jié)構(gòu)變化等)。[0169]步驟S404:基于內(nèi)存計(jì)算的批處理和圖處理在第一次處理或首次迭代時(shí)從分布式文件系統(tǒng)獲得處理數(shù)據(jù),處理完成后將中間結(jié)果緩存在內(nèi)存中,以便下次處理或迭代復(fù)用。[0170]4、流式處理[0171]流式處理,也稱流數(shù)據(jù)處理。流數(shù)據(jù)處理的運(yùn)行機(jī)制和處理過程,如圖5所示:[0172]步驟S501:分布式數(shù)據(jù)采集系統(tǒng)從各種數(shù)據(jù)源中實(shí)時(shí)的采集用戶行為、系統(tǒng)事件等數(shù)據(jù)。[0173]步驟S502:由于數(shù)據(jù)流的無限性,流式處理主要面向基于時(shí)間窗口的查詢、統(tǒng)計(jì)和分析,以及異常事件報(bào)警和數(shù)據(jù)實(shí)時(shí)清洗轉(zhuǎn)換等應(yīng)用,流處理應(yīng)用采用由多種算子組成的函數(shù)式編程模型。[0174]步驟S503:在運(yùn)行時(shí),數(shù)據(jù)以持續(xù)、不間斷的數(shù)據(jù)流形式進(jìn)入處理系統(tǒng),驅(qū)動(dòng)預(yù)定義的處理邏輯連續(xù)的進(jìn)行計(jì)算,其區(qū)別于批處理之處在于沒有數(shù)據(jù)積攢成批、階段同步、持久化的延遲。流處理系統(tǒng)將處理邏輯定義為由多個(gè)算子組成的多階段處理網(wǎng)絡(luò),在數(shù)據(jù)處理的多個(gè)階段間采用異步流水線方式,在同一階段的采用節(jié)點(diǎn)間并行、節(jié)點(diǎn)內(nèi)多線程方式提高實(shí)時(shí)處理性能。[0175]步驟S504:流處理結(jié)果最終輸出到持久化存儲(chǔ)或直接發(fā)送到應(yīng)用層實(shí)時(shí)告警或展示頁面。[0176]綜上可知,本發(fā)明提出的面向行業(yè)大數(shù)據(jù)多樣性應(yīng)用的混合型處理系統(tǒng)及處理方法,能夠滿足行業(yè)大數(shù)據(jù)的在線實(shí)時(shí)處理、交互分析、離線批處理以及流處理等多樣性業(yè)務(wù)應(yīng)用需求,并且通過內(nèi)存計(jì)算引擎加速,能夠?qū)⒋髷?shù)據(jù)處理性能提高10倍以上,通過一體化管理平臺(tái),能夠保障系統(tǒng)的易用性、可靠性及可擴(kuò)展性。[0177]雖然本發(fā)明所揭露的實(shí)施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實(shí)施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬【
技術(shù)領(lǐng)域:
】?jī)?nèi)的技術(shù)人員,在不脫離本發(fā)明所揭露的精神和范圍的前提下,可以在實(shí)施的形式上及細(xì)節(jié)上作任何的修改與變化,但本發(fā)明的專利保護(hù)范圍,仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)?!緳?quán)利要求】1.一種面向行業(yè)大數(shù)據(jù)多樣性應(yīng)用的混合型處理系統(tǒng),其特征在于,包括分布式數(shù)據(jù)采集子系統(tǒng)、基于內(nèi)存計(jì)算架構(gòu)的混合型分布式存儲(chǔ)和并行計(jì)算子系統(tǒng)、一體化資源和系統(tǒng)管理平臺(tái);其中,所述分布式數(shù)據(jù)采集子系統(tǒng),用于從外部系統(tǒng)采集數(shù)據(jù);所述基于內(nèi)存計(jì)算架構(gòu)的混合型分布式存儲(chǔ)和并行計(jì)算子系統(tǒng),用于對(duì)所采集的數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算;所述一體化資源和系統(tǒng)管理平臺(tái),用于對(duì)所存儲(chǔ)和計(jì)算的數(shù)據(jù)進(jìn)行管理;所述基于內(nèi)存計(jì)算架構(gòu)的混合型分布式存儲(chǔ)和并行計(jì)算子系統(tǒng),包括大數(shù)據(jù)存儲(chǔ)子系統(tǒng)和大數(shù)據(jù)處理子系統(tǒng);其中,所述大數(shù)據(jù)處理子系統(tǒng),包括內(nèi)存計(jì)算引擎,其中,所述內(nèi)存計(jì)算引擎,用于在無共享集群中提供分布式內(nèi)存抽象,并對(duì)采集的所述數(shù)據(jù)進(jìn)行并行流水化和線程輕量級(jí)處理。2.如權(quán)利要求1所述的系統(tǒng),其特征在于:所述大數(shù)據(jù)存儲(chǔ)子系統(tǒng)包括分布式文件子系統(tǒng)、數(shù)據(jù)庫;所述分布式文件子系統(tǒng),用于直接存儲(chǔ)數(shù)據(jù),并存儲(chǔ)所述數(shù)據(jù)庫;所述數(shù)據(jù)庫包括結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和內(nèi)存數(shù)據(jù)庫;所述結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫,用于存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù);所述NoSQL數(shù)據(jù)庫,用于存儲(chǔ)半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù);所述內(nèi)存數(shù)據(jù)庫,用于存儲(chǔ)經(jīng)常使用或需要加速處理的數(shù)據(jù)。3.如權(quán)利要求2所述的系統(tǒng),其特征在于:所述分布式數(shù)據(jù)采集子系統(tǒng),還用于對(duì)所采集的數(shù)據(jù)進(jìn)行第一預(yù)處理;所述第一預(yù)處理是指,將所采集的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),并將所述結(jié)構(gòu)化數(shù)據(jù)發(fā)送給所述結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫,將所述半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)發(fā)送給所述NoSQL數(shù)據(jù)庫;還用于進(jìn)行第二預(yù)處理;所述第二次預(yù)處理是指,將所采集的數(shù)據(jù)中經(jīng)常使用或需要加速處理的數(shù)據(jù)發(fā)送給所述內(nèi)存數(shù)據(jù)庫。4.如權(quán)利要求3所述的系統(tǒng),其特征在于,所述大數(shù)據(jù)存儲(chǔ)子系統(tǒng)還包括:同步子系統(tǒng),用于將所述內(nèi)存數(shù)據(jù)庫中經(jīng)常使用或需要加速處理的數(shù)據(jù)中變化的數(shù)據(jù)同步到結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫;所述同步方式為:實(shí)時(shí)同步、日志同步、定期同步;所述同步子系統(tǒng)還用于根據(jù)所述變化的數(shù)據(jù)的可靠性級(jí)別選擇不同的同步方式。5.如權(quán)利要求1所述的系統(tǒng),其特征在于:所述大數(shù)據(jù)處理子系統(tǒng),還包括基于所述內(nèi)存計(jì)算引擎的批處理引擎、交互處理引擎和流處理引擎;所述批處理引擎,用于對(duì)密集型數(shù)據(jù)以離線方式進(jìn)行并行計(jì)算處理;所述交互處理引擎,用于對(duì)需要快速響應(yīng)的應(yīng)用層標(biāo)準(zhǔn)SQL請(qǐng)求進(jìn)行處理;所述流處理引擎,用于對(duì)連續(xù)、實(shí)時(shí)達(dá)到的流數(shù)據(jù)進(jìn)行處理;其中,所述批處理引擎,還包括圖計(jì)算引擎,所述圖計(jì)算引擎,用于對(duì)所述數(shù)據(jù)為圖的數(shù)據(jù)進(jìn)行批處理。6.如權(quán)利要求1所述的系統(tǒng),其特征在于:所述一體化資源和系統(tǒng)管理平臺(tái),包括:集中式Web控制臺(tái)和分布式集群資源管理子系統(tǒng);所述集中式Web控制臺(tái),用于提供對(duì)采集、存儲(chǔ)和處理子系統(tǒng)的安裝、部署和配置的功能,提供對(duì)系統(tǒng)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源及各子系統(tǒng)的運(yùn)行情況的監(jiān)控功能,以及提供對(duì)系統(tǒng)和數(shù)據(jù)的認(rèn)證、授權(quán)、加密的安全管理功能;所述分布式集群資源管理子系統(tǒng),用于采用統(tǒng)一的調(diào)度方式在各子系統(tǒng)間進(jìn)行資源分配;還用于提供分布式服務(wù)監(jiān)控系統(tǒng)集群節(jié)點(diǎn)的變化,記錄系統(tǒng)關(guān)鍵信息。7.一種面向行業(yè)大數(shù)據(jù)多樣性應(yīng)用的混合型處理方法,其特征在于:從外部系統(tǒng)采集數(shù)據(jù);對(duì)所采集的數(shù)據(jù)進(jìn)行預(yù)處理,并對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算;對(duì)所存儲(chǔ)和計(jì)算的數(shù)據(jù)進(jìn)行管理;在對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算中,在無共享集群中提供分布式內(nèi)存抽象,并對(duì)所述預(yù)處理后的數(shù)據(jù)并行流水化和線程輕量級(jí)處理。8.如權(quán)利要求7所述的方法,其特征在于,對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行存儲(chǔ)的步驟包括:所述大數(shù)據(jù)存儲(chǔ)子系統(tǒng)包括分布式文件子系統(tǒng)、數(shù)據(jù)庫;所述數(shù)據(jù)庫包括結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和內(nèi)存數(shù)據(jù)庫;采用分布式文件子系統(tǒng)直接存儲(chǔ)數(shù)據(jù),并存儲(chǔ)所述數(shù)據(jù)庫;采用結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù);采用NoSQL數(shù)據(jù)庫存儲(chǔ)半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù);采用內(nèi)存數(shù)據(jù)庫存儲(chǔ)經(jīng)常使用或需要加速處理的數(shù)據(jù)。9.如權(quán)利要求8所述的方法,其特征在于,還包括:對(duì)所采集的數(shù)據(jù)進(jìn)行第一預(yù)處理;所述第一預(yù)處理具體為,將所采集的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),并將所述結(jié)構(gòu)化數(shù)據(jù)發(fā)送給所述結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫,將所述半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)發(fā)送給所述NoSQL數(shù)據(jù)庫;還進(jìn)行第二預(yù)處理;所述第二次預(yù)處理具體為,將所采集的數(shù)據(jù)中經(jīng)常使用或需要加速處理的數(shù)據(jù)發(fā)送給所述內(nèi)存數(shù)據(jù)庫。10.如權(quán)利要求9所述的方法,其特征在于,還包括:將所述經(jīng)常使用或需要加速處理的數(shù)據(jù)中變化的數(shù)據(jù)同步到結(jié)構(gòu)化關(guān)系數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫;所述同步方式為:實(shí)時(shí)同步、日志同步、定期同步;還根據(jù)所述變化的數(shù)據(jù)的可靠性級(jí)別選擇不同的同步方式。11.如權(quán)利要求7所述的方法,其特征在于,還包括:采用批處理引擎對(duì)密集型數(shù)據(jù)以離線方式進(jìn)行并行計(jì)算處理;采用交互處理引擎對(duì)需要快速響應(yīng)的應(yīng)用層標(biāo)準(zhǔn)SQL請(qǐng)求進(jìn)行處理;采用流處理引擎對(duì)連續(xù)、實(shí)時(shí)達(dá)到的流數(shù)據(jù)進(jìn)行處理;其中,所述批處理引擎,還包括圖計(jì)算引擎,采用圖計(jì)算引擎對(duì)所述數(shù)據(jù)為圖的數(shù)據(jù)進(jìn)行批處理。12.如權(quán)利要求7所述的方法,其特征在于,還包括:提供對(duì)采集、存儲(chǔ)和處理子系統(tǒng)的安裝、部署和配置的功能,提供對(duì)系統(tǒng)計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源及各子系統(tǒng)的運(yùn)行情況的監(jiān)控功能,以及提供對(duì)系統(tǒng)和數(shù)據(jù)的認(rèn)證、授權(quán)、加密的安全管理功能;采用統(tǒng)一的調(diào)度方式在各子系統(tǒng)間進(jìn)行資源分配;采用提供分布式服務(wù)監(jiān)控系統(tǒng)集群節(jié)點(diǎn)的變化,記錄系統(tǒng)關(guān)鍵信息?!疚臋n編號(hào)】G06F17/30GK104021194SQ201410265820【公開日】2014年9月3日申請(qǐng)日期:2014年6月13日優(yōu)先權(quán)日:2014年6月13日【發(fā)明者】亓開元,張東,劉正偉,辛國(guó)茂申請(qǐng)人:浪潮(北京)電子信息產(chǎn)業(yè)有限公司