一種整合實(shí)時(shí)和非實(shí)時(shí)模式的大數(shù)據(jù)分析系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù)分析技術(shù),更具體地,涉及一種整合實(shí)時(shí)和非實(shí)時(shí)模式的大數(shù)據(jù)分析系統(tǒng)。
【背景技術(shù)】
[0002]伴隨著以互聯(lián)網(wǎng)為基礎(chǔ)的信息化服務(wù)的深度發(fā)展,例如社交網(wǎng)絡(luò)全面應(yīng)用、物聯(lián)網(wǎng)技術(shù)的逐漸推廣、電子商務(wù)和線上支付的日益普及等等,各種互聯(lián)網(wǎng)平臺(tái)所生成的數(shù)據(jù)量也呈現(xiàn)出急劇增長(zhǎng)的態(tài)勢(shì)。據(jù)統(tǒng)計(jì),目前全球互聯(lián)網(wǎng)之上的數(shù)據(jù)總量已經(jīng)達(dá)到ZB級(jí)別(1ZB等于I萬(wàn)億GB),并且以每?jī)赡晏岣咭槐兜乃俣壤^續(xù)快速增加。預(yù)計(jì)在2020年,人均擁有數(shù)據(jù)量將達(dá)到5200GB,屆時(shí)人們的工作、教育、社交、娛樂(lè)、購(gòu)物、醫(yī)療、投資等活動(dòng)有可能都將依托各種互聯(lián)網(wǎng)服務(wù)展開(kāi),并且產(chǎn)生各種形式的相關(guān)數(shù)據(jù)。
[0003]大數(shù)據(jù)分析技術(shù)就是將互聯(lián)網(wǎng)平臺(tái)上的海量數(shù)據(jù)作為對(duì)象進(jìn)行查詢、挖掘和分析,獲得海量數(shù)據(jù)中的有效部分,并且從有效部分中提取出反映某些規(guī)律性的信息。通過(guò)對(duì)這些信息加以利用,可以取得互聯(lián)網(wǎng)平臺(tái)用戶的總體和個(gè)體特征,執(zhí)行用戶需求的合理預(yù)測(cè),改善服務(wù)和用戶體驗(yàn)。在基于大數(shù)據(jù)分析技術(shù)的后臺(tái)之上,可以實(shí)現(xiàn)有針對(duì)性的服務(wù)流程優(yōu)化、目標(biāo)化消息及廣告推送、用戶體驗(yàn)的個(gè)性化改善等功能。
[0004]互聯(lián)網(wǎng)平臺(tái)的大數(shù)據(jù)分析體現(xiàn)出如下的特點(diǎn):首先,作為分析目標(biāo)的數(shù)據(jù)規(guī)模龐大,一般只有具備100TB以上的可分析數(shù)據(jù)才能夠稱之為大數(shù)據(jù)分析,但實(shí)際大數(shù)據(jù)分析系統(tǒng)的目標(biāo)數(shù)據(jù)量都遠(yuǎn)遠(yuǎn)超過(guò)這一下限。第二,作為分析目標(biāo)的數(shù)據(jù)呈現(xiàn)充分的多源化和異構(gòu)性。在早期的數(shù)據(jù)分析模式當(dāng)中,數(shù)據(jù)多是通過(guò)專門(mén)用于執(zhí)行用戶反饋信息收集或采樣的表單頁(yè)面生成的結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的單位和格式也基本相同,而在當(dāng)前的互聯(lián)網(wǎng)服務(wù)平臺(tái)當(dāng)中,分析目標(biāo)數(shù)據(jù)伴隨著整個(gè)互聯(lián)網(wǎng)服務(wù)的運(yùn)行流程而生成,例如用戶在網(wǎng)絡(luò)論壇的發(fā)帖、在社交網(wǎng)絡(luò)平臺(tái)的轉(zhuǎn)發(fā)、在多媒體內(nèi)容提供服務(wù)中的點(diǎn)播記錄以及在電子商務(wù)行為中的瀏覽和交易記錄,都是大數(shù)據(jù)分析的目標(biāo),可見(jiàn)數(shù)據(jù)來(lái)源呈現(xiàn)出復(fù)雜的多源化狀態(tài)。而且,目標(biāo)數(shù)據(jù)的數(shù)據(jù)類型和數(shù)據(jù)結(jié)構(gòu)繁多,具有預(yù)定格式的結(jié)構(gòu)化數(shù)據(jù)只占目標(biāo)數(shù)據(jù)的一部分,海量的照片、視頻、動(dòng)態(tài)圖形、聊天記錄、網(wǎng)帖等等以非統(tǒng)一結(jié)構(gòu)的數(shù)據(jù)形式存在,還具有非結(jié)構(gòu)化的數(shù)據(jù)流,例如傳感器實(shí)時(shí)數(shù)據(jù)等。多源化的數(shù)據(jù)來(lái)源和復(fù)雜化的數(shù)據(jù)結(jié)構(gòu)使得大數(shù)據(jù)分析系統(tǒng)難以用傳統(tǒng)的數(shù)據(jù)庫(kù)表單加以表示,因而大數(shù)據(jù)分析系統(tǒng)必須具有面向非結(jié)構(gòu)化的數(shù)據(jù)的處理和分析機(jī)制。第三,大數(shù)據(jù)分析系統(tǒng)要求較快的處理速度,理想狀態(tài)是達(dá)到實(shí)時(shí)分析。一方面,互聯(lián)網(wǎng)數(shù)據(jù)量呈現(xiàn)迅速增長(zhǎng)的趨勢(shì),客觀上要求大數(shù)據(jù)分析系統(tǒng)實(shí)現(xiàn)較快的數(shù)據(jù)處理;另一方面,互聯(lián)網(wǎng)數(shù)據(jù)的價(jià)值具有隨著時(shí)間延遲而迅速衰減的特點(diǎn),互聯(lián)網(wǎng)服務(wù)自身的特性也要求能夠?qū)τ脩魻顟B(tài)作出盡可能快的響應(yīng)。例如,在線電子商務(wù)活動(dòng)中,用戶的購(gòu)買需求具有很強(qiáng)的時(shí)效性,當(dāng)用戶針對(duì)某一類產(chǎn)品進(jìn)行瀏覽時(shí),就要求電子商務(wù)平臺(tái)在該用戶行為持續(xù)的有效時(shí)間內(nèi)正確分析用戶的需要并給予相關(guān)的產(chǎn)品推薦等服務(wù),而這一有效時(shí)間可能只有十分鐘以內(nèi)的持續(xù)期,可見(jiàn)支持這一運(yùn)行模式的大數(shù)據(jù)分析系統(tǒng)必須具備快速的數(shù)據(jù)處理和分析能力。第四,大數(shù)據(jù)分析的目標(biāo)數(shù)據(jù)價(jià)值密度低。大數(shù)據(jù)分析的目標(biāo)數(shù)據(jù)主體是非統(tǒng)一結(jié)構(gòu)化的原始數(shù)據(jù),而且通常不執(zhí)行采樣處理,而是采用全體數(shù)據(jù),這樣能夠呈現(xiàn)出原始數(shù)據(jù)的全部細(xì)節(jié),但是也會(huì)引入大量的錯(cuò)誤或者無(wú)用數(shù)據(jù),因此從整體上看,目標(biāo)數(shù)據(jù)的低價(jià)值密度必然意味著大數(shù)據(jù)分析系統(tǒng)需要持續(xù)性地執(zhí)行大量的分析運(yùn)算,才能從海量的目標(biāo)數(shù)據(jù)當(dāng)中挖掘足夠的有效信息。
[0005]通過(guò)上述特點(diǎn),我們可以看到,大數(shù)據(jù)分析的數(shù)據(jù)運(yùn)算量、多源異構(gòu)性數(shù)據(jù)的處理復(fù)雜度以及對(duì)高速處理分析的需要,都對(duì)大數(shù)據(jù)分析系統(tǒng)的運(yùn)算性能提出了較高的要求。在實(shí)際應(yīng)用當(dāng)中,由于受到軟硬件及網(wǎng)絡(luò)資源的限制,難以使大數(shù)據(jù)分析的全部任務(wù)均達(dá)到實(shí)時(shí)處理和響應(yīng)。因此,現(xiàn)有技術(shù)中的大數(shù)據(jù)分析系統(tǒng)一般需要構(gòu)建由實(shí)時(shí)分析系統(tǒng)和非實(shí)時(shí)分析系統(tǒng)組成的雙平臺(tái)架構(gòu)。
[0006]在現(xiàn)有技術(shù)中,實(shí)時(shí)分析系統(tǒng)和非實(shí)時(shí)分析系統(tǒng)基于各自業(yè)務(wù)不同的時(shí)間性要求,按照不同的數(shù)據(jù)結(jié)構(gòu)形式組織互聯(lián)網(wǎng)平臺(tái)的目標(biāo)數(shù)據(jù),響應(yīng)不同的需求而分別執(zhí)行不同分析計(jì)算,然后將目標(biāo)數(shù)據(jù)存儲(chǔ)于不同的數(shù)據(jù)庫(kù)系統(tǒng)。為了外部訪問(wèn)大數(shù)據(jù)分析結(jié)果的便利,可以為實(shí)時(shí)和非實(shí)時(shí)分析系統(tǒng)提供統(tǒng)一的中間層接口。具體如圖1所示,采集系統(tǒng)101實(shí)時(shí)性地獲取互聯(lián)網(wǎng)服務(wù)平臺(tái)的業(yè)務(wù)數(shù)據(jù);進(jìn)而,面向?qū)崟r(shí)分析系統(tǒng)102和非實(shí)時(shí)分析系統(tǒng)103,采集系統(tǒng)101分別提取符合各系統(tǒng)預(yù)定分析條件的目標(biāo)數(shù)據(jù),進(jìn)而按照不同的數(shù)據(jù)結(jié)構(gòu)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行組織。其中對(duì)于需要執(zhí)行實(shí)時(shí)分析的數(shù)據(jù),采集系統(tǒng)101按照消息流進(jìn)行組織,然后把消息流實(shí)時(shí)傳輸?shù)綄?shí)時(shí)分析系統(tǒng)102。而對(duì)于執(zhí)行非實(shí)時(shí)分析的數(shù)據(jù),則由采集系統(tǒng)101將數(shù)據(jù)集成為日志數(shù)據(jù),然后按照定時(shí)傳輸給非實(shí)時(shí)分析系統(tǒng)103進(jìn)行處理和分析。實(shí)時(shí)分析系統(tǒng)102基于對(duì)所述消息流的分析所形成實(shí)時(shí)性結(jié)果數(shù)據(jù),該實(shí)時(shí)性結(jié)果數(shù)據(jù)被傳送至對(duì)外部查詢請(qǐng)求的響應(yīng)具有良好的時(shí)間性的實(shí)時(shí)集中數(shù)據(jù)庫(kù)系統(tǒng)104 ;實(shí)時(shí)分析系統(tǒng)102和非實(shí)時(shí)分析系統(tǒng)103均可以產(chǎn)生非實(shí)時(shí)性結(jié)果數(shù)據(jù),該非實(shí)時(shí)性結(jié)果數(shù)據(jù)可以被傳送至非實(shí)時(shí)性分布數(shù)據(jù)庫(kù)系統(tǒng)105進(jìn)行保存。各個(gè)具有實(shí)時(shí)或者非實(shí)時(shí)響應(yīng)要求的外部應(yīng)用線程107通過(guò)統(tǒng)一的中間層接口 106訪問(wèn)實(shí)時(shí)集中數(shù)據(jù)庫(kù)系統(tǒng)104和非實(shí)時(shí)性分布數(shù)據(jù)庫(kù)系統(tǒng)105,對(duì)實(shí)時(shí)性和非實(shí)時(shí)性結(jié)果數(shù)據(jù)進(jìn)行查詢,所獲得的查詢結(jié)果能夠?yàn)橥獠繎?yīng)用線程107的功能實(shí)現(xiàn)提供支持。
[0007]現(xiàn)有技術(shù)由于采用了實(shí)時(shí)分析系統(tǒng)和非實(shí)時(shí)分析系統(tǒng)二者分立存在的雙平臺(tái)架構(gòu),因而存在一定的缺陷。具體來(lái)看,雖然整個(gè)系統(tǒng)采用了統(tǒng)一的接口向外部應(yīng)用提供服務(wù),但是在內(nèi)部,實(shí)時(shí)分析系統(tǒng)和非實(shí)時(shí)分析系統(tǒng)在數(shù)據(jù)結(jié)構(gòu)、分析處理算法和結(jié)果反饋等方面都呈現(xiàn)完全不同的機(jī)制,因而基本上處在彼此分離運(yùn)行的狀態(tài),二者無(wú)法進(jìn)行有效的整合,具有對(duì)相同目標(biāo)數(shù)據(jù)執(zhí)行重復(fù)分析造成資源配置低效的問(wèn)題,也存在實(shí)時(shí)分析和非實(shí)時(shí)分析之間不能實(shí)現(xiàn)數(shù)據(jù)和結(jié)果交互的缺陷。例如,在線電子商務(wù)活動(dòng)中,用戶針對(duì)產(chǎn)品的瀏覽、搜索、加入購(gòu)物車等行為記錄數(shù)據(jù)會(huì)在實(shí)時(shí)分析系統(tǒng)中得到處理,從而獲得實(shí)時(shí)性的響應(yīng)結(jié)果,例如對(duì)用戶給予同類商品或者關(guān)聯(lián)商品的即時(shí)廣告推送;另一方面,用戶的上述行為記錄也會(huì)被納入相關(guān)日志數(shù)據(jù)的一部分,在之后的特定定時(shí)期間被傳送至非實(shí)時(shí)分析系統(tǒng),用于執(zhí)行對(duì)用戶行為模式的分析。上述模式在一定程度上存在重復(fù)性計(jì)算,對(duì)實(shí)時(shí)和非實(shí)時(shí)分析結(jié)果的融合在現(xiàn)有架構(gòu)中也比較難以實(shí)現(xiàn)。
[0008]同時(shí),雙平臺(tái)獨(dú)立架構(gòu)以及平臺(tái)當(dāng)中完全異構(gòu)化的數(shù)據(jù)和計(jì)算方式也造成大數(shù)據(jù)分析系統(tǒng)整體復(fù)雜度加大,難以用統(tǒng)一的模式進(jìn)行資源分配、任務(wù)管理和過(guò)程控制,使得大數(shù)據(jù)分析系統(tǒng)在建設(shè)、運(yùn)行和維護(hù)方面的難度和成本都會(huì)增加。
【發(fā)明內(nèi)容】
[0009]基于現(xiàn)有技術(shù)中的上述缺陷,本發(fā)明提供了一種整合實(shí)時(shí)和非實(shí)時(shí)模式的大數(shù)據(jù)分析系統(tǒng)。本發(fā)明對(duì)外通過(guò)統(tǒng)一的中間層接口提供具有實(shí)時(shí)響應(yīng)和非實(shí)時(shí)響應(yīng)的大數(shù)據(jù)分析業(yè)務(wù),內(nèi)部則建立了面向?qū)崟r(shí)模式與非實(shí)時(shí)模式二者統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)、分析處理運(yùn)算和結(jié)果反饋機(jī)制,并且通過(guò)基于優(yōu)先權(quán)重參數(shù)的資源分配和任務(wù)調(diào)度,滿足不同分析任務(wù)實(shí)時(shí)或者非實(shí)時(shí)性的響應(yīng)時(shí)間要求。
[0010]本發(fā)明所述的整合實(shí)時(shí)和非實(shí)時(shí)模式的大數(shù)據(jù)分析系統(tǒng),其特征在于,包括:
[0011]采集系統(tǒng),用