亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于Infobright的數(shù)據(jù)倉庫和系統(tǒng)及其構(gòu)建方法

文檔序號:6519745閱讀:273來源:國知局
基于Infobright的數(shù)據(jù)倉庫和系統(tǒng)及其構(gòu)建方法
【專利摘要】一種基于Infobright的數(shù)據(jù)倉庫,包括:源數(shù)據(jù)倉,其存放從關系型數(shù)據(jù)庫中抽取過來的原始數(shù)據(jù);加工倉,其具有brighthouse引擎,所述加工倉為一主多從的集群架構(gòu),包括一個加工倉主庫和多個加工倉從庫,所述加工倉提取源數(shù)據(jù)倉中的原始數(shù)據(jù),并對所述原始數(shù)據(jù)進行加工處理和存儲。本發(fā)明還提供一種基于Infobright的數(shù)據(jù)倉庫系統(tǒng),其包括所述的基于Infobright的數(shù)據(jù)倉庫;關系型數(shù)據(jù)庫,其用于產(chǎn)生業(yè)務有關的原始數(shù)據(jù);數(shù)據(jù)導入單元,其將所述原始數(shù)據(jù)導入到所述數(shù)據(jù)倉庫中。本發(fā)明還提出了基于Infobright的數(shù)據(jù)倉庫和系統(tǒng)的構(gòu)件方法。本發(fā)明的數(shù)據(jù)倉庫具有高性能且可擴展的優(yōu)點。
【專利說明】基于Infobright的數(shù)據(jù)倉庫和系統(tǒng)及其構(gòu)建方法
【技術領域】
[0001]本發(fā)明涉及數(shù)字數(shù)據(jù)處理技術。
【背景技術】
[0002]數(shù)據(jù)倉庫(Data Warehouse)是為企業(yè)進行分析性報告和決策支持的數(shù)據(jù)集合。構(gòu)建數(shù)據(jù)倉庫的意義在于:
[0003]1.有效集成企業(yè)內(nèi)部和外部數(shù)據(jù),為企業(yè)各層決策提供數(shù)據(jù)依據(jù);
[0004]2.將分散的,異構(gòu)數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)統(tǒng)一集成起來;
[0005]3.可以進行企業(yè)的利潤與成本分析;
[0006]4.規(guī)范管理,優(yōu)化流程,決策支持。
[0007]常見的構(gòu)建數(shù)據(jù)倉庫的工具有IBM Cognos和SAP BO等。上述二者均采用集中式的單節(jié)點模式來構(gòu)建數(shù)據(jù)倉庫,這種類型的數(shù)據(jù)倉庫的擴展性差。隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)的規(guī)模急劇擴大,有些已經(jīng)達到TB級別,上述傳統(tǒng)數(shù)據(jù)倉庫已經(jīng)越來越不能滿足使用需要。
[0008]現(xiàn)有技術方案的缺陷表現(xiàn)在如下幾個方面:
[0009]1.因為在架構(gòu)上采用集中式的單節(jié)點模式,因此水平擴展能力差,在高并發(fā)應用場景下無法水平擴展;
[0010]2.數(shù)據(jù)量級支持有限,無法支持TB級以上的數(shù)據(jù)量,這樣就滿足不了電商、互聯(lián)網(wǎng)等企業(yè)的海量數(shù)據(jù)分析;
[0011]3.因為基于傳統(tǒng)關系型數(shù)據(jù)庫,所以在查詢性能上很難有突破,這樣在報表展現(xiàn)時用戶體驗會很差;
[0012]4.費用昂貴,對企業(yè)來說是一筆不小的開銷。

【發(fā)明內(nèi)容】

[0013]基于現(xiàn)有技術的缺點,本發(fā)明提出一種基于Infobright的數(shù)據(jù)倉庫的構(gòu)建方法,包括:構(gòu)建源數(shù)據(jù)倉,所述源數(shù)據(jù)倉存放從關系型數(shù)據(jù)庫中抽取過來的原始數(shù)據(jù);構(gòu)建加工倉,所述加工倉具有brighthouse引擎,所述加工倉為一主多從的集群架構(gòu),包括一個加工倉主庫和多個加工倉從庫,所述加工倉提取源數(shù)據(jù)倉中的原始數(shù)據(jù),并對所述原始數(shù)據(jù)進行加工處理和存儲。
[0014]本發(fā)明還提出一種基于Infobright的數(shù)據(jù)倉庫系統(tǒng)的構(gòu)建方法,包括:按照如上所述的方法構(gòu)建基于Infobright的數(shù)據(jù)倉庫;構(gòu)建一關系型數(shù)據(jù)庫,所述關系型數(shù)據(jù)庫用于產(chǎn)生與業(yè)務有關的原始數(shù)據(jù);構(gòu)建一數(shù)據(jù)導入單元,所述數(shù)據(jù)導入單元將所述原始數(shù)據(jù)導入到所述數(shù)據(jù)倉庫中。
[0015]本發(fā)明還提出一種基于Infobright的數(shù)據(jù)倉庫,包括:源數(shù)據(jù)倉,所述源數(shù)據(jù)倉存放從關系型數(shù)據(jù)庫中抽取過來的原始數(shù)據(jù);加工倉,所述加工倉具有brighthouse引擎,所述加工倉為一主多從的集群架構(gòu),包括一個加工倉主庫和多個加工倉從庫,所述加工倉提取源數(shù)據(jù)倉中的原始數(shù)據(jù),并對所述原始數(shù)據(jù)進行加工處理和存儲。
[0016]本發(fā)明還提出一種基于Infobright的數(shù)據(jù)倉庫系統(tǒng),包括:如前所述的數(shù)據(jù)倉庫;關系型數(shù)據(jù)庫,所述關系型數(shù)據(jù)庫用于產(chǎn)生業(yè)務有關的原始數(shù)據(jù);數(shù)據(jù)導入單元,所述數(shù)據(jù)導入單元將所述原始數(shù)據(jù)導入到所述數(shù)據(jù)倉庫中。
[0017]本發(fā)明提出的數(shù)據(jù)倉庫和數(shù)據(jù)倉庫的構(gòu)建方法基于Infobright,構(gòu)建出高性能的且可擴展的數(shù)據(jù)倉庫。
[0018]本發(fā)明的優(yōu)點如下:
[0019]1.采用一主多從的分布式架構(gòu),可水平擴展,可以滿足高并發(fā)需求;
[0020]2.單一節(jié)點的Infobright就能支持30TB的數(shù)據(jù)量,而且還可擴展,因而可以支持真正的海量數(shù)據(jù)分析;
[0021]3.1nfobright米用的是基于列存儲技術,有別于傳統(tǒng)的行存儲技術,在分析報表常用的聚合函數(shù)的查詢性能上表現(xiàn)優(yōu)異,在查詢性能上大大優(yōu)于現(xiàn)有技術方案;
[0022]4.本發(fā)明采用Infobright社區(qū)版,可以免費使用,大大降低了成本。
【專利附圖】

【附圖說明】
[0023]圖1為本發(fā)明的基于Infobright的數(shù)據(jù)倉庫系統(tǒng)的示意圖;
[0024]圖2為本發(fā)明的基于Infobright的數(shù)據(jù)倉庫系統(tǒng)的優(yōu)選實施例的示意圖;
[0025]圖3為本發(fā)明的基于Infobright的數(shù)據(jù)倉庫系統(tǒng)的另一優(yōu)選實施例的示意圖;
[0026]圖4為本發(fā)明的基于Infobright的數(shù)據(jù)倉庫的示意圖;
[0027]圖5為本發(fā)明的基于Infobright的數(shù)據(jù)倉庫的構(gòu)建方法的示意圖;
[0028]圖6為本發(fā)明的基于Infobright的數(shù)據(jù)倉庫系統(tǒng)的構(gòu)建方法的示意圖。
【具體實施方式】
[0029]本發(fā)明的基于Infobright的數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)如圖1所示。所述系統(tǒng)包括關系型數(shù)據(jù)庫1、數(shù)據(jù)導入單元2、數(shù)據(jù)倉庫3。關系型數(shù)據(jù)庫I是業(yè)務的生產(chǎn)數(shù)據(jù)庫,其生成整個業(yè)務的數(shù)據(jù)。數(shù)據(jù)導入單元2負責將關系型數(shù)據(jù)庫I生成的數(shù)據(jù)導入到數(shù)據(jù)倉庫3中。數(shù)據(jù)倉庫3對數(shù)據(jù)進行處理并存儲。
[0030]優(yōu)選地,所述系統(tǒng)還包括報表展示單元4,報表展示單元4包括報表服務端和報表客戶端,數(shù)據(jù)倉庫3為其數(shù)據(jù)源,報表展示單元4將數(shù)據(jù)倉庫3中加工好的數(shù)據(jù)通過報表的方式展現(xiàn)出來。
[0031]數(shù)據(jù)導入單元2被配置為執(zhí)行如下將數(shù)據(jù)從關系型數(shù)據(jù)庫I導入到數(shù)據(jù)倉庫3的步驟:
[0032]步驟I):數(shù)據(jù)導入單元2連接到關系型數(shù)據(jù)庫I。具體為,配置關系型數(shù)據(jù)庫I的連接參數(shù)(關系數(shù)據(jù)庫的IP地址、用戶名、密碼、數(shù)據(jù)庫名等),通過所述連接參數(shù)連接到關系型數(shù)據(jù)庫I。
[0033]步驟2):數(shù)據(jù)導入單元2配置數(shù)據(jù)傳輸參數(shù)(數(shù)據(jù)源、數(shù)據(jù)表、主鍵等)。
[0034]步驟3):數(shù)據(jù)導入單元2根據(jù)所述步驟I)和步驟2)中的連接參數(shù)和數(shù)據(jù)傳輸參數(shù)將數(shù)據(jù)從關系型數(shù)據(jù)庫I搬運到數(shù)據(jù)倉庫3。
[0035]如圖2所示,在另一個優(yōu)選實施例中,數(shù)據(jù)導入單元2被配置為執(zhí)行如下將數(shù)據(jù)從關系型數(shù)據(jù)庫I導入到數(shù)據(jù)倉庫3的步驟:
[0036]步驟I):數(shù)據(jù)導入單元2連接到關系型數(shù)據(jù)庫I。具體為,配置關系型數(shù)據(jù)庫I的連接參數(shù)(關系數(shù)據(jù)庫的IP地址、用戶名、密碼、數(shù)據(jù)庫名等),通過所述連接參數(shù)連接到關系型數(shù)據(jù)庫I。
[0037]步驟2):數(shù)據(jù)導入單元2配置數(shù)據(jù)傳輸參數(shù)(數(shù)據(jù)源、數(shù)據(jù)表、主鍵等)。
[0038]步驟3):數(shù)據(jù)導入單元2的數(shù)據(jù)抽取平臺根據(jù)所述步驟I)和步驟2)中的連接參數(shù)和數(shù)據(jù)傳輸參數(shù)將數(shù)據(jù)從關系型數(shù)據(jù)庫I抽取到云存儲(該云存儲為一個基于云計算的存儲空間)。
[0039]步驟4):數(shù)據(jù)導入單元2的任務調(diào)度平臺執(zhí)行下載任務。所述任務調(diào)度平臺通過調(diào)用API從云存儲中下載數(shù)據(jù)到數(shù)據(jù)倉庫3。
[0040]任務調(diào)度平臺是指任務調(diào)度控制臺,其定時執(zhí)行用shell腳本編寫的任務。
[0041 ] 如圖3所示,在另一個優(yōu)選實施例中,數(shù)據(jù)導入單元2由ETL(數(shù)據(jù)提取-轉(zhuǎn)換-加載,Extraction-Transformation-Loading)工具構(gòu)建,該ETL工具通過增量方式將數(shù)據(jù)導入到數(shù)據(jù)倉庫3中。數(shù)據(jù)導入單元2利用了 ETL工具。數(shù)據(jù)導入單元2被配置為執(zhí)行如下將數(shù)據(jù)從關系型數(shù)據(jù)庫I導入到數(shù)據(jù)倉庫3的步驟:
[0042]步驟I)數(shù)據(jù)導入單元2連接到關系型數(shù)據(jù)庫I。具體為,配置關系型數(shù)據(jù)庫I的連接參數(shù)(關系數(shù)據(jù)庫的IP地址、用戶名、密碼、數(shù)據(jù)庫名等),通過所述連接參數(shù)連接到關系型數(shù)據(jù)庫I。
[0043]步驟2):數(shù)據(jù)導入單元2配置作為數(shù)據(jù)傳輸參數(shù)的ETL參數(shù)(數(shù)據(jù)源、數(shù)據(jù)表、主鍵、增量判斷字段等)。
[0044]步驟3):數(shù)據(jù)導入單元2根據(jù)所述步驟I)和步驟2)中的連接參數(shù)和數(shù)據(jù)傳輸參數(shù),將關系型數(shù)據(jù)庫I中的數(shù)據(jù)以文本文件方式(csv, txt等)抽取到云存儲中。
[0045]步驟4):數(shù)據(jù)導入單元2的任務調(diào)度平臺調(diào)用API將文本文件從云存儲中下載到數(shù)據(jù)倉庫服務器。
[0046]步驟5):數(shù)據(jù)導入單元2的任務調(diào)度平臺將所述文本文件通過load data infile的方式下載到數(shù)據(jù)倉庫中。
[0047]圖4顯示了圖1中所示的數(shù)據(jù)倉庫3的結(jié)構(gòu)。如圖4所示,數(shù)據(jù)倉庫3從邏輯上分為三個層次:源數(shù)據(jù)倉、加工倉和結(jié)果倉。下面對各個倉分別說明。
[0048]源數(shù)據(jù)倉具有Infobright 的 brighthouse 引擎,Infobright 是開源的 MySQL 數(shù)據(jù)倉庫解決方案,在Mysql的Innodb存儲引擎基礎上改造而成,采用列存儲模式,引入了知識網(wǎng)格技術,具有高壓縮比、高性能的聚合函數(shù)查詢性能、支持TB級的海量數(shù)據(jù)等特點。
[0049]源數(shù)據(jù)倉存放從關系型數(shù)據(jù)庫中抽取過來的原始數(shù)據(jù),原始數(shù)據(jù)均以增量的方式被加載到源數(shù)據(jù)倉中。
[0050]源數(shù)據(jù)倉的數(shù)據(jù)被傳輸?shù)郊庸}。加工倉是一個集群,包括加工倉主庫以及多個加工倉從庫。加工倉同樣具有brighthouse引擎,和源數(shù)據(jù)倉不同的是,加工倉采用了一主多從的集群架構(gòu),這樣就可以支持水平擴展,支持高并發(fā)。
[0051]原始數(shù)據(jù)在加工倉中需要進行處理。譬如,因ICE版的Infobright并不支持insert、update和delete命令操作,數(shù)據(jù)導入只能通過“l(fā)oad data infile”方式導入,每次增量導入的數(shù)據(jù)中包括了 update和insert數(shù)據(jù),因為Infobright引擎不支持主鍵,所以源數(shù)據(jù)倉里各表中的數(shù)據(jù)就可能會出現(xiàn)重復記錄,這些重復的數(shù)據(jù)在加工倉中被去除。
[0052]加工倉對源數(shù)據(jù)倉的原始數(shù)據(jù)的處理包括排重、合并、拆分等。加工倉包括任務調(diào)度平臺,通過任務調(diào)度平臺進行上述加工過程。優(yōu)選地,任務調(diào)度平臺調(diào)度shell任務腳本來完成。
[0053]任務調(diào)度平臺部署在加工倉主庫中,加工倉從庫并不需要部署,加工倉從庫的數(shù)據(jù)是采用數(shù)據(jù)庫自身的binlog復制模式從主庫復制到各個從庫中。
[0054]加工倉是一個一主多從的集群架構(gòu),數(shù)據(jù)加工過程(排重、合并、拆分)均在主庫中完成,從庫是讀庫,可擴展,用作匯總類報表的數(shù)據(jù)源,可根據(jù)并發(fā)量水平擴展。
[0055]原始數(shù)據(jù)通過增量的方式load到源數(shù)據(jù)倉之后,因為infobright社區(qū)版不支持主鍵和update操作,所以load方式導入到源數(shù)據(jù)倉的數(shù)據(jù)可能會存在重復,因而需要排重,以申請單表(apply)為例,排重的步驟描述如下:
[0056]步驟1:在源數(shù)據(jù)倉中,根據(jù)表apply中的主鍵字段和更新時間字段(時間戳),從源數(shù)據(jù)倉的表apply中過濾出主鍵重復的記錄中更新時間最新的一條記錄,按照這種算法查詢出所有主鍵不重復的記錄集合,并通過load data outfile的方式導出到文本文件apply, csv中,該文本文件保存在源數(shù)據(jù)倉中(例如源數(shù)據(jù)倉的文件系統(tǒng)中);
[0057]步驟2:任務調(diào)度平臺執(zhí)行文件傳輸任務將所述文本文件apply, csv從源數(shù)據(jù)倉傳輸?shù)郊庸}(例如加工倉的文件系統(tǒng)中);
[0058]步驟3:任務調(diào)度平臺執(zhí)行任務,刪除加工倉中表apply中所有數(shù)據(jù)和表結(jié)構(gòu),并重新創(chuàng)建新表apply ;
[0059]步驟4:任務調(diào)度平臺執(zhí)行l(wèi)oad任務將所述文本文件apply, csv通過load datainfile方式導入到步驟3中創(chuàng)建的新表apply中。至此,排重完畢,表apply中的數(shù)據(jù)是干凈的無重復記錄的數(shù)據(jù);
[0060]數(shù)據(jù)的合并、拆分等加工過程和排重類似,也是通過任務調(diào)度平臺調(diào)度不同的任務實現(xiàn)的,這里不再贅述。
[0061]加工倉加工后的數(shù)據(jù)同步到結(jié)果倉,圖4中的結(jié)果倉使用MyISAM引擎,和加工倉一樣采用一主多從的集群架構(gòu),支持水平擴展,支持高并發(fā)。MyIsam是MySQL的一種存儲引擎,不支持事務,插入修改性能優(yōu)于Innodb,在本發(fā)明中作為Infobright的一個輔助,用于分析報表明細數(shù)據(jù)查詢。
[0062]與加工倉的架構(gòu)一樣,結(jié)果倉也是一個可擴展的一主多從的集群架構(gòu),加工倉主庫的數(shù)據(jù)同步到結(jié)果倉主庫中,結(jié)果倉主庫中的數(shù)據(jù)通過數(shù)據(jù)庫自身的binlog負責模式實時復制到多個結(jié)果倉從庫中,結(jié)果倉從庫用來作為明細類報表展示的數(shù)據(jù)源,可根據(jù)并發(fā)量隨時擴展。
[0063]結(jié)果倉可以帶來另外的優(yōu)點。因為社區(qū)版的Infobright并發(fā)只能支持到10_18,而且Infobright的性能優(yōu)勢主要體現(xiàn)在查詢匯總數(shù)據(jù),明細數(shù)據(jù)還需要從MyISAM引擎上實現(xiàn),所以結(jié)果倉選擇用MyISAM引擎,MyISAM引擎能支持高并發(fā),而且可以在結(jié)果倉中實現(xiàn)明細類報表。對于離線報表,也可以通過計算任務在夜間計算好想要的匯總數(shù)據(jù)存放到結(jié)果倉,直接在結(jié)果倉中實現(xiàn)匯總類和明細類報表。
[0064]綜上所述,在本發(fā)明所述數(shù)據(jù)倉庫方案中,加工倉集群負責數(shù)據(jù)加工,充分利用infobright聚合函數(shù)高性能的特性。結(jié)果倉集群用來作為匯總類報表的數(shù)據(jù)源,由于聚合函數(shù)性能優(yōu)越,可以做到報表展現(xiàn)高效,并發(fā)性能好,用戶體驗好。
[0065]本發(fā)明的加工倉采用了分布式一主多從集群,支持水平擴展,支持高并發(fā)。結(jié)果倉集群中的數(shù)據(jù)來源于加工倉,選擇Mysql自身的Myisam引擎,Myisam引擎具有高并發(fā),很高的insert性能和查詢性能等特點,作為明細類報表的數(shù)據(jù)源,對加工倉正好是一個很好的補充。
[0066]本發(fā)明還提出一種基于Infobright的數(shù)據(jù)倉庫的構(gòu)建方法,通過該構(gòu)建方法,可以構(gòu)建出如上所述的基于Infobright的數(shù)據(jù)倉庫。其具體過程如圖5所示。首先,在步驟SI中,構(gòu)建源數(shù)據(jù)倉,所述源數(shù)據(jù)倉存放從關系型數(shù)據(jù)庫中抽取過來的原始數(shù)據(jù)。在步驟S2中,構(gòu)建加工倉,所述加工倉具有brighthouse引擎,所述加工倉為一主多從的集群架構(gòu),包括一個加工倉主庫和多個加工倉從庫,所述加工倉提取源數(shù)據(jù)倉中的原始數(shù)據(jù),并對所述原始數(shù)據(jù)進行加工處理和存儲。
[0067]更進一步,在步驟S3中,構(gòu)建結(jié)果倉,所述結(jié)果倉具有MyISAM引擎,采用一主多從的集群架構(gòu),包括一個結(jié)果倉主庫和多個結(jié)果倉從庫,所述結(jié)果倉對加工倉加工完的數(shù)據(jù)進行匯總,作為匯總類報表的數(shù)據(jù)源。
[0068]優(yōu)選地,將結(jié)果倉主庫構(gòu)建為采用binlog復制模式將數(shù)據(jù)從結(jié)果倉主庫復制到各個結(jié)果倉從庫中。將加工倉主庫構(gòu)建為采用binlog復制模式將數(shù)據(jù)從加工倉主庫復制到各個加工倉從庫中。
[0069]其中,所述源數(shù)據(jù)倉、加工倉、結(jié)果倉的數(shù)據(jù)處理方式如參照圖1-4的實施方式所述,在此不再贅述。
[0070]優(yōu)選地,在所述加工倉主庫中構(gòu)建任務調(diào)度平臺,來完成對數(shù)據(jù)的各種處理。
[0071]基于上述基于Infobright的數(shù)據(jù)倉庫的構(gòu)建方法,可以構(gòu)建基于Infobright的數(shù)據(jù)倉庫系統(tǒng)。因此,本發(fā)明還提出一種基于Infobright的數(shù)據(jù)倉庫系統(tǒng)的構(gòu)建方法,如圖6所示。在構(gòu)建完如上所述的基于Infobright的數(shù)據(jù)倉庫后,構(gòu)建一關系型數(shù)據(jù)庫,所述關系型數(shù)據(jù)庫用于產(chǎn)生與業(yè)務有關的原始數(shù)據(jù)。然后,構(gòu)建一數(shù)據(jù)導入單元,所述數(shù)據(jù)導入單元將所述原始數(shù)據(jù)導入到所述數(shù)據(jù)倉庫中。
[0072]優(yōu)選地,還可以構(gòu)建一報表展示單元,所述報表展示單元包括報表服務端和報表客戶端,報表展示單元將數(shù)據(jù)倉庫中加工完的數(shù)據(jù)以報表的方式展現(xiàn)。
[0073]其中,所述原始數(shù)據(jù)以增量的方式從關系型數(shù)據(jù)庫,經(jīng)由所述數(shù)據(jù)導入單元,加載到所述數(shù)據(jù)倉庫。
[0074]優(yōu)選地,所述數(shù)據(jù)導入單元被構(gòu)建為包括ETL工具,所述數(shù)據(jù)導入單元被構(gòu)建為執(zhí)行下述步驟來完成所述加載:
[0075]步驟I):數(shù)據(jù)導入單元配置關系型數(shù)據(jù)庫的連接參數(shù),通過所述連接參數(shù)連接到關系型數(shù)據(jù)庫;
[0076]步驟2):數(shù)據(jù)導入單元配置數(shù)據(jù)傳輸參數(shù);
[0077]步驟3):數(shù)據(jù)導入單元根據(jù)所述步驟I)和步驟2)中的連接參數(shù)和數(shù)據(jù)傳輸參數(shù)將數(shù)據(jù)從關系型數(shù)據(jù)庫的數(shù)據(jù)以文本文件方式抽取到云存儲中;
[0078]步驟4):數(shù)據(jù)導入單元的任務調(diào)度平臺調(diào)用API將文本文件從云存儲中下載到數(shù)據(jù)倉庫。
[0079]步驟5):數(shù)據(jù)導入單元的任務調(diào)度平臺將所述文本文件通過load data infile方式下載到數(shù)據(jù)倉庫中。
[0080]其中,所述連接參數(shù)包括:關系數(shù)據(jù)庫的IP地址、用戶名、密碼、數(shù)據(jù)庫名;所述數(shù)據(jù)傳輸參數(shù)包括:數(shù)據(jù)源、數(shù)據(jù)表、主鍵、增量判斷字段;所述文本文件為CSV或txt類型的文本文件。
[0081]上述實施例為本發(fā)明的典型的實施方式,但本發(fā)明并不受上述實施例的限制,其他任何未背離本發(fā)明的精神實質(zhì)與原理下所作的改變、替代、組合、簡化,均為等效的置換方式,包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種基于Infobright的數(shù)據(jù)倉庫的構(gòu)建方法,其特征在于,包括: 構(gòu)建源數(shù)據(jù)倉,所述源數(shù)據(jù)倉存放從關系型數(shù)據(jù)庫中抽取過來的原始數(shù)據(jù); 構(gòu)建加工倉,所述加工倉具有brighthouse引擎,所述加工倉為一主多從的集群架構(gòu),包括一個加工倉主庫和多個加工倉從庫,所述加工倉提取源數(shù)據(jù)倉中的原始數(shù)據(jù),并對所述原始數(shù)據(jù)進行加工處理和存儲。
2.根據(jù)權(quán)利要求1所述的基于Infobright的數(shù)據(jù)倉庫的構(gòu)建方法,其特征在于, 構(gòu)建結(jié)果倉,所述結(jié)果倉具有MyISAM引擎,采用一主多從的集群架構(gòu),包括一個結(jié)果倉主庫和多個結(jié)果倉從庫,所述結(jié)果倉對加工倉加工完的數(shù)據(jù)進行匯總,作為匯總類報表的數(shù)據(jù)源。
3.根據(jù)權(quán)利要求2所述的基于Infobright的數(shù)據(jù)倉庫的構(gòu)建方法,其特征在于,將結(jié)果倉主庫構(gòu)建為采用binlog復制模式將數(shù)據(jù)從結(jié)果倉主庫復制到各個結(jié)果倉從庫中。
4.根據(jù)權(quán)利要求2所述的基于Infobright的數(shù)據(jù)倉庫的構(gòu)建方法,其特征在于,將加工倉主庫構(gòu)建為采用binlog復制模式將數(shù)據(jù)從加工倉主庫復制到各個加工倉從庫中。
5.根據(jù)權(quán)利要求1所述的基于Infobright的數(shù)據(jù)倉庫的構(gòu)建方法,其特征在于,所述源數(shù)據(jù)倉被構(gòu)建為,針對所述原始數(shù)據(jù)中的表,根據(jù)表中的主鍵字段和更新時間字段,從表中過濾出主鍵重復的記錄中更新時間最新的一條記錄,查詢出所有主鍵不重復的記錄集合,并通過load data outfile方式導出到文本文件中,該文本文件保存在源數(shù)據(jù)倉中。
6.根據(jù)權(quán)利要求5所述的基于Infobright的數(shù)據(jù)倉庫的構(gòu)建方法,其特征在于,在所述加工倉主庫中構(gòu)建任務調(diào)度平臺,所述加工倉被構(gòu)建為:` 執(zhí)行文件傳輸任務將所述文本文件從源數(shù)據(jù)倉傳輸?shù)郊庸}; 刪除加工倉中的表中所有表結(jié)構(gòu),并重新創(chuàng)建新表; 執(zhí)行l(wèi)oad任務將所述文本文件通過load data infile方式導入到創(chuàng)建的所述新表中。
7.—種基于Infobright的數(shù)據(jù)倉庫系統(tǒng)的構(gòu)建方法,其特征在于,包括: 按照權(quán)利要求1-6任意一項所述的方法構(gòu)建基于Infobright的數(shù)據(jù)倉庫; 構(gòu)建一關系型數(shù)據(jù)庫,所述關系型數(shù)據(jù)庫用于產(chǎn)生與業(yè)務有關的原始數(shù)據(jù); 構(gòu)建一數(shù)據(jù)導入單元,所述數(shù)據(jù)導入單元將所述原始數(shù)據(jù)導入到所述數(shù)據(jù)倉庫中。
8.根據(jù)權(quán)利要求7所述的基于Infobright的數(shù)據(jù)倉庫系統(tǒng)的構(gòu)建方法,其特征在于,還包括: 構(gòu)建一報表展不單兀,所述報表展不單兀包括報表服務端和報表客戶端,報表展不單元將數(shù)據(jù)倉庫中加工完的數(shù)據(jù)以報表的方式展現(xiàn)。
9.根據(jù)權(quán)利要求7所述的基于Infobright的數(shù)據(jù)倉庫系統(tǒng)的構(gòu)建方法,其特征在于,所述原始數(shù)據(jù)以增量的方式從關系型數(shù)據(jù)庫,經(jīng)由所述數(shù)據(jù)導入單元,加載到所述數(shù)據(jù)倉庫。
10.根據(jù)權(quán)利要求9所述的基于Infobright的數(shù)據(jù)倉庫系統(tǒng)的構(gòu)建方法,其特征在于,所述數(shù)據(jù)導入單元被構(gòu)建為包括ETL工具,所述數(shù)據(jù)導入單元被構(gòu)建為執(zhí)行下述步驟來完成所述加載: 步驟I):數(shù)據(jù)導入單元配置關系型數(shù)據(jù)庫的連接參數(shù),通過所述連接參數(shù)連接到關系型數(shù)據(jù)庫;步驟2):數(shù)據(jù)導入單元配置數(shù)據(jù)傳輸參數(shù); 步驟3):數(shù)據(jù)導入單元根據(jù)所述步驟I)和步驟2)中的連接參數(shù)和數(shù)據(jù)傳輸參數(shù)將數(shù)據(jù)從關系型數(shù)據(jù)庫的數(shù)據(jù)以文本文件方式抽取到云存儲中; 步驟4):數(shù)據(jù)導入單元的任務調(diào)度平臺調(diào)用API將文本文件從云存儲中下載到數(shù)據(jù)倉庫; 步驟5):數(shù)據(jù)導入單元的任務調(diào)度平臺將所述文本文件通過load data infile方式下載到數(shù)據(jù)倉庫中。
11.根據(jù)權(quán)利要求10所述的基于Infobright的數(shù)據(jù)倉庫系統(tǒng)的構(gòu)建方法,其特征在于,所述連接參數(shù)包括:關系數(shù)據(jù)庫的IP地址、用戶名、密碼、數(shù)據(jù)庫名;所述數(shù)據(jù)傳輸參數(shù)包括:數(shù)據(jù)源、數(shù)據(jù)表、主鍵、增量判斷字段;所述文本文件為csv或txt類型的文本文件。
12.—種基于Infobright的數(shù)據(jù)倉庫,其特征在于,包括: 源數(shù)據(jù)倉,所述源數(shù)據(jù)倉存放從關系型數(shù)據(jù)庫中抽取過來的原始數(shù)據(jù); 加工倉,所述加工倉具有brighthouse引擎,所述加工倉為一主多從的集群架構(gòu),包括一個加工倉主庫和多個加工倉從庫,所述加工倉提取源數(shù)據(jù)倉中的原始數(shù)據(jù),并對所述原始數(shù)據(jù)進行加工處 理和存儲。
13.根據(jù)權(quán)利要求12所述的基于Infobright的數(shù)據(jù)倉庫,其特征在于,所述數(shù)據(jù)倉庫還包括: 結(jié)果倉,所述結(jié)果倉具有MyISAM引擎,采用一主多從的集群架構(gòu),包括一個結(jié)果倉主庫和多個結(jié)果倉從庫,所述結(jié)果倉對加工倉加工完的數(shù)據(jù)進行匯總,作為匯總類報表的數(shù)據(jù)源。
14.根據(jù)權(quán)利要求13所述的基于Infobright的數(shù)據(jù)倉庫,其特征在于,結(jié)果倉主庫中的數(shù)據(jù)采用binlog復制模式復制到各個結(jié)果倉從庫中。
15.根據(jù)權(quán)利要求12所述的基于Infobright的數(shù)據(jù)倉庫,其特征在于,加工倉主庫中的數(shù)據(jù)采用binlog復制模式復制到各個加工倉從庫中。
16.根據(jù)權(quán)利要求12所述的基于Infobright的數(shù)據(jù)倉庫,其特征在于,所述源數(shù)據(jù)倉被配置為,針對所述原始數(shù)據(jù)中的表,根據(jù)表中的主鍵字段和更新時間字段,從表中過濾出主鍵重復的記錄中更新時間最新的一條記錄,查詢出所有主鍵不重復的記錄集合,并通過load data outfile方式導出到文本文件中,該文本文件保存在源數(shù)據(jù)倉中。
17.根據(jù)權(quán)利要求16所述的基于Infobright的數(shù)據(jù)倉庫,其特征在于,所述加工倉主庫包括任務調(diào)度平臺,所述任務調(diào)度平臺被配置為: 執(zhí)行文件傳輸任務將所述文本文件從源數(shù)據(jù)倉傳輸?shù)郊庸}; 刪除加工倉中的表中所有數(shù)據(jù)和表結(jié)構(gòu),并重新創(chuàng)建新表; 執(zhí)行l(wèi)oad任務將所述文本文件通過load data infile方式導入到創(chuàng)建的所述新表中。
18.—種基于Infobright的數(shù)據(jù)倉庫系統(tǒng),其特征在于,包括: 根據(jù)權(quán)利要求12-17任意一項所述的數(shù)據(jù)倉庫; 關系型數(shù)據(jù)庫,所述關系型數(shù)據(jù)庫用于產(chǎn)生業(yè)務有關的原始數(shù)據(jù); 數(shù)據(jù)導入單元,所述數(shù)據(jù)導入單元將所述原始數(shù)據(jù)導入到所述數(shù)據(jù)倉庫中。
19.根據(jù)權(quán)利要求18所述的基于Infobright的數(shù)據(jù)倉庫系統(tǒng),其特征在于,還包括:報表展示單元,所述報表展示單元包括報表服務端和報表客戶端,報表展示單元將數(shù)據(jù)倉庫中加工完的數(shù)據(jù)以報表的方式展現(xiàn)。
20.根據(jù)權(quán)利要求18所述的基于Infobright的數(shù)據(jù)倉庫系統(tǒng),其特征在于,所述原始數(shù)據(jù)以增量的方式從關系型數(shù)據(jù)庫,經(jīng)由所述數(shù)據(jù)導入單元,加載到所述數(shù)據(jù)倉庫。
21.根據(jù)權(quán)利要求20所述的基于Infobright的數(shù)據(jù)倉庫系統(tǒng),其特征在于,所述數(shù)據(jù)導入單元包括ETL工具,所述數(shù)據(jù)導入單元被配置為執(zhí)行下述步驟來完成所述加載: 步驟I):數(shù)據(jù)導入單元配置關系型數(shù)據(jù)庫的連接參數(shù),通過所述連接參數(shù)連接到關系型數(shù)據(jù)庫; 步驟2):數(shù)據(jù)導入單元配置數(shù)據(jù)傳輸參數(shù); 步驟3):數(shù)據(jù)導入單元根據(jù)所述步驟I)和步驟2)中的連接參數(shù)和數(shù)據(jù)傳輸參數(shù)將數(shù)據(jù)從關系型數(shù)據(jù)庫的數(shù)據(jù)以文本文件方式抽取到云存儲中; 步驟4):數(shù)據(jù)導入單元的任務調(diào)度平臺調(diào)用API將文本文件從云存儲中下載到數(shù)據(jù)倉庫; 步驟5):數(shù)據(jù)導入單元的任務調(diào)度平臺將所述文本文件通過loaddata infile方式下載到數(shù)據(jù)倉庫中。
22.根據(jù)權(quán)利要求21所述的基于Infobright的數(shù)據(jù)倉庫系統(tǒng),其特征在于,所述連接參數(shù)包括:關系數(shù)據(jù)庫的IP地址、用戶名、密碼、數(shù)據(jù)庫名;所述數(shù)據(jù)傳輸參數(shù)包括:數(shù)據(jù)源、數(shù)據(jù)表、主鍵、增量判斷字段;所述文本文件為csv或txt類型的文本文件。
【文檔編號】G06F17/30GK103605732SQ201310582660
【公開日】2014年2月26日 申請日期:2013年11月19日 優(yōu)先權(quán)日:2013年11月19日
【發(fā)明者】者文明, 李 東 申請人:北京京東尚科信息技術有限公司, 北京京東世紀貿(mào)易有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1