專利名稱:數(shù)據(jù)倉庫管理系統(tǒng)和數(shù)據(jù)倉庫管理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)管理技術(shù)領(lǐng)域,具體而言,涉及一種數(shù)據(jù)倉庫管理系統(tǒng)和一種數(shù)據(jù)倉庫管理方法。
背景技術(shù):
互聯(lián)網(wǎng)發(fā)展至今天,各大信息化領(lǐng)域企業(yè)的數(shù)據(jù)規(guī)模急劇擴(kuò)大,有些甚至達(dá)到了PB級(jí),用戶和機(jī)器制造的越來越多的業(yè)務(wù)數(shù)據(jù)對(duì)IT系統(tǒng)帶來了更大的挑戰(zhàn),數(shù)據(jù)的存儲(chǔ)以及在未來訪問和使用這些數(shù)據(jù)已成為難點(diǎn),想從海量的數(shù)據(jù)里得到對(duì)自己有用的信息也變得倍加艱難。在分析數(shù)據(jù)的技術(shù)上,大多數(shù)公司采用了數(shù)據(jù)倉庫技術(shù),數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,數(shù)據(jù)倉庫會(huì)將多個(gè)系統(tǒng)的數(shù)據(jù)整合到一起,然后根據(jù)不同的主體進(jìn)行數(shù)據(jù)分析,分析結(jié)果用于支持管理決策。但是隨著數(shù)據(jù)量 級(jí)的增大,傳統(tǒng)的事務(wù)型數(shù)據(jù)倉庫由于構(gòu)架平臺(tái)陳舊,無法支持對(duì)于海量數(shù)據(jù)的分析,并且顯得越來越力不從心。因此,需要一種新的數(shù)據(jù)倉庫管理技術(shù),可以具備良好的擴(kuò)展性,尤其對(duì)海量數(shù)據(jù)的支持效果極佳。
發(fā)明內(nèi)容
本發(fā)明正是基于上述問題,提出了一種新的數(shù)據(jù)倉庫管理技術(shù),可以具備良好的擴(kuò)展性,尤其對(duì)海量數(shù)據(jù)的支持效果極佳。有鑒于此,本發(fā)明提出了一種數(shù)據(jù)倉庫管理系統(tǒng),包括數(shù)據(jù)庫建立單元,用于建立HBase數(shù)據(jù)庫,并將事務(wù)型數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)移至所述HBase數(shù)據(jù)庫中;數(shù)據(jù)分析單元,用于對(duì)所述HBase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析;結(jié)果展現(xiàn)單元,用于展現(xiàn)所述數(shù)據(jù)挖掘分析的分析結(jié)果。在該技術(shù)方案中,HBase (Hadoop Database,一種分布式的、面向列的開源數(shù)據(jù)庫)數(shù)據(jù)庫是基于Hadoop (—種分布式系統(tǒng)基礎(chǔ)構(gòu)架,由Apache基金會(huì)開發(fā))平臺(tái)構(gòu)建的,從而使得整個(gè)系統(tǒng)能夠傳承Hadoop平臺(tái)高效、高擴(kuò)展性的特點(diǎn),能夠更好地對(duì)海量數(shù)據(jù)進(jìn)行支持。在上述技術(shù)方案中,優(yōu)選地,還包括數(shù)據(jù)過濾單元,用于按照預(yù)設(shè)的過濾規(guī)則對(duì)來自所述事務(wù)性數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行過濾,并將得到的過濾后數(shù)據(jù)轉(zhuǎn)移至所述HBase數(shù)據(jù)庫中。在上述任一技術(shù)方案中,優(yōu)選地,還包括格式轉(zhuǎn)換單元,用于獲取目標(biāo)數(shù)據(jù)格式,并將所述過濾后數(shù)據(jù)轉(zhuǎn)換為所述目標(biāo)數(shù)據(jù)格式后,存儲(chǔ)至所述HBase數(shù)據(jù)庫。在上述任一技術(shù)方案中,優(yōu)選地,所述數(shù)據(jù)分析單元包括文件獲取子單元,用于調(diào)用數(shù)據(jù)分析工具,將需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù)文件映射為數(shù)據(jù)庫表;數(shù)據(jù)獲取子單元,用于所述數(shù)據(jù)分析工具按照預(yù)設(shè)的選取規(guī)則,從所述數(shù)據(jù)庫表中選取需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù),并存儲(chǔ)至在所述HBase數(shù)據(jù)庫中建立的臨時(shí)表中;分析處理子單元,用于所述數(shù)據(jù)分析工具在自身對(duì)應(yīng)的存儲(chǔ)空間中建立二維表,并在所述臨時(shí)表與所述二維表之間建立關(guān)聯(lián),以使得對(duì)所述臨時(shí)表中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析后,將分析結(jié)果存儲(chǔ)至所述二維表中;結(jié)果存儲(chǔ)子單元,用于將存儲(chǔ)有所述分析結(jié)果的二維表存儲(chǔ)至所述HBase數(shù)據(jù)庫中。在上述任一技術(shù)方案中,優(yōu)選地,所述結(jié)果展示單元包括報(bào)表展示子單元,用于按照預(yù)設(shè)的語義模型,從所述數(shù)據(jù)挖掘分析的分析結(jié)果中提取需要展示的數(shù)據(jù),生成數(shù)據(jù)模型,并按照預(yù)設(shè)的報(bào)表格式進(jìn)行展示。根據(jù)本發(fā)明的又一方面,還提出了一種數(shù)據(jù)倉庫管理方法,包括步驟202,建立HBase數(shù)據(jù)庫,并將事務(wù)型數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)移至所述HBase數(shù)據(jù)庫中;步驟204,對(duì)所述HBase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析;步驟206,展現(xiàn)所述數(shù)據(jù)挖掘分析的分析結(jié)果。在該技術(shù)方案中,HBase數(shù)據(jù)庫是基于Hadoop平臺(tái)構(gòu)建的,從而使得整個(gè)系統(tǒng)能夠傳承Hadoop平臺(tái)高效、高擴(kuò)展性的特點(diǎn),能夠更好地對(duì)海量數(shù)據(jù)進(jìn)行支持。 在上述技術(shù)方案中,優(yōu)選地,所述步驟202還包括按照預(yù)設(shè)的過濾規(guī)則對(duì)來自所述事務(wù)性數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行過濾,并將得到的過濾后數(shù)據(jù)轉(zhuǎn)移至所述HBase數(shù)據(jù)庫中。在上述任一技術(shù)方案中,優(yōu)選地,所述步驟202還包括獲取目標(biāo)數(shù)據(jù)格式,并將所述過濾后數(shù)據(jù)轉(zhuǎn)換為所述目標(biāo)數(shù)據(jù)格式后,存儲(chǔ)至所述HBase數(shù)據(jù)庫。在上述任一技術(shù)方案中,優(yōu)選地,所述步驟204包括調(diào)用數(shù)據(jù)分析工具,將需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù)文件映射為數(shù)據(jù)庫表;所述數(shù)據(jù)分析工具按照預(yù)設(shè)的選取規(guī)則,從所述數(shù)據(jù)庫表中選取需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù),并存儲(chǔ)至在所述HBase數(shù)據(jù)庫中建立的臨時(shí)表中;所述數(shù)據(jù)分析工具在自身對(duì)應(yīng)的存儲(chǔ)空間中建立二維表,并在所述臨時(shí)表與所述二維表之間建立關(guān)聯(lián),以使得對(duì)所述臨時(shí)表中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析后,將分析結(jié)果存儲(chǔ)至所述二維表中;將存儲(chǔ)有所述分析結(jié)果的二維表存儲(chǔ)至所述HBase數(shù)據(jù)庫中。在上述任一技術(shù)方案中,優(yōu)選地,所述步驟206包括按照預(yù)設(shè)的語義模型,從所述數(shù)據(jù)挖掘分析的分析結(jié)果中提取需要展示的數(shù)據(jù),生成數(shù)據(jù)模型,并按照預(yù)設(shè)的報(bào)表格式進(jìn)行展示。通過以上技術(shù)方案,可以具備良好的擴(kuò)展性,尤其對(duì)海量數(shù)據(jù)的支持效果極佳。
圖I示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的數(shù)據(jù)倉庫管理系統(tǒng)的框圖;圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的數(shù)據(jù)倉庫管理方法的流程圖;圖3示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的數(shù)據(jù)倉庫管理系統(tǒng)的框圖;圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的將數(shù)據(jù)寫入HBase數(shù)據(jù)庫的示意圖。
具體實(shí)施例方式為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是,在不沖突的情況下,本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。圖I示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的數(shù)據(jù)倉庫管理系統(tǒng)的框圖。如圖I所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的數(shù)據(jù)倉庫管理系統(tǒng)100,包括數(shù)據(jù)庫建立單元102,用于建立HBase數(shù)據(jù)庫,并將事務(wù)型數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)移至所述HBase數(shù)據(jù)庫中;數(shù)據(jù)分析單元104,用于對(duì)所述HBase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析;結(jié)果展現(xiàn)單元106,用于展現(xiàn)所述數(shù)據(jù)挖掘分析的分析結(jié)果。在該技術(shù)方案中,HBase (Hadoop Database,一種分布式的、面向列的開源數(shù)據(jù)庫)數(shù)據(jù)庫是基于Hadoop (—種分布式系統(tǒng)基礎(chǔ)構(gòu)架,由Apache基金會(huì)開發(fā))平臺(tái)構(gòu)建的,從而使得整個(gè)系統(tǒng)能夠傳承Hadoop平臺(tái)高效、高擴(kuò)展性的特點(diǎn),能夠更好地對(duì)海量數(shù)據(jù)進(jìn)行支持。在上述技術(shù)方案中,優(yōu)選地,還包括數(shù)據(jù)過濾單元108,用于按照預(yù)設(shè)的過濾規(guī) 則對(duì)來自所述事務(wù)性數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行過濾,并將得到的過濾后數(shù)據(jù)轉(zhuǎn)移至所述HBase數(shù)據(jù)庫中。在上述任一技術(shù)方案中,優(yōu)選地,還包括格式轉(zhuǎn)換單元110,用于獲取目標(biāo)數(shù)據(jù)格式,并將所述過濾后數(shù)據(jù)轉(zhuǎn)換為所述目標(biāo)數(shù)據(jù)格式后,存儲(chǔ)至所述HBase數(shù)據(jù)庫。在上述任一技術(shù)方案中,優(yōu)選地,所述數(shù)據(jù)分析單元104包括文件獲取子單元1042,用于調(diào)用數(shù)據(jù)分析工具,將需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù)文件映射為數(shù)據(jù)庫表;數(shù)據(jù)獲取子單元1044,用于所述數(shù)據(jù)分析工具按照預(yù)設(shè)的選取規(guī)則,從所述數(shù)據(jù)庫表中選取需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù),并存儲(chǔ)至在所述HBase數(shù)據(jù)庫中建立的臨時(shí)表中;分析處理子單元1046,用于所述數(shù)據(jù)分析工具在自身對(duì)應(yīng)的存儲(chǔ)空間中建立二維表,并在所述臨時(shí)表與所述二維表之間建立關(guān)聯(lián),以使得對(duì)所述臨時(shí)表中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析后,將分析結(jié)果存儲(chǔ)至所述二維表中;結(jié)果存儲(chǔ)子單元1048,用于將存儲(chǔ)有所述分析結(jié)果的二維表存儲(chǔ)至所述HBase數(shù)據(jù)庫中。在上述任一技術(shù)方案中,優(yōu)選地,所述結(jié)果展示單元106包括報(bào)表展示子單元1060,用于按照預(yù)設(shè)的語義模型,從所述數(shù)據(jù)挖掘分析的分析結(jié)果中提取需要展示的數(shù)據(jù),生成數(shù)據(jù)模型,并按照預(yù)設(shè)的報(bào)表格式進(jìn)行展示。圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的數(shù)據(jù)倉庫管理方法的流程圖。如圖2所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的數(shù)據(jù)倉庫管理方法,包括步驟202,建立HBase數(shù)據(jù)庫,并將事務(wù)型數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)移至所述HBase數(shù)據(jù)庫中;步驟204,對(duì)所述HBase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析;步驟206,展現(xiàn)所述數(shù)據(jù)挖掘分析的分析結(jié)果。在該技術(shù)方案中,HBase數(shù)據(jù)庫是基于Hadoop平臺(tái)構(gòu)建的,從而使得整個(gè)系統(tǒng)能夠傳承Hadoop平臺(tái)高效、高擴(kuò)展性的特點(diǎn),能夠更好地對(duì)海量數(shù)據(jù)進(jìn)行支持。在上述技術(shù)方案中,優(yōu)選地,所述步驟202還包括按照預(yù)設(shè)的過濾規(guī)則對(duì)來自所述事務(wù)性數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行過濾,并將得到的過濾后數(shù)據(jù)轉(zhuǎn)移至所述HBase數(shù)據(jù)庫中。在上述任一技術(shù)方案中,優(yōu)選地,所述步驟202還包括獲取目標(biāo)數(shù)據(jù)格式,并將所述過濾后數(shù)據(jù)轉(zhuǎn)換為所述目標(biāo)數(shù)據(jù)格式后,存儲(chǔ)至所述HBase數(shù)據(jù)庫。在上述任一技術(shù)方案中,優(yōu)選地,所述步驟204包括調(diào)用數(shù)據(jù)分析工具,將需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù)文件映射為數(shù)據(jù)庫表;所述數(shù)據(jù)分析工具按照預(yù)設(shè)的選取規(guī)則,從所述數(shù)據(jù)庫表中選取需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù),并存儲(chǔ)至在所述HBase數(shù)據(jù)庫中建立的臨時(shí)表中;所述數(shù)據(jù)分析工具在自身對(duì)應(yīng)的存儲(chǔ)空間中建立二維表,并在所述臨時(shí)表與所述二維表之間建立關(guān)聯(lián),以使得對(duì)所述臨時(shí)表中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析后,將分析結(jié)果存儲(chǔ)至所述二維表中;將存儲(chǔ)有所述分析結(jié)果的二維表存儲(chǔ)至所述HBase數(shù)據(jù)庫中。在上述任一技術(shù)方案中,優(yōu)選地,所述步驟206包括按照預(yù)設(shè)的語義模型,從所述數(shù)據(jù)挖掘分析的分析結(jié)果中提取需要展示的數(shù)據(jù),生成數(shù)據(jù)模型,并按照預(yù)設(shè)的報(bào)表格式進(jìn)行展示。圖3示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的數(shù)據(jù)倉庫管理系統(tǒng)的框圖。如圖3所示,本發(fā)明的數(shù)據(jù)倉庫管理系統(tǒng)基于Hadoop及其相關(guān)子項(xiàng)目組成的Hadoop生態(tài)系統(tǒng),Hadoop生態(tài)系統(tǒng)提供了一個(gè)基礎(chǔ)平臺(tái)。在數(shù)據(jù)倉庫的整體架構(gòu)中,HBase數(shù)據(jù)庫構(gòu)建于Hadoop之上,Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具。Hadoop實(shí)現(xiàn)了分布 式文件系統(tǒng) HDFS (Hadoop Distributed File System,分布式文件系統(tǒng))和 MapReduce 計(jì)算框架,其中,HDFS使Hadoop具有擴(kuò)展性良好、安全、經(jīng)濟(jì)等優(yōu)點(diǎn),所以架構(gòu)在Hadoop之上的數(shù)據(jù)倉庫繼承了這些特點(diǎn);MapRedUCe采用移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù)的思想,對(duì)分布式存儲(chǔ)在HDFS的海量數(shù)據(jù)進(jìn)行分布式的并行計(jì)算,大大提高了計(jì)算的速度。本發(fā)明中基于Hadoop生態(tài)系統(tǒng)開發(fā)出數(shù)據(jù)管理系統(tǒng),其中的數(shù)據(jù)建倉工具、數(shù)據(jù)分析工具和自由報(bào)表工具都是基于HBase數(shù)據(jù)庫構(gòu)建,與HBase連接,針對(duì)HBase中的數(shù)據(jù)進(jìn)行運(yùn)作。數(shù)據(jù)分析工具基于數(shù)據(jù)倉庫工具Hive構(gòu)建,并根據(jù)具體業(yè)務(wù)需要對(duì)Hive模塊進(jìn)行調(diào)用。數(shù)據(jù)建倉工具提供了事務(wù)型數(shù)據(jù)庫數(shù)據(jù)、文本格式數(shù)據(jù)等多種異構(gòu)數(shù)據(jù)與數(shù)據(jù)倉庫之間的接口,支持多種異構(gòu)數(shù)據(jù)向數(shù)據(jù)倉庫中的數(shù)據(jù)載入,以及數(shù)據(jù)倉庫中的數(shù)據(jù)向事務(wù)型數(shù)據(jù)庫中的數(shù)據(jù)載入。數(shù)據(jù)建倉工具的具體工作過程如下I)輸入業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫的連接參數(shù),包括連接字符串、IP地址、服務(wù)名、服務(wù)端口、用戶名和密碼。2)輸入數(shù)據(jù)抽取參數(shù),包括數(shù)據(jù)表、字段、HBase中目標(biāo)數(shù)據(jù)的結(jié)構(gòu)、轉(zhuǎn)換規(guī)則、并行度和異常處理機(jī)制。3)輸入數(shù)據(jù)清洗參數(shù)主要包括過濾方式和過濾項(xiàng)目。其中,過濾方式包括缺失值,近似記錄,重復(fù)記錄,數(shù)據(jù)異常等;過濾項(xiàng)目可以按領(lǐng)域選擇也可以按表或者字段。4)數(shù)據(jù)建倉工具從業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫中抽取數(shù)據(jù),根據(jù)數(shù)據(jù)清洗參數(shù)執(zhí)行數(shù)據(jù)清洗算法。并從MapReduce計(jì)算框架的Map函數(shù)中抽取用于轉(zhuǎn)換數(shù)據(jù)的HQL語句,獲得目標(biāo)數(shù)據(jù)結(jié)構(gòu),然后參照?qǐng)D4所示,將數(shù)據(jù)清洗過濾后的數(shù)據(jù)按照目標(biāo)數(shù)據(jù)結(jié)構(gòu)寫入HBase數(shù)據(jù)庫。數(shù)據(jù)建倉工具的實(shí)現(xiàn)充分利用了 Hadoop提供的MapReduce分布式并行計(jì)算框架,實(shí)現(xiàn)了數(shù)據(jù)抽取過程的并行化。同時(shí)數(shù)據(jù)建倉工具在從業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫向數(shù)據(jù)倉庫中載入數(shù)據(jù)時(shí)采用了數(shù)據(jù)清洗技術(shù),從而大大提高了業(yè)務(wù)數(shù)據(jù)的質(zhì)量。數(shù)據(jù)分析工具,該工具根據(jù)預(yù)置的商業(yè)智能分析規(guī)則,調(diào)用Hive進(jìn)行數(shù)據(jù)挖掘分析。數(shù)據(jù)分析工具具體工作過程如下I)輸入商業(yè)智能分析規(guī)則。指定需要做數(shù)據(jù)分析的數(shù)據(jù)范圍,類型或者其他規(guī)則。
2)數(shù)據(jù)分析工具根據(jù)所采用的商業(yè)智能分析規(guī)則,抽取HBase中需要分析的數(shù)據(jù)對(duì)應(yīng)的結(jié)構(gòu)化的數(shù)據(jù)文件,并將該數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表。但該數(shù)據(jù)庫表中的數(shù)據(jù)并不都是必須的,因而由數(shù)據(jù)分析工具根據(jù)商業(yè)智能分析規(guī)則所明確的需要分析的數(shù)據(jù)類型,指示Hive在HBase中建立一個(gè)臨時(shí)表,用于存儲(chǔ)從數(shù)據(jù)庫表中提取出來的用于數(shù)據(jù)挖掘分析的數(shù)據(jù);同時(shí),指示Hive在Hive中建立一張空白二維表,并在該空白二維表與臨時(shí)表之間建立關(guān)聯(lián)關(guān)系。數(shù)據(jù)倉庫工具Hive對(duì)臨時(shí)表中的數(shù)據(jù)進(jìn)行多維分析,將分析后的數(shù)據(jù)寫入空白二維表。分析完成后,數(shù)據(jù)分析工具指示Hive將寫入分析后數(shù)據(jù)的二維表重新轉(zhuǎn)換為HBase中的結(jié)構(gòu)化的數(shù)據(jù)文件。自由報(bào)表工具,該工具連接到HBase數(shù)據(jù)庫,按預(yù)置的語義模型從Hive的分析結(jié)果中提取需要展示的數(shù)據(jù),形成數(shù)據(jù)模型,再按預(yù)置的報(bào)表格式顯示。 自由報(bào)表工具的具體工作過程如下I)輸入查詢邏輯,確定報(bào)表的語義模型。2)輸入報(bào)表的展示格式。3)自由報(bào)表工具根據(jù)語義模型的查詢規(guī)則,從Hive分析結(jié)果中提取需要的數(shù)據(jù),形成數(shù)據(jù)模型,再把這個(gè)數(shù)據(jù)模型按照定義的報(bào)表格式顯示出來。自由報(bào)表工具充分滿足了用戶的各種查詢定制需求,使得企業(yè)對(duì)于數(shù)據(jù)分析的結(jié)果可以進(jìn)行全方位的使用。以上結(jié)合附圖詳細(xì)說明了本發(fā)明的技術(shù)方案,本發(fā)明提供了一種數(shù)據(jù)倉庫管理系統(tǒng)和一種數(shù)據(jù)倉庫管理方法,可以具備良好的擴(kuò)展性,尤其對(duì)海量數(shù)據(jù)的支持效果極佳。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種數(shù)據(jù)倉庫管理系統(tǒng),其特征在于,包括 數(shù)據(jù)庫建立單元,用于建立HBase數(shù)據(jù)庫,并將事務(wù)型數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)移至所述HBase數(shù)據(jù)庫中; 數(shù)據(jù)分析單元,用于對(duì)所述HBase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析; 結(jié)果展現(xiàn)單元,用于展現(xiàn)所述數(shù)據(jù)挖掘分析的分析結(jié)果。
2.根據(jù)權(quán)利要求I所述的數(shù)據(jù)倉庫管理系統(tǒng),其特征在于,還包括 數(shù)據(jù)過濾單元,用于按照預(yù)設(shè)的過濾規(guī)則對(duì)來自所述事務(wù)性數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行過濾,并將得到的過濾后數(shù)據(jù)轉(zhuǎn)移至所述HBase數(shù)據(jù)庫中。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)倉庫管理系統(tǒng),其特征在于,還包括 格式轉(zhuǎn)換單元,用于獲取目標(biāo)數(shù)據(jù)格式,并將所述過濾后數(shù)據(jù)轉(zhuǎn)換為所述目標(biāo)數(shù)據(jù)格式后,存儲(chǔ)至所述HBase數(shù)據(jù)庫。
4.根據(jù)權(quán)利要求I至3中任一項(xiàng)所述的數(shù)據(jù)倉庫管理系統(tǒng),其特征在于,所述數(shù)據(jù)分析單元包括 文件獲取子單元,用于調(diào)用數(shù)據(jù)分析工具,將需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù)文件映射為數(shù)據(jù)庫表; 數(shù)據(jù)獲取子單元,用于所述數(shù)據(jù)分析工具按照預(yù)設(shè)的選取規(guī)則,從所述數(shù)據(jù)庫表中選取需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù),并存儲(chǔ)至在所述HBase數(shù)據(jù)庫中建立的臨時(shí)表中; 分析處理子單元,用于所述數(shù)據(jù)分析工具在自身對(duì)應(yīng)的存儲(chǔ)空間中建立二維表,并在所述臨時(shí)表與所述二維表之間建立關(guān)聯(lián),以使得對(duì)所述臨時(shí)表中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析后,將分析結(jié)果存儲(chǔ)至所述二維表中; 結(jié)果存儲(chǔ)子單元,用于將存儲(chǔ)有所述分析結(jié)果的二維表存儲(chǔ)至所述HBase數(shù)據(jù)庫中。
5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)倉庫管理系統(tǒng),其特征在于,所述結(jié)果展示單元包括 報(bào)表展示子單元,用于按照預(yù)設(shè)的語義模型,從所述數(shù)據(jù)挖掘分析的分析結(jié)果中提取需要展示的數(shù)據(jù),生成數(shù)據(jù)模型,并按照預(yù)設(shè)的報(bào)表格式進(jìn)行展示。
6.一種數(shù)據(jù)倉庫管理方法,其特征在于,包括 步驟202,建立HBase數(shù)據(jù)庫,并將事務(wù)型數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)移至所述HBase數(shù)據(jù)庫中; 步驟204,對(duì)所述HBase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析; 步驟206,展現(xiàn)所述數(shù)據(jù)挖掘分析的分析結(jié)果。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)倉庫管理方法,其特征在于,所述步驟202還包括 按照預(yù)設(shè)的過濾規(guī)則對(duì)來自所述事務(wù)性數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行過濾,并將得到的過濾后數(shù)據(jù)轉(zhuǎn)移至所述HBase數(shù)據(jù)庫中。
8.根據(jù)權(quán)利要求7所述的數(shù)據(jù)倉庫管理方法,其特征在于,所述步驟202還包括 獲取目標(biāo)數(shù)據(jù)格式,并將所述過濾后數(shù)據(jù)轉(zhuǎn)換為所述目標(biāo)數(shù)據(jù)格式后,存儲(chǔ)至所述HBase數(shù)據(jù)庫。
9.根據(jù)權(quán)利要求6至8中任一項(xiàng)所述的數(shù)據(jù)倉庫管理方法,其特征在于,所述步驟204包括 調(diào)用數(shù)據(jù)分析工具,將需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù)文件映射為數(shù)據(jù)庫表; 所述數(shù)據(jù)分析工具按照預(yù)設(shè)的選取規(guī)則,從所述數(shù)據(jù)庫表中選取需要進(jìn)行數(shù)據(jù)挖掘分析的數(shù)據(jù),并存儲(chǔ)至在所述HBase數(shù)據(jù)庫中建立的臨時(shí)表中; 所述數(shù)據(jù)分析工具在自身對(duì)應(yīng)的存儲(chǔ)空間中建立二維表,并在所述臨時(shí)表與所述二維表之間建立關(guān)聯(lián),以使得對(duì)所述臨時(shí)表中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析后,將分析結(jié)果存儲(chǔ)至所述二維表中; 將存儲(chǔ)有所述分析結(jié)果的二維表存儲(chǔ)至所述HBase數(shù)據(jù)庫中。
10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)倉庫管理方法,其特征在于,所述步驟206包括按照預(yù)設(shè)的語義模型,從所述數(shù)據(jù)挖掘分析的分析結(jié)果中提取需要展示的數(shù)據(jù),生成數(shù)據(jù)模型,并按照預(yù)設(shè)的報(bào)表格式進(jìn)行展示。
全文摘要
本發(fā)明提供了一種數(shù)據(jù)倉庫管理系統(tǒng),包括數(shù)據(jù)庫建立單元,用于建立HBase數(shù)據(jù)庫,并將事務(wù)型數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)移至所述HBase數(shù)據(jù)庫中;數(shù)據(jù)分析單元,用于對(duì)所述HBase數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析;結(jié)果展現(xiàn)單元,用于展現(xiàn)所述數(shù)據(jù)挖掘分析的分析結(jié)果。本發(fā)明還提出了一種數(shù)據(jù)倉庫管理方法。通過本發(fā)明的技術(shù)方案,可以具備良好的擴(kuò)展性,尤其對(duì)海量數(shù)據(jù)的支持效果極佳。
文檔編號(hào)G06F17/30GK102880709SQ201210372319
公開日2013年1月16日 申請(qǐng)日期2012年9月28日 優(yōu)先權(quán)日2012年9月28日
發(fā)明者王洪吉 申請(qǐng)人:用友軟件股份有限公司