亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取系統(tǒng)及方法

文檔序號:6552503閱讀:740來源:國知局
基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取系統(tǒng)及方法,包括數(shù)據(jù)采集模塊、數(shù)據(jù)存儲模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)分析處理模塊、Hbase分布式數(shù)據(jù)庫以及數(shù)據(jù)展示模塊;數(shù)據(jù)采集模塊與數(shù)據(jù)存儲模塊連接,數(shù)據(jù)存儲模塊連接經(jīng)過數(shù)據(jù)清洗模塊與數(shù)據(jù)查詢分析模塊連接,所述數(shù)據(jù)查詢分析模塊與Hbase分布式數(shù)據(jù)庫和數(shù)據(jù)展示模塊分別連接,本發(fā)明有益效果:Hadoop集群可由成百上千的廉價服務(wù)器組成,構(gòu)建在大規(guī)模廉價機器上的分布式文件系統(tǒng)集群,使得數(shù)據(jù)抽取、分析的成本得到很大程度的降低,并且可以對門診大數(shù)據(jù)進行并行處理。同時,HDFS的副本存放策略很好的保證了數(shù)據(jù)的可靠性和安全性。
【專利說明】基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取系統(tǒng)及方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于hadoop平臺的醫(yī)療保險門診大數(shù)據(jù)抽取系統(tǒng)及方法。

【背景技術(shù)】
[0002] 隨著醫(yī)療信息化的發(fā)展以及醫(yī)療保險制度在全國范圍內(nèi)的廣泛開展,關(guān)于醫(yī)療保 險的數(shù)據(jù)呈海量增長,而且這些數(shù)據(jù)往往需要很長的保存期,如參保人員的基本信息可能 要保存70至80年,甚至更長,而隨著人口的增加,對數(shù)據(jù)存儲空間的需求會越來越大,傳統(tǒng) 的關(guān)系數(shù)據(jù)庫恐怕難以滿足存儲需求。而且,對這些海量數(shù)據(jù)進行分析處理,從而獲取所蘊 含的的有用信息也是十分必要的。而傳統(tǒng)的對大規(guī)模數(shù)據(jù)處理大多數(shù)使用分布式的高性能 計算、網(wǎng)格計算等技術(shù),需要耗費昂貴的計算資源,而且如何把大規(guī)模的數(shù)據(jù)進行有效分割 和計算任務(wù)的合理分配都需要繁瑣的編程才能實現(xiàn),Hadoop分布式技術(shù)的發(fā)展正好可以解 決以上問題。
[0003] Hadoop是Apache開源組織的一個分布式計算框架,可以在大量廉價的硬件設(shè)備 組成的集群上運行應用程序,構(gòu)建一個高可靠性和良好擴展性的并行分布式系統(tǒng)。HDFS、 MapReduce編程模型和Hbase分布式數(shù)據(jù)庫是其三大核心技術(shù)。其中,HBase - Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可 在廉價PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。
[0004] Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張 數(shù)據(jù)庫表,并提供完整的SQL查詢功能,可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進行運行。
[0005] Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合 和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume 提供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。
[0006] 由于hadoop分布式技術(shù)的強大優(yōu)勢,它也受到了學術(shù)界的廣泛關(guān)注。國內(nèi)的眾多 高校和科研院所基于Hadoop在數(shù)據(jù)存儲、資源管理、作業(yè)調(diào)度、性能優(yōu)化、系統(tǒng)高可用性和 安全性等方面都展開了相關(guān)研究,并且發(fā)表了多項專利。
[0007] 在專利【2011104189589】中,基于Hadoop的分布式日志分析系統(tǒng)通過分布式文件 系統(tǒng)將格式化的日志數(shù)據(jù)進行分塊,并且利用Map-Reduce程序?qū)θ罩镜膬?nèi)容進行并行解 析處理。但由于醫(yī)保門診數(shù)據(jù)比較復雜,一條記錄可能有多個屬性,所以僅僅通過簡單的 Map-Reduce處理并不能滿足醫(yī)保門診大數(shù)據(jù)處理的需求。
[0008] 在專利【CN2013103361473】中,基于Hadoop平臺的電信運營商海量數(shù)據(jù)處理方法 首先使用Sqoop工具將原始數(shù)據(jù)抽取到Hadoop本地服務(wù)器的HDFS中,然后將源數(shù)據(jù)轉(zhuǎn)換 后裝載到Hive的目標表中,最后根據(jù)需求編寫Hive查詢語句或者MapReduce程序?qū)δ繕?表中的數(shù)據(jù)進行查詢分析。但Sqoop工具僅限于Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn) 移,不能夠?qū)?shù)據(jù)進行分析以及過濾,不能夠?qū)⒂袃r值的醫(yī)療數(shù)據(jù)篩選出來。


【發(fā)明內(nèi)容】

[0009] 本發(fā)明的目的就是為了解決上述問題,提出了一種基于hadoop平臺的醫(yī)保門診 大數(shù)據(jù)抽取系統(tǒng)及方法,存儲數(shù)據(jù)時使用hadoop集群,存儲容量大,存儲擴展性好,安全性 高;并且可以對存儲的醫(yī)保門診數(shù)據(jù)進行分析,將有價值的數(shù)據(jù)存儲到Hbase分布式數(shù)據(jù) 庫中,供用戶查詢獲取或通過工具展現(xiàn)給用戶。
[0010] 為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
[0011] 一種基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取系統(tǒng),包括數(shù)據(jù)采集模塊、數(shù)據(jù)存儲 模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)分析處理模塊、Hbase分布式數(shù)據(jù)庫以及數(shù)據(jù)展示模塊;
[0012] 所述數(shù)據(jù)采集模塊用于從業(yè)務(wù)數(shù)據(jù)庫中抽取數(shù)據(jù),并存儲到數(shù)據(jù)存儲模塊;
[0013] 所述數(shù)據(jù)存儲模塊用于將數(shù)據(jù)采集模塊抽取到的數(shù)據(jù)以數(shù)據(jù)塊的形式分布式存 儲到hadoop集群中的各個數(shù)據(jù)節(jié)點中;
[0014] 所述數(shù)據(jù)清洗模塊用于根據(jù)設(shè)定的清洗規(guī)則,將數(shù)據(jù)存儲模塊中錯誤的或者不一 致的"臟數(shù)據(jù)"過濾掉,并將合格的數(shù)據(jù)傳送至數(shù)據(jù)查詢分析模塊;
[0015] 所述數(shù)據(jù)查詢分析模塊使用Hive進行數(shù)據(jù)倉庫建模,并提供用于客戶端進行 數(shù)據(jù)查詢的SQL解析引擎;經(jīng)數(shù)據(jù)查詢分析模塊分析后的有價值的醫(yī)保門診數(shù)據(jù)存儲到 Hbase分布式數(shù)據(jù)庫中,供客戶端查詢;
[0016] 所述Hbase分布式數(shù)據(jù)庫用于存儲數(shù)據(jù)查詢分析模塊中的提取出的用于數(shù)據(jù)展 示的醫(yī)保門診數(shù)據(jù);
[0017] 所述的數(shù)據(jù)展示模塊用于將所需數(shù)據(jù)以圖形化的形式在客戶端進行展示;
[0018] 所述數(shù)據(jù)采集模塊與數(shù)據(jù)存儲模塊連接,數(shù)據(jù)存儲模塊連接經(jīng)過數(shù)據(jù)清洗模塊與 數(shù)據(jù)查詢分析模塊連接,所述數(shù)據(jù)查詢分析模塊與Hbase分布式數(shù)據(jù)庫和數(shù)據(jù)展示模塊分 別連接。
[0019] 所述數(shù)據(jù)采集模塊使用Cloudera提供的flume日志采集工具進行數(shù)據(jù)采集。
[0020] 所述數(shù)據(jù)分析模塊使用Hive進行數(shù)據(jù)庫建模,并與Hbase整合,充當SQL解析引 擎,應用程序端能夠根據(jù)具體業(yè)務(wù)需求,編寫Hive查詢語句或者MapReduce程序?qū)?shù)據(jù)進 行查詢分析。
[0021] 所述數(shù)據(jù)存儲模塊為分布式文件系統(tǒng)HDFS。
[0022] 一種基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取方法,包括以下步驟:
[0023] 1)使用Flume工具采集數(shù)據(jù),在hadoop集群中選擇至少兩個節(jié)點分別作為用于從 業(yè)務(wù)數(shù)據(jù)源上傳數(shù)據(jù)的Agent和用于將Agent傳來的數(shù)據(jù)進行簡單處理后存儲到數(shù)據(jù)存儲 模塊的 collector ;
[0024] 2)分別配置Agent和Collector的數(shù)據(jù)源和數(shù)據(jù)輸出;
[0025] 3)配置成功后,系統(tǒng)自動從Agent傳輸數(shù)據(jù)到對應的collector, collector將收 集到的數(shù)據(jù)匯總后以數(shù)據(jù)塊的形式存儲到HDFS分布式文件系統(tǒng)中。
[0026] 4)對存儲在HDFS中的數(shù)據(jù)進行數(shù)據(jù)清洗,將錯誤的、缺失的或者重復的數(shù)據(jù)過濾 出來;
[0027] 5)根據(jù)業(yè)務(wù)需求和數(shù)據(jù)模型,在Hive數(shù)據(jù)倉庫中進行建模,創(chuàng)建與抽取到的數(shù)據(jù) 對應的事實表和維度表,并將HDFS中的數(shù)據(jù)文件導入到Hive數(shù)據(jù)倉庫中對應的事實表和 維度表里;
[0028] 6)對數(shù)據(jù)倉庫中的數(shù)據(jù)進行0LAP分析,并將分析結(jié)果中用于展示的數(shù)據(jù)寫入 Hbase分布式數(shù)據(jù)庫中;
[0029] 7)應用程序端或報表系統(tǒng)通過Hbase分布式數(shù)據(jù)庫查詢數(shù)據(jù)并展現(xiàn)。
[0030] 所述步驟2)中,F(xiàn)lume Agent的數(shù)據(jù)源為待抽取的醫(yī)保數(shù)據(jù)文件,數(shù)據(jù)輸出為對 應collector節(jié)點的機器名和數(shù)據(jù)傳輸?shù)亩丝谔?;collector的數(shù)據(jù)源為用于接收數(shù)據(jù)的 端口號,數(shù)據(jù)輸出為集群中用于存儲數(shù)據(jù)的HDFS目錄。
[0031] 所述步驟5)中,事實表即是數(shù)據(jù)倉庫中用于保存業(yè)務(wù)數(shù)據(jù)的表,表的每個字段要 與被抽取的業(yè)務(wù)數(shù)據(jù)源的字段相對應;維度表是數(shù)據(jù)倉庫中用于描述事實數(shù)據(jù)表中的數(shù)據(jù) 的表。
[0032] 所述步驟6)中,根據(jù)具體業(yè)務(wù)需求,在客戶端編寫HiveQL查詢語句或者 MapReduce程序?qū)?shù)據(jù)倉庫中的數(shù)據(jù)進行0LAP分析,并將分析結(jié)果中用于展示的數(shù)據(jù)以 Key-Value的形式寫入Hbase分布式數(shù)據(jù)庫中。
[0033] 所述步驟6)中,對門診醫(yī)療數(shù)據(jù)進行0LAP分析主要是通過HiveQL查詢語句或者 編寫MapReduce并行程序,對Hive數(shù)據(jù)倉庫中的事實表和維度表做關(guān)聯(lián)進行多維分析,從 而統(tǒng)計出各個維度的相關(guān)信息,展現(xiàn)給用戶。
[0034] 本發(fā)明的有益效果是:
[0035] 由于Hadoop將海量的數(shù)據(jù)文件分發(fā)到集群中每個數(shù)據(jù)節(jié)點上,而每個節(jié)點只需 計算處理少部分數(shù)據(jù),并且每個節(jié)點在進行數(shù)據(jù)計算分析時是并行處理的,這大大的提高 了處理數(shù)據(jù)的速率。
[0036] Hadoop集群可由成百上千的服務(wù)器組成,構(gòu)建在大規(guī)模廉價機器上的分布式文件 系統(tǒng)集群,數(shù)據(jù)存儲管理的成本得到很大程度的降低。而且,HDFS的副本存放策略很好的 保證了數(shù)據(jù)的可靠性和安全性。
[0037] 本系統(tǒng)使用的數(shù)據(jù)采集工具flume是一個高可用的,高可靠的,分布式的海量日 志采集、聚合和傳輸?shù)南到y(tǒng)。它支持在系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時提 供對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。
[0038] 另外,在存儲和查詢分析數(shù)據(jù)時,將Hbase和Hive整合,既可以充分利用Hbase 分布式存儲數(shù)據(jù)的好處,又可以讓Hive充當SQL解析引擎,將SQL語句轉(zhuǎn)譯成M/RJ0B在 Hadoop執(zhí)行,充分利用hadoop集群的并行資源,提高效率。
[0039] 最后,基于Hadoop的分布式集群架構(gòu)還可以用于處理其他海量數(shù)據(jù)上去,使本系 統(tǒng)具有良好的擴展性。

【專利附圖】

【附圖說明】
[0040] 圖1為本發(fā)明的基于Hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取系統(tǒng)的整體架構(gòu)圖;
[0041] 圖2為本發(fā)明的基于Hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取系統(tǒng)的流程圖;
[0042] 圖3為本發(fā)明的實施例中搭建的Hadoop集群部署圖。

【具體實施方式】:
[0043] 下面結(jié)合附圖與實施例對本發(fā)明做進一步說明:
[0044] 其中,0LAP(On-Line Analysis Processing)為聯(lián)機分析處理;
[0045] HiveQL是一種類似SQL的語言,它與大部分的SQL語法兼容;
[0046] MapReduce是Google提出的一個軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行 運算。
[0047] -種基于Hadoop的醫(yī)保門診大數(shù)據(jù)抽取系統(tǒng),如圖1所示,由數(shù)據(jù)采集模塊,數(shù)據(jù) 存儲模塊,數(shù)據(jù)分析處理模塊以及數(shù)據(jù)展示模塊四部分組成。
[0048] 所述的數(shù)據(jù)抽取模塊,主要負責從業(yè)務(wù)數(shù)據(jù)源抽取醫(yī)保相關(guān)數(shù)據(jù)到HDFS中,它使 用Cloudera提供的flume日志采集工具,其中,F(xiàn)lume agent用于從數(shù)據(jù)源上傳數(shù)據(jù),F(xiàn)lume collector用于將多個agent上傳的數(shù)據(jù)匯總存儲在HDFS分布式文件系統(tǒng)中。
[0049] 所述的數(shù)據(jù)存儲模塊,主要負責存儲數(shù)據(jù),抽取的數(shù)據(jù)以數(shù)據(jù)塊的形式分布式存 儲到集群中各個數(shù)據(jù)節(jié)點中,由名稱節(jié)點統(tǒng)一管理;另外,經(jīng)分析處理后,有價值的數(shù)據(jù)將 被存儲在Hbase分布式數(shù)據(jù)庫中,供用戶查詢。
[0050] 所述的數(shù)據(jù)清洗模塊,主要負責將抽取到的數(shù)據(jù)根據(jù)一定的清洗規(guī)則,將錯誤的 或者不一致的"臟數(shù)據(jù)"過濾掉,便于寫入數(shù)據(jù)倉庫。
[0051] 所述的數(shù)據(jù)分析處理模塊,主要負責數(shù)據(jù)倉庫建模以及查詢分析數(shù)據(jù)以提取有價 值的數(shù)據(jù),本系統(tǒng)使用Hive進行數(shù)據(jù)倉庫建模,并與Hbase整合,充當SQL解析器,應用程 序端可根據(jù)具體業(yè)務(wù)需求,編寫Hive查詢語句或MapReduce程序?qū)?shù)據(jù)進行查詢分析。
[0052] 所述的數(shù)據(jù)展示模塊,主要負責與用戶進行交互,利用BIRT等開源報表系統(tǒng),將 存儲在Hbase中的數(shù)據(jù)以圖形化的形式展現(xiàn)給用戶。
[0053] 基于hadoop的醫(yī)保大數(shù)據(jù)抽取系統(tǒng)的方法,如圖2所示,它包括以下步驟:
[0054] 步驟101,為集群中各個節(jié)點分配在數(shù)據(jù)采集過程中所承擔的角色,將集群中至少 一個節(jié)點配置為Flume Agent,至少一個節(jié)點為Flume collector。
[0055] 步驟102,配置Agent的數(shù)據(jù)源source為待抽取的醫(yī)保門診數(shù)據(jù)文件,sink為對 應collector節(jié)點機器名和數(shù)據(jù)傳輸?shù)亩丝谔?。配置Flume collector的source為接收 數(shù)據(jù)的端口號,sink為數(shù)據(jù)存儲的HDFS目錄。
[0056] 步驟103,配置成功后,系統(tǒng)自動從Agent傳輸數(shù)據(jù)到對應的collector。 collector將收集到的數(shù)據(jù)匯總后以數(shù)據(jù)塊的形式存儲到HDFS分布式文件系統(tǒng)中。
[0057] 步驟104,數(shù)據(jù)寫入數(shù)據(jù)倉庫之前,編寫MapReduce程序?qū)Υ鎯υ贖DFS中的數(shù)據(jù)進 行數(shù)據(jù)清洗,將錯誤的、缺失的或者不一致的數(shù)據(jù)過濾出來。
[0058] 步驟105,根據(jù)業(yè)務(wù)需求和數(shù)據(jù)模型,在Hive數(shù)據(jù)倉庫中進行建模,創(chuàng)建和HDFS中 數(shù)據(jù)對應的事實表和維度表,如醫(yī)保人員基本信息表(PersonFact Table)、人員性別維度 表、教育程度維度表等。
[0059] 步驟106,使用Load命令將HDFS中的數(shù)據(jù)文件導入到Hive對應的事實表里。
[0060] 步驟107,根據(jù)具體業(yè)務(wù)需求,編寫Hive查詢語句或者MapReduce程序?qū)κ聦?表中的數(shù)據(jù)進行查詢分析,提取有用的信息。在執(zhí)行Hive查詢語句時,Hive自動調(diào)用了 Hadoop的Map/Reduce來進行并行計算,充分體現(xiàn)了集群的優(yōu)勢。
[0061] 步驟108,將步驟106查詢分析結(jié)果中有價值的數(shù)據(jù)以key-value的形式存儲到 Hbase分布式數(shù)據(jù)庫中。
[0062] 步驟109,使用開源的報表系統(tǒng)如BIRT通過Hbase查詢數(shù)據(jù)并以圖形化的界面展 現(xiàn)給用戶。
[0063] 在實施過程中,至少需要4臺服務(wù)器來搭建hadoop集群,如圖3所示。其中一 臺作為中心服務(wù)器(Master),有名稱空間節(jié)點NameNode和分配任務(wù)的功能;一臺作為 Secondary Master,其上部署SecondaryNameNode,用于NameNode的備份和故障恢復;其 他幾臺機器為從屬服務(wù)器(Slaves),有數(shù)據(jù)節(jié)點和執(zhí)行任務(wù)的功能。另外,在Master上 還需要部署 flume-master, hive-master, hbase-master, zookeeper-server 等月艮務(wù),用于 管理協(xié)調(diào)相關(guān)工具的使用過程。在其他節(jié)點上部署flume-node, hbase-regionServer和 zookeeper-server,分別用于數(shù)據(jù)采集,對Client端插入,刪除,查詢數(shù)據(jù)等提供服務(wù),以 及對系統(tǒng)中各種服務(wù)進行協(xié)調(diào)與配置等。
[〇〇64] 上述雖然結(jié)合附圖對本發(fā)明的【具體實施方式】進行了描述,但并非對本發(fā)明保護范 圍的限制,所屬領(lǐng)域技術(shù)人員應該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不 需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護范圍以內(nèi)。
【權(quán)利要求】
1. 一種基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取系統(tǒng),其特征是,包括數(shù)據(jù)采集模塊、 數(shù)據(jù)存儲模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)分析處理模塊、Hbase分布式數(shù)據(jù)庫以及數(shù)據(jù)展示模 塊; 所述數(shù)據(jù)采集模塊用于從業(yè)務(wù)數(shù)據(jù)庫中抽取數(shù)據(jù),并存儲到數(shù)據(jù)存儲模塊; 所述數(shù)據(jù)存儲模塊用于將數(shù)據(jù)采集模塊抽取到的數(shù)據(jù)以數(shù)據(jù)塊的形式分布式存儲到 hadoop集群中的各個數(shù)據(jù)節(jié)點中; 所述數(shù)據(jù)清洗模塊用于根據(jù)設(shè)定的清洗規(guī)則,將數(shù)據(jù)存儲模塊中錯誤的或者不一致的 "臟數(shù)據(jù)"過濾掉,并將合格的數(shù)據(jù)傳送至數(shù)據(jù)查詢分析模塊; 所述數(shù)據(jù)查詢分析模塊使用Hive進行數(shù)據(jù)倉庫建模,并提供用于客戶端進行數(shù)據(jù)查 詢的SQL解析引擎;經(jīng)數(shù)據(jù)查詢分析模塊分析后的有價值的醫(yī)保門診數(shù)據(jù)存儲到Hbase分 布式數(shù)據(jù)庫中,供客戶端查詢; 所述Hbase分布式數(shù)據(jù)庫用于存儲數(shù)據(jù)查詢分析模塊中的提取出的用于數(shù)據(jù)展示的 醫(yī)保門診數(shù)據(jù); 所述的數(shù)據(jù)展示模塊用于將所需數(shù)據(jù)以圖形化的形式在客戶端進行展示; 所述數(shù)據(jù)采集模塊與數(shù)據(jù)存儲模塊連接,數(shù)據(jù)存儲模塊連接經(jīng)過數(shù)據(jù)清洗模塊與數(shù)據(jù) 查詢分析模塊連接,所述數(shù)據(jù)查詢分析模塊與Hbase分布式數(shù)據(jù)庫和數(shù)據(jù)展示模塊分別連 接。
2. 如權(quán)利要求1所述的一種基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取系統(tǒng),其特征是, 所述數(shù)據(jù)采集模塊使用Cloudera提供的flume日志采集工具進行數(shù)據(jù)采集。
3. 如權(quán)利要求1所述的一種基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取系統(tǒng),其特征是, 所述數(shù)據(jù)分析模塊使用Hive進行數(shù)據(jù)庫建模,并與Hbase整合,充當SQL解析引擎,應用程 序端能夠根據(jù)具體業(yè)務(wù)需求,編寫Hive查詢語句或者MapReduce程序?qū)?shù)據(jù)進行查詢分 析。
4. 如權(quán)利要求1所述的基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取系統(tǒng),其特征是,所述 數(shù)據(jù)存儲模塊為分布式文件系統(tǒng)HDFS。
5. -種如權(quán)利要求1所述的基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取方法,其特征是, 包括以下步驟: 1) 使用Flume工具采集數(shù)據(jù),在hadoop集群中選擇至少兩個節(jié)點分別作為用于從業(yè)務(wù) 數(shù)據(jù)源上傳數(shù)據(jù)的Agent和用于將Agent傳來的數(shù)據(jù)進行簡單處理后存儲到數(shù)據(jù)存儲模塊 的 collector ; 2) 分別配置Agent和Collector的數(shù)據(jù)源和數(shù)據(jù)輸出; 3) 配置成功后,系統(tǒng)自動從Agent傳輸數(shù)據(jù)到對應的collector, collector將收集到 的數(shù)據(jù)匯總后以數(shù)據(jù)塊的形式存儲到HDFS分布式文件系統(tǒng)中。 4) 對存儲在HDFS中的數(shù)據(jù)進行數(shù)據(jù)清洗,將錯誤的、缺失的或者重復的數(shù)據(jù)過濾出 來; 5) 根據(jù)業(yè)務(wù)需求和數(shù)據(jù)模型,在Hive數(shù)據(jù)倉庫中進行建模,創(chuàng)建與抽取到的數(shù)據(jù)對應 的事實表和維度表,并將HDFS中的數(shù)據(jù)文件導入到Hive數(shù)據(jù)倉庫中對應的事實表和維度 表里; 6) 對數(shù)據(jù)倉庫中的數(shù)據(jù)進行0LAP分析,并將分析結(jié)果中用于展示的數(shù)據(jù)寫入Hbase分 布式數(shù)據(jù)庫中; 7)應用程序端或報表系統(tǒng)通過Hbase分布式數(shù)據(jù)庫查詢數(shù)據(jù)并展現(xiàn)。
6. 如權(quán)利要求5所述的一種基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取方法,其特征 是,所述步驟2)中,F(xiàn)lume Agent的數(shù)據(jù)源為待抽取的醫(yī)保數(shù)據(jù)文件,數(shù)據(jù)輸出為對應 collector節(jié)點的機器名和數(shù)據(jù)傳輸?shù)亩丝谔?;collector的數(shù)據(jù)源為用于接收數(shù)據(jù)的端 口號,數(shù)據(jù)輸出為集群中用于存儲數(shù)據(jù)的HDFS目錄。
7. 如權(quán)利要求5所述的一種基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取方法,其特征是, 所述步驟5)中,事實表即是數(shù)據(jù)倉庫中用于保存業(yè)務(wù)數(shù)據(jù)的表,表的每個字段要與被抽取 的業(yè)務(wù)數(shù)據(jù)源的字段相對應;維度表是數(shù)據(jù)倉庫中用于描述事實數(shù)據(jù)表中的數(shù)據(jù)的表。
8. 如權(quán)利要求5所述的一種基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取方法,其特征是, 所述步驟6)中,根據(jù)具體業(yè)務(wù)需求,在客戶端編寫HiveQL查詢語句或者MapReduce程序?qū)?數(shù)據(jù)倉庫中的數(shù)據(jù)進行0LAP分析,并將分析結(jié)果中用于展示的數(shù)據(jù)以Key-Value的形式寫 入Hbase分布式數(shù)據(jù)庫中。
9. 如權(quán)利要求5所述的一種基于hadoop平臺的醫(yī)保門診大數(shù)據(jù)抽取方法,其特征 是,所述步驟6)中,對門診醫(yī)療數(shù)據(jù)進行0LAP分析主要是通過HiveQL查詢語句或者編寫 MapReduce并行程序,對Hive數(shù)據(jù)倉庫中的事實表和維度表做關(guān)聯(lián)進行多維分析,從而統(tǒng) 計出各個維度的相關(guān)信息,展現(xiàn)給用戶。
【文檔編號】G06F17/30GK104111996SQ201410320881
【公開日】2014年10月22日 申請日期:2014年7月7日 優(yōu)先權(quán)日:2014年7月7日
【發(fā)明者】孔蘭菊, 宋婷婷, 閆中敏, 李慶忠 申請人:山大地緯軟件股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1