一種海量數(shù)據(jù)快速查詢的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)查方法,具體涉及一種海量數(shù)據(jù)快速查詢的方法。
【背景技術(shù)】
[0002]在科技高速發(fā)展的今天,互聯(lián)網(wǎng)以不同的方式影響著我們的生活,人們的學習、工作和生活已經(jīng)離不開互聯(lián)網(wǎng)。人們可以通過網(wǎng)絡(luò)相互交流、工作,尋找有價值的數(shù)據(jù),從而提升我們的工作效率及生活水平,改善人們的生活方式及工作學習方式。但隨著網(wǎng)絡(luò)時代的快速發(fā)展,每天產(chǎn)生的數(shù)據(jù)呈現(xiàn)指數(shù)型的劇增。通過分析大數(shù)據(jù),可以方便用戶應(yīng)對工作中的困難,如發(fā)現(xiàn)工作中的缺陷、流程業(yè)務(wù)的不足等,從而修正缺陷,提供良好的服務(wù)。分析處理海量數(shù)據(jù)可以幫助企業(yè)或個人甚至國家解決難題,使得他們更快的做出決策。但是在大量的數(shù)據(jù)中,收集、存儲、處理等過程都帶來了巨大的挑戰(zhàn),單臺的計算機已經(jīng)無法滿足現(xiàn)狀,傳統(tǒng)的計算處理數(shù)據(jù)也無法滿足海量數(shù)據(jù)的需求,能夠快速提取海量數(shù)據(jù)中的有用信息是至關(guān)重要的。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的技術(shù)任務(wù)是針對現(xiàn)有技術(shù)的不足,提供一種海量數(shù)據(jù)快速查詢的方法。本方法使用快速數(shù)據(jù)利用及并行處理的思想,采用了基于內(nèi)存計算的分布式框架的查詢方式,實現(xiàn)了一種海量數(shù)據(jù)快速查詢的方法,從而提高查詢數(shù)據(jù)效率,充分利用計算機資源。[0004 ]本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種海量數(shù)據(jù)快速查詢的方法,采用基于內(nèi)存計算的分布式框架的查詢方式,實現(xiàn)海量數(shù)據(jù)快速查詢的方法,提高查詢數(shù)據(jù)效率,充分利用計算機資源;該方法的設(shè)計結(jié)構(gòu)包括:基于內(nèi)存集群模塊、分布式處理模塊。
[0005]基于內(nèi)存集群模塊是通過將數(shù)據(jù)導入到內(nèi)存,允許內(nèi)存中保存數(shù)據(jù)集,方便高效地重復利用,減少了磁盤中數(shù)據(jù)切換到內(nèi)存的開銷,加快了運行速度。
[0006]分布式處理模塊是通過查詢編譯器解析查詢語句并生成對應(yīng)的抽象語法樹,然后將其轉(zhuǎn)化為邏輯計劃及基本邏輯優(yōu)化,優(yōu)化器將應(yīng)用優(yōu)化規(guī)則到各個獨立的分區(qū)中,創(chuàng)建相應(yīng)的物理計劃,最后通過現(xiàn)有的操作分布式的執(zhí)行相應(yīng)的物理計劃,數(shù)據(jù)可以并行查詢處理,提高查詢效率。
[0007]本發(fā)明的一種海量數(shù)據(jù)快速查詢的方法與現(xiàn)有技術(shù)相比,所產(chǎn)生的有益效果是,
(1)允許數(shù)據(jù)在內(nèi)存中保存并高效地重復利用,保證了數(shù)據(jù)在處理過程中的快速及高效;
(2)使用分布式處理數(shù)據(jù)的模式,使得數(shù)據(jù)可以并行查詢處理,大大提高了查詢效率。
【附圖說明】
[0008]附圖1一種海量數(shù)據(jù)快速查詢方法的框架圖;
附圖2—種海量數(shù)據(jù)快速查詢方法的流程圖。
【具體實施方式】
[0009]下面結(jié)合附圖對本發(fā)明的一種海量數(shù)據(jù)快速查詢的方法作以下詳細地說明。
[0010]一種海量數(shù)據(jù)快速查詢的方法,采用基于內(nèi)存計算的分布式框架的查詢方式,實現(xiàn)海量數(shù)據(jù)快速查詢的方法,提高查詢數(shù)據(jù)效率,充分利用計算機資源;該方法的設(shè)計結(jié)構(gòu)包括:基于內(nèi)存集群模塊、分布式處理模塊。
[0011]基于內(nèi)存集群模塊是通過將數(shù)據(jù)導入到內(nèi)存,允許內(nèi)存中保存數(shù)據(jù)集,方便高效地重復利用,減少了磁盤中數(shù)據(jù)切換到內(nèi)存的開銷,加快了運行速度。
[0012]分布式處理模塊是通過查詢編譯器解析查詢語句并生成對應(yīng)的抽象語法樹,然后將其轉(zhuǎn)化為邏輯計劃及基本邏輯優(yōu)化,優(yōu)化器將應(yīng)用優(yōu)化規(guī)則到各個獨立的分區(qū)中,創(chuàng)建相應(yīng)的物理計劃,最后通過現(xiàn)有的操作分布式的執(zhí)行相應(yīng)的物理計劃,數(shù)據(jù)可以并行查詢處理,提高查詢效率。
實施例
[0013]下面參照附圖,對本發(fā)明的內(nèi)容以一個具體實例來描述一種海量數(shù)據(jù)快速查詢的方法的過程。
[0014]正如
【發(fā)明內(nèi)容】
中所描述的,本發(fā)明中一種海量數(shù)據(jù)快速查詢方法的設(shè)計和實現(xiàn)包括兩個模塊,分別是基于內(nèi)存集群模塊和分布式處理模塊。一種海量數(shù)據(jù)快速查詢方法的框架圖如附圖1所示。
[0015]首先在五個節(jié)點的服務(wù)器上安裝操作系統(tǒng)Centos6.3,其中五個節(jié)點都是128G內(nèi)存。然后將五個節(jié)點設(shè)置成無密碼登陸,用于組建集群。按照Spark依賴的環(huán)境準備并安裝部署集群,同時安裝部署Shark。然后安裝hadoop組件如hdfs。此時,集群環(huán)境準備完畢。
[0016]—種海量數(shù)據(jù)快速查詢方法的流程圖如附圖2所示,將查詢的數(shù)據(jù)集導入到一張表中,使用CREATE TABLE語句,通過LOAD DATA加載數(shù)據(jù)所在的文件路徑。然后創(chuàng)建現(xiàn)有表的緩存表,并設(shè)置屬性"shark, cache" = 〃true〃。通過SQL語句對表進行相應(yīng)的查詢。Shark可以通過SQL語句進行解析并將執(zhí)行相應(yīng)的物理計劃,完成快速的查詢,提高查詢效率。
【主權(quán)項】
1.一種海量數(shù)據(jù)快速查詢的方法,其特征在于采用基于內(nèi)存計算的分布式框架的查詢方式,實現(xiàn)海量數(shù)據(jù)快速查詢的方法,提高查詢數(shù)據(jù)效率,充分利用計算機資源;該方法的設(shè)計結(jié)構(gòu)包括:基于內(nèi)存集群模塊、分布式處理模塊; 基于內(nèi)存集群模塊是通過將數(shù)據(jù)導入到內(nèi)存,允許內(nèi)存中保存數(shù)據(jù)集,方便高效地重復利用,減少了磁盤中數(shù)據(jù)切換到內(nèi)存的開銷,加快了運行速度; 分布式處理模塊是通過查詢編譯器解析查詢語句并生成對應(yīng)的抽象語法樹,然后將其轉(zhuǎn)化為邏輯計劃及基本邏輯優(yōu)化,優(yōu)化器將應(yīng)用優(yōu)化規(guī)則到各個獨立的分區(qū)中,創(chuàng)建相應(yīng)的物理計劃,最后通過現(xiàn)有的操作分布式的執(zhí)行相應(yīng)的物理計劃,數(shù)據(jù)可以并行查詢處理,提高查詢效率。
【專利摘要】本發(fā)明提供一種海量數(shù)據(jù)快速查詢的方法,采用基于內(nèi)存計算的分布式框架的查詢方式,實現(xiàn)海量數(shù)據(jù)快速查詢的方法,提高查詢數(shù)據(jù)效率,充分利用計算機資源;該方法的設(shè)計結(jié)構(gòu)包括:基于內(nèi)存集群模塊、分布式處理模塊。本發(fā)明的結(jié)構(gòu)設(shè)計主要考慮海量數(shù)據(jù)查詢不便的問題。為了使得海量數(shù)據(jù)查詢過程更加便捷、高效,本文使用快速數(shù)據(jù)利用及并行處理的思想,采用了基于內(nèi)存計算的分布式框架的查詢方式,實現(xiàn)了一種海量數(shù)據(jù)快速查詢的方法。從而提高查詢數(shù)據(jù)效率,充分利用計算機資源。
【IPC分類】G06F17/30
【公開號】CN105488155
【申請?zhí)枴緾N201510850706
【發(fā)明人】孫志云, 郭美思
【申請人】浪潮集團有限公司
【公開日】2016年4月13日
【申請日】2015年11月30日