亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于海量數(shù)據(jù)進行分布式比對碰撞方法

文檔序號:6631461閱讀:1758來源:國知局
一種基于海量數(shù)據(jù)進行分布式比對碰撞方法
【專利摘要】本發(fā)明涉及海量數(shù)據(jù)處理【技術(shù)領(lǐng)域】,特別涉及一種基于海量數(shù)據(jù)進行分布式比對碰撞方法。本發(fā)明是將關(guān)系型數(shù)據(jù)存儲到分布式存儲上,在進行數(shù)據(jù)查詢關(guān)聯(lián)時,利用分布式計算的方式來進行關(guān)聯(lián)查詢獲取結(jié)果。該方法充分利用了分布式計算,減小了傳統(tǒng)的數(shù)據(jù)庫存儲數(shù)據(jù)的查詢方式,為一些以前因數(shù)據(jù)量過大關(guān)聯(lián)過多而無法在數(shù)據(jù)庫中進行查詢的需求提供了新的技術(shù)方式。
【專利說明】一種基于海量數(shù)據(jù)進行分布式比對碰撞方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及海量數(shù)據(jù)處理【技術(shù)領(lǐng)域】,特別涉及一種基于海量數(shù)據(jù)進行分布式比對碰撞方法。

【背景技術(shù)】
[0002]由于信息化的迅速發(fā)展,數(shù)據(jù)量大幅度增加,基于大量數(shù)據(jù)的挖掘分析的功能的需要要逐漸增多。傳統(tǒng)的數(shù)據(jù)庫存儲方式在數(shù)據(jù)量不是太大(億級以下)、單表或少數(shù)表關(guān)聯(lián)查詢時,其查詢速度還尚可;但當(dāng)數(shù)據(jù)量過大并且關(guān)聯(lián)的表過多,再加之排序分組等復(fù)雜業(yè)務(wù)邏輯進行查詢時,其查詢速度是相當(dāng)長,對于應(yīng)用來說是無法忍受的。
[0003]目前的技術(shù)中,采用的方法一般包括以下:
1、首先要進行數(shù)據(jù)預(yù)處理,包括:數(shù)據(jù)清理(數(shù)據(jù)清理通過填寫空缺值,平滑噪聲數(shù)據(jù),識別刪除孤立點,并解決不一致來清理數(shù)據(jù),數(shù)據(jù)清理內(nèi)容包括:格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)清除、錯誤糾正、重復(fù)數(shù)據(jù)的清除);數(shù)據(jù)規(guī)約(數(shù)據(jù)集的壓縮表示,但是能和原始數(shù)據(jù)集達到相同或基本相同的分析結(jié)果,主要策略:數(shù)據(jù)聚集、維規(guī)約、數(shù)據(jù)壓縮、數(shù)值規(guī)約)等;
2、然后在查詢時,盡量避免使用低效率的查詢語句,像是orderby等。
[0004]但上述方法都無法從根本上解決海量數(shù)據(jù)的處理速度過慢的技術(shù)問題。


【發(fā)明內(nèi)容】

[0005]為了解決現(xiàn)有技術(shù)的問題,本發(fā)明提供了一種基于海量數(shù)據(jù)進行分布式比對碰撞方法,利用分布式存儲和計算,充分考慮了海量數(shù)據(jù)關(guān)聯(lián)查詢的查詢效率,為海量數(shù)據(jù)進行比對碰撞的應(yīng)用提供了技術(shù)方案。
[0006]本發(fā)明所采用的技術(shù)方案如下:
一種基于海量數(shù)據(jù)進行分布式比對碰撞方法,是將海量數(shù)據(jù)加載到分布式存儲中,并利用分布式計算的技術(shù),進行多表關(guān)聯(lián)查詢,并將結(jié)果快速輸出。
[0007]方法具體是:利用分布式存儲和計算,對海量數(shù)據(jù)進行關(guān)聯(lián)查詢最終輸出比對碰撞的結(jié)果。
[0008]包括以下步驟:
A、利用分布式存儲,在數(shù)據(jù)組織上按照業(yè)務(wù)數(shù)據(jù)產(chǎn)生的時間進行分區(qū)索引;
B、按照日或月或年的方式進行存儲,在關(guān)聯(lián)查詢時充分利用分區(qū)索引和分布式計算的查詢效率,將大量數(shù)據(jù)的查詢用最短的時間將結(jié)果展示。
[0009]本發(fā)明的方法是hadoop分布式體系中的數(shù)據(jù)倉庫工具Hive,將數(shù)據(jù)倉庫工具Hive做為數(shù)據(jù)源,利用分布式計算的技術(shù)impala來進行分布式計算,最終將查詢結(jié)果進行輸出。
[0010]本發(fā)明提供的技術(shù)方案帶來的有益效果是:
本發(fā)明的一種基于海量數(shù)據(jù)進行分布式比對碰撞方法,其大大提高了海量數(shù)據(jù)關(guān)聯(lián)查詢的速度,在原始的數(shù)據(jù)庫存儲數(shù)據(jù)基礎(chǔ)上,利用5個幾億數(shù)量級的表進行關(guān)聯(lián)查詢其查詢時間大約為20多小時,利用本發(fā)明只需60秒便可輸出查詢結(jié)果。

【具體實施方式】
[0011]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將對本發(fā)明實施方式作進一步地詳細(xì)描述。
[0012]實施例一
本實施例的一種基于海量數(shù)據(jù)進行分布式比對碰撞方法,是將海量數(shù)據(jù)加載到分布式存儲中,并利用分布式計算的技術(shù),進行多表關(guān)聯(lián)查詢,并將比對碰撞的結(jié)果快速輸出。
[0013]其方法具體包括以下步驟:
A、利用分布式存儲,在數(shù)據(jù)組織上按照業(yè)務(wù)數(shù)據(jù)產(chǎn)生的時間進行分區(qū)索引;
B、按照日或月或年的方式進行存儲,在關(guān)聯(lián)查詢時充分利用分區(qū)索引和分布式計算的查詢效率,將大量數(shù)據(jù)的查詢用最短的時間將結(jié)果展示。
[0014]本實施例的方法具體采用的是hadoop分布式體系中的數(shù)據(jù)倉庫工具Hive,將數(shù)據(jù)倉庫工具Hive做為數(shù)據(jù)源,利用分布式計算的技術(shù)impala來進行分布式計算,最終將查詢結(jié)果進行輸出。
[0015]以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種基于海量數(shù)據(jù)進行分布式比對碰撞方法,是將海量數(shù)據(jù)加載到分布式存儲中,并利用分布式計算的技術(shù),進行多表關(guān)聯(lián)查詢,并將結(jié)果快速輸出。
2.根據(jù)權(quán)利要求1所述的一種基于海量數(shù)據(jù)進行分布式比對碰撞方法,其特征在于,所述的方法具體是:利用分布式存儲和計算,對海量數(shù)據(jù)進行關(guān)聯(lián)查詢最終輸出比對碰撞的結(jié)果。
3.根據(jù)權(quán)利要求1所述的一種基于海量數(shù)據(jù)進行分布式比對碰撞方法,其特征在于,所述的方法具體包括以下步驟: A、利用分布式存儲,在數(shù)據(jù)組織上按照業(yè)務(wù)數(shù)據(jù)產(chǎn)生的時間進行分區(qū)索引; B、按照日或月或年的方式進行存儲,在關(guān)聯(lián)查詢時充分利用分區(qū)索引和分布式計算的查詢效率,將大量數(shù)據(jù)的查詢用最短的時間將結(jié)果展示。
4.根據(jù)權(quán)利要求1-3中任意一項所述的一種基于海量數(shù)據(jù)進行分布式比對碰撞方法,其特征在于,所述的方法在數(shù)據(jù)存儲上選用的是hadoop分布式體系中的數(shù)據(jù)倉庫工具Hive,將數(shù)據(jù)倉庫工具Hive做為數(shù)據(jù)源,利用分布式計算的技術(shù)impala來進行分布式計算,最終將查詢結(jié)果進行輸出。
【文檔編號】G06F17/30GK104317896SQ201410574493
【公開日】2015年1月28日 申請日期:2014年10月24日 優(yōu)先權(quán)日:2014年10月24日
【發(fā)明者】王德強, 王偉偉, 胡煥鋼 申請人:浪潮軟件股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1