亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于Hadoop的傳統(tǒng)網(wǎng)管數(shù)據(jù)處理方法

文檔序號(hào):10512343閱讀:160來源:國知局
一種基于Hadoop的傳統(tǒng)網(wǎng)管數(shù)據(jù)處理方法
【專利摘要】本發(fā)明提供一種基于Hadoop的傳統(tǒng)網(wǎng)管數(shù)據(jù)處理方法,涉及移動(dòng)通信領(lǐng)域傳統(tǒng)話務(wù)網(wǎng)管、數(shù)據(jù)網(wǎng)管、傳輸網(wǎng)管的數(shù)據(jù)采集、加工處理。在傳統(tǒng)網(wǎng)管數(shù)據(jù)處理中通常采用關(guān)系型數(shù)據(jù)的方式實(shí)現(xiàn)對(duì)設(shè)備數(shù)據(jù)的存儲(chǔ)與處理,通常采集處理時(shí)延高、數(shù)據(jù)補(bǔ)采補(bǔ)匯邏輯復(fù)雜,無法及時(shí)完成對(duì)數(shù)據(jù)的加工,影響上層基于數(shù)據(jù)的分析應(yīng)用。采用基于Hadoop的傳統(tǒng)網(wǎng)管數(shù)據(jù)處理方式,以Hadoop 分布式HDFS系統(tǒng)進(jìn)行數(shù)據(jù)的存儲(chǔ)、以Spark分布式數(shù)據(jù)處理框架進(jìn)行數(shù)據(jù)的加工處理,通過基于文件方式的數(shù)據(jù)操作,快速實(shí)現(xiàn)對(duì)數(shù)據(jù)的采集及補(bǔ)采補(bǔ)匯處理。
【專利說明】
一種基于Hadoop的傳統(tǒng)網(wǎng)管數(shù)據(jù)處理方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù),尤其涉及一種基于Hadoop的傳統(tǒng)網(wǎng)管數(shù)據(jù)處理方法。
【背景技術(shù)】
[0002] 在通信行業(yè)內(nèi),語音、數(shù)據(jù)等各項(xiàng)業(yè)務(wù)的實(shí)現(xiàn)是基于網(wǎng)絡(luò)內(nèi)大量的通信設(shè)備完成, 各類網(wǎng)絡(luò)設(shè)備定期生成各類測量數(shù)據(jù)用于對(duì)設(shè)備性能、業(yè)務(wù)質(zhì)量、業(yè)務(wù)容量等問題的統(tǒng)計(jì) 分析,傳統(tǒng)網(wǎng)管系統(tǒng)(如話務(wù)網(wǎng)管、數(shù)據(jù)網(wǎng)管)負(fù)責(zé)對(duì)移動(dòng)網(wǎng)絡(luò)設(shè)備各項(xiàng)測量數(shù)據(jù)進(jìn)行采集、 解析、加工及處理,支撐對(duì)網(wǎng)絡(luò)質(zhì)量的分析應(yīng)用。 傳統(tǒng)網(wǎng)管系統(tǒng)采用關(guān)系型數(shù)據(jù)庫(如Oracle)進(jìn)行設(shè)備采集數(shù)據(jù)的存儲(chǔ)與計(jì)算加工,該 方式完全基于數(shù)據(jù)庫引擎技術(shù),利用數(shù)據(jù)庫語句進(jìn)行數(shù)據(jù)的裝載及處理,數(shù)據(jù)加載處理效 率不高;另外在設(shè)備數(shù)據(jù)傳送延時(shí)、數(shù)據(jù)傳送不完整等情況下,針對(duì)歷史數(shù)據(jù)的重新補(bǔ)采/ 補(bǔ)匯需要通過數(shù)據(jù)庫的索引技術(shù)來進(jìn)行已入庫數(shù)據(jù)與新增數(shù)據(jù)的比對(duì)判斷,該方式效率 低,影響數(shù)據(jù)處理加工的效率,采用該種方式,在當(dāng)前網(wǎng)絡(luò)運(yùn)維效率要求高,應(yīng)用分析時(shí)延 低的情況下,難以快速滿足應(yīng)用對(duì)數(shù)據(jù)的需求。

【發(fā)明內(nèi)容】

[0003] 為了解決該問題,本發(fā)明提出了一種基于Hadoop的傳統(tǒng)網(wǎng)管數(shù)據(jù)處理方法。
[0004]本發(fā)明要解決的問題是通過Hadoop大數(shù)據(jù)技術(shù),基于分布式文件處理方式提升數(shù) 據(jù)加載效率,簡化數(shù)據(jù)補(bǔ)采/補(bǔ)匯的判斷邏輯,降對(duì)數(shù)據(jù)加工處理的時(shí)延,提升應(yīng)用分析的 實(shí)時(shí)性 本發(fā)明提供的技術(shù)方案: 本方案提供一種基于Hadoop的傳統(tǒng)網(wǎng)管數(shù)據(jù)處理方法,以Hadoop分布式文件系統(tǒng)作為 數(shù)據(jù)的存儲(chǔ)方式,以Hadoop本地文件加載的方式實(shí)現(xiàn)對(duì)數(shù)據(jù)到Hadoop集群的加載,通過 Spark分布式計(jì)算引擎實(shí)現(xiàn)對(duì)數(shù)據(jù)的進(jìn)一步加工處理操作;對(duì)于數(shù)據(jù)的補(bǔ)采補(bǔ)匯,采用直接 刪除歷史文件,重新進(jìn)行數(shù)據(jù)加載、加工處理的方式。本技術(shù)方案中的實(shí)現(xiàn)包含三部分內(nèi) 容: 1、 傳統(tǒng)網(wǎng)管數(shù)據(jù)Hadoop存儲(chǔ) 2、 傳統(tǒng)網(wǎng)管數(shù)據(jù)Hadoop加載及加工處理 3、 傳統(tǒng)網(wǎng)管數(shù)據(jù)Hadoop補(bǔ)采、補(bǔ)匯。
[0005] 1.傳統(tǒng)網(wǎng)管數(shù)據(jù)Hadoop存儲(chǔ) 采用Hadoop分布式文件系統(tǒng)HDFS進(jìn)行網(wǎng)管數(shù)據(jù)存儲(chǔ),數(shù)據(jù)本質(zhì)上是以文件的形式存在 集群中,在Hadoop中一張數(shù)據(jù)表會(huì)已一個(gè)文件夾的形式進(jìn)行數(shù)據(jù)的存放。
[0006] 設(shè)備采集原始數(shù)據(jù)存儲(chǔ)格式說明: 從設(shè)備采集到的原始數(shù)據(jù)采用按天/小時(shí)/15分鐘粒度進(jìn)行目錄建設(shè)規(guī)劃,格式要求如 下: $ {HDFS_H0ME} /rawdata/$ {網(wǎng)管系統(tǒng)標(biāo)識(shí)} /$ {數(shù)據(jù)表名} /$ {日期,采用yyyymmdd格 式} /$ {小時(shí),采用hh24格式} /$ {分鐘,采用mi格式,以00,15,30,45表示} 以話務(wù)網(wǎng)管LTE無線小區(qū)性能數(shù)據(jù)為例,其存儲(chǔ)路徑如下: /hdf s/rawdata/hwwg/11e_wpm_ce11/20150101/10/15 加工處理后的數(shù)據(jù)存儲(chǔ)格式說明: 針對(duì)加載至Hadoop中的原始數(shù)據(jù)通過Spark進(jìn)行數(shù)據(jù)的加工與處理,按照數(shù)據(jù)分層的 原則將數(shù)據(jù)在Spark內(nèi)分為三層,stg層(臨時(shí)緩沖區(qū))、odm層(歸一化后基礎(chǔ)數(shù)據(jù))、dw層(維 度匯總數(shù)據(jù))。按照數(shù)據(jù)處理及應(yīng)用的周期,其中stg層數(shù)據(jù)按天/小時(shí)/15分鐘方式進(jìn)行分 區(qū),odm層按天/小時(shí)/15分鐘方式進(jìn)行分區(qū),dw層按天/小時(shí)進(jìn)行分區(qū)。
[0007] 以話務(wù)網(wǎng)管LTE無線小區(qū)性能數(shù)據(jù)加工處理為例,其存儲(chǔ)路徑如下: stg 層: /hdfs/user/spark/warehouse/stg.db/stg_lte_wpm_cell_15/day=20150101/hour= 10/min=15 0dm 層: /hdfs/user/spark/warehouse/odm.db/odm_lte_wpm_cell_15/day=20150101/hour= 10/min=15 Dw層: /hdf s/user/spark/warehouse/dw.db/dw_f t_lte_wpm_ce1l_h/day=20150101/hour= 10 2.傳統(tǒng)網(wǎng)管數(shù)據(jù)Hadoop加載及加工處理 數(shù)據(jù)的加工處理共需要經(jīng)過以下處理步驟: V數(shù)據(jù)采集解析:從設(shè)備網(wǎng)管按照數(shù)據(jù)周期性采集所需要的各類數(shù)據(jù),并對(duì)不同類型 格式的數(shù)據(jù)進(jìn)行解析形成標(biāo)準(zhǔn)的文本文件。
[0008] V'清洗轉(zhuǎn)換:根據(jù)數(shù)據(jù)的內(nèi)容要求對(duì)不符合字段長度、不符合字段類型、不符合字 段枚舉值等記錄進(jìn)行清洗,對(duì)部分不標(biāo)準(zhǔn)的數(shù)據(jù)格式、時(shí)間格式等進(jìn)行相應(yīng)的轉(zhuǎn)換操作。
[0009] ,文件合并:針對(duì)小于50M的文件進(jìn)行合并處理,按照文件個(gè)數(shù)進(jìn)行合并,以提高 數(shù)據(jù)加載到HDFS的效率。
[0010] V'文件壓縮:對(duì)數(shù)據(jù)文件進(jìn)行壓縮,減少數(shù)據(jù)存儲(chǔ)量,采用lzo格式的壓縮。
[0011] Z HDFS加載:通過Hadoop的load命令實(shí)現(xiàn)數(shù)據(jù)文件到Hadoop集群的加載操作,其 實(shí)現(xiàn)原理是基于文件的MV操作,可極大提高數(shù)據(jù)加載的效率,優(yōu)于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的加 載性能。
[0012] _/-加載Spark:通過Spark進(jìn)行數(shù)據(jù)的匯總處理,首先將HDFS數(shù)據(jù)加載到Spark中。
[0013] 7 Spark匯總:通過Spark SQL(與傳統(tǒng)關(guān)系型數(shù)據(jù)庫的語法基本一致)進(jìn)行數(shù)據(jù)從 stg層到0DM、DW等的多層級(jí)數(shù)據(jù)匯總處理,Spark基于內(nèi)存的分布式數(shù)據(jù)處理能力優(yōu)于傳統(tǒng) 關(guān)系型數(shù)據(jù)庫。
[0014] 3.傳統(tǒng)網(wǎng)管數(shù)據(jù)Hadoop補(bǔ)采、補(bǔ)匯 針對(duì)出現(xiàn)問題后的數(shù)據(jù)補(bǔ)采及補(bǔ)匯過程主要體現(xiàn)在數(shù)據(jù)加載Hadoop集群及在Hadoop 集群內(nèi)的匯總處理操作方面有所不同,主要包含以下兩個(gè)操作: WHDFS文件刪除:對(duì)于出現(xiàn)補(bǔ)采的數(shù)據(jù),在加載Hadoop集群前,刪除該時(shí)段的已存在 的數(shù)據(jù),其直接刪除HDFS文件,效率極高,可在1~2s內(nèi)完成原有錯(cuò)誤數(shù)據(jù)的刪除 v·'Spark數(shù)據(jù)刪除:在Spark內(nèi)進(jìn)行補(bǔ)匯前進(jìn)行原有匯總數(shù)據(jù)的刪除,其本質(zhì)也是基于 文件的刪除操作,性能高,便于數(shù)據(jù)庫的操作。
[0015]通過基于Hadoop的文件方式的直接操作,其處理性能由于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的處 理效率,且直接進(jìn)行整體數(shù)據(jù)的刪除重加載、重匯總,不需要進(jìn)行數(shù)據(jù)的比對(duì)更新。
[0016] 本發(fā)明的有益效果是 采用基于Hadoop的傳統(tǒng)網(wǎng)管數(shù)據(jù)處理方法,由于其基于文件方式的操作,極大提高了 數(shù)據(jù)加載處理效率,以LTE小區(qū)無線性能數(shù)據(jù)每小時(shí)的采集處理為例,傳統(tǒng)關(guān)系型數(shù)據(jù)的處 理方式完成整個(gè)數(shù)據(jù)加工過程需要30分鐘以上,通過Hadoop進(jìn)行處理,可在10分鐘內(nèi)完成 整個(gè)加工過程,提升效率明顯;對(duì)于出現(xiàn)補(bǔ)采補(bǔ)匯的情形,采用Hadoop處理方式,使原來的 補(bǔ)采補(bǔ)匯過程由40分鐘提升到10分鐘,極大提升了對(duì)前端應(yīng)用分析的實(shí)時(shí)性。
【附圖說明】
[0017] 圖1是數(shù)據(jù)Hadoop存儲(chǔ)規(guī)劃示意圖; 圖2是數(shù)據(jù)Hadoop加載處理流程示意圖; 圖3是數(shù)據(jù)Hadoop補(bǔ)采/補(bǔ)匯流程示意圖。
【具體實(shí)施方式】
[0018] 下面對(duì)本發(fā)明的內(nèi)容進(jìn)行更加詳細(xì)的闡述: 附圖1描述傳統(tǒng)網(wǎng)管數(shù)據(jù)在Hadoop內(nèi)的存儲(chǔ)方式,包含采集后的原始數(shù)據(jù),加工處理后 的匯總數(shù)據(jù)。
[0019] 附圖1是本發(fā)明中數(shù)據(jù)在Hadoop的存儲(chǔ),按照存儲(chǔ)的規(guī)劃,采集后的原始數(shù)據(jù)存儲(chǔ) 格式${HDFS_H0ME}/rawdata/${網(wǎng)管系統(tǒng)標(biāo)識(shí)}/${:數(shù)據(jù)表名}/${日期}/${小時(shí)}/${分鐘}, 其中網(wǎng)管系統(tǒng)標(biāo)識(shí)采用英文縮寫,話務(wù)網(wǎng)管:hwwg、數(shù)據(jù)網(wǎng)管:sjwg、傳輸網(wǎng)管:cswg;日期采 用天粒度格式,按照yyyymmdd格式定義;小時(shí)采用24進(jìn)制的2位小時(shí)數(shù)字表示,分鐘以2位數(shù) 字來表示;加工后的數(shù)據(jù)存儲(chǔ)在Hadoop的spark內(nèi),按照表的形式,以分區(qū)方式進(jìn)行存儲(chǔ)。
[0020] 附圖2描述傳統(tǒng)網(wǎng)管數(shù)據(jù)基于Hadoop方案實(shí)現(xiàn)的整個(gè)處理加工的過程,描述了在 該過程中主要的操作環(huán)節(jié)。
[0021] 附圖2:是本發(fā)明中采用Hadoop實(shí)現(xiàn)傳統(tǒng)網(wǎng)管數(shù)據(jù)的加工處理流程,從數(shù)據(jù)的采 集解析、加載到Hadoop集群以及在Hadoop集群內(nèi)基于Spark引擎實(shí)現(xiàn)對(duì)數(shù)據(jù)的進(jìn)一步加工 匯總處理。從圖中可以看出實(shí)現(xiàn)該過程的關(guān)鍵操作包含:數(shù)據(jù)采集解析、數(shù)據(jù)清洗轉(zhuǎn)換、文 件合并、文件壓縮、加載HDFS、加載spark和spark匯總。
[0022] 附圖3描述了在數(shù)據(jù)出現(xiàn)異常情況下,進(jìn)行補(bǔ)采/補(bǔ)匯的處理過程,在該過程中數(shù) 據(jù)流轉(zhuǎn)需要經(jīng)過的各個(gè)主要操作環(huán)節(jié)。
[0023]附圖3:是本發(fā)明中基于Hadoop實(shí)現(xiàn)對(duì)傳統(tǒng)網(wǎng)管數(shù)據(jù)的補(bǔ)采、補(bǔ)匯流程,其與正常 的數(shù)據(jù)加工處理流程的區(qū)別主要在對(duì)hadoop集群內(nèi)已經(jīng)加載處理的歷史錯(cuò)誤數(shù)據(jù)的處理 上,在進(jìn)行數(shù)據(jù)加載及數(shù)據(jù)匯總前,先將歷史錯(cuò)誤數(shù)據(jù)文件進(jìn)行刪除操作后再進(jìn)行正常的 數(shù)據(jù)加載處理操作,在刪除HDFS數(shù)據(jù)文件時(shí)采用Hadoop的刪除命令Hadoop fs -rmr命令直 接對(duì)文件進(jìn)行刪除操作。
【主權(quán)項(xiàng)】
1. 一種基于Hadoop的傳統(tǒng)網(wǎng)管數(shù)據(jù)處理方法,其特征在于, 主要包含三部分內(nèi)容: 1)傳統(tǒng)網(wǎng)管數(shù)據(jù)Hadoop存儲(chǔ); 2 )傳統(tǒng)網(wǎng)管數(shù)據(jù)Hadoop加載及加工處理; 3)傳統(tǒng)網(wǎng)管數(shù)據(jù)Hadoop補(bǔ)采、補(bǔ)匯; 以Hadoop分布式文件系統(tǒng)作為數(shù)據(jù)的存儲(chǔ)方式,以Hadoop本地文件加載的方式實(shí)現(xiàn)對(duì) 數(shù)據(jù)到Hadoop集群的加載,通過Spark分布式計(jì)算引擎實(shí)現(xiàn)對(duì)數(shù)據(jù)的進(jìn)一步加工處理操作; 對(duì)于數(shù)據(jù)的補(bǔ)采、補(bǔ)匯,采用直接刪除歷史文件,重新進(jìn)行數(shù)據(jù)加載、加工處理的方式。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,1)中的存儲(chǔ)目錄規(guī)劃是按照分類分區(qū)的方 式進(jìn)行設(shè)計(jì)的; 采用Hadoop分布式文件系統(tǒng)HDFS進(jìn)行網(wǎng)管數(shù)據(jù)存儲(chǔ),數(shù)據(jù)本質(zhì)上是以文件的形式存在 集群中,在Hadoop中一張數(shù)據(jù)表會(huì)已一個(gè)文件夾的形式進(jìn)行數(shù)據(jù)的存放; 設(shè)備采集原始數(shù)據(jù)存儲(chǔ)格式說明: 從設(shè)備采集到的原始數(shù)據(jù)采用按天/小時(shí)/15分鐘粒度進(jìn)行目錄建設(shè)規(guī)劃,格式要求如 下: $ {HDFS_H0ME} /rawdata/$ {網(wǎng)管系統(tǒng)標(biāo)識(shí)} /$ {數(shù)據(jù)表名} /$ {日期,采用yyyymmdd格 式}/$ {小時(shí),采用hh24格式}/$ {分鐘,采用mi格式,以00,15,30,45表示}; 加工處理后的數(shù)據(jù)存儲(chǔ)格式說明: 針對(duì)加載至Hadoop中的原始數(shù)據(jù)通過Spark進(jìn)行數(shù)據(jù)的加工與處理,按照數(shù)據(jù)分層的 原則將數(shù)據(jù)在Spark內(nèi)分為三層,stg層、odm層、dw層;按照數(shù)據(jù)處理及應(yīng)用的周期,其中stg 層數(shù)據(jù)按天/小時(shí)/15分鐘方式進(jìn)行分區(qū),odm層按天/小時(shí)/15分鐘方式進(jìn)行分區(qū),dw層按 天/小時(shí)進(jìn)行分區(qū)。3. 權(quán)利要求1所述的方法,其特征在于,2)中的數(shù)據(jù)處理流程各環(huán)節(jié)是基于Hadoop來 實(shí)現(xiàn)的;數(shù)據(jù)的加工處理共需要經(jīng)過以下處理步驟: 數(shù)據(jù)采集解析:從設(shè)備網(wǎng)管按照數(shù)據(jù)周期性采集所需要的各類數(shù)據(jù),并對(duì)不同類型格 式的數(shù)據(jù)進(jìn)行解析形成標(biāo)準(zhǔn)的文本文件; 清洗轉(zhuǎn)換:根據(jù)數(shù)據(jù)的內(nèi)容要求對(duì)不符合字段長度、不符合字段類型、不符合字段枚舉 值等記錄進(jìn)行清洗,對(duì)部分不標(biāo)準(zhǔn)的數(shù)據(jù)格式、時(shí)間格式等進(jìn)行相應(yīng)的轉(zhuǎn)換操作; 文件合并:針對(duì)小于50M的文件進(jìn)行合并處理,按照文件個(gè)數(shù)進(jìn)行合并,以提高數(shù)據(jù)加 載到HDFS的效率; 文件壓縮:對(duì)數(shù)據(jù)文件進(jìn)行壓縮,減少數(shù)據(jù)存儲(chǔ)量,采用lzo格式的壓縮; HDFS加載:通過Hadoop的load命令實(shí)現(xiàn)數(shù)據(jù)文件到Hadoop集群的加載操作; 加載Spark:通過Spark進(jìn)行數(shù)據(jù)的匯總處理,首先將HDFS數(shù)據(jù)加載到Spark中; Spark匯總:通過Spark SQL進(jìn)行數(shù)據(jù)從stg層到0DM、DW等的數(shù)層級(jí)數(shù)據(jù)匯總處理。4. 權(quán)利要求1所述的方法,其特征在于,3)中數(shù)據(jù)補(bǔ)采補(bǔ)匯流程是基于Hadoop對(duì)文件的 操作來實(shí)現(xiàn)的;主要包含以下兩個(gè)操作: HDFS文件刪除:對(duì)于出現(xiàn)補(bǔ)采的數(shù)據(jù),在加載Hadoop集群前,刪除該時(shí)段的已存在的數(shù) 據(jù),其直接刪除HDFS文件,效率極高,在1~2s內(nèi)完成原有錯(cuò)誤數(shù)據(jù)的刪除; Spark數(shù)據(jù)刪除:在Spark內(nèi)進(jìn)行補(bǔ)匯前進(jìn)行原有匯總數(shù)據(jù)的刪除。
【文檔編號(hào)】G06F17/30GK105868365SQ201610189666
【公開日】2016年8月17日
【申請(qǐng)日】2016年3月30日
【發(fā)明人】王炳亮
【申請(qǐng)人】浪潮通信信息系統(tǒng)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1