一種基于hadoop的lte mro數(shù)據(jù)統(tǒng)計(jì)方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種LTE網(wǎng)絡(luò)數(shù)據(jù)統(tǒng)計(jì)方法技術(shù)領(lǐng)域,特別涉及一種基于HADOOP的LTE MRO數(shù)據(jù)統(tǒng)計(jì)方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著4G牌照的發(fā)放中國正式進(jìn)入4G時(shí)代,與此同時(shí)運(yùn)營商也緊鑼密鼓的開始了基礎(chǔ)網(wǎng)絡(luò)建設(shè)。中國移動(dòng)集團(tuán)計(jì)劃2014年要完成近50萬個(gè)TD-LTE站點(diǎn)的建設(shè)。當(dāng)前移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,要求LTE網(wǎng)絡(luò)從起步階段就要成為精品網(wǎng)絡(luò)。
[0003]而以往2/3G網(wǎng),絡(luò)運(yùn)營的經(jīng)驗(yàn)表明,站點(diǎn)完成建設(shè)后網(wǎng)絡(luò)結(jié)構(gòu)就基本確定。如何在LTE網(wǎng)絡(luò)起步階段就確保其結(jié)構(gòu)合理性成為運(yùn)營者亟待解決的重要課題。LTE MRO數(shù)據(jù)是指基站周期性收集手機(jī)終端所處無線環(huán)境信息的測量報(bào)告(measurement result)采樣數(shù)據(jù),客觀的反映了無線網(wǎng)絡(luò)的真實(shí)情況,對于診斷網(wǎng)絡(luò)結(jié)構(gòu)問題具有重要意義。
[0004]MRO (Mobility Robustness Optimizat1n移動(dòng)魯棒性優(yōu)化)是對切換的相關(guān)參數(shù)進(jìn)行自動(dòng)優(yōu)化的一個(gè)功能,是SON (Self-Organizat1n Network自組織網(wǎng)絡(luò))的組成部分之一。切換參數(shù)設(shè)置的不合理,會(huì)導(dǎo)致切換過早、過晚或乒乓切換的情況,這樣將會(huì)影響用戶體驗(yàn)以及浪費(fèi)網(wǎng)絡(luò)資源。MRO通過對不同切換場景的識別,并對它們進(jìn)行統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)結(jié)果對切換的相關(guān)參數(shù)進(jìn)行優(yōu)化,使得網(wǎng)路中的切換失敗、掉話以及不必要的切換降到最少。
[0005]隨著無線網(wǎng)絡(luò)中網(wǎng)元與廠商的增加,網(wǎng)絡(luò)維護(hù)的復(fù)雜度、技術(shù)要求和成本等也在大幅上升。為了降低網(wǎng)絡(luò)維護(hù)的復(fù)雜度與成本,LTE系統(tǒng)要求無線網(wǎng)絡(luò)支持自組織行為,即E-UTRAN支持SON。SON需要支持自配置與自優(yōu)化功能。MRO為自優(yōu)化功能之一,通過識別異常切換的場景,自動(dòng)優(yōu)化切換的相關(guān)參數(shù),以提高網(wǎng)絡(luò)的切換成功率以及資源利用率。
[0006]MRO通過對不同切換情況的識別,并對它們進(jìn)行統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)結(jié)果對切換的相關(guān)參數(shù)進(jìn)行優(yōu)化,使得網(wǎng)絡(luò)中的切換失敗、掉話和不必要的切換降到最少。
[0007]然而MRO文件為小文件,但數(shù)據(jù)龐大,傳統(tǒng)的數(shù)據(jù)分析處理手段對此望而卻步。分析人員只能針對重點(diǎn)保障區(qū)域提取對應(yīng)數(shù)據(jù)做小范圍的局部分析,無法開展全網(wǎng)的整體性網(wǎng)絡(luò)結(jié)構(gòu)分析。
[0008]Hadoop的出現(xiàn)為解決上述問題提供了技術(shù)手段。Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop框架中最核心設(shè)計(jì)是Map/Reduce和HDFS(HadoopDistributed File System)。Map/Reduce是Google的一項(xiàng)核心的技術(shù),它是對并行計(jì)算的編程模型的一種簡化,它可以讓那些并行計(jì)算經(jīng)驗(yàn)不足的開發(fā)人員也可以開發(fā)這些并行應(yīng)用。分布式文件系統(tǒng)HDFS的來源是受Google文件系統(tǒng)GFS (Google File System)的啟發(fā),一個(gè)建立在大型集群上并且可靠存儲(chǔ)大數(shù)據(jù)集的文件系統(tǒng)。HDFS與Map/Reduce相輔相成,構(gòu)成了 Hadoop分布式計(jì)算的堅(jiān)實(shí)的存儲(chǔ)基石。
[0009]Hive是Apache基金會(huì)下的一個(gè)在Hadoop上構(gòu)建數(shù)據(jù)倉庫的開源軟件,它支持通過類SQL的HQL語言操作結(jié)構(gòu)化數(shù)據(jù)。Hive的主要功能是將類SQL的HQL語言翻譯成Map/Reduce代碼并在Hadoop上運(yùn)行。Hive的出現(xiàn)使Hadoop做大數(shù)據(jù)分析變的簡單,節(jié)省了數(shù)據(jù)分析人員編譯和調(diào)試Map/Reduce代碼的繁瑣工作。
[0010]Sqoop是一款開源的工具,主要用于在HADOOP(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql、postgresql...)間進(jìn)行數(shù)據(jù)的傳遞。Sqoop項(xiàng)目開始于2009年,最早是作為Hadoop的一個(gè)第三方模塊存在,后來為了讓使用者能夠快速部署,也為了讓開發(fā)人員能夠更快速的迭代開發(fā),Sqoop獨(dú)立成為一個(gè)Apache項(xiàng)目。
[0011]而LTE MRO文件本身的特點(diǎn)是其為海量小文件,為Hadoop的處理帶來難度,而本發(fā)明基于Hadoop和Hive構(gòu)建了一種統(tǒng)計(jì)LTE MRO等大數(shù)據(jù)的一種方法,能很好的滿足電信等行業(yè)的大數(shù)據(jù)量統(tǒng)計(jì)需求。
【發(fā)明內(nèi)容】
[0012]為了解決現(xiàn)有技術(shù)的問題,本發(fā)明提供了一種基于HADOOP的LTE MRO數(shù)據(jù)統(tǒng)計(jì)方法及系統(tǒng),其實(shí)現(xiàn)了類似LTE MRO文件的海量小文件,解決了海量數(shù)據(jù)給電信運(yùn)營商帶來的處理壓力,提供了高效智能統(tǒng)計(jì)和數(shù)據(jù)挖掘的途徑。
[0013]本發(fā)明所采用的技術(shù)方案如下:
一種基于HADOOP的LTE MRO數(shù)據(jù)統(tǒng)計(jì)方法,包括以下步驟:
A、集群所有節(jié)點(diǎn)部署并開啟自開發(fā)的多線程ftp下載工具,此工具實(shí)時(shí)掃描基站文件服務(wù)器;
B、集群所有節(jié)點(diǎn)部署并開發(fā)自研發(fā)多線程LTEMRO文件解析程序,此程序?qū)⑽募M(jìn)行了格式化,將格式化文件寫入本地磁盤;
C、Hadoop分布式文件系統(tǒng)掛載通過使用Hadoop的Fuse-DFS模塊,將Hadoop文件系統(tǒng)作為一個(gè)標(biāo)準(zhǔn)文件系統(tǒng)進(jìn)行掛載在Iinux系統(tǒng)上;
D、根據(jù)業(yè)務(wù)需求,在Hive數(shù)據(jù)倉庫中建源數(shù)據(jù)層,中間層和應(yīng)用層,并在不同的層中建響應(yīng)分區(qū)表,這些表根據(jù)日期和廠商進(jìn)行分區(qū),便于數(shù)據(jù)導(dǎo)出和修復(fù);
E、同時(shí)根據(jù)業(yè)務(wù)需求,開發(fā)Hql語句并寫入文本文件,由調(diào)度程序統(tǒng)一調(diào)度;
F、調(diào)度程序統(tǒng)一調(diào)度執(zhí)行Hql,從Hive源數(shù)據(jù)層表中抽取數(shù)據(jù),依次生成中間層表和應(yīng)用表數(shù)據(jù);
G、應(yīng)用層數(shù)據(jù)生成后,調(diào)度程序會(huì)調(diào)用Sqoop,將Hive新生成數(shù)據(jù)導(dǎo)入Oracle;
H、監(jiān)控程序后臺運(yùn)行,實(shí)時(shí)接收實(shí)時(shí)調(diào)度程序和定時(shí)調(diào)度程序的執(zhí)行結(jié)果,并實(shí)時(shí)掃描Hadoop和Hive日志,如有失敗任務(wù),則重新執(zhí)行。
[0014]步驟A中,若存在LTE MRO新文件,則啟動(dòng)線程,采用ftp服務(wù)實(shí)時(shí)下載文件,單文件下載完成后,對本地遠(yuǎn)程的此文件進(jìn)行md5校驗(yàn),若不成功重新下載。
[0015]步驟F中,Hive通過入口函數(shù)收到Hql,首先根據(jù)關(guān)鍵字用語法解析器和詞法解析器將Hql轉(zhuǎn)換成抽象語法樹,然后對此語法樹進(jìn)行優(yōu)化生成新的語法樹,最后生成執(zhí)行計(jì)劃plan, xml,根據(jù)plan, xml啟動(dòng)Hadoop的Map/Reduce程序得到hql的執(zhí)行結(jié)果。
[0016]一種基于HADOOP的LTE MRO數(shù)據(jù)統(tǒng)計(jì)系統(tǒng),包括Hadoop集群,在集群各datanode節(jié)點(diǎn)部署實(shí)時(shí)調(diào)度模塊和定時(shí)調(diào)度模塊,所述的實(shí)時(shí)調(diào)度模塊會(huì)實(shí)時(shí)掃描基站服務(wù)器上的LTE MRO文件,并多線程ftp下載,解析,在集群各datanode節(jié)點(diǎn),通過Fuse-DFS模塊將Hdfs掛在到系統(tǒng),定時(shí)調(diào)度模塊會(huì)定時(shí)按照指定數(shù)量合并解析后文件,并寫入Hdfs,合并后文件采用廠商+時(shí)間+線程號命名,便于任務(wù)失敗時(shí),產(chǎn)出重做。
[0017]在所述集群namenode節(jié)點(diǎn)部署Hadoop Sqoop模塊,統(tǒng)計(jì)完成后,調(diào)用shell命令通過Sqoop將應(yīng)用層新生成數(shù)據(jù)寫入Oracle數(shù)據(jù)庫供展現(xiàn)給用戶。
[0018]在所述集群namenode服務(wù)器部署監(jiān)控模塊,監(jiān)控模塊后臺執(zhí)行,實(shí)時(shí)接收各模塊執(zhí)行結(jié)果,并且實(shí)時(shí)掃描Hadoop,Hive日志,若有錯(cuò)誤產(chǎn)生,報(bào)警并重新執(zhí)行任務(wù)。
[0019]根據(jù)業(yè)務(wù)人員撰寫的業(yè)務(wù)需求和數(shù)據(jù)模型的涉及文檔(包含LTE MRO原始文件格式,字段說明及應(yīng)用層表結(jié)構(gòu),說明等),設(shè)計(jì)LTE MRO源文件下載方式,設(shè)計(jì)數(shù)據(jù)倉庫hive中源數(shù)據(jù)層,中間層,應(yīng)用層表結(jié)構(gòu)及個(gè)字段對應(yīng)關(guān)系及etl邏輯等;在服務(wù)器上部署Hadoop集群和Oracle數(shù)據(jù)庫。
[0020]在集群各datanode節(jié)點(diǎn)部署實(shí)時(shí)調(diào)度模塊和定時(shí)調(diào)度模塊。實(shí)時(shí)調(diào)度模塊會(huì)實(shí)時(shí)掃描基站服務(wù)器上的LTE MRO文件,并多線程ftp下載,解析。在集群各datanode節(jié)點(diǎn),通過Fuse-DFS模塊將Hdfs掛在到系統(tǒng),定時(shí)調(diào)度模塊會(huì)定時(shí)按照指定數(shù)量合并解析后文件,并寫入Hdfs。合并后文件采用廠商+時(shí)間+線程號命名,便于任務(wù)失敗時(shí),產(chǎn)出重做。
[0021]根據(jù)業(yè)務(wù)文檔開發(fā)Hive各層Hql語句,并將Hql語句形成文本文件放入指定路徑。定時(shí)調(diào)度模塊會(huì)定時(shí)執(zhí)行相應(yīng)日期的Hql,將統(tǒng)計(jì)結(jié)果寫入響應(yīng)表。
[0022]集群namenode節(jié)點(diǎn)部署Hadoop Sqoop模塊,統(tǒng)計(jì)完成后,調(diào)用shell命令通過Sqoop將應(yīng)用層新生成數(shù)據(jù)寫入Oracle數(shù)據(jù)庫供展現(xiàn)給用戶。
[0023]集群namenode服務(wù)器部署監(jiān)控模塊。監(jiān)控模塊后臺執(zhí)行,實(shí)時(shí)接收各模塊執(zhí)行結(jié)果,并且實(shí)時(shí)掃描Hadoop,Hive日志,若有錯(cuò)誤產(chǎn)生,報(bào)警并重新執(zhí)行任務(wù)。
[0024]本發(fā)明提供的技術(shù)方案帶來的有益效果是:
本發(fā)明給出了處理類似LTE MRO等海量小文件的方法,極大的提高了處理效率,大大減少了統(tǒng)計(jì)時(shí)間。入Hdfs (Hadoop分布式文件系統(tǒng))前對文件進(jìn)行并行解析合并,減少了namenode (名字節(jié)點(diǎn))壓力,通過Hive進(jìn)行數(shù)據(jù)統(tǒng)計(jì),既滿足了效率需求,又降低了開發(fā)門檻,同時(shí)保持了良好的擴(kuò)展性。
【附圖說明】
[0025]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中