本發(fā)明涉具體涉及一種通信大數(shù)據(jù)處理方法。
背景技術(shù):
對(duì)于“大數(shù)據(jù)”研究機(jī)構(gòu)gartner給出了這樣的定義?!按髷?shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來(lái)適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn);麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征;大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”;從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù);隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)也吸引了越來(lái)越多的關(guān)注。分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過(guò)多時(shí)間和金錢(qián)。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像mapreduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過(guò)時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng);因此目前急需一種通信大數(shù)據(jù)處理方法以適應(yīng)目前的需求。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足,提供一種通信大數(shù)據(jù)處理方法,該通信大數(shù)據(jù)處理方法可以很好地解決上述問(wèn)題。
為達(dá)到上述要求,本發(fā)明采取的技術(shù)方案是:提供一種通信大數(shù)據(jù)處理方法,該通信大數(shù)據(jù)處理方法包括如下步驟:
s1:上行數(shù)據(jù)處理模塊處理終端上報(bào)數(shù)據(jù),下行數(shù)據(jù)處理模塊處理監(jiān)控中心下發(fā)命令,雙網(wǎng)卡之間通過(guò)緩存聯(lián)系在一起;
s2:通信服務(wù)器從外網(wǎng)卡上接收一幀上行數(shù)據(jù),寫(xiě)入上行數(shù)據(jù)緩存,經(jīng)過(guò)線程處理,由內(nèi)網(wǎng)卡發(fā)送到監(jiān)控中心;
s3:從內(nèi)網(wǎng)卡接收一幀下行數(shù)據(jù),寫(xiě)入下行數(shù)據(jù)緩存,經(jīng)過(guò)線程處理,由外網(wǎng)卡發(fā)送到終端,并根據(jù)各子系統(tǒng)采集到的多源數(shù)據(jù)獲得真值系統(tǒng)的標(biāo)準(zhǔn)數(shù)據(jù),并確定參數(shù)的動(dòng)態(tài)賦值方法;
s4:在分布式系統(tǒng)基礎(chǔ)架構(gòu)hadoop外部環(huán)境,利用預(yù)先設(shè)置的拆分策略拆分hadoop總查詢?nèi)蝿?wù);
s5:按照拆分的hadoop查詢?nèi)蝿?wù),在hadoop的分布式存儲(chǔ)系統(tǒng)中分別進(jìn)行hadoop內(nèi)部查詢,;
s6:將各內(nèi)部查詢結(jié)果按照預(yù)先設(shè)置的存儲(chǔ)策略存儲(chǔ)在hadoop外部環(huán)境,并剔除所述各子系統(tǒng)采集到的數(shù)據(jù)集合中的異常數(shù)據(jù),并進(jìn)行歷史數(shù)據(jù)的補(bǔ)償;以及
s7:通過(guò)hadoop外部查詢方式對(duì)存儲(chǔ)信息進(jìn)行統(tǒng)計(jì)并顯示。
該通信大數(shù)據(jù)處理方法具有的優(yōu)點(diǎn)如下:
(1)用于雙向快速地接收、處理、轉(zhuǎn)發(fā)數(shù)據(jù),特別適合于多個(gè)終端、一個(gè)通信服務(wù)器、多個(gè)監(jiān)控中心這樣的三層結(jié)構(gòu)。在實(shí)現(xiàn)中,讀取數(shù)據(jù)庫(kù)信息記錄在內(nèi)存中,以查詢內(nèi)存代替查詢數(shù)據(jù)庫(kù),并且,在內(nèi)存中記錄信息時(shí)采用了hash散列技術(shù),極大地提高了查詢速度。在原有通信服務(wù)器的基礎(chǔ)上不增加任何硬件設(shè)備,僅通過(guò)軟件實(shí)現(xiàn)方法的更新,就能大大提升處理性能,簡(jiǎn)化了系統(tǒng)結(jié)構(gòu)、節(jié)省了系統(tǒng)成本。
(2)本發(fā)明提出一種實(shí)現(xiàn)大數(shù)據(jù)處理的方法,包括:在分布式系統(tǒng)基礎(chǔ)架構(gòu)hadoop外部環(huán)境,利用預(yù)先設(shè)置的拆分策略拆分hadoop總查詢?nèi)蝿?wù);按照拆分的hadoop查詢?nèi)蝿?wù),在hadoop的分布式存儲(chǔ)系統(tǒng)中分別進(jìn)行hadoop內(nèi)部查詢;將各內(nèi)部查詢結(jié)果按照預(yù)先設(shè)置的存儲(chǔ)策略存儲(chǔ)在hadoop外部環(huán)境;通過(guò)hadoop外部查詢方式對(duì)存儲(chǔ)信息進(jìn)行統(tǒng)計(jì)并顯示。通過(guò)本發(fā)明方法在hadoop外部環(huán)境對(duì)總查詢?nèi)蝿?wù)進(jìn)行拆分,在執(zhí)行完拆分查詢?nèi)蝿?wù)后,將內(nèi)部查詢結(jié)果按照任務(wù)拆分進(jìn)行相應(yīng)的分級(jí)存儲(chǔ),實(shí)現(xiàn)hadoop大數(shù)據(jù)訪問(wèn)的分頁(yè)瀏覽和在不影響系統(tǒng)性能下進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。
附圖說(shuō)明
此處所說(shuō)明的附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,在這些附圖中使用相同的參考標(biāo)號(hào)來(lái)表示相同或相似的部分,本申請(qǐng)的示意性實(shí)施例及其說(shuō)明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:
圖1示意性地示出了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的通信大數(shù)據(jù)處理方法的流程圖。
具體實(shí)施方式
為使本申請(qǐng)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下結(jié)合附圖及具體實(shí)施例,對(duì)本申請(qǐng)作進(jìn)一步地詳細(xì)說(shuō)明。
在以下描述中,對(duì)“一個(gè)實(shí)施例”、“實(shí)施例”、“一個(gè)示例”、“示例”等等的引用表明如此描述的實(shí)施例或示例可以包括特定特征、結(jié)構(gòu)、特性、性質(zhì)、元素或限度,但并非每個(gè)實(shí)施例或示例都必然包括特定特征、結(jié)構(gòu)、特性、性質(zhì)、元素或限度。另外,重復(fù)使用短語(yǔ)“根據(jù)本申請(qǐng)的一個(gè)實(shí)施例”雖然有可能是指代相同實(shí)施例,但并非必然指代相同的實(shí)施例。
為簡(jiǎn)單起見(jiàn),以下描述中省略了本領(lǐng)域技術(shù)人員公知的某些技術(shù)特征。
根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,提供一種通信大數(shù)據(jù)處理方法,包括如下步驟:
s1:上行數(shù)據(jù)處理模塊處理終端上報(bào)數(shù)據(jù),下行數(shù)據(jù)處理模塊處理監(jiān)控中心下發(fā)命令,雙網(wǎng)卡之間通過(guò)緩存聯(lián)系在一起;
s2:通信服務(wù)器從外網(wǎng)卡上接收一幀上行數(shù)據(jù),寫(xiě)入上行數(shù)據(jù)緩存,經(jīng)過(guò)線程處理,由內(nèi)網(wǎng)卡發(fā)送到監(jiān)控中心;
s3:從內(nèi)網(wǎng)卡接收一幀下行數(shù)據(jù),寫(xiě)入下行數(shù)據(jù)緩存,經(jīng)過(guò)線程處理,由外網(wǎng)卡發(fā)送到終端,并根據(jù)各子系統(tǒng)采集到的多源數(shù)據(jù)獲得真值系統(tǒng)的標(biāo)準(zhǔn)數(shù)據(jù),并確定參數(shù)的動(dòng)態(tài)賦值方法;
s4:在分布式系統(tǒng)基礎(chǔ)架構(gòu)hadoop外部環(huán)境,利用預(yù)先設(shè)置的拆分策略拆分hadoop總查詢?nèi)蝿?wù);
s5:按照拆分的hadoop查詢?nèi)蝿?wù),在hadoop的分布式存儲(chǔ)系統(tǒng)中分別進(jìn)行hadoop內(nèi)部查詢,;
s6:將各內(nèi)部查詢結(jié)果按照預(yù)先設(shè)置的存儲(chǔ)策略存儲(chǔ)在hadoop外部環(huán)境,并剔除所述各子系統(tǒng)采集到的數(shù)據(jù)集合中的異常數(shù)據(jù),并進(jìn)行歷史數(shù)據(jù)的補(bǔ)償;以及
s7:通過(guò)hadoop外部查詢方式對(duì)存儲(chǔ)信息進(jìn)行統(tǒng)計(jì)并顯示。
根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,該通信大數(shù)據(jù)處理方法的上行數(shù)據(jù)緩存根據(jù)實(shí)際并發(fā)數(shù)據(jù)量生成適當(dāng)個(gè)數(shù),下行數(shù)據(jù)量緩存只生成一個(gè),每個(gè)緩存用一個(gè)線程來(lái)處理;通信服務(wù)器程序啟動(dòng)時(shí),讀取數(shù)據(jù)庫(kù)信息到內(nèi)存中,然后使用被動(dòng)更新或主動(dòng)更新方法來(lái)獲取數(shù)據(jù)庫(kù)中變化的數(shù)據(jù),在處理數(shù)據(jù)時(shí),所需信息均從內(nèi)存中查詢。
根據(jù)各個(gè)子系統(tǒng)集到的各類信息數(shù)據(jù)的時(shí)間屬性,從以上步驟中獲得的輔助信息源中查找與數(shù)據(jù)缺失的路鏈具有相同唯一編號(hào)、相同時(shí)間屬性的歷史數(shù)據(jù)對(duì)補(bǔ)償區(qū)域中空缺信息路鏈進(jìn)行填補(bǔ)。其中時(shí)間屬性包含星期周期和該時(shí)刻所處的時(shí)間窗特性。之所以數(shù)據(jù)會(huì)出現(xiàn)缺失,一方面是由于異常數(shù)據(jù)剔除有可能造成數(shù)據(jù)的不連續(xù),另一方面是由于各個(gè)數(shù)據(jù)源設(shè)備由于外界因素或人為因素短暫失效造成數(shù)據(jù)不能及時(shí)采集或采集誤差較大。而后者尤為重要。
以上所述實(shí)施例僅表示本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能理解為對(duì)本發(fā)明范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明保護(hù)范圍。因此本發(fā)明的保護(hù)范圍應(yīng)該以所述權(quán)利要求為準(zhǔn)。