一種基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ)方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ)方法,包括:采集輸電線路綜合數(shù)據(jù),所述輸電線路綜合數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù);將所述輸電線路綜合數(shù)據(jù)進(jìn)行分類(lèi)處理;根據(jù)分類(lèi)結(jié)果構(gòu)建HBase表;將所述HBase表內(nèi)的輸電線路綜合數(shù)據(jù)轉(zhuǎn)換為字節(jié)數(shù)組;將所述字節(jié)數(shù)組按照HBase表格式,依次存儲(chǔ)至HBase分布式數(shù)據(jù)庫(kù),所述HBase分布式數(shù)據(jù)庫(kù)構(gòu)建于HDFS上。采用本發(fā)明,將輸電線路綜合數(shù)據(jù)與HDFS、HBase相結(jié)合,解決了原有數(shù)據(jù)信息共享性差、信息呈孤島、非結(jié)構(gòu)化數(shù)據(jù)難以處理等問(wèn)題。
【專(zhuān)利說(shuō)明】一種基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電力信息化【技術(shù)領(lǐng)域】,尤其涉及一種基于HBase的輸電線路綜合數(shù)據(jù) 存儲(chǔ)方法。
【背景技術(shù)】
[0002] 信息和能源始終是世界關(guān)注的兩大焦點(diǎn)話題。隨著電網(wǎng)智能化、信息化、集成化程 度的不斷加深和提高,由此產(chǎn)生的大量數(shù)據(jù)為電網(wǎng)的發(fā)展帶來(lái)了新的挑戰(zhàn)和機(jī)遇。在電力 系統(tǒng)的整個(gè)生產(chǎn)過(guò)程中,包括發(fā)、輸、變、配、用、調(diào)度、協(xié)調(diào)等各個(gè)環(huán)節(jié)都伴隨著各種各樣的 信息流。輸電線路作為保障電網(wǎng)安全可靠運(yùn)行的重要組成部分,在實(shí)際運(yùn)行中會(huì)產(chǎn)生種類(lèi) 繁多、數(shù)量巨大的各類(lèi)數(shù)據(jù),包括線路自身的屬性信息、各種狀態(tài)監(jiān)測(cè)數(shù)據(jù)、投運(yùn)前離線實(shí) 驗(yàn)數(shù)據(jù)、電網(wǎng)運(yùn)行數(shù)據(jù)、地理信息數(shù)據(jù)、公共安全信息數(shù)據(jù)、線路自身的運(yùn)維記錄數(shù)據(jù)等結(jié) 構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。并且隨著測(cè)量采集點(diǎn)越來(lái)越多,電網(wǎng)運(yùn)行和設(shè)備檢/監(jiān)測(cè)產(chǎn)生的數(shù) 據(jù)量呈指數(shù)增長(zhǎng),構(gòu)成了當(dāng)今信息學(xué)界所關(guān)注的大數(shù)據(jù)。
[0003] 早在2011年全球知名的咨詢(xún)公司麥肯錫發(fā)布了一份關(guān)于大數(shù)據(jù)的詳盡報(bào)告,就 大數(shù)據(jù)的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等都做了詳盡的分析,闡明了大數(shù)據(jù)研究的地位以及 蘊(yùn)含的巨大的社會(huì)價(jià)值。中國(guó)電機(jī)工程學(xué)會(huì)信息化專(zhuān)委會(huì)于2013年3月出版發(fā)布了《中國(guó) 電力大數(shù)據(jù)發(fā)展白皮書(shū)》,該書(shū)對(duì)電力大數(shù)據(jù)的起源、內(nèi)涵、特征、價(jià)值分析、應(yīng)用前景、發(fā)展 挑戰(zhàn)、關(guān)機(jī)技術(shù)以及發(fā)展策略給出了詳細(xì)的解釋和說(shuō)明。
[0004] 輸電線路分為架空線和電力電纜兩種。輸電線路分布地域廣、跨度大,與其相關(guān) 的數(shù)據(jù)分散、類(lèi)型繁雜,如:架空線和電纜的生產(chǎn)日期、規(guī)格型號(hào)、離線實(shí)驗(yàn)、家族缺陷等屬 性信息類(lèi)數(shù)據(jù);架空線桿塔坐標(biāo)、電纜標(biāo)識(shí)球位置坐標(biāo)、電纜某段敷設(shè)方式等地理信息類(lèi)數(shù) 據(jù);微氣象、雷擊、覆冰、外力破壞、塔基滑坡等公共安全類(lèi)數(shù)據(jù);導(dǎo)線溫度、弧垂、架空線絕 緣子泄漏電流、架空線視頻監(jiān)測(cè)、電纜護(hù)層環(huán)流等在線監(jiān)測(cè)類(lèi)數(shù)據(jù);線路運(yùn)行電流值等電網(wǎng) 運(yùn)行類(lèi)數(shù)據(jù);線路的運(yùn)行維護(hù)記錄等運(yùn)維數(shù)據(jù)等。輸電線路綜合數(shù)據(jù)種類(lèi)繁多并呈現(xiàn)多樣 化,數(shù)據(jù)對(duì)實(shí)時(shí)性的要求也不一致,如線路的運(yùn)行電流值對(duì)于系統(tǒng)的調(diào)度影響重大,要求數(shù) 據(jù)實(shí)時(shí)、一致、準(zhǔn)確;而其他類(lèi)型的數(shù)據(jù)的如狀態(tài)檢測(cè)類(lèi)數(shù)據(jù)對(duì)實(shí)時(shí)性的要求則較低。因此, 有區(qū)別的對(duì)數(shù)據(jù)規(guī)范化采集管理和科學(xué)、有效的處理非常必要。
[0005] 另一方面,架空線和電纜的架設(shè)方式、結(jié)構(gòu)特性、環(huán)境影響差別大,導(dǎo)致兩者的數(shù) 據(jù)類(lèi)型和數(shù)據(jù)源不盡相同,如:覆冰數(shù)據(jù)、微氣象、弧垂、視頻監(jiān)測(cè)、絕緣子泄漏電流是架空 線才有的數(shù)據(jù),而電纜護(hù)層環(huán)流、電纜敷設(shè)方式則是電纜獨(dú)有的數(shù)據(jù),因此,在數(shù)據(jù)的采集、 清洗、轉(zhuǎn)換和存儲(chǔ)過(guò)程中要區(qū)別對(duì)待。其中,數(shù)據(jù)的多源性體現(xiàn)為數(shù)據(jù)來(lái)源于不同的子系 統(tǒng)。中山供電局的輸電線路管理水平走在全國(guó)的前列,目前,在輸電管理所裝有電纜環(huán)流在 線檢測(cè)系統(tǒng)、電纜可視化子系統(tǒng)、絕緣子泄露電流在線檢測(cè)系統(tǒng)、架空線路視頻檢測(cè)系統(tǒng)、 輸電線路智能故障診斷系統(tǒng)、塔基滑坡災(zāi)害監(jiān)測(cè)系統(tǒng)、線路弧垂在線監(jiān)測(cè)系統(tǒng)、生產(chǎn)管理信 息系統(tǒng),各類(lèi)型的數(shù)據(jù)大部分來(lái)源于以上各系統(tǒng)。還有一些如線路的屬性信息是來(lái)自生產(chǎn) 廠家,線路運(yùn)行電流值則來(lái)自EMS系統(tǒng)。以中山供電局為例,在圖1中給出了輸電線路綜合 數(shù)據(jù)的詳細(xì)數(shù)據(jù)信息。
[0006] 輸電線路數(shù)據(jù)的異構(gòu)性是建立在其復(fù)雜性和多源性的基礎(chǔ)之上。復(fù)雜性和多源性 一定程度上決定了數(shù)據(jù)內(nèi)在結(jié)構(gòu)的不同,這些復(fù)雜的、多源的數(shù)據(jù)可以進(jìn)一步細(xì)分為結(jié)構(gòu) 化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。輸電線路綜合數(shù)據(jù)中結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的構(gòu)成與劃分如 圖2所示。
[0007] 結(jié)構(gòu)化數(shù)據(jù)是指存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),輸電線路綜合數(shù)據(jù)中的大部分?jǐn)?shù)據(jù) 是這種形式,如:微氣象、弧垂、絕緣子泄漏電流、電纜護(hù)層環(huán)流等,隨著信息技術(shù)的發(fā)展和 智能電網(wǎng)建設(shè)的逐步推進(jìn),測(cè)量采集裝置的增多以及采樣頻率的提高,這部分?jǐn)?shù)據(jù)將會(huì)很 快地增長(zhǎng)。
[0008] 相對(duì)于結(jié)構(gòu)化數(shù)據(jù)而言,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)存儲(chǔ)和展示的數(shù)據(jù)即稱(chēng)為 非結(jié)構(gòu)化數(shù)據(jù)。這部分?jǐn)?shù)據(jù)增長(zhǎng)非常迅速,互聯(lián)網(wǎng)數(shù)據(jù)中心的一項(xiàng)調(diào)查報(bào)告指出:企業(yè)中 80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%。在輸電線路綜合數(shù)據(jù)中, 電纜可視化子系統(tǒng)中的圖片圖像數(shù)據(jù)、架空線路視頻監(jiān)測(cè)的視頻圖像數(shù)據(jù)都是屬于非結(jié)構(gòu) 化數(shù)據(jù)。目前,大多數(shù)的電纜可視化系統(tǒng)均為"靜態(tài)"系統(tǒng),在電纜敷設(shè)時(shí),對(duì)電纜的名稱(chēng)、 敷設(shè)類(lèi)型(電纜槽、電纜溝、埋管、頂管)、與該段電纜相連的標(biāo)識(shí)球編號(hào)等靜態(tài)數(shù)據(jù)進(jìn)行記 錄并存儲(chǔ),只在顯示時(shí)進(jìn)行調(diào)用。在電纜可視化系統(tǒng)中重要的是標(biāo)識(shí)球位置圖,在敷設(shè)和更 新時(shí)對(duì)標(biāo)識(shí)球位置現(xiàn)場(chǎng)的環(huán)境拍攝圖片,當(dāng)電纜發(fā)生故障需要維護(hù)檢修時(shí)就要借助電纜可 視化系統(tǒng)中的標(biāo)識(shí)球位置圖幫助檢修人員快速、準(zhǔn)確的找到電纜實(shí)際的位置。
[0009] 現(xiàn)在較為常用的架空線視頻監(jiān)控方法是通過(guò)終端攝像頭采集圖像并編碼后通過(guò) MESH無(wú)線網(wǎng)絡(luò)將數(shù)據(jù)接入供電企業(yè)的電力光纖通信網(wǎng)絡(luò),通過(guò)TCP/IP協(xié)議將數(shù)據(jù)傳輸?shù)?線路監(jiān)測(cè)中心。以中山供電局架空線路視頻監(jiān)測(cè)為例,說(shuō)明該部分非結(jié)構(gòu)化數(shù)據(jù)的規(guī)模和 體量問(wèn)題。中山局供電局輸電管理所現(xiàn)下轄38個(gè)視頻監(jiān)測(cè)點(diǎn),這些監(jiān)測(cè)點(diǎn)安裝在比較重要 的和易受外力破壞的桿塔上,若攝像機(jī)采用8路、512 Kbps定碼率錄像,每天采集視頻圖像 12 h,則每小時(shí)產(chǎn)生的數(shù)據(jù)量為512X3 600/8/1 024=225 MB,每年所有的攝像頭采集到的 數(shù)據(jù)量為38X365X 12X225 MB=36 571.29 GB=35. 71 TB,數(shù)據(jù)體量巨大,具有電網(wǎng)大數(shù)據(jù) 中規(guī)模大的特點(diǎn),并且隨著監(jiān)測(cè)點(diǎn)的增多,數(shù)據(jù)量會(huì)越來(lái)越大。
[0010] 因此,現(xiàn)有的關(guān)系數(shù)據(jù)庫(kù)已經(jīng)無(wú)法滿(mǎn)足大數(shù)據(jù)的存儲(chǔ)需求,表現(xiàn)在以下4個(gè)方面: (1) 大數(shù)據(jù)的數(shù)據(jù)體量為T(mén)B或PB級(jí),關(guān)系數(shù)據(jù)庫(kù)已無(wú)法處理; (2) 數(shù)據(jù)訪問(wèn)時(shí)輸入輸出耗時(shí),數(shù)據(jù)響應(yīng)速度受到關(guān)系數(shù)據(jù)庫(kù)的制約,導(dǎo)致大數(shù)據(jù)快速 訪問(wèn)能力較低; (3) 針對(duì)視頻圖像、圖片、文檔等非結(jié)構(gòu)化數(shù)據(jù)缺乏處理能力; (4) 對(duì)海量數(shù)據(jù)處理的可擴(kuò)展性差。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明所要解決的技術(shù)問(wèn)題在于,提供一種基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ) 方法,可解決原有數(shù)據(jù)信息共享性差、信息呈孤島、非結(jié)構(gòu)化數(shù)據(jù)難以處理等問(wèn)題。
[0012] 為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ) 方法,包括:采集輸電線路綜合數(shù)據(jù),所述輸電線路綜合數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù) 據(jù);將所述輸電線路綜合數(shù)據(jù)進(jìn)行分類(lèi)處理;根據(jù)分類(lèi)結(jié)果構(gòu)建HBase表;將所述HBase表 內(nèi)的輸電線路綜合數(shù)據(jù)轉(zhuǎn)換為字節(jié)數(shù)組;將所述字節(jié)數(shù)組按照HBase表格式,依次存儲(chǔ)至 HBase分布式數(shù)據(jù)庫(kù),所述HBase分布式數(shù)據(jù)庫(kù)構(gòu)建于HDFS上。
[0013] 作為上述方案的改進(jìn),所述HBase表的列定義由多個(gè)列族構(gòu)成,每個(gè)列族可以包 含多個(gè)列,且列可以動(dòng)態(tài)增加;所述HBase表包括關(guān)鍵字、時(shí)標(biāo)、元數(shù)據(jù),所述時(shí)標(biāo)用于表示 元數(shù)據(jù)的采集時(shí)間;所述關(guān)鍵字由MAC地址及路號(hào)的字符串連接構(gòu)成,所述MAC地址用于表 示采集設(shè)備,路號(hào)用于表示通道號(hào)。
[0014] 作為上述方案的改進(jìn),所述HBase分布式數(shù)據(jù)庫(kù)包括RegionServer,所述 RegionServer上分布有多個(gè)Region,所述Region上分布有多個(gè)Store,所述Store由 MemSotre及存儲(chǔ)在HDFS上的StoreFile組成,所述MemStore為排序內(nèi)存緩沖區(qū);字節(jié)數(shù) 組存入所述HBase分布式數(shù)據(jù)庫(kù)時(shí),先存入所述MemStore,當(dāng)所述MemStore滿(mǎn)載后,形成一 個(gè)StoreFile文件,當(dāng)所形成的StoreFile文件數(shù)量到達(dá)預(yù)設(shè)閾值時(shí),則觸發(fā)合并操作,將 多個(gè)StoreFile文件合并成一個(gè)StoreFile文件,合并過(guò)程中進(jìn)行版本合并及數(shù)據(jù)刪除。
[0015] 作為上述方案的改進(jìn),所述StoreFile文件內(nèi)的字節(jié)數(shù)組的存儲(chǔ)通過(guò)HFile文件 實(shí)現(xiàn),所述字節(jié)數(shù)組存儲(chǔ)在所述HFi 1 e文件之中;所述HFi 1 e文件依次包括Data、Me ta、Data Index、Meta Index 及 Trailer,所述 Data Index 記錄了 Data 的偏移,所述 Meta Index 記 錄了 Meta的偏移,所述Trailer包括指向File Info的指針、指向Data Index的指針、指 向Meta Index的指針。
[0016] 作為上述方案的改進(jìn),所述合并操作包括"文件觸發(fā)"、"文件選取"、"文件合并"三 個(gè)階段,所述"文件觸發(fā)"階段決定觸發(fā)合并的時(shí)機(jī)與方式,所述"文件選取"階段決定合并 文件的選擇,所述"文件合并"決定合并的方式;所述觸發(fā)合并的時(shí)機(jī)與方式包括客戶(hù)端觸 發(fā)、RegjonServer進(jìn)行周期檢查時(shí)觸發(fā)、MemStore清空時(shí)觸發(fā)。
[0017] 作為上述方案的改進(jìn),當(dāng)單個(gè)StoreFile文件的大小超過(guò)預(yù)設(shè)閾值,則觸發(fā)分裂 操作,并把所述StoreFile文件所處的當(dāng)前Region分裂為兩個(gè)獨(dú)立的Region,新形成的兩 個(gè)Region會(huì)被分配到相應(yīng)的RegionServer上。
[0018] 作為上述方案的改進(jìn),所述RegionServer上還分布有一個(gè)實(shí)現(xiàn)預(yù)寫(xiě)日志的對(duì)象 HLog ;當(dāng)字節(jié)數(shù)組存入MemStore時(shí),同時(shí)寫(xiě)入到所述HLog中,所述HLog定期刪除已持久化 到StoreFile中的字節(jié)數(shù)組所對(duì)應(yīng)的舊文件并滾動(dòng)出新文件;當(dāng)RegionServer意外終止 后,則根據(jù)所述HLog進(jìn)行不同Region的字節(jié)數(shù)組的拆分、重新分配,實(shí)現(xiàn)字節(jié)數(shù)組的恢復(fù)。
[0019] 實(shí)施本發(fā)明,具有如下有益效果: 由上可知,將輸電線路綜合數(shù)據(jù)與HDFS、HBase相結(jié)合,從而構(gòu)建基于HBase的輸電線 路綜合數(shù)據(jù)存儲(chǔ)方法。其中,通過(guò)HBase對(duì)海量的輸電線路綜合數(shù)據(jù)進(jìn)行存儲(chǔ)及高速讀寫(xiě), 使結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)經(jīng)分類(lèi)、轉(zhuǎn)換后均能得到有效的處理。
[0020] 相應(yīng)地,通過(guò)強(qiáng)大的合并功能,使StoreFile得到有效的合并,實(shí)現(xiàn)過(guò)期數(shù)據(jù)的 刪除、提供讀的性能;通過(guò)強(qiáng)大的分裂功能,使得原有一個(gè)Region的壓力得以分流到兩個(gè) Region上,使資源空間得到最高效的利用;通過(guò)設(shè)置對(duì)象HLog,實(shí)現(xiàn)數(shù)據(jù)恢復(fù),保證數(shù)據(jù)的 穩(wěn)定性。解決了原有數(shù)據(jù)信息共享性差、信息呈孤島、非結(jié)構(gòu)化數(shù)據(jù)難以處理等問(wèn)題。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0021] 圖1是輸電線路綜合數(shù)據(jù)的詳細(xì)數(shù)據(jù)信息表; 圖2是輸電線路綜合數(shù)據(jù)中結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的構(gòu)成與劃分示意圖; 圖3是本發(fā)明基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ)方法的實(shí)施例流程圖; 圖4是HDFS的結(jié)構(gòu)體系示意圖; 圖5是基于HBase和HDFS的存儲(chǔ)架構(gòu)示意圖; 圖6是HFile文件的結(jié)構(gòu)組成示意圖; 圖7是HFile的分裂過(guò)程示意圖。
【具體實(shí)施方式】
[0022] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一 步地詳細(xì)描述。
[0023] 圖3是本發(fā)明基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ)方法的實(shí)施例流程圖,包括: S101,采集輸電線路綜合數(shù)據(jù)。
[0024] 所述輸電線路綜合數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)。
[0025] 如圖1所示,輸電線路綜合數(shù)據(jù)來(lái)源于不同的子系統(tǒng),可根據(jù)實(shí)際情況與各子系 統(tǒng)建立連接,采集各子系統(tǒng)中的輸電線路綜合數(shù)據(jù)。
[0026] S102,將所述輸電線路綜合數(shù)據(jù)進(jìn)行分類(lèi)處理。
[0027] 對(duì)采集到的輸電線路綜合數(shù)據(jù)按照數(shù)據(jù)的具體內(nèi)容進(jìn)行分類(lèi)處理,例如,可劃分 為:絕緣子泄漏電流、架空線桿塔地理坐標(biāo)、出廠試驗(yàn)數(shù)據(jù)等等…… S103,根據(jù)分類(lèi)結(jié)果構(gòu)建HBase表。
[0028] 更佳地,所述HBase表的列定義由多個(gè)列族構(gòu)成,每個(gè)列族可以包含多個(gè)列,且列 可以動(dòng)態(tài)增加;所述HBase表包括關(guān)鍵字、時(shí)標(biāo)、元數(shù)據(jù),所述時(shí)標(biāo)用于表示元數(shù)據(jù)的采集 時(shí)間;所述關(guān)鍵字由MAC地址及路號(hào)的字符串連接構(gòu)成,所述MAC地址用于表示采集設(shè)備, 路號(hào)用于表示通道號(hào)。
[0029] 例如,以絕緣子泄漏電流為例進(jìn)行說(shuō)明。
[0030] 絕緣子泄漏電流數(shù)據(jù)一般包含設(shè)備節(jié)點(diǎn)物理地址、采集時(shí)刻、產(chǎn)生通道、微氣候記 錄(包括環(huán)境溫度、濕度等)以及若干個(gè)周期長(zhǎng)度的數(shù)據(jù)(默認(rèn)值,在采樣率固定的情況下每 個(gè)采樣點(diǎn)的時(shí)間都可計(jì)算),具體如表1所示:
【權(quán)利要求】
1. 一種基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ)方法,其特征在于,包括: 采集輸電線路綜合數(shù)據(jù),所述輸電線路綜合數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù); 將所述輸電線路綜合數(shù)據(jù)進(jìn)行分類(lèi)處理; 根據(jù)分類(lèi)結(jié)果構(gòu)建HBase表; 將所述HBase表內(nèi)的輸電線路綜合數(shù)據(jù)轉(zhuǎn)換為字節(jié)數(shù)組; 將所述字節(jié)數(shù)組按照HBase表格式,依次存儲(chǔ)至HBase分布式數(shù)據(jù)庫(kù),所述HBase分布 式數(shù)據(jù)庫(kù)構(gòu)建于HDFS上。
2. 如權(quán)利要求1所述的基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ)方法,其特征在于,所述 HBase表的列定義由多個(gè)列族構(gòu)成,每個(gè)列族可以包含多個(gè)列,且列可以動(dòng)態(tài)增加; 所述HBase表包括關(guān)鍵字、時(shí)標(biāo)、元數(shù)據(jù),所述時(shí)標(biāo)用于表示元數(shù)據(jù)的采集時(shí)間; 所述關(guān)鍵字由MAC地址及路號(hào)的字符串連接構(gòu)成,所述MAC地址用于表示采集設(shè)備,路 號(hào)用于表示通道號(hào)。
3. 如權(quán)利要求1所述的基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ)方法,其特征在于,所述 HBase分布式數(shù)據(jù)庫(kù)包括RegionServer,所述RegionServer上分布有多個(gè)Region,所述 Region上分布有多個(gè)Store,所述Store由MemSotre及存儲(chǔ)在HDFS上的StoreFile組成, 所述MemStore為排序內(nèi)存緩沖區(qū); 字節(jié)數(shù)組存入所述HBase分布式數(shù)據(jù)庫(kù)時(shí),先存入所述MemStore,當(dāng)所述MemStore滿(mǎn) 載后,形成一個(gè)StoreFile文件,當(dāng)所形成的StoreFile文件數(shù)量到達(dá)預(yù)設(shè)閾值時(shí),則觸發(fā) 合并操作,將多個(gè)StoreFile文件合并成一個(gè)StoreFile文件,合并過(guò)程中進(jìn)行版本合并及 數(shù)據(jù)刪除。
4. 如權(quán)利要求3所述的基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ)方法,其特征在于,所述 StoreFile文件內(nèi)的字節(jié)數(shù)組的存儲(chǔ)通過(guò)HFile文件實(shí)現(xiàn),所述字節(jié)數(shù)組存儲(chǔ)在所述HFile 文件之中; 所述 HFile 文件依次包括 Data、Meta、Data Index、Meta Index 及 Trailer,所述 Data Index記錄了 Data的偏移,所述Meta Index記錄了 Meta的偏移,所述Trailer包括指向 File Info的指針、指向Data Index的指針、指向Meta Index的指針。
5. 如權(quán)利要求3所述的基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ)方法,其特征在于,所述 合并操作包括"文件觸發(fā)"、"文件選取"、"文件合并"三個(gè)階段,所述"文件觸發(fā)"階段決定 觸發(fā)合并的時(shí)機(jī)與方式,所述"文件選取"階段決定合并文件的選擇,所述"文件合并"決定 合并的方式; 所述觸發(fā)合并的時(shí)機(jī)與方式包括客戶(hù)端觸發(fā)、RegjonServer進(jìn)行周期檢查時(shí)觸發(fā)、 MemStore清空時(shí)觸發(fā)。
6. 如權(quán)利要求3所述的基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ)方法,其特征在于,當(dāng) 單個(gè)StoreFile文件的大小超過(guò)預(yù)設(shè)閾值,則觸發(fā)分裂操作,并把所述StoreFile文件 所處的當(dāng)前Region分裂為兩個(gè)獨(dú)立的Region,新形成的兩個(gè)Region會(huì)被分配到相應(yīng)的 RegionServer 上。
7. 如權(quán)利要求3所述的基于HBase的輸電線路綜合數(shù)據(jù)存儲(chǔ)方法,其特征在于,所述 RegionServer上還分布有一個(gè)實(shí)現(xiàn)預(yù)寫(xiě)日志的對(duì)象HLog ; 當(dāng)字節(jié)數(shù)組存入MemStore時(shí),同時(shí)寫(xiě)入到所述HLog中,所述HLog定期刪除已持久化 到StoreFile中的字節(jié)數(shù)組所對(duì)應(yīng)的舊文件并滾動(dòng)出新文件; 當(dāng)RegionServer意外終止后,則根據(jù)所述HLog進(jìn)行不同Region的字節(jié)數(shù)組的拆分、 重新分配,實(shí)現(xiàn)字節(jié)數(shù)組的恢復(fù)。
【文檔編號(hào)】G06Q50/06GK104216989SQ201410454492
【公開(kāi)日】2014年12月17日 申請(qǐng)日期:2014年9月9日 優(yōu)先權(quán)日:2014年9月9日
【發(fā)明者】彭子平, 劉波, 王干軍, 于恒友, 陳清江, 戴征獻(xiàn), 楊曉勇, 郭栩文, 王榮鵬, 羅應(yīng)文, 聶文翔 申請(qǐng)人:廣東電網(wǎng)公司中山供電局, 廣州運(yùn)維電力科技有限公司