專利名稱:面向智能電網的數(shù)據(jù)密集型云存儲模型的制作方法
技術領域:
本發(fā)明屬于電力系統(tǒng)信息通信技術領域,涉及一種面向智能電網海量數(shù)據(jù)環(huán)境下的存儲方法,該方法可以解決“大數(shù)據(jù)”存儲問題,實現(xiàn)多個數(shù)據(jù)中心的負載均衡。
背景技術:
目前,云存儲發(fā)展呈現(xiàn)分布式數(shù)據(jù)密集型趨勢,廣泛應用于天文學、物理學和生物信息學領域,這類應用的部署和執(zhí)行所涉及的TB,甚至PB級的數(shù)據(jù)往往存儲于分布式的數(shù)據(jù)中心,需要多數(shù)據(jù)中心的有機協(xié)同,因此,跨數(shù)據(jù)中心的數(shù)據(jù)有效分布具有極其重要的作用一方面,云環(huán)境下的應用所需的數(shù)據(jù)集通常位于多個數(shù)據(jù)中心,數(shù)據(jù)中心間的數(shù)據(jù)傳輸無可避免,需要考慮網絡帶寬資源和傳輸?shù)臅r間開銷;另一方面,分布式環(huán)境下的數(shù)據(jù)依賴性能夠有效地提高數(shù)據(jù)管理和使用的效率,需要設計合理的數(shù)據(jù)分布策略來保持數(shù)據(jù)間的依賴關系。此外,數(shù)據(jù)中心內的數(shù)據(jù)分布方案對于提升存儲系統(tǒng)的可靠性和可用性也具有重要的作用,針對當前廣泛應用的SAN存儲網絡,系統(tǒng)的可擴展性是提升整體性能的首要因素,因此有必要對不同的數(shù)據(jù)分布模式進行量化分析,兼顧數(shù)據(jù)的均勻分布和全局的負載均衡。隨著電網建設規(guī)模的不斷擴大,數(shù)字化電網、數(shù)字化變電站等研究應用的不斷深入,系統(tǒng)面對的采集點越來越多。一個中等規(guī)模地區(qū)的采集量可以達到2萬至10萬,而一個大型地調未來可能面臨50-100萬的數(shù)據(jù)采集規(guī)模,一年的數(shù)據(jù)存儲規(guī)模將從目前的GB 級轉向TB級;此外,隨著調度自動化水平的不斷提高,提出了實時運行數(shù)據(jù)不采用周期性采樣存儲而是按照實際時間序列連續(xù)存儲的更高的要求,以滿足更多的應用需求,這也將導致數(shù)據(jù)存儲規(guī)模數(shù)十倍的增長,同時,歷史數(shù)據(jù)的存儲組織策略以及查詢檢索策略也將變得相當復雜。如此海量規(guī)模的電力信息能否實現(xiàn)有效存儲并進行高效處理將是一個很大的問題。常見的數(shù)據(jù)密集型管理策略主要針對分布式環(huán)境下的大規(guī)模數(shù)據(jù)建模和基礎設施服務展開研究,例如面向角色的數(shù)據(jù)建模方法,可用于網格環(huán)境下的數(shù)據(jù)建模,并使用數(shù)據(jù)網格來對數(shù)據(jù)進行管理;基于P2P模式的分布式數(shù)據(jù)建模方法,采用流程定義語言表示其數(shù)據(jù)流,實現(xiàn)分布存儲資源中海量數(shù)據(jù)集的訪問、移動和修改。然而,現(xiàn)有的系統(tǒng)的數(shù)據(jù)管理策略沒有關注數(shù)據(jù)的存放分布和數(shù)據(jù)間依賴性的分析,因此無法減少數(shù)據(jù)遷移所帶來的時間開銷和提升整體執(zhí)行效率。
發(fā)明內容
本發(fā)明結合智能電網的數(shù)據(jù)特性,通過分析云計算環(huán)境下存儲應用系統(tǒng)的特點, 在全面分析數(shù)據(jù)傳輸次數(shù)、數(shù)據(jù)集大小以及數(shù)據(jù)中心間網絡帶寬等因素的基礎上,通過聚類分析、依賴性分析和哈希算法對多數(shù)據(jù)中心的數(shù)據(jù)集分布進行統(tǒng)籌規(guī)劃,并引入系統(tǒng)執(zhí)行效能的代價函數(shù)對數(shù)據(jù)分布方案進行評價和調整,從而在降低系統(tǒng)開銷的同時最大限度地兼顧數(shù)據(jù)集間的依賴關系。為了實現(xiàn)上述發(fā)明目的,本發(fā)明提出的云存儲模型包括多數(shù)據(jù)中心的數(shù)據(jù)分布和數(shù)據(jù)中心內的數(shù)據(jù)存儲兩個方面。針對多數(shù)據(jù)中心的數(shù)據(jù)分布問題,將智能電網信息平臺表示為扁平化的多個分布式數(shù)據(jù)中心,在此基礎上對數(shù)據(jù)和工作流分別建模,在引入數(shù)據(jù)集聚類分析的同時設計了兩階段的數(shù)據(jù)分布方法第一階段基于K均值分析對數(shù)據(jù)進行迭代計算,生成初始分類;第二階段詳細分析數(shù)據(jù)中心間的隸屬關系引入數(shù)據(jù)傳輸?shù)臅r間開銷評估,形成數(shù)據(jù)集的最優(yōu)分布。針對數(shù)據(jù)中心內的數(shù)據(jù)存儲問題,遵循存儲同構原則進行存儲設備的邏輯劃分,圍繞數(shù)據(jù)存儲的有效性和擴展性進行分析,實現(xiàn)系統(tǒng)中不同磁盤間數(shù)據(jù)的動態(tài)分布。本發(fā)明的有益效果在于,該數(shù)據(jù)存儲模型完全通過自主設計來實現(xiàn)數(shù)據(jù)分布和通信算法,克服了傳統(tǒng)存儲模型在靈活性和實用性上的弊端,使得該存儲方法能夠有效降低多數(shù)據(jù)中心間的數(shù)據(jù)流動開銷,以及充分利用數(shù)據(jù)中心內的存儲資源,將有非常廣闊的應用前景。
圖1是數(shù)據(jù)分布的實現(xiàn)框圖。圖2是數(shù)據(jù)存儲的磁盤劃分示意圖。
具體實施例方式(1) 多數(shù)據(jù)中心云存儲模型
智能電網建設要求貫通智能電網發(fā)電、輸電、變電、配電、用電、調度六大環(huán)節(jié),實現(xiàn)信息的全面采集、流暢傳輸和高效處理,支撐電力流、信息流、業(yè)務流的高度一體化,適應海量信息的可靠存儲和管理,提升數(shù)據(jù)使用效能。本發(fā)明將智能電網信息處理抽象成工作流和數(shù)據(jù)流,結合云存儲下數(shù)據(jù)分布的相關概念進行建模,包括數(shù)據(jù)模型、應用模型和依賴關系等。智能電網信息平臺可以表示為扁平化的多個分布式數(shù)據(jù)中心組成的集合C=IC1,C2,… CJ,其中Ci表示第i個數(shù)據(jù)中心。由于云計算的數(shù)據(jù)類型具有復雜性和多樣性特點,因此本發(fā)明屏蔽了智能電網環(huán)境下數(shù)據(jù)的結構特性,數(shù)據(jù)被視為數(shù)據(jù)密集型應用環(huán)境下面向多任務的數(shù)據(jù)集。定義數(shù)據(jù)流關聯(lián)的數(shù)據(jù)集的全集為D,相應工作流的任務集為T=IT1, T2,… TJ。對于任意的數(shù)據(jù)集diD,定義描述數(shù)據(jù)集屬性的二元組為<Ti,Si>,其中Ti表示調用數(shù)據(jù)集Cli的所有任務的集合,Si是數(shù)據(jù)集屯的大小。對任意的數(shù)據(jù)集對屯和…,相應的依賴
關系定義為
權利要求
1.面向智能電網的數(shù)據(jù)密集型云存儲模型,其特征在于針對智能電網海量數(shù)據(jù)存儲需求,設計了兩階段的數(shù)據(jù)分布策略,在分布策略中引入聚類分析和數(shù)據(jù)依賴關系計算,實現(xiàn)數(shù)據(jù)在多數(shù)據(jù)中心的優(yōu)化配置,從而在智能電網數(shù)據(jù)密集型工作流環(huán)境下,以最小化數(shù)據(jù)傳輸開銷為目標在移動計算和移動數(shù)據(jù)這兩個環(huán)節(jié)作出平衡。
2.根據(jù)權利要求1所述的面向智能電網的數(shù)據(jù)密集型云存儲模型,其特征在于該存儲架構下數(shù)據(jù)集平均分布于不同的磁盤;在物理磁盤增加或刪除的情況下,最小化物理磁盤變化所導致的數(shù)據(jù)重新分布的開銷。
全文摘要
面向智能電網的數(shù)據(jù)密集型云存儲模型。為充分利用計算存儲資源,滿足智能電網大規(guī)模數(shù)據(jù)可靠存儲和高效處理的實際需求,提出了基于云計算的數(shù)據(jù)密集型存儲方法,該方法將數(shù)據(jù)集映射成數(shù)據(jù)空間的點集,并設計了二階段分類過程,第一階段基于傳統(tǒng)的K均值算法實現(xiàn)點集的初始分類,第二階段針對各數(shù)據(jù)集與初始聚類的隸屬關系,引入數(shù)據(jù)遷移的代價函數(shù),對初始分類進行調節(jié),實現(xiàn)數(shù)據(jù)集到數(shù)據(jù)中心的布局方案。實驗結構表明,該算法能夠有效地提高數(shù)據(jù)存取效率和兼顧全局負載均衡。
文檔編號G06F3/06GK102523300SQ20111043652
公開日2012年6月27日 申請日期2011年12月23日 優(yōu)先權日2011年12月23日
發(fā)明者丁杰, 吳軍民, 周愛華, 奚后瑋, 朱力鵬, 韓海韻 申請人:國網電力科學研究院