;
[0049]并行存儲(chǔ)裝置23,用于存儲(chǔ)多個(gè)子遙感影像文件;
[0050]分布式數(shù)據(jù)庫HBase24,用于存儲(chǔ)第一元數(shù)據(jù)信息。
[0051 ]在一個(gè)優(yōu)選的實(shí)施例中,第一元數(shù)據(jù)信息包括:
[0052]子遙感影像文件的數(shù)據(jù)信息以及存儲(chǔ)位置。
[0053]在一個(gè)優(yōu)選的實(shí)施例中,子遙感影像文件的數(shù)據(jù)信息為子遙感影像文件所對應(yīng)的地理覆蓋區(qū)域的參數(shù)。
[°°54] 在一個(gè)優(yōu)選的實(shí)施例中,MapReduce22進(jìn)一步用于記錄海量遙感影像文件對應(yīng)的第二元數(shù)據(jù)信息,其中,第二元數(shù)據(jù)信息為海量遙感影像文件所對應(yīng)的地理覆蓋區(qū)域的參數(shù)。
[0055]在一個(gè)優(yōu)選的實(shí)施例中,HBase24進(jìn)一步用于對第一元數(shù)據(jù)信息進(jìn)行備份。
[0056]為了更好的理解本發(fā)明,下面以具體實(shí)施例進(jìn)行詳細(xì)闡述。如圖3所示的根據(jù)本發(fā)明的具體實(shí)施例的存儲(chǔ)系統(tǒng)的示意圖,在圖3中:
[0057]并行存儲(chǔ)裝置為ParaStor200并行存儲(chǔ)系統(tǒng)。ParaStor200云存儲(chǔ)系統(tǒng)采用了代表存儲(chǔ)技術(shù)、網(wǎng)絡(luò)通信技術(shù)以及數(shù)據(jù)管理技術(shù)發(fā)展方向的并行體系架構(gòu),是一款面向海量非結(jié)構(gòu)化數(shù)據(jù)處理的高端存儲(chǔ)系統(tǒng)。它可以提供TB/s級(jí)的高速帶寬和EB級(jí)的海量存儲(chǔ)空間。ParaStorfOO云存儲(chǔ)系統(tǒng)先進(jìn)的架構(gòu)使其具備超強(qiáng)的橫向擴(kuò)展能力,只需要簡單地增加數(shù)據(jù)控制器,即可獲得更大的存儲(chǔ)容量和更多的數(shù)據(jù)通道,從而獲得更高的系統(tǒng)聚合帶寬和I/O性能。隨著數(shù)據(jù)控制器的增加,所有物理資源(CPU、緩存、網(wǎng)絡(luò)帶寬和磁盤讀寫帶寬)自動(dòng)實(shí)現(xiàn)負(fù)載均衡,滿足成千上萬個(gè)客戶端的數(shù)據(jù)并發(fā)存取需求。此外,ParaStorfOO高可用、全冗余的架構(gòu)設(shè)計(jì)也使其具有及時(shí)的系統(tǒng)預(yù)警、準(zhǔn)確的故障定位和優(yōu)越的容錯(cuò)恢復(fù)能力,可以保障業(yè)務(wù)系統(tǒng)7 X 24小時(shí)的持續(xù)可用,實(shí)現(xiàn)海量存儲(chǔ)系統(tǒng)最高級(jí)別的可靠性。HBase是BigTable的開源實(shí)現(xiàn),是基于HDFS開發(fā)的面向列的分布式數(shù)據(jù)庫,沒有關(guān)系型數(shù)據(jù)庫的事務(wù)性,對于非關(guān)系性海量數(shù)據(jù)的查詢,特別是實(shí)時(shí)地隨機(jī)讀/寫超大規(guī)模數(shù)據(jù)集效率較高。
[0058]整個(gè)框架可以分為ParaStor200存儲(chǔ)層、用于處理和檢索海量影像數(shù)據(jù)的中間層、調(diào)用這些服務(wù)的接口層以及具體的應(yīng)用層組成。物理層是提供海量影像數(shù)據(jù)的物理存儲(chǔ),通過ParaStor200向外提供同一的訪問接口,同時(shí)實(shí)現(xiàn)負(fù)載均衡、冗余備份、節(jié)點(diǎn)異常等等功能。中間層通過訪問ParaStorfOO提供的接口實(shí)現(xiàn)數(shù)據(jù)的處理和存儲(chǔ)。接口層在中間層的基礎(chǔ)上提供統(tǒng)一的標(biāo)準(zhǔn)訪問接口。應(yīng)用層利用接口層提供的接口編寫分布式的并行處理應(yīng)用程序。通過這一框架,可以實(shí)現(xiàn)海量遙感影像的高效存儲(chǔ)和管理。
[0059]利用這一架構(gòu)存儲(chǔ)遙感影像相比傳統(tǒng)架構(gòu)和原始Hadoop具有以下優(yōu)勢。首先Parastor200提供副本和N+M冗余的數(shù)據(jù)備份策略,可以滿足不同應(yīng)用需求,其中N+M冗余備份的空間利用率最高可達(dá)94%,而HDFS最多50%。其次,Parastor管理節(jié)點(diǎn)采用雙活的模式,兩個(gè)管理節(jié)點(diǎn)同時(shí)提供服務(wù),具有更高的效率,同時(shí)一個(gè)管理節(jié)點(diǎn)出現(xiàn)故障,另一個(gè)可以正常工作,而HDFS的HA只有一個(gè)管理節(jié)點(diǎn)提供服務(wù),并且由雙節(jié)點(diǎn)同步存在滯后,當(dāng)主節(jié)點(diǎn)出現(xiàn)故障時(shí),數(shù)據(jù)損失是無法避免的。利用HBase存儲(chǔ)元數(shù)據(jù)解決了傳統(tǒng)關(guān)系數(shù)據(jù)庫擴(kuò)展性問題,HBase默認(rèn)按照key排序,同時(shí)當(dāng)表過大時(shí)會(huì)主動(dòng)切分,這樣保證了HBase的查詢效率。而HBase的快照服務(wù)可以在不影響服務(wù)的情況下實(shí)現(xiàn)對元數(shù)據(jù)的備份,同時(shí)XData-Hadoop可實(shí)現(xiàn)一鍵備份和自動(dòng)備份的功能。
[0060]在本實(shí)施例中,利用上述框架,對于海量遙感影像文件的具體存儲(chǔ)流程如下:[0061 ] 1.用戶終端提交需要存儲(chǔ)的海量遙感影像文件。
[0062]2.利用MapReduce實(shí)現(xiàn)對較大的遙感影像(例如幾百兆或超過IG的影像文件)的四叉樹分割,將海量遙感影像文件按照指定大小分割成多個(gè)較小的子文件,并記錄每個(gè)子文件對應(yīng)的四叉樹編號(hào)、地理空間范圍等用于表示子文件顯示的地理影像區(qū)域的參數(shù)。同時(shí),MapReduce還會(huì)記錄原海量遙感影像文件的元數(shù)據(jù)信息,其中,元數(shù)據(jù)信息為海量遙感影像文件對應(yīng)的四叉樹編號(hào)、地理空間范圍等用于表示海量遙感影像文件顯示的地理影像區(qū)域的參數(shù)。特別的,在本實(shí)施例中,對大文件的分塊是根據(jù)存儲(chǔ)系統(tǒng)的塊大小進(jìn)行分割,例如本實(shí)施例中的ParaStor200存儲(chǔ)系統(tǒng),其塊大小是64M,因此,當(dāng)文件小于64M時(shí),將不再對文件進(jìn)行分割。
[0063]3.將分割后的多個(gè)子文件存入ParaStor200。
[0064]4.將第2步中記錄的子文件的各參數(shù)以及子文件在ParaStore200中的存儲(chǔ)位置生成元數(shù)據(jù)信息,并存入HBase中,其中,在HBase中,以四叉樹編號(hào)為Key,其他信息為列對元數(shù)據(jù)信息進(jìn)行排序,進(jìn)而實(shí)現(xiàn)文件的快速查詢。
[0065]綜上所述,借助于本發(fā)明的上述技術(shù)方案,通過建立四叉樹索引、HBase存儲(chǔ)遙感元數(shù)據(jù)實(shí)現(xiàn)了基于Parastor200S卩,并行存儲(chǔ)裝置和XData-Hadoop即大數(shù)據(jù)處理平臺(tái)存儲(chǔ)和管理海量遙感影像數(shù)據(jù)的方法。首先,并行存儲(chǔ)裝置解決了海量遙感影像的存儲(chǔ)問題。同時(shí)利用四叉樹索引實(shí)現(xiàn)大文件的分割和索引,用來保證大文件的快速查詢和局部影像的快速定位。索引和分割程序采用MapReduce實(shí)現(xiàn),保證大規(guī)模文件處理的效率。利用HBase存儲(chǔ)遙感影像元數(shù)據(jù)和索引數(shù)據(jù)實(shí)現(xiàn)實(shí)時(shí)、隨機(jī)讀/寫超大規(guī)模數(shù)據(jù)集。
[0066]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種存儲(chǔ)方法,其特征在于,所述存儲(chǔ)方法用于存儲(chǔ)海量遙感影像文件,包括: 接收所述海量遙感影像文件; 根據(jù)四叉樹索引,將所述海量遙感影像文件分割為多個(gè)子遙感影像文件并記錄所述子遙感影像文件對應(yīng)的第一元數(shù)據(jù)信息; 存儲(chǔ)所述多個(gè)子遙感影像文件以及所述第一元數(shù)據(jù)信息。2.根據(jù)權(quán)利要求1所述的存儲(chǔ)方法,其特征在于,所述第一元數(shù)據(jù)信息包括: 子遙感影像文件的數(shù)據(jù)信息以及存儲(chǔ)位置。3.根據(jù)權(quán)利要求2所述的存儲(chǔ)方法,其特征在于, 所述子遙感影像文件的數(shù)據(jù)信息為所述子遙感影像文件所對應(yīng)的地理覆蓋區(qū)域的參數(shù)。4.根據(jù)權(quán)利要求1所述的存儲(chǔ)方法,其特征在于,存儲(chǔ)所述多個(gè)子遙感影像文件以及所述第一元數(shù)據(jù)信息之前進(jìn)一步包括: 記錄所述海量遙感影像文件對應(yīng)的第二元數(shù)據(jù)信息,其中,所述第二元數(shù)據(jù)信息為所述海量遙感影像文件所對應(yīng)的地理覆蓋區(qū)域的參數(shù)。5.根據(jù)權(quán)利要求1所述的存儲(chǔ)方法,其特征在于,進(jìn)一步包括: 對所述第一元數(shù)據(jù)信息進(jìn)行備份。6.一種存儲(chǔ)系統(tǒng),其特征在于,所述存儲(chǔ)系統(tǒng)用于存儲(chǔ)海量遙感影像文件,包括: 接收裝置,用于接收所述海量遙感影像文件; 編程模型MapReduce,用于根據(jù)四叉樹索引,將所述海量遙感影像文件分割為多個(gè)子遙感影像文件并記錄所述子遙感影像文件對應(yīng)的第一元數(shù)據(jù)信息; 并行存儲(chǔ)裝置,用于存儲(chǔ)所述多個(gè)子遙感影像文件; 分布式數(shù)據(jù)庫HBase,用于存儲(chǔ)所述第一元數(shù)據(jù)信息。7.根據(jù)權(quán)利要求6所述的存儲(chǔ)系統(tǒng),其特征在于,所述第一元數(shù)據(jù)信息包括: 子遙感影像文件的數(shù)據(jù)信息以及存儲(chǔ)位置。8.根據(jù)權(quán)利要求7所述的存儲(chǔ)系統(tǒng),其特征在于, 所述子遙感影像文件的數(shù)據(jù)信息為所述子遙感影像文件所對應(yīng)的地理覆蓋區(qū)域的參數(shù)。9.根據(jù)權(quán)利要求6所述的存儲(chǔ)系統(tǒng),其特征在于, 所述MapReduce進(jìn)一步用于記錄所述海量遙感影像文件對應(yīng)的第二元數(shù)據(jù)信息,其中,所述第二元數(shù)據(jù)信息為所述海量遙感影像文件所對應(yīng)的地理覆蓋區(qū)域的參數(shù)。10.根據(jù)權(quán)利要求6所述的存儲(chǔ)系統(tǒng),其特征在于, 所述HBase進(jìn)一步用于對所述第一元數(shù)據(jù)信息進(jìn)行備份。
【專利摘要】本發(fā)明提出了一種存儲(chǔ)方法及系統(tǒng),該存儲(chǔ)方法用于存儲(chǔ)海量遙感影像,包括:接收海量遙感影像文件;根據(jù)四叉樹索引,將海量遙感影像文件分割為多個(gè)子遙感影像文件并記錄子遙感影像文件對應(yīng)的第一元數(shù)據(jù)信息;存儲(chǔ)多個(gè)子遙感影像文件以及第一元數(shù)據(jù)信息。本發(fā)明基于四叉樹索引將海量遙感影像文件分割成多個(gè)小文件,并將多個(gè)小文件進(jìn)行存儲(chǔ),從而實(shí)現(xiàn)了對海量遙感影像文件的存儲(chǔ)與管理,同時(shí)大大提高了對海量遙感影像文件的查詢效率以及對局部影像的定位能力。
【IPC分類】G06F17/30
【公開號(hào)】CN105630919
【申請?zhí)枴緾N201510971664
【發(fā)明人】譚祥爽, 王慧
【申請人】曙光信息產(chǎn)業(yè)(北京)有限公司
【公開日】2016年6月1日
【申請日】2015年12月22日