專利名稱:一種超大規(guī)模低成本存儲系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本實用新型涉及計算機及網(wǎng)絡(luò)信息技術(shù)領(lǐng)域,尤其涉及一種超大規(guī)模低成本存儲系統(tǒng)。
背景技術(shù):
隨著信息時代的飛速發(fā)展,信息量的爆炸式增長已成為一種時代特征,隨之而來的問題便是海量數(shù)據(jù)的存儲問題,傳統(tǒng)的硬盤式的存儲顯然難以滿足需求,后來出現(xiàn)的DAS(Direct-Attached Storage—直連式存儲)存儲方式,解決了存儲數(shù)據(jù)量的問題,但分立的DAS存儲形成一個個孤島,當一個存儲容量飽和,即使其他的DAS設(shè)備有富余的容量也需要購買新的存儲設(shè)備,而且新加一個服務(wù)器也要新加一個DAS,存儲成本較高,后來的NAS(Network Attached Storage—網(wǎng)絡(luò)連接式存儲)和 SAN (Storage Area Network—存儲網(wǎng)絡(luò))解決了存儲空間公用的問題,但隨著數(shù)據(jù)量的增長,集群的性能和可擴展性又成了主 要問題,也就無法實現(xiàn)超大規(guī)模低成本存儲系統(tǒng)的構(gòu)建。
實用新型內(nèi)容本實用新型實施的目的在于解決現(xiàn)有存儲解決方案中存在的易用性差、集成度不高、擴展性不強,成本較高等問題,構(gòu)建一種同時具有高可靠、性能優(yōu)異、易維護、擴展性強、高密度的超大規(guī)模低成本的存儲系統(tǒng)。本實用新型采用如下技術(shù)方案一種超大規(guī)模低成本存儲系統(tǒng),包括以下模塊卷管理節(jié)點(SuMaster)該節(jié)點維護所有元數(shù)據(jù)服務(wù)器子集群的信息,為掛載客戶端提供元數(shù)據(jù)服務(wù)器標識、IP地址和端口號信息;包括主卷管理服務(wù)器(SuperMaster)及備卷管理服務(wù)器(SlaveSuperMaster);元數(shù)據(jù)管理節(jié)點(Master)管理元數(shù)據(jù),為掛載客戶端提供元數(shù)據(jù)訪問服務(wù);包括主元數(shù)據(jù)服務(wù)器(Master)和備元數(shù)據(jù)服務(wù)器(Slave Master);塊數(shù)據(jù)存儲節(jié)點(Data Node)存儲數(shù)據(jù)塊,并根據(jù)配置的備份策略將數(shù)據(jù)塊發(fā)送給由元數(shù)據(jù)管理節(jié)點選定的另一塊數(shù)據(jù)存儲節(jié)點進行數(shù)據(jù)塊備份;用戶掛載客戶端(MountClient)文件系統(tǒng)掛載客戶端,掛載后可對應(yīng)用透明為普通的單點文件系統(tǒng)。管理監(jiān)控中心(NMC)包括配置中心和監(jiān)控中心,負責管理和監(jiān)控整個存儲系統(tǒng),為管理員提供強大的管理功能,優(yōu)化硬件資源配置。現(xiàn)有技術(shù)中存儲系統(tǒng)都是單臺的元數(shù)據(jù)服務(wù)器、塊數(shù)據(jù)服務(wù)器和訪問客戶端,元數(shù)據(jù)都保存在內(nèi)存中,由于內(nèi)存有限無法做到大規(guī)模擴張,因而存儲的文件總數(shù)量有限,每個客戶端只能訪問一個個固定的小集群中的文件,而本實用新型構(gòu)建的超大規(guī)模低成本存儲系統(tǒng)以廉價的普通磁盤為介質(zhì),能夠?qū)崿F(xiàn)客戶端自動的在多個集群中訪問所有文件。存儲服務(wù)器單節(jié)點可掛載16塊硬盤,按照當前單盤容量為3TB來算,單節(jié)點容量可達48TB。采用卷管理服務(wù)器+子集群的架構(gòu)可以滿足IOOPB容量要求。一個標準的42U機架將能夠提供高達1PB(1024TB)的容量。依照本方法構(gòu)建的存儲系統(tǒng)可提供海量數(shù)據(jù)存儲,容量無上限,理論支撐容量可達到GP級,即1024*1024*1024PB,真正做到超大規(guī)模低成本存儲。本實用新型構(gòu)建的系統(tǒng),卷管理節(jié)點及元數(shù)據(jù)管理節(jié)點均采用雙機熱備方式,大大提高了系統(tǒng)的可靠性。
圖1為本實用新型系統(tǒng)架構(gòu)圖; 圖2為本實用新型系統(tǒng)的組網(wǎng)方式及部署架構(gòu)圖;圖3是中心服務(wù)器模式圖;圖4是Hash環(huán)示意圖。
具體實施方式
以下結(jié)合附圖對本實用新型的技術(shù)方案進行詳細說明如圖1、圖2所示,本實用新型系統(tǒng)包括卷管理節(jié)點(SuMaster)、元數(shù)據(jù)管理節(jié)點(Master)、塊數(shù)據(jù)存儲節(jié)點(Data Node)、用戶掛載客戶端(MountClient)和管理監(jiān)控中心(NMC)0卷管理節(jié)點維護所有元數(shù)據(jù)服務(wù)器子集群的信息,為掛載客戶端提供元數(shù)據(jù)服務(wù)器標識、IP地址和端口號信息,包括主卷管理服務(wù)器(SuperMaster)及備卷管理服務(wù)器(Slave SuperMaster),主、備卷管理服務(wù)器通過同一個VIP (虛擬IP)對外提供服務(wù),主、備卷管理服務(wù)器通過監(jiān)控中心添加配置和維護兩者狀態(tài)統(tǒng)一。元數(shù)據(jù)管理節(jié)點管理元數(shù)據(jù),為掛載客戶端提供元數(shù)據(jù)訪問服務(wù),包括主元數(shù)據(jù)服務(wù)器(Master)和備元數(shù)據(jù)服務(wù)器(Slave Master),主、備元數(shù)據(jù)服務(wù)器通過scoket網(wǎng)絡(luò)通信,實時的把每次變化的元數(shù)據(jù)同步到備元數(shù)據(jù)服務(wù)器,如果元數(shù)據(jù)不一致,則通過全量同步達到兩者一致,主、備元數(shù)據(jù)服務(wù)器通過同一個VIP對外提供服務(wù)。塊數(shù)據(jù)存儲節(jié)點存儲數(shù)據(jù)塊,并根據(jù)配置的備份策略將數(shù)據(jù)塊發(fā)送給另一塊數(shù)據(jù)存儲節(jié)點進行數(shù)據(jù)塊備份,備份節(jié)點由Master根據(jù)當前的負載情況,選擇負載最輕的塊數(shù)據(jù)存儲節(jié)點。管理監(jiān)控中心包括配置中心和監(jiān)控中心,負責管理和監(jiān)控整個存儲系統(tǒng),為管理員提供強大的管理功能,優(yōu)化硬件資源配置。配置中心包括卷配置、節(jié)點參數(shù)配置、存儲參數(shù)配置、用戶配額管理和告警配置。監(jiān)控中心包括存儲空間監(jiān)控、設(shè)備狀態(tài)監(jiān)控、程序狀態(tài)監(jiān)控、網(wǎng)絡(luò)狀態(tài)監(jiān)控、磁盤狀態(tài)監(jiān)控、流量監(jiān)控和全面告警。卷配置能夠添加和刪除卷;節(jié)點參數(shù)配置能設(shè)置塊數(shù)據(jù)存儲節(jié)點配置參數(shù);存儲參數(shù)配置能設(shè)置卷管理節(jié)點和元數(shù)據(jù)管理節(jié)點配置參數(shù);用戶配額管理能設(shè)置不同用戶能使用存儲空間的大小和文件的數(shù)目;告警配置用于設(shè)置告警級別和告警類型。存儲空間監(jiān)控能查看各個卷空間的大小和使用情況;設(shè)備狀態(tài)監(jiān)控能查看各個節(jié)點設(shè)備是否正常;程序狀態(tài)監(jiān)控能查看每個程序是否正常運行;網(wǎng)絡(luò)狀態(tài)監(jiān)控查看網(wǎng)絡(luò)健康情況;磁盤狀態(tài)監(jiān)控查看磁盤是否有損壞;流量監(jiān)控查看節(jié)點流量狀況;全面告警包括磁盤損壞、系統(tǒng)空間已滿、有效期到期和硬件損壞告警。下面從數(shù)據(jù)存儲的角度進一步說明本實用新型系統(tǒng)的架構(gòu)及組織方式。1.元數(shù)據(jù)存儲 元數(shù)據(jù)存儲于元數(shù)據(jù)管理節(jié)點(Master)服務(wù)器的內(nèi)存中,并與本機進行持久化備份; 元數(shù)據(jù)管理節(jié)點為主、備雙機方式,提供高可靠不間斷元數(shù)據(jù)管理服務(wù),單機故障時可實現(xiàn)無縫快速切換,通過同一個VIP對外提供服務(wù); 考慮大容量數(shù)據(jù)存儲時文件數(shù)量多,元數(shù)據(jù)容量大的問題,系統(tǒng)將元數(shù)據(jù)進行分布式存儲,采用多個元數(shù)據(jù)管理節(jié)點進行元數(shù)據(jù)管理; 元數(shù)據(jù)分布式存儲,每個元數(shù)據(jù)管理節(jié)點均注冊到卷管理服務(wù)器上,每個元數(shù)據(jù)管理節(jié)點有唯一標識;MasterID (元數(shù)據(jù)服務(wù)器標識)、IP地址、端口號信息在子集群信息管理節(jié)點卷管理節(jié)點中配置和維護; 元數(shù)據(jù)管理節(jié)點ID中高N位為MasterlD,避免了不同元數(shù)據(jù)管理節(jié)點產(chǎn)生節(jié)點ID重復(fù);這里的N可根據(jù)業(yè)務(wù)應(yīng)用場景需求進行配置; 掛載客戶端根據(jù)文件節(jié)點標識的高N位決定當次請求該發(fā)往哪個元數(shù)據(jù)管理節(jié)點。2.分布式存儲本實用新型采用中心服務(wù)器模式來管理整個文件系統(tǒng)。中心管理服務(wù)器模式圖如附圖3:元數(shù)據(jù)管理節(jié)點管理分布式文件系統(tǒng)中的一個卷的元數(shù)據(jù)。文件劃分為塊進行存儲,對于元數(shù)據(jù)管理節(jié)點來說,每個塊數(shù)據(jù)存儲節(jié)點均注冊到元數(shù)據(jù)管理節(jié)點,塊數(shù)據(jù)存儲節(jié)點只是一個存儲空間。客戶端發(fā)起的所有操作都需要先通過元數(shù)據(jù)管理節(jié)點才能執(zhí)行。這樣做有許多好處,增加新的塊數(shù)據(jù)存儲節(jié)點是一件十分容易的事情,塊數(shù)據(jù)存儲節(jié)點只需要注冊到元數(shù)據(jù)管理節(jié)點上即可,塊數(shù)據(jù)存儲節(jié)點之間無任何關(guān)系。元數(shù)據(jù)管理節(jié)點維護了一個統(tǒng)一的命名空間,同時掌握整個系統(tǒng)內(nèi)塊數(shù)據(jù)存儲節(jié)點的情況,據(jù)此可以實現(xiàn)整個系統(tǒng)范圍內(nèi)數(shù)據(jù)存儲的負載均衡。由于只有一個中心服務(wù)器,元數(shù)據(jù)的一致性問題自然解決。客戶端對文件進行分塊,然后可以選擇不同的塊存儲到不同的存儲服務(wù)器上,下一個塊存儲到負載比較小的存儲服務(wù)器上,相對整個存儲空間來說,實現(xiàn)了分布式存儲。3.掛載客戶端訪問 客戶端根據(jù)一定的哈希策略先從卷管理節(jié)點獲取二級元數(shù)據(jù)管理節(jié)點信息,然后從二級元數(shù)據(jù)管理節(jié)點獲取元數(shù)據(jù)信息; 客戶端與元數(shù)據(jù)管理節(jié)點進行元數(shù)據(jù)相關(guān)操作; 讀寫數(shù)據(jù)前先從元數(shù)據(jù)管理節(jié)點獲取塊數(shù)據(jù)存儲節(jié)點信息,然后與塊數(shù)據(jù)存儲節(jié)點通信進行數(shù)據(jù)讀寫操作; 對于大文件,數(shù)據(jù)以64MB為單位被分為多塊,Master根據(jù)輪詢方法分配塊存儲節(jié)點,各塊數(shù)據(jù)被同時分發(fā)到不同的塊數(shù)據(jù)存儲節(jié)點上;[0045] 對于數(shù)量眾多的小文件(小于64MB),則不需要分塊,Master根據(jù)輪詢方法分配塊存儲節(jié)點,將各小文件同時分發(fā)到不同的塊數(shù)據(jù)存儲節(jié)點上; 為了解決網(wǎng)絡(luò)傳輸瓶頸和提高數(shù)據(jù)傳輸?shù)目煽啃?,向塊數(shù)據(jù)存儲節(jié)點上寫的所有數(shù)據(jù),采用隊列(先入先出)緩存數(shù)據(jù)塊,先被緩存到客戶端,所有數(shù)據(jù)寫到客戶端以后即認為數(shù)據(jù)寫入結(jié)束; 為了提高傳輸速率,在緩存數(shù)據(jù)的同時,啟動多個線程并發(fā)向多個塊數(shù)據(jù)存儲節(jié)點傳輸數(shù)據(jù); 以上各種策略充分保證了單客戶端在讀寫數(shù)據(jù)時對帶寬的飽和利用。4、客戶端系統(tǒng)的應(yīng)用主要體現(xiàn)在客戶端對系統(tǒng)的訪問I)客戶端向卷管理節(jié)點獲取集群的所有元數(shù)據(jù)管理節(jié)點配置信息,包括 MasterlD、IP地址、監(jiān)聽端口 ;2)客戶端通過MD5算法(MasterID)哈希得到一個128bit的大整數(shù)(作為標識),所有元數(shù)據(jù)管理節(jié)點的標識的信息哈希得到一個大整數(shù)環(huán)狀結(jié)構(gòu)。Hash環(huán)示意圖如附圖43)客戶端進行文件操作時,若是在掛載點根目錄下的操作,則根據(jù)第一級目錄進行MD5計算得到一個值,通過這個值從第2步得到的環(huán)狀結(jié)構(gòu)中找到處理該文件夾的Master子集群。若是在掛載點根目錄下的子文件夾操作,此時已經(jīng)知道當前要處理的文件或文件夾元數(shù)據(jù)管理節(jié)點inode ID (節(jié)點ID),可根據(jù)卷管理節(jié)點返回的位信息取inodeID的前幾位得到MasterID編號,從而確定處理該文件夾的Master子集群。4)對根目錄下的所有文件操作,都在第一個Master子集群上操作,而子目錄下的文件或目錄將被哈希到不同的Master子集群進行操作。
權(quán)利要求1.一種超大規(guī)模低成本存儲系統(tǒng),其特征在于包括 卷管理節(jié)點 維護所有元數(shù)據(jù)服務(wù)器子集群的信息,為掛載客戶端提供元數(shù)據(jù)服務(wù)器標識、IP地址和端口號信息;包括主卷管理服務(wù)器及備卷管理服務(wù)器; 元數(shù)據(jù)管理節(jié)點 管理元數(shù)據(jù),為掛載客戶端提供元數(shù)據(jù)訪問服務(wù);包括主元數(shù)據(jù)服務(wù)器和備元數(shù)據(jù)服務(wù)器; 塊數(shù)據(jù)存儲節(jié)點 存儲數(shù)據(jù)塊,并根據(jù)配置的備份策略將數(shù)據(jù)塊發(fā)送給由元數(shù)據(jù)管理節(jié)點選定的另一塊數(shù)據(jù)存儲節(jié)點進行數(shù)據(jù)塊備份; 用戶掛載客戶端 文件系統(tǒng)掛載客戶端,掛載后對應(yīng)用透明為普通的單點文件系統(tǒng); 管理監(jiān)控中心 包括配置中心和監(jiān)控中心,負責管理和監(jiān)控整個存儲系統(tǒng),為管理員提供強大的管理功能,優(yōu)化硬件資源配置。
2.如權(quán)利要求1所述的超大規(guī)模低成本存儲系統(tǒng),其特征在于所述主、備卷管理服務(wù)器通過同一個VIP對外提供服務(wù),主、備卷管理服務(wù)器通過管理監(jiān)控中心添加配置和維護兩者狀態(tài)統(tǒng)一。
3.如權(quán)利要求1所述的超大規(guī)模低成本存儲系統(tǒng),其特征在于主、備元數(shù)據(jù)服務(wù)器通過scoket網(wǎng)絡(luò)通信,實時地把每次變化的元數(shù)據(jù)同步到備元數(shù)據(jù)服務(wù)器,主、備元數(shù)據(jù)服務(wù)器通過同一個VIP對外提供服務(wù)。
4.如權(quán)利要求1所述的超大規(guī)模低成本存儲系統(tǒng),其特征在于配置中心包括卷配置、節(jié)點參數(shù)配置、存儲參數(shù)配置、用戶配額管理和告警配置;卷配置用于添加和刪除卷;節(jié)點參數(shù)配置用于設(shè)置塊數(shù)據(jù)存儲節(jié)點配置參數(shù);存儲參數(shù)配置用于設(shè)置卷管理節(jié)點和元數(shù)據(jù)管理節(jié)點配置參數(shù);用戶配額管理用于設(shè)置不同用戶使用存儲空間的大小和文件的數(shù)目;告警配置用于設(shè)置告警級別和告警類型。
5.如權(quán)利要求1所述的超大規(guī)模低成本存儲系統(tǒng),其特征在于監(jiān)控中心包括存儲空間監(jiān)控、設(shè)備狀態(tài)監(jiān)控、程序狀態(tài)監(jiān)控、網(wǎng)絡(luò)狀態(tài)監(jiān)控、磁盤狀態(tài)監(jiān)控、流量監(jiān)控和全面告警;存儲空間監(jiān)控用于查看各個卷空間的大小和使用情況;設(shè)備狀態(tài)監(jiān)控用于查看各個節(jié)點設(shè)備是否正常;程序狀態(tài)監(jiān)控用于查看每個程序是否正常運行;網(wǎng)絡(luò)狀態(tài)監(jiān)控用于查看網(wǎng)絡(luò)健康情況;磁盤狀態(tài)監(jiān)控用于查看磁盤是否有損壞;流量監(jiān)控用于查看節(jié)點流量狀況;全面告警包括磁盤損壞、系統(tǒng)空間已滿、有效期到期和硬件損壞告警。
6.如權(quán)利要求1所述的超大規(guī)模低成本存儲系統(tǒng),其特征在于每個元數(shù)據(jù)管理節(jié)點均注冊到卷管理服務(wù)器上,每個元數(shù)據(jù)管理節(jié)點有唯一標識,元數(shù)據(jù)服務(wù)器標識、IP地址、端口號信息在卷管理節(jié)點中配置和維護。
7.如權(quán)利要求1所述的超大規(guī)模低成本存儲系統(tǒng),其特征在于每個元數(shù)據(jù)管理節(jié)點管理分布式文件系統(tǒng)中的一個卷的元數(shù)據(jù)。
8.如權(quán)利要求1所述的超大規(guī)模低成本存儲系統(tǒng),其特征在于每個塊數(shù)據(jù)存儲節(jié)點均注冊到元數(shù)據(jù)管理節(jié)點上。
專利摘要本實用新型公開一種超大規(guī)模低成本存儲系統(tǒng),包括卷管理節(jié)點、元數(shù)據(jù)管理節(jié)點、塊數(shù)據(jù)存儲節(jié)點、用戶掛載客戶端和管理監(jiān)控中心。本實用新型解決了現(xiàn)有存儲解決方案中存在的易用性差、集成度不高、擴展性不強,成本較高等問題,實現(xiàn)了具有高可靠、性能優(yōu)異、易維護、擴展性強、高密度的超大規(guī)模低成本的存儲系統(tǒng)。本實用新型構(gòu)建的系統(tǒng),卷管理節(jié)點及元數(shù)據(jù)管理節(jié)點均采用雙機熱備方式,大大提高了系統(tǒng)的可靠性。
文檔編號H04L29/08GK202856793SQ20122051020
公開日2013年4月3日 申請日期2012年9月29日 優(yōu)先權(quán)日2012年9月29日
發(fā)明者張真, 吳全聲, 劉志明, 陽俊, 趙慶福 申請人:南京云創(chuàng)存儲科技有限公司