專(zhuān)利名稱(chēng):分布式集群存儲(chǔ)系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種存儲(chǔ)系統(tǒng),尤指一種分布式集群存儲(chǔ)系統(tǒng)。
背景技術(shù):
傳統(tǒng)分布式集群存儲(chǔ)系統(tǒng)使用單控制節(jié)點(diǎn)或者雙控制節(jié)點(diǎn)提供NAS (網(wǎng)絡(luò)附屬存儲(chǔ))業(yè)務(wù),每個(gè)支持一組特定的工作負(fù)載和文件系統(tǒng)。傳統(tǒng)NAS設(shè)備雖然具有易部署、易維護(hù)的特性,但是隨著信息社會(huì)數(shù)據(jù)的海量增長(zhǎng),其架構(gòu)方面的缺陷越發(fā)明顯。一是文件系統(tǒng)與節(jié)點(diǎn)的綁定導(dǎo)致任何時(shí)刻一個(gè)文件系統(tǒng)只在一個(gè)節(jié)點(diǎn)上處于活動(dòng)狀態(tài),容易存在負(fù)荷熱點(diǎn)。二是擴(kuò)展性差,系統(tǒng)性能和空間不能隨著用戶需求的增加而增加。傳統(tǒng)設(shè)備的缺陷導(dǎo)致了各種集群技術(shù)的出現(xiàn),業(yè)界當(dāng)前主要使用兩種集群技術(shù)。 一是N+M共享存儲(chǔ)集群技術(shù),二是基于分布式文件系統(tǒng)的分布式存儲(chǔ)集群技術(shù)。其中,N+M共享存儲(chǔ)集群存儲(chǔ)系統(tǒng),多個(gè)服務(wù)器3之間使用專(zhuān)用心跳鏈路通訊,N個(gè)節(jié)點(diǎn)對(duì)外提供NAS業(yè)務(wù),M個(gè)節(jié)點(diǎn)作為備用,允許系統(tǒng)中同時(shí)故障M個(gè)業(yè)務(wù)節(jié)點(diǎn)。N+M集群技術(shù)解決了傳統(tǒng)存儲(chǔ)設(shè)備擴(kuò)展性差的問(wèn)題,但是單個(gè)文件系統(tǒng)仍然是與特定節(jié)點(diǎn)綁定,容易出現(xiàn)存儲(chǔ)負(fù)荷熱點(diǎn)問(wèn)題。而基于分布式文件系統(tǒng)的存儲(chǔ)系統(tǒng),各存儲(chǔ)節(jié)點(diǎn)都有專(zhuān)用存儲(chǔ)空間互不共享,雖然解決了負(fù)荷熱點(diǎn)問(wèn)題,但是如果某一存儲(chǔ)節(jié)點(diǎn)出現(xiàn)故障,該節(jié)點(diǎn)對(duì)應(yīng)的存儲(chǔ)空間就得不到利用,資源利用率低。另外,由于使用分布式文件系統(tǒng)的原因,業(yè)務(wù)服務(wù)器訪問(wèn)某一文件可能需要訪問(wèn)多個(gè)存儲(chǔ)節(jié)點(diǎn),存在巨大的內(nèi)部開(kāi)銷(xiāo)。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺陷,而提供一種分布式集群存儲(chǔ)系統(tǒng),實(shí)現(xiàn)了直接訪問(wèn)所有存儲(chǔ)空間,且不存在負(fù)荷熱點(diǎn)問(wèn)題,具有可靠性強(qiáng)、資源利用率高、響應(yīng)速度快、成本低的優(yōu)點(diǎn)。實(shí)現(xiàn)上述目的的技術(shù)方案是本發(fā)明的一種分布式集群存儲(chǔ)系統(tǒng),包括一中心集群結(jié)構(gòu)和復(fù)數(shù)個(gè)邊緣集群結(jié)構(gòu),所述中心集群結(jié)構(gòu)用于數(shù)據(jù)的管理,所述邊緣集群結(jié)構(gòu)通過(guò)一組網(wǎng)與所述中心集群結(jié)構(gòu)通信連接,所述中心集群結(jié)構(gòu)和所述邊緣集群結(jié)構(gòu)包括復(fù)數(shù)個(gè)服務(wù)器和復(fù)數(shù)個(gè)存儲(chǔ)單元;所述存儲(chǔ)單元,用于存儲(chǔ)和提供數(shù)據(jù)資源,共享于系統(tǒng)內(nèi)所有服務(wù)器;所述服務(wù)器之間通過(guò)專(zhuān)用心跳網(wǎng)絡(luò)互聯(lián),所述服務(wù)器直接訪問(wèn)任一存儲(chǔ)單元用于獲取數(shù)據(jù)資源提供預(yù)定服務(wù);所述服務(wù)器和所述存儲(chǔ)單元通過(guò)一光纖通道交換機(jī)連接所述組網(wǎng)。上述服務(wù)器互為備份,每?jī)蓚€(gè)所述服務(wù)器內(nèi)部分別通過(guò)一高優(yōu)先級(jí)網(wǎng)絡(luò)和一低優(yōu)先級(jí)網(wǎng)絡(luò)互聯(lián)。當(dāng)一上述服務(wù)器發(fā)生故障時(shí),該服務(wù)器的任務(wù)均勻分配給其它正常工作的服務(wù)
ο
上述服務(wù)器個(gè)數(shù)為二至十六個(gè),采用NAS引擎。上述服務(wù)器之間數(shù)據(jù)的傳輸采用低延遲運(yùn)輸協(xié)議和組成員服務(wù)原子廣播協(xié)議。本發(fā)明由于采用了以上技術(shù)方案,使其具有以下有益效果是存儲(chǔ)單元的數(shù)據(jù)資源對(duì)系統(tǒng)內(nèi)所有服務(wù)器共享而不是與特定服務(wù)器綁定,所有服務(wù)器可以并發(fā)同一存儲(chǔ)單元,不存在負(fù)荷熱點(diǎn)問(wèn)題;服務(wù)器互為備份,當(dāng)一服務(wù)器發(fā)生故障時(shí),故障服務(wù)器任務(wù)均勻分配給其它服務(wù)器,而不是所有任務(wù)切換到某一備用服務(wù)器上,具有更高的系統(tǒng)可靠性和資源利用率。服務(wù)器可直接訪問(wèn)任所有存儲(chǔ)空間,而無(wú)需像分布式存儲(chǔ)系統(tǒng)那樣需要訪問(wèn)多個(gè)存儲(chǔ)節(jié)點(diǎn),具有更快的響應(yīng)速度,提供更高的性能;每?jī)蓚€(gè)所述服務(wù)器內(nèi)部分別通過(guò)一高優(yōu)先級(jí)網(wǎng)絡(luò)和一低優(yōu)先級(jí)網(wǎng)絡(luò)互聯(lián),確保了服務(wù)器之間的有效穩(wěn)定通信;組網(wǎng)采用以太網(wǎng),在保證傳輸速度的同時(shí)具有成本低得優(yōu)點(diǎn)。而低延遲運(yùn)輸協(xié)議 (LLT),提供了快速的內(nèi)核到內(nèi)核的通信,同時(shí)監(jiān)視網(wǎng)絡(luò)連接,保證當(dāng)網(wǎng)絡(luò)狀態(tài)發(fā)生變化時(shí)可以快速的反應(yīng)到系統(tǒng)上。組成員服務(wù)原子廣播協(xié)議(GAB)保證了當(dāng)網(wǎng)絡(luò)狀態(tài)或配置改變時(shí),系統(tǒng)中的所有服務(wù)器都會(huì)被立刻通知到,保證了系統(tǒng)中的所有服務(wù)器都保持有相同的系統(tǒng)資源狀態(tài)信息。實(shí)現(xiàn)了服務(wù)器直接訪問(wèn)所有存儲(chǔ)空間,且不存在負(fù)荷熱點(diǎn)問(wèn)題的分布式集群存儲(chǔ)系統(tǒng),具有可靠性強(qiáng)、資源利用率高、響應(yīng)速度快、成本低的優(yōu)點(diǎn)。
圖1為本發(fā)明分布式集群存儲(chǔ)系統(tǒng)的整體結(jié)構(gòu)示意圖;圖2為本發(fā)明分布式集群存儲(chǔ)系統(tǒng)的節(jié)點(diǎn)結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。請(qǐng)參閱圖1,本發(fā)明的一種分布式集群存儲(chǔ)系統(tǒng),包括一中心集群結(jié)構(gòu)1和復(fù)數(shù)個(gè)邊緣集群結(jié)構(gòu)2,邊緣集群結(jié)構(gòu)2通過(guò)一組網(wǎng)與中心集群結(jié)構(gòu)1通信連接,在保證傳輸速度的同時(shí)具有成本低得優(yōu)點(diǎn)。中心集群結(jié)構(gòu)1負(fù)責(zé)數(shù)據(jù)的管理,并通過(guò)部署在不同地域的邊緣集群結(jié)構(gòu)2實(shí)現(xiàn)跨地域的資源分布和調(diào)度,對(duì)于上層業(yè)務(wù)而言不必關(guān)心數(shù)據(jù)具體存放的位置;對(duì)外業(yè)務(wù)而言,屏蔽了數(shù)據(jù)的位置。請(qǐng)參閱圖2,中心集群結(jié)構(gòu)1和邊緣集群結(jié)構(gòu)2包括復(fù)數(shù)個(gè)服務(wù)器3和復(fù)數(shù)個(gè)存儲(chǔ)單元4,服務(wù)器3之間通過(guò)專(zhuān)用心跳網(wǎng)絡(luò)互聯(lián),且服務(wù)器3和存儲(chǔ)單元4通過(guò)一光纖通道交換機(jī)5連接組網(wǎng)。當(dāng)系統(tǒng)整體負(fù)載過(guò)大需要擴(kuò)展系統(tǒng)整體性能時(shí),可以在線橫向擴(kuò)展服務(wù)器3和存儲(chǔ)單元4。擴(kuò)容時(shí),不但增加了磁盤(pán)空間,同時(shí)擴(kuò)展了各種硬件資源。網(wǎng)絡(luò)層面可通過(guò)堆疊, 組合,匯聚以太網(wǎng)方式完成超大規(guī)模存儲(chǔ)系統(tǒng)的建設(shè),滿足系統(tǒng)100PB級(jí)擴(kuò)展對(duì)網(wǎng)絡(luò)的要求,同時(shí)使系統(tǒng)能夠支持?jǐn)U展到Tb ρ s級(jí)別的系統(tǒng)吞吐量。系統(tǒng)采用特有的基于對(duì)象的虛擬化技術(shù),將底層的物理資源與上層的業(yè)務(wù)解耦,上層業(yè)務(wù)透過(guò)系統(tǒng)的業(yè)務(wù)接入端看到的只有已經(jīng)池化的邏輯存儲(chǔ)資源。系統(tǒng)在增加存儲(chǔ)單元4時(shí),自動(dòng)的識(shí)別和管理新接入存儲(chǔ)單元4,整個(gè)系統(tǒng)無(wú)需停機(jī)或重啟,且系統(tǒng)擴(kuò)容對(duì)業(yè)務(wù)完全透明。存儲(chǔ)單元4用于存儲(chǔ)和提供數(shù)據(jù)資源,共享于系統(tǒng)內(nèi)所有服務(wù)器3,而不是與特定服務(wù)器3綁定,所有服務(wù)器3可以并發(fā)同一存儲(chǔ)單元4,不存在負(fù)荷熱點(diǎn)問(wèn)題。
服務(wù)器3個(gè)數(shù)為二至十六個(gè),采用NAS引擎,可直接訪問(wèn)任一存儲(chǔ)單元4用于獲取數(shù)據(jù)資源提供預(yù)定服務(wù),而無(wú)需像分布式存儲(chǔ)系統(tǒng)那樣需要訪問(wèn)多個(gè)存儲(chǔ)節(jié)點(diǎn),具有更快的響應(yīng)速度,提供更高的性能;服務(wù)器3互為備份,當(dāng)一服務(wù)器3發(fā)生故障時(shí),該服務(wù)器3的任務(wù)均勻分配給其它正常工作的服務(wù)器3。所有服務(wù)器3都可以提供業(yè)務(wù),互為備用,具有更高的系統(tǒng)可靠性和資源利用率。系統(tǒng)采用擴(kuò)散(kale-out)設(shè)計(jì),前端配置2_16個(gè)NAS引擎的服務(wù)器3,后端可以配置多套存儲(chǔ)單元4,二者通過(guò)FC交換(光纖通道交換機(jī))連接組網(wǎng)。服務(wù)器3內(nèi)部通過(guò)專(zhuān)用心跳網(wǎng)絡(luò)互聯(lián)。當(dāng)系統(tǒng)整體負(fù)載過(guò)大需要擴(kuò)展系統(tǒng)整體性能時(shí),可以在線橫向擴(kuò)展服務(wù)器3和存儲(chǔ)單元4。分布式集群存儲(chǔ)系統(tǒng)采用全Active全共享設(shè)計(jì)。與N+M集群技術(shù)不一樣,存儲(chǔ)單元4為所有服務(wù)器3共享而不是與特點(diǎn)節(jié)點(diǎn)綁定,所有服務(wù)器3可以并發(fā)同一文件系統(tǒng),不存在負(fù)荷熱點(diǎn)問(wèn)題。所有服務(wù)器3互為備份,某一服務(wù)器3故障時(shí),故障服務(wù)器3原來(lái)承擔(dān)的應(yīng)用可以均勻的切到其它在線節(jié)點(diǎn),而不是所有應(yīng)用切換到某一備用節(jié)點(diǎn)上。所有服務(wù)器3提供業(yè)務(wù),互為備用,具有更高的系統(tǒng)可靠性和資源利用率。應(yīng)用服務(wù)器訪問(wèn)數(shù)據(jù)時(shí),通過(guò)某一服務(wù)器3可以直接訪問(wèn)所有存儲(chǔ)單元4,而無(wú)需像分布式存儲(chǔ)系統(tǒng)那樣需要訪問(wèn)多個(gè)存儲(chǔ)節(jié)點(diǎn),具有更快的響應(yīng)速度,提供更高的性能;分布式存儲(chǔ)系統(tǒng)的存儲(chǔ)節(jié)點(diǎn)故障時(shí),對(duì)應(yīng)的存儲(chǔ)資源不能為其它節(jié)點(diǎn)所用,資源利用率低;服務(wù)器3間采用高效通訊協(xié)議且需要互相交換的數(shù)據(jù)包不大,使用千兆以太網(wǎng)就能滿足,無(wú)需向分布式文件存儲(chǔ)那樣構(gòu)建高速的內(nèi)部通訊聯(lián)系,具有成本方面的優(yōu)勢(shì)。集群通信可確保集群隨時(shí)了解每個(gè)系統(tǒng)的服務(wù)組和資源的狀態(tài)。另外,系統(tǒng)還可以通過(guò)它們識(shí)別哪些系統(tǒng)是集群的活動(dòng)成員,哪些系統(tǒng)已經(jīng)加入或脫離集群,以及哪些系統(tǒng)出現(xiàn)了故障。服務(wù)器3之間數(shù)據(jù)的傳輸采用低延遲運(yùn)輸協(xié)議(LLT =Low Latency Transport)和組成員服務(wù)原子廣播協(xié)議(GAB =Group Membership/Atomic Broadcast)。原子廣播協(xié)議(GAB)保證當(dāng)資源狀態(tài)、集群結(jié)構(gòu)成員和系統(tǒng)配置改變時(shí),集群結(jié)構(gòu)中的所有服務(wù)器3都會(huì)立刻被通知到,從而保證了系統(tǒng)中的所有服務(wù)器3都保持有相同的系統(tǒng)資源狀態(tài)信息。而低延遲運(yùn)輸協(xié)議(LLT)提供了快速的,內(nèi)核到內(nèi)核的通信,同時(shí)監(jiān)視著網(wǎng)絡(luò)連接。LLT在系統(tǒng)上作為IP棧的替代,LLT直接運(yùn)行在UNIX數(shù)據(jù)鏈路接口層(DLPI)和 WindowsNT的網(wǎng)絡(luò)驅(qū)動(dòng)接口規(guī)范(NDIS)之上,避免了 IP棧帶來(lái)的延時(shí)與額外負(fù)擔(dān),這樣可以保證當(dāng)系統(tǒng)狀態(tài)發(fā)生變化時(shí)可以快速的反應(yīng)到系統(tǒng)上。LLT與GAB的配合使用,實(shí)現(xiàn)了保持系統(tǒng)的組件對(duì)業(yè)務(wù)完全透明,且在擴(kuò)容或減容過(guò)程和整個(gè)系統(tǒng)無(wú)需停機(jī)或重啟。每?jī)蓚€(gè)服務(wù)器3內(nèi)部分別通過(guò)一高優(yōu)先級(jí)網(wǎng)絡(luò)和一低優(yōu)先級(jí)網(wǎng)絡(luò)互聯(lián),通過(guò)LLT 的配置,將低優(yōu)先級(jí)網(wǎng)絡(luò)作為高優(yōu)先級(jí)網(wǎng)絡(luò)的備份連接,當(dāng)高優(yōu)先級(jí)網(wǎng)絡(luò)正常運(yùn)作時(shí),低優(yōu)先級(jí)網(wǎng)絡(luò)不傳輸集群成員信息包,而當(dāng)?shù)蛢?yōu)先級(jí)網(wǎng)絡(luò)成為唯一可用的網(wǎng)絡(luò)時(shí),LLT會(huì)將所有的集群結(jié)構(gòu)狀態(tài)信息通過(guò)低優(yōu)先級(jí)網(wǎng)絡(luò)發(fā)送,當(dāng)高優(yōu)先級(jí)網(wǎng)絡(luò)連接修復(fù)以后,LLT再把集群狀態(tài)信息切換到這些高優(yōu)先級(jí)的連接上進(jìn)行傳輸,確保了服務(wù)器3之間的有效穩(wěn)定通信。
服務(wù)器3間使用集群的專(zhuān)有網(wǎng)絡(luò)進(jìn)行通信。通信的內(nèi)容包括其它是否仍在工作 (Heartbeat)和服務(wù)器3上發(fā)生的操作及資源狀態(tài)信息(cluster status) 0每節(jié)點(diǎn)內(nèi)部存在兩個(gè)完全獨(dú)立的專(zhuān)有網(wǎng)絡(luò),這兩個(gè)專(zhuān)有網(wǎng)絡(luò)一方面提供了冗余的通訊路徑,另一方面也可使集群引擎分辨網(wǎng)絡(luò)失效與系統(tǒng)失效。集群引擎使用LLT和GAB替代IP協(xié)議棧,以此在服務(wù)器3間提供一個(gè)穩(wěn)定的高速通訊連接,同時(shí)避免了普通協(xié)議棧帶來(lái)的延時(shí)。LLT可以配置使用一個(gè)低優(yōu)先級(jí)的網(wǎng)絡(luò)連接作為普通heartbeat通道的備份連接。低優(yōu)先級(jí)連接典型的配置在用戶的公有網(wǎng)絡(luò)或管理員網(wǎng)絡(luò)上。低優(yōu)先級(jí)連接不會(huì)傳輸集群成員信息包,除非它是唯一可用的連接。普通情況下低優(yōu)先級(jí)連接只用來(lái)傳輸用來(lái)保持集群成員信息和連接狀態(tài)的heartbeat包。為了減輕網(wǎng)絡(luò)負(fù)責(zé)hearbeat頻率被降低到 50%。當(dāng)?shù)蛢?yōu)先級(jí)連接成為唯一的連接時(shí),LLT會(huì)將所有的集群狀態(tài)信息通過(guò)它發(fā)送。當(dāng)別的連接修復(fù)以后,LLT再把集群狀態(tài)信息切換到這些高優(yōu)先級(jí)的連接上進(jìn)行傳輸。集群引擎包括一組預(yù)定義的資源類(lèi)型。對(duì)每種資源類(lèi)型集群引擎都包含一個(gè)相應(yīng)的代理(Agent)來(lái)監(jiān)視和管理資源。Agent提供了對(duì)特定資源類(lèi)型的邏輯控制,它從本地系統(tǒng)上的代理收集有關(guān)資源狀態(tài)的信息,然后將該信息轉(zhuǎn)發(fā)給所有集群成員。本地服務(wù)器 3還會(huì)接收來(lái)自其他集群成員的信息以更新它掌握的集群信息。在每個(gè)服務(wù)器3中,Agent監(jiān)視著資源的狀態(tài),并將其報(bào)告給高可用性后臺(tái)駐留程序(HAD),每個(gè)系統(tǒng)上都運(yùn)行高可用性后臺(tái)駐留程序(HAD)。HAD也稱(chēng)為系統(tǒng)引擎,它負(fù)責(zé) 基于配置文件創(chuàng)建正常生效的集群配置、在新節(jié)點(diǎn)加入集群時(shí)分發(fā)信息、響應(yīng)操作員的輸入以及在出現(xiàn)故障時(shí)采取糾正操作。HAD通過(guò)組成員服務(wù)原子廣播協(xié)議(GAB)在服務(wù)器3間交換資源狀態(tài)信息。GAB 使用Low Latency Transport (LLT)在服務(wù)器之間進(jìn)行可靠的傳輸。高可用性后臺(tái)駐留程序(HAD)是在每個(gè)系統(tǒng)中運(yùn)行的主要的集群引擎守護(hù)進(jìn)程。 HAD收集本服務(wù)器3的所有資源信息,然后將這些信息發(fā)往集群中的其他系統(tǒng)。它也負(fù)責(zé)接收其他集群成員發(fā)出的信息。HAD管理重復(fù)狀態(tài)計(jì)算機(jī)(RSM =Iteplicated State machine), RSM是集群中所有資源的狀態(tài)在內(nèi)存中的表示,集群中每個(gè)系統(tǒng)的RSM都相同。這就意味著每個(gè)系統(tǒng)關(guān)于集群的內(nèi)存快照都是相同的,這是通過(guò)GAB的原子廣播功能實(shí)現(xiàn)的。HAD是作為重復(fù)狀態(tài)計(jì)算機(jī)(RSM)運(yùn)行。每個(gè)服務(wù)器3上運(yùn)行的引擎都掌握了該服務(wù)器3上完整的同步資源狀態(tài)信息。每個(gè)HAD實(shí)例都按要求采用相同的代碼路徑以便采取糾正操作。RSM通過(guò)使用一個(gè)特制的通信軟件包進(jìn)行維護(hù)。通信軟件包由低延遲運(yùn)輸協(xié)議(LLT)協(xié)議和組成員服務(wù)原子廣播協(xié)議(GAB)協(xié)議組成。組成員服務(wù)原子廣播協(xié)議(GAB)負(fù)責(zé)控制服務(wù)器3和集群通信(Cluster Communications) 0HAD使用GAB的原子廣播功能來(lái)保持RSM信息,原子廣播保證當(dāng)資源狀態(tài)、集群成員和系統(tǒng)配置改變時(shí),集群中的所有節(jié)點(diǎn)都會(huì)立刻通知到。所謂原子意味著所有的系統(tǒng)都收到更新信息,否則所有系統(tǒng)都需回滾到前一個(gè)狀態(tài),這很像數(shù)據(jù)庫(kù)系統(tǒng)中的原子提交。 GAB的原子性保證了集群中的所有節(jié)點(diǎn)都保持有相同的RSM。GAB使用軟件實(shí)現(xiàn)廣播,它在網(wǎng)絡(luò)上并不使用真正的廣播包而是使用系統(tǒng)點(diǎn)對(duì)點(diǎn)的通信模擬廣播。GAB經(jīng)由LLT從每個(gè)服務(wù)器3接收有關(guān)心跳狀態(tài)的輸入來(lái)維護(hù)集群成員集。當(dāng)系統(tǒng)不再?gòu)膶?duì)等端接收心跳時(shí),會(huì)將對(duì)等端標(biāo)記為“DOWN”,并將其從集群中排除。在系統(tǒng)中,成員集是參與集群的系統(tǒng)的集合。GAB的第二項(xiàng)功能是可靠的集群通信。GAB可確保將點(diǎn)到點(diǎn)消息和廣播消息發(fā)送到所有服務(wù)器3。原子廣播操作被HAD用來(lái)保證所有集群服務(wù)器3能夠收到同樣的配置變更信息,或者回滾到前一狀態(tài)。GAB原子廣播實(shí)際上使用的點(diǎn)對(duì)點(diǎn)通信,不會(huì)在心跳網(wǎng)絡(luò)上形成網(wǎng)絡(luò)風(fēng)暴。LLT提供了快速的,內(nèi)核到內(nèi)核的通信,同時(shí)監(jiān)視著網(wǎng)絡(luò)連接。LLT在系統(tǒng)上作為 IP棧的替代。LLT直接運(yùn)行在UNIX數(shù)據(jù)鏈路接口層(DLPI)和WindowsNT的網(wǎng)絡(luò)驅(qū)動(dòng)接口規(guī)范(NDIS)之上。使用LLT而不是IP避免了 IP棧帶來(lái)的延時(shí)與額外負(fù)擔(dān),這樣可以保證當(dāng)狀態(tài)發(fā)生變化時(shí)可以快速的反應(yīng)到系統(tǒng)上。系統(tǒng)使用集群節(jié)點(diǎn)之間的專(zhuān)用網(wǎng)絡(luò)通信來(lái)維護(hù)集群。Low Latency Transport可充當(dāng)IP堆棧的一種高性能、低延遲替代協(xié)議,用于所有集群通信。所有集群服務(wù)器3之間都有兩個(gè)獨(dú)立網(wǎng)絡(luò)。這兩個(gè)網(wǎng)絡(luò)可提供必需的通信路徑冗余,并使系統(tǒng)能夠辨別是網(wǎng)絡(luò)故障還是系統(tǒng)故障。LLT有兩項(xiàng)主要功能。LLT在所有可用的專(zhuān)用網(wǎng)絡(luò)鏈路之間分配服務(wù)器3間通信,實(shí)現(xiàn)負(fù)載平衡。此分配意味著所有集群通信在最多八個(gè)的所有專(zhuān)用網(wǎng)絡(luò)鏈路間平均分配,以提高性能和故障恢復(fù)能力。如果某個(gè)鏈路失敗,便會(huì)將流量重定向到其余鏈路。LLT負(fù)責(zé)通過(guò)網(wǎng)絡(luò)鏈路發(fā)送和接收心跳通信。GAB的Group Membership Services 功能使用此心跳來(lái)確定集群成員集。以上結(jié)合附圖實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,本領(lǐng)域中普通技術(shù)人員可根據(jù)上述說(shuō)明對(duì)本發(fā)明做出種種變化例。因而,實(shí)施例中的某些細(xì)節(jié)不應(yīng)構(gòu)成對(duì)本發(fā)明的限定,本發(fā)明將以所附權(quán)利要求書(shū)界定的范圍作為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種分布式集群存儲(chǔ)系統(tǒng),其特征在于,包括一中心集群結(jié)構(gòu)和復(fù)數(shù)個(gè)邊緣集群結(jié)構(gòu),所述中心集群結(jié)構(gòu)用于數(shù)據(jù)的管理,所述邊緣集群結(jié)構(gòu)通過(guò)一組網(wǎng)與所述中心集群結(jié)構(gòu)通信連接,所述中心集群結(jié)構(gòu)和所述邊緣集群結(jié)構(gòu)包括復(fù)數(shù)個(gè)服務(wù)器和復(fù)數(shù)個(gè)存儲(chǔ)單元;所述存儲(chǔ)單元,用于存儲(chǔ)和提供數(shù)據(jù)資源,共享于系統(tǒng)內(nèi)所有服務(wù)器;所述服務(wù)器之間通過(guò)專(zhuān)用心跳網(wǎng)絡(luò)互聯(lián),所述服務(wù)器直接訪問(wèn)任一存儲(chǔ)單元用于獲取數(shù)據(jù)資源提供預(yù)定服務(wù);所述服務(wù)器和所述存儲(chǔ)單元通過(guò)一光纖通道交換機(jī)連接所述組網(wǎng)。
2.根據(jù)權(quán)利要求1所述的分布式集群存儲(chǔ)系統(tǒng),其特征在于,所述服務(wù)器互為備份,每?jī)蓚€(gè)所述服務(wù)器內(nèi)部分別通過(guò)一高優(yōu)先級(jí)網(wǎng)絡(luò)和一低優(yōu)先級(jí)網(wǎng)絡(luò)互聯(lián)。
3.根據(jù)權(quán)利要求2所述的分布式集群存儲(chǔ)系統(tǒng),其特征在于,當(dāng)一所述服務(wù)器發(fā)生故障時(shí),該服務(wù)器的任務(wù)均勻分配給其它正常工作的服務(wù)器。
4.根據(jù)權(quán)利要求1或3所述的分布式集群存儲(chǔ)系統(tǒng),其特征在于,所述服務(wù)器個(gè)數(shù)為二至十六個(gè),采用NAS引擎。
5.根據(jù)權(quán)利要求4所述的分布式集群存儲(chǔ)系統(tǒng),其特征在于,所述服務(wù)器之間數(shù)據(jù)的傳輸采用低延遲運(yùn)輸協(xié)議和組成員服務(wù)原子廣播協(xié)議。
全文摘要
本發(fā)明公開(kāi)了一種分布式集群存儲(chǔ)系統(tǒng),包括一中心集群結(jié)構(gòu)和復(fù)數(shù)個(gè)邊緣集群結(jié)構(gòu),所述邊緣集群結(jié)構(gòu)通過(guò)一組網(wǎng)與所述中心集群結(jié)構(gòu)通信連接,所述中心集群結(jié)構(gòu)和所述邊緣集群結(jié)構(gòu)包括復(fù)數(shù)個(gè)服務(wù)器和復(fù)數(shù)個(gè)存儲(chǔ)單元;所述存儲(chǔ)單元,用于存儲(chǔ)和提供數(shù)據(jù)資源,共享于系統(tǒng)內(nèi)所有服務(wù)器;所述服務(wù)器之間通過(guò)專(zhuān)用心跳網(wǎng)絡(luò)互聯(lián),所述服務(wù)器直接訪問(wèn)任一存儲(chǔ)單元用于獲取數(shù)據(jù)資源提供預(yù)定服務(wù);所述服務(wù)器和所述存儲(chǔ)單元通過(guò)一交換機(jī)連接所述組網(wǎng)。由于采用了本發(fā)明的一種分布式集群存儲(chǔ)系統(tǒng),實(shí)現(xiàn)了直接訪問(wèn)所有存儲(chǔ)空間,且不存在負(fù)荷熱點(diǎn)問(wèn)題,具有可靠性強(qiáng)、資源利用率高、響應(yīng)速度快、成本低的優(yōu)點(diǎn)。
文檔編號(hào)H04L29/08GK102325196SQ201110330398
公開(kāi)日2012年1月18日 申請(qǐng)日期2011年10月27日 優(yōu)先權(quán)日2011年10月27日
發(fā)明者盧寶豐, 安然, 談川玉 申請(qǐng)人:上海文廣互動(dòng)電視有限公司