專利名稱:一種計(jì)算機(jī)集群系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本實(shí)用新型涉及計(jì)算機(jī)集群技術(shù)領(lǐng)域,尤其涉及一種計(jì)算機(jī)集群系統(tǒng)。
背景技術(shù):
計(jì)算機(jī)集群是ー種計(jì)算機(jī)系統(tǒng),它通過一組松散集成的計(jì)算機(jī)軟件和/或硬件連接起來高度緊密地協(xié)作完成計(jì)算工作。在某種意義上,它們可以被看作一臺計(jì)算機(jī)。集群系統(tǒng)中的單個(gè)計(jì)算機(jī)通常稱為節(jié)點(diǎn),通常通過局域網(wǎng)連接,但也有其它的可能連接方式。集群計(jì)算機(jī)通常用來改進(jìn)單個(gè)計(jì)算機(jī)的計(jì)算速度和/或可靠性。高性能計(jì)算集群是計(jì)算機(jī)集群的ー種,采用將計(jì)算任務(wù)分配到集群的不同計(jì)算節(jié) 并行應(yīng)用程序,比如基于MPI (消息傳遞接ロ)標(biāo)準(zhǔn)開發(fā)的并行計(jì)算程序。這ー類應(yīng)用程序可以實(shí)現(xiàn)多個(gè)計(jì)算節(jié)點(diǎn)并行執(zhí)行計(jì)算任務(wù),計(jì)算節(jié)點(diǎn)間通常會有頻繁的數(shù)據(jù)交換和消息傳遞,因此高性能計(jì)算集群通常配置專用的計(jì)算網(wǎng)絡(luò)來進(jìn)行這些數(shù)據(jù)交換。計(jì)算網(wǎng)絡(luò)的性能可以在很大程度上影響并行程序的計(jì)算效率,例如現(xiàn)在主流的InfiniBand高速網(wǎng)絡(luò)的并行程序執(zhí)行效率遠(yuǎn)高于千兆以太網(wǎng)絡(luò)。高性能計(jì)算機(jī)集群除了計(jì)算網(wǎng)絡(luò)外還有ー套存儲網(wǎng)絡(luò),用于連接磁盤陣列等存儲設(shè)備以及集群I/o節(jié)點(diǎn),為集群提供全局共享存儲。一般大中至高性能計(jì)算集群都采用光纖通道的存儲區(qū)域網(wǎng)絡(luò)(Fiber Channel StorageArea Network, FC-SAN)。然而多套網(wǎng)絡(luò)的管理對集群系統(tǒng)管理員來說是個(gè)難題,因?yàn)镮nfiniBand網(wǎng)絡(luò)和FC-SAN網(wǎng)絡(luò)都有各自獨(dú)立的管理維護(hù)方法,特別是FC-SAN網(wǎng)絡(luò)的管理難度較大。針對相關(guān)技術(shù)中的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容針對相關(guān)技術(shù)中的問題,本實(shí)用新型提出ー種基于ー套InfiniBand物理網(wǎng)絡(luò)的計(jì)算機(jī)集群系統(tǒng),其能夠節(jié)省集群系統(tǒng)管理員的網(wǎng)絡(luò)管理和維護(hù)工作并提高集群系統(tǒng)中的存儲網(wǎng)絡(luò)的性能。本實(shí)用新型的技術(shù)方案是這樣實(shí)現(xiàn)的一種計(jì)算機(jī)集群系統(tǒng),所述集群系統(tǒng)包括計(jì)算網(wǎng)絡(luò)單元,其包括一臺或多臺計(jì)算機(jī),所述多臺計(jì)算機(jī)之間基于InfiniBand網(wǎng)絡(luò)進(jìn)行通信以并行執(zhí)行計(jì)算任務(wù);存儲網(wǎng)絡(luò)單元,其通過所述InfiniBand網(wǎng)絡(luò)與所述計(jì)算網(wǎng)絡(luò)單元相連接,所述存儲網(wǎng)絡(luò)單元包括至少ー個(gè)存儲設(shè)備,所述存儲設(shè)備配置有InfiniBand接ロ,所述存儲設(shè)備通過所述InfiniBand接ロ傳送存儲數(shù)據(jù)給所述計(jì)算機(jī)或者存儲所述計(jì)算機(jī)傳送的需要存儲的數(shù)據(jù)。在本實(shí)用新型可選實(shí)施方式中,所述集群系統(tǒng)中的存儲網(wǎng)絡(luò)單元包括應(yīng)用服務(wù)器和多個(gè)配置有InfiniBand接ロ的存儲設(shè)備,所述存儲設(shè)備和所述應(yīng)用服務(wù)器連接到所述InfiniBand 網(wǎng)絡(luò);所述計(jì)算網(wǎng)絡(luò)單元中的計(jì)算機(jī)基于所述InfiniBand網(wǎng)絡(luò)將需要存儲的數(shù)據(jù)傳送給所述應(yīng)用服務(wù)器或者從所述應(yīng)用服務(wù)器獲取存儲數(shù)據(jù);所述存儲設(shè)備通過所述InfiniBand接ロ接收所述應(yīng)用服務(wù)器傳送的所述需要存儲的數(shù)據(jù)并存儲或者將所述存儲數(shù)據(jù)傳送給所述應(yīng)用服務(wù)器。在本實(shí)用新型可選實(shí)施方式中,所述應(yīng)用服務(wù)器與所述存儲設(shè)備通過SRP協(xié)議在所述存儲網(wǎng)絡(luò)單元中的InfiniBand網(wǎng)絡(luò)上傳輸數(shù)據(jù)。在本實(shí)用新型可選實(shí)施方式中,所述存儲設(shè)備包括磁盤陣列。本實(shí)用新型通過使用ー套Infiniband物理網(wǎng)絡(luò)既用于計(jì)算網(wǎng)絡(luò)單元,又用于存儲網(wǎng)絡(luò)単元,從而使得相比于現(xiàn)有的集群系統(tǒng)可以省去昂貴的光纖網(wǎng)絡(luò),減小投入,并省去光纖網(wǎng)絡(luò)的維護(hù)成本。另外,集群系統(tǒng)管理員對ー套網(wǎng)絡(luò)的維護(hù)和管理能夠比兩套網(wǎng)絡(luò)簡 單,從而可以至少節(jié)省一半維護(hù)工作量。進(jìn)ー步地,由于InfiniBand網(wǎng)絡(luò)的性能遠(yuǎn)遠(yuǎn)高于光纖網(wǎng)絡(luò),因此基于InfiniBand網(wǎng)絡(luò)的網(wǎng)絡(luò)存儲單元可以大大提高存儲數(shù)據(jù)傳輸?shù)男阅堋?br>
圖I是根據(jù)本實(shí)用新型一實(shí)施例的計(jì)算機(jī)集群系統(tǒng)的結(jié)構(gòu)示意框圖;圖2是根據(jù)本實(shí)用新型另ー實(shí)施例的計(jì)算機(jī)集群系統(tǒng)的結(jié)構(gòu)示意框圖。
具體實(shí)施方式
以下結(jié)合附圖對本實(shí)用新型作進(jìn)ー步的說明。根據(jù)本實(shí)用新型一實(shí)施例的計(jì)算機(jī)集群系統(tǒng)的結(jié)構(gòu)示意框圖如圖I所示,計(jì)算機(jī)集群系統(tǒng)包括計(jì)算網(wǎng)絡(luò)單元I和存儲網(wǎng)絡(luò)單元2。計(jì)算網(wǎng)絡(luò)單元I中包括一臺或多臺計(jì)算機(jī)10,計(jì)算機(jī)10之間通過InfiniBand網(wǎng)絡(luò)連接,從而計(jì)算機(jī)10之間基于InfiniBand網(wǎng)絡(luò)進(jìn)行通信以并行執(zhí)行計(jì)算使任務(wù)。其中,這些計(jì)算機(jī)10也可以理解為計(jì)算網(wǎng)絡(luò)單元I中的計(jì)算節(jié)點(diǎn)。存儲網(wǎng)絡(luò)單元2包括至少ー個(gè)存儲設(shè)備20,存儲設(shè)備20使用InfiniBand接ロ與計(jì)算機(jī)10通信。存儲網(wǎng)絡(luò)單元2中的多個(gè)存儲設(shè)備之間也通過InfiniBand網(wǎng)絡(luò)連接。在ー實(shí)施方式中,計(jì)算節(jié)點(diǎn)可以是通過用于InfiniBand網(wǎng)絡(luò)的HCA卡(HostChannel Adaptor,主機(jī)通道適配器)以及Inf iniBand線纜直接與磁盤陣列的Inf inBand接ロ連接。其中,存儲設(shè)備20可以是磁盤陣列RAID。根據(jù)本實(shí)用新型另ー實(shí)施例的計(jì)算機(jī)集群系統(tǒng)的結(jié)構(gòu)圖如圖2所示,存儲網(wǎng)絡(luò)單元2中包括配置有InfiniBand接ロ的ー個(gè)或多個(gè)磁盤陣列20和應(yīng)用服務(wù)器22,它們組成存儲區(qū)域網(wǎng)絡(luò)SAN。應(yīng)用服務(wù)器將磁盤陣列的存儲資源,比如RAID的邏輯卷,映射到應(yīng)用服務(wù)器上,這樣應(yīng)用服務(wù)器即掛載有存儲資源。然后應(yīng)用服務(wù)器將所述存儲資源傳輸給計(jì)算網(wǎng)絡(luò)單元I中的計(jì)算節(jié)點(diǎn)10??蛇x地,計(jì)算節(jié)點(diǎn)10可以通過HCA卡與磁盤陣列20基于InfiniBand 接 ロ通信。使用InfiniBand接ロ的磁盤陣列與應(yīng)用服務(wù)器可以通過SRP協(xié)議(SCSI RDMAprotocol)在InfiniBand網(wǎng)絡(luò)上傳輸數(shù)據(jù),這與現(xiàn)有計(jì)算網(wǎng)絡(luò)單元I中的計(jì)算機(jī)10之間基于InfinBand網(wǎng)絡(luò)傳輸數(shù)據(jù)使用的協(xié)議不相同。SRP協(xié)議是伴隨著RDMA(Remote DirectMemory Area,RDMA)技術(shù)的出現(xiàn)而設(shè)計(jì)的ー種網(wǎng)絡(luò)存儲協(xié)議,它利用RDMA功能在網(wǎng)絡(luò)上傳輸SCSI指令和數(shù)據(jù)。ー個(gè)新RDMA通道建立吋,SRP發(fā)起方端ロ要登錄SRP目標(biāo)方端ロ。發(fā)出建立請求的一方是SRP發(fā)起方端ロ,接受請求的一方是SRP目標(biāo)方端ロ。[0026]在本實(shí)用新型實(shí)施例中,計(jì)算機(jī)網(wǎng)絡(luò)單元I中的計(jì)算機(jī)10和配置有InfiniBand接ロ的磁盤陣列都位于同一套InfiniBand網(wǎng)絡(luò)中。正常運(yùn)行狀態(tài)下,計(jì)算網(wǎng)絡(luò)單元中的計(jì)算節(jié)點(diǎn)的并行程序通信跑在計(jì)算網(wǎng)絡(luò)單元I中的InfiniBand網(wǎng)絡(luò)上,配置有InfiniBand接ロ的磁盤陣列(也稱為存儲節(jié)點(diǎn))與其他存儲節(jié)點(diǎn)之間的存儲數(shù)據(jù)傳輸跑在存儲網(wǎng)絡(luò)單元2中的InfiniBand網(wǎng)絡(luò)上。由于兩個(gè)網(wǎng)絡(luò)單元中,數(shù)據(jù)傳輸?shù)膮f(xié)議不一樣,因此計(jì)算網(wǎng)絡(luò)單元I與存儲網(wǎng)絡(luò)單元2之間可以互不干擾。在另ー實(shí)施方式中的存儲網(wǎng)絡(luò)單元中,應(yīng)用服務(wù)器和配置有InfiniBand接ロ的磁盤陣列組成存儲區(qū)域網(wǎng)絡(luò)SAN。應(yīng)用服務(wù)器將磁盤陣列的存儲資源,比如RAID的邏輯卷,通過SRP協(xié)議映射到應(yīng)用服務(wù)器上,這樣應(yīng)用服務(wù)器即掛載有存儲資源。然后應(yīng)用服務(wù)器將所述存儲資源傳輸給計(jì)算網(wǎng)絡(luò)單元中的計(jì)算節(jié)點(diǎn)。綜上所述,借助本實(shí)用新型的上述技術(shù)方案,通過使用ー套Infiniband物理網(wǎng)絡(luò),將其既用于并行程序通信(計(jì)算網(wǎng)絡(luò)),又用于存儲數(shù)據(jù)傳輸(存儲網(wǎng)絡(luò)),從而使得可以省去昂貴的光纖網(wǎng)絡(luò),減小了投入,并且省去了光纖網(wǎng)絡(luò)的維護(hù)成本。另外,一套網(wǎng)絡(luò)的維護(hù)和管理能夠比兩套網(wǎng)絡(luò)簡單,從而可以至少節(jié)省集群系統(tǒng)管理員一半的維護(hù)工作量。進(jìn)ー步地,由于InfiniBand網(wǎng)絡(luò)的性能遠(yuǎn)遠(yuǎn)高于光纖網(wǎng)絡(luò),因此基于InfiniBand網(wǎng)絡(luò)的網(wǎng)絡(luò)存儲単元可以大大提高存儲數(shù)據(jù)傳輸?shù)男阅堋nfiniBand QDR理論帶寬為40Gb/s,其是目前主流FC接ロ 8Gb/s的5倍。以上所述僅為本實(shí)用新型的較佳實(shí)施例而已,并不用以限制本實(shí)用新型,凡在本實(shí)用新型的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本實(shí)用新型的保護(hù)范圍之內(nèi)。
權(quán)利要求1.一種計(jì)算機(jī)集群系統(tǒng),所述集群系統(tǒng)包括 計(jì)算網(wǎng)絡(luò)單元,其包括一臺或多臺計(jì)算機(jī),其中所述多臺計(jì)算機(jī)之間基于InfiniBand網(wǎng)絡(luò)進(jìn)行通信以并行執(zhí)行計(jì)算任務(wù); 存儲網(wǎng)絡(luò)單元,其通過所述InfiniBand網(wǎng)絡(luò)與所述計(jì)算網(wǎng)絡(luò)單元相連接,所述存儲網(wǎng)絡(luò)單元包括至少ー個(gè)存儲設(shè)備,所述存儲設(shè)備配置有InfiniBand接ロ,所述存儲設(shè)備通過所述InfiniBand接ロ傳送存儲數(shù)據(jù)給所述計(jì)算機(jī)或者存儲所述計(jì)算機(jī)傳送的需要存儲的數(shù)據(jù)。
2.根據(jù)權(quán)利要求I所述的集群系統(tǒng),其特征在于,所述存儲網(wǎng)絡(luò)單元包括應(yīng)用服務(wù)器和多個(gè)配置有InfiniBand接ロ的存儲設(shè)備,所述存儲設(shè)備和所述應(yīng)用服務(wù)器連接到所述InfiniBand 網(wǎng)絡(luò); 所述計(jì)算網(wǎng)絡(luò)單元中的計(jì)算機(jī)基于所述InfiniBand網(wǎng)絡(luò)將需要存儲的數(shù)據(jù)傳送給所述應(yīng)用服務(wù)器或者從所述應(yīng)用服務(wù)器獲取存儲數(shù)據(jù); 所述存儲設(shè)備通過所述InfiniBand接ロ接收所述應(yīng)用服務(wù)器傳送的所述需要存儲的數(shù)據(jù)并存儲或者將所述存儲數(shù)據(jù)傳送給所述應(yīng)用服務(wù)器。
3.根據(jù)權(quán)利要求2所述的集群系統(tǒng),其特征在于,所述應(yīng)用服務(wù)器與所述存儲設(shè)備通過SRP協(xié)議在所述存儲網(wǎng)絡(luò)單元中的InfiniBand網(wǎng)絡(luò)上傳輸數(shù)據(jù)。
4.根據(jù)權(quán)利要求I至3任一項(xiàng)所述的集群系統(tǒng),其特征在于,所述存儲設(shè)備包括磁盤陣列。
專利摘要本實(shí)用新型公開了一種計(jì)算機(jī)集群系統(tǒng),所述集群系統(tǒng)包括計(jì)算網(wǎng)絡(luò)單元,其包括多臺計(jì)算機(jī),所述計(jì)算機(jī)之間基于InfiniBand網(wǎng)絡(luò)進(jìn)行通信以并行執(zhí)行計(jì)算任務(wù);以及存儲網(wǎng)絡(luò)單元,其通過所述InfiniBand網(wǎng)絡(luò)與所述計(jì)算網(wǎng)絡(luò)單元相連接,所述存儲網(wǎng)絡(luò)單元包括至少一個(gè)存儲設(shè)備,所述存儲設(shè)備配置有InfiniBand接口,所述存儲設(shè)備通過所述InfiniBand接口傳送存儲數(shù)據(jù)給所述計(jì)算機(jī)或者存儲所述計(jì)算機(jī)傳送的需要存儲的數(shù)據(jù)。采用本實(shí)用新型,能夠節(jié)省集群系統(tǒng)管理員的網(wǎng)絡(luò)管理和維護(hù)工作并提高集群系統(tǒng)中的存儲網(wǎng)絡(luò)的性能。
文檔編號H04L29/08GK202406147SQ20112057455
公開日2012年8月29日 申請日期2011年12月31日 優(yōu)先權(quán)日2011年12月31日
發(fā)明者何滄平, 何牧君, 占杰, 吳宏文, 姜金良, 張兵, 戴榮, 方曉健, 曹振南, 李斌, 楊亮, 秦東明, 陳偉, 馬少杰 申請人:曙光信息產(chǎn)業(yè)股份有限公司