使用與鏈路結(jié)構(gòu)分組異步的微片捆包的鏈路傳送、位錯(cuò)誤檢測(cè)以及鏈路重試的制作方法
【專(zhuān)利說(shuō)明】使用與鏈路結(jié)構(gòu)分組異步的微片捆包的鏈路傳送、位錯(cuò)誤 檢測(cè)以及鏈路重試
[0001] 背景信息
[0002] 近年來(lái),對(duì)高性能計(jì)算(HPC)的使用和興趣已出現(xiàn)大幅增長(zhǎng)。過(guò)去,HPC通常與 所謂的"超級(jí)計(jì)算機(jī)"相關(guān)聯(lián)。超級(jí)計(jì)算機(jī)在I960年代面世,最初以及數(shù)十年來(lái)主要由 SeymourCray在以SeymourCray的名字或首字母縮寫(xiě)命名的控制數(shù)據(jù)公司(CDC)、Cray研 究以及隨后的多個(gè)公司制造。雖然1970年代的超級(jí)計(jì)算機(jī)僅使用幾個(gè)處理器,但在1990 年代,具有數(shù)千個(gè)處理器的機(jī)器開(kāi)始出現(xiàn),并且近來(lái)已經(jīng)實(shí)現(xiàn)具有數(shù)十萬(wàn)個(gè)"現(xiàn)成"的處理 器的大規(guī)模并行超級(jí)計(jì)算機(jī)。
[0003] 存在許多類(lèi)型的HPC架構(gòu),這些HPC架構(gòu)以不同級(jí)別的規(guī)模和性能被實(shí)現(xiàn)和被研 究。然而,共同的思路是諸如處理器和/或處理器核之類(lèi)的大量計(jì)算單元的互連,以用于以 并行的方式協(xié)作地執(zhí)行任務(wù)。根據(jù)近來(lái)的芯片上系統(tǒng)(SoC)設(shè)計(jì)和提案,使用二維(2D)陣 列、三維環(huán)(torus)、環(huán)或其它配置在單個(gè)SoC上實(shí)現(xiàn)大量的處理器核或類(lèi)似物。此外,研究 人員已經(jīng)提出了 3DSoC,其中100個(gè)或甚至1000個(gè)處理器核以3D陣列互連。在多個(gè)服務(wù) 器板上的多個(gè)分開(kāi)的多核處理器和SoC也可以間隔很近,多個(gè)服務(wù)器板又通過(guò)背板或類(lèi)似 物通信地互連。另一常見(jiàn)方法是互連在通常以2D陣列配置的服務(wù)器的機(jī)架(例如刀片式服 務(wù)器和模塊)中的多個(gè)互連計(jì)算單元。聲稱(chēng)是世界上最快的超級(jí)計(jì)算機(jī)的IBMSequoia(紅 杉)包括總計(jì)1,572, 864個(gè)核的服務(wù)器刀片/模塊的96個(gè)機(jī)架的2D陣列,在峰值性能下 工作時(shí)消耗巨額的7. 9兆瓦。
[0004] HPC的性能瓶頸之一是由在計(jì)算節(jié)點(diǎn)之間的多個(gè)互連上傳送數(shù)據(jù)引起的等待時(shí) 間。典型地,這些互連以互連層次結(jié)構(gòu)構(gòu)造,最高速和最短的那些互連在處理器/SoC內(nèi)處 于該層次結(jié)構(gòu)的頂部,而等待時(shí)間隨著沿層次結(jié)構(gòu)級(jí)別向下而增加。例如,在處理器/SoC 級(jí)別之后,互連層次結(jié)構(gòu)可包括處理器間的互連級(jí)別、板間的互連級(jí)別、以及將各個(gè)服務(wù)器 或各個(gè)服務(wù)器的聚集與其它機(jī)架中的服務(wù)器/聚集相連接的一個(gè)或多個(gè)附加的級(jí)別。
[0005] 互連層次結(jié)構(gòu)的一個(gè)或多個(gè)級(jí)別采用不同協(xié)議是常見(jiàn)的。例如,SoC之內(nèi)的多個(gè)互 連典型地是專(zhuān)有的,而層次結(jié)構(gòu)中的較低級(jí)別可采用專(zhuān)有或標(biāo)準(zhǔn)化的多個(gè)互連。不同的互 連級(jí)別還將典型地實(shí)現(xiàn)不同的物理(PHY)層。作為結(jié)果,必須在多個(gè)互連級(jí)別之間采用一 些類(lèi)型的互連橋接。此外,當(dāng)實(shí)現(xiàn)異構(gòu)計(jì)算環(huán)境時(shí),給定互連級(jí)別內(nèi)的橋接可能是必須的。
[0006] 在互連層次結(jié)構(gòu)的較低級(jí)別,使用諸如以太網(wǎng)(在各種IEEE802. 3標(biāo)準(zhǔn)中定義) 和無(wú)限帶寬(InfiniBand)之類(lèi)的標(biāo)準(zhǔn)化互連。在PHY層,這些標(biāo)準(zhǔn)中的每一種支持有線連 接(諸如纜線和在背板上)以及光鏈路。以太網(wǎng)在0SI7層模型中的鏈路層(層2)上實(shí) 現(xiàn),并且從根本上被視為鏈路層協(xié)議。無(wú)限帶寬(InfiniBand)標(biāo)準(zhǔn)定義了用于無(wú)限帶寬的 覆蓋0SI層1-4的各個(gè)0SI層方面。
[0007] 當(dāng)前的以太網(wǎng)協(xié)議不具有用于支持以太網(wǎng)鏈路上的可靠的數(shù)據(jù)傳輸?shù)娜魏喂逃?的設(shè)施。無(wú)限帶寬(InfiniBand)的鏈路層實(shí)現(xiàn)也是這樣。在更高層(諸如TCP/IP)上, 每個(gè)地址傳輸是可靠的。在TCP下,通過(guò)從(IP目標(biāo)地址上的)接收方響應(yīng)于接收到來(lái)自 發(fā)送方的IP分組而返回至(IP源地址上的)發(fā)送方的明確確認(rèn)(ACK)來(lái)實(shí)現(xiàn)數(shù)據(jù)的可靠 遞送。因?yàn)榉纸M可能在沿著發(fā)送方和接收方之間的路徑的多個(gè)節(jié)點(diǎn)之一處丟失(或者如 果接收方具有的緩沖器空間不足,則甚至有可能在接收方處丟失),所以使用明確的ACK來(lái) 確認(rèn)每個(gè)分組的成功遞送(注意,單個(gè)ACK響應(yīng)可確認(rèn)多個(gè)IP分組的遞送)。傳輸一確認(rèn) (ACK)方案需要在源和目的地設(shè)備的每個(gè)設(shè)備處維持大量的緩沖器空間(在需要重傳丟失 的分組或多個(gè)分組的情況下),并且還給網(wǎng)絡(luò)堆棧增加了附加的處理和復(fù)雜性。例如,由于 ACK有可能丟失,所以發(fā)送方還要采用定時(shí)器,該定時(shí)器用于對(duì)在該定時(shí)器的超時(shí)時(shí)段之內(nèi) 未接收到ACK的分組觸發(fā)重傳。每個(gè)ACK消耗珍貴的鏈路帶寬并且產(chǎn)生附加的處理開(kāi)銷(xiāo)。 此外,使用定時(shí)器對(duì)鏈路往返延遲設(shè)置了上限。
【附圖說(shuō)明】
[0008] 通過(guò)參考與附圖一起進(jìn)行的下面的詳細(xì)描述,本發(fā)明的前述的方面和許多伴隨的 優(yōu)點(diǎn),將變得更加輕松地被理解,其中,在各個(gè)視圖中,相同參考編號(hào)表示相同部件,除非另 作說(shuō)明:
[0009]圖1是示出根據(jù)一個(gè)實(shí)施例的包括結(jié)構(gòu)架構(gòu)的各種部件和互連的系統(tǒng)的高級(jí)視 圖的不意圖;
[0010] 圖2是描繪根據(jù)一個(gè)實(shí)施例的用于在結(jié)構(gòu)鏈路上傳送數(shù)據(jù)的該架構(gòu)的多個(gè)層的 示意圖;
[0011] 圖3是示出被集合在捆包中的多個(gè)微片(flit)的示意圖。
[0012] 圖4是示出根據(jù)一個(gè)實(shí)施例的結(jié)構(gòu)分組的結(jié)構(gòu)的示意圖;
[0013] 圖5是示出根據(jù)一個(gè)實(shí)施例的標(biāo)準(zhǔn)檢測(cè)LTP的數(shù)據(jù)結(jié)構(gòu)的示圖;
[0014] 圖6是示出根據(jù)一個(gè)實(shí)施例的14位CRCLTP的數(shù)據(jù)結(jié)構(gòu)的示圖;
[0015] 圖7是示出根據(jù)一個(gè)實(shí)施例的增強(qiáng)檢測(cè)LTP的數(shù)據(jù)結(jié)構(gòu)的示圖;
[0016] 圖8是示出根據(jù)一個(gè)實(shí)施例的標(biāo)準(zhǔn)檢測(cè)空LTP的數(shù)據(jù)結(jié)構(gòu)的示圖;
[0017]圖9a是示出根據(jù)一個(gè)實(shí)施例的用于4通道鏈路的傳輸方案的實(shí)施例的示圖,其中 每次在鏈路結(jié)構(gòu)與鏈路傳送子層之間的接口處并行地處理兩個(gè)用于標(biāo)準(zhǔn)檢測(cè)LTP的微片;
[0018]圖9b是示出根據(jù)一個(gè)實(shí)施例的用于4通道鏈路的傳輸方案的實(shí)施例的示圖,其中 每次在鏈路結(jié)構(gòu)與鏈路傳送子層之間的接口處并行地處理兩個(gè)用于增強(qiáng)檢測(cè)LTP的微片;
[0019] 圖10是示出根據(jù)一個(gè)實(shí)施例的在4通道鏈路上傳輸具有兩個(gè)控制位的14位CRC LTP的示意圖,其中每次在鏈路結(jié)構(gòu)與鏈路傳送子層之間的接口處并行地處理兩個(gè)微片;
[0020] 圖11是示出根據(jù)一個(gè)實(shí)施例的在8通道數(shù)據(jù)路徑上并行地傳輸具有兩個(gè)控制位 的兩個(gè)14位CRCLTP的示意圖,該8通道數(shù)據(jù)路徑包括結(jié)合在一起的兩個(gè)4通道鏈路;
[0021] 圖12是示出根據(jù)一個(gè)實(shí)施例的在采用4通道的兩個(gè)鏈路端口之間的雙向數(shù)據(jù)傳 輸?shù)氖纠氖疽鈭D;
[0022] 圖13是示出交織來(lái)自從不同的虛擬通道上發(fā)送的兩個(gè)FP的多個(gè)結(jié)構(gòu)分組微片的 實(shí)施例的示例的示圖;
[0023] 圖14是示出根據(jù)一個(gè)實(shí)施例的使用進(jìn)棧和出棧(PushandPop)交織的示圖;
[0024] 圖15是示出根據(jù)一個(gè)實(shí)施例的使用進(jìn)棧和出棧交織和VL標(biāo)記交織的組合的示 圖;
[0025] 圖16是示出根據(jù)一個(gè)實(shí)施例的來(lái)自緩存在三個(gè)不同的VLFIFO中的三個(gè)結(jié)構(gòu)分 組的多個(gè)微片的搶先交織的示例的組合示意圖和時(shí)間流圖,三個(gè)不同的VLFIFO與具有不 同優(yōu)先級(jí)的VL相對(duì)應(yīng);
[0026] 圖17是示出根據(jù)一個(gè)實(shí)施例的來(lái)自緩存在三個(gè)不同的VLFIFO中的三個(gè)結(jié)構(gòu)分 組的多個(gè)微片的冒泡交織和搶先交織的示例的組合示意圖和時(shí)間流圖,其中兩個(gè)VL共享 優(yōu)先級(jí),而另一個(gè)VL具有更尚的優(yōu)先級(jí);
[0027] 圖18a和18b是示出傳輸LTP傳輸方案和使用按照通道的CRC和LTPCRC來(lái)檢測(cè) LTP通道和錯(cuò)誤通道的示意圖,其中
[0028] 圖18a描繪了根據(jù)一個(gè)實(shí)施例的LTP傳輸方案中的LTP的原始傳輸,而圖18b描 繪了根據(jù)一個(gè)實(shí)施例的使用重放緩沖器在LTP傳輸流中的LTP的重傳;
[0029] 圖18c是示出根據(jù)一個(gè)實(shí)施例的使用重試標(biāo)記和往返標(biāo)記來(lái)防止重放緩沖器LTP 被覆寫(xiě)的示意圖;
[0030] 圖19是示出根據(jù)一個(gè)實(shí)施例的使用33個(gè)傳送組(XFR)來(lái)傳輸標(biāo)準(zhǔn)檢測(cè)LTP的示 圖;
[0031] 圖20是示出根據(jù)一個(gè)實(shí)施例的使用33個(gè)32位XFR和四個(gè)LTP序列狀態(tài)在4通 道鏈路上傳輸LTP的示圖;
[0032] 圖21是示出根據(jù)一個(gè)實(shí)施例的如何使用33個(gè)32位XFR在4通道鏈路上傳輸包 括8字節(jié)數(shù)據(jù)和第65位的微片數(shù)據(jù)的示圖;
[0033] 圖22a_22e共同構(gòu)成多頁(yè)流程圖,示出根據(jù)一個(gè)實(shí)施例的用于便于使用使用隱式 ACK以及重放緩沖器在鏈路層的可靠LTP傳輸,還示出根據(jù)一個(gè)實(shí)施例的用于檢測(cè)錯(cuò)誤通 道的操作和邏輯;
[0034]圖23a是根據(jù)一個(gè)實(shí)施例的用于發(fā)射機(jī)的狀態(tài)圖;
[0035]圖23b是根據(jù)一個(gè)實(shí)施例的用于接收機(jī)的狀態(tài)圖;
[0036] 圖24是根據(jù)一個(gè)實(shí)施例的按照XFR組來(lái)計(jì)算和存儲(chǔ)的按照通道的CRC的示圖;
[0037] 圖25是示出用于圖18a和18b的示例的按照每個(gè)XFR組來(lái)存儲(chǔ)的示例性的按照 通道的CRC計(jì)算的示圖,其中在第一LTP序列狀態(tài)下在壞LTP的原始傳輸和在第三LTP系 列狀態(tài)下在從重放緩沖器重傳該壞LTP的期間計(jì)算按照通道的CRC;
[0038] 圖26是示出根據(jù)一個(gè)實(shí)施例的在三個(gè)通道上的標(biāo)準(zhǔn)檢測(cè)LTP的傳送的示圖,其中 按照通道并行地傳送11個(gè)XFR;
[0039] 圖27是示出根據(jù)一個(gè)實(shí)施例的在兩個(gè)通道上并且采用兩個(gè)LTP序列狀態(tài)來(lái)傳送 標(biāo)準(zhǔn)檢測(cè)LTP,其中在一個(gè)通道上傳送17個(gè)XFR,并在另一個(gè)通道上傳輸16個(gè)XFR;
[0040] 圖28是示出根據(jù)一個(gè)實(shí)施例的使用33個(gè)32位XFR在單個(gè)通道上傳輸標(biāo)準(zhǔn)檢測(cè) LTP的示圖;以及
[0041] 圖29是根據(jù)一個(gè)實(shí)施例的包括HFI的系統(tǒng)的示意圖。
【具體實(shí)施方式】
[0042] 本申請(qǐng)描述了使用與鏈路結(jié)構(gòu)分組異步的微片捆包來(lái)進(jìn)行鏈路傳送、位錯(cuò)誤檢測(cè) 以及鏈路重試的方法、裝置和系統(tǒng)的實(shí)施例。在以下描述中,闡述了許多具體細(xì)節(jié)以提供對(duì) 本發(fā)明的實(shí)施例的透徹理解。然而,本領(lǐng)域技術(shù)人員將領(lǐng)會(huì),可以不利用這些具體細(xì)節(jié)中 的一個(gè)或多個(gè)細(xì)節(jié)或者通過(guò)其他方法、部件、材料等來(lái)實(shí)施本發(fā)明。在其他實(shí)例中,沒(méi)有詳 細(xì)示出或描述公知的結(jié)構(gòu)、材料、或操作以免模糊本發(fā)明的多個(gè)方面。本申請(qǐng)文件中通篇對(duì) "一個(gè)實(shí)施例"或"實(shí)施例"的引用意指結(jié)合該實(shí)施例描述的特定特征、結(jié)構(gòu)或特性被包括在 本發(fā)明的至少一個(gè)實(shí)施例中。如此,在整個(gè)說(shuō)明書(shū)中的不同位置出現(xiàn)短語(yǔ)"在一個(gè)實(shí)施例 中"或"在實(shí)施例中"不一定都是指同一個(gè)實(shí)施例。而且,可按照任何合適的方式在一個(gè)或 多個(gè)實(shí)施例中組合特定特征、結(jié)構(gòu)、或特性。
[0043]為清楚起見(jiàn),也可通過(guò)本申請(qǐng)附圖中的各個(gè)部件的標(biāo)記而不是通過(guò)特定的參考編 號(hào)來(lái)指代本申請(qǐng)附圖中的各個(gè)部件。附加地,可利用跟隨有"(typ)"(表示"典型的")的 參考編號(hào)示出指代特定類(lèi)型的部件(與特定部件相對(duì)照)的參考編號(hào)。將理解,這些部件 的配置將是相似部件的典型配置,相似部件可能存在但為了簡(jiǎn)明和清楚起見(jiàn)未在附圖中示 出。相反,"typ"不應(yīng)理解為表示該部件、元件等等典型地用于所公開(kāi)的其功能、實(shí)現(xiàn)、目的 等等。
[0044]根據(jù)本申請(qǐng)中描述的實(shí)施例的多個(gè)方面,提供了一種架構(gòu),該架構(gòu)定義了消息傳 遞、交換的、服務(wù)器互連網(wǎng)絡(luò)。該架構(gòu)跨越了 0SI網(wǎng)絡(luò)模型層1和2,充分利用用于層3的 IETF因特網(wǎng)協(xié)議,并且包括用于該架構(gòu)的層4的新的和充分利用的規(guī)范的組合。
[0045] 可通過(guò)正式定義(諸如超級(jí)計(jì)算機(jī))或簡(jiǎn)單地通過(guò)關(guān)聯(lián)來(lái)實(shí)現(xiàn)該架構(gòu)以用于互連 CPU和包括邏輯消息傳遞配置的多個(gè)其它子系統(tǒng),如同云計(jì)算中常見(jiàn)的情況,這樣的服務(wù)器 組或集群由于它們運(yùn)行的消息傳遞應(yīng)用而以某種類(lèi)型的協(xié)作方式工作?;ミB的部件被稱(chēng)為 節(jié)點(diǎn)。還可實(shí)現(xiàn)該架構(gòu)以用于互連處理器節(jié)點(diǎn)與SoC、多芯片模塊或類(lèi)似物。一種類(lèi)型的節(jié) 點(diǎn)稱(chēng)為主機(jī),用戶(hù)模式軟件在該類(lèi)型的節(jié)點(diǎn)上執(zhí)行。在一個(gè)實(shí)施例中,主機(jī)包括單個(gè)高速緩 存一致性存儲(chǔ)器域(不管該一致性域中的核或CPU的數(shù)量),并且可包括各種本地I/O和存 儲(chǔ)子系統(tǒng)。主機(jī)運(yùn)行的軟件的類(lèi)型可定義諸如用戶(hù)應(yīng)用節(jié)點(diǎn)、或存儲(chǔ)或文件服務(wù)器之類(lèi)的 更專(zhuān)門(mén)的功能,并用于描述更詳細(xì)的系統(tǒng)架構(gòu)。
[0046] 在頂層,該架構(gòu)定義以下部件:
[0047] ?主機(jī)結(jié)構(gòu)接口(HFI);
[0048] ?鏈路
[0049] ?交換機(jī);
[0050] ?網(wǎng)關(guān);以及
[0051] ?綜合性的管理模型。
[0052] 主機(jī)結(jié)構(gòu)接口至少由用于實(shí)現(xiàn)該架構(gòu)的物理層和鏈路層的邏輯組成,使得節(jié)點(diǎn)可 附接至結(jié)構(gòu)并向其它服務(wù)器或設(shè)備發(fā)送分組和接收分組。HFI包括用于操作系統(tǒng)和VMM(虛 擬機(jī)管理器)支持的適當(dāng)?shù)挠布涌诤万?qū)動(dòng)器。HFI還可包括用于執(zhí)行或加速上層協(xié)議和/ 或卸載傳輸協(xié)議的專(zhuān)門(mén)邏輯。HFI還包括用于響應(yīng)于來(lái)自網(wǎng)絡(luò)管理部件的消息的邏輯。每 個(gè)主機(jī)經(jīng)由HFI連接至架構(gòu)結(jié)構(gòu)。
[0053] 鏈路是全雙工的點(diǎn)對(duì)點(diǎn)互連,這些互連將HFI連接至交換機(jī)、將交換機(jī)連接至其 它交換機(jī)、或?qū)⒔粨Q機(jī)連接至網(wǎng)關(guān)。鏈路可具有不同的物理配置,以電路板跡線的形式、以 銅纜的形式或以光纜的形式。在一個(gè)實(shí)施例中,PHY(物理層)實(shí)現(xiàn)、電纜和連接器策略將遵 循以太網(wǎng)(具體是lOOGbE,每秒100千兆比特的以太網(wǎng),諸如IEEE802. 3bj標(biāo)準(zhǔn)草案(當(dāng) 前草案2. 2)中定義的以太網(wǎng)鏈路)的PHY(物理層)實(shí)現(xiàn)、電纜和連接器策略。該架構(gòu)是靈 活的,支持使用可超過(guò)lOOGbE帶寬的未來(lái)以太網(wǎng)或其它鏈路技術(shù)。高端超級(jí)計(jì)算機(jī)產(chǎn)品可 使用專(zhuān)用(更高帶寬)的PHY,對(duì)于這些配置,與架構(gòu)產(chǎn)品的互操作性將基于具有不同PHY的端口的多個(gè)交換機(jī)。
[0054] 交換機(jī)是0SI層2部件,并且由該架構(gòu)的管理基礎(chǔ)設(shè)施管理。該架構(gòu)將因特網(wǎng)協(xié) 議定義為其0SI層3或互聯(lián)層,不過(guò)該架構(gòu)不在IP域中指定任何東西,也不管理IP相關(guān)的 設(shè)備。支持架構(gòu)結(jié)構(gòu)與外部網(wǎng)絡(luò)(尤其是以太網(wǎng))之間的連接性的設(shè)備被稱(chēng)為網(wǎng)關(guān)。輕量 網(wǎng)關(guān)可提供降低的功能性并且嚴(yán)格地在以太網(wǎng)的層2上工作。全功能網(wǎng)關(guān)可在層3上以及 更高層上工作,因此像路由器那樣工作。由該架構(gòu)提供的網(wǎng)關(guān)規(guī)范包括用于以太網(wǎng)封裝和 網(wǎng)關(guān)如何能夠在該結(jié)構(gòu)上工作以允許至與該架構(gòu)的余下部分一致的以太網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò) 的靈活的連接性的機(jī)制。使用IP作為互聯(lián)協(xié)議使得能夠使用IETF認(rèn)可的傳輸(即TCP、 UDP和SCTP)來(lái)超越該架構(gòu)的結(jié)構(gòu)發(fā)送和接收消息。
[0055] 圖1示出根據(jù)一個(gè)實(shí)施例的系統(tǒng)100的高級(jí)視圖,示出了該架構(gòu)的各種部件和互 連。該架構(gòu)的中心特征是結(jié)構(gòu)102,該結(jié)構(gòu)102包括經(jīng)由架構(gòu)鏈路和交換機(jī)互連的HFI和網(wǎng) 關(guān)的集合。如圖1所描繪,結(jié)構(gòu)102部件包括:多個(gè)HFI104(示出了一個(gè)HFI104),每個(gè) HFI104由相應(yīng)的分立的單節(jié)點(diǎn)平臺(tái)106主控;HFI108,由虛擬平臺(tái)110主控;HFI112# 112n,由多節(jié)點(diǎn)平臺(tái)116的相應(yīng)節(jié)點(diǎn)11尖和114n主控;HFI118JP118n,屬于集成單節(jié)點(diǎn)平 臺(tái)120 ;高基交換機(jī)122 ;交換機(jī)124和126 ;結(jié)構(gòu)管理器128、網(wǎng)關(guān)130、鏈路132、134、136i、 136^138^40^140^ 142、144、148以及共同示為云150的附加的鏈路和交換機(jī)。
[0056] 如上所討論,交換機(jī)是層2設(shè)備,并且在結(jié)構(gòu)內(nèi)擔(dān)當(dāng)分組轉(zhuǎn)發(fā)機(jī)構(gòu)。交換機(jī)由結(jié)構(gòu) 管理軟件集中地供應(yīng)和管理,并且每個(gè)交換機(jī)包括管理代理以對(duì)管理事務(wù)作出響應(yīng)。中央 供應(yīng)意味著轉(zhuǎn)發(fā)表由結(jié)構(gòu)管理軟件編程,以實(shí)現(xiàn)特定結(jié)構(gòu)拓?fù)浜娃D(zhuǎn)發(fā)能力,類(lèi)似于用于自 適應(yīng)路由的替代路徑。交換機(jī)負(fù)責(zé)執(zhí)行諸如自適應(yīng)路由和負(fù)載平衡之類(lèi)的QoS功能,并且 還實(shí)現(xiàn)阻塞管理功能。圖2描繪了用于在結(jié)構(gòu)鏈路上傳送數(shù)據(jù)的該架構(gòu)的多個(gè)層。這些層 包括物理(PHY)層、鏈路傳送子層、鏈路結(jié)構(gòu)子層以及傳輸層。在圖2的左側(cè)是這些層向 0SI參考模型的映射,其中PHY層映射至層1 (PHY層),鏈路傳送子層和鏈路結(jié)構(gòu)子層共同 映射至層2 (鏈路層),并且傳輸層映射至層4 (傳輸層)。
[0057] 在該架構(gòu)中,信號(hào)在物理層中被集合在一起至端口中,這些端口可如同單片實(shí)體 那樣工作、被控制和被報(bào)告。端口包括一個(gè)或多個(gè)物理通道,其中每個(gè)通道由實(shí)現(xiàn)在物理傳 輸介質(zhì)中的兩個(gè)差分對(duì)或光纖組成,每個(gè)通信方向一個(gè)。構(gòu)成端口的通道的數(shù)量是實(shí)現(xiàn)方 式相關(guān)的;然而,鏈路傳送子層的架構(gòu)支持端口寬度的有限集合。支持特定的端口寬度以作 為基本端口寬度,以允許電纜和芯片設(shè)計(jì)的常見(jiàn)目標(biāo)。這些端口寬度包括1χ、4χ、8χ、12x和 16x,其中"X"標(biāo)識(shí)物理通道的數(shù)量。在諸如檢測(cè)缺陷通道的一些情況下,鏈路可能在減小 的通道寬度下運(yùn)行。
[0058] 鏈路傳送子層充當(dāng)物理層與鏈路結(jié)構(gòu)子層之間的接口。(鏈路結(jié)構(gòu)子層上的)鏈 路結(jié)構(gòu)分組被分割成64位流控制數(shù)(FLIT、Flit或微片,流控制數(shù)的近似收縮)。圖3示 出了集合在捆包302中的多個(gè)微片300的示例。每個(gè)微片300包含64個(gè)數(shù)據(jù)位,包括8字 節(jié)的數(shù)據(jù)。
[0059] 鏈路傳送子層將多個(gè)通道形成組,這些組能夠以可靠的方式在該鏈路上傳送微片 和它們相關(guān)聯(lián)的信用返回信息。這利用與鏈路結(jié)構(gòu)子層相關(guān)聯(lián)的稱(chēng)為鏈路傳送分組(LTP) 的1056位捆包來(lái)完成。圖3還描繪了LTP的數(shù)據(jù)部分,包括16個(gè)數(shù)據(jù)微片。此外,LTP包 括微片類(lèi)型信息、CRC數(shù)據(jù)以及可選的數(shù)據(jù)(未在圖3中示出)。在各個(gè)圖(例如5-11)中 并在下文中更詳細(xì)地描述了LTP的示例。
[0060] 結(jié)構(gòu)分組由64位微片和用于每個(gè)微片的微片類(lèi)型位組成。結(jié)構(gòu)分組的第一數(shù)據(jù) 微片被稱(chēng)為頭微片。結(jié)構(gòu)分組的最后一個(gè)數(shù)據(jù)微片被稱(chēng)為尾微片。結(jié)構(gòu)分組中的任何其它 數(shù)據(jù)微片被稱(chēng)為體微片。在圖4中示出結(jié)構(gòu)分組400的示例。
[0061] 為每個(gè)微片設(shè)置了微片類(lèi)型位以將體微片與其它微片類(lèi)型區(qū)分開(kāi)。在一個(gè)實(shí)施例 中,體微片被編碼成將微片類(lèi)型位設(shè)置為1,并且包含64位數(shù)據(jù)。所有其它微片被標(biāo)記成將 類(lèi)型位設(shè)置為0。頭微片被編碼成將微片[63]設(shè)置為1。所有其它的(非體)微片被編碼 成將微片[63]設(shè)置為0。尾微片被編碼成將微片[62]設(shè)置為1。所有其它的(非體/頭) 微片被編碼成將微片[62]設(shè)置為0。在以下表1中概述了微片編碼。
[0063]表1
[0064] 在表2中概述了控制微片。在空LTP中發(fā)送僅由鏈路傳送層使用的七個(gè)控制微片 (LT控制微片)。余下的控制微片被劃分成兩個(gè)組。結(jié)構(gòu)分組(FP)微片包括HeadBadPkt、 BodyBadPkt以及TailBadPkt控制微片以及正常的分組頭(Head)微片、體(Body)微片和尾