本公開(kāi)涉及提供用于科學(xué)計(jì)算的存儲(chǔ)處理器陣列的設(shè)備、系統(tǒng)和方法。
背景技術(shù):
::固態(tài)驅(qū)動(dòng)器可包括非易失性固態(tài)存儲(chǔ)器,比如閃存。閃存可包括改進(jìn)形式的電可擦除可編程只讀存儲(chǔ)器(eeprom)。傳統(tǒng)的eeprom一次僅能夠擦除或?qū)懭胍粋€(gè)存儲(chǔ)器位置(例如一存儲(chǔ)器單元)。相比之下,閃存在一個(gè)編程操作中允許多個(gè)存儲(chǔ)器位置被擦除或?qū)懭?。因此相比于傳統(tǒng)的eeprom,閃存能以更高的速度操作。固態(tài)存儲(chǔ)器相對(duì)于其他存儲(chǔ)裝置具有多個(gè)優(yōu)勢(shì)。例如,其通常提供比硬盤(pán)驅(qū)動(dòng)器(hdd)更快的讀取存取次數(shù)和更好的耐沖擊性。不同于動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram),固態(tài)存儲(chǔ)器通常是非易失性的,意味著當(dāng)存儲(chǔ)器的電源被移除時(shí)存儲(chǔ)在閃存中的數(shù)據(jù)不丟失。這些優(yōu)勢(shì)以及其他優(yōu)勢(shì)可以解釋閃存在諸如存儲(chǔ)卡、usb閃存盤(pán)、手機(jī)、數(shù)字?jǐn)z像機(jī)、大容量存儲(chǔ)裝置、mp3播放器等的裝置中用于存儲(chǔ)應(yīng)用的日漸普及。技術(shù)實(shí)現(xiàn)要素:本公開(kāi)的實(shí)施例涉及提供用于科學(xué)計(jì)算的存儲(chǔ)處理器陣列的設(shè)備、系統(tǒng)的方法。本公開(kāi)的一些實(shí)施例包括固態(tài)裝置系統(tǒng)。固態(tài)裝置系統(tǒng)包括多個(gè)存儲(chǔ)處理單元,其布置為二維陣列,其中多個(gè)存儲(chǔ)處理單元的每一個(gè)包括計(jì)算單元和非易失性存儲(chǔ)器模塊。固態(tài)裝置系統(tǒng)還包括互聯(lián)網(wǎng)絡(luò),所述互聯(lián)網(wǎng)絡(luò)包括多個(gè)單元網(wǎng)絡(luò)模塊,其中互聯(lián)網(wǎng)絡(luò)配置為提供多個(gè)存儲(chǔ)處理單元之間的數(shù)據(jù)通信。多個(gè)存儲(chǔ)處理單元被分組成存儲(chǔ)處理單元的多個(gè)子陣列,且多個(gè)子陣列的第一子陣列中的存儲(chǔ)處理單元使用多個(gè)單元網(wǎng)絡(luò)模塊中的第一單元網(wǎng)絡(luò)模塊彼此聯(lián)接。在一些實(shí)施例中,所述多個(gè)子陣列的第二子陣列中的存儲(chǔ)處理單元使用所述多個(gè)單元網(wǎng)絡(luò)模塊中的第二單元網(wǎng)絡(luò)模塊彼此聯(lián)接。在一些實(shí)施例中,所述多個(gè)子陣列,包括第一子陣列和第二子陣列,使用所述多個(gè)單元網(wǎng)絡(luò)模塊中的第三單元網(wǎng)絡(luò)模塊彼此聯(lián)接,由此形成存儲(chǔ)處理單元的分層互連。在一些實(shí)施例中,單元網(wǎng)絡(luò)模塊的每一個(gè)具有第一類(lèi)型的互連拓?fù)?。在一些?shí)施例中,第一類(lèi)型的互連拓?fù)浒ǜ倪M(jìn)的環(huán)網(wǎng)拓?fù)洹T谝恍?shí)施例中,第一類(lèi)型的互連拓?fù)浒ǜ倪M(jìn)的環(huán)網(wǎng)拓?fù)?。在一些?shí)施例中,所述多個(gè)單元網(wǎng)絡(luò)模塊中的第一單元網(wǎng)絡(luò)模塊具有第一類(lèi)型的互連拓?fù)?,所述多個(gè)單元網(wǎng)絡(luò)模塊中的第二單元網(wǎng)絡(luò)模塊具有第二類(lèi)型的互連拓?fù)?。在一些?shí)施例中,第一子陣列與第二子陣列對(duì)角布置,且所述多個(gè)單元網(wǎng)絡(luò)模塊中的第三單元網(wǎng)絡(luò)模塊包括配置為直接連接第一子陣列和第二子陣列的對(duì)角互連。在一些實(shí)施例中,對(duì)角互連配置為直接連接第一子陣列的通信集線器和第二子陣列的通信集線器。在一些實(shí)施例中,所述多個(gè)存儲(chǔ)處理單元布置在印刷電路板上,且互連網(wǎng)絡(luò)包括印刷電路板上的電導(dǎo)體。在一些實(shí)施例中,固態(tài)裝置系統(tǒng)進(jìn)一步包括存儲(chǔ)器控制器,其配置為經(jīng)由互聯(lián)網(wǎng)絡(luò)對(duì)所述多個(gè)存儲(chǔ)處理單元之間的數(shù)據(jù)傳輸進(jìn)行安排。在一些實(shí)施例中,存儲(chǔ)器控制器進(jìn)一步配置為將對(duì)應(yīng)于二維矩陣的多個(gè)塊加載到所述多個(gè)子陣列上,觸發(fā)所述多個(gè)子陣列,以在局部進(jìn)行轉(zhuǎn)置操作,以計(jì)算所述多個(gè)塊的轉(zhuǎn)置,和觸發(fā)子陣列中的兩個(gè),以經(jīng)由互聯(lián)網(wǎng)絡(luò)交換存儲(chǔ)在子陣列的所述兩個(gè)中的塊的轉(zhuǎn)置。在一些實(shí)施例中,存儲(chǔ)器控制器配置為確定互聯(lián)網(wǎng)絡(luò)上的路線,子陣列中的兩個(gè)通過(guò)所述路線交換塊的轉(zhuǎn)置。在一些實(shí)施例中,所述多個(gè)存儲(chǔ)處理單元中的計(jì)算單元配置為進(jìn)行科學(xué)計(jì)算。在一些實(shí)施例中,所述多個(gè)單元網(wǎng)絡(luò)模塊中的一個(gè)包括l-對(duì)角類(lèi)型的1單元網(wǎng)絡(luò)模塊。在一些實(shí)施例中,所述多個(gè)單元網(wǎng)絡(luò)模塊中的一個(gè)包括l-對(duì)角類(lèi)型的2單元網(wǎng)絡(luò)模塊。在一些實(shí)施例中,所述多個(gè)單元網(wǎng)絡(luò)模塊中的一個(gè)包括l-對(duì)角類(lèi)型的3單元網(wǎng)絡(luò)模塊。在一些實(shí)施例中,所述多個(gè)單元網(wǎng)絡(luò)模塊中的一個(gè)包括l-對(duì)角類(lèi)型的4單元網(wǎng)絡(luò)模塊。在一些實(shí)施例中,所述多個(gè)單元網(wǎng)絡(luò)模塊中的一個(gè)包括全網(wǎng)狀單元網(wǎng)絡(luò)模塊。本公開(kāi)的一些實(shí)施例包括一系統(tǒng)。所述系統(tǒng)可包括根據(jù)一些實(shí)施例的固態(tài)裝置系統(tǒng),以及與固態(tài)裝置系統(tǒng)數(shù)據(jù)通信的主機(jī)裝置,其中主機(jī)裝置配置為發(fā)送數(shù)據(jù)到固態(tài)裝置系統(tǒng),以被多個(gè)存儲(chǔ)處理單元中的計(jì)算單元處理。附圖說(shuō)明參考以下的對(duì)所公開(kāi)主題的詳細(xì)描述,當(dāng)其結(jié)合所附附圖一起考慮時(shí),所公開(kāi)的主題的各目的、特征以及優(yōu)勢(shì)可更好地被理解,附圖中相同的附圖標(biāo)記標(biāo)示相同的元件。附圖是示意性的,且未刻意按比例繪制。處于清楚的目的,并非在每幅圖中標(biāo)出每個(gè)部件。在不需要圖示來(lái)允許本領(lǐng)域技術(shù)人員理解所公開(kāi)的主題的地方,也沒(méi)有示出所公開(kāi)的主題的每個(gè)實(shí)施例的每個(gè)部件。圖1示出了根據(jù)一些實(shí)施例的示例性計(jì)算系統(tǒng),其具有主機(jī)系統(tǒng)和存儲(chǔ)系統(tǒng);圖2示出了根據(jù)一些實(shí)施例的多個(gè)存儲(chǔ)處理單元的二維布置;圖3示出了根據(jù)一些實(shí)施例的單元網(wǎng)絡(luò)模塊的環(huán)形拓?fù)洌粓D4示出了根據(jù)一些實(shí)施例的單元網(wǎng)絡(luò)模塊的改進(jìn)的環(huán)形拓?fù)?;圖5a-5b示出了根據(jù)一些實(shí)施例的矩陣轉(zhuǎn)置操作中的附加邊緣(edge)的益處;圖6示出了根據(jù)一些實(shí)施例的單元網(wǎng)絡(luò)模塊的全網(wǎng)狀拓?fù)?;圖7a-7d示出了根據(jù)一些實(shí)施例的單元網(wǎng)絡(luò)模塊的四l對(duì)角拓?fù)?;圖8示出了根據(jù)一些實(shí)施例的存儲(chǔ)處理單元的多個(gè)子陣列;圖9示出了根據(jù)一些實(shí)施例的存儲(chǔ)處理單元的多個(gè)子陣列;圖10示出了根據(jù)一些實(shí)施例的存儲(chǔ)處理單元的分層改進(jìn)的環(huán)形網(wǎng)絡(luò);圖11示出了根據(jù)一些實(shí)施例的存儲(chǔ)處理單元的分層網(wǎng)狀網(wǎng)絡(luò);圖12示出了根據(jù)一些實(shí)施例的存儲(chǔ)處理單元的分層網(wǎng)絡(luò);圖13示出了根據(jù)一些實(shí)施例的使用存儲(chǔ)處理單元陣列的塊轉(zhuǎn)置操作;圖14a-14c示出了用于特定輸入矩陣的圖13的塊轉(zhuǎn)置操作;圖15示出了根據(jù)一些實(shí)施例的存儲(chǔ)處理單元的分層網(wǎng)絡(luò)。具體實(shí)施方式在下文的描述中,針對(duì)所公開(kāi)的主題的系統(tǒng)和方法以及這種系統(tǒng)和方法可以運(yùn)行等的環(huán)境描述許多具體細(xì)節(jié),以便提供對(duì)所公開(kāi)主題的充分理解。然而,本領(lǐng)域技術(shù)人員應(yīng)理解到,所公開(kāi)的主題可以不按照這種具體細(xì)節(jié)實(shí)施,且本領(lǐng)域已知的一些特征不詳細(xì)描述,以便避免所公開(kāi)主題的復(fù)雜化。此外,應(yīng)理解下文提供的例子是示例性的,且應(yīng)理解到,存在在所公開(kāi)主題范圍內(nèi)的其他系統(tǒng)和方法。在傳統(tǒng)的計(jì)算和存儲(chǔ)模型中,計(jì)算系統(tǒng)包括主機(jī)系統(tǒng)和存儲(chǔ)系統(tǒng)。在該模型中,主機(jī)系統(tǒng)被設(shè)計(jì)為執(zhí)行計(jì)算且存儲(chǔ)系統(tǒng)被設(shè)計(jì)為要被主機(jī)系統(tǒng)處理的存儲(chǔ)信息。在一些情況下,主機(jī)系統(tǒng)可協(xié)調(diào)存儲(chǔ)系統(tǒng)的存儲(chǔ)操作,但是主機(jī)系統(tǒng)的處理能力通常是與存儲(chǔ)系統(tǒng)隔離的。有時(shí),期望的是從主機(jī)系統(tǒng)向存儲(chǔ)系統(tǒng)卸載一些計(jì)算操作。例如,在數(shù)據(jù)密集型應(yīng)用中,希望的是為存儲(chǔ)系統(tǒng)增加計(jì)算能力,使得數(shù)據(jù)密集型計(jì)算可局部性地在存儲(chǔ)系統(tǒng)中執(zhí)行。以此方式,主機(jī)系統(tǒng)可被免除計(jì)算要求,且系統(tǒng)的輸入/輸出(i/o)要求作為一個(gè)整體也可被免除。雖然系統(tǒng)的輸入/輸出(i/o)要求作為一個(gè)整體可被免除,但是仍然會(huì)存在顯著的數(shù)據(jù)通信需求。通常,存儲(chǔ)系統(tǒng)可包括多個(gè)存儲(chǔ)處理單元,且存儲(chǔ)處理單元會(huì)需要彼此通信以便完成從主機(jī)系統(tǒng)卸載的一些計(jì)算。這種通信可通過(guò)主機(jī)系統(tǒng)執(zhí)行或通過(guò)點(diǎn)對(duì)點(diǎn)(peer-to-peer)通信總線執(zhí)行,例如,外圍組件快速互連(pcie)總線。不幸地,任一方法會(huì)使得主機(jī)系統(tǒng)和/或點(diǎn)對(duì)點(diǎn)通信總線快速達(dá)到飽和。在點(diǎn)對(duì)點(diǎn)通信上的數(shù)據(jù)通信由于點(diǎn)對(duì)點(diǎn)通信總線上的帶寬限制條件而尤其不實(shí)際。本發(fā)明的一些實(shí)施例解決存儲(chǔ)系統(tǒng)中的存儲(chǔ)處理單元之間的數(shù)據(jù)通信。具體說(shuō),所公開(kāi)的實(shí)施例包括互連網(wǎng)絡(luò),其配置為提供存儲(chǔ)處理單元之間的數(shù)據(jù)通信。公開(kāi)的互連網(wǎng)絡(luò)可在存儲(chǔ)處理單元被配置為局部性地執(zhí)行科學(xué)計(jì)算時(shí)尤其有效。公開(kāi)的互連網(wǎng)絡(luò)可實(shí)現(xiàn)存儲(chǔ)處理單元之間的局部化、高吞吐量和低數(shù)據(jù)延遲通信,而不使得主機(jī)系統(tǒng)過(guò)載。在高水平下,公開(kāi)的互連網(wǎng)絡(luò)允許存儲(chǔ)處理單元彼此地而不通過(guò)中間裝置(例如主機(jī)系統(tǒng))進(jìn)行通信。因?yàn)榇鎯?chǔ)處理單元可局部性地在存儲(chǔ)系統(tǒng)中彼此通信,存儲(chǔ)處理單元之間的通信可以以高吞吐量和/或低延遲實(shí)現(xiàn)。在一些實(shí)施例中,公開(kāi)的互連網(wǎng)絡(luò)可以將存儲(chǔ)處理單元與有限組的互連結(jié)構(gòu)連接。例如,在存儲(chǔ)系統(tǒng)包括布置為2x2矩陣中的四個(gè)存儲(chǔ)處理單元時(shí),公開(kāi)的互連網(wǎng)絡(luò)可以布置為使得存儲(chǔ)處理單元中之一操作為通訊集線器,由此使得存儲(chǔ)處理單元之間的通信集中化。在一些實(shí)施例中,互連網(wǎng)絡(luò)可包括多個(gè)單元網(wǎng)絡(luò)模塊。每一個(gè)單元網(wǎng)絡(luò)模塊可被配置為將存儲(chǔ)處理單元的子組互相連接。在一些情況下,存儲(chǔ)處理單元的子組可彼此以分層的方式聯(lián)接,由此形成單元網(wǎng)絡(luò)模塊的分層連接。圖1示出了示例性計(jì)算系統(tǒng),其具有根據(jù)一些實(shí)施例的存儲(chǔ)系統(tǒng)和主機(jī)系統(tǒng)。計(jì)算系統(tǒng)100可包括主機(jī)系統(tǒng)102和存儲(chǔ)系統(tǒng)104,其中存儲(chǔ)系統(tǒng)104包括存儲(chǔ)器控制器106,多個(gè)存儲(chǔ)處理單元108a-108d,和在多個(gè)存儲(chǔ)處理單元108a-108d之間的互連網(wǎng)絡(luò)114。主機(jī)系統(tǒng)102可包括計(jì)算機(jī)系統(tǒng),其使用且訪問(wèn)存儲(chǔ)系統(tǒng)104,用于數(shù)據(jù)讀寫(xiě)操作。這種主機(jī)系統(tǒng)102可以運(yùn)行例如數(shù)據(jù)庫(kù)、文件系統(tǒng)和網(wǎng)絡(luò)服務(wù)這樣的應(yīng)用。主機(jī)系統(tǒng)102可包括主機(jī)cpu、主機(jī)存儲(chǔ)器裝置、和存儲(chǔ)處理單元應(yīng)用程序接口(api)和/或裝置驅(qū)動(dòng)器。在一些實(shí)施例中,主機(jī)系統(tǒng)102可物理上與存儲(chǔ)系統(tǒng)104共同定位(例如物理上靠近地定位)。在這種實(shí)施例中,主機(jī)系統(tǒng)102可被配置為經(jīng)由總線與存儲(chǔ)系統(tǒng)104通信??偩€例如可包括pci、pci-express、pci-x、infiniband、hypertransport、scsipci-e卡、satapci-e卡、iscsi適配卡、和fibrechannelpci-e卡。在其他實(shí)施例中,主機(jī)系統(tǒng)102可物理上與存儲(chǔ)系統(tǒng)104分離。在這種實(shí)施例中,主機(jī)系統(tǒng)102可經(jīng)由通信網(wǎng)絡(luò)與存儲(chǔ)系統(tǒng)104通信。網(wǎng)絡(luò)可包括因特網(wǎng)、無(wú)線局域網(wǎng)(lan)、分組數(shù)據(jù)網(wǎng)絡(luò)、傳統(tǒng)網(wǎng)絡(luò)、能在主機(jī)系統(tǒng)102和存儲(chǔ)系統(tǒng)104之間提供數(shù)據(jù)通信的任何類(lèi)型網(wǎng)絡(luò)。在一些實(shí)施例中,存儲(chǔ)器控制器106可實(shí)施為硬件。硬件可包括邏輯電路和/或存儲(chǔ)器,用于選擇目標(biāo)存儲(chǔ)器塊且用于從選擇的目標(biāo)存儲(chǔ)器塊移出數(shù)據(jù)以容納新的數(shù)據(jù)。在一些實(shí)施例中,用于存儲(chǔ)器控制器106的硬件可使用硬件描述語(yǔ)言實(shí)施,包括verilog、vhsic硬件描述語(yǔ)言(vhdl),和bluespectm(馬薩諸塞的framingham的bluespecinc.),且使用邏輯合成工具進(jìn)行合成,包括designcompiler((加利福尼亞的mountainview的synopsisinc.),encounterrtlcompiler(加利福尼亞的圣何塞的cadencedesignsystemsinc.),realtimedesigner(加利福尼亞的santaclara的oasysdesignsystems),和booledozer(紐約的endicott的internationalbusinessmachine)。在一些實(shí)施例中,存儲(chǔ)器控制器106進(jìn)而實(shí)施為固件的一部分。固件可分配存儲(chǔ)器空間,用于保持磨損計(jì)數(shù)表(wearcounttable)和磨損計(jì)數(shù)圖(wearcountmap),且可包括進(jìn)一步包括可操作為識(shí)別存儲(chǔ)器塊的指令,以用于垃圾回收操作。在一些實(shí)施例中,存儲(chǔ)器控制器106可在使用存儲(chǔ)器的軟件中實(shí)施,存儲(chǔ)器例如是非瞬時(shí)計(jì)算機(jī)可讀介質(zhì)、可編程只讀存儲(chǔ)器(prom)或閃速存儲(chǔ)器。軟件可運(yùn)行在處理器上,其可以存在于存儲(chǔ)器控制器106中。處理器可被配置為執(zhí)行指令或計(jì)算機(jī)代碼,其可實(shí)施在存儲(chǔ)器控制器106中的非瞬時(shí)計(jì)算機(jī)可讀介質(zhì)中。在一些實(shí)施例中,每一個(gè)存儲(chǔ)處理單元108包括用于保存數(shù)據(jù)的非易失性存儲(chǔ)器(nvm)存儲(chǔ)單元110和用于計(jì)算的加速器112。在一些實(shí)施例中,nvm存儲(chǔ)單元110可包括多個(gè)存儲(chǔ)器塊,用于保存數(shù)據(jù)。每一個(gè)存儲(chǔ)器塊可具有固定尺寸。例如,存儲(chǔ)器塊可以是128kb長(zhǎng)。每一個(gè)存儲(chǔ)器塊可被分成多個(gè)頁(yè)。存儲(chǔ)器塊中的每一個(gè)頁(yè)可具有固定尺寸。例如,頁(yè)可以是4kb長(zhǎng)。在一些實(shí)施例中,加速器112可被配置為執(zhí)行專(zhuān)門(mén)的操作,例如科學(xué)計(jì)算。例如,加速器112可被配置為執(zhí)行快速傅里葉轉(zhuǎn)換,關(guān)鍵值存儲(chǔ)、搜索和整理和/或矩陣計(jì)算。在一些實(shí)施例中,加速器112可在硬件中實(shí)施。用于加速器112的硬件可使用硬件描述語(yǔ)言實(shí)施,包括verilog、vhsic硬件描述語(yǔ)言(vhdl),和bluespectm(馬薩諸塞的framingham的bluespecinc.),且使用邏輯合成工具進(jìn)行合成,包括designcompiler((加利福尼亞的mountainview的synopsisinc.),encounterrtlcompiler(加利福尼亞的圣何塞的cadencedesignsystemsinc.),realtimedesigner(加利福尼亞的santaclara的oasysdesignsystems),和booledozer(紐約的endicott的internationalbusinessmachine)。在一些實(shí)施例中,互連網(wǎng)絡(luò)114可被配置為提供多個(gè)存儲(chǔ)處理單元108之間的通信?;ミB網(wǎng)絡(luò)114可在硬件中實(shí)施以發(fā)送和接收數(shù)據(jù)?;ミB網(wǎng)絡(luò)114可被配置為提供在一個(gè)或多個(gè)多種介質(zhì)中的通信,例如光學(xué)介質(zhì)、電介質(zhì)、磁性介質(zhì)、和/或任何其他類(lèi)型的介質(zhì),其實(shí)現(xiàn)多個(gè)存儲(chǔ)處理單元108之間的通信?;ミB網(wǎng)絡(luò)114可被配置為在多個(gè)通信協(xié)議中提供通信。在一些實(shí)施例中,互連網(wǎng)絡(luò)114可包括pci接口、pcie接口、serialatattachment(sata)接口和/或serialattachedscsi(sas)接口。在一些實(shí)施例中,多個(gè)存儲(chǔ)處理單元108可布置為二維陣列。圖2示出了根據(jù)一些實(shí)施例的多個(gè)存儲(chǔ)處理單元的二維布置。多個(gè)存儲(chǔ)處理單元布置為二維陣列,也稱(chēng)為矩陣布置。在該實(shí)例中,存在十六個(gè)存儲(chǔ)處理單元。因此,存儲(chǔ)處理單元可布置為4x4矩陣。在一些實(shí)施例中,存儲(chǔ)處理單元可布置在電路板上,例如印刷電路板(pcb),且互連網(wǎng)絡(luò)114可包括在電路板上的導(dǎo)體。在一些實(shí)施例中,一個(gè)或多個(gè)存儲(chǔ)處理單元108可使用二維索引來(lái)參考。例如,左上存儲(chǔ)處理單元可被稱(chēng)為spu0,0;右下存儲(chǔ)處理單元可稱(chēng)為spu3,3,且第i行和第j列中的存儲(chǔ)處理單元可稱(chēng)為spui,j。在一些實(shí)施例中,多個(gè)存儲(chǔ)處理單元108中之一也稱(chēng)為源存儲(chǔ)處理單元,可經(jīng)由互連網(wǎng)絡(luò)114向目的存儲(chǔ)處理單元發(fā)送數(shù)據(jù)。在互連網(wǎng)絡(luò)114將源存儲(chǔ)處理單元直接聯(lián)接到目的存儲(chǔ)處理單元時(shí),源存儲(chǔ)處理單元可直接經(jīng)由互連網(wǎng)絡(luò)114向目的存儲(chǔ)處理單元發(fā)送數(shù)據(jù)。在互連網(wǎng)絡(luò)114不將源存儲(chǔ)處理單元直接聯(lián)接到目的存儲(chǔ)處理單元時(shí),源存儲(chǔ)處理單元可使用各種數(shù)據(jù)路線技術(shù)向目的存儲(chǔ)處理單元發(fā)送數(shù)據(jù)。例如,源存儲(chǔ)處理單元可在互連網(wǎng)絡(luò)114中使用最小距離向目的存儲(chǔ)處理單元發(fā)送數(shù)據(jù)。在一些實(shí)施例中,存儲(chǔ)器控制器106可在互連網(wǎng)絡(luò)114集中地安排數(shù)據(jù)的路線。在其他實(shí)施例中,多個(gè)存儲(chǔ)處理單元可以以分布的方式在互連網(wǎng)絡(luò)114中安排數(shù)據(jù)的路線。在一些實(shí)施例中,互連網(wǎng)絡(luò)114可包括多個(gè)單元網(wǎng)絡(luò)模塊。每個(gè)單元網(wǎng)絡(luò)模塊可被配置為連接二維陣列中的存儲(chǔ)處理單元子組。例如,單元網(wǎng)絡(luò)模塊可被配置為聯(lián)接被布置為二維陣列的存儲(chǔ)處理單元的子組(例如spu0,0,spu0,1,spu1,0,spu1,1)。布置為二維陣列的存儲(chǔ)處理單元的子組也可被稱(chēng)為存儲(chǔ)處理單元的子陣列。在一些實(shí)施例中,單元網(wǎng)絡(luò)模塊可包括接口連接,其布置在多個(gè)連接拓?fù)浣Y(jié)構(gòu)中的一個(gè)中。與單元網(wǎng)絡(luò)模塊相關(guān)的連接拓?fù)浣Y(jié)構(gòu)可確定單元網(wǎng)絡(luò)模塊的類(lèi)型。多個(gè)連接拓?fù)浣Y(jié)構(gòu)例如可包括環(huán)型拓?fù)浣Y(jié)構(gòu)、經(jīng)修改環(huán)型拓?fù)浣Y(jié)構(gòu)、全網(wǎng)狀拓?fù)浣Y(jié)構(gòu)、l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型1、l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型2、l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型3、和l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型4。這些拓?fù)浣Y(jié)構(gòu)示出在根據(jù)一些實(shí)施例的圖3、4、6和7中。在一些實(shí)施例中,存儲(chǔ)處理單元的子陣列可分層地連接到存儲(chǔ)處理單元的子陣列。例如,在圖2中,16個(gè)存儲(chǔ)處理單元可被分組為存儲(chǔ)處理單元的四個(gè)子陣列。第一子陣列包括spu0,0,spu0,1,spu1,0,spu1,1;第二子陣列包括spu0,2,spu0,3,spu1,2,spu1,2;第三子陣列包括spu2,0,spu2,1,spu3,0,spu3,1;且第四子陣列包括spu2,2,spu2,3,spu3,2,spu3,3。存儲(chǔ)處理單元的這些子陣列可使用如上所述的互連拓?fù)浣Y(jié)構(gòu)中之一彼此聯(lián)接,由此提供存儲(chǔ)處理單元之間的分層連接。在一些實(shí)施例中,存儲(chǔ)處理單元的每一個(gè)子陣列可使用相同類(lèi)型的單元網(wǎng)絡(luò)模塊。在其他實(shí)施例中,存儲(chǔ)處理單元的至少一個(gè)子陣列使用不同類(lèi)型的單元網(wǎng)絡(luò)模塊。圖3示出了根據(jù)一些實(shí)施例的單元網(wǎng)絡(luò)模塊的環(huán)形拓?fù)浣Y(jié)構(gòu)。圖3示出布置為二維陣列的四個(gè)存儲(chǔ)處理單元302-308。單元網(wǎng)絡(luò)模塊包括四個(gè)邊緣310-316。圖3中的單元網(wǎng)絡(luò)模塊被描述為具有環(huán)形拓?fù)浣Y(jié)構(gòu),因?yàn)閱卧W(wǎng)絡(luò)模塊將存儲(chǔ)處理單元連接為環(huán)形。單元網(wǎng)絡(luò)模塊的每一個(gè)邊緣表明,在通過(guò)邊緣連接的兩個(gè)存儲(chǔ)處理單元(spu)之間存在直接連接。例如,spua302和spub304彼此經(jīng)由互連邊緣310直接連接。在兩個(gè)spu直接連接時(shí),兩個(gè)spu可直接經(jīng)由連接兩個(gè)spu的互連邊緣彼此直接發(fā)送數(shù)據(jù)。例如,spua302和spub304彼此經(jīng)由互連邊緣310直接發(fā)送數(shù)據(jù)。在兩個(gè)spu不直接連接時(shí),兩個(gè)spu可經(jīng)由另一spu彼此發(fā)送數(shù)據(jù)。例如,spua302可經(jīng)由spuc306或spub304向spud308發(fā)送數(shù)據(jù)。圖4示出了根據(jù)一些實(shí)施例的單元網(wǎng)絡(luò)模塊的經(jīng)修改的環(huán)形拓?fù)浣Y(jié)構(gòu)。經(jīng)修改的環(huán)形拓?fù)浣Y(jié)構(gòu)類(lèi)似于圖3示出的環(huán)形拓?fù)浣Y(jié)構(gòu),但是經(jīng)修改的環(huán)形拓?fù)浣Y(jié)構(gòu)具有附加的對(duì)角線邊緣402。該附加邊緣402可有助于spub304和spuc306之間的數(shù)據(jù)通信,其可以對(duì)一些類(lèi)型的科學(xué)計(jì)算有益。例如,附加邊緣402可有利于矩陣轉(zhuǎn)置操作。圖5a-5b示出了根據(jù)一些實(shí)施例的矩陣轉(zhuǎn)置操作中的附加邊緣402的益處。圖5a示出了二乘二矩陣且圖5b示出了該矩陣的轉(zhuǎn)置在矩陣p的值存儲(chǔ)在分開(kāi)的spu(例如1存儲(chǔ)在spu0,0,2存儲(chǔ)在spu0,1,5存儲(chǔ)在spu1,0,且6存儲(chǔ)在spu1,1)時(shí),轉(zhuǎn)置操作必須通過(guò)將spu0,1和spu1,0中存儲(chǔ)的值進(jìn)行交換而重新安排值2和5的位置。在這種情況下,在spu0,0,spu0,1,spu1,0,spu1,1使用具有經(jīng)修改的環(huán)形拓?fù)浣Y(jié)構(gòu)的單元網(wǎng)絡(luò)模塊互連時(shí),spu0,1和spu1,0可通過(guò)經(jīng)由邊緣402直接將數(shù)據(jù)發(fā)送到彼此而交換所述值。這表明,具有經(jīng)修改的環(huán)形拓?fù)浣Y(jié)構(gòu)的單元網(wǎng)絡(luò)模塊可用于矩陣轉(zhuǎn)置操作。圖6示出了根據(jù)一些實(shí)施例的單元網(wǎng)絡(luò)模塊的全網(wǎng)狀拓?fù)浣Y(jié)構(gòu)。全網(wǎng)狀拓?fù)浣Y(jié)構(gòu)非常類(lèi)似于圖4示出的經(jīng)修改的環(huán)形拓?fù)浣Y(jié)構(gòu),但是全網(wǎng)狀拓?fù)浣Y(jié)構(gòu)具有附加的對(duì)角線邊緣602。該附加邊緣602可有助于spua302和spud308之間的數(shù)據(jù)通信,其可以有利于一些類(lèi)型的科學(xué)操作。附加邊緣602可在電路板上帶來(lái)附加的實(shí)際效果,但是其可以改善spu陣列的處理能力和適用性,因?yàn)閟pu陣列具有在spua302和spud308之間快速傳遞數(shù)據(jù)的附加靈活性。具有全網(wǎng)狀拓?fù)浣Y(jié)構(gòu)的單元網(wǎng)絡(luò)模塊可尤其有利于快速傅里葉轉(zhuǎn)換(fft)、關(guān)鍵值存儲(chǔ)、搜索和整理和/或矩陣計(jì)算。取決于感興趣的具體應(yīng)用,也可使用單元網(wǎng)絡(luò)模塊的不同拓?fù)浣Y(jié)構(gòu)。圖7a-7d示出了根據(jù)一些實(shí)施例的單元網(wǎng)絡(luò)模塊的四個(gè)l對(duì)角線拓?fù)浣Y(jié)構(gòu)。圖7a示出的拓?fù)浣Y(jié)構(gòu)被稱(chēng)為l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型1;圖7b示出的拓?fù)浣Y(jié)構(gòu)被稱(chēng)為l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型2;圖7c示出的拓?fù)浣Y(jié)構(gòu)被稱(chēng)為l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型3;且圖7d示出的拓?fù)浣Y(jié)構(gòu)被稱(chēng)為l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型4。l對(duì)角線拓?fù)浣Y(jié)構(gòu)通常包括對(duì)角線邊緣和圍繞邊沿的兩個(gè)邊緣以形成l形狀。例如,圖7a所示的l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型1包括反對(duì)角線邊緣602和聯(lián)接到spua302的兩個(gè)邊緣310、312。以此方式,spua302可用作四個(gè)spu之中的通信集線器。作為另一例子,圖7b所示的l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型2包括對(duì)角線邊緣402和聯(lián)接到spua304的兩個(gè)邊緣310、316。以此方式,spub304可用作四個(gè)spu之中的通信集線器。作為另一例子,圖7c所示的l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型3包括對(duì)角線邊緣402和聯(lián)接到spua306的兩個(gè)邊緣312、314。以此方式,spuc306可用作四個(gè)spu之中的通信集線器。作為另一例子,圖7d所示的l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型4包括反對(duì)角線邊緣602和聯(lián)接到spud308的兩個(gè)邊緣314、316。以此方式,spud308可用作四個(gè)spu之中的通信集線器。在存儲(chǔ)系統(tǒng)具有大量存儲(chǔ)處理單元時(shí),使用如上所述的拓?fù)浣Y(jié)構(gòu)連接存儲(chǔ)處理單元是復(fù)雜且昂貴的。進(jìn)而,如上所述的一些拓?fù)浣Y(jié)構(gòu)不易于延伸到更大的存儲(chǔ)處理單元的二維陣列。例如,環(huán)形拓?fù)浣Y(jié)構(gòu)不易于延伸到存儲(chǔ)處理單元的4x4陣列,因?yàn)樵诖鎯?chǔ)處理單元的4x4陣列中心處的四個(gè)存儲(chǔ)處理單元將缺乏到其他存儲(chǔ)處理單元的互連。通過(guò)使用分層方式的單元網(wǎng)絡(luò)模塊來(lái)連接存儲(chǔ)處理單元而解決該問(wèn)題。在一些實(shí)施例中,存儲(chǔ)處理單元的二維陣列可被分為存儲(chǔ)處理單元的多個(gè)子陣列,且在同一子陣列中的存儲(chǔ)處理單元可使用單元網(wǎng)絡(luò)模塊彼此聯(lián)接。圖8示出了根據(jù)一些實(shí)施例的存儲(chǔ)處理單元的多個(gè)子陣列。每一個(gè)子陣列802-808通過(guò)虛線框所示—每一個(gè)子陣列802-808具有四個(gè)存儲(chǔ)處理單元。子陣列中的存儲(chǔ)處理單元使用圖7a所示的l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型1彼此聯(lián)接。在一些實(shí)施例中,每一個(gè)子陣列可使用相同類(lèi)型的單元網(wǎng)絡(luò)模塊。例如,在圖8中,每一個(gè)子陣列使用相同類(lèi)型的單元網(wǎng)絡(luò)模塊:圖7a所示的l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型1。在其他實(shí)施例中,一個(gè)或多個(gè)子陣列可以使用不同類(lèi)型的單元網(wǎng)絡(luò)模塊。圖9示出了根據(jù)一些實(shí)施例的存儲(chǔ)處理單元的多個(gè)子陣列。在圖9中,子陣列902-908中的一個(gè)或多個(gè)使用不同類(lèi)型單元網(wǎng)絡(luò)模塊。例如,左上子陣列902使用具有經(jīng)修改的環(huán)形拓?fù)浣Y(jié)構(gòu)的單元網(wǎng)絡(luò)模塊,且右下子陣列908使用具有l(wèi)對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型2的單元網(wǎng)絡(luò)模塊。以此方式,在子陣列中的第一個(gè)用于第一應(yīng)用(例如fft計(jì)算)且子陣列中的第二個(gè)用于第二應(yīng)用(例如矩陣轉(zhuǎn)置操作)時(shí),用于第一個(gè)和第二個(gè)的單元網(wǎng)絡(luò)模塊可獨(dú)立地配置為針對(duì)相應(yīng)應(yīng)用改善性能。在一些實(shí)施例中,子陣列可使用如上所述的拓?fù)浣Y(jié)構(gòu)中的一個(gè)或多個(gè)彼此連接,由此形成存儲(chǔ)處理單元的分層互連網(wǎng)絡(luò)。圖10示出了根據(jù)一些實(shí)施例的存儲(chǔ)處理單元的分層的經(jīng)改變的環(huán)形網(wǎng)絡(luò)。在圖10中,每一個(gè)子陣列1002-1008使用具有經(jīng)修改的環(huán)形拓?fù)浣Y(jié)構(gòu)的單元網(wǎng)絡(luò)模塊。子陣列1002-1008又使用相同經(jīng)修改的環(huán)形拓?fù)浣Y(jié)構(gòu)彼此連接,如通過(guò)連接虛線框的粗箭頭所示。以此方式,可形成分層的經(jīng)修改的環(huán)形網(wǎng)絡(luò)。存儲(chǔ)處理單元的該分層的經(jīng)修改的環(huán)形網(wǎng)絡(luò)可被稱(chēng)為分層的經(jīng)修改的環(huán)形網(wǎng)絡(luò)(hmrn)-4,因?yàn)椴僮鞣謱舆B接的四單元經(jīng)修改的環(huán)形網(wǎng)絡(luò)互連。在一些實(shí)施例中,跨經(jīng)存儲(chǔ)處理單元子陣列的接口的路線可基于spu中可用的緩沖存儲(chǔ)器的量確定。例如,接口1010提供第一子陣列1002和第二子陣列1004之間的直接通信。圖10示出了接口1010連接到第一子陣列1002的spu0,1和第二子陣列1004的spu0,2。然而,在一些實(shí)施例中,接口1010可以連接到第一子陣列1002的spu1,1和/或第二子陣列1002的spu1,2,取決于spu0,1、spu0,2、spu1,1、和spu1,2中可用的緩沖存儲(chǔ)器的量。例如,在與spu0,1比較時(shí)spu1,1具有更多可用的緩沖存儲(chǔ)器時(shí),接口1010可連接到spu1,1。類(lèi)似地,在與spu0,2比較時(shí)spu1,2具有更多可用的緩沖存儲(chǔ)器時(shí),接口1010可連接到spu1,2。因此,在第一子陣列1002和第二子陣列1004之間存在提供接口1010的四種不同方式。這可類(lèi)似地應(yīng)用于第二子陣列1004和第三子陣列1006之間的接口;第三子陣列1006和第四子陣列1008之間的接口;和第四子陣列1008和第一子陣列1002之間的接口。在一些情況下,分層的互連網(wǎng)絡(luò)可遞歸地形成。例如,四個(gè)hmrn-4可用于構(gòu)造hmrn-16,其中使用單元經(jīng)修改的環(huán)形網(wǎng)絡(luò)互連來(lái)連接四個(gè)hmrn-4。類(lèi)似地,四個(gè)hmrn-16可用于構(gòu)造hmrn-64,其中使用單元修改的環(huán)形網(wǎng)絡(luò)互連來(lái)連接四個(gè)hmrn-16。概括地說(shuō),四個(gè)hmrn-n/4用于構(gòu)造hmrn-n,其中使用單元經(jīng)修改的環(huán)形網(wǎng)絡(luò)互連來(lái)連接四個(gè)hmrn-n/4。圖11示出了根據(jù)一些實(shí)施例的存儲(chǔ)處理單元的分層網(wǎng)狀網(wǎng)絡(luò)。在圖11中,每一個(gè)子陣列1102-1108使用具有全網(wǎng)狀拓?fù)浣Y(jié)構(gòu)的單元網(wǎng)絡(luò)模塊。子陣列1102-1108又使用相同全網(wǎng)狀拓?fù)浣Y(jié)構(gòu)彼此連接,如通過(guò)連接虛線框的粗箭頭所示。以此方式,可形成存儲(chǔ)處理單元的分層全網(wǎng)狀網(wǎng)絡(luò)。如圖11所示的全網(wǎng)狀網(wǎng)絡(luò)可被稱(chēng)為分層的全網(wǎng)狀網(wǎng)絡(luò)(hfmn)-4。在一些實(shí)施例中,跨經(jīng)存儲(chǔ)處理單元子陣列的接口的路線可基于spu中可用的緩沖存儲(chǔ)器的量確定。例如,接口1110提供第一子陣列1102和第二子陣列1104之間的直接通信。圖11示出了接口1110連接到第一子陣列1102的spu0,1和第二子陣列1104的spu0,2。然而,在一些實(shí)施例中,接口1110可以連接到第一子陣列1102的spu1,1和/或第二子陣列1102的spu1,2,取決于spu0,1、spu0,2、spu1,1、和spu1,2中可用的緩沖存儲(chǔ)器的量。例如,在與spu0,1比較時(shí)spu1,1具有更多可用的緩沖存儲(chǔ)器時(shí),接口1110可連接到spu1,1。類(lèi)似地,在與spu0,2比較時(shí)spu1,2具有更多可用的緩沖存儲(chǔ)器時(shí),接口1110可連接到spu1,2。因此,在第一子陣列1102和第二子陣列1104之間存在提供接口1110的四種不同方式。這可類(lèi)似地應(yīng)用于第二子陣列1104和第三子陣列1106之間的接口;第三子陣列1106和第四子陣列1108之間的接口;和第四子陣列1108和第一子陣列1102之間的接口。在一些情況下,分層的全網(wǎng)狀網(wǎng)絡(luò)可遞回地形成。例如,四個(gè)hfmn-4可用于構(gòu)造hfmn-16,其使用單元全網(wǎng)狀網(wǎng)絡(luò)互連來(lái)連接四個(gè)hfmn-4。類(lèi)似地,四個(gè)hfmn-16可用于構(gòu)造hfmn-64,其中使用單元全網(wǎng)狀網(wǎng)絡(luò)互連來(lái)連接四個(gè)hfmn-16。概括地說(shuō),四個(gè)hfmn-n/4用于構(gòu)造hfmn-n,其中使用單元全網(wǎng)狀網(wǎng)絡(luò)互連來(lái)連接四個(gè)hfmn-n/4。在一些實(shí)施例中,存儲(chǔ)處理單元的分層互連網(wǎng)絡(luò)可使用兩個(gè)或更多類(lèi)型的單元網(wǎng)絡(luò)模塊。在存儲(chǔ)處理單元的第一子陣列經(jīng)由接口連接到存儲(chǔ)處理單元的第二子陣列時(shí),接口可連接第一子陣列的通信集線器和第二子陣列的通信集線器。例如,在第一子陣列包括l對(duì)角線類(lèi)型1單元網(wǎng)絡(luò)模塊(如圖7a所示7a)時(shí)第一子陣列包括l對(duì)角線類(lèi)型2單元網(wǎng)絡(luò)模塊(如圖7b所示)時(shí),則將第一子陣列和第二子陣列連接的接口可連接第一子陣列的spua302和第二子陣列的spub304。在一些實(shí)施例中,用在分層互連網(wǎng)絡(luò)中的單元網(wǎng)絡(luò)模塊的類(lèi)型可取決于具體應(yīng)用。例如,考慮矩陣塊轉(zhuǎn)置操作。假設(shè)矩陣x包括塊矩陣a、b、c、和d,如下:隨后x的轉(zhuǎn)置,表示為xt,可如下計(jì)算:其示出了at和dt保持在相同位置,但是bt和ct具有交換的位置。矩陣塊轉(zhuǎn)置操作的這種特征可通過(guò)存儲(chǔ)處理單元的陣列而得到杠桿作用。圖12示出了根據(jù)一些實(shí)施例的存儲(chǔ)處理單元的分層網(wǎng)絡(luò)。圖12中的網(wǎng)絡(luò)使用三個(gè)類(lèi)型的單元網(wǎng)絡(luò)模塊:l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型1,l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型2,和l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型3,且這些單元網(wǎng)絡(luò)模塊中的僅兩個(gè)使用單個(gè)對(duì)角線連接1210連接,如粗箭頭所示。在一些實(shí)施例中,如圖12所示的存儲(chǔ)處理單元的陣列可用于執(zhí)行用于具有大于4x4尺寸的矩陣的矩陣塊轉(zhuǎn)置操作。圖13示出了使用根據(jù)一些實(shí)施例的存儲(chǔ)處理單元陣列的塊轉(zhuǎn)置操作1300。在步驟1302,存儲(chǔ)器控制器106可用輸入矩陣x加載存儲(chǔ)處理單元。假設(shè)輸入矩陣x為4x4,其被分為四個(gè)2x2矩陣。每一個(gè)2x2矩陣被加載到子陣列1202、1204、1206、1208中之一上。對(duì)應(yīng)于子陣列1202的2x2矩陣可稱(chēng)為a;對(duì)應(yīng)于子陣列1204的2x2矩陣可稱(chēng)為b;對(duì)應(yīng)于子陣列1206的2x2矩陣可稱(chēng)為c;和對(duì)應(yīng)于子陣列1208的2x2矩陣可稱(chēng)為d。輸入矩陣x的例子和輸入矩陣x被加載到存儲(chǔ)處理單元的陣列上的構(gòu)造示出在圖14a中。在步驟1304,子陣列每一個(gè)可使用單元網(wǎng)絡(luò)模塊和/或相應(yīng)存儲(chǔ)處理單元中的加速器而局部地執(zhí)行轉(zhuǎn)置操作。在該局部塊轉(zhuǎn)置操作之后,對(duì)應(yīng)于子陣列1202的2x2矩陣可維持at;對(duì)應(yīng)于子陣列1204的2x2矩陣可維持bt;對(duì)應(yīng)于子陣列1206的2x2矩陣可維持ct;和對(duì)應(yīng)于子陣列1204的2x2矩陣可維持dt。局部塊轉(zhuǎn)置操作的結(jié)果示出在圖14b。圖14b中的粗體數(shù)字表示其位置已經(jīng)通過(guò)局部塊轉(zhuǎn)置操作進(jìn)行了交換的矩陣x的元素。在步驟1306,子陣列1204和子陣列1206可交換經(jīng)轉(zhuǎn)置的塊矩陣以完成矩陣轉(zhuǎn)置操作。因?yàn)閟pu1,2和spu2,1分別形成子陣列1204和子陣列1206的集線器,所以子陣列1204和子陣列1206之間的對(duì)角線連接1210可有效地在子陣列1204和子陣列1206之間傳遞數(shù)據(jù)。在步驟1306之后,spu的陣列可維持輸入矩陣x的轉(zhuǎn)置:圖14b所示的數(shù)據(jù)上的步驟1306的結(jié)果示出在圖14c。圖14c中的粗體數(shù)字表示其位置已經(jīng)通過(guò)步驟1306進(jìn)行了交換的矩陣x的元素。在一些實(shí)施例中,圖13示出的操作可迭代地執(zhí)行以執(zhí)行更大矩陣的轉(zhuǎn)置操作,例如8x8矩陣、16x16矩陣和具有2nx2n尺寸的任何矩陣,其中n為整數(shù)。圖15示出了根據(jù)一些實(shí)施例的存儲(chǔ)處理單元的分層網(wǎng)絡(luò)。圖15中的網(wǎng)絡(luò)使用三個(gè)類(lèi)型單元網(wǎng)絡(luò)模塊:l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型1,l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型2,和l對(duì)角線拓?fù)浣Y(jié)構(gòu)類(lèi)型3,且這些單元網(wǎng)絡(luò)模塊使用全網(wǎng)狀拓?fù)浣Y(jié)構(gòu)連接,如粗箭頭所示。圖15中的存儲(chǔ)處理單元的陣列還用于執(zhí)行根據(jù)圖13示出過(guò)程的矩陣塊轉(zhuǎn)置操作。在此參照包括兩個(gè)或更多限定步驟的方法,限定的步驟可以任何順序或同時(shí)地執(zhí)行(除非另有說(shuō)明),且方法可包括一個(gè)或多個(gè)其他步驟,其在任何限定步驟、限定步驟兩個(gè)、或在所有限定步驟之后執(zhí)行(除非另有說(shuō)明)。本領(lǐng)域技術(shù)人員應(yīng)理解本文所述的各種示例可以實(shí)施為電子硬件、計(jì)算機(jī)軟件、固件、或電子硬件、計(jì)算機(jī)軟件和固件中兩個(gè)或更多的組合。為了表明硬件、軟件和/或固件的轉(zhuǎn)置可交換性,各種說(shuō)明性圖塊、模塊、元件、部件、方法、和算法已經(jīng)按照其功能如上進(jìn)行了描述。這種功能是否實(shí)施為硬件、軟件、固件或其組合取決于對(duì)總系統(tǒng)所施加的具體應(yīng)用和設(shè)計(jì)限制條件。本領(lǐng)域技術(shù)人員可針對(duì)每一個(gè)具體應(yīng)用以各種方式實(shí)施所述功能。各種部件和塊可以不同地布置(例如布置為不同順序,或以不同方式分離),所有這些不脫離本發(fā)明的范圍。所公開(kāi)主題的實(shí)施方式可以以在一個(gè)計(jì)算機(jī)系統(tǒng)中集中的范式或不同元件跨經(jīng)幾個(gè)互連的計(jì)算機(jī)系統(tǒng)分布的分布式方式來(lái)實(shí)現(xiàn)。適于執(zhí)行本文所述的方法的任何種類(lèi)的計(jì)算機(jī)系統(tǒng)或其他設(shè)備適于執(zhí)行本文所述的功能。硬件和軟件的典型組合可以是通常目的計(jì)算機(jī)系統(tǒng),其具有計(jì)算機(jī)程序,在被加載和執(zhí)行時(shí),控制計(jì)算機(jī)系統(tǒng),使得其執(zhí)行本文所述的方法。公開(kāi)的主題還可嵌入在計(jì)算機(jī)程序產(chǎn)品中,其包括實(shí)施本文所述的方法和系統(tǒng)的實(shí)施方式的所有特征,且其在加載到計(jì)算機(jī)系統(tǒng)中時(shí)能執(zhí)行這些方法。本發(fā)明的計(jì)算機(jī)程序或應(yīng)用意味著一組指令的用任何語(yǔ)言、代碼或記法所作的任何表達(dá),指令的目的是使得具有信息處理能力的系統(tǒng)直接地或在a)轉(zhuǎn)變?yōu)榱硪徽Z(yǔ)言、代碼或記法;b)以不同材料形式再現(xiàn)中之一之后或兩者之后執(zhí)行具體功能。應(yīng)注意,本文所述的系統(tǒng)和方法還可以實(shí)施為其他具體形式,而不脫離其精神和實(shí)質(zhì),因此應(yīng)當(dāng)參照下面如指示系統(tǒng)和方法的范圍的權(quán)利要求,而不是本說(shuō)明書(shū)。已經(jīng)具體參考這些示出的實(shí)施例描述了本發(fā)明。但是,明顯的是各種修改和改變可在如前所述的本發(fā)明的精神和范圍內(nèi)做出,且這種修改和改變認(rèn)為是本發(fā)明的等效形式。當(dāng)前第1頁(yè)12當(dāng)前第1頁(yè)12