專利名稱:一種三維眾核片上系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種三維片上多核/眾核系統(tǒng),屬于半導(dǎo)體芯片領(lǐng)域。
背景技術(shù):
低時(shí)延和低開銷眾核片上網(wǎng)絡(luò)是眾核處理器的難點(diǎn)之一。核間片上網(wǎng)絡(luò)互連技術(shù)對(duì)于整個(gè)芯片本身的性能和功耗發(fā)揮著尤為重要的作用,參見參考文獻(xiàn)Shekhar Borkar.Thousand Core Chips—A Technology Perspective. Intel Corpj MicroprocessorTechnology Lab,JF2-04,2111 NE 25Ave, Hillsboro, OR 97124. 2007.,片上網(wǎng)絡(luò)(NoCs)主要是釆用基于“跳”的包交換數(shù)據(jù)傳遞技術(shù),不同核間通信時(shí)數(shù)據(jù)包需要對(duì)傳遞線路的競爭導(dǎo)致數(shù)據(jù)包傳遞有較長的時(shí)延。為了讓片上網(wǎng)絡(luò)(NoCs)能夠提供低時(shí)延和高帶寬的通信,很多的工作在優(yōu)化片上網(wǎng)絡(luò)(NoCs)層面展開,文獻(xiàn)A. Kumar, L.-S. Pehj P. Kundujand N. K. Jha. Express Virtual Channels: Towards the Ideal InterconnectionFabric. Proc. of the 34th Int. Sym. on Comp. Arch.,pp. 150-161,2007.及]R. Mullins, A. West, and S. Moore. Low-Latency Virtual-ChanneI Routers forOn-Chip Networks. Proc. of the 31st Int. Sym. on Comp. Arch.,pp. 188—197,2004.提出了快速路由,參考文獻(xiàn) U. Y. 0. and R. Marculescu. It’s a Small WorldAfter All: NoC Performance Optimization via Long-Range Link Insertion. IEEETrans, on VLSI Sys.,14 (7) : 693-706,July 2006.及 J. Kim,J. Balfour, and W. J.Dally. Flatterned Butterfly Topology for On-Chip Networks. Proc. of the 40thInt. Sym. on Microarchitecture, pp. 172-182,2007.提出了新的網(wǎng)絡(luò)拓?fù)?。最近出現(xiàn)的3D疊片封裝技術(shù)(3D Stack)具有路由器間的互連線長度短,延遲低,系統(tǒng)整體性能高,因此成為了研究的熱點(diǎn),但大多也是從路由、拓?fù)浣Y(jié)構(gòu)和帶寬等方面優(yōu)化片上網(wǎng)絡(luò)來提高通信速度和降低時(shí)延參考文獻(xiàn)J. Kim,C. Nicopoulosj D. Park, R. Dasj Y.Xiej V. Narayanan, M. S. Yousifj and C. Das. A Novel Dimensionally-DecomposedRouter for On-Chip Communication in 3D Architecture. Proc. of the 34th Int.Sym. on Comp. Arch.,pp. 4-15, 2007.提出了一種依靠降低垂直“跳”數(shù)的有效路由器,參考文獻(xiàn) D. Park, S. Eachempatij R. Dasj A. K. Mishraj Y. Xiej V. Narayanan, C.Das. MIRA: A Multi-Layered On-Chip Interconnect Router Architecture. Proc. ofthe 35th Int. Sym. on Comp. Arch. , pp. 251-261,2008.提出了一種通過多層 3D 疊片技術(shù)降低功耗的路由器,參考文獻(xiàn)Yi,X.,D. Yuj Z. Boj et al. A low-radix andlow-diameter 3D interconnection network design[C]. in International Symposiumon High Performance Computer Architecture (HPCA),2009,p. 30-42.提出了一種低直徑低時(shí)延的3D片上網(wǎng)絡(luò)(NoCs)拓?fù)浣Y(jié)構(gòu)。計(jì)算機(jī)系統(tǒng)在實(shí)際執(zhí)行程序時(shí),一方面需要傳輸大批量的運(yùn)算數(shù)據(jù),另一方面需 要傳輸線程間同步控制信息及一些硬件控制交互信息,前者數(shù)據(jù)量較大,但實(shí)時(shí)性不強(qiáng);后者數(shù)據(jù)量較小,但是實(shí)時(shí)性要求較高。即使是在傳統(tǒng)計(jì)算機(jī)系統(tǒng)中,系統(tǒng)總線也是由獨(dú)立的地址總線、控制總線和數(shù)據(jù)總線三個(gè)獨(dú)立部分組成,互不干擾;但是在片上網(wǎng)絡(luò)(NoCs)中,所有數(shù)據(jù)、控制信號(hào)等的傳輸都得以“數(shù)據(jù)包”的形式競爭網(wǎng)絡(luò)鏈路來傳輸。上面所提方案在模擬測試中雖然具有較好的測試結(jié)果,但在實(shí)際應(yīng)用中由于這兩類信息占用同一通路混合傳輸導(dǎo)致計(jì)算機(jī)性能存在致命缺陷實(shí)時(shí)性要求強(qiáng)的控制信息往往被大量運(yùn)算數(shù)據(jù)阻塞傳輸通路,導(dǎo)致了應(yīng)用程序運(yùn)行過程中很大的時(shí) 延,同時(shí)數(shù)據(jù)包競爭鏈路造成較大的功耗開銷,從而影響了眾核系統(tǒng)的整體性能。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)和不足,提供一種對(duì)不同類型的數(shù)據(jù)采用不同的傳輸通道的新型眾核片上系統(tǒng),本發(fā)明能夠提供大容量Cache、且各處理核訪問任一 Cache塊能在5跳內(nèi)完成。本發(fā)明所述三維眾核片上系統(tǒng)由一層處理核層即Core層和一層以上的Cache層組成,Cache層及處理核層層間采用3D疊片技術(shù)垂直互連;各處理核之間的通信和處理核與Cache層的Cache塊通信采用不同的通道進(jìn)行。本發(fā)明對(duì)于處理核來說,Cache層的所有Cache塊構(gòu)成同級(jí)Cache。本發(fā)明每Cache層含有與處理核層處理核數(shù)相同的Cache塊數(shù),Cache層和處理核層中所有處于同一行的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu),所有處于同一列的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu),并且將全互連結(jié)構(gòu)中的互連線分配到三維片上網(wǎng)絡(luò)各Cache層中,處理核訪問任一 Cache塊在5跳內(nèi)完成。本發(fā)明每個(gè)處理核由LI Cache、LI Controller和Router組成,該片上網(wǎng)絡(luò)的處理核層采用2D Mesh互連結(jié)構(gòu),各處理核節(jié)點(diǎn)通過Router進(jìn)行網(wǎng)絡(luò)互連。本發(fā)明所述單Cache層中各Cache塊之間采用行互連線和列互連線方式的長線互連,單Cache層有Directory和Cache Controller,多層Cache能連接多個(gè)Memory,構(gòu)成分布式 Memory。本發(fā)明所述處理核層通道傳輸處理核間控制信息,處理核訪問Cache塊的數(shù)據(jù)信息的傳輸通過處理核和Cache層層間垂直通道與Cache層內(nèi)互連網(wǎng)絡(luò)構(gòu)成的通道進(jìn)行傳輸。本發(fā)明所述單Cache層中各Cache塊之間采用行互連線和列互連線方式的長線互連,單Cache層有Directory和Cache Controller,多層Cache能連接多個(gè)Memory,構(gòu)成分布式 Memory。本發(fā)明提出的三維眾核片上系統(tǒng)由于采用雙通道傳輸通信模式,根據(jù)通信內(nèi)容的不同采用不同的通信通道,提高了核間共享數(shù)據(jù)的傳輸速度,降低了混合信息通信模式的硬件和時(shí)延開銷,有利于提高系統(tǒng)應(yīng)用的實(shí)時(shí)性,并能消除眾核間對(duì)傳輸通道的通道擁堵沖突;Cache層互連采用長互連線互連各Cache節(jié)點(diǎn)塊減小網(wǎng)絡(luò)直徑,減少片上節(jié)點(diǎn)通信經(jīng)過的路由器數(shù),由此減小了片上的平均通信延遲和功耗;為實(shí)現(xiàn)大容量Cache組織提供了條件。
圖I為本發(fā)明系統(tǒng)的結(jié)構(gòu)總圖。
圖2為本發(fā)明Cache層各節(jié)點(diǎn)連接關(guān)系示意圖。圖3為本發(fā)明處理核層構(gòu)成示意圖。圖4為本發(fā)明所述Cache層互連線分配圖。圖5為本發(fā)明帶LLC/Directory Controller的單層Cache連接結(jié)構(gòu)示意圖。圖6為本發(fā)明雙通道結(jié)構(gòu)示意圖。
具體實(shí)施例方式以下結(jié)合實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明 實(shí)施例I : 5-hop的3D眾核片上網(wǎng)絡(luò)系統(tǒng)
參見圖I、圖6所示,本實(shí)施例由I層處理核層和多層Cache層組成,每個(gè)處理核由LI、LI Controller和Router組成(圖3所示)。該片上網(wǎng)絡(luò)的處理核層采用2D Mesh互連結(jié)構(gòu),Cache層和處理核層中所有處于同一行的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu),所有處于同一列的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu)(圖4中的行全互連(Row Clique)和列全互連(Column Clique), Cache塊之間的互連線采用長線互連,并且將全互連結(jié)構(gòu)中的互連線分配到三維片上網(wǎng)絡(luò)各Cache層中,Cache層各Cache數(shù)據(jù)塊間采用這種互連方式能夠確保任何處理核對(duì)Cache資源的訪問其所經(jīng)過的hop數(shù)不超過5,簡稱5-hop片上網(wǎng)絡(luò),圖I中不同層間采用3D疊片技術(shù)垂直互連功能塊(線太多,未在圖中給出)。在現(xiàn)有的工藝技術(shù)下,5-hop片上網(wǎng)絡(luò)在眾核芯片上能支持多達(dá)500個(gè)處理核和10層Cache層之間的互連,在5_hop片上網(wǎng)絡(luò)的支持下,任何處理核訪問Cache塊的傳輸跳數(shù)在少于或等于5 hops內(nèi)完成,具有網(wǎng)絡(luò)半徑小,從而為處理核以較小的時(shí)延訪問Cache提供了條件。同時(shí)3D 5-hop片上網(wǎng)絡(luò)為實(shí)現(xiàn)大容量Cache提供了可能。(I) “雙通道”設(shè)計(jì)
本實(shí)施例采用了“數(shù)據(jù)傳輸通道”和“控制信息傳輸通道”雙通道工作模式(圖6所示)。a)數(shù)據(jù)傳輸通道為處理核通過Cache層訪問存儲(chǔ)提供的通道,處理核計(jì)算過程中需要對(duì)數(shù)據(jù)存儲(chǔ)訪問時(shí),先訪問LI private cache,失效后由LI Controller發(fā)往Cache層網(wǎng)絡(luò),LLC/Directory Controller收到請(qǐng)求后定位Cache塊并把請(qǐng)求轉(zhuǎn)發(fā)給該Cache塊,然后該Cache塊里所請(qǐng)求數(shù)據(jù)通過數(shù)據(jù)傳輸通道返回處理核請(qǐng)求者,即圖I、圖6中表示為處理核和Cache層之間的通道,如圖I中的A -> B -> C -> D -> E -> F通路;b)控制信息傳輸通道提供處理核之間進(jìn)行控制信息交互的通路,通過高速片上網(wǎng)絡(luò)進(jìn)行,傳輸處理核執(zhí)行時(shí)核間的同步及互斥及其它控制信息,當(dāng)處理核發(fā)往其它處理器控制信息時(shí),處理核內(nèi)Router接到信息后轉(zhuǎn)發(fā)往該控制信息通道,即圖I、圖6中表示為處理核層的2D Mesh片上網(wǎng)絡(luò)通路。在處理核執(zhí)行過程中,數(shù)據(jù)通過數(shù)據(jù)通道進(jìn)行核間共享,而數(shù)據(jù)地址、協(xié)議交互及控制信息則通過控制信息通道進(jìn)行。多層Cache層構(gòu)成本實(shí)施例的存儲(chǔ)體系,層與層的連接采用3D疊片技術(shù)互連,Cache層由長互連線連接各Cache節(jié)點(diǎn),每層Cache節(jié)點(diǎn)的數(shù)目和下層處理核層的處理核個(gè)數(shù)一致,Cache 層除了 Cache 塊外,每層還設(shè)有一個(gè) LLC/Directory Controller、Memory及Disk,采用基于分布式目錄一致性協(xié)議來維護(hù)數(shù)據(jù)的一致性,單層的示意圖如圖4所示。ITRS數(shù)據(jù)表明2011年采用三維集成電路技術(shù)可以最多將11層芯片堆疊在一起,該 Cache架構(gòu)支持近5000個(gè)Cache數(shù)據(jù)塊(每層500Cache數(shù)據(jù)塊*10層)10層Cache層的總共的Cache塊數(shù)為5000快,為計(jì)算提供了足夠大的Cache容量。(2) Cache管理策略及訪存流程設(shè)計(jì)
層與層之間采用3D疊片技術(shù)垂直互連,當(dāng)處理核訪問數(shù)據(jù)時(shí),首先訪問LI Cache,訪問失效后Cache Controller將訪問請(qǐng)求發(fā)往Cache層,每個(gè)Cache層的LLC/DirectoryController收到后檢索數(shù)據(jù)是否屬于該層,若屬于該層,則查看是否存在該層的Cache塊中,沒有,從Memory中置換入該層某個(gè)Cache塊內(nèi),接著利用數(shù)據(jù)通道以不大于5 hops的距離傳輸給處理核請(qǐng)求者,實(shí)現(xiàn)數(shù)據(jù)訪問的目的計(jì)。在Cache管理策略上,Tile內(nèi)封裝私有LI Cache, Cache層的所有Cache塊都是L2級(jí)Cache,它們之間不存在層次關(guān)系,同時(shí)L2 Cache也是最后一級(jí)Cache (LLC),級(jí)聯(lián)Memory Controller,這樣的好處能夠充分利用L2 Cache,不存在由于不同級(jí)Cache間存儲(chǔ)相同數(shù)據(jù)造成的Cache浪費(fèi)。L2 Cache數(shù)據(jù)發(fā)往處理核請(qǐng)求者時(shí)直接通過5_hop 3D數(shù)據(jù)通道進(jìn)行傳輸,不需要寫入沿途Cache塊,有別于“數(shù)據(jù)遷移”的管理方法,減少功耗和時(shí)延 開銷。(3)分布式Cache設(shè)計(jì)
a)每 Cache 層一個(gè) Directory Controller,多 Cache 層有多個(gè) Directory Controller通道連接多個(gè)Memory,構(gòu)成分布式Memory,從而解決memory總線擁堵;b)任何Core能夠訪問多個(gè)Cache塊,且每個(gè)Core以直連三維形式訪問鄰接Cache層對(duì)應(yīng)位置的Cache塊,不同Core的訪存通路共同構(gòu)成了高帶寬,且眾多Cache塊的可供選擇助于解決Cache沖突。本發(fā)明可以用其它不違背本發(fā)明精神及主要技術(shù)特征的具體形式來概述,上述的實(shí)施例所公布的方案只是對(duì)本發(fā)明的說明而不是對(duì)本發(fā)明的限制。
權(quán)利要求
1.一種三維眾核片上系統(tǒng),其特征在于由一層處理核層即Core層和一層以上的Cache層組成,Cache層及處理核層層間采用3D疊片技術(shù)垂直互連;各處理核之間的通信和處理核與Cache層的通信采用不同的通道進(jìn)行。
2.如權(quán)利要求I所述的三維眾核片上系統(tǒng),其特征在于對(duì)于處理核來說,Cache層所有Cache塊構(gòu)成同級(jí)Cache。
3.如權(quán)利要求I或2所述的三維眾核片上系統(tǒng),其特征在于每Cache層含有與處理核層相同的Cache塊數(shù),Cache層和處理核層中所有處于同一行的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu),所有處于同一列的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu),并且將全互連結(jié)構(gòu)中的互連線分配到三維片上網(wǎng)絡(luò)各Cache層中,處理核訪問任一 Cache塊在5跳內(nèi)完成。
4.如權(quán)利要求I或2所述的三維眾核片上系統(tǒng),其特征在于每個(gè)處理核由LICache、LI Controller和Router組成,該片上網(wǎng)絡(luò)的處理核層采用2D Mesh互連結(jié)構(gòu),各處理核節(jié)點(diǎn)通過Router進(jìn)行網(wǎng)絡(luò)互連。
5.如權(quán)利要求I或2所述的三維眾核片上系統(tǒng),其特征在于單Cache層中各Cache塊之間采用行互連線和列互連線方式的長線互連,單Cache層有Directory和CacheController,多層Cache能連接多個(gè)Memory,構(gòu)成分布式Memory。
6.如權(quán)利要求I或2所述的三維眾核片上系統(tǒng),其特征在于處理核層通道傳輸處理核間控制信息,處理核訪問Cache的數(shù)據(jù)信息的傳輸通過處理核和Cache層層間垂直通道與Cache層內(nèi)互連網(wǎng)絡(luò)構(gòu)成的通道進(jìn)行傳輸。
7.如權(quán)利要求3所述的三維眾核片上系統(tǒng),其特征在于單Cache層中各Cache塊之間采用行互連線和列互連線方式的長線互連,單Cache層有Directory和CacheController,多層Cache能連接多個(gè)Memory,構(gòu)成分布式Memory。
全文摘要
本發(fā)明公開了一種三維眾核片上系統(tǒng),由一層處理核層即Core層和一層以上的Cache層組成,Cache層及處理核層層間采用3D疊片技術(shù)垂直互連;各處理核之間的通信和處理核與Cache層的通信采用不同的通道進(jìn)行,Cache層所有Cache塊構(gòu)成處理核的同級(jí)Cache。每Cache層含有與處理核層處理核數(shù)相同的Cache塊數(shù),Cache層和處理核層中所有處于同一行的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu),所有處于同一列的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu),互連線分配到三維片上網(wǎng)絡(luò)各Cache層中,處理核訪問任一Cache塊在5跳內(nèi)完成。本發(fā)明有利于提高眾核系統(tǒng)實(shí)時(shí)性,減小片上的平均通信延遲和功耗,提供了實(shí)現(xiàn)組織大容量Cache的條件。
文檔編號(hào)G06F15/173GK102662909SQ201210077519
公開日2012年9月12日 申請(qǐng)日期2012年3月22日 優(yōu)先權(quán)日2012年3月22日
發(fā)明者周鑫琴, 譚海, 譚珵竹 申請(qǐng)人:東華理工大學(xué)