一種三維眾核片上系統(tǒng)的制作方法

文檔序號(hào)：6366732閱讀：106來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種三維眾核片上系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種三維片上多核/眾核系統(tǒng)，屬于半導(dǎo)體芯片領(lǐng)域。
背景技術(shù)：
低時(shí)延和低開銷眾核片上網(wǎng)絡(luò)是眾核處理器的難點(diǎn)之一。核間片上網(wǎng)絡(luò)互連技術(shù)對(duì)于整個(gè)芯片本身的性能和功耗發(fā)揮著尤為重要的作用，參見參考文獻(xiàn)Shekhar Borkar.Thousand Core Chips—A Technology Perspective. Intel Corpj MicroprocessorTechnology Lab，JF2-04，2111 NE 25Ave, Hillsboro, OR 97124. 2007.，片上網(wǎng)絡(luò)(NoCs)主要是釆用基于“跳”的包交換數(shù)據(jù)傳遞技術(shù)，不同核間通信時(shí)數(shù)據(jù)包需要對(duì)傳遞線路的競爭導(dǎo)致數(shù)據(jù)包傳遞有較長的時(shí)延。為了讓片上網(wǎng)絡(luò)(NoCs)能夠提供低時(shí)延和高帶寬的通信，很多的工作在優(yōu)化片上網(wǎng)絡(luò)(NoCs)層面展開，文獻(xiàn)A. Kumar, L.-S. Pehj P. Kundujand N. K. Jha. Express Virtual Channels: Towards the Ideal InterconnectionFabric. Proc. of the 34th Int. Sym. on Comp. Arch.，pp. 150-161，2007.及]R. Mullins, A. West, and S. Moore. Low-Latency Virtual-ChanneI Routers forOn-Chip Networks. Proc. of the 31st Int. Sym. on Comp. Arch.，pp. 188—197，2004.提出了快速路由，參考文獻(xiàn) U. Y. 0. and R. Marculescu. It’s a Small WorldAfter All: NoC Performance Optimization via Long-Range Link Insertion. IEEETrans, on VLSI Sys.，14 (7) : 693-706，July 2006.及 J. Kim，J. Balfour, and W. J.Dally. Flatterned Butterfly Topology for On-Chip Networks. Proc. of the 40thInt. Sym. on Microarchitecture, pp. 172-182，2007.提出了新的網(wǎng)絡(luò)拓?fù)?。最近出現(xiàn)的3D疊片封裝技術(shù)(3D Stack)具有路由器間的互連線長度短，延遲低，系統(tǒng)整體性能高，因此成為了研究的熱點(diǎn)，但大多也是從路由、拓?fù)浣Y(jié)構(gòu)和帶寬等方面優(yōu)化片上網(wǎng)絡(luò)來提高通信速度和降低時(shí)延參考文獻(xiàn)J. Kim，C. Nicopoulosj D. Park, R. Dasj Y.Xiej V. Narayanan, M. S. Yousifj and C. Das. A Novel Dimensionally-DecomposedRouter for On-Chip Communication in 3D Architecture. Proc. of the 34th Int.Sym. on Comp. Arch.，pp. 4-15, 2007.提出了一種依靠降低垂直“跳”數(shù)的有效路由器，參考文獻(xiàn) D. Park, S. Eachempatij R. Dasj A. K. Mishraj Y. Xiej V. Narayanan, C.Das. MIRA: A Multi-Layered On-Chip Interconnect Router Architecture. Proc. ofthe 35th Int. Sym. on Comp. Arch. , pp. 251-261，2008.提出了一種通過多層 3D 疊片技術(shù)降低功耗的路由器，參考文獻(xiàn)Yi，X.，D. Yuj Z. Boj et al. A low-radix andlow-diameter 3D interconnection network design[C]. in International Symposiumon High Performance Computer Architecture (HPCA)，2009，p. 30-42.提出了一種低直徑低時(shí)延的3D片上網(wǎng)絡(luò)(NoCs)拓?fù)浣Y(jié)構(gòu)。計(jì)算機(jī)系統(tǒng)在實(shí)際執(zhí)行程序時(shí)，一方面需要傳輸大批量的運(yùn)算數(shù)據(jù)，另一方面需要傳輸線程間同步控制信息及一些硬件控制交互信息，前者數(shù)據(jù)量較大，但實(shí)時(shí)性不強(qiáng)；后者數(shù)據(jù)量較小，但是實(shí)時(shí)性要求較高。即使是在傳統(tǒng)計(jì)算機(jī)系統(tǒng)中，系統(tǒng)總線也是由獨(dú)立的地址總線、控制總線和數(shù)據(jù)總線三個(gè)獨(dú)立部分組成，互不干擾；但是在片上網(wǎng)絡(luò)(NoCs)中，所有數(shù)據(jù)、控制信號(hào)等的傳輸都得以“數(shù)據(jù)包”的形式競爭網(wǎng)絡(luò)鏈路來傳輸。上面所提方案在模擬測試中雖然具有較好的測試結(jié)果，但在實(shí)際應(yīng)用中由于這兩類信息占用同一通路混合傳輸導(dǎo)致計(jì)算機(jī)性能存在致命缺陷實(shí)時(shí)性要求強(qiáng)的控制信息往往被大量運(yùn)算數(shù)據(jù)阻塞傳輸通路，導(dǎo)致了應(yīng)用程序運(yùn)行過程中很大的時(shí) 延，同時(shí)數(shù)據(jù)包競爭鏈路造成較大的功耗開銷，從而影響了眾核系統(tǒng)的整體性能。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)和不足，提供一種對(duì)不同類型的數(shù)據(jù)采用不同的傳輸通道的新型眾核片上系統(tǒng)，本發(fā)明能夠提供大容量Cache、且各處理核訪問任一 Cache塊能在5跳內(nèi)完成。本發(fā)明所述三維眾核片上系統(tǒng)由一層處理核層即Core層和一層以上的Cache層組成，Cache層及處理核層層間采用3D疊片技術(shù)垂直互連；各處理核之間的通信和處理核與Cache層的Cache塊通信采用不同的通道進(jìn)行。本發(fā)明對(duì)于處理核來說，Cache層的所有Cache塊構(gòu)成同級(jí)Cache。本發(fā)明每Cache層含有與處理核層處理核數(shù)相同的Cache塊數(shù),Cache層和處理核層中所有處于同一行的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu)，所有處于同一列的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu)，并且將全互連結(jié)構(gòu)中的互連線分配到三維片上網(wǎng)絡(luò)各Cache層中，處理核訪問任一 Cache塊在5跳內(nèi)完成。本發(fā)明每個(gè)處理核由LI Cache、LI Controller和Router組成,該片上網(wǎng)絡(luò)的處理核層采用2D Mesh互連結(jié)構(gòu),各處理核節(jié)點(diǎn)通過Router進(jìn)行網(wǎng)絡(luò)互連。本發(fā)明所述單Cache層中各Cache塊之間采用行互連線和列互連線方式的長線互連,單Cache層有Directory和Cache Controller,多層Cache能連接多個(gè)Memory,構(gòu)成分布式 Memory。本發(fā)明所述處理核層通道傳輸處理核間控制信息，處理核訪問Cache塊的數(shù)據(jù)信息的傳輸通過處理核和Cache層層間垂直通道與Cache層內(nèi)互連網(wǎng)絡(luò)構(gòu)成的通道進(jìn)行傳輸。本發(fā)明所述單Cache層中各Cache塊之間采用行互連線和列互連線方式的長線互連,單Cache層有Directory和Cache Controller,多層Cache能連接多個(gè)Memory,構(gòu)成分布式 Memory。本發(fā)明提出的三維眾核片上系統(tǒng)由于采用雙通道傳輸通信模式，根據(jù)通信內(nèi)容的不同采用不同的通信通道，提高了核間共享數(shù)據(jù)的傳輸速度，降低了混合信息通信模式的硬件和時(shí)延開銷，有利于提高系統(tǒng)應(yīng)用的實(shí)時(shí)性，并能消除眾核間對(duì)傳輸通道的通道擁堵沖突；Cache層互連采用長互連線互連各Cache節(jié)點(diǎn)塊減小網(wǎng)絡(luò)直徑，減少片上節(jié)點(diǎn)通信經(jīng)過的路由器數(shù)，由此減小了片上的平均通信延遲和功耗；為實(shí)現(xiàn)大容量Cache組織提供了條件。

圖I為本發(fā)明系統(tǒng)的結(jié)構(gòu)總圖。
圖2為本發(fā)明Cache層各節(jié)點(diǎn)連接關(guān)系示意圖。圖3為本發(fā)明處理核層構(gòu)成示意圖。圖4為本發(fā)明所述Cache層互連線分配圖。圖5為本發(fā)明帶LLC/Directory Controller的單層Cache連接結(jié)構(gòu)示意圖。圖6為本發(fā)明雙通道結(jié)構(gòu)示意圖。
具體實(shí)施例方式以下結(jié)合實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明實(shí)施例I : 5-hop的3D眾核片上網(wǎng)絡(luò)系統(tǒng)
參見圖I、圖6所示，本實(shí)施例由I層處理核層和多層Cache層組成，每個(gè)處理核由LI、LI Controller和Router組成(圖3所示)。該片上網(wǎng)絡(luò)的處理核層采用2D Mesh互連結(jié)構(gòu)，Cache層和處理核層中所有處于同一行的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu)，所有處于同一列的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu)(圖4中的行全互連(Row Clique)和列全互連(Column Clique), Cache塊之間的互連線采用長線互連，并且將全互連結(jié)構(gòu)中的互連線分配到三維片上網(wǎng)絡(luò)各Cache層中，Cache層各Cache數(shù)據(jù)塊間采用這種互連方式能夠確保任何處理核對(duì)Cache資源的訪問其所經(jīng)過的hop數(shù)不超過5，簡稱5-hop片上網(wǎng)絡(luò)，圖I中不同層間采用3D疊片技術(shù)垂直互連功能塊(線太多，未在圖中給出)。在現(xiàn)有的工藝技術(shù)下，5-hop片上網(wǎng)絡(luò)在眾核芯片上能支持多達(dá)500個(gè)處理核和10層Cache層之間的互連，在5_hop片上網(wǎng)絡(luò)的支持下，任何處理核訪問Cache塊的傳輸跳數(shù)在少于或等于5 hops內(nèi)完成，具有網(wǎng)絡(luò)半徑小，從而為處理核以較小的時(shí)延訪問Cache提供了條件。同時(shí)3D 5-hop片上網(wǎng)絡(luò)為實(shí)現(xiàn)大容量Cache提供了可能。(I) “雙通道”設(shè)計(jì)
本實(shí)施例采用了“數(shù)據(jù)傳輸通道”和“控制信息傳輸通道”雙通道工作模式(圖6所示)。a)數(shù)據(jù)傳輸通道為處理核通過Cache層訪問存儲(chǔ)提供的通道，處理核計(jì)算過程中需要對(duì)數(shù)據(jù)存儲(chǔ)訪問時(shí)，先訪問LI private cache,失效后由LI Controller發(fā)往Cache層網(wǎng)絡(luò)，LLC/Directory Controller收到請(qǐng)求后定位Cache塊并把請(qǐng)求轉(zhuǎn)發(fā)給該Cache塊,然后該Cache塊里所請(qǐng)求數(shù)據(jù)通過數(shù)據(jù)傳輸通道返回處理核請(qǐng)求者，即圖I、圖6中表示為處理核和Cache層之間的通道，如圖I中的A -> B -> C -> D -> E -> F通路；b)控制信息傳輸通道提供處理核之間進(jìn)行控制信息交互的通路，通過高速片上網(wǎng)絡(luò)進(jìn)行，傳輸處理核執(zhí)行時(shí)核間的同步及互斥及其它控制信息，當(dāng)處理核發(fā)往其它處理器控制信息時(shí)，處理核內(nèi)Router接到信息后轉(zhuǎn)發(fā)往該控制信息通道，即圖I、圖6中表示為處理核層的2D Mesh片上網(wǎng)絡(luò)通路。在處理核執(zhí)行過程中，數(shù)據(jù)通過數(shù)據(jù)通道進(jìn)行核間共享，而數(shù)據(jù)地址、協(xié)議交互及控制信息則通過控制信息通道進(jìn)行。多層Cache層構(gòu)成本實(shí)施例的存儲(chǔ)體系，層與層的連接采用3D疊片技術(shù)互連，Cache層由長互連線連接各Cache節(jié)點(diǎn)，每層Cache節(jié)點(diǎn)的數(shù)目和下層處理核層的處理核個(gè)數(shù)一致，Cache 層除了 Cache 塊外，每層還設(shè)有一個(gè) LLC/Directory Controller、Memory及Disk，采用基于分布式目錄一致性協(xié)議來維護(hù)數(shù)據(jù)的一致性，單層的示意圖如圖4所示。ITRS數(shù)據(jù)表明2011年采用三維集成電路技術(shù)可以最多將11層芯片堆疊在一起，該 Cache架構(gòu)支持近5000個(gè)Cache數(shù)據(jù)塊(每層500Cache數(shù)據(jù)塊*10層)10層Cache層的總共的Cache塊數(shù)為5000快，為計(jì)算提供了足夠大的Cache容量。(2) Cache管理策略及訪存流程設(shè)計(jì)
層與層之間采用3D疊片技術(shù)垂直互連，當(dāng)處理核訪問數(shù)據(jù)時(shí)，首先訪問LI Cache，訪問失效后Cache Controller將訪問請(qǐng)求發(fā)往Cache層，每個(gè)Cache層的LLC/DirectoryController收到后檢索數(shù)據(jù)是否屬于該層，若屬于該層，則查看是否存在該層的Cache塊中，沒有，從Memory中置換入該層某個(gè)Cache塊內(nèi)，接著利用數(shù)據(jù)通道以不大于5 hops的距離傳輸給處理核請(qǐng)求者，實(shí)現(xiàn)數(shù)據(jù)訪問的目的計(jì)。在Cache管理策略上，Tile內(nèi)封裝私有LI Cache, Cache層的所有Cache塊都是L2級(jí)Cache,它們之間不存在層次關(guān)系，同時(shí)L2 Cache也是最后一級(jí)Cache (LLC),級(jí)聯(lián)Memory Controller,這樣的好處能夠充分利用L2 Cache,不存在由于不同級(jí)Cache間存儲(chǔ)相同數(shù)據(jù)造成的Cache浪費(fèi)。L2 Cache數(shù)據(jù)發(fā)往處理核請(qǐng)求者時(shí)直接通過5_hop 3D數(shù)據(jù)通道進(jìn)行傳輸，不需要寫入沿途Cache塊，有別于“數(shù)據(jù)遷移”的管理方法，減少功耗和時(shí)延開銷。(3)分布式Cache設(shè)計(jì)
a)每 Cache 層一個(gè) Directory Controller,多 Cache 層有多個(gè) Directory Controller通道連接多個(gè)Memory,構(gòu)成分布式Memory,從而解決memory總線擁堵；b)任何Core能夠訪問多個(gè)Cache塊,且每個(gè)Core以直連三維形式訪問鄰接Cache層對(duì)應(yīng)位置的Cache塊,不同Core的訪存通路共同構(gòu)成了高帶寬,且眾多Cache塊的可供選擇助于解決Cache沖突。本發(fā)明可以用其它不違背本發(fā)明精神及主要技術(shù)特征的具體形式來概述，上述的實(shí)施例所公布的方案只是對(duì)本發(fā)明的說明而不是對(duì)本發(fā)明的限制。
權(quán)利要求
1.一種三維眾核片上系統(tǒng),其特征在于由一層處理核層即Core層和一層以上的Cache層組成，Cache層及處理核層層間采用3D疊片技術(shù)垂直互連；各處理核之間的通信和處理核與Cache層的通信采用不同的通道進(jìn)行。
2.如權(quán)利要求I所述的三維眾核片上系統(tǒng)，其特征在于對(duì)于處理核來說，Cache層所有Cache塊構(gòu)成同級(jí)Cache。
3.如權(quán)利要求I或2所述的三維眾核片上系統(tǒng)，其特征在于每Cache層含有與處理核層相同的Cache塊數(shù)，Cache層和處理核層中所有處于同一行的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu)，所有處于同一列的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu)，并且將全互連結(jié)構(gòu)中的互連線分配到三維片上網(wǎng)絡(luò)各Cache層中，處理核訪問任一 Cache塊在5跳內(nèi)完成。
4.如權(quán)利要求I或2所述的三維眾核片上系統(tǒng)，其特征在于每個(gè)處理核由LICache、LI Controller和Router組成,該片上網(wǎng)絡(luò)的處理核層采用2D Mesh互連結(jié)構(gòu),各處理核節(jié)點(diǎn)通過Router進(jìn)行網(wǎng)絡(luò)互連。
5.如權(quán)利要求I或2所述的三維眾核片上系統(tǒng)，其特征在于單Cache層中各Cache塊之間采用行互連線和列互連線方式的長線互連，單Cache層有Directory和CacheController,多層Cache能連接多個(gè)Memory,構(gòu)成分布式Memory。
6.如權(quán)利要求I或2所述的三維眾核片上系統(tǒng)，其特征在于處理核層通道傳輸處理核間控制信息，處理核訪問Cache的數(shù)據(jù)信息的傳輸通過處理核和Cache層層間垂直通道與Cache層內(nèi)互連網(wǎng)絡(luò)構(gòu)成的通道進(jìn)行傳輸。
7.如權(quán)利要求3所述的三維眾核片上系統(tǒng)，其特征在于單Cache層中各Cache塊之間采用行互連線和列互連線方式的長線互連，單Cache層有Directory和CacheController,多層Cache能連接多個(gè)Memory,構(gòu)成分布式Memory。
全文摘要
本發(fā)明公開了一種三維眾核片上系統(tǒng)，由一層處理核層即Core層和一層以上的Cache層組成，Cache層及處理核層層間采用3D疊片技術(shù)垂直互連；各處理核之間的通信和處理核與Cache層的通信采用不同的通道進(jìn)行，Cache層所有Cache塊構(gòu)成處理核的同級(jí)Cache。每Cache層含有與處理核層處理核數(shù)相同的Cache塊數(shù)，Cache層和處理核層中所有處于同一行的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu)，所有處于同一列的節(jié)點(diǎn)構(gòu)成全互連結(jié)構(gòu)，互連線分配到三維片上網(wǎng)絡(luò)各Cache層中，處理核訪問任一Cache塊在5跳內(nèi)完成。本發(fā)明有利于提高眾核系統(tǒng)實(shí)時(shí)性，減小片上的平均通信延遲和功耗，提供了實(shí)現(xiàn)組織大容量Cache的條件。
文檔編號(hào)G06F15/173GK102662909SQ201210077519
公開日2012年9月12日申請(qǐng)日期2012年3月22日優(yōu)先權(quán)日2012年3月22日
發(fā)明者周鑫琴, 譚海, 譚珵竹申請(qǐng)人:東華理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：譚海;周鑫琴;譚珵竹
技術(shù)所有人：東華理工大學(xué)
我是此專利的發(fā)明人

上一篇：顯示設(shè)備和電子裝置的制作方法
上一篇：一種星型邏輯硬件平臺(tái)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種三維眾核片上系統(tǒng)的制作方法