亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向全分布式超長指令字的高能效局部互連結(jié)構(gòu)的制作方法

文檔序號(hào):6545580閱讀:138來源:國知局
一種面向全分布式超長指令字的高能效局部互連結(jié)構(gòu)的制作方法
【專利摘要】本發(fā)明公開了一種面向全分布式超長指令字的高能效局部互連結(jié)構(gòu),目的是解決VLIW全互連結(jié)構(gòu)消耗硬件資源多和能效較低的問題。本發(fā)明由n個(gè)功能單元通過局部互連網(wǎng)絡(luò)連接成對(duì)稱式的局部互連結(jié)構(gòu),即功能單元將結(jié)果輸出供給自身以及與該功能單元具有相鄰連接關(guān)系的若干個(gè)功能單元;在對(duì)稱式局部互連結(jié)構(gòu)中共有n個(gè)功能單元和n條總線,采用1tok局部互連結(jié)構(gòu),其中k小于等于n;1tok局部互連結(jié)構(gòu)是指功能單元ALUi將結(jié)果輸出至i號(hào)總線,ALUi、ALUi+1、ALUi+2、…、ALUi+k-1的輸入端與i號(hào)總線相連,能夠獲得i號(hào)總線上的數(shù)據(jù);沒有直接互連關(guān)系的功能單元之間采用間接通信模式。本發(fā)明在保證相當(dāng)性能的情況下可以有效的降低嵌入式處理器中功能單元的互連網(wǎng)絡(luò)面積、延遲和能耗,同時(shí)具有更好的可擴(kuò)展性。
【專利說明】一種面向全分布式超長指令字的高能效局部互連結(jié)構(gòu)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種嵌入式處理器的面向全分布式超長指令字的多功能單元的高能效局部互連結(jié)構(gòu)。
【背景技術(shù)】
[0002]隨著通信標(biāo)準(zhǔn)、壓縮原理和算法的不斷演進(jìn),高性能嵌入式應(yīng)用對(duì)處理器的計(jì)算性能、能效和靈活性都提出了更高的需求。在計(jì)算性能方面,萬億次量級(jí)(lOOOGops)嵌入式應(yīng)用開始涌現(xiàn),無人作戰(zhàn)平臺(tái)、機(jī)器視覺、聲納處理、高速目標(biāo)識(shí)別、數(shù)字視頻、醫(yī)學(xué)成像、4G手持設(shè)備等重要嵌入式應(yīng)用的計(jì)算需求越過了 Tops量級(jí)。在能效方面,典型嵌入式應(yīng)用的需求開始突破100Mops/mW,甚至達(dá)到1000Mops/mW。由于嵌入式應(yīng)用的運(yùn)行環(huán)境比較嚴(yán)苛,對(duì)體積的要求比較高,若芯片的性能持續(xù)增長,而電池電量和散熱系統(tǒng)得不到有效的提升(這兩者都依賴于體積),那么勢(shì)必要求嵌入式處理器能在單位能耗內(nèi)完成更多的運(yùn)算,達(dá)到更高的能效。在靈活性方面,不斷演進(jìn)的通信和編碼標(biāo)準(zhǔn)需要嵌入式處理器具有更高的靈活性(往往意味著可編程性)和更好的擴(kuò)展性(意味著需要良好的結(jié)構(gòu)),以節(jié)約嵌入式處理器的使用成本。例如,對(duì)于通信基站來說,由非常多的部件組成,完整布置下來非常昂貴,這就要求當(dāng)通信標(biāo)準(zhǔn)變化時(shí),系統(tǒng)能夠進(jìn)行軟件更新以適應(yīng)新的通信協(xié)議,而不是去更換基站的各個(gè)部件。超大規(guī)模集成電路(VLSI)技術(shù)的飛速發(fā)展也為構(gòu)建滿足這種需求的高能效嵌入式處理器提供了可能,然而將VLSI潛能變成滿足萬億次嵌入式應(yīng)用需求的實(shí)際計(jì)算能力仍然是一項(xiàng)極具挑戰(zhàn)性的工作。
[0003]超長指令字(VLIW:Very Long Instruction Word)是一種可以利用指令級(jí)并行(ILP:1nstruction Level Parallel)優(yōu)勢(shì)的體系結(jié)構(gòu)技術(shù),在一個(gè)基本時(shí)鐘周期內(nèi)可發(fā)射多條指令。VLIW技術(shù)通過編譯來開發(fā)ILP,使得硬件實(shí)現(xiàn)非常簡單,通常被認(rèn)為是一種高性能、低功耗的體系結(jié)構(gòu)技術(shù),在現(xiàn)代高性能嵌入式處理器中得到廣泛使用。典型的VLIW含有大量功能單元,用以完成計(jì)算、存取等操作。這些功能單元需要同時(shí)訪問大量寄存器,為減少寄存器的面積和訪問延遲,可以將寄存器分塊,組織成多個(gè)簇(cluster)。每個(gè)cluster內(nèi)部的功能單元共享一個(gè)寄存器,cluster之間通過專門的通信機(jī)制進(jìn)行通信。關(guān)于VLIW結(jié)構(gòu)下的通信機(jī)制有很多,cluster之間的通信模式主要分為5種:ExtendResults模式(也稱為Destination Specif ied模式),在指令中設(shè)置一個(gè)cluster id域標(biāo)明目的cluster,在結(jié)果寫回時(shí)將結(jié)果寫入目的cluster的寄存器;Extend Operands模式(也稱為Source Specified模式),與Extend Results模式類似,也在指令中設(shè)置一個(gè)cluster id域,但是這個(gè)id標(biāo)示的是源cluster,指令可以根據(jù)這個(gè)id在讀操作數(shù)時(shí)將數(shù)據(jù)從源cluster讀??;Copy operations模式(也稱為Pure Copy模式),在正常的指令中插Acopy指令,該指令從本地寄存器中讀取數(shù)據(jù),然后通過專門的網(wǎng)絡(luò)寫入另一個(gè)cluster的寄存器;Dedicated Issue Slots模式,和Copy Operations模式類似,但是在該結(jié)構(gòu)中設(shè)置有專門的功能單元來執(zhí)行copy操作,可以避免對(duì)正常指令執(zhí)行的打擾broadcasting模式,另外設(shè)置一個(gè)共享寄存器文件,可以供所有cluster訪問。這些研究大都從性能的角度來研究互連結(jié)構(gòu),很少考慮能耗;同時(shí),這些研究主要考慮cluster之間的通信,沒有考慮cluster內(nèi)部的具體通信模式,而cluster內(nèi)部的通信是要遠(yuǎn)多于cluster之間的通信。
[0004]當(dāng)VLIW中的每個(gè)cluster只含有一個(gè)功能單元時(shí),就形成了全分布式的結(jié)構(gòu)。超長指令字結(jié)構(gòu)機(jī)器中有大量的功能單元,功能單元之間因可能的操作數(shù)和結(jié)果數(shù)的交互而必須存在可達(dá)的數(shù)據(jù)通路。傳統(tǒng)的做法采用全互聯(lián)結(jié)構(gòu)。假設(shè)全分布式VLIW機(jī)器中有η個(gè)功能單元ALU0,ALU1,ALU2,…,ALUn-1 ;相應(yīng)的有η條總線;η由體系結(jié)構(gòu)所需要的功能單元數(shù)決定。功能單元ALUO,ALU1,ALU2,…,ALUn-1分別將它們的結(jié)果輸出到O號(hào)總線、
I號(hào)總線、2號(hào)總線、…、η-l號(hào)總線上;如果功能單元ALUm需要另一功能單元ALUk的上一時(shí)鐘節(jié)拍結(jié)果,作為ALUm在當(dāng)前時(shí)鐘節(jié)拍的輸入,則ALUm可在當(dāng)前拍從k號(hào)總線上取到所需要的數(shù)據(jù);111和1^均不超過η。
[0005]全互連結(jié)構(gòu)為VLIW功能單元之間的通信提供了很大的靈活性,但對(duì)于具體應(yīng)用來說,這種靈活性通常并不是必需的。當(dāng)寄存器的面積、能耗和訪問延遲降低后,功能單元之間的通信消耗了 VLIW處理器較多的能耗和面積,成為VLIW處理器頻率和規(guī)模擴(kuò)增的瓶頸。基于全互連結(jié)構(gòu)的全分布式VLIW,每個(gè)功能單元通過直接相連的兩個(gè)寄存器組提供操作數(shù),功能單元的運(yùn)算結(jié)果輸出到各自的總線,每根總線供應(yīng)給所有的寄存器組。這種結(jié)構(gòu)的優(yōu)點(diǎn)是每個(gè)寄存器組在任意節(jié)拍都可以從任何功能單元的輸出中選擇其中之一作為輸入,具有最大的靈活性和最高的帶寬,但是由于每根輸出總線都需要驅(qū)動(dòng)所有的寄存器組,因此其走線較長,需要較大的驅(qū)動(dòng)能力,消耗較多的能耗;同時(shí)在每個(gè)寄存器端都有一個(gè)很大的選擇器來選擇數(shù)據(jù)輸入,帶來較大的延遲。特別是高性能嵌入式應(yīng)用對(duì)處理器的計(jì)算性能、能效和靈活性提出了更高的需求,隨著VLSI技術(shù)的發(fā)展與完善,VLIW規(guī)模不斷擴(kuò)大,這些問題變得更加嚴(yán)重。對(duì)于所有嵌入式應(yīng)用,無論VLIW的規(guī)模大小,功能單元之間的通信模式主要集中在每個(gè)功能單元的結(jié)果輸出只供應(yīng)給下一個(gè)或兩個(gè)功能單元,對(duì)于面向更多點(diǎn)的多播通信的使用率很低。雖然全互連網(wǎng)絡(luò)提供了強(qiáng)大的多播通信能力和最大化帶寬,但是實(shí)際應(yīng)用的通信能力需求卻較低。如何解決現(xiàn)有的面向全分布式超長指令字的全互連結(jié)構(gòu)的消耗硬件資源多和能效較低的缺陷,是本領(lǐng)域技術(shù)人員極為關(guān)注的技術(shù)問題。

【發(fā)明內(nèi)容】

[0006]本發(fā)明要解決的技術(shù)問題是針對(duì)VLIW全互連結(jié)構(gòu)消耗硬件資源多和能效較低的問題,實(shí)現(xiàn)一種嵌入式處理器面向全分布式超長指令字的多功能單元的高能效局部互連結(jié)構(gòu)。
[0007]本發(fā)明由多個(gè)功能單元通過局部互連網(wǎng)絡(luò)連接而成,在不改變?nèi)ミB結(jié)構(gòu)中功能單元的情況下,大幅縮減全互連結(jié)構(gòu)的互連范圍,使功能單元的輸出只能供給包括其自身的部分功能單元,而非全部功能單元。所述功能單元是指嵌入式處理器中的完成某些特定功能的單元,如運(yùn)算單元、取指單元等,一般將嵌入式處理器中的η個(gè)功能單元表示為ALUO、ALUl、ALU2、…、ALUn-1。
[0008]在嵌入式處理器面向全分布式超長指令字的多功能單元的局部互連結(jié)構(gòu)中有5種功能單元間的通信模式=Itol表示功能單元的結(jié)果輸出只供應(yīng)給包括其自身在內(nèi)的任一功能單元;lto2表示功能單元的結(jié)果輸出供給包括其自身在內(nèi)的兩個(gè)功能單元;lto3表示功能單元的結(jié)果輸出供應(yīng)給包括其自身在內(nèi)的3個(gè)功能單元;lto4表示功能單元的結(jié)果輸出供應(yīng)給包括其自身在內(nèi)的4個(gè)功能單元。other表示功能單元的結(jié)果輸出供給包括其自身的超過4個(gè)的功能單元,即可以理解為lto5、lto6、…、Ito n-2 (極限條件下,Ito n-1通信模式的局部互連結(jié)構(gòu)其實(shí)就是全互連結(jié)構(gòu));Itok表示功能單元的結(jié)果輸出供應(yīng)給包括其自身在內(nèi)的k個(gè)功能單元。
[0009]考慮到硬件實(shí)現(xiàn)和編譯實(shí)現(xiàn)的效率和難易程度,本發(fā)明的局部互連網(wǎng)絡(luò)采用對(duì)稱式的局部互連結(jié)構(gòu),即功能單元可將結(jié)果輸出供給自身以及與該功能單元具有相鄰連接關(guān)系的若干個(gè)功能單元。在對(duì)稱式局部互連結(jié)構(gòu)中共有η個(gè)功能單元和η條總線,η為嵌入式處理器中的功能單元個(gè)數(shù);采用的局部互連結(jié)構(gòu)為ltok,k小于等于η-l ; Itok局部互連結(jié)構(gòu)是指每個(gè)功能單元的輸入端與兩個(gè)寄存器組直接相連,從寄存器組得到操作數(shù);每個(gè)功能單元的兩個(gè)寄存器組分別通過一個(gè)k選I多路選擇器與該功能單元對(duì)應(yīng)的k條總線相連,能獲得k條總線上來自于k個(gè)功能單元的數(shù)據(jù)。功能單元ALUO的輸出端口連接到O號(hào)總線,將結(jié)果輸出至O號(hào)總線,ALU0、ALU1、ALU2、…、ALUk-1的輸入端分別通過各自的k選
I多路選擇器與O號(hào)總線相連,能夠獲得O號(hào)總 線上的數(shù)據(jù),即ALUO的結(jié)果輸出可以供給ALU0、ALU1、ALU2、…、ALUk-1 ;功能單元ALUl的輸出端口連接到I號(hào)總線,將結(jié)果輸出至I號(hào)總線,ALU1、ALU2、ALU3、…、ALUk的輸入端分別通過各自的k選I多路選擇器與I號(hào)總線相連,能夠獲得I號(hào)總線上的數(shù)據(jù),即ALUl的結(jié)果輸出可以供給ALU1、ALU2、ALU3、…、ALUk ;功能單元ALUi的輸出端口連接到i號(hào)總線,將結(jié)果輸出至i號(hào)總線,ALU1、ALUi+1、ALUi+2、…、ALUi+k-1的輸入端分別通過各自的k選I多路選擇器與i號(hào)總線相連,能夠獲得i號(hào)總線上的數(shù)據(jù),即ALUi的結(jié)果輸出可以供給ALU1、ALUi+1、ALUi+2、…、ALUi+k-1,其中i小于等于η-l ;功能單元ALUn-2的輸出端口連接到n_2號(hào)總線,將結(jié)果輸出至n_2號(hào)總線,ALUn-2、ALUn-1、ALUO、…、ALUk-3的輸入端分別通過各自的k選I多路選擇器與n-2號(hào)總線相連,可以獲得n-2號(hào)總線上的數(shù)據(jù),即ALUn-2的結(jié)果輸出可以供給ALUn-2、ALUn-UALUO,…、ALUk-3 ;功能單元ALUn-1的輸出端口連接到n_l號(hào)總線,ALUn_l、ALUO、ALU1、…、ALUk-2的輸入端分別通過各自的k選I多路選擇器與n_l號(hào)總線相連,可以獲得η-l號(hào)總線上的數(shù)據(jù),即ALUn-1的結(jié)果輸出可以供給ALUn-1、ALUO、ALUl、…、ALUk-2。
[0010]全互連結(jié)構(gòu)下,每個(gè)功能單元的輸出可以同時(shí)供應(yīng)給所有的功能單元,因此可以同任何其它功能單元進(jìn)行直接的通信;但是在本發(fā)明的局部互連結(jié)構(gòu)下,每個(gè)功能單元的輸出只能供給特定數(shù)目的功能單元,因此功能單元之間存在不能直接通信的情況,需要通過第三方進(jìn)行通信,采用間接通信模式。在ItOk局部互連的結(jié)構(gòu)下,功能單元ALUi的輸入寄存器端口通過各自的k選I多路選擇器連接i號(hào)總線、i+Ι號(hào)總線、i+2號(hào)總線、…、i+k-1號(hào)總線;ALUi+l的輸入寄存器端口通過各自的k選I多路選擇器連接i+Ι號(hào)總線、i+2號(hào)總線、i+3號(hào)總線、…、i+k號(hào)總線;ALUi+2的輸入寄存器端口通過各自的k選I多路選擇器連接i+2號(hào)總線、i+3號(hào)總線、i+4號(hào)總線、…、i+k+Ι號(hào)總線;…;功能單元ALUi+k-Ι的輸入寄存器端口通過各自的k選I多路選擇器連接i+k-Ι號(hào)總線、i+k號(hào)總線、i+k+Ι號(hào)總線、…、i+2k-2號(hào)總線;功能單元ALUi+k的輸入寄存器端口通過各自的k選I多路選擇器連接i+k號(hào)總線、i+k+Ι號(hào)總線、i+k+2號(hào)總線、…、i+2k_l號(hào)總線。ALUi與ALUi+k-Ι可以通過i+k-Ι號(hào)總線互連,而與ALUi+k之間沒有存在互連的總線。所以當(dāng)ALUi和ALUi+k之間需要發(fā)生通信時(shí),需要通過ALUi+k-1 (第三方)來進(jìn)行;在第t拍時(shí),首先ALUi將要進(jìn)行通信傳輸?shù)淖兞克偷絠+k-Ι號(hào)總線,ALUi+k-1的寄存器組通過多路選擇器從i+k-Ι號(hào)總線上取得要傳輸?shù)淖兞浚腿階LUi+k-Ι ;在t+Ι拍時(shí),ALUi+k-1功能單元執(zhí)行復(fù)制操作將變量輸出到與ALUi+k互連的總線上;在t+2拍時(shí),ALUi+k從總線上讀入需要與ALUi進(jìn)行通
信傳輸變量。
[0011]全互連結(jié)構(gòu)由多個(gè)功能單元和全互連網(wǎng)絡(luò)組成,功能單元的輸出通過全互連網(wǎng)絡(luò)供給包括其自身的所有功能單元。通過對(duì)多種部分互連結(jié)構(gòu)進(jìn)行詳細(xì)的延遲、面積、功耗和性能評(píng)估,并結(jié)合嵌入式處理器應(yīng)用背景測(cè)試多種典型應(yīng)用程序,發(fā)現(xiàn)對(duì)于所有應(yīng)用來說,無論VLIW的規(guī)模大小,其通信模式主要集中在Itol和lto2,也就是說功能單元的結(jié)果輸出只供應(yīng)給下一個(gè)或兩個(gè)功能單元,對(duì)于面向更多點(diǎn)的多播通信的使用率很低。雖然全互連網(wǎng)絡(luò)提供了強(qiáng)大的多播通信能力和最大化帶寬,但是實(shí)際應(yīng)用的通信能力需求卻較低。由此確定面向全分布式超長指令字的高能效局部互連結(jié)構(gòu)的嵌入式處理器采用通信模式lto3,可以完全滿足處理器的通信需求。所以本發(fā)明采用的通信模式為lto3。
[0012]lto3局部互連結(jié)構(gòu)為:每個(gè)功能單元的輸入端與兩個(gè)寄存器組直接相連,從寄存器組得到操作數(shù);每個(gè)功能單元的兩個(gè)寄存器組分別通過一個(gè)三選一多路選擇器與對(duì)應(yīng)的三條總線相連,獲得總線上的數(shù)據(jù)。功能單元ALUO的輸出端與O號(hào)總線相連,可以供給ALUO, ALUl、ALU2,即ALUO、ALU1、ALU2的輸入寄存器端口分別通過各自的三選一多路選擇器連接O號(hào)總線,可以獲得O號(hào)總線上的數(shù)據(jù);功能單元ALUl的輸出端口連接到I號(hào)總線,ALUU ALU2、ALU3的輸入寄存器端口分別通過各自的三選一多路選擇器與I號(hào)總線相連,可以獲得I號(hào)總線上的數(shù)據(jù),ALUl的結(jié)果輸出可以供給ALU1、ALU2、ALU3 ;功能單元ALUi的輸出端口連接到i號(hào) 總線,ALUi, ALUi+1、ALUi+2的輸入寄存器端口分別通過各自的三選一多路選擇器與i號(hào)總線相連,可以獲得i號(hào)總線上的數(shù)據(jù),ALUi的結(jié)果輸出可以供給ALU1、ALUi+1、ALUi+2,其中i小于等于n_3 ;功能單元ALUn_2的輸出端口連接到n_2號(hào)總線41^11-241^11-141^0的輸入寄存器端口分別通過各自的三選一多路選擇器與n-2號(hào)總線相連,可以獲得n-2號(hào)總線上的數(shù)據(jù),ALUn-2的結(jié)果輸出可以供給ALUn-2、ALUn_l、ALU0 ;功能單元ALUn-1的輸出端口連接到η-1號(hào)總線,ALUn_l、ALUO、ALUl的輸入端口寄存器分別通過各自的三選一多路選擇器與η-1號(hào)總線相連,可以獲得η-1號(hào)總線上的數(shù)據(jù),即ALUn-1的結(jié)果輸出可以供給ALUn-1、ALUO, ALUl0在lto3通信結(jié)構(gòu)中,每個(gè)功能單元的兩個(gè)寄存器組分別通過一個(gè)三選一多路選擇器與三條總線相連,通過選擇器選擇獲得的數(shù)據(jù);不存在直接互連關(guān)系的功能單元之間通過間接通信模式進(jìn)行通信。
[0013]采用本發(fā)明可以達(dá)到以下技術(shù)效果:
[0014]本發(fā)明針對(duì)VLIW全互連結(jié)構(gòu)消耗硬件資源多,能效相對(duì)低的突出問題,實(shí)現(xiàn)了一種嵌入式處理器的面向全分布式超長指令字多功能單元的Itok局部互連結(jié)構(gòu)。Itok的局部互連結(jié)構(gòu)在保證相當(dāng)性能的情況下可以有效的降低嵌入式處理器中功能單元的互連網(wǎng)絡(luò)面積、延遲和能耗,同時(shí)具有更好的可擴(kuò)展性。
【專利附圖】

【附圖說明】
[0015]圖1為【背景技術(shù)】公布的全分布式超長指令字的多功能單元的全互連結(jié)構(gòu)圖。
[0016]圖2為本發(fā)明面向全分布式超長指令字多功能單元的lto3局部互連結(jié)構(gòu)圖。
[0017]圖3為本發(fā)明面向全分布式超長指令字多功能單元的lto2局部互連結(jié)構(gòu)圖。
[0018]圖4為本發(fā)明面向全分布式超長指令字多功能單元的lto4局部互連結(jié)構(gòu)圖?!揪唧w實(shí)施方式】
[0019]圖1是【背景技術(shù)】公布的全分布式超長指令字的多功能單元的全互連結(jié)構(gòu)圖。超長指令字結(jié)構(gòu)機(jī)器中有大量的功能單元,功能單元之間因可能的操作數(shù)和結(jié)果數(shù)據(jù)的交互而必須存在可達(dá)的數(shù)據(jù)通路。傳統(tǒng)的做法采用全互聯(lián)結(jié)構(gòu),假設(shè)全分布式VLIW機(jī)器中有η個(gè)功能單元ALU0,ALU1,ALU2,…,ALUn-1 ;相應(yīng)的有η條總線;η由體系結(jié)構(gòu)所需要的功能單元數(shù)決定。每個(gè)功能單元的輸入與兩個(gè)寄存器組直接相連,從寄存器組得到操作數(shù);功能單元ALU0,ALU1,ALU2,…,ALUn-1的輸出與各自總線相連,分別將它們的結(jié)果輸出到O號(hào)總線、I號(hào)總線、2號(hào)總線、…、η-1號(hào)總線上。每根總線與所有的寄存器組相連,將對(duì)應(yīng)的功能單元的輸出結(jié)果供應(yīng)給所有的寄存器組。如果功能單元ALUm需要另一功能單元ALUk的上一時(shí)鐘節(jié)拍結(jié)果,作為ALUm在當(dāng)前時(shí)鐘節(jié)拍的輸入,則ALUm可在當(dāng)前拍從k號(hào)總線上取到所需要的數(shù)據(jù);m和k均不超過η。在每個(gè)寄存器端都有一個(gè)很大的η選I多路選擇器來選擇要輸入的數(shù)據(jù)。
[0020]圖2為本發(fā)明面向全分布式超長指令字多功能單元的lto3局部互連結(jié)構(gòu)圖。lto3局部互連結(jié)構(gòu)表示每個(gè)功能單元的結(jié)果輸出供應(yīng)給三個(gè)功能單元:其自身與具有連接關(guān)系的其他兩個(gè)個(gè)功能單元。lto3局部互連結(jié)構(gòu)為:每個(gè)功能單元的輸入端與兩個(gè)寄存器組直接相連,從寄存器組得到操作數(shù);每個(gè)功能單元的兩個(gè)寄存器組分別通過一個(gè)三選一多路選擇器與對(duì)應(yīng)的三條總線相連,獲得總線上的數(shù)據(jù)。如圖2所示,每個(gè)寄存器組的輸入端與總線相交的空心點(diǎn)為非連接點(diǎn),即該功能單元與這條總線沒有連接關(guān)系;與總線相交的實(shí)心點(diǎn)為連接點(diǎn),即該功能單元與這條總線有連接關(guān)系。在整個(gè)互連結(jié)構(gòu)中,每個(gè)寄存器組都通過各自的三選一多路選擇器與三條總線相連;多路選擇器的三個(gè)輸入端連接三條總線,輸出端連接對(duì)應(yīng)的寄存器組,寄存器組可以通過選擇器從總線上獲得所需的數(shù)據(jù),進(jìn)而送往功能單元。功能單元ALUO的輸出端與O號(hào)總線相連,可以供給ALUO、ALUU ALU2,即ALU0、ALU1、ALU2的輸入寄存器端口分別通過各自的三選一多路選擇器連接O號(hào)總線,可以獲得O號(hào)總線上的數(shù)據(jù);功能單元ALUl的輸出端口連接到I號(hào)總線,ALU1、ALU2、ALU3的輸入寄存器端口分別通過各自的三選一多路選擇器與I號(hào)總線相連,可以獲得I號(hào)總線上的數(shù)據(jù),ALUl的結(jié)果輸出可以供給ALU1、ALU2、ALU3 ;功能單元ALUi的輸出端口連接到i號(hào)總線,ALU1、ALUi+l、ALUi+2的輸入寄存器端口分別通過各自的三選一多路選擇器與i號(hào)總線相連,可以獲得i號(hào)總線上的數(shù)據(jù),ALUi的結(jié)果輸出可以供給ALU1、ALUi+1、ALUi+2,其中i小于等于n-3 ;功能單元ALUn-2的輸出端口連接到n_2號(hào)總線,ALUn_2、ALUn-1、ALUO的輸入寄存器端口分別通過各自的三選一多路選擇器與n-2號(hào)總線相連,可以獲得n-2號(hào)總線上的數(shù)據(jù),ALUn-2的結(jié)果輸出可以供給ALUn-2、ALUn-UALUO ;功能單元ALUn-1的輸出端口連接到η-1號(hào)總線,ALUn-l、ALUO、ALUl的輸入端口寄存器分別通過各自的三選一多路選擇器與η-1號(hào)總線相連,可以獲得η-1號(hào)總線上的數(shù)據(jù),即ALUn-1的結(jié)果輸出可以供給 ALUn-1、ALUO、ALUI。
[0021]在lto3局部互連結(jié)構(gòu)下,每個(gè)功能單元的輸出只能供給三個(gè)功能單元,因此功能單元之間存在不能直接通信的情況,需要通過第三方進(jìn)行通信,采用間接通信模式。在lto3局部互連的結(jié)構(gòu)下,例如功能單元ALUi的輸入寄存器端口通過各自的三選一多路選擇器連接i號(hào)總線、i+Ι號(hào)總線與i+2號(hào)總線;ALUi+l的輸入寄存器端口通過各自的三選一多路選擇器連接i+1號(hào)總線、i+2號(hào)總線和i+3號(hào)總線;ALU2的輸入寄存器端口通過各自的三選一多路選擇器連接i+2號(hào)總線、i+3號(hào)總線和i+4號(hào)總線。因此,ALUi與ALUi+Ι可以通過i+Ι號(hào)總線直接互連,進(jìn)行通信;而功能單元ALUi和ALUi+2沒有直接互連。因此當(dāng)ALUi和ALUi+2需要發(fā)生通信時(shí),需要通過ALUi+Ι (第三方)來進(jìn)行;在第t拍時(shí),首先ALUi將要進(jìn)行通信傳輸?shù)淖兞客ㄟ^互連總線寫入ALUi+Ι的寄存器;在t+Ι拍時(shí),ALUi+1功能單元執(zhí)行復(fù)制操作將變量輸出到與ALUi+2互連的總線上;在t+2拍時(shí),ALUi+2從該總線上讀入需要與ALUi進(jìn)行通信傳輸變量。
[0022]圖3為本發(fā)明面向全分布式超長指令字多功能單元的lto2局部互連結(jié)構(gòu)圖。lto2局部互連結(jié)構(gòu)是指每個(gè)功能單元的結(jié)果輸出可以供應(yīng)給兩個(gè)功能單元:其自身與具有連接關(guān)系的其他一個(gè)個(gè)功能單元;每個(gè)功能單元的輸入端與兩個(gè)寄存器組直接相連,從寄存器組得到操作數(shù);每個(gè)功能單元的兩個(gè)寄存器組分別通過一個(gè)二選一多路選擇器與對(duì)應(yīng)的兩條總線相連,獲得總線上的數(shù)據(jù);不能直接互連的功能單元之間采用間接通信模式。
[0023]圖4為本發(fā)明面向全分布式超長指令字多功能單元的lto4局部互連結(jié)構(gòu)圖。lto4局部互連結(jié)構(gòu)是指每個(gè)功能單元的結(jié)果輸出可以供應(yīng)給四個(gè)功能單元:其自身與具有連接關(guān)系的其他三個(gè)個(gè)功能單元;每個(gè)功能單元的輸入端與兩個(gè)寄存器組直接相連,從寄存器組得到操作數(shù);每個(gè)功能單元的兩個(gè)寄存器組分別通過一個(gè)四選一多路選擇器與對(duì)應(yīng)的四條總線相連,獲得總線上的數(shù)據(jù);不能直接互連的功能單元之間采用間接通信模式。
【權(quán)利要求】
1.一種面向全分布式超長指令字的高能效局部互連結(jié)構(gòu),由η個(gè)功能單元通過局部互連網(wǎng)絡(luò)連接而成,η個(gè)功能單元表示為ALU0、ALU1、ALU2、…、ALUn-1 ;其特征在于η個(gè)功能單元通過局部互連網(wǎng)絡(luò)連接成對(duì)稱式的局部互連結(jié)構(gòu),即功能單元將結(jié)果輸出供給自身以及與該功能單元具有相鄰連接關(guān)系的若干個(gè)功能單元;在對(duì)稱式局部互連結(jié)構(gòu)中共有η個(gè)功能單元和η條總線,采用Itok局部互連結(jié)構(gòu),k小于等于n-1 ;ltok局部互連結(jié)構(gòu)是指功能單元ALUO的輸出端口連接到O號(hào)總線,將結(jié)果輸出至O號(hào)總線,ALUO, ALUU ALU2、…、ALUk-1的輸入端與O號(hào)總線相連,能夠獲得O號(hào)總線上的數(shù)據(jù),即ALUO的結(jié)果輸出可以供給ALU0、ALU1、ALU2、…、ALUk-1 ;功能單元ALUl的輸出端口連接到I號(hào)總線,將結(jié)果輸出至I號(hào)總線,ALU1、ALU2、ALU3、…、ALUk的輸入端與I號(hào)總線相連,能夠獲得I號(hào)總線上的數(shù)據(jù),即ALUl的結(jié)果輸出可以供給ALU1、ALU2、ALU3、…、ALUk ;功能單元ALUi的輸出端口連接到i號(hào)總線,將結(jié)果輸出至i號(hào)總線,ALUi, ALUi+1、ALUi+2、…、ALUi+k-1的輸入端與i號(hào)總線相連,能夠獲得i號(hào)總線上的數(shù)據(jù),即ALUi的結(jié)果輸出可以供給ALU1、ALUi+l、ALUi+2、…、ALUi+k-1,其中i小于等于η-l ;功能單元ALUn_2的輸出端口連接到n_2號(hào)總線,將結(jié)果輸出至n-2號(hào)總線,ALUn-2、ALUn-U ALUO,…、ALUk-3的輸入端與n_2號(hào)總線相連,可以獲得n-2號(hào)總線上的數(shù)據(jù),即ALUn-2的結(jié)果輸出可以供給ALUn_2、ALUn-UALU0、…、ALUk-3 ;功能單元ALUn-1的輸出端口連接到n_l號(hào)總線,ALUn_l、ALUO、ALUl、…、ALUk-2的輸入端與η-l號(hào)總線相連,可以獲得η-l號(hào)總線上的數(shù)據(jù),即ALUn-1的結(jié)果輸出可以供給ALUn-1、ALUO、ALU1、…、ALUk_2 ;ltok局部互連結(jié)構(gòu)的各功能單元之間采用間接通信模式,功能單元ALUi的輸入寄存器端口通過各自的k選I多路選擇器連接i號(hào)總線、 i+1號(hào)總線、i+2號(hào)總線、…、i+k-Ι號(hào)總線;ALUi+l的輸入寄存器端口通過各自的k選I多路選擇器連接i+Ι號(hào)總線、i+2號(hào)總線、i+3號(hào)總線、…、i+k號(hào)總線;ALUi+2的輸入寄存器端口通過各自的k選I多路選擇器連接i+2號(hào)總線、i+3號(hào)總線、i+4號(hào)總線、…、i+k+Ι號(hào)總線;…;功能單元ALUi+k-Ι的輸入寄存器端口通過各自的k選I多路選擇器連接i+k-1號(hào)總線、i+k號(hào)總線、i+k+1號(hào)總線、…、i+2k-2號(hào)總線;功能單元ALUi+k的輸入寄存器端口通過各自的k選I多路選擇器連接i+k號(hào)總線、i+k+1號(hào)總線、i+k+2號(hào)總線、…、i+2k-l號(hào)總線;ALUi與ALUi+k-Ι通過i+k-Ι號(hào)總線互連,與ALUi+k之間沒有存在互連的總線;當(dāng)ALUi和ALUi+k之間需要發(fā)生通信時(shí),需要通過ALUi+k-Ι來進(jìn)行;在第t拍時(shí),首先ALUi將要進(jìn)行通信傳輸?shù)淖兞克偷絠+k-Ι號(hào)總線,ALUi+k-1的寄存器組通過多路選擇器從i+k-1號(hào)總線上取得要傳輸?shù)淖兞?,送入ALUi+k-1 ;在〖+1拍時(shí),ALUi+k-1功能單元執(zhí)行復(fù)制操作將變量輸出到與ALUi+k互連的總線上;在t+2拍時(shí),ALUi+k從總線上讀入需要與ALUi進(jìn)行通信傳輸變量。
2.如權(quán)利要求1所述的一種面向全分布式超長指令字的高能效局部互連結(jié)構(gòu),其特征在于所述面向全分布式超長指令字的高能效局部互連結(jié)構(gòu)采用的局部互連結(jié)構(gòu)為lto3,lto3局部互連結(jié)構(gòu)為:每個(gè)功能單元的輸入端與兩個(gè)寄存器組直接相連,從寄存器組得到操作數(shù);每個(gè)功能單元的兩個(gè)寄存器組分別通過一個(gè)三選一多路選擇器與對(duì)應(yīng)的三條總線相連,獲得總線上的數(shù)據(jù);功能單元ALUO的輸出端與O號(hào)總線相連,可以供給ALUO、ALUUALU2,即ALUO、ALUl、ALU2的輸入寄存器端口通過三選一多路選擇器連接O號(hào)總線,可以獲得O號(hào)總線上的數(shù)據(jù);功能單元ALUl的輸出端口連接到I號(hào)總線,ALUU ALU2、ALU3的輸入寄存器端口通過三選一多路選擇器與I號(hào)總線相連,可以獲得I號(hào)總線上的數(shù)據(jù),ALUl的結(jié)果輸出可以供給ALUl、ALU2、ALU3 ;功能單元ALUi的輸出端口連接到i號(hào)總線,ALU1、ALUi+1、ALUi+2的輸入寄存器端口通過三選一多路選擇器與i號(hào)總線相連,可以獲得i號(hào)總線上的數(shù)據(jù),ALUi的結(jié)果輸出可以供給ALU1、ALUi+l、ALUi+2,其中i小于等于n_3 ;功能單元ALUn-2的輸出端口連接到n-2號(hào)總線,ALUn-2、ALUn-UALUO的輸入寄存器端口通過三選一多路選擇器與n-2號(hào)總線相連,可以獲得n-2號(hào)總線上的數(shù)據(jù),ALUn-2的結(jié)果輸出可以供給ALUn-2、ALUn-UALUO ;功能單元ALUn-1的輸出端口連接到n_l號(hào)總線,ALUn_l、ALU0、ALU1的輸入端口寄存器通過三選一多路選擇器與η-l號(hào)總線相連,可以獲得n_l號(hào)總線上的數(shù)據(jù),即ALUn-1的結(jié)果輸出可以供給ALUn-1、ALU0、ALU1 ;在lto3局部互連結(jié)構(gòu)中,每個(gè)功能單元的兩個(gè)寄存器組通過一個(gè)三選一多路選擇器與三條總線相連,通過選擇器選擇獲得的數(shù)據(jù), 功能單元之間通過間接通信模式進(jìn)行通信。
【文檔編號(hào)】G06F9/30GK103955353SQ201410185503
【公開日】2014年7月30日 申請(qǐng)日期:2014年5月5日 優(yōu)先權(quán)日:2014年5月5日
【發(fā)明者】楊乾明, 董辛楠, 文梅, 任巨, 張春元, 施自龍, 藍(lán)強(qiáng) 申請(qǐng)人:中國人民解放軍國防科學(xué)技術(shù)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1