本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種用于執(zhí)行矩陣加減法運(yùn)算的裝置和方法。
背景技術(shù):
當(dāng)前計(jì)算機(jī)領(lǐng)域,伴隨著大數(shù)據(jù)、機(jī)器學(xué)習(xí)等新興技術(shù)的成熟,越來越多的任務(wù)中包含了各種各樣的矩陣加減法運(yùn)算,尤其是大矩陣的加減法運(yùn)算,這些往往成為算法速度和效果提高的瓶頸。、
在現(xiàn)有技術(shù)中,一種進(jìn)行矩陣加減法運(yùn)算的已知方案是使用通用處理器,該方法通過通用寄存器堆和通用功能部件來執(zhí)行通用指令,從而執(zhí)行矩陣加減法運(yùn)算。然而,該方法的缺點(diǎn)之一是單個(gè)通用處理器多用于標(biāo)量計(jì)算,在進(jìn)行矩陣運(yùn)算時(shí)運(yùn)算性能較低。而使用多個(gè)通用處理器并行執(zhí)行時(shí),處理器的個(gè)數(shù)較少提升的效果不做夠顯著;處理器個(gè)數(shù)較高時(shí)它們之間的相互通訊又有可能成為性能瓶頸。
在另一種現(xiàn)有技術(shù)中,使用圖形處理器(gpu)來進(jìn)行一系列矩陣加減法運(yùn)算,其中,通過使用通用寄存器堆和通用流處理單元執(zhí)行通用simd指令來進(jìn)行運(yùn)算。但在上述方案中,gpu片上緩存太小,在進(jìn)行大規(guī)模矩陣運(yùn)算時(shí)需要不斷進(jìn)行片外數(shù)據(jù)搬運(yùn),片外帶寬成為了主要性能瓶頸。
在另一種現(xiàn)有技術(shù)中,使用專門定制的矩陣運(yùn)算裝置來進(jìn)行矩陣加減法運(yùn)算,其中,使用定制的寄存器堆和定制的處理單元進(jìn)行矩陣運(yùn)算。然而根據(jù)這種方法,目前已有的專用矩陣運(yùn)算裝置受限于寄存器堆的設(shè)計(jì),不能夠靈活地支持不同長度的矩陣加減法運(yùn)算。
綜上所述,現(xiàn)有的不管是片上多核通用處理器、片間互聯(lián)通用處理器(單核或多核)、還是片間互聯(lián)圖形處理器都無法進(jìn)行高效的矩陣加減法運(yùn)算,并且這些現(xiàn)有技術(shù)在處理矩陣加減法運(yùn)算問題時(shí)存在著代碼量大,受限于片間通訊,片上緩存不夠,支持的矩陣規(guī)模不夠靈活等問題。
技術(shù)實(shí)現(xiàn)要素:
基于此,本發(fā)明提供了一種執(zhí)行矩陣加減法運(yùn)算的裝置和方法。
根據(jù)本發(fā)明一方面,提供了一種用于執(zhí)行矩陣加減運(yùn)算的裝置,其特征在于,包括:
存儲(chǔ)單元,用于存儲(chǔ)矩陣運(yùn)算指令相關(guān)的矩陣數(shù)據(jù);
寄存器單元,用于存儲(chǔ)矩陣運(yùn)算指令相關(guān)的標(biāo)量數(shù)據(jù);
控制單元,用于對(duì)矩陣運(yùn)算指令進(jìn)行譯碼,并控制矩陣運(yùn)算指令的運(yùn)算過程;
矩陣運(yùn)算單元,用于根據(jù)譯碼后的矩陣運(yùn)算指令,對(duì)輸入矩陣進(jìn)行矩陣加減運(yùn)算操作;
其中,所述矩陣運(yùn)算單元為定制的硬件電路。
根據(jù)本發(fā)明另一方面,提供了一種用于執(zhí)行矩陣加減法運(yùn)算的裝置,其特征在于,包括:
取指模塊,用于從指令序列中取出下一條要執(zhí)行的矩陣運(yùn)算指令,并將該矩陣運(yùn)算指令傳給譯碼模塊;
譯碼模塊,用于對(duì)該矩陣運(yùn)算指令進(jìn)行譯碼,并將譯碼后的矩陣運(yùn)算指令傳送給指令隊(duì)列模塊;
指令隊(duì)列模塊,用于暫存譯碼后的矩陣運(yùn)算指令,并從矩陣運(yùn)算指令或標(biāo)量寄存器獲得矩陣運(yùn)算指令運(yùn)算相關(guān)的標(biāo)量數(shù)據(jù);獲得所述標(biāo)量數(shù)據(jù)后,將所述矩陣運(yùn)算指令送至依賴關(guān)系處理單元;
標(biāo)量寄存器堆,包括多個(gè)標(biāo)量寄存器,用于存儲(chǔ)矩陣運(yùn)算指令相關(guān)的標(biāo)量數(shù)據(jù);
依賴關(guān)系處理單元,用于判斷所述矩陣運(yùn)算指令與之前未執(zhí)行完的運(yùn)算指令之間是否存在依賴關(guān)系;如果存在依賴關(guān)系,則將所述矩陣運(yùn)算指令送至存儲(chǔ)隊(duì)列模塊,如果不存在依賴關(guān)系,則將所述矩陣運(yùn)算指令送至矩陣運(yùn)算單元;
存儲(chǔ)隊(duì)列模塊,用于存儲(chǔ)與之前運(yùn)算指令存在依賴關(guān)系的矩陣運(yùn)算指令,并且在所述依賴關(guān)系解除后,將所述矩陣運(yùn)算指令送至矩陣運(yùn)算單元;
矩陣運(yùn)算單元,用于根據(jù)接收到矩陣運(yùn)算指令對(duì)輸入矩陣進(jìn)行矩陣加減法運(yùn)算操作;
高速暫存存儲(chǔ)器,用于存儲(chǔ)輸入矩陣和輸出矩陣;
輸入輸出存取模塊,用于直接訪問所述高速暫存存儲(chǔ)器,負(fù)責(zé)從所述高速暫存存儲(chǔ)器中讀取輸出矩陣和寫入輸入矩陣。
本發(fā)明還提供了一種執(zhí)行矩陣加減法運(yùn)算的方法。
本發(fā)明可以應(yīng)用于以下場(chǎng)景中(包括但不限于):數(shù)據(jù)處理、機(jī)器人、電腦、打印機(jī)、掃描儀、電話、平板電腦、智能終端、手機(jī)、行車記錄儀、導(dǎo)航儀、傳感器、攝像頭、云端服務(wù)器、相機(jī)、攝像機(jī)、投影儀、手表、耳機(jī)、移動(dòng)存儲(chǔ)、可穿戴設(shè)備等各類電子產(chǎn)品;飛機(jī)、輪船、車輛等各類交通工具;電視、空調(diào)、微波爐、冰箱、電飯煲、加濕器、洗衣機(jī)、電燈、燃?xì)庠?、油煙機(jī)等各類家用電器;以及包括核磁共振儀、b超、心電圖儀等各類醫(yī)療設(shè)備。
附圖說明
圖1是根據(jù)本發(fā)明實(shí)施例的執(zhí)行矩陣加減法運(yùn)算的裝置的結(jié)構(gòu)示意圖。
圖2是根據(jù)本發(fā)明實(shí)施例的矩陣運(yùn)算單元的操作示意圖。
圖3是根據(jù)本發(fā)明實(shí)施例的指令集的格式示意圖。
圖4是根據(jù)本發(fā)明實(shí)施例的矩陣運(yùn)算裝置的結(jié)構(gòu)示意圖。
圖5是根據(jù)本發(fā)明實(shí)施例的矩陣運(yùn)算裝置執(zhí)行矩陣加法指令的流程圖。
圖6是根據(jù)本發(fā)明實(shí)施例的矩陣運(yùn)算裝置執(zhí)行矩陣減標(biāo)量指令的流程圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。
本發(fā)明提供了一種矩陣加減法運(yùn)算裝置,包括:存儲(chǔ)單元、寄存器單元、控制單元和矩陣運(yùn)算單元;
所述存儲(chǔ)單元存儲(chǔ)矩陣;
所述寄存器單元中存儲(chǔ)有輸入矩陣地址、輸入矩陣長度、輸出矩陣地 址;
所述控制單元用于對(duì)矩陣運(yùn)算指令執(zhí)行譯碼操作,并根據(jù)矩陣運(yùn)算指令控制各個(gè)模塊,以控制矩陣加減法運(yùn)算的執(zhí)行過程;
矩陣運(yùn)算單元在指令中或寄存器單元中獲取輸入矩陣地址、輸入矩陣長度、輸出矩陣地址,然后,根據(jù)該輸入矩陣地址在存儲(chǔ)單元中獲取相應(yīng)的矩陣,接著,根據(jù)獲取的矩陣進(jìn)行矩陣運(yùn)算,得到矩陣運(yùn)算結(jié)果。
本發(fā)明將參與計(jì)算的矩陣數(shù)據(jù)暫存在存儲(chǔ)單元(例如,高速暫存存儲(chǔ)器)上,使得矩陣運(yùn)算過程中可以更加靈活有效地支持不同寬度的數(shù)據(jù),提升包含大量矩陣加減法運(yùn)算任務(wù)的執(zhí)行性能。
本發(fā)明中,所述矩陣加減法運(yùn)算單元可以實(shí)現(xiàn)為定制的硬件電路,包括但不限于fpga、cgra、專用集成電路asic、模擬電路和憶阻器等。
圖1是本發(fā)明提供的用于執(zhí)行矩陣加減法運(yùn)算的裝置的結(jié)構(gòu)示意圖,如圖1所示,該裝置包括:
存儲(chǔ)單元,用于存儲(chǔ)矩陣。在一種實(shí)施方式中,該存儲(chǔ)單元可以是高速暫存存儲(chǔ)器,能夠支持不同大小的矩陣數(shù)據(jù);本發(fā)明將必要的計(jì)算數(shù)據(jù)暫存在高速暫存存儲(chǔ)器上(scratchpadmemory),使本運(yùn)算裝置在進(jìn)行矩陣運(yùn)算過程中可以更加靈活有效地支持不同寬度的數(shù)據(jù)。所述高速暫存存儲(chǔ)器可以通過各種不同存儲(chǔ)器件如sram、dram、edram、憶阻器、3d-dram和非易失存儲(chǔ)等實(shí)現(xiàn)。
寄存器單元,用于存儲(chǔ)矩陣地址,其中,矩陣地址為矩陣在存儲(chǔ)單元中存儲(chǔ)的地址;在一種實(shí)施方式中,寄存器單元可以是標(biāo)量寄存器堆,提供運(yùn)算過程中所需的標(biāo)量寄存器,標(biāo)量寄存器存儲(chǔ)輸入矩陣地址、輸入矩陣長度、輸出矩陣地址。當(dāng)涉及到矩陣與標(biāo)量的運(yùn)算時(shí),矩陣運(yùn)算單元不僅要從寄存器單元中獲取矩陣地址,還要從寄存器單元中獲取相應(yīng)的標(biāo)量。
控制單元,用于控制裝置中各個(gè)模塊的行為。在一種實(shí)施方式中,控制單元讀取準(zhǔn)備好的指令,進(jìn)行譯碼生成多條微指令,發(fā)送給裝置中的其他模塊,其他模塊根據(jù)得到的微指令執(zhí)行相應(yīng)的操作。
矩陣運(yùn)算單元,用于獲取各種加減運(yùn)算指令,根據(jù)指令在所述寄存器單元中獲取矩陣地址,然后,根據(jù)該矩陣地址在存儲(chǔ)單元中獲取相應(yīng)的矩陣,接著,根據(jù)獲取的矩陣進(jìn)行運(yùn)算,得到矩陣運(yùn)算結(jié)果,并將矩陣運(yùn)算 結(jié)果存儲(chǔ)于高速暫存存儲(chǔ)器中。矩陣運(yùn)算單元負(fù)責(zé)裝置的所有矩陣加減運(yùn)算,包括但不限于矩陣加法操作、矩陣減法操作、矩陣加標(biāo)量操作和矩陣減標(biāo)量操作。矩陣加減運(yùn)算指令被送往該運(yùn)算單元執(zhí)行,所有的運(yùn)算部件均是并行的向量運(yùn)算部件,可以在同一時(shí)鐘并行地對(duì)一整列數(shù)據(jù)進(jìn)行相同的運(yùn)算。
圖2示出了根據(jù)本發(fā)明實(shí)施例的矩陣運(yùn)算單元的操作示意圖。其中1是由多個(gè)標(biāo)量運(yùn)算器構(gòu)成向量運(yùn)算器,2表示矩陣a在高速暫存存儲(chǔ)器中的存儲(chǔ),3表示矩陣b在高速暫存存儲(chǔ)器中的存儲(chǔ)。兩矩陣均是m*n的大小,向量運(yùn)算器的寬度為k,即向量運(yùn)算器可以一次計(jì)算出長度為k的向量的加減運(yùn)算結(jié)果。運(yùn)算器每次分別從a和b中獲取長度為k的向量數(shù)據(jù),在運(yùn)算器中執(zhí)行加減運(yùn)算,并將結(jié)果寫回,一個(gè)完整的矩陣加減可能需要進(jìn)行若干次上述計(jì)算。如圖2所示,矩陣加減部件由多個(gè)并行的標(biāo)量加減運(yùn)算器構(gòu)成,在執(zhí)行矩陣加減運(yùn)算的過程中,對(duì)于指定大小的兩矩陣數(shù)據(jù),運(yùn)算單元依次讀入一定長度的數(shù)據(jù),該長度等于標(biāo)量加減運(yùn)算器的個(gè)數(shù)。對(duì)應(yīng)的數(shù)據(jù)在對(duì)應(yīng)的標(biāo)量運(yùn)算器中執(zhí)行加減法運(yùn)算,每次計(jì)算矩陣數(shù)據(jù)中的一部分,并最終完成整個(gè)矩陣的加減法運(yùn)算。
在執(zhí)行矩陣加減標(biāo)量的過程中,運(yùn)算單元會(huì)將讀入寄存器中的標(biāo)量數(shù)據(jù)擴(kuò)展成與標(biāo)量運(yùn)算器個(gè)數(shù)等寬的向量數(shù)據(jù),作為加減法的一個(gè)輸入,另一輸入與前述執(zhí)行矩陣加減的過程相同,從高速暫存存儲(chǔ)器中讀取一定長度的矩陣數(shù)據(jù),與標(biāo)量擴(kuò)展后的向量執(zhí)行加減法運(yùn)算。
根據(jù)本發(fā)明的一種實(shí)施方式,所述矩陣加減法運(yùn)算裝置還包括:指令緩存單元,用于存儲(chǔ)待執(zhí)行的矩陣運(yùn)算指令。指令在執(zhí)行過程中,同時(shí)也被緩存在指令緩存單元中,當(dāng)一條指令執(zhí)行完之后,該指令將被提交。
根據(jù)本發(fā)明的一種實(shí)施方式,所述裝置中的控制單元還包括:指令隊(duì)列模塊,用于對(duì)譯碼后的矩陣運(yùn)算指令進(jìn)行順序存儲(chǔ),并在獲得矩陣運(yùn)算指令所需的標(biāo)量數(shù)據(jù)后,將矩陣運(yùn)算指令以及標(biāo)量數(shù)據(jù)送至依賴關(guān)系處理模塊。
根據(jù)本發(fā)明的一種實(shí)施方式,所述裝置中的控制單元還包括:依賴關(guān)系處理單元,用于在矩陣運(yùn)算單元獲取指令前,判斷該運(yùn)算指令與之前未完成運(yùn)算指令之間是否存在依賴關(guān)系,如是否訪問相同的矩陣存儲(chǔ)地址, 若是,將該運(yùn)算指令送至存儲(chǔ)隊(duì)列模塊中,待前一運(yùn)算指令執(zhí)行完畢后,將存儲(chǔ)隊(duì)列中的該運(yùn)算指令提供給所述矩陣運(yùn)算單元;否則,直接將該運(yùn)算指令提供給所述矩陣運(yùn)算單元。具體地,矩陣運(yùn)算指令需要訪問高速暫存存儲(chǔ)器時(shí),前后指令可能會(huì)訪問同一塊存儲(chǔ)空間,為了保證指令執(zhí)行結(jié)果的正確性,當(dāng)前指令如果被檢測(cè)到與之前的指令的數(shù)據(jù)存在依賴關(guān)系,該指令必須在存儲(chǔ)隊(duì)列內(nèi)等待至依賴關(guān)系被消除。
根據(jù)本發(fā)明的一種實(shí)施方式,所述裝置中的控制單元還包括:存儲(chǔ)隊(duì)列模塊,該模塊包括一個(gè)有序隊(duì)列,與之前指令在數(shù)據(jù)上有依賴關(guān)系的指令被存儲(chǔ)在該有序隊(duì)列內(nèi)直至依賴關(guān)系被消除,在依賴關(guān)系消除后,其將運(yùn)算指令提供給矩陣運(yùn)算單元。
根據(jù)本發(fā)明的一種實(shí)施方式,裝置還包括:輸入輸出單元,用于將矩陣存儲(chǔ)于存儲(chǔ)單元,或者,從存儲(chǔ)單元中獲取運(yùn)算結(jié)果。其中,輸入輸出單元可直接訪問存儲(chǔ)單元,負(fù)責(zé)從內(nèi)存向存儲(chǔ)單元讀取矩陣數(shù)據(jù)或從存儲(chǔ)單元向內(nèi)存寫入矩陣數(shù)據(jù)。
根據(jù)本發(fā)明的一種實(shí)施方式,用于本發(fā)明裝置的指令集采用load/store(加載/存儲(chǔ))結(jié)構(gòu),矩陣運(yùn)算單元不會(huì)對(duì)內(nèi)存中的數(shù)據(jù)進(jìn)行操作。本指令集采用精簡指令集架構(gòu),指令集只提供最基本的矩陣運(yùn)算操作,復(fù)雜的矩陣運(yùn)算都由這些簡單指令通過組合進(jìn)行模擬,使得可以在高時(shí)鐘頻率下單周期執(zhí)行指令。
在本裝置執(zhí)行矩陣運(yùn)算的過程中,裝置取出指令進(jìn)行譯碼,然后送至指令隊(duì)列存儲(chǔ),根據(jù)譯碼結(jié)果,獲取指令中的各個(gè)參數(shù),這些參數(shù)可以是直接寫在指令的操作域中,也可以是根據(jù)指令操作域中的寄存器號(hào)從指定的寄存器中讀取。這種使用寄存器存儲(chǔ)參數(shù)的好處是無需改變指令本身,只要用指令改變寄存器中的值,就可以實(shí)現(xiàn)大部分的循環(huán),因此大大節(jié)省了在解決某些實(shí)際問題時(shí)所需要的指令條數(shù)。在全部操作數(shù)之后,依賴關(guān)系處理單元會(huì)判斷指令實(shí)際需要使用的數(shù)據(jù)與之前指令中是否存在依賴關(guān)系,這決定了這條指令是否可以被立即發(fā)送至矩陣運(yùn)算單元中執(zhí)行。一旦發(fā)現(xiàn)與之前的數(shù)據(jù)之間存在依賴關(guān)系,則該條指令必須等到它依賴的指令執(zhí)行完畢之后才可以送至矩陣運(yùn)算單元執(zhí)行。在定制的矩陣運(yùn)算單元中,該條指令將快速執(zhí)行完畢,并將結(jié)果,即生成的結(jié)果矩陣寫回至指令提供 的地址,該條指令執(zhí)行完畢。
圖3是本發(fā)明提供的矩陣加減運(yùn)算指令的格式示意圖,如圖3所示,矩陣加減運(yùn)算指令包括一操作碼和至少一操作域,其中,操作碼用于指示該矩陣運(yùn)算指令的功能,矩陣運(yùn)算單元通過識(shí)別該操作碼可進(jìn)行不同的矩陣運(yùn)算,操作域用于指示該矩陣運(yùn)算指令的數(shù)據(jù)信息,其中,數(shù)據(jù)信息可以是立即數(shù)或寄存器號(hào),例如,要獲取一個(gè)矩陣時(shí),根據(jù)寄存器號(hào)可以在相應(yīng)的寄存器中獲取矩陣起始地址和矩陣長度,再根據(jù)矩陣起始地址和矩陣長度在存儲(chǔ)單元中獲取相應(yīng)地址存放的矩陣。
有下列幾種矩陣加減運(yùn)算指令:
矩陣加法指令(ma),根據(jù)該指令,裝置從高速暫存存儲(chǔ)器的指定地址取出指定大小的矩陣數(shù)據(jù),在矩陣運(yùn)算單元中進(jìn)行矩陣加法運(yùn)算,并將計(jì)算結(jié)果寫回至高速暫存存儲(chǔ)器的指定地址;值得說明的是,向量可以作為特殊形式的矩陣(只有一行元素的矩陣)存儲(chǔ)于高速暫存存儲(chǔ)器中。
矩陣減法指令(ms),根據(jù)該指令,裝置從高速暫存存儲(chǔ)器的指定地址取出指定大小的矩陣數(shù)據(jù),在矩陣運(yùn)算單元中進(jìn)行矩陣減法運(yùn)算,并將計(jì)算結(jié)果寫回至高速暫存存儲(chǔ)器的指定地址;值得說明的是,向量可以作為特殊形式的矩陣(只有一行元素的矩陣)存儲(chǔ)于高速暫存存儲(chǔ)器中。
矩陣加標(biāo)量指令(mas),根據(jù)該指令,裝置從高速暫存存儲(chǔ)器的指定地址取出指定大小的矩陣數(shù)據(jù),從標(biāo)量寄存器堆的指定地址中取出標(biāo)量數(shù)據(jù),在矩陣運(yùn)算單元中進(jìn)行矩陣加標(biāo)量的運(yùn)算,并將計(jì)算結(jié)果寫回至高速暫存存儲(chǔ)器的指定地址,需要說明的是,標(biāo)量寄存器堆不僅存儲(chǔ)有矩陣的地址,還存儲(chǔ)有標(biāo)量數(shù)據(jù)。
矩陣減標(biāo)量指令(mss),根據(jù)該指令,裝置從高速暫存存儲(chǔ)器的指定地址取出指定大小的矩陣數(shù)據(jù),從標(biāo)量寄存器堆的指定地址中取出標(biāo)量數(shù)據(jù),在矩陣運(yùn)算單元中進(jìn)行矩陣減標(biāo)量的運(yùn)算,并將計(jì)算結(jié)果寫回至高速暫存存儲(chǔ)器的指定地址,需要說明的是,標(biāo)量寄存器堆不僅存儲(chǔ)有矩陣的地址,還存儲(chǔ)有標(biāo)量數(shù)據(jù)。
圖4是本發(fā)明一實(shí)施例提供的矩陣運(yùn)算裝置的結(jié)構(gòu)示意圖,如圖4所示,裝置包括取指模塊、譯碼模塊、指令隊(duì)列模塊、標(biāo)量寄存器堆、依賴關(guān)系處理單元、存儲(chǔ)隊(duì)列模塊、矩陣運(yùn)算單元、高速暫存器、io內(nèi)存存取 模塊;
取指模塊,該模塊負(fù)責(zé)從指令序列中取出下一條將要執(zhí)行的指令,并將該指令傳給譯碼模塊;
譯碼模塊,該模塊負(fù)責(zé)對(duì)指令進(jìn)行譯碼,并將譯碼后指令傳給指令隊(duì)列;
指令隊(duì)列,用于暫存譯碼后的矩陣運(yùn)算指令,并從矩陣運(yùn)算指令或標(biāo)量寄存器獲得矩陣運(yùn)算指令運(yùn)算相關(guān)的標(biāo)量數(shù)據(jù);獲得所述標(biāo)量數(shù)據(jù)后,將所述矩陣運(yùn)算指令送至依賴關(guān)系處理單元;
標(biāo)量寄存器堆,提供裝置在運(yùn)算過程中所需的標(biāo)量寄存器;標(biāo)量寄存器堆包括多個(gè)標(biāo)量寄存器,用于存儲(chǔ)矩陣運(yùn)算指令相關(guān)的標(biāo)量數(shù)據(jù);
依賴關(guān)系處理單元,該模塊處理處理指令與前一條指令可能存在的存儲(chǔ)依賴關(guān)系。矩陣運(yùn)算指令會(huì)訪問高速暫存存儲(chǔ)器,前后指令可能會(huì)訪問同一塊存儲(chǔ)空間。即該單元會(huì)檢測(cè)當(dāng)前指令的輸入數(shù)據(jù)的存儲(chǔ)范圍和之前尚未執(zhí)行完成的指令的輸出數(shù)據(jù)的存儲(chǔ)范圍是否有重疊,有則說明該條指令在邏輯上需要使用前面指令的計(jì)算結(jié)果,因此它必須等到在它之前的所依賴的指令執(zhí)行完畢后才能夠開始執(zhí)行。在這個(gè)過程中,指令實(shí)際被暫存在下面的存儲(chǔ)隊(duì)列中。為了保證指令執(zhí)行結(jié)果的正確性,當(dāng)前指令如果被檢測(cè)到與之前的指令的數(shù)據(jù)存在依賴關(guān)系,該指令必須在存儲(chǔ)隊(duì)列內(nèi)等待至依賴關(guān)系被消除。
存儲(chǔ)隊(duì)列模塊,該模塊是一個(gè)有序隊(duì)列,與之前指令在數(shù)據(jù)上有依賴關(guān)系的指令被存儲(chǔ)在該隊(duì)列內(nèi)直至存儲(chǔ)關(guān)系被消除;
矩陣運(yùn)算單元,該模塊負(fù)責(zé)執(zhí)行矩陣的加減運(yùn)算;
高速暫存存儲(chǔ)器,該模塊是矩陣數(shù)據(jù)專用的暫存存儲(chǔ)裝置,能夠支持不同大小的矩陣數(shù)據(jù);主要用于存儲(chǔ)輸入矩陣數(shù)據(jù)和輸出矩陣數(shù)據(jù);
io內(nèi)存存取模塊,該模塊用于直接訪問高速暫存存儲(chǔ)器,負(fù)責(zé)從高速暫存存儲(chǔ)器中讀取數(shù)據(jù)或?qū)懭霐?shù)據(jù)。
圖5是本發(fā)明實(shí)施例提供的運(yùn)算裝置執(zhí)行矩陣加法指令的流程圖,如圖5所示,執(zhí)行矩陣加法指令的過程包括:
s1,取指模塊取出該條矩陣加法指令,并將該指令送往譯碼模塊。
s2,譯碼模塊對(duì)該矩陣加法指令譯碼,并將該矩陣加法指令送往指令 隊(duì)列。
s3,在指令隊(duì)列中,該矩陣加法指令從矩陣加法指令本身或從標(biāo)量寄存器堆中獲取指令中四個(gè)操作域所對(duì)應(yīng)的標(biāo)量數(shù)據(jù),包括輸入矩陣地址、輸入矩陣長度、輸出矩陣地址。
s4,在取得需要的標(biāo)量數(shù)據(jù)后,該指令被送往依賴關(guān)系處理單元。依賴關(guān)系處理單元分析該指令與前面的尚未執(zhí)行結(jié)束的指令在數(shù)據(jù)上是否存在依賴關(guān)系。如果存在依賴關(guān)系,則該條指令需要在存儲(chǔ)隊(duì)列中等待至其與前面的未執(zhí)行結(jié)束的指令在數(shù)據(jù)上不再存在依賴關(guān)系為止。
s5,依賴關(guān)系不存在后,該條矩陣加法指令被送往矩陣運(yùn)算單元。
s6,矩陣運(yùn)算單元根據(jù)輸入矩陣的地址和長度從高速暫存器中取出輸入矩陣數(shù)據(jù),每次分別讀入兩輸入矩陣中一定位寬的對(duì)應(yīng)數(shù)據(jù),在矩陣加減運(yùn)算器中對(duì)對(duì)齊的兩列數(shù)據(jù)進(jìn)行加法運(yùn)算,不斷重復(fù),在矩陣運(yùn)算單元中完成整個(gè)矩陣加法的運(yùn)算。
s7,運(yùn)算完成后,將運(yùn)算結(jié)果寫回至高速暫存存儲(chǔ)器的指定地址。
圖6是本發(fā)明實(shí)施例提供的運(yùn)算裝置執(zhí)行矩陣減標(biāo)量指令的流程圖,如圖6所示,執(zhí)行矩陣減標(biāo)量指令的過程包括:
s1’,取指模塊取出該條矩陣減標(biāo)量指令,并將該指令送往譯碼模塊。
s2’,譯碼模塊對(duì)該矩陣減標(biāo)量指令譯碼,并將指令送往指令隊(duì)列。
s3’,在指令隊(duì)列中,該矩陣減標(biāo)量指令從指令本身或從標(biāo)量寄存器堆中獲取指令中四個(gè)操作域所對(duì)應(yīng)的標(biāo)量數(shù)據(jù),包括輸入矩陣地址、輸入矩陣長度、輸入標(biāo)量和輸出矩陣地址。
s4’,在取得需要的標(biāo)量數(shù)據(jù)后,該指令被送往依賴關(guān)系處理單元。依賴關(guān)系處理單元分析該指令與前面的尚未執(zhí)行結(jié)束的指令在數(shù)據(jù)上是否存在依賴關(guān)系。如果存在依賴關(guān)系,則該條指令需要在存儲(chǔ)隊(duì)列中等待至其與前面的未執(zhí)行結(jié)束的指令在數(shù)據(jù)上不再存在依賴關(guān)系為止。
s5’,依賴關(guān)系不存在后,該條矩陣減標(biāo)量指令被送往矩陣運(yùn)算單元。s6’,矩陣運(yùn)算單元每次依次讀入矩陣數(shù)據(jù)的一部分,在矩陣加減標(biāo)量部件中進(jìn)行一列數(shù)據(jù)同時(shí)減去寄存器中存儲(chǔ)的標(biāo)量數(shù)據(jù)的操作,不斷重復(fù),完成整個(gè)矩陣減標(biāo)量的運(yùn)算。
s7’,運(yùn)算完成后,將運(yùn)算結(jié)果寫回至高速暫存存儲(chǔ)器的指定地址。
綜上所述,本發(fā)明提供矩陣運(yùn)算裝置,并配合相應(yīng)的指令,能夠很好地解決當(dāng)前計(jì)算機(jī)領(lǐng)域越來越多的算法包含大量矩陣加減運(yùn)算的問題,相比于已有的傳統(tǒng)解決方案,本發(fā)明可以具有指令精簡、使用方便、支持的矩陣規(guī)模靈活、片上緩存充足等優(yōu)點(diǎn)。本發(fā)明可以用于多種包含大量矩陣加減運(yùn)算的計(jì)算任務(wù)。
以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。