一種用于執(zhí)行矩陣加/減運(yùn)算的裝置和方法與流程

文檔序號(hào)：12863767閱讀：214來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)領(lǐng)域，尤其涉及一種用于執(zhí)行矩陣加減法運(yùn)算的裝置和方法。

背景技術(shù)：

當(dāng)前計(jì)算機(jī)領(lǐng)域，伴隨著大數(shù)據(jù)、機(jī)器學(xué)習(xí)等新興技術(shù)的成熟，越來越多的任務(wù)中包含了各種各樣的矩陣加減法運(yùn)算，尤其是大矩陣的加減法運(yùn)算，這些往往成為算法速度和效果提高的瓶頸。、

在現(xiàn)有技術(shù)中，一種進(jìn)行矩陣加減法運(yùn)算的已知方案是使用通用處理器，該方法通過通用寄存器堆和通用功能部件來執(zhí)行通用指令，從而執(zhí)行矩陣加減法運(yùn)算。然而，該方法的缺點(diǎn)之一是單個(gè)通用處理器多用于標(biāo)量計(jì)算，在進(jìn)行矩陣運(yùn)算時(shí)運(yùn)算性能較低。而使用多個(gè)通用處理器并行執(zhí)行時(shí)，處理器的個(gè)數(shù)較少提升的效果不做夠顯著；處理器個(gè)數(shù)較高時(shí)它們之間的相互通訊又有可能成為性能瓶頸。

在另一種現(xiàn)有技術(shù)中，使用圖形處理器(gpu)來進(jìn)行一系列矩陣加減法運(yùn)算，其中，通過使用通用寄存器堆和通用流處理單元執(zhí)行通用simd指令來進(jìn)行運(yùn)算。但在上述方案中，gpu片上緩存太小，在進(jìn)行大規(guī)模矩陣運(yùn)算時(shí)需要不斷進(jìn)行片外數(shù)據(jù)搬運(yùn)，片外帶寬成為了主要性能瓶頸。

在另一種現(xiàn)有技術(shù)中，使用專門定制的矩陣運(yùn)算裝置來進(jìn)行矩陣加減法運(yùn)算，其中，使用定制的寄存器堆和定制的處理單元進(jìn)行矩陣運(yùn)算。然而根據(jù)這種方法，目前已有的專用矩陣運(yùn)算裝置受限于寄存器堆的設(shè)計(jì)，不能夠靈活地支持不同長度的矩陣加減法運(yùn)算。

綜上所述，現(xiàn)有的不管是片上多核通用處理器、片間互聯(lián)通用處理器(單核或多核)、還是片間互聯(lián)圖形處理器都無法進(jìn)行高效的矩陣加減法運(yùn)算，并且這些現(xiàn)有技術(shù)在處理矩陣加減法運(yùn)算問題時(shí)存在著代碼量大，受限于片間通訊，片上緩存不夠，支持的矩陣規(guī)模不夠靈活等問題。

技術(shù)實(shí)現(xiàn)要素：

基于此，本發(fā)明提供了一種執(zhí)行矩陣加減法運(yùn)算的裝置和方法。

根據(jù)本發(fā)明一方面，提供了一種用于執(zhí)行矩陣加減運(yùn)算的裝置，其特征在于，包括：

存儲(chǔ)單元，用于存儲(chǔ)矩陣運(yùn)算指令相關(guān)的矩陣數(shù)據(jù)；

寄存器單元，用于存儲(chǔ)矩陣運(yùn)算指令相關(guān)的標(biāo)量數(shù)據(jù)；

控制單元，用于對(duì)矩陣運(yùn)算指令進(jìn)行譯碼，并控制矩陣運(yùn)算指令的運(yùn)算過程；

矩陣運(yùn)算單元，用于根據(jù)譯碼后的矩陣運(yùn)算指令，對(duì)輸入矩陣進(jìn)行矩陣加減運(yùn)算操作；

其中，所述矩陣運(yùn)算單元為定制的硬件電路。

根據(jù)本發(fā)明另一方面，提供了一種用于執(zhí)行矩陣加減法運(yùn)算的裝置，其特征在于，包括：

取指模塊，用于從指令序列中取出下一條要執(zhí)行的矩陣運(yùn)算指令，并將該矩陣運(yùn)算指令傳給譯碼模塊；

譯碼模塊，用于對(duì)該矩陣運(yùn)算指令進(jìn)行譯碼，并將譯碼后的矩陣運(yùn)算指令傳送給指令隊(duì)列模塊；

指令隊(duì)列模塊，用于暫存譯碼后的矩陣運(yùn)算指令，并從矩陣運(yùn)算指令或標(biāo)量寄存器獲得矩陣運(yùn)算指令運(yùn)算相關(guān)的標(biāo)量數(shù)據(jù)；獲得所述標(biāo)量數(shù)據(jù)后，將所述矩陣運(yùn)算指令送至依賴關(guān)系處理單元；

標(biāo)量寄存器堆，包括多個(gè)標(biāo)量寄存器，用于存儲(chǔ)矩陣運(yùn)算指令相關(guān)的標(biāo)量數(shù)據(jù)；

依賴關(guān)系處理單元，用于判斷所述矩陣運(yùn)算指令與之前未執(zhí)行完的運(yùn)算指令之間是否存在依賴關(guān)系；如果存在依賴關(guān)系，則將所述矩陣運(yùn)算指令送至存儲(chǔ)隊(duì)列模塊，如果不存在依賴關(guān)系，則將所述矩陣運(yùn)算指令送至矩陣運(yùn)算單元；

存儲(chǔ)隊(duì)列模塊，用于存儲(chǔ)與之前運(yùn)算指令存在依賴關(guān)系的矩陣運(yùn)算指令，并且在所述依賴關(guān)系解除后，將所述矩陣運(yùn)算指令送至矩陣運(yùn)算單元；

矩陣運(yùn)算單元，用于根據(jù)接收到矩陣運(yùn)算指令對(duì)輸入矩陣進(jìn)行矩陣加減法運(yùn)算操作；

高速暫存存儲(chǔ)器，用于存儲(chǔ)輸入矩陣和輸出矩陣；

輸入輸出存取模塊，用于直接訪問所述高速暫存存儲(chǔ)器，負(fù)責(zé)從所述高速暫存存儲(chǔ)器中讀取輸出矩陣和寫入輸入矩陣。

本發(fā)明還提供了一種執(zhí)行矩陣加減法運(yùn)算的方法。

本發(fā)明可以應(yīng)用于以下場(chǎng)景中(包括但不限于)：數(shù)據(jù)處理、機(jī)器人、電腦、打印機(jī)、掃描儀、電話、平板電腦、智能終端、手機(jī)、行車記錄儀、導(dǎo)航儀、傳感器、攝像頭、云端服務(wù)器、相機(jī)、攝像機(jī)、投影儀、手表、耳機(jī)、移動(dòng)存儲(chǔ)、可穿戴設(shè)備等各類電子產(chǎn)品；飛機(jī)、輪船、車輛等各類交通工具；電視、空調(diào)、微波爐、冰箱、電飯煲、加濕器、洗衣機(jī)、電燈、燃?xì)庠?、油煙機(jī)等各類家用電器；以及包括核磁共振儀、b超、心電圖儀等各類醫(yī)療設(shè)備。

附圖說明

圖1是根據(jù)本發(fā)明實(shí)施例的執(zhí)行矩陣加減法運(yùn)算的裝置的結(jié)構(gòu)示意圖。

圖2是根據(jù)本發(fā)明實(shí)施例的矩陣運(yùn)算單元的操作示意圖。

圖3是根據(jù)本發(fā)明實(shí)施例的指令集的格式示意圖。

圖4是根據(jù)本發(fā)明實(shí)施例的矩陣運(yùn)算裝置的結(jié)構(gòu)示意圖。

圖5是根據(jù)本發(fā)明實(shí)施例的矩陣運(yùn)算裝置執(zhí)行矩陣加法指令的流程圖。

圖6是根據(jù)本發(fā)明實(shí)施例的矩陣運(yùn)算裝置執(zhí)行矩陣減標(biāo)量指令的流程圖。

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，以下結(jié)合具體實(shí)施例，并參照附圖，對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。

本發(fā)明提供了一種矩陣加減法運(yùn)算裝置，包括：存儲(chǔ)單元、寄存器單元、控制單元和矩陣運(yùn)算單元；

所述存儲(chǔ)單元存儲(chǔ)矩陣；

所述寄存器單元中存儲(chǔ)有輸入矩陣地址、輸入矩陣長度、輸出矩陣地址；

所述控制單元用于對(duì)矩陣運(yùn)算指令執(zhí)行譯碼操作，并根據(jù)矩陣運(yùn)算指令控制各個(gè)模塊，以控制矩陣加減法運(yùn)算的執(zhí)行過程；

矩陣運(yùn)算單元在指令中或寄存器單元中獲取輸入矩陣地址、輸入矩陣長度、輸出矩陣地址，然后，根據(jù)該輸入矩陣地址在存儲(chǔ)單元中獲取相應(yīng)的矩陣，接著，根據(jù)獲取的矩陣進(jìn)行矩陣運(yùn)算，得到矩陣運(yùn)算結(jié)果。

本發(fā)明將參與計(jì)算的矩陣數(shù)據(jù)暫存在存儲(chǔ)單元(例如，高速暫存存儲(chǔ)器)上，使得矩陣運(yùn)算過程中可以更加靈活有效地支持不同寬度的數(shù)據(jù)，提升包含大量矩陣加減法運(yùn)算任務(wù)的執(zhí)行性能。

本發(fā)明中，所述矩陣加減法運(yùn)算單元可以實(shí)現(xiàn)為定制的硬件電路，包括但不限于fpga、cgra、專用集成電路asic、模擬電路和憶阻器等。

圖1是本發(fā)明提供的用于執(zhí)行矩陣加減法運(yùn)算的裝置的結(jié)構(gòu)示意圖，如圖1所示，該裝置包括：

存儲(chǔ)單元，用于存儲(chǔ)矩陣。在一種實(shí)施方式中，該存儲(chǔ)單元可以是高速暫存存儲(chǔ)器，能夠支持不同大小的矩陣數(shù)據(jù)；本發(fā)明將必要的計(jì)算數(shù)據(jù)暫存在高速暫存存儲(chǔ)器上(scratchpadmemory)，使本運(yùn)算裝置在進(jìn)行矩陣運(yùn)算過程中可以更加靈活有效地支持不同寬度的數(shù)據(jù)。所述高速暫存存儲(chǔ)器可以通過各種不同存儲(chǔ)器件如sram、dram、edram、憶阻器、3d-dram和非易失存儲(chǔ)等實(shí)現(xiàn)。

寄存器單元，用于存儲(chǔ)矩陣地址，其中，矩陣地址為矩陣在存儲(chǔ)單元中存儲(chǔ)的地址；在一種實(shí)施方式中，寄存器單元可以是標(biāo)量寄存器堆，提供運(yùn)算過程中所需的標(biāo)量寄存器，標(biāo)量寄存器存儲(chǔ)輸入矩陣地址、輸入矩陣長度、輸出矩陣地址。當(dāng)涉及到矩陣與標(biāo)量的運(yùn)算時(shí)，矩陣運(yùn)算單元不僅要從寄存器單元中獲取矩陣地址，還要從寄存器單元中獲取相應(yīng)的標(biāo)量。

控制單元，用于控制裝置中各個(gè)模塊的行為。在一種實(shí)施方式中，控制單元讀取準(zhǔn)備好的指令，進(jìn)行譯碼生成多條微指令，發(fā)送給裝置中的其他模塊，其他模塊根據(jù)得到的微指令執(zhí)行相應(yīng)的操作。

矩陣運(yùn)算單元，用于獲取各種加減運(yùn)算指令，根據(jù)指令在所述寄存器單元中獲取矩陣地址，然后，根據(jù)該矩陣地址在存儲(chǔ)單元中獲取相應(yīng)的矩陣，接著，根據(jù)獲取的矩陣進(jìn)行運(yùn)算，得到矩陣運(yùn)算結(jié)果，并將矩陣運(yùn)算結(jié)果存儲(chǔ)于高速暫存存儲(chǔ)器中。矩陣運(yùn)算單元負(fù)責(zé)裝置的所有矩陣加減運(yùn)算，包括但不限于矩陣加法操作、矩陣減法操作、矩陣加標(biāo)量操作和矩陣減標(biāo)量操作。矩陣加減運(yùn)算指令被送往該運(yùn)算單元執(zhí)行，所有的運(yùn)算部件均是并行的向量運(yùn)算部件，可以在同一時(shí)鐘并行地對(duì)一整列數(shù)據(jù)進(jìn)行相同的運(yùn)算。

圖2示出了根據(jù)本發(fā)明實(shí)施例的矩陣運(yùn)算單元的操作示意圖。其中1是由多個(gè)標(biāo)量運(yùn)算器構(gòu)成向量運(yùn)算器，2表示矩陣a在高速暫存存儲(chǔ)器中的存儲(chǔ)，3表示矩陣b在高速暫存存儲(chǔ)器中的存儲(chǔ)。兩矩陣均是m*n的大小，向量運(yùn)算器的寬度為k，即向量運(yùn)算器可以一次計(jì)算出長度為k的向量的加減運(yùn)算結(jié)果。運(yùn)算器每次分別從a和b中獲取長度為k的向量數(shù)據(jù)，在運(yùn)算器中執(zhí)行加減運(yùn)算，并將結(jié)果寫回，一個(gè)完整的矩陣加減可能需要進(jìn)行若干次上述計(jì)算。如圖2所示，矩陣加減部件由多個(gè)并行的標(biāo)量加減運(yùn)算器構(gòu)成，在執(zhí)行矩陣加減運(yùn)算的過程中，對(duì)于指定大小的兩矩陣數(shù)據(jù)，運(yùn)算單元依次讀入一定長度的數(shù)據(jù)，該長度等于標(biāo)量加減運(yùn)算器的個(gè)數(shù)。對(duì)應(yīng)的數(shù)據(jù)在對(duì)應(yīng)的標(biāo)量運(yùn)算器中執(zhí)行加減法運(yùn)算，每次計(jì)算矩陣數(shù)據(jù)中的一部分，并最終完成整個(gè)矩陣的加減法運(yùn)算。

在執(zhí)行矩陣加減標(biāo)量的過程中，運(yùn)算單元會(huì)將讀入寄存器中的標(biāo)量數(shù)據(jù)擴(kuò)展成與標(biāo)量運(yùn)算器個(gè)數(shù)等寬的向量數(shù)據(jù)，作為加減法的一個(gè)輸入，另一輸入與前述執(zhí)行矩陣加減的過程相同，從高速暫存存儲(chǔ)器中讀取一定長度的矩陣數(shù)據(jù)，與標(biāo)量擴(kuò)展后的向量執(zhí)行加減法運(yùn)算。

根據(jù)本發(fā)明的一種實(shí)施方式，所述矩陣加減法運(yùn)算裝置還包括：指令緩存單元，用于存儲(chǔ)待執(zhí)行的矩陣運(yùn)算指令。指令在執(zhí)行過程中，同時(shí)也被緩存在指令緩存單元中，當(dāng)一條指令執(zhí)行完之后，該指令將被提交。

根據(jù)本發(fā)明的一種實(shí)施方式，所述裝置中的控制單元還包括：指令隊(duì)列模塊，用于對(duì)譯碼后的矩陣運(yùn)算指令進(jìn)行順序存儲(chǔ)，并在獲得矩陣運(yùn)算指令所需的標(biāo)量數(shù)據(jù)后，將矩陣運(yùn)算指令以及標(biāo)量數(shù)據(jù)送至依賴關(guān)系處理模塊。

根據(jù)本發(fā)明的一種實(shí)施方式，所述裝置中的控制單元還包括：依賴關(guān)系處理單元，用于在矩陣運(yùn)算單元獲取指令前，判斷該運(yùn)算指令與之前未完成運(yùn)算指令之間是否存在依賴關(guān)系，如是否訪問相同的矩陣存儲(chǔ)地址，若是，將該運(yùn)算指令送至存儲(chǔ)隊(duì)列模塊中，待前一運(yùn)算指令執(zhí)行完畢后，將存儲(chǔ)隊(duì)列中的該運(yùn)算指令提供給所述矩陣運(yùn)算單元；否則，直接將該運(yùn)算指令提供給所述矩陣運(yùn)算單元。具體地，矩陣運(yùn)算指令需要訪問高速暫存存儲(chǔ)器時(shí)，前后指令可能會(huì)訪問同一塊存儲(chǔ)空間，為了保證指令執(zhí)行結(jié)果的正確性，當(dāng)前指令如果被檢測(cè)到與之前的指令的數(shù)據(jù)存在依賴關(guān)系，該指令必須在存儲(chǔ)隊(duì)列內(nèi)等待至依賴關(guān)系被消除。

根據(jù)本發(fā)明的一種實(shí)施方式，所述裝置中的控制單元還包括：存儲(chǔ)隊(duì)列模塊，該模塊包括一個(gè)有序隊(duì)列，與之前指令在數(shù)據(jù)上有依賴關(guān)系的指令被存儲(chǔ)在該有序隊(duì)列內(nèi)直至依賴關(guān)系被消除，在依賴關(guān)系消除后，其將運(yùn)算指令提供給矩陣運(yùn)算單元。

根據(jù)本發(fā)明的一種實(shí)施方式，裝置還包括：輸入輸出單元，用于將矩陣存儲(chǔ)于存儲(chǔ)單元，或者，從存儲(chǔ)單元中獲取運(yùn)算結(jié)果。其中，輸入輸出單元可直接訪問存儲(chǔ)單元，負(fù)責(zé)從內(nèi)存向存儲(chǔ)單元讀取矩陣數(shù)據(jù)或從存儲(chǔ)單元向內(nèi)存寫入矩陣數(shù)據(jù)。

根據(jù)本發(fā)明的一種實(shí)施方式，用于本發(fā)明裝置的指令集采用load/store(加載/存儲(chǔ))結(jié)構(gòu)，矩陣運(yùn)算單元不會(huì)對(duì)內(nèi)存中的數(shù)據(jù)進(jìn)行操作。本指令集采用精簡指令集架構(gòu)，指令集只提供最基本的矩陣運(yùn)算操作，復(fù)雜的矩陣運(yùn)算都由這些簡單指令通過組合進(jìn)行模擬，使得可以在高時(shí)鐘頻率下單周期執(zhí)行指令。

在本裝置執(zhí)行矩陣運(yùn)算的過程中，裝置取出指令進(jìn)行譯碼，然后送至指令隊(duì)列存儲(chǔ)，根據(jù)譯碼結(jié)果，獲取指令中的各個(gè)參數(shù)，這些參數(shù)可以是直接寫在指令的操作域中，也可以是根據(jù)指令操作域中的寄存器號(hào)從指定的寄存器中讀取。這種使用寄存器存儲(chǔ)參數(shù)的好處是無需改變指令本身，只要用指令改變寄存器中的值，就可以實(shí)現(xiàn)大部分的循環(huán)，因此大大節(jié)省了在解決某些實(shí)際問題時(shí)所需要的指令條數(shù)。在全部操作數(shù)之后，依賴關(guān)系處理單元會(huì)判斷指令實(shí)際需要使用的數(shù)據(jù)與之前指令中是否存在依賴關(guān)系，這決定了這條指令是否可以被立即發(fā)送至矩陣運(yùn)算單元中執(zhí)行。一旦發(fā)現(xiàn)與之前的數(shù)據(jù)之間存在依賴關(guān)系，則該條指令必須等到它依賴的指令執(zhí)行完畢之后才可以送至矩陣運(yùn)算單元執(zhí)行。在定制的矩陣運(yùn)算單元中，該條指令將快速執(zhí)行完畢，并將結(jié)果，即生成的結(jié)果矩陣寫回至指令提供的地址，該條指令執(zhí)行完畢。

圖3是本發(fā)明提供的矩陣加減運(yùn)算指令的格式示意圖，如圖3所示，矩陣加減運(yùn)算指令包括一操作碼和至少一操作域，其中，操作碼用于指示該矩陣運(yùn)算指令的功能，矩陣運(yùn)算單元通過識(shí)別該操作碼可進(jìn)行不同的矩陣運(yùn)算，操作域用于指示該矩陣運(yùn)算指令的數(shù)據(jù)信息，其中，數(shù)據(jù)信息可以是立即數(shù)或寄存器號(hào)，例如，要獲取一個(gè)矩陣時(shí)，根據(jù)寄存器號(hào)可以在相應(yīng)的寄存器中獲取矩陣起始地址和矩陣長度，再根據(jù)矩陣起始地址和矩陣長度在存儲(chǔ)單元中獲取相應(yīng)地址存放的矩陣。

有下列幾種矩陣加減運(yùn)算指令：

矩陣加法指令(ma)，根據(jù)該指令，裝置從高速暫存存儲(chǔ)器的指定地址取出指定大小的矩陣數(shù)據(jù)，在矩陣運(yùn)算單元中進(jìn)行矩陣加法運(yùn)算，并將計(jì)算結(jié)果寫回至高速暫存存儲(chǔ)器的指定地址；值得說明的是，向量可以作為特殊形式的矩陣(只有一行元素的矩陣)存儲(chǔ)于高速暫存存儲(chǔ)器中。

矩陣減法指令(ms)，根據(jù)該指令，裝置從高速暫存存儲(chǔ)器的指定地址取出指定大小的矩陣數(shù)據(jù)，在矩陣運(yùn)算單元中進(jìn)行矩陣減法運(yùn)算，并將計(jì)算結(jié)果寫回至高速暫存存儲(chǔ)器的指定地址；值得說明的是，向量可以作為特殊形式的矩陣(只有一行元素的矩陣)存儲(chǔ)于高速暫存存儲(chǔ)器中。

矩陣加標(biāo)量指令(mas)，根據(jù)該指令，裝置從高速暫存存儲(chǔ)器的指定地址取出指定大小的矩陣數(shù)據(jù)，從標(biāo)量寄存器堆的指定地址中取出標(biāo)量數(shù)據(jù)，在矩陣運(yùn)算單元中進(jìn)行矩陣加標(biāo)量的運(yùn)算，并將計(jì)算結(jié)果寫回至高速暫存存儲(chǔ)器的指定地址，需要說明的是，標(biāo)量寄存器堆不僅存儲(chǔ)有矩陣的地址，還存儲(chǔ)有標(biāo)量數(shù)據(jù)。

矩陣減標(biāo)量指令(mss)，根據(jù)該指令，裝置從高速暫存存儲(chǔ)器的指定地址取出指定大小的矩陣數(shù)據(jù)，從標(biāo)量寄存器堆的指定地址中取出標(biāo)量數(shù)據(jù)，在矩陣運(yùn)算單元中進(jìn)行矩陣減標(biāo)量的運(yùn)算，并將計(jì)算結(jié)果寫回至高速暫存存儲(chǔ)器的指定地址，需要說明的是，標(biāo)量寄存器堆不僅存儲(chǔ)有矩陣的地址，還存儲(chǔ)有標(biāo)量數(shù)據(jù)。

圖4是本發(fā)明一實(shí)施例提供的矩陣運(yùn)算裝置的結(jié)構(gòu)示意圖，如圖4所示，裝置包括取指模塊、譯碼模塊、指令隊(duì)列模塊、標(biāo)量寄存器堆、依賴關(guān)系處理單元、存儲(chǔ)隊(duì)列模塊、矩陣運(yùn)算單元、高速暫存器、io內(nèi)存存取模塊；

取指模塊，該模塊負(fù)責(zé)從指令序列中取出下一條將要執(zhí)行的指令，并將該指令傳給譯碼模塊；

譯碼模塊，該模塊負(fù)責(zé)對(duì)指令進(jìn)行譯碼，并將譯碼后指令傳給指令隊(duì)列；

指令隊(duì)列，用于暫存譯碼后的矩陣運(yùn)算指令，并從矩陣運(yùn)算指令或標(biāo)量寄存器獲得矩陣運(yùn)算指令運(yùn)算相關(guān)的標(biāo)量數(shù)據(jù)；獲得所述標(biāo)量數(shù)據(jù)后，將所述矩陣運(yùn)算指令送至依賴關(guān)系處理單元；

標(biāo)量寄存器堆，提供裝置在運(yùn)算過程中所需的標(biāo)量寄存器；標(biāo)量寄存器堆包括多個(gè)標(biāo)量寄存器，用于存儲(chǔ)矩陣運(yùn)算指令相關(guān)的標(biāo)量數(shù)據(jù)；

依賴關(guān)系處理單元，該模塊處理處理指令與前一條指令可能存在的存儲(chǔ)依賴關(guān)系。矩陣運(yùn)算指令會(huì)訪問高速暫存存儲(chǔ)器，前后指令可能會(huì)訪問同一塊存儲(chǔ)空間。即該單元會(huì)檢測(cè)當(dāng)前指令的輸入數(shù)據(jù)的存儲(chǔ)范圍和之前尚未執(zhí)行完成的指令的輸出數(shù)據(jù)的存儲(chǔ)范圍是否有重疊，有則說明該條指令在邏輯上需要使用前面指令的計(jì)算結(jié)果，因此它必須等到在它之前的所依賴的指令執(zhí)行完畢后才能夠開始執(zhí)行。在這個(gè)過程中，指令實(shí)際被暫存在下面的存儲(chǔ)隊(duì)列中。為了保證指令執(zhí)行結(jié)果的正確性，當(dāng)前指令如果被檢測(cè)到與之前的指令的數(shù)據(jù)存在依賴關(guān)系，該指令必須在存儲(chǔ)隊(duì)列內(nèi)等待至依賴關(guān)系被消除。

存儲(chǔ)隊(duì)列模塊，該模塊是一個(gè)有序隊(duì)列，與之前指令在數(shù)據(jù)上有依賴關(guān)系的指令被存儲(chǔ)在該隊(duì)列內(nèi)直至存儲(chǔ)關(guān)系被消除；

矩陣運(yùn)算單元，該模塊負(fù)責(zé)執(zhí)行矩陣的加減運(yùn)算；

高速暫存存儲(chǔ)器，該模塊是矩陣數(shù)據(jù)專用的暫存存儲(chǔ)裝置，能夠支持不同大小的矩陣數(shù)據(jù)；主要用于存儲(chǔ)輸入矩陣數(shù)據(jù)和輸出矩陣數(shù)據(jù)；

io內(nèi)存存取模塊，該模塊用于直接訪問高速暫存存儲(chǔ)器，負(fù)責(zé)從高速暫存存儲(chǔ)器中讀取數(shù)據(jù)或?qū)懭霐?shù)據(jù)。

圖5是本發(fā)明實(shí)施例提供的運(yùn)算裝置執(zhí)行矩陣加法指令的流程圖，如圖5所示，執(zhí)行矩陣加法指令的過程包括：

s1，取指模塊取出該條矩陣加法指令，并將該指令送往譯碼模塊。

s2，譯碼模塊對(duì)該矩陣加法指令譯碼，并將該矩陣加法指令送往指令隊(duì)列。

s3，在指令隊(duì)列中，該矩陣加法指令從矩陣加法指令本身或從標(biāo)量寄存器堆中獲取指令中四個(gè)操作域所對(duì)應(yīng)的標(biāo)量數(shù)據(jù)，包括輸入矩陣地址、輸入矩陣長度、輸出矩陣地址。

s4，在取得需要的標(biāo)量數(shù)據(jù)后，該指令被送往依賴關(guān)系處理單元。依賴關(guān)系處理單元分析該指令與前面的尚未執(zhí)行結(jié)束的指令在數(shù)據(jù)上是否存在依賴關(guān)系。如果存在依賴關(guān)系，則該條指令需要在存儲(chǔ)隊(duì)列中等待至其與前面的未執(zhí)行結(jié)束的指令在數(shù)據(jù)上不再存在依賴關(guān)系為止。

s5，依賴關(guān)系不存在后，該條矩陣加法指令被送往矩陣運(yùn)算單元。

s6，矩陣運(yùn)算單元根據(jù)輸入矩陣的地址和長度從高速暫存器中取出輸入矩陣數(shù)據(jù)，每次分別讀入兩輸入矩陣中一定位寬的對(duì)應(yīng)數(shù)據(jù)，在矩陣加減運(yùn)算器中對(duì)對(duì)齊的兩列數(shù)據(jù)進(jìn)行加法運(yùn)算，不斷重復(fù)，在矩陣運(yùn)算單元中完成整個(gè)矩陣加法的運(yùn)算。

s7，運(yùn)算完成后，將運(yùn)算結(jié)果寫回至高速暫存存儲(chǔ)器的指定地址。

圖6是本發(fā)明實(shí)施例提供的運(yùn)算裝置執(zhí)行矩陣減標(biāo)量指令的流程圖，如圖6所示，執(zhí)行矩陣減標(biāo)量指令的過程包括：

s1’，取指模塊取出該條矩陣減標(biāo)量指令，并將該指令送往譯碼模塊。

s2’，譯碼模塊對(duì)該矩陣減標(biāo)量指令譯碼，并將指令送往指令隊(duì)列。

s3’，在指令隊(duì)列中，該矩陣減標(biāo)量指令從指令本身或從標(biāo)量寄存器堆中獲取指令中四個(gè)操作域所對(duì)應(yīng)的標(biāo)量數(shù)據(jù)，包括輸入矩陣地址、輸入矩陣長度、輸入標(biāo)量和輸出矩陣地址。

s4’，在取得需要的標(biāo)量數(shù)據(jù)后，該指令被送往依賴關(guān)系處理單元。依賴關(guān)系處理單元分析該指令與前面的尚未執(zhí)行結(jié)束的指令在數(shù)據(jù)上是否存在依賴關(guān)系。如果存在依賴關(guān)系，則該條指令需要在存儲(chǔ)隊(duì)列中等待至其與前面的未執(zhí)行結(jié)束的指令在數(shù)據(jù)上不再存在依賴關(guān)系為止。

s5’，依賴關(guān)系不存在后，該條矩陣減標(biāo)量指令被送往矩陣運(yùn)算單元。s6’，矩陣運(yùn)算單元每次依次讀入矩陣數(shù)據(jù)的一部分，在矩陣加減標(biāo)量部件中進(jìn)行一列數(shù)據(jù)同時(shí)減去寄存器中存儲(chǔ)的標(biāo)量數(shù)據(jù)的操作，不斷重復(fù)，完成整個(gè)矩陣減標(biāo)量的運(yùn)算。

s7’，運(yùn)算完成后，將運(yùn)算結(jié)果寫回至高速暫存存儲(chǔ)器的指定地址。

綜上所述，本發(fā)明提供矩陣運(yùn)算裝置，并配合相應(yīng)的指令，能夠很好地解決當(dāng)前計(jì)算機(jī)領(lǐng)域越來越多的算法包含大量矩陣加減運(yùn)算的問題，相比于已有的傳統(tǒng)解決方案，本發(fā)明可以具有指令精簡、使用方便、支持的矩陣規(guī)模靈活、片上緩存充足等優(yōu)點(diǎn)。本發(fā)明可以用于多種包含大量矩陣加減運(yùn)算的計(jì)算任務(wù)。

以上所述的具體實(shí)施例，對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明，所應(yīng)理解的是，以上所述僅為本發(fā)明的具體實(shí)施例而已，并不用于限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張瀟;劉少禮;陳天石;陳云霽
技術(shù)所有人：北京中科寒武紀(jì)科技有限公司
我是此專利的發(fā)明人

上一篇：鎧裝電伴熱帶及加工該伴熱帶的裝置的制作方法
上一篇：一種強(qiáng)導(dǎo)熱性發(fā)熱棒的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

矩陣運(yùn)算相關(guān)技術(shù)

矩陣的乘法運(yùn)算相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于執(zhí)行矩陣加/減運(yùn)算的裝置和方法與流程