異構(gòu)多核可編程系統(tǒng)及其內(nèi)存配置和計(jì)算單元的編程方法與流程

文檔序號(hào)：12905957閱讀：393來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

異構(gòu)多核可編程系統(tǒng)及其內(nèi)存配置和計(jì)算單元的編程方法與流程

本發(fā)明涉及異構(gòu)多核可編程系統(tǒng)領(lǐng)域，主要涉及在單顆現(xiàn)場(chǎng)可編程門(mén)陣列(fpga，field－programmablegatearray)芯片內(nèi)實(shí)現(xiàn)異構(gòu)多核可編程系統(tǒng)的設(shè)計(jì)方法、內(nèi)存分配、編程模型設(shè)計(jì)與開(kāi)放運(yùn)算語(yǔ)言(opencl，opencomputinglanguage)支持，更具體地說(shuō)，涉及一種在單顆fpga芯片內(nèi)實(shí)現(xiàn)的異構(gòu)多核可編程系統(tǒng)及其內(nèi)存配置方法和計(jì)算單元的編程方法。

背景技術(shù)：

異構(gòu)多核可編程系統(tǒng)是將結(jié)構(gòu)、功能、功耗、運(yùn)算性能不同的多個(gè)核心處理器集成在單顆芯片上，通過(guò)任務(wù)剖析與核心調(diào)度，將不同的任務(wù)分配給相應(yīng)的核心，使每個(gè)核心物盡其用，這種組織方式實(shí)現(xiàn)了資源的最佳化配置，且能降低整體功耗。由于在fpga平臺(tái)上實(shí)現(xiàn)異構(gòu)多核系統(tǒng)，其能量效率方面表現(xiàn)較高，且fpga的硬件可編程性可以使開(kāi)發(fā)者方便的搭建符合自身需求的數(shù)字系統(tǒng)。目前，常見(jiàn)的異構(gòu)模型有同種cpu+fpga上的硬件加速模塊組成，或單個(gè)cpu+單個(gè)dsp組成異構(gòu)系統(tǒng)。前者的硬件加速模塊，由于是在系統(tǒng)設(shè)計(jì)之初就確定了功能，設(shè)計(jì)完成后不能實(shí)現(xiàn)靈活的可編程性。后者其實(shí)還是在用單個(gè)核心做串行的數(shù)據(jù)運(yùn)算和處理，未達(dá)到并行處理的要求，不能充分展現(xiàn)系統(tǒng)的高效性。

在異構(gòu)多核可編程系統(tǒng)中，內(nèi)存的分配使用是關(guān)鍵問(wèn)題。如何保證多個(gè)計(jì)算單元無(wú)沖突的訪問(wèn)內(nèi)存，當(dāng)前有設(shè)計(jì)是給計(jì)算單元在fpga芯片上實(shí)現(xiàn)本地?cái)?shù)據(jù)和指令存儲(chǔ)器。然而fpga內(nèi)部的存儲(chǔ)器資源非常稀缺，因而限制了各個(gè)計(jì)算單元的本地存儲(chǔ)器大小，導(dǎo)致數(shù)據(jù)和指令空間的不夠用，這種本地存儲(chǔ)的方式在多計(jì)算單元的設(shè)計(jì)中尤為矛盾。而且在主機(jī)需要結(jié)果數(shù)據(jù)時(shí)，還需要從原有本地存儲(chǔ)中拷貝數(shù)據(jù)到主機(jī)內(nèi)存空間，數(shù)據(jù)搬移上產(chǎn)生了時(shí)間的消耗。

此外，異構(gòu)多核可編程系統(tǒng)的編程較復(fù)雜，有研究者提出“統(tǒng)一編程，分開(kāi)編譯”的編程模型，對(duì)于此種模型，需要為從核的變量和函數(shù)都添加特定的標(biāo)記，然后再設(shè)計(jì)相應(yīng)的分離解析程序。此種方式其實(shí)加大了編程的復(fù)雜性，并不能保證分離解析程序的準(zhǔn)確性、可靠性。

opencl是一個(gè)為異構(gòu)平臺(tái)編寫(xiě)程序的框架，此異構(gòu)平臺(tái)可由cpu，gpu或其他類型的處理器組成?，F(xiàn)在已成為行業(yè)規(guī)范。amd和nvidia都發(fā)布了支持opencl的圖形處理器及軟件開(kāi)發(fā)工具包(sdk，softwaredevelopmentkit)。美國(guó)fpga廠商英特爾和賽靈思公司，也推出了使支持opencl的開(kāi)發(fā)板卡，用以實(shí)現(xiàn)cpu+fpga的異構(gòu)并行計(jì)算。微軟在數(shù)據(jù)中心使用fpga加速計(jì)算任務(wù)。但是這只能針對(duì)于特定的板卡，開(kāi)發(fā)者對(duì)在fpga內(nèi)部的系統(tǒng)不可見(jiàn)也無(wú)法修改。

針對(duì)現(xiàn)有技術(shù)存在的上述問(wèn)題，業(yè)內(nèi)需要開(kāi)發(fā)一種具有大容量?jī)?nèi)存的異構(gòu)多核可編程系統(tǒng)，以及與之配套的內(nèi)存優(yōu)化配置方法和計(jì)算單元的編程方法。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明要解決的技術(shù)問(wèn)題在于，針對(duì)現(xiàn)有異構(gòu)多核可編程系統(tǒng)存在系統(tǒng)效率低、存儲(chǔ)空間小的缺陷，提供一種具有大容量存儲(chǔ)空間的在單顆fpga芯片內(nèi)實(shí)現(xiàn)的異構(gòu)多核可編程系統(tǒng)及其內(nèi)存配置方法。

本發(fā)明要解決另一技術(shù)問(wèn)題在于，針對(duì)現(xiàn)有異構(gòu)多核可編程系統(tǒng)存在的系統(tǒng)編程復(fù)雜的缺陷，提供一種在單顆fpga芯片內(nèi)實(shí)現(xiàn)的異構(gòu)多核可編程系統(tǒng)中計(jì)算單元的編程方法。

本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是：構(gòu)造一種在單顆fpga芯片內(nèi)實(shí)現(xiàn)的異構(gòu)多核可編程系統(tǒng)，包括一個(gè)主機(jī)和多個(gè)計(jì)算單元，還包括，

作為系統(tǒng)內(nèi)存配置給所述多個(gè)計(jì)算單元共享的外部ddr存儲(chǔ)器，其中為每個(gè)計(jì)算單元分配有一塊存儲(chǔ)空間，每個(gè)所述存儲(chǔ)空間用于存儲(chǔ)相應(yīng)計(jì)算單元的數(shù)據(jù)和指令。