專利名稱:一種可擴(kuò)展向量運(yùn)算簇的制作方法
技術(shù)領(lǐng)域:
本發(fā)明主要涉及到執(zhí)行大規(guī)模并行數(shù)據(jù)處理的數(shù)字信號處理器領(lǐng)域,特指一種 可擴(kuò)展向量運(yùn)算簇,即一種支持向量壓縮指令、內(nèi)部集成緊耦合擴(kuò)展功能單元、且向量 寬度可配置的可擴(kuò)展向量運(yùn)算簇。
背景技術(shù):
當(dāng)前快速發(fā)展的無線通信、視頻圖像、雷達(dá)信號處理應(yīng)用中,算法對微處理器 的性能要求越來越高。針對算法程序中大量數(shù)據(jù)的并行性,當(dāng)前數(shù)字信號處理器結(jié)構(gòu)在 靈活性、功耗和性能方面采取不同的折中策略,提出了各種解決方案。如流處理器,陣 列處理器,向量處理器等。單指令流多數(shù)據(jù)流(SIMD)流處理器的代表Imagine,內(nèi)部包 含了 8個(gè)算術(shù)簇,具有較強(qiáng)的計(jì)算能力,但在SIMD簇?cái)?shù)目、功能部件類型設(shè)置、數(shù)據(jù)通 路等方面,未針對數(shù)字信號處理領(lǐng)域進(jìn)行專門優(yōu)化,且包含了大量對浮點(diǎn)運(yùn)算的支持, 功耗顯得過高。陣列處理器集成了大量運(yùn)算陣列,同樣提供了強(qiáng)大的運(yùn)算潛力,但在算 法并行分解,算法映射和數(shù)據(jù)流優(yōu)化上難度較大。向量處理器集成向量運(yùn)算簇,以SIMD 的方式在每始終周期同時(shí)對多組源操作數(shù)進(jìn)行處理,能夠在低頻下提供強(qiáng)的運(yùn)算能力, 缺點(diǎn)是增加向量運(yùn)算簇的寬度,使得處理器中的數(shù)據(jù)流數(shù)目增多,能夠利用硬件資源實(shí) 現(xiàn)大的數(shù)據(jù)處理量。但若并行性不足夠大,小寬度的向量操作會導(dǎo)致硬件利用率低。另,針對數(shù)字信號處理算法中涉及的各類運(yùn)算,除基礎(chǔ)運(yùn)算外,涉及各類復(fù)雜 運(yùn)算類型,諸如復(fù)數(shù)運(yùn)算,矩陣運(yùn)算,除法運(yùn)算,高精度浮點(diǎn)運(yùn)算等,若用基礎(chǔ)運(yùn)算結(jié) 構(gòu)支持,需反復(fù)占用大量的處理器資源,且編碼長度較大,需使用通用指令的較長序列 計(jì)算特定任務(wù)的必要結(jié)果。為此,對于運(yùn)算結(jié)構(gòu),已有研究廣泛采用了集成專用增強(qiáng)型 指令集合,耦合可重配置功能單元等方法。但也因此帶來了以下問題緊耦合可重配置 功能單元,擴(kuò)展的功能單元與基礎(chǔ)功能單元的操作缺少并行性,擴(kuò)展操作類型較少,不 適用于SIMD向量操作,兩者之間接口復(fù)雜不靈活;松耦合可重配置功能單元,數(shù)據(jù)交 互帶寬低,延遲時(shí)間大。綜上所述,需針對數(shù)字信號處理中各類高密集運(yùn)算子任務(wù),如矩陣乘,矩陣求 逆,快速傅里葉變換算法FFT/IFFT等,提供一種易進(jìn)行算法分解映射,可充分利用可并 行運(yùn)算資源,能夠?qū)崟r(shí)處理大規(guī)模數(shù)據(jù)的運(yùn)算簇,以滿足應(yīng)用需求。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題就在于針對現(xiàn)有技術(shù)存在的技術(shù)問題,本發(fā)明提供 一種原理簡單、適用范圍廣、處理效果好、能夠有效支持最前沿各類數(shù)字信號處理算法 的可擴(kuò)展向量運(yùn)算簇。為解決上述技術(shù)問題,本發(fā)明采用以下技術(shù)方案—種可擴(kuò)展向量運(yùn)算簇,其特征在于包括向量處理陣列、支持壓縮指令的向 量譯碼器、用于存放多種數(shù)據(jù)類型的局部向量寄存器文件/累加器以及支持行列訪問的矩陣寄存器文件,所述向量處理陣列包括2 64個(gè)同構(gòu)向量處理單元,所述每個(gè)向量處 理單元擁有獨(dú)立的局部向量寄存器文件/累加器并共享矩陣寄存器文件;所述局部向量 寄存器文件/累加器和矩陣寄存器文件提供指令操作的數(shù)據(jù)來源和目的。作為本發(fā)明的進(jìn)一步改進(jìn)所述向量處理單元包括三個(gè)緊耦合可擴(kuò)展的向量功能單元,作為所述可擴(kuò)展向 量運(yùn)算簇三條可配置的功能執(zhí)行流水線。所述三個(gè)緊耦合可擴(kuò)展的向量功能單元由三個(gè)基礎(chǔ)向量功能單元和三個(gè)擴(kuò)展功 能單元一一對應(yīng)緊耦合而成,每一對功能單元擁有相同的數(shù)據(jù)通路。所述三條功能執(zhí)行流水線的功能分別為第一條執(zhí)行流水線,完成諸如定點(diǎn)乘 加、浮點(diǎn)乘加類指令;第二條執(zhí)行流水線,完成定點(diǎn)、浮點(diǎn)算術(shù)邏輯運(yùn)算;第三條執(zhí)行 流水線完成位操作類指令。與現(xiàn)有技術(shù)相比,本發(fā)明可大規(guī)模并行執(zhí)行不同向量長度、不同粒度、不同類 型、不同周期的基礎(chǔ)和復(fù)雜數(shù)據(jù)處理,能高效實(shí)現(xiàn)各類數(shù)字信號處理算法,并有自己獨(dú) 有的優(yōu)點(diǎn)(1)降低編程代碼空間。該向量運(yùn)算簇(VPU),可執(zhí)行壓縮的16/32位格式指 令,同時(shí)結(jié)合VLIW架構(gòu)和向量操作特征,支持高代碼密度。在有限的硬件開銷下,提 高應(yīng)用性能。(2)功能流水線可配置,支持復(fù)雜數(shù)據(jù)類型的深流水線化處理??膳渲玫膱?zhí)行流 水線,無需增加附加的寄存器和寬數(shù)據(jù)路徑,只需根據(jù)應(yīng)用需求的不同,選擇不同的功 能部件(基礎(chǔ)功能單元或緊耦合的擴(kuò)展功能單元)填充流水線,同一執(zhí)行流水所對應(yīng)的功 能部件共享相同的數(shù)據(jù)通路。擴(kuò)展功能單元包含特定的狀態(tài)寄存器,擴(kuò)展功能單元與基 礎(chǔ)功能單元之間采用旁路和互鎖機(jī)制,保證數(shù)據(jù)的正確性和運(yùn)算的并行性。(3)提高編碼效率。VPU基于基礎(chǔ)結(jié)構(gòu),針對數(shù)字信號處理算法的運(yùn)算特點(diǎn), 直接支持復(fù)數(shù)乘法、定點(diǎn)和浮點(diǎn)矩陣乘法、定點(diǎn)除法等復(fù)合操作,從而減少常用數(shù)字信 號處理算法的動態(tài)指令條數(shù)。(4)提供豐富的操作數(shù)類型,支持多種精度數(shù)據(jù)的處理。操作數(shù)來源可為向量 累加器,向量局部寄存器文件,全局矩陣寄存器文件等,能夠支持8/16/32/40位定點(diǎn)數(shù) 據(jù),及32位或64位浮點(diǎn)數(shù)據(jù)的高效運(yùn)算。(5)應(yīng)用更靈活性。每個(gè)VPE內(nèi)部提供多條功能執(zhí)行流水線,擴(kuò)充指令的并行 開發(fā);SIMD功能部件,擴(kuò)充數(shù)據(jù)的并行開發(fā);從而支持更小粒度的數(shù)據(jù)并行處理。
圖1是具有本發(fā)明可擴(kuò)展向量運(yùn)算簇的微體系結(jié)構(gòu)總體框架示意圖;圖2是可擴(kuò)展向量運(yùn)算簇支持的壓縮指令包的實(shí)例示意圖;圖3是緊耦合可擴(kuò)展的向量功能單元數(shù)據(jù)通路示意圖;圖4是基于基礎(chǔ)結(jié)構(gòu)支持復(fù)雜運(yùn)算的IMAC單元結(jié)構(gòu)示意圖;圖5是基于可擴(kuò)展向量運(yùn)算簇高效完成2048點(diǎn)FFT算法實(shí)例示意圖;圖6是在具體實(shí)例中算法中每一級系數(shù)使用情況列表;圖7是在具體實(shí)例中算法在硬件結(jié)構(gòu)上的映射實(shí)例示意圖。
具體實(shí)施例方式以下將結(jié)合說明書附圖和具體實(shí)施例對本發(fā)明做進(jìn)一步詳細(xì)說明。如圖1所示,為構(gòu)建具有本發(fā)明可擴(kuò)展向量運(yùn)算簇的微體系結(jié)構(gòu)總體框架示意 圖。處理器以開發(fā)許多信號處理器中豐富的數(shù)據(jù)并行性為目的。整個(gè)結(jié)構(gòu)包括標(biāo)量處理 單元102、本發(fā)明的可擴(kuò)展向量運(yùn)算簇、地址產(chǎn)生單元AGU及向量存儲器107。指令派 發(fā)單元派發(fā)出的標(biāo)量或向量指令,派發(fā)到相應(yīng)的處理單元中。本發(fā)明的可擴(kuò)展向量運(yùn)算 簇(VPU)是和標(biāo)量單元(SPU)同級的數(shù)據(jù)處理單元。兩者接收由指令派發(fā)部件派發(fā)的 指令,其中VPU接收派發(fā)部件派發(fā)的向量運(yùn)算類指令,同時(shí)獲取向量長度信息VL,配置 VPE的狀態(tài),每個(gè)VPE可配置為兩種狀態(tài),激活狀態(tài)和關(guān)閉狀態(tài),以滿足數(shù)據(jù)處理中不 同并行度的需求。本發(fā)明可擴(kuò)展向量運(yùn)算簇包括向量處理陣列101、支持壓縮指令的向量譯碼器 104、用于存放多種數(shù)據(jù)類型的局部向量寄存器文件/累加器105以及支持行列訪問的矩 陣寄存器文件106,向量處理陣列101包括2 64個(gè)同構(gòu)向量處理單元103,每個(gè)向量處 理單元103擁有獨(dú)立的局部向量寄存器文件/累加器105并共享矩陣寄存器文件106 ;局 部向量寄存器文件/累加器105和矩陣寄存器文件106提供指令操作的數(shù)據(jù)來源和目的。 向量譯碼器104用于支持不能長度的向量指令的譯碼執(zhí)行。局部向量寄存器文件/累加 器105和全局矩陣寄存器文件106用來提供指令操作的數(shù)據(jù)來源和目的。支持壓縮指令 的向量譯碼器104,能夠同時(shí)進(jìn)行16位向量壓縮指令或32位常規(guī)向量指令的譯碼,支持 混合長度向量指令的執(zhí)行,從而有效降低代碼空間。局部向量寄存器文件/累加器105 可作為VPE內(nèi)功能單元的操作數(shù)來源,具有局部性,每個(gè)VPE訪問向量寄存器或累加器 的一組元素。不可交叉訪問,寄存器間的數(shù)據(jù)交互,可通過混洗網(wǎng)絡(luò)或規(guī)約完成。局部 向量寄存器文件/累加器105,接收向量存儲器的數(shù)據(jù),并將需要輸出的數(shù)據(jù)送給向量存 儲器。支持行列訪問的全局矩陣寄存器文件106用于存放和提供向量微處理器運(yùn)行時(shí)所 需的向量數(shù)據(jù)。通過配合向量運(yùn)算指令,可更好支持矩陣或向量數(shù)據(jù)運(yùn)算,加快數(shù)據(jù)處 理的速度。VPU接收派發(fā)出的向量運(yùn)算指令,經(jīng)過向量譯碼器104譯碼后,在SIMD指令 的支持下,提供并行執(zhí)行多組源操作數(shù)的算術(shù)邏輯運(yùn)算或訪存操作。VPU從向量存儲器 107輸入向量數(shù)據(jù),并將向量數(shù)據(jù)輸出至向量存儲器107。每個(gè)VPE擁有獨(dú)立的局部寄存器文件/累加器105,共享矩陣寄存器文件106。 根據(jù)不同算法并行性的差異,N個(gè)VPE可由向量長度狀態(tài)寄存器,動態(tài)的配置為激活狀 態(tài)或關(guān)閉狀態(tài)。向量處理陣列101內(nèi)部,不同VPE間的數(shù)據(jù)可通過混洗網(wǎng)絡(luò)或歸約網(wǎng)絡(luò) 交互,標(biāo)向量間的數(shù)據(jù)可通過混洗網(wǎng)絡(luò)交互,向量存儲器107可被標(biāo)量向量處理單元訪 問。VPU內(nèi)部擁有三條可配置的功能流水線,體現(xiàn)在硬件結(jié)構(gòu)上為三個(gè)緊耦合可擴(kuò) 展的向量功能單元108、109和110。三個(gè)緊耦合可擴(kuò)展的向量功能單元,由三個(gè)基礎(chǔ)向 量功能單元和三個(gè)擴(kuò)展功能單元,一一對應(yīng)緊耦合而成,每一對功能單元擁有相同的數(shù) 據(jù)通路??蓴U(kuò)展的向量功能單元,基于基礎(chǔ)結(jié)構(gòu),提供了對復(fù)雜運(yùn)算指令的支持,如浮 點(diǎn)運(yùn)算,復(fù)數(shù)乘等。
向量運(yùn)算簇(VPU)可并行執(zhí)行包括3條向量運(yùn)算指令。其中,第一條執(zhí)行流水 線,完成諸如定點(diǎn)乘加、浮點(diǎn)乘加類指令,第二條執(zhí)行流水線完成定點(diǎn)、浮點(diǎn)算術(shù)邏輯 運(yùn)算,第三條執(zhí)行流水線完成位操作類指令。因此,向量運(yùn)算簇每周期可處理數(shù)據(jù)流數(shù) 目=VPE數(shù)目XVPU功能流水線數(shù)目X功能部件SIMD數(shù)據(jù)路徑數(shù)目X時(shí)鐘速率。如圖2所示,為可擴(kuò)展向量運(yùn)算簇支持的壓縮指令包的實(shí)例示意圖。壓縮指令 包,包含若干個(gè)執(zhí)行包。以執(zhí)行包1為例,共有5條指令,包含2條32位指令和3條16 位指令,其中每條指令均可為標(biāo)量或者向量指令。派發(fā)單元將其中的向量指令,派發(fā)到 向量處理陣列101。因此向量指令可能為若干條并行的16壓縮向量指令或32位常規(guī)向量 指令。在保持運(yùn)算簇硬件代價(jià)一定的前提下,只需提供支持混合指令的向量譯碼器104, 即可復(fù)用功能單元,從而支持高代碼密度,降低編程代碼空間和指令cache失效率。如圖3所示,為緊耦合可擴(kuò)展的向量功能單元數(shù)據(jù)通路示意圖。VPU包括至少三條可配置的功能執(zhí)行流水線,因此VPE包括至少三條可配置的 分執(zhí)行流水線,每個(gè)VPE接收向量運(yùn)算指令,并根據(jù)譯碼信號,為三條執(zhí)行流水獲取執(zhí) 行操作數(shù),進(jìn)行操作數(shù)準(zhǔn)備。每條執(zhí)行流水對應(yīng)的功能部件,其可配置性體現(xiàn)在,每條執(zhí)行流水,提供一個(gè) 基礎(chǔ)功能部件和一個(gè)擴(kuò)展功能部件。執(zhí)行流水1,包含基礎(chǔ)功能的定點(diǎn)IMAC部件,和緊耦合的擴(kuò)展功能FMAC部 件;執(zhí)行流水2包含基礎(chǔ)功能部件IALU和擴(kuò)展功能部件FALU ;執(zhí)行流水三包含基礎(chǔ)功 能部件SHIFT和擴(kuò)展功能部件PACK/BP。擴(kuò)展功能FMAC部件用于計(jì)算復(fù)雜運(yùn)算,可 具有更深的流水線;具有多種類型的復(fù)雜源操作數(shù),如雙精度浮點(diǎn)數(shù);有特定的狀態(tài)寄 存器,用于記錄運(yùn)算中產(chǎn)生的標(biāo)志信息。緊耦合的擴(kuò)展部件同樣支持向量操作。擴(kuò)展部 件和基礎(chǔ)部件,具有相同的數(shù)據(jù)通路,共享操作數(shù)輸入輸出端口。同一執(zhí)行流水對應(yīng)線 的兩個(gè)部件,不能在同一周期并行執(zhí)行和寫回,但支持軟件流水調(diào)度并行;不同執(zhí)行流 水線的各個(gè)功能部件可并行執(zhí)行和寫回?;A(chǔ)部件和擴(kuò)展部件之間的數(shù)據(jù)交互,通過互 鎖和旁路機(jī)制保證正確性??筛鶕?jù)應(yīng)用需求,選擇其中一個(gè)部件填充執(zhí)行流水線。所有 功能子部件支持SIMD模式的操作,如IMAC部件,可支持一個(gè)40位、一個(gè)32位、兩個(gè) 16位、四個(gè)8位的乘累加操作,支持一個(gè)32位復(fù)數(shù)乘法操作。執(zhí)行流水1完成SIMD的MAC類指令的基礎(chǔ)運(yùn)算和擴(kuò)展復(fù)雜操作,具體的可支 持定點(diǎn)乘累加,復(fù)數(shù)乘,浮點(diǎn)乘累加操作,為支持累加操作,操作數(shù)可為累加器。執(zhí)行流水2完成SIMD的ALU類指令的基礎(chǔ)運(yùn)算和擴(kuò)展復(fù)雜操作,具體的可支 持定點(diǎn)算術(shù)邏輯操作,復(fù)數(shù)/浮點(diǎn)算術(shù)邏輯操作,為支持累加,操作數(shù)可為累加器。執(zhí)行流水3完成SIMD的位操作類指令的基礎(chǔ)運(yùn)算和擴(kuò)展復(fù)雜操作,具體的可支 持移位,打包解包,位操作等。如圖4所示,為本發(fā)明的一個(gè)實(shí)例基礎(chǔ)功能單元,基于基礎(chǔ)結(jié)構(gòu)支持復(fù)雜運(yùn)算 的IMAC部件結(jié)構(gòu)圖。共四個(gè)操作數(shù)來源,其中乘法的操作數(shù)來自于局部寄存器文件或 矩陣寄存器,加法器來源為部分積或累加器。圖中假設(shè)srcl和src2為兩個(gè)復(fù)數(shù),操作數(shù)來源于局部寄存器105或矩陣寄存器 106,其中復(fù)數(shù)srcl = A+Bi,復(fù)數(shù)src2 = C+Di。于是四個(gè)16位乘法器分別計(jì)算復(fù)數(shù) 乘法的AXC、BXD、AXD、BXC。兩個(gè)加法器完成一次復(fù)數(shù)乘法的實(shí)部和虛部計(jì)算AXC-BXD、AXD+BXC。同時(shí)為了支持非復(fù)數(shù)快速乘累加運(yùn)算,加法器來源可來自 于累加器AC2和AC3。結(jié)果輸出寬度為2X40bit、2X32bit,32bit結(jié)果可寫回局部寄存 器、累加器105,或矩陣寄存器文件106。因此,基于定點(diǎn)SIMD乘加部件,能夠支持快 速流水的復(fù)數(shù)乘法操作。圖5是基于可擴(kuò)展向量運(yùn)算簇高效完成2048點(diǎn)FFT算法實(shí)例示意圖,圖6是在 具體實(shí)例中算法中每一級系數(shù)使用情況列表,圖7是在具體實(shí)例中算法在硬件結(jié)構(gòu)上的 映射實(shí)例示意圖。FFT的主要算法是對復(fù)數(shù)的乘加操作,每一級蝶形運(yùn)算對應(yīng)的偽代碼如下T.real = (xin[k+B].real*w_real-xin[k+B].imag*w_imag);T.imag = (xin[k+B].real*w—imag+xin[k+B].imag*w—real);T.real = (T.real+16384) >> 15 ;T.imag = (T.imag+16384) >> 15 ;xin[k+B].real = xin[k].real_T.real ;xin[k+B].imag = xin[k].imag-T.imag ;xin[k].real = xin[k].real+T.real ;xin[k].imag = xin[k].imag+T.imag ;其中xin[]表示2048點(diǎn)數(shù)據(jù),w表示蝶形運(yùn)算的系數(shù)。將2048點(diǎn)FFT算法在可擴(kuò)展向量運(yùn)算簇上映射,并假設(shè)此時(shí)VPU內(nèi)16個(gè)VPE 激活。16個(gè)VPE并行計(jì)算,那么,每個(gè)VPE運(yùn)算向量存儲器VM存放連續(xù)的128點(diǎn)數(shù) 據(jù),于是前7級蝶形運(yùn)算,可在16個(gè)VPE內(nèi)并行完成,同一時(shí)刻每個(gè)VPE內(nèi)使用的系數(shù) 相同。將算法分解可知,要快速的進(jìn)行FFT運(yùn)算,向量運(yùn)算簇需支持復(fù)數(shù)乘法指令、 移位指令、復(fù)數(shù)帶飽和加法指令的并行執(zhí)行,而可擴(kuò)展向量運(yùn)算簇內(nèi)包含的三條功能流 水線,結(jié)構(gòu)上分成三大向量功能單元MAC單元108、ALU單元109和BP位處理單元 110,很好的滿足了這一需求。使得前7級FFT運(yùn)算在現(xiàn)有結(jié)構(gòu)中大規(guī)模并行執(zhí)行。后4級蝶形運(yùn)算,同一時(shí)刻每個(gè)VPE內(nèi)所使用的系數(shù)不完全相同,原因是同一 系數(shù)參加的蝶形運(yùn)算的總次數(shù)小于16。為了最大程度的開發(fā)VPE的并行性,在進(jìn)行后4 級運(yùn)算時(shí),結(jié)合VPE間的數(shù)據(jù)混洗,完成與前7級相同的運(yùn)算。同樣,基于本發(fā)明可擴(kuò)展向量運(yùn)算簇的硬件結(jié)構(gòu),可快速靈活的實(shí)現(xiàn)復(fù)數(shù)或浮 點(diǎn)矩陣乘或除,IFFT,DCT, FIR等一系列數(shù)字信號處理算法。減少常用數(shù)字信號處理 算法的動態(tài)指令條數(shù),有效提高編碼效率。以上僅是本發(fā)明的優(yōu)選實(shí)施方式,本發(fā)明的保護(hù)范圍并不僅局限于上述實(shí)施 例,凡屬于本發(fā)明思路下的技術(shù)方案均屬于本發(fā)明的保護(hù)范圍。應(yīng)當(dāng)指出,對于本技術(shù) 領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理前提下的若干改進(jìn)和潤飾,應(yīng)視為本發(fā) 明的保護(hù)范圍。
權(quán)利要求
1.一種可擴(kuò)展向量運(yùn)算簇,其特征在于包括向量處理陣列(101)、支持壓縮指令的 向量譯碼器(104)、用于存放多種數(shù)據(jù)類型的局部向量寄存器文件/累加器(105)以及支 持行列訪問的矩陣寄存器文件(106),所述向量處理陣列(101)包括2 64個(gè)同構(gòu)向量 處理單元(103),所述每個(gè)向量處理單元(103)擁有獨(dú)立的局部向量寄存器文件/累加器 (105)并共享矩陣寄存器文件(106);所述局部向量寄存器文件/累加器(105)和矩陣寄 存器文件(106)提供指令操作的數(shù)據(jù)來源和目的。
2.根據(jù)權(quán)利要求1所述的可擴(kuò)展向量運(yùn)算簇,其特征在于所述向量處理單元(103) 包括三個(gè)緊耦合可擴(kuò)展的向量功能單元,作為所述可擴(kuò)展向量運(yùn)算簇三條可配置的功能 執(zhí)行流水線。
3.根據(jù)權(quán)利要求2所述的可擴(kuò)展向量運(yùn)算簇,其特征在于所述三個(gè)緊耦合可擴(kuò)展 的向量功能單元由三個(gè)基礎(chǔ)向量功能單元和三個(gè)擴(kuò)展功能單元一一對應(yīng)緊耦合而成,每 一對功能單元擁有相同的數(shù)據(jù)通路。
4.根據(jù)權(quán)利要求2所述的可擴(kuò)展向量運(yùn)算簇,其特征在于所述三條功能執(zhí)行流水線的 功能分別為第一條執(zhí)行流水線,完成諸如定點(diǎn)乘加、浮點(diǎn)乘加類指令;第二條執(zhí)行流 水線,完成定點(diǎn)、浮點(diǎn)算術(shù)邏輯運(yùn)算;第三條執(zhí)行流水線完成位操作類指令。
全文摘要
一種可擴(kuò)展向量運(yùn)算簇,包括向量處理陣列、支持壓縮指令的向量譯碼器、用于存放多種數(shù)據(jù)類型的局部向量寄存器文件/累加器以及支持行列訪問的矩陣寄存器文件,所述向量處理陣列包括2~64個(gè)同構(gòu)向量處理單元,所述每個(gè)向量處理單元擁有獨(dú)立的局部向量寄存器文件/累加器并共享矩陣寄存器;所述局部向量寄存器文件/累加器和矩陣寄存器文件提供指令操作的數(shù)據(jù)來源和目的。本發(fā)明具有原理簡單、適用范圍廣、處理效果好、能夠有效支持最前沿各類數(shù)字信號處理算法等優(yōu)點(diǎn)。
文檔編號G06F9/38GK102012893SQ20101055940
公開日2011年4月13日 申請日期2010年11月25日 優(yōu)先權(quán)日2010年11月25日
發(fā)明者萬江華, 劉宗林, 劉蓬俠, 劉衡竹, 孫永節(jié), 楊惠, 許邦建, 郭陽, 陳書明, 魯建壯, 龔國輝 申請人:中國人民解放軍國防科學(xué)技術(shù)大學(xué)