基于封裝內(nèi)查找表的可編程處理器的制作方法

文檔序號(hào)：12915739閱讀：246來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及集成電路領(lǐng)域，更確切地說，涉及處理器。
背景技術(shù)：
：：傳統(tǒng)處理器采用基于邏輯的計(jì)算（logic-basedcomputation，簡(jiǎn)稱為lbc），它主要通過邏輯電路（如與非門等）來計(jì)算。邏輯電路適合實(shí)現(xiàn)算術(shù)運(yùn)算（如加法、減法和乘法），但對(duì)于非算術(shù)函數(shù)（如初等函數(shù)、特殊函數(shù)等）無能為力。非算術(shù)函數(shù)的高速高效實(shí)現(xiàn)面臨巨大的挑戰(zhàn)。在傳統(tǒng)處理器中，僅少量基本非算術(shù)函數(shù)（如基本代數(shù)函數(shù)、基本超越函數(shù)）能通過硬件直接實(shí)現(xiàn)，這些函數(shù)被稱為內(nèi)置函數(shù)（built-infunctions）。內(nèi)置函數(shù)一般通過算術(shù)運(yùn)算和查找表的組合來實(shí)現(xiàn)。實(shí)現(xiàn)內(nèi)置函數(shù)的例子很多，例如：美國(guó)專利us5,954,787（發(fā)明人：eun；授權(quán)日：1999年9月21日）披露了一種利用查找表實(shí)現(xiàn)正弦/余弦（sine/cosine）函數(shù)的方法；美國(guó)專利us9,207,910（發(fā)明人：azadet；授權(quán)日：2015年12月8日）披露了一種利用查找表實(shí)現(xiàn)冪函數(shù)的方法。圖1a具體描述了內(nèi)置函數(shù)的一種實(shí)現(xiàn)方法。傳統(tǒng)處理器00x通常含有邏輯電路100x和存儲(chǔ)電路200x。邏輯電路100x含有算術(shù)邏輯單元（alu），它用于實(shí)現(xiàn)算術(shù)運(yùn)算。存儲(chǔ)電路200x含有查找表電路（lut）。為了達(dá)到足夠的計(jì)算精度，需將代表內(nèi)置函數(shù)的多項(xiàng)式展開到足夠高的階數(shù)。這時(shí)，lut200x存儲(chǔ)多項(xiàng)式系數(shù)，alu100x計(jì)算相應(yīng)的多項(xiàng)式。由于alu100x和lut200x并肩排列在同一平面上（均形成在襯底00s中），這種集成是一種二維集成。二維集成對(duì)處理器的制造工藝要求較高。存儲(chǔ)電路200x由存儲(chǔ)晶體管構(gòu)成，邏輯電路100x由邏輯晶體管構(gòu)成。熟悉本專業(yè)的人士都知道，存儲(chǔ)晶體管和邏輯晶體管的性能指標(biāo)有很大不同。比如說，存儲(chǔ)晶體管更注重降低漏電流，而邏輯晶體管更注重增加導(dǎo)通電流。在同一襯底上00s的同一表面上同時(shí)形成高性能的存儲(chǔ)晶體管和邏輯晶體管對(duì)于制造工藝來說是一種挑戰(zhàn)。二維集成還會(huì)限制計(jì)算密度和計(jì)算復(fù)雜度的進(jìn)一步發(fā)展。計(jì)算正向更高的計(jì)算密度和更大的計(jì)算復(fù)雜度發(fā)展。計(jì)算密度是指單位芯片面積的計(jì)算能力（如每秒的浮點(diǎn)數(shù)運(yùn)算次數(shù)），它是平行計(jì)算的一個(gè)重要指標(biāo)。計(jì)算復(fù)雜度是指內(nèi)置函數(shù)的種類和數(shù)量，它是科學(xué)計(jì)算的一個(gè)重要指標(biāo)。由于采用二維集成，lut200x的存在將增加傳統(tǒng)處理器00x的芯片面積，降低其計(jì)算密度，這對(duì)平行計(jì)算不利。同時(shí)，在傳統(tǒng)處理器00x的設(shè)計(jì)過程中，由于alu100x是傳統(tǒng)處理器00x的核心部件并占用了大部分芯片面積，故lut200x能利用的芯片面積有限。因此，傳統(tǒng)處理器00x僅支持少量?jī)?nèi)置函數(shù)。圖1b列出英特爾公司的itanium處理器（ia-64）能實(shí)現(xiàn)的所有內(nèi)置超越函數(shù)（參考harrison等所著《thecomputationoftranscendentalfunctionsontheia-64architecture》,inteltechnicaljournal,q4,1999年）。ia-64處理器共支持7種超越函數(shù)，每種超越函數(shù)使用了相對(duì)較小的查找表（從0到24kb），并需要進(jìn)行相對(duì)較多的泰勒級(jí)數(shù)（5階到22階）計(jì)算?；趌bc的處理器00x有一個(gè)缺陷。由于實(shí)現(xiàn)不同內(nèi)置函數(shù)使用的邏輯電路完全不同，處理器00x是完全定制的，不能通用。換句話說，一旦處理器00x的設(shè)計(jì)完成，它只能實(shí)現(xiàn)一套預(yù)先定義的內(nèi)置函數(shù)。很明顯，用戶希望用同一硬件實(shí)現(xiàn)不同計(jì)算，即實(shí)現(xiàn)計(jì)算的編程。這可以從現(xiàn)場(chǎng)可編程門陣列（fpga）中得到啟發(fā)。fpga能實(shí)現(xiàn)邏輯的編程。美國(guó)專利4,870,302（發(fā)明人：freeman；授權(quán)日：1989年9月26日）披露了一種fpga。它含有多個(gè)可編程邏輯單元（configurablelogicelement）和可編程連接（configurableinterconnect）。目前，fpga只能實(shí)現(xiàn)邏輯的編程，即同一硬件在設(shè)置信號(hào)控制下選擇性地實(shí)現(xiàn)不同的邏輯。遺憾的是，fpga尚無法實(shí)現(xiàn)計(jì)算的編程，即同一硬件在設(shè)置信號(hào)控制下選擇性地實(shí)現(xiàn)不同的計(jì)算（即實(shí)現(xiàn)不同的函數(shù)）。技術(shù)實(shí)現(xiàn)要素：本發(fā)明的主要目的是實(shí)現(xiàn)計(jì)算的編程。本發(fā)明的另一目的是實(shí)現(xiàn)計(jì)算的現(xiàn)場(chǎng)編程。本發(fā)明的另一目的是實(shí)現(xiàn)可重構(gòu)計(jì)算。本發(fā)明的主要目的是實(shí)現(xiàn)多變量函數(shù)的編程。本發(fā)明的另一目的是提供一種能實(shí)現(xiàn)更高計(jì)算復(fù)雜度的可編程處理器。本發(fā)明的另一目的是提供一種能實(shí)現(xiàn)更高計(jì)算密度的可編程處理器。本發(fā)明的另一目的是提供一種計(jì)算能力更靈活、更強(qiáng)大的現(xiàn)場(chǎng)可編程門陣列。為了實(shí)現(xiàn)這些以及別的目的，本發(fā)明提出一種基于封裝內(nèi)查找表（in-packagelut，簡(jiǎn)稱為ip-lut）的可編程處理器（ip-lut可編程處理器）。ip-lut可編程處理器含有至少一邏輯芯片和一可編程存儲(chǔ)芯片。其中，邏輯芯片含有至少一算術(shù)邏輯電路（arithmeticlogiccircuit，簡(jiǎn)稱為alc），故邏輯芯片又被稱為alc芯片；可編程存儲(chǔ)芯片含有至少一查找表電路（look-uptablecircuit，簡(jiǎn)稱為lut），故存儲(chǔ)芯片又被稱為lut芯片。lut存儲(chǔ)一函數(shù)的相關(guān)數(shù)據(jù)（如該函數(shù)的一查找表），alc對(duì)該函數(shù)相關(guān)數(shù)據(jù)進(jìn)行算術(shù)運(yùn)算。alc芯片和lut芯片位于同一封裝中，它們之間通過芯片間連接進(jìn)行電耦合。由于與alc位于同一封裝中，lut又被稱為封裝內(nèi)查找表電路（ip-lut）。此外，由于ip-lut是可編程的，因此可根據(jù)用戶需求在ip-lut中寫入所需函數(shù)的相關(guān)數(shù)據(jù)，以實(shí)現(xiàn)計(jì)算的編程。ip-lut可編程處理器采用“基于存儲(chǔ)的計(jì)算”（memory-basedcomputation，簡(jiǎn)稱為mbc），它主要通過查表來實(shí)現(xiàn)計(jì)算。ip-lut可編程處理器中ip-lut的存儲(chǔ)容量遠(yuǎn)高于傳統(tǒng)處理器的lut。雖然大多數(shù)mbc仍需要進(jìn)行算術(shù)運(yùn)算，通過使用較大的ip-lut作為計(jì)算的出發(fā)點(diǎn)，mbc僅需使用較少的多項(xiàng)式展開（如泰勒級(jí)數(shù)展開）。在mbc中，大部分計(jì)算通過ip-lut完成，少部分計(jì)算通過alc實(shí)現(xiàn)。ip-lut可編程處理器的使用分兩個(gè)階段：設(shè)置階段和計(jì)算階段。在設(shè)置階段，在ip-lut中寫入所需函數(shù)的相關(guān)數(shù)據(jù)；在計(jì)算階段，通過在ip-lut中查找函數(shù)相關(guān)數(shù)據(jù)來實(shí)現(xiàn)計(jì)算。ip-lut可編程處理器能實(shí)現(xiàn)現(xiàn)場(chǎng)編程和可重構(gòu)計(jì)算。對(duì)于現(xiàn)場(chǎng)編程，可在使用現(xiàn)場(chǎng)將所需函數(shù)的相關(guān)數(shù)據(jù)寫入ip-lut，則ip-lut可編程處理器可在使用現(xiàn)場(chǎng)實(shí)現(xiàn)所需的函數(shù)。對(duì)于可重構(gòu)計(jì)算，不同時(shí)段在ip-lut中寫入不同函數(shù)的不同相關(guān)數(shù)據(jù)（如不同函數(shù)的查找表），則ip-lut可編程處理器可實(shí)現(xiàn)不同函數(shù)。例如，在第一時(shí)段，ip-lut存儲(chǔ)第一函數(shù)的相關(guān)數(shù)據(jù)；在第二時(shí)段，ip-lut存儲(chǔ)第二函數(shù)的相關(guān)數(shù)據(jù)。這種將alc芯片和lut芯片相互堆疊在同一封裝的集成方式被稱為2.5維集成。2.5維集成能提高計(jì)算密度和計(jì)算復(fù)雜度。采用傳統(tǒng)的二維集成，傳統(tǒng)處理器00x的面積是alu100x和lut200x之和。采用2.5維集成后，lut從邊上移到頂上，ip-lut可編程處理器變小，計(jì)算密度加強(qiáng)。此外，傳統(tǒng)處理器00x中l(wèi)ut200x的總?cè)萘啃∮?00kb，而ip-lut可編程處理器中ip-lut的總?cè)萘靠蛇_(dá)到100gb；單個(gè)ip-lut可編程處理器就可支持上萬個(gè)內(nèi)置函數(shù)（包括多種復(fù)雜函數(shù)），遠(yuǎn)多于傳統(tǒng)處理器00x。此外，由于alc芯片和lut芯片為不同芯片，構(gòu)成alc的邏輯晶體管和構(gòu)成lut的存儲(chǔ)晶體管分別在不同半導(dǎo)體襯底上形成，它們的制造工藝可分別優(yōu)化。為了進(jìn)一步提高可編程度，本發(fā)明還提出一種基于ip-lut的可編程門陣列（ip-lut可編程門陣列）。它含有多個(gè)可編程計(jì)算單元、多個(gè)可編程邏輯單元和多個(gè)可編程連接?？删幊逃?jì)算單元含有一ip-lut，該ip-lut含有至少一可編程存儲(chǔ)陣列，它存儲(chǔ)一函數(shù)的相關(guān)數(shù)據(jù)。由于ip-lut是可編程的，因此可以根據(jù)用戶需求，在ip-lut中寫入所需函數(shù)的相關(guān)數(shù)據(jù)，以實(shí)現(xiàn)計(jì)算的編程。ip-lut可編程門陣列中的可編程邏輯單元和可編程連接與傳統(tǒng)fpga中的可編程邏輯單元和可編程連接類似。在計(jì)算過程中，非算術(shù)函數(shù)首先被分解為基本非算術(shù)函數(shù)的組合。然后針對(duì)每個(gè)基本非算術(shù)函數(shù)設(shè)置相應(yīng)的可編程計(jì)算單元，使其實(shí)現(xiàn)相應(yīng)的基本非算術(shù)函數(shù)。最后，設(shè)置可編程邏輯單元和可編程連接，以實(shí)現(xiàn)所需的非算術(shù)函數(shù)。相應(yīng)地，本發(fā)明提出一種可編程處理器(300)，其特征在于含有：一可編程存儲(chǔ)芯片(200)，該可編程存儲(chǔ)芯片(200)含有至少一查找表電路(170)，可根據(jù)用戶需求在該查找表電路(170)中寫入一函數(shù)的相關(guān)數(shù)據(jù)；一邏輯芯片(100)，該邏輯芯片(100)含有至少一算術(shù)邏輯電路(180)，該算術(shù)邏輯電路(180)對(duì)該查找表電路(170)中讀出的數(shù)據(jù)進(jìn)行算術(shù)運(yùn)算；多個(gè)將該可編程存儲(chǔ)芯片(200)和該邏輯芯片(100)耦合的芯片間連接(160)；該可編程存儲(chǔ)芯片(200)和該邏輯芯片(100)位于同一封裝(130)內(nèi)。附圖說明圖1a是一傳統(tǒng)處理器的透視圖（現(xiàn)有技術(shù)）；圖1b列出英特爾itanium（ia-64）處理器支持的所有超越函數(shù)（現(xiàn)有技術(shù)）。圖2a是一種典型ip-lut可編程處理器的簡(jiǎn)要電路框圖；圖2b是該ip-lut可編程處理器的透視圖。圖3a-圖3c是三種ip-lut可編程處理器的截面圖。圖4a是一種典型可編程計(jì)算單元之簡(jiǎn)要電路框圖；圖4b是一種實(shí)現(xiàn)一單精度函數(shù)的可編程計(jì)算單元之電路框圖；圖4c列出實(shí)現(xiàn)各種精度函數(shù)所需的查找表容量和泰勒級(jí)數(shù)展開項(xiàng)。圖5是一種ip-lut可編程門陣列的布局圖。圖6是圖5中ip-lut可編程門陣列實(shí)現(xiàn)一多變量函數(shù)e=a.sin(b)+c.cos(d)的設(shè)置。注意到，這些附圖僅是概要圖，它們不按比例繪圖。為了顯眼和方便起見，圖中的部分尺寸和結(jié)構(gòu)可能做了放大或縮小。在不同實(shí)施例中，數(shù)字后面的字母后綴表示同一類結(jié)構(gòu)的不同實(shí)例；相同的數(shù)字前綴表示相同或類似的結(jié)構(gòu)?！?”表示“和”或“或”的關(guān)系。在本發(fā)明中，“查找表”和“查找表電路”均被縮寫為lut。根據(jù)上下文，lut代表查找表或查找表電路。具體實(shí)施方式圖2a是一種典型的、基于封裝內(nèi)查找表（in-packagelut，簡(jiǎn)稱為ip-lut）的可編程處理器（ip-lut可編程處理器）300的簡(jiǎn)要電路框圖；圖2b是該ip-lut可編程處理器300的透視圖。ip-lut可編程處理器300有一個(gè)或多個(gè)輸入150、以及一個(gè)或多個(gè)輸出190。ip-lut可編程處理器300含有一邏輯芯片100和一可編程存儲(chǔ)芯片200。邏輯芯片100形成在第一襯底100s上，它含有至少一算術(shù)邏輯電路（alc）180，故邏輯芯片100又被稱為alc芯片?？删幊檀鎯?chǔ)芯片200形成在第二襯底200s上，它含有至少一查找表電路（lut）170，故存儲(chǔ)芯片200又被稱為lut芯片。lut170存儲(chǔ)一函數(shù)的相關(guān)數(shù)據(jù)（如該函數(shù)的一查找表），alc180對(duì)該函數(shù)相關(guān)數(shù)據(jù)進(jìn)行算術(shù)運(yùn)算。alc芯片100和lut芯片200位于同一封裝中，它們之間通過芯片間連接160電耦合。由于與alc180位于同一封裝中，lut170又被稱為封裝內(nèi)查找表電路（ip-lut）。此外，由于ip-lut170是可編程的，因此可根據(jù)用戶需求在ip-lut170中寫入所需函數(shù)的相關(guān)數(shù)據(jù)，以實(shí)現(xiàn)計(jì)算的編程。在本實(shí)施例中，lut芯片200堆疊在alc芯片100上方；ip-lut170與alc180至少部分重疊。在說明書附圖中，由于它們處于不同芯片中，ip-lut170用虛線表示，alc180用實(shí)線表示。ip-lut可編程處理器300采用“基于存儲(chǔ)的計(jì)算”（mbc），它主要通過查表來實(shí)現(xiàn)計(jì)算。ip-lut可編程處理器300中ip-lut170的存儲(chǔ)容量遠(yuǎn)高于傳統(tǒng)處理器00的lut200x。雖然大多數(shù)mbc仍需要進(jìn)行算術(shù)運(yùn)算，通過使用較大的ip-lut170作為計(jì)算的出發(fā)點(diǎn)，mbc僅需使用較少的多項(xiàng)式展開（如泰勒級(jí)數(shù)展開）。在mbc中，大部分計(jì)算通過ip-lut170完成，少部分計(jì)算通過alc180實(shí)現(xiàn)。ip-lut可編程處理器300的使用分兩個(gè)階段：設(shè)置階段和計(jì)算階段。在設(shè)置階段，在ip-lut170中寫入所需函數(shù)的相關(guān)數(shù)據(jù)；在計(jì)算階段，通過在ip-lut170中查找函數(shù)相關(guān)數(shù)據(jù)來實(shí)現(xiàn)計(jì)算。ip-lut可編程處理器300能實(shí)現(xiàn)現(xiàn)場(chǎng)編程和可重構(gòu)計(jì)算。對(duì)于現(xiàn)場(chǎng)編程，可在使用現(xiàn)場(chǎng)將所需函數(shù)的相關(guān)數(shù)據(jù)寫入ip-lut170，則ip-lut可編程處理器300可在使用現(xiàn)場(chǎng)實(shí)現(xiàn)所需的函數(shù)。對(duì)于可重構(gòu)計(jì)算，不同時(shí)段在ip-lut170中寫入不同函數(shù)的不同相關(guān)數(shù)據(jù)（如不同函數(shù)的查找表），則ip-lut可編程處理器300可實(shí)現(xiàn)不同函數(shù)。例如，在第一時(shí)段，ip-lut170存儲(chǔ)第一函數(shù)的相關(guān)數(shù)據(jù)；在第二時(shí)段，ip-lut170存儲(chǔ)第二函數(shù)的相關(guān)數(shù)據(jù)。ip-lut170可用ram和/或rom。ram包括sram和dram等。rom包括otp、eprom、eeprom和閃存等。閃存可以分為nor或nand，還可以分為橫向閃存和縱向閃存（verticalnand）。對(duì)于可重構(gòu)計(jì)算，ip-lut170采用可重復(fù)編程存儲(chǔ)器。對(duì)于現(xiàn)場(chǎng)編程，除了可重復(fù)編程存儲(chǔ)器以外，ip-lut170還可以采用otp。另一方面，alc180可以含有加法器、乘法器、和/或乘加器，它可以用于實(shí)現(xiàn)整數(shù)運(yùn)算、定點(diǎn)數(shù)運(yùn)算、或浮點(diǎn)數(shù)運(yùn)算。圖3a-圖3c是三種ip-lut可編程處理器300的截面圖。它們均為一種多芯片封裝（multi-chippackage，簡(jiǎn)稱為mcp）。其中，圖3a中的ip-lut可編程處理器300含有兩個(gè)分離芯片：alc芯片100和lut芯片200。芯片100、200堆疊在封裝襯底110上并位于同一封裝130中。微焊點(diǎn)（micro-bump）116為芯片100、200提供電耦合，它起芯片間連接160的作用。在本實(shí)施例中，lut芯片200堆疊在alc芯片100上；同時(shí)，lut芯片200被翻轉(zhuǎn)，它與alc芯片100面對(duì)面地堆疊在一起。在其它實(shí)施例中，alc芯片100也可堆疊在lut芯片200上，同時(shí)也可不被翻轉(zhuǎn)。圖3b中的ip-lut可編程處理器300含有alc芯片100、lut芯片200和硅插板（interposer）120。硅插板120含有多個(gè)穿透硅片通道（tsv）118，它使alc芯片100和lut芯片200之間的電耦合更為容易，設(shè)計(jì)時(shí)有更多自由度，同時(shí)散熱更為良好。此實(shí)施例還含有多個(gè)微焊點(diǎn)116，它與tsv118構(gòu)成芯片間連接160。圖3c中的ip-lut可編程處理器300含有一alc芯片100和至少兩個(gè)lut芯片200a、200b。這些芯片100、200a和200b是分離的，并位于同一封裝130中。其中，lut芯片200b堆疊在lut芯片200a之上，lut芯片200a又堆疊在alc芯片100之上。芯片100、200a、200b之間通過tsv118和微焊點(diǎn)116耦合。很明顯，圖3c比圖3a具有更大的ip-lut170。類似地，在此實(shí)施例中，tsv118和微焊點(diǎn)116構(gòu)成芯片間連接160。這種將lut芯片200和alc芯片100相互堆疊在同一封裝的集成方式被稱為2.5維集成。2.5維集成能提高計(jì)算密度和計(jì)算復(fù)雜度。采用傳統(tǒng)的二維集成，傳統(tǒng)處理器00的面積是lut200x和alu100x之和。采用2.5維集成后，lut從邊上移到頂上，ip-lut可編程處理器300的面積變小，計(jì)算密度加強(qiáng)。此外，傳統(tǒng)處理器00中l(wèi)ut的總?cè)萘啃∮?00kb，而ip-lut可編程處理器300中l(wèi)ut的總?cè)萘靠蛇_(dá)到100gb；單個(gè)ip-lut可編程處理器300就可支持上萬個(gè)內(nèi)置函數(shù)（包括多種復(fù)雜函數(shù)），遠(yuǎn)多于傳統(tǒng)處理器。此外，2.5維集成還能提高lut170和alc180之間的數(shù)據(jù)傳輸帶寬。由于lut170和alc180距離較近且芯片間連接160數(shù)量較多，它們之間的數(shù)據(jù)傳輸帶寬遠(yuǎn)高于傳統(tǒng)處理器00中l(wèi)ut200x和alu100x之間的帶寬。最后，2.5維集成對(duì)制造工藝角度也有益處。由于alc芯片100和lut芯片200為不同芯片，構(gòu)成alc芯片100的邏輯晶體管和構(gòu)成lut芯片200的存儲(chǔ)晶體管分別形成在不同襯底（100s、200s）上，它們的制造工藝可分別優(yōu)化。為了進(jìn)一步提高可編程度，本發(fā)明還提出一種基于ip-lut的可編程門陣列（ip-lut可編程門陣列）700（圖4a-圖6），它含有多個(gè)可編程計(jì)算單元400aa…、多個(gè)可編程邏輯單元500aa…和多個(gè)可編程連接610-650…。圖4a表示一種典型的可編程計(jì)算單元400，它含有一預(yù)處理電路180r、一后處理電路180t和至少一ip-lut170。ip-lut170含有至少一可編程存儲(chǔ)陣列，它存儲(chǔ)一函數(shù)的相關(guān)數(shù)據(jù)（如該函數(shù)的查找表）。由于ip-lut170是可編程的，因此可根據(jù)用戶需求在ip-lut170中寫入所需函數(shù)的相關(guān)數(shù)據(jù)，以實(shí)現(xiàn)計(jì)算的編程。預(yù)處理電路180r將函數(shù)的自變量x150轉(zhuǎn)換為ip-lut170的地址a160a；后處理器180t將從ip-lut170中讀出的數(shù)據(jù)d160d轉(zhuǎn)換為函數(shù)值y的輸出190。在該實(shí)施例中，預(yù)處理電路180r和后處理電路180t形成在邏輯芯片100中。在其他實(shí)施例中，至少一部分預(yù)處理電路180r和/或后處理電路180t也可以形成在存儲(chǔ)芯片200中。自變量x的一部分r可以在被預(yù)處理電路180r處理之前送至后處理電路180t作為后端處理的一個(gè)輸入，也可以在被預(yù)處理電路180r處理之后（即地址a的一部分）送至后處理器180t。圖4b表示一種實(shí)現(xiàn)一單精度函數(shù)y=f(x)的可編程計(jì)算單元400。ip-lut170含有兩個(gè)lut170q、170r，其容量均為2mb（16位輸入、32位輸出），并分別存儲(chǔ)函數(shù)值d1=f(a)和函數(shù)的一階導(dǎo)數(shù)值d2=f’(a)。alc180含有預(yù)處理電路180r（主要含有一地址緩沖區(qū)）和后處理電路180t（含有一加法器180a和一乘法器180m）。芯片間連接160在ip-lut170和alc180之間傳輸數(shù)據(jù)。在計(jì)算函數(shù)時(shí)，該ip-lut可編程處理器300的輸入為32位自變量x150（x31…x0）；預(yù)處理電路180r將其前16位（x31…x16）提取出來作為lut170q、170r的16位地址輸入a，再將其后16位（x15…x0）提取出來作為16位地址余量r送到后處理電路180t；后處理電路180t通過多項(xiàng)式插值計(jì)算32位輸出值y190。在本實(shí)施例中，多項(xiàng)式插值是一階泰勒級(jí)數(shù)：y(x)=d1+d2*r=f(a)+f’(a)*r。很明顯，采用更高階的多項(xiàng)式插值（如更高階的泰勒級(jí)數(shù)）能進(jìn)一步提高計(jì)算精度。在實(shí)現(xiàn)內(nèi)置函數(shù)時(shí)，將lut和多項(xiàng)式插值結(jié)合起來可以用較小的lut實(shí)現(xiàn)較高的計(jì)算精度。假如僅用lut（無多項(xiàng)式插值）來實(shí)現(xiàn)上述的單精度函數(shù)（32位輸入、32位輸出），lut的容量需要達(dá)到232*32=128gb。用這么大的lut來實(shí)現(xiàn)一個(gè)函數(shù)是不現(xiàn)實(shí)的。通過多項(xiàng)式插值，lut的容量可極大地降低。在上述實(shí)施例中，在采用一階泰勒級(jí)數(shù)后，lut只需4mb（函數(shù)值lut需要2mb、一階導(dǎo)數(shù)值lut需要2mb）。這比僅用lut的方式（128gb）少很多。圖4c列出實(shí)現(xiàn)各種精度函數(shù)所需的查找表容量和泰勒級(jí)數(shù)展開項(xiàng)。該實(shí)施例采用定義域縮小法并將查找表的容量限制在mb級(jí)（參考harrison等所著《thecomputationoftranscendentalfunctionsontheia-64architecture》,inteltechnicaljournal,q4,1999年）。半精度（16位）計(jì)算使用的ip-lut170容量為216×16=1mb，這時(shí)不需要計(jì)算任何泰勒級(jí)數(shù)；單精度（32位）計(jì)算使用的ip-lut170容量為216×32×2=4mb，這時(shí)需要計(jì)算1階泰勒級(jí)數(shù)；雙精度（64位）計(jì)算使用的ip-lut170容量為216×64×3=12mb，這時(shí)需要計(jì)算2階泰勒級(jí)數(shù)；擴(kuò)展雙精度（80位）計(jì)算使用的ip-lut170的容量為216×80×4=20mb，這時(shí)需要計(jì)算3階泰勒級(jí)數(shù)。作為一個(gè)比較，為實(shí)現(xiàn)同樣的雙精度（64位）計(jì)算，英特爾的itanium處理器需要計(jì)算多達(dá)22階泰勒級(jí)數(shù)。除了初等函數(shù)以外，圖4a-圖4b中的實(shí)施例還能實(shí)現(xiàn)各種高等函數(shù)，如特殊函數(shù)等。特殊函數(shù)在數(shù)學(xué)分析、泛函分析、物理研究、工程應(yīng)用中有著舉足輕重的地位。許多特殊函數(shù)是微分方程的解或基本函數(shù)的積分。特殊函數(shù)的例子包括伽瑪函數(shù)、貝塔函數(shù)、貝塞爾函數(shù)、勒讓德函數(shù)、橢圓函數(shù)、lame函數(shù)、mathieu函數(shù)、黎曼澤塔函數(shù)、菲涅耳積分等。可編程計(jì)算單元400的出現(xiàn)將簡(jiǎn)化特殊函數(shù)的計(jì)算，助推其在科學(xué)計(jì)算中的應(yīng)用。圖5表示一種ip-lut可編程門陣列700。它含有規(guī)則排列的可編程模塊700a和可編程模塊700b等。每個(gè)可編程模塊（如700a）含有多個(gè)可編程計(jì)算單元（如400aa-400ad）和可編程邏輯單元（如500aa-500ad）。在可編程計(jì)算單元（如400aa-400ad）和可編程邏輯單元（如500aa-500ad）之間含有可編程信道620、640；在可編程模塊700a和可編程模塊700b之間，也含有可編程信道610、630、650。可編程信道610-650含有多個(gè)可編程連接。對(duì)于熟悉本領(lǐng)域的專業(yè)人士來說，除了可編程信道以外，還可以采用門海（sea-of-gates）等設(shè)計(jì)?？删幊踢壿媶卧涂删幊踢B接類似傳統(tǒng)fpga中的可編程邏輯單元和可編程連接（參見美國(guó)專利4,870,302）。比如說，可編程邏輯單元可以選擇性地實(shí)現(xiàn)移位、邏輯非、and（邏輯與）、or（邏輯和）、nor（和非）、nand（與非）、xor（異或）、+（加法）、-（減法）等邏輯操作；可編程連接可以選擇性地實(shí)現(xiàn)互連線的連接、斷開等功能。在一些實(shí)施例中，部分可編程邏輯單元甚至可以實(shí)現(xiàn)×（乘法）。圖6表示該ip-lut可編程門陣列700的一種具體實(shí)現(xiàn)，它用于實(shí)現(xiàn)一多變量非算術(shù)函數(shù)：e=a.sin(b)+c.cos(d)。在可編程信道610-650中可編程連接采用與美國(guó)專利4,870,302一致的表達(dá)方式：交叉點(diǎn)有圓點(diǎn)的可編程連接表示交叉線相連，交叉點(diǎn)無圓點(diǎn)的可編程連接表示交叉線不相連，斷開的可編程連接表示斷開的互連線被分為兩個(gè)互不相連的互連線段。在該實(shí)施例中，可編程計(jì)算單元400aa被設(shè)置為log()，其計(jì)算結(jié)果log(a)被送到可編程邏輯單元500aa的第一輸入。可編程計(jì)算單元400ab被設(shè)置為log[sin()]，其計(jì)算結(jié)果log[sin(b)]被送到可編程邏輯單元500aa的第二輸入。可編程邏輯單元500aa被設(shè)置為“加法”，其計(jì)算結(jié)果log(a)+log[sin(b)]被送到可編程計(jì)算單元400ba?？删幊逃?jì)算單元400ba被設(shè)置為exp()，其計(jì)算結(jié)果exp{log(a)+log[sin(b)]}=a.sin(b)被送到可編程邏輯單元500ba的第一輸入。類似地，通過適當(dāng)?shù)脑O(shè)置，可編程計(jì)算單元400ac、400ad，可編程邏輯單元500ac，可編程計(jì)算單元400bc的結(jié)果c.cos(d)被送到可編程邏輯單元500ba的第二輸入?？删幊踢壿媶卧?00ba被設(shè)置為“加法”，a.sin(b)和c.cos(d)在此相加，最終結(jié)果送到輸出e。很明顯，通過改變?cè)O(shè)置，ip-lut可編程門陣列700還可以實(shí)現(xiàn)其它非算術(shù)函數(shù)。ip-lut可編程門陣列700尤其適合實(shí)現(xiàn)對(duì)多變量函數(shù)的編程。如果僅采用lut，則上述4變量函數(shù)e=a.sin(b)+c.cos(d)需要的極大lut：即使僅采用半精度，就需要216×216×216×216×16=256eb的lut。很明顯，用這么多l(xiāng)ut來實(shí)現(xiàn)一4變量函數(shù)是不現(xiàn)實(shí)的。采用ip-lut可編程門陣列700后，僅需要8mb的lut（8個(gè)可編程計(jì)算單元，每個(gè)計(jì)算單元含1mb的lut）就可實(shí)現(xiàn)該4變量函數(shù)。對(duì)于熟悉本專業(yè)的人士來說，ip-lut可編程門陣列700可以推廣到其它多變量函數(shù)中。應(yīng)該了解，在不遠(yuǎn)離本發(fā)明的精神和范圍的前提下，可以對(duì)本發(fā)明的形式和細(xì)節(jié)進(jìn)行改動(dòng)，這并不妨礙它們應(yīng)用本發(fā)明的精神。例如說，處理器可以是中央處理器（cpu）、數(shù)字信號(hào)處理器（dsp）、圖像處理器（gpu）、網(wǎng)絡(luò)安全處理器、加密/解密處理器、編碼/解碼處理器、神經(jīng)網(wǎng)絡(luò)處理器、人工智能（ai）處理器等。因此，除了根據(jù)附加的權(quán)利要求書的精神，本發(fā)明不應(yīng)受到任何限制。當(dāng)前第1頁12當(dāng)前第1頁12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張國(guó)飆
技術(shù)所有人：成都海存艾匹科技有限公司
我是此專利的發(fā)明人

上一篇：一種篩分機(jī)的制作方法與工藝
上一篇：基于封裝內(nèi)查找表的處理器的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于封裝內(nèi)查找表的可編程處理器的制作方法