線程優(yōu)化的多處理器架構(gòu)的制作方法_4

文檔序號：8223327閱讀：來源：國知局

用寄存器自動遞增和自動遞減，并對于創(chuàng)建堆棧和輸入輸出流也是有用的。
[0146] 5.所有的指令都是8比特長，簡化并加快了解碼。
[0147] 6.無分支（BRANCH)和跳轉(zhuǎn)（JUMP)指令。
[0148] 7.如圖2所示，只有七條基本指令允許操作員從8比特指令中選擇3比特。
[0149] 優(yōu)選實施方式的一些好處包括：
[0150] 1.所有的操作都以邏輯允許的最大速度運行，而不是由流水線所需的平均性而壓縮。邏輯操作是最快的。數(shù)學操作是次快的。需要存儲器存取的操作是最慢的。
[0151] 2.該架構(gòu)按任何數(shù)據(jù)寬度而調(diào)整，僅受組件管腳數(shù)、加法器進位次數(shù)以及有效性所限制。
[0152] 3.該架構(gòu)接近執(zhí)行通用計算機的所有操作所需的最小可能功能性。
[0153] 4.該架構(gòu)是非常透明的、有規(guī)則的，且大多數(shù)操作都可用于優(yōu)化編譯器。
[0154] 該架構(gòu)設(shè)計得足夠簡單，從而可以在單一的單塊芯片上被復制許多次。一個實施方式將CPU的多份拷貝和存儲器一起嵌入在單塊芯片上。簡化的32位CPU可用少于1，500 個門實現(xiàn)，其中大多數(shù)門都用于定義寄存器。通過利用與單一的因特爾奔騰4中使用的相同數(shù)目的晶體管，可實現(xiàn)優(yōu)選實施方式中的將近1，〇〇〇個TOMI CPU。
[0155] TOMICPU中的簡化指令集執(zhí)行通用計算機的必要操作。處理器的指令集越小，處理器越能有效地運行。TOMICPU被設(shè)計為與現(xiàn)代處理器架構(gòu)相比具有格外少的指令數(shù)。例如，與具有286條指令的因特爾奔騰處理器、具有195條指令的因特爾安騰處理器、具有127 條指令的StrongARM處理器和具有多于400條指令的頂BCell處理器相比，TOMICPU的一個實施方式具有25條指令。
[0156] 與最新一代的奔騰處理器所需的30個時鐘周期形成對比，TOMI CPU的基本指令集被簡化和設(shè)計為在單一的系統(tǒng)時鐘周期內(nèi)執(zhí)行。TOMI CPU架構(gòu)是"非流水線"架構(gòu)。這種架構(gòu)和單一的時鐘周期指令執(zhí)行顯著地減少或消除在其它并行的處理或流水線架構(gòu)中發(fā)生的延遲、依賴性和浪費的時鐘周期。盡管基本指令只需要單一時鐘周期來執(zhí)行時，但是隨著時鐘速度增加（并且時鐘周期時間減少），執(zhí)行結(jié)果傳播通過用于復雜數(shù)學指令的電路晶體管門（例如，ADD)所需的時間可達到單一時鐘周期的極限。在這種情況下，允許在兩個時鐘周期內(nèi)執(zhí)行特定的指令可能是最佳的，從而不會減慢較快指令的執(zhí)行。這取決于 CPU設(shè)計中系統(tǒng)時鐘速度、制造工藝和電路設(shè)計的優(yōu)化。
[0157] TOMI簡化的指令集允許用少于5000個晶體管（不包括高速緩沖存儲器）構(gòu)造32 位TOMI CPU。通過附圖15A至1?示出了單一的32位TOMI CPU的實施方式的頂層示意圖，圖15E示出了信號說明。即使使用高速緩沖存儲器和相關(guān)的譯碼邏輯，與最新一代因特爾奔騰微處理器芯片需要250, 000, 000個晶體管相比，32位TOMI CPU可使用40, 000至 200, 000個晶體管（取決于CPU高速緩沖存儲器的大小）構(gòu)造。遺傳的微處理器架構(gòu)（例如因特爾奔騰、安騰、IBM Cell和StrongARM等）需要大量且遞增數(shù)量的晶體管來實現(xiàn)處理容量的遞增。TOMI CPU架構(gòu)通過為每個CPU核使用格外少的晶體管而與這種工業(yè)進步相反。TOMI CPU的較少的晶體管數(shù)量提供了許多的優(yōu)點。
[0158] 由于TOMI CPU的緊湊的尺寸，因此可在同一個硅芯片上構(gòu)造多個CPU。這也允許將多個CPU和主存儲器（例如DRAM)構(gòu)造在同意芯片上，而僅在DRAM芯片自身的制造成本之外使用極少的附加制造成本。因此，能夠通過最小程度地增加DRAM芯片的尺寸和制造成本，將多個TOMI CPU置于單一芯片上用于并行處理。例如，512MB DRAM包含大約7億個晶體管。64個TOMI CPU (假設(shè)單一的TOMI CPU需要200, 000個晶體管）僅在任何DRAM設(shè)計上增加1280萬個晶體管。對于512MB DRAM，64個TOMI CPU將增加小于5%的芯片尺寸。
[0159] TOMI CPU被設(shè)計為通過現(xiàn)有的便宜的批量存儲器制造工藝（例如，用于DRAM、 SRAM和FLASH存儲器設(shè)備的制造工藝）制造。用于TOMI CPU的晶體管的數(shù)量少意味著CPU 能夠在小面積內(nèi)被構(gòu)造，并且能夠容易地通過2層金屬互連的便宜的半導體制造工藝而不是用于通過8或更多層的金屬互連或其它邏輯處理制造大微處理器芯片（例如因特爾奔騰）的昂貴的制造工藝在硅中互連?，F(xiàn)代的DRAM和其它商用存儲器芯片使用具有較少層 (例如，2層）金屬互連的較簡單且成本較低的半導體制造工藝來獲得較低的制造成本、較大的產(chǎn)品產(chǎn)量和較高的產(chǎn)品產(chǎn)值。用于商用存儲器設(shè)備的半導體制造工藝的特征通常在于低電流泄漏設(shè)備工作；而用于構(gòu)造現(xiàn)代微處理器的工藝致力于高速和高性能特性，而不是晶體管級別的低電流泄漏值。通過用于DRAM和其它存儲器設(shè)備的相同制造工藝有效地實現(xiàn)的TOMI CPU的能力使TOMI CPU能夠在嵌入在現(xiàn)有的DRAM芯片（或其它存儲器芯片）內(nèi)，并且具有低成本、高產(chǎn)量的芯片制造工藝的優(yōu)點。這還提供了通過當前在工業(yè)使用中用于DRAM和其它存儲器芯片的相同的封裝和設(shè)備管腳布局（例如，符合存儲器設(shè)備的JEDEC 標準）、制造設(shè)施、測試固定設(shè)備和測試向量制造TOMI CPU的優(yōu)點。在反面，將DRAM存儲器嵌入到傳統(tǒng)微處理器芯片將在相對的方向上工作，這是因為該微處理器芯片是使用具有 8或更多層金屬互連的昂貴且復雜的邏輯制造工藝制造的并且存儲器電路受到由微處理器操作產(chǎn)生的大的電噪聲和熱量，這就會影響嵌入在處理器芯片中的存儲器的類型、大小和功能。這個結(jié)果將產(chǎn)生較高的成本、較低的產(chǎn)量、較高的功率消耗、較小的存儲器、最終產(chǎn)生較低性能的微處理器。
[0160] 優(yōu)選實施方式的另一優(yōu)點是TOMI CPU足夠?。ㄐ枰苄〉墓β剩?，從而可在物理上位于DRAM(或其它存儲器）電路的附近并且允許CPU訪問超寬的內(nèi)部DRAM數(shù)據(jù)總線。在現(xiàn)代DRAM中，這種總線是1024、4096或8192位寬（或其整數(shù)倍），還通常對應于DRAM設(shè)計內(nèi)的數(shù)據(jù)塊中的一行數(shù)據(jù)的寬度。（通過比較，因特爾奔騰數(shù)據(jù)總線是64位，因特爾安騰總線是128位寬。）TOMI CPU的內(nèi)部高速緩沖存儲器的大小被設(shè)計為與DRAM行的大小匹配，從而CPU高速緩沖存儲器可在單一的DRAM存儲器讀或?qū)懼芷趦?nèi)被填充（或清洗）。TOMI CPU使用超寬內(nèi)部DRAM數(shù)據(jù)總線作為TOMI CPU的數(shù)據(jù)總線。TOMI CPU高速緩沖存儲器可被設(shè)計為對用于有效布局和電路操作的DRAM行和/或列鎖存電路的設(shè)計進行鏡像，包括至 TOMI CPU高速緩沖存儲器的數(shù)據(jù)傳輸。
[0161] 優(yōu)選實施方式的又一優(yōu)點是由于晶體管的數(shù)量少并且因為CPU使用超寬內(nèi)部 DRAM數(shù)據(jù)總線訪問存儲器而不是不斷驅(qū)動I/O電路來訪問用于數(shù)據(jù)的片外存儲器而由 TOMICPU產(chǎn)生的較低的電噪聲。片內(nèi)CPU高速緩沖存儲器允許直接訪問用于處理的數(shù)據(jù)而使訪問片外存儲器的需要最少。
[0162] 處理器架構(gòu)的設(shè)計目標是使處理容量和速度最大，而使實現(xiàn)該處理速度所需的功率最小。TOMICPU架構(gòu)是具有極小功率消耗的高速處理器。處理器的功率消耗與設(shè)計中使用的晶體管的數(shù)量直接相關(guān)。用于TOMICPU的較少數(shù)量的晶體管將使TOMICPU的功率消耗最小。簡化且有效的指令集也允許TOMICPU降低其功率消耗。此外，TOMICPU高速緩存和通過寬的內(nèi)部DRAM數(shù)據(jù)總線訪問片內(nèi)存儲器將不必不斷驅(qū)動用于片外存儲器訪問的I/O電路。以1GHz時鐘速度工作的單一的TOMICPU消耗大約20至25毫瓦的功率。與之相反，因特爾奔騰4處理器在2. 93GHz時需要130瓦，因特爾安騰處理器在1. 6GHz時需要52瓦，StrongARM處理器在200MHz時需要1瓦，以及IBMCell處理器在3. 2GHz時需要100瓦。眾所周知的是，處理器產(chǎn)生的熱量直接與處理器所需的功率量有關(guān)。極小功率 TOMICPU架構(gòu)排除了對可在當前的微處理架構(gòu)中找到的風扇、大熱沉和外部冷卻機構(gòu)的需要。同時，小功率TOMICPU架構(gòu)使得新的小功率電池和太陽能供電應用變得適用。
[0163] 指令集
[0164] 示例性指令集中的七條基本指令以及其位映射如圖2所示。每條指令優(yōu)選地由單一的8比特字組成。
[0165] 尋址方式
[0166] 圖3圖解說明了不同尋址方式的有效地址。
[0167] 尋址方式是：
[0168] 直接尋址（I_ediate)
[0169] 寄存器尋址（Register)
[0170]寄存器間接尋址（Register Indirect)
[0171] 寄存器間接自動遞增尋址（RegisterIndirectAuto-increment)
[0172] 寄存器間接自動遞減尋址（RegisterIndirectAuto-decrement)
[0173] 特殊情況
[0174] 寄存器0和寄存器1都是程序計數(shù)器（PC)。在一個實施方式中，用寄存器0 (PC) 作為操作數(shù)的所有操作都是有條件的，即累加器進位位（C)等于1。如果C= 1，則將PC的舊值交換到累加器（ACC)中。而將寄存器1 (PC)作為操作數(shù)的所有操作都是無條件的。
[0175] 在可選的實施方式中，用寄存器0(PC)作為目的地的寫操作的條件是進位位（C) 等于0。如果C= 1，則不執(zhí)行任何操作。如果C = 0,則將累加器（ACC)中的值寫入PC并且程序控制變?yōu)樾碌腜C地址。用寄存器1作為目的地的寫操作是沒有條件的。累加器（ACC) 中的值被寫入PC，程序控制變?yōu)樾碌腜C地址。
[0176] 用寄存器0作

完整全部詳細技術(shù)資料下載

當前第4頁1 2 3 4 5

相關(guān)技術(shù)