專利名稱:用于使用預(yù)解碼數(shù)據(jù)調(diào)度指令的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本公開總地涉及多線程指令調(diào)度,并且,更具體地,涉及用于使用預(yù)解碼數(shù)據(jù)調(diào)度指令的方法和裝置。
背景技術(shù):
并行處理器具有使用不同的硬件資源來使多個(gè)線程能夠同時(shí)執(zhí)行的多個(gè)獨(dú)立內(nèi)核。SMD (單指令、多數(shù)據(jù))架構(gòu)處理器在多個(gè)內(nèi)核的每一個(gè)上均執(zhí)行相同的指令,其中每個(gè)內(nèi)核處理不同的輸入數(shù)據(jù)。MMD (多指令、多數(shù)據(jù))架構(gòu)處理器利用供應(yīng)給每個(gè)內(nèi)核的不同的輸入數(shù)據(jù)在不同的內(nèi)核上執(zhí)行不同的指令。并行處理器也可以是多線程的,其使用單個(gè)處理內(nèi)核的資源使兩個(gè)或更多個(gè)線程能夠大體上同時(shí)執(zhí)行(即在不同的時(shí)鐘周期期間在內(nèi)核上執(zhí)行不同的線程)。指令調(diào)度是指用于確定在下一個(gè)時(shí)鐘周期期間哪個(gè)線程執(zhí)行在哪個(gè)內(nèi)核上的技術(shù)。通常,指令調(diào)度算法在從存儲(chǔ)器獲取指令之后將解碼多個(gè)指令以確定每個(gè)特定操作所需的特定資源和與那些資源相關(guān)聯(lián)的延遲。之后系統(tǒng)可以評(píng)估該延遲以為該多個(gè)指令確定最佳調(diào)度順序。例如,一個(gè)指令可以指定操作數(shù)(即寄存器值),該操作數(shù)取決于正在由來自同一線程的前一個(gè)指令所執(zhí)行的計(jì)算。之后調(diào)度器延遲該一個(gè)指令的執(zhí)行直到前一個(gè)指令完成執(zhí)行。上述系統(tǒng)的一個(gè)問題是解碼多個(gè)指令、識(shí)別指令之間的依賴關(guān)系以及分析與由指令所指定的所有計(jì)算相關(guān)聯(lián)的延遲需要處理器中的大量管理資源和大量狀態(tài)信息存儲(chǔ)。處理器可以確定由指令所指定的特定操作碼、與操作相關(guān)聯(lián)的資源(例如作為操作數(shù)傳遞到每個(gè)指令的特定寄存器)、指令之間的相互依賴關(guān)系以及與指令相關(guān)聯(lián)的任意其他重要數(shù)據(jù)。這類算法的實(shí)現(xiàn)可采取許多時(shí)鐘周期來完成以及采取大量存儲(chǔ)器用于存儲(chǔ)和解碼指令。
`
因此,本領(lǐng)域需要的是用于在不需要為輸入到其他指令的計(jì)算確定延遲的情況下而實(shí)施指令調(diào)度的系統(tǒng)和方法。
發(fā)明內(nèi)容
在一個(gè)實(shí)施例中,多核處理器包括每個(gè)內(nèi)核中的調(diào)度單元,其用于每個(gè)調(diào)度周期從兩個(gè)或兩個(gè)以上線程選擇指令以在該特定內(nèi)核上執(zhí)行。隨著調(diào)度線程用于在內(nèi)核上執(zhí)行,來自所述線程的指令在未被解碼的情況下獲取到緩沖區(qū)。預(yù)解碼數(shù)據(jù)由編譯器確定并在運(yùn)行時(shí)由調(diào)度單元提取以及用來控制線程的選擇用于執(zhí)行。所述預(yù)解碼數(shù)據(jù)可以指定在發(fā)出所述指令之前要等待的若干調(diào)度周期。所述預(yù)解碼數(shù)據(jù)還可以為所述指令指定調(diào)度優(yōu)先級(jí)或指定應(yīng)該在單個(gè)調(diào)度周期中發(fā)出兩個(gè)指令。一旦所述調(diào)度單元已經(jīng)選擇指令以發(fā)出用于執(zhí)行,解碼單元就完全解碼所述指令。本公開的一個(gè)示范性實(shí)施例提出了用于在并行處理計(jì)算裝置內(nèi)調(diào)度指令的計(jì)算機(jī)實(shí)現(xiàn)的方法。所述方法包括以下步驟:從指令高速緩存單元獲取與兩個(gè)或兩個(gè)以上線程組相對(duì)應(yīng)的指令,以及接收與所述指令的每一個(gè)相關(guān)聯(lián)的預(yù)解碼數(shù)據(jù),其中當(dāng)編譯所述指令時(shí)確定所述預(yù)解碼數(shù)據(jù)。所述步驟進(jìn)一步包括至少部分基于所述預(yù)解碼數(shù)據(jù)來選擇指令用于執(zhí)行、解碼所述指令以及將所述指令分派到所述并行處理單元用于執(zhí)行。本公開的另一示范性實(shí)施例提出了一種調(diào)度單元,包括指令高速緩存獲取單元、宏調(diào)度器單元、微調(diào)度器仲裁器、解碼單元和分派單元。所述指令高速緩存獲取單元配置為將與兩個(gè)或兩個(gè)以上線程組相對(duì)應(yīng)的指令路由到第一緩沖區(qū)并將與所述指令的每一個(gè)相關(guān)聯(lián)的預(yù)解碼數(shù)據(jù)路由到第二緩沖區(qū)。所述宏調(diào)度器單元耦合到所述指令高速緩存獲取單元并配置為接收預(yù)解碼數(shù)據(jù),其中當(dāng)編譯所述指令時(shí)確定所述預(yù)解碼數(shù)據(jù)。所述微調(diào)度器仲裁器耦合到所述宏調(diào)度器單元和所述第二緩沖區(qū)并配置為至少部分基于所述預(yù)解碼數(shù)據(jù)來在運(yùn)行時(shí)選擇第一指令用于由處理單元執(zhí)行。所述解碼單元耦合到所述第一緩沖區(qū)并配置為解碼所述第一指令。所述分派單元耦合到所述解碼單元并配置為將所述第一指令分派到處理單元用于執(zhí)行。本公開的又一示范性實(shí)施例提出了一種包括中央處理單元和并行處理單元的計(jì)算設(shè)備。所述并行處理單元包括調(diào)度單元,所述調(diào)度單元配置為從指令高速緩存單元獲取與兩個(gè)或兩個(gè)以上線程組相對(duì)應(yīng)的多個(gè)指令,以及接收與所述指令的每一個(gè)相關(guān)聯(lián)的預(yù)解碼數(shù)據(jù),其中當(dāng)編譯所述指令時(shí)確定所述預(yù)解碼數(shù)據(jù)。所述調(diào)度單元進(jìn)一步配置為至少部分基于所述預(yù)解碼數(shù)據(jù)來選擇指令用于執(zhí)行,解碼所述指令以及將所述指令分派到所述并行處理單元用于執(zhí)行。有利地,使用與每個(gè)指令相對(duì)應(yīng)的所述預(yù)解碼數(shù)據(jù)減輕了所述調(diào)度單元上的工作負(fù)載。具體地,所述調(diào)度單元不再需要識(shí)別所述指令之間的依賴關(guān)系以及分析與由所述指令指定的所有計(jì)算相關(guān)聯(lián)的所述延遲。因此,減少了所述處理器中的管理資源量并且減少了由所述調(diào)度單元所維護(hù)的狀態(tài)信息量。
因此,可以詳細(xì)地理解上述本公開的特征,并且可以參考示范性實(shí)施例得到對(duì)如上面所簡(jiǎn)要概括的本 發(fā)明更具體的描述,其中一些實(shí)施例在附圖中示出。然而,應(yīng)當(dāng)注意的是,附圖僅示出了本公開的典型實(shí)施例,因此不應(yīng)被認(rèn)為是對(duì)其范圍的限制,本公開可以具有其他等效的實(shí)施例。圖1為示出了配置為實(shí)現(xiàn)本公開一個(gè)或多個(gè)方面的計(jì)算機(jī)系統(tǒng)的框圖;圖2為根據(jù)本公開一個(gè)實(shí)施例的用于圖1的計(jì)算機(jī)系統(tǒng)的并行處理子系統(tǒng)的框圖;圖3A為根據(jù)本公開一個(gè)實(shí)施例的圖2的前端的框圖;圖3B為根據(jù)本公開一個(gè)實(shí)施例的在圖2的并行處理單元之一內(nèi)的通用處理集群的框圖;圖3C為根據(jù)本公開一個(gè)實(shí)施例的圖3B的流多處理器的一部分的框圖;以及圖4為根據(jù)本公開一個(gè)示范性實(shí)施例的圖3C的warp調(diào)度器和指令單元的框圖;圖5A示出了根據(jù)本公開一個(gè)示范性實(shí)施例的從指令LI高速緩存所獲取的高速緩存線;圖5B示出了根據(jù)本公開一個(gè)示范性實(shí)施例的圖5A的特殊指令ss-1nst ;
圖6示出了根據(jù)本公開一個(gè)示范性實(shí)施例的用于在沒有指令解碼的情況下調(diào)度指令的方法;以及圖7示出了根據(jù)本公開一個(gè)示范性實(shí)施例的用于使用預(yù)解碼數(shù)據(jù)調(diào)度指令的方法。
具體實(shí)施例方式在下面的描述中,將闡述大量的特定細(xì)節(jié)以提供對(duì)本公開更透徹的理解。然而,本領(lǐng)域的技術(shù)人員應(yīng)該清楚,本公開可以在沒有一個(gè)或多個(gè)這些特定細(xì)節(jié)的情況下得以實(shí)施。本公開描述了用于在解碼指令之前調(diào)度指令以在處理器內(nèi)核上執(zhí)行的系統(tǒng)和方法。在一個(gè)實(shí)施例中,多核處理器包括每個(gè)內(nèi)核中的調(diào)度單元,用于在該特定內(nèi)核上從兩個(gè)或兩個(gè)以上線程調(diào)度指令的。隨著線程被調(diào)度用于執(zhí)行以及被發(fā)出到處理器內(nèi)核,來自線程的指令在未被解碼的情況下被從指令高速緩存獲取到緩沖區(qū)中。調(diào)度單元包括用于實(shí)施執(zhí)行相同或不同指令集的線程組的優(yōu)先級(jí)排序的宏調(diào)度器單元。微調(diào)度器仲裁器確定每個(gè)調(diào)度周期從線程組之一選擇至少一個(gè)指令并發(fā)出該至少一個(gè)指令用于執(zhí)行。微調(diào)度器仲裁器使用預(yù)解碼數(shù)據(jù)來實(shí)現(xiàn)調(diào)度算法。對(duì)于每個(gè)指令在編譯期確定預(yù)解碼數(shù)據(jù)。在運(yùn)行時(shí),通過僅解碼指令的小部分來提取預(yù)解碼數(shù)據(jù)??商娲?,預(yù)解碼數(shù)據(jù)可以隨著指令一起被接收諸如與指令嵌入同一高速緩存線中。一旦微調(diào)度器仲裁器已經(jīng)選擇指令以發(fā)出到執(zhí)行單元,解碼單元就完全解碼該指令。系統(tǒng)概述圖1為示出了配置為實(shí)現(xiàn)本公開的一個(gè)或多個(gè)方面的計(jì)算機(jī)系統(tǒng)100的框圖。計(jì)算機(jī)系統(tǒng)100包括中央處理單元(CPU) 102和經(jīng)由可以包括存儲(chǔ)器橋105的互連路徑通信的系統(tǒng)存儲(chǔ)器104。存儲(chǔ)器橋105可以是例如北橋芯片,經(jīng)由總線或其他通信路徑106 (例如超傳輸(HyperTrans port)鏈路)連接到I/O (輸入/輸出)橋107。I/O橋107,其可以是例如南橋芯片,從一個(gè)或多個(gè)用戶輸入設(shè)備108 (例如鍵盤、鼠標(biāo))接收用戶輸入并且經(jīng)由通信路徑106和存儲(chǔ)器橋105將所述輸入轉(zhuǎn)發(fā)到CPU 102。并行處理子系統(tǒng)112經(jīng)由總線或第二通信路徑113 (例如外圍部件互連(PCDExpress、加速圖形端口或超傳輸鏈路)耦合到存儲(chǔ)器橋105 ;在一個(gè)實(shí)施例中,并行處理子系統(tǒng)112是將像素傳遞到顯示設(shè)備110 (例如傳統(tǒng)的基于陰極射線管或液晶顯示器的監(jiān)視器)的圖形子系統(tǒng)。系統(tǒng)盤114也連接到I/O橋107。開關(guān)116提供I/O橋107與諸如網(wǎng)絡(luò)適配器118以及各種外插卡120和121的其他部件之間的連接。其他部件(未明確示出),包括通用串行總線(USB)或其他端口連接、壓縮磁盤(CD)驅(qū)動(dòng)器、數(shù)字視頻光盤(DVD)驅(qū)動(dòng)器、膠片錄制設(shè)備及類似部件,也可以連接到I/O橋107。圖1所示的各種通信路徑包括特殊命名的通信路徑106和113可以使用任何適合的協(xié)議實(shí)現(xiàn),諸如PC1-EXpreSS、AGP (加速圖形端口)、超傳輸或者任何其他總線或點(diǎn)到點(diǎn)通信協(xié)議,并且如本領(lǐng)域已知的,不同設(shè)備間的連接可使用不同協(xié)議。在一個(gè)實(shí)施例中,并行處理子系統(tǒng)112包含經(jīng)優(yōu)化用于圖形和視頻處理的電路,包括例如視頻輸出電路,并且構(gòu)成圖形處理單元(GPU)。在另一個(gè)實(shí)施例中,并行處理子系統(tǒng)112包含經(jīng)優(yōu)化用于通用處理的電路,同時(shí)保留底層(underlying)的計(jì)算架構(gòu),本文將更詳細(xì)地進(jìn)行描述。在又一個(gè)實(shí)施例中,可以將并行處理子系統(tǒng)112與一個(gè)或多個(gè)其他系統(tǒng)元件集成在單個(gè)子系統(tǒng)中,諸如結(jié)合存儲(chǔ)器橋105、CPU 102以及I/O橋107,以形成片上系統(tǒng)(SoC)。應(yīng)該理解,本文所示系統(tǒng)是示例性的,并且變化和修改都是可能的。連接拓?fù)洌虻臄?shù)量和布置、CPU 102的數(shù)量以及并行處理子系統(tǒng)112的數(shù)量,可根據(jù)需要修改。例如,在一些實(shí)施例中,系統(tǒng)存儲(chǔ)器104直接連接到CPU 102而不是通過橋,并且其他設(shè)備經(jīng)由存儲(chǔ)器橋105和CPU 102與系統(tǒng)存儲(chǔ)器104通信。在其他替代性拓?fù)渲?,并行處理子系統(tǒng)112連接到I/O橋107或直接連接到CPU 102,而不是連接到存儲(chǔ)器橋105。而在其他實(shí)施例中,I/O橋107和存儲(chǔ)器橋105可能被集成到單個(gè)芯片上而不是作為一個(gè)或多個(gè)分立設(shè)備存在。大型實(shí)施例可以包括兩個(gè)或兩個(gè)以上的CPU 102以及兩個(gè)或兩個(gè)以上的并行處理系統(tǒng)112。本文所示的特定部件是可選的;例如,任意數(shù)量的外插卡或外圍設(shè)備都可能得到支持。在一些實(shí)施例中,開關(guān)116被去掉,網(wǎng)絡(luò)適配器118和外插卡120、121直接連接到I/O 橋 107。圖2示出了根據(jù)本公開一個(gè)實(shí)施例的并行處理子系統(tǒng)112。如圖所示,并行處理子系統(tǒng)112包括一個(gè)或多個(gè)并行處理單元(PI3U) 202,每個(gè)并行處理單元202都耦合到本地并行處理(PP)存儲(chǔ)器204。通常,并行處理子系統(tǒng)包括U個(gè)PPU,其中U彡I。(本文中,類似對(duì)象的多個(gè)實(shí)體以標(biāo)識(shí)該對(duì)象的參考數(shù)字和需要時(shí)標(biāo)識(shí)所述實(shí)體的括號(hào)中的數(shù)字來表示。)PPU202和并行處理存儲(chǔ)器204可使用一個(gè)或多個(gè)集成電路設(shè)備來實(shí)現(xiàn),諸如可編程處理器、專用集成電路(ASIC)或存儲(chǔ)器設(shè)備,或者以任何其他技術(shù)可行的方式來實(shí)現(xiàn)。再參考圖1以及圖2,在一些實(shí)施例中,并行處理子系統(tǒng)112中的一些或所有PPU202是具有渲染管線的圖形處理器,它可以配置為實(shí)施與下述相關(guān)的各種操作:經(jīng)由存儲(chǔ)器橋105和第二通信路徑113從CPU102和/或系統(tǒng)存儲(chǔ)器104所提供的圖形數(shù)據(jù)生成像素?cái)?shù)據(jù),與本地并行處理存儲(chǔ)器204(可被用作圖形存儲(chǔ)器,包括例如常用幀緩沖區(qū)(buffer))交互以存儲(chǔ)和更新像素?cái)?shù)據(jù),傳遞像素?cái)?shù)據(jù)到顯示設(shè)備110等等。在一些實(shí)施例中,并行處理子系統(tǒng)112可包括一個(gè)或多 個(gè)作為圖形處理器而操作的PPU 202以及包括一個(gè)或多個(gè)用于通用計(jì)算的其他PPU 202。這些PTO可以是相同的或不同的,并且每個(gè)PPU均可具有專用并行處理存儲(chǔ)器設(shè)備或不具有專用的并行處理存儲(chǔ)器設(shè)備。并行處理子系統(tǒng)112中的一個(gè)或多個(gè)PPU 202可輸出數(shù)據(jù)到顯示設(shè)備110,或者并行處理子系統(tǒng)112中的每個(gè)PPU 202均可輸出數(shù)據(jù)到一個(gè)或多個(gè)顯示設(shè)備110。在操作中,CPU 102是計(jì)算機(jī)系統(tǒng)100的主處理器,控制和協(xié)調(diào)其他系統(tǒng)部件的操作。具體地,CPU 102發(fā)出控制PPU 202的操作的命令。在一些實(shí)施例中,CPU 102為每個(gè)PPU 202寫入命令流到數(shù)據(jù)結(jié)構(gòu)中(在圖1或圖2中未明確示出),所述數(shù)據(jù)結(jié)構(gòu)可位于系統(tǒng)存儲(chǔ)器104、并行處理存儲(chǔ)器204、或CPU 102和PPU 202都可訪問的其他存儲(chǔ)位置中。將指向每個(gè)數(shù)據(jù)結(jié)構(gòu)的指針寫到入棧緩沖區(qū)(pushbuffer)以發(fā)起對(duì)數(shù)據(jù)結(jié)構(gòu)中的命令流的處理。PPU 202從一個(gè)或多個(gè)入棧緩沖區(qū)讀取命令流,然后相對(duì)于CPU 102的操作異步地執(zhí)行命令??梢越?jīng)由設(shè)備驅(qū)動(dòng)程序103由應(yīng)用程序?yàn)槊總€(gè)入棧緩沖區(qū)指定執(zhí)行優(yōu)先級(jí)以控制對(duì)不同入棧緩沖區(qū)的調(diào)度?,F(xiàn)在返回參考圖2和圖1,每個(gè)PPU 202均包括經(jīng)由連接到存儲(chǔ)器橋105 (或者,在一個(gè)替代性實(shí)施例中,直接連接到CPU 102)的通信路徑113與計(jì)算機(jī)系統(tǒng)100的其余部分通信的I/O (輸入/輸出)單元205。PPU 202到計(jì)算機(jī)系統(tǒng)100的其余部分的連接也可以變化。在一些實(shí)施例中,并行處理子系統(tǒng)112可作為外插卡來實(shí)現(xiàn),所述外插卡可被插入到計(jì)算機(jī)系統(tǒng)100的擴(kuò)展槽中。在其他實(shí)施例中,PPU 202可以和諸如存儲(chǔ)器橋105或I/O橋107的總線橋一起集成在單個(gè)芯片上。而在其他實(shí)施例中,PI3U 202的一些或所有元件可以和CPU 102—起集成在單個(gè)芯片上。在一個(gè)實(shí)施例中,通信路徑113是PC1-EXPRESS鏈路,如本領(lǐng)域所知的,其中專用通道被分配到每個(gè)PPU 202。也可以使用其他通信路徑。I/O單元205生成用于在通信路徑113上傳輸?shù)臄?shù)據(jù)包(或其他信號(hào)),并且還從通信路徑113接收所有傳入的數(shù)據(jù)包(或其他信號(hào)),將傳入的數(shù)據(jù)包引導(dǎo)到PPU 202的適當(dāng)部件。例如,可將與處理任務(wù)相關(guān)的命令引導(dǎo)到主機(jī)接口 206,而可將與存儲(chǔ)器操作相關(guān)的命令(例如,對(duì)并行處理存儲(chǔ)器204的讀取或?qū)懭?引導(dǎo)到存儲(chǔ)器交叉開關(guān)單元210。主機(jī)接口 206讀取每個(gè)入棧緩沖區(qū),并且將存儲(chǔ)在入棧緩沖區(qū)中的命令流輸出到前端212。有利地,每個(gè)PPU 202都實(shí)現(xiàn)高度并行處理架構(gòu)。如詳細(xì)示出的,PPU 202 (O)包括處理集群陣列230,該陣列230包括C個(gè)通用處理集群(GPC) 208,其中C彡I。每個(gè)GPC 208都能夠并發(fā)執(zhí)行大量的(例如,幾百或幾千)線程,其中每個(gè)線程均是程序的實(shí)例(instance)。在各種 應(yīng)用中,可分配不同的GPC 208用于處理不同類型的程序或用于執(zhí)行不同類型的計(jì)算。取決于因每種類型的程序或計(jì)算所產(chǎn)生的工作量,GPC 208的分配可以變化。GPC 208從任務(wù)/工作單元207內(nèi)的工作分布單元接收所要執(zhí)行的處理任務(wù)。所述工作分布單元接收指向編碼為任務(wù)元數(shù)據(jù)(TMD)并存儲(chǔ)在存儲(chǔ)器中的處理任務(wù)的指針。指向TMD的指針包括在存儲(chǔ)為入棧緩沖區(qū)并由前端單元212從主機(jī)接口 206接收的命令流中??梢跃幋a為TMD的處理任務(wù)包括所要處理的數(shù)據(jù)的索引,以及定義數(shù)據(jù)將被如何處理(例如,什么程序?qū)⒈粓?zhí)行)的狀態(tài)參數(shù)和命令。任務(wù)/工作單元207從前端212接收任務(wù)并確保在每一個(gè)TMD所指定的處理發(fā)起前,將GPC 208配置為有效狀態(tài)。可以為每個(gè)TMD指定用來調(diào)度處理任務(wù)的執(zhí)行的優(yōu)先級(jí)。還可從處理集群陣列230接收處理任務(wù)??蛇x地,TMD可包括控制是否將TMD添加到處理任務(wù)列表(或指向處理任務(wù)的指針列表)的頭部或尾部的參數(shù),從而提供除優(yōu)先級(jí)以外的另一級(jí)別的控制。存儲(chǔ)器接口 214包括D個(gè)分區(qū)單元215,每個(gè)分區(qū)單元215均直接耦合到一部分并行處理存儲(chǔ)器204,其中DS I。如所示的,分區(qū)單元215的數(shù)量一般等于動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM) 220的數(shù)量。在其他實(shí)施例中,分區(qū)單元215的數(shù)量也可以不等于存儲(chǔ)器設(shè)備的數(shù)量。本領(lǐng)域的技術(shù)人員應(yīng)該理解DRAM 220可以用其他合適的存儲(chǔ)設(shè)備來替代并且可以是一般常規(guī)的設(shè)計(jì)。因此省略了詳細(xì)描述。諸如幀緩沖區(qū)或紋理映射圖的渲染目標(biāo)可以跨DRAM 220加以存儲(chǔ),這允許分區(qū)單元215并行寫入每個(gè)渲染目標(biāo)的各部分以有效地使用并行處理存儲(chǔ)器204的可用帶寬。任意一個(gè)GPC 208都可以處理要被寫到并行處理存儲(chǔ)器204內(nèi)的任意DRAM 220的數(shù)據(jù)。交叉開關(guān)單元210配置為路由每個(gè)GPC 208的輸出到任意分區(qū)單元215的輸入或到另一個(gè)GPC 208用于進(jìn)一步處理。GPC 208通過交叉開關(guān)單元210與存儲(chǔ)器接口 214通信,以對(duì)各種外部存儲(chǔ)器設(shè)備進(jìn)行讀取或?qū)懭搿T谝粋€(gè)實(shí)施例中,交叉開關(guān)單元210具有到存儲(chǔ)器接口 214的連接以和I/O單元205通信,以及到本地并行處理存儲(chǔ)器204的連接,從而使得在不同GPC 208內(nèi)的處理內(nèi)核能夠與系統(tǒng)存儲(chǔ)器104或?qū)τ赑PU 202而言非本地的其他存儲(chǔ)器通信。在圖2所示的實(shí)施例中,交叉開關(guān)單元210直接與I/O單元205連接。交叉開關(guān)單元210可使用虛擬信道來分開GPC 208與分區(qū)單元215之間的業(yè)務(wù)流。另外,GPC 208可被編程以執(zhí)行與種類繁多的應(yīng)用相關(guān)的處理任務(wù),包括但不限于,線性和非線性數(shù)據(jù)變換、視頻和/或音頻數(shù)據(jù)過濾、建模操作(例如,應(yīng)用物理定律以確定對(duì)象的位置、速率和其他屬性)、圖像渲染操作(例如,曲面細(xì)分(tessellation)著色、頂點(diǎn)著色、幾何著色、和/或像素著色程序)等等。PPU 202可將數(shù)據(jù)從系統(tǒng)存儲(chǔ)器104和/或本地并行處理存儲(chǔ)器204轉(zhuǎn)移到內(nèi)部(片上)存儲(chǔ)器中,處理所述數(shù)據(jù),并且將結(jié)果數(shù)據(jù)寫回到系統(tǒng)存儲(chǔ)器104和/或本地并行處理存儲(chǔ)器204,其中這樣的數(shù)據(jù)可以由其他系統(tǒng)部件訪問,所述其他系統(tǒng)部件包括CPU 102或另一個(gè)并行處理子系統(tǒng)112。PPU 202可配備有任意容量(amount)的本地并行處理存儲(chǔ)器204,包括沒有本地存儲(chǔ)器,并且可以以任意組合方式使用本地存儲(chǔ)器和系統(tǒng)存儲(chǔ)器。例如,在統(tǒng)一存儲(chǔ)器架構(gòu)(UMA)實(shí)施例中,PPU 202可以是圖形處理器。在這樣的實(shí)施例中,將不提供或幾乎不提供專用的圖形(并行處理)存儲(chǔ)器,并且PPU 202會(huì)以排他或幾乎排他的方式使用系統(tǒng)存儲(chǔ)器。在UMA實(shí)施例中,PPU 202可集成到橋式芯片中或處理器芯片中,或作為具有高速鏈路(例如,PC1-EXPRESS)的分立芯片提供,所述高速鏈路經(jīng)由橋式芯片或其他通信手段將PPU 202連接到系統(tǒng)存儲(chǔ)器。如上所述,在并行處理子系統(tǒng)112中可以包括任意數(shù)量的PPU 202。例如,可在單個(gè)外插卡上提供多個(gè)PP U 202、或可將多個(gè)外插卡連接到通信路徑113、或可將一個(gè)或多個(gè)PPU 202集成到橋式芯片中。在多PI3U系統(tǒng)中的PPU 202可以彼此相同或不同。例如,不同的PPU 202可能具有不同數(shù)量的處理內(nèi)核、不同容量的本地并行處理存儲(chǔ)器等等。在存在多個(gè)PPU 202的情況下,可并行操作那些PPU從而以高于單個(gè)PPU 202所可能達(dá)到的吞吐量來處理數(shù)據(jù)。包含一個(gè)或多個(gè)PPU 202的系統(tǒng)可以以各種配置和形式因素來實(shí)現(xiàn),包括臺(tái)式電腦、筆記本電腦或手持式個(gè)人計(jì)算機(jī)、服務(wù)器、工作站、游戲控制臺(tái)、嵌入式系統(tǒng)等等多個(gè)并發(fā)任務(wù)調(diào)度可以在GPC 208上并發(fā)執(zhí)行多個(gè)處理任務(wù)并且處理任務(wù)在執(zhí)行期間可以生成一個(gè)或多個(gè)“子”處理任務(wù)。任務(wù)/工作單元207接收任務(wù)并動(dòng)態(tài)調(diào)度處理任務(wù)和子處理任務(wù)以由GPC 208執(zhí)行。圖3A為根據(jù)本公開一個(gè)實(shí)施例的圖2的任務(wù)/工作單元207的框圖。任務(wù)/工作單元207包括任務(wù)管理單元300和工作分布單元340。任務(wù)管理單元300基于執(zhí)行優(yōu)先級(jí)級(jí)別來組織所要調(diào)度的任務(wù)。對(duì)于每個(gè)優(yōu)先級(jí)級(jí)別,任務(wù)管理單元300將指向與任務(wù)相對(duì)應(yīng)的TMD 322的指針列表存儲(chǔ)在調(diào)度器表321中,其中所述列表可以實(shí)現(xiàn)為鏈表??梢詫MD 322存儲(chǔ)在PP存儲(chǔ)器204或系統(tǒng)存儲(chǔ)器104中。任務(wù)管理單元300接受任務(wù)并將任務(wù)存儲(chǔ)在調(diào)度器表321中的速度與任務(wù)管理單元300調(diào)度任務(wù)以執(zhí)行的速度是解耦的。因此,任務(wù)管理單元300可以在調(diào)度任務(wù)之前收集若干任務(wù)。之后可以基于優(yōu)先級(jí)信息或使用其他技術(shù)諸如循環(huán)調(diào)度來調(diào)度所收集的任務(wù)。工作分布單元340包括具有槽的任務(wù)表345,每個(gè)槽均可以被用于正在執(zhí)行的任務(wù)的TMD 322所占用。當(dāng)任務(wù)表345中有空閑槽時(shí),任務(wù)管理單元300可以調(diào)度任務(wù)以執(zhí)行。當(dāng)沒有空閑槽時(shí),未占用槽的較高優(yōu)先級(jí)任務(wù)可以驅(qū)逐占用槽的較低優(yōu)先級(jí)任務(wù)。當(dāng)任務(wù)被驅(qū)逐時(shí),該任務(wù)被停止,并且如果該任務(wù)的執(zhí)行沒有完成,則將指向該任務(wù)的指針添加到所要調(diào)度的任務(wù)指針列表以使得任務(wù)的執(zhí)行稍后將恢復(fù)。當(dāng)生成子處理任務(wù)時(shí),在任務(wù)的執(zhí)行期間,將指向該子任務(wù)的指針添加到所要調(diào)度的任務(wù)指針列表??梢杂稍谔幚砑宏嚵?30中執(zhí)行的TMD 322生成子任務(wù)。不同于由任務(wù)/工作單元207從前端212接收的任務(wù),子任務(wù)從處理集群陣列230接收。子任務(wù)不被插入幀緩沖區(qū)或傳輸?shù)角岸恕.?dāng)生成子任務(wù)或?qū)⒂糜谧尤蝿?wù)的數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器中時(shí)不通知CPU 102。通過幀緩沖區(qū)提供的任務(wù)與子任務(wù)之間的另一個(gè)區(qū)別是通過幀緩沖區(qū)提供的任務(wù)由應(yīng)用程序來定義而子任務(wù)是在任務(wù)執(zhí)行期間自動(dòng)生成的。任務(wù)處理概述圖3B為根據(jù)本公開一個(gè)實(shí)施例的在圖2的PPU 202之一內(nèi)的GPC208的框圖。每個(gè)GPC 208均可配置為并行執(zhí)行大量線程,其中術(shù)語“線程”是指在特定輸入數(shù)據(jù)集上執(zhí)行的特定程序的實(shí)例。在一些實(shí)施例中,單指令、多數(shù)據(jù)(SIMD)指令發(fā)出技術(shù)用于在不提供多個(gè)獨(dú)立指令單元的情況下支持大量線程的并行執(zhí)行。在其他實(shí)施例中,單指令、多線程(SIMT)技術(shù)用于使用配置為向GPC 208中的每一個(gè)內(nèi)的處理引擎集發(fā)出指令的共有指令單元來支持大量一般來說同步的線程的并行執(zhí)行。不同于所有處理引擎通常都執(zhí)行相同指令的SMD執(zhí)行機(jī)制,SIMT執(zhí)行通過給定線程程序允許不同線程更容易跟隨分散執(zhí)行路徑。本領(lǐng)域普通技術(shù)人員應(yīng)該理解SMD處理機(jī)制代表SMT處理機(jī)制的功能子集。經(jīng)由將處理任務(wù)分布到流多處理器(SM)310的管線管理器305來有利地控制GPC208的操作。管線管理器305還可配置為通過為由SM 310所輸出的處理數(shù)據(jù)指定目的地來控制工作分布交叉開關(guān)330。在一個(gè)實(shí)施例中,每個(gè)GPC 208均包括M個(gè)SM310,其中M彡1,每個(gè)SM 310均配置為處理一個(gè)或多 個(gè)線程組。另外,如本領(lǐng)域已知的,每個(gè)SM 310均有利地包括可以管線化的相同的功能執(zhí)行單元集(例如執(zhí)行單元和加載-存儲(chǔ)單元一作為Exec單元302和LSU 303在圖3C中示出),其允許在前一個(gè)指令完成之前發(fā)出新指令。可提供功能執(zhí)行單元的任意組合。在一個(gè)實(shí)施例中,功能單元支持各種各樣的操作,包括整數(shù)和浮點(diǎn)運(yùn)算(例如加法和乘法)、比較操作、布爾操作(AND、OR、X0R)、移位和各種代數(shù)函數(shù)的計(jì)算(例如平面插值、三角函數(shù)、指數(shù)函數(shù)和對(duì)數(shù)函數(shù)等等);以及相同的功能單元硬件可均衡的用來(beleveraged to)實(shí)施不同的操作。如本文之前所定義的,傳輸?shù)教囟℅PC 208的一系列指令構(gòu)成線程,以及跨SM310內(nèi)的并行處理引擎(未示出)的某一數(shù)量的并發(fā)執(zhí)行線程的集合在本文中稱為“warp”或“線程組”。如本文所使用的,“線程組”是指對(duì)不同輸入數(shù)據(jù)并發(fā)執(zhí)行相同程序的一組線程,所述組的一個(gè)線程被指派到SM 310內(nèi)的不同處理引擎。線程組可以包括比SM 310內(nèi)的處理引擎數(shù)量少的線程,在這種情況下一些處理引擎將在該線程組正在被處理的周期期間處于閑置狀態(tài)。線程組還可以包括比SM 310內(nèi)的處理引擎數(shù)量多的線程,在這種情況下處理將在連續(xù)的時(shí)鐘周期內(nèi)發(fā)生。因?yàn)槊總€(gè)SM 310均可以并發(fā)支持多達(dá)G個(gè)線程組,結(jié)果是在任意給定時(shí)間在GPC 208中可以執(zhí)行多達(dá)G*M個(gè)線程組。此外,多個(gè)相關(guān)線程組可以在SM 310內(nèi)同時(shí)活動(dòng)(在執(zhí)行的不同階段)。該線程組集合在本文中稱為“協(xié)作線程陣列”(“CTA”)或“線程陣列”。特定CTA的大小等于m*k,其中k是線程組中并發(fā)執(zhí)行線程的數(shù)量并且通常是SM 310內(nèi)的并行處理引擎數(shù)量的整數(shù)倍,以及m是SM310內(nèi)同時(shí)活動(dòng)的線程組的數(shù)量。CTA的大小一般由編程者以及可用于CTA的硬件資源諸如存儲(chǔ)器或寄存器的容量來確定。每個(gè)SM310均包含一級(jí)(LI)高速緩存(圖3C所示)或使用用于實(shí)施加載和存儲(chǔ)操作的SM 310外部的相應(yīng)LI高速緩存中的空間。每個(gè)SM 310都還有權(quán)訪問在所有GPC 208之間共享并且可用于在線程之間轉(zhuǎn)移數(shù)據(jù)的二級(jí)(L2)高速緩存。最后,SM 310還有權(quán)訪問片外“全局”存儲(chǔ)器,所述“全局”存儲(chǔ)器可以包括例如并行處理存儲(chǔ)器204和/或系統(tǒng)存儲(chǔ)器104。應(yīng)該理解,PPU 202外部的任意存儲(chǔ)器均可用作全局存儲(chǔ)器。此外,一點(diǎn)五級(jí)(L1.5)高速緩存335可以包括在GPC 208內(nèi),其配置為接收并保持由SM 310所請(qǐng)求的經(jīng)由存儲(chǔ)器接口 214從存儲(chǔ)器獲取的數(shù)據(jù),包括指令、標(biāo)準(zhǔn)(uniform)數(shù)據(jù)和常數(shù)數(shù)據(jù),并將所請(qǐng)求的數(shù)據(jù)提供給SM 310。在GPC 208中具有多個(gè)SM 310的實(shí)施例有利地共享了高速緩存在L1.5高速緩存335中的共有指令和數(shù)據(jù)。每個(gè)GPC 208均可以包括配置為將虛擬地址映射到物理地址中的存儲(chǔ)器管理單元(MMU) 328。在其他實(shí)施例中,MMU 328可以駐留在存儲(chǔ)器接口 214內(nèi)。MMU 328包括用于將虛擬地址映射到像素塊(tile)的物理地址的頁表?xiàng)l目(PTE)集和可選地包括高速緩存線索引。MMU 328可以包括地址轉(zhuǎn)換后備緩沖區(qū)(TLB)或可以駐留在多處理器SM 310或LI高速緩存或GPC 208內(nèi)的高速緩存。物理地址經(jīng)處理以分布表面數(shù)據(jù)訪問位置來允許高效請(qǐng)求在分區(qū)單元215之間交錯(cuò)。高速緩存線索引可用于確定用于高速緩存線的請(qǐng)求是否命中或未命中。在圖形和計(jì)算應(yīng)用中,GPC 208可配置為使得每個(gè)SM 310均耦合到用于實(shí)施紋理映射操作例如確定紋理樣本位置、讀出紋理數(shù)據(jù)以及過濾該紋理數(shù)據(jù)的紋理單元315。從內(nèi)部紋理LI高速緩存(未示出)或者在一些實(shí)施例中從SM 310內(nèi)的LI高速緩存讀出紋理數(shù)據(jù)并根據(jù)需要從在所有GPC 208之間共享的L2高速緩存、并行處理存儲(chǔ)器204或系統(tǒng)存儲(chǔ)器104中獲取紋理數(shù)據(jù)。 為了經(jīng)由交叉開關(guān)單元210將所處理的任務(wù)提供給另一個(gè)GPC208用于進(jìn)一步處理或?yàn)榱藢⑺幚淼娜蝿?wù)存儲(chǔ)在L2高速緩存、并行處理存儲(chǔ)器204或系統(tǒng)存儲(chǔ)器104中,每個(gè)SM 310均將所處理的任務(wù)輸出到工作分布交叉開關(guān)330。preROP(預(yù)光柵操作)325配置為從SM 310接收數(shù)據(jù)、將數(shù)據(jù)引導(dǎo)到分區(qū)單元215內(nèi)的ROP單元以及針對(duì)顏色混合實(shí)施優(yōu)化、組織像素顏色數(shù)據(jù)和實(shí)施地址轉(zhuǎn)譯。應(yīng)該理解本文所述的內(nèi)核架構(gòu)是示例性的并且各種變化和修改都是可能的。任意數(shù)量的處理單元例如SM 310或紋理單元315、preR0P325均可以包括在GPC 208內(nèi)。進(jìn)一步地,如圖2所示,PPU 202可以包括任意數(shù)量的GPC 208,所述GPC 208有利地在功能上彼此相似以使得執(zhí)行行為不取決于哪個(gè)GPC 208接收特定處理任務(wù)。進(jìn)一步地,每個(gè)GPC 208有利地均使用單獨(dú)的和各異的處理單元、LI高速緩存來獨(dú)立于其他GPC 208操作以為一個(gè)或多個(gè)應(yīng)用程序執(zhí)行任務(wù)。本領(lǐng)域普通技術(shù)人員應(yīng)該理解圖1、2、3A和3B所描述的架構(gòu)決不限制本發(fā)明的范圍并且在不脫離本發(fā)明范圍的情況下本文所教導(dǎo)的技術(shù)可以在任意經(jīng)適當(dāng)配置的處理單元上實(shí)現(xiàn),所述處理單元包括但不限于一個(gè)或多個(gè)CPU、一個(gè)或多個(gè)多核CPU、一個(gè)或多個(gè)PPU 202、一個(gè)或多個(gè)GPC 208、一個(gè)或多個(gè)圖形或?qū)S锰幚韱卧鹊?。在本發(fā)明的實(shí)施例中,使用PPU 202或計(jì)算系統(tǒng)的其他處理器以使用線程陣列執(zhí)行通用計(jì)算是可取的。為線程陣列中的每個(gè)線程均指派在線程的執(zhí)行期間對(duì)于線程可訪問的唯一的線程標(biāo)識(shí)符(“線程ID”)。可被定義為一維或多維數(shù)值的線程ID控制線程處理行為的各方面。例如,線程ID可用于確定線程將要處理輸入數(shù)據(jù)集的哪部分和/或確定線程將要產(chǎn)生或?qū)戄敵鰯?shù)據(jù)集的哪部分。每線程指令序列可包括定義代表性線程和線程陣列的一個(gè)或多個(gè)其他線程之間的協(xié)作行為的至少一個(gè)指令。例如,每線程指令序列可能包括在序列中的特定點(diǎn)處掛起用于代表性線程的操作執(zhí)行直到諸如其他線程的一個(gè)或多個(gè)到達(dá)該特定點(diǎn)的時(shí)間為止的指令、用于代表性線程將數(shù)據(jù)存儲(chǔ)在其他線程的一個(gè)或多個(gè)有權(quán)訪問的共享存儲(chǔ)器中的指令、用于代表性線程自動(dòng)讀出和更新存儲(chǔ)在其他線程的一個(gè)或多個(gè)基于它們的線程ID有權(quán)訪問的共享存儲(chǔ)器中的數(shù)據(jù)的指令等等。CTA程序還可以包括計(jì)算數(shù)據(jù)將從其讀出的共享存儲(chǔ)器中的地址的指令,該地址是線程ID的函數(shù)。通過定義合適的函數(shù)并提供同步技術(shù),可以以可預(yù)測(cè)的方式由CTA的一個(gè)線程將數(shù)據(jù)寫入共享存儲(chǔ)器中的給定位置并由同一個(gè)CTA的不同線程從該位置讀出數(shù)據(jù)。因此,數(shù)據(jù)在線程之間共享的任意期望形式可以得到支持,以及CTA中的任意線程可以與同一個(gè)CTA中的任意其他線程分享數(shù)據(jù)。如果存在數(shù)據(jù)在CTA的線程之間的共享,則其范圍由CTA程序確定;因此,應(yīng)該理解在使用CTA的特定應(yīng)用中,CTA的線程可能會(huì)或可能不會(huì)真正互相分享數(shù)據(jù),這取決于CTA程序,術(shù)語“CTA”和“線程陣列”在本文作為同義詞使用。圖3C為根據(jù)本公開一個(gè)實(shí)施例的圖3B的SM 310的框圖。SM 310包括配置為經(jīng)由L1.5高速緩存335從存儲(chǔ)器接收指令和常數(shù)的指令LI高速緩存370。warp調(diào)度器和指令單元312從指令LI緩沖370接收指令和常數(shù)并根據(jù)該指令和常數(shù)控制本地寄存器堆304和SM310功能單元。SM 310功能單元包括N個(gè)exec (執(zhí)行或處理)單元302和P個(gè)加載-存儲(chǔ)單元(LSU) 303。SM 310提供具有不同級(jí)別的可訪問性的片上(內(nèi)部)數(shù)據(jù)存儲(chǔ)。特殊寄存器(未示出)對(duì)于LSU 303可讀但不可寫并且用于存儲(chǔ)定義每個(gè)線程的“位置”的參數(shù)。在一個(gè)實(shí)施例中,特殊寄存器包括每線程(或SM 310內(nèi)的每exec單元302)—個(gè)的存儲(chǔ)線程ID的寄存器;每個(gè)線程ID寄存器僅由各自的exec單元302可訪問。特殊寄存器還可以包括附加寄存器,其對(duì)于執(zhí)行由TMD 322所代表`的同一個(gè)處理任務(wù)的所有線程(或由所有LSU 303)可讀,其存儲(chǔ)CTA標(biāo)識(shí)符、CTA維數(shù)、CTA所屬網(wǎng)格(grid)的維數(shù)(或隊(duì)列位置,如果TMD 322編碼隊(duì)列任務(wù)而不是網(wǎng)格任務(wù)的話)、以及CTA被指派到的TMD 322的標(biāo)識(shí)符。如果TMD 322是網(wǎng)格TMD,則TMD 322的執(zhí)行會(huì)啟動(dòng)和執(zhí)行固定數(shù)量的CTA以處理存儲(chǔ)在隊(duì)列525中的固定量的數(shù)據(jù)。將CTA的數(shù)量指定為網(wǎng)格寬度、高度和深度的乘積??梢詫⒐潭康臄?shù)據(jù)存儲(chǔ)在TMD 322中或TMD 322可以存儲(chǔ)指向?qū)⒂蒀TA所處理的數(shù)據(jù)的指針。TMD 322還存儲(chǔ)由CTA所執(zhí)行的程序的開始地址。如果TMD 322是隊(duì)列TMD,那么使用TMD 322的隊(duì)列特點(diǎn),這意味著將要被處理的數(shù)據(jù)量不一定是固定的。隊(duì)列條目存儲(chǔ)用于由指派到TMD 322的CTA所處理的數(shù)據(jù)。隊(duì)列條目還可以代表在線程執(zhí)行期間由另一個(gè)TMD 322所生成的子任務(wù),從而提供嵌套并行性。通常線程或包括線程的CTA的執(zhí)行被掛起直到子任務(wù)的執(zhí)行完成??梢詫㈥?duì)列存儲(chǔ)在TMD 322中或與TMD 322分開存儲(chǔ),在該情況下TMD 322存儲(chǔ)指向該隊(duì)列的指針。有利地,當(dāng)代表子任務(wù)的TMD 322正在執(zhí)行時(shí)可以將由子任務(wù)所生成的數(shù)據(jù)寫到隊(duì)列。隊(duì)列可以實(shí)現(xiàn)為循環(huán)隊(duì)列以使得數(shù)據(jù)的總量不限于隊(duì)列的大小。
屬于網(wǎng)格的CTA具有指示網(wǎng)格內(nèi)各自CTA的位置的隱含網(wǎng)格寬度、高度和深度參數(shù)。在初始化期間響應(yīng)于經(jīng)由前端212從設(shè)備驅(qū)動(dòng)程序103所接收的命令來寫特殊寄存器并且在處理任務(wù)的執(zhí)行期間特殊寄存器不改變。前端212調(diào)度每個(gè)處理任務(wù)用于執(zhí)行。每個(gè)CTA均與特定TMD 322相關(guān)聯(lián)用于一個(gè)或多個(gè)任務(wù)的并發(fā)執(zhí)行。此外,單個(gè)GPC208可以并發(fā)執(zhí)行多個(gè)任務(wù)。參數(shù)存儲(chǔ)器(未示出)存儲(chǔ)可由同一個(gè)CTA內(nèi)的任意線程(或任意LSU 303)讀取但不可由其寫入的運(yùn)行時(shí)間參數(shù)(常數(shù))。在一個(gè)實(shí)施例中,設(shè)備驅(qū)動(dòng)程序103在引導(dǎo)SM 310開始執(zhí)行使用參數(shù)的任務(wù)之前將這些參數(shù)提供給參數(shù)存儲(chǔ)器。任意CTA內(nèi)的任意線程(或SM 310內(nèi)的任意exec單元302)均可以通過存儲(chǔ)器接口 214訪問全局存儲(chǔ)器??梢詫⑷执鎯?chǔ)器的各部分存儲(chǔ)在LI高速緩存320中。每個(gè)線程均將本地寄存器堆304用作暫存空間;每個(gè)寄存器被分配以專用于一個(gè)線程,并且在本地寄存器堆304的任意一個(gè)中的數(shù)據(jù)僅對(duì)于寄存器被分配到的線程可訪問。本地寄存器堆304可以實(shí)現(xiàn)為物理上或邏輯上分為P個(gè)通道的寄存器堆,每個(gè)通道具有一定數(shù)量的條目(其中每個(gè)條目可以存儲(chǔ)例如32位字)。將一個(gè)通道指派到N個(gè)exec單元中和P個(gè)下載-存儲(chǔ)單元LSU 303的每一個(gè),并且利用用于執(zhí)行同一個(gè)程序的不同線程的數(shù)據(jù)來填充不同通道中的相應(yīng)條目以幫助SIMD執(zhí)行??梢詫⑼ǖ赖牟煌糠址峙涞紾個(gè)并發(fā)線程組中的不同線程組,以使得本地寄存器堆304中的給定條目?jī)H對(duì)于特定線程可訪問。在一個(gè)實(shí)施例中,保留本地寄存器堆304內(nèi)的某些條目用于存儲(chǔ)線程標(biāo)識(shí)符,這實(shí)現(xiàn)特殊寄存器之一。此外,標(biāo)準(zhǔn)LI高速緩存375存儲(chǔ)用于N個(gè)exec單元302和P個(gè)下載-存儲(chǔ)單元LSU 303的每個(gè)通道的標(biāo)準(zhǔn)或常數(shù)值。共享存儲(chǔ)器306對(duì)于單個(gè)CTA內(nèi)的線程可訪問;換言之,共享存儲(chǔ)器306中的任意位置對(duì)于同一個(gè)CTA內(nèi)的任意線程(或?qū)τ赟M 310內(nèi)的任意處理引擎)可訪問。共享存儲(chǔ)器306可以實(shí)現(xiàn)為具有允許任意處理引擎對(duì)共享存儲(chǔ)器中的任意位置讀取或?qū)懭氲幕ミB的共享寄存器堆或共享片上高速緩存存儲(chǔ)器。在其他實(shí)施例中,共享狀態(tài)空間可能映射到片外存儲(chǔ)器的每CTA區(qū)域上并被高速緩存在LI高速緩存320中。參數(shù)存儲(chǔ)器可以實(shí)現(xiàn)為在實(shí)現(xiàn)共享存儲(chǔ)器3 06的同一個(gè)共享寄存器堆或共享高速緩存存儲(chǔ)器內(nèi)的指定部分,或者實(shí)現(xiàn)為LSU 303對(duì)其具有只讀訪問權(quán)限的單獨(dú)的共享寄存器堆或片上高速緩存存儲(chǔ)器。在一個(gè)實(shí)施例中,實(shí)現(xiàn)參數(shù)存儲(chǔ)器的區(qū)域還用于存儲(chǔ)CTA ID和任務(wù)ID,以及CTA和網(wǎng)格維數(shù)或隊(duì)列位置,這實(shí)現(xiàn)特殊寄存器的各部分。SM 310中的每個(gè)LSU 303均耦合到統(tǒng)一地址映射單元352,統(tǒng)一地址映射單元352將為在統(tǒng)一存儲(chǔ)器空間中所指定的加載和存儲(chǔ)指令所提供的地址轉(zhuǎn)換為每個(gè)相異存儲(chǔ)器空間中的地址。因此,指令可以用于通過指定統(tǒng)一存儲(chǔ)器空間中的地址來訪問本地、共享或全局存儲(chǔ)器空間中的任意一個(gè)。每個(gè)SM 310中的LI高速緩存320可以用于高速緩存私有的每線程本地?cái)?shù)據(jù)還有每應(yīng)用全局?jǐn)?shù)據(jù)。在一些實(shí)施例中,可以將每CTA共享數(shù)據(jù)高速緩存在LI高速緩存320中。LSU 303經(jīng)由存儲(chǔ)器和高速緩存互連380耦合到共享存儲(chǔ)器306和LI高速緩存320。指令調(diào)度圖4為根據(jù)本公開一個(gè)示范性實(shí)施例的圖3C的warp調(diào)度器和指令單元312的框圖。如圖4所示,warp調(diào)度器和指令單元312包括指令高速緩存獲取單元412,其配置為從指令LI高速緩存370獲取包含用于warp的指令的高速緩存線。在一個(gè)實(shí)施例中,每個(gè)高速緩存線均為512位寬,在單個(gè)高速緩存線中存儲(chǔ)八個(gè)指令(64位寬)。指令高速緩存獲取單元412在沒有解碼從指令LI高速緩存370獲取的指令的情況下將指令路由到指令獲取緩沖區(qū)(IFB) 422用于臨時(shí)存儲(chǔ)。此外,指令高速緩存獲取單元412將與指令相關(guān)聯(lián)的預(yù)解碼數(shù)據(jù)路由到指令預(yù)解碼緩沖區(qū)(IPB) 424和宏調(diào)度器單元420。預(yù)解碼數(shù)據(jù)可以編碼與指令相關(guān)聯(lián)的(由編譯器預(yù)定的)延遲值(例如,執(zhí)行該指令將在來自warp的下一個(gè)指令可以執(zhí)行之前需要4個(gè)時(shí)鐘周期)。預(yù)解碼數(shù)據(jù)可以指示指令必須與下一個(gè)指令在同一調(diào)度周期中發(fā)出。預(yù)解碼數(shù)據(jù)可以指示指令和下一個(gè)指令應(yīng)該在連續(xù)的調(diào)度周期中發(fā)出。最后,預(yù)解碼指令可以為指令調(diào)整選擇優(yōu)先級(jí)級(jí)別以增加或減少當(dāng)用于另一線程組的指令沒有資格被發(fā)出時(shí)該指令被選擇以發(fā)出的可能性。在一個(gè)實(shí)施例中,可通過僅解碼指令的一部分(例如解碼指令的前3位)來生成預(yù)解碼數(shù)據(jù)。應(yīng)該理解無論在實(shí)施解碼操作所需的時(shí)鐘周期的數(shù)目方面還是在SM 310中的物理邏輯電路量方面,僅解碼指令的該一小部分遠(yuǎn)比解碼整個(gè)64位指令更加高效。在另一實(shí)施例中,預(yù)解碼數(shù)據(jù)可以作為單獨(dú)的指令包括在高速緩存線中。例如,用于PPU 202的ISA (指令集架構(gòu))可以定義特殊指令(ss-1nst),其當(dāng)由PPU 202所解碼用于執(zhí)行時(shí)相當(dāng)于NOP (無實(shí)施操作)指令。當(dāng)程序被編譯以產(chǎn)生機(jī)器代碼用于在PPU 202上執(zhí)行各線程時(shí),編譯器可配置為將ss-1nst指令寫到存儲(chǔ)器每行的開始(其中存儲(chǔ)器的每行均與高速緩存線寬相對(duì)應(yīng))。ss-1nst可以包括將指令標(biāo)識(shí)為ss-1nst指令的8位操作碼以及七個(gè)8位值,所述七個(gè)8位值存儲(chǔ)用于被寫到存儲(chǔ)器相應(yīng)行的其他七個(gè)指令的每一個(gè)的預(yù)解碼數(shù)據(jù)。在又一實(shí)施例中,可以通過其他技術(shù)可行的手段,諸如通過將預(yù)解碼數(shù)據(jù)寫到PPU 202中的特殊寄存器來將預(yù)解碼數(shù)據(jù)傳遞到宏調(diào)度器單元420和IPB 424。在一個(gè)實(shí)施例中,IPB 424實(shí)現(xiàn)簡(jiǎn)單讀調(diào)度器以確保warp FIFO 442不為空。在一個(gè)實(shí)施例中,warp FIFO 442可以實(shí)現(xiàn)為存儲(chǔ)與經(jīng)調(diào)度以在SM 310上執(zhí)行的warp的每一個(gè)相對(duì)應(yīng)的ss-1nst指令的若干FIFO。IPB 424使高速緩存獲取能夠與將指令分派到SM 310的邏輯單元相異步地實(shí)施。宏 調(diào)度器單元420維護(hù)與在SM 310上所調(diào)度的warp的每一個(gè)相關(guān)聯(lián)的優(yōu)先級(jí)并基于優(yōu)先級(jí)實(shí)施與所獲取的指令相關(guān)聯(lián)的預(yù)解碼數(shù)據(jù)的排序。例如,宏調(diào)度器單元420可以在任意給定時(shí)間維護(hù)與在SM 310上所調(diào)度的16個(gè)不同warp的每一個(gè)相關(guān)聯(lián)的6位或10位優(yōu)先級(jí)值。可以基于各因素來指派優(yōu)先級(jí)。在一個(gè)實(shí)施例中,優(yōu)先級(jí)可以基于何時(shí)在SM 310上調(diào)度warp (即最長掛起的warp可以具有最高的優(yōu)先級(jí))。在其他實(shí)施例中,對(duì)于每個(gè)warp可由程序指定優(yōu)先級(jí),其由該warp所執(zhí)行的指令來定義。在一個(gè)實(shí)施例中,宏調(diào)度器單元420每j個(gè)時(shí)鐘周期實(shí)施一次新的排序。例如,對(duì)于16個(gè)warp,宏調(diào)度器單元420可以每4個(gè)時(shí)鐘周期實(shí)施一次優(yōu)先級(jí)排序。在第一時(shí)鐘周期中,宏調(diào)度器單元420可以對(duì)于16個(gè)掛起warp的每一個(gè)采樣當(dāng)前的優(yōu)先級(jí)值,優(yōu)先級(jí)的起始順序基于前一次排序順序。在第二時(shí)鐘周期中,宏調(diào)度器單元420基于與兩個(gè)warp
相關(guān)聯(lián)的優(yōu)先級(jí)值來比較并交換warpO和warp2、warpl和warp3、warp4和warp6......以及
warp 13和15(warp0與最高優(yōu)先級(jí)值相對(duì)應(yīng)而warpl5與最低優(yōu)先級(jí)值相對(duì)應(yīng))。在第三時(shí)鐘周期中,宏調(diào)度器單元420基于優(yōu)先級(jí)值來比較并交換warpO和warpl、warp2和warp3、
warp4和warp5......以及warpl4和15。在第四時(shí)鐘周期中,宏調(diào)度器單元420比較并交換
warp I和warp2、warp 3和warp4......以及warpl3和14。之后由微調(diào)度器仲裁器440使用基于該優(yōu)先級(jí)排序的新順序來確定從哪個(gè)warp分派下一個(gè)指令。微調(diào)度器仲裁器440基于對(duì)由宏調(diào)度器單元420所生成的warp順序的優(yōu)先級(jí)調(diào)整和預(yù)解碼數(shù)據(jù)來選擇存儲(chǔ)在IFB 422中的指令。微調(diào)度器仲裁器440不一定按照由宏調(diào)度器單元420所指定的新順序來選擇指令。當(dāng)?shù)谝恢噶羁梢曰陬A(yù)解碼數(shù)據(jù)發(fā)出時(shí),該指令由微調(diào)度器仲裁器440發(fā)出。當(dāng)?shù)谝恢噶畈豢苫陬A(yù)解碼數(shù)據(jù)發(fā)出時(shí),微調(diào)度器仲裁器440確定用于不同warp的指令是否可以基于用于各指令的預(yù)解碼數(shù)據(jù)而發(fā)出。在某些情況下,第一指令可以發(fā)出,除非預(yù)解碼數(shù)據(jù)指定第一指令是低優(yōu)先級(jí),使得(來自不同warp的)另一指令可以代替發(fā)出。在所有情況下,用于每個(gè)warp個(gè)體的指令按照從宏調(diào)度器單元420所接收的用于各warp個(gè)體的指令的順序而發(fā)出。因此,對(duì)于任意調(diào)度周期,微調(diào)度器仲裁器440按照由宏調(diào)度器單元420所提供的新順序來考慮第一指令用于選擇。取決于用于第一指令的預(yù)解碼數(shù)據(jù),微調(diào)度器仲裁器440可以從不同的warp選擇指令。微調(diào)度器仲裁器440維護(hù)SM 310的狀態(tài)模式,所述SM 310的狀態(tài)模式基于所發(fā)出的指令而更新。該狀態(tài)模式允許微調(diào)度器仲裁器440基于程序的動(dòng)態(tài)執(zhí)行和SM 310內(nèi)資源的可用性來選擇指令。例如,可以將執(zhí)行指令的SM 310或SM 310內(nèi)的功能單元標(biāo)識(shí)為指令所需的資源并且資源的可用性可以由微調(diào)度器仲裁器440使用?!┪⒄{(diào)度器仲裁器440選擇了下一個(gè)指令以發(fā)出,則微調(diào)度器仲裁器440就使得指令從IFB 422路由到解碼單元450。在一些實(shí)施例中,取決于SM 310的架構(gòu),指令可以是雙重或四重發(fā)出的,這意味著在特定時(shí)鐘周期中可以發(fā)出并解碼一個(gè)以上的指令。解碼單元450從IFB 422接收所要分派的下一個(gè)指令。解碼單元450實(shí)施指令的全解碼并將所解碼的指令傳輸?shù)椒峙蓡卧?70。另外,在一些實(shí)施例中,指令可以是雙重或四重發(fā)出的并且解碼單元450可以對(duì)每個(gè)所發(fā)出的指令實(shí)現(xiàn)單獨(dú)的解碼邏輯。分派單元470實(shí)現(xiàn)FIFO并將所解碼的值寫到本地寄存器堆304以由執(zhí)行單元302或加載/存儲(chǔ)單元303執(zhí)行。在同時(shí)發(fā)出多個(gè)指令的實(shí)施例中,分派單元470可以發(fā)出每個(gè)指令到SM 310的功能單元的不同部分。記分板單元480管理并追蹤每個(gè)線程組已經(jīng)解碼并分派的指令數(shù)量。 warp調(diào)度器和指令單元312還可以包括重播緩沖區(qū)430。在一些實(shí)例中,由分派單元470所分派的指令可能被SM 310中的功能執(zhí)行單元所拒絕。在這些實(shí)例中,可以將所解碼的指令存儲(chǔ)在重播緩沖區(qū)430中以在以后的時(shí)鐘周期再次發(fā)出和分派,而不是重新獲取指令和重新解碼指令。投機(jī)式(speculatively)發(fā)出和未被執(zhí)行的指令可能需要重發(fā)并輸入到重播緩沖區(qū)430。指令可能由于高速緩存未命中或不正確的分支而未被執(zhí)行。不是等待高速緩存未命中得到解決并導(dǎo)致該指令后面已經(jīng)發(fā)出的指令被延遲,而是在以后的時(shí)間重發(fā)指令。微調(diào)度器仲裁器440從重播緩沖區(qū)430接收所要重發(fā)的指令。微調(diào)度器仲裁器440通常配置為從重播緩沖區(qū)430選擇重發(fā)指令而不是選擇warpFIFO 442中的任意指令。然而,用于warp FIFO 442中的第一指令的預(yù)解碼數(shù)據(jù)可以指定即使當(dāng)重發(fā)指令可用時(shí)也應(yīng)該由微調(diào)度器仲裁器440選擇第一指令。圖5A示出了根據(jù)本公開一個(gè)示范性實(shí)施例的從指令LI高速緩存370所獲取的高速緩存線500。如圖所示,高速緩存線500為512位寬并包括八個(gè)指令。位O到63存儲(chǔ)特殊指令(ss-1nst)510,與圖4中的上述指令相似,其包括與高速緩存線500中的其他七個(gè)指令的每一個(gè)相關(guān)聯(lián)的預(yù)解碼數(shù)據(jù)。除ss-1nst 510之外,高速緩存線500的位64到127存儲(chǔ)第一指令(inst_l)521,位128到191存儲(chǔ)第二指令(inst_2) 522,位192到255存儲(chǔ)第三指令(inst_3) 523,位256到319存儲(chǔ)第四指令(inst_4) 524,位320到383存儲(chǔ)第五指令(inst_5) 525,位384到447存儲(chǔ)第六指令(inst_6) 526以及位448到512存儲(chǔ)第七指令(inst_7)527。應(yīng)該理解在不同實(shí)施例中高速緩存線500的大小可以變化。例如,在一個(gè)實(shí)施例中,指令可以是32位寬而高速緩存線500可以是256位寬。在其他實(shí)施例中,每指令的預(yù)解碼數(shù)據(jù)的量可以長于8位以及因此驅(qū)動(dòng)程序103可以將兩個(gè)連續(xù)的ss-1nst指令寫到高速緩存線500的位O到128以及將六個(gè)指令寫到位128到512中,其中每個(gè)ss-1nst為高速緩存線500中的六個(gè)指令中的三個(gè)提供預(yù)解碼數(shù)據(jù)。圖5B示出了根據(jù)本公開一個(gè)示范性實(shí)施例的圖5A的特殊指令ss_inst510。如圖5B所示,ss-1nst510包括操作碼530,所述操作碼530為8位寬并存儲(chǔ)在ss_inst510的位O到7。ss-1nst510指令還包括用于與ss-1nst510相關(guān)聯(lián)的七個(gè)指令的預(yù)解碼數(shù)據(jù)。將第一預(yù)解碼數(shù)據(jù)集(P_l) 541存儲(chǔ)在位8到15,將第二預(yù)解碼數(shù)據(jù)集(P_2) 542存儲(chǔ)在位16到23,將第三預(yù)解碼數(shù)據(jù)集(P_3)543存儲(chǔ)在位24到31,將第四預(yù)解碼數(shù)據(jù)集(P_4)544存儲(chǔ)在位32到39,將第五預(yù)解碼數(shù)據(jù)集(P_5) 545存儲(chǔ)在位40到47,將第六預(yù)解碼數(shù)據(jù)集(P_6)546存儲(chǔ)在位48到55,以及將第七預(yù)解碼數(shù)據(jù)集(P_7)547存儲(chǔ)在位56到63。如上所簡(jiǎn)要論述的,預(yù)解碼數(shù)據(jù)541-547可以編碼與為相應(yīng)指令調(diào)度信息相關(guān)聯(lián)的一個(gè)或多個(gè)值。例如,預(yù)解碼數(shù)據(jù)可以編碼具有四位(即O和15之間的值)的延遲值以及具有其他四位的特殊調(diào)度提示,諸如向warp調(diào)度器和指令單元312指示在相應(yīng)指令之后至少八個(gè)調(diào)度周期不應(yīng)發(fā)出來自同一 warp的附加指令的代碼。有被編碼在用于指令的預(yù)解碼數(shù)據(jù)中的四種不同類型的調(diào)度提示,例如缺省、配對(duì)(pair)、保持和等待。定義(固定或編程)缺省調(diào)度提示并將其用于為其指定缺省調(diào)度提示的指令。配對(duì)調(diào)度提示指定第一指令應(yīng)該在同一調(diào)度周期中與用于同一 warp的下一個(gè)指令一起發(fā)出。將為 下一個(gè)指令所指定的提示施加到與下一個(gè)指令配對(duì)的第一指令。保持調(diào)度提示指定應(yīng)該在用于任意其他warp的指令之前選擇第一指令。此外,保持調(diào)度提示還指定在第一指令之前是否可以選擇從重播緩沖區(qū)430所接收的重發(fā)指令。在一個(gè)實(shí)施例中,保持調(diào)度提示還指定對(duì)于warp是否即使先前所發(fā)出的加載或存儲(chǔ)操作尚未完成也可以發(fā)出第一指令。等待調(diào)度提示指定微調(diào)度器仲裁器440在發(fā)出第一指令之前應(yīng)該等待w個(gè)發(fā)出周期。此外,調(diào)度提示可以指示對(duì)于warp的指令應(yīng)該提高(boost)特定warp的發(fā)出優(yōu)先級(jí)。相反,調(diào)度提示可以指示應(yīng)該降低特定warp的發(fā)出優(yōu)先級(jí),使得對(duì)于給定指令來說該warp讓位以允許用于其他warp的指令發(fā)出。在為等待調(diào)度提示所指定的調(diào)度周期的數(shù)量已經(jīng)發(fā)生之后增高或降低用于warp的指令的調(diào)度優(yōu)先級(jí)。當(dāng)用于warp的指令的優(yōu)先級(jí)降低時(shí),可以指定特定數(shù)量的調(diào)度周期,在此之后調(diào)度優(yōu)先級(jí)增高回到中性水平。當(dāng)與等待調(diào)度提示相對(duì)應(yīng)的指令發(fā)出時(shí),用于warp的調(diào)度優(yōu)先級(jí)可在用于該warp的另一指令是從warp FIFO 442提供到微調(diào)度器仲裁器440的第一指令時(shí)改變。最后,調(diào)度提示還可以指示當(dāng)warp中的一個(gè)或多個(gè)線程在執(zhí)行期間發(fā)散時(shí)指令是否可能重發(fā)一次或多次。表I示出了用于每個(gè)調(diào)度提示的不同類型的預(yù)解碼數(shù)據(jù)和操作。表I調(diào)度提示類型和操作
權(quán)利要求
1.一種用于在并行計(jì)算裝置內(nèi)調(diào)度指令的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括: 從指令高速緩存單元獲取與兩個(gè)或兩個(gè)以上線程組相對(duì)應(yīng)的指令; 接收與所述指令的每一個(gè)相關(guān)聯(lián)的預(yù)解碼數(shù)據(jù),其中所述預(yù)解碼數(shù)據(jù)在編譯所述指令時(shí)確定; 在運(yùn)行時(shí)至少部分地基于所述預(yù)解碼數(shù)據(jù)來選擇第一指令以發(fā)出用于由并行處理單元執(zhí)行; 解碼所述第一指令;以及 將所述第一指令分派到所述并行處理單元用于執(zhí)行。
2.根據(jù)權(quán)利要求1所述的方法,其中所述預(yù)解碼數(shù)據(jù)編碼等待調(diào)度提示,所述等待調(diào)度提示包括在發(fā)出所述第一指令用于執(zhí)行之前發(fā)生的若干調(diào)度周期。
3.根據(jù)權(quán)利要求1所述的方法,其中所述預(yù)解碼數(shù)據(jù)指定使用缺省調(diào)度提示來調(diào)度所述第一指令。
4.根據(jù)權(quán)利要求1所述的方法,其中所述預(yù)解碼數(shù)據(jù)編碼保持調(diào)度提示,所述保持調(diào)度提示配置調(diào)度單元來選擇所述第一指令以越過以前所發(fā)出的指令而發(fā)出,所述以前所發(fā)出的指令未能執(zhí)行并為可用于發(fā)出的重發(fā)指令。
5.根據(jù)權(quán)利要求1所述的方法,其中所述預(yù)解碼數(shù)據(jù)編碼保持調(diào)度提示,所述保持調(diào)度提示配置調(diào)度單元來選擇以越過所述第一指令而發(fā)出以前所發(fā)出的指令,所述以前所發(fā)出的指令未能執(zhí)行并為可用于發(fā)出的重發(fā)指令。
6.根據(jù)權(quán)利要求 1所述的方法,其中所述預(yù)解碼數(shù)據(jù)編碼配對(duì)調(diào)度提示,所述配對(duì)調(diào)度提示配置調(diào)度單元來選擇以在單個(gè)調(diào)度周期中發(fā)出所述第一指令和第二指令,并且其中所述第一指令和所述第二指令與所述兩個(gè)或兩個(gè)以上線程組的第一線程組相關(guān)聯(lián)。
7.一種調(diào)度單元,包括: 指令高速緩存獲取單元,其配置為將與兩個(gè)或兩個(gè)以上線程組相對(duì)應(yīng)的指令路由到第一緩沖區(qū)并將與所述指令的每一個(gè)相關(guān)聯(lián)的預(yù)解碼數(shù)據(jù)路由到第二緩沖區(qū); 宏調(diào)度器單元,其耦合到所述指令高速緩存獲取單元并配置為接收預(yù)解碼數(shù)據(jù),其中所述預(yù)解碼數(shù)據(jù)在編譯所述指令時(shí)確定; 微調(diào)度器仲裁器,其耦合到所述宏調(diào)度器單元和所述第二緩沖區(qū)并配置為在運(yùn)行時(shí)至少部分地基于所述預(yù)解碼數(shù)據(jù)選擇第一指令用于由處理單元執(zhí)行; 解碼單元,其耦合到所述第一緩沖區(qū)并配置為解碼所述第一指令;以及 分派單元,其耦合到所述解碼單元并配置為將所述第一指令分派到處理單元用于執(zhí)行。
8.根據(jù)權(quán)利要求7所述的調(diào)度單元,其中所述預(yù)解碼數(shù)據(jù)編碼等待調(diào)度提示,所述等待調(diào)度提示包括在發(fā)出所述第一指令用于執(zhí)行之前發(fā)生的若干調(diào)度周期。
9.根據(jù)權(quán)利要求7所述的調(diào)度單元,其中所述預(yù)解碼數(shù)據(jù)指定使用缺省調(diào)度提示來調(diào)度所述第一指令。
10.根據(jù)權(quán)利要求7所述的調(diào)度單元,其中所述預(yù)解碼數(shù)據(jù)編碼保持調(diào)度提示,所述保持調(diào)度提示配置調(diào)度單元來選擇所述第一指令以越過以前所發(fā)出的指令而發(fā)出,所述以前所發(fā)出的指令未能執(zhí)行并為可用于發(fā)出的重發(fā)指令。
11.根據(jù)權(quán)利要求7所述的調(diào)度單元,其中所述預(yù)解碼數(shù)據(jù)編碼保持調(diào)度提示,所述保持調(diào)度提示配置調(diào)度單元來選擇以越過所述第一指令而發(fā)出以前所發(fā)出的指令,所述以前所發(fā)出的指令未能執(zhí)行 并為可用于發(fā)出的重發(fā)指令。
全文摘要
用于使用與每個(gè)指令相對(duì)應(yīng)的預(yù)解碼數(shù)據(jù)調(diào)度指令的系統(tǒng)和方法。在一個(gè)實(shí)施例中,多核處理器包括每個(gè)內(nèi)核中的調(diào)度單元,其用于每個(gè)調(diào)度周期從兩個(gè)或兩個(gè)以上線程選擇指令以在該特定內(nèi)核上執(zhí)行。隨著調(diào)度線程用于在內(nèi)核上執(zhí)行,來自線程的指令在未被解碼的情況下獲取到緩沖區(qū)中。預(yù)解碼數(shù)據(jù)由編譯器確定并在運(yùn)行時(shí)由調(diào)度單元提取以及用來控制線程的選擇用于執(zhí)行。預(yù)解碼數(shù)據(jù)可以指定在調(diào)度指令之前等待若干調(diào)度周期。預(yù)解碼數(shù)據(jù)還可以為指令指定調(diào)度優(yōu)先級(jí)。一旦調(diào)度單元選擇指令以發(fā)出用于執(zhí)行,解碼單元就完全解碼該指令。
文檔編號(hào)G06F9/38GK103226463SQ201210564589
公開日2013年7月31日 申請(qǐng)日期2012年12月21日 優(yōu)先權(quán)日2011年12月21日
發(fā)明者杰克·希萊爾·肖凱特, 羅伯特·J·斯托爾, 奧利維爾·吉普 申請(qǐng)人:輝達(dá)公司