用于性能改善的可重配置圖形處理器的制造方法
【專利摘要】可使用對圖形處理器的部分進(jìn)行功率門控來改善性能或?qū)崿F(xiàn)功率預(yù)算??蓪μ幚砥髁6热缜衅蜃忧衅M(jìn)行門控。
【專利說明】用于性能改善的可重配置圖形處理器
進(jìn)旦 冃月^
[0001]本申請總體上涉及計算機(jī)系統(tǒng)中的圖形處理。
[0002]圖形處理器在不同的處理條件下運行。在一些情況下,它們可在高功耗模式下以及在低功耗模式下運行??赡芰钊似谕氖?,在給定圖形處理器所運行的功耗模式的情況下,獲得最大的可能性能。
附圖簡要說明
圖1是本發(fā)明的一個實施例的框圖。
圖2是本發(fā)明的另一個實施例的流程圖。
圖3是本發(fā)明的一個實施例的示意圖描繪。
圖4是本發(fā)明的一個實 施例的性能相對于功率預(yù)算的假想圖;以及 圖5是一個實施例的功率預(yù)算相對于時間的假想圖。
詳細(xì)說明
[0003]在一些實施例中,圖形處理內(nèi)核自動對其自身進(jìn)行重配置以便通過對圖形處理引擎的部分進(jìn)行動態(tài)功率門控來在高功率和低功率包絡(luò)中增加或最大化性能。如在此所使用的,功率門控包括激活或去激活內(nèi)核部分。
[0004]盡管將使用平板計算機(jī)圖形處理器提供示例,相同的概念應(yīng)用于任何圖形處理器。
[0005]圖形處理內(nèi)核通常包括執(zhí)行算數(shù)、邏輯和其他操作的多個執(zhí)行單元??墒褂枚鄠€采樣器進(jìn)行紋理處理。采樣器和多個執(zhí)行單元是子切片(subslice)??苫谀繕?biāo)性能和功率預(yù)算在特定的圖形處理內(nèi)核中包括多個子切片。對子切片進(jìn)行組合以形成圖形處理切片(slice)。圖形處理內(nèi)核可包含一個或多個切片。在平板計算機(jī)圖形處理內(nèi)核中,通常使用單個切片以及一個、兩個或三個子切片設(shè)計。多切片在客戶端圖形處理器中是常見的。
[0006]因此,參見圖1,示出了典型的圖形處理器內(nèi)核,內(nèi)核10包括切片編號I (標(biāo)記為14),該切片可包括固定功能流水線邏輯16和多個子切片18a和18b。在一些實施例中,可包括更多切片和更多或更少的子切片。圖形處理內(nèi)核還包括固定功能邏輯12。
[0007]—個、兩個和三個子切片設(shè)計的功率和性能特征不同,如圖4所示。作為一個示例,性能線性地增加到性能相對于功率耗散的拐點A (例如,大約2.5瓦)。在該拐點以下,圖形處理器在頻率成比例的區(qū)域中工作,在該區(qū)域中,可在不升高工作電壓的情況下升高圖形處理器頻率。在該拐點以上,圖形處理器頻率僅在電壓也升高時才升高,這通常對功率耗散具有負(fù)面影響并且導(dǎo)致性能相對于功率耗散中比頻率成比例區(qū)域經(jīng)歷更平緩的曲線。
[0008]可對圖形處理器的子切片中的一個或多個進(jìn)行功率門控??傮w上,子切片越多,性能越高,但是性能間隙隨著可用功率預(yù)算的減少而減少并且可能在圖4中存在點B(例如,在大約1.5瓦),其中單一子切片配置表現(xiàn)得比兩子切片配置更好。這種更優(yōu)性能是由具有明顯更多泄露功率以及因此更少用于動態(tài)功率的空間的更大配置造成的。在低功率預(yù)算中,更少用于動態(tài)功率的空間可顯著地限制更大配置的頻率和性能,使得其看起來沒有更小配置那么吸引人。[0009]在一些實施例中,功率共享機(jī)制可用于實現(xiàn)圖形處理器子切片的高效動態(tài)功率門控。當(dāng)然,代替對子切片功耗進(jìn)行門控,相同的概念應(yīng)用于具有多于一個切片的實施例中的任意數(shù)量的圖形處理器切片的動態(tài)功率門控。
[0010]圖形處理器可具有功率共享功能,該功能基本上隨著時間增加(或降低)功率,如圖5所示。在特定的時間點處,可由功率控制單元為圖形處理器內(nèi)核分配特定低水平的功率預(yù)算TDP1,該功率預(yù)算迫使圖形處理器在特定頻率fl下運行,該特定頻率是允許圖形處理器不超過其分配功率預(yù)算的最大頻率。當(dāng)功率預(yù)算隨著時間增加時,圖形內(nèi)核可在逐漸更高的頻率下運行。
[0011]在子切片功率門控下,功率控制單元事先得知圖形處理器內(nèi)核可配置有全套的執(zhí)行單元和子切片或者配置有更少的執(zhí)行單元和子切片。例如,一個實施例可包括十六個執(zhí)行單元和兩個子切片并且另一種操作模式可包括八個執(zhí)行單元和一個子切片。當(dāng)圖形處理器可用的功率預(yù)算很小時,可在更小的內(nèi)核配置中配置圖形處理器,其中兩個可用子切片之一被功率門控。
[0012]總體而言,不是簡單地在任何特定時間點關(guān)閉子切片,因為其可能正在執(zhí)行有效線程。當(dāng)功率控制單元確定應(yīng)當(dāng)對子切片進(jìn)行功率門控時,立即動作是阻擋新的圖形處理線程被調(diào)度到該子切片上。因此,在已經(jīng)在子切片上執(zhí)行的線程完成并且子切片變?yōu)榭臻e之前需要一段時間。在一個實施例中,僅當(dāng)這時對子切片進(jìn)行實際功率門控。
[0013]在功率門控下,當(dāng)功率預(yù)算逐漸增加時,在某一時間點,初始關(guān)閉的子切片變?yōu)榇蜷_?;蛘?,相反地,當(dāng)處理器從高功率預(yù)算變?yōu)榈凸β暑A(yù)算時,可關(guān)閉子切片(如圖5所示)。
[0014]當(dāng)關(guān)閉子切片時,頻率可增加或翻倍(如果關(guān)閉了兩個子切片之一)。結(jié)果是,性能可保持相對穩(wěn)定,因為剩余的子切片運行得比兩個子切片快兩倍。這種頻率增加確保了從較大的未門控圖形內(nèi)核到較小的門控圖形內(nèi)核的平滑轉(zhuǎn)變(從性能角度出發(fā))。相反地,當(dāng)子切片未被門控并且我們轉(zhuǎn)變到兩切片圖形內(nèi)核時,時鐘頻率減半,以便將總體性能維持在大約相同的水平下。
[0015]如上所述的時鐘頻率改變被設(shè)計成在出現(xiàn)功率門控的時間點不顯著地中斷(例如翻倍或減半)圖形內(nèi)核的可縮放部分(圖1所示子切片邏輯)的總體性能。然而,如果功率門控的動作由于其低泄露耗散已經(jīng)產(chǎn)生了更功率高效的圖形內(nèi)核,這隨后會允許圖形內(nèi)核升高其時鐘頻率和功率耗散從而滿足其分配功率預(yù)算。這將導(dǎo)致增加的性能,而這就是功率門控的終極目標(biāo)。
[0016]另一方面,當(dāng)分配給圖形內(nèi)核的功率預(yù)算增加并允許增加子切片時,將時鐘頻率減半將初始地保留相同的性能。然而,給定增加的圖形功率預(yù)算,圖形內(nèi)核然后將被允許也升高其頻率,這將導(dǎo)致所希望的提高性能的結(jié)果。
[0017]在如上所述的動態(tài)功率門控的過程中升高或降低時鐘頻率針對圖形內(nèi)核的可縮放部分(即,圖1所示的子切片)而言運行良好。然而,如果圖形內(nèi)核的不可縮放部分(例如,固定功能邏輯12,如圖1所示)使用相同的時鐘,則改變時鐘頻率可影響并且可能限制該邏輯的性能。這將不是所希望的。為了避免這種情況,不可縮放邏輯可使用其自身的獨立時鐘,該獨立時鐘不受可縮放圖形邏輯內(nèi)的時鐘頻率改變的影響。
[0018]從較大配置切換到較小配置可改善性能,因為其提供了泄露節(jié)省并且為更動態(tài)的功率提供了空間。同時,從較大配置切換到較小配置可能潛在地導(dǎo)致增加的動態(tài)功率,因為頻率也相應(yīng)地增加了。因此,從較大配置轉(zhuǎn)變到較小配置由于相應(yīng)的頻率增加可能在所實現(xiàn)的泄露節(jié)省超過了動態(tài)功率成本時發(fā)生。當(dāng)這種情況保持時,這種轉(zhuǎn)變將存在凈功率節(jié)省并且有余地來繼續(xù)增加頻率并且實現(xiàn)凈性能增益。
[0019]因此,舉一個例子,在十六執(zhí)行單元下,兩子切片單元轉(zhuǎn)變到八執(zhí)行單元,一個子切片單元作為功率門控的結(jié)果,以下泄露增量(LD)等式適用:
【權(quán)利要求】
1.一種方法,包括: 對小于圖形處理器整體的部分進(jìn)行功率門控。
2.如權(quán)利要求1所述的方法,包括對切片進(jìn)行功率門控。
3.如權(quán)利要求1所述的方法,包括對子切片進(jìn)行功率門控。
4.如權(quán)利要求1所述的方法,包括在功率門控之后改變工作頻率。
5.如權(quán)利要求1所述的方法,包括僅在已經(jīng)完成了所述部分上的所有待決任務(wù)之后對所述部分進(jìn)行功率門控關(guān)閉。
6.如權(quán)利要求1所述的方法,包括針對功率預(yù)算的功率門控。
7.如權(quán)利要求1所述的方法,包括確定功率門控是否改善了性能。
8.如權(quán)利要求1所述的方法,包括在功率門控之后檢查功率預(yù)算。
9.如權(quán)利要求7所述的方法,包括確定目標(biāo)切換電容與目標(biāo)應(yīng)用率。
10.如權(quán)利要求9所述的方法,包括使用硅測量或能量監(jiān)測計數(shù)器之一。
11.一種非瞬態(tài)計算機(jī)可讀介質(zhì),存儲用于由計算機(jī)執(zhí)行的指令以便: 僅對圖形處理器的至少兩個部分之一進(jìn)行功率門控。
12.如權(quán)利要求11所述的介質(zhì),進(jìn)一步存儲用于對切片進(jìn)行功率門控的指令。
13.如權(quán)利要求11所述的介質(zhì),進(jìn)一步存儲用于對子切片進(jìn)行功率門控的指令。
14.如權(quán)利要求11所述的介質(zhì),進(jìn)一步存儲用于在功率門控之后改變工作頻率的指令。
15.如權(quán)利要求11所述的介質(zhì),進(jìn)一步存儲用于僅在已經(jīng)完成了所述部分上的所有待決任務(wù)之后對所述部分進(jìn)行功率門控關(guān)閉的指令。
16.如權(quán)利要求11所述的介質(zhì),進(jìn)一步存儲用于針對功率預(yù)算的功率門控的指令。
17.如權(quán)利要求11所述的介質(zhì),進(jìn)一步存儲用于確定功率門控是否改善了性能的指令。
18.如權(quán)利要求11所述的介質(zhì),進(jìn)一步存儲用于在功率門控之后檢查功率預(yù)算的指令。
19.如權(quán)利要求17所述的介質(zhì),進(jìn)一步存儲用于確定目標(biāo)切換電容與目標(biāo)應(yīng)用率的指令。
20.如權(quán)利要求19所述的介質(zhì),進(jìn)一步存儲用于使用硅測量或能量監(jiān)測計數(shù)器之一的指令。
21.—種圖形處理器,包括: 所述圖形處理器的第一和第二獨立可門控的部分;以及 用于對所述圖形處理器的第一部分而不是所述第二部分進(jìn)行功率門控的邏輯。
22.如權(quán)利要求21所述的圖形處理器,所述邏輯用于對切片進(jìn)行功率門控。
23.如權(quán)利要求21所述的圖形處理器,所述邏輯用于對子切片進(jìn)行功率門控。
24.如權(quán)利要求21所述的圖形處理器,所述邏輯用于在功率門控之后改變工作頻率。
25.如權(quán)利要求21所述的圖形處理器,所述邏輯用于僅在已經(jīng)完成了所述部分上的所有未決任務(wù)之后對所述部分進(jìn)行功率門控關(guān)閉。
26.如權(quán)利要求21所述的圖形處理器,所述邏輯用于針對功率預(yù)算進(jìn)行功率門控。
27.如權(quán)利要求21所述的圖形處理器,所述邏輯用于確定功率門控是否改善了性能。
28.如權(quán)利要求21所述的圖形處理器,所述邏輯用于在功率門控之后檢查功率預(yù)算。
29.如權(quán)利要求27所述的圖形處理器,所述邏輯用于確定目標(biāo)切換電容與目標(biāo)應(yīng)用率。
30.如權(quán)利要求29所述的圖形處理器,所述邏輯用于使用硅測量或能量監(jiān)測計數(shù)器之一。
【文檔編號】G06F1/26GK103959196SQ201180074955
【公開日】2014年7月30日 申請日期:2011年11月21日 優(yōu)先權(quán)日:2011年11月21日
【發(fā)明者】N·卡布拉塞斯, E·C·薩姆森 申請人:英特爾公司