亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

在單片構(gòu)造的硅芯片上采用多個(gè)圖形核心的圖形處理和顯示系統(tǒng)的制作方法

文檔序號(hào):6566519閱讀:184來源:國知局
專利名稱:在單片構(gòu)造的硅芯片上采用多個(gè)圖形核心的圖形處理和顯示系統(tǒng)的制作方法
技術(shù)領(lǐng)域
在過去的幾十年間,圖形架構(gòu)領(lǐng)域的許多研究和開發(fā)都涉及改善三維(3D)計(jì)算 機(jī)圖形渲染的性能的方法。圖形架構(gòu)受到已推動(dòng)通用計(jì)算機(jī)架構(gòu)的半導(dǎo)體技術(shù)的相同發(fā)展 的推動(dòng)。包括管道處理和并行性等許多相同的加速技術(shù)被用在該領(lǐng)域中。然而,圖形渲染 應(yīng)用提出了特別的需求并制造了新機(jī)會(huì)。例如,由于圖形顯示一般涉及大量重復(fù)計(jì)算,所以 能夠比通用計(jì)算更容易地采用大量并行性。在高性能圖形系統(tǒng)中,計(jì)算的次數(shù)大大超過單處理單元的能力,所以并行系統(tǒng)已 成為圖形架構(gòu)的規(guī)則?,F(xiàn)今,非常高度的并行性被應(yīng)用在基于硅的圖形處理單元(GPU)中 以執(zhí)行圖形計(jì)算。通常這些計(jì)算通過由作為圖形系統(tǒng)的一部分的視頻存儲(chǔ)器支持的圖形管道來執(zhí) 行。

圖1A示出了作為PC架構(gòu)的一部分的常規(guī)圖形系統(tǒng)的框圖,包括CPU(lll)、系統(tǒng)存儲(chǔ)器 (112)、1/0 芯片集(113)、高速 CPU-GPU 總線(114)(例如,PCIExpress 16x)、基于單 GPU 的 視頻(圖形)卡(115)、以及顯示器(116)。如圖1B所示,該單GPU圖形管道分解為兩個(gè)主 要部分用于處理3D圖形圖元(例如,多邊形)的幾何子系統(tǒng)以及用于計(jì)算像素值的像素 子系統(tǒng)。這兩部分是為增強(qiáng)的并行性一致地設(shè)計(jì)的。在幾何子系統(tǒng)中,圖形數(shù)據(jù)庫是規(guī)則的,通常由接受幾乎相同的處理的大量圖元 構(gòu)成;因此自然的并發(fā)性是將數(shù)據(jù)分為單獨(dú)的流并獨(dú)立地處理它們。在像素子系統(tǒng)中,由于 像素能夠以許多方法并行地生成,所以圖像并行性很早就是用于高速光柵化架構(gòu)的有吸引 力的方法。圖2A中描繪了現(xiàn)有技術(shù)中高度并行圖形處理單元芯片(GPU)的一個(gè)示例(取 自ATI的3D Architecture White Paper (3D架構(gòu)白皮書))。幾何子系統(tǒng)由六(6)個(gè)并行 管道構(gòu)成而像素子系統(tǒng)有十六個(gè)(16)個(gè)并行管道。然而,如圖2B所示,這兩個(gè)子系統(tǒng)之間的“匯集級(jí)” 221是非常有問題的,因?yàn)樗?必須處理全數(shù)據(jù)流帶寬。在像素子系統(tǒng)中,經(jīng)變換和剪裁的圖元的多個(gè)流必須被定向到進(jìn) 行光柵化的處理器。這可能要求在不同的處理器被指派給不同的屏幕區(qū)域的同時(shí)根據(jù)空間 信息分類圖元。并行像素級(jí)中的第二個(gè)困難是在數(shù)據(jù)通過并行處理器時(shí)數(shù)據(jù)排序可能會(huì)改 變。例如,一個(gè)處理器在另一處理器變換單個(gè)大的圖元之前可能會(huì)變換兩個(gè)小的圖元。諸 如更新一個(gè)窗口以代替另一窗口、或在兩個(gè)緩沖器之間切換等命令的某些全局命令要求數(shù) 據(jù)在命令前后被同步。幾何與像素級(jí)之間的這一匯集級(jí)限制了單GPU中的并行性。增強(qiáng)并行性程度的典型技術(shù)采用多個(gè)GPU卡、或在卡上采用多個(gè)GPU芯片,其中 渲染性能被額外地提升,超出了單核GPU中的匯集限制?,F(xiàn)今,該技術(shù)由多個(gè)學(xué)術(shù)研究成 果(例如,斯坦福大學(xué)的Chromium并行圖形系統(tǒng))和商業(yè)產(chǎn)品(例如,Nvidia的雙GPU系 統(tǒng)——SLI、ATI的雙GPU——Crossfire)來實(shí)施。圖3示出了基于Nvidia SLI技術(shù)的商 用雙 GPU 系統(tǒng) Asus A8N-SLI。并行化能夠通過釋放圖形系統(tǒng)中的瓶頸來提高性能。圖2C指示分解為總線傳輸、 幾何處理以及片段填充界限處理等分段級(jí)的圖形管道中典型的瓶頸。一給定管道僅與以上各級(jí)中最薄弱的一個(gè)環(huán)節(jié)一樣強(qiáng)壯,因此主瓶頸決定總吞吐量。如圖2C中所指示的,管道 瓶頸源于(231)幾何、紋理、動(dòng)畫以及元數(shù)據(jù)傳輸;(232)幾何數(shù)據(jù)存儲(chǔ)器限制;(233)紋 理數(shù)據(jù)存儲(chǔ)器限制;(234)幾何變換;以及(235)片段渲染。
有不同的方法使GPU并行化,諸如時(shí)間分割(每個(gè)GPU渲染下一連續(xù)幀);圖像 分割(每個(gè)GPU渲染每幀像素的一個(gè)子集);以及對(duì)象分割(每個(gè)GPU渲染包括幾何和紋理 在內(nèi)的整個(gè)數(shù)據(jù)的一個(gè)子集);及其衍生和組合。雖然有前景,但是這種使GPU芯片群集并 行化的方法也會(huì)遭遇一些固有的問題,諸如受限的GPU間通信帶寬;機(jī)械復(fù)雜度(例如, 尺寸、功率、以及發(fā)熱);組件冗余;以及高成本。因此,在本領(lǐng)域非常需要一種避免此類現(xiàn)有技術(shù)的裝置和方法的不足和缺陷的、 用于高速圖形處理和顯示的改善的方法和裝置。發(fā)明公開相應(yīng)地,本發(fā)明的主要目的是提供一種避免現(xiàn)有技術(shù)的裝置和方法的不足和缺陷 的、用于高速圖形顯示和處理的新穎方法和裝置。本發(fā)明的另一目的是提供一種包含具有無限制圖形并行性的多個(gè)圖形核心的新 穎圖形處理和顯示系統(tǒng),其避開了單GPU系統(tǒng)的固有匯集瓶頸。本發(fā)明的另一目的是提供一種確保最佳圖形性能、消除受限的GPU間通信帶寬、 機(jī)械復(fù)雜度(尺寸、功能、以及發(fā)熱)、組件冗余、以及高成本等多芯片系統(tǒng)的不足的新穎圖 形處理和顯示系統(tǒng)。本發(fā)明的另一目的是提供一種通過并行化單硅芯片中的多個(gè)圖形核心而具有增 強(qiáng)的圖形處理和顯示能力的新穎圖形處理和顯示系統(tǒng)。本發(fā)明的另一目的是提供一種在具有不受限數(shù)目的多個(gè)圖形核心的硅芯片上實(shí) 現(xiàn)的新穎圖形處理和顯示系統(tǒng)。本發(fā)明的另一目的是提供一種在利用多個(gè)圖形核心的群集的硅芯片上實(shí)現(xiàn)的新 穎圖形處理和顯示系統(tǒng)。本發(fā)明的另一目的是提供一種在具有多個(gè)圖形核心或管道(S卩,多管道芯片上系 統(tǒng),或MP-S0C)并提供架構(gòu)靈活性以實(shí)現(xiàn)先進(jìn)的并行圖形顯示性能的硅芯片上實(shí)現(xiàn)的新穎 圖形處理和顯示系統(tǒng)。本發(fā)明的另一目的是提供一種在具有多個(gè)圖形核心、并在其幾何和像素處理子系 統(tǒng)兩者內(nèi)自適應(yīng)地支持不同并行模式的硅芯片上實(shí)現(xiàn)的新穎圖形處理和顯示系統(tǒng)。本發(fā)明另一目的是提供一種在具有多個(gè)GPU核心、并提供針對(duì)高度先進(jìn)的圖形處 理和顯示性能的自適應(yīng)性的硅芯片上實(shí)現(xiàn)的新穎圖形處理和顯示系統(tǒng)。本發(fā)明另一目的是提供一種新穎圖形處理和顯示系統(tǒng)及方法,其中頂點(diǎn)(例如, 3D多邊形幾何)處理和片段處理的圖形管道瓶頸被透明而巧妙地解決。本發(fā)明的另一目的是提供一種用于巧妙分解數(shù)據(jù)和圖形命令、保持圖形庫的基本 特征作為狀態(tài)機(jī)、并緊密遵循圖形標(biāo)準(zhǔn)的方法和系統(tǒng)。本發(fā)明的另一目的是提供一種支持在具有多個(gè)圖形核心并提供架構(gòu)靈活性以實(shí) 現(xiàn)最佳并行性能的硅芯片上實(shí)現(xiàn)的圖形處理和顯示系統(tǒng)的新型PC圖形卡。本發(fā)明的另一目的是提供一種具有改善的圖形處理和顯示能力、采用包含具有多 個(gè)圖形核心并提供架構(gòu)靈活性以實(shí)現(xiàn)最佳并行性能的硅芯片的圖形卡的計(jì)算系統(tǒng)。
本發(fā)明的另一目的是提供這樣一種計(jì)算系統(tǒng),其具有包括視頻游戲、虛擬現(xiàn)實(shí)、科 學(xué)可視化、以及要求或需要擬真(photo realistic)圖形顯示能力的其它交互應(yīng)用在內(nèi)的 應(yīng)用所要求的改善的圖形處理和顯示性能。本發(fā)明的這些和其它目的和優(yōu)點(diǎn)將通過下文而顯而易見。 附圖簡述為了更為全面地理解如何實(shí)施本發(fā)明的目的,可結(jié)合在以下簡述的附圖一起閱讀 以下對(duì)說明性實(shí)施例的具體說明,附圖中圖IA是現(xiàn)有技術(shù)的標(biāo)準(zhǔn)PC架構(gòu)的示意性表示,其中其常規(guī)單GPU圖形卡被圈出 顯不;圖IB是具有幾何和像素處理子系統(tǒng)的采用單GPU的現(xiàn)有技術(shù)常規(guī)圖形系統(tǒng)的簡 化框圖,其間的數(shù)據(jù)匯集流成為顯著限制性能的嚴(yán)重的系統(tǒng)瓶頸;圖2A是示出了典型現(xiàn)有技術(shù)的ATI X800圖形處理單元芯片(GPU)中的高度并行 性的示意圖,其中幾何子系統(tǒng)由6個(gè)并行管道構(gòu)成而像素子系統(tǒng)由16個(gè)并行管道構(gòu)成;圖2B是示出了幾何與像素并行引擎之間的瓶頸匯集級(jí)(裝配引擎)的現(xiàn)有技術(shù) 圖形處理單元(GPU)芯片(例如,ATI X800)的內(nèi)部的示意圖;圖2C是示出了其間存在數(shù)據(jù)瓶頸問題的常規(guī)圖形管道的示意性表示;圖3是現(xiàn)有技術(shù)雙GPU驅(qū)動(dòng)視頻圖形卡的照片;圖4A是表示根據(jù)本發(fā)明的原理的采用了使用多管道芯片上系統(tǒng)(MP-SOC)器件的 印刷電路圖形卡的計(jì)算系統(tǒng)的示意性系統(tǒng)框圖,其中該系統(tǒng)框圖示出了 CPU、I/O芯片集、 系統(tǒng)存儲(chǔ)器、基于MP-SOC的圖形卡、以及(諸)顯示器屏幕;圖4B是搭載在印刷電路(PC)視頻圖形板上的、本發(fā)明的MP-SOC的物理實(shí)現(xiàn)的示 意性表示;圖4C是主板上與本發(fā)明的基于MP-SOC的PC圖形板互聯(lián)的標(biāo)準(zhǔn)PCI Express圖 形插槽的照片;圖4D是根據(jù)本發(fā)明的原理的包括4個(gè)由GPU驅(qū)動(dòng)的管道核心的示例性MP-SOC硅 布局的示意性表示;圖4E是本發(fā)明的MP-SOC芯片的示例性封裝的示意性表示;圖5是根據(jù)本發(fā)明的說明性實(shí)施例的MP-SOC架構(gòu)的示意性框圖;圖6是根據(jù)本發(fā)明的說明性實(shí)施例的基于MP-SOC的計(jì)算系統(tǒng)的軟件框圖;圖7A是進(jìn)一步示出了本發(fā)明的說明性實(shí)施例的包括基于MP-SOC的系統(tǒng)的多管道 軟件驅(qū)動(dòng)器的模塊的示意性框圖;圖7B是示出了本發(fā)明的由運(yùn)行三個(gè)并行化模式(即,對(duì)象分割、圖像分割和時(shí)間 分割)的機(jī)制在基于MP-SOC的器件和系統(tǒng)內(nèi)執(zhí)行的步驟的流程圖;圖8是示出了本發(fā)明的MP-SOC系統(tǒng)的對(duì)象分割配置的示意性表示;圖9是示出了本發(fā)明的MP-SOC系統(tǒng)的圖像分割配置的示意性表示;圖10是示出了本發(fā)明的MP-SOC系統(tǒng)的時(shí)間分割配置的示意性表示;圖11是示出了本發(fā)明的在沿基于MP-SOC系統(tǒng)的多個(gè)GPU驅(qū)動(dòng)的管道核心之間分 布多邊形的過程的流程圖;以及圖12示出了根據(jù)本發(fā)明的原理的被配置為并行模式的組合的八⑶個(gè)GPU驅(qū)動(dòng)的管道核心的示例。實(shí)施本發(fā)明的最佳模式在通過援引包括于此的作為WIPO公報(bào)No. WO 2005/050557 A2公開的、申請(qǐng)人的在先PCT申請(qǐng)NO.PCT/IL04/001069號(hào)中所教導(dǎo)的技術(shù)教授了一種包括硬件中樞(Hub)和 軟件中樞驅(qū)動(dòng)器的圖形可升級(jí)的中樞架構(gòu)的使用,該中樞架構(gòu)起到將現(xiàn)貨GPU芯片粘合在 一起(即,并行地工作)以提供高性能和可升級(jí)的可視化方案、對(duì)象分割分解算法、采用多 個(gè)并行模式及其組合、以及自適應(yīng)的并行模式管理的作用。并且,通過援引包括于此的作為 WIPO 公報(bào) No. WO 2004/070652 A2 公開的 PCT 申請(qǐng) No. PCT/IL2004/000079 教導(dǎo)了基于相關(guān) 聯(lián)的決策制定的合成圖像機(jī)制的使用,從而提供快速且并不昂貴的幀緩沖器的重新合成作 為對(duì)象分割并行性的一部分。在以上標(biāo)識(shí)的申請(qǐng)人的PCT申請(qǐng)中所教導(dǎo)的方法具有諸多優(yōu)點(diǎn)和益處,即通過使 用現(xiàn)貨GPU以對(duì)現(xiàn)有應(yīng)用透明的方式構(gòu)造強(qiáng)大并行系統(tǒng)的能力。然而,在許多應(yīng)用中,為了 在相對(duì)低成本并且對(duì)現(xiàn)有圖形應(yīng)用透明的情況下給出高性能、高幀速率穩(wěn)定性的圖形方案 的目的,需要使用替換方法即通過為PC提供采用在單片硅芯片上實(shí)現(xiàn)的強(qiáng)大圖形處理和 顯示系統(tǒng)的圖形處理和顯示架構(gòu),從而在常規(guī)圖形系統(tǒng)中提供這種益處。該新穎替換方法的益處包括多GPU群集的基于VLSI的小型化;GPU間通信的高 帶寬;低功耗和散熱;無組件冗余;以及低成本?,F(xiàn)在將在以下對(duì)關(guān)于實(shí)施該替換方法的細(xì) 節(jié)進(jìn)行說明。一般而言,在此公開的本發(fā)明教導(dǎo)了一種用于在半導(dǎo)體級(jí)上將圖形功能并行化為 在優(yōu)選為單片構(gòu)造的單個(gè)芯片上實(shí)現(xiàn)的多圖形管道架構(gòu)的改善的方法和裝置。為了表述方 便,這一器件在此被稱為“芯片上多管道系統(tǒng)”或“MP-S0C”。該“硅芯片上”系統(tǒng)包括以靈 活的拓?fù)浣Y(jié)構(gòu)組織的由GPU驅(qū)動(dòng)的管道核心群集,從而允許不同的并行方案。理論上,管道 核心的數(shù)目沒有限制,僅受到硅面積考慮的約束。MP-SOC由駐留于主CPU的軟件驅(qū)動(dòng)器模 式來驅(qū)動(dòng)。各種并行化方案使得性能最優(yōu)化。這些方案是時(shí)間、圖像和對(duì)象分割及其衍生。本發(fā)明的說明性實(shí)施例享有多GPU芯片的優(yōu)點(diǎn),即回避了單GPU的匯集局限,而 同時(shí)又消除了多GPU系統(tǒng)的固有問題,諸如受限的GPU間通信帶寬、機(jī)械復(fù)雜度(尺寸、功 能以及發(fā)熱)、組件冗余、以及高成本。如圖4A所示,本發(fā)明的物理圖形系統(tǒng)由常規(guī)主板(418)和基于MP-SOC的圖形卡
(415)構(gòu)成。該主板搭載了常見組件集,即CPU(411)、系統(tǒng)存儲(chǔ)器(412)、1/0芯片集(413)、 以及其它非圖形組件(參見圖IA的駐留在PC主板上的完整的組件集)?;贛P-SOC芯片
(416)的印刷電路圖形卡通過PCIExpress 16x通道連接器(414)連接至主板。該卡還具 有到至少一個(gè)屏幕(416)的輸出。MP-SOC圖形卡代替主板上的常規(guī)單GPU圖形卡。通過比 較圖4A與圖1A,MP-S0C圖形卡集成在常規(guī)PC系統(tǒng)中的方法是顯而易見的。通過簡單地用 本發(fā)明的基于MP-SOC的卡替換單GPU圖形卡(圖IA中被圈出),并用主CPU上的多管道軟 驅(qū)動(dòng)器(419)替換其驅(qū)動(dòng)器,本發(fā)明的系統(tǒng)實(shí)現(xiàn)了在此所述的所有優(yōu)點(diǎn)和益處。該修改除 了改善的性能之外,對(duì)于用戶和應(yīng)用是完全透明的。圖4B示出了本發(fā)明的一種可能的物理實(shí)現(xiàn)。其上搭載了 MP-SOC(422)的標(biāo)準(zhǔn)形 式PC卡(421)通過PCI Express 16x通道連接器(423)連接至主計(jì)算系統(tǒng)的主板(426)。 顯示器屏幕通過標(biāo)準(zhǔn)DVI連接器424連接。由于預(yù)料MP-SOC上的多個(gè)管道會(huì)消耗高功率,導(dǎo)致通過PCI Express連接器的標(biāo)準(zhǔn)供電是不夠的,所以通過專用電源電纜(425)向該卡 提供輔助電源。圖4C示出了主板上與基于MP-SOC的卡連接的PCI Express連接器(431)。應(yīng)該 強(qiáng)調(diào)的是,PC卡上MP-SOC的標(biāo)準(zhǔn)物理實(shí)現(xiàn)使得對(duì)現(xiàn)有技術(shù)的GPU驅(qū)動(dòng)的視頻圖形卡的替 換是容易和自然的。 圖4D和4E說明了技術(shù)人員對(duì)MP-SOC芯片的概念以進(jìn)一步示出該半導(dǎo)體器件的 物理實(shí)現(xiàn)。圖4D示出了可能的MP-SOC硅布局。在該示例中,有4個(gè)現(xiàn)貨圖形管道核心。核 心的數(shù)目根據(jù)硅面積約束可縮放至任意數(shù)目。對(duì)MP-SOC功能單元的詳細(xì)討論在下面給出。 圖4E示出了 MP-SOC芯片可能的封裝和外觀。如之前所述的,該芯片與其它外圍組件(例 如,存儲(chǔ)器芯片、總線芯片等)一起旨在被搭載在標(biāo)準(zhǔn)尺寸的PCB(印刷電路板)上并用作 PC系統(tǒng)中的單一圖形卡,以代替現(xiàn)有技術(shù)的視頻圖形卡?;贛P-SOC的卡的制造可由圖形 卡制造商(例如,AsusTech、Gigabyte)來執(zhí)行。如圖5中所示的,多管道SOC架構(gòu)由以下組件構(gòu)成□位于CPU總線(例如,16通道的PCI Express)上的路由中心。它在圖形管道核 心之間分布來自CPU的圖形數(shù)據(jù)流,并隨后將來自各核心的渲染結(jié)果(幀緩沖)收集至合 成單元。數(shù)據(jù)被分布的方法由控制單元根據(jù)當(dāng)前并行化模式來指示?!鹾铣蓡卧鶕?jù)正在進(jìn)行的并行化模式重新合成這些部分幀緩沖。□控制單元處于CPU駐留的軟多管道驅(qū)動(dòng)器的控制下。它根據(jù)并行化模式負(fù)責(zé)整 個(gè)MP-SOC系統(tǒng)的配置和功能處理。□具有內(nèi)部或外部存儲(chǔ)器、以及光學(xué)高速緩沖存儲(chǔ)器的處理元件(PE)單元。PE可 以是根據(jù)架構(gòu)需要的任何種類的芯片上處理器。除了服務(wù)于PE,高速緩沖存儲(chǔ)器和存儲(chǔ)器 還可用于高速緩沖諸如紋理、頂點(diǎn)對(duì)象等為所有管道核心共有的圖形數(shù)據(jù)?!醵鄠€(gè)GPU驅(qū)動(dòng)管道核心。這些核心可以、但無需是專門設(shè)計(jì)的。它們可被原始 地設(shè)計(jì)成常規(guī)的單核心GPU?!跗饰龉δ軉卧?。該單元向多管道驅(qū)動(dòng)遞送基準(zhǔn)數(shù)據(jù),諸如存儲(chǔ)器速度、按字節(jié)計(jì) 的存儲(chǔ)器使用量、渲染的總像素?cái)?shù)、進(jìn)入渲染的幾何數(shù)據(jù)、幀速率、每個(gè)管道核心的工作負(fù) 荷、管道核心之間的負(fù)荷平衡、傳輸數(shù)據(jù)量、紋理計(jì)數(shù)、以及深度復(fù)雜度?!躏@示器接口,能夠運(yùn)行單個(gè)或多個(gè)屏幕。如圖6所示,系統(tǒng)的軟件包括圖形應(yīng)用、圖形庫(例如,圖形標(biāo)準(zhǔn)OpenGL或 DirectX)、以及專用軟鍵驅(qū)動(dòng)器(多管道驅(qū)動(dòng)器)。一般化的圖形應(yīng)用不需要修改或特別的 移植工作就可在MP-SOC上運(yùn)行。圖7示出了表示根據(jù)本發(fā)明的一個(gè)實(shí)施例的多管道驅(qū)動(dòng)器的主要任務(wù)的功能性 框圖。該多管道驅(qū)動(dòng)器執(zhí)行至少以下動(dòng)作□一般化GPU驅(qū)動(dòng)器。執(zhí)行一般化GPU驅(qū)動(dòng)器的與和操作系統(tǒng)、圖形庫(例如, OpenGL或DirectX)的交互相關(guān)聯(lián)的、以及控制GPU的所有功能?!醴植际綀D形功能控制。該模塊執(zhí)行與根據(jù)并行策略管理實(shí)行不同并行化模式相 關(guān)聯(lián)的所有功能。如將在下文更為具體地說明的,在每個(gè)模式中,數(shù)據(jù)在管道之間被不同地 分布和重新合成?!鯛顟B(tài)監(jiān)視。圖形庫(例如,OpenGL和DirectX)是狀態(tài)機(jī)。并行化必須保持跨圖形系統(tǒng)的內(nèi)聚狀態(tài)。這是通過連續(xù)分析所有傳入的命令來實(shí)現(xiàn)的,并且同時(shí)狀態(tài)命令和 部分?jǐn)?shù)據(jù)必須被復(fù)制到所有管道從而保持跨各圖形管道的有效狀態(tài)。影響整個(gè)圖形系統(tǒng)、 將系統(tǒng)設(shè)為阻塞(blocking)模式的諸如刷新、交換、α混合等被稱為阻塞操作的類造成了 特定問題。阻塞操作的特別之處在于,因?yàn)樗鼈冃枰铣傻挠行B數(shù)據(jù),由此在本發(fā)明的 并行設(shè)置中,它們對(duì)所有管道核心均有影響。對(duì)處理阻塞操作更詳細(xì)的說明將在下文中給 出ο□應(yīng)用剖析和分析模塊。該模塊對(duì)正在運(yùn)行的應(yīng)用執(zhí)行實(shí)時(shí)剖析和分析。其連續(xù) 地監(jiān)視系統(tǒng)中的應(yīng)用參數(shù),諸如存儲(chǔ)器速度、按字節(jié)計(jì)的存儲(chǔ)器使用量、渲染的總像素、進(jìn) 入渲染的幾何數(shù)據(jù)、幀速率、每個(gè)管道核心的工作負(fù)荷、圖形管道之間的負(fù)荷平衡、傳輸?shù)?數(shù)據(jù)量、紋理計(jì)數(shù)、以及深度復(fù)雜度等。剖析模塊標(biāo)識(shí)圖形系統(tǒng)內(nèi)引起瓶頸的問題區(qū)域。剖 析模塊需要來自多管道核心的寄存器、MP-SOC控制單元的寄存器,以及圖形API命令(例 如,OpenGL、DirectX)的輸入?!醪⑿行圆呗怨芾砀鶕?jù)以上剖析和分析在每幀的基礎(chǔ)上制定關(guān)于要執(zhí)行的并行 模式的決策。該決策然后通過MP-SOC中的控制單元來實(shí)行。本發(fā)明的一個(gè)主要特征是其能夠修補(bǔ)性能瓶頸的拓?fù)浣Y(jié)構(gòu)靈活性。這種靈活性是 通過借助路由中心以及不同合并方案在合成單元處重排圖形管道群集得到的。不同的并行 化方案影響不同的性能瓶頸。因此,由剖析模塊標(biāo)識(shí)的瓶頸可使用相應(yīng)的并行化方案來補(bǔ)救。圖7B的流程圖說明了運(yùn)行三個(gè)并行模式——對(duì)象分割、圖像分割以及時(shí)間分 割——的機(jī)制。該機(jī)制將軟驅(qū)動(dòng)器模塊與MP-SOC單元的活動(dòng)組合。流程圖的一個(gè)循環(huán)是 一幀。如將在以下解釋的,首先開始的模式是對(duì)象分割(OD),因?yàn)樗莾?yōu)選的并行模式。應(yīng) 用的剖析和分析在軟剖析和分析模塊(S-PA)的控制下保持常開。并行策略管理(S-PPM) 模塊在每一幀都檢測(cè)要從三個(gè)并行化模式中選取的最優(yōu)模式。讓我們假定采取了對(duì)象分割(OD)路徑。分布式圖形功能控制(S-DGFC)模塊針對(duì) OD配置整個(gè)系統(tǒng),其特征在于幾何數(shù)據(jù)的分布以及使用的合成算法。該配置在圖8中示出, 并且在稍后具體說明。S-DGFC模塊將幾何數(shù)據(jù)分解為多個(gè)部分,每個(gè)都由路由中心(C-RC) 發(fā)送到不同的GPU驅(qū)動(dòng)管道核心(C-PC)以用于渲染。如圖11所示并在下文具體說明,狀 態(tài)監(jiān)視(S-SM)模塊在渲染的數(shù)據(jù)流中監(jiān)視阻塞命令。當(dāng)渲染完成時(shí),所有幀緩沖由控制單 元(C-Ctrl)根據(jù)深度測(cè)試移到合成單元(C-CU)以將所有緩沖合成為單個(gè)幀(將在以下具 體說明)。最終的FB (幀緩沖)由顯示接口單元(C-DI)移到顯示器。在幀結(jié)束時(shí),S-PA和 S-PPM模塊對(duì)改變模式的選項(xiàng)進(jìn)行測(cè)試。如果采取保持原模式的決策,則新的OD幀從另一 數(shù)據(jù)部分開始。否則,由S-PA和S-PPM模塊執(zhí)行對(duì)最優(yōu)模式的新測(cè)試。流程圖中的左邊路徑是圖像分割(ID)操作。圖9中還示出了由S-DGFC設(shè)置的ID 配置,并在稍后對(duì)其具體說明。它的特征在于在所有管道核心之間廣播相同數(shù)據(jù),并且圖像 基于合成算法。管道核心之間圖像的分割由S-DGFC完成。該數(shù)據(jù)由路由中心廣播,并隨后 在各管道核心(C-PC)處渲染,同時(shí)每個(gè)管道核心被指定以圖像的另一部分。一旦渲染完 成,C-Ctrl將部分FB移到合成單元(C-⑶)以重新構(gòu)造完整的圖像。然后C-DI將FB移到 顯示器。最終由S-PS和S-PPM模塊執(zhí)行改變測(cè)試。根據(jù)結(jié)果,新幀將繼續(xù)ID模式或切換 至其它模式。
時(shí)間分割模式在各GPU驅(qū)動(dòng)管道核心之間交替各幀。設(shè)置成由S-GDFC模塊進(jìn)行交 替,同時(shí)每個(gè)核心由S-DGFC指定一個(gè)幀數(shù)據(jù)并由C-RC單元傳遞。每個(gè)核心(C-PC)依次生 成幀。然后C-Ctrl通過合成單元將成熟的FB移到顯示器接口并輸出到顯示器。實(shí)際上, 合成單元在這一模式下僅起到轉(zhuǎn)移的作用。最后,與之前其它模式中一樣,由S-PA和S-PPM 模塊進(jìn)行改變模式測(cè)試。 圖8說明了對(duì)象分割并行化方案。軟驅(qū)動(dòng)器,具體而言是分布式圖形功能控制模 塊將場(chǎng)景的多邊形數(shù)據(jù)分解為N個(gè)部分流(N——參與的管道核心的數(shù)目)。整個(gè)數(shù)據(jù)由 GPU驅(qū)動(dòng)器模塊發(fā)送到MP-SOC路由中心,其根據(jù)軟驅(qū)動(dòng)器的分割——每個(gè)約為1/N的多邊 形——將數(shù)據(jù)分布到N個(gè)管道以用于渲染。管道核心中的渲染是在軟驅(qū)動(dòng)器的狀態(tài)監(jiān)視模 塊的監(jiān)視下進(jìn)行的(參見圖11以及以下具體說明)。得到的全幀緩沖在合成單元中聚集。 它們被逐像素地深度合成以找到最終的可視像素集。在每個(gè)x_y坐標(biāo)系,所有隱藏像素由 合成機(jī)制消除。最終的幀緩沖被移出到顯示器。圖9說明了由并行化策略管理模塊根據(jù)軟驅(qū)動(dòng)器的剖析和分析模塊中的剖析、分 析、以及決策制定的結(jié)果選擇的圖像分割并行化方案。每個(gè)管道核心被指定以屏幕的唯一 性的1/N部分。完整的多邊形數(shù)據(jù)通過GPU驅(qū)動(dòng)模塊和路由中心被傳遞到每個(gè)管道核心。 管道核心中的并行渲染在每個(gè)核心處得到部分幀緩沖。這些圖像片段被移到合成單元以便 被2D合并為單個(gè)圖像并被移出至顯示器。圖10說明了由并行策略管理模塊根據(jù)軟驅(qū)動(dòng)器的剖析和分析模塊中的剖析、分 析、以及決策制定的結(jié)果選擇的時(shí)間分割并行化方案。分布式圖形功能控制模塊通過GPU 驅(qū)動(dòng)器模塊將這些幀分為N個(gè)周期(N=核心的數(shù)目)從而使每個(gè)核心有N幀的時(shí)隙來渲 染完整的多邊形數(shù)據(jù)。因此,場(chǎng)景多邊形數(shù)據(jù)通過路由器在某一時(shí)間被分布至不同的管道 核心。每個(gè)核心在N個(gè)周期中執(zhí)行渲染并將其全幀緩沖輸出至顯示器以用于單幀。合成單 元在這里起到簡單的開關(guān)作用,在所有管道核心之間交替對(duì)顯示器的接入。不同的并行化方案解決不同的性能瓶頸。因此瓶頸必須被標(biāo)識(shí)并隨后通過在合適 的時(shí)間應(yīng)用合適的方案來消除(或降低)。如圖7B所示,剖析器標(biāo)識(shí)圖形系統(tǒng)內(nèi)導(dǎo)致瓶頸的問題區(qū)。這是在驅(qū)動(dòng)器的應(yīng)用 剖析和分析模塊中實(shí)現(xiàn)的。剖析器模塊需要諸如圖形API命令的使用(例如,OpenGL、 DirectX、其它)、存儲(chǔ)器速度、按字節(jié)計(jì)的存儲(chǔ)器使用量、渲染的總像素、進(jìn)入渲染的幾何數(shù) 據(jù)、幀速率、每個(gè)GPU的工作負(fù)荷、GPU之間的負(fù)荷平衡、傳輸?shù)臄?shù)據(jù)量、紋理計(jì)數(shù)、以及深度 復(fù)雜度等輸入。這些數(shù)據(jù)類型是從基于MP-SOC的圖形系統(tǒng)內(nèi)的以下來源收集到的1. MP-SOC中的剖析功能單元2.驅(qū)動(dòng)器3.管道核心4.芯片集架構(gòu)性能(CHAP)計(jì)數(shù)器5.通常,在幀時(shí)間的基礎(chǔ)上檢索性能數(shù)據(jù),然而,周期性也可以是剖析器的配置屬 性,或者可在檢索性能數(shù)據(jù)之前根據(jù)剖析器被設(shè)計(jì)成要檢測(cè)的一檢測(cè)到的配置事件來設(shè)置。導(dǎo)致選擇優(yōu)選并行方法的分析是基于一個(gè)假定,即在定義良好的情形中(在以下說明),對(duì)象分割方法由于減少了更多的瓶頸所以取代其它分割方法。與僅減少了在每個(gè)管 道核心處的片段/填充界限處理的圖像分割形成對(duì)比,對(duì)象分割實(shí)際減輕了跨管道的所有 瓶頸(i)幾何(即,多邊形、線、點(diǎn)等)變換處理在每個(gè)管道上被卸除,僅處理1/N的多邊 形(N——參與的管道核心的數(shù)目);(ii)由于較少的多邊形被饋送給光柵化器,所以填充 界限處理減少;(iii)需要較少的幾何存儲(chǔ)器;(iv)需要較少的紋理存儲(chǔ)器。雖然時(shí)間分割通過允許每個(gè)管道核心在每幀生成時(shí)有更多的時(shí)間來釋放瓶頸,然 而該方法也遭遇一些嚴(yán)重問題,諸如CPU瓶頸,各管道核心生成的幀緩沖彼此不可用、以及 經(jīng)常有管道等待的情形。因此該方法并不適于所有應(yīng)用。從而,由于對(duì)象分割作為瓶頸開 啟者的優(yōu)越性,其成為了主要的并行模式。 以下對(duì)象分割算法在多個(gè)圖形管道核心之間分布多邊形。典型的應(yīng)用生成包括圖 形數(shù)據(jù)塊的圖形調(diào)用流;每個(gè)塊包含諸如單頂點(diǎn)操作或基于緩沖的操作(頂點(diǎn)陣列)等幾 何操作的列表。通常,分解算法以將各個(gè)塊保持為基本數(shù)據(jù)單元的方式在管道核心之間分 割數(shù)據(jù)。幾何操作被附連到(諸)數(shù)據(jù)塊以指示處理該數(shù)據(jù)的方法。一個(gè)塊針對(duì)一個(gè)指定 的GPU。然而,具有一些屬于諸如刷新、交換、α混合等影響整個(gè)圖形系統(tǒng)、將系統(tǒng)設(shè)成阻塞 模式的阻塞操作組的操作。阻塞操作的特別之處在于它們需要合成的有效FB數(shù)據(jù),由此在 本發(fā)明的并行設(shè)置中對(duì)所有管道核心都有影響。因此,無論何時(shí)只要阻塞操作中的一個(gè)被 發(fā)出,所有的管道核心就必須被同步。每個(gè)幀具有至少2個(gè)阻塞操作終止該幀的刷新和交 換。圖11表示描述了根據(jù)本發(fā)明的一個(gè)說明性實(shí)施例的用于在多個(gè)GPU驅(qū)動(dòng)管道核 心之間分布多邊形的算法的流程圖。該幀活動(dòng)開始于在各GPU之間分布數(shù)據(jù)塊。在步驟 1112針對(duì)阻塞模式對(duì)每個(gè)圖形操作進(jìn)行測(cè)試。在常規(guī)路徑(非阻塞路徑)中,數(shù)據(jù)在步驟 1113被重定向到指定的管道核心。重復(fù)該循環(huán)直到檢測(cè)到阻塞操作。當(dāng)檢測(cè)到阻塞操作時(shí),所有的管道核心必須通過至少以下序列在步驟1114被同
少執(zhí)行刷新操作以終止渲染并清除管道核心中的內(nèi)管道(刷新);執(zhí)行合成以將所有的FB的內(nèi)容合并成單個(gè)FB ;以及將上述單個(gè)FB的內(nèi)容發(fā)送回所有的管道核心以創(chuàng)建繼續(xù)的共同基礎(chǔ)。交換操作啟動(dòng)雙緩沖機(jī)制,交換背色和前色緩沖。如果在步驟1115檢測(cè)到交換, 這意味著合成幀必須在除了管道0之外的所有管道核心上終止。所有管道核心具有指定存 儲(chǔ)上述內(nèi)容的FB的最終合成內(nèi)容,但是僅有連接至屏幕的一個(gè)(管道0)在步驟1116顯示 圖像。另一情形是被全局應(yīng)用到場(chǎng)景并需要被廣播至所有管道核心的操作。如果諸如用 于透明度的α混合等其它阻塞操作之一被標(biāo)識(shí),則所有管道核心在步驟1114如前被刷新, 并且并合并為公共FB。這次沒有檢測(cè)到交換操作(步驟1115),因此所有管道核心具有相 同的數(shù)據(jù),并且只要阻塞模式為開(步驟1117),則它們繼續(xù)處理相同的數(shù)據(jù)(步驟1118)。 如果在步驟1117檢測(cè)到阻塞模式結(jié)束,則管道核心返回處理指定數(shù)據(jù)(步驟1113)。對(duì)象分割的相對(duì)優(yōu)點(diǎn)相當(dāng)程度上取決于場(chǎng)景的深度復(fù)雜度。深度復(fù)雜度是作為深 度測(cè)試結(jié)果的片段替換的數(shù)目(畫在每個(gè)像素上的多邊形數(shù)目)。在沒有片段替換的理想 情形中(例如,場(chǎng)景的所有多邊形都位于相同的深度水平),則根據(jù)減少的多邊形數(shù)目,填充也得以減少(就2個(gè)管道核心而言)。然而,當(dāng)深度復(fù)雜度變高時(shí),對(duì)象分割的優(yōu)點(diǎn)下降, 并且在一些情形中,圖像分割甚至可能性能更佳,例如在多邊形數(shù)目少且紋理量高的應(yīng)用。另外,本發(fā)明引入了根據(jù)先前處理級(jí)顯示的負(fù)荷將對(duì)象分割方法與圖像域和時(shí)域中的圖像分割和時(shí)間分割方法組合在一起的動(dòng)態(tài)負(fù)荷平衡技術(shù)。將全部三個(gè)并行方法組合 為聯(lián)合的構(gòu)架極大地增大了圖形系統(tǒng)的幀速率穩(wěn)定性。圖12公開了根據(jù)本發(fā)明的一個(gè)實(shí)施例的采用8個(gè)管道核心的系統(tǒng)的樣本配置。 根據(jù)以上樣本配置,假定了平衡的圖形應(yīng)用。這些管道核心為實(shí)現(xiàn)時(shí)間分割并行性被分為 兩組。用1、2、3、和4索引的管道核心被配置成處理偶數(shù)幀而用5、6、7和8索引的管道核 心被配置成處理奇數(shù)幀。在每組內(nèi),為圖像分割設(shè)置兩個(gè)管道核心子組具有較低索引的管 道核心(分別為1、2和5、6)被配置成處理屏幕的一半,而高索引的管道核心(分別為3、4 和7、8)被配置成處理屏幕的另一半。最終,對(duì)于對(duì)象分割,用1、3、5和7索引的管道核心 被饋以這些對(duì)象的一半,而用2、4、6和8索引的管道核心被饋以這些對(duì)象的另一半。如果在某些時(shí)候系統(tǒng)檢測(cè)到先前幀中呈現(xiàn)的瓶頸出現(xiàn)在管道的光柵級(jí)處,則意味 著片段處理主導(dǎo)了渲染幀所用的時(shí)間并且配置是不平衡的。此時(shí),管道核心被重新配置,從 而使每個(gè)管道核心將渲染各幀內(nèi)屏幕的四分之一。管道核心1、2、3、4之間以及5、6、7、8之 間對(duì)于時(shí)間分割的原始劃分仍然保持,但是管道核心2和管道核心5被分別配置成渲染偶 數(shù)和奇數(shù)幀中屏幕的第一個(gè)四分之一。管道核心1和6——渲染第二個(gè)四分之一,管道核心 4和7——第三個(gè)四分之一,以及管道核心3和8——第四個(gè)四分之一。不包含對(duì)象分割。另外,如果在某些時(shí)候系統(tǒng)檢測(cè)到在先前幀中呈現(xiàn)的瓶頸出現(xiàn)在管道的幾何級(jí), 則管道核心被重新配置,從而使得每個(gè)管道核心將處理各幀內(nèi)幾何數(shù)據(jù)的四分之一。即,管 道核心3和5被分別配置成處理偶數(shù)和奇數(shù)幀中多邊形的第一個(gè)四分之一。管道核心1和 7——渲染第二個(gè)四分之一,管道核心4和6——第三個(gè)四分之一,以及管道核心2和8—— 第四個(gè)四分之一。不包含圖像分割。應(yīng)該注意的是,采用8個(gè)管道核心足以按幀組合全部三種并行模式,即時(shí)間、圖像 和對(duì)象分割模式。采用大于8的管道核心數(shù)目,也能組合全部三種模式,但是以不對(duì)稱的方 式組合。該靈活性還存在于時(shí)間分割周期中的幀計(jì)數(shù)中。在以上示例中,8個(gè)管道核心的群 集被分解為兩組,每組處理一幀。然而,還可以將時(shí)間分割模式中的幀數(shù)擴(kuò)展為大于2幀的 序列,例如3或4幀等。采用較少數(shù)目的管道核心仍然允許并行模式的組合,然而是僅兩種模式的組合。 例如,僅采用4個(gè)管道核心能組合圖像和對(duì)象分割模式,但沒有時(shí)間分割模式。當(dāng)采用作為 左邊群集的管道核心1-4的組時(shí),可從圖12可清楚的理解。類似地,構(gòu)成上部群集的管道 核心1、2、5和6的組采用對(duì)象和時(shí)間分割模式兩者。最后,作為中間群集的管道核心2、4、 5和6的組的配置采用圖像和時(shí)間分割模式。需要注意的是,與以上實(shí)施例類似,并行模式之間的任何組合可被調(diào)度以均勻地 平衡圖形負(fù)荷。還應(yīng)該理解的是,根據(jù)本發(fā)明,所有管道核心之間的并行化處理都可基于對(duì)象分 割模式或圖像分割模式或時(shí)間分割模式或其任意的組合以最優(yōu)化每一幀的處理性能。關(guān)于并行模式的決策是根據(jù)以上剖析和分析在每幀的基礎(chǔ)上實(shí)現(xiàn)的。如上所述以 及圖8、9、10和12中所示的,隨后由并行化方案的重新配置來執(zhí)行。
以上非常具體地說明的MP-SOC架構(gòu)可容易地適用于不同種類的圖形處理和顯示 系統(tǒng)中。雖然結(jié)合PC類計(jì)算系統(tǒng)對(duì)本發(fā)明的說明性實(shí)施例進(jìn)行了說明,但是需要理解的是 本發(fā)明還可在包括移動(dòng)計(jì)算設(shè)備、嵌入式系統(tǒng)、以及支持?jǐn)M真質(zhì)量的圖形可視化的科學(xué)和 工業(yè)計(jì)算系統(tǒng)的不同種類的系統(tǒng)中使用以改善圖形性能。
需要理解的是,在本發(fā)明的說明性實(shí)施例中說明的圖形處理和顯示技術(shù)可以各種 方式進(jìn)行修改,這對(duì)于得益于在此公開的新穎教導(dǎo)的本領(lǐng)域的技術(shù)人員是顯而易見的。本 發(fā)明的說明性實(shí)施例的所有的這類修改和變化都應(yīng)被認(rèn)為在如所附權(quán)利要求所定義的本 發(fā)明的范圍和精神實(shí)質(zhì)之內(nèi)。
權(quán)利要求
一種用于實(shí)現(xiàn)圖形處理和顯示系統(tǒng)的單片構(gòu)造的硅芯片,具有各自包含使用一個(gè)或多個(gè)并行化模式支持圖像處理的并行化的圖形處理單元的多個(gè)GPU驅(qū)動(dòng)管道核心,并且適用于與計(jì)算系統(tǒng)接口,所述計(jì)算系統(tǒng)具有用于在至少一個(gè)計(jì)算機(jī)屏幕上顯示圖像的裝置,并且支持(i)用于發(fā)布圖形命令的一個(gè)或多個(gè)軟件應(yīng)用,(ii)用于存儲(chǔ)用以實(shí)現(xiàn)所述圖形命令的一個(gè)或多個(gè)圖形庫(即,OpenGL和DierctX一狀態(tài)機(jī)),以及(iii)用于允許所述GPU驅(qū)動(dòng)管道核心與所述圖形庫交互的多管道驅(qū)動(dòng)器,其中所述多管道驅(qū)動(dòng)器包括(1)GPU驅(qū)動(dòng)器單元,用于執(zhí)行與和所述計(jì)算系統(tǒng)的操作系統(tǒng)(OS)以及圖形庫(例如,OpenGL或DirectX)的交互相關(guān)聯(lián)的一般化GPU驅(qū)動(dòng)器的功能,(2)分布式圖形功能控制模塊,用于執(zhí)行與根據(jù)并行化策略管理實(shí)行不同的并行化模式相關(guān)聯(lián)的功能,(3)狀態(tài)監(jiān)視驅(qū)動(dòng)器模塊,用于持續(xù)地分析包括狀態(tài)命令在內(nèi)的所有傳入命令、將某些狀態(tài)命令和部分?jǐn)?shù)據(jù)傳送至所述所有GPU驅(qū)動(dòng)管道核心以保持跨所述各GPU驅(qū)動(dòng)圖形管道核心的有效狀態(tài),(4)應(yīng)用剖析和分析驅(qū)動(dòng)器模塊,用于執(zhí)行對(duì)所述計(jì)算系統(tǒng)中應(yīng)用參數(shù)的實(shí)時(shí)連續(xù)監(jiān)視以標(biāo)識(shí)所述圖形系統(tǒng)內(nèi)容易引起數(shù)據(jù)瓶頸的問題區(qū),其中所述應(yīng)用剖析和分析驅(qū)動(dòng)器模塊使用來自以下的輸入(i)所述多個(gè)GPU驅(qū)動(dòng)管道核心的寄存器、(ii)所述控制單元的寄存器,以及圖形API命令,以及(5)并行性策略管理驅(qū)動(dòng)模塊,用于使用所述應(yīng)用剖析和分析驅(qū)動(dòng)器模塊的結(jié)果在每幀的基礎(chǔ)上決定所述GPU驅(qū)動(dòng)管道核心的并行化模式,并且使這些決定由MP-SOC的控制單元來實(shí)行。所述硅芯片包括所述多個(gè)GPU驅(qū)動(dòng)管道核心;路由中心,部署在所述CPU總線上,用于在所述各GPU驅(qū)動(dòng)管道核心之間分布來自所述CPU的圖形數(shù)據(jù)流,并隨后將來自所述各管道核心的渲染結(jié)果(幀緩沖)收集至所述合成單元,其中所述數(shù)據(jù)被分布的方法由所述控制單元來指示,并取決于當(dāng)前并行化模式;合成單元,用于根據(jù)所述正在進(jìn)行的并行化模式重新合成所述各個(gè)部分幀緩沖;控制單元,用于根據(jù)所選的并行化模式控制所述圖像處理和顯示系統(tǒng)的配置和功能處理;處理元件(PE),具有內(nèi)部和外部存儲(chǔ)器;剖析功能單元,用于將基準(zhǔn)數(shù)據(jù)遞交給所述多管道驅(qū)動(dòng)器;以及顯示器接口,用于運(yùn)行單個(gè)或多個(gè)顯示器屏幕。
2.如權(quán)利要求1所述的硅芯片,其特征在于,還包括高速緩沖存儲(chǔ)器,用于服務(wù)于所述 處理元件,并用于高速緩沖為所述各GPU驅(qū)動(dòng)管道核心共有的圖形數(shù)據(jù)。
3.如權(quán)利要求2所述的硅芯片,其特征在于,所述圖形數(shù)據(jù)從紋理和頂點(diǎn)對(duì)象當(dāng)中選擇。
4.如權(quán)利要求1所述的硅芯片,其特征在于,所述基準(zhǔn)數(shù)據(jù)包括從存儲(chǔ)器速度、按字節(jié) 計(jì)的存儲(chǔ)器使用量、渲染的總像素?cái)?shù)、進(jìn)入渲染的幾何數(shù)據(jù)、幀速率、每個(gè)管道核心的工作 負(fù)荷、圖形管道之間的負(fù)荷平衡、傳輸?shù)臄?shù)據(jù)量、紋理計(jì)數(shù)、以及深度復(fù)雜度當(dāng)中選擇的數(shù) 據(jù)。
5.如權(quán)利要求1所述的硅芯片,其特征在于,所述圖形庫是從OpenGL和DirectX當(dāng)中 選擇的。
6.如權(quán)利要求1所述的硅芯片,其特征在于,所述GPU驅(qū)動(dòng)管道核心的數(shù)目沒有架構(gòu)限制。
7.如權(quán)利要求1所述的硅芯片,其特征在于,所述各GPU驅(qū)動(dòng)管道核心被以不同的并行 化模式組織以解決性能瓶頸。
8.如權(quán)利要求7所述的硅芯片,其特征在于,所述并行化模式包括對(duì)象分割模式、圖像 分割模式以及時(shí)間分割模式。
9.如權(quán)利要求1所述的硅芯片,其特征在于,所述基準(zhǔn)數(shù)據(jù)包括存儲(chǔ)器速度、按字節(jié)計(jì) 的存儲(chǔ)器使用量、渲染的總像素?cái)?shù)、進(jìn)入渲染的幾何數(shù)據(jù)、幀速率、每個(gè)管道核心的工作負(fù) 荷、管道核心之間的負(fù)荷平衡、傳輸?shù)臄?shù)據(jù)量、紋理計(jì)數(shù)、以及深度復(fù)雜度。
10.如權(quán)利要求1所述的硅芯片,其特征在于,在可連接至所述計(jì)算系統(tǒng)的主板的圖形 卡上實(shí)現(xiàn)。
11.一種用于連接至具有CPU總線的計(jì)算系統(tǒng)的主板的圖形卡,所述圖形卡包括用于實(shí)現(xiàn)圖形處理和顯示子系統(tǒng)的單片構(gòu)造的硅芯片,包括(a)多個(gè)GPU驅(qū)動(dòng)管道核心;(b)路由中心,部署在所述CPU總線上,用于在所述各GPU驅(qū)動(dòng)管道核心之間分布來自 所述CPU的圖形數(shù)據(jù)流,并隨后將來自所述各管道核心的渲染結(jié)果(幀緩沖)收集至所述 合成單元;(c)合成單元,用于根據(jù)所述正在進(jìn)行的并行化模式重新合成所述各個(gè)部分幀緩沖;(d)控制單元,用于在任意時(shí)刻根據(jù)所選的并行化模式控制所述圖像處理和顯示系統(tǒng) 的配置和功能處理;(d)處理元件(PE),具有內(nèi)部和外部存儲(chǔ)器;(e)剖析功能單元,用于將基準(zhǔn)數(shù)據(jù)遞交給所述多管道驅(qū)動(dòng)器;以及(f)顯示器接口,用于運(yùn)行單個(gè)或多個(gè)顯示器屏幕。
12.如權(quán)利要求11所述的圖形卡,其特征在于,所述圖形數(shù)據(jù)流在所述控制單元的控 制下并根據(jù)當(dāng)前并行化模式被分布在所述各GPU驅(qū)動(dòng)管道核心之間。
13.如權(quán)利要求11所述的圖形卡,其特征在于,所述硅芯片具有各自包含使用一個(gè)或 多個(gè)并行化模式支持圖像處理的并行化的圖形處理單元(GPU)的多個(gè)GPU驅(qū)動(dòng)管道核心, 并且適于與計(jì)算系統(tǒng)接口,所述計(jì)算系統(tǒng)具有用于在至少一個(gè)計(jì)算機(jī)屏幕上顯示圖像的裝 置并且支持(i)用于發(fā)布圖形命令的一個(gè)或多個(gè)軟件應(yīng)用,( )用于存儲(chǔ)用以實(shí)現(xiàn)所述圖 形命令的一個(gè)或多個(gè)圖形庫(狀態(tài)機(jī)),以及(iii)用于允許所述各GPU驅(qū)動(dòng)管道核心與所 述圖形庫交互的多管道驅(qū)動(dòng)器。
14.如權(quán)利要求12所述的圖形卡,其特征在于,所述多管道驅(qū)動(dòng)器包括(1)GPU驅(qū)動(dòng)器單元,用于執(zhí)行與和所述計(jì)算系統(tǒng)的操作系統(tǒng)(OS)、以及圖形庫的交互 相關(guān)聯(lián)的一般化GPU驅(qū)動(dòng)器的功能;(2)分布式圖形功能控制模塊,用于執(zhí)行與根據(jù)并行化策略管理實(shí)行不同的并行化模 式相關(guān)聯(lián)的功能;(3)狀態(tài)監(jiān)視驅(qū)動(dòng)模塊,用于連續(xù)地分析包括狀態(tài)命令的所有傳入命令,將某些狀態(tài)命 令和部分?jǐn)?shù)據(jù)傳送至所述所有GPU驅(qū)動(dòng)管道核心以保持跨所述各GPU驅(qū)動(dòng)圖形管道核心的 有效狀態(tài);(4)應(yīng)用剖析和分析驅(qū)動(dòng)器模塊,用于對(duì)所述計(jì)算系統(tǒng)中的應(yīng)用參數(shù)執(zhí)行實(shí)時(shí)連續(xù)監(jiān) 視以標(biāo)識(shí)所述圖形系統(tǒng)內(nèi)可能引起數(shù)據(jù)瓶頸的問題區(qū),其中所述應(yīng)用剖析和分析驅(qū)動(dòng)器模 塊使用來自以下的輸入(i)所述多個(gè)GPU驅(qū)動(dòng)管道核心的寄存器、(ii)所述控制單元的寄 存器,以及圖形API命令,以及(5)并行性策略管理驅(qū)動(dòng)器模塊,用于使用所述應(yīng)用剖析和分析驅(qū)動(dòng)器模塊的結(jié)果在 每幀的基礎(chǔ)上決定所述各GPU驅(qū)動(dòng)管道核心的并行化模式,并且使這些決定由MP-SOC的控 制單元來實(shí)行。
15.如權(quán)利要求11所述的圖形卡,其特征在于,還包括高速緩沖存儲(chǔ)器,用于服務(wù)于所 述處理元件,并用于高速緩沖為所述各GPU驅(qū)動(dòng)管道核心共有的圖形數(shù)據(jù)。
16.如權(quán)利要求15所述的圖形卡,其特征在于,所述圖形數(shù)據(jù)從紋理和頂點(diǎn)對(duì)象當(dāng)中 選擇。
17.如權(quán)利要求4所述的圖形卡,其特征在于,所述基準(zhǔn)參數(shù)包括從存儲(chǔ)器速度、按字 節(jié)計(jì)的存儲(chǔ)器使用量、渲染的總像素?cái)?shù)、進(jìn)入渲染的幾何數(shù)據(jù)、幀速率、每個(gè)管道核心的工 作負(fù)荷、圖形管道之間的負(fù)荷平衡、傳輸?shù)臄?shù)據(jù)量、紋理計(jì)數(shù)、以及深度復(fù)雜度當(dāng)中選擇的 數(shù)據(jù)。
18.如權(quán)利要求11所述的圖形卡,其特征在于,所述圖形庫從OpenGL和DirectX當(dāng)中 選擇。
19.如權(quán)利要求11所述的圖形卡,其特征在于,所述GPU驅(qū)動(dòng)管道核心的數(shù)目沒有架構(gòu) 限制。
20.如權(quán)利要求11所述的圖形卡,其特征在于,所述各GPU驅(qū)動(dòng)管道核心被以不同的并 行化模式組織以解決性能瓶頸。
21.如權(quán)利要求11所述的圖形卡,其特征在于,所述并行化模式包括對(duì)象分割模式、圖 像分割模式以及時(shí)間分割模式。
22.一種用于在多個(gè)或多個(gè)顯示器屏幕上顯示圖像的計(jì)算機(jī)系統(tǒng),包括主板,具有CPU總線以及用于實(shí)現(xiàn)圖形處理和顯示子系統(tǒng)的單片構(gòu)造的硅芯片,所述 硅芯片包括(a)多個(gè)GPU驅(qū)動(dòng)管道核心;(b)路由中心,部署在所述CPU總線上,用于在所述各GPU驅(qū)動(dòng)管道核心之間分布來自 所述CPU的圖形數(shù)據(jù)流,并隨后將來自所述各管道核心的渲染結(jié)果(幀緩沖)收集至所述 合成單元,其中所述數(shù)據(jù)被分布的方法由所述控制單元指示,并依賴于當(dāng)前并行化模式;合成單元,用于根據(jù)所述正在進(jìn)行的并行化模式重新合成所述各個(gè)部分幀緩沖;控制單元,用于在任何時(shí)間根據(jù)所選的并行化模式控制所述圖形處理和顯示系統(tǒng)的配 置和功能處理;處理元件(PE),具有內(nèi)部和外部存儲(chǔ)器;剖析功能單元,用于將基準(zhǔn)數(shù)據(jù)遞交給所述各多管道驅(qū)動(dòng)器;以及顯示器接口,用于運(yùn)行單個(gè)或多個(gè)顯示器屏幕。
23.如權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其特征在于,所述圖形數(shù)據(jù)流在所述控制單元 的控制下并根據(jù)當(dāng)前并行化模式被分布在所述各GPU驅(qū)動(dòng)管道核心之間。
24.如權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其特征在于,所述硅芯片具有各自包含使用一 個(gè)或多個(gè)并行化模式支持圖像處理的并行化的圖形處理單元(GPU)的多個(gè)GPU驅(qū)動(dòng)管道核 心,并且適于與計(jì)算系統(tǒng)接口,所述計(jì)算系統(tǒng)具有用于在至少一個(gè)計(jì)算機(jī)屏幕上顯示圖像 的裝置并且支持(i)用于發(fā)布圖形命令的一個(gè)或多個(gè)軟件應(yīng)用,( )用于存儲(chǔ)用以實(shí)現(xiàn)所 述圖形命令的一個(gè)或多個(gè)圖形庫(狀態(tài)機(jī)),(iii)用于允許所述各GPU驅(qū)動(dòng)管道核心與所 述圖形庫交互的多管道驅(qū)動(dòng)器。
25.如權(quán)利要求24所述的計(jì)算機(jī)系統(tǒng),其特征在于,所述多管道驅(qū)動(dòng)器包括(1)GPU驅(qū)動(dòng)器單元,用于執(zhí)行與和所述計(jì)算系統(tǒng)的操作系統(tǒng)(OS)、以及圖形庫的交互 相關(guān)聯(lián)的一般化GPU驅(qū)動(dòng)器的功能;(2)分布式圖形功能控制模塊,用于執(zhí)行與根據(jù)并行化策略管理執(zhí)行不同的并行化模 式相關(guān)聯(lián)的功能;(3)狀態(tài)監(jiān)視驅(qū)動(dòng)器模塊,用于連續(xù)地分析包括狀態(tài)命令的所有傳入命令,將某些狀態(tài) 命令和部分?jǐn)?shù)據(jù)傳送至所述所有GPU驅(qū)動(dòng)管道核心以保持跨所述各GPU驅(qū)動(dòng)圖形管道核心 的有效狀態(tài);(4)應(yīng)用剖析和分析驅(qū)動(dòng)器模塊,用于對(duì)所述計(jì)算系統(tǒng)中的應(yīng)用參數(shù)執(zhí)行實(shí)時(shí)連續(xù)監(jiān) 視以標(biāo)識(shí)所述圖形系統(tǒng)內(nèi)可能引起數(shù)據(jù)瓶頸的問題區(qū),其中所述應(yīng)用剖析和分析驅(qū)動(dòng)模塊 使用來自以下的輸入(i)所述多個(gè)GPU驅(qū)動(dòng)管道核心的寄存器、(ii)所述控制單元的寄存 器,以及圖形API命令,以及(5)并行性策略管理驅(qū)動(dòng)器模塊,用于使用所述應(yīng)用剖析和分析驅(qū)動(dòng)器模塊的結(jié)果在 每幀的基礎(chǔ)上決定所述各GPU驅(qū)動(dòng)管道核心的并行化模式,并且使這些決定由MP-SOC的控 制單元來實(shí)行。
26.如權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其特征在于,還包括高速緩沖存儲(chǔ)器,用于服務(wù) 于所述處理元件,并用于高速緩沖為所述各GPU驅(qū)動(dòng)管道核心共有的圖形數(shù)據(jù)。
27.如權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其特征在于,所述圖形數(shù)據(jù)從紋理和頂點(diǎn)對(duì)象 當(dāng)中選擇。
28.如權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其特征在于,所述基準(zhǔn)參數(shù)包括從存儲(chǔ)器速度、 按字節(jié)計(jì)的存儲(chǔ)器使用量、渲染的總像素?cái)?shù)、進(jìn)入渲染的幾何數(shù)據(jù)、幀速率、每個(gè)管道核心 的工作負(fù)荷、圖形管道之間的負(fù)荷平衡、傳輸?shù)臄?shù)據(jù)量、紋理計(jì)數(shù)、以及深度復(fù)雜度當(dāng)中選 擇的數(shù)據(jù)。
29.如權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其特征在于,所述圖形庫從OpenGL和DirectX 當(dāng)中選擇。
30.如權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其特征在于,所述GPU驅(qū)動(dòng)管道核心的數(shù)目沒有 架構(gòu)限制。
31.如權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其特征在于,所述各GPU驅(qū)動(dòng)管道核心以不同的 并行化模式組織以解決性能瓶頸。
32.如權(quán)利要求22所述的計(jì)算機(jī)系統(tǒng),其特征在于,所述并行化模式包括對(duì)象分割模 式、圖像分割模式以及時(shí)間分割模式。
33.一種包含具有無限制圖形并行性的多個(gè)圖形核心、避開了單GPU系統(tǒng)固有的匯集 瓶頸的圖形處理和顯示系統(tǒng)。
34.一種確保最佳圖形性能、消除了受限的GPU間通信帶寬、機(jī)械復(fù)雜度(尺寸、功率、 和發(fā)熱)、組件冗余、以及高成本等多芯片系統(tǒng)的不足的圖形處理和顯示系統(tǒng)。
35.一種圖形處理和顯示系統(tǒng),所述系統(tǒng)通過在單硅芯片中并行化多個(gè)圖形核心而具 有增強(qiáng)的圖形處理和顯示能力。
36.一種圖形處理和顯示系統(tǒng),所述系統(tǒng)在具有不受限數(shù)目的多個(gè)圖形核心的硅芯片 上實(shí)現(xiàn)。
37.一種圖形處理和顯示系統(tǒng),所述系統(tǒng)在利用多個(gè)圖形核心群集的硅芯片上實(shí)現(xiàn)。
38.一種圖形處理和顯示系統(tǒng),所述系統(tǒng)在具有多個(gè)圖形核心或管道(即,多管道芯片 上系統(tǒng),或MP-SOC)并提供架構(gòu)靈活性以實(shí)現(xiàn)先進(jìn)的并行圖形顯示性能的硅芯片上實(shí)現(xiàn)。
39.一種圖形處理和顯示系統(tǒng),所述系統(tǒng)在具有多個(gè)圖形核心、并在其幾何和像素處理 子系統(tǒng)兩者內(nèi)均自適應(yīng)地支持不同并行模式的硅芯片上實(shí)現(xiàn)。
40.一種圖形處理和顯示系統(tǒng),所述系統(tǒng)在具有多個(gè)GPU核心、并提供針對(duì)高度先進(jìn)的 圖形處理和顯示性能的自適應(yīng)性的硅芯片上實(shí)現(xiàn)。
41.一種圖形處理和顯示系統(tǒng)及方法,其中頂點(diǎn)(即,3D多邊形幾何)處理和片段處理 的圖形管道瓶頸被透明而巧妙地解決。
42.一種用于巧妙分解數(shù)據(jù)和圖形命令、保持圖形庫的基本特征作為狀態(tài)機(jī)并緊密遵 循圖形標(biāo)準(zhǔn)的方法。
43.一種視頻圖形卡,所述視頻圖形卡支持在具有多個(gè)圖形核心并提供架構(gòu)靈活性以 實(shí)現(xiàn)最佳的并行性能的硅芯片上實(shí)現(xiàn)的圖形處理和顯示系統(tǒng)。
44.一種具有擬真圖形處理和顯示能力的計(jì)算系統(tǒng),所述計(jì)算系統(tǒng)采用包含具有多個(gè) 圖形核心并提供架構(gòu)靈活性以實(shí)現(xiàn)最佳并行性能的硅芯片的圖形卡。
45.一種計(jì)算系統(tǒng),所述計(jì)算系統(tǒng)具有包括使用個(gè)人計(jì)算設(shè)備的視頻游戲、虛擬現(xiàn)實(shí)、 科學(xué)可視化、以及需要或要求擬真圖形顯示能力的其它交互應(yīng)用在內(nèi)的應(yīng)用所需的擬真圖 形處理和顯示性能。
全文摘要
一種在單片硅芯片上實(shí)現(xiàn)的高性能圖形處理和顯示系統(tǒng),該系統(tǒng)支持多個(gè)圖形處理單元(GPU)核心的群集,這多個(gè)圖形處理單元核心的群集協(xié)作以提供支持用于不同應(yīng)用的擬真圖形能力的功能強(qiáng)大并高度可升級(jí)的可視化方案。本發(fā)明通過通過動(dòng)態(tài)地管理各種并行渲染技術(shù)并使得能自適應(yīng)地處理不同的圖形應(yīng)用來消除沿圖形管道的渲染瓶頸。
文檔編號(hào)G06T15/00GK101849227SQ200680002976
公開日2010年9月29日 申請(qǐng)日期2006年1月25日 優(yōu)先權(quán)日2005年1月25日
發(fā)明者E·弗格爾, O·雷默茨, R·巴卡拉什 申請(qǐng)人:透明信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1