本發(fā)明涉及芯片設(shè)計(jì),尤其涉及一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)裝置及方法。
背景技術(shù):
1、隨著數(shù)據(jù)中心規(guī)模的不斷擴(kuò)大,傳統(tǒng)的單片集成方式在制造大型、高性能芯片時(shí)面臨良率和成本的挑戰(zhàn)。隨之出現(xiàn)的chiplet技術(shù)為提高芯片良率及減少成本提供了新的解決方案。chiplet也稱為小芯片或微芯片,是一種將復(fù)雜芯片拆分成多個(gè)小型、獨(dú)立且可復(fù)用的模塊的設(shè)計(jì)方法。這些模塊可以是處理器核心、內(nèi)存芯片、傳感器或其他類型的集成電路,它們通過(guò)高速接口或連接器相互連接,形成一個(gè)完整的系統(tǒng)芯片。
2、隨著技術(shù)的不斷發(fā)展和芯片設(shè)計(jì)的日益復(fù)雜,chiplet已成為一種有效應(yīng)對(duì)芯片良率和成本挑戰(zhàn)的方法。通過(guò)將大型芯片拆分成多個(gè)小型、獨(dú)立的模塊,可以顯著降低設(shè)計(jì)復(fù)雜性、提高生產(chǎn)效率并降低成本。同時(shí),chiplet還具有可復(fù)用性,這意味著每個(gè)模塊都可以獨(dú)立設(shè)計(jì)和生產(chǎn),然后根據(jù)需要進(jìn)行組合,從而實(shí)現(xiàn)靈活的定制化設(shè)計(jì)。這種設(shè)計(jì)方法的出現(xiàn),使得芯片設(shè)計(jì)更加模塊化,類似于計(jì)算機(jī)硬件的組裝方式,可以根據(jù)不同的需求選擇和組合不同的模塊。這不僅提高了設(shè)計(jì)的靈活性,還促進(jìn)了跨廠商和跨領(lǐng)域的協(xié)同設(shè)計(jì)和優(yōu)化。
3、chiplet架構(gòu)中包含若干個(gè)die,die是指一個(gè)單獨(dú)的晶圓區(qū)域,包含了一個(gè)完整功能單元或一組相關(guān)功能單元,可以理解為一個(gè)具有完整功能的模塊。而chiplet架構(gòu)中的算力核心die,即算力核心模塊中包含很多計(jì)算塊,這些計(jì)算塊在運(yùn)行的過(guò)程中可能會(huì)出現(xiàn)個(gè)別計(jì)算塊故障或異常,此時(shí)若其中有正在運(yùn)行的任務(wù),則容易導(dǎo)致任務(wù)執(zhí)行失敗或錯(cuò)誤,影響chiplet整體架構(gòu)的性能和可靠性。因此,迫切需要一種針對(duì)算力核心模塊的有效監(jiān)測(cè)和處理方法,來(lái)確保chiplet架構(gòu)算力核心的穩(wěn)定性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供了一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)裝置及方法,用于解決如下技術(shù)問(wèn)題:chiplet架構(gòu)中的算力核心模塊在運(yùn)行過(guò)程中可能出現(xiàn)計(jì)算塊異常,不利于任務(wù)的正常執(zhí)行,影響整體chiplet架構(gòu)的性能和可靠性,迫切需要針對(duì)算力核心模塊進(jìn)行有效監(jiān)測(cè)和處理。
2、本發(fā)明實(shí)施例采用下述技術(shù)方案:
3、一方面,本發(fā)明實(shí)施例提供了一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)裝置,裝置包括:中央處理單元模塊以及多個(gè)算力核心模塊;
4、所述算力核心模塊包括監(jiān)視器以及多個(gè)計(jì)算塊;計(jì)算塊為所述算力核心模塊的基本單元;
5、所述監(jiān)視器用于檢測(cè)所述計(jì)算核心模塊的狀態(tài)信息;
6、所述中央處理單元模塊包括多個(gè)中央處理單元。
7、在一種可行的實(shí)施方式中,所述算力核心模塊與所述中央處理單元模塊通過(guò)d2d高速接口連接;所述d2d高速接口用于傳遞命令以及傳輸數(shù)據(jù)。
8、在一種可行的實(shí)施方式中,所述監(jiān)視器中至少包括:仲裁器子模塊、數(shù)據(jù)包解析子模塊、功耗估算子模塊、性能估算子模塊、資源占用估算子模塊、計(jì)算塊資源控制子模塊以及計(jì)算塊狀態(tài)表。
9、在一種可行的實(shí)施方式中,每個(gè)所述算力核心模塊中還包括:冗余算力計(jì)算塊;
10、所述冗余算力計(jì)算塊用于接收所述算力核心模塊的壞塊中正在運(yùn)行的任務(wù);其中,所述壞塊是指出現(xiàn)故障或異常的計(jì)算塊。
11、另一方面,本發(fā)明實(shí)施例還提供了一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)方法,應(yīng)用于所述的一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)裝置,所述方法包括:
12、所述中央處理單元模塊收集所述算力核心模塊的運(yùn)行狀態(tài)信息,并對(duì)所述運(yùn)行狀態(tài)信息進(jìn)行分析,確定所述算力核心模塊中存在的壞塊;
13、所述中央處理單元模塊將所述壞塊中正在運(yùn)行的任務(wù)轉(zhuǎn)移到冗余算力計(jì)算塊或其他算力核心模塊中繼續(xù)運(yùn)行。
14、在一種可行的實(shí)施方式中,所述中央處理單元模塊收集所述算力核心模塊的運(yùn)行狀態(tài)信息,具體包括:
15、所述中央處理單元模塊生成狀態(tài)檢測(cè)命令并發(fā)送到所述算力核心模塊;
16、所述算力核心模塊的監(jiān)視器解析所述狀態(tài)監(jiān)測(cè)命令,并通過(guò)解析后的命令激活所述算力核心模塊中的每個(gè)計(jì)算塊;
17、各個(gè)計(jì)算塊返回各自的激活狀態(tài)信息,所述監(jiān)視器收集匯總所述激活狀態(tài)信息,生成所述算力核心模塊的運(yùn)行狀態(tài)信息,并發(fā)送到所述中央處理單元模塊。
18、在一種可行的實(shí)施方式中,所述中央處理單元模塊對(duì)所述運(yùn)行狀態(tài)信息進(jìn)行分析,確定所述算力核心模塊中存在的壞塊,具體包括:
19、所述中央處理單元模塊分析出所述運(yùn)行狀態(tài)信息中的異常激活狀態(tài)信息,并根據(jù)所述異常激活狀態(tài)信息的來(lái)源,確定對(duì)應(yīng)的異常計(jì)算塊;
20、將所述異常計(jì)算塊確定為所述算力核心模塊中的壞塊,并獲取壞塊的位置信息。
21、在一種可行的實(shí)施方式中,在中央處理單元模塊對(duì)所述運(yùn)行狀態(tài)信息進(jìn)行分析,確定所述算力核心模塊中存在的壞塊之后,所述方法還包括:
22、所述中央處理單元模塊將所述算力核心模塊中確定出的壞塊進(jìn)行隔離,并記錄所述算力核心模塊中所有的異常激活狀態(tài)信息。
23、在一種可行的實(shí)施方式中,所述中央處理單元模塊將所述壞塊中正在運(yùn)行的任務(wù)轉(zhuǎn)移到冗余算力計(jì)算塊或其他算力核心模塊中繼續(xù)運(yùn)行,具體包括:
24、所述中央處理單元模塊啟動(dòng)所述算力核心模塊中的冗余算力計(jì)算塊,并將所述壞塊中正在運(yùn)行的任務(wù)轉(zhuǎn)移到冗余算力計(jì)算塊中繼續(xù)運(yùn)行;
25、若所述算力核心模塊中的所有計(jì)算塊均被占用,所述中央處理單元?jiǎng)t啟動(dòng)相鄰的算力核心模塊中未被占用的計(jì)算塊,接收所述壞塊中的任務(wù)。
26、在一種可行的實(shí)施方式中,所述方法還包括:
27、當(dāng)所述算力核心模塊中的所有計(jì)算塊均正常運(yùn)行時(shí),所述監(jiān)視器按照順序獲取各個(gè)計(jì)算塊的狀態(tài)信息,并對(duì)所述狀態(tài)信息進(jìn)行功耗估算、性能估算以及資源占用估算,獲得整個(gè)算力核心模塊的評(píng)估信息;
28、并將所述評(píng)估信息存儲(chǔ)到計(jì)算塊狀態(tài)表,通過(guò)所述計(jì)算塊狀態(tài)表將評(píng)估信息傳遞給所述中央處理單元模塊。
29、與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例提供的一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)裝置及方法,具有如下有益效果:
30、本發(fā)明通過(guò)上述技術(shù)方案,能夠?qū)崟r(shí)監(jiān)測(cè)算力核心的狀態(tài),及時(shí)發(fā)現(xiàn)并隔離算力核心中的壞塊,并進(jìn)行相應(yīng)的處理,保證壞塊中任務(wù)的穩(wěn)定運(yùn)行。實(shí)現(xiàn)了對(duì)基于chiplet架構(gòu)的算力核心的壞塊進(jìn)行實(shí)時(shí)監(jiān)測(cè)和有效處理,提高了系統(tǒng)的可靠性和穩(wěn)定性。
1.一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)裝置,其特征在于,所述裝置包括中央處理單元模塊以及多個(gè)算力核心模塊;
2.根據(jù)權(quán)利要求1所述的一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)裝置,其特征在于,所述算力核心模塊與所述中央處理單元模塊通過(guò)d2d高速接口連接;所述d2d高速接口用于傳遞命令以及傳輸數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)裝置,其特征在于,所述監(jiān)視器中至少包括:仲裁器子模塊、數(shù)據(jù)包解析子模塊、功耗估算子模塊、性能估算子模塊、資源占用估算子模塊、計(jì)算塊資源控制子模塊以及計(jì)算塊狀態(tài)表。
4.根據(jù)權(quán)利要求1所述的一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)裝置,其特征在于,每個(gè)所述算力核心模塊中還包括:冗余算力計(jì)算塊;
5.一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)方法,應(yīng)用于如權(quán)利要求1所述的一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)裝置,其特征在于,所述方法包括:
6.根據(jù)權(quán)利要求5所述的一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)方法,其特征在于,所述中央處理單元模塊收集所述算力核心模塊的運(yùn)行狀態(tài)信息,具體包括:
7.根據(jù)權(quán)利要求5所述的一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)方法,其特征在于,所述中央處理單元模塊對(duì)所述運(yùn)行狀態(tài)信息進(jìn)行分析,確定所述算力核心模塊中存在的壞塊,具體包括:
8.根據(jù)權(quán)利要求5所述的一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)方法,其特征在于,在中央處理單元模塊對(duì)所述運(yùn)行狀態(tài)信息進(jìn)行分析,確定所述算力核心模塊中存在的壞塊之后,所述方法還包括:
9.根據(jù)權(quán)利要求5所述的一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)方法,其特征在于,所述中央處理單元模塊將所述壞塊中正在運(yùn)行的任務(wù)轉(zhuǎn)移到冗余算力計(jì)算塊或其他算力核心模塊中繼續(xù)運(yùn)行,具體包括:
10.根據(jù)權(quán)利要求5所述的一種基于chiplet架構(gòu)的算力核心壞塊監(jiān)測(cè)方法,其特征在于,所述方法還包括: