本發(fā)明涉及柔性作業(yè)車間非等效并行機(jī)調(diào)度,具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的晶圓制造光刻加工區(qū)快響應(yīng)調(diào)度方法及系統(tǒng)。
背景技術(shù):
1、晶圓制造系統(tǒng)是半導(dǎo)體產(chǎn)業(yè)發(fā)展的基石,通常晶圓需要經(jīng)過多次重復(fù)的氧化、光刻、刻蝕、離子注入以及金屬鍍膜等工序才能制造出設(shè)計(jì)的集成電路芯片。因其加工特性,加工過程中晶圓逐層加工,每一層電路的制作都需要在不同的工作區(qū)中進(jìn)行,存在大量的重加工工藝,且加工流程可達(dá)數(shù)百道甚至數(shù)千道工序,導(dǎo)致晶圓加工過程復(fù)雜度提升。
2、光刻工序是晶圓制造系統(tǒng)最重要的加工工序,主要通過特定波長(zhǎng)光進(jìn)行照射,將掩膜版上的圖案投影到晶圓片的光刻膠上。經(jīng)過圖形檢測(cè)之后通過轉(zhuǎn)移方法將電路保留到晶圓片上完成光刻操作。光刻工序的加工離不開光刻區(qū)內(nèi)的光刻機(jī),通常一臺(tái)最先進(jìn)的光刻機(jī)的價(jià)格可達(dá)數(shù)億歐元,高昂的價(jià)格使得光刻區(qū)投入的成本巨大。光刻工序的繁雜也導(dǎo)致了光刻區(qū)內(nèi)的在制品數(shù)量占比較大,可達(dá)整個(gè)工廠的40%。因此高昂的成本投入以及高占比的在制品數(shù)量使得光刻區(qū)成為整個(gè)晶圓制造系統(tǒng)的核心加工區(qū)。
3、晶圓光刻區(qū)生產(chǎn)過程中存在晶圓lot動(dòng)態(tài)到達(dá)、晶圓優(yōu)先級(jí)變化及緊急訂單插入等動(dòng)態(tài)變化因素,因此為適應(yīng)動(dòng)態(tài)生產(chǎn)環(huán)境,提高光刻機(jī)效率,光刻區(qū)調(diào)度需要具有快速響應(yīng)以及應(yīng)對(duì)動(dòng)態(tài)影響因素適應(yīng)變化的能力。通過檢索現(xiàn)有的專利文獻(xiàn)發(fā)現(xiàn),當(dāng)前針對(duì)晶圓光刻區(qū)的調(diào)度方法較少,其中中國(guó)專利cn104536412a、cn111199272b、cn117709683a普遍存在優(yōu)化方法計(jì)算求解時(shí)間隨著問題規(guī)模的增大快速增加,實(shí)時(shí)性較差、優(yōu)化目標(biāo)較為單一等問題,難以在短時(shí)間內(nèi)快速響應(yīng)獲得合理有效的調(diào)度方案。此外,這些調(diào)度方法并未充分考慮光刻區(qū)特有設(shè)備專屬性約束、序列相關(guān)準(zhǔn)備時(shí)間約束以及掩膜版約束特點(diǎn),不適合真實(shí)的光刻加工區(qū)調(diào)度場(chǎng)景。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問題,本發(fā)明的技術(shù)方案提供一種適應(yīng)能力、實(shí)時(shí)性強(qiáng)的基于深度強(qiáng)化學(xué)習(xí)的光刻加工區(qū)快響應(yīng)調(diào)度方法及系統(tǒng),以提高光刻區(qū)調(diào)度效率。
2、本發(fā)明提供一種基于深度強(qiáng)化學(xué)習(xí)的光刻加工區(qū)快響應(yīng)調(diào)度方法,其特征在于,包括以下步驟:
3、步驟1:采集晶圓制造系統(tǒng)中光刻加工區(qū)歷史生產(chǎn)運(yùn)行數(shù)據(jù),通過數(shù)據(jù)清洗處理缺失值與異常值,通過數(shù)據(jù)轉(zhuǎn)換消除不同量綱之間的影響,最后將數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)集與驗(yàn)證數(shù)據(jù)集;
4、步驟2:通過構(gòu)建設(shè)計(jì)光刻加工區(qū)狀態(tài)空間s、光刻加工區(qū)動(dòng)作空間a和光刻加工區(qū)自適應(yīng)獎(jiǎng)勵(lì)函數(shù)r定義,將光刻加工區(qū)快響應(yīng)調(diào)度問題轉(zhuǎn)化為馬爾科夫貫序決策問題,并以此構(gòu)建深度強(qiáng)化學(xué)習(xí)光刻加工區(qū)快響應(yīng)調(diào)度模型;
5、步驟3:基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建光刻加工區(qū)自調(diào)度智能體(agent),其中智能體采用基于策略梯度的深度強(qiáng)化學(xué)習(xí)ppo算法,該算法采用actor-critic(演員評(píng)論家)算法框架構(gòu)建策略網(wǎng)絡(luò)actor與價(jià)值網(wǎng)絡(luò)critic;
6、步驟4:在步驟1訓(xùn)練數(shù)據(jù)集基礎(chǔ)上通過光刻加工區(qū)自調(diào)度智能體與光刻加工區(qū)環(huán)境交互,在每一時(shí)刻不同優(yōu)化指標(biāo)需求下產(chǎn)生歷史交互動(dòng)作經(jīng)驗(yàn)數(shù)據(jù)并存儲(chǔ)在經(jīng)驗(yàn)池,光刻加工區(qū)智能體根據(jù)經(jīng)驗(yàn)池進(jìn)行網(wǎng)絡(luò)參數(shù)更新,并以最大化總回報(bào)訓(xùn)練智能體學(xué)習(xí)最優(yōu)調(diào)度策略;
7、步驟5:在步驟1驗(yàn)證數(shù)據(jù)集基礎(chǔ)上對(duì)訓(xùn)練完成的光刻加工區(qū)自調(diào)度智能體模型進(jìn)行準(zhǔn)確度驗(yàn)證,驗(yàn)證通過則進(jìn)入步驟6,否則返回步驟4;
8、步驟6:將驗(yàn)證通過的光刻加工區(qū)自調(diào)度智能體模型部署部署到計(jì)算機(jī)中,實(shí)現(xiàn)實(shí)時(shí)檢測(cè)晶圓制造系統(tǒng)多作業(yè)區(qū)狀態(tài)空間中的狀態(tài)特征參數(shù)數(shù)據(jù)、光刻加工區(qū)晶圓以及設(shè)備空閑時(shí)觸發(fā)調(diào)度數(shù)據(jù),以實(shí)現(xiàn)實(shí)時(shí)系統(tǒng)檢測(cè)并快速?zèng)Q策調(diào)度策略。
9、進(jìn)一步地,在本發(fā)明提供的基于深度強(qiáng)化學(xué)習(xí)的光刻加工區(qū)快響應(yīng)調(diào)度方法中,還可以具有這樣的特征:步驟2中,所述光刻加工區(qū)狀態(tài)空間s=s1∩s2∩s3∩s4,其中s1表示光刻加工區(qū)整體優(yōu)化指標(biāo)子狀態(tài)、s2表示光刻加工區(qū)中晶圓lot子狀態(tài)、s3表示光刻加工區(qū)中光刻設(shè)備子狀態(tài)、s4表示光刻加工區(qū)中掩膜版子狀態(tài);
10、所述光刻加工區(qū)動(dòng)作空間a={a1,a2,a3,a4,a5,a6,a7,a8},其中a1,a2,...,a8表示光刻加工區(qū)自調(diào)度智能體可用動(dòng)作,分別為啟發(fā)式wspt規(guī)則、wlpt規(guī)則、fifo規(guī)則、wmdd規(guī)則、wcr規(guī)則、wedd規(guī)則、atc規(guī)則、winq規(guī)則;
11、所述光刻加工區(qū)自適應(yīng)獎(jiǎng)勵(lì)函數(shù)其中表示光刻加工區(qū)在i時(shí)刻的優(yōu)化指標(biāo)設(shè)備利用率即時(shí)獎(jiǎng)勵(lì),pjm,i為i時(shí)刻晶圓j在光刻設(shè)備m上的加工時(shí)間,nm為光刻設(shè)備數(shù)量,ci為i時(shí)刻該光刻加工區(qū)的加工周期時(shí)間,m為光刻加工區(qū)所有設(shè)備集合,m={1,2,…,m},j為待光刻的所有晶圓集合,j={1,2,…,j},t為自調(diào)度智能體決策最大時(shí)間步;其中r1,i=max(cjm,i-dj,0)表示光刻加工區(qū)在i時(shí)刻的優(yōu)化指標(biāo)拖期時(shí)間即時(shí)獎(jiǎng)勵(lì),cjm,i為i時(shí)刻晶圓j在光刻機(jī)m上的完工時(shí)間,dj為晶圓j的交貨期,如果晶圓j的完工時(shí)間大于交貨期,即產(chǎn)生拖期,如果晶圓j的完工時(shí)間小于交貨期,則拖期時(shí)間為0,max(·)為最大值函數(shù);r2,i=max(taj+tvj+pjm)表示光刻加工區(qū)在i時(shí)刻的優(yōu)化指標(biāo)生產(chǎn)周期即時(shí)獎(jiǎng)勵(lì),taj為晶圓j到達(dá)光刻加工區(qū)的時(shí)間,tvj為晶圓j開始加工之前需要的掩膜版調(diào)整時(shí)間與序列切換準(zhǔn)備時(shí)間,max(·)為最大值函數(shù);α、β、γ為自調(diào)度智能體自適應(yīng)獎(jiǎng)勵(lì)函數(shù)調(diào)整系數(shù),該系數(shù)能夠根據(jù)當(dāng)前調(diào)度對(duì)三種優(yōu)化指標(biāo)的不同需求在自調(diào)度智能體訓(xùn)練過程中動(dòng)態(tài)調(diào)整,以適應(yīng)真實(shí)光刻加工區(qū)調(diào)度中不同優(yōu)化指標(biāo)的需求比例;norm(·)為歸一化函數(shù),用于將不同量綱的即時(shí)獎(jiǎng)勵(lì)轉(zhuǎn)化為同一量綱,便于加權(quán)計(jì)算。
12、進(jìn)一步地,在本發(fā)明提供的基于深度強(qiáng)化學(xué)習(xí)的光刻加工區(qū)快響應(yīng)調(diào)度方法中,還可以具有這樣的特征:步驟3中,所述光刻加工區(qū)自調(diào)度智能體agent采用基于策略梯度的深度強(qiáng)化學(xué)習(xí)ppo(proximalpolicy?optimization,ppo)算法,基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建策略網(wǎng)絡(luò)actor與價(jià)值網(wǎng)絡(luò)critic,策略網(wǎng)絡(luò)actor輸入當(dāng)前光刻加工區(qū)環(huán)境狀態(tài),輸出動(dòng)作的概率分布,構(gòu)成當(dāng)前的策略;價(jià)值網(wǎng)絡(luò)輸入當(dāng)前光刻加工區(qū)環(huán)境狀態(tài),輸出在當(dāng)前狀態(tài)下的狀態(tài)值,即期望回報(bào);ppo算法使用多步td,運(yùn)行完一條軌跡數(shù)據(jù)之后,開始計(jì)算各個(gè)狀態(tài)的累計(jì)回報(bào)和動(dòng)作的優(yōu)勢(shì),actor網(wǎng)絡(luò)更新完后,利用同樣的從經(jīng)驗(yàn)回放池中采樣的數(shù)據(jù)進(jìn)行critic網(wǎng)絡(luò)的更新,critic網(wǎng)絡(luò)的更新方式為:計(jì)算折扣回報(bào)與critic網(wǎng)絡(luò)預(yù)測(cè)的當(dāng)前狀態(tài)價(jià)值,利用損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
13、進(jìn)一步地,在本發(fā)明提供的基于深度強(qiáng)化學(xué)習(xí)的光刻加工區(qū)快響應(yīng)調(diào)度方法中,還可以具有這樣的特征:所述損失函數(shù)的計(jì)算方式為:
14、
15、其中為t時(shí)刻的期望值,πθ即網(wǎng)絡(luò)參數(shù)為θ的策略π;表示t時(shí)刻下新舊策略的概率比,借助重要性采樣,使得待優(yōu)化的策略πθ和舊策略不同,從而實(shí)現(xiàn)數(shù)據(jù)的重復(fù)利用,提升訓(xùn)練效率,clip和ε分別為剪切函數(shù)和剪切系數(shù),通過該系數(shù)可在更新時(shí)將新舊策略之間的差異控制在可控范圍內(nèi),min(·)為最小值函數(shù),為優(yōu)勢(shì)函數(shù),用于描述相對(duì)其他動(dòng)作的優(yōu)勢(shì),其中定義如下:
16、
17、其中,
18、δt=rt+χv(st+1)-v(st)?(3)
19、v(st)表示狀態(tài)st下的狀態(tài)值,rt為t時(shí)刻的獎(jiǎng)勵(lì),χ為折扣因子,len表示軌跡長(zhǎng)度,λ為一個(gè)平衡參數(shù),用于調(diào)整優(yōu)勢(shì)函數(shù)估計(jì)中的偏差與方差。
20、進(jìn)一步地,在本發(fā)明提供的基于深度強(qiáng)化學(xué)習(xí)的光刻加工區(qū)快響應(yīng)調(diào)度方法中,還可以具有這樣的特征:步驟4中,所述光刻加工區(qū)自調(diào)度智能體輸入光刻加工區(qū)整體優(yōu)化指標(biāo)子狀態(tài)s1、光刻加工區(qū)中晶圓lot子狀態(tài)s2、光刻加工區(qū)中光刻機(jī)子狀態(tài)s3、光刻加工區(qū)中掩膜版子狀態(tài)s4,輸入維度為狀態(tài)空間s的維度;輸出動(dòng)作空間a中的動(dòng)作ak,輸出維度為動(dòng)作空間的維度。
21、本發(fā)明還提供一種光刻加工區(qū)快響應(yīng)調(diào)度系統(tǒng),與晶圓制造系統(tǒng)通信連接,其特征在于,包括:模型模塊、數(shù)據(jù)交互模塊、光刻加工區(qū)快響應(yīng)調(diào)度控制模塊,其中,所述模型模塊具有通過權(quán)利要求1~5中任意一項(xiàng)所述的基于深度強(qiáng)化學(xué)習(xí)的光刻加工區(qū)快響應(yīng)調(diào)度方法得到的驗(yàn)證通過的光刻加工區(qū)自調(diào)度智能體模型,所述光刻加工區(qū)自調(diào)度智能體模型根據(jù)輸入的狀態(tài)輸出最優(yōu)動(dòng)作;所述數(shù)據(jù)交互模塊獲取光刻加工數(shù)據(jù),經(jīng)數(shù)據(jù)處理后傳輸至所述光刻加工區(qū)快響應(yīng)調(diào)度控制模塊;所述光刻加工區(qū)快響應(yīng)調(diào)度控制模塊包括狀態(tài)監(jiān)測(cè)單元、數(shù)據(jù)整理單元、狀態(tài)輸入模型單元、模型結(jié)果接收單元、調(diào)度策略執(zhí)行模塊、預(yù)調(diào)數(shù)據(jù)返回模塊;所述狀態(tài)監(jiān)測(cè)單元實(shí)時(shí)監(jiān)測(cè)光刻加工區(qū)運(yùn)行狀態(tài);所述數(shù)據(jù)整理單元將光刻加工區(qū)運(yùn)行狀態(tài)信息s整理成整理為光刻加工區(qū)整體優(yōu)化指標(biāo)子狀態(tài)信息s1、光刻加工區(qū)中晶圓lot子狀態(tài)信息s2、光刻加工區(qū)中光刻機(jī)子狀態(tài)信息s3、光刻加工區(qū)中掩膜版子狀態(tài)信息s4;所述狀態(tài)輸入模型單元將s1、s2、s3、s4輸入所述光刻加工區(qū)自調(diào)度智能體模型中;所述模型結(jié)果接收單元接收所述光刻加工區(qū)自調(diào)度智能體模型返回的最優(yōu)動(dòng)作,所述最優(yōu)動(dòng)作即調(diào)度策略;所述調(diào)度策略執(zhí)行模塊根據(jù)接收到的調(diào)度策略執(zhí)行相應(yīng)調(diào)度動(dòng)作,實(shí)現(xiàn)對(duì)光刻加工區(qū)等待晶圓和掩膜版的調(diào)度;所述調(diào)度數(shù)據(jù)返回模塊在調(diào)度動(dòng)作完成之后將預(yù)調(diào)度結(jié)果返回給所述數(shù)據(jù)交互模塊。
22、進(jìn)一步地,在本發(fā)明提供的光刻加工區(qū)快響應(yīng)調(diào)度系統(tǒng)中,還可以具有這樣的特征:其中,所述光刻加工數(shù)據(jù)包括光刻加工區(qū)晶圓、光刻機(jī)以及掩膜版信息。
23、進(jìn)一步地,在本發(fā)明提供的光刻加工區(qū)快響應(yīng)調(diào)度系統(tǒng)中,還可以具有這樣的特征:其中,所述數(shù)據(jù)交互模塊還將調(diào)度結(jié)果以及調(diào)度過程輸出到所述數(shù)據(jù)交互模塊的數(shù)據(jù)進(jìn)行數(shù)據(jù)共享供其他模塊使用。
24、本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序指令,所述計(jì)算機(jī)程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的基于深度強(qiáng)化學(xué)習(xí)的光刻加工區(qū)快響應(yīng)調(diào)度方法中的步驟。
25、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:
26、1)針對(duì)現(xiàn)有技術(shù)的研究與方法求解計(jì)算時(shí)間隨著問題規(guī)模的增大快速增加,實(shí)時(shí)性較差的問題,本發(fā)明的方法能夠在短時(shí)間內(nèi)快速求解調(diào)度優(yōu)化問題,且面對(duì)同一車間不同規(guī)模場(chǎng)景時(shí)無需重新訓(xùn)練也能適應(yīng)環(huán)境做出合理調(diào)度。
27、2)針對(duì)現(xiàn)有技術(shù)研究方法優(yōu)化目標(biāo)單一的問題,本發(fā)明的方法中設(shè)計(jì)了光刻加工區(qū)自適應(yīng)獎(jiǎng)勵(lì)函數(shù),針對(duì)不同場(chǎng)景與不同指標(biāo)需求自適應(yīng)調(diào)整指標(biāo)系數(shù),達(dá)到同時(shí)優(yōu)化光刻機(jī)設(shè)備利用率、晶圓lot拖期時(shí)間、光刻加工周期時(shí)間目標(biāo),實(shí)現(xiàn)多種目標(biāo)自適應(yīng)優(yōu)化。
28、3)本發(fā)明基于深度強(qiáng)化學(xué)習(xí)的光刻加工區(qū)快響應(yīng)調(diào)度方法還設(shè)計(jì)添加了掩模版實(shí)時(shí)狀態(tài)加入調(diào)度狀態(tài),實(shí)現(xiàn)了調(diào)度過程中考慮光刻加工區(qū)特有設(shè)備專屬性約束、掩膜版約束與序列相關(guān)準(zhǔn)備時(shí)間約束,該方法較之現(xiàn)有技術(shù)更加符合真實(shí)的光刻加工區(qū)調(diào)度場(chǎng)景,更科學(xué)合理。
29、4)本發(fā)明的光刻加工區(qū)快響應(yīng)調(diào)度系統(tǒng)可以實(shí)現(xiàn)通過光刻加工區(qū)快響應(yīng)調(diào)度控制模塊實(shí)時(shí)監(jiān)測(cè)光刻加工區(qū)狀態(tài)變化,輸出最優(yōu)調(diào)度策略,提升了光刻加工區(qū)調(diào)度效率與生產(chǎn)效能。