本發(fā)明涉及溫度監(jiān)控。更具體地,本發(fā)明涉及一種烘涂機烘箱監(jiān)控系統(tǒng)及方法。
背景技術:
1、千層蛋糕涂烘機包括注漿機、注漿機傳動部分、加熱系統(tǒng)以及控制系統(tǒng)等;其中注漿機采用大齒輪傳動,對蛋糕漿氣泡損壞較少,且注漿機傳動部分采用無縫鋼軌,令每層蛋糕更均勻;加熱系統(tǒng)采用遠紅外發(fā)熱管,以使烘烤更均勻;控制系統(tǒng)對傳動、速度、溫度進行控制,以保證的蛋糕的質量。
2、其中,影響蛋糕的質量的關鍵因素之一為溫度,現(xiàn)有的千層蛋糕涂烘機的控制系統(tǒng)通常采用一個閉環(huán)反饋調節(jié)系統(tǒng),如plc控制系統(tǒng),即由溫度傳感器對烘箱溫度進行檢測,并將溫度轉換為電信號輸送給plc,plc根據需要設定不同的控制策略,如比例控制、比例-積分-微分(pid)控制等,以確定如何基于溫度輸入信號調整輸出信號以達到所需的溫度目標,plc內部使用特定的控制算法對溫度進行計算和調整,根據測量到的溫度信號計算出相應的控制輸出信號,并將其發(fā)送給加熱系統(tǒng),plc控制加熱系統(tǒng)的工作狀態(tài)和功率;plc對溫度進行監(jiān)測和反饋控制,通過與溫度傳感器的實時通信,持續(xù)監(jiān)測溫度值,并根據測量結果進行調整,以實現(xiàn)精確的溫度控制。
3、一般來說,對于環(huán)境溫度的控制通常采用比例-積分-微分(pid)控制,即通過比例(p)、積分(i)和微分(d)三種控制作用的組合,對系統(tǒng)的溫度進行調整。
4、但是,pid算法的參數調整困難,需要依賴于經驗和反復試驗,才能找到最優(yōu)的參數組合,這一過程往往耗時且繁瑣。另外,靜態(tài)的pid參數難以適應變化的溫度環(huán)境,魯棒性較差。
5、因此,如何快速、精準地進行千層蛋糕涂烘機環(huán)境的溫度的控制是尤為重要的。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提出一種烘涂機烘箱監(jiān)控系統(tǒng)及方法,用以解決現(xiàn)有的溫度控制魯棒性較差且調整過程繁瑣的問題;為此,本發(fā)明在如下的兩個方面中提供方案。
2、在第一方面中,本發(fā)明提供了一種烘涂機烘箱監(jiān)控方法,包括:
3、獲取上一時刻的烘箱內溫度;
4、根據所述烘箱內溫度,采用預先獲取的當前烘箱內環(huán)境的最佳策略,獲取當前烘箱內的pid控制參數;
5、根據當前烘箱內的pid控制參數,計算出相應的控制輸出信號,并將控制輸出新信號發(fā)送給加熱系統(tǒng),plc控制器控制加熱系統(tǒng)的工作狀態(tài)和功率,以實現(xiàn)烘箱的溫度監(jiān)控。
6、上述方案中能夠通過對烘涂機烘箱內的溫度進行監(jiān)控,并通過預先獲取的最佳策略自動調整當前烘箱內的溫度,以實現(xiàn)烘箱的溫度監(jiān)控。
7、在一個實施例中,所述最佳策略的獲取過程為:
8、確定蒙特卡洛法中的狀態(tài)空間、動作空間和動作策略函數;所述狀態(tài)空間為提取的獲取歷史烘箱內的pid控制曲線的特征值;所述動作空間為p±λ、i±λ、d±λ,λ為動作調整步長,p、i、d分別為控制系統(tǒng)中的比例、積分和微分;所述動作策略函數分別與當前權重、當前狀態(tài)的行為值函數正相關;所述行為值函數為多個完整狀態(tài)序列中當前狀態(tài)的值函數的平均值;所述當前權重τk(sn,a)為:τk-1(sn,a)表示狀態(tài)動作對<sn,a>所在的第k-1個完整狀態(tài)序列的權重,sn為第n次狀態(tài),k≥2,a為狀態(tài)sn對應的動作;
9、選取動作策略函數最大時對應的動作時序作為最佳策略。
10、上述方案中,通過獲取烘箱內的環(huán)境的控制曲線,來表征改進型強化學習模型的狀態(tài)空間,并在后續(xù)構建策略函數時,通過對歷史烘箱內的數據進行分析,能夠得到多個完整狀態(tài)序列,并基于多個完整狀態(tài)序列的值函數以及更新的權重,構建策略函數,并得到最佳策略函數,相比于現(xiàn)有技術來說,引入權重,能夠考慮到多個完整狀態(tài)序列中的動作序列的全局變化的情況,進而獲取全局的最佳策略,有利于提高后續(xù)烘箱的溫度獲取的精準性。
11、在一個實施例中,動作策略函數為:
12、
13、其中,τk(sn,a)為第k個完整狀態(tài)序列的當前權重,為狀態(tài)動作對<sn,a>所在的k個完整狀態(tài)序列的行為值函數,λ、μ為比例系數,用于調控權重和值函數的重要比例,其中k大于等于2,argmax()為求自變量最大的函數,*為乘號。
14、上述方案中,引入行為值函數以及第k次迭代停止后的權重這一參數,能夠兼顧到不同完整狀態(tài)序列對應的狀態(tài)、動作的變化情況,為獲取最佳策略提供了數據依據。
15、在一個實施例中,所述完整狀態(tài)序列的獲取過程為:
16、基于初始狀態(tài)和終止狀態(tài),多次模擬實際的環(huán)境互動,得到多次完整狀態(tài)序列;其中環(huán)境互動為:以初始狀態(tài)出發(fā),隨機選取動作空間中的任一動作,個體與環(huán)境交互直到終止狀態(tài),得到一個完整狀態(tài)序列;每個完整的狀態(tài)序列對應一組動作序列和終止狀態(tài)對應的值函數;其中,設定初始狀態(tài)為歷史烘箱內實際溫度所對應的狀態(tài),終止狀態(tài)為歷史烘箱內環(huán)境達到的目標溫度對應的狀態(tài)。
17、上述方案中,將一個完整狀態(tài)序列作為烘箱內溫度從初始狀態(tài)調控至結束狀態(tài)的路徑,由于動作空間有多種動作,因此,從初始狀態(tài)到結束狀態(tài)的過程中,其存在多種動作的組合,也即存在多種路徑,一種路徑對應一組動作,且上述中的一個完整狀態(tài)序列的值函數是在每個完整狀態(tài)序列結束后更新得到的值函數,無需反饋一次動作就更新值函數,提高了獲取值函數的效率。
18、在一個實施例中,在一個完整的狀態(tài)序列中,值函數的更新規(guī)則如下:
19、設置初始值函數,并進行初始化;
20、根據設置的獎賞值函數,得到智能體每選取一次動作時對應的獎賞值,直至獎賞值的累加和最大,得到完整的狀態(tài)序列,并更新初始值函數;具體更新為:
21、q(sn,a)=r(sn,a)+γq(sn+1,a′);
22、其中,γ為折扣因子,用于衰減未來獎賞的重要性,q(sn,a)為狀態(tài)動作對<sn,a>的值函數,r(sn,a)為狀態(tài)動作對<sn,a>的獎賞值函數,其中獎賞值函數為當前狀態(tài)與下一狀態(tài)的差值與當前狀態(tài)的比值,q(sn+1,a′)為狀態(tài)動作對<sn+1,a′>的值函數,a′為狀態(tài)sn+1對應的動作,sn為第n次狀態(tài),sn+1為第n+1次狀態(tài)。
23、在一個實施例中,所述狀態(tài)空間為s=[s1,s2,…,sn,sn+1,…,sn],在烘箱內的溫度控制系統(tǒng)中,智能體從烘箱內獲取的特征值zn,其中zn為狀態(tài)sn對應的控制曲線的特征值,在狀態(tài)sn時執(zhí)行動作a,得到狀態(tài)sn+1,對應的控制曲線的特征值為zn+1;n為狀態(tài)的總次數。
24、在一個實施例中,所述控制曲線的特征值為:z=t*exp(h+β);
25、其中,t為pid控制的輸出從初始值變化到設定值所需的調節(jié)時間,h為超調量,是指調控過程中輸出溫度與目標值的差異的最大值與調控目標值的比值;hmax為輸出溫度的最大值,hmin為輸出溫度的最小值,hgoal為調控的目標值,β為震蕩頻率,是指輸出在達到穩(wěn)定狀態(tài)之前震蕩的頻率,b是指輸出達到穩(wěn)定狀態(tài)之前振蕩的次數,*為乘號。
26、由于在使用pid算法進行溫控時,不同的控制比例將得到不同的控制曲線,且控制曲線可以直觀地反映使用當前pid參數時烘箱內的溫度變化的過程。因此對控制曲線進行分析,提取控制曲線的特征值有利于判斷當前pid參數是否適合。
27、在第二方面中,本發(fā)明還提供了一種烘涂機烘箱監(jiān)控系統(tǒng),包括:
28、處理器;
29、存儲器,其存儲有烘涂機烘箱監(jiān)控的計算機指令,當所述計算機指令由所述處理器運行時,使得系統(tǒng)執(zhí)行上述第一方面中的烘涂機烘箱監(jiān)控方法。
30、本發(fā)明的有益效果為:
31、本發(fā)明的方案通過借助環(huán)境強化學習模型,可以自適應地尋找控制系統(tǒng)內合適的pid參數,并對烘箱溫度進行控制,提高了溫度監(jiān)控的精準度。