本申請屬于電機控制,尤其涉及基于強化學習的伺服電機控制方法。
背景技術(shù):
1、伺服電機控制器作為現(xiàn)代機電一體化系統(tǒng)的核心部件,對于精確調(diào)節(jié)電機的速度、位置和轉(zhuǎn)矩起著關(guān)鍵作用。它的性能直接關(guān)系到整個系統(tǒng)的精度、響應速度和穩(wěn)定性。永磁同步電機伺服系統(tǒng)在現(xiàn)代工業(yè)系統(tǒng)中得到了廣泛的應用。同時,永磁同步電機驅(qū)動系統(tǒng)具有高度非線性、強耦合、多變量的特點,且電機在運行過程中會出現(xiàn)外部負載擾動,使得傳統(tǒng)pi控制在保證驅(qū)動系統(tǒng)動態(tài)響應和抗干擾能力方面存在明顯的不足。
技術(shù)實現(xiàn)思路
1、本申請實施例提供了一種基于強化學習的伺服電機控制方法,可以解決現(xiàn)有技術(shù)中進度跟蹤程度不足、抗干擾能力差的問題。
2、第一方面,本申請實施例提供了一種基于強化學習的伺服電機控制方法,包括:
3、獲取目標電機運行時的三相定子電流,并將所述三相定子電流進行轉(zhuǎn)換,得到第一電流分量和第二電流分量,所述第一電流分量用于表征目標電機轉(zhuǎn)子磁通量的控制基準,所述第二電流分量用于表征目標電機的轉(zhuǎn)矩輸出能力;
4、將所述第一電流分量和所述第二電流分量分別與預設參考值進行比較,得到誤差數(shù)據(jù);
5、獲取針對所述目標電機的補償數(shù)據(jù),并將所述誤差數(shù)據(jù)和所述補償數(shù)據(jù)輸入預設強化學習網(wǎng)絡,得到第一電壓指令和第二電壓指令;
6、通過空間矢量脈寬調(diào)制算法,根據(jù)所述第一電壓指令和所述第二電壓指令確定三相電壓波形,進而根據(jù)所述三相電壓波形控制所述目標電機。
7、可選地,所述獲取目標電機運行時的三相定子電流的步驟,包括:
8、建立所述目標電機的初始pmsm模型,所述初始pmsm模型表示為:
9、
10、根據(jù)數(shù)學運算規(guī)則對所述初始pmsm模型進行轉(zhuǎn)換,得到轉(zhuǎn)換后的初始pmsm模型:
11、
12、利用一階歐拉公式對轉(zhuǎn)換后的初始pmsm模型進行離散處理,得到目標pmsm模型:
13、
14、將帶有摩擦項的負載數(shù)據(jù)輸入所述目標pmsm模型,得到目標電機運行時的三相定子電流。
15、可選地,在所述將帶有摩擦項的負載數(shù)據(jù)輸入所述目標pmsm模型的步驟之前,還包括:
16、建立用于計算所述摩擦項的摩擦力模型,所述摩擦力模型表示為:
17、
18、其中,tc是庫侖摩擦轉(zhuǎn)矩,ts是最大靜摩擦轉(zhuǎn)矩;ω是旋轉(zhuǎn)角速度,ωs是stribeck速度,σ0為剛毛剛度系數(shù),σ1為剛毛阻尼系數(shù)、σ2為粘滯摩擦系數(shù);
19、將所述目標電機運行時的速度反饋數(shù)據(jù)帶入所述摩擦力模型,得到所述摩擦項。
20、可選地,所述將所述三相定子電流進行轉(zhuǎn)換,得到第一電流分量和第二電流分量的步驟,包括:
21、利用clark變換技術(shù),將所述三相定子電流轉(zhuǎn)換至兩相正交坐標系下,得到第一電流信號和第二電流信號;
22、通過park變換,將所述第一電流信號和所述第二電流信號映射至旋轉(zhuǎn)坐標系,獲得第一電流分量和第二電流分量。
23、可選地,在所述將所述第一電流分量和所述第二電流分量分別與預設參考值進行比較,得到誤差數(shù)據(jù)的步驟之前,還包括:
24、通過位置傳感器獲取所述目標電機的角速度,并基于所述角速度計算所述目標電機的初始轉(zhuǎn)速;
25、對所述初始轉(zhuǎn)速進行濾波,得到所述目標電機的目標轉(zhuǎn)速;
26、將所述目標轉(zhuǎn)速和參考轉(zhuǎn)速輸入預設pi控制器,得到所述預設參考值中與所述第二電流分量對應的第二閾值。
27、可選地,所述獲取針對所述目標電機的補償數(shù)據(jù)的步驟,包括:
28、將所述目標轉(zhuǎn)速和所述第二電流分量輸入預設擾動觀測模型,得到所述目標電機的補償數(shù)據(jù),其中,所述預設擾動觀測模型包括低通濾波器。
29、可選地,所述將所述第一電流分量和所述第二電流分量分別與預設參考值進行比較,得到誤差數(shù)據(jù)的步驟,包括:
30、將所述第一電流分量與所述預設參考值中的第一閾值進行比較,得到所述誤差數(shù)據(jù)中的第一誤差數(shù)據(jù);
31、將所述第二電流分量與所述預設參考值中的第二閾值進行比較,得到所述誤差數(shù)據(jù)中的第二誤差數(shù)據(jù)。
32、可選地,所述將所述誤差數(shù)據(jù)和所述補償數(shù)據(jù)輸入預設強化學習網(wǎng)絡,得到第一電壓指令和第二電壓指令的步驟,包括:
33、基于所述補償數(shù)據(jù)修正所述誤差數(shù)據(jù)中的第二誤差數(shù)據(jù),將修正后的第二誤差數(shù)據(jù)和所述第一誤差數(shù)據(jù)輸入所述預設強化學習網(wǎng)絡,得到第一電壓信號和第二電壓信號,其中,所述預設強化學習網(wǎng)絡包括actor子神經(jīng)網(wǎng)絡和critic子神經(jīng)網(wǎng)絡,所述actor子神經(jīng)網(wǎng)絡用于更新動作策略;所述critic子神經(jīng)網(wǎng)絡用于對動作和狀態(tài)進行評價,并輸出評價數(shù)據(jù);所述actor子神經(jīng)網(wǎng)絡根據(jù)所述critic子神經(jīng)網(wǎng)絡輸出的評價數(shù)據(jù)對所述動作策略進行更新;所述預設強化學習網(wǎng)絡還包括獎勵函數(shù),所述獎勵函數(shù)表示為:
34、
35、ω1、ω2、ω3是獎勵增益,為過去控制增益,pk是懲罰項,gk為目標函數(shù),所述目標函數(shù)表示為:
36、
37、將所述第一電壓信號和所述第二電壓信號進行逆park變換,得到第一電壓指令和第二電壓指令。
38、可選地,所述通過空間矢量脈寬調(diào)制算法,根據(jù)所述第一電壓指令和所述第二電壓指令確定三相電壓波形的步驟,包括:
39、將所述第一電壓指令和所述第二電壓指令輸入所述空間矢量脈寬調(diào)制算法,確定目標電壓矢量的所屬扇區(qū),所述目標電壓矢量為由所述第一電壓指令和所述第二電壓指令合成的電壓矢量;
40、基于所述目標電壓矢量的所屬扇區(qū)計算為所述目標電機供電的三相逆變器各橋臂開關(guān)管的導通時間;
41、根據(jù)所述導通時間,以最優(yōu)化的方式確定所述三相電壓波形。
42、可選地,所述將所述誤差數(shù)據(jù)和所述補償數(shù)據(jù)輸入預設強化學習網(wǎng)絡的過程為一個馬爾可夫決策過程,所述馬爾可夫決策過程由一個元組(x,a,p,r,γ)定義,其中x是狀態(tài)空間,a是行動空間,p(xk+1|xk,ak)過渡函數(shù),r(xk,ak)獎勵函數(shù),γ∈[0,1]貼現(xiàn)因子,所述預設強化學習網(wǎng)絡用于確定目標行為,目標行為由策略π定義,以最大化代理的總預期貼現(xiàn)回報j(π),表示為:
43、
44、本申請實施例與現(xiàn)有技術(shù)相比存在的有益效果是:
45、將強化學習算法巧妙地引入到永磁同步電機控制中,不僅賦予了電機控制器自我學習和優(yōu)化的能力,還使其能夠通過與環(huán)境的不斷交互,精準地學習到最佳的控制策略,實現(xiàn)了更為高效、精確的電機控制,同時有效地濾除噪聲,從而獲得更為清晰平滑的擾動轉(zhuǎn)矩信號,提升系統(tǒng)的整體性能,并確保其穩(wěn)定運行。將強化學習與摩擦力補償技術(shù)相結(jié)合,不僅解決了永磁同步電機在輸出轉(zhuǎn)矩時產(chǎn)生的轉(zhuǎn)矩脈動問題,還通過智能學習的方式優(yōu)化了控制策略,提高了控制系統(tǒng)的整體性能。
1.一種基于強化學習的伺服電機控制方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于強化學習的伺服電機控制方法,其特征在于,所述獲取目標電機運行時的三相定子電流的步驟,包括:
3.如權(quán)利要求2所述的基于強化學習的伺服電機控制方法,其特征在于,在所述將帶有摩擦項的負載數(shù)據(jù)輸入所述目標pmsm模型的步驟之前,還包括:
4.如權(quán)利要求1所述的基于強化學習的伺服電機控制方法,其特征在于,所述將所述三相定子電流進行轉(zhuǎn)換,得到第一電流分量和第二電流分量的步驟,包括:
5.如權(quán)利要求1所述的基于強化學習的伺服電機控制方法,其特征在于,在所述將所述第一電流分量和所述第二電流分量分別與預設參考值進行比較,得到誤差數(shù)據(jù)的步驟之前,還包括:
6.如權(quán)利要求5所述的基于強化學習的伺服電機控制方法,其特征在于,所述獲取針對所述目標電機的補償數(shù)據(jù)的步驟,包括:
7.如權(quán)利要求5所述的基于強化學習的伺服電機控制方法,其特征在于,所述將所述第一電流分量和所述第二電流分量分別與預設參考值進行比較,得到誤差數(shù)據(jù)的步驟,包括:
8.如權(quán)利要求7所述的基于強化學習的伺服電機控制方法,其特征在于,所述將所述誤差數(shù)據(jù)和所述補償數(shù)據(jù)輸入預設強化學習網(wǎng)絡,得到第一電壓指令和第二電壓指令的步驟,包括:
9.如權(quán)利要求1所述的基于強化學習的伺服電機控制方法,其特征在于,所述通過空間矢量脈寬調(diào)制算法,根據(jù)所述第一電壓指令和所述第二電壓指令確定三相電壓波形的步驟,包括:
10.如權(quán)利要求1所述的基于強化學習的伺服電機控制方法,其特征在于,所述將所述誤差數(shù)據(jù)和所述補償數(shù)據(jù)輸入預設強化學習網(wǎng)絡的過程為一個馬爾可夫決策過程,所述馬爾可夫決策過程由一個元組(x,a,p,r,γ)定義,其中x是狀態(tài)空間,a是行動空間,p(xk+1|xk,ak)過渡函數(shù),r(xk,ak)獎勵函數(shù),γ∈[0,1]貼現(xiàn)因子,所述預設強化學習網(wǎng)絡用于確定目標行為,目標行為由策略π定義,以最大化代理的總預期貼現(xiàn)回報j(π),表示為: