本技術(shù)涉及船舶控制,尤其涉及一種船舶自動靠泊控制方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、船舶自動靠泊技術(shù)的研究始于1970年代,隨著船舶工業(yè)的發(fā)展和航運任務(wù)的復雜性,對自動靠泊技術(shù)的需求越來越高。自動靠泊系統(tǒng)可以提高船舶的安全性和效率,減少人為操作錯誤和不必要的停機時間,還可以緩解船員的工作壓力,因此它已成為船舶控制系統(tǒng)不可或缺的一部分。船舶自動靠泊技術(shù)的研究主要涉及船舶動力學、控制理論、計算機技術(shù)等多個領(lǐng)域。自動靠泊系統(tǒng)的設(shè)計和實現(xiàn)需要結(jié)合船舶的特點和實際應(yīng)用要求,同時選擇合適的控制算法和控制策略。而內(nèi)河集裝箱船在靠泊過程中,需要考慮大量情況。一方面由于受到風、浪、流以及變效應(yīng)的影響,會產(chǎn)生復雜的動力學行為,難以精準操控船舶運行,需要經(jīng)驗豐富的船員來完成靠泊過程。另一方面靠泊過程中的低速航行,難以對船舶進行精準建模。目前船舶自動靠泊系統(tǒng)的研究,都是通過船舶靠泊數(shù)據(jù)作為訓練數(shù)據(jù)對于人工神經(jīng)網(wǎng)絡(luò)進行訓練,以利用訓練好的兩種模型分別進行軌跡規(guī)劃和控制,這種方式要求大量的訓練數(shù)據(jù)和大量訓練時間,針對船舶自動靠離泊算法的工作量較大且建模精度低,導致船舶自動靠泊過程碰撞風險大。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的主要目的在于提出一種船舶自動靠泊控制方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì),減少船舶自動靠離泊算法建模的工作量,提高建模精度,提高船舶自動靠泊過程安全性。
2、為實現(xiàn)上述目的,本技術(shù)實施例的一方面提出了一種船舶自動靠泊控制方法,包括以下步驟:
3、獲取當前船舶的運動狀態(tài)數(shù)據(jù)和距離目標泊位的第一相對距離,其中,所述運動狀態(tài)數(shù)據(jù)包括船舶航速;
4、將所述運動狀態(tài)數(shù)據(jù)和所述第一相對距離輸入用于船舶自動靠泊的控制策略模型,得到下一時刻的船舶控制量,其中,所述船舶控制量包括船舶舵角與轉(zhuǎn)速;
5、其中,所述控制策略模型基于強化學習算法訓練得到,所述控制策略模型的訓練過程包括以下步驟:
6、獲取環(huán)境交互數(shù)據(jù);
7、通過最大化目標函數(shù),根據(jù)所述環(huán)境交互數(shù)據(jù)訓練價值網(wǎng)絡(luò),并根據(jù)所述價值網(wǎng)絡(luò)和所述環(huán)境交互數(shù)據(jù)訓練策略網(wǎng)絡(luò),其中,所述目標函數(shù)表征策略網(wǎng)絡(luò)輸出的動作的累計獎勵值,所述動作表征船舶控制量;
8、根據(jù)訓練好的策略網(wǎng)絡(luò)確定控制策略模型。
9、在一些實施例中,所述獲取當前船舶的運動狀態(tài)數(shù)據(jù)和距離目標泊位的第一相對距離,包括以下步驟:
10、通過設(shè)置在船舶上的微波雷達陣列采集船舶與岸邊的第二相對距離;
11、通過設(shè)置在船舶上的定位裝置采集船舶位置;
12、根據(jù)所述第一相對距離、所述船舶位置和目標泊位位置確定第一相對距離;
13、通過設(shè)置在船舶上的電子航向儀采集運動狀態(tài)數(shù)據(jù)。
14、在一些實施例中,所述獲取環(huán)境交互數(shù)據(jù),包括以下步驟:
15、獲取靠泊任務(wù)信息,其中,所述靠泊任務(wù)信息包括環(huán)境地圖、目標泊位和獎勵函數(shù);
16、根據(jù)船舶數(shù)學模型和所述靠泊任務(wù)信息構(gòu)造子進程下的強化學習環(huán)境;
17、基于所述強化學習環(huán)境,采用主進程的控制策略指導智能體的行為,得到子進程的環(huán)境反饋數(shù)據(jù);
18、根據(jù)各個子進程下的環(huán)境反饋數(shù)據(jù)確定環(huán)境交互數(shù)據(jù)。
19、在一些實施例中,所述目標函數(shù)表示如下:
20、
21、
22、其中,r(sk,ak)表示定義好的獎勵函數(shù),t是設(shè)定好的靠泊任務(wù)時長,sk=[uk,vk,φk,xk,yk,ψk]t是狀態(tài)向量,xk、yk表示船舶位置,uk,vk分別表示縱向速度與橫漂速度,ψk表示船舶航向,φk表示艏搖角速度,動作表示船舶控制量,表示推進器推力、表示舵力矩;si表示船舶初始狀態(tài),sf表示在策略網(wǎng)絡(luò)控制下達到的目標終止狀態(tài);smin和smax分別表示狀態(tài)最小值和狀態(tài)最大值,amin和amax分別表示動作最小值和動作最大值。
23、在一些實施例中,所述獎勵函數(shù)表示為:
24、
25、其中,β表示權(quán)重因子,α為大于零的系數(shù),sk表示當前狀態(tài),sf表示目標終止狀態(tài),c表示常數(shù)。
26、在一些實施例中,所述通過最大化目標函數(shù),根據(jù)所述環(huán)境交互數(shù)據(jù)訓練價值網(wǎng)絡(luò),并根據(jù)所述價值網(wǎng)絡(luò)和所述環(huán)境交互數(shù)據(jù)訓練策略網(wǎng)絡(luò),包括以下步驟:
27、根據(jù)所述環(huán)境交互數(shù)據(jù)中當前批次訓練數(shù)據(jù)訓練價值網(wǎng)絡(luò);
28、將所述當前批次訓練數(shù)據(jù)中的狀態(tài)輸入策略網(wǎng)絡(luò)得到下一時刻的動作分布;
29、采用所述價值網(wǎng)絡(luò)對下一時刻的動作分布進行動作選擇,得到目標動作;
30、根據(jù)所述目標動作相對應(yīng)的狀態(tài)確定目標函數(shù)的值;
31、根據(jù)所述目標函數(shù)的值確定當前是否找到目標函數(shù)最大值;
32、當沒有找到目標函數(shù)最大值,則更新所述策略網(wǎng)絡(luò)的參數(shù),并根據(jù)所述環(huán)境交互數(shù)據(jù)中下一批次訓練數(shù)據(jù)繼續(xù)訓練所述價值網(wǎng)絡(luò)和所述策略網(wǎng)絡(luò);
33、當找到目標函數(shù)最大值,則將當前的策略網(wǎng)絡(luò)確定為訓練完成的策略網(wǎng)絡(luò)。
34、在一些實施例中,所述更新所述策略網(wǎng)絡(luò)的參數(shù)包括以下步驟:
35、確定當前的訓練次數(shù);
36、根據(jù)所述訓練次數(shù)選擇相應(yīng)的代理目標用于指導策略網(wǎng)絡(luò)的參數(shù)更新,其中,當所述訓練次數(shù)小于預(yù)設(shè)次數(shù),則選擇第一代理目標;當所述訓練次數(shù)大于或等于預(yù)設(shè)次數(shù),則選擇第二代理目標;
37、其中,所述第一代理目標表示如下:
38、
39、所述第二代理目標表示如下:
40、
41、其中,∈代表截斷超參數(shù),clup()表示截斷函數(shù),rt表示新舊策略比值,表示優(yōu)勢函數(shù)。
42、為實現(xiàn)上述目的,本技術(shù)實施例的另一方面提出了一種船舶自動靠泊控制系統(tǒng),包括:
43、第一模塊,用于獲取當前船舶的運動狀態(tài)數(shù)據(jù)和距離目標泊位的第一相對距離,其中,所述運動狀態(tài)數(shù)據(jù)包括船舶航速;
44、第二模塊,用于將所述運動狀態(tài)數(shù)據(jù)和所述第一相對距離輸入用于船舶自動靠泊的控制策略模型,得到下一時刻的船舶控制量,其中,所述船舶控制量包括船舶舵角與轉(zhuǎn)速;
45、其中,所述控制策略模型基于強化學習算法訓練得到,所述控制策略模型的訓練過程包括以下步驟:
46、獲取環(huán)境交互數(shù)據(jù);
47、通過最大化目標函數(shù),根據(jù)所述環(huán)境交互數(shù)據(jù)訓練價值網(wǎng)絡(luò),并根據(jù)所述價值網(wǎng)絡(luò)和所述環(huán)境交互數(shù)據(jù)訓練策略網(wǎng)絡(luò),其中,所述目標函數(shù)表征策略網(wǎng)絡(luò)輸出的動作的累計獎勵值,所述動作表征船舶控制量;
48、根據(jù)訓練好的策略網(wǎng)絡(luò)確定控制策略模型。
49、為實現(xiàn)上述目的,本技術(shù)實施例的另一方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲器、處理器、存儲在所述存儲器上并可在所述處理器上運行的程序以及用于實現(xiàn)所述處理器和所述存儲器之間的連接通信的數(shù)據(jù)總線,所述程序被所述處理器執(zhí)行時實現(xiàn)上述實施例所述的方法。
50、為實現(xiàn)上述目的,本技術(shù)實施例的另一方面提出了一種存儲介質(zhì),所述存儲介質(zhì)為計算機可讀存儲介質(zhì),用于計算機可讀存儲,所述存儲介質(zhì)存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執(zhí)行,以實現(xiàn)上述實施例所述的方法。
51、本技術(shù)提出的船舶自動靠泊控制方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì),其通過獲取當前船舶的運動狀態(tài)數(shù)據(jù)和距離目標泊位的第一相對距離,將運動狀態(tài)數(shù)據(jù)和第一相對距離輸入用于船舶自動靠泊的控制策略模型,得到下一時刻的船舶控制量??刂撇呗阅P突趶娀瘜W習算法訓練得到,即獲取環(huán)境交互數(shù)據(jù),通過最大化目標函數(shù),根據(jù)環(huán)境交互數(shù)據(jù)訓練價值網(wǎng)絡(luò),并根據(jù)價值網(wǎng)絡(luò)和環(huán)境交互數(shù)據(jù)訓練策略網(wǎng)絡(luò),其中,目標函數(shù)表征策略網(wǎng)絡(luò)輸出的動作的累計獎勵值,動作表征船舶控制量,然后根據(jù)訓練好的策略網(wǎng)絡(luò)確定控制策略模型。本技術(shù)利用強化學習使得靠泊任務(wù)過程中不再依賴船舶運動模型來控制船舶的運動,同時也不需要大量的訓練數(shù)據(jù),通過強化學習算法可以減少船舶自動靠離泊算法建模的工作量,提高建模精度,從而提高船舶自動靠泊過程安全性。