本技術(shù)涉及鋼筋綁扎現(xiàn)場的無人機(jī)路徑規(guī)劃,具體而言,涉及一種鋼筋綁扎現(xiàn)場的無人機(jī)路徑規(guī)劃方法、裝置、存儲介質(zhì)與電子設(shè)備。
背景技術(shù):
1、無人機(jī)可以在鋼筋綁扎現(xiàn)場快速、靈活地執(zhí)行綁扎質(zhì)量檢測任務(wù)。通過路徑規(guī)劃,可以確保無人機(jī)按照最優(yōu)的路徑完成任務(wù),減少時(shí)間和資源浪費(fèi)。良好的路徑規(guī)劃不僅要全面覆蓋檢測點(diǎn),還要幫助無人機(jī)避開施工現(xiàn)場的障礙物,降低與其他施工設(shè)備或人員的碰撞風(fēng)險(xiǎn),保障施工現(xiàn)場的安全。但是鋼筋綁扎現(xiàn)場通常環(huán)境復(fù)雜,存在大量柱、梁、墻等障礙物和動態(tài)變化的工作條件,這增加了路徑規(guī)劃的難度。
2、無人機(jī)的路徑規(guī)劃方法主要分為經(jīng)典算法和智能算法。經(jīng)典算法包括a*算法、人工勢場法、快速探索隨機(jī)樹(rrt)和元胞分解法。然而,傳統(tǒng)的全局路徑規(guī)劃算法具有規(guī)劃速度快但缺乏最優(yōu)性的特點(diǎn)。依賴于先前環(huán)境信息的規(guī)劃算法可以解決一般的靜態(tài)場景問題,但在障礙物移動的情況下就存在不足,從而造成局限性。
3、因此,針對復(fù)雜場景下無人機(jī)路徑規(guī)劃的挑戰(zhàn),學(xué)者們提出了模擬生物體在動態(tài)環(huán)境中覓食行為的生物啟發(fā)智能算法。這些算法包括遺傳算法、蟻群算法和粒子群算法。隨著任務(wù)環(huán)境的日益復(fù)雜和不確定性,無人機(jī)路徑規(guī)劃面臨更大的挑戰(zhàn)。近年來,基于人工智能的無人機(jī)路徑規(guī)劃研究顯著增加,進(jìn)一步拓展了deep?reinforcement?learning(drl)在無人機(jī)路徑規(guī)劃上的應(yīng)用。現(xiàn)有技術(shù)的無人機(jī)路徑規(guī)劃方法無法實(shí)現(xiàn)在規(guī)劃路徑的同時(shí)避開障礙物,且無人機(jī)路徑規(guī)劃方法規(guī)劃的路徑長度不是最短最優(yōu)的,且規(guī)劃時(shí)間往往需要等待很長時(shí)間。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的主要目的在于提供一種鋼筋綁扎現(xiàn)場的無人機(jī)路徑規(guī)劃方法、裝置、存儲介質(zhì)與電子設(shè)備,以至少解決現(xiàn)有技術(shù)的無人機(jī)路徑規(guī)劃方法規(guī)劃的路徑長度不是最短最優(yōu)的,且規(guī)劃時(shí)間往往需要等待很長時(shí)間的問題。
2、為了實(shí)現(xiàn)上述目的,根據(jù)本技術(shù)的一個(gè)方面,提供了一種鋼筋綁扎現(xiàn)場的無人機(jī)路徑規(guī)劃方法,包括:構(gòu)建具有馬爾可夫性質(zhì)的鋼筋綁扎現(xiàn)場的無人機(jī)路徑規(guī)劃環(huán)境,其中,所述無人機(jī)路徑規(guī)劃環(huán)境包括:障礙物評估模型、無人機(jī)位置模型、無人機(jī)運(yùn)動方向模型、獎勵(lì)函數(shù)模型;獲取歷史時(shí)間段內(nèi)的歷史初始位置和歷史終止位置,且將所述歷史初始位置、所述歷史終止位置和所述無人機(jī)路徑規(guī)劃環(huán)境模型輸入至動作選擇策略模型中運(yùn)算得到歷史無人機(jī)動作策略,且采用歷史無人機(jī)動作策略控制無人機(jī)移動且在移動的過程中獲取歷史實(shí)時(shí)運(yùn)行數(shù)據(jù),將所述歷史實(shí)時(shí)運(yùn)行數(shù)據(jù)確定為樣本數(shù)據(jù),所述樣本數(shù)據(jù)包括:無人機(jī)當(dāng)前時(shí)刻位置信息、無人機(jī)當(dāng)前時(shí)刻方向信息、無人機(jī)下一時(shí)刻預(yù)測位置信息、無人機(jī)當(dāng)前時(shí)刻獎勵(lì)數(shù)據(jù)、所述樣本數(shù)據(jù)的優(yōu)先級;獲取對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型,其中,所述對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型是采用所述樣本數(shù)據(jù)訓(xùn)練得到的;將所述無人機(jī)的初始位置、終止位置輸入至所述對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型中進(jìn)行預(yù)測,得到所述無人機(jī)在所述鋼筋綁扎現(xiàn)場的飛行路徑。
3、可選地,構(gòu)建具有馬爾可夫性質(zhì)的鋼筋綁扎現(xiàn)場的無人機(jī)路徑規(guī)劃環(huán)境模型,包括:根據(jù)所述無人機(jī)與障礙物之間的距離、危險(xiǎn)區(qū)最大半徑設(shè)定值、所述危險(xiǎn)區(qū)內(nèi)所述障礙物的最大半徑設(shè)定值確定所述障礙物評估模型;構(gòu)建所述無人機(jī)位置模型和所述無人機(jī)運(yùn)動方向模型,其中,所述無人機(jī)位置模型用來確定所述無人機(jī)在二維空間內(nèi)的位置,所述無人機(jī)運(yùn)動方向模型用來將所述鋼筋綁扎現(xiàn)場的區(qū)域進(jìn)行劃分,確定所述無人機(jī)的運(yùn)動方向;構(gòu)建獎勵(lì)函數(shù)模型,采用所述獎勵(lì)函數(shù)模型對所述無人機(jī)的運(yùn)行狀態(tài)進(jìn)行獎勵(lì);根據(jù)所述障礙物評估模型、所述無人機(jī)位置模型、所述無人機(jī)運(yùn)動方向模型以及所述獎勵(lì)函數(shù)模型構(gòu)建具有所述馬爾可夫性質(zhì)的所述鋼筋綁扎現(xiàn)場的所述無人機(jī)路徑規(guī)劃環(huán)境。
4、可選地,根據(jù)所述無人機(jī)與障礙物之間的距離、危險(xiǎn)區(qū)最大半徑設(shè)定值、所述危險(xiǎn)區(qū)內(nèi)所述障礙物的最大半徑設(shè)定值確定障礙物評估模型,包括:根據(jù)第一公式:,確定所述無人機(jī)被撞毀的概率,式中,為所述無人機(jī)被撞毀的概率,d為所述無人機(jī)與障礙物之間的距離,表示危險(xiǎn)區(qū)最大半徑設(shè)定值,為所述危險(xiǎn)區(qū)內(nèi)所述障礙物的最大半徑設(shè)定值,其中,;根據(jù)第二公式:評估所述無人機(jī)受損的總體危險(xiǎn)度,式中,為所述無人機(jī)受損的總體危險(xiǎn)度,k表示危險(xiǎn)區(qū)域的數(shù)量,是無人機(jī)在穿過第i個(gè)危險(xiǎn)區(qū)時(shí)被摧毀的概率;根據(jù)所述第一公式和所述第二公式確定所述障礙物評估模型。
5、可選地,構(gòu)建獎勵(lì)函數(shù)模型,采用所述獎勵(lì)函數(shù)模型對所述無人機(jī)的運(yùn)行狀態(tài)進(jìn)行獎勵(lì),包括:采用第五公式:構(gòu)建所述獎勵(lì)函數(shù)模型,式中,r為獎勵(lì)函數(shù),為所述無人機(jī)飛入危險(xiǎn)區(qū)的懲罰項(xiàng),懲罰值,為所述無人機(jī)飛到目標(biāo)位置的獎勵(lì)項(xiàng),獎勵(lì)a值,為所述無人機(jī)飛出所述鋼筋綁扎現(xiàn)場的懲罰項(xiàng),懲罰b值,為所述無人機(jī)的飛行時(shí)間超過飛行時(shí)間閾值的懲罰項(xiàng),懲罰c值,為所述無人機(jī)在其他設(shè)定狀態(tài)下的懲罰項(xiàng),懲罰d值;其中,根據(jù)第六公式確定值,其中,為所述無人機(jī)受損的總體危險(xiǎn)度,為危險(xiǎn)度閾值。
6、可選地,將所述歷史初始位置、所述歷史終止位置和所述無人機(jī)路徑規(guī)劃環(huán)境模型輸入至動作選擇策略模型中運(yùn)算得到歷史無人機(jī)動作策略,包括:根據(jù)所述歷史初始位置、所述歷史終止位置,采用啟發(fā)式搜索算法對所述無人機(jī)運(yùn)動方向模型進(jìn)行劃分,得到多個(gè)子運(yùn)行方向;采用貪婪策略算法根據(jù)多個(gè)所述子運(yùn)行方向控制所述無人機(jī)動作,生成多個(gè)所述歷史無人機(jī)動作策略。
7、可選地,在采用歷史無人機(jī)動作策略控制無人機(jī)移動且在移動的過程中獲取歷史實(shí)時(shí)運(yùn)行數(shù)據(jù),將所述歷史實(shí)時(shí)運(yùn)行數(shù)據(jù)確定為樣本數(shù)據(jù)之后,所述方法還包括:構(gòu)建優(yōu)先飛行經(jīng)驗(yàn)存放池,將所述樣本數(shù)據(jù)輸入所述優(yōu)先飛行經(jīng)驗(yàn)存放池;將所述優(yōu)先飛行經(jīng)驗(yàn)存放池的所述樣本數(shù)據(jù)按照所述優(yōu)先級從高到低的順序選取預(yù)設(shè)數(shù)量個(gè)所述經(jīng)驗(yàn)樣本數(shù)據(jù)輸入所述初始對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型,生成評估網(wǎng)絡(luò)的預(yù)期q值和目標(biāo)網(wǎng)絡(luò)的目標(biāo)q值,其中,所述初始對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型包括所述評估網(wǎng)絡(luò)和所述目標(biāo)網(wǎng)絡(luò);根據(jù)所述目標(biāo)q值與所述預(yù)期q值,采用第三公式:,確定td目標(biāo)誤差值,其中,表示所述td目標(biāo)誤差值,表示所述目標(biāo)網(wǎng)絡(luò)的參數(shù),為所述目標(biāo)q值,q為所述預(yù)期q值,表示所述評估網(wǎng)絡(luò)的參數(shù),表示折扣因子,用于表示所述無人機(jī)對未來獎勵(lì)的重視程度,a為所述無人機(jī)的運(yùn)動方向,下標(biāo)j表示第j個(gè)所述經(jīng)驗(yàn)樣本數(shù)據(jù),表示所述無人機(jī)獲得的獎勵(lì),表示無人機(jī)位置s的特征向量,用于近似狀態(tài)值,函數(shù)表示尋找一個(gè)動作使得評估網(wǎng)絡(luò)q的目標(biāo)q值最大;根據(jù)所述td目標(biāo)誤差值與所述評估網(wǎng)絡(luò)的所述預(yù)期q值采用第四公式:,確定所述初始對偶策略學(xué)習(xí)模型的損失函數(shù),其中,為所述損失函數(shù),表示第j個(gè)所述經(jīng)驗(yàn)樣本數(shù)據(jù)的優(yōu)先級權(quán)重,為無人機(jī)的位置;根據(jù)所述損失函數(shù)優(yōu)化所述對偶策略學(xué)習(xí)網(wǎng)絡(luò)的所述目標(biāo)網(wǎng)絡(luò)的參數(shù)和所述評估網(wǎng)絡(luò)的參數(shù),得到所述對偶策略學(xué)習(xí)模型。
8、可選地,在根據(jù)所述損失函數(shù)優(yōu)化所述對偶策略學(xué)習(xí)網(wǎng)絡(luò)的所述目標(biāo)網(wǎng)絡(luò)的參數(shù)和所述評估網(wǎng)絡(luò)的參數(shù)之后,所述方法還包括:采用第七公式:,重新計(jì)算所述優(yōu)先飛行經(jīng)驗(yàn)存放池的所述樣本數(shù)據(jù)的優(yōu)先級,式中,表示所述樣本數(shù)據(jù)的優(yōu)先級,表示所述td目標(biāo)誤差值,為所述樣本數(shù)據(jù)j的預(yù)期q值,表示探索率。
9、根據(jù)本技術(shù)的另一方面,提供了一種鋼筋綁扎現(xiàn)場的無人機(jī)路徑規(guī)劃裝置,包括:構(gòu)建單元,用于構(gòu)建具有馬爾可夫性質(zhì)的鋼筋綁扎現(xiàn)場的無人機(jī)路徑規(guī)劃環(huán)境,其中,所述無人機(jī)路徑規(guī)劃環(huán)境包括:障礙物評估模型、無人機(jī)位置模型、無人機(jī)運(yùn)動方向模型、獎勵(lì)函數(shù)模型;第一獲取單元,用于獲取歷史時(shí)間段內(nèi)的歷史初始位置和歷史終止位置,且將所述歷史初始位置、所述歷史終止位置和所述無人機(jī)路徑規(guī)劃環(huán)境模型輸入至動作選擇策略模型中運(yùn)算得到歷史無人機(jī)動作策略,且采用歷史無人機(jī)動作策略控制無人機(jī)移動且在移動的過程中獲取歷史實(shí)時(shí)運(yùn)行數(shù)據(jù),將所述歷史實(shí)時(shí)運(yùn)行數(shù)據(jù)確定為樣本數(shù)據(jù),所述樣本數(shù)據(jù)包括:無人機(jī)當(dāng)前時(shí)刻位置信息、無人機(jī)當(dāng)前時(shí)刻方向信息、無人機(jī)下一時(shí)刻預(yù)測位置信息、無人機(jī)當(dāng)前時(shí)刻獎勵(lì)數(shù)據(jù)、所述樣本數(shù)據(jù)的優(yōu)先級;第二獲取單元,用于獲取對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型,其中,所述對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型是采用所述樣本數(shù)據(jù)訓(xùn)練得到的;預(yù)測單元,用于將所述無人機(jī)的初始位置、終止位置輸入至所述對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型中進(jìn)行預(yù)測,得到所述無人機(jī)在所述鋼筋綁扎現(xiàn)場的飛行路徑。
10、根據(jù)本技術(shù)的再一方面,提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)包括存儲的程序,其中,在所述程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲介質(zhì)所在設(shè)備執(zhí)行任意一種所述的鋼筋綁扎現(xiàn)場的無人機(jī)路徑規(guī)劃方法。
11、根據(jù)本技術(shù)的又一方面,提供了一種電子設(shè)備,包括:一個(gè)或多個(gè)處理器,存儲器,以及一個(gè)或多個(gè)程序,其中,所述一個(gè)或多個(gè)程序被存儲在所述存儲器中,并且被配置為由所述一個(gè)或多個(gè)處理器執(zhí)行,所述一個(gè)或多個(gè)程序包括用于執(zhí)行任意一種所述的鋼筋綁扎現(xiàn)場的無人機(jī)路徑規(guī)劃方法。
12、應(yīng)用本技術(shù)的技術(shù)方案,構(gòu)建具有馬爾可夫性質(zhì)的鋼筋綁扎現(xiàn)場的無人機(jī)路徑規(guī)劃環(huán)境,其中,無人機(jī)路徑規(guī)劃環(huán)境包括:障礙物評估模型、無人機(jī)位置模型、無人機(jī)運(yùn)動方向模型、獎勵(lì)函數(shù)模型;獲取歷史時(shí)間段內(nèi)的歷史初始位置和歷史終止位置,且將歷史初始位置、歷史終止位置和無人機(jī)路徑規(guī)劃環(huán)境模型輸入至動作選擇策略模型中運(yùn)算得到歷史無人機(jī)動作策略,且采用歷史無人機(jī)動作策略控制無人機(jī)移動且在移動的過程中獲取歷史實(shí)時(shí)運(yùn)行數(shù)據(jù),將歷史實(shí)時(shí)運(yùn)行數(shù)據(jù)確定為樣本數(shù)據(jù),樣本數(shù)據(jù)包括:無人機(jī)當(dāng)前時(shí)刻位置信息、無人機(jī)當(dāng)前時(shí)刻方向信息、無人機(jī)下一時(shí)刻預(yù)測位置信息、無人機(jī)當(dāng)前時(shí)刻獎勵(lì)數(shù)據(jù)、樣本數(shù)據(jù)的優(yōu)先級;獲取對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型,其中,對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型是采用樣本數(shù)據(jù)訓(xùn)練得到的;將無人機(jī)的初始位置、終止位置輸入至對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型中進(jìn)行預(yù)測,得到無人機(jī)在鋼筋綁扎現(xiàn)場的飛行路徑。通過根據(jù)使用無人機(jī)進(jìn)行鋼筋綁扎質(zhì)量檢測任務(wù)建立了具有馬爾可夫性質(zhì)的鋼筋綁扎現(xiàn)場的無人機(jī)路徑規(guī)劃環(huán)境,并采用對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型讓無人機(jī)智能體更好地選擇一個(gè)動作執(zhí)行,能夠使無人機(jī)在更短時(shí)間內(nèi)做出最優(yōu)策略來規(guī)劃到達(dá)目標(biāo)位置的檢測飛行路徑,適合鋼筋綁扎質(zhì)量檢測這類實(shí)時(shí)任務(wù),同時(shí)智能避開鋼筋綁扎現(xiàn)場可能存在的障礙物;解決了現(xiàn)有技術(shù)的無人機(jī)路徑規(guī)劃方法規(guī)劃的路徑長度不是最短最優(yōu)的,且規(guī)劃時(shí)間往往需要等待很長時(shí)間的問題。