亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于模糊強(qiáng)化學(xué)習(xí)的機(jī)械臂柔順力控制方法與流程

文檔序號:11498599閱讀:894來源:國知局
一種基于模糊強(qiáng)化學(xué)習(xí)的機(jī)械臂柔順力控制方法與流程

技術(shù)領(lǐng)域:

本發(fā)明屬于人機(jī)交互控制技術(shù)領(lǐng)域,具體是涉及一種基于模糊強(qiáng)化學(xué)習(xí)的機(jī)械臂柔順力控制方法。



背景技術(shù):

在進(jìn)行機(jī)器人輔助微創(chuàng)手術(shù)之前,醫(yī)護(hù)人員需要根據(jù)病人的個體特征制定相應(yīng)的手術(shù)方案,選擇微創(chuàng)手術(shù)的切口位置并以此設(shè)定各機(jī)械臂的初始姿態(tài)。在執(zhí)行過程中,需要將各機(jī)械臂拖拽至微創(chuàng)切口位置并手動調(diào)整手術(shù)臂的關(guān)節(jié)角度,即操作者直接對機(jī)械臂施加外力,根據(jù)操作意圖對機(jī)械臂各連桿位姿進(jìn)行相應(yīng)調(diào)整。通常,機(jī)械臂以減速器作為機(jī)械臂關(guān)節(jié)動力的傳動環(huán)節(jié),大減速比及傳動摩擦?xí)怪鲃雨P(guān)節(jié)的位姿調(diào)整變得困難。

目前常見的解決方法主要有兩種:一種是在減速器后安裝電磁制動器,通過控制電磁制動器的動作實(shí)現(xiàn)減速器與后端動力輸出部分的脫離與吸合,即所謂的被動順應(yīng)控制方式。若機(jī)械臂在此種方式下進(jìn)行拖拽,機(jī)械臂自身的重力全部由操作者承擔(dān),工作強(qiáng)度增大且難以控制操作精度。此外,由于拖拽過程中各關(guān)節(jié)與其驅(qū)動電機(jī)脫離,為了能夠獲得機(jī)械臂調(diào)整后的關(guān)節(jié)轉(zhuǎn)動角度,還需要額外增加編碼器記錄關(guān)節(jié)的位置變化。電磁制動器和輔助編碼器的引入會增大機(jī)械臂的結(jié)構(gòu)尺寸和自身重量,電磁制動器的頻繁吸合也會影響機(jī)器人的絕對位置精度。與之相對的另外一種實(shí)現(xiàn)方式是在關(guān)節(jié)電機(jī)處于受控狀態(tài)下,根據(jù)機(jī)械臂的受力情況估計(jì)操作者的控制意圖,并通過關(guān)節(jié)電機(jī)驅(qū)動機(jī)械臂輔助操作者完成預(yù)期的位姿調(diào)整,即所謂的主動順應(yīng)控制方式。當(dāng)前的主動順應(yīng)控制方法采用在機(jī)械臂末端安裝力傳感器方式控制機(jī)械臂末端執(zhí)行器在笛卡爾空間內(nèi)的位置移動,往往關(guān)注的是末端工具的位置軌跡而非姿態(tài)調(diào)整,加之固定的力交互作用位置也不便于機(jī)械臂連桿姿態(tài)的獨(dú)立調(diào)整,因此并不適用于微創(chuàng)外科手術(shù)機(jī)器人的主動擺位要求。此外,該類方式也存在一定的問題,若采用固定的控制參數(shù)模型則難以兼顧控制精度和操作感受,若采用可變的控制參數(shù)模型又難以保障人機(jī)交互操作的柔順和流暢。



技術(shù)實(shí)現(xiàn)要素:

為解決上述問題,本發(fā)明提出了一種基于模糊強(qiáng)化學(xué)習(xí)的機(jī)械臂柔順力控制方法。

為達(dá)到上述目的,本發(fā)明的技術(shù)方案如下:

一種基于模糊強(qiáng)化學(xué)習(xí)的機(jī)械臂柔順力控制方法,包括如下步驟:

s1:建立導(dǎo)納控制模型。

s2:獲取機(jī)械臂的運(yùn)動狀態(tài)、操作者施加的外力矩以及環(huán)境回報值。

s3:為了獲得與當(dāng)前環(huán)境相適應(yīng)的導(dǎo)納模型參數(shù)調(diào)整策略,根據(jù)步驟s2中獲得的相關(guān)信息,通過模糊強(qiáng)化學(xué)習(xí)進(jìn)行導(dǎo)納模型參數(shù)調(diào)整策略的在線訓(xùn)練,直至算法收斂,以期望獲與當(dāng)前環(huán)境相適應(yīng)的變導(dǎo)納控制模型。

s4:將步驟s3中經(jīng)訓(xùn)練收斂后的導(dǎo)納參數(shù)調(diào)整策略應(yīng)用于變導(dǎo)納控制模型之中,改變參數(shù)后的導(dǎo)納控制模型根據(jù)操作者施加的外力矩和機(jī)械臂關(guān)節(jié)的反饋速度計(jì)算關(guān)節(jié)當(dāng)前速度值并發(fā)送至關(guān)節(jié)驅(qū)動電機(jī)。

作為上述技術(shù)方案的優(yōu)選,所述步驟s3中的模糊強(qiáng)化學(xué)習(xí)具體包括如下步驟:

s31:將機(jī)械臂的運(yùn)動狀態(tài)以及操作者施加的外力矩作為狀態(tài)變量,在各狀態(tài)變量的論域范圍內(nèi)劃分多個模糊集合,建立對應(yīng)的模糊規(guī)則并給出離散動作集合。

s32:根據(jù)當(dāng)前的狀態(tài)輸入計(jì)算各狀態(tài)變量的隸屬度,對狀態(tài)空間進(jìn)行模糊劃分,計(jì)算已激活模糊規(guī)則所對應(yīng)的權(quán)值。

s33:根據(jù)當(dāng)前的導(dǎo)納模型參數(shù)調(diào)整策略選擇離散動作值。

s34:將步驟s3中經(jīng)訓(xùn)練收斂后的導(dǎo)納參數(shù)調(diào)整策略應(yīng)用于變導(dǎo)納控制模型之中,根據(jù)操作者施加的外力矩和機(jī)械臂關(guān)節(jié)的反饋速度計(jì)算關(guān)節(jié)當(dāng)前速度值并發(fā)送至關(guān)節(jié)驅(qū)動電機(jī),從而實(shí)現(xiàn)微創(chuàng)外科手術(shù)機(jī)械臂的主動擺位功能。

s35:根據(jù)當(dāng)前獲得的環(huán)境回報值更新當(dāng)前的導(dǎo)納模型參數(shù)調(diào)整策略。

s36:重復(fù)上述s32-s35步驟,直至算法收斂。

作為上述技術(shù)方案的優(yōu)選,還包括如下步驟:

s0:在各機(jī)械臂關(guān)節(jié)中集成力矩傳感器,所述力矩傳感器用于檢測人機(jī)之間的接觸力矩。

作為上述技術(shù)方案的優(yōu)選,所述步驟s2中:

采用線性回歸的方式離線識別機(jī)械臂的重力補(bǔ)償模型,從而獲取操作者施加的外力矩。

作為上述技術(shù)方案的優(yōu)選,所述步驟s2中:

所述機(jī)械臂的運(yùn)動狀態(tài)包括各機(jī)械臂關(guān)節(jié)的速度及加速度。

本發(fā)明的有益效果在于:

相對于被動順應(yīng)方式,能夠顯著降低操作者的工作強(qiáng)度,改善定位精度,有助于減小結(jié)構(gòu)尺寸和自重。

相對于固定參數(shù)模型的主動順應(yīng)方式,具有良好的自適應(yīng)能力,當(dāng)接觸力矩增加時,力交互控制模型會主動降低環(huán)境的虛擬阻尼參數(shù),使機(jī)械臂的運(yùn)動速度變化的更快,能夠快速跟隨人手臂的運(yùn)動趨勢,給人的操作感受會更省力;反之,當(dāng)接觸力(幅值)逐漸減小時,力交互控制模型會相應(yīng)地增加虛擬阻尼參數(shù)值以提高人機(jī)交互的控制精度,輔助操作者定位,減少過沖量。

相對于時變參數(shù)模型的主動順應(yīng)方式,人機(jī)力交互模型能夠很好地響應(yīng)操作者的控制意圖,使人機(jī)力交互體驗(yàn)更加流暢自然,更接近日常生活中對實(shí)際物體進(jìn)行操作時的力交互感受。

附圖說明:

以下附圖僅旨在于對本發(fā)明做示意性說明和解釋,并不限定本發(fā)明的范圍。其中:

圖1為本發(fā)明一個實(shí)施例的一種基于模糊強(qiáng)化學(xué)習(xí)的機(jī)械臂柔順力控制方法的主動柔順控制流程圖;

圖2為本發(fā)明一個實(shí)施例的模糊強(qiáng)化學(xué)習(xí)流程圖。

具體實(shí)施方式:

如圖1所示,本發(fā)明的一種基于模糊強(qiáng)化學(xué)習(xí)的機(jī)械臂柔順力控制方法,包括如下步驟:

s1:建立導(dǎo)納控制模型。

s2:獲取機(jī)械臂的運(yùn)動狀態(tài)、操作者施加的外力矩以及環(huán)境回報值。所述機(jī)械臂的運(yùn)動狀態(tài)包括各機(jī)械臂主動旋轉(zhuǎn)關(guān)節(jié)的速度及加速度。

s3:為了獲得與當(dāng)前環(huán)境相適應(yīng)的導(dǎo)納模型參數(shù)調(diào)整策略,根據(jù)步驟s2中獲得的相關(guān)信息,通過模糊強(qiáng)化學(xué)習(xí)進(jìn)行導(dǎo)納模型參數(shù)調(diào)整策略的在線訓(xùn)練,直至算法收斂,以期望獲與當(dāng)前環(huán)境相適應(yīng)的變導(dǎo)納控制模型。所述步驟s3中的模糊強(qiáng)化學(xué)習(xí)具體包括如下步驟:

s31:將機(jī)械臂的運(yùn)動狀態(tài)以及操作者施加的外力矩作為狀態(tài)變量(i),在各狀態(tài)變量的論域xi范圍內(nèi)劃分多個模糊集合,建立對應(yīng)的模糊規(guī)則并給出離散動作集合a={u1,u2,…,un},其中,μi為當(dāng)前已激活的模糊規(guī)則(由當(dāng)前的模糊劃分確定)所對應(yīng)的離散分動作。

s32:根據(jù)當(dāng)前的狀態(tài)輸入ii計(jì)算各狀態(tài)變量的隸屬度μi(ii),對狀態(tài)空間進(jìn)行模糊劃分,計(jì)算已激活模糊規(guī)則fi所對應(yīng)的權(quán)值wi,其中,fi表示第i個模糊規(guī)則,wi為相應(yīng)的模糊規(guī)則激活度,即當(dāng)前各模糊狀態(tài)分量對應(yīng)的離散動作的權(quán)值。

s33:根據(jù)當(dāng)前的導(dǎo)納模型參數(shù)調(diào)整策略選擇離散動作值ui。

s34:將步驟s33中的離散動作值整合成最終的動作輸出值u并將該值用于導(dǎo)納控制模型。

s35:根據(jù)當(dāng)前獲得的環(huán)境回報值更新當(dāng)前的導(dǎo)納模型參數(shù)調(diào)整策略。

s36:重復(fù)上述s32-s35步驟,直至算法收斂。

s4:將步驟s3中經(jīng)訓(xùn)練收斂后的導(dǎo)納參數(shù)調(diào)整策略應(yīng)用于變導(dǎo)納控制模型之中,根據(jù)操作者施加的外力矩和機(jī)械臂關(guān)節(jié)的反饋速度計(jì)算關(guān)節(jié)當(dāng)前速度值并發(fā)送至關(guān)節(jié)驅(qū)動電機(jī),從而實(shí)現(xiàn)微創(chuàng)外科手術(shù)機(jī)械臂的主動擺位功能。

本實(shí)施例的控制方法需要在各機(jī)械臂關(guān)節(jié)中集成力矩傳感器,所述力矩傳感器用于檢測人機(jī)之間的接觸力矩。本實(shí)施例中采用線性回歸的方式離線識別機(jī)械臂的重力補(bǔ)償模型,從而獲取操作者施加的外力矩。不同于傳統(tǒng)工業(yè)機(jī)器人的示教方式,微創(chuàng)外科手術(shù)機(jī)器人的術(shù)前擺位過程需要調(diào)節(jié)的是機(jī)械臂各連桿的空間姿態(tài)而非末端執(zhí)行器在世界坐標(biāo)系(笛卡爾坐標(biāo)系)中的空間位置,而通常此類力交互實(shí)現(xiàn)方式采用在機(jī)械臂執(zhí)行末端安裝六維力傳感器的方式實(shí)現(xiàn)交互力信息采集,但這樣做會限制人與機(jī)器人進(jìn)行力交互的作用位置,不利于手術(shù)機(jī)械臂各連桿位姿的獨(dú)立調(diào)整。為解決上述問題將力矩傳感器集成到各機(jī)械臂主動旋轉(zhuǎn)關(guān)節(jié)之中,通過此種方式可使機(jī)械臂與外界環(huán)境的力交互位置擴(kuò)展至整條機(jī)械臂,力矩檢測和力交互控制也更直接可靠。

在關(guān)節(jié)空間內(nèi),結(jié)合實(shí)際應(yīng)用提出了一種基于模糊理論與強(qiáng)化學(xué)習(xí)算法相結(jié)合的變導(dǎo)納控制模型架構(gòu)。在人機(jī)交互過程中,由于人在整個力交互控制回路之中起到引導(dǎo)作用,因此人的操作特性會對力交互效果有較大影響。此外,機(jī)械臂動力學(xué)特性會隨著控制模型參數(shù)的變化而改變,也會對人機(jī)交互產(chǎn)生影響。為了能夠?qū)⒔换ミ^程中的人為因素和動力學(xué)變化考慮到主動順應(yīng)控制模型之中,采用基于多步時間差分的強(qiáng)化學(xué)習(xí)方法通過在線學(xué)習(xí)的方式處理上述因素帶來的問題。同時,模糊理論的引入有助于解決強(qiáng)化學(xué)習(xí)狀態(tài)空間的泛問題,使柔順力控制算法能夠接收連續(xù)的狀態(tài)輸入并產(chǎn)生連續(xù)的控制參數(shù)輸出。此外為了提取操作者施加的外力矩,采用線性回歸的方式離線識別機(jī)械臂的重力補(bǔ)償模型。提出的人機(jī)力交互控制方法無需建立相應(yīng)的任務(wù)及環(huán)境模型,具有更快的收斂速度和穩(wěn)定的實(shí)際效果。

主動柔順控制過程如圖1所示,模糊強(qiáng)化學(xué)習(xí)根據(jù)當(dāng)前的運(yùn)動狀態(tài)結(jié)合經(jīng)訓(xùn)練收斂后的離散動作選擇策略獲得當(dāng)前導(dǎo)納控制模型參數(shù),導(dǎo)納控制模型根據(jù)操作者所施加的外力矩和當(dāng)前關(guān)節(jié)速度控制電機(jī)主動順應(yīng)操作者的控制意圖,以完成力交互任務(wù)。模糊強(qiáng)化學(xué)習(xí)的單步訓(xùn)練過程如圖2所示,首先根據(jù)當(dāng)前的狀態(tài)輸入計(jì)算各狀態(tài)變量的隸屬度并對狀態(tài)空間進(jìn)行模糊劃分,根據(jù)當(dāng)前觸發(fā)的模糊規(guī)則所對應(yīng)的離散動作權(quán)值和探索策略選擇離散動作值并整合輸出最終的導(dǎo)納模型參數(shù)值。將改變參數(shù)的新導(dǎo)納模型用于當(dāng)前的人機(jī)交互過程以獲得當(dāng)前的環(huán)境反饋并根據(jù)反饋值修正動作權(quán)值,使人機(jī)交互過程中期望獲得的性能指標(biāo)趨于最大,不斷迭代上述過程直至算法收斂。

本實(shí)施例以單關(guān)節(jié)力交互控制為例,對上述方法做進(jìn)一步說明,如圖1所示,:

以機(jī)械臂旋轉(zhuǎn)關(guān)節(jié)當(dāng)前測得的速度和加速度以及所受外力矩τh作為狀態(tài)輸入變量,分別在各狀態(tài)變量的論域范圍內(nèi)等間距劃分7個模糊集合,與之對應(yīng)的模糊規(guī)則數(shù)為343(7×7×7)。以導(dǎo)納控制模型中的虛擬阻尼參數(shù)作為強(qiáng)化學(xué)習(xí)的動作輸出,若離散動作集元素個數(shù)為3,則對應(yīng)的模糊規(guī)則權(quán)值數(shù)為1029(7×7×7×3)。人機(jī)柔順力交互控制的實(shí)現(xiàn)包含策略訓(xùn)練和交互應(yīng)用兩部分。在策略訓(xùn)練過程中,以人的最小加加速度模型作為優(yōu)化性能指標(biāo),不斷重復(fù)所需執(zhí)行的人機(jī)交互任務(wù),強(qiáng)化學(xué)習(xí)算法會根據(jù)與操作者交互而產(chǎn)生的經(jīng)驗(yàn)持續(xù)修改智能體的決策策略直至收斂。在人機(jī)交互應(yīng)用過程中,基于強(qiáng)化學(xué)習(xí)的力交互控制算法根據(jù)當(dāng)前的狀態(tài)輸入進(jìn)行模糊劃分以觸發(fā)相應(yīng)的模糊規(guī)則,根據(jù)收斂后的變導(dǎo)納策略選擇每個已激活模糊規(guī)則的最優(yōu)動作值分量,最后通過模糊規(guī)則對應(yīng)的激活度(由對應(yīng)的模糊集合隸屬度的t范數(shù)表示)整合各動作值分量,最終生成當(dāng)前時刻導(dǎo)納控制模型所采用的參數(shù)值c。改變參數(shù)后的導(dǎo)納控制模型根據(jù)操作者施加的外力矩τh和機(jī)械臂關(guān)節(jié)的反饋速度計(jì)算關(guān)節(jié)當(dāng)前速度值并發(fā)送至關(guān)節(jié)驅(qū)動電機(jī)。

本實(shí)施例所述的一種基于模糊強(qiáng)化學(xué)習(xí)的機(jī)械臂柔順力控制方法,采用模糊強(qiáng)化學(xué)習(xí)算法,通過在線學(xué)習(xí)的方式訓(xùn)練導(dǎo)納參數(shù)的實(shí)時調(diào)整策略,收斂后的變導(dǎo)納控制策略根據(jù)操作者所施加的外力矩、當(dāng)前關(guān)節(jié)速度和加速度控制電機(jī)主動順應(yīng)操作者的控制意圖,以完成機(jī)械臂的主動跟隨任務(wù),無需建立相應(yīng)的任務(wù)及環(huán)境模型,具有更快的收斂速度和穩(wěn)定的實(shí)際效果。本方法能夠顯著降低操作者的工作強(qiáng)度,改善定位精度,有助于減小機(jī)械臂結(jié)構(gòu)尺寸和自重,人機(jī)力交互模型能夠很好地響應(yīng)操作者的控制意圖,具有良好的自適應(yīng)能力,可使人機(jī)力交互體驗(yàn)更加流暢自然,更接近日常生活中對實(shí)際物體進(jìn)行操作時的力交互感受。

顯然,上述實(shí)施例僅僅是為清楚地說明所作的舉例,而并非對實(shí)施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實(shí)施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1