1.一種基于虛擬現(xiàn)實(shí)和強(qiáng)化學(xué)習(xí)的熊蜂機(jī)器人擺腹控制方法,包括:
(1)根據(jù)設(shè)定的熊蜂腹部擺動(dòng)的目標(biāo)模式,采用強(qiáng)化學(xué)習(xí)算法建立Q表,所述Q表記錄了每類擺腹模式下每個(gè)動(dòng)作獲得的累積折扣獎(jiǎng)勵(lì)值;
(2)監(jiān)測(cè)熊蜂當(dāng)前時(shí)刻的擺腹模式,對(duì)照Q表,依據(jù)獎(jiǎng)勵(lì)值最大原則,實(shí)時(shí)做出動(dòng)作控制熊蜂擺腹;
所述動(dòng)作為由環(huán)繞熊蜂流動(dòng)的光束形成的不同參數(shù)的視覺刺激。
2.如權(quán)利要求1所述的熊蜂機(jī)器人擺腹控制方法,其特征在于,所述擺腹模式由單個(gè)滑動(dòng)窗口內(nèi)熊蜂腹部偏轉(zhuǎn)角度的最大值、最小值、平均絕對(duì)值、波峰波谷數(shù)、大于均值點(diǎn)個(gè)數(shù)以及方差構(gòu)成的6維向量表征。
3.如權(quán)利要求1所述的熊蜂機(jī)器人擺腹控制方法,其特征在于,所述滑動(dòng)窗口的寬度為200~400ms。
4.如權(quán)利要求1所述的熊蜂機(jī)器人擺腹控制方法,其特征在于,所述動(dòng)作由若干個(gè)LED顯示屏組成的虛擬現(xiàn)實(shí)系統(tǒng)產(chǎn)生,所述LED顯示屏由基于CAN總線的LED控制系統(tǒng)控制。
5.如權(quán)利要求1所述的熊蜂機(jī)器人擺腹控制方法,其特征在于,所述Q表包含5~20個(gè)動(dòng)作。
6.如權(quán)利要求1所述的熊蜂機(jī)器人擺腹控制方法,其特征在于,所述Q表的建立方法為:
(1)初始化Q表,學(xué)習(xí)速率α,折扣因子γ,擺腹模式聚類中心;
(2)獲得時(shí)刻t熊蜂的擺腹模式xt;
(3)利用序列K-means對(duì)狀態(tài)進(jìn)行聚類離散化,并調(diào)整擺腹模式類中心;
(4)依據(jù)epsilon-greedy選取動(dòng)作at;
(5)執(zhí)行動(dòng)作at,獲得獎(jiǎng)勵(lì)值rt+1和下一時(shí)刻熊蜂的擺腹模式xt+1;
(6)重復(fù)步驟(3)和(4),選取動(dòng)作at+1;
(7)根據(jù)如下公式更新Q表;
Q(xt,at)←Q(xt,at)+α[rt+1+γQ(xt+1,at+1)-Q(xt,at)];
(8)再?gòu)牟襟E(2)開始循環(huán)執(zhí)行,直到Q表收斂。