基于分層決策機制的多機器人協(xié)作方法
【專利摘要】本發(fā)明提供一種基于分層決策機制的多機器人協(xié)作方法,球員依據(jù)球的位置判斷進行陣型選擇去應(yīng)對比賽;接著所有球員投票選出自己認為此時最佳的持球者前鋒持球者,再進行其它角色分配;判斷是否為前鋒持球者,如果是前鋒持球者,則行走至球處,帶球行走,使用理想行為預(yù)測模型對對手速度進行數(shù)學建模用于前鋒持球者行走踢球決策模塊;如果不是前鋒持球者,則進行其他角色分配后,行走至位置點,進行陣型選擇。本發(fā)明依次實現(xiàn)前鋒持球者的選擇和其它所有球員角色的分配,同時針對前鋒持球者帶球決策模塊建立DOBMP模型,最后采用動態(tài)規(guī)劃算法優(yōu)化角色函數(shù)所帶來的高維數(shù)計算量的問題,保證基于足球位置不斷變化下的角色輪換的流暢性。
【專利說明】基于分層決策機制的多機器人協(xié)作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于分層決策機制的多機器人協(xié)作方法。
【背景技術(shù)】
[0002] 現(xiàn)今國際上最具影響力的 FIRA(Federation of International Robot-soccer Association,國際機器人足球聯(lián)合會)和RoboCup兩大機器世界杯人足球賽,兩者最大的 區(qū)別是FIRA是允許一支球隊采用傳統(tǒng)的集中控制方式,相當于一支球隊中的全體隊友受 同一個大腦的控制。而RoboCup則必須要求采用分布式控制方式,相當于每個隊員有自己 的大腦,因而是一個獨立的"主體"。這就需要對MAS進行深入地研究,讓多個智能體規(guī)劃以 合作和競爭的方式去完成一定的目標任務(wù),使用演化算法和群體智慧以達到一個整體的突 破性行為目標。
[0003] 在R〇b〇Cup3D仿真比賽中,要想贏得一場足球比賽,單靠個人能力是不可能的,必 須有全部隊員的相互配合與協(xié)作,而且R〇boCup3D仿真比賽主要是體現(xiàn)多智能體在復(fù)雜動 態(tài)的環(huán)境下如何實現(xiàn)高效地協(xié)作和頑強地對抗。R〇boCup3D仿真環(huán)境的球員人數(shù)從2010年 的6個智能體變化至2011年的9個人到至今的11個智能體,這對于多智能體的配合提出 了更高的要求。
[0004] 關(guān)于多機器人的協(xié)作機制問題,最近幾年國內(nèi)外都已開始不同程度的探究。例 如葡萄牙的FC Portugal針對球員角色分配問題,采用重復(fù)性最優(yōu)分配(Ι0Α,Iterated Optimal Assignment)方法,是基于著名的貪婪算法下尋求受限的最優(yōu)值,并結(jié)合角色交換 機制;觀察人類的足球運動,有人提出希望通過建立模仿學習機制,統(tǒng)和人類復(fù)雜行為與機 器人動作,然而鑒于模仿學習的基礎(chǔ)框架的未知性,交互接口也很難獲得;美國UT Austin Villa隊伍應(yīng)用子任務(wù)集優(yōu)化方法完成目標框架的設(shè)計,使用動態(tài)角色分配算法協(xié)調(diào)整體 隊伍的占位配合;英國BoldHearts隊伍使用聯(lián)盟算法,旨在構(gòu)建一個強大的聯(lián)盟團隊滿足 外界環(huán)境的要求,能夠按照算法優(yōu)化其動作參數(shù),同時采用無梯度的Infotaxis策略搜索 算法,局部最大化信息增益的速率值;美國的Robocanes隊采用基于時空模型匹配方法,以 建立相關(guān)的運動模型和其內(nèi)部狀態(tài),同時參照德國B-Human隊伍的行走引擎機制,并用遺 傳算法和SARSA學習算法優(yōu)化不同行為動作參數(shù)配置。
[0005] 上述方法都需要一定的優(yōu)化機制和學習方法,針對角色分配問題,其計算量大,更 新速度慢。上述問題是在多機器人協(xié)作過程中應(yīng)當予以考慮并解決的問題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是提供一種基于分層決策機制的多機器人協(xié)作方法,實現(xiàn)整個多機 器人團隊的有效協(xié)作,依次實現(xiàn)前鋒持球者的選擇和其它所有球員角色的分配,同時針對 前鋒持球者帶球決策模塊建立D0BMP模型,最后采用動態(tài)規(guī)劃算法優(yōu)化角色函數(shù)所帶來的 高維數(shù)計算量的問題,保證基于足球位置不斷變化下的角色輪換的流暢性。
[0007] 本發(fā)明的技術(shù)解決方案是:
[0008] -種基于分層決策機制的多機器人協(xié)作方法,
[0009] 球員依據(jù)球的位置判斷進行陣型選擇去應(yīng)對比賽;
[0010] 接著所有球員投票選出自己認為此時最佳的持球者前鋒持球者,再進行其它角色 分配;
[0011] 判斷是否為前鋒持球者,如果是前鋒持球者,則行走至球處,帶球行走,使用理想 行為預(yù)測模型對對手速度進行數(shù)學建模用于前鋒持球者行走踢球決策模塊,即是將球踢至 目標點還是行走帶球至目標點;
[0012] 如果不是前鋒持球者,則進行其他角色分配后,行走至位置點,進行陣型選擇。
[0013] 進一步地,使用理想行為預(yù)測模型對對手速度進行數(shù)學建模用于前鋒持球者行走 踢球決策模塊,具體為:
[0014] 由對手的平均速度和其當前所在的位置,計算出對手到達球位置所需要花費的時 間T ;同時知道我方球員執(zhí)行踢球動作所花費的時間,設(shè)定閾值以預(yù)測我方機器人能否成 功將球踢至目標點;
[0015] 假設(shè)對手可以在t時間內(nèi)阻止我方踢球,當τ-t值越小,我方成功完成踢球任務(wù)的 可能性越大;
[0016] 當τ-t的值小于設(shè)定的閾值時,就認為踢球任務(wù)可以成功完成,此時采取將球踢 至目標點。
[0017] 進一步地,在做出決策后對手仍可以阻止我方踢球,更改建立的對手的瞬時速度 表,也就是,如果我方未能完成踢球任務(wù)就要對速度表設(shè)置懲罰值P :
[0018]
【權(quán)利要求】
1. 一種基于分層決策機制的多機器人協(xié)作方法,其特征在于: 球員依據(jù)球的位置判斷進行陣型選擇去應(yīng)對比賽; 接著所有球員投票選出自己認為此時最佳的持球者前鋒持球者,再進行其它角色分 配; 判斷是否為前鋒持球者,如果是前鋒持球者,則行走至球處,帶球行走,使用理想行為 預(yù)測模型對對手速度進行數(shù)學建模用于前鋒持球者行走踢球決策模塊,即是將球踢至目標 點還是行走帶球至目標點; 如果不是前鋒持球者,則進行其他角色分配后,行走至位置點,進行陣型選擇。
2. 如權(quán)利要求1所述的基于分層決策機制的多機器人協(xié)作方法,其特征在于,使用理 想行為預(yù)測模型對對手速度進行數(shù)學建模用于前鋒持球者行走踢球決策模塊,具體為: 由對手的平均速度和其當前所在的位置,計算出對手到達球位置所需要花費的時間T ; 同時知道我方球員執(zhí)行踢球動作所花費的時間,設(shè)定閾值以預(yù)測我方機器人能否成功將球 踢至目標點; 假設(shè)對手可以在t時間內(nèi)阻止我方踢球,當τ-t值越小,我方成功完成踢球任務(wù)的可能 性越大; 當T-t的值小于設(shè)定的閾值時,就認為踢球任務(wù)可以成功完成,此時采取將球踢至目 標點。
3. 如權(quán)利要求2所述的基于分層決策機制的多機器人協(xié)作方法,其特征在于:在做出 決策后對手仍可以阻止我方踢球,更改建立的對手的瞬時速度表,也就是,如果我方未能完 成踢球任務(wù)就要對速度表設(shè)置懲罰值P :
Ο) 其中,是對手的真實速度與平均速度之差,η是采樣的瞬時速度的個數(shù)。
4. 如權(quán)利要求1-3任一項所述的基于分層決策機制的多機器人協(xié)作方法,其特征在 于,使用動態(tài)規(guī)劃函數(shù)優(yōu)化算法來減少計算量: 首先計算每個智能體到達第一個角色位置的距離值,然后利用角色分配函數(shù)yr計算 每個智能體分別到達第一、二個位置的所有可能性組合的距離值,并保存每對智能體到達 這兩個位置的最低定位代價組合; 對于第k個智能體建立新的定位是基于k-Ι個智能體到達{p^kJ位置的,即利用 角色分配函數(shù)yr計算每個智能體分別到達位置的所有可能性組合的距離值,并 保存每對智能體到達{Ρι···Ρη}位置的最低定位代價組合; 隨后分配每個智能體到達第Pk個位置的距離值并計算出所有智能體到達這三個不同 位置的最低定位代價組合。
5. 如權(quán)利要求4所述的基于分層決策機制的多機器人協(xié)作方法,其特征在于,在計算 最低定位代價組合時:任何子集中存在更低的定位代價,則包含該定位的整個定位方式的 代價必然更低。
6. 如權(quán)利要求5所述的基于分層決策機制的多機器人協(xié)作方法,其特征在于,使用含 不同權(quán)重的投票系統(tǒng)進行投票。
7. 如權(quán)利要求6所述的基于分層決策機制的多機器人協(xié)作方法,其特征在于,投票系 統(tǒng)中,通信信息字節(jié)的分配情況為:
8.如權(quán)利要求7所述的基于分層決策機制的多機器人協(xié)作方法,其特征在于,球員角 色的動態(tài)分配,使用的角色分配函數(shù)yr以實現(xiàn)最佳占位: 按照字典排序的方式選擇,每個智能體在所有可能的占位方式中,所有智能體的走位 之和是最短的路徑; 在最短路徑中,當兩名球員在路徑上有交點,即會出現(xiàn)碰撞的情況,角色分配函數(shù)yr 根據(jù)三角不等性通過交換兩名球員的目標位置來獲得更低的代價。
【文檔編號】G06F17/50GK104063541SQ201410274560
【公開日】2014年9月24日 申請日期:2014年6月18日 優(yōu)先權(quán)日:2014年6月18日
【發(fā)明者】梁志偉, 沈萍, 劉娟 申請人:南京郵電大學