电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

多机器人动态编队的强化学习算法研究概要VIP专享VIP免费

多机器人动态编队的强化学习算法研究概要_第1页
多机器人动态编队的强化学习算法研究概要_第2页
多机器人动态编队的强化学习算法研究概要_第3页
10期王醒策等:多机器人动态编队的强化学习算法研究1449图7和图8是系统学习20万次过程中得到的R(t和Err(t,由于空间限制,每学习100次之后计算一次R(t1图6在不同的地图中的编队线形而顺利地通过这一区域,如图4所示1在图5中,队列的环境又比较宽松后,队形会很快地调整到钻形1该方法有很好的泛化能力,在图6所示的地图中,机器人同样可完成编队任务1312实验结果分析编队任务是一个既体现个体机器人自主性又体现队伍的整体性的任务1在整个任务中,机器人既有冲突消减,又有相互协作1判定这种复杂任务的有效性,除了人主观感觉外,还需要客观定量的数据分析1下面定义4个指标来评价算法:(1机器人平均强化信号机器人平均强化信号定义为n1i((Rt=ni=1图7机器人的平均强化信号图8机器人的强化信号方差∑rt,其中,ri(t是机器人i在第t次学习时的强化信号;n为机器人个数1(2机器人强化信号的方差机器人强化信号的方差定义为2Err(t=(R(t-R,其中:R=1NNt=1∑R(t,N为R(t点的个数1(3机器人队形整齐度评价函数机器人队形整齐度评价函数D(T,L定义为n一个强化学习算法的性能需要两方面的判定,一个是算法的收敛性,一个是算法的收敛速度1从图7中可以看出,系统经过几千次的学习后,算法出现收敛的趋势,在学习初始过程,R(t的震荡幅度较大1经过20万次的学习之后,R(t振荡幅度就很小了,可认为已经很好地收敛了1但是实验表明,经进一步的学习之后,R(t的振幅会再次增强,出现过度学习现象1图8也说明同样的问题1图9和图10是系统从4万次学习之后开始测试,每学习2万次后,在图4的地图路径上多次行走后D(T,L和G(T,L的均值1测试结果如下所示:D(T,L=∑∑dis(pos(i,L,t,ti=1(i,L,t,pos′(13式中,D(T,L表示在学习了T次、走完路径L之后,n个机器人每步所处的位置和应处的位置差的和,其中dis(x,y表示x点与y点之间欧式距离1pos(i,L,t表示机器人i在路径L上t时刻的实(i,L,t表示机器人i在路径L上t时际位置,pos′刻的队形期望位置1(4机器人队形变化函数机器人队形变化函数G(T,L表示系统学习了T次、走完路径L之后,系统队形变化次数1R(t和Err(t表示系统对学习结果的评价1图9在图4路径中D(T,L曲线1450计算机研究与发展62003年AkihideHiura1Cooperativebehaviorofvariousagentsindynamicenvironment1JournalofComputersandIndustrialEngineering,1997,33(324:601~6047蔡庆生,张波1一种基于Agent团队的强化学习模型与应用研究1计算机研究与发展,2000,37(9:1087~1093(CaiQingsheng,ZhangBo1Anagentteambasedreinforcementlearningmodelanditsapplication1JournalofComputerResearchandDevelopment(inChinese,2000,37(9:1087~10938TuckerBalch,RonaldCArkin1Behavior2basedformationcontrolformultirobotteams1IEEETransonRoboticsandAutomation,1998,14(6:926~9399JaydevPDesai,VijayKumar,JamesPOstrowski1Controlofchangesinformationforateamofmobilerobots1The1999IEEEInt’lConfonRobotic&Automation,Detroit,Michigan,1999图10在图4路径中D(T,L曲线10强化信号是评价模块产生系统用来评价选择行为好坏的,仅由这一个量来评价算法有失客观1针对编队任务,定义的D(T,L表示机器人保持队形完整的能力,D(T,L表示机器人对地形的适应能力1由图9和图10可知,多次学习后,机器人群体这两方面的能力都得到了很大的提高1从仿真实验结果和4方面数据可判定,经过多次的训练之后,系统可以得到满意的编队结果1WKang1Formationcontrolofmultipleautonomousvehicles1TheIEEE1999Int’lConfonRoboticsandAutomation,SanFrancis2co,20001112HiroakiYamaguchi1Acooperativehuntingbehaviorbymobile2robottroops1RoboticandResearch,1999,18(8:931~940陈卫东,董胜龙1基于开放式多智能体结构的分布式自主机器人系统1机器人,2000,22(6:433~438(ChenWeidong,DongShenglong1Anopenmulti2agentarchitec2turefordistributedautonomousrobotsystems1Robot(inChi2nese,2000,22(6:433~43813TuckerBalch1Behavior2basedformationcontrolformultirobotsteams1IEEETransonRoboticsandAutomation,1998,14(6:926~9394结论14本文介绍了应用强化学习实现编队行为规划的算法1通过仿真实...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部