基于性能势的A＊平均奖赏强化学习算法研究

期刊简介

本刊是由中国航天科工集团公司主管, 由航天科工集团十七所主办。它是仿真技术领域的综合性科技期刊。98年起已列入国家科技部中国科...【详细查看】

过刊浏览

2014年第12期
 2014年第11期
 2014年第10期
 2014年第09期
 2014年第08期
 2014年第07期
 2014年第06期

信息公告

您现在所在位置：首页 > 期刊导读 > 2014年 > 07 > 信息摘要

【出处】：《计算机仿真》 CSCD 2014年第31卷第7期 338-341页,共4页

【作者】：黄浩晖 ; 杨宛璐 ; 陈玮

【摘要】强化学习和性能势理论是当前人工智能领域的研究热点，RoboCup足球机器人仿真为人工智能和机器人学研究提供了一个良好的实验平台，针对强化学习和性能势理论在足球机器人仿真应用中求解过程不稳定和收敛速度过慢问题，提出了一个新的强化学习算法——基于性能势的A＊平均奖赏强化学习算法（GA＊-learning）。GA＊-learning在基于性能势的平均奖赏强化学习算法（G—learning）中加入启发式函数，根据启发式策略确定动作的选择，从而加快学习收敛速度。把GA＊—learning运用到通过简化的机器人足球领域——keepaway，仿真结果验证了算法能有效提高系统的性能和收敛速度。

上一篇：基于改进差分进化算法的非线性系统辨识
下一篇：基于承担特质模型的机器人动作序列生成方法