期刊简介
本刊是由中国航天科工集团公司主管, 由航天科工集团十七所主办。它是仿真技术领域的综合性科技期刊。98年起已列入国家科技部中国科...【详细查看】
过刊浏览
信息公告
- 15/01 中国航天科工信...
- 14/09航天工业机关服务...
- 14/10航天信息股份有限...
- 14/12湖南航天工业总公...
- 14/08中国航天科工集团...
- 14/07中国航天科工集团...
- 14/06 南京航天管理干...
基于性能势的A*平均奖赏强化学习算法研究
【出 处】:《
计算机仿真
》
CSCD
2014年第31卷第7期 338-341页,共4页
【作 者】:
黄浩晖
;
杨宛璐
;
陈玮
【摘 要】
强化学习和性能势理论是当前人工智能领域的研究热点,RoboCup足球机器人仿真为人工智能和机器人学研究提供了一个良好的实验平台,针对强化学习和性能势理论在足球机器人仿真应用中求解过程不稳定和收敛速度过慢问题,提出了一个新的强化学习算法——基于性能势的A*平均奖赏强化学习算法(GA*-learning)。GA*-learning在基于性能势的平均奖赏强化学习算法(G—learning)中加入启发式函数,根据启发式策略确定动作的选择,从而加快学习收敛速度。把GA*—learning运用到通过简化的机器人足球领域——keepaway,仿真结果验证了算法能有效提高系统的性能和收敛速度。
相关热词搜索: 强化学习 性能势 启发式搜索 半马尔科夫决策过程 Reinforcement learning Performance potentials Heuristic search Semi-Markov decision process